JP2022133409A

JP2022133409A - 仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器

Info

Publication number: JP2022133409A
Application number: JP2022109219A
Authority: JP
Inventors: 展望張; Zhanwang Zhang; 天舒胡; Tianshu Hu; 智濱洪; Zhibin Hong; 志良徐; Zhiliang Xu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-28
Filing date: 2022-07-06
Publication date: 2022-09-13
Anticipated expiration: 2042-07-06
Also published as: JP7401606B2; CN113971828A; CN113971828B; US20220383574A1

Abstract

【課題】仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器を提供する。【解決手段】方法は、音声素片と仮想オブジェクトの目標顔部画像データを取得し、音声素片と目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、仮想オブジェクトの音声素片による駆動での第一リップ画像データを得る。ここで、第一目標モデルは、第一モデル及び第二モデルに基づいて訓練して得られ、リップ画像データに対するリップシンク判別モデルである。第二モデルは、リップ画像データにおけるリップ部領域に対するリップシンク判別モデルである。【選択図】図１

Description

本開示は人工知能技術分野に関し、特にコンピュータ視覚、深層学習の技術分野に関し、具体的には仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器に関する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）及びビッグデータ技術の急速な発展に伴い、ＡＩは既に生活の様々な方面に浸透し、仮想オブジェクト技術はＡＩ技術における重要なサブ分野の一つであり、それはＡＩ技術としての例えば深層学習技術により仮想オブジェクトの映像を構築し、この仮想オブジェクトの顔部表情を駆動することにより、人間が話すことをシミュレーションすることができる。

顔部表情駆動の主な応用は音声により仮想オブジェクトリップ駆動を実現することにより、音声とリップとの同期という目的を達成することである。現在、仮想オブジェクトリップ駆動の解決手段は一般的にはリップシンク精度に注目し、仮想オブジェクトの顔部画像に対して特徴抽出を行い、かつ音声に対応するリップを顔部のテクスチャとレンダリングすることにより、リップシンクという目的を達成する。

本開示は仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器を提供する。

本開示の第一態様によれば、仮想オブジェクトリップ駆動方法を提供し、
音声素片及び仮想オブジェクトの目標顔部画像データを取得することと、
前記音声素片と前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得ることとを含み、
ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである。

本開示の第二態様によれば、モデル訓練方法を提供し、
第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得することと、
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得ることと、
それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データと前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得ることと、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定することと、
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新することとを含む。

本開示の第三態様によれば、仮想オブジェクトリップ駆動装置を提供し、
音声素片及び仮想オブジェクトの目標顔部画像データを取得するために用いられる第一取得モジュールと、
前記音声素片及び前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得るために用いられる第一操作モジュールとを含み、
ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである。

本開示の第四態様によれば、モデル訓練装置を提供し、
第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得するために用いられる第二取得モジュールと、
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得るために用いられる第二操作モジュールと、
それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データ及び前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得るために用いられるリップシンク判別モジュールと、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定するために用いられる第一決定モジュールと、
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新するために用いられる第一更新モジュールとを含む。

本開示の第五態様によれば、電子機器を提供し、
少なくとも一つのプロセッサ、及び
少なくとも一つのプロセッサと通信接続されるメモリを含み、ここで、
メモリは少なくとも一つのプロセッサが実行可能な指令を記憶しており、該指令は少なくとも一つのプロセッサにより実行されることにより、少なくとも一つのプロセッサが第一態様のいずれかの方法を実行するか、又は第二態様のいずれかの方法を実行することができる。

本開示の第六態様によれば、コンピュータ指令を記憶している非一時的なコンピュータ読み取り可能な記憶媒体を提供し、該コンピュータ指令はコンピュータに第一態様のいずれかの方法を実行させるか、又は第二態様のいずれかの方法を実行させるために用いられる。

本開示の第七態様によれば、コンピュータプログラムを提供し、該コンピュータプログラムはプロセッサにより実行される場合に第一態様のいずれかの方法を実現するか、又は実行される場合に第二態様のいずれかの方法を実現する。

本開示の技術によれば、生成された仮想オブジェクトリップ画像データのリップ部のテクスチャが悪いという問題を解決し、仮想オブジェクトリップ画像データの品質を向上させる。

理解すべきように、本部分に記載された内容は本開示の実施例のキー又は重要な特徴を標識することを意図するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は以下の説明により容易に理解できる。

図面は本解決手段をよりよく理解するために用いられ、本開示を限定するものではない。

図１は、本開示の第一実施例に係る仮想オブジェクトリップ駆動方法の概略フローチャートである。図２は、本開示の第二実施例に係るモデル訓練方法の概略フローチャートである。図３は、本開示の第三実施例に係る仮想オブジェクトリップ駆動装置の概略構成図である。図４は、本開示の第四実施例に係るモデル訓練装置の概略構成図である。図５は、本開示の実施例を実施するための例示的な電子機器の概略ブロック図である。

以下に図面を参照しながら本開示の例示的な実施例を説明し、ここで本開示の実施例の様々な詳細を含んで理解に役立ち、それらを例示的なものと考えるべきである。したがって、当業者であれば理解すべきように、本開示の範囲及び精神から逸脱せずに、ここで説明した実施例に対して様々な変更及び修正を行うことができる。同様に、明確かつ簡単に説明するために、以下の説明において公知の機能及び構造に対する説明を省略する。

第一実施例
図１に示すように、本開示は仮想オブジェクトリップ駆動方法を提供し、以下のステップを含む：
ステップＳ１０１：音声素片及び仮想オブジェクトの目標顔部画像データを取得する。

本実施例において、仮想オブジェクトリップ駆動方法は人工知能技術分野に関し、特にコンピュータ視覚、深層学習の技術分野に関し、それは顔認識などの様々なシーンで広く応用することができる。本開示の実施例の仮想オブジェクトリップ駆動方法は、本開示の実施例の仮想オブジェクトリップ駆動装置により実行することができる。本開示の実施例の仮想オブジェクトリップ駆動装置は任意の電子機器に配置されて、本開示の実施例の仮想オブジェクトリップ駆動方法を実行することができる。該電子機器はサーバであってもよく、端末であってもよく、ここでは具体的な限定をしない。

仮想オブジェクトは仮想人物であってもよく、仮想動物であってもよく、さらに仮想植物であってもよく、要するに、該仮想オブジェクトはアバターを有するオブジェクトである。ここで、前記仮想人物は漫画キャラクター又は非漫画キャラクターであってもよい。

該仮想オブジェクトのキャラクタはカスタマサービス、司会者、教師、アイドル及びツアーガイドなどであってもよく、ここでは具体的な限定をしない。本実施例の目的はリップ駆動により話しを実現する仮想オブジェクトを生成することにより、該仮想オブジェクトがそのキャラクタ機能を実現し、例えば、仮想教師のリップを駆動することにより、講義機能を実現できることである。

音声素片は一節の音声であってもよく、それは仮想オブジェクトのリップ部を駆動することにより、仮想オブジェクトのリップ部は該音声素片に応じて対応する開閉を行うことができ、すなわち仮想オブジェクトのリップと実際の人が該音声素片を話す場合のリップとを類似するようにして、リップ駆動により仮想オブジェクトの話す過程をシミュレートするために用いられる。

該音声素片の取得方式は複数種を含むことができ、例えば、一節の音声をリアルタイムに録音してもよく、予め記憶された一節の音声を取得してもよく、さらに他の電子機器から送信された一節の音声を受信してもよく、又はネットワークから一節の音声をダウンロードしてもよい。

目標顔部画像データとは仮想オブジェクト顔部内容を含む画像データを指すことができ、仮想オブジェクトが仮想人物である場合、該目標顔部画像データは顔データであってもよい。該目標顔部画像データは一枚の顔画像のみを含むことができ、複数枚の顔画像を含むことができ、ここでは具体的な限定をしない。該複数枚の顔画像は顔シリーズと呼ばれてもよく、同一の仮想人物の複数枚の顔画像を指し、該複数枚の顔画像における顔の姿勢、表情、リップなどは異なることができる。

目標顔部画像データにおけるリップ部は全部又は一部が開状態（すなわち仮想オブジェクトが話す状態にある）にあってもよく、全部又は一部が閉状態にあってもよく、ここでは具体的な限定をしない。目標顔部画像データが全部閉状態にある場合、目標顔部画像データはリップを除去する顔部画像データであってもよく、すなわち仮想オブジェクトは常に話さず、サイレント状態にある。

目標顔部画像データの表現形式はビデオであってもよく、画像であってもよく、ここでは具体的な限定をしない。

目標顔部画像データの取得方式は複数種を含むことができ、例えば、一節のビデオをリアルタイムに録画するか又はいくつかの画像を目標顔部画像データとしてリアルタイムに撮影してもよく、予め記憶されたビデオ又は画像を目標顔部画像データとして取得してもよく、さらに他の電子機器から送信されたビデオ又は画像を目標顔部画像データとして受信してもよく、又はネットワークからビデオ又は画像を目標顔部画像データとしてダウンロードしてもよい。ここで、取得されたビデオは顔部画像を含むことができ、取得された画像は顔部画像内容を含むことができる。

ステップＳ１０２：前記音声素片と前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得て、ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである。

該ステップにおいて、第一目標モデルは深層学習モデルであってもよく、例えば敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ、ＧＡＮ）であり、第一目標モデルの作用は目標顔部画像データと音声素片を整列して、仮想オブジェクトの音声素片による駆動での第一リップ画像データを得ることである。

ここで、目標顔部画像データと音声素片を整列することは仮想オブジェクトのリップ部を該音声素片に応じて対応する開閉を行うように駆動することを指すことができ、すなわち仮想オブジェクトのリップと実際の人が該音声素片を話す場合のリップとを類似するようにして、リップ駆動により仮想オブジェクトの話す過程をシミュレートする。

第一リップ画像データは複数枚の画像を含むことができ、その表現形式はビデオであってもよく、該ビデオは仮想オブジェクトが該音声素片を話す過程での一連の連続的なリップ画像を含むことができる。

第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られることができ、ここで、第一モデル及び／又は第二モデルは第一目標モデルの一部であってもよく、例えば、第一目標モデルは生成器及び判別器を含むことができ、第一モデル及び第二モデルは判別器として第一目標モデルに含まれることができ、第一モデル及び／又は第二モデルは第一目標モデルの一部でなくてもよく、ここでは具体的な限定をしない。

第一モデルはリップ画像データに対するリップシンク判別モデルであってもよく、それはリップ画像データ及び一節の音声に対して、該リップ画像データにおいて、一連の連続的なリップ画像におけるリップが該音声と同期するか否かを判定するために用いることができる。

第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルであってもよく、それはリップ画像データにおけるリップ部領域の画像データ及び一節の音声に対して、リップ部領域の画像データにおいて、一連の連続的なリップ画像におけるリップが該音声と同期するか否かを判定するために用いることができる。ここで、リップ画像データにおける画像のリップ部領域を裁断して、該リップ画像データにおけるリップ部領域の画像データを得ることができる。

代替実施形態において、第一目標モデルは第一モデル及び第二モデルに基づいて直接的に訓練して得られることができる。ここで、第一モデルは目標リップ画像サンプルデータ及び他のリップ画像サンプルデータに基づいて訓練して得られてもよく、目標リップ画像サンプルデータに基づいて訓練して得られてもよく、第二モデルは目標リップ画像サンプルデータ及び他のリップ画像サンプルデータに基づいて訓練して得られてもよく、目標リップ画像サンプルデータに基づいて訓練して得られてもよく、ここでは具体的な限定をしない。

具体的な訓練過程で、第一目標モデルとしての例えば第一目標モデルにおける生成器に基づいて顔部画像サンプルデータと音声サンプル素片を整列することにより、リップ画像データを生成し、その後に第一モデルに基づいて生成されたリップ画像データと音声サンプル素片が同期するか否かを判定して、第一判別結果を得ると同時に、第二モデルに基づいて生成されたリップ画像データと音声サンプル素片が同期するか否かを判定して、第二判別結果を得ることができる。逆勾配で伝播する方式で第一判別結果及び第二判別結果を第一目標モデルにフィードバックして、第一目標モデルのパラメータを更新することにより、第一目標モデルに基づいて生成されたリップ画像データと音声サンプル素片がますます同期することができる。

別の代替実施形態において、第一目標モデルは第一モデル及び第二モデルに基づいて間接的に訓練して得られることができ、前記第一目標モデルが第一モデル及び第二モデルに基づいて訓練して得られることは、
目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して第三モデルを得ることと、
前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して第四モデルを得ることと、
前記第三モデル及び前記第四モデルに基づいて訓練して前記第一目標モデルを得ることとを含み、
ここで、目標リップ画像サンプルデータの精細度は第一所定の閾値より大きく、かつ目標リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度は第二所定の閾値より小さく、所定の方向は画像表示画面に対する方向であってもよい。

ここで、第一目標モデルを第三モデル及び第四モデル訓練に基づいて直接的に訓練する過程は第一モデル及び第二モデルに基づいて直接的に訓練する過程と類似し、ここでは説明を省略する。

第一所定の閾値は実際の状況に応じて設定することができ、一般的には第一所定の閾値は大きく設定され、リップ画像サンプルデータの精細度が第一所定の閾値より大きい場合、該リップ画像サンプルデータが高精細度のリップ画像サンプルデータであってもよいことを特徴つけ、すなわち目標リップ画像サンプルデータは高精細度のリップ画像サンプルデータである。

第二所定の閾値は実際の状況に応じて設定することができ、一般的には第二所定の閾値は小さく設定され、リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度が第二所定の閾値としての例えば３０度より小さい場合、該リップ画像サンプルデータにおける顔部が正顔であることを特徴つけ、すなわち目標リップ画像サンプルデータは、顔部が正顔であるリップ画像サンプルデータである。リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度が第二所定の閾値以上である場合、該リップ画像サンプルデータにおける顔部が横顔であることを特徴つける。

それに応じて、目標リップ画像サンプルデータを高精細度の正顔データと呼ぶことができ、リップ画像サンプルデータにおける目標リップ画像サンプルデータ以外の他のリップ画像サンプルデータは正顔データ及び横顔データを含むことができる。

別の代替実施形態において、第一目標モデルをまず第一モデル及び第二モデルに基づいて訓練することができ、具体的には第一モデル及び第二モデルをリップシンク判別器として、高精細度の正顔データ及び他のリップ画像サンプルデータに基づいて第一目標モデルを訓練することができる。訓練が完了した後、第一目標モデルのモデルパラメータに基づいて、第三モデル及び第四モデルに基づいて第一目標モデルを訓練し続けることにより、第一目標モデルのモデルパラメータを調整し、具体的には第三モデル及び第四モデルをリップシンク判別器として、高精細度の正顔データに基づいて第一目標モデルを訓練し、かつ０．１の学習率を設定して第一目標モデルのモデルパラメータを微調整することができる。

説明すべきことは、第一目標モデルを訓練する前に、第一モデル、第二モデル、第三モデル及び第四モデルをいずれも予め訓練する必要があることである。

目標リップ画像サンプルデータ及び他のリップ画像サンプルデータに基づいて訓練を行って得られた第一モデルはｓｙｎｃｎｅｔ－ｆａｃｅ－ａｌｌで表すことができ、ｓｙｎｃｎｅｔ－ｆａｃｅ－ａｌｌは強い汎化能力を有し、すなわち横顔データ、正顔データ又は高精細度の正顔データに対して、いずれもリップ画像データが音声素片と同期するか否かを安定的に判別することができる。

目標リップ画像サンプルデータ及び他のリップ画像サンプルデータに基づいて訓練を行い、すなわちリップ画像サンプルデータにおけるリップ部領域の画像データを裁断して訓練し、得られた第二モデルはｓｙｎｃｎｅｔ－ｍｏｕｔｈ－ａｌｌで表すことができ、ｓｙｎｃｎｅｔ－ｍｏｕｔｈ－ａｌｌも強い汎化能力を有し、すなわち横顔データ、正顔データ又は高精細度の正顔データにおけるリップ部領域の画像データに対して、いずれもリップ部領域の画像データが音声素片と同期するか否かを安定的に判別することができる。

また、第一モデル及び第二モデルの汎化性を保証するために、０．２比率の高精細度の正顔データを取得し、かつデータ強化を行い、例えばファジィ（ｂｌｕｒ）、色変換（ｃｏｌｏｒｔｒａｎｓｆｅｒ）などのデータ強化を行うことができる。

目標リップ画像サンプルデータに基づいて第一モデルを訓練して得られた第三モデルはｓｙｎｃｎｅｔ－ｆａｃｅ－ｈｄで表すことができ、ｓｙｎｃｎｅｔ－ｆａｃｅ－ｈｄはリップシンクに対する判別精度が高く、リップ画像データが音声素片と同期するか否かをより正確に判別することができる。

目標リップ画像サンプルデータに基づいて第二モデルを訓練し、すなわち目標リップ画像サンプルデータにおけるリップ部領域の画像データを裁断して第二モデルを訓練し、得られた第四モデルはｓｙｎｃｎｅｔ－ｍｏｕｔｈ－ｈｄで表すことができ、ｓｙｎｃｎｅｔ－ｍｏｕｔｈ－ｈｄはリップシンクに対する判別精度が高く、リップ画像データにおけるリップ部領域の画像データが音声素片と同期するか否かをより正確に判別することができる。

また、まず目標リップ画像サンプルデータ及び他のリップ画像サンプルデータに基づいて訓練を行って、ｓｙｎｃｎｅｔ－ｆａｃｅ－ａｌｌを取得し、その後にｓｙｎｃｎｅｔ－ｆａｃｅ－ａｌｌのモデルパラメータを基礎として、目標リップ画像サンプルデータに基づいてｓｙｎｃｎｅｔ－ｆａｃｅ－ａｌｌを訓練し、最後にｓｙｎｃｎｅｔ－ｆａｃｅ－ｈｄを得ることができ、このようにモデル訓練速度を上げることができる。ｓｙｎｃｎｅｔ－ｍｏｕｔｈ－ｈｄの訓練過程はｓｙｎｃｎｅｔ－ｆａｃｅ－ｈｄの訓練過程と類似することができ、ここでは説明を省略する。

第一モデル及び第二モデルを第一目標モデルの一部とするか、又は第三モデル及び第四モデルを第一目標モデルの一部として、第一目標モデルの訓練過程で、第一モデル、第二モデル、第三モデル及び第四モデルがいずれも予め訓練され、リップ音声判別をより正確に行うことができ、したがって、第一目標モデルのモデルパラメータを更新する場合、第一モデル、第二モデル、第三モデル及び第四モデルのモデルパラメータを固定することができ、すなわちこれらのモデルのモデルパラメータを更新しない。

本実施例において、第一モデル及び第二モデルに基づいて訓練して第一目標モデルを取得し、その後に音声素片と目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、仮想オブジェクトの音声素片による駆動での第一リップ画像データを得る。第一モデルに基づいて訓練して得られた第一目標モデルは、第一リップ駆動操作を実行した後、その生成されたリップ画像データにおいて、顎、顔と背景との受渡部分などの顔全体性が優れるが、顔全体においてリップ部領域が小さいため、ダウンサンプリングした後にリップ部領域の特徴がなくなりやすく、学習されたリップ部の特徴が欠失し、それによりリップ画像データにおけるリップ部のテクスチャとしての例えば歯のテクスチャが十分に明らかではない。したがって、リップ部領域を拡大して、第二モデルを構築することができ、第一モデルと第二モデルを組み合わせて第一目標モデルを訓練し、かつ第一目標モデルに基づいてリップ画像データを生成することで、リップ画像データと音声素片とのリップシンクを保証すると同時に、リップ部領域の詳細特徴としての例えば歯の特徴に注目することができ、それにより第一目標モデルに基づいて生成されたリップ画像データにおける顔部のリップ部のテクスチャとしての例えば歯のテクスチャが明瞭に見え、さらに仮想オブジェクトのリップ画像データの品質が向上することができる。

かつ、リップ画像データと音声素片とのリップシンクへの影響は顔部のエッジ領域としての例えば顎の動きだけでなく、リップ部の開閉にも現れ、したがって、第一モデルと第二モデルを組み合わせて第一目標モデルを訓練し、かつ第一目標モデルに基づいてリップ画像データを生成することで、リップ画像データと音声素片とのリップシンク精度が向上することができる。

選択可能に、前記第一目標モデルが第一モデル及び第二モデルに基づいて訓練して得られることは、
目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して第三モデルを得ることと、
前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して第四モデルを得ることと、
前記第三モデル及び前記第四モデルに基づいて訓練して前記第一目標モデルを得ることとを含み、
ここで、前記目標リップ画像サンプルデータの精細度は第一所定の閾値より大きく、前記目標リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度は第二所定の閾値より小さい。

本実施形態において、第一モデルはｓｙｎｃｎｅｔ－ｆａｃｅ－ａｌｌであってもよく、第二モデルはｓｙｎｃｎｅｔ－ｍｏｕｔｈ－ａｌｌであってもよく、第一目標モデルは第三モデル及び第四モデルに基づいて訓練して得られてもよく、第三モデルは目標リップ画像サンプルデータに基づいて第一モデルを訓練して得られ、ｓｙｎｃｎｅｔ－ｆａｃｅ－ｈｄであってもよく、第四モデルは目標リップ画像サンプルデータに基づいて第二モデルを訓練して得られ、ｓｙｎｃｎｅｔ－ｍｏｕｔｈ－ｈｄであってもよい。

ここで、第一目標モデルは第三モデル及び第四モデルに基づいて直接的に訓練して得られることができ、第三モデルが目標リップ画像サンプルデータに基づいて第一モデルを訓練して得られたモデルであり、第四モデルが目標リップ画像サンプルデータに基づいて第二モデルを訓練して得られたモデルであるため、このように第三モデルと第四モデルを組み合わせて第一目標モデルを訓練し、かつ第一目標モデルに基づいてリップ画像データを生成することで、リップ画像データと音声素片とのリップシンクを保証できると同時に、高精細度のリップ画像を生成し、高精細度の顔リップ駆動を実現し、高解像シーンを満たすことができる。

第一目標モデルをまず第一モデル及び第二モデルに基づいて訓練することができ、具体的には第一モデル及び第二モデルをリップシンク判別器として、高精細度の正顔データ及び他のリップ画像サンプルデータに基づいて第一目標モデルを訓練することができる。訓練が完了した後、第一目標モデルのモデルパラメータに基づいて、第三モデル及び第四モデルに基づいて第一目標モデルを訓練し続けることにより、第一目標モデルのモデルパラメータを調整し、具体的には第三モデル及び第四モデルをリップシンク判別器として、高精細度の正顔データに基づいて第一目標モデルを訓練し、かつ０．１の学習率を設定して第一目標モデルのモデルパラメータを微調整することができる。このように、リップ画像データと音声素片とのリップシンクを保証すると同時に、高精細度のリップ画像を生成することができ、かつ第一目標モデルの訓練速度を上げることができる。

選択可能に、前記第一リップ駆動操作は、
それぞれ前記目標顔部画像データと前記音声素片に対して特徴抽出を行って、前記目標顔部画像データの第一特徴及び前記音声素片の第二特徴を得ることと、
前記第一特徴と前記第二特徴を整列して、第一目標特徴を得ることと、
前記第一目標特徴に基づいて前記第一リップ画像データを構築することとを含む。

本実施形態において、第一目標モデルにおける生成器に基づいてそれぞれ目標顔部画像データと音声素片に対して特徴抽出を行って、目標顔部画像データの第一特徴及び音声素片の第二特徴を得る。ここで、第一特徴は目標顔部画像データにおける各画像の上層グローバル特徴及び／又は下層詳細特徴を含むことができ、第二特徴はオーディオ特徴としての例えばｍｅｌ特徴であってもよい。

その後に第一特徴と第二特徴を整列して、第一目標特徴を得ることができ、具体的には第二特徴に基づいて現在の音声素片のリップを予測し、予測されたリップに基づいて第一特徴を調整して、整列後の第一目標特徴を得ることができる。

その後に第一目標特徴に基づいて第一リップ画像データを構築することができ、第一目標特徴に基づいて第一リップ画像データを構築する方式は二種類あり、第一種としては、第一目標特徴に基づいて画像構築を行うことにより、第一リップ画像データを生成することができる。第二種としては、注意力メカニズムを用いて前記目標顔部画像データに対して画像回帰を行って、目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得って、第一目標特徴に基づいて画像構築を行うことにより、第二リップ画像データを生成し、目標顔部画像データ、第二リップ画像データ及びマスク画像を融合して、第一リップ画像データを得る。

本実施形態において、第一目標モデルに基づいてそれぞれ目標顔部画像データと音声素片に対して特徴抽出を行うことにより、目標顔部画像データの第一特徴及び音声素片の第二特徴を得て、第一特徴と第二特徴を整列して、第一目標特徴を得て、第一目標特徴に基づいて第一リップ画像データを構築し、このように第一目標モデルに基づいて音声素片によるリップ駆動を実現することができる。

選択可能に、前記第一目標特徴に基づいて前記第一リップ画像データを構築する前記ステップの前に、
注意力メカニズムを用いて前記目標顔部画像データに対して画像回帰を行って、前記目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得ることをさらに含み、
前記第一目標特徴に基づいて前記第一リップ画像データを構築する前記ステップは、
前記第一目標特徴に基づいて前記仮想オブジェクトの前記音声素片による駆動での第二リップ画像データを生成することと、
前記目標顔部画像データ、前記第二リップ画像データ及び前記マスク画像を融合して、前記第一リップ画像データを得ることとを含む。

本実施形態において、第一目標モデルにおける生成器に注意力メカニズムを導入することができ、目標顔部画像データに対して画像回帰を行って、目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得る。ここで、リップに関連する領域は顎領域、リップ部領域等を含むことができ、マスク画像はリップ関連領域に対する着色マスク及び／又は注意力マスクを含むことができる。

かつ第一目標特徴に基づいて仮想オブジェクトの前記音声素片による駆動での第二リップ画像データを生成し、具体的には第一目標特徴に基づいて画像構築を行うことにより、第二リップ画像データを生成することができる。

その後に以下の式（１）により目標顔部画像データ、第二リップ画像データ及びマスク画像を融合して、第一リップ画像データを得ることができる。

ここで、上記式（１）において、Ｉ_Yfは第一リップ画像データであり、Ａはマスク画像であり、Ｃは第二リップ画像データであり、Ｉ_Yoは目標顔部画像データである。

本実施形態において、注意力メカニズムを用いて前記目標顔部画像データに対して画像回帰を行って、前記目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得て、前記第一目標特徴に基づいて前記仮想オブジェクトの前記音声素片による駆動での第二リップ画像データを生成し、前記目標顔部画像データ、前記第二リップ画像データ及び前記マスク画像を融合して、前記第一リップ画像データを得る。このように、リップに関連する領域の画素に焦点を合わせることができ、それによりシャープネスがより高くより真のリップ画像データを得ることができる。

選択可能に、前記第一特徴は上層グローバル特徴及び下層詳細特徴を含み、前記第一特徴と前記第二特徴を整列して、第一目標特徴を得る前記ステップは、
前記上層グローバル特徴と前記下層詳細特徴をそれぞれ前記第二特徴と整列して、第一目標特徴を得ることを含み、
ここで、前記第一目標特徴は整列後の前記上層グローバル特徴及び整列後の前記下層詳細特徴を含む。

本実施形態において、高解像度の画像と実際の高解像度の画像は低レベルの画素値でも、高レベルの抽象的な特徴でも、いずれも近接すべきであり、それにより上層グローバル情報及び下層詳細情報を保証する。したがって、目標顔部画像データの第一特徴は上層グローバル特徴及び下層詳細特徴を含むことができ、上層グローバル特徴と下層詳細特徴をそれぞれ第二特徴と整列して、第一目標特徴を得ることができる。

その後に第一目標特徴に基づいて第一リップ画像データを構築することができ、このように第一リップ画像データにおける画像の解像度が向上することができる。

また、第一目標モデルを訓練する場合、上層グローバル特徴の損失値及び下層詳細特徴の損失値を導入して第一目標モデルのモデルパラメータを更新することにより、第一目標モデルの訓練効果を向上させ、高解像度の画像の上層グローバル情報及び下層詳細情報を保証することができる。

第二実施例
図２に示すように、本開示はモデル訓練方法を提供し、
第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得するステップＳ２０１と、
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得るステップＳ２０２と、
それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データと前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得るステップＳ２０３と、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定するステップＳ２０４と、
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新するステップＳ２０５というステップを含む。

本実施例は第一目標モデルの訓練過程を説明する。

ステップＳ２０１において、第一訓練サンプルセットは複数の第一音声サンプル素片及び第一音声サンプル素片に対応する複数の第一顔部画像サンプルデータを含むことができ、同時に第一訓練サンプルセットは仮想オブジェクトサンプルの第一音声サンプル素片による駆動でのリップ画像データラベルを含むことができる。

第一音声サンプル素片の取得方式は複数種を含むことができ、一種以上の方式を用いて第一訓練サンプルセットにおける第一音声サンプル素片を取得することができる。例えば、音声を第一音声サンプル素片としてリアルタイムに録音してもよく、予め記憶された音声を第一音声サンプル素片として取得してもよく、さらに他の電子機器から送信された音声を第一音声サンプル素片として受信してもよく、又はネットワークから音声を第一音声サンプル素片としてダウンロードしてもよい。

第一顔部画像サンプルデータの取得方式は複数種を含むことができ、一種以上の方式を用いて第一訓練サンプルセットにおける第一顔部画像サンプルデータを取得することができ、例えば、ビデオを第一顔部画像サンプルデータとしてリアルタイムに録画するか又はいくつかの画像を第一顔部画像サンプルデータとしてリアルタイムに撮像してもよく、予め記憶されたビデオ又は画像を第一顔部画像サンプルデータとして取得してもよく、さらに他の電子機器から送信されたビデオ又は画像を第一顔部画像サンプルデータとして受信してもよく、又はネットワークからビデオ又は画像を第一顔部画像サンプルデータとしてダウンロードしてもよい。

仮想オブジェクトサンプルの第一音声サンプル素片による駆動でのリップ画像データラベルとは仮想オブジェクトサンプルが第一音声サンプル素片を話す場合の実際のビデオを指すことができ、そのリップ精度は高い。その取得方式は複数種を含むことができ、例えば、仮想オブジェクトサンプルが第一音声サンプル素片を話す場合のビデオをリップ画像データラベルとして録画してもよく、仮想オブジェクトサンプルが第一音声サンプル素片を話す場合の予め記憶されたビデオをリップ画像データラベルとして取得してもよく、さらに他の電子機器から送信された仮想オブジェクトサンプルが第一音声サンプル素片を話す場合のビデオをリップ画像データラベルとして受信してもよい。

また、高解像度の画像と実際の高解像度の画像との間は、低レベルの画素値でも、高レベルの抽象的な特徴でも、いずれも近接すべきであり、それにより上層グローバル情報及び下層詳細情報を保証し、したがって第一目標モデルの訓練効果を向上させ、第一目標モデルに基づいて高精細度のリップ画像データを生成できるために、第一訓練サンプルセットはリップ画像データラベルの上層グローバル特徴ラベル及び下層詳細特徴ラベルをさらに含むことができる。

第一音声サンプル素片の音声特徴と整列した後の上層グローバル特徴と上層グローバル特徴ラベルとの間の損失値、及び第一音声サンプル素片の音声特徴と整列した後の下層詳細特徴と下層詳細特徴ラベルとの間の損失値を組み合わせて、第一目標モデルのパラメータを更新することにより、第一目標モデルに基づいて生成されたリップ画像データの解像度を向上させ、高精細度のリップ画像駆動を実現することができる。

ステップＳ２０２において、前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得ることができる。ここで、第二リップ駆動操作は第一リップ駆動操作の方式と類似し、ここでは説明を省略する。

代替実施形態において、前記第二リップ駆動操作は、
それぞれ前記第一顔部画像サンプルデータと前記第一音声サンプル素片に対して特徴抽出を行って、前記第一顔部画像サンプルデータの第五特徴及び前記第一音声サンプル素片の第六特徴を得ることと、
前記第五特徴と前記第六特徴を整列して、第二目標特徴を得ることと、
前記第二目標特徴に基づいて前記第三リップ画像データを構築することとを含む。

上記第二リップ駆動操作において、第一顔部画像サンプルデータ及び第一音声サンプル素片に対して特徴抽出を行う方式、第五特徴と第六特徴を整列する方式及び第二目標特徴に基づいて第三リップ画像データを構築する方式はいずれも第一リップ駆動操作における方式と類似し、ここでは説明を省略する。

ステップＳ２０３において、それぞれ第一モデルと第二モデルに基づいて、前記第三リップ画像データと前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得ることができる。ここで、第一判別結果は第三リップ画像データと第一音声サンプル素片との間の整列程度を特徴つけることができ、第二判別結果は第三リップ画像データにおけるリップ部領域の画像データと第一音声サンプル素片との間の整列程度を特徴つけることができる。

具体的には、第一モデルはそれぞれ第三リップ画像データと第一音声サンプル素片に対して特徴抽出を行って、第三リップ画像データの特徴及び第一音声サンプル素片の特徴を得ることができ、例えば、５１２次元の音声特徴及び５１２次元のリップ画像特徴を得て、その後にこれらの二つの特徴をそれぞれ正規化し、かつ両者の間のコサイン距離を計算する。ここで、コサイン距離が大きければ大きいほど、第三リップ画像データと第一音声サンプル素片との間のよりよい整列を特徴つけ、そうでなければ整列されていないことを表す。第二モデルに基づいて第三リップ画像データ及び第一音声サンプル素片に対してリップシンク判別を行う方式は第一モデルに基づいて第三リップ画像データ及び第一音声サンプル素片に対してリップシンク判別を行う方式と類似し、相違点としては第二モデルが第三リップ画像データにおけるリップ部領域の画像データ及び第一音声サンプル素片に対してリップシンク判別を行うことである。

ステップＳ２０４において、前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定することができる。

代替実施形態において、第一判別結果及び第二判別結果に基づいて第一目標モデルの目標損失値を直接的に決定することができ、例えば、第一判別結果及び第二判別結果に基づいて第三リップ画像データと第一音声サンプル素片との間の整列程度を決定し、該整列程度に基づいて目標損失値を決定することができる。ここで、よりよく整列すればするほど目標損失値が小さく、整列しなければしないほど目標損失値が大きいことを示す。

別の代替実施形態において、第三リップ画像データとリップ画像データラベルとの間の損失値に基づいて、かつ第一判別結果と第二判別結果を組み合わせて、第一目標モデルの目標損失値を決定することができる。具体的には第三リップ画像データとリップ画像データラベルとの間の損失値を、第一判別結果及び第二判別結果に基づいて決定された損失値と重畳し例えば加重加算して、目標損失値を得ることができる。

代替実施形態において、整列後の上層グローバル特徴と上層グローバル特徴ラベルとの間の損失値及び整列後の下層詳細特徴と下層詳細特徴ラベルとの間の損失値に基づいて、かつ第一判別結果と第二判別結果を組み合わせて、第一目標モデルの目標損失値を決定することができる。具体的には整列後の上層グローバル特徴と上層グローバル特徴ラベルとの間の損失値及び整列後の下層詳細特徴と下層詳細特徴ラベルとの間の損失値を、第一判別結果及び第二判別結果に基づいて決定された損失値と重畳し例えば加重加算して、目標損失値を得ることができる。

特徴と特徴ラベルとの間の損失値は、以下の式（２）により計算することができる。

ここで、上記式（２）において、

は特徴と特徴ラベルとの間の損失値であり、ｊは画像データの入力番号であり、Ｃ_ｊは特徴チャネルであり、Ｈ_ｊとＷ_ｊはそれぞれ特徴の高さと幅であり、

は抽出された特徴であり、ｙは特徴ラベルである。

また、整列後の上層グローバル特徴と上層グローバル特徴ラベルとの間の損失値、整列後の下層詳細特徴と下層詳細特徴ラベルとの間の損失値、第三リップ画像データとリップ画像データラベルとの間の損失値及び第一判別結果に対応する損失値と第二判別結果に対応する損失値を組み合わせて加重加算して、目標損失値を得ることもできる。その具体的な式は以下の式（３）で表される。

ここで、上記式（３）において、Lossは目標損失値であり、Loss_11は整列後の下層詳細特徴と下層詳細特徴ラベルとの間の損失値であり、Loss_12は第三リップ画像データとリップ画像データラベルとの間の損失値であり、Loss_featは整列後の上層グローバル特徴と上層グローバル特徴ラベルとの間の損失値であり、loss_sync-faceは第一判別結果に対応する損失値であり、loss_sync-mouthは第二判別結果に対応する損失値であり、wt_feat、wt_face及びwt_mouthは対応する損失値の重みであり、これらの重みは実際の状況に応じて設定することができ、ここでは具体的な限定をしない。

ステップＳ２０５において、目標損失値に基づいて、逆勾配で伝播する方式を用いて、第一目標モデルのモデルパラメータを更新し、例えば第一目標モデルにおける生成器のパラメータ及び第三リップ画像データとリップ画像データラベルとの間が類似するか否かを判別するために用いられる判別器のパラメータを更新することができる。

第一モデル及び第二モデルが第一目標モデルにおけるサブモデルであれば、第一目標モデルのパラメータを更新する場合、第一モデル及び第二モデルのパラメータを更新しなくてもよい。

目標損失値が収束し、かつ小さくなると、第一目標モデル訓練が完了し、仮想オブジェクトのリップ駆動を行うことに用いることができる。

本実施例において、第一訓練サンプルセットを取得し、前記第一訓練サンプルセットは第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含み、前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得て、それぞれ第一モデルと第二モデルに基づいて、前記第三リップ画像データと前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得て、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルであり、前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定し、前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新する。このように、第一目標モデルの訓練を実現することができ、訓練して得られた第一目標モデルは仮想オブジェクトのリップ駆動を行う場合に、リップ画像データと音声素片とのリップシンクを保証すると同時に、リップ部領域の詳細特徴としての例えば歯の特徴に注目することができ、それにより第一目標モデルに基づいて生成されたリップ画像データにおける顔部のリップ部のテクスチャとしての例えば歯のテクスチャが明瞭に見え、さらに仮想オブジェクトのリップ画像データの品質が向上することができる。

選択可能に、前記ステップＳ２０２の前に、前記方法は、
第二音声サンプル素片、第一リップ画像サンプルデータ及び前記第二音声サンプル素片と前記第一リップ画像サンプルデータが同期するか否かを特徴つける目標ラベルを含む第二訓練サンプルセットを取得することと、
第二目標モデルに基づいて前記第二音声サンプル素片と目標データにそれぞれ特徴抽出を行って、前記第二音声サンプル素片の第三特徴と前記目標データの第四特徴を得ることと、
前記第三特徴と前記第四特徴との間の特徴距離を決定することと、
前記特徴距離及び前記目標ラベルに基づいて、前記第二目標モデルのパラメータを更新することとをさらに含み、
ここで、前記目標データが前記第一リップ画像サンプルデータである場合、前記第二目標モデルは前記第一モデルであり、前記目標データが前記第一リップ画像サンプルデータにおけるリップ部領域のデータである場合、前記第二目標モデルは前記第二モデルである。

本実施形態は具体的には第一モデル又は第二モデルの訓練過程を説明する。

具体的には、まず第二訓練サンプルセットを取得することができ、第二訓練サンプルセットは第二音声サンプル素片、第一リップ画像サンプルデータ及び目標ラベルを含むことができ、目標ラベルは前記第二音声サンプル素片と前記第一リップ画像サンプルデータが同期するか否かを特徴つけるために用いることができる。ここで、第二訓練サンプルセットは複数の第二音声サンプル素片及び複数の第一リップ画像サンプルデータを含むことができ、一つの第二音声サンプル素片に対して、第二訓練サンプルセットにそれに整列された第一リップ画像サンプルデータが存在し、さらにそれに整列されない第一リップ画像サンプルデータが存在してもよい。

第二訓練サンプルセットにおける第一リップ画像サンプルデータは全部が高精細度の正顔データであってもよく、一部が高精細度の正顔データであってもよく、例えば第二訓練サンプルセットは高精細度の正顔データ、正顔データ及び横顔データを含むことができ、ここでは具体的な限定をしない。第二訓練サンプルセットが高精細度の正顔データ、正顔データ及び横顔データを含むことができる場合、第二訓練サンプルセットに基づいて訓練して得られた第二目標モデルの汎化能力は高い。

具体的な実現過程で、第二訓練サンプルセットはポジティブサンプル及びネガティブサンプルを含むことができ、ポジティブサンプルを

で表すことができ、ネガティブサンプルを

で表すことができ、ポジティブサンプルは第二音声サンプル素片と第一リップ画像サンプルデータとが同期すると標識され、ネガティブサンプルは第二音声サンプルと第一リップ画像サンプルデータとが同期しないと標識される。

また、ポジティブサンプルを構築する場合、ポジティブサンプルは同一のビデオにおける画像フレームと音声とが整列されるように表現し、ネガティブサンプルは二種類を含み、一種は同一のビデオにおける画像フレームと音声とが整列されないデータで構築することができ、もう一種は異なるビデオの画像フレーム及び音声のデータで構築することができる。

その後、第二目標モデルに基づいて前記第二音声サンプル素片と目標データにそれぞれ特徴抽出を行って、前記第二音声サンプル素片の第三特徴と前記目標データの第四特徴を得ることができる。ここで、前記目標データが前記第一リップ画像サンプルデータである場合、前記第二目標モデルは前記第一モデルであり、前記目標データが前記第一リップ画像サンプルデータにおけるリップ部領域のデータである場合、前記第二目標モデルは前記第二モデルである。

具体的な実現過程で、ポジティブサンプル又はネガティブサンプルを第二目標モデルに送ることができ、ポジティブサンプルにおけるデータ又はネガティブサンプルにおけるデータに対して特徴抽出を行って、リップ画像特徴としての例えば５１２次元の第四特徴及び音声特徴としての例えば５１２次元の第三特徴を得て、それぞれ正規化した後、距離計算式により両者の間の特徴距離としての例えばコサイン距離を計算することができる。

その後、第二目標モデルのモデルパラメータを更新する過程で、オーディオとビデオとの間の同期情報すなわち目標ラベルに依存し、バランス訓練ポリシーを採用して、該特徴距離及び目標ラベルに基づいて比較損失（ｃｏｎｔｒａｓｔｉｖｅｌｏｓｓ）を構築して整列制約を行うことができ、すなわちポジティブサンプルに基づいて決定されたコサイン距離が小さければ小さいほどよく、ネガティブサンプルに基づいて決定されたコサイン距離が大きければ大きいほどよい原則に従って、第二目標モデルのパラメータを更新する。

第二目標モデルの汎化性を保証するために、０．２比率の高精細度の正顔データを取得し、かつデータ強化、例えばファジィ（ｂｌｕｒ）、色変換（ｃｏｌｏｒｔｒａｎｓｆｅｒ）などのデータ強化を行うことができる。

訓練の公平性のために、訓練過程で、ランダムビデオの方式を採用しなくてもよく、各モデル更新段階（ｅｐｏｃｈ）で各ビデオを一回訓練することを保証し、第二目標モデルの比較損失は以下の式（４）に示すとおりである。

ここで、上記式（４）において、

は比較損失であり、Ｎは第一リップ画像サンプルデータの数量すなわちビデオ数量である。

その後、該比較損失に基づいて、第二目標モデルのパラメータを更新し、比較損失が収束し、かつ小さくなる場合、この時に第二目標モデルの更新が完了することができ、それにより第二目標モデルはポジティブサンプルに基づいて決定されたコサイン距離が小さく、ネガティブサンプルに基づいて決定されたコサイン距離が大きいという効果を達成することができる。

本実施形態において、第二訓練サンプルセットを取得し、前記第二訓練サンプルセットは第二音声サンプル素片、第一リップ画像サンプルデータ及び目標ラベルを含み、前記目標ラベルは前記第二音声サンプル素片と前記第一リップ画像サンプルデータが同期するか否かを特徴つけるために用いられ、第二目標モデルに基づいて前記第二音声サンプル素片と目標データにそれぞれ特徴抽出を行って、前記第二音声サンプル素片の第三特徴と前記目標データの第四特徴を得て、前記第三特徴と前記第四特徴との間の特徴距離を決定し、前記特徴距離及び前記目標ラベルに基づいて、前記第二目標モデルのパラメータを更新し、ここで、前記目標データが前記第一リップ画像サンプルデータである場合、前記第二目標モデルは前記第一モデルであり、前記目標データが前記第一リップ画像サンプルデータにおけるリップ部領域のデータである場合、前記第二目標モデルは前記第二モデルである。このように、第一モデル及び第二モデルの事前訓練を実現することができ、後続きの第一目標モデルを訓練する過程で、第一モデル及び第二モデルのパラメータを固定できることにより、リップシンク判別の効果を保証し、それにより第一目標モデルの訓練効率が向上することができる。

選択可能に、前記ステップＳ２０５の後、前記方法は、
第三モデル及び第四モデルを更新後の前記第一目標モデルの判別器とし、第二顔部画像サンプルデータに基づいて更新後の前記第一目標モデルを訓練することにより、前記第一目標モデルのパラメータを調整することをさらに含み、
ここで、前記第三モデルは目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して得られ、前記第四モデルは前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して得られ、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータの精細度はいずれも第一所定の閾値より大きく、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータにおける顔部の所定の方向に対するオフセット角度はいずれも第二所定の閾値より小さい。

本実施形態において、第一モデルと第二モデルはそれぞれ高精細度の正顔データ、正顔データ及び横顔データに基づいて訓練して得られ、第一モデルはｓｙｎｃｎｅｔ－ｆａｃｅ－ａｌｌで表すことができ、第二モデルはｓｙｎｃｎｅｔ－ｍｏｕｔｈ－ａｌｌで表すことができ、それらの汎化能力が高い。

第三モデルは目標リップ画像サンプルデータに基づいて第一モデルを訓練して得られ、ｓｙｎｃｎｅｔ－ｆａｃｅ－ｈｄで表され、第四モデルは目標リップ画像サンプルデータに基づいて第二モデルを訓練して得られ、ｓｙｎｃｎｅｔ－ｍｏｕｔｈ－ｈｄで表され、そのリップシンク判別精度は高く、高精細度のリップ画像データに対して正確さの高いリップシンク判別を行うことができる。

本実施形態において、第一モデル及び第二モデルに基づいて第一目標モデルを訓練した上で、第三モデル及び第四モデルを更新後の前記第一目標モデルの判別器として、第二顔部画像サンプルデータに基づいて更新後の前記第一目標モデルを訓練することにより、前記第一目標モデルのパラメータを調整する。つまり、第一モデルを第三モデルに置き換え、第二モデルを第四モデルに置き換え、第一目標モデルを訓練し続けることにより、第一目標モデルのパラメータを調整し、同時に、０．１の学習率を設定して第一目標モデルのモデルパラメータを微調整することができ、このように第一目標モデルの訓練効率が向上することができ、かつリップシンクを保証する上で、高精細度のリップ画像を駆動できる第一目標モデルを訓練して得ることができる。

選択可能に、前記目標リップ画像サンプルデータは、
Ｍ個の第二リップ画像サンプルデータを取得し、Ｍは正の整数であり、
各第二リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度を計算し、
前記Ｍ個の第二リップ画像サンプルデータから顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータを選別し、
顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータに対して顔部精細度を向上させて、前記目標リップ画像サンプルデータを得るという方式で取得される。

本実施形態において、Ｍ個の第二リップ画像サンプルデータを取得することができ、第二リップ画像サンプルデータは高精細度の正顔データ、正顔データ又は横顔データであってもよく、本実施形態の目的はＭ個の第二リップ画像サンプルデータから高精細度の正顔データを選別することにより、高精細度の正顔データを取得すという難題を解決することである。

具体的には、ネットワークから大量の第二リップ画像サンプルデータをダウンロードして、顔検出及び整列モデルにより、非遮蔽の顔画像及び音声特徴を抽出することができ、非遮蔽の顔画像及び音声特徴をモデルの訓練サンプルとすることができる。

顔整列アルゴリズムＰＲＮｅｔにより、抽出された顔画像に対して顔部オフセット角度を計算することができ、該顔角度に基づいて正顔データ及び横顔データを選別し、応用シーンが主に正顔シーンであれば、顔オフセット角度が３０度より小さい顔画像を正顔データとして決定することができ、このようなデータは常にリップ及び歯情報を保証することができ、横顔データは基本的にはリップ情報のみを有する。

その後、顔強化モデルＧＰＥＮに基づいて顔超解像強化を行うことにより、強化された顔画像を明らかに見え、画像出力スケールを２５６に限定し、かつ正顔データのみに対して強化操作を行い、最終的にはＭ個の第二リップ画像サンプルデータから目標リップ画像サンプルデータを選別することができる。このように、高精細度の正顔データを取得するという難題を解決することができ、画像データの品質に限定されない前提で、取得された画像データから信頼性の高いモデル訓練データを選別することができる。

第三実施形態
図３に示すように、本開示は仮想オブジェクトリップ駆動装置３００を提供し、
音声素片及び仮想オブジェクトの目標顔部画像データを取得するために用いられる第一取得モジュール３０１と、
前記音声素片及び前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得るために用いられる第一操作モジュール３０２とを含み、
ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである。

選択可能に、前記第一操作モジュールは、
それぞれ前記目標顔部画像データと前記音声素片に対して特徴抽出を行って、前記目標顔部画像データの第一特徴と前記音声素片の第二特徴を得るために用いられる抽出ユニットと、
前記第一特徴と前記第二特徴を整列して、第一目標特徴を得るために用いられる整列ユニットと、
前記第一目標特徴に基づいて前記第一リップ画像データを構築するために用いられる構築ユニットとを含む。

選択可能に、
注意力メカニズムを用いて前記目標顔部画像データに対して画像回帰を行って、前記目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得るために用いられる画像回帰モジュールをさらに含み、
前記構築ユニットは、具体的には、
前記第一目標特徴に基づいて前記仮想オブジェクトの前記音声素片による駆動での第二リップ画像データを生成し、
前記目標顔部画像データ、前記第二リップ画像データ及び前記マスク画像を融合して、前記第一リップ画像データを得るために用いられる。

選択可能に、前記第一特徴は上層グローバル特徴及び下層詳細特徴を含み、前記整列ユニットは、具体的には、
前記上層グローバル特徴と前記下層詳細特徴をそれぞれ前記第二特徴と整列して、第一目標特徴を得るために用いられ、
ここで、前記第一目標特徴は整列後の前記上層グローバル特徴及び整列後の前記下層詳細特徴を含む。

本開示が提供する仮想オブジェクトリップ駆動装置３００は仮想オブジェクトリップ駆動方法実施例において実現された各過程を実現することができ、かつ同様の有益な効果を達成することができ、重複を回避するために、ここでは説明を省略する。

第四実施形態
図４に示すように、本開示はモデル訓練装置４００を提供し、
第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得するために用いられる第二取得モジュール４０１と、
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得るために用いられる第二操作モジュール４０２と、
それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データ及び前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得るために用いられるリップシンク判別モジュール４０３と、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定するために用いられる第一決定モジュール４０４と、
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新するために用いられる第一更新モジュール４０５とを含む。

選択可能に、
第二音声サンプル素片、第一リップ画像サンプルデータ及び前記第二音声サンプル素片と前記第一リップ画像サンプルデータとが同期するか否かを特徴つける目標ラベルを含む第二訓練サンプルセットを取得するために用いられる第三取得モジュールと、
第二目標モデルに基づいて前記第二音声サンプル素片と目標データに対してそれぞれ特徴抽出を行って、前記第二音声サンプル素片の第三特徴及び前記目標データの第四特徴を得るために用いられる特徴抽出モジュールと、
前記第三特徴と前記第四特徴との間の特徴距離を決定するために用いられる第二決定モジュールと、
前記特徴距離及び前記目標ラベルに基づいて、前記第二目標モデルのパラメータを更新するために用いられる第二更新モジュールとをさらに含み、
ここで、前記目標データが前記第一リップ画像サンプルデータである場合、前記第二目標モデルは前記第一モデルであり、前記目標データが前記第一リップ画像サンプルデータにおけるリップ部領域のデータである場合、前記第二目標モデルは前記第二モデルである。

選択可能に、
第三モデル及び第四モデルを更新後の前記第一目標モデルの判別器とし、第二顔部画像サンプルデータに基づいて更新後の前記第一目標モデルを訓練することにより、前記第一目標モデルのパラメータを調整するために用いられるモデル訓練モジュールをさらに含み、
ここで、前記第三モデルは目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して得られ、前記第四モデルは前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して得られ、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータの精細度はいずれも第一所定の閾値より大きく、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータにおける顔部の所定の方向に対するオフセット角度はいずれも第二所定の閾値より小さい。

本開示が提供するモデル訓練装置４００はモデル訓練方法実施例において実現された各過程を実現することができ、かつ同様の有益な効果を達成することができ、重複を回避するために、ここでは説明を省略する。

本開示の技術的解決手段において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供及び開示などの処理は、いずれも相関法規則の規定に合致し、かつ公序良俗に反するものではない。

本開示の実施例によれば、本開示はさらに電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品を提供する。

図５は本開示の実施例の実施に使用できる例示的な電子機器５００の概略ブロック図を示す。電子機器は様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表すことを意図する。電子機器は様々な形式の移動装置、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置を表すこともできる。本明細書に示された部材、それらの接続と関係、及びそれらの機能は例示するものに過ぎず、本明細書に記載及び／又は要求された本開示の実現を限定するものではない。

図５に示すように、機器５００は計算ユニット５０１を含み、それはリードオンリーメモリ（ＲＯＭ）５０２に記憶されたコンピュータプログラム又は記憶ユニット５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。ＲＡＭ５０３には、さらに機器５００の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット５０１、ＲＯＭ５０２及びＲＡＭ５０３はバス５０４で互に接続される。入力／出力（Ｉ／Ｏ）インタフェース５０５もバス５０４に接続される。

機器５００の複数の部材はＩ／Ｏインタフェース５０５に接続され、キーボード、マウスなどである入力ユニット５０６と、様々なタイプのディスプレイ、スピーカなどである出力ユニット５０７と、磁気ディスク、光ディスクなどである記憶ユニット５０８と、ネットワークカード、モデム、無線通信トランシーバなどである通信ユニット５０９とを含む。通信ユニット５０９は機器５００がインターネットなどのコンピュータネットワーク及び／又は様々なの電気通信網を介して他の機器と情報／データを交換することを可能にする。

計算ユニット５０１は処理及び計算能力を有する様々な汎用及び／又は専用の処理モジュールであってもよい。計算ユニット５０１のいくつかの例は中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット５０１は上記各方法及び処理、例えば仮想オブジェクトリップ駆動方法又はモデル訓練方法を実行する。例えば、いくつかの実施例において、仮想オブジェクトリップ駆動方法又はモデル訓練方法はコンピュータソフトウェアプログラムとして実現することができ、それは機械読み取り可能な媒体、例えば記憶ユニット５０８に有形に具体化される。いくつかの実施例において、コンピュータプログラムの一部又は全部はＲＯＭ５０２及び／又は通信ユニット５０９を介して機器５００にロード及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ５０３にロードされ、かつ計算ユニット５０１により実行される場合、上記仮想オブジェクトリップ駆動方法又はモデル訓練方法の一つ以上のステップを実行することができる。代替的に、他の実施例において、計算ユニット５０１は他の任意の適切な方式（例えば、ファームウェア）により仮想オブジェクトリップ駆動方法又はモデル訓練方法を実行するように構成することができる。

本明細書の上記システム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、システムオンチップのシステム（ＳＯＣ）、負荷プログラマブルロジック機器（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は以下を含むことができる：一つ以上のコンピュータプログラムにおいて実施され、該一つ以上複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び／又は解釈することができ、該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び指令を受信し、かつデータ及び指令を該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは一種以上のプログラム言語の任意の組み合わせで作成することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードがプロセッサ又はコントローラにより実行される場合にフローチャート及び／又はブロック図に規定された機能／操作が実施される。プログラムコードは機械に完全に実行され、機械で部分的に実行され、独立したソフトウェアパッケージとして機械で部分的に実行され、かつ遠隔機械で部分的に実行されるか又は遠隔機械或いはサーバで完全に実行されてもよい。

本開示のコンテキストにおいて、機械読み取り可能な媒体は物理的な媒体であってもよく、それは指令実行システム、装置又は機器の使用に供えるか又は指令実行システム、装置又は機器と組み合わせ使用されるプログラムを含むか又は記憶することができる。機械読み取り可能な媒体は機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置或いは機器、又は上記内容の任意の適切な組み合わせを含むが、それらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は一本以上の線に基づく電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、携帯式コンパクトリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶機器、磁気記憶機器、又は上記内容の任意の適切な組み合わせを含むことができる。

ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）、及びユーザがキーボード及びポインティング装置により入力をコンピュータに提供することができる該キーボード及び該ポインティング装置（例えば、マウス又はトラックボール）を備える。他のタイプの装置はさらにユーザとの対話を提供することに用いることができ、例えば、ユーザに提供されるフィードバックは任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音入力、音声入力又は、触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明されたシステム及び技術をバックグラウンド部材を含む計算システム（例えば、データサーバとして）、又はミドルウェア部材を含む計算システム（例えば、アプリケーションサーバ）、又はフロントエンド部材を含む計算システム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザが該グラフィカルユーザインタフェース又は該ウェブブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができ）、又はこのようなバックグラウンド部材、ミドルウェア部材、又はフロントエンド部材の任意の組み合わせを含む計算システムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部材を互いに接続することができる。通信ネットワークの例はローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを含む。

コンピュータシステムはクライアント及びサーバを含むことができる。クライアントとサーバとは一般的には互いに離れ、かつ通常は通信ネットワークを介して対話する。対応するコンピュータで実行され、かつ互いにクライアントーサーバの関係を有するコンピュータプログラムによってクライアントとサーバとの関係を生成する。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、又はブロックチェーンを組み合わせるサーバであってもよい。

理解すべきように、以上に示した様々な形式のフローを用いて、ステップを改めてソーティングし、追加するか又は削除することができる。例えば、本開示に記載の各ステップは並列的に実行されてもよく順に実行されてもよくさらに異なる順序で実行されてもよく、本開示が開示する技術的解決手段の所望の結果を実現できれば、本明細書では限定しない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば理解すべきように、設計要件及び他の要因に基づいて、様々な修正、組み合わせ、サブ組み合わせ及び代替を行うことができる。本開示の趣旨と原則内で行われた任意の修正、均等置換及び改善などは、いずれも本開示の保護範囲内にあるべきである。

Claims

音声素片及び仮想オブジェクトの目標顔部画像データを取得することと、
前記音声素片と前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得ることとを含み、
ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである、仮想オブジェクトリップ駆動方法。
前記第一目標モデルが第一モデル及び第二モデルに基づいて訓練して得られることは、
目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して第三モデルを得ることと、
前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して第四モデルを得ることと、
前記第三モデル及び前記第四モデルに基づいて訓練して前記第一目標モデルを得ることとを含み、
ここで、前記目標リップ画像サンプルデータの精細度は第一所定の閾値より大きく、前記目標リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度は第二所定の閾値より小さい、請求項１に記載の方法。
前記第一リップ駆動操作は、
それぞれ前記目標顔部画像データと前記音声素片に対して特徴抽出を行って、前記目標顔部画像データの第一特徴及び前記音声素片の第二特徴を得ることと、
前記第一特徴と前記第二特徴を整列して、第一目標特徴を得ることと、
前記第一目標特徴に基づいて前記第一リップ画像データを構築することとを含む、請求項１に記載の方法。
前記第一目標特徴に基づいて前記第一リップ画像データを構築することの前に、
注意力メカニズムを用いて前記目標顔部画像データに対して画像回帰を行って、前記目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得ることとをさらに含み、
前記第一目標特徴に基づいて前記第一リップ画像データを構築することは、
前記第一目標特徴に基づいて前記仮想オブジェクトの前記音声素片による駆動での第二リップ画像データを生成することと、
前記目標顔部画像データ、前記第二リップ画像データ及び前記マスク画像を融合して、前記第一リップ画像データを得ることとを含む、請求項３に記載の方法。
前記第一特徴は上層グローバル特徴及び下層詳細特徴を含み、前記第一特徴と前記第二特徴を整列して、第一目標特徴を得ることは、
前記上層グローバル特徴と前記下層詳細特徴をそれぞれ前記第二特徴と整列して、第一目標特徴を得ることを含み、
ここで、前記第一目標特徴は整列後の前記上層グローバル特徴及び整列後の前記下層詳細特徴を含む、請求項３に記載の方法。
第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得することと、
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得ることと、
それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データと前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得ることと、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定することと、
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新することとを含む、モデル訓練方法。
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得ることの前に、前記方法は
第二音声サンプル素片、第一リップ画像サンプルデータ及び前記第二音声サンプル素片と前記第一リップ画像サンプルデータが同期するか否かを特徴つける目標ラベルを含む第二訓練サンプルセットを取得することと、
第二目標モデルに基づいて前記第二音声サンプル素片と目標データにそれぞれ特徴抽出を行って、前記第二音声サンプル素片の第三特徴と前記目標データの第四特徴を得ることと、
前記第三特徴と前記第四特徴との間の特徴距離を決定することと、
前記特徴距離及び前記目標ラベルに基づいて、前記第二目標モデルのパラメータを更新することとをさらに含み、
ここで、前記目標データが前記第一リップ画像サンプルデータである場合、前記第二目標モデルは前記第一モデルであり、前記目標データが前記第一リップ画像サンプルデータにおけるリップ部領域のデータである場合、前記第二目標モデルは前記第二モデルである、請求項６に記載の方法。
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新することの後に、前記方法は、
第三モデル及び第四モデルを更新後の前記第一目標モデルの判別器とし、第二顔部画像サンプルデータに基づいて更新後の前記第一目標モデルを訓練することにより、前記第一目標モデルのパラメータを調整することをさらに含み、
ここで、前記第三モデルは目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して得られ、前記第四モデルは前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して得られ、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータの精細度はいずれも第一所定の閾値より大きく、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータにおける顔部の所定の方向に対するオフセット角度はいずれも第二所定の閾値より小さい、請求項７に記載の方法。
前記目標リップ画像サンプルデータは、
Ｍ個の第二リップ画像サンプルデータを取得し、
各第二リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度を計算し、
前記Ｍ個の第二リップ画像サンプルデータから顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータを選別し、
顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータに対して顔部精細度を向上させて、前記目標リップ画像サンプルデータを得るという方式で取得され、Ｍは正の整数である、請求項８に記載の方法。
音声素片及び仮想オブジェクトの目標顔部画像データを取得するために用いられる第一取得モジュールと、
前記音声素片及び前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得るために用いられる第一操作モジュールとを含み、
ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである、仮想オブジェクトリップ駆動装置。
前記第一目標モデルが第一モデル及び第二モデルに基づいて訓練して得られることは、
目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して第三モデルを得ることと、
前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して第四モデルを得ることと、
前記第三モデル及び前記第四モデルに基づいて訓練して前記第一目標モデルを得ることとを含み、
ここで、前記目標リップ画像サンプルデータの精細度は第一所定の閾値より大きく、前記目標リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度は第二所定の閾値より小さい、請求項１０に記載の装置。
前記第一操作モジュールは、
それぞれ前記目標顔部画像データと前記音声素片に対して特徴抽出を行って、前記目標顔部画像データの第一特徴と前記音声素片の第二特徴を得るために用いられる抽出ユニットと、
前記第一特徴と前記第二特徴を整列して、第一目標特徴を得るために用いられる整列ユニットと、
前記第一目標特徴に基づいて前記第一リップ画像データを構築するために用いられる構築ユニットとを含む、請求項１０に記載の装置。
注意力メカニズムを用いて前記目標顔部画像データに対して画像回帰を行って、前記目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得るために用いられる画像回帰モジュールをさらに含み、
前記構築ユニットは、具体的には
前記第一目標特徴に基づいて前記仮想オブジェクトの前記音声素片による駆動での第二リップ画像データを生成し、
前記目標顔部画像データ、前記第二リップ画像データ及び前記マスク画像を融合して、前記第一リップ画像データを得るために用いられる、請求項１２に記載の装置。
前記第一特徴は上層グローバル特徴及び下層詳細特徴を含み、
前記整列ユニットは、具体的には、
前記上層グローバル特徴と前記下層詳細特徴をそれぞれ前記第二特徴と整列して、第一目標特徴を得るために用いられ、
ここで、前記第一目標特徴は整列後の前記上層グローバル特徴及び整列後の前記下層詳細特徴を含む、請求項１２に記載の装置。
第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得するために用いられる第二取得モジュールと、
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得るために用いられる第二操作モジュールと、
それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データ及び前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得るために用いられるリップシンク判別モジュールと、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定するために用いられる第一決定モジュールと、
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新するために用いられる第一更新モジュールとを含む、モデル訓練装置。
第二音声サンプル素片、第一リップ画像サンプルデータ及び前記第二音声サンプル素片と前記第一リップ画像サンプルデータとが同期するか否かを特徴つける目標ラベルを含む第二訓練サンプルセットを取得するために用いられる第三取得モジュールと、
第二目標モデルに基づいて前記第二音声サンプル素片と目標データに対してそれぞれ特徴抽出を行って、前記第二音声サンプル素片の第三特徴及び前記目標データの第四特徴を得るために用いられる特徴抽出モジュールと、
前記第三特徴と前記第四特徴との間の特徴距離を決定するために用いられる第二決定モジュールと、
前記特徴距離及び前記目標ラベルに基づいて、前記第二目標モデルのパラメータを更新するために用いられる第二更新モジュールとをさらに含み、
ここで、前記目標データが前記第一リップ画像サンプルデータである場合、前記第二目標モデルは前記第一モデルであり、前記目標データが前記第一リップ画像サンプルデータにおけるリップ部領域のデータである場合、前記第二目標モデルは前記第二モデルである、請求項１５に記載の装置。
第三モデル及び第四モデルを更新後の前記第一目標モデルの判別器とし、第二顔部画像サンプルデータに基づいて更新後の前記第一目標モデルを訓練することにより、前記第一目標モデルのパラメータを調整するために用いられるモデル訓練モジュールとをさらに含み、
ここで、前記第三モデルは目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して得られ、前記第四モデルは前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して得られ、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータの精細度はいずれも第一所定の閾値より大きく、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータにおける顔部の所定の方向に対するオフセット角度はいずれも第二所定の閾値より小さい、請求項１６に記載の装置。
前記目標リップ画像サンプルデータは、
Ｍ個の第二リップ画像サンプルデータを取得し、
各第二リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度を計算し、
前記Ｍ個の第二リップ画像サンプルデータから顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータを選別し、
顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータに対して顔部精細度を向上させて、前記目標リップ画像サンプルデータを得るという方式で取得され、Ｍは正の整数である、請求項１７に記載の装置。
少なくとも一つのプロセッサ、及び
前記少なくとも一つのプロセッサと通信接続されるメモリを含み、ここで、
前記メモリは前記少なくとも一つのプロセッサが実行可能な指令を記憶しており、前記指令が前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが請求項１－５のいずれか一項に記載の方法を実行することができるか、又は請求項６－９のいずれか一項に記載の方法を実行することができる、電子機器。
コンピュータ指令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ指令は前記コンピュータに請求項１－５のいずれか一項に記載の方法を実行させるか、又は請求項６－９のいずれか一項に記載の方法を実行させるために用いられる、記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムはプロセッサにより実行される場合に請求項１－５のいずれか一項に記載の方法を実現するか、又は実行される場合に請求項６－９のいずれか一項に記載の方法を実現する、コンピュータプログラム。