JP2022133409A - 仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器 - Google Patents

仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器 Download PDF

Info

Publication number
JP2022133409A
JP2022133409A JP2022109219A JP2022109219A JP2022133409A JP 2022133409 A JP2022133409 A JP 2022133409A JP 2022109219 A JP2022109219 A JP 2022109219A JP 2022109219 A JP2022109219 A JP 2022109219A JP 2022133409 A JP2022133409 A JP 2022133409A
Authority
JP
Japan
Prior art keywords
target
model
lip
data
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022109219A
Other languages
English (en)
Other versions
JP7401606B2 (ja
Inventor
展望 張
Zhanwang Zhang
天舒 胡
Tianshu Hu
智濱 洪
Zhibin Hong
志良 徐
Zhiliang Xu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022133409A publication Critical patent/JP2022133409A/ja
Application granted granted Critical
Publication of JP7401606B2 publication Critical patent/JP7401606B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

【課題】仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器を提供する。【解決手段】方法は、音声素片と仮想オブジェクトの目標顔部画像データを取得し、音声素片と目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、仮想オブジェクトの音声素片による駆動での第一リップ画像データを得る。ここで、第一目標モデルは、第一モデル及び第二モデルに基づいて訓練して得られ、リップ画像データに対するリップシンク判別モデルである。第二モデルは、リップ画像データにおけるリップ部領域に対するリップシンク判別モデルである。【選択図】図1

Description

本開示は人工知能技術分野に関し、特にコンピュータ視覚、深層学習の技術分野に関し、具体的には仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器に関する。
人工知能(Artificial Intelligence、AI)及びビッグデータ技術の急速な発展に伴い、AIは既に生活の様々な方面に浸透し、仮想オブジェクト技術はAI技術における重要なサブ分野の一つであり、それはAI技術としての例えば深層学習技術により仮想オブジェクトの映像を構築し、この仮想オブジェクトの顔部表情を駆動することにより、人間が話すことをシミュレーションすることができる。
顔部表情駆動の主な応用は音声により仮想オブジェクトリップ駆動を実現することにより、音声とリップとの同期という目的を達成することである。現在、仮想オブジェクトリップ駆動の解決手段は一般的にはリップシンク精度に注目し、仮想オブジェクトの顔部画像に対して特徴抽出を行い、かつ音声に対応するリップを顔部のテクスチャとレンダリングすることにより、リップシンクという目的を達成する。
本開示は仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器を提供する。
本開示の第一態様によれば、仮想オブジェクトリップ駆動方法を提供し、
音声素片及び仮想オブジェクトの目標顔部画像データを取得することと、
前記音声素片と前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得ることとを含み、
ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである。
本開示の第二態様によれば、モデル訓練方法を提供し、
第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得することと、
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得ることと、
それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データと前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得ることと、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定することと、
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新することとを含む。
本開示の第三態様によれば、仮想オブジェクトリップ駆動装置を提供し、
音声素片及び仮想オブジェクトの目標顔部画像データを取得するために用いられる第一取得モジュールと、
前記音声素片及び前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得るために用いられる第一操作モジュールとを含み、
ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである。
本開示の第四態様によれば、モデル訓練装置を提供し、
第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得するために用いられる第二取得モジュールと、
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得るために用いられる第二操作モジュールと、
それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データ及び前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得るために用いられるリップシンク判別モジュールと、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定するために用いられる第一決定モジュールと、
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新するために用いられる第一更新モジュールとを含む。
本開示の第五態様によれば、電子機器を提供し、
少なくとも一つのプロセッサ、及び
少なくとも一つのプロセッサと通信接続されるメモリを含み、ここで、
メモリは少なくとも一つのプロセッサが実行可能な指令を記憶しており、該指令は少なくとも一つのプロセッサにより実行されることにより、少なくとも一つのプロセッサが第一態様のいずれかの方法を実行するか、又は第二態様のいずれかの方法を実行することができる。
本開示の第六態様によれば、コンピュータ指令を記憶している非一時的なコンピュータ読み取り可能な記憶媒体を提供し、該コンピュータ指令はコンピュータに第一態様のいずれかの方法を実行させるか、又は第二態様のいずれかの方法を実行させるために用いられる。
本開示の第七態様によれば、コンピュータプログラムを提供し、該コンピュータプログラムはプロセッサにより実行される場合に第一態様のいずれかの方法を実現するか、又は実行される場合に第二態様のいずれかの方法を実現する。
本開示の技術によれば、生成された仮想オブジェクトリップ画像データのリップ部のテクスチャが悪いという問題を解決し、仮想オブジェクトリップ画像データの品質を向上させる。
理解すべきように、本部分に記載された内容は本開示の実施例のキー又は重要な特徴を標識することを意図するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は以下の説明により容易に理解できる。
図面は本解決手段をよりよく理解するために用いられ、本開示を限定するものではない。
図1は、本開示の第一実施例に係る仮想オブジェクトリップ駆動方法の概略フローチャートである。 図2は、本開示の第二実施例に係るモデル訓練方法の概略フローチャートである。 図3は、本開示の第三実施例に係る仮想オブジェクトリップ駆動装置の概略構成図である。 図4は、本開示の第四実施例に係るモデル訓練装置の概略構成図である。 図5は、本開示の実施例を実施するための例示的な電子機器の概略ブロック図である。
以下に図面を参照しながら本開示の例示的な実施例を説明し、ここで本開示の実施例の様々な詳細を含んで理解に役立ち、それらを例示的なものと考えるべきである。したがって、当業者であれば理解すべきように、本開示の範囲及び精神から逸脱せずに、ここで説明した実施例に対して様々な変更及び修正を行うことができる。同様に、明確かつ簡単に説明するために、以下の説明において公知の機能及び構造に対する説明を省略する。
第一実施例
図1に示すように、本開示は仮想オブジェクトリップ駆動方法を提供し、以下のステップを含む:
ステップS101:音声素片及び仮想オブジェクトの目標顔部画像データを取得する。
本実施例において、仮想オブジェクトリップ駆動方法は人工知能技術分野に関し、特にコンピュータ視覚、深層学習の技術分野に関し、それは顔認識などの様々なシーンで広く応用することができる。本開示の実施例の仮想オブジェクトリップ駆動方法は、本開示の実施例の仮想オブジェクトリップ駆動装置により実行することができる。本開示の実施例の仮想オブジェクトリップ駆動装置は任意の電子機器に配置されて、本開示の実施例の仮想オブジェクトリップ駆動方法を実行することができる。該電子機器はサーバであってもよく、端末であってもよく、ここでは具体的な限定をしない。
仮想オブジェクトは仮想人物であってもよく、仮想動物であってもよく、さらに仮想植物であってもよく、要するに、該仮想オブジェクトはアバターを有するオブジェクトである。ここで、前記仮想人物は漫画キャラクター又は非漫画キャラクターであってもよい。
該仮想オブジェクトのキャラクタはカスタマサービス、司会者、教師、アイドル及びツアーガイドなどであってもよく、ここでは具体的な限定をしない。本実施例の目的はリップ駆動により話しを実現する仮想オブジェクトを生成することにより、該仮想オブジェクトがそのキャラクタ機能を実現し、例えば、仮想教師のリップを駆動することにより、講義機能を実現できることである。
音声素片は一節の音声であってもよく、それは仮想オブジェクトのリップ部を駆動することにより、仮想オブジェクトのリップ部は該音声素片に応じて対応する開閉を行うことができ、すなわち仮想オブジェクトのリップと実際の人が該音声素片を話す場合のリップとを類似するようにして、リップ駆動により仮想オブジェクトの話す過程をシミュレートするために用いられる。
該音声素片の取得方式は複数種を含むことができ、例えば、一節の音声をリアルタイムに録音してもよく、予め記憶された一節の音声を取得してもよく、さらに他の電子機器から送信された一節の音声を受信してもよく、又はネットワークから一節の音声をダウンロードしてもよい。
目標顔部画像データとは仮想オブジェクト顔部内容を含む画像データを指すことができ、仮想オブジェクトが仮想人物である場合、該目標顔部画像データは顔データであってもよい。該目標顔部画像データは一枚の顔画像のみを含むことができ、複数枚の顔画像を含むことができ、ここでは具体的な限定をしない。該複数枚の顔画像は顔シリーズと呼ばれてもよく、同一の仮想人物の複数枚の顔画像を指し、該複数枚の顔画像における顔の姿勢、表情、リップなどは異なることができる。
目標顔部画像データにおけるリップ部は全部又は一部が開状態(すなわち仮想オブジェクトが話す状態にある)にあってもよく、全部又は一部が閉状態にあってもよく、ここでは具体的な限定をしない。目標顔部画像データが全部閉状態にある場合、目標顔部画像データはリップを除去する顔部画像データであってもよく、すなわち仮想オブジェクトは常に話さず、サイレント状態にある。
目標顔部画像データの表現形式はビデオであってもよく、画像であってもよく、ここでは具体的な限定をしない。
目標顔部画像データの取得方式は複数種を含むことができ、例えば、一節のビデオをリアルタイムに録画するか又はいくつかの画像を目標顔部画像データとしてリアルタイムに撮影してもよく、予め記憶されたビデオ又は画像を目標顔部画像データとして取得してもよく、さらに他の電子機器から送信されたビデオ又は画像を目標顔部画像データとして受信してもよく、又はネットワークからビデオ又は画像を目標顔部画像データとしてダウンロードしてもよい。ここで、取得されたビデオは顔部画像を含むことができ、取得された画像は顔部画像内容を含むことができる。
ステップS102:前記音声素片と前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得て、ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである。
該ステップにおいて、第一目標モデルは深層学習モデルであってもよく、例えば敵対的生成ネットワーク(Generative Adversarial Networks、GAN)であり、第一目標モデルの作用は目標顔部画像データと音声素片を整列して、仮想オブジェクトの音声素片による駆動での第一リップ画像データを得ることである。
ここで、目標顔部画像データと音声素片を整列することは仮想オブジェクトのリップ部を該音声素片に応じて対応する開閉を行うように駆動することを指すことができ、すなわち仮想オブジェクトのリップと実際の人が該音声素片を話す場合のリップとを類似するようにして、リップ駆動により仮想オブジェクトの話す過程をシミュレートする。
第一リップ画像データは複数枚の画像を含むことができ、その表現形式はビデオであってもよく、該ビデオは仮想オブジェクトが該音声素片を話す過程での一連の連続的なリップ画像を含むことができる。
第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られることができ、ここで、第一モデル及び/又は第二モデルは第一目標モデルの一部であってもよく、例えば、第一目標モデルは生成器及び判別器を含むことができ、第一モデル及び第二モデルは判別器として第一目標モデルに含まれることができ、第一モデル及び/又は第二モデルは第一目標モデルの一部でなくてもよく、ここでは具体的な限定をしない。
第一モデルはリップ画像データに対するリップシンク判別モデルであってもよく、それはリップ画像データ及び一節の音声に対して、該リップ画像データにおいて、一連の連続的なリップ画像におけるリップが該音声と同期するか否かを判定するために用いることができる。
第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルであってもよく、それはリップ画像データにおけるリップ部領域の画像データ及び一節の音声に対して、リップ部領域の画像データにおいて、一連の連続的なリップ画像におけるリップが該音声と同期するか否かを判定するために用いることができる。ここで、リップ画像データにおける画像のリップ部領域を裁断して、該リップ画像データにおけるリップ部領域の画像データを得ることができる。
代替実施形態において、第一目標モデルは第一モデル及び第二モデルに基づいて直接的に訓練して得られることができる。ここで、第一モデルは目標リップ画像サンプルデータ及び他のリップ画像サンプルデータに基づいて訓練して得られてもよく、目標リップ画像サンプルデータに基づいて訓練して得られてもよく、第二モデルは目標リップ画像サンプルデータ及び他のリップ画像サンプルデータに基づいて訓練して得られてもよく、目標リップ画像サンプルデータに基づいて訓練して得られてもよく、ここでは具体的な限定をしない。
具体的な訓練過程で、第一目標モデルとしての例えば第一目標モデルにおける生成器に基づいて顔部画像サンプルデータと音声サンプル素片を整列することにより、リップ画像データを生成し、その後に第一モデルに基づいて生成されたリップ画像データと音声サンプル素片が同期するか否かを判定して、第一判別結果を得ると同時に、第二モデルに基づいて生成されたリップ画像データと音声サンプル素片が同期するか否かを判定して、第二判別結果を得ることができる。逆勾配で伝播する方式で第一判別結果及び第二判別結果を第一目標モデルにフィードバックして、第一目標モデルのパラメータを更新することにより、第一目標モデルに基づいて生成されたリップ画像データと音声サンプル素片がますます同期することができる。
別の代替実施形態において、第一目標モデルは第一モデル及び第二モデルに基づいて間接的に訓練して得られることができ、前記第一目標モデルが第一モデル及び第二モデルに基づいて訓練して得られることは、
目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して第三モデルを得ることと、
前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して第四モデルを得ることと、
前記第三モデル及び前記第四モデルに基づいて訓練して前記第一目標モデルを得ることとを含み、
ここで、目標リップ画像サンプルデータの精細度は第一所定の閾値より大きく、かつ目標リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度は第二所定の閾値より小さく、所定の方向は画像表示画面に対する方向であってもよい。
ここで、第一目標モデルを第三モデル及び第四モデル訓練に基づいて直接的に訓練する過程は第一モデル及び第二モデルに基づいて直接的に訓練する過程と類似し、ここでは説明を省略する。
第一所定の閾値は実際の状況に応じて設定することができ、一般的には第一所定の閾値は大きく設定され、リップ画像サンプルデータの精細度が第一所定の閾値より大きい場合、該リップ画像サンプルデータが高精細度のリップ画像サンプルデータであってもよいことを特徴つけ、すなわち目標リップ画像サンプルデータは高精細度のリップ画像サンプルデータである。
第二所定の閾値は実際の状況に応じて設定することができ、一般的には第二所定の閾値は小さく設定され、リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度が第二所定の閾値としての例えば30度より小さい場合、該リップ画像サンプルデータにおける顔部が正顔であることを特徴つけ、すなわち目標リップ画像サンプルデータは、顔部が正顔であるリップ画像サンプルデータである。リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度が第二所定の閾値以上である場合、該リップ画像サンプルデータにおける顔部が横顔であることを特徴つける。
それに応じて、目標リップ画像サンプルデータを高精細度の正顔データと呼ぶことができ、リップ画像サンプルデータにおける目標リップ画像サンプルデータ以外の他のリップ画像サンプルデータは正顔データ及び横顔データを含むことができる。
別の代替実施形態において、第一目標モデルをまず第一モデル及び第二モデルに基づいて訓練することができ、具体的には第一モデル及び第二モデルをリップシンク判別器として、高精細度の正顔データ及び他のリップ画像サンプルデータに基づいて第一目標モデルを訓練することができる。訓練が完了した後、第一目標モデルのモデルパラメータに基づいて、第三モデル及び第四モデルに基づいて第一目標モデルを訓練し続けることにより、第一目標モデルのモデルパラメータを調整し、具体的には第三モデル及び第四モデルをリップシンク判別器として、高精細度の正顔データに基づいて第一目標モデルを訓練し、かつ0.1の学習率を設定して第一目標モデルのモデルパラメータを微調整することができる。
説明すべきことは、第一目標モデルを訓練する前に、第一モデル、第二モデル、第三モデル及び第四モデルをいずれも予め訓練する必要があることである。
目標リップ画像サンプルデータ及び他のリップ画像サンプルデータに基づいて訓練を行って得られた第一モデルはsyncnet-face-allで表すことができ、syncnet-face-allは強い汎化能力を有し、すなわち横顔データ、正顔データ又は高精細度の正顔データに対して、いずれもリップ画像データが音声素片と同期するか否かを安定的に判別することができる。
目標リップ画像サンプルデータ及び他のリップ画像サンプルデータに基づいて訓練を行い、すなわちリップ画像サンプルデータにおけるリップ部領域の画像データを裁断して訓練し、得られた第二モデルはsyncnet-mouth-allで表すことができ、syncnet-mouth-allも強い汎化能力を有し、すなわち横顔データ、正顔データ又は高精細度の正顔データにおけるリップ部領域の画像データに対して、いずれもリップ部領域の画像データが音声素片と同期するか否かを安定的に判別することができる。
また、第一モデル及び第二モデルの汎化性を保証するために、0.2比率の高精細度の正顔データを取得し、かつデータ強化を行い、例えばファジィ(blur)、色変換(color transfer)などのデータ強化を行うことができる。
目標リップ画像サンプルデータに基づいて第一モデルを訓練して得られた第三モデルはsyncnet-face-hdで表すことができ、syncnet-face-hdはリップシンクに対する判別精度が高く、リップ画像データが音声素片と同期するか否かをより正確に判別することができる。
目標リップ画像サンプルデータに基づいて第二モデルを訓練し、すなわち目標リップ画像サンプルデータにおけるリップ部領域の画像データを裁断して第二モデルを訓練し、得られた第四モデルはsyncnet-mouth-hdで表すことができ、syncnet-mouth-hdはリップシンクに対する判別精度が高く、リップ画像データにおけるリップ部領域の画像データが音声素片と同期するか否かをより正確に判別することができる。
また、まず目標リップ画像サンプルデータ及び他のリップ画像サンプルデータに基づいて訓練を行って、syncnet-face-allを取得し、その後にsyncnet-face-allのモデルパラメータを基礎として、目標リップ画像サンプルデータに基づいてsyncnet-face-allを訓練し、最後にsyncnet-face-hdを得ることができ、このようにモデル訓練速度を上げることができる。syncnet-mouth-hdの訓練過程はsyncnet-face-hdの訓練過程と類似することができ、ここでは説明を省略する。
第一モデル及び第二モデルを第一目標モデルの一部とするか、又は第三モデル及び第四モデルを第一目標モデルの一部として、第一目標モデルの訓練過程で、第一モデル、第二モデル、第三モデル及び第四モデルがいずれも予め訓練され、リップ音声判別をより正確に行うことができ、したがって、第一目標モデルのモデルパラメータを更新する場合、第一モデル、第二モデル、第三モデル及び第四モデルのモデルパラメータを固定することができ、すなわちこれらのモデルのモデルパラメータを更新しない。
本実施例において、第一モデル及び第二モデルに基づいて訓練して第一目標モデルを取得し、その後に音声素片と目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、仮想オブジェクトの音声素片による駆動での第一リップ画像データを得る。第一モデルに基づいて訓練して得られた第一目標モデルは、第一リップ駆動操作を実行した後、その生成されたリップ画像データにおいて、顎、顔と背景との受渡部分などの顔全体性が優れるが、顔全体においてリップ部領域が小さいため、ダウンサンプリングした後にリップ部領域の特徴がなくなりやすく、学習されたリップ部の特徴が欠失し、それによりリップ画像データにおけるリップ部のテクスチャとしての例えば歯のテクスチャが十分に明らかではない。したがって、リップ部領域を拡大して、第二モデルを構築することができ、第一モデルと第二モデルを組み合わせて第一目標モデルを訓練し、かつ第一目標モデルに基づいてリップ画像データを生成することで、リップ画像データと音声素片とのリップシンクを保証すると同時に、リップ部領域の詳細特徴としての例えば歯の特徴に注目することができ、それにより第一目標モデルに基づいて生成されたリップ画像データにおける顔部のリップ部のテクスチャとしての例えば歯のテクスチャが明瞭に見え、さらに仮想オブジェクトのリップ画像データの品質が向上することができる。
かつ、リップ画像データと音声素片とのリップシンクへの影響は顔部のエッジ領域としての例えば顎の動きだけでなく、リップ部の開閉にも現れ、したがって、第一モデルと第二モデルを組み合わせて第一目標モデルを訓練し、かつ第一目標モデルに基づいてリップ画像データを生成することで、リップ画像データと音声素片とのリップシンク精度が向上することができる。
選択可能に、前記第一目標モデルが第一モデル及び第二モデルに基づいて訓練して得られることは、
目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して第三モデルを得ることと、
前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して第四モデルを得ることと、
前記第三モデル及び前記第四モデルに基づいて訓練して前記第一目標モデルを得ることとを含み、
ここで、前記目標リップ画像サンプルデータの精細度は第一所定の閾値より大きく、前記目標リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度は第二所定の閾値より小さい。
本実施形態において、第一モデルはsyncnet-face-allであってもよく、第二モデルはsyncnet-mouth-allであってもよく、第一目標モデルは第三モデル及び第四モデルに基づいて訓練して得られてもよく、第三モデルは目標リップ画像サンプルデータに基づいて第一モデルを訓練して得られ、syncnet-face-hdであってもよく、第四モデルは目標リップ画像サンプルデータに基づいて第二モデルを訓練して得られ、syncnet-mouth-hdであってもよい。
ここで、第一目標モデルは第三モデル及び第四モデルに基づいて直接的に訓練して得られることができ、第三モデルが目標リップ画像サンプルデータに基づいて第一モデルを訓練して得られたモデルであり、第四モデルが目標リップ画像サンプルデータに基づいて第二モデルを訓練して得られたモデルであるため、このように第三モデルと第四モデルを組み合わせて第一目標モデルを訓練し、かつ第一目標モデルに基づいてリップ画像データを生成することで、リップ画像データと音声素片とのリップシンクを保証できると同時に、高精細度のリップ画像を生成し、高精細度の顔リップ駆動を実現し、高解像シーンを満たすことができる。
第一目標モデルをまず第一モデル及び第二モデルに基づいて訓練することができ、具体的には第一モデル及び第二モデルをリップシンク判別器として、高精細度の正顔データ及び他のリップ画像サンプルデータに基づいて第一目標モデルを訓練することができる。訓練が完了した後、第一目標モデルのモデルパラメータに基づいて、第三モデル及び第四モデルに基づいて第一目標モデルを訓練し続けることにより、第一目標モデルのモデルパラメータを調整し、具体的には第三モデル及び第四モデルをリップシンク判別器として、高精細度の正顔データに基づいて第一目標モデルを訓練し、かつ0.1の学習率を設定して第一目標モデルのモデルパラメータを微調整することができる。このように、リップ画像データと音声素片とのリップシンクを保証すると同時に、高精細度のリップ画像を生成することができ、かつ第一目標モデルの訓練速度を上げることができる。
選択可能に、前記第一リップ駆動操作は、
それぞれ前記目標顔部画像データと前記音声素片に対して特徴抽出を行って、前記目標顔部画像データの第一特徴及び前記音声素片の第二特徴を得ることと、
前記第一特徴と前記第二特徴を整列して、第一目標特徴を得ることと、
前記第一目標特徴に基づいて前記第一リップ画像データを構築することとを含む。
本実施形態において、第一目標モデルにおける生成器に基づいてそれぞれ目標顔部画像データと音声素片に対して特徴抽出を行って、目標顔部画像データの第一特徴及び音声素片の第二特徴を得る。ここで、第一特徴は目標顔部画像データにおける各画像の上層グローバル特徴及び/又は下層詳細特徴を含むことができ、第二特徴はオーディオ特徴としての例えばmel特徴であってもよい。
その後に第一特徴と第二特徴を整列して、第一目標特徴を得ることができ、具体的には第二特徴に基づいて現在の音声素片のリップを予測し、予測されたリップに基づいて第一特徴を調整して、整列後の第一目標特徴を得ることができる。
その後に第一目標特徴に基づいて第一リップ画像データを構築することができ、第一目標特徴に基づいて第一リップ画像データを構築する方式は二種類あり、第一種としては、第一目標特徴に基づいて画像構築を行うことにより、第一リップ画像データを生成することができる。第二種としては、注意力メカニズムを用いて前記目標顔部画像データに対して画像回帰を行って、目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得って、第一目標特徴に基づいて画像構築を行うことにより、第二リップ画像データを生成し、目標顔部画像データ、第二リップ画像データ及びマスク画像を融合して、第一リップ画像データを得る。
本実施形態において、第一目標モデルに基づいてそれぞれ目標顔部画像データと音声素片に対して特徴抽出を行うことにより、目標顔部画像データの第一特徴及び音声素片の第二特徴を得て、第一特徴と第二特徴を整列して、第一目標特徴を得て、第一目標特徴に基づいて第一リップ画像データを構築し、このように第一目標モデルに基づいて音声素片によるリップ駆動を実現することができる。
選択可能に、前記第一目標特徴に基づいて前記第一リップ画像データを構築する前記ステップの前に、
注意力メカニズムを用いて前記目標顔部画像データに対して画像回帰を行って、前記目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得ることをさらに含み、
前記第一目標特徴に基づいて前記第一リップ画像データを構築する前記ステップは、
前記第一目標特徴に基づいて前記仮想オブジェクトの前記音声素片による駆動での第二リップ画像データを生成することと、
前記目標顔部画像データ、前記第二リップ画像データ及び前記マスク画像を融合して、前記第一リップ画像データを得ることとを含む。
本実施形態において、第一目標モデルにおける生成器に注意力メカニズムを導入することができ、目標顔部画像データに対して画像回帰を行って、目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得る。ここで、リップに関連する領域は顎領域、リップ部領域等を含むことができ、マスク画像はリップ関連領域に対する着色マスク及び/又は注意力マスクを含むことができる。
かつ第一目標特徴に基づいて仮想オブジェクトの前記音声素片による駆動での第二リップ画像データを生成し、具体的には第一目標特徴に基づいて画像構築を行うことにより、第二リップ画像データを生成することができる。
その後に以下の式(1)により目標顔部画像データ、第二リップ画像データ及びマスク画像を融合して、第一リップ画像データを得ることができる。
Figure 2022133409000002
ここで、上記式(1)において、IYfは第一リップ画像データであり、Aはマスク画像であり、Cは第二リップ画像データであり、IYoは目標顔部画像データである。
本実施形態において、注意力メカニズムを用いて前記目標顔部画像データに対して画像回帰を行って、前記目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得て、前記第一目標特徴に基づいて前記仮想オブジェクトの前記音声素片による駆動での第二リップ画像データを生成し、前記目標顔部画像データ、前記第二リップ画像データ及び前記マスク画像を融合して、前記第一リップ画像データを得る。このように、リップに関連する領域の画素に焦点を合わせることができ、それによりシャープネスがより高くより真のリップ画像データを得ることができる。
選択可能に、前記第一特徴は上層グローバル特徴及び下層詳細特徴を含み、前記第一特徴と前記第二特徴を整列して、第一目標特徴を得る前記ステップは、
前記上層グローバル特徴と前記下層詳細特徴をそれぞれ前記第二特徴と整列して、第一目標特徴を得ることを含み、
ここで、前記第一目標特徴は整列後の前記上層グローバル特徴及び整列後の前記下層詳細特徴を含む。
本実施形態において、高解像度の画像と実際の高解像度の画像は低レベルの画素値でも、高レベルの抽象的な特徴でも、いずれも近接すべきであり、それにより上層グローバル情報及び下層詳細情報を保証する。したがって、目標顔部画像データの第一特徴は上層グローバル特徴及び下層詳細特徴を含むことができ、上層グローバル特徴と下層詳細特徴をそれぞれ第二特徴と整列して、第一目標特徴を得ることができる。
その後に第一目標特徴に基づいて第一リップ画像データを構築することができ、このように第一リップ画像データにおける画像の解像度が向上することができる。
また、第一目標モデルを訓練する場合、上層グローバル特徴の損失値及び下層詳細特徴の損失値を導入して第一目標モデルのモデルパラメータを更新することにより、第一目標モデルの訓練効果を向上させ、高解像度の画像の上層グローバル情報及び下層詳細情報を保証することができる。
第二実施例
図2に示すように、本開示はモデル訓練方法を提供し、
第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得するステップS201と、
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得るステップS202と、
それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データと前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得るステップS203と、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定するステップS204と、
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新するステップS205というステップを含む。
本実施例は第一目標モデルの訓練過程を説明する。
ステップS201において、第一訓練サンプルセットは複数の第一音声サンプル素片及び第一音声サンプル素片に対応する複数の第一顔部画像サンプルデータを含むことができ、同時に第一訓練サンプルセットは仮想オブジェクトサンプルの第一音声サンプル素片による駆動でのリップ画像データラベルを含むことができる。
第一音声サンプル素片の取得方式は複数種を含むことができ、一種以上の方式を用いて第一訓練サンプルセットにおける第一音声サンプル素片を取得することができる。例えば、音声を第一音声サンプル素片としてリアルタイムに録音してもよく、予め記憶された音声を第一音声サンプル素片として取得してもよく、さらに他の電子機器から送信された音声を第一音声サンプル素片として受信してもよく、又はネットワークから音声を第一音声サンプル素片としてダウンロードしてもよい。
第一顔部画像サンプルデータの取得方式は複数種を含むことができ、一種以上の方式を用いて第一訓練サンプルセットにおける第一顔部画像サンプルデータを取得することができ、例えば、ビデオを第一顔部画像サンプルデータとしてリアルタイムに録画するか又はいくつかの画像を第一顔部画像サンプルデータとしてリアルタイムに撮像してもよく、予め記憶されたビデオ又は画像を第一顔部画像サンプルデータとして取得してもよく、さらに他の電子機器から送信されたビデオ又は画像を第一顔部画像サンプルデータとして受信してもよく、又はネットワークからビデオ又は画像を第一顔部画像サンプルデータとしてダウンロードしてもよい。
仮想オブジェクトサンプルの第一音声サンプル素片による駆動でのリップ画像データラベルとは仮想オブジェクトサンプルが第一音声サンプル素片を話す場合の実際のビデオを指すことができ、そのリップ精度は高い。その取得方式は複数種を含むことができ、例えば、仮想オブジェクトサンプルが第一音声サンプル素片を話す場合のビデオをリップ画像データラベルとして録画してもよく、仮想オブジェクトサンプルが第一音声サンプル素片を話す場合の予め記憶されたビデオをリップ画像データラベルとして取得してもよく、さらに他の電子機器から送信された仮想オブジェクトサンプルが第一音声サンプル素片を話す場合のビデオをリップ画像データラベルとして受信してもよい。
また、高解像度の画像と実際の高解像度の画像との間は、低レベルの画素値でも、高レベルの抽象的な特徴でも、いずれも近接すべきであり、それにより上層グローバル情報及び下層詳細情報を保証し、したがって第一目標モデルの訓練効果を向上させ、第一目標モデルに基づいて高精細度のリップ画像データを生成できるために、第一訓練サンプルセットはリップ画像データラベルの上層グローバル特徴ラベル及び下層詳細特徴ラベルをさらに含むことができる。
第一音声サンプル素片の音声特徴と整列した後の上層グローバル特徴と上層グローバル特徴ラベルとの間の損失値、及び第一音声サンプル素片の音声特徴と整列した後の下層詳細特徴と下層詳細特徴ラベルとの間の損失値を組み合わせて、第一目標モデルのパラメータを更新することにより、第一目標モデルに基づいて生成されたリップ画像データの解像度を向上させ、高精細度のリップ画像駆動を実現することができる。
ステップS202において、前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得ることができる。ここで、第二リップ駆動操作は第一リップ駆動操作の方式と類似し、ここでは説明を省略する。
代替実施形態において、前記第二リップ駆動操作は、
それぞれ前記第一顔部画像サンプルデータと前記第一音声サンプル素片に対して特徴抽出を行って、前記第一顔部画像サンプルデータの第五特徴及び前記第一音声サンプル素片の第六特徴を得ることと、
前記第五特徴と前記第六特徴を整列して、第二目標特徴を得ることと、
前記第二目標特徴に基づいて前記第三リップ画像データを構築することとを含む。
上記第二リップ駆動操作において、第一顔部画像サンプルデータ及び第一音声サンプル素片に対して特徴抽出を行う方式、第五特徴と第六特徴を整列する方式及び第二目標特徴に基づいて第三リップ画像データを構築する方式はいずれも第一リップ駆動操作における方式と類似し、ここでは説明を省略する。
ステップS203において、それぞれ第一モデルと第二モデルに基づいて、前記第三リップ画像データと前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得ることができる。ここで、第一判別結果は第三リップ画像データと第一音声サンプル素片との間の整列程度を特徴つけることができ、第二判別結果は第三リップ画像データにおけるリップ部領域の画像データと第一音声サンプル素片との間の整列程度を特徴つけることができる。
具体的には、第一モデルはそれぞれ第三リップ画像データと第一音声サンプル素片に対して特徴抽出を行って、第三リップ画像データの特徴及び第一音声サンプル素片の特徴を得ることができ、例えば、512次元の音声特徴及び512次元のリップ画像特徴を得て、その後にこれらの二つの特徴をそれぞれ正規化し、かつ両者の間のコサイン距離を計算する。ここで、コサイン距離が大きければ大きいほど、第三リップ画像データと第一音声サンプル素片との間のよりよい整列を特徴つけ、そうでなければ整列されていないことを表す。第二モデルに基づいて第三リップ画像データ及び第一音声サンプル素片に対してリップシンク判別を行う方式は第一モデルに基づいて第三リップ画像データ及び第一音声サンプル素片に対してリップシンク判別を行う方式と類似し、相違点としては第二モデルが第三リップ画像データにおけるリップ部領域の画像データ及び第一音声サンプル素片に対してリップシンク判別を行うことである。
ステップS204において、前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定することができる。
代替実施形態において、第一判別結果及び第二判別結果に基づいて第一目標モデルの目標損失値を直接的に決定することができ、例えば、第一判別結果及び第二判別結果に基づいて第三リップ画像データと第一音声サンプル素片との間の整列程度を決定し、該整列程度に基づいて目標損失値を決定することができる。ここで、よりよく整列すればするほど目標損失値が小さく、整列しなければしないほど目標損失値が大きいことを示す。
別の代替実施形態において、第三リップ画像データとリップ画像データラベルとの間の損失値に基づいて、かつ第一判別結果と第二判別結果を組み合わせて、第一目標モデルの目標損失値を決定することができる。具体的には第三リップ画像データとリップ画像データラベルとの間の損失値を、第一判別結果及び第二判別結果に基づいて決定された損失値と重畳し例えば加重加算して、目標損失値を得ることができる。
代替実施形態において、整列後の上層グローバル特徴と上層グローバル特徴ラベルとの間の損失値及び整列後の下層詳細特徴と下層詳細特徴ラベルとの間の損失値に基づいて、かつ第一判別結果と第二判別結果を組み合わせて、第一目標モデルの目標損失値を決定することができる。具体的には整列後の上層グローバル特徴と上層グローバル特徴ラベルとの間の損失値及び整列後の下層詳細特徴と下層詳細特徴ラベルとの間の損失値を、第一判別結果及び第二判別結果に基づいて決定された損失値と重畳し例えば加重加算して、目標損失値を得ることができる。
特徴と特徴ラベルとの間の損失値は、以下の式(2)により計算することができる。
Figure 2022133409000003
ここで、上記式(2)において、
Figure 2022133409000004
は特徴と特徴ラベルとの間の損失値であり、jは画像データの入力番号であり、Cは特徴チャネルであり、HとWはそれぞれ特徴の高さと幅であり、
Figure 2022133409000005
は抽出された特徴であり、yは特徴ラベルである。
また、整列後の上層グローバル特徴と上層グローバル特徴ラベルとの間の損失値、整列後の下層詳細特徴と下層詳細特徴ラベルとの間の損失値、第三リップ画像データとリップ画像データラベルとの間の損失値及び第一判別結果に対応する損失値と第二判別結果に対応する損失値を組み合わせて加重加算して、目標損失値を得ることもできる。その具体的な式は以下の式(3)で表される。
Figure 2022133409000006
ここで、上記式(3)において、Lossは目標損失値であり、Loss_11は整列後の下層詳細特徴と下層詳細特徴ラベルとの間の損失値であり、Loss_12は第三リップ画像データとリップ画像データラベルとの間の損失値であり、Loss_featは整列後の上層グローバル特徴と上層グローバル特徴ラベルとの間の損失値であり、loss_sync-faceは第一判別結果に対応する損失値であり、loss_sync-mouthは第二判別結果に対応する損失値であり、wt_feat、wt_face及びwt_mouthは対応する損失値の重みであり、これらの重みは実際の状況に応じて設定することができ、ここでは具体的な限定をしない。
ステップS205において、目標損失値に基づいて、逆勾配で伝播する方式を用いて、第一目標モデルのモデルパラメータを更新し、例えば第一目標モデルにおける生成器のパラメータ及び第三リップ画像データとリップ画像データラベルとの間が類似するか否かを判別するために用いられる判別器のパラメータを更新することができる。
第一モデル及び第二モデルが第一目標モデルにおけるサブモデルであれば、第一目標モデルのパラメータを更新する場合、第一モデル及び第二モデルのパラメータを更新しなくてもよい。
目標損失値が収束し、かつ小さくなると、第一目標モデル訓練が完了し、仮想オブジェクトのリップ駆動を行うことに用いることができる。
本実施例において、第一訓練サンプルセットを取得し、前記第一訓練サンプルセットは第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含み、前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得て、それぞれ第一モデルと第二モデルに基づいて、前記第三リップ画像データと前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得て、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルであり、前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定し、前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新する。このように、第一目標モデルの訓練を実現することができ、訓練して得られた第一目標モデルは仮想オブジェクトのリップ駆動を行う場合に、リップ画像データと音声素片とのリップシンクを保証すると同時に、リップ部領域の詳細特徴としての例えば歯の特徴に注目することができ、それにより第一目標モデルに基づいて生成されたリップ画像データにおける顔部のリップ部のテクスチャとしての例えば歯のテクスチャが明瞭に見え、さらに仮想オブジェクトのリップ画像データの品質が向上することができる。
選択可能に、前記ステップS202の前に、前記方法は、
第二音声サンプル素片、第一リップ画像サンプルデータ及び前記第二音声サンプル素片と前記第一リップ画像サンプルデータが同期するか否かを特徴つける目標ラベルを含む第二訓練サンプルセットを取得することと、
第二目標モデルに基づいて前記第二音声サンプル素片と目標データにそれぞれ特徴抽出を行って、前記第二音声サンプル素片の第三特徴と前記目標データの第四特徴を得ることと、
前記第三特徴と前記第四特徴との間の特徴距離を決定することと、
前記特徴距離及び前記目標ラベルに基づいて、前記第二目標モデルのパラメータを更新することとをさらに含み、
ここで、前記目標データが前記第一リップ画像サンプルデータである場合、前記第二目標モデルは前記第一モデルであり、前記目標データが前記第一リップ画像サンプルデータにおけるリップ部領域のデータである場合、前記第二目標モデルは前記第二モデルである。
本実施形態は具体的には第一モデル又は第二モデルの訓練過程を説明する。
具体的には、まず第二訓練サンプルセットを取得することができ、第二訓練サンプルセットは第二音声サンプル素片、第一リップ画像サンプルデータ及び目標ラベルを含むことができ、目標ラベルは前記第二音声サンプル素片と前記第一リップ画像サンプルデータが同期するか否かを特徴つけるために用いることができる。ここで、第二訓練サンプルセットは複数の第二音声サンプル素片及び複数の第一リップ画像サンプルデータを含むことができ、一つの第二音声サンプル素片に対して、第二訓練サンプルセットにそれに整列された第一リップ画像サンプルデータが存在し、さらにそれに整列されない第一リップ画像サンプルデータが存在してもよい。
第二訓練サンプルセットにおける第一リップ画像サンプルデータは全部が高精細度の正顔データであってもよく、一部が高精細度の正顔データであってもよく、例えば第二訓練サンプルセットは高精細度の正顔データ、正顔データ及び横顔データを含むことができ、ここでは具体的な限定をしない。第二訓練サンプルセットが高精細度の正顔データ、正顔データ及び横顔データを含むことができる場合、第二訓練サンプルセットに基づいて訓練して得られた第二目標モデルの汎化能力は高い。
具体的な実現過程で、第二訓練サンプルセットはポジティブサンプル及びネガティブサンプルを含むことができ、ポジティブサンプルを
Figure 2022133409000007
で表すことができ、ネガティブサンプルを
Figure 2022133409000008
で表すことができ、ポジティブサンプルは第二音声サンプル素片と第一リップ画像サンプルデータとが同期すると標識され、ネガティブサンプルは第二音声サンプルと第一リップ画像サンプルデータとが同期しないと標識される。
また、ポジティブサンプルを構築する場合、ポジティブサンプルは同一のビデオにおける画像フレームと音声とが整列されるように表現し、ネガティブサンプルは二種類を含み、一種は同一のビデオにおける画像フレームと音声とが整列されないデータで構築することができ、もう一種は異なるビデオの画像フレーム及び音声のデータで構築することができる。
その後、第二目標モデルに基づいて前記第二音声サンプル素片と目標データにそれぞれ特徴抽出を行って、前記第二音声サンプル素片の第三特徴と前記目標データの第四特徴を得ることができる。ここで、前記目標データが前記第一リップ画像サンプルデータである場合、前記第二目標モデルは前記第一モデルであり、前記目標データが前記第一リップ画像サンプルデータにおけるリップ部領域のデータである場合、前記第二目標モデルは前記第二モデルである。
具体的な実現過程で、ポジティブサンプル又はネガティブサンプルを第二目標モデルに送ることができ、ポジティブサンプルにおけるデータ又はネガティブサンプルにおけるデータに対して特徴抽出を行って、リップ画像特徴としての例えば512次元の第四特徴及び音声特徴としての例えば512次元の第三特徴を得て、それぞれ正規化した後、距離計算式により両者の間の特徴距離としての例えばコサイン距離を計算することができる。
その後、第二目標モデルのモデルパラメータを更新する過程で、オーディオとビデオとの間の同期情報すなわち目標ラベルに依存し、バランス訓練ポリシーを採用して、該特徴距離及び目標ラベルに基づいて比較損失(contrastive loss)を構築して整列制約を行うことができ、すなわちポジティブサンプルに基づいて決定されたコサイン距離が小さければ小さいほどよく、ネガティブサンプルに基づいて決定されたコサイン距離が大きければ大きいほどよい原則に従って、第二目標モデルのパラメータを更新する。
第二目標モデルの汎化性を保証するために、0.2比率の高精細度の正顔データを取得し、かつデータ強化、例えばファジィ(blur)、色変換(color transfer)などのデータ強化を行うことができる。
訓練の公平性のために、訓練過程で、ランダムビデオの方式を採用しなくてもよく、各モデル更新段階(epoch)で各ビデオを一回訓練することを保証し、第二目標モデルの比較損失は以下の式(4)に示すとおりである。
Figure 2022133409000009
ここで、上記式(4)において、
Figure 2022133409000010
は比較損失であり、Nは第一リップ画像サンプルデータの数量すなわちビデオ数量である。
その後、該比較損失に基づいて、第二目標モデルのパラメータを更新し、比較損失が収束し、かつ小さくなる場合、この時に第二目標モデルの更新が完了することができ、それにより第二目標モデルはポジティブサンプルに基づいて決定されたコサイン距離が小さく、ネガティブサンプルに基づいて決定されたコサイン距離が大きいという効果を達成することができる。
本実施形態において、第二訓練サンプルセットを取得し、前記第二訓練サンプルセットは第二音声サンプル素片、第一リップ画像サンプルデータ及び目標ラベルを含み、前記目標ラベルは前記第二音声サンプル素片と前記第一リップ画像サンプルデータが同期するか否かを特徴つけるために用いられ、第二目標モデルに基づいて前記第二音声サンプル素片と目標データにそれぞれ特徴抽出を行って、前記第二音声サンプル素片の第三特徴と前記目標データの第四特徴を得て、前記第三特徴と前記第四特徴との間の特徴距離を決定し、前記特徴距離及び前記目標ラベルに基づいて、前記第二目標モデルのパラメータを更新し、ここで、前記目標データが前記第一リップ画像サンプルデータである場合、前記第二目標モデルは前記第一モデルであり、前記目標データが前記第一リップ画像サンプルデータにおけるリップ部領域のデータである場合、前記第二目標モデルは前記第二モデルである。このように、第一モデル及び第二モデルの事前訓練を実現することができ、後続きの第一目標モデルを訓練する過程で、第一モデル及び第二モデルのパラメータを固定できることにより、リップシンク判別の効果を保証し、それにより第一目標モデルの訓練効率が向上することができる。
選択可能に、前記ステップS205の後、前記方法は、
第三モデル及び第四モデルを更新後の前記第一目標モデルの判別器とし、第二顔部画像サンプルデータに基づいて更新後の前記第一目標モデルを訓練することにより、前記第一目標モデルのパラメータを調整することをさらに含み、
ここで、前記第三モデルは目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して得られ、前記第四モデルは前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して得られ、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータの精細度はいずれも第一所定の閾値より大きく、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータにおける顔部の所定の方向に対するオフセット角度はいずれも第二所定の閾値より小さい。
本実施形態において、第一モデルと第二モデルはそれぞれ高精細度の正顔データ、正顔データ及び横顔データに基づいて訓練して得られ、第一モデルはsyncnet-face-allで表すことができ、第二モデルはsyncnet-mouth-allで表すことができ、それらの汎化能力が高い。
第三モデルは目標リップ画像サンプルデータに基づいて第一モデルを訓練して得られ、syncnet-face-hdで表され、第四モデルは目標リップ画像サンプルデータに基づいて第二モデルを訓練して得られ、syncnet-mouth-hdで表され、そのリップシンク判別精度は高く、高精細度のリップ画像データに対して正確さの高いリップシンク判別を行うことができる。
本実施形態において、第一モデル及び第二モデルに基づいて第一目標モデルを訓練した上で、第三モデル及び第四モデルを更新後の前記第一目標モデルの判別器として、第二顔部画像サンプルデータに基づいて更新後の前記第一目標モデルを訓練することにより、前記第一目標モデルのパラメータを調整する。つまり、第一モデルを第三モデルに置き換え、第二モデルを第四モデルに置き換え、第一目標モデルを訓練し続けることにより、第一目標モデルのパラメータを調整し、同時に、0.1の学習率を設定して第一目標モデルのモデルパラメータを微調整することができ、このように第一目標モデルの訓練効率が向上することができ、かつリップシンクを保証する上で、高精細度のリップ画像を駆動できる第一目標モデルを訓練して得ることができる。
選択可能に、前記目標リップ画像サンプルデータは、
M個の第二リップ画像サンプルデータを取得し、Mは正の整数であり、
各第二リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度を計算し、
前記M個の第二リップ画像サンプルデータから顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータを選別し、
顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータに対して顔部精細度を向上させて、前記目標リップ画像サンプルデータを得るという方式で取得される。
本実施形態において、M個の第二リップ画像サンプルデータを取得することができ、第二リップ画像サンプルデータは高精細度の正顔データ、正顔データ又は横顔データであってもよく、本実施形態の目的はM個の第二リップ画像サンプルデータから高精細度の正顔データを選別することにより、高精細度の正顔データを取得すという難題を解決することである。
具体的には、ネットワークから大量の第二リップ画像サンプルデータをダウンロードして、顔検出及び整列モデルにより、非遮蔽の顔画像及び音声特徴を抽出することができ、非遮蔽の顔画像及び音声特徴をモデルの訓練サンプルとすることができる。
顔整列アルゴリズムPRNetにより、抽出された顔画像に対して顔部オフセット角度を計算することができ、該顔角度に基づいて正顔データ及び横顔データを選別し、応用シーンが主に正顔シーンであれば、顔オフセット角度が30度より小さい顔画像を正顔データとして決定することができ、このようなデータは常にリップ及び歯情報を保証することができ、横顔データは基本的にはリップ情報のみを有する。
その後、顔強化モデルGPENに基づいて顔超解像強化を行うことにより、強化された顔画像を明らかに見え、画像出力スケールを256に限定し、かつ正顔データのみに対して強化操作を行い、最終的にはM個の第二リップ画像サンプルデータから目標リップ画像サンプルデータを選別することができる。このように、高精細度の正顔データを取得するという難題を解決することができ、画像データの品質に限定されない前提で、取得された画像データから信頼性の高いモデル訓練データを選別することができる。
第三実施形態
図3に示すように、本開示は仮想オブジェクトリップ駆動装置300を提供し、
音声素片及び仮想オブジェクトの目標顔部画像データを取得するために用いられる第一取得モジュール301と、
前記音声素片及び前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得るために用いられる第一操作モジュール302とを含み、
ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである。
選択可能に、前記第一目標モデルが第一モデル及び第二モデルに基づいて訓練して得られることは、
目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して第三モデルを得ることと、
前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して第四モデルを得ることと、
前記第三モデル及び前記第四モデルに基づいて訓練して前記第一目標モデルを得ることとを含み、
ここで、前記目標リップ画像サンプルデータの精細度は第一所定の閾値より大きく、前記目標リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度は第二所定の閾値より小さい。
選択可能に、前記第一操作モジュールは、
それぞれ前記目標顔部画像データと前記音声素片に対して特徴抽出を行って、前記目標顔部画像データの第一特徴と前記音声素片の第二特徴を得るために用いられる抽出ユニットと、
前記第一特徴と前記第二特徴を整列して、第一目標特徴を得るために用いられる整列ユニットと、
前記第一目標特徴に基づいて前記第一リップ画像データを構築するために用いられる構築ユニットとを含む。
選択可能に、
注意力メカニズムを用いて前記目標顔部画像データに対して画像回帰を行って、前記目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得るために用いられる画像回帰モジュールをさらに含み、
前記構築ユニットは、具体的には、
前記第一目標特徴に基づいて前記仮想オブジェクトの前記音声素片による駆動での第二リップ画像データを生成し、
前記目標顔部画像データ、前記第二リップ画像データ及び前記マスク画像を融合して、前記第一リップ画像データを得るために用いられる。
選択可能に、前記第一特徴は上層グローバル特徴及び下層詳細特徴を含み、前記整列ユニットは、具体的には、
前記上層グローバル特徴と前記下層詳細特徴をそれぞれ前記第二特徴と整列して、第一目標特徴を得るために用いられ、
ここで、前記第一目標特徴は整列後の前記上層グローバル特徴及び整列後の前記下層詳細特徴を含む。
本開示が提供する仮想オブジェクトリップ駆動装置300は仮想オブジェクトリップ駆動方法実施例において実現された各過程を実現することができ、かつ同様の有益な効果を達成することができ、重複を回避するために、ここでは説明を省略する。
第四実施形態
図4に示すように、本開示はモデル訓練装置400を提供し、
第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得するために用いられる第二取得モジュール401と、
前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得るために用いられる第二操作モジュール402と、
それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データ及び前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得るために用いられるリップシンク判別モジュール403と、
前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定するために用いられる第一決定モジュール404と、
前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新するために用いられる第一更新モジュール405とを含む。
選択可能に、
第二音声サンプル素片、第一リップ画像サンプルデータ及び前記第二音声サンプル素片と前記第一リップ画像サンプルデータとが同期するか否かを特徴つける目標ラベルを含む第二訓練サンプルセットを取得するために用いられる第三取得モジュールと、
第二目標モデルに基づいて前記第二音声サンプル素片と目標データに対してそれぞれ特徴抽出を行って、前記第二音声サンプル素片の第三特徴及び前記目標データの第四特徴を得るために用いられる特徴抽出モジュールと、
前記第三特徴と前記第四特徴との間の特徴距離を決定するために用いられる第二決定モジュールと、
前記特徴距離及び前記目標ラベルに基づいて、前記第二目標モデルのパラメータを更新するために用いられる第二更新モジュールとをさらに含み、
ここで、前記目標データが前記第一リップ画像サンプルデータである場合、前記第二目標モデルは前記第一モデルであり、前記目標データが前記第一リップ画像サンプルデータにおけるリップ部領域のデータである場合、前記第二目標モデルは前記第二モデルである。
選択可能に、
第三モデル及び第四モデルを更新後の前記第一目標モデルの判別器とし、第二顔部画像サンプルデータに基づいて更新後の前記第一目標モデルを訓練することにより、前記第一目標モデルのパラメータを調整するために用いられるモデル訓練モジュールをさらに含み、
ここで、前記第三モデルは目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して得られ、前記第四モデルは前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して得られ、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータの精細度はいずれも第一所定の閾値より大きく、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータにおける顔部の所定の方向に対するオフセット角度はいずれも第二所定の閾値より小さい。
選択可能に、前記目標リップ画像サンプルデータは、
M個の第二リップ画像サンプルデータを取得し、Mは正の整数であり、
各第二リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度を計算し、
前記M個の第二リップ画像サンプルデータから顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータを選別し、
顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータに対して顔部精細度を向上させて、前記目標リップ画像サンプルデータを得るという方式で取得される。
本開示が提供するモデル訓練装置400はモデル訓練方法実施例において実現された各過程を実現することができ、かつ同様の有益な効果を達成することができ、重複を回避するために、ここでは説明を省略する。
本開示の技術的解決手段において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供及び開示などの処理は、いずれも相関法規則の規定に合致し、かつ公序良俗に反するものではない。
本開示の実施例によれば、本開示はさらに電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品を提供する。
図5は本開示の実施例の実施に使用できる例示的な電子機器500の概略ブロック図を示す。電子機器は様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表すことを意図する。電子機器は様々な形式の移動装置、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置を表すこともできる。本明細書に示された部材、それらの接続と関係、及びそれらの機能は例示するものに過ぎず、本明細書に記載及び/又は要求された本開示の実現を限定するものではない。
図5に示すように、機器500は計算ユニット501を含み、それはリードオンリーメモリ(ROM)502に記憶されたコンピュータプログラム又は記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM503には、さらに機器500の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット501、ROM502及びRAM503はバス504で互に接続される。入力/出力(I/O)インタフェース505もバス504に接続される。
機器500の複数の部材はI/Oインタフェース505に接続され、キーボード、マウスなどである入力ユニット506と、様々なタイプのディスプレイ、スピーカなどである出力ユニット507と、磁気ディスク、光ディスクなどである記憶ユニット508と、ネットワークカード、モデム、無線通信トランシーバなどである通信ユニット509とを含む。通信ユニット509は機器500がインターネットなどのコンピュータネットワーク及び/又は様々なの電気通信網を介して他の機器と情報/データを交換することを可能にする。
計算ユニット501は処理及び計算能力を有する様々な汎用及び/又は専用の処理モジュールであってもよい。計算ユニット501のいくつかの例は中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット501は上記各方法及び処理、例えば仮想オブジェクトリップ駆動方法又はモデル訓練方法を実行する。例えば、いくつかの実施例において、仮想オブジェクトリップ駆動方法又はモデル訓練方法はコンピュータソフトウェアプログラムとして実現することができ、それは機械読み取り可能な媒体、例えば記憶ユニット508に有形に具体化される。いくつかの実施例において、コンピュータプログラムの一部又は全部はROM502及び/又は通信ユニット509を介して機器500にロード及び/又はインストールすることができる。コンピュータプログラムがRAM503にロードされ、かつ計算ユニット501により実行される場合、上記仮想オブジェクトリップ駆動方法又はモデル訓練方法の一つ以上のステップを実行することができる。代替的に、他の実施例において、計算ユニット501は他の任意の適切な方式(例えば、ファームウェア)により仮想オブジェクトリップ駆動方法又はモデル訓練方法を実行するように構成することができる。
本明細書の上記システム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップのシステム(SOC)、負荷プログラマブルロジック機器(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は以下を含むことができる:一つ以上のコンピュータプログラムにおいて実施され、該一つ以上複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈することができ、該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び指令を受信し、かつデータ及び指令を該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは一種以上のプログラム言語の任意の組み合わせで作成することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードがプロセッサ又はコントローラにより実行される場合にフローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは機械に完全に実行され、機械で部分的に実行され、独立したソフトウェアパッケージとして機械で部分的に実行され、かつ遠隔機械で部分的に実行されるか又は遠隔機械或いはサーバで完全に実行されてもよい。
本開示のコンテキストにおいて、機械読み取り可能な媒体は物理的な媒体であってもよく、それは指令実行システム、装置又は機器の使用に供えるか又は指令実行システム、装置又は機器と組み合わせ使用されるプログラムを含むか又は記憶することができる。機械読み取り可能な媒体は機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置或いは機器、又は上記内容の任意の適切な組み合わせを含むが、それらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は一本以上の線に基づく電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯式コンパクトリードオンリーメモリ(CD-ROM)、光学記憶機器、磁気記憶機器、又は上記内容の任意の適切な組み合わせを含むことができる。
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)、及びユーザがキーボード及びポインティング装置により入力をコンピュータに提供することができる該キーボード及び該ポインティング装置(例えば、マウス又はトラックボール)を備える。他のタイプの装置はさらにユーザとの対話を提供することに用いることができ、例えば、ユーザに提供されるフィードバックは任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音入力、音声入力又は、触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明されたシステム及び技術をバックグラウンド部材を含む計算システム(例えば、データサーバとして)、又はミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)、又はフロントエンド部材を含む計算システム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザが該グラフィカルユーザインタフェース又は該ウェブブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができ)、又はこのようなバックグラウンド部材、ミドルウェア部材、又はフロントエンド部材の任意の組み合わせを含む計算システムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部材を互いに接続することができる。通信ネットワークの例はローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムはクライアント及びサーバを含むことができる。クライアントとサーバとは一般的には互いに離れ、かつ通常は通信ネットワークを介して対話する。対応するコンピュータで実行され、かつ互いにクライアントーサーバの関係を有するコンピュータプログラムによってクライアントとサーバとの関係を生成する。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、又はブロックチェーンを組み合わせるサーバであってもよい。
理解すべきように、以上に示した様々な形式のフローを用いて、ステップを改めてソーティングし、追加するか又は削除することができる。例えば、本開示に記載の各ステップは並列的に実行されてもよく順に実行されてもよくさらに異なる順序で実行されてもよく、本開示が開示する技術的解決手段の所望の結果を実現できれば、本明細書では限定しない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば理解すべきように、設計要件及び他の要因に基づいて、様々な修正、組み合わせ、サブ組み合わせ及び代替を行うことができる。本開示の趣旨と原則内で行われた任意の修正、均等置換及び改善などは、いずれも本開示の保護範囲内にあるべきである。

Claims (21)

  1. 音声素片及び仮想オブジェクトの目標顔部画像データを取得することと、
    前記音声素片と前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得ることとを含み、
    ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである、仮想オブジェクトリップ駆動方法。
  2. 前記第一目標モデルが第一モデル及び第二モデルに基づいて訓練して得られることは、
    目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して第三モデルを得ることと、
    前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して第四モデルを得ることと、
    前記第三モデル及び前記第四モデルに基づいて訓練して前記第一目標モデルを得ることとを含み、
    ここで、前記目標リップ画像サンプルデータの精細度は第一所定の閾値より大きく、前記目標リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度は第二所定の閾値より小さい、請求項1に記載の方法。
  3. 前記第一リップ駆動操作は、
    それぞれ前記目標顔部画像データと前記音声素片に対して特徴抽出を行って、前記目標顔部画像データの第一特徴及び前記音声素片の第二特徴を得ることと、
    前記第一特徴と前記第二特徴を整列して、第一目標特徴を得ることと、
    前記第一目標特徴に基づいて前記第一リップ画像データを構築することとを含む、請求項1に記載の方法。
  4. 前記第一目標特徴に基づいて前記第一リップ画像データを構築することの前に、
    注意力メカニズムを用いて前記目標顔部画像データに対して画像回帰を行って、前記目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得ることとをさらに含み、
    前記第一目標特徴に基づいて前記第一リップ画像データを構築することは、
    前記第一目標特徴に基づいて前記仮想オブジェクトの前記音声素片による駆動での第二リップ画像データを生成することと、
    前記目標顔部画像データ、前記第二リップ画像データ及び前記マスク画像を融合して、前記第一リップ画像データを得ることとを含む、請求項3に記載の方法。
  5. 前記第一特徴は上層グローバル特徴及び下層詳細特徴を含み、前記第一特徴と前記第二特徴を整列して、第一目標特徴を得ることは、
    前記上層グローバル特徴と前記下層詳細特徴をそれぞれ前記第二特徴と整列して、第一目標特徴を得ることを含み、
    ここで、前記第一目標特徴は整列後の前記上層グローバル特徴及び整列後の前記下層詳細特徴を含む、請求項3に記載の方法。
  6. 第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得することと、
    前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得ることと、
    それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データと前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得ることと、
    前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定することと、
    前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新することとを含む、モデル訓練方法。
  7. 前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得ることの前に、前記方法は
    第二音声サンプル素片、第一リップ画像サンプルデータ及び前記第二音声サンプル素片と前記第一リップ画像サンプルデータが同期するか否かを特徴つける目標ラベルを含む第二訓練サンプルセットを取得することと、
    第二目標モデルに基づいて前記第二音声サンプル素片と目標データにそれぞれ特徴抽出を行って、前記第二音声サンプル素片の第三特徴と前記目標データの第四特徴を得ることと、
    前記第三特徴と前記第四特徴との間の特徴距離を決定することと、
    前記特徴距離及び前記目標ラベルに基づいて、前記第二目標モデルのパラメータを更新することとをさらに含み、
    ここで、前記目標データが前記第一リップ画像サンプルデータである場合、前記第二目標モデルは前記第一モデルであり、前記目標データが前記第一リップ画像サンプルデータにおけるリップ部領域のデータである場合、前記第二目標モデルは前記第二モデルである、請求項6に記載の方法。
  8. 前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新することの後に、前記方法は、
    第三モデル及び第四モデルを更新後の前記第一目標モデルの判別器とし、第二顔部画像サンプルデータに基づいて更新後の前記第一目標モデルを訓練することにより、前記第一目標モデルのパラメータを調整することをさらに含み、
    ここで、前記第三モデルは目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して得られ、前記第四モデルは前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して得られ、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータの精細度はいずれも第一所定の閾値より大きく、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータにおける顔部の所定の方向に対するオフセット角度はいずれも第二所定の閾値より小さい、請求項7に記載の方法。
  9. 前記目標リップ画像サンプルデータは、
    M個の第二リップ画像サンプルデータを取得し、
    各第二リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度を計算し、
    前記M個の第二リップ画像サンプルデータから顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータを選別し、
    顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータに対して顔部精細度を向上させて、前記目標リップ画像サンプルデータを得るという方式で取得され、Mは正の整数である、請求項8に記載の方法。
  10. 音声素片及び仮想オブジェクトの目標顔部画像データを取得するために用いられる第一取得モジュールと、
    前記音声素片及び前記目標顔部画像データを第一目標モデルに入力して第一リップ駆動操作を実行して、前記仮想オブジェクトの前記音声素片による駆動での第一リップ画像データを得るために用いられる第一操作モジュールとを含み、
    ここで、前記第一目標モデルは第一モデル及び第二モデルに基づいて訓練して得られ、前記第一モデルはリップ画像データに対するリップシンク判別モデルであり、前記第二モデルはリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである、仮想オブジェクトリップ駆動装置。
  11. 前記第一目標モデルが第一モデル及び第二モデルに基づいて訓練して得られることは、
    目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して第三モデルを得ることと、
    前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して第四モデルを得ることと、
    前記第三モデル及び前記第四モデルに基づいて訓練して前記第一目標モデルを得ることとを含み、
    ここで、前記目標リップ画像サンプルデータの精細度は第一所定の閾値より大きく、前記目標リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度は第二所定の閾値より小さい、請求項10に記載の装置。
  12. 前記第一操作モジュールは、
    それぞれ前記目標顔部画像データと前記音声素片に対して特徴抽出を行って、前記目標顔部画像データの第一特徴と前記音声素片の第二特徴を得るために用いられる抽出ユニットと、
    前記第一特徴と前記第二特徴を整列して、第一目標特徴を得るために用いられる整列ユニットと、
    前記第一目標特徴に基づいて前記第一リップ画像データを構築するために用いられる構築ユニットとを含む、請求項10に記載の装置。
  13. 注意力メカニズムを用いて前記目標顔部画像データに対して画像回帰を行って、前記目標顔部画像データにおけるリップに関連する領域に対するマスク画像を得るために用いられる画像回帰モジュールをさらに含み、
    前記構築ユニットは、具体的には
    前記第一目標特徴に基づいて前記仮想オブジェクトの前記音声素片による駆動での第二リップ画像データを生成し、
    前記目標顔部画像データ、前記第二リップ画像データ及び前記マスク画像を融合して、前記第一リップ画像データを得るために用いられる、請求項12に記載の装置。
  14. 前記第一特徴は上層グローバル特徴及び下層詳細特徴を含み、
    前記整列ユニットは、具体的には、
    前記上層グローバル特徴と前記下層詳細特徴をそれぞれ前記第二特徴と整列して、第一目標特徴を得るために用いられ、
    ここで、前記第一目標特徴は整列後の前記上層グローバル特徴及び整列後の前記下層詳細特徴を含む、請求項12に記載の装置。
  15. 第一音声サンプル素片及び仮想オブジェクトサンプルの第一顔部画像サンプルデータを含む第一訓練サンプルセットを取得するために用いられる第二取得モジュールと、
    前記第一音声サンプル素片及び前記第一顔部画像サンプルデータを第一目標モデルに入力して第二リップ駆動操作を実行して、前記仮想オブジェクトサンプルの前記第一音声サンプル素片による駆動での第三リップ画像データを得るために用いられる第二操作モジュールと、
    それぞれリップ画像データに対するリップシンク判別モデルである第一モデルとリップ画像データにおけるリップ部領域に対するリップシンク判別モデルである第二モデルに基づいて、前記第三リップ画像データ及び前記第一音声サンプル素片に対してリップシンク判別を行って、第一判別結果及び第二判別結果を得るために用いられるリップシンク判別モジュールと、
    前記第一判別結果及び前記第二判別結果に基づいて、前記第一目標モデルの目標損失値を決定するために用いられる第一決定モジュールと、
    前記目標損失値に基づいて、前記第一目標モデルのパラメータを更新するために用いられる第一更新モジュールとを含む、モデル訓練装置。
  16. 第二音声サンプル素片、第一リップ画像サンプルデータ及び前記第二音声サンプル素片と前記第一リップ画像サンプルデータとが同期するか否かを特徴つける目標ラベルを含む第二訓練サンプルセットを取得するために用いられる第三取得モジュールと、
    第二目標モデルに基づいて前記第二音声サンプル素片と目標データに対してそれぞれ特徴抽出を行って、前記第二音声サンプル素片の第三特徴及び前記目標データの第四特徴を得るために用いられる特徴抽出モジュールと、
    前記第三特徴と前記第四特徴との間の特徴距離を決定するために用いられる第二決定モジュールと、
    前記特徴距離及び前記目標ラベルに基づいて、前記第二目標モデルのパラメータを更新するために用いられる第二更新モジュールとをさらに含み、
    ここで、前記目標データが前記第一リップ画像サンプルデータである場合、前記第二目標モデルは前記第一モデルであり、前記目標データが前記第一リップ画像サンプルデータにおけるリップ部領域のデータである場合、前記第二目標モデルは前記第二モデルである、請求項15に記載の装置。
  17. 第三モデル及び第四モデルを更新後の前記第一目標モデルの判別器とし、第二顔部画像サンプルデータに基づいて更新後の前記第一目標モデルを訓練することにより、前記第一目標モデルのパラメータを調整するために用いられるモデル訓練モジュールとをさらに含み、
    ここで、前記第三モデルは目標リップ画像サンプルデータに基づいて前記第一モデルを訓練して得られ、前記第四モデルは前記目標リップ画像サンプルデータに基づいて前記第二モデルを訓練して得られ、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータの精細度はいずれも第一所定の閾値より大きく、前記目標リップ画像サンプルデータ及び前記第二顔部画像サンプルデータにおける顔部の所定の方向に対するオフセット角度はいずれも第二所定の閾値より小さい、請求項16に記載の装置。
  18. 前記目標リップ画像サンプルデータは、
    M個の第二リップ画像サンプルデータを取得し、
    各第二リップ画像サンプルデータにおける顔部の所定の方向に対するオフセット角度を計算し、
    前記M個の第二リップ画像サンプルデータから顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータを選別し、
    顔部オフセット角度が前記第二所定の閾値より小さい第二リップ画像サンプルデータに対して顔部精細度を向上させて、前記目標リップ画像サンプルデータを得るという方式で取得され、Mは正の整数である、請求項17に記載の装置。
  19. 少なくとも一つのプロセッサ、及び
    前記少なくとも一つのプロセッサと通信接続されるメモリを含み、ここで、
    前記メモリは前記少なくとも一つのプロセッサが実行可能な指令を記憶しており、前記指令が前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが請求項1-5のいずれか一項に記載の方法を実行することができるか、又は請求項6-9のいずれか一項に記載の方法を実行することができる、電子機器。
  20. コンピュータ指令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ指令は前記コンピュータに請求項1-5のいずれか一項に記載の方法を実行させるか、又は請求項6-9のいずれか一項に記載の方法を実行させるために用いられる、記憶媒体。
  21. コンピュータプログラムであって、前記コンピュータプログラムはプロセッサにより実行される場合に請求項1-5のいずれか一項に記載の方法を実現するか、又は実行される場合に請求項6-9のいずれか一項に記載の方法を実現する、コンピュータプログラム。
JP2022109219A 2021-10-28 2022-07-06 仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器 Active JP7401606B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111261314.3A CN113971828B (zh) 2021-10-28 2021-10-28 虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备
CN202111261314.3 2021-10-28

Publications (2)

Publication Number Publication Date
JP2022133409A true JP2022133409A (ja) 2022-09-13
JP7401606B2 JP7401606B2 (ja) 2023-12-19

Family

ID=79588706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022109219A Active JP7401606B2 (ja) 2021-10-28 2022-07-06 仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器

Country Status (3)

Country Link
US (1) US20220383574A1 (ja)
JP (1) JP7401606B2 (ja)
CN (1) CN113971828B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392216A (zh) * 2022-10-27 2022-11-25 科大讯飞股份有限公司 一种虚拟形象生成方法、装置、电子设备及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115345968B (zh) * 2022-10-19 2023-02-07 北京百度网讯科技有限公司 虚拟对象驱动方法、深度学习网络的训练方法及装置
CN115376211B (zh) * 2022-10-25 2023-03-24 北京百度网讯科技有限公司 唇形驱动方法、唇形驱动模型的训练方法、装置及设备
CN116228895B (zh) * 2023-01-16 2023-11-17 北京百度网讯科技有限公司 视频生成方法、深度学习模型训练方法、装置以及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007058846A (ja) * 2005-07-27 2007-03-08 Advanced Telecommunication Research Institute International リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
US20220036617A1 (en) * 2020-07-30 2022-02-03 Tata Consultancy Services Limited Audio-speech driven animated talking face generation using a cascaded generative adversarial network

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7133535B2 (en) * 2002-12-21 2006-11-07 Microsoft Corp. System and method for real time lip synchronization
CN112102448B (zh) * 2020-09-14 2023-08-04 北京百度网讯科技有限公司 虚拟对象图像显示方法、装置、电子设备和存储介质
CN112465935A (zh) * 2020-11-19 2021-03-09 科大讯飞股份有限公司 虚拟形象合成方法、装置、电子设备和存储介质
CN113192161B (zh) * 2021-04-22 2022-10-18 清华珠三角研究院 一种虚拟人形象视频生成方法、系统、装置及存储介质
CN113378697B (zh) * 2021-06-08 2022-12-09 安徽大学 一种基于卷积神经网络的说话人脸视频生成方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007058846A (ja) * 2005-07-27 2007-03-08 Advanced Telecommunication Research Institute International リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
US20220036617A1 (en) * 2020-07-30 2022-02-03 Tata Consultancy Services Limited Audio-speech driven animated talking face generation using a cascaded generative adversarial network

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392216A (zh) * 2022-10-27 2022-11-25 科大讯飞股份有限公司 一种虚拟形象生成方法、装置、电子设备及存储介质
CN115392216B (zh) * 2022-10-27 2023-03-14 科大讯飞股份有限公司 一种虚拟形象生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP7401606B2 (ja) 2023-12-19
CN113971828A (zh) 2022-01-25
CN113971828B (zh) 2023-10-31
US20220383574A1 (en) 2022-12-01

Similar Documents

Publication Publication Date Title
JP7401606B2 (ja) 仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器
JP7429734B2 (ja) マルチモーダルデータ連合学習モデルトレーニング方法及び装置
WO2021073416A1 (zh) 基于神经网络生成虚拟人物视频的方法及相关设备
CN111145322B (zh) 用于驱动虚拟形象的方法、设备和计算机可读存储介质
US10846522B2 (en) Speaking classification using audio-visual data
EP3913542A2 (en) Method and apparatus of training model, device, medium, and program product
CN112465935A (zh) 虚拟形象合成方法、装置、电子设备和存储介质
US11176724B1 (en) Identity preserving realistic talking face generation using audio speech of a user
US11836837B2 (en) Video generation method, device and storage medium
US20230143452A1 (en) Method and apparatus for generating image, electronic device and storage medium
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
CN114821734A (zh) 一种驱动虚拟人物表情的方法和装置
CN114820871B (zh) 字体生成方法、模型的训练方法、装置、设备和介质
US20230047748A1 (en) Method of fusing image, and method of training image fusion model
CN115861462A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN112634413B (zh) 生成模型和生成3d动画的方法、装置、设备和存储介质
Leng et al. Augmented two stream network for robust action recognition adaptive to various action videos
EP4152269B1 (en) Method and apparatus of training model, device, and medium
CN116229311B (zh) 视频处理方法、装置及存储介质
CN116071467A (zh) 唇形驱动模型的生成方法、装置、电子设备及存储介质
CN117456063B (zh) 基于语音的人脸驱动方法、装置、电子设备及存储介质
CN115065863B (zh) 视频生成方法、装置、电子设备及存储介质
CN117528135A (zh) 语音驱动的脸部视频生成方法、装置、电子设备及介质
Jayasingh et al. Identification of Sign Language Alphabets on Static Images Using Deep Learning
CN118015110A (zh) 人脸图像生成方法及装置、计算机可读存储介质、终端

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231207

R150 Certificate of patent or registration of utility model

Ref document number: 7401606

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150