JP2022526148A - ビデオ生成方法、装置、電子機器及びコンピュータ記憶媒体 - Google Patents

ビデオ生成方法、装置、電子機器及びコンピュータ記憶媒体 Download PDF

Info

Publication number
JP2022526148A
JP2022526148A JP2021556974A JP2021556974A JP2022526148A JP 2022526148 A JP2022526148 A JP 2022526148A JP 2021556974 A JP2021556974 A JP 2021556974A JP 2021556974 A JP2021556974 A JP 2021556974A JP 2022526148 A JP2022526148 A JP 2022526148A
Authority
JP
Japan
Prior art keywords
face
image
frame
information
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2021556974A
Other languages
English (en)
Inventor
リンセン ソン
ウェンイエン ウー
チェン チエン
ラン ホー
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2022526148A publication Critical patent/JP2022526148A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • G06T5/75Unsharp masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本願実施例は、ビデオ生成方法、装置、電子機器、コンピュータ記憶媒体を提供し、当該方法は、各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出することと、各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得することと、顔表情情報、顔形状情報及び頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得することと、顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得することと、各フレームの生成画像に従って、目標ビデオを生成することと、を含む。【選択図】図1

Description

[関連出願への相互参照]
本願は、2019年09月18日に中国特許局に提出された、出願番号が201910883605.2である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
[技術分野]
本願は、画像処理技術に関し、特に、ビデオ生成方法、装置、電子機器、コンピュータ記憶媒体及びコンピュータプログラムに関する。
関連技術において、話者の顔の生成は、音声駆動の人物やビデオ生成タスクの研究の重要な部分であるが、関連する話者の顔の生成方法は、頭の姿勢に関連する実際のニーズを満たすことができない。
本願実施例は、ビデオ生成の技術的解決策を提供する。
本願実施例は、ビデオ生成方法を提供し、前記方法は、
複数のフレームの顔画像及び前記複数のフレームの顔画像の各フレームの顔画像に対応する音声セグメントを取得することと、
前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得することと、
前記各フレームの顔画像の顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得することと、
各フレームの生成画像に従って、目標ビデオを生成することと、を含む。
本願実施例は、ビデオ生成装置を提供し、前記装置は、第1処理モジュール、第2処理モジュール、第3処理モジュール及び生成モジュールを備え、
前記第1処理モジュールは、複数のフレームの顔画像及び前記複数のフレームの顔画像の各フレームの顔画像に対応する音声セグメントを取得するように構成され、
前記第2処理モジュールは、前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得し、前記各フレームの顔画像の顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得するように構成され、
前記生成モジュールは、各フレームの生成画像に従って、目標ビデオを生成するように構成される。
本願実施例は、電子機器を更に提供し、前記電子機器は、プロセッサと、プロセッサで実行可能なコンピュータプログラムを記憶するように構成されるメモリとを備え、ここで、
前記プロセッサは、前記コンピュータプログラムを実行するときに、上記の任意のビデオ生成方法を実行するように構成される。
本願実施例は、コンピュータプログラムが記憶されているコンピュータ記憶媒体を提供し、当該コンピュータプログラムがプロセッサによって実行されるときに、上記の任意のビデオ生成方法を実現する。
本願実施例によるビデオ生成方法、装置、電子機器及びコンピュータ記憶媒体において、複数のフレームの顔画像及び前記複数のフレームの顔画像の各フレームの顔画像に対応する音声セグメントを取得し、前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得し、前記各フレームの顔画像の顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得し、各フレームの生成画像に従って、目標ビデオを生成する。このようにして、本願実施例において、顔キーポイント情報は、頭部姿勢情報を考慮することによって取得されたものであるため、顔キーポイント情報に従って生成された各フレームの生成画像は、頭部姿勢情報を反映することができ、これにより、目標ビデオは頭部姿勢情報を反映することができる。頭部姿勢情報は、各フレームの顔画像に従って取得されたものであり、各フレームの顔画像は、頭の姿勢に関連する実際のニーズに応じて取得できるため、本願実施例では、頭の姿勢に関連する実際のニーズを満たす各フレームの顔画像に従って、対応する目標ビデオを生成することにより、生成された目標ビデオが頭の姿勢に関連する実際のニーズを満たすようにすることができる。
上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本願を限定するものではないことを理解されたい。
ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本願と一致する実施例を示し、明細書とともに本願の技術的解決策を説明するために使用される。
本願実施例に係るビデオ生成方法のフローチャートである。 本願実施例に係る第1ニューラルネットワークのアーキテクチャの概略図である。 本願実施例に係る、各フレームの顔画像の顔キーポイント情報を取得する実施プロセスを示す概略図である。 本願実施例に係る第2ニューラルネットワークのアーキテクチャの概略図である。 本願実施例に係る第1ニューラルネットワークのトレーニング方法のフローチャートである。 本願実施例に係る第2ニューラルネットワークのトレーニング方法のフローチャートである。 本願実施例に係るビデオ生成装置の構成の概略構造図である。 本願実施例に係る電子機器の概略構造図である。
以下、添付の図面および実施例を参照して、本願についてさらに詳細に説明する。ここで提供する実施例は、本願を説明するものに過ぎず、本願を限定しないことを理解されたい。さらに、以下で提供する実施例は、本願を実施するための実施例のすべてではなく、本願を実施するための実施例の一部であり、競合しない場合、本願実施例に記載の技術案を任意に組み合わせることにより実施してもよい。
本明細書では、「含む」、「備える」又はそれらの他の変形という用語は、非排他的な包含をカバーすることを意図しているため、一連の要素を含むプロセス、方法、物品又は装置はそれらの要素を含むだけでなく、明示的にリストされていない他の要素も含み、又はこれらのプロセス、方法、物品又は装置に固有の要素も含むことに留意されたい。特に限定しない限り、「~を含む」という用語で限定された要素は、その要素を含むプロセス、方法、物品又は装置に他の同じ要素が存在することを除外できない(例えば、方法のステップ又は装置のユニット,ユニットは、部分回路、部分プロセッサ、部分プロセッサ又はソフトウェアなどであってもよい)。
例えば、本願実施例に係るビデオ生成方法は、一連のステップを含むが、本願実施例に係るビデオ生成方法は、上記のステップに限定されず、同様に、本願実施例に係るビデオ生成装置は、一連のモジュールを備えるが、本願実施例に係る装置は、明確に記載されたモジュールに限定されず、関連情報を取得し、又は情報に基づいて処理するときに設定する必要があるモジュールをさらに備えることができる。
本明細書における「および/または」という用語は、関連付けられたオブジェクトを説明する単なる関連付けであり、3種類の関係が存在することができることを示し、例えば、Aおよび/またはBは、Aが独立で存在する場合、AとBが同時に存在する場合、Bが独立で存在する場合など3つの場合を表す。さらに、本明細書における「少なくとも1つ」という用語は、複数のうちの1つまたは複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、BおよびCで構成されたセットから選択された任意の1つまたは複数の要素を含むことを示す。
本願実施例は、端末及び/又はサーバで構成されたコンピュータシステムに適用でき、他の多くの汎用または専用のコンピューティングシステム環境または構成で動作させることができる。ここで、端末は、シンクライアント、シッククライアント、ハンドヘルドまたはラップトップ機器、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル消費者向け電子製品、ネットワークパーソナルコンピュータ、小型コンピュータシステムなどであってもよく、サーバは、サーバコンピュータシステム、小型コンピュータシステム、大型コンピュータシステム、および上記のシステムのいずれかを含む分散型クラウドコンピューティング技術環境であってもよい。
端末、サーバなどの電子機器は、コンピュータシステムによって実行されるコンピュータシステム実行可能な命令(プログラムモジュールなど)の一般的な文脈で説明することができる。一般的に、プログラムモジュールは、ルーチン、プログラム、ターゲットプログラム、コンポーネント、ロジックおよびデータ構造などを含むことができ、これらは特定のタスクを実行するか、または特定の抽象データタイプを実行する。コンピュータシステム/サーバは、分散型クラウドコンピューティング環境で実施することができ、分散型クラウドコンピューティング環境では、タスクは、通信ネットワークを介してリンクされたリモート処理機器によって実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは、ストレージ機器を含むローカルまたはリモートコンピューティングシステムの記憶媒体に配置できる。
在本願のいくつかの実施例において、ビデオ生成方法を提案し、本願実施例は、人工知能、インターネット、画像及びビデオ認識などの分野に適用することができ、例示的に、本願実施例は、人とコンピュータのインタラクション、仮想対話、仮想顧客サービスなどのアプリケーションで実施することができる。
図1は、本願実施例に係るビデオ生成方法のフローチャートであり、図1に示されたように、当該方法は、次のステップを含み得る。
ステップ101において、複数のフレームの顔画像及び前記複数のフレームの顔画像の各フレームの顔画像に対応する音声セグメントを取得する。
実際の応用では、ソースビデオデータを取得し、前記ソースビデオデータから、前記複数のフレームの顔画像及び音声を含む音声データを分離することができ、各フレームの顔画像に対応する音声セグメントを決定し、各フレームの顔画像に対応する音声セグメントは、前記音声データの一部である。
ここで、ソースビデオデータの各フレームの画像は顔画像を含み、ソースビデオデータの音声データは、話者の音声を含み、本願実施例では、ソースビデオデータのソース及びフォーマットを限定しない。
本願実施例では、各フレームの顔画像に対応する音声セグメントの時間帯は、前記各フレームの顔画像の時点を含み、実際の実施では、ソースビデオデータから、話者の音声を含む音声データを分離した後、音声を含む音声データを複数の音声セグメントに分割することができ、各音声セグメントは、1つのフレームの顔画像に対応する。
例示的に、事前に取得されたソースビデオデータから、最初のフレームからn番目のフレームの顔画像及び音声を含む音声データを分離し、音声を含む音声データを第1音声セグメント~第n音声セグメントに分割することができ、nは1より大きい整数であり、iが順次に1~nを取る場合、第i音声セグメントの時間帯は、i番目のフレームの顔画像が現れる時点を含む。
ステップ102において、各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、顔表情情報、顔形状情報及び頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得する。
実際の応用では、複数のフレームの顔画像及び各フレームの顔画像に対応する音声セグメントを、事前にトレーニングされた第1ニューラルネットワークに入力し、第1ニューラルネットワークにより、各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、顔表情情報、顔形状情報及び頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得する。
本願実施例では、顔形状情報は、顔の各部位の形状及びサイズ情報を表すことができ、例えば、顔形状情報は、口の形、唇の厚さ、目の大きさなどを示すことができ、顔形状情報は、個人の身元に関連付けられ、理解できることとして、個人の身元に関連する顔形状情報は、顔を含む画像に従って取得できる。実際の応用では、顔形状情報は、顔形状に関連するパラメータであってもよい。
頭部姿勢情報は、顔の向きなどの情報を表すことができ、例えば、頭の姿勢は、頭を上げる、頭を下げる、顔を左側に向ける、顔を右側に向けるなどを表すことができ、理解できることとして、頭部姿勢情報は、顔を含む画像に従って取得することができる。実際の応用では、頭部姿勢情報は、頭の姿勢に関連するパラメータであってもよい。
例示的に、顔表情情報は、喜び、悲しみ、痛みなどの表情を表すことができ、これは、顔表情情報の例示的説明に過ぎず、本願実施例において、顔表情情報は、上記の表情に限定されない。顔表情情報は、顔面の動きに関連するため、人が話す場合、音声を含む音声情報に従って、顔面動き情報を取得し、これにより、顔表情情報を取得することができる。実際の応用では、顔表情情報は、顔表情に関連するパラメータであってもよい。
各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出する実施形態の場合、例示的に、各フレームの顔画像を3次元顔変形可能モデル(3DMM:3D Face Morphable Model)に入力し、3DMMを用いて各フレームの顔画像の顔形状情報及び頭部姿勢情報を抽出することができる。
各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得する実施形態の場合、例示的に、上記の音声セグメントの音声特徴を抽出し、その後、上記の音声セグメントの音声特徴に従って、顔表情情報を取得することができる。
本願実施例では、音声セグメントの音声特徴のタイプを限定せず、例えば、音声セグメントの音声特徴は、メル周波数ケプストラム係数(MFCC:Mel Frequency Cepstrum Coefficient)又は他の周波数領域特徴であってもよい。
以下、図2を参照して、本願実施例に係る第1ニューラルネットワークのアーキテクチャについて説明する。図2に示されたように、第1ニューラルネットワークを応用する段階では、ソースビデオデータから、複数のフレームの顔画像及び音声を含む音声データを分離し、音声を含む音声データを複数の音声セグメントに分割し、各音声セグメントは、1つのフレームの顔画像に対応し、各フレームの顔画像の場合、各フレームの顔画像を3DMMに入力し、3DMMを用いて各フレームの顔画像の顔形状情報及び頭部姿勢情報を抽出することができる。各フレームの顔画像に対応する音声セグメントの音声特徴を抽出し、その後、音声正規化ネットワークを介して、抽出された音声特徴を処理して、音声特徴の音色情報を除去し、マッピングネットワークを介して、音色情報が除去された後の音声特徴を処理して、顔表情情報を取得することができる。図2では、マッピングネットワークによって処理された後の顔表情情報を顔表情情報1として記録し、3DMMを用いて顔表情情報1、顔形状情報及び頭部姿勢情報を処理して、顔キーポイント情報を取得し、図2では、3DMMを用いて取得された顔キーポイント情報を顔キーポイント情報1として記録する。
各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得する実施形態の場合、例示的に、音声セグメントの音声特徴を抽出し、音声特徴の音色情報を消去し、音色情報が消去された後の音声特徴に従って、顔表情情報を取得することができる。
本願実施例では、音色情報は、話者の身元に関連する情報であり、顔表情は、話者の身元とは関係ないため、音声特徴から話者の身元に関連する音色情報を消去した後、音色情報が消去された音声特徴に従って、顔表情情報をより正確に取得することができる。
音声特徴の音色情報を消去する実施形態の場合、例示的に、音声特徴に対して正規化処理を実行して、音声特徴の音色情報を消去することができ、具体的な例において、特徴空間の特徴ベースの最尤線形回帰(fMLLR:feature-based Maximum Likelihood Linear Regression)法に基づいて、音声特徴に対して正規化処理を実行して、音声特徴の音色情報を消去することができる。
本願実施例では、fMLLR法に基づいて、音声特徴に対して正規化処理を実行するプロセスは、式(1)を用いて説明することができる。
Figure 2022526148000002
(1)
ここで、xは、正規化処理前の音声特徴を表し、
Figure 2022526148000003
は、正規化処理後の音色情報を除去した音声特徴を表し、
Figure 2022526148000004
及び
Figure 2022526148000005
は、それぞれ話者の異なる特定の正規化パラメータを表し、
Figure 2022526148000006
は、重み値を表し、
Figure 2022526148000007
はオフセットを表し、
Figure 2022526148000008

Figure 2022526148000009
である。
音声セグメントの音声特徴が複数の話者の音声の音声特徴を表す場合、式(2)に従って、
Figure 2022526148000010
をいくつかのサブ行列及び単位行列の加重和に分解することができる。
Figure 2022526148000011
(2)
ここで、Iは単位行列を表し、
Figure 2022526148000012
はi番目のサブ行列を表し、
Figure 2022526148000013
はi番目のサブ行列に対応する重み係数を表し、kは話者の数を表し、kは、事前に設定されたパラメータであってもよい。
実際の応用では、第1ニューラルネットワークは、音声正規化ネットワークを含み得、音声正規化ネットワークにおいて、fMLLR法に基づいて、音声特徴に対して正規化処理を実行する。
例示的に、音声正規化ネットワークは、浅層ニューラルネットワークであり、一具体的な例において、図2を参照すると、音声正規化ネットワークは、少なくとも、長短期記憶(LSTM:Long Short-Term Memory)層及び全結合(FC:Fully Connected)層を含み得、音声特徴をLSTM層に入力し、LSTM層及びFC層によって順次に処理した後、オフセット
Figure 2022526148000014
、各サブ行列及び各サブ行列に対応する重み係数を取得することができ、さらに、式(1)及び式(2)に従って、音色情報が除去された正規化処理後の音声特徴
Figure 2022526148000015
を取得することができる。
音色情報を除去した後の音声特徴に従って、顔表情情報を取得する実施形態の場合、例示的に、図2を参照すると、FC1及びFC2は、2つのFC層を表し、LSTMは、1つの多層LSTM層を表し、ここから分かるように、FC1、多層のLSTM層及びFC2を介して、音色情報が除去された後の音声特徴を順次に処理した後に、顔表情情報を取得することができる。
図2に示されたように、第1ニューラルネットワークのトレーニング段階では、サンプルビデオデータから複数のフレームの顔サンプル画像及び音声を含む音声データを分離し、音声を含む音声データを複数の音声サンプルセグメントに分割し、各音声サンプルセグメントは、1つのフレームの顔サンプル画像に対応する。各フレームの顔サンプル画像及び各フレームの顔サンプル画像に対応する音声サンプルセグメントに対して、第1ニューラルネットワークの応用段階のデータ処理プロセスを実行することにより、予測顔表情情報及び予測顔キーポイント情報を取得でき、ここで、予測顔表情情報を顔表情情報1として記録し、予測顔キーポイント情報を顔キーポイント情報1として記録する。一方、第1ニューラルネットワークのトレーニング段階では、各フレームの顔サンプル画像を3DMMに入力し、3DMMを用いて各フレームの顔サンプル画像の顔表情情報を抽出し、各フレームの顔サンプル画像に従って、顔キーポイント情報を直接に取得することができる。図2では、3DMMを用いて抽出された各フレームの顔サンプル画像の顔表情情報(即ち、顔表情表記結果)を顔表情情報2として記録し、各フレームの顔サンプル画像に従って直接取得された顔キーポイント情報(即ち、顔キーポイント表記結果)を顔キーポイント情報2として記録する。第1ニューラルネットワークのトレーニング段階では、キーポイント情報1と顔キーポイント情報2との間の差、及び/又は、顔表情情報1と顔表情情報2との間の差に従って、第1ニューラルネットワークの損失を計算することができ、トレーニング済みの第1ニューラルネットワークを取得するまで、第1ニューラルネットワークの損失に従って、第1ニューラルネットワークをトレーニングすることができる。
顔表情情報、顔形状情報及び頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得する実施形態の場合、例示的に、顔表情情報及び顔形状情報に従って、顔ポイントクラウドデータを取得し、頭部姿勢情報に従って、顔ポイントクラウドデータを2次元画像に投影して、各フレームの顔画像の顔キーポイント情報を取得することができる。
図3は、本願実施例に係る、各フレームの顔画像の顔キーポイント情報を取得する実施プロセスを示す概略図であり、図3において、顔表情情報1、顔表情情報2、顔形状情報及び頭部姿勢情報の意味は、図2と一致する。ここから分かるように、上記の内容を参照すると、第1ニューラルネットワークのトレーニング段階及び応用段階のいずれも、顔表情情報1、顔形状情報及び頭部姿勢情報を取得する必要があり、顔表情情報2は、第1ニューラルネットワークのトレーニング段階でのみ取得する必要があり、第1ニューラルネットワークの応用段階で取得する必要がない。
図3を参照すると、実際の実施では、1つのフレームの顔画像を3DMMに入力した後、3DMMを用いて各フレームの顔画像の顔形状情報、頭部姿勢情報及び顔表情情報2を抽出でき、音声特徴に従って顔表情情報1を取得した後、顔表情情報2を顔表情情報1に置き換えることができ、顔表情情報1及び顔形状情報を3DMMに入力し、3DMMに基づいて顔表情情報1及び顔形状情報を処理して、顔ポイントクラウドデータを取得する。ここで取得された顔ポイントクラウドデータは、ポイントクラウドデータのセットを表し、本願のいくつかの実施例において、図3を参照すると、顔ポイントクラウドデータは、3次元顔メッシュ(3D face mesh)の形式で表示できる。
本願実施例では、上記の顔表情情報1を
Figure 2022526148000016
に記録し、上記の顔表情情報2をeに記録し、上記の頭部姿勢情報をpに記録し、上記の顔形状情報をsに記録し、この場合、各フレームの顔画像の顔キーポイント情報を取得するプロセスは、式(3)で説明することができる。
Figure 2022526148000017
(3)
ここで、
Figure 2022526148000018
は、顔表情情報1及び顔形状情報を処理して、上記の3次元顔メッシュを取得する関数を表し、Mは、上記の3次元顔メッシュを表し、
Figure 2022526148000019
は、頭部姿勢情報に従って、3次元顔メッシュを2次元画像に投影する関数を表し、
Figure 2022526148000020
は、顔画像の顔キーポイント情報を表す。
本願実施例では、顔キーポイントは、画像内の顔の五官及び輪郭ポジショニングに対する注釈であり、主に、顔の輪郭、眉毛、目、口などの顔の重要な位置を特定するために使用される。ここで、各フレームの顔画像の顔キーポイント情報は、少なくとも、発話関連部位の顔キーポイント情報を含み、例示的に、発話関連部位は、少なくとも、嘴部及び顎を含み得る。
ここから分かるように、顔キーポイント情報は、頭部姿勢情報を考慮することによって取得されたものであるため、顔キーポイント情報は、頭部姿勢情報を表し、さらに、顔キーポイント情報によって取得された顔画像は、頭部姿勢情報を反映することができる。
さらに、図3を参照すると、各フレームの顔画像の顔キーポイント情報をヒートマップにコード化することもでき、このようにして、ヒートマップを用いて各フレームの顔画像の顔キーポイント情報を表すことができる。
ステップ103において、各フレームの顔画像の顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得する。
実際の応用では、各フレームの顔画像の顔キーポイント情報及び事前に取得された顔画像を事前にトレーニングされた第2ニューラルネットワークに入力し、第2ニューラルネットワークにより、前記各フレームの顔画像の顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得することができる。
一例において、各フレームの顔画像について、マスク部分のない顔画像を事前に取得することができる。例えば、事前に取得されたソースビデオデータから分離された最初のフレームからn番目のフレームまでの顔画像について、マスク部分のない最初のフレームの顔画像からn番目のフレームまでの顔画像を事前に取得することができ、iが1~nを順次に取る場合、事前に取得されたソースビデオデータから分離されたi番目のフレームの顔画像は、事前に取得されたマスク部分のないi番目のフレームの顔画像に対応する。具体的な実施形態では、各フレームの顔画像の顔キーポイント情報に従って、事前に取得されたマスク部分のない顔画像に対して顔キーポイント部分のカバー処理を実行して、各フレームの生成画像を取得することができる。
別の例において、各フレームの顔画像について、マスク部分のある顔画像を事前に取得することができる。例えば、事前に取得されたソースビデオデータから分離された最初のフレームからn番目のフレームまでの顔画像ついて、マスク部分のある最初のフレームの顔画像からn番目のフレームまでの顔画像を事前に取得することができ、iが1~nを順次に取る場合、事前に取得されたソースビデオデータから分離されたi番目のフレームの顔画像は、事前に取得されたマスク部分のあるi番目のフレームの顔画像に対応する。マスク部分のある顔画像は、発話関連部位がマスクされた顔画像を表す。
本願実施例では、各フレームの顔画像の顔キーポイント情報及び事前に取得されたマスク部分のある顔画像を事前にトレーニングされた第2ニューラルネットワークに入力する実施形態の場合、例示的に、事前に取得されたソースビデオデータから最初のフレームからn番目のフレームまでの顔画像を分離する場合、iが1~nを順次に取ることにより、i番目のフレームの顔画像の顔キーポイント情報及びマスク部分のあるi番目のフレームの顔画像を事前にトレーニングされた第2ニューラルネットワークに入力することができる。
以下、図4を参照して、本願実施例に係る第2ニューラルネットワークのアーキテクチャについて説明し、図4に示されたように、第2ニューラルネットワークの応用段階では、少なくとも1つのフレームのマスク部分のない処理待ち顔画像を事前に取得し、その後、各フレームのマスク部分のない処理される顔画像にマスクを追加して、マスク部分のある顔画像を取得することができる。例示的に、処理される顔画像は、真の顔画像、アニメ化された顔画像又は他のタイプの顔画像であってもよい。
各フレームの顔画像の顔キーポイント情報に従って、前記事前に取得されたマスク部分のある1つのフレームの顔画像に対してマスク部分の補完処理を実行する実施形態の場合、例示的に、第2ニューラルネットワークは、画像合成用の補完ネットワーク(Inpainting Network)を含み得、第2ニューラルネットワークの応用段階では、各フレームの顔画像の顔キーポイント情報及び事前に取得されたマスク部分のある顔画像を補完ネットワークに入力し、補完ネットワークにおいて、各フレームの顔画像の顔キーポイント情報に従って、前記事前に取得されたマスク部分のある顔画像に対してマスク部分の補完処理を実行して、各フレームの生成画像を取得することができる。
実際の応用では、図4を参照すると、各フレームの顔画像の顔キーポイント情報をヒートマップにコード化する場合、ヒートマップ及び事前に取得されたマスク部分のある顔画像を補完ネットワークに入力し、補完ネットワークを用いて、ヒートマップに基づき、事前に取得されたマスク部分のある顔画像を補完処理して、生成画像を取得することができる。例えば、補完ネットワークは、スキップ接続を備えたニューラルネットワークであってもよい。
本願実施例では、補完ネットワークを用いて画像補完処理を実行するプロセスは、式(4)で説明することができる。
Figure 2022526148000021
(4)
ここで、Nは、事前に取得されたマスク部分のある顔画像を表し、Hは、表示顔キーポイント情報のヒートマップを表し、
Figure 2022526148000022
は、ヒートマップ及び事前に取得されたマスク部分のある顔画像を補完処理する関数を表し、
Figure 2022526148000023
は、生成画像を表す。
図4を参照すると、第2ニューラルネットワークのトレーニング段階では、マスク部分のないサンプル顔画像を取得することができ、処理待ち顔画像に対する第2ニューラルネットワークの上記の処理方式に従って、サンプル顔画像を処理して、対応する生成画像を取得することができる。
さらに、図4を参照すると、第2ニューラルネットワークのトレーニング段階では、サンプル顔画像及び生成画像を鑑別器に入力する必要もあり、鑑別器は、サンプル顔画像が真の画像である確率、及び生成画像が真の画像である確率を決定するために使用され、鑑別器の鑑別により、第1鑑別結果及び第2鑑別結果を取得することができ、第1鑑別結果は、サンプル顔画像が真の画像である確率を表し、第2鑑別結果は、生成画像が真の画像である確率を表し、その後、トレーニング済みの第2ニューラルネットワークを取得するまで、第2ニューラルネットワークの損失に従って、第2ニューラルネットワークをトレーニングすることができる。ここで、第2ニューラルネットワークの損失は敵対的損失を含み、敵対的損失は、前記第1鑑別結果及び前記第2鑑別結果に従って取得されたものである。
ステップ104において、各フレームの生成画像に従って、目標ビデオを生成する。
ステップ104の実施形態の場合、一例において、各フレームの生成画像について、事前に取得された顔画像に従って、顔キーポイント以外の他の領域の画像を調整し、調整後の各フレームの生成画像を取得し、調整後の各フレームの生成画像を用いて目標ビデオを構成することができる。このように、本願実施例では、調整後の各フレームの生成画像における顔キーポイント以外の他の領域の画像を、事前に取得された処理待ち顔画像とよりよく一致させ、調整後の各フレームの生成画像を実際のニーズによりよく一致させる。
実際の応用では、第2ニューラルネットワークにおいて、各フレームの生成画像について、前記事前に取得された処理待ち顔画像に従って顔キーポイント以外の他の領域の画像を調整し、調整後の各フレームの生成画像を取得することができる。
例示的に、図4を参照すると、第2ニューラルネットワークの応用段階では、ラプラシアン・ピラミッド・ブレンディング(Laplacian Pyramid Blending)を用いて、事前に取得されたマスク部分のない処理待ち顔画像及び生成画像に対して画像融合を実行し、調整後の生成画像を取得することができる。
もちろん、別の例において、各フレームの生成画像を用いて目標ビデオを直接に構成することができ、このようにして、実現を容易にする。
実際の応用では、ステップ101~ステップ104は、電子機器のプロセッサを用いて実現でき、上記のプロセッサは、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、デジタル信号プロセッサ(DSP:Digital Signal Processor)、デジタル信号処理装置(DSPD:Digital Signal Processing Device)、プログラマブル論理装置(PLD:Programmable Logic Device)、FPGA、中央処理装置(CPU:Central Processing Unit)、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであってもよい。
ここから分かるように、本願実施例において、顔キーポイント情報は、頭部姿勢情報を考慮することによって取得されたものであるため、顔キーポイント情報に従って生成された各フレームの生成画像に従って、頭部姿勢情報を反映することができ、これにより、目標ビデオは頭部姿勢情報を反映することができる。頭部姿勢情報は、各フレームの顔画像に従って取得されたものであり、各フレームの顔画像は、頭の姿勢に関連する実際のニーズに応じて取得できるため、本願実施例では、頭の姿勢に関連する実際のニーズを満たす各フレームの顔画像に従って、対応する目標ビデオを生成することにより、生成された目標ビデオが頭の姿勢に関連する実際のニーズを満たすようにすることができる。
さらに、図4を参照すると、第2ニューラルネットワークの応用段階では、目標ビデオについて、目標ビデオにおける画像の発話関連部位の顔キーポイントに対して動き平滑化処理を実行することができ、及び/又は、目標ビデオにおける画像に対して揺れ補正処理を実行することができる。ここで、前記発話関連部位は、少なくとも口及び顎を含む。
理解できることとして、目標ビデオにおける画像の発話関連部位の顔キーポイントに対して動き平滑化処理を実行することにより、目標ビデオ内の発話関連部位の揺れを低減し、目標ビデオの表示効果を向上させることができ、目標ビデオにおける画像に対して揺れ補正処理を実行することにより、目標ビデオ内の画像をちらつき、目標ビデオの表示効果を向上させることができる。
前記目標ビデオの画像の発話関連部位の顔キーポイントに対して動き平滑化処理を実行する実施形態の場合、例示的に、tが2より大きいか等しく、前記目標ビデオにおけるt番目のフレームの画像の発話関連部位中心位置と前記目標ビデオにおけるt-1番目のフレームの画像の発話関連部位中心位置との間の距離が設定された距離閾値より小さいか等しい場合、前記目標ビデオにおけるt番目のフレームの画像の発話関連部位の顔キーポイント情報及び前記目標ビデオにおけるt-1番目のフレームの画像の発話関連部位の顔キーポイント情報に従って、前記目標ビデオにおけるt番目のフレームの画像の発話関連部位の、動き平滑化処理された後の顔キーポイント情報を取得することができる。
tが2より大きいか等しく、前記目標ビデオにおけるt番目のフレームの画像の発話関連部位中心位置と前記目標ビデオにおけるt-1番目のフレームの画像の発話関連部位中心位置との間の距離が設定された距離閾値より大きい場合、前記目標ビデオにおけるt番目のフレームの画像の発話関連部位の顔キーポイント情報を、目標ビデオにおけるt番目のフレームの画像の発話関連部位の動き平滑化処理後の顔キーポイント情報として使用し、つまり、目標ビデオにおけるt番目のフレームの画像の発話関連部位の顔キーポイント情報に対して動き平滑化処理を実行することに留意されたい。
1つの特定の例において、
Figure 2022526148000024
は目標ビデオにおけるt-1番目のフレームの画像の発話関連部位の顔キーポイント情報を表し、
Figure 2022526148000025
は目標ビデオにおけるt番目のフレームの画像の発話関連部位の顔キーポイント情報を表し、
Figure 2022526148000026
は設定された距離閾値を表し、sは設定された動き平滑化処理の強度を表し、
Figure 2022526148000027
は目標ビデオにおけるt番目のフレームの画像の発話関連部位の動き平滑化処理後の顔キーポイント情報を表し、
Figure 2022526148000028
は目標ビデオにおけるt-1番目のフレームの画像の発話関連部位の中心位置を表し、
Figure 2022526148000029
は目標ビデオにおけるt番目のフレームの画像の発話関連部位の中心位置を表す。
Figure 2022526148000030
である場合、
Figure 2022526148000031
である。
Figure 2022526148000032
である場合、
Figure 2022526148000033
であり、ここで、
Figure 2022526148000034
である。
目標ビデオの画像に対して揺れ補正処理を実行する実施形態の場合、例示的に、tが2より大きいか等しい場合、目標ビデオにおけるt-1番目のフレームの画像からt番目のフレームの画像までのオプティカルフロー、揺れ補正処理後の目標ビデオにおけるt-1番目のフレームの画像、及び目標ビデオにおけるt番目のフレームの画像の発話関連部位中心位置とt-1番目のフレームの画像の発話関連部位中心位置との間の距離に従って、目標ビデオにおけるt番目のフレームの画像に対して揺れ補正処理を実行することができる。
一特定の例において、目標ビデオにおけるt番目のフレームの画像に対して揺れ補正処理を実行するプロセスは、式(5)で説明することができる。
Figure 2022526148000035
(5)
ここで、
Figure 2022526148000036
は、目標ビデオの揺れ補正処理が実行されてないt番目のフレームの画像を表し、
Figure 2022526148000037
は、揺れ補正処理後の目標ビデオにおけるt番目のフレームの画像を表し、
Figure 2022526148000038
は、揺れ補正処理後の目標ビデオにおけるt-1番目のフレームの画像を表し、
Figure 2022526148000039
はフーリエ変換を表し、fは目標ビデオのビデオフレームレートを表し、
Figure 2022526148000040
は、目標ビデオにおけるt番目のフレームの画像の発話関連部位中心位置とt-1番目のフレームの画像の発話関連部位中心位置との間の距離を表し、
Figure 2022526148000041
は、目標ビデオにおけるt-1番目のフレームの画像からt番目のフレームの画像までのオプティカルフローを
Figure 2022526148000042
に適用することによって取得された画像を表す。
本願実施例に係るビデオ生成方法は、複数のシナリオに適用されることができ、一例示的な適用シナリオでは、カスタマーサービススタッフの顔画像を含むビデオ情報を端末に表示する必要があり、入力情報又は特定のサービスの要求を受信するたびに、カスタマーサービススタッフのプレゼンテーションビデオを再生する。この場合、本願実施例に係るビデオ生成方法により、事前に取得された複数のフレームの顔画像及び各フレームの顔画像に対応する音声セグメントを処理して、各フレームの顔画像の顔キーポイント情報を取得し、その後、各フレームの顔画像の顔キーポイント情報に従って、各フレームのカスタマーサービススタッフの顔画像に対して補完処理を実行して、各フレームの生成画像を取得することにより、バックグラウンドでカスタマーサービススタッフが話すプレゼンテーションビデオを合成することができる。
上記は、本願実施例に係る適用シナリオの単なる例に過ぎず、本願実施例に係る適用シナリオはこれらに限定されたいことに留意されたい。
図5は、本願実施例に係る第1ニューラルネットワークのトレーニング方法のフローチャートであり、図5に示されたように、当該プロセスは、次のステップを含み得る。
ステップA1において、複数のフレームの顔サンプル画像及び各フレームの顔サンプル画像に対応する音声サンプルセグメントを取得する。
実際の応用では、サンプルビデオデータから複数のフレームの顔サンプル画像及び音声を含む音声サンプルデータを分離し、各フレームの顔サンプル画像に対応する音声サンプルセグメントを決定することができ、前記各フレームの顔サンプル画像に対応する音声サンプルセグメントは、前記音声サンプルデータの一部であり、
ここで、サンプルビデオデータの各フレームの画像は顔サンプル画像を含み、サンプルビデオデータの音声データは話者の音声を含み、本願実施例では、サンプルビデオデータのソース及びフォーマットを限定しない。
本願実施例では、サンプルビデオデータから複数のフレームの顔サンプル画像及び音声を含む音声サンプルデータを分離する実施形態は、事前に取得されたソースビデオデータから複数のフレームの顔画像及び音声を含む音声データを分離する実施形態と類似し、ここでは繰り返して説明しない。
ステップA2において、各フレームの顔サンプル画像及び各フレームの顔サンプル画像に対応する音声サンプルセグメントを、トレーニングされていない第1ニューラルネットワークに入力して、各フレームの顔サンプル画像の予測顔表情情報及び予測顔キーポイント情報を取得する。
本願実施例では、このステップの実施形態についてはステップ102で既に説明されており、ここでは繰り返して説明しない。
A3において、第1ニューラルネットワークの損失に従って、第1ニューラルネットワークのネットワークパラメータを調整する。
ここで、第1ニューラルネットワークの損失は、表情損失及び/又は顔キーポイント損失を含み得、表情損失は、予測顔表情情報と顔表情表記結果との間の差を表すために使用され、顔キーポイント損失は、予測顔キーポイント情報と顔キーポイント表記結果との間の差を示すために使用される。
実際の実施では、各フレームの顔サンプル画像から顔キーポイント表記結果を抽出してもよく、各フレームの顔画像を3DMMに入力し、3DMMを用いて抽出した顔表情情報を顔表情表記結果として使用してもよい。
ここで、表情損失及び顔キーポイント損失は、式(6)に従って計算できる。
Figure 2022526148000043
(6)
ここで、eは、顔表情表記結果を表し、
Figure 2022526148000044
は、第1ニューラルネットワークに基づいて取得された予測顔表情情報を表し、
Figure 2022526148000045
は表情損失を表し、
Figure 2022526148000046
は顔キーポイント表記結果を表し、
Figure 2022526148000047
は、第1ニューラルネットワークに基づいて取得された予測顔キーポイント情報を表し、
Figure 2022526148000048
は顔キーポイント損失を表し、
Figure 2022526148000049
は1ノルムを取ることを表す。
図2を参照すると、顔キーポイント情報2は顔キーポイント表記結果を表し、顔表情情報2は顔表情表記結果を表し、このようにして、顔キーポイント情報1及び顔キーポイント情報2に従って顔キーポイント損失を取得することができ、顔表情情報1及び顔表情情報2に従って表情損失を取得することができる。
ステップA4において、ネットワークパラメータ調整後の第1ニューラルネットワークの損失が第1所定条件を満たすかどうかを判断し、条件を満たさない場合、ステップA1~ステップA4を繰り返し実行し、条件を満たす場合、ステップA5を実行する。
本願のいくつかの実施例において、第1所定条件は、表情損失が第1の設定された損失値より小さく、顔キーポイント損失が第2の設定された損失値より小さいこと、又は表情損失及び顔キーポイント損失の加重和が第の3設定された損失値より小さいことであり得る。本願実施例では、第1の設定された損失値、第2の設定された損失値及び第3の設定された損失値のいずれも、実際の必要に応じて事前に設定できる。
ここで、表情損失と顔キーポイント損失の加重和
Figure 2022526148000050
は、式(7)で表すことができる。
Figure 2022526148000051
(7)
ここで、
Figure 2022526148000052
は、表情損失の重み係数を表し、
Figure 2022526148000053
は、顔キーポイント損失の重み係数を表し、
Figure 2022526148000054
及び
Figure 2022526148000055
のいずれも、実際の必要に応じて経験的に設定できる。
ステップA5において、ネットワークパラメータ調整後の第1ニューラルネットワークを、トレーニング済みの第1ニューラルネットワークとして使用する。
実際の応用では、ステップA1~ステップA5は、電子機器のプロセッサで実現でき、上記のプロセッサは、ASIC、DSP、DSPD、PLD、FPGA、CPU、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであってもよい。
ここから分かるように、第1ニューラルネットワークのトレーニングプロセスにおいて、予測顔キーポイント情報は頭部姿勢情報を考慮することによって取得されたものであり、頭部姿勢情報はソースビデオデータの顔画像に従って取得されたものであり、ソースビデオデータは、頭の姿勢に関連する実際のニーズに従って取得したものであり得るため、トレーニング済みの第1ニューラルネットワークは、頭の姿勢に関連する実際のニーズを満たすソースビデオデータに従って、対応する顔キーポイント情報をより適切に生成することができる。
図6は、本願実施例に係る第2ニューラルネットワークのトレーニング方法のフローチャートであり、図6に示されたように、当該プロセスは、次のステップを含み得る。
ステップB1において、事前に取得されたマスク部分のないサンプル顔画像にマスクを追加して、マスク部分のある顔画像を取得し、事前に取得されたサンプル顔キーポイント情報及び前記マスク部分のある顔画像をトレーニングされていない第2ニューラルネットワークに入力し、前記第2ニューラルネットワークにより、前記サンプル顔キーポイント情報に従って、前記事前に取得されたマスク部分のある顔画像に対してマスク部分の補完処理を実行して、生成画像を取得し、
このステップの実施形態についてはステップ102で既に説明されており、ここでは繰り返して説明しない。
ステップB2において、サンプル顔画像を鑑別して、第1鑑別結果を取得し、生成画像を鑑別して、第2鑑別結果を取得する。
ステップB3において、第2ニューラルネットワークの損失に従って、第2ニューラルネットワークのネットワークパラメータを調整する。
ここで、第2ニューラルネットワークの損失は敵対的損失を含み、敵対的損失は、前記第1鑑別結果及び前記第2鑑別結果に従って取得されたものである。
ここで、敵対的損失は、式(8)に従って計算できる。
Figure 2022526148000056
(8)
ここで、
Figure 2022526148000057
は敵対的損失を表し、
Figure 2022526148000058
は第2鑑別結果を表し、Fはサンプル顔画像を表し、
Figure 2022526148000059
は第1鑑別結果を表す。
本願のいくつかの実施例において、第2ニューラルネットワークの損失は、画素再構築損失、感知損失、アーティファクト損失、勾配ペナルティ損失を更に含み、ここで、画素再構築損失は、サンプル顔画像と生成画像との間の差を表し、感知損失は、異なるスケールでのサンプル顔画像と生成画像との間の差の合計を表し、アーティファクト損失は、生成画像のスパイクアーティファクトを表し、勾配ペナルティ損失は、第2ニューラルネットワークの更新勾配を制限するために使用される。
本願実施例では、画素再構築損失は、式(9)に従って計算できる。
Figure 2022526148000060
(9)
ここで、
Figure 2022526148000061
は画素再構築損失を表し、
Figure 2022526148000062
は、1ノルムを取ることを表す。
実際の応用では、異なるスケールでの画像特徴を抽出するためのニューラルネットワークにサンプル顔画像を入力して、異なるスケールでのサンプル顔画像の特徴を抽出し、異なるスケールでの画像特徴を抽出するためのニューラルネットワークに生成画像を入力して、異なるスケールでの生成画像の特徴を抽出することができ、ここで、
Figure 2022526148000063
はi番目のスケールの生成画像の特徴を表し、
Figure 2022526148000064
はi番目のスケールのサンプル顔画像の特徴を表し、感知損失は
Figure 2022526148000065
として表すことができる。
一例において、異なるスケールでの画像特徴を抽出するためのニューラルネットワークはVGG16ネットワークであり、サンプル顔画像又は生成画像をVGG16ネットワークに入力して、第1のスケールから第4のスケールでのサンプル顔画像又は生成画像の特徴を抽出することができ、ここで、relu1_2層、relu2_2層、relu3_3層及びrelu3_4層を用いて取得された特徴は、それぞれ、第1のスケールから第4のスケールでのサンプル顔画像又は生成画像の特徴として使用することができる。この場合、感知損失は、式(10)に従って計算できる。
Figure 2022526148000066
(10)
ステップB4において、ネットワークパラメータ調整後の第2ニューラルネットワークの損失が第2所定条件を満たすかどうかを判断し、条件を満たさない場合、ステップB1~ステップB4を繰り返し実行し、条件を満たす場合、ステップB5を実行する。
本願のいくつかの実施例において、第2所定条件は、敵対的損失が第4設定された損失値より小さいことであってもよい。本願実施例では、第4の設定された損失値は、実際の必要に応じて事前に設定できる。
本願のいくつかの実施例において、第2所定条件はまた、敵対的損失と、画素再構築損失、感知損失、アーティファクト損失、勾配ペナルティ損失のうちの少なくとも1つの損失の加重和が第5設定された損失値より小さいことであってもよく、本願実施例では、第5設定された損失値は、実際の必要に応じて事前に設定できる。
一特定の例において、敵対的損失、画素再構築損失、感知損失、アーティファクト損失及び勾配ペナルティ損失の加重和L2は、式(11)で説明できる。
Figure 2022526148000067
(11)
ここで、
Figure 2022526148000068
はアーティファクト損失を表し、
Figure 2022526148000069
は勾配ペナルティ損失を表し、
Figure 2022526148000070
は画素再構築損失の重み係数を表し、
Figure 2022526148000071
は敵対的損失の重み係数を表し、
Figure 2022526148000072
は感知損失の重み係数を表し、
Figure 2022526148000073
はアーティファクト損失の重み係数を表し、
Figure 2022526148000074
は勾配ペナルティ損失の重み係数を表し、
Figure 2022526148000075

Figure 2022526148000076

Figure 2022526148000077

Figure 2022526148000078
及び
Figure 2022526148000079
のいずれも、実際の必要に応じて経験的に設定できる。
ステップB5において、ネットワークパラメータ調整後の第2ニューラルネットワークを、トレーニング済みの第2ニューラルネットワークとして使用する。
実際の応用では、ステップB1~ステップB5は、電子機器のプロセッサで実現でき、上記のプロセッサは、ASIC、DSP、DSPD、PLD、FPGA、CPU、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであってもよい。
ここから分かるように、第2ニューラルネットワークのトレーニングプロセスでは、鑑別器の鑑別結果に従ってニューラルネットワークのパラメータを調整することができ、リアルな生成画像を取得するのに有益であり、即ち、トレーニング済みの第2ニューラルネットワークがよりリアルな生成画像を取得することができるようにする。
当業者なら自明であるが、上記の具体的な実施形態における方法において、記載された各ステップの順序は、実施プロセスを限定する厳密な実行順序を意味するのではなく、各ステップの具体的な実行順序は、その機能と可能な内部ロジックによって決定する必要がある。
上記の実施例に係るビデオ生成方法に基づき、本願実施例は、ビデオ生成装置を提案する。
図7は、本願実施例に係るビデオ生成装置の構成の概略構造図であり、図7に示されたように、前記装置は、第1処理モジュール701、第2処理モジュール702及び生成モジュール703を備え、ここで、
第1処理モジュール701は、複数のフレームの顔画像及び前記複数のフレームの顔画像の各フレームの顔画像に対応する音声セグメントを取得するように構成され、
第2処理モジュール702は、前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得し、前記各フレームの顔画像の顔キーポイント情報に従って、事前に取得された顔画像に対して補充処理を実行して、各フレームの生成画像を取得するように構成され、
生成モジュールは703は、各フレームの生成画像に従って、目標ビデオを生成するように構成される。
本願のいくつかの実施例において、前記第2処理モジュール702は、前記顔表情情報及び前記顔形状情報に従って、顔ポイントクラウドデータを取得し、前記頭部姿勢情報に従って、前記顔ポイントクラウドデータを2次元画像に投影して、前記各フレームの顔画像の顔キーポイント情報を取得するように構成される。
本願のいくつかの実施例において、前記第2処理モジュール702は、前記音声セグメントの音声特徴を抽出し、音声特徴の音色情報を消去し、前記音色情報を消去した後の音声特徴に従って、前記顔表情情報を取得するように構成される。
本願のいくつかの実施例において、前記第2処理モジュール702は、前記音声特徴に対して正規化処理を実行することにより、音声特徴の音色情報を消去するように構成される。
本願のいくつかの実施例において、前記生成モジュール703は、各フレームの生成画像に対して、前記事前に取得された対応する1つのフレームの顔画像に従って、顔キーポイント以外の他の領域の画像を調整し、調整後の各フレームの生成画像を取得し、調整後の各フレームの生成画像を用いて目標ビデオを構成するように構成される。
本願のいくつかの実施例において、図7を参照すると、前記装置は、揺れ補正モジュール704を更に備え、ここで、揺れ補正モジュール704は、前記目標ビデオにおける画像の発話関連部位の顔キーポイントに対して動き平滑化処理を実行し、及び/又は、前記目標ビデオにおける画像に対して揺れ補正処理を実行するように構成され、ここで、前記発話関連部位は、少なくとも口及び顎を含む。
本願のいくつかの実施例において、前記揺れ補正モジュール704は、tが2より大きいか等しく、前記目標ビデオにおけるt番目のフレームの画像の発話関連部位中心位置と前記目標ビデオにおけるt-1番目のフレームの画像の発話関連部位中心位置との間の距離が設定された距離閾値より小さいか等しい場合、前記目標ビデオにおけるt番目のフレームの画像の発話関連部位の顔キーポイント情報及び前記目標ビデオにおけるt-1番目のフレームの画像の発話関連部位の顔キーポイント情報に従って、前記目標ビデオにおけるt番目のフレームの画像の発話関連部位の、動き平滑化処理された後の顔キーポイント情報を取得するように構成される。
本願のいくつかの実施例において、前記揺れ補正モジュール704は、tが2より大きいか等しい場合、前記目標ビデオにおけるt-1番目のフレームの画像からt番目のフレームの画像までのオプティカルフロー、揺れ補正処理後の前記目標ビデオにおけるt-1番目のフレームの画像、及び前記目標ビデオにおけるt番目のフレームの画像の発話関連部位中心位置とt-1番目のフレームの画像の発話関連部位中心位置との間の距離に従って、前記目標ビデオにおけるt番目のフレームの画像に対して揺れ補正処理を実行するように構成される。
本願のいくつかの実施例において、前記第1処理モジュール701は、ソースビデオデータを取得し、ソースビデオデータから、前記複数のフレームの顔画像及び音声を含む音声データを分離し、各フレームの顔画像に対応する音声セグメントを決定するように構成され、前記各フレームの顔画像に対応する音声セグメントは、前記音声データの一部である。
本願のいくつかの実施例において、前記第2処理モジュール702は、前記複数のフレームの顔画像及び前記各フレームの顔画像に対応する音声セグメントを、事前にトレーニングされた第1ニューラルネットワークに入力し、前記第1ニューラルネットワークを介して、前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得するように構成される。
本願のいくつかの実施例において、前記第1ニューラルネットワークをトレーニングすることは。
複数のフレームの顔サンプル画像及び各フレームの顔サンプル画像に対応する音声サンプルセグメントを取得することと、
前記各フレームの顔サンプル画像及び前記各フレームの顔サンプル画像に対応する音声サンプルセグメントを、トレーニングされていない第1ニューラルネットワークに入力して、各フレームの顔サンプル画像の予測顔表情情報及び予測顔キーポイント情報を取得することと、
前記第1ニューラルネットワークの損失に従って、前記第1ニューラルネットワークのネットワークパラメータを調整することであって、前記第1ニューラルネットワークの損失は、表情損失及び/又は顔キーポイント損失を含み、前記表情損失は、前記予測顔表情情報と顔表情表記結果との間の差を示すために使用され、前記顔キーポイント損失は、前記予測顔キーポイント情報と顔キーポイント表記結果との間の差を示すために使用される、ことと、
第1ニューラルネットワークの損失が第1所定条件を満たすまで、上記のステップを繰り返し実行して、トレーニング済みの第1ニューラルネットワークを取得することとを含む。
本願のいくつかの実施例において、前記第2処理モジュール702は、前記各フレームの顔画像の顔キーポイント情報及び事前に取得された顔画像を、事前にトレーニングされた第2ニューラルネットワークに入力し、前記第2ニューラルネットワークを介して、前記各フレームの顔画像の顔キーポイント情報に従って、前記事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得するように構成される。
本願のいくつかの実施例において、前記第2ニューラルネットワークをトレーニングすることは、
事前に取得されたマスク部分のないサンプル顔画像にマスクを追加して、マスク部分のある顔画像を取得し、事前に取得されたサンプル顔キーポイント情報及び前記マスク部分のある顔画像をトレーニングされていない第2ニューラルネットワークに入力し、前記第2ニューラルネットワークにより、前記サンプル顔キーポイント情報に従って、前記事前に取得されたマスク部分のある顔画像に対してマスク部分の補完処理を実行して、生成画像を取得することと、
前記サンプル顔画像を鑑別して、第1鑑別結果を取得し、前記生成画像を鑑別して、第2鑑別結果を取得することと、
前記第2ニューラルネットワークの損失に従って、前記第2ニューラルネットワークのネットワークパラメータを調整することであって、ニューラルネットワークの損失は敵対的損失を含み、前記敵対的損失は、前記第1鑑別結果及び前記第2鑑別結果に従って取得されたものである、ことと、
第2ニューラルネットワークの損失が第2所定条件を満たすまで、上記のステップを繰り返し実行して、トレーニング済みの第2ニューラルネットワークを取得することとを含む。
本願のいくつかの実施例において、前記第2ニューラルネットワークの損失は、画素再構築損失、感知損失、アーティファクト損失、勾配ペナルティ損失を更に含み、前記画素再構築損失は、サンプル顔画像と生成画像との間の差を表し、前記感知損失は、異なるスケールでのサンプル顔画像と生成画像との間の差の合計を表し、前記アーティファクト損失は、生成画像のスパイクアーティファクトを表し、前記勾配ペナルティ損失は、第2ニューラルネットワークの更新勾配を制限するために使用される。
実際の応用では、第1処理モジュール701、第2処理モジュール702、生成モジュール703及び揺れ補正モジュール704のいずれも、電子機器のプロセッサで実現でき、上記のプロセッサは、ASIC、DSP、DSPD、PLD、FPGA、CPU、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであってもよい。
さらに、本実施例の各機能モジュールを1つの処理ユニットに統合してもよいし、各ユニットを別々に1つのユニットとして使用してもよく、あるいは、2つ以上のユニットを1つのユニットに統合してもよい。前記統合されたユニットは、ハードウェアの形で実装されてもよく、ソフトウェア機能モジュールの形で実装されてもよい。
前記統合されたユニットが、ソフトウェア機能ユニットの形で実現され、独立した製品として販売又は使用されない場合、1つのコンピュータ可読記憶媒体に記憶され、このような理解に基づいて、本実施例の技術的解決策の本質的なすべて又は一部、すなわち、先行技術に貢献のある部分、又は前記技術的解決策の一部は、ソフトウェア製品の形で具現されることができ、当該コンピュータソフトウェア製品は、1つの記憶媒体に記憶され、コンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク機器等であり得る)又はprocessor(プロセッサ)に、本実施例に記載の方法のステップの全部又は一部を実行させるためのいくつかの命令を含む。前述した記憶媒体は、Uディスク、モバイルハードディスク、読み取り専用メモリ(ROM:Read-Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスクまたは光ディスク等のプログラムコードを記憶することができる様々な媒体を含む。
具体的には、本願実施例におけるビデオ生成方法に対応するコンピュータプログラム命令は、光ディスク、ハードディスク、Uディスクなどの記憶媒体に記憶されることができ、記憶媒体に記憶されたビデオ生成方法に対応するコンピュータプログラム命令が電子機器によって読み取られて実行されるときに、上記の実施例におけるビデオ生成方法のいずれか1つを実現する。
これに対応して、本願実施例は、コンピュータ可読コードを含むコンピュータプログラムをさらに提案し、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、上記の任意のビデオ生成方法を実行させる。
上記の実施例と同じ技術構想に基き、図8を参照すると、本願実施例に係る電子機器80を示し、前記電子機器80は、メモリ81及びプロセッサ82を備えることができる。
前記メモリ81は、コンピュータプログラム及びデータを記憶するように構成され、
前記プロセッサ82は、前記メモリに記憶されているコンピュータプログラムを実行することにより、上記の実施例におけるビデオ生成方法のいずれか1つを実現するように構成される。
実際の適用では、上記のメモリ81は、RAMなどの揮発性メモリ(volatile memory)であり得、又はROM、フラッシュメモリ(flash memory)、ハードディスク(HDD:Hard Disk Drive)またはソリッドステートハードディスク(SSD:Solid-State Drive)などの不揮発性メモリ(non-volatile memory)であり得、または上記のメモリの組み合わせであり得、プロセッサ82に命令やデータを提供する。
上記のプロセッサ82は、ASIC、DSP、DSPD、PLD、FPGA、CPU、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも1つであり得る。異なる機器について、上記のプロセッサ機能を実装するために使用される電子デバイスはまた、他のものであり得ることが理解できるが、本願実施例はこれらに対して特に限定しない。
いくつかの実施例において、本願実施例で提供される装置の機能又は当該装置に含まれるモジュールは、上記の方法の実施例で説明された方法を実行するように構成されることができ、その具体的な実装については、上記の方法の実施例の説明を参照することができ、簡潔にするために、ここでは繰り返して説明しない。
各実施例の上記の説明は、各実施例間の違いを強調する傾向があり、それらの同じまたは類似なところについては互いに参照することができ、簡潔にするために、ここでは繰り返して説明しない。
本願で提供される方法の実施例に開示された方法は、競合することなく任意に組み合わせて、新しい方法の実施例を取得することができる。
本願で提供される製品の実施例に開示された技術的特徴は、競合することなく任意に組み合わせて、新しい製品の実施例を取得することができる。
本願で提供される方法又は機器の実施例に開示された特徴は、競合することなく任意に組み合わせて、新しい方法の実施例又は機器の実施例を取得することができる。
以上の実施形態の説明を通じて、当業者は、上記の実施例に係る方法が、ソフトウェアと必要な汎用ハードウェアプラットフォームの組み合わせで実現でき、もちろん、ハードウェアによっても実現できることを明確に理解できるが、多くの場合、前者の方がより好ましい実施形態である。このような理解に基づいて、本発明の技術的解決策の本質的な部分、すなわち、先行技術に貢献のある部分は、ソフトウェア製品の形で具現されることができ、当該コンピュータソフトウェア製品は、1つの記憶媒体(例えば、ROM/RAM、磁気ディスク、光ディスクなど)に記憶され、端末(携帯電話、コンピュータ、サーバ、コントローラ又はネットワーク機器等であり得る)に本発明の各実施例に記載の方法を実行させるためのいくつかの命令を含む。
以上では、図面を参照して本発明の実施例を説明したが、本発明は、上記の特定の実施形態に限定されず、上記の特定の実施形態は、単なる例示に過ぎず、本願を限定するものではない。当業者は、本発明の示唆下で、本開示の目的および請求項の保護範囲から逸脱することなく、多くの形態をさらに実施することもでき、これらの形態はすべて、本発明の保護範囲に含まれるべきである。
本願実施例は、ビデオ生成方法、装置、電子機器、コンピュータ記憶媒体及びコンピュータプログラムを提供し、当該方法は、各フレームの顔画像から顔画像から顔形状情報及び頭部姿勢情報を抽出し、各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、顔表情情報、顔形状情報及び頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得することと、顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得することと、各フレームの生成画像に従って、目標ビデオを生成することと、を含む。本願実施例において、顔キーポイント情報は、頭部姿勢情報を考慮することによって取得されたものであるため、目標ビデオは頭部姿勢情報を反映することができる。頭部姿勢情報は、各フレームの顔画像に従って取得されたものであるため、本願実施例では、生成された目標ビデオが、頭の姿勢に関連する実際のニーズを満たすようにすることができる。

Claims (31)

  1. ビデオ生成方法であって、
    複数のフレームの顔画像及び前記複数のフレームの顔画像の各フレームの顔画像に対応する音声セグメントを取得することと、
    前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得することと、
    前記各フレームの顔画像の顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得することと、
    各フレームの生成画像に従って、目標ビデオを生成することと、を含む、前記ビデオ生成方法。
  2. 前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得することは、
    前記顔表情情報及び前記顔形状情報に従って、顔ポイントクラウドデータを取得し、前記頭部姿勢情報に従って、前記顔ポイントクラウドデータを2次元画像に投影して、前記各フレームの顔画像の顔キーポイント情報を取得することを含む、
    請求項1に記載のビデオ生成方法。
  3. 前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得することは、
    前記音声セグメントの音声特徴を抽出し、音声特徴の音色情報を消去し、前記音色情報を消去した後の音声特徴に従って、前記顔表情情報を取得することを含む、
    請求項1又は2に記載のビデオ生成方法。
  4. 前記音声特徴の音色情報を消去することは、
    前記音声特徴に対して正規化処理を実行することにより、音声特徴の音色情報を消去することを含む、
    請求項3に記載のビデオ生成方法。
  5. 前記各フレームの生成画像に従って、目標ビデオを生成することは、
    各フレームの生成画像に対して、前記事前に取得された顔画像に基づき、顔キーポイント以外の他の領域の画像を調整し、調整後の各フレームの生成画像を取得し、調整後の各フレームの生成画像を用いて目標ビデオを構成することを含む、
    請求項1又は2に記載のビデオ生成方法。
  6. 前記ビデオ生成方法は、
    前記目標ビデオにおける画像の発話関連部位の顔キーポイントに対して動き平滑化処理を実行すること、及び/又は、前記目標ビデオにおける画像に対して揺れ補正処理を実行することを更に含み、前記発話関連部位は、少なくとも口及び顎を含む、
    請求項1又は2に記載のビデオ生成方法。
  7. 前記目標ビデオにおける画像の発話関連部位の顔キーポイントに対して動き平滑化処理を実行することは、
    tが2より大きいか等しく、前記目標ビデオにおけるt番目のフレームの画像の発話関連部位中心位置と前記目標ビデオにおけるt-1番目のフレームの画像の発話関連部位中心位置との間の距離が設定された距離閾値より小さいか等しい場合、前記目標ビデオにおけるt番目のフレームの画像の発話関連部位の顔キーポイント情報及び前記目標ビデオにおけるt-1番目のフレームの画像の発話関連部位の顔キーポイント情報に従って、前記目標ビデオにおけるt番目のフレームの画像の発話関連部位の、動き平滑化処理された後の顔キーポイント情報を取得することを含む、
    請求項6に記載のビデオ生成方法。
  8. 前記目標ビデオにおける画像に対して揺れ補正処理を実行することは、
    tが2より大きいか等しい場合、前記目標ビデオにおけるt-1番目のフレームの画像からt番目のフレームの画像までのオプティカルフロー、揺れ補正処理後の前記目標ビデオにおけるt-1番目のフレームの画像、及び前記目標ビデオにおけるt番目のフレームの画像の発話関連部位中心位置とt-1番目のフレームの画像の発話関連部位中心位置との間の距離に従って、前記目標ビデオにおけるt番目のフレームの画像に対して揺れ補正処理を実行することを含む、
    請求項6に記載のビデオ生成方法。
  9. 前記複数のフレームの顔画像及び前記複数のフレームの顔画像の各フレームの顔画像に対応する音声セグメントを取得することは、
    ソースビデオデータを取得し、前記ソースビデオデータから、前記複数のフレームの顔画像及び音声を含む音声データを分離し、各フレームの顔画像に対応する音声セグメントを決定することを含み、前記各フレームの顔画像に対応する音声セグメントは、前記音声データの一部である、
    請求項1又は2に記載のビデオ生成方法。
  10. 前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得することは、
    前記複数のフレームの顔画像及び前記各フレームの顔画像に対応する音声セグメントを、事前にトレーニングされた第1ニューラルネットワークに入力し、前記第1ニューラルネットワークにより、前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得することを含む、
    請求項1又は2に記載のビデオ生成方法。
  11. 前記第1ニューラルネットワークをトレーニングすることは、
    複数のフレームの顔サンプル画像及び各フレームの顔サンプル画像に対応する音声サンプルセグメントを取得することと、
    前記各フレームの顔サンプル画像及び前記各フレームの顔サンプル画像に対応する音声サンプルセグメントを、トレーニングされていない第1ニューラルネットワークに入力して、各フレームの顔サンプル画像の予測顔表情情報及び予測顔キーポイント情報を取得することと、
    前記第1ニューラルネットワークの損失に従って、前記第1ニューラルネットワークのネットワークパラメータを調整することであって、前記第1ニューラルネットワークの損失は、表情損失及び/又は顔キーポイント損失を含み、前記表情損失は、前記予測顔表情情報と顔表情表記結果との間の差を表すために使用され、前記顔キーポイント損失は、前記予測顔キーポイント情報と顔キーポイント表記結果との間の差を表すために使用される、ことと、
    第1ニューラルネットワークの損失が第1所定条件を満たすまで、上記のステップを繰り返し実行して、トレーニング済みの第1ニューラルネットワークを取得することと、含む、
    請求項10に記載のビデオ生成方法。
  12. 前記各フレームの顔画像の顔キーポイント情報に従って、前記事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得することは、
    前記各フレームの顔画像の顔キーポイント情報及び事前に取得された顔画像を、事前にトレーニングされた第2ニューラルネットワークに入力し、前記第2ニューラルネットワークにより、前記各フレームの顔画像の顔キーポイント情報に従って、前記事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得することを含む、
    請求項1又は2に記載のビデオ生成方法。
  13. 前記第2ニューラルネットワークをトレーニングすることは、
    事前に取得されたマスク部分のないサンプル顔画像にマスクを追加して、マスク部分のある顔画像を取得し、事前に取得されたサンプル顔キーポイント情報及び前記マスク部分のある顔画像をトレーニングされていない第2ニューラルネットワークに入力し、前記第2ニューラルネットワークにより、前記サンプル顔キーポイント情報に従って、前記事前に取得されたマスク部分のある顔画像に対してマスク部分の補完処理を実行して、生成画像を取得することと、
    前記サンプル顔画像を鑑別して、第1鑑別結果を取得し、前記生成画像を鑑別して、第2鑑別結果を取得することと、
    前記第2ニューラルネットワークの損失に従って、前記第2ニューラルネットワークのネットワークパラメータを調整することであって、前記第2ニューラルネットワークの損失は敵対的損失を含み、前記敵対的損失は、前記第1鑑別結果及び前記第2鑑別結果に従って取得されたものである、ことと、
    第2ニューラルネットワークの損失が第2所定条件を満たすまで、上記のステップを繰り返し実行して、トレーニング済みの第2ニューラルネットワークを取得することと、を含む、
    請求項12に記載のビデオ生成方法。
  14. 前記第2ニューラルネットワークの損失は、画素再構築損失、感知損失、アーティファクト損失、勾配ペナルティ損失を更に含み、前記画素再構築損失は、サンプル顔画像と生成画像との間の差を表し、前記感知損失は、異なるスケールでのサンプル顔画像と生成画像との間の差の合計を表し、前記アーティファクト損失は、生成画像のスパイクアーティファクトを表し、前記勾配ペナルティ損失は、第2ニューラルネットワークの更新勾配を制限するために使用される、
    請求項13に記載のビデオ生成方法。
  15. ビデオ生成装置であって、
    第1処理モジュール、第2処理モジュール、第3処理モジュール及び生成モジュールを備え、
    前記第1処理モジュールは、複数のフレームの顔画像及び前記複数のフレームの顔画像の各フレームの顔画像に対応する音声セグメントを取得するように構成され、
    前記第2処理モジュールは、前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得し、前記各フレームの顔画像の顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得するように構成され、
    前記生成モジュールは、各フレームの生成画像に従って、目標ビデオを生成するように構成される、前記ビデオ生成装置。
  16. 前記第2処理モジュールは、前記顔表情情報及び前記顔形状情報に従って、顔ポイントクラウドデータを取得し、前記頭部姿勢情報に従って、前記顔ポイントクラウドデータを2次元画像に投影して、前記各フレームの顔画像の顔キーポイント情報を取得するように構成される、
    請求項15に記載のビデオ生成装置。
  17. 前記第2処理モジュールは、前記音声セグメントの音声特徴を抽出し、音声特徴の音色情報を消去し、前記音色情報を消去した後の音声特徴に従って、前記顔表情情報を取得するように構成される、
    請求項15又は16に記載のビデオ生成装置。
  18. 前記第2処理モジュールは、前記音声特徴に対して正規化処理を実行することにより、音声特徴の音色情報を消去するように構成される、
    請求項17に記載のビデオ生成装置。
  19. 前記生成モジュールは、各フレームの生成画像に対して、前記事前に取得された顔画像に基づき、顔キーポイント以外の他の領域の画像を調整し、調整後の各フレームの生成画像を取得し、調整後の各フレームの生成画像を用いて目標ビデオを構成するように構成される、
    請求項15又は16に記載のビデオ生成装置。
  20. 前記ビデオ生成装置は、揺れ補正モジュールを更に備え、
    揺れ補正モジュールは、前記目標ビデオにおける画像の発話関連部位の顔キーポイントに対して動き平滑化処理を実行し、及び/又は、前記目標ビデオにおける画像に対して揺れ補正処理を実行するように構成され、前記発話関連部位は、少なくとも口及び顎を含む、
    請求項15又は16に記載のビデオ生成装置。
  21. 前記揺れ補正モジュールは、tが2より大きいか等しく、前記目標ビデオにおけるt番目のフレームの画像の発話関連部位中心位置と前記目標ビデオにおけるt-1番目のフレームの画像の発話関連部位中心位置との間の距離が設定された距離閾値より小さいか等しい場合、前記目標ビデオにおけるt番目のフレームの画像の発話関連部位の顔キーポイント情報及び前記目標ビデオにおけるt-1番目のフレームの画像の発話関連部位の顔キーポイント情報に従って、前記目標ビデオにおけるt番目のフレームの画像の発話関連部位の、動き平滑化処理された後の顔キーポイント情報を取得するように構成される、
    請求項20に記載のビデオ生成装置。
  22. 前記揺れ補正モジュールは、tが2より大きいか等しい場合、前記目標ビデオにおけるt-1番目のフレームの画像からt番目のフレームの画像までのオプティカルフロー、揺れ補正処理後の前記目標ビデオにおけるt-1番目のフレームの画像、及び前記目標ビデオにおけるt番目のフレームの画像の発話関連部位中心位置とt-1番目のフレームの画像の発話関連部位中心位置との間の距離に従って、前記目標ビデオにおけるt番目のフレームの画像に対して揺れ補正処理を実行するように構成される、
    請求項20に記載のビデオ生成装置。
  23. 前記第1処理モジュールは、ソースビデオデータを取得し、ソースビデオデータから、前記複数のフレームの顔画像及び音声を含む音声データを分離し、各フレームの顔画像に対応する音声セグメントを決定するように構成され、前記各フレームの顔画像に対応する音声セグメントは、前記音声データの一部である、
    請求項15又は16に記載のビデオ生成装置。
  24. 前記第2処理モジュールは、前記複数のフレームの顔画像及び前記各フレームの顔画像に対応する音声セグメントを、事前にトレーニングされた第1ニューラルネットワークに入力し、前記第1ニューラルネットワークを介して、前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得するように構成される、
    請求項15又は16に記載のビデオ生成装置。
  25. 前記第1ニューラルネットワークをトレーニングすることは、
    複数のフレームの顔サンプル画像及び各フレームの顔サンプル画像に対応する音声サンプルセグメントを取得することと、
    前記各フレームの顔サンプル画像及び前記各フレームの顔サンプル画像に対応する音声サンプルセグメントを、トレーニングされていない第1ニューラルネットワークに入力して、各フレームの顔サンプル画像の予測顔表情情報及び予測顔キーポイント情報を取得することと、
    前記第1ニューラルネットワークの損失に従って、前記第1ニューラルネットワークのネットワークパラメータを調整することであって、前記第1ニューラルネットワークの損失は、表情損失及び/又は顔キーポイント損失を含み、前記表情損失は、前記予測顔表情情報と顔表情表記結果との間の差を表すために使用され、前記顔キーポイント損失は、前記予測顔キーポイント情報と顔キーポイント表記結果との間の差を表示すために使用される、ことと、
    第1ニューラルネットワークの損失が第1所定条件を満たすまで、上記のステップを繰り返し実行して、トレーニング済みの第1ニューラルネットワークを取得することと、を含む、
    請求項24に記載のビデオ生成装置。
  26. 前記第2処理モジュールは、前記各フレームの顔画像の顔キーポイント情報及び事前に取得された顔画像を、事前にトレーニングされた第2ニューラルネットワークに入力し、前記第2ニューラルネットワークを介して、前記各フレームの顔画像の顔キーポイント情報に従って、前記事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得するように構成される、
    請求項15又は16に記載のビデオ生成装置。
  27. 前記第2ニューラルネットワークをトレーニングすることは、
    事前に取得されたマスク部分のないサンプル顔画像にマスクを追加して、マスク部分のある顔画像を取得し、事前に取得されたサンプル顔キーポイント情報及び前記マスク部分のある顔画像をトレーニングされていない第2ニューラルネットワークに入力し、前記第2ニューラルネットワークにより、前記サンプル顔キーポイント情報に従って、前記事前に取得されたマスク部分のある顔画像に対してマスク部分の補完処理を実行して、生成画像を取得することと、
    前記サンプル顔画像を鑑別して、第1鑑別結果を取得し、前記生成画像を鑑別して、第2鑑別結果を取得することと、
    前記第2ニューラルネットワークの損失に従って、前記第2ニューラルネットワークのネットワークパラメータを調整することであって、前記第2ニューラルネットワークの損失は敵対的損失を含み、前記敵対的損失は、前記第1鑑別結果及び前記第2鑑別結果に従って取得されたものである、ことと、、
    第2ニューラルネットワークの損失が第2所定条件を満たすまで、上記のステップを繰り返し実行して、トレーニング済みの第2ニューラルネットワークを取得することと、を含む、
    請求項26に記載のビデオ生成装置。
  28. 前記第2ニューラルネットワークの損失は、画素再構築損失、感知損失、アーティファクト損失、勾配ペナルティ損失のうちの少なくとも1つを更に含み、前記画素再構築損失は、サンプル顔画像と生成画像との間の差を表し、前記感知損失は、異なるスケールでのサンプル顔画像と生成画像との間の差の合計を表し、前記アーティファクト損失は、生成画像のスパイクアーティファクトを表し、前記勾配ペナルティ損失は、第2ニューラルネットワークの更新勾配を制限するために使用される、
    請求項27に記載のビデオ生成装置。
  29. 電子機器であって、
    プロセッサと、プロセッサで実行可能なコンピュータプログラムを記憶するように構成されるメモリと、を備え、
    前記プロセッサは、前記コンピュータプログラムを実行するときに、請求項1ないし14のいずれか一項に記載のビデオ生成方法を実行するように構成される、前記電子機器。
  30. コンピュータプログラムが記憶されているコンピュータ記憶媒体であって、
    当該コンピュータプログラムがプロセッサによって実行されるときに、請求項1ないし14のいずれか一項に記載のビデオ生成方法を実現する、前記コンピュータ記憶媒体。
  31. コンピュータ可読コードを含むコンピュータプログラムであって、
    前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、請求項1ないし14のいずれか一項に記載のビデオ生成方法を実行させる、前記コンピュータプログラム。
JP2021556974A 2019-09-18 2020-09-08 ビデオ生成方法、装置、電子機器及びコンピュータ記憶媒体 Ceased JP2022526148A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910883605.2A CN110677598B (zh) 2019-09-18 2019-09-18 视频生成方法、装置、电子设备和计算机存储介质
CN201910883605.2 2019-09-18
PCT/CN2020/114103 WO2021052224A1 (zh) 2019-09-18 2020-09-08 视频生成方法、装置、电子设备和计算机存储介质

Publications (1)

Publication Number Publication Date
JP2022526148A true JP2022526148A (ja) 2022-05-23

Family

ID=69078255

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021556974A Ceased JP2022526148A (ja) 2019-09-18 2020-09-08 ビデオ生成方法、装置、電子機器及びコンピュータ記憶媒体

Country Status (6)

Country Link
US (1) US20210357625A1 (ja)
JP (1) JP2022526148A (ja)
KR (1) KR20210140762A (ja)
CN (1) CN110677598B (ja)
SG (1) SG11202108498RA (ja)
WO (1) WO2021052224A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3874384A4 (en) * 2018-10-29 2022-08-10 Artrendex, Inc. SYSTEM AND METHOD GENERATING A SYNCHRONIZED REACTIVE VIDEO STREAM FROM AN AUDITORY INPUT
CN110677598B (zh) * 2019-09-18 2022-04-12 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质
CN111294665B (zh) * 2020-02-12 2021-07-20 百度在线网络技术(北京)有限公司 视频的生成方法、装置、电子设备及可读存储介质
CN111368137A (zh) * 2020-02-12 2020-07-03 百度在线网络技术(北京)有限公司 视频的生成方法、装置、电子设备及可读存储介质
SG10202001693VA (en) * 2020-02-26 2021-09-29 Pensees Pte Ltd Methods and Apparatus for AI (Artificial Intelligence) Movie Producer System
CN111429885B (zh) * 2020-03-02 2022-05-13 北京理工大学 一种将音频片段映射为人脸嘴型关键点的方法
CN113689527B (zh) * 2020-05-15 2024-02-20 武汉Tcl集团工业研究院有限公司 一种人脸转换模型的训练方法、人脸图像转换方法
CN113689538B (zh) * 2020-05-18 2024-05-21 北京达佳互联信息技术有限公司 一种视频生成方法、装置、电子设备及存储介质
US11538140B2 (en) * 2020-11-13 2022-12-27 Adobe Inc. Image inpainting based on multiple image transformations
CN112669441B (zh) * 2020-12-09 2023-10-17 北京达佳互联信息技术有限公司 一种对象重建方法、装置、电子设备和存储介质
CN112489036A (zh) * 2020-12-14 2021-03-12 Oppo(重庆)智能科技有限公司 图像评价方法、图像评价装置、存储介质与电子设备
CN112699263B (zh) * 2021-01-08 2023-05-23 郑州科技学院 基于ai的二维美术图像动态展示方法及装置
CN112927712B (zh) * 2021-01-25 2024-06-04 网易(杭州)网络有限公司 视频生成方法、装置和电子设备
CN113132815A (zh) * 2021-04-22 2021-07-16 北京房江湖科技有限公司 视频生成方法和装置、计算机可读存储介质、电子设备
CN113077537B (zh) * 2021-04-29 2023-04-25 广州虎牙科技有限公司 一种视频生成方法、存储介质及设备
CN113299312B (zh) * 2021-05-21 2023-04-28 北京市商汤科技开发有限公司 一种图像生成方法、装置、设备以及存储介质
CN113378697B (zh) * 2021-06-08 2022-12-09 安徽大学 一种基于卷积神经网络的说话人脸视频生成方法及装置
US20230035306A1 (en) * 2021-07-21 2023-02-02 Nvidia Corporation Synthesizing video from audio using one or more neural networks
CN114466179B (zh) * 2021-09-09 2024-09-06 马上消费金融股份有限公司 语音与图像同步性的衡量方法及装置
CN113886638A (zh) * 2021-09-30 2022-01-04 深圳追一科技有限公司 一种数字人生成方法、装置、电子设备及存储介质
CN113868469A (zh) * 2021-09-30 2021-12-31 深圳追一科技有限公司 一种数字人生成方法、装置、电子设备及存储介质
CN113886641A (zh) * 2021-09-30 2022-01-04 深圳追一科技有限公司 数字人生成方法、装置、设备及介质
CN113868472A (zh) * 2021-10-18 2021-12-31 深圳追一科技有限公司 数字人视频的生成方法以及相关设备
CN114093384A (zh) * 2021-11-22 2022-02-25 上海商汤科技开发有限公司 说话视频生成方法、装置、设备以及存储介质
WO2023097633A1 (en) * 2021-12-03 2023-06-08 Citrix Systems, Inc. Telephone call information collection and retrieval
CN114373033B (zh) * 2022-01-10 2024-08-20 腾讯科技(深圳)有限公司 图像处理方法、装置、设备、存储介质及计算机程序
CN116152122B (zh) * 2023-04-21 2023-08-25 荣耀终端有限公司 图像处理方法和电子设备
CN117593442B (zh) * 2023-11-28 2024-05-03 拓元(广州)智慧科技有限公司 一种基于多阶段细粒度渲染的人像生成方法
CN117556084B (zh) * 2023-12-27 2024-03-26 环球数科集团有限公司 一种基于多模态的视频情感分析系统
CN117474807B (zh) * 2023-12-27 2024-05-31 科大讯飞股份有限公司 一种图像修复方法、装置、设备及存储介质
CN118279453A (zh) * 2024-01-08 2024-07-02 南京硅基智能科技有限公司 基于音频生成动态图像的方法、装置、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0652290A (ja) * 1992-07-27 1994-02-25 Kokusai Denshin Denwa Co Ltd <Kdd> 口形状画像合成方法及び装置
JPH1166272A (ja) * 1997-08-13 1999-03-09 Sony Corp 画像または音声の処理装置および処理方法ならびに記録媒体
JPH11149285A (ja) * 1997-11-17 1999-06-02 Matsushita Electric Ind Co Ltd 映像音響システム
JP2002008057A (ja) * 2000-05-08 2002-01-11 Moria Technology:Kk アニメーション映像合成装置及びその方法
JP2009087328A (ja) * 2007-09-10 2009-04-23 Advanced Telecommunication Research Institute International リップシンクアニメーション作成装置、コンピュータプログラム及び顔モデル生成装置
JP2010086178A (ja) * 2008-09-30 2010-04-15 Fujifilm Corp 画像合成装置およびその制御方法
JP2013524357A (ja) * 2010-04-06 2013-06-17 アルカテル−ルーセント ビデオ・シーケンスに記録された現実エンティティのリアルタイムのクロッピングの方法
CN108985257A (zh) * 2018-08-03 2018-12-11 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109522818A (zh) * 2018-10-29 2019-03-26 中国科学院深圳先进技术研究院 一种表情识别的方法、装置、终端设备及存储介质
CN109829431A (zh) * 2019-01-31 2019-05-31 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN110147737A (zh) * 2019-04-25 2019-08-20 北京百度网讯科技有限公司 用于生成视频的方法、装置、设备和存储介质
JP2019201360A (ja) * 2018-05-17 2019-11-21 住友電気工業株式会社 画像処理装置、コンピュータプログラム、ビデオ通話システム、及び画像処理方法
CN110516696A (zh) * 2019-07-12 2019-11-29 东南大学 一种基于语音和表情的自适应权重双模态融合情感识别方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100476877C (zh) * 2006-11-10 2009-04-08 中国科学院计算技术研究所 语音和文本联合驱动的卡通人脸动画生成方法
CN101944238B (zh) * 2010-09-27 2011-11-23 浙江大学 基于拉普拉斯变换的数据驱动人脸表情合成方法
CN103093490B (zh) * 2013-02-02 2015-08-26 浙江大学 基于单个视频摄像机的实时人脸动画方法
CN103279970B (zh) * 2013-05-10 2016-12-28 中国科学技术大学 一种实时的语音驱动人脸动画的方法
US10586570B2 (en) * 2014-02-05 2020-03-10 Snap Inc. Real time video processing for changing proportions of an object in the video
US9779775B2 (en) * 2014-02-24 2017-10-03 Lyve Minds, Inc. Automatic generation of compilation videos from an original video based on metadata associated with the original video
CN105551071B (zh) * 2015-12-02 2018-08-10 中国科学院计算技术研究所 一种文本语音驱动的人脸动画生成方法及系统
CN105957129B (zh) * 2016-04-27 2019-08-30 上海河马动画设计股份有限公司 一种基于语音驱动及图像识别的影视动画制作方法
CN107818785A (zh) * 2017-09-26 2018-03-20 平安普惠企业管理有限公司 一种从多媒体文件中提取信息的方法及终端设备
CN107832746A (zh) * 2017-12-01 2018-03-23 北京小米移动软件有限公司 表情识别方法及装置
CN108197604A (zh) * 2018-01-31 2018-06-22 上海敏识网络科技有限公司 基于嵌入式设备的快速人脸定位跟踪方法
CN109101919B (zh) * 2018-08-03 2022-05-10 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109409296B (zh) * 2018-10-30 2020-12-01 河北工业大学 将人脸表情识别和语音情感识别融合的视频情感识别方法
CN109801349B (zh) * 2018-12-19 2023-01-24 武汉西山艺创文化有限公司 一种声音驱动的三维动画角色实时表情生成方法和系统
CN110381266A (zh) * 2019-07-31 2019-10-25 百度在线网络技术(北京)有限公司 一种视频生成方法、装置以及终端
CN110677598B (zh) * 2019-09-18 2022-04-12 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0652290A (ja) * 1992-07-27 1994-02-25 Kokusai Denshin Denwa Co Ltd <Kdd> 口形状画像合成方法及び装置
JPH1166272A (ja) * 1997-08-13 1999-03-09 Sony Corp 画像または音声の処理装置および処理方法ならびに記録媒体
JPH11149285A (ja) * 1997-11-17 1999-06-02 Matsushita Electric Ind Co Ltd 映像音響システム
JP2002008057A (ja) * 2000-05-08 2002-01-11 Moria Technology:Kk アニメーション映像合成装置及びその方法
JP2009087328A (ja) * 2007-09-10 2009-04-23 Advanced Telecommunication Research Institute International リップシンクアニメーション作成装置、コンピュータプログラム及び顔モデル生成装置
JP2010086178A (ja) * 2008-09-30 2010-04-15 Fujifilm Corp 画像合成装置およびその制御方法
JP2013524357A (ja) * 2010-04-06 2013-06-17 アルカテル−ルーセント ビデオ・シーケンスに記録された現実エンティティのリアルタイムのクロッピングの方法
JP2019201360A (ja) * 2018-05-17 2019-11-21 住友電気工業株式会社 画像処理装置、コンピュータプログラム、ビデオ通話システム、及び画像処理方法
CN108985257A (zh) * 2018-08-03 2018-12-11 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109522818A (zh) * 2018-10-29 2019-03-26 中国科学院深圳先进技术研究院 一种表情识别的方法、装置、终端设备及存储介质
CN109829431A (zh) * 2019-01-31 2019-05-31 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN110147737A (zh) * 2019-04-25 2019-08-20 北京百度网讯科技有限公司 用于生成视频的方法、装置、设备和存储介质
CN110516696A (zh) * 2019-07-12 2019-11-29 东南大学 一种基于语音和表情的自适应权重双模态融合情感识别方法

Also Published As

Publication number Publication date
US20210357625A1 (en) 2021-11-18
SG11202108498RA (en) 2021-09-29
KR20210140762A (ko) 2021-11-23
CN110677598A (zh) 2020-01-10
WO2021052224A1 (zh) 2021-03-25
CN110677598B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
JP2022526148A (ja) ビデオ生成方法、装置、電子機器及びコンピュータ記憶媒体
Tomei et al. Art2real: Unfolding the reality of artworks via semantically-aware image-to-image translation
US11114086B2 (en) Text and audio-based real-time face reenactment
CN111243626B (zh) 一种说话视频生成方法及系统
JP7246811B2 (ja) 顔画像生成用のデータ処理方法、データ処理機器、コンピュータプログラム、及びコンピュータ機器
CN113228163B (zh) 基于文本和音频的实时面部再现
KR101558202B1 (ko) 아바타를 이용한 애니메이션 생성 장치 및 방법
CN113793408A (zh) 一种实时音频驱动人脸生成方法、装置及服务器
WO2021159781A1 (zh) 图像处理方法、装置、设备及存储介质
CN113272870A (zh) 用于逼真的实时人像动画的系统和方法
JP2023518584A (ja) 3次元人体モデル構築方法および電子機器
CN113299312B (zh) 一种图像生成方法、装置、设备以及存储介质
WO2024109374A1 (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
KR102373608B1 (ko) 디지털 휴먼 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램
CN114202615A (zh) 人脸表情的重建方法、装置、设备和存储介质
JP2021012595A (ja) 情報処理装置、情報処理装置の制御方法、および、プログラム
CN113544706A (zh) 电子装置及其控制方法
CN115631285A (zh) 基于统一驱动的人脸渲染方法、装置、设备及存储介质
RU2720361C1 (ru) Обучение по нескольким кадрам реалистичных нейронных моделей голов говорящих персон
CN118413722B (zh) 音频驱动视频生成方法、装置、计算机设备以及存储介质
WO2023032224A1 (ja) 画像処理装置、学習装置、画像処理方法、学習方法、画像処理プログラム及び学習プログラム
CN115240246A (zh) 语音识别方法、装置、设备、存储介质和程序产品
Akatsuka et al. Estimation of Unmasked Face Images Based on Voice and 3DMM
CN118823223A (zh) 三维人脸重建方法、装置、电子设备和存储介质
Zand Attention-Based Audio Driven Facial Animation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210922

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210922

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221122

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20230328