JP2021182438A - 動画生成方法、装置、電子機器およびコンピュータ可読媒体 - Google Patents

動画生成方法、装置、電子機器およびコンピュータ可読媒体 Download PDF

Info

Publication number
JP2021182438A
JP2021182438A JP2021131563A JP2021131563A JP2021182438A JP 2021182438 A JP2021182438 A JP 2021182438A JP 2021131563 A JP2021131563 A JP 2021131563A JP 2021131563 A JP2021131563 A JP 2021131563A JP 2021182438 A JP2021182438 A JP 2021182438A
Authority
JP
Japan
Prior art keywords
sequence
facial expression
chinese
pinyin
reference voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021131563A
Other languages
English (en)
Other versions
JP7232293B2 (ja
Inventor
楊少雄
Shaoxiong Yang
趙洋
Yang Zhao
趙晨
Chen Zhao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021182438A publication Critical patent/JP2021182438A/ja
Application granted granted Critical
Publication of JP7232293B2 publication Critical patent/JP7232293B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/163Handling of whitespace
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • Image Analysis (AREA)

Abstract

【課題】本願は、鮮明で、リアルで、効果が優れた顔表情動画を生成できる動画生成方法と装置を開示し、コンピュータビジョン、音声、拡張現実、深層学習などの人工知能技術分野に関する。【解決手段】本願に係る方法は、処理対象素材を処理し、正規化テキストを生成することと、正規化テキストを解析し、正規化テキストの中国語ピンインシーケンスを生成することと、処理対象素材に基づいて、基準音声を生成することと、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得することとを含む。【選択図】図1

Description

本願は、コンピュータ技術分野に関し、具体的には、コンピュータビジョン、音声、拡張現実、深層学習などの人工知能技術分野に関し、特に動画生成方法、装置、電子機器、コンピュータ可読媒体およびコンピュータプログラムに関する。
コンピュータ技術と動画技術の急速な発展に伴い、人々は人間とコンピュータとのインタラクションにおける口形(口付き)に対する要求が益々高まり、如何に入力された文字または音声に基づいて音声ストリームに合致する仮想人物の顔表情動画を生成できることは、中国語の口形の動画の研究に対する急務となる。
中国語の口形の動画生成方法は、深層学習に基づいて、音声から顔表情係数のマッピング関係を直接学習するのが一般的であり、訓練データにおける発話者の発話スタイル及び顔のタイプの影響を受け、音声−顔表情係数のマッピング関係の学習は難しい。世の中で音声データ(コンテンツ、音色、トーン、振幅など)の量が極めて大きいため、すべての文(センテンス)および音声変数を学習させることは無理である。例えば、1つの文に対応する音声は訓練セットにないか、または同じ文の音声と訓練セットの音声との差異が大きいと、モデルは音声入力符合する顔表情動画を正確に出力することを確保することは難しい。
本願は、動画生成方法、装置、電子機器、コンピュータ可読媒体、およびコンピュータプログラム製品を提供する。
第1態様によれば、処理対象素材を処理して正規化テキストを生成することと、正規化テキストを解析し、正規化テキストの中国語ピンインシーケンスを生成することと、処理対象素材に基づいて基準音声を生成することと、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得することと、を含む動画生成方法を提供する。
第2態様によれば、処理対象素材を処理して正規化テキストを生成するように構成される処理ユニットと、正規化テキストを解析して、正規化テキストの中国語ピンインシーケンスを生成するように構成される解析ユニットと、処理対象素材に基づいて基準音声を生成するように構成される生成ユニットと、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得するように構成される取得ユニットと、を備える動画生成装置を提供する。
第3態様によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な指令が格納され、指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに第1態様のいずれかの実施形態に記載の方法が実行される、電子機器を提供する。
第4態様によれば、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令は第1態様のいずれかの実施形態に記載の方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。
第5態様において、本願の実施例は、プロセッサによって実行されると第1態様のいずれかの実施形態に記載の方法が実現されるコンピュータ指令を含む、コンピュータプログラムを提供する。
本願の実施例により提供される動画生成方法および装置は、まず、処理対象素材を処理して正規化テキストを生成し、次に、正規化テキストを解析して正規化テキストの中国語ピンインシーケンスを生成し、次に、処理対象素材に基づいて基準音声を生成し、最後に、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得する。これにより、処理対象素材をそれぞれ中国語ピンインシーケンスおよび基準音声に変換し、中国語ピンインシーケンスおよび基準音声の時系列に基づいて、基準音声の時系列に対応する顔表情動画を取得することで、膨大な量の音声と顔表情をアノテートする必要がなく、開発コストが節約され、中国語ピンインシーケンスに基づいて生成された顔表情動画はすべての音声の語句をサポートできるだけでなく、顔動画表情生成の信頼性も向上させることができる。
なお、発明の概要に記載された内容は、本願の実施形態のかなめとなる特徴又は重要な特徴を限定することを意図するものではなく、本願の範囲を限定するものでもない。本願の他の特徴は、以下の説明によって容易に理解される。
図面は本願をよりよく理解するために用いられるものであり、本願に対する限定を構成するものではない。
本願に係る動画生成方法の一実施例を示すフローチャートである。 本願に係る基準音声の時系列に対応する顔表情動画を取得する方法のフローチャートである。 本願に係る基準音声の時系列に対応する表情係数シーケンスを取得する方法のフローチャートである。 本願に係る顔表情動画を取得する方法のフローチャートである。 本願に係る動画生成装置の実施例を示す構造概略図である。 本願の実施例に係る動画生成方法を実現するための電子機器のブロック図である。
以下、図面を参照して本願の例示的な実施例を説明し、ここでは理解を助けるため、本願の実施例における詳細な記載は単なる例示に過ぎない。従って、本願の範囲および要旨を逸脱しない限り、当業者は本明細書の実施例に対して様々な変更及び修正を行うことができることが理解されるべきである。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。
図1は、本願に係る動画生成方法の一実施例に基づくフロー100を示す。前記動画生成方法は、次のステップ(ステップ101〜104)を含む。
ステップ101:処理対象素材を処理して正規化テキストを生成する。
本実施例において、動画生成方法が実行される実行主体は、処理対象素材をクライアントから直接取得するか、またはメモリから読み出し、クライアントから取得された処理対象素材(画像、文字又は音声など)に対して、本願の動画生成方法を採用することにより、処理対象素材に対応する仮想顔の人物が発話するイメージの動画映像を生成することができ、リアルタイムで生成する効果を有する。
本実施例において、処理対象素材とは、顔表情動画を生成する必要がある素材をいい、処理対象素材には、処理対象画像、処理対象テキスト、処理対象音声などが含まれる。正規化テキストは中国語テキストであり、中国語テキストには漢字のみが含まれており、異なる種類の処理対象素材に対して、正規化テキストを生成する方法が異なる。
処理対象素材に処理対象テキストが含まれる場合、まず処理対象テキストに対してTN(Text normalization,テキスト正規化)処理を行い、処理対象テキスト中の空行と異常文字を除去し、処理対象テキストにおける数字、日付、時間、金銭などの記号を漢字に翻訳し、正規化テキストを得る必要がある。例えば、3種類の処理対象テキストは、それぞれ108路線バス、12.03、10:23:10である場合、それぞれ正規化処理を経た後、一百零八路線バス、十二点零三元、十時二十三分十秒という正規化テキストを得る。
本実施例のいくつかのオプション的な実現形態において、処理対象素材は処理対象音声を含む。処理対象素材を処理して正規化テキストを生成することは、処理対象音声に対して音声認識処理を行い、中国語テキストを生成することと、中国語テキストに対してテキスト正規化処理を行い、正規化テキストを生成することとを含む。
このオプション的な実現形態では、処理対象素材が処理対象音声を含む場合、まず、処理対象音声に対して音声認識を行い、中国語テキストを生成し、次に、中国語テキストに対してテキスト正規化処理を行い、正規化テキストを取得することにより、処理対象素材の処理の多様性が実現される。
ステップ102:正規化テキストを解析して、正規化テキストの中国語ピンインシーケンスを生成する。
本実施例において、いくつかの中国語ピンイン翻訳ソフトウェアを採用して正規化テキストにおける各漢字文字を中国語ピンインに翻訳し、翻訳して得られた中国語ピンインを組み合わせて、正規化テキストの中国語ピンインシーケンスを得ることができる。
ステップ103:処理対象素材に基づいて基準音声を生成する。
本実施例において、異なる種類の処理対象素材に対して、処理対象素材を正規化テキストに変換し、音声合成により正規化テキストを基準音声に変換することができる。オプション的に、TTS(Text to speech,テキストから音声)ソフトウェアによって正規化テキストを対応する基準音声に生成することができる。
オプション的に、処理対象素材が処理対象音声を含む場合、処理対象音声を直接基準音声とすることができ、又は処理対象音声に対して録音、クリップ、変換などの音声処理を行った後、基準音声を取得するようにすることもできる。
さらに、処理対象素材が処理対象テキストを含み、処理対象テキストを入力して基準音声を生成した後、クライアントによりさらに処理対象音声が入力された場合、処理対象テキストによる基準音声を入力された処理対象音声に置き換える必要がある。
ステップ104:中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得する。
本実施例において、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得する方法は主に、予めアノテートされた辞書により、中国語ピンインシーケンスに対応する顔画像要素シーケンスを検索することと、基準音声における中国語ピンインシーケンスにおける各ピンインに対応するタイムスタンプを抽出することと、タイムスタンプに基づいて、中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する顔画像要素シーケンスをスプライシングし、基準音声の時系列に対応する顔画像要素シーケンスを取得することと、顔画像要素シーケンスに基づいて、顔表情動画を取得することとを含む。
なお、顔画像要素シーケンスのフレームレートがタイムスタンプの時間標準と同じである場合には、直接タイムスタンプに基づいて顔画像要素シーケンスをスプライシングすることができ、顔画像要素シーケンスのフレームレートがタイムスタンプの時間標準と異なる場合には、顔画像要素シーケンスに対して伸張、補間、時系列平滑化等の処理を行った後、タイムスタンプに基づいて顔画像要素シーケンスをスプライシングすることができる。
本実施例において、基準音声の時系列に対応する顔画像要素シーケンスは、複数の中国語ピンインに対応する顔画像要素シーケンスを含む。顔要素シーケンスは複数の顔要素からなり、顔要素は顔の表情を表すための基本要素であり、例えば、顔要素には、顔表情係数、三次元顔グリッド、二次元顔キーポイントまたは顔特徴点などが含まれる。
さらに、顔画像要素シーケンスに基づいて、顔表情動画を取得する過程は、顔画像要素の内容によって異なり、例えば、顔要素が二次元顔キーポイントである場合、予めアノテートされた2Dから3Dのフェースライブラリから、各二次元顔キーポイントに対応する三次元顔モデルを検索して、三次元顔モデルシーケンスを得、三次元顔モデルシーケンスをレンダリングして、映像フレーム画像シーケンスを得、映像フレーム画像シーケンスを合成して、顔表情動画を取得する。
本実施例のいくつかのオプション的な実現形態において、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得することは、
中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する三次元顔グリッドシーケンスを取得することと、基準音声の時系列に対応する三次元顔グリッドシーケンスに基づいて、顔表情動画を取得することとを含む。
このオプション的な実現形態において、中国語ピンインシーケンスにおける各中国語ピンインはいずれも予め訓練して得られたモデルから出力されることができ、又は予めアノテートされた辞書から中国語ピンインシーケンスに対応する三次元顔グリッドシーケンスを検索し、基準音声の時系列に基づいて、中国語ピンインシーケンスに対応する三次元顔グリッドシーケンスを処理し、基準音声の時系列に対応する三次元顔グリッドシーケンスを取得することができ、さらに、基準音声の時系列に対応する三次元顔グリッドシーケンスに対して3D(三次元)から2D(二次元)の画像処理を行うことにより、複数の映像フレーム画像を取得することができ、映像フレーム画像を合成すれば、顔表情動画を取得することができる。
このオプション的な実現形態において、中国語ピンインシーケンスおよび基準音声により、基準音声の時系列に対応する三次元顔グリッドシーケンスを得、基準音声の時系列に対応する三次元顔グリッドシーケンスから、顔表情動画を取得することにより、顔表情動画の生成にオプションとしての実施形態を提供し、動画生成の信頼性とスムーズ性が確保される。
本実施例のいくつかのオプション的な実現形態において、上記中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する三次元顔グリッドシーケンスを取得することは、基準音声と中国語ピンインシーケンスにおける各中国語ピンインに対して時系列アライメントを行い、各中国語ピンインのタイムスタンプを取得することと、アノテーションが完了した、中国語ピンインと三次元顔グリッドシーケンスとの対応関係を表すためのピンイングリッド辞書を検索し、各中国語ピンインに対応する三次元顔グリッドシーケンスを取得することと、タイムスタンプに基づいて、中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する三次元顔グリッドシーケンスをスプライシングして、基準音声の時系列に対応する三次元顔グリッドシーケンスを取得することとを含む。
このオプション的な実現形態において、タイムスタンプは、音声における各中国語ピンインの開始と終了時間を含み、事前にトレーニングされたピンイン・音声アライメントモデルにより、各中国語ピンインと基準音声における各漢字発音をアライメントして、各中国語ピンインのタイムスタンプを取得することができる。
このオプション的な実現形態において、ピンイングリッド辞書は、声優が中国語ピンインを読む時、3Dスキャナによって声優の顔を走査し、各中国語ピンインと一対一に対応する三次元顔グリッドシーケンスを有するピンイングリッド辞書を取得することによりアノテートされて取得することができる。
このオプション的な実現形態において、中国語ピンインシーケンスを取得した後、キーワードを用いてピンイングリッド辞書を検索して、中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する三次元顔グリッドシーケンスを取得する。
このオプション的な実現形態において、基準音声によって採集されたタイムスタンプで中国語ピンインシーケンスに対応する三次元顔グリッドシーケンスに対して時系列スプライシングを行うことにより、三次元顔グリッドシーケンスのスプライシングの信頼性が向上され、顔表情動画の生成に信頼できる堅牢な基盤が提供される。
本実施例のいくつかのオプション的な実現形態において、上記の、基準音声の時系列に対応する三次元顔グリッドシーケンスに基づいて、顔表情動画を取得することは、基準音声の時系列に対応する三次元顔グリッドシーケンスをレンダリングして、映像フレーム画像シーケンスを取得することと、映像フレーム画像シーケンスを合成して、顔表情動画を取得することとを含む。
このオプション的な実現形態において、基準音声の時系列に対応する三次元顔グリッドシーケンスへのレンダリングおよび映像フレーム画像の合成により、顔表情動画を取得することは、操作が簡単で、生成された顔表情動画の信頼性が向上される。
本願の実施例により提供される動画生成方法は、まず、処理対象素材を処理して、正規化テキストを生成し、次に、正規化テキストを解析して、正規化テキストの中国語ピンインシーケンスを生成し、次に、処理対象素材に基づいて基準音声を生成し、最後に、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得する。これにより、処理対象素材をそれぞれ中国語ピンインシーケンスおよび基準音声に変換し、基準音声の時系列および中国語ピンインシーケンスに基づいて、基準音声の時系列に対応する顔表情動画を取得することで、膨大な量の音声と顔表情をアノテートする必要がなく、開発コストが節約され、中国語ピンインシーケンスに基づいて生成された顔表情動画はすべての音声の語句をサポートできるだけでなく、生成された顔動画表情の信頼性も向上される。
本実施例のいくつかのオプション的な実現形態において、図2に示すように、基準音声の時系列に対応する顔表情動画を取得する方法は以下のステップ(ステップ201〜202)を含む。
ステップ201:中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する表情係数シーケンスを取得する。
本実施例において、表情係数シーケンスは、複数の表情係数で構成されるシーケンスであり、さらに、本実施例において、表情係数は、表情ベース画像が表す特徴部位に対応する変形パラメータ値であり、通常、行列で標識され、一つの表情係数の行列に51個のパラメータがあり、該51個のパラメータは51個の表情ベースと一対一に対応しており、表情係数と表情ベースを加重合計することにより、様々な顔口形と顔表情を表すことができる。
一つの中国語ピンインは一つの表情係数シーケンスに対応することができ、表情係数シーケンスごとに複数の映像フレームに対応し、且つ該複数の映像フレームは該中国語ピンインの発音に関する映像フレームである。基準音声の時系列に対応する表情係数シーケンスは、中国語ピンインに対応する1つまたは複数の表情係数シーケンスから構成され得る。
このオプション的な実現形態において、基準音声の時系列に対応する表情係数シーケンスは表情係数ファイルでもあり、該ファイルにおける一行のデータは一の映像フレームに対応し、映像フレームのフレームレートは予めキャリブレート(calibrate)して取得することができ、例えばフレームレートは30fpsである。
ステップ202:基準音声の時系列に対応する表情係数シーケンスに基づいて、顔表情動画を取得する。
このオプション的な実現形態において、表情係数と表情ベースを加重合計して、顔口形と顔表情を確定することができ、表情ベースは既知量であるため、表情係数シーケンスが確定された後、処理対象素材に対応する顔表情動画も対応して確定される。
このオプション的な実現形態において、基準音声の時系列に対応する表情係数シーケンスを取得して、該表情係数シーケンスから顔表情動画を取得することにより、顔表情動画を取得するためにオプション的な形態を提供し、得られた顔表情動画の信頼性が向上される。
本実施例のいくつかのオプション的な実現形態において、図3に示すように、基準音声の時系列に対応する表情係数シーケンスを取得する方法は次のステップ(ステップ301〜303)を含む。
ステップ301:基準音声と中国語ピンインシーケンスにおける各中国語ピンインに対して時系列アライメントを行い、各中国語ピンインのタイムスタンプを取得する。
このオプション的な実現形態において、タイムスタンプは、音声における各中国語ピンインの開始と終了時間を含み、事前にトレーニングされたピンイン・音声アライメントモデルにより、各中国語ピンインと基準音声における各漢字発音をアライメントして、各中国語ピンインのタイムスタンプを取得することができる。
ステップ302:アノテーションが完了したピンイン表情係数辞書を検索し、各中国語ピンインに対応する表情係数シーケンスを取得する。
ここで、ピンイン表情係数辞書は、中国語ピンインと表情係数シーケンスとの対応関係を表すためのものである。
ピンイン表情係数辞書は、複数の方式でキャリブレートして取得することができ、オプションとして、声優が全ての中国語ピンイン(例えば声調(四声)を除いた409個の中国語ピンイン)を読む時の三次元顔グリッドシーケンスを記録し、各中国語ピンインの一対一に対応する三次元顔グリッドシーケンスを確定し、三次元顔表情認識原理に基づいて、三次元顔グリッドシーケンスにより、各中国語ピンインの一対一に対応する表情係数シーケンスを算出して、各中国語ピンインと一対一に対応する表情係数シーケンスを有するピンイン表情係数辞書を取得する。
本実施例のいくつかのオプション的な実現形態において、ピンイン表情係数辞書は、声優が中国語ピンインを読む時の映像を録画し、各中国語ピンインと一対一に対応するピンイン映像を取得することと、各ピンイン映像における各映像フレームに対して顔キーポイント検出を行うことと、検出された顔キーポイントに基づいて表情係数を算出し、各中国語ピンインと一対一に対応する表情係数シーケンスを有するピンイン表情係数辞書を取得することと、によりアノテートされて取得する。
このオプション的な実現形態において、顔キーポイントが例えば150個あり、三次元顔モデルの密集した3Dポイントのうちの150個の3Dポイントと対応関係を有し、該対応関係に基づいてバインディング(対応付け)を完了する。
表情ベース(blend shape,変形形状)は、合計で51個のパラメータ(bs1,bs2,bs3...bs51)を有し、各表情ベースに対応してそれぞれ1つの表情係数(p1、p2、p3…p51)を有し、bs1*p1+bs2*p2+bs3*p3+…+bs51*p51により三次元顔モデルを得る。三次元顔モデルにバインディングされた150個の点に対して二次元投影を行い、得られた150個の投影された2Dポイントと、顔検出された150個のキーポイントとを比較して損失を計算し、両者の間の損失を最小化にするように、最小二乗反復により解を求め(求められた解は表情係数のパラメータであり、該パラメータが51個ある)、最後に51個のパラメータを有する表情係数を得る。
この実現形態において、録画されたピンイン映像に対して、各ピンイン映像における各映像フレームに対して顔キーポイント検出を行い、声調を除去した中国語ピンインは合計で409個(異なる声調を有するピンインは1つの中国語ピンインである)であり、したがってピンイン表情係数辞書を取得するのに少量のピンインをアノテートするだけでよく、データをアノテートする大量の時間と費用が節約でき、動画生成の効率が向上される。
ステップ303:タイムスタンプに基づいて、中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する表情係数シーケンスをスプライシングして、基準音声の時系列に対応する表情係数シーケンスを取得する。
このオプション的な実現形態において、すべての中国語ピンインに対応する表情係数シーケンスをスプライシングする過程において、生成された顔表情動画における隣接する文字の口形および表情の変換が十分に自然に接続されるように、各中国語ピンインに対応する顔表情係数シーケンスに対して時系列延伸、縦方向重畳、および時系列平滑化などの処理を行うことができる。
このオプション的な実現形態により提供される基準音声の時系列に対応する表情係数シーケンスを取得し、基準音声によって中国語ピンインのタイムスタンプを取得し、中国語ピンインシーケンスにおける各中国語ピンインに対応する表情シーケンスを検索し、タイムスタンプに基づいて、中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する表情係数シーケンスをスプライシングし、基準音声の時系列に対応する表情係数シーケンスを取得することにより、顔表情係数の時系列の接続のスムーズ性及び切り替えの自然感が確保される。
本実施例のいくつかのオプション的な実現形態において、図4に示すように、顔表情動画を取得する方法は、次のステップ(ステップ401〜403)を含む。
ステップ401:表情係数シーケンスと表情ベースを加重合計し、三次元顔モデルシーケンスを取得する。
このオプション的な実現形態において、表情ベースが合計で51個のパラメータ(bs1、bs2、bs3…bs51)を有し、各表情ベースに対応してそれぞれ1つの表情係数(p1、p2、p3…p51)があり、bs1*p1+bs2*p2+bs3*p3+…+bs51*p51により三次元顔モデルを取得することができる。
ステップ402:三次元顔モデルシーケンスをレンダリングして、映像フレーム画像シーケンスを取得する。
このオプション的な実現形態において、レンダリングツールによって三次元顔モデルシーケンスを、仮想キャラクターイメージを有する画像シーケンスにレンダリングすることができる。
ステップ403:映像フレーム画像シーケンスを合成して顔表情動画を取得する。
このオプション的な実現形態により提供される顔表情動画を取得する方法は、得られた基準音声の時系列に対応する表情係数シーケンスと表情ベースとを加重合計して、三次元顔モデルシーケンスを得、三次元顔モデルシーケンスをレンダリングして、映像フレーム画像シーケンスを得、映像フレーム画像シーケンスを合成して、顔表情動画を取得することにより、動画生成の安定性が確保される。
更に図5を参照すると、上記の図に示された方法の実施態様として、本願は、動画生成装置の一実施例を提供し、該装置の実施例は、図1に示された方法の実施例に対応しており、該装置は、具体的に様々な電子機器に適用することができる。
図5に示すように、本実施例により提供される動画生成装置500は、処理ユニット501と、解析ユニット502と、生成ユニット503と、取得ユニット504とを備える。ここで、上記処理ユニット501は、処理対象素材を処理して正規化テキストを生成するように構成されてもよい。上記解析ユニット502は、正規化テキストを解析して正規化テキストの中国語ピンインシーケンスを生成するように構成されてもよい。上記生成ユニット503は、処理対象素材に基づいて基準音声を生成するように構成されてもよい。上記取得ユニット504は、中国語ピンインシーケンス、基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得するように構成されてもよい。
本実施例において、動画生成装置500において、処理ユニット501と、解析ユニット502と、生成ユニット503と、取得ユニット504の具体的な処理およびそれらの技術効果は、それぞれ図1の対応する実施例におけるステップ101、ステップ102、ステップ103、およびステップ104の関連する説明を参照することができ、ここでは説明を省略する。
本実施例のいくつかのオプション的な実現態様において、上記取得ユニット504は、係数取得サブユニット(図示せず)、表情取得サブユニット(図示せず)を含む。ここで、上記係数取得サブユニットは、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する表情係数シーケンスを取得するように構成されてもよい。上記表情取得サブユニットは、基準音声の時系列に対応する表情係数シーケンスに基づいて、顔表情動画を取得するように構成されてもよい。
本実施例のいくつかのオプション的な実現態様において、上記係数取得サブユニットは、時系列アライメントモジュール(図示せず)、係数検索モジュール(図示せず)、係数スプライシングモジュール(図示せず)を含む。ここで、上記時系列アライメントモジュールは、基準音声と中国語ピンインシーケンスにおける各中国語ピンインを時系列アライメントし、各中国語ピンインのタイムスタンプを取得するように構成されてもよい。上記係数検索モジュールは、アノテーションが完了した、中国語ピンインと表情係数シーケンスとの対応関係を表すためのピンイン表情係数辞書を検索し、各中国語ピンインに対応する表情係数シーケンスを取得するように構成されてもよい。上記係数スプライシングモジュールは、タイムスタンプに基づいて、中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する表情係数シーケンスをスプライシングし、基準音声の時系列に対応する表情係数シーケンスを取得するように構成されてもよい。
本実施例のいくつかのオプション的な実現形態において、上記ピンイン表情係数辞書は、録画モジュール(図示せず)、検出モジュール(図示せず)、計算モジュール(図示せず)によってアノテートして得られる。ここで、上記録画モジュールは、声優が中国語ピンインを読む際の映像を録画し、各中国語ピンインと一対一に対応するピンイン映像を取得するように構成され得る。上記検出モジュールは、各ピンイン映像における各映像フレームに対して顔キーポイント検出を行うように構成されてもよい。上記計算モジュールは、検出された顔キーポイントに基づいて表情係数を算出し、各中国語ピンインと一対一に対応する表情係数シーケンスを有するピンイン表情係数辞書を取得するように構成されてもよい。
本実施例のいくつかのオプション的な実現形態において、上記表情取得サブユニットは、係数重み付けモジュール(図示せず)、係数レンダリングモジュール(図示せず)、係数合成モジュール(図示せず)を含む。ここで、上記係数重み付けモジュールは、表情係数シーケンスと表情ベースを加重合計して、三次元顔モデルシーケンスを取得するように構成されてもよい。上記係数レンダリングモジュールは、三次元顔モデルシーケンスをレンダリングして、映像フレーム画像シーケンスを取得するように構成されてもよい。上記係数合成モジュールは、映像フレーム画像シーケンスを合成して、顔表情動画を取得するように構成されてもよい。
本実施例のいくつかのオプション的な実現形態において、処理対象素材は処理対象音声を含み、処理ユニット501は識別サブユニット(図示せず)と、処理サブユニット(図示せず)とを含む。ここで、識別サブユニットは、処理対象音声を音声認識処理して中国語テキストを生成するように構成されてもよい。処理サブユニットは、中国語テキストに対してテキストの正規化処理を行い、正規化テキストを生成するように構成されてもよい。
本実施例のいくつかのオプション的な実現形態において、取得ユニット504は、グリッド取得サブユニット(図示せず)と、映像取得サブユニット(図示せず)とを含む。ここで、上記グリッド取得サブユニットは、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する三次元顔グリッドシーケンスを取得するように構成されてもよい。上記映像取得サブユニットは、基準音声の時系列に対応する三次元顔グリッドシーケンスに基づいて顔表情動画を取得するように構成されてもよい。
本実施例のいくつかのオプション的な実現形態において、グリッド取得サブユニットは、時間アライメントモジュール(図示せず)と、グリッド検索モジュール(図示せず)と、グリッド取得モジュール(図示せず)とを含む。ここで、上記タイムアライメントモジュールは、基準音声と中国語ピンインシーケンスにおける各中国語ピンインとを時系列アライメントして各中国語ピンインのタイムスタンプを取得するように構成されてもよい。上記グリッド検索モジュールは、アノテーションが完了した、中国語ピンインと三次元顔グリッドシーケンスとの対応関係を表すためのピンイングリッド辞書を検索し、各中国語ピンインに対応する三次元顔グリッドシーケンスを取得するように構成されてもよい。上記グリッド取得モジュールは、タイムスタンプに基づいて、中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する三次元顔グリッドシーケンスをスプライシングし、基準音声の時系列に対応する三次元顔グリッドシーケンスを取得するように構成されてもよい。
本実施例のいくつかのオプション的な実現形態において、映像取得サブユニットは、グリッドレンダリングモジュール(図示せず)と、グリッド合成モジュール(図示せず)とを含む。ここで、上記グリッドレンダリングモジュールは、基準音声の時系列に対応する三次元顔グリッドシーケンスをレンダリングし、映像フレーム画像シーケンスを取得するように構成される。上記グリッド合成モジュールは、映像フレーム画像シーケンスを合成して、顔表情動画を取得するように構成される。
本願の実施例により提供される動画生成装置は、まず処理ユニット501は処理対象素材を処理して、正規化テキストを生成する。次に、解析ユニット502は正規化テキストを解析して正規化テキストの中国語ピンインシーケンスを生成する。次に、生成ユニット503は処理対象素材に基づいて基準音声を生成する。最後に、取得ユニット504は中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得する。これにより、処理対象素材をそれぞれ中国語ピンインシーケンスおよび基準音声に変換し、基準音声の時系列および中国語ピンインシーケンスに基づいて、基準音声の時系列に対応する顔表情動画を取得することで、音声と顔表情を膨大な量のアノテートをする必要がなく、開発コストが節約され、中国語ピンインシーケンスに基づいて生成された顔表情動画はすべての音声語句をサポートできるだけでなく、生成された顔動画表情の信頼性も向上される。
本願の実施例によれば、本願はさらに電子機器および可読記憶媒体を提供する。
図6に示すように、本願の実施例に係る動画生成方法を実行する電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、大型コンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも一例であり、ここで説明および/または要求した本願の実現を限定することを意図するものではない。
図6に示すように、該電子機器は、1つ又は複数のプロセッサ601、メモリ602、および各コンポーネントを接続するためのインタフェース(高速インタフェースおよび低速インタフェースを含む)を含む。各コンポーネントは、互いに異なるバスで接続されており、共通のマザーボード上に実装されていてもよいし、必要に応じて他の方式で実装されていてもよい。プロセッサは、電子機器内で実行される指令を処理することができ、前記指令は、インターフェイスに結合された表示装置等の外部入出力装置にグラフィカルユーザインタフェイス(GUI,Graphical User Interface)のグラフィック情報を表示するために、メモリ内またはメモリ上に格納される指令を含む。他の実施形態では、必要に応じて、複数のプロセッサおよび/または複数のバスおよび複数のメモリを、複数のメモリとともに使用することができる。また、複数の電子機器が接続されていてもよく、各機器は、例えば、サーバアレイ、ブレードサーバ群またはマルチプロセッサシステムなど、一部の必要な動作を提供する。図6では、1つのプロセッサ601を例としている。
メモリ602は、本願が提供する非一時的コンピュータ可読記憶媒体である。ここで、メモリには、少なくとも1つのプロセッサにより実行され得る指令が格納され、それにより少なくとも1つのプロセッサに本願により提供される動画生成方法を実行させる。本願の非一時的コンピュータ可読記憶媒体はコンピュータ指令を格納し、該コンピュータ指令はコンピュータに本願に係る動画生成方法を実行させるために用いられる。
メモリ602は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム並びに、例えば本願の実施例における動画生成方法に対応するプログラム指令/モジュール(例えば、図5に示す処理ユニット501、解析ユニット502、生成ユニット503、および取得ユニット504)などのモジュールを格納することに用いることができる。プロセッサ601は、メモリ602に格納された非一時的ソフトウェアプログラム、指令およびモジュールを実行することにより、サーバの各種機能アプリケーションおよびデータ処理を実行し、すなわち上記方法の実施例における動画生成方法を実現する。
メモリ602は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを格納可能なプログラム記憶領域と、動画生成方法に係る電子機器の使用に応じて作成されたデータ等を格納可能なデータ記憶領域とを含んでもよい。また、メモリ602は高速ランダムアクセスメモリを含むことができ、また非一時的メモリ(例えば、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリデバイス又はその他の非一時的ソリッドステート記憶装置)を含むことができる。いくつかの実施例において、メモリ602は任意選択でプロセッサ601と遠隔に設置されたメモリを含み、これらのリモートメモリはネットワークを介して動画生成方法を実行する電子機器に接続され得る。上記ネットワークとしては、例えば、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびこれらの組み合わせなどが挙げられるが、それらに限定されない。
動画生成方法を実行する電子機器は、さらに入力装置603および出力装置604を含むことができる。プロセッサ601、メモリ602、入力装置603および出力装置604は、バス605又はその他の方式で接続されていてもよく、図6ではバス605で接続されている例を示している。
例えばタッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングデバイス、1つまたは複数のマウスボタン、トラックボール、ジョイスティック等の入力装置603は、入力された数字や文字情報を受信でき、動画生成方法を実行する電子機器のユーザ設定および機能制御に関するキー信号の入力を生成することができる。出力装置604は表示装置、補助照明装置(例えば、LED)および触覚フィードバック装置(例えば、振動モータ)等を含むことができる。該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイおよびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態において、表示装置はタッチパネルであってもよい。
ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、専用集積回路(Application Specific Integrated Circuit,ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実現され、該1つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/又は解釈することができ、該プログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を該記憶システム、該少なくとも1つの入力装置および該少なくとも1つの出力装置に伝送することを含み得る。
これらのコンピュータプログラムは、プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれ、プログラマブルプロセッサの機械命令を含み、且つ高度プロセスおよび/又はオブジェクト指向のプログラミング言語、および/又はアセンブリ言語/機械言語を利用して実現することができる。ここで、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械指令および/又はデータをプログラマブルプロセッサに供給するための任意のコンピュータプログラム製品、装置、および/又はデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を意味し、機械可読信号である機械指令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械指令および/またはデータをプログラマブルプロセッサに供給するための任意の信号を意味する。
ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(CathodeRayTube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実現することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置は、さらにユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
ここで説明したシステムおよび技術は、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバ)に実施されてもよく、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)に実施されてもよく、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェイス又はウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインタフェイス又はウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、又はこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各構成要素間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、ブロックチェーンネットワーク等が挙げられる。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係は、互いにクライアント−サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS,Virtual Private Server)サービスにおける管理難度が大きく、ビジネス拡張性が弱いという欠陥を解決する。サーバは、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。
なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本願に記載された各ステップは、本願に開示された技術案の所望の結果が達成される限り、並行して実行されてもよく、順番に実行されてもよく、異なる順序で実行されてもよい。本明細書はここで制限しない。
上記具体的な実施形態は、本願の保護範囲を限定するものではない。設計要件および他の要因に応じて、様々な修正、組み合わせ、再組み合わせ、および置換を行うことができることは当業者が理解すべきである。本願の精神および原理内で行われたあらゆる補正、均等な置換および改善などは、いずれも本願の保護範囲内に含まれるとすべきである。

Claims (21)

  1. 処理対象素材を処理して正規化テキストを生成することと、
    前記正規化テキストを解析して、前記正規化テキストの中国語ピンインシーケンスを生成することと、
    前記処理対象素材に基づいて基準音声を生成することと、
    前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する顔表情動画を取得することと、を含む動画生成方法。
  2. 前記の、前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する顔表情動画を取得することは、
    前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する表情係数シーケンスを取得することと、
    前記基準音声の時系列に対応する表情係数シーケンスに基づいて、前記顔表情動画を取得することと、
    を含む請求項1に記載の方法。
  3. 前記の、前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する表情係数シーケンスを取得することは、
    前記基準音声と前記中国語ピンインシーケンスにおける各中国語ピンインに対して時系列アライメントを行い、各中国語ピンインのタイムスタンプを取得することと、
    アノテーションが完了した、中国語ピンインと表情係数シーケンスとの対応関係を表すためのピンイン表情係数辞書を検索し、各中国語ピンインに対応する表情係数シーケンスを取得することと、
    前記タイムスタンプに基づいて、前記中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する表情係数シーケンスをスプライシングし、前記基準音声の時系列に対応する表情係数シーケンスを取得することと、
    を含む請求項2に記載の方法。
  4. 前記ピンイン表情係数辞書は、
    声優が中国語ピンインを読む時の映像を録画し、各中国語ピンインと一対一に対応するピンイン映像を取得することと、
    各ピンイン映像における各映像フレームに対して顔キーポイントの検出を行うことと、
    検出された顔キーポイントに基づいて表情係数を算出し、各中国語ピンインと一対一に対応する表情係数シーケンスを有するピンイン表情係数辞書を取得することと、によりアノテートされて取得する請求項3に記載の方法。
  5. 前記の、前記基準音声の時系列に対応する表情係数シーケンスに基づいて、前記顔表情動画を取得することは、
    前記表情係数シーケンスと表情ベースを加重合計して、三次元顔モデルシーケンスを取得することと、
    三次元顔モデルシーケンスをレンダリングして、映像フレーム画像シーケンスを取得することと、
    前記映像フレーム画像シーケンスを合成して、顔表情動画を取得することと、を含む請求項2に記載の方法。
  6. 前記処理対象素材は処理対象音声を含み、
    前記の、処理対象素材を処理して正規化テキストを生成することは、
    前記処理対象音声に対して音声認識処理を行い、中国語テキストを生成することと、
    前記中国語テキストに対してテキスト正規化処理を行い、正規化テキストを生成することと、
    を含む請求項1に記載の方法。
  7. 前記の、前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する顔表情動画を取得することは、
    前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する三次元顔グリッドシーケンスを取得することと、
    前記基準音声の時系列に対応する三次元顔グリッドシーケンスに基づいて、前記顔表情動画を取得することと、
    を含む請求項1に記載の方法。
  8. 前記の、前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する三次元顔グリッドシーケンスを取得することは、
    前記基準音声と前記中国語ピンインシーケンスにおける各中国語ピンインに対して時系列アライメントを行い、各中国語ピンインのタイムスタンプを取得することと、
    アノテーションが完了した、中国語ピンインと三次元顔グリッドシーケンスとの対応関係を表すためのピンイングリッド辞書を検索し、各中国語ピンインに対応する三次元顔グリッドシーケンスを取得することと、
    前記タイムスタンプに基づいて、前記中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する三次元顔グリッドシーケンスをスプライシングし、前記基準音声の時系列に対応する三次元顔グリッドシーケンスを取得することと、
    を含む請求項7に記載の方法。
  9. 前記の、前記基準音声の時系列に対応する三次元顔グリッドシーケンスに基づいて、前記顔表情動画を取得することは、
    前記基準音声の時系列に対応する三次元顔グリッドシーケンスをレンダリングして、映像フレーム画像シーケンスを取得することと、
    前記映像フレーム画像シーケンスを合成して、顔表情動画を取得することと、を含む請求項7に記載の方法。
  10. 処理対象素材を処理して正規化テキストを生成するように構成される処理ユニットと、
    前記正規化テキストを解析して前記正規化テキストの中国語ピンインシーケンスを生成するように構成される解析ユニットと、
    前記処理対象素材に基づいて基準音声を生成するように構成される生成ユニットと、
    前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する顔表情動画を取得するように構成される取得ユニットと、を備える動画生成装置。
  11. 前記取得ユニットは、
    前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する表情係数シーケンスを取得するように構成される係数取得サブユニットと、
    前記基準音声の時系列に対応する表情係数シーケンスに基づいて、前記顔表情動画を取得するように構成される表情取得サブユニットと、
    を備える請求項10に記載の装置。
  12. 前記係数取得サブユニットは、
    前記基準音声と前記中国語ピンインシーケンスにおける各中国語ピンインに対して時系列アライメントを行い、各中国語ピンインのタイムスタンプを取得するように構成される時系列アライメントモジュールと、
    アノテーションが完了した、中国語ピンインと表情係数シーケンスとの対応関係を表すためのピンイン表情係数辞書を検索し、各中国語ピンインに対応する表情係数シーケンスを取得するように構成される係数検索モジュールと、
    前記タイムスタンプに基づいて、前記中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する表情係数シーケンスをスプライシングし、前記基準音声の時系列に対応する表情係数シーケンスを取得するように構成される係数スプライシングモジュールと、を備える請求項11に記載の装置。
  13. 前記ピンイン表情係数辞書は、
    声優が中国語ピンインを読む時の映像を録画し、各中国語ピンインと一対一に対応するピンイン映像を取得するように構成される録画モジュールと、
    各ピンイン映像における各映像フレームに対して顔キーポイントの検出を行うように構成される検出モジュールと、
    検出された顔キーポイントに基づいて表情係数を計算し、各中国語ピンインと一対一に対応する表情係数シーケンスを有するピンイン表情係数辞書を取得するように構成される計算モジュールと、
    によってアノテートされて取得する請求項12に記載の装置。
  14. 前記表情取得サブユニットは、
    前記表情係数シーケンスと表情ベースを加重合計して、三次元顔モデルシーケンスを取得するように構成される係数重み付けモジュールと、
    三次元顔モデルシーケンスをレンダリングして、映像フレーム画像シーケンスを取得するように構成される係数レンダリングモジュールと、
    前記映像フレーム画像シーケンスを合成して、顔表情動画を取得するように構成される係数合成モジュールと、
    を備える請求項12に記載の装置。
  15. 前記処理対象素材は処理対象音声を含み、
    前記処理ユニットは、
    前記処理対象音声に対して音声認識処理を行い、中国語テキストを生成するように構成される認識サブユニットと、
    前記中国語テキストに対してテキスト正規化処理を行い、正規化テキストを生成するように構成される処理サブユニットと、
    を備える請求項10に記載の装置。
  16. 前記取得ユニットは、
    前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する三次元顔グリッドシーケンスを取得するように構成されるグリッド取得サブユニットと、
    前記基準音声の時系列に対応する三次元顔グリッドシーケンスに基づいて、前記顔表情動画を取得するように構成される映像取得サブユニットと、
    を備える請求項10に記載の装置。
  17. 前記グリッド取得サブユニットは、
    前記基準音声と前記中国語ピンインシーケンスにおける各中国語ピンインに対して時系列アライメントを行い、各中国語ピンインのタイムスタンプを取得するように構成されるタイムアライメントモジュールと、
    アノテーションが完了した、中国語ピンインと三次元顔グリッドシーケンスとの対応関係を表すためのピンイングリッド辞書を検索し、各中国語ピンインに対応する三次元顔グリッドシーケンスを取得するように構成されるグリッド検索モジュールと、
    前記タイムスタンプに基づいて、前記中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する三次元顔グリッドシーケンスをスプライシングし、前記基準音声の時系列に対応する三次元顔グリッドシーケンスを取得するように構成されるグリッド取得モジュールと、
    を備える請求項16に記載の装置。
  18. 前記映像取得サブユニットは、
    前記基準音声の時系列に対応する三次元顔グリッドシーケンスをレンダリングして、映像フレーム画像シーケンスを取得するように構成されるグリッドレンダリングモジュールと、
    前記映像フレーム画像シーケンスを合成して、顔表情動画を取得するように構成されるグリッド合成モジュールと、
    を備える請求項16に記載の装置。
  19. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が格納され、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1〜9のいずれか1項に記載の方法が実行される、電子機器。
  20. コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ指令は請求項1〜9のいずれか1項に記載の方法を前記コンピュータに実行させるために用いられることを特徴とする非一時的コンピュータ可読記憶媒体。
  21. プロセッサによって実行されると請求項1〜9のいずれか1項に記載の方法が実現されるコンピュータ指令を含む、コンピュータプログラム。
JP2021131563A 2020-12-09 2021-08-12 動画生成方法、装置、電子機器およびコンピュータ可読媒体 Active JP7232293B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011430467.1A CN112541957B (zh) 2020-12-09 2020-12-09 动画生成方法、装置、电子设备以及计算机可读介质
CN202011430467.1 2020-12-09

Publications (2)

Publication Number Publication Date
JP2021182438A true JP2021182438A (ja) 2021-11-25
JP7232293B2 JP7232293B2 (ja) 2023-03-02

Family

ID=75019773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021131563A Active JP7232293B2 (ja) 2020-12-09 2021-08-12 動画生成方法、装置、電子機器およびコンピュータ可読媒体

Country Status (3)

Country Link
US (1) US11948236B2 (ja)
JP (1) JP7232293B2 (ja)
CN (1) CN112541957B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744368A (zh) * 2021-08-12 2021-12-03 北京百度网讯科技有限公司 动画合成方法、装置、电子设备及存储介质
CN113706669B (zh) * 2021-08-12 2022-09-27 北京百度网讯科技有限公司 动画合成方法、装置、电子设备及存储介质
CN113628309B (zh) * 2021-08-17 2023-09-22 杭州相芯科技有限公司 一种真人语音口型动画生成方法及系统、电子设备、存储介质
CN115311731B (zh) * 2022-10-10 2023-01-31 之江实验室 一种手语数字人的表情生成方法和装置
CN116664731B (zh) * 2023-06-21 2024-03-29 华院计算技术(上海)股份有限公司 人脸动画生成方法及装置、计算机可读存储介质、终端
CN116843798B (zh) * 2023-07-03 2024-07-05 支付宝(杭州)信息技术有限公司 动画生成方法、模型训练方法及装置
CN116860312B (zh) * 2023-09-05 2023-11-07 成都智慧锦城大数据有限公司 一种程序异常文本信息维护方法、装置及存储介质
CN117373455B (zh) * 2023-12-04 2024-03-08 翌东寰球(深圳)数字科技有限公司 一种音视频的生成方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008140364A (ja) * 2006-07-24 2008-06-19 Advanced Telecommunication Research Institute International リップシンクアニメーション作成装置、コンピュータプログラム及び顔モデル生成装置
JP2019032529A (ja) * 2017-08-07 2019-02-28 国立研究開発法人情報通信研究機構 音声合成のためのフロントエンドの学習方法、コンピュータプログラム、音声合成システム、及び音声合成のためのフロントエンド処理方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6661418B1 (en) * 2001-01-22 2003-12-09 Digital Animations Limited Character animation system
CN100476877C (zh) * 2006-11-10 2009-04-08 中国科学院计算技术研究所 语音和文本联合驱动的卡通人脸动画生成方法
CN104835190A (zh) * 2015-04-29 2015-08-12 华东师范大学 一种3d即时通讯系统及其通讯方法
US10586368B2 (en) * 2017-10-26 2020-03-10 Snap Inc. Joint audio-video facial animation system
CN109903758B (zh) * 2017-12-08 2023-06-23 阿里巴巴集团控股有限公司 音频处理方法、装置及终端设备
CN109377540B (zh) * 2018-09-30 2023-12-19 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN109410918B (zh) * 2018-10-15 2020-01-24 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
US20200342056A1 (en) * 2019-04-26 2020-10-29 Tencent America LLC Method and apparatus for natural language processing of medical text in chinese
CN110751708B (zh) * 2019-10-21 2021-03-19 北京中科深智科技有限公司 一种实时的语音驱动人脸动画的方法和系统
CN110956948A (zh) * 2020-01-03 2020-04-03 北京海天瑞声科技股份有限公司 端到端的语音合成方法、装置及存储介质
CN110797006B (zh) * 2020-01-06 2020-05-19 北京海天瑞声科技股份有限公司 端到端的语音合成方法、装置及存储介质
CN111988658B (zh) * 2020-08-28 2022-12-06 网易(杭州)网络有限公司 视频生成方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008140364A (ja) * 2006-07-24 2008-06-19 Advanced Telecommunication Research Institute International リップシンクアニメーション作成装置、コンピュータプログラム及び顔モデル生成装置
JP2019032529A (ja) * 2017-08-07 2019-02-28 国立研究開発法人情報通信研究機構 音声合成のためのフロントエンドの学習方法、コンピュータプログラム、音声合成システム、及び音声合成のためのフロントエンド処理方法

Also Published As

Publication number Publication date
US20220180584A1 (en) 2022-06-09
JP7232293B2 (ja) 2023-03-02
CN112541957A (zh) 2021-03-23
CN112541957B (zh) 2024-05-21
US11948236B2 (en) 2024-04-02

Similar Documents

Publication Publication Date Title
JP2021182438A (ja) 動画生成方法、装置、電子機器およびコンピュータ可読媒体
JP5257330B2 (ja) 発言記録装置、発言記録方法、プログラム及び記録媒体
US7412389B2 (en) Document animation system
Gibet et al. Interactive editing in french sign language dedicated to virtual signers: Requirements and challenges
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN111190522A (zh) 从自然语言请求生成三维数字内容
US10217454B2 (en) Voice synthesizer, voice synthesis method, and computer program product
JP2023012493A (ja) 言語モデルの事前トレーニング方法、装置、デバイスおよび記憶媒体
JP7395553B2 (ja) 文章翻訳方法、装置、電子機器及び記憶媒体
US11176332B2 (en) Linking contextual information to text in time dependent media
CN109408834A (zh) 辅助机器翻译方法、装置、设备及存储介质
US11929100B2 (en) Video generation method, apparatus, electronic device, storage medium and program product
KR102202372B1 (ko) 영상 컨텐츠를 재사용하여 사용자 인터랙션을 인지할 수 있는 인터랙티브 미디어 제작 시스템 및 그 운용방법
WO2024114389A1 (zh) 用于交互的方法、装置、设备和存储介质
Gao et al. Gesgpt: Speech gesture synthesis with text parsing from gpt
JP2015091077A (ja) 情報表示装置、方法及びプログラム
Yipu The function development of network teaching system to English pronunciation and tone in the background of internet of things
CN114911973A (zh) 动作生成方法、装置、电子设备及存储介质
KR102281298B1 (ko) 인공지능 기반 동영상 합성을 위한 시스템 및 방법
Joy et al. A prototype Malayalam to sign language automatic translator
TW202236257A (zh) 顯示系統以及與顯示系統互動之方法
JP2020166501A (ja) 分割モデル生成システム、テキスト分割装置および分割モデル生成方法
Raut et al. An extensive survey on audio-to-text and text summarization for video content
KR102500730B1 (ko) 문장의 스타일 정보를 유지하는 번역 기능을 제공하는 전자 장치 및 그 동작 방법
KR102667466B1 (ko) 이미지 연상 기법을 이용한 영어 독해 강의 콘텐츠 제공 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210812

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230217

R150 Certificate of patent or registration of utility model

Ref document number: 7232293

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150