JP2021182438A

JP2021182438A - 動画生成方法、装置、電子機器およびコンピュータ可読媒体

Info

Publication number: JP2021182438A
Application number: JP2021131563A
Authority: JP
Inventors: 楊少雄; Shaoxiong Yang; 趙洋; Yang Zhao; 趙晨; Chen Zhao
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-09
Filing date: 2021-08-12
Publication date: 2021-11-25
Anticipated expiration: 2041-08-12
Also published as: US20220180584A1; JP7232293B2; CN112541957A; CN112541957B; US11948236B2

Abstract

【課題】本願は、鮮明で、リアルで、効果が優れた顔表情動画を生成できる動画生成方法と装置を開示し、コンピュータビジョン、音声、拡張現実、深層学習などの人工知能技術分野に関する。【解決手段】本願に係る方法は、処理対象素材を処理し、正規化テキストを生成することと、正規化テキストを解析し、正規化テキストの中国語ピンインシーケンスを生成することと、処理対象素材に基づいて、基準音声を生成することと、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得することとを含む。【選択図】図１

Description

本願は、コンピュータ技術分野に関し、具体的には、コンピュータビジョン、音声、拡張現実、深層学習などの人工知能技術分野に関し、特に動画生成方法、装置、電子機器、コンピュータ可読媒体およびコンピュータプログラムに関する。

コンピュータ技術と動画技術の急速な発展に伴い、人々は人間とコンピュータとのインタラクションにおける口形（口付き）に対する要求が益々高まり、如何に入力された文字または音声に基づいて音声ストリームに合致する仮想人物の顔表情動画を生成できることは、中国語の口形の動画の研究に対する急務となる。

中国語の口形の動画生成方法は、深層学習に基づいて、音声から顔表情係数のマッピング関係を直接学習するのが一般的であり、訓練データにおける発話者の発話スタイル及び顔のタイプの影響を受け、音声−顔表情係数のマッピング関係の学習は難しい。世の中で音声データ（コンテンツ、音色、トーン、振幅など）の量が極めて大きいため、すべての文（センテンス）および音声変数を学習させることは無理である。例えば、１つの文に対応する音声は訓練セットにないか、または同じ文の音声と訓練セットの音声との差異が大きいと、モデルは音声入力符合する顔表情動画を正確に出力することを確保することは難しい。

本願は、動画生成方法、装置、電子機器、コンピュータ可読媒体、およびコンピュータプログラム製品を提供する。

第１態様によれば、処理対象素材を処理して正規化テキストを生成することと、正規化テキストを解析し、正規化テキストの中国語ピンインシーケンスを生成することと、処理対象素材に基づいて基準音声を生成することと、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得することと、を含む動画生成方法を提供する。

第２態様によれば、処理対象素材を処理して正規化テキストを生成するように構成される処理ユニットと、正規化テキストを解析して、正規化テキストの中国語ピンインシーケンスを生成するように構成される解析ユニットと、処理対象素材に基づいて基準音声を生成するように構成される生成ユニットと、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得するように構成される取得ユニットと、を備える動画生成装置を提供する。

第３態様によれば、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも１つのプロセッサによって実行可能な指令が格納され、指令が少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに第１態様のいずれかの実施形態に記載の方法が実行される、電子機器を提供する。

第４態様によれば、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令は第１態様のいずれかの実施形態に記載の方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。

第５態様において、本願の実施例は、プロセッサによって実行されると第１態様のいずれかの実施形態に記載の方法が実現されるコンピュータ指令を含む、コンピュータプログラムを提供する。

本願の実施例により提供される動画生成方法および装置は、まず、処理対象素材を処理して正規化テキストを生成し、次に、正規化テキストを解析して正規化テキストの中国語ピンインシーケンスを生成し、次に、処理対象素材に基づいて基準音声を生成し、最後に、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得する。これにより、処理対象素材をそれぞれ中国語ピンインシーケンスおよび基準音声に変換し、中国語ピンインシーケンスおよび基準音声の時系列に基づいて、基準音声の時系列に対応する顔表情動画を取得することで、膨大な量の音声と顔表情をアノテートする必要がなく、開発コストが節約され、中国語ピンインシーケンスに基づいて生成された顔表情動画はすべての音声の語句をサポートできるだけでなく、顔動画表情生成の信頼性も向上させることができる。

なお、発明の概要に記載された内容は、本願の実施形態のかなめとなる特徴又は重要な特徴を限定することを意図するものではなく、本願の範囲を限定するものでもない。本願の他の特徴は、以下の説明によって容易に理解される。

図面は本願をよりよく理解するために用いられるものであり、本願に対する限定を構成するものではない。
本願に係る動画生成方法の一実施例を示すフローチャートである。本願に係る基準音声の時系列に対応する顔表情動画を取得する方法のフローチャートである。本願に係る基準音声の時系列に対応する表情係数シーケンスを取得する方法のフローチャートである。本願に係る顔表情動画を取得する方法のフローチャートである。本願に係る動画生成装置の実施例を示す構造概略図である。本願の実施例に係る動画生成方法を実現するための電子機器のブロック図である。

以下、図面を参照して本願の例示的な実施例を説明し、ここでは理解を助けるため、本願の実施例における詳細な記載は単なる例示に過ぎない。従って、本願の範囲および要旨を逸脱しない限り、当業者は本明細書の実施例に対して様々な変更及び修正を行うことができることが理解されるべきである。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。

図１は、本願に係る動画生成方法の一実施例に基づくフロー１００を示す。前記動画生成方法は、次のステップ（ステップ１０１〜１０４）を含む。

ステップ１０１：処理対象素材を処理して正規化テキストを生成する。

本実施例において、動画生成方法が実行される実行主体は、処理対象素材をクライアントから直接取得するか、またはメモリから読み出し、クライアントから取得された処理対象素材（画像、文字又は音声など）に対して、本願の動画生成方法を採用することにより、処理対象素材に対応する仮想顔の人物が発話するイメージの動画映像を生成することができ、リアルタイムで生成する効果を有する。

本実施例において、処理対象素材とは、顔表情動画を生成する必要がある素材をいい、処理対象素材には、処理対象画像、処理対象テキスト、処理対象音声などが含まれる。正規化テキストは中国語テキストであり、中国語テキストには漢字のみが含まれており、異なる種類の処理対象素材に対して、正規化テキストを生成する方法が異なる。

処理対象素材に処理対象テキストが含まれる場合、まず処理対象テキストに対してＴＮ（Ｔｅｘｔｎｏｒｍａｌｉｚａｔｉｏｎ，テキスト正規化）処理を行い、処理対象テキスト中の空行と異常文字を除去し、処理対象テキストにおける数字、日付、時間、金銭などの記号を漢字に翻訳し、正規化テキストを得る必要がある。例えば、３種類の処理対象テキストは、それぞれ１０８路線バス、１２．０３、１０：２３：１０である場合、それぞれ正規化処理を経た後、一百零八路線バス、十二点零三元、十時二十三分十秒という正規化テキストを得る。

本実施例のいくつかのオプション的な実現形態において、処理対象素材は処理対象音声を含む。処理対象素材を処理して正規化テキストを生成することは、処理対象音声に対して音声認識処理を行い、中国語テキストを生成することと、中国語テキストに対してテキスト正規化処理を行い、正規化テキストを生成することとを含む。

このオプション的な実現形態では、処理対象素材が処理対象音声を含む場合、まず、処理対象音声に対して音声認識を行い、中国語テキストを生成し、次に、中国語テキストに対してテキスト正規化処理を行い、正規化テキストを取得することにより、処理対象素材の処理の多様性が実現される。

ステップ１０２：正規化テキストを解析して、正規化テキストの中国語ピンインシーケンスを生成する。

本実施例において、いくつかの中国語ピンイン翻訳ソフトウェアを採用して正規化テキストにおける各漢字文字を中国語ピンインに翻訳し、翻訳して得られた中国語ピンインを組み合わせて、正規化テキストの中国語ピンインシーケンスを得ることができる。

ステップ１０３：処理対象素材に基づいて基準音声を生成する。

本実施例において、異なる種類の処理対象素材に対して、処理対象素材を正規化テキストに変換し、音声合成により正規化テキストを基準音声に変換することができる。オプション的に、ＴＴＳ（Ｔｅｘｔｔｏｓｐｅｅｃｈ，テキストから音声）ソフトウェアによって正規化テキストを対応する基準音声に生成することができる。

オプション的に、処理対象素材が処理対象音声を含む場合、処理対象音声を直接基準音声とすることができ、又は処理対象音声に対して録音、クリップ、変換などの音声処理を行った後、基準音声を取得するようにすることもできる。

さらに、処理対象素材が処理対象テキストを含み、処理対象テキストを入力して基準音声を生成した後、クライアントによりさらに処理対象音声が入力された場合、処理対象テキストによる基準音声を入力された処理対象音声に置き換える必要がある。

ステップ１０４：中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得する。

本実施例において、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得する方法は主に、予めアノテートされた辞書により、中国語ピンインシーケンスに対応する顔画像要素シーケンスを検索することと、基準音声における中国語ピンインシーケンスにおける各ピンインに対応するタイムスタンプを抽出することと、タイムスタンプに基づいて、中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する顔画像要素シーケンスをスプライシングし、基準音声の時系列に対応する顔画像要素シーケンスを取得することと、顔画像要素シーケンスに基づいて、顔表情動画を取得することとを含む。

なお、顔画像要素シーケンスのフレームレートがタイムスタンプの時間標準と同じである場合には、直接タイムスタンプに基づいて顔画像要素シーケンスをスプライシングすることができ、顔画像要素シーケンスのフレームレートがタイムスタンプの時間標準と異なる場合には、顔画像要素シーケンスに対して伸張、補間、時系列平滑化等の処理を行った後、タイムスタンプに基づいて顔画像要素シーケンスをスプライシングすることができる。

本実施例において、基準音声の時系列に対応する顔画像要素シーケンスは、複数の中国語ピンインに対応する顔画像要素シーケンスを含む。顔要素シーケンスは複数の顔要素からなり、顔要素は顔の表情を表すための基本要素であり、例えば、顔要素には、顔表情係数、三次元顔グリッド、二次元顔キーポイントまたは顔特徴点などが含まれる。

さらに、顔画像要素シーケンスに基づいて、顔表情動画を取得する過程は、顔画像要素の内容によって異なり、例えば、顔要素が二次元顔キーポイントである場合、予めアノテートされた２Ｄから３Ｄのフェースライブラリから、各二次元顔キーポイントに対応する三次元顔モデルを検索して、三次元顔モデルシーケンスを得、三次元顔モデルシーケンスをレンダリングして、映像フレーム画像シーケンスを得、映像フレーム画像シーケンスを合成して、顔表情動画を取得する。

本実施例のいくつかのオプション的な実現形態において、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得することは、
中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する三次元顔グリッドシーケンスを取得することと、基準音声の時系列に対応する三次元顔グリッドシーケンスに基づいて、顔表情動画を取得することとを含む。

このオプション的な実現形態において、中国語ピンインシーケンスにおける各中国語ピンインはいずれも予め訓練して得られたモデルから出力されることができ、又は予めアノテートされた辞書から中国語ピンインシーケンスに対応する三次元顔グリッドシーケンスを検索し、基準音声の時系列に基づいて、中国語ピンインシーケンスに対応する三次元顔グリッドシーケンスを処理し、基準音声の時系列に対応する三次元顔グリッドシーケンスを取得することができ、さらに、基準音声の時系列に対応する三次元顔グリッドシーケンスに対して３Ｄ（三次元）から２Ｄ（二次元）の画像処理を行うことにより、複数の映像フレーム画像を取得することができ、映像フレーム画像を合成すれば、顔表情動画を取得することができる。

このオプション的な実現形態において、中国語ピンインシーケンスおよび基準音声により、基準音声の時系列に対応する三次元顔グリッドシーケンスを得、基準音声の時系列に対応する三次元顔グリッドシーケンスから、顔表情動画を取得することにより、顔表情動画の生成にオプションとしての実施形態を提供し、動画生成の信頼性とスムーズ性が確保される。

本実施例のいくつかのオプション的な実現形態において、上記中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する三次元顔グリッドシーケンスを取得することは、基準音声と中国語ピンインシーケンスにおける各中国語ピンインに対して時系列アライメントを行い、各中国語ピンインのタイムスタンプを取得することと、アノテーションが完了した、中国語ピンインと三次元顔グリッドシーケンスとの対応関係を表すためのピンイングリッド辞書を検索し、各中国語ピンインに対応する三次元顔グリッドシーケンスを取得することと、タイムスタンプに基づいて、中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する三次元顔グリッドシーケンスをスプライシングして、基準音声の時系列に対応する三次元顔グリッドシーケンスを取得することとを含む。

このオプション的な実現形態において、タイムスタンプは、音声における各中国語ピンインの開始と終了時間を含み、事前にトレーニングされたピンイン・音声アライメントモデルにより、各中国語ピンインと基準音声における各漢字発音をアライメントして、各中国語ピンインのタイムスタンプを取得することができる。

このオプション的な実現形態において、ピンイングリッド辞書は、声優が中国語ピンインを読む時、３Ｄスキャナによって声優の顔を走査し、各中国語ピンインと一対一に対応する三次元顔グリッドシーケンスを有するピンイングリッド辞書を取得することによりアノテートされて取得することができる。
このオプション的な実現形態において、中国語ピンインシーケンスを取得した後、キーワードを用いてピンイングリッド辞書を検索して、中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する三次元顔グリッドシーケンスを取得する。

このオプション的な実現形態において、基準音声によって採集されたタイムスタンプで中国語ピンインシーケンスに対応する三次元顔グリッドシーケンスに対して時系列スプライシングを行うことにより、三次元顔グリッドシーケンスのスプライシングの信頼性が向上され、顔表情動画の生成に信頼できる堅牢な基盤が提供される。

本実施例のいくつかのオプション的な実現形態において、上記の、基準音声の時系列に対応する三次元顔グリッドシーケンスに基づいて、顔表情動画を取得することは、基準音声の時系列に対応する三次元顔グリッドシーケンスをレンダリングして、映像フレーム画像シーケンスを取得することと、映像フレーム画像シーケンスを合成して、顔表情動画を取得することとを含む。

このオプション的な実現形態において、基準音声の時系列に対応する三次元顔グリッドシーケンスへのレンダリングおよび映像フレーム画像の合成により、顔表情動画を取得することは、操作が簡単で、生成された顔表情動画の信頼性が向上される。

本願の実施例により提供される動画生成方法は、まず、処理対象素材を処理して、正規化テキストを生成し、次に、正規化テキストを解析して、正規化テキストの中国語ピンインシーケンスを生成し、次に、処理対象素材に基づいて基準音声を生成し、最後に、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得する。これにより、処理対象素材をそれぞれ中国語ピンインシーケンスおよび基準音声に変換し、基準音声の時系列および中国語ピンインシーケンスに基づいて、基準音声の時系列に対応する顔表情動画を取得することで、膨大な量の音声と顔表情をアノテートする必要がなく、開発コストが節約され、中国語ピンインシーケンスに基づいて生成された顔表情動画はすべての音声の語句をサポートできるだけでなく、生成された顔動画表情の信頼性も向上される。

本実施例のいくつかのオプション的な実現形態において、図２に示すように、基準音声の時系列に対応する顔表情動画を取得する方法は以下のステップ（ステップ２０１〜２０２）を含む。

ステップ２０１：中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する表情係数シーケンスを取得する。

本実施例において、表情係数シーケンスは、複数の表情係数で構成されるシーケンスであり、さらに、本実施例において、表情係数は、表情ベース画像が表す特徴部位に対応する変形パラメータ値であり、通常、行列で標識され、一つの表情係数の行列に５１個のパラメータがあり、該５１個のパラメータは５１個の表情ベースと一対一に対応しており、表情係数と表情ベースを加重合計することにより、様々な顔口形と顔表情を表すことができる。

一つの中国語ピンインは一つの表情係数シーケンスに対応することができ、表情係数シーケンスごとに複数の映像フレームに対応し、且つ該複数の映像フレームは該中国語ピンインの発音に関する映像フレームである。基準音声の時系列に対応する表情係数シーケンスは、中国語ピンインに対応する１つまたは複数の表情係数シーケンスから構成され得る。

このオプション的な実現形態において、基準音声の時系列に対応する表情係数シーケンスは表情係数ファイルでもあり、該ファイルにおける一行のデータは一の映像フレームに対応し、映像フレームのフレームレートは予めキャリブレート（ｃａｌｉｂｒａｔｅ）して取得することができ、例えばフレームレートは３０ｆｐｓである。

ステップ２０２：基準音声の時系列に対応する表情係数シーケンスに基づいて、顔表情動画を取得する。

このオプション的な実現形態において、表情係数と表情ベースを加重合計して、顔口形と顔表情を確定することができ、表情ベースは既知量であるため、表情係数シーケンスが確定された後、処理対象素材に対応する顔表情動画も対応して確定される。

このオプション的な実現形態において、基準音声の時系列に対応する表情係数シーケンスを取得して、該表情係数シーケンスから顔表情動画を取得することにより、顔表情動画を取得するためにオプション的な形態を提供し、得られた顔表情動画の信頼性が向上される。

本実施例のいくつかのオプション的な実現形態において、図３に示すように、基準音声の時系列に対応する表情係数シーケンスを取得する方法は次のステップ（ステップ３０１〜３０３）を含む。

ステップ３０１：基準音声と中国語ピンインシーケンスにおける各中国語ピンインに対して時系列アライメントを行い、各中国語ピンインのタイムスタンプを取得する。

ステップ３０２：アノテーションが完了したピンイン表情係数辞書を検索し、各中国語ピンインに対応する表情係数シーケンスを取得する。

ここで、ピンイン表情係数辞書は、中国語ピンインと表情係数シーケンスとの対応関係を表すためのものである。

ピンイン表情係数辞書は、複数の方式でキャリブレートして取得することができ、オプションとして、声優が全ての中国語ピンイン（例えば声調（四声）を除いた４０９個の中国語ピンイン）を読む時の三次元顔グリッドシーケンスを記録し、各中国語ピンインの一対一に対応する三次元顔グリッドシーケンスを確定し、三次元顔表情認識原理に基づいて、三次元顔グリッドシーケンスにより、各中国語ピンインの一対一に対応する表情係数シーケンスを算出して、各中国語ピンインと一対一に対応する表情係数シーケンスを有するピンイン表情係数辞書を取得する。

本実施例のいくつかのオプション的な実現形態において、ピンイン表情係数辞書は、声優が中国語ピンインを読む時の映像を録画し、各中国語ピンインと一対一に対応するピンイン映像を取得することと、各ピンイン映像における各映像フレームに対して顔キーポイント検出を行うことと、検出された顔キーポイントに基づいて表情係数を算出し、各中国語ピンインと一対一に対応する表情係数シーケンスを有するピンイン表情係数辞書を取得することと、によりアノテートされて取得する。

このオプション的な実現形態において、顔キーポイントが例えば１５０個あり、三次元顔モデルの密集した３Ｄポイントのうちの１５０個の３Ｄポイントと対応関係を有し、該対応関係に基づいてバインディング（対応付け）を完了する。

表情ベース（ｂｌｅｎｄｓｈａｐｅ，変形形状）は、合計で５１個のパラメータ（ｂｓ１，ｂｓ２，ｂｓ３．．．ｂｓ５１）を有し、各表情ベースに対応してそれぞれ１つの表情係数（ｐ１、ｐ２、ｐ３…ｐ５１）を有し、ｂｓ１＊ｐ１＋ｂｓ２＊ｐ２＋ｂｓ３＊ｐ３＋…＋ｂｓ５１＊ｐ５１により三次元顔モデルを得る。三次元顔モデルにバインディングされた１５０個の点に対して二次元投影を行い、得られた１５０個の投影された２Ｄポイントと、顔検出された１５０個のキーポイントとを比較して損失を計算し、両者の間の損失を最小化にするように、最小二乗反復により解を求め（求められた解は表情係数のパラメータであり、該パラメータが５１個ある）、最後に５１個のパラメータを有する表情係数を得る。

この実現形態において、録画されたピンイン映像に対して、各ピンイン映像における各映像フレームに対して顔キーポイント検出を行い、声調を除去した中国語ピンインは合計で４０９個（異なる声調を有するピンインは１つの中国語ピンインである）であり、したがってピンイン表情係数辞書を取得するのに少量のピンインをアノテートするだけでよく、データをアノテートする大量の時間と費用が節約でき、動画生成の効率が向上される。

ステップ３０３：タイムスタンプに基づいて、中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する表情係数シーケンスをスプライシングして、基準音声の時系列に対応する表情係数シーケンスを取得する。

このオプション的な実現形態において、すべての中国語ピンインに対応する表情係数シーケンスをスプライシングする過程において、生成された顔表情動画における隣接する文字の口形および表情の変換が十分に自然に接続されるように、各中国語ピンインに対応する顔表情係数シーケンスに対して時系列延伸、縦方向重畳、および時系列平滑化などの処理を行うことができる。

このオプション的な実現形態により提供される基準音声の時系列に対応する表情係数シーケンスを取得し、基準音声によって中国語ピンインのタイムスタンプを取得し、中国語ピンインシーケンスにおける各中国語ピンインに対応する表情シーケンスを検索し、タイムスタンプに基づいて、中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する表情係数シーケンスをスプライシングし、基準音声の時系列に対応する表情係数シーケンスを取得することにより、顔表情係数の時系列の接続のスムーズ性及び切り替えの自然感が確保される。

本実施例のいくつかのオプション的な実現形態において、図４に示すように、顔表情動画を取得する方法は、次のステップ（ステップ４０１〜４０３）を含む。

ステップ４０１：表情係数シーケンスと表情ベースを加重合計し、三次元顔モデルシーケンスを取得する。

このオプション的な実現形態において、表情ベースが合計で５１個のパラメータ（ｂｓ１、ｂｓ２、ｂｓ３…ｂｓ５１）を有し、各表情ベースに対応してそれぞれ１つの表情係数（ｐ１、ｐ２、ｐ３…ｐ５１）があり、ｂｓ１＊ｐ１＋ｂｓ２＊ｐ２＋ｂｓ３＊ｐ３＋…＋ｂｓ５１＊ｐ５１により三次元顔モデルを取得することができる。

ステップ４０２：三次元顔モデルシーケンスをレンダリングして、映像フレーム画像シーケンスを取得する。

このオプション的な実現形態において、レンダリングツールによって三次元顔モデルシーケンスを、仮想キャラクターイメージを有する画像シーケンスにレンダリングすることができる。

ステップ４０３：映像フレーム画像シーケンスを合成して顔表情動画を取得する。

このオプション的な実現形態により提供される顔表情動画を取得する方法は、得られた基準音声の時系列に対応する表情係数シーケンスと表情ベースとを加重合計して、三次元顔モデルシーケンスを得、三次元顔モデルシーケンスをレンダリングして、映像フレーム画像シーケンスを得、映像フレーム画像シーケンスを合成して、顔表情動画を取得することにより、動画生成の安定性が確保される。

更に図５を参照すると、上記の図に示された方法の実施態様として、本願は、動画生成装置の一実施例を提供し、該装置の実施例は、図１に示された方法の実施例に対応しており、該装置は、具体的に様々な電子機器に適用することができる。

図５に示すように、本実施例により提供される動画生成装置５００は、処理ユニット５０１と、解析ユニット５０２と、生成ユニット５０３と、取得ユニット５０４とを備える。ここで、上記処理ユニット５０１は、処理対象素材を処理して正規化テキストを生成するように構成されてもよい。上記解析ユニット５０２は、正規化テキストを解析して正規化テキストの中国語ピンインシーケンスを生成するように構成されてもよい。上記生成ユニット５０３は、処理対象素材に基づいて基準音声を生成するように構成されてもよい。上記取得ユニット５０４は、中国語ピンインシーケンス、基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得するように構成されてもよい。

本実施例において、動画生成装置５００において、処理ユニット５０１と、解析ユニット５０２と、生成ユニット５０３と、取得ユニット５０４の具体的な処理およびそれらの技術効果は、それぞれ図１の対応する実施例におけるステップ１０１、ステップ１０２、ステップ１０３、およびステップ１０４の関連する説明を参照することができ、ここでは説明を省略する。

本実施例のいくつかのオプション的な実現態様において、上記取得ユニット５０４は、係数取得サブユニット（図示せず）、表情取得サブユニット（図示せず）を含む。ここで、上記係数取得サブユニットは、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する表情係数シーケンスを取得するように構成されてもよい。上記表情取得サブユニットは、基準音声の時系列に対応する表情係数シーケンスに基づいて、顔表情動画を取得するように構成されてもよい。

本実施例のいくつかのオプション的な実現態様において、上記係数取得サブユニットは、時系列アライメントモジュール（図示せず）、係数検索モジュール（図示せず）、係数スプライシングモジュール（図示せず）を含む。ここで、上記時系列アライメントモジュールは、基準音声と中国語ピンインシーケンスにおける各中国語ピンインを時系列アライメントし、各中国語ピンインのタイムスタンプを取得するように構成されてもよい。上記係数検索モジュールは、アノテーションが完了した、中国語ピンインと表情係数シーケンスとの対応関係を表すためのピンイン表情係数辞書を検索し、各中国語ピンインに対応する表情係数シーケンスを取得するように構成されてもよい。上記係数スプライシングモジュールは、タイムスタンプに基づいて、中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する表情係数シーケンスをスプライシングし、基準音声の時系列に対応する表情係数シーケンスを取得するように構成されてもよい。

本実施例のいくつかのオプション的な実現形態において、上記ピンイン表情係数辞書は、録画モジュール（図示せず）、検出モジュール（図示せず）、計算モジュール（図示せず）によってアノテートして得られる。ここで、上記録画モジュールは、声優が中国語ピンインを読む際の映像を録画し、各中国語ピンインと一対一に対応するピンイン映像を取得するように構成され得る。上記検出モジュールは、各ピンイン映像における各映像フレームに対して顔キーポイント検出を行うように構成されてもよい。上記計算モジュールは、検出された顔キーポイントに基づいて表情係数を算出し、各中国語ピンインと一対一に対応する表情係数シーケンスを有するピンイン表情係数辞書を取得するように構成されてもよい。

本実施例のいくつかのオプション的な実現形態において、上記表情取得サブユニットは、係数重み付けモジュール（図示せず）、係数レンダリングモジュール（図示せず）、係数合成モジュール（図示せず）を含む。ここで、上記係数重み付けモジュールは、表情係数シーケンスと表情ベースを加重合計して、三次元顔モデルシーケンスを取得するように構成されてもよい。上記係数レンダリングモジュールは、三次元顔モデルシーケンスをレンダリングして、映像フレーム画像シーケンスを取得するように構成されてもよい。上記係数合成モジュールは、映像フレーム画像シーケンスを合成して、顔表情動画を取得するように構成されてもよい。

本実施例のいくつかのオプション的な実現形態において、処理対象素材は処理対象音声を含み、処理ユニット５０１は識別サブユニット（図示せず）と、処理サブユニット（図示せず）とを含む。ここで、識別サブユニットは、処理対象音声を音声認識処理して中国語テキストを生成するように構成されてもよい。処理サブユニットは、中国語テキストに対してテキストの正規化処理を行い、正規化テキストを生成するように構成されてもよい。

本実施例のいくつかのオプション的な実現形態において、取得ユニット５０４は、グリッド取得サブユニット（図示せず）と、映像取得サブユニット（図示せず）とを含む。ここで、上記グリッド取得サブユニットは、中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する三次元顔グリッドシーケンスを取得するように構成されてもよい。上記映像取得サブユニットは、基準音声の時系列に対応する三次元顔グリッドシーケンスに基づいて顔表情動画を取得するように構成されてもよい。

本実施例のいくつかのオプション的な実現形態において、グリッド取得サブユニットは、時間アライメントモジュール（図示せず）と、グリッド検索モジュール（図示せず）と、グリッド取得モジュール（図示せず）とを含む。ここで、上記タイムアライメントモジュールは、基準音声と中国語ピンインシーケンスにおける各中国語ピンインとを時系列アライメントして各中国語ピンインのタイムスタンプを取得するように構成されてもよい。上記グリッド検索モジュールは、アノテーションが完了した、中国語ピンインと三次元顔グリッドシーケンスとの対応関係を表すためのピンイングリッド辞書を検索し、各中国語ピンインに対応する三次元顔グリッドシーケンスを取得するように構成されてもよい。上記グリッド取得モジュールは、タイムスタンプに基づいて、中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する三次元顔グリッドシーケンスをスプライシングし、基準音声の時系列に対応する三次元顔グリッドシーケンスを取得するように構成されてもよい。

本実施例のいくつかのオプション的な実現形態において、映像取得サブユニットは、グリッドレンダリングモジュール（図示せず）と、グリッド合成モジュール（図示せず）とを含む。ここで、上記グリッドレンダリングモジュールは、基準音声の時系列に対応する三次元顔グリッドシーケンスをレンダリングし、映像フレーム画像シーケンスを取得するように構成される。上記グリッド合成モジュールは、映像フレーム画像シーケンスを合成して、顔表情動画を取得するように構成される。

本願の実施例により提供される動画生成装置は、まず処理ユニット５０１は処理対象素材を処理して、正規化テキストを生成する。次に、解析ユニット５０２は正規化テキストを解析して正規化テキストの中国語ピンインシーケンスを生成する。次に、生成ユニット５０３は処理対象素材に基づいて基準音声を生成する。最後に、取得ユニット５０４は中国語ピンインシーケンスおよび基準音声に基づいて、基準音声の時系列に対応する顔表情動画を取得する。これにより、処理対象素材をそれぞれ中国語ピンインシーケンスおよび基準音声に変換し、基準音声の時系列および中国語ピンインシーケンスに基づいて、基準音声の時系列に対応する顔表情動画を取得することで、音声と顔表情を膨大な量のアノテートをする必要がなく、開発コストが節約され、中国語ピンインシーケンスに基づいて生成された顔表情動画はすべての音声語句をサポートできるだけでなく、生成された顔動画表情の信頼性も向上される。

本願の実施例によれば、本願はさらに電子機器および可読記憶媒体を提供する。

図６に示すように、本願の実施例に係る動画生成方法を実行する電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、大型コンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも一例であり、ここで説明および／または要求した本願の実現を限定することを意図するものではない。

図６に示すように、該電子機器は、１つ又は複数のプロセッサ６０１、メモリ６０２、および各コンポーネントを接続するためのインタフェース（高速インタフェースおよび低速インタフェースを含む）を含む。各コンポーネントは、互いに異なるバスで接続されており、共通のマザーボード上に実装されていてもよいし、必要に応じて他の方式で実装されていてもよい。プロセッサは、電子機器内で実行される指令を処理することができ、前記指令は、インターフェイスに結合された表示装置等の外部入出力装置にグラフィカルユーザインタフェイス（ＧＵＩ，ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）のグラフィック情報を表示するために、メモリ内またはメモリ上に格納される指令を含む。他の実施形態では、必要に応じて、複数のプロセッサおよび／または複数のバスおよび複数のメモリを、複数のメモリとともに使用することができる。また、複数の電子機器が接続されていてもよく、各機器は、例えば、サーバアレイ、ブレードサーバ群またはマルチプロセッサシステムなど、一部の必要な動作を提供する。図６では、１つのプロセッサ６０１を例としている。

メモリ６０２は、本願が提供する非一時的コンピュータ可読記憶媒体である。ここで、メモリには、少なくとも１つのプロセッサにより実行され得る指令が格納され、それにより少なくとも１つのプロセッサに本願により提供される動画生成方法を実行させる。本願の非一時的コンピュータ可読記憶媒体はコンピュータ指令を格納し、該コンピュータ指令はコンピュータに本願に係る動画生成方法を実行させるために用いられる。

メモリ６０２は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム並びに、例えば本願の実施例における動画生成方法に対応するプログラム指令／モジュール（例えば、図５に示す処理ユニット５０１、解析ユニット５０２、生成ユニット５０３、および取得ユニット５０４）などのモジュールを格納することに用いることができる。プロセッサ６０１は、メモリ６０２に格納された非一時的ソフトウェアプログラム、指令およびモジュールを実行することにより、サーバの各種機能アプリケーションおよびデータ処理を実行し、すなわち上記方法の実施例における動画生成方法を実現する。

メモリ６０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを格納可能なプログラム記憶領域と、動画生成方法に係る電子機器の使用に応じて作成されたデータ等を格納可能なデータ記憶領域とを含んでもよい。また、メモリ６０２は高速ランダムアクセスメモリを含むことができ、また非一時的メモリ（例えば、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリデバイス又はその他の非一時的ソリッドステート記憶装置）を含むことができる。いくつかの実施例において、メモリ６０２は任意選択でプロセッサ６０１と遠隔に設置されたメモリを含み、これらのリモートメモリはネットワークを介して動画生成方法を実行する電子機器に接続され得る。上記ネットワークとしては、例えば、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびこれらの組み合わせなどが挙げられるが、それらに限定されない。

動画生成方法を実行する電子機器は、さらに入力装置６０３および出力装置６０４を含むことができる。プロセッサ６０１、メモリ６０２、入力装置６０３および出力装置６０４は、バス６０５又はその他の方式で接続されていてもよく、図６ではバス６０５で接続されている例を示している。

例えばタッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングデバイス、１つまたは複数のマウスボタン、トラックボール、ジョイスティック等の入力装置６０３は、入力された数字や文字情報を受信でき、動画生成方法を実行する電子機器のユーザ設定および機能制御に関するキー信号の入力を生成することができる。出力装置６０４は表示装置、補助照明装置（例えば、ＬＥＤ）および触覚フィードバック装置（例えば、振動モータ）等を含むことができる。該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイおよびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態において、表示装置はタッチパネルであってもよい。

ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、専用集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ，ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムに実現され、該１つ又は複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および／又は解釈することができ、該プログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置および少なくとも１つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を該記憶システム、該少なくとも１つの入力装置および該少なくとも１つの出力装置に伝送することを含み得る。

これらのコンピュータプログラムは、プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれ、プログラマブルプロセッサの機械命令を含み、且つ高度プロセスおよび／又はオブジェクト指向のプログラミング言語、および／又はアセンブリ言語／機械言語を利用して実現することができる。ここで、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械指令および／又はデータをプログラマブルプロセッサに供給するための任意のコンピュータプログラム製品、装置、および／又はデバイス（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を意味し、機械可読信号である機械指令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械指令および／またはデータをプログラマブルプロセッサに供給するための任意の信号を意味する。

ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置（例えば、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ，ＣＲＴ）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを備えるコンピュータ上で実現することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置は、さらにユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。

ここで説明したシステムおよび技術は、バックグラウンドコンポーネントを含むコンピューティングシステム（例えば、データサーバ）に実施されてもよく、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）に実施されてもよく、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェイス又はウェブブラウザを有するユーザコンピュータ）に実施されてもよく、ユーザは該グラフィカルユーザインタフェイス又はウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、又はこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各構成要素間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット、ブロックチェーンネットワーク等が挙げられる。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係は、互いにクライアント−サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ（ＶＰＳ，ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービスにおける管理難度が大きく、ビジネス拡張性が弱いという欠陥を解決する。サーバは、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。

なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本願に記載された各ステップは、本願に開示された技術案の所望の結果が達成される限り、並行して実行されてもよく、順番に実行されてもよく、異なる順序で実行されてもよい。本明細書はここで制限しない。

上記具体的な実施形態は、本願の保護範囲を限定するものではない。設計要件および他の要因に応じて、様々な修正、組み合わせ、再組み合わせ、および置換を行うことができることは当業者が理解すべきである。本願の精神および原理内で行われたあらゆる補正、均等な置換および改善などは、いずれも本願の保護範囲内に含まれるとすべきである。

Claims

処理対象素材を処理して正規化テキストを生成することと、
前記正規化テキストを解析して、前記正規化テキストの中国語ピンインシーケンスを生成することと、
前記処理対象素材に基づいて基準音声を生成することと、
前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する顔表情動画を取得することと、を含む動画生成方法。
前記の、前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する顔表情動画を取得することは、
前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する表情係数シーケンスを取得することと、
前記基準音声の時系列に対応する表情係数シーケンスに基づいて、前記顔表情動画を取得することと、
を含む請求項１に記載の方法。
前記の、前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する表情係数シーケンスを取得することは、
前記基準音声と前記中国語ピンインシーケンスにおける各中国語ピンインに対して時系列アライメントを行い、各中国語ピンインのタイムスタンプを取得することと、
アノテーションが完了した、中国語ピンインと表情係数シーケンスとの対応関係を表すためのピンイン表情係数辞書を検索し、各中国語ピンインに対応する表情係数シーケンスを取得することと、
前記タイムスタンプに基づいて、前記中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する表情係数シーケンスをスプライシングし、前記基準音声の時系列に対応する表情係数シーケンスを取得することと、
を含む請求項２に記載の方法。
前記ピンイン表情係数辞書は、
声優が中国語ピンインを読む時の映像を録画し、各中国語ピンインと一対一に対応するピンイン映像を取得することと、
各ピンイン映像における各映像フレームに対して顔キーポイントの検出を行うことと、
検出された顔キーポイントに基づいて表情係数を算出し、各中国語ピンインと一対一に対応する表情係数シーケンスを有するピンイン表情係数辞書を取得することと、によりアノテートされて取得する請求項３に記載の方法。
前記の、前記基準音声の時系列に対応する表情係数シーケンスに基づいて、前記顔表情動画を取得することは、
前記表情係数シーケンスと表情ベースを加重合計して、三次元顔モデルシーケンスを取得することと、
三次元顔モデルシーケンスをレンダリングして、映像フレーム画像シーケンスを取得することと、
前記映像フレーム画像シーケンスを合成して、顔表情動画を取得することと、を含む請求項２に記載の方法。
前記処理対象素材は処理対象音声を含み、
前記の、処理対象素材を処理して正規化テキストを生成することは、
前記処理対象音声に対して音声認識処理を行い、中国語テキストを生成することと、
前記中国語テキストに対してテキスト正規化処理を行い、正規化テキストを生成することと、
を含む請求項１に記載の方法。
前記の、前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する顔表情動画を取得することは、
前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する三次元顔グリッドシーケンスを取得することと、
前記基準音声の時系列に対応する三次元顔グリッドシーケンスに基づいて、前記顔表情動画を取得することと、
を含む請求項１に記載の方法。
前記の、前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する三次元顔グリッドシーケンスを取得することは、
前記基準音声と前記中国語ピンインシーケンスにおける各中国語ピンインに対して時系列アライメントを行い、各中国語ピンインのタイムスタンプを取得することと、
アノテーションが完了した、中国語ピンインと三次元顔グリッドシーケンスとの対応関係を表すためのピンイングリッド辞書を検索し、各中国語ピンインに対応する三次元顔グリッドシーケンスを取得することと、
前記タイムスタンプに基づいて、前記中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する三次元顔グリッドシーケンスをスプライシングし、前記基準音声の時系列に対応する三次元顔グリッドシーケンスを取得することと、
を含む請求項７に記載の方法。
前記の、前記基準音声の時系列に対応する三次元顔グリッドシーケンスに基づいて、前記顔表情動画を取得することは、
前記基準音声の時系列に対応する三次元顔グリッドシーケンスをレンダリングして、映像フレーム画像シーケンスを取得することと、
前記映像フレーム画像シーケンスを合成して、顔表情動画を取得することと、を含む請求項７に記載の方法。
処理対象素材を処理して正規化テキストを生成するように構成される処理ユニットと、
前記正規化テキストを解析して前記正規化テキストの中国語ピンインシーケンスを生成するように構成される解析ユニットと、
前記処理対象素材に基づいて基準音声を生成するように構成される生成ユニットと、
前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する顔表情動画を取得するように構成される取得ユニットと、を備える動画生成装置。
前記取得ユニットは、
前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する表情係数シーケンスを取得するように構成される係数取得サブユニットと、
前記基準音声の時系列に対応する表情係数シーケンスに基づいて、前記顔表情動画を取得するように構成される表情取得サブユニットと、
を備える請求項１０に記載の装置。
前記係数取得サブユニットは、
前記基準音声と前記中国語ピンインシーケンスにおける各中国語ピンインに対して時系列アライメントを行い、各中国語ピンインのタイムスタンプを取得するように構成される時系列アライメントモジュールと、
アノテーションが完了した、中国語ピンインと表情係数シーケンスとの対応関係を表すためのピンイン表情係数辞書を検索し、各中国語ピンインに対応する表情係数シーケンスを取得するように構成される係数検索モジュールと、
前記タイムスタンプに基づいて、前記中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する表情係数シーケンスをスプライシングし、前記基準音声の時系列に対応する表情係数シーケンスを取得するように構成される係数スプライシングモジュールと、を備える請求項１１に記載の装置。
前記ピンイン表情係数辞書は、
声優が中国語ピンインを読む時の映像を録画し、各中国語ピンインと一対一に対応するピンイン映像を取得するように構成される録画モジュールと、
各ピンイン映像における各映像フレームに対して顔キーポイントの検出を行うように構成される検出モジュールと、
検出された顔キーポイントに基づいて表情係数を計算し、各中国語ピンインと一対一に対応する表情係数シーケンスを有するピンイン表情係数辞書を取得するように構成される計算モジュールと、
によってアノテートされて取得する請求項１２に記載の装置。
前記表情取得サブユニットは、
前記表情係数シーケンスと表情ベースを加重合計して、三次元顔モデルシーケンスを取得するように構成される係数重み付けモジュールと、
三次元顔モデルシーケンスをレンダリングして、映像フレーム画像シーケンスを取得するように構成される係数レンダリングモジュールと、
前記映像フレーム画像シーケンスを合成して、顔表情動画を取得するように構成される係数合成モジュールと、
を備える請求項１２に記載の装置。
前記処理対象素材は処理対象音声を含み、
前記処理ユニットは、
前記処理対象音声に対して音声認識処理を行い、中国語テキストを生成するように構成される認識サブユニットと、
前記中国語テキストに対してテキスト正規化処理を行い、正規化テキストを生成するように構成される処理サブユニットと、
を備える請求項１０に記載の装置。
前記取得ユニットは、
前記中国語ピンインシーケンスおよび前記基準音声に基づいて、前記基準音声の時系列に対応する三次元顔グリッドシーケンスを取得するように構成されるグリッド取得サブユニットと、
前記基準音声の時系列に対応する三次元顔グリッドシーケンスに基づいて、前記顔表情動画を取得するように構成される映像取得サブユニットと、
を備える請求項１０に記載の装置。
前記グリッド取得サブユニットは、
前記基準音声と前記中国語ピンインシーケンスにおける各中国語ピンインに対して時系列アライメントを行い、各中国語ピンインのタイムスタンプを取得するように構成されるタイムアライメントモジュールと、
アノテーションが完了した、中国語ピンインと三次元顔グリッドシーケンスとの対応関係を表すためのピンイングリッド辞書を検索し、各中国語ピンインに対応する三次元顔グリッドシーケンスを取得するように構成されるグリッド検索モジュールと、
前記タイムスタンプに基づいて、前記中国語ピンインシーケンスにおけるすべての中国語ピンインに対応する三次元顔グリッドシーケンスをスプライシングし、前記基準音声の時系列に対応する三次元顔グリッドシーケンスを取得するように構成されるグリッド取得モジュールと、
を備える請求項１６に記載の装置。
前記映像取得サブユニットは、
前記基準音声の時系列に対応する三次元顔グリッドシーケンスをレンダリングして、映像フレーム画像シーケンスを取得するように構成されるグリッドレンダリングモジュールと、
前記映像フレーム画像シーケンスを合成して、顔表情動画を取得するように構成されるグリッド合成モジュールと、
を備える請求項１６に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な指令が格納され、前記指令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１〜９のいずれか１項に記載の方法が実行される、電子機器。
コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令は請求項１〜９のいずれか１項に記載の方法を前記コンピュータに実行させるために用いられることを特徴とする非一時的コンピュータ可読記憶媒体。
プロセッサによって実行されると請求項１〜９のいずれか１項に記載の方法が実現されるコンピュータ指令を含む、コンピュータプログラム。