JP2021009669A - 三次元仮想ポートレートの口形の変化を制御する方法および装置 - Google Patents

三次元仮想ポートレートの口形の変化を制御する方法および装置 Download PDF

Info

Publication number
JP2021009669A
JP2021009669A JP2019227956A JP2019227956A JP2021009669A JP 2021009669 A JP2021009669 A JP 2021009669A JP 2019227956 A JP2019227956 A JP 2019227956A JP 2019227956 A JP2019227956 A JP 2019227956A JP 2021009669 A JP2021009669 A JP 2021009669A
Authority
JP
Japan
Prior art keywords
mouth shape
voice
sequence
control parameter
mouth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019227956A
Other languages
English (en)
Other versions
JP6936298B2 (ja
Inventor
チェン、チャオ
Chao Chen
ワン、チエンシアン
Jianxiang Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021009669A publication Critical patent/JP2021009669A/ja
Application granted granted Critical
Publication of JP6936298B2 publication Critical patent/JP6936298B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】本開示の実施例は、クラウドコンピューティングの分野に関する、三次元仮想ポートレートの口形の変化を制御する方法および装置を開示する。【解決手段】この方法の特定の実施形態は、再生対象の音声を取得するステップと、少なくとも1つの音声セグメントを取得するために、上記再生対象の音声において所定の時間窓をプリセットステップサイズでスライドさせるステップと、上記少なくとも1つの音声セグメントに基づいて、上記再生対象の音声に対応する口形制御パラメータシーケンスを生成するステップと、上記再生対象の音声を再生する場合、上記口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御するステップと、を含む。この実施形態によれば、再生対象の音声に基づいて、口形制御パラメータシーケンスを自動的に生成して、音声と口形が同期して変化する三次元仮想ポートレートを効果的にレンダリングすることができる。【選択図】図2

Description

本開示の実施例は、コンピュータ技術の分野に関し、特に、三次元仮想ポートレートの口形の変化を制御する方法および装置に関する。
三次元仮想ポートレートの音声と口形との同期は、従来から研究の焦点となっており、幅広く応用されている。一般的な応用領域には、映画やアニメーション、ゲームエンターテイメントなどがある。三次元仮想ポートレートの音声と口形とを同期させる従来技術では、専門の技術者は通常、特定の音声セグメントに基づいて三次元仮想ポートレートのキーフレームを手動で設定し、これらのキーフレームにおける三次元仮想ポートレートの口形を調整する必要がある。キーフレーム間の遷移フレームにおける三次元仮想ポートレートの口形は、アニメーションエンジンによって自動的に生成される。例えば、それは、UE4(Unreal Engine 4、アンリアルエンジン4)、Maya、Unity3Dなどのアニメーションエンジンによって自動的に生成することができる。このような方式は技術者の専門技術に大きく依存しており、フレームごとの手動作業は多くの労力を必要とし、そして、このような方式はリアルタイム性を有しない。
本開示の実施例は、三次元仮想ポートレートの口形の変化を制御する方法および装置を提供する。
第1の態様では、本開示の実施例は、三次元仮想ポートレートの口形の変化を制御する方法を提供する。この方法は、再生対象の音声を取得するステップと、少なくとも1つの音声セグメントを取得するために、上記再生対象の音声において上記所定の時間窓をプリセットステップサイズでスライドさせるステップと、上記少なくとも1つの音声セグメントに基づいて、上記再生対象の音声に対応する口形制御パラメータシーケンスを生成するステップと、上記再生対象の音声を再生する場合、上記口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御するステップと、を含む。
いくつかの実施例では、上記少なくとも1つの音声セグメントに基づいて、上記再生対象の音声に対応する口形制御パラメータシーケンスを生成する上記ステップは、上記少なくとも1つの音声セグメントに基づいて、二次元特徴マトリックスシーケンスを生成するステップと、上記二次元特徴マトリックスシーケンスを二次元特徴マトリックスと口形制御パラメータとの対応関係を特徴付ける、事前に確立された畳み込みニューラルネットワークに入力し、口形制御パラメータシーケンスを取得するステップと、を含む。
いくつかの実施例では、上記少なくとも1つの音声セグメントに基づいて、二次元特徴マトリックスシーケンスを生成する上記ステップは、上記少なくとも1つの音声セグメントにおける音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成するステップと、上記再生対象の音声における上記少なくとも1つの音声セグメントの優先順位に従って、生成された少なくとも1つの二次元特徴マトリックスを接合して二次元特徴マトリックスシーケンスを生成するステップと、を含む。
いくつかの実施例では、上記少なくとも1つの音声セグメントにおける音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成する上記ステップは、この音声セグメントを隣接する2つの音声サブセグメントが部分的に重なる所定数の音声サブセグメントに分割するステップと、上記所定数の音声サブセグメントにおける音声サブセグメントに対して、この音声サブセグメントの特徴を抽出し、この音声サブセグメントに対応する音声特徴ベクトルを取得するステップと、取得された所定数の音声特徴ベクトルに基づいて、この音声セグメントに対応する二次元特徴マトリックスを生成するステップと、を含む。
いくつかの実施例では、上記少なくとも1つの音声セグメントに基づいて、上記再生対象の音声に対応する口形制御パラメータシーケンスを生成する上記ステップは、上記少なくとも1つの音声セグメントにおける音声セグメントに対して、この音声セグメントの音素シーケンスを生成し、この音素シーケンスを符号化して音素情報を取得するステップと、少なくとも1本の音素情報からなる音素情報シーケンスを音素情報シーケンスと口形キーポイント情報シーケンスとの対応関係を特徴付ける、事前に確立された口形キーポイント予測モデルに入力し、少なくとも1本の口形キーポイント情報からなる口形キーポイント情報シーケンスを取得するステップと、上記口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成するステップと、を含む。
いくつかの実施例では、上記口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成する上記ステップは、上記口形キーポイント情報シーケンス内の口形キーポイント情報に対して、事前に確立されたサンプル口形キーポイント情報とサンプル口形制御パラメータとの対応関係に基づいて、この口形キーポイント情報に対応する口形制御パラメータを取得するステップと、取得された少なくとも1つの口形制御パラメータに基づいて、口形制御パラメータシーケンスを生成するステップと、を含む。
いくつかの実施例では、上記口形キーポイント予測モデルは、ループ本体が長期/短期記憶ネットワークであるリカレントニューラルネットワークである。
第2の態様では、本開示の実施例は、三次元仮想ポートレートの口形の変化を制御する装置を提供する。この装置は、再生対象の音声を取得するように構成された取得ユニットと、少なくとも1つの音声セグメントを取得するために、上記再生対象の音声において上記所定の時間窓をプリセットステップサイズでスライドさせるように構成されたスライドユニットと、上記少なくとも1つの音声セグメントに基づいて、上記再生対象の音声に対応する口形制御パラメータシーケンスを生成するように構成された生成ユニットと、上記再生対象の音声を再生する場合、上記口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御するように構成された制御ユニットと、を含む。
いくつかの実施例では、上記生成ユニットは、上記少なくとも1つの音声セグメントに基づいて、二次元特徴マトリックスシーケンスを生成するように構成された第一生成サブユニットと、上記二次元特徴マトリックスシーケンスを二次元特徴マトリックスと口形制御パラメータとの対応関係を特徴付ける、事前に確立された畳み込みニューラルネットワークに入力し、口形制御パラメータシーケンスを取得するように構成された第二生成サブユニットと、を含む。
いくつかの実施例では、上記第一生成サブユニットは、上記少なくとも1つの音声セグメントにおける音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成するように構成された第一生成モジュールと、上記再生対象の音声における上記少なくとも1つの音声セグメントの優先順位に従って、生成された少なくとも1つの二次元特徴マトリックスを接合して二次元特徴マトリックスシーケンスを生成するように構成された第二生成モジュールと、を含む。
いくつかの実施例では、上記第一生成モジュールは、さらに、この音声セグメントを隣接する2つの音声サブセグメントが部分的に重なる所定数の音声サブセグメントに分割し、上記所定数の音声サブセグメントにおける音声サブセグメントに対して、この音声サブセグメントの特徴を抽出し、この音声サブセグメントに対応する音声特徴ベクトルを取得し、取得された所定数の音声特徴ベクトルに基づいて、この音声セグメントに対応する二次元特徴マトリックスを生成するように構成されている。
いくつかの実施例では、上記生成ユニットは、上記少なくとも1つの音声セグメントにおける音声セグメントに対して、この音声セグメントの音素シーケンスを生成し、この音素シーケンスを符号化して音素情報を取得するように構成された情報生成ユニットと、少なくとも1本の音素情報からなる音素情報シーケンスを音素情報シーケンスと口形キーポイント情報シーケンスとの対応関係を特徴付ける、事前に確立された口形キーポイント予測モデルに入力し、少なくとも1本の口形キーポイント情報からなる口形キーポイント情報シーケンスを取得するように構成された情報シーケンス生成ユニットと、上記口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成するように構成されたパラメータシーケンス生成ユニットと、を含む。
いくつかの実施例では、上記パラメータシーケンス生成ユニットは、さらに、上記口形キーポイント情報シーケンス内の口形キーポイント情報に対して、事前に確立されたサンプル口形キーポイント情報とサンプル口形制御パラメータとの対応関係に基づいて、この口形キーポイント情報に対応する口形制御パラメータを取得し、取得された少なくとも1つの口形制御パラメータに基づいて、口形制御パラメータシーケンスを生成するように構成されている。
いくつかの実施例では、上記口形キーポイント予測モデルは、ループ本体が長期/短期記憶ネットワークであるリカレントニューラルネットワークである。
第3の態様では、本開示の実施例は、端末装置であって、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶した記憶装置と、を含み、上記1つまたは複数のプログラムが、上記1つまたは複数のプロセッサによって実行されると、上記1つまたは複数のプロセッサが第1の態様のいずれかの実施形態に記載の方法を実行させる端末装置を提供する。
第4の態様では、本開示の実施例は、コンピュータプログラムを記憶したコンピュータ可読媒体であって、コンピュータプログラムがプロセッサによって実行されると、第1の態様のいずれかの実施形態に記載の方法を実行させるコンピュータ可読媒体を提供する。
本開示の実施例によって提供される、三次元仮想ポートレートの口形の変化を制御する方法および装置は、まず、少なくとも1つの音声セグメントを取得するために、取得された再生対象の音声において所定の時間窓をプリセットステップサイズでスライドさせるステップを実行し、その後、取得された少なくとも1つの音声セグメントに基づいて、再生対象の音声に対応する口形制御パラメータシーケンスを生成するステップを実行し、最後に、再生対象の音声を再生する場合、口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御するステップを実行することによって、再生対象の音声に基づいて、口形制御パラメータシーケンスを自動的に生成して、音声と口形が同期して変化する三次元仮想ポートレートを効果的にレンダリングすることができる。
本開示の他の特徴、目的および利点は、以下の図面で行われる非限定的な実施例についての以下の詳細な説明からより明らかになるであろう。
本開示の一実施例が適用され得る例示的なシステムアーキテクチャ図である。 本開示に係る、三次元仮想ポートレートの口形の変化を制御する方法の一実施例のフローチャートである。 jaw_open=0およびjaw_open=1に対応する三次元仮想ポートレートの顎の開閉度を示す図である。 jaw_open=0およびjaw_open=1に対応する三次元仮想ポートレートの顎の開閉度を示す図である。 本開示に係る、再生対象の音声から口形キーポイント情報シーケンスまでの概略図である。 本開示に係る、三次元仮想ポートレートの口形の変化を制御する方法の適用シナリオの概略図である。 本開示に係る、三次元仮想ポートレートの口形の変化を制御する方法の別の実施例のフローチャートである。 本開示に係る、三次元仮想ポートレートの口形の変化を制御する装置の一実施例の構造概略図である。 本開示の実施例を実施するのに適した機器のコンピュータシステムの構造概略図である。
以下、図面および実施例を参照して本開示をさらに詳細に説明する。本明細書に記載の特定の実施例は、本発明を解釈するものにすぎず、本発明を限定するものではないことが理解される。また、説明の便宜上、本発明に関連する部分のみが図面に示されている。
なお、本開示の実施例および実施例における特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面および実施例を参照して本開示を詳細に説明する。
図1は、本開示の実施例が適用され得る、三次元仮想ポートレートの口形の変化を制御する方法または三次元仮想ポートレートの口形の変化を制御する装置の例示的なシステムアーキテクチャ100を示している。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含むことができる。ネットワーク104は、端末装置101、102、103とサーバ105との間に通信リンクを提供するための媒体である。ネットワーク104は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続形態を含むことができる。
ユーザは、端末装置101、102、103を使用してネットワーク104を介してサーバ105と対話し、情報などを送受信することができる。ウェブブラウザアプリケーション、ゲームアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントメッセージツールなどの様々な通信クライアントアプリケーションは、端末装置101、102、103にインストールすることができる。
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、表示画面を有し、音声再生をサポートする様々な電子機器であってもよい。端末装置101、102、103がソフトウェアである場合、それらは、上記に挙げた電子機器にインストールすることができる。それは、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実現されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定しない。
サーバ105は、端末装置101、102、103によって再生される音声にサポートを提供するバックグラウンドサーバなど、様々なサービスを提供するサーバであってもよい。バックグラウンドサーバは、受信したテキストや音声などのデータに対して分析処理などを行い、処理結果(例えば、再生対象の音声)を端末装置101、102、103にフィードバックすることができる。
なお、サーバ105は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ105がハードウェアである場合、それは、複数のサーバからなる分散サーバクラスタとして実現されてもよいし、単一のサーバとして実現されてもよい。サーバ105がソフトウェアである場合、それは、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実現されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定しない。
図1の端末装置、ネットワーク、およびサーバの数は、単なる例示であることが理解される。実際のニーズに応じて、端末装置、ネットワーク、およびサーバの数が任意であってもよい。
なお、本開示の実施例によって提供される、三次元仮想ポートレートの口形の変化を制御する方法は、一般に端末装置101、102、103によって実行され、それに応じて、三次元仮想ポートレートの口形の変化を制御する装置は、一般に端末装置101、102、103に配置される。
さらに図2を参照すると、図2は、本開示に係る、三次元仮想ポートレートの口形の変化を制御する方法の一実施例のプロセス200を示している。三次元仮想ポートレートの口形の変化を制御する方法は、以下のステップを含む。
ステップ201、再生対象の音声を取得する。
本実施例では、三次元仮想ポートレートの口形の変化を制御する方法の実行主体(例えば、図1に示す端末装置101、102、103)は、様々な方法を用いて再生対象の音声を取得することができる。一例として、再生対象の音声は、実行主体によって自動的に生成される音声であってもよい。例えば、実行主体は、ユーザが入力した情報(例えば、テキスト情報、音声情報、画像情報など)に基づいて応答音声を生成し、生成された応答音声を再生対象の音声として設定することができる。別の例として、再生対象の音声は、実行主体が他の機器(例えば、図1に示すサーバ105)から取得する音声であってもよい。
ステップ202、少なくとも1つの音声セグメントを取得するために、再生対象の音声において所定の時間窓をプリセットステップサイズでスライドさせる。
本実施例では、時間窓は、実行主体内に予め設定されてもよい。ここで、時間窓は、時間の長さが実際のニーズに応じて設定できる時間帯を意味し得る。一例として、時間窓は、520ms(ミリ秒)に設定することができる。実行主体は、少なくとも1つの音声セグメントを取得するために、ステップ201で取得された再生対象の音声において上記時間窓をプリセットステップサイズでスライドさせることができる。実際には、毎回スライドした時間窓における音声は、音声セグメントとして設定することができる。ここで、上記ステップサイズは、実際のニーズに応じて設定することができる。一例として、ステップサイズは、10msに設定することができる。
ステップ203、少なくとも1つの音声セグメントに基づいて、再生対象の音声に対応する口形制御パラメータシーケンスを生成する。
本実施例では、実行主体は、ステップ202で取得された少なくとも1つの音声セグメントに基づいて、再生対象の音声に対応する口形制御パラメータシーケンスを生成する。ここで、口形制御パラメータシーケンスは、予め設定された三次元仮想ポートレートの口形の変化を制御するために使用できる。実際には、口形制御パラメータシーケンスは、口形制御パラメータを音声セグメントごとに生成することによって取得することができる。時間窓のスライドステップサイズを10msとする例として、音声セグメントが10msごとに決定され、口形制御パラメータが各音声セグメントによって取得されるため、口形制御パラメータは10msごとに生成することができ、即ち、再生対象の音声に対応する口形制御パラメータシーケンスにおける各口形制御パラメータの間隔は10msである。
ここで、口形制御パラメータは、三次元仮想ポートレートの開発ツールによって開発された三次元仮想ポートレートの口形変化パラメータを意味し得る。実際には、UE4、Maya、Unity3Dなどの従来のアニメーションエンジンは、三次元仮想ポートレートの開発ツールとして使用することができる。三次元仮想ポートレートの顔(または口形)の駆動は、ベクトルであってもよいいくつかの所定のパラメータによって制御することができる。このベクトルの各次元は、[0、1]の数値範囲を有してもよく、特定の顔の動きを表す。例えば、このベクトルは、この値が大きいほど、開閉度が大きくなる、三次元仮想ポートレートの顎の開閉度を制御するための次元jaw_openを含むことができる。図3aおよび図3bはそれぞれ、jaw_open=0およびjaw_open=1に対応する三次元仮想ポートレートの顎の開閉度を示している。なお、図3aおよび図3bの三次元仮想ポートレートは、三次元仮想ポートレートの性別、外形などを限定するものではなく、単なる例示である。
本実施例のいくつかの代替的な実施形態では、上記ステップ203は具体的に、以下の内容を含むことができる。
ステップS1、少なくとも1つの音声セグメントにおける音声セグメントに対して、この音声セグメントの音素シーケンスを生成し、この音素シーケンスを符号化して音素情報を取得する。
本実施形態では、実行主体は、ステップ202で取得された少なくとも1つの音声セグメントにおける各音声セグメントに対して、この音声セグメントの音素シーケンスを生成することができる。ここで、音素シーケンスは、複数の音素が時間軸上に配置されていることを意味し得る。音素は音声の最小単位であり、各音素は特定の発音に対応する。現在、音声セグメントの音素シーケンスは、従来の音響モデルによって生成することができる。その後、実行主体は、取得した音素シーケンスを符号化して音素情報を取得することができる。このようにして、実行主体は、各音声セグメントに基づいて音素情報を生成することができる。ここで、符号化は、音素シーケンスをさらに処理するためにデジタル形式の音声情報に変換することを意味し得る。
ステップS2、少なくとも1本の音素情報からなる音素情報シーケンスを事前に確立された口形キーポイント予測モデルに入力し、少なくとも1本の口形キーポイント情報からなる口形キーポイント情報シーケンスを取得する。
本実施形態では、実行主体は、まず、ステップS1で取得された少なくとも1本の音素情報を用いて音素情報シーケンスを構成することができる。一例として、実行主体は、前記少なくとも1本の音素情報における各音素情報に対して、再生対象の音声における、この音素情報を生成した音声セグメントの位置に基づいて、音素情報シーケンスにおけるこの音素情報の位置を決定することができる。その後、実行主体は、上記音素情報シーケンスを事前に確立された口形キーポイント予測モデルに入力し、少なくとも1本の口形キーポイント情報からなる口形キーポイント情報シーケンスを取得することができる。ここで、口形キーポイント情報は、口形に関連する所定数(例えば、20個)の顔キーポイントの位置情報を示すために使用できる。ここで、口形キーポイント予測モデルは、音素情報シーケンスと口形キーポイント情報シーケンスとの対応関係を特徴付けることができる。一例として、口形キーポイント予測モデルは、多くの音素情報シーケンスおよび口形キーポイント情報シーケンスの統計に基づいて技術者によって事前に決定され、複数の音素情報シーケンスと口形キーポイント情報シーケンスとの対応関係を記憶した対応関係表であってもよい。別の例として、実行主体は、機械学習アルゴリズムに基づいてトレーニングして得られた機械学習モデルであってもよい。
いくつかの代替的な実施形態では、ステップS2の口形キーポイント予測モデルは、ループ本体が長期/短期記憶ネットワークであるリカレントニューラルネットワークであってもよい。
本実施形態では、ステップS2の口形キーポイント予測モデルは、リカレントニューラルネットワークであってもよい。リカレントニューラルネットワーク(Recurrent Neural Network、RNN)は、シーケンスデータを入力とし、シーケンスの進化方向に再帰処理を行ってすべてのノード(ループ本体)をチェーンで接続した再帰型ニューラルネットワークである。ここで、リカレントニューラルネットワークのループ本体は、長期/短期記憶ネットワーク(Long Short−Term Memory、LSTM)であってもよい。一例として、図4は、再生対象の音声から口形キーポイント情報シーケンスまでの概略図を例示的に示しており、ループ本体が長期/短期記憶ネットワークであるリカレントニューラルネットワークが使用される。図4の点線枠は時間窓を示し、点線枠の矢印は時間窓のスライド方向を示している。図4に示す情報から分かるように、音素情報シーケンス内の特定の音素情報に対応する口形キーポイント情報を予測する際に、前回の音素情報に基づいて取得された口形キーポイント情報が使用される。従って、本実施形態では、口形キーポイント情報シーケンスを生成するとき、生成される口形キーポイント情報シーケンスをより正確にするために、前後2本の口形キーポイント情報の間の関連性を総合的に考慮する。なお、図4に示すリカレントニューラルネットワークの構造は、リカレントニューラルネットワークの構造を限定するものではなく、単なる例示である。
ステップS3、口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成する。
本実施形態では、実行主体は、口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成することができる。実際には、特定の口形キーポイント情報は特定の口形に対応し、特定の口形は特定の口形制御パラメータに対応し、即ち、口形キーポイント情報と口形制御パラメータとの関連性が高い。従って、実行主体は、口形キーポイント情報に基づいて、口形制御パラメータを決定することができる。
いくつかの代替的な実施形態では、上記ステップ203は具体的に、以下の内容を含むことができる。
まず、口形キーポイント情報シーケンス内の口形キーポイント情報に対して、事前に確立されたサンプル口形キーポイント情報とサンプル口形制御パラメータとの対応関係に基づいて、この口形キーポイント情報に対応する口形制御パラメータを取得する。
本実施形態では、サンプル口形キーポイント情報とサンプル口形制御パラメータとの対応関係、即ち複数の関係ペア(サンプル口形キーポイント情報とサンプル口形制御パラメータとの関係ペア)は、実行主体内に事前に記憶することができる。このようにして、実行主体は、口形キーポイント情報シーケンス内の各口形キーポイント情報に対して、この口形キーポイント情報と複数の関係ペアにおけるサンプル口形キーポイント情報との類似度を計算し、複数の関係ペアにおける、この口形キーポイント情報との類似度が最も高いサンプル口形キーポイント情報に対応するサンプル口形制御パラメータを、この口形キーポイント情報に対応する口形制御パラメータとして設定することができる。
その後、取得された少なくとも1つの口形制御パラメータに基づいて、口形制御パラメータシーケンスを生成する。
本実施形態では、実行主体は、口形キーポイント情報シーケンス内の各口形キーポイント情報に対して、口形制御パラメータを取得することができる。このようにして、実行主体は、少なくとも1つの口形制御パラメータを取得することができる。実行主体は、取得された少なくとも1つの口形制御パラメータに基づいて、口形制御パラメータシーケンスを生成することができる。
ステップ204、再生対象の音声を再生する場合、口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御する。
本実施例では、実行主体は、再生対象の音声を再生しながら、ステップ203で生成された口形制御パラメータに基づいて、三次元仮想ポートレートの口形の変化を同期制御することができる。このようにして、実行主体は、音声と口形が同期して変化する三次元仮想ポートレートをユーザに表示することができるため、三次元仮想ポートレートのリアル感を向上させ、ユーザエクスペリエンスを向上させる。
さらに図5を参照すると、図5は、本実施例に係る、三次元仮想ポートレートの口形の変化を制御する方法の適用シナリオの概略図である。図5の適用シナリオでは、端末装置501は、まず、再生対象の音声502を取得する。その後、端末装置501は、少なくとも1つの音声セグメントを取得するために、再生対象の音声502において時間窓(点線枠に示すもの)を10msのステップサイズで520msスライドさせる。その後、端末装置501は、少なくとも1つの音声セグメントに基づいて、再生対象の音声502に対応する口形制御パラメータシーケンスを生成する。最後に、端末装置501は、再生対象の音声502を再生する場合、口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御し、音声と口形が同期して変化する三次元仮想ポートレートをユーザに表示する。
本開示の上記実施例によって提供される方法は、再生対象の音声に基づいて、口形制御パラメータシーケンスを自動的に生成して、音声と口形が同期して変化する三次元仮想ポートレートを効果的にレンダリングすることができる。
さらに図6を参照すると、図6は、三次元仮想ポートレートの口形の変化を制御する方法の別の実施例のプロセス600を示している。三次元仮想ポートレートの口形の変化を制御する方法のプロセス600は、以下のステップを含む。
ステップ601、再生対象の音声を取得する。
本実施例では、ステップ601は、図2に示す実施例のステップ201と同様であるため、ここではその説明を省略する。
ステップ602、少なくとも1つの音声セグメントを取得するために、再生対象の音声において所定の時間窓をプリセットステップサイズでスライドさせる。
本実施例では、ステップ602は、図2に示す実施例のステップ202と同様であるため、ここではその説明を省略する。
ステップ603、少なくとも1つの音声セグメントに基づいて、二次元特徴マトリックスシーケンスを生成する。
本実施例では、実行主体は、ステップ602で取得された少なくとも1つの音声セグメントに基づいて、様々な方法を用いて二次元特徴マトリックスシーケンスを生成することができる。例えば、音声セグメントの特徴を抽出し、特徴抽出結果に基づいて、二次元特徴マトリックスシーケンスを生成することができる。
本実施例のいくつかの代替的な実施形態では、上記ステップ603は具体的に、以下のステップを含むことができる。
ステップ1、少なくとも1つの音声セグメントにおける音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成する。
本実施形態では、実行主体は、上記なくとも1つの音声セグメントにおける各音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成することができる。ここで、実行主体は、様々な方法を用いてこの音声セグメントから特徴を抽出し、二次元特徴マトリックスを生成することができる。
いくつかの代替的な実施形態では、上記ステップ1は具体的に、以下の内容を含むこともできる。
まず、この音声セグメントを所定数の音声サブセグメントに分割する。
本実施形態では、実行主体は、この音声セグメントを隣接する2つの音声サブセグメントが部分的に重なる所定数の音声サブセグメントに分割することができる。この音声セグメントを520msの音声セグメントとする例として、実行主体は、この音声セグメントを各音声サブセグメントが16msであり、隣接する2つの音声サブセグメントが8ms重なる64個の音声サブセグメントに分割することができる。ここでは、隣接する2つの音声サブセグメントが部分的に重なるため、後続の特徴抽出処理を実行する際に十分な特徴を抽出することができる。
その後、所定数の音声サブセグメントにおける音声サブセグメントに対して、この音声サブセグメントの特徴を抽出し、この音声サブセグメントに対応する音声特徴ベクトルを取得する。
本実施形態では、実行主体は、所定数の音声サブセグメントにおける各音声サブセグメントに対して、この音声サブセグメントの特徴を抽出し、この音声サブセグメントに対応する音声特徴ベクトルを取得することができる。一例として、実行主体は、各音声サブセグメントに対して、LPC(Linear Predictive Coding、線形予測符号化)の最初の所定数(例えば、最初の32個)の成分を抽出し、最初の所定数の成分を音声特徴ベクトルとして設定することができる。このようにして、実行主体は、所定数の音声サブセグメントに基づいて、所定数の音声特徴ベクトルを取得することができる。
最後に、取得された所定数の音声特徴ベクトルに基づいて、この音声セグメントに対応する二次元特徴マトリックスを生成する。
本実施形態では、実行主体は、取得された所定数の音声特徴ベクトルに基づいて、この音声セグメントに対応する二次元特徴マトリックスを生成することができる。一例として、実行主体は、この音声セグメントにおける音声サブセグメントの優先順位に従って、セマンティックサブセグメントに基づいて生成された音声特徴ベクトルを上から下にソートすることによって、この音声セグメントに対応する二次元特徴マトリックスを取得することができる。
ステップ2、再生対象の音声における少なくとも1つの音声セグメントの優先順位に従って、生成された少なくとも1つの二次元特徴マトリックスを接合して二次元特徴マトリックスシーケンスを生成する。
本実施形態では、再生対象の音声における上記少なくとも1つの音声セグメントのそれぞれの優先順位に従って、少なくとも1つの音声セグメントに基づいて生成された少なくとも1つの二次元特徴マトリックスを接合して二次元特徴マトリックスシーケンスを生成する。
ステップ604、二次元特徴マトリックスシーケンスを事前に確立された畳み込みニューラルネットワークに入力し、口形制御パラメータシーケンスを取得する。
本実施例では、二次元特徴マトリックスと口形制御パラメータとの対応関係を特徴付ける畳み込みニューラルネットワークは、実行主体内に事前に確立することができる。このようにして、実行主体は、ステップ603で生成された二次元特徴マトリックスシーケンスを上記畳み込みニューラルネットワークに入力することができる。畳み込みニューラルネットワークは、二次元特徴マトリックスシーケンス内の二次元特徴マトリックスを順次処理して、口形制御パラメータシーケンスを取得することができる。
ここで、上記畳み込みニューラルネットワークのネットワーク構造は、実際のニーズに応じて設定することができる。一例として、上記畳み込みニューラルネットワークは、入力層、畳み込み層、完全接続層、出力層などを含むことができる。一例として、上記畳み込みニューラルネットワークは、入力層、所定数(例えば、10個)の畳み込み層、所定数(例えば、2個)の完全接続層、出力層などを順次含むことができる。実際には、上記畳み込みニューラルネットワークは、多くのサンプルデータに基づいてトレーニングして得られたものであってもよい。ここで、サンプルデータは、サンプル二次元特徴マトリックスと、サンプル二次元特徴マトリックスに対応するサンプル口形制御パラメータとを含むことができる。トレーニングするとき、サンプル二次元特徴マトリックスを入力とし、入力されたサンプル二次元特徴マトリックスに対応するサンプル口形制御パラメータを所望の出力としてトレーニングして、畳み込みニューラルネットワークを取得することができる。
ステップ605、再生対象の音声を再生する場合、口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御する。
本実施例では、ステップ605は、図2に示す実施例のステップ204と同様であるため、ここではその説明を省略する。
図6から分かるように、本実施例における、三次元仮想ポートレートの口形の変化を制御するプロセス600は、図2に対応する実施例のプロセスと比べて、畳み込みニューラルネットワークに基づいて口形制御パラメータシーケンスを生成するステップを強調している。畳み込みニューラルネットワークは、多くのサンプルデータに基づいてトレーニングして得られたものであり、また、生成された口形制御パラメータシーケンスをより正確にすることができる。従って、本実施例に記載の解決手段は、音声と口形が同期して変化する三次元仮想ポートレートの口形の変化をよりリアルにすることができる。
さらに図7を参照すると、上記各図に示された方法の実施形態として、本開示は、図2に示す方法の実施例に対応する、三次元仮想ポートレートの口形の変化を制御する装置の一実施例を提供する。この装置は様々な電子機器に特に適用できる。
図7に示すように、本実施例における、三次元仮想ポートレートの口形の変化を制御する装置700は、再生対象の音声を取得するように構成された取得ユニットト701と、少なくとも1つの音声セグメントを取得するために、上記再生対象の音声において所定の時間窓をプリセットステップサイズでスライドさせるように構成されたスライドユニット702と、上記少なくとも1つの音声セグメントに基づいて、上記再生対象の音声に対応する口形制御パラメータシーケンスを生成するように構成された生成ユニット703と、上記再生対象の音声を再生する場合、上記口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御するように構成された制御ユニット704と、を含む。
本実施例では、三次元仮想ポートレートの口形の変化を制御する装置700の取得ユニットト701、スライドユニット702、生成ユニット703、および制御ユニット704の具体的な処理とその技術的効果は、それぞれ図2に対応する実施例のステップ201、ステップ202、ステップ203、およびステップ204を参照することができるため、ここではその説明を省略する。
本実施例のいくつかの代替的な実施形態では、上記生成ユニット703は、上記少なくとも1つの音声セグメントに基づいて、二次元特徴マトリックスシーケンスを生成するように構成された第一生成サブユニット(図示せず)と、上記二次元特徴マトリックスシーケンスを二次元特徴マトリックスと口形制御パラメータとの対応関係を特徴付ける、事前に確立された畳み込みニューラルネットワークに入力し、口形制御パラメータシーケンスを取得するように構成された第二生成サブユニット(図示せず)と、を含む。
本実施例のいくつかの代替的な実施形態では、上記第一生成サブユニットは、上記少なくとも1つの音声セグメントにおける音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成するように構成された第一生成モジュール(図示せず)と、上記再生対象の音声における上記少なくとも1つの音声セグメントの優先順位に従って、生成された少なくとも1つの二次元特徴マトリックスを接合して二次元特徴マトリックスシーケンスを生成するように構成された第二生成モジュール(図示せず)と、を含む。
本実施例のいくつかの代替的な実施形態では、上記第一生成モジュールは、この音声セグメントを隣接する2つの音声サブセグメントが部分的に重なる所定数の音声サブセグメントに分割するステップと、上記所定数の音声サブセグメントにおける音声サブセグメントに対して、この音声サブセグメントの特徴を抽出し、この音声サブセグメントに対応する音声特徴ベクトルを取得するステップと、取得された所定数の音声特徴ベクトルに基づいて、この音声セグメントに対応する二次元特徴マトリックスを生成するステップと、を実行するようにさらに構成されている。
本実施例のいくつかの代替的な実施形態では、上記生成ユニット703は、上記少なくとも1つの音声セグメントにおける音声セグメントに対して、この音声セグメントの音素シーケンスを生成し、この音素シーケンスを符号化して音素情報を取得するように構成された情報生成ユニット(図示せず)と、少なくとも1本の音素情報からなる音素情報シーケンスを音素情報シーケンスと口形キーポイント情報シーケンスとの対応関係を特徴付ける、事前に確立された口形キーポイント予測モデルに入力し、少なくとも1本の口形キーポイント情報からなる口形キーポイント情報シーケンスを取得するように構成された情報シーケンス生成ユニット(図示せず)と、上記口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成するように構成されたパラメータシーケンス生成ユニット(図示せず)と、を含む。
本実施例のいくつかの代替的な実施形態では、上記パラメータシーケンス生成ユニットは、上記口形キーポイント情報シーケンス内の口形キーポイント情報に対して、事前に確立されたサンプル口形キーポイント情報とサンプル口形制御パラメータとの対応関係に基づいて、この口形キーポイント情報に対応する口形制御パラメータを取得するステップと、取得された少なくとも1つの口形制御パラメータに基づいて、口形制御パラメータシーケンスを生成するステップと、を実行するようにさらに構成されている。
本実施例のいくつかの代替的な実施形態では、上記口形キーポイント予測モデルは、ループ本体が長期/短期記憶ネットワークであるリカレントニューラルネットワークである。
さらに図8を参照すると、図8は、本開示の実施例を実施するのに適した電子機器(例えば、図1の端末装置)800の構造概略図を示している。本開示の実施例における端末装置は、携帯電話、ノートブックコンピュータ、デジタル放送受信機、PDA(パーソナルデジタルアシスタント)、PAD(タブレットコンピュータ)、PMP(ポータブルマルチメディアプレーヤー)、車載端末(例えば、カーナビゲーション端末)などのモバイル端末と、デジタルTV、デスクトップコンピュータなどの固定端末と、を含むがこれらに限定されない。図8に示す端末装置は単なる例示であり、本開示の実施例の機能および使用範囲にいかなる制限も課すべきではない。
図8に示すように、電子機器800は、リードオンリメモリ(ROM)802に記憶されたプログラム、または記憶装置808からランダムアクセスメモリ(RAM)803にロードされたプログラムに従って、各種の適切な動作および処理を実行することができる、処理装置(例えば、中央処理装置、グラフィックプロセッサなど)801を含むことができる。RAM803には、電子機器800の動作に必要な各種のプログラムやデータも記憶されている。処理装置801、ROM802、およびRAM803は、バス804を介して相互に接続されている。入力/出力(I/O)インターフェース805もバス804に接続されている。
一般に、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどを含む入力装置806と、液晶ディスプレイ(LCD)、スピーカ、バイブレータなどを含む出力装置807と、磁気テープ、ハードディスクなどを含む記憶装置808と、通信装置809とは、I/Oインターフェース805に接続できる。通信装置809は、電子機器800がデータを交換するために他の機器と無線または有線で通信することを可能にすることができる。図8は、様々な装置を有する電子機器800を示しているが、示された装置のすべてを実装または具備する必要はないことが理解される。より多いまたはより少ない装置は、代替的に実装または具備されてもよい。図8に示す各ブロックは、1つの装置を表すことができるし、必要に応じて複数の装置を表すことができる。
特に、本開示の実施例によれば、フローチャートを参照して上述したプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施例は、コンピュータ可読媒体上で搬送されるコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例では、このコンピュータプログラムは、通信装置809を介してネットワークからダウンロードしてインストールされてもよいし、記憶装置808からインストールされてもよいし、ROM802からインストールされてもよい。このコンピュータプログラムが処理装置801によって実行されると、本開示の実施例の方法において限定された上記機能が実行される。
なお、本開示の実施例に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体、コンピュータ可読記憶媒体、または上記両者の任意の組み合わせであってもよい。例えば、コンピュータ可読記憶媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置、または機器であってもよいし、これらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1本または複数本の導線を備えた電気コネクタ、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能なプログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブル・コンパクト・ディスク・リードオンリメモリ(CD−ROM)、光学メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。本開示の実施例では、コンピュータ可読記憶媒体は、命令実行システム、装置、または機器によって使用され得るか、またはそれらと組み合わせて使用され得るプログラムを含むかまたは記憶する任意の有形媒体であってもよい。本開示の実施例では、コンピュータ可読信号媒体は、ベースバンド内で伝搬されるか、またはコンピュータ可読プログラムコードを搬送するキャリアの一部として伝搬されるデータ信号を含むことができる。そのように伝搬されるデータ信号には、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むがこれらに限定されない、様々な形態を採用することができる。コンピュータ可読信号媒体は、命令実行システム、装置、または機器によって使用されるか、またはそれらと組み合わせて使用されるプログラムを送信、伝搬、または伝送することができる、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。コンピュータ可読媒体に含まれるプログラムコードは、電線、光ファイバケーブル、RF(無線周波数)などを含むか、またはこれらの任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体によって送信することができる。
上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよいし、この電子機器に組み込まれることなく、単独で存在するものであってもよい。上記コンピュータ可読媒体は、1つまたは複数のプログラムを搬送するものであり、上記1つまたは複数のプログラムがこの電子機器によって実行されるとき、この電子機器は、再生対象の音声を取得するステップと、少なくとも1つの音声セグメントを取得するために、上記再生対象の音声において所定の時間窓をプリセットステップサイズでスライドさせるステップと、上記少なくとも1つの音声セグメントに基づいて、上記再生対象の音声に対応する口形制御パラメータシーケンスを生成するステップと、上記再生対象の音声を再生する場合、上記口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御するステップと、を実行する。
本開示の実施例の動作を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語と、「C」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む1つまたは複数のプログラミング言語、またはそれらの組み合わせで書かれてもよい。プログラムコードは、完全にユーザコンピュータ上で実行され得るか、または部分的にユーザコンピュータ上で実行され得るか、または独立したソフトウェアパッケージとして、部分的にユーザコンピュータ上で、部分的にリモートコンピュータ上で実行され得るか、または完全にリモートコンピュータまたはサーバ上で実行され得る。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザコンピュータに接続され得るか、または外部コンピュータに接続され得る(例えば、インターネットサービスプロバイダを利用してインターネットを介して接続される)。
図中のフローチャートおよびブロック図は、本開示の様々な実施例に係るシステム、方法、およびコンピュータプログラム製品の実現可能なアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実現するための1つまたは複数の実行可能命令を含む、モジュール、プログラムセグメント、またはコードの一部を表すことができる。また、いくつかの代替的な実施形態では、ブロックに示されている機能は、図面に示されているものとは異なる順序で発生し得る。例えば、連続して示される2つのブロックは、実際には実質的に並行して実行されてもよいし、関連する機能に応じて、逆の順序で実行されてもよい。また、ブロック図および/またはフローチャートの各ブロックと、ブロック図および/またはフローチャートのブロックの組み合わせとは、指定された機能または動作を実行するための専用ハードウェアに基づくシステムによって実現されてもよいし、専用ハードウェアとコンピュータ命令との組み合わせによって実現されてもよい。
本開示の実施例に記載のユニットは、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。上記ユニットは、例えば、取得ユニットと、スライドユニットと、生成ユニットと、制御ユニットとを含むプロセッサとして説明されるプロセッサに配置されてもよい。ここで、これらのユニットの名称は、特定の場合にこのユニット自体を限定するためのものではなく、例えば、取得ユニットは、「対象再生の音声を取得するユニット」として説明されてもよい。
以上の説明は、本発明の好ましい実施例、および使用された技術的原理の説明にすぎない。本開示の実施例に係る本発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的解決手段に限定されず、本発明の概念から逸脱することなく上記技術的特徴またはその同等の特徴の任意の組み合わせからなる他の技術的解決手段に含まれることが当業者にとって理解される。例えば、上記他の技術的解決手段は、上記特徴と、本開示の実施例において開示される(これらに限定されない)、同様の機能を有する技術的特徴と、を置き換えることによって形成される技術的解決手段であってもよい。

Claims (16)

  1. 再生対象の音声を取得するステップと、
    少なくとも1つの音声セグメントを取得するために、前記再生対象の音声において所定の時間窓をプリセットステップサイズでスライドさせるステップと、
    前記少なくとも1つの音声セグメントに基づいて、前記再生対象の音声に対応する口形制御パラメータシーケンスを生成するステップと、
    前記再生対象の音声を再生する場合、前記口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御するステップと、を含む、
    三次元仮想ポートレートの口形の変化を制御する方法。
  2. 前記少なくとも1つの音声セグメントに基づいて、前記再生対象の音声に対応する口形制御パラメータシーケンスを生成する前記ステップは、
    前記少なくとも1つの音声セグメントに基づいて、二次元特徴マトリックスシーケンスを生成するステップと、
    前記二次元特徴マトリックスシーケンスを二次元特徴マトリックスと口形制御パラメータとの対応関係を特徴付ける、事前に確立された畳み込みニューラルネットワークに入力し、口形制御パラメータシーケンスを取得するステップと、を含む、
    請求項1に記載の方法。
  3. 前記少なくとも1つの音声セグメントに基づいて、二次元特徴マトリックスシーケンスを生成する前記ステップは、
    前記少なくとも1つの音声セグメントにおける音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成するステップと、
    前記再生対象の音声における前記少なくとも1つの音声セグメントの優先順位に従って、生成された少なくとも1つの二次元特徴マトリックスを接合して二次元特徴マトリックスシーケンスを生成するステップと、を含む、
    請求項2に記載の方法。
  4. 前記少なくとも1つの音声セグメントにおける音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成する前記ステップは、
    この音声セグメントを隣接する2つの音声サブセグメントが部分的に重なる所定数の音声サブセグメントに分割するステップと、
    前記所定数の音声サブセグメントにおける音声サブセグメントに対して、この音声サブセグメントの特徴を抽出し、この音声サブセグメントに対応する音声特徴ベクトルを取得するステップと、
    取得された所定数の音声特徴ベクトルに基づいて、この音声セグメントに対応する二次元特徴マトリックスを生成するステップと、を含む、
    請求項3に記載の方法。
  5. 前記少なくとも1つの音声セグメントに基づいて、前記再生対象の音声に対応する口形制御パラメータシーケンスを生成する前記ステップは、
    前記少なくとも1つの音声セグメントにおける音声セグメントに対して、この音声セグメントの音素シーケンスを生成し、この音素シーケンスを符号化して音素情報を取得するステップと、
    少なくとも1本の音素情報からなる音素情報シーケンスを音素情報シーケンスと口形キーポイント情報シーケンスとの対応関係を特徴付ける、事前に確立された口形キーポイント予測モデルに入力し、少なくとも1本の口形キーポイント情報からなる口形キーポイント情報シーケンスを取得するステップと、
    前記口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成するステップと、を含む、
    請求項1に記載の方法。
  6. 前記口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成する前記ステップは、
    前記口形キーポイント情報シーケンス内の口形キーポイント情報に対して、事前に確立されたサンプル口形キーポイント情報とサンプル口形制御パラメータとの対応関係に基づいて、この口形キーポイント情報に対応する口形制御パラメータを取得するステップと、
    取得された少なくとも1つの口形制御パラメータに基づいて、口形制御パラメータシーケンスを生成するステップと、を含む、
    請求項5に記載の方法。
  7. 前記口形キーポイント予測モデルは、ループ本体が長期/短期記憶ネットワークであるリカレントニューラルネットワークである、
    請求項5に記載の方法。
  8. 再生対象の音声を取得するように構成された取得ユニットと、
    少なくとも1つの音声セグメントを取得するために、前記再生対象の音声において所定の時間窓をプリセットステップサイズでスライドさせるように構成されたスライドユニットと、
    前記少なくとも1つの音声セグメントに基づいて、前記再生対象の音声に対応する口形制御パラメータシーケンスを生成するように構成された生成ユニットと、
    前記再生対象の音声を再生する場合、前記口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御するように構成された制御ユニットと、を含む、
    三次元仮想ポートレートの口形の変化を制御する装置。
  9. 前記生成ユニットは、
    前記少なくとも1つの音声セグメントに基づいて、二次元特徴マトリックスシーケンスを生成するように構成された第一生成サブユニットと、
    前記二次元特徴マトリックスシーケンスを二次元特徴マトリックスと口形制御パラメータとの対応関係を特徴付ける、事前に確立された畳み込みニューラルネットワークに入力し、口形制御パラメータシーケンスを取得するように構成された第二生成サブユニットと、を含む、
    請求項8に記載の装置。
  10. 前記第一生成サブユニットは、
    前記少なくとも1つの音声セグメントにおける音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成するように構成された第一生成モジュールと、
    前記再生対象の音声における前記少なくとも1つの音声セグメントの優先順位に従って、生成された少なくとも1つの二次元特徴マトリックスを接合して二次元特徴マトリックスシーケンスを生成するように構成された第二生成モジュールと、を含む、
    請求項9に記載の装置。
  11. 前記第一生成モジュールは、さらに、
    この音声セグメントを隣接する2つの音声サブセグメントが部分的に重なる所定数の音声サブセグメントに分割し、
    前記所定数の音声サブセグメントにおける音声サブセグメントに対して、この音声サブセグメントの特徴を抽出し、この音声サブセグメントに対応する音声特徴ベクトルを取得し、
    取得された所定数の音声特徴ベクトルに基づいて、この音声セグメントに対応する二次元特徴マトリックスを生成する
    ように構成されている、請求項10に記載の装置。
  12. 前記生成ユニットは、
    前記少なくとも1つの音声セグメントにおける音声セグメントに対して、この音声セグメントの音素シーケンスを生成し、この音素シーケンスを符号化して音素情報を取得するように構成された情報生成ユニットと、
    少なくとも1本の音素情報からなる音素情報シーケンスを音素情報シーケンスと口形キーポイント情報シーケンスとの対応関係を特徴付ける、事前に確立された口形キーポイント予測モデルに入力し、少なくとも1本の口形キーポイント情報からなる口形キーポイント情報シーケンスを取得するように構成された情報シーケンス生成ユニットと、
    前記口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成するように構成されたパラメータシーケンス生成ユニットと、を含む、
    請求項8に記載の装置。
  13. 前記パラメータシーケンス生成ユニットは、さらに、
    前記口形キーポイント情報シーケンス内の口形キーポイント情報に対して、事前に確立されたサンプル口形キーポイント情報とサンプル口形制御パラメータとの対応関係に基づいて、この口形キーポイント情報に対応する口形制御パラメータを取得し、
    取得された少なくとも1つの口形制御パラメータに基づいて、口形制御パラメータシーケンスを生成する
    ように構成されている、請求項12に記載の装置。
  14. 前記口形キーポイント予測モデルは、ループ本体が長期/短期記憶ネットワークであるリカレントニューラルネットワークである、請求項12に記載の装置。
  15. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムを記憶した記憶装置と、を含み、
    前記1つまたは複数のプログラムが、前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサが請求項1〜7のいずれか一項に記載の方法を実行させる、端末装置。
  16. コンピュータプログラムを記憶したコンピュータ可読媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されると、請求項1〜7のいずれか一項に記載の方法を実行させるコンピュータ可読媒体。
JP2019227956A 2019-06-28 2019-12-18 三次元仮想ポートレートの口形の変化を制御する方法および装置 Active JP6936298B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910573170.1A CN110288682B (zh) 2019-06-28 2019-06-28 用于控制三维虚拟人像口型变化的方法和装置
CN201910573170.1 2019-06-28

Publications (2)

Publication Number Publication Date
JP2021009669A true JP2021009669A (ja) 2021-01-28
JP6936298B2 JP6936298B2 (ja) 2021-09-15

Family

ID=68019899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019227956A Active JP6936298B2 (ja) 2019-06-28 2019-12-18 三次元仮想ポートレートの口形の変化を制御する方法および装置

Country Status (4)

Country Link
US (1) US11308671B2 (ja)
JP (1) JP6936298B2 (ja)
KR (1) KR102346046B1 (ja)
CN (1) CN110288682B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022530726A (ja) * 2020-03-31 2022-07-01 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体
WO2022158342A1 (ja) 2021-01-25 2022-07-28 三菱重工サーマルシステムズ株式会社 光照射ユニット、及び車両用空調装置

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110716634A (zh) * 2019-08-28 2020-01-21 北京市商汤科技开发有限公司 交互方法、装置、设备以及显示设备
CN110531860B (zh) * 2019-09-02 2020-07-24 腾讯科技(深圳)有限公司 一种基于人工智能的动画形象驱动方法和装置
CN110930481B (zh) * 2019-12-11 2024-06-04 北京慧夜科技有限公司 一种口型控制参数的预测方法和系统
CN111294665B (zh) * 2020-02-12 2021-07-20 百度在线网络技术(北京)有限公司 视频的生成方法、装置、电子设备及可读存储介质
CN111459452B (zh) * 2020-03-31 2023-07-18 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111698552A (zh) * 2020-05-15 2020-09-22 完美世界(北京)软件科技发展有限公司 一种视频资源的生成方法和装置
CN111652165B (zh) * 2020-06-08 2022-05-17 北京世纪好未来教育科技有限公司 口型评测方法、设备及计算机存储介质
CN112333179B (zh) * 2020-10-30 2023-11-10 腾讯科技(深圳)有限公司 虚拟视频的直播方法、装置、设备及可读存储介质
CN112991006A (zh) * 2021-03-01 2021-06-18 深圳市改购时尚科技有限公司 基于试衣机的智能试衣方法、装置、设备及存储介质
CN115222856B (zh) * 2022-05-20 2023-09-26 一点灵犀信息技术(广州)有限公司 表情动画生成方法及电子设备
KR102649818B1 (ko) * 2022-05-26 2024-03-21 주식회사 딥브레인에이아이 3d 립싱크 비디오 생성 장치 및 방법
WO2024128356A1 (ko) * 2022-12-15 2024-06-20 엘지전자 주식회사 인공 지능 장치 및 그의 3차원 에이전시 생성 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008052628A (ja) * 2006-08-28 2008-03-06 Advanced Telecommunication Research Institute International アニメーションデータ作成装置及びアニメーションデータ作成プログラム
JP2018513399A (ja) * 2015-11-25 2018-05-24 バイドゥ ユーエスエー エルエルシーBaidu USA LLC 配置されたエンドツーエンド音声認識

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7388586B2 (en) * 2005-03-31 2008-06-17 Intel Corporation Method and apparatus for animation of a human speaker
KR100813034B1 (ko) * 2006-12-07 2008-03-14 한국전자통신연구원 캐릭터 형성방법
JP6518134B2 (ja) * 2015-05-27 2019-05-22 株式会社ソニー・インタラクティブエンタテインメント 眼前装着型表示装置
CN106356052B (zh) * 2016-10-17 2019-03-15 腾讯科技(深圳)有限公司 语音合成方法及装置
KR20180071029A (ko) * 2016-12-19 2018-06-27 삼성전자주식회사 음성 인식 방법 및 장치
CN106920547B (zh) * 2017-02-21 2021-11-02 腾讯科技(上海)有限公司 语音转换方法和装置
US10586368B2 (en) * 2017-10-26 2020-03-10 Snap Inc. Joint audio-video facial animation system
CN108447474B (zh) * 2018-03-12 2020-10-16 北京灵伴未来科技有限公司 一种虚拟人物语音与口型同步的建模与控制方法
CN108763190B (zh) * 2018-04-12 2019-04-02 平安科技(深圳)有限公司 基于语音的口型动画合成装置、方法及可读存储介质
CN108831463B (zh) * 2018-06-28 2021-11-12 广州方硅信息技术有限公司 唇语合成方法、装置、电子设备及存储介质
CN109308731B (zh) * 2018-08-24 2023-04-25 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN109377539B (zh) * 2018-11-06 2023-04-11 北京百度网讯科技有限公司 用于生成动画的方法和装置
CN109599113A (zh) * 2019-01-22 2019-04-09 北京百度网讯科技有限公司 用于处理信息的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008052628A (ja) * 2006-08-28 2008-03-06 Advanced Telecommunication Research Institute International アニメーションデータ作成装置及びアニメーションデータ作成プログラム
JP2018513399A (ja) * 2015-11-25 2018-05-24 バイドゥ ユーエスエー エルエルシーBaidu USA LLC 配置されたエンドツーエンド音声認識

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022530726A (ja) * 2020-03-31 2022-07-01 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体
WO2022158342A1 (ja) 2021-01-25 2022-07-28 三菱重工サーマルシステムズ株式会社 光照射ユニット、及び車両用空調装置

Also Published As

Publication number Publication date
CN110288682A (zh) 2019-09-27
US20200410731A1 (en) 2020-12-31
JP6936298B2 (ja) 2021-09-15
KR20210001859A (ko) 2021-01-06
KR102346046B1 (ko) 2021-12-30
US11308671B2 (en) 2022-04-19
CN110288682B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
JP6936298B2 (ja) 三次元仮想ポートレートの口形の変化を制御する方法および装置
US11158102B2 (en) Method and apparatus for processing information
JP7104683B2 (ja) 情報を生成する方法および装置
JP7208952B2 (ja) 対話モデルを生成するための方法及び装置
CN111599343B (zh) 用于生成音频的方法、装置、设备和介质
CN111916039B (zh) 音乐文件的处理方法、装置、终端及存储介质
US20230215068A1 (en) Method for outputting blend shape value, storage medium, and electronic device
JP2023525173A (ja) レンダリングされたグラフィカル出力を利用する会話型aiプラットフォーム
JP2021170313A (ja) ビデオを生成する方法および装置
JP7473676B2 (ja) オーディオ処理方法、装置、可読媒体及び電子機器
CN110047121B (zh) 端到端的动画生成方法、装置及电子设备
JP2023552854A (ja) ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム
CN110534085B (zh) 用于生成信息的方法和装置
CN113704390A (zh) 虚拟对象的交互方法、装置、计算机可读介质及电子设备
JP6949931B2 (ja) 情報を生成するための方法および装置
CN112381926B (zh) 用于生成视频的方法和装置
CN112383721B (zh) 用于生成视频的方法、装置、设备和介质
CN113282791A (zh) 视频生成方法和装置
CN116564272A (zh) 提供语音内容的方法及电子设备
CN114401439B (zh) 一种舞蹈视频生成方法、设备及存储介质
CN117935323A (zh) 人脸驱动模型的训练方法、视频生成方法及装置
US12033619B2 (en) Intelligent media transcription
CA3108116A1 (en) Real-time lip synchronization animation
CN112383722B (zh) 用于生成视频的方法和装置
KR102663162B1 (ko) 음성 합성 방법 및 시스템

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200529

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200529

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210316

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210702

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210826

R150 Certificate of patent or registration of utility model

Ref document number: 6936298

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250