JP2021009669A

JP2021009669A - 三次元仮想ポートレートの口形の変化を制御する方法および装置

Info

Publication number: JP2021009669A
Application number: JP2019227956A
Authority: JP
Inventors: チェン、チャオ; Chao Chen; ワン、チエンシアン; Jianxiang Wang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-12-18
Publication date: 2021-01-28
Anticipated expiration: 2039-12-18
Also published as: CN110288682A; US20200410731A1; JP6936298B2; KR20210001859A; KR102346046B1; US11308671B2; CN110288682B

Abstract

【課題】本開示の実施例は、クラウドコンピューティングの分野に関する、三次元仮想ポートレートの口形の変化を制御する方法および装置を開示する。【解決手段】この方法の特定の実施形態は、再生対象の音声を取得するステップと、少なくとも１つの音声セグメントを取得するために、上記再生対象の音声において所定の時間窓をプリセットステップサイズでスライドさせるステップと、上記少なくとも１つの音声セグメントに基づいて、上記再生対象の音声に対応する口形制御パラメータシーケンスを生成するステップと、上記再生対象の音声を再生する場合、上記口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御するステップと、を含む。この実施形態によれば、再生対象の音声に基づいて、口形制御パラメータシーケンスを自動的に生成して、音声と口形が同期して変化する三次元仮想ポートレートを効果的にレンダリングすることができる。【選択図】図２

Description

本開示の実施例は、コンピュータ技術の分野に関し、特に、三次元仮想ポートレートの口形の変化を制御する方法および装置に関する。

三次元仮想ポートレートの音声と口形との同期は、従来から研究の焦点となっており、幅広く応用されている。一般的な応用領域には、映画やアニメーション、ゲームエンターテイメントなどがある。三次元仮想ポートレートの音声と口形とを同期させる従来技術では、専門の技術者は通常、特定の音声セグメントに基づいて三次元仮想ポートレートのキーフレームを手動で設定し、これらのキーフレームにおける三次元仮想ポートレートの口形を調整する必要がある。キーフレーム間の遷移フレームにおける三次元仮想ポートレートの口形は、アニメーションエンジンによって自動的に生成される。例えば、それは、ＵＥ４（ＵｎｒｅａｌＥｎｇｉｎｅ４、アンリアルエンジン４）、Ｍａｙａ、Ｕｎｉｔｙ３Ｄなどのアニメーションエンジンによって自動的に生成することができる。このような方式は技術者の専門技術に大きく依存しており、フレームごとの手動作業は多くの労力を必要とし、そして、このような方式はリアルタイム性を有しない。

本開示の実施例は、三次元仮想ポートレートの口形の変化を制御する方法および装置を提供する。

第１の態様では、本開示の実施例は、三次元仮想ポートレートの口形の変化を制御する方法を提供する。この方法は、再生対象の音声を取得するステップと、少なくとも１つの音声セグメントを取得するために、上記再生対象の音声において上記所定の時間窓をプリセットステップサイズでスライドさせるステップと、上記少なくとも１つの音声セグメントに基づいて、上記再生対象の音声に対応する口形制御パラメータシーケンスを生成するステップと、上記再生対象の音声を再生する場合、上記口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御するステップと、を含む。

いくつかの実施例では、上記少なくとも１つの音声セグメントに基づいて、上記再生対象の音声に対応する口形制御パラメータシーケンスを生成する上記ステップは、上記少なくとも１つの音声セグメントに基づいて、二次元特徴マトリックスシーケンスを生成するステップと、上記二次元特徴マトリックスシーケンスを二次元特徴マトリックスと口形制御パラメータとの対応関係を特徴付ける、事前に確立された畳み込みニューラルネットワークに入力し、口形制御パラメータシーケンスを取得するステップと、を含む。

いくつかの実施例では、上記少なくとも１つの音声セグメントに基づいて、二次元特徴マトリックスシーケンスを生成する上記ステップは、上記少なくとも１つの音声セグメントにおける音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成するステップと、上記再生対象の音声における上記少なくとも１つの音声セグメントの優先順位に従って、生成された少なくとも１つの二次元特徴マトリックスを接合して二次元特徴マトリックスシーケンスを生成するステップと、を含む。

いくつかの実施例では、上記少なくとも１つの音声セグメントにおける音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成する上記ステップは、この音声セグメントを隣接する２つの音声サブセグメントが部分的に重なる所定数の音声サブセグメントに分割するステップと、上記所定数の音声サブセグメントにおける音声サブセグメントに対して、この音声サブセグメントの特徴を抽出し、この音声サブセグメントに対応する音声特徴ベクトルを取得するステップと、取得された所定数の音声特徴ベクトルに基づいて、この音声セグメントに対応する二次元特徴マトリックスを生成するステップと、を含む。

いくつかの実施例では、上記少なくとも１つの音声セグメントに基づいて、上記再生対象の音声に対応する口形制御パラメータシーケンスを生成する上記ステップは、上記少なくとも１つの音声セグメントにおける音声セグメントに対して、この音声セグメントの音素シーケンスを生成し、この音素シーケンスを符号化して音素情報を取得するステップと、少なくとも１本の音素情報からなる音素情報シーケンスを音素情報シーケンスと口形キーポイント情報シーケンスとの対応関係を特徴付ける、事前に確立された口形キーポイント予測モデルに入力し、少なくとも１本の口形キーポイント情報からなる口形キーポイント情報シーケンスを取得するステップと、上記口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成するステップと、を含む。

いくつかの実施例では、上記口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成する上記ステップは、上記口形キーポイント情報シーケンス内の口形キーポイント情報に対して、事前に確立されたサンプル口形キーポイント情報とサンプル口形制御パラメータとの対応関係に基づいて、この口形キーポイント情報に対応する口形制御パラメータを取得するステップと、取得された少なくとも１つの口形制御パラメータに基づいて、口形制御パラメータシーケンスを生成するステップと、を含む。

いくつかの実施例では、上記口形キーポイント予測モデルは、ループ本体が長期／短期記憶ネットワークであるリカレントニューラルネットワークである。

第２の態様では、本開示の実施例は、三次元仮想ポートレートの口形の変化を制御する装置を提供する。この装置は、再生対象の音声を取得するように構成された取得ユニットと、少なくとも１つの音声セグメントを取得するために、上記再生対象の音声において上記所定の時間窓をプリセットステップサイズでスライドさせるように構成されたスライドユニットと、上記少なくとも１つの音声セグメントに基づいて、上記再生対象の音声に対応する口形制御パラメータシーケンスを生成するように構成された生成ユニットと、上記再生対象の音声を再生する場合、上記口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御するように構成された制御ユニットと、を含む。

いくつかの実施例では、上記生成ユニットは、上記少なくとも１つの音声セグメントに基づいて、二次元特徴マトリックスシーケンスを生成するように構成された第一生成サブユニットと、上記二次元特徴マトリックスシーケンスを二次元特徴マトリックスと口形制御パラメータとの対応関係を特徴付ける、事前に確立された畳み込みニューラルネットワークに入力し、口形制御パラメータシーケンスを取得するように構成された第二生成サブユニットと、を含む。

いくつかの実施例では、上記第一生成サブユニットは、上記少なくとも１つの音声セグメントにおける音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成するように構成された第一生成モジュールと、上記再生対象の音声における上記少なくとも１つの音声セグメントの優先順位に従って、生成された少なくとも１つの二次元特徴マトリックスを接合して二次元特徴マトリックスシーケンスを生成するように構成された第二生成モジュールと、を含む。

いくつかの実施例では、上記第一生成モジュールは、さらに、この音声セグメントを隣接する２つの音声サブセグメントが部分的に重なる所定数の音声サブセグメントに分割し、上記所定数の音声サブセグメントにおける音声サブセグメントに対して、この音声サブセグメントの特徴を抽出し、この音声サブセグメントに対応する音声特徴ベクトルを取得し、取得された所定数の音声特徴ベクトルに基づいて、この音声セグメントに対応する二次元特徴マトリックスを生成するように構成されている。

いくつかの実施例では、上記生成ユニットは、上記少なくとも１つの音声セグメントにおける音声セグメントに対して、この音声セグメントの音素シーケンスを生成し、この音素シーケンスを符号化して音素情報を取得するように構成された情報生成ユニットと、少なくとも１本の音素情報からなる音素情報シーケンスを音素情報シーケンスと口形キーポイント情報シーケンスとの対応関係を特徴付ける、事前に確立された口形キーポイント予測モデルに入力し、少なくとも１本の口形キーポイント情報からなる口形キーポイント情報シーケンスを取得するように構成された情報シーケンス生成ユニットと、上記口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成するように構成されたパラメータシーケンス生成ユニットと、を含む。

いくつかの実施例では、上記パラメータシーケンス生成ユニットは、さらに、上記口形キーポイント情報シーケンス内の口形キーポイント情報に対して、事前に確立されたサンプル口形キーポイント情報とサンプル口形制御パラメータとの対応関係に基づいて、この口形キーポイント情報に対応する口形制御パラメータを取得し、取得された少なくとも１つの口形制御パラメータに基づいて、口形制御パラメータシーケンスを生成するように構成されている。

第３の態様では、本開示の実施例は、端末装置であって、１つまたは複数のプロセッサと、１つまたは複数のプログラムを記憶した記憶装置と、を含み、上記１つまたは複数のプログラムが、上記１つまたは複数のプロセッサによって実行されると、上記１つまたは複数のプロセッサが第１の態様のいずれかの実施形態に記載の方法を実行させる端末装置を提供する。

第４の態様では、本開示の実施例は、コンピュータプログラムを記憶したコンピュータ可読媒体であって、コンピュータプログラムがプロセッサによって実行されると、第１の態様のいずれかの実施形態に記載の方法を実行させるコンピュータ可読媒体を提供する。

本開示の実施例によって提供される、三次元仮想ポートレートの口形の変化を制御する方法および装置は、まず、少なくとも１つの音声セグメントを取得するために、取得された再生対象の音声において所定の時間窓をプリセットステップサイズでスライドさせるステップを実行し、その後、取得された少なくとも１つの音声セグメントに基づいて、再生対象の音声に対応する口形制御パラメータシーケンスを生成するステップを実行し、最後に、再生対象の音声を再生する場合、口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御するステップを実行することによって、再生対象の音声に基づいて、口形制御パラメータシーケンスを自動的に生成して、音声と口形が同期して変化する三次元仮想ポートレートを効果的にレンダリングすることができる。

本開示の他の特徴、目的および利点は、以下の図面で行われる非限定的な実施例についての以下の詳細な説明からより明らかになるであろう。
本開示の一実施例が適用され得る例示的なシステムアーキテクチャ図である。本開示に係る、三次元仮想ポートレートの口形の変化を制御する方法の一実施例のフローチャートである。ｊａｗ＿ｏｐｅｎ＝０およびｊａｗ＿ｏｐｅｎ＝１に対応する三次元仮想ポートレートの顎の開閉度を示す図である。ｊａｗ＿ｏｐｅｎ＝０およびｊａｗ＿ｏｐｅｎ＝１に対応する三次元仮想ポートレートの顎の開閉度を示す図である。本開示に係る、再生対象の音声から口形キーポイント情報シーケンスまでの概略図である。本開示に係る、三次元仮想ポートレートの口形の変化を制御する方法の適用シナリオの概略図である。本開示に係る、三次元仮想ポートレートの口形の変化を制御する方法の別の実施例のフローチャートである。本開示に係る、三次元仮想ポートレートの口形の変化を制御する装置の一実施例の構造概略図である。本開示の実施例を実施するのに適した機器のコンピュータシステムの構造概略図である。

以下、図面および実施例を参照して本開示をさらに詳細に説明する。本明細書に記載の特定の実施例は、本発明を解釈するものにすぎず、本発明を限定するものではないことが理解される。また、説明の便宜上、本発明に関連する部分のみが図面に示されている。

なお、本開示の実施例および実施例における特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面および実施例を参照して本開示を詳細に説明する。

図１は、本開示の実施例が適用され得る、三次元仮想ポートレートの口形の変化を制御する方法または三次元仮想ポートレートの口形の変化を制御する装置の例示的なシステムアーキテクチャ１００を示している。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含むことができる。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間に通信リンクを提供するための媒体である。ネットワーク１０４は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続形態を含むことができる。

ユーザは、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５と対話し、情報などを送受信することができる。ウェブブラウザアプリケーション、ゲームアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントメッセージツールなどの様々な通信クライアントアプリケーションは、端末装置１０１、１０２、１０３にインストールすることができる。

端末装置１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、表示画面を有し、音声再生をサポートする様々な電子機器であってもよい。端末装置１０１、１０２、１０３がソフトウェアである場合、それらは、上記に挙げた電子機器にインストールすることができる。それは、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実現されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定しない。

サーバ１０５は、端末装置１０１、１０２、１０３によって再生される音声にサポートを提供するバックグラウンドサーバなど、様々なサービスを提供するサーバであってもよい。バックグラウンドサーバは、受信したテキストや音声などのデータに対して分析処理などを行い、処理結果（例えば、再生対象の音声）を端末装置１０１、１０２、１０３にフィードバックすることができる。

なお、サーバ１０５は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ１０５がハードウェアである場合、それは、複数のサーバからなる分散サーバクラスタとして実現されてもよいし、単一のサーバとして実現されてもよい。サーバ１０５がソフトウェアである場合、それは、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実現されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定しない。

図１の端末装置、ネットワーク、およびサーバの数は、単なる例示であることが理解される。実際のニーズに応じて、端末装置、ネットワーク、およびサーバの数が任意であってもよい。

なお、本開示の実施例によって提供される、三次元仮想ポートレートの口形の変化を制御する方法は、一般に端末装置１０１、１０２、１０３によって実行され、それに応じて、三次元仮想ポートレートの口形の変化を制御する装置は、一般に端末装置１０１、１０２、１０３に配置される。

さらに図２を参照すると、図２は、本開示に係る、三次元仮想ポートレートの口形の変化を制御する方法の一実施例のプロセス２００を示している。三次元仮想ポートレートの口形の変化を制御する方法は、以下のステップを含む。

ステップ２０１、再生対象の音声を取得する。

本実施例では、三次元仮想ポートレートの口形の変化を制御する方法の実行主体（例えば、図１に示す端末装置１０１、１０２、１０３）は、様々な方法を用いて再生対象の音声を取得することができる。一例として、再生対象の音声は、実行主体によって自動的に生成される音声であってもよい。例えば、実行主体は、ユーザが入力した情報（例えば、テキスト情報、音声情報、画像情報など）に基づいて応答音声を生成し、生成された応答音声を再生対象の音声として設定することができる。別の例として、再生対象の音声は、実行主体が他の機器（例えば、図１に示すサーバ１０５）から取得する音声であってもよい。

ステップ２０２、少なくとも１つの音声セグメントを取得するために、再生対象の音声において所定の時間窓をプリセットステップサイズでスライドさせる。

本実施例では、時間窓は、実行主体内に予め設定されてもよい。ここで、時間窓は、時間の長さが実際のニーズに応じて設定できる時間帯を意味し得る。一例として、時間窓は、５２０ｍｓ（ミリ秒）に設定することができる。実行主体は、少なくとも１つの音声セグメントを取得するために、ステップ２０１で取得された再生対象の音声において上記時間窓をプリセットステップサイズでスライドさせることができる。実際には、毎回スライドした時間窓における音声は、音声セグメントとして設定することができる。ここで、上記ステップサイズは、実際のニーズに応じて設定することができる。一例として、ステップサイズは、１０ｍｓに設定することができる。

ステップ２０３、少なくとも１つの音声セグメントに基づいて、再生対象の音声に対応する口形制御パラメータシーケンスを生成する。

本実施例では、実行主体は、ステップ２０２で取得された少なくとも１つの音声セグメントに基づいて、再生対象の音声に対応する口形制御パラメータシーケンスを生成する。ここで、口形制御パラメータシーケンスは、予め設定された三次元仮想ポートレートの口形の変化を制御するために使用できる。実際には、口形制御パラメータシーケンスは、口形制御パラメータを音声セグメントごとに生成することによって取得することができる。時間窓のスライドステップサイズを１０ｍｓとする例として、音声セグメントが１０ｍｓごとに決定され、口形制御パラメータが各音声セグメントによって取得されるため、口形制御パラメータは１０ｍｓごとに生成することができ、即ち、再生対象の音声に対応する口形制御パラメータシーケンスにおける各口形制御パラメータの間隔は１０ｍｓである。

ここで、口形制御パラメータは、三次元仮想ポートレートの開発ツールによって開発された三次元仮想ポートレートの口形変化パラメータを意味し得る。実際には、ＵＥ４、Ｍａｙａ、Ｕｎｉｔｙ３Ｄなどの従来のアニメーションエンジンは、三次元仮想ポートレートの開発ツールとして使用することができる。三次元仮想ポートレートの顔（または口形）の駆動は、ベクトルであってもよいいくつかの所定のパラメータによって制御することができる。このベクトルの各次元は、［０、１］の数値範囲を有してもよく、特定の顔の動きを表す。例えば、このベクトルは、この値が大きいほど、開閉度が大きくなる、三次元仮想ポートレートの顎の開閉度を制御するための次元ｊａｗ＿ｏｐｅｎを含むことができる。図３ａおよび図３ｂはそれぞれ、ｊａｗ＿ｏｐｅｎ＝０およびｊａｗ＿ｏｐｅｎ＝１に対応する三次元仮想ポートレートの顎の開閉度を示している。なお、図３ａおよび図３ｂの三次元仮想ポートレートは、三次元仮想ポートレートの性別、外形などを限定するものではなく、単なる例示である。

本実施例のいくつかの代替的な実施形態では、上記ステップ２０３は具体的に、以下の内容を含むことができる。

ステップＳ１、少なくとも１つの音声セグメントにおける音声セグメントに対して、この音声セグメントの音素シーケンスを生成し、この音素シーケンスを符号化して音素情報を取得する。

本実施形態では、実行主体は、ステップ２０２で取得された少なくとも１つの音声セグメントにおける各音声セグメントに対して、この音声セグメントの音素シーケンスを生成することができる。ここで、音素シーケンスは、複数の音素が時間軸上に配置されていることを意味し得る。音素は音声の最小単位であり、各音素は特定の発音に対応する。現在、音声セグメントの音素シーケンスは、従来の音響モデルによって生成することができる。その後、実行主体は、取得した音素シーケンスを符号化して音素情報を取得することができる。このようにして、実行主体は、各音声セグメントに基づいて音素情報を生成することができる。ここで、符号化は、音素シーケンスをさらに処理するためにデジタル形式の音声情報に変換することを意味し得る。

ステップＳ２、少なくとも１本の音素情報からなる音素情報シーケンスを事前に確立された口形キーポイント予測モデルに入力し、少なくとも１本の口形キーポイント情報からなる口形キーポイント情報シーケンスを取得する。

本実施形態では、実行主体は、まず、ステップＳ１で取得された少なくとも１本の音素情報を用いて音素情報シーケンスを構成することができる。一例として、実行主体は、前記少なくとも１本の音素情報における各音素情報に対して、再生対象の音声における、この音素情報を生成した音声セグメントの位置に基づいて、音素情報シーケンスにおけるこの音素情報の位置を決定することができる。その後、実行主体は、上記音素情報シーケンスを事前に確立された口形キーポイント予測モデルに入力し、少なくとも１本の口形キーポイント情報からなる口形キーポイント情報シーケンスを取得することができる。ここで、口形キーポイント情報は、口形に関連する所定数（例えば、２０個）の顔キーポイントの位置情報を示すために使用できる。ここで、口形キーポイント予測モデルは、音素情報シーケンスと口形キーポイント情報シーケンスとの対応関係を特徴付けることができる。一例として、口形キーポイント予測モデルは、多くの音素情報シーケンスおよび口形キーポイント情報シーケンスの統計に基づいて技術者によって事前に決定され、複数の音素情報シーケンスと口形キーポイント情報シーケンスとの対応関係を記憶した対応関係表であってもよい。別の例として、実行主体は、機械学習アルゴリズムに基づいてトレーニングして得られた機械学習モデルであってもよい。

いくつかの代替的な実施形態では、ステップＳ２の口形キーポイント予測モデルは、ループ本体が長期／短期記憶ネットワークであるリカレントニューラルネットワークであってもよい。

本実施形態では、ステップＳ２の口形キーポイント予測モデルは、リカレントニューラルネットワークであってもよい。リカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）は、シーケンスデータを入力とし、シーケンスの進化方向に再帰処理を行ってすべてのノード（ループ本体）をチェーンで接続した再帰型ニューラルネットワークである。ここで、リカレントニューラルネットワークのループ本体は、長期／短期記憶ネットワーク（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ、ＬＳＴＭ）であってもよい。一例として、図４は、再生対象の音声から口形キーポイント情報シーケンスまでの概略図を例示的に示しており、ループ本体が長期／短期記憶ネットワークであるリカレントニューラルネットワークが使用される。図４の点線枠は時間窓を示し、点線枠の矢印は時間窓のスライド方向を示している。図４に示す情報から分かるように、音素情報シーケンス内の特定の音素情報に対応する口形キーポイント情報を予測する際に、前回の音素情報に基づいて取得された口形キーポイント情報が使用される。従って、本実施形態では、口形キーポイント情報シーケンスを生成するとき、生成される口形キーポイント情報シーケンスをより正確にするために、前後２本の口形キーポイント情報の間の関連性を総合的に考慮する。なお、図４に示すリカレントニューラルネットワークの構造は、リカレントニューラルネットワークの構造を限定するものではなく、単なる例示である。

ステップＳ３、口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成する。

本実施形態では、実行主体は、口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成することができる。実際には、特定の口形キーポイント情報は特定の口形に対応し、特定の口形は特定の口形制御パラメータに対応し、即ち、口形キーポイント情報と口形制御パラメータとの関連性が高い。従って、実行主体は、口形キーポイント情報に基づいて、口形制御パラメータを決定することができる。

いくつかの代替的な実施形態では、上記ステップ２０３は具体的に、以下の内容を含むことができる。

まず、口形キーポイント情報シーケンス内の口形キーポイント情報に対して、事前に確立されたサンプル口形キーポイント情報とサンプル口形制御パラメータとの対応関係に基づいて、この口形キーポイント情報に対応する口形制御パラメータを取得する。

本実施形態では、サンプル口形キーポイント情報とサンプル口形制御パラメータとの対応関係、即ち複数の関係ペア（サンプル口形キーポイント情報とサンプル口形制御パラメータとの関係ペア）は、実行主体内に事前に記憶することができる。このようにして、実行主体は、口形キーポイント情報シーケンス内の各口形キーポイント情報に対して、この口形キーポイント情報と複数の関係ペアにおけるサンプル口形キーポイント情報との類似度を計算し、複数の関係ペアにおける、この口形キーポイント情報との類似度が最も高いサンプル口形キーポイント情報に対応するサンプル口形制御パラメータを、この口形キーポイント情報に対応する口形制御パラメータとして設定することができる。

その後、取得された少なくとも１つの口形制御パラメータに基づいて、口形制御パラメータシーケンスを生成する。

本実施形態では、実行主体は、口形キーポイント情報シーケンス内の各口形キーポイント情報に対して、口形制御パラメータを取得することができる。このようにして、実行主体は、少なくとも１つの口形制御パラメータを取得することができる。実行主体は、取得された少なくとも１つの口形制御パラメータに基づいて、口形制御パラメータシーケンスを生成することができる。

ステップ２０４、再生対象の音声を再生する場合、口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御する。

本実施例では、実行主体は、再生対象の音声を再生しながら、ステップ２０３で生成された口形制御パラメータに基づいて、三次元仮想ポートレートの口形の変化を同期制御することができる。このようにして、実行主体は、音声と口形が同期して変化する三次元仮想ポートレートをユーザに表示することができるため、三次元仮想ポートレートのリアル感を向上させ、ユーザエクスペリエンスを向上させる。

さらに図５を参照すると、図５は、本実施例に係る、三次元仮想ポートレートの口形の変化を制御する方法の適用シナリオの概略図である。図５の適用シナリオでは、端末装置５０１は、まず、再生対象の音声５０２を取得する。その後、端末装置５０１は、少なくとも１つの音声セグメントを取得するために、再生対象の音声５０２において時間窓（点線枠に示すもの）を１０ｍｓのステップサイズで５２０ｍｓスライドさせる。その後、端末装置５０１は、少なくとも１つの音声セグメントに基づいて、再生対象の音声５０２に対応する口形制御パラメータシーケンスを生成する。最後に、端末装置５０１は、再生対象の音声５０２を再生する場合、口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御し、音声と口形が同期して変化する三次元仮想ポートレートをユーザに表示する。

本開示の上記実施例によって提供される方法は、再生対象の音声に基づいて、口形制御パラメータシーケンスを自動的に生成して、音声と口形が同期して変化する三次元仮想ポートレートを効果的にレンダリングすることができる。

さらに図６を参照すると、図６は、三次元仮想ポートレートの口形の変化を制御する方法の別の実施例のプロセス６００を示している。三次元仮想ポートレートの口形の変化を制御する方法のプロセス６００は、以下のステップを含む。

ステップ６０１、再生対象の音声を取得する。

本実施例では、ステップ６０１は、図２に示す実施例のステップ２０１と同様であるため、ここではその説明を省略する。

ステップ６０２、少なくとも１つの音声セグメントを取得するために、再生対象の音声において所定の時間窓をプリセットステップサイズでスライドさせる。

本実施例では、ステップ６０２は、図２に示す実施例のステップ２０２と同様であるため、ここではその説明を省略する。

ステップ６０３、少なくとも１つの音声セグメントに基づいて、二次元特徴マトリックスシーケンスを生成する。

本実施例では、実行主体は、ステップ６０２で取得された少なくとも１つの音声セグメントに基づいて、様々な方法を用いて二次元特徴マトリックスシーケンスを生成することができる。例えば、音声セグメントの特徴を抽出し、特徴抽出結果に基づいて、二次元特徴マトリックスシーケンスを生成することができる。

本実施例のいくつかの代替的な実施形態では、上記ステップ６０３は具体的に、以下のステップを含むことができる。

ステップ１、少なくとも１つの音声セグメントにおける音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成する。

本実施形態では、実行主体は、上記なくとも１つの音声セグメントにおける各音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成することができる。ここで、実行主体は、様々な方法を用いてこの音声セグメントから特徴を抽出し、二次元特徴マトリックスを生成することができる。

いくつかの代替的な実施形態では、上記ステップ１は具体的に、以下の内容を含むこともできる。

まず、この音声セグメントを所定数の音声サブセグメントに分割する。

本実施形態では、実行主体は、この音声セグメントを隣接する２つの音声サブセグメントが部分的に重なる所定数の音声サブセグメントに分割することができる。この音声セグメントを５２０ｍｓの音声セグメントとする例として、実行主体は、この音声セグメントを各音声サブセグメントが１６ｍｓであり、隣接する２つの音声サブセグメントが８ｍｓ重なる６４個の音声サブセグメントに分割することができる。ここでは、隣接する２つの音声サブセグメントが部分的に重なるため、後続の特徴抽出処理を実行する際に十分な特徴を抽出することができる。

その後、所定数の音声サブセグメントにおける音声サブセグメントに対して、この音声サブセグメントの特徴を抽出し、この音声サブセグメントに対応する音声特徴ベクトルを取得する。

本実施形態では、実行主体は、所定数の音声サブセグメントにおける各音声サブセグメントに対して、この音声サブセグメントの特徴を抽出し、この音声サブセグメントに対応する音声特徴ベクトルを取得することができる。一例として、実行主体は、各音声サブセグメントに対して、ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ、線形予測符号化）の最初の所定数（例えば、最初の３２個）の成分を抽出し、最初の所定数の成分を音声特徴ベクトルとして設定することができる。このようにして、実行主体は、所定数の音声サブセグメントに基づいて、所定数の音声特徴ベクトルを取得することができる。

最後に、取得された所定数の音声特徴ベクトルに基づいて、この音声セグメントに対応する二次元特徴マトリックスを生成する。

本実施形態では、実行主体は、取得された所定数の音声特徴ベクトルに基づいて、この音声セグメントに対応する二次元特徴マトリックスを生成することができる。一例として、実行主体は、この音声セグメントにおける音声サブセグメントの優先順位に従って、セマンティックサブセグメントに基づいて生成された音声特徴ベクトルを上から下にソートすることによって、この音声セグメントに対応する二次元特徴マトリックスを取得することができる。

ステップ２、再生対象の音声における少なくとも１つの音声セグメントの優先順位に従って、生成された少なくとも１つの二次元特徴マトリックスを接合して二次元特徴マトリックスシーケンスを生成する。

本実施形態では、再生対象の音声における上記少なくとも１つの音声セグメントのそれぞれの優先順位に従って、少なくとも１つの音声セグメントに基づいて生成された少なくとも１つの二次元特徴マトリックスを接合して二次元特徴マトリックスシーケンスを生成する。

ステップ６０４、二次元特徴マトリックスシーケンスを事前に確立された畳み込みニューラルネットワークに入力し、口形制御パラメータシーケンスを取得する。

本実施例では、二次元特徴マトリックスと口形制御パラメータとの対応関係を特徴付ける畳み込みニューラルネットワークは、実行主体内に事前に確立することができる。このようにして、実行主体は、ステップ６０３で生成された二次元特徴マトリックスシーケンスを上記畳み込みニューラルネットワークに入力することができる。畳み込みニューラルネットワークは、二次元特徴マトリックスシーケンス内の二次元特徴マトリックスを順次処理して、口形制御パラメータシーケンスを取得することができる。

ここで、上記畳み込みニューラルネットワークのネットワーク構造は、実際のニーズに応じて設定することができる。一例として、上記畳み込みニューラルネットワークは、入力層、畳み込み層、完全接続層、出力層などを含むことができる。一例として、上記畳み込みニューラルネットワークは、入力層、所定数（例えば、１０個）の畳み込み層、所定数（例えば、２個）の完全接続層、出力層などを順次含むことができる。実際には、上記畳み込みニューラルネットワークは、多くのサンプルデータに基づいてトレーニングして得られたものであってもよい。ここで、サンプルデータは、サンプル二次元特徴マトリックスと、サンプル二次元特徴マトリックスに対応するサンプル口形制御パラメータとを含むことができる。トレーニングするとき、サンプル二次元特徴マトリックスを入力とし、入力されたサンプル二次元特徴マトリックスに対応するサンプル口形制御パラメータを所望の出力としてトレーニングして、畳み込みニューラルネットワークを取得することができる。

ステップ６０５、再生対象の音声を再生する場合、口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御する。

本実施例では、ステップ６０５は、図２に示す実施例のステップ２０４と同様であるため、ここではその説明を省略する。

図６から分かるように、本実施例における、三次元仮想ポートレートの口形の変化を制御するプロセス６００は、図２に対応する実施例のプロセスと比べて、畳み込みニューラルネットワークに基づいて口形制御パラメータシーケンスを生成するステップを強調している。畳み込みニューラルネットワークは、多くのサンプルデータに基づいてトレーニングして得られたものであり、また、生成された口形制御パラメータシーケンスをより正確にすることができる。従って、本実施例に記載の解決手段は、音声と口形が同期して変化する三次元仮想ポートレートの口形の変化をよりリアルにすることができる。

さらに図７を参照すると、上記各図に示された方法の実施形態として、本開示は、図２に示す方法の実施例に対応する、三次元仮想ポートレートの口形の変化を制御する装置の一実施例を提供する。この装置は様々な電子機器に特に適用できる。

図７に示すように、本実施例における、三次元仮想ポートレートの口形の変化を制御する装置７００は、再生対象の音声を取得するように構成された取得ユニットト７０１と、少なくとも１つの音声セグメントを取得するために、上記再生対象の音声において所定の時間窓をプリセットステップサイズでスライドさせるように構成されたスライドユニット７０２と、上記少なくとも１つの音声セグメントに基づいて、上記再生対象の音声に対応する口形制御パラメータシーケンスを生成するように構成された生成ユニット７０３と、上記再生対象の音声を再生する場合、上記口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御するように構成された制御ユニット７０４と、を含む。

本実施例では、三次元仮想ポートレートの口形の変化を制御する装置７００の取得ユニットト７０１、スライドユニット７０２、生成ユニット７０３、および制御ユニット７０４の具体的な処理とその技術的効果は、それぞれ図２に対応する実施例のステップ２０１、ステップ２０２、ステップ２０３、およびステップ２０４を参照することができるため、ここではその説明を省略する。

本実施例のいくつかの代替的な実施形態では、上記生成ユニット７０３は、上記少なくとも１つの音声セグメントに基づいて、二次元特徴マトリックスシーケンスを生成するように構成された第一生成サブユニット（図示せず）と、上記二次元特徴マトリックスシーケンスを二次元特徴マトリックスと口形制御パラメータとの対応関係を特徴付ける、事前に確立された畳み込みニューラルネットワークに入力し、口形制御パラメータシーケンスを取得するように構成された第二生成サブユニット（図示せず）と、を含む。

本実施例のいくつかの代替的な実施形態では、上記第一生成サブユニットは、上記少なくとも１つの音声セグメントにおける音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成するように構成された第一生成モジュール（図示せず）と、上記再生対象の音声における上記少なくとも１つの音声セグメントの優先順位に従って、生成された少なくとも１つの二次元特徴マトリックスを接合して二次元特徴マトリックスシーケンスを生成するように構成された第二生成モジュール（図示せず）と、を含む。

本実施例のいくつかの代替的な実施形態では、上記第一生成モジュールは、この音声セグメントを隣接する２つの音声サブセグメントが部分的に重なる所定数の音声サブセグメントに分割するステップと、上記所定数の音声サブセグメントにおける音声サブセグメントに対して、この音声サブセグメントの特徴を抽出し、この音声サブセグメントに対応する音声特徴ベクトルを取得するステップと、取得された所定数の音声特徴ベクトルに基づいて、この音声セグメントに対応する二次元特徴マトリックスを生成するステップと、を実行するようにさらに構成されている。

本実施例のいくつかの代替的な実施形態では、上記生成ユニット７０３は、上記少なくとも１つの音声セグメントにおける音声セグメントに対して、この音声セグメントの音素シーケンスを生成し、この音素シーケンスを符号化して音素情報を取得するように構成された情報生成ユニット（図示せず）と、少なくとも１本の音素情報からなる音素情報シーケンスを音素情報シーケンスと口形キーポイント情報シーケンスとの対応関係を特徴付ける、事前に確立された口形キーポイント予測モデルに入力し、少なくとも１本の口形キーポイント情報からなる口形キーポイント情報シーケンスを取得するように構成された情報シーケンス生成ユニット（図示せず）と、上記口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成するように構成されたパラメータシーケンス生成ユニット（図示せず）と、を含む。

本実施例のいくつかの代替的な実施形態では、上記パラメータシーケンス生成ユニットは、上記口形キーポイント情報シーケンス内の口形キーポイント情報に対して、事前に確立されたサンプル口形キーポイント情報とサンプル口形制御パラメータとの対応関係に基づいて、この口形キーポイント情報に対応する口形制御パラメータを取得するステップと、取得された少なくとも１つの口形制御パラメータに基づいて、口形制御パラメータシーケンスを生成するステップと、を実行するようにさらに構成されている。

本実施例のいくつかの代替的な実施形態では、上記口形キーポイント予測モデルは、ループ本体が長期／短期記憶ネットワークであるリカレントニューラルネットワークである。

さらに図８を参照すると、図８は、本開示の実施例を実施するのに適した電子機器（例えば、図１の端末装置）８００の構造概略図を示している。本開示の実施例における端末装置は、携帯電話、ノートブックコンピュータ、デジタル放送受信機、ＰＤＡ（パーソナルデジタルアシスタント）、ＰＡＤ（タブレットコンピュータ）、ＰＭＰ（ポータブルマルチメディアプレーヤー）、車載端末（例えば、カーナビゲーション端末）などのモバイル端末と、デジタルＴＶ、デスクトップコンピュータなどの固定端末と、を含むがこれらに限定されない。図８に示す端末装置は単なる例示であり、本開示の実施例の機能および使用範囲にいかなる制限も課すべきではない。

図８に示すように、電子機器８００は、リードオンリメモリ（ＲＯＭ）８０２に記憶されたプログラム、または記憶装置８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたプログラムに従って、各種の適切な動作および処理を実行することができる、処理装置（例えば、中央処理装置、グラフィックプロセッサなど）８０１を含むことができる。ＲＡＭ８０３には、電子機器８００の動作に必要な各種のプログラムやデータも記憶されている。処理装置８０１、ＲＯＭ８０２、およびＲＡＭ８０３は、バス８０４を介して相互に接続されている。入力／出力（Ｉ／Ｏ）インターフェース８０５もバス８０４に接続されている。

一般に、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどを含む入力装置８０６と、液晶ディスプレイ（ＬＣＤ）、スピーカ、バイブレータなどを含む出力装置８０７と、磁気テープ、ハードディスクなどを含む記憶装置８０８と、通信装置８０９とは、Ｉ／Ｏインターフェース８０５に接続できる。通信装置８０９は、電子機器８００がデータを交換するために他の機器と無線または有線で通信することを可能にすることができる。図８は、様々な装置を有する電子機器８００を示しているが、示された装置のすべてを実装または具備する必要はないことが理解される。より多いまたはより少ない装置は、代替的に実装または具備されてもよい。図８に示す各ブロックは、１つの装置を表すことができるし、必要に応じて複数の装置を表すことができる。

特に、本開示の実施例によれば、フローチャートを参照して上述したプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施例は、コンピュータ可読媒体上で搬送されるコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例では、このコンピュータプログラムは、通信装置８０９を介してネットワークからダウンロードしてインストールされてもよいし、記憶装置８０８からインストールされてもよいし、ＲＯＭ８０２からインストールされてもよい。このコンピュータプログラムが処理装置８０１によって実行されると、本開示の実施例の方法において限定された上記機能が実行される。

なお、本開示の実施例に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体、コンピュータ可読記憶媒体、または上記両者の任意の組み合わせであってもよい。例えば、コンピュータ可読記憶媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置、または機器であってもよいし、これらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１本または複数本の導線を備えた電気コネクタ、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブル・コンパクト・ディスク・リードオンリメモリ（ＣＤ−ＲＯＭ）、光学メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。本開示の実施例では、コンピュータ可読記憶媒体は、命令実行システム、装置、または機器によって使用され得るか、またはそれらと組み合わせて使用され得るプログラムを含むかまたは記憶する任意の有形媒体であってもよい。本開示の実施例では、コンピュータ可読信号媒体は、ベースバンド内で伝搬されるか、またはコンピュータ可読プログラムコードを搬送するキャリアの一部として伝搬されるデータ信号を含むことができる。そのように伝搬されるデータ信号には、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むがこれらに限定されない、様々な形態を採用することができる。コンピュータ可読信号媒体は、命令実行システム、装置、または機器によって使用されるか、またはそれらと組み合わせて使用されるプログラムを送信、伝搬、または伝送することができる、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。コンピュータ可読媒体に含まれるプログラムコードは、電線、光ファイバケーブル、ＲＦ（無線周波数）などを含むか、またはこれらの任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体によって送信することができる。

上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよいし、この電子機器に組み込まれることなく、単独で存在するものであってもよい。上記コンピュータ可読媒体は、１つまたは複数のプログラムを搬送するものであり、上記１つまたは複数のプログラムがこの電子機器によって実行されるとき、この電子機器は、再生対象の音声を取得するステップと、少なくとも１つの音声セグメントを取得するために、上記再生対象の音声において所定の時間窓をプリセットステップサイズでスライドさせるステップと、上記少なくとも１つの音声セグメントに基づいて、上記再生対象の音声に対応する口形制御パラメータシーケンスを生成するステップと、上記再生対象の音声を再生する場合、上記口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御するステップと、を実行する。

本開示の実施例の動作を実行するためのコンピュータプログラムコードは、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語と、「Ｃ」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む１つまたは複数のプログラミング言語、またはそれらの組み合わせで書かれてもよい。プログラムコードは、完全にユーザコンピュータ上で実行され得るか、または部分的にユーザコンピュータ上で実行され得るか、または独立したソフトウェアパッケージとして、部分的にユーザコンピュータ上で、部分的にリモートコンピュータ上で実行され得るか、または完全にリモートコンピュータまたはサーバ上で実行され得る。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介して、ユーザコンピュータに接続され得るか、または外部コンピュータに接続され得る（例えば、インターネットサービスプロバイダを利用してインターネットを介して接続される）。

図中のフローチャートおよびブロック図は、本開示の様々な実施例に係るシステム、方法、およびコンピュータプログラム製品の実現可能なアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実現するための１つまたは複数の実行可能命令を含む、モジュール、プログラムセグメント、またはコードの一部を表すことができる。また、いくつかの代替的な実施形態では、ブロックに示されている機能は、図面に示されているものとは異なる順序で発生し得る。例えば、連続して示される２つのブロックは、実際には実質的に並行して実行されてもよいし、関連する機能に応じて、逆の順序で実行されてもよい。また、ブロック図および／またはフローチャートの各ブロックと、ブロック図および／またはフローチャートのブロックの組み合わせとは、指定された機能または動作を実行するための専用ハードウェアに基づくシステムによって実現されてもよいし、専用ハードウェアとコンピュータ命令との組み合わせによって実現されてもよい。

本開示の実施例に記載のユニットは、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。上記ユニットは、例えば、取得ユニットと、スライドユニットと、生成ユニットと、制御ユニットとを含むプロセッサとして説明されるプロセッサに配置されてもよい。ここで、これらのユニットの名称は、特定の場合にこのユニット自体を限定するためのものではなく、例えば、取得ユニットは、「対象再生の音声を取得するユニット」として説明されてもよい。

以上の説明は、本発明の好ましい実施例、および使用された技術的原理の説明にすぎない。本開示の実施例に係る本発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的解決手段に限定されず、本発明の概念から逸脱することなく上記技術的特徴またはその同等の特徴の任意の組み合わせからなる他の技術的解決手段に含まれることが当業者にとって理解される。例えば、上記他の技術的解決手段は、上記特徴と、本開示の実施例において開示される（これらに限定されない）、同様の機能を有する技術的特徴と、を置き換えることによって形成される技術的解決手段であってもよい。

Claims

再生対象の音声を取得するステップと、
少なくとも１つの音声セグメントを取得するために、前記再生対象の音声において所定の時間窓をプリセットステップサイズでスライドさせるステップと、
前記少なくとも１つの音声セグメントに基づいて、前記再生対象の音声に対応する口形制御パラメータシーケンスを生成するステップと、
前記再生対象の音声を再生する場合、前記口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御するステップと、を含む、
三次元仮想ポートレートの口形の変化を制御する方法。
前記少なくとも１つの音声セグメントに基づいて、前記再生対象の音声に対応する口形制御パラメータシーケンスを生成する前記ステップは、
前記少なくとも１つの音声セグメントに基づいて、二次元特徴マトリックスシーケンスを生成するステップと、
前記二次元特徴マトリックスシーケンスを二次元特徴マトリックスと口形制御パラメータとの対応関係を特徴付ける、事前に確立された畳み込みニューラルネットワークに入力し、口形制御パラメータシーケンスを取得するステップと、を含む、
請求項１に記載の方法。
前記少なくとも１つの音声セグメントに基づいて、二次元特徴マトリックスシーケンスを生成する前記ステップは、
前記少なくとも１つの音声セグメントにおける音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成するステップと、
前記再生対象の音声における前記少なくとも１つの音声セグメントの優先順位に従って、生成された少なくとも１つの二次元特徴マトリックスを接合して二次元特徴マトリックスシーケンスを生成するステップと、を含む、
請求項２に記載の方法。
前記少なくとも１つの音声セグメントにおける音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成する前記ステップは、
この音声セグメントを隣接する２つの音声サブセグメントが部分的に重なる所定数の音声サブセグメントに分割するステップと、
前記所定数の音声サブセグメントにおける音声サブセグメントに対して、この音声サブセグメントの特徴を抽出し、この音声サブセグメントに対応する音声特徴ベクトルを取得するステップと、
取得された所定数の音声特徴ベクトルに基づいて、この音声セグメントに対応する二次元特徴マトリックスを生成するステップと、を含む、
請求項３に記載の方法。
前記少なくとも１つの音声セグメントに基づいて、前記再生対象の音声に対応する口形制御パラメータシーケンスを生成する前記ステップは、
前記少なくとも１つの音声セグメントにおける音声セグメントに対して、この音声セグメントの音素シーケンスを生成し、この音素シーケンスを符号化して音素情報を取得するステップと、
少なくとも１本の音素情報からなる音素情報シーケンスを音素情報シーケンスと口形キーポイント情報シーケンスとの対応関係を特徴付ける、事前に確立された口形キーポイント予測モデルに入力し、少なくとも１本の口形キーポイント情報からなる口形キーポイント情報シーケンスを取得するステップと、
前記口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成するステップと、を含む、
請求項１に記載の方法。
前記口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成する前記ステップは、
前記口形キーポイント情報シーケンス内の口形キーポイント情報に対して、事前に確立されたサンプル口形キーポイント情報とサンプル口形制御パラメータとの対応関係に基づいて、この口形キーポイント情報に対応する口形制御パラメータを取得するステップと、
取得された少なくとも１つの口形制御パラメータに基づいて、口形制御パラメータシーケンスを生成するステップと、を含む、
請求項５に記載の方法。
前記口形キーポイント予測モデルは、ループ本体が長期／短期記憶ネットワークであるリカレントニューラルネットワークである、
請求項５に記載の方法。
再生対象の音声を取得するように構成された取得ユニットと、
少なくとも１つの音声セグメントを取得するために、前記再生対象の音声において所定の時間窓をプリセットステップサイズでスライドさせるように構成されたスライドユニットと、
前記少なくとも１つの音声セグメントに基づいて、前記再生対象の音声に対応する口形制御パラメータシーケンスを生成するように構成された生成ユニットと、
前記再生対象の音声を再生する場合、前記口形制御パラメータシーケンスに基づいて、予め設定された三次元仮想ポートレートの口形の変化を制御するように構成された制御ユニットと、を含む、
三次元仮想ポートレートの口形の変化を制御する装置。
前記生成ユニットは、
前記少なくとも１つの音声セグメントに基づいて、二次元特徴マトリックスシーケンスを生成するように構成された第一生成サブユニットと、
前記二次元特徴マトリックスシーケンスを二次元特徴マトリックスと口形制御パラメータとの対応関係を特徴付ける、事前に確立された畳み込みニューラルネットワークに入力し、口形制御パラメータシーケンスを取得するように構成された第二生成サブユニットと、を含む、
請求項８に記載の装置。
前記第一生成サブユニットは、
前記少なくとも１つの音声セグメントにおける音声セグメントに対して、この音声セグメントに対応する二次元特徴マトリックスを生成するように構成された第一生成モジュールと、
前記再生対象の音声における前記少なくとも１つの音声セグメントの優先順位に従って、生成された少なくとも１つの二次元特徴マトリックスを接合して二次元特徴マトリックスシーケンスを生成するように構成された第二生成モジュールと、を含む、
請求項９に記載の装置。
前記第一生成モジュールは、さらに、
この音声セグメントを隣接する２つの音声サブセグメントが部分的に重なる所定数の音声サブセグメントに分割し、
前記所定数の音声サブセグメントにおける音声サブセグメントに対して、この音声サブセグメントの特徴を抽出し、この音声サブセグメントに対応する音声特徴ベクトルを取得し、
取得された所定数の音声特徴ベクトルに基づいて、この音声セグメントに対応する二次元特徴マトリックスを生成する
ように構成されている、請求項１０に記載の装置。
前記生成ユニットは、
前記少なくとも１つの音声セグメントにおける音声セグメントに対して、この音声セグメントの音素シーケンスを生成し、この音素シーケンスを符号化して音素情報を取得するように構成された情報生成ユニットと、
少なくとも１本の音素情報からなる音素情報シーケンスを音素情報シーケンスと口形キーポイント情報シーケンスとの対応関係を特徴付ける、事前に確立された口形キーポイント予測モデルに入力し、少なくとも１本の口形キーポイント情報からなる口形キーポイント情報シーケンスを取得するように構成された情報シーケンス生成ユニットと、
前記口形キーポイント情報シーケンスに基づいて、口形制御パラメータシーケンスを生成するように構成されたパラメータシーケンス生成ユニットと、を含む、
請求項８に記載の装置。
前記パラメータシーケンス生成ユニットは、さらに、
前記口形キーポイント情報シーケンス内の口形キーポイント情報に対して、事前に確立されたサンプル口形キーポイント情報とサンプル口形制御パラメータとの対応関係に基づいて、この口形キーポイント情報に対応する口形制御パラメータを取得し、
取得された少なくとも１つの口形制御パラメータに基づいて、口形制御パラメータシーケンスを生成する
ように構成されている、請求項１２に記載の装置。
前記口形キーポイント予測モデルは、ループ本体が長期／短期記憶ネットワークであるリカレントニューラルネットワークである、請求項１２に記載の装置。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムを記憶した記憶装置と、を含み、
前記１つまたは複数のプログラムが、前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサが請求項１〜７のいずれか一項に記載の方法を実行させる、端末装置。
コンピュータプログラムを記憶したコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１〜７のいずれか一項に記載の方法を実行させるコンピュータ可読媒体。