JP7167106B2

JP7167106B2 - 口形特徴予測方法、装置及び電子機器

Info

Publication number: JP7167106B2
Application number: JP2020157690A
Authority: JP
Inventors: ユイチャンリュ; タオスン; ウェンフーワン; グエンポバオ; ジュポン; レイジァ
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2020-02-13
Filing date: 2020-09-18
Publication date: 2022-11-08
Anticipated expiration: 2040-09-18
Also published as: EP3866166A1; CN111354370A; EP3866166B1; KR20210103423A; US20210256962A1; US11562732B2; CN111354370B; JP2021128327A; KR102528771B1

Description

本願は、コンピュータ技術分野における仮想技術分野に関し、特に、口形特徴予測方法、装置及び電子機器に関するものである。

人工知能、デジタル通信などの技術の急速な発展に伴い、仮想画像は益々次世代の人工知能インタラクションの重要な発展方向となっている。その中でも、仮想画像における口形特徴は重要な技術的特徴である。現在は主に音素、音節などを音声特徴として採用しており、該分野の専門家が定義した一連の口形マッピング規則によって口形特徴が確定されている。しかしながら該方法は口形特徴を予測する精度が高くない。

本願は、口形特徴を予測する精度が低い問題を解決すべく、口形特徴予測方法、装置及び電子機器を提供する。

第１の態様では、本願は、口形特徴予測方法を提供し、
音声特徴の音素事後確率（ＰｈｏｎｅｔｉｃＰｏｓｔｅｒｉｏｒＧｒａｍｓ、ＰＰＧ）を認識するステップと、
ニューラルネットワークモデルを用いて前記ＰＰＧを予測して、前記音声特徴の口形特徴を予測するステップであって、前記ニューラルネットワークモデルは、トレーニングサンプルを用いてトレーニングして得た入力にＰＰＧが含まれ、出力に口形特徴が含まれるニューラルネットワークモデルであり、前記トレーニングサンプルはＰＰＧトレーニングサンプル及び口形特徴トレーニングサンプルを含むステップとを含む。

ニューラルネットワークモデルによって音声特徴のＰＰＧを予測するため、該分野の専門家が定義した一連の口形マッピング規則によって口形特徴を確定することに比べて、口形特徴を予測する精度を向上させることができる。

選択可能で、前記ＰＰＧトレーニングサンプルは、
動的スライシングに基づいて取得され、且つ完全な意味を持つ音声特徴であるターゲット音声特徴のＰＰＧを含み、
前記口形特徴トレーニングサンプルは、前記ターゲット音声特徴のＰＰＧに対応する口形特徴を含む。

ターゲット音声特徴が動的スライシングに基づいて取得され、且つ完全な意味を持つ音声特徴であるため、ニューラルネットワークモデルによって予測される口形特徴がより正確になる。

選択可能で、前記ターゲット音声特徴の周波数は前記ターゲット音声特徴のＰＰＧに対応する口形特徴の周波数と一致する。

ターゲット音声特徴の周波数が口形特徴の周波数と一致するため、ニューラルネットワークモデルによって予測される口形特徴の精度がさらに向上する。

選択可能で、前記ニューラルネットワークモデルは、自己回帰メカニズムを備えたリカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）モデルであり、前記ＲＮＮモデルのトレーニングプロセスは、
現在フレームの前のフレームの口形特徴トレーニングサンプルを入力とし、前記現在フレームのＰＰＧトレーニングサンプルを条件制約とし、前記現在フレームの口形特徴トレーニングサンプルをターゲットとしてトレーニングするステップを含む。

前のフレームの口形特徴トレーニングサンプルを入力とし、前記現在フレームのＰＰＧトレーニングサンプルを条件制約とするため、前記ニューラルネットワークモデルによって予測される口形特徴の精度をさらに向上させることができる。

選択可能で、前記ニューラルネットワークモデルは、マルチブランチネットワークニューラルネットワークモデルであり、前記音声特徴の口形特徴は、
回帰口形ポイント、口形サムネイル、ブレンドシェイプ（ｂｌｅｎｄｓｈａｐｅ）係数及び３Ｄモーフィングモデル（３ＤＭｏｒｐｈａｂｌｅＭｏｄｅｌｓ、３ＤＭＭ）表情係数の少なくとも２つを含む。

複数の口形特徴を予測できるため、前記ニューラルネットワークモデルの汎化性能が向上する。

選択可能で、前記方法はさらに、前記ニューラルネットワークモデルを用いて実際の音声データのＰＰＧを予測して、実際の音声データの口形特徴を取得するステップと、前記実際の音声データの口形特徴に基づいて、仮想画像の口形合成に用いられる口形特徴インデックスライブラリを構築するステップとを含む。

ニューラルネットワークモデルによって予測された口形特徴を用いて口形特徴インデックスライブラリを構築するため、ニューラルネットワークモデルによって出力された予測された口形特徴とインデックスライブラリの口形特徴との間の適合性を高めることができ、それによってインデックスの精度が向上する。

第２の態様では、本願は、口形特徴予測装置であって、音声特徴のＰＰＧを認識するための認識モジュールと、ニューラルネットワークモデルを用いて前記ＰＰＧを予測して、音声特徴の口形特徴を予測するための第１予測モジュールであって、前記ニューラルネットワークモデルは、トレーニングサンプルを用いてトレーニングして得た入力にＰＰＧが含まれ、出力に口形特徴が含まれるニューラルネットワークモデルであり、前記トレーニングサンプルはＰＰＧトレーニングサンプル及び口形特徴トレーニングサンプルを含む第１予測モジュールとを備える口形特徴予測装置を提供する。

選択可能で、前記ＰＰＧトレーニングサンプルは、動的スライシングに基づいて取得され、且つ完全な意味を持つ音声特徴であるターゲット音声特徴のＰＰＧを含み、前記口形特徴トレーニングサンプルは、前記ターゲット音声特徴のＰＰＧに対応する口形特徴を含む。

選択可能で、前記ニューラルネットワークモデルは、自己回帰メカニズムを備えたリカレントニューラルネットワークＲＮＮモデルであり、前記ＲＮＮモデルのトレーニングプロセスは、現在フレームの前のフレームの口形特徴トレーニングサンプルを入力とし、前記現在フレームのＰＰＧトレーニングサンプルを条件制約とし、前記現在フレームの口形特徴トレーニングサンプルをターゲットとしてトレーニングするステップを含む。

選択可能で、前記ニューラルネットワークモデルは、マルチブランチネットワークニューラルネットワークモデルであり、前記音声特徴の口形特徴は、回帰口形ポイント、口形サムネイル、ブレンドシェイプ係数及び３Ｄモーフィングモデルの３ＤＭＭ表情係数の少なくとも２つを含む。

選択可能で、前記装置はさらに、前記ニューラルネットワークモデルを用いて実際の音声データのＰＰＧを予測して、実際の音声データの口形特徴を取得するための第２予測モジュールと、前記実際の音声データの口形特徴に基づいて、仮想画像の口形合成に用いられる口形特徴インデックスライブラリを構築するための構築モジュールとを含む。

第３の態様では、本願は電子機器であって、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されるメモリとを備え、前記メモリには、前記少なくとも１つのプロセッサに本願による方法を実行させるように、前記少なくとも１つのプロセッサにより実行される指令が格納されている電子機器を提供する。

第４の態様では、本願は、コンピュータに本願による方法を実行させるためのコンピュータ指令が格納されていることを特徴とする非一時的コンピュータ可読記憶媒体を提供する。

第５の態様では、本願は、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、本願による方法を実現する、コンピュータプログラムを提供する。

上記出願における一実施形態の利点又は有益な効果は、音声特徴のＰＰＧを認識するステップと、ニューラルネットワークモデルを用いて前記ＰＰＧを予測して、音声特徴の口形特徴を予測するステップであって、前記ニューラルネットワークモデルは、トレーニングサンプルを用いてトレーニングして得た入力にＰＰＧが含まれ、出力に口形特徴が含まれるニューラルネットワークモデルであり、前記トレーニングサンプルはＰＰＧトレーニングサンプル及び口形特徴トレーニングサンプルを含むステップとを含む。ニューラルネットワークモデルを用いて音声特徴のＰＰＧを予測するという技術的手段を採用するため、口形特徴予測の精度が低いという技術的問題が解消され、口形特徴予測の精度を向上させるという技術的効果が得られる。

上記選択可能な実施形態が有する他の効果は、以下の実施例に合わせて具体的に説明する。

図面は本解決策をよりよく理解するためのものであって、本願を限定するものではない。
本願による口形特徴予測方法のフローチャートである。本願による口形特徴予測装置の構造図である。本願によるもう一つの口形特徴予測装置の構造図である。本願の実施例による口形特徴予測方法を実現するための電子機器のブロック図である。

以下、容易に理解されるように様々な細部を含む本願の例示的な実施例を添付図面に合わせて説明し、それらは単なる例示的なものとして見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び修正を行うことができることを理解されたい。また、以下の説明では、明確かつ簡潔にするために、周知の機能及び構造に対する説明を省略している。

図１を参照し、図１は、本願による口形特徴予測方法のフローチャートであり、図１に示すように、以下のステップを含む。

ステップＳ１０１：音声特徴のＰＰＧを認識する。

前記音声特徴のＰＰＧの認識は、自動音声認識システムに基づいて前記音声特徴のＰＰＧを抽出するものであってもよい。

本願における音声特徴は音声データとして理解できることも留意されたい。

ステップＳ１０２：ニューラルネットワークモデルを用いて前記ＰＰＧを予測して、前記音声特徴の口形特徴を予測するステップであって、前記ニューラルネットワークモデルは、トレーニングサンプルを用いてトレーニングして得た入力にＰＰＧが含まれ、出力に口形特徴が含まれるニューラルネットワークモデルであり、前記トレーニングサンプルはＰＰＧトレーニングサンプル及び口形特徴トレーニングサンプルを含む。

前記ニューラルネットワークモデルは、入力がＰＰＧ、出力が対応する口形特徴であるエンドツーエンドのニューラルネットワークモデルであってもよい。

本願は、例えば、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）モデル、ディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ、ＤＮＮ）モデル又はＲＮＮモデルなど、ニューラルネットワークモデルの種類を制限しないことに留意されたい。

本願において、ＰＰＧは話者とは無関係の特徴であるため、ＰＰＧを介して様々な話者の共通の音声特徴を取得することができ、音素などの音声特徴と比べて、ＰＰＧは音声との同期性がより高く、音声と唇の動きとの同期性が向上する。

本願において、ニューラルネットワークモデルによって音声特徴のＰＰＧを予測するため、該分野の専門家が定義した一連の口形マッピング規則によって口形特徴を確定することに比べて、口形特徴を予測する精度を向上させることができる。

選択可能で、前記ＰＰＧトレーニングサンプルは、

動的スライシングに基づいて取得され、且つ完全な意味を持つ音声特徴であるターゲット音声特徴のＰＰＧを含み、

前記口形特徴トレーニングサンプルは、前記ターゲット音声特徴のＰＰＧに対応する口形特徴を含む。

前記動的スライシングに基づいて取得され、且つ完全な意味を持つ音声特徴は、音声の意味に基づいてスライスされて得られた完全な意味を持つ音声特徴であってもよい。

ターゲット音声特徴が動的スライシングに基づいて取得され、且つ完全な意味を持つ音声特徴であるため、音節の手動切断によって生じる情報不連続現象を解消することができて、ニューラルネットワークモデルによって予測される口形特徴をより正確にすることができる。

前記ターゲット音声特徴の周波数と口形特徴の周波数とが一致することは、ターゲット音声特徴の周波数が口形特徴の周波数と同じであるか又は類似することであってもよい。例えば、音声特徴の周波数は２５Ｈｚで、口形特徴の周波数も２５Ｈｚである。さらに、音声特徴の周波数が口形特徴の周波数と一致しない場合、本願は、例えば、１００Ｈｚの音声特徴を２５Ｈｚの音声特徴に調整するなど、音声特徴の周波数を調整することができ、音声特徴の周波数を調整することができるため、ニューラルネットワークモデルのトレーニングの柔軟性を向上させることができる。

選択可能で、前記ニューラルネットワークモデルは、自己回帰メカニズムを備えたリカレントニューラルネットワークＲＮＮモデルであり、前記ＲＮＮモデルのトレーニングプロセスは、

現在フレームの前のフレームの口形特徴トレーニングサンプルを入力とし、前記現在フレームのＰＰＧトレーニングサンプルを条件制約とし、前記現在フレームの口形特徴トレーニングサンプルをターゲットとしてトレーニングするステップを含む。

前記現在フレームは、トレーニングプロセスにおいて現在トレーニングを行っているフレームであってもよく、本願におけるトレーニングサンプルには複数のフレームが含まれており、各フレームには一つのＰＰＧと口形特徴が対応する。

前のフレームの口形特徴トレーニングサンプルを入力とし、前記現在フレームのＰＰＧトレーニングサンプルを条件制約とするため、各時刻の口形を現在時刻及び前後時刻の音声と関連付けすることができ、それによって、前記ニューラルネットワークモデルによって予測される口形特徴の精度をさらに向上させることができる。

選択可能で、前記ニューラルネットワークモデルは、マルチブランチネットワークニューラルネットワークモデルであり、前記音声特徴の口形特徴は、

回帰口形ポイント、口形サムネイル、ブレンドシェイプ（ｂｌｅｎｄｓｈａｐｅ）係数及び３ＤＭＭ表情係数の少なくとも２つを含む。

マルチブランチネットワークニューラルネットワークモデルは、該ニューラルネットワークモデルに複数のブランチネットワークが備えられてもよいことを意味し、各ブランチネットワークは一つの口形特徴を予測することができ、例えば、４つのブランチネットワークはそれぞれ回帰口形ポイント、口形サムネイル、ブレンドシェイプ係数及び３ＤＭＭ表情係数を予測する。

複数の口形特徴を予測することができるため、前記ニューラルネットワークモデルの汎化性能が向上する。さらに、回帰口形ポイント、口形サムネイル、ブレンドシェイプ係数及び３ＤＭＭ表情係数の複数の項目を予測することができるため、複数の特徴を融合して予測することにより、一方では、口形特徴間の相関性を利用してニューラルネットワークモデルの汎化性能を効果的に向上することができ、他方では、モデルの適用範囲が効果的に拡大され、２Ｄ及び３Ｄ仮想画像の作成に便利に適用することができる。

選択可能で、前記方法はさらに、

前記ニューラルネットワークモデルを用いて実際の音声データのＰＰＧを予測して、実際の音声データの口形特徴を取得するステップと、

前記実際の音声データの口形特徴に基づいて、仮想画像の口形合成に用いられる口形特徴インデックスライブラリを構築するステップとを含む。

前記実際の音声データ及び実際の音声データの口形特徴は前記ニューラルネットワークモデルのトレーニングサンプルであってもよい。もちろん、これには限定せず、例えば、収集された他の実際のデータであってもよい。

前記実際の音声データの口形特徴に基づく口形特徴インデックスライブラリの構築は、前記実際の音声データの口形特徴に基づく口形特徴インデックスライブラリの再構築であってもよく、例えば、前記口形特徴インデックスライブラリは本来実際の口形特徴を含んでいるが、該実施形態では、口形特徴インデックスライブラリにおける実際の口形特徴を前記予測された実際の音声データの口形特徴で置き換える。

前記口形特徴インデックスライブラリは、仮想画像合成において口形特徴を取得するためのインデックスライブラリであってもよい。

ニューラルネットワークモデルによって予測された口形特徴を用いて口形特徴インデックスライブラリを構築するため、ニューラルネットワークモデルによって出力された予測口形特徴とインデックスライブラリにおける口形特徴との間の適合性を高めることができ、それによってインデックスの精度が向上する。

本願は、音声特徴のＰＰＧを認識するステップと、ニューラルネットワークモデルを用いて前記ＰＰＧを予測して、音声特徴の口形特徴を予測するステップであって、前記ニューラルネットワークモデルは、トレーニングサンプルを用いてトレーニングして得た入力にＰＰＧが含まれ、出力に口形特徴が含まれるニューラルネットワークモデルであり、前記トレーニングサンプルはＰＰＧトレーニングサンプル及び口形特徴トレーニングサンプルを含むステップとを含む。ニューラルネットワークモデルによって音声特徴のＰＰＧを予測するため、該分野の専門家が定義した一連の口形マッピング規則によって口形特徴を確定することに比べて、口形特徴を予測する精度を向上させることができる。

図２を参照し、図２は、本願による口形特徴予測装置の構造図であり、図２に示すように、口形特徴予測装置２００は、

音声特徴のＰＰＧを認識するための認識モジュール２０１と、

ニューラルネットワークモデルを用いて前記ＰＰＧを予測して、音声特徴の口形特徴を予測するための第１予測モジュール２０２であって、前記ニューラルネットワークモデルは、トレーニングサンプルを用いてトレーニングして得た入力にＰＰＧが含まれ、出力に口形特徴が含まれるニューラルネットワークモデルであり、前記トレーニングサンプルはＰＰＧトレーニングサンプル及び口形特徴トレーニングサンプルを含む第１予測モジュール２０２とを備える。

選択可能で、前記ＰＰＧトレーニングサンプルは、

選択可能で、前記口形特徴トレーニングサンプルは、前記ターゲット音声特徴のＰＰＧに対応する口形特徴を含む。

回帰口形ポイント、口形サムネイル、ブレンドシェイプ係数及び３Ｄモーフィングモデル３ＤＭＭ表情係数の少なくとも２つを含む。

選択可能で、図３に示すように、前記装置はさらに、

前記ニューラルネットワークモデルを用いて実際の音声データのＰＰＧを予測して、実際の音声データの口形特徴を取得するための第２予測モジュール２０３と、

前記実際の音声データの口形特徴に基づいて、仮想画像の口形合成に用いられる口形特徴インデックスライブラリを構築するための構築モジュール２０４とを含む。

本実施例に係る装置は、図１に示される方法の実施例で実施される各プロセスを実施することができ、且つ同じ有益な効果を達成することができるので、繰り返し説明を避けるため、ここではこれ以上説明しない。

本願の実施例によれば、本願はさらに電子機器及び読み取り可能な記憶媒体を提供している。

図４に示すように、本願の実施例による口形特徴予測方法を実施するための電子機器のブロック図である。電子機器は、ラップトップコンピューター、デスクトップコンピューター、ワークベンチ、パーソナル・デジタル・アシスタント、サーバー、ブレードサーバー、メインフレームコンピューター、その他の適切なコンピューターなど、様々な形態のデジタルコンピューターを表すためのものである。電子機器は、パーソナル・デジタル・アシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、及びその他類似のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されている部品、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書で説明及び／又は要求されている本願の実施を限定するものではない。

図４に示すように、該電子機器は、１つ又は複数のプロセッサ４０１、メモリ４０２、及び高速インターフェース及び低速インターフェースを含む各々の部品を接続するためのインターフェースを含む。各部品は、互いに異なるバスで接続されており、共通のマザーボードに実装されていてもよく、又は必要に応じて他の形態で実装されていてもよい。プロセッサは、電子機器内で実行される指令を処理することができ、メモリ内又はメモリに格納されて外部の入力／出力装置（インターフェースなどに接続されたディスプレイデバイス）にＧＵＩのグラフィック情報を表示させる指令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを複数のメモリ及び複数のメモリと共に使用してもよい。同様に、複数の電子機器を接続することができ、それぞれの機器はいくつかの必要な操作（例えば、サーバアレイ、一組のブレードサーバ、又はマルチプロセッサシステムとして）を提供する。図４では一つのプロセッサ４０１を例とする。

メモリ４０２は本願による非一時的コンピュータ可読記憶媒体である。前記メモリは、前記少なくとも１つのプロセッサに本願による口形特徴予測方法を実行させるように、少なくとも１つのプロセッサによって実行可能な指令を格納している。本願の非一時的コンピュータ可読記憶媒体は、本願による口形特徴予測方法をコンピュータに実行させるためのコンピュータ指令を格納する。

メモリ４０２は、非一時的コンピュータ可読記憶媒体として、本願の実施例における口形特徴予測方法に対応するプログラム指令／モジュール（例えば、図２に示す認識モジュール２０１、第１予測モジュール２０２）などの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム、及びモジュールを格納することができる。プロセッサ４０１は、メモリ４０２に格納されている非一時的なソフトウェアプログラム、指令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、上記方法の実施例における口形特徴予測方法を実施する。

メモリ４０２は、オペレーティングシステム、少なくとも１つの機能を実行するために必要なアプリケーションプログラムを格納し得るストレージプログラム領域と、口形特徴予測方法による電子機器を使用することによって作成されたデータなどを格納し得るストレージデータ領域とを含むことができる。また、メモリ４０２は、高速ランダムアクセスメモリを含んでもよく、さらに、例えば、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又はその他の非一時的な固体メモリデバイスなどの非一時的メモリを含むことができる。いくつかの実施例において、メモリ４０２は、プロセッサ４０１に対して遠隔に設けられたメモリを任意選択で含んでもよく、これらのリモートメモリは、ネットワークを介して口形特徴予測方法の電子機器に接続されてもよい。上記ネットワークの実例はインターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク及びそれらの組み合わせを含むがこれらに限定されない。

口形特徴予測方法の電子機器はさらに入力装置４０３及び出力装置４０４を含むことができる。プロセッサ４０１、メモリ４０２、入力装置４０３及び出力装置４０４は、バス又はその他の形態で接続されていてもよく、図４ではバスを介して接続されている例を示している。

入力装置４０３は、入力されたデジタル又は文字情報を受け取り、口形特徴予測方法の電子機器のユーザ設定や機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパネル、ポインティングスティック、１又は複数のマウスボタン、トラックボール、ジョイスティック等の入力装置を含む。出力装置４０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含み得る。該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイを含むがそれらに限定されない。いくつかの実施形態において、ディスプレイデバイスはタッチスクリーンであってもよい。

ここで説明されるシステム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これら様々な実施形態は以下を含むことができる。一つ又は複数のコンピュータプログラムにおいて実施され、該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行、及び／又は解釈されてもよく、該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び指令を受信するとともに、データ及び指令を該ストレージシステム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送することができる。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械指令を含み、これらの計算プログラムを高度なプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語で実施することができる。
本明細書で使用されているように、用語「機械可読媒体」及び「コンピュータ可読媒体」は、機械指令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を意味し、機械可読信号としての機械指令を受信する機械可読媒体を含む。用語「機械可読信号」は機械指令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、コンピュータ上で、明細書で説明したシステム及び技術を実施してもよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（カソードレイチューブ）又はＬＣＤ（液晶ディスプレイ）モニタ）、及びユーザがコンピュータに入力を提供するためのキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）を有する。他の種類の装置はユーザとのインタラクションを提供するために用いられてもよく、例えば、ユーザへのフィードバックは任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力、音声入力又は触覚入力を含む）でユーザからの入力を受信することができる。

本明細書で説明されるシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム（例えば、データサーバーとして）、又は、ミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバー）、又は、フロントエンドコンポーネント（例えば、グラフィカルユーザインタフェース又はウェブブラウザを備えたユーザーコンピュータは、ユーザが該グラフィカルユーザインタフェース又は該ウェブブラウザを介して、本明細書で説明するシステム及び技術の実施形態と対話することができる）、又は、これらのバックグラウンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネント任意の組み合わせのコンピューティングシステムで実施することができる。また、システムのコンポーネントは、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介して相互に接続することができる。通信ネットワークの例示的なものとして、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを含む。

コンピュータシステムはクライアント及びサーバーを含むことができる。クライアントとサーバーは一般的に互いに離れており、通常は通信ネットワークを介して相互作用している。クライアントとサーバーの関係は、対応するコンピューターで実行されるとともに互いにクライアント－サーバーの関係を持つコンピュータープログラムによって生成される。

本願実施例に基づく技術的解決策は、音声特徴のＰＰＧを認識するステップと、ニューラルネットワークモデルを用いて前記ＰＰＧを予測して、音声特徴の口形特徴を予測するステップであって、前記ニューラルネットワークモデルは、トレーニングサンプルを用いてトレーニングして得た入力にＰＰＧが含まれ、出力に口形特徴が含まれるニューラルネットワークモデルであり、前記トレーニングサンプルはＰＰＧトレーニングサンプル及び口形特徴トレーニングサンプルを含むステップとを含む。ニューラルネットワークモデルによって音声特徴のＰＰＧを予測するため、該分野の専門家が定義した一連の口形マッピング規則によって口形特徴を決定することに比べて、口形特徴を予測する精度を向上させることができる。

上記に示した様々な形態のプロセスを用いて、ステップを順序変更、追加又は削除できることを理解されたい。本願が開示する技術的解決策の望ましい結果を実現することができれば、例えば、本願に記載された各ステップは並行して又は順番通りに又は異なる順番で実行されてもよく、本明細書はここでは制限をしない。

上記の具体的な実施形態は、本願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に従って、様々な修正、組み合わせ、サブ組み合わせ及び置き換えが可能であることを理解すべきである。本願の精神及び原則の範囲内で行われた如何なる修正、同等の置き換え及び改善などは、本願の保護範囲内に含まれるべきである。

Claims

音素事後確率（ＰＰＧ）トレーニングサンプルを入力として、対応する口形特徴トレーニングサンプルを出力としてニューラルネットワークモデルをトレーニングして、トレーニング済みニューラルネットワークモデルを得るステップと、
処理対象の音声特徴のＰＰＧを認識するステップと、
トレーニング済みニューラルネットワークモデルを用いて、認識された前記処理対象の音声特徴のＰＰＧを入力として、前記音声特徴の口形特徴を予測するステップとを含み、
前記ＰＰＧトレーニングサンプルは、
ターゲット音声の完全な意味に基づいて分割された音声特徴であるターゲット音声特徴のＰＰＧを含み、
前記口形特徴トレーニングサンプルは、前記ターゲット音声特徴のＰＰＧに対応する口形特徴を含む、ことを特徴とする口形特徴を予測する方法。
前記ターゲット音声特徴の単位時間当たりの周期性変化回数が前記ターゲット音声特徴のＰＰＧに対応する口形特徴の単位時間当たりの周期性変化回数とマッチングする、
ことを特徴とする請求項１に記載の方法。
前記ニューラルネットワークモデルは、自己回帰メカニズムを備えたリカレントニューラルネットワークモデル（ＲＮＮモデル）であり、前記ＲＮＮモデルのトレーニングプロセスは、
現在フレームの前のフレームの口形特徴トレーニングサンプルを入力とし、前記現在フレームのＰＰＧトレーニングサンプルを条件制約とし、前記現在フレームの口形特徴トレーニングサンプルをターゲットとしてトレーニングするステップを含む、
ことを特徴とする請求項１に記載の方法。
前記ニューラルネットワークモデルは、マルチブランチネットワークニューラルネットワークモデルであり、前記音声特徴の口形特徴は、
回帰口形ポイント、口形サムネイル、ブレンドシェイプ係数及び３Ｄモーフィングモデル（３ＤＭＭ）表情係数の少なくとも２つを含む、
ことを特徴とする請求項１に記載の方法。
前記方法はさらに、
前記ニューラルネットワークモデルを用いて、実際の音声データのＰＰＧを入力として、実際の音声データの口形特徴を予測して取得するステップと、
前記実際の音声データの口形特徴に基づいて、仮想画像の口形合成に用いられる口形特徴インデックスライブラリを構築するステップとを含む、
ことを特徴とする請求項１に記載の方法。
音素事後確率（ＰＰＧ）トレーニングサンプルを入力として、対応する口形特徴トレーニングサンプルを出力としてニューラルネットワークモデルをトレーニングして、トレーニング済みニューラルネットワークモデルを得るためのトレーニングモジュールと、
処理対象の音声特徴のＰＰＧを認識するための認識モジュールと、
トレーニング済みニューラルネットワークモデルを用いて、認識された前記処理対象の音声特徴のＰＰＧを入力として、前記音声特徴の口形特徴を予測するための第１予測モジュールとを備え、
前記ＰＰＧトレーニングサンプルは、
ターゲット音声の完全な意味に基づいて分割された音声特徴であるターゲット音声特徴のＰＰＧを含み、
前記口形特徴トレーニングサンプルは、前記ターゲット音声特徴のＰＰＧに対応する口形特徴を含む、ことを特徴とする口形特徴を予測する装置。
前記ニューラルネットワークモデルは、自己回帰メカニズムを備えたリカレントニューラルネットワークモデル（ＲＮＮモデル）であり、前記ＲＮＮモデルのトレーニングプロセスは、
現在フレームの前のフレームの口形特徴トレーニングサンプルを入力とし、前記現在フレームのＰＰＧトレーニングサンプルを条件制約とし、前記現在フレームの口形特徴トレーニングサンプルをターゲットとしてトレーニングするステップを含む、
ことを特徴とする請求項６に記載の装置。
前記ニューラルネットワークモデルは、マルチブランチネットワークニューラルネットワークモデルであり、前記音声特徴の口形特徴は、
回帰口形ポイント、口形サムネイル、ブレンドシェイプ係数及び３Ｄモーフィングモデル（３ＤＭＭ）表情係数の少なくとも２つを含む、
ことを特徴とする請求項６に記載の装置。
前記装置はさらに、
前記ニューラルネットワークモデルを用いて実際の音声データのＰＰＧを入力として、実際の音声データの口形特徴を予測して取得するための第２予測モジュールと、
前記実際の音声データの口形特徴に基づいて、仮想画像の口形合成に用いられる口形特徴インデックスライブラリを構築するための構築モジュールとを含む、
ことを特徴とする請求項６に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリとを備え、
前記メモリには、前記少なくとも１つのプロセッサに請求項１～５のいずれか１項に記載の方法を実行させるように、前記少なくとも１つのプロセッサにより実行可能な指令が格納されている、
ことを特徴とする電子機器。
コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ指令は請求項１～５のいずれか１項に記載の方法をコンピュータに実行させるためのものである、
ことを特徴とする非一時的コンピュータ可読記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１～５のいずれか一項に記載の方法を実現する、コンピュータプログラム。