JP7464621B2

JP7464621B2 - 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体

Info

Publication number: JP7464621B2
Application number: JP2021558871A
Authority: JP
Inventors: ▲執▼政武; 政臣 ▲張▼; ▲偉▼ 宋; 永▲輝▼ ▲饒▼; 知杭解; 光▲輝▼ 徐; ▲樹▼勇 ▲劉▼; 博森 ▲馬▼; 双▲穩▼ 邱; ▲雋▼民林
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-04-03
Filing date: 2020-03-30
Publication date: 2024-04-09
Anticipated expiration: 2040-03-30
Also published as: JP2022527970A; WO2020200178A1; EP3937165A4; EP3937165A1; US20220165249A1; US11881205B2; CN111798832A

Description

関連出願の相互参照
本出願は、2019年4月3日に出願された中国特許出願第201910266289.4号に基づいており、またその優先権の利益を主張するものであり、参照によりその全体が本出願に組み込まれる。

本開示は、コンピュータ技術の分野、特に音声合成方法およびデバイス、ならびにコンピュータ可読ストレージ媒体に関する。

テキストから音声への変換を実現することができる音声合成システム(テキストトゥスピーチ、TTS)は、一連のアルゴリズム操作によってテキストを音声に変換し、機械によって人間の発音をシミュレートするプロセスを実装し得る。

現在の音声合成システムは、通常、単一言語の発音しかサポートできない。

本発明者らは、現在の音声合成システムは、通常、中国語または英語の発音のみをサポートしているが、滑らかな多言語発音を実現できないことを発見した。

本開示によって解決されるべき1つの技術的問題は、多言語発音をサポートするエンドツーエンドの音声合成システムをどのように実装するかである。

本開示のいくつかの実施形態によれば、音声合成方法が提供される。本方法は、セグメントの各々が属する言語カテゴリに従って、テキストを複数のセグメントに分割するステップと、セグメントの各々が属する言語カテゴリに従って、テキストの音素シーケンスを生成するためにセグメントの各々をセグメントに対応する音素に変換するステップと、事前にトレーニングされた音声合成モデルに音素シーケンスを入力して、音素シーケンスをボコーダ特性パラメータに変換するステップと、音声を生成するためにボコーダ特性パラメータをボコーダに入力するステップとを備える。

いくつかの実施形態によれば、セグメントの各々が属する言語カテゴリに従ってテキストを複数のセグメントに分割するステップは、テキストの各文字の符号化に従って、各文字が属する言語カテゴリを認識するステップと、同じ言語に属する連続する文字を言語の1つのセグメントに分割するステップとを備える。

いくつかの実施形態によれば、テキストの音素シーケンスを生成するステップは、テキストの韻律構造を決定するステップと、テキストの音素シーケンスを形成するために、テキストの韻律構造に従ってテキストの各文字に対応する音素の後に韻律識別子を追加するステップとを備える。

いくつかの実施形態によれば、事前にトレーニングされた音声合成モデルに音素シーケンスを入力し、音素シーケンスをボコーダ特性パラメータに変換するステップは、音素シーケンスを音響特性パラメータに変換するために、音素シーケンスを音声合成モデルの音響パラメータ予測モデルに入力するステップと、ボコーダ特性パラメータを取得するために、音声合成モデルのボコーダパラメータ変換モデルに音響特性パラメータを入力するステップとを備える。

いくつかの実施形態によれば、音響パラメータ予測モデルは、エンコーダと、デコーダと、注意モデルとを備え、音素シーケンスを音響特性パラメータに変換するために、音素シーケンスを音声合成モデルの音響パラメータ予測モデルに入力するステップは、注意モデルを使用することによって、現時点でエンコーダによって出力された各特性表現の注意重みを決定するステップと、音素シーケンスにおけるあらかじめ設定された要素に対応する特性表現の注意重みが注意重みの中で最大値であるかどうかを決定し、最大値である場合、デコーダの復号化プロセスを終了するステップとを備える。

いくつかの実施形態によれば、音響特性パラメータは、音声周波数スペクトルパラメータを備え、ボコーダパラメータ変換モデルは、多層ディープニューラルネットワークと、長期および短期記憶ネットワークを備える。

いくつかの実施形態によれば、音響特性パラメータの周波数がボコーダ特性パラメータの周波数よりも低い場合、音響特性パラメータを繰り返しアップサンプリングすることによって、音響特性パラメータの周波数をボコーダ特性パラメータの周波数と等しくする。

いくつかの実施形態によれば、本方法は、音声合成モデルをトレーニングするステップをさらに備え、トレーニング方法は、トレーニングテキストの各々に対応する音声サンプルをあらかじめ設定された周波数に従って異なるフレームに分割し、フレームごとの音響特性パラメータを抽出し、トレーニングテキストの各々にそれぞれ対応する第1の音響特性パラメータサンプルを生成するステップと、トレーニングテキストの各々に対応する第1の音響特性パラメータサンプルおよびトレーニングテキストの各々を使用することによって、音響パラメータ予測モデルをトレーニングするステップと、トレーニングされた音響パラメータ予測モデルを使用することによって、トレーニングテキストの各々をそれぞれ第2の音響特性パラメータサンプルに変換するステップと、ボコーダの合成周波数に応じて、トレーニングテキストの各々に対応する音声サンプルをそれぞれボコーダ特性パラメータサンプルに変換するステップと、トレーニングテキストの各々に対応する第2の音響特性パラメータサンプルおよびボコーダ特性パラメータサンプルを使用することによって、ボコーダパラメータ変換モデルをトレーニングするステップとを備える。

いくつかの実施形態によれば、音響パラメータ予測モデルは、エンコーダと、デコーダと、注意モデルとを備え、音素シーケンスを音響特性パラメータに変換するために、音素シーケンスを音声合成モデルの音響パラメータ予測モデルに入力するステップは、エンコーダに音素シーケンスを入力し、エンコーダによって出力された音素シーケンスにおける各要素に対応する特性表現を取得するステップと、コンテキストベクトルを取得するために、各要素に対応する特性表現、デコーダにおける第1の反復層による現時点のデコーダ出力の隠れ状態、および前の瞬間の各要素に対応する注意重みの累積情報を注意モデルに入力するステップと、デコーダの第2の反復層によって現時点のデコーダ出力の隠れ状態を取得するために、デコーダの第1の反復層およびコンテキストベクトルによって現時点のデコーダ出力の隠れ状態をデコーダの第2の反復層に入力するステップと、デコーダによって出力される各瞬間のデコーダの隠れ状態に従って音響特性パラメータを予測するステップとを備える。

いくつかの実施形態によれば、セグメントの各々が属する言語カテゴリに従って、セグメントの各々を対応する音素にそれぞれ変換するステップは、セグメントの各々が属する言語カテゴリに従って、セグメントの各々に対してそれぞれテキストの正規化を実行するステップと、セグメントの各々が属する言語カテゴリに従って、正規化された各セグメントに対して単語グループ分割を実行するステップと、セグメントの各々が属する言語カテゴリのあらかじめ設定された音素変換テーブルに従って、セグメントの各々の分割された単語グループを対応する音素に変換するステップとを備え、音素は文字の声調を備える。

本開示の他の実施形態によれば、音声合成デバイスが提供される。本デバイスは、セグメントの各々が属する言語カテゴリに従って、テキストを複数のセグメントに分割するように構成された言語認識モジュールと、セグメントの各々が属する言語カテゴリに従って、テキストの音素シーケンスを生成するためにセグメントの各々をセグメントに対応する音素に変換するように構成された音素変換モジュールと、事前にトレーニングされた音声合成モデルに音素シーケンスを入力して、音素シーケンスをボコーダ特性パラメータに変換するように構成されたパラメータ変換モジュールと、音声を生成するためにボコーダ特性パラメータをボコーダに入力するように構成された音声生成モジュールとを備える。

いくつかの実施形態によれば、言語認識モジュールは、テキストの各文字の符号化に従って、各文字が属する言語カテゴリを認識することと、同じ言語に属する連続する文字を言語の1つのセグメントに分割することとを行うように構成される。

いくつかの実施形態によれば、音素変換モジュールは、テキストの韻律構造を決定することと、テキストの音素シーケンスを形成するために、テキストの韻律構造に従ってテキストの各文字に対応する音素の後に韻律識別子を追加することとを行うように構成される。

いくつかの実施形態によれば、パラメータ変換モジュールは、音素シーケンスを音響特性パラメータに変換するために、音素シーケンスを音声合成モデルの音響パラメータ予測モデルに入力することと、ボコーダ特性パラメータを取得するために、音声合成モデルのボコーダパラメータ変換モデルに音響特性パラメータを入力することとを行うように構成される。

いくつかの実施形態によれば、音響パラメータ予測モデルは、エンコーダと、デコーダと、注意モデルとを備え、パラメータ変換モジュールは、注意モデルを使用することによって、現時点でエンコーダによって出力された各特性表現の注意重みを決定することと、音素シーケンスにおけるあらかじめ設定された要素に対応する特性表現の注意重みが注意重みの中で最大値であるかどうかを決定し、最大値である場合、デコーダの復号化プロセスを終了することとを行うように構成される。

いくつかの実施形態によれば、モデルトレーニングモジュールは、トレーニングテキストの各々に対応する音声サンプルをあらかじめ設定された周波数に従って異なるフレームに分割し、フレームごとの音響特性パラメータを抽出し、トレーニングテキストの各々にそれぞれ対応する第1の音響特性パラメータサンプルを生成することと、トレーニングテキストの各々に対応する第1の音響特性パラメータサンプルおよびトレーニングテキストの各々を使用することによって、音響パラメータ予測モデルをトレーニングすることと、トレーニングされた音響パラメータ予測モデルを使用することによって、トレーニングテキストの各々をそれぞれ第2の音響特性パラメータサンプルに変換することと、ボコーダの合成周波数に応じて、トレーニングテキストの各々に対応する音声サンプルをそれぞれボコーダ特性パラメータサンプルに変換することと、トレーニングテキストの各々に対応する第2の音響特性パラメータサンプルおよびボコーダ特性パラメータサンプルを使用することによって、ボコーダパラメータ変換モデルをトレーニングすることとを行うように構成される。

いくつかの実施形態によれば、音響パラメータ予測モデルは、エンコーダと、デコーダと、注意モデルとを備え、パラメータ変換モジュールは、エンコーダに音素シーケンスを入力し、エンコーダによって出力された音素シーケンスにおける各要素に対応する特性表現を取得することと、コンテキストベクトルを取得するために、各要素に対応する特性表現、デコーダにおける第1の反復層による現時点のデコーダ出力の隠れ状態、および前の瞬間の各要素に対応する注意重みの累積情報を注意モデルに入力することと、デコーダの第2の反復層によって現時点のデコーダ出力の隠れ状態を取得するために、デコーダの第1の反復層およびコンテキストベクトルによって現時点のデコーダ出力の隠れ状態をデコーダの第2の反復層に入力することと、デコーダによって出力される各瞬間のデコーダの隠れ状態に従って音響特性パラメータを予測することとを行うように構成される。

いくつかの実施形態によれば、音素変換モジュールは、セグメントの各々が属する言語カテゴリに従って、セグメントの各々に対してそれぞれテキストの正規化を実行することと、セグメントの各々が属する言語カテゴリに従って、正規化された各セグメントに対して単語グループ分割を実行することと、セグメントの各々が属する言語カテゴリのあらかじめ設定された音素変換テーブルに従って、セグメントの各々の分割された単語グループを対応する音素に変換することとを行うように構成され、音素は文字の声調を備える。

本開示のさらに他の実施形態によれば、音声合成デバイスが提供される。本デバイスは、メモリと、メモリに結合されたプロセッサとを備え、プロセッサは、メモリに記憶された命令に基づいて、前述の実施形態のいずれかによる音声合成方法を実装するように構成される。

本開示の他の実施形態によれば、コンピュータ可読ストレージ媒体が提供される。コンピュータ可読ストレージ媒体は、プロセッサによって実行されると、前述の実施形態のいずれかによる方法のステップを実装するコンピュータプログラムを記憶している。

本開示では、テキストが異なる言語カテゴリに属する複数のセグメントに分割されるように、テキスト内の言語カテゴリが最初に識別される。セグメントの各々が属する言語カテゴリに従って、各セグメントはそれぞれ対応する音素に変換される。ボコーダが、ボコーダ特性パラメータに基づいて音声を出力するように、テキストの音素シーケンスが音声合成モデルに入力され、ボコーダ特性パラメータに変換される。本開示の解決策は、多言語発音をサポートするエンドツーエンドの音声合成システムを実装する。さらに、文字シーケンスによるボコーダ特性パラメータへの直接変換と比較して、音素シーケンスによるボコーダ特性パラメータへの変換により、より正確で滑らかで自然な合成音声を可能にすることができる。

本開示の他の特性および利点は、添付の図面を参照して、本開示の例示的な実施形態の以下の詳細な説明から明らかになるであろう。

本開示のさらなる理解を提供することが意図される、本明細書に記載の添付の図面は、本出願の一部を構成する。本開示を説明することが意図される、本開示の例示的な実施形態ならびにその図解は、本開示に関する不適切な定義を構成するものではない。添付の図面は以下のとおりである。

本開示のいくつかの実施形態による、音声合成方法の概略フローチャートを示す図である。あらかじめ設定された英語の文字が変換された例を示す図である。本開示のいくつかの実施形態による、音声合成モデルの概略構造図を示す図である。本開示の他の実施形態による、音声合成方法の概略フローチャートを示す図である。本開示のいくつかの実施形態による、音声合成デバイスの概略構造図を示す図である。本開示の他の実施形態による、音声合成デバイスの概略構造図を示す図である。本開示のさらに他の実施形態による、音声合成デバイスの概略構造図を示す図である。

本開示の実施形態における技術的解決策は、本開示の実施形態における添付の図面と併せて、以下に明示的かつ完全に説明される。明らかに、記載された実施形態は、実施形態のすべてではなく、本開示の実施形態の一部に過ぎない。実際に例示的であるに過ぎない少なくとも1つの例示的な実施形態の以下の説明は、決して、本開示ならびにその適用または使用に関するいかなる限界としても機能してはならない。本開示の実施形態に基づいて、本発明の努力が含まれないという前提で当業者によって取得された他のすべての実施形態は、本開示の保護範囲に含まれるものとする。

本開示は音声合成方法を提供し、これは図1と併せて以下に説明される。

図1は、本開示のいくつかの実施形態による、音声合成方法の概略フローチャートを示している。図1に示されるように、この実施形態の方法は、ステップS102からS108を備える。

ステップS102において、テキストが異なる言語カテゴリに属する複数のセグメントに分割される。

いくつかの実施形態では、各文字が属する言語カテゴリは、テキスト内の各文字の符号化に従って識別され、同じ言語に属する連続する文字は、言語の1つのセグメントに分割される。たとえば、テキストが中国語と英語の文字を含む場合、テキスト内の文字のユニコードコードまたは他のコードが取得され得、テキスト内の中国語と英語の文字はユニコードコードに従って認識されるため、テキストは、異なる言語の複数のセグメントに分割される。他の言語(たとえば、日本語、フランス語など)の文字が含まれている場合、対応する符号化形式に従って認識され得る。

次に、中国語と英語を含むテキストを例として、異なる言語カテゴリに属する複数のセグメントに分割する特定の実施形態について説明する。(1)文中に英語の文字があるかどうかは、文中の文字の符号化に従って決定される。文中に英語の文字がない場合、(2)が実行され、文中に英語の文字がある場合、(3)が実行される。(2)その文は中国語の文としてマーク付けされる。(3)文中に中国語の文字があるかどうかを決定する。文中に中国語の文字がない場合、(4)が実行される。文中に中国語の文字がある場合、(7)が実行される。(4)その文があらかじめ設定された英語の文字のみを含むかどうかが決定され、あらかじめ設定された英語の文字は、少なくとも1種類の測定単位、略語、および英語のシリアル番号を含み得る。その文があらかじめ設定された英語の文字のみを含む場合、(5)が実行される。それ以外の場合、(6)が実行される。(5)その文は中国語の文としてマーク付けされる。(6)その文は英語の文としてマーク付けされる。(7)その文は中国語のセグメントと英語のセグメントに分割される。

上述の実施形態では、その文があらかじめ設定された英語の文字のみを含む場合、その後、中国語に従ってあらかじめ設定された英語の文字を正規化することを容易にするために、その文は中国語の文としてマーク付けされる。たとえば、12km/hなどのあらかじめ設定された英語の文字は、その後の正規化中に図2Aに示されるものに変換され得、その後に生成される音は中国語の発音になり、中国のユーザの習慣により適合する。当業者は、上述の実施形態を参照して、文がいくつかの特別な国際ユニバーサル文字のみを含む場合、その文は、テキストの正規化と音声合成の後続の処理を容易にするために、発音要件に基づいてあらかじめ設定された言語カテゴリとしてマーク付けされ得ることを理解し得る。

上述のステップ(7)は、以下のステップを含み得る。(i)現在の文字の言語カテゴリが前の文字の言語カテゴリと同じであるかどうかが決定される。同じである場合、(ii)が実行され、同じではない場合、(iv)が実行される。(ii)現在の文字は、現在のセグメントセットに置き換えられる。(iii)文の終わりに到達したかどうかが決定される。文の終わりに到達した場合、(iv)が実行され、文の終わりに到達していない場合、(v)が実行される。(iv)現在のセグメントセットにおける文字は言語カテゴリでマーク付けされ、現在のセグメントセットから削除される。(V)次の文字が現在の文字として更新される。次いで、(i)に戻って同じことを再開する。

ステップS104において、各セグメントは、テキストの音素シーケンスが生成されるように、セグメントの各々が属する言語カテゴリに従って、それぞれセグメントに対応する音素に変換される。

いくつかの実施形態では、各セグメントは、セグメントの各々が属する言語カテゴリに従ってそれぞれ正規化され、正規化後の各セグメントは、セグメントの各々が属する言語カテゴリに従って、それぞれ単語グループに分割され、各セグメントの分割された単語グループは、セグメントが属する言語カテゴリに対応するあらかじめ設定された音素変換テーブルに従って対応する音素に変換される。テキストは通常、12km/s、2019などのいくつかの異常な略語を含む。これらの異常なテキストは、正規化動作を通じた音声合成システムによる音声合成に適した通常のテキストに変換される必要がある。異なる言語カテゴリに属するセグメントは、それぞれ正規化される必要がある。異なる言語カテゴリの特殊文字コントラストテーブルによると、異常な文字は正常な文字に変換され得る。たとえば、後続の音素変換を容易にするために、12km/sは図2Aに示されるものに変換される。

たとえば、異なる言語は異なる単語グループ分割方法を有するため、英語は単語ごとに単語グループに分割されるが、中国語は意味情報などに応じて単語グループに分割される必要がある。したがって、各セグメントは、セグメントの各々が属する言語カテゴリに従って、それぞれ単語グループに分割される。分割された各単語グループは、異なる言語カテゴリに対応するあらかじめ設定された音素変換テーブルを照会することによって、対応する音素(G2P)に変換され得る。スペルミスのある単語、新しく作成された単語、ネットワークワードなど、あらかじめ設定された音素変換テーブル(OOV)に存在しない一部の単語は、ニューラルネットワークなどの既存の技術を通じて音素変換の対象となる場合がある。あらかじめ設定された音素変換テーブルは、ポリフォニの正確な音素変換を実行するために、ポリフォニの音素対応を含み得る。他の方法でポリフォニを認識すること、またはリストされている例に限定されない他の既存の技術を通じて音素変換を実行することも可能である。

いくつかの実施形態では、音素は文字の声調を含み得、音素の一部として声調をとることによって、合成された音声をより正確かつ自然にし得る。英語などの一部の言語には声調がないため、音素シーケンスに対応する声調マークを追加する必要はない。いくつかの実施形態では、テキストはまた、たとえば、テキストの韻律語および韻律句を識別するなど、韻律構造に分割され得る。テキストの韻律構造によれば、テキストの音素シーケンスを形成するために、テキストの各文字に対応する音素の後に韻律識別子が追加される。韻律識別子は、一時停止を示すために、韻律語または韻律句の音素の後に追加される特別なマークであり得る。韻律構造の予測は、既存の技術を適用する可能性があるが、ここでは詳細に説明しない。

ステップS106において、音素シーケンスは、事前にトレーニングされた音声合成モデルに入力され、ボコーダ特性パラメータに変換される。

上述の実施形態によれば、テキストの音素シーケンスは、音素(声調を含む)および各文字の韻律識別子を含み得、また、入力音素シーケンスの終わりを示す記号<EOS>などのいくつかの特別な記号を含み得る。音声合成モデルのトレーニングプロセスについては、後で説明する。

いくつかの実施形態では、音声合成モデルは、音響パラメータ予測モデルとボコーダパラメータ変換モデルとを含み得る。音響パラメータには、たとえば、メル周波数スペクトルパラメータまたは線形周波数スペクトルパラメータなどの音声周波数スペクトルパラメータを含む。ボコーダのパラメータは、実際に使用されているボコーダに応じて決定される。たとえば、ボコーダがワールドボコーダである場合、ボコーダのパラメータは、基本周波数(F0)、メル一般化ケプストラム(MGC)、バンドアピリオディカル(BAP: band a periodical)などを含み得る。音声合成モデルの音響パラメータ予測モデルに入力された音素シーケンスは、音響特性パラメータに変換され得、音声合成モデルにおけるボコーダパラメータ変換モデルに音響特性パラメータを入力することによって、ボコーダ特性パラメータの出力が取得され得る。

エンコーダ-デコーダネットワーク構造を適用する音響特性パラメータ予測モデルは、エンコーダと、デコーダと、注意モデルとを含む。入力音素シーケンスと出力音響特性パラメータシーケンスは、長さが互いに一致しない場合があり、通常、音響特性パラメータシーケンスは比較的長い場合がある。エンコーダ-デコーダに基づくニューラルネットワーク構造は、音声合成の特性に適合するように、柔軟な特性予測を実行し得る。エンコーダは、3層の1次元畳み込み、および双方向LSTM(長短期記憶)コード化を含み得る。3層の1次元畳み込みでは、各音素のローカルコンテキスト情報を学習することが可能であり、双方向LSTMコード化では、各音素の双方向グローバル情報が計算によって取得される。エンコーダモジュールは、3層の1次元畳み込みと双方向LSTM符号化を通じて、コンテキスト情報を含む入力音素の非常に表現力豊かな特性表現を取得することができる。

デコーダは、たとえば、2つの完全に接続された層と2つのLSTMを含む。2つの完全に接続された層は、ニューラルネットワークの過剰適合現象の発生を防ぐために、ドロップアウト技術を使用し得る。注意モデルにより、デコーダは、復号化プロセス中の現在の復号化の瞬間に、どの入力音素の内部表現に注意を向けるべきかを学習する。注意メカニズムによって、デコーダはまた、パラメータ予測が完了した入力音素、および現時点で特別な注意が払われる必要がある音素を学習し得る。注意モデルはエンコーダのコンテキストベクトルを取得し、復号化プロセス中に、このコンテキストベクトルと併せて、現時点で取得される必要のある音響パラメータをより適切に予測し、復号化プロセスを終了するかどうかを決定することができる。

いくつかの実施形態では、以下のステップは、音響特性パラメータ予測モデルにおいて実行され得る。エンコーダの出力音素シーケンスの各要素に対応する特性表現を取得するために、音素シーケンスがエンコーダに入力される。各要素に対応する特性表現、デコーダにおける第1の反復層(たとえば、第1のLSTM)の現時点におけるデコーダ出力の隠れ状態、および前の瞬間における各要素に対応する注意重みの累積情報は、コンテキストベクトルを取得するために注意モデルに入力される。デコーダの第1の反復層の現時点におけるデコーダ出力の隠れ状態およびコンテキストベクトルは、デコーダの第2の反復層によって出力された現時点におけるデコーダの隠れ状態を取得するためにデコーダの第2の反復層に入力され、音響特性パラメータは、デコーダによって出力される各瞬間におけるデコーダの隠れ状態に基づいて予測される。たとえば、デコーダの隠れ状態シーケンスは、音響を取得するために線形変換される。

たとえば、入力音素シーケンスはX=[x₁、x₂、…、x_j、…x_M]であり、エンコーダによって出力される特性表現シーケンスはH=[h₁、h₂、…、h_j、…h_M]であり、jは入力音素シーケンスにおける各要素の位置を表し、Mは音素シーケンス内の要素の総数を表す。デコーダによって出力される隠れ状態シーケンスは、S=[s₁、s₂、…、s_i、…]であり、iはデコーダによって出力されるタイムステップを表す。音素シーケンスの韻律識別子はまた、対応する隠れ状態に変換され、次いで、デコーダの隠れ状態に変換され得る。

たとえば、コンテキストベクトルは、以下の式を使用することによって計算され得る。

ここで、iはデコーダのタイムステップを表し、jはエンコーダに対応する音素シーケンス内の要素の位置を表し、iおよびjは正の整数である。v、W、V、U、bはモデルトレーニング中に学習されたパラメータであり、s_iは、デコーダにおける第1の反復層(たとえば、第1のLSTM)の現在のi番目の瞬間における復号化出力の隠れ状態を表す。h_jはj番目の要素に対応する特性表現を表し、f_i,jはf_iにおけるベクトルであり、Fはあらかじめ設定された長さの畳み込みカーネルであり、α_i-1はi-1番目の瞬間における各要素に対応する累積注意重み情報(アライメント)であり、e_i,jは値であり、e_iは各要素に対応する構成ベクトルであり、β_iはベクトルであり、β_i,jrはβ_iにおける値を表し、c_iは、i番目の瞬間における対応するコンテキストベクトルであり、Mは音素シーケンス内の要素の総数を表す。

いくつかの実施形態では、現時点でエンコーダによって出力される各特性表現の注意重みを決定するために、注意モデルが使用される。音素シーケンスにおけるあらかじめ設定された要素に対応する特性表現の注意重みが注意重みの最大値であるかどうかを決定する(すなわち、入力音素シーケンスにおけるすべての要素の注意重み)。最大値である場合、復号化プロセスは終了する。特性表現の注意重みは、注意モデルによって生成される。たとえば、あらかじめ設定された要素は音素シーケンスにおける最後の<EOS>記号である。

復号化を停止するかどうかを決定する上述の方法では、実際の必要に応じてデコーダに復号化を終了させることが可能である。復号化プロセスを終了させる必要があるかどうかは、学習したアライメント情報に基づいて決定される。注意モデルが復号化中に最後の記号に注意をシフトしたが、復号化プロセスが正しい予測によって終了されなかった場合、システムはアライメント情報に基づいて復号化プロセスを強制的に終了する可能性がある。上述の補助復号化終了アルゴリズムでは、モデルが復号化プロセスの終了を予測できない、または終了を誤って予測するという問題を有利に解決することが可能であり、そのため、音響パラメータ予測モデルが複数のフレームの音響特性を予測し続け、いくつかの理解できない音声を最終的に合成するという条件を回避し、したがってシステムの音声出力における精度、流暢さ、および自然さが向上される。

入力音素シーケンスの音響特性パラメータが予測によって取得された後、音響特性パラメータ(たとえば、メルスペクトルパラメータ)がボコーダパラメータ変換モデルに入力されてボコーダ特性パラメータに変換され、次いで、音声合成はボコーダによって実行され得る。

ボコーダパラメータ変換モデルは、DNN-LSTM(ディープニューラルネットワーク-長短期記憶ネットワーク)のニューラルネットワーク構造である可能性がある。ネットワーク構造は、多層ディープニューラルネットワークと、長期および短期記憶ネットワークとを含み得る。たとえば、図2Bに示されるように、ネットワーク構造は2層のReLU(活性化関数)接続と1層のLSTMとを含む。音響特性パラメータは、最初にDNNネットワーク(たとえば、ReLU)に入力されるため、音響特性の非線形変換を学習し、ニューラルネットワークの内部特性表現を学習することができ、これは特性学習プロセスと同等である。DNNネットワークによって出力された特性は、よりスムーズな特性変換を取得するために、音響特性パラメータの履歴依存情報を学習するためにLSTMに入力される。本発明者らは、ネットワーク構造が2層のReLU接続と1層のLSTMとを含む場合、ボコーダのパラメータのより良い変換効果があることを試験によって発見した。

いくつかの実施形態では、音響特性パラメータの周波数がボコーダ特性パラメータの周波数よりも低い場合、音響特性パラメータを繰り返しアップサンプリングすることによって、音響特性パラメータの周波数をボコーダ特性パラメータの周波数と等しくする。たとえば、音響パラメータ予測モデルは15ミリ秒のフレームでパラメータ予測を実行するが、ボコーダは通常5ミリ秒のフレームで音声合成を実行するため、時間周波数における不一致の問題がある。2つのモデルの周波数における不一致の問題を解決するために、ボコーダモデルの周波数と一致するように、音響パラメータ予測モデルの出力に対してアップサンプリングを実行する必要がある。アップサンプリングは、音響パラメータ予測モデルの出力に対して繰り返し実行され得る。たとえば、音響特性パラメータを3回重ね合わせ、1*80次元のメルスペクトルパラメータについては、3回繰り返すことで3*80次元のメルスペクトルパラメータが取得され得る。本発明者らは、アップサンプリングニューラルネットワークの学習、または差分によるアップサンプリングの実行と比較して、特性を直接繰り返すことによるアップサンプリングが好ましい効果を達成できることを試験により決定した。

ステップS108において、音声を生成するために、ボコーダ特性パラメータがボコーダに入力される。

上述の実施形態におけるボコーダパラメータ変換モデルは、ワールドボコーダと組み合わせることができる。従来技術におけるウェーブネット(ネットワーク構造が複雑であり、音声をオンラインでリアルタイムに生成できない)と比較すると、計算を高速化し、単純なネットワークアーキテクチャによって音声がリアルタイムで生成されるように実装することが可能であり、それによって、従来技術におけるグリフィンリムモデルと比較して、音響の重複を減らし、音声合成効果を向上させる。

前述の実施形態の方法では、テキストが異なる言語カテゴリに属する複数のセグメントに分割されるように、テキスト内の言語カテゴリが最初に識別される。セグメントの各々が属する言語カテゴリに従って、各セグメントは対応する音素に変換される。テキストの音素シーケンスは音声合成モデルに入力され、ボコーダ特性パラメータに変換され、ボコーダはボコーダ特性パラメータに基づいて音声を出力する。上述の実施形態の解決策は、多言語発音をサポートするエンドツーエンドの音声合成システムを実装し、文字シーケンスによるボコーダ特性パラメータへの直接変換と比較して、音素シーケンスによるボコーダ特性パラメータへの変換によって、より正確で滑らかで自然な音声合成が可能になる。さらに、韻律構造、声調等を追加することによって音素シーケンスが生成され、音声合成効果をさらに向上させることが可能になる。新しいボコーダ特性パラメータ変換モデルにより、音声がリアルタイムで生成されるように実装するために計算を高速化することが可能であり、それによって、音響の重複を減らし、音声合成効果をさらに向上させることが可能になる。さらに、上述の実施形態はまた、復号化プロセスを終了させる方法を提供し、これは、モデルが復号化プロセスの終了を予測できない、または終了を誤って予測するという問題を解決し得、それによって、音響パラメータ予測モデルがいくつかの理解できない音声を最終的に合成することを回避し、システムの音声出力における精度、流暢さ、および自然さをさらに向上させる。

いくつかの実施形態では、音声合成モデルをトレーニングする方法は、ボコーダの合成周波数に基づいて、各トレーニングテキストに対応する音声サンプルをボコーダ特性パラメータサンプルに変換するステップと、音声合成モデルによって出力されるボコーダ特性パラメータを取得するために、各トレーニングテキストをトレーニングされる音声合成モデルに入力するステップと、ボコーダ特性パラメータを対応するボコーダ特性パラメータサンプルと比較して、トレーニングが完了するまで、比較結果に基づいてトレーニングされる音声合成モデルのパラメータを調整するステップとを含む。

ボコーダパラメータ変換モデルの精度をさらに向上させるために、本開示のいくつかの実施形態による音声合成モデルのトレーニング方法を、図3と併せて以下に説明する。

図3は、本開示の他の実施形態による、音声合成方法の概略フローチャートを示している。図3に示されるように、この実施形態の方法は、ステップS302からS310を備える。

ステップS302において、各トレーニングテキストに対応する音声サンプルは、あらかじめ設定された周波数に従って異なるフレームに分割され、各トレーニングテキストに対応する第1の音響特性パラメータサンプルをそれぞれ生成するように、フレームごとに音響特性パラメータが抽出される。

たとえば、フレームを形成するために、各音声サンプルが15ミリ秒の周波数で分割され得、第1の音響特性パラメータサンプル(たとえば、メルスペクトルパラメータ)を生成するためにサンプルの各フレームの音響特性パラメータが抽出され得る。

ステップS304において、音響パラメータ予測モデルは、各トレーニングテキストに対応する第1の音響特性パラメータサンプル、および各トレーニングテキストを使用することによってトレーニングされる。

まず、トレーニングテキストごとに、トレーニングテキストが異なる言語カテゴリのセグメントに分割され得、セグメントの各々が属する言語カテゴリに従って、各セグメントはそれぞれ対応する音素に変換され、トレーニングテキストの音素シーケンスが生成される。音素シーケンスは、声調、韻律識別子などを含み得る。各トレーニングテキストの音素シーケンスは、各トレーニングテキストに対応する出力音響特性パラメータを取得するために、音響パラメータ予測モデルに入力される。同じトレーニングテキストに対応する出力音響特性パラメータが第1の音響特性パラメータサンプルと比較され、音響パラメータ予測モデルにおけるパラメータが、第1のあらかじめ設定された目標が満たされるまで比較結果に基づいて調整され、それによって、音響パラメータ予測モデルのトレーニングが完了する。

ステップS306において、各トレーニングテキストは、トレーニングされた音響パラメータ予測モデルを使用することによって、それぞれ第2の音響特性パラメータサンプルに変換される。

各トレーニングテキストは、トレーニングされた音響パラメータ予測モデルに入力され、したがって、各トレーニングテキストに対応する第2の音響特性パラメータサンプルが取得される。

ステップS308において、ボコーダの合成周波数に基づいて、各トレーニングテキストに対応する音声サンプルがそれぞれボコーダの特性パラメータサンプルに変換される。

たとえば、音声サンプルは、フレームとして5ミリ秒の周波数で分割され得、サンプルの各フレームは、ボコーダ特性パラメータサンプル(たとえば、MGC、BAP、ログF0)に変換され得る。ステップS308を実行する順序は、それがステップS310の前である限り、制限されない。

ステップS310において、ボコーダパラメータ変換モデルは、第2の音響特性パラメータサンプルおよび各トレーニングテキストに対応するボコーダ特性パラメータサンプルを使用することによってトレーニングされる。

たとえば、各第2の音響特性パラメータサンプルは、出力ボコーダ特性パラメータを取得するためにボコーダパラメータ変換モデルに入力される。出力ボコーダ特性パラメータは、対応するボコーダ特性パラメータサンプルと比較され、ボコーダパラメータ変換モデルにおけるパラメータは、第2のあらかじめ設定されたターゲットが満たされるまで比較結果に基づいて調整され、それによって、ボコーダパラメータ変換モデルのトレーニングが完了する。

上述の実施形態の方法では、ボコーダパラメータ変換モデルは、音響予測モデルの予測によって取得された音響特性パラメータをトレーニングデータとして使用することによってトレーニングされるので、ボコーダパラメータ変換モデルの精度を向上させ、より正確で滑らかで自然な合成音声を可能にすることができる。これは、音声ファイルから直接抽出された実際の音響特性パラメータ(たとえば、メルスペクトルパラメータ)を使用することによってボコーダパラメータ変換モデルがトレーニングされると、モデルの入力特性と実際の音声合成中のモデルのトレーニング特性とに違いが生じるためである。これは特に、入力特性が、実際の音声合成プロセス中に音響パラメータ予測モデルの予測によって取得されたメルスペクトルであるためである。音響パラメータ予測モデルの復号化プロセス中に、復号化ステップの数が増えるにつれて、予測によって取得される音響特性パラメータにますます多くのエラーが存在する可能性がある。ただし、音響パラメータ変換モジュールのトレーニングプロセスにおいては、サウンドファイルの実際の音響特性パラメータが使用される。トレーニングによって取得されたモデルは、予測によって取得された音響特性パラメータと、復号化プロセス中にエラーを蓄積した音響特性パラメータを学習していない。したがって、入力特性とトレーニング特性が互いに一致しないと、ボコーダパラメータ変換モデルのパフォーマンスが大幅に低下する可能性がある。

本開示はまた、音声合成デバイスを提供し、これは、図4と併せて以下に説明される。

図4は、本開示のいくつかの実施形態による、音声合成デバイスの構造図を示している。図4に示されるように、この実施形態のデバイス40は、言語認識モジュール402と、音素変換モジュール404と、パラメータ変換モジュール406と、音声生成モジュール408とを含む。

言語認識モジュール402は、セグメントの各々が属する言語カテゴリに従って、テキストを複数のセグメントに分割する。

いくつかの実施形態では、言語認識モジュール402は、テキストの各文字の符号化に従って各文字が属する言語カテゴリを認識することと、同じ言語に属する連続する文字を言語の1つのセグメントに分割することとを行うように構成される。

音素変換モジュール404は、セグメントの各々が属する言語カテゴリに従ってテキストの音素シーケンスを生成するために、セグメントの各々をセグメントに対応する音素に変換するように構成される。

いくつかの実施形態では、音素変換モジュール404は、テキストの韻律構造を決定することと、テキストの音素シーケンスを形成するために、テキストの韻律構造に従ってテキストの各文字に対応する音素の後に韻律識別子を追加することとを行うように構成される。

いくつかの実施形態では、音素変換モジュール404は、セグメントの各々が属する言語カテゴリに従って、セグメントの各々に対してそれぞれテキストの正規化を実行することと、セグメントの各々が属する言語カテゴリに従って、正規化された各セグメントに対して単語グループ分割を実行することと、セグメントの各々が属する言語カテゴリのあらかじめ設定された音素変換テーブルに従って、セグメントの各々の分割された単語グループを対応する音素に変換することとを行うように構成され、音素は文字の声調を含む。

パラメータ変換モジュール406は、音素シーケンスを事前にトレーニングされた音声合成モデルに入力し、それをボコーダ特性パラメータに変換するように構成される。

いくつかの実施形態では、パラメータ変換モジュール406は、音響特性パラメータに変換するために、音素シーケンスを音声合成モデルの音響パラメータ予測モデルに入力することと、ボコーダ特性パラメータを取得するために、音声合成モデルのボコーダパラメータ変換モデルに音響特性パラメータを入力することとを行うように構成される。

いくつかの実施形態では、音響パラメータ予測モデルは、エンコーダと、デコーダと、注意モデルとを含み、パラメータ変換モジュール406は、注意モデルを使用することによって、現時点でエンコーダによって出力された各特性表現の注意重みを決定することと、音素シーケンスにおけるあらかじめ設定された要素に対応する特性表現の注意重みが注意重みの中で最大値であるかどうかを決定し、最大値である場合、復号化プロセスを終了することとを行うように構成される。

いくつかの実施形態では、音響特性パラメータは、音声周波数スペクトルパラメータを含み、ボコーダパラメータ変換モデルは、多層ディープニューラルネットワークと長期および短期記憶ネットワークで構成される。

いくつかの実施形態では、音響特性パラメータの周波数がボコーダ特性パラメータの周波数よりも低い場合、音響特性パラメータを繰り返しアップサンプリングすることによって、音響特性パラメータの周波数をボコーダ特性パラメータの周波数と等しくする。

いくつかの実施形態では、パラメータ変換モジュール406は、エンコーダに音素シーケンスを入力し、エンコーダによって出力された音素シーケンスにおける各要素に対応する特性表現を取得することと、コンテキストベクトルを取得するために、各要素に対応する特性表現、デコーダにおける第1の反復層による現時点のデコーダ出力の隠れ状態、および前の瞬間の各要素に対応する注意重みの累積情報を注意モデルに入力することと、デコーダの第2の反復層によって現時点のデコーダ出力の隠れ状態を取得するために、デコーダの第1の反復層およびコンテキストベクトルによって現時点のデコーダ出力の隠れ状態をデコーダの第2の反復層に入力することと、デコーダによって出力される各瞬間のデコーダの隠れ状態に従って音響特性パラメータを予測することとを行うように構成される。

音声生成モジュール408は、音声を生成するためにボコーダ特性パラメータをボコーダに入力するように構成される。

いくつかの実施形態では、図4に示されるように、音声合成デバイス40は、トレーニングテキストの各々に対応する音声サンプルをあらかじめ設定された周波数に従って異なるフレームに分割し、フレームごとの音響特性パラメータを抽出し、トレーニングテキストの各々にそれぞれ対応する第1の音響特性パラメータサンプルを生成することと、トレーニングテキストの各々に対応する第1の音響特性パラメータサンプルおよびトレーニングテキストの各々を使用することによって、音響パラメータ予測モデルをトレーニングすることと、トレーニングされた音響パラメータ予測モデルを使用することによって、トレーニングテキストの各々をそれぞれ第2の音響特性パラメータサンプルに変換することと、ボコーダの合成周波数に応じて、トレーニングテキストの各々に対応する音声サンプルをそれぞれボコーダ特性パラメータサンプルに変換することと、トレーニングテキストの各々に対応する第2の音響特性パラメータサンプルおよびボコーダ特性パラメータサンプルを使用することによって、ボコーダパラメータ変換モデルをトレーニングすることとを行うように構成されたモデルトレーニングモジュール410をさらに含む。

本開示の実施形態における音声合成デバイスは、様々なコンピューティングデバイスまたはコンピュータシステムによって実装され得、これは、図5および図6と併せて以下に説明される。

図5は、本開示のいくつかの実施形態による、音声合成デバイスの構造図を示している。図5に示されるように、この実施形態のデバイス50は、メモリ510と、メモリ510に結合されたプロセッサ520とを備え、プロセッサ520は、メモリ510に記憶された命令に基づいて、本開示の任意の実施形態における音声合成方法を実装するように構成される。

メモリ510は、たとえば、システムメモリ、固定された不揮発性ストレージ媒体などを含み得る。システムメモリは、たとえば、オペレーティングシステム、アプリケーションプログラム、ブートローダ、データベース、および他のプログラムを記憶する。

図6は、本開示の他の実施形態による、音声合成デバイスの構造図を示している。図6に示されるように、この実施形態のデバイス60は、それぞれメモリ510およびプロセッサ520と同様のメモリ610およびプロセッサ620を含む。I/Oインターフェース630、ネットワークインターフェース640、ストレージインターフェース650などをさらに備え得る。これらのインターフェース630、640、650、ならびにそれらの間のメモリ610およびプロセッサ620は、たとえば、バス660を介して接続され得る。I/Oインターフェース630は、ディスプレイ、マウス、キーボード、およびタッチスクリーンなどの入力および出力デバイスのための接続インターフェースを提供する。ネットワークインターフェース640は、様々なネットワーク化されたデバイスのための接続インターフェースを提供する。たとえば、データベースサーバまたはクラウドストレージサーバに接続されている場合がある。ストレージインターフェース650は、SDカードまたはUSBフラッシュディスクなどの外部ストレージデバイスのための接続インターフェースを提供する。

当業者は、本開示の実施形態が、方法、システム、またはコンピュータプログラム製品として提供され得ることを理解するであろう。したがって、本開示は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、またはソフトウェアとハードウェアの態様の組合せの形をとり得る。さらに、本開示は、コンピュータ使用可能なプログラムコードを含む1つまたは複数のコンピュータ使用可能な非一時的ストレージ媒体(ディスクメモリ、CD-ROM、光メモリなどを含むがこれらに限定されない)に具現化されたコンピュータプログラム製品の形をとり得る。

本開示は、本開示の実施形態による方法、デバイス(システム)、およびコンピュータプログラム製品のフローチャートおよび/またはブロックビューを参照して説明される。フローチャートおよび/またはブロックビューの各ステップおよび/またはブロック、ならびにフローチャートおよび/またはブロックビューのステップおよび/またはブロックの組合せは、コンピュータプログラム命令によって実装され得ることが理解されよう。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラム可能なデータ処理デバイスのプロセッサによって実行される命令が、フローチャートの1つまたは複数のステップ、および/またはブロックビューにおける1つまたは複数のブロックにおいて指定された機能を実現するためのデバイスを生成するように、汎用コンピュータ、専用コンピュータ、組込み処理機械、または機械を製造するための他のプログラム可能なデータ処理デバイスのプロセッサに提供され得る。

これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能なデータ処理デバイスを特定の方法で動作するように導くことができるコンピュータ可読メモリに記憶され得、その結果、コンピュータ可読メモリに記憶された命令は、命令デバイスを含む製造物を生成する。命令デバイスは、フローチャートにおける1つまたは複数のステップにおいて、あるいはブロックビューにおける1つまたは複数のブロックにおいて指定された機能を実現する。

これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能なデータ処理デバイスにロードされ得、その結果、コンピュータ実装処理を生成するために、一連の動作ステップがコンピュータまたは他のプログラム可能なデバイス上で実行され、その結果、コンピュータまたは他のプログラム可能なデバイス上で実行される命令が、フローチャートの1つまたは複数のステップ、および/あるいはブロックビューにおける1つまたは複数のブロックにおいて指定された機能を実現するためのステップを提供する。

前述の説明は、本開示の好ましい実施形態に過ぎず、本開示を限定するために役立つものではない。本開示の趣旨および原則の範囲内で行われた修正、同等の置換え、改善などはすべて、本開示の保護範囲内に含まれるべきである。

40 デバイス
50 デバイス
60 デバイス
402 言語認識モジュール
404 音素変換モジュール
406 パラメータ変換モジュール
408 音声生成モジュール
410 モデルトレーニングモジュール
510 メモリ
520 プロセッサ
610 メモリ
620 プロセッサ
630 I/Oインターフェース
640 ネットワークインターフェース
650 ストレージインターフェース
660 バス

Claims

プロセッサによって、セグメントの各々が属する言語カテゴリに従って、テキストを複数のセグメントに分割するステップ(S102)と、
前記プロセッサによって、前記セグメントの各々が属する前記言語カテゴリに従って、前記テキストの音素シーケンスを生成するために前記セグメントの各々をセグメントに対応する音素に変換するステップ(S104)と、
前記プロセッサによって、事前にトレーニングされた音声合成モデルに前記音素シーケンスを入力して、前記音素シーケンスをボコーダ特性パラメータに変換するステップ(S106)であって、前記変換するステップ(S106)は、
前記音素シーケンスを音響特性パラメータに変換するために、前記音素シーケンスを前記音声合成モデルの音響パラメータ予測モデルに入力するステップであって、
注意モデルを使用することによって、現時点でエンコーダによって出力された各特性表現の注意重みを決定するステップと、
前記音素シーケンスにおけるあらかじめ設定された要素に対応する特性表現の前記注意重みが注意重みの中で最大値であるかどうかを決定し、最大値である場合、デコーダの復号化プロセスを終了するステップと
を備え、前記音響パラメータ予測モデルが、前記エンコーダと、前記デコーダと、前記注意モデルとを備える、入力するステップと、
前記ボコーダ特性パラメータを取得するために、前記音声合成モデルのボコーダパラメータ変換モデルに前記音響特性パラメータを入力するステップと
を備える、ステップ(S106)と、
前記プロセッサによって、音声を生成するために前記ボコーダ特性パラメータをボコーダに入力するステップ(S108)と
を備えることを特徴とする、音声合成方法。
前記プロセッサによって、前記セグメントの各々が属する前記言語カテゴリに従って前記テキストを複数のセグメントに分割するステップが、
前記プロセッサによって、前記テキストの各文字の符号化に従って、各文字が属する前記言語カテゴリを認識するステップと、
前記プロセッサによって、同じ言語に属する連続する文字を前記言語の1つのセグメントに分割するステップと
を備える、
および/または、
前記テキストの音素シーケンスを生成するステップが、
前記プロセッサによって、前記テキストの韻律構造を決定するステップと、
前記プロセッサによって、前記テキストの前記音素シーケンスを形成するために、前記テキストの前記韻律構造に従って前記テキストの各文字に対応する前記音素の後に韻律識別子を追加するステップとを備える、
および/または、
前記セグメントの各々が属する前記言語カテゴリに従って、前記セグメントの各々を前記対応する音素にそれぞれ変換するステップが、
前記プロセッサによって、前記セグメントの各々が属する前記言語カテゴリに従って、前記セグメントの各々に対してそれぞれテキストの正規化を実行するステップと、
前記プロセッサによって、前記セグメントの各々が属する前記言語カテゴリに従って、正規化された各セグメントに対して単語グループ分割を実行するステップと、
前記プロセッサによって、前記セグメントの各々が属する前記言語カテゴリのあらかじめ設定された音素変換テーブルに従って、前記セグメントの各々の分割された単語グループを対応する音素に変換するステップとを備え、
前記音素が文字の声調を備えることを特徴とする、請求項1に記載の音声合成方法。
前記音響特性パラメータが、音声周波数スペクトルパラメータを備え、
前記ボコーダパラメータ変換モデルが、多層ディープニューラルネットワークと、長期および短期記憶ネットワークを備える、
および/または、
前記音響特性パラメータの周波数が前記ボコーダ特性パラメータの周波数よりも低い場合、前記プロセッサによって、前記音響特性パラメータを繰り返しアップサンプリングすることによって、前記音響特性パラメータの前記周波数を前記ボコーダ特性パラメータの周波数と等しくすることを特徴とする、請求項1に記載の音声合成方法。
前記プロセッサによって、前記音声合成モデルをトレーニングするステップをさらに備え、
トレーニング方法が、
トレーニングテキストの各々に対応する音声サンプルをあらかじめ設定された周波数に従って異なるフレームに分割し、フレームごとの音響特性パラメータを抽出し、前記トレーニングテキストの各々にそれぞれ対応する第1の音響特性パラメータサンプルを生成するステップと、
前記トレーニングテキストの各々に対応する前記第1の音響特性パラメータサンプルおよび前記トレーニングテキストの各々を使用することによって、音響パラメータ予測モデルをトレーニングするステップと、
トレーニングされた音響パラメータ予測モデルを使用することによって、前記トレーニングテキストの各々をそれぞれ第2の音響特性パラメータサンプルに変換するステップと、
前記ボコーダの合成周波数に応じて、前記トレーニングテキストの各々に対応する音声サンプルをそれぞれボコーダ特性パラメータサンプルに変換するステップと、
前記トレーニングテキストの各々に対応する前記第2の音響特性パラメータサンプルおよび前記ボコーダ特性パラメータサンプルを使用することによって、ボコーダパラメータ変換モデルをトレーニングするステップと
を備えることを特徴とする、請求項1に記載の音声合成方法。
前記音響パラメータ予測モデルが、エンコーダと、デコーダと、注意モデルとを備え、前記音素シーケンスを前記音響特性パラメータに変換するために、前記音素シーケンスを前記音声合成モデルの前記音響パラメータ予測モデルに入力する前記ステップが、
前記エンコーダに前記音素シーケンスを入力し、前記エンコーダによって出力された前記音素シーケンスにおける各要素に対応する特性表現を取得するステップと、
コンテキストベクトルを取得するために、各要素に対応する特性表現、前記デコーダにおける第1の反復層による現時点のデコーダ出力の隠れ状態、および前の瞬間の各要素に対応する注意重みの累積情報を前記注意モデルに入力するステップと、
前記デコーダの第2の反復層によって前記現時点の前記デコーダ出力の隠れ状態を取得するために、前記デコーダの第1の反復層および前記コンテキストベクトルによって前記現時点の前記デコーダ出力の隠れ状態を前記デコーダの第2の反復層に入力するステップと、
前記デコーダによって出力される各瞬間の前記デコーダの隠れ状態に従って前記音響特性パラメータを予測するステップと
を備えることを特徴とする、請求項1に記載の音声合成方法。
セグメントの各々が属する言語カテゴリに従って、テキストを複数のセグメントに分割するように構成された言語認識モジュール(402)と、
前記セグメントの各々が属する前記言語カテゴリに従って、前記テキストの音素シーケンスを生成するために前記セグメントの各々を前記セグメントに対応する音素に変換するように構成された音素変換モジュール(404)と、
事前にトレーニングされた音声合成モデルに前記音素シーケンスを入力して、前記音素シーケンスをボコーダ特性パラメータに変換するように構成されたパラメータ変換モジュール(406)であって、前記変換することが、
前記音素シーケンスを音響特性パラメータに変換するために、前記音素シーケンスを前記音声合成モデルの音響パラメータ予測モデルに入力することであって、
注意モデルを使用することによって、現時点でエンコーダによって出力された各特性表現の注意重みを決定することと、
前記音素シーケンスにおけるあらかじめ設定された要素に対応する特性表現の前記注意重みが注意重みの中で最大値であるかどうかを決定し、最大値である場合、デコーダの復号化プロセスを終了することと
を含み、前記音響パラメータ予測モデルが、前記エンコーダと、前記デコーダと、前記注意モデルとを備える、入力することと、
前記ボコーダ特性パラメータを取得するために、前記音声合成モデルのボコーダパラメータ変換モデルに前記音響特性パラメータを入力すること
を含む、パラメータ変換モジュール(406)と、
音声を生成するために前記ボコーダ特性パラメータをボコーダに入力するように構成された音声生成モジュール(408)と
を備えることを特徴とする、音声合成デバイス。
前記言語認識モジュールが、前記テキストの各文字の符号化に従って、各文字が属する前記言語カテゴリを認識することと、同じ言語に属する連続する文字を前記言語の1つのセグメントに分割することとを行うように構成される、
および/または、
前記音素変換モジュールが、前記テキストの韻律構造を決定することと、前記テキストの前記音素シーケンスを形成するために、前記テキストの前記韻律構造に従って前記テキストの各文字に対応する前記音素の後に韻律識別子を追加することとを行うように構成される、
および/または、
前記音素変換モジュールが、前記セグメントの各々が属する前記言語カテゴリに従って、前記セグメントの各々に対してそれぞれテキストの正規化を実行することと、前記セグメントの各々が属する前記言語カテゴリに従って、正規化された各セグメントに対して単語グループ分割を実行することと、前記セグメントの各々が属する前記言語カテゴリのあらかじめ設定された音素変換テーブルに従って、前記セグメントの各々の分割された単語グループを対応する音素に変換することとを行うように構成され、
前記音素が文字の声調を備えることを特徴とする、請求項6に記載の音声合成デバイス。
前記パラメータ変換モジュールが、前記エンコーダに前記音素シーケンスを入力し、前記エンコーダによって出力された前記音素シーケンスにおける各要素に対応する特性表現を取得することと、コンテキストベクトルを取得するために、各要素に対応する特性表現、前記デコーダにおける第1の反復層による前記現時点のデコーダ出力の隠れ状態、および前の瞬間の各要素に対応する注意重みの累積情報を前記注意モデルに入力することと、前記デコーダの第2の反復層によって前記現時点の前記デコーダ出力の隠れ状態を取得するために、前記デコーダの第1の反復層および前記コンテキストベクトルによって前記現時点の前記デコーダ出力の隠れ状態を前記デコーダの第2の反復層に入力することと、前記デコーダによって出力される各瞬間の前記デコーダの隠れ状態に従って前記音響特性パラメータを予測することとを行うように構成されることを特徴とする、請求項6に記載の音声合成デバイス。
前記音響特性パラメータが、音声周波数スペクトルパラメータを備え、
前記ボコーダパラメータ変換モデルが、多層ディープニューラルネットワークと、長期および短期記憶ネットワークを備える、および/または、
前記音響特性パラメータの周波数が前記ボコーダ特性パラメータの周波数よりも低い場合、前記音響特性パラメータを繰り返しアップサンプリングすることによって、前記音響特性パラメータの前記周波数を前記ボコーダ特性パラメータの周波数と等しくすることを特徴とする、請求項6に記載の音声合成デバイス。
トレーニングテキストの各々に対応する音声サンプルをあらかじめ設定された周波数に従って異なるフレームに分割し、フレームごとの音響特性パラメータを抽出し、前記トレーニングテキストの各々にそれぞれ対応する第1の音響特性パラメータサンプルを生成することと、前記トレーニングテキストの各々に対応する前記第1の音響特性パラメータサンプルおよび前記トレーニングテキストの各々を使用することによって、音響パラメータ予測モデルをトレーニングすることと、トレーニングされた音響パラメータ予測モデルを使用することによって、前記トレーニングテキストの各々をそれぞれ第2の音響特性パラメータサンプルに変換することと、前記ボコーダの合成周波数に応じて、前記トレーニングテキストの各々に対応する音声サンプルをそれぞれボコーダ特性パラメータサンプルに変換することと、前記トレーニングテキストの各々に対応する前記第2の音響特性パラメータサンプルおよび前記ボコーダ特性パラメータサンプルを使用することによって、ボコーダパラメータ変換モデルをトレーニングすることとを行うように構成されたモデルトレーニングモジュールをさらに備えることを特徴とする、請求項6に記載の音声合成デバイス。
メモリと、
前記メモリに結合されたプロセッサと
を特徴とし、前記プロセッサが、前記メモリに記憶された命令に基づいて、請求項1から5のいずれか一項に記載の音声合成方法を実装するように構成される、音声合成デバイス。
プロセッサによって実行されると、請求項1から5のいずれか一項に記載の方法のステップを実装するコンピュータプログラム命令を記憶している、コンピュータ可読ストレージ媒体。
請求項1から5のいずれか一項に記載の方法をプロセッサに実行させるように構成されることを特徴とする、コンピュータプログラム。