JP6875572B2

JP6875572B2 - 音声合成方法、装置、電子デバイス、及びプログラム

Info

Publication number: JP6875572B2
Application number: JP2020025772A
Authority: JP
Inventors: サン，チェンシー; サン，タオ; ズー，シァオリン; ワン，ウェンフ
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2019-09-19
Filing date: 2020-02-19
Publication date: 2021-05-26
Anticipated expiration: 2040-02-19
Also published as: CN110473516A; US20210090550A1; CN110473516B; US11417314B2; JP2021047392A

Description

本発明は、音声合成の技術分野に関し、特に、音声合成方法、装置、電子デバイス、及びプログラムに関する。

音声合成は、機械的、電子的な方法により人工音声を生成する技術であり、コンピュータ自身から生成された、あるいは外部から入力された文字情報を、聞き取り可能な、流暢な中国語の音声に変換して出力する技術である。具体的には、テキストを一旦コンパクトな音声表現に変換し、この表現をボコーダと呼ばれる音声波形合成手法を用いて音声に変換する。例えば、現在のスマートデバイスは、音声を再生する際に音声を合成する必要がある。しかしながら、従来の音声装置は、合成された音声が不自然で流暢でなく、音質が悪く、音声合成速度も遅いという問題があった。

本発明は、従来技術における上記の１つ又は複数の技術課題を解決するための音声合成方法、装置、及び電子デバイスを提供する。

本発明の第１態様は、音声合成方法を提供する。当該方法は、
テキスト情報を音響モデルのエンコーダに入力して、現在のタイムステップにおけるテキスト特徴を出力することと、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得することと、
現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力して音声を出力することと、を含む。
本実施形態では、現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得する。音響モデルは、自己回帰を導入することにより、トレーニングデータ量が少ない場合でも、高い再現度、高いナチュラル度の音声を生成することができる。そして、自己回帰の都度得られた現在のタイムステップにおけるスペクトル特徴がニューラルネットワークベースのボコーダーに入力され、合成された音声を得る。ニューラルネットワークベースのボコーダは、汎用的な装置においてリアルタイムで高音質な音声を実現できるとともに、演算量を削減して合成速度を高めることができる。自己回帰型の音響モデルとニューラルネットワークベースのボコーダーとを組み合わせることにより、ハードウェア資源の節約と音声合成の高速化を図りつつ、合成音声のナチュラル度と音質を向上させることができる。

１つの実施形態において、テキスト情報を音響モデルのエンコーダに入力し、現在のタイムステップにおけるテキスト特徴を出力することは、
テキスト情報が、エンコーダの少なくとも１つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力することを含む。
本実施形態では、テキスト情報は、少なくとも１つの全結合層及びゲート付き回帰ユニットを経た後、前後文書の情報を有効に取得できるため、合成された音声の表現がより流暢になる。

１つの実施形態において、現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得することとは、
直前のタイムステップにおける接続特徴をデコーダの少なくとも１つのゲート付き回帰ユニット及び全結合層に入力して、直前のタイムステップにおける第１のスペクトル特徴を出力することと、
直前のタイムステップにおける第１のスペクトル特徴をもう１つの全結合層に入力して、直前のタイムステップにおける第２のスペクトル特徴を取得することと、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおける第２のスペクトル特徴とを接続して、現在のタイムステップにおける接続特徴を取得することと、
現在のタイムステップにおける接続特徴を音響モデルのデコーダに入力し、現在のタイムステップにおける第１のスペクトル特徴を取得することと，をさらに含む。
本実施形態では、直前のタイムステップにおける第１のスペクトル特徴または直前のタイムステップにおける第２のスペクトル特徴を、現在のタイムステップにおけるテキスト特徴に接続した後、音響モデルのボコーダーに入力して、現在のタイムステップにおける第１のスペクトル特徴を取得する。ボコーダーにおいて自己回帰的なスペクトル特徴が生成されるため、トレーニングデータ量が少ない場合でも、高い還元度で高いナチュラル度の音声を生成することができる。

１つの実施形態において、現在のタイムステップにおけるスペクトル特徴を、ニューラルボコーダーに入力して音声を出力することは、
現在のタイムステップにおける第１のスペクトル特徴を少なくとも１つの畳み込みニューラルネットワークに入力して、現在のタイムステップにおける第２のスペクトル特徴を取得することと、
現在のタイムステップにおける第１のスペクトル特徴または現在のタイムステップにおける第２のスペクトル特徴をニューラルボコーダーに入力して、音声を出力することと、を含む。
本実施形態では、第１のスペクトル特徴を２つの畳み込みニューラルネットワークを通して、第２のスペクトル特徴を取得することができるため、第１のスペクトルシグネチャの平滑化を高めることができる。この畳み込みニューラルネットワークによるスペクトル特徴の平滑化処理により、第１のスペクトル特徴よりも平滑化が進んだ第２のスペクトル特徴が得られる。

１つの実施形態において、当該方法は、
現在のタイムステップにおける第１のスペクトル特徴と、真のスペクトル特徴と、に基づいて第１の損失を算出することと、
現在のタイムステップにおける第２のスペクトル特徴と、真のスペクトル特徴と、に基づいて第２の損失を算出することと、
第１の損失及び第２の損失を勾配の逆伝播計算の起点として用いて音響モデルをトレーニングすることと、をさらに含む。
本実施形態では、第１の損失及び第２の損失を算出する際に真のスペクトル特徴を導入することにより、第２の損失及び第２の損失を用いてトレーニングされた音響モデルによって生成されるスペクトル特徴が真のスペクトル特徴により近づくため、合成音声の再現度が向上する。

本発明の第２態様は、音声合成装置を提供する。当該音声合成装置は、
テキスト情報を音響モデルのエンコーダに入力し、現在のタイムステップにおけるテキスト特徴を出力するテキスト特徴抽出モジュールと、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力し、現在のタイムステップにおけるスペクトル特徴を取得する特徴回帰モジュールと、
現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力し、音声を出力する音声合成モジュールと、を含む。

１つの実施形態において、テキスト特徴抽出モジュールは、
テキスト情報が、エンコーダの少なくとも１つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力するエンコーディングサブモジュールを含む。

１つの実施形態において、特徴回帰モジュールは、
直前のタイムステップにおける接続特徴をデコーダの少なくとも１つのゲート付き回帰ユニット及び全結合層に入力し、直前のタイムステップにおける第１のスペクトル特徴を出力する第１のデコーディングサブモジュールと、
直前のタイムステップにおける第１のスペクトル特徴をもう１つの全結合層に入力し、直前のタイムステップにおける第２のスペクトル特徴を取得する回帰サブモジュールと、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおける第２のスペクトル特徴とを接続し、現在のタイムステップにおける接続特徴を取得する接続サブモジュールと、
現在のタイムステップにおける接続特徴を音響モデルのデコーダに入力し、現在のタイムステップにおける第１のスペクトル特徴を取得する第２のデコーディングサブモジュールと、を含む。

１つの実施形態において、音声合成モジュールは、
現在のタイムステップにおける第１のスペクトル特徴を少なくとも１つの畳み込みニューラルネットワークに入力し、現在のタイムステップにおける第２のスペクトル特徴を取得する平滑化サブモジュールと、
現在のタイムステップにおける第１のスペクトル特徴または現在のタイムステップにおける第２のスペクトル特徴をニューラルボコーダーに入力し、音声を出力する合成サブモジュールと、を含む。

１つの実施形態において、当該装置は、
現在のタイムステップにおける第１のスペクトル特徴と、真のスペクトル特徴と、に基づいて第１の損失を算出し、
現在のタイムステップにおける第２のスペクトル特徴と、真のスペクトル特徴と、に基づいて第２の損失を算出し、
第１の損失及び第２の損失を勾配の逆伝播計算の起点として用いて音響モデルをトレーニングするモデル訓練モジュール、をさらに含む。

本発明の第３態様は、電子デバイスを提供する。前記デバイスの機能は、ハードウェアによって実現されてもよく、ハードウェアをもって対応するソフトウェアを実行することによって実現されてもよい。前記ハードウェア又はソフトウェアは、上記機能に対応する１つ又は複数のモジュールを含む。

１つの可能な実施形態において、電子デバイスには、プロセッサとメモリが含まれ、前記メモリには、音声合成装置が上記の音声合成方法を実行するためのプログラムが記憶され、前記プロセッサは、前記メモリに記憶されたプログラムを実行するように構成される。前記電子デバイスは、他のデバイス又は通信ネットワークと通信するための通信インターフェースをさらに含む。

本発明の第４態様は、音声合成装置に使用される、上記音声合成方法を実行するためのプログラムを含むコンピュータソフトウェアコマンドを記憶するコンピュータ可読記憶媒体を提供する。

上記の技術案のうちの少なくとも１つの技術案は、下記のメリット及び有益的な効果を有する。
本発明によれば、音響モデルの自己回帰を用いた技術的手段により、合成音声が不自然で流暢でなく、音質が悪く、音声合成速度も遅い、という技術的課題を克服し、合成音声の再現度及びナチュラル度を向上させるとともに、音声合成速度を速くする、という技術的効果が得られる。

上記の選択可能な実施形態が有する他の効果については、以下の具体的な実施形態を参照しながら説明する。

本発明に係る音声合成方法の一実施形態のフローチャートである。本発明に係る音声合成方法のもう１つの実施形態のフローチャートである。本発明に係るMelに基づくニューラルネットワークの一実施形態のシーングラフィックである。本発明に係る線形予測ニューラルボコーダーの一実施形態のシーングラフィックである。本発明に係る音声合成装置の一実施形態の構成図である。本発明に係る音声合成装置のもう１つの実施形態の構成図である。本発明に係る電子デバイスの一実施形態の構成図である。

以下、図面を参照しながら本発明の例示的な実施形態を説明するが、本発明の実施形態の様々な詳細が理解を容易にするために含まれており、それらは単なる例示的と考えられるべきである。したがって、当業者は、本願の範囲および旨から逸脱することなく、本願明細書に記載された実施形態に対して様々な変更および修正を行うことができることを理解すべきである。同様に、以下の説明では、公知な機能および構造についての説明は、明瞭かつ簡明のために省略される。

（第１の実施形態）
１つの具体的な実施の形態において、図１に示すように、音声合成方法を提供する。当該音声合成方法は、以下のステップＳ１０、Ｓ２０、Ｓ３０を含む。
Ｓ１０において、テキスト情報を音響モデルのエンコーダに入力し、現在のタイムステップにおけるテキスト特徴を出力する。
Ｓ２０において、現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力し、現在のタイムステップにおけるスペクトル特徴を取得する。
Ｓ３０において、現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力して音声を出力する。

本実施形態において、音響モデルは、自己回帰型の音響モデル、例えば、ＭＥＬＲＮＮ ( ｍｅｌベースの再帰型メル循環ニューラルネットワーク、ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ )を選択することができる。ニューラルボコーダーは、ｍｅｌ−ＬＰＣＮｅｔ (線形予測ニューラルネットワークベースのボコーダー、ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＮｅｔｗｏｒｋ )を選択することができる。もちろん、他のタイプの音響モデルやニューラルネットワークベースのボコーダーであってもよく、実際の必要に応じて適応的に選択することは、全て本実施形態の保護の範囲内にある。自己回帰型の音響モデルは、エンコーダ、デコーダ、及びエンコーダとデコーダとの間に配置された連結モジュールを含む。エンコーダは、テキスト情報を時系列に関連する次元の高いテキスト特徴に変換するのに使用され、デコーダは、高次元のテキスト特徴をスペクトル特徴に変換するのに使用される。スペクトル特徴自体は時系列特性を有する。エンコーダより出力された現在のタイムステップにおけるテキスト特徴と、デコーダにより出力された直前のタイムステップにおけるスペクトル特徴とは、接続モジュールによって接続され、現在のタイムステップにおける接続（スティッチング）特徴を取得する。現在のタイムステップにおける接続特徴は、デコーダに入力され、現在のタイムステップにおけるスペクトル特徴が得られる。このループにより、音響モデルに自己回帰が導入され、直前の時刻におけるスペクトル特徴が再帰型ニューラルネットワーク（ＲＮＮ）の時間推定過程に導入され、再帰型ニューラルネットワークの不足が補われ、トレーニングデータ量が少ない場合でも、高い復元度で高いナチュラル度を持つ音声を生成することができる。

そして、自己回帰の都度得られた現在のタイムステップにおけるスペクトル特徴がｍｅｌ−ＬＰＣＮｅｔに入力され、合成された音声が得られる。ニューラルネットワークベースのボコーダーは、汎用的な装置でリアルタイムで高音質な音声を実現できるとともに、演算量を削減して合成速度を高めることができる。自己回帰型の音響モデルとニューラルネットワークベースのボコーダーとを組み合わせることにより、ハードウェア資源の節約と音声合成の高速化を図りつつ、合成音声のナチュラル度と音質を向上させることができる。

１つの具体的な実施の形態において、図２に示すように、ステップＳ１０では、以下のステップＳ１０１を含む。
Ｓ１０１において、テキスト情報が、エンコーダの少なくとも１つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力する。
本実施形態では、テキスト情報は、少なくとも１つの全結合層及びゲート付き回帰ユニットを経た後、前後文書の情報を有効に取得できるため、合成された音声の表現がより流暢になる。

１つの具体的な実施の形態において、図２に示すように、ステップＳ２０では、以下のステップＳ２０１〜Ｓ２０４を含む。
Ｓ２０１において、直前のタイムステップにおける接続特徴をデコーダの少なくとも１つのゲート付き回帰ユニット及び全結合層に入力して、直前のタイムステップにおける第１のスペクトル特徴を出力する。
Ｓ２０２において、直前のタイムステップにおける第１のスペクトル特徴をもう１つの全結合層に入力して、直前のタイムステップにおける第２のスペクトル特徴を取得する。
Ｓ２０３において、現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおける第２のスペクトル特徴とを接続して、現在のタイムステップにおける接続特徴を取得する。
Ｓ２０４において、現在のタイムステップにおける接続特徴を音響モデルのデコーダに入力して、現在のタイムステップにおける第１のスペクトル特徴を取得する。
本実施形態では、直前のタイムステップにおける第１のスペクトル特徴または直前のタイムステップにおける第２のスペクトル特徴を、現在のタイムステップにおけるテキスト特徴に接続した後、音響モデルのボコーダーに入力して、現在のタイムステップにおける第１のスペクトル特徴を取得する。ボコーダーにおいて自己回帰的なスペクトル特徴が生成されるため、トレーニングデータ量が少ない場合でも、高い還元度で高いナチュラル度の音声を生成することができる。

１つの具体的な実施の形態において、図２に示すように、ステップＳ３０では、以下のステップＳ３０１〜Ｓ３０２を含む。
Ｓ３０１において、現在のタイムステップにおける第１のスペクトル特徴を少なくとも１つの畳み込みニューラルネットワークに入力して、現在のタイムステップにおける第２のスペクトル特徴を取得する。
Ｓ３０２において、現在のタイムステップにおける第１のスペクトル特徴または現在のタイムステップにおける第２のスペクトル特徴をニューラルボコーダーに入力して、音声を出力する。
本実施形態では、第１のスペクトル特徴を２つの畳み込みニューラルネットワークを通して、第２のスペクトル特徴を取得することができるため、第１のスペクトルシグネチャの平滑化を高めることができる。この畳み込みニューラルネットワークによるスペクトル特徴の平滑化処理により、第１のスペクトル特徴よりも平滑化が進んだ第２のスペクトル特徴が得られる。

１つの具体的な実施の形態において、図２に示すように、以下のステップＳ４０〜Ｓ５０を含む。
Ｓ４０において、現在のタイムステップにおける第１のスペクトル特徴と真のスペクトル特徴とに基づいて第１の損失を算出し、現在のタイムステップにおける第２のスペクトル特徴と真のスペクトル特徴とに基づいて第２の損失を算出する。
Ｓ５０において、第１の損失及び第２の損失を勾配の逆伝播計算の起点として用いて音響モデルをトレーニングする。
本実施形態では、第１の損失及び第２の損失を算出する際に真のスペクトル特徴を導入することにより、第２の損失及び第２の損失を用いてトレーニングされた音響モデルによって生成されるスペクトル特徴が真のスペクトル特徴により近づくため、合成音声の再現度が向上する。

（第２の実施形態）
１つの実施形態では、音声の合成は下記の２つの段階を含む。第１の段階では、音声合成の前段のシステムにて、テキストをリッチテキスト情報に変換し、第２の段階では、音声合成の後段のシステムにて、リッチテキスト情報を音声に合成する。音声合成の後段のシステムにおいて、テキスト情報をスペクトル特徴に変換する音響モデルを提供することができる。本実施形態では、まず、図３に示すように、音響モデルとして、ｍｅｌベースの自己回帰型循環ニューラルネットワーク（ＭＥＬＲＮＮ）を提供することができる。前段のシステムより提供されたリッチテキスト情報は、５音素を抽出することにより、６１５次元のような次元の高いテキスト情報に拡張することができる。高次元テキスト情報はエンコーダに入力され、第１の全結合層、第２の全結合層、及び第１のゲート付き回帰ユニット（ＧＲＵ，ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）を通して、時系列に関連する高次元のテキスト特徴を取得することができる。エンコーダから出力された現在のタイムステップにおけるテキスト特徴を、直前のタイムステップにおけるメル特徴に接続して、現在のタイムステップにおける接続特徴を得る。このステップにより、直前のタイムステップにおけるメル特徴がＭＥＬＲＮＮにおける時間進行プロセスに導入される。そして、現在のタイムステップにおける接続特徴がデコーダに入力され、第２のゲート付き回帰ユニット、第３のゲート付き回帰ユニット、及び第４の全結合層を通して、図３に示されたスペクトル特徴ｍｅｌ１のような現在のタイムステップにおけるメル（ｍｅｌ）特徴が出力される。ｍｅｌ１が１つの全結合層を通過させた結果であるｍｅｌ２を、次のタイムステップにおけるテキスト特徴と接続して、次のタイムステップにおける接続特徴を得ることができる。このステップにより、現在時刻のメル（ｍｅｌ）特徴がメルベースの回帰ニューラルネットワークの時間進行プロセスに導入される。このように、複数のタイムステップにおけるメル（ｍｅｌ）特徴が得られる。ｍｅｌ１に続いて、２層の畳み込みニューラルネットワーク（ＣＮＮ，ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）を通してｍｅｌ３を得、ｍｅｌ特徴をより滑らかにする。

次いで、メルベースの自己回帰型音響モデルの都度出力された各タイムステップにおけるメル（ｍｅｌ）特徴がｍｅｌ−ＬＰＣＮｅｔに入力され、例えば、ｍｅｌ１またはｍｅｌ３がｍｅｌ−ＬＰＣＮｅｔに入力されてメル（ｍｅｌ）特徴が音声に変換されることができる。図４に示されるように、ｍｅｌ−ＬＰＣＮｅｔは、フレームレベルネットワーク、サンプルレベルネットワーク、及び両ネットワークの間にある線形予測エンコーダ及び予測演算器を含む。その中、ｍｅｌ１またはｍｅｌ３をｍｅｌ−ＬＰＣＮｅｔに入力して音声を出力するステップは、ｍｅｌ１またはｍｅｌ３をフレームレベルネットワークに入力し、時系列的に関連するｍｅｌ４を抽出するステップを含む。ｍｅｌ１またはｍｅｌ３は、線形予測符号化器( ｃｏｍｐｕｔｅｒＬＰＣ )に入力され、重み係数ベクトルが出力される。重み係数ベクトルと、サンプル点レベルのネットワークから出力された線形サンプル点は、予測計算器に入力されて線形演算が行われ、予測サンプル点が得られる。予測サンプル点およびｍｅｌ４をサンプル点レベルのネットワークに入力し、音声に含まれる線形サンプル点を出力する。予測サンプル点およびｍｅｌ４をサンプル点レベルのネットワークに入力し、線形サンプル点を出力するステップは、予測サンプル点、線形サンプル点、偏差補正のための第１の補償サンプル点、およびｍｅｌ４を、接続モジュール、少なくとも１つのゲート付き回帰ユニット、例えば、第５および第６のゲート付き回帰ユニット、第７の全結合層、損失関数層、およびサンプル層を通して、第２の補償サンプル点を得ることを含む。予測サンプル点と第２の補償サンプル点を加算し、線形サンプル点を得る。

なお、音声ファイルから真のｍｅｌスペクトル特徴を抽出するようにしてもよい。真のスペクトル特徴はｍｅｌ−ＬＰＣＮｅｔに入力され、線形サンプル点が計算される。ＭＥＬＲＮＮが出力する予測スペクトル特徴をｍｅｌ−ＬＰＣＮｅｔに入力してもよい。すなわち直前時刻の出力を次の時刻の入力とする方法で得られたｍｅｌをｍｅｌ−ＬＰＣＮｅｔトレーニングの入力特徴とする。予測スペクトル特徴をトレーニングサンプルとして、得られた音響モデルの精度をトレーニングするとともに音質を向上させる。ＬＰＣＮｅｔを独立したボコーダとみなしとき、他のボコーダと比べてネットワーク構成自体が簡単であり、ｍｅｌ−ＬＰＣＮｅｔはトレーニングしタスクの一部を事前知識により低演算量の数学演算に変換することに加え、間引きが行われるため、コストパフォーマンスが非常に高い。また、ノード数は比較的少ないもののＭＥＬＲＮＮやｍｅｌ−ＬＰＣＮｅｔが提案されているため、量子化後のモデルのサイズは、それぞれ１８Ｍと２．３Ｍ程度で済む。計算量が少なく、消費電力が低いという特徴を有し、組み込みシステムにも使用できる。

（第３の実施形態）
１つの具体的な実施の形態において、図５に示すように、音声合成装置１００を提供する。当該音声合成装置１００は、
テキスト情報を音響モデルのエンコーダに入力して、現在のタイムステップにおけるテキスト特徴を出力するテキスト特徴抽出モジュール１０１と、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得する特徴回帰モジュール１０２と、
現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力して、音声を出力する音声合成モジュール１０３と、を含む。

１つの実施形態において、図６に示すように、音声合成装置２００を提供する。当該音声合成装置２００のテキスト特徴抽出モジュール１０１は、
テキスト情報が、エンコーダの少なくとも１つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力するエンコーディングサブモジュール１０１１を含む。

１つの実施形態において、図６に示すように、特徴回帰モジュール１０２は、
直前のタイムステップにおける接続特徴をデコーダの少なくとも１つのゲート付き回帰ユニット及び全結合層に入力して、直前のタイムステップにおける第１のスペクトル特徴を出力する第１のデコーディングサブモジュール１０２１と、
直前のタイムステップにおける第１のスペクトル特徴をもう１つの全結合層に入力して、直前のタイムステップにおける第２のスペクトル特徴を取得する回帰サブモジュール１０２２と、
現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおける第２のスペクトル特徴とを接続して、現在のタイムステップにおける接続特徴を取得する接続サブモジュール１０２３と、
現在のタイムステップにおける接続特徴を音響モデルのデコーダに入力して、現在のタイムステップにおける第１のスペクトル特徴を取得する第２のデコーディングサブモジュール１０２４と、を含む。

１つの実施形態において、図６に示すように、音声合成モジュール１０３は、
現在のタイムステップにおける第１のスペクトル特徴を少なくとも１つの畳み込みニューラルネットワークに入力して、現在のタイムステップにおける第２のスペクトル特徴を取得する平滑化サブモジュール１０３１と、
現在のタイムステップにおける第１のスペクトル特徴または現在のタイムステップにおける第２のスペクトル特徴をニューラルボコーダーに入力して、音声を出力する合成サブモジュール１０３２と、を含む。

本発明は、本願は電子デバイスとコンピュータ可読記憶媒体も提供する。
図７は本願実施形態の音声合成方法に係る電子デバイスの構成図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことができる。また、電子デバイスはパーソナルデジタル処理、携帯電話、スマートフォン、装着可能デバイス、およびその他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。ここで示した構成要素、それらの接続と関係、およびそれらの機能は例示的なものに過ぎず、本明細書で説明されたものおよび／または要求される本明細書の実施を制限することは意図されない。
図７に示すように、当該電子デバイスは、１つ又は複数のプロセッサ７０１と、メモリ７０２と、高速インターフェースと低速インターフェースとを含む各構成要素を接続するためのインターフェースとを含む。各構成要素は、異なるバスを利用して互いに接続し、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、電子デバイス内で実行される命令を処理してもよく、また、外部入出力デバイス（例えば、インターフェースに接続された表示デバイス）にグラフィックユーザインターフェース（Ｇｒａｐｈｉｃａl ＵｓｅｒＩｎｔｅｒｆａｃｅ，ＧＵＩ）を表示するための、メモリまたはメモリ上に記憶されたグラフィカル情報の命令を含む。他の実施形態では、必要に応じて、複数のプロセッサおよび／または複数のバスを複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続してもよく、各デバイスは、部分的に必要な動作（例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして）を提供する。図７においてプロセッサ７０１を例とする。

メモリ７０２は、本明細書にて提供された非一過性のコンピュータ可読記憶媒体である。メモリは、本明細書で提供される音声合成方法を少なくとも１つのプロセッサに実行させるように、少なくとも１つのプロセッサによって実行されることができる命令を記憶する。本明細書における非一過性のコンピュータ可読記憶媒体は、本明細書で提供された音声合成方法をコンピュータに実行させるためのコンピュータ命令を記憶する。

メモリ７０２は、非一過性のコンピュータ可読記憶媒体として、非一過性のソフトウェアプログラム、非一過性のコンピュータ実行可能なプログラム及びモジュールを記憶するために使用されてもよく、本発明の実施形態における音声合成方法に対応するプログラム命令／モジュール（たとえば、図５に示されるテキスト特徴抽出モジュール１０１、特徴回帰モジュール１０２、音声合成モジュール１０３）のようなものである。プロセッサ７０１は、メモリ７０２に記憶されている非一過性のソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理、すなわち上述した方法に関する実施形態に係る音声合成方法を実行する。

メモリ７０２は、オペレーティングシステムや少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラムの記憶領域と、音声合成方法に係る電子デバイスの使用によって生成されたデータなどを記憶することができるデータの記憶領域と、を含むことができる。さらに、メモリ７０２は、高速ランダムアクセスメモリを含んでもよく、非一過性の固体記憶装置を含んでもよい。例えば、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一過性の固体記憶装置を含むことができる。いくつかの実施形態では、メモリ７０２はオプションとして、プロセッサ７０１に対して遠隔的に設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介して音声合成方法に係る電子デバイスに接続されてもよい。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルネットワーク、モバイル通信ネットワークおよびその組み合わせを含むが、これらに限定されない。

音声合成方法に係る電子デバイスは、入力装置７０３と出力装置７０４とをさらに含むことができる。プロセッサ７０１、メモリ７０２、入力装置７０３、および出力装置７０４は、バスまたは他の方法で接続されてもよく、図7ではバスを介して接続されている。

入力装置７０３は、入力された数字または文字を受信し、音声合成方法に係る電子デバイスのユーザ設定および機能制御に関するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックボード、タッチパッド、指示棒、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどを含むことができる。出力装置７０４は、表示装置、補助照明装置（例えばＬＥＤ）、および触覚フィードバック装置（例えば、振動モータ）などを含むことができる。この表示装置は、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、発光ダイオード（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ、ＬＥＤ）ディスプレイおよびプラズマディスプレイを含むことができるがこれらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書におけるシステムおよび技術に係る様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路（ＡｐｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ、ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはこれらの組み合わせによって実現されることができる。これらの様々な実施形態は、１つまたは複数のコンピュータプログラムにおいて実装されてもよく、この１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステム上で実行されてもよく、および／または解釈されてもよく、このプログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置より、データと命令を受信し、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置に、データと命令を送信する。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードともいう）は、プログラマブルプロセッサのマシン命令を含み、プロセス指向および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／マシン言語を用いてこれらの計算プログラムを実施することができる。本明細書で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、マシン命令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、編集可能論理デバイス（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ、ＰＬＤ）を意味し、機械読み取り可能な信号としてのマシン命令を受信する機械可読媒体を含む。「機械読み取り可能な信号」という用語は、マシン命令および／またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

ユーザとの対話を提供するために、本明細書で説明されているシステムや技術は、コンピュータ上で実施されてもよく、また、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ、ブラウン管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、入力をコンピュータに提供するためのキーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを備えてもよい。他の種類の装置も、ユーザとの対話を提供するために使用され得る。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、ユーザからの入力は、いかなる形式（音響入力、音声入力、または触覚入力を含む）で受信されてもよい。

本明細書で説明されているシステムおよび技術は、バックグラウンド構成要素を含む計算システム（例えば、データサーバとして）、または中間部構成要素を含む計算システム（例えば、アプリケーションサーバ）、または、フロントエンド構成要素を含む計算システム（例えば、グラフィカルユーザインタフェースまたはネットワークブラウザを備えたユーザコンピュータであって、ユーザがこのグラフィカルユーザインタフェースまたはネットワークブラウザを介して本明細書で説明されたシステムおよび技術に係る実施形態とインタラクションを行うことができるユーザコンピュータ）に実行されてもよく、または、このようなバックグラウンド構成要素、中間部構成要素、またはフロントエンド構成要素の任意の組合せを含む計算システムにおいて実行されてもよい。システムの構成要素は、任意の形態または媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されてもよい。通信ネットワークの例えとして、ローカルネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ，ＬＡＮ）、広域ネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ，ＷＡＮ）およびインターネットを含む。
コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバは一般的に相互に離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係を持つコンピュータプログラムがそれぞれのコンピュータ上で実行されることによって、クライアントとサーバとの関係は構築される。

本発明の実施形態によれば、音響モデルは、自己回帰を導入し、直前のタイムステップにおけるスペクトル特徴を音響モデルの時間推定過程に表示的に導入することにより、トレーニングデータ量が少ない場合でも、高い再現度、高いナチュラル度の音声を生成することができるとともに、音声合成の速度を高めることができる。そして、得られた直前のタイムステップにおけるスペクトル特徴、または現在のタイムステップにおけるスペクトル特徴等各タイムステップにおけるスペクトル特徴を、ニューラルネットワークベースのボコーダーに入力され、合成された音声を得る。ニューラルネットワークベースのボコーダは、汎用的な装置においてリアルタイムで高音質な音声を実現できる。音響モデルとニューラルネットワークベースのボコーダーとを組み合わせることにより、ハードウェア資源の節約と音声合成の高速化を図りつつ、合成音声のナチュラル度と音質を向上させることができる。
上記の様々な態様のフローを使用して、ステップを新たに順序付け、追加、または削除することが可能であることを理解すべきである。例えば、本明細書で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本明細書で開示された技術案が所望する結果を実現することができる限り、本明細書ではこれに限定されない。
上記具体的な実施形態は、本発明の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、および代替が可能であることを理解するべきである。本発明の要旨及び原則内における変更、均等な置換及び改善等は、いずれも本発明の保護範囲に含まれるべきである。

Claims

テキスト情報を音響モデルのエンコーダに入力して、現在のタイムステップにおけるテキスト特徴を出力することと、
前記現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、前記音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得することと、
前記現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力して、音声を出力することと、を含む、
ことを特徴とする音声合成方法。
前記テキスト情報を音響モデルのエンコーダに入力して、現在のタイムステップにおけるテキスト特徴を出力することは、
前記テキスト情報が、前記エンコーダの少なくとも１つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力することを含む、
ことを特徴とする請求項１に記載の音声合成方法。
前記現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、前記音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得することとは、
直前のタイムステップにおける接続特徴を前記デコーダの少なくとも１つのゲート付き回帰ユニット及び全結合層に入力して、直前のタイムステップにおける第１のスペクトル特徴を出力することと、
前記直前のタイムステップにおける第１のスペクトル特徴をもう１つの全結合層に入力して、直前のタイムステップにおける第２のスペクトル特徴を取得することと、
前記現在のタイムステップにおけるテキスト特徴と前記直前のタイムステップにおける第２のスペクトル特徴とを接続して、現在のタイムステップにおける接続特徴を取得することと、
前記現在のタイムステップにおける接続特徴を前記音響モデルのデコーダに入力して、現在のタイムステップにおける第１のスペクトル特徴を取得することと、を含む、
ことを特徴とする請求項１に記載の音声合成方法。
現在のタイムステップにおけるスペクトル特徴を、ニューラルボコーダーに入力して音声を出力することは、
前記現在のタイムステップにおける第１のスペクトル特徴を少なくとも１つの畳み込みニューラルネットワークに入力して、現在のタイムステップにおける第２のスペクトル特徴を取得することと、
前記現在のタイムステップにおける第１のスペクトル特徴または前記現在のタイムステップにおける第２のスペクトル特徴を前記ニューラルボコーダーに入力して、前記音声を出力することと、を含む、
ことを特徴とする請求項３に記載の音声合成方法。
前記現在のタイムステップにおける第１のスペクトル特徴と、真のスペクトル特徴と、に基づいて第１の損失を算出することと、
前記現在のタイムステップにおける第２のスペクトル特徴と、前記真のスペクトル特徴と、に基づいて第２の損失を算出することと、
前記第１の損失及び第２の損失を勾配の逆伝播計算の起点として用いて音響モデルをトレーニングすること、をさらに含む、
ことを特徴とする請求項４に記載の音声合成方法。
テキスト情報を音響モデルのエンコーダに入力して、現在のタイムステップにおけるテキスト特徴を出力するテキスト特徴抽出モジュールと、
前記現在のタイムステップにおけるテキスト特徴と直前のタイムステップにおけるスペクトル特徴とを接続して得られた現在のタイムステップにおける接続特徴を、前記音響モデルのデコーダに入力して、現在のタイムステップにおけるスペクトル特徴を取得する特徴回帰モジュールと、
前記現在のタイムステップにおけるスペクトル特徴をニューラルボコーダーに入力して、音声を出力する音声合成モジュールと、を含む、
ことを特徴とする音声合成装置。
前記テキスト特徴抽出モジュールは、
前記テキスト情報が、前記エンコーダの少なくとも１つの全結合層及びゲート付き回帰ユニットを通して、現在の時間ステップのテキスト特徴を出力するエンコーディングサブモジュールを含む、
ことを特徴とする請求項６に記載の音声合成装置。
前記特徴回帰モジュールは、
直前のタイムステップにおける接続特徴を前記デコーダの少なくとも１つのゲート付き回帰ユニット及び全結合層に入力して、直前のタイムステップにおける第１のスペクトル特徴を出力する第１のデコーディングサブモジュールと、
前記直前のタイムステップにおける第１のスペクトル特徴をもう１つの全結合層に入力して、直前のタイムステップにおける第２のスペクトル特徴を取得する回帰サブモジュールと、
前記現在のタイムステップにおけるテキスト特徴と前記直前のタイムステップにおける第２のスペクトル特徴とを接続して、現在のタイムステップにおける接続特徴を取得する接続サブモジュールと、
前記現在のタイムステップにおける接続特徴を前記音響モデルのデコーダに入力して、現在のタイムステップにおける第１のスペクトル特徴を取得する第２のデコーディングサブモジュールと、を含む、
ことを特徴とする請求項６に記載の音声合成装置。
前記音声合成モジュールは、
前記現在のタイムステップにおける第１のスペクトル特徴を少なくとも１つの畳み込みニューラルネットワークに入力して、現在のタイムステップにおける第２のスペクトル特徴を取得する平滑化サブモジュールと、
前記現在のタイムステップにおける第１のスペクトル特徴または前記現在のタイムステップにおける第２のスペクトル特徴を前記ニューラルボコーダーに入力して、前記音声を出力する合成サブモジュールと、を含む、
ことを特徴とする請求項８に記載の音声合成装置。
前記現在のタイムステップにおける第１のスペクトル特徴と、真のスペクトル特徴と、に基づいて第１の損失を算出し、
前記現在のタイムステップにおける第２のスペクトル特徴と、前記真のスペクトル特徴と、に基づいて第２の損失を算出し、
前記第１の損失及び第２の損失を勾配の逆伝播計算の起点として用いて音響モデルをトレーニングするモデル訓練モジュール、をさらに含む、を特徴とする請求項９に記載の音声合成装置。
１つ又は複数のプロセッサと、
１つ又は複数のプログラムを記憶する記憶装置とを含み、
前記１つ又は複数のプロセッサは、前記１つ又は複数のプログラムを実行する場合、請求項１〜５のいずれか１項に記載の音声合成方法を実行させる、
ことを特徴とする電子デバイス。
コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、
当該プログラムがプロセッサに実行される場合、請求項１〜５のいずれか１項に記載の音声合成方法を実行させる、
ことを特徴とするコンピュータ可読記憶媒体。
コンピュータにおいて、プロセッサにより実行される場合、請求項１〜５のいずれか１項に記載の音声合成方法を実現することを特徴とするプログラム。