JP7194779B2

JP7194779B2 - 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム

Info

Publication number: JP7194779B2
Application number: JP2021103443A
Authority: JP
Inventors: 文富王; 涛孫; 錫磊王; 君騰張; 正坤高; 磊賈
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-11
Filing date: 2021-06-22
Publication date: 2022-12-22
Anticipated expiration: 2041-06-22
Also published as: US20220020356A1; US11769482B2; CN112365881A; JP2021157193A; KR20210124104A

Description

本願はコンピュータ技術に関しており、具体的に、知的音声とディープラーニングなどの人工知能技術分野に関しており、特に音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラムに関している。

音声合成は、テキスト音声変換（Ｔｅｘｔ-ｔｏ-Ｓｐｅｅｃｈ；ＴＴＳ）とも呼ばれ、コンピュータによってテキスト情報を音質が良く、自然な滑かさが高い音声情報へ変換するプロセスを意味しており、知的音声インタラクション技術のコア技術の１つである。

近年、ディープラーニング技術の発展、及び音声合成分野で広く利用されることにつれて、音声合成の音質及び自然な滑かさは、何れも従来にないように向上された。現在の主流である音声合成モデルは、主にシングル発音者（即シングル音色）、シングルスタイルの音声合成を実現するために用いられる。マルチスタイル、マルチ音色の合成を実現しようとすると、発音者ごとに録音された複数種類のスタイルのトレーニングデータを収集して音声合成モデルをトレーニングすることができる。

本願は音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラムを提供している。

本願の一態様によれば、
合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得することと、
予めトレーニングされた音声合成モデルで、前記スタイル情報、前記音色情報、及び前記処理対象テキストの内容情報に基づいて、前記処理対象テキストの音響特徴情報を生成することと、
前記処理対象テキストの音響特徴情報に基づいて、前記処理対象テキストの音声を合成することと、を含んでいる音声合成方法を提供している。

本願の別の態様によれば、
複数のトレーニングデータを収集し、各前記トレーニングデータには、合成対象音声のトレーニングスタイル情報、トレーニング音色情報、トレーニングテキストの内容情報、前記トレーニングスタイル情報に対応するトレーニングスタイルで前記トレーニングテキストの内容情報を表現したスタイル特徴情報、及び前記トレーニングスタイル情報に対応するトレーニングスタイルと前記トレーニング音色情報に対応するトレーニング音色とで前記トレーニングテキストの内容情報を表現した目標音響特徴情報が含まれることと、
前記複数のトレーニングデータを利用して前記音声合成モデルをトレーニングすることと、を含む音声合成モデルのトレーニング方法を提供している。

本願のさらに別の態様によれば、
合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得するための取得モジュールと、
予めトレーニングされた音声合成モデルで、前記スタイル情報、前記音色情報、及び前記処理対象テキストの内容情報に基づいて、前記処理対象テキストの音響特徴情報を生成するための生成モジュールと、
前記処理対象テキストの音響特徴情報に基づいて前記処理対象テキストの音声を合成するための合成モジュールと、を含んでいる音声合成装置を提供している。

本願のさらに別の態様によれば、
複数のトレーニングデータを収集するための収集モジュールであって、各前記トレーニングデータには、合成対象音声のトレーニングスタイル情報、トレーニング音色情報、トレーニングテキストの内容情報、前記トレーニングスタイル情報に対応するトレーニングスタイルで前記トレーニングテキストの内容情報を表現したスタイル特徴情報、及び前記トレーニングスタイル情報に対応するトレーニングスタイルと前記トレーニング音色情報に対応するトレーニング音色とで前記トレーニングテキストの内容情報を表現した目標音響特徴情報が含まれる収集モジュールと、
前記複数のトレーニングデータを利用して前記音声合成モデルをトレーニングするためのトレーニングモジュールと、を含む音声合成モデルのトレーニング装置を提供している。

本願のさらに別の態様によれば、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されるメモリと、を含む電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行されるコマンドが記憶されており、
前記コマンドが前記少なくとも１つのプロセッサによって実行されることで、前記少なくとも１つのプロセッサが上記の方法を実行することができる、電子機器を提供している。

本願のさらに別の態様によれば、コンピュータに上記の方法を実行させるためのコンピュータコマンドが記憶されている非一時的なコンピュータ読取可能な記憶媒体を提供している。

本願のさらに別の態様によれば、プロセッサによって実行される時に、上述した方法が実行されるコンピュータプログラムを提供している。

本願の技術によれば、合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得し、予めトレーニングされた音声合成モデルで、スタイル情報、音色情報、及び処理対象テキストの内容情報に基づいて、処理対象テキストの音響特徴情報を生成し、処理対象テキストの音響特徴情報に基づいて処理対象テキストの音声を合成することで、クロス言語、クロススタイル、クロス音色の音声合成が図れ、音声合成の多様性を大いに充実し、ユーザの使用体験を高くすることは可能となる。

この部分で説明した内容は、本開示の実施例の肝心な又は重要な特徴を表記するためのものでもなく、本開示の範囲を限定するためのものでもないと理解すべきである。本開示の他の特徴は、以下の明細書によって理解し易くなるであろう。

図面は本案をよりよく理解させるためのものであり、本願に対する限定を構成していない。
図１は本願第１の実施例による模式図である。図２は本願第２の実施例による模式図である。図３は本実施例の音声合成モデルのアプリケーション構造模式図である。図４は本実施例の音声合成モデルにおけるスタイルエンコーダーの模式図である。図５は本願第３の実施例による模式図である。図６は本願第４の実施例による模式図である。図７は本実施例の音声合成モデルのトレーニング構造模式図である。図８は本願第５の実施例による模式図である。図９は本願第６の実施例による模式図である。図１０は本願第７の実施例による模式図である。図１１は本願第８の実施例による模式図である。図１２は本願実施例の上記方法を実現するための電子機器のブロック図である。

以下、図面に合わせて本願の例示的な実施例について説明する。その中、理解に役立つように本願の実施例の各詳細を含み、これらはあくまで例示的なものであると理解すべきである。そのため、当業者は、本願の範囲及び趣旨から逸脱せずに、ここで説明した実施例に対して、様々な変更や、修正をなし得ることに認識すべきである。同様に、明確及び簡明のために、以下の説明において公知の機能及び構成に対する説明を省略している。

図１は本願第１の実施例による模式図である。図１に示すように、本実施例は音声合成方法を提供しており、具体的に以下のようなステップを含んでもよい。

Ｓ１０１：合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得する。

Ｓ１０２：予めトレーニングされた音声合成モデルで、スタイル情報、音色情報、及び処理対象テキストの内容情報に基づいて、処理対象テキストの音響特徴情報を生成する。

Ｓ１０３：処理対象テキストの音響特徴情報に基づいて処理対象テキストの音声を合成する。

本実施例の音声合成方法の実行本体は音声合成装置であり、この音声合成装置は、電子実体であってもよいし、或いは、ソフトウェアで集積されたアプリケーションであってもよい。利用時に、合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報に基づいて、処理対象テキストの音声を合成することは可能となる。

本実施例において、合成対象音声のスタイル情報及び合成対象音声の音色情報は、音声合成モデルをトレーニングするために用いられるトレーニングデータセットにおけるスタイル情報及び音色情報であることは必須であり、そうでなければ、実現できない。

本実施例において、合成対象音声のスタイル情報は、合成対象音声のスタイル識別子、例えばスタイルＩＤであってよく、このスタイルＩＤはトレーニングデータセットにおけるトレーニングされたスタイルＩＤであってよい。あるいは、スタイル情報は、このスタイルで表現した音声から抽出したスタイルの他の情報であってもよい。しかし、実際の応用において、利用時に、スタイルで表現した音声は、メル（ｍｅｌ）スペクトルシーケンスの形式で表されてもよい。本実施例の音色情報は、この音色で表現した音声に基づいて抽出されてもよく、この音色情報はｍｅｌスペクトルシーケンスの形式で表されてもよい。

本実施例のスタイル情報は、音声表現のスタイルを限定するために用いられ、例えばユーモア、楽しみ、悲しみ、伝統などを含んでもよい。本実施例の音色情報は音声を表現する声音の音色を限定するために用いられ、例えばスターＡ、アナウンサーＢ、キャラクターＣなどであってよい。

本実施例の処理対象テキストの内容情報は文字形式である。選択的に、ステップＳ１０１の前に、処理対象テキストを前処理して、処理対象テキストの内容情報、例えば音素シーケンスを取得することをさらに含んでもよい。例えば、処理対象テキストが中国語であると、この処理対象テキストの内容情報が処理対象テキストの調子付き音素シーケンスであってもよく、中国語文字の発音全般には調子が付いているので、中国語にとって、前処理の後に調子付き音素シーケンスを取得する必要がある。他の言語について、前処理によって対応する処理対象テキストの音素シーケンスを取得すればよい。例えば、処理対象テキストが中国語である場合に、音素は中国語ピンインの１つの音節、例えば１つの声母或いは韻母であってもよい。

本実施例において、スタイル情報、音色情報、及び処理対象テキストの内容情報が一緒に音声合成モデルへ入力され、この音声合成モデルはスタイル情報、音色情報、及び処理対象テキストの内容情報に基づいて、処理対象テキストの音響特徴情報を生成してよい。本実施例の音声合成モデルは、Ｔａｃｏｔｒｏｎ構成で実現できる。最後に、神経ボコーダ（ＷａｖｅＲＮＮ）モデルを利用して、処理対象テキストの音響特徴情報に基づいて、処理対象テキストの音声を合成することができる。

従来技術には、シングル音色やシングルスタイルの音声合成だけを実現できる。本実施例の技術案を利用して、スタイル情報、音色情報、及び処理対象テキストの内容情報に基づいて音声を合成するときに、スタイル、音色は必要に応じて入力され、処理対象テキストもいずれの言語であってもよいので、本実施例の技術案はクロス言語、クロススタイル、クロス音色の音声合成が図れ、シングル音色やシングルスタイルの音声合成のみに限定されていない。

本願の音声合成方法によれば、合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得し、予めトレーニングされた音声合成モデルで、スタイル情報、音色情報、及び処理対象テキストの内容情報に基づいて、処理対象テキストの音響特徴情報を生成し、処理対象テキストの音響特徴情報に基づいて処理対象テキストの音声を合成することで、クロス言語、クロススタイル、クロス音色の音声合成が図れ、音声合成の多様性を大いに充実して、ユーザの使用体験を高くすることは可能となる。

図２は本願第２の実施例による模式図である。図２に示すように、本実施例の音声合成方法は、前述の図１に示された実施例の技術案を基に、より一層詳細的に本願の技術案を説明する。図２に示すように、本実施例の音声合成方法は、具体的には以下のステップを含んでもよい。

Ｓ２０１：合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得する。

上記の図１に示された実施例の相関記載を参照して、この合成対象音声の音色情報はこの音色で表現した処理対象テキストのｍｅｌスペクトルシーケンスであってよい。処理対象テキストの内容情報は処理対象テキストを前処理することで得られた処理対象テキストの音素シーケンスであってよい。

例えば、本実施例においてスタイル情報を取得するプロセスは以下のいずれかの形態を含んでいる。

（１）ユーザの入力スタイルの説明情報を取得し、入力スタイルの説明情報に応じて、予め設置されたスタイルテーブルから入力スタイルに対応するスタイル識別子を合成対象音声のスタイル情報として取得する。

例えば、入力スタイルの説明情報は、ユーモア、ファニー、悲しみ、伝統などであってよい。本実施例には、スタイルテーブルが予め設置されており、このスタイルテーブルに各種類のスタイル説明情報に対応するスタイル識別子が記録されている。そして、これらのスタイル識別子は、その前にトレーニングデータセットで音声合成モデルをトレーニングしたときに、トレーニングされており、この際、このスタイル識別子を合成対象音声のスタイル情報とすることができる。

（２）入力スタイルで表現したオーディオ情報を取得し、オーディオ情報から入力スタイルの情報を合成対象音声のスタイル情報として抽出する。

このような実現形態において、スタイル情報は入力スタイルで表現したオーディオ情報から抽出され、その中、このオーディオ情報がｍｅｌスペクトルシーケンスの形式を利用してよい。さらに選択的に、この実現形態において、１つのスタイル抽出モデルが予めトレーニングされ、使用時に、あるスタイルに基づいて表現したオーディオ情報から抽出されたｍｅｌスペクトルシーケンスを入力し、オーディオ情報中の対応するスタイルを出力としてもよい。このスタイル抽出モデルは、トレーニングされる時に、無数のトレーニングデータが用いられ、各トレーニングデータにはトレーニングスタイル及びトレーニングスタイル付きのトレーニングｍｅｌスペクトルシーケンスがある。無数のトレーニングデータで、教師ありのトレーニング方式を利用して、このスタイル抽出モデルをトレーニングする。

なお、ちなみに、本実施例の音色情報の取得は、音色情報に対応する音色で表現されたオーディオ情報から抽出されてもよい。この音色情報は音色ｍｅｌスペクトルシーケンスとも呼ばれるｍｅｌスペクトルシーケンスの形式を利用してよく、例えば、音声合成の際に、便利のために、トレーニングデータセットから直接的に１段の音色ｍｅｌシーケンスを取得してもよい。

ちなみに、このような実現形態において、入力スタイルで表現したオーディオ情報に入力スタイルだけが付けられていればよく、オーディオ情報に係る内容は処理対象テキストの内容情報であってもよいし、処理対象テキストの内容情報と関係がなくてもよい。同様に、音色情報に対応する音色で表現したオーディオ情報は処理対象テキストの内容情報であってもよいし、処理対象テキストの内容情報と関係がなくてもよい。

Ｓ２０２：音声合成モデルにおける内容エンコーダーで、処理対象テキストの内容情報を符号化することで、内容符号化特徴を取得する。

例えば、この内容エンコーダーは処理対象テキストの内容情報を符号化し、対応する内容符号化特徴を生成する。処理対象テキストの内容情報は音素シーケンスの形式が用いられるので、相応的に得られた内容符号化特徴も、相応的に内容符号化シーケンスと呼ばれるシーケンスの形式が用いられる。ただし、それぞれの音素は１つの符号化ベクトルに対応している。この内容エンコーダーはそれぞれの音素がどのように発音するかを決める。

Ｓ２０３：音声合成モデルにおけるスタイルエンコーダーで、処理対象テキストの内容情報とスタイル情報とを符号化することで、スタイル符号化特徴を取得する。

このスタイルエンコーダーは処理対象テキストの内容情報を符号化しながら、スタイル情報で符号化のスタイルを制御して、対応するスタイル符号化マトリクスを生成し、同様に、スタイル符号化シーケンスとも呼ばれる。それぞれの音素は１つの符号化ベクトルに対応している。このスタイルエンコーダーはそれぞれの音素の発音方式であるスタイルを決める。

Ｓ２０４：音声合成モデルにおける音色エンコーダーで音色情報を符号化することで、音色符号化特徴を取得する。

この音色エンコーダーは音色情報を符号化し、音色情報がｍｅｌスペクトルシーケンスを利用してもよい。つまり、音色エンコーダーはｍｅｌスペクトルシーケンスを符号化し、対応する音色ベクトルを生成してよい。この音色エンコーダーは合成対象音声の音色、例えば音色Ａ、音色Ｂまたは音色Ｃなどを決める。

Ｓ２０５：音声合成モデルにおけるデコーダーで、内容符号化特徴、スタイル符号化特徴、及び音色符号化特徴に基づいて復号し、処理対象テキストの音響特徴情報を生成する。

このデコーダーは内容エンコーダー、スタイルエンコーダー、及び音色エンコーダーのそれぞれから出力され、且つ結合された特徴を入力として、対応する内容情報、スタイル情報、及び音色情報の組合せに応じて、対応する処理対象テキストの音響特徴情報を生成し、それを処理対象テキストの音声特徴シーケンスとも呼ばれ、ｍｅｌスペクトルシーケンスの形式も用いられる。

上記のステップＳ２０２～Ｓ２０５は上記の図１に示された実施例のステップＳ１０２の実現形態の１つである。

図３は本実施例の音声合成モデルのアプリケーション構造模式図である。図３に示すように、本実施例の音声合成モデルには、内容エンコーダー、スタイルエンコーダー、音色エンコーダー、及びデコーダーという幾つかの部分を含んで構成される。

ただし、内容エンコーダーは、残差付きで接続された複数層の畳み込み神経ネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ；ＣＮＮ）及び１層の双方向長短期記憶ネットワーク（ＬｏｎｇＳｈｏｒｔ－ｔｅｒｍＭｅｍｏｒｙ；ＬＳＴＭ）から構成される。音色エンコーダーは、複数層のＣＮＮ及び１層のゲート付き回帰型ユニット(ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ；ＧＲＵ)から構成される。デコーダーは、アテンションメカニズムに基づく自己回帰構造である。スタイルエンコーダーは複数層のＣＮＮと複数層の双方向ＧＲＵ層とから構成される。例えば、図４は本実施例の音声合成モデルにおけるスタイルエンコーダーの模式図である。図４に示すように、スタイルエンコーダーがＮ層のＣＮＮとＮ層のＧＲＵとを含むことを例として、スタイルエンコーダーが符号化する時に、処理対象テキストの内容情報、例えば処理対象テキストが中国語である時に調子付きの音素シーケンスであってもよい内容情報が、そのままＣＮＮへ入力されたが、スタイル情報、例えばスタイルＩＤが、そのままＧＲＵへ入力されて、スタイルエンコーダーの符号化を経て、最終的にスタイル符号化特徴を出力でき、対応的に入力された調子付きの音素シーケンスの故に、スタイル符号化シーケンスとも呼ばれる。

図３に示すように、従来の音声合成モデルＴａｃｏｔｒｏｎと比べると、本実施例の音声合成モデルにおいて、内容エンコーダーと、スタイルエンコーダーと、音色エンコーダーとは、個別の３つの手段であり、これらの３つの手段はデカップリングの態様で、それぞれ異なる役割を果たし、それぞれ対応する機能を担当し、クロススタイル、クロス音色、クロス言語の合成の肝心なところとなる。したがって、本実施例はシングル音色或いはシングルスタイルの音声のみを合成できることに限定されておらず、クロス言語、クロススタイル、クロス音色の音声合成を実現することができる。例えば、スターＡがユーモアスタイルで放送した英語セグメントＸを実現してもよいし、キャラクターＣが悲しみのスタイルで放送した中国語セグメントＹを実現してもよい。

Ｓ２０６：処理対象テキストの音響特徴情報に基づいて、処理対象テキストの音声を合成する。

本実施例において、音声合成モデルの内部構成をより一層明瞭に説明するために、音声合成モデル中の内部構成を解析した。しかしながら、実際の応用には、この音声合成モデルはエンドツーエンドのモデルであるが、上記の原理に基づいてスタイル、音色及び言語のデカップリングを実現でき、さらに、クロススタイル、クロス音色、クロス言語の音声合成を実現することができる。

実際の応用には、図３と図４に示すように、合成対象テキスト、スタイルＩＤ、及び音色ｍｅｌスペクトルシーケンスが与えられており、予めテキスト前処理モジュールを利用してこのテキストを対応する調子付けの音素シーケンスへ変換してもよく、得られた音素シーケンスはそれぞれ音声合成モデルにおける内容エンコーダー、スタイルエンコーダーの入力とするとともに、スタイルエンコーダーはさらにスタイルＩＤを入力として使用し、このようにして、内容符号化シーケンスＸ１とスタイル符号化シーケンスＸ２とを取得する。その後、合成対象音色に応じて、トレーニングデータセットから１文のこの音色に対応するｍｅｌスペクトルシーケンスを選択して、音色エンコーダーの入力とすることで、音色符号化ベクトルＸ３が得られた。その後、Ｘ１、Ｘ２及びＸ３を次元的に結合することで、シーケンスＺが得られ、デコーダーの入力とする。デコーダーは入力されたシーケンスＺに従って、対応するスタイル、対応する音色で上記テキストを表現したｍｅｌスペクトルシーケンスを生成する。最終的に、神経ボコーダ（ＷａｖｅＲＮＮ）によって、対応するオーディオを合成する。注意すべきことは、所定の合成対象テキストはクロス言語のテキスト、例えば、中国語、英語、中国語及び英語の混合などであってもよい。

本実施例の音声合成方法は、上記の技術案を利用することで、クロス言語、クロススタイル、クロス音色の音声合成を実現でき、音声合成の多様性を大いに充実し、長期間の放送の単調感を低減し、ユーザの体験を顕著に高くすることができる。本実施例の技術案は各種類の音声インタラクション場面に適用され、一般化され得る。

図５は本願第３の実施例による模式図である。図５に示すように、本実施例は音声合成モデルのトレーニング方法を提供しており、具体的に以下のステップを含む。

Ｓ５０１：複数のトレーニングデータを収集し、各トレーニングデータには、合成対象音声のトレーニングスタイル情報、トレーニング音色情報、トレーニングテキストの内容情報、トレーニングスタイル情報に対応するトレーニングスタイルでトレーニングテキストの内容情報を表現したスタイル特徴情報、及びトレーニングスタイル情報に対応するトレーニングスタイルとトレーニング音色情報に対応するトレーニング音色とでトレーニングテキストの内容情報を表現した目標音響特徴情報が含まれる。

Ｓ５０２：複数のトレーニングデータを利用して前記音声合成モデルをトレーニングする。

本実施例の音声合成モデルのトレーニング方法の実行本体は音声合成モデルのトレーニング装置であり、この装置は、電子実体であってよいし、或いは、ソフトウェアで集積されたアプリケーションであってもよい。利用時にコンピュータ機器に動作することで、音声合成モデルをトレーニングする。

本実施例のトレーニングにおいて、収集したトレーニングデータの数は、百万オーダー以上に達すことができ、音声合成モデルをより精確にトレーニングする。各トレーニングデータには、合成対象音声のトレーニングスタイル情報、トレーニング音色情報、トレーニングテキストの内容情報が含まれてもよく、上記実施例におけるスタイル情報、音色情報、内容情報にそれぞれ対応しており、詳細は上記実施例の相関記載を参照できるが、ここでは説明を繰り返さない。

なお、各トレーニングデータには、トレーニングスタイル情報に対応するトレーニングスタイルでトレーニングテキストの内容情報を表現したスタイル特徴情報、及びトレーニングスタイル情報に対応するトレーニングスタイルとトレーニング音色情報に対応するトレーニング音色とでトレーニングテキストの内容情報を表現した目標音響特徴情報が含まれてもよく、この２つの情報は、音声合成モデルがより効果的に学習できるように、教師ありトレーニングの参考とする。

本実施例の音声合成モデルのトレーニング方法は、上記の案によって、音声合成モデルを効果的にトレーニングすることができ、音声合成モデルがトレーニングデータに基づいて、内容、スタイル及び音色に従って音声を合成するプロセスを学習するようにして、更に、学習した後の音声合成モデルが、音声合成の多様性を充実することができるようにする。

図６は本願第４の実施例による模式図である。図６に示すように、本実施例の音声合成モデルのトレーニング方法は、前述の図５に示された実施例の技術案を基に、より詳細的に本願の技術案を更に説明する。図６に示すように、本実施例の音声合成モデルのトレーニング方法は、具体的に以下のステップを含んでもよい。

Ｓ６０１：複数のトレーニングデータを収集し、各トレーニングデータには、合成対象音声のトレーニングスタイル情報、トレーニング音色情報、トレーニングテキストの内容情報、トレーニングスタイル情報に対応するトレーニングスタイルでトレーニングテキストの内容情報を表現したスタイル特徴情報、及びトレーニングスタイル情報に対応するトレーニングスタイルとトレーニング音色情報に対応するトレーニング音色とでトレーニングテキストの内容情報を表現した目標音響特徴情報が含まれる。

実際の応用には、まず、トレーニングスタイルとトレーニング音色とでトレーニングテキストの内容情報を表現することで対応する音声を取得し、その後、得られた音声に対してｍｅｌスペクトル抽出を行うことで、対応する目標音響特徴情報を取得する。つまり、この目標音響特徴情報もｍｅｌスペクトルシーケンスの形式を採用した。

Ｓ６０２：各トレーニングデータについて、音声合成モデルにおける内容エンコーダー、スタイルエンコーダー及び音色エンコーダーで、それぞれトレーニングデータにおけるトレーニングテキストの内容情報、トレーニングスタイル情報、及びトレーニング音色情報を符号化することで、トレーニング内容符号化特徴、トレーニングスタイル符号化特徴、及びトレーニング音色符号化特徴を順次に取得する。

具体的に、音声合成モデルにおける内容エンコーダーで、トレーニングデータにおけるトレーニングテキストの内容情報を符号化することで、トレーニング内容符号化特徴を取得する。音声合成モデルにおけるスタイルエンコーダーで、トレーニングデータにおけるトレーニングスタイル情報及びトレーニングテキストの内容情報を符号化することで、トレーニングスタイル符号化特徴を取得する。音声合成モデルにおける音色エンコーダーで、トレーニングデータにおけるトレーニング音色情報を符号化することで、トレーニング音色符号化特徴を取得する。実現プロセスも、上記図２に示された実施例のステップＳ２０２～Ｓ２０４の相関記載を参照できるが、ここでは説明を繰り返さない。

Ｓ６０３：音声合成モデルにおけるスタイル抽出器で、トレーニングテキストの内容情報とトレーニングスタイル情報に対応するトレーニングスタイルでトレーニングテキストの内容情報を表現したスタイル特徴情報とに基づいて、目標トレーニングスタイル符号化特徴を抽出する。

ちなみに、このトレーニングテキストの内容情報と上記のスタイルエンコーダーのトレーニング時に入力されたトレーニングテキストの内容情報とは同じである。トレーニングスタイル情報に対応するトレーニングスタイルでトレーニングテキストの内容情報を表現したスタイル特徴情報は、ｍｅｌスペクトルシーケンスの形式であってよい。

図７は本実施例の音声合成モデルのトレーニング構造模式図であり、図７に示すように、上記の図３に示されたこの音声合成モデルのアプリケーション構造模式図と比べると、この音声合成モデルはトレーニングする時に、スタイル抽出器を追加して、トレーニング効果を強くする。しかし、使用する時に、このスタイル抽出器を必要とせず、図３に示された構造をそのまま採用する。図７に示すように、このスタイル抽出器には、参考スタイルエンコーダー、参考内容エンコーダー、及びアテンションメカニズムモジュールが含まれることで、スタイルベクトルがテキストレベル上に圧縮されることが図られ、得られた目標トレーニングスタイル符号化特徴はスタイルエンコーダーの学習目標となる。

具体的に、トレーニング段階において、スタイル抽出器は教師なしでスタイル表現を学習し、このスタイル表現は同時にスタイルエンコーダーの目標としてスタイルエンコーダーの学習を駆動する。音声合成モデルのトレーニングが終了したら、スタイルエンコーダーはスタイル抽出器と同じ功能を有する。応用段階において、スタイルエンコーダーはスタイル抽出器を替える。したがって、スタイル抽出器はトレーニング段階だけに存在している。注意すべきことは、スタイル抽出器の強大な作用により、音声合成モデル全体が良好なデカップリング性能を有するようにして、つまり、内容エンコーダー、スタイルエンコーダー、音色エンコーダーがそれぞれの役割を果たし、分業が明確である。内容エンコーダーはどのように発音するかの役割を担い、スタイルエンコーダーは発音のスタイル方式の役割を担い、音色エンコーダーはだれの音色で発音するかの役割を担う。

Ｓ６０４：音声合成モデルにおけるデコーダーで、トレーニング内容符号化特徴、目標トレーニングスタイル符号化特徴、及びトレーニング音色符号化特徴に基づいて復号し、トレーニングテキストの予測音響特徴情報を生成する。

Ｓ６０５：トレーニングスタイル符号化特徴、目標トレーニングスタイル符号化特徴、予測音響特徴情報、及び目標音響特徴情報に基づいて、総合損失関数を構築する。

例えば、具体的にこのステップを実現する時に、以下のステップを含んでもよい。

（ａ）トレーニングスタイル符号化特徴と目標トレーニングスタイル符号化特徴とに基づいて、スタイル損失関数を構築する；
（ｂ）予測音響特徴情報と目標音響特徴情報とに基づいて、音響特徴損失関数を構築する；
（ｃ）スタイル損失関数と再構成損失関数とに基づいて、総合損失関数を生成する。

具体的に、スタイル損失関数と再構成損失関数とに一定の重みが配置され、両者の重みの和を取って最終な総合損失関数としてよい。具体的な重みの比例は実際の要求に応じて設置されてもよい。例えば、スタイルを強調しようとすれば、相対的に大きい重みが設置される。例えば再構成損失関数の重みを１に設置した時に、スタイル損失関数の重みを、１～１０の間のある値に設置してよく、値が大きいほど、スタイル損失関数の比例が大きくなり、トレーニング中にスタイルが全体に与える影響が大きくなる。

Ｓ６０６：総合損失関数が収束するか否かを判定し、収束しなければ、ステップＳ６０７を実行し、収束すれば、ステップＳ６０８を実行する。

Ｓ６０７：総合損失関数が収束する傾向にあるように、内容エンコーダー、スタイルエンコーダー、音色エンコーダー、スタイル抽出器、及びデコーダーのパラメータを調整し、ステップＳ６０２へ返って、次のトレーニングデータを取得し、トレーニングを続行する。

Ｓ６０８：連続した所定回数のトレーニングにおいて、総合損失関数は常に収束するか否かを判定する。常に収束しなければ、ステップＳ６０２へ返って、次のトレーニングデータを取得し、トレーニングを続行する。そうでなければ、常に収束すると、音声合成モデルのパラメータを特定し、さらに音声合成モデルを特定して、トレーニングを終了する。

このステップはトレーニング終了の条件としてよく、ただし、連続した所定回数は実際の経験に従って設置されてよく、例えば連続した１００回、２００回や他の数に設置されてもよい。連続した所定回数のトレーニングにおいて、総合損失関数が常に収束していれば、この音声合成モデルはもう完璧にトレーニングされたので、トレーニングを終了してもよい。また、選択的に、実際のトレーニングにおいて、音声合成モデルは、無限に収束する傾向になるが、連続した所定回数のトレーニングで絶対に収束していない可能性があり、その場合に、トレーニング終了条件を所定回数閾値のトレーニングに設置してよく、トレーニング回数が所定回数閾値に達した場合、トレーニングを終了し、この音声合成モデルの最終パラメータとしてトレーニング終了時の音声合成モデルのパラメータを取得し、最終のパラメータに基づいてこの音声合成モデルを利用し、そうでなければ、トレーニング回数が所定回数閾値に達するまでに、トレーニングを続行する。

上記のステップＳ６０２～Ｓ６０７は前述の図５に示された実施例のステップＳ５０２の実現形態の１つである。

本実施例はトレーニングプロセスにおいて音声合成モデル内の各手段を説明したが、音声合成モデル全体のトレーニングプロセスはエンドツーエンドトレーニングである。この音声合成モデルのトレーニングにおいて、合計で２部分の損失関数を含み、１つはデコーダーの出力に基づいて構築した再構成損失関数であり、もう１つはスタイルエンコーダーの出力とスタイル抽出器の出力とに基づいて構築したスタイル損失関数である。２部分の損失関数はいずれもＬ２ノルムの損失関数を利用してよい。

本実施例の音声合成モデルのトレーニング方法は、上述した案を利用することで、トレーニングプロセスにおいて効果的に内容、スタイル及び音色の完全なデカップリングを保証でき、さらにトレーニングした後の音声合成モデルが、クロススタイル、クロス音色、クロス言語の音声合成を実現できるようにして、音声合成の多様性を大いに充実し、長期間の放送の単調感を低減し、ユーザの体験を顕著に向上することができる。

図８は本願第５の実施例による模式図である。図８に示すように、本実施例は、
合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得するための取得モジュール８０１と、
予めトレーニングされた音声合成モデルで、スタイル情報、音色情報、及び処理対象テキストの内容情報に基づいて、処理対象テキストの音響特徴情報を生成するための生成モジュール８０２と、
処理対象テキストの音響特徴情報に基づいて、処理対象テキストの音声を合成するための合成モジュール８０３と、を含んでいる音声合成装置８００を提供している。

本実施例の音声合成装置８００は、上記のモジュールを利用することで音声合成処理を実現する実現原理及び技術効果は、上記の相関方法の実施例の実現メカニズムと同じ、詳細は上記の相関方法の実施例の記載を参照することができ、ここでは説明を繰り返さない。

図９は本願第６の実施例による模式図である。図９に示すように、本実施例は音声合成装置８００を提供している。本実施例の音声合成装置８００は、前述の図８に示された実施例を基に、より一層詳細に本願の技術案を説明する。

図９に示すように、本実施例の音声合成装置８００において、生成モジュール８０２は、
音声合成モデルにおける内容エンコーダーで、処理対象テキストの内容情報を符号化することで、内容符号化特徴を取得するための内容符号化手段８０２１と、
音声合成モデルにおけるスタイルエンコーダーで、処理対象テキストの内容情報とスタイル情報とを符号化することで、スタイル符号化特徴を取得するためのスタイル符号化手段８０２２と、
音声合成モデルにおける音色エンコーダーで音色情報を符号化することで、音色符号化特徴を取得するための音色符号化手段８０２３と、
音声合成モデルにおけるデコーダーで、内容符号化特徴、スタイル符号化特徴及び音色符号化特徴に基づいて復号し、処理対象テキストの音響特徴情報を生成するための復号手段８０２４と、を備えている。

さらに選択的に、本実施例の音声合成装置８００において、取得モジュール８０１は、
ユーザの入力スタイルの説明情報を取得し、入力スタイルの説明情報に応じて、予め設定されたスタイルテーブルから入力スタイルに対応するスタイル識別子を合成対象音声のスタイル情報として取得し、
あるいは、入力スタイルで表現したオーディオ情報を取得し、オーディオ情報から入力スタイルの音色情報を合成対象音声のスタイル情報として抽出するために用いられる。

図１０は本願第７の実施例による模式図である。図１０に示すように、本実施例は、
複数のトレーニングデータを収集するための収集モジュール１００１であって、各トレーニングデータには、合成対象音声のトレーニングスタイル情報、トレーニング音色情報、トレーニングテキストの内容情報、トレーニングスタイル情報に対応するトレーニングスタイルでトレーニングテキストの内容情報を表現したスタイル特徴情報、及びトレーニングスタイル情報に対応するトレーニングスタイルとトレーニング音色情報に対応するトレーニング音色とでトレーニングテキストの内容情報を表現した目標音響特徴情報が含まれる収集モジュール１００１と、
複数のトレーニングデータを利用して音声合成モデルをトレーニングするためのトレーニングモジュール１００２と、を備えている音声合成モデルのトレーニング装置１０００を提供している。

本実施例の音声合成モデルのトレーニング装置１０００は、上記のモジュールを利用することで音声合成モデルのトレーニングを実現する実現原理及び技術効果は、上記の相関方法の実施例の実現メカニズムと同じ、詳細は上記の相関方法の実施例の記載を参照することができ、ここでは説明を繰り返さない。

図１１は本願第８の実施例による模式図である。図１１に示すように、本実施例は音声合成モデルのトレーニング装置１０００を提供している。本実施例の音声合成モデルのトレーニング装置１０００は、前述の図１０に示された実施例を基に、より一層詳細に本願の技術案を説明する。

図１１に示すように、本実施例の音声合成モデルのトレーニング装置１０００において、トレーニングモジュール１００２は、
各トレーニングデータについて、音声合成モデルにおける内容エンコーダー、スタイルエンコーダー、及び音色エンコーダーで、それぞれトレーニングデータにおけるトレーニングテキストの内容情報、トレーニングスタイル情報、及びトレーニング音色情報を符号化することで、トレーニング内容符号化特徴、トレーニングスタイル符号化特徴、及びトレーニング音色符号化特徴を順次に取得するための符号化手段１００２１と、
音声合成モデルにおけるスタイル抽出器で、トレーニングテキストの内容情報及びトレーニングスタイル情報に対応するトレーニングスタイルでトレーニングテキストの内容情報を表現したスタイル特徴情報に基づいて、目標トレーニングスタイル符号化特徴を抽出するための抽出手段１００２２と、
音声合成モデルにおけるデコーダーで、トレーニング内容符号化特徴、目標トレーニングスタイル符号化特徴、及びトレーニング音色符号化特徴に基づいて復号し、トレーニングテキストの予測音響特徴情報を生成するための復号手段１００２３と、
トレーニングスタイル符号化特徴、目標トレーニングスタイル符号化特徴、予測音響特徴情報、及び目標音響特徴情報に基づいて、総合損失関数を構築するための構築手段１００２４と、
総合損失関数が収束しなければ、総合損失関数が収束する傾向にあるように、内容エンコーダー、スタイルエンコーダー、音色エンコーダー、スタイル抽出器、及びデコーダーのパラメータを調整するための調整手段１００２５とを備えている。

さらに選択的に、構築手段１００２４は、
トレーニングスタイル符号化特徴と目標トレーニングスタイル符号化特徴とに基づいて、スタイル損失関数を構築し、
予測音響特徴情報と目標音響特徴情報とに基づいて、再構成損失関数を構築し、
スタイル損失関数と再構成損失関数とに基づいて、総合損失関数を生成するために用いられる。

本実施例の音声合成モデルのトレーニング装置１０００は、上記のモジュールを利用することで音声合成モデルのトレーニングを実現する実現原理及び技術効果は、上記の相関方法の実施例の実現メカニズムと同じであり、詳細は上記の相関方法の実施例の記載を参照することができ、ここでは説明を繰り返さない。

本願の実施例によれば、本願は電子機器とコンピュータ読取可能な記憶媒体とを更に提供している。

図１２に示すように、本願実施例の上記方法を実現する電子機器のブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータと、デスクトップコンピュータと、ワークベンチと、パーソナル・デジタル・アシスタントと、サーバと、ブレードサーバと、大型コンピュータと、他の適宜なコンピュータとを表す旨である。電子機器は、様々な形式の移動装置、例えば、パーソナル・デジタル・アシスタントと、携帯電話と、スマートフォンと、ウェアラブル機器と、他の類似する計算装置とを表してもよい。本文に示す部品と、それらの接続及び関係と、それらの機能とは単に例示であり、本文で説明した及び／又は要求した本願の実現を限定することを意図しない。

図１２に示すように、この電子機器は、１つ又は複数のプロセッサ１２０１、メモリ１２０２、及び各部件を接続ための、高速インターフェースと低速インターフェースを含むインターフェースを有している。各部品は、別々のバスで互いに接続され、共通のマザーボードに実装され、又は、必要に応じて他の方式で実装されてもよい。プロセッサは、電子機器内で実行されるコマンドを処理することができ、このコマンドは、メモリ中又はメモリ上に記憶されて、外部の入力・出力装置（例えば、インターフェースに結合された表示機器）にＧＵＩの図形情報を表示するコマンドを含む。他の実施形態において、必要に応じて、複数のプロセッサ及び/又は複数のバスと複数のメモリとを一緒に使用してもよい。同様に、複数の電子機器を接続して、各機器が一部の必要な操作を提供してもよい（例えば、サーバアレイ、一組のブレードサーバ、又はマルチプロセッサシステムとする）。図１２は、１つのプロセッサ１２０１を例にしている。

メモリ１２０２は、本願が提供した非一時的なコンピュータ読取可能な記憶媒体である。その中、前記メモリには少なくとも１つのプロセッサによって実行され得るコマンドが記憶されており、前記少なくとも１つのプロセッサに本願が提供した音声合成方法及び音声合成モデルのトレーニング方法を実行させる。本願の非一時的なコンピュータ読取可能な記憶媒体は、コンピュータコマンドを記憶し、このコンピュータコマンドは、コンピュータに本願が提供した音声合成方法及び音声合成モデルのトレーニング方法を実行させるためのものである。

メモリ１２０２は、非一時的なコンピュータ読取可能な記憶媒体として、本願の実施例における音声合成方法及び音声合成モデルのトレーニング方法に対応するプログラムコマンド・モジュール（例えば、図８、図９、図１０、及び図１１に示された相関モジュール）のような、非一時的なソフトウェアプログラムと、非一時的なコンピュータ実行可能なプログラム及びモジュールとを記憶するためのものである。プロセッサ１２０１は、メモリ１２０２に記憶される非一時的なソフトウェアプログラムと、コマンドと、モジュールとを実行することで、サーバの各機能アプリケーション及びデータ処理を実行し、即ち、上述した方法実施例における音声合成方法及び音声合成モデルのトレーニング方法を実現する。

メモリ１２０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶するプログラム記憶エリア、及び音声合成方法と音声合成モデルのトレーニング方法とを実現する電子機器の使用によって生成されたデータなどを記憶するデータ記憶エリアを含んでもよい。また、メモリ１２０２は、高速ランダムアクセスメモリを含んでもよく、非一時的なメモリ、例えば、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的なソリッド記憶デバイスを含んでもよい。一部の実施例において、メモリ１２０２は、選択的に、プロセッサ１２０１から遠隔に設置されたメモリを含み、これらの遠隔メモリは、ネットワークを介して、音声合成方法及び音声合成モデルのトレーニング方法を実現する電子機器に接続されてもよい。上述したネットワークの実例は、インターネットと、イントラネットと、ローカルエリアネットワークと、移動通信ネットワークと、それらの組合せとを含むが、それらに限られない。

音声合成方法及び音声合成モデルのトレーニング方法を実現する電子機器は、入力装置１２０３と出力装置１２０４とを更に含んでもよい。プロセッサ１２０１、メモリ１２０２、入力装置１２０３及び出力装置１２０４は、バス又は他の方式によって接続されてよく、図１２においてバスによる接続を例とする。

入力装置１２０３は、入力されたデジタル又は文字情報を受信し、音声合成方法及び音声合成モデルのトレーニング方法を実現する電子機器のユーザ設定及び機能制御に関わるキー信号入力を発生してよく、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケーターロッド、１つ又は複数のマウスボタン、トラックボール、レバーなどの入力装置である。出力装置１２０４は、表示機器と、補助照明装置（例えば、ＬＥＤ）と、触覚フィードバック装置（例えば、振動モーター）などを含んでもよい。この表示機器は、液晶ディスプレー（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレー、プラズマディスプレーを含むが、これらに限られない。一部の実施形態において、表示機器はタッチスクリーンであってもよい。

ここで説明したシステム及び技術の各実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組合せで実現されてもよい。これらの各実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含んでもよく、この１つまたは複数のコンピュータプログラムが、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈されてもよく、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システムと、少なくとも１つの入力装置と、少なくとも１つの出力装置とからデータ及びコマンドを受信し、データ及びコマンドを、この記憶システムと、この少なくとも１つの入力装置と、この少なくとも１つの出力装置とへ伝送してもよい。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも称する）は、プログラマブルプロセッサの機械コマンドを含み、高級プロセス及び／又はオブジェクト向けのプログラミング言語、及び／又はアセンブリ・機械言語によってこれらの計算プログラムを実施してもよい。本明細書で使用した用語「機械読取可能な媒体」及び「コンピュータ読取可能な媒体」とは、機械コマンド及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を意味しており、機械読取可能な信号である機械コマンドを受ける機械読取可能な媒体を含む。術語「機械読取可能な信号」とは、機械コマンド及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を意味している。

ユーザとのインタラクションを提供するために、コンピュータ上にここで説明したシステム及び技術を実施してもよく、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレー）モニタ）と、キーボード及び指向装置（例えば、マウス又はトラックボール）とを有し、ユーザは、このキーボード及びこの指向装置によって、入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式のセンサーフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（声入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム（例えば、データサーバとする）、又はミドルウェア部品を含む計算システム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含む計算システム（例えば、グラフィカル・ユーザー・インターフェース又はネットワークブラウザを有するユーザコンピュータ、ユーザはこのグラフィカル・ユーザー・インターフェース又はこのネットワークブラウザを介してここで説明したシステム及び技術の実施形態とのインタラクションを実施することができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、或いはフロントエンド部品の任意の組合せを含む計算システムで実施されてもよい。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介してシステムの部品を相互に接続してもよい。通信ネットワークの例示は、ローカルエリアネットワーク（ＬＡＮ）と、広域ネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークとを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバとは、一般的に互いに離れて、且つ通常に通信ネットワークを介してインタラクションを実施する。相応するコンピュータで実行されるとともに、互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係を形成する。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバやクラウドホストとも呼ばれ、クラウドコンピューティングサービス系統における１つのホスト製品であり、従来の物理ホストとＶＰＳ(「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｖｅｒ」、或いは「ＶＰＳ」と単に呼ばれる)サービスに存在する、管理難しさが大きく、業務拡張性が弱いという不具合を解決するために設けられた。

本願の実施例の技術案によれば、合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得し、予めトレーニングされた音声合成モデルで、スタイル情報、音色情報、及び処理対象テキストの内容情報に基づいて、処理対象テキストの音響特徴情報を生成し、処理対象テキストの音響特徴情報に基づいて処理対象テキストの音声を合成することで、クロス言語、クロススタイル、クロス音色の音声合成が図れ、音声合成の多様性を大いに充実し、ユーザの使用体験を高くすることは可能となる。

本願の実施例の技術案によれば、上記の技術案を利用することで、クロス言語、クロススタイル、クロス音色の音声合成を実現することができ、音声合成の多様性を大いに充実し、長期間の放送の単調感を低減し、ユーザの体験を顕著に高くすることができる。本願実施例の技術案は各種類の音声インタラクション場面に適用され、一般化され得る。

本願の実施例の技術案によれば、上記の案を利用することで、音声合成モデルを効果的にトレーニングでき、音声合成モデルに、トレーニングデータに基づいて、内容、スタイル及び音色に従って音声を合成するプロセスを学習させ、さらに学習した後の音声合成モデルが、音声合成の多様性を充実することができるようにする。

本願の実施例の技術案によれば、上記の案を利用することで、トレーニング過程において、内容、スタイル、及び音色の完全なデカップリングを効果的に保証することができ、さらにトレーニングした後の音声合成モデルが、クロススタイル、クロス音色、クロス言語の音声合成を実現することができるようにして、音声合成の多様性を大いに充実し、長期間の放送の単調感を低減し、ユーザの体験を顕著に高くすることができる。

前に示す様々な形式のフローを利用して、ステップを並び替え、増加又は削除することができると理解されるべきである。例えば、本願に記載された各ステップは、並行に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本願が開示した技術案が所望する結果を実現できる限り、本明細書はここで限定しない。

上述した具体的な実施形態は、本願の保護範囲に対する限定を構成しない。当業者にとって、設計要求や他の要因に応じて、さまざまな修正、組合、サブ組合及び置換えを行えることが、自明なことである。本願の趣旨と原則の範囲内になされた任意の修正、等価な置換え、改進などは、いずれも本願の保護範囲内に含まれるべきである。

Claims

音声合成装置で実行される音声合成方法であって、
合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得することと、
予めトレーニングされた音声合成モデルで、前記スタイル情報、前記音色情報、及び前記処理対象テキストの内容情報に基づいて、前記処理対象テキストの音響特徴情報を生成することと、
前記処理対象テキストの音響特徴情報に基づいて、前記処理対象テキストの音声を合成することと、を含んでおり、
予めトレーニングされた音声合成モデルで、前記スタイル情報、前記音色情報、及び前記処理対象テキストの内容情報に基づいて、前記処理対象テキストの音響特徴情報を生成することは、
前記音声合成モデルにおける内容エンコーダーで、前記処理対象テキストの内容情報を符号化することで、内容符号化特徴を取得することと、
前記音声合成モデルにおけるスタイルエンコーダーで、前記処理対象テキストの内容情報と前記スタイル情報とを符号化することで、スタイル符号化特徴を取得することと、
前記音声合成モデルにおける音色エンコーダーで前記音色情報を符号化することで、音色符号化特徴を取得することと、
前記音声合成モデルにおけるデコーダーで、前記内容符号化特徴、前記スタイル符号化特徴、及び前記音色符号化特徴に基づいて復号し、前記処理対象テキストの音響特徴情報を生成することと、を含んでいる、
音声合成方法。
合成対象音声のスタイル情報を取得することは、
ユーザの入力スタイルの説明情報を取得し、前記入力スタイルの説明情報に応じて、予め設置されたスタイルテーブルから前記入力スタイルに対応するスタイル識別子を前記合成対象音声のスタイル情報として取得すること、
或いは、入力スタイルで表現したオーディオ情報を取得し、前記オーディオ情報から前記入力スタイルの情報を前記合成対象音声のスタイル情報として抽出することを含んでいる、
請求項１に記載の方法。
複数のトレーニングデータを収集し、各前記トレーニングデータには、合成対象音声のトレーニングスタイル情報、トレーニング音色情報、トレーニングテキストの内容情報、前記トレーニングスタイル情報に対応するトレーニングスタイルで前記トレーニングテキストの内容情報を表現したスタイル特徴情報、及び前記トレーニングスタイル情報に対応するトレーニングスタイルと前記トレーニング音色情報に対応するトレーニング音色とで前記トレーニングテキストの内容情報を表現した目標音響特徴情報が含まれることと、
前記複数のトレーニングデータを利用して音声合成モデルをトレーニングすることと、を含んでいる、
音声合成モデルのトレーニング方法。
前記複数のトレーニングデータを利用して前記音声合成モデルをトレーニングすることは、
各前記トレーニングデータについて、前記音声合成モデルにおける内容エンコーダー、スタイルエンコーダー、及び音色エンコーダーで、それぞれ前記トレーニングデータにおける前記トレーニングテキストの内容情報、前記トレーニングスタイル情報、及び前記トレーニング音色情報を符号化することで、トレーニング内容符号化特徴、トレーニングスタイル符号化特徴、及びトレーニング音色符号化特徴を順次に取得することと、
前記音声合成モデルにおけるスタイル抽出器で、前記トレーニングテキストの内容情報及び前記トレーニングスタイル情報に対応するトレーニングスタイルで前記トレーニングテキストの内容情報を表現したスタイル特徴情報に基づいて、目標トレーニングスタイル符号化特徴を抽出することと、
前記音声合成モデルにおけるデコーダーで、前記トレーニング内容符号化特徴、前記目標トレーニングスタイル符号化特徴、及び前記トレーニング音色符号化特徴に基づいて復号し、前記トレーニングテキストの予測音響特徴情報を生成することと、
前記トレーニングスタイル符号化特徴、前記目標トレーニングスタイル符号化特徴、前記予測音響特徴情報、及び前記目標音響特徴情報に基づいて、総合損失関数を構築することと、
前記総合損失関数が収束しなければ、前記総合損失関数が収束する傾向にあるように、前記内容エンコーダー、前記スタイルエンコーダー、前記音色エンコーダー、前記スタイル抽出器、及び前記デコーダーのパラメータを調整することとを含んでいる、
請求項３に記載の方法。
前記トレーニングスタイル符号化特徴、前記目標トレーニングスタイル符号化特徴、前記予測音響特徴情報、及び前記目標音響特徴情報に基づいて、総合損失関数を構築することは、
前記トレーニングスタイル符号化特徴と前記目標トレーニングスタイル符号化特徴とに基づいて、スタイル損失関数を構築することと、
前記予測音響特徴情報と前記目標音響特徴情報とに基づいて、再構成損失関数を構築することと、
前記スタイル損失関数と前記再構成損失関数とに基づいて、前記総合損失関数を生成することと、を含んでいる、
請求項４に記載の方法。
合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得するための取得モジュールと、
予めトレーニングされた音声合成モデルで、前記スタイル情報、前記音色情報、及び前記処理対象テキストの内容情報に基づいて、前記処理対象テキストの音響特徴情報を生成するための生成モジュールと、
前記処理対象テキストの音響特徴情報に基づいて前記処理対象テキストの音声を合成するための合成モジュールと、を含んでいる、
音声合成装置。
前記生成モジュールは、
前記音声合成モデルにおける内容エンコーダーで、前記処理対象テキストの内容情報を符号化することで、内容符号化特徴を取得するための内容符号化手段と、
前記音声合成モデルにおけるスタイルエンコーダーで、前記処理対象テキストの内容情報と前記スタイル情報とを符号化することで、スタイル符号化特徴を取得するためのスタイル符号化手段と、
前記音声合成モデルにおける音色エンコーダーで前記音色情報を符号化することで、音色符号化特徴を取得するための音色符号化手段と、
前記音声合成モデルにおけるデコーダーで、前記内容符号化特徴、前記スタイル符号化特徴、及び前記音色符号化特徴に基づいて復号し、前記処理対象テキストの音響特徴情報を生成するための復号手段と、を含んでいる、
請求項６に記載の装置。
前記取得モジュールは、
ユーザの入力スタイルの説明情報を取得し、前記入力スタイルの説明情報に応じて、予め設置されたスタイルテーブルから前記入力スタイルに対応するスタイル識別子を前記合成対象音声のスタイル情報として取得し、
或いは、入力スタイルで表現したオーディオ情報を取得し、前記オーディオ情報から前記入力スタイルの情報を前記合成対象音声のスタイル情報として抽出するために用いられる、
請求項６または７に記載の装置。
複数のトレーニングデータを収集するための収集モジュールであって、各前記トレーニングデータには、合成対象音声のトレーニングスタイル情報、トレーニング音色情報、トレーニングテキストの内容情報、前記トレーニングスタイル情報に対応するトレーニングスタイルで前記トレーニングテキストの内容情報を表現したスタイル特徴情報、及び前記トレーニングスタイル情報に対応するトレーニングスタイルと前記トレーニング音色情報に対応するトレーニング音色とで前記トレーニングテキストの内容情報を表現した目標音響特徴情報が含まれる収集モジュールと、
前記複数のトレーニングデータを利用して音声合成モデルをトレーニングするためのトレーニングモジュールと、を含む、
音声合成モデルのトレーニング装置。
前記トレーニングモジュールは、
各前記トレーニングデータについて、前記音声合成モデルにおける内容エンコーダー、スタイルエンコーダー、及び音色エンコーダーで、それぞれ前記トレーニングデータにおける前記トレーニングテキストの内容情報、前記トレーニングスタイル情報、及び前記トレーニング音色情報を符号化することで、トレーニング内容符号化特徴、トレーニングスタイル符号化特徴、及びトレーニング音色符号化特徴を順次に取得するための符号化手段と、
前記音声合成モデルにおけるスタイル抽出器で、前記トレーニングテキストの内容情報及び前記トレーニングスタイル情報に対応するトレーニングスタイルで前記トレーニングテキストの内容情報を表現したスタイル特徴情報に基づいて、目標トレーニングスタイル符号化特徴を抽出するための抽出手段と、
前記音声合成モデルにおけるデコーダーで、前記トレーニング内容符号化特徴、前記目標トレーニングスタイル符号化特徴、及び前記トレーニング音色符号化特徴に基づいて復号し、前記トレーニングテキストの予測音響特徴情報を生成するための復号手段と、
前記トレーニングスタイル符号化特徴、前記目標トレーニングスタイル符号化特徴、前記予測音響特徴情報、及び前記目標音響特徴情報に基づいて、総合損失関数を構築するための構築手段と、
前記総合損失関数が収束しなければ、前記総合損失関数が収束する傾向にあるように、前記内容エンコーダー、前記スタイルエンコーダー、前記音色エンコーダー、前記スタイル抽出器、及び前記デコーダーのパラメータを調整するための調整手段とを含んでいる、
請求項９に記載の装置。
前記構築手段は、
前記トレーニングスタイル符号化特徴と前記目標トレーニングスタイル符号化特徴とに基づいて、スタイル損失関数を構築し、
前記予測音響特徴情報と前記目標音響特徴情報とに基づいて、再構成損失関数を構築し、
前記スタイル損失関数と前記再構成損失関数とに基づいて、前記総合損失関数を生成するために用いられる、
請求項１０に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されるメモリと、を含む電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行されるコマンドが記憶されており、
前記コマンドが前記少なくとも１つのプロセッサによって実行されることで、前記少なくとも１つのプロセッサが請求項１乃至請求項２、または請求項３乃至請求項５のいずれか一項に記載の方法を実行することができる、
電子機器。
コンピュータに請求項１乃至請求項２、または請求項３乃至請求項５のいずれか一項に記載の方法を実行させるためのコンピュータコマンドが記憶されている、
非一時的なコンピュータ読取可能な記憶媒体。
プロセッサによって実行される時に、請求項１乃至請求項２、または請求項３乃至請求項５のいずれか一項に記載の方法が実行されるコンピュータプログラム。