JP2021196598A

JP2021196598A - モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Info

Publication number: JP2021196598A
Application number: JP2020201661A
Authority: JP
Inventors: ヂォンクンガオ，; Zhengkun Gao; ジュントンヂャン，; Junteng Zhang; ウェンフーワン，; Wenfu Wang; タオスン，; Tao Sun
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-15
Filing date: 2020-12-04
Publication date: 2021-12-27
Anticipated expiration: 2040-12-04
Also published as: KR102496817B1; US20210390943A1; EP3879525B1; KR20210036883A; CN111667816A; JP7259197B2; CN111667816B; EP3879525A1; US11769480B2

Abstract

【課題】モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラムの提供。【解決手段】本出願では、自然言語処理とディープラーニング技術分野に関するモデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラムが開示された。モデルトレーニング段階では、サンプルテキストデータの音素特徴および韻律語境界特徴を確定するステップと、前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するステップと、前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得するステップと、を実行する。本出願の技術により、合成された音声の流暢さを向上できる。【選択図】図１ａ

Description

本出願は音声技術の分野に関し、特に自然言語処理とディープラーニング技術分野に関し、具体的にはモデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関する。

人工知能技術の発展に伴い、知能音声インタラクションは、ニュースキャスターが放送するニュースは人工知能（ＡＩ，ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）を介して合成され、スマートスピーカーのサウンドボックスを介して音声メッセージを放送するなど、仕事と生活の様々な分野で幅広く応用されている。

音声合成は文字特徴を音声に変換することにより、知能音声インタラクションの基礎となる。合成された音声の流暢さは知能音声インタラクション効果の鍵である。

本出願は、モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提供する。

本出願の第１態様により、
サンプルテキストデータの音素特徴および韻律語境界特徴を確定するステップと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するステップと、
前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得するステップと、を含む音声合成モデルのトレーニング方法を提供する。

本出願の第２態様により、
ターゲットテキストデータの音素特徴および韻律語境界特徴を確定するステップと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するステップと、
ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得し、前記音響特徴を用いてターゲット音声を合成するステップと、を含む音声合成方法を提供する。

本出願の第３態様により、
サンプルテキストデータの音素特徴および韻律語境界特徴を確定するためのサンプル音素境界モジュールと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するためのサンプル特徴組合せモジュールと、
前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得するためのモデルトレーニングモジュールと、を含む音声合成モデルのトレーニング装置を提供する。

本出願の第４態様により、
ターゲットテキストデータの音素特徴および韻律語境界特徴を確定するためのターゲット音素境界モジュールと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するためのターゲット特徴組合せモジュールと、
ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得し、前記音響特徴を用いてターゲット音声を合成する音声合成モジュールと、を含む音声合成装置を提供する。

本出願の第５態様により、
少なくとも１つのプロセッサおよび前記少なくとも１つのプロセッサに通信接続されたメモリを含む電子機器であって、
前記メモリには前記少なくとも１つのプロセッサによって実行可能な命令が格納され、前記命令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサが本出願の実施形態のいずれかに記載の音声合成モデルのトレーニング方法又は音声合成方法を実行可能にする、電子機器を提供する。

本出願の第６態様により、
コンピュータ命令が格納されている非一時的コンピュータ可読媒体であって、
前記コンピュータ命令が本出願の実施形態のいずれかに記載の音声合成モデルのトレーニング方法又は音声合成方法を前記コンピュータに実行させるためのものである非一時的コンピュータ可読記憶媒体を提供する。

本出願の第７態様により、
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、本出願の実施形態のいずれかに記載の音声合成モデルのトレーニング方法又は音声合成方法を実現するコンピュータプログラムを提供する。

本出願の技術により、合成された音声の流暢さが向上した。

この部分の内容は、本出願の実施形態の鍵や重要な特徴を示すためのものでもなく、本出願の範囲を限定するためのものでもないことを理解されたい。以下の明細書によって、本出願の他の特徴がより理解しやすくなるであろう。

図面は本出願をよりよく理解するために使用されるものであり、本出願を限定するものではない。

本出願の実施形態に係る音声合成モデルのトレーニング方法の概略フローチャートである。本出願の実施形態に係る韻律語境界の概略図である。本出願の実施形態に係る音声合成モデルのトレーニング方法の概略フローチャートである。本出願の実施形態に係る音声合成方法の概略フローチャートである。本出願の実施形態に係る音声合成方法の概略フローチャートである。本出願の実施形態に係る音声合成処理方法の概略フローチャートである。本出願の実施形態に係る音声合成モデル処理装置の構成概略図である。本出願の実施形態に係る音声合成装置の構成概略図である。本出願の実施形態に係る音声合成モデルのトレーニング方法または音声合成方法を実施するための電子機器のブロック図である。

本出願の例示的な実施形態は、理解を容易にするために本出願の実施形態の様々な詳細を含む図面に関連して以下に説明され、それらは例示的なものにすぎないとみなされるべきである。したがって、当業者であれば、本出願に記載された実施形態について、本出願の範囲および趣旨から逸脱することなく、様々な変更と修正を行うことができることを認識するであろう。同様に、以下の説明では、明確かつ簡略化のために、公知の機能と構造の説明を省略する。

図１ａは本出願の実施形態に係る音声合成モデルのトレーニング方法の概略フローチャートである。本実施形態は、音声合成モデルをトレーニングする場合に適用可能である。本実施形態に開示される音声合成モデルのトレーニング方法は、電子機器によって実行することができ、具体的には音声合成モデルのトレーニング装置によって実行することができる。この装置は、電子機器に内蔵され、ソフトウェアおよび／またはハードウェアによって実現することができる。図１ａを参照すると、本実施形態に係る音声合成モデルのトレーニング方法は、次のステップ（Ｓ１１０〜１３０）を含む。

Ｓ１１０：サンプルテキストデータの音素特徴および韻律語境界特徴を確定する。

ここで、音素は音声の自然属性によって分割された最小の音声単位であり、音節における発音動作に応じて分割され、１つの動作が１つの音素を構成する。音素は母音と子音の２種類に大別される。音素特徴は、サンプルテキストデータの音素系列とすることができる。具体的には、サンプルテキストデータのピンインを確定し、音素粒度に応じてピンインを分割してサンプルテキストデータの音素特徴を取得する。「３個好人（３人の善人）」を例にとると、音素特徴はｓ、ａｎ、ｇ、ｅ、ｈ、ａｏ、ｒ、ｅｎとすることができる。

ここで、テキストデータにおけるポーズが出現する音節位置は韻律語境界であり、韻律語、韻律句、語調句のうちの少なくとも１種を含むことができる。具体的には、予めトレーニングして得られた韻律境界検出モデルに基づいてサンプルテキストデータに対して韻律語境界予測を行い、サンプルテキストデータの韻律語境界特徴を取得することができる。図１ｂを参照すると、依然として「３個好人」を例にとると、韻律境界特徴は韻律語「３個」と韻律語「好人」とすることができ、韻律句は「３個好人」である。すなわち「個」の後のポーズ位置を韻律語、「人」の後のポーズ位置を韻律句とすることができる。

Ｓ１２０：前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して、前記サンプルテキストデータの組合せ特徴を取得する。

ここで、ポーズ記号は音節間にポーズを持つことを示すために用いられる。韻律語境界特徴は異なり、ポーズ記号は同じである。韻律語境界特徴に関連付けられたポーズ記号を特殊な音素として音素特徴に挿入することにより、サンプルテキストデータの組合せ特徴を取得する。

韻律語と韻律句はそれぞれポーズ記号ｂｋに関連付けられたことを例にとると、音素特徴ｓ、ａｎ、ｇ、ｅ、ｈ、ａｏ、ｒ、ｅｎにポーズ記号ｂｋを挿入し、組合せ特徴ｓ、ａｎ、ｇ、ｅ、ｂｋ、ｈ、ａｏ、ｒ、ｅｎ、ｂｋを取得する。

Ｓ１３０：前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得する。

ここで、初期音声合成モデルは、音響特徴を出力するためのニューラルネットワークに基づく音声合成モデルであることが可能である。本出願の実施形態は、ニューラルネットワーク構造を特に限定するものでなく、例えば、音響スペクトル予測ネットワークである。具体的には、組合せ特徴のベクトル表現を確定し、組合せ特徴のベクトル表現を初期音声合成モデルの入力として、初期音声合成モデルをトレーニングする。

音素特徴に韻律語境界を表すためのポーズ記号を挿入し、ポーズ記号を特殊な音素特徴とすることにより、音声合成モデルのトレーニング過程において音素特徴だけでなく韻律語境界特徴も学習し、すなわち音声合成モデルに韻律情報が融合されることにより、後に合成される音声がより流暢になる。また、組合せ特徴は音素粒度の特徴であるため、モデルトレーニング過程において文字、語粒度の音声合成と比較してより細かい粒度の処理により、合成される音声の自然さが向上している。さらに、音素は中国語、英語など複数の言語タイプが持つ共通の特徴であるため、音素粒度に基づく音声合成モデルは、中国語、英語など単一の言語の場面で良好な性能を持つだけでなく、特に複数の言語タイプ混合の場面、例えば中国語と英語の混合使用場面で良好な性能を持つ。

オプションの実施形態では、Ｓ１２０は、前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するステップと、前記韻律語位置に前記ポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するステップと、を含む。

韻律語境界予測の過程において韻律語の精度が韻律句と語調句の精度よりも高く、韻律句と語調句のポーズ位置が同様に韻律語のポーズ位置であるため、組合せ特徴に韻律句と語調句のポーズ記号を導入せずに韻律語のポーズ記号を導入し、すなわち韻律句と語調句を韻律語と見なすことにより、韻律句と語調句の予測精度が低いことによるモデルの性能低下を回避することができる。

あるいは、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得した後、前記初期音声合成モデルの出力とサンプルオーディオデータを用いて、初期ボコーダをトレーニングしてターゲットボコーダを取得するステップをさらに含む。本出願の実施形態は、ボコーダ構造を具体的に限定するものでなく、例えば、ＲＮＮ（ＣｙｃｌｉｃＮｅｕｒａｌＮｅｔｗｏｒｋ，循環型ニューラルネットワーク）ボコーダであることが可能である。音声合成モデルとボコーダを共にトレーニングすることにより、音声合成モデルとボコーダのロバスト性を向上させることができる。

本出願の実施形態の技術案は、韻律語境界特徴を表すポーズ記号を音素特徴に挿入することにより組合せ特徴を取得し、サンプルテキストデータの組合せ特徴に基づいて初期音声合成モデルをトレーニングすることにより、ターゲット音声合成モデルに韻律情報があるようにして、後に合成される音声をより流暢にする。また、音素粒度に基づく音声合成モデルは、汎用性が高く、特に多言語混合の場面で良好な性能を持つ。

図２は本出願の実施形態に係る音声合成モデルのトレーニング方法の概略フローチャートである。本実施形態は、上述した実施形態に基づいて提案されたオプションである。図２を参照すると、本実施形態で提供される音声合成モデルのトレーニング方法は、次のステップ（Ｓ２１０〜２３０）を含む。

Ｓ２１０：サンプルテキストデータの音素特徴および韻律語境界特徴を確定する。

Ｓ２２０：前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得する。

Ｓ２３０：前記組合せ特徴およびサンプルオーディオデータの音響特徴に基づいて、ポーズ隠れ特徴分布を確定する。

ここで、サンプルオーディオデータはサンプルテキストデータに関連付けられており、すなわち、サンプルオーディオデータは流暢さが要求を満たしたサンプルテキストデータのオーディオデータである。音響特徴は、メルスペクトル特徴、エネルギー特徴などとすることができる。隠れ特徴とは直接獲得できない潜在特徴であり、直接獲得できる顕在特徴に対する相対的概念である。ポーズ隠れ特徴分布はガウス分布であることが可能である。例えば、ポーズは韻律語境界の顕在特徴であり、韻律語境界におけるポーズは直接得られるが、韻律語境界と音響特徴との関係は直接獲得できず、韻律語境界の潜在特徴である。

具体的には、組合せ特徴およびサンプルオーディオデータの音響特徴を処理することにより、オーディオおよびポーズ記号の音響特徴を取得し、ポーズ記号の隠れ特徴がガウス分布に従うと仮定し、ポーズ記号の音響特徴に基づいてポーズ隠れ特徴分布をフィッティングする。

オプションの実施形態では、Ｓ２３０は、前記組合せ特徴と前記サンプルオーディオデータの音響特徴とを整列させて、前記組合せ特徴におけるポーズ記号の音響特徴を取得するステップと、前記ポーズ記号の音響特徴を変分オートエンコーダ（ＶａｒｉａｔｉｏｎａｌＡｕｔｏ−Ｅｎｃｏｄｅｒ、ＶＡＥ）によって処理して、前記ポーズ隠れ特徴分布を取得するステップと、を含む。

ここで、変分オートエンコーダはポーズ記号の音響特徴を事後分布にマッピングする。事後分布はガウス分布とすることができる。具体的には、整列ツールにより、組合せ特徴における音素とポーズ記号に関連付けられたオーディオフレームを確定し、音素とポーズ記号の音響特徴を取得し、ポーズ記号の音響特徴を変分オートエンコーダによって処理することにより、ポーズ隠れ特徴分布を取得する。ここで、整列ツールは、エンコード層と注意層とを含むことができ、組合せ特徴における音素とポーズ記号をエンコード層の入力とし、エンコード層が出力する意味ベクトルとサンプルオーディオデータの音響特徴を注意層の入力とし、音素とポーズ記号の音響特徴を取得する。サンプルにおける各ポーズ記号の音響特徴をフィッティングすることにより、音響特徴とポーズ記号との間の関係、すなわちポーズ隠れ特徴分布を取得する。

なお、整列ツールにより、ポーズ記号に関連付けられたオーディオフレームを取得することができる。すなわちポーズ記号に関連付けられたポーズ時間を取得することができる。ポーズ隠れ特徴分布に基づいて、ポーズ記号の隠れ特徴を取得することができるほか、ポーズ時間と隠れ特徴の対応関係を取得することもできる。これにより、後のモデル使用段階でポーズ時間と隠れ特徴の対応関係に基づいて必要に応じて異なるポーズ時間の音声を合成しやすくなる。

Ｓ２４０：前記組合せ特徴および前記ポーズ隠れ特徴分布に基づいて、初期音声合成モデルに対して教師なしトレーニングを行って、ターゲット音声合成モデルを取得する。

ポーズ隠れ特徴分布を踏まえて初期音声合成モデルをトレーニングすることにより、モデルがポーズ隠れ特徴を学習できるようにし、モデルの性能を向上させ、合成される音声の品質を向上させることができる。また、変分オートエンコーダによりポーズ隠れ特徴分布を取得することにより、音声合成モデルが異なるポーズ時間のポーズ記号の隠れ特徴を学習できるようにし、それによって音声合成過程において必要に応じて異なるポーズ時間のオーディオを合成することをサポートする。

オプションの実施形態では、Ｓ２４０は、前記組合せ特徴に基づいて、組合せ特徴ベクトル表現を確定するステップと、前記ポーズ隠れ特徴分布をサンプリングして、ポーズ隠れ特徴を取得するステップと、前記組合せ特徴ベクトル表現を、前記初期音声合成モデルにおけるデコーダの入力として、前記デコーダの出力と前記ポーズ隠れ特徴とを接続してコンテキストベクトルを取得するステップと、前記初期音声合成モデルにおけるエンコーダにより前記コンテキストベクトルを符号化して、前記初期音声合成モデルが出力する音響特徴を取得するステップと、を含む。

具体的には、候補音素特徴とベクトル表現の第１の対応関係と、ポーズ記号とベクトル表現の第２の対応関係とを予め構築しておくことができる。例えば、音素特徴とポーズ記号のベクトル表現は固定長ベクトル表現であり得、異なる候補音素特徴のベクトル表現は異なり、異なるポーズ記号のベクトル表現は異なる。組合せ特徴における音素特徴、ポーズ記号を第１の対応関係と第２の対応関係にマッチングすることにより、組合せ特徴ベクトル表現を取得する。

前記組合せ特徴ベクトル表現を初期音声合成モデルにおけるデコーダの入力とし、前記デコーダの出力と前記ポーズ隠れ特徴とを接続してデコーダの最終出力を取得し、デコーダの最終出力に基づいて符号化して、組合せ特徴における音素とポーズ記号の音響特徴を取得する。ポーズ隠れ特徴とデコーダ出力とを接続することにより、音声合成モデルがトレーニング過程中においてポーズ隠れ特徴を学習できるようにし、さらに教師なしトレーニングを通じて人工タグ付けに依存せずにすむようにし、モデルトレーニングの効率と精度をよりいっそう向上させる。

さらに、前記初期音声合成モデルがトレーニング過程に出力した音素とポーズ記号の音響特徴およびサンプルオーディオデータに基づいて、初期ボコーダをトレーニングして、ターゲットボコーダを取得する。

本出願の実施形態の技術案は、ポーズ隠れ特徴を導入して初期音声合成モデルをトレーニングすることにより、モデルがポーズ隠れ特徴を学習できるようにし、モデルの性能を向上させ、合成された音声の品質を向上させることができる。また、変分オートエンコーダによりポーズ隠れ特徴分布を取得することにより、音声合成モデルが異なるポーズ時間のポーズ記号の隠れ特徴を学習できるようにし、音声合成過程において必要に応じて異なるポーズ時間のオーディオを合成することをサポートすることができる。

図３は本出願の実施形態に係る音声合成方法の概略フローチャートである。本実施形態は、音声合成の場合に適用可能である。本実施形態に開示される音声合成方法は、電子機器により実行することが可能である。具体的には音声合成装置によって実行することが可能である。音声合成装置は電子機器に内蔵され、ソフトウェアおよび／またはハードウェアによって実現することが可能である。図３を参照すると、本実施形態で提供される音声合成方法は、次のステップ（Ｓ３１０〜３３０）を含む。

Ｓ３１０：ターゲットテキストデータの音素特徴および韻律語境界特徴を確定する。

ここで、ターゲットテキストデータは、合成すべき音声のテキストデータである。具体的には、ターゲットテキストデータのピンインを確定し、ピンインを音素粒度に応じて分割してターゲットテキストデータの音素特徴を取得する。テキストデータにおけるポーズが出現する音節位置は韻律語境界であり、韻律語境界特徴は、韻律語、韻律句、語調句のうちの少なくとも１つを含むことができる。具体的には、予めトレーニングして得られた韻律境界検出モデルに基づいてターゲットテキストデータに対して韻律語境界予測を行い、ターゲットテキストデータの韻律語境界特徴を取得することができる。

Ｓ３２０：前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得する。

ここで、ポーズ記号は音節間にポーズを持つことを示すために用いられる。韻律語境界特徴が異なると、ポーズ記号は異なっていてもよい。韻律語境界特徴に関連付けられたポーズ記号を特殊な音素として音素特徴に挿入することにより、ターゲットテキストデータの組合せ特徴を取得する。

オプションの実施形態では、Ｓ３２０は、前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するステップと、前記韻律語位置に前記ポーズ記号を挿入して、前記ターゲットテキストデータの組合せ特徴を取得するステップと、を含む。

組合せ特徴に韻律句と語調句のポーズ記号を導入せずに韻律語のポーズ記号を導入することにより、韻律句と語調句の予測の誤りによるモデルトレーニング過程における韻律境界特徴学習の誤りを回避し、音声合成モデルの精度を向上させることができる。

Ｓ３３０：ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得し、前記音響特徴を用いてターゲット音声を合成する。

具体的には、ターゲットテキストデータの組合せ特徴をターゲット音声合成モデルの入力とし、ターゲット音声合成モデルが出力する組合せ特徴における音素とポーズ記号の音響特徴を取得する。ターゲットテキストデータの音響特徴をボコーダの入力とすることにより、ボコーダにより合成したターゲット音声を取得する。

本出願の実施形態の技術案は、韻律語境界特徴を表すポーズ記号を音素特徴に挿入することにより組合せ特徴を取得し、ターゲット音声合成モデルに基づいてターゲットテキストデータの組合せ特徴を処理してターゲットテキストデータの音響特徴を取得し、ターゲットテキストデータの音響特徴に基づいてターゲット音声を合成して、ターゲット音声の流暢さを向上させる。また、音素粒度に基づく音声合成モデルは、汎用性が高く、特に多言語混合の場面で良好な性能を持つ。

図４は本出願の実施形態に係る音声合成方法の概略フローチャートである。本実施形態は、上述した実施形態に基づいて提案されたオプションである。図４を参照すると、本実施形態で提供される音声合成方法は、次のステップ（Ｓ４１０〜４４０）を含む。

Ｓ４１０：ターゲットテキストデータの音素特徴および韻律語境界特徴を確定する。

Ｓ４２０：前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得する。

Ｓ４３０：ユーザが所望するターゲットポーズ時間と、ポーズ時間とポーズ隠れ特徴の対応関係とに基づいて、ターゲットポーズ隠れ特徴を確定する。

ここで、ポーズ時間とポーズ隠れ特徴の対応関係は、前記ターゲット音声合成モデルのトレーニング段階において得られ、少なくとも２つの既知のポーズ時間と既知のポーズ隠れ特徴の対応関係を含むことができる。ターゲットポーズ時間とは、ターゲット音声のポーズ時間に対するユーザの要求であり、ユーザが直接入力した具体的な時間の長さであってもよく、ユーザが選択したポーズレベルに応じて確定されてもよい。

具体的には、ターゲットポーズ時間がいずれかの既知のポーズ時間であれば、直接その既知のポーズ時間に関連付けられた既知のポーズ隠れ特徴をターゲットポーズ隠れ特徴とすることができる。既知のポーズ時間にターゲットポーズ時間が含まれていなければ、ターゲットポーズ時間と既知のポーズ時間との間の数値関係に基づいて、既知のポーズ隠れ特徴を補間し、ターゲットポーズ隠れ特徴を取得することができる。ターゲット音声合成モデルは、トレーニング段階でポーズ隠れ特徴を学習しており、かつポーズ時間とポーズ隠れ特徴の対応関係を構築しているため、ユーザのニーズに応じて異なるポーズ時間の音声を合成することをサポートすることができる。

Ｓ４４０：前記ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴および前記ターゲットポーズ隠れ特徴に基づいて、音響特徴を取得する。

具体的には、ターゲットテキストデータの組合せ特徴ベクトル表現を確定し、この組合せ特徴ベクトル表現をターゲット音声合成モデルにおけるデコーダの入力とし、デコーダの出力とターゲットポーズ隠れ特徴とを接続してデコーダの最終出力とし、デコーダの最終出力をターゲット音声合成モデルにおける注意層の入力とし、かつターゲット音声合成モデルにおけるエンコーダにより処理することにより、ターゲットテキストデータの音響特徴を取得する。ターゲットテキストデータの音響特徴をボコーダの入力とし、ターゲット音声を取得する。

本出願の実施形態の技術案は、ユーザが所望するターゲットポーズ時間および音声合成モデルがトレーニング段階で構築したポーズ時間とポーズ隠れ特徴の対応関係に基づいてターゲットポーズ隠れ特徴を確定し、かつターゲットテキストデータの組合せ特徴とターゲットポーズ隠れ特徴とに基づいてターゲット音声を合成することにより、ユーザのニーズに応じて異なるポーズ時間の音声を合成することを可能にした。

図５は本出願の実施形態に係る音声合成処理方法の概略フローチャートである。図５を参照すると、本出願の実施形態で提供される音声合成モデルの処理方法は、音声合成モデルのトレーニング段階および音声合成モデルの使用段階である音声合成方法を含む。

音声合成モデルのトレーニング段階ではサンプルテキストデータを特徴サンプリングし、使用段階ではターゲットテキストデータを特徴サンプリングする。具体的には、フロントエンド解析によりテキストデータの音素特徴と韻律語境界特徴をそれぞれ確定する。韻律語境界特徴から韻律語位置を確定し、かつ音素特徴の韻律語位置にポーズ記号を挿入して、組合せ特徴を取得する。テキストデータを「３個好人」、韻律語ポーズ記号を「ｂｋ」とすると、組合せ特徴はｓ、ａｎ、ｇ、ｅ、ｂｋ、ｈ、ａｏ、ｒ、ｅｎ、ｂｋである。

モデルトレーニング段階では、サンプルテキストデータの組合せ特徴表現を第１デコーダｅｎｃｏｄｅｒ１の入力とし、ｅｎｃｏｄｅｒ１の出力とサンプルテキストデータに関連付けられたサンプルオーディオデータのスペクトル特徴を注意層の入力として、組合せ特徴における各音素とポーズ記号のスペクトル特徴を取得する。すべてのサンプルテキストデータにおけるポーズ記号のスペクトル特徴をそれぞれ変分オートエンコーダｅｎｃｏｄｅｒ２の入力として、ポーズ隠れ特徴分布を取得する。具体的には、ポーズ記号の隠れ特徴分布がガウス分布に適合すると仮定し、ポーズ記号のスペクトルに基づいてポーズ隠れ特徴分布をフィッティングする。ポーズ隠れ特徴分布をサンプリングすることにより、隠れ特徴を取得する。サンプルテキストデータの組合せ特徴表現を音声合成モデルにおけるデコーダｅｎｃｏｄｅｒ３の入力とし、ｅｎｃｏｄｅｒ３の出力とサンプリングされた隠れ特徴とを接続してｅｎｃｏｄｅｒ３の最終出力とし、注意層とエンコーダにより音響特徴を取得し、音声合成モデルから出力した音響特徴をサンプリングしてボコーダをトレーニングする。

また、サンプルテキストデータとサンプルオーディオデータの音声特徴とを整列させることにより、ポーズ記号に関連付けられたオーディオフレーム、すなわち、ポーズ記号に関連付けられたポーズ時間を取得することができる。ポーズ隠れ特徴分布に基づいて、ポーズ記号の隠れ特徴を取得することができるほか、ポーズ時間と隠れ特徴の対応関係を取得することもできる。これにより、後のモデルの使用段階でポーズ時間と隠れ特徴の対応関係に基づいて必要に応じて異なるポーズ時間の音声を合成しやすくなる。

音声合成段階では、ユーザが所望するターゲットポーズ時間を取得し、ポーズ時間と隠れ特徴の対応関係に基づいて、ターゲットポーズ時間に関連付けられたターゲットポーズ隠れ特徴を確定する。合成すべきターゲットテキストデータの組合せ特徴を音声合成モデルにおけるデコーダｅｎｃｏｄｅｒ３の入力とし、ｅｎｃｏｄｅｒ３の出力とターゲット隠れ特徴とを接続してｅｎｃｏｄｅｒ３の最終出力とし、注意層とエンコーダにより音響特徴を取得し、音声合成モデルから出力した音響特徴をボコーダに入力してターゲット音声を取得する。

上記の技術案は、韻律語境界特徴を表すポーズ記号を音素特徴に挿入することにより組合せ特徴を取得し、ターゲット音声の流暢さを向上させる。また、音素粒度に基づく音声合成モデルは、汎用性が高く、特に多言語混合の場面で良好な性能を持つ。ポーズ隠れ特徴を導入して初期音声合成モデルをトレーニングすることにより、モデルがポーズ隠れ特徴を学習できるようにし、モデルの性能を向上させ、合成された音声の品質を向上させることができる。また、音声合成過程において必要に応じて異なるポーズ時間のオーディオを合成することをサポートすることができる。

図６は本出願の実施形態に係る音声合成モデルのトレーニング装置の構成概略図である。図６を参照すると、本出願の実施形態は、サンプルテキストデータの音素特徴および韻律語境界特徴を確定するためのサンプル音素境界モジュール５０１と、前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するためのサンプル特徴組合せモジュール５０２と、前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得するためのモデルトレーニングモジュール５０３と、を含む音声合成モデルのトレーニング装置５００を開示する。

あるいは、前記サンプル特徴組合せモジュール５０２は、前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するためのサンプル韻律語位置ユニットと、前記韻律語位置に前記ポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するためのサンプルポーズ記号挿入ユニットと、を含む。

あるいは、前記モデルトレーニングモジュール５０３は、前記組合せ特徴と、前記サンプルテキストデータに関連付けられたサンプルオーディオデータの音響特徴とに基づいて、ポーズ隠れ特徴分布を確定するための隠れ特徴分布ユニットと、前記組合せ特徴および前記ポーズ隠れ特徴分布に基づいて初期音声合成モデルに対して教師なしトレーニングを行うためのモデルトレーニングユニットと、を含む。

あるいは、前記隠れ特徴分布ユニットは、前記組合せ特徴と前記サンプルオーディオデータの音響特徴とを整列させて、前記組合せ特徴におけるポーズ記号の音響特徴を取得するための音響特徴サブユニットと、前記ポーズ記号の音響特徴を変分オートエンコーダによって処理して、前記ポーズ隠れ特徴分布を取得するための隠れ特徴分布サブユニットと、を含む。

あるいは、前記モデルトレーニングユニットは、前記組合せ特徴に基づいて組合せ特徴ベクトル表現を確定するための特徴表現サブユニットと、前記ポーズ隠れ特徴分布をサンプリングしてポーズ隠れ特徴を取得するための隠れ特徴サンプリングサブユニットと、前記組合せ特徴ベクトル表現を前記初期音声合成モデルにおけるデコーダの入力として、前記デコーダの出力と前記ポーズ隠れ特徴とを接続してコンテキストベクトルを取得するための復号化サブユニットと、前記初期音声合成モデルにおけるエンコーダにより前記コンテキストベクトルを符号化して、前記初期音声合成モデルが出力する音響特徴を取得するための符号化サブユニットと、を含む。

あるいは、前記装置は、具体的に前記初期音声合成モデルの出力およびサンプルオーディオデータを用いて、初期ボコーダをトレーニングしてターゲットボコーダを取得するためのボコーダモジュールをさらに含む。

本出願の実施形態の技術案は、ポーズ隠れ特徴を導入して初期音声合成モデルをトレーニングすることにより、モデルがポーズ隠れ特徴を学習できるようにし、モデルの性能を向上させ、合成された音声の品質を向上させることができる。また、変分オートエンコーダによりポーズ隠れ特徴分布を取得することにより、音声合成モデルは、異なるポーズ時間のポーズ記号の隠れ特徴を学習できるようにし、音声合成過程において必要に応じて異なるポーズ時間のオーディオを合成することをサポートする。

図７は本実施形態に係る音声合成装置の構成概略図である。図７を参照すると、本出願の実施形態は、ターゲットテキストデータの音素特徴および韻律語境界特徴を確定するためのターゲット音素境界モジュール６０１と、前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するためのターゲット特徴組合せモジュール６０２と、ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得し、前記音響特徴を用いてターゲット音声を合成する音声合成モジュール６０３と、を含む音声合成装置６００を開示する。

あるいは、前記ターゲット特徴組合せモジュール６０２は、前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するためのターゲット韻律語位置ユニットと、前記韻律語位置に前記ポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するためのターゲットポーズ記号挿入ユニットと、を含む。

あるいは、前記音声合成モジュール６０３は、ユーザが所望するターゲットポーズ時間と、前記ターゲット音声合成モデルのトレーニング段階で得られた、ポーズ時間とポーズ隠れ特徴の対応関係とに基づいて、ターゲットポーズ隠れ特徴を確定するための隠れ特徴確定ユニットと、前記ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴および前記ターゲットポーズ隠れ特徴に基づいて音響特徴を取得するための音声合成ユニットと、を含む。

本出願の実施形態の技術案は、韻律語境界特徴を表すポーズ記号を音素特徴に挿入することにより組合せ特徴を取得し、ターゲット音声の流暢さを向上させる。また、音素粒度に基づく音声合成モデルは、汎用性が高く、特に多言語混合の場面で良好な性能を持つ。さらに、ユーザのニーズに応じて異なるポーズ時間の音声を合成することをサポートする。

本出願の実施形態によれば、本出願はまた、電子機器および読み取り可能な記憶媒体を提供する。

図８は本出願の実施形態に係る音声合成モデルのトレーニング方法または音声合成方法を実施するための電子機器のブロック図である。電子機器は、ラップトップ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータおよび他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことを意図している。電子機器はまた、個人デジタル処理、携帯電話、スマートフォン、ウェアラブルデバイスおよび他の同様のコンピューティングデバイスのような様々な形態のモバイルデバイスを表すことができる。本出願に示す構成要素、それらの接続および関係、ならびにそれらの機能は、一例に過ぎず、本出願に記載されたおよび／または要求される本出願の実施を限定することは意図していない。

図８に示すように、電子機器は、１つまたは複数のプロセッサ７０１と、メモリ７０２と、高速インターフェースおよび低速インターフェースを含む各部を接続するためのインターフェースとを備える。各構成要素は、異なるバスで互いに接続されており、共通マザーボードに実装されていてもよく、必要に応じて他の方法で実装されていてもよい。プロセッサは、インターフェースに結合された表示装置などの外部入出力デバイス上にＧＵＩのグラフィック特徴を表示するために、メモリ内またはメモリ上に格納された命令を含む、電子機器内で実行される命令を処理することができる。他の実施形態では、複数のプロセッサおよび／または複数のバスは、必要に応じて、複数のメモリおよび複数のメモリと共に使用されてもよい。同様に、複数の電子機器を接続することができ、各機器は一部の必要な動作（例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとして）を行うことができる。図８では、１つのプロセッサ７０１を例に挙げている。

メモリ７０２は、本出願に提供される非一時的コンピュータ可読記憶媒体である。前記メモリには、本出願で提供される音声合成モデルのトレーニング方法及び音声合成方法を少なくとも１つのプロセッサに実行させるために、前記少なくとも１つのプロセッサによって実行可能な命令が格納されている。本出願の非一時的コンピュータ可読記憶媒体は、本出願で提供される音声合成モデルのトレーニング方法及び音声合成方法をコンピュータに実行させるためのコンピュータ命令を記憶する。

メモリ７０２は、非一時的コンピュータ可読記憶媒体として、本実施形態における音声合成モデルのトレーニング方法及び音声合成方法に対応するプログラム命令／モジュール（例えば、図６に示すサンプル音素境界モジュール５０１、サンプル特徴組合せモジュール５０２およびモデルトレーニングモジュール５０３、または図７に示すターゲット音素境界モジュール６０１、ターゲット特徴組合せモジュール６０２および音声合成モジュール６０３）のような非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラムおよびモジュールを格納するために使用することができる。プロセッサ７０１は、メモリ７０２に記憶された非一時的ソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行し、すなわち、上述した方法の実施形態における音声合成モデルのトレーニング方法及び音声合成方法を実施する。

メモリ７０２は、プログラム記憶領域およびデータ記憶領域を含むことができる。前記プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶することができる。前記データ記憶領域は、音声合成モデルのトレーニング方法及び音声合成方法を実行する電子機器の使用に応じて作成されたデータ等を記憶することができる。さらに、メモリ７０２は、高速ランダムアクセスメモリを含むことができ、少なくとも１つのディスクメモリ、フラッシュメモリデバイス、または他の非一時的ソリッドステートメモリのような非一時的メモリを含むこともできる。いくつかの実施形態では、メモリ７０２は、あるいは、ネットワークを介して音声合成モデルのトレーニング方法及び音声合成方法を実行する電子機器に接続することができるプロセッサ７０１に対して遠隔設定されたメモリを含むことができる。上述したネットワークの例は、インターネット、企業内ネットワーク、ローカルエリアネットワーク、移動通信ネットワークおよびそれらの組合せを含むが、これらに限定されない。

音声合成モデルのトレーニング方法及び音声合成方法を実行する電子機器は、入力装置７０３および出力装置７０４をさらに含むことができる。プロセッサ７０１、メモリ７０２、入力装置７０３および出力装置７０４は、バスまたは他の方法で接続することができる。図８は、バスを介して接続されている例である。

入力装置７０３は、入力された数字または文字特徴を受信し、音声合成モデルのトレーニング方法及び音声合成方法を実行する電子機器のユーザ設定および機能制御に関するキー信号入力、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングレバー、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置を生成することができる。出力装置７０４は、表示装置、補助照明装置（例えば、ＬＥＤ）および触覚フィードバック装置（例えば、振動モータ）などを含むことができる。前記表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイおよびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。

本出願に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェアおよび／またはそれらの組合せにおいて実施することができる。これらの様々な実施形態は、専用または汎用プログラマブルプロセッサであってもよい少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および／または解釈することができる１つまたは複数のコンピュータプログラム内において実施され、記憶システム、少なくとも１つの入力デバイスおよび少なくとも１つの出力デバイスからデータおよび命令を受信し、かつデータおよび命令を記憶システム、少なくとも１つの入力デバイスおよび少なくとも１つの出力デバイスに送信することができる実施形態を含むことができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、これらのコンピュータプログラムは、高度なプロセスおよび／またはオブジェクト指向プログラミング言語および／またはアセンブリ／機械言語を使用して実施することができる。本出願で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス（ＰＬＤ））を意味し、機械可読信号である機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

ユーザとの対話を提供するために、本出願に記載されたシステムおよび技術をコンピュータ上で実施することができる。前記コンピュータは、ユーザに特徴を表示するための表示デバイス（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを有し、ユーザは、キーボードおよびポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類のデバイスはまた、ユーザとの対話を提供するために使用することができる。例えば、ユーザに提供されるフィードバックは、任意の形態のセンサフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよい。ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形態で受信することができる。

本出願に記載されたシステムおよび技術は、バックグラウンド構成要素を含むコンピュータシステム（例えば、データサーバとして）、またはミドルウェア構成要素を含むコンピュータシステム（例えば、アプリケーションサーバ）、またはフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ（ユーザは、前記グラフィカルユーザインターフェースまたは前記ウェブブラウザを介して、本出願に記載されたシステムおよび技術の実施形態と相互作用することができる））、または上記したバックグラウンド構成要素、ミドルウェア構成要素またはフロントエンド構成要素の任意の組み合わせを含むコンピューティングシステムに実装することができる。システムの構成要素は、任意の形態または媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）およびインターネットが挙げられる。

コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは一般的に互いに離れており、一般的に通信ネットワークを介して相互作用する。クライアントとサーバの関係は、対応するコンピュータ上で動作し、互いにクライアント−サーバ関係を有するコンピュータプログラムによって生成される。サーバはクラウドサーバであることが可能である。前記クラウドサーバはクラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系における１つのホスト製品であり、従来の物理ホストとＶＰＳサービスに存在する管理難易度が高く、業務拡張性が弱いという欠陥を克服した。

本出願の実施形態の技術は、韻律語境界特徴を表すポーズ記号を音素特徴に挿入することにより組合せ特徴を取得し、ターゲット音声の流暢さを向上させる。また、音素粒度に基づく音声合成モデルは、汎用性が高く、特に多言語混合の場面で良好な性能を持つ。ポーズ隠れ特徴を導入して初期音声合成モデルをトレーニングすることにより、モデルがポーズ隠れ特徴を学習できるようにし、モデルの性能を向上させ、合成された音声の品質を向上させることができる。また、音声合成過程において必要に応じて異なるポーズ時間のオーディオを合成することをサポートする。

上述した様々な形態のプロセスを使用して、ステップを再順序付け、追加、または削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよい。本出願に開示される技術が所望する技術効果を実現できるものであればよく、ここでは特に限定しない。

上記した具体的な実施形態は、本出願の保護範囲の制限を構成していない。当業者であれば、設計要求および他の要因に応じて様々な修正、組み合わせ、再組合、代替を行うことができると認識できるだろう。本出願の趣旨および原則内で行われる任意の修正、同等の置換および改善などはすべて本出願の保護範囲内に含まれるものとする。

Claims

サンプルテキストデータの音素特徴および韻律語境界特徴を確定するステップと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するステップと、
前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得するステップと、を含む音声合成モデルのトレーニング方法。
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するステップは、
前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するステップと、
前記韻律語位置に前記ポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するステップと、を含む請求項１に記載の方法。
前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングするステップは、
前記組合せ特徴と前記サンプルテキストデータに関連付けられたサンプルオーディオデータの音響特徴とに基づいて、ポーズ隠れ特徴分布を確定するステップと、
前記組合せ特徴および前記ポーズ隠れ特徴分布に基づいて、初期音声合成モデルに対して教師なしトレーニングを行うステップと、を含む請求項１に記載の方法。
前記組合せ特徴およびサンプルオーディオデータの音響特徴に基づいて、ポーズ隠れ特徴分布を確定するステップは、
前記組合せ特徴と前記サンプルオーディオデータの音響特徴とを整列させて、前記組合せ特徴におけるポーズ記号の音響特徴を取得するステップと、
前記ポーズ記号の音響特徴を変分オートエンコーダによって処理して、前記ポーズ隠れ特徴分布を取得するステップと、を含む請求項３に記載の方法。
前記組合せ特徴および前記ポーズ隠れ特徴分布に基づいて、初期音声合成モデルに対して教師なしトレーニングを行うステップは、
前記組合せ特徴に基づいて、組合せ特徴ベクトル表現を確定するステップと、
前記ポーズ隠れ特徴分布をサンプリングして、ポーズ隠れ特徴を取得するステップと、
前記組合せ特徴ベクトル表現を、前記初期音声合成モデルにおけるデコーダの入力として、前記デコーダの出力と前記ポーズ隠れ特徴とを接続してコンテキストベクトルを取得するステップと、
前記初期音声合成モデルにおけるエンコーダにより前記コンテキストベクトルを符号化して、前記初期音声合成モデルが出力する音響特徴を取得するステップと、を含む請求項３に記載の方法。
前記方法は、
前記初期音声合成モデルの出力とサンプルオーディオデータを用いて、初期ボコーダをトレーニングしてターゲットボコーダを取得するステップをさらに含む請求項１〜５のいずれか１項に記載の方法。
ターゲットテキストデータの音素特徴および韻律語境界特徴を確定するステップと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するステップと、
ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得し、前記音響特徴を用いてターゲット音声を合成するステップと、を含む音声合成方法。
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するステップは、
前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するステップと、
前記韻律語位置に前記ポーズ記号を挿入して、前記ターゲットテキストデータの組合せ特徴を取得するステップと、を含む請求項７に記載の方法。
ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得するステップは、
ユーザが所望するターゲットポーズ時間と、前記ターゲット音声合成モデルのトレーニング段階で得られた、ポーズ時間とポーズ隠れ特徴の対応関係とに基づいて、ターゲットポーズ隠れ特徴を確定するステップと、
前記ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴および前記ターゲットポーズ隠れ特徴に基づいて、音響特徴を取得するステップと、を含む請求項７に記載の方法。
サンプルテキストデータの音素特徴および韻律語境界特徴を確定するためのサンプル音素境界モジュールと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するためのサンプル特徴組合せモジュールと、
前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得するためのモデルトレーニングモジュールと、を含む音声合成モデルのトレーニング装置。
前記サンプル特徴組合せモジュールは、
前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するためのサンプル韻律語位置ユニットと、
前記韻律語位置に前記ポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するためのサンプルポーズ記号挿入ユニットと、を含む請求項１０に記載の装置。
前記モデルトレーニングモジュールは、
前記組合せ特徴と、前記サンプルテキストデータに関連付けられたサンプルオーディオデータの音響特徴とに基づいて、ポーズ隠れ特徴分布を確定するための隠れ特徴分布ユニットと、
前記組合せ特徴および前記ポーズ隠れ特徴分布に基づいて初期音声合成モデルに対して教師なしトレーニングを行うためのモデルトレーニングユニットと、を含む請求項１０に記載の装置。
前記隠れ特徴分布ユニットは、
前記組合せ特徴と前記サンプルオーディオデータの音響特徴とを整列させて、前記組合せ特徴におけるポーズ記号の音響特徴を取得するための音響特徴サブユニットと、
前記ポーズ記号の音響特徴を変分オートエンコーダによって処理して、前記ポーズ隠れ特徴分布を取得するための隠れ特徴分布サブユニットと、を含む請求項１２に記載の装置。
前記モデルトレーニングユニットは、
前記組合せ特徴に基づいて組合せ特徴ベクトル表現を確定するための特徴表現サブユニットと、
前記ポーズ隠れ特徴分布をサンプリングしてポーズ隠れ特徴を取得するための隠れ特徴サンプリングサブユニットと、
前記組合せ特徴ベクトル表現を前記初期音声合成モデルにおけるデコーダの入力として、前記デコーダの出力と前記ポーズ隠れ特徴とを接続してコンテキストベクトルを取得するための復号化サブユニットと、
前記初期音声合成モデルにおけるエンコーダにより前記コンテキストベクトルを符号化して、前記初期音声合成モデルが出力する音響特徴を取得するための符号化サブユニットと、を含む請求項１２に記載の装置。
前記装置は、
前記初期音声合成モデルの出力およびサンプルオーディオデータを用いて、初期ボコーダをトレーニングしてターゲットボコーダを取得するためのボコーダモジュールをさらに含む請求項１０〜１４のいずれか１項に記載の装置。
ターゲットテキストデータの音素特徴および韻律語境界特徴を確定するためのターゲット音素境界モジュールと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するためのターゲット特徴組合せモジュールと、
ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得し、前記音響特徴を用いてターゲット音声を合成する音声合成モジュールと、を含む音声合成装置。
前記ターゲット特徴組合せモジュールは、
前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するためのターゲット韻律語位置ユニットと、
前記韻律語位置に前記ポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するためのターゲットポーズ記号挿入ユニットと、を含む請求項１６に記載の装置。
前記音声合成モジュールは、
ユーザが所望するターゲットポーズ時間と、前記ターゲット音声合成モデルのトレーニング段階で得られた、ポーズ時間とポーズ隠れ特徴の対応関係とに基づいて、ターゲットポーズ隠れ特徴を確定するための隠れ特徴確定ユニットと、
前記ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴および前記ターゲットポーズ隠れ特徴に基づいて音響特徴を取得するための音声合成ユニットと、を含む請求項１６に記載の装置。
少なくとも１つのプロセッサおよび前記少なくとも１つのプロセッサに通信接続されたメモリを含む電子機器であって、
前記メモリには前記少なくとも１つのプロセッサによって実行可能な命令が格納され、前記命令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサが請求項１〜９のいずれか１項に記載の方法を実行可能にする、電子機器。
コンピュータ命令が格納されている非一時的コンピュータ可読媒体であって、
前記コンピュータ命令が請求項１〜９のいずれか１項に記載の方法を前記コンピュータに実行させるためのものである、非一時的コンピュータ可読記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１〜９のいずれか１項に記載の方法を実現するコンピュータプログラム。