JP6036682B2 - 音声合成システム、音声合成方法、および音声合成プログラム - Google Patents
音声合成システム、音声合成方法、および音声合成プログラム Download PDFInfo
- Publication number
- JP6036682B2 JP6036682B2 JP2013501130A JP2013501130A JP6036682B2 JP 6036682 B2 JP6036682 B2 JP 6036682B2 JP 2013501130 A JP2013501130 A JP 2013501130A JP 2013501130 A JP2013501130 A JP 2013501130A JP 6036682 B2 JP6036682 B2 JP 6036682B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- pronunciation information
- speech synthesis
- pronunciation
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 116
- 238000003786 synthesis reaction Methods 0.000 title claims description 112
- 238000001308 synthesis method Methods 0.000 title claims description 13
- 238000012937 correction Methods 0.000 claims description 41
- 238000000034 method Methods 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 13
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 11
- 238000007619 statistical method Methods 0.000 description 10
- 238000002360 preparation method Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- GHOKWGTUZJEAQD-ZETCQYMHSA-N (D)-(+)-Pantothenic acid Chemical compound OCC(C)(C)[C@@H](O)C(=O)NCCC(O)=O GHOKWGTUZJEAQD-ZETCQYMHSA-N 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Description
前述の韻律生成処理方法として、非特許文献1に示されているように、F0パタンを単純なルールで表現できるようにモデル化して、そのルールを用いて韻律を生成する方法が知られている。このようにルールを用いた方法は、単純なモデルでF0パタンを生成できるため広く使われているが、韻律が不自然で合成音声が機械的になってしまうという問題があった。
これに対し、近年では統計的手法を用いた音声合成方式が注目されている。その代表的な手法が、非特許文献2に記されている。非特許文献2は、統計的手法として隠れマルコフモデル(hidden Markov model:HMM)を用いたHMM音声合成を開示する。HMM音声合成の技術は、大量の学習データを用いてモデル化した韻律モデルおよび音声合成単位(パラメータ)モデルを使って音声を生成する。HMM音声合成の技術は、実際の人間が発声した音声を学習データとしているため、前述のF0生成モデルに比べて、より人間らしい韻律が生成できる。
この問題を解決する方法の1つとして、さらに大量のデータでモデル学習するという方法が考えられる。しかし、大量の学習データを収集するのは困難であり、また、どのくらいのデータ量を収集すれば十分であるかが不明であるため、現実的ではない。
以上より、本発明の目的は、不要に大量な学習データを収集することなく、自然性の高い音声合成を可能にする技術を提供することである。
上記目的を達成するため、本発明の音声合成方法は、音声波形データから抽出された特徴量の集合である学習データを格納し、前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、前記出力された疎密情報に基づいて、音声合成に用いる発音情報を修正する。
上記目的を達成するため、本発明の記録媒体が格納するプログラムは、音声波形データから抽出された特徴量の集合である学習データを格納し、前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、前記出力された疎密情報に基づいて、音声合成に用いる発音情報を修正する、処理をコンピュータに実行させる。
非特許文献2に記載されるような統計的手法を用いた技術では、正しいF0パタンが生成されず不自然な音声になる場合がある。
具体的に説明すると、例えば、「人」(2モーラ)、「単語」(3モーラ)、「音声」(4モーラ)といった数モーラ程度の学習データは十分な数が存在する。ここで、モーラとは、一定の時間的長さをもった音の文節単位であり、日本語では一般に拍とも呼ばれる。そのため、統計的手法を用いた技術は、数モーラ程度の音については正しいF0パタンを生成することができる。しかし、例えば「アルバートアインシュタイン医科大学」(18モーラ)のような学習データは極端に数が少ない、あるいは存在しない恐れがある。そのため、このような単語を含むテキストが入力された場合、F0パタンが乱れてしまい、アクセント位置がずれる等の問題が発生する。
以下に説明される本発明の実施形態によれば、疎な部分空間に属するような発音情報は修正される。そのため、本発明の実施形態によれば、学習データ不足を要因とした音声合成の不安定性を回避することができ、自然性の高い合成音声を生成することが可能となる。
以下、本発明の実施形態について図面を参照して説明する。なお、各実施形態について、同様な構成要素には同じ符号を付し、適宜説明を省略する。また、以下の各実施形態では日本語の場合を例に説明するが、本願発明の適用は日本語の場合に限定されない。
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成システム1000の構成例を示すブロック図である。図1を参照すると、本実施形態に係る音声合成システム1000は、特徴量空間分割部1と、疎密状態検出部2と、発音情報修正部3と、学習用データベース4とを含む。
学習用データベース4は、音声波形データから抽出された特徴量の集合を学習データとして格納する。学習用データベース4は、音声波形データに対応した文字列である発音情報を格納する。学習用データベース4は、時間長情報やピッチ情報等を格納していても良い。
ここで、学習データである特徴量は、少なくとも音声波形におけるF0の時間変化情報であるF0パタンを含む。さらに、学習データである特徴量は、音声波形を高速フーリエ変換(FFT)して求められるスペクトル情報や各音素の時間長情報であるセグメンテーション情報等を含んでも良い。
特徴量空間分割部1は、学習用データベース4が格納する学習データに関する空間(以下、「特徴量空間」と呼ぶ。)を、部分空間に分割する。ここで特徴量空間とは、N個の所定の特徴量を軸とするN次元の空間である。次元の数Nは任意であり、例えば、スペクトル情報及びセグメンテーション情報の2つの特徴量を軸とした場合、特徴量空間は2次元の空間である。
特徴量空間分割部1は、情報量を基準とした二分木構造クラスタリング等によって特徴量空間を部分空間に分割しても良い。特徴量空間分割部1は、部分空間に分割された学習データを疎密状態検出部2に出力する。
疎密状態検出部2は、特徴量空間分割部1で生成された各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生する。疎密状態検出部2は発生した疎密情報を発音情報修正部3に出力する。
ここで、疎密情報とは、学習データの情報量の疎密状態を示す情報である。疎密情報は、部分空間に属する学習データ群の特徴量ベクトルの平均値と分散値でも良い。
発音情報修正部3は、疎密状態検出部2から出力された疎密情報に基づいて、音声合成に用いる発音情報を修正する。
ここで、発音情報とは、音声を合成するために必要な情報であり、発声内容を表現する音素、音節列、アクセント位置等の情報を含んでも良い。
発音情報修正部3は、学習データが少ない(疎な)部分空間に属する特徴量で表現されるような発音情報を、学習データが多い(密な)部分空間に属する特徴量で表現される発音情報に修正する。
図2は、本発明の第1実施形態に係る音声合成システム1000の動作の一例を示すフローチャートである。
図2に示すように、まず、特徴量空間分割部1は、学習用データベース4が格納する学習データに関する空間である特徴量空間を分割する(ステップS1)。
次に、疎密状態検出部2は、特徴量空間分割部1で分割された特徴量空間の一部である各部分空間における学習データの情報量の疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生する(ステップS2)。疎密状態検出部2は、発生した疎密情報を発音情報修正部3に出力する。
次に、発音情報修正部3は、疎密状態検出部2から出力された疎密情報に基づいて、音声合成に用いる発音情報を修正する(ステップS3)。
以上のように、本実施形態に係る音声合成システム1000によれば、学習データ不足を要因とした音声合成の不安定性を回避することができ、自然性の高い合成音声を生成することが可能となる。その理由は、音声合成システム1000は、疎な部分空間に属するような発音情報を修正するためである。
<第2実施形態>
続いて、本発明の第2実施形態について説明する。
図3は、本発明の第2実施形態に係る音声合成システム2000の構成例を示すブロック図である。図3を参照すると、本実施形態に係る音声合成システム2000は、学習用データベース4と、音声合成学習装置20と、韻律生成モデル格納部6と、発音情報生成用辞書7と、音声合成装置40とを含む。
音声合成学習装置20は、特徴量空間分割部1と、疎密状態検出部2と、韻律学習部5とを含む。特徴量空間分割部1及び疎密状態検出部2は、第1実施形態と同様の構成である。
なお、本実施形態では、統計的手法としてHMMを、特徴量空間の分割方法として二分木構造クラスタリングを用いるものとする。統計的手法としてHMMを用いる場合は、クラスタリングと学習を交互に行う場合が一般的である。そのため、本実施形態では特徴量空間分割部1と韻律学習部5を併せてHMM学習部30とし、明示的に分割された構成を取らないものとする。しかしながら本実施形態はあくまで発明の実施態様の一例であり、HMM以外の統計的手法を用いる場合等の発明の構成は、この限りではない。
図3を参照すると、音声合成装置40は、発音情報修正部3と、発音情報生成部8と、韻律生成部9と、波形生成部10とを含む。発音情報修正部3は、第1実施形態と同様の構成である
本実施形態において、学習用データベース4には予め十分な学習データが格納されているものとする。すなわち、学習用データベース4は多量の音声波形データから抽出した特徴量を格納している。学習用データベース4は、F0パタン、セグメンテーション情報及びスペクトル情報を音声波形データの特徴量として格納しているものとする。そしてこれらの特徴量の集合が学習データとして用いられる。また、学習データは1人の話者の音声を収集したものとする。
本実施形態における音声合成手法は、大きく分けて、音声合成学習装置20がHMM学習により韻律生成モデルを作成する準備段階と、音声合成装置40が実際に音声合成処理を行う音声合成段階の2段階に分けられる。それぞれについて、順を追って説明する。
まず、HMM学習部30(特徴量空間分割部1及び韻律学習部5)において、学習用データベース4を用いた統計的手法による学習が行われる。
HMM学習部30において特徴量空間分割部1は、第1実施形態と同様に学習用データベース4が格納する学習データに関する特徴量空間を、部分空間に分割する。具体的には、特徴量空間分割部1は、学習用データベース4が格納する特徴量空間を、二分木構造クラスタリングにより部分空間に分割する。以下では、特徴量空間分割部1によって生成された部分空間のことをクラスタとも呼ぶ。
図4は、特徴量空間分割部1において学習された結果として、二分木構造クラスタリングで作成された決定木構造の模式図である。図4に示すように、二分木構造クラスタリングとは、学習データを、各ノードP1〜P6に配置された質問により2つのノードに分割する処理を繰り返し、最終的に分割された各クラスタの情報量が均等になるようにクラスタリングする手法である。
例えば図4では、特徴量空間分割部1は、現在のノードに配置された質問に基づいて「YES」と「NO」のいずれに該当するかを判断して、学習データを分割する。図4の例では、特徴量空間分割部1は、最初にノードP1に配置された質問である「当該音素が有声音」か否かに基づいて学習データを分割する。次に、例えば「YES」と判断されて分割された学習データを、特徴量空間分割部1は、ノードP2に配置された質問である「先行音素が無声音」か否かに基づいて分割する。特徴量空間分割部1は、このような分割を繰り返して所定の学習データ数に分割された段階で、その分割された学習データを一つのクラスタとする。
図5は、特徴量空間分割部1による学習データのクラスタリング結果を表す、特徴量空間の概念的な模式図である。図5における縦軸及び横軸は所定の特徴量を示す。
図5では、各クラスタに属する学習データ数が4つであるような場合を示している。図5には、特徴量空間分割部1によって学習データ数が4つになるまで分割された結果、各クラスタに該当する学習データのモーラ数とアクセント核の型が、どのようになっているかが示されている。ここで、アクセント核の型とは、一つのアクセント句の中で音程が大きく下がる直前の位置を示す類型である。
なお、図5はあくまで概念を示した模式図であり、軸は2つに限定されない。特徴量空間は、例えば10個の特徴量を軸とした10次元の空間でも良い。
図5に示すように、特徴量空間分割部1は、10モーラ以上8型以上クラスタのような学習データ数が疎である空間に、大きなクラスタを生成する。このようなクラスタは非常に学習データ数が少ない疎なクラスタとなる。
特徴量空間分割部1は、部分空間に分割した学習データを、疎密状態検出部2及び韻律学習部5に出力する。
HMM学習部30は、特徴量空間の分割とともに韻律生成モデルを作成する。
HMM学習部30において韻律学習部5は、特徴量空間分割部1で分割された特徴量の空間内で、韻律モデルの学習を行い、韻律生成モデルを作成する。すなわち、韻律学習部5は、特徴量空間分割部1における学習データのクラスタリング結果(例えば図4に示す二分木構造クラスタリングの結果)を用いて韻律生成モデルを作成する。
具体的には韻律学習部5は、クラスタ毎に学習用データベース4が格納している音声波形データに対応する発音情報に対し、どのような韻律を生成すれば良いかを統計的に学習する。韻律学習部5は、その学習の結果をモデル(韻律生成モデル)にし、各クラスタに対応させて韻律生成モデル格納部6に格納する。
なお、学習用データベース4は時間長情報及びピッチ情報を格納しない構成とし、韻律学習部5が、入力された音声波形データから発音情報に対応する時間長情報やピッチ情報を学習する構成としても良い。
次に、疎密状態検出部2は、特徴量空間分割部1から入力された学習データにおける各クラスタの疎密状態を検出し、該疎密状態を示す疎密情報を抽出する。疎密情報は、例えば、アクセント句のモーラ数とアクセント核の相対位置に関する分散値でも良い。このとき、例えば図5に示す3モーラ1型クラスタにおいては、全てのデータが3モーラ1型である。そのため、分散値は0となる。
疎密状態検出部2は、抽出した各クラスタの疎密情報を、韻律生成モデルに対応付けた形で韻律生成モデル格納部6に格納する。または、疎密状態検出部2は、各クラスタの疎密情報と韻律生成モデルを対応付けた対応表等と一緒に、各クラスタの疎密情報を図示しないデータベースに格納しても良い。
韻律生成モデル格納部6は、韻律学習部5によって作成された韻律生成モデルを格納する。また、韻律生成モデル格納部6は、疎密状態検出部2によって抽出された疎密情報を、韻律生成モデルに組み込んで格納しても良い。なお本実施形態においては、疎密情報は韻律生成モデルに組み込まれているものとする。
以上が、音声合成学習部20により韻律生成モデルを生成する準備段階である。続いて、音声合成段階の処理について説明する。
発音情報生成部8は、音声合成の対象となるテキストが入力されると、発音情報生成用辞書7を用いて発音情報を生成する。
具体的には、発音情報生成部8は、入力されたテキストに対し形態素解析等により言語解析を行う。発音情報生成部8は、言語解析結果に対しアクセント位置やアクセント句境界といった音声合成のための付加的情報を付与したり、変更したりする処理を行ことで、発音情報を生成する。
発音情報生成用辞書7は、テキストの言語解析処理に必要なデータや規則に関する情報である言語解析情報を格納する。言語解析情報は、例えば形態素解析のためのデータや規則に関する情報である。
発音情報生成用辞書7は、言語解析情報の他に、アクセント位置やアクセント句境界位置などの情報である、音声合成のための付加的情報の付加の方法を示す情報を含む。また、発音情報生成用辞書7は、発音情報を生成するためのスコアを格納していても良い。
例えば、発音情報生成部8に、「アルバートアインシュタイン医科大学」という単語が含まれるテキストが入力された場合を考える。この場合、発音情報生成部8は、発音情報として、日本語読みで「a ru ba− to a i N syu ta i N i ka da @ i ga ku」という文字列を出力しても良い。なお、”@”は、アクセント位置を示している。
発音情報生成部8は、発音情報生成用辞書7が格納するスコアを用いて発音情報毎のスコア計算を行って、スコアの高い順に第N位までの複数の発音情報の候補を生成しても良い。具体的には、発音情報生成部8は「アルバートアインシュタイン医科大学」の発音情報を生成する際に、「a ru ba− to a i N syu ta i N i ka da @ i ga ku」という文字列を発音情報の第1位の候補として生成する。発音情報生成部8は、「a ru ba− to a i N syu ta @ i N|i ka da @ i ga ku」を第2位、「a ru ba− @ to|a i N syu ta @ i N|i ka da @ i ga ku」を第3位として、第3位までの発音情報の候補を生成しても良い。なお、”|”はアクセント句境界を意味する。
発音情報生成部8は、生成した発音情報を発音情報修正部3に出力する。
次に、発音情報修正部3は、韻律生成モデル格納部6が格納する各クラスタの疎密情報に基づいて発音情報を修正する。発音情報修正部3は、「発音情報に、疎なクラスタに属するアクセント句が含まれる場合、密なクラスタに属するアクセント句のみを含む発音情報を選択する」という方針で発音情報の修正を行うものとする。
具体的には、分散値の閾値が設定され、分散値が閾値以上であるようなクラスタに属するアクセント句が修正の対象となる。例えば、6〜8モーラ3型クラスタの分散値をσA、10モーラ以上8型以上クラスタの分散値をσBと仮定した場合、発音情報修正部3は、σA<σT<σBを満たす分散値の閾値σTを設定する。
この場合、3モーラ1型クラスタは分散値が0なので、発音情報修正部3は、「僕は」「枕」といったような3モーラ1型のアクセント句については、修正を行わない。同様に、「核開発(6モーラ)」といったような6〜8モーラ3型クラスタに属するアクセント句についても、σT>σAであるため、発音情報修正部3は修正を行わない。
一方、「アルバートアインシュタイン医科大学(18モーラ15型)」といったような10モーラ以上8型以上クラスタに属するアクセント句については、発音情報修正部3は、分散値が閾値以上のクラスタに属するアクセント句が含まれないように発音情報を修正する。発音情報修正部3は、発音情報生成部8が生成した他の発音情報を選択することで発音情報を修正しても良いし、発音情報生成用辞書7を参照して発音情報を分割してアクセント句を置換することで発音情報を修正しても良い。
以下、他の発音情報を選択することにより発音情報を修正する方法を具体的に説明する。発音情報生成部8は、「アルバートアインシュタイン医科大学」という単語の発音情報を生成する際に、スコアの高い順に第N位まで発音情報の候補を、発音情報修正部3に出力する。
ここでは、発音情報修正部3は、第3位までの発音情報の候補が入力されるものとする。候補としては上記で説明したように、第1位は「a ru ba− to a i N syu ta i N i ka da @ i ga ku」、第2位は「a ru ba− to a i N syu ta @ i N|i ka da @ i ga ku」、第3位は「a ru ba− @ to|a i N syu ta @ i N|i ka da @ i ga ku」という発音情報であったとする。
この場合、第1位は18モーラ15型であり、σT<σBである。そのため、発音情報修正部3は、第1位を候補から除外する。
また、第2位は12モーラ10型と6モーラ3型であり、後部のアクセント句はσT>σAであるものの、前部のアクセント句がσT<σBである。そのため、発音情報修正部3は、2位を候補から除外する。
次に、第3位は、5モーラ4型、7モーラ5型、6モーラ3型で構成されており、全ての分散値が閾値以下である。そのため、発音情報修正部3は、この候補を選択する。
結果として、発音情報修正部3は、「a ru ba− @ to|a i N syu ta @ i N|i ka da @ i ga ku」という文字列を、修正された発音情報として韻律生成部9に出力する。
なお、本実施形態の上記の説明では、発音情報生成部8が発音情報の複数の候補を生成し、発音情報修正部3が、第1位の発音情報の候補が疎なクラスタに属するアクセント句を含む場合、疎なクラスタに属するアクセント句を含まない他の発音情報の候補を選択することで、発音情報の修正を行った。
他の構成として、発音情報生成部8は第1位の発音情報のみを生成するようにしても良い。その場合、発音情報に修正が必要な場合に、発音情報修正部3は発音情報生成用辞書7を参照して、発音情報が密なクラスタに属するアクセント句のみを含むようにアクセント句を置換するようにして修正を行っても良い。
その場合、発音情報生成部8は、発音情報である「a ru ba− to a i N syu ta i N i ka da @ i ga ku」が疎なクラスタに属する場合、発音情報生成用辞書7を参照する。発音情報生成部8は、発音情報生成用辞書7を用いて上記発音情報を「a ru ba− to a i N syu ta @ i N|i ka da @ i ga ku」に分割して置換する。まだ修正が必要であると判断すると、発音情報修正部8は、上記発音情報を「a ru ba− @ to|a i N syu ta @ i N|i ka da @ i ga ku」に修正して置換する。
韻律生成部9は、発音情報修正部3により修正された発音情報に対して、韻律生成モデル格納部6が格納する韻律生成モデルを用いて韻律情報を生成する。韻律生成部9は、発音情報と、生成した韻律情報を波形生成部10に出力する。
波形生成部10は、発音情報と、韻律生成部9が生成した韻律情報とを元に、音声波形を生成する。波形の生成は関連する技術に基づいて行えば良く、波形はいかなる方法で生成されても良い。波形生成部10は、生成した音声波形を合成音声として出力する。
次に図6及び図7を参照して、音声合成システム2000の動作の流れを、韻律生成モデルを作成する準備段階と、実際に音声合成処理を行う音声合成段階の2段階に分けて順に説明する。
図6は、音声合成システム2000における、韻律生成モデルを作成する準備段階の動作の一例を示すフローチャートである。
図6に示すように、まず、特徴量空間分割部1は、学習用データベース4が格納する学習データに関する特徴量空間を、部分空間に分割する(ステップS1A)。
次に、疎密状態検出部2は、特徴量空間分割部1が生成した部分空間である各クラスタの疎密状態を検出し、該疎密状態を示す疎密情報を発生する(ステップS2A)。疎密状態検出部2は、発生した疎密情報を出力する。
次に、韻律学習部5は、特徴量空間分割部1で分割された学習用データの空間内で、韻律モデルの学習を行い、韻律生成モデルを作成する(ステップS3A)。なお、ステップS2AとステップS3Aは逆の順序で行われても良いし、並行して行われても良い。
次に、韻律生成モデル格納部6は、韻律学習部5によって作成された韻律生成モデルと、疎密状態検出部2から出力された疎密情報を格納する(ステップS4A)。
図7は、音声合成システム2000における、実際に音声合成処理を行う音声合成段階の動作の一例を示すフローチャートである。
図7に示すように、まず、発音情報生成部8は、音声合成の対象となるテキストが入力されると、発音情報生成用辞書7を用いて発音情報を生成する(ステップS5A)。
次に、発音情報修正部3は、韻律生成モデル格納部6が格納する各クラスタの疎密情報に基づいて発音情報を修正する(ステップS6A)。
次に、韻律生成部9は、発音情報修正部3により修正された発音情報に対して、韻律生成モデル格納部6が格納する韻律生成モデルを用いて韻律情報を生成する(ステップS7A)。
次に、波形生成部10は、発音情報と、韻律生成部9が生成した韻律情報とに基づいて、音声波形を生成する(ステップS8A)。
以上のように、本実施形態に係る音声合成システム2000によれば、学習データ不足を要因としたF0パタンの乱れを回避することができ、自然性の高い音声合成をすることが可能となる。その理由は、同一のクラスタリング結果に基づいて韻律学習と疎密情報の抽出が行われ、発音情報修正部3が該疎密情報に基づいて発音情報を修正することで、学習データが少ない発音情報が、学習データが十分な発音情報に修正されるからである。
また、本実施形態では、学習用データベースとして、1人の話者の音声を収集したものを想定したが、複数の話者の音声を収集したものを学習用データベースとしても良い。単独話者の学習用データベースの場合は、話者の癖といった話者性を再現した合成音声を生成できるという効果がある。複数話者の学習用データベースの場合は、汎用的な合成音声が生成できるという効果がある。
また、音声合成装置40は、入力テキスト全体で第N位まで発音情報の候補を生成する構成としても良いし、各アクセント句境界で第N位まで発音情報の候補を生成する構成としても良い。各アクセント句境界で生成する場合、音声合成装置40は第1位の発音情報のみを生成し、その発音情報の各アクセント句境界の候補を第N位まで生成したうえで、スコア計算などを用いたルート検索手法等により、最終的な発音情報を生成しても良い。
<第3実施形態>
続いて、本発明の第3実施形態について説明する。
図8は、本発明の第3実施形態に係る音声合成システム3000の構成例を示すブロック図である。
図8を参照すると、第3実施形態に係る音声合成システム3000は、第2実施形態に係る音声合成学習装置20及び音声合成装置40に代わって、音声合成学習装置21及び音声合成装置41を含み、さらに波形生成モデル格納部12を含む。
音声合成学習装置21は、HMM学習部30に代わって、学習用データベース4を用いて韻律生成モデルと波形生成モデルを生成するHMM学習部31を含む。HMM学習部31は、HMM学習部30と同様の構成に加えて、波形学習部11をさらに含む。
音声合成装置41は、発音情報修正部3に代わって、付加的情報の修正を行う発音情報修正部13を含む。また、波形生成部10に代わって、波形生成モデル格納部12を用いて波形を生成する波形生成部14を含む。
波形学習部11は、特徴量空間分割部1で分割された特徴量の空間内で、波形モデルの学習を行い、波形生成モデルを作成する。
波形生成モデルとは、学習用データベース内の波形のスペクトル特徴量をモデル化したものである。具体的には、特徴量はケプストラム等でも良い。なお、本実施形態においては波形生成のためのデータとして、HMMにより生成したモデルを用いる。しかし、本発明に適用する音声合成方式はこれに限定されず、別の音声合成方式、例えば波形接続方式を用いても構わない。なお、その場合、HMM学習部31で学習されるのは韻律生成モデルのみである。
波形生成モデル格納部12は、波形学習部11によって作成された波形生成モデルを格納する。
発音情報修正部13は、発音情報における、アクセント位置やアクセント句境界以外の付加的情報を修正する。以下では、具体例として、発音情報修正部13が「ポーズの挿入/削除」、および「言い回しの変更」に関する付加的情報を修正する動作を説明する。
「ポーズの挿入/削除」に関する付加的情報の修正とは、音声が人間らしいものになるように、「自然な位置にポーズを挿入する」、「不自然な位置のポーズを削除する」といった修正である。具体的な修正内容は、例えば「1つの呼気段落がNモーラ以下」、「接続詞の後はポーズを入れる」等である。
また、「言い回しの変更」に関する付加的情報の修正とは、言語として標準的なテキストから生成された言語解析結果を話者特有の言い回しに変更するようなである。例えば「放送」という単語は、通常「ほーそー」という読みが付けられる。しかし話者によってはこれを「ほうそう」とはっきり読む場合がある。これを表す修正内容は、「長音を母音として読む」という内容になる。
発音情報の修正は、第2実施形態と同様の方針で行われる。具体的には、発音情報生成部8が複数の発音情報の候補を生成する。発音情報修正部13は、分散値が閾値以上であるようなクラスタに属する発音情報の候補を除外して、分散値が閾値以下であるようなクラスタのみで表現される候補を採用する。もちろん、前述したように、音声合成装置41は、各アクセント句境界の候補を第N位まで出したうえでスコア計算などを行って、最良なスコアを取るルートを検索する方法により、最終的な発音情報を生成しても良い。
具体例として、「そして、放送が開始された」というテキストが入力された場合について説明する。ここでは、発音情報生成部8は、「so shi te|PAU|ho− so− ga|ka i shi sa re ta」を第1位、「so shi te|ho− so− ga|ka i shi sa re ta」を第2位、「so shi te|hou sou ga|ka i shi sa re ta」を第3位として発音情報の候補を生成したとする。なお、“PAU”は、ポーズを意味する。
また、学習用データベース4には、「途中でポーズを入れずに話す」、「『放送』という単語を『ほーそー』ではなく『ほうそう』と発音する」という特徴を持った話者の音声波形データが格納されているとする。この場合、学習データである特徴量空間を分割すると、「『そして』の後のポーズ」というクラスタ、及び「長音化した母音の連続」というクラスタが非常に疎か、又はクラスタとして存在しないことが想定される。
この場合、第1候補と第2候補については分散が閾値を上回ることになる。そのため発音情報修正部13は、第3候補を採用することで発音情報を修正する。
次に図9及び図10を参照して、音声合成システム3000の動作の流れを、韻律生成モデル及び波形生成モデルを作成する準備段階と、実際に音声合成処理を行う音声合成段階の2段階に分けて順に説明する。
図9は、音声合成システム3000における、韻律生成モデル及び波形生成モデルを作成する準備段階の動作の一例を示すフローチャートである。
図9に示すように、まず、特徴量空間分割部1は、学習用データベース4が格納する特徴量空間を、部分空間に分割する(ステップS1B)。
次に、疎密状態検出部2は、特徴量空間分割部1が生成した部分空間である各クラスタの疎密状態を検出し、該疎密状態を示す疎密情報を発生する(ステップS2B)。
次に、韻律学習部5は、特徴量空間分割部1で分割された特徴量空間内で、韻律モデルの学習を行い、韻律生成モデルを作成する(ステップS3B)。
次に、波形学習部11は、特徴量空間分割部1で分割された特徴量空間内で、波形モデルの学習を行い、波形生成モデルを作成する(ステップS4B)。
なお、ステップS2BとステップS3BとステップS4Bはどのような順序で行われても良いし、並行して行われても良い。
次に、韻律生成モデル格納部6は、韻律学習部5によって作成された韻律生成モデルと、疎密状態検出部2から出力された疎密情報を格納する(ステップS5B)。
次に、波形生成モデル格納部12は、波形学習部11によって作成された波形生成モデルと、疎密状態検出部2によって抽出された疎密情報を格納する(ステップS6B)。
なお、ステップS5BとステップS6Bは逆の順序で行われても良いし、並行して行われても良い。
図10は、音声合成システム3000における、実際に音声合成処理を行う音声合成段階の動作の一例を示すフローチャートである。
図10に示すように、まず、発音情報生成部8は、音声合成の対象となるテキストが入力されると、発音情報生成用辞書7を用いて発音情報を生成する(ステップS7B)。
次に、発音情報修正部13は、韻律生成モデル格納部6が格納する各クラスタの疎密情報に基づいて発音情報を修正する(ステップS8B)。
次に、韻律生成部9は、発音情報修正部3により修正された発音情報に対して、韻律生成モデル格納部6が格納する韻律生成モデルを用いて韻律情報を生成する(ステップS9B)。
次に、波形生成部10は、発音情報と、韻律生成部9が生成した韻律情報とに基づいて、波形生成モデル格納部12が格納する波形生成モデルを用いて音声波形を生成する(ステップS10B)。
以上のように、本実施形態によれば、発音情報修正部13が付加的情報を修正するため、話者ごとの癖といった特徴を忠実に再現できる。また、本実施形態によれば、波形学習と、発音情報の修正に用いる疎密情報の抽出に、同一のクラスタリング結果を用いることにより、疎であるクラスタに属する波形生成モデルで波形を生成した場合、その部分の音質が劣化すると言った問題が回避できる。
なお、波形生成にHMMを用いない波形接続方式等においても、学習データが疎であるクラスタに属するデータは、対応する単位波形のデータ量も不足している。そのため、本実施形態によれば、波形接続方式等を用いた場合も、疎なクラスタに属するデータを使用しないという点で音質劣化を回避することができるという効果が得られる。
以上、各実施形態を参照して本発明を説明したが、本発明は以上の実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で同業者が理解し得る様々な変更をすることができる。例えば、各実施形態に係る音声合成システムは、抽出した疎密情報を図示しないデータベースに格納しておき、対応表等を参照した適宜利用するようにしても良い。
図11は、第2実施形態に係る音声合成システム2000を実現するハードウェア構成の一例を示すブロック図である。なお、ここでは第2実施形態を例にとって説明するが、他の実施形態に係る音声合成システムも同様のハードウェア構成によって実現されても良い。
図11に示すように、音声合成システム2000を構成する各部は、CPU(Central Processing Unit)100と、ネットワーク接続用の通信IF200(インターフェース200)と、メモリ300と、プログラムを格納するハードディスク等の記憶装置400と、入力装置500と、出力装置600とを含む、コンピュータ装置によって実現される。ただし、音声合成システム2000の構成は、図11に示すコンピュータ装置に限定されない。
CPU100は、オペレーティングシステムを動作させて音声合成システム2000の全体を制御する。また、CPU100は、例えばドライブ装置などに装着された記録媒体からメモリ300にプログラムやデータを読み出し、これにしたがって各種の処理を実行する。
記録装置400は、例えば光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク、半導体メモリ等であって、コンピュータプログラムをコンピュータ読み取り可能に記録する。記憶装置400は、例えば、学習用データベース4や韻律生成モデル格納部6等でも良い。また、コンピュータプログラムは、通信網に接続されている図示しない外部コンピュータからダウンロードされても良い。
入力装置500は、例えば音声学習装置40において、ユーザから入力テキストを受け付ける。出力装置600は、最終的に生成した合成音声を出力する。
なお、これまでに説明した各実施形態において利用するブロック図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。また、音声合成システム2000の構成部の実現手段は特に限定されない。すなわち、音声合成システム2000は、物理的に結合した一つの装置により実現されても良いし、物理的に分離した二つ以上の装置を有線又は無線で接続し、これら複数の装置により実現されても良い。その場合物理的に分離した二つの装置をそれぞれ音声合成学習装置20及び音声合成装置40としても良い。
本発明のプログラムは、上記の各実施形態で説明した各動作を、コンピュータに実行させるプログラムであれば良い。
上記の各実施の形態においては、以下に示すような音声合成装置、音声合成方法、および音声合成プログラムの特徴的構成が示されている。
(付記1)
音声波形データから抽出された特徴量の集合である学習データを格納する学習用データベースと、
前記学習用データベースが格納する学習データに関する空間である特徴量空間を、部分空間に分割する特徴量空間分割手段と、
前記特徴量空間分割手段で分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力する疎密状態検出手段と、
前記疎密状態検出手段から出力された疎密情報に基づいて、音声合成に用いる発音情報を修正する発音情報修正手段と、
を含む音声合成システム。
(付記2)
前記特徴量空間分割手段で分割された特徴量空間である部分空間内で、韻律モデルの学習を行い、韻律生成モデルを作成する韻律学習手段と、
前記韻律学習手段によって作成された韻律生成モデルと、前記疎密状態検出手段から出力された疎密情報を格納する韻律生成モデル格納手段と、
前記発音情報修正手段により修正された発音情報に対して、前記韻律生成モデル格納手段が格納する韻律生成モデルを用いて韻律情報を生成する韻律生成手段と、
をさらに含む付記1に記載の音声合成システム。
(付記3)
発音情報を生成するためのスコアを格納している発音情報生成用辞書と、
入力されたテキストに対して、前記発音情報生成用辞書が格納しているスコアを用いて複数の発音情報の候補を生成し、スコアの高い順に第N位までの発音情報の候補を出力する発音情報生成手段と、
をさらに含み、
前記発音情報修正手段は、前記疎密情報に基づき、前記発音情報生成手段が生成した発音情報の候補から、密な部分空間に属するアクセント句のみからなる発音情報の候補を選択する、
付記1又は2に記載の音声合成システム。
(付記4)
発音情報を生成するためのスコアを格納している発音情報生成用辞書と、
前記発音情報生成用辞書が格納しているスコアを用いて発音情報を生成して出力する発音情報生成手段と、
をさらに含み、
前記発音情報修正手段は、前記疎密情報に基づいて、前記発音情報生成手段が生成した発音情報に疎なクラスタに属するアクセント句が含まれる場合、前記発音情報生成用辞書を参照して密なクラスタに属するアクセント句で置換することで発音情報を修正する、
付記1又は2に記載の音声合成システム。
(付記5)
発音情報を生成するためのスコアを格納している発音情報生成用辞書と、
前記発音情報生成用辞書が格納しているスコアを用いて発音情報を一つ生成し、該発音情報の各アクセント句境界の候補を第N位まで生成して出力する発音情報生成手段と、
をさらに含み、
前記発音情報修正手段は、前記疎密情報に基づいて、前記発音情報生成手段が生成した発音情報に疎なクラスタに属するアクセント句が含まれる場合、アクセント句を単位としたスコア計算などを用いたルート検索手法により、発音情報を修正する、
付記1又は2に記載の音声合成システム。
(付記6)
前記発音情報修正手段は、前記発音情報について、ポーズ挿入位置又は入力テキストの言い回し等を修正する、
付記1〜5のいずれかに記載の音声合成システム。
(付記7)
前記特徴量空間分割手段は、情報量を基準とした二分木構造クラスタリングによって特徴量空間を部分空間に分割する、
付記1〜6のいずれかに記載の音声合成システム。
(付記8)
前記韻律学習手段は、前記韻律モデルの学習をHMM学習により行う、
付記2〜7のいずれかに記載の音声合成システム。
(付記9)
前記特徴量空間分割手段で分割された特徴量空間である部分空間内で、波形モデルの学習を行い、波形生成モデルを作成する波形学習手段と、
前記波形学習手段によって作成された波形生成モデルを格納する波形生成モデル格納手段と、
前記韻律生成手段が生成した韻律情報から、前記波形生成モデル格納手段が格納する波形生成モデルを用いて音声波形を生成し、生成した音声波形を合成音声として出力する波形生成手段と、
をさらに含む付記1〜8のいずれかに記載の音声合成システム。
(付記10)
音声波形データから抽出された特徴量の集合である学習データを格納し、
前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、
前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、
前記出力された疎密情報に基づいて、音声合成に用いる発音情報を修正する、
音声合成方法。
(付記11)
音声波形データから抽出された特徴量の集合である学習データを格納し、
前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、
前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、
前記出力された疎密情報に基づいて、音声合成に用いる発音情報を修正する、
処理をコンピュータに実行させるプログラムを格納する記録媒体。
以上、実施形態を参照して本願発明を説明したが、本願発明は以上の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で同業者が理解し得る様々な変更をすることができる。
この出願は、2011年2月22日に出願された日本出願特願2011−035542を基礎とする優先権を主張し、その開示の全てをここに取り込む。
2 疎密状態検出部
3、13 発音情報修正部
4 学習用データベース
5 韻律学習部
6 韻律生成モデル格納部
7 発音情報生成用辞書
8 発音情報生成部
9 韻律生成部
10、14 波形生成部
11 波形学習部
12 波形生成モデル格納部
20、21 音声合成学習装置
30、31 HMM学習部
40、41 音声合成装置
100 CPU
200 通信IF
300 メモリ
400 記憶装置
500 入力装置
600 出力装置
1000、2000、3000 音声合成システム
Claims (10)
- 音声波形データから抽出された特徴量の集合である学習データを格納する学習用データベースと、
前記学習用データベースが格納する学習データに関する空間である特徴量空間を、部分空間に分割する特徴量空間分割手段と、
前記特徴量空間分割手段で分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力する疎密状態検出手段と、
前記疎密状態検出手段から出力された疎密情報に基づいて、音声合成に用いる発音情報を修正する発音情報修正手段と、
を含む音声合成システム。 - 前記特徴量空間分割手段で分割された特徴量空間である部分空間内で、韻律モデルの学習を行い、韻律生成モデルを作成する韻律学習手段と、
前記韻律学習手段によって作成された韻律生成モデルと、前記疎密状態検出手段から出力された疎密情報を格納する韻律生成モデル格納手段と、
前記発音情報修正手段により修正された発音情報に対して、前記韻律生成モデル格納手段が格納する韻律生成モデルを用いて韻律情報を生成する韻律生成手段と、
をさらに含む請求項1に記載の音声合成システム。 - 発音情報を生成するためのスコアを格納している発音情報生成用辞書と、
入力されたテキストに対して、前記発音情報生成用辞書が格納しているスコアを用いて複数の発音情報の候補を生成し、スコアの高い順に第N位までの発音情報の候補を出力する発音情報生成手段と、
をさらに含み、
前記発音情報修正手段は、前記疎密情報に基づき、前記発音情報生成手段が生成した発音情報の候補から、密な部分空間に属するアクセント句のみからなる発音情報の候補を選択する、
請求項1又は2に記載の音声合成システム。 - 発音情報を生成するためのスコアを格納している発音情報生成用辞書と、
前記発音情報生成用辞書が格納しているスコアを用いて発音情報を生成して出力する発音情報生成手段と、
をさらに含み、
前記発音情報修正手段は、前記疎密情報に基づいて、前記発音情報生成手段が生成した発音情報に疎なクラスタに属するアクセント句が含まれる場合、前記発音情報生成用辞書を参照して密なクラスタに属するアクセント句で置換することで発音情報を修正する、
請求項1又は2に記載の音声合成システム。 - 発音情報を生成するためのスコアを格納している発音情報生成用辞書と、
前記発音情報生成用辞書が格納しているスコアを用いて発音情報を一つ生成し、該発音情報の各アクセント句境界の候補を第N位まで生成して出力する発音情報生成手段と、
をさらに含み、
前記発音情報修正手段は、前記疎密情報に基づいて、前記発音情報生成手段が生成した発音情報に疎なクラスタに属するアクセント句が含まれる場合、アクセント句を単位としたルート検索手法により、発音情報を修正する、
請求項1又は2に記載の音声合成システム。 - 前記発音情報修正手段は、前記発音情報について、ポーズ挿入位置又は入力テキストの言い回しを修正する、
請求項1〜5のいずれかに記載の音声合成システム。 - 前記特徴量空間分割手段は、情報量を基準とした二分木構造クラスタリングによって特徴量空間を部分空間に分割する、
請求項1〜6のいずれかに記載の音声合成システム。 - 前記韻律学習手段は、前記韻律モデルの学習をHMM学習により行う、
請求項2に記載の音声合成システム。 - 音声波形データから抽出された特徴量の集合である学習データを格納し、
前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、
前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、
前記出力された疎密情報に基づいて、音声合成に用いる発音情報を修正する、
音声合成方法。 - 音声波形データから抽出された特徴量の集合である学習データを格納し、
前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、
前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、
前記出力された疎密情報に基づいて、音声合成に用いる発音情報を修正する、
処理をコンピュータに実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011035542 | 2011-02-22 | ||
JP2011035542 | 2011-02-22 | ||
PCT/JP2012/054484 WO2012115213A1 (ja) | 2011-02-22 | 2012-02-17 | 音声合成システム、音声合成方法、および音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2012115213A1 JPWO2012115213A1 (ja) | 2014-07-07 |
JP6036682B2 true JP6036682B2 (ja) | 2016-11-30 |
Family
ID=46720987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013501130A Active JP6036682B2 (ja) | 2011-02-22 | 2012-02-17 | 音声合成システム、音声合成方法、および音声合成プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20130325477A1 (ja) |
JP (1) | JP6036682B2 (ja) |
WO (1) | WO2012115213A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5722295B2 (ja) * | 2012-11-12 | 2015-05-20 | 日本電信電話株式会社 | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム |
CN106547511B (zh) | 2015-09-16 | 2019-12-10 | 广州市动景计算机科技有限公司 | 一种语音播读网页信息的方法、浏览器客户端及服务器 |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10896669B2 (en) | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
US11017761B2 (en) | 2017-10-19 | 2021-05-25 | Baidu Usa Llc | Parallel neural text-to-speech |
US10796686B2 (en) | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
US10872596B2 (en) | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
WO2022113215A1 (ja) * | 2020-11-25 | 2022-06-02 | 日本電信電話株式会社 | 生成方法、生成装置および生成プログラム |
CN112634866B (zh) * | 2020-12-24 | 2024-05-14 | 北京猎户星空科技有限公司 | 语音合成模型训练和语音合成方法、装置、设备及介质 |
KR20220131098A (ko) * | 2021-03-19 | 2022-09-27 | 삼성전자주식회사 | 개인화 tts 모듈을 포함하는 전자 장치 및 이의 제어 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271171A (ja) * | 2002-03-14 | 2003-09-25 | Matsushita Electric Ind Co Ltd | 音声合成方法、音声合成装置および音声合成プログラム |
JP2004117662A (ja) * | 2002-09-25 | 2004-04-15 | Matsushita Electric Ind Co Ltd | 音声合成システム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3667950B2 (ja) * | 1997-09-16 | 2005-07-06 | 株式会社東芝 | ピッチパターン生成方法 |
US6163769A (en) * | 1997-10-02 | 2000-12-19 | Microsoft Corporation | Text-to-speech using clustered context-dependent phoneme-based units |
US6016471A (en) * | 1998-04-29 | 2000-01-18 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word |
US6961704B1 (en) * | 2003-01-31 | 2005-11-01 | Speechworks International, Inc. | Linguistic prosodic model-based text to speech |
CN1755796A (zh) * | 2004-09-30 | 2006-04-05 | 国际商业机器公司 | 文本到语音转换中基于统计技术的距离定义方法和系统 |
US8024193B2 (en) * | 2006-10-10 | 2011-09-20 | Apple Inc. | Methods and apparatus related to pruning for concatenative text-to-speech synthesis |
US8401849B2 (en) * | 2008-12-18 | 2013-03-19 | Lessac Technologies, Inc. | Methods employing phase state analysis for use in speech synthesis and recognition |
-
2012
- 2012-02-17 WO PCT/JP2012/054484 patent/WO2012115213A1/ja active Application Filing
- 2012-02-17 JP JP2013501130A patent/JP6036682B2/ja active Active
- 2012-02-17 US US14/000,110 patent/US20130325477A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271171A (ja) * | 2002-03-14 | 2003-09-25 | Matsushita Electric Ind Co Ltd | 音声合成方法、音声合成装置および音声合成プログラム |
JP2004117662A (ja) * | 2002-09-25 | 2004-04-15 | Matsushita Electric Ind Co Ltd | 音声合成システム |
Also Published As
Publication number | Publication date |
---|---|
US20130325477A1 (en) | 2013-12-05 |
WO2012115213A1 (ja) | 2012-08-30 |
JPWO2012115213A1 (ja) | 2014-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6036682B2 (ja) | 音声合成システム、音声合成方法、および音声合成プログラム | |
JP5768093B2 (ja) | 音声処理システム | |
JP5929909B2 (ja) | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
CN1835075B (zh) | 一种结合自然样本挑选与声学参数建模的语音合成方法 | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
Savargiv et al. | Study on unit-selection and statistical parametric speech synthesis techniques | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP5328703B2 (ja) | 韻律パターン生成装置 | |
KR102051235B1 (ko) | 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법 | |
Yin | An overview of speech synthesis technology | |
JP6036681B2 (ja) | 音声合成システム、音声合成方法、および音声合成プログラム | |
JP6314828B2 (ja) | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
Inanoglu et al. | Intonation modelling and adaptation for emotional prosody generation | |
Sreelekshmi et al. | Clustering of duration patterns in speech for text-to-speech synthesis | |
Razavi et al. | Pronunciation lexicon development for under-resourced languages using automatically derived subword units: a case study on Scottish Gaelic | |
Tesfaye Biru et al. | Subset Selection, Adaptation, Gemination and Prosody Prediction for Amharic Text-to-Speech Synthesis | |
JPH1185193A (ja) | 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置 | |
Shah et al. | Influence of various asymmetrical contextual factors for TTS in a low resource language | |
JP2016151709A (ja) | 音声合成装置及び音声合成プログラム | |
Kim et al. | SC VALL-E: Style-Controllable Zero-Shot Text to Speech Synthesizer | |
Babu et al. | A probabilistic approach to selecting units for speech synthesis based on acoustic similarity | |
Yu et al. | Context adaptive training with factorized decision trees for HMM-based speech synthesis. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6036682 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |