JP6036681B2 - 音声合成システム、音声合成方法、および音声合成プログラム - Google Patents
音声合成システム、音声合成方法、および音声合成プログラム Download PDFInfo
- Publication number
- JP6036681B2 JP6036681B2 JP2013501129A JP2013501129A JP6036681B2 JP 6036681 B2 JP6036681 B2 JP 6036681B2 JP 2013501129 A JP2013501129 A JP 2013501129A JP 2013501129 A JP2013501129 A JP 2013501129A JP 6036681 B2 JP6036681 B2 JP 6036681B2
- Authority
- JP
- Japan
- Prior art keywords
- speech synthesis
- rule
- information
- learning
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 179
- 238000003786 synthesis reaction Methods 0.000 title claims description 175
- 238000001308 synthesis method Methods 0.000 title claims description 12
- 238000004458 analytical method Methods 0.000 claims description 65
- 238000012545 processing Methods 0.000 claims description 30
- 238000003860 storage Methods 0.000 claims description 23
- 238000012937 correction Methods 0.000 claims description 5
- 238000003780 insertion Methods 0.000 claims description 5
- 230000037431 insertion Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 14
- 238000002360 preparation method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000007619 statistical method Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
前述の韻律生成処理の方法として、非特許文献1に示されているように、F0パタンを単純なルールで表現できるようにモデル化して、そのルールを用いて韻律を生成する方法が知られている。このようにルールを用いた方法は、単純なモデルでF0パタンが生成できるため広く使われているが、韻律が不自然で合成音声が機械的になってしまうという問題があった。
これに対し、近年では統計的手法を用いた音声合成方式が注目されている。その代表的な手法が、非特許文献2に記されている。非特許文献2は、統計的手法として隠れマルコフモデル(hidden Markov model:HMM)を用いたHMM音声合成を開示する。HMM音声合成の技術は、大量の学習データを用いてモデル化した韻律モデルおよび音声合成単位(パラメータ)モデルを使って音声を生成する。HMM音声合成の技術は、実際の人間が発声した音声を学習データとしているため、前述のF0生成モデルに比べて、より人間らしい韻律が生成できる。
この問題を解決する方法の1つとして、さらに大量のデータでモデル学習するという方法が考えられる。しかし、大量の学習データを収集するのは困難であり、また、どのくらいのデータ量を収集すれば十分であるかが不明であるため、現実的ではない。
以上より、本発明の目的は、不要に大量な学習データを収集することなく、自然性の高い音声合成を可能にする規則を生成する技術を提供することである。
上記目的を達成するため、本発明の音声合成方法は、音声波形データから抽出された特徴量の集合である学習データを格納し、前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、前記出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する。
上記目的を達成するため、本発明の記録媒体が格納するプログラムは、音声波形データから抽出された特徴量の集合である学習データを格納し、前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、前記出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する、処理をコンピュータに実行させる。
非特許文献2に記載されるような統計的手法を用いた技術では、正しいF0パタンが生成されず不自然な音声になる場合がある。
具体的に説明すると、例えば、「人」(2モーラ)、「単語」(3モーラ)、「音声」(4モーラ)といった数モーラ程度の学習データは十分な数が存在する。ここで、モーラとは、一定の時間的長さをもった音の文節単位であり、日本語では一般に拍とも呼ばれる。そのため、統計的手法を用いた技術は、数モーラ程度の音については正しいF0パタンを生成することができる。しかし、例えば「アルバートアインシュタイン医科大学」(18モーラ)のような学習データは極端に数が少ない、あるいは存在しない恐れがある。そのため、このような単語を含むテキストが入力された場合、F0パタンが乱れてしまい、アクセント位置がずれる等の問題が発生する。
以下に説明される本発明の実施形態によれば、学習データが少ない部分空間に属する言語解析結果は生成されない、あるいは生成されにくくなる。そのため、本発明の実施形態によれば、学習データ不足を要因とした音声合成の不安定性を回避することができ、自然性の高い合成音声を生成することが可能となる。
以下、本発明の実施形態について図面を参照して説明する。なお、各実施形態について、同様な構成要素には同じ符号を付し、適宜説明を省略する。また、以下の各実施形態では日本語の場合を例に説明するが、本願発明の適用は日本語の場合に限定されない。
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成システム1000の構成例を示すブロック図である。図1を参照すると、本実施形態に係る音声合成システム1000は、特徴量空間分割部1と、疎密状態検出部2と、規則生成部3と、学習用データベース4とを含む。
学習用データベース4は、音声波形データから抽出された特徴量の集合を学習データとして格納する。学習用データベース4は、音声波形データに対応した文字列である発音情報を格納する。学習用データベース4は、時間長情報やピッチ情報等を格納していても良い。
ここで、学習データである特徴量は、少なくとも音声波形におけるF0の時間変化情報であるF0パタンを含む。さらに、学習データである特徴量は、音声波形を高速フーリエ変換(FFT)して求められるスペクトル情報や各音素の時間長情報であるセグメンテーション情報等を含んでも良い。
特徴量空間分割部1は、学習用データベース4が格納する学習データに関する空間(以下、「特徴量空間」と呼ぶ。)を、部分空間に分割する。ここで特徴量空間とは、N個の所定の特徴量を軸とするN次元の空間である。次元の数Nは任意であり、例えば、スペクトル情報及びセグメンテーション情報の2つの特徴量を軸とした場合、特徴量空間は2次元の空間である。
特徴量空間分割部1は、情報量を基準とした二分木構造クラスタリング等によって特徴量空間を部分空間に分割しても良い。特徴量空間分割部1は、部分空間に分割された学習データを疎密状態検出部2に出力する。
疎密状態検出部2は、特徴量空間分割部1で生成された各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生する。疎密状態検出部2は発生した疎密情報を規則生成部3に出力する。
ここで疎密情報とは、学習データの情報量の粗密状態を示す情報である。疎密情報は、部分空間に属する学習データ群の特徴量ベクトルの平均値と分散値でも良い。
規則生成部3は、疎密状態検出部2から出力された疎密情報に基づいて、音声合成用規則を生成する。
ここで、音声合成用規則とは、音声を合成するために必要な情報である発音情報を生成するための規則である。音声合成用規則は、少なくとも言語解析情報を含む。ここで言語解析情報とは、テキストの言語解析処理に必要なデータや規則に関する情報である。言語解析情報は、例えば形態素解析のためのデータや規則に関する情報である。
音声合成用規則は、言語解析情報の他に、アクセント位置やアクセント句境界位置などの情報である、音声合成のための付加的情報の付加の方法を示す情報を含む。
音声合成用規則は、学習データが少ない(疎な)部分空間に属するF0パタンで表現されるような言語について、言語解析結果として出力されないように、辞書内のスコアを極端に低くする、又は0とするような規則でも良い。
なお、発音情報とは、音声を合成するために必要な情報であり、発声内容を表現する音素、音節列、アクセント位置等の情報を含んでも良い。具体的には、発音情報は、テキストに対し形態素解析といった言語解析処理を行い、該言語解析処理の結果にアクセント位置やアクセント句境界位置といった音声合成のための付加的情報を付与したり、変更を加えたりする処理を行うことで生成される。
例えば、「アルバートアインシュタイン医科大学」という単語が含まれるテキストが入力された場合を考える。この場合、上記単語に関する発音情報は、例えば日本語読みで「a ru ba− to a i N syu ta i N i ka da @ i ga ku」という文字列等である。“@”は、アクセント位置を示している。発音情報をどのようにして生成するかを定めた規則が、上述の音声合成用規則である。
図2は、本発明の第1実施形態に係る音声合成システム1000の動作の一例を示すフローチャートである。
図2に示すように、まず、特徴量空間分割部1は、学習用データベース4が格納する学習データに関する空間である特徴量空間を分割する(ステップS1)。
次に、疎密状態検出部2は、特徴量空間分割部1で分割された特徴量空間の一部である各部分空間における学習データの情報量の疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生する(ステップS2)。疎密状態検出部2は、発生した疎密情報を規則生成部3に出力する。
次に、規則生成部3は、疎密状態検出部2から出力された疎密情報に基づいて、音声合成用規則を生成する(ステップS3)。
以上のように、本実施形態に係る音声合成システム1000によれば、学習データ不足を要因とした音声合成の不安定性を回避することができ、自然性の高い合成音声を生成することが可能となる。その理由は、音声合成システム1000は、学習データが少ない部分空間に属する発音情報は生成されない、あるいは生成されにくくなる規則を生成するためである。
<第2実施形態>
続いて、本発明の第2実施形態について説明する。
図3は、本発明の第2実施形態に係る音声合成システム2000の構成例を示すブロック図である。図3を参照すると、本実施形態に係る音声合成システム2000は、学習用データベース4と、音声合成学習装置20と、韻律生成モデル格納部6と、言語解析用辞書7と、修正言語解析用辞書8と、音声合成装置40とを含む。
音声合成学習装置20は、特徴量空間分割部1と、疎密状態検出部2と、規則生成部3と、韻律学習部5とを含む。特徴量空間分割部1及び疎密状態検出部2は、第1実施形態と同様の構成である。
なお、本実施形態では、統計的手法としてHMMを、特徴量空間の分割方法として二分木構造クラスタリングを用いるものとする。統計的手法としてHMMを用いる場合は、クラスタリングと学習を交互に行う場合が一般的である。そのため、本実施形態では特徴量空間分割部1と韻律学習部5を併せてHMM学習部30とし、明示的に分割された構成を取らないものとする。しかしながら本実施形態はあくまで発明の実施態様の一例であり、HMM以外の統計的手法を用いる場合等の発明の構成は、この限りではない。
図3を参照すると、音声合成装置40は、言語解析部9と、韻律生成部10と、波形生成部11とを含む。
本実施形態において、学習用データベース4には予め十分な学習データが格納されているものとする。すなわち、学習用データベース4は多量の音声波形データから抽出した特徴量を格納している。学習用データベース4は、F0パタン、セグメンテーション情報及びスペクトル情報を音声波形データの特徴量として格納しているものとする。そしてこれらの特徴量の集合が学習データとして用いられる。また、学習データは1人の話者の音声を収集したものとする。
まず、HMM学習部41(特徴量空間分割部1及び韻律学習部5)において、学習用データベース4を用いた統計的手法による学習が行われる。
HMM学習部30において特徴量空間分割部1は、第1実施形態と同様に学習用データベース4が格納する特徴量空間を、部分空間に分割する。具体的には、特徴量空間分割部1は、学習用データベース4が格納する特徴量空間を、二分木構造クラスタリングにより部分空間に分割する。以下では、特徴量空間分割部1によって生成された部分空間のことをクラスタとも呼ぶ。
図4は、特徴量空間分割部1において学習された結果として、二分木構造クラスタリングで作成された決定木構造の模式図である。図4に示すように、二分木構造クラスタリングとは、学習データを、各ノードP1〜P6に配置された質問により2つのノードに分割する処理を繰り返し、最終的に分割された各クラスタの情報量が均等になるようにクラスタリングする手法である。
例えば図4では、特徴量空間分割部1は、現在のノードに配置された質問に基づいて「YES」と「NO」のいずれに該当するかを判断して、学習データを分割する。図4の例では、特徴量空間分割部1は、最初にノードP1に配置された質問である「当該音素が有声音」か否かに基づいて学習データを分割する。次に、例えば「YES」と判断されて分割された学習データを、特徴量空間分割部1は、ノードP2に配置された質問である「先行音素が無声音」か否かに基づいて分割する。特徴量空間分割部1は、このような分割を繰り返して所定の学習データ数に分割された段階で、その分割された学習データを一つのクラスタとする。
図5は、特徴量空間分割部1による学習データのクラスタリング結果を表す、特徴量空間の概念的な模式図である。図5における縦軸及び横軸は所定の特徴量を示す。
図5では、各クラスタに属する学習データ数が4つであるような場合を示している。図5には、特徴量空間分割部1によって学習データ数が4つになるまで分割された結果、各クラスタに該当する学習データのモーラ数とアクセント核の型が、どのようになっているかが示されている。ここで、アクセント核の型とは、一つのアクセント句の中で音程が大きく下がる直前の位置を示す類型である。
なお、図5はあくまで概念を示した模式図であり、軸は2つに限定されない。特徴量空間は、例えば10個の特徴量を軸とした10次元の空間でも良い。
図5に示すように、特徴量空間分割部1は、10モーラ以上8型以上クラスタのような学習データ数が疎である空間に、大きなクラスタを生成する。このようなクラスタは非常に学習データ数が少ない疎なクラスタとなる。
特徴量空間分割部1は、部分空間に分割した学習データを、疎密状態検出部2及び韻律学習部5に出力する。
HMM学習部30は、特徴量空間の分割とともに韻律生成モデルを作成する。
HMM学習部30において韻律学習部5は、特徴量空間分割部1で分割された特徴量の空間内で、韻律モデルの学習を行い、韻律生成モデルを作成する。すなわち、韻律学習部5は、特徴量空間分割部1における学習データのクラスタリング結果(例えば図4に示す二分木構造クラスタリングの結果)を用いて韻律生成モデルを作成する。
韻律生成モデル格納部6は、韻律学習部5によって作成された韻律生成モデルを格納する。
具体的には韻律学習部5は、クラスタ毎に学習用データベース4が格納している音声波形データに対応する発音情報に対し、どのような韻律を生成すれば良いかを統計的に学習する。韻律学習部5は、その学習の結果をモデル(韻律生成モデル)にし、各クラスタに対応させて韻律生成モデル格納部6に格納する。
なお、学習用データベース4は時間長情報及びピッチ情報を格納しない構成とし、韻律学習部5が、入力された音声波形データから発音情報に対応する時間長情報やピッチ情報を学習する構成としても良い。
次に、疎密状態検出部2は、特徴量空間分割部1から入力された学習データにおける各クラスタの疎密情報を抽出する。疎密情報は、例えば、アクセント句のモーラ数とアクセント核の相対位置に関する分散値でも良い。このとき、例えば図5に示す3モーラ1型クラスタにおいては、全てのデータが3モーラ1型である。そのため、分散値は0となる。
疎密状態検出部2は、抽出した各クラスタの疎密情報を、規則生成部3に出力する。
次に、規則生成部3は、各クラスタの疎密情報に基づいて音声合成用規則を生成する。ここでは、規則生成部3は、既存の言語解析用辞書7を修正することで音声合成用規則を生成することとする。ここで言語解析用辞書7とは、テキストの言語解析処理に必要なデータや規則である上述の言語解析情報を格納する辞書である。
本実施形態において規則生成部3は、言語解析用辞書7を「言語解析結果として、疎なクラスタに属するアクセント句の発音情報が生成されないようにする」という方針で修正する。
具体的には、疎密情報に対応する分散値の閾値が設定され、分散値が閾値以上であるようなクラスタに属するアクセント句の発音情報が生成されないように、規則生成部3は辞書内の該当するデータを削除する。例えば、6〜8モーラ3型クラスタの分散値をσA、10モーラ以上8型以上クラスタの分散値をσBと仮定した場合、規則生成部3は、σA<σT<σBを満たす分散値の閾値σTを設定する。
この場合、3モーラ1型クラスタは分散値が0なので、規則生成部3は、「僕は」「枕」といったような3モーラ1型のアクセント句については、辞書の修正を行わない。同様に、「核開発(6モーラ)」といったような6〜8モーラ3型クラスタに属するアクセント句についても、規則生成部3は辞書の修正を行わない。
一方、「アルバートアインシュタイン医科大学(18モーラ15型)」といったような10モーラ以上8型以上クラスタに属するアクセント句については、規則生成部3は辞書内から該当のデータを削除し、言語解析結果として出力されないようにする。
または、言語解析用辞書7が言語解析用のスコアを格納しており言語解析にスコア計算が用いられる場合、規則生成部3は、該当するデータが選択されないよう該当するデータのスコアを極端に低い値に置換することで、言語解析用辞書7を修正しても良い。また、規則生成部3は、言語解析用辞書7を修正するのではなく、音声合成エンジン内の言語解析部9やその周辺におけるアルゴリズムに変更を加えることで、音声合成用規則を生成しても良い。
規則生成部3は、修正した言語解析用辞書7の内容である音声合成用規則を修正言語解析用辞書8に出力する。
修正言語解析用辞書8は、規則生成部3が上記の規則に基づいて修正した言語解析用辞書7の内容である音声合成用規則を格納する。
次に、テキストを入力して行う音声合成の動作について説明する。
言語解析部9は音声合成の対象となるテキストが入力されると、該入力されたテキストに対し修正言語解析辞書8を用いて、形態素解析等により言語解析処理を行う。言語解析部9は、言語解析処理の結果から発音情報を生成し、該発音情報を韻律生成部10に出力する。
次に、韻律生成部10は、言語解析部9から入力された発音情報に対して、韻律生成モデル格納部6が格納する韻律生成モデルを用いて韻律情報を生成する。韻律生成部10は、発音情報と、生成した韻律情報を波形生成部11に出力する。
波形生成部11は、発音情報と、韻律生成部10が生成した韻律情報とを元に、音声波形を生成する。波形生成部11は、生成した音声波形を合成音声として出力する。波形の生成は関連する技術に基づいて行えば良く、波形はいかなる方法で生成されても良い。波形生成部11は、生成した音声波形を合成音声として出力する。
次に図6及び図7を参照して、音声合成システム2000の動作の流れを、音声合成用規則及び韻律生成モデルを生成する準備段階と、実際に音声合成処理を行う音声合成段階の2段階に分けて順に説明する。
図6は、音声合成システム2000における、準備段階のうち音声合成用規則を生成する動作の一例を示すフローチャートである。
図6に示すように、ステップS1〜S3の処理は、図2における処理と同様である。
S3の処理の後、規則生成部3は、修正した言語解析用辞書7の内容である音声合成用規則を修正言語解析用辞書8に格納する(ステップS4)。
図7は、音声合成システム2000における、準備段階のうち韻律生成モデルを作成する動作の一例を示すフローチャートである。
ステップS1の処理は、図2及び図6における処理と同様である。
ステップS1の後、韻律学習部5は、特徴量空間分割部1で分割された特徴量空間内で、韻律モデルの学習を行い、韻律生成モデルを作成する(ステップS2A)。
次に、韻律生成モデル格納部6は、韻律学習部5によって作成された韻律生成モデルを格納する(ステップS3A)。
なお、上記図6及び図7で説明した準備段階の処理は、逆の順序で行われても良いし、並行して行われても良い。
図8は、音声合成システム2000における、実際に音声合成処理を行う音声合成段階の動作の一例を示すフローチャートである。
図8に示すように、まず、言語解析部9は、音声合成の対象となるテキストが入力される(ステップS1B)。
次に、言語解析部9は、入力されたテキストに対し、修正言語解析用辞書8が格納する音声合成用規則に従って言語解析処理を行い、発音情報を生成する(ステップS2B)。言語解析部9は、生成した発音情報を韻律生成部10に出力する。
次に、韻律生成部10は、言語解析部9から入力された発音情報に対して、韻律生成モデル格納部6が格納する韻律生成モデルを用いて韻律情報を生成する(ステップS3B)。韻律生成部10は、発音情報と韻律情報を波形生成部11に出力する。
次に、波形生成部11は、韻律生成部10から入力された発音情報と韻律情報とに基づいて、音声波形を生成し(ステップS4B)、該音声波形を合成音声として出力する。
以上のように、本実施形態に係る音声合成システム2000によれば、学習データ不足を要因としたF0パタンの乱れを回避することができ、自然性の高い音声合成をすることが可能となる。その理由は、同一のクラスタリング結果に基づいて韻律学習と疎密情報の抽出が行われ、規則生成部3が該疎密情報に基づいて音声合成用規則を生成することで、学習データが十分な発音情報が生成されるからである。
また、本実施形態では、学習用データベースとして、1人の話者の音声を収集したものを想定したが、複数の話者の音声を収集したものを学習用データベースとしても良い。単独話者の学習用データベースの場合は、話者の癖といった話者性を再現できる音声合成用規則が作成できるという効果がある。複数話者の学習用データベースの場合は、汎用的な音声合成用規則が作成できるという効果がある。
<第3実施形態>
続いて、本発明の第3実施形態について説明する。
図9は、本発明の第3実施形態に係る音声合成システム3000の構成例を示すブロック図である。
図9を参照すると、第3実施形態に係る音声合成システム3000は、第2実施形態に係る音声合成学習装置20及び音声合成装置40に代わって、音声合成学習装置21及び音声合成装置41を含み、さらに波形生成モデル格納部12を含む。また、音声合成システム3000は、言語解析用辞書7及び修正言語解析用辞書8に代わって、音声合成用辞書14及び修正音声合成用辞書15を含む。
音声合成学習装置21は、HMM学習部30に代わって、学習用データベース4を用いて韻律生成モデルと波形生成モデルを生成するHMM学習部31を含む。HMM学習部31は、HMM学習部30と同様の構成に加えて、波形学習部12をさらに含む。
音声合成装置41は、波形生成部10に代わって、波形生成モデル格納部16を用いて波形を生成する波形生成部17を含む。
波形学習部12は、特徴量空間分割部1で分割された特徴量の空間内で、波形モデルの学習を行い、波形生成モデルを作成する。
波形生成モデルとは、学習用データベース内の波形のスペクトル特徴量をモデル化したものである。具体的には、特徴量はケプストラム等でも良い。なお、本実施形態においては波形生成のためのデータとして、HMMにより生成したモデルを用いる。しかし、本発明に適用する音声合成方式はこれに限定されず、別の音声合成方式、例えば波形接続方式を用いても構わない。なお、その場合HMM学習部31で学習されるのは韻律生成モデルのみである。
波形生成モデル格納部16は、波形学習部12によって作成された波形生成モデルを格納する。
規則生成部13は、各クラスタの疎密情報に基づいて音声合成用規則を生成する。ここでは、規則生成部3は、既存の音声合成用辞書14を修正することで音声合成用規則を生成することとする。ここで音声合成用辞書14とは、テキストの言語解析処理に必要なデータや規則の他に、言語解析処理の結果に音声合成のための付加的情報を付与したり、変更を加えたりするための規則を格納する辞書である。
規則生成部13は、アクセント位置やアクセント句境界に関する規則以外についての規則を修正する。以下では具体例として、規則生成部13が「ポーズの挿入/削除」、および「言い回しの変更」に関する規則を修正する動作を説明する。
「ポーズの挿入/削除」に関する規則とは、音声が人間らしいものになるように、「自然な位置でポーズを挿入する」、「不自然な位置のポーズを削除する」といった規則である。具体的な規則としては、「1つの呼気段落がNモーラ以下」、「接続詞の後はポーズを入れる」等の規則である。
また、「言い回しの変更」に関する規則とは、言語として標準的なテキストから生成された言語解析結果を話者特有の言い回しに変更する規則である。例えば「放送」という単語は通常「ほーそー」という読みが付けられる。しかし話者によってはこれを「ほうそう」とはっきり読む場合がある。これを表す規則は、「長音を母音として読む」という規則になる。
音声合成用辞書14の修正は、第2実施形における言語解析用辞書7の修正と同様の方針で行われる。具体的には、分散値の閾値が設定される。そして分散値が閾値以上であるようなクラスタに属する表現が生成されないように、規則生成部13が音声合成用辞書14の内容について該当する規則を削除し、又は追加する。
具体例として、「そして、放送が開始された」というテキストが入力された場合について説明する。
学習用データベース4には、「途中でポーズを入れずに話す」、「『放送』という単語を『ほーそー』ではなく『ほうそう』と発音する」という特徴を持った話者の音声波形データが格納されているとする。この場合、学習データである特徴量空間を分割すると、「『そして』の後のポーズ」というクラスタ、及び「長音化した母音の連続」というクラスタが非常に疎か、又はクラスタとして存在しないことが想定される。
この場合、例えば、「ポーズの挿入/削除」に関する規則の修正として、規則生成部13は、音声合成用辞書14が格納する規則のうち「接続詞の後はポーズを入れる」という規則を削除する。あるいは規則生成部13は、音声合成用辞書14が格納する規則に「『そして』の後はポーズを入れない」という規則を追加する。
また、「言い回しの変更」に関する規則の修正として、規則生成部13は、通常「ほーそー」と発音される「放送」というテキストについて、「ほうそう」という発音がされるように、規則生成部13は、「長音を母音に変更する」という規則を追加する。
修正音声合成用辞書15は、規則生成部13が生成した音声合成用規則を格納する。ここで、規則生成部13が生成した音声合成用規則とは、既存の音声合成用辞書14が格納する規則について、上記のようにして規則生成部13が修正した後の規則のことである。
次に図を参照して、音声合成システム3000の動作の流れを、音声合成用規則、韻律生成モデル及び波形生成モデルを作成する準備段階と、実際に音声合成処理を行う音声合成段階の2段階に分けて順に説明する。
まず、準備段階のうち、音声合成用規則及び韻律生成モデルを作成する動作については、生成する音声合成用規則が異なる点を除いて、第2実施形態における図6及び図7に示した動作と同様である。
図10は、音声合成システム3000における、準備段階のうち波形生成モデルを作成する動作の一例を示すフローチャートである。
ステップS1の処理は、図2、図6及び図7における処理と同様である。
ステップS1の後、波形学習部12は、特徴量空間分割部1で分割された特徴量空間内で、波形モデルの学習を行い、波形生成モデルを作成する(ステップS2C)。
次に、波形生成モデル格納部16は、波形学習部12によって作成された波形生成モデルを格納する(ステップS3C)。
なお、準備段階における音声合成用規則、韻律生成モデル及び波形生成モデルを作成する処理は、いかなる順序で行われても良いし、並行して行われても良い。
図11は、音声合成システム3000における、実際に音声合成処理を行う音声合成段階の動作の一例を示すフローチャートである。
図11に示すように、ステップS1Bの処理は、図8における処理と同様である。
ステップS1Bの後、言語解析部9は、入力されたテキストに対し、修正音声合成用辞書15が格納する音声合成用規則に従って言語解析処理を行い、発音情報を生成する。言語解析部9は、発音情報を生成する際、該発音情報に修正音声合成用辞書15が格納する規則に従って、例えば「長音を母音に変更する」といった付加的情報を付与する(ステップS2D)。言語解析部9は、付加的情報を付与された発音情報を韻律生成部10に出力する。
ステップS3Bの処理は、図8における処理と同様である。
次に、波形生成部17は、韻律生成部10から入力された発音情報と韻律情報とに基づいて、波形生成モデル格納部16が格納する波形生成モデルを用いて音声波形を生成する(ステップS4D)。波形生成部17は、該音声波形を合成音声として出力する。
以上のように、本実施形態に係る音声合成システム3000によれば、修正音声合成用辞書15が修正された付加的情報を発音情報に付与するため、話者ごとの癖といった特徴を忠実に再現できる。また、本実施形態によれば、波形学習と、発音情報の修正に用いる疎密情報の抽出に、同一のクラスタリング結果を用いることにより、疎であるクラスタに属する波形生成モデルで波形を生成した場合、その部分だけ音質が劣化すると言った問題が回避できる。
なお、波形生成にHMMを用いない波形接続方式等においても、学習データが疎であるクラスタに属するデータは、対応する単位波形のデータ量も不足している。そのため、本実施形態によれば、波形接続方式等を用いた場合も、疎なクラスタに属するデータを使用しないという点で音質劣化を回避することができるという効果が得られる。
以上、各実施形態を参照して本発明を説明したが、本発明は以上の実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で同業者が理解し得る様々な変更をすることができる。例えば、各実施形態に係る音声合成システムは、抽出した疎密情報を図示しないデータベースに格納しておき、対応表等を参照した適宜利用するようにしても良い。
図12は、第2実施形態に係る音声合成システム2000を実現するハードウェア構成の一例を示すブロック図である。なお、ここでは第2実施形態を例にとって説明するが、他の実施形態に係る音声合成システムも同様のハードウェア構成によって実現されても良い。
図12に示すように、音声合成システム2000を構成する各部は、CPU(Central Processing Unit)100と、ネットワーク接続用の通信IF(インターフェース)200と、メモリ300と、プログラムを格納するハードディスク等の記憶装置400と、入力装置500と、出力装置600とを含む、コンピュータ装置によって実現される。ただし、音声合成システム2000の構成は、図12に示すコンピュータ装置に限定されない。
CPU100は、オペレーティングシステムを動作させて音声合成システム2000の全体を制御する。また、CPU100は、例えばドライブ装置などに装着された記録媒体からメモリ300にプログラムやデータを読み出し、これにしたがって各種の処理を実行する。
記録装置400は、例えば光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク、半導体メモリ等であって、コンピュータプログラムをコンピュータ読み取り可能に記録する。記憶装置400は、例えば、学習用データベース4や韻律生成モデル格納部6等でも良い。また、コンピュータプログラムは、通信網に接続されている図示しない外部コンピュータからダウンロードされても良い。
入力装置500は、例えば音声学習装置40において、ユーザから入力テキストを受け付ける。出力装置600は、最終的に生成した合成音声を出力する。
なお、これまでに説明した各実施形態において利用するブロック図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。また、音声合成システム2000の構成部の実現手段は特に限定されない。すなわち、音声合成システム2000は、物理的に結合した一つの装置により実現されても良いし、物理的に分離した二つ以上の装置を有線又は無線で接続し、これら複数の装置により実現されても良い。その場合物理的に分離した二つの装置をそれぞれ音声合成学習装置20及び音声合成装置40としても良い。
本発明のプログラムは、上記の各実施形態で説明した各動作を、コンピュータに実行させるプログラムであれば良い。
上記の各実施の形態においては、以下に示すような音声合成システム、音声合成方法、および音声合成プログラムの特徴的構成が示されている。
(付記1)
音声波形データから抽出された特徴量の集合である学習データを格納する学習用データベースと、
前記学習用データベースが格納する学習データに関する空間である特徴量空間を、部分空間に分割する特徴量空間分割手段と、
前記特徴量空間分割手段で分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力する疎密状態検出手段と、
前記疎密状態検出手段から出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する規則生成手段と、
を含む音声合成システム。
(付記2)
前記特徴量空間分割手段で分割された特徴量空間である部分空間内で、韻律モデルの学習を行い、韻律生成モデルを作成する韻律学習手段と、
前記韻律学習手段によって作成された韻律生成モデルを格納する韻律生成モデル格納手段と、
前記規則生成手段が生成した音声合成用規則に従って生成された発音情報に対して、前記韻律生成モデル格納手段が格納する韻律生成モデルを用いて韻律情報を生成する韻律生成手段と、
をさらに含む付記1に記載の音声合成システム。
(付記3)
テキストの言語解析処理に必要な規則を格納する辞書をさらに含み、
前記規則生成手段は、前記辞書が格納する規則の修正を行うことで音声合成用規則を生成する、
付記1又は2に記載の音声合成システム。
(付記4)
前記規則生成手段が生成した修正後の規則を音声合成用規則として格納する修正辞書と、
テキストの入力を受けて、該テキストから前記修正辞書が格納する音声合成用規則に基づいて発音情報を生成し、該発音情報を前記韻律生成手段に出力する言語解析手段と、
をさらに含む付記3に記載の音声合成システム。
(付記5)
前記規則生成手段は、前記疎密情報に基づいて疎な部分空間に属すると判断されたアクセント句のデータを削除することで音声合成用規則を修正する、
付記4に記載の音声合成システム。
(付記6)
前記規則生成手段は、ポーズ挿入位置又は入力テキストの言い回し等に関する音声合成用規則を修正する、
付記3〜5のいずれかに記載の音声合成システム。
(付記7)
前記特徴量空間分割手段は、情報量を基準とした二分木構造クラスタリングによって特徴量空間を部分空間に分割する、
付記1〜6のいずれかに記載の音声合成システム。
(付記8)
前記韻律学習手段は、前記韻律モデルの学習をHMM学習により行う、
付記2〜7のいずれかに記載の音声合成システム。
(付記9)
前記特徴量空間分割手段で分割された特徴量空間である部分空間内で、波形モデルの学習を行い、波形生成モデルを作成する波形学習手段と、
前記波形学習手段によって作成された波形生成モデルを格納する波形生成モデル格納手段と、
前記韻律生成手段が生成した韻律情報から、前記波形生成モデル格納手段が格納する波形生成モデルを用いて音声波形を生成し、生成した音声波形を合成音声として出力する波形生成手段と、
をさらに含む付記1〜8のいずれかに記載の音声合成システム。
(付記10)
音声波形データから抽出された特徴量の集合である学習データを格納し、
前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、
前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、
前記出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する、
音声合成方法。
(付記11)
音声波形データから抽出された特徴量の集合である学習データを格納し、
前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、
前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、
前記出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する、
処理をコンピュータに実行させるプログラムを格納する記録媒体。
以上、実施形態を参照して本願発明を説明したが、本願発明は以上の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で同業者が理解し得る様々な変更をすることができる。
この出願は、2011年2月22日に出願された日本出願特願2011−035543を基礎とする優先権を主張し、その開示の全てをここに取り込む。
2 疎密情報抽出部
3、13 規則生成部
4 学習用データベース
5 韻律学習部
6 韻律生成モデル格納部
7 言語解析用辞書
8 修正言語解析用辞書
9 言語解析部
10 韻律生成部
11、17 波形生成部
12 波形学習部
14 音声合成用辞書
15 修正音声合成用辞書
16 波形生成モデル格納部
17 波形生成部
20、21 音声合成学習装置
30、31 HMM学習部
40、41 音声合成装置
100 CPU
200 通信IF
300 メモリ
400 記憶装置
500 入力装置
600 出力装置
1000、2000、3000 音声合成システム
Claims (10)
- 音声波形データから抽出された特徴量の集合である学習データを格納する学習用データベースと、
前記学習用データベースが格納する学習データに関する空間である特徴量空間を、部分空間に分割する特徴量空間分割手段と、
前記特徴量空間分割手段で分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力する疎密状態検出手段と、
前記疎密状態検出手段から出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する規則生成手段と、
を含む音声合成システム。 - 前記特徴量空間分割手段で分割された特徴量空間である部分空間内で、韻律モデルの学習を行い、韻律生成モデルを作成する韻律学習手段と、
前記韻律学習手段によって作成された韻律生成モデルを格納する韻律生成モデル格納手段と、
前記規則生成手段が生成した音声合成用規則に従って生成された発音情報に対して、前記韻律生成モデル格納手段が格納する韻律生成モデルを用いて韻律情報を生成する韻律生成手段と、
をさらに含む請求項1に記載の音声合成システム。 - テキストの言語解析処理に必要な規則を格納する辞書をさらに含み、
前記規則生成手段は、前記辞書が格納する規則の修正を行うことで音声合成用規則を生成する、
請求項2に記載の音声合成システム。 - 前記規則生成手段が生成した修正後の規則を音声合成用規則として格納する修正辞書と、
テキストの入力を受けて、該テキストから前記修正辞書が格納する音声合成用規則に基づいて発音情報を生成し、該発音情報を前記韻律生成手段に出力する言語解析手段と、
をさらに含む請求項3に記載の音声合成システム。 - 前記規則生成手段は、前記疎密情報に基づいて疎な部分空間に属すると判断されたアクセント句のデータを削除することで音声合成用規則を修正する、
請求項4に記載の音声合成システム。 - 前記規則生成手段は、ポーズ挿入位置又は入力テキストの言い回し等に関する音声合成用規則を修正する、
請求項3〜5のいずれかに記載の音声合成システム。 - 前記韻律学習手段は、前記韻律モデルの学習をHMM学習により行う、
請求項2〜6のいずれかに記載の音声合成システム。 - 前記特徴量空間分割手段は、情報量を基準とした二分木構造クラスタリングによって特徴量空間を部分空間に分割する、
請求項1〜7のいずれかに記載の音声合成システム。 - 音声波形データから抽出された特徴量の集合である学習データを格納し、
前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、
前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、
前記出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する、
音声合成方法。 - 音声波形データから抽出された特徴量の集合である学習データを格納し、
前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、
前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、
前記出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する、
処理をコンピュータに実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011035543 | 2011-02-22 | ||
JP2011035543 | 2011-02-22 | ||
PCT/JP2012/054482 WO2012115212A1 (ja) | 2011-02-22 | 2012-02-17 | 音声合成システム、音声合成方法、および音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2012115212A1 JPWO2012115212A1 (ja) | 2014-07-07 |
JP6036681B2 true JP6036681B2 (ja) | 2016-11-30 |
Family
ID=46720986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013501129A Active JP6036681B2 (ja) | 2011-02-22 | 2012-02-17 | 音声合成システム、音声合成方法、および音声合成プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6036681B2 (ja) |
WO (1) | WO2012115212A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271171A (ja) * | 2002-03-14 | 2003-09-25 | Matsushita Electric Ind Co Ltd | 音声合成方法、音声合成装置および音声合成プログラム |
JP2004117662A (ja) * | 2002-09-25 | 2004-04-15 | Matsushita Electric Ind Co Ltd | 音声合成システム |
-
2012
- 2012-02-17 WO PCT/JP2012/054482 patent/WO2012115212A1/ja active Application Filing
- 2012-02-17 JP JP2013501129A patent/JP6036681B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271171A (ja) * | 2002-03-14 | 2003-09-25 | Matsushita Electric Ind Co Ltd | 音声合成方法、音声合成装置および音声合成プログラム |
JP2004117662A (ja) * | 2002-09-25 | 2004-04-15 | Matsushita Electric Ind Co Ltd | 音声合成システム |
Also Published As
Publication number | Publication date |
---|---|
WO2012115212A1 (ja) | 2012-08-30 |
JPWO2012115212A1 (ja) | 2014-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6036682B2 (ja) | 音声合成システム、音声合成方法、および音声合成プログラム | |
JP5768093B2 (ja) | 音声処理システム | |
JP5293460B2 (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
JP5471858B2 (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
JP5929909B2 (ja) | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム | |
JP6342428B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
CN101777347B (zh) | 一种模型互补的汉语重音识别方法及系统 | |
JP5269668B2 (ja) | 音声合成装置、プログラム、及び方法 | |
JP2010237323A (ja) | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 | |
JP2006084715A (ja) | 素片セット作成方法および装置 | |
JP2015041081A (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
JP2013164609A (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP6036681B2 (ja) | 音声合成システム、音声合成方法、および音声合成プログラム | |
JP6314828B2 (ja) | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム | |
JP3281281B2 (ja) | 音声合成方法及び装置 | |
Kim et al. | SC VALL-E: Style-Controllable Zero-Shot Text to Speech Synthesizer | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
JP4787769B2 (ja) | F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 | |
Inanoglu et al. | Intonation modelling and adaptation for emotional prosody generation | |
JP4282609B2 (ja) | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6036681 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |