JP2004117663A - 音声合成システム - Google Patents
音声合成システム Download PDFInfo
- Publication number
- JP2004117663A JP2004117663A JP2002279090A JP2002279090A JP2004117663A JP 2004117663 A JP2004117663 A JP 2004117663A JP 2002279090 A JP2002279090 A JP 2002279090A JP 2002279090 A JP2002279090 A JP 2002279090A JP 2004117663 A JP2004117663 A JP 2004117663A
- Authority
- JP
- Japan
- Prior art keywords
- representative
- attribute vector
- fundamental frequency
- generating
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】高品質の音声を合成することができる音声合成システムを提供すること。
【解決手段】複数の韻律素片および複数の音声波形素片を含む母集合における各々の素片に関する複数の属性を有した属性ベクトルを各素片に付与する属性ベクトル付与手段111と、複数の素片を用いて音声合成のための複数の代表素片を生成する代表素片生成手段113と、代表素片の生成に用いた素片に付与された複数の属性ベクトルを平均して代表属性ベクトルを生成する代表属性ベクトル生成手段と、代表素片を用いて音声を合成する際、目標となる複数の属性を有した目標属性ベクトルを生成する目標属性ベクトル生成手段123と、代表属性ベクトルの中から目標属性ベクトルに最も近いものを取得する代表属性ベクトル取得手段124と、取得された代表属性ベクトルに対応する素片を用いて音声を合成する合成手段126とを備えるよう構成した。
【選択図】 図1
【解決手段】複数の韻律素片および複数の音声波形素片を含む母集合における各々の素片に関する複数の属性を有した属性ベクトルを各素片に付与する属性ベクトル付与手段111と、複数の素片を用いて音声合成のための複数の代表素片を生成する代表素片生成手段113と、代表素片の生成に用いた素片に付与された複数の属性ベクトルを平均して代表属性ベクトルを生成する代表属性ベクトル生成手段と、代表素片を用いて音声を合成する際、目標となる複数の属性を有した目標属性ベクトルを生成する目標属性ベクトル生成手段123と、代表属性ベクトルの中から目標属性ベクトルに最も近いものを取得する代表属性ベクトル取得手段124と、取得された代表属性ベクトルに対応する素片を用いて音声を合成する合成手段126とを備えるよう構成した。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、音声を合成するための音声合成システム、音声合成辞書構築装置、音声合成装置、音声合成方法、音声合成辞書構築プログラムおよび音声合成プログラムに関する。
【0002】
【従来の技術】
従来の音声合成システムは、一般に、アクセント句における声の高さの推移を示す複数の基本周波数パタンが音声コーパスと呼ばれるデータベースに母集合として予め登録され、音声合成する際には、入力されたテキストからアクセント句毎に韻律の目標属性を特定し、目標属性と比較して予め決められた基準値以上の近さの属性を持つ基本周波数パタンを音声コーパスから取得し、取得した基本周波数パタンを用いて音声を合成するようになっていた(例えば、特許文献1を参照)。
【0003】
【特許文献1】
特開2000−56788号公報(第1−5頁、図1−8)
【0004】
【発明が解決しようとする課題】
しかしながら、このような従来の音声合成システムでは、韻律の目標属性と同じ属性または予め決められた基準値以上の近さの属性を持つ基本周波数パタンが音声コーパスに含まれていない場合があり、適切な基本周波数パタンを取得することができず、聴覚上ばらついた印象の音声が合成されてしまうという課題があった。
【0005】
本発明はこのような課題を解決するためになされたもので、高品質の音声を合成することができる音声合成システム、音声合成辞書構築装置、音声合成装置、音声合成方法、音声合成辞書構築プログラムおよび音声合成プログラムを提供するものである。
【0006】
【課題を解決するための手段】
本発明の音声合成システムは、複数の韻律素片および複数の音声波形素片を含む母集合における各々の素片に関する複数の属性を有した属性ベクトルを前記素片に付与する属性ベクトル付与手段と、複数の前記素片を用いて音声合成のための複数の代表素片を生成する代表素片生成手段と、前記代表素片の生成に用いた前記素片に付与された複数の前記属性ベクトルを平均して代表属性ベクトルを生成する代表属性ベクトル生成手段と、前記代表素片を用いて音声を合成する際、目標となる複数の属性を有した目標属性ベクトルを生成する目標属性ベクトル生成手段と、前記代表属性ベクトルの中から前記目標属性ベクトルに最も近いものを取得する代表属性ベクトル取得手段と、取得された前記代表属性ベクトルに対応する前記素片を用いて音声を合成する合成手段とを備える構成を有している。
【0007】
この構成により、複数の属性の中で素片に影響を与えているものとそうでないものとの差が統計的に与えられた代表属性ベクトルに基づいて、目標属性に適合した適切な代表素片が音声合成に用いられることになり、高品質の音声を合成することができる。
【0008】
本発明の音声合成システムは、前記属性ベクトル付与手段が、アクセント句における声の高さの推移を示す複数の基本周波数パタンのそれぞれに各基本周波数パタンの素性を示す複数の属性を有した属性ベクトルを付与し、前記代表素片生成手段が、複数の前記基本周波数パタンを用いて音声合成のための複数の代表基本周波数パタンを生成し、前記代表属性ベクトル生成手段が、前記代表基本周波数パタンの生成に用いた前記基本周波数パタンに付与された複数の前記属性ベクトルを平均して代表属性ベクトルを生成し、前記目標属性ベクトル生成手段が、前記代表基本周波数パタンを用いて音声を合成する際に目標となる複数の属性を有した目標属性ベクトルを生成し、前記代表属性ベクトル取得手段が、前記代表基本周波数パタンに関連する前記代表属性ベクトルの中から前記目標属性ベクトルに最も近いものを取得し、前記合成手段が、取得された前記代表属性ベクトルに対応する前記代表基本周波数パタンを用いて音声を合成するようにした構成を有している。
【0009】
この構成により、複数の属性の中で基本周波数パタンに影響を与えているものとそうでないものとの差が統計的に与えられた代表属性ベクトルに基づいて、目標属性に適合した適切な代表基本周波数パタンが音声合成に用いられることになり、高品質の音声を合成することができる。
【0010】
本発明の音声合成システムは、前記代表素片生成手段が、特定の基本周波数パタンとの近さが一定値以内にある前記基本周波数パタンを用いて平均することにより前記代表基本周波数パタンを生成するようにした構成を有している。
【0011】
この構成により、音声合成する際に暴れ成分が除去された安定した代表基本周波数パタンが音声合成に用いられることになり、ふらつきや暴れの少ない高品質の音声を合成することができる。
【0012】
本発明の音声合成システムは、前記代表素片生成手段が、特定の基本周波数パタンから近い順で一定数までの前記基本周波数パタンを用いて平均することにより前記代表基本周波数パタンを生成するようにした構成を有している。
【0013】
この構成により、似ている基本周波数パタンが少ない場合でも、一定数の基本周波数パタンを用いて平均化することで、基本周波数パタン形状の暴れを取り除くことができ、抑揚の安定した高品質の音声を合成することができる。
【0014】
本発明の音声合成システムは、前記代表基本周波数パタンが、モーラ数およびアクセント型によって予め分類された構成を有している。
【0015】
この構成により、モーラ数およびアクセント型の分類毎に適切な代表基本周波数パタンを用いることができることになり、高品質の音声を合成することができる。
【0016】
本発明の音声合成システムは、前記代表属性ベクトル生成手段が、前記特定の基本周波数パタンとの近さに対応して各属性が重み付けされた前記属性ベクトルを用いて前記代表属性ベクトルを生成するようにした構成を有している。
【0017】
この構成により、重要な属性が強く反映されるとともに、それほど重要でない属性が差し引かれ、音声合成する際に適切な代表基本周波数パタンが音声合成に用いられることになり、高品質の音声を合成することができる。
【0018】
本発明の音声合成システムは、前記代表素片生成手段が生成した前記代表基本周波数パタンの中から一定数以上の前記基本周波数パタンを用いて生成されたものを選別する代表素片選別手段を備え、前記代表属性ベクトル取得手段が、選別された前記代表基本周波数パタンを取得するようにした構成を有している。
【0019】
この構成により、出現頻度の少ない基本周波数パタンから生成された代表基本周波数パタンが削除されることになり、ふらつきや暴れの少ない高品質の音声を合成することができる。
【0020】
本発明の音声合成システムは、前記代表属性ベクトル取得手段が、前記目標属性ベクトルと前記各代表属性ベクトルとの内積を算出して前記目標属性ベクトルと前記各代表属性ベクトルとの近さを判定するようにした構成を有している。
【0021】
この構成により、複雑な距離計算より少ない演算量で代表基本周波数パタンを選択して高品質の音声を合成することができる。
【0022】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を用いて説明する。
図1は、本発明の一実施の形態の音声合成システムを示すブロック図である。
【0023】
図1において、音声合成システムは、母集合を構成する複数の韻律素片および複数の音声波形素片(以下、「原素片」という)が記憶された音声コーパス101と、音声合成に用いる複数の韻律素片および複数の音声波形素片(以下、「代表素片」という)が記憶された音声合成辞書102と、音声コーパス101内の原素片から音声合成に用いる代表素片を生成して音声合成辞書102を構築する音声合成辞書構築装置110と、入力されたテキストに対応する音声を音声合成辞書102内の代表素片を用いて合成する音声合成装置120とを備える。
【0024】
音声コーパス101には、アクセント句における声の高さの推移を示す基本周波数パタン(以下、単に「基本周波数パタン」という)、アクセント句の基本周波数の最大値、音素の継続時間長、音素毎の振幅パタン、その他の複数の韻律素片が原素片として記憶されている。また、音声コーパス101には、音声を構成する単位毎の波形を示す複数の音声波形素片が原素片として記憶されている。これらの韻律素片および音声波形素片は、一般に、大量の音声データを解析して得られる。
【0025】
音声合成辞書構築装置110は、音声コーパス101内の各原素片の素性を示す複数の属性を有した属性ベクトルを音声コーパス101内の各原素片に付与する属性ベクトル付与手段111と、特定の原素片と予め決められた一定の近さ以内にある原素片を検索する素片検索手段112と、音声コーパス101内の原素片から代表素片を生成する代表素片生成手段113と、代表素片の素性を示す複数の属性を有した代表属性ベクトルを生成する代表属性ベクトル生成手段114と、代表素片生成手段113によって生成された代表素片の中から音声合成辞書102に登録する代表素片を選別する代表素片選別手段115と、代表素片選別手段115によって選別された代表素片と代表属性ベクトルとを関連付けて音声合成辞書102に登録する登録手段116とを備える。
【0026】
音声合成装置120は、音声合成されるテキストが入力されるテキスト入力手段121と、テキスト入力手段121に入力されたテキストについて言語解析および意味解析を行う解析手段122と、解析手段122における解析結果に基づいて音声合成に用いる素片毎に目標属性ベクトルを生成する目標属性ベクトル生成手段123と、目標属性ベクトルと音声合成辞書102に登録された代表属性ベクトルとの近さを算出して代表属性ベクトルの中から目標属性ベクトルに最も近いものを音声合成辞書102から取得する代表属性ベクトル取得手段124と、取得された代表属性ベクトルに対応する代表素片を音声合成辞書102から取得する代表素片取得手段125と、代表素片取得手段125によって取得された代表素片を用いて音声を合成する合成手段126と、合成手段126によって合成された音声を出力する音声出力手段127とを備える。
【0027】
ここで、「近さ」は、素片と素片、または、属性ベクトルと属性ベクトルについて、類似の度合いを示す評価値である。
【0028】
以下、基本周波数パタンに関する各構成要素の機能を具体的に説明する。
【0029】
音声合成辞書構築装置110の属性ベクトル付与手段111は、音声コーパス101内の各基本周波数パタンに、当該アクセント句のモーラ数、当該アクセント句のアクセント型、先行するポーズからの距離、後続するポーズからの距離、当該アクセント句に関わる文節の係り先または係り受けの種類、当該アクセント句に関わる文節の係り先または係り受けの距離、先行アクセント句のモーラ数、先行アクセント句のアクセント型、後続アクセント句のモーラ数、後続アクセント句のアクセント型、といった各基本周波数パタンの素性を表す複数の属性を有した属性ベクトルを付与するようになっている。なお、属性ベクトルの各要素には、注目する属性を有することを示す「1」、および、注目する属性を有しないことを示す「0」の何れかが与えられる。
【0030】
音声合成辞書構築装置110の素片検索手段112は、音声コーパス101内の注目する特定の基本周波数パタン(以下、「注目基本周波数パタン」という)について、まず、モーラ数とアクセント型とが同一の他の基本周波数パタンを音声コーパス101内で検索し、次に、モーラ数とアクセント型とが同一の他の基本周波数パタンとの自乗誤差平均を計算して、自乗誤差平均が予め決められた閾値より小さい他の基本周波数パタンを選出する。
【0031】
音声合成辞書構築装置110の代表素片生成手段113は、音声コーパス101内の複数の基本周波数パタンを平均することにより、代表基本周波数パタンを生成するようになっている。具体的には、注目する基本周波数パタン(以下、「注目基本周波数パタン」という)との近さが一定値以内にある複数の基本周波数パタン(注目基本周波数パタンを含む)を平均することにより代表基本周波数パタンを生成するようになっている。詳細には、モーラ毎にクラスタ内の基本周波数の総和をクラスタ内の基本周波数パタンの総数で割り、モーラ毎に平均された基本周波数を有する代表基本周波数パタンを得る。
【0032】
なお、注目基本周波数パタンから近い順で一定数までの複数の基本周波数パタン(注目基本周波数パタンを含む)を平均することにより代表基本周波数パタンを生成するようにしてもよい。
【0033】
音声合成辞書構築装置110の代表属性ベクトル生成手段114は、音声コーパス101内の複数の属性ベクトルを平均することにより、各代表基本周波数パタンに対応する代表属性ベクトルを生成するようになっている。具体的には、代表基本周波数パタンの生成に用いた基本周波数パタンに付与された複数の属性ベクトルについて、属性ベクトルの要素である属性毎にクラスタ内の属性値の総和をクラスタ内の属性ベクトルの総数で割り、要素毎に平均された属性値を有する代表属性ベクトルを得る。
【0034】
なお、注目基本周波数パタンとの近さに対応して各属性が重み付けされた属性ベクトルを用いて代表属性ベクトルを生成するようにしてもよい。
【0035】
なお、元となる複数の属性ベクトルは、前述したように注目する属性を有することを示す「1」および注目する属性を有しないことを示す「0」の何れかが予め各要素に与えられているので、これらの属性ベクトルを平均して得られた代表属性ベクトルの各要素は、クラスタ内における各属性の生起確率を示す。代表属性ベクトルは、クラスタがどのような属性の性質を強く持つかを示すため「特徴ベクトル」あるいは「説明ベクトル」ともいう。
【0036】
音声合成辞書構築装置110の代表素片選別手段115は、代表素片生成手段113によって生成された代表基本周波数パタンの中から統計的に安定した代表基本周波数パタンを選択するようになっている。具体的には、代表属性ベクトル生成手段114が生成した代表基本周波数パタンの中から一定数以上の基本周波数パタンを用いて生成されたものを選別して、選別された代表基本周波数パタンを音声合成辞書102に登録する。
【0037】
音声合成装置120の目標属性ベクトル生成手段123は、音声合成装置120の解析手段122における言語解析および意味解析の結果、アクセント句毎に、目標となる基本周波数パタンに関する複数の属性を有した目標属性ベクトルを生成するようになっている。
【0038】
音声合成装置120の代表属性ベクトル取得手段124は、目標属性ベクトルと音声合成辞書102に登録された代表属性ベクトルとの内積を算出して代表属性ベクトルの中から内積が最も大きいものを取得する。ここで、内積は、目標属性ベクトルと同一のモーラ数および同一のアクセント型を示す属性を有した代表属性ベクトルを対象に算出するようになっている。
【0039】
音声合成装置120の代表素片取得手段125は、代表属性ベクトルに対応する代表基本周波数パタンを音声合成辞書102から取得するようになっている。
【0040】
音声合成装置120の合成手段126は、音声合成辞書102から取得された代表基本周波数パタンを用いて音声を合成するようになっている。
【0041】
以下、本実施の形態の音声合成システムの動作について説明する。
【0042】
まず、図2のフローチャートを用いて、音声合成辞書構築装置110の動作について説明する。
【0043】
音声コーパス101には、単語辞書、構文情報、意味情報、文脈情報、韻律情報、話題に関する一般的知識、韻律素片および音声波形素片といった、音声データを解析するための情報と、大量の音声データを解析して得られた情報とが予め記憶されている。
【0044】
なお、韻律素片の一種である複数の基本周波数パタンは、アクセント句単位に音声コーパス101に記憶されている。
【0045】
このような音声コーパス101内の各基本周波数パタンに、属性ベクトル付与手段111によって、前述した音声コーパス101内の各種情報に基づいて、属性ベクトルが付与される(S201)。
【0046】
属性ベクトルakは、数式1で定義される。
【数式1】
ただし、
k=1,…,N
ここで、識別番号kは、分類の対象となる基本周波数パタンを識別する番号である。また、要素δki は、識別番号kの基本周波数パタンが注目する属性を有することを示す「1」、および、注目する属性を有しないことを示す「0」の何れかの値が与えられる。なお、要素δkiは、通常、言語解析や意味解析の結果により値が与えられる。
【0047】
次に、素片検索手段112によって、注目する基本周波数パタン(以下、「注目基本周波数パタン」という)毎に、注目基本周波数パタンとの類似の度合いを示す評価値(以下、「近さ」という)が一定値以内にある基本周波数パタンが音声コーパス101内で検索され、代表素片生成手段113によって、複数の基本周波数パタンが平均されることにより代表基本周波数パタンが生成される(S202)。ここでは「近さ」として自乗誤差平均を用いる。具体的には、音声コーパス101に記憶されている複数の基本周波数パタンについて、まず、当該アクセント句のモーラ数と当該アクセント句のアクセント型とが同一の基本周波数パタン同士を同じクラスタに分類し、次に、注目基本周波数パタン毎に同一クラスタ内の注目基本周波数パタンと他の基本周波数パタンとの自乗誤差平均を計算し、次に、注目基本周波数パタンとの自乗誤差平均が予め決められた閾値より小さい基本周波数パタン、すなわち注目基本周波数パタンに同一または類似と判定された基本周波数パタン(注目基本周波数パタンを含む)を平均して代表基本周波数パタンを生成する。
【0048】
図4は、音声コーパス101に予め記憶された複数の基本周波数パタン401、402、403、404、405、406、407、408と、互いに類似すると判定された基本周波数パタン401、402、403と、代表基本周波数パタン420とを示す。図4において、第2の基本周波数パタン402を注目基本周波数パタンとしたとき、第2の基本周波数パタン402から予め決められた距離α以内にある第1の基本周波数パタン401と第3の基本周波数パタン403とが検索される。第1の基本周波数パタン401と第2の基本周波数パタン402と第3の基本周波数パタン403とについて、モーラ毎に基本周波数の総和を基本周波数パタンの総数「3」で割ることにより、代表基本周波数パタン420が得られる。このようにして得られた代表基本周波数パタン420は、例えば第2の基本周波数パタン402の代わりに、音声合成時に使用される。
【0049】
なお、距離αを大きくすれば、より多くの基本周波数パタンを平均した代表基本周波数パタンが得られるが、距離αをあまり大きくすると、特徴がない代表基本周波数パタンとなってしまう。また、逆に距離αをあまり小さくすると、ほとんど平均化は行なわれず、ノイズを含んだままの代表基本周波数パタンが生成されてしまうことがある。したがって、距離αは、適正な値とする必要がある。また、アクセント型によって異なる距離にするとよい。一般に、距離αは、自乗平均誤差で0.1から0.2octaveが適当である。
【0050】
なお、注目基本周波数パタンから一定距離α以内にある基本周波数パタンを用いて平均する例について説明したが、注目基本周波数パタンから近い順で一定数までの複数の基本周波数パタン(注目基本周波数パタンを含む)を平均して代表基本周波数パタンを生成するようにしてもよい。
【0051】
次に、代表属性ベクトル生成手段114によって、クラスタ毎にクラスタ内の属性ベクトルが平均されることにより代表属性ベクトルが生成される(S203)。
【0052】
ここで、代表属性ベクトルflは、数式2に示すように、クラスタCl内の複数の属性ベクトルを平均化するとともに正規化して得られる。
【数式2】
ただし、
【数式3】
l=1,2,…,L
ここで、識別番号lは、クラスタを識別する番号である。また、要素siは、クラスタCl内の各基本周波数パタンに付与された各属性ベクトルakの要素δki毎の総和である。また、正規化係数riは、代表属性ベクトルflの要素を正規化するための係数であって、例えばクラスタCl内の基本周波数パタンの総数である。このように正規化された代表属性ベクトルflにおいて、正規化された要素(si/ri)は、属性の生起確率を示す。
【0053】
図5は、複数の基本周波数パタンにそれぞれ付与された複数の属性ベクトル511、512、513、514等と代表属性ベクトル520とを示す。なお、第1の属性501、第2の属性502、第3の属性503および第4の属性504は、先行するポーズからの距離を示す属性であって、それぞれ、1つ目であるか否か、2つ目であるか否か、3つ目であるか否か、4つ目以上であるか否かを示す。また、第5の属性505、第6の属性506、第7の属性507および第8の属性508は、係り先のアクセント句との距離を示す属性であって、それぞれ、1つ先であるか否か、2つ先であるか否か、3つ先であるか否か、4つ以上先であるか否かを示す。第1の属性ベクトル511、第2の属性ベクトル512、第3の属性ベクトル513、第4の属性ベクトル514、および、その他属性ベクトルを平均して正規化し代表属性ベクトル520が生成される。なお、代表属性ベクトル520において、第1の属性501の生起確率は「0」、第2の属性502の生起確率は「0.2」、第3の属性503の生起確率は「0.7」、第4の属性504の生起確率は「0.1」、第5の属性505の生起確率は「0.5」、第6の属性506の生起確率は「0.2」、第7の属性507の生起確率は「0.3」、第8の属性508の生起確率は「0」である。
【0054】
なお、属性ベクトルの要素を単純に平均する例について説明したが、注目基本周波数パタンとの近さに応じて各属性が重み付けされた属性ベクトルを平均するようにしてもよい。
【0055】
次に、代表素片選別手段115によって、生成された代表基本周波数パタンの中から音声合成辞書102に登録する代表基本周波数パタンが選別される(S204)。
【0056】
図6は各代表基本周波数パタンが代表する領域601、602、603、604を示す。第1の領域601は、第1の領域601の中心の注目基本周波数パタン以外に基本周波数パタンがない。また、第2の領域602は、第2の領域602の中心の注目基本周波数パタンを含めて2つの基本周波数パタンがある。また、第3の領域603は、3つの基本周波数パタンがある。また、第4の領域604は、4つの基本周波数パタンがある。このような分布であったとき、基本周波数パタンが少ない領域、例えば第1の領域601については、代表基本周波数パタンは排除すると判定し、音声合成辞書102に登録しない。各領域内の基本周波数パタンの数Nkが、全体の基本周波数パタンの数N×係数β以上であるとき、該当する領域の代表基本周波数パタンを音声合成辞書102に登録すると判定する。
【0057】
次に、登録手段116によって、代表基本周波数パタンと代表属性ベクトルとが関連付けられて音声合成辞書102に登録される(S205)。なお、代表基本周波数パタンおよび代表属性ベクトルは、アクセント句のモーラ数とアクセント型とによって分類して登録される。
【0058】
以下、図3のフローチャートを用いて、音声合成装置120の動作について説明する。
【0059】
まず、テキスト入力手段121によって、音声合成するための日本語テキストが入力される(S301)。
【0060】
次に、解析手段122によって、入力されたテキストについて言語解析および意味解析が行なわれる(S302)。具体的には、入力された日本語テキストを意味的な最小単位である形態素に分割する形態素分析、形態素の組み合せの文節単位を推定する文節解析、各文節間の係り受け関係を推定する係り受け解析、入力テキストの読みを推定する読み解析などが行われる。言語解析および意味解析の解析結果として、アクセント型、ポーズ情報、アクセント句位置情報、文節係り受け情報、その他の日本語テキストを音声として出力する際の素性を示す情報が出力される。
【0061】
次に、目標属性ベクトル生成手段123によって、言語解析および意味解析の解析結果に基づいて、音声合成の素片について目標属性ベクトルが生成される(S303)。ここで、各アクセント句について目標属性ベクトルが生成される。
【0062】
次に、代表属性ベクトル取得手段124によって、生成された目標属性ベクトルと音声合成辞書102に記憶された複数の代表属性ベクトルとについて近さが計算され、代表属性ベクトルの中から目標属性ベクトルに最も近いものが取得される(S304)。
【0063】
なお、代表基本周波数パタンは、アクセント句のモーラ数とアクセント型とによって予め分類して登録されており、目標属性ベクトルと同じモーラ数およびアクセント型を有した代表属性ベクトルとについて近さが計算される。具体的には、数式4に示すように、目標属性ベクトルgjと各代表属性ベクトルflとの内積plを計算し、数式5に示すように、内積plの総和で各内積plを正規化し、正規化して得られた内積wlで、目標属性ベクトルgjと代表属性ベクトルflとの近さが評価され、内積が大きい代表属性ベクトルが取得される。
【数式4】
ただし、
【数式5】
【0064】
なお、代表属性ベクトルの検索には、内積を求める代わりに、ユークリッド距離、マハラノビス距離、その他の距離を計算してもよい。内積は、一般には、計算対象となる二つの属性ベクトルの中で「0」以外の要素を対象とした距離評価となるが、音声の場合、「0」であることも重要な情報を担う場合があるので、ユークリッド距離やマハラノビス距離により、「0」となる要素も距離に反映させるとよい。
【0065】
次に、代表素片取得手段125によって、目標属性ベクトルに最も近い代表属性ベクトルに対応する代表素片が音声合成辞書102から取り出される(S305)。ここで、代表基本周波数パタンが音声合成辞書102から取り出される。また、代表基本周波数パタンとともに音声合成辞書102に記憶されていた、音素の継続時間長、音素の振幅パタン、その他の韻律素片、および、音声波形素片が、音声合成辞書102から取り出される。
【0066】
次に、合成手段126によって、代表基本周波数パタンを用いて音声が合成され(S306)、音声出力手段127によって、合成音声が出力される(S307)。具体的には、必要な音声波形素片が、韻律素片に基づいて変形され、変形された音声波形素片が接続され、生成された合成音声が出力される。
【0067】
なお、図2および図3に示した処理は、それぞれプログラムによってコンピュータに実行させるようにしてもよい。
【0068】
以上説明したように、本実施の形態の音声合成システムは、アクセント句における声の高さの推移を示す複数の基本周波数パタンのそれぞれに各基本周波数パタンの素性を示す複数の属性を有した属性ベクトルを付与する属性ベクトル付与手段111と、複数の基本周波数パタンを用いて音声合成のための複数の代表基本周波数パタンを生成する代表素片生成手段113と、代表基本周波数パタンの生成に用いた基本周波数パタンに付与された複数の属性ベクトルを平均して代表属性ベクトルを生成する代表属性ベクトル生成手段114と、代表基本周波数パタンを用いて音声を合成する際、目標となる複数の属性を有した目標属性ベクトルを生成する目標属性ベクトル生成手段123と、代表属性ベクトルの中から目標属性ベクトルに最も近いものを取得する代表属性ベクトル取得手段124と、取得された代表属性ベクトルに対応する代表基本周波数パタンを用いて音声を合成する合成手段126とを備えるので、複数の属性の中で素片に影響を与えているものとそうでないものとの差が統計的に与えられた代表属性ベクトルに基づいて、目標属性に適合した適切な代表素片が音声合成に用いられることになり、高品質の音声を合成することができる。
【0069】
なお、上記説明では、基本周波数パタンを例に述べたが、平均化した属性ベクトルを用いる手法は、音素の時間長、振幅パタン等の韻律素片をはじめ、音声波形素片、その他の素片に適用してもよい。
【0070】
【発明の効果】
本発明によれば、高品質の音声を合成することができるという優れた効果を有する音声合成システム、音声合成辞書構築装置、音声合成装置、音声合成方法、音声合成辞書構築プログラムおよび音声合成プログラムを提供することができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態の音声合成システムを示すブロック図
【図2】本発明の一実施の形態の音声合成システムにおける音声合成辞書構築処理を示すフローチャート
【図3】本発明の一実施の形態の音声合成システムにおける音声合成処理を示すフローチャート
【図4】本発明の一実施の形態の音声合成システムにおける代表基本周波数パタンの生成を説明するための説明図
【図5】本発明の一実施の形態の音声合成システムにおける代表属性ベクトルの生成を説明するための説明図
【図6】本発明の一実施の形態の音声合成システムにおける基本周波数パタンの選別を説明するための説明図
【符号の説明】
101 音声コーパス
102 音声合成辞書
110 音声合成辞書構築装置
111 属性ベクトル付与手段
112 素片検索手段
113 代表素片生成手段
114 代表属性ベクトル生成手段
115 代表素片選別手段
116 登録手段
120 音声合成装置
121 テキスト入力手段
122 解析手段
123 目標属性ベクトル生成手段
124 代表属性ベクトル取得手段
125 代表素片取得手段
126 合成手段
127 音声出力手段
【発明の属する技術分野】
本発明は、音声を合成するための音声合成システム、音声合成辞書構築装置、音声合成装置、音声合成方法、音声合成辞書構築プログラムおよび音声合成プログラムに関する。
【0002】
【従来の技術】
従来の音声合成システムは、一般に、アクセント句における声の高さの推移を示す複数の基本周波数パタンが音声コーパスと呼ばれるデータベースに母集合として予め登録され、音声合成する際には、入力されたテキストからアクセント句毎に韻律の目標属性を特定し、目標属性と比較して予め決められた基準値以上の近さの属性を持つ基本周波数パタンを音声コーパスから取得し、取得した基本周波数パタンを用いて音声を合成するようになっていた(例えば、特許文献1を参照)。
【0003】
【特許文献1】
特開2000−56788号公報(第1−5頁、図1−8)
【0004】
【発明が解決しようとする課題】
しかしながら、このような従来の音声合成システムでは、韻律の目標属性と同じ属性または予め決められた基準値以上の近さの属性を持つ基本周波数パタンが音声コーパスに含まれていない場合があり、適切な基本周波数パタンを取得することができず、聴覚上ばらついた印象の音声が合成されてしまうという課題があった。
【0005】
本発明はこのような課題を解決するためになされたもので、高品質の音声を合成することができる音声合成システム、音声合成辞書構築装置、音声合成装置、音声合成方法、音声合成辞書構築プログラムおよび音声合成プログラムを提供するものである。
【0006】
【課題を解決するための手段】
本発明の音声合成システムは、複数の韻律素片および複数の音声波形素片を含む母集合における各々の素片に関する複数の属性を有した属性ベクトルを前記素片に付与する属性ベクトル付与手段と、複数の前記素片を用いて音声合成のための複数の代表素片を生成する代表素片生成手段と、前記代表素片の生成に用いた前記素片に付与された複数の前記属性ベクトルを平均して代表属性ベクトルを生成する代表属性ベクトル生成手段と、前記代表素片を用いて音声を合成する際、目標となる複数の属性を有した目標属性ベクトルを生成する目標属性ベクトル生成手段と、前記代表属性ベクトルの中から前記目標属性ベクトルに最も近いものを取得する代表属性ベクトル取得手段と、取得された前記代表属性ベクトルに対応する前記素片を用いて音声を合成する合成手段とを備える構成を有している。
【0007】
この構成により、複数の属性の中で素片に影響を与えているものとそうでないものとの差が統計的に与えられた代表属性ベクトルに基づいて、目標属性に適合した適切な代表素片が音声合成に用いられることになり、高品質の音声を合成することができる。
【0008】
本発明の音声合成システムは、前記属性ベクトル付与手段が、アクセント句における声の高さの推移を示す複数の基本周波数パタンのそれぞれに各基本周波数パタンの素性を示す複数の属性を有した属性ベクトルを付与し、前記代表素片生成手段が、複数の前記基本周波数パタンを用いて音声合成のための複数の代表基本周波数パタンを生成し、前記代表属性ベクトル生成手段が、前記代表基本周波数パタンの生成に用いた前記基本周波数パタンに付与された複数の前記属性ベクトルを平均して代表属性ベクトルを生成し、前記目標属性ベクトル生成手段が、前記代表基本周波数パタンを用いて音声を合成する際に目標となる複数の属性を有した目標属性ベクトルを生成し、前記代表属性ベクトル取得手段が、前記代表基本周波数パタンに関連する前記代表属性ベクトルの中から前記目標属性ベクトルに最も近いものを取得し、前記合成手段が、取得された前記代表属性ベクトルに対応する前記代表基本周波数パタンを用いて音声を合成するようにした構成を有している。
【0009】
この構成により、複数の属性の中で基本周波数パタンに影響を与えているものとそうでないものとの差が統計的に与えられた代表属性ベクトルに基づいて、目標属性に適合した適切な代表基本周波数パタンが音声合成に用いられることになり、高品質の音声を合成することができる。
【0010】
本発明の音声合成システムは、前記代表素片生成手段が、特定の基本周波数パタンとの近さが一定値以内にある前記基本周波数パタンを用いて平均することにより前記代表基本周波数パタンを生成するようにした構成を有している。
【0011】
この構成により、音声合成する際に暴れ成分が除去された安定した代表基本周波数パタンが音声合成に用いられることになり、ふらつきや暴れの少ない高品質の音声を合成することができる。
【0012】
本発明の音声合成システムは、前記代表素片生成手段が、特定の基本周波数パタンから近い順で一定数までの前記基本周波数パタンを用いて平均することにより前記代表基本周波数パタンを生成するようにした構成を有している。
【0013】
この構成により、似ている基本周波数パタンが少ない場合でも、一定数の基本周波数パタンを用いて平均化することで、基本周波数パタン形状の暴れを取り除くことができ、抑揚の安定した高品質の音声を合成することができる。
【0014】
本発明の音声合成システムは、前記代表基本周波数パタンが、モーラ数およびアクセント型によって予め分類された構成を有している。
【0015】
この構成により、モーラ数およびアクセント型の分類毎に適切な代表基本周波数パタンを用いることができることになり、高品質の音声を合成することができる。
【0016】
本発明の音声合成システムは、前記代表属性ベクトル生成手段が、前記特定の基本周波数パタンとの近さに対応して各属性が重み付けされた前記属性ベクトルを用いて前記代表属性ベクトルを生成するようにした構成を有している。
【0017】
この構成により、重要な属性が強く反映されるとともに、それほど重要でない属性が差し引かれ、音声合成する際に適切な代表基本周波数パタンが音声合成に用いられることになり、高品質の音声を合成することができる。
【0018】
本発明の音声合成システムは、前記代表素片生成手段が生成した前記代表基本周波数パタンの中から一定数以上の前記基本周波数パタンを用いて生成されたものを選別する代表素片選別手段を備え、前記代表属性ベクトル取得手段が、選別された前記代表基本周波数パタンを取得するようにした構成を有している。
【0019】
この構成により、出現頻度の少ない基本周波数パタンから生成された代表基本周波数パタンが削除されることになり、ふらつきや暴れの少ない高品質の音声を合成することができる。
【0020】
本発明の音声合成システムは、前記代表属性ベクトル取得手段が、前記目標属性ベクトルと前記各代表属性ベクトルとの内積を算出して前記目標属性ベクトルと前記各代表属性ベクトルとの近さを判定するようにした構成を有している。
【0021】
この構成により、複雑な距離計算より少ない演算量で代表基本周波数パタンを選択して高品質の音声を合成することができる。
【0022】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を用いて説明する。
図1は、本発明の一実施の形態の音声合成システムを示すブロック図である。
【0023】
図1において、音声合成システムは、母集合を構成する複数の韻律素片および複数の音声波形素片(以下、「原素片」という)が記憶された音声コーパス101と、音声合成に用いる複数の韻律素片および複数の音声波形素片(以下、「代表素片」という)が記憶された音声合成辞書102と、音声コーパス101内の原素片から音声合成に用いる代表素片を生成して音声合成辞書102を構築する音声合成辞書構築装置110と、入力されたテキストに対応する音声を音声合成辞書102内の代表素片を用いて合成する音声合成装置120とを備える。
【0024】
音声コーパス101には、アクセント句における声の高さの推移を示す基本周波数パタン(以下、単に「基本周波数パタン」という)、アクセント句の基本周波数の最大値、音素の継続時間長、音素毎の振幅パタン、その他の複数の韻律素片が原素片として記憶されている。また、音声コーパス101には、音声を構成する単位毎の波形を示す複数の音声波形素片が原素片として記憶されている。これらの韻律素片および音声波形素片は、一般に、大量の音声データを解析して得られる。
【0025】
音声合成辞書構築装置110は、音声コーパス101内の各原素片の素性を示す複数の属性を有した属性ベクトルを音声コーパス101内の各原素片に付与する属性ベクトル付与手段111と、特定の原素片と予め決められた一定の近さ以内にある原素片を検索する素片検索手段112と、音声コーパス101内の原素片から代表素片を生成する代表素片生成手段113と、代表素片の素性を示す複数の属性を有した代表属性ベクトルを生成する代表属性ベクトル生成手段114と、代表素片生成手段113によって生成された代表素片の中から音声合成辞書102に登録する代表素片を選別する代表素片選別手段115と、代表素片選別手段115によって選別された代表素片と代表属性ベクトルとを関連付けて音声合成辞書102に登録する登録手段116とを備える。
【0026】
音声合成装置120は、音声合成されるテキストが入力されるテキスト入力手段121と、テキスト入力手段121に入力されたテキストについて言語解析および意味解析を行う解析手段122と、解析手段122における解析結果に基づいて音声合成に用いる素片毎に目標属性ベクトルを生成する目標属性ベクトル生成手段123と、目標属性ベクトルと音声合成辞書102に登録された代表属性ベクトルとの近さを算出して代表属性ベクトルの中から目標属性ベクトルに最も近いものを音声合成辞書102から取得する代表属性ベクトル取得手段124と、取得された代表属性ベクトルに対応する代表素片を音声合成辞書102から取得する代表素片取得手段125と、代表素片取得手段125によって取得された代表素片を用いて音声を合成する合成手段126と、合成手段126によって合成された音声を出力する音声出力手段127とを備える。
【0027】
ここで、「近さ」は、素片と素片、または、属性ベクトルと属性ベクトルについて、類似の度合いを示す評価値である。
【0028】
以下、基本周波数パタンに関する各構成要素の機能を具体的に説明する。
【0029】
音声合成辞書構築装置110の属性ベクトル付与手段111は、音声コーパス101内の各基本周波数パタンに、当該アクセント句のモーラ数、当該アクセント句のアクセント型、先行するポーズからの距離、後続するポーズからの距離、当該アクセント句に関わる文節の係り先または係り受けの種類、当該アクセント句に関わる文節の係り先または係り受けの距離、先行アクセント句のモーラ数、先行アクセント句のアクセント型、後続アクセント句のモーラ数、後続アクセント句のアクセント型、といった各基本周波数パタンの素性を表す複数の属性を有した属性ベクトルを付与するようになっている。なお、属性ベクトルの各要素には、注目する属性を有することを示す「1」、および、注目する属性を有しないことを示す「0」の何れかが与えられる。
【0030】
音声合成辞書構築装置110の素片検索手段112は、音声コーパス101内の注目する特定の基本周波数パタン(以下、「注目基本周波数パタン」という)について、まず、モーラ数とアクセント型とが同一の他の基本周波数パタンを音声コーパス101内で検索し、次に、モーラ数とアクセント型とが同一の他の基本周波数パタンとの自乗誤差平均を計算して、自乗誤差平均が予め決められた閾値より小さい他の基本周波数パタンを選出する。
【0031】
音声合成辞書構築装置110の代表素片生成手段113は、音声コーパス101内の複数の基本周波数パタンを平均することにより、代表基本周波数パタンを生成するようになっている。具体的には、注目する基本周波数パタン(以下、「注目基本周波数パタン」という)との近さが一定値以内にある複数の基本周波数パタン(注目基本周波数パタンを含む)を平均することにより代表基本周波数パタンを生成するようになっている。詳細には、モーラ毎にクラスタ内の基本周波数の総和をクラスタ内の基本周波数パタンの総数で割り、モーラ毎に平均された基本周波数を有する代表基本周波数パタンを得る。
【0032】
なお、注目基本周波数パタンから近い順で一定数までの複数の基本周波数パタン(注目基本周波数パタンを含む)を平均することにより代表基本周波数パタンを生成するようにしてもよい。
【0033】
音声合成辞書構築装置110の代表属性ベクトル生成手段114は、音声コーパス101内の複数の属性ベクトルを平均することにより、各代表基本周波数パタンに対応する代表属性ベクトルを生成するようになっている。具体的には、代表基本周波数パタンの生成に用いた基本周波数パタンに付与された複数の属性ベクトルについて、属性ベクトルの要素である属性毎にクラスタ内の属性値の総和をクラスタ内の属性ベクトルの総数で割り、要素毎に平均された属性値を有する代表属性ベクトルを得る。
【0034】
なお、注目基本周波数パタンとの近さに対応して各属性が重み付けされた属性ベクトルを用いて代表属性ベクトルを生成するようにしてもよい。
【0035】
なお、元となる複数の属性ベクトルは、前述したように注目する属性を有することを示す「1」および注目する属性を有しないことを示す「0」の何れかが予め各要素に与えられているので、これらの属性ベクトルを平均して得られた代表属性ベクトルの各要素は、クラスタ内における各属性の生起確率を示す。代表属性ベクトルは、クラスタがどのような属性の性質を強く持つかを示すため「特徴ベクトル」あるいは「説明ベクトル」ともいう。
【0036】
音声合成辞書構築装置110の代表素片選別手段115は、代表素片生成手段113によって生成された代表基本周波数パタンの中から統計的に安定した代表基本周波数パタンを選択するようになっている。具体的には、代表属性ベクトル生成手段114が生成した代表基本周波数パタンの中から一定数以上の基本周波数パタンを用いて生成されたものを選別して、選別された代表基本周波数パタンを音声合成辞書102に登録する。
【0037】
音声合成装置120の目標属性ベクトル生成手段123は、音声合成装置120の解析手段122における言語解析および意味解析の結果、アクセント句毎に、目標となる基本周波数パタンに関する複数の属性を有した目標属性ベクトルを生成するようになっている。
【0038】
音声合成装置120の代表属性ベクトル取得手段124は、目標属性ベクトルと音声合成辞書102に登録された代表属性ベクトルとの内積を算出して代表属性ベクトルの中から内積が最も大きいものを取得する。ここで、内積は、目標属性ベクトルと同一のモーラ数および同一のアクセント型を示す属性を有した代表属性ベクトルを対象に算出するようになっている。
【0039】
音声合成装置120の代表素片取得手段125は、代表属性ベクトルに対応する代表基本周波数パタンを音声合成辞書102から取得するようになっている。
【0040】
音声合成装置120の合成手段126は、音声合成辞書102から取得された代表基本周波数パタンを用いて音声を合成するようになっている。
【0041】
以下、本実施の形態の音声合成システムの動作について説明する。
【0042】
まず、図2のフローチャートを用いて、音声合成辞書構築装置110の動作について説明する。
【0043】
音声コーパス101には、単語辞書、構文情報、意味情報、文脈情報、韻律情報、話題に関する一般的知識、韻律素片および音声波形素片といった、音声データを解析するための情報と、大量の音声データを解析して得られた情報とが予め記憶されている。
【0044】
なお、韻律素片の一種である複数の基本周波数パタンは、アクセント句単位に音声コーパス101に記憶されている。
【0045】
このような音声コーパス101内の各基本周波数パタンに、属性ベクトル付与手段111によって、前述した音声コーパス101内の各種情報に基づいて、属性ベクトルが付与される(S201)。
【0046】
属性ベクトルakは、数式1で定義される。
【数式1】
ただし、
k=1,…,N
ここで、識別番号kは、分類の対象となる基本周波数パタンを識別する番号である。また、要素δki は、識別番号kの基本周波数パタンが注目する属性を有することを示す「1」、および、注目する属性を有しないことを示す「0」の何れかの値が与えられる。なお、要素δkiは、通常、言語解析や意味解析の結果により値が与えられる。
【0047】
次に、素片検索手段112によって、注目する基本周波数パタン(以下、「注目基本周波数パタン」という)毎に、注目基本周波数パタンとの類似の度合いを示す評価値(以下、「近さ」という)が一定値以内にある基本周波数パタンが音声コーパス101内で検索され、代表素片生成手段113によって、複数の基本周波数パタンが平均されることにより代表基本周波数パタンが生成される(S202)。ここでは「近さ」として自乗誤差平均を用いる。具体的には、音声コーパス101に記憶されている複数の基本周波数パタンについて、まず、当該アクセント句のモーラ数と当該アクセント句のアクセント型とが同一の基本周波数パタン同士を同じクラスタに分類し、次に、注目基本周波数パタン毎に同一クラスタ内の注目基本周波数パタンと他の基本周波数パタンとの自乗誤差平均を計算し、次に、注目基本周波数パタンとの自乗誤差平均が予め決められた閾値より小さい基本周波数パタン、すなわち注目基本周波数パタンに同一または類似と判定された基本周波数パタン(注目基本周波数パタンを含む)を平均して代表基本周波数パタンを生成する。
【0048】
図4は、音声コーパス101に予め記憶された複数の基本周波数パタン401、402、403、404、405、406、407、408と、互いに類似すると判定された基本周波数パタン401、402、403と、代表基本周波数パタン420とを示す。図4において、第2の基本周波数パタン402を注目基本周波数パタンとしたとき、第2の基本周波数パタン402から予め決められた距離α以内にある第1の基本周波数パタン401と第3の基本周波数パタン403とが検索される。第1の基本周波数パタン401と第2の基本周波数パタン402と第3の基本周波数パタン403とについて、モーラ毎に基本周波数の総和を基本周波数パタンの総数「3」で割ることにより、代表基本周波数パタン420が得られる。このようにして得られた代表基本周波数パタン420は、例えば第2の基本周波数パタン402の代わりに、音声合成時に使用される。
【0049】
なお、距離αを大きくすれば、より多くの基本周波数パタンを平均した代表基本周波数パタンが得られるが、距離αをあまり大きくすると、特徴がない代表基本周波数パタンとなってしまう。また、逆に距離αをあまり小さくすると、ほとんど平均化は行なわれず、ノイズを含んだままの代表基本周波数パタンが生成されてしまうことがある。したがって、距離αは、適正な値とする必要がある。また、アクセント型によって異なる距離にするとよい。一般に、距離αは、自乗平均誤差で0.1から0.2octaveが適当である。
【0050】
なお、注目基本周波数パタンから一定距離α以内にある基本周波数パタンを用いて平均する例について説明したが、注目基本周波数パタンから近い順で一定数までの複数の基本周波数パタン(注目基本周波数パタンを含む)を平均して代表基本周波数パタンを生成するようにしてもよい。
【0051】
次に、代表属性ベクトル生成手段114によって、クラスタ毎にクラスタ内の属性ベクトルが平均されることにより代表属性ベクトルが生成される(S203)。
【0052】
ここで、代表属性ベクトルflは、数式2に示すように、クラスタCl内の複数の属性ベクトルを平均化するとともに正規化して得られる。
【数式2】
ただし、
【数式3】
l=1,2,…,L
ここで、識別番号lは、クラスタを識別する番号である。また、要素siは、クラスタCl内の各基本周波数パタンに付与された各属性ベクトルakの要素δki毎の総和である。また、正規化係数riは、代表属性ベクトルflの要素を正規化するための係数であって、例えばクラスタCl内の基本周波数パタンの総数である。このように正規化された代表属性ベクトルflにおいて、正規化された要素(si/ri)は、属性の生起確率を示す。
【0053】
図5は、複数の基本周波数パタンにそれぞれ付与された複数の属性ベクトル511、512、513、514等と代表属性ベクトル520とを示す。なお、第1の属性501、第2の属性502、第3の属性503および第4の属性504は、先行するポーズからの距離を示す属性であって、それぞれ、1つ目であるか否か、2つ目であるか否か、3つ目であるか否か、4つ目以上であるか否かを示す。また、第5の属性505、第6の属性506、第7の属性507および第8の属性508は、係り先のアクセント句との距離を示す属性であって、それぞれ、1つ先であるか否か、2つ先であるか否か、3つ先であるか否か、4つ以上先であるか否かを示す。第1の属性ベクトル511、第2の属性ベクトル512、第3の属性ベクトル513、第4の属性ベクトル514、および、その他属性ベクトルを平均して正規化し代表属性ベクトル520が生成される。なお、代表属性ベクトル520において、第1の属性501の生起確率は「0」、第2の属性502の生起確率は「0.2」、第3の属性503の生起確率は「0.7」、第4の属性504の生起確率は「0.1」、第5の属性505の生起確率は「0.5」、第6の属性506の生起確率は「0.2」、第7の属性507の生起確率は「0.3」、第8の属性508の生起確率は「0」である。
【0054】
なお、属性ベクトルの要素を単純に平均する例について説明したが、注目基本周波数パタンとの近さに応じて各属性が重み付けされた属性ベクトルを平均するようにしてもよい。
【0055】
次に、代表素片選別手段115によって、生成された代表基本周波数パタンの中から音声合成辞書102に登録する代表基本周波数パタンが選別される(S204)。
【0056】
図6は各代表基本周波数パタンが代表する領域601、602、603、604を示す。第1の領域601は、第1の領域601の中心の注目基本周波数パタン以外に基本周波数パタンがない。また、第2の領域602は、第2の領域602の中心の注目基本周波数パタンを含めて2つの基本周波数パタンがある。また、第3の領域603は、3つの基本周波数パタンがある。また、第4の領域604は、4つの基本周波数パタンがある。このような分布であったとき、基本周波数パタンが少ない領域、例えば第1の領域601については、代表基本周波数パタンは排除すると判定し、音声合成辞書102に登録しない。各領域内の基本周波数パタンの数Nkが、全体の基本周波数パタンの数N×係数β以上であるとき、該当する領域の代表基本周波数パタンを音声合成辞書102に登録すると判定する。
【0057】
次に、登録手段116によって、代表基本周波数パタンと代表属性ベクトルとが関連付けられて音声合成辞書102に登録される(S205)。なお、代表基本周波数パタンおよび代表属性ベクトルは、アクセント句のモーラ数とアクセント型とによって分類して登録される。
【0058】
以下、図3のフローチャートを用いて、音声合成装置120の動作について説明する。
【0059】
まず、テキスト入力手段121によって、音声合成するための日本語テキストが入力される(S301)。
【0060】
次に、解析手段122によって、入力されたテキストについて言語解析および意味解析が行なわれる(S302)。具体的には、入力された日本語テキストを意味的な最小単位である形態素に分割する形態素分析、形態素の組み合せの文節単位を推定する文節解析、各文節間の係り受け関係を推定する係り受け解析、入力テキストの読みを推定する読み解析などが行われる。言語解析および意味解析の解析結果として、アクセント型、ポーズ情報、アクセント句位置情報、文節係り受け情報、その他の日本語テキストを音声として出力する際の素性を示す情報が出力される。
【0061】
次に、目標属性ベクトル生成手段123によって、言語解析および意味解析の解析結果に基づいて、音声合成の素片について目標属性ベクトルが生成される(S303)。ここで、各アクセント句について目標属性ベクトルが生成される。
【0062】
次に、代表属性ベクトル取得手段124によって、生成された目標属性ベクトルと音声合成辞書102に記憶された複数の代表属性ベクトルとについて近さが計算され、代表属性ベクトルの中から目標属性ベクトルに最も近いものが取得される(S304)。
【0063】
なお、代表基本周波数パタンは、アクセント句のモーラ数とアクセント型とによって予め分類して登録されており、目標属性ベクトルと同じモーラ数およびアクセント型を有した代表属性ベクトルとについて近さが計算される。具体的には、数式4に示すように、目標属性ベクトルgjと各代表属性ベクトルflとの内積plを計算し、数式5に示すように、内積plの総和で各内積plを正規化し、正規化して得られた内積wlで、目標属性ベクトルgjと代表属性ベクトルflとの近さが評価され、内積が大きい代表属性ベクトルが取得される。
【数式4】
ただし、
【数式5】
【0064】
なお、代表属性ベクトルの検索には、内積を求める代わりに、ユークリッド距離、マハラノビス距離、その他の距離を計算してもよい。内積は、一般には、計算対象となる二つの属性ベクトルの中で「0」以外の要素を対象とした距離評価となるが、音声の場合、「0」であることも重要な情報を担う場合があるので、ユークリッド距離やマハラノビス距離により、「0」となる要素も距離に反映させるとよい。
【0065】
次に、代表素片取得手段125によって、目標属性ベクトルに最も近い代表属性ベクトルに対応する代表素片が音声合成辞書102から取り出される(S305)。ここで、代表基本周波数パタンが音声合成辞書102から取り出される。また、代表基本周波数パタンとともに音声合成辞書102に記憶されていた、音素の継続時間長、音素の振幅パタン、その他の韻律素片、および、音声波形素片が、音声合成辞書102から取り出される。
【0066】
次に、合成手段126によって、代表基本周波数パタンを用いて音声が合成され(S306)、音声出力手段127によって、合成音声が出力される(S307)。具体的には、必要な音声波形素片が、韻律素片に基づいて変形され、変形された音声波形素片が接続され、生成された合成音声が出力される。
【0067】
なお、図2および図3に示した処理は、それぞれプログラムによってコンピュータに実行させるようにしてもよい。
【0068】
以上説明したように、本実施の形態の音声合成システムは、アクセント句における声の高さの推移を示す複数の基本周波数パタンのそれぞれに各基本周波数パタンの素性を示す複数の属性を有した属性ベクトルを付与する属性ベクトル付与手段111と、複数の基本周波数パタンを用いて音声合成のための複数の代表基本周波数パタンを生成する代表素片生成手段113と、代表基本周波数パタンの生成に用いた基本周波数パタンに付与された複数の属性ベクトルを平均して代表属性ベクトルを生成する代表属性ベクトル生成手段114と、代表基本周波数パタンを用いて音声を合成する際、目標となる複数の属性を有した目標属性ベクトルを生成する目標属性ベクトル生成手段123と、代表属性ベクトルの中から目標属性ベクトルに最も近いものを取得する代表属性ベクトル取得手段124と、取得された代表属性ベクトルに対応する代表基本周波数パタンを用いて音声を合成する合成手段126とを備えるので、複数の属性の中で素片に影響を与えているものとそうでないものとの差が統計的に与えられた代表属性ベクトルに基づいて、目標属性に適合した適切な代表素片が音声合成に用いられることになり、高品質の音声を合成することができる。
【0069】
なお、上記説明では、基本周波数パタンを例に述べたが、平均化した属性ベクトルを用いる手法は、音素の時間長、振幅パタン等の韻律素片をはじめ、音声波形素片、その他の素片に適用してもよい。
【0070】
【発明の効果】
本発明によれば、高品質の音声を合成することができるという優れた効果を有する音声合成システム、音声合成辞書構築装置、音声合成装置、音声合成方法、音声合成辞書構築プログラムおよび音声合成プログラムを提供することができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態の音声合成システムを示すブロック図
【図2】本発明の一実施の形態の音声合成システムにおける音声合成辞書構築処理を示すフローチャート
【図3】本発明の一実施の形態の音声合成システムにおける音声合成処理を示すフローチャート
【図4】本発明の一実施の形態の音声合成システムにおける代表基本周波数パタンの生成を説明するための説明図
【図5】本発明の一実施の形態の音声合成システムにおける代表属性ベクトルの生成を説明するための説明図
【図6】本発明の一実施の形態の音声合成システムにおける基本周波数パタンの選別を説明するための説明図
【符号の説明】
101 音声コーパス
102 音声合成辞書
110 音声合成辞書構築装置
111 属性ベクトル付与手段
112 素片検索手段
113 代表素片生成手段
114 代表属性ベクトル生成手段
115 代表素片選別手段
116 登録手段
120 音声合成装置
121 テキスト入力手段
122 解析手段
123 目標属性ベクトル生成手段
124 代表属性ベクトル取得手段
125 代表素片取得手段
126 合成手段
127 音声出力手段
Claims (14)
- 複数の韻律素片および複数の音声波形素片を含む母集合における各々の素片に関する複数の属性を有した属性ベクトルを前記素片に付与する属性ベクトル付与手段と、複数の前記素片を用いて音声合成のための複数の代表素片を生成する代表素片生成手段と、前記代表素片の生成に用いた前記素片に付与された複数の前記属性ベクトルを平均して代表属性ベクトルを生成する代表属性ベクトル生成手段と、前記代表素片を用いて音声を合成する際、目標となる複数の属性を有した目標属性ベクトルを生成する目標属性ベクトル生成手段と、前記代表属性ベクトルの中から前記目標属性ベクトルに最も近いものを取得する代表属性ベクトル取得手段と、取得された前記代表属性ベクトルに対応する前記素片を用いて音声を合成する合成手段とを備えることを特徴とする音声合成システム。
- 前記属性ベクトル付与手段が、アクセント句における声の高さの推移を示す複数の基本周波数パタンのそれぞれに各基本周波数パタンの素性を示す複数の属性を有した属性ベクトルを付与し、前記代表素片生成手段が、複数の前記基本周波数パタンを用いて音声合成のための複数の代表基本周波数パタンを生成し、前記代表属性ベクトル生成手段が、前記代表基本周波数パタンの生成に用いた前記基本周波数パタンに付与された複数の前記属性ベクトルを平均して代表属性ベクトルを生成し、前記目標属性ベクトル生成手段が、前記代表基本周波数パタンを用いて音声を合成する際に目標となる複数の属性を有した目標属性ベクトルを生成し、前記代表属性ベクトル取得手段が、前記代表基本周波数パタンに関連する前記代表属性ベクトルの中から前記目標属性ベクトルに最も近いものを取得し、前記合成手段が、取得された前記代表属性ベクトルに対応する前記代表基本周波数パタンを用いて音声を合成するようにしたことを特徴とする請求項1に記載の音声合成システム。
- 前記代表素片生成手段が、特定の基本周波数パタンとの近さが一定値以内にある前記基本周波数パタンを用いて平均することにより前記代表基本周波数パタンを生成するようにしたことを特徴とする請求項2に記載の音声合成システム。
- 前記代表素片生成手段が、特定の基本周波数パタンから近い順で一定数までの前記基本周波数パタンを用いて平均することにより前記代表基本周波数パタンを生成するようにしたことを特徴とする請求項2または請求項3に記載の音声合成システム。
- 前記代表基本周波数パタンが、モーラ数およびアクセント型によって予め分類されたことを特徴とする請求項2ないし請求項4の何れかに記載の音声合成システム。
- 前記代表属性ベクトル生成手段が、前記特定の基本周波数パタンとの近さに対応して各属性が重み付けされた前記属性ベクトルを用いて前記代表属性ベクトルを生成するようにしたことを特徴とする請求項2ないし請求項5の何れかに記載の音声合成システム。
- 前記代表素片生成手段が生成した前記代表基本周波数パタンの中から一定数以上の前記基本周波数パタンを用いて生成されたものを選別する代表素片選別手段を備え、前記代表属性ベクトル取得手段が、選別された前記代表基本周波数パタンを取得するようにしたことを特徴とする請求項2ないし請求項6の何れかに記載の音声合成システム。
- 前記代表属性ベクトル取得手段が、前記目標属性ベクトルと前記各代表属性ベクトルとの内積を算出して前記目標属性ベクトルと前記各代表属性ベクトルとの近さを判定するようにしたことを特徴とする請求項2ないし請求項7の何れかに記載の音声合成システム。
- 複数の韻律素片および複数の音声波形素片を含む母集合における各々の素片に関する複数の属性を有した属性ベクトルを前記素片に付与する属性ベクトル付与手段と、複数の前記素片を用いて音声合成のための複数の代表素片を生成する代表素片生成手段と、前記代表素片の生成に用いた前記素片に付与された複数の前記属性ベクトルを平均して代表属性ベクトルを生成する代表属性ベクトル生成手段とを備え、音声合成に用いる前記代表素片と前記代表属性ベクトルとを含む音声合成辞書を構築するようにしたことを特徴とする音声合成辞書構築装置。
- 請求項9に記載の音声合成辞書構築装置によって構築された前記音声合成辞書が含む前記代表素片を用いて音声を合成する音声合成装置であって、目標となる複数の属性を有した目標属性ベクトルを生成する目標属性ベクトル生成手段と、前記代表属性ベクトルの中から前記目標属性ベクトルに最も近いものを取得する代表属性ベクトル取得手段と、取得された前記代表属性ベクトルに対応する前記素片を用いて音声を合成する合成手段とを備えることを特徴とする音声合成装置。
- 複数の韻律素片および複数の音声波形素片を含む母集合における各々の素片に関する複数の属性を有した属性ベクトルを前記素片に付与するステップと、複数の前記素片を用いて音声合成のための複数の代表素片を生成するステップと、前記代表素片の生成に用いた前記素片に付与された複数の前記属性ベクトルを平均して代表属性ベクトルを生成するステップと、前記代表素片を用いて音声を合成する際、目標となる複数の属性を有した目標属性ベクトルを生成するステップと、前記代表属性ベクトルの中から前記目標属性ベクトルに最も近いものを取得するステップと、取得された前記代表属性ベクトルに対応する前記素片を用いて音声を合成するステップとを含むことを特徴とする音声合成方法。
- アクセント句における声の高さの推移を示す複数の基本周波数パタンのそれぞれに各基本周波数パタンの素性を示す複数の属性を有した属性ベクトルを付与するステップと、複数の前記基本周波数パタンを用いて音声合成のための複数の代表基本周波数パタンを生成するステップと、前記代表基本周波数パタンの生成に用いた前記基本周波数パタンに付与された複数の前記属性ベクトルを平均して代表属性ベクトルを生成するステップと、前記代表基本周波数パタンを用いて音声を合成する際、目標となる複数の属性を有した目標属性ベクトルを生成するステップと、前記代表属性ベクトルの中から前記目標属性ベクトルに最も近いものを取得するステップと、取得された前記代表属性ベクトルに対応する前記代表基本周波数パタンを用いて音声を合成するステップとを含むことを特徴とする音声合成方法。
- 複数の韻律素片および複数の音声波形素片を含む母集合における各々の素片に関する複数の属性を有した属性ベクトルを前記素片に付与するステップと、複数の前記素片を用いて音声合成のための複数の代表素片を生成するステップと、前記代表素片の生成に用いた前記素片に付与された複数の前記属性ベクトルを平均して代表属性ベクトルを生成するステップと、前記代表素片と前記代表属性ベクトルとを音声合成辞書に登録するステップとをコンピュータに実行させることを特徴とする音声合成辞書構築プログラム。
- 請求項13に記載の音声合成辞書構築プログラムによって構築された前記音声合成辞書が含む前記代表素片を用いて音声を合成する際、目標となる複数の属性を有した目標属性ベクトルを生成するステップと、前記代表属性ベクトルの中から前記目標属性ベクトルに最も近いものを取得するステップと、取得された前記代表属性ベクトルに対応する前記素片を用いて音声を合成するステップとをコンピュータに実行させることを特徴とする音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002279090A JP2004117663A (ja) | 2002-09-25 | 2002-09-25 | 音声合成システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002279090A JP2004117663A (ja) | 2002-09-25 | 2002-09-25 | 音声合成システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004117663A true JP2004117663A (ja) | 2004-04-15 |
Family
ID=32274196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002279090A Pending JP2004117663A (ja) | 2002-09-25 | 2002-09-25 | 音声合成システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004117663A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006120131A (ja) * | 2004-09-27 | 2006-05-11 | Jfe Steel Kk | 操業結果予測方法及びそのシステム |
JP2006330200A (ja) * | 2005-05-24 | 2006-12-07 | Toshiba Corp | ピッチパターン生成方法及びその装置 |
US11423875B2 (en) * | 2018-05-31 | 2022-08-23 | Microsoft Technology Licensing, Llc | Highly empathetic ITS processing |
-
2002
- 2002-09-25 JP JP2002279090A patent/JP2004117663A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006120131A (ja) * | 2004-09-27 | 2006-05-11 | Jfe Steel Kk | 操業結果予測方法及びそのシステム |
JP2006330200A (ja) * | 2005-05-24 | 2006-12-07 | Toshiba Corp | ピッチパターン生成方法及びその装置 |
US11423875B2 (en) * | 2018-05-31 | 2022-08-23 | Microsoft Technology Licensing, Llc | Highly empathetic ITS processing |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7761301B2 (en) | Prosodic control rule generation method and apparatus, and speech synthesis method and apparatus | |
EP1213705B1 (en) | Method and apparatus for speech synthesis | |
US7778819B2 (en) | Method and apparatus for predicting word prominence in speech synthesis | |
JPH10116089A (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
JP2010230699A (ja) | 音声合成装置、プログラム、及び方法 | |
US9330662B2 (en) | Pattern classifier device, pattern classifying method, computer program product, learning device, and learning method | |
JP4403996B2 (ja) | 韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラム | |
Vekkot et al. | Prosodic transformation in vocal emotion conversion for multi-lingual scenarios: A pilot study | |
JP2018180459A (ja) | 音声合成システム、音声合成方法、及び音声合成プログラム | |
JP2004117662A (ja) | 音声合成システム | |
US20200013409A1 (en) | Speaker retrieval device, speaker retrieval method, and computer program product | |
JP2015084047A (ja) | 文集合作成装置、文集合作成方法および文集合作成プログラム | |
JP4532862B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP2004117663A (ja) | 音声合成システム | |
JP4829605B2 (ja) | 音声合成装置および音声合成プログラム | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
KR100759172B1 (ko) | 음성 합성 장치, 음성 합성 방법, 및 음성 합성 프로그램을기억한 기억 매체 | |
JP7363107B2 (ja) | 発想支援装置、発想支援システム及びプログラム | |
CN108288464B (zh) | 一种修正合成音中错误声调的方法 | |
JP5393546B2 (ja) | 韻律作成装置及び韻律作成方法 | |
Blaszke et al. | Real and Virtual Instruments in Machine Learning–Training and Comparison of Classification Results | |
EP1777697B1 (en) | Method for speech synthesis without prosody modification | |
JP2020106643A (ja) | 言語処理装置、言語処理プログラムおよび言語処理方法 | |
JP5795985B2 (ja) | 形態素解析装置、形態素解析方法および形態素解析プログラム | |
JPH0962286A (ja) | 音声合成装置および音声合成方法 |