JP6036681B2

JP6036681B2 - 音声合成システム、音声合成方法、および音声合成プログラム

Info

Publication number: JP6036681B2
Application number: JP2013501129A
Authority: JP
Inventors: 康行三井; 玲史近藤; 正徳加藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-02-22
Filing date: 2012-02-17
Publication date: 2016-11-30
Anticipated expiration: 2032-02-17
Also published as: WO2012115212A1; JPWO2012115212A1

Description

本発明は、音声合成システム、音声合成方法、および音声合成プログラムに関し、特に、自然性の高い音声合成を実現する技術に関する。

近年、テキスト音声合成技術（Ｔｅｘｔ−ｔｏ−Ｓｐｅｅｃｈ：ＴＴＳ）の進歩により、人間らしさを備えた合成音声を用いたサービスや製品が数多くみられるようになってきた。一般的に、ＴＴＳは、まず形態素解析等により入力されたテキストの言語構造等を解析し（言語解析処理）、その結果を元にアクセント等が付与された音韻情報を生成する。さらに、ＴＴＳは、発音情報に基づいて基本周波数（Ｆ０）パタンや音素継続時間長を推定し、韻律情報を生成する（韻律生成処理）。最終的に、ＴＴＳは生成した韻律情報と音韻情報に基づいて波形を生成する（波形生成処理）。
前述の韻律生成処理の方法として、非特許文献１に示されているように、Ｆ０パタンを単純なルールで表現できるようにモデル化して、そのルールを用いて韻律を生成する方法が知られている。このようにルールを用いた方法は、単純なモデルでＦ０パタンが生成できるため広く使われているが、韻律が不自然で合成音声が機械的になってしまうという問題があった。
これに対し、近年では統計的手法を用いた音声合成方式が注目されている。その代表的な手法が、非特許文献２に記されている。非特許文献２は、統計的手法として隠れマルコフモデル（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ：ＨＭＭ）を用いたＨＭＭ音声合成を開示する。ＨＭＭ音声合成の技術は、大量の学習データを用いてモデル化した韻律モデルおよび音声合成単位（パラメータ）モデルを使って音声を生成する。ＨＭＭ音声合成の技術は、実際の人間が発声した音声を学習データとしているため、前述のＦ０生成モデルに比べて、より人間らしい韻律が生成できる。

藤崎博也，須藤寛，「日本語単語アクセントの基本周波数パタンとその生成機構のモデル」，日本音響学会誌，２７巻，９号，ｐｐ．４４５−４５３，１９７１．徳田恵一，「隠れマルコフモデルの音声合成への応用」，電気通信学会技術研究報告，ＳＰ９９−６１，ｐｐ．４７−５４，１９９９．

しかし、上記非特許文献に記載されるような統計的手法を用いた音声合成方式では、正しいＦ０パタンが生成されず不自然な音声になる場合がある。その理由は、統計的手法を用いた音声合成方式では、主に学習データの情報量を基準として学習データ空間を部分空間に分割（クラスタリング）するため、空間内に情報量の粗密状態が発生し、学習データが少ない疎な空間が存在するからである。
この問題を解決する方法の１つとして、さらに大量のデータでモデル学習するという方法が考えられる。しかし、大量の学習データを収集するのは困難であり、また、どのくらいのデータ量を収集すれば十分であるかが不明であるため、現実的ではない。
以上より、本発明の目的は、不要に大量な学習データを収集することなく、自然性の高い音声合成を可能にする規則を生成する技術を提供することである。

上記目的を達成するため、本発明の音声合成システムは、音声波形データから抽出された特徴量の集合である学習データを格納する学習用データベースと、前記学習用データベースが格納する学習データに関する空間である特徴量空間を、部分空間に分割する特徴量空間分割手段と、前記特徴量空間分割手段で分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力する疎密状態検出手段と、前記疎密状態検出手段から出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する規則生成手段と、を含む。
上記目的を達成するため、本発明の音声合成方法は、音声波形データから抽出された特徴量の集合である学習データを格納し、前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、前記出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する。
上記目的を達成するため、本発明の記録媒体が格納するプログラムは、音声波形データから抽出された特徴量の集合である学習データを格納し、前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、前記出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する、処理をコンピュータに実行させる。

本発明の音声合成システム、音声合成方法、および音声合成プログラムによれば、不要に大量な学習データを収集することなく、自然性の高い音声合成が実現可能な規則を生成することができる。

本発明の第１実施形態に係る音声合成システム１０００の構成例を示すブロック図である。本発明の第１実施形態に係る音声合成システム１０００の動作の一例を示すフローチャートである。本発明の第２実施形態に係る音声合成システム２０００の構成例を示すブロック図である。特徴量空間分割部１において学習された結果として、二分木構造クラスタリングで作成された決定木構造の模式図である。特徴量空間分割部１による学習データのクラスタリング結果を表す、特徴量空間の概念的な模式図である。音声合成システム２０００における、準備段階のうち音声合成用規則を生成する動作の一例を示すフローチャートである。音声合成システム２０００における、準備段階のうち韻律生成モデルを作成する動作の一例を示すフローチャートである。音声合成システム２０００における、実際に音声合成処理を行う音声合成段階の動作の一例を示すフローチャートである。本発明の第３実施形態に係る音声合成システム３０００の構成例を示すブロック図である。音声合成システム３０００における、準備段階のうち波形生成モデルを作成する動作の一例を示すフローチャートである。音声合成システム３０００における、実際に音声合成処理を行う音声合成段階の動作の一例を示すフローチャートである。第２実施形態に係る音声合成システム２０００を実現するハードウェア構成の一例を示すブロック図である。

まず、本発明の実施形態の理解を容易にするために、本発明の背景を説明する。
非特許文献２に記載されるような統計的手法を用いた技術では、正しいＦ０パタンが生成されず不自然な音声になる場合がある。
具体的に説明すると、例えば、「人」（２モーラ）、「単語」（３モーラ）、「音声」（４モーラ）といった数モーラ程度の学習データは十分な数が存在する。ここで、モーラとは、一定の時間的長さをもった音の文節単位であり、日本語では一般に拍とも呼ばれる。そのため、統計的手法を用いた技術は、数モーラ程度の音については正しいＦ０パタンを生成することができる。しかし、例えば「アルバートアインシュタイン医科大学」（１８モーラ）のような学習データは極端に数が少ない、あるいは存在しない恐れがある。そのため、このような単語を含むテキストが入力された場合、Ｆ０パタンが乱れてしまい、アクセント位置がずれる等の問題が発生する。
以下に説明される本発明の実施形態によれば、学習データが少ない部分空間に属する言語解析結果は生成されない、あるいは生成されにくくなる。そのため、本発明の実施形態によれば、学習データ不足を要因とした音声合成の不安定性を回避することができ、自然性の高い合成音声を生成することが可能となる。
以下、本発明の実施形態について図面を参照して説明する。なお、各実施形態について、同様な構成要素には同じ符号を付し、適宜説明を省略する。また、以下の各実施形態では日本語の場合を例に説明するが、本願発明の適用は日本語の場合に限定されない。
＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成システム１０００の構成例を示すブロック図である。図１を参照すると、本実施形態に係る音声合成システム１０００は、特徴量空間分割部１と、疎密状態検出部２と、規則生成部３と、学習用データベース４とを含む。
学習用データベース４は、音声波形データから抽出された特徴量の集合を学習データとして格納する。学習用データベース４は、音声波形データに対応した文字列である発音情報を格納する。学習用データベース４は、時間長情報やピッチ情報等を格納していても良い。
ここで、学習データである特徴量は、少なくとも音声波形におけるＦ０の時間変化情報であるＦ０パタンを含む。さらに、学習データである特徴量は、音声波形を高速フーリエ変換（ＦＦＴ）して求められるスペクトル情報や各音素の時間長情報であるセグメンテーション情報等を含んでも良い。
特徴量空間分割部１は、学習用データベース４が格納する学習データに関する空間（以下、「特徴量空間」と呼ぶ。）を、部分空間に分割する。ここで特徴量空間とは、Ｎ個の所定の特徴量を軸とするＮ次元の空間である。次元の数Ｎは任意であり、例えば、スペクトル情報及びセグメンテーション情報の２つの特徴量を軸とした場合、特徴量空間は２次元の空間である。
特徴量空間分割部１は、情報量を基準とした二分木構造クラスタリング等によって特徴量空間を部分空間に分割しても良い。特徴量空間分割部１は、部分空間に分割された学習データを疎密状態検出部２に出力する。
疎密状態検出部２は、特徴量空間分割部１で生成された各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生する。疎密状態検出部２は発生した疎密情報を規則生成部３に出力する。
ここで疎密情報とは、学習データの情報量の粗密状態を示す情報である。疎密情報は、部分空間に属する学習データ群の特徴量ベクトルの平均値と分散値でも良い。
規則生成部３は、疎密状態検出部２から出力された疎密情報に基づいて、音声合成用規則を生成する。
ここで、音声合成用規則とは、音声を合成するために必要な情報である発音情報を生成するための規則である。音声合成用規則は、少なくとも言語解析情報を含む。ここで言語解析情報とは、テキストの言語解析処理に必要なデータや規則に関する情報である。言語解析情報は、例えば形態素解析のためのデータや規則に関する情報である。
音声合成用規則は、言語解析情報の他に、アクセント位置やアクセント句境界位置などの情報である、音声合成のための付加的情報の付加の方法を示す情報を含む。
音声合成用規則は、学習データが少ない（疎な）部分空間に属するＦ０パタンで表現されるような言語について、言語解析結果として出力されないように、辞書内のスコアを極端に低くする、又は０とするような規則でも良い。
なお、発音情報とは、音声を合成するために必要な情報であり、発声内容を表現する音素、音節列、アクセント位置等の情報を含んでも良い。具体的には、発音情報は、テキストに対し形態素解析といった言語解析処理を行い、該言語解析処理の結果にアクセント位置やアクセント句境界位置といった音声合成のための付加的情報を付与したり、変更を加えたりする処理を行うことで生成される。
例えば、「アルバートアインシュタイン医科大学」という単語が含まれるテキストが入力された場合を考える。この場合、上記単語に関する発音情報は、例えば日本語読みで「ａｒｕｂａ− ｔｏａｉＮｓｙｕｔａｉＮｉｋａｄａ＠ｉｇａｋｕ」という文字列等である。“＠”は、アクセント位置を示している。発音情報をどのようにして生成するかを定めた規則が、上述の音声合成用規則である。
図２は、本発明の第１実施形態に係る音声合成システム１０００の動作の一例を示すフローチャートである。
図２に示すように、まず、特徴量空間分割部１は、学習用データベース４が格納する学習データに関する空間である特徴量空間を分割する（ステップＳ１）。
次に、疎密状態検出部２は、特徴量空間分割部１で分割された特徴量空間の一部である各部分空間における学習データの情報量の疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生する（ステップＳ２）。疎密状態検出部２は、発生した疎密情報を規則生成部３に出力する。
次に、規則生成部３は、疎密状態検出部２から出力された疎密情報に基づいて、音声合成用規則を生成する（ステップＳ３）。
以上のように、本実施形態に係る音声合成システム１０００によれば、学習データ不足を要因とした音声合成の不安定性を回避することができ、自然性の高い合成音声を生成することが可能となる。その理由は、音声合成システム１０００は、学習データが少ない部分空間に属する発音情報は生成されない、あるいは生成されにくくなる規則を生成するためである。
＜第２実施形態＞
続いて、本発明の第２実施形態について説明する。
図３は、本発明の第２実施形態に係る音声合成システム２０００の構成例を示すブロック図である。図３を参照すると、本実施形態に係る音声合成システム２０００は、学習用データベース４と、音声合成学習装置２０と、韻律生成モデル格納部６と、言語解析用辞書７と、修正言語解析用辞書８と、音声合成装置４０とを含む。
音声合成学習装置２０は、特徴量空間分割部１と、疎密状態検出部２と、規則生成部３と、韻律学習部５とを含む。特徴量空間分割部１及び疎密状態検出部２は、第１実施形態と同様の構成である。
なお、本実施形態では、統計的手法としてＨＭＭを、特徴量空間の分割方法として二分木構造クラスタリングを用いるものとする。統計的手法としてＨＭＭを用いる場合は、クラスタリングと学習を交互に行う場合が一般的である。そのため、本実施形態では特徴量空間分割部１と韻律学習部５を併せてＨＭＭ学習部３０とし、明示的に分割された構成を取らないものとする。しかしながら本実施形態はあくまで発明の実施態様の一例であり、ＨＭＭ以外の統計的手法を用いる場合等の発明の構成は、この限りではない。
図３を参照すると、音声合成装置４０は、言語解析部９と、韻律生成部１０と、波形生成部１１とを含む。
本実施形態において、学習用データベース４には予め十分な学習データが格納されているものとする。すなわち、学習用データベース４は多量の音声波形データから抽出した特徴量を格納している。学習用データベース４は、Ｆ０パタン、セグメンテーション情報及びスペクトル情報を音声波形データの特徴量として格納しているものとする。そしてこれらの特徴量の集合が学習データとして用いられる。また、学習データは１人の話者の音声を収集したものとする。
まず、ＨＭＭ学習部４１（特徴量空間分割部１及び韻律学習部５）において、学習用データベース４を用いた統計的手法による学習が行われる。
ＨＭＭ学習部３０において特徴量空間分割部１は、第１実施形態と同様に学習用データベース４が格納する特徴量空間を、部分空間に分割する。具体的には、特徴量空間分割部１は、学習用データベース４が格納する特徴量空間を、二分木構造クラスタリングにより部分空間に分割する。以下では、特徴量空間分割部１によって生成された部分空間のことをクラスタとも呼ぶ。
図４は、特徴量空間分割部１において学習された結果として、二分木構造クラスタリングで作成された決定木構造の模式図である。図４に示すように、二分木構造クラスタリングとは、学習データを、各ノードＰ１〜Ｐ６に配置された質問により２つのノードに分割する処理を繰り返し、最終的に分割された各クラスタの情報量が均等になるようにクラスタリングする手法である。
例えば図４では、特徴量空間分割部１は、現在のノードに配置された質問に基づいて「ＹＥＳ」と「ＮＯ」のいずれに該当するかを判断して、学習データを分割する。図４の例では、特徴量空間分割部１は、最初にノードＰ１に配置された質問である「当該音素が有声音」か否かに基づいて学習データを分割する。次に、例えば「ＹＥＳ」と判断されて分割された学習データを、特徴量空間分割部１は、ノードＰ２に配置された質問である「先行音素が無声音」か否かに基づいて分割する。特徴量空間分割部１は、このような分割を繰り返して所定の学習データ数に分割された段階で、その分割された学習データを一つのクラスタとする。
図５は、特徴量空間分割部１による学習データのクラスタリング結果を表す、特徴量空間の概念的な模式図である。図５における縦軸及び横軸は所定の特徴量を示す。
図５では、各クラスタに属する学習データ数が４つであるような場合を示している。図５には、特徴量空間分割部１によって学習データ数が４つになるまで分割された結果、各クラスタに該当する学習データのモーラ数とアクセント核の型が、どのようになっているかが示されている。ここで、アクセント核の型とは、一つのアクセント句の中で音程が大きく下がる直前の位置を示す類型である。
なお、図５はあくまで概念を示した模式図であり、軸は２つに限定されない。特徴量空間は、例えば１０個の特徴量を軸とした１０次元の空間でも良い。
図５に示すように、特徴量空間分割部１は、１０モーラ以上８型以上クラスタのような学習データ数が疎である空間に、大きなクラスタを生成する。このようなクラスタは非常に学習データ数が少ない疎なクラスタとなる。
特徴量空間分割部１は、部分空間に分割した学習データを、疎密状態検出部２及び韻律学習部５に出力する。
ＨＭＭ学習部３０は、特徴量空間の分割とともに韻律生成モデルを作成する。
ＨＭＭ学習部３０において韻律学習部５は、特徴量空間分割部１で分割された特徴量の空間内で、韻律モデルの学習を行い、韻律生成モデルを作成する。すなわち、韻律学習部５は、特徴量空間分割部１における学習データのクラスタリング結果（例えば図４に示す二分木構造クラスタリングの結果）を用いて韻律生成モデルを作成する。
韻律生成モデル格納部６は、韻律学習部５によって作成された韻律生成モデルを格納する。
具体的には韻律学習部５は、クラスタ毎に学習用データベース４が格納している音声波形データに対応する発音情報に対し、どのような韻律を生成すれば良いかを統計的に学習する。韻律学習部５は、その学習の結果をモデル（韻律生成モデル）にし、各クラスタに対応させて韻律生成モデル格納部６に格納する。
なお、学習用データベース４は時間長情報及びピッチ情報を格納しない構成とし、韻律学習部５が、入力された音声波形データから発音情報に対応する時間長情報やピッチ情報を学習する構成としても良い。
次に、疎密状態検出部２は、特徴量空間分割部１から入力された学習データにおける各クラスタの疎密情報を抽出する。疎密情報は、例えば、アクセント句のモーラ数とアクセント核の相対位置に関する分散値でも良い。このとき、例えば図５に示す３モーラ１型クラスタにおいては、全てのデータが３モーラ１型である。そのため、分散値は０となる。
疎密状態検出部２は、抽出した各クラスタの疎密情報を、規則生成部３に出力する。
次に、規則生成部３は、各クラスタの疎密情報に基づいて音声合成用規則を生成する。ここでは、規則生成部３は、既存の言語解析用辞書７を修正することで音声合成用規則を生成することとする。ここで言語解析用辞書７とは、テキストの言語解析処理に必要なデータや規則である上述の言語解析情報を格納する辞書である。
本実施形態において規則生成部３は、言語解析用辞書７を「言語解析結果として、疎なクラスタに属するアクセント句の発音情報が生成されないようにする」という方針で修正する。
具体的には、疎密情報に対応する分散値の閾値が設定され、分散値が閾値以上であるようなクラスタに属するアクセント句の発音情報が生成されないように、規則生成部３は辞書内の該当するデータを削除する。例えば、６〜８モーラ３型クラスタの分散値をσＡ、１０モーラ以上８型以上クラスタの分散値をσＢと仮定した場合、規則生成部３は、σＡ＜σＴ＜σＢを満たす分散値の閾値σＴを設定する。
この場合、３モーラ１型クラスタは分散値が０なので、規則生成部３は、「僕は」「枕」といったような３モーラ１型のアクセント句については、辞書の修正を行わない。同様に、「核開発（６モーラ）」といったような６〜８モーラ３型クラスタに属するアクセント句についても、規則生成部３は辞書の修正を行わない。
一方、「アルバートアインシュタイン医科大学（１８モーラ１５型）」といったような１０モーラ以上８型以上クラスタに属するアクセント句については、規則生成部３は辞書内から該当のデータを削除し、言語解析結果として出力されないようにする。
または、言語解析用辞書７が言語解析用のスコアを格納しており言語解析にスコア計算が用いられる場合、規則生成部３は、該当するデータが選択されないよう該当するデータのスコアを極端に低い値に置換することで、言語解析用辞書７を修正しても良い。また、規則生成部３は、言語解析用辞書７を修正するのではなく、音声合成エンジン内の言語解析部９やその周辺におけるアルゴリズムに変更を加えることで、音声合成用規則を生成しても良い。
規則生成部３は、修正した言語解析用辞書７の内容である音声合成用規則を修正言語解析用辞書８に出力する。
修正言語解析用辞書８は、規則生成部３が上記の規則に基づいて修正した言語解析用辞書７の内容である音声合成用規則を格納する。
次に、テキストを入力して行う音声合成の動作について説明する。
言語解析部９は音声合成の対象となるテキストが入力されると、該入力されたテキストに対し修正言語解析辞書８を用いて、形態素解析等により言語解析処理を行う。言語解析部９は、言語解析処理の結果から発音情報を生成し、該発音情報を韻律生成部１０に出力する。
次に、韻律生成部１０は、言語解析部９から入力された発音情報に対して、韻律生成モデル格納部６が格納する韻律生成モデルを用いて韻律情報を生成する。韻律生成部１０は、発音情報と、生成した韻律情報を波形生成部１１に出力する。
波形生成部１１は、発音情報と、韻律生成部１０が生成した韻律情報とを元に、音声波形を生成する。波形生成部１１は、生成した音声波形を合成音声として出力する。波形の生成は関連する技術に基づいて行えば良く、波形はいかなる方法で生成されても良い。波形生成部１１は、生成した音声波形を合成音声として出力する。
次に図６及び図７を参照して、音声合成システム２０００の動作の流れを、音声合成用規則及び韻律生成モデルを生成する準備段階と、実際に音声合成処理を行う音声合成段階の２段階に分けて順に説明する。
図６は、音声合成システム２０００における、準備段階のうち音声合成用規則を生成する動作の一例を示すフローチャートである。
図６に示すように、ステップＳ１〜Ｓ３の処理は、図２における処理と同様である。
Ｓ３の処理の後、規則生成部３は、修正した言語解析用辞書７の内容である音声合成用規則を修正言語解析用辞書８に格納する（ステップＳ４）。
図７は、音声合成システム２０００における、準備段階のうち韻律生成モデルを作成する動作の一例を示すフローチャートである。
ステップＳ１の処理は、図２及び図６における処理と同様である。
ステップＳ１の後、韻律学習部５は、特徴量空間分割部１で分割された特徴量空間内で、韻律モデルの学習を行い、韻律生成モデルを作成する（ステップＳ２Ａ）。
次に、韻律生成モデル格納部６は、韻律学習部５によって作成された韻律生成モデルを格納する（ステップＳ３Ａ）。
なお、上記図６及び図７で説明した準備段階の処理は、逆の順序で行われても良いし、並行して行われても良い。
図８は、音声合成システム２０００における、実際に音声合成処理を行う音声合成段階の動作の一例を示すフローチャートである。
図８に示すように、まず、言語解析部９は、音声合成の対象となるテキストが入力される（ステップＳ１Ｂ）。
次に、言語解析部９は、入力されたテキストに対し、修正言語解析用辞書８が格納する音声合成用規則に従って言語解析処理を行い、発音情報を生成する（ステップＳ２Ｂ）。言語解析部９は、生成した発音情報を韻律生成部１０に出力する。
次に、韻律生成部１０は、言語解析部９から入力された発音情報に対して、韻律生成モデル格納部６が格納する韻律生成モデルを用いて韻律情報を生成する（ステップＳ３Ｂ）。韻律生成部１０は、発音情報と韻律情報を波形生成部１１に出力する。
次に、波形生成部１１は、韻律生成部１０から入力された発音情報と韻律情報とに基づいて、音声波形を生成し（ステップＳ４Ｂ）、該音声波形を合成音声として出力する。
以上のように、本実施形態に係る音声合成システム２０００によれば、学習データ不足を要因としたＦ０パタンの乱れを回避することができ、自然性の高い音声合成をすることが可能となる。その理由は、同一のクラスタリング結果に基づいて韻律学習と疎密情報の抽出が行われ、規則生成部３が該疎密情報に基づいて音声合成用規則を生成することで、学習データが十分な発音情報が生成されるからである。
また、本実施形態では、学習用データベースとして、１人の話者の音声を収集したものを想定したが、複数の話者の音声を収集したものを学習用データベースとしても良い。単独話者の学習用データベースの場合は、話者の癖といった話者性を再現できる音声合成用規則が作成できるという効果がある。複数話者の学習用データベースの場合は、汎用的な音声合成用規則が作成できるという効果がある。
＜第３実施形態＞
続いて、本発明の第３実施形態について説明する。
図９は、本発明の第３実施形態に係る音声合成システム３０００の構成例を示すブロック図である。
図９を参照すると、第３実施形態に係る音声合成システム３０００は、第２実施形態に係る音声合成学習装置２０及び音声合成装置４０に代わって、音声合成学習装置２１及び音声合成装置４１を含み、さらに波形生成モデル格納部１２を含む。また、音声合成システム３０００は、言語解析用辞書７及び修正言語解析用辞書８に代わって、音声合成用辞書１４及び修正音声合成用辞書１５を含む。
音声合成学習装置２１は、ＨＭＭ学習部３０に代わって、学習用データベース４を用いて韻律生成モデルと波形生成モデルを生成するＨＭＭ学習部３１を含む。ＨＭＭ学習部３１は、ＨＭＭ学習部３０と同様の構成に加えて、波形学習部１２をさらに含む。
音声合成装置４１は、波形生成部１０に代わって、波形生成モデル格納部１６を用いて波形を生成する波形生成部１７を含む。
波形学習部１２は、特徴量空間分割部１で分割された特徴量の空間内で、波形モデルの学習を行い、波形生成モデルを作成する。
波形生成モデルとは、学習用データベース内の波形のスペクトル特徴量をモデル化したものである。具体的には、特徴量はケプストラム等でも良い。なお、本実施形態においては波形生成のためのデータとして、ＨＭＭにより生成したモデルを用いる。しかし、本発明に適用する音声合成方式はこれに限定されず、別の音声合成方式、例えば波形接続方式を用いても構わない。なお、その場合ＨＭＭ学習部３１で学習されるのは韻律生成モデルのみである。
波形生成モデル格納部１６は、波形学習部１２によって作成された波形生成モデルを格納する。
規則生成部１３は、各クラスタの疎密情報に基づいて音声合成用規則を生成する。ここでは、規則生成部３は、既存の音声合成用辞書１４を修正することで音声合成用規則を生成することとする。ここで音声合成用辞書１４とは、テキストの言語解析処理に必要なデータや規則の他に、言語解析処理の結果に音声合成のための付加的情報を付与したり、変更を加えたりするための規則を格納する辞書である。
規則生成部１３は、アクセント位置やアクセント句境界に関する規則以外についての規則を修正する。以下では具体例として、規則生成部１３が「ポーズの挿入／削除」、および「言い回しの変更」に関する規則を修正する動作を説明する。
「ポーズの挿入／削除」に関する規則とは、音声が人間らしいものになるように、「自然な位置でポーズを挿入する」、「不自然な位置のポーズを削除する」といった規則である。具体的な規則としては、「１つの呼気段落がＮモーラ以下」、「接続詞の後はポーズを入れる」等の規則である。
また、「言い回しの変更」に関する規則とは、言語として標準的なテキストから生成された言語解析結果を話者特有の言い回しに変更する規則である。例えば「放送」という単語は通常「ほーそー」という読みが付けられる。しかし話者によってはこれを「ほうそう」とはっきり読む場合がある。これを表す規則は、「長音を母音として読む」という規則になる。
音声合成用辞書１４の修正は、第２実施形における言語解析用辞書７の修正と同様の方針で行われる。具体的には、分散値の閾値が設定される。そして分散値が閾値以上であるようなクラスタに属する表現が生成されないように、規則生成部１３が音声合成用辞書１４の内容について該当する規則を削除し、又は追加する。
具体例として、「そして、放送が開始された」というテキストが入力された場合について説明する。
学習用データベース４には、「途中でポーズを入れずに話す」、「『放送』という単語を『ほーそー』ではなく『ほうそう』と発音する」という特徴を持った話者の音声波形データが格納されているとする。この場合、学習データである特徴量空間を分割すると、「『そして』の後のポーズ」というクラスタ、及び「長音化した母音の連続」というクラスタが非常に疎か、又はクラスタとして存在しないことが想定される。
この場合、例えば、「ポーズの挿入／削除」に関する規則の修正として、規則生成部１３は、音声合成用辞書１４が格納する規則のうち「接続詞の後はポーズを入れる」という規則を削除する。あるいは規則生成部１３は、音声合成用辞書１４が格納する規則に「『そして』の後はポーズを入れない」という規則を追加する。
また、「言い回しの変更」に関する規則の修正として、規則生成部１３は、通常「ほーそー」と発音される「放送」というテキストについて、「ほうそう」という発音がされるように、規則生成部１３は、「長音を母音に変更する」という規則を追加する。
修正音声合成用辞書１５は、規則生成部１３が生成した音声合成用規則を格納する。ここで、規則生成部１３が生成した音声合成用規則とは、既存の音声合成用辞書１４が格納する規則について、上記のようにして規則生成部１３が修正した後の規則のことである。
次に図を参照して、音声合成システム３０００の動作の流れを、音声合成用規則、韻律生成モデル及び波形生成モデルを作成する準備段階と、実際に音声合成処理を行う音声合成段階の２段階に分けて順に説明する。
まず、準備段階のうち、音声合成用規則及び韻律生成モデルを作成する動作については、生成する音声合成用規則が異なる点を除いて、第２実施形態における図６及び図７に示した動作と同様である。
図１０は、音声合成システム３０００における、準備段階のうち波形生成モデルを作成する動作の一例を示すフローチャートである。
ステップＳ１の処理は、図２、図６及び図７における処理と同様である。
ステップＳ１の後、波形学習部１２は、特徴量空間分割部１で分割された特徴量空間内で、波形モデルの学習を行い、波形生成モデルを作成する（ステップＳ２Ｃ）。
次に、波形生成モデル格納部１６は、波形学習部１２によって作成された波形生成モデルを格納する（ステップＳ３Ｃ）。
なお、準備段階における音声合成用規則、韻律生成モデル及び波形生成モデルを作成する処理は、いかなる順序で行われても良いし、並行して行われても良い。
図１１は、音声合成システム３０００における、実際に音声合成処理を行う音声合成段階の動作の一例を示すフローチャートである。
図１１に示すように、ステップＳ１Ｂの処理は、図８における処理と同様である。
ステップＳ１Ｂの後、言語解析部９は、入力されたテキストに対し、修正音声合成用辞書１５が格納する音声合成用規則に従って言語解析処理を行い、発音情報を生成する。言語解析部９は、発音情報を生成する際、該発音情報に修正音声合成用辞書１５が格納する規則に従って、例えば「長音を母音に変更する」といった付加的情報を付与する（ステップＳ２Ｄ）。言語解析部９は、付加的情報を付与された発音情報を韻律生成部１０に出力する。
ステップＳ３Ｂの処理は、図８における処理と同様である。
次に、波形生成部１７は、韻律生成部１０から入力された発音情報と韻律情報とに基づいて、波形生成モデル格納部１６が格納する波形生成モデルを用いて音声波形を生成する（ステップＳ４Ｄ）。波形生成部１７は、該音声波形を合成音声として出力する。
以上のように、本実施形態に係る音声合成システム３０００によれば、修正音声合成用辞書１５が修正された付加的情報を発音情報に付与するため、話者ごとの癖といった特徴を忠実に再現できる。また、本実施形態によれば、波形学習と、発音情報の修正に用いる疎密情報の抽出に、同一のクラスタリング結果を用いることにより、疎であるクラスタに属する波形生成モデルで波形を生成した場合、その部分だけ音質が劣化すると言った問題が回避できる。
なお、波形生成にＨＭＭを用いない波形接続方式等においても、学習データが疎であるクラスタに属するデータは、対応する単位波形のデータ量も不足している。そのため、本実施形態によれば、波形接続方式等を用いた場合も、疎なクラスタに属するデータを使用しないという点で音質劣化を回避することができるという効果が得られる。
以上、各実施形態を参照して本発明を説明したが、本発明は以上の実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で同業者が理解し得る様々な変更をすることができる。例えば、各実施形態に係る音声合成システムは、抽出した疎密情報を図示しないデータベースに格納しておき、対応表等を参照した適宜利用するようにしても良い。
図１２は、第２実施形態に係る音声合成システム２０００を実現するハードウェア構成の一例を示すブロック図である。なお、ここでは第２実施形態を例にとって説明するが、他の実施形態に係る音声合成システムも同様のハードウェア構成によって実現されても良い。
図１２に示すように、音声合成システム２０００を構成する各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１００と、ネットワーク接続用の通信ＩＦ（インターフェース）２００と、メモリ３００と、プログラムを格納するハードディスク等の記憶装置４００と、入力装置５００と、出力装置６００とを含む、コンピュータ装置によって実現される。ただし、音声合成システム２０００の構成は、図１２に示すコンピュータ装置に限定されない。
ＣＰＵ１００は、オペレーティングシステムを動作させて音声合成システム２０００の全体を制御する。また、ＣＰＵ１００は、例えばドライブ装置などに装着された記録媒体からメモリ３００にプログラムやデータを読み出し、これにしたがって各種の処理を実行する。
記録装置４００は、例えば光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク、半導体メモリ等であって、コンピュータプログラムをコンピュータ読み取り可能に記録する。記憶装置４００は、例えば、学習用データベース４や韻律生成モデル格納部６等でも良い。また、コンピュータプログラムは、通信網に接続されている図示しない外部コンピュータからダウンロードされても良い。
入力装置５００は、例えば音声学習装置４０において、ユーザから入力テキストを受け付ける。出力装置６００は、最終的に生成した合成音声を出力する。
なお、これまでに説明した各実施形態において利用するブロック図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。また、音声合成システム２０００の構成部の実現手段は特に限定されない。すなわち、音声合成システム２０００は、物理的に結合した一つの装置により実現されても良いし、物理的に分離した二つ以上の装置を有線又は無線で接続し、これら複数の装置により実現されても良い。その場合物理的に分離した二つの装置をそれぞれ音声合成学習装置２０及び音声合成装置４０としても良い。
本発明のプログラムは、上記の各実施形態で説明した各動作を、コンピュータに実行させるプログラムであれば良い。
上記の各実施の形態においては、以下に示すような音声合成システム、音声合成方法、および音声合成プログラムの特徴的構成が示されている。
（付記１）
音声波形データから抽出された特徴量の集合である学習データを格納する学習用データベースと、
前記学習用データベースが格納する学習データに関する空間である特徴量空間を、部分空間に分割する特徴量空間分割手段と、
前記特徴量空間分割手段で分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力する疎密状態検出手段と、
前記疎密状態検出手段から出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する規則生成手段と、
を含む音声合成システム。
（付記２）
前記特徴量空間分割手段で分割された特徴量空間である部分空間内で、韻律モデルの学習を行い、韻律生成モデルを作成する韻律学習手段と、
前記韻律学習手段によって作成された韻律生成モデルを格納する韻律生成モデル格納手段と、
前記規則生成手段が生成した音声合成用規則に従って生成された発音情報に対して、前記韻律生成モデル格納手段が格納する韻律生成モデルを用いて韻律情報を生成する韻律生成手段と、
をさらに含む付記１に記載の音声合成システム。
（付記３）
テキストの言語解析処理に必要な規則を格納する辞書をさらに含み、
前記規則生成手段は、前記辞書が格納する規則の修正を行うことで音声合成用規則を生成する、
付記１又は２に記載の音声合成システム。
（付記４）
前記規則生成手段が生成した修正後の規則を音声合成用規則として格納する修正辞書と、
テキストの入力を受けて、該テキストから前記修正辞書が格納する音声合成用規則に基づいて発音情報を生成し、該発音情報を前記韻律生成手段に出力する言語解析手段と、
をさらに含む付記３に記載の音声合成システム。
（付記５）
前記規則生成手段は、前記疎密情報に基づいて疎な部分空間に属すると判断されたアクセント句のデータを削除することで音声合成用規則を修正する、
付記４に記載の音声合成システム。
（付記６）
前記規則生成手段は、ポーズ挿入位置又は入力テキストの言い回し等に関する音声合成用規則を修正する、
付記３〜５のいずれかに記載の音声合成システム。
（付記７）
前記特徴量空間分割手段は、情報量を基準とした二分木構造クラスタリングによって特徴量空間を部分空間に分割する、
付記１〜６のいずれかに記載の音声合成システム。
（付記８）
前記韻律学習手段は、前記韻律モデルの学習をＨＭＭ学習により行う、
付記２〜７のいずれかに記載の音声合成システム。
（付記９）
前記特徴量空間分割手段で分割された特徴量空間である部分空間内で、波形モデルの学習を行い、波形生成モデルを作成する波形学習手段と、
前記波形学習手段によって作成された波形生成モデルを格納する波形生成モデル格納手段と、
前記韻律生成手段が生成した韻律情報から、前記波形生成モデル格納手段が格納する波形生成モデルを用いて音声波形を生成し、生成した音声波形を合成音声として出力する波形生成手段と、
をさらに含む付記１〜８のいずれかに記載の音声合成システム。
（付記１０）
音声波形データから抽出された特徴量の集合である学習データを格納し、
前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、
前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、
前記出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する、
音声合成方法。
（付記１１）
音声波形データから抽出された特徴量の集合である学習データを格納し、
前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、
前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、
前記出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する、
処理をコンピュータに実行させるプログラムを格納する記録媒体。
以上、実施形態を参照して本願発明を説明したが、本願発明は以上の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で同業者が理解し得る様々な変更をすることができる。
この出願は、２０１１年２月２２日に出願された日本出願特願２０１１−０３５５４３を基礎とする優先権を主張し、その開示の全てをここに取り込む。

以上説明したように、本発明は、情報量が限定された学習データを用いた音声合成システムを構築する際に好適に適用可能である。例えば、ニュース記事や自動応答文等といったテキスト全般の読み上げシステムに好適に適用される。

１特徴量空間分割部
２疎密情報抽出部
３、１３規則生成部
４学習用データベース
５韻律学習部
６韻律生成モデル格納部
７言語解析用辞書
８修正言語解析用辞書
９言語解析部
１０韻律生成部
１１、１７波形生成部
１２波形学習部
１４音声合成用辞書
１５修正音声合成用辞書
１６波形生成モデル格納部
１７波形生成部
２０、２１音声合成学習装置
３０、３１ＨＭＭ学習部
４０、４１音声合成装置
１００ＣＰＵ
２００通信ＩＦ
３００メモリ
４００記憶装置
５００入力装置
６００出力装置
１０００、２０００、３０００音声合成システム

Claims

音声波形データから抽出された特徴量の集合である学習データを格納する学習用データベースと、
前記学習用データベースが格納する学習データに関する空間である特徴量空間を、部分空間に分割する特徴量空間分割手段と、
前記特徴量空間分割手段で分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力する疎密状態検出手段と、
前記疎密状態検出手段から出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する規則生成手段と、
を含む音声合成システム。
前記特徴量空間分割手段で分割された特徴量空間である部分空間内で、韻律モデルの学習を行い、韻律生成モデルを作成する韻律学習手段と、
前記韻律学習手段によって作成された韻律生成モデルを格納する韻律生成モデル格納手段と、
前記規則生成手段が生成した音声合成用規則に従って生成された発音情報に対して、前記韻律生成モデル格納手段が格納する韻律生成モデルを用いて韻律情報を生成する韻律生成手段と、
をさらに含む請求項１に記載の音声合成システム。
テキストの言語解析処理に必要な規則を格納する辞書をさらに含み、
前記規則生成手段は、前記辞書が格納する規則の修正を行うことで音声合成用規則を生成する、
請求項２に記載の音声合成システム。
前記規則生成手段が生成した修正後の規則を音声合成用規則として格納する修正辞書と、
テキストの入力を受けて、該テキストから前記修正辞書が格納する音声合成用規則に基づいて発音情報を生成し、該発音情報を前記韻律生成手段に出力する言語解析手段と、
をさらに含む請求項３に記載の音声合成システム。
前記規則生成手段は、前記疎密情報に基づいて疎な部分空間に属すると判断されたアクセント句のデータを削除することで音声合成用規則を修正する、
請求項４に記載の音声合成システム。
前記規則生成手段は、ポーズ挿入位置又は入力テキストの言い回し等に関する音声合成用規則を修正する、
請求項３〜５のいずれかに記載の音声合成システム。
前記韻律学習手段は、前記韻律モデルの学習をＨＭＭ学習により行う、
請求項２〜６のいずれかに記載の音声合成システム。
前記特徴量空間分割手段は、情報量を基準とした二分木構造クラスタリングによって特徴量空間を部分空間に分割する、
請求項１〜７のいずれかに記載の音声合成システム。
音声波形データから抽出された特徴量の集合である学習データを格納し、
前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、
前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、
前記出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する、
音声合成方法。
音声波形データから抽出された特徴量の集合である学習データを格納し、
前記格納する学習データに関する空間である特徴量空間を、部分空間に分割し、
前記分割された特徴量空間である各部分空間に対する疎密状態を検出し、該疎密状態を示す情報である疎密情報を発生して出力し、
前記出力された疎密情報に基づいて、音声合成に用いる発音情報を生成するための規則である音声合成用規則を生成する、
処理をコンピュータに実行させるプログラム。