JP2003271171A - 音声合成方法、音声合成装置および音声合成プログラム - Google Patents
音声合成方法、音声合成装置および音声合成プログラムInfo
- Publication number
- JP2003271171A JP2003271171A JP2002069434A JP2002069434A JP2003271171A JP 2003271171 A JP2003271171 A JP 2003271171A JP 2002069434 A JP2002069434 A JP 2002069434A JP 2002069434 A JP2002069434 A JP 2002069434A JP 2003271171 A JP2003271171 A JP 2003271171A
- Authority
- JP
- Japan
- Prior art keywords
- segment
- vector
- speech
- explanation
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 小さいメモリ容量で音質のよい合成音声が得
られる音声合成方法および音声合成装置を提供するこ
と。 【解決手段】 音声コーパスの各素片に予め決められた
属性要因およびパラ言語情報を含む属性ベクトルを付与
する属性ベクトル付与工程と、素片をクラスタリングす
るクラスタリング工程と、クラスタ代表値を算出するク
ラスタ代表値算出工程と、クラスタ代表値に関連付ける
説明ベクトルを生成する説明ベクトル生成工程と、合成
音声の素片単位の目標属性ベクトルを生成する目標属性
ベクトル生成工程と、目標属性ベクトルを説明ベクトル
で最適に近似できる最適近似係数を前記音声コーパスの
素片毎に算出する最適近似係数算出工程と、最適近似係
数に基づいて合成音声の素片を生成する合成音声素片生
成工程とを含み、説明ベクトルによって同一クラスタ内
の素片に共通な属性が表現され音声合成に適用される。
られる音声合成方法および音声合成装置を提供するこ
と。 【解決手段】 音声コーパスの各素片に予め決められた
属性要因およびパラ言語情報を含む属性ベクトルを付与
する属性ベクトル付与工程と、素片をクラスタリングす
るクラスタリング工程と、クラスタ代表値を算出するク
ラスタ代表値算出工程と、クラスタ代表値に関連付ける
説明ベクトルを生成する説明ベクトル生成工程と、合成
音声の素片単位の目標属性ベクトルを生成する目標属性
ベクトル生成工程と、目標属性ベクトルを説明ベクトル
で最適に近似できる最適近似係数を前記音声コーパスの
素片毎に算出する最適近似係数算出工程と、最適近似係
数に基づいて合成音声の素片を生成する合成音声素片生
成工程とを含み、説明ベクトルによって同一クラスタ内
の素片に共通な属性が表現され音声合成に適用される。
Description
【0001】
【発明の属する技術分野】本発明は、音声合成方法、音
声合成装置および音声合成プログラムに関するものであ
る。
声合成装置および音声合成プログラムに関するものであ
る。
【0002】
【従来の技術】従来の音声合成方法および音声合成装置
に関するものとしては、例えば特開平2000−250
570号公報に開示されているようなものがある。この
従来の音声合成方法について図10を参照して説明す
る。
に関するものとしては、例えば特開平2000−250
570号公報に開示されているようなものがある。この
従来の音声合成方法について図10を参照して説明す
る。
【0003】図10において、ピッチパタンデータベー
ス11には、アクセント句単位でピッチパタンデータが
格納されている。このピッチパタンデータは、1フレー
ム毎にピッチの値を有している。また、各ピッチパタン
データには、その韻律カテゴリが併記されている。合成
するテキストは、アクセント句単位で与えられる。
ス11には、アクセント句単位でピッチパタンデータが
格納されている。このピッチパタンデータは、1フレー
ム毎にピッチの値を有している。また、各ピッチパタン
データには、その韻律カテゴリが併記されている。合成
するテキストは、アクセント句単位で与えられる。
【0004】まず、ステップS31において、合成した
いテキストの韻律カテゴリと等しい韻律カテゴリに属す
るピッチパタンデータが、ピッチパタンデータベース1
1に存在するか否かが検索される。次いで、ステップS
31において、ピッチパタンデータがピッチパタンデー
タベース11に存在した場合はステップS33に進み、
存在しなかった場合はステップS34に進む。次いで、
ステップS33では、合成したいテキストの韻律カテゴ
リと等しい韻律カテゴリからピッチパタンデータが選択
される。一方、ステップS34において、ピッチパタン
データベース11に含まれる韻律カテゴリのうちから、
合成するテキストの韻律カテゴリに、ピッチパタンの形
状が最も近いと思われる韻律カテゴリが推定される。次
いで、ステップS35において、前述のステップS33
と同様に推定された韻律カテゴリからのピッチパタンデ
ータが選択される。次いで、ステップS36において、
選択された韻律カテゴリとテキストの韻律カテゴリ間の
差分ベクトルが選択されたピッチパタンデータに適用さ
れて変形される。次いで、ステップS37において、ピ
ッチパタンデータをモーラ単位で時間軸方向に線形伸縮
することにより、与えられた時間長に従って時間長補正
が行われる。次いで、ステップS38において、各ピッ
チパタンの高さについて、ピッチパタンの始点と終点の
高さの中点が、点ピッチパタンの話調成分決定アルゴリ
ズムより求めた話調成分高さの平均値となるように決定
される。
いテキストの韻律カテゴリと等しい韻律カテゴリに属す
るピッチパタンデータが、ピッチパタンデータベース1
1に存在するか否かが検索される。次いで、ステップS
31において、ピッチパタンデータがピッチパタンデー
タベース11に存在した場合はステップS33に進み、
存在しなかった場合はステップS34に進む。次いで、
ステップS33では、合成したいテキストの韻律カテゴ
リと等しい韻律カテゴリからピッチパタンデータが選択
される。一方、ステップS34において、ピッチパタン
データベース11に含まれる韻律カテゴリのうちから、
合成するテキストの韻律カテゴリに、ピッチパタンの形
状が最も近いと思われる韻律カテゴリが推定される。次
いで、ステップS35において、前述のステップS33
と同様に推定された韻律カテゴリからのピッチパタンデ
ータが選択される。次いで、ステップS36において、
選択された韻律カテゴリとテキストの韻律カテゴリ間の
差分ベクトルが選択されたピッチパタンデータに適用さ
れて変形される。次いで、ステップS37において、ピ
ッチパタンデータをモーラ単位で時間軸方向に線形伸縮
することにより、与えられた時間長に従って時間長補正
が行われる。次いで、ステップS38において、各ピッ
チパタンの高さについて、ピッチパタンの始点と終点の
高さの中点が、点ピッチパタンの話調成分決定アルゴリ
ズムより求めた話調成分高さの平均値となるように決定
される。
【0005】以上のように、ピッチパタンデータベース
11から合成したいテキストに適したピッチパタンデー
タを取得して、音声合成を行うことができる。
11から合成したいテキストに適したピッチパタンデー
タを取得して、音声合成を行うことができる。
【0006】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の音声合成方法では、音声コーパス中の素片の
分類を素片自体ではなく多くの属性で構成される韻律カ
テゴリに基づいて行っているので、音声合成に要するメ
モリ容量が非常に大きくなるという問題があった。ま
た、韻律カテゴリに属するデータの分散が大きい場合に
は韻律カテゴリの代表値が全データを近似できないこと
があり、代表値同士の接続によってばらついた印象の合
成音声になるという問題があった。
うな従来の音声合成方法では、音声コーパス中の素片の
分類を素片自体ではなく多くの属性で構成される韻律カ
テゴリに基づいて行っているので、音声合成に要するメ
モリ容量が非常に大きくなるという問題があった。ま
た、韻律カテゴリに属するデータの分散が大きい場合に
は韻律カテゴリの代表値が全データを近似できないこと
があり、代表値同士の接続によってばらついた印象の合
成音声になるという問題があった。
【0007】本発明は、このような問題を解決するため
になされたものであり、音声合成に要するメモリ容量を
低減でき、また、韻律カテゴリに属するデータの分散が
大きい場合でも高音質の合成音声を生成することができ
る音声合成方法、音声合成装置および音声合成プログラ
ムを提供するものである。
になされたものであり、音声合成に要するメモリ容量を
低減でき、また、韻律カテゴリに属するデータの分散が
大きい場合でも高音質の合成音声を生成することができ
る音声合成方法、音声合成装置および音声合成プログラ
ムを提供するものである。
【0008】
【課題を解決するための手段】本発明の音声合成方法
は、韻律素片および音声波形素片を含む音声コーパスの
各素片に予め決められた属性要因およびパラ言語情報を
含む属性ベクトルを付与する属性ベクトル付与工程と、
前記属性ベクトルが付与された前記素片をクラスタリン
グするクラスタリング工程と、前記クラスタリングで得
られた各クラスタに属する前記素片のクラスタ代表値を
算出するクラスタ代表値算出工程と、前記クラスタリン
グで得られた各クラスタに属する前記素片の属性ベクト
ルに基づいて説明ベクトルを生成する説明ベクトル生成
工程と、合成音声の素片単位の目標属性ベクトルを生成
する目標属性ベクトル生成工程と、前記目標属性ベクト
ルを前記説明ベクトルで最適に近似する最適近似係数を
前記音声コーパスの素片毎に算出する最適近似係数算出
工程と、前記最適近似係数に基づいて合成音声の素片を
生成する合成音声素片生成工程とを含んでいる。この構
成により、韻律素片および音声波形素片の各素片は、ク
ラスタリングされた後、同一クラスタにある素片の属性
ベクトルに基づいて生成された説明ベクトルによって同
一クラスタ内の素片に共通な属性が表現され音声合成に
適用されることとなる。
は、韻律素片および音声波形素片を含む音声コーパスの
各素片に予め決められた属性要因およびパラ言語情報を
含む属性ベクトルを付与する属性ベクトル付与工程と、
前記属性ベクトルが付与された前記素片をクラスタリン
グするクラスタリング工程と、前記クラスタリングで得
られた各クラスタに属する前記素片のクラスタ代表値を
算出するクラスタ代表値算出工程と、前記クラスタリン
グで得られた各クラスタに属する前記素片の属性ベクト
ルに基づいて説明ベクトルを生成する説明ベクトル生成
工程と、合成音声の素片単位の目標属性ベクトルを生成
する目標属性ベクトル生成工程と、前記目標属性ベクト
ルを前記説明ベクトルで最適に近似する最適近似係数を
前記音声コーパスの素片毎に算出する最適近似係数算出
工程と、前記最適近似係数に基づいて合成音声の素片を
生成する合成音声素片生成工程とを含んでいる。この構
成により、韻律素片および音声波形素片の各素片は、ク
ラスタリングされた後、同一クラスタにある素片の属性
ベクトルに基づいて生成された説明ベクトルによって同
一クラスタ内の素片に共通な属性が表現され音声合成に
適用されることとなる。
【0009】本発明の音声合成方法は、前記属性ベクト
ル付与工程で付与された前記属性ベクトルは前記予め決
められた属性要因毎に各属性要因が存在するか否かの表
現を含んでいる。この構成により、韻律素片および音声
波形素片の各素片の属性は、簡易な表現をされることと
なる。
ル付与工程で付与された前記属性ベクトルは前記予め決
められた属性要因毎に各属性要因が存在するか否かの表
現を含んでいる。この構成により、韻律素片および音声
波形素片の各素片の属性は、簡易な表現をされることと
なる。
【0010】本発明の音声合成方法は、前記クラスタリ
ング工程において、聴覚的な検知限に基づいてクラスタ
リングを行う工程を含んでいる。この構成により、韻律
素片および音声波形素片の各素片のばらつきが考慮され
ることとなる。
ング工程において、聴覚的な検知限に基づいてクラスタ
リングを行う工程を含んでいる。この構成により、韻律
素片および音声波形素片の各素片のばらつきが考慮され
ることとなる。
【0011】本発明の音声合成方法は、前記説明ベクト
ル生成工程において、前記クラスタ毎に各クラスタに属
する前記素片の属性ベクトルを加算して得られるベクト
ルの各属性要因を前記属性要因毎に各クラスタに属する
前記素片の総数で除したものを新たな属性要因とするベ
クトルを生成して各クラスタの説明ベクトルとする工程
を含んでいる。この構成により、韻律素片および音声波
形素片の各素片は、素片単位で多くの属性要因を考慮さ
れることとなる。
ル生成工程において、前記クラスタ毎に各クラスタに属
する前記素片の属性ベクトルを加算して得られるベクト
ルの各属性要因を前記属性要因毎に各クラスタに属する
前記素片の総数で除したものを新たな属性要因とするベ
クトルを生成して各クラスタの説明ベクトルとする工程
を含んでいる。この構成により、韻律素片および音声波
形素片の各素片は、素片単位で多くの属性要因を考慮さ
れることとなる。
【0012】本発明の音声合成方法は、前記説明ベクト
ル生成工程において、前記クラスタ毎に各クラスタに属
する前記素片の属性ベクトルを加算して得られるベクト
ルの各属性要因を前記音声コーパスで前記属性要因が発
生したデータ総数で除したものを新たな属性要因とする
ベクトルを生成して各クラスタの説明ベクトルとする工
程を含んでいる。この構成により、韻律素片および音声
波形素片の各素片は、素片単位で多くの属性要因を考慮
されることとなる。
ル生成工程において、前記クラスタ毎に各クラスタに属
する前記素片の属性ベクトルを加算して得られるベクト
ルの各属性要因を前記音声コーパスで前記属性要因が発
生したデータ総数で除したものを新たな属性要因とする
ベクトルを生成して各クラスタの説明ベクトルとする工
程を含んでいる。この構成により、韻律素片および音声
波形素片の各素片は、素片単位で多くの属性要因を考慮
されることとなる。
【0013】本発明の音声合成方法は、前記クラスタ代
表値算出工程において、前記クラスタの重心点を前記ク
ラスタの代表素片とする工程を含んでいる。この構成に
より、クラスタの代表値はクラスタの重心点で表される
こととなる。
表値算出工程において、前記クラスタの重心点を前記ク
ラスタの代表素片とする工程を含んでいる。この構成に
より、クラスタの代表値はクラスタの重心点で表される
こととなる。
【0014】本発明の音声合成方法は、前記クラスタ代
表値算出工程において、前記クラスタの最頻値を前記ク
ラスタの代表素片とする工程を含んでいる。この構成に
より、クラスタの代表値はクラスタの最頻値で表される
こととなる。
表値算出工程において、前記クラスタの最頻値を前記ク
ラスタの代表素片とする工程を含んでいる。この構成に
より、クラスタの代表値はクラスタの最頻値で表される
こととなる。
【0015】本発明の音声合成方法は、韻律素片および
音声波形素片を含む音声コーパスの各素片に予め決めら
れた属性要因およびパラ言語情報を含む属性ベクトルを
付与する属性ベクトル付与工程と、前記属性ベクトルが
付与された前記素片をクラスタリングするクラスタリン
グ工程と、前記クラスタリングで得られた各クラスタに
属する前記素片のクラスタ代表値を算出するクラスタ代
表値算出工程と、前記クラスタリングで得られた各クラ
スタに属する前記素片の属性ベクトルに基づいて説明ベ
クトルを生成する説明ベクトル生成工程と、前記説明ベ
クトル同士の各属性要因を比較する説明ベクトル属性要
因比較工程と、合成音声の素片単位の目標属性ベクトル
を生成する目標属性ベクトル生成工程と、前記目標属性
ベクトルを前記説明ベクトルで最適に近似する最適近似
係数を前記音声コーパスの素片毎に算出する最適近似係
数算出工程と、前記最適近似係数に基づいて合成音声の
素片を生成する合成音声素片生成工程とを含み、前記説
明ベクトル属性要因比較工程は、前記説明ベクトル工程
で生成された全ての説明ベクトルに共通して予め決めら
れた統計的有意水準により同一と見なせる属性要因があ
るときは同一と見なされた前記属性要因を前記説明ベク
トルおよび前記属性ベクトルの属性要因から除くことを
特徴としている。この構成により、同じ代表値を有する
クラスタの発生をなくし、音声コーパスから最適な素片
が選択され音声合成に適用されることとなる。
音声波形素片を含む音声コーパスの各素片に予め決めら
れた属性要因およびパラ言語情報を含む属性ベクトルを
付与する属性ベクトル付与工程と、前記属性ベクトルが
付与された前記素片をクラスタリングするクラスタリン
グ工程と、前記クラスタリングで得られた各クラスタに
属する前記素片のクラスタ代表値を算出するクラスタ代
表値算出工程と、前記クラスタリングで得られた各クラ
スタに属する前記素片の属性ベクトルに基づいて説明ベ
クトルを生成する説明ベクトル生成工程と、前記説明ベ
クトル同士の各属性要因を比較する説明ベクトル属性要
因比較工程と、合成音声の素片単位の目標属性ベクトル
を生成する目標属性ベクトル生成工程と、前記目標属性
ベクトルを前記説明ベクトルで最適に近似する最適近似
係数を前記音声コーパスの素片毎に算出する最適近似係
数算出工程と、前記最適近似係数に基づいて合成音声の
素片を生成する合成音声素片生成工程とを含み、前記説
明ベクトル属性要因比較工程は、前記説明ベクトル工程
で生成された全ての説明ベクトルに共通して予め決めら
れた統計的有意水準により同一と見なせる属性要因があ
るときは同一と見なされた前記属性要因を前記説明ベク
トルおよび前記属性ベクトルの属性要因から除くことを
特徴としている。この構成により、同じ代表値を有する
クラスタの発生をなくし、音声コーパスから最適な素片
が選択され音声合成に適用されることとなる。
【0016】本発明の音声合成方法は、前記説明ベクト
ル属性要因比較工程において、前記説明ベクトル生成工
程で生成された複数の説明ベクトルが予め決められた統
計的有意水準により同一と見なせるときは、同一に見な
された前記説明ベクトルに関連するクラスタ群を合併し
て一つのクラスタとすることを特徴としている。この構
成により、同じ代表値を有するクラスタの発生をなく
し、音声コーパスから最適な素片が選択され音声合成に
適用されることとなる。
ル属性要因比較工程において、前記説明ベクトル生成工
程で生成された複数の説明ベクトルが予め決められた統
計的有意水準により同一と見なせるときは、同一に見な
された前記説明ベクトルに関連するクラスタ群を合併し
て一つのクラスタとすることを特徴としている。この構
成により、同じ代表値を有するクラスタの発生をなく
し、音声コーパスから最適な素片が選択され音声合成に
適用されることとなる。
【0017】本発明の音声合成方法は、前記説明ベクト
ル属性要因比較工程において、前記説明ベクトル生成工
程で生成された複数の説明ベクトルが予め決められた統
計的有意水準により同一と見なせるときは、同一に見な
された前記説明ベクトルの個数を求める手順と、前記個
数について2を底とする対数を計算する手順と、前記対
数の計算結果を整数化した数に相当する個数の属性要因
を前記素片に仮に新たに追加する手順とを含み、前記属
性ベクトル付与工程で前記素片に前記追加された属性要
因を含めた属性ベクトルを付与しなおすことを特徴とし
ている。この構成により、同じ代表値を有するクラスタ
の発生をなくし、音声コーパスから最適な素片が選択さ
れ音声合成に適用されることとなる。
ル属性要因比較工程において、前記説明ベクトル生成工
程で生成された複数の説明ベクトルが予め決められた統
計的有意水準により同一と見なせるときは、同一に見な
された前記説明ベクトルの個数を求める手順と、前記個
数について2を底とする対数を計算する手順と、前記対
数の計算結果を整数化した数に相当する個数の属性要因
を前記素片に仮に新たに追加する手順とを含み、前記属
性ベクトル付与工程で前記素片に前記追加された属性要
因を含めた属性ベクトルを付与しなおすことを特徴とし
ている。この構成により、同じ代表値を有するクラスタ
の発生をなくし、音声コーパスから最適な素片が選択さ
れ音声合成に適用されることとなる。
【0018】本発明の音声合成方法は、前記目標属性ベ
クトル生成工程で生成された前記合成音声の素片単位の
前記目標属性ベクトルと前記音声コーパスのクラスタの
前記説明ベクトルとの内積を算出する内積算出工程と、
前記算出された内積のうち最大の内積となる説明ベクト
ルを有するクラスタの代表素片を選定する素片選定工程
とを含んでいる。この構成により、属性ベクトルの冗長
性が除去された素片コーパスが生成され音声合成に適用
されることとなる。
クトル生成工程で生成された前記合成音声の素片単位の
前記目標属性ベクトルと前記音声コーパスのクラスタの
前記説明ベクトルとの内積を算出する内積算出工程と、
前記算出された内積のうち最大の内積となる説明ベクト
ルを有するクラスタの代表素片を選定する素片選定工程
とを含んでいる。この構成により、属性ベクトルの冗長
性が除去された素片コーパスが生成され音声合成に適用
されることとなる。
【0019】本発明の音声合成方法は、前記目標属性ベ
クトル生成工程で生成された前記合成音声の素片単位の
前記目標属性ベクトルと前記音声コーパスのクラスタの
前記説明ベクトルとの内積を算出する内積算出工程と、
これらの内積の総和を計算する工程と、前記算出された
各内積を前記総和で除した値を重みとしてクラスタの代
表素片を加重平均することにより合成音声素片を生成す
る合成音声素片生成工程とを含んでいる。この構成によ
り、属性ベクトルの冗長性が除去された素片コーパスが
生成され音声合成に適用されることとなる。
クトル生成工程で生成された前記合成音声の素片単位の
前記目標属性ベクトルと前記音声コーパスのクラスタの
前記説明ベクトルとの内積を算出する内積算出工程と、
これらの内積の総和を計算する工程と、前記算出された
各内積を前記総和で除した値を重みとしてクラスタの代
表素片を加重平均することにより合成音声素片を生成す
る合成音声素片生成工程とを含んでいる。この構成によ
り、属性ベクトルの冗長性が除去された素片コーパスが
生成され音声合成に適用されることとなる。
【0020】本発明の音声合成方法は、前記目標属性ベ
クトル生成工程で生成された前記合成音声の素片単位の
前記目標属性ベクトルを前記音声コーパスのクラスタの
前記説明ベクトルで最適に近似する最適近似係数を算出
する最適近似係数算出工程と、前記算出された最適近似
係数に基づいて代表素片を加重平均することにより合成
音声素片を生成する合成音声素片生成工程とを含んでい
る。この構成により、属性ベクトルの冗長性が除去され
た素片コーパスが生成され音声合成に適用されることと
なる。
クトル生成工程で生成された前記合成音声の素片単位の
前記目標属性ベクトルを前記音声コーパスのクラスタの
前記説明ベクトルで最適に近似する最適近似係数を算出
する最適近似係数算出工程と、前記算出された最適近似
係数に基づいて代表素片を加重平均することにより合成
音声素片を生成する合成音声素片生成工程とを含んでい
る。この構成により、属性ベクトルの冗長性が除去され
た素片コーパスが生成され音声合成に適用されることと
なる。
【0021】本発明の音声合成装置は、韻律素片および
音声波形素片を含む音声コーパスからの素片のクラスタ
の代表素片を格納する代表素片格納手段と、前記代表素
片の説明ベクトルを格納する説明ベクトル格納手段と、
前記代表素片および前記説明ベクトルの対応関係を示す
ポインタを格納するポインタ格納手段と、テキストを入
力するテキスト入力手段と、パラ言語を入力するパラ言
語入力手段と、前記入力されたテキストを解析するテキ
スト解析手段と、前記テキスト解析手段の解析結果およ
び前記入力されたパラ言語情報に基づいて合成音声の素
片単位毎に目標属性ベクトルを生成する目標属性ベクト
ル生成手段と、前記生成された目標属性ベクトルと全て
の前記説明ベクトルとの内積を算出する内積算出手段
と、前記内積の最大値を与える代表韻律素片および代表
音声波形素片を選定する内積最大値素片選定手段と、前
記選択された前記韻律素片に応じて前記音声波形素片を
変形する音声波形素片変形手段と、前記変形された音声
波形素片同士を接続する音声波形素片接続手段とを備え
ている。この構成により、韻律素片および音声波形素片
の各素片は、クラスタリングされた後、同一クラスタに
ある素片の属性ベクトルに基づいて生成された説明ベク
トルによって同一クラスタ内の素片に共通な属性が表現
され音声合成に適用されることとなる。
音声波形素片を含む音声コーパスからの素片のクラスタ
の代表素片を格納する代表素片格納手段と、前記代表素
片の説明ベクトルを格納する説明ベクトル格納手段と、
前記代表素片および前記説明ベクトルの対応関係を示す
ポインタを格納するポインタ格納手段と、テキストを入
力するテキスト入力手段と、パラ言語を入力するパラ言
語入力手段と、前記入力されたテキストを解析するテキ
スト解析手段と、前記テキスト解析手段の解析結果およ
び前記入力されたパラ言語情報に基づいて合成音声の素
片単位毎に目標属性ベクトルを生成する目標属性ベクト
ル生成手段と、前記生成された目標属性ベクトルと全て
の前記説明ベクトルとの内積を算出する内積算出手段
と、前記内積の最大値を与える代表韻律素片および代表
音声波形素片を選定する内積最大値素片選定手段と、前
記選択された前記韻律素片に応じて前記音声波形素片を
変形する音声波形素片変形手段と、前記変形された音声
波形素片同士を接続する音声波形素片接続手段とを備え
ている。この構成により、韻律素片および音声波形素片
の各素片は、クラスタリングされた後、同一クラスタに
ある素片の属性ベクトルに基づいて生成された説明ベク
トルによって同一クラスタ内の素片に共通な属性が表現
され音声合成に適用されることとなる。
【0022】本発明の音声合成装置は、韻律素片および
音声波形素片を含む音声コーパスからの素片のクラスタ
の代表素片を格納する代表素片格納手段と、前記代表素
片の説明ベクトルを格納する説明ベクトル格納手段と、
前記代表素片および前記説明ベクトルの対応関係を示す
ポインタを格納するポインタ格納手段と、テキストを入
力するテキスト入力手段と、パラ言語を入力するパラ言
語入力手段と、前記入力されたテキストを解析するテキ
スト解析手段と、前記テキスト解析手段の解析結果およ
び前記入力されたパラ言語情報に基づいて合成音声の素
片単位毎に目標属性ベクトルを生成する目標属性ベクト
ル生成手段と、前記生成された目標属性ベクトルと全て
の前記説明ベクトルとの内積を算出する内積算出手段
と、前記算出された内積に基づいて前記代表韻律素片お
よび前記代表音声波形素片の加重平均化を行う素片加重
平均化手段と、前記加重平均化された前記韻律素片に応
じて加重平均化された前記音声波形素片を変形する音声
波形素片変形手段と、前記変形された音声波形素片同士
を接続する音声波形素片接続手段とを備えている。この
構成により、韻律素片および音声波形素片の各素片は、
クラスタリングされた後、同一クラスタにある素片の属
性ベクトルに基づいて生成された説明ベクトルによって
同一クラスタ内の素片に共通な属性が表現され音声合成
に適用されることとなる。
音声波形素片を含む音声コーパスからの素片のクラスタ
の代表素片を格納する代表素片格納手段と、前記代表素
片の説明ベクトルを格納する説明ベクトル格納手段と、
前記代表素片および前記説明ベクトルの対応関係を示す
ポインタを格納するポインタ格納手段と、テキストを入
力するテキスト入力手段と、パラ言語を入力するパラ言
語入力手段と、前記入力されたテキストを解析するテキ
スト解析手段と、前記テキスト解析手段の解析結果およ
び前記入力されたパラ言語情報に基づいて合成音声の素
片単位毎に目標属性ベクトルを生成する目標属性ベクト
ル生成手段と、前記生成された目標属性ベクトルと全て
の前記説明ベクトルとの内積を算出する内積算出手段
と、前記算出された内積に基づいて前記代表韻律素片お
よび前記代表音声波形素片の加重平均化を行う素片加重
平均化手段と、前記加重平均化された前記韻律素片に応
じて加重平均化された前記音声波形素片を変形する音声
波形素片変形手段と、前記変形された音声波形素片同士
を接続する音声波形素片接続手段とを備えている。この
構成により、韻律素片および音声波形素片の各素片は、
クラスタリングされた後、同一クラスタにある素片の属
性ベクトルに基づいて生成された説明ベクトルによって
同一クラスタ内の素片に共通な属性が表現され音声合成
に適用されることとなる。
【0023】本発明の音声合成装置は、韻律素片および
音声波形素片を含む音声コーパスからの素片を格納する
素片格納手段と、前記素片の説明ベクトルを格納する説
明ベクトル格納手段と、前記素片および前記説明ベクト
ルの対応関係を示すポインタを格納するポインタ格納手
段と、テキストを入力するテキスト入力手段と、パラ言
語を入力するパラ言語入力手段と、前記入力されたテキ
ストを解析するテキスト解析手段と、前記テキスト解析
手段の解析結果および前記入力されたパラ言語情報に基
づいて合成音声の素片単位毎に目標属性ベクトルを生成
する目標属性ベクトル生成手段と、前記合成音声の素片
単位の前記目標属性ベクトルを前記素片の説明ベクトル
で最適に近似する最適近似係数を算出する最適近似係数
算出手段と、前記最適近似係数に基づいて前記韻律素片
および前記音声波形素片の加重平均化を行う素片加重平
均化手段と、前記加重平均化された前記韻律素片に応じ
て加重平均化された前記音声波形素片を変形する音声波
形素片変形手段と、前記変形された音声波形素片同士を
接続する音声波形素片接続手段とを備えている。この構
成により、韻律素片および音声波形素片の各素片は、ク
ラスタリングされた後、同一クラスタにある素片の属性
ベクトルに基づいて生成された説明ベクトルによって同
一クラスタ内の素片に共通な属性が表現され音声合成に
適用されることとなる。
音声波形素片を含む音声コーパスからの素片を格納する
素片格納手段と、前記素片の説明ベクトルを格納する説
明ベクトル格納手段と、前記素片および前記説明ベクト
ルの対応関係を示すポインタを格納するポインタ格納手
段と、テキストを入力するテキスト入力手段と、パラ言
語を入力するパラ言語入力手段と、前記入力されたテキ
ストを解析するテキスト解析手段と、前記テキスト解析
手段の解析結果および前記入力されたパラ言語情報に基
づいて合成音声の素片単位毎に目標属性ベクトルを生成
する目標属性ベクトル生成手段と、前記合成音声の素片
単位の前記目標属性ベクトルを前記素片の説明ベクトル
で最適に近似する最適近似係数を算出する最適近似係数
算出手段と、前記最適近似係数に基づいて前記韻律素片
および前記音声波形素片の加重平均化を行う素片加重平
均化手段と、前記加重平均化された前記韻律素片に応じ
て加重平均化された前記音声波形素片を変形する音声波
形素片変形手段と、前記変形された音声波形素片同士を
接続する音声波形素片接続手段とを備えている。この構
成により、韻律素片および音声波形素片の各素片は、ク
ラスタリングされた後、同一クラスタにある素片の属性
ベクトルに基づいて生成された説明ベクトルによって同
一クラスタ内の素片に共通な属性が表現され音声合成に
適用されることとなる。
【0024】本発明の音声合成プログラムは、コンピュ
ータに、素片データベースから素片を格納する素片格納
工程と、前記素片の説明ベクトルを格納する説明ベクト
ル格納工程と、前記素片および前記説明ベクトルの対応
関係を示すポインタを格納するポインタ格納工程と、テ
キストを入力するテキスト入力工程と、パラ言語を入力
するパラ言語入力工程と、前記入力されたテキストを解
析するテキスト解析工程と、前記テキスト解析工程の解
析結果および前記入力されたパラ言語情報に基づいて合
成音声の素片単位毎に目標属性ベクトルを生成する目標
属性ベクトル生成工程と、前記生成された目標属性ベク
トルと全ての前記説明ベクトルとの内積を算出する内積
算出工程と、前記内積の最大値を与える韻律素片および
音声波形素片を選定する内積最大値素片選定工程と、前
記選択された前記韻律素片に応じて前記音声波形素片を
変形する音声波形素片変形工程と、前記変形された音声
波形素片同士を接続する音声波形素片接続工程とを実行
させるためのものである。この構成により、コンピュー
タに、韻律素片および音声波形素片の各素片をクラスタ
リングさせた後、同一クラスタにある素片の属性ベクト
ルに基づいて生成された説明ベクトルによって同一クラ
スタ内の素片に共通な属性が表現され音声合成に適用さ
せることとなる。
ータに、素片データベースから素片を格納する素片格納
工程と、前記素片の説明ベクトルを格納する説明ベクト
ル格納工程と、前記素片および前記説明ベクトルの対応
関係を示すポインタを格納するポインタ格納工程と、テ
キストを入力するテキスト入力工程と、パラ言語を入力
するパラ言語入力工程と、前記入力されたテキストを解
析するテキスト解析工程と、前記テキスト解析工程の解
析結果および前記入力されたパラ言語情報に基づいて合
成音声の素片単位毎に目標属性ベクトルを生成する目標
属性ベクトル生成工程と、前記生成された目標属性ベク
トルと全ての前記説明ベクトルとの内積を算出する内積
算出工程と、前記内積の最大値を与える韻律素片および
音声波形素片を選定する内積最大値素片選定工程と、前
記選択された前記韻律素片に応じて前記音声波形素片を
変形する音声波形素片変形工程と、前記変形された音声
波形素片同士を接続する音声波形素片接続工程とを実行
させるためのものである。この構成により、コンピュー
タに、韻律素片および音声波形素片の各素片をクラスタ
リングさせた後、同一クラスタにある素片の属性ベクト
ルに基づいて生成された説明ベクトルによって同一クラ
スタ内の素片に共通な属性が表現され音声合成に適用さ
せることとなる。
【0025】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。
て説明する。
【0026】(実施の形態1)本発明の第1の実施の形
態の音声合成方法を図1のフローチャートを参照して説
明する。まず、ステップS101において、音声コーパ
スの素片毎に属性ベクトルが付与される。ここで、属性
ベクトルは、言語解析から自動的に求められるものおよ
びパラ言語情報などである。前者の言語解析から自動的
に求められるものの例としては、品詞、係り受け、係り
先、アクセント句のモーラ数、アクセント型などがあ
り、後者のパラ言語情報の例としては、口調、発話スタ
イル、感情などのような人間が聴取して判断するものが
ある。この属性ベクトルの一例を表1に示す。この属性
ベクトルは、下記の式(1)で示すakのように、素片
が属性要因に該当する場合には1、該当しない場合には
0が記入されるようになっている。
態の音声合成方法を図1のフローチャートを参照して説
明する。まず、ステップS101において、音声コーパ
スの素片毎に属性ベクトルが付与される。ここで、属性
ベクトルは、言語解析から自動的に求められるものおよ
びパラ言語情報などである。前者の言語解析から自動的
に求められるものの例としては、品詞、係り受け、係り
先、アクセント句のモーラ数、アクセント型などがあ
り、後者のパラ言語情報の例としては、口調、発話スタ
イル、感情などのような人間が聴取して判断するものが
ある。この属性ベクトルの一例を表1に示す。この属性
ベクトルは、下記の式(1)で示すakのように、素片
が属性要因に該当する場合には1、該当しない場合には
0が記入されるようになっている。
【数1】
ただし、
k=1,2,3・・・、N
N:クラスタに属するデータ数
δki=1:素片が指定する属性に該当する場合
δki=0:素片が指定する属性に該当しない場合
【0027】次いで、ステップS102において、前述
の音声コーパスの素片が聴覚的な検知限によりクラスタ
リングされる。ここで聴覚的な検知限とは、例えば、韻
律素片の一種の音韻継続時間の場合には5msec程度
の時間をいい、音声素片の場合には平均3dB程度のス
ペクトル差をいう。次いで、ステップS103におい
て、各クラスタに説明ベクトルが付与される。この説明
ベクトルは、式(2)のように定義され、クラスタの代
表値に関連付けられている。
の音声コーパスの素片が聴覚的な検知限によりクラスタ
リングされる。ここで聴覚的な検知限とは、例えば、韻
律素片の一種の音韻継続時間の場合には5msec程度
の時間をいい、音声素片の場合には平均3dB程度のス
ペクトル差をいう。次いで、ステップS103におい
て、各クラスタに説明ベクトルが付与される。この説明
ベクトルは、式(2)のように定義され、クラスタの代
表値に関連付けられている。
【数2】
ただし、
【数3】
また、riはi番目の要素の正規化係数でありクラスタ
内のデータ総数を表している。
内のデータ総数を表している。
【0028】前述の式(2)に示すように、クラスタの
代表値を重心点とした説明ベクトルにより素片データベ
ースが構築されるようになっている。
代表値を重心点とした説明ベクトルにより素片データベ
ースが構築されるようになっている。
【0029】次いで、ステップS104において、言語
処理、発話スタイルおよび口調指示などが入力される。
次いで、ステップS105において、前述のS104で
入力された言語処理、発話スタイルおよび口調指示など
により、合成音声の素片単位の目標ベクトルgjが生成
される。次いで、ステップS106において、式(4)
に示すように、素片の目標属性ベクトルと説明ベクトル
の内積が計算される。
処理、発話スタイルおよび口調指示などが入力される。
次いで、ステップS105において、前述のS104で
入力された言語処理、発話スタイルおよび口調指示など
により、合成音声の素片単位の目標ベクトルgjが生成
される。次いで、ステップS106において、式(4)
に示すように、素片の目標属性ベクトルと説明ベクトル
の内積が計算される。
【数4】
次いで、ステップS107において、前述のステップS
106で算出された内積p1は内積の総和cで正規化
し、係数w1を得る。
106で算出された内積p1は内積の総和cで正規化
し、係数w1を得る。
【数5】
ここで、内積の総和cは式(6)で表せる。
【数6】
さらに、ステップS107において、前述の係数w1を
素片データベースの素片c1毎に算出し、係数w1を素片
c1に乗じて加算して、式(7)に示すように合成音声
の素片ukを生成する。
素片データベースの素片c1毎に算出し、係数w1を素片
c1に乗じて加算して、式(7)に示すように合成音声
の素片ukを生成する。
【数7】
次いで、ステップS108において、素片が音声素片の
場合は目標周波数や音韻継続時間に応じて変形され、韻
律素変の場合は素片同士の接続部でテーパ窓によって滑
らかに接続され、所望の合成音声が生成されるようにな
っている。
場合は目標周波数や音韻継続時間に応じて変形され、韻
律素変の場合は素片同士の接続部でテーパ窓によって滑
らかに接続され、所望の合成音声が生成されるようにな
っている。
【0030】以上のように、本実施の形態の音声合成方
法によれば、韻律素片および音声波形素片の各素片は、
クラスタリングされた後、同一クラスタにある素片の属
性ベクトルに基づいて生成された説明ベクトルによって
同一クラスタ内の素片に共通な属性が表現されるので、
小さいメモリ容量で合成音声を生成することができ、ま
た、素片間のばらつきを小さくできるので高音質の合成
音声を生成することができる。
法によれば、韻律素片および音声波形素片の各素片は、
クラスタリングされた後、同一クラスタにある素片の属
性ベクトルに基づいて生成された説明ベクトルによって
同一クラスタ内の素片に共通な属性が表現されるので、
小さいメモリ容量で合成音声を生成することができ、ま
た、素片間のばらつきを小さくできるので高音質の合成
音声を生成することができる。
【0031】なお、前述の音声合成方法をプログラミン
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。
【0032】(実施の形態2)本発明の第2の実施の形
態の音声合成方法を図2のフローチャートを参照して説
明する。まず、ステップS101において、音声コーパ
スの素片毎に属性ベクトルが付与される。ここで、属性
ベクトルは、言語解析から自動的に求められるものおよ
びパラ言語情報などである。前者の言語解析から自動的
に求められるものの例としては、品詞、係り受け、係り
先、アクセント句のモーラ数、アクセント型などがあ
り、後者のパラ言語情報の例としては、口調、発話スタ
イル、感情などのような人間が聴取して判断するものが
ある。この属性ベクトルの一例を表1に示す。この属性
ベクトルは、前述の式(1)で示すakのように、素片
が属性要因に該当する場合には1、該当しない場合には
0が記入されるようになっている。
態の音声合成方法を図2のフローチャートを参照して説
明する。まず、ステップS101において、音声コーパ
スの素片毎に属性ベクトルが付与される。ここで、属性
ベクトルは、言語解析から自動的に求められるものおよ
びパラ言語情報などである。前者の言語解析から自動的
に求められるものの例としては、品詞、係り受け、係り
先、アクセント句のモーラ数、アクセント型などがあ
り、後者のパラ言語情報の例としては、口調、発話スタ
イル、感情などのような人間が聴取して判断するものが
ある。この属性ベクトルの一例を表1に示す。この属性
ベクトルは、前述の式(1)で示すakのように、素片
が属性要因に該当する場合には1、該当しない場合には
0が記入されるようになっている。
【0033】次いで、ステップS102において、前述
の音声コーパスの素片が聴覚的な検知限によりクラスタ
リングされる。ここで聴覚的な検知限とは、例えば、韻
律素片の一種の音韻継続時間の場合には5msec程度
の時間をいい、音声素片の場合には平均3dB程度のス
ペクトル差をいう。次いで、ステップS103におい
て、各クラスタに説明ベクトルが付与される。この説明
ベクトルは、前述の式(2)のように定義され、クラス
タの代表値に関連付けられている。前述の式(2)に示
すように、クラスタの代表値を重心点とした説明ベクト
ルにより素片データベースが構築されるようになってい
る。次いで、ステップS104において、言語処理、発
話スタイルおよび口調指示などが入力される。次いで、
ステップS105において、前述のS104で入力され
た言語処理、発話スタイルおよび口調指示などにより、
合成音声の素片単位の目標ベクトルgjが生成される。
次いで、ステップS106において、前述の式(4)に
示すように、素片の目標属性ベクトルと説明ベクトルと
の内積が計算される。
の音声コーパスの素片が聴覚的な検知限によりクラスタ
リングされる。ここで聴覚的な検知限とは、例えば、韻
律素片の一種の音韻継続時間の場合には5msec程度
の時間をいい、音声素片の場合には平均3dB程度のス
ペクトル差をいう。次いで、ステップS103におい
て、各クラスタに説明ベクトルが付与される。この説明
ベクトルは、前述の式(2)のように定義され、クラス
タの代表値に関連付けられている。前述の式(2)に示
すように、クラスタの代表値を重心点とした説明ベクト
ルにより素片データベースが構築されるようになってい
る。次いで、ステップS104において、言語処理、発
話スタイルおよび口調指示などが入力される。次いで、
ステップS105において、前述のS104で入力され
た言語処理、発話スタイルおよび口調指示などにより、
合成音声の素片単位の目標ベクトルgjが生成される。
次いで、ステップS106において、前述の式(4)に
示すように、素片の目標属性ベクトルと説明ベクトルと
の内積が計算される。
【0034】次いで、ステップS201において、前述
のステップS106で得られた内積のうち、最大の内積
を与えた素片が合成音声生成の素片とされる。つまり、
内積を最大にする素片は、合成音声で目標とする属性と
最も近い属性を有するものであるので、式(8)に示す
ように、合成音声で使用する素片ukとするものであ
る。
のステップS106で得られた内積のうち、最大の内積
を与えた素片が合成音声生成の素片とされる。つまり、
内積を最大にする素片は、合成音声で目標とする属性と
最も近い属性を有するものであるので、式(8)に示す
ように、合成音声で使用する素片ukとするものであ
る。
【数8】
次いで、ステップS108において、素片が音声素片の
場合は目標周波数や音韻継続時間に応じて変形され、韻
律素変の場合は素片同士の接続部でテーパ窓によって滑
らかに接続され、所望の合成音声が生成されるようにな
っている。
場合は目標周波数や音韻継続時間に応じて変形され、韻
律素変の場合は素片同士の接続部でテーパ窓によって滑
らかに接続され、所望の合成音声が生成されるようにな
っている。
【0035】以上のように、本実施の形態の音声合成方
法によれば、韻律素片および音声波形素片の各素片は、
クラスタリングされた後、同一クラスタにある素片の属
性ベクトルに基づいて生成された説明ベクトルによって
同一クラスタ内の素片に共通な属性が表現され、また、
内積を最大にする素片は合成音声の素片とされ韻律素片
および音声波形素片の各素片の属性は簡易に表現をされ
るので、小さいメモリ容量で合成音声を生成することが
でき、さらに、素片間のばらつきを小さくできるので高
音質の合成音声を生成することができる。
法によれば、韻律素片および音声波形素片の各素片は、
クラスタリングされた後、同一クラスタにある素片の属
性ベクトルに基づいて生成された説明ベクトルによって
同一クラスタ内の素片に共通な属性が表現され、また、
内積を最大にする素片は合成音声の素片とされ韻律素片
および音声波形素片の各素片の属性は簡易に表現をされ
るので、小さいメモリ容量で合成音声を生成することが
でき、さらに、素片間のばらつきを小さくできるので高
音質の合成音声を生成することができる。
【0036】なお、前述の音声合成方法をプログラミン
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。
【0037】(実施の形態3)本発明の第3の実施の形
態の音声合成方法を図3のフローチャートを参照して説
明する。まず、ステップS101において、音声コーパ
スの素片毎に属性ベクトルが付与される。ここで、属性
ベクトルは、言語解析から自動的に求められるものおよ
びパラ言語情報などである。前者の言語解析から自動的
に求められるものの例としては、品詞、係り受け、係り
先、アクセント句のモーラ数、アクセント型などがあ
り、後者のパラ言語情報の例としては、口調、発話スタ
イル、感情などのような人間が聴取して判断するものが
ある。この属性ベクトルの一例を表1に示す。この属性
ベクトルは、前述の式(1)で示すakのように、素片
が属性要因に該当する場合には1、該当しない場合には
0が記入されるようになっている。
態の音声合成方法を図3のフローチャートを参照して説
明する。まず、ステップS101において、音声コーパ
スの素片毎に属性ベクトルが付与される。ここで、属性
ベクトルは、言語解析から自動的に求められるものおよ
びパラ言語情報などである。前者の言語解析から自動的
に求められるものの例としては、品詞、係り受け、係り
先、アクセント句のモーラ数、アクセント型などがあ
り、後者のパラ言語情報の例としては、口調、発話スタ
イル、感情などのような人間が聴取して判断するものが
ある。この属性ベクトルの一例を表1に示す。この属性
ベクトルは、前述の式(1)で示すakのように、素片
が属性要因に該当する場合には1、該当しない場合には
0が記入されるようになっている。
【0038】次いで、ステップS102において、前述
の音声コーパスの素片が聴覚的な検知限によりクラスタ
リングされる。ここで聴覚的な検知限とは、例えば、韻
律素片の一種の音韻継続時間の場合には5msec程度
の時間をいい、音声素片の場合には平均3dB程度のス
ペクトル差をいう。次いで、ステップS103におい
て、各クラスタに説明ベクトルが付与される。この説明
ベクトルは、前述の式(2)のように定義され、クラス
タの代表値に関連付けられている。前述の式(2)に示
すように、クラスタの代表値を重心点とした説明ベクト
ルにより素片データベースが構築されるようになってい
る。次いで、ステップS104において、言語処理、発
話スタイルおよび口調指示などが入力される。次いで、
ステップS105において、前述のS104で入力され
た言語処理、発話スタイルおよび口調指示などにより、
合成音声の素片単位の目標ベクトルgjが生成される。
次いで、ステップS301において、式(9)によって
前述の目標ベクトルを素片の説明ベクトルで最小自乗の
意味で最適近似する係数w1〜wnが算出される。
の音声コーパスの素片が聴覚的な検知限によりクラスタ
リングされる。ここで聴覚的な検知限とは、例えば、韻
律素片の一種の音韻継続時間の場合には5msec程度
の時間をいい、音声素片の場合には平均3dB程度のス
ペクトル差をいう。次いで、ステップS103におい
て、各クラスタに説明ベクトルが付与される。この説明
ベクトルは、前述の式(2)のように定義され、クラス
タの代表値に関連付けられている。前述の式(2)に示
すように、クラスタの代表値を重心点とした説明ベクト
ルにより素片データベースが構築されるようになってい
る。次いで、ステップS104において、言語処理、発
話スタイルおよび口調指示などが入力される。次いで、
ステップS105において、前述のS104で入力され
た言語処理、発話スタイルおよび口調指示などにより、
合成音声の素片単位の目標ベクトルgjが生成される。
次いで、ステップS301において、式(9)によって
前述の目標ベクトルを素片の説明ベクトルで最小自乗の
意味で最適近似する係数w1〜wnが算出される。
【数9】
次いで、ステップS302において、前述の最適近似係
数は素片に乗じられて加算され、式(10)に示すよう
に合成音声の素片ukが生成される。
数は素片に乗じられて加算され、式(10)に示すよう
に合成音声の素片ukが生成される。
【数10】
次いで、ステップS108において、素片が音声素片の
場合は目標周波数や音韻継続時間に合わせて変形され、
韻律素変の場合は素片同士の接続部でテーパ窓によって
滑らかに接続され、所望の合成音声が生成されるように
なっている。
場合は目標周波数や音韻継続時間に合わせて変形され、
韻律素変の場合は素片同士の接続部でテーパ窓によって
滑らかに接続され、所望の合成音声が生成されるように
なっている。
【0039】以上のように、本実施の形態の音声合成方
法によれば、韻律素片および音声波形素片の各素片は、
クラスタリングされた後、同一クラスタにある素片の属
性ベクトルに基づいて生成された説明ベクトルによって
同一クラスタ内の素片に共通な属性が表現され、また、
目標ベクトルを素片の説明ベクトルで最適に近似する最
適近似係数により合成音声の素片が生成されるので、小
さいメモリ容量で合成音声を生成することができ、さら
に、素片間のばらつきを小さくできるので高音質の合成
音声を生成することができる。
法によれば、韻律素片および音声波形素片の各素片は、
クラスタリングされた後、同一クラスタにある素片の属
性ベクトルに基づいて生成された説明ベクトルによって
同一クラスタ内の素片に共通な属性が表現され、また、
目標ベクトルを素片の説明ベクトルで最適に近似する最
適近似係数により合成音声の素片が生成されるので、小
さいメモリ容量で合成音声を生成することができ、さら
に、素片間のばらつきを小さくできるので高音質の合成
音声を生成することができる。
【0040】なお、前述の音声合成方法をプログラミン
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。
【0041】(実施の形態4)本発明の第4の実施の形
態の音声合成方法は、前述の第1乃至第3の実施の形態
で説明したクラスタの代表値を重心点にすることに代え
て、クラスタの代表値をクラスタの最頻値とするもので
ある。
態の音声合成方法は、前述の第1乃至第3の実施の形態
で説明したクラスタの代表値を重心点にすることに代え
て、クラスタの代表値をクラスタの最頻値とするもので
ある。
【0042】クラスタの代表値をクラスタの最頻値とす
る一例として、韻律素片に含まれる音韻継続時間のデー
タを挙げて説明する。表2は、音韻継続時間の代表値例
を示すものであり、表の左側には音韻継続時間を示し、
表の右側にはあるクラスタ内のデータ数を示している。
例えば、音韻継続時間が12msecであるクラスタ内
のデータ数は2個、音韻継続時間が15msecである
クラスタ内のデータ数は1個であることを示している。
この表2においては、音韻継続時間とその個数から平均
値を算出すれば重心点は18.4msecである。ま
た、音韻継続時間が20msecのデータ数が10個で
最も多いので最頻値は20msecである。表2に示す
ようなクラスタ内のデータに例外的なデータが存在して
偏りが生じている場合は、重心点よりも最頻値を用いた
方が安定した合成音声が生成できるので、前述の第1乃
至第3の実施の形態で説明したクラスタの代表値を重心
点にすることに代えて、クラスタの代表値をクラスタの
最頻値とするのが好ましい。一方、クラスタ内に偏りの
あるデータが存在しない場合でも、最頻値と重心点は一
致することが多いので、一般的に最頻値をクラスタの代
表値とした方が好ましい。
る一例として、韻律素片に含まれる音韻継続時間のデー
タを挙げて説明する。表2は、音韻継続時間の代表値例
を示すものであり、表の左側には音韻継続時間を示し、
表の右側にはあるクラスタ内のデータ数を示している。
例えば、音韻継続時間が12msecであるクラスタ内
のデータ数は2個、音韻継続時間が15msecである
クラスタ内のデータ数は1個であることを示している。
この表2においては、音韻継続時間とその個数から平均
値を算出すれば重心点は18.4msecである。ま
た、音韻継続時間が20msecのデータ数が10個で
最も多いので最頻値は20msecである。表2に示す
ようなクラスタ内のデータに例外的なデータが存在して
偏りが生じている場合は、重心点よりも最頻値を用いた
方が安定した合成音声が生成できるので、前述の第1乃
至第3の実施の形態で説明したクラスタの代表値を重心
点にすることに代えて、クラスタの代表値をクラスタの
最頻値とするのが好ましい。一方、クラスタ内に偏りの
あるデータが存在しない場合でも、最頻値と重心点は一
致することが多いので、一般的に最頻値をクラスタの代
表値とした方が好ましい。
【0043】以上のように、本実施の形態によれば、ク
ラスタの代表値はクラスタの最頻値で表すことにより、
安定した合成音声を生成することができる。
ラスタの代表値はクラスタの最頻値で表すことにより、
安定した合成音声を生成することができる。
【0044】なお、前述の音声合成方法をプログラミン
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。
【0045】(実施の形態5)本発明の第5の実施の形
態の音声合成方法を図4のフローチャートを参照して説
明する。本実施の形態の音声合成方法は、前述の第1乃
至第3の実施の形態で説明した属性ベクトルおよび説明
ベクトルを生成する際の処理に関するものである。前述
の素片データベースの説明ベクトルの要素の正規化係数
r1〜rnに代えて、元の音声コーパス中の当該要因の発
生データ総数とするものである。
態の音声合成方法を図4のフローチャートを参照して説
明する。本実施の形態の音声合成方法は、前述の第1乃
至第3の実施の形態で説明した属性ベクトルおよび説明
ベクトルを生成する際の処理に関するものである。前述
の素片データベースの説明ベクトルの要素の正規化係数
r1〜rnに代えて、元の音声コーパス中の当該要因の発
生データ総数とするものである。
【0046】まず、ステップS401において、説明ベ
クトル同士のi番目の要素が比較される。次いで、ステ
ップS402において、予め決められた統計的手法、例
えば、カイ自乗検定によって、ステップS401で比較
された説明ベクトル同士のi番目の要素の差異が有意に
大きいか否かが判断される。ここで、判断の基準は予め
決められた閾値による。i番目の要素の差異が有意に大
きいときはステップS404に進み、比較する要素を次
に進める。一方、i番目の要素の差異が有意に大きくな
いときには、ステップS403に進み、全ての説明ベク
トルが比較されたか否かが判断される。全ての説明ベク
トルが比較されたときは、ステップS406に進み、全
ての説明ベクトルが比較されていないときは、ステップ
S405に進み比較される説明ベクトルが代えられる。
クトル同士のi番目の要素が比較される。次いで、ステ
ップS402において、予め決められた統計的手法、例
えば、カイ自乗検定によって、ステップS401で比較
された説明ベクトル同士のi番目の要素の差異が有意に
大きいか否かが判断される。ここで、判断の基準は予め
決められた閾値による。i番目の要素の差異が有意に大
きいときはステップS404に進み、比較する要素を次
に進める。一方、i番目の要素の差異が有意に大きくな
いときには、ステップS403に進み、全ての説明ベク
トルが比較されたか否かが判断される。全ての説明ベク
トルが比較されたときは、ステップS406に進み、全
ての説明ベクトルが比較されていないときは、ステップ
S405に進み比較される説明ベクトルが代えられる。
【0047】次いで、ステップS406において、i番
目の要素の差異が有意に大きくない当該要素は属性ベク
トルおよび説明ベクトルから除外される。つまり、予め
決められた一定の有意水準で同一と見なせる場合には、
この要素の属性は各クラスタに共通頻度で発生したこと
を意味し、クラスタの形成には寄与していないことにな
る。したがって、この要素を無意味な要素として説明ベ
クトルおよび属性ベクトルに適用しないようにするもの
である。次いで、ステップS407において、全ての要
素の比較が終了したか否かが判断される。全ての要素の
比較が終了していない場合はステップS408に進み比
較される要素が次に進められ、全ての要素の比較が終了
した場合は処理を終了する。
目の要素の差異が有意に大きくない当該要素は属性ベク
トルおよび説明ベクトルから除外される。つまり、予め
決められた一定の有意水準で同一と見なせる場合には、
この要素の属性は各クラスタに共通頻度で発生したこと
を意味し、クラスタの形成には寄与していないことにな
る。したがって、この要素を無意味な要素として説明ベ
クトルおよび属性ベクトルに適用しないようにするもの
である。次いで、ステップS407において、全ての要
素の比較が終了したか否かが判断される。全ての要素の
比較が終了していない場合はステップS408に進み比
較される要素が次に進められ、全ての要素の比較が終了
した場合は処理を終了する。
【0048】以上のように、本実施の形態によれば、予
め決められた統計的有意水準で同一とみなせる要素を無
意味な要素として説明ベクトルおよび属性ベクトルに適
用しないようにすることにより、説明ベクトルおよび属
性ベクトルを最適なサイズにすることができるので小さ
いメモリ容量で合成音声を生成することができ、さら
に、素片間のばらつきを小さくできるので高音質の合成
音声を生成することができる。
め決められた統計的有意水準で同一とみなせる要素を無
意味な要素として説明ベクトルおよび属性ベクトルに適
用しないようにすることにより、説明ベクトルおよび属
性ベクトルを最適なサイズにすることができるので小さ
いメモリ容量で合成音声を生成することができ、さら
に、素片間のばらつきを小さくできるので高音質の合成
音声を生成することができる。
【0049】なお、前述の音声合成方法をプログラミン
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。
【0050】(実施の形態6)本発明の第6の実施の形
態の音声合成方法を図5のフローチャートを参照して説
明する。本実施の形態の音声合成方法は、前述の第1乃
至第3の実施の形態で説明した説明ベクトルの取り扱い
に関するものである。前述の素片データベースの説明ベ
クトルの要素の正規化係数r1〜rnに代えて、元の音声
コーパス中の当該要因の発生データ総数とするものであ
る。
態の音声合成方法を図5のフローチャートを参照して説
明する。本実施の形態の音声合成方法は、前述の第1乃
至第3の実施の形態で説明した説明ベクトルの取り扱い
に関するものである。前述の素片データベースの説明ベ
クトルの要素の正規化係数r1〜rnに代えて、元の音声
コーパス中の当該要因の発生データ総数とするものであ
る。
【0051】まず、ステップS501において、説明ベ
クトル同士が比較される。次いで、ステップS502に
おいて、予め決められた統計的手法、例えば、カイ自乗
検定によって、ステップS501で比較された説明ベク
トル同士の差異が有意に大きいか否かが判断される。こ
こで、判断の基準は予め決められた閾値による。説明ベ
クトル同士の差異が有意に大きいときはステップS50
4に進み、比較する説明ベクトルが次に進められる。一
方、説明ベクトル同士の差異が有意に大きくないときに
は、ステップS503に進み、全ての説明ベクトルが比
較されたか否かが判断される。全ての説明ベクトルが比
較されたときは、ステップS506に進み、全ての説明
ベクトルが比較されていないときは、ステップS505
に進み比較される説明ベクトルが代えられる。次いで、
ステップS506において、説明ベクトル同士の差異が
有意に大きくないクラスタが統合され、新たに素片デー
タベースが構築されるようになっている。つまり、予め
決められた一定の有意水準で同一と見なせる場合には、
前述の本発明の第1の実施の形態で示した聴覚的な検知
限によるクラスタリングが厳しすぎたことを意味してお
り、元々の素片のデータのばらつきが大きいためにクラ
スタが強制分割されたと考えられるので、予め決められ
た一定の有意水準で同一と見なせる素片データを集約し
てその平均値をクラスタの代表値にすることで素片デー
タベースのサイズを縮退することができる。
クトル同士が比較される。次いで、ステップS502に
おいて、予め決められた統計的手法、例えば、カイ自乗
検定によって、ステップS501で比較された説明ベク
トル同士の差異が有意に大きいか否かが判断される。こ
こで、判断の基準は予め決められた閾値による。説明ベ
クトル同士の差異が有意に大きいときはステップS50
4に進み、比較する説明ベクトルが次に進められる。一
方、説明ベクトル同士の差異が有意に大きくないときに
は、ステップS503に進み、全ての説明ベクトルが比
較されたか否かが判断される。全ての説明ベクトルが比
較されたときは、ステップS506に進み、全ての説明
ベクトルが比較されていないときは、ステップS505
に進み比較される説明ベクトルが代えられる。次いで、
ステップS506において、説明ベクトル同士の差異が
有意に大きくないクラスタが統合され、新たに素片デー
タベースが構築されるようになっている。つまり、予め
決められた一定の有意水準で同一と見なせる場合には、
前述の本発明の第1の実施の形態で示した聴覚的な検知
限によるクラスタリングが厳しすぎたことを意味してお
り、元々の素片のデータのばらつきが大きいためにクラ
スタが強制分割されたと考えられるので、予め決められ
た一定の有意水準で同一と見なせる素片データを集約し
てその平均値をクラスタの代表値にすることで素片デー
タベースのサイズを縮退することができる。
【0052】以上のように、本実施の形態によれば、予
め決められた統計的有意水準で同一とみなせる説明ベク
トルのクラスタを統合することにより、素片データベー
スのサイズを削減することができるので、小さいメモリ
容量で合成音声を生成することができ、さらに、素片間
のばらつきを小さくできるので高音質の合成音声を生成
することができる。
め決められた統計的有意水準で同一とみなせる説明ベク
トルのクラスタを統合することにより、素片データベー
スのサイズを削減することができるので、小さいメモリ
容量で合成音声を生成することができ、さらに、素片間
のばらつきを小さくできるので高音質の合成音声を生成
することができる。
【0053】なお、前述の説明ベクトルの取り扱いに関
する処理により、代表値間のばらつきが聴覚的な検知限
を超えるものが生じる場合があり、ざらついた音質の合
成音声になることがあるので、どのカテゴリを融合して
削減するかは、視聴チェックを行いながら判断すればよ
い。
する処理により、代表値間のばらつきが聴覚的な検知限
を超えるものが生じる場合があり、ざらついた音質の合
成音声になることがあるので、どのカテゴリを融合して
削減するかは、視聴チェックを行いながら判断すればよ
い。
【0054】なお、前述の音声合成方法をプログラミン
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。
【0055】(実施の形態7)本発明の第7の実施の形
態の音声合成方法を図6のフローチャートを参照して説
明する。本実施の形態の音声合成方法は、前述の第1乃
至第3の実施の形態で説明した属性要因に関するもので
ある。前述の素片データベースの説明ベクトルの要素の
正規化係数r1〜rnに代えて、元の音声コーパス中の当
該要因の発生データ総数とするものである。
態の音声合成方法を図6のフローチャートを参照して説
明する。本実施の形態の音声合成方法は、前述の第1乃
至第3の実施の形態で説明した属性要因に関するもので
ある。前述の素片データベースの説明ベクトルの要素の
正規化係数r1〜rnに代えて、元の音声コーパス中の当
該要因の発生データ総数とするものである。
【0056】まず、ステップS601において、任意に
2つの説明ベクトルが選択される。次いで、ステップS
602において、説明ベクトル間でi番目の要素同士が
比較される。次いで、ステップS603において、予め
決められた統計的手法、例えば、カイ自乗検定によっ
て、ステップS602で比較された説明ベクトル間のi
番目の要素の差異が有意に大きいか否かが判断される。
ここで、判断の基準は予め決められた閾値による。説明
ベクトル間のi番目の要素の差異が有意に大きい場合は
ステップS604に進み、説明ベクトル間のi番目の要
素の差異が有意に大きくない場合はステップS609に
進む。次いで、ステップS604において、全ての説明
ベクトルと比較が終了したか否かが判断される。全ての
説明ベクトルと比較が終了した場合はステップS606
に進み、全ての説明ベクトルと比較が終了していない場
合はステップS605に進む。次いで、ステップS60
6において、ステップS603で説明ベクトル間のi番
目の要素の差異が有意に大きいとされた説明ベクトルの
数Nをもとに、Log2Nの整数化された数が新たな追
加属性の個数とされる。次いで、ステップS607にお
いて、新たな追加属性が前述のN個のクラスタに属する
データの比較観察により決定され、これらのデータの属
性ベクトルが付与しなおされて更新され、結果として説
明ベクトルも更新されるようになっている。次いで、ス
テップS608において、新たな追加属性に対し他のク
ラスタの全データにおいても前述の属性の有無が見直さ
れ、属性ベクトルが付与しなおされて更新され、結果と
して説明ベクトルも更新されるようになっている。この
ステップS608の処理が終了するとステップS602
に戻るようになっている。
2つの説明ベクトルが選択される。次いで、ステップS
602において、説明ベクトル間でi番目の要素同士が
比較される。次いで、ステップS603において、予め
決められた統計的手法、例えば、カイ自乗検定によっ
て、ステップS602で比較された説明ベクトル間のi
番目の要素の差異が有意に大きいか否かが判断される。
ここで、判断の基準は予め決められた閾値による。説明
ベクトル間のi番目の要素の差異が有意に大きい場合は
ステップS604に進み、説明ベクトル間のi番目の要
素の差異が有意に大きくない場合はステップS609に
進む。次いで、ステップS604において、全ての説明
ベクトルと比較が終了したか否かが判断される。全ての
説明ベクトルと比較が終了した場合はステップS606
に進み、全ての説明ベクトルと比較が終了していない場
合はステップS605に進む。次いで、ステップS60
6において、ステップS603で説明ベクトル間のi番
目の要素の差異が有意に大きいとされた説明ベクトルの
数Nをもとに、Log2Nの整数化された数が新たな追
加属性の個数とされる。次いで、ステップS607にお
いて、新たな追加属性が前述のN個のクラスタに属する
データの比較観察により決定され、これらのデータの属
性ベクトルが付与しなおされて更新され、結果として説
明ベクトルも更新されるようになっている。次いで、ス
テップS608において、新たな追加属性に対し他のク
ラスタの全データにおいても前述の属性の有無が見直さ
れ、属性ベクトルが付与しなおされて更新され、結果と
して説明ベクトルも更新されるようになっている。この
ステップS608の処理が終了するとステップS602
に戻るようになっている。
【0057】一方、前述のステップS603において、
説明ベクトル間のi番目の要素の差異が有意に大きくな
いとされた場合は、ステップS609で比較する要素が
次に進められ、ステップS610に進む。次いで、ステ
ップS610において、全ての要素で比較が終了したか
否かが判断される。全ての要素で比較が終了していない
場合はステップS602に戻り、全ての要素で比較が終
了した場合は処理を終了する。また、前述のステップS
604において、全ての説明ベクトルと比較が終了して
いない場合はステップS605に進み、比較する説明ベ
クトルが代えられi=1とされステップS602に戻る
ようになっている。
説明ベクトル間のi番目の要素の差異が有意に大きくな
いとされた場合は、ステップS609で比較する要素が
次に進められ、ステップS610に進む。次いで、ステ
ップS610において、全ての要素で比較が終了したか
否かが判断される。全ての要素で比較が終了していない
場合はステップS602に戻り、全ての要素で比較が終
了した場合は処理を終了する。また、前述のステップS
604において、全ての説明ベクトルと比較が終了して
いない場合はステップS605に進み、比較する説明ベ
クトルが代えられi=1とされステップS602に戻る
ようになっている。
【0058】以上のように、本実施の形態によれば、説
明ベクトル間のi番目の要素同士を比較することにより
見逃していた属性要因を着実に探し出すことができ、よ
り有効なデータベースを構築することができるので、音
質のよい音声合成を生成することができる。
明ベクトル間のi番目の要素同士を比較することにより
見逃していた属性要因を着実に探し出すことができ、よ
り有効なデータベースを構築することができるので、音
質のよい音声合成を生成することができる。
【0059】なお、前述の音声合成方法をプログラミン
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。
【0060】(実施の形態8)本発明の第8の実施の形
態の音声合成装置を図7のブロック図を参照して説明す
る。まず、本実施の形態の音声合成装置の構成について
説明する。図7に示すように、本実施の形態の音声合成
装置は、テキストを入力するテキスト入力手段701
と、テキストを解析するテキスト解析手段703と、目
標ベクトルを生成する目標ベクトル生成手段704と、
音声波形の素片を変形する音声波形素片変形手段705
と、音声波形の素片を接続する音声波形素片接続手段7
06と、パラ言語を入力するパラ言語入力手段702
と、説明ベクトルを格納する説明ベクトル格納手段70
7と、ベクトルの内積を算出する内積算出手段708
と、ポインタを格納するポインタ格納手段709と、内
積の最大値を与えた素片を選定する内積最大値素片選定
手段710と、素片を格納する素片格納手段711とを
備えている。
態の音声合成装置を図7のブロック図を参照して説明す
る。まず、本実施の形態の音声合成装置の構成について
説明する。図7に示すように、本実施の形態の音声合成
装置は、テキストを入力するテキスト入力手段701
と、テキストを解析するテキスト解析手段703と、目
標ベクトルを生成する目標ベクトル生成手段704と、
音声波形の素片を変形する音声波形素片変形手段705
と、音声波形の素片を接続する音声波形素片接続手段7
06と、パラ言語を入力するパラ言語入力手段702
と、説明ベクトルを格納する説明ベクトル格納手段70
7と、ベクトルの内積を算出する内積算出手段708
と、ポインタを格納するポインタ格納手段709と、内
積の最大値を与えた素片を選定する内積最大値素片選定
手段710と、素片を格納する素片格納手段711とを
備えている。
【0061】次に、本実施の形態の音声合成装置の動作
を説明する。まず、テキストはテキスト入力手段701
に入力される。次いで、テキスト解析手段703に入力
された後、目標ベクトル生成手段704に入力される。
一方、パラ言語情報は、文節やアクセント句程度の単位
毎にパラ言語入力手段702に入力された後、目標ベク
トル生成手段704に入力される。このパラ言語情報
は、人間が判断してもよいし、文のパターンから一意に
決定してもよい。次いで、目標ベクトル生成手段704
では、合成しようとする音声の素片単位にその属性を表
現する属性ベクトルが生成される。
を説明する。まず、テキストはテキスト入力手段701
に入力される。次いで、テキスト解析手段703に入力
された後、目標ベクトル生成手段704に入力される。
一方、パラ言語情報は、文節やアクセント句程度の単位
毎にパラ言語入力手段702に入力された後、目標ベク
トル生成手段704に入力される。このパラ言語情報
は、人間が判断してもよいし、文のパターンから一意に
決定してもよい。次いで、目標ベクトル生成手段704
では、合成しようとする音声の素片単位にその属性を表
現する属性ベクトルが生成される。
【0062】一方、素片格納手段711に格納された素
片および説明ベクトル格納手段707に格納された説明
ベクトルは、ポインタ格納手段709に格納されたポイ
ンタにより関連付けられている。また、素片毎に属性ベ
クトルと素片データベースの全説明ベクトルとの内積が
内積算出手段708によって算出され、内積最大値素片
選択手段710により最大の内積を与えた素片のポイン
タを参照して韻律素片データベースおよび音声波形素片
データベースから、最大の内積を与えた素片を選択する
ようになっている。この選択された素片のうち、韻律素
片に合わせて音声波形素片が音声波形素片変形手段70
5で変形される。次いで、音声波形素片同士が音声波形
素片接続手段で接続され、合成音声が生成されるように
なっている。
片および説明ベクトル格納手段707に格納された説明
ベクトルは、ポインタ格納手段709に格納されたポイ
ンタにより関連付けられている。また、素片毎に属性ベ
クトルと素片データベースの全説明ベクトルとの内積が
内積算出手段708によって算出され、内積最大値素片
選択手段710により最大の内積を与えた素片のポイン
タを参照して韻律素片データベースおよび音声波形素片
データベースから、最大の内積を与えた素片を選択する
ようになっている。この選択された素片のうち、韻律素
片に合わせて音声波形素片が音声波形素片変形手段70
5で変形される。次いで、音声波形素片同士が音声波形
素片接続手段で接続され、合成音声が生成されるように
なっている。
【0063】以上のように、本実施の形態の音声合成装
置によれば、入力されたテキストの目標ベクトルと素片
の属性ベクトルに基づいて生成された説明ベクトルとの
内積を最大にする素片を算出し合成音声の素片としてい
るので、合成音声で目標とする属性と最も近い素片を得
ることができ高音質の合成音声を生成することができ
る。
置によれば、入力されたテキストの目標ベクトルと素片
の属性ベクトルに基づいて生成された説明ベクトルとの
内積を最大にする素片を算出し合成音声の素片としてい
るので、合成音声で目標とする属性と最も近い素片を得
ることができ高音質の合成音声を生成することができ
る。
【0064】(実施の形態9)本発明の第9の実施の形
態の音声合成装置を図8のブロック図を参照して説明す
る。まず、本実施の形態の音声合成装置の構成について
説明する。図8に示すように、本実施の形態の音声合成
装置は、テキストを入力するテキスト入力手段701
と、テキストを解析するテキスト解析手段703と、目
標ベクトルを生成する目標ベクトル生成手段704と、
音声波形の素片を変形する音声波形素片変形手段705
と、音声波形の素片を接続する音声波形素片接続手段7
06と、パラ言語を入力するパラ言語入力手段702
と、説明ベクトルを格納する説明ベクトル格納手段70
7と、ベクトルの内積を算出する内積算出手段708
と、ポインタを格納するポインタ格納手段709と、内
積の総和で除して正規化した加重係数により平均化する
素片加重平均化手段801と、素片を格納する素片格納
手段711とを備えている。
態の音声合成装置を図8のブロック図を参照して説明す
る。まず、本実施の形態の音声合成装置の構成について
説明する。図8に示すように、本実施の形態の音声合成
装置は、テキストを入力するテキスト入力手段701
と、テキストを解析するテキスト解析手段703と、目
標ベクトルを生成する目標ベクトル生成手段704と、
音声波形の素片を変形する音声波形素片変形手段705
と、音声波形の素片を接続する音声波形素片接続手段7
06と、パラ言語を入力するパラ言語入力手段702
と、説明ベクトルを格納する説明ベクトル格納手段70
7と、ベクトルの内積を算出する内積算出手段708
と、ポインタを格納するポインタ格納手段709と、内
積の総和で除して正規化した加重係数により平均化する
素片加重平均化手段801と、素片を格納する素片格納
手段711とを備えている。
【0065】次に、本実施の形態の音声合成装置の動作
を説明する。まず、テキストはテキスト入力手段701
に入力される。次いで、テキスト解析手段703に入力
された後、目標ベクトル生成手段704に入力される。
一方、パラ言語情報は、文節やアクセント句程度の単位
毎にパラ言語入力手段702に入力された後、目標ベク
トル生成手段704に入力される。このパラ言語情報
は、人間が判断してもよいし、文のパターンから一意に
決定してもよい。次いで、目標ベクトル生成手段704
では、合成しようとする音声の素片単位にその属性を表
現する属性ベクトルが生成される。
を説明する。まず、テキストはテキスト入力手段701
に入力される。次いで、テキスト解析手段703に入力
された後、目標ベクトル生成手段704に入力される。
一方、パラ言語情報は、文節やアクセント句程度の単位
毎にパラ言語入力手段702に入力された後、目標ベク
トル生成手段704に入力される。このパラ言語情報
は、人間が判断してもよいし、文のパターンから一意に
決定してもよい。次いで、目標ベクトル生成手段704
では、合成しようとする音声の素片単位にその属性を表
現する属性ベクトルが生成される。
【0066】一方、素片格納手段711に格納された素
片および説明ベクトル格納手段707に格納された説明
ベクトルは、ポインタ格納手段709に格納されたポイ
ンタにより関連付けられている。また、素片毎に属性ベ
クトルと素片データベースの全説明ベクトルとの内積が
内積算出手段708によって算出され、素片加重平均化
手段801により内積の総和で除して正規化した加重係
数により平均化され、加重平均化された素片が生成され
る。次いで、音声波形素片が音声波形素片変形手段70
5で変形され、音声波形素片同士が音声波形素片接続手
段706で接続され、合成音声が生成されるようになっ
ている。
片および説明ベクトル格納手段707に格納された説明
ベクトルは、ポインタ格納手段709に格納されたポイ
ンタにより関連付けられている。また、素片毎に属性ベ
クトルと素片データベースの全説明ベクトルとの内積が
内積算出手段708によって算出され、素片加重平均化
手段801により内積の総和で除して正規化した加重係
数により平均化され、加重平均化された素片が生成され
る。次いで、音声波形素片が音声波形素片変形手段70
5で変形され、音声波形素片同士が音声波形素片接続手
段706で接続され、合成音声が生成されるようになっ
ている。
【0067】以上のように、本実施の形態の音声合成装
置によれば、入力されたテキストの目標ベクトルと素片
の属性ベクトルに基づいて生成された説明ベクトルとの
内積を算出し素片を加重平均化しているので、同じ代表
値を有するクラスタの発生を防ぐことができ、また、素
片間のばらつきを小さくすることができるので、高音質
の合成音声を生成することができる。
置によれば、入力されたテキストの目標ベクトルと素片
の属性ベクトルに基づいて生成された説明ベクトルとの
内積を算出し素片を加重平均化しているので、同じ代表
値を有するクラスタの発生を防ぐことができ、また、素
片間のばらつきを小さくすることができるので、高音質
の合成音声を生成することができる。
【0068】(実施の形態10)本発明の第10の実施
の形態の音声合成装置を図9のブロック図を参照して説
明する。まず、本実施の形態の音声合成装置の構成につ
いて説明する。図9に示すように、本実施の形態の音声
合成装置は、テキストを入力するテキスト入力手段70
1と、テキストを解析するテキスト解析手段703と、
目標ベクトルを生成する目標ベクトル生成手段704
と、音声波形の素片を変形する音声波形素片変形手段7
05と、音声波形の素片を接続する音声波形素片接続手
段706と、パラ言語を入力するパラ言語入力手段70
2と、説明ベクトルを格納する説明ベクトル格納手段7
07と、目標ベクトルを素片の説明ベクトルで最適に近
似する最適近似係数を算出する最適近似係数算出手段9
01と、ポインタを格納するポインタ格納手段709
と、最適近似係数により素片を加重平均化する素片加重
平均化手段902と、素片を格納する素片格納手段71
1とを備えている。
の形態の音声合成装置を図9のブロック図を参照して説
明する。まず、本実施の形態の音声合成装置の構成につ
いて説明する。図9に示すように、本実施の形態の音声
合成装置は、テキストを入力するテキスト入力手段70
1と、テキストを解析するテキスト解析手段703と、
目標ベクトルを生成する目標ベクトル生成手段704
と、音声波形の素片を変形する音声波形素片変形手段7
05と、音声波形の素片を接続する音声波形素片接続手
段706と、パラ言語を入力するパラ言語入力手段70
2と、説明ベクトルを格納する説明ベクトル格納手段7
07と、目標ベクトルを素片の説明ベクトルで最適に近
似する最適近似係数を算出する最適近似係数算出手段9
01と、ポインタを格納するポインタ格納手段709
と、最適近似係数により素片を加重平均化する素片加重
平均化手段902と、素片を格納する素片格納手段71
1とを備えている。
【0069】次に、本実施の形態の音声合成装置の動作
を説明する。まず、テキストはテキスト入力手段701
に入力される。次いで、テキスト解析手段703に入力
された後、目標ベクトル生成手段704に入力される。
一方、パラ言語情報は、文節やアクセント句程度の単位
毎にパラ言語入力手段702に入力された後、目標ベク
トル生成手段704に入力される。このパラ言語情報
は、人間が判断してもよいし、文のパターンから一意に
決定してもよい。次いで、目標ベクトル生成手段704
では、合成しようとする音声の素片単位にその属性を表
現する属性ベクトルが生成される。
を説明する。まず、テキストはテキスト入力手段701
に入力される。次いで、テキスト解析手段703に入力
された後、目標ベクトル生成手段704に入力される。
一方、パラ言語情報は、文節やアクセント句程度の単位
毎にパラ言語入力手段702に入力された後、目標ベク
トル生成手段704に入力される。このパラ言語情報
は、人間が判断してもよいし、文のパターンから一意に
決定してもよい。次いで、目標ベクトル生成手段704
では、合成しようとする音声の素片単位にその属性を表
現する属性ベクトルが生成される。
【0070】一方、素片格納手段711に格納された素
片および説明ベクトル格納手段707に格納された説明
ベクトルは、ポインタ格納手段709に格納されたポイ
ンタにより関連付けられている。また、最適近似係数算
出手段901により目標ベクトルを素片の説明ベクトル
で最適に近似する最適近似係数が算出され素片加重平均
化手段902に出力される。素片加重平均化手段902
においては、最適近似係数により加重平均化された素片
が生成される。次いで、音声波形素片が音声波形素片変
形手段705で変形され、音声波形素片同士が音声波形
素片接続手段706で接続され、合成音声が生成される
ようになっている。
片および説明ベクトル格納手段707に格納された説明
ベクトルは、ポインタ格納手段709に格納されたポイ
ンタにより関連付けられている。また、最適近似係数算
出手段901により目標ベクトルを素片の説明ベクトル
で最適に近似する最適近似係数が算出され素片加重平均
化手段902に出力される。素片加重平均化手段902
においては、最適近似係数により加重平均化された素片
が生成される。次いで、音声波形素片が音声波形素片変
形手段705で変形され、音声波形素片同士が音声波形
素片接続手段706で接続され、合成音声が生成される
ようになっている。
【0071】以上のように、本実施の形態の音声合成装
置によれば、入力されたテキストの目標ベクトルを素片
の属性ベクトルに基づいて生成された説明ベクトルで最
適に近似する最適近似係数を算出し、この最適近似係数
により素片を加重平均化して合成音声の素片とするの
で、同じ代表値を有するクラスタの発生を防ぐことがで
き、また、素片間のばらつきを小さくすることができる
ので、高音質の合成音声を生成することができる。
置によれば、入力されたテキストの目標ベクトルを素片
の属性ベクトルに基づいて生成された説明ベクトルで最
適に近似する最適近似係数を算出し、この最適近似係数
により素片を加重平均化して合成音声の素片とするの
で、同じ代表値を有するクラスタの発生を防ぐことがで
き、また、素片間のばらつきを小さくすることができる
ので、高音質の合成音声を生成することができる。
【0072】
【発明の効果】以上説明したように、本発明によれば、
韻律素片および音声波形素片の各素片は、クラスタリン
グされた後、同一クラスタにある素片の属性ベクトルに
基づいて生成された説明ベクトルによって同一クラスタ
内の素片に共通な属性が表現されるので、小さいメモリ
容量で合成音声を生成することができ、また、素片間の
ばらつきを小さくできるので高音質の合成音声を生成す
ることができる。
韻律素片および音声波形素片の各素片は、クラスタリン
グされた後、同一クラスタにある素片の属性ベクトルに
基づいて生成された説明ベクトルによって同一クラスタ
内の素片に共通な属性が表現されるので、小さいメモリ
容量で合成音声を生成することができ、また、素片間の
ばらつきを小さくできるので高音質の合成音声を生成す
ることができる。
【図1】本発明の第1の実施の形態における音声合成方
法のフローチャート
法のフローチャート
【図2】本発明の第2の実施の形態における音声合成方
法のフローチャート
法のフローチャート
【図3】本発明の第3の実施の形態における音声合成方
法のフローチャート
法のフローチャート
【図4】本発明の第5の実施の形態における音声合成方
法のフローチャート
法のフローチャート
【図5】本発明の第6の実施の形態における音声合成方
法のフローチャート
法のフローチャート
【図6】本発明の第7の実施の形態における音声合成方
法のフローチャート
法のフローチャート
【図7】本発明の第8の実施の形態における音声合成装
置のブロック図
置のブロック図
【図8】本発明の第9の実施の形態における音声合成装
置のブロック図
置のブロック図
【図9】本発明の第10の実施の形態における音声合成
装置のブロック図
装置のブロック図
【図10】従来の音声合成方法のフローチャート
701 テキスト入力手段
702 パラ言語入力手段
703 テキスト解析手段
704 目標ベクトル生成手段
705 音声波形素片変形手段
706 音声波形素片接続手段
707 説明ベクトル格納手段
708 内積算出手段
709 ポインタ格納手段
710 内積最大値素片選定手段
711 素片格納手段
801、902 素片加重平均化手段
901 最適近似係数算出手段
Claims (17)
- 【請求項1】 韻律素片および音声波形素片を含む音声
コーパスの各素片に予め決められた属性要因およびパラ
言語情報を含む属性ベクトルを付与する属性ベクトル付
与工程と、前記属性ベクトルが付与された前記素片をク
ラスタリングするクラスタリング工程と、前記クラスタ
リングで得られた各クラスタに属する前記素片のクラス
タ代表値を算出するクラスタ代表値算出工程と、前記ク
ラスタリングで得られた各クラスタに属する前記素片の
属性ベクトルに基づいて説明ベクトルを生成する説明ベ
クトル生成工程と、合成音声の素片単位の目標属性ベク
トルを生成する目標属性ベクトル生成工程と、前記目標
属性ベクトルを前記説明ベクトルで最適に近似する最適
近似係数を前記音声コーパスの素片毎に算出する最適近
似係数算出工程と、前記最適近似係数に基づいて合成音
声の素片を生成する合成音声素片生成工程とを含むこと
を特徴とする音声合成方法。 - 【請求項2】 前記属性ベクトル付与工程で付与された
前記属性ベクトルは、前記予め決められた属性要因毎に
各属性要因が存在するか否かの表現を含むことを特徴と
する請求項1に記載の音声合成方法。 - 【請求項3】 前記クラスタリング工程は、聴覚的な検
知限に基づいてクラスタリングを行う工程を含むことを
特徴とする請求項1に記載の音声合成方法。 - 【請求項4】 前記説明ベクトル生成工程は、前記クラ
スタ毎に各クラスタに属する前記素片の属性ベクトルを
加算して得られるベクトルの各属性要因を前記属性要因
毎に各クラスタに属する前記素片の総数で除したものを
新たな属性要因とするベクトルを生成して各クラスタの
説明ベクトルとする工程を含むことを特徴とする請求項
1に記載の音声合成方法。 - 【請求項5】 前記説明ベクトル生成工程は、前記クラ
スタ毎に各クラスタに属する前記素片の属性ベクトルを
加算して得られるベクトルの各属性要因を前記音声コー
パスで前記属性要因が発生したデータ総数で除したもの
を新たな属性要因とするベクトルを生成して各クラスタ
の説明ベクトルとする工程を含むことを特徴とする請求
項1に記載の音声合成方法。 - 【請求項6】 前記クラスタ代表値算出工程は、前記ク
ラスタの重心点を前記クラスタの代表素片とする工程を
含むことを特徴とする請求項1に記載の音声合成方法。 - 【請求項7】 前記クラスタ代表値算出工程は、前記ク
ラスタの最頻値を前記クラスタの代表素片とする工程を
含むことを特徴とする請求項1に記載の音声合成方法。 - 【請求項8】 韻律素片および音声波形素片を含む音声
コーパスの各素片に予め決められた属性要因およびパラ
言語情報を含む属性ベクトルを付与する属性ベクトル付
与工程と、前記属性ベクトルが付与された前記素片をク
ラスタリングするクラスタリング工程と、前記クラスタ
リングで得られた各クラスタに属する前記素片のクラス
タ代表値を算出するクラスタ代表値算出工程と、前記ク
ラスタリングで得られた各クラスタに属する前記素片の
属性ベクトルに基づいて説明ベクトルを生成する説明ベ
クトル生成工程と、前記説明ベクトル同士の各属性要因
を比較する説明ベクトル属性要因比較工程と、合成音声
の素片単位の目標属性ベクトルを生成する目標属性ベク
トル生成工程と、前記目標属性ベクトルを前記説明ベク
トルで最適に近似する最適近似係数を前記音声コーパス
の素片毎に算出する最適近似係数算出工程と、前記最適
近似係数に基づいて合成音声の素片を生成する合成音声
素片生成工程とを含み、前記説明ベクトル属性要因比較
工程は、前記説明ベクトル工程で生成された全ての説明
ベクトルに共通して予め決められた統計的有意水準によ
り同一と見なせる属性要因があるときは同一と見なされ
た前記属性要因を前記説明ベクトルおよび前記属性ベク
トルの属性要因から除くことを特徴とする音声合成方
法。 - 【請求項9】 前記説明ベクトル属性要因比較工程は、
前記説明ベクトル生成工程で生成された複数の説明ベク
トルが予め決められた統計的有意水準により同一と見な
せるときは、同一に見なされた前記説明ベクトルに関連
するクラスタ群を合併して一つのクラスタとすることを
特徴とする請求項8に記載の音声合成方法。 - 【請求項10】 前記説明ベクトル属性要因比較工程
は、前記説明ベクトル生成工程で生成された複数の説明
ベクトルが予め決められた統計的有意水準により同一と
見なせるときは、同一に見なされた前記説明ベクトルの
個数を求める手順と、前記個数について2を底とする対
数を計算する手順と、前記対数の計算結果を整数化した
数に相当する個数の属性要因を前記素片に仮に新たに追
加する手順とを含み、前記属性ベクトル付与工程で前記
素片に前記追加された属性要因を含めた属性ベクトルを
付与しなおすことを特徴とする請求項8に記載の音声合
成方法。 - 【請求項11】 前記目標属性ベクトル生成工程で生成
された前記合成音声の素片単位の前記目標属性ベクトル
と前記音声コーパスのクラスタの前記説明ベクトルとの
内積を算出する内積算出工程と、前記算出された内積の
うち最大の内積となる説明ベクトルを有するクラスタの
代表素片を選定する素片選定工程とを含むことを特徴と
する請求項1および請求項8の何れかに記載の音声合成
方法。 - 【請求項12】 前記目標属性ベクトル生成工程で生成
された前記合成音声の素片単位の前記目標属性ベクトル
と前記音声コーパスのクラスタの前記説明ベクトルとの
内積を算出する内積算出工程と、これらの内積の総和を
計算する工程と、前記算出された各内積を前記総和で除
した値を重みとしてクラスタの代表素片を加重平均する
ことにより合成音声素片を生成する合成音声素片生成工
程とを含むことを特徴とする請求項1および請求項8の
何れかに記載の音声合成方法。 - 【請求項13】 前記目標属性ベクトル生成工程で生成
された前記合成音声の素片単位の前記目標属性ベクトル
を前記音声コーパスのクラスタの前記説明ベクトルで最
適に近似する最適近似係数を算出する最適近似係数算出
工程と、前記算出された最適近似係数に基づいて代表素
片を加重平均することにより合成音声素片を生成する合
成音声素片生成工程とを含むことを特徴とする請求項1
および請求項8の何れかに記載の音声合成方法。 - 【請求項14】 韻律素片および音声波形素片を含む音
声コーパスからの素片のクラスタの代表素片を格納する
代表素片格納手段と、前記代表素片の説明ベクトルを格
納する説明ベクトル格納手段と、前記代表素片および前
記説明ベクトルの対応関係を示すポインタを格納するポ
インタ格納手段と、テキストを入力するテキスト入力手
段と、パラ言語を入力するパラ言語入力手段と、前記入
力されたテキストを解析するテキスト解析手段と、前記
テキスト解析手段の解析結果および前記入力されたパラ
言語情報に基づいて合成音声の素片単位毎に目標属性ベ
クトルを生成する目標属性ベクトル生成手段と、前記生
成された目標属性ベクトルと全ての前記説明ベクトルと
の内積を算出する内積算出手段と、前記内積の最大値を
与える代表韻律素片および代表音声波形素片を選定する
内積最大値素片選定手段と、前記選択された前記韻律素
片に応じて前記音声波形素片を変形する音声波形素片変
形手段と、前記変形された音声波形素片同士を接続する
音声波形素片接続手段とを備えたことを特徴とする音声
合成装置。 - 【請求項15】 韻律素片および音声波形素片を含む音
声コーパスからの素片のクラスタの代表素片を格納する
代表素片格納手段と、前記代表素片の説明ベクトルを格
納する説明ベクトル格納手段と、前記代表素片および前
記説明ベクトルの対応関係を示すポインタを格納するポ
インタ格納手段と、テキストを入力するテキスト入力手
段と、パラ言語を入力するパラ言語入力手段と、前記入
力されたテキストを解析するテキスト解析手段と、前記
テキスト解析手段の解析結果および前記入力されたパラ
言語情報に基づいて合成音声の素片単位毎に目標属性ベ
クトルを生成する目標属性ベクトル生成手段と、前記生
成された目標属性ベクトルと全ての前記説明ベクトルと
の内積を算出する内積算出手段と、前記算出された内積
に基づいて前記代表韻律素片および前記代表音声波形素
片の加重平均化を行う素片加重平均化手段と、前記加重
平均化された前記韻律素片に応じて加重平均化された前
記音声波形素片を変形する音声波形素片変形手段と、前
記変形された音声波形素片同士を接続する音声波形素片
接続手段とを備えたことを特徴とする音声合成装置。 - 【請求項16】 素片を格納する素片格納手段と、前記
素片の説明ベクトルを格納する説明ベクトル格納手段
と、前記素片および前記説明ベクトルの対応関係を示す
ポインタを格納するポインタ格納手段と、テキストを入
力するテキスト入力手段と、パラ言語を入力するパラ言
語入力手段と、前記入力されたテキストを解析するテキ
スト解析手段と、前記テキスト解析手段の解析結果およ
び前記入力されたパラ言語情報に基づいて合成音声の素
片単位毎に目標属性ベクトルを生成する目標属性ベクト
ル生成手段と、前記合成音声の素片単位の前記目標属性
ベクトルを前記素片の説明ベクトルで最適に近似する最
適近似係数を算出する最適近似係数算出手段と、前記最
適近似係数に基づいて前記韻律素片および前記音声波形
素片の加重平均化を行う素片加重平均化手段と、前記加
重平均化された前記韻律素片に応じて加重平均化された
前記音声波形素片を変形する音声波形素片変形手段と、
前記変形された音声波形素片同士を接続する音声波形素
片接続手段とを備えたことを特徴とする音声合成装置。 - 【請求項17】 コンピュータに、素片データベースか
ら素片を格納する素片格納工程と、前記素片の説明ベク
トルを格納する説明ベクトル格納工程と、前記素片およ
び前記説明ベクトルの対応関係を示すポインタを格納す
るポインタ格納工程と、テキストを入力するテキスト入
力工程と、パラ言語を入力するパラ言語入力工程と、前
記入力されたテキストを解析するテキスト解析工程と、
前記テキスト解析工程の解析結果および前記入力された
パラ言語情報に基づいて合成音声の素片単位毎に目標属
性ベクトルを生成する目標属性ベクトル生成工程と、前
記生成された目標属性ベクトルと全ての前記説明ベクト
ルとの内積を算出する内積算出工程と、前記内積の最大
値を与える韻律素片および音声波形素片を選定する内積
最大値素片選定工程と、前記選択された前記韻律素片に
応じて前記音声波形素片を変形する音声波形素片変形工
程と、前記変形された音声波形素片同士を接続する音声
波形素片接続工程とを実行させるための音声合成プログ
ラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002069434A JP2003271171A (ja) | 2002-03-14 | 2002-03-14 | 音声合成方法、音声合成装置および音声合成プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002069434A JP2003271171A (ja) | 2002-03-14 | 2002-03-14 | 音声合成方法、音声合成装置および音声合成プログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2003271171A true JP2003271171A (ja) | 2003-09-25 |
Family
ID=29200265
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002069434A Pending JP2003271171A (ja) | 2002-03-14 | 2002-03-14 | 音声合成方法、音声合成装置および音声合成プログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2003271171A (ja) |
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006084666A (ja) * | 2004-09-15 | 2006-03-30 | Nippon Hoso Kyokai <Nhk> | 韻律生成装置及び韻律生成プログラム |
| US7668717B2 (en) | 2003-11-28 | 2010-02-23 | Kabushiki Kaisha Toshiba | Speech synthesis method, speech synthesis system, and speech synthesis program |
| WO2012115213A1 (ja) * | 2011-02-22 | 2012-08-30 | 日本電気株式会社 | 音声合成システム、音声合成方法、および音声合成プログラム |
| WO2012115212A1 (ja) * | 2011-02-22 | 2012-08-30 | 日本電気株式会社 | 音声合成システム、音声合成方法、および音声合成プログラム |
| CN104867490A (zh) * | 2015-06-12 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 韵律结构预测方法和装置 |
| CN108364639A (zh) * | 2013-08-23 | 2018-08-03 | 株式会社东芝 | 语音处理系统和方法 |
| CN110085209A (zh) * | 2019-04-11 | 2019-08-02 | 广州多益网络股份有限公司 | 一种音色筛选方法及装置 |
| US10540956B2 (en) | 2015-09-16 | 2020-01-21 | Kabushiki Kaisha Toshiba | Training apparatus for speech synthesis, speech synthesis apparatus and training method for training apparatus |
| CN111833842A (zh) * | 2020-06-30 | 2020-10-27 | 讯飞智元信息科技有限公司 | 合成音模板发现方法、装置以及设备 |
| CN112786004A (zh) * | 2020-12-30 | 2021-05-11 | 科大讯飞股份有限公司 | 语音合成方法以及电子设备、存储装置 |
| CN117894294A (zh) * | 2024-03-14 | 2024-04-16 | 暗物智能科技(广州)有限公司 | 拟人化的副语言语音合成方法及系统 |
-
2002
- 2002-03-14 JP JP2002069434A patent/JP2003271171A/ja active Pending
Cited By (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7668717B2 (en) | 2003-11-28 | 2010-02-23 | Kabushiki Kaisha Toshiba | Speech synthesis method, speech synthesis system, and speech synthesis program |
| US7856357B2 (en) | 2003-11-28 | 2010-12-21 | Kabushiki Kaisha Toshiba | Speech synthesis method, speech synthesis system, and speech synthesis program |
| JP2006084666A (ja) * | 2004-09-15 | 2006-03-30 | Nippon Hoso Kyokai <Nhk> | 韻律生成装置及び韻律生成プログラム |
| WO2012115213A1 (ja) * | 2011-02-22 | 2012-08-30 | 日本電気株式会社 | 音声合成システム、音声合成方法、および音声合成プログラム |
| WO2012115212A1 (ja) * | 2011-02-22 | 2012-08-30 | 日本電気株式会社 | 音声合成システム、音声合成方法、および音声合成プログラム |
| JP6036681B2 (ja) * | 2011-02-22 | 2016-11-30 | 日本電気株式会社 | 音声合成システム、音声合成方法、および音声合成プログラム |
| JP6036682B2 (ja) * | 2011-02-22 | 2016-11-30 | 日本電気株式会社 | 音声合成システム、音声合成方法、および音声合成プログラム |
| CN108364639A (zh) * | 2013-08-23 | 2018-08-03 | 株式会社东芝 | 语音处理系统和方法 |
| CN104867490B (zh) * | 2015-06-12 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 韵律结构预测方法和装置 |
| CN104867490A (zh) * | 2015-06-12 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 韵律结构预测方法和装置 |
| US10540956B2 (en) | 2015-09-16 | 2020-01-21 | Kabushiki Kaisha Toshiba | Training apparatus for speech synthesis, speech synthesis apparatus and training method for training apparatus |
| CN110085209A (zh) * | 2019-04-11 | 2019-08-02 | 广州多益网络股份有限公司 | 一种音色筛选方法及装置 |
| CN110085209B (zh) * | 2019-04-11 | 2021-07-23 | 广州多益网络股份有限公司 | 一种音色筛选方法及装置 |
| CN111833842A (zh) * | 2020-06-30 | 2020-10-27 | 讯飞智元信息科技有限公司 | 合成音模板发现方法、装置以及设备 |
| CN111833842B (zh) * | 2020-06-30 | 2023-11-03 | 讯飞智元信息科技有限公司 | 合成音模板发现方法、装置以及设备 |
| CN112786004A (zh) * | 2020-12-30 | 2021-05-11 | 科大讯飞股份有限公司 | 语音合成方法以及电子设备、存储装置 |
| CN112786004B (zh) * | 2020-12-30 | 2024-05-31 | 中国科学技术大学 | 语音合成方法以及电子设备、存储装置 |
| CN117894294A (zh) * | 2024-03-14 | 2024-04-16 | 暗物智能科技(广州)有限公司 | 拟人化的副语言语音合成方法及系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4080989B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
| US7809572B2 (en) | Voice quality change portion locating apparatus | |
| US6499014B1 (en) | Speech synthesis apparatus | |
| CN1842702B (zh) | 声音合成装置和声音合成方法 | |
| US20020107688A1 (en) | Speech synthesizing method and apparatus | |
| US9601106B2 (en) | Prosody editing apparatus and method | |
| JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
| JP2003271171A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
| JPWO2012063424A1 (ja) | 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム | |
| JP4738057B2 (ja) | ピッチパターン生成方法及びその装置 | |
| JP2010230699A (ja) | 音声合成装置、プログラム、及び方法 | |
| JP5434587B2 (ja) | 音声合成装置及び方法とプログラム | |
| JPH11259093A (ja) | 音声合成装置及びその制御方法、コンピュータ可読メモリ | |
| JP2001282278A (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
| US8478595B2 (en) | Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method | |
| JP3346671B2 (ja) | 音声素片選択方法および音声合成装置 | |
| US20010029454A1 (en) | Speech synthesizing method and apparatus | |
| JP5020763B2 (ja) | 音声合成のための決定木を生成する装置、方法及びプログラム | |
| CN103594082A (zh) | 声音合成装置、方法以及存储介质 | |
| Wu et al. | Improving speaker recognition by training on emotion-added models | |
| Kayte et al. | Performance Evaluation of Speech Synthesis Techniques for Marathi Language | |
| JP4167084B2 (ja) | 音声合成方法及び装置、並びに音声合成プログラム | |
| JP7001126B2 (ja) | 感情推定装置、感情推定方法及びプログラム | |
| JP4034751B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
| WO2023013402A1 (ja) | 推定方法、プログラムおよび推定装置 |