JP2003271171A

JP2003271171A - 音声合成方法、音声合成装置および音声合成プログラム

Info

Publication number: JP2003271171A
Application number: JP2002069434A
Authority: JP
Inventors: Toshimitsu Minowa; 利光蓑輪
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2002-03-14
Filing date: 2002-03-14
Publication date: 2003-09-25

Abstract

(57)【要約】【課題】小さいメモリ容量で音質のよい合成音声が得
られる音声合成方法および音声合成装置を提供するこ
と。【解決手段】音声コーパスの各素片に予め決められた
属性要因およびパラ言語情報を含む属性ベクトルを付与
する属性ベクトル付与工程と、素片をクラスタリングす
るクラスタリング工程と、クラスタ代表値を算出するク
ラスタ代表値算出工程と、クラスタ代表値に関連付ける
説明ベクトルを生成する説明ベクトル生成工程と、合成
音声の素片単位の目標属性ベクトルを生成する目標属性
ベクトル生成工程と、目標属性ベクトルを説明ベクトル
で最適に近似できる最適近似係数を前記音声コーパスの
素片毎に算出する最適近似係数算出工程と、最適近似係
数に基づいて合成音声の素片を生成する合成音声素片生
成工程とを含み、説明ベクトルによって同一クラスタ内
の素片に共通な属性が表現され音声合成に適用される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声合成方法、音
声合成装置および音声合成プログラムに関するものであ
る。

【０００２】

【従来の技術】従来の音声合成方法および音声合成装置
に関するものとしては、例えば特開平２０００−２５０
５７０号公報に開示されているようなものがある。この
従来の音声合成方法について図１０を参照して説明す
る。

【０００３】図１０において、ピッチパタンデータベー
ス１１には、アクセント句単位でピッチパタンデータが
格納されている。このピッチパタンデータは、１フレー
ム毎にピッチの値を有している。また、各ピッチパタン
データには、その韻律カテゴリが併記されている。合成
するテキストは、アクセント句単位で与えられる。

【０００４】まず、ステップＳ３１において、合成した
いテキストの韻律カテゴリと等しい韻律カテゴリに属す
るピッチパタンデータが、ピッチパタンデータベース１
１に存在するか否かが検索される。次いで、ステップＳ
３１において、ピッチパタンデータがピッチパタンデー
タベース１１に存在した場合はステップＳ３３に進み、
存在しなかった場合はステップＳ３４に進む。次いで、
ステップＳ３３では、合成したいテキストの韻律カテゴ
リと等しい韻律カテゴリからピッチパタンデータが選択
される。一方、ステップＳ３４において、ピッチパタン
データベース１１に含まれる韻律カテゴリのうちから、
合成するテキストの韻律カテゴリに、ピッチパタンの形
状が最も近いと思われる韻律カテゴリが推定される。次
いで、ステップＳ３５において、前述のステップＳ３３
と同様に推定された韻律カテゴリからのピッチパタンデ
ータが選択される。次いで、ステップＳ３６において、
選択された韻律カテゴリとテキストの韻律カテゴリ間の
差分ベクトルが選択されたピッチパタンデータに適用さ
れて変形される。次いで、ステップＳ３７において、ピ
ッチパタンデータをモーラ単位で時間軸方向に線形伸縮
することにより、与えられた時間長に従って時間長補正
が行われる。次いで、ステップＳ３８において、各ピッ
チパタンの高さについて、ピッチパタンの始点と終点の
高さの中点が、点ピッチパタンの話調成分決定アルゴリ
ズムより求めた話調成分高さの平均値となるように決定
される。

【０００５】以上のように、ピッチパタンデータベース
１１から合成したいテキストに適したピッチパタンデー
タを取得して、音声合成を行うことができる。

【０００６】

【発明が解決しようとする課題】しかしながら、このよ
うな従来の音声合成方法では、音声コーパス中の素片の
分類を素片自体ではなく多くの属性で構成される韻律カ
テゴリに基づいて行っているので、音声合成に要するメ
モリ容量が非常に大きくなるという問題があった。ま
た、韻律カテゴリに属するデータの分散が大きい場合に
は韻律カテゴリの代表値が全データを近似できないこと
があり、代表値同士の接続によってばらついた印象の合
成音声になるという問題があった。

【０００７】本発明は、このような問題を解決するため
になされたものであり、音声合成に要するメモリ容量を
低減でき、また、韻律カテゴリに属するデータの分散が
大きい場合でも高音質の合成音声を生成することができ
る音声合成方法、音声合成装置および音声合成プログラ
ムを提供するものである。

【０００８】

【課題を解決するための手段】本発明の音声合成方法
は、韻律素片および音声波形素片を含む音声コーパスの
各素片に予め決められた属性要因およびパラ言語情報を
含む属性ベクトルを付与する属性ベクトル付与工程と、
前記属性ベクトルが付与された前記素片をクラスタリン
グするクラスタリング工程と、前記クラスタリングで得
られた各クラスタに属する前記素片のクラスタ代表値を
算出するクラスタ代表値算出工程と、前記クラスタリン
グで得られた各クラスタに属する前記素片の属性ベクト
ルに基づいて説明ベクトルを生成する説明ベクトル生成
工程と、合成音声の素片単位の目標属性ベクトルを生成
する目標属性ベクトル生成工程と、前記目標属性ベクト
ルを前記説明ベクトルで最適に近似する最適近似係数を
前記音声コーパスの素片毎に算出する最適近似係数算出
工程と、前記最適近似係数に基づいて合成音声の素片を
生成する合成音声素片生成工程とを含んでいる。この構
成により、韻律素片および音声波形素片の各素片は、ク
ラスタリングされた後、同一クラスタにある素片の属性
ベクトルに基づいて生成された説明ベクトルによって同
一クラスタ内の素片に共通な属性が表現され音声合成に
適用されることとなる。

【０００９】本発明の音声合成方法は、前記属性ベクト
ル付与工程で付与された前記属性ベクトルは前記予め決
められた属性要因毎に各属性要因が存在するか否かの表
現を含んでいる。この構成により、韻律素片および音声
波形素片の各素片の属性は、簡易な表現をされることと
なる。

【００１０】本発明の音声合成方法は、前記クラスタリ
ング工程において、聴覚的な検知限に基づいてクラスタ
リングを行う工程を含んでいる。この構成により、韻律
素片および音声波形素片の各素片のばらつきが考慮され
ることとなる。

【００１１】本発明の音声合成方法は、前記説明ベクト
ル生成工程において、前記クラスタ毎に各クラスタに属
する前記素片の属性ベクトルを加算して得られるベクト
ルの各属性要因を前記属性要因毎に各クラスタに属する
前記素片の総数で除したものを新たな属性要因とするベ
クトルを生成して各クラスタの説明ベクトルとする工程
を含んでいる。この構成により、韻律素片および音声波
形素片の各素片は、素片単位で多くの属性要因を考慮さ
れることとなる。

【００１２】本発明の音声合成方法は、前記説明ベクト
ル生成工程において、前記クラスタ毎に各クラスタに属
する前記素片の属性ベクトルを加算して得られるベクト
ルの各属性要因を前記音声コーパスで前記属性要因が発
生したデータ総数で除したものを新たな属性要因とする
ベクトルを生成して各クラスタの説明ベクトルとする工
程を含んでいる。この構成により、韻律素片および音声
波形素片の各素片は、素片単位で多くの属性要因を考慮
されることとなる。

【００１３】本発明の音声合成方法は、前記クラスタ代
表値算出工程において、前記クラスタの重心点を前記ク
ラスタの代表素片とする工程を含んでいる。この構成に
より、クラスタの代表値はクラスタの重心点で表される
こととなる。

【００１４】本発明の音声合成方法は、前記クラスタ代
表値算出工程において、前記クラスタの最頻値を前記ク
ラスタの代表素片とする工程を含んでいる。この構成に
より、クラスタの代表値はクラスタの最頻値で表される
こととなる。

【００１５】本発明の音声合成方法は、韻律素片および
音声波形素片を含む音声コーパスの各素片に予め決めら
れた属性要因およびパラ言語情報を含む属性ベクトルを
付与する属性ベクトル付与工程と、前記属性ベクトルが
付与された前記素片をクラスタリングするクラスタリン
グ工程と、前記クラスタリングで得られた各クラスタに
属する前記素片のクラスタ代表値を算出するクラスタ代
表値算出工程と、前記クラスタリングで得られた各クラ
スタに属する前記素片の属性ベクトルに基づいて説明ベ
クトルを生成する説明ベクトル生成工程と、前記説明ベ
クトル同士の各属性要因を比較する説明ベクトル属性要
因比較工程と、合成音声の素片単位の目標属性ベクトル
を生成する目標属性ベクトル生成工程と、前記目標属性
ベクトルを前記説明ベクトルで最適に近似する最適近似
係数を前記音声コーパスの素片毎に算出する最適近似係
数算出工程と、前記最適近似係数に基づいて合成音声の
素片を生成する合成音声素片生成工程とを含み、前記説
明ベクトル属性要因比較工程は、前記説明ベクトル工程
で生成された全ての説明ベクトルに共通して予め決めら
れた統計的有意水準により同一と見なせる属性要因があ
るときは同一と見なされた前記属性要因を前記説明ベク
トルおよび前記属性ベクトルの属性要因から除くことを
特徴としている。この構成により、同じ代表値を有する
クラスタの発生をなくし、音声コーパスから最適な素片
が選択され音声合成に適用されることとなる。

【００１６】本発明の音声合成方法は、前記説明ベクト
ル属性要因比較工程において、前記説明ベクトル生成工
程で生成された複数の説明ベクトルが予め決められた統
計的有意水準により同一と見なせるときは、同一に見な
された前記説明ベクトルに関連するクラスタ群を合併し
て一つのクラスタとすることを特徴としている。この構
成により、同じ代表値を有するクラスタの発生をなく
し、音声コーパスから最適な素片が選択され音声合成に
適用されることとなる。

【００１７】本発明の音声合成方法は、前記説明ベクト
ル属性要因比較工程において、前記説明ベクトル生成工
程で生成された複数の説明ベクトルが予め決められた統
計的有意水準により同一と見なせるときは、同一に見な
された前記説明ベクトルの個数を求める手順と、前記個
数について２を底とする対数を計算する手順と、前記対
数の計算結果を整数化した数に相当する個数の属性要因
を前記素片に仮に新たに追加する手順とを含み、前記属
性ベクトル付与工程で前記素片に前記追加された属性要
因を含めた属性ベクトルを付与しなおすことを特徴とし
ている。この構成により、同じ代表値を有するクラスタ
の発生をなくし、音声コーパスから最適な素片が選択さ
れ音声合成に適用されることとなる。

【００１８】本発明の音声合成方法は、前記目標属性ベ
クトル生成工程で生成された前記合成音声の素片単位の
前記目標属性ベクトルと前記音声コーパスのクラスタの
前記説明ベクトルとの内積を算出する内積算出工程と、
前記算出された内積のうち最大の内積となる説明ベクト
ルを有するクラスタの代表素片を選定する素片選定工程
とを含んでいる。この構成により、属性ベクトルの冗長
性が除去された素片コーパスが生成され音声合成に適用
されることとなる。

【００１９】本発明の音声合成方法は、前記目標属性ベ
クトル生成工程で生成された前記合成音声の素片単位の
前記目標属性ベクトルと前記音声コーパスのクラスタの
前記説明ベクトルとの内積を算出する内積算出工程と、
これらの内積の総和を計算する工程と、前記算出された
各内積を前記総和で除した値を重みとしてクラスタの代
表素片を加重平均することにより合成音声素片を生成す
る合成音声素片生成工程とを含んでいる。この構成によ
り、属性ベクトルの冗長性が除去された素片コーパスが
生成され音声合成に適用されることとなる。

【００２０】本発明の音声合成方法は、前記目標属性ベ
クトル生成工程で生成された前記合成音声の素片単位の
前記目標属性ベクトルを前記音声コーパスのクラスタの
前記説明ベクトルで最適に近似する最適近似係数を算出
する最適近似係数算出工程と、前記算出された最適近似
係数に基づいて代表素片を加重平均することにより合成
音声素片を生成する合成音声素片生成工程とを含んでい
る。この構成により、属性ベクトルの冗長性が除去され
た素片コーパスが生成され音声合成に適用されることと
なる。

【００２１】本発明の音声合成装置は、韻律素片および
音声波形素片を含む音声コーパスからの素片のクラスタ
の代表素片を格納する代表素片格納手段と、前記代表素
片の説明ベクトルを格納する説明ベクトル格納手段と、
前記代表素片および前記説明ベクトルの対応関係を示す
ポインタを格納するポインタ格納手段と、テキストを入
力するテキスト入力手段と、パラ言語を入力するパラ言
語入力手段と、前記入力されたテキストを解析するテキ
スト解析手段と、前記テキスト解析手段の解析結果およ
び前記入力されたパラ言語情報に基づいて合成音声の素
片単位毎に目標属性ベクトルを生成する目標属性ベクト
ル生成手段と、前記生成された目標属性ベクトルと全て
の前記説明ベクトルとの内積を算出する内積算出手段
と、前記内積の最大値を与える代表韻律素片および代表
音声波形素片を選定する内積最大値素片選定手段と、前
記選択された前記韻律素片に応じて前記音声波形素片を
変形する音声波形素片変形手段と、前記変形された音声
波形素片同士を接続する音声波形素片接続手段とを備え
ている。この構成により、韻律素片および音声波形素片
の各素片は、クラスタリングされた後、同一クラスタに
ある素片の属性ベクトルに基づいて生成された説明ベク
トルによって同一クラスタ内の素片に共通な属性が表現
され音声合成に適用されることとなる。

【００２２】本発明の音声合成装置は、韻律素片および
音声波形素片を含む音声コーパスからの素片のクラスタ
の代表素片を格納する代表素片格納手段と、前記代表素
片の説明ベクトルを格納する説明ベクトル格納手段と、
前記代表素片および前記説明ベクトルの対応関係を示す
ポインタを格納するポインタ格納手段と、テキストを入
力するテキスト入力手段と、パラ言語を入力するパラ言
語入力手段と、前記入力されたテキストを解析するテキ
スト解析手段と、前記テキスト解析手段の解析結果およ
び前記入力されたパラ言語情報に基づいて合成音声の素
片単位毎に目標属性ベクトルを生成する目標属性ベクト
ル生成手段と、前記生成された目標属性ベクトルと全て
の前記説明ベクトルとの内積を算出する内積算出手段
と、前記算出された内積に基づいて前記代表韻律素片お
よび前記代表音声波形素片の加重平均化を行う素片加重
平均化手段と、前記加重平均化された前記韻律素片に応
じて加重平均化された前記音声波形素片を変形する音声
波形素片変形手段と、前記変形された音声波形素片同士
を接続する音声波形素片接続手段とを備えている。この
構成により、韻律素片および音声波形素片の各素片は、
クラスタリングされた後、同一クラスタにある素片の属
性ベクトルに基づいて生成された説明ベクトルによって
同一クラスタ内の素片に共通な属性が表現され音声合成
に適用されることとなる。

【００２３】本発明の音声合成装置は、韻律素片および
音声波形素片を含む音声コーパスからの素片を格納する
素片格納手段と、前記素片の説明ベクトルを格納する説
明ベクトル格納手段と、前記素片および前記説明ベクト
ルの対応関係を示すポインタを格納するポインタ格納手
段と、テキストを入力するテキスト入力手段と、パラ言
語を入力するパラ言語入力手段と、前記入力されたテキ
ストを解析するテキスト解析手段と、前記テキスト解析
手段の解析結果および前記入力されたパラ言語情報に基
づいて合成音声の素片単位毎に目標属性ベクトルを生成
する目標属性ベクトル生成手段と、前記合成音声の素片
単位の前記目標属性ベクトルを前記素片の説明ベクトル
で最適に近似する最適近似係数を算出する最適近似係数
算出手段と、前記最適近似係数に基づいて前記韻律素片
および前記音声波形素片の加重平均化を行う素片加重平
均化手段と、前記加重平均化された前記韻律素片に応じ
て加重平均化された前記音声波形素片を変形する音声波
形素片変形手段と、前記変形された音声波形素片同士を
接続する音声波形素片接続手段とを備えている。この構
成により、韻律素片および音声波形素片の各素片は、ク
ラスタリングされた後、同一クラスタにある素片の属性
ベクトルに基づいて生成された説明ベクトルによって同
一クラスタ内の素片に共通な属性が表現され音声合成に
適用されることとなる。

【００２４】本発明の音声合成プログラムは、コンピュ
ータに、素片データベースから素片を格納する素片格納
工程と、前記素片の説明ベクトルを格納する説明ベクト
ル格納工程と、前記素片および前記説明ベクトルの対応
関係を示すポインタを格納するポインタ格納工程と、テ
キストを入力するテキスト入力工程と、パラ言語を入力
するパラ言語入力工程と、前記入力されたテキストを解
析するテキスト解析工程と、前記テキスト解析工程の解
析結果および前記入力されたパラ言語情報に基づいて合
成音声の素片単位毎に目標属性ベクトルを生成する目標
属性ベクトル生成工程と、前記生成された目標属性ベク
トルと全ての前記説明ベクトルとの内積を算出する内積
算出工程と、前記内積の最大値を与える韻律素片および
音声波形素片を選定する内積最大値素片選定工程と、前
記選択された前記韻律素片に応じて前記音声波形素片を
変形する音声波形素片変形工程と、前記変形された音声
波形素片同士を接続する音声波形素片接続工程とを実行
させるためのものである。この構成により、コンピュー
タに、韻律素片および音声波形素片の各素片をクラスタ
リングさせた後、同一クラスタにある素片の属性ベクト
ルに基づいて生成された説明ベクトルによって同一クラ
スタ内の素片に共通な属性が表現され音声合成に適用さ
せることとなる。

【００２５】

【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。

【００２６】（実施の形態１）本発明の第１の実施の形
態の音声合成方法を図１のフローチャートを参照して説
明する。まず、ステップＳ１０１において、音声コーパ
スの素片毎に属性ベクトルが付与される。ここで、属性
ベクトルは、言語解析から自動的に求められるものおよ
びパラ言語情報などである。前者の言語解析から自動的
に求められるものの例としては、品詞、係り受け、係り
先、アクセント句のモーラ数、アクセント型などがあ
り、後者のパラ言語情報の例としては、口調、発話スタ
イル、感情などのような人間が聴取して判断するものが
ある。この属性ベクトルの一例を表１に示す。この属性
ベクトルは、下記の式（１）で示すａ_kのように、素片
が属性要因に該当する場合には１、該当しない場合には
０が記入されるようになっている。

【数１】ただし、ｋ＝１，２，３・・・、ＮＮ：クラスタに属するデータ数 δ_ki＝１：素片が指定する属性に該当する場合 δ_ki＝０：素片が指定する属性に該当しない場合

【００２７】次いで、ステップＳ１０２において、前述
の音声コーパスの素片が聴覚的な検知限によりクラスタ
リングされる。ここで聴覚的な検知限とは、例えば、韻
律素片の一種の音韻継続時間の場合には５ｍｓｅｃ程度
の時間をいい、音声素片の場合には平均３ｄＢ程度のス
ペクトル差をいう。次いで、ステップＳ１０３におい
て、各クラスタに説明ベクトルが付与される。この説明
ベクトルは、式（２）のように定義され、クラスタの代
表値に関連付けられている。

【数２】ただし、

【数３】また、ｒ_iはｉ番目の要素の正規化係数でありクラスタ
内のデータ総数を表している。

【００２８】前述の式（２）に示すように、クラスタの
代表値を重心点とした説明ベクトルにより素片データベ
ースが構築されるようになっている。

【００２９】次いで、ステップＳ１０４において、言語
処理、発話スタイルおよび口調指示などが入力される。
次いで、ステップＳ１０５において、前述のＳ１０４で
入力された言語処理、発話スタイルおよび口調指示など
により、合成音声の素片単位の目標ベクトルｇ_jが生成
される。次いで、ステップＳ１０６において、式（４）
に示すように、素片の目標属性ベクトルと説明ベクトル
の内積が計算される。

【数４】次いで、ステップＳ１０７において、前述のステップＳ
１０６で算出された内積ｐ₁は内積の総和ｃで正規化
し、係数ｗ₁を得る。

【数５】ここで、内積の総和ｃは式（６）で表せる。

【数６】さらに、ステップＳ１０７において、前述の係数ｗ₁を
素片データベースの素片ｃ₁毎に算出し、係数ｗ₁を素片
ｃ₁に乗じて加算して、式（７）に示すように合成音声
の素片ｕ_kを生成する。

【数７】次いで、ステップＳ１０８において、素片が音声素片の
場合は目標周波数や音韻継続時間に応じて変形され、韻
律素変の場合は素片同士の接続部でテーパ窓によって滑
らかに接続され、所望の合成音声が生成されるようにな
っている。

【００３０】以上のように、本実施の形態の音声合成方
法によれば、韻律素片および音声波形素片の各素片は、
クラスタリングされた後、同一クラスタにある素片の属
性ベクトルに基づいて生成された説明ベクトルによって
同一クラスタ内の素片に共通な属性が表現されるので、
小さいメモリ容量で合成音声を生成することができ、ま
た、素片間のばらつきを小さくできるので高音質の合成
音声を生成することができる。

【００３１】なお、前述の音声合成方法をプログラミン
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。

【００３２】（実施の形態２）本発明の第２の実施の形
態の音声合成方法を図２のフローチャートを参照して説
明する。まず、ステップＳ１０１において、音声コーパ
スの素片毎に属性ベクトルが付与される。ここで、属性
ベクトルは、言語解析から自動的に求められるものおよ
びパラ言語情報などである。前者の言語解析から自動的
に求められるものの例としては、品詞、係り受け、係り
先、アクセント句のモーラ数、アクセント型などがあ
り、後者のパラ言語情報の例としては、口調、発話スタ
イル、感情などのような人間が聴取して判断するものが
ある。この属性ベクトルの一例を表１に示す。この属性
ベクトルは、前述の式（１）で示すａ_kのように、素片
が属性要因に該当する場合には１、該当しない場合には
０が記入されるようになっている。

【００３３】次いで、ステップＳ１０２において、前述
の音声コーパスの素片が聴覚的な検知限によりクラスタ
リングされる。ここで聴覚的な検知限とは、例えば、韻
律素片の一種の音韻継続時間の場合には５ｍｓｅｃ程度
の時間をいい、音声素片の場合には平均３ｄＢ程度のス
ペクトル差をいう。次いで、ステップＳ１０３におい
て、各クラスタに説明ベクトルが付与される。この説明
ベクトルは、前述の式（２）のように定義され、クラス
タの代表値に関連付けられている。前述の式（２）に示
すように、クラスタの代表値を重心点とした説明ベクト
ルにより素片データベースが構築されるようになってい
る。次いで、ステップＳ１０４において、言語処理、発
話スタイルおよび口調指示などが入力される。次いで、
ステップＳ１０５において、前述のＳ１０４で入力され
た言語処理、発話スタイルおよび口調指示などにより、
合成音声の素片単位の目標ベクトルｇ_jが生成される。
次いで、ステップＳ１０６において、前述の式（４）に
示すように、素片の目標属性ベクトルと説明ベクトルと
の内積が計算される。

【００３４】次いで、ステップＳ２０１において、前述
のステップＳ１０６で得られた内積のうち、最大の内積
を与えた素片が合成音声生成の素片とされる。つまり、
内積を最大にする素片は、合成音声で目標とする属性と
最も近い属性を有するものであるので、式（８）に示す
ように、合成音声で使用する素片ｕ_kとするものであ
る。

【数８】次いで、ステップＳ１０８において、素片が音声素片の
場合は目標周波数や音韻継続時間に応じて変形され、韻
律素変の場合は素片同士の接続部でテーパ窓によって滑
らかに接続され、所望の合成音声が生成されるようにな
っている。

【００３５】以上のように、本実施の形態の音声合成方
法によれば、韻律素片および音声波形素片の各素片は、
クラスタリングされた後、同一クラスタにある素片の属
性ベクトルに基づいて生成された説明ベクトルによって
同一クラスタ内の素片に共通な属性が表現され、また、
内積を最大にする素片は合成音声の素片とされ韻律素片
および音声波形素片の各素片の属性は簡易に表現をされ
るので、小さいメモリ容量で合成音声を生成することが
でき、さらに、素片間のばらつきを小さくできるので高
音質の合成音声を生成することができる。

【００３６】なお、前述の音声合成方法をプログラミン
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。

【００３７】（実施の形態３）本発明の第３の実施の形
態の音声合成方法を図３のフローチャートを参照して説
明する。まず、ステップＳ１０１において、音声コーパ
スの素片毎に属性ベクトルが付与される。ここで、属性
ベクトルは、言語解析から自動的に求められるものおよ
びパラ言語情報などである。前者の言語解析から自動的
に求められるものの例としては、品詞、係り受け、係り
先、アクセント句のモーラ数、アクセント型などがあ
り、後者のパラ言語情報の例としては、口調、発話スタ
イル、感情などのような人間が聴取して判断するものが
ある。この属性ベクトルの一例を表１に示す。この属性
ベクトルは、前述の式（１）で示すａ_kのように、素片
が属性要因に該当する場合には１、該当しない場合には
０が記入されるようになっている。

【００３８】次いで、ステップＳ１０２において、前述
の音声コーパスの素片が聴覚的な検知限によりクラスタ
リングされる。ここで聴覚的な検知限とは、例えば、韻
律素片の一種の音韻継続時間の場合には５ｍｓｅｃ程度
の時間をいい、音声素片の場合には平均３ｄＢ程度のス
ペクトル差をいう。次いで、ステップＳ１０３におい
て、各クラスタに説明ベクトルが付与される。この説明
ベクトルは、前述の式（２）のように定義され、クラス
タの代表値に関連付けられている。前述の式（２）に示
すように、クラスタの代表値を重心点とした説明ベクト
ルにより素片データベースが構築されるようになってい
る。次いで、ステップＳ１０４において、言語処理、発
話スタイルおよび口調指示などが入力される。次いで、
ステップＳ１０５において、前述のＳ１０４で入力され
た言語処理、発話スタイルおよび口調指示などにより、
合成音声の素片単位の目標ベクトルｇ_jが生成される。
次いで、ステップＳ３０１において、式（９）によって
前述の目標ベクトルを素片の説明ベクトルで最小自乗の
意味で最適近似する係数ｗ₁〜ｗ_nが算出される。

【数９】次いで、ステップＳ３０２において、前述の最適近似係
数は素片に乗じられて加算され、式（１０）に示すよう
に合成音声の素片ｕ_kが生成される。

【数１０】次いで、ステップＳ１０８において、素片が音声素片の
場合は目標周波数や音韻継続時間に合わせて変形され、
韻律素変の場合は素片同士の接続部でテーパ窓によって
滑らかに接続され、所望の合成音声が生成されるように
なっている。

【００３９】以上のように、本実施の形態の音声合成方
法によれば、韻律素片および音声波形素片の各素片は、
クラスタリングされた後、同一クラスタにある素片の属
性ベクトルに基づいて生成された説明ベクトルによって
同一クラスタ内の素片に共通な属性が表現され、また、
目標ベクトルを素片の説明ベクトルで最適に近似する最
適近似係数により合成音声の素片が生成されるので、小
さいメモリ容量で合成音声を生成することができ、さら
に、素片間のばらつきを小さくできるので高音質の合成
音声を生成することができる。

【００４０】なお、前述の音声合成方法をプログラミン
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。

【００４１】（実施の形態４）本発明の第４の実施の形
態の音声合成方法は、前述の第１乃至第３の実施の形態
で説明したクラスタの代表値を重心点にすることに代え
て、クラスタの代表値をクラスタの最頻値とするもので
ある。

【００４２】クラスタの代表値をクラスタの最頻値とす
る一例として、韻律素片に含まれる音韻継続時間のデー
タを挙げて説明する。表２は、音韻継続時間の代表値例
を示すものであり、表の左側には音韻継続時間を示し、
表の右側にはあるクラスタ内のデータ数を示している。
例えば、音韻継続時間が１２ｍｓｅｃであるクラスタ内
のデータ数は２個、音韻継続時間が１５ｍｓｅｃである
クラスタ内のデータ数は１個であることを示している。
この表２においては、音韻継続時間とその個数から平均
値を算出すれば重心点は１８．４ｍｓｅｃである。ま
た、音韻継続時間が２０ｍｓｅｃのデータ数が１０個で
最も多いので最頻値は２０ｍｓｅｃである。表２に示す
ようなクラスタ内のデータに例外的なデータが存在して
偏りが生じている場合は、重心点よりも最頻値を用いた
方が安定した合成音声が生成できるので、前述の第１乃
至第３の実施の形態で説明したクラスタの代表値を重心
点にすることに代えて、クラスタの代表値をクラスタの
最頻値とするのが好ましい。一方、クラスタ内に偏りの
あるデータが存在しない場合でも、最頻値と重心点は一
致することが多いので、一般的に最頻値をクラスタの代
表値とした方が好ましい。

【００４３】以上のように、本実施の形態によれば、ク
ラスタの代表値はクラスタの最頻値で表すことにより、
安定した合成音声を生成することができる。

【００４４】なお、前述の音声合成方法をプログラミン
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。

【００４５】（実施の形態５）本発明の第５の実施の形
態の音声合成方法を図４のフローチャートを参照して説
明する。本実施の形態の音声合成方法は、前述の第１乃
至第３の実施の形態で説明した属性ベクトルおよび説明
ベクトルを生成する際の処理に関するものである。前述
の素片データベースの説明ベクトルの要素の正規化係数
ｒ₁〜ｒ_nに代えて、元の音声コーパス中の当該要因の発
生データ総数とするものである。

【００４６】まず、ステップＳ４０１において、説明ベ
クトル同士のｉ番目の要素が比較される。次いで、ステ
ップＳ４０２において、予め決められた統計的手法、例
えば、カイ自乗検定によって、ステップＳ４０１で比較
された説明ベクトル同士のｉ番目の要素の差異が有意に
大きいか否かが判断される。ここで、判断の基準は予め
決められた閾値による。ｉ番目の要素の差異が有意に大
きいときはステップＳ４０４に進み、比較する要素を次
に進める。一方、ｉ番目の要素の差異が有意に大きくな
いときには、ステップＳ４０３に進み、全ての説明ベク
トルが比較されたか否かが判断される。全ての説明ベク
トルが比較されたときは、ステップＳ４０６に進み、全
ての説明ベクトルが比較されていないときは、ステップ
Ｓ４０５に進み比較される説明ベクトルが代えられる。

【００４７】次いで、ステップＳ４０６において、ｉ番
目の要素の差異が有意に大きくない当該要素は属性ベク
トルおよび説明ベクトルから除外される。つまり、予め
決められた一定の有意水準で同一と見なせる場合には、
この要素の属性は各クラスタに共通頻度で発生したこと
を意味し、クラスタの形成には寄与していないことにな
る。したがって、この要素を無意味な要素として説明ベ
クトルおよび属性ベクトルに適用しないようにするもの
である。次いで、ステップＳ４０７において、全ての要
素の比較が終了したか否かが判断される。全ての要素の
比較が終了していない場合はステップＳ４０８に進み比
較される要素が次に進められ、全ての要素の比較が終了
した場合は処理を終了する。

【００４８】以上のように、本実施の形態によれば、予
め決められた統計的有意水準で同一とみなせる要素を無
意味な要素として説明ベクトルおよび属性ベクトルに適
用しないようにすることにより、説明ベクトルおよび属
性ベクトルを最適なサイズにすることができるので小さ
いメモリ容量で合成音声を生成することができ、さら
に、素片間のばらつきを小さくできるので高音質の合成
音声を生成することができる。

【００４９】なお、前述の音声合成方法をプログラミン
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。

【００５０】（実施の形態６）本発明の第６の実施の形
態の音声合成方法を図５のフローチャートを参照して説
明する。本実施の形態の音声合成方法は、前述の第１乃
至第３の実施の形態で説明した説明ベクトルの取り扱い
に関するものである。前述の素片データベースの説明ベ
クトルの要素の正規化係数ｒ₁〜ｒ_nに代えて、元の音声
コーパス中の当該要因の発生データ総数とするものであ
る。

【００５１】まず、ステップＳ５０１において、説明ベ
クトル同士が比較される。次いで、ステップＳ５０２に
おいて、予め決められた統計的手法、例えば、カイ自乗
検定によって、ステップＳ５０１で比較された説明ベク
トル同士の差異が有意に大きいか否かが判断される。こ
こで、判断の基準は予め決められた閾値による。説明ベ
クトル同士の差異が有意に大きいときはステップＳ５０
４に進み、比較する説明ベクトルが次に進められる。一
方、説明ベクトル同士の差異が有意に大きくないときに
は、ステップＳ５０３に進み、全ての説明ベクトルが比
較されたか否かが判断される。全ての説明ベクトルが比
較されたときは、ステップＳ５０６に進み、全ての説明
ベクトルが比較されていないときは、ステップＳ５０５
に進み比較される説明ベクトルが代えられる。次いで、
ステップＳ５０６において、説明ベクトル同士の差異が
有意に大きくないクラスタが統合され、新たに素片デー
タベースが構築されるようになっている。つまり、予め
決められた一定の有意水準で同一と見なせる場合には、
前述の本発明の第１の実施の形態で示した聴覚的な検知
限によるクラスタリングが厳しすぎたことを意味してお
り、元々の素片のデータのばらつきが大きいためにクラ
スタが強制分割されたと考えられるので、予め決められ
た一定の有意水準で同一と見なせる素片データを集約し
てその平均値をクラスタの代表値にすることで素片デー
タベースのサイズを縮退することができる。

【００５２】以上のように、本実施の形態によれば、予
め決められた統計的有意水準で同一とみなせる説明ベク
トルのクラスタを統合することにより、素片データベー
スのサイズを削減することができるので、小さいメモリ
容量で合成音声を生成することができ、さらに、素片間
のばらつきを小さくできるので高音質の合成音声を生成
することができる。

【００５３】なお、前述の説明ベクトルの取り扱いに関
する処理により、代表値間のばらつきが聴覚的な検知限
を超えるものが生じる場合があり、ざらついた音質の合
成音声になることがあるので、どのカテゴリを融合して
削減するかは、視聴チェックを行いながら判断すればよ
い。

【００５４】なお、前述の音声合成方法をプログラミン
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。

【００５５】（実施の形態７）本発明の第７の実施の形
態の音声合成方法を図６のフローチャートを参照して説
明する。本実施の形態の音声合成方法は、前述の第１乃
至第３の実施の形態で説明した属性要因に関するもので
ある。前述の素片データベースの説明ベクトルの要素の
正規化係数ｒ₁〜ｒ_nに代えて、元の音声コーパス中の当
該要因の発生データ総数とするものである。

【００５６】まず、ステップＳ６０１において、任意に
２つの説明ベクトルが選択される。次いで、ステップＳ
６０２において、説明ベクトル間でｉ番目の要素同士が
比較される。次いで、ステップＳ６０３において、予め
決められた統計的手法、例えば、カイ自乗検定によっ
て、ステップＳ６０２で比較された説明ベクトル間のｉ
番目の要素の差異が有意に大きいか否かが判断される。
ここで、判断の基準は予め決められた閾値による。説明
ベクトル間のｉ番目の要素の差異が有意に大きい場合は
ステップＳ６０４に進み、説明ベクトル間のｉ番目の要
素の差異が有意に大きくない場合はステップＳ６０９に
進む。次いで、ステップＳ６０４において、全ての説明
ベクトルと比較が終了したか否かが判断される。全ての
説明ベクトルと比較が終了した場合はステップＳ６０６
に進み、全ての説明ベクトルと比較が終了していない場
合はステップＳ６０５に進む。次いで、ステップＳ６０
６において、ステップＳ６０３で説明ベクトル間のｉ番
目の要素の差異が有意に大きいとされた説明ベクトルの
数Ｎをもとに、Ｌｏｇ₂Ｎの整数化された数が新たな追
加属性の個数とされる。次いで、ステップＳ６０７にお
いて、新たな追加属性が前述のＮ個のクラスタに属する
データの比較観察により決定され、これらのデータの属
性ベクトルが付与しなおされて更新され、結果として説
明ベクトルも更新されるようになっている。次いで、ス
テップＳ６０８において、新たな追加属性に対し他のク
ラスタの全データにおいても前述の属性の有無が見直さ
れ、属性ベクトルが付与しなおされて更新され、結果と
して説明ベクトルも更新されるようになっている。この
ステップＳ６０８の処理が終了するとステップＳ６０２
に戻るようになっている。

【００５７】一方、前述のステップＳ６０３において、
説明ベクトル間のｉ番目の要素の差異が有意に大きくな
いとされた場合は、ステップＳ６０９で比較する要素が
次に進められ、ステップＳ６１０に進む。次いで、ステ
ップＳ６１０において、全ての要素で比較が終了したか
否かが判断される。全ての要素で比較が終了していない
場合はステップＳ６０２に戻り、全ての要素で比較が終
了した場合は処理を終了する。また、前述のステップＳ
６０４において、全ての説明ベクトルと比較が終了して
いない場合はステップＳ６０５に進み、比較する説明ベ
クトルが代えられｉ＝１とされステップＳ６０２に戻る
ようになっている。

【００５８】以上のように、本実施の形態によれば、説
明ベクトル間のｉ番目の要素同士を比較することにより
見逃していた属性要因を着実に探し出すことができ、よ
り有効なデータベースを構築することができるので、音
質のよい音声合成を生成することができる。

【００５９】なお、前述の音声合成方法をプログラミン
グすることにより、コンピュータに本実施の形態の音声
合成を実行させることができる。

【００６０】（実施の形態８）本発明の第８の実施の形
態の音声合成装置を図７のブロック図を参照して説明す
る。まず、本実施の形態の音声合成装置の構成について
説明する。図７に示すように、本実施の形態の音声合成
装置は、テキストを入力するテキスト入力手段７０１
と、テキストを解析するテキスト解析手段７０３と、目
標ベクトルを生成する目標ベクトル生成手段７０４と、
音声波形の素片を変形する音声波形素片変形手段７０５
と、音声波形の素片を接続する音声波形素片接続手段７
０６と、パラ言語を入力するパラ言語入力手段７０２
と、説明ベクトルを格納する説明ベクトル格納手段７０
７と、ベクトルの内積を算出する内積算出手段７０８
と、ポインタを格納するポインタ格納手段７０９と、内
積の最大値を与えた素片を選定する内積最大値素片選定
手段７１０と、素片を格納する素片格納手段７１１とを
備えている。

【００６１】次に、本実施の形態の音声合成装置の動作
を説明する。まず、テキストはテキスト入力手段７０１
に入力される。次いで、テキスト解析手段７０３に入力
された後、目標ベクトル生成手段７０４に入力される。
一方、パラ言語情報は、文節やアクセント句程度の単位
毎にパラ言語入力手段７０２に入力された後、目標ベク
トル生成手段７０４に入力される。このパラ言語情報
は、人間が判断してもよいし、文のパターンから一意に
決定してもよい。次いで、目標ベクトル生成手段７０４
では、合成しようとする音声の素片単位にその属性を表
現する属性ベクトルが生成される。

【００６２】一方、素片格納手段７１１に格納された素
片および説明ベクトル格納手段７０７に格納された説明
ベクトルは、ポインタ格納手段７０９に格納されたポイ
ンタにより関連付けられている。また、素片毎に属性ベ
クトルと素片データベースの全説明ベクトルとの内積が
内積算出手段７０８によって算出され、内積最大値素片
選択手段７１０により最大の内積を与えた素片のポイン
タを参照して韻律素片データベースおよび音声波形素片
データベースから、最大の内積を与えた素片を選択する
ようになっている。この選択された素片のうち、韻律素
片に合わせて音声波形素片が音声波形素片変形手段７０
５で変形される。次いで、音声波形素片同士が音声波形
素片接続手段で接続され、合成音声が生成されるように
なっている。

【００６３】以上のように、本実施の形態の音声合成装
置によれば、入力されたテキストの目標ベクトルと素片
の属性ベクトルに基づいて生成された説明ベクトルとの
内積を最大にする素片を算出し合成音声の素片としてい
るので、合成音声で目標とする属性と最も近い素片を得
ることができ高音質の合成音声を生成することができ
る。

【００６４】（実施の形態９）本発明の第９の実施の形
態の音声合成装置を図８のブロック図を参照して説明す
る。まず、本実施の形態の音声合成装置の構成について
説明する。図８に示すように、本実施の形態の音声合成
装置は、テキストを入力するテキスト入力手段７０１
と、テキストを解析するテキスト解析手段７０３と、目
標ベクトルを生成する目標ベクトル生成手段７０４と、
音声波形の素片を変形する音声波形素片変形手段７０５
と、音声波形の素片を接続する音声波形素片接続手段７
０６と、パラ言語を入力するパラ言語入力手段７０２
と、説明ベクトルを格納する説明ベクトル格納手段７０
７と、ベクトルの内積を算出する内積算出手段７０８
と、ポインタを格納するポインタ格納手段７０９と、内
積の総和で除して正規化した加重係数により平均化する
素片加重平均化手段８０１と、素片を格納する素片格納
手段７１１とを備えている。

【００６５】次に、本実施の形態の音声合成装置の動作
を説明する。まず、テキストはテキスト入力手段７０１
に入力される。次いで、テキスト解析手段７０３に入力
された後、目標ベクトル生成手段７０４に入力される。
一方、パラ言語情報は、文節やアクセント句程度の単位
毎にパラ言語入力手段７０２に入力された後、目標ベク
トル生成手段７０４に入力される。このパラ言語情報
は、人間が判断してもよいし、文のパターンから一意に
決定してもよい。次いで、目標ベクトル生成手段７０４
では、合成しようとする音声の素片単位にその属性を表
現する属性ベクトルが生成される。

【００６６】一方、素片格納手段７１１に格納された素
片および説明ベクトル格納手段７０７に格納された説明
ベクトルは、ポインタ格納手段７０９に格納されたポイ
ンタにより関連付けられている。また、素片毎に属性ベ
クトルと素片データベースの全説明ベクトルとの内積が
内積算出手段７０８によって算出され、素片加重平均化
手段８０１により内積の総和で除して正規化した加重係
数により平均化され、加重平均化された素片が生成され
る。次いで、音声波形素片が音声波形素片変形手段７０
５で変形され、音声波形素片同士が音声波形素片接続手
段７０６で接続され、合成音声が生成されるようになっ
ている。

【００６７】以上のように、本実施の形態の音声合成装
置によれば、入力されたテキストの目標ベクトルと素片
の属性ベクトルに基づいて生成された説明ベクトルとの
内積を算出し素片を加重平均化しているので、同じ代表
値を有するクラスタの発生を防ぐことができ、また、素
片間のばらつきを小さくすることができるので、高音質
の合成音声を生成することができる。

【００６８】（実施の形態１０）本発明の第１０の実施
の形態の音声合成装置を図９のブロック図を参照して説
明する。まず、本実施の形態の音声合成装置の構成につ
いて説明する。図９に示すように、本実施の形態の音声
合成装置は、テキストを入力するテキスト入力手段７０
１と、テキストを解析するテキスト解析手段７０３と、
目標ベクトルを生成する目標ベクトル生成手段７０４
と、音声波形の素片を変形する音声波形素片変形手段７
０５と、音声波形の素片を接続する音声波形素片接続手
段７０６と、パラ言語を入力するパラ言語入力手段７０
２と、説明ベクトルを格納する説明ベクトル格納手段７
０７と、目標ベクトルを素片の説明ベクトルで最適に近
似する最適近似係数を算出する最適近似係数算出手段９
０１と、ポインタを格納するポインタ格納手段７０９
と、最適近似係数により素片を加重平均化する素片加重
平均化手段９０２と、素片を格納する素片格納手段７１
１とを備えている。

【００６９】次に、本実施の形態の音声合成装置の動作
を説明する。まず、テキストはテキスト入力手段７０１
に入力される。次いで、テキスト解析手段７０３に入力
された後、目標ベクトル生成手段７０４に入力される。
一方、パラ言語情報は、文節やアクセント句程度の単位
毎にパラ言語入力手段７０２に入力された後、目標ベク
トル生成手段７０４に入力される。このパラ言語情報
は、人間が判断してもよいし、文のパターンから一意に
決定してもよい。次いで、目標ベクトル生成手段７０４
では、合成しようとする音声の素片単位にその属性を表
現する属性ベクトルが生成される。

【００７０】一方、素片格納手段７１１に格納された素
片および説明ベクトル格納手段７０７に格納された説明
ベクトルは、ポインタ格納手段７０９に格納されたポイ
ンタにより関連付けられている。また、最適近似係数算
出手段９０１により目標ベクトルを素片の説明ベクトル
で最適に近似する最適近似係数が算出され素片加重平均
化手段９０２に出力される。素片加重平均化手段９０２
においては、最適近似係数により加重平均化された素片
が生成される。次いで、音声波形素片が音声波形素片変
形手段７０５で変形され、音声波形素片同士が音声波形
素片接続手段７０６で接続され、合成音声が生成される
ようになっている。

【００７１】以上のように、本実施の形態の音声合成装
置によれば、入力されたテキストの目標ベクトルを素片
の属性ベクトルに基づいて生成された説明ベクトルで最
適に近似する最適近似係数を算出し、この最適近似係数
により素片を加重平均化して合成音声の素片とするの
で、同じ代表値を有するクラスタの発生を防ぐことがで
き、また、素片間のばらつきを小さくすることができる
ので、高音質の合成音声を生成することができる。

【００７２】

【発明の効果】以上説明したように、本発明によれば、
韻律素片および音声波形素片の各素片は、クラスタリン
グされた後、同一クラスタにある素片の属性ベクトルに
基づいて生成された説明ベクトルによって同一クラスタ
内の素片に共通な属性が表現されるので、小さいメモリ
容量で合成音声を生成することができ、また、素片間の
ばらつきを小さくできるので高音質の合成音声を生成す
ることができる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態における音声合成方
法のフローチャート

【図２】本発明の第２の実施の形態における音声合成方
法のフローチャート

【図３】本発明の第３の実施の形態における音声合成方
法のフローチャート

【図４】本発明の第５の実施の形態における音声合成方
法のフローチャート

【図５】本発明の第６の実施の形態における音声合成方
法のフローチャート

【図６】本発明の第７の実施の形態における音声合成方
法のフローチャート

【図７】本発明の第８の実施の形態における音声合成装
置のブロック図

【図８】本発明の第９の実施の形態における音声合成装
置のブロック図

【図９】本発明の第１０の実施の形態における音声合成
装置のブロック図

【図１０】従来の音声合成方法のフローチャート

【符号の説明】

７０１テキスト入力手段７０２パラ言語入力手段７０３テキスト解析手段７０４目標ベクトル生成手段７０５音声波形素片変形手段７０６音声波形素片接続手段７０７説明ベクトル格納手段７０８内積算出手段７０９ポインタ格納手段７１０内積最大値素片選定手段７１１素片格納手段８０１、９０２素片加重平均化手段９０１最適近似係数算出手段

Claims

【特許請求の範囲】

【請求項１】韻律素片および音声波形素片を含む音声
コーパスの各素片に予め決められた属性要因およびパラ
言語情報を含む属性ベクトルを付与する属性ベクトル付
与工程と、前記属性ベクトルが付与された前記素片をク
ラスタリングするクラスタリング工程と、前記クラスタ
リングで得られた各クラスタに属する前記素片のクラス
タ代表値を算出するクラスタ代表値算出工程と、前記ク
ラスタリングで得られた各クラスタに属する前記素片の
属性ベクトルに基づいて説明ベクトルを生成する説明ベ
クトル生成工程と、合成音声の素片単位の目標属性ベク
トルを生成する目標属性ベクトル生成工程と、前記目標
属性ベクトルを前記説明ベクトルで最適に近似する最適
近似係数を前記音声コーパスの素片毎に算出する最適近
似係数算出工程と、前記最適近似係数に基づいて合成音
声の素片を生成する合成音声素片生成工程とを含むこと
を特徴とする音声合成方法。
【請求項２】前記属性ベクトル付与工程で付与された
前記属性ベクトルは、前記予め決められた属性要因毎に
各属性要因が存在するか否かの表現を含むことを特徴と
する請求項１に記載の音声合成方法。
【請求項３】前記クラスタリング工程は、聴覚的な検
知限に基づいてクラスタリングを行う工程を含むことを
特徴とする請求項１に記載の音声合成方法。
【請求項４】前記説明ベクトル生成工程は、前記クラ
スタ毎に各クラスタに属する前記素片の属性ベクトルを
加算して得られるベクトルの各属性要因を前記属性要因
毎に各クラスタに属する前記素片の総数で除したものを
新たな属性要因とするベクトルを生成して各クラスタの
説明ベクトルとする工程を含むことを特徴とする請求項
１に記載の音声合成方法。
【請求項５】前記説明ベクトル生成工程は、前記クラ
スタ毎に各クラスタに属する前記素片の属性ベクトルを
加算して得られるベクトルの各属性要因を前記音声コー
パスで前記属性要因が発生したデータ総数で除したもの
を新たな属性要因とするベクトルを生成して各クラスタ
の説明ベクトルとする工程を含むことを特徴とする請求
項１に記載の音声合成方法。
【請求項６】前記クラスタ代表値算出工程は、前記ク
ラスタの重心点を前記クラスタの代表素片とする工程を
含むことを特徴とする請求項１に記載の音声合成方法。
【請求項７】前記クラスタ代表値算出工程は、前記ク
ラスタの最頻値を前記クラスタの代表素片とする工程を
含むことを特徴とする請求項１に記載の音声合成方法。
【請求項８】韻律素片および音声波形素片を含む音声
コーパスの各素片に予め決められた属性要因およびパラ
言語情報を含む属性ベクトルを付与する属性ベクトル付
与工程と、前記属性ベクトルが付与された前記素片をク
ラスタリングするクラスタリング工程と、前記クラスタ
リングで得られた各クラスタに属する前記素片のクラス
タ代表値を算出するクラスタ代表値算出工程と、前記ク
ラスタリングで得られた各クラスタに属する前記素片の
属性ベクトルに基づいて説明ベクトルを生成する説明ベ
クトル生成工程と、前記説明ベクトル同士の各属性要因
を比較する説明ベクトル属性要因比較工程と、合成音声
の素片単位の目標属性ベクトルを生成する目標属性ベク
トル生成工程と、前記目標属性ベクトルを前記説明ベク
トルで最適に近似する最適近似係数を前記音声コーパス
の素片毎に算出する最適近似係数算出工程と、前記最適
近似係数に基づいて合成音声の素片を生成する合成音声
素片生成工程とを含み、前記説明ベクトル属性要因比較
工程は、前記説明ベクトル工程で生成された全ての説明
ベクトルに共通して予め決められた統計的有意水準によ
り同一と見なせる属性要因があるときは同一と見なされ
た前記属性要因を前記説明ベクトルおよび前記属性ベク
トルの属性要因から除くことを特徴とする音声合成方
法。
【請求項９】前記説明ベクトル属性要因比較工程は、
前記説明ベクトル生成工程で生成された複数の説明ベク
トルが予め決められた統計的有意水準により同一と見な
せるときは、同一に見なされた前記説明ベクトルに関連
するクラスタ群を合併して一つのクラスタとすることを
特徴とする請求項８に記載の音声合成方法。
【請求項１０】前記説明ベクトル属性要因比較工程
は、前記説明ベクトル生成工程で生成された複数の説明
ベクトルが予め決められた統計的有意水準により同一と
見なせるときは、同一に見なされた前記説明ベクトルの
個数を求める手順と、前記個数について２を底とする対
数を計算する手順と、前記対数の計算結果を整数化した
数に相当する個数の属性要因を前記素片に仮に新たに追
加する手順とを含み、前記属性ベクトル付与工程で前記
素片に前記追加された属性要因を含めた属性ベクトルを
付与しなおすことを特徴とする請求項８に記載の音声合
成方法。
【請求項１１】前記目標属性ベクトル生成工程で生成
された前記合成音声の素片単位の前記目標属性ベクトル
と前記音声コーパスのクラスタの前記説明ベクトルとの
内積を算出する内積算出工程と、前記算出された内積の
うち最大の内積となる説明ベクトルを有するクラスタの
代表素片を選定する素片選定工程とを含むことを特徴と
する請求項１および請求項８の何れかに記載の音声合成
方法。
【請求項１２】前記目標属性ベクトル生成工程で生成
された前記合成音声の素片単位の前記目標属性ベクトル
と前記音声コーパスのクラスタの前記説明ベクトルとの
内積を算出する内積算出工程と、これらの内積の総和を
計算する工程と、前記算出された各内積を前記総和で除
した値を重みとしてクラスタの代表素片を加重平均する
ことにより合成音声素片を生成する合成音声素片生成工
程とを含むことを特徴とする請求項１および請求項８の
何れかに記載の音声合成方法。
【請求項１３】前記目標属性ベクトル生成工程で生成
された前記合成音声の素片単位の前記目標属性ベクトル
を前記音声コーパスのクラスタの前記説明ベクトルで最
適に近似する最適近似係数を算出する最適近似係数算出
工程と、前記算出された最適近似係数に基づいて代表素
片を加重平均することにより合成音声素片を生成する合
成音声素片生成工程とを含むことを特徴とする請求項１
および請求項８の何れかに記載の音声合成方法。
【請求項１４】韻律素片および音声波形素片を含む音
声コーパスからの素片のクラスタの代表素片を格納する
代表素片格納手段と、前記代表素片の説明ベクトルを格
納する説明ベクトル格納手段と、前記代表素片および前
記説明ベクトルの対応関係を示すポインタを格納するポ
インタ格納手段と、テキストを入力するテキスト入力手
段と、パラ言語を入力するパラ言語入力手段と、前記入
力されたテキストを解析するテキスト解析手段と、前記
テキスト解析手段の解析結果および前記入力されたパラ
言語情報に基づいて合成音声の素片単位毎に目標属性ベ
クトルを生成する目標属性ベクトル生成手段と、前記生
成された目標属性ベクトルと全ての前記説明ベクトルと
の内積を算出する内積算出手段と、前記内積の最大値を
与える代表韻律素片および代表音声波形素片を選定する
内積最大値素片選定手段と、前記選択された前記韻律素
片に応じて前記音声波形素片を変形する音声波形素片変
形手段と、前記変形された音声波形素片同士を接続する
音声波形素片接続手段とを備えたことを特徴とする音声
合成装置。
【請求項１５】韻律素片および音声波形素片を含む音
声コーパスからの素片のクラスタの代表素片を格納する
代表素片格納手段と、前記代表素片の説明ベクトルを格
納する説明ベクトル格納手段と、前記代表素片および前
記説明ベクトルの対応関係を示すポインタを格納するポ
インタ格納手段と、テキストを入力するテキスト入力手
段と、パラ言語を入力するパラ言語入力手段と、前記入
力されたテキストを解析するテキスト解析手段と、前記
テキスト解析手段の解析結果および前記入力されたパラ
言語情報に基づいて合成音声の素片単位毎に目標属性ベ
クトルを生成する目標属性ベクトル生成手段と、前記生
成された目標属性ベクトルと全ての前記説明ベクトルと
の内積を算出する内積算出手段と、前記算出された内積
に基づいて前記代表韻律素片および前記代表音声波形素
片の加重平均化を行う素片加重平均化手段と、前記加重
平均化された前記韻律素片に応じて加重平均化された前
記音声波形素片を変形する音声波形素片変形手段と、前
記変形された音声波形素片同士を接続する音声波形素片
接続手段とを備えたことを特徴とする音声合成装置。
【請求項１６】素片を格納する素片格納手段と、前記
素片の説明ベクトルを格納する説明ベクトル格納手段
と、前記素片および前記説明ベクトルの対応関係を示す
ポインタを格納するポインタ格納手段と、テキストを入
力するテキスト入力手段と、パラ言語を入力するパラ言
語入力手段と、前記入力されたテキストを解析するテキ
スト解析手段と、前記テキスト解析手段の解析結果およ
び前記入力されたパラ言語情報に基づいて合成音声の素
片単位毎に目標属性ベクトルを生成する目標属性ベクト
ル生成手段と、前記合成音声の素片単位の前記目標属性
ベクトルを前記素片の説明ベクトルで最適に近似する最
適近似係数を算出する最適近似係数算出手段と、前記最
適近似係数に基づいて前記韻律素片および前記音声波形
素片の加重平均化を行う素片加重平均化手段と、前記加
重平均化された前記韻律素片に応じて加重平均化された
前記音声波形素片を変形する音声波形素片変形手段と、
前記変形された音声波形素片同士を接続する音声波形素
片接続手段とを備えたことを特徴とする音声合成装置。
【請求項１７】コンピュータに、素片データベースか
ら素片を格納する素片格納工程と、前記素片の説明ベク
トルを格納する説明ベクトル格納工程と、前記素片およ
び前記説明ベクトルの対応関係を示すポインタを格納す
るポインタ格納工程と、テキストを入力するテキスト入
力工程と、パラ言語を入力するパラ言語入力工程と、前
記入力されたテキストを解析するテキスト解析工程と、
前記テキスト解析工程の解析結果および前記入力された
パラ言語情報に基づいて合成音声の素片単位毎に目標属
性ベクトルを生成する目標属性ベクトル生成工程と、前
記生成された目標属性ベクトルと全ての前記説明ベクト
ルとの内積を算出する内積算出工程と、前記内積の最大
値を与える韻律素片および音声波形素片を選定する内積
最大値素片選定工程と、前記選択された前記韻律素片に
応じて前記音声波形素片を変形する音声波形素片変形工
程と、前記変形された音声波形素片同士を接続する音声
波形素片接続工程とを実行させるための音声合成プログ
ラム。