JPH06266390A

JPH06266390A - 波形編集型音声合成装置

Info

Publication number: JPH06266390A
Application number: JP5049321A
Authority: JP
Inventors: Kenzo Ito; 憲三伊藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1993-03-10
Filing date: 1993-03-10
Publication date: 1994-09-22
Anticipated expiration: 2013-07-30
Also published as: US5740320A; JP2782147B2

Abstract

(57)【要約】【目的】滑らかで肉声に近い合成音声を得る。【構成】音声単位の集合を、音声信号の周波数スペク
トルを特徴パラメータとしてクラスタリングし、その各
グループの重心に最も近い音声波形を音声データベース
１３から選出したものと、その各重心でのスペクトル
（基準スペクトル）と、その各音声波形のピッチマーク
とを組として波形情報記憶装置１７に記憶しておき、入
力テキストを音韻系列とし、その各音韻と対応する音声
波形、基準スペクトル、ピッチマークを波形情報記憶装
置１７から選出し、その波形情報を、そのスペクトルが
基準スペクトルに近づくようにスペクトル特性変更回路
３６でスペクトル変更し、その変更された波形を波形合
成回路２３へ供給して従来と同様にピッチ、パワーを継
続長を制御して音声合成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は規則によって任意の音
声語を合成する装置に適用され、波形情報を用いて音声
を合成する波形編集型音声合成装置に関する。

【０００２】

【従来の技術】種々の音声単位をあらかじめ蓄積してお
き、それらを接続して連続音声を合成する方式におい
て、肉声に近い高品質の合成音声を生成するためには、
その基本となる音声分析合成方式や、音声単位の選択方
法および種々の音響パラメータの制御規則が重要とな
る。

【０００３】従来、音声信号の分析合成方法には、音声
の音響的特徴パラメータの操作性に優れた線形予測分析
（ＬＰＣ分析）を基本とする、ＰＡＲＣＯＲ方式（特願
５４−１２８３６６）やＬＳＰ方式（特許第１２２６
５８８）などがよく用いられていた。しかし、これらの
方式は、情報量の圧縮を主な目的とするために、駆動音
源信号を単純なパルス発生器と雑音発生器で実現してい
た。その結果、得られる分析合成音が肉声とかなりかけ
離れたものになる場合があった。

【０００４】そこで、この駆動音源信号を波形歪最少基
準によって符号化する高能率音声符号化復号化方式が提
案されているが、この方式は、元の音声信号波形と復号
化された信号波形の間の波形歪を最少にすることによっ
て実現しているため、基本周期や音声単位の時間長など
種々の音声特徴量を自由に制御できない。このため、こ
れらの高能率音声符号化方式をそのまま音声の規則合成
装置に適用することが出来ない欠点がある。

【０００５】一方、音声単位を波形情報としてそのまま
蓄積しておき、それを必要に応じて取り出し、接続して
目的の連続音声を合成する、いわゆる波形編集型音声合
成方式がある。図５に規則合成法の一種である従来の波
形編集型の音声合成装置を示す。規則合成装置は分析部
１１と合成部１２とからなり、分析部１１では音声デー
タベース１３に音韻ラベリングされた多量の音声データ
が蓄積されてあり、この音声データを周波数分析部１４
で周波数分析して音声の周波数スペクトル特性を得る。
この周波数スペクトル分析には例えば公知のＬＰＣ分析
法を利用するとよい。この音声の周波数スペクトル特性
データをクラスタリング回路１５で統計処理して各音韻
の代表スペクトル（基準スペクトル）と基準点（セント
ロイド）とを得る。この場合音韻環境を考慮したＣＯＣ
（ＣｏｎｔｅｘｔＯｒｉｅｎｔｏｔｅｄＣｌａｓｓ
ａｒｉｎｇ）クラスタリング手法が有効である。つまり
例えば音声データ中の「ａｋａｉ」中の同一音韻「ａ」
について、１番目の「ａ」は単語の最初に現われかつ後
の音韻が「ｋ」である音韻環境の「ａ」の波形（音声単
位）を選択して統計的処理を行い、２番目の「ａ」につ
いては前後の音韻が「ｋ」「ｉ」の音韻環境の「ａ」の
波形を選択して統計的処理を行う。

【０００６】各音韻環境を考慮した各音韻のスペクトル
特性空間のセントロイドに最も近い音声単位の波形情報
を、候補音声単位選択回路１６で音声データベース１３
の音声データ中から選択して波形情報記憶装置１７に蓄
積する。合成部１２においては、入力端子１８から与え
られた合成テキストをテキスト解析回路１９で解析して
音韻系列を得、またこの音韻系列をもとにピッチパタン
（音声基本周期）や音声単位継続時間長、および音声パ
ワーを韻律情報設定回路２１で設定する。例えば入力テ
キスト「赤い家が……」が入力されると、音韻系列「ａ
ｋａｉｉｅｇａ……」を得、ピッチパタンとして例え
ば図６Ａに示すように各音韻ごとのピッチ周波数と音韻
間でのピッチ周波数の連続性とを考慮したパタンを得、
かつその各音韻に対する音韻継続時間Ｔｓを得、また図
６Ｂに示すように各音韻ごとのパワーと音韻間でのその
連続性を考慮したパタンを出力する。

【０００７】テキスト解析回路１９で得られた音韻系列
から、合成に用いる音声単位を合成単位選択回路２２で
決定し、その決定した音声単位の音声波形情報を波形情
報記憶装置１７から選択する。つまり前記例の「ａｋａ
ｉ」の２番目の「ａ」の場合は前後の音韻が「ｋ」
「ｉ」の音韻環境をもつ「ａ」の音声波形情報を選択す
る。この選択された音声波形情報を波形合成回路２３
で、韻律情報設定回路２１から与えられたピッチパタン
の各基本周期に同期させ、かつ与えられた音韻継続時間
の長さとし、また与えられた大きさのパワーとして順次
波形重畳して合成音声を得て出力端子２４に出力する。
例えば図６Ａ，Ｂと対応して図６Ｃに示す合成音声波形
を得る。

【０００８】

【発明が解決しようとする課題】この波形編集型音声合
成装置によれば前述した音声分析合成方式と比較して蓄
積すべき情報量は増加するものの、合成音声の品質はよ
り肉声に近くなる。しかしこのような波形編集型合成方
式では、波形情報のみをそのまま用いると滑らかな合成
音声が得られない場合が生じ、結果的に合成音声の品質
に劣化をきたすことが多く、音声単位の接続点でなんら
かの補間処理（特願平３−４４９２８）や、上述したよ
うな音韻環境を考慮した音声単位生成法（特開平１−７
８３００）が必要であった。従って、さらに合成音声の
品質を向上するためには音声の特徴量として音声単位の
周波数スペクトル特性を積極的に変更し、音声単位の周
波数スペクトル特性が連続的に滑らかになるように接続
する必要がある。しかし、音声信号波形に対し、その周
波数スペクトル特性に変更を加えることは非常に難し
い。従来、音声の周波数スペクトルを積極的に変形した
り、修正する方法は色々と試みられているが、処理を行
うことによって処理後の品質が劣化したり雑音が重畳す
る傾向にあった。その中で、音声波形を周波数領域で変
更する方法（都木他、信学技報、ＳＰ８７−１１１（１
９８８−０１））が提案されており、品質の良い処理音
声が得られている。しかし、この方法は、基本周期の変
更処理を行う場合や音韻長制御処理に複雑な波形処理が
必要であり、また、変更量が大きい場合には処理品質が
劣化する欠点がある。

【０００９】

【課題を解決するための手段】請求項１の発明によれば
波形編集型音声合成装置において、波形情報記憶装置に
はクラスタリングで得られた対応する音声単位の音声波
形情報の他に、その音声波形情報ごとにこれを選択する
基準となった基準スペクトルもそれぞれ記憶され、その
波形情報記憶装置から音声波形情報が選出される際に対
応する基準スペクトルも選出され、その選出された音声
波形情報及び基準スペクトルについて前者のスペクトル
が後者のスペクトルに近づくようにスペクトル特性変更
手段により変更され、そのスペクトル変更された音声波
形情報が波形合成手段へ供給される。

【００１０】請求項２の発明によれば、請求項１の発明
においてスペクトル変更された音声波形情報が波形情報
記憶装置に予め記憶され、これより選出された音声波形
情報が波形合成手段へ供給される。請求項３の発明によ
れば波形情報記憶装置には、各音声波形情報ごとにその
音声波形の音声基本周期（ピッチ周期）に関する情報も
記憶されてあり、音声波形情報の選出時に、韻律情報中
の音声基本周期に近い基本周期に関する情報をもつもの
が選出される。

【００１１】

【作用】図２Ａに一例として、音声単位の集合を音声信
号の周波数スペクトルを特徴パラメータにしてクラスタ
リングした結果の概念図を示す。同図でクラスタリング
によって得られた音声単位のグループ２６のセントロイ
ド（重心）２７はこのグループの平均的な周波数スペク
トル特性を有している。しかし、セントロイド２７の点
における周波数スペクトル特性を有する音声信号波形
は、実存しないものである。そこで、セントロイド２７
に最も周波数スペクトル特性が近い音声単位２８がその
グループ２６を代表する音声波形情報として用いられ
る。このため合成音声波形の周波数スペクトルの軌跡は
例えば図２Ｂに示すように、スペクトル特徴空間ａから
ｂ，…ｄへと移動する際に破線２９で示すようになり、
グループ化されたセントロイドの周波数スペクトル（基
準スペクトル）を通るものでなく、正しくグループを代
表していないため、一つの音声単位波形から次の音声単
位波形への移動が滑らかに行われず、それだけ不自然な
ものとなる。

【００１２】しかし、この発明では各音声単位グループ
２６のセントロイド２６の基準スペクトルに、その最も
近い音声信号波形（従来の波形情報）のスペクトルが近
ずくように音声信号波形を変更しているため、そのグル
ープを正しく代表するものとなっており、従って図２Ｂ
の実線３１に示すようにこの発明で処理された合成音声
波形の周波数スペクトル特性の軌跡はスペクトル特徴空
間ａからスペクトル特徴空間ｂおよびｃを通ってスペク
トル特徴空間ｄへ滑らかに移動する。従って、このよう
に処理された音声波形を接続することによって滑らかで
自然な合成音声が期待できる。

【００１３】なお、前述したように、従来技術における
スペクトル特性の変形処理では、変更量が大きいと処理
品質に劣化をきたしていた。そこでこの発明では、変更
量が大きい場合には、この処理を目的の周波数スペクト
ル特性へ除々に変更していくようにして品質を劣化させ
ることを防止し、更に、あらかじめ音声波形情報に付与
した基本周期に関する情報を利用してその基本周期に同
期してスペクトル変更を行うことにより処理は格段に簡
略化され、得られる合成音声の品質もピッチ周期の誤抽
出などによる劣化は無いようにすることも可能である。

【００１４】

【実施例】図１にこの発明の実施例を示し、図５と対応
する部分に同一符号を付けてある。この発明ではクラス
タリング回路１５でクラスタリング処理され、その各グ
ループ代表である基準スペクトルも波形情報記憶装置１
７に記憶される。またこの実施例では候補音声単位選択
回路１６で音声データベース１３の中から選択された候
補音声単位波形の音声基本周期に関する情報がピッチマ
ーク付与回路３４で取出される。音声基本周期に関する
情報は例えば音声基本周期の基準位置を示すマーク、い
わゆるピッチマークであり、図３に示すような音声波形
の場合、その隣接大ピークの間隔が基本周期Ｔｐであ
り、音声波形の各大ピークの時間的位置を示すマーク
（情報）Ｍｐが基本周期マーク（ピッチマーク）であ
る。波形情報記憶装置１７へは従来と同様に各候補音声
信号（音声単位）の波形情報が記憶される他にこの例で
は前述したように、その各波形情報と対応する基準スペ
クトル特性Ｈｔとピッチマーク情報とを蓄積する。

【００１５】合成過程において、合成単位選択回路２２
で選択された各音声単位の波形情報はそれに該当する音
声単位の基準スペクトル特性を用いてこれにその音声波
形情報のスペクトル特性が近づくようにスペクトル特性
変更回路３６で変更する。この音声波形情報を波形合成
回路２３へ供給する。スペクトル特性変更回路３６の処
理概要を図４に示す。合成単位選択回路２２で選択され
た各音声信号波形情報と、それと対をなす基準スペクト
ル特性Ｈｔおよびピッチマーク情報が入力されると共
に、スペクトル歪のしきい値Ｔｈを入力し、スペクトル
特性変更量ｄｔと変更繰り返し回数Ｎとを次式で計算す
る（Ｓ₀）。

【００１６】即ち音声波形情報が線形予測分析され（Ｓ
₁）、得られるＬＰＣ係数を〔α〔ｉ〕，ｉ＝１，ｐ〕
とすれば、１回の変更量ｄｔ〔ｉ〕は（１）式で求めら
れ、変更繰り返し回数Ｎは（２）式で表わされる。ｄｔ（ｉ）＝〔αｔ（ｉ）−α₀（ｉ）〕／Ｎ（ｉ＝１…ｐ）（１）Ｎ＝〔Σ｛Ｃｔ（ｉ）−Ｃ₀（ｉ）｝²〕／Ｔｈ（２） Σはｉ＝１からｐまで、Ｄｔ＝Ｎ・ｄｔ（ｉ）ここで、αｔ（ｉ）とα₀（ｉ）はそれぞれ基準スペク
トル特性と選択された音声単位波形情報とから求められ
る線形予測係数、Ｃｔ（ｉ）とＣ₀（ｉ）はそれぞれ基
準スペクトルと選択された音声波形情報のＬＰＣケプス
トラム係数、ｐは予測次数を表わす。しきい値Ｔｈは総
量的特性で決まる値であり、大き過ぎると歪が大とな
る。Ｎが１より大かがチェックされ（Ｓ₂）、Ｎ＝１の
条件であれば基準スペクトル特性ＨｔをＳｔ＝Ｈｔとし
（Ｓ₃）、Ｎ＞１の条件であればＳｔ＝Ｈｔ＋ｄｔとす
る（Ｓ₄）。

【００１７】一方、音声信号波形情報はピッチマーク情
報を用いて、音声基本周期に同期して切り出し（Ｓ₅）
Ｉ＝１とした後（Ｓ₆）、切り出した波形情報を高速フ
ーリエ変換（ＦＦＴ）で周波数分析して周波数スペクト
ルＦ₀を得る（Ｓ₇）。この時、（３）式で示すような
窓関数Ｗ（ｉ）を音声信号波形に乗じて切り出す。Ｗ（ｉ）＝０．５−０．５cos （２πｉ／Ｌ）（ｉ＝0 …Ｌ）（３）ここで、Ｌは合成すべき音声の基本周期をＴｐとした
時、Ｌ＝２Ｔｐで与えられる。この窓関数は、周波数分
析の精度向上と波形合成回路２３で基本周期波形重畳の
際に波形歪を軽減する作用がある。スペクトル特性変更
処理ステップＳ₈では、前述したＦ₀と、音声信号波形
情報のスペクトル包絡特性Ｈ₀およびスペクトル包絡特
性Ｓｔとを用いて新しい周波数スペクトル特性Ｆｎを
（４）式で得る。

【００１８】Ｆｎ＝Ｆ₀＊｛Ｓｔ／Ｈ₀｝（４）ここで、ＦｎおよびＦ₀で示される周波数スペクトル
は、その絶対値を表わし、位相情報は元の信号の値を用
いる。得られたＦｎは逆フーリエ変換（ＩＦＴＴ）で信
号波形に再生される（Ｓ₉）。このスペクトル変更処理
は繰り返しカウンタＩがＮに等しくなるまで、Ｓｔ＝Ｓ
ｔ＋ｄｔとして繰り返す。つまりＩ＞Ｎでなければ（Ｓ
₁₀）、Ｓｔにｄｔを加えてＳｔとして（Ｓ₁₁）、またス
テップＳ₉で逆フーリエ変換された再生波形情報はステ
ップＳ₁に戻されてそのスペクトル包絡特性Ｈ₀が求め
られると共に、ステップＳ₇にも戻されて周波数スペク
トルＦ ₀が求められ、これらは新たなＨ₀とＦ₀とステ
ップＳ₁₁のＳｔとからステップＳ₈でスペクトル変更処
理がなされる。ステップＳ₁₀でＩがＮを越えると、ステ
ップＳ₉て得られた再生波形情報が出力される
（Ｓ₁₂）。

【００１９】なお、スペクトル変更量ｄｔと繰り返し回
数Ｎは、分析過程の段階で前もって計算し、波形情報記
憶装置１７へ蓄積しておき、合成過程での演算処理量を
軽減することも可能であるが、装置化する場合の記憶装
置の容量や演算処理能力との兼ね合いとなる。上述にお
いて、波形情報記憶装置１７に、候補音声単位選択回路
１６で選択された音声波形を記憶することなく、その各
選択された音声波形について図４に示したスペクトル変
更処理を施して、対応基準スペクトルをもつ音声波形に
変更し、つまりクラスタリングの各グループのセントロ
イドにおける基準スペクトルをもつ音声波形として波形
情報記憶装置１７に記憶しておけば、合成部１２におけ
る演算処理量を少くすることができる。

【００２０】また波形情報記憶装置１７にピッチマーク
情報をも記憶しておくことにより、前述したようにスペ
クトル特性変更回路３６で音声波形をピッチ周期で切り
出すことにより、より正しくスペクトル特性変更を行う
ことができるが、合成単位選択回路２２で波形情報を選
択する際に、韻律情報設定回路２１からの合成音声のピ
ッチ周期に近い波形情報を選択することにより合成音声
の品質を更に高めることができる。つまり同一音韻環境
の音声単位波形情報でも、そのピッチ周期が大きく異な
るものについてはその代表的なものをいくつか記憶して
おき、この中からピッチ周期が近いものを選択する。

【００２１】

【発明の効果】以上で説明したように、この発明によれ
ば音声合成装置において、クラスタリングした音声単位
の波形情報をそれぞれ、そのセントロイドの基準スペク
トルに近ずけるようにスペクトル変更するため滑らかで
肉声に近い合成音声を比較的簡単な処理で実現できる。

【図面の簡単な説明】

【図１】請求項１の発明の実施例を示すブロック図。

【図２】Ａはクラスタリング結果の一例を示す概念図、
Ｂは合成音声のスペクトル特性の軌跡を説明する図であ
る。

【図３】ピッチマークを説明する図。

【図４】スペクトル特性変更処理を説明するフローチャ
ート。

【図５】従来の波形編集型音声合成装置を示すブロック
図。

【図６】合成ピッチパタン、パワーパタン、合成音声波
形の各例を示す図。

Claims

【特許請求の範囲】

【請求項１】入力テキストを分析して音韻系列と韻律
情報とを得、その音韻系列の各音韻により、波形情報記
憶装置からクラスタリングで得られた対応する音声単位
の音声波形情報を選出し、その音声波形情報に対し波形
合成手段で上記韻律情報に基づく制御を行って、音声波
形情報単位ごとに接続して連続音声を生成する波形編集
型音声合成装置において、上記波形情報記憶装置には各音声波形情報ごとに、これ
を選択する基準となった基準スペクトルもそれぞれ記憶
されてあり、上記波形情報記憶装置から音声波形情報が選出される時
に対応する上記基準スペクトルも選出され、これら選出された音声波形情報及び基準スペクトルにつ
いて前者のスペクトルが後者のスペクトルに近づくよう
にスペクトル特性変更手段により変更され、そのスペク
トル変更された音声波形情報が上記波形合成手段へ供給
される、ことを特徴とする波形編集型音声合成装置。
【請求項２】入力テキストを分析して音韻系列と韻律
情報とを得、その音韻系列の各音韻により、波形情報記
憶装置からクラスタリングで得られた対応する音声単位
の音声波形情報を選出し、その音声波形情報に対し波形
合成手段で上記韻律情報に基づく制御を行って、音声波
形情報単位ごとに接続して連続音声を生成する波形編集
型音声合成装置において、上記波形情報記憶装置に記憶されている各音声波形情報
は、上記クラスタリングで求めた音声単位の音声波形情
報のスペクトルを、その音声波形情報を選択する基準と
なった基準スペクトルに近づけるようにスペクトル変更
した音声波形情報であることを特徴とする波形編集型音
声合成装置。
【請求項３】上記波形情報記憶装置には、その各音声
波形情報ごとにその音声波形の音声基本周期に関する情
報も記憶されており、上記音声波形情報の選出時に上記
韻律情報中の音声基本周期に近い上記基本周期に関する
情報をもつものが選出されることを特徴とする請求項１
又は２記載の波形編集型音声合成装置。