JPH0772898A

JPH0772898A - 音声合成装置

Info

Publication number: JPH0772898A
Application number: JP5221063A
Authority: JP
Inventors: Nobuyuki Katae; 伸之片江; Tatsuro Matsumoto; 達郎松本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1993-09-06
Filing date: 1993-09-06
Publication date: 1995-03-17

Abstract

(57)【要約】【目的】本発明は音声合成装置において、合成単位記号
列から合成波形を生成する波形生成部に関し、少ないデ
ータで高品質の音声が得られる音声合成装置を提供する
ことを目的とする。【構成】音声合成装置において、一つの合成装置内に、
それぞれ異なる合成方式によって波形を生成する波形生
成部２１〜２ｎと、入力された合成単位の種別により、
波形生成部２１〜２ｎのいずれを用いるかを選択する合
成単位種別判断部１と、波形生成部２１〜２ｎのから出
力された合成単位に相当する波形を接続する波形接続部
３で構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声合成装置におい
て、合成単位記号列から合成波形を生成する波形生成部
に関する。

【０００２】

【従来の技術】音声合成装置に従来用いられている方式
として、波形編集方式とホルマント方式を挙げる。波形
編集方式が音声波形を直接的に編集し合成音声を得る方
式であるのに対して、ホルマント方式はモデルを用いる
合成方式の一例であり、音声の周波数スペクトルを特微
量として、パラメータ化し、そのパラメータから音声を
合成する方式である。

【０００３】波形編集方式の音声合成装置の従来例を図
６に示す。本図中、２１１は波形選択部、２１２は波形
変形部、２１３は素片波形データ記憶部、３は波形接続
部を示すまた、波形編集方式の流れを図７、図８に示
す。波形選択部２１１に合成単位記号列が入力される。
合成単位には音節、音素などの種類があり、任意文の合
成を目的とする規則合成装置では、単語よりも細かい単
位が用いられているのが通常である。図１１に示すよう
に、合成単位記号は一般のテキストに形態素解析、構文
解析などの言語処理を施すことによって得られる。

【０００４】波形選択部２１１では合成単位記号列にし
たがって素片波形データ記憶部２１３から適切な素片波
形を選択し、波形変形部２１２に出力する。素片波形デ
ータ記憶部２１３に蓄積されている波形データは、合成
単位記号を構成する更に短い時間長の波形であり、それ
らを総称してここでは素片波形と呼ぶ。蓄積されている
波形データは自然音声から抽出されたものであるが、１
〜数ピッチ周期程度の長さの音声波形から、合成単位と
同等の長さの波形まで、装置の処理に応じて、様々な場
合がありうる。

【０００５】蓄積されていた素片波形データ（図７（１
ａ））をそのままの形で接続すると接続箇所で不連続が
起こるなど滑らかな音声が生成されないため、波形変形
部２１２で、図７（１ｂ）に示すように、接続に適する
ように窓かけなどの変形を行い、その後、図７（１ｃ）
に示すようにそれぞれの素片波形データを重ね合わせて
接続することにより合成単位波形を生成する。ひとつの
合成単位に相当する長さの合成波形を合成単位波形と呼
び、素片波形と区別する。ただし図７の（２ａ）に示す
ように合成単位の自然波形をそのまま素片波形データと
して蓄積している場合には、図７（２ｂ）のように波形
変形を施すだけで、そのまま合成単位波形になりうる。

【０００６】波形接続部３では、このように生成された
各合成単位波形（図８（ａ）、（ｂ）、（ｃ））を順に
重ね合わせ接続することにより、図８（ｄ）に示すよう
な合成波形を得る、ホルマント方式の音声合成装置の従
来例を図９に示す。本図中、２２１はホルマントパラメ
ータ生成部、２２２はホルマント合成部、２２３はホル
マントデータ記憶部、２２４はホルマント変形ルール記
憶部を示す。また、ホルマント合成部の構成の一例を図
１０に示す。

【０００７】ホルマント方式は、音声をそのスペクトル
中に見られる数個の声道の共振周波数（ホルマント周波
数）とその帯域幅で表現し、ホルマントによる共振回路
を複数個接続することで声道を模擬し音声波形を合成す
るものである。ホルマント合成に関する詳細は、Ｄｅｎ
ｎｉｓＨ．Ｋｌａｔｔ ”Ｓｏｆｔｗａｒｅｆｏｒ
ａｃａｓｃａｄｅ／ｐａｒａｌｌｅｌｆｏｒｍａ
ｎｔｓｙｎｔｈｅｓｉｚｅｒ”Ｊｏｕｒｎａｌｏｆ
ＡｃｏｕｓｔｉｃＳｏｃｉｅｔｙｏｆＡｍｅｒ
ｉｃａ６７（３），Ｍａｒ，１９８０，ｐｐ９７５−９
９５に記載されている。

【０００８】ホルマントパラメータ生成部２２１では、
合成単位記号列の入力に従って、ホルマントデータ２２
３とホルマント変形ルール２２４をもとにホルマントパ
ラメータの時系列を生成する。このホルマントパラメー
タは、第１〜第５ホルマント程度までのホルマント周波
数とその帯域幅、および振幅制御のパラメータから成
る。ホルマント合成部２２２では、図１０に示すよう
に、有声音源を模擬するパルス発生器と無声音源を模擬
する白色雑音発生器の出力をこれらのホルマントパラメ
ータの特性を持つ共振回路に通し、口唇の放射特性を付
加することによって、合成音声の出力を得る。図１０は
声道の共振のみを模擬したカスケード型の合成器である
が、伝達特性に零点をもつ鼻音を模擬するために反共振
回路を挿入した合成器もある。

【０００９】

【発明が解決しようとする課題】波形編集方式による音
声合成では比較的簡単な処理で高品質の合成音声が得ら
れるが、波形データを音素環境に合わせて変形すること
が難しいため任意の文章を滑らかに読み上げるために
は、様々な環境の波形データを蓄積しておく必要があ
る。また、サンプリング周期毎に量子化した値をすべて
蓄積しておくのであるから、大容量のメモリが必要にな
るという問題がある。

【００１０】一方、ホルマント方式は音声の一特微量で
あるホルマントデータのみを蓄積しておけばいいので格
段にメモリ量が少なくて済むが、合成モデルには限界が
あり合成音声の品質が十分でないことがある。例えば、
音源を単純なパルスと白色雑音で模擬している点や、ホ
ルマントパラメータ以外の要素が無視されるため、特に
子音の合成音声には自然性に欠けるところがある。ま
た、音声からホルマントを自動抽出することが難しいの
も問題である。

【００１１】本発明は少ないデータ容量で高品質の音声
が得られる音声合成装置を提供することを目的とする。

【００１２】

【課題を解決するための手段】図１、図２に本発明の原
理図を示す。図１は請求項１に相当する原理図である。
図１において、１は合成単位種別判断部、２１〜２ｎは
それぞれ異なる合成方式を用いた波形生成部、３は波形
接続部である。

【００１３】合成単位種別判断部１は入力された合成単
位記号に対して、いずれの方式を用いて波形を生成する
か判断し、適切な波形生成部２１〜２ｎに合成単位を出
力する。また、波形接続部３に合成単位記号列、または
それを波形接続情報に変換したものを出力する。波形生
成部２１〜２ｎでは、それぞれ異なる合成方式を用いて
合成単位波形を生成し波形接続部３に出力する。

【００１４】波形接続部３では、合成単位種別判断部１
から入力された合成単位記号列、または波形接続情報を
もとに合成単位波形を接続して合成波形として出力す
る。図２は請求項４に相当する原理図である。図２にお
いて、２１１’は波形選択部、２１２は波形変形部、２
１３は素片波形データ記憶部、３は波形接続部、４１〜
４ｎはそれぞれ異なる合成方式を採用した素片波形作成
部、５１〜５ｎはそれぞれ素片波形作成部４１〜４ｎの
合成方式に対応した形式でパラメータ化された音声デー
タの記憶部である。

【００１５】合成単位記号列が入力されると、波形選択
部２１１’は素片波形データ記憶部２１３にアクセスし
て合成に必要な素片波形を読み込むが、素片波形データ
記憶部２１３にデータが蓄積されていない合成単位に関
しては、合成単位に応じて、素片波形成生部４１〜４ｎ
に合成単位記号を出力する。素片波形作成部４１〜４ｎ
は、入力された各合成単位記号のデータを素片波形作成
用データ蓄積部５１〜５ｎから取込み、素片波形を作成
し、波形選択部２１１’に送る。素片波形作成用データ
５１〜５ｎはそれぞれ素片波形作成部４１〜４ｎの合成
方式に対応した形式でデータが蓄積されている。

【００１６】波形選択部２１１’から出力される素片波
形は、波形変形部２１２で接続に適した変形を施され合
成単位波形に合成される。各合成単位波形は波形接続部
３で接続され、合成波形として出力される。

【００１７】

【作用】合成音声の品質を音素ごとに調べてみると、ホ
ルマント方式などのモデルを用いる合成方式が波形編集
方式に対して決定的に劣っているのは、子音（特に破裂
音、摩擦音など）や音素と音素の遷移部であることがわ
かる。また、母音の定常部では、いずれの方式を用いて
も合成音声の品質に大差はない。

【００１８】そこで本発明では、合成単位の種別に応じ
た合成方式を用いることにより、例えば子音の合成には
波形編集方式を用いて高い品質を維持し、母音のように
波形編集方式とモデルを用いる合成方式のどちらを利用
しても品質の変わらない合成単位に関しては、モデルを
用いる合成方式を採りメモリの容量を小さくすることに
より、合成音声の品質をあまり低下させずに、波形デー
タの容量を小さくすることができる。

【００１９】

【実施例】図３は本発明の第１の実施例であり、図１に
おける波形生成部１を波形編集方式、波形生成部２をホ
ルマント方式、また合成単位を音素とした場合である。
本図中、１１は音素種別判断部、１２は音素種別テーブ
ル記憶部２１１は波形選択部、２１２は波形変形部、２
１３は素片波形データ記憶部、２２１はホルマントパラ
メータ生成部、２２２はホルマント合成部、２２３はホ
ルマントデータ記憶部、２２４はホルマント変形ルール
記憶部、３は波形接続部である。

【００２０】本図において、音素種別テーブル記憶部１
２には音素から波形を合成するために、いずれの波形生
成部を用いるかという情報が音素毎のテーブルとして格
納されている。音素種別判断部１１では、音素種別テー
ブルをもとに入力音素記号の種別を判断し、適切な波形
生成部に音素記号を送る。例えば、非周期性子音などは
波形編集方式用いるのが適切であると判断し波形生成部
１へ、母音などの定常的な音素はホルマント方式が適切
であると判断して波形生成部２へ出力するという具合で
ある。それ以外にも、鼻音も波形編集方式のカテゴリに
含める。つまり、母音、弾音／ｒ／、半母音／ｗ／，／
ｙ／をひとつの音素種別、それ以外の音素をもうひとつ
の音素種別とし、前者をホルマント合成方式、後者を波
形編集方式とすることもできる。

【００２１】また、それぞれの波形生成部で合成された
波形を接続する際に、音素記号列情報が必要であるから
波形接続部３にも出力される。もちろん、波形生成部３
がいずれの波形生成部からどういう順に音素波形を受取
り接続していくかという波形接続情報の形に変換したも
のを出力するという方法もある。ここでは波形生成部１
に波形編集方式を用いているので、その処理は従来例に
記した内容と同様である。入力された音素記号に対し、
波形選択部２１１では素片波形データ記憶部２１３から
波形を読み込み、波形変形部２１２に出力する。波形変
形部２１２では素片波形データを接続するように窓掛け
などの変形を行い、それぞれの素片波形データを接続
し、音素波形（合成単位波形）を出力する。

【００２２】波形生成部２はホルマント合成方式を用い
ている。その処理は従来例と同様である。ホルマントパ
ラメータ生成部２２１では、音素記号の入力に従って、
音素についてのホルマントデータ２２３と音素環境によ
るホルマント変形ルール２２４をもとに、ホルマントパ
ラメータを生成する。ホルマント合成部２２２ではホル
マントパラメータデータをもとに共振回路を駆動し音素
波形を生成する。

【００２３】波形接続部３では図３に示すように各波形
生成部で合成された音素（合成単位）波形を、音素種別
判断部１１から出力された音素記号列情報、または波形
接続情報に基づいて、重ね合わせて接続し、合成波形と
して出力する。図４は本発明の第２の実施例であり、図
１における波形生成部１を波形編集方式、波形生成部２
をＰＡＲＣＯＲ方式、合成単位を音素とした場合であ
る。

【００２４】本図中、１１は音素種別判断部、１２は音
素種別テーブル記憶部、２１１は波形選択部、２１２は
波形変形部、２１３は素片波形データ記憶部、２３１は
ＰＡＲＣＯＲパラメータ生成部、２３２はＰＡＲＣＯＲ
合成部、２３３はＰＡＲＣＯＲパラメータ記憶部、３は
波形接続部である。図４の実施例２は実施例１の波形生
成部２をＰＡＲＣＯＲ方式に置き換えたものであるの
で、その箇所のみを説明する。

【００２５】音素種別判断部１１でＰＡＲＣＯＲ方式が
適切であると判断された音素がＰＡＲＣＯＲパラメータ
生成部２３１に入力される。ＰＡＲＣＯＲ方式は線形予
測法を用いて分析し、自然音声をパラメータ化したもの
（ＰＡＲＣＯＲパラメータと呼ぶ）を蓄積しておき、分
析に用いたフィルタと逆特性のフィルタを用いて合成す
る手法である。ＰＡＲＣＯＲパラメータ記憶部２３３に
は、ＰＡＲＣＯＲパラメータが格納されており、ＰＡＲ
ＣＯＲパラメータ生成部２３１でこれらのパラメータを
接続し、音素波形を生成するためのパラメータ列を生成
する。ＰＡＲＣＯＲ合成部２３２では、このパラメータ
列の特性でフィルタを駆動し音素波形を得て、波形接続
部３に出力する。

【００２６】ホルマント方式やＰＡＲＣＯＲ方式以外に
もＬＳＰ（線スペクトル対）合成法式や、ケプストラム
方式など、あらゆる合成方式との組み合わせが可能であ
る。図５は本発明の第３の実施例であり、図２における
素片波形作成部をホルマント方式とした場合である。本
図中、２１１’は波形選択部、２１２は波形編集部、２
１３は素片波形データ記憶部、３は波形接続部、４１１
はホルマントパラメータ生成部、４１２はホルマント合
成部、５１１はホルマントデータ記憶部、５１２はホル
マント変形ルール記憶部である。

【００２７】本図において、波形選択部２１１’は従来
例（図６の２１１）とほぼ同様なものであるが、入力さ
れた音素記号列に従って、素片波形データ記憶部（２１
３）から素片波形を読み込む際、素片波形データ記憶部
２１３に蓄積されていない音素に関しては、その音素記
号をホルマントパラメータ生成部４１１に出力する点で
異なる。

【００２８】ホルマントパラメータ生成部４１１では入
力音素記号および音素環境からホルマントデータ５１１
とホルマント変形ルール５１２をもとにホルマント合成
に用いるパラメータの時系列を生成し、ホルマント合成
部４１２に出力する。ホルマント合成部４２１ではパラ
メータにしたがって、図１０に示すような共振回路を駆
動して音声波形を合成し、波形変形部２１１’に出力す
る。この音素波形は図７（２ａ）に示したものと同様、
一素片波形が一合成単位波形に相当するものとして対処
する。こうして、あたかも全ての素片波形が蓄積されて
いたようにして、素片波形選択部２１１’から波形変形
部２１２に出力される。波形編集部２１２では図７（１
ｂ）、（１ｃ）のように、変形、接続され音素波形とな
る。波形接続部３はこれらの音素波形を重ね合わせ接続
し合成波形として出力する。

【００２９】ホルマント方式以外にもＰＡＲＣＯＲ方式
など、他の方式を素片波形作成部に用いることも可能で
ある。

【００３０】

【発明の効果】本発明によれば、少ない蓄積データ容量
で高品質の合成音声を得る音声規則合成装置を実現する
ことが可能である。

【図面の簡単な説明】

【図１】本発明の請求項１に対する原理図である。

【図２】本発明の請求項４に対する原理図である。

【図３】本発明の第１の実施例を示す図である。

【図４】本発明の第２の実施例を示す図である。

【図５】本発明の第３の実施例を示す図である。

【図６】第１の従来例の原理図である。

【図７】波形変形部における処理を示す図である。

【図８】波形接続部における処理を示す図である。

【図９】第２の従来例の原理図である。

【図１０】ホルマント合成部の構成図である。

【図１１】合成単位記号列の一例である。

【符号の説明】

１・・・合成単位種別判断部２１〜２ｎ・・・波形生成部３・・・波形接続部４１〜４ｎ・・・素片波形作成部５１〜５ｎ・・・素片波形作成用データ蓄積部２１１、２１１’・・・波形選択部２１２・・・波形変形部２１３・・・素片波形データ蓄積部

Claims

【特許請求の範囲】

【請求項１】音声合成装置において、一つの合成装置内に、それぞれ異なる合成方式によって
合成単位から波形を生成する波形生成部（２１）〜（２
ｎ）と、入力された合成単位の種別より、波形生成部（２１）〜
（２ｎ）のいずれを用いるかを選択する合成単位種別判
断部（１）と、波形生成部（２１）〜（２ｎ）から出力された合成単位
に相当する波形を接続する波形接続部（３）を有するこ
とを特徴とする音声合成装置。
【請求項２】請求項１において、波形データの直接的な
編集によって音声を合成する波形編集方式を用いる波形
生成部と、モデルを用いて音声をパラメータ化し、そのパラメータ
から音声を合成する方式を用いる波形生成部を有するこ
とを特徴とする音声合成装置。
【請求項３】請求項１または請求項２において、合成単
位のうち、母音については音声パラメータから音声を合
成する方式の波形生成部を、子音については波形編集方
式による波形生成部を用いて音声合成を行うことを特徴
とする音声合成装置。
【請求項４】音声合成装置において、特定の合成単位のデータとして音声波形を蓄積する素片
波形データ蓄積部（２１３）と、その他の合成単位のデータとしてモデルを用いて、合成
単位に応じた形式の音声パラメータを蓄積した素片波形
作成用データ蓄積部（５１〜５ｎ）と、素片波形作成用データ蓄積部（５１〜５ｎ）に蓄積され
ている音声パラメータから合成単位に相当する音声波形
を合成する素片波形生成部（４１〜４ｎ）と、合成に必要な素片波形を素片波形データ蓄積部（２１
３）、および素片波形生成部（４１〜４ｎ）から読み込
む波形選択部（２１１’）と波形選択部（２１１’）か
ら出力される素片波形を接続に適するように変形を施
し、合成単位に相当する波形を生成する波形変形部（２
１２）と、波形変形部（２１２）から出力される合成単位に相当す
る波形を接続する波形接続部（３）を具備することを特
徴とする音声合成装置。
【請求項５】請求項４において、合成単位のうち、子音
のデータを素片波形データ蓄積部（２１３）に蓄積して
おき、母音のデータを素片波形作成用データ蓄積部（５
１〜５ｎ）に蓄積しておくことを特徴とする音声合成装
置。
【請求項６】合成単位を音素とすることを特徴とする、
請求項１ないし請求項５記載の音声合成装置。
【請求項７】合成単位を音節とすることを特徴とする、
請求項１ないし請求項５記載の音声合成装置。