JPH08160991A

JPH08160991A - 音声素片作成方法および音声合成方法、装置

Info

Publication number: JPH08160991A
Application number: JP6302471A
Authority: JP
Inventors: Takahiro Kamai; 孝浩釜井; Kenji Matsui; 謙二松井
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1994-12-06
Filing date: 1994-12-06
Publication date: 1996-06-21

Abstract

(57)【要約】【目的】音質劣化が少なく、音声合成時の演算量を減
少させることができる音声素片作成方法及び音声合成方
法、装置を提供すること。【構成】圧縮音声素片ＤＢ１０に窓掛けを済ませた音
声ピッチ素片を、隣接ピッチ間の差分を取った形で記憶
しておき、状態保持部３、サンプル読み出し部５、波形
保持部９の組を複数用意しておき、それぞれで圧縮音声
素片ＤＢ１０から差分波形を読み出しながら原波形を複
合し、加算重畳部６でそれらを重ね合わせる事により目
的のピッチ周期を有する音声波形を合成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、電話照会サービス、音
声情報案内システム、パソコン用音声規則合成装置など
に応用可能な音声素片作成方法及び音声合成方法、装置
に関するものである。

【０００２】

【従来の技術】音声合成を用いたインターフェースは、
例えばパソコンなどで別の仕事をしながら説明文や電子
メールを聞いたり、ワープロで作成した原稿を耳で聞き
ながら校正するのに用いる事ができる。また、電子ブッ
クなどの機器に組み込む事によりフロッピーディスクや
ＣＤ−ＲＯＭなどに格納されたテキストを液晶ディスプ
レイなどを用いずに読む事が可能となる。

【０００３】このような目的に用いられる音声合成装置
は小型で低価格である事が要求される。従来、このよう
な用途にはパラメータ合成方式や圧縮録音再生方式など
が用いられてきた。

【０００４】前者のパラメータ合成方式は、音声をＣＶ
音節やＣＶＣ、ＶＣＶ（Ｃは子音、Ｖは母音を表す）な
どの細かい単位で素片化し、ＰＡＲＣＯＲ係数などのパ
ラメータに変換してメモリに蓄積しておき、必要に応じ
て再合成する方式である。

【０００５】この方式は記憶形態が音声パラメータであ
るため、合成時にピッチや時間長などを容易に変更でき
る結果、素片間をなめらかに接続しやすいという利点が
ある。また、記憶容量も比較的少量ですむ。一方、音声
をパラメータ化する事による音質劣化が大きいという欠
点がある。

【０００６】又、後者の圧縮録音再生方式は、上記の音
質劣化を防ぐため、音声を圧縮符号化してメモリに蓄積
しておき、必要に応じて再生する方式である。圧縮符号
化にはμ−ＬａｗコーディングやＡＤＰＣＭ等が用いら
れる。

【０００７】合成する音声の内容が少数に限られている
のであれば、文単位や文節単位、単語単位で録音してお
き、適当に編集すれば良い。しかし、任意のテキストを
合成するためにはパラメータ合成方式と同様にさらに細
かい音声素片の形で蓄積しておかなければならない。ま
た、パラメータ合成と違ってピッチや時間長の変更が困
難であるため、高品質の合成のためには様々なピッチと
時間長をもった素片を用意しなくてはならない。

【０００８】このような理由から圧縮録音再生方式はパ
ラメータ合成方式の数倍から数十倍の大きな記憶容量が
必要となる。しかし、原理的には大容量の記憶装置を持
つ事により極めて高品質な音声を合成する事ができる。

【０００９】上記のように高品質の音声合成方式には圧
縮録音再生方式が有利であるが、音声素片に固有のピッ
チと時間長を制御する事ができないことと、大容量の記
憶装置が必要になることが問題である。

【００１０】この問題を解決するために、音声波形をピ
ッチに同期して窓関数で切り出し、合成時に所望のピッ
チ周期になるように重ね合わせを行う方法が考案されて
いる（特表平３−５０１８９６）。

【００１１】切り出しの位置は声門の閉鎖による励振パ
ルスのピークを窓関数の中心とする。窓関数の形状は両
端で０にまで減衰するもの（例えばHanning 窓）を用い
る。窓長は、音声波形の原ピッチ周期よりも合成ピッチ
周期を短くする場合は合成ピッチ周期の２倍であり、逆
に合成ピッチ周期を長くする場合は原ピッチ周期の２倍
である。また、切り出されたピッチ波形を間引く、ある
いは繰り返すことにより時間長の制御も可能となる。

【００１２】上記方法によれば、一つの音声素片から任
意のピッチと時間長の波形を合成できるため、高品質の
合成音を圧縮録音再生方式に比べて少ない記憶容量で得
ることができる。

【００１３】

【発明が解決しようとする課題】以上説明したように、
従来の技術は圧縮録音再生方式に比較して少ない記憶容
量で高品質の合成音を得ることができる。しかしなが
ら、上記のような方法では、音声合成時の演算量が多い
という課題がある。それは、合成時にピッチ波形を窓関
数を用いて切り出すことが必要であり、三角関数の計算
と乗算が頻繁に行われるからである。

【００１４】例えば、合成波形を１サンプル合成するた
めに必要な演算は、以下の通りである。ピッチ波形を１
サンプル生成するためには、音声素片を読み出すための
メモリ読み出しが１回、Hanning 窓関数の計算に必要な
三角関数の計算が１回および加算が１回（三角関数に直
流オフセットを与えるため）、三角関数に与える角度の
計算のための乗算が１回、三角関数の値を用いて音声波
形に窓掛けを行うための乗算が１回である。ピッチ波形
が二つ重ね合わせられて合成波形が作られるので、合成
波形１サンプルあたりメモリアクセス２回、三角関数の
計算が２回、乗算が４回、加算が３回となる（図１９参
照）。

【００１５】本発明は、従来の音声合成におけるこのよ
うな課題を考慮し、音質劣化が少なく、音声合成時の演
算量を減少させることができる音声素片作成方法及び音
声合成方法、装置を提供することを目的とするものであ
る。

【００１６】

【課題を解決するための手段】本発明は、音声波形の所
定の区間内のピッチ周期毎に存在するそれぞれのピーク
について、ピークを中心として両端で零近傍に収束する
窓関数でピッチ波形を切り出す切り出し操作を、所定の
区間内の全てのピークについて行い、窓関数の長さはど
のピークについてもそれらの両隣のピークに到達するよ
りも短い音声素片作成方法である。

【００１７】また本発明は、所望の全ての音声波形につ
いて、請求項１、２、３のいずれかの音声素片作成方法
を用いて音声素片データを作成し、その作成した音声素
片データを記憶しておき、その記憶している音声素片デ
ータから所望の音声素片データの所望のピッチ波形を読
み出し、所望のピッチ周期の間隔になるように重ね合わ
せて配置し、それらを加算して一つの音声波形として出
力する音声合成方法である。

【００１８】また本発明は、所望の全ての音声波形につ
いて、請求項１、２、３のいずれかの音声素片作成方法
を用いて作成された音声素片データを記憶する音声素片
データ記憶手段と、その音声素片データ記憶手段から所
望の音声素片データの所望のピッチ波形を読み出すピッ
チ波形読み出し手段と、その読み出されたピッチ波形を
所望のピッチ周期の間隔になるように重ね合わせて配置
し、それらを加算して一つの音声波形として出力する加
算重畳部とを備えた音声合成装置である。

【００１９】また本発明は、時刻情報と所定の機能を表
す機能情報と所定の機能に応じた任意の個数のパラメー
タとを有する制御信号の並びである制御信号列を生成
し、制御信号の機能情報とパラメータを用いて、時刻情
報が表すタイミングに沿って音声素片を制御する音声合
成方法である。

【００２０】また本発明は、時刻情報と所定の機能を表
す機能情報と所定の機能に応じた任意の個数のパラメー
タとを有する制御信号の並びである制御信号列を生成
し、制御信号の機能情報とパラメータを用いて、時刻情
報が表すタイミングに沿って音声素片を制御する制御手
段を備えた音声合成装置である。

【００２１】

【作用】本発明は、音声波形の所定の区間内のピッチ周
期毎に存在するそれぞれのピークについて、どのピーク
についてもそれらの両隣のピークに到達するよりも短い
長さの窓関数でピッチ波形を切り出して音声素片データ
を作成する。

【００２２】また本発明は、所望の全ての音声波形につ
いて、音声素片データを作成して記憶しておき、その記
憶している音声素片データから所望の音声素片データの
所望のピッチ波形を読み出し、所望のピッチ周期の間隔
になるように重ね合わせて配置し、それらを加算して一
つの音声波形として出力する。

【００２３】また本発明は、制御信号の並びである制御
信号列を生成し、制御信号の機能情報とパラメータを用
いて、時刻情報が表すタイミングに沿って音声素片を制
御する。

【００２４】

【実施例】以下に、本発明をその実施例を示す図面に基
づいて説明する。

【００２５】図１は、本発明にかかる第１の実施例の音
声合成装置の構成図である。すなわち、その音声合成装
置には制御手段である制御部１が設けられ、その出力は
管理手段である管理部２、複数設けられた状態保持部
３、振幅制御部４に接続されている。管理部２は複数の
状態保持部３に接続され、その複数の状態保持部３は複
数設けられたピッチ波形読み出し部であるサンプル読み
出し部５に一対一に接続されている。その複数のサンプ
ル読み出し部５の出力は加算重畳部６の入力に接続さ
れ、その出力は振幅制御部４に接続されている。その振
幅制御部４の出力は出力部８に接続され、電気信号から
音響振動に変換されて音として出力される。また、複数
のサンプル読み出し部５には、一つの音声素片データ記
憶手段である音声素片ＤＢ７が接続されている。

【００２６】次に上記のように構成された音声合成装置
の動作についてフローチャートを参照しながら説明す
る。図２は、制御部１を中心とした全体の処理の流れを
表したフローチャートである。

【００２７】制御部１はまず、ローマ字表記やカタカナ
などの発音記号にアクセントおよび区切り情報を付加し
たものを入力として受け取る（ステップＳ１）。次にそ
れを解析し、結果を音節ごとにバッファに格納する（ス
テップＳ２）。図３は、音節バッファのデータ構造であ
る。音節ごとに音節ＩＤ、フレーズ長、アクセントレベ
ル、デュレーション、開始ピッチ、中央ピッチなどのデ
ータフィールドを持ち、一度に入力される音節数（例え
ば一行分）を格納できる長さを持った配列になってい
る。

【００２８】制御部１は入力を解析し、音節ＩＤ、フレ
ーズ長、アクセントレベルを設定する。音節ＩＤは
「あ」や「か」などの音節を特定するための番号であ
る。フレーズ長は入力の区切り記号で囲まれた範囲内の
音節数を示す数値で、フレーズが始まる音節のフィール
ドにその数値が設定される。アクセントレベルはアクセ
ントの強さを表し、フレーズごとに０個または１個存在
する。

【００２９】例えば「音声合成」という言葉を言語処理
した結果である「オンセエ / ゴ１オセエ」（/
は区切り記号、1 はアクセントレベル）と言う記号列を
入力したときに音節ＩＤ、フレーズ長、アクセントレベ
ルが設定される様子を図４に示す。フレーズ長はフレー
ズの先頭の音節にセットされる。

【００３０】次に上記で設定されたフレーズ長とアクセ
ントレベルの情報を元に韻律情報を設定する（ステップ
Ｓ３）。韻律情報の設定はデュレーション（ここでは音
節の持続時間）の設定とピッチの設定に分かれる。デュ
レーションはあらかじめ決めておいた発話速度と、音節
の前後関係などを考慮した規則によって決定される。ま
た、ピッチは藤崎モデルなどのピッチ生成方法により生
成したものを、音節の開始部と中央部の２カ所の値で表
す。先ほどの「オンセエ / ゴ１オセエ」の入力
に韻律情報が設定される様子を図５に示す。

【００３１】こうして生成された音節バッファを順番に
一つずつ読み出し、イベントリストを生成する（ステッ
プＳ５）。もし、音節バッファの残りがなくなっていた
ら（ステップＳ４）、処理を終了する。イベントリスト
は、音声波形合成部に対して直接指示を与えるための機
能情報であるイベントと呼ぶ情報の配列で、図６に示す
構造になっている。各イベントは次のイベントまでの間
隔である「イベント間隔」を時刻情報として持っている
ため、イベントリストは時間軸に沿った制御情報として
機能する。

【００３２】イベントの種類には「ＳＣ（Segment Chan
ge: 音声素片切り替え）」、「ＴＧ（Trigger: トリガ
ー）」などがある。「ＳＣ」は音声素片を音節ＩＤが示
す音節種類に対応したものへ切り替える指示である。

【００３３】また、それぞれのイベント種類によってデ
ータが付与される。「ＳＣ」はパラメータとしての「音
声素片ＩＤ」、「ＴＧ」は「ピッチＩＤ」をデータに持
つ。「音声素片ＩＤ」は各音節に対応した音声素片を指
す番号、「ピッチＩＤ」は各音声素片中のピッチ周期ご
とに切り出された波形（ピッチ波形）を指す番号であ
る。

【００３４】音節バッファを一つ読み出したら、音節Ｉ
Ｄを参照し、対応する音声素片ＩＤをデータに設定し、
「ＳＣ」イベントを生成する。イベント間隔は０でよ
い。

【００３５】次に、「ＴＧ」イベントを生成する。その
前に音声素片ＤＢ７に格納された音声素片のデータ構造
について説明する。

【００３６】図７は、音声素片のデータ構造の説明図で
ある。音声素片は一つの初期波形と複数のピッチ波形に
分かれている。例えば「カ」という音節の冒頭には、声
帯振動がなくピッチを持たない無声音区間がある。この
部分は子音の「ｋ」が調音されている部分である。この
ような場所は合成時にピッチ制御の必要がないので、そ
のまま波形として保持しておく。これを初期波形と呼
ぶ。

【００３７】このような初期波形は「ｋ」「ｓ」「ｔ」
などの無声子音だけでなく、「ｇ」「ｚ」「ｄ」などの
有声子音でも使用される。例えば「ｚ」などの場合は雑
音性が強いことや、他の有声子音でも立ち上がり時はピ
ッチが不安定であるためにピッチ波形が切り出しにくい
ためである。そこで、冒頭の短い区間を初期波形として
切り出しておく。

【００３８】「ｋ」の区間が終了すると声帯の振動が開
始し、有声音区間に入る。このような区間にはピッチ周
期に対応する波形のピークを中心にHanning 窓で切り出
すことにより、ピッチ周期ごとに分離して保持してお
く。これをピッチ波形と呼ぶ。

【００３９】それぞれの音声素片のデータは「初期波形
の長さ」、「初期波形のポインタ」、「ピッチ波形の個
数」、そして、複数の「ピッチ波形」からなる構造であ
る。「ピッチ波形」の大きさは前述したHanning 窓の窓
長を収めるのに必要十分な大きさとする。後述するよう
に窓長はピッチ周期の２倍より小さい値であり、その大
きさの決め方は精密さを要しない。全ての音声素片の全
てのピッチ波形について均一にしても良いし、音声素片
ごとに別の値にしても良いし、各ピッチ波形ごとに別々
の値でも良い。いずれの方法にしても窓長のばらつきは
小さい。従って、配列である「ピッチ波形」を複数集め
た２次元配列の形式を取ることは記憶領域を有効に使用
する。

【００４０】この構造体の配列を作り、必要な全ての音
声（音節）に対する音声素片を蓄積しておく。また、初
期波形は別の領域にまとめて記憶しておく。初期波形は
音声素片によって長さが不均一のため、音声素片の構造
体に含めると記憶容量が無駄になるので、一次元配列と
して別の連続した領域に格納した方がよい。

【００４１】このような音声素片を用意したという前提
で、先ほどの「ＴＧ」イベントの生成の説明に戻る。

【００４２】「ＴＧ」イベントのデータには「ピッチＩ
Ｄ」をセットする。最初の「ＴＧ」イベントのデータに
は初期波形を表す０を設定する。イベント間隔は「初期
波形の長さ」から先ほどの窓長の２分の１を引いたもの
である。

【００４３】次に、続けて「ＴＧ」イベントを生成す
る。この「ＴＧ」イベントのデータには最初のピッチ波
形を表す１をセットする。イベント間隔はそのピッチ波
形が合成時に用いられる位置でのピッチ周期である。ピ
ッチ周期は音節バッファのピッチ情報（開始ピッチと中
央ピッチ）から内挿によって求める。

【００４４】同様にして、「ＴＧ」イベントを１音節分
生成する。各「ＴＧ」イベントのデータである「ピッチ
ＩＤ」は、ピッチ波形のもとの音声波形中の位置と合成
時の音節中の位置が最も近くなるように選ぶ。即ち、も
との音声波形のピッチと合成時のピッチが同じならばピ
ッチＩＤは0,1,2,,,と一つずつ増加するが、合成時のピ
ッチの方が高い場合は0,1,1,2,3,3,,,というように同じ
番号を何度か繰り返す。逆に合成時のピッチの方が低い
場合は0,1,3,4,6,,,というように、途中の番号を間引
く。こうする事により合成時のピッチ制御により音声素
片の時間長が変化することを防ぐ。図８に音節「オ」に
対してイベントリストが生成される様子を示す。

【００４５】一音節分のイベントリストが生成されたら
次の段階に移り、イベント読み出しおよび合成制御の処
理を行う（ステップＳ７）。この処理を詳しく説明した
フローチャートを図９に示す。図９において、イベント
を１つ取り出し（ステップＳ１１）、そのイベント種類
が「ＳＣ」であるか否かを判定し（ステップＳ１２）、
「ＳＣ」であれば音声素片切り替え処理を実行し（ステ
ップＳ１３）、「ＳＣ」でなければ、イベント種類が
「ＴＧ」であるか否かを判定し（ステップＳ１４）、
「ＴＧ」であればトリガー処理を実行する（ステップＳ
１５）。その後、次のイベントを読み出す時期が来たか
どうかを判定し（ステップＳ８）、来るまで音声波形合
成の処理を繰り返し行い（ステップＳ９）、更に、イベ
ントリストが終了するまでイベント読み出しから音声波
形合成までを繰り返す。

【００４６】図９の中の音声素片切り替え処理、および
トリガー処理については後述する。これらの処理は各イ
ベントが持つイベント間隔に従って行われるので、ピッ
チの制御など時間情報に基づいた処理が行われる。すな
わち、あるイベントを読み出した時、イベント間隔が２
０であったら、次の処理である音声波形合成を２０回実
行した後、次のイベントを読み出す。音声波形合成処理
では１サンプルの音声波形を合成する。「ＴＧ」イベン
トのイベント間隔はピッチ周期になっているので「Ｔ
Ｇ」イベントに従ってピッチ波形を読み出す事により、
目的のピッチ周期を持った音声波形が合成される。目的
のピッチを持った音声が合成される様子を図１０に示
す。

【００４７】次に音声波形合成処理の詳細について説明
する。管理部２は「音声素片ＩＤ」の管理を行うと共
に、複数設けられた状態保持部３とサンプル読み出し部
５の組（エレメントと呼ぶ）の内、どのエレメントを次
に使用するかを表す「エレメントＩＤ」の管理を行う。
各エレメントの状態保持部３は現在の「ピッチＩＤ」、
ピッチ波形の「先頭アドレス」および「最終アドレ
ス」、現在読み出し中のアドレスを表す「読み出しアド
レス」を保持している。サンプル読み出し部５は状態保
持部３から「読み出しアドレス」を取り出し、それが
「最終アドレス」を越えていなければ音声素片ＤＢ７の
該当アドレスから音声素片を１サンプル読み出す。その
後、状態保持部３の「読み出しアドレス」を一つ加算す
る。加算重畳部６は全てのエレメントのサンプル読み出
し部５の出力を加算して出力する。この出力は振幅制御
部４によって振幅の制御を受け、出力部８により音響振
動に変換されて音声として出力される。

【００４８】図９の中の音声素片切り替え処理では、管
理部２の「音声素片ＩＤ」を与えられた音節ＩＤに対応
するものに変更する。

【００４９】また、トリガー処理では、管理部２の「エ
レメントＩＤ」を循環的に更新する。すなわち、図１１
に示すように、まず、「エレメントＩＤ」に１を加算し
（ステップＳ２１）、それがエレメントの個数に達した
かどうかを判断し（ステップＳ２２）、達していたら０
にリセットする（ステップＳ２３）。次に、イベントデ
ータからピッチＩＤを取り出し（ステップＳ２４）、更
に管理部２から「音声素片ＩＤ」を取り出し（ステップ
Ｓ２５）、対応する音声素片の対応するピッチ波形の先
頭アドレスを取得して（ステップＳ２６）、状態保持部
３の「先頭アドレス」にセットする。また、「読み出し
アドレス」をピッチ波形先頭アドレスで初期化し（ステ
ップＳ２７）、更に、あらかじめ決められたピッチ波形
の長さを用いて、「最終アドレス」を設定する（ステッ
プＳ２８）。

【００５０】図１２は、本実施例における音声素片の作
成方法を表したものである。同図で再上段は音声素片の
もととなる音声波形を表している。Psは開始マーク、P
0,P1,,,, はピッチに対応するピークに付けられたピッ
チマーク、W0,W1,,,, は切り出し窓長を表す。S0,S
1,,,, は切り出された波形である。S1以降は１ピッチ周
期ごとに切り出したピッチ波形であるが、S0 は初期波
形であり、開始マークからP0までとそれ以降W0/2 の長
さまでを切り出した波形である。P0 以降はHanning 窓
の後半、それ以前は矩形窓である。また、S1以降の素片
はHanning 窓によって切り出される。

【００５１】Hanning 窓の窓長であるWn (n=0,1,2,,,)
は例えば（数１）のように、全ての音声波形に対してピ
ッチ周期の代表値（例えば平均値）を用いて一律に決め
ても良いし、

【００５２】

【数１】Wn = T_all × R, (T_all は全ての音声のピッチ
周期の平均) （数２）のように、各音声波形ごとにピッチ周期の代表
値（例えば平均値）を用いて決めても良いし、

【００５３】

【数２】 Wn = T_ind × R, (T_ind は各音声のピッチ周期の平均）（数３）（数４）のように、各ピッチ波形ごとにその近
隣のピッチ周期から個別に決定しても良い。

【００５４】

【数３】Wn = ((T_n + T_n+1) / 2) × R , for n ≧ 1

【００５５】

【数４】W0 = T₁ × R ここで、R はピッチ周期に対する窓長の比で、例えば1.
4 前後を用いる。その理由について次に説明する。

【００５６】図１３は、ある音声の時間波形（上段）
と、そのＦＦＴスペクトルおよびＬＰＣスペクトル包絡
（下段）である。サンプリング周波数ｆｓは（数５）で
あり、

【００５７】

【数５】fs = 10kHz 分析窓長Ｗは（数６）であり、

【００５８】

【数６】W = 512 線形予測次数Ｍは（数７）である。

【００５９】

【数７】M = 12 窓関数はHanning 窓である。また、この音声のピッチ周
期Ｔは（数８）であり、時間波形の2478 点目から2990
点目が分析対象区間である。

【００６０】

【数８】T = 108 ＦＦＴスペクトルは高調波のために櫛状の周期的な構造
をしており、これがピッチとして知覚される。また、Ｌ
ＰＣスペクトル包絡はＦＦＴスペクトルのピークを結ぶ
ようななめらかな形状をしており、この形状により音韻
が知覚される。

【００６１】図１４は、同音声の時間波形（上段）と、
Ｗ＝２Ｔ（窓長がピッチ周期の２倍）の時のＦＦＴスペ
クトル（下段）である。時間波形の2438 点目から2653
点目が分析対象区間である。この時のＦＦＴスペクトル
は櫛状の構造を失い、スペクトル包絡を表している。こ
れはHanning 窓の周波数特性が元のスペクトルに畳み込
まれるためである。

【００６２】すなわち、図１３に示した原スペクトルは
ｆｓ／Ｔの間隔で櫛状の周期的な構造をしている。一
方、窓長ＷのHanning 窓の周波数特性は、メインローブ
の帯域幅Ｂが（数９）である。

【００６３】

【数９】B = 2fs / W また、Ｗ＝２Ｔの時のＢは（数１０）となり、これと音
声スペクトルとを畳み込む事により、ちょうど高調波の
間を埋める効果がある。

【００６４】

【数１０】B = fs / T このような理由から、Ｗ＝２ＴのHanning 窓で切り出さ
れたピッチ波形は原音声のスペクトル包絡に近いスペク
トルを有する。こうして切り出された波形を新たなピッ
チ周期Ｔ’で再配置、重畳する事によって所望のピッチ
周期の音声が合成される。

【００６５】Ｗ＜２Ｔの時はＢ＞ｆｓ／Ｔとなるため、
音声のスペクトルと畳み込んだとき、スペクトル包絡に
歪を生ずる。Ｗ＞２Ｔの場合はＢ＜ｆｓ／Ｔとなり、音
声のスペクトルと畳み込んだとき、十分に高調波の間を
埋める効果がなく、そのスペクトルは元の音声の高調波
構造を含んだものとなる。このような場合は、目的のピ
ッチ周期で再配置、重畳しても元の音声波形の持つピッ
チの情報が残存しているため、エコーに似た音が発生す
る。

【００６６】先行文献（特表平３−５０１８９６）は上
記の性質を利用し、原音声のピッチ周期Ｔと目的のピッ
チ周期Ｔ’の関係がＴ＜Ｔ’の時はＷ＝２Ｔ、Ｔ＞Ｔ’
の時はＷ＝２Ｔ’とする事で高品質なピッチ変更を実現
していた。Ｔ＞Ｔ’の時、すなわちピッチを上げるとき
に原音声のピッチ周期ではなく合成ピッチ周期の２倍の
窓長を用いるのは、切り出しピッチ波形の重なり合いが
多くなる事を防ぐためであると思われる。余り多くのピ
ッチ波形が重なり合うと互いの影響が強くなり音質劣化
を引き起こす。

【００６７】先ほどＷ＜２Ｔの時は切り出されたピッチ
波形は元の音声スペクトルに対して歪を持っていると述
べた。しかし、２Ｔに比べて極端にＷが小さくない場合
はその歪は許容できる。もし、固定のＷで全ての合成ピ
ッチの範囲をカバーできれば先行文献のように合成時に
窓掛けを行わなくても、事前に窓掛けを済ませた音声素
片を用意しておくことにより、合成時にはピッチ波形の
重ね合わせ処理のみで済むので、計算量を減らす事がで
きる。

【００６８】固定の窓長を用いる場合、ピッチを上げて
行ったときに多くのピッチ波形が重なり合う事により歪
が発生する。このような観点からはＷは小さい方がよ
い。

【００６９】そこで、切り出されたピッチ波形のスペク
トル歪が許容できる程度に長く、かつ合成ピッチが高い
場合の重なり合いによる歪が許容できる程度に短い窓長
を選ぶことで最適な窓長Ｗを決定する事ができる。

【００７０】Ｗの範囲としては原音声にもよるが、1.2
Ｔから1.6Ｔ程度の範囲に最適値がある事が多い。たと
えばＷ＝1.4Ｔの時の切り出しピッチ波形のスペクトル
を図１５に示す。図１３の原スペクトルの包絡を十分に
表しており、図１４のＷ＝２Ｔの場合と比べても遜色の
ないスペクトル形状を示しているばかりか、むしろこち
らの方がスペクトル包絡としては優れている（高調波構
造が除去されている）。そして、Ｗ＝２Ｔと比べてピッ
チ上昇時のピッチ波形の重なり度合いは軽減されてい
る。

【００７１】以上のような方法により、合成時の計算は
事実上加算演算のみとなり、きわめて少ない演算処理量
で高品質の音声を合成することが可能である。

【００７２】合成波形を１サンプル合成するために必要
な演算は以下の通りである。ピッチ波形を１サンプル生
成するためには、音声素片を読み出すためのメモリ読み
出しが１回だけ必要である。エレメントの出力を重畳す
るための加算回数はエレメント数−１である。したがっ
て、エレメント数をｎとすると合成波形１サンプルあた
りメモリアクセスｎ回、加算（ｎ−１）回である。仮に
ｎ＝４とするとメモリアクセス４回、加算３回である。

【００７３】次に、本発明にかかる第２の実施例につい
て説明する。図１６は本発明の第２の実施例の音声合成
装置の構成図である。その音声合成装置には制御部１が
設けられ、その出力は管理部２、複数の状態保持部３、
振幅制御部４に接続されている。管理部２は複数の状態
保持部３に接続され、それらの状態保持部３は同じ数設
けられたサンプル読み出し部５に一対一に接続されてい
る。また、波形保持部９がサンプル読み出し部５と同じ
数だけ設けられ、サンプル読み出し部５と一対一に接続
され、その複数のサンプル読み出し部５の出力は一つに
まとめられ加算重畳部６に入力されている。その加算重
畳部６の出力は振幅制御部４に入力され、その出力は出
力部８に入力されている。また、圧縮音声素片ＤＢ１０
が設けられ、全てのサンプル読み出し部５に接続されて
いる。

【００７４】圧縮音声素片ＤＢ１０には、図１７に示す
ような形式で音声素片が記憶されている。すなわち、
「初期波形の長さ」と「初期波形のポインタ」、「ピッ
チ波形の個数」が図７と同様に記憶されているが、「ピ
ッチ波形」の代わりに「第１ピッチ波形」と複数の「差
分波形」が記憶されている。「初期波形記憶領域」に関
しては図７と同様である。

【００７５】「差分波形」は、図７における「ピッチ波
形」の隣合った物同士の差を取ったデータである。全て
のピッチ波形はピークを中心に切り出されているのでそ
れらの差分は隣接ピッチ間の波形変化を表している。音
声波形の場合は隣接ピッチ間の相関が強いため、差分波
形はきわめて振幅の小さい物となる。したがって、記憶
領域に割り当てる一語あたりのビット数を数ビット減ら
すことが可能である。また、符号化方法によっては二分
の一や四分の一まで減らすことができる。

【００７６】このような形式で記憶された圧縮音声素片
ＤＢ１０を用いて実際に波形を読み出し音声波形を合成
する手順について説明する。１サンプルの合成処理につ
き全てのエレメントで順番にサンプル読み出し処理が行
われる。

【００７７】まず、音声素片切り替え処理およびトリガ
ー処理が行われた直後にサンプル読み出し処理に入った
と仮定する。図１８において、初期波形か否か判定し
（ステップＳ１０１）、初期波形が終了であれば第１ピ
ッチ波形の処理に移り（ステップＳ１０２、Ｓ１０
３）、終了でなければ（ステップＳ１０２）、状態保持
部３の「ピッチＩＤ」は初期波形を指しているので初期
波形から１サンプル読み出し（ステップＳ１０４）、加
算重畳部へ出力する（ステップＳ１０５）。同時に状態
保持部３の「読み出しアドレス」を一つ加算して（ステ
ップＳ１０６）処理を終わる。以後の処理では「読み出
しアドレス」が「最終アドレス」を越えていなければ同
様の処理を行い、越えていれば何もしない。

【００７８】次に、それ以後の「ＴＧ」イベントに続い
てサンプル読み出し処理に入ったとする。状態保持部３
の「ピッチＩＤ」は当然初期波形以外を指している。最
初は第１ピッチ波形を指す（ステップＳ１０７）。した
がって、第１ピッチ波形から１サンプル読み出す（ステ
ップＳ１１０）。もし第１ピッチ波形終了であれば差分
波形の処理に移る（ステップＳ１０９）。アドレスの更
新は上記と同様であるが、読み出した値を波形保持部９
に一時記憶する（ステップＳ１１１）。波形保持部９は
ピッチ波形一つ分の記憶領域であり、第１ピッチ波形の
先頭から数えてｎ番目から読み出された値は、波形保持
部９の先頭から数えてｎ番目に記憶される。そして、同
じ値を加算重畳部６に出力し（ステップＳ１１２）、次
のサンプルの処理に移る（ステップＳ１１３）。

【００７９】次に、「ピッチＩＤ」が差分波形を指して
いれば（ステップＳ１１４）、差分波形から１サンプル
読み出す（ステップＳ１１６）。ここで、もし１つの差
分波形終了の場合は、次の差分波形の処理に移る（ステ
ップＳ１１５）。アドレスの更新は上記と同様である。
差分波形の場合は読み出した値と波形保持部９に記憶さ
れていた値を加算する（ステップＳ１１７）。こうする
ことで差分波形から原波形を復元することができる。こ
の値を波形保持部９に再び記憶しておき（ステップＳ１
１７）、加算重畳部６へも出力する（ステップＳ１１
８）。そして次のサンプルの処理に移る（ステップＳ１
１９）。

【００８０】以上のように、ピッチ波形を差分波形の形
で蓄積することにより記憶容量を大きく削減することが
可能である。また、そのために第１の実施例に比べて余
分に必要となる構成要素と計算は、１エレメントあたり
一つの１ピッチ波形分のメモリとサンプル読み出し処理
１回につき加算、メモリから１語読み出し、メモリへ１
語格納が各１回と、ごくわずかである。合成波形を１サ
ンプル合成するために必要な演算は、以下の通りであ
る。ピッチ波形を１サンプル生成するためには、差分波
形を読み出すためのメモリ読み出しが１回、それを波形
保持部９の値と加算して原波形を復元するためのメモリ
読み出しと加算がそれぞれ１回、その値を再び波形保持
部９に記憶するためのメモリ書き込みが１回である。エ
レメント数をｎとすると、合成波形１サンプルあたり、
メモリアクセス３ｎ回、加算がｎ＋（ｎ−１）回（ｎ個
のエレメント出力を重畳するための加算演算はｎ−１
回）である。仮にｎが４ならば、合成波形１サンプルあ
たり、メモリアクセス１２回、加算１５回となる。

【００８１】図１９に従来技術と本発明の演算量の比較
を示す。

【００８２】なお、上記実施例では、いずれも窓関数に
Hanning 窓を用いたが、これに限らず、他の形状のもの
を用いても構わない。

【００８３】また、上記実施例では、いずれもイベント
種類としては「ＳＣ」（音声素片切り替え）と「ＴＧ」
（トリガー）のみを用いたが、これに限らず、その他の
例えば振幅制御情報や別話者の音声から作成した音声素
片セットへの切り替え情報などを使用することもでき
る。

【００８４】また、上記実施例では、いずれも加算重畳
によるピッチ変更は音声素片に対して用いたが、これに
限らず、例えばフォルマント合成における声帯音源波形
のピッチ変更などに用いてももちろん構わない。

【００８５】以上のように、音声素片作成時に窓掛けを
済ませておくことにより、合成時の演算量を飛躍的に減
少させることが出来、かつ、そのための音質劣化を少な
く抑えることができる。また、ピッチ波形間の差分を取
ることによって効果的に音声素片を圧縮することが出
来、従来の技術よりも更に少ない記憶容量で実施するこ
とができる。また、音声素片を圧縮したことによる合成
時の演算量や装置規模の増大は極めて少ない。

【００８６】このように、演算量が極めて少なく、かつ
装置規模も小さいために、小型の高品質音声合成装置へ
の応用が可能となる。

【００８７】

【発明の効果】以上述べたところから明らかなように本
発明は、音質劣化が少なく、音声合成時の演算量を減少
させることができるという長所を有する。

【００８８】また、ピッチ波形の差分を取って音声素片
を圧縮すことにより、記憶容量を少なくできるという利
点がある。

【図面の簡単な説明】

【図１】本発明にかかる第１の実施例の音声合成装置の
構成図である。

【図２】同第１の実施例における制御部を中心とした全
体の処理のフローチャートである。

【図３】同第１の実施例における音節バッファのデータ
構造を示す図である。

【図４】同第１の実施例における音節バッファに音節Ｉ
Ｄ、フレーズ長、アクセントレベルが設定される様子を
説明する図である。

【図５】同第１の実施例における音節バッファに韻律情
報が設定される様子を説明する図である。

【図６】同第１の実施例におけるイベントリストのデー
タ構造を示す図である。

【図７】同第１の実施例における音声素片ＤＢにおける
音声素片のデータ構造を示す図である。

【図８】同第１の実施例における音節「オ」に対してイ
ベントリストが生成される様子を説明する図である。

【図９】同第１の実施例におけるイベント読み出しおよ
び合成制御の部分のフローチャートである。

【図１０】同第１の実施例における目的のピッチを持っ
た音声が合成される様子を説明する図である。

【図１１】同第１の実施例におけるトリガー処理のフロ
ーチャートである。

【図１２】同第１の実施例における音声波形から音声素
片を作成する様子を説明する図である。

【図１３】原音声波形のスペクトルを示す図である。

【図１４】窓長がピッチ周期の２倍の時のスペクトルを
示す図である。

【図１５】窓長がピッチ周期の1.4倍の時のスペクトル
を示す図である。

【図１６】本発明にかかる第２の実施例の音声合成装置
の構成図である。

【図１７】同第２の実施例における圧縮音声素片ＤＢに
おける音声素片のデータ構造を示す図である。

【図１８】同第２の実施例におけるサンプル読み出し部
の処理を表すフローチャートである。

【図１９】演算量の比較を示す図である。

【符号の説明】

１制御部２管理部３状態保持部４振幅制御部５サンプル読み出し部６加算重畳部７音声素片ＤＢ８出力部９波形保持部１０圧縮音声素片ＤＢ

Claims

【特許請求の範囲】

【請求項１】音声波形の所定の区間内のピッチ周期毎
に存在するそれぞれのピークについて、前記ピークを中
心として両端で零近傍に収束する窓関数でピッチ波形を
切り出す切り出し操作を、前記所定の区間内の全てのピ
ークについて行い、窓関数の長さはどのピークについて
もそれらの両隣のピークに到達するよりも短いことを特
徴とする音声素片作成方法。
【請求項２】窓関数の長さは全て同じ長さであること
を特徴とする請求項１記載の音声素片作成方法。
【請求項３】窓関数の長さは音声波形のその時点での
ピッチ周期の２倍の長さを、１よりも小さい所定の定数
で乗算した長さであることを特徴とする請求項１記載の
音声素片作成方法。
【請求項４】所望の全ての音声波形について、請求項
１、２、３のいずれかの前記音声素片作成方法を用いて
音声素片データを作成し、その作成した音声素片データ
を記憶しておき、その記憶している音声素片データから
所望の音声素片データの所望のピッチ波形を読み出し、
所望のピッチ周期の間隔になるように重ね合わせて配置
し、それらを加算して一つの音声波形として出力するこ
とを特徴とする音声合成方法。
【請求項５】窓関数の長さは各音声波形についてその
音声波形のピッチ周期を表す一つの代表値を２倍したも
のを、１よりも小さい所定の定数によって乗算した長さ
であることを特徴とする請求項４記載の音声合成方法。
【請求項６】音声素片データの前記記憶は、各音声素
片データの最初のピッチ波形については波形そのものを
記憶し、２番目以降のピッチ波形については一つ前のピ
ッチ波形とそのピッチ波形との変化分を表す差分ピッチ
波形を記憶するものであって、ある音声素片データを読
み出す場合、最初のピッチ波形は記憶されている波形を
そのまま読み出すと同時に、次のピッチ波形を読み出す
までその値を一時的に記憶しておき、２番目以降のピッ
チ波形は読み出した差分波形の値を前記記憶された一つ
前のピッチ波形の値に加算することで波形を復元すると
同時に、前記一時記憶された値を復元された波形の値で
置き換えることを特徴とする請求項４、又は５記載の音
声合成方法。
【請求項７】所望の全ての音声波形について、請求項
１、２、３のいずれかの前記音声素片作成方法を用いて
作成された音声素片データを記憶する音声素片データ記
憶手段と、その音声素片データ記憶手段から所望の音声
素片データの所望のピッチ波形を読み出すピッチ波形読
み出し手段と、その読み出されたピッチ波形を所望のピ
ッチ周期の間隔になるように重ね合わせて配置し、それ
らを加算して一つの音声波形として出力する加算重畳部
とを備えたことを特徴とする音声合成装置。
【請求項８】窓関数の長さは各音声波形についてその
音声波形のピッチ周期を表す一つの代表値を２倍したも
のを、１よりも小さい所定の定数によって乗算した長さ
であることを特徴とする請求項７記載の音声合成装置。
【請求項９】音声素片データ記憶手段は、各音声素片
データの最初のピッチ波形については波形そのものを記
憶し、２番目以降のピッチ波形については一つ前のピッ
チ波形とそのピッチ波形との変化分を表す差分ピッチ波
形を記憶するものであって、ある音声素片データを読み
出す場合に、読み出された最初のピッチ波形を、次のピ
ッチ波形が読み出されるまで、その値を一時的に記憶す
るピッチ波形一時記憶手段を備え、２番目以降のピッチ
波形は読み出した差分波形の値を前記ピッチ波形一時記
憶手段に記憶された一つ前のピッチ波形の値に加算する
ことで波形を復元すると同時に、前記ピッチ波形一時記
憶手段に記憶された値を復元された波形の値で置き換え
ることを特徴とする請求項７、又は８記載の音声合成装
置。
【請求項１０】時刻情報と所定の機能を表す機能情報
と前記所定の機能に応じた任意の個数のパラメータとを
有する制御信号の並びである制御信号列を生成し、前記
制御信号の機能情報とパラメータを用いて、前記時刻情
報が表すタイミングに沿って音声素片を制御することを
特徴とする音声合成方法。
【請求項１１】所定の機能はピッチ周期単位で切り出
された音声素片の読み出しタイミングの制御であること
を特徴とする請求項１０記載の音声合成方法。
【請求項１２】所定の機能は音韻ごとに用意された音
声素片の切り替え制御であり、パラメータは目的の音韻
に対応する音声素片を指し示す情報であることを特徴と
する請求項１０、又は１１記載の音声合成方法。
【請求項１３】時刻情報と所定の機能を表す機能情報
と前記所定の機能に応じた任意の個数のパラメータとを
有する制御信号の並びである制御信号列を生成し、前記
制御信号の機能情報とパラメータを用いて、前記時刻情
報が表すタイミングに沿って音声素片を制御する制御手
段を備えたことを特徴とする音声合成装置。
【請求項１４】所定の機能はピッチ周期単位で切り出
された音声素片の読み出しタイミングの制御であること
を特徴とする請求項１３記載の音声合成装置。
【請求項１５】所定の機能は音韻ごとに用意された音
声素片の切り替え制御であり、パラメータは目的の音韻
に対応する音声素片を指し示す情報であることを特徴と
する請求項１３、又は１４記載の音声合成装置。
【請求項１６】時刻情報と所定の機能を表す機能情報
と前記所定の機能に応じた任意の個数のパラメータとを
有する制御信号の並びである制御信号列を生成し、前記
制御信号の機能情報とパラメータを用いて、前記時刻情
報が表すタイミングに沿って音声素片を制御することを
特徴とする請求項４、５、又は６記載の音声合成方法。
【請求項１７】所定の機能はピッチ波形読み出し開始
指示であって、管理手段の前記ピッチ波形読み出し開始
指示により、複数のピッチ波形読み出し部の内最も古く
選択されたものを選択し、ピッチ波形の読み出しを開始
し、加算重畳部により、全てのピッチ波形読み出し部が
読み出した値を加算して出力することを特徴とする請求
項１６記載の音声合成方法。
【請求項１８】パラメータは音声素片データ記憶手段
に記憶されたいずれかの音声波形または差分波形を指し
示すピッチ波形指定情報であり、管理手段は前記ピッチ
波形指定情報が指し示すピッチ波形の読み出しを開始さ
せることを特徴とする請求項１７記載の音声合成方法。
【請求項１９】所定の機能は音声素片切り替え指示で
あり、パラメータは音声素片データ記憶手段に記憶され
たいずれかの音声素片を指し示す情報であることを特徴
とする請求項１６、、１７、又は１８記載の音声合成方
法。
【請求項２０】時刻情報と所定の機能を表す機能情報
と前記所定の機能に応じた任意の個数のパラメータとを
有する制御信号の並びである制御信号列を生成し、前記
制御信号の機能情報とパラメータを用いて、時刻情報が
表すタイミングに沿って音声素片を制御する制御手段を
備えたことを特徴とする請求項７、８、又は９記載の音
声合成装置。
【請求項２１】一つの管理手段を備え、前記ピッチ波
形読み出し手段は、複数のピッチ波形読み出し部を有す
るものであって、所定の機能はピッチ波形読み出し開始
指示であり、前記管理手段は前記ピッチ波形読み出し開
始指示により、前記ピッチ波形読み出し部の内最も古く
選択されたものを選択し、ピッチ波形の読み出しを開始
させ、前記加算重畳部は全てのピッチ波形読み出し部が
読み出した値を加算して出力することを特徴とする請求
項２０記載の音声合成装置。
【請求項２２】パラメータは前記音声素片データ記憶
手段に記憶されたいずれかの音声波形または差分波形を
指し示すピッチ波形指定情報であり、前記管理手段は前
記ピッチ波形指定情報が指し示すピッチ波形の読み出し
を開始させることを特徴とする請求項２１の音声合成装
置。
【請求項２３】所定の機能は音声素片切り替え指示で
あり、パラメータは前記音声素片データ記憶手段に記憶
されたいずれかの音声素片を指し示す情報であることを
特徴とする請求項２０、２１、又は２２記載の音声合成
装置。