JPH0370000A

JPH0370000A - 音声合成方法

Info

Publication number: JPH0370000A
Application number: JP1204726A
Authority: JP
Inventors: Takashi Yato; 隆矢頭
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1989-08-09
Filing date: 1989-08-09
Publication date: 1991-03-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野コこの発明は音声生成過程を模擬した音声生成モデルによ
る音声合成方法に係り、特に滑らかな合成音声を得るた
めの音源励振タイミングの設定方法に関する。

［従来の技術］音声合成の代表的な方法として、音声波形を時間的に区
切った短い区間（以後、フレームと呼ぶ）毎に、そのフ
レームの音声の特徴を表すパラメータ（有声／無声判別
情報、ピッチ周期情報、振幅情報、声道情報）を求め、
このフレーム音声特徴パラメータで音声生成モデルを駆
動すること−により、音声を合成する形式がある。例え
ばＰＡＲＣＯＲ形（偏自己相関形）、ＬＳＰ形（線スペ
クトル対形）などが、この形式にあたる。

第２図に従来の音声合成器の一構成例を示す。

１００は無音もしくは無声音をノイズで近似するための
雑音発生器、１０１．は有声音をパルス列で近似するた
めのインパルス発生器であって、音声特徴パラメータの
うちのピッチ周期情報を、ピッチ周期毎にインパルスを
発生する。

１０２は有声／無声判別情報により雑音発生器１００又
はインパルス発生器１０１の出力を選択する切換スイッ
チで、判別情報が有声の場合にはインパルス発生器ｌｏ
ｔからの疑似音源信号を、また無声音の場合には雑音発
生器１００からの疑似音源信号を択一的に切り換える。

１０３は切換スイッチ１０２により選択された疑似音源
信号に対し振幅情報を乗じる乗算器、１０４は合成フィ
ルタであって、声道情報（ＰＡＲＣＯＲ係数、ＬＳＰ係
数など）によって音声を合成するための声道フィルタを
構成する。１０７は合成音の出力端子、１０５，１０６
はそれぞれ乗算器１０３と声道フィルタ１０４のための
補間器である。

補間器１０５，１０６はフレーム周期毎に受は取る音声
特徴パラメータのうち、フレーム間の振幅情報と声道情
報とを適当な補間周期（フレーム周期より短いサブフレ
ームあるいはｌサンプリング周期）毎に補間し、合成音
における振幅と声道特性とのフレーム間での不連続を軽
減し、より実音声に近い滑らかな変化特性とするために
備えられている。

このような構成において、１００〜１０３は疑似音源発
生回路を構成するものであり、この１００〜１０３の音
源発生回路から発生された疑似音源信号を声道フィルタ
１０４に通すことにより合成音が出力端子１０７より出
力される。

ここでピッチ周期毎にインパルスを発生するために必要
なインパルス発生器１０１の構戎例について述べる。

インパルス発生器１０１は内部にカウンタとインパルス
発生回路とを持ち、フレーム音声特徴パラメータの一部
として外部から与えられるピッチ周期をカウンタにセッ
トし、サンプリング周期に同期してカウンタをカウント
ダウンしていく。カウントが“０”になった時点（音源
励振位置）で有声音を近似するインパルスを出力する。

この出力と同時に現フレームのピッチ周期をカウンタに
セットして、ピッチ周期毎にパルスを発生するように構
成される。

［発明が解決しようとする課題］ところで、従来この種のインパルス発生器においては、
インパルスを発生する時点（音源励振位置）とフレーム
との関係は余り考慮されていなかった。

すなわち、音声合成器の動作開始時点、あるいは直前の
フレームが無音もしくは無声音の場合におけるフレーム
の開始時点では、共にピッチが存在しないわけであるか
ら、上記したカウンタの値は不定である。したがって通
常、このような時点ではフレームの開始位置で現フレー
ムのピッチ周期情報の生成を待ってカウンタにセットし
、それからカウントダウンを開始させることになる。こ
のため、パルスが発生するのは現フレームの開始点ｔ。

から現フレームのピッチ周期を経た時点１゜となる（第
３図（ａ））。なお、第３図は有声音フレームの直前の
フレームが無音もしくは無声音の場合の音声合成器の各
部の波形を示している。

一方、第２図においてインパルス発生器１０１の出力は
切換スイッチ１０２を経て乗算器１０３に入力される。

ここではフレーム音声特徴パラメータの一部として与え
られる音源強度、すなわち音源振幅情報がインパルス発
生器１０１の出力に乗ぜられ、有声音疑似音源として声
道フィルタ１ｏ４に入力される。先にも述べた通り乗算
器１０３に人力される振幅情報は、フレームパラメータ
として与えられる振幅を補間器１０５によって補間した
値であるが、第３図に示すように前フレームが無音であ
った場合、あるいは微小振幅の無声音であった場合、第
３図（ｂ）または（Ｃ）に示すように発声の立上がり部
分の振幅増加の度合はかなり大きくなる。これは音声の
特徴として、立下がり振幅変化は比較的ゆるやかである
が、発声の立上がり部分の振幅の増加は急峻だからであ
る。

第３図（ｂ）、（Ｃ）の立上がり部分の振幅増加がもっ
とゆるやかであれば問題はないのであるが、現実には上
記した理由で立上がり部分の振幅増加の度合がかなり大
きくなる。このため第３図（ａ）のパルス列に対する乗
算器１０３の疑似音源出力は、たとえ第３図（ｂ）、（
Ｃ）のようにフレーム間の不連続性を軽減するために振
幅補間を施したとしても、第３図（ｄ）に示すように、
ピッチ周期隔てた時点ｔ、での音源インパルスはかなり
の振幅を有することになる。

したがって、このような疑似音源を用いて生成された合
成音は第３図（ｅ）に示されるように振幅が急激に立ち
上がるため、合成音中に振幅の不連続による異音が混入
して合成音の品質が劣化する。

因に、この異音は一般的には「ブツッ」という音として
知覚される。例えば、ラジオやテレビの時報音は通常ｓ
ｉｎ波によって形成しているが、振幅を緩やかに上げて
から一定振幅にした後、緩やかに下げているので、その
立上がりや立下がり時には異音の発生はない。しかし、
急激に一定振幅に持って行ったり、急激に振幅を“０“
にすると、その立上がりや立下がりに「ブツッ」という
異音が発生する。これと同じ現象が音声合成においても
起こるのである。

この発明の目的は、無音から有音に切り換わった直後の
第１回目の音源励振位置をピッチ周期に拘束されないよ
うにすることによって、音源振幅の急激な変化による合
成音の劣化という従来技術の問題点を除去し、合成音の
品質を向上させる音声合成方法を提供することにある。

［課題を解決するための手段］この発明の音声合成方法は、フレーム周期毎にピッチ周
期を初めとする音声特徴パラメータを求め、前記パラメ
ータを用いてフレームを有声音フレームト無音フレーム
もしくは無声音フレームとに分け、無音もしくは無声音
フレームのときは無声音源を近似する音源信号を発生し
、有声音フレームのときは有声音源を近似する音源信号
をピッチ周期毎に同期させた音源励振位置で発生し、こ
れら音源信号に振幅補間を施して音声を合成するように
したものである。

このような方法において、特に前記フレームの状態が無
音フレームもしくは無声音フレームから有声音フレーム
に切り換わった直後の有声音フレームの少なくとも第１
回目の音源励振位置を、音源信号振幅の概形が滑らかに
変化するように前記有声音フレームの開始時点からピッ
チ周期に特定されない成る適当時間隔てた位置に設定す
るようにしたものである。

［作用］有声音源信号の振幅概形の急激な変化は無音→有声音、
無声音→有声音の切り換わりの有声音フレームの開始か
ら第１回目の音源信号の励振が発せられるまでの時間間
隔が長すぎることに起因している。

音声のピッチ周期はおおよそ２　ｍ５ｅｃ＝　ｌ　２ｒ
ａｓｅｃ程度に分布し、ピッチ周期が長い程この現象が
顕著に現れる。

従って無音→有声音、無声音→有声音の切り換わり直後
の有声音フレームに限り少なくとも第１回目の音源励振
位置をピッチ周期に特定せず、振幅概形が滑らかに変化
するような時間位置に予め設定することにより、前記の
問題は解消される。

この予め設定すべき時間間隔はピッチ周期の下限である
２　ｍ５ｅｃ前後に設定すれば、第１回目の音源励振位
置が有声音フレームの開始時点に近くなる。

したがって、有声音フレームの開始時点から振幅情報が
急激に立ち上がっても、その立上がりの初期に第１回目
の音源信号が発生する。その結果、音源信号の振幅がか
なり小さくなるため、合成音中の振幅の不連続による異
音は全く知覚されなくなる。

［実施例］以下、この発明の実施例を第１図、第４図〜第５図を用
いて説明する。なお、本実施例では無音→有声音、無声
音→有声音の切り換わり時についての音声合成について
説明するが、これは音声合成器の動作開始時点にも共通
する。

第１図はこの発明の音声合成方法を実施するための音源
パルス発生回路の一例を示す。ここで２００はピッチ周
期Ｔｐの入力端子、２０１は無音→有声音、無声音→有
声音の切り換わり直後の第１回目の音源励振位置を決め
る予め設定した時間長Ｔａ（例えば２　ｍ５ｅｃ）の入
力端子、２０２はセレクト信号に応じてＴｐまたはＴａ
を選択するセレクタ、２０３はセレクタ２０２のセレク
ト信号Ｓ１の入力端子、２０４はロードされた値をサン
プリングクロックＴに基づいてダウンカウントしてイン
パルス発生のタイミングを得るためのカウンタである。

２０５はカウンタ２０４の出力端子、２０６はカウンタ
２０４から出力されるパルス発生タイミング信号に応じ
て有声音の音源信号（音源パルス）を発生するパルス発
生回路、２０７は音源パルス（振幅情報を乗じる前の信
号）出力端子である。２１０はカウンタ２０４のパルス
発生タイミング信号が出力さてたとき、又はクロックＣ
Ｋ　Ｌが出力されたときセレクタ２０２の出力をカウン
タ２０４にロードする論理和回路である。

また、第５図は第１図の音源パルス発生回路における音
源パルス発生処理のタイムチャートである。第５図（ａ
）はサンプリングクロックＴ、第５図（ｂ）はカウンタ
２０４の内容をアナログ的に表示したグラフ、第５図（
Ｃ）はＣＫＬ、第５図（ｄ）はパルス発生タイミング信
号、第５図（ｅ）はセレクタ２０２のセレクト信号Ｓｌ
である。またＴｆはフレーム周期である。

以下、第１図、第５図に従ってフレームの状態が無音も
しくは無声音フレームから有声音フレームに変化した場
合の有声音源発生の動作について説明する。　まず始め
に、セレクト信号入力端子２０３に入力されるセレクト
信号Ｓ１および論理和回路２１０に入力されるＣＫＬに
ついて説明する。

セレクト信号Ｓ、はフレームの状態を示す信号となって
おりフレームが無声音あるいは無音のとき“■”で、セ
レクタ２０２はＡ人力すなわちＴａを選択し、有声音の
とき“０”となってＢ入力すなわちＴｐを選択する。た
だしこのフレーム状態信号であるセレクト信号Ｓｌは実
際のフレームに対して半周期（Ｔ／２）だけ遅らせであ
る。ＣＫ　Ｌによるカウンタ２０４へのロードを確実に
するためである。

一方、ＣＫＬは第５図（Ｃ）にそのタイミングを示して
いるが、無音→有声音あるいは無声音→有声音のフレー
ム切り換わり時の、有声音のフレーム開始時にのみ発せ
られる信号である。このＣＫＬは論理和回路２１０を経
てカウンタ２０４のロード信号となる。

従って、無音→有声音もしくは無声音→有声音切り換わ
り時における第１図の回路の動作は、有声音フレーム開
始時点ｔ０でＣＫ　Ｌ、により、カウンタ２０４にロー
ド信号が入力され、そのときセレクタ２０２はセレクト
信号Ｓ、により固定値Ｔａが選択されているためカウン
タ２０４ではＴａがセットされる。

カウンタ２０４はサンプリングクロックＴによりダウン
カウント動作を行い、カウンタ出力値が“Ｏ”になった
時、パルス発生タイミング信号Ｓ。

をカウンタ出力端子２０５から発する。すなわち、無声
音→有声音あるいは無音→有声音の変化時には、有声音
フレームの開始点ｔ。からＴａ時間経過した時点で、ま
ず第１の音源パルスがパルス発生回路２０６から発生さ
れる。パルス発生タイミング信号Ｓ、はパルス発生回路
２０６に入力されるとともに、論理和回路２１０を経て
カウンタ２０４のロード信号となる。

この時点（Ｔａ経過時点）ではセレクト信号ＳＩは既に
“Ｏ”となっており、以後有声音フレームが続く限りセ
レクタ２０２はその時点でのフレーム（現フレーム）の
ピッチ周期Ｔｐを選択し、その値をカウンタ２０４にロ
ードし、ピッチ周期毎に音源パルスが発せられる。

このようにして音源発生回路の動作により発せられた音
源パルスに、補間後の振幅情報を乗じた音源信号を第４
図に示す。同図に示されるように振幅情報を乗じた第１
回目の音源信号の振幅Ｖは小さなり、これに続く２回目
以降の音源信号から形成される振幅概形には急激な変化
がなく、これにより滑らかな合成音が生成可能となる。

以上述べたように本実施例によれば、無音→有声音、無
声音→有声音の切り換わり直後の有声音フレームにあっ
ては、第１回目の音源励振位置を、ピッチ周期情報の生
成を待つことなく、ピンチ周期よりも手前に設定するよ
うにしたので、音声情報振幅が急激に立ち上がっても、
その立上がりの低い段階でインパルスが発生するため、
音源インパルスの振幅は小さくなり、したがって、合成
音中に異音が混入して合成音の品質が劣化するというこ
とがない。

我々がおこなった実験によれば、第１回目の音源励振位
置を２　ｍ５ｅｃ前後に設定した場合には、合成音中の
振幅の不連続による異音は全く知覚されなかった。

なお、この発明は既述したＰＡＲＣＯＲ形やＬＳＰ形の
分析合成形式の外にホルマント形やケプストラム形等に
も適用できる。

また、上記実施例では音源パルス発生回路をセレクタ、
カウンタ、論理和回路、パルス発生回路、で構成したが
、本発明方法を実施するためにの回路は、このような構
成の回路に限定されるものではない。例えばピッチ周期
をカウンタにロードして、その値がカウントダウンによ
り０”になったとき、即ちピッチ周期と一致させて音源
パルスを発生させる方式ではなく、一致させな（でもピ
ッチ周期と同期させて音源パルスを発生させる方式の回
路であってもよい。また個別回路に代えてマイクロコン
ピュータで構成することもできる。

さらに、上記実施例ではｌピッチ周期の中で音源励振位
置をずらしたが、本発明はこれに限定されるこのではな
く、１ピッチ周期を越えて音源励振位置をずらすことも
可能である。

また、第１回目の音源励振位置のみをピッチ周期に拘束
されないようにしたが、滑らかな音源振幅が得られるの
であれば第２回目以降の音源励振位置も時間設定するよ
うにしてもよい。

［発明の効果］無声音フレームから有声音フレームに切り換わった直後
の有声音フレームの少なくとも第１回目の音源励振位置
を、音源信号振幅が滑らかに変化するように有声音フレ
ームの開始時点からピッチ周期に特定されない所定時間
隔てた位置に設定するようにしたので、音源信号の振幅
には急激な変化がなくなり、滑らかな合成音が生成でき
、合成音の品質を向上できる。

【図面の簡単な説明】

第１図は本発明による音源パルス発生回路の一実施例を
示すブロック図、第２図は一般的な音声合成器の構成を
示すブロック図、第３図は従来の合成音特性図、第４図
は本実施例による音源パルス特性図、第５図は音源パル
ス発生処理のタイムチャートである。１００は無声音源を近似する音源信号を発生する雑音発
生器、１０１は有声音源を近似する音源信号を発生する
インパルス発生器、１０５は振幅補間を行う補間器、■
は音源信号振幅、ｔｏは有声音フレームの開始時点、１
．は第１回目の音源励振位置、Ｔｆはフレーム周期、Ｔ
ｐ（Ｔｐｉ。Ｔｐｉ＋ｌ）はピッチ周期、Ｔａは所定時間である。浬− ト−

Claims

【特許請求の範囲】フレーム周期毎にピッチ周期を初めとする音声特徴パラ
メータを求め、前記パラメータを用いてフレームを有声
音フレームと無音フレームもしくは無声音フレームとに
分け、無音もしくは無声音フレームのときは無声音源を
近似する音源信号を発生し、有声音フレームのときは有
声音源を近似する音源信号をピッチ周期毎に同期させた
音源励振位置で発生し、これら音源信号に振幅補間を施
して音声を合成するようにした音声合成方法において、前記フレームの状態が無音フレームもしくは無声音フレ
ームから有声音フレームに切り換わった直後の有声音フ
レームの少なくとも第１回目の音源励振位置を、音源信
号振幅が滑らかに変化するように前記有声音フレームの
開始時点からピッチ周期に特定されない所定時間隔てた
位置に設定することを特徴とする音声合成方法。