JPS5925236B2

JPS5925236B2 - 音声合成器

Info

Publication number: JPS5925236B2
Application number: JP54145891A
Authority: JP
Inventors: 康彦新居
Original assignee: Matsushita Communication Industrial Co Ltd
Current assignee: Panasonic Mobile Communications Co Ltd
Priority date: 1979-11-09
Filing date: 1979-11-09
Publication date: 1984-06-15
Also published as: JPS5669695A

Description

【発明の詳細な説明】本発明は音声分析合成方式を用いた汎用性の高い音声合
成器に関するものである。

第１図はラテイスフイルタの構成要素であつて、１０１
は前段からの信号が加わる入力端子、１０２は前段への
フィードバック端子、１１１および１１２はそれぞれ加
算器、１２１および１２２はそれぞれ乗算器、１４０は
フィルタの伝達特性を与える反射係数の入力端子、１３
１は後段への出力端子、１３２は後段からのフィードバ
ック端子、１５０は遅延素子である。

このような構成要素を複数段梯子状に接続することによ
り種々の伝達特性を有するデジタルフィルタが構成され
る。

ところ。でこのようなデジタルフィルタは従来、主に大
型の計算機、あるいは高速のマイクロコンピュータにプ
ログラムすることによつて実現されていた。以下、この
ようなデジタルフィルタを音声合成器に用いた場合につ
いて説明する。

前段からの入力信号をＡｎ＋１（ｉ）、前段へのフィー
ドバック信号をＢｎ＋１（ｉ）、後段への出力信号をＡ
ｎ（ｉ）、後段からのフィードバック信号をＢｎ（ｉ）
とすれば次式が成立する。

Ａｎ（ｉ）■ Ａｎ＋１（ｉ）＋ＫｎＢｎ（ｉ−１）・
・・・・・〔１〕Ｂｎ＋１（ｉ）■Ｂｎ（ｉ−１）−Ｋ
ｎＡｎ（ｉ）・・・・・・２ここで、ｎ ■１｜２｜３
・・・・・・・・・ＮＫｎ＝第ｎ段フィルタに与える反
射係数ｉ■時間サイクルである。

音声を合成する場合、初段のフィードバック端子は開放
、最終段（ｎ＝１）の出力端は短絡とし、かつ、声道の
伝達特性を表わすような反射係数Ｋｎが与えられる。通
常このＫｎは実際の音声を線形予測分析することによつ
てあらかじめ決定しておく方法（分析合成の手法）が採
られている。また、Ｎは１０程度で極めて自然性の高い
合成音が得られることがコンピユータシシユレーシヨン
によつて明らかにされている。式１，２を演算する際ｎ
−Ｎから順次Ｎ−１，Ｎ−２，・・・２，１の順序で演
算を行ない、最終段出力Ａ１（１）がフイルタ・の出力
信号となる。フイルタを駆動する入力信号（，駆動信号
）は、Ａｎ＋，（１）として印加する。１駆動信号は、
無声音を合成する場合には白色雑音、有声音を合成する
場合には周期性のパルス信号などが使用されている。

第２図はＮ＝１０とした時の上記の音声合成フイルタの
全体構成であつて、２００は駆動信号発生器、３００は
出力端子である。

第２図のフイルタをデジタル回路で実現する場合、１９
回の乗算と１９回の加算が必要となる。

通常は高速の乗算器と加算器を用いて繰返し演算する方
法が採られる。今、合声音声の信号帯域巾を５ＫＨｚと
すれば時間サイクルは１００μｓとなり、式〔１〕およ
び〔匂の計算をｎ−１０からｎ＝１にわたつて１００ｔ
ｔｓ以内に完了しなければならない。従つて乗算時間が
Ｔｍｌ加算時間がＴａのとき、１９（Ｔｍ＋Ｔａ）く１
００（μｓ）・・・・・・〔Ｊでなければならない。

即ち、Ｔｍ＋Ｔａく５．２６３（μｓ）を満足させなければならない。

乗算と加算を並列に実行して加算時間がほぼ無視できた
としても、乗算を５μｓ程度で実行しなければならない
。高速乗算ＬＳＩを利用すれば、２００ｎｓ程度で乗算
が実行できるが、消費電力が数ワツトに及び、全く実用
的でない。一方、特開昭５４−７８３８号公報に記載さ
れたデジタルフイルタによれば、バイブライン処理方式
による乗算器を用いて、みかけ上の乗算速度を５μｓと
しているが、乗算器の構成が極めて複雑となり、従つて
制御回路も増加する欠点を有している。また、上記公開
特許公報による「デジタルフイルタ」では有声音の合成
に用いる駆動波形がリードオンリーメモリ（ＲＯＭ）に
記憶されており、変更が容易でない。さらに、反射係数
Ｋｎなどのパラメータを符号化する際のビツト割当てが
一義的に固定化されているために音声品質が固定化され
、応用面での汎用性に欠く難点があつた。この種の合成
器を、電話用自動応答装置、あるいは駅や空港における
自動案内放送装置に応用する場合、極めて高品質の音声
を出力することが要求され、かつ男声、女声、日本語、
英語、のように多彩な音声を出力できることが要求され
る。

本発明は全ての演算を１個の加算器を用いて時分割で処
理する方式を採用して回路構成を単純化すると共に、た
とえばパラメータのデコードおよびパラメータの伝送制
薗を汎用マイクロフンピユータで行なうようにして、音
声品質とコストのバランスが目的ごとに最適化できると
共に書き換え可能な駆動波形メモリを内蔵して、声質（
男声、女声、英語、日本語などによる声の相違）に合せ
て最適な駆動波形がマイクロコンピユータより随時転送
できるようにして、汎用性の高い音声合成器を実現しよ
うとするものである。以下、実施例とともに説明する。

第３図は全体システムの構成図であつて、１０は起動入
力端子、１１は汎用マイクロコンピユータ、１２はパラ
メータメモリ、１３は音声合成器、１４はＤＡ変換器、
１５は低域淵波器、１６は合成音声出力端子である。次
にこの実施例の動作について説明する。

マイクロコンピユータ１１は初期設定モードでパラメー
タメモリ１２から駆動波形を読み出して、合成器１３へ
転送した後、待ち状態となる。起動入力端子１０から信
号が入力されると、マイクロコンピユータ１１はパラメ
ータメモリ１２から音源パラメータ（音源のピツチおよ
び振巾を決定するパラメータ）およびラテイスフイルタ
の特性を決定するＫパラメータ（反射係数）を読み出し
て合成器１３へ転送する。なおこれらのパラメータはあ
らかじめ自然音声から抽出してパラメータメモリ１２に
格納しておく。合成器１３に各バラメータが転送される
と、第１式および第２式に従つて音声を合成し、順次Ｄ
Ａ変換器１４へ出力する。ＤＡ変換された合成音声信号
は低域済波器１５でスムージングし、出力端子１６より
取り出すようにしてある。なおマイクロコンピユータ１
１から合成器１３へ転送するパラメータは１２種であり
、前述のように、これらのパラメータは自然音声から抽
出しておくものである。

例えば、自然音声をサンプリング周波数１０ＫＨｚでＡ
Ｄ変換（１２ビツトＰＣＭ）した後、３０ｍｓの窓関数
を掛け、これを２０ｍｓ（フレーム周期）づつ移動させ
ながら分析する方法がとられる。フレームごとに抽出さ
れるパラメータはピツチパラメータ、振巾パラメータ、
および１０個のＫパラメータ（反射係数）である。これ
らのパラメータは２０ｍｓ（フレーム周期）ごとにマイ
クロコンピユータ１１から合成器１３へ転送する。また
、パラメータメモリ１２にはそれぞれのパラメータを符
号化して格納しておく。

例えば、ピツチパラメータには５ビツト、振巾パラメー
タには６ビツト、ＫパラメータにはＫ１から順に７，６
，５，４，４，４，３，３，３，３ビツトの符号が割当
てられる。フレーム周期、および各パラメータのビツト
配分は合成品質を規定する。特に、フレーム周期および
Ｋパラメータは合成品質を左右する重要なパラメータで
ある。ところで、合成品質を高くするためには、フレー
ム周期を１０ｍｓあるいは５ｍｓと短くし、Ｋパラメー
タに多くのビツト（例えば、１０，８，６，６，６，５
，５，５，４，４ビツト）を割当てる必要がある。従つ
て一定長（例えば１秒）の音声を合成するために必要な
パラメータメモリの記憶容量が増大して、コスト高とな
る。本実施例では任意のビツト配分に対するデコード、
および各種のフレーム周期（異なるフレーム周期の混在
を含む）に対するパラメータ伝送制御を全てマイクロコ
ンピユータ１１で行なうようにして、合成品質とコスト
のバランスが目的ごとに最適化できるようにしている。
マイクロコンピユータ１１のプログラムは全ての場合に
対処できるよう共通化（汎用化）し、パラメータメモリ
１２の記憶形式によつて、マイクロコンピユータ１１が
自動的に判断して処理できるようにしている。第４図は
合成器１３の内部構成を示すものである。

マイクロコンピユータ１１から転送される駆動波形は入
力端子１から駆動波形メモリ（ＥＸｉＭ）へ書き込まれ
、１２個のパラメータは入力端子２から第１のパラメー
タメモリ（ＰＭｌ）へ書き込まれるよらにしてある。第
２のパラメータメモリ（ＰＭ２）は合成演算に使われる
パラメータを記憶しておくためのもので、言い換えれば
フレーム間を２．５ｍｓごとにパラメータ補間した値を
記憶しておくためのものである。各パラメータはフレー
ムごとに一定の値であるが、なめらかな合成音声を得る
ために、通常２．５ｍｓごとに直線補間したものが使わ
れる。本実施例における補間は以下のように行なわれる
。

今、あるパラメータの現在値をａ１次フレームの値をｂ
とし、フレーム間をＬ点補間するものとし、第１番目の
補間値をＣｌとすると、である。

第４式では、Ａ，ｂ，Ｃｎ，．ｌおよびＬを記憶するメ
モリを必要とする。パラメータは全部で１２個（フレー
ム当り）であるから、Ａ，ｂ，Ｃｌにはそれぞれ１２語
のメモリ（合計３６語）が必要である。ただし１とＬは
パラメータごとに共通に使用できるから２語で済む。本
実施例ではパラメータメモリを削減するため、第４式か
ら次式を導出する。

即ち、従つて、を得る。

第５式を用いれば、パラメータメモリは、ｂ（５Ｃ１の
２種類（合計２４語）で良く、パラメータメモリＰＭｌ
とＰＭ２を用いた第４図の構成でパラメータ補間が可能
となる。第４図で０Ｒゲート（０Ｒ２）はパラメータメ
モリＰＭｌの内容（ｂに相当する）を直接パラメータメ
モリＰＭ２へ転送する場合（補間演算不要の場合）と、
補間演算結果をＰＭ２へ格納する場合の切換ゲートであ
る。１−Ｌの時はＣＬ−ｂであり、補間演算は不要であ
る。

この場合、ゲート０Ｒ２を通して、パラメータメモリＰ
Ｍｌの内容を直接ＰＭ２へ転送するようにしている。と
ころで、補間すべきパラメータは１２個あり、１個の補
間演算には、減算２回加算１回、除算１回が必要であり
、１サンプリ当り１００μｓしかない合成演算（第１式
および第２式の演算）の合間に１２回の補間演算を行な
うことは、到底不可能である。

シヨツトキ一ＴＴＬを用いて高速処理する場合でも、ク
ロツク周波数は高々５ＭＨｚであり、１０段のラテイス
フイルタ演算（合成演算）に８０μｓ〜９０μｓを要し
、１００ｔｔｓ内では１回の補間演算しか実行できず、
全てのパラメータの同時補間（見かけ上の）は不可能で
ある。ところで本実施例では１００μｓまたは２００μ
ｓごとにパラメータを１個づつ補間するようにしている
。２００μｓに１個づつ補間する場合、全てのパラメー
タが補間されるまで２．４ｍｓを要するが、これは２．
５ｍｓの補間周期以内であり、タイミング的には全く問
題ない。

それぞれのパラメータが時間差を持つて補間されること
による合成音声の品質劣化をコンピユータシミユレーシ
ヨンで確認したが、同時に補間した場合と全く遜色ない
ことがわかつた。マイクロコンピユータ１１からパラメ
ータメモリＰＭｌおよびＰＭｌからＰＭ２へのパラメー
タ転送タイミングは、全て補間演算タイミングに合せ、
各パラメータを１００ｔｔｓまたは２００μｓづつ遅ら
せて順に転送するようにしている。

第４図におけるピツチコントローラ（ＰＣＮＴ）は、パ
ラメータメモリＰＭ２から読み出したピツチパラメータ
を記憶するラツチと、駆動波形メモリ（ＥＸｉＭ）の１
番地指定を行なうアドレスカウンタ、およびアドレス比
較器で構成され、ピツチパラメータで指定された時間長
を有する駆動波形をメモリＥＸｉＭから読み出すように
メモリＥＸｉＭの番地を制両する。ピツチパラメータ１
０Ｆ？の時は０Ｒゲート（０Ｒ１）をランダム雑音発生
器（ＲＮ４）側に切換えるようにしている。一方ピツチ
パラメータが１７０１の時は音源が無周期性であること
を意味し、従つてランダム雑音でラテイスフイルタを駆
動するようにしている。ゲート０Ｒ１の出力とパラメー
タメモリＰＭ２に記憶されている振巾パラメータの積が
第１式におけるＡｎ＋１（１）であり、この乗算は演算
器（ＡＬｕ）で行なうようにしている。即ち、ゲート０
Ｒ１の出力を０Ｒゲート（０Ｒ３）を経て演算器ＡＬｕ
のＹ端子に入力し、パラメータメモリＰＭ２から読み出
した振巾パラメータを演算器（ＡＬｕ）のＸ端子に入力
し、両者の積をＺ端子から取り出して一時記憶レジスタ
（ＴＲＥＧ）に格納するようにしている。遅延反射信号
メモリ（ＢＳＴＣ）は１０個のメモリで構成され、第１
式、第２式におけるＢｌＯ（１一１），Ｂ９（１−１）
，・・・，Ｂ１（１−１）を記憶しておくために使用す
る。

Ｂｎ（１−１）はＢｎ（１）を１００！Ｔｓ遅らせた値
であり、１サイクル（１００μｓ）前の時間サイクルに
第２式によつて算出された値である。次に第１式の演算
手順について説明する。

前述のようにＡｎ＋１（１）はレジスタＴＲＥＧに、ま
た、Ｂｎ（１−１）はメモリＢＳＴＣに格納されている
。ここでメモリＰＭ２からＫｎを読み出して演算器ＡＬ
ｕ（１）Ｘ端子から入力し、続いてＢＳＴＣからＢｎ（
１−１）を読み出して０Ｒゲート（０Ｒ３）を通して演
算器（ＡＬｕ）のＹ端子から入力して両者の乗算を行な
う。結果は演算器ＡＬｕ内部のＢ１およびＣレジスタに
セツトされるようにしてある。ＢおよびＣレジスタはシ
フトレジスタで構成し、乗算結果の有効ビツトのみがＢ
レジスタにセツトできるようにしてある。有効ビツトを
Ｂレジスタにセツトした後（即ち、Ｋｎ−Ｂｎ（１−１
）をＢレジスタにセツトした後）ＴＲＥＧよりＡｎ＋１
（１）を読み出して演算器ＡＬｕのＹ端子より入力して
加算を行なう。この時、Ｙ端子からの入力は演算器ＡＬ
ｕ内部のＡレジスタにセツトされ、Ａレジスタの内容と
Ｂレジスタの内容を加算すると、加算結果がＢレジスタ
にセツトされるようにしてある。従つてＫＯ・ＢｎＧ−
１）＋Ａｎ＋１（１）がＢレジスタにセツトされる。こ
こでＢレジスタの内容をレジスタ（ＴＲＥＧ）へ転送し
、Ａｎ＋１（１）をＡ。（１）に更新する。続いて第２
式の演算手順について説明する。まずメモリ（ＰＭ２）
からＫｎを読み出して演算器ＡＬｕ（７）Ｘ端子から入
力し、続いて、ＡｎをレジスタＴＲＥＧから読み出して
ゲート０Ｒ３を経て演算器ＡＬｕＯ）Ｙ端子から入力し
て両者の乗算を行なう。乗算結果の有効ビツトがＢレジ
スタにセツトされた後、メモリＢＳＴＣよりＢＯ（１−
１）を読み出して、ゲート０Ｒ３を経て演算器ＡＬｕの
Ｙ端子へ入力する。Ｙ端子からの入力は演算器ＡＬＵ内
部のＡレジスタにセツトされる。ここで、Ａレジスタの
内容からＢレジスタの内容を減算する。その結果は、Ｂ
レジスタにセツトされるようにしてあるから、Ｂｎ（１
−１）−Ｋｎ−Ａｎ（１）すなわち、Ｂｎ＋１（１）が
Ｂレジスタにセツトされる。これをＺ端子より取り出し
て、（ＢＳＴＣ）へ格納し、Ｂｎ＋１（１−１）の値を
更新する。以上のような、合成演算処理をｎ＝１０から
順に、ｎ−１まで繰返すごとに、合成音声データが１個
づつ得られる。第２図に示した通り、出力データはＡ１
（１）（これはＢ１（１）に等しい）であり、Ａ１（１
）は第４図のＺ端子より取り出して出力レジスタ０ＲＥ
Ｇにセツトするようにしている。ここで音声分析の際の
サンプリング周波数を１０ＫＨｚとすれば、合成音声デ
ータが１００μｓの時間サイクルごとに出力されること
になる。なお、演算器（ＡＬｕ）はＡ，Ｂ，Ｃの各レジ
スタおよび１個の並列加算器で構成されている。

Ｘ端子からの入力はＣレジスタにセツトし、Ｙ端子から
の入力はＡレジスタにセツトするようにしている。Ａレ
ジスタの内容とＢレジスタの内容を並列加算器で加算し
、その結果はＢレジスタにセツトする。減算は減数の補
数を被減数に加算する方法を採用しており、Ａレジスタ
の内容からＢレジスタの内容を減算した結果をＢレジス
タにセツトする。Ｂレジスタの内容からＡレジスタの内
容を減算した結果も、同様にＢレジスタにセツトする。
乗算はブースの２次のアルゴリズムを用いて、加算およ
び減算に置き換えて実行している。Ｂ，Ｃレジスタに乗
算結果が得られる。除算は減算を繰返すことによつて実
現している。次に制御方式の概要について説明する。

第４図において、ＣＧＥＮはクロツク発生器で、基本ク
ロツク（５ＭＨｚ）およびこれを分周した複数個の信号
を出力するようにしている。ＣＭＥＭは制圓情報メモリ
で、先に詳述した演算手順に従つて合成器が動作するよ
うに制脚タイミングを規定するためのものである。ＴＤ
ＥＣはタイミングデコーダで、メモリＣＧＥＮの内容に
従つてその出力をデフードして全体の制御信号を作り出
すためのものである。以上実帷例により説明したが、本
発明ｌ計戴的単純な回路構成の音成合成器と内用マソク
ロコンピユータの組合せにより、極めて汎用性の高い音
成合成システムが実現でき、駅や空港における自動案内
放送装置のように高品質の合成音が要求される場合はも
ちろんのこと、玩具等の広汎な製品に応用できる。

【図面の簡単な説明】

第１図はラテイスフイルタの構成要素のプロツク図、第
２図は従来の音声合成フイルタの構成図、第３図は本発
明の一実施例による音成合成器を用いた装置のプロツク
図、第４図は本発明の一実施例による音成合成器のプロ
ツク図、第５図はパラメータ補間の説明図である。ＡＬＵ・・・・・・演算器、ＰＭｌ，ＰＭ２・・・・・
・パラメータメモ１八０Ｒ１，０Ｒ２，０Ｒ３・・・・
・・０Ｒゲート。

Claims

【特許請求の範囲】

１第１および第２の入力端子を有し、１個の並列加算
器および複数個のレジスタで構成される四則演算器と、
入力端が前記四則演算器の出力端子に接続され、かつ出
力端子が第１のＯＲゲートを介して上記四則演算器の第
２の入力端に接続された１語長の一時記憶レジスタ、お
よび同様に接続されたｎ語長（ｎは正整数）の遅延反射
信号メモリと、外部から書き換え可能なｍ語長（ｍは正
整数）の駆動波形メモリおよびランダムパルス発生器と
を有し、上記駆動波形メモリおよびランダムパルス発生
器の出力を第２のＯＲゲートおよび上記第１のＯＲゲー
トを介して上記四則演算器の第２の入力端に接続し、外
部から入力される制御パラメータを記憶する（ｎ＋２）
語長の第１のパラメータメモリおよび補間されたパラメ
ータを記憶する（ｎ＋２）語長の第２のパラメータメモ
リを有し、第１のパラメータメモリの出力端を上記第１
のＯＲゲートを介して上記四則演算器の第２の入力端に
接続すると共に第３のＯＲゲートを介して第２のパラメ
ータメモリの入力端に接続し、上記四則演算器の出力端
を前記第３のＯＲゲートを介して第２のパラメータメモ
リの入力端に接続し、第２のパラメータメモリの出力端
を上記四則演算器の第１の入力端に接続すると共に第１
のＯＲゲートを介して上記四則演算器の第２の入力に接
続して成る音声合成器。