JPH05333900A

JPH05333900A - 音声合成方法および装置

Info

Publication number: JPH05333900A
Application number: JP4137177A
Authority: JP
Inventors: Yoshiyuki Hara; 義幸原; Tsuneo Nitta; 恒雄新田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1992-05-28
Filing date: 1992-05-28
Publication date: 1993-12-17
Anticipated expiration: 2015-09-04
Also published as: US5615300A; JP3083640B2

Abstract

(57)【要約】【目的】音声合成に要する時間と合成音声の品質を任意
に変えることができるようにする。【構成】音声合成の対象とする漢字かな混じりの文字コ
ード列と次数Ｎを示す次数情報を入力部１により入力
し、言語処理部３にて、単語辞書２をもとに入力文字コ
ード列に対応する音韻系列と韻律情報を生成し、合成パ
ラメータ生成部５において、その音韻系列に対応する音
韻のケプストラムパラメータを、入力部１からの次数情
報の示す次数分だけ音声素片ファイル４より抽出して音
韻パラメータを生成すると共に、その韻律情報に対応す
る韻律パラメータを生成する。この音韻パラメータと韻
律パラメータを音声合成部６に入力して、この音韻パラ
メータと韻律パラメータをもとに、入力部１からの次数
情報の示す次数の合成フィルタリングを実行し、合成音
声を生成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は文字コード列、または韻
律情報と音韻系列とから合成音声を生成する音声合成方
法および装置に関する。

【０００２】

【従来の技術】近時、漢字かな混じりの文を解析し、そ
の文が示す音声情報を規則合成法により音声合成して出
力する音声合成装置が種々開発されている。そして、こ
の種の音声合成装置は、銀行業務における電話紹介サー
ビスや、新聞校閲システム、文書読み上げ装置等として
幅広く利用され始めている。

【０００３】この種の規則合成法を採用した音声合成装
置は、基本的には人間が発声した音声を予めある単位、
例えばＣＶ（子音、母音）、ＣＶＣ（子音、母音、子
音）、ＶＣＶ（母音、子音、母音）、ＶＣ（母音、子
音）毎にＬＳＰ（線スペクトル対）分析やケプストラム
分析等の手法を用いて分析して求められる音韻情報を音
声素片ファイルに登録しておき、この音声素片ファイル
を参照して音声パラメータ（音韻パラメータと韻律パラ
メータ）を生成し、これらの音声パラメータをもとにし
て音源の生成と合成フィルタリング処理を行うことによ
り合成音声を生成するものである。

【０００４】従来、このような音声合成装置は、リアル
タイムに処理するために専用のハードウェアを必要とし
ている。この音声合成装置のシステム構成には大きく分
けて次の２種がある。

【０００５】第１の構成は、パーソナルコンピュータ
（ＰＣ）などのホスト計算機が漢字かな混じり文を韻律
情報と音韻系列に変換し（言語処理）、専用のハードウ
ェアで合成パラメータの生成、音源の生成、合成フィル
タリング、Ｄ／Ａ（ディジタル／アナログ）変換を行う
ものである。これに対して第２の構成は、漢字かな混じ
り文から音声を生成するまでの全ての処理を専用のハー
ドウェアで行うものである。いずれの構成における専用
ハードウェアも、積和演算が高速なＤＳＰ（ディジタル
・シグナル・プロセッサ）と呼ばれるＬＳＩと汎用のＭ
ＰＵ（マイクロプロセッサユニット）で構成されるのが
殆どである。

【０００６】一方、パーソナルコンピュータ（ＰＣ）や
エンジニアリング・ワーク・ステーション（ＥＷＳ）の
処理能力が高まったことと、標準でＤ／Ａ変換器、アナ
ログ出力部およびスピーカを搭載したことで、上記の処
理をリアルタイムにソフトウェアで行えるようになりつ
つある。

【０００７】このようなシステムでは、処理中のタスク
が少ない場合は問題ないが、タスクが多い場合はリアル
タイムに音声合成されないことが少なくない。そのた
め、発声単語の途中で無音区間が挿入され、非常に聞き
づらい音声となっていた。これは、音声合成に要する時
間が一定のため、少ないタスクでリアルタイム動作して
いても、タスクが多くなるとそれだけ他のタスクにＣＰ
Ｕの実行時間を取られるために起こるものである。

【０００８】ところで、現在の規則合成法を採用した音
声合成装置で生成される音声の声質を変えるものとし
て、男／女／子供／老男／老女、発話速度、声の高さ
（基本ピッチ、平均ピッチ）、ストレスレベル等があ
り、自分の好みにあった音声を選択できるようになって
いる。しかし、それらの選択では音声の声質は変えるこ
とができても品質そのものを変えることはできなかっ
た。

【０００９】現在は、明瞭度の高い「ハキハキ」とした
合成音声を生成するものがほとんどであるが、このよう
な合成音声は初めて聞く人に対してはなじみ易いが、合
成音声に対して慣れている者が長時間聞いている場合に
は疲れ易いという不具合もあった。

【００１０】

【発明が解決しようとする課題】このように上記した従
来の音声合成技術にあっては、音声合成に要する時間が
一定であったために、タスクが少ないときにはリアルタ
イムに音声合成できていたものが、タスクが多い場合に
はリアルタイムにできない等の不具合がある他、合成音
声の品質が固定であったため、長時間の使用には向いて
いない等の不具合があった。

【００１１】本発明はこのような事情を考慮してなされ
たもので、その目的とするところは、合成フィルタリン
グの次数を変えることによって、音声合成に要する時間
と合成音声の品質を任意に変えることができる音声合成
方法および装置を提供することにある。

【００１２】本発明の他の目的は、合成フィルタリング
に用いる合成器の構成を変えることによって、音声合成
に要する時間と合成音声の品質を任意に変えることがで
きる音声合成方法および装置を提供することにある。

【００１３】本発明の更に他の目的は、音声合成処理を
ＣＰＵ処理により行う場合に、ＣＰＵ使用率に応じて合
成フィルタリングの次数、あるいは合成器の構成を変え
ることによって、リアルタイム性を確保しつつ品質の高
い合成音声が生成できる音声合成方法および装置を提供
することにある。

【００１４】

【課題を解決するための手段】本発明に係る音声合成方
法および装置は、音韻パラメータの次数、あるいは合成
音の品質を表す情報を入力し、音韻系列と韻律情報に従
って生成された音韻パラメータと韻律パラメータをもと
に、この入力情報に応じた次数の合成フィルタリングを
実行して合成音声を生成するようにしたことを特徴とす
るものである。

【００１５】また本発明は、音声合成に用いる合成器の
構成を表す情報を入力し、この情報に応じた構成の合成
器を用いて合成フィルタリングを実行するようにしたこ
とをも特徴とする。

【００１６】また本発明は、音声合成処理を特定のタス
ク処理で実行するＣＰＵの使用率を任意のタイミングで
抽出し、そのＣＰＵ使用率に応じた合成器の構成、ある
いは音韻パラメータの次数を決定して、合成フィルタリ
ングに用いるようにしたことも特徴とする。

【００１７】

【作用】上記の構成においては、合成器（合成フィル
タ）の構成、音韻パラメータの次数、あるいは合成音の
品質を表す情報に従って、合成フィルタに入力される音
韻パラメータの次数が変えられて、あるいは使用する合
成フィルタの種類が切り換えられて、合成フィルタリン
グが実行される。また、これらの切り換えは、任意のタ
イミングで抽出されるＣＰＵ使用率に応じて行うことも
可能である。

【００１８】このように、本発明によれば、合成フィル
タに入力される音韻パラメータの次数、あるいは使用す
る合成フィルタの種類を変えることによって、同フィル
タにおける計算量を増減することができる。特に、これ
らの切り換えをＣＰＵ使用率に応じて行う場合には、音
声合成処理の処理速度をＣＰＵ負荷の変動に応じてダイ
ナミックに増減することができる。

【００１９】したがって、合成フィルタリングを含む音
声合成処理が、マルチタスクを実行するＣＰＵの特定の
タスク処理によって行われるシステムでは、任意のタイ
ミングでＣＰＵの使用率を抽出し、稼動する他のタスク
が少ないとき（あるいはＣＰＵの能力が高いとき）には
高い次数を、逆に稼動する他のタスクが多いとき（ある
いはＣＰＵの能力が低いとき）は低い次数をダイナミッ
クに選択することによって、リアルタイム性を確保しな
がら高品質の合成音声を生成することが可能となる。

【００２０】

【実施例】

［第１実施例］まず、本発明の第１実施例を説明する。
図１は同実施例に係る音声合成装置の概略構成を示すブ
ロック図である。

【００２１】図１に示す音声合成装置は、音声合成の対
象とする漢字かな混じりの文字コード列と、合成音声の
制御情報の入力を司る入力部１を有する。この制御情報
は、例えば後述する音声合成部６内の合成フィルタに入
力すべき合成パラメータの次数Ｎを選択指定するための
情報（次数情報）からなる。

【００２２】図１に示す音声合成装置はまた、音声合成
の対象となる単語や句等についてのアクセント型、読
み、品詞情報等が予め登録されている単語辞書２と、入
力部１により入力された文字コード列を単語辞書２を用
いて解析し、対応する音韻系列および韻律情報を生成す
る言語処理部３とを有する。

【００２３】図１に示す音声合成装置はまた、予め任意
の音声単位毎に入力音声を分析することにより求められ
たケプストラムパラメータ群、およびケプストラムパラ
メータの次数を表す情報が格納されている音声素片ファ
イル４と、言語処理部３にて生成された音韻系列および
入力部１からの次数情報に従う音韻パラメータ（ここで
は、音韻のケプストラムパラメータ）の生成を行う合成
パラメータ生成部５とを有する。合成パラメータ生成部
５は、言語処理部３にて生成された韻律情報に従う韻律
パラメータの生成も行う。

【００２４】図１に示す音声合成装置は更に、合成パラ
メータ生成部５によって生成された音韻パラメータ、そ
の次数情報および韻律パラメータをもとに、音源の生成
と、次数Ｎ分の合成フィルタリング処理を行って合成音
声を生成する音声合成部６と、音声出力用のスピーカ７
とを有する。なお、音声合成部６において合成音声をア
ナログ信号に変換するためのＤ／Ａ変換器などは省略さ
れている。

【００２５】以上の構成の音声合成装置は、マルチタス
クを実行するパーソナルコンピュータ（ＰＣ）やエンジ
ニアリング・ワーク・ステーション（ＥＷＳ）によって
実現されるもので、入力部１、言語処理部３、合成パラ
メータ生成部５および音声合成部６（内の音源生成、フ
ィルタリング処理部分）は、ＣＰＵのプログラム処理
（音声合成処理用タスクの実行）によって実現される機
能ブロックである。次に、図１に示す音声合成装置の全
体の動作を説明する。

【００２６】まず入力部１により、音声合成の対象とす
る漢字かな混じりの文字コード列と、次数Ｎを示す次数
情報が入力される。言語処理部３は、入力部１により入
力された文字コード列と単語辞書２とを照合し、この入
力文字コード列が示す音声合成の対象となっている単語
や句等についてのアクセント型、読み、品詞情報を求
め、その品詞情報に従うアクセント型・境界の決定、お
よび漢字かな混じり文の読みの形式への変換を行い、音
韻系列と韻律情報を生成する。

【００２７】言語処理部３によって生成された音韻系列
と韻律情報は合成パラメータ生成部５に与えられる。こ
の合成パラメータ生成部５には、入力部１により入力さ
れた次数情報も与えられる。

【００２８】合成パラメータ生成部５は、音韻系列に対
応する音韻のケプストラムパラメータを、入力部１から
与えられる次数情報の示す次数Ｎ分だけ音声素片ファイ
ル４より抽出して音韻パラメータを生成する。同時に合
成パラメータ生成部５は、韻律情報に従って韻律パラメ
ータを生成する。

【００２９】音声合成部６は、合成パラメータ生成部５
によって生成された音韻パラメータおよび韻律パラメー
タを、入力部１から与えられる次数情報と共に入力して
一時保持する。そして音声合成部６は、入力した音韻パ
ラメータおよびその次数情報と韻律パラメータとに従
い、音源の生成とディジタルフィルタリング処理とを行
うことにより、前記の入力文字コード列に示される合成
音声を生成し、図示せぬＤ／Ａ変換器によりアナログ信
号に変換してスピーカ７に出力する。このようにして、
入力部１により入力された漢字かな混じりの文から音声
が生成されスピーカ７から出力される。次に、図１の音
声合成部６の詳細な処理について、図２のフローチャー
トを参照して説明する。

【００３０】まず音声合成部６は、フレーム番号を示す
カウンタ変数「ｊ」に「１」を、１フレーム当りの処理
すべきサンプル数の残りを示すカウンタ変数「ｉ」に
［フレーム周期］／［サンプリング周期］＝Ｐを、それ
ぞれ初期値として設定する（ステップＳ１，Ｓ２）。こ
こで、［サンプリング周期］は、図示せぬＤ／Ａ変換器
のクロックの周期に一致する。

【００３１】次に音声合成部６は、入力部１から与えら
れる次数情報に従い、合成パラメータ生成部５より入力
して保持しておいた音韻パラメータと韻律パラメータの
中から、同情報で示される次数Ｎに対応する１フレーム
分（フレーム番号は「ｊ」）の音韻パラメータＣ0 〜Ｃ
N と韻律パラメータとからなる合成パラメータＲj を選
択的に入力する（ステップＳ３）。

【００３２】次に音声合成部６は、音韻パラメータＣ0
と韻律パラメータを用いて１サンプル分の音源データの
生成（音源生成）を行う（ステップＳ４）。そして音声
合成部６は、生成された１サンプル分の音源データを入
力として音韻パラメータＣ1〜Ｃ6 を用いてフィルタリ
ング（ディジタルフィルタリング）を実行する（ステッ
プＳ５）。

【００３３】音声合成部６は、ステップＳ５のフィルタ
リング処理を終了すると、入力部１から与えられた次数
情報の示す次数Ｎが「６」か否かを判定し（ステップＳ
６）、「６」のときはステップＳ５で生成された１サン
プリングデータ（音声データ）を出力する（ステップＳ
１０）。

【００３４】これに対し、次数Ｎが「６」以外のとき
は、音声合成部６は、ステップＳ５で生成されたデータ
を入力として音韻パラメータＣ7 〜Ｃ10を用いてフィル
タリングを実行する（ステップＳ７）。そして音声合成
部６は、上記次数情報の示す次数Ｎが「１０」か否かを
判定する（ステップＳ８）。

【００３５】音声合成部６は、ステップＳ８の判定の結
果、次数Ｎが「１０」であれば、上記ステップＳ１０の
１サンプリングデータ出力処理へジャンプする。これに
対し、次数Ｎが「１０」以外であれば、音声合成部６
は、上記ステップＳ７で生成されたデータを入力として
音韻パラメータＣ11〜Ｃ20のフィルタリングを実行し
（ステップＳ９）、しかる後にステップＳ１０の１サン
プリングデータ出力処理へ移る。

【００３６】このように本実施例では、次数情報の示す
次数Ｎが「６」のときはＣ1 〜Ｃ6のフィルタリング
を、「１０」のときはＣ1 〜Ｃ10のフィルタリングを、
それ以外のときはＣ1 〜Ｃ20のフィルタリングを実行す
る。

【００３７】音声合成部６は、ステップＳ１０の１サン
プリングデータ出力処理を終了すると、カウンタ変数
「ｉ」を「１」だけ減算し（ステップＳ１１）、この
「ｉ」が「０」より大きいか否かを判定する（ステップ
Ｓ１２）。もし、「ｉ」が「０」より大きいならば、音
声合成部６は、次の１サンプル分の音源生成と次数Ｎ分
のフィルタリング処理のために上記ステップＳ４以降の
処理に戻り、そうでなければ、即ちＰサンプル（Ｐ＝
［フレーム周期］／［サンプリング周期］）分のステッ
プＳ４〜Ｓ１２の処理が実行されたならば、フレーム番
号を示すカウンタ変数「ｊ」を１だけ加算する（ステッ
プＳ１３）。

【００３８】このようにして音声合成部６は、Ｐ回だけ
ステップＳ４〜Ｓ１２の処理を実行して、１フレーム
（Ｐサンプル）分の音声データを生成する。そして１フ
レーム（Ｐサンプル）分の音声データを生成すると、即
ちカウンタ変数「ｉ」が「０」より大きい状態ではなく
なると、音声合成部６はカウンタ変数「ｊ」が音声合成
すべきフレーム数「Ｆ」以下か否かを判定し（ステップ
Ｓ１４）、「Ｆ」以下であれば次の１フレームについて
の音声データ生成のためにステップＳ２以降の処理に戻
り、「Ｆ」を超えていれば処理を終える。

【００３９】このようにして、音声合成部６はＦ回だけ
ステップＳ２〜Ｓ１４の処理を実行して、Ｆフレーム分
の音声データを生成する。なお、図２のフローチャート
では、Ｎ＝６，１０以外のときはすべてＣ1 〜Ｃ20のフ
ィルタリングを行うことになるが、本実施例では、入力
部１により入力される次数情報で指定可能な次数Ｎは、
６，１０，２０の３つに限られており、それ以外の次数
は指定されないものとする。

【００４０】このように構成された音声合成装置におい
て、例えば次数「２０」（Ｎ＝２０）を示す次数情報が
入力部１に与えられたとする。サンプリング周期が１２
５μｓ、フレーム周期が１０ｍｓであるとすると、図２
におけるＰは「８０」となる。また、音声素片ファイル
４には各音節に対応するケプストラムパラメータがＣ0
〜Ｃ20まで格納されているものとする。

【００４１】合成パラメータ生成部５は、言語処理部３
で生成された音韻系列の各音韻に対応する指定次数分の
ケプストラムパラメータＣ0 〜Ｃ20を音声素片ファイル
４から抽出すると共に韻律情報に従って韻律パラメータ
を生成する。なお、ここで得られたパラメータの全フレ
ームＦの数が５００であるとすると、音韻パラメータは
２１×５００＝１０５００個、韻律パラメータは５００
個である。

【００４２】音声合成部６は、合成パラメータ生成部５
によって生成された１０５００個の音韻パラメータと５
００個の韻律パラメータの中から、最初の１フレーム分
の音韻パラメータＣ0 〜Ｃ20および韻律パラメータから
なる合成パラメータＲ1 を入力し（ステップＳ３）、音
韻パラメータＣ0 と韻律パラメータに基づいて音源を生
成する（ステップＳ４）。次に音声合成部６は、音源デ
ータを合成フィルタに入力すると共に、音韻パラメータ
Ｃ1 〜Ｃ20を用いてフィルタリングを実行する（ステッ
プＳ５〜Ｓ１２）。音声合成部６は、以上のステップＳ
４〜Ｓ１２の処理を８０回（８０サンプル分）行う。

【００４３】その後、音声合成部６は、次の１フレーム
分の合成パラメータＲ2 を入力し（ステップＳ３）、ス
テップＳ４〜Ｓ１２の処理を８０回行う。そして音声合
成部６は、これらの一連の処理（ステップＳ２〜Ｓ１
４）を５００回（５００フレーム分）行う。音声データ
は、これらの処理中のステップＳ１０にて出力される。

【００４４】即ち上記の例では、Ｃ1 〜Ｃ20を用いた合
成フィルタリングはＦ×Ｐ＝５００×８０＝４０００回
実行される。このとき、Ｃ1 〜Ｃ6 のフィルタリング１
回に要する時間をＴ１、Ｃ7 〜Ｃ10のフィルタリング１
回に要する時間（ステップＳ７，Ｓ８）をＴ２、Ｃ11〜
Ｃ20のフィルタリング１回に要する時間（ステップＳ
９）をＴ３とし、図２のフローチャートに示す一連の処
理のうち、その他の処理に要する時間をＴ４とすると、
発声時間５秒（フレーム周期１０ｍｓのフレーム５００
個分）の音声データを生成するのに必要な音声合成部６
における全処理時間は４０００×（Ｔ１＋Ｔ２＋Ｔ３）
＋Ｔ４となる。

【００４５】次に、上述と同様の設定条件で次数情報の
示す次数Ｎを「６」とすると、音声素片ファイル４から
抽出される音韻パラメータはＣ0 〜Ｃ6 であり、７×５
００＝３５００個となる。Ｎ＝６のため、音声合成部６
におけるステップＳ７〜Ｓ９の処理は行われない。この
場合の全処理時間は４０００×Ｔ１＋Ｔ４となり、次数
２０の場合と比べて４０００×（Ｔ２＋Ｔ３）だけ短縮
される。

【００４６】また、ケプストラムパラメータは一般に次
数が高いほど周波数のスペクトル包絡特性が良くなると
いう性質があり、低いほどスペクトルの包絡線がなまる
傾向にある。即ち、次数が高いほど品質の高い合成音声
が生成され、逆に次数が低いと品質の低い合成音声が生
成されるために、次数を選択することにより品質の異な
った合成音声を生成できる。例えば、合成音声を長時間
聞く場合には低い次数を選択すればよい。

【００４７】以上、説明してきたように上述の処理機能
を備えた本実施例装置によれば、音韻パラメータの次数
に応じたフィルタリングを実行することによって、合成
フィルタリングにおける計算量の増減が可能となる。ま
た、次数を変えることによって合成音声の品質を変える
ことが可能である。

【００４８】なお、上記第１実施例では、入力部１から
入力される次数情報により予め定められたケプストラム
パラメータの３種の次数のうちの１つが直接指定される
場合について説明したが、「１，２，３」あるいは
「Ａ，Ｂ，Ｃ」等の合成音声の品質を表す情報として入
力し、装置内部で音韻パラメータの次数と対応付けても
構わない。また、指定できる次数も３種に限定する必要
はない。

【００４９】また上記第１実施例では、合成パラメータ
の生成、音源の生成、合成フィルタリング等がソフトウ
ェア処理によって行われるシステムに実施した場合につ
いて説明したが、これらの処理が専用のハードウェアで
行われるシステムであってもよく、次数を変えることに
よって合成音声の品質を変えることができる。［第２実施例］次に、本発明の第２実施例を説明する。
図３は同実施例に係る音声合成装置の概略構成を示すブ
ロック図である。

【００５０】図３に示す音声合成装置は、音声合成の対
象とする漢字かな混じりの文字コード列と、合成音声の
制御情報の入力を司る入力部１１を有する。この制御情
報は、例えば後述する音声合成部１６内の合成フィルタ
に入力すべき合成パラメータの次数を選択指定するため
の情報（次数情報）、あるいは音声合成部１６における
合成フィルタの構成の情報（構成情報）からなる。

【００５１】図３に示す音声合成装置はまた、図１に示
す音声合成装置内の単語辞書２、言語処理部３、音声素
片ファイル４と同様の単語辞書１２、言語処理部１３、
音声素片ファイル１４の他、言語処理部１３にて生成さ
れた音韻系列および予め定められている次数情報（ここ
では、次数２０を示す次数情報）に従う音韻パラメータ
（ここでは、音韻のケプストラムパラメータ）の生成を
行う合成パラメータ生成部１５を有する。合成パラメー
タ生成部１５は、言語処理部３にて生成された韻律情報
に従う韻律パラメータの生成も行う。

【００５２】図３に示す音声合成装置はまた、音声合成
部１６と、音声出力用のスピーカ１７とを有する。音声
合成部１６は、合成パラメータ生成部１５によって生成
された音韻パラメータ、その次数情報および韻律パラメ
ータをもとに、音源の生成と、モード切り換え部１１か
ら与えられる次数情報あるいは構成情報に従う次数Ｎ分
あるいは選択されたフィルタ構成での合成フィルタリン
グ処理を行う。なお、音声合成部１６において合成音声
をアナログ信号に変換するためのＤ／Ａ変換器などは省
略されている。

【００５３】図３に示す音声合成装置はまた、ＣＰＵ使
用率に対応する音韻パラメータの次数、あるいは音声合
成部１６における合成フィルタの構成を表す情報、入力
部１１または後述する速度制御部２０のいずれからの次
数あるいは構成の情報を選択するかを示すモード切り換
え情報、およびＣＰＵ使用率抽出のタイミングを表す情
報（タイミング情報）等が格納されている速度情報ファ
イル１８と、ＣＰＵ使用率抽出部１９とを有する。ＣＰ
Ｕ使用率抽出部１９は、速度制御部２０から指示される
都度、音声合成処理以外のタスク処理のＣＰＵ使用率を
抽出するものである。このＣＰＵ使用率は、例えば音声
合成処理以外のタスク処理のプロセスＩＤを全て検出
し、個々のプロセスＩＤのＣＰＵ使用率を抽出し、それ
らのＣＰＵ使用率を全て足し合わせることで求めること
ができる。また、音声合成に要する処理を一時中断し、
その間に全てのタスクにおけるＣＰＵ使用率を抽出する
ことでも求めることが可能である。

【００５４】図３に示す音声合成装置は更に、速度制御
部２０と、モード切り換え部２１とを有する。速度制御
部２０は、ＣＰＵ使用率抽出部１９で求められるＣＰＵ
使用率に対応する次数あるいは構成の情報を速度情報フ
ァイル１８から得て、その情報をモード切り換え部２１
に与える。また速度制御部２０は、速度情報ファイル１
８上で上記のタイミング情報を参照し、同情報に従って
ＣＰＵ使用率抽出指示をＣＰＵ使用率抽出部１９に与え
る。モード切り換え部２１は、入力部１１から与えられ
る次数あるいは構成情報と速度制御部２０から与えられ
る次数あるいは構成情報とのいずれか一方を、例えば速
度情報ファイル１８に格納されているモード切り換え情
報に基づいて選択し音声合成部１６に与える。

【００５５】以上の構成の図３の音声合成装置は、図１
に示す音声合成装置と同様に、パーソナルコンピュータ
（ＰＣ）やエンジニアリング・ワーク・ステーション
（ＥＷＳ）によって実現されるもので、入力部１１、言
語処理部１３、合成パラメータ生成部１５、音声合成部
１６（内の音源生成、フィルタリング処理部分）、ＣＰ
Ｕ使用率抽出部１９、速度制御部２０およびモード切り
換え部２１は、ＣＰＵのプログラム処理（音声合成処理
用タスクの実行）によって実現される機能ブロックであ
る。

【００５６】次に、図３に示す音声合成装置の全体の動
作を、図４および図５のフローチャートを参照して説明
する。この図４のフローチャートは、音韻パラメータの
次数を変えることによって、音声合成における処理速度
を増減できるようにした場合の処理の流れを示し、図５
のフローチャートは図４のフローチャート中の特定処理
（Ａ）の流れを示すものである。

【００５７】なお、速度情報ファイル１８には、図６
（ａ）に示すように音韻パラメータの次数Ｎ（ここで
は、ＮとしてＱ1 ，Ｑ2 ，Ｑ3 の３種、但しＱ1 ＝２
０，Ｑ2 ＝１０，Ｑ3 ＝６）を用いてリアルタイムに音
声合成するのに必要な平均処理速度の値（Ｑ1 ＝２０の
とき処理速度Ｐ1 ＝２９、Ｑ2 ＝１０のとき処理速度Ｐ
2 ＝２０、Ｑ3 ＝６のとき処理速度Ｐ3 ＝１０）が格納
されているものとする。次数Ｑ1 ＝２０，Ｑ2 ＝１０，
Ｑ3 ＝６でそれぞれ音声合成するときに音声合成処理以
外でＣＰＵが使用可能な割合の上限値ａ，ｂ，ｃは次式
で表される。ａ＝１００％−（処理速度Ｐ1/ＣＰＵ速度）×１００％ｂ＝１００％−（処理速度Ｐ2/ＣＰＵ速度）×１００％ｃ＝１００％−（処理速度Ｐ3/ＣＰＵ速度）×１００％

【００５８】したがって、ＣＰＵの速度を３０ＭＩＰＳ
とすると、次数Ｑ1 ＝２０，Ｑ2 ＝１０，Ｑ3 ＝６でそ
れぞれ音声合成するときのａ，ｂ，ｃは、Ｐ1 ＝２９，
Ｐ2＝２０，Ｐ3 ＝１０であることから、それぞれ３
％，３３％，６７％となる。明らかなように、音声合成
処理以外のタスク処理におけるＣＰＵ使用率が、この
ａ，ｂ，ｃの値を上回っている場合には、次数Ｑ1 ＝２
０，Ｑ2 ＝１０，Ｑ3 ＝６での音声合成をリアルタイム
に行うことはできない。

【００５９】また、速度情報ファイル１８には、図６
（ｂ）に示すように、入力部１１からの次数あるいは構
成の情報を選択することを指定する値が「１」のモード
切り換え情報、および速度制御部２０からの次数あるい
は構成の情報を選択することを指定する値が「２」のモ
ード切り換え情報のうちのいずれか一方が格納されてい
るものとする。更に速度情報ファイル１８には、図６
（ｂ）に示すように、ＣＰＵ使用率の抽出を、１フレー
ム毎に行うことを指定する値「１」のタイミング情報、
１アクセント句毎に行うことを指定する値「２」のタイ
ミング情報、ポーズで挟まれたアクセント句毎に行うこ
とを指定する値「３」のタイミング情報、１文毎に行う
ことを指定する値「４」のタイミング情報、段落毎に行
うことを指定する値「５」のタイミング情報、および初
めの１回のみ行うことを指定する値「６」のタイミング
情報のうちのいずれか一方が格納されているものとす
る。

【００６０】さて、図３の音声合成装置においては、ま
ず速度制御部２０により、変数ｍが「６」に初期設定さ
れる（ステップＳ２１）。この変数ｍは、ＣＰＵ使用率
を抽出するか否かの判定（ステップＳ４２）に使用され
るものである。速度制御部２０は、ステップＳ２１を終
了すると、速度情報ファイル１８に格納されているモー
ド切り換え情報の値を判定する（ステップＳ２２）。

【００６１】もし、モード切り換え情報の値が「１」の
ときは、入力部１１から与えられる次数情報がモード切
り換え部２１によって有効とされる（ステップＳ２
３）。これに対してモード切り換え情報の値が「２」の
ときは、後述するようにＣＰＵ使用率に応じて速度制御
部２０により決定される次数情報がモード切り換え部２
１によって有効とされる。

【００６２】その後、入力部１１により、音声合成の対
象とする漢字かな混じりの文字コード列が入力される
と、その入力文字コード列から句点、改行などの区切り
を単位に１文として抽出される。言語処理部１３は、入
力部１１により入力・抽出された１文と単語辞書１２と
を照合し、この１文（を構成する入力文字コード列）が
示す音声合成の対象となっている単語や句等についての
アクセント型、読み、品詞情報を求め、その品詞情報に
従うアクセント型・境界の決定、および漢字かな混じり
文の読みの形式への変換を行い、音声記号列（音韻系列
と韻律情報）を生成する（ステップＳ２４）。

【００６３】すると合成パラメータ生成部１５は、言語
処理部１３により生成された音声記号列から１アクセン
ト句を切り出し、そのアクセント句における音韻系列に
対応する音韻のケプストラムパラメータを音声素片ファ
イル１４より抽出して音韻パラメータを生成すると共に
韻律情報に従って韻律パラメータを生成する（ステップ
Ｓ２５）。ここでの音韻パラメータの生成は、前記第１
実施例における合成パラメータ生成部５での音韻パラメ
ータ生成と異なって、音声素片ファイル１４に登録され
ている全ての次数（ここでは、「２０」）分の音韻のケ
プストラムパラメータを使用して行われる。次に処理
（Ａ）が、図５のフローチャートに従って次のように実
行される（ステップＳ２６）。処理（Ａ）では、まず、
速度制御部２０により、速度情報ファイル１８に格納さ
れているモード切り換え情報の値が判定される（ステッ
プＳ４１）。もし、モード切り換え情報の値が「１」の
ときは、何も処理しないで本処理が呼ばれた次のステッ
プ（図４ステップＳ２７）へリターンする。

【００６４】これに対してモード切り換え情報の値が
「２」のときは、速度情報ファイル１８に格納されてい
るタイミング情報の値が速度制御部２０により判定され
る（ステップＳ４２）。もし、タイミング情報の値が、
その時点の変数ｍの値（ここでは「６」）より大きいと
きは、何も処理しないで図４のステップＳ２７へリター
ンする。

【００６５】一方、タイミング情報の値が、その時点の
変数ｍの値（ここでは「６」）以下のときは、速度制御
部２０は、音声合成処理以外のタスク処理におけるＣＰ
Ｕ使用率をＣＰＵ使用率抽出部１９により抽出させる
（ステップＳ４３）。そして速度制御部２０は、ＣＰＵ
使用率抽出部１９によって抽出されたＣＰＵ使用率の値
を判定し（ステップＳ４４）、「ａ（３％）」以下のと
きは、Ｑ1 、即ち「２０」を次数Ｎに設定する（ステッ
プＳ４５）。また速度制御部２０は、ＣＰＵ使用率が
「ａ（３％）」より大きく、且つ「ｂ（３３％）」以下
のときは、Ｑ2 、即ち「１０」を次数Ｎに設定し（ステ
ップＳ４６）、それ以外、即ち「ｂ（３３％）」より大
きいときはＱ3 、即ち「６」を次数Ｎに設定する（ステ
ップＳ４７）。速度制御部２０は、ステップＳ４５〜Ｓ
４７のいずれかを実行すると、図４のステップＳ２７へ
リターンする。なお、ＣＰＵ使用率が「ｃ（６７％）」
より大きい場合には、「６」を次数Ｎに設定しても、音
声合成をリアルタイムに行うことは困難となる。

【００６６】以上の説明から明らかなように、図４のス
テップＳ２５およびステップＳ２６（図５のフローチャ
ートに示す処理（Ａ））は、モード切り換え情報が
「２」で、タイミング情報が「６」以下のときに、音声
合成する前に次数情報（Ｎ）を設定するための処理であ
る。

【００６７】さて、ステップＳ２７では、先のステップ
Ｓ２５で合成パラメータ生成部１５により生成された
（１アクセント句の）合成パラメータに基づいて、音声
合成部１６にて音源の生成とディジタルフィルタリング
処理とが１フレーム分行われ、音声波形が生成される。
この際、合成パラメータ中の音韻パラメータから次数Ｎ
分だけ抽出されて、音韻パラメータＮ次分のフィルタリ
ングが行われる。この次数Ｎは、モード切り換え情報が
「１」のときは、ステップＳ２３で設定されるものであ
り、入力部１１から入力される次数である。またモード
切り換え情報が「２」のときは、ＣＰＵ使用率に応じて
ステップＳ４５〜４７のいずれかで設定されるものであ
る。

【００６８】音声合成部１６は上記ステップＳ２７を終
了すると、変数ｍを「１」に設定する（ステップＳ２
８）。ここで、１アクセント句の処理が終了したか否か
の判定が行われ（ステップＳ２９）、終了していないと
きは、ステップＳ２６を経てステップＳ２７に戻り、同
じ１アクセント句についての次の１フレーム分のフィル
タリングが行われる。また、１アクセント句の処理が終
了したときは、音声合成部１６は、生成した１アクセン
ト句分の音声波形を図示せぬＤ／Ａ変換器によりアナロ
グ信号に変換してスピーカ１７に出力する（ステップＳ
３０）。実際には、この音声出力中に次の処理が並行し
て実行される。

【００６９】上記ステップＳ２６〜Ｓ２９の処理は、１
つのアクセント句に対する音声波形が全て生成されるま
で繰り返し行われる。ここで、ステップＳ２８により変
数ｍが「１」に設定された後のステップＳ２６（処理
（Ａ））では、図５のフローチャートから明らかなよう
に、モード切り換え情報が「２」で、しかもタイミング
情報が変数ｍの値以下、即ち「１」以下のときのみ、Ｃ
ＰＵ使用率の抽出とそれに対する次数の設定（再設定）
が行われ、それ以外のときは次数の設定は行われない。
したがって、タイミング情報が「１」のときはＣＰＵ使
用率の抽出と次数設定が１フレーム毎に行われることに
なる。

【００７０】音声合成部１６は上記ステップＳ３０を終
了すると、変数ｍを「２」に設定する（ステップＳ３
１）。ここで、１文の処理が終了したか否かの判定が行
われ（ステップＳ３２）、終了したときは、音声合成す
べき文の全ての処理が終了したか否かの判定が行われる
（ステップＳ３６）。また、１文の処理がまだ終了して
いないときは、その文における次のアクセント句に対し
て合成パラメータ生成部１５による合成パラメータの生
成が（前記ステップＳ２５と同様に）行われる（ステッ
プＳ３３）。この際、合成パラメータ生成部１５は、新
たに生成した合成パラメータに対応するアクセント句と
その直前のアクセント句との間にポーズを表す記号があ
るか否かを判定する（ステップＳ３４）。

【００７１】もし、ポーズを表す記号がないときは、そ
のままステップＳ２６を経てステップＳ２７に戻り、ポ
ーズを表す記号があるときは、変数ｍが「３」に設定さ
れた後（ステップＳ３５）、ステップＳ２６を経てステ
ップＳ２７に戻り、同じ１アクセント句についての次の
１フレーム分のフィルタリングが行われる。

【００７２】ここで、上記ステップＳ３１により変数ｍ
が「２」に設定された後、ステップＳ３２，Ｓ３３，Ｓ
３４を経てステップＳ２６（処理（Ａ））が行われた場
合には、図５のフローチャートから明らかなように、モ
ード切り換え情報が「２」で、しかもタイミング情報が
「２」以下のときのみ、ＣＰＵ使用率の抽出とそれに対
する次数の設定が行われ、それ以外のときは次数の設定
は行われない。したがって、タイミング情報が例えば
「２」のときはＣＰＵ使用率の抽出と次数設定が１アク
セント句毎に行われることになる。

【００７３】また、上記ステップＳ３５により変数ｍが
「３」に設定された後にステップＳ２６（処理（Ａ））
が行われた場合には、図５のフローチャートから明らか
なように、モード切り換え情報が「２」で、しかもタイ
ミング情報が「３」以下のときのみ、ＣＰＵ使用率の抽
出とそれに対する次数の設定が行われ、それ以外のとき
は次数の設定は行われない。したがって、タイミング情
報が例えば「３」のときはＣＰＵ使用率の抽出と次数設
定がポーズで挟まれたアクセント句毎に行われることに
なる。

【００７４】上記ステップＳ２６〜Ｓ３５の処理は、１
文に対する音声波形が生成されるまで繰り返し行われ
る。もし、１文に対する処理が終了した場合には、入力
部１１により入力された文章についての処理が全て終了
したか否かの判定が行われ（ステップＳ３６）、終了の
ときは音声合成の処理を終える。

【００７５】もし、文章が終了してないときは、入力部
１１は変数ｍを「４」に設定した後（ステップＳ３
７）、１段落が終了したか否かを判定する（ステップＳ
３８）。１段落が終了していないときは、そのままステ
ップＳ２４の処理に戻り、終了しているときは、入力部
１１によって変数ｍが「５」に設定された後（ステップ
Ｓ３９）、ステップＳ２４の処理に戻り、次の１文につ
いての言語処理が言語処理部１３により行われる。ここ
で、ステップＳ３８での段落の検出は、例えば対象とな
る文の末尾が改行で、しかも次の行に字下げが生じてい
ることをもって行われる。

【００７６】さて、上記ステップＳ３７により変数ｍが
「４」に設定された後、ステップＳ３８，Ｓ２４，Ｓ２
５をへてステップＳ２６（処理（Ａ））が行われた場合
には、図５のフローチャートから明らかなように、モー
ド切り換え情報が「２」で、しかもタイミング情報が
「４」以下のときのみ、ＣＰＵ使用率の抽出とそれに対
する次数の設定が行われ、それ以外のときは次数の設定
は行われない。したがって、タイミング情報が例えば
「４」のときはＣＰＵ使用率の抽出と次数設定が１文毎
に行われることになる。

【００７７】また、上記ステップＳ３９により変数ｍが
「５」に設定された後、ステップＳ２４，Ｓ２５をへて
ステップＳ２６（処理（Ａ））が行われた場合には、図
５のフローチャートから明らかなように、モード切り換
え情報が「２」で、しかもタイミング情報が「５」以下
のときのみ、ＣＰＵ使用率の抽出とそれに対する次数の
設定が行われ、それ以外のときは次数の設定は行われな
い。したがって、タイミング情報が例えば「５」のとき
はＣＰＵ使用率の抽出と次数設定が１段落毎に行われる
ことになる。

【００７８】以上に述べた図３に示す音声合成装置の音
声合成処理の具体例を、図７（ａ）に示すような文章
「今度の会議は、５月１０日に決まりました。都合の悪
い方は、山田までお知らせ下さい。」が入力部１１に入
力された場合について説明する。なお、この図７（ａ）
に示す文章が入力されてから音声出力が終えるまでのＣ
ＰＵ使用率の時間的変化は図７（ｂ），（ｃ）に示され
る通りであり、速度情報ファイル１８に格納（設定）さ
れているモード切り換え情報およびタイミング情報はい
ずれも「２」であるものとする。

【００７９】まず、変数ｍが「６」に設定される（ステ
ップＳ２１）。次のステップＳ２２においてはモード切
り換え情報が「２」であると判定され、したがってステ
ップＳ２４の処理に移る。このステップＳ２４では、入
力部１１により、入力された文章から「今度の会議は、
５月１０日に決まりました。」なる１文が検出され、こ
の１文に対して言語処理部１３により図７（ｂ）に示す
ような音声記号列「コ＾ンドノ／カ＾イギワ．．／ゴ＾
ガツ／トーカニ．／キマリマ＾シタ．．．．．．／／」
が生成される。なお、図の音声記号列中の記号“＾”は
アクセント位置を、記号“／”はアクセント句の区切り
を、記号“．”はポーズ（無音区間）を、それぞれ示
す。

【００８０】次に図７（ｂ）に示す音声記号列から最初
のアクセント句「コ＾ンドノ」が切り出され、その合成
パラメータが合成パラメータ生成部１５にて生成される
（ステップＳ２５）。

【００８１】続いてステップＳ６の処理、即ち処理
（Ａ）が実行される。この処理（Ａ）では、モード切り
換え情報「２」、タイミング情報「２」であることか
ら、ステップＳ４１，Ｓ４２，Ｓ４３，Ｓ４４の順に処
理される。ここで（ステップＳ４３で）抽出される音声
合成処理以外のタスクにおけるＣＰＵ使用率は図７
（ｂ）におけるｙ１であり、「３％（ａ）」以下なの
で、（ステップＳ４５〜Ｓ４７のうちの）ステップＳ４
５の処理が実行され、次数ＮにはＱ1 （＝２０）が設定
される。次にその次数「２０」で１フレーム分のフィル
タリングが実行される（ステップＳ２７）。

【００８２】そして、上記ステップＳ２６，Ｓ２７、更
にそれに続くステップＳ２８，Ｓ２９の処理の繰り返し
によって、アクセント句「コ＾ンドノ」に対する音声波
形が生成される。この間、変数ｍが「１」に設定されて
処理（Ａ）（ステップＳ２６）が実行されるが、タイミ
ング情報が「１」以下でないため、ＣＰＵ使用率の抽出
や新たな次数Ｎの設定は行われない。生成された１アク
セント句の音声波形は、図示せぬＤ／Ａ変換器に転送さ
れスピーカ７を通して音声出力される（ステップＳ３
０）。

【００８３】次に変数ｍが「２」に設定された後（ステ
ップＳ３１）、１文の処理が終了したか否かが判定され
（ステップＳ３２）、終了していないため次のアクセン
ト句「カ＾イギワ」に対して合成パラメータが生成され
る（ステップＳ３３）。そして、先のアクセント句「コ
＾ンドノ」と新たなアクセント句「カ＾イギワ」の間に
ポーズ記号があるか否かが判定され（ステップＳ３
４）、ポーズ記号がないため、そのまま処理（Ａ）（ス
テップＳ２６）の処理に戻る。

【００８４】この処理（Ａ）においては、「ｍ＝２」で
あるから、ステップＳ４１，Ｓ４２を経てステップＳ４
３が実行される。このステップＳ４３の実行により抽出
される他のタスクにおけるＣＰＵ使用率は図７（ｂ）に
おけるｙ２であり、「３３％（ｂ）」より大きいため、
ステップＳ４４を経てステップＳ４７の処理が実行さ
れ、次数ＮにはＱ3 （「６」）が設定される。

【００８５】その後、ステップＳ２７〜Ｓ３３まで前述
と同様の処理が行われるが、次のステップＳ３４におい
て「カ＾イギワ」と「ゴ＾ガツ」の間にポーズを表す記
号が存在することが判定されるため、ステップＳ３５に
移って変数ｍが「３」に設定される。

【００８６】次に処理（Ａ）（ステップＳ２６）に戻
る。ここでは、モード切り換え情報が「２」、タイミン
グ情報が「２」のため、ステップＳ４１，Ｓ４２を経て
ステップＳ４３が実行される。このステップＳ４３の実
行により抽出される他のタスクにおけるＣＰＵ使用率は
図７（ｂ）におけるｙ３であり、「３％（ａ）」より大
きく「３３％（ｂ）」以下なので、ステップＳ４４を経
てステップＳ４６の処理が実行され、次数ＮにはＱ2
（「１０」）が設定される。

【００８７】その後、前述と同様の処理が行われ、「キ
マリマ＾シタ．．．．．．／／」の音声出力が行われる
と（ステップＳ３０）、次のステップＳ３１に続くステ
ップＳ３２で１文の終わりと判定される。この場合、ス
テップＳ３６，Ｓ３７を経て段落の終了判定が行われ
（ステップＳ３８）、段落はないためステップＳ２４の
処理に戻る。

【００８８】このようにして図７（ｂ）に示す音声記号
列の音声が図７（ｄ）に示すような次数で生成される。
また、この音声記号列に続く図７（ｃ）に示す音声記号
列に対しても前述と同様の処理が行われ、図７（ｅ）に
示すような次数で合成フィルタリングが実行され音声波
形が生成される。

【００８９】なお、前述の例では、タイミング情報が
「２」の場合を示したが、「３」である場合は図７
（ｆ），（ｇ）の上の段の下線に示した次数で、「４」
である場合は図７（ｆ），（ｇ）の下の段の下線に示し
た次数で、それぞれ合成フィルタリングが実行され音声
波形が生成される。

【００９０】また、前述の例では、音声合成処理におけ
る処理速度の増減を、音韻パラメータの次数を可変にし
て合成フィルタリングを実行することによって実現して
いるが、これに限るものではない。例えば合成フィルタ
（合成器）の内部構成を変えることによって音声合成に
おける処理速度の増減を行うようにすることも可能であ
る。

【００９１】以下、合成フィルタの内部構成を変えるこ
とによって音声合成における処理速度の増減を行う例を
説明する。ここでは、音声合成するための音韻パラメー
タとしてケプストラムを用いることとする。

【００９２】ケプストラム分析されたケプストラムパラ
メータ（音韻パラメータ）は、図３に示す音声合成部１
６内で、そのパラメータを直接係数とする対数振幅近似
フィルタ（ＬＭＡフィルタ）によって合成される。この
音声合成部１６におけるＬＭＡフィルタの構成を図８に
示す。

【００９３】図８の構成では、フィルタ選択部３１と、
このフィルタ選択部３１により選択可能な３種のフィル
タ、即ちフィルタ（＃Ａ）３２、フィルタ（＃Ｂ）３３
およびフィルタ（＃Ｃ）３４が設けられている。

【００９４】さて、音声合成部１６において生成された
音源データは、図８のフィルタ選択部３１に入力され
る。このフィルタ選択部３１には、モード切り換え部２
１から使用フィルタ（Ｆ）を示す構成情報が与えられ
る。この構成情報は、後述するように、図５のステップ
Ｓ４５，Ｓ４６，Ｓ４７の次数設定処理に相当する処理
により設定されるものである。

【００９５】フィルタ選択部３１は、モード切り換え部
２１からの構成情報に基づいて、フィルタ（＃Ａ）３
２、フィルタ（＃Ｂ）３３およびフィルタ（＃Ｃ）３４
のうちのいずれか１つを選択し、音声合成部１６におい
て生成された音源データをその選択したフィルタに与え
る。これにより、入力された音源データは、３種のフィ
ルタ３２〜３４のうちの選択されたフィルタでフィルタ
リングされ、同フィルタから音声波形データが出力され
る。

【００９６】ここで、上記３種のフィルタ（＃Ａ）３
２，（＃Ｂ）３３，（＃Ｃ）３４における伝達関数ＨA
(z)，ＨB(z)，ＨC(z)、および指数関数ｅｘｐ(w) の修
正ｐａｄｅ近似式を以下に示す。なお以下の式では、フ
ィルタ３２，３３，３４を便宜上フィルタＡ，Ｂ，Ｃで
表現している。

【００９７】

【数１】

【００９８】以上のフィルタ（＃Ａ）３２，（＃Ｂ）３
３，（＃Ｃ）３４における伝達関数ＨA(z)，ＨB(z)，Ｈ
C(z)、および指数関数ｅｘｐ(w) の修正ｐａｄｅ近似式
から明らかなように、フィルタ（＃Ａ）３２の修正ｐａ
ｄｅ近似式の次数を２倍したものがフィルタ（＃Ｂ）３
３であり、同じく４倍したものがフィルタ（＃Ｃ）３４
である（ただし、Ｃ15〜Ｃ20はそれぞれ１次）。

【００９９】一般に近似誤差を少なくするためには修正
ｐａｄｅ近似式の次数を高くするか、基礎フィルタｗの
値を小さくする必要がある。また、ケプストラムパラメ
ータは一般に次数が低いほど値が大きい。

【０１００】したがって、値が大きいケプストラムパラ
メータＣ1 は他より大きな修正ｐａｄｅ近似式の次数で
構成され、逆にケプストラムパラメータの次数が高くな
るにつれて小さな修正ｐａｄｅ近似式の次数で構成さ
れ、更に幾つかのケプストラムパラメータは１つの基礎
フィルタで構成される。即ち、フィルタ（＃Ｃ）３４は
他のフィルタと比べて最も近似誤差が少ない（合成音の
品質が高い）が、修正ｐａｄｅ近似式の次数が高いため
計算量が多い（フィルタリングに要する時間が他と比べ
て多い）。それに比べてフィルタ（＃Ａ）３２の近似誤
差は多い（合成音の品質が低い）が、修正ｐａｄｅ近似
式の次数が低いため計算量が少ない（フィルタリングに
要する時間が他と比べて少ない）。

【０１０１】そこで、速度情報ファイル１８に、図９に
示すような、フィルタ構成とそのフィルタを使用した場
合の音声合成に要する処理速度との関係を示す情報（構
成情報）を格納しておき、この情報と図６（ｂ）の情報
を用い、図５のフローチャートにおけるステップＳ４５
を「フィルタＦ←Ｑ1 」、ステップＳ４６を「フィルタ
Ｆ←Ｑ2 」、ステップＳ４７を「フィルタＦ←Ｑ3 」に
変更し、図４のフローチャートにおけるステップＳ２７
を「１フレーム分のフィルタリングをフィルタＦで実
行」に変更すれば、フィルタ構成による処理時間の増減
を、前述した音韻パラメータの次数による処理時間の増
減と同様に処理することができる。

【０１０２】以上、説明してきたように、第２実施例に
よれば、任意のタイミングで他のタスク処理のＣＰＵ使
用率を抽出し、その値によって音韻パラメータの次数、
あるいはフィルタの構成を決定し、その次数あるいはフ
ィルタでフィルタリングを実行することによって、音声
合成処理中に他のタスク処理におけるＣＰＵ使用率が変
化してもリアルタイム処理が可能となる。

【０１０３】なお、本発明は上述した第２実施例に限定
されるものではない。即ち、第２実施例では、指定でき
る次数あるいはフィルタの構成を３種に限定したが、特
に限定する必要はない。

【０１０４】また、実施例では、修正ｐａｄｅ近似式の
次数だけを変えることによってフィルタの構成を変えた
が、基礎フィルタｗの構成を変えても構わない。更に実
施例では、音韻パラメータの次数、フィルタの構成を別
々に説明したが、音韻パラメータの次数に応じてフィル
タの構成を変えても構わない。

【０１０５】また、実施例では、ＣＰＵ使用率抽出部９
が音声合成処理以外のタスク処理におけるＣＰＵ使用率
を抽出するものとして説明したが、全てのタスク処理に
おけるＣＰＵ使用率を抽出し、予め音声合成処理におけ
るＣＰＵ使用率を加味した上で処理してもよい。

【０１０６】また、実施例では、音韻パラメータの次数
や合成フィルタの構成情報が、ＣＰＵ使用率を抽出する
ことによりその使用率に応じて決定されるモード（自動
モード）、またはその情報が入力部１１を通して利用者
から与えられるモード（手動モード）が、速度情報ファ
イル１８に格納されているモード切り換え情報によって
選択的に設定されるものとして説明したが、これに限る
ものではない。例えば、通常は自動モードを選択し、情
報が入力部１に与えられたときだけその情報に従った処
理を実行しても良い。

【０１０７】また、実施例では、音韻パラメータとして
ケプストラムパラメータを用いたが、他の音韻パラメー
タ例えばＬＳＰパラメータやホルマント周波数等を使用
しても良い。ＬＳＰ合成やホルマント合成の場合には、
分析次数に対応した音声素片ファイル１４が複数必要に
なる。要するに本発明はその要旨を逸脱しない範囲で種
々変形して実施することができる。

【０１０８】

【発明の効果】以上説明したように本発明によれば、音
韻パラメータの次数を変えることによって合成フィルタ
リングの計算量が増減できるため、合成フィルタリング
を含む音声合成処理をＣＰＵの特定のタスク処理によっ
て行うシステムでは、ＣＰＵ使用率が多い場合は低い次
数を、少ない場合は高い次数を設定することにより、リ
アルタイムに音声合成を行うことができる。また、音韻
パラメータの次数を変えることによって、合成音の品質
を任意に変えることもできる等の実用上多大なる効果が
奏せられる。

【０１０９】また本発明によれば、ＣＰＵ使用率を任意
のタイミングで抽出してその使用率に応じて音韻パラメ
ータの次数または合成フィルタの構成を変えて合成フィ
ルタリングを実行することによって、リアルタイム性を
確保しつつ品質の高い合成音声が生成できる。また、音
声合成する都度、利用者が次数情報、あるいはフィルタ
の構成情報を指定することなく、そのときのＣＰＵ負荷
に応じて自動的に選択される等の実用上多大なる効果が
奏せられる。

【図面の簡単な説明】

【図１】本発明の第１実施例を示す音声合成装置のブロ
ック構成図。

【図２】上記第１実施例における音声合成部６の処理の
流れを説明するためのフローチャート。

【図３】本発明の第２実施例を示す音声合成装置のブロ
ック構成図。

【図４】上記第２実施例における音声合成処理の流れを
説明するためのフローチャート。

【図５】図４のフローチャート中の特定処理（Ａ）の流
れを説明するためのフローチャート。

【図６】上記第２実施例における速度情報ファイル１８
内の格納情報例を示す図。

【図７】上記第２実施例における音声合成処理の結果の
具体例を入力文章と共に示す図。

【図８】上記第２実施例における音声合成部１６内のフ
ィルタ構成を示す図。

【図９】上記第２実施例において、フィルタ構成の切り
換えにより処理時間の増減を行うのに必要な速度情報フ
ァイル１８内の格納情報例を示す図。

【符号の説明】

１，１１…入力部、２，１２…単語辞書、３，１３…言
語処理部、４，１４…音声素片ファイル、５，１５…合
成パラメータ生成部、６，１６…音声合成部、７，１７
…スピーカ、１８…速度情報ファイル、１９…ＣＰＵ使
用率抽出部、２０…速度制御部、２１…モード切り換え
部、３１…フィルタ選択部、３２…フィルタ（＃Ａ）、
３３…フィルタ（＃Ｂ）、３４…フィルタ（＃Ｃ）。

Claims

【特許請求の範囲】

【請求項１】音韻系列に従って対応する音韻パラメー
タを生成すると共に韻律情報に従って韻律パラメータを
生成し、これら音韻パラメータおよび韻律パラメータに
従い音声を合成する音声合成方法において、音韻パラメータの次数、あるいは合成音の品質を表す情
報を入力し、前記生成された音韻パラメータおよび韻律
パラメータをもとに、この入力情報に応じた次数の合成
フィルタリングを実行して合成音声を生成するようにし
たことを特徴とする音声合成方法。
【請求項２】音韻系列に従って対応する音韻パラメー
タを生成すると共に韻律情報に従って韻律パラメータを
生成し、これら音韻パラメータおよび韻律パラメータに
従い音声を合成する音声合成方法において、音声合成に用いる合成器の構成、音韻パラメータの次
数、あるいは合成音の品質を表す情報を入力し、前記生
成された音韻パラメータおよび韻律パラメータをもと
に、前記入力された情報に応じた構成の合成器を用いた
合成フィルタリング、あるいは前記入力された情報に応
じた次数の合成フィルタリングを実行して合成音声を生
成するようにしたことを特徴とする音声合成方法。
【請求項３】音韻系列に従って対応する音韻パラメー
タを生成すると共に韻律情報に従って韻律パラメータを
生成し、これら音韻パラメータおよび音韻パラメータに
従い音声を合成する音声合成処理をＣＰＵ処理により実
行する音声合成方法において、前記ＣＰＵの使用率を抽出して、そのＣＰＵ使用率に応
じた音声合成のための合成器の構成、あるいは音韻パラ
メータの次数を決定し、前記生成された音韻パラメータ
および韻律パラメータをもとに、前記決定した構成の合
成器を用いた合成フィルタリング、あるいは前記決定し
た次数の合成フィルタリングを実行して合成音声を生成
するようにしたことを特徴とする音声合成方法。
【請求項４】前記ＣＰＵ使用率の抽出タイミングが、
フレーム単位、アクセント句単位、ポーズ単位、１文単
位、段落単位および初めの１回のみの各タイミングのう
ちの予め定められている複数の候補の中から選択指定さ
れることを特徴とする請求項３記載の音声合成方法。
【請求項５】音韻系列に従って対応する音韻パラメー
タを生成すると共に韻律情報に従って韻律パラメータを
生成し、これら音韻パラメータおよび韻律パラメータに
従い音声を合成する音声合成装置において、音韻パラメータの次数、あるいは合成音の品質を表す情
報を入力する手段と、前記生成された音韻パラメータおよび韻律パラメータを
もとに、前記入力手段によって入力された情報に応じた
次数の合成フィルタリングを実行して合成音声を生成す
る音声合成手段と、を具備することを特徴とする音声合成装置。
【請求項６】音韻系列に従って対応する音韻パラメー
タを生成すると共に韻律情報に従って韻律パラメータを
生成し、これら音韻パラメータおよび韻律パラメータに
従い音声を合成する音声合成装置において、音声合成のための合成フィルタリングに要する時間がそ
れぞれ異なる固有の構成の複数の合成器と、この複数の合成器の１つを指定する情報を入力するため
の入力手段と、この入力手段によって入力された情報の指定する合成器
を前記複数の合成器から選択する選択手段と、前記生成された音韻パラメータおよび韻律パラメータを
もとに、前記選択手段によって選択された合成器を用い
た合成フィルタリングを実行して合成音声を生成する音
声合成手段と、を具備することを特徴とする音声合成装置。
【請求項７】音韻系列に従って対応する音韻パラメー
タを生成すると共に韻律情報に従って韻律パラメータを
生成し、これら音韻パラメータおよび音韻パラメータに
従い音声を合成する音声合成処理をＣＰＵ処理により実
行する音声合成装置において、前記ＣＰＵの使用率を抽出するＣＰＵ使用率抽出手段
と、このＣＰＵ使用率抽出手段により抽出されたＣＰＵ使用
率に応じて音韻パラメータの次数を決定する制御手段
と、前記生成された音韻パラメータおよび韻律パラメータを
もとに、前記制御手段により決定された次数の合成フィ
ルタリングを実行して合成音声を生成する音声合成手段
と、を具備することを特徴とする音声合成装置。
【請求項８】音韻系列に従って対応する音韻パラメー
タを生成すると共に韻律情報に従って韻律パラメータを
生成し、これら音韻パラメータおよび音韻パラメータに
従い音声を合成する音声合成処理をＣＰＵ処理により実
行する音声合成装置において、音声合成のための合成フィルタリングに要する時間がそ
れぞれ異なる固有の構成の複数の合成器と、前記ＣＰＵの使用率を抽出するＣＰＵ使用率抽出手段
と、このＣＰＵ使用率抽出手段により抽出されたＣＰＵ使用
率に応じ、合成フィルタリングに適用する合成器の構成
を決定する制御手段と、この制御手段によって決定された構成の合成器を前記複
数の合成器から選択する選択手段と、前記生成された音韻パラメータおよび韻律パラメータを
もとに、前記選択手段によって選択された合成器を用い
た合成フィルタリングを実行して合成音声を生成する音
声合成手段と、を具備することを特徴とする音声合成装置。
【請求項９】音韻系列に従って対応する音韻パラメー
タを生成すると共に韻律情報に従って韻律パラメータを
生成し、これら音韻パラメータおよび音韻パラメータに
従い音声を合成する音声合成処理をＣＰＵ処理により実
行する音声合成装置において、第１のモードで音韻パラメータの次数、あるいは合成音
の品質を表す情報を入力するための入力手段と、第２のモードで前記ＣＰＵの使用率を抽出するＣＰＵ使
用率抽出手段と、前記第１のモードおよび第２のモードのいずれか一方の
モードを選択設定するための手段と、前記ＣＰＵ使用率抽出手段により抽出されたＣＰＵ使用
率に応じて音韻パラメータの次数、あるいは合成音の品
質を表す情報を決定する制御手段と、前記生成された音韻パラメータおよび韻律パラメータを
もとに、前記第１のモードでは前記入力手段により入力
された情報に応じた次数の合成フィルタリングを実行
し、前記第２のモードでは前記制御手段により決定され
た情報に応じた次数の合成フィルタリングを実行して合
成音声を生成する音声合成手段と、を具備することを特徴とする音声合成装置。
【請求項１０】音韻系列に従って対応する音韻パラメ
ータを生成すると共に韻律情報に従って韻律パラメータ
を生成し、これら音韻パラメータおよび音韻パラメータ
に従い音声を合成する音声合成処理をＣＰＵ処理により
実行する音声合成装置において、音声合成のための合成フィルタリングに要する時間がそ
れぞれ異なる固有の構成の複数の合成器と、第１のモードで前記複数の合成器の１つを指定する情報
を入力するための入力手段と、第２のモードで前記ＣＰＵの使用率を抽出するＣＰＵ使
用率抽出手段と、前記第１のモードおよび第２のモードのいずれか一方の
モードを選択設定するための手段と、前記ＣＰＵ使用率抽出手段により抽出されたＣＰＵ使用
率に応じて前記複数の合成器の１つを指定する情報を決
定する制御手段と、前記第１のモードでは前記入力手段によって入力された
情報の指定する合成器を、前記第２のモードでは前記制
御手段によって入力された情報の指定する合成器を、前
記複数の合成器から選択する選択手段と、前記生成された音韻パラメータおよび韻律パラメータを
もとに、前記選択手段によって選択された合成器を用い
た合成フィルタリングを実行して合成音声を生成する音
声合成手段と、を具備することを特徴とする音声合成装置。
【請求項１１】前記ＣＰＵ使用率抽出手段によるＣＰ
Ｕ使用率の抽出タイミングを、フレーム単位、アクセン
ト句単位、ポーズ単位、１文単位、段落単位および初め
の１回のみの各タイミングのうちの予め定められている
複数の候補の中から選択指定するための手段を更に備え
たことを特徴とする請求項７乃至請求項１０のいずれか
に記載の音声合成装置。