JPH05333900A - 音声合成方法および装置 - Google Patents

音声合成方法および装置

Info

Publication number
JPH05333900A
JPH05333900A JP4137177A JP13717792A JPH05333900A JP H05333900 A JPH05333900 A JP H05333900A JP 4137177 A JP4137177 A JP 4137177A JP 13717792 A JP13717792 A JP 13717792A JP H05333900 A JPH05333900 A JP H05333900A
Authority
JP
Japan
Prior art keywords
speech
parameter
synthesis
information
phonological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4137177A
Other languages
English (en)
Other versions
JP3083640B2 (ja
Inventor
Yoshiyuki Hara
義幸 原
Tsuneo Nitta
恒雄 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP04137177A priority Critical patent/JP3083640B2/ja
Priority to US08/067,079 priority patent/US5615300A/en
Publication of JPH05333900A publication Critical patent/JPH05333900A/ja
Application granted granted Critical
Publication of JP3083640B2 publication Critical patent/JP3083640B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】音声合成に要する時間と合成音声の品質を任意
に変えることができるようにする。 【構成】音声合成の対象とする漢字かな混じりの文字コ
ード列と次数Nを示す次数情報を入力部1により入力
し、言語処理部3にて、単語辞書2をもとに入力文字コ
ード列に対応する音韻系列と韻律情報を生成し、合成パ
ラメータ生成部5において、その音韻系列に対応する音
韻のケプストラムパラメータを、入力部1からの次数情
報の示す次数分だけ音声素片ファイル4より抽出して音
韻パラメータを生成すると共に、その韻律情報に対応す
る韻律パラメータを生成する。この音韻パラメータと韻
律パラメータを音声合成部6に入力して、この音韻パラ
メータと韻律パラメータをもとに、入力部1からの次数
情報の示す次数の合成フィルタリングを実行し、合成音
声を生成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文字コード列、または韻
律情報と音韻系列とから合成音声を生成する音声合成方
法および装置に関する。
【0002】
【従来の技術】近時、漢字かな混じりの文を解析し、そ
の文が示す音声情報を規則合成法により音声合成して出
力する音声合成装置が種々開発されている。そして、こ
の種の音声合成装置は、銀行業務における電話紹介サー
ビスや、新聞校閲システム、文書読み上げ装置等として
幅広く利用され始めている。
【0003】この種の規則合成法を採用した音声合成装
置は、基本的には人間が発声した音声を予めある単位、
例えばCV(子音、母音)、CVC(子音、母音、子
音)、VCV(母音、子音、母音)、VC(母音、子
音)毎にLSP(線スペクトル対)分析やケプストラム
分析等の手法を用いて分析して求められる音韻情報を音
声素片ファイルに登録しておき、この音声素片ファイル
を参照して音声パラメータ(音韻パラメータと韻律パラ
メータ)を生成し、これらの音声パラメータをもとにし
て音源の生成と合成フィルタリング処理を行うことによ
り合成音声を生成するものである。
【0004】従来、このような音声合成装置は、リアル
タイムに処理するために専用のハードウェアを必要とし
ている。この音声合成装置のシステム構成には大きく分
けて次の2種がある。
【0005】第1の構成は、パーソナルコンピュータ
(PC)などのホスト計算機が漢字かな混じり文を韻律
情報と音韻系列に変換し(言語処理)、専用のハードウ
ェアで合成パラメータの生成、音源の生成、合成フィル
タリング、D/A(ディジタル/アナログ)変換を行う
ものである。これに対して第2の構成は、漢字かな混じ
り文から音声を生成するまでの全ての処理を専用のハー
ドウェアで行うものである。いずれの構成における専用
ハードウェアも、積和演算が高速なDSP(ディジタル
・シグナル・プロセッサ)と呼ばれるLSIと汎用のM
PU(マイクロプロセッサユニット)で構成されるのが
殆どである。
【0006】一方、パーソナルコンピュータ(PC)や
エンジニアリング・ワーク・ステーション(EWS)の
処理能力が高まったことと、標準でD/A変換器、アナ
ログ出力部およびスピーカを搭載したことで、上記の処
理をリアルタイムにソフトウェアで行えるようになりつ
つある。
【0007】このようなシステムでは、処理中のタスク
が少ない場合は問題ないが、タスクが多い場合はリアル
タイムに音声合成されないことが少なくない。そのた
め、発声単語の途中で無音区間が挿入され、非常に聞き
づらい音声となっていた。これは、音声合成に要する時
間が一定のため、少ないタスクでリアルタイム動作して
いても、タスクが多くなるとそれだけ他のタスクにCP
Uの実行時間を取られるために起こるものである。
【0008】ところで、現在の規則合成法を採用した音
声合成装置で生成される音声の声質を変えるものとし
て、男/女/子供/老男/老女、発話速度、声の高さ
(基本ピッチ、平均ピッチ)、ストレスレベル等があ
り、自分の好みにあった音声を選択できるようになって
いる。しかし、それらの選択では音声の声質は変えるこ
とができても品質そのものを変えることはできなかっ
た。
【0009】現在は、明瞭度の高い「ハキハキ」とした
合成音声を生成するものがほとんどであるが、このよう
な合成音声は初めて聞く人に対してはなじみ易いが、合
成音声に対して慣れている者が長時間聞いている場合に
は疲れ易いという不具合もあった。
【0010】
【発明が解決しようとする課題】このように上記した従
来の音声合成技術にあっては、音声合成に要する時間が
一定であったために、タスクが少ないときにはリアルタ
イムに音声合成できていたものが、タスクが多い場合に
はリアルタイムにできない等の不具合がある他、合成音
声の品質が固定であったため、長時間の使用には向いて
いない等の不具合があった。
【0011】本発明はこのような事情を考慮してなされ
たもので、その目的とするところは、合成フィルタリン
グの次数を変えることによって、音声合成に要する時間
と合成音声の品質を任意に変えることができる音声合成
方法および装置を提供することにある。
【0012】本発明の他の目的は、合成フィルタリング
に用いる合成器の構成を変えることによって、音声合成
に要する時間と合成音声の品質を任意に変えることがで
きる音声合成方法および装置を提供することにある。
【0013】本発明の更に他の目的は、音声合成処理を
CPU処理により行う場合に、CPU使用率に応じて合
成フィルタリングの次数、あるいは合成器の構成を変え
ることによって、リアルタイム性を確保しつつ品質の高
い合成音声が生成できる音声合成方法および装置を提供
することにある。
【0014】
【課題を解決するための手段】本発明に係る音声合成方
法および装置は、音韻パラメータの次数、あるいは合成
音の品質を表す情報を入力し、音韻系列と韻律情報に従
って生成された音韻パラメータと韻律パラメータをもと
に、この入力情報に応じた次数の合成フィルタリングを
実行して合成音声を生成するようにしたことを特徴とす
るものである。
【0015】また本発明は、音声合成に用いる合成器の
構成を表す情報を入力し、この情報に応じた構成の合成
器を用いて合成フィルタリングを実行するようにしたこ
とをも特徴とする。
【0016】また本発明は、音声合成処理を特定のタス
ク処理で実行するCPUの使用率を任意のタイミングで
抽出し、そのCPU使用率に応じた合成器の構成、ある
いは音韻パラメータの次数を決定して、合成フィルタリ
ングに用いるようにしたことも特徴とする。
【0017】
【作用】上記の構成においては、合成器(合成フィル
タ)の構成、音韻パラメータの次数、あるいは合成音の
品質を表す情報に従って、合成フィルタに入力される音
韻パラメータの次数が変えられて、あるいは使用する合
成フィルタの種類が切り換えられて、合成フィルタリン
グが実行される。また、これらの切り換えは、任意のタ
イミングで抽出されるCPU使用率に応じて行うことも
可能である。
【0018】このように、本発明によれば、合成フィル
タに入力される音韻パラメータの次数、あるいは使用す
る合成フィルタの種類を変えることによって、同フィル
タにおける計算量を増減することができる。特に、これ
らの切り換えをCPU使用率に応じて行う場合には、音
声合成処理の処理速度をCPU負荷の変動に応じてダイ
ナミックに増減することができる。
【0019】したがって、合成フィルタリングを含む音
声合成処理が、マルチタスクを実行するCPUの特定の
タスク処理によって行われるシステムでは、任意のタイ
ミングでCPUの使用率を抽出し、稼動する他のタスク
が少ないとき(あるいはCPUの能力が高いとき)には
高い次数を、逆に稼動する他のタスクが多いとき(ある
いはCPUの能力が低いとき)は低い次数をダイナミッ
クに選択することによって、リアルタイム性を確保しな
がら高品質の合成音声を生成することが可能となる。
【0020】
【実施例】
[第1実施例]まず、本発明の第1実施例を説明する。
図1は同実施例に係る音声合成装置の概略構成を示すブ
ロック図である。
【0021】図1に示す音声合成装置は、音声合成の対
象とする漢字かな混じりの文字コード列と、合成音声の
制御情報の入力を司る入力部1を有する。この制御情報
は、例えば後述する音声合成部6内の合成フィルタに入
力すべき合成パラメータの次数Nを選択指定するための
情報(次数情報)からなる。
【0022】図1に示す音声合成装置はまた、音声合成
の対象となる単語や句等についてのアクセント型、読
み、品詞情報等が予め登録されている単語辞書2と、入
力部1により入力された文字コード列を単語辞書2を用
いて解析し、対応する音韻系列および韻律情報を生成す
る言語処理部3とを有する。
【0023】図1に示す音声合成装置はまた、予め任意
の音声単位毎に入力音声を分析することにより求められ
たケプストラムパラメータ群、およびケプストラムパラ
メータの次数を表す情報が格納されている音声素片ファ
イル4と、言語処理部3にて生成された音韻系列および
入力部1からの次数情報に従う音韻パラメータ(ここで
は、音韻のケプストラムパラメータ)の生成を行う合成
パラメータ生成部5とを有する。合成パラメータ生成部
5は、言語処理部3にて生成された韻律情報に従う韻律
パラメータの生成も行う。
【0024】図1に示す音声合成装置は更に、合成パラ
メータ生成部5によって生成された音韻パラメータ、そ
の次数情報および韻律パラメータをもとに、音源の生成
と、次数N分の合成フィルタリング処理を行って合成音
声を生成する音声合成部6と、音声出力用のスピーカ7
とを有する。なお、音声合成部6において合成音声をア
ナログ信号に変換するためのD/A変換器などは省略さ
れている。
【0025】以上の構成の音声合成装置は、マルチタス
クを実行するパーソナルコンピュータ(PC)やエンジ
ニアリング・ワーク・ステーション(EWS)によって
実現されるもので、入力部1、言語処理部3、合成パラ
メータ生成部5および音声合成部6(内の音源生成、フ
ィルタリング処理部分)は、CPUのプログラム処理
(音声合成処理用タスクの実行)によって実現される機
能ブロックである。次に、図1に示す音声合成装置の全
体の動作を説明する。
【0026】まず入力部1により、音声合成の対象とす
る漢字かな混じりの文字コード列と、次数Nを示す次数
情報が入力される。言語処理部3は、入力部1により入
力された文字コード列と単語辞書2とを照合し、この入
力文字コード列が示す音声合成の対象となっている単語
や句等についてのアクセント型、読み、品詞情報を求
め、その品詞情報に従うアクセント型・境界の決定、お
よび漢字かな混じり文の読みの形式への変換を行い、音
韻系列と韻律情報を生成する。
【0027】言語処理部3によって生成された音韻系列
と韻律情報は合成パラメータ生成部5に与えられる。こ
の合成パラメータ生成部5には、入力部1により入力さ
れた次数情報も与えられる。
【0028】合成パラメータ生成部5は、音韻系列に対
応する音韻のケプストラムパラメータを、入力部1から
与えられる次数情報の示す次数N分だけ音声素片ファイ
ル4より抽出して音韻パラメータを生成する。同時に合
成パラメータ生成部5は、韻律情報に従って韻律パラメ
ータを生成する。
【0029】音声合成部6は、合成パラメータ生成部5
によって生成された音韻パラメータおよび韻律パラメー
タを、入力部1から与えられる次数情報と共に入力して
一時保持する。そして音声合成部6は、入力した音韻パ
ラメータおよびその次数情報と韻律パラメータとに従
い、音源の生成とディジタルフィルタリング処理とを行
うことにより、前記の入力文字コード列に示される合成
音声を生成し、図示せぬD/A変換器によりアナログ信
号に変換してスピーカ7に出力する。このようにして、
入力部1により入力された漢字かな混じりの文から音声
が生成されスピーカ7から出力される。次に、図1の音
声合成部6の詳細な処理について、図2のフローチャー
トを参照して説明する。
【0030】まず音声合成部6は、フレーム番号を示す
カウンタ変数「j」に「1」を、1フレーム当りの処理
すべきサンプル数の残りを示すカウンタ変数「i」に
[フレーム周期]/[サンプリング周期]=Pを、それ
ぞれ初期値として設定する(ステップS1,S2)。こ
こで、[サンプリング周期]は、図示せぬD/A変換器
のクロックの周期に一致する。
【0031】次に音声合成部6は、入力部1から与えら
れる次数情報に従い、合成パラメータ生成部5より入力
して保持しておいた音韻パラメータと韻律パラメータの
中から、同情報で示される次数Nに対応する1フレーム
分(フレーム番号は「j」)の音韻パラメータC0 〜C
N と韻律パラメータとからなる合成パラメータRj を選
択的に入力する(ステップS3)。
【0032】次に音声合成部6は、音韻パラメータC0
と韻律パラメータを用いて1サンプル分の音源データの
生成(音源生成)を行う(ステップS4)。そして音声
合成部6は、生成された1サンプル分の音源データを入
力として音韻パラメータC1〜C6 を用いてフィルタリ
ング(ディジタルフィルタリング)を実行する(ステッ
プS5)。
【0033】音声合成部6は、ステップS5のフィルタ
リング処理を終了すると、入力部1から与えられた次数
情報の示す次数Nが「6」か否かを判定し(ステップS
6)、「6」のときはステップS5で生成された1サン
プリングデータ(音声データ)を出力する(ステップS
10)。
【0034】これに対し、次数Nが「6」以外のとき
は、音声合成部6は、ステップS5で生成されたデータ
を入力として音韻パラメータC7 〜C10を用いてフィル
タリングを実行する(ステップS7)。そして音声合成
部6は、上記次数情報の示す次数Nが「10」か否かを
判定する(ステップS8)。
【0035】音声合成部6は、ステップS8の判定の結
果、次数Nが「10」であれば、上記ステップS10の
1サンプリングデータ出力処理へジャンプする。これに
対し、次数Nが「10」以外であれば、音声合成部6
は、上記ステップS7で生成されたデータを入力として
音韻パラメータC11〜C20のフィルタリングを実行し
(ステップS9)、しかる後にステップS10の1サン
プリングデータ出力処理へ移る。
【0036】このように本実施例では、次数情報の示す
次数Nが「6」のときはC1 〜C6のフィルタリング
を、「10」のときはC1 〜C10のフィルタリングを、
それ以外のときはC1 〜C20のフィルタリングを実行す
る。
【0037】音声合成部6は、ステップS10の1サン
プリングデータ出力処理を終了すると、カウンタ変数
「i」を「1」だけ減算し(ステップS11)、この
「i」が「0」より大きいか否かを判定する(ステップ
S12)。もし、「i」が「0」より大きいならば、音
声合成部6は、次の1サンプル分の音源生成と次数N分
のフィルタリング処理のために上記ステップS4以降の
処理に戻り、そうでなければ、即ちPサンプル(P=
[フレーム周期]/[サンプリング周期])分のステッ
プS4〜S12の処理が実行されたならば、フレーム番
号を示すカウンタ変数「j」を1だけ加算する(ステッ
プS13)。
【0038】このようにして音声合成部6は、P回だけ
ステップS4〜S12の処理を実行して、1フレーム
(Pサンプル)分の音声データを生成する。そして1フ
レーム(Pサンプル)分の音声データを生成すると、即
ちカウンタ変数「i」が「0」より大きい状態ではなく
なると、音声合成部6はカウンタ変数「j」が音声合成
すべきフレーム数「F」以下か否かを判定し(ステップ
S14)、「F」以下であれば次の1フレームについて
の音声データ生成のためにステップS2以降の処理に戻
り、「F」を超えていれば処理を終える。
【0039】このようにして、音声合成部6はF回だけ
ステップS2〜S14の処理を実行して、Fフレーム分
の音声データを生成する。なお、図2のフローチャート
では、N=6,10以外のときはすべてC1 〜C20のフ
ィルタリングを行うことになるが、本実施例では、入力
部1により入力される次数情報で指定可能な次数Nは、
6,10,20の3つに限られており、それ以外の次数
は指定されないものとする。
【0040】このように構成された音声合成装置におい
て、例えば次数「20」(N=20)を示す次数情報が
入力部1に与えられたとする。サンプリング周期が12
5μs、フレーム周期が10msであるとすると、図2
におけるPは「80」となる。また、音声素片ファイル
4には各音節に対応するケプストラムパラメータがC0
〜C20まで格納されているものとする。
【0041】合成パラメータ生成部5は、言語処理部3
で生成された音韻系列の各音韻に対応する指定次数分の
ケプストラムパラメータC0 〜C20を音声素片ファイル
4から抽出すると共に韻律情報に従って韻律パラメータ
を生成する。なお、ここで得られたパラメータの全フレ
ームFの数が500であるとすると、音韻パラメータは
21×500=10500個、韻律パラメータは500
個である。
【0042】音声合成部6は、合成パラメータ生成部5
によって生成された10500個の音韻パラメータと5
00個の韻律パラメータの中から、最初の1フレーム分
の音韻パラメータC0 〜C20および韻律パラメータから
なる合成パラメータR1 を入力し(ステップS3)、音
韻パラメータC0 と韻律パラメータに基づいて音源を生
成する(ステップS4)。次に音声合成部6は、音源デ
ータを合成フィルタに入力すると共に、音韻パラメータ
C1 〜C20を用いてフィルタリングを実行する(ステッ
プS5〜S12)。音声合成部6は、以上のステップS
4〜S12の処理を80回(80サンプル分)行う。
【0043】その後、音声合成部6は、次の1フレーム
分の合成パラメータR2 を入力し(ステップS3)、ス
テップS4〜S12の処理を80回行う。そして音声合
成部6は、これらの一連の処理(ステップS2〜S1
4)を500回(500フレーム分)行う。音声データ
は、これらの処理中のステップS10にて出力される。
【0044】即ち上記の例では、C1 〜C20を用いた合
成フィルタリングはF×P=500×80=4000回
実行される。このとき、C1 〜C6 のフィルタリング1
回に要する時間をT1、C7 〜C10のフィルタリング1
回に要する時間(ステップS7,S8)をT2、C11〜
C20のフィルタリング1回に要する時間(ステップS
9)をT3とし、図2のフローチャートに示す一連の処
理のうち、その他の処理に要する時間をT4とすると、
発声時間5秒(フレーム周期10msのフレーム500
個分)の音声データを生成するのに必要な音声合成部6
における全処理時間は4000×(T1+T2+T3)
+T4となる。
【0045】次に、上述と同様の設定条件で次数情報の
示す次数Nを「6」とすると、音声素片ファイル4から
抽出される音韻パラメータはC0 〜C6 であり、7×5
00=3500個となる。N=6のため、音声合成部6
におけるステップS7〜S9の処理は行われない。この
場合の全処理時間は4000×T1+T4となり、次数
20の場合と比べて4000×(T2+T3)だけ短縮
される。
【0046】また、ケプストラムパラメータは一般に次
数が高いほど周波数のスペクトル包絡特性が良くなると
いう性質があり、低いほどスペクトルの包絡線がなまる
傾向にある。即ち、次数が高いほど品質の高い合成音声
が生成され、逆に次数が低いと品質の低い合成音声が生
成されるために、次数を選択することにより品質の異な
った合成音声を生成できる。例えば、合成音声を長時間
聞く場合には低い次数を選択すればよい。
【0047】以上、説明してきたように上述の処理機能
を備えた本実施例装置によれば、音韻パラメータの次数
に応じたフィルタリングを実行することによって、合成
フィルタリングにおける計算量の増減が可能となる。ま
た、次数を変えることによって合成音声の品質を変える
ことが可能である。
【0048】なお、上記第1実施例では、入力部1から
入力される次数情報により予め定められたケプストラム
パラメータの3種の次数のうちの1つが直接指定される
場合について説明したが、「1,2,3」あるいは
「A,B,C」等の合成音声の品質を表す情報として入
力し、装置内部で音韻パラメータの次数と対応付けても
構わない。また、指定できる次数も3種に限定する必要
はない。
【0049】また上記第1実施例では、合成パラメータ
の生成、音源の生成、合成フィルタリング等がソフトウ
ェア処理によって行われるシステムに実施した場合につ
いて説明したが、これらの処理が専用のハードウェアで
行われるシステムであってもよく、次数を変えることに
よって合成音声の品質を変えることができる。 [第2実施例]次に、本発明の第2実施例を説明する。
図3は同実施例に係る音声合成装置の概略構成を示すブ
ロック図である。
【0050】図3に示す音声合成装置は、音声合成の対
象とする漢字かな混じりの文字コード列と、合成音声の
制御情報の入力を司る入力部11を有する。この制御情
報は、例えば後述する音声合成部16内の合成フィルタ
に入力すべき合成パラメータの次数を選択指定するため
の情報(次数情報)、あるいは音声合成部16における
合成フィルタの構成の情報(構成情報)からなる。
【0051】図3に示す音声合成装置はまた、図1に示
す音声合成装置内の単語辞書2、言語処理部3、音声素
片ファイル4と同様の単語辞書12、言語処理部13、
音声素片ファイル14の他、言語処理部13にて生成さ
れた音韻系列および予め定められている次数情報(ここ
では、次数20を示す次数情報)に従う音韻パラメータ
(ここでは、音韻のケプストラムパラメータ)の生成を
行う合成パラメータ生成部15を有する。合成パラメー
タ生成部15は、言語処理部3にて生成された韻律情報
に従う韻律パラメータの生成も行う。
【0052】図3に示す音声合成装置はまた、音声合成
部16と、音声出力用のスピーカ17とを有する。音声
合成部16は、合成パラメータ生成部15によって生成
された音韻パラメータ、その次数情報および韻律パラメ
ータをもとに、音源の生成と、モード切り換え部11か
ら与えられる次数情報あるいは構成情報に従う次数N分
あるいは選択されたフィルタ構成での合成フィルタリン
グ処理を行う。なお、音声合成部16において合成音声
をアナログ信号に変換するためのD/A変換器などは省
略されている。
【0053】図3に示す音声合成装置はまた、CPU使
用率に対応する音韻パラメータの次数、あるいは音声合
成部16における合成フィルタの構成を表す情報、入力
部11または後述する速度制御部20のいずれからの次
数あるいは構成の情報を選択するかを示すモード切り換
え情報、およびCPU使用率抽出のタイミングを表す情
報(タイミング情報)等が格納されている速度情報ファ
イル18と、CPU使用率抽出部19とを有する。CP
U使用率抽出部19は、速度制御部20から指示される
都度、音声合成処理以外のタスク処理のCPU使用率を
抽出するものである。このCPU使用率は、例えば音声
合成処理以外のタスク処理のプロセスIDを全て検出
し、個々のプロセスIDのCPU使用率を抽出し、それ
らのCPU使用率を全て足し合わせることで求めること
ができる。また、音声合成に要する処理を一時中断し、
その間に全てのタスクにおけるCPU使用率を抽出する
ことでも求めることが可能である。
【0054】図3に示す音声合成装置は更に、速度制御
部20と、モード切り換え部21とを有する。速度制御
部20は、CPU使用率抽出部19で求められるCPU
使用率に対応する次数あるいは構成の情報を速度情報フ
ァイル18から得て、その情報をモード切り換え部21
に与える。また速度制御部20は、速度情報ファイル1
8上で上記のタイミング情報を参照し、同情報に従って
CPU使用率抽出指示をCPU使用率抽出部19に与え
る。モード切り換え部21は、入力部11から与えられ
る次数あるいは構成情報と速度制御部20から与えられ
る次数あるいは構成情報とのいずれか一方を、例えば速
度情報ファイル18に格納されているモード切り換え情
報に基づいて選択し音声合成部16に与える。
【0055】以上の構成の図3の音声合成装置は、図1
に示す音声合成装置と同様に、パーソナルコンピュータ
(PC)やエンジニアリング・ワーク・ステーション
(EWS)によって実現されるもので、入力部11、言
語処理部13、合成パラメータ生成部15、音声合成部
16(内の音源生成、フィルタリング処理部分)、CP
U使用率抽出部19、速度制御部20およびモード切り
換え部21は、CPUのプログラム処理(音声合成処理
用タスクの実行)によって実現される機能ブロックであ
る。
【0056】次に、図3に示す音声合成装置の全体の動
作を、図4および図5のフローチャートを参照して説明
する。この図4のフローチャートは、音韻パラメータの
次数を変えることによって、音声合成における処理速度
を増減できるようにした場合の処理の流れを示し、図5
のフローチャートは図4のフローチャート中の特定処理
(A)の流れを示すものである。
【0057】なお、速度情報ファイル18には、図6
(a)に示すように音韻パラメータの次数N(ここで
は、NとしてQ1 ,Q2 ,Q3 の3種、但しQ1 =2
0,Q2 =10,Q3 =6)を用いてリアルタイムに音
声合成するのに必要な平均処理速度の値(Q1 =20の
とき処理速度P1 =29、Q2 =10のとき処理速度P
2 =20、Q3 =6のとき処理速度P3 =10)が格納
されているものとする。次数Q1 =20,Q2 =10,
Q3 =6でそれぞれ音声合成するときに音声合成処理以
外でCPUが使用可能な割合の上限値a,b,cは次式
で表される。 a=100%−(処理速度P1/CPU速度)×100% b=100%−(処理速度P2/CPU速度)×100% c=100%−(処理速度P3/CPU速度)×100%
【0058】したがって、CPUの速度を30MIPS
とすると、次数Q1 =20,Q2 =10,Q3 =6でそ
れぞれ音声合成するときのa,b,cは、P1 =29,
P2=20,P3 =10であることから、それぞれ3
%,33%,67%となる。明らかなように、音声合成
処理以外のタスク処理におけるCPU使用率が、この
a,b,cの値を上回っている場合には、次数Q1 =2
0,Q2 =10,Q3 =6での音声合成をリアルタイム
に行うことはできない。
【0059】また、速度情報ファイル18には、図6
(b)に示すように、入力部11からの次数あるいは構
成の情報を選択することを指定する値が「1」のモード
切り換え情報、および速度制御部20からの次数あるい
は構成の情報を選択することを指定する値が「2」のモ
ード切り換え情報のうちのいずれか一方が格納されてい
るものとする。更に速度情報ファイル18には、図6
(b)に示すように、CPU使用率の抽出を、1フレー
ム毎に行うことを指定する値「1」のタイミング情報、
1アクセント句毎に行うことを指定する値「2」のタイ
ミング情報、ポーズで挟まれたアクセント句毎に行うこ
とを指定する値「3」のタイミング情報、1文毎に行う
ことを指定する値「4」のタイミング情報、段落毎に行
うことを指定する値「5」のタイミング情報、および初
めの1回のみ行うことを指定する値「6」のタイミング
情報のうちのいずれか一方が格納されているものとす
る。
【0060】さて、図3の音声合成装置においては、ま
ず速度制御部20により、変数mが「6」に初期設定さ
れる(ステップS21)。この変数mは、CPU使用率
を抽出するか否かの判定(ステップS42)に使用され
るものである。速度制御部20は、ステップS21を終
了すると、速度情報ファイル18に格納されているモー
ド切り換え情報の値を判定する(ステップS22)。
【0061】もし、モード切り換え情報の値が「1」の
ときは、入力部11から与えられる次数情報がモード切
り換え部21によって有効とされる(ステップS2
3)。これに対してモード切り換え情報の値が「2」の
ときは、後述するようにCPU使用率に応じて速度制御
部20により決定される次数情報がモード切り換え部2
1によって有効とされる。
【0062】その後、入力部11により、音声合成の対
象とする漢字かな混じりの文字コード列が入力される
と、その入力文字コード列から句点、改行などの区切り
を単位に1文として抽出される。言語処理部13は、入
力部11により入力・抽出された1文と単語辞書12と
を照合し、この1文(を構成する入力文字コード列)が
示す音声合成の対象となっている単語や句等についての
アクセント型、読み、品詞情報を求め、その品詞情報に
従うアクセント型・境界の決定、および漢字かな混じり
文の読みの形式への変換を行い、音声記号列(音韻系列
と韻律情報)を生成する(ステップS24)。
【0063】すると合成パラメータ生成部15は、言語
処理部13により生成された音声記号列から1アクセン
ト句を切り出し、そのアクセント句における音韻系列に
対応する音韻のケプストラムパラメータを音声素片ファ
イル14より抽出して音韻パラメータを生成すると共に
韻律情報に従って韻律パラメータを生成する(ステップ
S25)。ここでの音韻パラメータの生成は、前記第1
実施例における合成パラメータ生成部5での音韻パラメ
ータ生成と異なって、音声素片ファイル14に登録され
ている全ての次数(ここでは、「20」)分の音韻のケ
プストラムパラメータを使用して行われる。次に処理
(A)が、図5のフローチャートに従って次のように実
行される(ステップS26)。処理(A)では、まず、
速度制御部20により、速度情報ファイル18に格納さ
れているモード切り換え情報の値が判定される(ステッ
プS41)。もし、モード切り換え情報の値が「1」の
ときは、何も処理しないで本処理が呼ばれた次のステッ
プ(図4ステップS27)へリターンする。
【0064】これに対してモード切り換え情報の値が
「2」のときは、速度情報ファイル18に格納されてい
るタイミング情報の値が速度制御部20により判定され
る(ステップS42)。もし、タイミング情報の値が、
その時点の変数mの値(ここでは「6」)より大きいと
きは、何も処理しないで図4のステップS27へリター
ンする。
【0065】一方、タイミング情報の値が、その時点の
変数mの値(ここでは「6」)以下のときは、速度制御
部20は、音声合成処理以外のタスク処理におけるCP
U使用率をCPU使用率抽出部19により抽出させる
(ステップS43)。そして速度制御部20は、CPU
使用率抽出部19によって抽出されたCPU使用率の値
を判定し(ステップS44)、「a(3%)」以下のと
きは、Q1 、即ち「20」を次数Nに設定する(ステッ
プS45)。また速度制御部20は、CPU使用率が
「a(3%)」より大きく、且つ「b(33%)」以下
のときは、Q2 、即ち「10」を次数Nに設定し(ステ
ップS46)、それ以外、即ち「b(33%)」より大
きいときはQ3 、即ち「6」を次数Nに設定する(ステ
ップS47)。速度制御部20は、ステップS45〜S
47のいずれかを実行すると、図4のステップS27へ
リターンする。なお、CPU使用率が「c(67%)」
より大きい場合には、「6」を次数Nに設定しても、音
声合成をリアルタイムに行うことは困難となる。
【0066】以上の説明から明らかなように、図4のス
テップS25およびステップS26(図5のフローチャ
ートに示す処理(A))は、モード切り換え情報が
「2」で、タイミング情報が「6」以下のときに、音声
合成する前に次数情報(N)を設定するための処理であ
る。
【0067】さて、ステップS27では、先のステップ
S25で合成パラメータ生成部15により生成された
(1アクセント句の)合成パラメータに基づいて、音声
合成部16にて音源の生成とディジタルフィルタリング
処理とが1フレーム分行われ、音声波形が生成される。
この際、合成パラメータ中の音韻パラメータから次数N
分だけ抽出されて、音韻パラメータN次分のフィルタリ
ングが行われる。この次数Nは、モード切り換え情報が
「1」のときは、ステップS23で設定されるものであ
り、入力部11から入力される次数である。またモード
切り換え情報が「2」のときは、CPU使用率に応じて
ステップS45〜47のいずれかで設定されるものであ
る。
【0068】音声合成部16は上記ステップS27を終
了すると、変数mを「1」に設定する(ステップS2
8)。ここで、1アクセント句の処理が終了したか否か
の判定が行われ(ステップS29)、終了していないと
きは、ステップS26を経てステップS27に戻り、同
じ1アクセント句についての次の1フレーム分のフィル
タリングが行われる。また、1アクセント句の処理が終
了したときは、音声合成部16は、生成した1アクセン
ト句分の音声波形を図示せぬD/A変換器によりアナロ
グ信号に変換してスピーカ17に出力する(ステップS
30)。実際には、この音声出力中に次の処理が並行し
て実行される。
【0069】上記ステップS26〜S29の処理は、1
つのアクセント句に対する音声波形が全て生成されるま
で繰り返し行われる。ここで、ステップS28により変
数mが「1」に設定された後のステップS26(処理
(A))では、図5のフローチャートから明らかなよう
に、モード切り換え情報が「2」で、しかもタイミング
情報が変数mの値以下、即ち「1」以下のときのみ、C
PU使用率の抽出とそれに対する次数の設定(再設定)
が行われ、それ以外のときは次数の設定は行われない。
したがって、タイミング情報が「1」のときはCPU使
用率の抽出と次数設定が1フレーム毎に行われることに
なる。
【0070】音声合成部16は上記ステップS30を終
了すると、変数mを「2」に設定する(ステップS3
1)。ここで、1文の処理が終了したか否かの判定が行
われ(ステップS32)、終了したときは、音声合成す
べき文の全ての処理が終了したか否かの判定が行われる
(ステップS36)。また、1文の処理がまだ終了して
いないときは、その文における次のアクセント句に対し
て合成パラメータ生成部15による合成パラメータの生
成が(前記ステップS25と同様に)行われる(ステッ
プS33)。この際、合成パラメータ生成部15は、新
たに生成した合成パラメータに対応するアクセント句と
その直前のアクセント句との間にポーズを表す記号があ
るか否かを判定する(ステップS34)。
【0071】もし、ポーズを表す記号がないときは、そ
のままステップS26を経てステップS27に戻り、ポ
ーズを表す記号があるときは、変数mが「3」に設定さ
れた後(ステップS35)、ステップS26を経てステ
ップS27に戻り、同じ1アクセント句についての次の
1フレーム分のフィルタリングが行われる。
【0072】ここで、上記ステップS31により変数m
が「2」に設定された後、ステップS32,S33,S
34を経てステップS26(処理(A))が行われた場
合には、図5のフローチャートから明らかなように、モ
ード切り換え情報が「2」で、しかもタイミング情報が
「2」以下のときのみ、CPU使用率の抽出とそれに対
する次数の設定が行われ、それ以外のときは次数の設定
は行われない。したがって、タイミング情報が例えば
「2」のときはCPU使用率の抽出と次数設定が1アク
セント句毎に行われることになる。
【0073】また、上記ステップS35により変数mが
「3」に設定された後にステップS26(処理(A))
が行われた場合には、図5のフローチャートから明らか
なように、モード切り換え情報が「2」で、しかもタイ
ミング情報が「3」以下のときのみ、CPU使用率の抽
出とそれに対する次数の設定が行われ、それ以外のとき
は次数の設定は行われない。したがって、タイミング情
報が例えば「3」のときはCPU使用率の抽出と次数設
定がポーズで挟まれたアクセント句毎に行われることに
なる。
【0074】上記ステップS26〜S35の処理は、1
文に対する音声波形が生成されるまで繰り返し行われ
る。もし、1文に対する処理が終了した場合には、入力
部11により入力された文章についての処理が全て終了
したか否かの判定が行われ(ステップS36)、終了の
ときは音声合成の処理を終える。
【0075】もし、文章が終了してないときは、入力部
11は変数mを「4」に設定した後(ステップS3
7)、1段落が終了したか否かを判定する(ステップS
38)。1段落が終了していないときは、そのままステ
ップS24の処理に戻り、終了しているときは、入力部
11によって変数mが「5」に設定された後(ステップ
S39)、ステップS24の処理に戻り、次の1文につ
いての言語処理が言語処理部13により行われる。ここ
で、ステップS38での段落の検出は、例えば対象とな
る文の末尾が改行で、しかも次の行に字下げが生じてい
ることをもって行われる。
【0076】さて、上記ステップS37により変数mが
「4」に設定された後、ステップS38,S24,S2
5をへてステップS26(処理(A))が行われた場合
には、図5のフローチャートから明らかなように、モー
ド切り換え情報が「2」で、しかもタイミング情報が
「4」以下のときのみ、CPU使用率の抽出とそれに対
する次数の設定が行われ、それ以外のときは次数の設定
は行われない。したがって、タイミング情報が例えば
「4」のときはCPU使用率の抽出と次数設定が1文毎
に行われることになる。
【0077】また、上記ステップS39により変数mが
「5」に設定された後、ステップS24,S25をへて
ステップS26(処理(A))が行われた場合には、図
5のフローチャートから明らかなように、モード切り換
え情報が「2」で、しかもタイミング情報が「5」以下
のときのみ、CPU使用率の抽出とそれに対する次数の
設定が行われ、それ以外のときは次数の設定は行われな
い。したがって、タイミング情報が例えば「5」のとき
はCPU使用率の抽出と次数設定が1段落毎に行われる
ことになる。
【0078】以上に述べた図3に示す音声合成装置の音
声合成処理の具体例を、図7(a)に示すような文章
「今度の会議は、5月10日に決まりました。都合の悪
い方は、山田までお知らせ下さい。」が入力部11に入
力された場合について説明する。なお、この図7(a)
に示す文章が入力されてから音声出力が終えるまでのC
PU使用率の時間的変化は図7(b),(c)に示され
る通りであり、速度情報ファイル18に格納(設定)さ
れているモード切り換え情報およびタイミング情報はい
ずれも「2」であるものとする。
【0079】まず、変数mが「6」に設定される(ステ
ップS21)。次のステップS22においてはモード切
り換え情報が「2」であると判定され、したがってステ
ップS24の処理に移る。このステップS24では、入
力部11により、入力された文章から「今度の会議は、
5月10日に決まりました。」なる1文が検出され、こ
の1文に対して言語処理部13により図7(b)に示す
ような音声記号列「コ^ンドノ/カ^イギワ../ゴ^
ガツ/トーカニ./キマリマ^シタ......//」
が生成される。なお、図の音声記号列中の記号“^”は
アクセント位置を、記号“/”はアクセント句の区切り
を、記号“.”はポーズ(無音区間)を、それぞれ示
す。
【0080】次に図7(b)に示す音声記号列から最初
のアクセント句「コ^ンドノ」が切り出され、その合成
パラメータが合成パラメータ生成部15にて生成される
(ステップS25)。
【0081】続いてステップS6の処理、即ち処理
(A)が実行される。この処理(A)では、モード切り
換え情報「2」、タイミング情報「2」であることか
ら、ステップS41,S42,S43,S44の順に処
理される。ここで(ステップS43で)抽出される音声
合成処理以外のタスクにおけるCPU使用率は図7
(b)におけるy1であり、「3%(a)」以下なの
で、(ステップS45〜S47のうちの)ステップS4
5の処理が実行され、次数NにはQ1 (=20)が設定
される。次にその次数「20」で1フレーム分のフィル
タリングが実行される(ステップS27)。
【0082】そして、上記ステップS26,S27、更
にそれに続くステップS28,S29の処理の繰り返し
によって、アクセント句「コ^ンドノ」に対する音声波
形が生成される。この間、変数mが「1」に設定されて
処理(A)(ステップS26)が実行されるが、タイミ
ング情報が「1」以下でないため、CPU使用率の抽出
や新たな次数Nの設定は行われない。生成された1アク
セント句の音声波形は、図示せぬD/A変換器に転送さ
れスピーカ7を通して音声出力される(ステップS3
0)。
【0083】次に変数mが「2」に設定された後(ステ
ップS31)、1文の処理が終了したか否かが判定され
(ステップS32)、終了していないため次のアクセン
ト句「カ^イギワ」に対して合成パラメータが生成され
る(ステップS33)。そして、先のアクセント句「コ
^ンドノ」と新たなアクセント句「カ^イギワ」の間に
ポーズ記号があるか否かが判定され(ステップS3
4)、ポーズ記号がないため、そのまま処理(A)(ス
テップS26)の処理に戻る。
【0084】この処理(A)においては、「m=2」で
あるから、ステップS41,S42を経てステップS4
3が実行される。このステップS43の実行により抽出
される他のタスクにおけるCPU使用率は図7(b)に
おけるy2であり、「33%(b)」より大きいため、
ステップS44を経てステップS47の処理が実行さ
れ、次数NにはQ3 (「6」)が設定される。
【0085】その後、ステップS27〜S33まで前述
と同様の処理が行われるが、次のステップS34におい
て「カ^イギワ」と「ゴ^ガツ」の間にポーズを表す記
号が存在することが判定されるため、ステップS35に
移って変数mが「3」に設定される。
【0086】次に処理(A)(ステップS26)に戻
る。ここでは、モード切り換え情報が「2」、タイミン
グ情報が「2」のため、ステップS41,S42を経て
ステップS43が実行される。このステップS43の実
行により抽出される他のタスクにおけるCPU使用率は
図7(b)におけるy3であり、「3%(a)」より大
きく「33%(b)」以下なので、ステップS44を経
てステップS46の処理が実行され、次数NにはQ2
(「10」)が設定される。
【0087】その後、前述と同様の処理が行われ、「キ
マリマ^シタ......//」の音声出力が行われる
と(ステップS30)、次のステップS31に続くステ
ップS32で1文の終わりと判定される。この場合、ス
テップS36,S37を経て段落の終了判定が行われ
(ステップS38)、段落はないためステップS24の
処理に戻る。
【0088】このようにして図7(b)に示す音声記号
列の音声が図7(d)に示すような次数で生成される。
また、この音声記号列に続く図7(c)に示す音声記号
列に対しても前述と同様の処理が行われ、図7(e)に
示すような次数で合成フィルタリングが実行され音声波
形が生成される。
【0089】なお、前述の例では、タイミング情報が
「2」の場合を示したが、「3」である場合は図7
(f),(g)の上の段の下線に示した次数で、「4」
である場合は図7(f),(g)の下の段の下線に示し
た次数で、それぞれ合成フィルタリングが実行され音声
波形が生成される。
【0090】また、前述の例では、音声合成処理におけ
る処理速度の増減を、音韻パラメータの次数を可変にし
て合成フィルタリングを実行することによって実現して
いるが、これに限るものではない。例えば合成フィルタ
(合成器)の内部構成を変えることによって音声合成に
おける処理速度の増減を行うようにすることも可能であ
る。
【0091】以下、合成フィルタの内部構成を変えるこ
とによって音声合成における処理速度の増減を行う例を
説明する。ここでは、音声合成するための音韻パラメー
タとしてケプストラムを用いることとする。
【0092】ケプストラム分析されたケプストラムパラ
メータ(音韻パラメータ)は、図3に示す音声合成部1
6内で、そのパラメータを直接係数とする対数振幅近似
フィルタ(LMAフィルタ)によって合成される。この
音声合成部16におけるLMAフィルタの構成を図8に
示す。
【0093】図8の構成では、フィルタ選択部31と、
このフィルタ選択部31により選択可能な3種のフィル
タ、即ちフィルタ(#A)32、フィルタ(#B)33
およびフィルタ(#C)34が設けられている。
【0094】さて、音声合成部16において生成された
音源データは、図8のフィルタ選択部31に入力され
る。このフィルタ選択部31には、モード切り換え部2
1から使用フィルタ(F)を示す構成情報が与えられ
る。この構成情報は、後述するように、図5のステップ
S45,S46,S47の次数設定処理に相当する処理
により設定されるものである。
【0095】フィルタ選択部31は、モード切り換え部
21からの構成情報に基づいて、フィルタ(#A)3
2、フィルタ(#B)33およびフィルタ(#C)34
のうちのいずれか1つを選択し、音声合成部16におい
て生成された音源データをその選択したフィルタに与え
る。これにより、入力された音源データは、3種のフィ
ルタ32〜34のうちの選択されたフィルタでフィルタ
リングされ、同フィルタから音声波形データが出力され
る。
【0096】ここで、上記3種のフィルタ(#A)3
2,(#B)33,(#C)34における伝達関数HA
(z),HB(z),HC(z)、および指数関数exp(w) の修
正pade近似式を以下に示す。なお以下の式では、フ
ィルタ32,33,34を便宜上フィルタA,B,Cで
表現している。
【0097】
【数1】
【0098】以上のフィルタ(#A)32,(#B)3
3,(#C)34における伝達関数HA(z),HB(z),H
C(z)、および指数関数exp(w) の修正pade近似式
から明らかなように、フィルタ(#A)32の修正pa
de近似式の次数を2倍したものがフィルタ(#B)3
3であり、同じく4倍したものがフィルタ(#C)34
である(ただし、C15〜C20はそれぞれ1次)。
【0099】一般に近似誤差を少なくするためには修正
pade近似式の次数を高くするか、基礎フィルタwの
値を小さくする必要がある。また、ケプストラムパラメ
ータは一般に次数が低いほど値が大きい。
【0100】したがって、値が大きいケプストラムパラ
メータC1 は他より大きな修正pade近似式の次数で
構成され、逆にケプストラムパラメータの次数が高くな
るにつれて小さな修正pade近似式の次数で構成さ
れ、更に幾つかのケプストラムパラメータは1つの基礎
フィルタで構成される。即ち、フィルタ(#C)34は
他のフィルタと比べて最も近似誤差が少ない(合成音の
品質が高い)が、修正pade近似式の次数が高いため
計算量が多い(フィルタリングに要する時間が他と比べ
て多い)。それに比べてフィルタ(#A)32の近似誤
差は多い(合成音の品質が低い)が、修正pade近似
式の次数が低いため計算量が少ない(フィルタリングに
要する時間が他と比べて少ない)。
【0101】そこで、速度情報ファイル18に、図9に
示すような、フィルタ構成とそのフィルタを使用した場
合の音声合成に要する処理速度との関係を示す情報(構
成情報)を格納しておき、この情報と図6(b)の情報
を用い、図5のフローチャートにおけるステップS45
を「フィルタF←Q1 」、ステップS46を「フィルタ
F←Q2 」、ステップS47を「フィルタF←Q3 」に
変更し、図4のフローチャートにおけるステップS27
を「1フレーム分のフィルタリングをフィルタFで実
行」に変更すれば、フィルタ構成による処理時間の増減
を、前述した音韻パラメータの次数による処理時間の増
減と同様に処理することができる。
【0102】以上、説明してきたように、第2実施例に
よれば、任意のタイミングで他のタスク処理のCPU使
用率を抽出し、その値によって音韻パラメータの次数、
あるいはフィルタの構成を決定し、その次数あるいはフ
ィルタでフィルタリングを実行することによって、音声
合成処理中に他のタスク処理におけるCPU使用率が変
化してもリアルタイム処理が可能となる。
【0103】なお、本発明は上述した第2実施例に限定
されるものではない。即ち、第2実施例では、指定でき
る次数あるいはフィルタの構成を3種に限定したが、特
に限定する必要はない。
【0104】また、実施例では、修正pade近似式の
次数だけを変えることによってフィルタの構成を変えた
が、基礎フィルタwの構成を変えても構わない。更に実
施例では、音韻パラメータの次数、フィルタの構成を別
々に説明したが、音韻パラメータの次数に応じてフィル
タの構成を変えても構わない。
【0105】また、実施例では、CPU使用率抽出部9
が音声合成処理以外のタスク処理におけるCPU使用率
を抽出するものとして説明したが、全てのタスク処理に
おけるCPU使用率を抽出し、予め音声合成処理におけ
るCPU使用率を加味した上で処理してもよい。
【0106】また、実施例では、音韻パラメータの次数
や合成フィルタの構成情報が、CPU使用率を抽出する
ことによりその使用率に応じて決定されるモード(自動
モード)、またはその情報が入力部11を通して利用者
から与えられるモード(手動モード)が、速度情報ファ
イル18に格納されているモード切り換え情報によって
選択的に設定されるものとして説明したが、これに限る
ものではない。例えば、通常は自動モードを選択し、情
報が入力部1に与えられたときだけその情報に従った処
理を実行しても良い。
【0107】また、実施例では、音韻パラメータとして
ケプストラムパラメータを用いたが、他の音韻パラメー
タ例えばLSPパラメータやホルマント周波数等を使用
しても良い。LSP合成やホルマント合成の場合には、
分析次数に対応した音声素片ファイル14が複数必要に
なる。要するに本発明はその要旨を逸脱しない範囲で種
々変形して実施することができる。
【0108】
【発明の効果】以上説明したように本発明によれば、音
韻パラメータの次数を変えることによって合成フィルタ
リングの計算量が増減できるため、合成フィルタリング
を含む音声合成処理をCPUの特定のタスク処理によっ
て行うシステムでは、CPU使用率が多い場合は低い次
数を、少ない場合は高い次数を設定することにより、リ
アルタイムに音声合成を行うことができる。また、音韻
パラメータの次数を変えることによって、合成音の品質
を任意に変えることもできる等の実用上多大なる効果が
奏せられる。
【0109】また本発明によれば、CPU使用率を任意
のタイミングで抽出してその使用率に応じて音韻パラメ
ータの次数または合成フィルタの構成を変えて合成フィ
ルタリングを実行することによって、リアルタイム性を
確保しつつ品質の高い合成音声が生成できる。また、音
声合成する都度、利用者が次数情報、あるいはフィルタ
の構成情報を指定することなく、そのときのCPU負荷
に応じて自動的に選択される等の実用上多大なる効果が
奏せられる。
【図面の簡単な説明】
【図1】本発明の第1実施例を示す音声合成装置のブロ
ック構成図。
【図2】上記第1実施例における音声合成部6の処理の
流れを説明するためのフローチャート。
【図3】本発明の第2実施例を示す音声合成装置のブロ
ック構成図。
【図4】上記第2実施例における音声合成処理の流れを
説明するためのフローチャート。
【図5】図4のフローチャート中の特定処理(A)の流
れを説明するためのフローチャート。
【図6】上記第2実施例における速度情報ファイル18
内の格納情報例を示す図。
【図7】上記第2実施例における音声合成処理の結果の
具体例を入力文章と共に示す図。
【図8】上記第2実施例における音声合成部16内のフ
ィルタ構成を示す図。
【図9】上記第2実施例において、フィルタ構成の切り
換えにより処理時間の増減を行うのに必要な速度情報フ
ァイル18内の格納情報例を示す図。
【符号の説明】
1,11…入力部、2,12…単語辞書、3,13…言
語処理部、4,14…音声素片ファイル、5,15…合
成パラメータ生成部、6,16…音声合成部、7,17
…スピーカ、18…速度情報ファイル、19…CPU使
用率抽出部、20…速度制御部、21…モード切り換え
部、31…フィルタ選択部、32…フィルタ(#A)、
33…フィルタ(#B)、34…フィルタ(#C)。

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 音韻系列に従って対応する音韻パラメー
    タを生成すると共に韻律情報に従って韻律パラメータを
    生成し、これら音韻パラメータおよび韻律パラメータに
    従い音声を合成する音声合成方法において、 音韻パラメータの次数、あるいは合成音の品質を表す情
    報を入力し、前記生成された音韻パラメータおよび韻律
    パラメータをもとに、この入力情報に応じた次数の合成
    フィルタリングを実行して合成音声を生成するようにし
    たことを特徴とする音声合成方法。
  2. 【請求項2】 音韻系列に従って対応する音韻パラメー
    タを生成すると共に韻律情報に従って韻律パラメータを
    生成し、これら音韻パラメータおよび韻律パラメータに
    従い音声を合成する音声合成方法において、 音声合成に用いる合成器の構成、音韻パラメータの次
    数、あるいは合成音の品質を表す情報を入力し、前記生
    成された音韻パラメータおよび韻律パラメータをもと
    に、前記入力された情報に応じた構成の合成器を用いた
    合成フィルタリング、あるいは前記入力された情報に応
    じた次数の合成フィルタリングを実行して合成音声を生
    成するようにしたことを特徴とする音声合成方法。
  3. 【請求項3】 音韻系列に従って対応する音韻パラメー
    タを生成すると共に韻律情報に従って韻律パラメータを
    生成し、これら音韻パラメータおよび音韻パラメータに
    従い音声を合成する音声合成処理をCPU処理により実
    行する音声合成方法において、 前記CPUの使用率を抽出して、そのCPU使用率に応
    じた音声合成のための合成器の構成、あるいは音韻パラ
    メータの次数を決定し、前記生成された音韻パラメータ
    および韻律パラメータをもとに、前記決定した構成の合
    成器を用いた合成フィルタリング、あるいは前記決定し
    た次数の合成フィルタリングを実行して合成音声を生成
    するようにしたことを特徴とする音声合成方法。
  4. 【請求項4】 前記CPU使用率の抽出タイミングが、
    フレーム単位、アクセント句単位、ポーズ単位、1文単
    位、段落単位および初めの1回のみの各タイミングのう
    ちの予め定められている複数の候補の中から選択指定さ
    れることを特徴とする請求項3記載の音声合成方法。
  5. 【請求項5】 音韻系列に従って対応する音韻パラメー
    タを生成すると共に韻律情報に従って韻律パラメータを
    生成し、これら音韻パラメータおよび韻律パラメータに
    従い音声を合成する音声合成装置において、 音韻パラメータの次数、あるいは合成音の品質を表す情
    報を入力する手段と、 前記生成された音韻パラメータおよび韻律パラメータを
    もとに、前記入力手段によって入力された情報に応じた
    次数の合成フィルタリングを実行して合成音声を生成す
    る音声合成手段と、 を具備することを特徴とする音声合成装置。
  6. 【請求項6】 音韻系列に従って対応する音韻パラメー
    タを生成すると共に韻律情報に従って韻律パラメータを
    生成し、これら音韻パラメータおよび韻律パラメータに
    従い音声を合成する音声合成装置において、 音声合成のための合成フィルタリングに要する時間がそ
    れぞれ異なる固有の構成の複数の合成器と、 この複数の合成器の1つを指定する情報を入力するため
    の入力手段と、 この入力手段によって入力された情報の指定する合成器
    を前記複数の合成器から選択する選択手段と、 前記生成された音韻パラメータおよび韻律パラメータを
    もとに、前記選択手段によって選択された合成器を用い
    た合成フィルタリングを実行して合成音声を生成する音
    声合成手段と、 を具備することを特徴とする音声合成装置。
  7. 【請求項7】 音韻系列に従って対応する音韻パラメー
    タを生成すると共に韻律情報に従って韻律パラメータを
    生成し、これら音韻パラメータおよび音韻パラメータに
    従い音声を合成する音声合成処理をCPU処理により実
    行する音声合成装置において、 前記CPUの使用率を抽出するCPU使用率抽出手段
    と、 このCPU使用率抽出手段により抽出されたCPU使用
    率に応じて音韻パラメータの次数を決定する制御手段
    と、 前記生成された音韻パラメータおよび韻律パラメータを
    もとに、前記制御手段により決定された次数の合成フィ
    ルタリングを実行して合成音声を生成する音声合成手段
    と、 を具備することを特徴とする音声合成装置。
  8. 【請求項8】 音韻系列に従って対応する音韻パラメー
    タを生成すると共に韻律情報に従って韻律パラメータを
    生成し、これら音韻パラメータおよび音韻パラメータに
    従い音声を合成する音声合成処理をCPU処理により実
    行する音声合成装置において、 音声合成のための合成フィルタリングに要する時間がそ
    れぞれ異なる固有の構成の複数の合成器と、 前記CPUの使用率を抽出するCPU使用率抽出手段
    と、 このCPU使用率抽出手段により抽出されたCPU使用
    率に応じ、合成フィルタリングに適用する合成器の構成
    を決定する制御手段と、 この制御手段によって決定された構成の合成器を前記複
    数の合成器から選択する選択手段と、 前記生成された音韻パラメータおよび韻律パラメータを
    もとに、前記選択手段によって選択された合成器を用い
    た合成フィルタリングを実行して合成音声を生成する音
    声合成手段と、 を具備することを特徴とする音声合成装置。
  9. 【請求項9】 音韻系列に従って対応する音韻パラメー
    タを生成すると共に韻律情報に従って韻律パラメータを
    生成し、これら音韻パラメータおよび音韻パラメータに
    従い音声を合成する音声合成処理をCPU処理により実
    行する音声合成装置において、 第1のモードで音韻パラメータの次数、あるいは合成音
    の品質を表す情報を入力するための入力手段と、 第2のモードで前記CPUの使用率を抽出するCPU使
    用率抽出手段と、 前記第1のモードおよび第2のモードのいずれか一方の
    モードを選択設定するための手段と、 前記CPU使用率抽出手段により抽出されたCPU使用
    率に応じて音韻パラメータの次数、あるいは合成音の品
    質を表す情報を決定する制御手段と、 前記生成された音韻パラメータおよび韻律パラメータを
    もとに、前記第1のモードでは前記入力手段により入力
    された情報に応じた次数の合成フィルタリングを実行
    し、前記第2のモードでは前記制御手段により決定され
    た情報に応じた次数の合成フィルタリングを実行して合
    成音声を生成する音声合成手段と、 を具備することを特徴とする音声合成装置。
  10. 【請求項10】 音韻系列に従って対応する音韻パラメ
    ータを生成すると共に韻律情報に従って韻律パラメータ
    を生成し、これら音韻パラメータおよび音韻パラメータ
    に従い音声を合成する音声合成処理をCPU処理により
    実行する音声合成装置において、 音声合成のための合成フィルタリングに要する時間がそ
    れぞれ異なる固有の構成の複数の合成器と、 第1のモードで前記複数の合成器の1つを指定する情報
    を入力するための入力手段と、 第2のモードで前記CPUの使用率を抽出するCPU使
    用率抽出手段と、 前記第1のモードおよび第2のモードのいずれか一方の
    モードを選択設定するための手段と、 前記CPU使用率抽出手段により抽出されたCPU使用
    率に応じて前記複数の合成器の1つを指定する情報を決
    定する制御手段と、 前記第1のモードでは前記入力手段によって入力された
    情報の指定する合成器を、前記第2のモードでは前記制
    御手段によって入力された情報の指定する合成器を、前
    記複数の合成器から選択する選択手段と、 前記生成された音韻パラメータおよび韻律パラメータを
    もとに、前記選択手段によって選択された合成器を用い
    た合成フィルタリングを実行して合成音声を生成する音
    声合成手段と、 を具備することを特徴とする音声合成装置。
  11. 【請求項11】 前記CPU使用率抽出手段によるCP
    U使用率の抽出タイミングを、フレーム単位、アクセン
    ト句単位、ポーズ単位、1文単位、段落単位および初め
    の1回のみの各タイミングのうちの予め定められている
    複数の候補の中から選択指定するための手段を更に備え
    たことを特徴とする請求項7乃至請求項10のいずれか
    に記載の音声合成装置。
JP04137177A 1992-05-28 1992-05-28 音声合成方法および装置 Expired - Fee Related JP3083640B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP04137177A JP3083640B2 (ja) 1992-05-28 1992-05-28 音声合成方法および装置
US08/067,079 US5615300A (en) 1992-05-28 1993-05-26 Text-to-speech synthesis with controllable processing time and speech quality

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04137177A JP3083640B2 (ja) 1992-05-28 1992-05-28 音声合成方法および装置

Publications (2)

Publication Number Publication Date
JPH05333900A true JPH05333900A (ja) 1993-12-17
JP3083640B2 JP3083640B2 (ja) 2000-09-04

Family

ID=15192617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04137177A Expired - Fee Related JP3083640B2 (ja) 1992-05-28 1992-05-28 音声合成方法および装置

Country Status (2)

Country Link
US (1) US5615300A (ja)
JP (1) JP3083640B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008269391A (ja) * 2007-04-23 2008-11-06 Yahoo Japan Corp 係り受けを解析する方法
JP2010039289A (ja) * 2008-08-06 2010-02-18 Toshiba Corp 携帯型電子機器
JP2016027415A (ja) * 2015-09-15 2016-02-18 株式会社東芝 文書読み上げ支援装置、方法及びプログラム
JP2017129840A (ja) * 2016-01-19 2017-07-27 百度在綫網絡技術(北京)有限公司 音声合成システムの最適化方法及び装置

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5592585A (en) * 1995-01-26 1997-01-07 Lernout & Hauspie Speech Products N.C. Method for electronically generating a spoken message
DE19610019C2 (de) * 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
JPH1039895A (ja) * 1996-07-25 1998-02-13 Matsushita Electric Ind Co Ltd 音声合成方法および装置
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface
EP0841624A1 (en) * 1996-11-08 1998-05-13 Softmark Limited Input and output communication in a data processing system
US5933805A (en) * 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
US5915237A (en) * 1996-12-13 1999-06-22 Intel Corporation Representing speech using MIDI
KR100236974B1 (ko) 1996-12-13 2000-02-01 정선종 동화상과 텍스트/음성변환기 간의 동기화 시스템
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
KR100240637B1 (ko) * 1997-05-08 2000-01-15 정선종 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
JP3576840B2 (ja) * 1997-11-28 2004-10-13 松下電器産業株式会社 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
US6385581B1 (en) 1999-05-05 2002-05-07 Stanley W. Stephenson System and method of providing emotive background sound to text
US6542867B1 (en) * 2000-03-28 2003-04-01 Matsushita Electric Industrial Co., Ltd. Speech duration processing method and apparatus for Chinese text-to-speech system
JP2002221980A (ja) * 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
US6842593B2 (en) 2002-10-03 2005-01-11 Hewlett-Packard Development Company, L.P. Methods, image-forming systems, and image-forming assistance apparatuses
US20040102964A1 (en) * 2002-11-21 2004-05-27 Rapoport Ezra J. Speech compression using principal component analysis
US7280968B2 (en) * 2003-03-25 2007-10-09 International Business Machines Corporation Synthetically generated speech responses including prosodic characteristics of speech inputs
US20050075865A1 (en) * 2003-10-06 2005-04-07 Rapoport Ezra J. Speech recognition
US20050102144A1 (en) * 2003-11-06 2005-05-12 Rapoport Ezra J. Speech synthesis
US20070009865A1 (en) * 2004-01-08 2007-01-11 Angel Palacios Method, system, program and data set which are intended to facilitate language learning thorugh learning and comprehension of phonetics and phonology
JP2006208600A (ja) * 2005-01-26 2006-08-10 Brother Ind Ltd 音声合成装置及び音声合成方法
US20060277044A1 (en) * 2005-06-02 2006-12-07 Mckay Martin Client-based speech enabled web content
US20070271104A1 (en) * 2006-05-19 2007-11-22 Mckay Martin Streaming speech with synchronized highlighting generated by a server
US20080154605A1 (en) * 2006-12-21 2008-06-26 International Business Machines Corporation Adaptive quality adjustments for speech synthesis in a real-time speech processing system based upon load
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置
KR101495410B1 (ko) * 2007-10-05 2015-02-25 닛본 덴끼 가부시끼가이샤 음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체
US8374873B2 (en) 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
US8150695B1 (en) * 2009-06-18 2012-04-03 Amazon Technologies, Inc. Presentation of written works based on character identities and attributes
US9911408B2 (en) * 2014-03-03 2018-03-06 General Motors Llc Dynamic speech system tuning

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4581757A (en) * 1979-05-07 1986-04-08 Texas Instruments Incorporated Speech synthesizer for use with computer and computer system with speech capability formed thereby
US4296279A (en) * 1980-01-31 1981-10-20 Speech Technology Corporation Speech synthesizer
DE3248213A1 (de) * 1981-12-28 1983-07-14 Sharp K.K., Osaka Einrichtung zur erzeugung synthetischer sprache und diese enthaltende elektronische registrierkasse
IT1159034B (it) * 1983-06-10 1987-02-25 Cselt Centro Studi Lab Telecom Sintetizzatore vocale
JPH0632020B2 (ja) * 1986-03-25 1994-04-27 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声合成方法および装置
JPS63285598A (ja) * 1987-05-18 1988-11-22 ケイディディ株式会社 音素接続形パラメ−タ規則合成方式

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008269391A (ja) * 2007-04-23 2008-11-06 Yahoo Japan Corp 係り受けを解析する方法
JP2010039289A (ja) * 2008-08-06 2010-02-18 Toshiba Corp 携帯型電子機器
JP2016027415A (ja) * 2015-09-15 2016-02-18 株式会社東芝 文書読み上げ支援装置、方法及びプログラム
JP2017129840A (ja) * 2016-01-19 2017-07-27 百度在綫網絡技術(北京)有限公司 音声合成システムの最適化方法及び装置
KR20170087016A (ko) * 2016-01-19 2017-07-27 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 음성 합성 시스템의 최적화 방법 및 장치
US10242660B2 (en) 2016-01-19 2019-03-26 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for optimizing speech synthesis system

Also Published As

Publication number Publication date
US5615300A (en) 1997-03-25
JP3083640B2 (ja) 2000-09-04

Similar Documents

Publication Publication Date Title
JP3083640B2 (ja) 音声合成方法および装置
US7966186B2 (en) System and method for blending synthetic voices
JP2000206982A (ja) 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
JPH10153998A (ja) 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JP2623586B2 (ja) 音声合成におけるピッチ制御方式
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2007264284A (ja) 感情付加装置、感情付加方法及び感情付加プログラム
JP4584511B2 (ja) 規則音声合成装置
JPH05281984A (ja) 音声合成方法および装置
JP3113101B2 (ja) 音声合成装置
JPH09179576A (ja) 音声合成方法
JPH086585A (ja) 音声合成方法および装置
JP3292218B2 (ja) 音声メッセージ作成装置
JPH11259094A (ja) 規則音声合成装置
JPH08185197A (ja) 日本語解析装置、及び日本語テキスト音声合成装置
JPH11282494A (ja) 音声合成装置および記憶媒体
JPH0358100A (ja) 規則型音声合成装置
JP2001100777A (ja) 音声合成方法及び装置
JP3522005B2 (ja) 音声合成装置
JP3297221B2 (ja) 音韻継続時間長制御方式
JPH0990987A (ja) 音声合成方法及び装置
JP2002366175A (ja) 音声コミュニケーション支援装置およびその方法
JPH04199421A (ja) 文書読上げ装置
JPH0667685A (ja) 音声合成装置
JP2003005774A (ja) 音声合成装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees