JPH06337698A

JPH06337698A - 音声合成方法および装置

Info

Publication number: JPH06337698A
Application number: JP5129263A
Authority: JP
Inventors: Yoshiyuki Hara; 義幸原
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1993-05-31
Filing date: 1993-05-31
Publication date: 1994-12-06
Anticipated expiration: 2019-09-22
Also published as: JP3568972B2

Abstract

(57)【要約】【目的】音声合成に要する時間を短縮して、音声合成が
リアルタイムに行えるようにする。【構成】音声合成の対象とする漢字かな混じりの文字コ
ード列を入力部１により入力して句点で１文を切り出
し、言語処理部３にて、この１文に対する音声記号列を
生成する。次に合成パラメータ生成部５にて、この音声
記号列中のポーズ記号の先行アクセント句までに対して
合成パラメータを生成し、同パラメータを音声合成部７
に与えて音声ディジタルデータを生成させると共に、そ
のポーズ記号をポーズ生成部６に与えて同記号の示すポ
ーズ区間分のポーズデータを生成させる。そして音声合
成部７で生成された音声ディジタルデータにポーズ生成
部６で生成されたポーズデータを付加し、それをオーデ
ィオデバイス８でアナログ信号に変換させてスピーカ９
から音声出力させる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は文字コード列、または韻
律情報と音韻系列とから合成音声を生成する音声合成方
法および装置に関する。

【０００２】

【従来の技術】近時、漢字かな混じりの文を解析し、そ
の文が示す音声情報を規則合成法により音声合成して出
力する音声合成装置が種々開発されている。そして、こ
の種の音声合成装置は、銀行業務における電話紹介サー
ビスや、新聞校閲システム、文書読み上げ装置等として
幅広く利用され始めている。

【０００３】この種の規則合成法を採用した音声合成装
置は、基本的には人間が発声した音声を予めある単位、
例えばＣＶ（子音、母音）、ＣＶＣ（子音、母音、子
音）、ＶＣＶ（母音、子音、母音）、ＶＣ（母音、子
音）毎にＬＳＰ（線スペクトル対）分析やケプストラム
分析等の手法を用いて分析して求められる音韻情報を音
声素片ファイルに登録しておき、この音声素片ファイル
を参照して合成パラメータ（音韻パラメータと韻律パラ
メータ）を生成し、これらの合成パラメータをもとにし
て音源の生成と合成フィルタリング処理を行うことによ
り合成音声を生成するものである。

【０００４】従来、このような音声合成装置は、リアル
タイムに処理するために専用のハードウェアを必要とし
ている。この音声合成装置のシステム構成には大きく分
けて次の２種がある。

【０００５】第１の構成は、パーソナルコンピュータ
（ＰＣ）などのホスト計算機が漢字かな混じり文を韻律
情報と音韻系列に変換し（言語処理）、専用のハードウ
ェアで合成パラメータの生成、音源の生成、合成フィル
タリング、Ｄ／Ａ（ディジタル／アナログ）変換を行う
ものである。これに対して第２の構成は、漢字かな混じ
り文から音声を生成するまでの全ての処理を専用のハー
ドウェアで行うものである。いずれの構成における専用
ハードウェアも、積和演算が高速なＤＳＰ（ディジタル
・シグナル・プロセッサ）と呼ばれるＬＳＩあるいは合
成ＬＳＩと汎用のＭＰＵ（マイクロプロセッサユニッ
ト）で構成されるのが殆どである。

【０００６】このような専用装置では、漢字かな混じり
文を単語辞書を用いて形態素解析や係り受け解析を行っ
て、韻律情報と音韻系列からなる音声記号列（韻律情報
と音韻系列を記号やカタカナで表現したもの）が生成さ
れる。この音声記号列の韻律情報に基づいて基本周波数
の列（韻律パラメータ）が生成され、音韻系列の音韻に
対応する音韻パラメータを音声素片ファイルから取り出
して音韻間を接続して音韻パラメータが生成される。こ
のとき、音声記号列にポーズ区間を表す記号が含まれて
いるときはそのポーズ部に対して韻律パラメータ、音韻
パラメータとも「０」を設定する。

【０００７】以上に述べた処理は汎用のＭＰＵ（ＣＰ
Ｕ）で行われ、生成された合成パラメータ（韻律パラメ
ータと音韻パラメータ）は音声合成部に入力される。音
声合成部には、ＤＳＰや合成ＬＳＩが使用される。この
音声合成部では、合成パラメータをＤＳＰや合成ＬＳＩ
がフレーム周期毎に入力し、そのパラメータに基づいて
音源生成や合成フィルタリングを行い、サンプリング周
期毎にＤ／Ａ変換器に出力する。

【０００８】一方、パーソナルコンピュータ（ＰＣ）や
エンジニアリング・ワーク・ステーション（ＥＷＳ）に
おいても、処理能力が高まったことと、標準でＤ／Ａ変
換器、アナログ出力部およびスピーカを搭載したこと
で、上記の処理をリアルタイムにソフトウェア処理だけ
で行えるようになりつつある。また、近時、ＥＷＳだけ
でなくＰＣにも、マルチタスク可能なＯＳ（オペレーテ
ィングシステム）が採用され始めてきている。

【０００９】しかしながら、このようなＯＳはリアルタ
イム性が保証されていないものが殆どである。つまり、
音声合成以外の処理タスクが少ない場合は問題ないが、
タスクが多くなると音声合成以外の処理にＣＰＵが使用
され、音声合成がリアルタイムに処理できなくこともあ
る。

【００１０】このような理由から、ＰＣやＥＷＳのマル
チタスクＯＳ下のもとでソフトウェア処理のみでリアル
タイムに音声合成するためには、音声合成に要する時間
をできるだけ短縮させることが重要である。

【００１１】

【発明が解決しようとする課題】このように、上記した
従来の音声合成装置にあっては、専用の装置では音声合
成部のリアルタイム性が保証されているものの、マルチ
タスク可能なＯＳを採用したパーソナルコンピュータ
（ＰＣ）やエンジニアリング・ワーク・ステーション
（ＥＷＳ）のソフトウェア処理により実現される装置で
は、処理タスクが少ないときにはリアルタイムに音声合
成できていたものが、タスクが多くなるとリアルタイム
にできない等の不具合があった。

【００１２】本発明はこのような事情を考慮してなされ
たもので、その目的とするところは、音声合成に要する
時間を短縮でき、もって音声合成がリアルタイムに行え
る音声合成方法および装置を提供することにある。

【００１３】

【課題を解決するための手段】本発明に係る音声合成方
法および装置は、ポーズ部は出力される合成音声が無音
であり、有音とならないような信号（出力「０」の信
号）を出力すればよいことに着目し、音韻パラメータと
韻律パラメータ（合成パラメータ）の生成対象からポー
ズ部分を除外して合成パラメータを生成し、このポーズ
部分のパラメータを含まない合成パラメータから合成フ
ィルタリングを含む処理により音声データを生成し、ポ
ーズ部分に対してはそのポーズ長分の時間だけ無音とな
るようなポーズデータを別に生成し、このポーズデータ
を上記の合成フィルタリングを含む処理により生成され
た音声データに付加して音声を生成するようにしたこと
を特徴とするものである。

【００１４】また本発明は、ポーズデータを生成して先
行する音声データに付加する代わりに、この音声データ
に基づく音声出力が終了した後、この音声データに後続
するポーズ部分のポーズ長分の時間を経過するまでは、
当該ポーズ部分の次の音声データの出力を抑止するよう
にしたことをも特徴とする。

【００１５】

【作用】上記の構成においては、有音部に対しては合成
フィルタリングを含む処理が実行されて音声データ（音
声ディジタルデータ）が生成されるものの、ポーズ部分
に対しては、合成パラメータの生成対象から除外して、
合成パラメータ中にポーズ部分のパラメータが含まれな
いようにされるため、合成フィルタリング処理等は実行
されない。そして、これに代えて、ポーズ部分のポーズ
長分の時間だけ無音となるようなポーズデータが生成さ
れて、有音部の音声データに付加される。したがって、
このポーズデータが付加された音声データを音声出力す
ることにより、ポーズ区間を含む音声出力が正しく行わ
れる。

【００１６】また、ポーズデータを生成する代わりに、
ポーズ区間分の時間をカウントし、その時間をカウント
終了するまでは、次の（ポーズ部を含まない）音声デー
タの出力を抑止することで、即ち、ポーズ区間分の時間
を経過した後に次の音声データを出力させることでも、
ポーズ部のパラメータを含む合成パラメータをもとに合
成フィルタリング処理等を行って音声データを生成して
音声出力を行うのと同じ音声出力結果を得ることができ
る。

【００１７】このように、上記の構成によれば、音声合
成処理の中で最も時間を要する合成フィルタリングを有
音部についてのみ実行し、無音部（ポーズ部）について
は、対応する時間（期間）中有音となるような信号が出
力されないように、その時間分のポーズデータを生成す
るか、または、その時間分だけ次の有音部の音声データ
の出力を待たせるようにしているため、無音部を含む音
声出力を行いながらも、無音部の合成フィルタリングを
行わないで済む分だけ、音声合成の処理時間を短縮させ
ることが可能となる。

【００１８】

【実施例】

［第１実施例］まず、本発明の第１実施例を説明する。
図１は同実施例に係る音声合成装置の概略構成を示すブ
ロック図である。

【００１９】図１に示す音声合成装置は、音声合成の対
象とする漢字かな混じりの文字コード列の入力を司る入
力部１と、音声合成の対象となる単語や句等についての
アクセント型、読み、品詞情報等が予め登録されている
単語辞書２と、言語処理部３とを有する。この言語処理
部３は、入力部１により入力された文字コード列を単語
辞書２を用いて解析し、対応する音韻系列および韻律情
報を生成する言語処理を司る。

【００２０】図１に示す音声合成装置はまた、予め任意
の音声単位毎に入力音声を分析することにより求められ
たケプストラムパラメータ群が格納されている音声素片
ファイル４と、言語処理部３にて生成された音韻系列に
従う音韻パラメータ（ここでは、音韻のケプストラムパ
ラメータ）の生成、および言語処理部３にて生成された
韻律情報に従う韻律パラメータの生成を行う合成パラメ
ータ生成部５と、ポーズ生成部６とを有する。このポー
ズ生成部６は、言語処理部３から合成パラメータ生成部
５に与えられる音韻系列および韻律情報のうち、ポーズ
区間を表す記号に基づいて、その長さだけ「０」を表す
ポーズデータ（Ｄ／Ａ変換器の出力信号が「０」になる
ようなデータ）を作成する。このポーズデータは、次に
述べる音声合成部７から出力される音声波形データ（音
声ディジタルデータ）に付加される。

【００２１】図１に示す音声合成装置はまた、合成パラ
メータ生成部５によって生成された音韻パラメータおよ
び韻律パラメータをもとに、音源の生成と、合成フィル
タリング処理を行って合成音声を生成する音声合成部７
と、オーディオデバイス８と、音声出力用のスピーカ９
とを有する。オーディオデバイス８には、音声合成部７
から出力される音声ディジタルデータおよびポーズ生成
部６から出力されて同データに付加されるポーズデータ
（ディジタルデータ）をアナログ信号に変換するＤ／Ａ
変換器、折り返し雑音除去フィルタ、およびパワーアン
プなど周知の構成（図示せず）が含まれている。

【００２２】以上の構成の音声合成装置は、マルチタス
クを実行するパーソナルコンピュータ（ＰＣ）やエンジ
ニアリング・ワーク・ステーション（ＥＷＳ）によって
実現されるもので、入力部１、言語処理部３、合成パラ
メータ生成部５、ポーズ生成部６および音声合成部７
（内の音源生成、フィルタリング処理部分）は、ＣＰＵ
のプログラム処理（音声合成処理用タスクの実行）によ
って実現される機能ブロックである。

【００２３】次に、図１に示す音声合成装置の動作を図
２のフローチャートを参照して説明する。まず入力部１
により、音声合成の対象とする漢字かな混じりの文字コ
ード列、例えば「明日は説明会があります。よろしくお
願いします。」が入力されたとする。

【００２４】入力部１は、句点「。」で１文「明日は説
明会があります。」を切り出す（図２ステップＳ１）。
この入力部１により切り出された１文は、言語処理部３
に与えられる。

【００２５】言語処理部３は、入力部１により切り出さ
れた文字コード列（１文）「明日は説明会がありま
す。」と単語辞書２とを照合し、この入力文字コード列
が示す音声合成の対象となっている単語や句等について
のアクセント型、読み、品詞情報を求め、その品詞情報
に従うアクセント型・境界の決定、ポーズ記号の挿入、
および漢字かな混じり文の読みの形式への変換を行い、
例えば「ア（シ）タ＾ワ．セツメ＾ーカイ＜ガ＞／アリ
マ＾（ス）．．．．．／／」なる音韻系列と韻律情報
（音声記号列）を生成する（図２ステップＳ２）。ここ
で、「＾」はアクセス位置、「／」はアクセス句の区切
り、「／／」は文の終端、「．」は２００ｍｓのポーズ
区間を表す記号（ポーズ記号）、＜＞内は鼻濁音、（）
は無声化音を表すものとする。また、サンプリング周波
数は８ｋＨｚとする。

【００２６】言語処理部３によって生成された音声記号
列「ア（シ）タ＾ワ．セツメ＾ーカイ＜ガ＞／アリマ＾
（ス）．．．．．／／」は合成パラメータ生成部５に与
えられる。

【００２７】合成パラメータ生成部５は、言語処理部３
から与えられた音声記号列から、最初に出現するポーズ
記号（ポーズ区間記号）「．」の先行アクセント句であ
る「ア（シ）タ＾ワ」なる音韻系列を切り出し、その音
韻系列に対応する音韻のケプストラムパラメータを音声
素片ファイル４より抽出して音韻パラメータを生成する
（図２ステップＳ３）。同時に合成パラメータ生成部５
は、その音韻系列に対応する韻律情報に従って韻律パラ
メータを生成する。

【００２８】合成パラメータ生成部５は、生成した「ア
（シ）タ＾ワ」に対応する音韻パラメータおよび韻律パ
ラメータを音声合成部７に与える。また合成パラメータ
生成部５は、この「ア（シ）タ＾ワ」に後続する１個の
ポーズ記号「．」をポーズ生成部６に与える。

【００２９】なお、従来であれば、合成パラメータ生成
部５において、「ア（シ）タ＾ワ」とそれに後続するポ
ーズ記号「．」までの「ア（シ）タ＾ワ．」の音韻パラ
メータおよび韻律パラメータ（ポーズ記号で表されるポ
ーズ部に対しては音韻パラメータおよび韻律パラメータ
とも「０」が設定される）が生成されて、それが音声合
成部７に与えられることに注意されたい。

【００３０】音声合成部７は、合成パラメータ生成部５
から「ア（シ）タ＾ワ」に対応する音韻パラメータおよ
び韻律パラメータ（合成パラメータ）が与えられると、
それを入力して一時保持する。そして音声合成部７は、
入力した「ア（シ）タ＾ワ」の合成パラメータに従い、
音源の生成とディジタルフィルタリング処理とを行うこ
とにより、「ア（シ）タ＾ワ」の音声ディジタルデータ
（前記入力文字コード列「明日は説明会があります。よ
ろしくお願いします。」中の「明日は」に示される音声
ディジタルデータ）を生成する（図２ステップＳ４）。

【００３１】この音声合成部７により生成された音声デ
ィジタルデータはオーディオデバイス８に与えられる。
但し、オーディオデバイス８による音声出力中の場合に
は、生成した音声ディジタルデータは、音声出力の終了
を待って与えられる。

【００３２】一方、ポーズ生成部６は、合成パラメータ
生成部５から与えられた「ア（シ）タ＾ワ」に後続する
１個のポーズ記号「．」に基づいて、２００ｍｓ分のポ
ーズデータ（「０」データ）を生成する（図２ステップ
Ｓ５）。ここでは、サンプリング周波数が８ｋＨｚであ
るため、ポーズ生成部６は１６００個のポーズデータを
生成する。

【００３３】ポーズ生成部６は、音声合成部７からオー
ディオデバイス８に音声ディジタルデータ（ここでは
「ア（シ）タ＾ワ」の音声ディジタルデータ）が与えら
れると、自身が生成したポーズデータ（ここでは、「ア
（シ）タ＾ワ」に後続する１個のポーズ記号「．」によ
り示される２００ｍｓのポーズ区間に対応した１６００
個のポーズデータ）を同デバイス８に与える（図２ステ
ップＳ６）。これにより、「ア（シ）タ＾ワ」の音声デ
ィジタルデータの後に１６００個のポーズデータが付加
されたことになる。

【００３４】オーディオデバイス８は、音声合成部７か
ら与えられた「ア（シ）タ＾ワ」の音声ディジタルデー
タとポーズ生成部６から与えられて同データに付加され
た１６００個のポーズデータを、Ｄ／Ａ変換器により順
にアナログ信号に変換し、折り返し雑音除去フィルタを
介してスピーカ９に出力することにより、「ア（シ）タ
＾ワ．」に対応する音声をスピーカ９から出力させる
（図２ステップＳ７，Ｓ８）。

【００３５】このように本実施例では、ポーズ部は出力
される合成音が無音であり、オーディオデバイス８から
は出力「０」の信号を出力させればよいことに着目し
て、当該ポーズ部については、ポーズ記号「．」をもと
にポーズ区間分のポーズデータ（「０」データ）を生成
するようにし、合成パラメータ生成部５による合成パラ
メータ作成の対象外とすることで、音声合成部７にてポ
ーズ部の合成フィルタリングが行われないようにしてい
る。こうすることで、音声合成部７での合成フィルタリ
ングに要する時間が短縮され、リアルタイムでの音声合
成が可能となる。

【００３６】なお、従来であれば、ポーズのパラメータ
を含む合成パラメータを合成パラメータ生成部５にて生
成して音声合成部７に与えていたため、当該音声合成部
７では、合成音が無音となるポーズ部についても合成フ
ィルタリングが行われ、音声合成に長時間要していた。

【００３７】さて、合成パラメータ生成部５は、オーデ
ィオデバイス８によるスピーカ９からの音声出力が開始
されると、「／／」で示される１文の終りまで処理した
か否かを判断する（図２ステップＳ９）。この例のよう
に１文の終りに達していない場合には、後続の「セツメ
＾ーカイ＜ガ＞／アリマ＾（ス）．．．．．／／」につ
いて、ステップＳ３からステップＳ８まで上記と同様の
処理が行われる。このときポーズ生成部６では、５個の
ポーズ記号「．．．．．」により示される１０００ｍｓ
（１秒）のポーズ区間に対応した８０００個のポーズデ
ータが生成される。

【００３８】そして、先の「ア（シ）タ＾ワ．」に対応
する音声出力が終了すると、新たに音声合成部７により
生成される「セツメ＾ーカイ＜ガ＞／アリマ＾（ス）」
の音声ディジタルデータとポーズ生成部６により生成さ
れる８０００個のポーズデータが順にオーディオデバイ
ス８に与えられ、次の音声出力に供される。

【００３９】このとき、１文の処理が終了していること
から、今度はステップＳ９からステップＳ１０に進み、
入力部１に制御が戻る。入力部１は、ステップＳ１０に
おいて、文章の終りまで処理したか否かを判断し、この
例のように終りでなければ、ステップＳ１の処理に戻
る。このステップＳ１では、次の文「よろしくお願いし
ます。」が入力部１により切り出され、以後、前記した
処理と同様な処理が行われる。

【００４０】さて本実施例においては、「ア（シ）タ＾
ワ．セツメ＾ーカイ＜ガ＞／アリマ＾（ス）．．．．．
／／」の例では、６個のポーズ記号、即ち１．２秒分の
ポーズ記号があることから、音声合成部７の合成フィル
タリング処理により例えば１秒分の音声ディジタルデー
タを生成するのに単純に１秒かかるものとすると、ポー
ズ区間１．２秒分だけ処理時間が短縮できたことにな
る、但し、ポーズ生成部６によるポーズデータ生成に要
する時間は音声合成部７での合成フィルタリングに要す
る時間より極めて少ないため無視する。

【００４１】以上に述べた第１実施例では、ポーズ生成
部６を設けて当該ポーズ生成部６にてポーズデータを生
成するようにしていたが、一般にＰＣ（パーソナルコン
ピュータ）やＥＷＳ（エンジニアリング・ワーク・ステ
ーション）は、オーディオデバイス（８）に対して音声
ディジタルデータの書き込みを行わなければ、自動的に
ポーズの状態が続く構造となっている。したがって、ポ
ーズ生成部６がなくてもポーズ（ポーズ区間）が生成で
き、その時間は、オーディオデバイス（８）に対して何
も書き込まない期間を設定することにより、任意に制御
できる。また、ＰＣやＥＷＳにはタイマ機能が組み込ま
れており、この機能を利用することで、上記の何も書き
込まない期間、即ちポーズ区間の設定が可能となる。

【００４２】そこで、このタイマ機能を利用してポーズ
区間を設定するようにした第２実施例につき、以下に説
明する。［第２実施例］図３は同実施例に係る音声合成装置の概
略構成を示すブロック図である。なお、図１と同様の部
分には、便宜上同一符号を付してある。

【００４３】図３に示す音声合成装置が、図１に示した
音声合成装置と異なるのは、主として次の３点である。
第１は、ポーズ生成部６に代えて、タイマ１１と同タイ
マ１１にタイマ値を設定するタイマ設定部１２を用いて
いる点である。

【００４４】第２は、図１では合成パラメータ生成部５
からポーズ生成部６に与えられたポーズ記号が、タイマ
設定部１２に与えられる点である。第３は、音声合成部
７が生成した音声ディジタルデータをオーディオデバイ
ス８に出力できる条件が、オーディオデバイス８が音声
出力中でないことに加えて、タイマ１１のタイマ値が
「０」である点である。

【００４５】タイマ１１は、１カウント当たり例えば１
ｍｓ（即ちタイマクロックの周期は１ｍｓ）であり、
「０」より小さい値にはならないものとする。タイマ設
定部１２は、オーディオデバイス８が音声出力中にない
こと（したがって音声合成部７からの音声ディジタルデ
ータ入力が可能なこと）を示すレディ信号１３の出力時
に、合成パラメータ生成部５から与えられているポーズ
記号（ポーズ記号列）の示すポーズ長をタイマ１１に設
定する。

【００４６】次に、図３に示す音声合成装置の動作を図
４のフローチャートを参照して説明する。まず、前記し
た第１実施例の場合と同様に、入力部１により、音声合
成の対象とする漢字かな混じりの文字コード列「明日は
説明会があります。よろしくお願いします。」が入力さ
れたとする。

【００４７】入力部１は、句点「。」で１文「明日は説
明会があります。」を切り出す（図４ステップＳ１
１）。言語処理部３は、入力部１により切り出された文
字コード列（１文）「明日は説明会があります。」と単
語辞書２とを照合し、この入力文字コード列が示す音声
合成の対象となっている単語や句等についてのアクセン
ト型、読み、品詞情報を求め、その品詞情報に従うアク
セント型・境界の決定、ポーズ記号の挿入、および漢字
かな混じり文の読みの形式への変換を行い、前記したよ
うな「ア（シ）タ＾ワ．セツメ＾ーカイ＜ガ＞／アリマ
＾（ス）．．．．．／／」なる音韻系列と韻律情報（音
声記号列）を生成する（図４ステップＳ１２）。

【００４８】言語処理部３によって生成された音声記号
列「ア（シ）タ＾ワ．セツメ＾ーカイ＜ガ＞／アリマ＾
（ス）．．．．．／／」は合成パラメータ生成部５に与
えられる。これにより合成パラメータ生成部５および音
声合成部７により次に述べるステップＳ１３の処理が行
われる。

【００４９】即ち、まず合成パラメータ生成部５は、言
語処理部３から与えられた音声記号列から、最初に出現
するポーズ記号（ポーズ区間記号）「．」の先行アクセ
ント句である「ア（シ）タ＾ワ」なる音韻系列を切り出
し、その音韻系列に対応する音韻のケプストラムパラメ
ータを音声素片ファイル４より抽出して音韻パラメータ
を生成する。同時に合成パラメータ生成部５は、その音
韻系列に対応する韻律情報に従って韻律パラメータを生
成する。

【００５０】合成パラメータ生成部５は、生成した「ア
（シ）タ＾ワ」に対応する音韻パラメータおよび韻律パ
ラメータを音声合成部７に与える。また合成パラメータ
生成部５は、この「ア（シ）タ＾ワ」に後続する１個の
ポーズ記号「．」をタイマ設定部１２に与える。

【００５１】タイマ設定部１２は、合成パラメータ生成
部５から与えられたポーズ記号「．」を入力して一時保
持する。音声合成部７は、合成パラメータ生成部５から
与えられた「ア（シ）タ＾ワ」に対応する音韻パラメー
タおよび韻律パラメータ（合成パラメータ）を入力して
一時保持する。そして音声合成部７は、入力した「ア
（シ）タ＾ワ」の合成パラメータに従い、音源の生成と
ディジタルフィルタリング処理とを行うことにより、
「ア（シ）タ＾ワ」の音声ディジタルデータ（前記入力
文字コード列「明日は説明会があります。よろしくお願
いします。」中の「明日は」に示される音声ディジタル
データ）を生成する。

【００５２】音声合成部７は、「ア（シ）タ＾ワ」の音
声ディジタルデータを生成すると、オーディオデバイス
８が音声出力中であるか否かを、同デバイス８からのレ
ディ信号１３により調べる（図４ステップＳ１４）。も
し、音声出力中でなければ、音声合成部７はステップＳ
１５に進み、音声出力中であるならば、音声出力中でな
くなる（即ち音声出力が終了してレディ信号１３が真と
なる）のを待つ。

【００５３】ここでは、オーディオデバイス８は音声出
力中でないため、音声合成部７はステップＳ１５に進
む。音声合成部７は、このステップＳ１５において、タ
イマ１１の値（タイマ値）が「０」であるか否かを調べ
る。もし、タイマ値が「０」であるならば、音声合成部
７はステップＳ１６に進み、「０」でないならば、
「０」になるのを待つ。

【００５４】ここでは、タイマ１１には何も設定されて
いないため、タイマ値は「０」であり、音声合成部７は
次のステップＳ１６に進む。音声合成部７は、このステ
ップＳ１６において、先のステップＳ１３で生成した
「ア（シ）タ＾ワ」の音声ディジタルデータを、スピー
カ９からの音声出力のために、オーディオデバイス８に
与える。これにより、前記した第１実施例の場合と同様
にして、「ア（シ）タ＾ワ．」に対応する音声のスピー
カ９からの出力が開始される。このときオーディオデバ
イス８からのレディ信号１３は、音声出力中を示す偽値
に設定される。

【００５５】さて、音声合成部７で生成された「ア
（シ）タ＾ワ」の音声ディジタルデータがオーディオデ
バイス８に与えられると、合成パラメータ生成部５は、
「／／」で示される１文の終りまで処理したか否かを判
断する（図４ステップＳ１７）。この例のように１文の
終りに達していない場合には、後続の「セツメ＾ーカイ
＜ガ＞／アリマ＾（ス）．．．．．／／」について、音
声合成部７およびオーディオデバイス８によるステップ
Ｓ１３の処理が、上記した「ア（シ）タ＾ワ」に対する
のと同様に行われる。

【００５６】このステップＳ１３では、「セツメ＾ーカ
イ＜ガ＞／アリマ＾（ス）」の合成パラメータの生成
と、それに基づく音声ディジタルデータの生成とが行わ
れると共に、それに後続する５個のポーズ記
号「．．．．．」が合成パラメータ生成部５からタイマ
設定部１２に与えられる。

【００５７】タイマ設定部１２は、このポーズ記
号「．．．．．」を入力し、先に保持した「ア（シ）タ
＾ワ」に後続する１個のポーズ記号「．」の後に保持す
る。一方、「ア（シ）タ＾ワ」の音声出力が終了する
と、オーディオデバイス８はレディ信号１３を真にす
る。するとタイマ設定部１２は、自身が保持しているポ
ーズ記号（ポーズ記号列）のうち、その時点で最も古い
ポーズ記号（ポーズ記号列）、即ち「ア（シ）タ＾ワ」
に後続する１個のポーズ記号「．」を取り出し、それに
対応するポーズ区間２００ｍｓを示す値「２００」をタ
イマ１１に設定する。このタイマ設定部１２の動作は、
ＰＣやＥＷＳ上では、音声出力終了に応じて発生する割
り込み（音声出力終了割り込み）に従う音声出力終了割
り込み処理により実現される。

【００５８】タイマ１１は、１ｍｓ毎にカウントダウン
を行う。さて音声合成部７は、ステップＳ１３の処理
で、「セツメ＾ーカイ＜ガ＞／アリマ＾（ス）」の音声
ディジタルデータを生成すると、前記したように、オー
ディオデバイス８が音声出力中であるか否かを調べる
（図４ステップＳ１４）。

【００５９】もし、既に「ア（シ）タ＾ワ」に対する音
声出力が終了しているならば、音声合成部７はステップ
Ｓ１５に進み、終了していなければ、終了するのを待
つ。ここで、「ア（シ）タ＾ワ」に対する音声出力が終
了したものとすると、音声合成部７は、ステップＳ１５
において、タイマ１１の値が「０」であるか否か、即ち
音声出力が終了してからタイマ設定部１２により設定さ
れた期間（ここでは、「ア（シ）タ＾ワ」に後続する１
個のポーズ記号「．」に対応する２００ｍｓ）が経過し
たかを判別する。

【００６０】そしてタイマ１１の値が「０」になったと
き、即ち音声出力終了後、ポーズ区間の時間分（２００
ｍｓ）が経過したとき、音声合成部７は、ステップＳ１
３で生成した「セツメ＾ーカイ＜ガ＞／アリマ＾
（ス）」の音声ディジタルデータをオーディオデバイス
８に与え、スピーカ９からの音声出力を行わせる（図４
ステップＳ１６）。

【００６１】このように、音声出力が終了しても、タイ
マ１１の値が「０」になるまでは、即ち音声出力終了時
にタイマ設定部１２によって設定された、その出力音声
に後続するポーズ区間に相当する時間が経過するまで
は、次の音声出力対象となる音声ディジタルデータの出
力は待たされる。オーディオデバイス８の出力は、音声
出力終了後から次の音声ディジタルデータが与えられる
までの期間、ポーズ状態となるため、ポーズを生成した
のと等価となる。

【００６２】ステップＳ１６にて、「セツメ＾ーカイ＜
ガ＞／アリマ＾（ス）」の音声ディジタルデータが音声
合成部７からオーディオデバイス８に与えられると、１
文の処理が終了していることから、今度はステップＳ１
７からステップＳ１８に進み、入力部１に制御が戻る。

【００６３】入力部１は、ステップＳ１８において、文
章の終りまで処理したか否かを判断し、この例のように
終りでなければ、ステップＳ１１の処理に戻る。このス
テップＳ１１では、次の文「よろしくお願いします。」
が入力部１により切り出され、以後、前記した処理と同
様な処理が行われる。

【００６４】以上に述べた第２実施例においても、ポー
ズ部については、合成パラメータ生成部５による合成パ
ラメータ作成の対象外とすることで、音声合成部７にて
ポーズ部の合成フィルタリングが行われないようにして
いるため、音声合成に係わる処理時間が短縮できる。

【００６５】なお、本発明は上述した実施例に限定され
るものではない。即ち、実施例では、ポーズデータとし
て「０」を用いて説明したが、オーディオデバイス８内
のＤ／Ａ変換器の仕様によっては「０」データを入力し
てもアナログ信号が「０」にならないものがあるため、
特に「０」に限定する必要はなく、アナログ信号が
「０」になるようなディジタルデータをポーズデータと
して使用すればよい。要するに本発明はその要旨を逸脱
しない範囲で種々変形して実施することができる。

【００６６】

【発明の効果】以上説明したように本発明によれば、ポ
ーズ区間のデータが合成パラメータ（音韻パラメータと
韻律パラメータ）に含まれず、したがってポーズ区間に
ついては、処理に最も時間を要する音源生成や合成フィ
ルタリングが実行されない構成とすると共に、ポーズ区
間に対応する時間（期間）中は有音となるような信号が
出力されない構成としたので、ポーズ区間を含む音声出
力を正しく行いながらも、ポーズ区間の合成フィルタリ
ングを行わないで済む分だけ、音声合成に要する処理時
間を短縮させることができ、パーソナルコンピュータ
（ＰＣ）やエンジニアリング・ワーク・ステーション
（ＥＷＳ）のマルチタスクＯＳ下のもとでソフトウェア
処理で音声合成する場合にも、リアルタイムに行える等
の実用上多大なる効果が奏せられる。

【図面の簡単な説明】

【図１】本発明の第１実施例を示す音声合成装置のブロ
ック構成図。

【図２】上記第１実施例における処理の流れを説明する
ためのフローチャート。

【図３】本発明の第２実施例を示す音声合成装置のブロ
ック構成図。

【図４】上記第２実施例における処理の流れを説明する
ためのフローチャート。

【符号の説明】

１…入力部、２…単語辞書、３…言語処理部、４…音声
素片ファイル、５…合成パラメータ生成部、６…ポーズ
生成部、７…音声合成部、８…オーディオデバイス（音
声出力手段）、９…スピーカ、１１…タイマ、１２…タ
イマ設定部、１３…レディ信号。

Claims

【特許請求の範囲】

【請求項１】音韻系列に従って対応する音韻パラメー
タを生成すると共に韻律情報に従って韻律パラメータを
生成し、これら音韻パラメータおよび韻律パラメータに
従い音声を合成する音声合成方法において、前記音韻パラメータおよび韻律パラメータの生成対象か
らポーズ部分を除外して音韻パラメータおよび韻律パラ
メータを生成し、当該ポーズ部分のパラメータを含まな
い音韻パラメータおよび韻律パラメータから合成フィル
タリングを含む処理により音声データを生成し、当該ポ
ーズ部分に対してはそのポーズ長分の時間だけ無音とな
るようなポーズデータを別に生成し、このポーズデータ
を前記合成フィルタリングを含む処理により生成された
音声データに付加して音声を生成するようにしたことを
特徴とする音声合成方法。
【請求項２】音韻系列に従って対応する音韻パラメー
タを生成すると共に韻律情報に従って韻律パラメータを
生成し、これら音韻パラメータおよび韻律パラメータに
従い音声を合成する音声合成方法において、前記音韻パラメータおよび韻律パラメータの生成対象か
らポーズ部分を除外して音韻パラメータおよび韻律パラ
メータを生成し、当該ポーズ部分のパラメータを含まな
い音韻パラメータおよび韻律パラメータから合成フィル
タリングを含む処理により音声データを生成し、当該ポ
ーズ部分に先行する音声出力が終了した後当該ポーズ部
分のポーズ長分の時間を経過するまでは、当該ポーズ部
分に後続する音声データの出力を抑止するようにしたこ
とを特徴とする音声合成方法。
【請求項３】音韻系列に従って対応する音韻パラメー
タを生成すると共に韻律情報に従って韻律パラメータを
生成し、これら音韻パラメータおよび韻律パラメータに
従い音声を合成する音声合成装置において、前記音韻パラメータおよび韻律パラメータの生成対象か
らポーズ部分を除外して音韻パラメータおよび韻律パラ
メータを生成する合成パラメータ生成手段と、この合成パラメータ生成手段によって生成された前記ポ
ーズ部分のパラメータを含まない音韻パラメータおよび
韻律パラメータから、合成フィルタリングを含む処理に
より音声データを生成する音声合成手段と、前記除外されたポーズ部分のポーズ長分の時間だけ無音
となるようなポーズデータを生成して前記音声合成手段
によって生成された音声データに付加するポーズ生成手
段と、前記ポーズデータが付加された音声データから対応する
音声を出力する音声出力手段とを具備することを特徴と
する音声合成装置。
【請求項４】音韻系列に従って対応する音韻パラメー
タを生成すると共に韻律情報に従って韻律パラメータを
生成し、これら音韻パラメータおよび韻律パラメータに
従い音声を合成する音声合成装置において、前記音韻パラメータおよび韻律パラメータの生成対象か
らポーズ部分を除外して音韻パラメータおよび韻律パラ
メータを生成する合成パラメータ生成手段と、この合成パラメータ生成手段によって生成された前記ポ
ーズ部分のパラメータを含まない音韻パラメータおよび
韻律パラメータから、合成フィルタリングを含む処理に
より音声データを生成する音声合成手段と、この音声合成手段から前記音声データを受け取って対応
する音声を出力する音声出力手段と、この音声出力手段の音声出力終了時より、その音声に後
続する前記ポーズ部分のポーズ長分の時間をカウント
し、そのカウント期間中は前記音声合成手段から前記音
声出力手段への音声データ出力を抑止するための時間カ
ウント手段とを具備し、前記音声合成手段は、前記時間
カウント手段による前記ポーズ長分の時間カウントを終
了した際に、後続する音声データを前記音声出力手段に
出力することを特徴とする音声合成装置。