JPH06337698A - 音声合成方法および装置 - Google Patents

音声合成方法および装置

Info

Publication number
JPH06337698A
JPH06337698A JP5129263A JP12926393A JPH06337698A JP H06337698 A JPH06337698 A JP H06337698A JP 5129263 A JP5129263 A JP 5129263A JP 12926393 A JP12926393 A JP 12926393A JP H06337698 A JPH06337698 A JP H06337698A
Authority
JP
Japan
Prior art keywords
pause
voice
parameter
synthesis
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5129263A
Other languages
English (en)
Other versions
JP3568972B2 (ja
Inventor
Yoshiyuki Hara
義幸 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP12926393A priority Critical patent/JP3568972B2/ja
Publication of JPH06337698A publication Critical patent/JPH06337698A/ja
Application granted granted Critical
Publication of JP3568972B2 publication Critical patent/JP3568972B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】音声合成に要する時間を短縮して、音声合成が
リアルタイムに行えるようにする。 【構成】音声合成の対象とする漢字かな混じりの文字コ
ード列を入力部1により入力して句点で1文を切り出
し、言語処理部3にて、この1文に対する音声記号列を
生成する。次に合成パラメータ生成部5にて、この音声
記号列中のポーズ記号の先行アクセント句までに対して
合成パラメータを生成し、同パラメータを音声合成部7
に与えて音声ディジタルデータを生成させると共に、そ
のポーズ記号をポーズ生成部6に与えて同記号の示すポ
ーズ区間分のポーズデータを生成させる。そして音声合
成部7で生成された音声ディジタルデータにポーズ生成
部6で生成されたポーズデータを付加し、それをオーデ
ィオデバイス8でアナログ信号に変換させてスピーカ9
から音声出力させる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文字コード列、または韻
律情報と音韻系列とから合成音声を生成する音声合成方
法および装置に関する。
【0002】
【従来の技術】近時、漢字かな混じりの文を解析し、そ
の文が示す音声情報を規則合成法により音声合成して出
力する音声合成装置が種々開発されている。そして、こ
の種の音声合成装置は、銀行業務における電話紹介サー
ビスや、新聞校閲システム、文書読み上げ装置等として
幅広く利用され始めている。
【0003】この種の規則合成法を採用した音声合成装
置は、基本的には人間が発声した音声を予めある単位、
例えばCV(子音、母音)、CVC(子音、母音、子
音)、VCV(母音、子音、母音)、VC(母音、子
音)毎にLSP(線スペクトル対)分析やケプストラム
分析等の手法を用いて分析して求められる音韻情報を音
声素片ファイルに登録しておき、この音声素片ファイル
を参照して合成パラメータ(音韻パラメータと韻律パラ
メータ)を生成し、これらの合成パラメータをもとにし
て音源の生成と合成フィルタリング処理を行うことによ
り合成音声を生成するものである。
【0004】従来、このような音声合成装置は、リアル
タイムに処理するために専用のハードウェアを必要とし
ている。この音声合成装置のシステム構成には大きく分
けて次の2種がある。
【0005】第1の構成は、パーソナルコンピュータ
(PC)などのホスト計算機が漢字かな混じり文を韻律
情報と音韻系列に変換し(言語処理)、専用のハードウ
ェアで合成パラメータの生成、音源の生成、合成フィル
タリング、D/A(ディジタル/アナログ)変換を行う
ものである。これに対して第2の構成は、漢字かな混じ
り文から音声を生成するまでの全ての処理を専用のハー
ドウェアで行うものである。いずれの構成における専用
ハードウェアも、積和演算が高速なDSP(ディジタル
・シグナル・プロセッサ)と呼ばれるLSIあるいは合
成LSIと汎用のMPU(マイクロプロセッサユニッ
ト)で構成されるのが殆どである。
【0006】このような専用装置では、漢字かな混じり
文を単語辞書を用いて形態素解析や係り受け解析を行っ
て、韻律情報と音韻系列からなる音声記号列(韻律情報
と音韻系列を記号やカタカナで表現したもの)が生成さ
れる。この音声記号列の韻律情報に基づいて基本周波数
の列(韻律パラメータ)が生成され、音韻系列の音韻に
対応する音韻パラメータを音声素片ファイルから取り出
して音韻間を接続して音韻パラメータが生成される。こ
のとき、音声記号列にポーズ区間を表す記号が含まれて
いるときはそのポーズ部に対して韻律パラメータ、音韻
パラメータとも「0」を設定する。
【0007】以上に述べた処理は汎用のMPU(CP
U)で行われ、生成された合成パラメータ(韻律パラメ
ータと音韻パラメータ)は音声合成部に入力される。音
声合成部には、DSPや合成LSIが使用される。この
音声合成部では、合成パラメータをDSPや合成LSI
がフレーム周期毎に入力し、そのパラメータに基づいて
音源生成や合成フィルタリングを行い、サンプリング周
期毎にD/A変換器に出力する。
【0008】一方、パーソナルコンピュータ(PC)や
エンジニアリング・ワーク・ステーション(EWS)に
おいても、処理能力が高まったことと、標準でD/A変
換器、アナログ出力部およびスピーカを搭載したこと
で、上記の処理をリアルタイムにソフトウェア処理だけ
で行えるようになりつつある。また、近時、EWSだけ
でなくPCにも、マルチタスク可能なOS(オペレーテ
ィングシステム)が採用され始めてきている。
【0009】しかしながら、このようなOSはリアルタ
イム性が保証されていないものが殆どである。つまり、
音声合成以外の処理タスクが少ない場合は問題ないが、
タスクが多くなると音声合成以外の処理にCPUが使用
され、音声合成がリアルタイムに処理できなくこともあ
る。
【0010】このような理由から、PCやEWSのマル
チタスクOS下のもとでソフトウェア処理のみでリアル
タイムに音声合成するためには、音声合成に要する時間
をできるだけ短縮させることが重要である。
【0011】
【発明が解決しようとする課題】このように、上記した
従来の音声合成装置にあっては、専用の装置では音声合
成部のリアルタイム性が保証されているものの、マルチ
タスク可能なOSを採用したパーソナルコンピュータ
(PC)やエンジニアリング・ワーク・ステーション
(EWS)のソフトウェア処理により実現される装置で
は、処理タスクが少ないときにはリアルタイムに音声合
成できていたものが、タスクが多くなるとリアルタイム
にできない等の不具合があった。
【0012】本発明はこのような事情を考慮してなされ
たもので、その目的とするところは、音声合成に要する
時間を短縮でき、もって音声合成がリアルタイムに行え
る音声合成方法および装置を提供することにある。
【0013】
【課題を解決するための手段】本発明に係る音声合成方
法および装置は、ポーズ部は出力される合成音声が無音
であり、有音とならないような信号(出力「0」の信
号)を出力すればよいことに着目し、音韻パラメータと
韻律パラメータ(合成パラメータ)の生成対象からポー
ズ部分を除外して合成パラメータを生成し、このポーズ
部分のパラメータを含まない合成パラメータから合成フ
ィルタリングを含む処理により音声データを生成し、ポ
ーズ部分に対してはそのポーズ長分の時間だけ無音とな
るようなポーズデータを別に生成し、このポーズデータ
を上記の合成フィルタリングを含む処理により生成され
た音声データに付加して音声を生成するようにしたこと
を特徴とするものである。
【0014】また本発明は、ポーズデータを生成して先
行する音声データに付加する代わりに、この音声データ
に基づく音声出力が終了した後、この音声データに後続
するポーズ部分のポーズ長分の時間を経過するまでは、
当該ポーズ部分の次の音声データの出力を抑止するよう
にしたことをも特徴とする。
【0015】
【作用】上記の構成においては、有音部に対しては合成
フィルタリングを含む処理が実行されて音声データ(音
声ディジタルデータ)が生成されるものの、ポーズ部分
に対しては、合成パラメータの生成対象から除外して、
合成パラメータ中にポーズ部分のパラメータが含まれな
いようにされるため、合成フィルタリング処理等は実行
されない。そして、これに代えて、ポーズ部分のポーズ
長分の時間だけ無音となるようなポーズデータが生成さ
れて、有音部の音声データに付加される。したがって、
このポーズデータが付加された音声データを音声出力す
ることにより、ポーズ区間を含む音声出力が正しく行わ
れる。
【0016】また、ポーズデータを生成する代わりに、
ポーズ区間分の時間をカウントし、その時間をカウント
終了するまでは、次の(ポーズ部を含まない)音声デー
タの出力を抑止することで、即ち、ポーズ区間分の時間
を経過した後に次の音声データを出力させることでも、
ポーズ部のパラメータを含む合成パラメータをもとに合
成フィルタリング処理等を行って音声データを生成して
音声出力を行うのと同じ音声出力結果を得ることができ
る。
【0017】このように、上記の構成によれば、音声合
成処理の中で最も時間を要する合成フィルタリングを有
音部についてのみ実行し、無音部(ポーズ部)について
は、対応する時間(期間)中有音となるような信号が出
力されないように、その時間分のポーズデータを生成す
るか、または、その時間分だけ次の有音部の音声データ
の出力を待たせるようにしているため、無音部を含む音
声出力を行いながらも、無音部の合成フィルタリングを
行わないで済む分だけ、音声合成の処理時間を短縮させ
ることが可能となる。
【0018】
【実施例】
[第1実施例]まず、本発明の第1実施例を説明する。
図1は同実施例に係る音声合成装置の概略構成を示すブ
ロック図である。
【0019】図1に示す音声合成装置は、音声合成の対
象とする漢字かな混じりの文字コード列の入力を司る入
力部1と、音声合成の対象となる単語や句等についての
アクセント型、読み、品詞情報等が予め登録されている
単語辞書2と、言語処理部3とを有する。この言語処理
部3は、入力部1により入力された文字コード列を単語
辞書2を用いて解析し、対応する音韻系列および韻律情
報を生成する言語処理を司る。
【0020】図1に示す音声合成装置はまた、予め任意
の音声単位毎に入力音声を分析することにより求められ
たケプストラムパラメータ群が格納されている音声素片
ファイル4と、言語処理部3にて生成された音韻系列に
従う音韻パラメータ(ここでは、音韻のケプストラムパ
ラメータ)の生成、および言語処理部3にて生成された
韻律情報に従う韻律パラメータの生成を行う合成パラメ
ータ生成部5と、ポーズ生成部6とを有する。このポー
ズ生成部6は、言語処理部3から合成パラメータ生成部
5に与えられる音韻系列および韻律情報のうち、ポーズ
区間を表す記号に基づいて、その長さだけ「0」を表す
ポーズデータ(D/A変換器の出力信号が「0」になる
ようなデータ)を作成する。このポーズデータは、次に
述べる音声合成部7から出力される音声波形データ(音
声ディジタルデータ)に付加される。
【0021】図1に示す音声合成装置はまた、合成パラ
メータ生成部5によって生成された音韻パラメータおよ
び韻律パラメータをもとに、音源の生成と、合成フィル
タリング処理を行って合成音声を生成する音声合成部7
と、オーディオデバイス8と、音声出力用のスピーカ9
とを有する。オーディオデバイス8には、音声合成部7
から出力される音声ディジタルデータおよびポーズ生成
部6から出力されて同データに付加されるポーズデータ
(ディジタルデータ)をアナログ信号に変換するD/A
変換器、折り返し雑音除去フィルタ、およびパワーアン
プなど周知の構成(図示せず)が含まれている。
【0022】以上の構成の音声合成装置は、マルチタス
クを実行するパーソナルコンピュータ(PC)やエンジ
ニアリング・ワーク・ステーション(EWS)によって
実現されるもので、入力部1、言語処理部3、合成パラ
メータ生成部5、ポーズ生成部6および音声合成部7
(内の音源生成、フィルタリング処理部分)は、CPU
のプログラム処理(音声合成処理用タスクの実行)によ
って実現される機能ブロックである。
【0023】次に、図1に示す音声合成装置の動作を図
2のフローチャートを参照して説明する。まず入力部1
により、音声合成の対象とする漢字かな混じりの文字コ
ード列、例えば「明日は説明会があります。よろしくお
願いします。」が入力されたとする。
【0024】入力部1は、句点「。」で1文「明日は説
明会があります。」を切り出す(図2ステップS1)。
この入力部1により切り出された1文は、言語処理部3
に与えられる。
【0025】言語処理部3は、入力部1により切り出さ
れた文字コード列(1文)「明日は説明会がありま
す。」と単語辞書2とを照合し、この入力文字コード列
が示す音声合成の対象となっている単語や句等について
のアクセント型、読み、品詞情報を求め、その品詞情報
に従うアクセント型・境界の決定、ポーズ記号の挿入、
および漢字かな混じり文の読みの形式への変換を行い、
例えば「ア(シ)タ^ワ.セツメ^ーカイ<ガ>/アリ
マ^(ス).....//」なる音韻系列と韻律情報
(音声記号列)を生成する(図2ステップS2)。ここ
で、「^」はアクセス位置、「/」はアクセス句の区切
り、「//」は文の終端、「.」は200msのポーズ
区間を表す記号(ポーズ記号)、<>内は鼻濁音、()
は無声化音を表すものとする。また、サンプリング周波
数は8kHzとする。
【0026】言語処理部3によって生成された音声記号
列「ア(シ)タ^ワ.セツメ^ーカイ<ガ>/アリマ^
(ス).....//」は合成パラメータ生成部5に与
えられる。
【0027】合成パラメータ生成部5は、言語処理部3
から与えられた音声記号列から、最初に出現するポーズ
記号(ポーズ区間記号)「.」の先行アクセント句であ
る「ア(シ)タ^ワ」なる音韻系列を切り出し、その音
韻系列に対応する音韻のケプストラムパラメータを音声
素片ファイル4より抽出して音韻パラメータを生成する
(図2ステップS3)。同時に合成パラメータ生成部5
は、その音韻系列に対応する韻律情報に従って韻律パラ
メータを生成する。
【0028】合成パラメータ生成部5は、生成した「ア
(シ)タ^ワ」に対応する音韻パラメータおよび韻律パ
ラメータを音声合成部7に与える。また合成パラメータ
生成部5は、この「ア(シ)タ^ワ」に後続する1個の
ポーズ記号「.」をポーズ生成部6に与える。
【0029】なお、従来であれば、合成パラメータ生成
部5において、「ア(シ)タ^ワ」とそれに後続するポ
ーズ記号「.」までの「ア(シ)タ^ワ.」の音韻パラ
メータおよび韻律パラメータ(ポーズ記号で表されるポ
ーズ部に対しては音韻パラメータおよび韻律パラメータ
とも「0」が設定される)が生成されて、それが音声合
成部7に与えられることに注意されたい。
【0030】音声合成部7は、合成パラメータ生成部5
から「ア(シ)タ^ワ」に対応する音韻パラメータおよ
び韻律パラメータ(合成パラメータ)が与えられると、
それを入力して一時保持する。そして音声合成部7は、
入力した「ア(シ)タ^ワ」の合成パラメータに従い、
音源の生成とディジタルフィルタリング処理とを行うこ
とにより、「ア(シ)タ^ワ」の音声ディジタルデータ
(前記入力文字コード列「明日は説明会があります。よ
ろしくお願いします。」中の「明日は」に示される音声
ディジタルデータ)を生成する(図2ステップS4)。
【0031】この音声合成部7により生成された音声デ
ィジタルデータはオーディオデバイス8に与えられる。
但し、オーディオデバイス8による音声出力中の場合に
は、生成した音声ディジタルデータは、音声出力の終了
を待って与えられる。
【0032】一方、ポーズ生成部6は、合成パラメータ
生成部5から与えられた「ア(シ)タ^ワ」に後続する
1個のポーズ記号「.」に基づいて、200ms分のポ
ーズデータ(「0」データ)を生成する(図2ステップ
S5)。ここでは、サンプリング周波数が8kHzであ
るため、ポーズ生成部6は1600個のポーズデータを
生成する。
【0033】ポーズ生成部6は、音声合成部7からオー
ディオデバイス8に音声ディジタルデータ(ここでは
「ア(シ)タ^ワ」の音声ディジタルデータ)が与えら
れると、自身が生成したポーズデータ(ここでは、「ア
(シ)タ^ワ」に後続する1個のポーズ記号「.」によ
り示される200msのポーズ区間に対応した1600
個のポーズデータ)を同デバイス8に与える(図2ステ
ップS6)。これにより、「ア(シ)タ^ワ」の音声デ
ィジタルデータの後に1600個のポーズデータが付加
されたことになる。
【0034】オーディオデバイス8は、音声合成部7か
ら与えられた「ア(シ)タ^ワ」の音声ディジタルデー
タとポーズ生成部6から与えられて同データに付加され
た1600個のポーズデータを、D/A変換器により順
にアナログ信号に変換し、折り返し雑音除去フィルタを
介してスピーカ9に出力することにより、「ア(シ)タ
^ワ.」に対応する音声をスピーカ9から出力させる
(図2ステップS7,S8)。
【0035】このように本実施例では、ポーズ部は出力
される合成音が無音であり、オーディオデバイス8から
は出力「0」の信号を出力させればよいことに着目し
て、当該ポーズ部については、ポーズ記号「.」をもと
にポーズ区間分のポーズデータ(「0」データ)を生成
するようにし、合成パラメータ生成部5による合成パラ
メータ作成の対象外とすることで、音声合成部7にてポ
ーズ部の合成フィルタリングが行われないようにしてい
る。こうすることで、音声合成部7での合成フィルタリ
ングに要する時間が短縮され、リアルタイムでの音声合
成が可能となる。
【0036】なお、従来であれば、ポーズのパラメータ
を含む合成パラメータを合成パラメータ生成部5にて生
成して音声合成部7に与えていたため、当該音声合成部
7では、合成音が無音となるポーズ部についても合成フ
ィルタリングが行われ、音声合成に長時間要していた。
【0037】さて、合成パラメータ生成部5は、オーデ
ィオデバイス8によるスピーカ9からの音声出力が開始
されると、「//」で示される1文の終りまで処理した
か否かを判断する(図2ステップS9)。この例のよう
に1文の終りに達していない場合には、後続の「セツメ
^ーカイ<ガ>/アリマ^(ス).....//」につ
いて、ステップS3からステップS8まで上記と同様の
処理が行われる。このときポーズ生成部6では、5個の
ポーズ記号「.....」により示される1000ms
(1秒)のポーズ区間に対応した8000個のポーズデ
ータが生成される。
【0038】そして、先の「ア(シ)タ^ワ.」に対応
する音声出力が終了すると、新たに音声合成部7により
生成される「セツメ^ーカイ<ガ>/アリマ^(ス)」
の音声ディジタルデータとポーズ生成部6により生成さ
れる8000個のポーズデータが順にオーディオデバイ
ス8に与えられ、次の音声出力に供される。
【0039】このとき、1文の処理が終了していること
から、今度はステップS9からステップS10に進み、
入力部1に制御が戻る。入力部1は、ステップS10に
おいて、文章の終りまで処理したか否かを判断し、この
例のように終りでなければ、ステップS1の処理に戻
る。このステップS1では、次の文「よろしくお願いし
ます。」が入力部1により切り出され、以後、前記した
処理と同様な処理が行われる。
【0040】さて本実施例においては、「ア(シ)タ^
ワ.セツメ^ーカイ<ガ>/アリマ^(ス).....
//」の例では、6個のポーズ記号、即ち1.2秒分の
ポーズ記号があることから、音声合成部7の合成フィル
タリング処理により例えば1秒分の音声ディジタルデー
タを生成するのに単純に1秒かかるものとすると、ポー
ズ区間1.2秒分だけ処理時間が短縮できたことにな
る、但し、ポーズ生成部6によるポーズデータ生成に要
する時間は音声合成部7での合成フィルタリングに要す
る時間より極めて少ないため無視する。
【0041】以上に述べた第1実施例では、ポーズ生成
部6を設けて当該ポーズ生成部6にてポーズデータを生
成するようにしていたが、一般にPC(パーソナルコン
ピュータ)やEWS(エンジニアリング・ワーク・ステ
ーション)は、オーディオデバイス(8)に対して音声
ディジタルデータの書き込みを行わなければ、自動的に
ポーズの状態が続く構造となっている。したがって、ポ
ーズ生成部6がなくてもポーズ(ポーズ区間)が生成で
き、その時間は、オーディオデバイス(8)に対して何
も書き込まない期間を設定することにより、任意に制御
できる。また、PCやEWSにはタイマ機能が組み込ま
れており、この機能を利用することで、上記の何も書き
込まない期間、即ちポーズ区間の設定が可能となる。
【0042】そこで、このタイマ機能を利用してポーズ
区間を設定するようにした第2実施例につき、以下に説
明する。 [第2実施例]図3は同実施例に係る音声合成装置の概
略構成を示すブロック図である。なお、図1と同様の部
分には、便宜上同一符号を付してある。
【0043】図3に示す音声合成装置が、図1に示した
音声合成装置と異なるのは、主として次の3点である。
第1は、ポーズ生成部6に代えて、タイマ11と同タイ
マ11にタイマ値を設定するタイマ設定部12を用いて
いる点である。
【0044】第2は、図1では合成パラメータ生成部5
からポーズ生成部6に与えられたポーズ記号が、タイマ
設定部12に与えられる点である。第3は、音声合成部
7が生成した音声ディジタルデータをオーディオデバイ
ス8に出力できる条件が、オーディオデバイス8が音声
出力中でないことに加えて、タイマ11のタイマ値が
「0」である点である。
【0045】タイマ11は、1カウント当たり例えば1
ms(即ちタイマクロックの周期は1ms)であり、
「0」より小さい値にはならないものとする。タイマ設
定部12は、オーディオデバイス8が音声出力中にない
こと(したがって音声合成部7からの音声ディジタルデ
ータ入力が可能なこと)を示すレディ信号13の出力時
に、合成パラメータ生成部5から与えられているポーズ
記号(ポーズ記号列)の示すポーズ長をタイマ11に設
定する。
【0046】次に、図3に示す音声合成装置の動作を図
4のフローチャートを参照して説明する。まず、前記し
た第1実施例の場合と同様に、入力部1により、音声合
成の対象とする漢字かな混じりの文字コード列「明日は
説明会があります。よろしくお願いします。」が入力さ
れたとする。
【0047】入力部1は、句点「。」で1文「明日は説
明会があります。」を切り出す(図4ステップS1
1)。言語処理部3は、入力部1により切り出された文
字コード列(1文)「明日は説明会があります。」と単
語辞書2とを照合し、この入力文字コード列が示す音声
合成の対象となっている単語や句等についてのアクセン
ト型、読み、品詞情報を求め、その品詞情報に従うアク
セント型・境界の決定、ポーズ記号の挿入、および漢字
かな混じり文の読みの形式への変換を行い、前記したよ
うな「ア(シ)タ^ワ.セツメ^ーカイ<ガ>/アリマ
^(ス).....//」なる音韻系列と韻律情報(音
声記号列)を生成する(図4ステップS12)。
【0048】言語処理部3によって生成された音声記号
列「ア(シ)タ^ワ.セツメ^ーカイ<ガ>/アリマ^
(ス).....//」は合成パラメータ生成部5に与
えられる。これにより合成パラメータ生成部5および音
声合成部7により次に述べるステップS13の処理が行
われる。
【0049】即ち、まず合成パラメータ生成部5は、言
語処理部3から与えられた音声記号列から、最初に出現
するポーズ記号(ポーズ区間記号)「.」の先行アクセ
ント句である「ア(シ)タ^ワ」なる音韻系列を切り出
し、その音韻系列に対応する音韻のケプストラムパラメ
ータを音声素片ファイル4より抽出して音韻パラメータ
を生成する。同時に合成パラメータ生成部5は、その音
韻系列に対応する韻律情報に従って韻律パラメータを生
成する。
【0050】合成パラメータ生成部5は、生成した「ア
(シ)タ^ワ」に対応する音韻パラメータおよび韻律パ
ラメータを音声合成部7に与える。また合成パラメータ
生成部5は、この「ア(シ)タ^ワ」に後続する1個の
ポーズ記号「.」をタイマ設定部12に与える。
【0051】タイマ設定部12は、合成パラメータ生成
部5から与えられたポーズ記号「.」を入力して一時保
持する。音声合成部7は、合成パラメータ生成部5から
与えられた「ア(シ)タ^ワ」に対応する音韻パラメー
タおよび韻律パラメータ(合成パラメータ)を入力して
一時保持する。そして音声合成部7は、入力した「ア
(シ)タ^ワ」の合成パラメータに従い、音源の生成と
ディジタルフィルタリング処理とを行うことにより、
「ア(シ)タ^ワ」の音声ディジタルデータ(前記入力
文字コード列「明日は説明会があります。よろしくお願
いします。」中の「明日は」に示される音声ディジタル
データ)を生成する。
【0052】音声合成部7は、「ア(シ)タ^ワ」の音
声ディジタルデータを生成すると、オーディオデバイス
8が音声出力中であるか否かを、同デバイス8からのレ
ディ信号13により調べる(図4ステップS14)。も
し、音声出力中でなければ、音声合成部7はステップS
15に進み、音声出力中であるならば、音声出力中でな
くなる(即ち音声出力が終了してレディ信号13が真と
なる)のを待つ。
【0053】ここでは、オーディオデバイス8は音声出
力中でないため、音声合成部7はステップS15に進
む。音声合成部7は、このステップS15において、タ
イマ11の値(タイマ値)が「0」であるか否かを調べ
る。もし、タイマ値が「0」であるならば、音声合成部
7はステップS16に進み、「0」でないならば、
「0」になるのを待つ。
【0054】ここでは、タイマ11には何も設定されて
いないため、タイマ値は「0」であり、音声合成部7は
次のステップS16に進む。音声合成部7は、このステ
ップS16において、先のステップS13で生成した
「ア(シ)タ^ワ」の音声ディジタルデータを、スピー
カ9からの音声出力のために、オーディオデバイス8に
与える。これにより、前記した第1実施例の場合と同様
にして、「ア(シ)タ^ワ.」に対応する音声のスピー
カ9からの出力が開始される。このときオーディオデバ
イス8からのレディ信号13は、音声出力中を示す偽値
に設定される。
【0055】さて、音声合成部7で生成された「ア
(シ)タ^ワ」の音声ディジタルデータがオーディオデ
バイス8に与えられると、合成パラメータ生成部5は、
「//」で示される1文の終りまで処理したか否かを判
断する(図4ステップS17)。この例のように1文の
終りに達していない場合には、後続の「セツメ^ーカイ
<ガ>/アリマ^(ス).....//」について、音
声合成部7およびオーディオデバイス8によるステップ
S13の処理が、上記した「ア(シ)タ^ワ」に対する
のと同様に行われる。
【0056】このステップS13では、「セツメ^ーカ
イ<ガ>/アリマ^(ス)」の合成パラメータの生成
と、それに基づく音声ディジタルデータの生成とが行わ
れると共に、それに後続する5個のポーズ記
号「.....」が合成パラメータ生成部5からタイマ
設定部12に与えられる。
【0057】タイマ設定部12は、このポーズ記
号「.....」を入力し、先に保持した「ア(シ)タ
^ワ」に後続する1個のポーズ記号「.」の後に保持す
る。一方、「ア(シ)タ^ワ」の音声出力が終了する
と、オーディオデバイス8はレディ信号13を真にす
る。するとタイマ設定部12は、自身が保持しているポ
ーズ記号(ポーズ記号列)のうち、その時点で最も古い
ポーズ記号(ポーズ記号列)、即ち「ア(シ)タ^ワ」
に後続する1個のポーズ記号「.」を取り出し、それに
対応するポーズ区間200msを示す値「200」をタ
イマ11に設定する。このタイマ設定部12の動作は、
PCやEWS上では、音声出力終了に応じて発生する割
り込み(音声出力終了割り込み)に従う音声出力終了割
り込み処理により実現される。
【0058】タイマ11は、1ms毎にカウントダウン
を行う。さて音声合成部7は、ステップS13の処理
で、「セツメ^ーカイ<ガ>/アリマ^(ス)」の音声
ディジタルデータを生成すると、前記したように、オー
ディオデバイス8が音声出力中であるか否かを調べる
(図4ステップS14)。
【0059】もし、既に「ア(シ)タ^ワ」に対する音
声出力が終了しているならば、音声合成部7はステップ
S15に進み、終了していなければ、終了するのを待
つ。ここで、「ア(シ)タ^ワ」に対する音声出力が終
了したものとすると、音声合成部7は、ステップS15
において、タイマ11の値が「0」であるか否か、即ち
音声出力が終了してからタイマ設定部12により設定さ
れた期間(ここでは、「ア(シ)タ^ワ」に後続する1
個のポーズ記号「.」に対応する200ms)が経過し
たかを判別する。
【0060】そしてタイマ11の値が「0」になったと
き、即ち音声出力終了後、ポーズ区間の時間分(200
ms)が経過したとき、音声合成部7は、ステップS1
3で生成した「セツメ^ーカイ<ガ>/アリマ^
(ス)」の音声ディジタルデータをオーディオデバイス
8に与え、スピーカ9からの音声出力を行わせる(図4
ステップS16)。
【0061】このように、音声出力が終了しても、タイ
マ11の値が「0」になるまでは、即ち音声出力終了時
にタイマ設定部12によって設定された、その出力音声
に後続するポーズ区間に相当する時間が経過するまで
は、次の音声出力対象となる音声ディジタルデータの出
力は待たされる。オーディオデバイス8の出力は、音声
出力終了後から次の音声ディジタルデータが与えられる
までの期間、ポーズ状態となるため、ポーズを生成した
のと等価となる。
【0062】ステップS16にて、「セツメ^ーカイ<
ガ>/アリマ^(ス)」の音声ディジタルデータが音声
合成部7からオーディオデバイス8に与えられると、1
文の処理が終了していることから、今度はステップS1
7からステップS18に進み、入力部1に制御が戻る。
【0063】入力部1は、ステップS18において、文
章の終りまで処理したか否かを判断し、この例のように
終りでなければ、ステップS11の処理に戻る。このス
テップS11では、次の文「よろしくお願いします。」
が入力部1により切り出され、以後、前記した処理と同
様な処理が行われる。
【0064】以上に述べた第2実施例においても、ポー
ズ部については、合成パラメータ生成部5による合成パ
ラメータ作成の対象外とすることで、音声合成部7にて
ポーズ部の合成フィルタリングが行われないようにして
いるため、音声合成に係わる処理時間が短縮できる。
【0065】なお、本発明は上述した実施例に限定され
るものではない。即ち、実施例では、ポーズデータとし
て「0」を用いて説明したが、オーディオデバイス8内
のD/A変換器の仕様によっては「0」データを入力し
てもアナログ信号が「0」にならないものがあるため、
特に「0」に限定する必要はなく、アナログ信号が
「0」になるようなディジタルデータをポーズデータと
して使用すればよい。要するに本発明はその要旨を逸脱
しない範囲で種々変形して実施することができる。
【0066】
【発明の効果】以上説明したように本発明によれば、ポ
ーズ区間のデータが合成パラメータ(音韻パラメータと
韻律パラメータ)に含まれず、したがってポーズ区間に
ついては、処理に最も時間を要する音源生成や合成フィ
ルタリングが実行されない構成とすると共に、ポーズ区
間に対応する時間(期間)中は有音となるような信号が
出力されない構成としたので、ポーズ区間を含む音声出
力を正しく行いながらも、ポーズ区間の合成フィルタリ
ングを行わないで済む分だけ、音声合成に要する処理時
間を短縮させることができ、パーソナルコンピュータ
(PC)やエンジニアリング・ワーク・ステーション
(EWS)のマルチタスクOS下のもとでソフトウェア
処理で音声合成する場合にも、リアルタイムに行える等
の実用上多大なる効果が奏せられる。
【図面の簡単な説明】
【図1】本発明の第1実施例を示す音声合成装置のブロ
ック構成図。
【図2】上記第1実施例における処理の流れを説明する
ためのフローチャート。
【図3】本発明の第2実施例を示す音声合成装置のブロ
ック構成図。
【図4】上記第2実施例における処理の流れを説明する
ためのフローチャート。
【符号の説明】
1…入力部、2…単語辞書、3…言語処理部、4…音声
素片ファイル、5…合成パラメータ生成部、6…ポーズ
生成部、7…音声合成部、8…オーディオデバイス(音
声出力手段)、9…スピーカ、11…タイマ、12…タ
イマ設定部、13…レディ信号。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音韻系列に従って対応する音韻パラメー
    タを生成すると共に韻律情報に従って韻律パラメータを
    生成し、これら音韻パラメータおよび韻律パラメータに
    従い音声を合成する音声合成方法において、 前記音韻パラメータおよび韻律パラメータの生成対象か
    らポーズ部分を除外して音韻パラメータおよび韻律パラ
    メータを生成し、当該ポーズ部分のパラメータを含まな
    い音韻パラメータおよび韻律パラメータから合成フィル
    タリングを含む処理により音声データを生成し、当該ポ
    ーズ部分に対してはそのポーズ長分の時間だけ無音とな
    るようなポーズデータを別に生成し、このポーズデータ
    を前記合成フィルタリングを含む処理により生成された
    音声データに付加して音声を生成するようにしたことを
    特徴とする音声合成方法。
  2. 【請求項2】 音韻系列に従って対応する音韻パラメー
    タを生成すると共に韻律情報に従って韻律パラメータを
    生成し、これら音韻パラメータおよび韻律パラメータに
    従い音声を合成する音声合成方法において、 前記音韻パラメータおよび韻律パラメータの生成対象か
    らポーズ部分を除外して音韻パラメータおよび韻律パラ
    メータを生成し、当該ポーズ部分のパラメータを含まな
    い音韻パラメータおよび韻律パラメータから合成フィル
    タリングを含む処理により音声データを生成し、当該ポ
    ーズ部分に先行する音声出力が終了した後当該ポーズ部
    分のポーズ長分の時間を経過するまでは、当該ポーズ部
    分に後続する音声データの出力を抑止するようにしたこ
    とを特徴とする音声合成方法。
  3. 【請求項3】 音韻系列に従って対応する音韻パラメー
    タを生成すると共に韻律情報に従って韻律パラメータを
    生成し、これら音韻パラメータおよび韻律パラメータに
    従い音声を合成する音声合成装置において、 前記音韻パラメータおよび韻律パラメータの生成対象か
    らポーズ部分を除外して音韻パラメータおよび韻律パラ
    メータを生成する合成パラメータ生成手段と、 この合成パラメータ生成手段によって生成された前記ポ
    ーズ部分のパラメータを含まない音韻パラメータおよび
    韻律パラメータから、合成フィルタリングを含む処理に
    より音声データを生成する音声合成手段と、 前記除外されたポーズ部分のポーズ長分の時間だけ無音
    となるようなポーズデータを生成して前記音声合成手段
    によって生成された音声データに付加するポーズ生成手
    段と、 前記ポーズデータが付加された音声データから対応する
    音声を出力する音声出力手段とを具備することを特徴と
    する音声合成装置。
  4. 【請求項4】 音韻系列に従って対応する音韻パラメー
    タを生成すると共に韻律情報に従って韻律パラメータを
    生成し、これら音韻パラメータおよび韻律パラメータに
    従い音声を合成する音声合成装置において、 前記音韻パラメータおよび韻律パラメータの生成対象か
    らポーズ部分を除外して音韻パラメータおよび韻律パラ
    メータを生成する合成パラメータ生成手段と、 この合成パラメータ生成手段によって生成された前記ポ
    ーズ部分のパラメータを含まない音韻パラメータおよび
    韻律パラメータから、合成フィルタリングを含む処理に
    より音声データを生成する音声合成手段と、 この音声合成手段から前記音声データを受け取って対応
    する音声を出力する音声出力手段と、 この音声出力手段の音声出力終了時より、その音声に後
    続する前記ポーズ部分のポーズ長分の時間をカウント
    し、そのカウント期間中は前記音声合成手段から前記音
    声出力手段への音声データ出力を抑止するための時間カ
    ウント手段とを具備し、前記音声合成手段は、前記時間
    カウント手段による前記ポーズ長分の時間カウントを終
    了した際に、後続する音声データを前記音声出力手段に
    出力することを特徴とする音声合成装置。
JP12926393A 1993-05-31 1993-05-31 音声合成方法および装置 Expired - Lifetime JP3568972B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12926393A JP3568972B2 (ja) 1993-05-31 1993-05-31 音声合成方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12926393A JP3568972B2 (ja) 1993-05-31 1993-05-31 音声合成方法および装置

Publications (2)

Publication Number Publication Date
JPH06337698A true JPH06337698A (ja) 1994-12-06
JP3568972B2 JP3568972B2 (ja) 2004-09-22

Family

ID=15005253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12926393A Expired - Lifetime JP3568972B2 (ja) 1993-05-31 1993-05-31 音声合成方法および装置

Country Status (1)

Country Link
JP (1) JP3568972B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337697A (ja) * 2000-03-23 2001-12-07 Oki Electric Ind Co Ltd 音声合成装置
WO2006093195A1 (ja) * 2005-03-01 2006-09-08 Matsushita Electric Industrial Co., Ltd. 再生装置及び再生方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337697A (ja) * 2000-03-23 2001-12-07 Oki Electric Ind Co Ltd 音声合成装置
WO2006093195A1 (ja) * 2005-03-01 2006-09-08 Matsushita Electric Industrial Co., Ltd. 再生装置及び再生方法

Also Published As

Publication number Publication date
JP3568972B2 (ja) 2004-09-22

Similar Documents

Publication Publication Date Title
JP3083640B2 (ja) 音声合成方法および装置
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
JPH086591A (ja) 音声出力装置
WO2004066271A1 (ja) 音声合成装置,音声合成方法および音声合成システム
JPH05165486A (ja) テキスト音声変換装置
Levinson et al. Speech synthesis in telecommunications
JP3568972B2 (ja) 音声合成方法および装置
Bonafonte Cávez et al. A billingual texto-to-speech system in spanish and catalan
Yu et al. A statistical model with hierarchical structure for predicting prosody in a mandarin text‐to‐speech system
JPH05281984A (ja) 音声合成方法および装置
JP3446342B2 (ja) 自然言語処理方法および音声合成装置
JP3113101B2 (ja) 音声合成装置
JPH05134691A (ja) 音声合成方法および装置
Dessai et al. Development of Konkani TTS system using concatenative synthesis
JPH10254676A (ja) 音声合成装置及びその方法
JP3446341B2 (ja) 自然言語処理方法および音声合成装置
JP3031691B2 (ja) 音声規則合成装置
JP2000056788A (ja) 音声合成装置の韻律制御方法
JPH08160990A (ja) 音声合成装置
JPS62119591A (ja) 文章読上げ装置
JPH05281985A (ja) 音声合成方法および装置
JPH08185197A (ja) 日本語解析装置、及び日本語テキスト音声合成装置
JPH096378A (ja) テキスト音声変換装置
JP2888847B2 (ja) 文章読み上げ装置とその方法及び言語処理装置とその方法
JP2000187494A (ja) 音声合成方法および音声合成装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040617

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080625

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090625

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090625

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100625

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100625

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110625

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120625

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120625

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130625

Year of fee payment: 9

EXPY Cancellation because of completion of term