JPH09230892A

JPH09230892A - テキスト・音声変換装置

Info

Publication number: JPH09230892A
Application number: JP8038062A
Authority: JP
Inventors: Mitsuji Matsushita; 満次松下; Seiichi Wada; 誓一和田; Yasuhiro Chiyou; 康宏頂
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1996-02-26
Filing date: 1996-02-26
Publication date: 1997-09-05

Abstract

(57)【要約】【課題】複数入力テキストに対するテキスト・音声変
換による複数の音響出力手段からの音響出力を簡単な構
成で、会話調の文章、対話形式の文章などの音響出力に
おける臨場感を向上させる。【解決手段】１番目の文章１が入力されると、テキス
ト解析回路１０４で、日本語解析が行われた後、中間言
語が生成回路１０６へ与えられる。制御回路１０３で
は、１番目の文章内に、２番目の文章の合成開始タイミ
ングがあることをＤＳＰ０回路１１４に指令する。これ
によってＤＳＰ０回路１１４では、波形バッファ回路１
０９に波形データをバッファリングするが、合成を開始
しないで２番目の文章２の波形生成が開始されるまで待
機する。１番目の文章１の日本語解析が終わった後、テ
キスト解析回路１０４は、直ちに、２番目の文章２の日
本語解析を実施する。２番目の文章の日本語解析が終了
すると、パラメータ生成回路１１５へ中間言語を与え
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキスト・音声変
換装置に関し、複数入力テキストに対してテキスト・音
声変換して音響出力を行うことに適用し得るものであ
る。

【０００２】

【従来の技術】従来、この種のテキスト・音声変換合成
は、ワードプロセッサなどで作成された漢字仮名混じり
文章（テキスト）を入力すると日本語解析処理を行って
入力文章から読み、そして、アクセントを抽出し、これ
に日本語の音韻規則、韻律規則から音韻の長さや、ポー
ズや、イントネーションなどを付加して音声合成出力す
るものであった。

【０００３】この種の技術としては、文献１：沖電気研
究開発１９９１年１０月第１５２号、ページ８５〜９
０、「テキスト・音声変換技術の開発」に提案されてい
る。

【０００４】図２は、従来のテキスト・音声変換合成の
概略処理フローである。この図２において、テキスト・
音声変換合成においては、第１の処理ステップとしてテ
キスト解析部があり、第２の処理ステップとしてパラメ
ータ生成部があり、第３の処理ステップとして音声合成
部がある。

【０００５】上記第１の処理ステップのテキスト解析部
では、漢字仮名混じり文に対して、日本語辞書を用いて
形態素解析、アクセント設定、声立て設定やポーズ設定
などを行って、中間言語を生成するものである。更に、
第２の処理ステップのパラメータ生成部では、第１の処
理ステップで得た中間言語に対して、素片データを用い
て素片データ取り出し、音韻継続時間設定、ピッチパタ
ーン設定や振幅パターン設定などを行い、合成パラメー
タを生成するものである。更にまた、第３の処理ステッ
プの音声合成部では、上記第２の処理ステップで得た合
成パラメータに対して、波形生成を行って、合成音声を
生成出力するものである。このような構成で従来は、日
本語文章を音声に変換して出力していた。

【０００６】

【発明が解決しようとする課題】しかしながら、従来の
テキスト・音声変換合成では、入力された文章を読点、
句点や改行などの単位で区切りながら日本語の解析を実
施し、入力された文章をシリアルに変換合成するもので
あり、複数の文章を同時に合成することが困難であっ
た。

【０００７】従って、会話調の文章、対話形式の文章を
臨場感を持って再現させるために、複数のスピーカから
再生したい場合には、（１）１つのテキスト・音声変換合成器で複数回に分け
て、音声合成した音を録音編集する。（２）複数のテキスト・音声変換合成器を用いて、それ
ぞれに話者（文章）を割り当てて音声合成する。これらの２つの方法を用いなければならなかった。

【０００８】上記（１）の方法は、テキスト・音声変換
合成のリアルタイム性を著しく劣化させるため、従来の
ＡＤＰＣＭ（適応差分ＰＣＭ：ＡｄａｐｔｉｖｅＤｉ
ｆｆｒｅｎｔｉａｌＰＣＭ）を用いた方式と何等変わ
りなく操作性が悪いという問題がある。

【０００９】また、上述の（２）の方法は、テキスト・
音声変換合成器が複数台必要であり、不経済である。更
に、複数のテキスト・音声変換合成器にテキストをタイ
ミング良く与える機能を持った上位装置が必要であり、
システムが大きくなるという問題がある。

【００１０】これらのことから、複数入力テキストに対
するテキスト・音声変換による複数の音響出力手段から
の音響出力を簡単な構成で、会話調の文章、対話形式の
文章などの音響出力における臨場感を向上させることが
できるテキスト・音声変換装置の実現が要請されてい
る。

【００１１】

【課題を解決するための手段】そこで、請求項１記載の
発明は、（１）複数の入力テキストをテキスト・音声変
換合成して、それぞれ複数の『音響出力手段』のいずれ
かから音響出力するテキスト・音声変換装置であって、
（２）上記各入力テキストには、それぞれ予め当該入力
テキストをいずれの音響出力手段から音響出力させるか
を表す「音響出力情報」と、入力テキスト間の音響合成
開始のタイミング調整を図る「合成開始タイミング情
報」とが付加されていて、（３）上記入力テキストに付
加されている音響出力情報と合成開始タイミング情報と
を読み取ると共に、上記入力テキストを解析して中間言
語を生成する『テキスト解析手段』を備え、（４）上記
中間言語から音声合成に必要なパラメータ生成と、この
パラメータによって音声波形の合成とを行う『パラメー
タ生成・波形合成手段』を上記各音響出力手段に対応し
て複数備え、（５）『上記テキスト解析手段』は、「上
記音響出力情報」と「合成開始タイミング情報」とを読
み取ることによって、上記入力テキスト間の上記パラメ
ータ生成と波形合成との合成開始タイミングの調整を図
りながら、合成開始タイミングの早い入力テキストに対
する中間言語から順番に「上記音響出力情報」に従って
対応する上記パラメータ生成・波形合成手段及び音響出
力手段に対して音響変換させて出力させるものである。

【００１２】このような構成を採ることで、入力テキス
トに付加されている音響出力情報を読み取っていずれか
の音響出力手段から出力することができ、しかも、第１
の入力テキストの中に第２の入力テキストをいずれの時
点から合成するかを表す合成開始タイミング情報が付加
されているので、第１の入力テキストに対する音声合成
を行って、いずれかの音響出力手段で出力途中に第２の
入力テキストを他のパラメータ生成・波形合成手段で音
声合成して、対応する音響出力手段から出力させること
ができるのである。

【００１３】同様に第２の入力テキストに対する音響出
力を行っている途中においても、第３の入力テキストを
第２の入力テキストに含まれている合成開始タイミング
情報に従って、必要な時点に合成開始させて音響出力さ
せることができるのである。

【００１４】更に、パラメータ生成・波形合成手段を上
記各音響出力手段に対応して複数備えているので、テキ
スト入力が開始されてから、音響出力されるまでの時間
を短くすることができるのである。

【００１５】また、請求項２の発明は、（１）複数の入
力テキストをテキスト・音声変換合成して、それぞれ複
数の『音響出力手段』のいずれかから音響出力するテキ
スト・音声変換装置であって、（２）上記各入力テキス
トにはそれぞれ予め当該入力テキストをいずれの『音響
出力手段』から音響出力させるかを表す「音響出力情
報」と、入力テキスト間の音響合成のタイミング調整を
図る「合成開始タイミング情報」とが付加されていて、
（３）上記入力テキストを解析して中間言語を生成する
『テキスト解析手段』と、（４）この中間言語から上記
音響出力情報と合成開始タイミング情報とを読み取り、
入力テキスト間の上記パラメータ生成と波形合成との合
成開始タイミングの調整を図りながら、合成開始タイミ
ングの早い入力テキストに対する中間言語から順番に音
声合成に必要なパラメータ生成と、このパラメータによ
って音声波形の合成とを行い、「上記音響出力情報」に
従って対応する『上記音響出力手段』に音声波形を与え
る『パラメータ生成・波形合成手段』とを備えたもので
ある。

【００１６】このような構成を採ることで、『パラメー
タ生成・波形合成手段』で、入力テキスト間のパラメー
タ生成と波形合成との合成開始タイミングの調整を図り
ながら、合成開始タイミングの早い入力テキストに対す
る中間言語から順番に音声合成に必要なパラメータ生成
と、このパラメータによって音声波形の合成とを行っ
て、音響出力情報で指定される音響出力手段に与えてい
るので、一つのパラメータ生成・波形合成手段で、複数
の音響出力手段を出力制御し、音響出力することができ
るので、構成が簡単となる。

【００１７】従って、複数の入力テキストが連続的に与
えられても各入力テキストに付加されている「合成開始
タイミング情報」で合成開始を行い、しかも「音響出力
情報」によって指定される『音響出力手段』から同じよ
うな時期に複数音響をオーバラップさせながら出力させ
ることができるのである。

【００１８】

【発明の実施の形態】次に本発明の好適な実施の形態を
図面を用いて説明する。本発明の実施の形態のテキスト
・音声変換合成装置においては、（１）入力された文章
をどのスピーカから出力するか否かを指定する手段と、
（２）入力された文章の合成開始タイミングを指定する
手段と、（３）複数の音声合成出力手段（Ｄ／Ａコンバ
ータ）と、（４）上記（１）〜（３）を制御する手段と
を備えるように構成する。

【００１９】『第１の実施の形態』：図１は、第１の実
施の形態のテキスト・音声変換合成装置の機能構成図で
ある。この図１において、テキスト・音声変換合成装置
は、入力インタフェース回路１０１と、テキストバッフ
ァ回路１０２と、制御回路１０３と、テキスト解析回路
１０４と、日本語辞書回路１０５と、パラメータ生成回
路１０６、１１５、１２４と、波形合成回路１０７、１
１６、１２５と、音声素片辞書回路１０８、１１７、１
２６と、波形バッファ回路１０９、１１８、１２７と、
Ｄ（デジタル）／Ａ（アナログ）変換回路１１０、１１
９、１２８と、フィルタ回路１１１、１２０、１２９
と、アンプ回路１１２、１２１、１３０と、スピーカ１
１３、１２２、１３１とから構成されている。

【００２０】尚、パラメータ生成（０）回路１０６と波
形合成（０）回路１０７と音声素片辞書（０）回路１０
８とからＤＳＰ０（デジタルシグナルプロセッサ）回路
１１４を構成している。同じように、パラメータ生成
（１）回路１１５と、波形合成（１）回路１１６と、音
声素片辞書（１）回路１１７とからＤＳＰ１回路１２３
を構成している。更に、パラメータ生成（ｎ）回路１２
４と、波形合成（ｎ）回路１２５と、音声素片辞書
（ｎ）回路１２６とからＤＳＰｎ回路１３２を構成して
いる。

【００２１】入力インタフェース回路１０１は、入力テ
キストを制御回路１０３からの制御によって調整してテ
キストバッファ回路１０２に与える。

【００２２】テキストバッファ回路１０２は、入力テキ
ストを制御回路１０３からの制御によってテキストバッ
ファ回路内を検索して、コマンドとテキストとを分離す
る。また、コマンドを解析して動作制御を行う。テキス
トは、読点、句点、及び改行コードの指定単位で区切ら
れた後、テキスト解析回路１０４に与える。

【００２３】制御回路１０３は、入力インタフェース回
路１０１、テキストバッファ回路１０２、日本語辞書回
路１０５、テキスト解析回路１０４、ＤＳＰ０回路１１
４、ＤＳＰ１回路１２３、ＤＳＰｎ回路１３２などを制
御するものである。

【００２４】テキスト解析回路１０４は、日本語辞書回
路１０５からの日本語辞書データを用いて形態素解析を
行い、漢字仮名混じり文から中間言語と呼ばれるアクセ
ントとイントネーションが付加された読みの表記列に変
換する。日本語辞書回路１０５は、制御回路１０３から
の制御によって、日本語辞書データをテキストバッファ
回路１０４に与える。

【００２５】ＤＳＰ０回路１１４は、中間言語から音韻
継続長などのパラメータを生成し、この生成パラメータ
から、音声素片辞書回路１０８からの音声素片辞書デー
タを用いて音声波形を合成する。パラメータ生成（０）
回路１０６は、音声素片辞書データを用いて中間言語か
ら音韻継続長などのパラメータを生成して波形合成
（０）回路１０７に与える。波形合成（０）回路１０７
は、音声素片辞書データを用いて音声波形を合成し、波
形バッファ（０）回路１０９に与えるものである。

【００２６】音声素片辞書（０）回路１０８は、音声素
片辞書データを予め格納していて、パラメータ生成
（０）回路１０６と波形合成（０）回路１０７とに与え
るものである。波形バッファ（０）回路１０９は、波形
合成（０）回路１０７からの音声波形を一時的に格納す
るメモリ回路であり、必要な時期にＤ／Ａ変換（０）回
路１１０にデジタル音声波形信号を出力する。

【００２７】Ｄ／Ａコンバータ（０）回路１１０は、波
形バッファ（０）回路１０９からのデジタル音声波形信
号をアナログの音声信号に変換してフィルタ（０）回路
１１１に与える。フィルタ（０）回路１１１は、アナロ
グの音声信号から不要な信号を除去してアンプ（０）回
路１１２に与える。アンプ（０）回路１１２は、アナロ
グの音声信号をスピーカ（０）１１３を駆動し得るレベ
ルに調整してスピーカ（０）１１３に与える。スピーカ
（０）回路１１３は、入力テキストに対応した合成され
た音声信号を音響出力するのである。上述の（０）系統
以外の（１）系統、（ｎ）系統の各回路も上述と同じ機
能である。

【００２８】（一文のテキストが入力される場合の動
作）：先ず、データの流れを説明する。例として、
一文のテキストが入力されて、スピーカ１１３から音声
を出力する場合のコマンド、テキスト送出について説明
する。この場合に、コマンドの例を図３に示す。この図
３において、ｎ＜１０の整数とする。そして、コマンド
表記で、”ＥＳＣ”＋”Ａｎ”（１６進表記で１Ｂ、４
１、３ｎ）は、番号ｎのスピーカ１３１から合成するこ
とを表すものとする。更に、コマンド表記で”ＥＳＣ”
＋”Ｓｎ”（１６進表記で１Ｂ、５３、３ｎ）は、番号
ｎのスピーカ１３１から合成する文章の音声合成開始タ
イミングを示すものとする。

【００２９】スピーカ１１３から音声を出力することを
指定するコマンドとしてテキストの先頭に”ＥＳＣ”
＋”Ａ０”を付加する。入力テキストの例を図４に示
す。この図４において、入力テキストの例をＪＩＳ表記
で表すと、”ＥＳＣ”Ａ０山田さん。１６進数表記で
は、１Ｂ、４１、３０、３Ｂ、３３、４５、４４、３
４、３５、２４、７３、２１、２３である。

【００３０】コマンドを含む入力テキストは、入力イン
タフェース回路１０１に与えられると、制御回路１０３
からの制御によって、調整されてテキストバッファ回路
１０２に与えられる。上記入力テキストは、テキストバ
ッファ回路１０２で制御回路１０３からの制御によって
テキストバッファ回路内を検索して、コマンドとテキス
トとを分離する。また、コマンドを解析して動作制御を
行う。テキストは、読点、句点、及び改行コードの指定
単位で区切られた後、テキスト解析回路１０４に与えら
れる。

【００３１】テキスト解析回路１０４では、日本語辞書
回路１０５からの日本語辞書データを用いて形態素解析
が行われて、漢字仮名混じり文から中間言語と呼ばれる
アクセントとイントネーションが付加された読みの表記
列に変換される。図５は、入力テキストと中間言語の例
を示す図である。この図５において、表記として、任意
の文章を合成します。に対して、中間言語は、『Ｐ１
ニ］ンイノ，ブ｝ンショーヲ，Ｐ３ゴ｝ーセーシマスＰ
０。』、となる。

【００３２】このような中間言語は、”ＥＳＣ”＋”Ａ
０”コマンドによってパラメータ生成回路１０６に与え
られる。パラメータ生成回路１０６では、音韻継続長な
どのパラメータが生成される。この生成パラメータは、
波形合成回路１０７に与えられる。この波形合成回路１
０７では、生成パラメータから、音声素片辞書回路１０
８からの音声素片辞書データを用いて音声波形が合成さ
れて、波形バッファ回路１０９に与えられる。

【００３３】音声波形は、波形バッファ回路１０９に一
時格納されると、Ｄ／Ａコンバータ１１０に与えられ
る。ここで、デジタル信号からアナログ信号に変換され
てフィルタ回路１１１に与えられる。フィルタ回路１１
１では、音声波形に残されている歪みなどがフィルタで
除去されて、アンプ回路１１２に与えられる。アンプ回
路１１２では、音声信号がスピーカ１１３を駆動し得る
ように所定のレベルに増幅されてスピーカ１１３に与え
られるのである。

【００３４】（複数文のテキストが入力される場合の動
作）：次に、複数のテキストが複数のスピーカに音
声出力される場合について説明する。そこで、入力され
るテキスト及びコマンドを図６に示している。この図６
において、文章１は、”ＥＳＣ””Ａ０”任意の文章
を”ＥＳＣ””Ｓ１”合成します。である。文章２
は、”ＥＳＣ””Ａ１”それは便利ですね。である。

【００３５】１番目の文章１は、先頭に”ＥＳＣ”＋”
Ａ０”がついているので、スピーカ（０）１１３への合
成出力である。２番目の文章２は、先頭に”ＥＳＣ”
＋”Ａ１”がついているので、スピーカ（１）１２２へ
の合成出力である。１番目の文章１の途中にある”ＥＳ
Ｃ”＋”Ｓ１”は、スピーカ（１）１２２へ合成出力す
る文章の合成開始タイミングを示している。このタイミ
ングを図７に示している。この図７において、スピーカ
（０）１１３からは、時刻０の後に、『ニンイノブンシ
ョーヲゴーセーシマス。』を出力させる。スピーカ
（１）１２２からは、時刻ｔｓ経過直後に『ソレハベン
リデスネ。』を出力させるのである。

【００３６】具体的に、図８の動作タイミング図を用い
て動作を説明する。先ず、上述の第１番目の文章１が入
力されると、テキスト解析回路１０４で、日本語解析が
行われた後（ステップＰ１）、中間言語がパラメータ生
成回路１０６へ与えられる。制御回路１０３では、１番
目の文章内に、２番目の文章の合成開始タイミングがあ
ることをＤＳＰ０回路１１４に指令する（ステップＰ
３）。これによってＤＳＰ０回路１１４では、波形バッ
ファ回路１０９に波形データをバッファリングするが、
合成を開始しないで２番目の文章２の波形生成が開始さ
れるまで待機する（ステップＰ４〜Ｐ６）。

【００３７】１番目の文章１の日本語解析が終わった後
（ステップＰ１）、テキスト解析回路１０４は、直ち
に、２番目の文章２の日本語解析を実施する（ステップ
Ｐ２）。２番目の文章の日本語解析が終了すると、パラ
メータ生成回路１１５へ中間言語を与える。ＤＳＰ１回
路１２３ではパラメータ生成回路１１５及び波形合成回
路１１６とで波形合成が行われる（ステップＰ７、Ｐ
８）。このＤＳＰ１回路１２３で波形合成が開始される
と、制御回路１０３に２番目の文章の合成開始が準備で
きたことを指令する（ステップＰ９）。

【００３８】尚、ＤＳＰ０〜ｎ回路１１４、１２３、１
３２は、中間言語からリアルタイムで音声波形を合成で
きる能力があるもので、その回路構成については、例え
ば、上述の文献１などにおいても提案されている。

【００３９】制御回路１０３では、ＤＳＰ０回路１１４
から波形バッファ回路１０９及びＤ／Ａコンバータ回路
１１０に波形データを与えることを開始して良いことを
指令する（ステップＰ１０、Ｐ１１）。これによって、
スピーカ１１３からは、音声として、『ニンイノブンシ
ョーヲゴーセーシマス』が出力されるのである（ステッ
プＰ１２）。

【００４０】ＤＳＰ０回路１１４では、文章内の”Ｓ
１”コマンドが存在していた部分の合成を開始すると制
御回路１０３に２番目の文章２の開始タイミングを指令
する（ステップＰ１３）。制御回路１０３は、ＤＳＰ１
回路１２３に対して２番目の文章２の合成を開始するよ
うに指令する（ステップＰ１４）。これによって、波形
バッファ回路１１８からＤ／Ａコンバータ回路１１９に
データが転送され（ステップＰ１５）、スピーカ１２２
から音声として『ソレハベンリデスネ』が出力されるの
である（ステップＰ１６）。

【００４１】（本発明の第１の実施の形態の効果）：
以上の本発明の第１の実施の形態のテキスト・音声変
換合成装置によれば、合成する文章の音声出力を指定す
るアドレス指定コマンドを設けたことと同時に音声合成
出力される文章の開始タイミングを指定するスタートコ
マンドを設けることによって、複数の文章が複数のスピ
ーカから同時に音声出力可能となり、会話文章、対話文
章の合成が容易になると共に臨場感のある音声が得られ
る。

【００４２】従って、複数入力テキストに対するテキス
ト・音声変換による複数の音響出力手段からの音響出力
を簡単な構成で、会話調の文章、対話形式の文章などの
音響出力における臨場感を向上させることができる。ま
た、ＤＳＰ（０）回路１１４、ＤＳＰ（１）回路１２
３、ＤＳＰ（ｎ）回路１３２を各音響出力手段に対応し
て複数備えているので、テキスト入力が開始されてか
ら、音響出力されるまでの時間を短くすることができ
る。

【００４３】『第２の実施の形態』：上述の第１の実施
の形態においては、複数文章を入力したときに、合成出
力されるまでの時間的遅れを最小限にするために、パラ
メータ生成回路、波形生成回路などをスピーカの数だけ
設けたものである。一方、本第２の実施の形態において
は、文章入力から音声出力までの時間遅れが許される場
合の構成例である。

【００４４】図９は、第２の実施の形態のテキスト・音
声変換合成装置の機能構成図である。この図９におい
て、テキスト・音声変換合成装置は、入力インタフェー
ス回路１０１と、テキストバッファ回路１０２と、制御
回路１０３Ａと、テキスト解析回路１０４と、日本語辞
書回路１０５と、パラメータ生成回路１０６と、波形合
成回路１０７と、音声素片辞書回路１０８と、波形バッ
ファ回路１０９Ａ、１１８Ａ、１２７Ａと、Ｄ／Ａ変換
回路１１０Ａ、１１９Ａ、１２８Ａと、フィルタ回路１
１１、１２０、１２９と、アンプ回路１１２、１２１、
１３０と、スピーカ１１３、１２２、１３１とから構成
されている。

【００４５】更に、パラメータ生成回路１０６と、波形
合成回路１０７と、音声素片辞書回路１０８とからＤＳ
Ｐ回路１１４Ａを形成している。しかも、本第２の実施
の形態において特徴的なことは、一つのＤＳＰ回路１１
４Ａでｎ系統のスピーカ１１３、１２２、１３１への音
声出力系統を制御していることである。

【００４６】第１の音声出力系統は、波形バッファ
（０）回路１０９Ａと、Ｄ／Ａコンバータ（０）回路１
１０Ａと、フィルタ（０）回路１１１と、アンプ（０）
回路１１２と、スピーカ（０）回路１１３とから構成さ
れている。

【００４７】第２の音声出力系統は、波形バッファ
（１）回路１１８Ａと、Ｄ／Ａコンバータ（１）回路１
１９Ａと、フィルタ（１）回路１２０と、アンプ（１）
回路１２１と、スピーカ（１）回路１２２とから構成さ
れている。

【００４８】第ｎの音声出力系統は、波形バッファ
（ｎ）回路１２７Ａと、Ｄ／Ａコンバータ（ｎ）回路１
２８Ａと、フィルタ（ｎ）回路１２９と、アンプ（ｎ）
回路１３０と、スピーカ（ｎ）回路１３１とから構成さ
れている。

【００４９】（動作）：次に図９のテキスト・音声
変換合成装置の動作を説明する。この図９において、テ
キスト・音声変換合成装置では、先ず、入力された文章
が日本語解析されて、中間言語が得られ、パラメータ生
成回路１０６に与えられ、波形合成回路１０７で音声波
形が合成されるまでは、上述の第１の実施の形態と同様
である。本第２の実施の形態においては、特に波形合成
以降の処理が異なるのである。そこで、入力されるテキ
スト文章は上述の図６の文章１、２と同じ文章が入力さ
れるものとする。

【００５０】１番目の文章１は、波形合成回路１０７で
波形合成されると、波形バッファ（０）回路１０９Ａに
転送される。１番目の文章１には、２番目の文章２の合
成開始コマンドが含まれているため、Ｄ／Ａコンバータ
（０）回路１１０Ａへの転送が保留される。

【００５１】２番目の文章２が波形合成回路１０７で波
形合成されると、波形データを波形バッファ（１）回路
１１８Ａに転送する。ＤＳＰ回路１１４Ａは、２番目の
文章２の波形合成回路１０７によって波形データの合成
が開始され、波形バッファ（１）回路１１８Ａに転送が
開始されたことを通知し、Ｄ／Ａコンバータ（０）回路
１１０Ａに対してスタート指示を与える。これによっ
て、１番目の文章１がスピーカ（０）１１３から音声出
力され、２番目の文章２がスピーカ（１）１２２から１
番目の文章内で指定されたタイミングで音声出力される
のである。

【００５２】『ＤＳＰ回路１１４Ａが、２番目の文章２
の合成開始タイミングを得る方法』を以下に説明する。
先ず、波形合成回路１０７が波形バッファ（０）回路１
０９Ａに波形データを転送する際、合成開始ポインタテ
ーブルに、２番目の文章２の合成開始タイミングにおけ
るアドレスを設定するのである。

【００５３】ｎ＝２の場合のポインタテーブルの例を図
１０に示している。この図１０において、スピーカ
（０）１１３から合成される１番目の文章内に、スピー
カ（１）１２２から音声出力される２番目の文章合成開
始タイミングがあり、そのタイミングは、波形バッファ
（０）回路１０９Ａ内のアドレス１２５５の波形データ
をＤ／Ａコンバータ（０）回路１１０Ａに転送したと
き、２番目の文章２の音声出力が開始されることを意味
するもである。

【００５４】２番目の文章内に３番目の文章の合成開始
タイミングがあり、そのタイミングは、波形バッファ
（１）回路１１８Ａ内のアドレス２１２２の波形データ
をＤ／Ａコンバータ（１）回路１１９Ａに転送したとき
であることを示しているのである。このような構成で波
形バッファ回路とＤ／Ａ変換回路とをタイミング制御す
ることで、合成開始タイミングの調整を容易に管理し、
制御することができる。

【００５５】（本発明の第２の実施の形態の効果）：
以上の本発明の第２の実施の形態のテキスト・音声変
換合成装置によれば、テキスト・音声変換のリアルタイ
ム性を要求しない装置においてはパラメータ作成部、波
形合成部、音声素片辞書などを一つにすることによっ
て、回路規模を大きくしないままで、複数の文書を複数
のスピーカから同時に音声合成可能にさせることができ
るため、コストの削減の効果がある。

【００５６】従って、複数入力テキストに対するテキス
ト・音声変換による複数の音響出力手段からの音響出力
を簡単な構成で、会話調の文章、対話形式の文章などの
音響出力における臨場感を向上させることができる。し
かも、上述の第１の実施の形態よりも構成を簡単にする
ことができる。

【００５７】（他の実施の形態）：（１）尚、上述
の実施の形態においては、入力は全て文章であるように
説明したが、波形バッファに音楽データ、擬音データ
（例えば、動物の声などのデータ）を予め転送しておけ
ば、音声出力と同時に他のスピーカからＢＧＭ（Ｂａｃ
ｋＧｒｏｕｎｄＭｕｓｉｃ）或いは効果音を流すこ
とも可能である。

【００５８】（２）また、入力端子１００は、ＣＰＵ又
はＭＰＵからのシステムバスにライン接続されて、この
システムバスラインからＣＰＵ又はＭＰＵの命令によっ
てテキストデータが入力される構成も採ることができ
る。

【００５９】（３）更に、テキスト・音声変換合成部に
は、沖電気工業製品であるＬＳＩである、ＭＳＭ７５７
６を採用することもできる。これによって装置の小形化
を図ることもできる。このＬＳＩを採用することで、上
記システムバスの他にローカルバスを使用することもで
き、このローカルバスに単語辞書や音声素片辞書などの
ＲＯＭや、ワークＲＡＭを接続することもできるのであ
る。

【００６０】（４）更にまた、上述のようなテキスト・
音声変換装置は、娯楽装置である、例えば、ゲーム機器
などにおいて、ゲースの進行と共にいろいろな複数の音
響を多重出力する上で好適であり、このような適用を行
うことでそのゲームにおける臨場感を益々向上させるこ
とができるのである。

【００６１】

【発明の効果】上述したように請求項１記載の発明は、
複数の入力テキストをテキスト・音声変換合成して、そ
れぞれ複数の音響出力手段のいずれかから音響出力する
テキスト・音声変換装置であって、上記各入力テキスト
には、それぞれ予め当該入力テキストをいずれの音響出
力手段から音響出力させるかを表す音響出力情報と、入
力テキスト間の音響合成開始のタイミング調整を図る合
成開始タイミング情報とが付加されていて、入力テキス
トに付加されている音響出力情報と合成開始タイミング
情報とを読み取ると共に、上記入力テキストを解析して
中間言語を生成するテキスト解析手段を備え、中間言語
から音声合成に必要なパラメータ生成と、このパラメー
タによって音声波形の合成とを行うパラメータ生成・波
形合成手段を各音響出力手段に対応して複数備え、テキ
スト解析手段が、音響出力情報と合成開始タイミング情
報とを読み取ることによって、入力テキスト間の上記パ
ラメータ生成と波形合成との合成開始タイミングの調整
を図りながら、合成開始タイミングの早い入力テキスト
に対する中間言語から順番に音響出力情報に従って対応
するパラメータ生成・波形合成手段及び音響出力手段に
対して音響変換させて出力させるものである。

【００６２】このような構成を採ったことで、複数入力
テキストに対するテキスト・音声変換による複数の音響
出力手段からの音響出力を簡単な構成で、会話調の文
章、対話形式の文章などの音響出力における臨場感を向
上させるテキスト・音声変換装置を実現することができ
る。

【００６３】特に、パラメータ生成・波形合成手段を上
記各音響出力手段に対応して複数備えていることで、テ
キスト入力から音響出力までの変換出力時間を短くする
ことができる。

【００６４】また、請求項２記載の発明は、複数の入力
テキストをテキスト・音声変換合成して、それぞれ複数
の音響出力手段のいずれかから音響出力するテキスト・
音声変換装置であって、上記各入力テキストにはそれぞ
れ予め当該入力テキストをいずれの音響出力手段から音
響出力させるかを表す音響出力情報と、入力テキスト間
の音響合成のタイミング調整を図る合成開始タイミング
情報とが付加されていて、上記入力テキストを解析して
中間言語を生成するテキスト解析手段と、この中間言語
から上記音響出力情報と合成開始タイミング情報とを読
み取り、入力テキスト間の上記パラメータ生成と波形合
成との合成開始タイミングの調整を図りながら、合成開
始タイミングの早い入力テキストに対する中間言語から
順番に音声合成に必要なパラメータ生成と、このパラメ
ータによって音声波形の合成とを行い、音響出力情報に
従って対応する音響出力手段に音声波形を与えるパラメ
ータ生成・波形合成手段とを備えたものである。

【００６５】このような構成を採ったことで、複数入力
テキストに対するテキスト・音声変換による複数の音響
出力手段からの音響出力を更に簡単な構成で、会話調の
文章、対話形式の文章などの音響出力における臨場感を
向上させるテキスト・音声変換装置を実現することがで
きる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態のテキスト・音声変
換合成装置の機能構成図である。

【図２】従来例のテキスト・音声変換合成の説明図であ
る。

【図３】第１の実施の形態のコマンド実施例（ｎ＜１０
の整数）の説明図である。

【図４】第１の実施の形態の入力テキスト例（ＪＩＳ表
記）の説明図である。

【図５】第１の実施の形態の中間言語の例の説明図であ
る。

【図６】第１の実施の形態のテキスト、コマンド例の説
明図である。

【図７】第１の実施の形態の複数文章の合成開始タイミ
ングの説明図である。

【図８】第１の実施の形態のテキスト・音声変換合成装
置の動作タイミング図である。

【図９】本発明の第２の実施の形態のテキスト・音声変
換合成装置の機能構成図である。

【図１０】第２の実施の形態の合成開始ポインタテーブ
ルの説明図である。

【符号の説明】

１０１…入力インタフェース回路、１０２…テキストバ
ッファ回路、１０３…制御回路、１０４…テキスト解析
回路、１０５…日本語辞書回路、１０６…パラメータ生
成（０）回路、１０７…波形合成（０）回路、１０８…
音声素片辞書（０）回路、１０９…波形バッファ（０）
回路、１１０…Ｄ／Ａコンバータ（０）回路、１１１…
フィルタ（０）回路、１１２…アンプ（０）回路、１１
３…スピーカ（０）回路。

Claims

【特許請求の範囲】

【請求項１】複数の入力テキストをテキスト・音声変
換して、それぞれ複数の音響出力手段のいずれかから音
響出力するテキスト・音声変換装置であって、上記各入力テキストには、それぞれ予め当該入力テキス
トをいずれの上記音響出力手段から音響出力させるかを
表す音響出力情報と、上記入力テキスト間の音響合成開
始のタイミング調整を図る合成開始タイミング情報とが
付加されていて、上記入力テキストに付加されている音響出力情報及び合
成開始タイミング情報を読み取ると共に、上記入力テキ
ストを解析して中間言語を生成するテキスト解析手段を
備え、上記中間言語から音声合成に必要なパラメータ生成と、
このパラメータによって音声波形の合成とを行うパラメ
ータ生成・波形合成手段を上記各音響出力手段に対応し
て複数備え、上記テキスト解析手段は、上記音響出力情報と合成開始
タイミング情報とを読み取ることによって、上記入力テ
キスト間の上記パラメータ生成と波形合成との合成開始
タイミングの調整を図りながら、合成開始タイミングの
早い入力テキストに対する中間言語から順番に上記音響
出力情報に従って対応する上記パラメータ生成・波形合
成手段及び音響出力手段に対して音響変換させて出力さ
せることを特徴とするテキスト・音声変換装置。
【請求項２】複数の入力テキストをテキスト・音声変
換して、それぞれ複数の音響出力手段のいずれかから音
響出力するテキスト・音声変換装置であって、上記各入力テキストにはそれぞれ予め当該入力テキスト
をいずれの音響出力手段から音響出力させるかを表す音
響出力情報と、上記入力テキスト間の音響合成のタイミ
ング調整を図る合成開始タイミング情報とが付加されて
いて、上記入力テキストを解析して中間言語を生成するテキス
ト解析手段と、この中間言語から上記音響出力情報と合成開始タイミン
グ情報とを読み取り、上記入力テキスト間の上記パラメ
ータ生成と波形合成との合成開始タイミングの調整を図
りながら、合成開始タイミングの早い入力テキストに対
する中間言語から順番に音声合成に必要なパラメータ生
成と、このパラメータによって音声波形の合成とを行
い、上記音響出力情報に従って対応する上記音響出力手
段に音声波形を与えるパラメータ生成・波形合成手段と
を備えたことを特徴とするテキスト・音声変換装置。
【請求項３】更に、上記音響出力手段は、少なくとも
波形バッファ部とデジタル／アナログ変換部とから構成
し、上記パラメータ生成・波形合成手段は、音響出力タイミ
ングを調整するために波形バッファ部とデジタル／アナ
ログ変換部とに対してタイミング制御信号を与えること
を特徴とする請求項２記載のテキスト・音声変換装置。
【請求項４】更に、上記パラメータ生成・波形合成手
段は、ポインタテーブルで各音響出力手段に対する上記
タイミング制御信号の生成を管理・制御することを特徴
とする請求項３記載のテキスト・音声変換装置。
【請求項５】更に、上記波形バッファ部に予め上記入
力テキストに対応する音声波形以外の効果音としての音
響信号を予め格納しておき、上記入力テキストに対する
音声出力と共に上記効果音としての音響出力を行う構成
であることを特徴とする請求項３又は４記載のテキスト
・音声変換装置。