JPH02240699A

JPH02240699A - 音声合成装置

Info

Publication number: JPH02240699A
Application number: JP1061761A
Authority: JP
Inventors: Kenji Matsui; 謙二松井
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1989-03-14
Filing date: 1989-03-14
Publication date: 1990-09-25

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、テキストを音声に変換する音声合成装置に関
する。

従来の技術任意のテキストを自然性の高い音声に変換するには大き
く分けて２種類の処理が必要である。その一つは言語処
理部である。この言語処理部に要求される機能は、１）
入力された文章を単語や文節に分割し、それぞれに読み
、アクセント、品詞情報などを付与する、２）記号や数
詞等の処理、読みの選択、変更（連濁等）を行う、３）
複合単語や文節のアクセント型を決定する、４）構文解
析を行い自然な音声の合成に必要な構文情報を得る１、
・・・１等である。

もう一つの重要なブロックは音響処理部である。

音響処理部の主な機能は、１）ポーズ位置やポーズ長の
決定、音韻変形処理（母音の無声化等）。

２）各音韻の持続時間長の決定、３）イントネーシ日ン
（基本周波数）の決定、４）調音結合による音素や音韻
の変形処理、５）音声合成部用パラメータの生成、６）
このようにして生成された音声合成部用パラメータによ
り音声合成部がリアルタイムで所望の音声信号を合成す
る１、・・・。

等である。

通常はこれらの一連の処理はコンピュータシステム上で
そのプログラムとして実現される。そして、言語処理部
と音響処理部とは汎用の主プロセツサが受持ち、合成部
は信号処理用のプロセッサにより受は持たれるという手
法が現在の通例である。

第５図は従来の音声合成装置の構成を示すものである。

同図に於て、２１は言語音響処理モジュール、２２は合
成器モジュール、２３はテキスト入力部、２４は言語処
理部、２５は音響処理部、２６は音声合成部である。こ
こでＣＰＵとは汎用のマイクロプロセッサのことであり
、ＤＳＰとはディジタル信号処理用のマイクロプロセッ
サのことである。

発明が解決しようとする課題本来、言語処理部、音響処理部はそれぞれまとまった処
理単位であり、モジュール化に適した処理単位であるが
、上記従来例では、主プロセツサが言語処理と音韻処理
部などの音響処理とを交互に処理するので、例えば言語
処理部で詳細な構文解析や意味理解を行う場合、主プロ
セツサで言語処理と音韻処理両方をおこなっていたので
はブロッセサの負荷が重くなりすぎ高速な処理が期待で
きない。また、ユーザーの希望が音響処理部のみを持っ
て発音記号入力を行いたい場合や、場合によって異なっ
た言語を合成したい場合、主プロセツサが全体を処理す
るようでは、モジュール化が難しい。

本発明の目的は、上記従来例の欠点に鑑み、言語処理お
よび音響処理が効率的に、かつ独立して使用でき、多種
類の言語に対応できる音声規則合成装置の実現にある。

課題を解決するための手段（１）テキストの情報を入力できるテキスト入力部と、
このテキスト入力部から出力されるテキスト記号列を発
音記号列やアクセント記号列や構文情報等の言語情報に
変換する言語処理部と、この言語処理部から出力される
発音記号列やアクセント記号列や構文情報等の言語情報
から入力テキストに対応した音声の特徴パラメータに変
換する音響処理部と、この音響処理部から出力される音
声の特徴パラメータを音声信号に変換する音声合成部と
、この音声合成部から出力される音声信号を音声に変換
する電気音響変換部とを具備し、上記言語処理部と上記
音響処理部とがそれぞれ独自のプロセッサを持つことを
構成要件とするものである。

（２）さらに（１）の構成において、言語処理部が音響
処理部に対して着脱可能となる対音響処理接続部と、言
語処理結果をホストコンピュータ等に出力することがで
きる言語処理結果出力部とを具備し、上記音響処理部が
上記言語処理部に対して着脱可能となる対言語処理接続
部と、外部のホストコンピュータ等から発音記号やアク
セント情報を入力できる音響処理部用テキスト入力部と
を具備し、言語処理部が音響処理部に装着されていると
きには漢字かな混じり文を人力でき、言語処理部が音響
処理部から切り放されている場合は、上記音響処理部用
テキスト入力部より発音記号とアクセント情報が入力で
き、かつ上記言語処理部は外部のホストコンピュータ等
に上記言語処理結果出力部を介して言語処理出力結果を
出力できる構成とするものである。

（３）さらに（１）または（２）の構成において、言語
処理部が多種の言語に対して用意されており、所望の言
語用の言語処理部をそのつど交換して装着するか、ある
いは複数個の言語処理部が同時に装着できる音響処理部
内の対言語処理接続部を持つことを構成要件とするもの
である。

作　　　用上記手段を用いることにより例えば音響処理部が処理を
行っている間に言語処理部は次の処理を独立に行えるの
で、全体の処理が高速に行える。

さらにこの言語処理部を音響処理部から着脱可能にすれ
ば、ユーザーによって言語処理部が不用なとき装置を小
型化かつ場合によっては低価格化できる。さらに、この
言語処理部を複数の言語に対してそれぞれ用意すれば、
色々な言語を同一の装置で合成できる。

実施例第１図は、音響処理部及び言語処理部が効率的に動作す
ることを目的とした本発明の一実施例に於ける音声合成
装置の構成を示すものである。

同図に於て、１は第１のＣＰＵを備えた言語処理モジュ
ール、２は第２のＣＰＵを備えた音響処理モジュール、
３はＤＳＰを備えた合成器モジュール、４は言笥処理モ
ジュール１内のテキスト入力部、５は言語処理モジュー
ル１内の言語処理部、６は言語処理部出力を音響処理モ
ジュール２内の音響処理部９に送るために必要なバッフ
ァ等を備えた対音響処理接続部、７は音響処理モジュー
ル２内の対言語処理接続部、８は音響処理モジュール２
に発音記号やイントネーシ日ンを入力するためのテキス
ト入力部、１０は合成器モジュール３内の音声合成部で
ある。

上記のように構成された本実施例の音声合成装置につい
て以下その動作を説明する。

全体の装置内には３つのモジュール、すなわち言語処理
モジュール１、音響処理モジュール２および合成器モジ
ュール３があり、基本動作としては言語処理モジュール
１はテキスト入力部４と言語処理部５とを受持ち、音響
処理モジュール２は音響処理部９を受は持つ。また、合
成器モジュール３は音声合成部１０を実現している。

合成しようとするテ率スト情報はＡＳＣＩＩ等の文字コ
ードの形態で言語処理モジュール１のテキスト入力部４
に入力される。このテキスト入力部４は外部機器とのイ
ンタフェースとしての機能を持ち、送られてきた文字コ
ードデータを言語処理モジュール１内に取り込む。次に
、言語処理部５で入力テキストについて、１）単語や文
節に分割し、それぞれに読み、アクセント、品詞情報な
どを付与する、２）記号や数詞等の処理、読みの選択、
変更（連濁等）を行う、３）複合単語や文節のアクセン
ト型を決定する、４）構文解析を行い自然な音声の合成
に必要な構文情報を得る、等の一連の処理を行う。これ
らの処理が終了した時点で発音記号や構文情報等の出力
データを音響処理２モジユールに送りだし、第１のＣＰ
Ｕは次の入力テキストの処理を開始する。第１のＣＰＵ
と第２のＣＰＵの通信は対音響処理接続部６および対言
語処理接続部７により行う。

音響処理部８は、上記の言語処理モジュール１からの出
力データについて、１）ポーズ位置やポーズ長の決定、
音韻変形処理（母音の無声化等）、２）各音韻の持続時
間長の決定、３）イントネーシロン（基本周波数）の決
定、４）調音結合による音素や音韻の変形処理、５）音
声合成部用パラメータの生成、等の一連の処理を行う。

これらの処理が終了した時点で合成用パラメータ等の出
力データを合成器モジュール３に送りだし、第２のＣＰ
Ｕは次の入力データの処理を開始する。

このようにして生成された音声合成部用パラメータによ
り音声合成部１０がリアルタイムで所望の音声信号を合
成した後、図示しない電気音響変換部によって前記音声
信号は音声に変換される。

第２図は従来例におけるＣＰＵおよびＤＳＰのタイムチ
ャートを示し、第３図は本実施例におけるＣＰＵおよび
ＤＳＰのタイムチャートを示したものである。これらの
図が示すように、本実施例により音声合成全体の処理の
効率化が図れる。

次に、本実施例の音声合成装置における二つの使用例を
説明する。

まず第１の使用例として、ユーザーが音響処理部９及び
音声合成部１０を使用する場合を考える。

第１図に示す合成システムから言語処理部５を取り外し
音響処理部９及び音声合成部１０のみを用いる。合成し
ようとするテキスト情報はこの場合、発音記号とイント
ネーション記号の情報であり、この入力はキーボード、
ホストコンピュータ、あるいは他の言語処理部からの出
力である。これらはＡＳＣＩＩ等の文字コードの形態で
音響処理モジュール２のテキスト入力部８に入力される
。テキスト入力部８は外部機器とのインタフェースとし
ての機能を持ち、送られてきた文字コードデ・−タを音
響処理モジュール２内に取り込む。

音響処理部９は、１）ポーズ位置やポーズ長の決定、音
韻変形処理（母音の無声化等）、２）各音韻の持続時間
長の決定、３）イントネーション（基本周波数）の決定
、４）調音結合による音素や音韻の変形処理、５）音声
合成部用パラメータの生成、等の一連の処理を行う。こ
れらの処理が終了した時点で合成用パラメータ等の出力
データを合成器モジュール３番と送りだし、第２のＣＰ
Ｕは次の入力データの処理を開始する。

このようにして生成された音声合成部用パラメータによ
り音声合成部１０がリアルタイムで所望の音声信号を合
成する。

次に第２の使用例として、ユーザーが言語処理部５のみ
を用いる場合を考える。第１図に示す合成システムから
音響処理部の、音声合成部１０を取り外し、言語処理部
５を例えば外部のホストコンピュータに取り付ける。合
成しようとするテキスト情報はＡＳＣＩＩ等の文字コー
ドの形態で前記ホストコンピュータから言語処理モジュ
ール１のテキスト入力部４に入力される。テキスト入力
部４は外部機器とのインタフェースとしての機能を持ち
、送られてきた文字コードデータを言語処理モジュール
エ内に取り込む。次に、言語処理部５で入力テキストに
対して、１）単語や文節に分割し、それぞれに読み、ア
クセント、品詞情報などを付与する、２）記号や数詞等
の処理、読みの選択、変更（連濁等）を行う、３）複合
単語や文節のアクセント型を決定する、４）構文解析を
行い自然な音声の合成に必要な構文情報を得る、等の一
連の処理を行う。これらの処理が終了した時点で発音記
号や構文情報等の出力データを外部のホストコンピュー
タに逆に送りだし、第１のＣＰＵは次の入力テキストの
処理を開始する。前記ホストコンピュータと第１のＣＰ
Ｕとの通信は対音響処理接続部６により行う。このホス
トコンピュータは言語処理部５からの出力をたとえば文
書にルビをふるために用いたり、点字文書の作成に用い
ることができる。

以上、説明したように本実施例によれば、音響処理部９
及び言語処理部５をそれぞれ単体として効率よく用いる
ことができる。

次に、第４図を参照しながら、多国語に対応し、かつ音
響処理部及び言語処理部を効率的に使用することを目的
とした本発明の第２の実施例に於ける音声合成装置を説
明する。

同図に於て、１１は多言語にそれぞれ対応し第１のＣＰ
Ｕを備えた言語処理モジュール、１２は第２のＤＰＵを
備えた多国語対応音響処理モジュール、１３はＣＰＵを
備えた合成器モジュール、１４はテキスト入力部、１５
は言語処理部、１６は対音響処理接続部、１７は対言語
処理接続部、１８は多国語対応テキスト入力部、１９は
多国語対応音響処理部、２０は音声合成部である。ここ
では多国語の例として英語を用いることにする。

まず、ユーザーは音声に変換したい英語の文書を外部の
ホストコンピュータ上に用意する。次に、英語に対応す
る言語処理モジュール１１を選んで音響処理モジュール
１２に接続する。　（この場合、異なった言語に対する
複数の言語処理部１５を単一の多国語対応音響処理部１
９に接続して切り替えて使用する形態も考えられる。）
合成しようとする英語テキスト情報はＡＳＣＩＩ等の文
字コードの形態で前記言語処理モジュール１１のテキス
ト入力部１４に入力されＳｏ　　このテキスト入力部１
４は外部機器とのインタフェースとしての機能を持ち、
送られてきた文字コードデータを言語処理モジュール１
１内に取り込む。次に、言語処理部１５（英語に対応）
で入力テキストに対し°Ｃ１１）略号、記号や数字の読
みの付与、２）辞書マツチングによる読み、アクセント
、品詞情報の付与、３）構文解析による文構造の把握、
４）辞書に無い単語の処理、５）文章としての発音記号
付与、修正、等の一連の処理を行う。これらの処理が終
了した時点で発音記号や構文情報等の出力データを多国
語対応音響処理モジュール１２に送りだし、第１のＣＰ
Ｕは次の入力テキストの処理を開始する。第１のＣＰＵ
と第２のＣＰＵの通信は対音響処理接続部１６及び対言
語処理接続部１７により行う。

多国語対応音響処理部１９は、各言語の音響音声学的特
徴情報（例えば各言語の母音のホルマント周波数の違い
等）を持っており、言語処理部１５からの指令によりこ
の特徴情報を切り替えて、上記の言語処理モジュール１
からの出力データに対して、１）ポーズ位置やポーズ長
の決定、音韻変形処理（母音の無声化等）、２）各音韻
の持続時間長の決定、３）イントネーシｅン（基本周波
数）の決定、４）Ｈ音結合による音素や音韻の変形処理
、５）音声合成部用パラメータの生成、等の一連の処理
を行う。これらの処理が終了した時点で合成用パラメー
タ等の出力データを合成器モジュール１３に送りだし、
第２のＣＰＵは次の入力データの処理を開始する。

このようにして生成された音声合成部用パラメータによ
り音声合成部２０がリアルタイムで所望の英語音声信号
を合成する。

以上説明したように、本実施例によれば、共通の多国語
対応音響処理モジュール１２と、個別の言語に対応する
言語処理モジュール１１とを用いることにより、多国語
対応の音声合成システムを効率よく実現できる。

発明の効果以上のように本発明によれば、例えば音響処理部が音韻
処理などの処理を行っている間に言語処理部は次の処理
を独立に行えるので、全体の処理が高速に行える。さら
に言語処理部が音響処理部から着脱可能であるので、ユ
ーザーによって言語処理部あるいは音響処理部を独立し
て使用でき、その使用目的に対しては新たな費用は必要
とせず、かつ、装置を小型化できる。

さらに、この言語処理部を複数の言語に対してそれぞれ
用意すれば、色々な言語を同一の装置で合成できるので
、装置使用上高速性、柔軟性が得られその実用的効果は
大きい。

【図面の簡単な説明】

第１図は本発明の第１実施例における音声合成装置のブ
ロック図、第２図は従来例における処理手順のタイムチ
ャート、第３図は本実施例における処理手順のタイムチ
峯−ト、第４図は本発明の第２の実施例における多国語
対応音声合成装置のブロック図、第５図は従来の音声合
成装置のブロック図である。１１９．言語処理モジュール、２．・０．音響処理モジ
ュール、３．１３．、、合成器モジュール、８．１６０
４．対音響処理接続部、７．１７．、、対言語処理接続
部、８．、、テキスト入゛力部、１１．、、多国語にそ
れぞれ対応した言語処理モジュール群、１２．、、多国
語対応音響処理モジュール、１８．、、多国語対応テキ
スト入力部、１９．、、多国語対応音響処理部。代理人の氏名　弁理士　粟野重孝　はか１名テキスト ◆ 合成音声！　−・− ２−・・３−・・６−・・　−一− −ｍ− ！！薯Ｍ１理モジュール會マ処理もジュール合成６モ′／１−ル灯智マ処筺接続藝Ｎ盲ｔｌｆｆｉ！授駅ヒ却テ　キ　　ス　　ト　λ　方　名び第図ＩＶ　　−−− ／７−−− ＋Ｂ　−−− ＋９−一− 壷含１−ｉｉ＊ ■■珊モモジュール１ｉｏｎηた１マ幻理ぞシコー合成！：Ｓ五ジュール灯壷マ処理椿続部Ｒ１鰐幻理偕護超多５Ｊｎｎ応チキストλ力部シ凹１０１’た１マ定理１β ル

Claims

【特許請求の範囲】

（１）入力されるテキスト記号列を発音記号列やアクセ
ント記号列や構文情報等の言語情報に変換することがで
き、かつその処理を行う専用のプロセッサを持った言語
処理部と、この言語処理部から出力される発音記号列や
アクセント記号列や構文情報等の言語情報から入力テキ
ストに対応した音声の特徴パラメータに変換することが
でき、かつその処理を行う専用のプロセッサを持った音
響処理部と、この音響処理部から出力される音声の特徴
パラメータを音声信号に変換する音声合成部とを具備す
ることを特徴とする音声合成装置。
（２）言語処理部が音響処理部に対して着脱可能となる
対音響処理接続部と、言語処理結果を外部に出力するこ
とができる言語処理結果出力部とを具備し、上記音響処
理部が上記言語処理部に対して着脱可能となる対言語処
理接続部と、外部から発音記号やアクセント情報を入力
できる音響処理部用テキスト入力部とを具備し、言語処
理部が音響処理部に装着されているときには漢字かな混
じり文を入力でき、言語処理部が音響処理部から切り放
されている場合は、上記音響処理部用テキスト入力部よ
り発音記号とアクセント情報が入力でき、かつ上記言語
処理部は外部に上記言語処理結果出力部を介して言語処
理出力結果を出力できるように構成したことを特徴とす
る請求項１記載の音声合成装置。
（３）言語処理部が多種の言語に対して用意されており
、所望の言語用の言語処理部をそのつど交換して装着す
るか、あるいは複数個の言語処理部が同時に装着できる
音響処理部内の対言語処理接続部を具備することを特徴
とする請求項１または２記載の音声合成装置。