JPH0981174A

JPH0981174A - 音声合成システムおよび音声合成方法

Info

Publication number: JPH0981174A
Application number: JP7235835A
Authority: JP
Inventors: Shigenobu Seto; 重宣瀬戸; Takaaki Arai; 孝章新居
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1995-09-13
Filing date: 1995-09-13
Publication date: 1997-03-28
Anticipated expiration: 2015-09-13
Also published as: JP3595041B2

Abstract

(57)【要約】【課題】ユーザ状況やユーザ環境、システム状況に応じ
て、適用する音韻・韻律制御規則を変えることで、ユー
ザの置かれている状況やシステム状況がユーザにとって
把握しやすいシステムの出力を生成し、使い勝手を向上
させる。【解決手段】音声合成システムの稼働する計算機内の通
信状態、および計算機と外部の間の通信状態を通信状態
監視部１２にて監視し、対応する通信状態情報を出力す
る。音声合成部１１内の言語解析部１１１では、入力テ
キストに対して形態素解析や統語構造解析などの言語解
析を行い、その言語解析の結果の内容に対し、音韻制御
部１１２および韻律制御部１１３にて、それぞれ様々な
レベルの規則を適用することで、言語メディアから音声
メディアへの変換に伴う合成音声の品質を左右する音韻
・韻律的な制御を行う。この際、音韻・韻律的な制御に
おいて適用される規則が、上記の通信状態情報に応じて
変更される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声合成技術を利
用するシステム一般に用いて好適な音声合成システムお
よび音声合成方法に関する。

【０００２】

【従来の技術】近年、音声合成技術の応用が拡大され、
さらに計算機の処理能力が向上するにつれ、我々の身近
における音声合成の利用がますます増え、テキスト音声
変換は１つの応用アプリケーションとして気軽に利用可
能になってきた。岩田他：“パソコン向けソフトウェア
日本語テキスト音声合成，”日本音響学会講演論文集，
2-8-13，pp.245-246 (1993年10月) がその例である。

【０００３】これらの音声合成システムは、入力される
テキストの言語解析、音韻制御、韻律制御、波形生成の
いずれの処理においても原則的に一意の処理結果を得る
ように作られており、入力テキストが決まれば結果とし
て得られる合成音声は常に同じものになっていた。

【０００４】システムによっては、男声・女声、高い声
・低い声など、合成音声の生成に先立ちユーザに選択さ
せ、その選択に応じた合成音声を生成するものもある
が、選択項目が決まれば、入力テキストに対して生成さ
れる合成音声は一意に決まるという意味で、同じ枠組み
であると言える。

【０００５】

【発明が解決しようとする課題】しかしながら、入力テ
キストに対して同じ合成音声が生成されることは、単調
で飽きがくるというだけでなく、必ずしも音声メディア
の特徴を有効に利用しているとは言えない。

【０００６】音声メディアは、テキストメディアと異な
り韻律や声色の変化が加わることにより、言語表現によ
る直接的なメッセージだけでなく、感情や意図、話者の
状況やノリといった雰囲気など、付加的な情報を副次的
に伝える特徴があることはよく知られている。藤崎他：
“音声の韻律的特徴による発話意図の表現，”日本音響
学会講演論文集，2-8-16，pp.225-226 (1993年 3月)
や、上床他：“音声の感情表現の分析とモデル化，”電
子情報通信学会技術研究報告，SP92-131，pp.65-72 (19
93年 1月）などがその例である。

【０００７】上述した現状の音声合成システムやその応
用アプリケーションはいずれも、文字言語メディアの形
態に表現される言語情報を単に音声メディアの形態の表
現に変換するメディア変換（テキスト音声変換）として
の機能は持っていても、副次的な情報をも伝えるという
音声の特徴をを積極的に利用しているとは言い難い。

【０００８】さらに、音声合成が、単独の装置としてで
はなく、他のシステムとの連携を行い動作する場合や、
１つの応用アプリケーションとしてパーソナルコンピュ
ータやワークステーションなどの汎用的な計算機の上で
他の応用アプリケーションとともに利用される場合にお
いても、ともに動作しているシステムやアプリケーショ
ンなどの状況や、音声合成アプリケーションが動作して
いるシステムがどのような状態にあるかなどの状況によ
らず、与えられたテキストを単に忠実に音声へ変換して
いるに過ぎない。

【０００９】本発明は上記事情を考慮してなされたもの
でその目的は、システムの動作状況（システム状況）、
あるいはユーザ自身の状況（ユーザ状況）やユーザのい
る場所の環境（ユーザ環境）に応じて音韻・韻律制御を
動的に変えたり、さらには入力テキストに対応した本来
の合成音に併せて別の音や合成音を出力することで、ユ
ーザにとってシステムの動作状況が把握しやすいような
システムの出力や、ユーザの置かれている状況に適した
システムの出力が生成でき、使い勝手を向上させること
ができる音声合成システムおよび音声合成方法を提供す
ることにある。

【００１０】

【課題を解決するための手段】上述した課題を解決する
ため、本発明の第１の観点に係る構成は、入力テキスト
の言語解析を行いその解析結果に対して規則を適用して
音韻・韻律的な制御を行い合成音声を生成・出力する音
声合成手段に加えて、計算機内の通信状態、および計算
機と外部の間の通信状態の少なくとも一方を監視し通信
状態情報を出力する通信状態監視手段を備え、上記音声
合成手段にあっては、上記音韻・韻律的な制御において
適用する規則を通信状態監視手段から出力される通信状
態情報に応じて変更するようにしたことを特徴とする。

【００１１】本発明の第２の観点に係る構成は、上記第
１の観点に係る構成における音声合成手段に相当する音
声合成手段に加えて、計算機ハードウエアの動作状態、
および計算機ソフトウェアの動作状態の少なくとも一方
を監視し動作状態情報を出力する動作状態監視手段を備
え、上記音声合成手段にあっては、上記音韻・韻律的な
制御において適用する規則を動作状態監視手段から出力
される動作状態情報に応じて変更するようにしたことを
特徴とする。ここで、上記音声合成手段における言語解
析、音韻的な制御、韻律的な制御、および音声波形生成
の少なくとも１つの処理を、上記動作状態情報の示す動
作状態に応じて、通信可能な有線ネットワークもしくは
無線ネットワークで結ばれる複数の計算機ハードウエア
に分担させるようにするとよい。

【００１２】本発明の第３の観点に係る構成は、上記第
１の観点に係る構成における音声合成手段に相当する音
声合成手段に加えて、ユーザのシステム利用状況、およ
びユーザのシステム利用環境の少なくとも一方を監視し
ユーザ状況情報を出力するユーザ状況監視手段を備え、
上記音声合成手段にあっては、上記音韻・韻律的な制御
において適用する規則をユーザ状況監視手段から出力さ
れるユーザ状況情報に応じて変更するようにしたことを
特徴とする。ここで、ユーザ状況情報をもとに人間の発
声でないことを明示すべきか否かの判断結果を出力する
非自然音声明示判断手段と、この非自然音声明示判断手
段の判断結果に応じ、上記入力テキストの表現の一部の
変更により人間の音声でないことを明示するテキスト変
更手段、および当該判断結果に応じ、合成音声の出力に
併せて人間の発声でないことを明示する音を出力する非
自然音声明示音出力手段の少なくとも一方とをさらに備
えることも可能である。

【００１３】上記第１の観点に係る構成においては、音
声合成手段内で、まず入力テキストに対して形態素解析
や統語構造解析などの周知の言語解析が行われて、形態
素の系列に分解されるとともに「読み」を表す記号列と
形態素の品詞、活用、アクセント型、形態素間の係り受
け関係の強さなどの情報が併せて出力される。

【００１４】また、音声合成手段内では、上記の言語解
析の結果の内容に対して、それぞれ様々なレベルの規則
（音韻・韻律的規則）を適用することによって、言語メ
ディアから音声メディアへの変換に伴う合成音声の品質
を左右する制御、すなわち音韻・韻律的な制御が行わ
れ、入力テキストに対応する音声波形が生成される。

【００１５】一方、通信監視手段は、音声合成システム
の稼働する計算機内の通信状態、および計算機と外部の
間の通信状態の少なくとも一方を監視する。それぞれの
通信状態監視結果は、音声合成手段に伝えられる。

【００１６】音声合成手段内では、この通信状態監視結
果に応じて、上記音韻・韻律的規則の適用内容が変更さ
れる。次に、上記第２の観点に係る構成においても、音
声合成手段内では、入力テキストに対する言語解析の結
果の内容に対して、それぞれ様々なレベルの音韻・韻律
的規則を適用することによって、言語メディアから音声
メディアへの変換に伴う合成音声の品質を左右する音韻
・韻律的な制御が行われ、入力テキストに対応する音声
波形が生成される。

【００１７】一方、動作状態監視手段は、音声合成シス
テムの稼働する計算機ハードウエアの動作状態、および
計算機ソフトウェアの動作状態の少なくとも一方を監視
する。それぞれの動作状態監視結果は、音声合成手段に
伝えられる。

【００１８】音声合成手段内では、この動作状態監視結
果に応じて、上記音韻・韻律的規則の適用内容が変更さ
れる。また、音声合成手段における言語解析、音韻的な
制御、韻律的な制御、および音声波形生成の少なくとも
１つの処理が、動作状態監視結果に応じて、通信可能な
有線ネットワークもしくは無線ネットワークで結ばれる
複数の計算機ハードウエアに分担させられる。

【００１９】次に、上記第３の観点に係る構成において
も、音声合成手段内では、入力テキストに対する言語解
析の結果の内容に対して、それぞれ様々なレベルの音韻
・韻律的規則を適用することによって、言語メディアか
ら音声メディアへの変換に伴う合成音声の品質を左右す
る音韻・韻律的な制御が行われ、入力テキストに対応す
る音声波形が生成される。

【００２０】一方、ユーザ状況監視手段は、ユーザのシ
ステム利用状況、およびユーザのシステム利用環境の少
なくとも一方を監視する。それぞれのユーザ状況監視結
果は、音声合成手段に伝えられる。

【００２１】音声合成手段内では、このユーザ状況監視
結果に応じて、上記音韻・韻律的規則の適用内容が変更
される。また、非自然音声明示判断手段と、テキスト変
更手段および非自然音声明示音出力手段の少なくとも一
方とをさらに備えた構成では、入力テキストの表現の一
部の変更（例えば、入力テキストに対する定型表現の追
加）によって人間の音声でないことを明示するテキスト
変更、あるいは合成音声の出力に併せて人間の発声でな
いことを明示する音の出力がなされる。すなわち、本来
の合成音に併せて別の音や合成音が出力される。

【００２２】

【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。［第１の実施形態］図１は本発明の音声合成システムの
第１の実施形態を示すブロック構成図である。

【００２３】図１のシステムの中心をなす音声合成部１
１は、入力テキストの言語解析を行う言語解析部１１１
と、その解析結果に対して規則を適用して、音韻的な制
御を行う音韻制御部１１２と韻律的な制御を行う韻律制
御部１１３と、音韻制御部１１２および韻律制御部１１
３の制御に従い音声波形を生成する波形生成部１１４
と、生成された波形を出力する波形出力部１１５とから
構成されている。この音声合成部１１の構成の枠組みに
ついては、既存のテキスト音声変換可能な音声合成シス
テムの一般的な構成法がそのまま利用できる。テキスト
音声合成システムの一般的な構成法としては、例えば佐
藤他：“日本語テキストからの音声合成，”電気通信研
究所研究実用化報告，Vol.32，No.11 ，pp.2243-2252
(1983年11月) などが利用できる。

【００２４】音声合成部１１内の言語解析部１１１は、
入力テキストに対して形態素解析や統語構造解析などの
言語解析を行い、形態素の系列に分解するとともに「読
み」を表す記号列と形態素の品詞、活用、アクセント
型、形態素間の係り受け関係の強さなどの情報を併せて
出力する。

【００２５】音声合成部１１内の音韻制御部１１２およ
び韻律制御部１１３は、これら言語解析部１１１での言
語解析結果の内容に対して、それぞれ様々なレベルの規
則を適用することによって、言語メディアから音声メデ
ィアへの変換に伴う合成音声の品質を左右する制御を行
う。

【００２６】具体的には、アクセント単位の認定（すな
わち、未知語へのアクセント付与、アクセント結合、複
合語のアクセント分割、付属語連鎖に対する副次アクセ
ントの付与などが含まれる）、読みの認定（すなわち、
未知語への読み付与、連濁処理、表記から読みへの変換
などが含まれる）、１つの韻律的なまとまりとするため
のいわゆる韻律語（アクセント句）連鎖のまとまりの認
定（すなわち、韻律句境界の付与がこれに相当する）、
韻律制御パラメータ値決定（すなわち、ピッチの時間変
化パターンを生成するモデルのパラメータ値の決定、音
韻・ポーズのタイミングの決定、パワーの決定）、読み
に対応する蓄積パターンの検索および蓄積素片の選択
（すなわち、蓄積単位への変換、検索条件への変換、複
数の検索結果を得たときの選択などが含まれる）、蓄積
素片の編集（すなわち、蓄積素片間の接続、補間加工な
どが含まれる）といった各段階の処理をそれぞれの規則
によって行う。

【００２７】このうち、音韻制御部１１２においては、
読みの認定、読みに対応する蓄積パターンの検索および
蓄積素片の選択、蓄積素片の編集を、韻律制御部１１３
においては、アクセント単位の認定、韻律語（アクセン
ト句）連鎖のまとまりの認定、韻律制御パラメータ値決
定を担当する。これらの各段階の処理や規則は任意の分
類が可能であり、システムの実装形態によって上記の分
類とは異なる場合や省略される場合もあるが、基本的に
はこれらの内容に沿った処理が行われる。また、システ
ムの実装形態によっては、前段の言語解析部１１１や後
段の波形生成部１１４との境界も様々であるが、ここで
は、上記の音韻的な制御を行うものとして音韻制御部１
１２を、同じく上記の韻律的な制御を行うものとして韻
律制御部１１３を、それぞれ定義している。

【００２８】韻律制御部１１３は、言語解析部１１１で
の形態素解析結果にこれらの規則を適用して、形態素系
列の読みに対応する個々の音韻やポーズなどのタイミン
グを決め、形態素系列あるいは読みに対応する音韻の系
列を韻律語（アクセント句）というアクセント付与のた
めの韻律制御上の単位に分割するとともに、意味上の文
構造上や生理的な制約による呼気段落上のまとまりを形
成し、いわゆる韻律句と呼ばれる話調成分付与のための
韻律制御上の単位へ韻律語系列を分割し、各韻律制御上
の単位に対して、タイミングを考慮して、アクセントや
話調の成分の大きさを与えるパラメータ値を決めピッチ
を決定する。韻律制御部１１３はさらに、形態素系列あ
るいは読みに対応する音韻の系列あるいはピッチなどを
もとにパワー包絡を決定する。

【００２９】一方、音韻制御部１１２は、読みに対応す
る音韻の部分系列に対して、音声波形、あるいは音声波
形の分析パラメータ、あるいはその両方を対応させた蓄
積素片を格納しておく蓄積データ格納部１１２１を有し
ており、この蓄積データ格納部１１２１に格納されてい
る蓄積素片のバリエーションを考慮して、形態素系列の
読みに当たる音韻の部分系列に対応する蓄積素片の系列
を決定する。

【００３０】本実施形態において、上記した音韻制御部
１１２および韻律制御部１１３で適用される規則は、計
算機内の通信状態や計算機外との間の通信状態に応じて
切り替えられるようになっているが、これについては後
述する。

【００３１】音声合成部１１内の波形生成部１１４は、
音韻制御部１１２の出力する蓄積素片系列を接続し、韻
律制御部１１３の出力する制御情報、すなわち、タイミ
ング、ピッチ、パワー包絡に従い、信号処理レベルでの
韻律制御を行って、音声波形を生成する。

【００３２】音声合成部１１内の波形出力部１１５は、
音声合成部１１により生成された音声波形を例えばスピ
ーカーやイヤホーン等から出力する。さて、本実施形態
において、音韻制御部１１２が持つ蓄積データ格納部１
１２１に格納される蓄積素片、音韻制御部１１２で利用
される規則、および韻律制御部１１３で利用される規則
は、生成したい合成音声の調子に合う自然音声データを
収集しておき、そのデータから予め作成しておいたもの
である。例えば、対話調の音声を合成したい場合は模擬
対話音声を収集したり、ささやき声、早口の声、疲れた
様子の音、元気の良い声、雑踏の中で（あるいは雑踏環
境を模擬したところで）発声した声、落ち着いた声、様
々な人の声をできるだけ大量に収集し、それぞれのピッ
チやパワー、時間長の分析結果から、それぞれの声に対
応した規則や蓄積データを導出する。

【００３３】様々な状況における音声が、それぞれ異な
る傾向の音韻的・韻律的な特徴を有することは従来から
の研究で指摘されており、様々な音声データから導かれ
た韻律の制御規則が異なる傾向を示すことは、平井他：
“種々の音声コーパスから自動生成されたＦ₀ 制御規則
の違いについて，”日本音響学会講演論文集，2-5-3，p
p.271-272 (1994年10月〜11月) においても実際のデー
タとともに示されている。

【００３４】音声データからの規則の導出に関しては従
来から研究例が多数ある。例えば、広瀬他：“音声合成
とアクセント・イントネーション，”電子情報通信学会
誌，Vol.70，No.4，pp.378-385 (1987年 4月）、三村
他：“統計的手法を用いた音声パワーの分析と制御，”
日本音響学会誌，Vol.49，No.2，pp.253-259 (1993年12
月）、海木他：“発話速度による文音声のポーズ長変化
の分析，”日本音響学会講演論文集，1-5-16，pp.247-2
48 (1992年12月) などがあり、規則の抽出に利用でき
る。

【００３５】それぞれの環境について抽出された制御規
則および蓄積素片には、音声合成時に利用するための抽
出環境に関する情報、即ち、対話調であるとか、ささや
き声、早口の声、疲れた様子の声、元気の良い声、雑踏
の中での声、落ち着いた声、などの音声データの収集状
況の情報が付加される。

【００３６】周知のように、既存の音声合成システムの
音韻的・韻律的な制御規則や蓄積データは、本質的に
は、言語的な環境（例えば、形態素、品詞、活用など）
および音韻的・韻律的な環境（例えば、音韻の並び、ア
クセント型とアクセント核、ピッチ、パワー包絡、タイ
ミングなど）と制御内容（例えば、読み記号列、アクセ
ント結合情報、韻律パラメータ値、蓄積素片の選択優先
度など）や音声波形・分析パラメータとの対応として捉
えることができる。

【００３７】そこで本実施形態では、この対応関係に規
則の抽出環境を加え、抽出した制御規則や蓄積データ
を、言語的な環境、音韻的・韻律的な環境および規則の
抽出環境と、制御内容や音声波形・分析パラメータとの
対応として記述している。

【００３８】このように、複数の規則や蓄積データを備
え、さらに、それらを音声合成部１１（内の言語解析部
１１１および音韻制御部１１２）が適宜選択して使用す
ることにより、合成音声の声の調子にバリエーションを
与えることができる。

【００３９】そこで本実施形態では、上述した音声合成
部１１に加えて、当該音声合成部１１での規則選択の条
件を決定するための情報を与える手段として、通信状態
監視部１２が設けられている。この通信状態監視部１２
は、音声合成システムが稼働する計算機内の通信状態を
監視する計算機内通信状態監視部１２１と、当該計算機
と外部の間の通信状態を監視する計算機外通信状態監視
部１２２とを有している。

【００４０】通信状態監視部１２内の計算機内通信状態
監視部１２１は、同一計算機内で動作するソフトウェア
間、ハードウェア間、あるいはソフトウェアとハードウ
ェアの間の通信状況ないしは通信路の品質からなる通信
状態を監視する。説明を簡単にするために、ここでは互
いに通信を行うハードウェアあるいはソフトウェアをそ
れぞれ通信者Ａおよび通信者Ｂと簡略化して表現する。
すなわち通信者Ａと通信者Ｂとの間で通信が行われてい
るものとする。

【００４１】計算機内通信状態監視部１２１は、これら
の間で交わされる通信状態を知るために、この通信を媒
介するソフトウェアないしはハードウェア（便宜的にこ
こでは、通信媒体と呼ぶことにする）に問い合わせ、通
信状況（例えば、情報の送り手、通信量や通信量の時間
的な変化、通信の頻度、送る予定のデータ総量、既に送
ったデータ量など）や通信路の品質（例えば、データ転
送速度やエラー発生頻度など）を通知してもらう。これ
らの通知は、必ずしも問い合わせが必要なわけではな
く、問い合わせがなくても通信媒体側から計算機内通信
状態監視部１２１に適当なタイミングで通知するように
しても構わない。

【００４２】このような通信媒体として、オペレーティ
ングシステムやオペレーションシステム（以下、ＯＳと
称する）の提供する既存の機能（例えば、メッセージン
グ機能を実現できるWindows のＤＤＥ＝Dinamic Data E
xchange や、クリップボードを使ったデータの受け渡
し）や、ウィンドウシステムの提供する既存の機能（例
えば、X Window System におけるイベントやセレクショ
ンバッファ、Windows のmessage などが一例である）、
あるいは、サーバ・クライアントモデルで実装された各
種サービスが利用できる。もちろん、既存システムを利
用するだけでなく、同様のメカニズムを持つように新た
なシステムを組むことも可能である。

【００４３】また、通信者Ａと通信者Ｂで交わされる通
信状態を知るために、通信媒体を介さずに直接、通信者
Ａと通信者Ｂに問い合わせる仕組みにしてもよい。この
場合、通信者Ａおよび通信者Ｂがそれぞれ持っている、
通信を行う機能を持つ部分（便宜的に、通信部と呼ぶこ
とにする）に対して計算機内通信状態監視部１２１が問
い合わせ、上記と同様に通信状態を通知してもらう。も
ちろん、上記と同様に、問い合わせがなくても適宜、通
信者Ａおよび通信者Ｂがそれぞれ持っている通信部が計
算機内通信状態監視部１２１に適当なタイミングで通知
するようにしても構わない。

【００４４】計算機内通信状態監視部１２１は、このよ
うにして取得した通信状態に関する情報をもとに、例え
ば、通信量が大きい／小さい、送るべきデータ総量が多
い／少ない、既に通信が済んだデータの割合が大きい／
小さい、データ転送速度が速い／遅いといった情報を通
信状態情報として音声合成部１１に送る。これらの情報
は、取得した数値のまま通信状態情報としてもよいし、
計算機内通信状態監視部１２１内で閾値と比較して離散
的なレベルにまるめて通信状態情報としてもよい。

【００４５】一方、通信状態監視部１２内の計算機外通
信状態監視部１２２は、計算機外との通信状態を監視す
る。この計算機外通信状態監視部１２２においても、上
記した計算機内通信状態監視部１２１と同様に、通信媒
体を介して通信状態を取得する構成とすることができ
る。通信媒体としては、同じように、ＯＳやＯＳの提供
する既存の機能（メッセージング機能）や、ウィンドウ
システムの提供する既存の機能（例えば、イベント）、
あるいは、サーバ・クライアントモデルで実装された各
種サービス（例えば、Network File System やプリンタ
のデーモン等）の他、モデムのように計算機外とのデー
タ通信が可能なデバイスやドライバが利用できる。もち
ろん、既存システムを利用するだけでなく、同様のメカ
ニズムを持つように新たなシステムを組むことも、上記
と同様に可能である。

【００４６】音声合成部１１は（通信状態監視部１２内
の）計算機内通信状態監視部１２１および計算機外通信
状態監視部１２２からそれぞれ通信状態情報を受け取
り、当該通信状態情報に応じて音韻制御部１１２および
韻律制御部１１３においてそれぞれ適用する制御規則や
蓄積データを選択する。

【００４７】ここで、通信状態情報と選択する制御規則
および蓄積データとの対応関係は、音韻制御部１１２お
よび韻律制御部１１３に定めておく。例えば、通信量大
あるいは通信の頻度が大きい場合は早口にしたり、非常
に大きい場合には緊迫した声にしたり、逆に、通信量小
あるいは通信の頻度が小さい場合は、ピッチのダイナミ
ックレンジを大きく、落ち着いた声にしたり、ポーズを
多めに挿入したり、ゆったりした声にする。通信残量が
多い場合はのんびりした声に、残り少なくなってくるに
つれ、ピッチを高めにしたり早口にしたりする。通信路
の品質が悪い場合には、元気のない声やピッチに不規則
な揺らぎを重畳させ声質を変える。転送速度が速ければ
軽快な声を、遅ければ重苦しい声にするなどの対応関係
が例として挙げられる。

【００４８】このように、言語解析部１１１での解析結
果に対して音声合成部１１（内の言語解析部１１１およ
び音韻制御部１１２）において適用する制御規則や蓄積
データを、通信状態監視部１２（内の計算機内通信状態
監視部１２１または計算機外通信状態監視部１２２）か
ら出力される通信状態情報（の示す通信状態）に応じて
切り替えて（変更して）合成音声を出力することによ
り、ユーザは、合成音声の声の調子から、その時点にお
ける計算機内の通信状態、あるいは計算機外との間の通
信状態を知ることができる。

【００４９】なお、上述の対応関係はあくまで例であっ
て、音声合成システムのユーザの好みに応じて変更可能
にしても構わない。また、計算機内通信状態監視部１２
１で監視される計算機内の通信状態と、計算機外通信状
態監視部１２２で監視される計算機外の通信状態のそれ
ぞれについて、独立に対応関係を設定しても構わない。

【００５０】また、以上の実施形態では、通信状態監視
部１２には、計算機内通信状態監視部１２１および計算
機外通信状態監視部１２２の両方が設けられているもの
としたが、いずれか一方だけが設けられているものであ
っても構わない。［第２の実施形態］図２は本発明の音声合成システムの
第２の実施形態を示すブロック構成図である。なお、図
１と同一部分には同一符号を付してある。

【００５１】まず、図２の構成の特徴は、音声合成部１
１に加えて、計算機ハードウェアの動作状態を監視する
ハードウェア状態監視部２２１と計算機ソフトウエアの
動作状態を監視するソフ卜ウェア状態監視部２２２とを
有する動作状態監視部２２が設けられている点である。
これに伴い、図２における音声合成部１１内（の音韻制
御部１１２および韻律制御部１１３）の機能も、以下に
述べるように図１中の音声合成部１１（内の音韻制御部
１１２および韻律制御部１１３）とは異なるが、便宜上
同一符号を付してある。

【００５２】動作状態監視部２２内のハードウェア状態
監視部２２１は、音声合成システムの稼働する計算機ハ
ードウェアの動作状態を示すパラメータを直接測定した
り、あるいは、計算機ハードウェアもしくはそのソフト
ウェアドライバに動作状態を問い合わせたり、あるい
は、計算機ハードウェアもしくはそのソフトウェアドラ
イバ自体から適当なタイミングで動作状態を通知される
ことによって、計算機ハードウェアの動作状態を監視す
る。

【００５３】例えば、システムを構成するハードウェア
に供給される電源電圧の高さや安定性、カード、プリン
タ、キーボード、マウス等のデバイス（周辺機器）やネ
ットワークケーブル等、システムに接続されているハー
ドウェアの接続状況（接続されているか否か、さらには
利用可能な状態か否か）を監視する。

【００５４】ハードウェア状態監視部２２１は、このよ
うにして取得したハードウェア状態に関する監視結果を
もとに、例えば、電源電圧が十分高い／高い／やや低い
／低い／かなり低い、十分安定している／安定している
／やや不安定／非常に不安定、などにランク分けされる
電源品質に関する情報、あるいは、ハードウェアが利用
可能な状態にある／待機状態にある／接続が切れている
といった動作状態情報を音声合成部１１に送る。

【００５５】なお、上記の分類は一例であり、必要に応
じて任意の分類が可能である。また、適当な閾値を設定
し、これと比較して離散的なレベルにまるめてもよい
し、取得した数値のまま動作状態情報としてもよく、上
記の分類に限定されるものではない。

【００５６】音声合成部１１は（動作状態監視部２２内
の）ハードウェア状態監視部２２１から動作状態情報を
受け取り、当該動作状態情報に応じて音韻制御部１１２
および韻律制御部１１３においてそれぞれ適用する制御
規則や蓄積データを選択する。

【００５７】ここで、動作状態情報と選択する制御規則
および蓄積データとの対応関係は、前記第１の実施形態
における通信状態情報と選択する制御規則および蓄積デ
ータとの対応関係と同様に、音韻制御部１１２および韻
律制御部１１３に定めておく。この対応関係は、例え
ば、品質の高い電源電圧が十分安定して供給されている
場合は通常の韻律制御や声色で合成音声を生成するが、
電源電圧が下がり始めたり不安定な場合には、少し元気
のない声に対応する蓄積データを選択するような規則を
選択したり、ゆったりした口調になるような規則に切り
替えたり、ピッチの上げ下げを弱めたりするような規則
を選択したり、おとなしい声になるような規則を選択し
たりするなどの対応関係が例として挙げられる。もちろ
ん、この対応関係はあくまで例であって、音声合成シス
テムのユーザの好みに応じて変更可能にしても構わな
い。そして、これらの規則の対応関係の変更は、上記と
逆の印象を与えるように選択であっても構わない。

【００５８】音声合成部１１内の韻律制御部１１３およ
び音韻制御部１１２では、このような対応関係に従って
選択された規則を用いることで、生成・出力する合成音
声の韻律的・音韻的な品質を制御する。これによりユー
ザは、合成音声の声の調子から、その時点における計算
機ハードウェアの状態を知ることができる。

【００５９】ところで、ＰＤＡ（Personal Digital Ass
istants ）に代表される可搬型システム（携帯機器）で
は、表示に利用できる面積が小さいことから、システム
の動作状態情報を提示するために割り当てる面積を大き
くとるのは非効率的であるが、過度に小さくすればユー
ザに注意を促すという本来の目的が満足できなくなる可
能性がある。一般に、可搬型のシステムの場合、供給さ
れる電源の安定性は、整備された環境にある固定型のシ
ステムに比較して低いのが普通である。そこで、可搬型
システムにおいて、このような動作状態情報について、
韻律や声質を制御することによって副次的に伝えること
は有効である。電源電圧と同様、ハードウェアの接続状
況も、一般のユーザが普段は比較的意識せず、見落とし
がちであるが、これも接続状況の変化に応じて韻律や声
質に変化を与えれば、ユーザにそれとなく知らせること
ができる。

【００６０】一方、動作状態監視部２２内のソフ卜ウェ
ア状態監視部２２２は、音声合成システムの稼働する計
算機のプロセッサ（ＣＰＵ）やメモリ、ハードディスク
等の計算機資源をある（ターゲットとする）ソフトウェ
ア（プロセス）がどれだけ占有しているか、あるいは、
逆の観点から言えば、あるソフトウェアがどれだけ処理
を待たされているかといった、限られた計算機資源の分
配に起因するソフトウェアの動作状態を監視したり、あ
るソフトウェアが今どのような入力を受け付ける状態に
あるか、例えば、入力デバイスの種類や入力内容の種類
として何が有効であるか、また、あるソフトウェアが今
どのような情報を提示しているか、例えば、提示情報の
出所や提示内容の種類といった動作モード（場面）に対
応するソフトウェアの動作状態を取得する。

【００６１】このようなソフトウェアの動作状態は、ソ
フ卜ウェア状態監視部２２２が、当該ソフトウェアの動
作しているＯＳに対して問い合わせ、通知してもらうこ
とによって取得したり、当該ソフトウェア自体に、動作
状態を直接問い合わせると通知する通知部（通知機能）
を付加しておくことによって取得する。もちろん、問い
合わせがなくても、ソフトウェア自身がその動作状態を
ソフ卜ウェア状態監視部２２２に適当なタイミングで通
知する仕組みを用意することも可能である。

【００６２】ここで、取得するソフトウェアの動作状態
情報としては、例えばメモリ使用量やソフトウェア状
態、ＣＰＵの占有率や占有時間累計、動作優先度等の情
報が一例として挙げられる。これらの情報は、既存のＯ
Ｓのシステムコールやライブラリを利用して取得可能で
ある。また、現在受け付ける入力の種類や提示している
情報の種類を通知する通知部を備えたソフトウェアを新
たに作成してもよい。

【００６３】一般に、同一のアプリケーションでも動作
モード（場面）に応じて受け付ける入力の種類は動的に
変化する。例えば、メールの送受信を行うメールアプリ
ケーションは、届いたメールのリストを表示する状態、
そのうちの選択されている１つのメールの内容を表示す
る状態、送信したいメールの文面を編集する場面、編集
したメールを送信する場面などがあって、それぞれの場
面によって、同じキー入力が有効になるか無視される
か、有効であった場合にどういう動作をするかが変わっ
てくる。また、音声認識入力を受け付けるソフトウェア
の場合には、今どのような認識語彙が入力可能であるか
といった情報が「受け付けられる入力の種類」に相当
し、さらに、認識語彙だけでなくそれぞれの認識語彙に
対応する動作もソフトウェアの動作モード（場面）に応
じて動的に変化する。

【００６４】一方、電子メールのアプリケーションで
は、誰から送られたメールであるとか、極秘扱いの内容
であるといった、情報の出所や内容を表す情報を文字列
照合や言語解析によって取得し、これらの動作モードや
提示情報の出所や提示内容の種類を動作情報としてソフ
トウェア動作状態監視部２２２に伝える。ここでは、メ
ールのアプリケーションを例に挙げたが、電子ネット掲
示板や電子ネット上の情報提供システムのように、複数
の情報源からの情報をブラウジングする応用ソフトウェ
アにおいても全く同様のことが適用できる。

【００６５】ソフトウェア状態監視部２２２は、このよ
うにして取得したソフトウェアの動作状態に関する情報
をもとに、例えば、メモリの占有が大きい／小さい、Ｃ
ＰＵの占有時間累計が長い／短い、認識語彙の組合せが
どのセットであるか、どのような動作モードにあるか、
情報の出所はどこか、情報の内容の種類が何であるかを
示す情報を動作状態情報として音声合成部１１（内の音
韻制御部１１２および韻律制御部１１３）に送る。

【００６６】音声合成部１１では、ソフトウェア状態監
視部２２２からの動作状態情報を受け取ると、音韻制御
部１１２および韻律制御部１１３においてそれぞれ適用
する規則や蓄積データを当該動作状態情報に応じて選択
する。これにより、例えばメモリの占有が大きいとか、
ＣＰＵの占有時間累計が長い場合には、元気のない声や
申し訳なさそうな声を生成して、システムの状況をユー
ザにそれとなく伝えたり、逆に早口の口調とすることで
ユーザ自らの処理を促したりすることが可能となる。ま
た、情報の出所に応じて、アクセントやフレーズを変え
るための規則を選択し、地域色を音声に反映すること
で、情報の出所の違いをユーザに意識させることが可能
となる。また、情報提供者の声の蓄積データがあれば、
それを使うことで、情報提供者を簡単に判別できるよう
にすることも可能である。また、電話等でリモート操作
する場合や、携帯機器で表示面積が小さい場合に、ある
ソフトウェアが現在どのような入力を受け付ける状態に
あるか（その入力デバイスの種類と入力内容の種類）に
応じて、韻律や声色に変化を与えることで、ユーザは次
に何を入力すべきかや、現在の「場面」を、出力される
合成音声の調子から知ることができる。

【００６７】ここで、動作状態情報（ソフトウェアの動
作状態情報）と選択する制御規則および蓄積データの対
応関係は、上述した計算機ハードウェアの動作状態情報
と選択する制御規則および蓄積データの対応関係の場合
と同様に、音韻制御部１１２および韻律制御部１１３に
定めておく。

【００６８】このように、言語解析部１１１での解析結
果に対して音声合成部１１（内の音韻制御部１１２およ
び韻律制御部１１３）において適用する制御規則や蓄積
データを、動作状態監視部２２（内のハードウェア状態
監視部２２１またはソフ卜ウェア状態監視部２２２）か
ら出力される動作状態情報に応じて切り替えて（変更し
て）合成音声を出力することにより、ユーザは、合成音
声の声の調子から、その時点における計算機ハードウェ
アの状態、あるいは計算機ソフトウェアの状態を知るこ
とができる。

【００６９】さて、本実施形態における音声合成部１１
では、言語解析部１１１、音韻制御部１１２、韻律制御
部１１３、波形生成部１１４、および波形出力部１１５
のそれぞれが単独で動作するようにモジュール化してお
き、互いのデータの授受の形式がネットワークを通じた
ものであっても、同一の実行プロセス内でのデータの授
受でも処理が可能になるようにしてある。また、上記各
部の全体の処理手続きおよびその部分的な処理手続きが
互いに別のプロセスとして分離可能にしておき、分離さ
れたプロセスは、処理結果を元のプロセスに返すように
しておく。このようなシステムの実装は、マルチタスク
ＯＳ上ならば、子プロセスの生成と子プロセスとのソケ
ット通信などのシステムコール、ライブラリを用いて容
易に実装可能である。

【００７０】音声合成部１１は、動作状態監視部３２か
ら動作状態情報を受け取ると、メモリの残量やＣＰＵの
占有時間や占有率から判断して、当該音声合成部１１を
構成する言語解析部１１１から波形出力部１１５に至る
音声合成処理を進めるに当たってメモリやＣＰＵ能力な
ど十分な計算機資源が確保されているか否かをチェック
する。そして音声合成部１１では、メモリが不足する可
能性がある場合や、ＣＰＵの負荷状況から十分な計算機
資源が確保できないと判断される場合には、現在までに
処理が進んでいる段階よりも後の処理のうち適当なもの
を別の計算機ハードウェアに別プロセスとして分担さ
せ、処理結果を受け取るようにする。

【００７１】ここで、どの処理を分担させるかは、処理
に必要なＣＰＵ能力やメモリ量から判断するが、これは
音声合成方式の種類や蓄積データの規模によって変わる
ものである。例えば、分析パラメータ合成方式の場合
は、波形生成部１１４における信号処理、次いで音韻制
御部１１２における蓄積データの編集加工の処理に資源
が多く使われ、波形素片編集型の音声合成方式では、蓄
積データの検索がＣＰＵパワーを最も要する。分析パラ
メータ合成方式においても、蓄積データが持つ蓄積素片
の種類が多いほど蓄積データの検索時間は多くかかる。
したがって、どの処理を分担させるかは、合成方式や蓄
積データの規模によって適当な優先順位をつけて、それ
に従って分担させる処理を決めればよい。

【００７２】ところで、音声合成部１１の言語解析や音
韻・韻律的な制御における規則の適用は、いずれも多く
の規則適用の可能性を数え上げ、その規則を適用した場
合の結果を評価することによって、処理が進められる。
これらの処理を１つの計算機上で順次実行するのは必ず
しも効率的でなく、規則の適用可能性と規則適用を仮定
した場合の評価を同時並行して処理する方が効率的であ
る。適用される規則が固定的であれば、ある程度チュ−
ニングすることにより順次処理をさせることによって問
題は比較的顕れにくくすることも可能であるが、本発明
のように適用される規則が動的に変更される場合には、
同時並行的な処理をする方が効率的である。

【００７３】そこで本実施形態では、上述の規則の適用
可能性と規則適用を仮定した場合の評価を同時並行して
処理するようにしている。この並行処理は、計算機が接
続されたネットワーク上の他の計算機にリモートプロセ
スとして実行させたり、同じ計算機上の副プロセッサに
分担させることもできる。

【００７４】このように本実施形態においては、音声合
成部１１を構成する言語解析部１１１から波形出力部１
１５に至る音声合成処理を進める上で、動作状態監視部
３２からの動作状態情報により十分な計算機資源が確保
できないと判断される場合には、現在までに処理が進ん
でいる段階よりも後の処理のうち適当なものを別の計算
機ハードウェアに別プロセスとして分担させたり、言語
解析や音韻・韻律的な制御における規則の適用可能性と
規則適用を仮定した場合の評価を、計算機が接続された
ネットワーク上の他の計算機や同じ計算機上の副プロセ
ッサに分担させて同時並行して処理させることで、効率
的な処理を実現し、ユーザの待ち時間を減らすようにし
ている。

【００７５】なお、以上の実施形態では、動作状態監視
部２２には、ハードウェア状態監視部２２１およびソフ
卜ウェア状態監視部２２２の両方が設けられているもの
としたが、いずれか一方だけが設けられているものであ
っても構わない。［第３の実施形態］図３は本発明の音声合成システムの
第３の実施形態を示すブロック構成図である。なお、図
１と同一部分には同一符号を付してある。

【００７６】まず、図３の構成の特徴は、音声合成部１
１に加えて、ユーザのシステム利用状況を監視する利用
者状態監視部３２１と、ユーザのシステム利用環境を監
視する利用者環境監視部３２２とを有するユーザ状況監
視部３２が設けられている点である。これに伴い、図３
における音声合成部１１内（の音韻制御部１１２および
韻律制御部１１３）の機能も、以下に述べるように図１
中の音声合成部１１（内の音韻制御部１１２および韻律
制御部１１３）とは異なるが、便宜上同一符号を付して
ある。

【００７７】ユーザ状況監視部３２内の利用者状態監視
部３２１は、ユーザのシステムの利用状況（利用者状
態）を得るための入力デバイスや時計、利用履歴の少な
くとも１つからの情報を監視し、例えばユーザがどの程
度集中してシステムを利用しているかといったシステム
利用状況監視結果を取得する。入力デバイスとしては、
例えば、カメラなどが利用できる。カメラの捉えたユー
ザの頭の向きを精度よく推定することは可能であり、あ
る一定時間中にどの程度長く安定してシステムの方向
（正面）を向いているのか否か（他を向いているか）を
もって、ユーザの集中度として評価する。また、マウス
に代表されるポインティングデバイス、キーボード等、
ユーザの入力操作のための入力デバイスについて、ユー
ザの操作状況（入力操作頻度、入力操作時間、ポインテ
ィングデバイス移動速度・距離など）を監視することも
可能である。この他、時計、利用履歴については、同じ
曜日、同じ時間帯にどのような利用状況にあったかを記
録しておくことで、利用状況の推定精度を高めるのに用
いられる。

【００７８】利用者状態監視部３２１は、このようにし
て取得したユーザのシステム利用状況に関する情報をも
とに、ユーザの集中度や、ユーザの操作状況を示す情報
をユーザ状況情報として音声合成部１１（内の音韻制御
部１１２および韻律制御部１１３）に送る。

【００７９】音声合成部１１では、利用者状態監視部３
２１からのユーザ状況情報を受け取ると、音韻制御部１
１２および韻律制御部１１３においてそれぞれ適用する
規則や蓄積データを当該ユーザ状況情報に応じて選択す
る。これにより、例えば集中度が予め定めた閾値以下の
場合には、パワーを大きくしたり、文頭では発話速度が
小さく（遅く）なるような規則を適用することで、ユー
ザに集中するように注意を促すことが可能となる。

【００８０】一方、ユーザ状況監視部３２内の利用者環
境監視部３２２は、ユーザがシステムを利用している場
所の環境（利用者環境）を得るための入力デバイスや時
計、利用履歴の少なくとも１つからの情報を監視し、例
えばユーザがどのような音環境（周囲雑音環境）下に居
るかとか、どの程度の明るさの場所に居るかとか、ユー
ザの物理的な居場所（位置）といったシステム利用環境
監視結果を出力する。このような入力デバイスとして、
例えば、周囲雑音を集音するマイクロフォンや、ＧＰＳ
などの位置推定デバイス、さらには明るさセンサ、カメ
ラ、ガスセンサ、水センサなどが挙げられる。この他、
時計、利用履歴については、同じ曜日、同じ時間帯にど
のような利用環境にあったかを記録しておくことで、利
用環境の推定精度を高めるのに用いられる。

【００８１】利用者環境監視部３２２は、このようにし
て取得したユーザのシステム利用環境に関する情報をも
とに、周囲雑音のスペクトル特徴やレベル、明るさ、ユ
ーザの居場所（位置）等を示す情報をユーザ状況情報と
して音声合成部１１（内の音韻制御部１１２および韻律
制御部１１３）に送る。

【００８２】音声合成部１１では、利用者環境監視部３
２２からのユーザ状況情報を受け取ると、音韻制御部１
１２および韻律制御部１１３においてそれぞれ適用する
規則や蓄積データを当該ユーザ状況情報に応じて選択す
る。これにより、例えば高周波数成分に優勢な雑音があ
る場合には、はっきり聞こえるように高いピッチの声に
なるように韻律制御規則を適用したり高周波数成分の優
勢な蓄積素片を選択するように音韻制御規則を適用する
とか、雑音レベルが低い静かなところでは、静かな声あ
るいは落ち着いた声になるような規則を適用することが
できる。また、明るい場所で利用する際はピッチが高め
で発話速度が早くなるように、暗い場所で利用する際に
は発話速度を遅く、ピッチのダイナミックレンジは広く
なるように韻律規則を適用することで、明るい場所に比
較して暗い場所では比較的落ちついた印象を与えること
もできる。このような対応関係は、ユーザの好みに応じ
て変更可能としても構わない。

【００８３】なお、以上の実施形態では、ユーザ状況監
視部３２には、利用者状態監視部３２１および利用者環
境監視部３２２の両方が設けられているものとしたが、
いずれか一方だけが設けられているものであっても構わ
ない。［第４の実施形態］図４は本発明の音声合成システムの
第４の実施形態を示すブロック構成図である。なお、図
３と同一部分には同一符号を付してある。

【００８４】まず、図４の構成の特徴は、図３の構成
（の音声合成部１１およびユーザ状況監視部３２）に加
えて、非自然音声明示判断部４１と、テキスト変更部４
２が設けられている点である。これに伴い、図４におけ
る音声合成部１１（内の言語解析部１１１等）の機能
も、以下に述べるように図３中の音声合成部１１（内の
言語解析部１１１等）とは異なるが、便宜上同一符号を
付してある。

【００８５】まず非自然音声明示判断部４１は、ユーザ
状況監視部３２の出力するユーザ状況情報をもとに、人
間の発声でないこと（非自然音声であること）を明示す
べきか否かを判断し、その判断結果（非自然音声明示判
断結果）を出力する。例えば、ユーザ状況情報において
ユーザが集中していないことを示している場合や、これ
まであまり合成音声の出力をしたことのない時間帯や場
所であることを示している場合には、人間の発声でない
ことを明示すべきであるという判断結果を出力する。

【００８６】テキスト変更部４２は非自然音声明示判断
部４１からの非自然音声明示判断結果を受け取り、当該
判断結果が人間の発声でないことを明示すべきことを示
している場合には、入力テキストに対応する合成音声の
出力に先立ち（すなわち、言語解析部１１１での入力テ
キストに対する言語解析結果を音韻制御部１１２および
韻律制御部１１３に出力して、対応する音声波形を生成
・出力させるのに先立ち）、音声合成によるメッセージ
出力が始まることを予告する「合成音です」「システム
からのお知らせです」などの定型表現を前置する。音声
合成部１１は、このテキスト変更部４２によって前置さ
れた語彙を含めて合成出力する。

【００８７】このようにして、例えばユーザが集中して
いない場合や、これまであまり合成音声の出力をしたこ
とのない時間帯や場所での利用の場合に、音声合成によ
るメッセージ出力が始まることを予告する（非自然音声
であることを明示する）合成音を、入力テキストに対応
する合成音声の出力に先立って出力することで、そのよ
うな状況をユーザに知らせることができる。特に、高品
質で肉声に近い合成音声が出力される状況では、人の声
がする利用者環境のもとでの利用の場合に、非自然音声
であることを明示する合成音を前置することで、周囲の
人の声と紛らわしくしないとか、非自然音声であること
を明示しないことで、合成音であることを強調して注意
を集めるのを避けることが可能である。［第５の実施形態］図５は本発明の音声合成システムの
第５の実施形態を示すブロック構成図である。なお、図
４と同一部分には同一符号を付してある。

【００８８】まず、図５の構成の特徴は、図４で示した
テキスト変更部４２に代えて、人間の発声でないことを
明示する音（非自然音声明示音）を出力する非自然音声
明示音出力部４３が設けられている点である。これに伴
い、図４における音声合成部１１の機能も、例えば当該
音声合成部１１内の波形出力部１１５が、波形生成部１
１４により生成される合成音声と、非自然音声明示音出
力部４３の生成する非自然音声明示音とを混合する機能
を有しているというように、図４中の音声合成部１１
（内の波形出力部１１５等）とは異なるが、便宜上同一
符号を付してある。

【００８９】まず、非自然音声明示音出力部４３は、非
自然音声明示判断部４１から出力される非自然音声明示
判断結果が人間の発声でないことを明示すべきことを示
している場合には、入力テキストに対応する合成音声の
出力に先立ち、例えば「ピ」といった信号音（非自然音
声明示音）を出力する。この信号音は、音韻制御部１１
２および韻律制御部１１３による音韻・韻律的な制御に
従って波形生成部１１４により生成される合成音声の出
力に先立ち、波形出力部１１５によって出力される。

【００９０】このようにして、ユーザが集中していない
場合や、これまであまり合成音声の出力をしたことのな
い時間帯や場所での利用の場合に、例えば「ピ」という
非自然音声明示音を、入力テキストに対応する合成音声
の出力に先立って出力することで、人間の発した声では
なく合成音声によるメッセージであることを明示してユ
ーザに対して注意を促すことができる。

【００９１】なお、図５の構成に図４中のテキスト変更
部４２を加え、このテキスト変更部４２と非自然音声明
示音出力部４３の両方を備えた構成とすることも可能で
ある。［第６の実施形態］図６は本発明の音声合成システムの
第６の実施形態を示すブロック構成図である。なお、図
１と同一部分には同一符号を付してある。

【００９２】まず、図６の構成の特徴は、図１の構成
（の音声合成部１１および通信状態監視部１２）に加え
て、図４に示したような入力テキストの変更を行うテキ
スト変更部４２が設けられている点である（但し、テキ
スト変更の内容が、図４の例とは異なる）。これに伴
い、音声合成部１１内（の言語解析部１１１等）の機能
も、以下に述べるように図１中の音声合成部１１（内の
言語解析部１１１等）とは異なるが、便宜上同一符号を
付してある。

【００９３】図６の構成の音声合成システムにおいて、
音声合成部１１内の言語解析部１１１は、通信状態監視
部１２から通信状態情報を受け取ると、当該情報をテキ
スト変更部４２に渡して起動する。

【００９４】するとテキスト変更部４２は、言語解析部
１１１と連絡をとりながら、言語解析部１１１により言
語解析されている入力テキストに通信状態情報に応じた
定型表現の語彙を挿入して当該テキストを変更する。す
なわちテキスト変更部４２は、音声合成部１１内の音韻
制御部１１２および韻律制御部１１３の処理の先頭にお
いて、あるいは、韻律制御部１１３の処理の途中におい
てポーズ挿入位置を決めた段階において、文頭や文末、
あるいはポーズ挿入位置に、通信状態情報によって決ま
る定型表現の語彙を挿入する。音声合成部１１は、この
テキスト変更部４２によって挿入された語彙を含めて合
成出力する。

【００９５】以上のテキスト変更部４２での通信状態情
報に応じたテキスト変更処理により、例えば、通信量大
のとき（通信が混んでいるとき）には、「あ」「えー
と」「えー」「はい」などの不要語を文頭や文末、ある
いはポーズ挿入位置に挿入したり、「ちょっと待って」
などのメッセージを文頭に前置することができる。この
ような決まった語彙（あらかじめ設定されている語彙）
を挿入することによって、処理時間をかせぎ合成音声の
処理による負荷を低減する効果がある。また、逆に通信
量小のときには、上記と同様の不要語を挿入すれば、シ
ステムがアイドル状態であることをユーザにそれとなく
示すという効果がある。

【００９６】なお、図６の構成におけるテキスト変更部
４２は、通信状態監視部１２からの通信状態情報を音声
合成部１１を通して受け取るものとしているが、通信状
態監視部１２から直接受け取るようにしても構わない。［第７の実施形態］図７は本発明の音声合成システムの
第７の実施形態を示すブロック構成図である。なお、図
２と同一部分には同一符号を付してある。

【００９７】まず、図７の構成の特徴は、図２の構成
（の音声合成部１１および動作状態監視部２２）に加え
て、図６に示したようなテキスト変更部４２が設けられ
ている点である。これに伴い、図７における音声合成部
１１内（の言語解析部１１１等）の機能も、以下に述べ
るように図２中の音声合成部１１（内の言語解析部１１
１等）とは異なるが、便宜上同一符号を付してある。

【００９８】図７の構成の音声合成システムにおいて、
音声合成部１１内の言語解析部１１１は、動作状態監視
部２２からシステムの動作状態情報を受け取ると、当該
情報をテキスト変更部４２に渡して起動する。

【００９９】するとテキスト変更部４２は、言語解析部
１１１と連絡をとりながら、言語解析部１１１により言
語解析されている入力テキストに動作状態情報に応じた
定型表現の語彙を挿入する。すなわちテキスト変更部４
２は、音声合成部１１内の音韻制御部１１２および韻律
制御部１１３の処理の先頭において、あるいは、韻律制
御部１１３の処理の途中においてポーズ挿入位置を決め
た段階において、文頭や文末、あるいはポーズ挿入位置
に、動作状態情報によって決まる定型表現の語彙を挿入
する。音声合成部１１は、このテキスト変更部４２によ
って挿入された語彙を含めて合成出力する。

【０１００】以上のテキスト変更部４２での動作状態情
報に応じたテキスト変更処理により、例えば、ＣＰＵが
長時間占有されているときには、「あ」「えーと」「え
ー」「はい」などの不要語を文頭や文末、あるいはポー
ズ挿入位置に挿入することができる。このような決まっ
た語彙を挿入することによって、処理時間をかせぎ合成
音声の処理による負荷を低減する効果がある。

【０１０１】なお、図７の構成におけるテキスト変更部
４２は、動作状態監視部２２からの動作状態情報を音声
合成部１１を通して受け取るものとしているが、動作状
態監視部２２から直接受け取るようにしても構わない。［第８の実施形態］図８は本発明の音声合成システムの
第８の実施形態を示すブロック構成図である。なお、図
３と同一部分には同一符号を付してある。

【０１０２】まず、図８の構成の特徴は、図３の構成
（の音声合成部１１およびユーザ状況監視部３２）に加
えて、図６に示したようなテキスト変更部４２が設けら
れている点である。これに伴い、図８における音声合成
部１１内（の言語解析部１１１等）の機能も、以下に述
べるように図３中の音声合成部１１（内の言語解析部１
１１等）とは異なるが、便宜上同一符号を付してある。

【０１０３】図８の構成の音声合成システムにおいて、
音声合成部１１内の言語解析部１１１は、ユーザ状況監
視部３２からユーザ状況情報を受け取ると、当該情報を
テキスト変更部４２に渡して起動する。

【０１０４】するとテキスト変更部４２は、言語解析部
１１１と連絡をとりながら、言語解析部１１１により言
語解析されている入力テキストにユーザ状況情報に応じ
た定型表現の語彙を挿入する。すなわちテキスト変更部
４２は、音声合成部１１内の音韻制御部１１２および韻
律制御部１１３の処理の先頭において、あるいは、韻律
制御部１１３の処理の途中においてポーズ挿入位置を決
めた段階において、文頭や文末、あるいはポーズ挿入位
置に、ユーザ状況情報によって決まる定型表現の語彙を
挿入する。音声合成部１１は、このテキスト変更部４２
によって挿入された語彙を含めて合成出力する。

【０１０５】以上のテキスト変更部４２での動作状態情
報に応じたテキスト変更処理により、例えば、ユーザが
集中していないときには、「あの」などの人に声をかけ
る語彙を文頭に設定することで、ユーザに注意を促すこ
とができる。

【０１０６】なお、図８の構成におけるテキスト変更部
４２は、ユーザ状況監視部３２からのユーザ状況情報を
音声合成部１１を通して受け取るものとしているが、ユ
ーザ状況監視部３２から直接受け取るようにしても構わ
ない。

【０１０７】

【発明の効果】以上詳述したように本発明によれば、言
語情報の持つメッセージとしての直接的な情報伝達だけ
でなく、音声合成機能を含む、システム全体の状況をそ
れとなく示す、音声メディアの持つ副次的な情報伝達機
能を利用し、使い勝手のよいシステム構築が可能にな
る。また、ユーザの利用状況に応じた合成音声出力が可
能となる。

【０１０８】特に、計算機の出力メディアとして、シス
テム内部の状態をユーザに伝えることはユーザインタフ
ェースの観点からも重要である。言語メッセージ伝達と
しての主目的としての利用と同時に、システムがどのよ
うな動作状況にあるかをそれとなくユーザに伝えること
は、音声メディアの利用形態として適切なものであると
いえる。

【０１０９】このような情報は画面表示部などの視覚的
な出力と併用することでその効果を高めることも可能で
あるだけでなく、ＰＤＡに代表される携帯機器のように
表示部の面積が小さい場合には、メッセージを、主に音
声メディアによって伝えるようにすれば、メッセージ表
示による画面の面積の占有を抑えることが可能になる。

【０１１０】さらに、ユーザの利用状況を考慮して韻律
や声色を制御することにより、より自然なシステム出力
が可能になる。それは、状況を考慮せず単調な合成音声
を出力しないようにするというだけでなく、高品質で肉
声に近い合成音声が増えるような状況では、逆に合成音
声であることを明らかにして、音声としては不自然さは
あっても、機械とのコミュニケーションとしては自然な
やりとりが可能になる。

【図面の簡単な説明】

【図１】本発明の音声合成システムの第１の実施形態を
示すブロック構成図。

【図２】本発明の音声合成システムの第２の実施形態を
示すブロック構成図。

【図３】本発明の音声合成システムの第３の実施形態を
示すブロック構成図。

【図４】本発明の音声合成システムの第４の実施形態を
示すブロック構成図。

【図５】本発明の音声合成システムの第５の実施形態を
示すブロック構成図。

【図６】本発明の音声合成システムの第６の実施形態を
示すブロック構成図。

【図７】本発明の音声合成システムの第７の実施形態を
示すブロック構成図。

【図８】本発明の音声合成システムの第８の実施形態を
示すブロック構成図。

【符号の説明】

１１…音声合成部、１２…通信状態監視部、２２…動作状態監視部、３２…ユーザ状況監視部、４１…非自然音声明示判断部、４２…テキスト変更部、４３…非自然音声明示音出力部、１１１…言語解析部、１１２…音韻制御部、１１３…韻律制御部、１１４…波形生成部、１１５…波形出力部、１２１…計算機内通信状態監視部、１２２…計算機外通信状態監視部、２２１…ハードウェア状態監視部、２２２…ソフ卜ウェア状態監視部、３２１…利用者状態監視部、３２２…利用者環境監視部、１１２１…蓄積データ格納部。

Claims

【特許請求の範囲】

【請求項１】入力テキストの言語解析を行いその解析
結果に対して規則を適用して音韻・韻律的な制御を行い
合成音声を生成・出力する音声合成手段と、計算機内の通信状態、および計算機と外部の間の通信状
態の少なくとも一方を監視し通信状態情報を出力する通
信状態監視手段とを具備し、前記音声合成手段は、前記音韻・韻律的な制御において
適用する規則を前記通信状態監視手段から出力される前
記通信状態情報に応じて変更するように構成されている
ことを特徴とする音声合成システム。
【請求項２】入力テキストの言語解析を行いその解析
結果に対して規則を適用して音韻・韻律的な制御を行い
合成音声を生成・出力する音声合成手段と、計算機ハードウエアの動作状態、および計算機ソフトウ
ェアの動作状態の少なくとも一方を監視し動作状態情報
を出力する動作状態監視手段とを具備し、前記音声合成手段は、前記音韻・韻律的な制御において
適用する規則を前記動作状態監視手段から出力される前
記動作状態情報に応じて変更するように構成されている
ことを特徴とする音声合成システム。
【請求項３】前記音声合成手段における言語解析、音
韻的な制御、韻律的な制御、および音声波形生成の少な
くとも１つの処理を、前記動作状態情報の示す動作状態
に応じて、通信可能な有線ネットワークもしくは無線ネ
ットワークで結ばれる複数の計算機ハードウエアに分担
させることを特徴とする請求項２記載の音声合成システ
ム。
【請求項４】入力テキストの言語解析を行いその解析
結果に対して規則を適用して音韻・韻律的な制御を行い
合成音声を生成・出力する音声合成手段と、ユーザのシステム利用状況、およびユーザのシステム利
用環境の少なくとも一方を監視しユーザ状況情報を出力
するユーザ状況監視手段とを具備し、前記音声合成手段は、前記音韻・韻律的な制御において
適用する規則を前記ユーザ状況監視手段から出力される
前記ユーザ状況情報に応じて変更するように構成されて
いることを特徴とする音声合成システム。
【請求項５】前記ユーザ状況情報をもとに人間の発声
でないことを明示すべきか否かの判断結果を出力する非
自然音声明示判断手段をさらに具備するとともに、前記非自然音声明示判断手段の判断結果に応じ、前記入
力テキストの表現の一部の変更により人間の音声でない
ことを明示するテキスト変更手段、および前記非自然音
声明示判断手段の判断結果に応じ、合成音声の出力に併
せて人間の発声でないことを明示する音を出力する非自
然音声明示音出力手段の少なくとも一方をさらに具備す
ることを特徴とする請求項４記載の音声合成システム。
【請求項６】入力テキストの言語解析を行いその解析
結果に対して規則を適用して音韻・韻律的な制御を行い
合成音声を生成・出力する音声合成方法であって、計算機内の通信状態、および計算機と外部の間の通信状
態の少なくとも一方、計算機ハードウエアの動作状態、
および計算機ソフトウェアの動作状態の少なくとも一
方、または、ユーザのシステム利用状況、およびユーザ
のシステム利用環境の少なくとも一方を監視し、その監
視結果に応じて、前記音韻・韻律的な制御において適用
する規則を変更するようにしたことを特徴とする音声合
成方法。
【請求項７】入力テキストの言語解析を行いその解析
結果に対して規則を適用して音韻・韻律的な制御を行い
合成音声を生成・出力する音声合成方法であって、計算機内の通信状態、および計算機と外部の間の通信状
態の少なくとも一方、計算機ハードウエアの動作状態、
および計算機ソフトウェアの動作状態の少なくとも一
方、または、ユーザのシステム利用状況、およびユーザ
のシステム利用環境の少なくとも一方を監視し、その監
視結果に応じて、前記音韻・韻律的な制御において適用
する規則を変更するとともに、前記入力テストに対応す
る合成音に併せて別の音または合成音の少なくとも一方
を出力するようにしたことを特徴とする音声合成方法。