JPH0981174A - 音声合成システムおよび音声合成方法 - Google Patents
音声合成システムおよび音声合成方法Info
- Publication number
- JPH0981174A JPH0981174A JP7235835A JP23583595A JPH0981174A JP H0981174 A JPH0981174 A JP H0981174A JP 7235835 A JP7235835 A JP 7235835A JP 23583595 A JP23583595 A JP 23583595A JP H0981174 A JPH0981174 A JP H0981174A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- user
- unit
- speech
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
て、適用する音韻・韻律制御規則を変えることで、ユー
ザの置かれている状況やシステム状況がユーザにとって
把握しやすいシステムの出力を生成し、使い勝手を向上
させる。 【解決手段】音声合成システムの稼働する計算機内の通
信状態、および計算機と外部の間の通信状態を通信状態
監視部12にて監視し、対応する通信状態情報を出力す
る。音声合成部11内の言語解析部111では、入力テ
キストに対して形態素解析や統語構造解析などの言語解
析を行い、その言語解析の結果の内容に対し、音韻制御
部112および韻律制御部113にて、それぞれ様々な
レベルの規則を適用することで、言語メディアから音声
メディアへの変換に伴う合成音声の品質を左右する音韻
・韻律的な制御を行う。この際、音韻・韻律的な制御に
おいて適用される規則が、上記の通信状態情報に応じて
変更される。
Description
用するシステム一般に用いて好適な音声合成システムお
よび音声合成方法に関する。
さらに計算機の処理能力が向上するにつれ、我々の身近
における音声合成の利用がますます増え、テキスト音声
変換は1つの応用アプリケーションとして気軽に利用可
能になってきた。岩田他:“パソコン向けソフトウェア
日本語テキスト音声合成,”日本音響学会講演論文集,
2-8-13,pp.245-246 (1993年10月) がその例である。
テキストの言語解析、音韻制御、韻律制御、波形生成の
いずれの処理においても原則的に一意の処理結果を得る
ように作られており、入力テキストが決まれば結果とし
て得られる合成音声は常に同じものになっていた。
・低い声など、合成音声の生成に先立ちユーザに選択さ
せ、その選択に応じた合成音声を生成するものもある
が、選択項目が決まれば、入力テキストに対して生成さ
れる合成音声は一意に決まるという意味で、同じ枠組み
であると言える。
キストに対して同じ合成音声が生成されることは、単調
で飽きがくるというだけでなく、必ずしも音声メディア
の特徴を有効に利用しているとは言えない。
り韻律や声色の変化が加わることにより、言語表現によ
る直接的なメッセージだけでなく、感情や意図、話者の
状況やノリといった雰囲気など、付加的な情報を副次的
に伝える特徴があることはよく知られている。藤崎他:
“音声の韻律的特徴による発話意図の表現,”日本音響
学会講演論文集,2-8-16,pp.225-226 (1993年 3月)
や、上床他:“音声の感情表現の分析とモデル化,”電
子情報通信学会技術研究報告,SP92-131,pp.65-72 (19
93年 1月)などがその例である。
用アプリケーションはいずれも、文字言語メディアの形
態に表現される言語情報を単に音声メディアの形態の表
現に変換するメディア変換(テキスト音声変換)として
の機能は持っていても、副次的な情報をも伝えるという
音声の特徴をを積極的に利用しているとは言い難い。
はなく、他のシステムとの連携を行い動作する場合や、
1つの応用アプリケーションとしてパーソナルコンピュ
ータやワークステーションなどの汎用的な計算機の上で
他の応用アプリケーションとともに利用される場合にお
いても、ともに動作しているシステムやアプリケーショ
ンなどの状況や、音声合成アプリケーションが動作して
いるシステムがどのような状態にあるかなどの状況によ
らず、与えられたテキストを単に忠実に音声へ変換して
いるに過ぎない。
でその目的は、システムの動作状況(システム状況)、
あるいはユーザ自身の状況(ユーザ状況)やユーザのい
る場所の環境(ユーザ環境)に応じて音韻・韻律制御を
動的に変えたり、さらには入力テキストに対応した本来
の合成音に併せて別の音や合成音を出力することで、ユ
ーザにとってシステムの動作状況が把握しやすいような
システムの出力や、ユーザの置かれている状況に適した
システムの出力が生成でき、使い勝手を向上させること
ができる音声合成システムおよび音声合成方法を提供す
ることにある。
ため、本発明の第1の観点に係る構成は、入力テキスト
の言語解析を行いその解析結果に対して規則を適用して
音韻・韻律的な制御を行い合成音声を生成・出力する音
声合成手段に加えて、計算機内の通信状態、および計算
機と外部の間の通信状態の少なくとも一方を監視し通信
状態情報を出力する通信状態監視手段を備え、上記音声
合成手段にあっては、上記音韻・韻律的な制御において
適用する規則を通信状態監視手段から出力される通信状
態情報に応じて変更するようにしたことを特徴とする。
1の観点に係る構成における音声合成手段に相当する音
声合成手段に加えて、計算機ハードウエアの動作状態、
および計算機ソフトウェアの動作状態の少なくとも一方
を監視し動作状態情報を出力する動作状態監視手段を備
え、上記音声合成手段にあっては、上記音韻・韻律的な
制御において適用する規則を動作状態監視手段から出力
される動作状態情報に応じて変更するようにしたことを
特徴とする。ここで、上記音声合成手段における言語解
析、音韻的な制御、韻律的な制御、および音声波形生成
の少なくとも1つの処理を、上記動作状態情報の示す動
作状態に応じて、通信可能な有線ネットワークもしくは
無線ネットワークで結ばれる複数の計算機ハードウエア
に分担させるようにするとよい。
1の観点に係る構成における音声合成手段に相当する音
声合成手段に加えて、ユーザのシステム利用状況、およ
びユーザのシステム利用環境の少なくとも一方を監視し
ユーザ状況情報を出力するユーザ状況監視手段を備え、
上記音声合成手段にあっては、上記音韻・韻律的な制御
において適用する規則をユーザ状況監視手段から出力さ
れるユーザ状況情報に応じて変更するようにしたことを
特徴とする。ここで、ユーザ状況情報をもとに人間の発
声でないことを明示すべきか否かの判断結果を出力する
非自然音声明示判断手段と、この非自然音声明示判断手
段の判断結果に応じ、上記入力テキストの表現の一部の
変更により人間の音声でないことを明示するテキスト変
更手段、および当該判断結果に応じ、合成音声の出力に
併せて人間の発声でないことを明示する音を出力する非
自然音声明示音出力手段の少なくとも一方とをさらに備
えることも可能である。
声合成手段内で、まず入力テキストに対して形態素解析
や統語構造解析などの周知の言語解析が行われて、形態
素の系列に分解されるとともに「読み」を表す記号列と
形態素の品詞、活用、アクセント型、形態素間の係り受
け関係の強さなどの情報が併せて出力される。
析の結果の内容に対して、それぞれ様々なレベルの規則
(音韻・韻律的規則)を適用することによって、言語メ
ディアから音声メディアへの変換に伴う合成音声の品質
を左右する制御、すなわち音韻・韻律的な制御が行わ
れ、入力テキストに対応する音声波形が生成される。
の稼働する計算機内の通信状態、および計算機と外部の
間の通信状態の少なくとも一方を監視する。それぞれの
通信状態監視結果は、音声合成手段に伝えられる。
果に応じて、上記音韻・韻律的規則の適用内容が変更さ
れる。次に、上記第2の観点に係る構成においても、音
声合成手段内では、入力テキストに対する言語解析の結
果の内容に対して、それぞれ様々なレベルの音韻・韻律
的規則を適用することによって、言語メディアから音声
メディアへの変換に伴う合成音声の品質を左右する音韻
・韻律的な制御が行われ、入力テキストに対応する音声
波形が生成される。
テムの稼働する計算機ハードウエアの動作状態、および
計算機ソフトウェアの動作状態の少なくとも一方を監視
する。それぞれの動作状態監視結果は、音声合成手段に
伝えられる。
果に応じて、上記音韻・韻律的規則の適用内容が変更さ
れる。また、音声合成手段における言語解析、音韻的な
制御、韻律的な制御、および音声波形生成の少なくとも
1つの処理が、動作状態監視結果に応じて、通信可能な
有線ネットワークもしくは無線ネットワークで結ばれる
複数の計算機ハードウエアに分担させられる。
も、音声合成手段内では、入力テキストに対する言語解
析の結果の内容に対して、それぞれ様々なレベルの音韻
・韻律的規則を適用することによって、言語メディアか
ら音声メディアへの変換に伴う合成音声の品質を左右す
る音韻・韻律的な制御が行われ、入力テキストに対応す
る音声波形が生成される。
ステム利用状況、およびユーザのシステム利用環境の少
なくとも一方を監視する。それぞれのユーザ状況監視結
果は、音声合成手段に伝えられる。
結果に応じて、上記音韻・韻律的規則の適用内容が変更
される。また、非自然音声明示判断手段と、テキスト変
更手段および非自然音声明示音出力手段の少なくとも一
方とをさらに備えた構成では、入力テキストの表現の一
部の変更(例えば、入力テキストに対する定型表現の追
加)によって人間の音声でないことを明示するテキスト
変更、あるいは合成音声の出力に併せて人間の発声でな
いことを明示する音の出力がなされる。すなわち、本来
の合成音に併せて別の音や合成音が出力される。
図面を参照して説明する。 [第1の実施形態]図1は本発明の音声合成システムの
第1の実施形態を示すブロック構成図である。
1は、入力テキストの言語解析を行う言語解析部111
と、その解析結果に対して規則を適用して、音韻的な制
御を行う音韻制御部112と韻律的な制御を行う韻律制
御部113と、音韻制御部112および韻律制御部11
3の制御に従い音声波形を生成する波形生成部114
と、生成された波形を出力する波形出力部115とから
構成されている。この音声合成部11の構成の枠組みに
ついては、既存のテキスト音声変換可能な音声合成シス
テムの一般的な構成法がそのまま利用できる。テキスト
音声合成システムの一般的な構成法としては、例えば佐
藤他:“日本語テキストからの音声合成,”電気通信研
究所研究実用化報告,Vol.32,No.11 ,pp.2243-2252
(1983年11月) などが利用できる。
入力テキストに対して形態素解析や統語構造解析などの
言語解析を行い、形態素の系列に分解するとともに「読
み」を表す記号列と形態素の品詞、活用、アクセント
型、形態素間の係り受け関係の強さなどの情報を併せて
出力する。
び韻律制御部113は、これら言語解析部111での言
語解析結果の内容に対して、それぞれ様々なレベルの規
則を適用することによって、言語メディアから音声メデ
ィアへの変換に伴う合成音声の品質を左右する制御を行
う。
わち、未知語へのアクセント付与、アクセント結合、複
合語のアクセント分割、付属語連鎖に対する副次アクセ
ントの付与などが含まれる)、読みの認定(すなわち、
未知語への読み付与、連濁処理、表記から読みへの変換
などが含まれる)、1つの韻律的なまとまりとするため
のいわゆる韻律語(アクセント句)連鎖のまとまりの認
定(すなわち、韻律句境界の付与がこれに相当する)、
韻律制御パラメータ値決定(すなわち、ピッチの時間変
化パターンを生成するモデルのパラメータ値の決定、音
韻・ポーズのタイミングの決定、パワーの決定)、読み
に対応する蓄積パターンの検索および蓄積素片の選択
(すなわち、蓄積単位への変換、検索条件への変換、複
数の検索結果を得たときの選択などが含まれる)、蓄積
素片の編集(すなわち、蓄積素片間の接続、補間加工な
どが含まれる)といった各段階の処理をそれぞれの規則
によって行う。
読みの認定、読みに対応する蓄積パターンの検索および
蓄積素片の選択、蓄積素片の編集を、韻律制御部113
においては、アクセント単位の認定、韻律語(アクセン
ト句)連鎖のまとまりの認定、韻律制御パラメータ値決
定を担当する。これらの各段階の処理や規則は任意の分
類が可能であり、システムの実装形態によって上記の分
類とは異なる場合や省略される場合もあるが、基本的に
はこれらの内容に沿った処理が行われる。また、システ
ムの実装形態によっては、前段の言語解析部111や後
段の波形生成部114との境界も様々であるが、ここで
は、上記の音韻的な制御を行うものとして音韻制御部1
12を、同じく上記の韻律的な制御を行うものとして韻
律制御部113を、それぞれ定義している。
の形態素解析結果にこれらの規則を適用して、形態素系
列の読みに対応する個々の音韻やポーズなどのタイミン
グを決め、形態素系列あるいは読みに対応する音韻の系
列を韻律語(アクセント句)というアクセント付与のた
めの韻律制御上の単位に分割するとともに、意味上の文
構造上や生理的な制約による呼気段落上のまとまりを形
成し、いわゆる韻律句と呼ばれる話調成分付与のための
韻律制御上の単位へ韻律語系列を分割し、各韻律制御上
の単位に対して、タイミングを考慮して、アクセントや
話調の成分の大きさを与えるパラメータ値を決めピッチ
を決定する。韻律制御部113はさらに、形態素系列あ
るいは読みに対応する音韻の系列あるいはピッチなどを
もとにパワー包絡を決定する。
る音韻の部分系列に対して、音声波形、あるいは音声波
形の分析パラメータ、あるいはその両方を対応させた蓄
積素片を格納しておく蓄積データ格納部1121を有し
ており、この蓄積データ格納部1121に格納されてい
る蓄積素片のバリエーションを考慮して、形態素系列の
読みに当たる音韻の部分系列に対応する蓄積素片の系列
を決定する。
112および韻律制御部113で適用される規則は、計
算機内の通信状態や計算機外との間の通信状態に応じて
切り替えられるようになっているが、これについては後
述する。
音韻制御部112の出力する蓄積素片系列を接続し、韻
律制御部113の出力する制御情報、すなわち、タイミ
ング、ピッチ、パワー包絡に従い、信号処理レベルでの
韻律制御を行って、音声波形を生成する。
音声合成部11により生成された音声波形を例えばスピ
ーカーやイヤホーン等から出力する。さて、本実施形態
において、音韻制御部112が持つ蓄積データ格納部1
121に格納される蓄積素片、音韻制御部112で利用
される規則、および韻律制御部113で利用される規則
は、生成したい合成音声の調子に合う自然音声データを
収集しておき、そのデータから予め作成しておいたもの
である。例えば、対話調の音声を合成したい場合は模擬
対話音声を収集したり、ささやき声、早口の声、疲れた
様子の音、元気の良い声、雑踏の中で(あるいは雑踏環
境を模擬したところで)発声した声、落ち着いた声、様
々な人の声をできるだけ大量に収集し、それぞれのピッ
チやパワー、時間長の分析結果から、それぞれの声に対
応した規則や蓄積データを導出する。
る傾向の音韻的・韻律的な特徴を有することは従来から
の研究で指摘されており、様々な音声データから導かれ
た韻律の制御規則が異なる傾向を示すことは、平井他:
“種々の音声コーパスから自動生成されたF0 制御規則
の違いについて,”日本音響学会講演論文集,2-5-3,p
p.271-272 (1994年10月〜11月) においても実際のデー
タとともに示されている。
来から研究例が多数ある。例えば、広瀬他:“音声合成
とアクセント・イントネーション,”電子情報通信学会
誌,Vol.70,No.4,pp.378-385 (1987年 4月)、三村
他:“統計的手法を用いた音声パワーの分析と制御,”
日本音響学会誌,Vol.49,No.2,pp.253-259 (1993年12
月)、海木他:“発話速度による文音声のポーズ長変化
の分析,”日本音響学会講演論文集,1-5-16,pp.247-2
48 (1992年12月) などがあり、規則の抽出に利用でき
る。
則および蓄積素片には、音声合成時に利用するための抽
出環境に関する情報、即ち、対話調であるとか、ささや
き声、早口の声、疲れた様子の声、元気の良い声、雑踏
の中での声、落ち着いた声、などの音声データの収集状
況の情報が付加される。
音韻的・韻律的な制御規則や蓄積データは、本質的に
は、言語的な環境(例えば、形態素、品詞、活用など)
および音韻的・韻律的な環境(例えば、音韻の並び、ア
クセント型とアクセント核、ピッチ、パワー包絡、タイ
ミングなど)と制御内容(例えば、読み記号列、アクセ
ント結合情報、韻律パラメータ値、蓄積素片の選択優先
度など)や音声波形・分析パラメータとの対応として捉
えることができる。
則の抽出環境を加え、抽出した制御規則や蓄積データ
を、言語的な環境、音韻的・韻律的な環境および規則の
抽出環境と、制御内容や音声波形・分析パラメータとの
対応として記述している。
え、さらに、それらを音声合成部11(内の言語解析部
111および音韻制御部112)が適宜選択して使用す
ることにより、合成音声の声の調子にバリエーションを
与えることができる。
部11に加えて、当該音声合成部11での規則選択の条
件を決定するための情報を与える手段として、通信状態
監視部12が設けられている。この通信状態監視部12
は、音声合成システムが稼働する計算機内の通信状態を
監視する計算機内通信状態監視部121と、当該計算機
と外部の間の通信状態を監視する計算機外通信状態監視
部122とを有している。
監視部121は、同一計算機内で動作するソフトウェア
間、ハードウェア間、あるいはソフトウェアとハードウ
ェアの間の通信状況ないしは通信路の品質からなる通信
状態を監視する。説明を簡単にするために、ここでは互
いに通信を行うハードウェアあるいはソフトウェアをそ
れぞれ通信者Aおよび通信者Bと簡略化して表現する。
すなわち通信者Aと通信者Bとの間で通信が行われてい
るものとする。
の間で交わされる通信状態を知るために、この通信を媒
介するソフトウェアないしはハードウェア(便宜的にこ
こでは、通信媒体と呼ぶことにする)に問い合わせ、通
信状況(例えば、情報の送り手、通信量や通信量の時間
的な変化、通信の頻度、送る予定のデータ総量、既に送
ったデータ量など)や通信路の品質(例えば、データ転
送速度やエラー発生頻度など)を通知してもらう。これ
らの通知は、必ずしも問い合わせが必要なわけではな
く、問い合わせがなくても通信媒体側から計算機内通信
状態監視部121に適当なタイミングで通知するように
しても構わない。
ングシステムやオペレーションシステム(以下、OSと
称する)の提供する既存の機能(例えば、メッセージン
グ機能を実現できるWindows のDDE=Dinamic Data E
xchange や、クリップボードを使ったデータの受け渡
し)や、ウィンドウシステムの提供する既存の機能(例
えば、X Window System におけるイベントやセレクショ
ンバッファ、Windows のmessage などが一例である)、
あるいは、サーバ・クライアントモデルで実装された各
種サービスが利用できる。もちろん、既存システムを利
用するだけでなく、同様のメカニズムを持つように新た
なシステムを組むことも可能である。
信状態を知るために、通信媒体を介さずに直接、通信者
Aと通信者Bに問い合わせる仕組みにしてもよい。この
場合、通信者Aおよび通信者Bがそれぞれ持っている、
通信を行う機能を持つ部分(便宜的に、通信部と呼ぶこ
とにする)に対して計算機内通信状態監視部121が問
い合わせ、上記と同様に通信状態を通知してもらう。も
ちろん、上記と同様に、問い合わせがなくても適宜、通
信者Aおよび通信者Bがそれぞれ持っている通信部が計
算機内通信状態監視部121に適当なタイミングで通知
するようにしても構わない。
うにして取得した通信状態に関する情報をもとに、例え
ば、通信量が大きい/小さい、送るべきデータ総量が多
い/少ない、既に通信が済んだデータの割合が大きい/
小さい、データ転送速度が速い/遅いといった情報を通
信状態情報として音声合成部11に送る。これらの情報
は、取得した数値のまま通信状態情報としてもよいし、
計算機内通信状態監視部121内で閾値と比較して離散
的なレベルにまるめて通信状態情報としてもよい。
信状態監視部122は、計算機外との通信状態を監視す
る。この計算機外通信状態監視部122においても、上
記した計算機内通信状態監視部121と同様に、通信媒
体を介して通信状態を取得する構成とすることができ
る。通信媒体としては、同じように、OSやOSの提供
する既存の機能(メッセージング機能)や、ウィンドウ
システムの提供する既存の機能(例えば、イベント)、
あるいは、サーバ・クライアントモデルで実装された各
種サービス(例えば、Network File System やプリンタ
のデーモン等)の他、モデムのように計算機外とのデー
タ通信が可能なデバイスやドライバが利用できる。もち
ろん、既存システムを利用するだけでなく、同様のメカ
ニズムを持つように新たなシステムを組むことも、上記
と同様に可能である。
の)計算機内通信状態監視部121および計算機外通信
状態監視部122からそれぞれ通信状態情報を受け取
り、当該通信状態情報に応じて音韻制御部112および
韻律制御部113においてそれぞれ適用する制御規則や
蓄積データを選択する。
および蓄積データとの対応関係は、音韻制御部112お
よび韻律制御部113に定めておく。例えば、通信量大
あるいは通信の頻度が大きい場合は早口にしたり、非常
に大きい場合には緊迫した声にしたり、逆に、通信量小
あるいは通信の頻度が小さい場合は、ピッチのダイナミ
ックレンジを大きく、落ち着いた声にしたり、ポーズを
多めに挿入したり、ゆったりした声にする。通信残量が
多い場合はのんびりした声に、残り少なくなってくるに
つれ、ピッチを高めにしたり早口にしたりする。通信路
の品質が悪い場合には、元気のない声やピッチに不規則
な揺らぎを重畳させ声質を変える。転送速度が速ければ
軽快な声を、遅ければ重苦しい声にするなどの対応関係
が例として挙げられる。
果に対して音声合成部11(内の言語解析部111およ
び音韻制御部112)において適用する制御規則や蓄積
データを、通信状態監視部12(内の計算機内通信状態
監視部121または計算機外通信状態監視部122)か
ら出力される通信状態情報(の示す通信状態)に応じて
切り替えて(変更して)合成音声を出力することによ
り、ユーザは、合成音声の声の調子から、その時点にお
ける計算機内の通信状態、あるいは計算機外との間の通
信状態を知ることができる。
て、音声合成システムのユーザの好みに応じて変更可能
にしても構わない。また、計算機内通信状態監視部12
1で監視される計算機内の通信状態と、計算機外通信状
態監視部122で監視される計算機外の通信状態のそれ
ぞれについて、独立に対応関係を設定しても構わない。
部12には、計算機内通信状態監視部121および計算
機外通信状態監視部122の両方が設けられているもの
としたが、いずれか一方だけが設けられているものであ
っても構わない。 [第2の実施形態]図2は本発明の音声合成システムの
第2の実施形態を示すブロック構成図である。なお、図
1と同一部分には同一符号を付してある。
1に加えて、計算機ハードウェアの動作状態を監視する
ハードウェア状態監視部221と計算機ソフトウエアの
動作状態を監視するソフ卜ウェア状態監視部222とを
有する動作状態監視部22が設けられている点である。
これに伴い、図2における音声合成部11内(の音韻制
御部112および韻律制御部113)の機能も、以下に
述べるように図1中の音声合成部11(内の音韻制御部
112および韻律制御部113)とは異なるが、便宜上
同一符号を付してある。
監視部221は、音声合成システムの稼働する計算機ハ
ードウェアの動作状態を示すパラメータを直接測定した
り、あるいは、計算機ハードウェアもしくはそのソフト
ウェアドライバに動作状態を問い合わせたり、あるい
は、計算機ハードウェアもしくはそのソフトウェアドラ
イバ自体から適当なタイミングで動作状態を通知される
ことによって、計算機ハードウェアの動作状態を監視す
る。
に供給される電源電圧の高さや安定性、カード、プリン
タ、キーボード、マウス等のデバイス(周辺機器)やネ
ットワークケーブル等、システムに接続されているハー
ドウェアの接続状況(接続されているか否か、さらには
利用可能な状態か否か)を監視する。
うにして取得したハードウェア状態に関する監視結果を
もとに、例えば、電源電圧が十分高い/高い/やや低い
/低い/かなり低い、十分安定している/安定している
/やや不安定/非常に不安定、などにランク分けされる
電源品質に関する情報、あるいは、ハードウェアが利用
可能な状態にある/待機状態にある/接続が切れている
といった動作状態情報を音声合成部11に送る。
じて任意の分類が可能である。また、適当な閾値を設定
し、これと比較して離散的なレベルにまるめてもよい
し、取得した数値のまま動作状態情報としてもよく、上
記の分類に限定されるものではない。
の)ハードウェア状態監視部221から動作状態情報を
受け取り、当該動作状態情報に応じて音韻制御部112
および韻律制御部113においてそれぞれ適用する制御
規則や蓄積データを選択する。
および蓄積データとの対応関係は、前記第1の実施形態
における通信状態情報と選択する制御規則および蓄積デ
ータとの対応関係と同様に、音韻制御部112および韻
律制御部113に定めておく。この対応関係は、例え
ば、品質の高い電源電圧が十分安定して供給されている
場合は通常の韻律制御や声色で合成音声を生成するが、
電源電圧が下がり始めたり不安定な場合には、少し元気
のない声に対応する蓄積データを選択するような規則を
選択したり、ゆったりした口調になるような規則に切り
替えたり、ピッチの上げ下げを弱めたりするような規則
を選択したり、おとなしい声になるような規則を選択し
たりするなどの対応関係が例として挙げられる。もちろ
ん、この対応関係はあくまで例であって、音声合成シス
テムのユーザの好みに応じて変更可能にしても構わな
い。そして、これらの規則の対応関係の変更は、上記と
逆の印象を与えるように選択であっても構わない。
び音韻制御部112では、このような対応関係に従って
選択された規則を用いることで、生成・出力する合成音
声の韻律的・音韻的な品質を制御する。これによりユー
ザは、合成音声の声の調子から、その時点における計算
機ハードウェアの状態を知ることができる。
istants )に代表される可搬型システム(携帯機器)で
は、表示に利用できる面積が小さいことから、システム
の動作状態情報を提示するために割り当てる面積を大き
くとるのは非効率的であるが、過度に小さくすればユー
ザに注意を促すという本来の目的が満足できなくなる可
能性がある。一般に、可搬型のシステムの場合、供給さ
れる電源の安定性は、整備された環境にある固定型のシ
ステムに比較して低いのが普通である。そこで、可搬型
システムにおいて、このような動作状態情報について、
韻律や声質を制御することによって副次的に伝えること
は有効である。電源電圧と同様、ハードウェアの接続状
況も、一般のユーザが普段は比較的意識せず、見落とし
がちであるが、これも接続状況の変化に応じて韻律や声
質に変化を与えれば、ユーザにそれとなく知らせること
ができる。
ア状態監視部222は、音声合成システムの稼働する計
算機のプロセッサ(CPU)やメモリ、ハードディスク
等の計算機資源をある(ターゲットとする)ソフトウェ
ア(プロセス)がどれだけ占有しているか、あるいは、
逆の観点から言えば、あるソフトウェアがどれだけ処理
を待たされているかといった、限られた計算機資源の分
配に起因するソフトウェアの動作状態を監視したり、あ
るソフトウェアが今どのような入力を受け付ける状態に
あるか、例えば、入力デバイスの種類や入力内容の種類
として何が有効であるか、また、あるソフトウェアが今
どのような情報を提示しているか、例えば、提示情報の
出所や提示内容の種類といった動作モード(場面)に対
応するソフトウェアの動作状態を取得する。
フ卜ウェア状態監視部222が、当該ソフトウェアの動
作しているOSに対して問い合わせ、通知してもらうこ
とによって取得したり、当該ソフトウェア自体に、動作
状態を直接問い合わせると通知する通知部(通知機能)
を付加しておくことによって取得する。もちろん、問い
合わせがなくても、ソフトウェア自身がその動作状態を
ソフ卜ウェア状態監視部222に適当なタイミングで通
知する仕組みを用意することも可能である。
情報としては、例えばメモリ使用量やソフトウェア状
態、CPUの占有率や占有時間累計、動作優先度等の情
報が一例として挙げられる。これらの情報は、既存のO
Sのシステムコールやライブラリを利用して取得可能で
ある。また、現在受け付ける入力の種類や提示している
情報の種類を通知する通知部を備えたソフトウェアを新
たに作成してもよい。
モード(場面)に応じて受け付ける入力の種類は動的に
変化する。例えば、メールの送受信を行うメールアプリ
ケーションは、届いたメールのリストを表示する状態、
そのうちの選択されている1つのメールの内容を表示す
る状態、送信したいメールの文面を編集する場面、編集
したメールを送信する場面などがあって、それぞれの場
面によって、同じキー入力が有効になるか無視される
か、有効であった場合にどういう動作をするかが変わっ
てくる。また、音声認識入力を受け付けるソフトウェア
の場合には、今どのような認識語彙が入力可能であるか
といった情報が「受け付けられる入力の種類」に相当
し、さらに、認識語彙だけでなくそれぞれの認識語彙に
対応する動作もソフトウェアの動作モード(場面)に応
じて動的に変化する。
は、誰から送られたメールであるとか、極秘扱いの内容
であるといった、情報の出所や内容を表す情報を文字列
照合や言語解析によって取得し、これらの動作モードや
提示情報の出所や提示内容の種類を動作情報としてソフ
トウェア動作状態監視部222に伝える。ここでは、メ
ールのアプリケーションを例に挙げたが、電子ネット掲
示板や電子ネット上の情報提供システムのように、複数
の情報源からの情報をブラウジングする応用ソフトウェ
アにおいても全く同様のことが適用できる。
うにして取得したソフトウェアの動作状態に関する情報
をもとに、例えば、メモリの占有が大きい/小さい、C
PUの占有時間累計が長い/短い、認識語彙の組合せが
どのセットであるか、どのような動作モードにあるか、
情報の出所はどこか、情報の内容の種類が何であるかを
示す情報を動作状態情報として音声合成部11(内の音
韻制御部112および韻律制御部113)に送る。
視部222からの動作状態情報を受け取ると、音韻制御
部112および韻律制御部113においてそれぞれ適用
する規則や蓄積データを当該動作状態情報に応じて選択
する。これにより、例えばメモリの占有が大きいとか、
CPUの占有時間累計が長い場合には、元気のない声や
申し訳なさそうな声を生成して、システムの状況をユー
ザにそれとなく伝えたり、逆に早口の口調とすることで
ユーザ自らの処理を促したりすることが可能となる。ま
た、情報の出所に応じて、アクセントやフレーズを変え
るための規則を選択し、地域色を音声に反映すること
で、情報の出所の違いをユーザに意識させることが可能
となる。また、情報提供者の声の蓄積データがあれば、
それを使うことで、情報提供者を簡単に判別できるよう
にすることも可能である。また、電話等でリモート操作
する場合や、携帯機器で表示面積が小さい場合に、ある
ソフトウェアが現在どのような入力を受け付ける状態に
あるか(その入力デバイスの種類と入力内容の種類)に
応じて、韻律や声色に変化を与えることで、ユーザは次
に何を入力すべきかや、現在の「場面」を、出力される
合成音声の調子から知ることができる。
作状態情報)と選択する制御規則および蓄積データの対
応関係は、上述した計算機ハードウェアの動作状態情報
と選択する制御規則および蓄積データの対応関係の場合
と同様に、音韻制御部112および韻律制御部113に
定めておく。
果に対して音声合成部11(内の音韻制御部112およ
び韻律制御部113)において適用する制御規則や蓄積
データを、動作状態監視部22(内のハードウェア状態
監視部221またはソフ卜ウェア状態監視部222)か
ら出力される動作状態情報に応じて切り替えて(変更し
て)合成音声を出力することにより、ユーザは、合成音
声の声の調子から、その時点における計算機ハードウェ
アの状態、あるいは計算機ソフトウェアの状態を知るこ
とができる。
では、言語解析部111、音韻制御部112、韻律制御
部113、波形生成部114、および波形出力部115
のそれぞれが単独で動作するようにモジュール化してお
き、互いのデータの授受の形式がネットワークを通じた
ものであっても、同一の実行プロセス内でのデータの授
受でも処理が可能になるようにしてある。また、上記各
部の全体の処理手続きおよびその部分的な処理手続きが
互いに別のプロセスとして分離可能にしておき、分離さ
れたプロセスは、処理結果を元のプロセスに返すように
しておく。このようなシステムの実装は、マルチタスク
OS上ならば、子プロセスの生成と子プロセスとのソケ
ット通信などのシステムコール、ライブラリを用いて容
易に実装可能である。
ら動作状態情報を受け取ると、メモリの残量やCPUの
占有時間や占有率から判断して、当該音声合成部11を
構成する言語解析部111から波形出力部115に至る
音声合成処理を進めるに当たってメモリやCPU能力な
ど十分な計算機資源が確保されているか否かをチェック
する。そして音声合成部11では、メモリが不足する可
能性がある場合や、CPUの負荷状況から十分な計算機
資源が確保できないと判断される場合には、現在までに
処理が進んでいる段階よりも後の処理のうち適当なもの
を別の計算機ハードウェアに別プロセスとして分担さ
せ、処理結果を受け取るようにする。
に必要なCPU能力やメモリ量から判断するが、これは
音声合成方式の種類や蓄積データの規模によって変わる
ものである。例えば、分析パラメータ合成方式の場合
は、波形生成部114における信号処理、次いで音韻制
御部112における蓄積データの編集加工の処理に資源
が多く使われ、波形素片編集型の音声合成方式では、蓄
積データの検索がCPUパワーを最も要する。分析パラ
メータ合成方式においても、蓄積データが持つ蓄積素片
の種類が多いほど蓄積データの検索時間は多くかかる。
したがって、どの処理を分担させるかは、合成方式や蓄
積データの規模によって適当な優先順位をつけて、それ
に従って分担させる処理を決めればよい。
韻・韻律的な制御における規則の適用は、いずれも多く
の規則適用の可能性を数え上げ、その規則を適用した場
合の結果を評価することによって、処理が進められる。
これらの処理を1つの計算機上で順次実行するのは必ず
しも効率的でなく、規則の適用可能性と規則適用を仮定
した場合の評価を同時並行して処理する方が効率的であ
る。適用される規則が固定的であれば、ある程度チュ−
ニングすることにより順次処理をさせることによって問
題は比較的顕れにくくすることも可能であるが、本発明
のように適用される規則が動的に変更される場合には、
同時並行的な処理をする方が効率的である。
可能性と規則適用を仮定した場合の評価を同時並行して
処理するようにしている。この並行処理は、計算機が接
続されたネットワーク上の他の計算機にリモートプロセ
スとして実行させたり、同じ計算機上の副プロセッサに
分担させることもできる。
成部11を構成する言語解析部111から波形出力部1
15に至る音声合成処理を進める上で、動作状態監視部
32からの動作状態情報により十分な計算機資源が確保
できないと判断される場合には、現在までに処理が進ん
でいる段階よりも後の処理のうち適当なものを別の計算
機ハードウェアに別プロセスとして分担させたり、言語
解析や音韻・韻律的な制御における規則の適用可能性と
規則適用を仮定した場合の評価を、計算機が接続された
ネットワーク上の他の計算機や同じ計算機上の副プロセ
ッサに分担させて同時並行して処理させることで、効率
的な処理を実現し、ユーザの待ち時間を減らすようにし
ている。
部22には、ハードウェア状態監視部221およびソフ
卜ウェア状態監視部222の両方が設けられているもの
としたが、いずれか一方だけが設けられているものであ
っても構わない。 [第3の実施形態]図3は本発明の音声合成システムの
第3の実施形態を示すブロック構成図である。なお、図
1と同一部分には同一符号を付してある。
1に加えて、ユーザのシステム利用状況を監視する利用
者状態監視部321と、ユーザのシステム利用環境を監
視する利用者環境監視部322とを有するユーザ状況監
視部32が設けられている点である。これに伴い、図3
における音声合成部11内(の音韻制御部112および
韻律制御部113)の機能も、以下に述べるように図1
中の音声合成部11(内の音韻制御部112および韻律
制御部113)とは異なるが、便宜上同一符号を付して
ある。
部321は、ユーザのシステムの利用状況(利用者状
態)を得るための入力デバイスや時計、利用履歴の少な
くとも1つからの情報を監視し、例えばユーザがどの程
度集中してシステムを利用しているかといったシステム
利用状況監視結果を取得する。入力デバイスとしては、
例えば、カメラなどが利用できる。カメラの捉えたユー
ザの頭の向きを精度よく推定することは可能であり、あ
る一定時間中にどの程度長く安定してシステムの方向
(正面)を向いているのか否か(他を向いているか)を
もって、ユーザの集中度として評価する。また、マウス
に代表されるポインティングデバイス、キーボード等、
ユーザの入力操作のための入力デバイスについて、ユー
ザの操作状況(入力操作頻度、入力操作時間、ポインテ
ィングデバイス移動速度・距離など)を監視することも
可能である。この他、時計、利用履歴については、同じ
曜日、同じ時間帯にどのような利用状況にあったかを記
録しておくことで、利用状況の推定精度を高めるのに用
いられる。
て取得したユーザのシステム利用状況に関する情報をも
とに、ユーザの集中度や、ユーザの操作状況を示す情報
をユーザ状況情報として音声合成部11(内の音韻制御
部112および韻律制御部113)に送る。
21からのユーザ状況情報を受け取ると、音韻制御部1
12および韻律制御部113においてそれぞれ適用する
規則や蓄積データを当該ユーザ状況情報に応じて選択す
る。これにより、例えば集中度が予め定めた閾値以下の
場合には、パワーを大きくしたり、文頭では発話速度が
小さく(遅く)なるような規則を適用することで、ユー
ザに集中するように注意を促すことが可能となる。
境監視部322は、ユーザがシステムを利用している場
所の環境(利用者環境)を得るための入力デバイスや時
計、利用履歴の少なくとも1つからの情報を監視し、例
えばユーザがどのような音環境(周囲雑音環境)下に居
るかとか、どの程度の明るさの場所に居るかとか、ユー
ザの物理的な居場所(位置)といったシステム利用環境
監視結果を出力する。このような入力デバイスとして、
例えば、周囲雑音を集音するマイクロフォンや、GPS
などの位置推定デバイス、さらには明るさセンサ、カメ
ラ、ガスセンサ、水センサなどが挙げられる。この他、
時計、利用履歴については、同じ曜日、同じ時間帯にど
のような利用環境にあったかを記録しておくことで、利
用環境の推定精度を高めるのに用いられる。
て取得したユーザのシステム利用環境に関する情報をも
とに、周囲雑音のスペクトル特徴やレベル、明るさ、ユ
ーザの居場所(位置)等を示す情報をユーザ状況情報と
して音声合成部11(内の音韻制御部112および韻律
制御部113)に送る。
22からのユーザ状況情報を受け取ると、音韻制御部1
12および韻律制御部113においてそれぞれ適用する
規則や蓄積データを当該ユーザ状況情報に応じて選択す
る。これにより、例えば高周波数成分に優勢な雑音があ
る場合には、はっきり聞こえるように高いピッチの声に
なるように韻律制御規則を適用したり高周波数成分の優
勢な蓄積素片を選択するように音韻制御規則を適用する
とか、雑音レベルが低い静かなところでは、静かな声あ
るいは落ち着いた声になるような規則を適用することが
できる。また、明るい場所で利用する際はピッチが高め
で発話速度が早くなるように、暗い場所で利用する際に
は発話速度を遅く、ピッチのダイナミックレンジは広く
なるように韻律規則を適用することで、明るい場所に比
較して暗い場所では比較的落ちついた印象を与えること
もできる。このような対応関係は、ユーザの好みに応じ
て変更可能としても構わない。
視部32には、利用者状態監視部321および利用者環
境監視部322の両方が設けられているものとしたが、
いずれか一方だけが設けられているものであっても構わ
ない。 [第4の実施形態]図4は本発明の音声合成システムの
第4の実施形態を示すブロック構成図である。なお、図
3と同一部分には同一符号を付してある。
(の音声合成部11およびユーザ状況監視部32)に加
えて、非自然音声明示判断部41と、テキスト変更部4
2が設けられている点である。これに伴い、図4におけ
る音声合成部11(内の言語解析部111等)の機能
も、以下に述べるように図3中の音声合成部11(内の
言語解析部111等)とは異なるが、便宜上同一符号を
付してある。
状況監視部32の出力するユーザ状況情報をもとに、人
間の発声でないこと(非自然音声であること)を明示す
べきか否かを判断し、その判断結果(非自然音声明示判
断結果)を出力する。例えば、ユーザ状況情報において
ユーザが集中していないことを示している場合や、これ
まであまり合成音声の出力をしたことのない時間帯や場
所であることを示している場合には、人間の発声でない
ことを明示すべきであるという判断結果を出力する。
部41からの非自然音声明示判断結果を受け取り、当該
判断結果が人間の発声でないことを明示すべきことを示
している場合には、入力テキストに対応する合成音声の
出力に先立ち(すなわち、言語解析部111での入力テ
キストに対する言語解析結果を音韻制御部112および
韻律制御部113に出力して、対応する音声波形を生成
・出力させるのに先立ち)、音声合成によるメッセージ
出力が始まることを予告する「合成音です」「システム
からのお知らせです」などの定型表現を前置する。音声
合成部11は、このテキスト変更部42によって前置さ
れた語彙を含めて合成出力する。
いない場合や、これまであまり合成音声の出力をしたこ
とのない時間帯や場所での利用の場合に、音声合成によ
るメッセージ出力が始まることを予告する(非自然音声
であることを明示する)合成音を、入力テキストに対応
する合成音声の出力に先立って出力することで、そのよ
うな状況をユーザに知らせることができる。特に、高品
質で肉声に近い合成音声が出力される状況では、人の声
がする利用者環境のもとでの利用の場合に、非自然音声
であることを明示する合成音を前置することで、周囲の
人の声と紛らわしくしないとか、非自然音声であること
を明示しないことで、合成音であることを強調して注意
を集めるのを避けることが可能である。 [第5の実施形態]図5は本発明の音声合成システムの
第5の実施形態を示すブロック構成図である。なお、図
4と同一部分には同一符号を付してある。
テキスト変更部42に代えて、人間の発声でないことを
明示する音(非自然音声明示音)を出力する非自然音声
明示音出力部43が設けられている点である。これに伴
い、図4における音声合成部11の機能も、例えば当該
音声合成部11内の波形出力部115が、波形生成部1
14により生成される合成音声と、非自然音声明示音出
力部43の生成する非自然音声明示音とを混合する機能
を有しているというように、図4中の音声合成部11
(内の波形出力部115等)とは異なるが、便宜上同一
符号を付してある。
自然音声明示判断部41から出力される非自然音声明示
判断結果が人間の発声でないことを明示すべきことを示
している場合には、入力テキストに対応する合成音声の
出力に先立ち、例えば「ピ」といった信号音(非自然音
声明示音)を出力する。この信号音は、音韻制御部11
2および韻律制御部113による音韻・韻律的な制御に
従って波形生成部114により生成される合成音声の出
力に先立ち、波形出力部115によって出力される。
場合や、これまであまり合成音声の出力をしたことのな
い時間帯や場所での利用の場合に、例えば「ピ」という
非自然音声明示音を、入力テキストに対応する合成音声
の出力に先立って出力することで、人間の発した声では
なく合成音声によるメッセージであることを明示してユ
ーザに対して注意を促すことができる。
部42を加え、このテキスト変更部42と非自然音声明
示音出力部43の両方を備えた構成とすることも可能で
ある。 [第6の実施形態]図6は本発明の音声合成システムの
第6の実施形態を示すブロック構成図である。なお、図
1と同一部分には同一符号を付してある。
(の音声合成部11および通信状態監視部12)に加え
て、図4に示したような入力テキストの変更を行うテキ
スト変更部42が設けられている点である(但し、テキ
スト変更の内容が、図4の例とは異なる)。これに伴
い、音声合成部11内(の言語解析部111等)の機能
も、以下に述べるように図1中の音声合成部11(内の
言語解析部111等)とは異なるが、便宜上同一符号を
付してある。
音声合成部11内の言語解析部111は、通信状態監視
部12から通信状態情報を受け取ると、当該情報をテキ
スト変更部42に渡して起動する。
111と連絡をとりながら、言語解析部111により言
語解析されている入力テキストに通信状態情報に応じた
定型表現の語彙を挿入して当該テキストを変更する。す
なわちテキスト変更部42は、音声合成部11内の音韻
制御部112および韻律制御部113の処理の先頭にお
いて、あるいは、韻律制御部113の処理の途中におい
てポーズ挿入位置を決めた段階において、文頭や文末、
あるいはポーズ挿入位置に、通信状態情報によって決ま
る定型表現の語彙を挿入する。音声合成部11は、この
テキスト変更部42によって挿入された語彙を含めて合
成出力する。
報に応じたテキスト変更処理により、例えば、通信量大
のとき(通信が混んでいるとき)には、「あ」「えー
と」「えー」「はい」などの不要語を文頭や文末、ある
いはポーズ挿入位置に挿入したり、「ちょっと待って」
などのメッセージを文頭に前置することができる。この
ような決まった語彙(あらかじめ設定されている語彙)
を挿入することによって、処理時間をかせぎ合成音声の
処理による負荷を低減する効果がある。また、逆に通信
量小のときには、上記と同様の不要語を挿入すれば、シ
ステムがアイドル状態であることをユーザにそれとなく
示すという効果がある。
42は、通信状態監視部12からの通信状態情報を音声
合成部11を通して受け取るものとしているが、通信状
態監視部12から直接受け取るようにしても構わない。 [第7の実施形態]図7は本発明の音声合成システムの
第7の実施形態を示すブロック構成図である。なお、図
2と同一部分には同一符号を付してある。
(の音声合成部11および動作状態監視部22)に加え
て、図6に示したようなテキスト変更部42が設けられ
ている点である。これに伴い、図7における音声合成部
11内(の言語解析部111等)の機能も、以下に述べ
るように図2中の音声合成部11(内の言語解析部11
1等)とは異なるが、便宜上同一符号を付してある。
音声合成部11内の言語解析部111は、動作状態監視
部22からシステムの動作状態情報を受け取ると、当該
情報をテキスト変更部42に渡して起動する。
111と連絡をとりながら、言語解析部111により言
語解析されている入力テキストに動作状態情報に応じた
定型表現の語彙を挿入する。すなわちテキスト変更部4
2は、音声合成部11内の音韻制御部112および韻律
制御部113の処理の先頭において、あるいは、韻律制
御部113の処理の途中においてポーズ挿入位置を決め
た段階において、文頭や文末、あるいはポーズ挿入位置
に、動作状態情報によって決まる定型表現の語彙を挿入
する。音声合成部11は、このテキスト変更部42によ
って挿入された語彙を含めて合成出力する。
報に応じたテキスト変更処理により、例えば、CPUが
長時間占有されているときには、「あ」「えーと」「え
ー」「はい」などの不要語を文頭や文末、あるいはポー
ズ挿入位置に挿入することができる。このような決まっ
た語彙を挿入することによって、処理時間をかせぎ合成
音声の処理による負荷を低減する効果がある。
42は、動作状態監視部22からの動作状態情報を音声
合成部11を通して受け取るものとしているが、動作状
態監視部22から直接受け取るようにしても構わない。 [第8の実施形態]図8は本発明の音声合成システムの
第8の実施形態を示すブロック構成図である。なお、図
3と同一部分には同一符号を付してある。
(の音声合成部11およびユーザ状況監視部32)に加
えて、図6に示したようなテキスト変更部42が設けら
れている点である。これに伴い、図8における音声合成
部11内(の言語解析部111等)の機能も、以下に述
べるように図3中の音声合成部11(内の言語解析部1
11等)とは異なるが、便宜上同一符号を付してある。
音声合成部11内の言語解析部111は、ユーザ状況監
視部32からユーザ状況情報を受け取ると、当該情報を
テキスト変更部42に渡して起動する。
111と連絡をとりながら、言語解析部111により言
語解析されている入力テキストにユーザ状況情報に応じ
た定型表現の語彙を挿入する。すなわちテキスト変更部
42は、音声合成部11内の音韻制御部112および韻
律制御部113の処理の先頭において、あるいは、韻律
制御部113の処理の途中においてポーズ挿入位置を決
めた段階において、文頭や文末、あるいはポーズ挿入位
置に、ユーザ状況情報によって決まる定型表現の語彙を
挿入する。音声合成部11は、このテキスト変更部42
によって挿入された語彙を含めて合成出力する。
報に応じたテキスト変更処理により、例えば、ユーザが
集中していないときには、「あの」などの人に声をかけ
る語彙を文頭に設定することで、ユーザに注意を促すこ
とができる。
42は、ユーザ状況監視部32からのユーザ状況情報を
音声合成部11を通して受け取るものとしているが、ユ
ーザ状況監視部32から直接受け取るようにしても構わ
ない。
語情報の持つメッセージとしての直接的な情報伝達だけ
でなく、音声合成機能を含む、システム全体の状況をそ
れとなく示す、音声メディアの持つ副次的な情報伝達機
能を利用し、使い勝手のよいシステム構築が可能にな
る。また、ユーザの利用状況に応じた合成音声出力が可
能となる。
テム内部の状態をユーザに伝えることはユーザインタフ
ェースの観点からも重要である。言語メッセージ伝達と
しての主目的としての利用と同時に、システムがどのよ
うな動作状況にあるかをそれとなくユーザに伝えること
は、音声メディアの利用形態として適切なものであると
いえる。
な出力と併用することでその効果を高めることも可能で
あるだけでなく、PDAに代表される携帯機器のように
表示部の面積が小さい場合には、メッセージを、主に音
声メディアによって伝えるようにすれば、メッセージ表
示による画面の面積の占有を抑えることが可能になる。
や声色を制御することにより、より自然なシステム出力
が可能になる。それは、状況を考慮せず単調な合成音声
を出力しないようにするというだけでなく、高品質で肉
声に近い合成音声が増えるような状況では、逆に合成音
声であることを明らかにして、音声としては不自然さは
あっても、機械とのコミュニケーションとしては自然な
やりとりが可能になる。
示すブロック構成図。
示すブロック構成図。
示すブロック構成図。
示すブロック構成図。
示すブロック構成図。
示すブロック構成図。
示すブロック構成図。
示すブロック構成図。
Claims (7)
- 【請求項1】 入力テキストの言語解析を行いその解析
結果に対して規則を適用して音韻・韻律的な制御を行い
合成音声を生成・出力する音声合成手段と、 計算機内の通信状態、および計算機と外部の間の通信状
態の少なくとも一方を監視し通信状態情報を出力する通
信状態監視手段とを具備し、 前記音声合成手段は、前記音韻・韻律的な制御において
適用する規則を前記通信状態監視手段から出力される前
記通信状態情報に応じて変更するように構成されている
ことを特徴とする音声合成システム。 - 【請求項2】 入力テキストの言語解析を行いその解析
結果に対して規則を適用して音韻・韻律的な制御を行い
合成音声を生成・出力する音声合成手段と、 計算機ハードウエアの動作状態、および計算機ソフトウ
ェアの動作状態の少なくとも一方を監視し動作状態情報
を出力する動作状態監視手段とを具備し、 前記音声合成手段は、前記音韻・韻律的な制御において
適用する規則を前記動作状態監視手段から出力される前
記動作状態情報に応じて変更するように構成されている
ことを特徴とする音声合成システム。 - 【請求項3】 前記音声合成手段における言語解析、音
韻的な制御、韻律的な制御、および音声波形生成の少な
くとも1つの処理を、前記動作状態情報の示す動作状態
に応じて、通信可能な有線ネットワークもしくは無線ネ
ットワークで結ばれる複数の計算機ハードウエアに分担
させることを特徴とする請求項2記載の音声合成システ
ム。 - 【請求項4】 入力テキストの言語解析を行いその解析
結果に対して規則を適用して音韻・韻律的な制御を行い
合成音声を生成・出力する音声合成手段と、 ユーザのシステム利用状況、およびユーザのシステム利
用環境の少なくとも一方を監視しユーザ状況情報を出力
するユーザ状況監視手段とを具備し、 前記音声合成手段は、前記音韻・韻律的な制御において
適用する規則を前記ユーザ状況監視手段から出力される
前記ユーザ状況情報に応じて変更するように構成されて
いることを特徴とする音声合成システム。 - 【請求項5】 前記ユーザ状況情報をもとに人間の発声
でないことを明示すべきか否かの判断結果を出力する非
自然音声明示判断手段をさらに具備するとともに、 前記非自然音声明示判断手段の判断結果に応じ、前記入
力テキストの表現の一部の変更により人間の音声でない
ことを明示するテキスト変更手段、および前記非自然音
声明示判断手段の判断結果に応じ、合成音声の出力に併
せて人間の発声でないことを明示する音を出力する非自
然音声明示音出力手段の少なくとも一方をさらに具備す
ることを特徴とする請求項4記載の音声合成システム。 - 【請求項6】 入力テキストの言語解析を行いその解析
結果に対して規則を適用して音韻・韻律的な制御を行い
合成音声を生成・出力する音声合成方法であって、 計算機内の通信状態、および計算機と外部の間の通信状
態の少なくとも一方、計算機ハードウエアの動作状態、
および計算機ソフトウェアの動作状態の少なくとも一
方、または、ユーザのシステム利用状況、およびユーザ
のシステム利用環境の少なくとも一方を監視し、その監
視結果に応じて、前記音韻・韻律的な制御において適用
する規則を変更するようにしたことを特徴とする音声合
成方法。 - 【請求項7】 入力テキストの言語解析を行いその解析
結果に対して規則を適用して音韻・韻律的な制御を行い
合成音声を生成・出力する音声合成方法であって、 計算機内の通信状態、および計算機と外部の間の通信状
態の少なくとも一方、計算機ハードウエアの動作状態、
および計算機ソフトウェアの動作状態の少なくとも一
方、または、ユーザのシステム利用状況、およびユーザ
のシステム利用環境の少なくとも一方を監視し、その監
視結果に応じて、前記音韻・韻律的な制御において適用
する規則を変更するとともに、前記入力テストに対応す
る合成音に併せて別の音または合成音の少なくとも一方
を出力するようにしたことを特徴とする音声合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23583595A JP3595041B2 (ja) | 1995-09-13 | 1995-09-13 | 音声合成システムおよび音声合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23583595A JP3595041B2 (ja) | 1995-09-13 | 1995-09-13 | 音声合成システムおよび音声合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0981174A true JPH0981174A (ja) | 1997-03-28 |
JP3595041B2 JP3595041B2 (ja) | 2004-12-02 |
Family
ID=16991975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP23583595A Expired - Fee Related JP3595041B2 (ja) | 1995-09-13 | 1995-09-13 | 音声合成システムおよび音声合成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3595041B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11237971A (ja) * | 1998-02-23 | 1999-08-31 | Nippon Telegr & Teleph Corp <Ntt> | 音声応答装置 |
WO2000063878A1 (fr) * | 1999-04-19 | 2000-10-26 | Fujitsu Limited | Codeur de parole, processeur de parole et procede de traitement de la parole |
JP2006208600A (ja) * | 2005-01-26 | 2006-08-10 | Brother Ind Ltd | 音声合成装置及び音声合成方法 |
US8214216B2 (en) | 2003-06-05 | 2012-07-03 | Kabushiki Kaisha Kenwood | Speech synthesis for synthesizing missing parts |
JP2013072957A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 文書読み上げ支援装置、方法及びプログラム |
JP2014174485A (ja) * | 2013-03-12 | 2014-09-22 | Panasonic Corp | 情報通信端末、およびその対話方法 |
JP2016027415A (ja) * | 2015-09-15 | 2016-02-18 | 株式会社東芝 | 文書読み上げ支援装置、方法及びプログラム |
WO2018211750A1 (ja) * | 2017-05-16 | 2018-11-22 | ソニー株式会社 | 情報処理装置および情報処理方法 |
WO2019106902A1 (ja) * | 2017-11-30 | 2019-06-06 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
CN112771607A (zh) * | 2018-11-14 | 2021-05-07 | 三星电子株式会社 | 电子设备及其控制方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018030149A1 (ja) * | 2016-08-09 | 2018-02-15 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6120009B2 (ja) * | 1983-06-30 | 1986-05-20 | Fujitsu Ltd | |
JPS6349242B2 (ja) * | 1984-11-20 | 1988-10-04 | Fujitsu Ltd | |
JPH02210497A (ja) * | 1989-02-10 | 1990-08-21 | Ricoh Co Ltd | 音声合成装置 |
JPH02293900A (ja) * | 1989-05-09 | 1990-12-05 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JPH07104778A (ja) * | 1993-10-07 | 1995-04-21 | Fuji Xerox Co Ltd | 感情表出装置 |
JPH07219576A (ja) * | 1994-02-04 | 1995-08-18 | Fujitsu Ltd | 音声合成システム |
-
1995
- 1995-09-13 JP JP23583595A patent/JP3595041B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6120009B2 (ja) * | 1983-06-30 | 1986-05-20 | Fujitsu Ltd | |
JPS6349242B2 (ja) * | 1984-11-20 | 1988-10-04 | Fujitsu Ltd | |
JPH02210497A (ja) * | 1989-02-10 | 1990-08-21 | Ricoh Co Ltd | 音声合成装置 |
JPH02293900A (ja) * | 1989-05-09 | 1990-12-05 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JPH07104778A (ja) * | 1993-10-07 | 1995-04-21 | Fuji Xerox Co Ltd | 感情表出装置 |
JPH07219576A (ja) * | 1994-02-04 | 1995-08-18 | Fujitsu Ltd | 音声合成システム |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11237971A (ja) * | 1998-02-23 | 1999-08-31 | Nippon Telegr & Teleph Corp <Ntt> | 音声応答装置 |
WO2000063878A1 (fr) * | 1999-04-19 | 2000-10-26 | Fujitsu Limited | Codeur de parole, processeur de parole et procede de traitement de la parole |
US8214216B2 (en) | 2003-06-05 | 2012-07-03 | Kabushiki Kaisha Kenwood | Speech synthesis for synthesizing missing parts |
JP2006208600A (ja) * | 2005-01-26 | 2006-08-10 | Brother Ind Ltd | 音声合成装置及び音声合成方法 |
JP2013072957A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 文書読み上げ支援装置、方法及びプログラム |
JP2014174485A (ja) * | 2013-03-12 | 2014-09-22 | Panasonic Corp | 情報通信端末、およびその対話方法 |
JP2016027415A (ja) * | 2015-09-15 | 2016-02-18 | 株式会社東芝 | 文書読み上げ支援装置、方法及びプログラム |
WO2018211750A1 (ja) * | 2017-05-16 | 2018-11-22 | ソニー株式会社 | 情報処理装置および情報処理方法 |
JPWO2018211750A1 (ja) * | 2017-05-16 | 2020-03-19 | ソニー株式会社 | 情報処理装置および情報処理方法 |
US11138991B2 (en) | 2017-05-16 | 2021-10-05 | Sony Corporation | Information processing apparatus and information processing method |
WO2019106902A1 (ja) * | 2017-11-30 | 2019-06-06 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JPWO2019106902A1 (ja) * | 2017-11-30 | 2020-12-03 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US11302344B2 (en) | 2017-11-30 | 2022-04-12 | Sony Corporation | Information processing apparatus, information processing method, and program |
CN112771607A (zh) * | 2018-11-14 | 2021-05-07 | 三星电子株式会社 | 电子设备及其控制方法 |
Also Published As
Publication number | Publication date |
---|---|
JP3595041B2 (ja) | 2004-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108962219B (zh) | 用于处理文本的方法和装置 | |
US5966691A (en) | Message assembler using pseudo randomly chosen words in finite state slots | |
US9767789B2 (en) | Using emoticons for contextual text-to-speech expressivity | |
US8027837B2 (en) | Using non-speech sounds during text-to-speech synthesis | |
US7113909B2 (en) | Voice synthesizing method and voice synthesizer performing the same | |
US20030167167A1 (en) | Intelligent personal assistants | |
JP3224000B2 (ja) | テキスト−音声変換システム | |
JP4884212B2 (ja) | 音声合成装置 | |
US6549887B1 (en) | Apparatus capable of processing sign language information | |
US11989976B2 (en) | Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs | |
JP2007102787A (ja) | インスタント・メッセージを可聴音信号によって注釈付けする方法、システム及びプログラム | |
JP2007272773A (ja) | 対話型インターフェイス制御システム | |
JP2003530654A (ja) | キャラクタのアニメ化 | |
WO2003073417A2 (en) | Intelligent personal assistants | |
KR20100129122A (ko) | 텍스트 기반 데이터를 애니메이션으로 재생하는 애니메이션 시스템 | |
US11404063B2 (en) | Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs | |
JP3595041B2 (ja) | 音声合成システムおよび音声合成方法 | |
US20210005218A1 (en) | Nonverbal information generation apparatus, method, and program | |
Pauletto et al. | Exploring expressivity and emotion with artificial voice and speech technologies | |
US20080243510A1 (en) | Overlapping screen reading of non-sequential text | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
US20210370519A1 (en) | Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs | |
JP2004023225A (ja) | 情報通信装置およびその信号生成方法、ならびに情報通信システムおよびそのデータ通信方法 | |
JP2003099089A (ja) | 音声認識・合成装置および方法 | |
Campbell | Towards conversational speech synthesis; lessons learned from the expressive speech processing project. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040902 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070910 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100910 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110910 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |