JPH03273430A

JPH03273430A - 音声出力付対話システム

Info

Publication number: JPH03273430A
Application number: JP2072131A
Authority: JP
Inventors: Yoichi Takebayashi; 洋一竹林; Shieehan Kurisu; クリス　シェーハン; Yasuki Yamashita; 泰樹山下
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1990-03-23
Filing date: 1990-03-23
Publication date: 1991-12-04

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の目的〕（産業上の利用分野）本発明は人間と計算機が相互にコミニュケーシ璽ンを行
うための音声メディアを用いた音声出力付対話システム
に関する。

（従来の技術）音声合成の技術は、従来から音声情報を圧縮して記憶す
る鐘音再生方式（分析合成方式）と、言語情報（テキス
ト情報）を音声に変換する音声規則合成（文−音声変換
方式）について多くの研究開発が成されてきた。そして
、実用にも耐えうる装置が利用できるに至ったが、あく
まで文レベルで明瞭性や了解性のある音声が合成できる
だけのいわゆる音読器であり、人間と計算機の対話（イ
ンタラクシ−Ｉ／）の観点からの考慮はなされていない
。従って、マンマシンインタフェースとしての重要性は
さほど大きくなく、通常の計算機の出力装置としてＣＲ
Ｔ表示装置のようには普及していない。

一方、対話システムとして音のメディアが、視覚情報（
グラフィック情報）と異質の相補的性格を有するため、
次第に検討されてきている。ディジタルオーディオの普
及もあってパーンナルコンピュータやワークステージ璽
ンにオーディオインタフェースが装備されるようになり
、ブザー音や他の音声以外の音が糧々のメツセージとし
て使われてきている。しかし、音声に比べて情報量が少
ないので、表現力が乏しく単純な情報の伝達に限られて
いるのが現状である。

また、ハードウェア的にマルチメディア化が進展し、Ａ
Ｉ技術やパターン認識技術を取り入れたヒコ、−マンイ
ンタフェースが実現可能となったが、音声メディア、音
メディアの生成に関しては上述したように、巣にテキス
トを音声に変換するたけの機能ｆ：、ｉするた−め原稿
の読合せや単純なメツセージとし、１使われている忙す
ぎない。換言すると、現状の対話システムでは、自然で
、快適なヒエ−マンインタフェースとし、て計算機と人
間との対話を支援していないので、計算機のユーザは、
計算機の内部状態や対話の際の自分の置かれている状況
が分かりずらく、使用法の習熟に努めたり、使用中にメ
ツセージを通じて苦労して状況を理解しているのが現状
である。

（発明が解決しようとする課題〕上述したように、従来の音声インタフェースや音インタ
フェースは、テキスト合成（音声規則合成）に代表され
るメディア変換やあるいは音による単純なメツセージな
どが用麿られているが、人間の最吃自然な対話手段であ
るインタラクシ■ンあるいは対話性という音声の利点を
十分に活用しているとはいえない。これが音声合成の実
用化拡大を妨げている。

本発明は上記に鑑みて成されたものであシ、その目的と
するところは、音声の有する非言語音的な”ああ′　゛
ええ＃　１ん−”う−ん″“む−”等の言葉というより
も音に近い性質の非言語音声（声的感動詞）を合成する
手段を提供することである。これにより計算機側から微
妙な詳しい状況をユーザに手短に伝える手段を提供し、
人間と計算機との対話を円滑に能率的に進めることが可
能となる。

〔発明の構成〕

（課題を解決するための手段）上記目的を達成するため、本発明の音声出力付対話シス
テムは、人間と計算機の対話の際のメツセージをモデル
化して考え、ユーザから計算機へ■入力（人間から計算
機へのメツセージ）Ｋ対する計算機からユーザへのメツ
セージを例えば、１同意”疑い″　°受け流し″　゛割
シ込み”“驚き１の工種類に分類する。これらを計算機
意図表現と呼びこれに対する程度を示す数値的尺度とし
て計算機意図尺度を具備し、ユーザの入力の応答に対し
て計算機意図尺度を決定する手段を有し、この計算機意
図尺度に応じて音声の言語的（音韻的）内容と接続時間
を決定し、非言語音声及び文音声を合成するのが本発明
による音声出力付対話システムである。すなわち人間と
計算機の対話を円滑に快適に行うため、音声の有する非
言語的性質を利用する手段を提供するように対話をモデ
ル化して、計算機の意図の尺度を表現する機構全具備し
、これに応じて手短な非言語音声を合成するものである
。

（作用〕本発明によれば人間と計算機の対話のモデルを基本とし
て、音声合成を行うため、ユーザの入力に対して計算機
側からの出力が非言語音声を用いて短時間に的確に伝達
できるため、円滑、快適、スピーデイ−な対話が可能と
なる。このため、従来の音読器の応用に加え音声合成の
応用が拡大し、人間と計算機との対話の自然性が増加す
る。

（実施例）以下、図面を参照しながら本発明の実施例について説明
する。

第１図は、本発明による音声出力付対話システムの概略
構成図である。

第１囚の本発明による音声出力付対話システムでは、ユ
ーザの入力として、アルファベット、数字、ひらがな等
のキー人力、マウス入力、音声入力等の種々のメディア
いずれか、または、複数をデータ入力部１を介して計算
機に入力する。この入力データ、すなわちユーザから計
算機に対するメツセージ入力は、計算機に対するコマン
ドであったり、文書データであったり、あるいは音声認
識システムへの入力等でオシ、続く解析処理部２への入
力となる。

解析処理部２では、上記の様な様々な処理を行い、対話
システムとしてユーザに対して応答を生成する。

本発明では、非言語音を生成するために、解析処理部２
の後に計算機意図決定部３を設けた。

ここでは“ああ”ん−”む−　　“えっ″等の非言語音声で短時間に伝達しうる情報に関して
のみ、解析処理部の結果から、対話のための応答生成の
ための処理を行う。これを計算機意図表現決定処理と呼
ぶ第２図は、この計算機意図表現の例であり、解析処理の
結果に基づいて、計算機意図決定部で決定される。非言
語音声Ｃ声的感動詞）は、一般の音声言語に対して伝達
される情報が限られており、’ｆｅｓ　−Ｎｏ（Ｐｏｓ
　ｉ　ｔ　１ｖｅ（Ｅ４−＋Ｎｅｇａｔ　１ｖｅ（負〕
）、聞こえる→聞こえない、理解している←わからない
、同意している一同意していない、等があるが、本実施
例では、各構成要素をＸ、、工、・・・Ｉｉ（ここでは
ｉ　＝　ｌ〜８）とし、数値的尺度として０〜１００ま
での値を与え、中間値を５０とした。これは（−１００
〜１００）や他の尺度も当然、使用可能であり、段階を
３段階、１０段階、１００段階等種々定義できる。

計算機意図決定部３では、例えば、解析処理部２で、ユ
ーザの入力音声を認識しようとした際騒音があり良く聞
きとれなかった場合次の様な処理を行う。

計算機“あなたの出身地は？″ ユーザ東京です″ このとき、ユーザの“東京です″の「東京」を認識しよ
うとしたが認識結果に信頼性が乏しく、認識結果として第１位Ｔｏｋｙｏ→　０．５７第２位Ｋｙｏ　ｔ　Ｏ→　０．５５　類似度第３位　Ｋ
ｏｂｅ　−＋　　０１４４が出力されても類似度値が非常に小さかったので１位と
２位の類似度値８．＝　０．５７　、８！＝　０．５５
　が、計算機意図決定部３に送られ、第３図のＩ、、Ｉ
、の要素の値が求められる。例えば、工３の聞こえる−
聞こえないの決定は、認識結果の１位の類似度の絶対値
Ｓ１と１位と２位の類似度値の差△３＝Ｓ、　　Ｓ。

から次の様く求められる。

・Ｉ、　　８．がある閾値θｈ（例えば０．９）より大
きくて ΔＳがある閾値（（例えばＯ，ＯＳ）より大きいｔｈｅｎ　　Ｉ！＝　１００・ｅｌｓｅ　Ｓ、がある閾値θｒ（例えばＱ、６）より
小さかったらｔｈｅｎ　Ｉ２＝　１００　Ｘ　８１等トスコアリングできる。Ｉｓの理解に関する要素吃同
様に、数置的値として表現することができる。

上記の例は、音声ｇ＃！の例で説明したが、キー人力や
文書作成の応用、ＣＡＩの応用の場合、第２図の各椎計
算機意図表現が求められる。これらの例については後述
する。

上記の例では８１＝０．５７なのて、Ｉ、＝５７となる
。さて、計算機意図決定部で、計算機意図が数値的に求
められると、このデータは非言語音声パラメータ生成部
４に送られる。

非ｉｆ語音声は、先述した様な情報の表現が可能である
が、通常の音声合成とは異なり、言語というより“声″
の生成に関する技術が必要となる。

第４図ｆａ）　、　ｆｂ）　、　ｆｃ）　、　（ｄ）は
、第３図に示ｆ非を語ｆ声の基本周波数ｆｏｔ−示した
ものである。第４図（ａ）の（１０）は、あまり良く理
解していないとき（工、＝３０）の１ええ”という音声
のピッチパターンであり、（２）は、軽く同意したとき
の“ええ”であシ（ｘ、ニア　０のとき）ピッチパター
ンが明らかに異なっている。さらに（ｂＪは、音韻を（
３）“ああ″（４）“ええ″、（５）“ん−″と変化さ
せたときの疑いを強く持ったとき（ｌ５＝１０　）のピ
ッチパターンである。ピッチパターンの種々の変化の他
に、音韻の種類により、微妙に違う情報が伝送される。

（Ｃ）は、（１）と（４）を比較したものであり疑いを
強くもったとき、持続時間が長くなるのを示している。

（ｄ）は、話者による違いを示すものであシ、両者とも
（Ｌ＝ｉｏ）のときの１ええ”の発声であるがピッチの
変動が異なる。

さらに、第５図（暑ン（ｂ）　Ｆｉ、（７）が驚いたと
き（工、＝５、Ｉ、＝５）のピッチパターンと音声の強
度の時間持続時間の示すものである。（８）があいずち
（ｌ８＝１００、ｌ４＝６０．Ｉ丁＝９０）の例である
。

両者を見ると、通常の言語音声とは異なり、ピッチと振
幅の相関は余りなく、複雑な持続時間のしている。

すなわち、短時間で種々の情報を正確に伝えるためには
、上述した様なデータ収集した知識を集積して、非言語
音声の生成のためのいろいろな規則を決定する必要があ
るが、要は、第３図の計算機意図表現と第４，５図の非
言語音声の物理的性質及び効果の関連付けが重要である
。

例えば、先はどの“東京です″の例では、工、＝５５に
対して、軽い表現で（Ｌ＝　５７　）に対応する゛ええ
”の音声パラメータが生成される。

次に、音声合成器５にパラメータが出力される。

パラメータの種類は合成器にもよるが、ここではホルマ
ント合成器を考えると、Ｓｍｓ毎の第１゜第２．第３ホ
ルマント、バンド幅等の時系列と合成音を表す音源用の
パラメータが合成器に入力される。ここで、特筆すべき
点は、先述の第５図の例のようにピッチと振幅の制御が
重要なので、明瞭度のみに重点化した音声合成システム
で用いられている、ピッチと振幅を互いに関連づける処
理は用いない。また、ホルマント変化も、通常の言語音
声合成に対して細かい制御が必要である。

る。

かくして、合成器において対話システム側の非言語音声
の出力が、信号処理により生成され、スピーカから音と
してユーザに出力される。これによシ、計算機　“あなたの出身地は” ユーザ東京です” 計算機　°え−？” ユーザ東京“ 計算機　”江戸ツ子なんですね” と入力と出力がテンポ良く、行きかい、対話のスムーズ
な進行が可能となる。

第１図の本発明による音声出力対話システムでは非言語
音声の出力についてのみ構成されているが、当然、既存
の音声言語出力も含む対話が可能である。第６図にその
構成を示す。計算機応答決定部７で言語情報による応答
文生成と意図決定を行う。

音声応答用パラメータ生成部８が、言語音声パラメータ
生成と非言語音声のノくラメータの両者を管理し、パラ
メータ生成を行う。言語音声は、深い、応用タスクに依
存する知識の記述が必要であり、これは、現状の対話処
理技術を用いることができる。

ポイントは計算機応答決定部７であり、応答とシテ“あ
−　　“ん−″等の非言語音声で対応するか、内容に関
して行うかを決定する必要がある。

例えば、上述した音声認識の例では“東京です″の入力
が確かな場合、次の質問文がユーザに対して提示される
。すなわち、非言語音声の生成は、あくまで、ユーザが
主導検をにぎっているときの処理でアリ、スムーズにス
ピードアップするための手段である。

従って、対話モードとテキスト合成モードの２種類を対
話システムに設けるのは効果的である。

ここで対話モードとテキストモードは、対話の有する対
話効率の向上、ユーザフレンドな性質とテキストモード
の正確さ、聞き易さを併用するために有用であるが、そ
の際、合成部の話者を別人に設定すると効果的である。

テレビのニュース番組のキャスターも複数であり、異な
る目的を有する両者を活かすためには例えば、男９女の
声の使い分けは役立つ。

前述したように、非言語音声は、“め−”“ん−”え−
　　“む−“お−”等、音韻性によりニュアンスが異な
る。従って、第７図の様にまず、第１図の非言語音声パ
ラメータ生匠部４では音韻性を決定し、次に、ピッチ、
アクセント等を決定するのは効果的でおる。

また、第４図の例に示した様に、計算機意図表現の数値
の違いにより、継続時間が異なるので通常の言語生成と
は異なり、この時間長のコントロールをバラメーメ変化
の前に行う。

非言語音声出力による対話の利点は、効率向上のため快
適さや心の豊さを高めるためのものであり、ユーザフレ
ンドリ−にするため音声出力は十分にバリエージ冒ンを
与える必要がある。従って非言語音声のピッチや振幅の
大まかな変化ノくターン全記述して、細部はランダムと
なるように応答やパラメータを制御する。

例えば、音韻によって、意味が異ならない場合“え−？
″　”ん−？″　°え−ん？″の各檻音韻をランダムに
利用する。この様なランダム化は非常に容易に乱数を使
って行える。

さらに、ピッチパターンは大局的制約を例えばスプライ
ン関数で記述し、その付近で、ノイズを加えることによ
り実現できる。これは非言語音声を用いた対話では特に
有効である。

音声出力の他に、音声入力の際の非言語音声の認識も効
果的でおる。合成に比べて種別を粗くして、「Ｐｏ５ｉ
ｔｉｖｅＪ　、　「ＮｅｇａｔｉｖｅＪ　、　「中立」
等の３種類程度の認識は容易でめり、必ずしも、第３図
の例の意図表現の様に多数用意する必要はない。

ａ！８図に非言語音声の認識を含む解析処理部の構成を
示す。

この様な、非言語音声の認識は、孤立単語音声のｇ識技
術により行えるが、ピッチ情報と音韻情報の利用が必要
である。これは複谷類似度法による認識で実現できる。

次に、応用例について説明する。

知的文書図形作成システムでは、入力したユーザの図形
データの簡単な理解が可能である。例えば、ユーザの入
力したブロック図等の単純な図形の理解は、図形と線及
び文字の位置関係、包含関係、上下関係等を調べること
により可能である。

ユーザが、第９図（９）の様にデータを入力し、これを
“システム”と定義しようとした時“ソフトウェア′へ
の線分が欠けていることをシステムは検出できる。この
とき、第３図の理解度Ｉ、＝　２０が得られ、非言語音
声を出力して１え−”等と音のメディアを使って、ユー
ザに確認することができる。目を使う作業に対して音の
メディアで、程度に応じて反応できる利点は大きい。

また第９図（ｂ）の例では、明らかにブロック図内に「
音声合成」が正しく挿入されていないので、Ｉｓ”　５
　、　Ｉｓ＝　５となり、同様に”ん−″とユーザにア
ドバイスを与えられる。

尚、本発明では対話の観点から各程応用が考えられる０
例えば、Ｃ言語のコンパイラで、明らかなエラーや、関
数の引数が適当でないとき、ユーザの入力中に音声でア
ドバイスが与えられる。これも、計算機意図表現にニジ
可能となる。従来のエラメツセージに対して、その入力
の時点でメツセージが音声でくるので快適でめる。

さらに、計算機のオペレーティングシステムでは、計算
機に負荷がかかつて、混んでいるときユーザに対して、
対話を行い、ユーザの入力を遅らせる。すなわち、′ウ
メフサ“で時間かせぎを行うわけでるるか、後で待たさ
れるより使い易い。

ＣＡｌ０例では、計算機側が解法の手順や解答、誤まっ
た方法を知っていれば”ん−　　“んん／”等と適宜ア
ドバイスが行える。

また、工／ターティンメント、ゲーム等でも、解がわか
っているので、ＣＡＩと同様に対話用の音声を合成でき
、テンポやインタラクシ璽ン自然性を増すことができる
。

さらに、日本語文のカナ漢字変換入力や翻訳を計算機側
が行うとき、自信が非常にある場合（誤りが絶対ない場
合）と信頼性が乏しい場合がある。

この様なときも音声ｇ識のときと同様に本発明による非
言語音声を利用すると効果的である。

〔発明の効果〕

以上述べたように、本発明によれば、ユーザは、計算機
との対話を行なう際に自分の入力に対する計算機の意図
、すなわち同意、疑惑、驚き、あいずち、割込みなどに
関して計算機が理解している状況、程度を“めあ″　“
ん−　　“ええ″”う−ん″　“おお″　”むむ”等の
非言語音声を合成することにより、ユーザに対して、手
短かに、的確、自然に伝達することができる。このため
、人間と計算機との対話の効率が向上し、しかも親し不
やすいマンマシンインタフェースが実現できる。

【図面の簡単な説明】

第１図は本発明の一実施例の概略構成図、第２図は計算
機意図表現の構成要素の例を示す図、第３図は非言語音
声の種類を示す図、第４図は非言語音声のピッチパター
ンの例を示す図、ｊｇ５図は非言語音声のピッチパター
ンと振幅パターンの関係を示す図、第６図は本発明の他
の実施例の概略構成図、第７図は非言語音声パラメータ
生成部の構成図、第８図は解析処理部の構成図、第９図
は文書図形エディタの入力図形の例を示す図である。１・・・データ入力部、２・・・解析処理部、３・・・
計算機意図表現決定部、４・・・非言語音声パラメータ
生成部、５・・・音声合成部、６・・・音声出力部、７
・・・計算機応答決定部、８・・・音声応答用パラメー
タ生成部。

Claims

【特許請求の範囲】

（１）音声等のデータを入力する手段と、この入力デー
タを解析処理する手段と、この解析処理結果に対する計
算機の反応を種々の要素に分類して数値的尺度の計算機
意図表現として表現する手段と、この計算機意図表現に
応じて非言語音声を合成するための音声パラメータを生
成する手段と、この音声パラメータから音声信号を合成
する手段と、この合成音声を出力する手段とを具備した
ことを特徴とする音声出力付対話システム。
（２）対話を円滑にするための対話合成モードと正確に
テキスト内容を合成するためのテキスト合成モードとを
選択する手段を更に有することを特徴とする請求項１記
載の音声出力付対話システム。
（３）対話合成モードとテキスト合成モードとの合成音
声の声質を異種の個人性に設定する手段を更に有するこ
とを特徴とする請求項２記載の音声出力付対話システム
。
（４）対話用メッセージの音韻的種別、韻律的種別を選
択する手段を更に有することを特徴とする請求項１記載
の音声出力付対話システム。
（５）計算機意図表現に応じた音声を合成する際、毎回
同じ音声が出ないように基本周波数、強度、フォルマン
ト周波数、バンド幅等の音声パラメータをある範囲内で
ランダムに生成する手段を更に有することを特徴とする
請求項１記載の音声出力付対話システム。
（６）合成音声のメッセージの内容、持続時間、タイミ
ング、発話速度の複数もしくは１つを、前記入力手段か
らのキー入力、マウス入力、発話入力等の速度と状況に
応じて変化させる手段を更に有することを特徴とする請
求項１記載の音声出力付対話システム。
（７）前記出力手段より合成音声を出力している間、メ
ッセージの種類と計算意図表現の数値的尺度に応じて前
記入力手段からの入力を禁止する手段を更に有すること
を特徴とする請求項１記載の音声出力付対話システム。
（８）前記生成手段より音声パラメータの生成の際、計
算機意図表現から合成音の持続時間の決定をし、この情
報からピッチ、強度の変化を決定する手段を更に有する
ことを特徴とする請求項１記載の音声出力付対話システ
ム。
（９）計算機意図表現に応じて音韻の種別を決定し、こ
の種別とピッチ、強度などの韻律的パラメータの制御を
関連づける手段を更に有することを特徴とする請求項１
記載の音声出力付対話システム。
（１０）前記種々の要素は同意、疑い、受け流し、割り
込み、驚き等の声的感動詞である請求項１記載の音声出
力付対話システム。