JPH03273430A - 音声出力付対話システム - Google Patents

音声出力付対話システム

Info

Publication number
JPH03273430A
JPH03273430A JP2072131A JP7213190A JPH03273430A JP H03273430 A JPH03273430 A JP H03273430A JP 2072131 A JP2072131 A JP 2072131A JP 7213190 A JP7213190 A JP 7213190A JP H03273430 A JPH03273430 A JP H03273430A
Authority
JP
Japan
Prior art keywords
speech
computer
voice
dialogue
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2072131A
Other languages
English (en)
Inventor
Yoichi Takebayashi
洋一 竹林
Shieehan Kurisu
クリス シェーハン
Yasuki Yamashita
泰樹 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2072131A priority Critical patent/JPH03273430A/ja
Publication of JPH03273430A publication Critical patent/JPH03273430A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の目的〕 (産業上の利用分野) 本発明は人間と計算機が相互にコミニュケーシ璽ンを行
うための音声メディアを用いた音声出力付対話システム
に関する。
(従来の技術) 音声合成の技術は、従来から音声情報を圧縮して記憶す
る鐘音再生方式(分析合成方式)と、言語情報(テキス
ト情報)を音声に変換する音声規則合成(文−音声変換
方式)について多くの研究開発が成されてきた。そして
、実用にも耐えうる装置が利用できるに至ったが、あく
まで文レベルで明瞭性や了解性のある音声が合成できる
だけのいわゆる音読器であり、人間と計算機の対話(イ
ンタラクシ−I/)の観点からの考慮はなされていない
。従って、マンマシンインタフェースとしての重要性は
さほど大きくなく、通常の計算機の出力装置としてCR
T表示装置のようには普及していない。
一方、対話システムとして音のメディアが、視覚情報(
グラフィック情報)と異質の相補的性格を有するため、
次第に検討されてきている。ディジタルオーディオの普
及もあってパーンナルコンピュータやワークステージ璽
ンにオーディオインタフェースが装備されるようになり
、ブザー音や他の音声以外の音が糧々のメツセージとし
て使われてきている。しかし、音声に比べて情報量が少
ないので、表現力が乏しく単純な情報の伝達に限られて
いるのが現状である。
また、ハードウェア的にマルチメディア化が進展し、A
I技術やパターン認識技術を取り入れたヒコ、−マンイ
ンタフェースが実現可能となったが、音声メディア、音
メディアの生成に関しては上述したように、巣にテキス
トを音声に変換するたけの機能f:、iするた−め原稿
の読合せや単純なメツセージとし、1使われている忙す
ぎない。換言すると、現状の対話システムでは、自然で
、快適なヒエ−マンインタフェースとし、て計算機と人
間との対話を支援していないので、計算機のユーザは、
計算機の内部状態や対話の際の自分の置かれている状況
が分かりずらく、使用法の習熟に努めたり、使用中にメ
ツセージを通じて苦労して状況を理解しているのが現状
である。
(発明が解決しようとする課題〕 上述したように、従来の音声インタフェースや音インタ
フェースは、テキスト合成(音声規則合成)に代表され
るメディア変換やあるいは音による単純なメツセージな
どが用麿られているが、人間の最吃自然な対話手段であ
るインタラクシ■ンあるいは対話性という音声の利点を
十分に活用しているとはいえない。これが音声合成の実
用化拡大を妨げている。
本発明は上記に鑑みて成されたものであシ、その目的と
するところは、音声の有する非言語音的な”ああ′ ゛
ええ# 1ん−”う−ん″“む−”等の言葉というより
も音に近い性質の非言語音声(声的感動詞)を合成する
手段を提供することである。これにより計算機側から微
妙な詳しい状況をユーザに手短に伝える手段を提供し、
人間と計算機との対話を円滑に能率的に進めることが可
能となる。
〔発明の構成〕
(課題を解決するための手段) 上記目的を達成するため、本発明の音声出力付対話シス
テムは、人間と計算機の対話の際のメツセージをモデル
化して考え、ユーザから計算機へ■入力(人間から計算
機へのメツセージ)K対する計算機からユーザへのメツ
セージを例えば、1同意”疑い″ °受け流し″ ゛割
シ込み”“驚き1の工種類に分類する。これらを計算機
意図表現と呼びこれに対する程度を示す数値的尺度とし
て計算機意図尺度を具備し、ユーザの入力の応答に対し
て計算機意図尺度を決定する手段を有し、この計算機意
図尺度に応じて音声の言語的(音韻的)内容と接続時間
を決定し、非言語音声及び文音声を合成するのが本発明
による音声出力付対話システムである。すなわち人間と
計算機の対話を円滑に快適に行うため、音声の有する非
言語的性質を利用する手段を提供するように対話をモデ
ル化して、計算機の意図の尺度を表現する機構全具備し
、これに応じて手短な非言語音声を合成するものである
(作用〕 本発明によれば人間と計算機の対話のモデルを基本とし
て、音声合成を行うため、ユーザの入力に対して計算機
側からの出力が非言語音声を用いて短時間に的確に伝達
できるため、円滑、快適、スピーデイ−な対話が可能と
なる。このため、従来の音読器の応用に加え音声合成の
応用が拡大し、人間と計算機との対話の自然性が増加す
る。
(実施例) 以下、図面を参照しながら本発明の実施例について説明
する。
第1図は、本発明による音声出力付対話システムの概略
構成図である。
第1囚の本発明による音声出力付対話システムでは、ユ
ーザの入力として、アルファベット、数字、ひらがな等
のキー人力、マウス入力、音声入力等の種々のメディア
いずれか、または、複数をデータ入力部1を介して計算
機に入力する。この入力データ、すなわちユーザから計
算機に対するメツセージ入力は、計算機に対するコマン
ドであったり、文書データであったり、あるいは音声認
識システムへの入力等でオシ、続く解析処理部2への入
力となる。
解析処理部2では、上記の様な様々な処理を行い、対話
システムとしてユーザに対して応答を生成する。
本発明では、非言語音を生成するために、解析処理部2
の後に計算機意図決定部3を設けた。
ここでは“ああ”ん−”む−  “え っ″等の非言語音声で短時間に伝達しうる情報に関して
のみ、解析処理部の結果から、対話のための応答生成の
ための処理を行う。これを計算機意図表現決定処理と呼
ぶ 第2図は、この計算機意図表現の例であり、解析処理の
結果に基づいて、計算機意図決定部で決定される。非言
語音声C声的感動詞)は、一般の音声言語に対して伝達
される情報が限られており、’fes −No(Pos
 i t 1ve(E4−+Negat 1ve(負〕
)、聞こえる→聞こえない、理解している←わからない
、同意している一同意していない、等があるが、本実施
例では、各構成要素をX、、工、・・・Ii(ここでは
i = l〜8)とし、数値的尺度として0〜100ま
での値を与え、中間値を50とした。これは(−100
〜100)や他の尺度も当然、使用可能であり、段階を
3段階、10段階、100段階等種々定義できる。
計算機意図決定部3では、例えば、解析処理部2で、ユ
ーザの入力音声を認識しようとした際騒音があり良く聞
きとれなかった場合次の様な処理を行う。
計算機“あなたの出身地は?″ ユーザ東京です″ このとき、ユーザの“東京です″の「東京」を認識しよ
うとしたが認識結果に信頼性が乏しく、認識結果として 第1位Tokyo→ 0.57 第2位Kyo t O→ 0.55 類似度第3位 K
obe −+  0144 が出力されても類似度値が非常に小さかったので1位と
2位の類似度値8.= 0.57 、8!= 0.55
 が、計算機意図決定部3に送られ、第3図のI、、I
、の要素の値が求められる。例えば、工3の聞こえる−
聞こえないの決定は、認識結果の1位の類似度の絶対値
S1と1位と2位の類似度値の差△3=S、  S。
から次の様く求められる。
・I、  8.がある閾値θh(例えば0.9)より大
きくて ΔSがある閾値((例えばO,OS)より大きい then  I!= 100 ・else S、がある閾値θr(例えばQ、6)より
小さかったら then I2= 100 X 81 等トスコアリングできる。Isの理解に関する要素吃同
様に、数置的値として表現することができる。
上記の例は、音声g#!の例で説明したが、キー人力や
文書作成の応用、CAIの応用の場合、第2図の各椎計
算機意図表現が求められる。これらの例については後述
する。
上記の例では81=0.57なのて、I、=57となる
。さて、計算機意図決定部で、計算機意図が数値的に求
められると、このデータは非言語音声パラメータ生成部
4に送られる。
非if語音声は、先述した様な情報の表現が可能である
が、通常の音声合成とは異なり、言語というより“声″
の生成に関する技術が必要となる。
第4図fa) 、 fb) 、 fc) 、 (d)は
、第3図に示f非を語f声の基本周波数fot−示した
ものである。第4図(a)の(10)は、あまり良く理
解していないとき(工、=30)の1ええ”という音声
のピッチパターンであり、(2)は、軽く同意したとき
の“ええ”であシ(x、ニア 0のとき)ピッチパター
ンが明らかに異なっている。さらに(bJは、音韻を(
3)“ああ″(4)“ええ″、(5)“ん−″と変化さ
せたときの疑いを強く持ったとき(l5=10 )のピ
ッチパターンである。ピッチパターンの種々の変化の他
に、音韻の種類により、微妙に違う情報が伝送される。
(C)は、(1)と(4)を比較したものであり疑いを
強くもったとき、持続時間が長くなるのを示している。
(d)は、話者による違いを示すものであシ、両者とも
(L=io)のときの1ええ”の発声であるがピッチの
変動が異なる。
さらに、第5図(暑ン(b) Fi、(7)が驚いたと
き(工、=5、I、=5)のピッチパターンと音声の強
度の時間持続時間の示すものである。(8)があいずち
(l8=100、l4=60.I丁=90)の例である
両者を見ると、通常の言語音声とは異なり、ピッチと振
幅の相関は余りなく、複雑な持続時間のしている。
すなわち、短時間で種々の情報を正確に伝えるためには
、上述した様なデータ収集した知識を集積して、非言語
音声の生成のためのいろいろな規則を決定する必要があ
るが、要は、第3図の計算機意図表現と第4,5図の非
言語音声の物理的性質及び効果の関連付けが重要である
例えば、先はどの“東京です″の例では、工、=55に
対して、軽い表現で(L= 57 )に対応する゛ええ
”の音声パラメータが生成される。
次に、音声合成器5にパラメータが出力される。
パラメータの種類は合成器にもよるが、ここではホルマ
ント合成器を考えると、Sms毎の第1゜第2.第3ホ
ルマント、バンド幅等の時系列と合成音を表す音源用の
パラメータが合成器に入力される。ここで、特筆すべき
点は、先述の第5図の例のようにピッチと振幅の制御が
重要なので、明瞭度のみに重点化した音声合成システム
で用いられている、ピッチと振幅を互いに関連づける処
理は用いない。また、ホルマント変化も、通常の言語音
声合成に対して細かい制御が必要である。
る。
かくして、合成器において対話システム側の非言語音声
の出力が、信号処理により生成され、スピーカから音と
してユーザに出力される。これによシ、 計算機 “あなたの出身地は” ユーザ東京です” 計算機 °え−?” ユーザ東京“ 計算機 ”江戸ツ子なんですね” と入力と出力がテンポ良く、行きかい、対話のスムーズ
な進行が可能となる。
第1図の本発明による音声出力対話システムでは非言語
音声の出力についてのみ構成されているが、当然、既存
の音声言語出力も含む対話が可能である。第6図にその
構成を示す。計算機応答決定部7で言語情報による応答
文生成と意図決定を行う。
音声応答用パラメータ生成部8が、言語音声パラメータ
生成と非言語音声のノくラメータの両者を管理し、パラ
メータ生成を行う。言語音声は、深い、応用タスクに依
存する知識の記述が必要であり、これは、現状の対話処
理技術を用いることができる。
ポイントは計算機応答決定部7であり、応答とシテ“あ
−  “ん−″等の非言語音声で対応するか、内容に関
して行うかを決定する必要がある。
例えば、上述した音声認識の例では“東京です″の入力
が確かな場合、次の質問文がユーザに対して提示される
。すなわち、非言語音声の生成は、あくまで、ユーザが
主導検をにぎっているときの処理でアリ、スムーズにス
ピードアップするための手段である。
従って、対話モードとテキスト合成モードの2種類を対
話システムに設けるのは効果的である。
ここで対話モードとテキストモードは、対話の有する対
話効率の向上、ユーザフレンドな性質とテキストモード
の正確さ、聞き易さを併用するために有用であるが、そ
の際、合成部の話者を別人に設定すると効果的である。
テレビのニュース番組のキャスターも複数であり、異な
る目的を有する両者を活かすためには例えば、男9女の
声の使い分けは役立つ。
前述したように、非言語音声は、“め−”“ん−”え−
  “む−“お−”等、音韻性によりニュアンスが異な
る。従って、第7図の様にまず、第1図の非言語音声パ
ラメータ生匠部4では音韻性を決定し、次に、ピッチ、
アクセント等を決定するのは効果的でおる。
また、第4図の例に示した様に、計算機意図表現の数値
の違いにより、継続時間が異なるので通常の言語生成と
は異なり、この時間長のコントロールをバラメーメ変化
の前に行う。
非言語音声出力による対話の利点は、効率向上のため快
適さや心の豊さを高めるためのものであり、ユーザフレ
ンドリ−にするため音声出力は十分にバリエージ冒ンを
与える必要がある。従って非言語音声のピッチや振幅の
大まかな変化ノくターン全記述して、細部はランダムと
なるように応答やパラメータを制御する。
例えば、音韻によって、意味が異ならない場合“え−?
″ ”ん−?″ °え−ん?″の各檻音韻をランダムに
利用する。この様なランダム化は非常に容易に乱数を使
って行える。
さらに、ピッチパターンは大局的制約を例えばスプライ
ン関数で記述し、その付近で、ノイズを加えることによ
り実現できる。これは非言語音声を用いた対話では特に
有効である。
音声出力の他に、音声入力の際の非言語音声の認識も効
果的でおる。合成に比べて種別を粗くして、「Po5i
tiveJ 、 「NegativeJ 、 「中立」
等の3種類程度の認識は容易でめり、必ずしも、第3図
の例の意図表現の様に多数用意する必要はない。
a!8図に非言語音声の認識を含む解析処理部の構成を
示す。
この様な、非言語音声の認識は、孤立単語音声のg識技
術により行えるが、ピッチ情報と音韻情報の利用が必要
である。これは複谷類似度法による認識で実現できる。
次に、応用例について説明する。
知的文書図形作成システムでは、入力したユーザの図形
データの簡単な理解が可能である。例えば、ユーザの入
力したブロック図等の単純な図形の理解は、図形と線及
び文字の位置関係、包含関係、上下関係等を調べること
により可能である。
ユーザが、第9図(9)の様にデータを入力し、これを
“システム”と定義しようとした時“ソフトウェア′へ
の線分が欠けていることをシステムは検出できる。この
とき、第3図の理解度I、= 20が得られ、非言語音
声を出力して1え−”等と音のメディアを使って、ユー
ザに確認することができる。目を使う作業に対して音の
メディアで、程度に応じて反応できる利点は大きい。
また第9図(b)の例では、明らかにブロック図内に「
音声合成」が正しく挿入されていないので、Is” 5
 、 Is= 5となり、同様に”ん−″とユーザにア
ドバイスを与えられる。
尚、本発明では対話の観点から各程応用が考えられる0
例えば、C言語のコンパイラで、明らかなエラーや、関
数の引数が適当でないとき、ユーザの入力中に音声でア
ドバイスが与えられる。これも、計算機意図表現にニジ
可能となる。従来のエラメツセージに対して、その入力
の時点でメツセージが音声でくるので快適でめる。
さらに、計算機のオペレーティングシステムでは、計算
機に負荷がかかつて、混んでいるときユーザに対して、
対話を行い、ユーザの入力を遅らせる。すなわち、′ウ
メフサ“で時間かせぎを行うわけでるるか、後で待たさ
れるより使い易い。
CAl0例では、計算機側が解法の手順や解答、誤まっ
た方法を知っていれば”ん−  “んん/”等と適宜ア
ドバイスが行える。
また、工/ターティンメント、ゲーム等でも、解がわか
っているので、CAIと同様に対話用の音声を合成でき
、テンポやインタラクシ璽ン自然性を増すことができる
さらに、日本語文のカナ漢字変換入力や翻訳を計算機側
が行うとき、自信が非常にある場合(誤りが絶対ない場
合)と信頼性が乏しい場合がある。
この様なときも音声g識のときと同様に本発明による非
言語音声を利用すると効果的である。
〔発明の効果〕
以上述べたように、本発明によれば、ユーザは、計算機
との対話を行なう際に自分の入力に対する計算機の意図
、すなわち同意、疑惑、驚き、あいずち、割込みなどに
関して計算機が理解している状況、程度を“めあ″ “
ん−  “ええ″”う−ん″ “おお″ ”むむ”等の
非言語音声を合成することにより、ユーザに対して、手
短かに、的確、自然に伝達することができる。このため
、人間と計算機との対話の効率が向上し、しかも親し不
やすいマンマシンインタフェースが実現できる。
【図面の簡単な説明】
第1図は本発明の一実施例の概略構成図、第2図は計算
機意図表現の構成要素の例を示す図、第3図は非言語音
声の種類を示す図、第4図は非言語音声のピッチパター
ンの例を示す図、jg5図は非言語音声のピッチパター
ンと振幅パターンの関係を示す図、第6図は本発明の他
の実施例の概略構成図、第7図は非言語音声パラメータ
生成部の構成図、第8図は解析処理部の構成図、第9図
は文書図形エディタの入力図形の例を示す図である。 1・・・データ入力部、2・・・解析処理部、3・・・
計算機意図表現決定部、4・・・非言語音声パラメータ
生成部、5・・・音声合成部、6・・・音声出力部、7
・・・計算機応答決定部、8・・・音声応答用パラメー
タ生成部。

Claims (10)

    【特許請求の範囲】
  1. (1)音声等のデータを入力する手段と、この入力デー
    タを解析処理する手段と、この解析処理結果に対する計
    算機の反応を種々の要素に分類して数値的尺度の計算機
    意図表現として表現する手段と、この計算機意図表現に
    応じて非言語音声を合成するための音声パラメータを生
    成する手段と、この音声パラメータから音声信号を合成
    する手段と、この合成音声を出力する手段とを具備した
    ことを特徴とする音声出力付対話システム。
  2. (2)対話を円滑にするための対話合成モードと正確に
    テキスト内容を合成するためのテキスト合成モードとを
    選択する手段を更に有することを特徴とする請求項1記
    載の音声出力付対話システム。
  3. (3)対話合成モードとテキスト合成モードとの合成音
    声の声質を異種の個人性に設定する手段を更に有するこ
    とを特徴とする請求項2記載の音声出力付対話システム
  4. (4)対話用メッセージの音韻的種別、韻律的種別を選
    択する手段を更に有することを特徴とする請求項1記載
    の音声出力付対話システム。
  5. (5)計算機意図表現に応じた音声を合成する際、毎回
    同じ音声が出ないように基本周波数、強度、フォルマン
    ト周波数、バンド幅等の音声パラメータをある範囲内で
    ランダムに生成する手段を更に有することを特徴とする
    請求項1記載の音声出力付対話システム。
  6. (6)合成音声のメッセージの内容、持続時間、タイミ
    ング、発話速度の複数もしくは1つを、前記入力手段か
    らのキー入力、マウス入力、発話入力等の速度と状況に
    応じて変化させる手段を更に有することを特徴とする請
    求項1記載の音声出力付対話システム。
  7. (7)前記出力手段より合成音声を出力している間、メ
    ッセージの種類と計算意図表現の数値的尺度に応じて前
    記入力手段からの入力を禁止する手段を更に有すること
    を特徴とする請求項1記載の音声出力付対話システム。
  8. (8)前記生成手段より音声パラメータの生成の際、計
    算機意図表現から合成音の持続時間の決定をし、この情
    報からピッチ、強度の変化を決定する手段を更に有する
    ことを特徴とする請求項1記載の音声出力付対話システ
    ム。
  9. (9)計算機意図表現に応じて音韻の種別を決定し、こ
    の種別とピッチ、強度などの韻律的パラメータの制御を
    関連づける手段を更に有することを特徴とする請求項1
    記載の音声出力付対話システム。
  10. (10)前記種々の要素は同意、疑い、受け流し、割り
    込み、驚き等の声的感動詞である請求項1記載の音声出
    力付対話システム。
JP2072131A 1990-03-23 1990-03-23 音声出力付対話システム Pending JPH03273430A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2072131A JPH03273430A (ja) 1990-03-23 1990-03-23 音声出力付対話システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2072131A JPH03273430A (ja) 1990-03-23 1990-03-23 音声出力付対話システム

Publications (1)

Publication Number Publication Date
JPH03273430A true JPH03273430A (ja) 1991-12-04

Family

ID=13480440

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2072131A Pending JPH03273430A (ja) 1990-03-23 1990-03-23 音声出力付対話システム

Country Status (1)

Country Link
JP (1) JPH03273430A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185178A (ja) * 1997-09-12 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 合成音声応答方法及び装置及び合成音声応答プログラムを格納した記憶媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185178A (ja) * 1997-09-12 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 合成音声応答方法及び装置及び合成音声応答プログラムを格納した記憶媒体

Similar Documents

Publication Publication Date Title
US20200279553A1 (en) Linguistic style matching agent
Lindblom On the notion of “possible speech sound”
Taylor Text-to-speech synthesis
Theune et al. Generating expressive speech for storytelling applications
Tran et al. Improvement to a NAM-captured whisper-to-speech system
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
JP4745036B2 (ja) 音声翻訳装置および音声翻訳方法
Santra et al. Development of GUI for text-to-speech recognition using natural language processing
WO2007148493A1 (ja) 感情認識装置
US11475874B2 (en) Generating diverse and natural text-to-speech samples
JP4729902B2 (ja) 音声対話システム
JP2005516262A (ja) 音声合成
JPH05216618A (ja) 音声対話システム
Panda et al. A survey on speech synthesis techniques in Indian languages
WO2021212954A1 (zh) 极低资源下的特定发音人情感语音合成方法及装置
US20230099732A1 (en) Computing system for domain expressive text to speech
US11955112B1 (en) Cross-assistant command processing
Aylett et al. Building and designing expressive speech synthesis
Pouget et al. HMM training strategy for incremental speech synthesis
Nagata et al. Defining laughter context for laughter synthesis with spontaneous speech corpus
CN116917984A (zh) 交互式内容输出
CN117882131A (zh) 多个唤醒词检测
US12001260B1 (en) Preventing inadvertent wake in a speech-controlled device
Wang et al. Research on correction method of spoken pronunciation accuracy of AI virtual English reading
Trouvain et al. Speech synthesis: text-to-speech conversion and artificial voices