JPH05216618A - 音声対話システム - Google Patents

音声対話システム

Info

Publication number
JPH05216618A
JPH05216618A JP4309093A JP30909392A JPH05216618A JP H05216618 A JPH05216618 A JP H05216618A JP 4309093 A JP4309093 A JP 4309093A JP 30909392 A JP30909392 A JP 30909392A JP H05216618 A JPH05216618 A JP H05216618A
Authority
JP
Japan
Prior art keywords
voice
response
output
dialogue
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4309093A
Other languages
English (en)
Inventor
Yoichi Takebayashi
洋一 竹林
Hiroyuki Tsuboi
宏之 坪井
Yoichi Sadamoto
洋一 貞本
Yasuki Yamashita
泰樹 山下
Hitoshi Nagata
仁史 永田
Shigenobu Seto
重宣 瀬戸
Hideaki Shinchi
秀昭 新地
Hideki Hashimoto
秀樹 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Software Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Software Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Software Engineering Corp filed Critical Toshiba Corp
Priority to JP4309093A priority Critical patent/JPH05216618A/ja
Publication of JPH05216618A publication Critical patent/JPH05216618A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明は、ユーザとシステムの音声対話を行
う際に、システム側からユーザへの応答出力として音声
応答に画面表示を併用するようにしている。 【構成】 音声入力が与えられると、入力音声の意味内
容を音声理解部11で理解し、この理解の結果に基づい
て対話管理部12により応答内容の意味的な決定を行
い、この決定された応答内容に基づいて応答生成部13
により音声応答出力および画面表示出力を生成し、これ
ら音声応答出力および画面表示出力をディスプレイ14
およびスピーカ15より出力するように構成している。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識や音声合成を
含む各種の入出力手段を利用する音声対話システムに関
するものである。
【0002】
【従来の技術】近年、文字、音声、図形、映像などのマ
ルチメディアを入力、出力および加工処理することで、
人間とコンピュータとの対話(Human-Computer Interac
tion)を様々な形態で行うことが可能になっている。
【0003】特に、最近になってメモリ容量や計算機の
パワーが飛躍的に向上したことでマルチメディアを扱え
るワークステーションやパーソナルコンピュータが開発
され、種々のアプリケーションが開発されてきている
が、これらはいずれも単に種々のメディアを出し入れす
るだけのもので各種メディアを有機的に融合するまでに
至っていない。
【0004】一方、従来からの数値データに代わって文
字を含む言語データが一般的になり、白黒のイメージデ
ータはカラー化や図形、アニメーション、三次元グラフ
ィックス、さらには動画が扱えるように拡張されてきて
いる。また、音声やオーディオ信号についても、単なる
音声の信号レベルの入出力の他に音声認識や音声合成の
機能が研究開発されつつあるが、ヒューマンインターフ
ェースとして使用するには性能が不安定で実用化は限定
された分野に限られているのが現状である。
【0005】すなわち、上述したように文字、テキス
ト、音声、グラフィックデータなどについては、従来の
入出力処理(記録−再生)から各種メディアの理解や生
成機能へと発展が続いている。換言すると、各メディア
の表層的処理からメディアの内容や構造、意味的内容を
扱い、人間と計算機の対話をより自然に快適に行うこと
を目的とした音声やグラフィックスなどのメディアの理
解や生成を利用する対話システムの構築が検討されつつ
ある。
【0006】しかして、音声認識については、孤立単語
認識から連続単語認識、連続音声認識へと発展してお
り、実用化のために応用を限定した方向(task-oriente
d )でも開発が進められている。このような応用場面で
は、音声対話システムとしては、音声の文字面の認識よ
りも音声の発話内容の理解が重要であり、例えば、キー
ワードスポッティングをベースに応用分野の知識を利用
した音声理解システムも研究されてきている。一方、音
声合成についても従来の文−音声変換(text-to-speec
h)システムからイントネーションを重視した対話用の
音声合成システムの研究が例えば本発明者等によって行
われてきており、音声対話への応用が期待されている。
【0007】しかし、音声などのメディアの理解と生成
は単なるデータの入出力と異なり、メディアの変換の際
には情報の欠落やエラーが不可避である。すなわち、音
声理解は情報量の多い音声パターンデータから音声の発
話の内容や発話者の意図を抽出する処理であり、情報の
圧縮を行う過程で音声認識エラーや曖昧性が生じる。従
って、音声対話システムとしては上述した認識エラーや
曖昧性などの音声認識の不完全さに対処するためシステ
ム側からユーザに適切な質問や確認を行い対話制御によ
りスムーズに対話を進行する必要がある。
【0008】ところで、対話システム側からユーザに何
等かの対話をする場合、音声認識の不完全さをカバー
し、計算機の状況を適確に伝えることが、使い勝手のよ
いヒューマンインターフェースとして重要である。とこ
ろが、従来の音声対話システムでは、音声応答として単
に文を棒読みするテキスト合成が行われることが多かっ
たためメリハリがなく聞ずらかったり、冗長であること
があった。あるいは、音声応答がなく、計算機からの応
答はすべてテキストとして画面上に応答文を表示した
り、あるいは図形データや映像、アイコンや数値を表示
するシステムが一般的であり、視覚への負担が重くなっ
ていた。
【0009】このように最近では、上述したいろいろな
対話システムが開発されてきているが、音声認識の不完
全さに対処するためのシステム側からの応答における種
々のメディアの利用に関する検討は、これまで十分にな
されておらず、音声認識技術の大きな問題となってい
た。言い換えると、音声認識は、不安定であり、雑音や
不要語に対して弱く、ユーザの意図が音声で効率よく伝
えることが困難であるため、電話などの音声メディアだ
けにしか使えないような制約の強い場面に応用が限られ
ていた。
【0010】
【発明が解決しようとする課題】このように従来の音声
認識、合成技術を利用した音声対話システムでは、それ
ぞれ別個に開発された音声認識、音声合成、画面表示の
各技術を単に組み合わせただけのものであり、音声の対
話という観点からの十分な考慮がなされていない。すな
わち、音声認識機能には、認識誤りや曖昧性があり、音
声合成機能は人間の発声よりも明瞭度が悪く、イントネ
ーションの制御も不十分のため意図や感情の伝達能力が
不足しており、自然性に欠けるという根本的な問題があ
る。また、システム側での音声認識結果を用いて妥当な
応答を生成するのも、現状の技術では不十分である。一
方、応答を音声と組み合わせて画像表示することにより
伝達能力が向上することが期待できるが、瞬間的に連続
で時系列的な音声応答に対して二次元平面的、三次元空
間的な画面表示をどのように活用し、両者のタイミング
を制御するかは未解決の問題である。また、他のメディ
アを利用する音声対話システムとして何を表示すべきか
大切な課題である。
【0011】本発明は、上記事情に鑑みてなされたもの
で、システムとユーザの音声対話を効率よく、しかも正
確に行うことができ、使い勝手の著しい改善を可能にし
た音声対話システムを提供することを目的とする。
【0012】
【課題を解決するための手段】本発明は、音声入力が与
えられ該入力される音声の意味内容を理解する音声理解
手段、音声理解手段での理解結果に基づいて応答内容の
意味的な決定を行う対話管理手段、対話管理手段で決定
された応答内容に基づいて音声応答出力および画面表示
出力を生成する応答生成手段、応答生成手段で生成され
た音声応答出力および画面表示出力を出力する出力手段
により構成されている。
【0013】対話管理手段は音声理解手段の理解結果に
基づいて音声応答を行う発話者の人物像に関する人物像
情報、音声応答に対応する発声文の応答内容テキスト情
報および音声応答の内容に関連した理解内容を可視化す
る可視化情報をそれぞれ応答内容として出力するように
している。
【0014】応答生成手段は対話管理手段より出力され
る音声応答を行う発話者の人物像情報に基づいて人物像
の動作および表情の少なくとも一方の画面表示出力を生
成するようにしている。
【0015】また、応答生成手段は対話管理手段より出
力される音声応答を行う発話者の人物像情報に基づいて
人物像の動作および表情の少なくとも一方の画面表示出
力を生成するとともに各画面表示に対応する音声の感情
または強弱を有する音声応答出力を生成するようにして
いる。
【0016】さらに、人の動きに関する人状態を検出す
る人状態検出手段を有し、該人状態検出手段の検出結果
に基づいて対話管理手段にて応答内容の意味的な決定を
行うようにしている。
【0017】そして、音声入力が可能か否かのアイコン
を表示可能にしている。
【0018】また、本発明は、音声入力が与えられ該入
力される音声の意味内容を理解する音声理解手段と、こ
の音声理解手段での理解結果に基づいてシステム応答出
力を出力する応答出力手段と、システムとユーザとの対
話を、前記音声理解手段に音声入力が与えられるユーザ
状態と前記応答出力手段からシステム応答出力が出力さ
れるシステム状態との間の状態遷移を制御することによ
り、管理する対話管理手段とを具備することを特徴とす
る。
【0019】さらに本発明は、音声入力が与えられ該入
力される音声の意味内容を該音声入力中のキーワードを
検出することにより理解する音声理解手段と、システム
とユーザとの対話の状態に応じて、前記音声理解手段に
より検出する音声入力中のキーワードを予め制限してお
く対話管理手段と、前記音声理解手段での理解結果に基
づいてシステム応答出力を出力する応答出力手段とを具
備することを特徴とする。
【0020】
【作用】この結果、本発明は、ユーザとシステムとの間
の対話を行う際に、音声認識、音声応答に加えて、シス
テム側からユーザへの応答出力として応答の画面表示を
併用するようになる。この時、システム側からの音声の
発話者に対応する人物像の表示を行うことにより、発話
者のイメージがシステムの機能を代表するようになり、
ユーザは画面上の人物に向かって発声することを自然に
行うことができ、また、画面上の人物の口の動きや表情
で対話の進行状況や音声認識の信頼性を把握できる。
【0021】一方、システムからの応答内容に関して
は、応答文を表す文字列を表示するほか、対象物(例え
ば商品、概念などの物や事)や数などについては図形な
どで表示することから、応答内容をユーザに素早く伝え
ることもできる。さらに、音声認識は、誤認識や曖昧性
が多発する不完全なものであり、音声の内容を理解する
際に、ユーザの意図しない誤った情報が計算機側に伝え
られることがあるが、音声応答の他に、視覚による各応
答表示を並行して用いることで、音声対話の効率を大幅
に向上させ、自然性や使い勝っての改善を可能にでき
る。また、音声合成音は、自然音声に比べて低いので、
発話者の表情、応答文、応答内容の視覚化を併用するこ
とは対話の改善に極めて有用である。
【0022】
【実施例】以下、本発明の一実施例を図面に従い説明す
る。
【0023】図1は音声対話システムとしての画面表示
を加えたシステムの概略構成を示している。
【0024】音声対話システムは、入力される音声の意
味内容を理解する音声理解部11、音声理解部11での
理解結果に基づいて応答内容の意味的な決定を行う対話
管理部12、対話管理部12で決定された応答内容に基
づいて音声応答出力および画面表示出力を生成する応答
生成出力部13、応答生成出力部13で生成された画面
表示を出力する画面表示出力部14および音声応答を出
力する音声出力部15により構成されている。
【0025】音声理解部11は、音声の文字面の認識、
すなわち単語や文の認識でなく、ユーザの発話した入力
音声の理解を行い意味内容を抽出する。そして、理解し
た意味内容を表す入力意味表現を生成し対話管理部12
に送る。
【0026】対話管理部12では入力音声の入力意味表
現に対して、対話の履歴や現在の対話の状態に関する情
報と対話の進行方法や応用分野の知識を用いて応答内容
の意味的な決定を行ない、音声応答に対応する発声文の
応答内容情報を応答生成出力部13に出力する。
【0027】さらに、対話管理部12では、省略や指示
代名詞を含む話し言葉を処理し、音声理解の性能向上や
処理量の削減とともに自然な対話を可能にしている。ま
た、対話管理部12は、ディスプレイ14に表示出力さ
れて音声応答を行う発話者の人物像情報、および音声応
答の内容に関連した理解内容の可視化する情報である可
視化情報を応答生成出力部13に出力する。
【0028】また、対話管理部12で生成された出力意
味表現を音声理解部11へ送り、出力意味表現から次の
発話のキーワードや構文的意味的規則を絞り、次の発話
の音声理解性能の向上をはかることが可能となる。
【0029】応答生成出力部13は対話管理部12から
入力された応答内容情報に基づいて生成された応答文を
合成音声でスピーカー15より出力するとともに、人物
像情報および応答文に基づいて動作や表情が決定された
音声応答を行う人物像をディスプレイ14に視覚的に表
示し、また、それまでの対話によりシステムが理解した
内容を分かりやすく可視化するための情報である可視化
情報に基づき生成された内容可視化情報をディスプレイ
14に視覚的に表示して、複数のメディアを利用してマ
ルチモーダル的に応答をユーザに提示する。つまり、オ
ーディオ情報と視覚情報を併用してユーザに提示するこ
とにより音声対話システムのヒューマンインターフェー
スが改善され、自然な対話が可能となる。
【0030】また、応答生成部13から現在応答を出力
中である旨の情報を対話管理部12に送る。対話管理部
12では、上記情報を音声理解部11へ送り、例えば入
力音声の終始端検出処理や、キーワード検出処理のタイ
ミングを制御することにより音声理解性能の向上をはか
ることが可能となる。
【0031】次に、上述した音声対話システムの各部に
ついて、ここでは応用としてファースト・フードでの注
文タスクを想定してさらに詳しく説明する。
【0032】まず音声理解部11について説明する。音
声理解部11については、先に述べたようにここでの役
割は、テキスト入力や音声ワードプロセッサのように文
字面を認識するのではなく音声の意味内容や発話者の意
図や状況を理解することを目的としている。
【0033】この場合、不特定ユーザを対象とする券売
機、航空機や列車の座席予約システム、銀行の現金自動
引出機などでは、話者間の音声の違い、不要語、口語の
話し方の違い、雑音の影響などにより実際に音声認識技
術を応用しても十分な認識性能が期待できないことがあ
り、とくに発話された文の高精度認識に困難を極めてい
る。これについて、連続発声された音声から、まずキー
ワードの候補列を解析して発話内容を理解する方法が例
えば文献(坪井宏之、橋本秀樹、竹林洋一:“連続音声
理解のためのキーワードラティスの解析”日本音響学会
講演論文集、1−5−11、pp.21−22、199
1−10)に提案されており、この方法を用いれば、限
定した応用では、利用者の発話に極力制限を設けずに、
自由な発声を高速に理解できるようになる。
【0034】図2は、上述したキーワードを利用した音
声理解部11の概略構成を示している。
【0035】この場合、音声理解部11は、キーワード
検出部21と構文意味解析部22から構成している。そ
して、キーワード検出部21は、音声分析部21aとキ
ーワードスポッティング処理部21bにより構成し、構
文意味解析部22は文始端判定部22a、文候補解析部
22b、文終端判定部22c、文候補テーブル22dに
より構成している。
【0036】キーワード検出部21では、音声分析部2
1aにより入力音声をローパスフィルタ(LPF)を通
し標本化周波数12kHz 、量子化ビット12bitsでA
/D変換してディジタル信号に変換し、次いで、スペク
トル分析、さらにはFFTを用いたのちに周波数領域で
の平滑化をそれぞれ行い、さらに対数変換を行って16
チャンネルのバンドパスフィルタ(BPF)より8msご
とに音声分析結果を出力し、この出力に対してキーワー
ドスポッティング処理が実行される。この場合のキーワ
ードスポッティング処理は、例えば文献(金沢、坪井、
竹林:”不要語を含む連続音声中からの単語検出”電子
情報通信学会音声研究会資料、sp91−22、pp.
33−39、1991−6)に開示された方式により行
うことができる。
【0037】これによりキーワード検出部21では、連
続した入力音声よりキーワードの候補系列(ラティス)
を抽出するようになる。図3は、ファースト・フード店
での店頭での注文のやりとりを音声対話で行うのに適用
した場合の連続入力音声「ハンバーガとポテトとコーヒ
ー3つ下さい」より抽出されたキーワードの候補系列の
例を示している。
【0038】なお、上述の音声分析やキーワード検出処
理は、他の文献(“高速DSPボードを用いた音声認識
システムの開発“日本音響学会講演論文集、3−5−1
2、1991−3)にあるようなDSPボードを用いる
ことでリアルタイム処理も可能である。
【0039】次に、このようにして検出されたキーワー
ド候補系列が構文意味解析部22により構文意味解析さ
れ、図4に示すような音声入力に対する入力意味表現が
求められる。
【0040】ここでは応用をファースト・フードのタス
クに限定しており、フレーム形式の入力意味表現は、入
力発話が注文処理の種類を表すACTフレームと注文内
容を表す注文品フレームから構成される。そして、AC
Tフレームには“注文”、“追加”、“削除”、“置
換”など、注文に関する処理についての意味情報が表現
され、一方、注文品フレームには、品名、サイズ、個数
のスロットからなる、注文品の内容を表現できるように
している。
【0041】即ち、キーワード検出部21で得られキー
ワードラティスは構文意味解析部22に送られる。構文
意味解析部22は、文始端判定部22a、文候補処理部
22b、文終端判定部22cから成り、文候補テーブル
22dを持つ。構文意味解析部22は、キーワードラテ
ィス中の個々の単語を左から右に向かって処理してい
く。
【0042】文始端判定部22aは、現在処理している
単語が文の始端となりうるか否かを構文的意味的制約に
より判定する。もしそれが文の始端となりうるならば、
その単語を新しい部分文候補として、文候補テーブル2
2dに登録する。
【0043】文候補解析部22bは、当該単語および文
候補テーブル22d中の各部分文候補に関して、構文的
意味的時間的制約から、それらが接続しうるか否かを判
定する。もし接続しうるならば、部分文候補をコピー
し、それに入力単語を接続し、それを文候補テーブル2
2dに登録する。
【0044】文終端判定部22cは、直前に文候補解析
部22bで処理された部分文候補が、構文的意味的に文
として成立しうるか否かを判定し、成立するならばその
部分文候補のコピーを構文意味解析部22の出力として
出力する。
【0045】出力された文候補は、構文解析と同時に意
味解析が行われており、従ってこれがそのまま入力意味
表現を意味する。以上の処理は入力に対してパイプライ
ン的に行われる。かくして、入力音声に対する複数の入
力意味表現を得ることができる。
【0046】この場合のファーストフード・タスクで
は、キーワードとして図5に示すようなものを用いてい
るが、対話の状況によっては、別の発話が同じ意味とな
ることもある。すなわち、キーワードに基づく音声理解
では、“1つ”と“1個”は同じ意味表現であり、また
“下さい”を“お願いします”も同じ意味表現になるこ
とがあり、表層的な文字面の入力音声の表現とは異なっ
てくる。ここが音声認識と音声理解の相違点であり、本
発明で扱う音声対話システムにおいては、応用分野の知
識を用いたタスク依存の音声理解処理が必要となってい
る。
【0047】次に対話管理部12について説明する。本
発明による音声対話システムでは、図1に示すように音
声理解部11から出力される入力意味表現は対話管理部
12に送られ、対話の知識や応用分野の知識さらに対話
の履歴や状態の情報を用いて応答内容の意味的な決定を
行ない、確認応答のための応答内容情報てある出力意味
表現を生成し応答生成出力部13に出力する。なお、出
力意味表現は図6に示すように、入力意味表現と同様に
フレーム形式の表現を用いている。
【0048】本実施例では、入力音声の一つの発話の内
容表現として図4に示す入力意味表現を用いているが、
さらに、対話開始からのシステムが理解した内容とし
て、それまでの注文の内容を記憶する注文テーブルを図
7に示すように別途用意している。また、対話の履情と
して対話進行にともなう注文テーブルの変化を図8の例
に示すような一つ前の質問応答時点の注文テーブル(旧
注文テーブル)の形で用意している。さらに、対話の状
況を表す対話状況情報を対話管理部12に保持してい
る。こ対話状況情報は、現在の対話の状態、次に遷移す
る状態、対話の繰返し回数、確信度、強調項目、対話の
履歴等の情報を含むもので、後述する応答生成出力部1
3において人物像情報として利用されるものである。
【0049】注文テーブルは、入力意味表現のACT情
報と注文内容に基づき書き替えられたもので、形式は入
力意味表現からACT情報を取り去った注文内容のみの
テーブルである。つまり、この注文テーブルは、対話を
開始してからそれまでの対話で理解した内容を反映した
ものである。また、旧注文テーブルは注文テーブルと同
一の構成であり、一つ前の対話時点での質問応答での注
文テーブルを保持し、対話の履歴情報として注文テーブ
ルの状態を記録するものである。
【0050】このように対話管理部12では、入力音声
の意味表現(入力意味表現)および対話の履歴情報(旧
注文テーブル)、対話システムの状態に基づき、対話の
進行方法や応用分野の知識を用いて応答出力の内容を表
す応答内容情報(出力意味表現)を生成する。つまり、
入力意味表現と注文テーブルを参照し、その時点のシス
テムの状態(ステート番号)に依存した処理を行い、応
答生成の内容と応答ACTからなる応答生成の内容を表
現した出力意味表現を生成するようにしている。上述し
たようにこの場合の出力意味表現は、入力意味表現と同
様にフレーム形式の表現を用いている。さらに、対話の
履歴情報(旧注文テーブル)と対話システムの状態に基
づき、対話状況情報を生成し、応答生成出力部13が応
答画面表示の人物像情報として参照できるようにしてい
る。
【0051】図9は、対話管理部の内部における状態遷
移の一例を示している。
【0052】この例では対話の進行方法や応用分野の知
識に基づいた状態遷移の表現により対話を管理進行する
ようにしている。対話管理部12は、大きくユーザ72
とシステム71のそれぞれの状態に二分される。
【0053】ここで、ユーザ72の状態の役割は、ユー
ザの発話の入力意味表現に応じてシステム71の状態に
遷移することであり、一方、システム71の状態の役割
は、理解した発話内容に応じて、注文テーブルの内容を
変更し、応答の出力意味表現を出力して、対話の流れを
進行し、ユーザ72の状態に遷移することである。この
ように、システムの内部状態を二分して持つことによ
り、ユーザとシステムとの多様なやり取りが表現でき、
柔軟な対話の進行が可能となる。
【0054】又、この時用いられる対話状況情報は、処
理中の対話管理の状態名と部分的な対話の繰り返し回数
を表し、進行中の対話の状態名、次に遷移する状態名、
同一の話題について同じ質問を繰り返すなどの部分的な
対話が繰り返される回数が逐次記録され容易に参照でき
るようになっており、システムの状態を自然に分かりや
すく伝えるために、応答生成出力部13の人物像の表
情、動き、および音声応答の感情、強調などの人物像情
報として利用し応答生成出力に利用される。
【0055】さて、図9では、対話管理部12におい
て、ユーザ(客)の存在が検知されると、システム71
の初期状態S0から対話がスタートして、挨拶、注文要
求に関する出力意味表現を生成し、応答生成出力部13
に送られユーザ72の初期状態U0に遷移する。さら
に、対話の履歴情報(旧注文テーブル)は初期化され、
システムの状態の状態S0から状態U0への遷移に基づ
き、対話状況情報が生成される。この対話情況情報は、
応答生成出力部13が応答画面表示の人物像情報として
参照できるようにしている。
【0056】すると、応答生成部13では、この出力意
味表現に基づいて、システム状態、対話の履歴情報、注
文テーブルを参照しながら音声応答、人物像、テキス
ト、内容可視化情報を生成する。
【0057】この時、ユーザ72の初期状態U0では、
次の発話の入力意味表現ACT情報が“注文”であると
きには、一般的な注文の流れでシステム71の対話進行
状態SPとユーザの対話進行状態UPの間の遷移へと移
行する。
【0058】一方、入力意味表現のACT情報が、注文
以外の場合には、そのユーザの発話は予期していないユ
ーザの発話と見なされ、システム71の対話修正状態S
10に遷移する。
【0059】もし、システム71の対話修正状態S10
に遷移した場合には、システム71は入力意味表現、注
文テーブルやその履歴情報を用いて、ユーザ72から受
け取った音声入力が予期せぬ内容であったり、良く聞こ
えなかった旨を状況に応じて適当な応答でユーザ72に
伝えたり、注文の内容を一品目づつ詳細に確認するため
の出力意味表現を出力し、ユーザ72の対話進行状態U
Pに遷移するようになる。すると、応答生成部13で
は、この出力意味表現に基づいてシステム状態、対話の
履歴情報、注文テーブルを参照しながら音声応答、人物
像、テキスト、内容可視化情報を生成する。
【0060】このようにしてシステム71とユーザ72
の間でやり取りが続き、ユーザ72での発話とシステム
71での応答が行われ状態が遷移して行くが、ユーザ7
2が目的とする注文を終えた場合、すなわちシステム7
1の全注文の確認応答に対して、ユーザ72が肯定を意
味する発話をした場合、システム71の終了状態S9に
移り、対話を終了する。
【0061】図10はユーザの状態の処理のフローチャ
ートを示している。
【0062】この場合、最初に複数の入力意味表現を読
み込み(ステップS81)、省略表現の推論を行い(ス
テップS82)、各入力意味表現の確からしさに関する
得点付け(スコアリング)を行う(ステップS83)。
次いで、上記入力意味表現候補の中から最もスコアの高
い入力意味表現を選択し(ステップS84)、発話アク
トを決定し(ステップS85)、発話アクトに基づきシ
ステムの状態に遷移するようになる(ステップS8
6)。
【0063】一方、図11はシステムの状態の処理のフ
ローチャートを示している。
【0064】この場合、最初に入力意味表現に基づき注
文テーブルの内容を変更し(ステップS91)、その時
点におけるシステムの状態を考慮して出力意味表現を生
成し(ステップS92)、応答内容を出力し(ステップ
S93)、ユーザの状態へ遷移するようになる(ステッ
プS94)。応答生成部13では、生成された出力意味
表現に基づいて、音声応答、人物像、テキスト、内容可
視化情報を生成する。
【0065】以上のように、本実施例システムにおいて
は、ユーザとシステムとに分けて、相手側からメッセー
ジを受け取った場合に、種々の知識、状況、メッセージ
内容を考慮した処理が可能であり、柔軟で尤もらしい処
理が可能なる。
【0066】次に、図12は、本実施例システムにおけ
る対話処理の具体例を示すものである。
【0067】この場合、システムでは、ユーザの発話に
対し前回の状態の図12(b)に示す注文テーブルと図
12(a)に示す出力意味表現が提示されているとする
と、これらに基づいて、図12(c)に示すように「御
注文はハンバーガ1つ、コーヒーを2つ、コーラの大を
4つですね」の確認メッセージを生成し、これに基づく
音声応答、確認のテキスト、注文テーブルの品物の絵と
個数を、音声メディアと視覚メディアを用いてマルチモ
ーダル的にユーザに提示するようになる。
【0068】これに対して、ユーザが図12(c)に示
すように「コーラを1つ追加して下さい。」と音声入力
したとすると、図1に示す音声理解部11では、上述し
たようにキーワード候補の検出を行った後に、キーワー
ド候補系列(キーワードラティス)の解析(パージン
グ)を行い、ユーザの発話に対する図12(d)と図1
2(e)に示す入力意味表現候補1と入力意味表現候補
2を得る。
【0069】ここでの各候補は、確からしさについての
スコア(得点)Dを持っており、入力意味表現候補1は
D1、入力意味表現候補2はD2のスコアを有し、それ
ぞれスコア順に並べられる。
【0070】この場合は、スコアD1の入力意味表現候
補1では、ACT情報は追加、品名はコーラ、サイズは
不定、個数は1となっており、スコアD2の入力意味表
現候補2では、ACT情報は削除、品名はポテト、サイ
ズは大、個数は2となっている。
【0071】そして、ユーザの状態での処理は図13に
示すように実行される。
【0072】まず、入力意味表現候補1については、前
回の出力意味表現のコーラのサイズが大であったことを
参照し、コーラの今回の追加注文もサイズが大であると
推論することで省略表現を補う(ステップS111)。
入力意味表現候補2については、とくに省略はないので
この推論は行われない(ステップS113)。
【0073】次に、妥当性のチェックを行う。すなわ
ち、注文テーブルの内容と入力意味表現候補を照らし合
わせ矛盾の有無を調べる(ステップS112、ステップ
114)。
【0074】この例では、入力意味表現候補2について
は、入力意味表現の発話ACTが“削除”で品名がポテ
トの大にもかかわらず、注文テーブルにポテトはないの
でスコアD2がD2′=D2×α(α<1.0)の処理
により、小さくされる処理を行う。
【0075】次に、入力意味表現候補のスコアを比較す
る(ステップS115)。この場合、D2′<D1′な
ので候補1を選択する。一方、ユーザからの入力の発話
ACTは“追加”であると決定し(ステップS11
6)、追加確認を行うシステムの状態SAに遷移するよ
うになる(ステップS117)。ここで、追加確認を行
うシステムの状態SAは、注文テーブルを入力意味表現
に基づいてコーラの大を1つ追加するように書き換え
る。
【0076】この場合、システムでの状態の処理は図1
4に示すように実行される。
【0077】即ち、この状態でシステム側では、ユーザ
への確認応答を図15(b)に示す応答ACTリストか
ら選択し出力意味表現を決定する。この例では、入力意
味表現のACTが追加であるので応答ACTは第4番目
の追加確認が選択され、これらの情報を用いて応答出力
(応答文)が決定され出力が行われる。
【0078】まず、注文テーブルにコーラの大を1つ追
加する(ステップS121)。そして、ここでの図15
(a)に示す入力意味表現の発話ACTは追加なので、
応答ACTを追加確認として選択し、これら情報から図
15(c)に示す出力意味表現が求められる(ステップ
S122)。次いで、応答出力(応答文)を決定して出
力する(ステップS123)。この場合の応答文は、図
16に示すシステムの応答の表現例に基づいて決定さ
れ、例えば「確認します。コーラの大を1つ追加です
ね。」のように出力される。そして、ステップS124
に進み、追加確認の応答ACTを受けたユーザの状態U
Aに遷移し、ユーザの状態での処理が行われるようにな
る。
【0079】尚、対話管理部12は、上述のように求め
た出力意味表現と共に、音声理解部11から受け取った
ユーザの発声速度と各キーワードの尤度を応答生成出力
部13に送る。
【0080】ここで、ユーザの発声速度は次のように求
められる。即ち、図2における音声理解部11のキーワ
ードスポッティング処理部21bで、得られたキーワー
ドとその始終端、およびそれらを基に得られるユーザの
発声速度を検出する。また、音声理解結果の各キーワー
ドの尤度を入力意味表現とともに対話管理部12に出力
する。ユーザの発声速度は、キーワードスポッティング
処理部21bから得られる単語の始終端とその単語が分
かれば、例えば図17のように求めることができる。即
ち、ユーザの発声から3つのキーワード“ハンバー
ガ”、“ポテト”、“ください”がそれぞれ始端t1か
つ終端t2、始端t3かつ終端t4、始端t5かつ終端
t6と検出されたとき、これらキーワードのモーラ数は
6,3,4であることから、ユーザの平均発声速度は
【数1】 {6/(t2−t1)+3/(t4−t3)+4/(t6−t5)}/3 のように算出できる。
【0081】このようにして得られたユーザの発声速度
と尤度は、入力意味表現と共に対話管理部12へ入力さ
れる。
【0082】対話管理部12は図9から図16で説明さ
れた処理に基づき生成された出力意味表現に、音声理解
部11から入力されたユーザの発声速度と、キーワード
の尤度を応答生成出力部13に入力する。このときの出
力意味表現の例を図18に示す。
【0083】次に応答生成出力部13について説明す
る。本発明による応答生成出力部13では応答内容情報
である出力意味表現、対話情況情報と対話履歴情報から
なる人物像情報、およびそれまでの対話によりシステム
が理解した内容を分かりやすく可視化するための可視化
情報に基づいて、音声応答、人物像、テキスト、内容可
視化情報を生成出力する。ここで、音声応答、人物像、
テキストは出力意味表現と人物像情報に基づいて、その
対話状況を考慮して伝える内容をわかり易く呈示できる
ように表情や感情・強調を持って生成される。また、内
容可視化情報はシステムの理解している対話の内容を表
示して、対話の進行状況をわかり易くするためのもので
あり、対話管理部12から出力される可視化情報に基づ
いて生成出力されるものである。
【0084】図19は応答生成出力部13の構成の一例
を示している。応答生成部13は応答文生成部131、
人物像表情決定部132、人物像生成部133、感情・
強調決定部134、音声応答生成部135、内容可視化
情報生成部136、出力統合制御部137から構成され
る。
【0085】応答生成出力部13は対話管理部12から
出力意味表現と人物像情報を受けとり、応答文生成部1
31で応答する文とその構造情報を生成する。生成され
た応答文と対話管理部12からの人物像情報に基づき、
人物像表情決定部132では画面表示で音声応答する人
物像の表情を決定し、決定された表情の人物像を人物像
生成部133で生成し出力統合制御部137に出力す
る。また、生成された応答文と文構造情報および対話管
理部12からの人物像情報に基づき、音声応答の感情表
現や強調する部分を感情・強調決定部134で決定し、
感情や強調を持つ音声応答を音声応答生成部135で生
成し出力統合制御部137に出力する。さらに、生成さ
れた応答文はテキスト情報として出力統合制御部137
に出力する。また、応答内容に関連した理解内容を可視
化して表示するために、応答生成出力部13は対話管理
部12から出力される可視化情報を受けとり、内容可視
化情報生成部136で内容可視化情報を生成し出力統合
制御部137に出力する。
【0086】出力統合制御部137は表情を持つ人物
像、感情や強調を持つ音声応答、テキスト情報、内容可
視化情報を各部から受けとり、時間的な呈示順序を制御
しながら、画面表示出力部14と音声出力部15に出力
して利用者に応答内容を統合して表示する。
【0087】次に、応答生成出力部13の各部の動作を
図19に基づき説明する。
【0088】まず、応答生成出力部13の各部で処理さ
れる情報について説明する。
【0089】出力意味表現は図6に示したような入力意
味表現と同様なフレーム形式であり、ACT情報は応答
におけるアクションを示している。
【0090】人物像情報は画面表示出力部14に表示さ
れる音声応答する人物像の表情や音声応答の感情・強調
の情報であり、図20に示すような構造である。システ
ム状態番号、ユーザ状態番号は対話管理部12の対話処
理においてシステム状態からユーザ状態へ遷移して出力
意味表現を生成する際のそれぞれの状態の番号を示して
いる。図20に示すSP1、UP3はそれぞれ図19の
対話状態遷移のシステム側の状態集合SPの1つ状態
を、ユーザ側の状態集合SUの1つの状態を示してい
る。繰り返し回数は対話の中で部分的に同じ質問を繰り
返して行なったり、同じ内容について繰り返して確認を
行なうような場合の回数である。強調項目は出力意味表
現の中で特に確認する必要がある場合の項目を示す。確
信度は出力意味表現に基づいて対応する内容の確信度を
示し、対話管理部12で入力意味表現の尤度に基づてい
入力意味表現の解釈を行なった際に得られるスコアDで
ある。応答文生成部131は、対話管理部12で生成さ
れた出力意味表現から応答文とその文構造を生成する。
文生成には、一般に書き換え規則を使うもの、穴埋めに
よるもの、木構造から合成する方法、意味構造から合成
する方法が知られているが、ここでは穴埋めによる方法
で説明する。
【0091】出力応答文の生成は、例えば図21のよう
にACT情報ごとに品目、サイズ、個数を埋め込む穴の
空いた応答文型とその文構造を用意しておき、図22
(a)に示すフローチャートにしたがって出力意味表現
をもとに空きを埋める方法で実現できる。すなわち、ま
ずステップS141で繰り返しの回数を示す変数nを0
に設定し、次にステップS142で出力意味表現の品目
数を変数Mにセットする。図22(b)の出力意味表現
の場合には、Mは2である。次に、ステップ143で注
文一品目分の品名、サイズ、個数を応答文に埋め込む。
次にステップS144で繰り返し変数nを加算しなが
ら、ステップS145により埋め込みが完了するまで繰
り返す。図22(b)の出力意味表現を図22(c)の
応答文型に埋め込むと、図22(d)のように「確認し
ます。コーラの大は1つ、ポテトの小は3つですね。」
と応答文が得られる。
【0092】人物像表情決定部132は、応答文生成部
131で生成された文と対話管理部12から入力される
人物像情報から人物像の表情を決定する。人物像表情決
定部132の一例を図23に示す。システム状態番号、
ユーザ状態番号、繰り返し回数、確信度は人物像情報か
ら得られるものであり、あらかじめそれぞれの値に対し
ての人物像とその表情をテーブルの形式で表現したもの
である。例えば、繰り返し回数が一回までの場合の確認
で確信度が高い場合には普通の表情で確認を行い、確信
度が低い場合には戸惑ったような表情で確認を行なうよ
うになっている。
【0093】人物像生成部133は、人物像表情決定部
132から出力された人物像と表情の情報から画面に表
示する画像を生成する。この時、表示時間や人物像を変
化させるための制御が行なわれる。例えば、人物像が音
声応答する際の口の動作や挨拶する時のおじぎの動作が
生成できるように、静止画を用いる場合には複数の画像
が用意され、動画を用いる場合には連続した動作の人物
像と表情の動画が指定される。また、コンピュータグラ
フィックスを利用する際には指定された動作の画像が生
成される。
【0094】感情・強調決定部134は、人物像情報か
ら応答する音声の強調や感情を決定する。感情・強調決
定部134の一例を図24に示す。人物像表情決定部1
32と同様の表現形式であり、システム状態番号、ユー
ザ状態番号、繰り返し回数、確信度から、あらかじめそ
れぞれの値に対しての人物像と音声応答の感情をテーブ
ルの形式で表現したものである。例えば、繰り返し回数
が一回までの場合の確認で確信度が高い場合には普通の
音声で確認を行ない、確信度が低い場合には戸惑ったよ
うな音声で確認を行なうようになっている。また、確認
する場合に強調して利用者に確認内容をわかり易く伝え
るために人物像情報には強調項目がある。これは対話管
理部12で応答内容を出力意味表現として生成する際に
確認すべき項目を決定したものである。感情・強調決定
部134では応答文中の強調すべき項目を出力意味表現
からとりだして次の音声応答生成部135に伝える。
【0095】音声応答生成部135は、応答文生成部1
31と感情・強調決定部134からの出力に基づき音声
合成を行なう。音声の生成方式としては従来からある録
音編集型なども利用可能であるが、本実施例では強調や
感情を持つ応答に特徴があり、音声生成部の制御により
実現するためには音声規則合成が望ましい。
【0096】音声応答生成部135の構成の一例を図2
5に示す。音声応答生成部135は、音韻処理部15
1、韻律処理部152、制御パラメータ生成部153、
音声波形生成部154からなる。
【0097】ここでは、感情・強調決定部134から入
力される強調する語句(句)と感情の種類、および生成
された応答文とその構造を基に音韻処理部151と韻律
処理部152において各々音韻処理、韻律処理を行なっ
て、音声波形生成部154で使用される制御パラメータ
の時系列を制御パラメータ生成部153から音声波形生
成部154に出力する。
【0098】音韻処理部151は、応答文生成部131
で生成された応答文とその文構造を基に、鼻音化や無声
化、連濁といった一般に良く知られた音韻規則に従い出
力応答文の読みを決定、単音記号列を出力する。
【0099】韻律処理部152では応答文とその構造、
強調する語の情報および感情の種類を基に、基本周波数
パターンやパワー、継続時間、ポーズの位置などの韻律
成分を決定する。
【0100】特に基本周波数パターン生成は、図26の
モデルに示すように、点線で示したあらかじめ強調しな
い場合と実線で示した強調した場合の各応答文のアクセ
ント成分やフレーズ成分の多きさを分析して記憶してお
き、合成時に語句、句にその成分を使うことで実現でき
る。また、平叙文と疑問文と命令文というように文の種
類を分類し、文の種類毎にアクセントやフレーズの規則
を作成してもよい。例えば文献(広瀬、藤崎、河井“連
続音声合成システム−特に韻律的特徴の合成−”、日本
音響学会音声研究会資料S85−43(1985))の
ように、単語のアクセント型、文の切れ目からの語の位
置、修飾関係から平叙文の規則を決めることができる。
【0101】感情を伴った韻律は、文献(K.Sheahan,Y.
Yamashita,Y.Takebayashi,“Synthsis of Nonverbal Ex
pressions for Human-Computer Interaction”日本音響
学会講演論文集2−4−6(1990.3))に述べら
れているように、おもに基本周波数の変化の割合とダイ
ナミックレンジ、発声時間長、エネルギーによって制御
される。従って、図27に示すように喜びの場合には感
情を伴わない場合に対してアクセントを1.2倍、発声
時間を0.9倍、エネルギーを2dB大きくし、図28に
示す悲しみの場合にはアクセントを0.9倍、発声時間
を1.1倍、エネルギーを2dB小さくする。これにより
喜びを伴ったときは、一語一語はっきりと、やや早口に
なった音声が合成でき、悲しみを伴ったときは抑揚が少
なく、やや遅い合成音を生成することが可能である。
【0102】基本周波数の制御は図41で用いたものに
限らず、直線近似を用いた方法や音の高低のレベルで基
本周波数パターンを表現する方法があり、ここに述べた
ものに限らず、発明の主旨を逸脱しないならば種々の方
法を利用してもよい。
【0103】制御パラメータ生成部153では、音韻処
理部151と韻律処理部152からの音韻シンボルと韻
律シンボルを基に、音声波形生成部154で使う制御パ
ラメータを決定する。この制御パラメータ生成部153
では発声速度の制御も行なうため、ユーザの発声速度に
合わせて音声を合成することが可能となり、ユーザの発
声のペースで対話を進行することも可能である。
【0104】このため制御パラメータ生成部で得られた
発話時間長は人物像の口動作と音声応答の同期をとるた
めに出力統合制御部137に出力される。
【0105】尚、この応答生成出力部13では、応答文
の生成はすでに述べたような応答文生成部131、感情
・強調決定部134、音声応答生成部135により行わ
れるが、ここで、発声速度は応答文の長さに反映するた
めに参照する。テンポの良い対話がなされている時に
は、応答は短い方が良く、ユーザが戸惑うなどの理由で
ゆっくり発声する時には、丁寧に省略などせずに応答す
るのが良いからである。例えば発声速度が9モーラ毎秒
より速ければ、短い応答文型を選ぶようにすることで、
これは実現される。
【0106】また、対話管理部12から与えられる各キ
ーワードの尤度は、例えば確認の場面で文末の「ですね
/ですか」を使い分けるのに利用される。すなわち、キ
ーワードの平均尤度が例えば設定域値0.5より低い、
もしくはどれかのキーワードの尤度が非常に低い時には
「ですか」を使い、尤度が高い時には「ですね」を使
う。これにより、他の応答出力に加え、応答文からも計
算機の理解の程度が分かるようになり、ユーザが対話を
行ないやすくなる。
【0107】なお、「ですね/ですか」は文型のテーブ
ルとして持たずに、文型を決定してから変更できるよう
にしてもよい。また、「でございます/でございます
か」のように、丁寧な応答か否かの情報を使うなどして
別の言葉を使用しても良い。
【0108】音声波形生成部154は、例えば図29に
示すようなホルマント型合成器による規則合成を利用す
る。これれは例えば、標本化周波数を12kHz 、8ms
ecごとに合成パラメータを更新し、音源にはインパルス
にローパスフィルターをかけたものを利用することで音
声合成ができる。しかし、合成器の構成、音源の種類、
標本化周波数等も一般的に知られものを利用することが
可能である。
【0109】尚、この図29に示すホルマント型合成器
から成る音声波形生成部154においては、制御パラメ
ータ合成器169から入力された制御パラメータがイン
パルス発生器161、雑音発生器162、ローパスフィ
ルタ163A,163B、振幅制御器167、ハイパス
フィルタ168、共振器166A,166Bにそれぞれ
分配される。
【0110】可視化情報は、対話中にシステムに伝えた
内容、システムが理解している内容、システムの状態な
どの情報であり、この可視化情報を基に内容可視化情報
生成部136が内容可視化情報を生成しユーザに視覚的
に呈示することにより、システムの状態や理解内容をシ
ステムと利用者が共有することが可能となり、対話を自
然にわかり易く進めることができる。
【0111】本実施例では注文テーブルを可視化情報と
して用いている。注文テーブルには既に利用者が注文し
たすべての品目、サイズ、個数が記録されており、対話
の各時点での注文内容を確認することができる。これに
より、例えば品目が多い注文を行なった時に、それぞれ
の品目とサイズ、個数を音声応答だけで時間的に連続し
て聞く場合よりも視覚的に表示して並列的に注文の内容
を伝えることが可能となる。内容可視化情報生成部13
6はこの可視化内容情報に基づき画像の生成を行なう。
ここでの画像生成方式としては人物像生成部133で述
べたような方式が利用できる。すなわち表示時間や表示
像を変化させるための制御が行なわれ、静止画を用いる
場合には複数の画像が用意され、動画を用いる場合には
連続した動作の表示像の画像が指定される。また、コン
ピュータグラフィックスを利用する際には指定された動
作の画像が生成される。
【0112】出力統合制御部137は、人物像生成部1
33の出力である表情を持つ人物像の画像情報、音声応
答生成部135の出力である感情や強調を持つ音声応答
の信号情報、応答文の文字列であるテキスト情報、内容
可視化情報生成部136の出力である内容可視化情報を
各部から受けとり、時間的な呈示順序を制御しながら、
画面表示出力部14と音声出力部15に出力して利用者
に応答内容を統合して呈示する。
【0113】ここで重要なことはそれぞれの出力を個別
に呈示すれば良いのではなく、個々出力情報の時間的な
関係を考慮しながら呈示する必要があることである。例
えば、人物像が音声応答に合わせながら口を動作させる
場合に音声応答出力と口動作の制御の同期やおじぎをし
ながら挨拶する場合の画像出力と音声出力の同期をとる
必要がある。また、それぞれの出力の呈示順序を制御す
ることが重要である。
【0114】図30、31、32、33に出力の呈示順
序の時間制御の例を示す。図30は最初の挨拶の場面の
制御であり、まだ注文はないので、内容可視化情報は表
示されないが、挨拶のテキスト情報をt0の時点で表示
し、同時に人物像は「いらっしゃいませ」、続けて「ご
注文をどうぞ」という音声応答に合わせて口を動作させ
ながら、注文をうながす。このように発声している内容
と人物像画面の同期をとり、あらかじめ分かり易いよう
にt0の時点でテキスト情報をすべて表示する。
【0115】図31では既にハンバーガ1つとコーラ1
つを注文済みの場面であり、応答確認内容の「ご注文は
ハンバーガを1つ、コーヒーを1つですね」のテキスト
情報をt0の時点まで表示する。次いで人物像と音声応
答を開始する時点のt0に内容可視化情報を新しく更新
しハンバーガ3つ、コーヒー2つ、コーラ1つを表示す
るようにする。また、人物像は音声の発声に合わせてt
0からt3まで口を動かすように制御する。
【0116】この例で示した時間制御は音声応答の長さ
を基準に決められている。すなわち、図30では「いら
っしゃいませ」によりt0からt1まで、「ご注文をど
うぞ」によりt1からt2までの継続時間が決まる。こ
のそれぞれの継続時間は音声応答生成部135で決まる
ものであり、音声応答信号とその継続時間が出力統合制
御部137に送られ時間制御に利用される。ここで述べ
た他にも呈示する内容可視化情報や人物像の画像の表示
時間を基準に時間制御を行なうことも可能である。
【0117】図32は、最初の注文を受けた後の全注文
の確認の場面の制御であり、確認する品目はハンバーガ
2つ、チーズバーガー1つ、コーヒー3つの3品目であ
る。図32では、応答内容の「ご注文はハンバーガが2
つ、チーズバーガーが1つ、コーヒーが3つですね」の
テキスト情報をt0の時刻で表示するとともに音声応答
と、それに合わせた人物像の口の動作を開始する。音声
の「ご注文は」までは、内容可視化情報の表示は行わな
いが、注文内容を発声し始めるt1の時点で内容可視化
情報として、ハンバーガ2つ、チーズバーガー1つ、コ
ーヒー3つを表示するようにする。また人物像は音声の
発声に合わせてt0からt4まで口を動かすように制御
する。
【0118】ここで、全注文の確認の応答文は応答文生
成部131で生成されるが、確認する品目の数が多くな
ると生成される応答文は長くなり、音声応答の長さも長
くなる。しかし、図32の例において、利用者はt1の
時点で表示される内容可視化情報により、音声応答を最
後まで聞かずとも、システムの応答内容もしくはシステ
ムの状態や理解内容を理解することができるため、内容
可視化情報を表示した後のt1から音声応答が終わるt
4までに出力される情報は利用者にとって冗長な応答で
ある。
【0119】このため、本実施例では図33に示すよう
に、全注文の確認で、確認する品目が3つ以上ある場合
は、出力の呈示順序を変え、最初のt0の時点で直前の
応答文テキストを一端消去し、内容可視化情報として、
注文内容であるハンバーガ2つ、チーズバーガー1つ、
コーヒー3つを表示する。次に、この内容可視化情報の
表示の処理が終ったt1の時点で「これでよろしいです
か」という応答文テキストを表示するとともに、人物像
と音声応答を開始する。この例で示した時間制御は、対
話管理部12で生成された出力意味表現のACT情報と
品目数をもとに出力統合制御137で行われ、応答文
は、応答文生成部131で生成される。
【0120】またこれは、全注文の確認に限定されるも
のではなく、その他の確認の際に、応答確認内容の品目
が多い場合や複雑でわかりづらい場合にも、最初に視覚
的応答出力を行った後、指示代名詞等を用いて短縮表現
にした音声応答を行うことにより、対話を短時間に効率
的に行うことも可能である。
【0121】尚、確認する品目数に代えて、他の音声応
答の長さを示す指標、例えば音声応答中のワード数やモ
ーラ数等、を用いて上述のような応答出力の変更を制御
しても良い。
【0122】さらに、出力統合制御部137はそれぞれ
の画像表示情報の表示場所を制御している。例えば、画
像出力装置14の画面上で人物像を左上に、内容可視化
情報を右に、テキスト情報を左下に制御し表示すること
が出来る。この表示位置は出力統合制御部137の制御
の基に変更可能である。
【0123】以上のように本発明は、音声の入出力と画
面表示の併用して対話を進めることを特徴としている
が、ここで本発明における画面表示について実際の例を
具体的に説明する。
【0124】まず、図34は初期画面を示すもので、客
が店頭にいない場合や近くに来ない場合には、「〜へよ
うこそ」など画面に文を表示するのみで、音声応答は出
力しない。
【0125】ここで、ユーザ(客)がシステム(カウン
ターやドライブスルーの窓口等)に接近したような場
合、例えば、圧力センサー付きのフロアーマットや監視
カメラの画像等のセンサー情報によりユーザを検知する
と、図35に示すようにシステムは「いらっしゃいま
せ、御注文をどうぞ。」と漢字かな混り文で表示すると
ともに、ほほえみの表情の店員を画面上に表示して音声
応答を出力する(図9の状態S0)。
【0126】この時、ユーザの検知は、人の動きや位置
を考慮し、特に、立ち止まりを検出した時点で上記の処
理を実行し安心してユーザとの音声対話をスタートさせ
ることが重要である。特に、店員の笑顔は、客をリラッ
クスさせる効果があり、明るい声を合成することも望ま
しい。これらの技術はすでに開発されており、また、録
音された合成音や自然音声を用いることも可能である。
【0127】この状態から、ユーザが画面を見ながら、
仮に早口で注文を「え〜、ハンバーガを2つとあの〜コ
ーヒーを2つお願いします。あ〜」と行なったとする。
すると、システムでは、図9の状態U0のユーザの発音
を処理するが、いま聞きとれない部分があり、図1に示
す音声理解部11から何の結果も得られないとすると、
対話管理部12ではリジェクトに対応する。
【0128】この場合、図36に示すようにシステムは
「はっきり聞きとれませんでした。もう一度お願いしま
す。」と漢字かな混じり文を表示するとともに、申し訳
なさそうな表情の店員を画面上に表示して音声応答す
る。この状態では、システム側は、ユーザの注文を全く
聞きとれず、その時点の注文テーブルは何もない(空)
状態なので、注文に関する画面表示は何もなされない。
また、店員の表情生成は、応答文の関与として出力され
る。この場合、図9のユーザの状態U0から、リジェク
ト対話修正状態S10に移し、ここで応答と表情が決定
されることになる。
【0129】次に、このシステムからの応答を受けとっ
たユーザが、前回よりもはっきりとした話し方で「ハン
バーガ2つとコーヒー2つ下さい。」と注文を行なった
とすると、前述した音声理解処理、対話処理が実行さ
れ、入力意味表現と注文テーブルを生成した後、出力意
味表現が決定される。そして、出力意味の応答ACTが
“全確認”となると、次の応答として図37に示す画面
表示と音声応答が併用して行なわれる。
【0130】この場合、システムは「御注文は、ハンバ
ーガ2つ、コーヒーを2つですね。」と漢字かな混り文
で表示するとともに、店員の顔を画面上に表示して音声
応答を出力するようになる。この時の店員の表情と音声
応答の感情については、前述したように文と状態を考慮
して決定され、ここでは普通の表情と音声応答が出力さ
れる。また、応答文とともに、注文テーブルの内容が画
面表示され、ユーザは自分の要求した品物かどうか、個
数かを短時間で確認するようになる。
【0131】この場合、品物の表示は、個数を数字で現
さず品物を注文個数だけ並べた状態を画面表示してもか
まわない。ここでは数字の情報が重要なのでハンバーガ
等の品物と同じ高さの領域を設けて数字を表示してい
る。すなわち、個数(数字)についての情報は重要であ
り、ユーザにそのことを自然に伝えられるようにしてい
る。また、数字の表示サイズについても、大きさで大体
の情報が伝えられるので、大きさを変えて表示すること
も有効であり、また、文字情報を併用したり、カラー情
報などを併用して出力することにより、音声応答やテキ
スト応答よりもリアルなイメージを自然に素早くユーザ
に伝えることが可能となり、より高速な確認対話を実現
している。一方、店員に関する人物像については、リア
ルな表情よりも、伝えたいポイントが伝わる情報量のす
くない絵が有効である。また、上記の画像表示は、三次
元グラフィックスを用いても当然に行なうことができ
る。
【0132】さて、システム側からの注文品を確認され
てユーザが「え〜と、まあ、それでいいや」と少し迷い
ながら発音したとする。すると、システムでは、音声理
解部11からの何の結果も得られないことで、対話管理
部12がリジェクトに対応する。この場合、図38に示
すようにシステムは「すみません。もう一度入力して下
さい。」と漢字かな混り文を表示するとともに、店員を
画面上に表示して音声応答する。この場合のメッセージ
は、上述した図36の場合よりも手短なものであり、音
声対話を手短に伝えるように状態と対話の履歴情報を用
いて応答文が決定される。また、店員の顔の表情につい
ても応答文に対応して、申し訳なさそうなものが出力さ
れる。
【0133】この画面表示のポイントは、現状でシステ
ム側が理解している注文の内容を右側の領域に表示して
いる点である。この注文品の表示は、注文テーブルをそ
のまま表示するので、音声が持つ一過性の欠点を補うこ
とができる。すなわち、追加や置換や削除についての確
認は音声応答、応答文で一部分の局所的な注文について
行なうが、対話の進行に伴う蓄積された注文、確認の結
果である注文品の表示による効果は大きい。
【0134】そして、このような表示は、前述した対話
管理部12での処理で容易に実現できる。また、部分確
認に視覚表示を用いることも可能であり、注文品の全表
示を続けて別の表示領域で行なうこともできる。さら
に、全注文品の表示を一時的に隠し、部分確認にユーザ
の意識を集中させるために、部分確認の画面表示を行な
うこともできる。すなわち、両者の長所を組み合わせた
表示方法の併用を状況により使い分けて行なうことが効
果的である。
【0135】この後、ユーザがはっきりした声で「それ
で、いいです。」と発声すると、システムはこれを肯定
と理解して図9のS9に遷移し、図39に示すようにシ
ステムは「ありがとうございました」と漢字かな混り文
を表示するとともに、頭を下げた店員を画面上に表示し
て音声応答し、対話を終了する。
【0136】この時の応答文生成、笑顔の生成、おじぎ
をするジェスチャーの生成も、上述したのと同様の処理
により行なう。また、合計金額の表示なども、種々の応
答(音声、画面表示)で行なえる。
【0137】なお、上述した図38の確認の場合、図4
0に示すように「はい」、「いいえ」と答を誘導するよ
うに画面表示を行なうのも効果的である。この場合、聞
き返しや訂正の回数の情報が使え、システムは「すみま
せん。御注文はハンバーガを2つ、コーヒーを2つです
か。はいか、いいえでお答え下さい。」のような状況に
応じた対話が行える利点がある。
【0138】図41は、このような実施例での処理手順
を簡単にまとめたものである。
【0139】この場合、フロアマット220がユーザを
検知すると、ユーザからの音声入力についてキーワード
検出部21によりキーワードを検出し、単語候補系列2
22を求め、次いで、構文意味解析部22でキーワード
に基づく音声理解を行ない、入力意味表現224を求め
る。そして、さらに対話制御部12で対話と応用分野の
知識による対話処理が行なわれ、出力意味表現226を
求め、これを応答生成部13に与えて、ここでの規則合
成による音声応答出力と画面表示出力とから成るマルチ
モーダルは応答を行う。
【0140】以上の説明は、ファースト・フードの注文
の例で行なったが、情報サービスやマルチメディア、ワ
ークステーションおよび通信ネットワークを用いた座席
予約システムなどへの運用も可能である。
【0141】次に、本発明の他の実施例を図42により
説明する。
【0142】図42は、本発明の音声対話システムに人
の動き状態を検出する機能を組み込んだものを示してい
る。この場合、人状態検出は、システムが対話を自動的
に始め、そして終了させるのに必要な機能で、対話の開
始、終了におけるユーザの状態や反応を理解すること
で、対話を自然に進めることを可能とするものである。
人状態検出の方法としては、光、超音波、赤外線圧力な
どを処理して行うことが考えられるが、ここでは、大人
一人を検出できるフロアマットを利用した例について述
べる。
【0143】図42では、図1で述べたと同様な音声入
力部231、音声理解部232、対話管理部234、応
答生成部235、ディスプレイ236、スピーカ237
の他に人状態検出部233を設ける構成になっている。
【0144】この場合、人状態検出部233は、図43
に示すようにマットに人が乗っている場合には人状態検
出意味表現1を、マット上から人が降りた状態には人状
態検出意味表現2を出力するようになっていて、これら
の出力を対話管理部234に通知するようにしている。
【0145】対話管理部234は、人状態検出部233
からの人状態検出意味表現の他に、上述した実施例と同
様に音声理解部232からも入力意味表現を取り込み、
対話の知識や対話の履歴情報を用いて確認応答のための
出力意味表現を生成する。
【0146】この場合、対話管理部234では音声理解
部232からの入力意味表現と人状態検出部233から
の人状態検出意味表現を受け取る際に、対話の状態によ
りそれぞれの意味表現を順に処理したり、優先的に処理
することができ、ユーザの状態や各種の反応を理解し対
話を進めることができるようになっている。
【0147】しかして、ユーザがマットに乗ると人状態
検出部233より人状態検出意味表現1が出力され対話
管理部234に送られる。すると、対話管理部234よ
り挨拶の出力意味表現1が応答生成出力部235に送ら
れ、応答出力として「いらっしゃいませ、ご注文をどう
ぞ」がディスプレイ236およびスピーカ237より出
力される。
【0148】次に、ユーザが「ハンバーガとコーヒー2
つづつ」と入力すると、音声理解部232より入力意味
表現1が出力され対話管理部234に送られる。これに
より対話管理部234では、入力意味表現と注文テーブ
ルの内容を参照し、出力意味表現2を出力し、応答生成
出力部235を通して「ハンバーガ2こにコーヒー2こ
ですね」の応答が出力されるようになる。
【0149】この場合、通常は、図44に示すように
「ハンバーガ2こコーヒー2こですね」「はい」「あり
がとうございました。」というように対話が進んでいく
が、ユーザが途中でマット上から離れてしまったような
場合は図45のようになる。
【0150】すなわち、出力意味表現2の「ハンバーガ
2こにコーヒー2こですね」の応答が出力された後で、
人状態検出部233より人状態検出意味表現2が出力さ
れ、対話管理部234に入力されるようになる。この場
合は、対話管理部234は発話内容の確認を行なわれず
にユーザが立ち去ったことから、注文内容の登録は行な
わずに、出力意味表現4の「ご利用ありがとうございま
した」という自然な応答を出力するようになる。
【0151】このようにして、人状態検出部233を対
話管理部234と組み合わせることにより、ユーザの状
態や反応を理解することが可能となり、自然に対話を進
めることができる。
【0152】なお、本実施例では人の状態検出にマット
を用いたが、これに限られるものではなく、監視カメラ
などの他の方法を用いてもよい。
【0153】次に、このような処理を図46のフローチ
ャートにより説明する。
【0154】この場合、システムは対話管理234にお
いて状態(state)#0,#1,#2,#3を持
ち、初期状態は状態#0である(ステップS281)。
状態#0においては人状態検出意味表現の人状態ACT
が「人存在」であるかを確認し(ステップS282)、
人がいる場合には状態を#1にし、挨拶の出力意味表現
により応答を生成し出力するようになる(ステップS2
83)。
【0155】次に、状態#1において、音声理解部23
2から入力意味表現の発話ACTが注文の場合は(ステ
ップS284,S285)、対話知識に基づいて注文内
容の確認の出力意味表現を送出し応答を出力するように
なる。また、発話ACTがはいの場合は(ステップS2
87)、状態を#2にするとともに、発話アクトはいに
対応する出力意味表現により応答を出力するようになる
(ステップS288)。また、発話ACTがいいえの場
合は(ステップS289)、注文内容の再確認の出力意
味表現を送出し応答を出力するようになる。さらに、人
状態検出意味表現の人状態ACTが「人不在」であるこ
とを確認した場合は(ステップS291)、状態を#3
にする。
【0156】そして、状態#2においては、お礼1とし
て「ありがとうございました」を出力し(ステップS2
93,S294)、状態#3においては、お礼2として
「ご利用ありがとうございました」を出力するようにな
る(ステップS295,S296)。
【0157】次に、本発明の他の実施例を図47により
説明する。
【0158】この実施例は、図1で述べた音声理解部1
1、応答生成出力部13での音声入出力、人状態検出を
行う部分について詳述するものである。
【0159】この場合、音声対話システム全体は図47
に示すように演算部291、メモリ部292、保存部2
93、保存部インターフェース2931、通信部29
4、通信部インターフェース2941、A/D部29
5、マット部296、演算処理部297、D/A部29
8、表示部299から構成されている。
【0160】ここで、A/D部295は、マイク295
1、フィルタ増幅部2952、A/D変換部2953、
A/D変換部インターフェース2954からなってい
る。フィルタ増幅部2952は、マイク2951からの
入力の増幅およびA/D変換のための高域遮断フィルタ
機能を有している。ここでのフィルタの遮断周波数は、
A/D変換のサンプリング周波数で決まるが、例えば1
2kHz でサンプリングする場合には、5.4kHz で
高域周波数成分を遮断するようになる。また、A/D変
換部2953は増幅された入力音声を、例えば16kH
z 又は12kHzでデジタル化し、A/D変換部インタ
ーフェース2954内に一時保存するとともに、演算部
291の制御によりメモリ部292に転送するようにし
ている。
【0161】マット部296はマット2961、マット
制御部2962、マット制御部インターフェース296
3からなっていて、マット2961上での人の存在/不
在をマット制御部2962で検出し、この結果をマット
制御部インターフェース2963を通じて転送するよう
にしている。
【0162】演算処理部297は、高速演算処理部29
71、高速演算処理部インターフェース2972からな
っている。高速演算処理部2971は音声理解処理、応
答生成処理さらには画像処理による人状態検出処理など
の大量な演算に必要な処理に使用する。この場合、この
ような処理は、同時に処理する必要があり、複数の高速
演算処理部2971を同時に使用できるようにしてい
る。また、それぞれの演算処理は、演算部291の制御
の下に入力データをメモリ部292から高速演算処理部
2971に転送し、処理終了後に結果をメモリ部292
に転送するようにしている。
【0163】D/A部298はD/A変換部インターフ
ェース2981、D/A変換部2982、フィルタ増幅
部2983、スピーカ2984からなり、演算部291
の制御の下でメモリ部292に記憶されたデジタルデー
タをD/A変換部インターフェース2981を通じてD
/A変換部2982に転送し、ここで一定周期、例えば
12kHz でアナログデータに変換し、フィルタ増幅部
2983を通してスピーカ2984に出力するようにし
ている。この場合、D/A変換部2982はデータの一
時保存部を有し、メモリ部292からのデータ転送を高
速に行うことで、演算部291が他の処理も行うことが
できるようにしている。
【0164】表示部299は表示制御部インターフェー
ス2991、表示制御部2992、ディスプレイ299
3からなり、演算部291の制御の下で画像、文字、図
形、動画情報、色や輝度、濃度情報の変化などの情報を
表示制御部2992よりディスプレイ2993に表示す
るようにしている。
【0165】通信部294は、外部の計算機、情報処理
器、サービス処理機器などと制御情報データの通信を行
うもので、各データは演算部291の制御により通信部
インターフェース2941を通じてやり取りされる。
【0166】保存部293は、演算部291の制御の下
に音声理解、対話管理、応答生成に必要なデータ、制御
情報、プログラム、中間情報などを保存している。
【0167】演算部291はメモリ部292に記憶され
た各部の情報、実行プログラム、そのためのプログラム
を使用してA/D部295、マット部296、演算処理
部297、D/A部298、通信部294、保存部29
3の制御を行うようにしている。
【0168】ここで、演算部291が実行するプログラ
ムは、図1で述べた音声理解部11、対話管理部12、
応答生成出力部13での処理を行い、マルチタスクの形
式で実行される。そのためのタスクの切り替えは、一定
時間ごとに順次行われるが、各部の処理や入出力が完了
した場合など、処理を優先させる必要がある場合には、
割り込みにより、その処理を優先させる。
【0169】上述ではA/D部295、D/A部298
については、それぞれ個別に動作できるようにしてい
る。これにより、音声入力、合成音出力を同時に、しか
も別々に取り扱うことができるので、合成音出力中でも
音声入力が可能となり、合成音キャンセルにより入力音
声の検出および認識が可能になる。
【0170】しかし、これらA/D部295、D/A部
298の構成として、図48(a)に示すように共通の
A/D、D/A変換部インターフェース301を用いる
ようにしたり、図48(b)に示すように共通のA/
D、D/A変換部インターフェース302、A/D、D
/A変換フィルタ部303および増幅部304を用いる
ようにしてもよい。
【0171】ところが、このような構成では、データの
やり取りを同時に双方向でできず、入力か出力のどちら
かに限られてしまうため、合成音出力中の音声入力の受
付けと同時に合成音を出力することができない。
【0172】この場合、ユーザは音声入力の受付け状態
を知る手段がないときに、受付けられていない発話につ
いての応答を待ったり、発話の前半が入力されなかった
りする不都合が生じる。そこで、音声の入出力許可状態
を画像表示することによりユーザに対して計算機側が音
声の入出力許可状況を伝えることができる。特に、画像
表示と文字表示を組み合わせることで、例えば、図49
に示すように「くちびる」と「SPEAK」により発声
できる状態、図50に示すように封止された「くちび
る」と「LISTEN」により発声できない状態をそれ
ぞれ表示することができる。
【0173】このように各入出力機器の状態、状況を別
の出力機器により伝えることができ、より自然で分かり
やすい対話が可能になる。さらに、各入出力機器の状況
だけでなく、ユーザに対し重要なことで注意して聞いて
もらう必要がある場合や対話管理において音声入力を行
ってほしくない場合などにも画像表示と文字表示の組み
合わせや、さらに色や輝度、濃度の変化などにより注意
を促すことができる。
【0174】本発明は、上記実施例にのみ限定されず、
要旨を変更しない範囲で、適宜変形して実施できる。
【0175】
【発明の効果】以上説明したように、本発明では、シス
テム側からユーザへ応答を出力する際に、音声応答の他
に、人物(の顔)を表示システムに対する親近感を持た
せると同時に音声応答と同期して口を動かし、ユーザの
注目点を定め、使い勝手を向上させている。また、同一
画面上に、音声応答の品質の低さをカバーするため音声
応答文もテキスト・データの形で表示し、音声の発話速
度よりも速くユーザは応答文を受けとることを可能とす
る。さらに、同一画面上に応答内容を視覚化(Visu
alization)したものを表示し、種々の応用に
適した形態で伝達すべき重要なメッセージの意味や内容
を、人物表示音声応答や音声応答文と同期させて出力す
ることにより、ユーザが一見してわかるようなシステム
側からユーザへの高速なメッセージの伝達が実現でき
る。
【0176】以上のように種々の形態の応答をシステム
側から同一画面上に並行にユーザに出力するため、ユー
ザは状況に応じて適当な個々の応答を選択したり、2種
類、あるいは、3種類の形態の応答データを同時に受け
とることが可能となり各メディアの有する特徴を活かす
という効果が得られ、ユーザにとっての自由度が増し、
使い勝手のよいマルチモーダルなヒューマンインターフ
ェースが実現できる。
【0177】この結果、従来問題であった音声対話シス
テムの音声確認部の誤確認や曖昧性に基づく不完全さ
を、対話によりスピーディに効率的にカバーし、対話の
進行により、ユーザの意図していることの理解が容易に
なる。
【0178】また、入力側にマットやカメラ等による人
状態検出手段を設け、ユーザ検出とともに、単に合成音
を出すだけではなく表示画面上の人物の顔を明るくし、
笑顔にするようにもできるので、対話のタイミングが良
くなるばかりでなく、ユーザが驚かずに安心して使える
ユーザフレンドリーな音声インターフェースが実現でき
る。さらに、マルチモーダル音声対話システムに適用す
ることにより、使い勝手の良い自然なシステムが得ら
れ、コンピュータの操作性が著しく向上するという効果
が得られる。
【0179】また、音声応答のキャンセル機能を加える
ことにより、音声応答中にでも画面表示結果をユーザが
みて、常時、割り込む(Interrupt)ことが可
能になり、スピーディーな音声による対話が可能であ
り、音声認識性能が低い場合でも対話のやり取りでカバ
ーし、意図の伝達やデータ入力の能率を大幅に改善でき
る。
【0180】以上を総合すると本発明では、音声認識と
音声合成と対話管理機能を具備する音声対話システムに
おいて、システム側からユーザへの応答に際して時系列
情報である音声応答と並行して、応答内容の可視化を行
い、特に、表情やジェスチャーの表示、品物やサイズ、
種別等の対償物(オブジェクト)の表示、応答文の文字
出力を並行して行うことができることから、ユーザは同
時に様々な観点から応答を受け取ることがてきるように
なり、自由度が増し、必要に応じて正確な情報を選択で
き、親しみ易さ、効率、快適さの改善、目や耳の疲労度
の軽減等に効果的である。
【図面の簡単な説明】
【図1】本発明の一実施例の概略構成を示す図。
【図2】音声理解部の詳細構成を示す図。
【図3】キーワード候補系列を説明するための図。
【図4】入力意味表現の一例を示す図。
【図5】キーワードの内容を示す図。
【図6】出力意味表現の一例を示す図。
【図7】注文テーブルの一例を示す図。
【図8】旧注文テーブルの一例を示す図。
【図9】対話管理部の内部における状態遷移の一例を示
す図。
【図10】ユーザ状態の処理を説明するためのフローチ
ャート。
【図11】システム状態の処理を説明するためのフロー
チャート。
【図12】対話処理の具体的な例を示す図。
【図13】図12に示す対話処理におけるユーザ状態の
処理を説明するための図。
【図14】対話処理におけるシステム状態の処理を説明
するための図。
【図15】図14における対話処理の具体的な例を示す
図。
【図16】システムからの出力応答文の例を示す図。
【図17】ユーザの発声速度の求め方を説明する図。
【図18】対話管理部の出力の一例を示す図。
【図19】応答生成出力部の詳細構成を示す図。
【図20】人物像情報の一例を示す図。
【図21】応答文型の例を示す図。
【図22】応答文生成部における応答文の生成のフロー
チャートと具体例を示す図。
【図23】人物像表情決定部の一例を示す図。
【図24】感情・強調決定部の一例を示す図。
【図25】音声応答生成部の詳細構成を示す図。
【図26】基本周波数パターンモデルの一例を示す図。
【図27】喜びを併う応答の場合の基本周波数パターン
の変化を示す図。
【図28】悲しみを併う応答の場合の基本周波数パター
ンの変化を示す図。
【図29】音声波形生成部の具体的構成の一例を示す
図。
【図30】出力呈示順序の時間制御の例を示すタイミン
グチャート。
【図31】出力呈示順序の時間制御の他の例を示すタイ
ミングチャート。
【図32】出力呈示順序の時間制御の他の例を示すタイ
ミングチャート。
【図33】出力呈示順序の時間制御の他の例を示すタイ
ミングチャート。
【図34】表示画面での表示例を示す図。
【図35】表示画面での表示例を示す図。
【図36】表示画面での表示例を示す図。
【図37】表示画面での表示例を示す図。
【図38】表示画面での表示例を示す図。
【図39】表示画面での表示例を示す図。
【図40】表示画面での表示例を示す図。
【図41】対話処理の手順を簡単にまとめて示す図。
【図42】本発明の他の実施例の概略構成を示す図。
【図43】人状態検出部を説明するための図。
【図44】図42に示す他の実施例の動作を説明するた
めの図。
【図45】図42に示す他の実施例の動作を説明するた
めの図。
【図46】図42に示す他の実施例の動作を説明するた
めのフローチャート。
【図47】本発明の他の実施例の概略構成を示す図。
【図48】図47に示す他の実施例の一部を変形した例
を示す図。
【図49】表示画面での表示例を示す図。
【図50】表示画面での表示例を示す図。
【符号の説明】
11,232 音声理解部 12,234 対話管理部 13,235 応答生成部 14,236 ディスプレイ 15,237 スピーカ 21 キーワード検出部 21a 音声分析部 21b キーワードスポッティング処理部 22 構文意味解析部 22a 文始端判定部 22b 文候補解析部 22c 文終端判定部 22d 文候補テーブル 231 音声入力部 233 人状態検出部 291 演算部 292 メモリ部 293 保存部 294 通信部 295 A/D部 296 マット部 297 演算処理部 298 D/A部 299 表示部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.5 識別記号 庁内整理番号 FI 技術表示箇所 G10L 3/00 571 H 8842−5H (72)発明者 坪井 宏之 神奈川県川崎市幸区小向東芝町1 株式会 社東芝研究開発センター内 (72)発明者 貞本 洋一 神奈川県川崎市幸区小向東芝町1 株式会 社東芝研究開発センター内 (72)発明者 山下 泰樹 神奈川県川崎市幸区小向東芝町1 株式会 社東芝研究開発センター内 (72)発明者 永田 仁史 神奈川県川崎市幸区小向東芝町1 株式会 社東芝研究開発センター内 (72)発明者 瀬戸 重宣 神奈川県川崎市幸区小向東芝町1 株式会 社東芝研究開発センター内 (72)発明者 新地 秀昭 東京都青梅市新町1385番地 東芝ソフトウ ェアエンジニアリング株式会社内 (72)発明者 橋本 秀樹 東京都青梅市新町1385番地 東芝ソフトウ ェアエンジニアリング株式会社内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声入力が与えられ該入力される音声の
    意味内容を理解する音声理解手段と、 この音声理解手段での理解結果に基づいて対応内容の意
    味的な決定を行う対話管理手段と、 この対話管理手段で決定された応答内容に基づいて音声
    応答出力および画面表示出力を生成する応答生成手段
    と、 この応答生成手段で生成された音声応答出力および画面
    表示出力を出力する出力手段とを具備することを特徴と
    する音声対話システム。
  2. 【請求項2】 音声入力が与えられ該入力される音声の
    意味内容を理解する音声理解ステップと、 この音声理解ステップでの理解結果に基づいて応答内容
    の意味的な決定を行う対話管理ステップと、 この対話管理ステップで決定された応答内容に基づいて
    音声応答出力および画面表示出力を生成する応答生成ス
    テップと、 この応答生成ステップで生成された音声応答出力および
    画面表示出力を出力する出力ステップとをから成ること
    を特徴とする音声対話方法。
  3. 【請求項3】 音声入力が与えられ該入力される音声の
    意味内容を理解する音声理解手段と、 この音声理解手段での理解結果に基づいてシステム応答
    出力を出力する応答出力手段と、 システムとユーザとの対話を、前記音声理解手段に音声
    入力が与えられるユーザ状態と前記応答出力手段からシ
    ステム応答出力が出力されるシステム状態との間の状態
    遷移を制御することにより、管理する対話管理手段とを
    具備することを特徴とする音声対話システム。
  4. 【請求項4】 音声入力が与えられ該入力される音声の
    意味内容を該音声入力中のキーワードを検出することに
    より理解する音声理解手段と、 システムとユーザとの対話の状態に応じて、前記音声理
    解手段により検出する音声入力中のキーワードを予め制
    限しておく対話管理手段と、 前記音声理解手段での理解結果に基づいてシステム応答
    出力を出力する応答出力手段とを具備することを特徴と
    する音声対話システム。
JP4309093A 1991-11-18 1992-11-18 音声対話システム Pending JPH05216618A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4309093A JPH05216618A (ja) 1991-11-18 1992-11-18 音声対話システム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP3-329475 1991-11-18
JP32947591 1991-11-18
JP4309093A JPH05216618A (ja) 1991-11-18 1992-11-18 音声対話システム

Related Child Applications (2)

Application Number Title Priority Date Filing Date
JP2000272353A Division JP3667615B2 (ja) 1991-11-18 2000-09-07 音声対話方法及びそのシステム
JP2000272335A Division JP3667614B2 (ja) 1991-11-18 2000-09-07 音声対話方法及びそのシステム

Publications (1)

Publication Number Publication Date
JPH05216618A true JPH05216618A (ja) 1993-08-27

Family

ID=26565821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4309093A Pending JPH05216618A (ja) 1991-11-18 1992-11-18 音声対話システム

Country Status (1)

Country Link
JP (1) JPH05216618A (ja)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07191687A (ja) * 1993-12-27 1995-07-28 Toshiba Corp 自然言語処理装置及びその方法
JPH07230299A (ja) * 1994-02-17 1995-08-29 Sanyo Electric Co Ltd 音声認識装置
JPH07261793A (ja) * 1994-03-22 1995-10-13 Mitsubishi Electric Corp 対話処理装置
JPH07282081A (ja) * 1994-04-12 1995-10-27 Matsushita Electric Ind Co Ltd 音声対話型情報検索装置
JPH08146989A (ja) * 1994-11-17 1996-06-07 Canon Inc 情報処理装置及びその制御方法
JPH08146991A (ja) * 1994-11-17 1996-06-07 Canon Inc 情報処理装置及びその制御方法
JPH08166866A (ja) * 1994-10-14 1996-06-25 Hitachi Ltd 対話型インターフェースを具備した編集支援システム
JPH08211986A (ja) * 1995-02-08 1996-08-20 Sharp Corp あいづち応答のある対話装置
JPH08266747A (ja) * 1995-03-31 1996-10-15 Matsushita Electric Ind Co Ltd 音声認識装置、反応装置、反応選択装置及びこれらを用いた反応玩具
JPH096390A (ja) * 1995-06-22 1997-01-10 Seiko Epson Corp 音声認識対話処理方法および音声認識対話装置
JPH0916800A (ja) * 1995-07-04 1997-01-17 Fuji Electric Co Ltd 顔画像付き音声対話システム
JPH10133850A (ja) * 1996-10-31 1998-05-22 Toshiba Corp 音声入力機能を有するコンピュータ及び音声制御方法
JPH11109989A (ja) * 1997-10-02 1999-04-23 Toyota Motor Corp 音声認識装置
JPH11506845A (ja) * 1995-09-11 1999-06-15 ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置
JPH11175082A (ja) * 1997-12-10 1999-07-02 Toshiba Corp 音声対話装置及び音声対話用音声合成方法
JP2000259170A (ja) * 1999-02-10 2000-09-22 Internatl Business Mach Corp <Ibm> 音声認識システムにユーザを登録する方法および装置
JP2001034289A (ja) * 1999-07-16 2001-02-09 Nec Corp 自然言語を用いた対話システム
JP2001142484A (ja) * 1991-11-18 2001-05-25 Toshiba Corp 音声対話方法及びそのシステム
JP2001142483A (ja) * 1991-11-18 2001-05-25 Toshiba Corp 音声対話方法及びそのシステム
JP2001175274A (ja) * 1999-12-15 2001-06-29 Kenwood Corp Avシステム
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
JP2002049866A (ja) * 2000-08-02 2002-02-15 Teruya:Kk 双方向通信メディアにおける顧客管理及びサービス方法
US6397188B1 (en) 1998-07-29 2002-05-28 Nec Corporation Natural language dialogue system automatically continuing conversation on behalf of a user who does not respond
JP2002543445A (ja) * 1999-02-23 2002-12-17 ユニシス コーポレイシヨン 対話の設計およびシミュレーションのための装置
JP2003022092A (ja) * 2001-07-09 2003-01-24 Fujitsu Ten Ltd 対話システム
JP2003316388A (ja) * 2002-04-22 2003-11-07 Toshiba Tec Corp 音声入力装置及びその方法並びに音声入力プログラム
JP2007010754A (ja) * 2005-06-28 2007-01-18 Canon Inc ユーザインターフェース装置及び方法
WO2007077703A1 (ja) * 2006-01-06 2007-07-12 Pioneer Corporation 音声認識装置、表示方法及び表示処理プログラム
JP2007219385A (ja) * 2006-02-20 2007-08-30 Internatl Business Mach Corp <Ibm> 音声対話システム
JP2009210703A (ja) * 2008-03-03 2009-09-17 Alpine Electronics Inc 音声認識装置
US7809573B2 (en) 2003-05-21 2010-10-05 Panasonic Corporation Voice output apparatus and voice output method
JPWO2016002879A1 (ja) * 2014-07-02 2017-04-27 ヤマハ株式会社 音声合成装置、音声合成方法およびプログラム
JP2022107933A (ja) * 2021-01-12 2022-07-25 智久 末重 対話システム

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142484A (ja) * 1991-11-18 2001-05-25 Toshiba Corp 音声対話方法及びそのシステム
JP2001142483A (ja) * 1991-11-18 2001-05-25 Toshiba Corp 音声対話方法及びそのシステム
JPH07191687A (ja) * 1993-12-27 1995-07-28 Toshiba Corp 自然言語処理装置及びその方法
JPH07230299A (ja) * 1994-02-17 1995-08-29 Sanyo Electric Co Ltd 音声認識装置
JPH07261793A (ja) * 1994-03-22 1995-10-13 Mitsubishi Electric Corp 対話処理装置
JPH07282081A (ja) * 1994-04-12 1995-10-27 Matsushita Electric Ind Co Ltd 音声対話型情報検索装置
JPH08166866A (ja) * 1994-10-14 1996-06-25 Hitachi Ltd 対話型インターフェースを具備した編集支援システム
JPH08146989A (ja) * 1994-11-17 1996-06-07 Canon Inc 情報処理装置及びその制御方法
JPH08146991A (ja) * 1994-11-17 1996-06-07 Canon Inc 情報処理装置及びその制御方法
JPH08211986A (ja) * 1995-02-08 1996-08-20 Sharp Corp あいづち応答のある対話装置
JPH08266747A (ja) * 1995-03-31 1996-10-15 Matsushita Electric Ind Co Ltd 音声認識装置、反応装置、反応選択装置及びこれらを用いた反応玩具
JPH096390A (ja) * 1995-06-22 1997-01-10 Seiko Epson Corp 音声認識対話処理方法および音声認識対話装置
JPH0916800A (ja) * 1995-07-04 1997-01-17 Fuji Electric Co Ltd 顔画像付き音声対話システム
JPH11506845A (ja) * 1995-09-11 1999-06-15 ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置
JPH10133850A (ja) * 1996-10-31 1998-05-22 Toshiba Corp 音声入力機能を有するコンピュータ及び音声制御方法
JPH11109989A (ja) * 1997-10-02 1999-04-23 Toyota Motor Corp 音声認識装置
JPH11175082A (ja) * 1997-12-10 1999-07-02 Toshiba Corp 音声対話装置及び音声対話用音声合成方法
US6397188B1 (en) 1998-07-29 2002-05-28 Nec Corporation Natural language dialogue system automatically continuing conversation on behalf of a user who does not respond
JP2000259170A (ja) * 1999-02-10 2000-09-22 Internatl Business Mach Corp <Ibm> 音声認識システムにユーザを登録する方法および装置
JP2002543445A (ja) * 1999-02-23 2002-12-17 ユニシス コーポレイシヨン 対話の設計およびシミュレーションのための装置
JP2001034289A (ja) * 1999-07-16 2001-02-09 Nec Corp 自然言語を用いた対話システム
JP2001175274A (ja) * 1999-12-15 2001-06-29 Kenwood Corp Avシステム
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
JP2002049866A (ja) * 2000-08-02 2002-02-15 Teruya:Kk 双方向通信メディアにおける顧客管理及びサービス方法
JP2003022092A (ja) * 2001-07-09 2003-01-24 Fujitsu Ten Ltd 対話システム
JP2003316388A (ja) * 2002-04-22 2003-11-07 Toshiba Tec Corp 音声入力装置及びその方法並びに音声入力プログラム
US7809573B2 (en) 2003-05-21 2010-10-05 Panasonic Corporation Voice output apparatus and voice output method
JP2007010754A (ja) * 2005-06-28 2007-01-18 Canon Inc ユーザインターフェース装置及び方法
JP4702936B2 (ja) * 2005-06-28 2011-06-15 キヤノン株式会社 情報処理装置及び制御方法、プログラム
WO2007077703A1 (ja) * 2006-01-06 2007-07-12 Pioneer Corporation 音声認識装置、表示方法及び表示処理プログラム
JP2007219385A (ja) * 2006-02-20 2007-08-30 Internatl Business Mach Corp <Ibm> 音声対話システム
JP2009210703A (ja) * 2008-03-03 2009-09-17 Alpine Electronics Inc 音声認識装置
JPWO2016002879A1 (ja) * 2014-07-02 2017-04-27 ヤマハ株式会社 音声合成装置、音声合成方法およびプログラム
US10224021B2 (en) 2014-07-02 2019-03-05 Yamaha Corporation Method, apparatus and program capable of outputting response perceivable to a user as natural-sounding
JP2019045867A (ja) * 2014-07-02 2019-03-22 ヤマハ株式会社 音声制御方法、音声制御装置およびプログラム
JP2022107933A (ja) * 2021-01-12 2022-07-25 智久 末重 対話システム

Similar Documents

Publication Publication Date Title
JPH05216618A (ja) 音声対話システム
US5577165A (en) Speech dialogue system for facilitating improved human-computer interaction
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
US20200279553A1 (en) Linguistic style matching agent
JP4363590B2 (ja) 音声合成
JP4085130B2 (ja) 感情認識装置
JP2006098993A (ja) 音声処理装置およびそのためのコンピュータプログラム
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
Santra et al. Development of GUI for text-to-speech recognition using natural language processing
JP4729902B2 (ja) 音声対話システム
WO2012009045A1 (en) Modification of speech quality in conversations over voice channels
JP2000214764A (ja) 手話メ―ル装置
JP3667615B2 (ja) 音声対話方法及びそのシステム
JP2011504624A (ja) 自動同時通訳システム
Delgado et al. Spoken, multilingual and multimodal dialogue systems: development and assessment
KR20220165666A (ko) 자연어로 표현된 스타일 태그를 이용한 합성 음성 생성 방법 및 시스템
JPH10326176A (ja) 音声対話制御方法
JP2003271194A (ja) 音声対話装置及びその制御方法
JPH11237971A (ja) 音声応答装置
JP2005215888A (ja) テキスト文の表示装置
JP3667614B2 (ja) 音声対話方法及びそのシステム
JP2003099089A (ja) 音声認識・合成装置および方法
Reddy et al. Speech-to-Text and Text-to-Speech Recognition Using Deep Learning
JP2005258235A (ja) 感情発話検知による対話修正機能を備えた対話制御装置
Rajole et al. Voice Based E-Mail System for Visually Impaired Peoples Using Computer Vision Techniques: An Overview