JP3667614B2 - Spoken dialogue method and system - Google Patents

Spoken dialogue method and system Download PDF

Info

Publication number
JP3667614B2
JP3667614B2 JP2000272335A JP2000272335A JP3667614B2 JP 3667614 B2 JP3667614 B2 JP 3667614B2 JP 2000272335 A JP2000272335 A JP 2000272335A JP 2000272335 A JP2000272335 A JP 2000272335A JP 3667614 B2 JP3667614 B2 JP 3667614B2
Authority
JP
Japan
Prior art keywords
output
response
unit
voice
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000272335A
Other languages
Japanese (ja)
Other versions
JP2001142483A (en
Inventor
洋一 竹林
宏之 坪井
洋一 貞本
泰樹 山下
仁史 永田
重宣 瀬戸
秀昭 新地
秀樹 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Development and Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Digital Media Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Media Engineering Corp filed Critical Toshiba Corp
Priority to JP2000272335A priority Critical patent/JP3667614B2/en
Publication of JP2001142483A publication Critical patent/JP2001142483A/en
Application granted granted Critical
Publication of JP3667614B2 publication Critical patent/JP3667614B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、音声認識や音声合成を含む各種の入出力手段を利用する音声対話システムに関するものである。
【0002】
【従来の技術】
近年、文字、音声、図形、映像などのマルチメディアを入力、出力および加工処理することで、人間とコンピュータとの対話(Human-Computer Interaction)を様々な形態で行うことが可能になっている。
【0003】
特に、最近になってメモリ容量や計算機のパワーが飛躍的に向上したことでマルチメディアを扱えるワークステーションやパーソナルコンピュータが開発され、種々のアプリケーションが開発されてきているが、これらはいずれも単に種々のメディアを出し入れするだけのもので各種メディアを有機的に融合するまでに至っていない。
【0004】
一方、従来からの数値データに代わって文字を含む言語データが一般的になり、白黒のイメージデータはカラー化や図形、アニメーション、三次元グラフィックス、さらには動画が扱えるように拡張されてきている。また、音声やオーディオ信号についても、単なる音声の信号レベルの入出力の他に音声認識や音声合成の機能が研究開発されつつあるが、ヒューマンインターフェースとして使用するには性能が不安定で実用化は限定された分野に限られているのが現状である。
【0005】
すなわち、上述したように文字、テキスト、音声、グラフィックデータなどについては、従来の入出力処理(記録−再生)から各種メディアの理解や生成機能へと発展が続いている。換言すると、各メディアの表層的処理からメディアの内容や構造、意味的内容を扱い、人間と計算機の対話をより自然に快適に行うことを目的とした音声やグラフィックスなどのメディアの理解や生成を利用する対話システムの構築が検討されつつある。
【0006】
しかして、音声認識については、孤立単語認識から連続単語認識、連続音声認識へと発展しており、実用化のために応用を限定した方向(task-oriented )でも開発が進められている。このような応用場面では、音声対話システムとしては、音声の文字面の認識よりも音声の発話内容の理解が重要であり、例えば、キーワードスポッティングをベースに応用分野の知識を利用した音声理解システムも研究されてきている。一方、音声合成についても従来の文−音声変換(text-to-speech)システムからイントネーションを重視した対話用の音声合成システムの研究が例えば本発明者等によって行われてきており、音声対話への応用が期待されている。
【0007】
しかし、音声などのメディアの理解と生成は単なるデータの入出力と異なり、メディアの変換の際には情報の欠落やエラーが不可避である。すなわち、音声理解は情報量の多い音声パターンデータから音声の発話の内容や発話者の意図を抽出する処理であり、情報の圧縮を行う過程で音声認識エラーや曖昧性が生じる。従って、音声対話システムとしては上述した認識エラーや曖昧性などの音声認識の不完全さに対処するためシステム側からユーザに適切な質問や確認を行い対話制御によりスムーズに対話を進行する必要がある。
【0008】
ところで、対話システム側からユーザに何等かの対話をする場合、音声認識の不完全さをカバーし、計算機の状況を適確に伝えることが、使い勝手のよいヒューマンインターフェースとして重要である。ところが、従来の音声対話システムでは、音声応答として単に文を棒読みするテキスト合成が行われることが多かったためメリハリがなく聞ずらかったり、冗長であることがあった。あるいは、音声応答がなく、計算機からの応答はすべてテキストとして画面上に応答文を表示したり、あるいは図形データや映像、アイコンや数値を表示するシステムが一般的であり、視覚への負担が重くなっていた。
【0009】
このように最近では、上述したいろいろな対話システムが開発されてきているが、音声認識の不完全さに対処するためのシステム側からの応答における種々のメディアの利用に関する検討は、これまで十分になされておらず、音声認識技術の大きな問題となっていた。言い換えると、音声認識は、不安定であり、雑音や不要語に対して弱く、ユーザの意図が音声で効率よく伝えることが困難であるため、電話などの音声メディアだけにしか使えないような制約の強い場面に応用が限られていた。
【0010】
【発明が解決しようとする課題】
このように従来の音声認識、合成技術を利用した音声対話システムでは、それぞれ別個に開発された音声認識、音声合成、画面表示の各技術を単に組み合わせただけのものであり、音声の対話という観点からの十分な考慮がなされていない。すなわち、音声認識機能には、認識誤りや曖昧性があり、音声合成機能は人間の発声よりも明瞭度が悪く、イントネーションの制御も不十分のため意図や感情の伝達能力が不足しており、自然性に欠けるという根本的な問題がある。また、システム側での音声認識結果を用いて妥当な応答を生成するのも、現状の技術では不十分である。一方、応答を音声と組み合わせて画像表示することにより伝達能力が向上することが期待できるが、瞬間的に連続で時系列的な音声応答に対して二次元平面的、三次元空間的な画面表示をどのように活用し、両者のタイミングを制御するかは未解決の問題である。また、他のメディアを利用する音声対話システムとして何を表示すべきか大切な課題である。
【0011】
本発明は、上記事情に鑑みてなされたもので、システムとユーザの音声対話を効率よく、しかも正確に行うことができ、使い勝手の著しい改善を可能にした音声対話システムを提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明は、音声入力が与えられ該入力される音声の意味内容を理解する音声理解手段、音声理解手段での理解結果に基づいて応答内容の意味的な決定を行う対話管理手段、対話管理手段で決定された応答内容に基づいて音声応答出力および画面表示出力を生成する応答生成手段、応答生成手段で生成された音声応答出力および画面表示出力を出力する出力手段により構成されている。
【0013】
対話管理手段は音声理解手段の理解結果に基づいて音声応答を行う発話者の人物像に関する人物像情報、音声応答に対応する発声文の応答内容テキスト情報および音声応答の内容に関連した理解内容を可視化する可視化情報をそれぞれ応答内容として出力するようにしている。
【0014】
応答生成手段は対話管理手段より出力される音声応答を行う発話者の人物像情報に基づいて人物像の動作および表情の少なくとも一方の画面表示出力を生成するようにしている。
【0015】
また、応答生成手段は対話管理手段より出力される音声応答を行う発話者の人物像情報に基づいて人物像の動作および表情の少なくとも一方の画面表示出力を生成するとともに各画面表示に対応する音声の感情または強弱を有する音声応答出力を生成するようにしている。
【0016】
さらに、人の動きに関する人状態を検出する人状態検出手段を有し、該人状態検出手段の検出結果に基づいて対話管理手段にて応答内容の意味的な決定を行うようにしている。
【0017】
そして、音声入力が可能か否かのアイコンを表示可能にしている。
【0018】
また、本発明は、音声入力が与えられ該入力される音声の意味内容を理解し、理解した前記各意味内容に対して該意味内容の確からしさの度合いに関するスコア付けを行う音声理解手段と、前記入力意味表現のうち最も確からしさの度合いが高い入力意味表現を選択し、選択した前記入力意味表現の該意味内容と該スコアに応じて出力意味表現を生成する対話管理手段と、前記出力意味表現に応じてシステム応答出力を出力する応答出力手段とを具備し、対話管理手段は、前記音声理解手段に音声入力が与えられるユーザ状態と前記応答出力手段からシステム応答出力が出力されるシステム状態との間の状態遷移を制御することにより、システムとユーザとの対話を管理することを特徴とする。
【0019】
さらに本発明は、音声入力が与えられ該入力される音声の意味内容を該音声入力中のキーワードを検出することにより理解する音声理解手段と、システムとユーザとの対話の状態に応じて、前記音声理解手段により検出する音声入力中のキーワードを予め制限しておく対話管理手段と、前記音声理解手段での理解結果に基づいてシステム応答出力を出力する応答出力手段とを具備することを特徴とする。
【0020】
【作用】
この結果、本発明は、ユーザとシステムとの間の対話を行う際に、音声認識、音声応答に加えて、システム側からユーザへの応答出力として応答の画面表示を併用するようになる。この時、システム側からの音声の発話者に対応する人物像の表示を行うことにより、発話者のイメージがシステムの機能を代表するようになり、ユーザは画面上の人物に向かって発声することを自然に行うことができ、また、画面上の人物の口の動きや表情で対話の進行状況や音声認識の信頼性を把握できる。
【0021】
一方、システムからの応答内容に関しては、応答文を表す文字列を表示するほか、対象物(例えば商品、概念などの物や事)や数などについては図形などで表示することから、応答内容をユーザに素早く伝えることもできる。さらに、音声認識は、誤認識や曖昧性が多発する不完全なものであり、音声の内容を理解する際に、ユーザの意図しない誤った情報が計算機側に伝えられることがあるが、音声応答の他に、視覚による各応答表示を並行して用いることで、音声対話の効率を大幅に向上させ、自然性や使い勝っての改善を可能にできる。また、音声合成音は、自然音声に比べて低いので、発話者の表情、応答文、応答内容の視覚化を併用することは対話の改善に極めて有用である。
【0022】
【実施例】
以下、本発明の一実施例を図面に従い説明する。
【0023】
図1は音声対話システムとしての画面表示を加えたシステムの概略構成を示している。
【0024】
音声対話システムは、入力される音声の意味内容を理解する音声理解部11、音声理解部11での理解結果に基づいて応答内容の意味的な決定を行う対話管理部12、対話管理部12で決定された応答内容に基づいて音声応答出力および画面表示出力を生成する応答生成出力部13、応答生成出力部13で生成された画面表示を出力する画面表示出力部14および音声応答を出力する音声出力部15により構成されている。
【0025】
音声理解部11は、音声の文字面の認識、すなわち単語や文の認識でなく、ユーザの発話した入力音声の理解を行い意味内容を抽出する。そして、理解した意味内容を表す入力意味表現を生成し対話管理部12に送る。
【0026】
対話管理部12では入力音声の入力意味表現に対して、対話の履歴や現在の対話の状態に関する情報と対話の進行方法や応用分野の知識を用いて応答内容の意味的な決定を行ない、音声応答に対応する発声文の応答内容情報を応答生成出力部13に出力する。
【0027】
さらに、対話管理部12では、省略や指示代名詞を含む話し言葉を処理し、音声理解の性能向上や処理量の削減とともに自然な対話を可能にしている。また、対話管理部12は、ディスプレイ14に表示出力されて音声応答を行う発話者の人物像情報、および音声応答の内容に関連した理解内容の可視化する情報である可視化情報を応答生成出力部13に出力する。
【0028】
また、対話管理部12で生成された出力意味表現を音声理解部11へ送り、出力意味表現から次の発話のキーワードや構文的意味的規則を絞り、次の発話の音声理解性能の向上をはかることが可能となる。
【0029】
応答生成出力部13は対話管理部12から入力された応答内容情報に基づいて生成された応答文を合成音声でスピーカー15より出力するとともに、人物像情報および応答文に基づいて動作や表情が決定された音声応答を行う人物像をディスプレイ14に視覚的に表示し、また、それまでの対話によりシステムが理解した内容を分かりやすく可視化するための情報である可視化情報に基づき生成された内容可視化情報をディスプレイ14に視覚的に表示して、複数のメディアを利用してマルチモーダル的に応答をユーザに提示する。つまり、オーディオ情報と視覚情報を併用してユーザに提示することにより音声対話システムのヒューマンインターフェースが改善され、自然な対話が可能となる。
【0030】
また、応答生成部13から現在応答を出力中である旨の情報を対話管理部12に送る。対話管理部12では、上記情報を音声理解部11へ送り、例えば入力音声の終始端検出処理や、キーワード検出処理のタイミングを制御することにより音声理解性能の向上をはかることが可能となる。
【0031】
次に、上述した音声対話システムの各部について、ここでは応用としてファースト・フードでの注文タスクを想定してさらに詳しく説明する。
【0032】
まず音声理解部11について説明する。音声理解部11については、先に述べたようにここでの役割は、テキスト入力や音声ワードプロセッサのように文字面を認識するのではなく音声の意味内容や発話者の意図や状況を理解することを目的としている。
【0033】
この場合、不特定ユーザを対象とする券売機、航空機や列車の座席予約システム、銀行の現金自動引出機などでは、話者間の音声の違い、不要語、口語の話し方の違い、雑音の影響などにより実際に音声認識技術を応用しても十分な認識性能が期待できないことがあり、とくに発話された文の高精度認識に困難を極めている。これについて、連続発声された音声から、まずキーワードの候補列を解析して発話内容を理解する方法が例えば文献(坪井宏之、橋本秀樹、竹林洋一:“連続音声理解のためのキーワードラティスの解析”日本音響学会講演論文集、1−5−11、pp.21−22、1991−10)に提案されており、この方法を用いれば、限定した応用では、利用者の発話に極力制限を設けずに、自由な発声を高速に理解できるようになる。
【0034】
図2は、上述したキーワードを利用した音声理解部11の概略構成を示している。
【0035】
この場合、音声理解部11は、キーワード検出部21と構文意味解析部22から構成している。そして、キーワード検出部21は、音声分析部21aとキーワードスポッティング処理部21bにより構成し、構文意味解析部22は文始端判定部22a、文候補解析部22b、文終端判定部22c、文候補テーブル22dにより構成している。
【0036】
キーワード検出部21では、音声分析部21aにより入力音声をローパスフィルタ(LPF)を通し標本化周波数12kHz 、量子化ビット12bitsでA/D変換してディジタル信号に変換し、次いで、スペクトル分析、さらにはFFTを用いたのちに周波数領域での平滑化をそれぞれ行い、さらに対数変換を行って16チャンネルのバンドパスフィルタ(BPF)より8msごとに音声分析結果を出力し、この出力に対してキーワードスポッティング処理が実行される。この場合のキーワードスポッティング処理は、例えば文献(金沢、坪井、竹林:”不要語を含む連続音声中からの単語検出”電子情報通信学会音声研究会資料、sp91−22、pp.33−39、1991−6)に開示された方式により行うことができる。
【0037】
これによりキーワード検出部21では、連続した入力音声よりキーワードの候補系列(ラティス)を抽出するようになる。図3は、ファースト・フード店での店頭での注文のやりとりを音声対話で行うのに適用した場合の連続入力音声「ハンバーガとポテトとコーヒー3つ下さい」より抽出されたキーワードの候補系列の例を示している。
【0038】
なお、上述の音声分析やキーワード検出処理は、他の文献(“高速DSPボードを用いた音声認識システムの開発“日本音響学会講演論文集、3−5−12、1991−3)にあるようなDSPボードを用いることでリアルタイム処理も可能である。
【0039】
次に、このようにして検出されたキーワード候補系列が構文意味解析部22により構文意味解析され、図4に示すような音声入力に対する入力意味表現が求められる。
【0040】
ここでは応用をファースト・フードのタスクに限定しており、フレーム形式の入力意味表現は、入力発話が注文処理の種類を表すACTフレームと注文内容を表す注文品フレームから構成される。そして、ACTフレームには“注文”、“追加”、“削除”、“置換”など、注文に関する処理についての意味情報が表現され、一方、注文品フレームには、品名、サイズ、個数のスロットからなる、注文品の内容を表現できるようにしている。
【0041】
即ち、キーワード検出部21で得られキーワードラティスは構文意味解析部22に送られる。構文意味解析部22は、文始端判定部22a、文候補処理部22b、文終端判定部22cから成り、文候補テーブル22dを持つ。構文意味解析部22は、キーワードラティス中の個々の単語を左から右に向かって処理していく。
【0042】
文始端判定部22aは、現在処理している単語が文の始端となりうるか否かを構文的意味的制約により判定する。もしそれが文の始端となりうるならば、その単語を新しい部分文候補として、文候補テーブル22dに登録する。
【0043】
文候補解析部22bは、当該単語および文候補テーブル22d中の各部分文候補に関して、構文的意味的時間的制約から、それらが接続しうるか否かを判定する。もし接続しうるならば、部分文候補をコピーし、それに入力単語を接続し、それを文候補テーブル22dに登録する。
【0044】
文終端判定部22cは、直前に文候補解析部22bで処理された部分文候補が、構文的意味的に文として成立しうるか否かを判定し、成立するならばその部分文候補のコピーを構文意味解析部22の出力として出力する。
【0045】
出力された文候補は、構文解析と同時に意味解析が行われており、従ってこれがそのまま入力意味表現を意味する。以上の処理は入力に対してパイプライン的に行われる。かくして、入力音声に対する複数の入力意味表現を得ることができる。
【0046】
この場合のファーストフード・タスクでは、キーワードとして図5に示すようなものを用いているが、対話の状況によっては、別の発話が同じ意味となることもある。すなわち、キーワードに基づく音声理解では、“1つ”と“1個”は同じ意味表現であり、また“下さい”を“お願いします”も同じ意味表現になることがあり、表層的な文字面の入力音声の表現とは異なってくる。ここが音声認識と音声理解の相違点であり、本発明で扱う音声対話システムにおいては、応用分野の知識を用いたタスク依存の音声理解処理が必要となっている。
【0047】
次に対話管理部12について説明する。本発明による音声対話システムでは、図1に示すように音声理解部11から出力される入力意味表現は対話管理部12に送られ、対話の知識や応用分野の知識さらに対話の履歴や状態の情報を用いて応答内容の意味的な決定を行ない、確認応答のための応答内容情報てある出力意味表現を生成し応答生成出力部13に出力する。なお、出力意味表現は図6に示すように、入力意味表現と同様にフレーム形式の表現を用いている。
【0048】
本実施例では、入力音声の一つの発話の内容表現として図4に示す入力意味表現を用いているが、さらに、対話開始からのシステムが理解した内容として、それまでの注文の内容を記憶する注文テーブルを図7に示すように別途用意している。また、対話の履情として対話進行にともなう注文テーブルの変化を図8の例に示すような一つ前の質問応答時点の注文テーブル(旧注文テーブル)の形で用意している。さらに、対話の状況を表す対話状況情報を対話管理部12に保持している。こ対話状況情報は、現在の対話の状態、次に遷移する状態、対話の繰返し回数、確信度、強調項目、対話の履歴等の情報を含むもので、後述する応答生成出力部13において人物像情報として利用されるものである。
【0049】
注文テーブルは、入力意味表現のACT情報と注文内容に基づき書き替えられたもので、形式は入力意味表現からACT情報を取り去った注文内容のみのテーブルである。つまり、この注文テーブルは、対話を開始してからそれまでの対話で理解した内容を反映したものである。また、旧注文テーブルは注文テーブルと同一の構成であり、一つ前の対話時点での質問応答での注文テーブルを保持し、対話の履歴情報として注文テーブルの状態を記録するものである。
【0050】
このように対話管理部12では、入力音声の意味表現(入力意味表現)および対話の履歴情報(旧注文テーブル)、対話システムの状態に基づき、対話の進行方法や応用分野の知識を用いて応答出力の内容を表す応答内容情報(出力意味表現)を生成する。つまり、入力意味表現と注文テーブルを参照し、その時点のシステムの状態(ステート番号)に依存した処理を行い、応答生成の内容と応答ACTからなる応答生成の内容を表現した出力意味表現を生成するようにしている。上述したようにこの場合の出力意味表現は、入力意味表現と同様にフレーム形式の表現を用いている。さらに、対話の履歴情報(旧注文テーブル)と対話システムの状態に基づき、対話状況情報を生成し、応答生成出力部13が応答画面表示の人物像情報として参照できるようにしている。
【0051】
図9は、対話管理部の内部における状態遷移の一例を示している。
【0052】
この例では対話の進行方法や応用分野の知識に基づいた状態遷移の表現により対話を管理進行するようにしている。対話管理部12は、大きくユーザ72とシステム71のそれぞれの状態に二分される。
【0053】
ここで、ユーザ72の状態の役割は、ユーザの発話の入力意味表現に応じてシステム71の状態に遷移することであり、一方、システム71の状態の役割は、理解した発話内容に応じて、注文テーブルの内容を変更し、応答の出力意味表現を出力して、対話の流れを進行し、ユーザ72の状態に遷移することである。このように、システムの内部状態を二分して持つことにより、ユーザとシステムとの多様なやり取りが表現でき、柔軟な対話の進行が可能となる。
【0054】
又、この時用いられる対話状況情報は、処理中の対話管理の状態名と部分的な対話の繰り返し回数を表し、進行中の対話の状態名、次に遷移する状態名、同一の話題について同じ質問を繰り返すなどの部分的な対話が繰り返される回数が逐次記録され容易に参照できるようになっており、システムの状態を自然に分かりやすく伝えるために、応答生成出力部13の人物像の表情、動き、および音声応答の感情、強調などの人物像情報として利用し応答生成出力に利用される。
【0055】
さて、図9では、対話管理部12において、ユーザ(客)の存在が検知されると、システム71の初期状態S0から対話がスタートして、挨拶、注文要求に関する出力意味表現を生成し、応答生成出力部13に送られユーザ72の初期状態U0に遷移する。さらに、対話の履歴情報(旧注文テーブル)は初期化され、システムの状態の状態S0から状態U0への遷移に基づき、対話状況情報が生成される。この対話情況情報は、応答生成出力部13が応答画面表示の人物像情報として参照できるようにしている。
【0056】
すると、応答生成部13では、この出力意味表現に基づいて、システム状態、対話の履歴情報、注文テーブルを参照しながら音声応答、人物像、テキスト、内容可視化情報を生成する。
【0057】
この時、ユーザ72の初期状態U0では、次の発話の入力意味表現ACT情報が“注文”であるときには、一般的な注文の流れでシステム71の対話進行状態SPとユーザの対話進行状態UPの間の遷移へと移行する。
【0058】
一方、入力意味表現のACT情報が、注文以外の場合には、そのユーザの発話は予期していないユーザの発話と見なされ、システム71の対話修正状態S10に遷移する。
【0059】
もし、システム71の対話修正状態S10に遷移した場合には、システム71は入力意味表現、注文テーブルやその履歴情報を用いて、ユーザ72から受け取った音声入力が予期せぬ内容であったり、良く聞こえなかった旨を状況に応じて適当な応答でユーザ72に伝えたり、注文の内容を一品目づつ詳細に確認するための出力意味表現を出力し、ユーザ72の対話進行状態UPに遷移するようになる。すると、応答生成部13では、この出力意味表現に基づいてシステム状態、対話の履歴情報、注文テーブルを参照しながら音声応答、人物像、テキスト、内容可視化情報を生成する。
【0060】
このようにしてシステム71とユーザ72の間でやり取りが続き、ユーザ72での発話とシステム71での応答が行われ状態が遷移して行くが、ユーザ72が目的とする注文を終えた場合、すなわちシステム71の全注文の確認応答に対して、ユーザ72が肯定を意味する発話をした場合、システム71の終了状態S9に移り、対話を終了する。
【0061】
図10はユーザの状態の処理のフローチャートを示している。
【0062】
この場合、最初に複数の入力意味表現を読み込み(ステップS81)、省略表現の推論を行い(ステップS82)、各入力意味表現の確からしさに関する得点付け(スコアリング)を行う(ステップS83)。次いで、上記入力意味表現候補の中から最もスコアの高い入力意味表現を選択し(ステップS84)、発話アクトを決定し(ステップS85)、発話アクトに基づきシステムの状態に遷移するようになる(ステップS86)。
【0063】
一方、図11はシステムの状態の処理のフローチャートを示している。
【0064】
この場合、最初に入力意味表現に基づき注文テーブルの内容を変更し(ステップS91)、その時点におけるシステムの状態を考慮して出力意味表現を生成し(ステップS92)、応答内容を出力し(ステップS93)、ユーザの状態へ遷移するようになる(ステップS94)。応答生成部13では、生成された出力意味表現に基づいて、音声応答、人物像、テキスト、内容可視化情報を生成する。
【0065】
以上のように、本実施例システムにおいては、ユーザとシステムとに分けて、相手側からメッセージを受け取った場合に、種々の知識、状況、メッセージ内容を考慮した処理が可能であり、柔軟で尤もらしい処理が可能なる。
【0066】
次に、図12は、本実施例システムにおける対話処理の具体例を示すものである。
【0067】
この場合、システムでは、ユーザの発話に対し前回の状態の図12(b)に示す注文テーブルと図12(a)に示す出力意味表現が提示されているとすると、これらに基づいて、図12(c)に示すように「御注文はハンバーガ1つ、コーヒーを2つ、コーラの大を4つですね」の確認メッセージを生成し、これに基づく音声応答、確認のテキスト、注文テーブルの品物の絵と個数を、音声メディアと視覚メディアを用いてマルチモーダル的にユーザに提示するようになる。
【0068】
これに対して、ユーザが図12(c)に示すように「コーラを1つ追加して下さい。」と音声入力したとすると、図1に示す音声理解部11では、上述したようにキーワード候補の検出を行った後に、キーワード候補系列(キーワードラティス)の解析(パージング)を行い、ユーザの発話に対する図12(d)と図12(e)に示す入力意味表現候補1と入力意味表現候補2を得る。
【0069】
ここでの各候補は、確からしさについてのスコア(得点)Dを持っており、入力意味表現候補1はD1、入力意味表現候補2はD2のスコアを有し、それぞれスコア順に並べられる。
【0070】
この場合は、スコアD1の入力意味表現候補1では、ACT情報は追加、品名はコーラ、サイズは不定、個数は1となっており、スコアD2の入力意味表現候補2では、ACT情報は削除、品名はポテト、サイズは大、個数は2となっている。
【0071】
そして、ユーザの状態での処理は図13に示すように実行される。
【0072】
まず、入力意味表現候補1については、前回の出力意味表現のコーラのサイズが大であったことを参照し、コーラの今回の追加注文もサイズが大であると推論することで省略表現を補う(ステップS111)。入力意味表現候補2については、とくに省略はないのでこの推論は行われない(ステップS113)。
【0073】
次に、妥当性のチェックを行う。すなわち、注文テーブルの内容と入力意味表現候補を照らし合わせ矛盾の有無を調べる(ステップS112、ステップ114)。
【0074】
この例では、入力意味表現候補2については、入力意味表現の発話ACTが“削除”で品名がポテトの大にもかかわらず、注文テーブルにポテトはないのでスコアD2がD2′=D2×α(α<1.0)の処理により、小さくされる処理を行う。
【0075】
次に、入力意味表現候補のスコアを比較する(ステップS115)。この場合、D2′<D1′なので候補1を選択する。一方、ユーザからの入力の発話ACTは“追加”であると決定し(ステップS116)、追加確認を行うシステムの状態SAに遷移するようになる(ステップS117)。ここで、追加確認を行うシステムの状態SAは、注文テーブルを入力意味表現に基づいてコーラの大を1つ追加するように書き換える。
【0076】
この場合、システムでの状態の処理は図14に示すように実行される。
【0077】
即ち、この状態でシステム側では、ユーザへの確認応答を図15(b)に示す応答ACTリストから選択し出力意味表現を決定する。この例では、入力意味表現のACTが追加であるので応答ACTは第4番目の追加確認が選択され、これらの情報を用いて応答出力(応答文)が決定され出力が行われる。
【0078】
まず、注文テーブルにコーラの大を1つ追加する(ステップS121)。そして、ここでの図15(a)に示す入力意味表現の発話ACTは追加なので、応答ACTを追加確認として選択し、これら情報から図15(c)に示す出力意味表現が求められる(ステップS122)。次いで、応答出力(応答文)を決定して出力する(ステップS123)。この場合の応答文は、図16に示すシステムの応答の表現例に基づいて決定され、例えば「確認します。コーラの大を1つ追加ですね。」のように出力される。そして、ステップS124に進み、追加確認の応答ACTを受けたユーザの状態UAに遷移し、ユーザの状態での処理が行われるようになる。
【0079】
尚、対話管理部12は、上述のように求めた出力意味表現と共に、音声理解部11から受け取ったユーザの発声速度と各キーワードの尤度を応答生成出力部13に送る。
【0080】
ここで、ユーザの発声速度は次のように求められる。即ち、図2における音声理解部11のキーワードスポッティング処理部21bで、得られたキーワードとその始終端、およびそれらを基に得られるユーザの発声速度を検出する。また、音声理解結果の各キーワードの尤度を入力意味表現とともに対話管理部12に出力する。ユーザの発声速度は、キーワードスポッティング処理部21bから得られる単語の始終端とその単語が分かれば、例えば図17のように求めることができる。即ち、ユーザの発声から3つのキーワード“ハンバーガ”、“ポテト”、“ください”がそれぞれ始端t1かつ終端t2、始端t3かつ終端t4、始端t5かつ終端t6と検出されたとき、これらキーワードのモーラ数は6,3,4であることから、ユーザの平均発声速度は
【数1】
{6/(t2−t1)+3/(t4−t3)+4/(t6−t5)}/3
のように算出できる。
【0081】
このようにして得られたユーザの発声速度と尤度は、入力意味表現と共に対話管理部12へ入力される。
【0082】
対話管理部12は図9から図16で説明された処理に基づき生成された出力意味表現に、音声理解部11から入力されたユーザの発声速度と、キーワードの尤度を応答生成出力部13に入力する。このときの出力意味表現の例を図18に示す。
【0083】
次に応答生成出力部13について説明する。本発明による応答生成出力部13では応答内容情報である出力意味表現、対話情況情報と対話履歴情報からなる人物像情報、およびそれまでの対話によりシステムが理解した内容を分かりやすく可視化するための可視化情報に基づいて、音声応答、人物像、テキスト、内容可視化情報を生成出力する。ここで、音声応答、人物像、テキストは出力意味表現と人物像情報に基づいて、その対話状況を考慮して伝える内容をわかり易く呈示できるように表情や感情・強調を持って生成される。また、内容可視化情報はシステムの理解している対話の内容を表示して、対話の進行状況をわかり易くするためのものであり、対話管理部12から出力される可視化情報に基づいて生成出力されるものである。
【0084】
図19は応答生成出力部13の構成の一例を示している。応答生成部13は応答文生成部131、人物像表情決定部132、人物像生成部133、感情・強調決定部134、音声応答生成部135、内容可視化情報生成部136、出力統合制御部137から構成される。
【0085】
応答生成出力部13は対話管理部12から出力意味表現と人物像情報を受けとり、応答文生成部131で応答する文とその構造情報を生成する。生成された応答文と対話管理部12からの人物像情報に基づき、人物像表情決定部132では画面表示で音声応答する人物像の表情を決定し、決定された表情の人物像を人物像生成部133で生成し出力統合制御部137に出力する。また、生成された応答文と文構造情報および対話管理部12からの人物像情報に基づき、音声応答の感情表現や強調する部分を感情・強調決定部134で決定し、感情や強調を持つ音声応答を音声応答生成部135で生成し出力統合制御部137に出力する。さらに、生成された応答文はテキスト情報として出力統合制御部137に出力する。また、応答内容に関連した理解内容を可視化して表示するために、応答生成出力部13は対話管理部12から出力される可視化情報を受けとり、内容可視化情報生成部136で内容可視化情報を生成し出力統合制御部137に出力する。
【0086】
出力統合制御部137は表情を持つ人物像、感情や強調を持つ音声応答、テキスト情報、内容可視化情報を各部から受けとり、時間的な呈示順序を制御しながら、画面表示出力部14と音声出力部15に出力して利用者に応答内容を統合して表示する。
【0087】
次に、応答生成出力部13の各部の動作を図19に基づき説明する。
【0088】
まず、応答生成出力部13の各部で処理される情報について説明する。
【0089】
出力意味表現は図6に示したような入力意味表現と同様なフレーム形式であり、ACT情報は応答におけるアクションを示している。
【0090】
人物像情報は画面表示出力部14に表示される音声応答する人物像の表情や音声応答の感情・強調の情報であり、図20に示すような構造である。システム状態番号、ユーザ状態番号は対話管理部12の対話処理においてシステム状態からユーザ状態へ遷移して出力意味表現を生成する際のそれぞれの状態の番号を示している。図20に示すSP1、UP3はそれぞれ図19の対話状態遷移のシステム側の状態集合SPの1つ状態を、ユーザ側の状態集合SUの1つの状態を示している。繰り返し回数は対話の中で部分的に同じ質問を繰り返して行なったり、同じ内容について繰り返して確認を行なうような場合の回数である。強調項目は出力意味表現の中で特に確認する必要がある場合の項目を示す。確信度は出力意味表現に基づいて対応する内容の確信度を示し、対話管理部12で入力意味表現の尤度に基づてい入力意味表現の解釈を行なった際に得られるスコアDである。応答文生成部131は、対話管理部12で生成された出力意味表現から応答文とその文構造を生成する。文生成には、一般に書き換え規則を使うもの、穴埋めによるもの、木構造から合成する方法、意味構造から合成する方法が知られているが、ここでは穴埋めによる方法で説明する。
【0091】
出力応答文の生成は、例えば図21のようにACT情報ごとに品目、サイズ、個数を埋め込む穴の空いた応答文型とその文構造を用意しておき、図22(a)に示すフローチャートにしたがって出力意味表現をもとに空きを埋める方法で実現できる。すなわち、まずステップS141で繰り返しの回数を示す変数nを0に設定し、次にステップS142で出力意味表現の品目数を変数Mにセットする。図22(b)の出力意味表現の場合には、Mは2である。次に、ステップ143で注文一品目分の品名、サイズ、個数を応答文に埋め込む。次にステップS144で繰り返し変数nを加算しながら、ステップS145により埋め込みが完了するまで繰り返す。図22(b)の出力意味表現を図22(c)の応答文型に埋め込むと、図22(d)のように「確認します。コーラの大は1つ、ポテトの小は3つですね。」と応答文が得られる。
【0092】
人物像表情決定部132は、応答文生成部131で生成された文と対話管理部12から入力される人物像情報から人物像の表情を決定する。人物像表情決定部132の一例を図23に示す。システム状態番号、ユーザ状態番号、繰り返し回数、確信度は人物像情報から得られるものであり、あらかじめそれぞれの値に対しての人物像とその表情をテーブルの形式で表現したものである。例えば、繰り返し回数が一回までの場合の確認で確信度が高い場合には普通の表情で確認を行い、確信度が低い場合には戸惑ったような表情で確認を行なうようになっている。
【0093】
人物像生成部133は、人物像表情決定部132から出力された人物像と表情の情報から画面に表示する画像を生成する。この時、表示時間や人物像を変化させるための制御が行なわれる。例えば、人物像が音声応答する際の口の動作や挨拶する時のおじぎの動作が生成できるように、静止画を用いる場合には複数の画像が用意され、動画を用いる場合には連続した動作の人物像と表情の動画が指定される。また、コンピュータグラフィックスを利用する際には指定された動作の画像が生成される。
【0094】
感情・強調決定部134は、人物像情報から応答する音声の強調や感情を決定する。感情・強調決定部134の一例を図24に示す。人物像表情決定部132と同様の表現形式であり、システム状態番号、ユーザ状態番号、繰り返し回数、確信度から、あらかじめそれぞれの値に対しての人物像と音声応答の感情をテーブルの形式で表現したものである。例えば、繰り返し回数が一回までの場合の確認で確信度が高い場合には普通の音声で確認を行ない、確信度が低い場合には戸惑ったような音声で確認を行なうようになっている。また、確認する場合に強調して利用者に確認内容をわかり易く伝えるために人物像情報には強調項目がある。これは対話管理部12で応答内容を出力意味表現として生成する際に確認すべき項目を決定したものである。感情・強調決定部134では応答文中の強調すべき項目を出力意味表現からとりだして次の音声応答生成部135に伝える。
【0095】
音声応答生成部135は、応答文生成部131と感情・強調決定部134からの出力に基づき音声合成を行なう。音声の生成方式としては従来からある録音編集型なども利用可能であるが、本実施例では強調や感情を持つ応答に特徴があり、音声生成部の制御により実現するためには音声規則合成が望ましい。
【0096】
音声応答生成部135の構成の一例を図25に示す。音声応答生成部135は、音韻処理部151、韻律処理部152、制御パラメータ生成部153、音声波形生成部154からなる。
【0097】
ここでは、感情・強調決定部134から入力される強調する語句(句)と感情の種類、および生成された応答文とその構造を基に音韻処理部151と韻律処理部152において各々音韻処理、韻律処理を行なって、音声波形生成部154で使用される制御パラメータの時系列を制御パラメータ生成部153から音声波形生成部154に出力する。
【0098】
音韻処理部151は、応答文生成部131で生成された応答文とその文構造を基に、鼻音化や無声化、連濁といった一般に良く知られた音韻規則に従い出力応答文の読みを決定、単音記号列を出力する。
【0099】
韻律処理部152では応答文とその構造、強調する語の情報および感情の種類を基に、基本周波数パターンやパワー、継続時間、ポーズの位置などの韻律成分を決定する。
【0100】
特に基本周波数パターン生成は、図26のモデルに示すように、点線で示したあらかじめ強調しない場合と実線で示した強調した場合の各応答文のアクセント成分やフレーズ成分の多きさを分析して記憶しておき、合成時に語句、句にその成分を使うことで実現できる。また、平叙文と疑問文と命令文というように文の種類を分類し、文の種類毎にアクセントやフレーズの規則を作成してもよい。例えば文献(広瀬、藤崎、河井“連続音声合成システム−特に韻律的特徴の合成−”、日本音響学会音声研究会資料S85−43(1985))のように、単語のアクセント型、文の切れ目からの語の位置、修飾関係から平叙文の規則を決めることができる。
【0101】
感情を伴った韻律は、文献(K.Sheahan,Y.Yamashita,Y.Takebayashi,“Synthsis of Nonverbal Expressions for Human-Computer Interaction”日本音響学会講演論文集2−4−6(1990.3))に述べられているように、おもに基本周波数の変化の割合とダイナミックレンジ、発声時間長、エネルギーによって制御される。従って、図27に示すように喜びの場合には感情を伴わない場合に対してアクセントを1.2倍、発声時間を0.9倍、エネルギーを2dB大きくし、図28に示す悲しみの場合にはアクセントを0.9倍、発声時間を1.1倍、エネルギーを2dB小さくする。これにより喜びを伴ったときは、一語一語はっきりと、やや早口になった音声が合成でき、悲しみを伴ったときは抑揚が少なく、やや遅い合成音を生成することが可能である。
【0102】
基本周波数の制御は図41で用いたものに限らず、直線近似を用いた方法や音の高低のレベルで基本周波数パターンを表現する方法があり、ここに述べたものに限らず、発明の主旨を逸脱しないならば種々の方法を利用してもよい。
【0103】
制御パラメータ生成部153では、音韻処理部151と韻律処理部152からの音韻シンボルと韻律シンボルを基に、音声波形生成部154で使う制御パラメータを決定する。この制御パラメータ生成部153では発声速度の制御も行なうため、ユーザの発声速度に合わせて音声を合成することが可能となり、ユーザの発声のペースで対話を進行することも可能である。
【0104】
このため制御パラメータ生成部で得られた発話時間長は人物像の口動作と音声応答の同期をとるために出力統合制御部137に出力される。
【0105】
尚、この応答生成出力部13では、応答文の生成はすでに述べたような応答文生成部131、感情・強調決定部134、音声応答生成部135により行われるが、ここで、発声速度は応答文の長さに反映するために参照する。テンポの良い対話がなされている時には、応答は短い方が良く、ユーザが戸惑うなどの理由でゆっくり発声する時には、丁寧に省略などせずに応答するのが良いからである。例えば発声速度が9モーラ毎秒より速ければ、短い応答文型を選ぶようにすることで、これは実現される。
【0106】
また、対話管理部12から与えられる各キーワードの尤度は、例えば確認の場面で文末の「ですね/ですか」を使い分けるのに利用される。すなわち、キーワードの平均尤度が例えば設定域値0.5より低い、もしくはどれかのキーワードの尤度が非常に低い時には「ですか」を使い、尤度が高い時には「ですね」を使う。これにより、他の応答出力に加え、応答文からも計算機の理解の程度が分かるようになり、ユーザが対話を行ないやすくなる。
【0107】
なお、「ですね/ですか」は文型のテーブルとして持たずに、文型を決定してから変更できるようにしてもよい。また、「でございます/でございますか」のように、丁寧な応答か否かの情報を使うなどして別の言葉を使用しても良い。
【0108】
音声波形生成部154は、例えば図29に示すようなホルマント型合成器による規則合成を利用する。これれは例えば、標本化周波数を12kHz 、8msecごとに合成パラメータを更新し、音源にはインパルスにローパスフィルターをかけたものを利用することで音声合成ができる。しかし、合成器の構成、音源の種類、標本化周波数等も一般的に知られものを利用することが可能である。
【0109】
尚、この図29に示すホルマント型合成器から成る音声波形生成部154においては、制御パラメータ合成器169から入力された制御パラメータがインパルス発生器161、雑音発生器162、ローパスフィルタ163A,163B、振幅制御器167、ハイパスフィルタ168、共振器166A,166Bにそれぞれ分配される。
【0110】
可視化情報は、対話中にシステムに伝えた内容、システムが理解している内容、システムの状態などの情報であり、この可視化情報を基に内容可視化情報生成部136が内容可視化情報を生成しユーザに視覚的に呈示することにより、システムの状態や理解内容をシステムと利用者が共有することが可能となり、対話を自然にわかり易く進めることができる。
【0111】
本実施例では注文テーブルを可視化情報として用いている。注文テーブルには既に利用者が注文したすべての品目、サイズ、個数が記録されており、対話の各時点での注文内容を確認することができる。これにより、例えば品目が多い注文を行なった時に、それぞれの品目とサイズ、個数を音声応答だけで時間的に連続して聞く場合よりも視覚的に表示して並列的に注文の内容を伝えることが可能となる。内容可視化情報生成部136はこの可視化内容情報に基づき画像の生成を行なう。ここでの画像生成方式としては人物像生成部133で述べたような方式が利用できる。すなわち表示時間や表示像を変化させるための制御が行なわれ、静止画を用いる場合には複数の画像が用意され、動画を用いる場合には連続した動作の表示像の画像が指定される。また、コンピュータグラフィックスを利用する際には指定された動作の画像が生成される。
【0112】
出力統合制御部137は、人物像生成部133の出力である表情を持つ人物像の画像情報、音声応答生成部135の出力である感情や強調を持つ音声応答の信号情報、応答文の文字列であるテキスト情報、内容可視化情報生成部136の出力である内容可視化情報を各部から受けとり、時間的な呈示順序を制御しながら、画面表示出力部14と音声出力部15に出力して利用者に応答内容を統合して呈示する。
【0113】
ここで重要なことはそれぞれの出力を個別に呈示すれば良いのではなく、個々出力情報の時間的な関係を考慮しながら呈示する必要があることである。例えば、人物像が音声応答に合わせながら口を動作させる場合に音声応答出力と口動作の制御の同期やおじぎをしながら挨拶する場合の画像出力と音声出力の同期をとる必要がある。また、それぞれの出力の呈示順序を制御することが重要である。
【0114】
図30、31、32、33に出力の呈示順序の時間制御の例を示す。図30は最初の挨拶の場面の制御であり、まだ注文はないので、内容可視化情報は表示されないが、挨拶のテキスト情報をt0の時点で表示し、同時に人物像は「いらっしゃいませ」、続けて「ご注文をどうぞ」という音声応答に合わせて口を動作させながら、注文をうながす。このように発声している内容と人物像画面の同期をとり、あらかじめ分かり易いようにt0の時点でテキスト情報をすべて表示する。
【0115】
図31では既にハンバーガ1つとコーラ1つを注文済みの場面であり、応答確認内容の「ご注文はハンバーガを1つ、コーヒーを1つですね」のテキスト情報をt0の時点まで表示する。次いで人物像と音声応答を開始する時点のt0に内容可視化情報を新しく更新しハンバーガ3つ、コーヒー2つ、コーラ1つを表示するようにする。また、人物像は音声の発声に合わせてt0からt3まで口を動かすように制御する。
【0116】
この例で示した時間制御は音声応答の長さを基準に決められている。すなわち、図30では「いらっしゃいませ」によりt0からt1まで、「ご注文をどうぞ」によりt1からt2までの継続時間が決まる。このそれぞれの継続時間は音声応答生成部135で決まるものであり、音声応答信号とその継続時間が出力統合制御部137に送られ時間制御に利用される。ここで述べた他にも呈示する内容可視化情報や人物像の画像の表示時間を基準に時間制御を行なうことも可能である。
【0117】
図32は、最初の注文を受けた後の全注文の確認の場面の制御であり、確認する品目はハンバーガ2つ、チーズバーガー1つ、コーヒー3つの3品目である。図32では、応答内容の「ご注文はハンバーガが2つ、チーズバーガーが1つ、コーヒーが3つですね」のテキスト情報をt0の時刻で表示するとともに音声応答と、それに合わせた人物像の口の動作を開始する。音声の「ご注文は」までは、内容可視化情報の表示は行わないが、注文内容を発声し始めるt1の時点で内容可視化情報として、ハンバーガ2つ、チーズバーガー1つ、コーヒー3つを表示するようにする。また人物像は音声の発声に合わせてt0からt4まで口を動かすように制御する。
【0118】
ここで、全注文の確認の応答文は応答文生成部131で生成されるが、確認する品目の数が多くなると生成される応答文は長くなり、音声応答の長さも長くなる。しかし、図32の例において、利用者はt1の時点で表示される内容可視化情報により、音声応答を最後まで聞かずとも、システムの応答内容もしくはシステムの状態や理解内容を理解することができるため、内容可視化情報を表示した後のt1から音声応答が終わるt4までに出力される情報は利用者にとって冗長な応答である。
【0119】
このため、本実施例では図33に示すように、全注文の確認で、確認する品目が3つ以上ある場合は、出力の呈示順序を変え、最初のt0の時点で直前の応答文テキストを一端消去し、内容可視化情報として、注文内容であるハンバーガ2つ、チーズバーガー1つ、コーヒー3つを表示する。次に、この内容可視化情報の表示の処理が終ったt1の時点で「これでよろしいですか」という応答文テキストを表示するとともに、人物像と音声応答を開始する。この例で示した時間制御は、対話管理部12で生成された出力意味表現のACT情報と品目数をもとに出力統合制御137で行われ、応答文は、応答文生成部131で生成される。
【0120】
またこれは、全注文の確認に限定されるものではなく、その他の確認の際に、応答確認内容の品目が多い場合や複雑でわかりづらい場合にも、最初に視覚的応答出力を行った後、指示代名詞等を用いて短縮表現にした音声応答を行うことにより、対話を短時間に効率的に行うことも可能である。
【0121】
尚、確認する品目数に代えて、他の音声応答の長さを示す指標、例えば音声応答中のワード数やモーラ数等、を用いて上述のような応答出力の変更を制御しても良い。
【0122】
さらに、出力統合制御部137はそれぞれの画像表示情報の表示場所を制御している。例えば、画像出力装置14の画面上で人物像を左上に、内容可視化情報を右に、テキスト情報を左下に制御し表示することが出来る。この表示位置は出力統合制御部137の制御の基に変更可能である。
【0123】
以上のように本発明は、音声の入出力と画面表示の併用して対話を進めることを特徴としているが、ここで本発明における画面表示について実際の例を具体的に説明する。
【0124】
まず、図34は初期画面を示すもので、客が店頭にいない場合や近くに来ない場合には、「〜へようこそ」など画面に文を表示するのみで、音声応答は出力しない。
【0125】
ここで、ユーザ(客)がシステム(カウンターやドライブスルーの窓口等)に接近したような場合、例えば、圧力センサー付きのフロアーマットや監視カメラの画像等のセンサー情報によりユーザを検知すると、図35に示すようにシステムは「いらっしゃいませ、御注文をどうぞ。」と漢字かな混り文で表示するとともに、ほほえみの表情の店員を画面上に表示して音声応答を出力する(図9の状態S0)。
【0126】
この時、ユーザの検知は、人の動きや位置を考慮し、特に、立ち止まりを検出した時点で上記の処理を実行し安心してユーザとの音声対話をスタートさせることが重要である。特に、店員の笑顔は、客をリラックスさせる効果があり、明るい声を合成することも望ましい。これらの技術はすでに開発されており、また、録音された合成音や自然音声を用いることも可能である。
【0127】
この状態から、ユーザが画面を見ながら、仮に早口で注文を「え〜、ハンバーガを2つとあの〜コーヒーを2つお願いします。あ〜」と行なったとする。すると、システムでは、図9の状態U0のユーザの発音を処理するが、いま聞きとれない部分があり、図1に示す音声理解部11から何の結果も得られないとすると、対話管理部12ではリジェクトに対応する。
【0128】
この場合、図36に示すようにシステムは「はっきり聞きとれませんでした。もう一度お願いします。」と漢字かな混じり文を表示するとともに、申し訳なさそうな表情の店員を画面上に表示して音声応答する。この状態では、システム側は、ユーザの注文を全く聞きとれず、その時点の注文テーブルは何もない(空)状態なので、注文に関する画面表示は何もなされない。また、店員の表情生成は、応答文の関与として出力される。この場合、図9のユーザの状態U0から、リジェクト対話修正状態S10に移し、ここで応答と表情が決定されることになる。
【0129】
次に、このシステムからの応答を受けとったユーザが、前回よりもはっきりとした話し方で「ハンバーガ2つとコーヒー2つ下さい。」と注文を行なったとすると、前述した音声理解処理、対話処理が実行され、入力意味表現と注文テーブルを生成した後、出力意味表現が決定される。そして、出力意味の応答ACTが“全確認”となると、次の応答として図37に示す画面表示と音声応答が併用して行なわれる。
【0130】
この場合、システムは「御注文は、ハンバーガ2つ、コーヒーを2つですね。」と漢字かな混り文で表示するとともに、店員の顔を画面上に表示して音声応答を出力するようになる。この時の店員の表情と音声応答の感情については、前述したように文と状態を考慮して決定され、ここでは普通の表情と音声応答が出力される。また、応答文とともに、注文テーブルの内容が画面表示され、ユーザは自分の要求した品物かどうか、個数かを短時間で確認するようになる。
【0131】
この場合、品物の表示は、個数を数字で現さず品物を注文個数だけ並べた状態を画面表示してもかまわない。ここでは数字の情報が重要なのでハンバーガ等の品物と同じ高さの領域を設けて数字を表示している。すなわち、個数(数字)についての情報は重要であり、ユーザにそのことを自然に伝えられるようにしている。また、数字の表示サイズについても、大きさで大体の情報が伝えられるので、大きさを変えて表示することも有効であり、また、文字情報を併用したり、カラー情報などを併用して出力することにより、音声応答やテキスト応答よりもリアルなイメージを自然に素早くユーザに伝えることが可能となり、より高速な確認対話を実現している。一方、店員に関する人物像については、リアルな表情よりも、伝えたいポイントが伝わる情報量のすくない絵が有効である。また、上記の画像表示は、三次元グラフィックスを用いても当然に行なうことができる。
【0132】
さて、システム側からの注文品を確認されてユーザが「え〜と、まあ、それでいいや」と少し迷いながら発音したとする。すると、システムでは、音声理解部11からの何の結果も得られないことで、対話管理部12がリジェクトに対応する。この場合、図38に示すようにシステムは「すみません。もう一度入力して下さい。」と漢字かな混り文を表示するとともに、店員を画面上に表示して音声応答する。この場合のメッセージは、上述した図36の場合よりも手短なものであり、音声対話を手短に伝えるように状態と対話の履歴情報を用いて応答文が決定される。また、店員の顔の表情についても応答文に対応して、申し訳なさそうなものが出力される。
【0133】
この画面表示のポイントは、現状でシステム側が理解している注文の内容を右側の領域に表示している点である。この注文品の表示は、注文テーブルをそのまま表示するので、音声が持つ一過性の欠点を補うことができる。すなわち、追加や置換や削除についての確認は音声応答、応答文で一部分の局所的な注文について行なうが、対話の進行に伴う蓄積された注文、確認の結果である注文品の表示による効果は大きい。
【0134】
そして、このような表示は、前述した対話管理部12での処理で容易に実現できる。また、部分確認に視覚表示を用いることも可能であり、注文品の全表示を続けて別の表示領域で行なうこともできる。さらに、全注文品の表示を一時的に隠し、部分確認にユーザの意識を集中させるために、部分確認の画面表示を行なうこともできる。すなわち、両者の長所を組み合わせた表示方法の併用を状況により使い分けて行なうことが効果的である。
【0135】
この後、ユーザがはっきりした声で「それで、いいです。」と発声すると、システムはこれを肯定と理解して図9のS9に遷移し、図39に示すようにシステムは「ありがとうございました」と漢字かな混り文を表示するとともに、頭を下げた店員を画面上に表示して音声応答し、対話を終了する。
【0136】
この時の応答文生成、笑顔の生成、おじぎをするジェスチャーの生成も、上述したのと同様の処理により行なう。また、合計金額の表示なども、種々の応答(音声、画面表示)で行なえる。
【0137】
なお、上述した図38の確認の場合、図40に示すように「はい」、「いいえ」と答を誘導するように画面表示を行なうのも効果的である。この場合、聞き返しや訂正の回数の情報が使え、システムは「すみません。御注文はハンバーガを2つ、コーヒーを2つですか。はいか、いいえでお答え下さい。」のような状況に応じた対話が行える利点がある。
【0138】
図41は、このような実施例での処理手順を簡単にまとめたものである。
【0139】
この場合、フロアマット220がユーザを検知すると、ユーザからの音声入力についてキーワード検出部21によりキーワードを検出し、単語候補系列222を求め、次いで、構文意味解析部22でキーワードに基づく音声理解を行ない、入力意味表現224を求める。そして、さらに対話制御部12で対話と応用分野の知識による対話処理が行なわれ、出力意味表現226を求め、これを応答生成部13に与えて、ここでの規則合成による音声応答出力と画面表示出力とから成るマルチモーダルは応答を行う。
【0140】
以上の説明は、ファースト・フードの注文の例で行なったが、情報サービスやマルチメディア、ワークステーションおよび通信ネットワークを用いた座席予約システムなどへの運用も可能である。
【0141】
次に、本発明の他の実施例を図42により説明する。
【0142】
図42は、本発明の音声対話システムに人の動き状態を検出する機能を組み込んだものを示している。この場合、人状態検出は、システムが対話を自動的に始め、そして終了させるのに必要な機能で、対話の開始、終了におけるユーザの状態や反応を理解することで、対話を自然に進めることを可能とするものである。人状態検出の方法としては、光、超音波、赤外線圧力などを処理して行うことが考えられるが、ここでは、大人一人を検出できるフロアマットを利用した例について述べる。
【0143】
図42では、図1で述べたと同様な音声入力部231、音声理解部232、対話管理部234、応答生成部235、ディスプレイ236、スピーカ237の他に人状態検出部233を設ける構成になっている。
【0144】
この場合、人状態検出部233は、図43に示すようにマットに人が乗っている場合には人状態検出意味表現1を、マット上から人が降りた状態には人状態検出意味表現2を出力するようになっていて、これらの出力を対話管理部234に通知するようにしている。
【0145】
対話管理部234は、人状態検出部233からの人状態検出意味表現の他に、上述した実施例と同様に音声理解部232からも入力意味表現を取り込み、対話の知識や対話の履歴情報を用いて確認応答のための出力意味表現を生成する。
【0146】
この場合、対話管理部234では音声理解部232からの入力意味表現と人状態検出部233からの人状態検出意味表現を受け取る際に、対話の状態によりそれぞれの意味表現を順に処理したり、優先的に処理することができ、ユーザの状態や各種の反応を理解し対話を進めることができるようになっている。
【0147】
しかして、ユーザがマットに乗ると人状態検出部233より人状態検出意味表現1が出力され対話管理部234に送られる。すると、対話管理部234より挨拶の出力意味表現1が応答生成出力部235に送られ、応答出力として「いらっしゃいませ、ご注文をどうぞ」がディスプレイ236およびスピーカ237より出力される。
【0148】
次に、ユーザが「ハンバーガとコーヒー2つづつ」と入力すると、音声理解部232より入力意味表現1が出力され対話管理部234に送られる。これにより対話管理部234では、入力意味表現と注文テーブルの内容を参照し、出力意味表現2を出力し、応答生成出力部235を通して「ハンバーガ2こにコーヒー2こですね」の応答が出力されるようになる。
【0149】
この場合、通常は、図44に示すように「ハンバーガ2こコーヒー2こですね」「はい」「ありがとうございました。」というように対話が進んでいくが、ユーザが途中でマット上から離れてしまったような場合は図45のようになる。
【0150】
すなわち、出力意味表現2の「ハンバーガ2こにコーヒー2こですね」の応答が出力された後で、人状態検出部233より人状態検出意味表現2が出力され、対話管理部234に入力されるようになる。この場合は、対話管理部234は発話内容の確認を行なわれずにユーザが立ち去ったことから、注文内容の登録は行なわずに、出力意味表現4の「ご利用ありがとうございました」という自然な応答を出力するようになる。
【0151】
このようにして、人状態検出部233を対話管理部234と組み合わせることにより、ユーザの状態や反応を理解することが可能となり、自然に対話を進めることができる。
【0152】
なお、本実施例では人の状態検出にマットを用いたが、これに限られるものではなく、監視カメラなどの他の方法を用いてもよい。
【0153】
次に、このような処理を図46のフローチャートにより説明する。
【0154】
この場合、システムは対話管理234において状態(state)#0,#1,#2,#3を持ち、初期状態は状態#0である(ステップS281)。状態#0においては人状態検出意味表現の人状態ACTが「人存在」であるかを確認し(ステップS282)、人がいる場合には状態を#1にし、挨拶の出力意味表現により応答を生成し出力するようになる(ステップS283)。
【0155】
次に、状態#1において、音声理解部232から入力意味表現の発話ACTが注文の場合は(ステップS284,S285)、対話知識に基づいて注文内容の確認の出力意味表現を送出し応答を出力するようになる。また、発話ACTがはいの場合は(ステップS287)、状態を#2にするとともに、発話アクトはいに対応する出力意味表現により応答を出力するようになる(ステップS288)。また、発話ACTがいいえの場合は(ステップS289)、注文内容の再確認の出力意味表現を送出し応答を出力するようになる。さらに、人状態検出意味表現の人状態ACTが「人不在」であることを確認した場合は(ステップS291)、状態を#3にする。
【0156】
そして、状態#2においては、お礼1として「ありがとうございました」を出力し(ステップS293,S294)、状態#3においては、お礼2として「ご利用ありがとうございました」を出力するようになる(ステップS295,S296)。
【0157】
次に、本発明の他の実施例を図47により説明する。
【0158】
この実施例は、図1で述べた音声理解部11、応答生成出力部13での音声入出力、人状態検出を行う部分について詳述するものである。
【0159】
この場合、音声対話システム全体は図47に示すように演算部291、メモリ部292、保存部293、保存部インターフェース2931、通信部294、通信部インターフェース2941、A/D部295、マット部296、演算処理部297、D/A部298、表示部299から構成されている。
【0160】
ここで、A/D部295は、マイク2951、フィルタ増幅部2952、A/D変換部2953、A/D変換部インターフェース2954からなっている。フィルタ増幅部2952は、マイク2951からの入力の増幅およびA/D変換のための高域遮断フィルタ機能を有している。ここでのフィルタの遮断周波数は、A/D変換のサンプリング周波数で決まるが、例えば12kHz でサンプリングする場合には、5.4kHz で高域周波数成分を遮断するようになる。また、A/D変換部2953は増幅された入力音声を、例えば16kHz 又は12kHz でデジタル化し、A/D変換部インターフェース2954内に一時保存するとともに、演算部291の制御によりメモリ部292に転送するようにしている。
【0161】
マット部296はマット2961、マット制御部2962、マット制御部インターフェース2963からなっていて、マット2961上での人の存在/不在をマット制御部2962で検出し、この結果をマット制御部インターフェース2963を通じて転送するようにしている。
【0162】
演算処理部297は、高速演算処理部2971、高速演算処理部インターフェース2972からなっている。高速演算処理部2971は音声理解処理、応答生成処理さらには画像処理による人状態検出処理などの大量な演算に必要な処理に使用する。この場合、このような処理は、同時に処理する必要があり、複数の高速演算処理部2971を同時に使用できるようにしている。また、それぞれの演算処理は、演算部291の制御の下に入力データをメモリ部292から高速演算処理部2971に転送し、処理終了後に結果をメモリ部292に転送するようにしている。
【0163】
D/A部298はD/A変換部インターフェース2981、D/A変換部2982、フィルタ増幅部2983、スピーカ2984からなり、演算部291の制御の下でメモリ部292に記憶されたデジタルデータをD/A変換部インターフェース2981を通じてD/A変換部2982に転送し、ここで一定周期、例えば12kHz でアナログデータに変換し、フィルタ増幅部2983を通してスピーカ2984に出力するようにしている。この場合、D/A変換部2982はデータの一時保存部を有し、メモリ部292からのデータ転送を高速に行うことで、演算部291が他の処理も行うことができるようにしている。
【0164】
表示部299は表示制御部インターフェース2991、表示制御部2992、ディスプレイ2993からなり、演算部291の制御の下で画像、文字、図形、動画情報、色や輝度、濃度情報の変化などの情報を表示制御部2992よりディスプレイ2993に表示するようにしている。
【0165】
通信部294は、外部の計算機、情報処理器、サービス処理機器などと制御情報データの通信を行うもので、各データは演算部291の制御により通信部インターフェース2941を通じてやり取りされる。
【0166】
保存部293は、演算部291の制御の下に音声理解、対話管理、応答生成に必要なデータ、制御情報、プログラム、中間情報などを保存している。
【0167】
演算部291はメモリ部292に記憶された各部の情報、実行プログラム、そのためのプログラムを使用してA/D部295、マット部296、演算処理部297、D/A部298、通信部294、保存部293の制御を行うようにしている。
【0168】
ここで、演算部291が実行するプログラムは、図1で述べた音声理解部11、対話管理部12、応答生成出力部13での処理を行い、マルチタスクの形式で実行される。そのためのタスクの切り替えは、一定時間ごとに順次行われるが、各部の処理や入出力が完了した場合など、処理を優先させる必要がある場合には、割り込みにより、その処理を優先させる。
【0169】
上述ではA/D部295、D/A部298については、それぞれ個別に動作できるようにしている。これにより、音声入力、合成音出力を同時に、しかも別々に取り扱うことができるので、合成音出力中でも音声入力が可能となり、合成音キャンセルにより入力音声の検出および認識が可能になる。
【0170】
しかし、これらA/D部295、D/A部298の構成として、図48(a)に示すように共通のA/D、D/A変換部インターフェース301を用いるようにしたり、図48(b)に示すように共通のA/D、D/A変換部インターフェース302、A/D、D/A変換フィルタ部303および増幅部304を用いるようにしてもよい。
【0171】
ところが、このような構成では、データのやり取りを同時に双方向でできず、入力か出力のどちらかに限られてしまうため、合成音出力中の音声入力の受付けと同時に合成音を出力することができない。
【0172】
この場合、ユーザは音声入力の受付け状態を知る手段がないときに、受付けられていない発話についての応答を待ったり、発話の前半が入力されなかったりする不都合が生じる。そこで、音声の入出力許可状態を画像表示することによりユーザに対して計算機側が音声の入出力許可状況を伝えることができる。特に、画像表示と文字表示を組み合わせることで、例えば、図49に示すように「くちびる」と「SPEAK」により発声できる状態、図50に示すように封止された「くちびる」と「LISTEN」により発声できない状態をそれぞれ表示することができる。
【0173】
このように各入出力機器の状態、状況を別の出力機器により伝えることができ、より自然で分かりやすい対話が可能になる。さらに、各入出力機器の状況だけでなく、ユーザに対し重要なことで注意して聞いてもらう必要がある場合や対話管理において音声入力を行ってほしくない場合などにも画像表示と文字表示の組み合わせや、さらに色や輝度、濃度の変化などにより注意を促すことができる。
【0174】
本発明は、上記実施例にのみ限定されず、要旨を変更しない範囲で、適宜変形して実施できる。
【0175】
【発明の効果】
以上説明したように、本発明では、システム側からユーザへ応答を出力する際に、音声応答の他に、人物(の顔)を表示システムに対する親近感を持たせると同時に音声応答と同期して口を動かし、ユーザの注目点を定め、使い勝手を向上させている。また、同一画面上に、音声応答の品質の低さをカバーするため音声応答文もテキスト・データの形で表示し、音声の発話速度よりも速くユーザは応答文を受けとることを可能とする。さらに、同一画面上に応答内容を視覚化(Visualization)したものを表示し、種々の応用に適した形態で伝達すべき重要なメッセージの意味や内容を、人物表示音声応答や音声応答文と同期させて出力することにより、ユーザが一見してわかるようなシステム側からユーザへの高速なメッセージの伝達が実現できる。
【0176】
以上のように種々の形態の応答をシステム側から同一画面上に並行にユーザに出力するため、ユーザは状況に応じて適当な個々の応答を選択したり、2種類、あるいは、3種類の形態の応答データを同時に受けとることが可能となり各メディアの有する特徴を活かすという効果が得られ、ユーザにとっての自由度が増し、使い勝手のよいマルチモーダルなヒューマンインターフェースが実現できる。
【0177】
この結果、従来問題であった音声対話システムの音声確認部の誤確認や曖昧性に基づく不完全さを、対話によりスピーディに効率的にカバーし、対話の進行により、ユーザの意図していることの理解が容易になる。
【0178】
また、入力側にマットやカメラ等による人状態検出手段を設け、ユーザ検出とともに、単に合成音を出すだけではなく表示画面上の人物の顔を明るくし、笑顔にするようにもできるので、対話のタイミングが良くなるばかりでなく、ユーザが驚かずに安心して使えるユーザフレンドリーな音声インターフェースが実現できる。さらに、マルチモーダル音声対話システムに適用することにより、使い勝手の良い自然なシステムが得られ、コンピュータの操作性が著しく向上するという効果が得られる。
【0179】
また、音声応答のキャンセル機能を加えることにより、音声応答中にでも画面表示結果をユーザがみて、常時、割り込む(Interrupt)ことが可能になり、スピーディーな音声による対話が可能であり、音声認識性能が低い場合でも対話のやり取りでカバーし、意図の伝達やデータ入力の能率を大幅に改善できる。
【0180】
以上を総合すると本発明では、音声認識と音声合成と対話管理機能を具備する音声対話システムにおいて、システム側からユーザへの応答に際して時系列情報である音声応答と並行して、応答内容の可視化を行い、特に、表情やジェスチャーの表示、品物やサイズ、種別等の対償物(オブジェクト)の表示、応答文の文字出力を並行して行うことができることから、ユーザは同時に様々な観点から応答を受け取ることがてきるようになり、自由度が増し、必要に応じて正確な情報を選択でき、親しみ易さ、効率、快適さの改善、目や耳の疲労度の軽減等に効果的である。
【図面の簡単な説明】
【図1】本発明の一実施例の概略構成を示す図。
【図2】音声理解部の詳細構成を示す図。
【図3】キーワード候補系列を説明するための図。
【図4】入力意味表現の一例を示す図。
【図5】キーワードの内容を示す図。
【図6】出力意味表現の一例を示す図。
【図7】注文テーブルの一例を示す図。
【図8】旧注文テーブルの一例を示す図。
【図9】対話管理部の内部における状態遷移の一例を示す図。
【図10】ユーザ状態の処理を説明するためのフローチャート。
【図11】システム状態の処理を説明するためのフローチャート。
【図12】対話処理の具体的な例を示す図。
【図13】図12に示す対話処理におけるユーザ状態の処理を説明するための図。
【図14】対話処理におけるシステム状態の処理を説明するための図。
【図15】図14における対話処理の具体的な例を示す図。
【図16】システムからの出力応答文の例を示す図。
【図17】ユーザの発声速度の求め方を説明する図。
【図18】対話管理部の出力の一例を示す図。
【図19】応答生成出力部の詳細構成を示す図。
【図20】人物像情報の一例を示す図。
【図21】応答文型の例を示す図。
【図22】応答文生成部における応答文の生成のフローチャートと具体例を示す図。
【図23】人物像表情決定部の一例を示す図。
【図24】感情・強調決定部の一例を示す図。
【図25】音声応答生成部の詳細構成を示す図。
【図26】基本周波数パターンモデルの一例を示す図。
【図27】喜びを併う応答の場合の基本周波数パターンの変化を示す図。
【図28】悲しみを併う応答の場合の基本周波数パターンの変化を示す図。
【図29】音声波形生成部の具体的構成の一例を示す図。
【図30】出力呈示順序の時間制御の例を示すタイミングチャート。
【図31】出力呈示順序の時間制御の他の例を示すタイミングチャート。
【図32】出力呈示順序の時間制御の他の例を示すタイミングチャート。
【図33】出力呈示順序の時間制御の他の例を示すタイミングチャート。
【図34】表示画面での表示例を示す図。
【図35】表示画面での表示例を示す図。
【図36】表示画面での表示例を示す図。
【図37】表示画面での表示例を示す図。
【図38】表示画面での表示例を示す図。
【図39】表示画面での表示例を示す図。
【図40】表示画面での表示例を示す図。
【図41】対話処理の手順を簡単にまとめて示す図。
【図42】本発明の他の実施例の概略構成を示す図。
【図43】人状態検出部を説明するための図。
【図44】図42に示す他の実施例の動作を説明するための図。
【図45】図42に示す他の実施例の動作を説明するための図。
【図46】図42に示す他の実施例の動作を説明するためのフローチャート。
【図47】本発明の他の実施例の概略構成を示す図。
【図48】図47に示す他の実施例の一部を変形した例を示す図。
【図49】表示画面での表示例を示す図。
【図50】表示画面での表示例を示す図。
【符号の説明】
11,232 音声理解部
12,234 対話管理部
13,235 応答生成部
14,236 ディスプレイ
15,237 スピーカ
21 キーワード検出部
21a 音声分析部
21b キーワードスポッティング処理部
22 構文意味解析部
22a 文始端判定部
22b 文候補解析部
22c 文終端判定部
22d 文候補テーブル
231 音声入力部
233 人状態検出部
291 演算部
292 メモリ部
293 保存部
294 通信部
295 A/D部
296 マット部
297 演算処理部
298 D/A部
299 表示部
[0001]
[Industrial application fields]
The present invention relates to a voice dialogue system that uses various input / output means including voice recognition and voice synthesis.
[0002]
[Prior art]
In recent years, it has become possible to perform human-computer interaction in various forms by inputting, outputting, and processing multimedia such as characters, sounds, graphics, and images.
[0003]
In particular, workstations and personal computers that can handle multimedia have recently been developed due to dramatic improvements in memory capacity and computer power, and various applications have been developed. It has not yet reached the point of organically combining various media with just putting in and out the media.
[0004]
On the other hand, linguistic data including characters has become common instead of conventional numerical data, and black and white image data has been expanded to handle colorization, graphics, animation, three-dimensional graphics, and even moving images. . As for speech and audio signals, speech recognition and speech synthesis functions are being researched and developed in addition to simple speech signal level input / output. The current situation is limited to limited fields.
[0005]
That is, as described above, characters, texts, voices, graphic data, and the like continue to be developed from conventional input / output processing (recording-reproduction) to various media understanding and generation functions. In other words, understanding and generation of media such as audio and graphics for the purpose of handling the content, structure, and semantic content of the media from the surface processing of each media, and making human-computer interaction more natural and comfortable. The construction of a dialogue system that uses the Internet is being studied.
[0006]
As for speech recognition, it has progressed from isolated word recognition to continuous word recognition and continuous speech recognition, and is also being developed in a task-oriented direction for practical use. In such application situations, it is more important to understand the speech utterance content than to recognize the face of the speech as a spoken dialogue system. For example, a speech understanding system using knowledge of application fields based on keyword spotting is also available. Has been studied. On the other hand, with regard to speech synthesis, for example, the present inventors have conducted research on speech synthesis systems for dialogue that emphasizes intonation from conventional text-to-speech systems. Application is expected.
[0007]
However, the understanding and generation of media such as voice is different from simple data input / output, and information loss and errors are inevitable when converting media. That is, speech understanding is a process of extracting speech utterance content and speaker's intention from speech pattern data with a large amount of information, and speech recognition errors and ambiguity occur in the process of compressing information. Therefore, in order to deal with the above-mentioned speech recognition imperfections such as recognition errors and ambiguities, the voice dialogue system needs to ask the user appropriate questions and confirmations from the system side and proceed with the dialogue smoothly by dialogue control. .
[0008]
By the way, when performing some kind of dialogue with the user from the dialogue system side, it is important as an easy-to-use human interface to cover the imperfection of voice recognition and accurately convey the status of the computer. However, in the conventional spoken dialogue system, there are many cases in which text synthesis is performed simply by reading a sentence as a voice response. Or, there is no voice response, and all responses from the computer are displayed as text on the screen, or a system that displays graphic data, video, icons, and numerical values is common, and the burden on vision is heavy. It was.
[0009]
As described above, the various interactive systems described above have been developed recently. However, studies on the use of various media in response from the system side to deal with incomplete speech recognition have been sufficiently conducted so far. It was not done, and it was a big problem of speech recognition technology. In other words, voice recognition is unstable, weak against noise and unwanted words, and it is difficult to efficiently convey the user's intentions by voice, so it can only be used for voice media such as telephones. Application was limited to strong scenes.
[0010]
[Problems to be solved by the invention]
As described above, the conventional speech dialogue system using speech recognition and synthesis technology is a combination of speech recognition, speech synthesis, and screen display technologies that are separately developed. Have not been fully considered. In other words, there are recognition errors and ambiguity in the speech recognition function, the speech synthesis function is less clear than human speech, and the ability to transmit intentions and emotions is insufficient due to insufficient control of intonation, There is a fundamental problem of lack of naturalness. In addition, the current technology is not sufficient to generate an appropriate response using the speech recognition result on the system side. On the other hand, it can be expected that the transmission capability will be improved by displaying the response in combination with voice, but it is possible to display a two-dimensional planar and three-dimensional spatial screen for instantaneous and continuous time-series voice responses. It is an unresolved issue how to use and control the timing of both. Another important issue is what should be displayed as a spoken dialogue system using other media.
[0011]
The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a voice dialogue system that can efficiently and accurately perform voice dialogue between the system and a user, and enables remarkable improvement in usability. To do.
[0012]
[Means for Solving the Problems]
The present invention provides a voice understanding unit that receives a voice input and understands the meaning content of the input voice, a dialogue management unit that performs a semantic determination of a response content based on an understanding result by the voice understanding unit, and a dialogue management unit The response generation means for generating the voice response output and the screen display output based on the response content determined in (1), and the output means for outputting the voice response output and the screen display output generated by the response generation means.
[0013]
The dialogue management means displays the person image information about the person image of the speaker who makes a voice response based on the understanding result of the voice understanding means, the response text information of the spoken sentence corresponding to the voice response, and the understanding contents related to the voice response contents. Each visualization information to be visualized is output as a response content.
[0014]
The response generation means generates a screen display output of at least one of the action and facial expression of the person image based on the person image information of the speaker who performs the voice response output from the dialogue management means.
[0015]
Further, the response generation means generates a screen display output of at least one of the action and facial expression of the person image based on the person image information of the speaker who performs the voice response output from the dialogue management means, and the sound corresponding to each screen display The voice response output having the emotion or strength is generated.
[0016]
Furthermore, it has human state detecting means for detecting a human state relating to the movement of a person, and the dialog management means makes a meaningful determination of the response content based on the detection result of the human state detecting means.
[0017]
An icon indicating whether voice input is possible is displayed.
[0018]
The present invention also provides: Speech understanding means for receiving a speech input, understanding the meaning content of the input speech, and scoring the degree of certainty of the meaning content with respect to the understood meaning content; Dialog management means for selecting an input semantic expression having the highest degree of certainty and generating an output semantic expression according to the semantic content and the score of the selected input semantic expression, and a system response according to the output semantic expression Response output means for outputting an output, wherein the dialog management means is a state transition between a user state in which voice input is given to the voice understanding means and a system state in which a system response output is output from the response output means Manage user interaction with the system by controlling It is characterized by that.
[0019]
Furthermore, the present invention provides speech understanding means for receiving speech input and understanding the semantic content of the input speech by detecting a keyword in the speech input, and depending on the state of dialogue between the system and the user, A dialogue management unit that restricts keywords in speech input detected by the speech understanding unit in advance, and a response output unit that outputs a system response output based on an understanding result by the speech understanding unit, To do.
[0020]
[Action]
As a result, the present invention uses a screen display of a response as a response output from the system side to the user in addition to the voice recognition and the voice response when performing a dialogue between the user and the system. At this time, by displaying the person image corresponding to the voice speaker from the system side, the image of the speaker becomes representative of the function of the system, and the user speaks toward the person on the screen. In addition, it is possible to grasp the progress of dialogue and the reliability of speech recognition by the movement and facial expression of the person's mouth on the screen.
[0021]
On the other hand, regarding the response contents from the system, in addition to displaying a character string representing the response sentence, objects (for example, items and things such as products and concepts) and numbers are displayed in figures etc. You can also tell the user quickly. Furthermore, speech recognition is incomplete with frequent misrecognition and ambiguity. When understanding the content of speech, incorrect information that is not intended by the user may be transmitted to the computer. In addition, by using visual response displays in parallel, it is possible to greatly improve the efficiency of voice conversation, and to improve naturalness and ease of use. In addition, since the synthesized speech is lower than natural speech, it is extremely useful to improve the dialogue by using the facial expression of the speaker, the response sentence, and the visualization of the response content.
[0022]
【Example】
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
[0023]
FIG. 1 shows a schematic configuration of a system to which a screen display as a voice interactive system is added.
[0024]
The speech dialogue system includes a speech understanding unit 11 that understands the meaning content of input speech, a dialogue management unit 12 that makes a semantic determination of response contents based on the understanding result in the speech understanding unit 11, and a dialogue management unit 12. A response generation output unit 13 that generates a voice response output and a screen display output based on the determined response content, a screen display output unit 14 that outputs a screen display generated by the response generation output unit 13, and a voice that outputs a voice response The output unit 15 is configured.
[0025]
The speech understanding unit 11 extracts the meaning content by understanding the input speech uttered by the user, instead of recognizing the character face of the speech, that is, recognizing a word or sentence. Then, an input semantic expression representing the understood semantic content is generated and sent to the dialogue management unit 12.
[0026]
The dialog management unit 12 makes a semantic decision on the response content for the input semantic representation of the input speech using information on the history of the dialog, the current dialog state, knowledge of the progress of the dialog, and knowledge of the application field. The response content information of the utterance corresponding to the response is output to the response generation / output unit 13.
[0027]
Furthermore, the dialogue management unit 12 processes spoken words including omissions and instructional pronouns, enabling natural dialogue as well as improving speech understanding performance and reducing the amount of processing. Further, the dialogue management unit 12 displays the person image information of the speaker who is displayed and output on the display 14 and makes a voice response, and the visualization information which is the information for visualizing the understanding content related to the content of the voice response. Output to.
[0028]
In addition, the output semantic expression generated by the dialogue management unit 12 is sent to the speech understanding unit 11, and the keyword and syntactic semantic rules of the next utterance are narrowed down from the output semantic expression to improve the speech understanding performance of the next utterance. It becomes possible.
[0029]
The response generation / output unit 13 outputs a response sentence generated based on the response content information input from the dialogue management unit 12 from the speaker 15 with synthesized speech, and an action and a facial expression are determined based on the person image information and the response sentence. The content visualization information generated based on the visualization information, which is information for visually displaying the image of the person who makes the voice response on the display 14 and visualizing the content understood by the system through the conversation so far Is visually displayed on the display 14 and a response is presented to the user in a multimodal manner using a plurality of media. That is, by presenting audio information and visual information together to the user, the human interface of the voice interaction system is improved, and natural conversation is possible.
[0030]
Further, information indicating that a response is currently being output is sent from the response generation unit 13 to the dialogue management unit 12. The dialogue management unit 12 can improve the voice understanding performance by sending the above information to the voice understanding unit 11 and controlling the timing of the start / end detection processing of the input voice and the keyword detection processing, for example.
[0031]
Next, each part of the above-described spoken dialogue system will be described in more detail, assuming an order task in fast food as an application.
[0032]
First, the voice understanding unit 11 will be described. As described above, the role of the voice understanding unit 11 is to understand the meaning of the voice and the intention and situation of the speaker, rather than recognizing the character face as in text input or a voice word processor. It is an object.
[0033]
In this case, for ticket vending machines targeting unspecified users, aircraft and train seat reservation systems, bank cash drawers, etc., voice differences between speakers, unnecessary words, differences in spoken language, noise effects Even if speech recognition technology is actually applied, sufficient recognition performance may not be expected, and it is particularly difficult to recognize a spoken sentence with high accuracy. For this, for example, literature (Hiroyuki Tsuboi, Hideki Hashimoto, Yoichi Takebayashi: “Analysis of keyword lattices for continuous speech understanding” is a method to understand the utterance content by analyzing candidate keyword sequences from continuously spoken speech. Proceedings of the Acoustical Society of Japan, 1-5-11, pp. 21-22, 1991-10), and if this method is used, the user's speech is not limited as much as possible in limited applications. In addition, free speech can be understood at high speed.
[0034]
FIG. 2 shows a schematic configuration of the voice understanding unit 11 using the keyword described above.
[0035]
In this case, the voice understanding unit 11 includes a keyword detection unit 21 and a syntax and semantic analysis unit 22. The keyword detection unit 21 includes a speech analysis unit 21a and a keyword spotting processing unit 21b. The syntax and semantic analysis unit 22 includes a sentence start end determination unit 22a, a sentence candidate analysis unit 22b, a sentence end determination unit 22c, and a sentence candidate table 22d. It is constituted by.
[0036]
In the keyword detecting unit 21, the input speech is passed through a low-pass filter (LPF) by the speech analyzing unit 21a and A / D converted at a sampling frequency of 12 kHz and a quantization bit of 12 bits to be converted into a digital signal, followed by spectrum analysis, and further After using FFT, smoothing is performed in the frequency domain, logarithmic conversion is performed, and a voice analysis result is output every 8 ms from a 16-channel bandpass filter (BPF). Keyword spotting processing is performed on this output. Is executed. The keyword spotting process in this case is, for example, a document (Kanazawa, Tsuboi, Takebayashi: “Word detection from continuous speech including unnecessary words”, IEICE Speech Study Group, sp91-22, pp. 33-39, 1991. It can be carried out by the method disclosed in -6).
[0037]
As a result, the keyword detection unit 21 extracts a keyword candidate series (lattice) from the continuous input speech. Fig. 3 shows an example of a candidate sequence of keywords extracted from the continuous input voice "Please give three hamburgers, potatoes and coffee" when applied to the exchange of orders at a fast food store by voice dialogue. Is shown.
[0038]
Note that the speech analysis and keyword detection processing described above can be found in other documents ("Development of speech recognition system using high-speed DSP board", Acoustical Society of Japan Proceedings, 3-5-12, 1991-3). Real-time processing is also possible by using a DSP board.
[0039]
Next, the syntactic and semantic analysis unit 22 analyzes the syntactic and semantic analysis of the keyword candidate series detected in this way, and obtains an input semantic expression for speech input as shown in FIG.
[0040]
Here, the application is limited to the fast food task, and the input semantic expression in the frame format is composed of an ACT frame in which the input utterance indicates the type of order processing and an ordered item frame in which the order contents are expressed. The ACT frame expresses semantic information about the order processing such as “order”, “addition”, “deletion”, “replacement”, etc., while the order item frame includes the name, size and number of slots. The contents of the ordered items can be expressed.
[0041]
That is, the keyword lattice obtained by the keyword detection unit 21 is sent to the syntax and semantic analysis unit 22. The syntax and semantic analysis unit 22 includes a sentence start end determination unit 22a, a sentence candidate processing unit 22b, and a sentence end determination unit 22c, and has a sentence candidate table 22d. The syntax and semantic analysis unit 22 processes each word in the keyword lattice from left to right.
[0042]
The sentence start end determination unit 22a determines whether or not the currently processed word can be the start end of the sentence based on the syntactic and semantic constraints. If it can be the beginning of a sentence, the word is registered in the sentence candidate table 22d as a new partial sentence candidate.
[0043]
The sentence candidate analysis unit 22b determines whether or not the word and each partial sentence candidate in the sentence candidate table 22d can be connected from the syntactic semantic time limit. If it can be connected, the partial sentence candidate is copied, the input word is connected to it, and it is registered in the sentence candidate table 22d.
[0044]
The sentence end determination unit 22c determines whether or not the partial sentence candidate processed immediately before by the sentence candidate analysis unit 22b can be syntactically and semantically established as a sentence. It is output as the output of the syntax and semantic analysis unit 22.
[0045]
The output sentence candidate is subjected to semantic analysis at the same time as syntactic analysis, so this means the input semantic expression as it is. The above processing is performed in a pipeline with respect to the input. Thus, a plurality of input semantic expressions for the input voice can be obtained.
[0046]
In the fast food task in this case, the keywords shown in FIG. 5 are used as keywords, but different utterances may have the same meaning depending on the situation of dialogue. In other words, in speech understanding based on keywords, “one” and “one” have the same semantic expression, and “please” and “please” may also have the same semantic expression. This is different from the input speech expression. This is the difference between speech recognition and speech understanding. In the spoken dialogue system handled in the present invention, task-dependent speech understanding processing using knowledge in the application field is required.
[0047]
Next, the dialogue management unit 12 will be described. In the spoken dialogue system according to the present invention, as shown in FIG. 1, the input meaning expression output from the voice understanding unit 11 is sent to the dialogue management unit 12, and knowledge of dialogue, knowledge of application fields, dialogue history and status information are sent. Is used to determine the response content semantically, generate an output semantic expression that is response content information for confirmation response, and output it to the response generation output unit 13. As shown in FIG. 6, the output semantic expression uses a frame format expression as in the case of the input semantic expression.
[0048]
In the present embodiment, the input semantic expression shown in FIG. 4 is used as the content expression of one utterance of the input speech, but the contents of the order so far are stored as the contents understood by the system from the start of the dialogue. An order table is prepared separately as shown in FIG. In addition, changes in the order table accompanying the progress of the dialogue are prepared as a dialogue history in the form of an order table (old order table) at the time of the previous question response as shown in the example of FIG. Furthermore, the dialog management unit 12 holds dialog status information indicating the status of the dialog. This dialogue status information includes information such as the current dialogue state, the next transition state, the number of dialogue repetitions, the certainty factor, the emphasis item, the dialogue history, and the like. It is used as information.
[0049]
The order table is rewritten based on the ACT information of the input semantic expression and the order content, and the format is a table of only the order content obtained by removing the ACT information from the input semantic expression. In other words, this order table reflects the contents understood in the dialog since the start of the dialog. The old order table has the same configuration as the order table, holds an order table in a question response at the time of the previous dialog, and records the status of the order table as dialog history information.
[0050]
In this way, the dialogue management unit 12 responds using the knowledge of the dialogue progress method and application field based on the semantic representation of the input speech (input semantic representation), the history information of the dialogue (old order table), and the state of the dialogue system. Response content information (output semantic expression) representing the output content is generated. In other words, the input semantic expression and the order table are referred to, processing depending on the state (state number) of the system at that time is performed, and the output semantic expression expressing the response generation contents including the response generation contents and the response ACT is generated. Like to do. As described above, the output semantic expression in this case uses a frame format expression in the same manner as the input semantic expression. Furthermore, the dialog status information is generated based on the dialog history information (old order table) and the status of the dialog system so that the response generation output unit 13 can refer to the person image information on the response screen display.
[0051]
FIG. 9 shows an example of state transition inside the dialogue management unit.
[0052]
In this example, the dialog is managed and progressed by expressing the state transition based on the dialog progress method and the knowledge of the application field. The dialogue management unit 12 is roughly divided into two states: the user 72 and the system 71.
[0053]
Here, the role of the state of the user 72 is to transition to the state of the system 71 according to the input semantic expression of the user's utterance, while the role of the state of the system 71 depends on the understood utterance content, The contents of the order table are changed, the output semantic expression of the response is output, the flow of the dialog is advanced, and the state of the user 72 is changed. Thus, by having the internal state of the system divided in two, various exchanges between the user and the system can be expressed, and a flexible dialogue can be performed.
[0054]
The dialog status information used at this time indicates the status name of the dialog management being processed and the number of partial dialog repetitions. The status name of the ongoing dialog, the name of the next transition, and the same topic are the same. The number of times a partial dialogue such as a question is repeated is sequentially recorded so that it can be easily referred to. In order to convey the state of the system in a natural and easy-to-understand manner, It is used for response generation output by using it as human image information such as movement, emotion of voice response, and emphasis.
[0055]
Now, in FIG. 9, when the dialog management unit 12 detects the presence of the user (customer), the dialog starts from the initial state S0 of the system 71, generates an output semantic expression related to greetings and order requests, and responds. It is sent to the generation output unit 13 and transitions to the initial state U0 of the user 72. Furthermore, dialog history information (old order table) is initialized, and dialog status information is generated based on the transition of the system state from state S0 to state U0. This dialog situation information can be referred to by the response generation / output unit 13 as person image information on the response screen display.
[0056]
Then, the response generation unit 13 generates a voice response, a person image, a text, and content visualization information while referring to the system state, the conversation history information, and the order table based on the output semantic expression.
[0057]
At this time, in the initial state U0 of the user 72, when the input semantic expression ACT information of the next utterance is "order", the dialog progress state SP of the system 71 and the user's dialog progress state UP are displayed in a general order flow. Transition to the transition between.
[0058]
On the other hand, when the ACT information of the input semantic expression is other than an order, the user's utterance is regarded as an unexpected user's utterance, and the system 71 transits to the dialog correction state S10.
[0059]
If the system 71 transitions to the dialog correction state S10 of the system 71, the system 71 uses the input meaning expression, the order table and its history information, and the voice input received from the user 72 has unexpected contents, Inform the user 72 of the fact that he / she could not hear it with an appropriate response according to the situation, or output an output meaning expression for confirming the details of each item in detail, and transition to the user's 72 dialog progress state UP. become. Then, the response generation unit 13 generates a voice response, a person image, a text, and content visualization information while referring to the system state, dialog history information, and order table based on the output semantic expression.
[0060]
In this way, the exchange between the system 71 and the user 72 continues, the utterance at the user 72 and the response at the system 71 are performed, and the state transitions, but when the user 72 finishes the target order, That is, when the user 72 utters an affirmative response to the confirmation response for all orders in the system 71, the process moves to the end state S9 of the system 71 and the dialog is terminated.
[0061]
FIG. 10 shows a flowchart of the user status process.
[0062]
In this case, first, a plurality of input semantic expressions are read (step S81), an abbreviated expression is inferred (step S82), and a score (scoring) regarding the probability of each input semantic expression is performed (step S83). Next, the input semantic expression having the highest score is selected from the input semantic expression candidates (step S84), the speech act is determined (step S85), and the system state is changed based on the speech act (step S85). S86).
[0063]
On the other hand, FIG. 11 shows a flowchart of processing of the system state.
[0064]
In this case, the contents of the order table are first changed based on the input semantic expression (step S91), an output semantic expression is generated in consideration of the state of the system at that time (step S92), and the response content is output (step S91). S93), the state changes to the user state (step S94). The response generation unit 13 generates a voice response, a person image, a text, and content visualization information based on the generated output semantic expression.
[0065]
As described above, in the system according to the present embodiment, when a message is received from the other party separately for the user and the system, it is possible to perform processing in consideration of various knowledge, situations, and message contents. The processing that seems to be possible becomes possible.
[0066]
Next, FIG. 12 shows a specific example of dialogue processing in the system of this embodiment.
[0067]
In this case, in the system, assuming that the order table shown in FIG. 12B and the output semantic expression shown in FIG. 12A in the previous state are presented to the user's utterance, FIG. As shown in (c), a confirmation message “Your order is 1 hamburger, 2 coffees, 4 colas” is generated, voice response based on this, confirmation text, items in order table The picture and the number of images are presented to the user in a multimodal manner using audio media and visual media.
[0068]
On the other hand, if the user inputs a voice message “Please add one cola” as shown in FIG. 12C, the voice understanding unit 11 shown in FIG. Is detected, the keyword candidate series (keyword lattice) is analyzed (parsing), and the input semantic expression candidate 1 and the input semantic expression candidate 2 shown in FIG. 12D and FIG. Get.
[0069]
Each candidate here has a score (score) D about the probability, the input semantic expression candidate 1 has a score of D1, and the input semantic expression candidate 2 has a score of D2, and they are arranged in the order of the scores.
[0070]
In this case, in the input semantic expression candidate 1 of the score D1, the ACT information is added, the product name is cola, the size is indefinite, the number is 1, and in the input semantic expression candidate 2 of the score D2, the ACT information is deleted. The product name is potato, the size is large, and the number is 2.
[0071]
Then, the process in the user's state is executed as shown in FIG.
[0072]
First, for input semantic expression candidate 1, referring to the fact that the cola size of the previous output semantic expression was large, the abbreviated expression is supplemented by inferring that the current additional order of cola is also large. (Step S111). The input semantic expression candidate 2 is not particularly omitted, so this inference is not performed (step S113).
[0073]
Next, the validity is checked. That is, the contents of the order table are compared with the input semantic expression candidates to check for inconsistencies (steps S112 and 114).
[0074]
In this example, for the input semantic expression candidate 2, since the utterance ACT of the input semantic expression is “deleted” and the product name is large, the order table has no potato, so the score D2 is D2 ′ = D2 × α ( The process of reducing by the process of α <1.0) is performed.
[0075]
Next, the input semantic expression candidate scores are compared (step S115). In this case, since D2 ′ <D1 ′, candidate 1 is selected. On the other hand, the utterance ACT of the input from the user is determined to be “addition” (step S116), and a transition is made to the state SA of the system that confirms the addition (step S117). Here, the state SA of the system for confirming the addition is rewritten so that one large cola is added to the order table based on the input semantic expression.
[0076]
In this case, the status processing in the system is executed as shown in FIG.
[0077]
That is, in this state, the system side selects a confirmation response to the user from the response ACT list shown in FIG. In this example, since the ACT of the input semantic expression is added, the fourth addition confirmation is selected for the response ACT, and a response output (response sentence) is determined and output using these pieces of information.
[0078]
First, one large cola is added to the order table (step S121). Then, since the utterance ACT of the input semantic expression shown in FIG. 15A is added, the response ACT is selected as addition confirmation, and the output semantic expression shown in FIG. 15C is obtained from these information (step S122). ). Next, a response output (response sentence) is determined and output (step S123). The response sentence in this case is determined based on the example of the system response shown in FIG. 16 and is output, for example, “Check. Add one large cola.” Then, the process proceeds to step S124, and the state transitions to the state UA of the user who has received the response ACT of the addition confirmation, and the process in the state of the user is performed.
[0079]
The dialogue management unit 12 sends the user's utterance speed and the likelihood of each keyword received from the voice understanding unit 11 to the response generation output unit 13 together with the output semantic expression obtained as described above.
[0080]
Here, the voice rate of the user is obtained as follows. That is, the keyword spotting processing unit 21b of the voice understanding unit 11 in FIG. 2 detects the obtained keyword, its start / end, and the user's utterance speed obtained based on the keyword. Further, the likelihood of each keyword of the voice understanding result is output to the dialogue management unit 12 together with the input semantic expression. If the start and end of the word obtained from the keyword spotting processing unit 21b and the word are known, the user's utterance speed can be obtained as shown in FIG. That is, when three keywords “hamburger”, “potato”, and “please” are detected from the user's utterance as the start t1 and the end t2, the start t3 and the end t4, and the start t5 and the end t6, respectively, the number of mora of these keywords Is 6, 3 and 4, so the average utterance speed of the user is
[Expression 1]
{6 / (t2-t1) + 3 / (t4-t3) + 4 / (t6-t5)} / 3
It can be calculated as follows.
[0081]
The voice rate and likelihood of the user obtained in this way are input to the dialogue management unit 12 together with the input semantic expression.
[0082]
The dialog management unit 12 adds the user's utterance speed and keyword likelihood input from the speech understanding unit 11 to the response generation output unit 13 in the output semantic expression generated based on the processing described in FIGS. input. An example of the output meaning expression at this time is shown in FIG.
[0083]
Next, the response generation output unit 13 will be described. In the response generation output unit 13 according to the present invention, the output meaning expression which is the response content information, the person image information composed of the conversation situation information and the conversation history information, and the visualization for visualizing the contents understood by the system so far in an easy-to-understand manner Based on the information, voice response, person image, text, and content visualization information are generated and output. Here, the voice response, the person image, and the text are generated based on the output semantic expression and the person image information, with facial expressions, emotions, and emphasis so that the contents to be conveyed can be presented in an easy-to-understand manner in consideration of the conversation status. The contents visualization information is for displaying the contents of the dialog understood by the system so that the progress of the dialog can be easily understood, and is generated and output based on the visualization information output from the dialog management unit 12. Is.
[0084]
FIG. 19 shows an example of the configuration of the response generation / output unit 13. The response generation unit 13 includes a response sentence generation unit 131, a human image expression determination unit 132, a human image generation unit 133, an emotion / emphasis determination unit 134, a voice response generation unit 135, a content visualization information generation unit 136, and an output integration control unit 137. Composed.
[0085]
The response generation / output unit 13 receives the output semantic expression and the person image information from the dialogue management unit 12, and generates a response sentence and its structure information in the response sentence generation unit 131. Based on the generated response sentence and the person image information from the dialogue management unit 12, the person image expression determination unit 132 determines the expression of the person image to be voice-responsive on the screen display, and generates the person image of the determined expression. Generated by the unit 133 and output to the output integration control unit 137. Also, based on the generated response sentence and sentence structure information and the person image information from the dialogue management unit 12, the emotion / emphasis determination unit 134 determines the emotional expression and emphasized part of the voice response, and the voice having emotion and emphasis. A response is generated by the voice response generation unit 135 and output to the output integration control unit 137. Further, the generated response sentence is output to the output integration control unit 137 as text information. In addition, in order to visualize and display the understanding content related to the response content, the response generation output unit 13 receives the visualization information output from the dialogue management unit 12, and the content visualization information generation unit 136 generates the content visualization information. The data is output to the output integration control unit 137.
[0086]
The output integrated control unit 137 receives a human figure having a facial expression, a voice response having emotion and emphasis, text information, and content visualization information from each unit, and controls the screen display output unit 14 and the voice output unit while controlling the temporal presentation order. The response contents are integrated and displayed for the user.
[0087]
Next, the operation of each part of the response generation output unit 13 will be described with reference to FIG.
[0088]
First, information processed by each unit of the response generation / output unit 13 will be described.
[0089]
The output semantic representation has the same frame format as the input semantic representation as shown in FIG. 6, and the ACT information indicates an action in response.
[0090]
The person image information is the expression of the person image that responds by voice and the emotion / emphasis information of the voice response displayed on the screen display output unit 14, and has a structure as shown in FIG. The system state number and the user state number indicate the number of each state when the output state expression is generated by transitioning from the system state to the user state in the dialog processing of the dialog management unit 12. SP1 and UP3 shown in FIG. 20 respectively indicate one state of the system-side state set SP of the dialog state transition of FIG. 19 and one state of the user-side state set SU. The number of repetitions is the number of times when the same question is repeatedly repeated in the dialogue or the same content is repeatedly checked. The emphasis item indicates an item in the output semantic expression that needs to be particularly confirmed. The certainty factor indicates the certainty factor of the corresponding content based on the output semantic expression, and is a score D obtained when the dialogue management unit 12 interprets the input semantic expression based on the likelihood of the input semantic expression. The response sentence generation unit 131 generates a response sentence and its sentence structure from the output semantic expression generated by the dialogue management unit 12. For sentence generation, there are generally known ones that use rewrite rules, one that uses hole filling, one that synthesizes from a tree structure, and one that combines from a semantic structure.
[0091]
For generating the output response sentence, for example, as shown in FIG. 21, a response sentence type with a hole for embedding an item, size and number is prepared for each ACT information, and the sentence structure is prepared, and according to the flowchart shown in FIG. It can be realized by filling the space based on the output semantic expression. That is, first, a variable n indicating the number of repetitions is set to 0 in step S141, and then the number of items in the output semantic expression is set to a variable M in step S142. In the case of the output semantic representation of FIG. Next, in step 143, the product name, size, and quantity for one order item are embedded in the response sentence. Next, while repeatedly adding the variable n in step S144, the process is repeated until embedding is completed in step S145. When the output semantic expression of Fig. 22 (b) is embedded in the response sentence type of Fig. 22 (c), as shown in Fig. 22 (d), "Confirm. There is one large cola and three small potatoes. ”Is obtained.
[0092]
The person image expression determination unit 132 determines the expression of the person image from the sentence generated by the response sentence generation unit 131 and the person image information input from the dialogue management unit 12. An example of the person image facial expression determination unit 132 is shown in FIG. The system state number, the user state number, the number of repetitions, and the certainty factor are obtained from the person image information, and the person image and the expression for each value are expressed in the form of a table in advance. For example, if the degree of certainty is high in the confirmation when the number of repetitions is one, confirmation is performed with an ordinary expression, and if the degree of certainty is low, confirmation is performed with a confused expression.
[0093]
The person image generation unit 133 generates an image to be displayed on the screen from the person image and expression information output from the person image expression determination unit 132. At this time, control for changing the display time and the person image is performed. For example, multiple images are prepared when using still images, and continuous operations when using moving images, so that the movement of the mouth when a human image responds by voice or the operation of bowing when greeting is generated. A video of human figure and facial expression is specified. In addition, when using computer graphics, an image of a specified operation is generated.
[0094]
The emotion / emphasis determination unit 134 determines voice emphasis and emotion to respond from the person image information. An example of the emotion / emphasis determination unit 134 is shown in FIG. The expression format is the same as that of the human face expression determination unit 132. From the system state number, the user state number, the number of repetitions, and the certainty level, the human image and voice response emotions for each value are expressed in a table format in advance. It is a thing. For example, when the degree of certainty is high when the number of repetitions is one, the confirmation is performed with a normal voice, and when the degree of certainty is low, the confirmation is performed with a confusing voice. In addition, there is an emphasis item in the person image information in order to emphasize when confirming and convey the confirmation contents to the user in an easy-to-understand manner. In this case, items to be confirmed when the response contents are generated as output semantic expressions in the dialog management unit 12 are determined. The emotion / emphasis determination unit 134 extracts items to be emphasized in the response sentence from the output semantic expression and transmits them to the next voice response generation unit 135.
[0095]
The voice response generation unit 135 performs voice synthesis based on outputs from the response sentence generation unit 131 and the emotion / emphasis determination unit 134. A conventional recording editing type can be used as a speech generation method, but this embodiment is characterized by a response with emphasis and emotion, and in order to realize it by controlling the speech generation unit, speech rule synthesis is used. desirable.
[0096]
An example of the configuration of the voice response generation unit 135 is shown in FIG. The voice response generator 135 includes a phoneme processor 151, a prosody processor 152, a control parameter generator 153, and a voice waveform generator 154.
[0097]
Here, the phoneme processing unit 151 and the prosody processing unit 152 each perform phonological processing based on the phrase (phrase) to be emphasized and the type of emotion input from the emotion / emphasis determination unit 134 and the generated response sentence and its structure. Prosody processing is performed, and a time series of control parameters used in the speech waveform generation unit 154 is output from the control parameter generation unit 153 to the speech waveform generation unit 154.
[0098]
Based on the response sentence generated by the response sentence generation unit 131 and its sentence structure, the phonological processing unit 151 determines the reading of the output response sentence according to generally well-known phonological rules such as nasalization, devoicing, and rendaku. Output a symbol string.
[0099]
The prosodic processing unit 152 determines the prosodic components such as the fundamental frequency pattern, power, duration, and pose position based on the response sentence and its structure, the word information to be emphasized, and the type of emotion.
[0100]
In particular, as shown in the model of FIG. 26, the basic frequency pattern generation is performed by analyzing the amount of accent components and phrase components of each response sentence when not emphasized in advance indicated by a dotted line and when emphasized indicated by a solid line. In addition, it can be realized by using the component in a word or phrase during synthesis. Also, sentence types such as plain texts, question sentences, and command sentences may be classified, and accent and phrase rules may be created for each sentence type. For example, from the literature (Hirose, Fujisaki, Kawai "Continuous Speech Synthesis System-Especially Prosodic Features Synthesis-", Acoustical Society of Japan Speech Research Material S85-43 (1985)), from the accent type of words and sentence breaks The rule of the plain text can be determined from the position of the word and the modification relationship.
[0101]
Prosody with emotion is described in the literature (K. Sheahan, Y. Yamashita, Y. Takebayashi, “Synthsis of Nonverbal Expressions for Human-Computer Interaction”, Acoustical Society of Japan 2-4-6 (1990.3)). As stated, it is mainly controlled by the rate of change of the fundamental frequency and the dynamic range, utterance time length, and energy. Therefore, as shown in FIG. 27, in the case of pleasure, the accent is increased by 1.2 times, the utterance time is increased by 0.9 times, and the energy is increased by 2 dB compared to the case without emotion. Reduces the accent by 0.9 times, utterance time by 1.1 times, and energy by 2 dB. This makes it possible to synthesize a voice that is clearly spoken word-by-word when accompanied by joy, and generates a slightly slower synthesized sound with little inflection when accompanied by sadness.
[0102]
The control of the fundamental frequency is not limited to that used in FIG. 41, but there are a method using linear approximation and a method of expressing the fundamental frequency pattern at a high and low sound level, not limited to those described here, but the gist of the invention. Various methods may be used without departing from the above.
[0103]
The control parameter generation unit 153 determines control parameters used in the speech waveform generation unit 154 based on the phoneme symbols and prosodic symbols from the phoneme processing unit 151 and the prosody processing unit 152. Since the control parameter generation unit 153 also controls the utterance speed, it is possible to synthesize voice in accordance with the user's utterance speed, and to proceed with the conversation at the pace of the user's utterance.
[0104]
Therefore, the utterance time length obtained by the control parameter generation unit is output to the output integrated control unit 137 in order to synchronize the mouth movement of the person image and the voice response.
[0105]
In the response generation / output unit 13, the response sentence is generated by the response sentence generation unit 131, the emotion / emphasis determination unit 134, and the voice response generation unit 135 as described above. Reference to reflect the sentence length. This is because when a conversation with a good tempo is performed, it is better to respond shortly, and when speaking slowly for reasons such as the user being confused, it is better to respond without carefully omitting. For example, if the speaking rate is faster than 9 mora per second, this can be realized by selecting a short response sentence pattern.
[0106]
In addition, the likelihood of each keyword given from the dialogue management unit 12 is used, for example, to properly use “Is it?” At the end of a sentence in a confirmation scene. In other words, “?” Is used when the average likelihood of a keyword is lower than, for example, the setting range value 0.5, or the likelihood of any keyword is very low, and “I” is used when the likelihood is high. As a result, in addition to other response outputs, the level of understanding of the computer can be understood from the response sentence, and the user can easily interact.
[0107]
In addition, it may be possible to change the sentence pattern after determining the sentence pattern, without having “Is it?” As a sentence pattern table. Also, other words may be used, such as using information on whether or not the response is polite, such as “Is it?
[0108]
The voice waveform generation unit 154 uses rule synthesis by a formant synthesizer as shown in FIG. 29, for example. For example, a voice can be synthesized by updating a synthesis parameter every 8 msec with a sampling frequency of 12 kHz and using a sound source obtained by applying an impulse to a low-pass filter. However, it is possible to use generally known configurations of the synthesizer, the type of sound source, the sampling frequency, and the like.
[0109]
Note that in the speech waveform generation unit 154 including the formant synthesizer shown in FIG. 29, the control parameters input from the control parameter synthesizer 169 are the impulse generator 161, the noise generator 162, the low-pass filters 163A and 163B, the amplitude. This is distributed to the controller 167, the high-pass filter 168, and the resonators 166A and 166B, respectively.
[0110]
The visualization information is information such as contents transmitted to the system during the conversation, contents understood by the system, system status, etc. Based on this visualization information, the contents visualization information generation unit 136 generates the contents visualization information and the user By visually presenting it to the system, it becomes possible for the system and the user to share the state of the system and the contents of understanding, and the dialogue can be naturally and easily understood.
[0111]
In this embodiment, the order table is used as visualization information. In the order table, all items, sizes, and quantities already ordered by the user are recorded, and the order contents at each point of the dialog can be confirmed. In this way, for example, when placing an order with many items, each item, size, and number are visually displayed rather than being heard continuously in time only by voice response to convey the contents of the order in parallel. Is possible. The content visualization information generation unit 136 generates an image based on the visualization content information. As the image generation method here, the method described in the person image generation unit 133 can be used. That is, control for changing the display time and the display image is performed. When a still image is used, a plurality of images are prepared, and when a moving image is used, a display image of a continuous operation is designated. In addition, when using computer graphics, an image of a specified operation is generated.
[0112]
The output integration control unit 137 includes image information of a human image having a facial expression that is output from the human image generation unit 133, signal information of voice response having emotion and emphasis that is output from the voice response generation unit 135, and a character string of a response sentence. Is received from each unit and is output to the screen display output unit 14 and the voice output unit 15 while controlling the temporal presentation order, and is output to the user. Integrate and present response content.
[0113]
What is important here is that it is not necessary to present each output individually, but it is necessary to present them while considering the temporal relationship of the individual output information. For example, it is necessary to synchronize the voice output with the control of the voice response output when the person image moves in response to the voice response, and the voice output with the voice output when greeting while bowing. It is also important to control the order in which each output is presented.
[0114]
30, 31, 32, and 33 show examples of time control of the output presentation order. FIG. 30 shows the control of the scene of the first greeting. Since there is no order yet, the contents visualization information is not displayed, but the text information of the greeting is displayed at the time of t0, and at the same time, the person image is “welcome”. While moving the mouth in response to the voice response “please order”, prompt the order. The content of the utterance and the person image screen are synchronized in this way, and all the text information is displayed at time t0 so that it can be easily understood in advance.
[0115]
FIG. 31 shows a scene in which one hamburger and one cola have already been ordered, and text information of the response confirmation content “Order is one hamburger and one coffee” is displayed until time t0. Next, the content visualization information is newly updated at t0 when the voice response and the human image start, and three hamburgers, two coffees, and one cola are displayed. Further, the person image is controlled so as to move the mouth from t0 to t3 in accordance with the voice utterance.
[0116]
The time control shown in this example is determined based on the length of the voice response. That is, in FIG. 30, the duration from t0 to t1 is determined by “welcome” and the duration from t1 to t2 is determined by “please order”. Each duration time is determined by the voice response generation unit 135, and the voice response signal and its duration time are sent to the output integrated control unit 137 and used for time control. In addition to the above, it is also possible to perform time control on the basis of the content visualization information to be presented and the display time of the human image.
[0117]
FIG. 32 shows the control of the confirmation of all orders after receiving the first order. The items to be confirmed are three items, two hamburgers, one cheeseburger, and three coffees. In FIG. 32, the text information “The order is two hamburgers, one cheeseburger, and three coffees” is displayed at the time of t0, and the voice response and the human figure corresponding to it are displayed. Start mouth movement. The contents visualization information is not displayed until the voice "Order is", but at the time t1 when the order contents are uttered, two hamburgers, one cheeseburger, and three coffees are displayed as the contents visualization information. Like that. The person image is controlled so as to move its mouth from t0 to t4 in accordance with the voice.
[0118]
Here, the response sentence for confirming all orders is generated by the response sentence generating unit 131. However, when the number of items to be confirmed increases, the generated response sentence becomes longer and the length of the voice response becomes longer. However, in the example of FIG. 32, the user can understand the response contents of the system or the state of the system and the understanding contents without listening to the voice response by the contents visualization information displayed at the time t1. Information output from t1 after displaying the content visualization information to t4 when the voice response ends is a redundant response for the user.
[0119]
Therefore, in this embodiment, as shown in FIG. 33, when confirming all orders and there are three or more items to be confirmed, the output presentation order is changed, and the immediately preceding response text is displayed at the time t0. One end is deleted, and two hamburgers, one cheeseburger, and three coffees are displayed as the contents visualization information. Next, at the time t1 when the processing for displaying the content visualization information is finished, a response sentence text “Are you sure?” Is displayed and a human image and voice response are started. The time control shown in this example is performed by the output integration control 137 based on the ACT information and the number of items of the output semantic expression generated by the dialogue management unit 12, and the response sentence is generated by the response sentence generation unit 131. The
[0120]
This is not limited to the confirmation of all orders. When other confirmations are made, if there are a lot of response confirmation items or if they are complicated and difficult to understand, after the visual response is output first, It is also possible to efficiently perform dialogue in a short time by performing a voice response that is abbreviated using a pronoun or the like.
[0121]
It should be noted that, instead of the number of items to be confirmed, the change in response output as described above may be controlled using an index indicating the length of another voice response, for example, the number of words or the number of mora in the voice response. .
[0122]
Further, the output integration control unit 137 controls the display location of each image display information. For example, a person image can be controlled and displayed on the screen of the image output device 14 in the upper left, content visualization information on the right, and text information on the lower left. This display position can be changed based on the control of the output integrated control unit 137.
[0123]
As described above, the present invention is characterized in that the dialogue is advanced by using both voice input and output and screen display. Here, an actual example of the screen display in the present invention will be specifically described.
[0124]
First, FIG. 34 shows an initial screen. When the customer is not in the store or does not come close, only a sentence such as “Welcome to” is displayed on the screen, and no voice response is output.
[0125]
Here, when the user (customer) approaches the system (counter, drive-through window, etc.), for example, when the user is detected by sensor information such as a floor mat with a pressure sensor or an image of a surveillance camera, FIG. As shown in Fig. 9, the system displays a mixed sentence of kanji and kana, "Please come and place an order." And displays a cheerful clerk on the screen and outputs a voice response (state S0 in FIG. 9). ).
[0126]
At this time, it is important for the user's detection to take into account the movement and position of the person, and in particular, to execute the above-described processing when a stop is detected and to start a voice conversation with the user with peace of mind. In particular, the smile of the clerk has the effect of relaxing the customer, and it is also desirable to synthesize a bright voice. These technologies have already been developed, and recorded synthesized sounds and natural sounds can also be used.
[0127]
From this state, it is assumed that the user makes an order with a quick mouth while looking at the screen, “Eh, please give me two hamburgers and two coffees. Then, in the system, the user's pronunciation in the state U0 in FIG. 9 is processed, but there is a part that cannot be heard at present, and if no result is obtained from the voice understanding unit 11 shown in FIG. Then, it corresponds to rejection.
[0128]
In this case, as shown in FIG. 36, the system displays a mixed sentence of kana and kana, saying “I could not hear it clearly. respond. In this state, the system side cannot hear the user's order at all, and there is no order table at that time (empty), so no screen display regarding the order is made. The salesclerk's facial expression generation is output as a response sentence. In this case, the process shifts from the user state U0 in FIG. 9 to the reject dialogue correction state S10, where the response and facial expression are determined.
[0129]
Next, if the user who receives the response from this system places an order saying “Please have 2 hamburgers and 2 coffees” in a clearer way than the previous time, the speech understanding process and the dialog process described above will be executed. After generating the input semantic expression and the order table, the output semantic expression is determined. Then, when the output meaning response ACT becomes “confirm all”, the screen display and the voice response shown in FIG. 37 are used together as the next response.
[0130]
In this case, the system displays a mixed sentence such as “Your order is two hamburgers and two coffees.” And displays the face of the clerk on the screen and outputs a voice response. Become. At this time, the facial expression of the clerk and the emotion of the voice response are determined in consideration of the sentence and the state as described above, and an ordinary facial expression and voice response are output here. In addition, the contents of the order table are displayed on the screen together with the response text, and the user can confirm in a short time whether or not the item is the item requested by the user.
[0131]
In this case, the product may be displayed on the screen in a state in which the product is arranged in the order of the number without displaying the number. Here, numerical information is important, so an area having the same height as an article such as a hamburger is provided to display the numeral. In other words, information about the number (number) is important, so that it can be conveyed naturally to the user. As for the display size of numbers, it is also effective to display the information by changing the size because it can convey roughly information by size, and also output using text information or color information together By doing so, it becomes possible to convey a realistic image to the user more quickly than a voice response or a text response, thereby realizing a faster confirmation dialogue. On the other hand, for a person image related to a store clerk, a picture with a small amount of information that conveys a point to be transmitted is more effective than a real expression. Further, the above image display can naturally be performed using three-dimensional graphics.
[0132]
Now, suppose that the user has confirmed the order from the system side and pronounced the user with a little hesitation saying, “Well, that ’s OK.” Then, in the system, since no result is obtained from the voice understanding unit 11, the dialogue management unit 12 responds to the rejection. In this case, as shown in FIG. 38, the system displays a mixed sentence of kanji and kana as "I'm sorry. Please input again." And displays a clerk on the screen and makes a voice response. The message in this case is shorter than the case of FIG. 36 described above, and the response sentence is determined using the state and the history information of the dialogue so as to convey the voice dialogue briefly. In addition, as for the facial expression of the store clerk, what seems to be sorry is output corresponding to the response sentence.
[0133]
The point of this screen display is that the contents of the order currently understood by the system are displayed in the right area. Since the display of the order item displays the order table as it is, it is possible to make up for a temporary defect of the voice. In other words, confirmation for addition, replacement, or deletion is performed for a partial local order by voice response or response sentence, but the effect of displaying the accumulated order as a result of the progress of the dialogue and the order item as a result of confirmation is great. .
[0134]
Such a display can be easily realized by the processing in the dialog management unit 12 described above. Further, a visual display can be used for partial confirmation, and the entire order can be displayed continuously in another display area. Furthermore, in order to temporarily hide the display of all ordered items and concentrate the user's consciousness on the partial confirmation, a partial confirmation screen display can be performed. In other words, it is effective to use a display method that combines the advantages of both, depending on the situation.
[0135]
After this, when the user utters “So, it ’s okay” with a clear voice, the system understands this as affirmative and transitions to S9 in FIG. 9, and the system “Thank you” as shown in FIG. A kana-kana mixed sentence is displayed, and a clerk with a bowed head is displayed on the screen, and a voice response is made to end the dialogue.
[0136]
Response sentence generation, smile generation, and bow gesture generation at this time are also performed by the same processing as described above. The total amount can be displayed with various responses (voice, screen display).
[0137]
In the case of the confirmation in FIG. 38 described above, it is also effective to display the screen so as to guide the answer “Yes” or “No” as shown in FIG. In this case, you can use information on the number of times you have heard and corrected, and the system will respond according to the situation, such as “I ’m sorry. Is your order two hamburgers or two coffees? There is an advantage that can be done.
[0138]
FIG. 41 briefly summarizes the processing procedure in such an embodiment.
[0139]
In this case, when the floor mat 220 detects the user, the keyword detection unit 21 detects the keyword with respect to the voice input from the user, obtains the word candidate series 222, and then the syntactic and semantic analysis unit 22 performs voice understanding based on the keyword. The input semantic expression 224 is obtained. Further, dialogue processing by dialogue and application field knowledge is performed in the dialogue control unit 12 to obtain an output semantic expression 226, which is given to the response generation unit 13, and voice response output and screen display by rule synthesis here A multimodal consisting of output responds.
[0140]
Although the above description has been given by way of an example of fast food ordering, it can be applied to a seat reservation system using an information service, multimedia, a workstation, and a communication network.
[0141]
Next, another embodiment of the present invention will be described with reference to FIG.
[0142]
FIG. 42 shows a voice dialogue system according to the present invention in which a function for detecting a human movement state is incorporated. In this case, human state detection is a function that is necessary for the system to automatically start and end the dialogue, and to naturally advance the dialogue by understanding the user's state and reaction at the start and end of the dialogue. Is possible. As a human state detection method, it is conceivable to perform processing by processing light, ultrasonic waves, infrared pressure, etc. Here, an example using a floor mat capable of detecting one adult will be described.
[0143]
In FIG. 42, a human state detection unit 233 is provided in addition to the voice input unit 231, the voice understanding unit 232, the dialogue management unit 234, the response generation unit 235, the display 236, and the speaker 237 similar to those described in FIG. 1. Yes.
[0144]
In this case, as shown in FIG. 43, the human state detection unit 233 displays the human state detection meaning expression 1 when a person is on the mat, and the human state detection meaning expression 2 when the person gets off the mat. Are output, and the dialog management unit 234 is notified of these outputs.
[0145]
In addition to the human state detection semantic expression from the human state detection unit 233, the dialogue management unit 234 also captures the input semantic expression from the voice understanding unit 232 in the same manner as in the above-described embodiment, and stores dialogue knowledge and dialogue history information. Used to generate output semantic representation for confirmation response.
[0146]
In this case, when the dialogue management unit 234 receives the input semantic representation from the speech understanding unit 232 and the human state detection semantic representation from the human state detection unit 233, each semantic representation is processed in order according to the state of dialogue, It is possible to proceed with the dialogue by understanding the user's state and various reactions.
[0147]
Thus, when the user gets on the mat, the human state detection semantic expression 1 is output from the human state detection unit 233 and sent to the dialogue management unit 234. Then, the dialogue management unit 234 sends the greeting output meaning expression 1 to the response generation output unit 235, and “please come and place an order” is output from the display 236 and the speaker 237 as the response output.
[0148]
Next, when the user inputs “two hamburgers and two coffees”, the input semantic expression 1 is output from the voice understanding unit 232 and sent to the dialogue management unit 234. As a result, the dialogue management unit 234 refers to the input semantic expression and the contents of the order table, outputs the output semantic expression 2, and outputs a response “Hamburger 2 to coffee 2” through the response generation output unit 235. Become so.
[0149]
In this case, usually, as shown in FIG. 44, the dialogue proceeds such as “Two hamburgers, two coffees,” “Yes,” “Thank you.” However, the user leaves the mat on the way. FIG. 45 shows a case where it has been closed.
[0150]
That is, after the response “output hamburger 2 and coffee 2” is output, the human state detection semantic expression 2 is output from the human state detection unit 233 and input to the dialogue management unit 234. Become so. In this case, since the user has left without confirming the utterance content, the dialog management unit 234 does not register the order content and sends a natural response “Thank you for using” in the output semantic expression 4. It comes to output.
[0151]
In this way, by combining the human state detection unit 233 with the dialogue management unit 234, it becomes possible to understand the user's state and reaction, and the dialogue can proceed naturally.
[0152]
In this embodiment, the mat is used for detecting the human state, but the present invention is not limited to this, and other methods such as a surveillance camera may be used.
[0153]
Next, such processing will be described with reference to the flowchart of FIG.
[0154]
In this case, the system has states # 0, # 1, # 2, and # 3 in the dialog management 234, and the initial state is the state # 0 (step S281). In the state # 0, it is confirmed whether the human state ACT of the human state detection meaning expression is “human presence” (step S282). If there is a person, the state is set to # 1 and a response is made by the output semantic expression of the greeting. It is generated and output (step S283).
[0155]
Next, in the state # 1, when the utterance ACT of the input meaning expression is an order from the voice understanding unit 232 (steps S284 and S285), the output meaning expression for confirming the order contents is sent based on the dialog knowledge and a response is output. To come. If the utterance ACT is yes (step S287), the state is set to # 2, and a response is output with an output semantic expression corresponding to the utterance act yes (step S288). If the utterance ACT is NO (step S289), an output meaning expression for reconfirmation of the order contents is transmitted and a response is output. Furthermore, when it is confirmed that the human state ACT of the human state detection meaning expression is “no person” (step S291), the state is set to # 3.
[0156]
In state # 2, “thank you” is output as thank you 1 (steps S293 and S294), and in state # 3, “thank you for using” is output as thank you (steps S293 and S294). S295, S296).
[0157]
Next, another embodiment of the present invention will be described with reference to FIG.
[0158]
This embodiment will be described in detail with respect to the voice input / output and the human state detection in the voice understanding unit 11 and the response generation / output unit 13 described in FIG.
[0159]
In this case, as shown in FIG. 47, the entire voice dialogue system includes a calculation unit 291, a memory unit 292, a storage unit 293, a storage unit interface 2931, a communication unit 294, a communication unit interface 2941, an A / D unit 295, a mat unit 296, An arithmetic processing unit 297, a D / A unit 298, and a display unit 299 are included.
[0160]
Here, the A / D unit 295 includes a microphone 2951, a filter amplification unit 2952, an A / D conversion unit 2953, and an A / D conversion unit interface 2954. The filter amplification unit 2952 has a high-frequency cutoff filter function for amplification and A / D conversion of the input from the microphone 2951. The cutoff frequency of the filter here is determined by the sampling frequency of the A / D conversion. However, for example, when sampling at 12 kHz, the high frequency component is cut off at 5.4 kHz. Also, the A / D conversion unit 2953 digitizes the amplified input sound, for example, at 16 kHz or 12 kHz, temporarily stores it in the A / D conversion unit interface 2954, and transfers it to the memory unit 292 under the control of the calculation unit 291. I am doing so.
[0161]
The mat unit 296 includes a mat 2961, a mat control unit 2962, and a mat control unit interface 2963. The mat control unit 2962 detects the presence / absence of a person on the mat 2961, and the result is transmitted through the mat control unit interface 2963. I try to forward it.
[0162]
The arithmetic processing unit 297 includes a high-speed arithmetic processing unit 2971 and a high-speed arithmetic processing unit interface 2972. The high-speed calculation processing unit 2971 is used for processing necessary for a large amount of calculation such as voice understanding processing, response generation processing, and human state detection processing by image processing. In this case, such processing needs to be performed simultaneously, and a plurality of high-speed arithmetic processing units 2971 can be used simultaneously. In each calculation process, the input data is transferred from the memory unit 292 to the high-speed calculation processing unit 2971 under the control of the calculation unit 291, and the result is transferred to the memory unit 292 after the processing is completed.
[0163]
The D / A unit 298 includes a D / A conversion unit interface 2981, a D / A conversion unit 2982, a filter amplification unit 2983, and a speaker 2984. The digital data stored in the memory unit 292 is converted to D under the control of the calculation unit 291. The data is transferred to the D / A conversion unit 2982 through the / A conversion unit interface 2981, converted to analog data at a constant period, for example, 12 kHz, and output to the speaker 2984 through the filter amplification unit 2983. In this case, the D / A conversion unit 2982 has a data temporary storage unit, and the arithmetic unit 291 can also perform other processes by performing data transfer from the memory unit 292 at high speed.
[0164]
The display unit 299 includes a display control unit interface 2991, a display control unit 2992, and a display 2993, and displays information such as changes in images, characters, graphics, moving image information, color and brightness, and density information under the control of the calculation unit 291. The information is displayed on the display 2993 by the control unit 2992.
[0165]
The communication unit 294 communicates control information data with external computers, information processors, service processing devices, and the like, and each data is exchanged through the communication unit interface 2941 under the control of the arithmetic unit 291.
[0166]
The storage unit 293 stores data, control information, programs, intermediate information, and the like necessary for voice understanding, dialogue management, and response generation under the control of the calculation unit 291.
[0167]
The calculation unit 291 uses information of each unit stored in the memory unit 292, an execution program, and a program therefor to use the A / D unit 295, the mat unit 296, the calculation processing unit 297, the D / A unit 298, the communication unit 294, The storage unit 293 is controlled.
[0168]
Here, the program executed by the arithmetic unit 291 is processed in the multitask format by performing processing in the voice understanding unit 11, the dialogue management unit 12, and the response generation output unit 13 described in FIG. For this purpose, task switching is performed sequentially at regular intervals, but when it is necessary to prioritize processing, such as when processing of each unit or input / output is completed, the processing is prioritized by interruption.
[0169]
In the above description, the A / D unit 295 and the D / A unit 298 can be individually operated. Thus, since voice input and synthesized sound output can be handled simultaneously and separately, voice input is possible even during synthesized sound output, and detection and recognition of the input voice can be performed by the synthesized sound cancellation.
[0170]
However, as the configuration of the A / D unit 295 and the D / A unit 298, a common A / D and D / A conversion unit interface 301 may be used as shown in FIG. ), A common A / D, D / A conversion unit interface 302, A / D, D / A conversion filter unit 303, and amplification unit 304 may be used.
[0171]
However, in such a configuration, data cannot be exchanged in both directions at the same time, and is limited to either input or output. Therefore, it is possible to output a synthesized sound simultaneously with the reception of the voice input during the synthesized sound output. Can not.
[0172]
In this case, when there is no means for knowing the voice input acceptance state, the user waits for a response for an unaccepted utterance or the first half of the utterance is not input. Therefore, by displaying the voice input / output permission status as an image, the computer side can inform the user of the voice input / output permission status. In particular, by combining the image display and the character display, for example, as shown in FIG. 49, it is possible to speak by “Clips” and “SPEAK”, and by the “Clips” and “LISTEN” sealed as shown in FIG. Each state that cannot be spoken can be displayed.
[0173]
In this way, the status and status of each input / output device can be communicated by another output device, enabling a more natural and easy-to-understand conversation. Furthermore, not only the status of each input / output device, but also the image display and text display when there is a need for the user to listen carefully because it is important, or when voice input is not desired in dialog management. Attention can be urged by the combination and further changes in color, brightness and density.
[0174]
The present invention is not limited to the above-described embodiments, and can be appropriately modified and implemented without changing the gist.
[0175]
【The invention's effect】
As described above, according to the present invention, when outputting a response from the system side to the user, in addition to the voice response, the person (or his face) has a sense of familiarity with the display system and at the same time is synchronized with the voice response. The mouth is moved, the attention point of the user is determined, and the usability is improved. In addition, the voice response sentence is also displayed in the form of text data on the same screen to cover the low quality of the voice response, and the user can receive the response sentence faster than the speech rate of voice. In addition, the response contents are visualized on the same screen, and the meaning and contents of important messages that should be transmitted in a form suitable for various applications are synchronized with the person-displayed voice response and voice response text. By outputting in this way, it is possible to realize high-speed message transmission from the system side to the user as seen by the user.
[0176]
As described above, since various types of responses are output from the system side to the user in parallel on the same screen, the user can select appropriate individual responses according to the situation, or two or three types of modes. Response data can be received at the same time, and the effect of utilizing the characteristics of each medium can be obtained, the degree of freedom for the user is increased, and an easy-to-use multimodal human interface can be realized.
[0177]
As a result, it is possible to quickly and efficiently cover the error confirmation and incompleteness based on ambiguity of the voice confirmation unit of the voice dialogue system, which was a problem in the past, and the user's intention by the progress of the dialogue. Easy to understand.
[0178]
In addition, there is a human condition detection means such as a mat or a camera on the input side, so that it can not only make a synthesized sound but also make the person's face on the display screen brighter and smile as well as detecting the user. In addition to improving the timing, it is possible to realize a user-friendly voice interface that can be used with peace of mind without being surprised by the user. Furthermore, when applied to a multimodal speech dialogue system, a user-friendly natural system can be obtained and the operability of the computer can be significantly improved.
[0179]
In addition, by adding a voice response cancel function, the user can view the screen display result even during voice response, and can always interrupt (Interrupt), enabling speedy voice interaction and voice recognition performance. Even if it is low, it can be covered with dialogue exchange, and the efficiency of intent transmission and data input can be greatly improved.
[0180]
In summary, in the present invention, in the speech dialogue system having speech recognition, speech synthesis, and dialogue management functions, the response content is visualized in parallel with the speech response that is time-series information when the system responds to the user. In particular, users can respond from various points of view at the same time because they can display facial expressions and gestures, display compensatory items (objects) such as items, sizes and types, and output response sentences in parallel. You will be able to receive, increase the degree of freedom, select the correct information as needed, and it is effective in improving familiarity, efficiency, comfort, reducing eye and ear fatigue, etc. .
[Brief description of the drawings]
FIG. 1 is a diagram showing a schematic configuration of an embodiment of the present invention.
FIG. 2 is a diagram showing a detailed configuration of a voice understanding unit.
FIG. 3 is a diagram for explaining a keyword candidate series.
FIG. 4 is a diagram illustrating an example of an input semantic expression.
FIG. 5 is a view showing the content of a keyword.
FIG. 6 is a diagram showing an example of output semantic expression.
FIG. 7 is a diagram showing an example of an order table.
FIG. 8 is a diagram showing an example of an old order table.
FIG. 9 is a diagram showing an example of state transition in the dialogue management unit.
FIG. 10 is a flowchart for explaining user state processing;
FIG. 11 is a flowchart for explaining system state processing;
FIG. 12 is a diagram showing a specific example of dialogue processing.
13 is a diagram for explaining user state processing in the dialogue processing shown in FIG. 12; FIG.
FIG. 14 is a diagram for explaining system state processing in dialogue processing;
15 is a diagram showing a specific example of the dialogue processing in FIG.
FIG. 16 is a diagram showing an example of an output response sentence from the system.
FIG. 17 is a diagram for explaining how to obtain a user's voice rate;
FIG. 18 is a diagram illustrating an example of an output of a dialogue management unit.
FIG. 19 is a diagram showing a detailed configuration of a response generation output unit.
FIG. 20 is a diagram showing an example of person image information.
FIG. 21 is a diagram showing an example of a response sentence pattern.
FIG. 22 is a flowchart and a specific example of a response sentence generation in a response sentence generation unit.
FIG. 23 is a diagram illustrating an example of a human figure expression determination unit.
FIG. 24 is a diagram showing an example of an emotion / emphasis determination unit.
FIG. 25 is a diagram showing a detailed configuration of a voice response generation unit.
FIG. 26 is a diagram showing an example of a basic frequency pattern model.
FIG. 27 is a diagram showing a change in the fundamental frequency pattern in the case of a response with pleasure.
FIG. 28 is a diagram showing a change in the basic frequency pattern in the case of a response accompanied by sadness.
FIG. 29 is a diagram showing an example of a specific configuration of a speech waveform generation unit.
FIG. 30 is a timing chart showing an example of time control of the output presentation order;
FIG. 31 is a timing chart showing another example of time control of the output presentation order.
FIG. 32 is a timing chart showing another example of time control of the output presentation order.
FIG. 33 is a timing chart showing another example of time control of the output presentation order.
FIG. 34 is a diagram showing a display example on the display screen.
FIG. 35 is a diagram showing a display example on the display screen.
FIG. 36 is a diagram showing a display example on the display screen.
FIG. 37 is a diagram showing a display example on the display screen.
FIG. 38 is a diagram showing a display example on the display screen.
FIG. 39 is a diagram showing a display example on the display screen.
FIG. 40 is a diagram showing a display example on the display screen.
FIG. 41 is a diagram briefly showing the procedure of dialogue processing.
FIG. 42 is a diagram showing a schematic configuration of another embodiment of the present invention.
FIG. 43 is a diagram for explaining a human state detection unit;
44 is a view for explaining the operation of the other embodiment shown in FIG. 42;
45 is a view for explaining the operation of the other embodiment shown in FIG. 42;
FIG. 46 is a flowchart for explaining the operation of the other embodiment shown in FIG. 42;
FIG. 47 is a diagram showing a schematic configuration of another embodiment of the present invention.
48 is a diagram showing an example in which a part of the other embodiment shown in FIG. 47 is modified.
FIG. 49 is a diagram showing a display example on the display screen.
FIG. 50 is a diagram showing a display example on the display screen.
[Explanation of symbols]
11,232 Speech Understanding Department
12,234 Dialogue management department
13,235 Response generator
14,236 display
15,237 Speaker
21 Keyword detector
21a Speech analysis unit
21b Keyword spotting processor
22 Syntax and semantic analysis part
22a sentence start end determination unit
22b sentence candidate analysis part
22c sentence end judgment part
22d sentence candidate table
231 Voice input unit
233 Human condition detector
291 Calculation unit
292 Memory part
293 Storage Department
294 Communication Department
295 A / D section
296 mat part
297 Arithmetic processing part
298 D / A section
299 display

Claims (2)

音声入力が与えられ該入力される音声の意味内容を理解し、理解した前記各意味内容に対して該意味内容の確からしさの度合いに関するスコア付けを行う音声理解手段と、
前記入力意味表現のうち最も確からしさの度合いが高い入力意味表現を選択し、選択した前記入力意味表現の該意味内容と該スコアに応じて出力意味表現を生成する対話管理手段と、
前記出力意味表現に応じてシステム応答出力を出力する応答出力手段とを具備し、
対話管理手段は、前記音声理解手段に音声入力が与えられるユーザ状態と前記応答出力手段からシステム応答出力が出力されるシステム状態との間の状態遷移を制御することにより、システムとユーザとの対話を管理することを特徴とする音声対話システム。
Speech understanding means for receiving speech input, understanding the meaning content of the input speech, and scoring the degree of likelihood of the meaning content for each of the understood meaning content;
Dialog management means for selecting an input semantic expression having the highest degree of certainty among the input semantic expressions and generating an output semantic expression according to the semantic content of the selected input semantic expression and the score;
Response output means for outputting a system response output according to the output semantic expression,
The dialogue management means controls a state transition between a user state in which a voice input is given to the voice understanding means and a system state in which a system response output is outputted from the response output means. Spoken dialogue system characterized by managing
音声入力が与えられ該入力される音声の意味内容を理解し、理解した前記各意味内容に対して該意味内容の確からしさの度合いに関するスコア付けを行う音声理解ステップと、
前記入力意味表現のうち最も確からしさの度合いが高い入力意味表現を選択し、選択した前記入力意味表現の該意味内容と該スコアに応じて出力意味表現を生成する対話管理ステップと、
前記出力意味表現に応じてシステム応答出力を出力する応答出力ステップとからなり、
前記対話管理ステップは、前記音声理解ステップに音声入力が与えられるユーザ状態と前記応答出力ステップからシステム応答出力が出力されるシステム状態との間の状態遷移を制御することにより、システムとユーザとの対話を管理することを特徴とする音声対話方法。
A speech understanding step in which speech input is given, the meaning content of the input speech is understood, and each of the understood meaning content is scored with respect to the degree of likelihood of the meaning content;
A dialog management step of selecting an input semantic expression having the highest degree of certainty among the input semantic expressions and generating an output semantic expression according to the semantic content of the selected input semantic expression and the score;
A response output step of outputting a system response output according to the output semantic expression,
The dialog management step controls a state transition between a user state in which a voice input is given to the voice understanding step and a system state in which a system response output is output from the response output step. A voice dialogue method characterized by managing dialogue.
JP2000272335A 1991-11-18 2000-09-07 Spoken dialogue method and system Expired - Lifetime JP3667614B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000272335A JP3667614B2 (en) 1991-11-18 2000-09-07 Spoken dialogue method and system

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP3-329475 1991-11-18
JP32947591 1991-11-18
JP2000272335A JP3667614B2 (en) 1991-11-18 2000-09-07 Spoken dialogue method and system

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP4309093A Division JPH05216618A (en) 1991-11-18 1992-11-18 Voice interactive system

Publications (2)

Publication Number Publication Date
JP2001142483A JP2001142483A (en) 2001-05-25
JP3667614B2 true JP3667614B2 (en) 2005-07-06

Family

ID=26573219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000272335A Expired - Lifetime JP3667614B2 (en) 1991-11-18 2000-09-07 Spoken dialogue method and system

Country Status (1)

Country Link
JP (1) JP3667614B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4585759B2 (en) * 2003-12-02 2010-11-24 キヤノン株式会社 Speech synthesis apparatus, speech synthesis method, program, and recording medium
CN110457975B (en) * 2018-05-07 2022-12-27 山东大学 Micro expression identification method based on macro information knowledge migration

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2667999B2 (en) * 1987-03-09 1997-10-27 工業技術院長 Dialogue processing device
JPH0340000A (en) * 1989-07-07 1991-02-20 Matsushita Refrig Co Ltd Sound recognition system
JP3235728B2 (en) * 1990-02-09 2001-12-04 沖ソフトウェア株式会社 Conversation control method
JPH05216618A (en) * 1991-11-18 1993-08-27 Toshiba Corp Voice interactive system

Also Published As

Publication number Publication date
JP2001142483A (en) 2001-05-25

Similar Documents

Publication Publication Date Title
EP0543329B1 (en) Speech dialogue system for facilitating human-computer interaction
JPH05216618A (en) Voice interactive system
EP3850624B1 (en) Transforming audio content into images
KR102582291B1 (en) Emotion information-based voice synthesis method and device
RU2632424C2 (en) Method and server for speech synthesis in text
US20200279553A1 (en) Linguistic style matching agent
CN107516511B (en) Text-to-speech learning system for intent recognition and emotion
US9478219B2 (en) Audio synchronization for document narration with user-selected playback
US8352269B2 (en) Systems and methods for processing indicia for document narration
WO2020205233A1 (en) Direct speech-to-speech translation via machine learning
EP3151239A1 (en) Method and system for text-to-speech synthesis
JP4729902B2 (en) Spoken dialogue system
JP3667615B2 (en) Spoken dialogue method and system
WO2012009045A1 (en) Modification of speech quality in conversations over voice channels
EP4343755A1 (en) Method and system for generating composite speech by using style tag expressed in natural language
CN116917984A (en) Interactive content output
JPH10326176A (en) Voice conversation control method
JP3667614B2 (en) Spoken dialogue method and system
JPH11237971A (en) Voice responding device
JP2005258235A (en) Interaction controller with interaction correcting function by feeling utterance detection
Garg et al. Automation and Presentation of Word Document Using Speech Recognition
JP2007122510A (en) Presenting device and presenting program
Rajole et al. Voice Based E-Mail System for Visually Impaired Peoples Using Computer Vision Techniques: An Overview
AU2020447125B2 (en) Hot-word free pre-emption of automated assistant response presentation
Hackbarth Voices from Industry Revolutionizing Augmentative and Alternative Communication with Generative Artificial Intelligence

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20031113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050406

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080415

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090415

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100415

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100415

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110415

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130415

Year of fee payment: 8

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130415

Year of fee payment: 8