JP2001188781A

JP2001188781A - 会話処理装置および方法、並びに記録媒体

Info

Publication number: JP2001188781A
Application number: JP37377899A
Authority: JP
Inventors: Kazuhiko Tajima; 和彦田島; Masanori Omote; 雅則表; Hironaga Tsutsumi; 洪長包; Atsuo Hiroe; 厚夫廣江; Hideki Kishi; 秀樹岸; Masatoshi Takeda; 正資武田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-12-28
Filing date: 1999-12-28
Publication date: 2001-07-10
Also published as: US20010023397A1

Abstract

(57)【要約】【課題】信頼性の高い音声対話装置を提供する。【解決手段】言語処理部５１には、音声認識された認
識結果が、複数入力される。言語処理部５１は、入力さ
れた複数の認識結果から、単語や文法的に矛盾を生じて
いない認識結果のみを対話制御部５２に出力する。対話
制御部５２は、フレームに適合する認識結果を選択す
る。そして、フレーム内のスロットが埋まるような応答
文を応答文生成部１７は生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は会話処理装置および
方法、並びに記録媒体に関し、特に、音声により所定の
処理を行わせる装置に用いて好適な会話処理装置および
方法、並びに記録媒体に関する。

【０００２】

【従来の技術】図１は、音声により、航空券の予約な
ど、所定の処理を行う音声対話装置の一例の構成を示し
ている。電話回線などを介して送信されてきたユーザの
音声は、音声認識部１に入力される。音声認識部１は、
入力されたユーザの音声をテキストデータ（又はワード
グラフ）に変換して、会話処理部２に出力する。

【０００３】会話処理部２は、後述する処理により、入
力されたテキストデータ（および付随する情報）を解析
し、その解析結果に応じた応答文のテキストデータを、
音声合成部３に出力する。音声合成部３は、入力された
テキストデータに基づく音声合成を行い、電話回線など
に出力する。ユーザは、その電話回線を介して送信され
てきた音声を聞き、次のステップへと進む。このような
処理が繰り返えされることにより、例えば、航空券の予
約が行えるようになっている。

【０００４】図２は、会話処理部２の詳細な構成を示す
図である。音声認識部１から出力された認識結果（ここ
では、テキストデータとする）は、会話処理部２の言語
処理部１１に入力される。言語処理部１１は、辞書デー
タベース１２と解析用文法データベース１３に記憶され
ているデータを基に、入力された認識結果を、形態素解
析、構文解析などの解析を行うことにより、単語の情報
や構文の情報などの言語情報を抽出する。また、辞書に
記述された内容を基に、入力の音声発話の意味、意図な
ども抽出する。

【０００５】すなわち、辞書データベース１２には、単
語の表記や解析用文法を適用するために必要な品詞情報
などの情報、単語の個別の意味情報などを記憶されてお
り、解析用文法データベース１３には、辞書データベー
ス１２に記憶されている各単語の情報を基に、単語連鎖
に関する制約を記述したデータを記憶されている。これ
らのデータを用いて言語処理部１１は、入力された音声
認識結果のテキストデータを解析する。

【０００６】解析用文法データベース１３に記憶されて
いるデータは、正規文法、文脈自由文法、統計的な単語
連鎖確立、意味的な解析までを含める場合はHPSGなどの
意味論を含んだ言語理論などを用いる、テキスト解析に
必要なデータである。

【０００７】対話制御部１４は、言語処理部１１により
処理された処理結果をフレーム照合部１５に出力する。
フレーム照合部１５は、入力された処理結果に基づき、
ユーザの発話の状況から話題の遷移に応じたフレームに
適合する候補を抽出し、そのフレームが埋まり次第、何
らかのアクションを起こすようになっている。この方法
は、タスク達成のための対話処理（Cooperative Task-O
riented Dialogue System）における「フレーム・フィ
リング方式」、または、「フォーム・フィリング方式」
と称される対話処理方法により行われている。

【０００８】なお、フレーム・フィリング方式について
は、”R.Cole,et al."Survey of the State of Art in
Human Languege Technology",Cambridge University Pr
ess,1998）に開示されている。また、フォーム・フィリ
ング方式については、”Jennifer Chu-Carroll "Form-B
ased Reasoning for Mixed-Initiative Dialogue Manag
ement in Information-Query System",ESCA,Eurospeech
'99 Proceedings, Budapest, Hungay, ISSN 1018-407
4, pages 1519-1522”に開示されている。

【０００９】対話制御部１４は、フレームを埋めるため
の処理として、必要な情報を、知識データベース１６を
検索するよことにより取得する。知識データベース１６
には、一般的な常識、言語的な知識などの各種データベ
ースから構成されている。

【００１０】対話制御部１４の検索の結果、該当する事
実が検索されれば、その事実を直接音声として発話する
ための意味情報を生成し、応答文生生成部１７に出力す
る。応答文生成部１７は、入力された意味情報を解析
し、応答規則データベース１８に記憶されているデータ
に従って、応答文としてのテキストデータを生成する。
応答規則データベース１８に記憶されているデータは、
応答文を生成するのに必要な品詞情報、単語の活用形の
情報などを保持する辞書、文生成に必要な活用規則や語
順制約情報などが記述された辞書などから構成されてい
る。

【００１１】応答文生成部１７により生成されたテキス
トデータの応答文は、音声合成部３に出力され、音声合
成部３により音声データに変換され、ユーザに対して、
送信される。

【００１２】

【発明が解決しようとする課題】上述した会話処理部２
における言語処理部１１の処理は、１００％の確率でユ
ーザが発話したことを処理できるわけではない。また、
会話処理部２の前の段階の音声認識部１による認識結果
も、１００％の確率でユーザの発話したことを認識でき
るわけではない。

【００１３】ここで、音声対話装置とユーザが行う対話
の一例を、図３を参照して説明する。音声対話装置が、
時刻ｔ₁において、”出発地を言ってください”と発話
する。それに対しユーザが、時刻ｔ₂において、”東京
から”と返答する。この返答を受けて、音声対話装置
は、時刻ｔ₃において、音声認識部１と会話処理部２に
より、上述したような処理が行なわれる。そして、その
結果、「東京まで」という誤認識の結果が得られてしま
ったとする。

【００１４】ここで、音声認識部１（言語処理部１１）
から対話制御部１４に出力されるのは、ユーザが発話し
た可能性の最も高い言葉（第１候補）のみである。換言
すれば、言語処理部１１において、複数の認識結果が候
補として上げられても、第１候補のみが、対話制御部１
４以下の処理対象とされる。

【００１５】従って、この第１候補が誤認識であると、
その後の処理を行うことができない。図３に示した会話
例では、音声対話装置は、出発地を聞いているので、
「東京まで」という返答は妥当ではない、すなわち、フ
レーム照合部１５により、フレームに適合しないと判断
され、その結果、応答文生成部１７は、時刻ｔ₃におい
て、”もう一度出発地を言ってください”という、文面
のテキストデータを生成し、音声合成部３により音声信
号に変換され、ユーザに対して発話される。

【００１６】ユーザは、音声対話装置の、再度出発地の
入力の催促を受け、時刻ｔ₄において、”東京から”
と、一度した発話を繰り返し発話する。時刻ｔ₅におい
て、音声対話装置は、正しく「東京から」と認識でき、
その結果、対話制御部１４は、フレームに適合する返答
が得られたと判断し、次の質問”目的地を言ってくださ
い”という文面のテキストデータを生成し、音声合成部
３により音声信号に変換され、ユーザに対して発話され
る。

【００１７】このように、ユーザの発話を認識し、複数
の認識結果が得られた場合でも、最も確からしい第１候
補の認識結果しか用いないため、その第１候補が誤認識
であった場合、再度、ユーザに同じ発話を催促するとい
った不都合が生じてしまうといった課題があった。この
ようなことは、対話装置の信頼性を低減させることにな
り、このような事を防ぐ必要があった。

【００１８】本発明はこのような状況に鑑みてなされた
ものであり、認識結果のうち、第１候補以下の候補も処
理対象とすることにより、誤認識を起こした場合でも、
ユーザに再度同じ発話を催促するといった不都合を防
ぎ、もって対話装置の信頼性を高めることを目的とす
る。

【００１９】

【課題を解決するための手段】請求項１に記載の会話処
理装置は、ユーザの発話を入力する入力手段と、入力手
段により入力されたユーザの発話を認識し、その認識結
果として複数の候補を出力する第１の出力手段と、第１
の出力手段により出力された複数の候補のうち、文法的
に間違いがないと判断される候補を出力する第２の出力
手段と、第２の出力手段により出力された候補のうち、
最も確からしいとされる候補から順に、フレームに適合
するか否かを判断する判断手段とを含むことを特徴とす
る。

【００２０】請求項２に記載の会話処理方法は、入力さ
れたユーザの発話を認識し、その認識結果として複数の
候補を出力する第１の出力ステップと、第１の出力ステ
ップの処理で出力された複数の候補のうち、文法的に間
違いがない判断される候補を出力する第２の出力ステッ
プと、第２の出力ステップの処理で出力された候補のう
ち、最も確からしいとされる候補から順に、フレームに
適合するか否かを判断する判断ステップとを含むことを
特徴とする。

【００２１】請求項３に記載の記録媒体のプログラム
は、入力されたユーザの発話を認識し、その認識結果と
して複数の候補を出力する第１の出力ステップと、第１
の出力ステップの処理で出力された複数の候補のうち、
文法的に間違いがない判断される候補を出力する第２の
出力ステップと、第２の出力ステップの処理で出力され
た候補のうち、最も確からしいとされる候補から順に、
フレームに適合するか否かを判断する判断ステップとを
含むことを特徴とする。

【００２２】請求項１に記載の会話処理装置、請求項２
に記載の会話処理方法、および請求項３に記載の記録媒
体においては、入力されたユーザの発話が認識され、そ
の認識結果として複数の候補が出力され、複数の候補の
うち、文法的に間違いがないと判断される候補がさらに
出力され、出力された候補のうち、最も確からしいとさ
れる候補から順に、フレームに適合するか否かが判断さ
れる。

【００２３】

【発明の実施の形態】本発明の実施の形態について、図
を参照しながら説明する。図４は、本発明を適用した音
声対話装置の一実施の形態の構成を示している。なお、
以下の図面において、従来の場合と対応する部分には同
一の符号を付してあり、その説明は適宜省略する。

【００２４】図４に示した本発明を適用した音声対話装
置は、従来の対話装置の、会話処理部２を会話処理部２
１にした構成となっている。図５は、音声認識部１の詳
細な構成を示す図である。ユーザの発話は、電話回線な
どを介して音声信号として、音声認識部１のＡＤ(Analo
g Digital)変換部３１に入力される。ＡＤ変換部３１で
は、アナログ信号である音声信号がサンプリング、量子
化され、ディジタル信号である音声データに変換され
る。この音声データは、特徴抽出部３２に供給される。

【００２５】特徴抽出部３２は、ＡＤ変換部３１からの
音声データについて、適当なフレームごとに、例えば、
スペクトルや、線形予測係数、ケプストラム係数、線ス
ペクトル対等の特徴パラメータを抽出し、特徴量バッフ
ァ３３およびマッチング部３４に供給する。特徴量バッ
ファ３３では、特徴抽出部３２からの特徴パラメータが
一時記憶される。

【００２６】マッチング部３４は、特徴抽出部３２から
の特徴パラメータ、または特徴量バッファ３３に記憶さ
れた特徴パラメータに基づき、音響モデルデータベース
３５、辞書データベース３６、および文法データベース
３７を必要に応じて参照しながら、入力された音声信号
を認識する。

【００２７】即ち、音響モデルデータベース３５は、音
声認識する音声の言語における個々の音素や音節などの
音響的な特徴を表す音響モデルを記憶している。ここ
で、音響モデルとしては、例えば、HMM(Hidden Markov
Model)などを用いることができる。辞書データベース３
６は、認識対象の各単語について、その発音に関する情
報が記述された単語辞書を記憶している。文法データベ
ース３７は、辞書データベース３６の単語辞書に登録さ
れている各単語が、どのように連鎖する（つながる）か
を記述した文法規則を記憶している。ここで、文法規則
としては、例えば、文脈自由文法（CFG）や、統計的な
単語連鎖確率（N-gram）などに基づく規則を用いること
ができる。

【００２８】マッチング部３４は、辞書データベース３
６の単語辞書を参照することにより、音響モデルデータ
ベース３５に記憶されている音響モデルを接続すること
で、単語の音響モデル（単語モデル）を構成する。さら
に、マッチング部３４は、幾つかの単語モデルを、文法
データベース３７に記憶された文法規則を参照すること
により接続し、そのようにして接続された単語モデルを
用いて、特徴パラメータに基づき、例えば、HMM法等に
よって、入力された音声を認識する。そして、マッチン
グ部３４による音声認識結果は、例えば、テキスト等で
出力される。

【００２９】なお、マッチング部３４は、会話処理部２
１から、そこで得られる情報を受信することができるよ
うになっており、その会話管理情報に基づいて、精度の
高い音声認識を行うことができるようになっている。

【００３０】また、本発明の音声認識部１は、複数の認
識結果を会話処理部２１に出力する。換言すれば、音響
スコアや言語スコアなどの情報から選択された第１候補
のみを、会話処理部２１に出力するのではなく、上位候
補を、複数個出力する。この出力する個数としては、例
えば、この装置の処理能力などに依存して決められる。

【００３１】図６は、会話処理部２１の内部構成を示す
ブロック図である。言語処理部５１は、音声認識部１か
ら出力された複数の認識結果を入力し、辞書データベー
ス１２および解析用文法データベース１３に記憶されて
いるデータを基に解析を行う。その結果、例えば、音声
認識部１から認識結果として、目的語を取らないような
動詞（自動詞）が入力されたにも関わらず、目的語と判
断される言葉と共に、その動詞が入力された場合、矛盾
が生じていると判断し、その認識結果は、対話制御部５
２に出力しない。

【００３２】このように、言語処理部５１に入力された
複数の認識結果のうち、解析の結果、矛盾を生じないと
判断される認識結果のみが、対話制御部５２に出力され
る。したがって、対話制御部５２に出力される認識結果
（言語処理部５１から出力される認識結果）は、言語処
理部５１に入力された認識結果と、同等の数、または、
少ない数である。

【００３３】対話制御部５２は、入力された複数の認識
結果のうち、もっとも上位の候補（第１候補）を処理対
象とし、その処理対象となった候補以外の候補は、対話
履歴メモリ５３に出力し、記憶させる。対話制御部５２
は、フレーム・フィリング方式と称される方式を用い
て、フレームに適合する候補を選択し、そのフレーム内
のスロットが埋まるように処理を行う。

【００３４】図７は、フレームの一例を示す図である。
図７に示したフレームは、フレーム適合部１５に記憶さ
れている。図７に示した例では、航空券の予約を行う際
のフレームを示しており、状態遷移番号２６のフレーム
には、”出発地”、”目的地”、”年月日”、および”
航空会社名”という４つのスロットが設けられている。
対話制御部５２は、これらのスロットが埋まるように、
対話を制御する。また、これらのスロットが埋められた
場合の処理（Action）として、”データベース第１８番
を調べて返答する”という指示が記載されている。

【００３５】対話制御部５２は、上述したようなフレー
ム内のスロットが埋まるようにするために、適宜、応答
文生成部１７に、応答文生成の為の情報を出力する。例
えば、対話制御部５２は、出発地のスロットが埋められ
た後、目的地のスロットをうめる為に、”目的地を言っ
てください”という応答文を生成させる為の情報を、応
答文生成部１７に出力する。

【００３６】次に、図８のフローチャートを参照して、
会話処理部２１の言語処理部５１の動作について説明す
る。ステップＳ１において、音声認識部１から、１乃至
Ｎ候補までの複数の認識結果が入力される。ステップＳ
２において、処理対象となる認識結果の初期設定を行
う。すなわち、入力された複数の候補のうち、音響スコ
アや言語スコアなどの情報から、もっとも確からしいと
された第１候補を処理対象とする。

【００３７】ステップＳ３において、処理対象となって
いる第ｎ候補（今の場合、第１候補）は、妥当であるか
否かが判断される。上述したように、辞書データベース
１２と解析用文法データベース１３に記憶されているデ
ータを参照して、処理対象の認識結果が、矛盾を生じる
ような結果ではないか否かを判断する。

【００３８】ステップＳ３において、処理対象となって
いる第ｎ候補の認識結果が、妥当であると判断された場
合、ステップＳ４に進み、妥当ではないと判断された場
合、ステップＳ４の処理をスキップし、ステップＳ５に
進む。ステップＳ４において、妥当と判断された認識結
果は、対話制御部５２に出力される。

【００３９】ステップＳ５において、処理対象となりる
候補が、ｎ＋１に更新される。その更新された新たなｎ
に対して、ステップＳ６において、ｎ＝Ｎであるか否か
が判断される。すなわち、新たに設定された第ｎ候補
は、言語処理部５１に入力された最後の候補であるか否
かが判断される。ステップＳ６において、ｎ＝Ｎではな
いと判断された場合、ステップＳ３の処理に戻り、それ
以降の処理が繰り返される。

【００４０】一方、ステップＳ６において、ｎ＝Ｎであ
ると判断された場合、換言すれば、処理対象となる認識
結果が存在しないと判断された場合、言語処理部５１の
処理は終了される。

【００４１】このようにして、音声認識部１から出力さ
れた複数の認識結果は、まず、言語処理部５１により、
妥当であるか否かが判断され、妥当であると判断された
認識結果のみが、対話制御部５２に出力される。

【００４２】図９のフローチャートを参照して、対話制
御部５２の動作について説明する。ステップＳ１１にお
いて、対話制御部５２は、第１候補乃至第Ｎ’候補まで
のＮ’個の認識結果を入力する。ステップＳ１２におい
て、入力されたＮ’個の候補のうち、第１候補を処理対
象とし、第２候補乃至第Ｎ’候補を、対話履歴メモリ５
３に出力し、記憶させる。

【００４３】ステップＳ１３において、処理対象となっ
ている候補（この場合、第１候補）が、フレームに適合
するか否かが判断される。フレームに適合しないと判断
された場合、ステップＳ１４に進む。ステップＳ１４に
おいて、次の候補、この場合、第２候補を、対話履歴メ
モリ５３から読み出し、新たな処理対象とし、ステップ
Ｓ１３以降の処理が繰り返される。

【００４４】一方、ステップＳ１３において、処理対象
となっている候補が、フレームに適合すると判断された
場合、ステップＳ１５に進み、応答文を生成するための
情報が、応答文生成部１７に対して出力され、対話制御
部５２の処理が終了される。

【００４５】このように、音声認識部１により認識され
た複数の認識結果を、処理対象とし、まず、言語処理部
５１において、日本語として矛盾する点は無いか否かを
判断し、矛盾しないと判断されたものを対話制御部５２
において、フレームと適合するか否かを判断するとこと
により、音声認識部１により誤認識が発生したときで
も、ユーザに同じ事を発話させるといった不都合な状況
を発生させる事を防ぐ事が可能となる。

【００４６】ここで、会話処理部２１において行われる
処理について、具体的な例を挙げて説明する。図１０に
示すように、音声対話装置が、時刻ｔ₁において、”出
発地を言ってください”と発話し、その発話に対して、
ユーザが、時刻ｔ₂において、”東京から出発”と返答
する。この返答を受け、音声対話装置は、時刻ｔ₃にお
いて、まず、音声認識部１により、音声認識を行う。

【００４７】音声認識部１の認識の結果、第１候補が
「東京まで出発」、第２候補が「東京から出発」、第３
候補が「東京がすっぱい」、第４候補が「京都から出
発」というように、複数の結果が得られたとする。これ
らの候補は、会話処理部２１の言語処理部５１により、
日本語としての矛盾が無いか否かが判断される。その結
果、第１候補であった「東京まで出発」と第３候補であ
った「東京がすっぱい」が矛盾が生じていると判断さ
れ、対話制御部５２には出力されない。

【００４８】対話制御部５２には、第２候補であった
「東京から出発」という認識結果が、第１’候補として
入力され、第４候補であった「京都から出発」という認
識結果が、第２’候補として入力される。その結果、対
話制御部５２は、第１’候補の「東京から出発」という
のが、フレームの”出発地”の所のスロットに適合する
として、採用する。

【００４９】このように、出発地のスロットが埋められ
たので、次に、目的地のスロットを埋める為に、”目的
地を言ってください”という文面を発話される為の情報
が、応答文生成部１７に出力される。応答文生成部１７
は、入力された情報に基づき、テキストデータとしての
応答文を生成し、音声合成部３に出力される。

【００５０】図１１は、音声合成部３の構成例を示して
いる。テキスト解析部７１には、会話処理部２１が出力
するテキストデータが、音声合成処理の対象として入力
されるようになっており、テキスト解析部７１は、辞書
データベース７２や解析用文法データベース７３を参照
しながら、そのテキストを解析する。

【００５１】即ち、辞書データベース７２には、各単語
の品詞情報や、読み、アクセント等の情報が記述された
単語辞書が記憶されており、また、解析用文法データベ
ース７３には、辞書データベース７２の単語辞書に記述
された単語について、単語連鎖に関する制約等の解析用
文法規則が記憶されている。そして、テキスト解析部７
１は、この単語辞書および解析用文法規則に基づいて、
そこに入力されるテキストの形態素解析や構文解析等の
解析を行い、後段の規則合成部７４で行われる規則音声
合成に必要な情報を抽出する。ここで、規則音声合成に
必要な情報としては、例えば、ポーズの位置や、アクセ
ントおよびイントネーションを制御するための情報その
他の韻律情報や、各単語の発音等の音韻情報などがあ
る。

【００５２】テキスト解析部７１で得られた情報は、規
則合成部７４に供給され、規則合成部７４では、音素片
データベース７５を用いて、テキスト解析部７１に入力
されたテキストに対応する合成音の音声データ（デジタ
ルデータ）が生成される。

【００５３】即ち、音素片データベース７５には、例え
ば、ＣＶ(Consonant, Vowel)や、VCV、CVC等の形で音素
片データが記憶されており、規則合成部７４は、テキス
ト解析部７１からの情報に基づいて、必要な音素片デー
タを接続し、さらに、ポーズ、アクセント、イントネー
ション等を適切に付加することで、テキスト解析部７１
に入力されたテキストに対応する合成音の音声データを
生成する。

【００５４】この音声データは、ＤＡ変換部７６に供給
され、そこで、アナログ信号としての音声信号に変換さ
れる。この音声信号は、図示せぬ電話回線などに供給さ
れ、これにより、テキスト解析部７１に入力されたテキ
ストに対応する合成音が、ユーザに対して送信される。

【００５５】このように、音声認識部１により認識結果
を、第１の候補のみを処理対象とするのではなく、それ
以下の下位候補も処理対象とすることにより、信頼性の
高い音声対話装置、換言すれば、ユーザに同じ発話を繰
り返させることがないような音声対話装置を提供する事
が可能となる。

【００５６】上述した一連の処理は、ハードウェアによ
り実行させることもできるが、ソフトウェアにより実行
させることもできる。一連の処理をソフトウェアにより
実行させる場合には、そのソフトウェアを構成するプロ
グラムが専用のハードウェアに組み込まれているコンピ
ュータ、または、各種のプログラムをインストールする
ことで、各種の機能を実行することが可能な、例えば汎
用のパーソナルコンピュータなどに、記録媒体からイン
ストールされる。

【００５７】この記録媒体は、図１２に示すように、コ
ンピュータとは別に、ユーザにプログラムを提供するた
めに配布される、プログラムが記録されている磁気ディ
スク１１１（フロッピディスクを含む）、光ディスク１
１２（CD-ROM（Compact Disk-Read Only Memory），DVD
（Digital Versatile Disk）を含む）、光磁気ディスク
１１３（MD（Mini-Disk）を含む）、若しくは半導体メ
モリ４などよりなるパッケージメディアにより構成され
るだけでなく、コンピュータに予め組み込まれた状態で
ユーザに提供される、プログラムが記憶されているROM
１０２や記憶部１０８が含まれるハードディスクなどで
構成される。

【００５８】なお、本明細書において、媒体により提供
されるプログラムを記述するステップは、記載された順
序に従って、時系列的に行われる処理は勿論、必ずしも
時系列的に処理されなくとも、並列的あるいは個別に実
行される処理をも含むものである。

【００５９】また、本明細書において、システムとは、
複数の装置により構成される装置全体を表すものであ
る。

【００６０】

【発明の効果】以上の如く、請求項１に記載の会話処理
装置、請求項２に記載の会話処理方法、および請求項３
に記載の記録媒体においては、入力されたユーザの発話
を認識し、その認識結果として複数の候補を出力し、複
数の候補のうち、文法的に間違いがないと判断される候
補をさらに出力し、出力された候補のうち、最も確から
しいとされる候補から順に、フレームに適合するか否か
を判断するようにしたので、信頼性の高い会話装置を提
供することが可能となる。

【図面の簡単な説明】

【図１】従来の音声対話装置の一例の構成を示す図であ
る。

【図２】図１の会話処理部２の構成を示す図である。

【図３】図１に示した音声対話装置とユーザとの間で行
われる対話について説明する図である。

【図４】本発明を適用した音声対話装置の一実施の形態
の構成を示す図である。

【図５】図４の音声認識部１の構成を示す図である。

【図６】図４の会話処理部２１の構成を示す図である。

【図７】フレームについて説明する図である。

【図８】図６の言語処理部５１の動作を説明するフロー
チャートである。

【図９】図６の対話制御部５２の動作を説明するフロー
チャートである。

【図１０】図４に示した音声対話装置とユーザとの間で
行われる対話について説明する図である。

【図１１】図４の音声合成部３の構成を示す図である。

【図１２】媒体を説明する図である。

【符号の説明】

１音声認識部，３音声合成部，１２辞書デー
タベース，１３解析用文法データベース，１５
フレーム照合部，１６知識データベース，１７応
答文生成部，１８応答規則データベース，２１
会話処理部，５１言語処理部，５２対話制御部，
５３対話履歴メモリ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/22 Ｇ１０Ｌ 3/00 ５６１Ｅ５７１Ｕ (72)発明者包洪長東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者廣江厚夫東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者岸秀樹東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者武田正資東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 5B091 AA15 CA14 CB12 CB32 CC01 CC15 DA06 EA04 EA07 5D015 HH11 KK02 LL04 LL05 5D045 AB24 AB26 AB30 9A001 BB06 EE05 HH17 HH18 JJ01 KK46 LL01

Claims

【特許請求の範囲】

【請求項１】ユーザの発話を入力する入力手段と、前記入力手段により入力された前記ユーザの発話を認識
し、その認識結果として複数の候補を出力する第１の出
力手段と、前記第１の出力手段により出力された前記複数の候補の
うち、文法的に間違いがないと判断される候補を出力す
る第２の出力手段と、前記第２の出力手段により出力された前記候補のうち、
最も確からしいとされる候補から順に、フレームに適合
するか否かを判断する判断手段とを含むことを特徴とす
る会話処理装置。
【請求項２】入力されたユーザの発話を認識し、その
認識結果として複数の候補を出力する第１の出力ステッ
プと、前記第１の出力ステップの処理で出力された前記複数の
候補のうち、文法的に間違いがない判断される候補を出
力する第２の出力ステップと、前記第２の出力ステップの処理で出力された前記候補の
うち、最も確からしいとされる候補から順に、フレーム
に適合するか否かを判断する判断ステップとを含むこと
を特徴とする会話処理方法。
【請求項３】入力されたユーザの発話を認識し、その
認識結果として複数の候補を出力する第１の出力ステッ
プと、前記第１の出力ステップの処理で出力された前記複数の
候補のうち、文法的に間違いがない判断される候補を出
力する第２の出力ステップと、前記第２の出力ステップの処理で出力された前記候補の
うち、最も確からしいとされる候補から順に、フレーム
に適合するか否かを判断する判断ステップとを含むこと
を特徴とするコンピュータが読み取り可能なプログラム
が記録されている記録媒体。