JP2001188781A - 会話処理装置および方法、並びに記録媒体 - Google Patents

会話処理装置および方法、並びに記録媒体

Info

Publication number
JP2001188781A
JP2001188781A JP37377899A JP37377899A JP2001188781A JP 2001188781 A JP2001188781 A JP 2001188781A JP 37377899 A JP37377899 A JP 37377899A JP 37377899 A JP37377899 A JP 37377899A JP 2001188781 A JP2001188781 A JP 2001188781A
Authority
JP
Japan
Prior art keywords
output
unit
candidate
candidates
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP37377899A
Other languages
English (en)
Inventor
Kazuhiko Tajima
和彦 田島
Masanori Omote
雅則 表
Hironaga Tsutsumi
洪長 包
Atsuo Hiroe
厚夫 廣江
Hideki Kishi
秀樹 岸
Masatoshi Takeda
正資 武田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP37377899A priority Critical patent/JP2001188781A/ja
Priority to US09/748,879 priority patent/US20010023397A1/en
Publication of JP2001188781A publication Critical patent/JP2001188781A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

(57)【要約】 【課題】 信頼性の高い音声対話装置を提供する。 【解決手段】 言語処理部51には、音声認識された認
識結果が、複数入力される。言語処理部51は、入力さ
れた複数の認識結果から、単語や文法的に矛盾を生じて
いない認識結果のみを対話制御部52に出力する。対話
制御部52は、フレームに適合する認識結果を選択す
る。そして、フレーム内のスロットが埋まるような応答
文を応答文生成部17は生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は会話処理装置および
方法、並びに記録媒体に関し、特に、音声により所定の
処理を行わせる装置に用いて好適な会話処理装置および
方法、並びに記録媒体に関する。
【0002】
【従来の技術】図1は、音声により、航空券の予約な
ど、所定の処理を行う音声対話装置の一例の構成を示し
ている。電話回線などを介して送信されてきたユーザの
音声は、音声認識部1に入力される。音声認識部1は、
入力されたユーザの音声をテキストデータ(又はワード
グラフ)に変換して、会話処理部2に出力する。
【0003】会話処理部2は、後述する処理により、入
力されたテキストデータ(および付随する情報)を解析
し、その解析結果に応じた応答文のテキストデータを、
音声合成部3に出力する。音声合成部3は、入力された
テキストデータに基づく音声合成を行い、電話回線など
に出力する。ユーザは、その電話回線を介して送信され
てきた音声を聞き、次のステップへと進む。このような
処理が繰り返えされることにより、例えば、航空券の予
約が行えるようになっている。
【0004】図2は、会話処理部2の詳細な構成を示す
図である。音声認識部1から出力された認識結果(ここ
では、テキストデータとする)は、会話処理部2の言語
処理部11に入力される。言語処理部11は、辞書デー
タベース12と解析用文法データベース13に記憶され
ているデータを基に、入力された認識結果を、形態素解
析、構文解析などの解析を行うことにより、単語の情報
や構文の情報などの言語情報を抽出する。また、辞書に
記述された内容を基に、入力の音声発話の意味、意図な
ども抽出する。
【0005】すなわち、辞書データベース12には、単
語の表記や解析用文法を適用するために必要な品詞情報
などの情報、単語の個別の意味情報などを記憶されてお
り、解析用文法データベース13には、辞書データベー
ス12に記憶されている各単語の情報を基に、単語連鎖
に関する制約を記述したデータを記憶されている。これ
らのデータを用いて言語処理部11は、入力された音声
認識結果のテキストデータを解析する。
【0006】解析用文法データベース13に記憶されて
いるデータは、正規文法、文脈自由文法、統計的な単語
連鎖確立、意味的な解析までを含める場合はHPSGなどの
意味論を含んだ言語理論などを用いる、テキスト解析に
必要なデータである。
【0007】対話制御部14は、言語処理部11により
処理された処理結果をフレーム照合部15に出力する。
フレーム照合部15は、入力された処理結果に基づき、
ユーザの発話の状況から話題の遷移に応じたフレームに
適合する候補を抽出し、そのフレームが埋まり次第、何
らかのアクションを起こすようになっている。この方法
は、タスク達成のための対話処理(Cooperative Task-O
riented Dialogue System)における「フレーム・フィ
リング方式」、または、「フォーム・フィリング方式」
と称される対話処理方法により行われている。
【0008】なお、フレーム・フィリング方式について
は、”R.Cole,et al."Survey of the State of Art in
Human Languege Technology",Cambridge University Pr
ess,1998)に開示されている。また、フォーム・フィリ
ング方式については、”Jennifer Chu-Carroll "Form-B
ased Reasoning for Mixed-Initiative Dialogue Manag
ement in Information-Query System",ESCA,Eurospeech
'99 Proceedings, Budapest, Hungay, ISSN 1018-407
4, pages 1519-1522”に開示されている。
【0009】対話制御部14は、フレームを埋めるため
の処理として、必要な情報を、知識データベース16を
検索するよことにより取得する。知識データベース16
には、一般的な常識、言語的な知識などの各種データベ
ースから構成されている。
【0010】対話制御部14の検索の結果、該当する事
実が検索されれば、その事実を直接音声として発話する
ための意味情報を生成し、応答文生生成部17に出力す
る。応答文生成部17は、入力された意味情報を解析
し、応答規則データベース18に記憶されているデータ
に従って、応答文としてのテキストデータを生成する。
応答規則データベース18に記憶されているデータは、
応答文を生成するのに必要な品詞情報、単語の活用形の
情報などを保持する辞書、文生成に必要な活用規則や語
順制約情報などが記述された辞書などから構成されてい
る。
【0011】応答文生成部17により生成されたテキス
トデータの応答文は、音声合成部3に出力され、音声合
成部3により音声データに変換され、ユーザに対して、
送信される。
【0012】
【発明が解決しようとする課題】上述した会話処理部2
における言語処理部11の処理は、100%の確率でユ
ーザが発話したことを処理できるわけではない。また、
会話処理部2の前の段階の音声認識部1による認識結果
も、100%の確率でユーザの発話したことを認識でき
るわけではない。
【0013】ここで、音声対話装置とユーザが行う対話
の一例を、図3を参照して説明する。音声対話装置が、
時刻t1において、”出発地を言ってください”と発話
する。それに対しユーザが、時刻t2において、”東京
から”と返答する。この返答を受けて、音声対話装置
は、時刻t3において、音声認識部1と会話処理部2に
より、上述したような処理が行なわれる。そして、その
結果、「東京まで」という誤認識の結果が得られてしま
ったとする。
【0014】ここで、音声認識部1(言語処理部11)
から対話制御部14に出力されるのは、ユーザが発話し
た可能性の最も高い言葉(第1候補)のみである。換言
すれば、言語処理部11において、複数の認識結果が候
補として上げられても、第1候補のみが、対話制御部1
4以下の処理対象とされる。
【0015】従って、この第1候補が誤認識であると、
その後の処理を行うことができない。図3に示した会話
例では、音声対話装置は、出発地を聞いているので、
「東京まで」という返答は妥当ではない、すなわち、フ
レーム照合部15により、フレームに適合しないと判断
され、その結果、応答文生成部17は、時刻t3におい
て、”もう一度出発地を言ってください”という、文面
のテキストデータを生成し、音声合成部3により音声信
号に変換され、ユーザに対して発話される。
【0016】ユーザは、音声対話装置の、再度出発地の
入力の催促を受け、時刻t4において、”東京から”
と、一度した発話を繰り返し発話する。時刻t5におい
て、音声対話装置は、正しく「東京から」と認識でき、
その結果、対話制御部14は、フレームに適合する返答
が得られたと判断し、次の質問”目的地を言ってくださ
い”という文面のテキストデータを生成し、音声合成部
3により音声信号に変換され、ユーザに対して発話され
る。
【0017】このように、ユーザの発話を認識し、複数
の認識結果が得られた場合でも、最も確からしい第1候
補の認識結果しか用いないため、その第1候補が誤認識
であった場合、再度、ユーザに同じ発話を催促するとい
った不都合が生じてしまうといった課題があった。この
ようなことは、対話装置の信頼性を低減させることにな
り、このような事を防ぐ必要があった。
【0018】本発明はこのような状況に鑑みてなされた
ものであり、認識結果のうち、第1候補以下の候補も処
理対象とすることにより、誤認識を起こした場合でも、
ユーザに再度同じ発話を催促するといった不都合を防
ぎ、もって対話装置の信頼性を高めることを目的とす
る。
【0019】
【課題を解決するための手段】請求項1に記載の会話処
理装置は、ユーザの発話を入力する入力手段と、入力手
段により入力されたユーザの発話を認識し、その認識結
果として複数の候補を出力する第1の出力手段と、第1
の出力手段により出力された複数の候補のうち、文法的
に間違いがないと判断される候補を出力する第2の出力
手段と、第2の出力手段により出力された候補のうち、
最も確からしいとされる候補から順に、フレームに適合
するか否かを判断する判断手段とを含むことを特徴とす
る。
【0020】請求項2に記載の会話処理方法は、入力さ
れたユーザの発話を認識し、その認識結果として複数の
候補を出力する第1の出力ステップと、第1の出力ステ
ップの処理で出力された複数の候補のうち、文法的に間
違いがない判断される候補を出力する第2の出力ステッ
プと、第2の出力ステップの処理で出力された候補のう
ち、最も確からしいとされる候補から順に、フレームに
適合するか否かを判断する判断ステップとを含むことを
特徴とする。
【0021】請求項3に記載の記録媒体のプログラム
は、入力されたユーザの発話を認識し、その認識結果と
して複数の候補を出力する第1の出力ステップと、第1
の出力ステップの処理で出力された複数の候補のうち、
文法的に間違いがない判断される候補を出力する第2の
出力ステップと、第2の出力ステップの処理で出力され
た候補のうち、最も確からしいとされる候補から順に、
フレームに適合するか否かを判断する判断ステップとを
含むことを特徴とする。
【0022】請求項1に記載の会話処理装置、請求項2
に記載の会話処理方法、および請求項3に記載の記録媒
体においては、入力されたユーザの発話が認識され、そ
の認識結果として複数の候補が出力され、複数の候補の
うち、文法的に間違いがないと判断される候補がさらに
出力され、出力された候補のうち、最も確からしいとさ
れる候補から順に、フレームに適合するか否かが判断さ
れる。
【0023】
【発明の実施の形態】本発明の実施の形態について、図
を参照しながら説明する。図4は、本発明を適用した音
声対話装置の一実施の形態の構成を示している。なお、
以下の図面において、従来の場合と対応する部分には同
一の符号を付してあり、その説明は適宜省略する。
【0024】図4に示した本発明を適用した音声対話装
置は、従来の対話装置の、会話処理部2を会話処理部2
1にした構成となっている。図5は、音声認識部1の詳
細な構成を示す図である。ユーザの発話は、電話回線な
どを介して音声信号として、音声認識部1のAD(Analo
g Digital)変換部31に入力される。AD変換部31で
は、アナログ信号である音声信号がサンプリング、量子
化され、ディジタル信号である音声データに変換され
る。この音声データは、特徴抽出部32に供給される。
【0025】特徴抽出部32は、AD変換部31からの
音声データについて、適当なフレームごとに、例えば、
スペクトルや、線形予測係数、ケプストラム係数、線ス
ペクトル対等の特徴パラメータを抽出し、特徴量バッフ
ァ33およびマッチング部34に供給する。特徴量バッ
ファ33では、特徴抽出部32からの特徴パラメータが
一時記憶される。
【0026】マッチング部34は、特徴抽出部32から
の特徴パラメータ、または特徴量バッファ33に記憶さ
れた特徴パラメータに基づき、音響モデルデータベース
35、辞書データベース36、および文法データベース
37を必要に応じて参照しながら、入力された音声信号
を認識する。
【0027】即ち、音響モデルデータベース35は、音
声認識する音声の言語における個々の音素や音節などの
音響的な特徴を表す音響モデルを記憶している。ここ
で、音響モデルとしては、例えば、HMM(Hidden Markov
Model)などを用いることができる。辞書データベース3
6は、認識対象の各単語について、その発音に関する情
報が記述された単語辞書を記憶している。文法データベ
ース37は、辞書データベース36の単語辞書に登録さ
れている各単語が、どのように連鎖する(つながる)か
を記述した文法規則を記憶している。ここで、文法規則
としては、例えば、文脈自由文法(CFG)や、統計的な
単語連鎖確率(N-gram)などに基づく規則を用いること
ができる。
【0028】マッチング部34は、辞書データベース3
6の単語辞書を参照することにより、音響モデルデータ
ベース35に記憶されている音響モデルを接続すること
で、単語の音響モデル(単語モデル)を構成する。さら
に、マッチング部34は、幾つかの単語モデルを、文法
データベース37に記憶された文法規則を参照すること
により接続し、そのようにして接続された単語モデルを
用いて、特徴パラメータに基づき、例えば、HMM法等に
よって、入力された音声を認識する。そして、マッチン
グ部34による音声認識結果は、例えば、テキスト等で
出力される。
【0029】なお、マッチング部34は、会話処理部2
1から、そこで得られる情報を受信することができるよ
うになっており、その会話管理情報に基づいて、精度の
高い音声認識を行うことができるようになっている。
【0030】また、本発明の音声認識部1は、複数の認
識結果を会話処理部21に出力する。換言すれば、音響
スコアや言語スコアなどの情報から選択された第1候補
のみを、会話処理部21に出力するのではなく、上位候
補を、複数個出力する。この出力する個数としては、例
えば、この装置の処理能力などに依存して決められる。
【0031】図6は、会話処理部21の内部構成を示す
ブロック図である。言語処理部51は、音声認識部1か
ら出力された複数の認識結果を入力し、辞書データベー
ス12および解析用文法データベース13に記憶されて
いるデータを基に解析を行う。その結果、例えば、音声
認識部1から認識結果として、目的語を取らないような
動詞(自動詞)が入力されたにも関わらず、目的語と判
断される言葉と共に、その動詞が入力された場合、矛盾
が生じていると判断し、その認識結果は、対話制御部5
2に出力しない。
【0032】このように、言語処理部51に入力された
複数の認識結果のうち、解析の結果、矛盾を生じないと
判断される認識結果のみが、対話制御部52に出力され
る。したがって、対話制御部52に出力される認識結果
(言語処理部51から出力される認識結果)は、言語処
理部51に入力された認識結果と、同等の数、または、
少ない数である。
【0033】対話制御部52は、入力された複数の認識
結果のうち、もっとも上位の候補(第1候補)を処理対
象とし、その処理対象となった候補以外の候補は、対話
履歴メモリ53に出力し、記憶させる。対話制御部52
は、フレーム・フィリング方式と称される方式を用い
て、フレームに適合する候補を選択し、そのフレーム内
のスロットが埋まるように処理を行う。
【0034】図7は、フレームの一例を示す図である。
図7に示したフレームは、フレーム適合部15に記憶さ
れている。図7に示した例では、航空券の予約を行う際
のフレームを示しており、状態遷移番号26のフレーム
には、”出発地”、”目的地”、”年月日”、および”
航空会社名”という4つのスロットが設けられている。
対話制御部52は、これらのスロットが埋まるように、
対話を制御する。また、これらのスロットが埋められた
場合の処理(Action)として、”データベース第18番
を調べて返答する”という指示が記載されている。
【0035】対話制御部52は、上述したようなフレー
ム内のスロットが埋まるようにするために、適宜、応答
文生成部17に、応答文生成の為の情報を出力する。例
えば、対話制御部52は、出発地のスロットが埋められ
た後、目的地のスロットをうめる為に、”目的地を言っ
てください”という応答文を生成させる為の情報を、応
答文生成部17に出力する。
【0036】次に、図8のフローチャートを参照して、
会話処理部21の言語処理部51の動作について説明す
る。ステップS1において、音声認識部1から、1乃至
N候補までの複数の認識結果が入力される。ステップS
2において、処理対象となる認識結果の初期設定を行
う。すなわち、入力された複数の候補のうち、音響スコ
アや言語スコアなどの情報から、もっとも確からしいと
された第1候補を処理対象とする。
【0037】ステップS3において、処理対象となって
いる第n候補(今の場合、第1候補)は、妥当であるか
否かが判断される。上述したように、辞書データベース
12と解析用文法データベース13に記憶されているデ
ータを参照して、処理対象の認識結果が、矛盾を生じる
ような結果ではないか否かを判断する。
【0038】ステップS3において、処理対象となって
いる第n候補の認識結果が、妥当であると判断された場
合、ステップS4に進み、妥当ではないと判断された場
合、ステップS4の処理をスキップし、ステップS5に
進む。ステップS4において、妥当と判断された認識結
果は、対話制御部52に出力される。
【0039】ステップS5において、処理対象となりる
候補が、n+1に更新される。その更新された新たなn
に対して、ステップS6において、n=Nであるか否か
が判断される。すなわち、新たに設定された第n候補
は、言語処理部51に入力された最後の候補であるか否
かが判断される。ステップS6において、n=Nではな
いと判断された場合、ステップS3の処理に戻り、それ
以降の処理が繰り返される。
【0040】一方、ステップS6において、n=Nであ
ると判断された場合、換言すれば、処理対象となる認識
結果が存在しないと判断された場合、言語処理部51の
処理は終了される。
【0041】このようにして、音声認識部1から出力さ
れた複数の認識結果は、まず、言語処理部51により、
妥当であるか否かが判断され、妥当であると判断された
認識結果のみが、対話制御部52に出力される。
【0042】図9のフローチャートを参照して、対話制
御部52の動作について説明する。ステップS11にお
いて、対話制御部52は、第1候補乃至第N’候補まで
のN’個の認識結果を入力する。ステップS12におい
て、入力されたN’個の候補のうち、第1候補を処理対
象とし、第2候補乃至第N’候補を、対話履歴メモリ5
3に出力し、記憶させる。
【0043】ステップS13において、処理対象となっ
ている候補(この場合、第1候補)が、フレームに適合
するか否かが判断される。フレームに適合しないと判断
された場合、ステップS14に進む。ステップS14に
おいて、次の候補、この場合、第2候補を、対話履歴メ
モリ53から読み出し、新たな処理対象とし、ステップ
S13以降の処理が繰り返される。
【0044】一方、ステップS13において、処理対象
となっている候補が、フレームに適合すると判断された
場合、ステップS15に進み、応答文を生成するための
情報が、応答文生成部17に対して出力され、対話制御
部52の処理が終了される。
【0045】このように、音声認識部1により認識され
た複数の認識結果を、処理対象とし、まず、言語処理部
51において、日本語として矛盾する点は無いか否かを
判断し、矛盾しないと判断されたものを対話制御部52
において、フレームと適合するか否かを判断するとこと
により、音声認識部1により誤認識が発生したときで
も、ユーザに同じ事を発話させるといった不都合な状況
を発生させる事を防ぐ事が可能となる。
【0046】ここで、会話処理部21において行われる
処理について、具体的な例を挙げて説明する。図10に
示すように、音声対話装置が、時刻t1において、”出
発地を言ってください”と発話し、その発話に対して、
ユーザが、時刻t2において、”東京から出発”と返答
する。この返答を受け、音声対話装置は、時刻t3にお
いて、まず、音声認識部1により、音声認識を行う。
【0047】音声認識部1の認識の結果、第1候補が
「東京まで出発」、第2候補が「東京から出発」、第3
候補が「東京がすっぱい」、第4候補が「京都から出
発」というように、複数の結果が得られたとする。これ
らの候補は、会話処理部21の言語処理部51により、
日本語としての矛盾が無いか否かが判断される。その結
果、第1候補であった「東京まで出発」と第3候補であ
った「東京がすっぱい」が矛盾が生じていると判断さ
れ、対話制御部52には出力されない。
【0048】対話制御部52には、第2候補であった
「東京から出発」という認識結果が、第1’候補として
入力され、第4候補であった「京都から出発」という認
識結果が、第2’候補として入力される。その結果、対
話制御部52は、第1’候補の「東京から出発」という
のが、フレームの”出発地”の所のスロットに適合する
として、採用する。
【0049】このように、出発地のスロットが埋められ
たので、次に、目的地のスロットを埋める為に、”目的
地を言ってください”という文面を発話される為の情報
が、応答文生成部17に出力される。応答文生成部17
は、入力された情報に基づき、テキストデータとしての
応答文を生成し、音声合成部3に出力される。
【0050】図11は、音声合成部3の構成例を示して
いる。テキスト解析部71には、会話処理部21が出力
するテキストデータが、音声合成処理の対象として入力
されるようになっており、テキスト解析部71は、辞書
データベース72や解析用文法データベース73を参照
しながら、そのテキストを解析する。
【0051】即ち、辞書データベース72には、各単語
の品詞情報や、読み、アクセント等の情報が記述された
単語辞書が記憶されており、また、解析用文法データベ
ース73には、辞書データベース72の単語辞書に記述
された単語について、単語連鎖に関する制約等の解析用
文法規則が記憶されている。そして、テキスト解析部7
1は、この単語辞書および解析用文法規則に基づいて、
そこに入力されるテキストの形態素解析や構文解析等の
解析を行い、後段の規則合成部74で行われる規則音声
合成に必要な情報を抽出する。ここで、規則音声合成に
必要な情報としては、例えば、ポーズの位置や、アクセ
ントおよびイントネーションを制御するための情報その
他の韻律情報や、各単語の発音等の音韻情報などがあ
る。
【0052】テキスト解析部71で得られた情報は、規
則合成部74に供給され、規則合成部74では、音素片
データベース75を用いて、テキスト解析部71に入力
されたテキストに対応する合成音の音声データ(デジタ
ルデータ)が生成される。
【0053】即ち、音素片データベース75には、例え
ば、CV(Consonant, Vowel)や、VCV、CVC等の形で音素
片データが記憶されており、規則合成部74は、テキス
ト解析部71からの情報に基づいて、必要な音素片デー
タを接続し、さらに、ポーズ、アクセント、イントネー
ション等を適切に付加することで、テキスト解析部71
に入力されたテキストに対応する合成音の音声データを
生成する。
【0054】この音声データは、DA変換部76に供給
され、そこで、アナログ信号としての音声信号に変換さ
れる。この音声信号は、図示せぬ電話回線などに供給さ
れ、これにより、テキスト解析部71に入力されたテキ
ストに対応する合成音が、ユーザに対して送信される。
【0055】このように、音声認識部1により認識結果
を、第1の候補のみを処理対象とするのではなく、それ
以下の下位候補も処理対象とすることにより、信頼性の
高い音声対話装置、換言すれば、ユーザに同じ発話を繰
り返させることがないような音声対話装置を提供する事
が可能となる。
【0056】上述した一連の処理は、ハードウェアによ
り実行させることもできるが、ソフトウェアにより実行
させることもできる。一連の処理をソフトウェアにより
実行させる場合には、そのソフトウェアを構成するプロ
グラムが専用のハードウェアに組み込まれているコンピ
ュータ、または、各種のプログラムをインストールする
ことで、各種の機能を実行することが可能な、例えば汎
用のパーソナルコンピュータなどに、記録媒体からイン
ストールされる。
【0057】この記録媒体は、図12に示すように、コ
ンピュータとは別に、ユーザにプログラムを提供するた
めに配布される、プログラムが記録されている磁気ディ
スク111(フロッピディスクを含む)、光ディスク1
12(CD-ROM(Compact Disk-Read Only Memory),DVD
(Digital Versatile Disk)を含む)、光磁気ディスク
113(MD(Mini-Disk)を含む)、若しくは半導体メ
モリ4などよりなるパッケージメディアにより構成され
るだけでなく、コンピュータに予め組み込まれた状態で
ユーザに提供される、プログラムが記憶されているROM
102や記憶部108が含まれるハードディスクなどで
構成される。
【0058】なお、本明細書において、媒体により提供
されるプログラムを記述するステップは、記載された順
序に従って、時系列的に行われる処理は勿論、必ずしも
時系列的に処理されなくとも、並列的あるいは個別に実
行される処理をも含むものである。
【0059】また、本明細書において、システムとは、
複数の装置により構成される装置全体を表すものであ
る。
【0060】
【発明の効果】以上の如く、請求項1に記載の会話処理
装置、請求項2に記載の会話処理方法、および請求項3
に記載の記録媒体においては、入力されたユーザの発話
を認識し、その認識結果として複数の候補を出力し、複
数の候補のうち、文法的に間違いがないと判断される候
補をさらに出力し、出力された候補のうち、最も確から
しいとされる候補から順に、フレームに適合するか否か
を判断するようにしたので、信頼性の高い会話装置を提
供することが可能となる。
【図面の簡単な説明】
【図1】従来の音声対話装置の一例の構成を示す図であ
る。
【図2】図1の会話処理部2の構成を示す図である。
【図3】図1に示した音声対話装置とユーザとの間で行
われる対話について説明する図である。
【図4】本発明を適用した音声対話装置の一実施の形態
の構成を示す図である。
【図5】図4の音声認識部1の構成を示す図である。
【図6】図4の会話処理部21の構成を示す図である。
【図7】フレームについて説明する図である。
【図8】図6の言語処理部51の動作を説明するフロー
チャートである。
【図9】図6の対話制御部52の動作を説明するフロー
チャートである。
【図10】図4に示した音声対話装置とユーザとの間で
行われる対話について説明する図である。
【図11】図4の音声合成部3の構成を示す図である。
【図12】媒体を説明する図である。
【符号の説明】
1 音声認識部, 3 音声合成部, 12 辞書デー
タベース, 13 解析用文法データベース, 15
フレーム照合部, 16 知識データベース,17 応
答文生成部, 18 応答規則データベース, 21
会話処理部,51 言語処理部, 52 対話制御部,
53 対話履歴メモリ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/22 G10L 3/00 561E 571U (72)発明者 包 洪長 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 廣江 厚夫 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 岸 秀樹 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 武田 正資 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5B091 AA15 CA14 CB12 CB32 CC01 CC15 DA06 EA04 EA07 5D015 HH11 KK02 LL04 LL05 5D045 AB24 AB26 AB30 9A001 BB06 EE05 HH17 HH18 JJ01 KK46 LL01

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 ユーザの発話を入力する入力手段と、 前記入力手段により入力された前記ユーザの発話を認識
    し、その認識結果として複数の候補を出力する第1の出
    力手段と、 前記第1の出力手段により出力された前記複数の候補の
    うち、文法的に間違いがないと判断される候補を出力す
    る第2の出力手段と、 前記第2の出力手段により出力された前記候補のうち、
    最も確からしいとされる候補から順に、フレームに適合
    するか否かを判断する判断手段とを含むことを特徴とす
    る会話処理装置。
  2. 【請求項2】 入力されたユーザの発話を認識し、その
    認識結果として複数の候補を出力する第1の出力ステッ
    プと、 前記第1の出力ステップの処理で出力された前記複数の
    候補のうち、文法的に間違いがない判断される候補を出
    力する第2の出力ステップと、 前記第2の出力ステップの処理で出力された前記候補の
    うち、最も確からしいとされる候補から順に、フレーム
    に適合するか否かを判断する判断ステップとを含むこと
    を特徴とする会話処理方法。
  3. 【請求項3】 入力されたユーザの発話を認識し、その
    認識結果として複数の候補を出力する第1の出力ステッ
    プと、 前記第1の出力ステップの処理で出力された前記複数の
    候補のうち、文法的に間違いがない判断される候補を出
    力する第2の出力ステップと、 前記第2の出力ステップの処理で出力された前記候補の
    うち、最も確からしいとされる候補から順に、フレーム
    に適合するか否かを判断する判断ステップとを含むこと
    を特徴とするコンピュータが読み取り可能なプログラム
    が記録されている記録媒体。
JP37377899A 1999-12-28 1999-12-28 会話処理装置および方法、並びに記録媒体 Pending JP2001188781A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP37377899A JP2001188781A (ja) 1999-12-28 1999-12-28 会話処理装置および方法、並びに記録媒体
US09/748,879 US20010023397A1 (en) 1999-12-28 2000-12-26 Conversation processing apparatus, method therefor, and recording medium therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP37377899A JP2001188781A (ja) 1999-12-28 1999-12-28 会話処理装置および方法、並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2001188781A true JP2001188781A (ja) 2001-07-10

Family

ID=18502744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP37377899A Pending JP2001188781A (ja) 1999-12-28 1999-12-28 会話処理装置および方法、並びに記録媒体

Country Status (2)

Country Link
US (1) US20010023397A1 (ja)
JP (1) JP2001188781A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004144993A (ja) * 2002-10-24 2004-05-20 P To Pa:Kk 家電制御装置、家電制御方法及びプログラム
JP2005316247A (ja) * 2004-04-30 2005-11-10 Hitachi Ltd 音声対話システム
JP2006119625A (ja) * 2004-10-22 2006-05-11 Microsoft Corp 音声認識における動詞誤りの回復
JP2009205169A (ja) * 2009-06-09 2009-09-10 P To Pa:Kk 家電制御装置、家電制御方法及びプログラム
CN104400784A (zh) * 2014-11-26 2015-03-11 深圳控石智能系统有限公司 一种可语音控制的工业机器人系统
KR102064207B1 (ko) * 2018-02-27 2020-01-09 주식회사 와이즈넛 의료문진을 위한 예제기반 목적지향 대화관리 방법 및 그 장치

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE410728T1 (de) * 2001-05-04 2008-10-15 Microsoft Corp Schnittstellensteuerung
US7124085B2 (en) * 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
CN103458056B (zh) * 2013-09-24 2017-04-26 世纪恒通科技股份有限公司 自动外呼系统基于自动分类技术的语音意图判定系统
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US9972304B2 (en) * 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11151986B1 (en) * 2018-09-21 2021-10-19 Amazon Technologies, Inc. Learning how to rewrite user-specific input for natural language understanding
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
US11636673B2 (en) 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
US11375293B2 (en) 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
US10854109B2 (en) 2018-10-31 2020-12-01 Sony Interactive Entertainment Inc. Color accommodation for on-demand accessibility

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004144993A (ja) * 2002-10-24 2004-05-20 P To Pa:Kk 家電制御装置、家電制御方法及びプログラム
JP2005316247A (ja) * 2004-04-30 2005-11-10 Hitachi Ltd 音声対話システム
JP4537755B2 (ja) * 2004-04-30 2010-09-08 株式会社日立製作所 音声対話システム
JP2006119625A (ja) * 2004-10-22 2006-05-11 Microsoft Corp 音声認識における動詞誤りの回復
US8725505B2 (en) 2004-10-22 2014-05-13 Microsoft Corporation Verb error recovery in speech recognition
JP2009205169A (ja) * 2009-06-09 2009-09-10 P To Pa:Kk 家電制御装置、家電制御方法及びプログラム
CN104400784A (zh) * 2014-11-26 2015-03-11 深圳控石智能系统有限公司 一种可语音控制的工业机器人系统
KR102064207B1 (ko) * 2018-02-27 2020-01-09 주식회사 와이즈넛 의료문진을 위한 예제기반 목적지향 대화관리 방법 및 그 장치

Also Published As

Publication number Publication date
US20010023397A1 (en) 2001-09-20

Similar Documents

Publication Publication Date Title
JP2001188781A (ja) 会話処理装置および方法、並びに記録媒体
US11594215B2 (en) Contextual voice user interface
US10163436B1 (en) Training a speech processing system using spoken utterances
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US10176809B1 (en) Customized compression and decompression of audio data
US7974844B2 (en) Apparatus, method and computer program product for recognizing speech
US6952665B1 (en) Translating apparatus and method, and recording medium used therewith
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
US11715472B2 (en) Speech-processing system
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
US20220180864A1 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
US20240071385A1 (en) Speech-processing system
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2000029492A (ja) 音声翻訳装置、音声翻訳方法、音声認識装置
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP3472101B2 (ja) 音声入力解釈装置及び音声入力解釈方法
US6772116B2 (en) Method of decoding telegraphic speech
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
JP2004252121A (ja) 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
US11393451B1 (en) Linked content in voice user interface
JP2001117583A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2003271180A (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JP2001100788A (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP2000242295A (ja) 音声認識装置および音声対話装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070928

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071016