JP2008033198A - 音声対話システム、音声対話方法、音声入力装置、プログラム - Google Patents

音声対話システム、音声対話方法、音声入力装置、プログラム Download PDF

Info

Publication number
JP2008033198A
JP2008033198A JP2006209428A JP2006209428A JP2008033198A JP 2008033198 A JP2008033198 A JP 2008033198A JP 2006209428 A JP2006209428 A JP 2006209428A JP 2006209428 A JP2006209428 A JP 2006209428A JP 2008033198 A JP2008033198 A JP 2008033198A
Authority
JP
Japan
Prior art keywords
recognition
voice
unit
likelihood
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006209428A
Other languages
English (en)
Inventor
Masakazu Ishida
雅一 石田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC System Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC System Technologies Ltd filed Critical NEC System Technologies Ltd
Priority to JP2006209428A priority Critical patent/JP2008033198A/ja
Publication of JP2008033198A publication Critical patent/JP2008033198A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 ユーザの操作や他のセンサデバイスの情報を参照して誤認識を確認対話無しに自動的に棄却できる音声対話システム、音声対話方法、音声入力装置、プログラムを提供する。
【解決手段】 認識結果評価手段330は、音声認識結果を受け取ると、利用状態取得手段3301により、利用者が利用状態にあるか否かを利用状態検出手段310から取得し、利用状態でなければ雑音による誤認識と判断し、棄却手段3302により自動的に音声認識結果を棄却する。
【選択図】 図1

Description

本発明は音声を用いて利用者とシステムが対話を行うことにより、利用者にサービスを提供する音声対話システム、音声対話方法、音声入力装置、プログラムに関し、特に音声の誤認識を自動的に検出して棄却できる機能を持つ音声対話システム、音声対話方法、音声入力装置、プログラムに関する。
従来の音声対話システムの一例が、特許文献1に記載されている。特許文献1の音声対話システムでは、音声認識結果が誤認識かどうかを利用者に確認するための確認発話において、確認発話時の音声認識ルールを過去の対話進行状況を元に動的に生成し適切に確認発話を行う技術を開示している。
また特許文献2では、確認発話において、「はい」「いいえ」以外の応答を利用者が行った場合、音声特徴量(発話時間、パワー、ピッチ、韻律)の情報を利用してどちらの意思表示が行われているかを推定する技術を述べている。
また、誤認識として利用者の発話以外に周囲の人の声や物音といった周囲雑音を認識してしまう場合があるが、従来の音声対話システムの一例として、特許文献3には、周囲の雑音を信号処理によって低減する方法を述べている。
また、特許文献4には、雑音であることを積極的に認識させるために雑音に応答する認識辞書を使う方法を述べている。
特開2005−316247号公報 特開2001−236091号公報 特開2004−069772号公報 特開2002−372988号公報
音声認識を用いる対話では、誤認識が必ず発生する。誤認識を発生させる要因としては、利用者の不明瞭な発話の仕方や、類似語彙を多く含む認識ルールがある。
誤認識を完全に防ぐことはできないので、上記特許文献1、2は、誤認識が発生した後の誤り訂正の方法に関し、誤りを利用者に指摘してもらう確認発話を行う方法を提案している。
しかし、実行されるサービスがショッピングやチケット予約といった金銭的な対価を伴うような確実な実行を求められる場合には、確認発話が必要であるが、ロボット型の音声対話装置の中には、ペットロボットやパートナーロボットやホームロボットといった、毎回確認発話をすることが適さないカジュアルなサービスを提供するものもある。
特許文献1、2は、これらのサービスにおいて、確認発話を伴わずに誤認識を適切に検出し棄却する機能を提案していない。このため、利用者は、期待するサービスが開始されるまで何度も発話したり、期待と違うサービスが開始される度に中断操作を行ったりしなければならないという課題がある。
また、特許文献3は、誤認識を発生させるもう一つの要因である周囲雑音について、音声データを信号処理して周囲雑音を低減させ、誤認識の発生頻度を下げているが、誤認識を充分には除去できないという課題がある。
さらに、雑音を積極的に雑音辞書に認識させる上記特許文献4の技術は、より多くの雑音を認識させようとすると、雑音と認識パターンが類似した本来認識すべき語句が認識しにくくなるため、認識ルール(認識したい語句のリスト)に応じて雑音辞書を最適な状態に調整しなければならず、辞書作成に手間がかかるという課題がある。
本発明の目的は、上記課題を解決すべく、誤認識を自動的に棄却できる音声対話システム、音声対話方法、音声入力装置、プログラムを提供することにある。また、本発明の他の目的は、周囲の雑音を誤認識した場合や確認発話をしない対話において従来よりも高い棄却能力を有する音声対話システム、音声対話方法、音声入力装置、プログラムを提供することにある。
本発明の音声入力装置は、利用者の音声を入力する音声入力部と、音声認識を行う音声認識手段と、対話シナリオを選択し実行する対話制御手段と、利用者の現在の利用状況または利用意向を把握検出する利用状態検出手段と、音声認識結果を利用状態に応じて評価する認識結果評価手段とを備え、認識結果評価手段は、音声認識結果が得られた時点で利用者が利用していなければ周囲雑音による誤認識と判断して音声認識結果を棄却する手段を有することを特徴とする。
本発明の音声入力装置は、利用者の音声を入力する音声入力部と、音声認識を行う音声認識手段と、対話シナリオを選択し実行する対話制御手段と、利用者が任意のタイミングでサービスの中断を指示するサービス中断手段と、誤認識である可能性が高い語彙を記憶する認識履歴記憶部と、認識履歴記憶部に登録している認識語の尤度を補正する尤度補正手段と、補正結果に基づいて音声認識結果を評価する認識結果評価手段とを備え、サービス中断手段は、音声認識結果が得られサービスの実行を開始したときに利用者が中断を指示した場合、音声認識結果は誤認識であった可能性が高いと判断し、次回以降の音声認識では採用しない候補として認識語を認識履歴記憶部に登録する手段を有し、認識結果評価手段は、次回の音声認識結果取得時に認識履歴記憶部に照合し、一致するものがあれば尤度補正手段によって尤度を補正した上で、閾値を下回っていれば誤認識と判断して音声認識結果を棄却する手段を有することを特徴とする。
本発明の音声入力装置は、利用者の音声を入力する音声入力部と、音声認識を行う音声認識手段と、対話シナリオを選択し実行する対話制御手段と、利用者の現在の利用状況または利用意向を把握検出する利用状態検出手段と、利用者が任意のタイミングでサービスの中断を指示するサービス中断手段と、誤認識である可能性が高い語彙を記憶する認識履歴記憶部と、認識履歴記憶部に登録している認識語の尤度を補正する尤度補正手段と、利用者の利用状態または尤度の補正結果に基づいて音声認識結果を評価する認識結果評価手段とを備え、サービス中断手段は、音声認識結果が得られサービスの実行を開始したときに利用者が中断を指示した場合、音声認識結果は誤認識であった可能性が高いと判断し、次回以降の音声認識では採用しない候補として認識語を認識履歴記憶部に登録する手段を有し、認識結果評価手段は、音声認識結果が得られた時点で利用者が利用していなければ周囲雑音による誤認識と判断して音声認識結果を棄却する手段と、次回以降の音声認識では採用しない候補として認識語を認識履歴記憶部に登録し、次回の音声認識結果取得時に認識履歴記憶部に照合し、一致するものがあれば尤度補正手段によって尤度を補正した上で、閾値を下回っていれば誤認識と判断して音声認識結果を棄却する手段とを有することを特徴とする。
認識結果評価手段は、利用状態検出手段から利用者の利用状態の検出結果を取得する利用状態取得手段を有することを特徴とする。
認識結果評価手段は、認識履歴記憶部に同一の認識語があるか否かを照合する問い合わせ手段と、同一の認識語があるとき尤度補正手段に対して尤度を低く補正させる尤度低補正手段と、閾値と、尤度補正手段で補正した補正値と閾値とを比較する補正値/閾値比較手段とを有することを特徴とする。
認識履歴記憶部は、誤認識である可能性が高い語彙を記憶する認識語彙記憶手段と、認識語彙に対応する尤度補正値を記憶する尤度補正値記憶手段とを有することを特徴とする。
認識結果評価手段は、利用状態検出手段から利用者の利用状態の検出結果を取得する利用状態取得手段と、認識履歴記憶部に同一の認識語があるか否かを照合する問い合わせ手段と、同一の認識語があるとき尤度補正手段に対して尤度を低く補正させる尤度低補正手段と、閾値と、尤度補正手段で補正した補正値と閾値とを比較する補正値/閾値比較手段とを有することを特徴とする。
本発明の音声対話システムは、音声入力装置と音声出力装置とを有する音声対話システムにおいて、音声入力装置は、利用者の音声を入力する音声入力部と、音声認識を行う音声認識手段と、対話シナリオを選択し実行する対話制御手段と、利用者の現在の利用状態を検出する利用状態検出手段と、音声認識結果を利用状態に応じて評価する認識結果評価手段とを備え、認識結果評価手段は、音声認識結果が得られた時点で利用者が利用していなければ周囲雑音による誤認識と判断して音声認識結果を棄却する手段を有し、音声出力装置は、発声のための音声データを生成する音声合成手段と、対話のため音声データを出力する音声出力部とを有することを特徴とする。
利用状態検出手段は、利用者の現在の利用状況を検出する利用有無検出手段と、利用意向を検出する利用意志有無検出手段とを有することを特徴とする。
認識結果評価手段は、利用状態検出手段から利用者の利用状態の検出結果を取得する利用状態取得手段を有することを特徴とする。
本発明の音声対話システムは、音声入力装置と音声出力装置とを有する音声対話システムにおいて、音声入力装置は、利用者の音声を入力する音声入力部と、音声認識を行う音声認識手段と、対話シナリオを選択し実行する対話制御手段と、利用者が任意のタイミングでサービスの中断を指示するサービス中断手段と、誤認識である可能性が高い語彙を記憶する認識履歴記憶部と、認識履歴記憶部に登録している認識語の尤度を補正する尤度補正手段と、補正結果に基づいて音声認識結果を評価する認識結果評価手段とを備え、サービス中断手段は、音声認識結果が得られサービスの実行を開始したときに利用者が中断を指示した場合、音声認識結果は誤認識であった可能性が高いと判断し、次回以降の音声認識では採用しない候補として認識語を認識履歴記憶部に登録する手段を有し、認識結果評価手段は、次回の音声認識結果取得時に認識履歴記憶部に照合し、一致するものがあれば尤度補正手段によって尤度を補正した上で、閾値を下回っていれば誤認識と判断して音声認識結果を棄却する手段を有し、音声出力装置は、発声のための音声データを生成する音声合成手段と、対話のため音声データを出力する音声出力部とを有することを特徴とする。
認識結果評価手段は、認識履歴記憶部に同一の認識語があるか否かを照合する問い合わせ手段と、同一の認識語があるとき尤度補正手段に対して尤度を低く補正させる尤度低補正手段と、閾値と、尤度補正手段で補正した補正値と閾値とを比較する補正値/閾値比較手段とを有することを特徴とする。
認識履歴記憶部は、誤認識である可能性が高い語彙を記憶する認識語彙記憶手段と、認識語彙に対応する尤度補正値を記憶する尤度補正値記憶手段とを有することを特徴とする。
本発明の音声対話システムは、音声入力装置と音声出力装置とを有する音声対話システムにおいて、音声入力装置は、利用者の音声を入力する音声入力部と、音声認識を行う音声認識手段と、対話シナリオを選択し実行する対話制御手段と、利用者の現在の利用状況または利用意向を把握検出する利用状態検出手段と、利用者が任意のタイミングでサービスの中断を指示するサービス中断手段と、誤認識である可能性が高い語彙を記憶する認識履歴記憶部と、認識履歴記憶部に登録している認識語の尤度を補正する尤度補正手段と、利用者の利用状態または尤度の補正結果に基づいて音声認識結果を評価する認識結果評価手段とを備え、サービス中断手段は、音声認識結果が得られサービスの実行を開始したときに利用者が中断を指示した場合、音声認識結果は誤認識であった可能性が高いと判断し、次回以降の音声認識では採用しない候補として認識語を認識履歴記憶部に登録する手段を有し、認識結果評価手段は、音声認識結果が得られた時点で利用者が利用していなければ周囲雑音による誤認識と判断して音声認識結果を棄却する手段と、次回の音声認識結果取得時に認識履歴記憶部に照合し、一致するものがあれば尤度補正手段によって尤度を補正した上で、閾値を下回っていれば誤認識と判断して音声認識結果を棄却する手段とを有し、音声出力装置は、発声のための音声データを生成する音声合成手段と、対話のため音声データを出力する音声出力部とを有することを特徴とする。
認識結果評価手段は、利用状態検出手段から利用者の利用状態の検出結果を取得する利用状態取得手段と、認識履歴記憶部に同一の認識語があるか否かを照合する問い合わせ手段と、同一の認識語があるとき尤度補正手段に対して尤度を低く補正させる尤度低補正手段と、閾値と、尤度補正手段で補正した補正値と閾値とを比較する補正値/閾値比較手段とを有することを特徴とする。
本発明の音声対話方法は、音声入力装置と音声出力装置とを有する音声対話方法において、音声入力装置は、音声入力部により利用者の音声を入力するステップと、音声認識手段により音声認識を行うステップと、対話制御手段により対話シナリオを選択し実行するステップと、利用状態検出手段により利用者の現在の利用状態を検出するステップと、認識結果評価手段により音声認識結果を利用状態に応じて評価するステップとを備え、認識結果評価手段は、音声認識結果が得られた時点で利用者が利用していなければ周囲雑音による誤認識と判断して音声認識結果を棄却するステップを有し、音声出力装置は、音声合成手段により発声のための音声データを生成するステップと、音声出力部により対話のため音声データを出力するステップとを有することを特徴とする。
本発明の音声対話方法は、音声入力装置と音声出力装置とを有する音声対話方法において、音声入力装置は、音声入力部により利用者の音声を入力するステップと、音声認識手段により音声認識を行うステップと、対話制御手段により対話シナリオを選択し実行するステップと、サービス中断手段により利用者が任意のタイミングでサービスの中断を指示するステップと、誤認識である可能性が高い語彙を認識履歴記憶部に記憶するステップと、尤度補正手段により認識履歴記憶部に登録している認識語の尤度を補正するステップと、補正結果に基づいて認識結果評価手段により音声認識結果を評価するステップとを備え、サービス中断手段は、音声認識結果が得られサービスの実行を開始したときに利用者が中断を指示した場合、音声認識結果は誤認識であった可能性が高いと判断し、次回以降の音声認識では採用しない候補として認識語を認識履歴記憶部に登録するステップを有し、認識結果評価手段は、次回の音声認識結果取得時に認識履歴記憶部に同一の認識語があるか否かを照合するステップと、一致するものがあれば尤度低補正手段により尤度補正手段に対して尤度を低く補正させるステップと、尤度補正手段で補正した補正値と閾値とを比較するステップと、補正値が閾値を下回っていれば誤認識と判断して音声認識結果を棄却するステップとを有し、音声出力装置は、音声合成手段により発声のための音声データを生成するステップと、音声出力部により対話のため音声データを出力するステップとを有することを特徴とする。
本発明の音声対話方法は、音声入力装置と音声出力装置とを有する音声対話方法において、音声入力装置は、音声入力部により利用者の音声を入力するステップと、音声認識手段により音声認識を行うステップと、対話制御手段により対話シナリオを選択し実行するステップと、利用状態検出手段により利用者の現在の利用状況または利用意向を把握検出するステップと、サービス中断手段により利用者が任意のタイミングでサービスの中断を指示するステップと、誤認識である可能性が高い語彙を認識履歴記憶部に記憶するステップと、尤度補正手段により認識履歴記憶部に登録している認識語の尤度を補正するステップと、認識結果評価手段により利用者の利用状態または尤度の補正結果に基づいて音声認識結果を評価するステップとを備え、サービス中断手段は、音声認識結果が得られサービスの実行を開始したときに利用者が中断を指示した場合、音声認識結果は誤認識であった可能性が高いと判断し、次回以降の音声認識では採用しない候補として認識語を認識履歴記憶部に登録するステップを有し、認識結果評価手段は、音声認識結果が得られた時点で利用者が利用していなければ周囲雑音による誤認識と判断して音声認識結果を棄却するステップと、次回の音声認識結果取得時に認識履歴記憶部に同一の認識語があるか否かを照合するステップと、一致するものがあれば尤度低補正手段により尤度補正手段に対して尤度を低く補正させるステップと、前記尤度補正手段で補正した補正値と閾値とを比較するステップと、補正値が閾値を下回っていれば誤認識と判断して音声認識結果を棄却するステップとを有し、音声出力装置は、音声合成手段により発声のための音声データを生成するステップと、音声出力部により対話のため音声データを出力するステップとを有することを特徴とする音声対話方法。
本発明のプログラムは、音声入力装置と音声出力装置とを有する音声対話システム用のプログラムであって、音声入力装置を、音声入力部から利用者の音声を入力する手段と、音声認識を行う音声認識手段と、対話シナリオを選択し実行する対話制御手段と、利用者の現在の利用状況または利用意向を把握検出する利用状態検出手段と、利用者が任意のタイミングでサービスの中断を指示するサービス中断手段と、誤認識である可能性が高い語彙を記憶する認識履歴記憶部と、認識履歴記憶部に登録している認識語の尤度を補正する尤度補正手段と、利用者の利用状態または尤度の補正結果に基づいて音声認識結果を評価する認識結果評価手段として機能させ、サービス中断手段は、音声認識結果が得られサービスの実行を開始したときに利用者が中断を指示した場合、音声認識結果は誤認識であった可能性が高いと判断し、次回以降の音声認識では採用しない候補として認識語を認識履歴記憶部に登録する手段として機能させ、認識結果評価手段は、音声認識結果が得られた時点で利用者が利用していなければ周囲雑音による誤認識と判断して音声認識結果を棄却する手段と、次回の音声認識結果取得時に認識履歴記憶部に照合し、一致するものがあれば尤度補正手段によって尤度を補正した上で、閾値を下回っていれば誤認識と判断して音声認識結果を棄却する手段として機能させ、音声出力装置を、発声のための音声データを生成する音声合成手段と、対話のため音声データを出力する音声出力部として機能させることを特徴とする。
認識結果評価手段は、利用状態検出手段から利用者の利用状態の検出結果を取得する利用状態取得手段と、認識履歴記憶部に同一の前記認識語があるか否かを照合する問い合わせ手段と、同一の前記認識語があるとき尤度補正手段に対して尤度を低く補正させる尤度低補正手段と、尤度補正手段で補正した補正値と閾値とを比較する補正値/閾値比較手段として機能させることを特徴とするプログラム。
本発明の音声対話システム、音声対話方法、音声入力装置、プログラムによれば、誤認識を自動的に棄却できるという効果がある。
その理由は、利用者の利用者の現在の利用状況または利用意向を検出する利用状態検出手段、または、利用者がサービスを中断したとき誤認識があったと判断するサービス中断手段を音声入力装置に設けているためである。
次に、本発明を実施するための最良の形態について詳細に説明する。
本発明の第1実施例の音声対話システム10について、図面を参照して説明する。
図1は、本発明の音声対話システム10を示す概略構成ブロック図、図2は、図1中の利用状態検出手段310を示す構成ブロック図、図3は、図1中の認識結果評価手段330を示す構成ブロック図である。
図1を参照すると、音声対話システム10は、音声入力装置11と、音声出力装置12とで構成する。
音声出力装置12は、対話のための音声を出力する音声出力部110と、音声対話システム10が発声するための音声データを生成する音声合成手段210とを備える。
音声入力装置11は、利用者の音声を入力する音声入力部100と、利用者が発話した音声を認識する音声認識手段200と、対話シナリオを選択し対話の進行を制御する対話制御手段220と、利用者の現在の利用状態を把握検出する利用状態検出手段310と、音声認識結果を利用状態に応じて評価する認識結果評価手段330とを備える。
また、音声入力装置11は、磁気ディスク装置を備え、磁気ディスク装置は、対話シナリオを記憶する対話シナリオ記憶部230と、語彙をルールごとにまとめて記憶する音声認識ルール記憶部240とを備える。なお、磁気ディスク装置の設置台数は、1台、複数台の何れでもよい。対話シナリオ記憶部230は、対話制御手段220で使用する対話の進行に関する情報を記憶する。音声認識ルール記憶部240は、発話を認識するために利用する語彙をデータベースとして格納する。音声認識手段200は、音声認識ルール記憶部240を使用する。
図2を参照すると、利用状態検出手段310は、利用者の現在の利用状況を検出する利用有無検出手段3101と、利用意向を検出する利用意志有無検出手段3102とを備える。従って、利用有無検出手段3101は、利用者が音声対話システム10を利用しているか否かを検出し、利用意志有無検出手段3102は、利用者が音声対話システム10を利用する意思があるか否かを検出する。
図3を参照すると、認識結果評価手段330は、利用状態検出手段310から利用者の利用状態の検出結果を取得する利用状態取得手段3301と、音声認識結果が得られた時点で利用者が利用していなければ周囲雑音による誤認識と判断して音声認識結果を棄却する棄却手段3302とを備える。認識結果評価手段330は、音声認識手段200が求めた認識結果を利用状態検出手段310の検出情報を元に評価し、対話制御手段220に評価結果を伝え、対話制御手段220が、対話の進行を制御する。
次に、上述のように構成した音声対話システム10の動作について、図面を参照して説明する。
図4は、音声対話システム10の動作を説明するためのフローチャートである。
まず対話制御手段220は、実行する対話を対話シナリオ記憶部230から読み出して選択する(S41)。
音声合成手段210は、選択した対話に基づいて質問発話の音声データを生成する(S42)。
質問に対する利用者の応答発話を聞き取るために、音声認識手段200は、適切な認識ルールを音声認識ルール記憶部240から読み出す(S43)。
音声入力部100は、利用者の応答発話音声を音声対話システム10内に取り込む(S44)。
音声認識手段200は、取り込んだ利用者の応答発話音声データの音声認識を行う(S45)。
音声認識手段200は、認識結果を認識結果評価手段330に渡し、認識結果評価手段330は、利用状態検出手段310から現在の利用者の利用状態を取得する(S46)。
認識結果評価手段330は、利用有無検出手段3101により利用状態がOFF(オフ)状態を検出したとき、雑音による誤認識が行われたと見做し認識結果を棄却する(S47)。
認識結果評価手段330は、評価結果を対話制御手段220に通知し、次の対話状態に遷移する。
次に、図1中の利用状態検出手段310の具体例について、以下に説明する。
利用者が利用しているまたは利用の意思があることを検知するために、利用状態検出手段310は、何らかのセンサまたは認識を行う必要がある。利用意志有無検出手段3102は、例えばカメラで人物を観察し、顔が音声対話システム10側を向いている、または視線が音声対話システム10側を向いている、話しかけている、またはジェスチャを行っているなどを認識し、利用者の利用意思を検出する。
ロボット型の音声対話システム10においては、様々なセンサを搭載していることが多く、これらをうまく使うことで目的が達成できる可能性が高い。利用状態検出手段310は、例えば超音波センサ、赤外線センサ、近接センサ、IDタグを単独で、もしくは複数組み合わせることで利用者が音声対話システム10と相対していることを検知し、利用中であることを検出できる。
以上説明したように、音声対話システム10は、利用者の利用意思を取得する機能を設けることで、周囲雑音か利用者の発話かの弁別をより高い信頼度で行うことができ、周囲雑音を棄却できるという効果がある。
次に、第2実施例の音声対話システム20について、図面を参照して説明する。
図5は、本発明の音声対話システム20を示す概略構成ブロック図、図6は、図5中のサービス中断手段300を示す構成ブロック図、図7は、図1中の認識結果評価手段340を示す構成ブロック図、図8は、図5中の認識履歴記憶部400を示す構成ブロック図である。なお、図1に示す音声対話システム10と同一構成要素は、同一符号で表示する。
図5を参照すると、音声対話システム20は、音声入力装置21と、音声出力装置12とで構成する。
音声出力装置12、音声入力部100、音声認識手段200、対話制御手段220、対話シナリオ記憶部230、音声認識ルール記憶部240は、実施例1と同じ構成要素である。
図6を参照すると、サービス中断手段300は、誤認識判断手段3001と、認識語登録手段3002とを備え、利用者がサービスを任意のタイミングで中断指示できる手段を提供する。
図5、8を参照すると、認識履歴記憶部400は、認識語彙記憶手段4001と、尤度補正値記憶手段4002とを備える。認識語彙記憶手段4001は、過去にサービスを中断した認識語を記憶する。ここに記憶している認識語は、サービスを中断したものであるから利用者の意図と違う(つまり誤認識)可能性が高い語彙といえる。このような語彙を再度選ぶ(利用者が発話する)可能性は低いので、当該語彙の尤度は、他の認識語彙よりも低く評価する。尤度補正値記憶手段4002は、各認識語彙に対応する尤度補正値を記憶する。
尤度補正手段320は、認識履歴記憶部400に記憶されている語彙について尤度を低く補正する手段を提供する。
図5、7を参照すると、認識結果評価手段340は、認識履歴記憶部400に同一の認識語があるか否かを照合する問い合わせ手段3401と、尤度補正手段320に対して尤度を低く補正させる尤度低補正手段3402と、閾値3404と、尤度補正手段320で補正した補正値と閾値3404とを比較する補正値/閾値比較手段3403と、棄却手段3405とを備える。尤度低補正手段3402は、同一の認識語があるとき尤度補正手段320に対して尤度を低く補正させる。棄却手段3405は、補正値が閾値3404を下回っていれば誤認識と判断して音声認識結果を棄却する。
次に、上述のように構成した音声対話システム20の動作について、図面を参照して説明する。
図9は、音声対話システム20の動作を説明するためのフローチャートである。
図9を参照すると、(S51)〜(S55)までは、図4に示す実施例1の(S41)〜(S45)と同じである故、説明を省略する。
音声認識手段200は、認識結果を認識結果評価手段340に渡し、認識結果評価手段340は、認識履歴記憶部400に同じ認識語が無いか否かを問い合わせる(S56)。
認識結果評価手段340は、同じ認識語が存在する場合、誤認識の可能性が高いため尤度補正手段320に対して尤度を低く補正させる(S57)。
認識結果評価手段340は、補正値/閾値比較手段3403により補正値と閾値3404とを比較する(S58)。
比較結果、補正値が閾値3404を下回っていれば、認識結果評価手段340は、棄却手段3405により誤認識と判断して音声認識結果を棄却し、上記(S54)に戻る。
比較結果、補正値が閾値3404以上のとき、認識結果評価手段340は、認識結果に基づいて対応するサービスを開始する(S59)。
サービス中断手段300は、サービス開始後に利用者が中断要求をしたか否かを判断する(S60)。サービス中断手段300は、中断要求を検出すると、利用者が期待しないサービス(誤認識)であったと判断し、認識履歴記憶部400に語彙を記憶させ(S61)、サービスを終了する(S62)。なお、認識結果評価手段340は、補正する尤度をサービス実行を繰り返す度にだんだん小さくし、逆に同じ語彙が重ねて記憶される場合は補正する尤度をだんだん大きくするようにすることで影響を及ぼす時間の範囲を制御できる。
次に、図5中のサービス中断手段300の具体例について、以下に説明する。
サービス中断手段300は、中断要求信号を伝達する方法として、図5中に示す物理的なON/OFFを2値で検出できるスイッチやリモコンなどの電気信号を利用する。また、サービス中断手段300は、例えば静電容量素子のように連続的アナログ値を検出し閾値3404でON/OFF(オン/オフ)を判定する。さらに、サービス中断手段300は、マイクを用いて音圧や音量などを利用し、利用者が大声を出したり、手を叩くなどの特徴的な動作を検出したり、カメラで人物の動作(ジェスチャ)を認識して意思を検出する。
次に、図5中の認識履歴記憶部400と尤度補正手段320との具体的動作について、図10を参照して説明する。
図10を参照すると、認識履歴記憶部400は、過去に誤認識の可能性が高いと判断した認識語彙と各認識語彙に対応する尤度補正値との2種類のデータを保持している。認識履歴記憶部400は、最初は何も認識を行っていないため、何も登録していない(状態0)。
ここで利用者が「おもしろい」と発話し、音声認識結果(例0)を得ると、「おはよう」が尤度1位であるので対話制御手段220は、「おはよう」に応答するサービス行動を開始する。サービスとしては、例えば今日の天気予報やニュースを知らせるようなサービスがある。
このサービス開始後に利用者が何らかの方法(例えば停止スイッチを押す)で中断の意思表示をした場合、サービス中断手段300は、認識履歴記憶部400に「おはよう」が誤認識であった可能性が高いとして尤度補正値の初期値「−30」で登録を行い、認識履歴記憶部400は、(状態1)になる。
この状態で利用者が再び「おもしろい」と発話し、認識結果評価手段340が認識結果(例1)を受け取ったとすると、認識結果評価手段340は、認識履歴記憶部400に登録している「おはよう」という認識語彙とその尤度補正値「−30」を取り出し、尤度補正手段320に引き渡す。
尤度補正手段320は、認識結果(例1)に格納されている「おはよう」の尤度「90」と、「おはよう」に対する現在の尤度補正値「−30」を合わせて尤度を「60」とする。この結果、認識結果(例1)における尤度の最も高い認識語彙は、「おもしろい」となる。
1度評価が終わると、認識結果評価手段330は、認識履歴記憶部400に登録している全ての認識語彙の尤度補正値に「10」を加えて補正を弱め、認識履歴記憶部400は、(状態2)になる。補正を弱めた結果、尤度補正値が0になった認識語彙は、登録から抹消する。
ここで、認識結果評価手段340は、利用者が「ハロー」と発話して音声認識結果(例2)を受け取ると、今度は「おはよう」は、尤度が補正の結果「45」になるが、ここで閾値3404を50に設定しているとすると、尤度が閾値3404を下回るため「おはよう」を棄却する。その結果、認識結果評価手段340は、「ハロー」を選択する。なお、音声認識結果は、各発話に対して独立事象である。
認識結果評価手段340は、評価が終わると、1回目と同様に認識履歴記憶部400の尤度補正値に全て「10」を加え、認識履歴記憶部400は、(状態3)になる。
認識結果評価手段340は、引き続き今度は周囲雑音のため音声認識結果(例3)を受け取る。サービス中断手段300は、「けってい」に応答するサービスを開始後に利用者が中断すると、同様に「けってい」を誤認識と判断して認識履歴記憶部400に登録し(状態4)になる。
周囲雑音により再度同じ音声認識結果(例4)を受け取ると、認識結果評価手段340は、尤度補正手段320によって「けってい」の尤度を「30」に補正し、尤度「30」が閾値3404の「50」を下回るため棄却する。
認識結果評価手段340は、評価が終わると、認識履歴記憶部400の尤度補正値に全て「10」を加え、認識履歴記憶部400は、(状態5)になる。
このようにして、ユーザの発話や周囲雑音による誤認識を一定時間漸減的に低く評価することにより、自動的に認識語彙を棄却し、より正確な認識結果を得ることができる。
以上説明したように、音声対話システム20は、利用者がサービスを中断した場合は誤認識があったと判断し、その認識語彙を記憶して次回音声認識時に尤度を補正する機能を設けることで、利用者に確認対話を行わなくても誤認識を推測できるという効果がある。
また、音声対話システム20は、記憶した誤認識を推測する認識語彙のリストが雑音辞書の一部代替として機能するため、辞書作成の手間を軽減できるという効果がある。
次に、第3実施例の音声対話システム30について、図面を参照して説明する。
図11は、音声対話システム30を示す概略構成ブロック図、図12は、図11中の認識結果評価手段350を示す構成ブロック図である。なお、図1、図5に各々示す音声対話システム10、音声対話システム20と同一構成要素は、同一符号で表示する。
図11を参照すると、音声対話システム30は、音声入力装置31と、音声出力装置12とで構成する。
音声出力装置12、音声入力部100、音声認識手段200、対話制御手段220、対話シナリオ記憶部230、音声認識ルール記憶部240、利用状態検出手段310は、実施例1の音声対話システム10と同じ構成要素である。また、サービス中断手段300、尤度補正手段320、認識履歴記憶部400は、実施例2の音声対話システム20と同じ構成要素である。
上述の如く、音声対話システム30は、音声対話システム10と音声対話システム20とを組み合わせた構成である。従って、認識結果評価手段350は、図12に示すように、認識結果評価手段330と、認識結果評価手段340との両方の構成要素を備える。
以上のように、音声対話システム30は、既述の音声対話システム10と音声対話システム20とを組み合わせたものであり、説明を省略する。
本発明によれば、家庭向けパーソナルロボットや情報家電製品、車載用ナビゲーションシステムといった用途に適用できる。また、街頭に置かれるKIOSK端末や自動販売機、企業や官公庁で使われるオフィス機器といった用途にも適用可能である。
本発明の音声対話システムの第1実施例を示す概略構成ブロック図である。 図1中の利用状態検出手段を示す構成ブロック図である。 図1中の認識結果評価手段を示す構成ブロック図である。 本発明の第1実施例の音声対話システムの動作を説明するためのフローチャートである。 本発明の音声対話システムの第2実施例を示す概略構成ブロック図である。 図5中のサービス中断手段を示す構成ブロック図である。 図5中の認識結果評価手段を示す構成ブロック図である。 図5中の認識履歴記憶部を示す構成ブロック図である 本発明の第2実施例の音声対話システムの動作を説明するためのフローチャートである。 図5中の認識履歴記憶部と尤度補正手段との動作を説明するための図である。 本発明の音声対話システムの第3実施例を示す概略構成ブロック図である。 図11中の認識結果評価手段を示す構成ブロック図である。
符号の説明
10 音声対話システム
11 音声入力装置
12 音声出力装置
20 音声対話システム
21 音声入力装置
30 音声対話システム
31 音声入力装置
100 音声入力部
110 音声出力部
200 音声認識手段
210 音声合成手段
220 対話制御手段
230 対話シナリオ記憶部
240 音声認識ルール記憶部
300 サービス中断手段
3001 誤認識判断手段
3002 認識語登録手段
310 利用状態検出手段
3101 利用有無検出手段
3102 利用意志有無検出手段
320 尤度補正手段
330 認識結果評価手段
3301 利用状態取得手段
3302 棄却手段
340 認識結果評価手段
3401 問い合わせ手段
3402 尤度低補正手段
3403 補正値/閾値比較手段
3404 閾値
3405 棄却手段
350 認識結果評価手段
400 認識履歴記憶部
4001 認識語彙記憶手段
4002 尤度補正値記憶手段

Claims (20)

  1. 利用者の音声を入力する音声入力部と、音声認識を行う音声認識手段と、対話シナリオを選択し実行する対話制御手段と、利用者の現在の利用状況または利用意向を把握検出する利用状態検出手段と、音声認識結果を利用状態に応じて評価する認識結果評価手段とを備え、前記認識結果評価手段は、音声認識結果が得られた時点で利用者が利用していなければ周囲雑音による誤認識と判断して音声認識結果を棄却する手段を有することを特徴とする音声入力装置。
  2. 利用者の音声を入力する音声入力部と、音声認識を行う音声認識手段と、対話シナリオを選択し実行する対話制御手段と、利用者が任意のタイミングでサービスの中断を指示するサービス中断手段と、誤認識である可能性が高い語彙を記憶する認識履歴記憶部と、前記認識履歴記憶部に登録している認識語の尤度を補正する尤度補正手段と、補正結果に基づいて音声認識結果を評価する認識結果評価手段とを備え、前記サービス中断手段は、音声認識結果が得られサービスの実行を開始したときに利用者が中断を指示した場合、音声認識結果は誤認識であった可能性が高いと判断し、次回以降の音声認識では採用しない候補として認識語を前記認識履歴記憶部に登録する手段を有し、前記認識結果評価手段は、次回の音声認識結果取得時に前記認識履歴記憶部に照合し、一致するものがあれば尤度補正手段によって尤度を補正した上で、閾値を下回っていれば誤認識と判断して音声認識結果を棄却する手段を有することを特徴とする音声入力装置。
  3. 利用者の音声を入力する音声入力部と、音声認識を行う音声認識手段と、対話シナリオを選択し実行する対話制御手段と、利用者の現在の利用状況または利用意向を把握検出する利用状態検出手段と、利用者が任意のタイミングでサービスの中断を指示するサービス中断手段と、誤認識である可能性が高い語彙を記憶する認識履歴記憶部と、前記認識履歴記憶部に登録している認識語の尤度を補正する尤度補正手段と、利用者の利用状態または尤度の補正結果に基づいて音声認識結果を評価する認識結果評価手段とを備え、前記サービス中断手段は、音声認識結果が得られサービスの実行を開始したときに利用者が中断を指示した場合、音声認識結果は誤認識であった可能性が高いと判断し、次回以降の音声認識では採用しない候補として認識語を前記認識履歴記憶部に登録する手段を有し、前記認識結果評価手段は、音声認識結果が得られた時点で利用者が利用していなければ周囲雑音による誤認識と判断して音声認識結果を棄却する手段と、次回以降の音声認識では採用しない候補として認識語を前記認識履歴記憶部に登録し、次回の音声認識結果取得時に前記認識履歴記憶部に照合し、一致するものがあれば尤度補正手段によって尤度を補正した上で、閾値を下回っていれば誤認識と判断して音声認識結果を棄却する手段とを有することを特徴とする音声入力装置。
  4. 前記認識結果評価手段は、前記利用状態検出手段から利用者の利用状態の検出結果を取得する利用状態取得手段を有することを特徴とする請求項1記載の音声入力装置。
  5. 前記認識結果評価手段は、前記認識履歴記憶部に同一の前記認識語があるか否かを照合する問い合わせ手段と、同一の前記認識語があるとき前記尤度補正手段に対して尤度を低く補正させる尤度低補正手段と、閾値と、前記尤度補正手段で補正した補正値と前記閾値とを比較する補正値/閾値比較手段とを有することを特徴とする請求項2記載の音声入力装置。
  6. 前記認識履歴記憶部は、誤認識である可能性が高い語彙を記憶する認識語彙記憶手段と、認識語彙に対応する尤度補正値を記憶する尤度補正値記憶手段とを有することを特徴とする請求項2または5記載の音声入力装置。
  7. 前記認識結果評価手段は、前記利用状態検出手段から利用者の利用状態の検出結果を取得する利用状態取得手段と、前記認識履歴記憶部に同一の前記認識語があるか否かを照合する問い合わせ手段と、同一の前記認識語があるとき前記尤度補正手段に対して尤度を低く補正させる尤度低補正手段と、閾値と、前記尤度補正手段で補正した補正値と前記閾値とを比較する補正値/閾値比較手段とを有することを特徴とする請求項3記載の音声入力装置。
  8. 音声入力装置と音声出力装置とを有する音声対話システムにおいて、前記音声入力装置は、利用者の音声を入力する音声入力部と、音声認識を行う音声認識手段と、対話シナリオを選択し実行する対話制御手段と、利用者の現在の利用状態を検出する利用状態検出手段と、音声認識結果を利用状態に応じて評価する認識結果評価手段とを備え、前記認識結果評価手段は、音声認識結果が得られた時点で利用者が利用していなければ周囲雑音による誤認識と判断して音声認識結果を棄却する手段を有し、前記音声出力装置は、発声のための音声データを生成する音声合成手段と、対話のため前記音声データを出力する音声出力部とを有することを特徴とする音声対話システム。
  9. 前記利用状態検出手段は、利用者の現在の利用状況を検出する利用有無検出手段と、利用意向を検出する利用意志有無検出手段とを有することを特徴とする請求項8記載の音声対話システム。
  10. 前記認識結果評価手段は、前記利用状態検出手段から利用者の利用状態の検出結果を取得する利用状態取得手段を有することを特徴とする請求項8記載の音声対話システム。
  11. 音声入力装置と音声出力装置とを有する音声対話システムにおいて、前記音声入力装置は、利用者の音声を入力する音声入力部と、音声認識を行う音声認識手段と、対話シナリオを選択し実行する対話制御手段と、利用者が任意のタイミングでサービスの中断を指示するサービス中断手段と、誤認識である可能性が高い語彙を記憶する認識履歴記憶部と、前記認識履歴記憶部に登録している認識語の尤度を補正する尤度補正手段と、補正結果に基づいて音声認識結果を評価する認識結果評価手段とを備え、前記サービス中断手段は、音声認識結果が得られサービスの実行を開始したときに利用者が中断を指示した場合、音声認識結果は誤認識であった可能性が高いと判断し、次回以降の音声認識では採用しない候補として認識語を前記認識履歴記憶部に登録する手段を有し、前記認識結果評価手段は、次回の音声認識結果取得時に前記認識履歴記憶部に照合し、一致するものがあれば尤度補正手段によって尤度を補正した上で、閾値を下回っていれば誤認識と判断して音声認識結果を棄却する手段を有し、前記音声出力装置は、発声のための音声データを生成する音声合成手段と、対話のため前記音声データを出力する音声出力部とを有することを特徴とする音声対話システム。
  12. 前記認識結果評価手段は、前記認識履歴記憶部に同一の前記認識語があるか否かを照合する問い合わせ手段と、同一の前記認識語があるとき前記尤度補正手段に対して尤度を低く補正させる尤度低補正手段と、閾値と、前記尤度補正手段で補正した補正値と前記閾値とを比較する補正値/閾値比較手段とを有することを特徴とする請求項11記載の音声対話システム。
  13. 前記認識履歴記憶部は、誤認識である可能性が高い語彙を記憶する認識語彙記憶手段と、認識語彙に対応する尤度補正値を記憶する尤度補正値記憶手段とを有することを特徴とする請求項11または12記載の音声対話システム。
  14. 音声入力装置と音声出力装置とを有する音声対話システムにおいて、前記音声入力装置は、利用者の音声を入力する音声入力部と、音声認識を行う音声認識手段と、対話シナリオを選択し実行する対話制御手段と、利用者の現在の利用状況または利用意向を把握検出する利用状態検出手段と、利用者が任意のタイミングでサービスの中断を指示するサービス中断手段と、誤認識である可能性が高い語彙を記憶する認識履歴記憶部と、前記認識履歴記憶部に登録している認識語の尤度を補正する尤度補正手段と、利用者の利用状態または尤度の補正結果に基づいて音声認識結果を評価する認識結果評価手段とを備え、前記サービス中断手段は、音声認識結果が得られサービスの実行を開始したときに利用者が中断を指示した場合、音声認識結果は誤認識であった可能性が高いと判断し、次回以降の音声認識では採用しない候補として認識語を前記認識履歴記憶部に登録する手段を有し、前記認識結果評価手段は、音声認識結果が得られた時点で利用者が利用していなければ周囲雑音による誤認識と判断して音声認識結果を棄却する手段と、次回の音声認識結果取得時に前記認識履歴記憶部に照合し、一致するものがあれば尤度補正手段によって尤度を補正した上で、閾値を下回っていれば誤認識と判断して音声認識結果を棄却する手段とを有し、前記音声出力装置は、発声のための音声データを生成する音声合成手段と、対話のため前記音声データを出力する音声出力部とを有することを特徴とする音声対話システム。
  15. 前記認識結果評価手段は、前記利用状態検出手段から利用者の利用状態の検出結果を取得する利用状態取得手段と、前記認識履歴記憶部に同一の前記認識語があるか否かを照合する問い合わせ手段と、同一の前記認識語があるとき前記尤度補正手段に対して尤度を低く補正させる尤度低補正手段と、閾値と、前記尤度補正手段で補正した補正値と前記閾値とを比較する補正値/閾値比較手段とを有することを特徴とする請求項14記載の音声対話システム。
  16. 音声入力装置と音声出力装置とを有する音声対話方法において、前記音声入力装置は、音声入力部により利用者の音声を入力するステップと、音声認識手段により音声認識を行うステップと、対話制御手段により対話シナリオを選択し実行するステップと、利用状態検出手段により利用者の現在の利用状態を検出するステップと、認識結果評価手段により音声認識結果を利用状態に応じて評価するステップとを備え、前記認識結果評価手段は、音声認識結果が得られた時点で利用者が利用していなければ周囲雑音による誤認識と判断して音声認識結果を棄却するステップを有し、前記音声出力装置は、音声合成手段により発声のための音声データを生成するステップと、音声出力部により対話のため前記音声データを出力するステップとを有することを特徴とする音声対話方法。
  17. 音声入力装置と音声出力装置とを有する音声対話方法において、前記音声入力装置は、音声入力部により利用者の音声を入力するステップと、音声認識手段により音声認識を行うステップと、対話制御手段により対話シナリオを選択し実行するステップと、サービス中断手段により利用者が任意のタイミングでサービスの中断を指示するステップと、誤認識である可能性が高い語彙を認識履歴記憶部に記憶するステップと、尤度補正手段により前記認識履歴記憶部に登録している認識語の尤度を補正するステップと、補正結果に基づいて認識結果評価手段により音声認識結果を評価するステップとを備え、前記サービス中断手段は、音声認識結果が得られサービスの実行を開始したときに利用者が中断を指示した場合、音声認識結果は誤認識であった可能性が高いと判断し、次回以降の音声認識では採用しない候補として認識語を前記認識履歴記憶部に登録するステップを有し、前記認識結果評価手段は、次回の音声認識結果取得時に前記認識履歴記憶部に同一の前記認識語があるか否かを照合するステップと、一致するものがあれば尤度低補正手段により前記尤度補正手段に対して尤度を低く補正させるステップと、前記尤度補正手段で補正した補正値と閾値とを比較するステップと、補正値が閾値を下回っていれば誤認識と判断して音声認識結果を棄却するステップとを有し、前記音声出力装置は、音声合成手段により発声のための音声データを生成するステップと、音声出力部により対話のため前記音声データを出力するステップとを有することを特徴とする音声対話方法。
  18. 音声入力装置と音声出力装置とを有する音声対話方法において、前記音声入力装置は、音声入力部により利用者の音声を入力するステップと、音声認識手段により音声認識を行うステップと、対話制御手段により対話シナリオを選択し実行するステップと、利用状態検出手段により利用者の現在の利用状況または利用意向を把握検出するステップと、サービス中断手段により利用者が任意のタイミングでサービスの中断を指示するステップと、誤認識である可能性が高い語彙を認識履歴記憶部に記憶するステップと、尤度補正手段により前記認識履歴記憶部に登録している認識語の尤度を補正するステップと、認識結果評価手段により利用者の利用状態または尤度の補正結果に基づいて音声認識結果を評価するステップとを備え、前記サービス中断手段は、音声認識結果が得られサービスの実行を開始したときに利用者が中断を指示した場合、音声認識結果は誤認識であった可能性が高いと判断し、次回以降の音声認識では採用しない候補として認識語を前記認識履歴記憶部に登録するステップを有し、前記認識結果評価手段は、音声認識結果が得られた時点で利用者が利用していなければ周囲雑音による誤認識と判断して音声認識結果を棄却するステップと、次回の音声認識結果取得時に前記認識履歴記憶部に同一の前記認識語があるか否かを照合するステップと、一致するものがあれば尤度低補正手段により前記尤度補正手段に対して尤度を低く補正させるステップと、前記尤度補正手段で補正した補正値と閾値とを比較するステップと、補正値が閾値を下回っていれば誤認識と判断して音声認識結果を棄却するステップとを有し、前記音声出力装置は、音声合成手段により発声のための音声データを生成するステップと、音声出力部により対話のため前記音声データを出力するステップとを有することを特徴とする音声対話方法。
  19. 音声入力装置と音声出力装置とを有する音声対話システム用のプログラムであって、前記音声入力装置を、音声入力部から利用者の音声を入力する手段と、音声認識を行う音声認識手段と、対話シナリオを選択し実行する対話制御手段と、利用者の現在の利用状況または利用意向を把握検出する利用状態検出手段と、利用者が任意のタイミングでサービスの中断を指示するサービス中断手段と、誤認識である可能性が高い語彙を記憶する認識履歴記憶部と、前記認識履歴記憶部に登録している認識語の尤度を補正する尤度補正手段と、利用者の利用状態または尤度の補正結果に基づいて音声認識結果を評価する認識結果評価手段として機能させ、前記サービス中断手段は、音声認識結果が得られサービスの実行を開始したときに利用者が中断を指示した場合、音声認識結果は誤認識であった可能性が高いと判断し、次回以降の音声認識では採用しない候補として認識語を前記認識履歴記憶部に登録する手段として機能させ、前記認識結果評価手段は、音声認識結果が得られた時点で利用者が利用していなければ周囲雑音による誤認識と判断して音声認識結果を棄却する手段と、次回の音声認識結果取得時に前記認識履歴記憶部に照合し、一致するものがあれば尤度補正手段によって尤度を補正した上で、閾値を下回っていれば誤認識と判断して音声認識結果を棄却する手段として機能させ、前記音声出力装置を、発声のための音声データを生成する音声合成手段と、対話のため前記音声データを出力する音声出力部として機能させるためのプログラム。
  20. 前記認識結果評価手段は、前記利用状態検出手段から利用者の利用状態の検出結果を取得する利用状態取得手段と、前記認識履歴記憶部に同一の前記認識語があるか否かを照合する問い合わせ手段と、同一の前記認識語があるとき前記尤度補正手段に対して尤度を低く補正させる尤度低補正手段と、前記尤度補正手段で補正した補正値と前記閾値とを比較する補正値/閾値比較手段として機能させるための請求項19記載のプログラム。
JP2006209428A 2006-08-01 2006-08-01 音声対話システム、音声対話方法、音声入力装置、プログラム Pending JP2008033198A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006209428A JP2008033198A (ja) 2006-08-01 2006-08-01 音声対話システム、音声対話方法、音声入力装置、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006209428A JP2008033198A (ja) 2006-08-01 2006-08-01 音声対話システム、音声対話方法、音声入力装置、プログラム

Publications (1)

Publication Number Publication Date
JP2008033198A true JP2008033198A (ja) 2008-02-14

Family

ID=39122658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006209428A Pending JP2008033198A (ja) 2006-08-01 2006-08-01 音声対話システム、音声対話方法、音声入力装置、プログラム

Country Status (1)

Country Link
JP (1) JP2008033198A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014115646A (ja) * 2012-12-07 2014-06-26 Postech Academy - Industry Foundation 音声認識のエラー修正方法及び装置
JP2014191246A (ja) * 2013-03-28 2014-10-06 Nec Corp 認識処理制御装置、認識処理制御方法および認識処理制御プログラム
WO2016157782A1 (ja) * 2015-03-27 2016-10-06 パナソニックIpマネジメント株式会社 音声認識システム、音声認識装置、音声認識方法、および制御プログラム
CN106205612A (zh) * 2016-07-08 2016-12-07 北京光年无限科技有限公司 面向智能机器人的信息处理方法及系统
CN108177151A (zh) * 2017-11-28 2018-06-19 上海魔龙机器人科技有限公司 一种机器人及其本体语音交互系统
JP2018136568A (ja) * 2014-05-30 2018-08-30 アップル インコーポレイテッド 手動始点/終点指定及びトリガフレーズの必要性の低減
CN110148430A (zh) * 2019-04-30 2019-08-20 腾讯科技(深圳)有限公司 音频的录制方法和装置、存储介质及电子装置
CN111754995A (zh) * 2019-03-29 2020-10-09 株式会社东芝 阈值调整装置、阈值调整方法以及记录介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0668338A (ja) * 1992-08-14 1994-03-11 Toshiba Corp 自動取引装置
JPH0830290A (ja) * 1994-07-18 1996-02-02 Hitachi Ltd 音声入力可能な情報処理装置およびそれにおける誤処理検出方法
JPH0876965A (ja) * 1994-09-07 1996-03-22 Toshiba Corp 音声認識システム
JPH11288295A (ja) * 1998-04-02 1999-10-19 Nec Robotics Eng Ltd 音声認識雑音除去方式
JP2000276187A (ja) * 1999-03-25 2000-10-06 Fuji Heavy Ind Ltd 音声認識方法及び音声認識装置
JP2002351494A (ja) * 2001-02-01 2002-12-06 Matsushita Electric Ind Co Ltd 文認識装置、文認識方法、プログラム、および媒体
JP2002372988A (ja) * 2001-06-14 2002-12-26 Nec Corp 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法
JP2004053825A (ja) * 2002-07-18 2004-02-19 Yamaha Corp 言語識別装置、言語識別方法および言語識別プログラム
JP2004101901A (ja) * 2002-09-10 2004-04-02 Matsushita Electric Works Ltd 音声対話装置及び音声対話プログラム
JP2004192653A (ja) * 1997-02-28 2004-07-08 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP2005031540A (ja) * 2003-07-10 2005-02-03 Toshiba Corp 音声機能を有する家電機器
JP2005227686A (ja) * 2004-02-16 2005-08-25 Sharp Corp 音声認識装置、音声認識プログラムおよび記録媒体。
JP2005253097A (ja) * 1993-06-29 2005-09-15 Sony Corp 音声信号送受信装置
JP2006036175A (ja) * 2004-07-23 2006-02-09 Nippon Meditex:Kk 誘導案内システム及びそのシステムに用いる誘導案内装置
JP2006154658A (ja) * 2004-12-01 2006-06-15 Nec Corp 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0668338A (ja) * 1992-08-14 1994-03-11 Toshiba Corp 自動取引装置
JP2005253097A (ja) * 1993-06-29 2005-09-15 Sony Corp 音声信号送受信装置
JPH0830290A (ja) * 1994-07-18 1996-02-02 Hitachi Ltd 音声入力可能な情報処理装置およびそれにおける誤処理検出方法
JPH0876965A (ja) * 1994-09-07 1996-03-22 Toshiba Corp 音声認識システム
JP2004192653A (ja) * 1997-02-28 2004-07-08 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JPH11288295A (ja) * 1998-04-02 1999-10-19 Nec Robotics Eng Ltd 音声認識雑音除去方式
JP2000276187A (ja) * 1999-03-25 2000-10-06 Fuji Heavy Ind Ltd 音声認識方法及び音声認識装置
JP2002351494A (ja) * 2001-02-01 2002-12-06 Matsushita Electric Ind Co Ltd 文認識装置、文認識方法、プログラム、および媒体
JP2002372988A (ja) * 2001-06-14 2002-12-26 Nec Corp 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法
JP2004053825A (ja) * 2002-07-18 2004-02-19 Yamaha Corp 言語識別装置、言語識別方法および言語識別プログラム
JP2004101901A (ja) * 2002-09-10 2004-04-02 Matsushita Electric Works Ltd 音声対話装置及び音声対話プログラム
JP2005031540A (ja) * 2003-07-10 2005-02-03 Toshiba Corp 音声機能を有する家電機器
JP2005227686A (ja) * 2004-02-16 2005-08-25 Sharp Corp 音声認識装置、音声認識プログラムおよび記録媒体。
JP2006036175A (ja) * 2004-07-23 2006-02-09 Nippon Meditex:Kk 誘導案内システム及びそのシステムに用いる誘導案内装置
JP2006154658A (ja) * 2004-12-01 2006-06-15 Nec Corp 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318102B2 (en) 2012-12-07 2016-04-19 Postech Academy—Industry Foundation Method and apparatus for correcting speech recognition error
JP2014115646A (ja) * 2012-12-07 2014-06-26 Postech Academy - Industry Foundation 音声認識のエラー修正方法及び装置
JP2014191246A (ja) * 2013-03-28 2014-10-06 Nec Corp 認識処理制御装置、認識処理制御方法および認識処理制御プログラム
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
JP2018136568A (ja) * 2014-05-30 2018-08-30 アップル インコーポレイテッド 手動始点/終点指定及びトリガフレーズの必要性の低減
US12118999B2 (en) 2014-05-30 2024-10-15 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
WO2016157782A1 (ja) * 2015-03-27 2016-10-06 パナソニックIpマネジメント株式会社 音声認識システム、音声認識装置、音声認識方法、および制御プログラム
JPWO2016157782A1 (ja) * 2015-03-27 2018-01-25 パナソニックIpマネジメント株式会社 音声認識システム、音声認識装置、音声認識方法、および制御プログラム
CN106205612A (zh) * 2016-07-08 2016-12-07 北京光年无限科技有限公司 面向智能机器人的信息处理方法及系统
CN108177151A (zh) * 2017-11-28 2018-06-19 上海魔龙机器人科技有限公司 一种机器人及其本体语音交互系统
CN111754995A (zh) * 2019-03-29 2020-10-09 株式会社东芝 阈值调整装置、阈值调整方法以及记录介质
CN111754995B (zh) * 2019-03-29 2024-06-04 株式会社东芝 阈值调整装置、阈值调整方法以及记录介质
CN110148430A (zh) * 2019-04-30 2019-08-20 腾讯科技(深圳)有限公司 音频的录制方法和装置、存储介质及电子装置

Similar Documents

Publication Publication Date Title
JP6751658B2 (ja) 音声認識装置、音声認識システム
JP4679254B2 (ja) 対話システム、対話方法、及びコンピュータプログラム
JP5601419B2 (ja) エレベーターの呼び登録装置
JP4346571B2 (ja) 音声認識システム、音声認識方法、及びコンピュータプログラム
JP2008033198A (ja) 音声対話システム、音声対話方法、音声入力装置、プログラム
US8185400B1 (en) System and method for isolating and processing common dialog cues
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
JP5431282B2 (ja) 音声対話装置、方法、プログラム
US20200410987A1 (en) Information processing device, information processing method, program, and information processing system
CN114155839A (zh) 一种语音端点检测方法、装置、设备及存储介质
US11348579B1 (en) Volume initiated communications
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP2006208486A (ja) 音声入力装置
JP5342629B2 (ja) 男女声識別方法、男女声識別装置及びプログラム
JP2016061888A (ja) 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP2020148805A (ja) 音声認識システム、及び、音声認識方法
JP2006215317A (ja) 音声認識システム、音声認識装置及び音声認識プログラム
JP6966374B2 (ja) 音声認識システム及びコンピュータプログラム
JP4951422B2 (ja) 音声認識装置、および音声認識方法
JP2019132997A (ja) 音声処理装置、方法およびプログラム
JP2006337942A (ja) 音声対話装置及び割り込み発話制御方法
JP2006039382A (ja) 音声認識装置
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법
JPH08190470A (ja) 情報提供端末

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20080617

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100819

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100928