JP2018097029A

JP2018097029A - 音声認識装置および音声認識方法

Info

Publication number: JP2018097029A
Application number: JP2016238595A
Authority: JP
Inventors: 悠人出木浦; Yuto Dekiura
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2018-06-21

Abstract

【課題】ユーザとの自然な対話によって音声の認識結果を訂正することが可能な音声認識装置を提供する。【解決手段】音声認識装置１０は、指示音声の認識結果を承認するか訂正するかを確認する確認メッセージに対するユーザの応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識する応答音声理解部１３を備える。応答音声理解部１３は、否定の意思を表す否定キーワードが応答音声に含まれている場合だけでなく、複数の指示の選択肢を表す指示キーワードのうち指示音声理解部１１の認識結果とは異なる指示を示すものが応答音声に含まれている場合にも、応答音声を訂正発話と認識する。【選択図】図１

Description

本発明は、音声認識装置および音声認識方法に関し、特に、ユーザが音声で指示した内容を訂正するための技術に関する。

カーナビゲーション装置やカーマルチメディアシステムなどの車載装置の分野では、ユーザの音声指示による操作を可能にする音声認識装置の導入が進んでいる。多くの音声認識装置は、ユーザが発した音声からユーザの指示を認識した際、その認識結果に基づき決定した実行機能が正しいかどうかユーザに確認することで、誤動作を防止している。指示の認識結果に基づき決定した実行機能が誤っていた場合、ユーザは再度の音声指示を行うことで認識結果を訂正することができる。

下記の特許文献１〜３には、ユーザと音声認識装置との対話効率を高めるための技術が提案されている。例えば特許文献１には、音声認識装置が音声の認識結果を読み上げている途中でユーザが新たな音声を入力すると、新たな音声を認識結果の訂正を求める訂正発話として認識する技術が開示されている。特許文献２には、ユーザが適切な音声指示をすることができなかった場合に、環境情報（例えば渋滞情報、路面の状態、運転者の発汗状況など）からユーザの意図を推定し、その推定結果が正しいかどうかユーザに問いかけることでユーザの発話を促す技術が開示されている。特許文献３には、ユーザの音声の韻律やユーザの生理情報（例えば脈拍や血圧など）からユーザの感情を推定することで、ユーザが発した音声の意味を推定する技術が開示されている。

特許第３８９２３０２号公報特開２００６−３１７５７３号公報特開２００６−３１３２８７号公報

ユーザと音声認識装置との間で自然な対話を可能にすることは、ユーザの負担軽減の観点から重要な課題である。それを実現するためには、音声認識装置がユーザの意図を推定して適切な応答を行うことを可能にする技術が求められる。

特許文献１の技術では、ユーザの音声が訂正発話かどうかを音声が入力されたタイミングで判断しており、ユーザが発した音声の内容からその意図を推定するものではない。また特許文献２，３の技術では、環境情報や生理情報などを利用してユーザの意図を推定するため、それらの情報の取得手段が必要となりシステムが大規模化してしまう。

本発明は以上のような課題を解決するためになされたものであり、ユーザとの自然な対話によって音声の認識結果を訂正することが可能な音声認識装置を提供することを目的とする。

本発明の第１の態様に係る音声認識装置は、ユーザが音声で指示した内容を認識する音声認識装置であって、ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうちユーザがどの指示を行ったかを認識する指示音声理解部と、ユーザに指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力するメッセージ出力部と、確認メッセージに対する応答としてユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識する応答音声理解部と、を備え、応答音声理解部により応答音声が承認発話と認識されると、指示音声理解部は、認識結果を確定し、応答音声理解部により応答音声が訂正発話と認識されると、指示音声理解部は、ユーザの指示の認識を、応答音声または新たな指示音声に基づいてやり直し、応答音声理解部は、否定の意思を表す否定キーワードが応答音声に含まれている場合だけでなく、複数の指示の選択肢を表す指示キーワードのうち指示音声理解部の認識結果とは異なる指示を示すものが応答音声に含まれている場合にも、応答音声を訂正発話と認識する。

本発明の第２の態様に係る音声認識装置は、ユーザが音声で指示した内容を認識する音声認識装置であって、ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうちユーザがどの指示を行ったかを認識する指示音声理解部と、ユーザに指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力するメッセージ出力部と、確認メッセージに対する応答としてユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識する応答音声理解部と、を備え、応答音声理解部により応答音声が承認発話と認識されると、指示音声理解部は、認識結果を確定し、応答音声理解部により応答音声が訂正発話と認識されると、指示音声理解部は、ユーザの指示の認識を、応答音声または新たな指示音声に基づいてやり直し、応答音声理解部は、否定の意思を表す否定キーワードが応答音声に含まれている場合だけでなく、落胆の感情を表す落胆キーワードが応答音声に含まれていた場合にも、応答音声を訂正発話と認識する。

本発明の第３の態様に係る音声認識装置は、ユーザが音声で指示した内容を認識する音声認識装置であって、ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうちユーザがどの指示を行ったかを認識する指示音声理解部と、ユーザに指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力するメッセージ出力部と、確認メッセージに対する応答としてユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識する応答音声理解部と、を備え、応答音声理解部により応答音声が承認発話と認識されると、指示音声理解部は、認識結果を確定し、応答音声理解部により応答音声が訂正発話と認識されると、指示音声理解部は、ユーザの指示の認識を、応答音声または新たな指示音声に基づいてやり直し、指示音声理解部は、ユーザの指示の認識をやり直す際、前回までの認識結果を考慮に入れて、新たな認識結果を求める。

本発明の第４の態様に係る音声認識装置は、ユーザが音声で指示した設定値を用いる特定の処理を処理実行装置に実行させる音声認識装置であって、ユーザが発した指示音声に基づいて、予め定められた複数の設定値の選択肢のうちユーザがどの設定値を指示したかを認識し、その認識結果を設定値として設定する指示音声理解部と、指示音声理解部により設定された設定値を用いる特定の処理を処理実行装置が実行不可能な場合に、その旨をユーザに警告する警告メッセージを出力するメッセージ出力部と、警告メッセージの後にユーザが発した応答音声に、複数の設定値の選択肢を示す設定可能キーワードのうち現在の設定値とは異なる値を示すものが含まれている場合に、応答音声を設定値の訂正を意図する訂正発話と認識する応答音声理解部と、を備え、応答音声理解部により応答音声が訂正発話と認識されると、指示音声理解部は、設定値を応答音声に含まれていた設定可能キーワードに変更する。

本発明によれば、音声認識装置が、ユーザとの対話の流れからユーザの音声が訂正発話かどうかを判断することができる。そのため、ユーザは効率よく認識結果を訂正することが可能になる。

実施の形態１に係る音声認識システムの機能ブロック図である。音声認識装置のハードウェア構成の例を示す図である。音声認識装置のハードウェア構成の例を示す図である。実施の形態１に係る音声認識装置の動作を示すフローチャートである。実施の形態１における応答音声認識処理を示すフローチャートである。実施の形態１に係る音声認識装置とユーザとの対話の例を示す図である。実施の形態２における応答音声認識処理を示すフローチャートである。実施の形態２に係る音声認識装置とユーザとの対話の例を示す図である。実施の形態３における指示音声理解部の動作を示すフローチャートである。実施の形態４に係る音声認識システムの機能ブロック図である。実施の形態５に係る音声認識システムの機能ブロック図である。実施の形態５に係る音声認識装置の動作を示すフローチャートである。実施の形態５における応答音声認識処理を示すフローチャートである。実施の形態５に係る音声認識装置とユーザとの対話の例を示す図である。

＜実施の形態１＞
図１は、実施の形態１に係る音声認識システムの機能ブロック図である。図１のように、当該音声認識システムは、音声認識装置１０と、それに接続された音声入力装置１、音声出力装置２および処理実行装置３とを含んでいる。

音声入力装置１および音声出力装置２は、音声認識装置１０がユーザとの音声による対話を行うための手段である。音声入力装置１は、ユーザの音声を取得する手段であり、一般的にはマイクである。音声出力装置２は、音声認識装置１０がユーザに対する音声メッセージを出力する手段であり、一般的にはスピーカである。

処理実行装置３は、音声認識装置１０がユーザの指示に従って制御する対象となる装置である。処理実行装置３は複数の機能を有しており、ユーザは、音声認識装置１０に対する音声指示によって、処理実行装置３に実行させる機能を選択することができる。処理実行装置３は、例えば、ナビゲーション装置、マルチメディアシステムなど、任意の装置でよい。

また、図１では、音声入力装置１、音声出力装置２および処理実行装置３が音声認識装置１０に接続された構成としたが、これらは一体的に構成されていてもよい。例えば、図１の音声認識システムを、携帯電話やスマートフォンなどの携帯型デバイスに適用する場合には、当該システムは一体的な構成となる。

音声認識装置１０は、ユーザが音声で指示した内容を認識し、その認識結果に基づいて処理実行装置３を制御する。図１のように、音声認識装置１０は、指示音声理解部１１、メッセージ出力部１２および応答音声理解部１３を備えている。

指示音声理解部１１と応答音声理解部１３は、音声入力装置１が取得した音声からユーザの意図を理解するために、当該音声の認識処理を行う。そのため、指示音声理解部１１および応答音声理解部１３は、音声入力装置１が出力する音声信号をデジタル形式（例えばＰＣＭ形式など）の音声データに変換するＡ／Ｄ変換部、当該音声データを用いてユーザの音声を文字列化する音声認識部などを備えている。さらに、認識率を向上するために、音声信号に対するノイズリダクション、ビームフォーミングなどの処理を行う音声信号処理部を、指示音声理解部１１および応答音声理解部１３に設けてもよい。なお、これらの要素は、必ずしも指示音声理解部１１および応答音声理解部１３が備える必要はなく、例えば音声入力装置１側が備えていてもよい。

指示音声理解部１１は、ユーザが発した指示音声を理解するための処理を行う。すなわち、指示音声理解部１１は、指示音声を解析することで、ユーザの指示を認識する。本実施の形態では、ユーザは、指示の候補として予め定められた複数の選択肢のうちから１つを選択するものとする。つまり、指示音声理解部１１は、ユーザの指示音声に基づいて、指示の選択肢のうちから、ユーザがどの指示を行ったかを判断する。

より具体的には、指示の選択肢のそれぞれを表すキーワードである指示キーワードが予め設定されており、指示音声理解部１１は、ユーザの指示音声の認識結果としての文字列から指示キーワードを抽出し、ユーザの指示音声にどの指示キーワードが含まれているのかを認識することによって、ユーザの指示を理解する。例えば、処理実行装置３がマルチメディアシステムの場合、指示キーワードとしては、例えば「音楽を再生」、「ラジオを再生」、「テレビをつけて」などが考えられる。なお、ユーザの指示音声は口語的な表現を用いたものであってもよく、例えば指示音声に「えーと」や「あのー」などのフィラーが含まれていてもよい。

メッセージ出力部１２は、音声出力装置２を制御して、ユーザに対する音声メッセージを出力する。具体的には、メッセージ出力部１２は、音声出力装置２からメッセージを出力させるための音声信号を出力している。本実施の形態では、メッセージ出力部１２は、ユーザに対し、指示音声理解部１１による認識結果をユーザに提示すると共に、指示音声理解部１１による指示の認識結果を承認するか訂正するかを確認するためのメッセージ（以下「確認メッセージ」という）を出力する。なお、確認メッセージは文字メッセージとしてもよく、その場合、メッセージ出力部１２は、文字メッセージを表示する画面を持つこととなる。

応答音声理解部１３は、音声出力装置２から出力された確認メッセージに対する応答としてユーザが発した音声（以下「応答音声」という）を理解するための処理を行う。すなわち、応答音声理解部１３は、応答音声を解析することで、その応答音声が、認識結果の承認を意図する承認発話であるか、認識結果の訂正指示を意図する訂正発話であるかを認識する。

一般的な音声認識装置では、確認メッセージに対する応答音声に、肯定の意思を表すキーワードである肯定キーワード（「はい」、「ＯＫ」、「よいです」など）が含まれていれば、その応答音声は承認発話と認識される。また、確認メッセージに対する応答音声に、否定の意思を表すキーワードである否定キーワード（例えば「いいえ」、「違います」、「ダメです」、「そうじゃない」など）が含まれていれば、その応答音声は訂正発話と認識される。

それに対し、実施の形態１に係る音声認識装置１０では、応答音声に否定キーワードが応答音声に含まれている場合だけでなく、応答音声に、複数の選択肢を表す指示キーワードのうち指示音声理解部１１の認識結果とは異なる指示を示すものが含まれている場合にも、その応答音声を訂正発話として認識する。

応答音声理解部１３がユーザの応答音声を承認発話と認識した場合、指示音声理解部１１は、指示音声の認識結果を確定して、その認識結果であるユーザの指示を処理実行装置３へ送信する。その結果、処理実行装置３が、ユーザの指示に従った動作を行うことになる。

一方、応答音声理解部１３がユーザの応答音声を訂正発話と認識した場合、指示音声理解部１１は、ユーザの応答音声またはユーザが新たに発した指示音声に基づいて、ユーザの指示の認識をやり直す。

なお、指示音声理解部１１、メッセージ出力部１２および応答音声理解部１３が行う各処理は、必ずしも音声認識装置１０の内部で行われなくてもよく、例えば、それらの処理の一部または全部が音声認識装置１０との通信を行う外部のサーバ上で行われてもよい。

図２および図３は、それぞれ音声認識装置１０のハードウェア構成の一例を示す図である。図１に示した音声認識装置１０の各要素（指示音声理解部１１、メッセージ出力部１２および応答音声理解部１３）は、例えば図２に示す処理回路５０により実現される。すなわち、処理回路５０は、ユーザの指示音声に基づいて、複数の指示の選択肢のうちユーザがどの指示を行ったかを認識する指示音声理解部１１と、ユーザに指示音声理解部１１の認識結果を承認するか訂正するかを確認する確認メッセージを出力するメッセージ出力部１２と、確認メッセージに対するユーザの応答音声が承認発話か訂正発話かを認識する応答音声理解部１３と、を備える。ここで、応答音声が承認発話と認識されると、指示音声理解部１１は認識結果を確定し、応答音声が訂正発話と認識されると、指示音声理解部１１はユーザの指示の認識を応答音声または新たな指示音声に基づいてやり直す。また、応答音声理解部１３は、否定の意思を表す否定キーワードが応答音声に含まれている場合だけでなく、複数の指示の選択肢を表す指示キーワードのうち指示音声理解部１１の認識結果とは異なる指示を示すものが応答音声に含まれている場合にも、応答音声を訂正発話と認識する。処理回路５０には、専用のハードウェアが適用されてもよいし、メモリに格納されるプログラムを実行するプロセッサ、中央処理装置（ＣＰＵ（Central Processing Unit）、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、ＤＳＰ（Digital Signal Processor））が適用されてもよい。

処理回路５０が専用のハードウェアである場合、処理回路５０は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、またはこれらを組み合わせたものなどが該当する。音声認識装置１０の各要素の機能のそれぞれは、複数の処理回路で実現されてもよいし、それらの機能がまとめて一つの処理回路で実現されてもよい。

図３は、処理回路５０がプロセッサを用いて構成されている場合における音声認識装置１０のハードウェア構成を示している。この場合、音声認識装置１０の各要素の機能は、ソフトウェア等（ソフトウェア、ファームウェア、またはソフトウェアとファームウェア）との組み合わせにより実現される。ソフトウェア等はプログラムとして記述され、メモリ５２に格納される。処理回路５０としてのプロセッサ５１は、メモリ５２に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、音声認識装置１０は、処理回路５０により実行されるときに、ユーザの指示音声に基づいて、複数の指示の選択肢のうちユーザがどの指示を行ったかを認識する処理と、ユーザにその認識結果を承認するか訂正するかを確認する確認メッセージを出力する処理と、確認メッセージに対するユーザの応答音声が承認発話か訂正発話かを認識する処理と、応答音声が承認発話と認識されると認識結果を確定する処理と、応答音声が訂正発話と認識されるとユーザの指示の認識を応答音声または新たな指示音声に基づいてやり直す処理と、が結果的に実行されることになるプログラムを格納するためのメモリ５２を備える。ここで、ユーザの応答音声が承認発話か訂正発話かを認識する処理においては、否定の意思を表す否定キーワードが応答音声に含まれている場合だけでなく、複数の指示の選択肢を表す指示キーワードのうち指示音声理解部１１の認識結果とは異なる指示を示すものが応答音声に含まれている場合にも、応答音声を訂正発話と認識される。換言すれば、上記のプログラムは、音声認識装置１０の各要素の動作の手順や方法をコンピュータに実行させるものであるともいえる。

ここで、メモリ５２は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリー、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）などの、不揮発性または揮発性の半導体メモリ、ＨＤＤ（Hard Disk Drive）、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（Digital Versatile Disc）およびそのドライブ装置等、または、今後使用されるあらゆる記憶媒体であってもよい。

以上、音声認識装置１０の各要素の機能が、ハードウェアおよびソフトウェア等のいずれか一方で実現される構成について説明した。しかしこれに限ったものではなく、音声認識装置１０の一部の要素を専用のハードウェアで実現し、別の一部の要素をソフトウェア等で実現する構成であってもよい。例えば、一部の要素については専用のハードウェアとしての処理回路５０でその機能を実現し、他の一部の要素についてはプロセッサ５１としての処理回路５０がメモリ５２に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。

以上のように、音声認識装置１０は、ハードウェア、ソフトウェア等、またはこれらの組み合わせによって、上述の各機能を実現することができる。

図４は、実施の形態１に係る音声認識装置１０の動作を示すフローチャートである。また、図５は、図４のステップＳ１０５で行われる処理（応答音声認識処理）を示すフローチャートである。以下、これらの図を参照して、音声認識装置１０の動作を説明する。

音声認識装置１０が起動して、ユーザが処理実行装置３を操作するための指示音声を発すると、その指示音声は音声入力装置１を通して指示音声理解部１１に取得される（ステップＳ１０１）。指示音声理解部１１は、当該指示音声に基づいて、予め定められた複数の指示の選択肢のうちユーザがどの指示を行ったかを認識する（ステップＳ１０２）。具体的には、指示音声理解部１１は、指示音声にどの指示キーワードが含まれているのかを認識することで、ユーザが複数の選択肢からどの指示を選択したのかを認識する（ステップＳ１０２）。

次に、メッセージ出力部１２は、音声出力装置２を用いて、ステップＳ１０２での認識結果をユーザに提示すると共に、ユーザに対し、その認識結果を承認するか訂正するかを確認する確認メッセージを出力する（ステップＳ１０３）。

ユーザが、確認メッセージへの応答としての応答音声を発すると、その応答音声は音声入力装置１を通して応答音声理解部１３に取得される（ステップＳ１０４）。応答音声理解部１３は、応答音声を取得すると、その応答音声が承認発話か訂正発話かを認識するための応答音声認識処理を行う（ステップＳ１０５）。

図５に示すように、応答音声認識処理では、応答音声理解部１３が、まず応答音声に肯定キーワードが含まれているか否かを確認する（ステップＳ２０１）。応答音声に肯定キーワードが含まれていれば（ステップＳ２０１でＹＥＳ）、応答音声理解部１３は、応答音声を承認発話として認識する（ステップＳ２０２）。

応答音声に肯定キーワードが含まれていない場合（ステップＳ２０１でＮＯ）、応答音声理解部１３は、応答音声に否定キーワードが含まれているか否かを確認する（ステップＳ２０３）。応答音声に否定キーワードが含まれていれば（ステップＳ２０３でＹＥＳ）、応答音声理解部１３は、応答音声を訂正発話として認識する（ステップＳ２０４）。

応答音声に肯定キーワードも否定キーワードも含まれていない場合（ステップＳ２０３でＮＯ）、さらに応答音声理解部１３は、応答音声に、指示発話の現在の認識結果とは異なる指示を示す指示キーワードが含まれているか否かを確認する（ステップＳ２０５）。そのような指示キーワードが応答音声に含まれていた場合も（ステップＳ２０５でＹＥＳ）、応答音声理解部１３は、応答音声を訂正発話として認識する（ステップＳ２０４）。

応答音声に、肯定キーワードも、否定キーワードも、指示音声理解部１１の認識結果とは異なる指示を示す指示キーワードも含まれていなかった場合（ステップＳ２０５でＮＯ）、応答音声理解部１３は、応答音声を認識不能と判断して（ステップＳ２０６）、そのまま応答音声認識処理を終了する。

図４に戻り、応答音声認識処理（ステップＳ１０５）において、応答音声理解部１３が応答音声を認識できなかった場合には（ステップＳ１０６でＮＯ）、ステップＳ１０３に戻り、メッセージ出力部１２が再度確認メッセージを出力して、ユーザが応答音声をもう一度発するように促す。

応答音声理解部１３が応答音声を認識できていれば（ステップＳ１０６でＹＥＳ）、指示音声理解部１１がその応答音声の認識結果を確認する。このとき、応答音声が承認発話と認識されていれば（ステップＳ１０７でＮＯ）、指示音声理解部１１は、ユーザの指示の認識結果を確定し（ステップＳ１０８）、それに対応するユーザの指示を処理実行装置３へ送信する（ステップＳ１０９）。その結果、処理実行装置３は、ユーザの指示に従った動作を行うことになる。

一方、応答音声が訂正発話と認識されていれば（ステップＳ１０７でＹＥＳ）、指示音声理解部１１は、応答音声に、指示発話の現在の認識結果とは異なる指示を示す指示キーワードが含まれていたか否かを確認する（ステップＳ１１０）。応答音声にそのような指示キーワードが含まれていなければ（ステップＳ１１０でＮＯ）、ステップＳ１０１へ戻り、ユーザから認識結果を訂正するための新たな指示音声を取得する。応答音声に指示キーワードが含まれていれば（ステップＳ１１０でＹＥＳ）、その応答音声からユーザの新たな指示を認識することができるため、当該応答音声を新たな指示音声とみなして（ステップＳ１１１）、ステップＳ１０２へ戻る。

以上のように、実施の形態１に係る音声認識装置１０では、応答音声に否定キーワードが含まれている場合だけでなく、指示音声理解部１１の認識結果とは異なる指示を示す指示キーワードが応答音声に含まれている場合にも、応答音声を訂正発話と認識される。これにより、ユーザは自然な対話によって、音声認識装置１０に対し、指示音声の認識結果の訂正を指示することができるようになる。

実施の形態１に係る音声認識装置で可能になるユーザとの対話の例を図６に示す。図６は、処理実行装置３がマルチメディアシステムであり、指示キーワードとして少なくとも「ラジオを再生」と「音楽を再生」が定められている場合の例である。

図６のように、ユーザがラジオの再生を指示するために「ラジオを再生して」という指示音声を発したにもかかわらず、音声認識装置１０がそれを音楽の再生指示と誤認識すると、音声認識装置１０は、「音楽を再生します。よろしいですか？」という確認メッセージを出力する。

このときユーザが、「ラジオを再生して欲しいんだけど・・・」という指示キーワードを含む応答音声を発すれば、音声認識装置１０はそれを訂正発話と認識する。またこの場合、指示キーワードを含む応答音声は新たな指示音声とみなされる。よって、音声認識装置１０は、自動的にユーザの指示の認識結果をラジオの再生に訂正することができる。また、音声認識装置１０は、即座に「ラジオを再生します。よろしいですか？」と、訂正後の認識結果の確認メッセージを出力することができる。

なお、ユーザは、確認メッセージに対し、「いいえ」などの否定キーワードを含む応答音声を発してもよいが、その場合は、あらためて新たな指示音声を発する必要がある。つまり、本実施の形態では、否定キーワードを省略しても、音声認識装置１０が対話の流れから訂正発話を認識するため、認識結果の訂正に掛かる時間を短縮できる。また、ユーザと音声認識装置１０とのより自然な対話が可能になり、ユーザの負担が軽減されるという効果も得られる。

＜実施の形態２＞
実施の形態２の音声認識システムの構成は図１と同様である。ただし、音声認識装置１０の応答音声理解部１３の動作が、実施の形態１とは異なる。すなわち、実施の形態２の応答音声理解部１３は、否定の意思を表す否定キーワードが応答音声に含まれている場合だけでなく、落胆の感情を表すキーワードである落胆キーワードが応答音声に含まれていた場合にも、応答音声を訂正発話と認識するように動作する。落胆キーワードの例としては、「なんでそうなるの？」、「なんで××にならないの？」、「えー？」、「はぁ？」、「ガーン」などがある。

実施の形態２の音声認識装置１０の動作は図４と同様である。ただし、図４のステップＳ１０５においては、図７に示す応答音声認識処理が行われる。

図７に示すように、実施の形態２の応答音声認識処理では、応答音声理解部１３は、まず応答音声に肯定キーワードが含まれているか否かを確認する（ステップＳ３０１）。応答音声に肯定キーワードが含まれていれば（ステップＳ３０１でＹＥＳ）、応答音声理解部１３は、その応答音声を承認発話として認識する（ステップＳ３０２）。

応答音声に肯定キーワードが含まれていない場合（ステップＳ３０１でＮＯ）、応答音声理解部１３は、応答音声に否定キーワードが含まれているか否かを確認する（ステップＳ３０３）。応答音声に否定キーワードが含まれていれば（ステップＳ３０３でＹＥＳ）、応答音声理解部１３は、応答音声を訂正発話として認識する（ステップＳ３０４）。

応答音声に肯定キーワードも否定キーワードも含まれていない場合（ステップＳ３０３でＮＯ）、さらに応答音声理解部１３は、応答音声に、落胆キーワードが含まれているか否かを確認する（ステップＳ３０５）。落胆キーワードが応答音声に含まれていた場合も（ステップＳ３０５でＹＥＳ）、応答音声理解部１３は、応答音声を訂正発話として認識する（ステップＳ３０４）。

応答音声に、肯定キーワードも、否定キーワードも、落胆キーワードも含まれていなかった場合には（ステップＳ３０５でＮＯ）、応答音声理解部１３は、応答音声を認識不能と判断して（ステップＳ３０６）、そのまま応答音声認識処理を終了する。

以上のように、実施の形態２に係る音声認識装置１０では、応答音声に否定キーワードが含まれている場合だけでなく、落胆キーワードが含まれている場合にも、応答音声を訂正発話と認識される。これにより、ユーザは自然な対話によって、音声認識装置１０に対し、指示音声の認識結果の訂正を指示することができるようになる。

実施の形態２に係る音声認識装置で可能になるユーザとの対話の例を図８に示す。図８も、処理実行装置３がマルチメディアシステムであり、指示キーワードとして少なくとも「ラジオを再生」と「音楽を再生」が定められている場合の例である。

図８のように、ユーザがラジオの再生を指示するために「ラジオを再生して」という指示音声を発したにもかかわらず、音声認識装置１０が、それを音楽の再生指示と誤認識すると、音声認識装置１０は「音楽を再生します。よろしいですか？」という確認メッセージを出力する。

このときユーザが「なんでそうなるの？」という落胆キーワードを含む応答音声を発すれば、音声認識装置１０は、それを訂正発話と認識して、「すみません。もう一度指示してください。」など、ユーザに再度の指示音声を求めるメッセージを出力する。

また、応答音声が、例えば「なんで音楽を再生しないの？」など、指示音声理解部１１による現在の認識結果とは異なる指示を示す指示キーワードを含むものであった場合、音声認識装置１０はそれを新たな指示音声とみなすため、図６の例と同様に、自動的にユーザの指示の認識結果が訂正され、「音楽を再生します。よろしいですか？」と訂正後の認識結果を確認する確認メッセージが出力される。

実施の形態２においても、ユーザと音声認識装置１０とのより自然な対話が可能になり、ユーザの負担が軽減される。

＜実施の形態３＞
実施の形態３では、ユーザの訂正発話を受けて、指示音声理解部１１がユーザの指示の認識をやり直す際、前回までの認識結果を考慮に入れることで、そのやり直しを効率よく行う。

図９は、実施の形態３における指示音声理解部１１の動作を示すフローチャートである。このフローは、図４のフローのステップＳ１０２において行われる。図９に示すように、実施の形態３の指示音声理解部１１は、指示音声の認識を行う際、指示の選択肢のそれぞれについて、ユーザに選択されている可能性の高さを算出する（ステップＳ４０１）。この可能性の高さは「信頼度」と呼ばれる。ステップＳ４０１の結果、指示の選択肢の各々に信頼度が付与されることになる。各指示の信頼度は、例えば、指示音声から得られた文字列と、各指示に対応する指示キーワードとの類似度の高さとして算出することができる。指示音声理解部１１は、最も信頼度の高い指示を、暫定的にユーザの指示として認識する（ステップＳ４０２）。

指示音声理解部１１は、今回の指示音声の認識処理が１回目である（やり直しではない）場合には（ステップＳ４０３でＹＥＳ）、ステップＳ４０２で認識した指示を、認識結果として確定させる（ステップＳ４０４）。

一方、今回の指示音声の認識処理が２回目以降（やり直し）である場合には（ステップＳ４０３でＮＯ）、今回認識された指示が前回までの認識結果に含まれているか否かを確認する（ステップＳ４０５）。今回認識された指示が、前回までの認識結果に含まれていない、つまり初めて認識されたものである場合には（ステップＳ４０５でＮＯ）、ステップＳ４０２で認識した指示を、認識結果として確定させる（ステップＳ４０４）。

今回認識された指示が、前回までの認識結果に含まれている、つまり前回までの認識処理で今回と同じ認識結果が得られていた場合には（ステップＳ４０５でＹＥＳ）、前回までの認識結果とは異なる指示のうち信頼度の最も高い指示を認識結果として確定させる（ステップＳ４０６）。

このように、実施の形態３の指示音声理解部１１は、ユーザの指示の認識をやり直す際、前回までの認識結果となった指示を、新たな認識結果とする指示の候補から除外する。ユーザの指示の認識がやり直されている場合、前回までの認識結果は正しくないことは明らかであるため、前回までの認識結果となった指示を除外することで、そのやり直しは効率よく行われることになる。

＜実施の形態４＞
実施の形態４では、メッセージ出力部１２が出力する確認メッセージを変化させる技術を提案する。

例えば、指示音声の認識がなかなかうまくいかず、ユーザの指示の認識が繰り返し行われると、ユーザがそれをストレスに感じる。そのストレスを緩和するために、メッセージ出力部１２は、ユーザの指示の認識をやり直した回数に応じて、確認メッセージを変更するとよい。例えば、通常の確認メッセージを「○○を実行します。よろしいですか？」とし、ユーザの指示の認識をやり直した回数が増えるにつれて、「○○でよろしかったでしょうか？」、「すみません、○○で合っているでしょうか？」などと謙った言葉遣いに変化させるとよい。

また、図１０に示すように、音声認識装置１０に、ユーザの応答音声の口調や韻律などからユーザの感情を推定する感情推定部１４を設け、ユーザの感情が高ぶっていると推定された場合に、確認メッセージを謙った言葉遣いに変化させてもよい。

＜実施の形態５＞
図１１は、実施の形態５に係る音声認識システムの機能ブロック図である。図１１のように、当該音声認識システムは、音声認識装置２０と、それに接続された音声入力装置１、音声出力装置２および処理実行装置５とを含んでいる。音声入力装置１および音声出力装置２については、図１に示したものと同様であるため、ここでの説明は省略する。

処理実行装置５は、音声認識装置２０がユーザからの指示に従って制御する対象となる装置である。処理実行装置５は、ユーザが設定した設定値を用いた特定の処理を実行するものであり、ユーザは、音声認識装置２０に対する音声指示によって、処理実行装置５が特定の処理に用いる設定値（以下、単に「設定値」という）を設定することができる。処理実行装置５は、例えば、ナビゲーション装置、マルチメディアシステムなど、任意の装置でよい。

また、処理実行装置５は、特定の処理を実行不可能な場合に、その旨の通知（以下「実行不可能通知」という）を音声認識装置２０へ送信する機能を有している。例えば、処理実行装置５がナビゲーション装置であり、特定の処理が目的地までの経路案内であると仮定すると、目的地まで到達できる経路が見つからなかったときなどが、特定の処理を実行不可能な場合に該当する。

図１１では、音声入力装置１、音声出力装置２および処理実行装置５が音声認識装置２０に接続された構成としたが、これらは一体的に構成されていてもよい。

音声認識装置２０は、ユーザが音声で指示した設定値を用いる特定の処理を処理実行装置５に実行させる。図１１のように、音声認識装置２０は、指示音声理解部２１、メッセージ出力部２２および応答音声理解部２３を備えている。

指示音声理解部２１は、ユーザが発した指示音声を解析することで、ユーザが指示した設定値を認識し、その認識結果を設定値として設定する。本実施の形態では、ユーザは設定値の候補として予め定められた複数の選択肢のうちから１つを選択するものとする。つまり、指示音声理解部２１は、予め定められた複数の設定値の選択肢のうちユーザがどの設定値を指示したかを判断する。

より具体的には、設定値の選択肢のそれぞれを表すキーワードである設定可能キーワードが予め設定されており、指示音声理解部２１は、ユーザの指示音声に、どの設定可能キーワードが含まれているのかを認識することによって、ユーザが指示した設定値を判断する。例えば、処理実行装置５がナビゲーション装置であり、特定の処理が目的地までの経路案内である場合、設定値は目的地の名称となる。この場合、地名や施設名に該当する名称の全てが設定可能キーワードとなる。

また、指示音声理解部２１は、設定した設定値を処理実行装置５へ送信する。処理実行装置５は、指示音声理解部２１から設定値を受信すると、それを用いた特定の処理を行う。

メッセージ出力部２２は、処理実行装置５が指示音声理解部２１により設定された設定値を用いる特定の処理を実行不可能な場合（すなわち、処理実行装置５から実行不可能通知を受信した場合）に、音声出力装置２を用いて、その旨をユーザに警告するメッセージ（以下「警告メッセージ」という）を出力する。また、メッセージ出力部２２は、実施の形態１のメッセージ出力部１２と同様に、指示音声理解部２１による認識結果をユーザが承認するか訂正するか確認するための確認メッセージを出力することもできる。

応答音声理解部２３は、音声出力装置２から出力された確認メッセージまた警告メッセージの後にユーザが発した音声（以下「応答音声」という）を認識する。具体的には、応答音声理解部２３は、確認メッセージの後の応答音声については、その応答音声が承認発話か訂正発話かを認識する。例えば、確認メッセージに対する応答音声に肯定キーワードが含まれていればその応答音声を承認発話と認識し、確認メッセージに対する応答音声に否定キーワードが含まれていればその応答音声を承認発話と認識する。あるいは、実施の形態１〜４で説明したいずれかの方法で、応答音声が承認発話か訂正発話かを判断してもよい。

一方、警告メッセージはユーザの意図を確認する目的のものではないため、警告メッセージの後の応答音声が承認発話となることはない。そのため、応答音声理解部２３は、警告メッセージの後の応答音声については、その応答音声が設定値の訂正を意図する訂正発話であるか否かのみを認識する。具体的には、応答音声理解部２３は、警告メッセージの後の応答音声に、現在の設定値とは異なる設定可能キーワードが含まれていれば、その応答音声を訂正発話と認識する。

応答音声理解部２３によって警告メッセージの後の応答音声が訂正発話と認識された場合、指示音声理解部１１は、設定値を、その応答音声に含まれていた設定可能キーワードに変更する。その結果、処理実行装置５によって、変更後の設定値を用いる特定の処理が実行されることになる。

なお、指示音声理解部２１、メッセージ出力部２２および応答音声理解部２３が行う各処理は、必ずしも音声認識装置２０の内部で行われなくてもよく、例えば、それらの処理の一部または全部が音声認識装置２０との通信を行う外部のサーバ上で行われてもよい。

実施の形態５の音声認識装置２０も、先に示した図２または図３のようなハードウェア構成により実現される。音声認識装置２０が図２のハードウェア構成によって実現される場合、処理回路５０は、ユーザが発した指示音声に基づいて、予め定められた複数の設定値の選択肢のうちユーザがどの設定値を指示したかを認識し、その認識結果を設定値として設定する指示音声理解部２１と、指示音声理解部２１により設定された設定値を用いる特定の処理を処理実行装置５が実行不可能な場合に、その旨をユーザに警告する警告メッセージを出力するメッセージ出力部２２と、警告メッセージの後にユーザが発した応答音声に、設定可能キーワードのうち現在の設定値とは異なる値を示すものが含まれている場合に、応答音声を設定値の訂正を意図する訂正発話と認識する応答音声理解部２３と、を備える。ここで、応答音声理解部２３により応答音声が訂正発話と認識されると、指示音声理解部２１は、設定値を応答音声に含まれていた設定可能キーワードに変更する。

音声認識装置２０が図３のハードウェア構成によって実現される場合、音声認識装置２０は、処理回路５０により実行されるときに、ユーザが発した指示音声に基づいて、予め定められた複数の設定値の選択肢のうちユーザがどの設定値を指示したかを認識し、その認識結果を設定値として設定する処理と、設定された設定値を用いる特定の処理を処理実行装置５が実行不可能な場合に、その旨をユーザに警告する警告メッセージを出力する処理と、警告メッセージの後にユーザが発した応答音声に、設定可能キーワードのうち現在の設定値とは異なる値を示すものが含まれている場合に、応答音声を設定値の訂正を意図する訂正発話と認識する処理と、応答音声が訂正発話と認識されると、設定値を応答音声に含まれていた設定可能キーワードに変更する処理と、が結果的に実行されることになるプログラムを格納するためのメモリ５２を備える。

図１２は、実施の形態５に係る音声認識装置２０の動作を示すフローチャートである。また、図１３は、図１２のステップＳ５０８で行われる処理（応答音声認識処理）を示すフローチャートである。以下、これらの図を参照して、音声認識装置２０の動作を説明する。

音声認識装置２０が起動して、ユーザが処理実行装置５に設定する設定値を指示する指示音声を発すると、その指示音声は音声入力装置１を通して指示音声理解部２１に取得される（ステップＳ５０１）。指示音声理解部２１は、当該指示音声に基づいて、予め定められた複数の設定値の選択肢のうちユーザがどの設定値を指示したかを認識する（ステップＳ５０２）。

このとき、メッセージ出力部２２が確認メッセージを出力し、応答音声理解部２３が、確認メッセージに対するユーザの応答音声が承認発話か訂正発話かを認識することで、ユーザが設定値の認識結果を承認したか否かを確認する（ステップＳ５０３）。ユーザが設定値の認識結果を承諾しなければ（ステップＳ５０３でＮＯ）、ステップＳ５０１へ戻る。なお、ステップＳ５０２の処理は、任意の方法（例えば、実施の形態１〜４で説明したいずれかの方法）で行われればよいため、ここでの詳細な説明は省略する。

ユーザが設定値の認識結果を承諾すれば（ステップＳ５０３でＹＥＳ）、指示音声理解部２１が、ステップＳ５０２で認識された設定値を確定し、その設定値を処理実行装置５へ送信する（ステップＳ５０４）。

指示音声理解部２１が処理実行装置５へ設定値を送信すると、処理実行装置５はその設定値を用いる特定の処理を実行する。ただし、処理実行装置５は、当該特定の処理を実行不可能な場合には、音声認識装置２０へ実行不可能通知を送信する。

メッセージ出力部２２は、処理実行装置５から実行不可能通知が送信されたかどうかを監視することで、処理実行装置５が特定の処理を実行可能か否かを確認する（ステップＳ５０５）。処理実行装置５が特定の処理を実行可能であれば（ステップＳ５０５でＹＥＳ）、図１２のフローは終了する。

処理実行装置５が特定の処理を実行不可能であれば（ステップＳ５０５でＮＯ）、メッセージ出力部２２は、音声出力装置２を用いて、その旨を示す警告メッセージを出力する（ステップＳ５０６）。

警告メッセージの後の一定期間にユーザが応答音声を発しなかった場合、つまり応答音声が応答音声理解部２３に取得されなかった場合（ステップＳ５０７でＮＯ）、図１２のフローは終了する。

一方、警告メッセージの後の一定期間にユーザが応答音声を発し、その応答音声が音声入力装置１を通して応答音声理解部２３に取得された場合は（ステップＳ５０７でＹＥＳ）、応答音声理解部２３が、当該応答音声が訂正発話か否かを認識するための応答音声認識処理を行う（ステップＳ５０８）。

図１３に示すように、応答音声認識処理では、応答音声理解部２３は、応答音声に現在の設定値とは異なる設定可能キーワードが含まれているか否かを確認する（ステップＳ６０１）。応答音声にそのような設定可能キーワードが含まれていれば（ステップＳ６０１でＹＥＳ）、応答音声理解部２３は、応答音声を訂正発話として認識する（ステップＳ６０２）。応答音声に現在の設定値とは異なる設定可能キーワードが含まれていない場合には（ステップＳ６０１でＮＯ）、応答音声理解部２３は、応答音声を訂正発話ではないと認識する（ステップＳ６０３）。

図１２に戻り、応答音声認識処理（ステップＳ５０８）の結果、応答音声が訂正発話でないと認識されたときは（ステップＳ５０９でＮＯ）、図１２のフローを終了する。

しかし、応答音声が訂正発話であると認識されたときは（ステップＳ５０９でＹＥＳ）、指示音声理解部２１が、その応答音声に含まれている設定可能キーワード（すなわち、現在の設定値とは異なる設定可能キーワード）に、設定値を変更する（ステップＳ５１０）。そして、ステップＳ５０３へ戻り、ユーザに設定値の認識結果（ここでは変更後の設定値）を承諾するか否かの確認が行われ、承諾されれば変更後の設定値が処理実行装置５へ送信されることになる。

以上のように、実施の形態５に係る音声認識装置２０では、警告メッセージの後の応答音声に設定可能キーワードが含まれていれば、その応答音声を訂正発話と認識し、自動的に設定値の変更を行う。これにより、ユーザは自然な対話によって、音声認識装置２０に設定値の訂正を指示することができるようになる。

実施の形態５に係る音声認識装置で可能になるユーザとの対話の例を図１４に示す。図１４は、処理実行装置５がナビゲーション装置であり、特定の処理が目的地までの経路案内であり、ユーザが指示する設定値が目的地の名称である場合の例である。

図１４のように、ユーザが「ＸＸに行きたい」という指示音声を発し、音声認識装置２０がそれを正しく認識すると、「ＸＸを目的地に設定します。よろしいですか？」という確認メッセージが出力される。このときユーザが「はい」という応答音声を発すると、音声認識装置１０は認識結果が承認されたと判断して、「ＸＸ」という目的地の設定値を処理実行装置５へ送信する。

しかし、処理実行装置５が目的地「ＸＸ」までの経路探索を行った結果、通行止めのため「ＸＸ」までの経路が見つからなければ、経路案内を不可能と判断され、実行不可能通知が音声認識装置１０へと送信される。その場合、図１４のように、音声認識装置２０は「通行止めのため、現在ＸＸには行けません」という警告メッセージを出力する。

この警告メッセージの後に、ユーザが「ではＹＹに行こうかな」と地名を含む応答音声を発すれば、音声認識装置２０はそれを訂正発話と認識し、目的地の設定値が自動的に「ＹＹ」に変更される。その結果、音声認識装置２０からは「ＹＹを目的地に設定します。よろしいですか？」という確認メッセージが出力される。

このように、本実施の形態では、警告メッセージの後に、ユーザが設定可能キーワードを含む応答発話を行えば、自動的に設定値の変更が行われるため、設定値の変更に掛かる時間を短縮できる。また、ユーザと音声認識装置２０とのより自然な対話が可能になり、ユーザの負担が軽減されるという効果も得られる。

なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略することが可能である。

１音声入力装置、２音声出力装置、３処理実行装置、５処理実行装置、１０，２０音声認識装置、１１，２１指示音声理解部、１２，２２メッセージ出力部、１３，２３応答音声理解部、１４感情推定部、２０音声認識装置、２１指示音声理解部、２２メッセージ出力部、２３応答音声理解部、２４感情推定部、５０処理回路、５１プロセッサ、５２メモリ。

Claims

ユーザが音声で指示した内容を認識する音声認識装置であって、
前記ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうち前記ユーザがどの指示を行ったかを認識する指示音声理解部と、
前記ユーザに前記指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力するメッセージ出力部と、
前記確認メッセージに対する応答として前記ユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識する応答音声理解部と、
を備え、
前記応答音声理解部により前記応答音声が前記承認発話と認識されると、前記指示音声理解部は、認識結果を確定し、
前記応答音声理解部により前記応答音声が前記訂正発話と認識されると、前記指示音声理解部は、前記ユーザの指示の認識を、前記応答音声または新たな指示音声に基づいてやり直し、
前記応答音声理解部は、否定の意思を表す否定キーワードが前記応答音声に含まれている場合だけでなく、前記複数の指示の選択肢を表す指示キーワードのうち前記指示音声理解部の認識結果とは異なる指示を示すものが前記応答音声に含まれている場合にも、前記応答音声を前記訂正発話と認識する、
音声認識装置。
前記応答音声理解部は、さらに、落胆の感情を表す落胆キーワードが前記応答音声に含まれていた場合にも、前記応答音声を前記訂正発話と認識する、
請求項１に記載の音声認識装置。
前記指示音声理解部は、前記ユーザの指示の認識をやり直す際、前回までの認識結果を考慮に入れて、新たな認識結果を求める、
請求項１または請求項２に記載の音声認識装置。
前記指示音声理解部は、前記ユーザの指示の認識をやり直す際、前回までの認識結果となった指示を、新たな認識結果とする指示の候補から除外する、
請求項３に記載の音声認識装置。
前記指示音声理解部は、前記ユーザの指示を認識する際、前記複数の指示の選択肢のそれぞれが前記ユーザにより選択されている可能性の高さである信頼度を算出し、前記ユーザの指示の認識をやり直した結果が前回までの認識結果に含まれている場合には、前回までの認識結果に含まれていない指示のうちから前記信頼度の最も高いものを新たな認識結果とする、
請求項３に記載の音声認識装置。
ユーザが音声で指示した内容を認識する音声認識装置であって、
前記ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうち前記ユーザがどの指示を行ったかを認識する指示音声理解部と、
前記ユーザに前記指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力するメッセージ出力部と、
前記確認メッセージに対する応答として前記ユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識する応答音声理解部と、
を備え、
前記応答音声理解部により前記応答音声が前記承認発話と認識されると、前記指示音声理解部は、認識結果を確定し、
前記応答音声理解部により前記応答音声が前記訂正発話と認識されると、前記指示音声理解部は、前記ユーザの指示の認識を、前記応答音声または新たな指示音声に基づいてやり直し、
前記応答音声理解部は、否定の意思を表す否定キーワードが前記応答音声に含まれている場合だけでなく、落胆の感情を表す落胆キーワードが前記応答音声に含まれていた場合にも、前記応答音声を前記訂正発話と認識する、
音声認識装置。
前記指示音声理解部は、前記ユーザの指示の認識をやり直す際、前回までの認識結果を考慮に入れて、新たな認識結果を求める、
請求項６に記載の音声認識装置。
前記指示音声理解部は、前記ユーザの指示の認識をやり直す際、前回までの認識結果となった指示を、新たな認識結果とする指示の候補から除外する、
請求項７に記載の音声認識装置。
前記指示音声理解部は、前記ユーザの指示を認識する際、前記複数の指示の選択肢のそれぞれが前記ユーザにより選択されている可能性の高さである信頼度を算出し、前記ユーザの指示の認識をやり直した結果が前回までの認識結果に含まれている場合には、前回までの認識結果に含まれていない指示のうちから前記信頼度の最も高いものを新たな認識結果とする、
請求項７に記載の音声認識装置。
ユーザが音声で指示した内容を認識する音声認識装置であって、
前記ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうち前記ユーザがどの指示を行ったかを認識する指示音声理解部と、
前記ユーザに前記指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力するメッセージ出力部と、
前記確認メッセージに対する応答として前記ユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識する応答音声理解部と、
を備え、
前記応答音声理解部により前記応答音声が前記承認発話と認識されると、前記指示音声理解部は、認識結果を確定し、
前記応答音声理解部により前記応答音声が前記訂正発話と認識されると、前記指示音声理解部は、前記ユーザの指示の認識を、前記応答音声または新たな指示音声に基づいてやり直し、
前記指示音声理解部は、前記ユーザの指示の認識をやり直す際、前回までの認識結果を考慮に入れて、新たな認識結果を求める、
音声認識装置。
前記指示音声理解部は、前記ユーザの指示の認識をやり直す際、前回までの認識結果となった指示を、新たな認識結果とする指示の候補から除外する、
請求項１０に記載の音声認識装置。
前記指示音声理解部は、前記ユーザの指示を認識する際、前記複数の指示の選択肢のそれぞれが前記ユーザにより選択されている可能性の高さである信頼度を算出し、前記ユーザの指示の認識をやり直した結果が前回までの認識結果に含まれている場合には、前回までの認識結果に含まれていない指示のうちから前記信頼度の最も高いものを新たな認識結果とする、
請求項１０に記載の音声認識装置。
前記メッセージ出力部は、前記ユーザの指示の認識をやり直した回数に応じて、前記確認メッセージを変更する、
請求項１から請求項１２のいずれか一項に記載の音声認識装置。
前記応答音声から前記ユーザの感情を推定する感情推定部をさらに備え、
前記メッセージ出力部は、前記感情推定部により前記ユーザの感情が高ぶっていることが推定されると、前記確認メッセージを変更する、
請求項１から請求項１３のいずれか一項に記載の音声認識装置。
ユーザが音声で指示した設定値を用いる特定の処理を処理実行装置に実行させる音声認識装置であって、
前記ユーザが発した指示音声に基づいて、予め定められた複数の設定値の選択肢のうち前記ユーザがどの設定値を指示したかを認識し、その認識結果を前記設定値として設定する指示音声理解部と、
前記指示音声理解部により設定された前記設定値を用いる前記特定の処理を前記処理実行装置が実行不可能な場合に、その旨を前記ユーザに警告する警告メッセージを出力するメッセージ出力部と、
前記警告メッセージの後に前記ユーザが発した応答音声に、前記複数の設定値の選択肢を示す設定可能キーワードのうち現在の設定値とは異なる値を示すものが含まれている場合に、前記応答音声を前記設定値の訂正を意図する訂正発話と認識する応答音声理解部と、
を備え、
前記応答音声理解部により前記応答音声が前記訂正発話と認識されると、前記指示音声理解部は、前記設定値を前記応答音声に含まれていた前記設定可能キーワードに変更する
音声認識装置。
ユーザが音声で指示した内容を認識する音声認識装置における音声認識方法であって、
前記音声認識装置の指示音声理解部が、前記ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうち前記ユーザがどの指示を行ったかを認識し、
前記音声認識装置のメッセージ出力部が、前記ユーザに前記指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力し、
前記音声認識装置の応答音声理解部が、前記確認メッセージに対する応答として前記ユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識し、
前記応答音声理解部により前記応答音声が前記承認発話と認識されると、前記指示音声理解部は、認識結果を確定し、
前記応答音声理解部により前記応答音声が前記訂正発話と認識されると、前記指示音声理解部は、前記ユーザの指示の認識を、前記応答音声または新たな指示音声に基づいてやり直し、
前記応答音声理解部は、否定の意思を表す否定キーワードが前記応答音声に含まれている場合だけでなく、前記複数の指示の選択肢を表す指示キーワードのうち前記指示音声理解部の認識結果とは異なる指示を示すものが前記応答音声に含まれている場合にも、前記応答音声を前記訂正発話と認識する、
音声認識方法。
ユーザが音声で指示した内容を認識する音声認識装置における音声認識方法であって、
前記音声認識装置の指示音声理解部が、前記ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうち前記ユーザがどの指示を行ったかを認識し、
前記音声認識装置のメッセージ出力部が、前記ユーザに前記指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力し、
前記音声認識装置の応答音声理解部が、前記確認メッセージに対する応答として前記ユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識し、
前記応答音声理解部により前記応答音声が前記承認発話と認識されると、前記指示音声理解部は、認識結果を確定し、
前記応答音声理解部により前記応答音声が前記訂正発話と認識されると、前記指示音声理解部は、前記ユーザの指示の認識を、前記応答音声または新たな指示音声に基づいてやり直し、
前記応答音声理解部は、否定の意思を表す否定キーワードが前記応答音声に含まれている場合だけでなく、落胆の感情を表す落胆キーワードが前記応答音声に含まれていた場合にも、前記応答音声を前記訂正発話と認識する、
音声認識方法。
ユーザが音声で指示した内容を認識する音声認識装置における音声認識方法であって、
前記音声認識装置の指示音声理解部が、前記ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうち前記ユーザがどの指示を行ったかを認識し、
前記音声認識装置のメッセージ出力部が、前記ユーザに前記指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力し、
前記音声認識装置の応答音声理解部が、前記確認メッセージに対する応答として前記ユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識し、
前記応答音声理解部により前記応答音声が前記承認発話と認識されると、前記指示音声理解部は、認識結果を確定し、
前記応答音声理解部により前記応答音声が前記訂正発話と認識されると、前記指示音声理解部は、前記ユーザの指示の認識を、前記応答音声または新たな指示音声に基づいてやり直し、
前記指示音声理解部は、前記ユーザの指示の認識をやり直す際、前回までの認識結果を考慮に入れて、新たな認識結果を求める、
音声認識方法。
ユーザが音声で指示した設定値を用いる特定の処理を処理実行装置に実行させる音声認識装置における音声認識方法であって、
前記音声認識装置の指示音声理解部が、前記ユーザが発した指示音声に基づいて、予め定められた複数の設定値の選択肢のうち前記ユーザがどの設定値を指示したかを認識し、その認識結果を前記設定値として設定し、
前記指示音声理解部により設定された前記設定値を用いる前記特定の処理を前記処理実行装置が実行不可能な場合に、その旨を前記ユーザに警告する警告メッセージを、前記音声認識装置のメッセージ出力部が出力し、
前記警告メッセージの後に前記ユーザが発した応答音声に、前記複数の設定値の選択肢を示す設定可能キーワードのうち現在の設定値とは異なる値を示すものが含まれている場合に、前記音声認識装置の応答音声理解部が、前記応答音声を前記設定値の訂正を意図する訂正発話と認識し、
前記応答音声理解部により前記応答音声が前記訂正発話と認識されると、前記指示音声理解部が、前記設定値を前記応答音声に含まれていた前記設定可能キーワードに変更する
音声認識方法。