JP2018097029A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP2018097029A
JP2018097029A JP2016238595A JP2016238595A JP2018097029A JP 2018097029 A JP2018097029 A JP 2018097029A JP 2016238595 A JP2016238595 A JP 2016238595A JP 2016238595 A JP2016238595 A JP 2016238595A JP 2018097029 A JP2018097029 A JP 2018097029A
Authority
JP
Japan
Prior art keywords
voice
instruction
response
user
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016238595A
Other languages
English (en)
Inventor
悠人 出木浦
Yuto Dekiura
悠人 出木浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2016238595A priority Critical patent/JP2018097029A/ja
Publication of JP2018097029A publication Critical patent/JP2018097029A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ユーザとの自然な対話によって音声の認識結果を訂正することが可能な音声認識装置を提供する。【解決手段】音声認識装置10は、指示音声の認識結果を承認するか訂正するかを確認する確認メッセージに対するユーザの応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識する応答音声理解部13を備える。応答音声理解部13は、否定の意思を表す否定キーワードが応答音声に含まれている場合だけでなく、複数の指示の選択肢を表す指示キーワードのうち指示音声理解部11の認識結果とは異なる指示を示すものが応答音声に含まれている場合にも、応答音声を訂正発話と認識する。【選択図】図1

Description

本発明は、音声認識装置および音声認識方法に関し、特に、ユーザが音声で指示した内容を訂正するための技術に関する。
カーナビゲーション装置やカーマルチメディアシステムなどの車載装置の分野では、ユーザの音声指示による操作を可能にする音声認識装置の導入が進んでいる。多くの音声認識装置は、ユーザが発した音声からユーザの指示を認識した際、その認識結果に基づき決定した実行機能が正しいかどうかユーザに確認することで、誤動作を防止している。指示の認識結果に基づき決定した実行機能が誤っていた場合、ユーザは再度の音声指示を行うことで認識結果を訂正することができる。
下記の特許文献1〜3には、ユーザと音声認識装置との対話効率を高めるための技術が提案されている。例えば特許文献1には、音声認識装置が音声の認識結果を読み上げている途中でユーザが新たな音声を入力すると、新たな音声を認識結果の訂正を求める訂正発話として認識する技術が開示されている。特許文献2には、ユーザが適切な音声指示をすることができなかった場合に、環境情報(例えば渋滞情報、路面の状態、運転者の発汗状況など)からユーザの意図を推定し、その推定結果が正しいかどうかユーザに問いかけることでユーザの発話を促す技術が開示されている。特許文献3には、ユーザの音声の韻律やユーザの生理情報(例えば脈拍や血圧など)からユーザの感情を推定することで、ユーザが発した音声の意味を推定する技術が開示されている。
特許第3892302号公報 特開2006−317573号公報 特開2006−313287号公報
ユーザと音声認識装置との間で自然な対話を可能にすることは、ユーザの負担軽減の観点から重要な課題である。それを実現するためには、音声認識装置がユーザの意図を推定して適切な応答を行うことを可能にする技術が求められる。
特許文献1の技術では、ユーザの音声が訂正発話かどうかを音声が入力されたタイミングで判断しており、ユーザが発した音声の内容からその意図を推定するものではない。また特許文献2,3の技術では、環境情報や生理情報などを利用してユーザの意図を推定するため、それらの情報の取得手段が必要となりシステムが大規模化してしまう。
本発明は以上のような課題を解決するためになされたものであり、ユーザとの自然な対話によって音声の認識結果を訂正することが可能な音声認識装置を提供することを目的とする。
本発明の第1の態様に係る音声認識装置は、ユーザが音声で指示した内容を認識する音声認識装置であって、ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうちユーザがどの指示を行ったかを認識する指示音声理解部と、ユーザに指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力するメッセージ出力部と、確認メッセージに対する応答としてユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識する応答音声理解部と、を備え、応答音声理解部により応答音声が承認発話と認識されると、指示音声理解部は、認識結果を確定し、応答音声理解部により応答音声が訂正発話と認識されると、指示音声理解部は、ユーザの指示の認識を、応答音声または新たな指示音声に基づいてやり直し、応答音声理解部は、否定の意思を表す否定キーワードが応答音声に含まれている場合だけでなく、複数の指示の選択肢を表す指示キーワードのうち指示音声理解部の認識結果とは異なる指示を示すものが応答音声に含まれている場合にも、応答音声を訂正発話と認識する。
本発明の第2の態様に係る音声認識装置は、ユーザが音声で指示した内容を認識する音声認識装置であって、ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうちユーザがどの指示を行ったかを認識する指示音声理解部と、ユーザに指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力するメッセージ出力部と、確認メッセージに対する応答としてユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識する応答音声理解部と、を備え、応答音声理解部により応答音声が承認発話と認識されると、指示音声理解部は、認識結果を確定し、応答音声理解部により応答音声が訂正発話と認識されると、指示音声理解部は、ユーザの指示の認識を、応答音声または新たな指示音声に基づいてやり直し、応答音声理解部は、否定の意思を表す否定キーワードが応答音声に含まれている場合だけでなく、落胆の感情を表す落胆キーワードが応答音声に含まれていた場合にも、応答音声を訂正発話と認識する。
本発明の第3の態様に係る音声認識装置は、ユーザが音声で指示した内容を認識する音声認識装置であって、ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうちユーザがどの指示を行ったかを認識する指示音声理解部と、ユーザに指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力するメッセージ出力部と、確認メッセージに対する応答としてユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識する応答音声理解部と、を備え、応答音声理解部により応答音声が承認発話と認識されると、指示音声理解部は、認識結果を確定し、応答音声理解部により応答音声が訂正発話と認識されると、指示音声理解部は、ユーザの指示の認識を、応答音声または新たな指示音声に基づいてやり直し、指示音声理解部は、ユーザの指示の認識をやり直す際、前回までの認識結果を考慮に入れて、新たな認識結果を求める。
本発明の第4の態様に係る音声認識装置は、ユーザが音声で指示した設定値を用いる特定の処理を処理実行装置に実行させる音声認識装置であって、ユーザが発した指示音声に基づいて、予め定められた複数の設定値の選択肢のうちユーザがどの設定値を指示したかを認識し、その認識結果を設定値として設定する指示音声理解部と、指示音声理解部により設定された設定値を用いる特定の処理を処理実行装置が実行不可能な場合に、その旨をユーザに警告する警告メッセージを出力するメッセージ出力部と、警告メッセージの後にユーザが発した応答音声に、複数の設定値の選択肢を示す設定可能キーワードのうち現在の設定値とは異なる値を示すものが含まれている場合に、応答音声を設定値の訂正を意図する訂正発話と認識する応答音声理解部と、を備え、応答音声理解部により応答音声が訂正発話と認識されると、指示音声理解部は、設定値を応答音声に含まれていた設定可能キーワードに変更する。
本発明によれば、音声認識装置が、ユーザとの対話の流れからユーザの音声が訂正発話かどうかを判断することができる。そのため、ユーザは効率よく認識結果を訂正することが可能になる。
実施の形態1に係る音声認識システムの機能ブロック図である。 音声認識装置のハードウェア構成の例を示す図である。 音声認識装置のハードウェア構成の例を示す図である。 実施の形態1に係る音声認識装置の動作を示すフローチャートである。 実施の形態1における応答音声認識処理を示すフローチャートである。 実施の形態1に係る音声認識装置とユーザとの対話の例を示す図である。 実施の形態2における応答音声認識処理を示すフローチャートである。 実施の形態2に係る音声認識装置とユーザとの対話の例を示す図である。 実施の形態3における指示音声理解部の動作を示すフローチャートである。 実施の形態4に係る音声認識システムの機能ブロック図である。 実施の形態5に係る音声認識システムの機能ブロック図である。 実施の形態5に係る音声認識装置の動作を示すフローチャートである。 実施の形態5における応答音声認識処理を示すフローチャートである。 実施の形態5に係る音声認識装置とユーザとの対話の例を示す図である。
<実施の形態1>
図1は、実施の形態1に係る音声認識システムの機能ブロック図である。図1のように、当該音声認識システムは、音声認識装置10と、それに接続された音声入力装置1、音声出力装置2および処理実行装置3とを含んでいる。
音声入力装置1および音声出力装置2は、音声認識装置10がユーザとの音声による対話を行うための手段である。音声入力装置1は、ユーザの音声を取得する手段であり、一般的にはマイクである。音声出力装置2は、音声認識装置10がユーザに対する音声メッセージを出力する手段であり、一般的にはスピーカである。
処理実行装置3は、音声認識装置10がユーザの指示に従って制御する対象となる装置である。処理実行装置3は複数の機能を有しており、ユーザは、音声認識装置10に対する音声指示によって、処理実行装置3に実行させる機能を選択することができる。処理実行装置3は、例えば、ナビゲーション装置、マルチメディアシステムなど、任意の装置でよい。
また、図1では、音声入力装置1、音声出力装置2および処理実行装置3が音声認識装置10に接続された構成としたが、これらは一体的に構成されていてもよい。例えば、図1の音声認識システムを、携帯電話やスマートフォンなどの携帯型デバイスに適用する場合には、当該システムは一体的な構成となる。
音声認識装置10は、ユーザが音声で指示した内容を認識し、その認識結果に基づいて処理実行装置3を制御する。図1のように、音声認識装置10は、指示音声理解部11、メッセージ出力部12および応答音声理解部13を備えている。
指示音声理解部11と応答音声理解部13は、音声入力装置1が取得した音声からユーザの意図を理解するために、当該音声の認識処理を行う。そのため、指示音声理解部11および応答音声理解部13は、音声入力装置1が出力する音声信号をデジタル形式(例えばPCM形式など)の音声データに変換するA/D変換部、当該音声データを用いてユーザの音声を文字列化する音声認識部などを備えている。さらに、認識率を向上するために、音声信号に対するノイズリダクション、ビームフォーミングなどの処理を行う音声信号処理部を、指示音声理解部11および応答音声理解部13に設けてもよい。なお、これらの要素は、必ずしも指示音声理解部11および応答音声理解部13が備える必要はなく、例えば音声入力装置1側が備えていてもよい。
指示音声理解部11は、ユーザが発した指示音声を理解するための処理を行う。すなわち、指示音声理解部11は、指示音声を解析することで、ユーザの指示を認識する。本実施の形態では、ユーザは、指示の候補として予め定められた複数の選択肢のうちから1つを選択するものとする。つまり、指示音声理解部11は、ユーザの指示音声に基づいて、指示の選択肢のうちから、ユーザがどの指示を行ったかを判断する。
より具体的には、指示の選択肢のそれぞれを表すキーワードである指示キーワードが予め設定されており、指示音声理解部11は、ユーザの指示音声の認識結果としての文字列から指示キーワードを抽出し、ユーザの指示音声にどの指示キーワードが含まれているのかを認識することによって、ユーザの指示を理解する。例えば、処理実行装置3がマルチメディアシステムの場合、指示キーワードとしては、例えば「音楽を再生」、「ラジオを再生」、「テレビをつけて」などが考えられる。なお、ユーザの指示音声は口語的な表現を用いたものであってもよく、例えば指示音声に「えーと」や「あのー」などのフィラーが含まれていてもよい。
メッセージ出力部12は、音声出力装置2を制御して、ユーザに対する音声メッセージを出力する。具体的には、メッセージ出力部12は、音声出力装置2からメッセージを出力させるための音声信号を出力している。本実施の形態では、メッセージ出力部12は、ユーザに対し、指示音声理解部11による認識結果をユーザに提示すると共に、指示音声理解部11による指示の認識結果を承認するか訂正するかを確認するためのメッセージ(以下「確認メッセージ」という)を出力する。なお、確認メッセージは文字メッセージとしてもよく、その場合、メッセージ出力部12は、文字メッセージを表示する画面を持つこととなる。
応答音声理解部13は、音声出力装置2から出力された確認メッセージに対する応答としてユーザが発した音声(以下「応答音声」という)を理解するための処理を行う。すなわち、応答音声理解部13は、応答音声を解析することで、その応答音声が、認識結果の承認を意図する承認発話であるか、認識結果の訂正指示を意図する訂正発話であるかを認識する。
一般的な音声認識装置では、確認メッセージに対する応答音声に、肯定の意思を表すキーワードである肯定キーワード(「はい」、「OK」、「よいです」など)が含まれていれば、その応答音声は承認発話と認識される。また、確認メッセージに対する応答音声に、否定の意思を表すキーワードである否定キーワード(例えば「いいえ」、「違います」、「ダメです」、「そうじゃない」など)が含まれていれば、その応答音声は訂正発話と認識される。
それに対し、実施の形態1に係る音声認識装置10では、応答音声に否定キーワードが応答音声に含まれている場合だけでなく、応答音声に、複数の選択肢を表す指示キーワードのうち指示音声理解部11の認識結果とは異なる指示を示すものが含まれている場合にも、その応答音声を訂正発話として認識する。
応答音声理解部13がユーザの応答音声を承認発話と認識した場合、指示音声理解部11は、指示音声の認識結果を確定して、その認識結果であるユーザの指示を処理実行装置3へ送信する。その結果、処理実行装置3が、ユーザの指示に従った動作を行うことになる。
一方、応答音声理解部13がユーザの応答音声を訂正発話と認識した場合、指示音声理解部11は、ユーザの応答音声またはユーザが新たに発した指示音声に基づいて、ユーザの指示の認識をやり直す。
なお、指示音声理解部11、メッセージ出力部12および応答音声理解部13が行う各処理は、必ずしも音声認識装置10の内部で行われなくてもよく、例えば、それらの処理の一部または全部が音声認識装置10との通信を行う外部のサーバ上で行われてもよい。
図2および図3は、それぞれ音声認識装置10のハードウェア構成の一例を示す図である。図1に示した音声認識装置10の各要素(指示音声理解部11、メッセージ出力部12および応答音声理解部13)は、例えば図2に示す処理回路50により実現される。すなわち、処理回路50は、ユーザの指示音声に基づいて、複数の指示の選択肢のうちユーザがどの指示を行ったかを認識する指示音声理解部11と、ユーザに指示音声理解部11の認識結果を承認するか訂正するかを確認する確認メッセージを出力するメッセージ出力部12と、確認メッセージに対するユーザの応答音声が承認発話か訂正発話かを認識する応答音声理解部13と、を備える。ここで、応答音声が承認発話と認識されると、指示音声理解部11は認識結果を確定し、応答音声が訂正発話と認識されると、指示音声理解部11はユーザの指示の認識を応答音声または新たな指示音声に基づいてやり直す。また、応答音声理解部13は、否定の意思を表す否定キーワードが応答音声に含まれている場合だけでなく、複数の指示の選択肢を表す指示キーワードのうち指示音声理解部11の認識結果とは異なる指示を示すものが応答音声に含まれている場合にも、応答音声を訂正発話と認識する。処理回路50には、専用のハードウェアが適用されてもよいし、メモリに格納されるプログラムを実行するプロセッサ、中央処理装置(CPU(Central Processing Unit)、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor))が適用されてもよい。
処理回路50が専用のハードウェアである場合、処理回路50は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせたものなどが該当する。音声認識装置10の各要素の機能のそれぞれは、複数の処理回路で実現されてもよいし、それらの機能がまとめて一つの処理回路で実現されてもよい。
図3は、処理回路50がプロセッサを用いて構成されている場合における音声認識装置10のハードウェア構成を示している。この場合、音声認識装置10の各要素の機能は、ソフトウェア等(ソフトウェア、ファームウェア、またはソフトウェアとファームウェア)との組み合わせにより実現される。ソフトウェア等はプログラムとして記述され、メモリ52に格納される。処理回路50としてのプロセッサ51は、メモリ52に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、音声認識装置10は、処理回路50により実行されるときに、ユーザの指示音声に基づいて、複数の指示の選択肢のうちユーザがどの指示を行ったかを認識する処理と、ユーザにその認識結果を承認するか訂正するかを確認する確認メッセージを出力する処理と、確認メッセージに対するユーザの応答音声が承認発話か訂正発話かを認識する処理と、応答音声が承認発話と認識されると認識結果を確定する処理と、応答音声が訂正発話と認識されるとユーザの指示の認識を応答音声または新たな指示音声に基づいてやり直す処理と、が結果的に実行されることになるプログラムを格納するためのメモリ52を備える。ここで、ユーザの応答音声が承認発話か訂正発話かを認識する処理においては、否定の意思を表す否定キーワードが応答音声に含まれている場合だけでなく、複数の指示の選択肢を表す指示キーワードのうち指示音声理解部11の認識結果とは異なる指示を示すものが応答音声に含まれている場合にも、応答音声を訂正発話と認識される。換言すれば、上記のプログラムは、音声認識装置10の各要素の動作の手順や方法をコンピュータに実行させるものであるともいえる。
ここで、メモリ52は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリー、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)などの、不揮発性または揮発性の半導体メモリ、HDD(Hard Disk Drive)、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disc)およびそのドライブ装置等、または、今後使用されるあらゆる記憶媒体であってもよい。
以上、音声認識装置10の各要素の機能が、ハードウェアおよびソフトウェア等のいずれか一方で実現される構成について説明した。しかしこれに限ったものではなく、音声認識装置10の一部の要素を専用のハードウェアで実現し、別の一部の要素をソフトウェア等で実現する構成であってもよい。例えば、一部の要素については専用のハードウェアとしての処理回路50でその機能を実現し、他の一部の要素についてはプロセッサ51としての処理回路50がメモリ52に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
以上のように、音声認識装置10は、ハードウェア、ソフトウェア等、またはこれらの組み合わせによって、上述の各機能を実現することができる。
図4は、実施の形態1に係る音声認識装置10の動作を示すフローチャートである。また、図5は、図4のステップS105で行われる処理(応答音声認識処理)を示すフローチャートである。以下、これらの図を参照して、音声認識装置10の動作を説明する。
音声認識装置10が起動して、ユーザが処理実行装置3を操作するための指示音声を発すると、その指示音声は音声入力装置1を通して指示音声理解部11に取得される(ステップS101)。指示音声理解部11は、当該指示音声に基づいて、予め定められた複数の指示の選択肢のうちユーザがどの指示を行ったかを認識する(ステップS102)。具体的には、指示音声理解部11は、指示音声にどの指示キーワードが含まれているのかを認識することで、ユーザが複数の選択肢からどの指示を選択したのかを認識する(ステップS102)。
次に、メッセージ出力部12は、音声出力装置2を用いて、ステップS102での認識結果をユーザに提示すると共に、ユーザに対し、その認識結果を承認するか訂正するかを確認する確認メッセージを出力する(ステップS103)。
ユーザが、確認メッセージへの応答としての応答音声を発すると、その応答音声は音声入力装置1を通して応答音声理解部13に取得される(ステップS104)。応答音声理解部13は、応答音声を取得すると、その応答音声が承認発話か訂正発話かを認識するための応答音声認識処理を行う(ステップS105)。
図5に示すように、応答音声認識処理では、応答音声理解部13が、まず応答音声に肯定キーワードが含まれているか否かを確認する(ステップS201)。応答音声に肯定キーワードが含まれていれば(ステップS201でYES)、応答音声理解部13は、応答音声を承認発話として認識する(ステップS202)。
応答音声に肯定キーワードが含まれていない場合(ステップS201でNO)、応答音声理解部13は、応答音声に否定キーワードが含まれているか否かを確認する(ステップS203)。応答音声に否定キーワードが含まれていれば(ステップS203でYES)、応答音声理解部13は、応答音声を訂正発話として認識する(ステップS204)。
応答音声に肯定キーワードも否定キーワードも含まれていない場合(ステップS203でNO)、さらに応答音声理解部13は、応答音声に、指示発話の現在の認識結果とは異なる指示を示す指示キーワードが含まれているか否かを確認する(ステップS205)。そのような指示キーワードが応答音声に含まれていた場合も(ステップS205でYES)、応答音声理解部13は、応答音声を訂正発話として認識する(ステップS204)。
応答音声に、肯定キーワードも、否定キーワードも、指示音声理解部11の認識結果とは異なる指示を示す指示キーワードも含まれていなかった場合(ステップS205でNO)、応答音声理解部13は、応答音声を認識不能と判断して(ステップS206)、そのまま応答音声認識処理を終了する。
図4に戻り、応答音声認識処理(ステップS105)において、応答音声理解部13が応答音声を認識できなかった場合には(ステップS106でNO)、ステップS103に戻り、メッセージ出力部12が再度確認メッセージを出力して、ユーザが応答音声をもう一度発するように促す。
応答音声理解部13が応答音声を認識できていれば(ステップS106でYES)、指示音声理解部11がその応答音声の認識結果を確認する。このとき、応答音声が承認発話と認識されていれば(ステップS107でNO)、指示音声理解部11は、ユーザの指示の認識結果を確定し(ステップS108)、それに対応するユーザの指示を処理実行装置3へ送信する(ステップS109)。その結果、処理実行装置3は、ユーザの指示に従った動作を行うことになる。
一方、応答音声が訂正発話と認識されていれば(ステップS107でYES)、指示音声理解部11は、応答音声に、指示発話の現在の認識結果とは異なる指示を示す指示キーワードが含まれていたか否かを確認する(ステップS110)。応答音声にそのような指示キーワードが含まれていなければ(ステップS110でNO)、ステップS101へ戻り、ユーザから認識結果を訂正するための新たな指示音声を取得する。応答音声に指示キーワードが含まれていれば(ステップS110でYES)、その応答音声からユーザの新たな指示を認識することができるため、当該応答音声を新たな指示音声とみなして(ステップS111)、ステップS102へ戻る。
以上のように、実施の形態1に係る音声認識装置10では、応答音声に否定キーワードが含まれている場合だけでなく、指示音声理解部11の認識結果とは異なる指示を示す指示キーワードが応答音声に含まれている場合にも、応答音声を訂正発話と認識される。これにより、ユーザは自然な対話によって、音声認識装置10に対し、指示音声の認識結果の訂正を指示することができるようになる。
実施の形態1に係る音声認識装置で可能になるユーザとの対話の例を図6に示す。図6は、処理実行装置3がマルチメディアシステムであり、指示キーワードとして少なくとも「ラジオを再生」と「音楽を再生」が定められている場合の例である。
図6のように、ユーザがラジオの再生を指示するために「ラジオを再生して」という指示音声を発したにもかかわらず、音声認識装置10がそれを音楽の再生指示と誤認識すると、音声認識装置10は、「音楽を再生します。よろしいですか?」という確認メッセージを出力する。
このときユーザが、「ラジオを再生して欲しいんだけど・・・」という指示キーワードを含む応答音声を発すれば、音声認識装置10はそれを訂正発話と認識する。またこの場合、指示キーワードを含む応答音声は新たな指示音声とみなされる。よって、音声認識装置10は、自動的にユーザの指示の認識結果をラジオの再生に訂正することができる。また、音声認識装置10は、即座に「ラジオを再生します。よろしいですか?」と、訂正後の認識結果の確認メッセージを出力することができる。
なお、ユーザは、確認メッセージに対し、「いいえ」などの否定キーワードを含む応答音声を発してもよいが、その場合は、あらためて新たな指示音声を発する必要がある。つまり、本実施の形態では、否定キーワードを省略しても、音声認識装置10が対話の流れから訂正発話を認識するため、認識結果の訂正に掛かる時間を短縮できる。また、ユーザと音声認識装置10とのより自然な対話が可能になり、ユーザの負担が軽減されるという効果も得られる。
<実施の形態2>
実施の形態2の音声認識システムの構成は図1と同様である。ただし、音声認識装置10の応答音声理解部13の動作が、実施の形態1とは異なる。すなわち、実施の形態2の応答音声理解部13は、否定の意思を表す否定キーワードが応答音声に含まれている場合だけでなく、落胆の感情を表すキーワードである落胆キーワードが応答音声に含まれていた場合にも、応答音声を訂正発話と認識するように動作する。落胆キーワードの例としては、「なんでそうなるの?」、「なんで××にならないの?」、「えー?」、「はぁ?」、「ガーン」などがある。
実施の形態2の音声認識装置10の動作は図4と同様である。ただし、図4のステップS105においては、図7に示す応答音声認識処理が行われる。
図7に示すように、実施の形態2の応答音声認識処理では、応答音声理解部13は、まず応答音声に肯定キーワードが含まれているか否かを確認する(ステップS301)。応答音声に肯定キーワードが含まれていれば(ステップS301でYES)、応答音声理解部13は、その応答音声を承認発話として認識する(ステップS302)。
応答音声に肯定キーワードが含まれていない場合(ステップS301でNO)、応答音声理解部13は、応答音声に否定キーワードが含まれているか否かを確認する(ステップS303)。応答音声に否定キーワードが含まれていれば(ステップS303でYES)、応答音声理解部13は、応答音声を訂正発話として認識する(ステップS304)。
応答音声に肯定キーワードも否定キーワードも含まれていない場合(ステップS303でNO)、さらに応答音声理解部13は、応答音声に、落胆キーワードが含まれているか否かを確認する(ステップS305)。落胆キーワードが応答音声に含まれていた場合も(ステップS305でYES)、応答音声理解部13は、応答音声を訂正発話として認識する(ステップS304)。
応答音声に、肯定キーワードも、否定キーワードも、落胆キーワードも含まれていなかった場合には(ステップS305でNO)、応答音声理解部13は、応答音声を認識不能と判断して(ステップS306)、そのまま応答音声認識処理を終了する。
以上のように、実施の形態2に係る音声認識装置10では、応答音声に否定キーワードが含まれている場合だけでなく、落胆キーワードが含まれている場合にも、応答音声を訂正発話と認識される。これにより、ユーザは自然な対話によって、音声認識装置10に対し、指示音声の認識結果の訂正を指示することができるようになる。
実施の形態2に係る音声認識装置で可能になるユーザとの対話の例を図8に示す。図8も、処理実行装置3がマルチメディアシステムであり、指示キーワードとして少なくとも「ラジオを再生」と「音楽を再生」が定められている場合の例である。
図8のように、ユーザがラジオの再生を指示するために「ラジオを再生して」という指示音声を発したにもかかわらず、音声認識装置10が、それを音楽の再生指示と誤認識すると、音声認識装置10は「音楽を再生します。よろしいですか?」という確認メッセージを出力する。
このときユーザが「なんでそうなるの?」という落胆キーワードを含む応答音声を発すれば、音声認識装置10は、それを訂正発話と認識して、「すみません。もう一度指示してください。」など、ユーザに再度の指示音声を求めるメッセージを出力する。
また、応答音声が、例えば「なんで音楽を再生しないの?」など、指示音声理解部11による現在の認識結果とは異なる指示を示す指示キーワードを含むものであった場合、音声認識装置10はそれを新たな指示音声とみなすため、図6の例と同様に、自動的にユーザの指示の認識結果が訂正され、「音楽を再生します。よろしいですか?」と訂正後の認識結果を確認する確認メッセージが出力される。
実施の形態2においても、ユーザと音声認識装置10とのより自然な対話が可能になり、ユーザの負担が軽減される。
<実施の形態3>
実施の形態3では、ユーザの訂正発話を受けて、指示音声理解部11がユーザの指示の認識をやり直す際、前回までの認識結果を考慮に入れることで、そのやり直しを効率よく行う。
図9は、実施の形態3における指示音声理解部11の動作を示すフローチャートである。このフローは、図4のフローのステップS102において行われる。図9に示すように、実施の形態3の指示音声理解部11は、指示音声の認識を行う際、指示の選択肢のそれぞれについて、ユーザに選択されている可能性の高さを算出する(ステップS401)。この可能性の高さは「信頼度」と呼ばれる。ステップS401の結果、指示の選択肢の各々に信頼度が付与されることになる。各指示の信頼度は、例えば、指示音声から得られた文字列と、各指示に対応する指示キーワードとの類似度の高さとして算出することができる。指示音声理解部11は、最も信頼度の高い指示を、暫定的にユーザの指示として認識する(ステップS402)。
指示音声理解部11は、今回の指示音声の認識処理が1回目である(やり直しではない)場合には(ステップS403でYES)、ステップS402で認識した指示を、認識結果として確定させる(ステップS404)。
一方、今回の指示音声の認識処理が2回目以降(やり直し)である場合には(ステップS403でNO)、今回認識された指示が前回までの認識結果に含まれているか否かを確認する(ステップS405)。今回認識された指示が、前回までの認識結果に含まれていない、つまり初めて認識されたものである場合には(ステップS405でNO)、ステップS402で認識した指示を、認識結果として確定させる(ステップS404)。
今回認識された指示が、前回までの認識結果に含まれている、つまり前回までの認識処理で今回と同じ認識結果が得られていた場合には(ステップS405でYES)、前回までの認識結果とは異なる指示のうち信頼度の最も高い指示を認識結果として確定させる(ステップS406)。
このように、実施の形態3の指示音声理解部11は、ユーザの指示の認識をやり直す際、前回までの認識結果となった指示を、新たな認識結果とする指示の候補から除外する。ユーザの指示の認識がやり直されている場合、前回までの認識結果は正しくないことは明らかであるため、前回までの認識結果となった指示を除外することで、そのやり直しは効率よく行われることになる。
<実施の形態4>
実施の形態4では、メッセージ出力部12が出力する確認メッセージを変化させる技術を提案する。
例えば、指示音声の認識がなかなかうまくいかず、ユーザの指示の認識が繰り返し行われると、ユーザがそれをストレスに感じる。そのストレスを緩和するために、メッセージ出力部12は、ユーザの指示の認識をやり直した回数に応じて、確認メッセージを変更するとよい。例えば、通常の確認メッセージを「○○を実行します。よろしいですか?」とし、ユーザの指示の認識をやり直した回数が増えるにつれて、「○○でよろしかったでしょうか?」、「すみません、○○で合っているでしょうか?」などと謙った言葉遣いに変化させるとよい。
また、図10に示すように、音声認識装置10に、ユーザの応答音声の口調や韻律などからユーザの感情を推定する感情推定部14を設け、ユーザの感情が高ぶっていると推定された場合に、確認メッセージを謙った言葉遣いに変化させてもよい。
<実施の形態5>
図11は、実施の形態5に係る音声認識システムの機能ブロック図である。図11のように、当該音声認識システムは、音声認識装置20と、それに接続された音声入力装置1、音声出力装置2および処理実行装置5とを含んでいる。音声入力装置1および音声出力装置2については、図1に示したものと同様であるため、ここでの説明は省略する。
処理実行装置5は、音声認識装置20がユーザからの指示に従って制御する対象となる装置である。処理実行装置5は、ユーザが設定した設定値を用いた特定の処理を実行するものであり、ユーザは、音声認識装置20に対する音声指示によって、処理実行装置5が特定の処理に用いる設定値(以下、単に「設定値」という)を設定することができる。処理実行装置5は、例えば、ナビゲーション装置、マルチメディアシステムなど、任意の装置でよい。
また、処理実行装置5は、特定の処理を実行不可能な場合に、その旨の通知(以下「実行不可能通知」という)を音声認識装置20へ送信する機能を有している。例えば、処理実行装置5がナビゲーション装置であり、特定の処理が目的地までの経路案内であると仮定すると、目的地まで到達できる経路が見つからなかったときなどが、特定の処理を実行不可能な場合に該当する。
図11では、音声入力装置1、音声出力装置2および処理実行装置5が音声認識装置20に接続された構成としたが、これらは一体的に構成されていてもよい。
音声認識装置20は、ユーザが音声で指示した設定値を用いる特定の処理を処理実行装置5に実行させる。図11のように、音声認識装置20は、指示音声理解部21、メッセージ出力部22および応答音声理解部23を備えている。
指示音声理解部21は、ユーザが発した指示音声を解析することで、ユーザが指示した設定値を認識し、その認識結果を設定値として設定する。本実施の形態では、ユーザは設定値の候補として予め定められた複数の選択肢のうちから1つを選択するものとする。つまり、指示音声理解部21は、予め定められた複数の設定値の選択肢のうちユーザがどの設定値を指示したかを判断する。
より具体的には、設定値の選択肢のそれぞれを表すキーワードである設定可能キーワードが予め設定されており、指示音声理解部21は、ユーザの指示音声に、どの設定可能キーワードが含まれているのかを認識することによって、ユーザが指示した設定値を判断する。例えば、処理実行装置5がナビゲーション装置であり、特定の処理が目的地までの経路案内である場合、設定値は目的地の名称となる。この場合、地名や施設名に該当する名称の全てが設定可能キーワードとなる。
また、指示音声理解部21は、設定した設定値を処理実行装置5へ送信する。処理実行装置5は、指示音声理解部21から設定値を受信すると、それを用いた特定の処理を行う。
メッセージ出力部22は、処理実行装置5が指示音声理解部21により設定された設定値を用いる特定の処理を実行不可能な場合(すなわち、処理実行装置5から実行不可能通知を受信した場合)に、音声出力装置2を用いて、その旨をユーザに警告するメッセージ(以下「警告メッセージ」という)を出力する。また、メッセージ出力部22は、実施の形態1のメッセージ出力部12と同様に、指示音声理解部21による認識結果をユーザが承認するか訂正するか確認するための確認メッセージを出力することもできる。
応答音声理解部23は、音声出力装置2から出力された確認メッセージまた警告メッセージの後にユーザが発した音声(以下「応答音声」という)を認識する。具体的には、応答音声理解部23は、確認メッセージの後の応答音声については、その応答音声が承認発話か訂正発話かを認識する。例えば、確認メッセージに対する応答音声に肯定キーワードが含まれていればその応答音声を承認発話と認識し、確認メッセージに対する応答音声に否定キーワードが含まれていればその応答音声を承認発話と認識する。あるいは、実施の形態1〜4で説明したいずれかの方法で、応答音声が承認発話か訂正発話かを判断してもよい。
一方、警告メッセージはユーザの意図を確認する目的のものではないため、警告メッセージの後の応答音声が承認発話となることはない。そのため、応答音声理解部23は、警告メッセージの後の応答音声については、その応答音声が設定値の訂正を意図する訂正発話であるか否かのみを認識する。具体的には、応答音声理解部23は、警告メッセージの後の応答音声に、現在の設定値とは異なる設定可能キーワードが含まれていれば、その応答音声を訂正発話と認識する。
応答音声理解部23によって警告メッセージの後の応答音声が訂正発話と認識された場合、指示音声理解部11は、設定値を、その応答音声に含まれていた設定可能キーワードに変更する。その結果、処理実行装置5によって、変更後の設定値を用いる特定の処理が実行されることになる。
なお、指示音声理解部21、メッセージ出力部22および応答音声理解部23が行う各処理は、必ずしも音声認識装置20の内部で行われなくてもよく、例えば、それらの処理の一部または全部が音声認識装置20との通信を行う外部のサーバ上で行われてもよい。
実施の形態5の音声認識装置20も、先に示した図2または図3のようなハードウェア構成により実現される。音声認識装置20が図2のハードウェア構成によって実現される場合、処理回路50は、ユーザが発した指示音声に基づいて、予め定められた複数の設定値の選択肢のうちユーザがどの設定値を指示したかを認識し、その認識結果を設定値として設定する指示音声理解部21と、指示音声理解部21により設定された設定値を用いる特定の処理を処理実行装置5が実行不可能な場合に、その旨をユーザに警告する警告メッセージを出力するメッセージ出力部22と、警告メッセージの後にユーザが発した応答音声に、設定可能キーワードのうち現在の設定値とは異なる値を示すものが含まれている場合に、応答音声を設定値の訂正を意図する訂正発話と認識する応答音声理解部23と、を備える。ここで、応答音声理解部23により応答音声が訂正発話と認識されると、指示音声理解部21は、設定値を応答音声に含まれていた設定可能キーワードに変更する。
音声認識装置20が図3のハードウェア構成によって実現される場合、音声認識装置20は、処理回路50により実行されるときに、ユーザが発した指示音声に基づいて、予め定められた複数の設定値の選択肢のうちユーザがどの設定値を指示したかを認識し、その認識結果を設定値として設定する処理と、設定された設定値を用いる特定の処理を処理実行装置5が実行不可能な場合に、その旨をユーザに警告する警告メッセージを出力する処理と、警告メッセージの後にユーザが発した応答音声に、設定可能キーワードのうち現在の設定値とは異なる値を示すものが含まれている場合に、応答音声を設定値の訂正を意図する訂正発話と認識する処理と、応答音声が訂正発話と認識されると、設定値を応答音声に含まれていた設定可能キーワードに変更する処理と、が結果的に実行されることになるプログラムを格納するためのメモリ52を備える。
図12は、実施の形態5に係る音声認識装置20の動作を示すフローチャートである。また、図13は、図12のステップS508で行われる処理(応答音声認識処理)を示すフローチャートである。以下、これらの図を参照して、音声認識装置20の動作を説明する。
音声認識装置20が起動して、ユーザが処理実行装置5に設定する設定値を指示する指示音声を発すると、その指示音声は音声入力装置1を通して指示音声理解部21に取得される(ステップS501)。指示音声理解部21は、当該指示音声に基づいて、予め定められた複数の設定値の選択肢のうちユーザがどの設定値を指示したかを認識する(ステップS502)。
このとき、メッセージ出力部22が確認メッセージを出力し、応答音声理解部23が、確認メッセージに対するユーザの応答音声が承認発話か訂正発話かを認識することで、ユーザが設定値の認識結果を承認したか否かを確認する(ステップS503)。ユーザが設定値の認識結果を承諾しなければ(ステップS503でNO)、ステップS501へ戻る。なお、ステップS502の処理は、任意の方法(例えば、実施の形態1〜4で説明したいずれかの方法)で行われればよいため、ここでの詳細な説明は省略する。
ユーザが設定値の認識結果を承諾すれば(ステップS503でYES)、指示音声理解部21が、ステップS502で認識された設定値を確定し、その設定値を処理実行装置5へ送信する(ステップS504)。
指示音声理解部21が処理実行装置5へ設定値を送信すると、処理実行装置5はその設定値を用いる特定の処理を実行する。ただし、処理実行装置5は、当該特定の処理を実行不可能な場合には、音声認識装置20へ実行不可能通知を送信する。
メッセージ出力部22は、処理実行装置5から実行不可能通知が送信されたかどうかを監視することで、処理実行装置5が特定の処理を実行可能か否かを確認する(ステップS505)。処理実行装置5が特定の処理を実行可能であれば(ステップS505でYES)、図12のフローは終了する。
処理実行装置5が特定の処理を実行不可能であれば(ステップS505でNO)、メッセージ出力部22は、音声出力装置2を用いて、その旨を示す警告メッセージを出力する(ステップS506)。
警告メッセージの後の一定期間にユーザが応答音声を発しなかった場合、つまり応答音声が応答音声理解部23に取得されなかった場合(ステップS507でNO)、図12のフローは終了する。
一方、警告メッセージの後の一定期間にユーザが応答音声を発し、その応答音声が音声入力装置1を通して応答音声理解部23に取得された場合は(ステップS507でYES)、応答音声理解部23が、当該応答音声が訂正発話か否かを認識するための応答音声認識処理を行う(ステップS508)。
図13に示すように、応答音声認識処理では、応答音声理解部23は、応答音声に現在の設定値とは異なる設定可能キーワードが含まれているか否かを確認する(ステップS601)。応答音声にそのような設定可能キーワードが含まれていれば(ステップS601でYES)、応答音声理解部23は、応答音声を訂正発話として認識する(ステップS602)。応答音声に現在の設定値とは異なる設定可能キーワードが含まれていない場合には(ステップS601でNO)、応答音声理解部23は、応答音声を訂正発話ではないと認識する(ステップS603)。
図12に戻り、応答音声認識処理(ステップS508)の結果、応答音声が訂正発話でないと認識されたときは(ステップS509でNO)、図12のフローを終了する。
しかし、応答音声が訂正発話であると認識されたときは(ステップS509でYES)、指示音声理解部21が、その応答音声に含まれている設定可能キーワード(すなわち、現在の設定値とは異なる設定可能キーワード)に、設定値を変更する(ステップS510)。そして、ステップS503へ戻り、ユーザに設定値の認識結果(ここでは変更後の設定値)を承諾するか否かの確認が行われ、承諾されれば変更後の設定値が処理実行装置5へ送信されることになる。
以上のように、実施の形態5に係る音声認識装置20では、警告メッセージの後の応答音声に設定可能キーワードが含まれていれば、その応答音声を訂正発話と認識し、自動的に設定値の変更を行う。これにより、ユーザは自然な対話によって、音声認識装置20に設定値の訂正を指示することができるようになる。
実施の形態5に係る音声認識装置で可能になるユーザとの対話の例を図14に示す。図14は、処理実行装置5がナビゲーション装置であり、特定の処理が目的地までの経路案内であり、ユーザが指示する設定値が目的地の名称である場合の例である。
図14のように、ユーザが「XXに行きたい」という指示音声を発し、音声認識装置20がそれを正しく認識すると、「XXを目的地に設定します。よろしいですか?」という確認メッセージが出力される。このときユーザが「はい」という応答音声を発すると、音声認識装置10は認識結果が承認されたと判断して、「XX」という目的地の設定値を処理実行装置5へ送信する。
しかし、処理実行装置5が目的地「XX」までの経路探索を行った結果、通行止めのため「XX」までの経路が見つからなければ、経路案内を不可能と判断され、実行不可能通知が音声認識装置10へと送信される。その場合、図14のように、音声認識装置20は「通行止めのため、現在XXには行けません」という警告メッセージを出力する。
この警告メッセージの後に、ユーザが「ではYYに行こうかな」と地名を含む応答音声を発すれば、音声認識装置20はそれを訂正発話と認識し、目的地の設定値が自動的に「YY」に変更される。その結果、音声認識装置20からは「YYを目的地に設定します。よろしいですか?」という確認メッセージが出力される。
このように、本実施の形態では、警告メッセージの後に、ユーザが設定可能キーワードを含む応答発話を行えば、自動的に設定値の変更が行われるため、設定値の変更に掛かる時間を短縮できる。また、ユーザと音声認識装置20とのより自然な対話が可能になり、ユーザの負担が軽減されるという効果も得られる。
なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略することが可能である。
1 音声入力装置、2 音声出力装置、3 処理実行装置、5 処理実行装置、10,20 音声認識装置、11,21 指示音声理解部、12,22 メッセージ出力部、13,23 応答音声理解部、14 感情推定部、20 音声認識装置、21 指示音声理解部、22 メッセージ出力部、23 応答音声理解部、24 感情推定部、50 処理回路、51 プロセッサ、52 メモリ。

Claims (19)

  1. ユーザが音声で指示した内容を認識する音声認識装置であって、
    前記ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうち前記ユーザがどの指示を行ったかを認識する指示音声理解部と、
    前記ユーザに前記指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力するメッセージ出力部と、
    前記確認メッセージに対する応答として前記ユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識する応答音声理解部と、
    を備え、
    前記応答音声理解部により前記応答音声が前記承認発話と認識されると、前記指示音声理解部は、認識結果を確定し、
    前記応答音声理解部により前記応答音声が前記訂正発話と認識されると、前記指示音声理解部は、前記ユーザの指示の認識を、前記応答音声または新たな指示音声に基づいてやり直し、
    前記応答音声理解部は、否定の意思を表す否定キーワードが前記応答音声に含まれている場合だけでなく、前記複数の指示の選択肢を表す指示キーワードのうち前記指示音声理解部の認識結果とは異なる指示を示すものが前記応答音声に含まれている場合にも、前記応答音声を前記訂正発話と認識する、
    音声認識装置。
  2. 前記応答音声理解部は、さらに、落胆の感情を表す落胆キーワードが前記応答音声に含まれていた場合にも、前記応答音声を前記訂正発話と認識する、
    請求項1に記載の音声認識装置。
  3. 前記指示音声理解部は、前記ユーザの指示の認識をやり直す際、前回までの認識結果を考慮に入れて、新たな認識結果を求める、
    請求項1または請求項2に記載の音声認識装置。
  4. 前記指示音声理解部は、前記ユーザの指示の認識をやり直す際、前回までの認識結果となった指示を、新たな認識結果とする指示の候補から除外する、
    請求項3に記載の音声認識装置。
  5. 前記指示音声理解部は、前記ユーザの指示を認識する際、前記複数の指示の選択肢のそれぞれが前記ユーザにより選択されている可能性の高さである信頼度を算出し、前記ユーザの指示の認識をやり直した結果が前回までの認識結果に含まれている場合には、前回までの認識結果に含まれていない指示のうちから前記信頼度の最も高いものを新たな認識結果とする、
    請求項3に記載の音声認識装置。
  6. ユーザが音声で指示した内容を認識する音声認識装置であって、
    前記ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうち前記ユーザがどの指示を行ったかを認識する指示音声理解部と、
    前記ユーザに前記指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力するメッセージ出力部と、
    前記確認メッセージに対する応答として前記ユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識する応答音声理解部と、
    を備え、
    前記応答音声理解部により前記応答音声が前記承認発話と認識されると、前記指示音声理解部は、認識結果を確定し、
    前記応答音声理解部により前記応答音声が前記訂正発話と認識されると、前記指示音声理解部は、前記ユーザの指示の認識を、前記応答音声または新たな指示音声に基づいてやり直し、
    前記応答音声理解部は、否定の意思を表す否定キーワードが前記応答音声に含まれている場合だけでなく、落胆の感情を表す落胆キーワードが前記応答音声に含まれていた場合にも、前記応答音声を前記訂正発話と認識する、
    音声認識装置。
  7. 前記指示音声理解部は、前記ユーザの指示の認識をやり直す際、前回までの認識結果を考慮に入れて、新たな認識結果を求める、
    請求項6に記載の音声認識装置。
  8. 前記指示音声理解部は、前記ユーザの指示の認識をやり直す際、前回までの認識結果となった指示を、新たな認識結果とする指示の候補から除外する、
    請求項7に記載の音声認識装置。
  9. 前記指示音声理解部は、前記ユーザの指示を認識する際、前記複数の指示の選択肢のそれぞれが前記ユーザにより選択されている可能性の高さである信頼度を算出し、前記ユーザの指示の認識をやり直した結果が前回までの認識結果に含まれている場合には、前回までの認識結果に含まれていない指示のうちから前記信頼度の最も高いものを新たな認識結果とする、
    請求項7に記載の音声認識装置。
  10. ユーザが音声で指示した内容を認識する音声認識装置であって、
    前記ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうち前記ユーザがどの指示を行ったかを認識する指示音声理解部と、
    前記ユーザに前記指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力するメッセージ出力部と、
    前記確認メッセージに対する応答として前記ユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識する応答音声理解部と、
    を備え、
    前記応答音声理解部により前記応答音声が前記承認発話と認識されると、前記指示音声理解部は、認識結果を確定し、
    前記応答音声理解部により前記応答音声が前記訂正発話と認識されると、前記指示音声理解部は、前記ユーザの指示の認識を、前記応答音声または新たな指示音声に基づいてやり直し、
    前記指示音声理解部は、前記ユーザの指示の認識をやり直す際、前回までの認識結果を考慮に入れて、新たな認識結果を求める、
    音声認識装置。
  11. 前記指示音声理解部は、前記ユーザの指示の認識をやり直す際、前回までの認識結果となった指示を、新たな認識結果とする指示の候補から除外する、
    請求項10に記載の音声認識装置。
  12. 前記指示音声理解部は、前記ユーザの指示を認識する際、前記複数の指示の選択肢のそれぞれが前記ユーザにより選択されている可能性の高さである信頼度を算出し、前記ユーザの指示の認識をやり直した結果が前回までの認識結果に含まれている場合には、前回までの認識結果に含まれていない指示のうちから前記信頼度の最も高いものを新たな認識結果とする、
    請求項10に記載の音声認識装置。
  13. 前記メッセージ出力部は、前記ユーザの指示の認識をやり直した回数に応じて、前記確認メッセージを変更する、
    請求項1から請求項12のいずれか一項に記載の音声認識装置。
  14. 前記応答音声から前記ユーザの感情を推定する感情推定部をさらに備え、
    前記メッセージ出力部は、前記感情推定部により前記ユーザの感情が高ぶっていることが推定されると、前記確認メッセージを変更する、
    請求項1から請求項13のいずれか一項に記載の音声認識装置。
  15. ユーザが音声で指示した設定値を用いる特定の処理を処理実行装置に実行させる音声認識装置であって、
    前記ユーザが発した指示音声に基づいて、予め定められた複数の設定値の選択肢のうち前記ユーザがどの設定値を指示したかを認識し、その認識結果を前記設定値として設定する指示音声理解部と、
    前記指示音声理解部により設定された前記設定値を用いる前記特定の処理を前記処理実行装置が実行不可能な場合に、その旨を前記ユーザに警告する警告メッセージを出力するメッセージ出力部と、
    前記警告メッセージの後に前記ユーザが発した応答音声に、前記複数の設定値の選択肢を示す設定可能キーワードのうち現在の設定値とは異なる値を示すものが含まれている場合に、前記応答音声を前記設定値の訂正を意図する訂正発話と認識する応答音声理解部と、
    を備え、
    前記応答音声理解部により前記応答音声が前記訂正発話と認識されると、前記指示音声理解部は、前記設定値を前記応答音声に含まれていた前記設定可能キーワードに変更する
    音声認識装置。
  16. ユーザが音声で指示した内容を認識する音声認識装置における音声認識方法であって、
    前記音声認識装置の指示音声理解部が、前記ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうち前記ユーザがどの指示を行ったかを認識し、
    前記音声認識装置のメッセージ出力部が、前記ユーザに前記指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力し、
    前記音声認識装置の応答音声理解部が、前記確認メッセージに対する応答として前記ユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識し、
    前記応答音声理解部により前記応答音声が前記承認発話と認識されると、前記指示音声理解部は、認識結果を確定し、
    前記応答音声理解部により前記応答音声が前記訂正発話と認識されると、前記指示音声理解部は、前記ユーザの指示の認識を、前記応答音声または新たな指示音声に基づいてやり直し、
    前記応答音声理解部は、否定の意思を表す否定キーワードが前記応答音声に含まれている場合だけでなく、前記複数の指示の選択肢を表す指示キーワードのうち前記指示音声理解部の認識結果とは異なる指示を示すものが前記応答音声に含まれている場合にも、前記応答音声を前記訂正発話と認識する、
    音声認識方法。
  17. ユーザが音声で指示した内容を認識する音声認識装置における音声認識方法であって、
    前記音声認識装置の指示音声理解部が、前記ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうち前記ユーザがどの指示を行ったかを認識し、
    前記音声認識装置のメッセージ出力部が、前記ユーザに前記指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力し、
    前記音声認識装置の応答音声理解部が、前記確認メッセージに対する応答として前記ユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識し、
    前記応答音声理解部により前記応答音声が前記承認発話と認識されると、前記指示音声理解部は、認識結果を確定し、
    前記応答音声理解部により前記応答音声が前記訂正発話と認識されると、前記指示音声理解部は、前記ユーザの指示の認識を、前記応答音声または新たな指示音声に基づいてやり直し、
    前記応答音声理解部は、否定の意思を表す否定キーワードが前記応答音声に含まれている場合だけでなく、落胆の感情を表す落胆キーワードが前記応答音声に含まれていた場合にも、前記応答音声を前記訂正発話と認識する、
    音声認識方法。
  18. ユーザが音声で指示した内容を認識する音声認識装置における音声認識方法であって、
    前記音声認識装置の指示音声理解部が、前記ユーザが発した指示音声に基づいて、予め定められた複数の指示の選択肢のうち前記ユーザがどの指示を行ったかを認識し、
    前記音声認識装置のメッセージ出力部が、前記ユーザに前記指示音声理解部の認識結果を承認するか訂正するかを確認する確認メッセージを出力し、
    前記音声認識装置の応答音声理解部が、前記確認メッセージに対する応答として前記ユーザが発した応答音声が、承認を意図する承認発話であるか訂正を意図する訂正発話であるかを認識し、
    前記応答音声理解部により前記応答音声が前記承認発話と認識されると、前記指示音声理解部は、認識結果を確定し、
    前記応答音声理解部により前記応答音声が前記訂正発話と認識されると、前記指示音声理解部は、前記ユーザの指示の認識を、前記応答音声または新たな指示音声に基づいてやり直し、
    前記指示音声理解部は、前記ユーザの指示の認識をやり直す際、前回までの認識結果を考慮に入れて、新たな認識結果を求める、
    音声認識方法。
  19. ユーザが音声で指示した設定値を用いる特定の処理を処理実行装置に実行させる音声認識装置における音声認識方法であって、
    前記音声認識装置の指示音声理解部が、前記ユーザが発した指示音声に基づいて、予め定められた複数の設定値の選択肢のうち前記ユーザがどの設定値を指示したかを認識し、その認識結果を前記設定値として設定し、
    前記指示音声理解部により設定された前記設定値を用いる前記特定の処理を前記処理実行装置が実行不可能な場合に、その旨を前記ユーザに警告する警告メッセージを、前記音声認識装置のメッセージ出力部が出力し、
    前記警告メッセージの後に前記ユーザが発した応答音声に、前記複数の設定値の選択肢を示す設定可能キーワードのうち現在の設定値とは異なる値を示すものが含まれている場合に、前記音声認識装置の応答音声理解部が、前記応答音声を前記設定値の訂正を意図する訂正発話と認識し、
    前記応答音声理解部により前記応答音声が前記訂正発話と認識されると、前記指示音声理解部が、前記設定値を前記応答音声に含まれていた前記設定可能キーワードに変更する
    音声認識方法。
JP2016238595A 2016-12-08 2016-12-08 音声認識装置および音声認識方法 Pending JP2018097029A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016238595A JP2018097029A (ja) 2016-12-08 2016-12-08 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016238595A JP2018097029A (ja) 2016-12-08 2016-12-08 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
JP2018097029A true JP2018097029A (ja) 2018-06-21

Family

ID=62632851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016238595A Pending JP2018097029A (ja) 2016-12-08 2016-12-08 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP2018097029A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020021040A (ja) * 2018-08-03 2020-02-06 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
JP2021006888A (ja) * 2019-06-27 2021-01-21 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声処理方法及び装置
CN113703767A (zh) * 2021-09-02 2021-11-26 北方工业大学 一种工程机械产品的人机交互界面设计方法和装置
JP2022159294A (ja) * 2019-08-08 2022-10-17 アイリスオーヤマ株式会社 照明装置
CN115373283A (zh) * 2022-07-29 2022-11-22 青岛海尔科技有限公司 控制指令的确定方法及装置、存储介质及电子装置
JP2023515897A (ja) * 2020-04-20 2023-04-14 エーアイ スピーチ カンパニー リミテッド 音声対話の訂正方法及び装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020021040A (ja) * 2018-08-03 2020-02-06 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
JP2021006888A (ja) * 2019-06-27 2021-01-21 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声処理方法及び装置
US11164583B2 (en) 2019-06-27 2021-11-02 Baidu Online Network Technology (Beijing) Co., Ltd. Voice processing method and apparatus
JP2022159294A (ja) * 2019-08-08 2022-10-17 アイリスオーヤマ株式会社 照明装置
JP2023515897A (ja) * 2020-04-20 2023-04-14 エーアイ スピーチ カンパニー リミテッド 音声対話の訂正方法及び装置
JP7413568B2 (ja) 2020-04-20 2024-01-15 エーアイ スピーチ カンパニー リミテッド 音声対話の訂正方法及び装置
CN113703767A (zh) * 2021-09-02 2021-11-26 北方工业大学 一种工程机械产品的人机交互界面设计方法和装置
CN115373283A (zh) * 2022-07-29 2022-11-22 青岛海尔科技有限公司 控制指令的确定方法及装置、存储介质及电子装置

Similar Documents

Publication Publication Date Title
JP2018097029A (ja) 音声認識装置および音声認識方法
KR101735212B1 (ko) 성문 인증 방법 및 장치
US20170084274A1 (en) Dialog management apparatus and method
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
US10850745B2 (en) Apparatus and method for recommending function of vehicle
JP2005331882A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP2010152119A (ja) 応答生成装置及びプログラム
JP2018054791A (ja) 音声対話システムおよび発話意図理解方法
JP5431282B2 (ja) 音声対話装置、方法、プログラム
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP2008122483A (ja) 情報処理装置及び方法並びにプログラム
JP2014219617A (ja) 音声案内システム及び音声案内方法
JP6559417B2 (ja) 情報処理装置、情報処理方法、対話システム、および制御プログラム
JP2016061888A (ja) 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム
JP6904225B2 (ja) 情報処理装置
JP6184494B2 (ja) 音声合成辞書作成装置及び音声合成辞書作成方法
US20140156256A1 (en) Interface device for processing voice of user and method thereof
JP5818753B2 (ja) 音声対話システム及び音声対話方法
JP5074759B2 (ja) 対話制御装置、対話制御方法及び対話制御プログラム
US11699438B2 (en) Open smart speaker
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JP6811865B2 (ja) 音声認識装置および音声認識方法
JP2006113439A (ja) 音声自動応答装置及びプログラム
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP6723033B2 (ja) 情報処理装置、情報処理システム、サーバ、端末装置、情報処理方法及びプログラム