JP2016102823A - 情報処理システム、音声入力装置及びコンピュータプログラム - Google Patents
情報処理システム、音声入力装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2016102823A JP2016102823A JP2014239558A JP2014239558A JP2016102823A JP 2016102823 A JP2016102823 A JP 2016102823A JP 2014239558 A JP2014239558 A JP 2014239558A JP 2014239558 A JP2014239558 A JP 2014239558A JP 2016102823 A JP2016102823 A JP 2016102823A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- candidate
- voice input
- unit
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】ユーザがより簡易に正しい音声入力を行うことができる「情報処理システム、音声入力装置及びコンピュータプログラム」を提供する。【解決手段】音声認識エンジン2は、ユーザの発話を音声認識し、複数の認識候補と認識候補のスコアを算出する。アプリケーション5は、スコア最上位の第1認識候補の信頼性が大きい場合には第1認識候補を音声入力内容とする処理を行う。他の場合には、第1認識候補を音声入力内容とする処理を開始すると共に、スコアが上位の認識候補のリストを表示し(b)、リストから認識候補が選択された場合には(c)、実行中の処理を取り消し、選択された認識候補を音声入力内容とする処理を開始すると共に、リストの表示を消去する(d)。リストから認識候補が所定期間中に選択されなかった場合には、リストの表示を消去し、実行中の処理をそのまま継続する(e)。【選択図】図4
Description
本発明は、情報処理システムにおいて音声入力を受け付ける技術に関するものである。
音声入力の技術としては、ユーザの発話にマッチする文字列の候補を認識候補として算出し、発話が表す文字列としての尤度を表すスコアが最大の認識候補のみを認識結果として提示すると共に、認識結果の提示後、所定期間内に訂正が指示されなかった場合に、認識結果を音声入力内容として処理する技術が知られている(たとえば、特許文献1)。
また、音声認識の技術としては、ユーザの発話にマッチする文字列の候補を認識候補として複数算出し、尤度を表すスコアが大きい所定数の認識候補のリストをユーザに対して提示すると共に、提示した複数の認識候補のうちからユーザによって選定された認識候補を音声入力内容として、音声入力内容に応じた処理を行う技術が知られている(たとえば、特許文献2)。
上述したスコアが最大の認識候補を、そのまま音声入力内容として処理する技術によれば、自動車車内などの騒音が大きい環境下では、正しい音声入力が行えない可能性が比較的大きい。
一方、スコアが大きい所定数の認識候補のリストをユーザに対して提示すると共に、提示した複数の認識候補のうちからユーザによって選定された認識候補を音声入力内容として処理する技術によれば、認識候補のリスト中から音声入力内容とする認識候補を選定する作業が、音声入力を行う度に必要となってしまう。
また、ユーザが音声入力内容とする認識候補を選定する作業を行うまで、ユーザの発話で意図した処理(最終認識結果に応じた処理)が開始されないので、発話に対する処理実行の応答性が必ずしも充分ではない。
そこで、本発明は、本発明は、ユーザがより簡易に正しい音声入力を行うことができる情報処理システムを提供することを課題とする。
また、併せて、本発明は、ユーザの発話に対する、ユーザの発話で意図した処理実行の応答性を向上することを課題とする。
また、併せて、本発明は、ユーザの発話に対する、ユーザの発話で意図した処理実行の応答性を向上することを課題とする。
前記課題達成のために、本発明は、ユーザの音声入力を受け付け、音声入力を受け付けた内容である音声入力内容に応じた処理を行う情報処理システムに、ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が表す内容を音声入力内容に仮設定し、仮設定した音声入力内容に応じた処理を開始する処理先行開始部と、前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、前記処理先行開始部が開始した処理の実行を取り消し、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、当該確定した音声入力内容に応じた処理を開始する処理開始部とを備えたものである。
また、本発明は、前記課題達成のために、ユーザの音声入力を受け付け、音声入力を受け付けた内容である音声入力内容に応じた処理を行う情報処理システムに、ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであることの信頼度が所定のレベル以上であるかどうかを判定する判定部と、前記判定部が前記信頼度が所定のレベル以上であると判定した場合に、当該スコアが最大の認識候補が表す内容を音声入力内容に確定し、確定した音声入力内容に応じた処理を開始する第1音声入力処理部と、第2音声入力処理部とを備えたものである。ただし、第2音声入力処理部は、前記判定部が前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が表す内容を音声入力内容に仮設定し、仮設定した音声入力内容に応じた処理を開始する処理先行開始部と、前記判定部が、前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、前記処理先行開始部が開始した処理の実行を取り消し、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、確定した音声入力内容に応じた処理を開始する処理開始部とを備えたものである。
ここで、このような情報処理システムは、前記判定部において、前記スコアが最大の認識候補のスコアと二番目に大きいスコアが大きい認識候補のスコアとの差が、所定の値以上である場合に、前記信頼度が所定のレベル以上であると判定し、前記所定の値未満である場合に、前記信頼度が所定のレベル以上でないと判定するように構成してもよい。
なお、以上の情報処理システムは、より具体的には、前記リスト表示部が前記所定期間内に、認識候補の選定を受け付けなかった場合には、前記仮設定した音声入力内容は音声入力内容に確定され、前記処理先行開始部が開始した処理は継続されるものであってよい。
ここで、以上の情報処理システムは、前記処理先行開始部において、仮設定した音声入力内容に応じた処理を開始する際に、前記スコアが最大の認識候補が表す内容を、前記リストとは別に表示するように構成してもよい。
または、以上の情報処理システムに、第1の表示装置と第2の表示装置とを備え、前記処理先行開始部において、仮設定した音声入力内容に応じた処理を開始する際に、前記スコアが最大の認識候補が表す内容を前記第1の表示装置に表示し、前記リスト表示部において、前記リストを前記第2の表示装置に表示するようにしてもよい。また、この場合には、前記音声入力内容に応じた処理は、当該処理の実行中、前記第1の表示装置への表示を行う処理であってもよい。
また、以上の情報処理システムは、前記リスト表示部において、前記スコアが最大の認識候補のスコアとの差が所定のしきい値以内のスコアの認識候補のリストを表示するように構成してもよい。
以上のような情報処理システムによれば、ユーザの発話音声に対して正しい認識結果が、スコアが最大の認識候補と算定された場合には、ユーザは、追加的な操作を行わなくても、正しい音声入力を行うことができる。また、スコアが最大の認識候補がユーザの発話音声に対して正しい認識結果でない場合でも、スコアが上位の認識候補のリストを用いて、正しい認識結果を表す認識候補を選択することにより、正しい音声入力を行うことができる。
また、ユーザの発話音声に対して認識されたスコアが最大の認識候補を音声入力内容とする処理は、常に即座に開始されるので、スコアが最大の認識候補がユーザの発話音声に対して正しい認識結果でない場合にも正しい音声入力が行えることを担保しつつ、ユーザの発話音声に対して正しい認識結果がスコアが最大の認識候補と算定された場合における処理の応答性を向上することができる。
また、前記課題達成のために、本発明は、ユーザの音声入力を受け付ける音声入力装置に、ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、前記リスト表示部が所定期間内に認識候補の選定を受け付けた場合に、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、前記リスト表示部が所定期間内に認識候補の選定を受け付けなかった場合に、前記スコアが最大の認識候補が表す内容を音声入力内容に確定する音声入力内容確定部とを備えたものである。
また、本発明は、前記課題達成のために、ユーザの音声入力を受け付ける音声入力装置に、ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであることの信頼度が所定のレベル以上であるかどうかを判定する判定部と、前記判定部が前記信頼度が所定のレベル以上であると判定した場合に、当該スコアが最大の認識候補が表す内容を音声入力内容に確定する第1音声入力処理部と、第2音声入力処理部とを備えたものである。
ここで、第2音声入力処理部は、前記判定部が、前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、前記リスト表示部が所定期間内に認識候補の選定を受け付けなかった場合に、前記スコアが最大の認識候補が表す内容を音声入力内容に確定する音声入力内容確定部とを備えている。
以上のような音声入力装置によれば、ユーザの発話音声に対して正しい認識結果が、スコアが最大の認識候補と算定された場合には、ユーザは、追加的な操作を行わなくても、正しい音声入力を行うことができる。また、スコアが最大の認識候補がユーザの発話音声に対して正しい認識結果でない場合でも、スコアが上位の認識候補のリストを用いて、正しい認識結果を表す認識候補を選択することにより、正しい音声入力を行うことができる。
以上のように、本発明によれば、ユーザがより簡易に正しい音声入力を行うことができる情報処理システムを提供することができる。また、本発明によれば、ユーザの発話に対する、ユーザの発話で意図した処理実行の応答性を向上することができる。
以下、本発明の実施形態に係る情報処理システムについて説明する。
図示するように、情報処理システムは、マイクロフォン1、音声認識エンジン2、音声認識辞書3、オペレーティングシステム4、アプリケーション5、メインディスプレイ6、サブディスプレイ7、スピーカに音声を出力する音声出力装置9、入力装置9、記憶装置10を備えている。
図示するように、情報処理システムは、マイクロフォン1、音声認識エンジン2、音声認識辞書3、オペレーティングシステム4、アプリケーション5、メインディスプレイ6、サブディスプレイ7、スピーカに音声を出力する音声出力装置9、入力装置9、記憶装置10を備えている。
但し、情報処理システムは、ハードウエア的には、CPUやメモリなどを備えたコンピュータを用いて構成されるものであり、音声認識エンジン2、音声認識辞書3、オペレーティングシステム4、アプリケーション5などは、当該コンピュータが、所定のコンピュータプログラムを実行することにより実現されるものである。
さて、情報処理システムは、自動車に搭載されるシステムであり、メインディスプレイ6はダッシュボード上やクラスタ内に配置され、サブディスプレイ7はセンターコンソール等に配置されている。
また、入力装置9は、サブディスプレイ7の表示面上に配置されたタッチパネルや、リモートコントロール装置などである。
このような構成において、音声認識エンジン2は、音声認識開始を指示されるとマイクロフォン1から入力するユーザの発話音声に対して音声認識辞書3を用いて音声認識処理を行い、ユーザの発話にマッチする文字列の候補を認識候補として、認識候補の発話が表す文字列としての尤度を表すスコアと共に算出する。
このような構成において、音声認識エンジン2は、音声認識開始を指示されるとマイクロフォン1から入力するユーザの発話音声に対して音声認識辞書3を用いて音声認識処理を行い、ユーザの発話にマッチする文字列の候補を認識候補として、認識候補の発話が表す文字列としての尤度を表すスコアと共に算出する。
また、アプリケーション5は、たとえば、記憶装置10に記憶されている地図データを用いて現在位置の提示や目的地までの経路案内を行うカーナビゲーションアプリケーションや、記憶装置10に記憶されている楽曲を再生出力するミュージックプレイヤアプリケーションなどの、各々所定のサービスをユーザに提供するアプリケーションであり、各アプリケーション5は、それぞれ、オペレーティングシステム4を介して、メインディスプレイ6とサブディスプレイ7と入力装置9と音声出力装置9とを用いたユーザインタフェースをユーザに提供しながら、各々の処理を行う。また、各アプリケーション5は、それぞれ、オペレーティングシステム4を介して音声認識エンジン2を用いて、ユーザから音声入力を受け付け、音声入力で受け付けた内容に応じた処理を行う。
以下、このような構成において、各アプリケーション5が、音声認識エンジン2を用いて、ユーザからの音声入力を受け付けるために行う音声入力処理について説明する。
ここで、この音声入力処理は、入力装置9を用いたユーザからの音声入力開始の指示の入力が発生したときに、アプリケーション5によって行われる。なお、音声入力開始の指示は、たとえば、入力装置9の一つとして設けたトークスイッチの押し下げなどによって受け付ける。
ここで、この音声入力処理は、入力装置9を用いたユーザからの音声入力開始の指示の入力が発生したときに、アプリケーション5によって行われる。なお、音声入力開始の指示は、たとえば、入力装置9の一つとして設けたトークスイッチの押し下げなどによって受け付ける。
図2に、音声入力処理について説明する。
図示するように、この処理では、まず、音声認識エンジン2に音声認識開始を指示する(ステップ202)。
音声認識エンジン2は、音声認識開始を指示されると、マイクロフォン1から入力するユーザの発話音声に対する音声認識辞書3を用いた音声認識処理を開始し、ユーザの発話にマッチする文字列の候補を認識候補を、認識候補の発話が表す文字列としての尤度を表すスコアと共に算出し、認識結果としてアプリケーション5に応答する。
図示するように、この処理では、まず、音声認識エンジン2に音声認識開始を指示する(ステップ202)。
音声認識エンジン2は、音声認識開始を指示されると、マイクロフォン1から入力するユーザの発話音声に対する音声認識辞書3を用いた音声認識処理を開始し、ユーザの発話にマッチする文字列の候補を認識候補を、認識候補の発話が表す文字列としての尤度を表すスコアと共に算出し、認識結果としてアプリケーション5に応答する。
次に、アプリケーション5は、音声認識エンジン2から、認識結果として、認識候補と認識候補のスコアを受け取ったならば(ステップ204)、音声認識エンジン2から得られた認識候補のうちスコアが最大の認識候補を第1候補、スコアが2番目に大きな認識候補を第2候補として、第1候補と第2候補のスコアの差が所定のしきい値Th1より大きいかどうかを調べる(ステップ206)。ここで、しきい値Th1は、第1候補と第2候補のスコアの差がしきい値Th1以上であれば、第1候補がユーザの発話音声を正しく認識したものであることの信頼度が充分に大きいと見なせる値を用いる。
そして、スコアの差がしきい値Th1より大きい場合には(ステップ206)、第1候補を、ユーザから入力された文字列である音声入力内容として受け付け、音声入力内容に応じた処理を開始する(ステップ208)。
そして、音声入力処理を終了する。
一方、ステップ206で、第1候補と第2候補のスコアの差が所定のしきい値Th1より大きくないと判定された場合には、アプリケーション5の現在の状態をレジューム情報として保存した上で(ステップ210)。第1候補を音声入力内容として仮受け付けし、音声入力内容に応じた処理を開始する(ステップ214)。
一方、ステップ206で、第1候補と第2候補のスコアの差が所定のしきい値Th1より大きくないと判定された場合には、アプリケーション5の現在の状態をレジューム情報として保存した上で(ステップ210)。第1候補を音声入力内容として仮受け付けし、音声入力内容に応じた処理を開始する(ステップ214)。
そして、仮受け付けした音声入力内容をメインディスプレイ6に表示すると共に(ステップ214)、第1候補の以外のスコアが上位の認識候補をスコア順に並べたリストをサブディスプレイ7に表示する(ステップ216)。ここで、第1候補の以外のスコアが上位の認識候補としては、たとえば、第1候補とのスコアの差がしきい値Th1以内の認識候補を用いる。
次に、所定のタイムアウト時間(たとえば4秒)を設定したタイマをスタートし(ステップ218)、ユーザのキャンセル操作の発生と(ステップ220)と、サブディスプレイ7に表示したリスト内の認識候補の選択の受付の発生と(ステップ222)と、その他のユーザ操作の発生と(ステップ224)、タイマのタイムアウトの発生と(ステップ226)を監視する。なお、その他のユーザ操作には、新たな音声入力開始の指示操作も含まれる。
そして、キャンセル操作が発生したならば(ステップ220)、アプリケーション5の状態をステップ210で保存したレジューム情報が示す状態に復帰し(ステップ230)、音声入力処理を終了する。ここで、アプリケーション5の状態をステップ210で保存したレジューム情報が示す状態に復帰すると、ステップ212で開始した第1候補である音声入力内容に応じた処理は終了されると共に、メインディスプレイ6の音声入力内容の表示とサブディスプレイ7のリストの表示は消去され、アプリケーション5の表示の状態や処理実行の状態は、レジューム情報を保存した時点の表示状態、処理状態に復帰する。
一方、サブディスプレイ7に表示したリスト内の認識候補の選択の受付が発生した場合には(ステップ222)、アプリケーション5の状態をステップ210で保存したレジューム情報が示す状態に復帰した上で、選択された認識候補を音声入力内容として受け付け、音声入力内容に応じた処理を開始する(ステップ232)。そして、音声入力処理を終了する。
一方、その他のユーザ操作が発生するか(ステップ224)、タイマのタイムアウトが発生した場合には(ステップ226)、メインディスプレイ6の音声入力内容の表示とサブディスプレイ7のリストの表示を消去し(ステップ228)、音声入力処理を終了する。
以上、アプリケーション5が行う音声入力処理について説明した。
以下、このような音声入力処理の処理例について説明する。
いま、情報処理システムにおいて、カーナビゲーションアプリケーションと、ミュージックプレイヤアプリケーションが稼働しており、図3aに示すように、カーナビゲーションアプリケーションがメインディスプレイ6に地図上に現在位置を表したナビゲーション用の画面であるナビゲーション画面を表示し、ミュージックプレイヤアプリケーションがサブディスプレイ7に音楽再生操作受付及び再生中楽曲情報提示用の画面であるプレイヤコントロール画面を表示しているものとする。
以下、このような音声入力処理の処理例について説明する。
いま、情報処理システムにおいて、カーナビゲーションアプリケーションと、ミュージックプレイヤアプリケーションが稼働しており、図3aに示すように、カーナビゲーションアプリケーションがメインディスプレイ6に地図上に現在位置を表したナビゲーション用の画面であるナビゲーション画面を表示し、ミュージックプレイヤアプリケーションがサブディスプレイ7に音楽再生操作受付及び再生中楽曲情報提示用の画面であるプレイヤコントロール画面を表示しているものとする。
この状態で、ミュージックプレイヤアプリケーションが、楽曲を再生対象とするアーティストの指定を待っている状態で、音声入力開始の指示が発生し、ユーザが「Maria Curie」と発話し、当該発話に対して音声認識エンジン2が、認識候補「Maria Curie」を、第1候補として算出し、かつ、第1候補のスコアが第2候補のスコアよりもしきい値Th1以上大きい場合、図3bに示すように、ミュージックプレイヤアプリケーションは、第1候補「Maria Curie」を再生対象とするアーティストとして受け付け、アーティスト「Maria Carey」の楽曲の再生を開始し、プレイヤコントロール画面が再生中の「Maria Curie」の楽曲の情報を提示するものに変化する。
一方、図3aの場合と同様に、図4aに示すように、カーナビゲーションアプリケーションがメインディスプレイ6にナビゲーション画面を表示し、ミュージックプレイヤアプリケーションがサブディスプレイ7にプレイヤコントロール画面を表示しているときに、ミュージックプレイヤアプリケーションに対する、楽曲を再生対象とするアーティストの音声入力開始の指示が発生し、ユーザが「Maria Curie」と発話し、当該発話に対して音声認識エンジン2が、スコアの大きい順に、認識候補「Maria Carey」、認識候補「Mariah Kerry」、認識候補「Maria Curie」、認識候補「Marina Saiiy」、認識候補「Marin Perry」が、第1候補「Maria Carey」とのスコアの差がしきい値Th1以内の認識候補として算出され、第1候補「Maria Carey」と第2候補「Mariah Kerry」のスコア差がしきい値Th1以上でなかった場合、図4bに示すようにミュージックプレイヤアプリケーションは、第1候補の「Maria Carey」を再生対象とするアーティストとして仮受け付けし、「Maria Carey」の楽曲の再生を開始し、メインディスプレイ6の上部に再生対象とするアーティストとして受け付けた認識候補「Maria Carey」を表示すると共に、サブディスプレイ7に、第1候補「Maria Carey」とのスコアの差がしきい値Th1以内の各認識候補認識候補「Mariah Kerry」、認識候補「Maria Curie」、認識候補「Marina Saiiy」、認識候補「Marin Perry」のリストを表示する。
そして、この状態のまま、一切のユーザ操作が発生することなく、所定時間(タイマのタイムアウト時間)が経過したならば、図4cに示すように、そのまま「Maria Carey」の楽曲の再生を継続すると共に、メインディスプレイ6の認識候補「Maria Carey」の表示と、サブディスプレイ7のリストの表示を消去する。これにより、サブディスプレイ7の表示は、プレイヤコントロール画面の表示に復帰し、プレイヤコントロール画面は、再生中の「Maria Carey」の楽曲の情報を提示するものとなる。
一方、図4bに示したようにメインディスプレイ6の上部に再生対象とするアーティストとして受け付けた認識候補「Maria Carey」を表示し、サブディスプレイ7にリストを表示している状態で、図4dに示すように、ユーザがリスト中の認識候補「Maria Curie」を選択操作すると、ミュージックプレイヤアプリケーションは、図4eに示すように、選択された認識候補「Maria Curie」を再生対象とするアーティストとして受け付け、「Maria Curie」の楽曲の再生を開始し、メインディスプレイ6の認識候補「Maria Carey」の表示と、サブディスプレイ7のリストの表示を消去する。これにより、サブディスプレイ7の表示は、プレイヤコントロール画面の表示に復帰し、プレイヤコントロール画面は、再生中の「Maria Curie」の楽曲の情報を提示するものとなる。
次に、図5に、音声入力処理の他の処理例を示す。
いま、情報処理システムにおいて、カーナビゲーションアプリケーションと、ミュージックプレイヤアプリケーションが稼働しており、図5aに示すように、カーナビゲーションアプリケーションがメインディスプレイ6にナビゲーション画面を表示し、ミュージックプレイヤアプリケーションがサブディスプレイ7にプレイヤコントロール画面を表示しているものとする。
いま、情報処理システムにおいて、カーナビゲーションアプリケーションと、ミュージックプレイヤアプリケーションが稼働しており、図5aに示すように、カーナビゲーションアプリケーションがメインディスプレイ6にナビゲーション画面を表示し、ミュージックプレイヤアプリケーションがサブディスプレイ7にプレイヤコントロール画面を表示しているものとする。
この状態において、カーナビゲーションアプリケーションが目的地とする施設の指定を待っている状態で音声入力開始の指示が発生し、ユーザが「カフェ タイム」と発話し、当該発話に対して音声認識エンジン2が、スコアの大きい順に、認識候補「カフェ ライム」、認識候補「カフェ タイム」、認識候補「カフェ ライズ」、認識候補「カフェ チャイム」が、第1候補「カフェ ライム」とのスコアの差がしきい値Th1以内の認識候補として算出されたものとする。
この場合、第1候補「カフェ ライム」と第2候補「カフェ タイム」のスコア差がしきい値Th1以上であれば、カーナビゲーションアプリケーションは、第1候補「カフェ ライム」を目的地とする施設として受け付けて、図5bに示すように、メインディスプレイ6のナビゲーション画面を「カフェ ライム」周辺の地図を表すナビゲーション画面に変更する。そして、図5bの状態で、メインディスプレイ6のナビゲーション画面の目的地設定ボタンが操作された場合には、「カフェ ライム」を目的地に設定する。
一方、第1候補「カフェ ライム」と第2候補「カフェ タイム」のスコア差がしきい値Th1以上でなければ、カーナビゲーションアプリケーションは、第1候補「カフェ ライム」を目的地とする施設として仮受け付けし、図5cに示すように、メインディスプレイ6のナビゲーション画面を「カフェ ライム」周辺の地図を表すナビゲーション画面に変更すると共に、メインディスプレイ6の上部に目的地とする施設として仮受け付けした第1候補「カフェ ライム」を表示すると共に、サブディスプレイ7に、認識候補「カフェ タイム」、認識候補「カフェ ライズ」、認識候補「カフェ チャイム」のリストを表示する。
そして、図5cの状態のまま、一切のユーザ操作が発生することなく、所定時間(タイマのタイムアウト時間)が経過したならば、図5bに示すように、メインディスプレイ6の第1候補「カフェ ライム」の表示と、サブディスプレイ7のリストの表示を消去し、サブディスプレイ7の表示を、プレイヤコントロール画面の表示に復帰する。
また、図5cの状態で、メインディスプレイ6のナビゲーション画面の目的地設定ボタンが操作された場合には、音声入力処置のステップ224の他ユーザ操作として受けつけ、メインディスプレイ6の第1候補「カフェ ライム」の表示と、サブディスプレイ7のリストの表示を消去し、サブディスプレイ7の表示をプレイヤコントロール画面の表示に復帰すると共に、目的地設定ボタンの操作に対応する処理として、第1候補「カフェ ライム」を目的地に設定する。
また、図5cの状態で、図5dに示すように、サブディスプレイ7のリスト中の認識候補「カフェ タイム」が選択操作された場合には、認識候補「カフェ タイム」を目的地とする施設として受け付けて、図5eに示すように、メインディスプレイ6のナビゲーション画面を「カフェ タイム」周辺の地図を表すナビゲーション画面に変更すると共に、メインディスプレイ6の第1候補「カフェ ライム」の表示と、サブディスプレイ7のリストの表示を消去し、サブディスプレイ7の表示をプレイヤコントロール画面の表示に復帰する。
そして、図5eのメインディスプレイ6のナビゲーション画面で目的地設定ボタンが操作されたならば、「カフェ タイム」を目的地に設定する。
次に、図6に音声入力処理の他の例を示す。
いま、情報処理システムにおいて、カーナビゲーションアプリケーションと、ミュージックプレイヤアプリケーションが稼働しており、図6aに示すように、カーナビゲーションアプリケーションがメインディスプレイ6に、住所検索のための都道府県名一覧画面を表示し、ミュージックプレイヤアプリケーションがサブディスプレイ7にプレイヤコントロール画面を表示しているものとする。なお、住所検索のための都道府県名一覧画面を表示しているときには、カーナビゲーションアプリケーションは都道府県の指定を待っている状態にあり、この状態で、音声入力開始の指示が発生すると、都道府県の音声入力を受け付けるための音声入力処理を開始する。
次に、図6に音声入力処理の他の例を示す。
いま、情報処理システムにおいて、カーナビゲーションアプリケーションと、ミュージックプレイヤアプリケーションが稼働しており、図6aに示すように、カーナビゲーションアプリケーションがメインディスプレイ6に、住所検索のための都道府県名一覧画面を表示し、ミュージックプレイヤアプリケーションがサブディスプレイ7にプレイヤコントロール画面を表示しているものとする。なお、住所検索のための都道府県名一覧画面を表示しているときには、カーナビゲーションアプリケーションは都道府県の指定を待っている状態にあり、この状態で、音声入力開始の指示が発生すると、都道府県の音声入力を受け付けるための音声入力処理を開始する。
さて図6aの状態で、音声入力開始の指示が発生し、ユーザが「福島県」と発話し、当該発話に対して音声認識エンジン2が、認識候補「徳島県」を、第1候補として算出し、かつ、第1候補のスコアが第2候補のスコアよりもしきい値Th1以上大きい場合、第1候補の「徳島県」を音声入力内容として受け入れ、「徳島県」の市町村一覧画面をメインディスプレイ6に表示し、都道府県の音声入力を受け付けるための音声入力処理を終了する。
一方、第1候補「徳島県」のスコアが第2候補のスコアよりもしきい値Th1以上大きくない場合には、図6bに示すように、第1候補の「徳島県」を音声入力内容として受け入れて「徳島県」の市町村一覧画面をメインディスプレイ6に表示すると共に、第1候補とのスコア差がしきい値Th1以内の認識候補「福島県」、認識候補「福岡県」のリストを表示する。
そして、図6bの状態のまま、ユーザ操作が発生することなく、所定時間(タイマのタイムアウト時間)が経過したならば、サブディスプレイ7のリストの表示を消去し、サブディスプレイ7の表示をプレイヤコントロール画面の表示に復帰して、都道府県の音声入力を受け付けるための音声入力処理を終了する。一方、カーナビゲーションアプリケーションは市町村一覧画面を表示しているときには、市町村の指定を待っている状態にあり、サブディスプレイ7の表示をプレイヤコントロール画面の表示に復帰した状態で、音声入力開始の指示が発生したならば、「徳島県」の市町村指定のための音声入力処理を開始する。
一方、図6bの状態で音声入力開始の指示が発生したならば、音声入力処理では、他ユーザ操作として、ステップ224の他ユーザ操作として受けつけ、サブディスプレイ7のリストの表示を消去し、サブディスプレイ7の表示をプレイヤコントロール画面の表示に復帰して、都道府県の音声入力を受け付けるための音声入力処理を終了する。カーナビゲーションアプリケーションは市町村一覧画面を表示しているときには、市町村の指定を待っている状態にあり、サブディスプレイ7の表示をプレイヤコントロール画面の表示に復帰した状態で、音声入力開始の指示が発生したならば、「徳島県」の市町村指定のための音声入力処理を開始する。
また、図6bの状態で、図6cに示すように、サブディスプレイ7のリスト中の認識候補「福島県」の選択操作が発生した場合には、「福島県」を音声入力内容として受け入れ、図6dに示すように、「福島県」の市町村一覧画面をメインディスプレイ6に表示すると共に、サブディスプレイ7のリストの表示を消去し、サブディスプレイ7の表示をプレイヤコントロール画面の表示に復帰し、都道府県の音声入力を受け付けるための音声入力処理を終了する。
そして、図6dの状態で、音声入力開始の指示が発生したならば、「福島県」の市町村指定のための音声入力処理を開始する。
そして、以下、都道府県の音声入力の受け付けと同様に、市町村の音声入力の受け付け、町名の音声入力の受け付け、番地の音声入力の受け付けを行い、完全な住所の入力の受け付けを完了したならば、カーナビゲーションアプリケーションは、入力を受け付けた住所の目的地としての設定や、入力を受け付けた住所の地図上での表示や、入力を受け付けた住所の電話番号の表示などの予め定めておいた処理を行う。
そして、以下、都道府県の音声入力の受け付けと同様に、市町村の音声入力の受け付け、町名の音声入力の受け付け、番地の音声入力の受け付けを行い、完全な住所の入力の受け付けを完了したならば、カーナビゲーションアプリケーションは、入力を受け付けた住所の目的地としての設定や、入力を受け付けた住所の地図上での表示や、入力を受け付けた住所の電話番号の表示などの予め定めておいた処理を行う。
以上、本発明の実施形態について説明した。
以上のように、本実施形態によれば、ユーザの発話音声に対して音声認識エンジン2が認識したスコアが最大の認識候補とスコアが二番目の認識候補とのスコア差がしきい値Th1以上であって、スコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであることの信頼度が充分である場合には、スコアが最大の認識候補を直ちに音声入力内容として受け付け、音声入力内容に応じた処理を行う。
以上のように、本実施形態によれば、ユーザの発話音声に対して音声認識エンジン2が認識したスコアが最大の認識候補とスコアが二番目の認識候補とのスコア差がしきい値Th1以上であって、スコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであることの信頼度が充分である場合には、スコアが最大の認識候補を直ちに音声入力内容として受け付け、音声入力内容に応じた処理を行う。
一方、信頼度がスコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであると見なせるほど大きくない場合には、スコアが最大の認識候補を音声入力内容として仮受け付けし、仮受け付けした音声入力内容に応じた処理を開始しつつ、上位の認識候補のリストを表示し、ユーザの認識候補の選択を受け付ける。
そして、所定期間内にリストを用いた認識候補の選択操作が発生しなかった場合には、そのままスコアが最大の認識候補を音声入力内容として開始した処理を継続し、所定期間内にリストを用いた認識候補の選択操作が発生した場合にのみ、スコアが最大の認識候補を音声入力内容として開始した処理を取り消して選択された認識候補を音声入力内容として音声入力内容に応じた処理を開始する。
したがって、ユーザの発話音声に対して正しい認識結果が、スコアが最大の認識候補と算定された場合には、ユーザは、追加的な操作を行わなくても、正しい音声入力を行うことができる。また、スコアが最大の認識候補がユーザの発話音声に対して正しい認識結果でない場合でも、スコアが上位の認識候補のリストを用いて、正しい認識結果を表す認識候補を選択することにより、正しい音声入力を行うことができる。
また、ユーザの発話音声に対して認識されたスコアが最大の認識候補を音声入力内容とする処理は、常に即座に開始されるので、スコアが最大の認識候補がユーザの発話音声に対して正しい認識結果でない場合にも正しい音声入力が行えることを担保しつつ、ユーザの発話音声に対して正しい認識結果がスコアが最大の認識候補と算定された場合における処理の応答性を向上することができる。
ところで、以上の実施形態の音声入力処理は、ステップ206を、第1候補のスコアが所定値以上のスコアである場合にステップ208に進み、第1候補のスコアが所定値以上のスコアでない場合にステップ210に進む処理としてもよい。また、音声入力処置のステップ216は、スコアが上位のn個の認識候補のうちの第1候補を除くn-1個の認識候補のリストをサブディスプレイ7に表示する処理としたり、スコアが第2のしきい値Th2(Th2<Th1)以上の認識候補のリストを表示する処理としてもよい。また、ステップ216で表示するリストには、第1候補も表示するようにしてもよく、また、この場合にはリスト中の第1候補は選択不可であることが視認できるようにコントラストを下げた形態や網がけした形態で表示すると共に、第1候補の選択は受け付けないようにしてもよい。
また、以上の実施形態の音声入力処理は、ステップ206と208を無くし、ステップ204で音声認識エンジン2から認識結果を受け取ったならばステップ210に進む処理とするようにしてもよい。すなわち、音声入力の際には、常に認識候補のリストを表示するようにしてもよい。
また、以上の実施形態は、情報処理システムがメインディスプレイ6とサブディスプレイ7との二つのディスプレイを備えている場合について説明したが、情報処理システムは単一のディスプレイのみを備えている場合にも、以上の音声入力処理は、当該音声入力処理で行う表示を、情報処理システムが備える単一のディスプレイに対して行うことにより同様に適用することができる。
すなわち、たとえば、カーナビゲーションアプリケーションと、ミュージックプレイヤアプリケーションが稼働しており、図7aに示すように、ディスプレイにはカーナビゲーションアプリケーションのナビゲーション画面を表示し、ミュージックプレイヤアプリケーションはバックグランドで動作して楽曲の再生出力を行う情報処理システムの、ミュージックプレイヤアプリケーションに対する、楽曲を再生対象とするアーティストの指定のための音声入力に、以上の音声入力処理を適用する場合には、図7bに示すように、音声入力処理のステップ314で音声入力内容として受け付けた第1候補をディスプレイの上部に表示すると共に、ステップ216において、ディスプレイの表示画面を二分割して、一方にナビゲーション画面を、他方に認識候補のリストを表示して、リスト中の認識候補の選択を受け付けるようにすればよい。
また、以上の実施形態における音声入力処理は、アプリケーション5と、オペレーティングシステム4や音声認識エンジン2とが分担して行うようにしてもよい。すなわち、たとえば、第2候補とのスコア差がしき値Th1以上の第1候補を音声入力内容として受け付け、または、仮受け付けする処理や、認識候補のリストの表示や、リスト中からの認識候補を受け付けて音声入力内容として受け付ける処理などは音声認識エンジン2やオペレーティングシステム4において行うようにしてもよい。
ここで、以上の実施形態における音声入力処理の技術は、自動車に搭載される情報処理システムのみならず、音声入力を行う任意の情報処理システムに適用することができる。
1…マイクロフォン、2…音声認識エンジン、3…音声認識辞書、4…オペレーティングシステム、5…アプリケーション、6…メインディスプレイ、7…サブディスプレイ、9…音声出力装置、9…入力装置、10…記憶装置。
Claims (15)
- ユーザの音声入力を受け付け、音声入力を受け付けた内容である音声入力内容に応じた処理を行う情報処理システムであって、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、
前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が表す内容を音声入力内容に仮設定し、仮設定した音声入力内容に応じた処理を開始する処理先行開始部と、
前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、
前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、前記処理先行開始部が開始した処理の実行を取り消し、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、当該確定した音声入力内容に応じた処理を開始する処理開始部とを有することを特徴とする情報処理システム。 - ユーザの音声入力を受け付け、音声入力を受け付けた内容である音声入力内容に応じた処理を行う情報処理システムであって、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、
前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであることの信頼度が所定のレベル以上であるかどうかを判定する判定部と、
前記判定部が前記信頼度が所定のレベル以上であると判定した場合に、当該スコアが最大の認識候補が表す内容を音声入力内容に確定し、確定した音声入力内容に応じた処理を開始する第1音声入力処理部と、
第2音声入力処理部とを有し、
第2音声入力処理部は、
前記判定部が前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が表す内容を音声入力内容に仮設定し、仮設定した音声入力内容に応じた処理を開始する処理先行開始部と、
前記判定部が、前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、
前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、前記処理先行開始部が開始した処理の実行を取り消し、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、確定した音声入力内容に応じた処理を開始する処理開始部とを有することを特徴とする情報処理システム。 - 請求項2記載の情報処理システムであって、
前記判定部は、前記スコアが最大の認識候補のスコアと二番目に大きいスコアが大きい認識候補のスコアとの差が、所定の値以上である場合に、前記信頼度が所定のレベル以上であると判定し、前記所定の値未満である場合に、前記信頼度が所定のレベル以上でないと判定することを特徴とする情報処理システム。 - 請求項1、2または3記載の情報処理システムであって、
前記リスト表示部が前記所定期間内に、認識候補の選定を受け付けなかった場合には、前記仮設定した音声入力内容は音声入力内容に確定され、前記処理先行開始部が開始した処理は継続されることを特徴とする情報処理システム。 - 請求項1、2、3または4記載の情報処理システムであって、
前記処理先行開始部は、仮設定した音声入力内容に応じた処理を開始する際に、前記スコアが最大の認識候補が表す内容を、前記リストとは別に表示することを特徴とする情報処理システム。 - 請求項1、2、3または4記載の情報処理システムであって、
第1の表示装置と第2の表示装置とを備え、
前記処理先行開始部は、仮設定した音声入力内容に応じた処理を開始する際に、前記スコアが最大の認識候補が表す内容を前記第1の表示装置に表示し、
前記リスト表示部は、前記リストを前記第2の表示装置に表示することを特徴とする情報処理システム。 - 請求項6記載の情報処理システムであって、
前記音声入力内容に応じた処理は、当該処理の実行中、前記第1の表示装置への表示を行う処理であることを特徴とする情報処理システム。 - 請求項1、2、3、4、5、6または7記載の情報処理システムであって、
前記リスト表示部は、前記スコアが最大の認識候補のスコアとの差が所定のしきい値以内のスコアの認識候補のリストを表示することを特徴とする情報処理システム。 - ユーザの音声入力を受け付ける音声入力装置であって、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、
前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、
前記リスト表示部が所定期間内に認識候補の選定を受け付けた場合に、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、前記リスト表示部が所定期間内に認識候補の選定を受け付けなかった場合に、前記スコアが最大の認識候補が表す内容を音声入力内容に確定する音声入力内容確定部とを有することを特徴とする音声入力装置。 - ユーザの音声入力を受け付ける音声入力装置であって、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、
前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであることの信頼度が所定のレベル以上であるかどうかを判定する判定部と、
前記判定部が前記信頼度が所定のレベル以上であると判定した場合に、当該スコアが最大の認識候補が表す内容を音声入力内容に確定する第1音声入力処理部と、
第2音声入力処理部とを有し、
第2音声入力処理部は、
前記判定部が、前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、
前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、前記リスト表示部が所定期間内に認識候補の選定を受け付けなかった場合に、前記スコアが最大の認識候補が表す内容を音声入力内容に確定する音声入力内容確定部とを有することを特徴とする音声入力装置。 - コンピュータによって読み取られ実行されるコンピュータプログラムであって、
前記コンピュータを、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、
前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が表す内容を音声入力内容に仮設定し、仮設定した音声入力内容に応じた処理を開始する処理先行開始部と、
前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、
前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、前記処理先行開始部が開始した処理の実行を取り消し、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、当該確定した音声入力内容に応じた処理を開始する処理開始部として機能させることを特徴とするコンピュータプログラム。 - コンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、
前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであることの信頼度が所定のレベル以上であるかどうかを判定する判定部と、
前記判定部が前記信頼度が所定のレベル以上であると判定した場合に、当該スコアが最大の認識候補が表す内容を音声入力内容に確定し、確定した音声入力内容に応じた処理を開始する第1音声入力処理部と、
第2音声入力処理部として機能させるコンピュータプログラムであって、
第2音声入力処理部は、
前記判定部が前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が表す内容を音声入力内容に仮設定し、仮設定した音声入力内容に応じた処理を開始する処理先行開始部と、
前記判定部が、前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、
前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、前記処理先行開始部が開始した処理の実行を取り消し、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、確定した音声入力内容に応じた処理を開始する処理開始部とを有することを特徴とするコンピュータプログラム。 - 請求項11または12記載のコンピュータプログラムであって、
前記リスト表示部が前記所定期間内に、認識候補の選定を受け付けなかった場合には、前記仮設定した音声入力内容は音声入力内容に確定され、前記処理先行開始部が開始した処理は継続されることを特徴とするコンピュータプログラム。 - コンピュータによって読み取られ実行されるコンピュータプログラムであって、
前記コンピュータを、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、
前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、
前記リスト表示部が所定期間内に認識候補の選定を受け付けた場合に、前記処理先行開始部が開始した処理の実行を取り消し、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、前記リスト表示部が所定期間内に認識候補の選定を受け付けなかった場合に、前記スコアが最大の認識候補が表す内容を音声入力内容に確定する音声入力内容確定部として機能させることを特徴とするコンピュータプログラム。 - コンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、
前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであることの信頼度が所定のレベル以上であるかどうかを判定する判定部と、
前記判定部が前記信頼度が所定のレベル以上であると判定した場合に、当該スコアが最大の認識候補が表す内容を音声入力内容に確定する第1音声入力処理部と、
第2音声入力処理部として機能させるコンピュータプログラムであって、
第2音声入力処理部は、
前記判定部が、前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、
前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、前記リスト表示部が所定期間内に認識候補の選定を受け付けなかった場合に、前記スコアが最大の認識候補が表す内容を音声入力内容に確定する音声入力内容確定部とを有することを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014239558A JP2016102823A (ja) | 2014-11-27 | 2014-11-27 | 情報処理システム、音声入力装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014239558A JP2016102823A (ja) | 2014-11-27 | 2014-11-27 | 情報処理システム、音声入力装置及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016102823A true JP2016102823A (ja) | 2016-06-02 |
Family
ID=56088773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014239558A Pending JP2016102823A (ja) | 2014-11-27 | 2014-11-27 | 情報処理システム、音声入力装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016102823A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018081185A (ja) * | 2016-11-15 | 2018-05-24 | クラリオン株式会社 | 音声認識装置、音声認識システム |
WO2019163011A1 (ja) * | 2018-02-21 | 2019-08-29 | 三菱電機株式会社 | 表示制御装置および表示制御方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0950291A (ja) * | 1995-08-04 | 1997-02-18 | Sony Corp | 音声認識装置及びナビゲーシヨン装置 |
JPH10207486A (ja) * | 1997-01-20 | 1998-08-07 | Nippon Telegr & Teleph Corp <Ntt> | 対話型音声認識方法およびこの方法を実施する装置 |
JP2003036094A (ja) * | 2001-07-23 | 2003-02-07 | Oki Electric Ind Co Ltd | 音声対話装置及び音声対話処理方法 |
WO2010013369A1 (ja) * | 2008-07-30 | 2010-02-04 | 三菱電機株式会社 | 音声認識装置 |
-
2014
- 2014-11-27 JP JP2014239558A patent/JP2016102823A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0950291A (ja) * | 1995-08-04 | 1997-02-18 | Sony Corp | 音声認識装置及びナビゲーシヨン装置 |
JPH10207486A (ja) * | 1997-01-20 | 1998-08-07 | Nippon Telegr & Teleph Corp <Ntt> | 対話型音声認識方法およびこの方法を実施する装置 |
JP2003036094A (ja) * | 2001-07-23 | 2003-02-07 | Oki Electric Ind Co Ltd | 音声対話装置及び音声対話処理方法 |
WO2010013369A1 (ja) * | 2008-07-30 | 2010-02-04 | 三菱電機株式会社 | 音声認識装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018081185A (ja) * | 2016-11-15 | 2018-05-24 | クラリオン株式会社 | 音声認識装置、音声認識システム |
WO2018092786A1 (ja) * | 2016-11-15 | 2018-05-24 | クラリオン株式会社 | 音声認識装置、音声認識システム |
US11087764B2 (en) | 2016-11-15 | 2021-08-10 | Clarion Co., Ltd. | Speech recognition apparatus and speech recognition system |
WO2019163011A1 (ja) * | 2018-02-21 | 2019-08-29 | 三菱電機株式会社 | 表示制御装置および表示制御方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6570651B2 (ja) | 音声対話装置および音声対話方法 | |
US10446155B2 (en) | Voice recognition device | |
US20170010859A1 (en) | User interface system, user interface control device, user interface control method, and user interface control program | |
US20170287465A1 (en) | Speech Recognition and Text-to-Speech Learning System | |
JP5637131B2 (ja) | 音声認識装置 | |
JP2013068952A (ja) | 音声認識結果の統合 | |
JP2005331882A (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
US11967248B2 (en) | Conversation-based foreign language learning method using reciprocal speech transmission through speech recognition function and TTS function of terminal | |
JP2006189730A (ja) | 音声対話方法および音声対話装置 | |
US20170301349A1 (en) | Speech recognition system | |
JP2016102823A (ja) | 情報処理システム、音声入力装置及びコンピュータプログラム | |
JP2006208486A (ja) | 音声入力装置 | |
JP5986468B2 (ja) | 表示制御装置、表示システム及び表示制御方法 | |
JP6641680B2 (ja) | 音声出力装置、音声出力プログラムおよび音声出力方法 | |
JP4212947B2 (ja) | 音声認識システムおよび音声認識の訂正・学習方法 | |
JP2008243146A (ja) | 音声認識処理装置及びその制御方法 | |
JP6746886B2 (ja) | 学習支援装置及びその学習支援装置用のプログラム | |
JP4453377B2 (ja) | 音声認識装置、プログラム及びナビゲーション装置 | |
JP2008310344A (ja) | 提示装置及び提示方法 | |
JP6351440B2 (ja) | 音声認識装置及びコンピュータプログラム | |
JP2005114964A (ja) | 音声認識方法および音声認識処理装置 | |
WO2015102039A1 (ja) | 音声認識装置 | |
JP2008233009A (ja) | カーナビゲーション装置及びカーナビゲーション装置用プログラム | |
JP2017102320A (ja) | 音声認識装置 | |
JP2011080824A (ja) | ナビゲーション装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170718 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180612 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20181211 |