JP2016102823A

JP2016102823A - 情報処理システム、音声入力装置及びコンピュータプログラム

Info

Publication number: JP2016102823A
Application number: JP2014239558A
Authority: JP
Inventors: 大和鈴木; Yamato Suzuki
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2014-11-27
Filing date: 2014-11-27
Publication date: 2016-06-02

Abstract

【課題】ユーザがより簡易に正しい音声入力を行うことができる「情報処理システム、音声入力装置及びコンピュータプログラム」を提供する。【解決手段】音声認識エンジン２は、ユーザの発話を音声認識し、複数の認識候補と認識候補のスコアを算出する。アプリケーション５は、スコア最上位の第１認識候補の信頼性が大きい場合には第１認識候補を音声入力内容とする処理を行う。他の場合には、第１認識候補を音声入力内容とする処理を開始すると共に、スコアが上位の認識候補のリストを表示し（ｂ）、リストから認識候補が選択された場合には（ｃ）、実行中の処理を取り消し、選択された認識候補を音声入力内容とする処理を開始すると共に、リストの表示を消去する（ｄ）。リストから認識候補が所定期間中に選択されなかった場合には、リストの表示を消去し、実行中の処理をそのまま継続する（ｅ）。【選択図】図４

Description

本発明は、情報処理システムにおいて音声入力を受け付ける技術に関するものである。

音声入力の技術としては、ユーザの発話にマッチする文字列の候補を認識候補として算出し、発話が表す文字列としての尤度を表すスコアが最大の認識候補のみを認識結果として提示すると共に、認識結果の提示後、所定期間内に訂正が指示されなかった場合に、認識結果を音声入力内容として処理する技術が知られている（たとえば、特許文献１）。

また、音声認識の技術としては、ユーザの発話にマッチする文字列の候補を認識候補として複数算出し、尤度を表すスコアが大きい所定数の認識候補のリストをユーザに対して提示すると共に、提示した複数の認識候補のうちからユーザによって選定された認識候補を音声入力内容として、音声入力内容に応じた処理を行う技術が知られている（たとえば、特許文献２）。

特開2009-003205号公報特表2008-164809号公報

上述したスコアが最大の認識候補を、そのまま音声入力内容として処理する技術によれば、自動車車内などの騒音が大きい環境下では、正しい音声入力が行えない可能性が比較的大きい。

一方、スコアが大きい所定数の認識候補のリストをユーザに対して提示すると共に、提示した複数の認識候補のうちからユーザによって選定された認識候補を音声入力内容として処理する技術によれば、認識候補のリスト中から音声入力内容とする認識候補を選定する作業が、音声入力を行う度に必要となってしまう。

また、ユーザが音声入力内容とする認識候補を選定する作業を行うまで、ユーザの発話で意図した処理（最終認識結果に応じた処理）が開始されないので、発話に対する処理実行の応答性が必ずしも充分ではない。

そこで、本発明は、本発明は、ユーザがより簡易に正しい音声入力を行うことができる情報処理システムを提供することを課題とする。
また、併せて、本発明は、ユーザの発話に対する、ユーザの発話で意図した処理実行の応答性を向上することを課題とする。

前記課題達成のために、本発明は、ユーザの音声入力を受け付け、音声入力を受け付けた内容である音声入力内容に応じた処理を行う情報処理システムに、ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が表す内容を音声入力内容に仮設定し、仮設定した音声入力内容に応じた処理を開始する処理先行開始部と、前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、前記処理先行開始部が開始した処理の実行を取り消し、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、当該確定した音声入力内容に応じた処理を開始する処理開始部とを備えたものである。

また、本発明は、前記課題達成のために、ユーザの音声入力を受け付け、音声入力を受け付けた内容である音声入力内容に応じた処理を行う情報処理システムに、ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであることの信頼度が所定のレベル以上であるかどうかを判定する判定部と、前記判定部が前記信頼度が所定のレベル以上であると判定した場合に、当該スコアが最大の認識候補が表す内容を音声入力内容に確定し、確定した音声入力内容に応じた処理を開始する第１音声入力処理部と、第２音声入力処理部とを備えたものである。ただし、第２音声入力処理部は、前記判定部が前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が表す内容を音声入力内容に仮設定し、仮設定した音声入力内容に応じた処理を開始する処理先行開始部と、前記判定部が、前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、前記処理先行開始部が開始した処理の実行を取り消し、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、確定した音声入力内容に応じた処理を開始する処理開始部とを備えたものである。

ここで、このような情報処理システムは、前記判定部において、前記スコアが最大の認識候補のスコアと二番目に大きいスコアが大きい認識候補のスコアとの差が、所定の値以上である場合に、前記信頼度が所定のレベル以上であると判定し、前記所定の値未満である場合に、前記信頼度が所定のレベル以上でないと判定するように構成してもよい。

なお、以上の情報処理システムは、より具体的には、前記リスト表示部が前記所定期間内に、認識候補の選定を受け付けなかった場合には、前記仮設定した音声入力内容は音声入力内容に確定され、前記処理先行開始部が開始した処理は継続されるものであってよい。

ここで、以上の情報処理システムは、前記処理先行開始部において、仮設定した音声入力内容に応じた処理を開始する際に、前記スコアが最大の認識候補が表す内容を、前記リストとは別に表示するように構成してもよい。

または、以上の情報処理システムに、第１の表示装置と第２の表示装置とを備え、前記処理先行開始部において、仮設定した音声入力内容に応じた処理を開始する際に、前記スコアが最大の認識候補が表す内容を前記第１の表示装置に表示し、前記リスト表示部において、前記リストを前記第２の表示装置に表示するようにしてもよい。また、この場合には、前記音声入力内容に応じた処理は、当該処理の実行中、前記第１の表示装置への表示を行う処理であってもよい。

また、以上の情報処理システムは、前記リスト表示部において、前記スコアが最大の認識候補のスコアとの差が所定のしきい値以内のスコアの認識候補のリストを表示するように構成してもよい。

以上のような情報処理システムによれば、ユーザの発話音声に対して正しい認識結果が、スコアが最大の認識候補と算定された場合には、ユーザは、追加的な操作を行わなくても、正しい音声入力を行うことができる。また、スコアが最大の認識候補がユーザの発話音声に対して正しい認識結果でない場合でも、スコアが上位の認識候補のリストを用いて、正しい認識結果を表す認識候補を選択することにより、正しい音声入力を行うことができる。

また、ユーザの発話音声に対して認識されたスコアが最大の認識候補を音声入力内容とする処理は、常に即座に開始されるので、スコアが最大の認識候補がユーザの発話音声に対して正しい認識結果でない場合にも正しい音声入力が行えることを担保しつつ、ユーザの発話音声に対して正しい認識結果がスコアが最大の認識候補と算定された場合における処理の応答性を向上することができる。

また、前記課題達成のために、本発明は、ユーザの音声入力を受け付ける音声入力装置に、ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、前記リスト表示部が所定期間内に認識候補の選定を受け付けた場合に、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、前記リスト表示部が所定期間内に認識候補の選定を受け付けなかった場合に、前記スコアが最大の認識候補が表す内容を音声入力内容に確定する音声入力内容確定部とを備えたものである。

また、本発明は、前記課題達成のために、ユーザの音声入力を受け付ける音声入力装置に、ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであることの信頼度が所定のレベル以上であるかどうかを判定する判定部と、前記判定部が前記信頼度が所定のレベル以上であると判定した場合に、当該スコアが最大の認識候補が表す内容を音声入力内容に確定する第１音声入力処理部と、第２音声入力処理部とを備えたものである。

ここで、第２音声入力処理部は、前記判定部が、前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、前記リスト表示部が所定期間内に認識候補の選定を受け付けなかった場合に、前記スコアが最大の認識候補が表す内容を音声入力内容に確定する音声入力内容確定部とを備えている。

以上のような音声入力装置によれば、ユーザの発話音声に対して正しい認識結果が、スコアが最大の認識候補と算定された場合には、ユーザは、追加的な操作を行わなくても、正しい音声入力を行うことができる。また、スコアが最大の認識候補がユーザの発話音声に対して正しい認識結果でない場合でも、スコアが上位の認識候補のリストを用いて、正しい認識結果を表す認識候補を選択することにより、正しい音声入力を行うことができる。

以上のように、本発明によれば、ユーザがより簡易に正しい音声入力を行うことができる情報処理システムを提供することができる。また、本発明によれば、ユーザの発話に対する、ユーザの発話で意図した処理実行の応答性を向上することができる。

本発明の実施形態に係る情報処理システムの構成を示すブロック図である。本発明の実施形態に係る音声入力処理を示すフローチャートである。本発明の実施形態に係る音声入力処理の処理例を示す図である。本発明の実施形態に係る音声入力処理の処理例を示す図である。本発明の実施形態に係る音声入力処理の処理例を示す図である。本発明の実施形態に係る音声入力処理の処理例を示す図である。本発明の実施形態に係る音声入力処理の処理例を示す図である。

以下、本発明の実施形態に係る情報処理システムについて説明する。
図示するように、情報処理システムは、マイクロフォン１、音声認識エンジン２、音声認識辞書３、オペレーティングシステム４、アプリケーション５、メインディスプレイ６、サブディスプレイ７、スピーカに音声を出力する音声出力装置９、入力装置９、記憶装置１０を備えている。

但し、情報処理システムは、ハードウエア的には、ＣＰＵやメモリなどを備えたコンピュータを用いて構成されるものであり、音声認識エンジン２、音声認識辞書３、オペレーティングシステム４、アプリケーション５などは、当該コンピュータが、所定のコンピュータプログラムを実行することにより実現されるものである。

さて、情報処理システムは、自動車に搭載されるシステムであり、メインディスプレイ６はダッシュボード上やクラスタ内に配置され、サブディスプレイ７はセンターコンソール等に配置されている。

また、入力装置９は、サブディスプレイ７の表示面上に配置されたタッチパネルや、リモートコントロール装置などである。
このような構成において、音声認識エンジン２は、音声認識開始を指示されるとマイクロフォン１から入力するユーザの発話音声に対して音声認識辞書３を用いて音声認識処理を行い、ユーザの発話にマッチする文字列の候補を認識候補として、認識候補の発話が表す文字列としての尤度を表すスコアと共に算出する。

また、アプリケーション５は、たとえば、記憶装置１０に記憶されている地図データを用いて現在位置の提示や目的地までの経路案内を行うカーナビゲーションアプリケーションや、記憶装置１０に記憶されている楽曲を再生出力するミュージックプレイヤアプリケーションなどの、各々所定のサービスをユーザに提供するアプリケーションであり、各アプリケーション５は、それぞれ、オペレーティングシステム４を介して、メインディスプレイ６とサブディスプレイ７と入力装置９と音声出力装置９とを用いたユーザインタフェースをユーザに提供しながら、各々の処理を行う。また、各アプリケーション５は、それぞれ、オペレーティングシステム４を介して音声認識エンジン２を用いて、ユーザから音声入力を受け付け、音声入力で受け付けた内容に応じた処理を行う。

以下、このような構成において、各アプリケーション５が、音声認識エンジン２を用いて、ユーザからの音声入力を受け付けるために行う音声入力処理について説明する。
ここで、この音声入力処理は、入力装置９を用いたユーザからの音声入力開始の指示の入力が発生したときに、アプリケーション５によって行われる。なお、音声入力開始の指示は、たとえば、入力装置９の一つとして設けたトークスイッチの押し下げなどによって受け付ける。

図２に、音声入力処理について説明する。
図示するように、この処理では、まず、音声認識エンジン２に音声認識開始を指示する（ステップ２０２）。
音声認識エンジン２は、音声認識開始を指示されると、マイクロフォン１から入力するユーザの発話音声に対する音声認識辞書３を用いた音声認識処理を開始し、ユーザの発話にマッチする文字列の候補を認識候補を、認識候補の発話が表す文字列としての尤度を表すスコアと共に算出し、認識結果としてアプリケーション５に応答する。

次に、アプリケーション５は、音声認識エンジン２から、認識結果として、認識候補と認識候補のスコアを受け取ったならば（ステップ２０４）、音声認識エンジン２から得られた認識候補のうちスコアが最大の認識候補を第１候補、スコアが２番目に大きな認識候補を第２候補として、第１候補と第２候補のスコアの差が所定のしきい値Th1より大きいかどうかを調べる（ステップ２０６）。ここで、しきい値Th1は、第１候補と第２候補のスコアの差がしきい値Th1以上であれば、第１候補がユーザの発話音声を正しく認識したものであることの信頼度が充分に大きいと見なせる値を用いる。

そして、スコアの差がしきい値Th1より大きい場合には（ステップ２０６）、第１候補を、ユーザから入力された文字列である音声入力内容として受け付け、音声入力内容に応じた処理を開始する（ステップ２０８）。

そして、音声入力処理を終了する。
一方、ステップ２０６で、第１候補と第２候補のスコアの差が所定のしきい値Th1より大きくないと判定された場合には、アプリケーション５の現在の状態をレジューム情報として保存した上で（ステップ２１０）。第１候補を音声入力内容として仮受け付けし、音声入力内容に応じた処理を開始する（ステップ２１４）。

そして、仮受け付けした音声入力内容をメインディスプレイ６に表示すると共に（ステップ２１４）、第１候補の以外のスコアが上位の認識候補をスコア順に並べたリストをサブディスプレイ７に表示する（ステップ２１６）。ここで、第１候補の以外のスコアが上位の認識候補としては、たとえば、第１候補とのスコアの差がしきい値Th1以内の認識候補を用いる。

次に、所定のタイムアウト時間(たとえば４秒)を設定したタイマをスタートし（ステップ２１８）、ユーザのキャンセル操作の発生と（ステップ２２０）と、サブディスプレイ７に表示したリスト内の認識候補の選択の受付の発生と（ステップ２２２）と、その他のユーザ操作の発生と（ステップ２２４）、タイマのタイムアウトの発生と（ステップ２２６）を監視する。なお、その他のユーザ操作には、新たな音声入力開始の指示操作も含まれる。

そして、キャンセル操作が発生したならば（ステップ２２０）、アプリケーション５の状態をステップ２１０で保存したレジューム情報が示す状態に復帰し（ステップ２３０）、音声入力処理を終了する。ここで、アプリケーション５の状態をステップ２１０で保存したレジューム情報が示す状態に復帰すると、ステップ２１２で開始した第１候補である音声入力内容に応じた処理は終了されると共に、メインディスプレイ６の音声入力内容の表示とサブディスプレイ７のリストの表示は消去され、アプリケーション５の表示の状態や処理実行の状態は、レジューム情報を保存した時点の表示状態、処理状態に復帰する。

一方、サブディスプレイ７に表示したリスト内の認識候補の選択の受付が発生した場合には（ステップ２２２）、アプリケーション５の状態をステップ２１０で保存したレジューム情報が示す状態に復帰した上で、選択された認識候補を音声入力内容として受け付け、音声入力内容に応じた処理を開始する（ステップ２３２）。そして、音声入力処理を終了する。

一方、その他のユーザ操作が発生するか（ステップ２２４）、タイマのタイムアウトが発生した場合には（ステップ２２６）、メインディスプレイ６の音声入力内容の表示とサブディスプレイ７のリストの表示を消去し（ステップ２２８）、音声入力処理を終了する。

以上、アプリケーション５が行う音声入力処理について説明した。
以下、このような音声入力処理の処理例について説明する。
いま、情報処理システムにおいて、カーナビゲーションアプリケーションと、ミュージックプレイヤアプリケーションが稼働しており、図３ａに示すように、カーナビゲーションアプリケーションがメインディスプレイ６に地図上に現在位置を表したナビゲーション用の画面であるナビゲーション画面を表示し、ミュージックプレイヤアプリケーションがサブディスプレイ７に音楽再生操作受付及び再生中楽曲情報提示用の画面であるプレイヤコントロール画面を表示しているものとする。

この状態で、ミュージックプレイヤアプリケーションが、楽曲を再生対象とするアーティストの指定を待っている状態で、音声入力開始の指示が発生し、ユーザが「Maria Curie」と発話し、当該発話に対して音声認識エンジン２が、認識候補「Maria Curie」を、第１候補として算出し、かつ、第１候補のスコアが第２候補のスコアよりもしきい値Th1以上大きい場合、図３ｂに示すように、ミュージックプレイヤアプリケーションは、第１候補「Maria Curie」を再生対象とするアーティストとして受け付け、アーティスト「Maria Carey」の楽曲の再生を開始し、プレイヤコントロール画面が再生中の「Maria Curie」の楽曲の情報を提示するものに変化する。

一方、図３ａの場合と同様に、図４ａに示すように、カーナビゲーションアプリケーションがメインディスプレイ６にナビゲーション画面を表示し、ミュージックプレイヤアプリケーションがサブディスプレイ７にプレイヤコントロール画面を表示しているときに、ミュージックプレイヤアプリケーションに対する、楽曲を再生対象とするアーティストの音声入力開始の指示が発生し、ユーザが「Maria Curie」と発話し、当該発話に対して音声認識エンジン２が、スコアの大きい順に、認識候補「Maria Carey」、認識候補「Mariah Kerry」、認識候補「Maria Curie」、認識候補「Marina Saiiy」、認識候補「Marin Perry」が、第１候補「Maria Carey」とのスコアの差がしきい値Th1以内の認識候補として算出され、第１候補「Maria Carey」と第２候補「Mariah Kerry」のスコア差がしきい値Th1以上でなかった場合、図４ｂに示すようにミュージックプレイヤアプリケーションは、第１候補の「Maria Carey」を再生対象とするアーティストとして仮受け付けし、「Maria Carey」の楽曲の再生を開始し、メインディスプレイ６の上部に再生対象とするアーティストとして受け付けた認識候補「Maria Carey」を表示すると共に、サブディスプレイ７に、第１候補「Maria Carey」とのスコアの差がしきい値Th1以内の各認識候補認識候補「Mariah Kerry」、認識候補「Maria Curie」、認識候補「Marina Saiiy」、認識候補「Marin Perry」のリストを表示する。

そして、この状態のまま、一切のユーザ操作が発生することなく、所定時間（タイマのタイムアウト時間）が経過したならば、図４ｃに示すように、そのまま「Maria Carey」の楽曲の再生を継続すると共に、メインディスプレイ６の認識候補「Maria Carey」の表示と、サブディスプレイ７のリストの表示を消去する。これにより、サブディスプレイ７の表示は、プレイヤコントロール画面の表示に復帰し、プレイヤコントロール画面は、再生中の「Maria Carey」の楽曲の情報を提示するものとなる。

一方、図４ｂに示したようにメインディスプレイ６の上部に再生対象とするアーティストとして受け付けた認識候補「Maria Carey」を表示し、サブディスプレイ７にリストを表示している状態で、図４ｄに示すように、ユーザがリスト中の認識候補「Maria Curie」を選択操作すると、ミュージックプレイヤアプリケーションは、図４ｅに示すように、選択された認識候補「Maria Curie」を再生対象とするアーティストとして受け付け、「Maria Curie」の楽曲の再生を開始し、メインディスプレイ６の認識候補「Maria Carey」の表示と、サブディスプレイ７のリストの表示を消去する。これにより、サブディスプレイ７の表示は、プレイヤコントロール画面の表示に復帰し、プレイヤコントロール画面は、再生中の「Maria Curie」の楽曲の情報を提示するものとなる。

次に、図５に、音声入力処理の他の処理例を示す。
いま、情報処理システムにおいて、カーナビゲーションアプリケーションと、ミュージックプレイヤアプリケーションが稼働しており、図５ａに示すように、カーナビゲーションアプリケーションがメインディスプレイ６にナビゲーション画面を表示し、ミュージックプレイヤアプリケーションがサブディスプレイ７にプレイヤコントロール画面を表示しているものとする。

この状態において、カーナビゲーションアプリケーションが目的地とする施設の指定を待っている状態で音声入力開始の指示が発生し、ユーザが「カフェタイム」と発話し、当該発話に対して音声認識エンジン２が、スコアの大きい順に、認識候補「カフェライム」、認識候補「カフェタイム」、認識候補「カフェライズ」、認識候補「カフェチャイム」が、第１候補「カフェライム」とのスコアの差がしきい値Th1以内の認識候補として算出されたものとする。

この場合、第１候補「カフェライム」と第２候補「カフェタイム」のスコア差がしきい値Th1以上であれば、カーナビゲーションアプリケーションは、第１候補「カフェライム」を目的地とする施設として受け付けて、図５ｂに示すように、メインディスプレイ６のナビゲーション画面を「カフェライム」周辺の地図を表すナビゲーション画面に変更する。そして、図５ｂの状態で、メインディスプレイ６のナビゲーション画面の目的地設定ボタンが操作された場合には、「カフェライム」を目的地に設定する。

一方、第１候補「カフェライム」と第２候補「カフェタイム」のスコア差がしきい値Th1以上でなければ、カーナビゲーションアプリケーションは、第１候補「カフェライム」を目的地とする施設として仮受け付けし、図５ｃに示すように、メインディスプレイ６のナビゲーション画面を「カフェライム」周辺の地図を表すナビゲーション画面に変更すると共に、メインディスプレイ６の上部に目的地とする施設として仮受け付けした第１候補「カフェライム」を表示すると共に、サブディスプレイ７に、認識候補「カフェタイム」、認識候補「カフェライズ」、認識候補「カフェチャイム」のリストを表示する。

そして、図５ｃの状態のまま、一切のユーザ操作が発生することなく、所定時間（タイマのタイムアウト時間）が経過したならば、図５ｂに示すように、メインディスプレイ６の第１候補「カフェライム」の表示と、サブディスプレイ７のリストの表示を消去し、サブディスプレイ７の表示を、プレイヤコントロール画面の表示に復帰する。

また、図５ｃの状態で、メインディスプレイ６のナビゲーション画面の目的地設定ボタンが操作された場合には、音声入力処置のステップ２２４の他ユーザ操作として受けつけ、メインディスプレイ６の第１候補「カフェライム」の表示と、サブディスプレイ７のリストの表示を消去し、サブディスプレイ７の表示をプレイヤコントロール画面の表示に復帰すると共に、目的地設定ボタンの操作に対応する処理として、第１候補「カフェライム」を目的地に設定する。

また、図５ｃの状態で、図５ｄに示すように、サブディスプレイ７のリスト中の認識候補「カフェタイム」が選択操作された場合には、認識候補「カフェタイム」を目的地とする施設として受け付けて、図５ｅに示すように、メインディスプレイ６のナビゲーション画面を「カフェタイム」周辺の地図を表すナビゲーション画面に変更すると共に、メインディスプレイ６の第１候補「カフェライム」の表示と、サブディスプレイ７のリストの表示を消去し、サブディスプレイ７の表示をプレイヤコントロール画面の表示に復帰する。

そして、図５ｅのメインディスプレイ６のナビゲーション画面で目的地設定ボタンが操作されたならば、「カフェタイム」を目的地に設定する。
次に、図６に音声入力処理の他の例を示す。
いま、情報処理システムにおいて、カーナビゲーションアプリケーションと、ミュージックプレイヤアプリケーションが稼働しており、図６ａに示すように、カーナビゲーションアプリケーションがメインディスプレイ６に、住所検索のための都道府県名一覧画面を表示し、ミュージックプレイヤアプリケーションがサブディスプレイ７にプレイヤコントロール画面を表示しているものとする。なお、住所検索のための都道府県名一覧画面を表示しているときには、カーナビゲーションアプリケーションは都道府県の指定を待っている状態にあり、この状態で、音声入力開始の指示が発生すると、都道府県の音声入力を受け付けるための音声入力処理を開始する。

さて図６ａの状態で、音声入力開始の指示が発生し、ユーザが「福島県」と発話し、当該発話に対して音声認識エンジン２が、認識候補「徳島県」を、第１候補として算出し、かつ、第１候補のスコアが第２候補のスコアよりもしきい値Th1以上大きい場合、第１候補の「徳島県」を音声入力内容として受け入れ、「徳島県」の市町村一覧画面をメインディスプレイ６に表示し、都道府県の音声入力を受け付けるための音声入力処理を終了する。

一方、第１候補「徳島県」のスコアが第２候補のスコアよりもしきい値Th1以上大きくない場合には、図６ｂに示すように、第１候補の「徳島県」を音声入力内容として受け入れて「徳島県」の市町村一覧画面をメインディスプレイ６に表示すると共に、第１候補とのスコア差がしきい値Th1以内の認識候補「福島県」、認識候補「福岡県」のリストを表示する。

そして、図６ｂの状態のまま、ユーザ操作が発生することなく、所定時間（タイマのタイムアウト時間）が経過したならば、サブディスプレイ７のリストの表示を消去し、サブディスプレイ７の表示をプレイヤコントロール画面の表示に復帰して、都道府県の音声入力を受け付けるための音声入力処理を終了する。一方、カーナビゲーションアプリケーションは市町村一覧画面を表示しているときには、市町村の指定を待っている状態にあり、サブディスプレイ７の表示をプレイヤコントロール画面の表示に復帰した状態で、音声入力開始の指示が発生したならば、「徳島県」の市町村指定のための音声入力処理を開始する。

一方、図６ｂの状態で音声入力開始の指示が発生したならば、音声入力処理では、他ユーザ操作として、ステップ２２４の他ユーザ操作として受けつけ、サブディスプレイ７のリストの表示を消去し、サブディスプレイ７の表示をプレイヤコントロール画面の表示に復帰して、都道府県の音声入力を受け付けるための音声入力処理を終了する。カーナビゲーションアプリケーションは市町村一覧画面を表示しているときには、市町村の指定を待っている状態にあり、サブディスプレイ７の表示をプレイヤコントロール画面の表示に復帰した状態で、音声入力開始の指示が発生したならば、「徳島県」の市町村指定のための音声入力処理を開始する。

また、図６ｂの状態で、図６ｃに示すように、サブディスプレイ７のリスト中の認識候補「福島県」の選択操作が発生した場合には、「福島県」を音声入力内容として受け入れ、図６ｄに示すように、「福島県」の市町村一覧画面をメインディスプレイ６に表示すると共に、サブディスプレイ７のリストの表示を消去し、サブディスプレイ７の表示をプレイヤコントロール画面の表示に復帰し、都道府県の音声入力を受け付けるための音声入力処理を終了する。

そして、図６ｄの状態で、音声入力開始の指示が発生したならば、「福島県」の市町村指定のための音声入力処理を開始する。
そして、以下、都道府県の音声入力の受け付けと同様に、市町村の音声入力の受け付け、町名の音声入力の受け付け、番地の音声入力の受け付けを行い、完全な住所の入力の受け付けを完了したならば、カーナビゲーションアプリケーションは、入力を受け付けた住所の目的地としての設定や、入力を受け付けた住所の地図上での表示や、入力を受け付けた住所の電話番号の表示などの予め定めておいた処理を行う。

以上、本発明の実施形態について説明した。
以上のように、本実施形態によれば、ユーザの発話音声に対して音声認識エンジン２が認識したスコアが最大の認識候補とスコアが二番目の認識候補とのスコア差がしきい値Th1以上であって、スコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであることの信頼度が充分である場合には、スコアが最大の認識候補を直ちに音声入力内容として受け付け、音声入力内容に応じた処理を行う。

一方、信頼度がスコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであると見なせるほど大きくない場合には、スコアが最大の認識候補を音声入力内容として仮受け付けし、仮受け付けした音声入力内容に応じた処理を開始しつつ、上位の認識候補のリストを表示し、ユーザの認識候補の選択を受け付ける。

そして、所定期間内にリストを用いた認識候補の選択操作が発生しなかった場合には、そのままスコアが最大の認識候補を音声入力内容として開始した処理を継続し、所定期間内にリストを用いた認識候補の選択操作が発生した場合にのみ、スコアが最大の認識候補を音声入力内容として開始した処理を取り消して選択された認識候補を音声入力内容として音声入力内容に応じた処理を開始する。

したがって、ユーザの発話音声に対して正しい認識結果が、スコアが最大の認識候補と算定された場合には、ユーザは、追加的な操作を行わなくても、正しい音声入力を行うことができる。また、スコアが最大の認識候補がユーザの発話音声に対して正しい認識結果でない場合でも、スコアが上位の認識候補のリストを用いて、正しい認識結果を表す認識候補を選択することにより、正しい音声入力を行うことができる。

ところで、以上の実施形態の音声入力処理は、ステップ２０６を、第１候補のスコアが所定値以上のスコアである場合にステップ２０８に進み、第１候補のスコアが所定値以上のスコアでない場合にステップ２１０に進む処理としてもよい。また、音声入力処置のステップ２１６は、スコアが上位のｎ個の認識候補のうちの第１候補を除くｎ-1個の認識候補のリストをサブディスプレイ７に表示する処理としたり、スコアが第２のしきい値Th2(Th2＜Th1)以上の認識候補のリストを表示する処理としてもよい。また、ステップ２１６で表示するリストには、第１候補も表示するようにしてもよく、また、この場合にはリスト中の第１候補は選択不可であることが視認できるようにコントラストを下げた形態や網がけした形態で表示すると共に、第１候補の選択は受け付けないようにしてもよい。

また、以上の実施形態の音声入力処理は、ステップ２０６と２０８を無くし、ステップ２０４で音声認識エンジン２から認識結果を受け取ったならばステップ２１０に進む処理とするようにしてもよい。すなわち、音声入力の際には、常に認識候補のリストを表示するようにしてもよい。

また、以上の実施形態は、情報処理システムがメインディスプレイ６とサブディスプレイ７との二つのディスプレイを備えている場合について説明したが、情報処理システムは単一のディスプレイのみを備えている場合にも、以上の音声入力処理は、当該音声入力処理で行う表示を、情報処理システムが備える単一のディスプレイに対して行うことにより同様に適用することができる。

すなわち、たとえば、カーナビゲーションアプリケーションと、ミュージックプレイヤアプリケーションが稼働しており、図７ａに示すように、ディスプレイにはカーナビゲーションアプリケーションのナビゲーション画面を表示し、ミュージックプレイヤアプリケーションはバックグランドで動作して楽曲の再生出力を行う情報処理システムの、ミュージックプレイヤアプリケーションに対する、楽曲を再生対象とするアーティストの指定のための音声入力に、以上の音声入力処理を適用する場合には、図７ｂに示すように、音声入力処理のステップ３１４で音声入力内容として受け付けた第１候補をディスプレイの上部に表示すると共に、ステップ２１６において、ディスプレイの表示画面を二分割して、一方にナビゲーション画面を、他方に認識候補のリストを表示して、リスト中の認識候補の選択を受け付けるようにすればよい。

また、以上の実施形態における音声入力処理は、アプリケーション５と、オペレーティングシステム４や音声認識エンジン２とが分担して行うようにしてもよい。すなわち、たとえば、第２候補とのスコア差がしき値Th1以上の第１候補を音声入力内容として受け付け、または、仮受け付けする処理や、認識候補のリストの表示や、リスト中からの認識候補を受け付けて音声入力内容として受け付ける処理などは音声認識エンジン２やオペレーティングシステム４において行うようにしてもよい。

ここで、以上の実施形態における音声入力処理の技術は、自動車に搭載される情報処理システムのみならず、音声入力を行う任意の情報処理システムに適用することができる。

１…マイクロフォン、２…音声認識エンジン、３…音声認識辞書、４…オペレーティングシステム、５…アプリケーション、６…メインディスプレイ、７…サブディスプレイ、９…音声出力装置、９…入力装置、１０…記憶装置。

Claims

ユーザの音声入力を受け付け、音声入力を受け付けた内容である音声入力内容に応じた処理を行う情報処理システムであって、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、
前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が表す内容を音声入力内容に仮設定し、仮設定した音声入力内容に応じた処理を開始する処理先行開始部と、
前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、
前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、前記処理先行開始部が開始した処理の実行を取り消し、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、当該確定した音声入力内容に応じた処理を開始する処理開始部とを有することを特徴とする情報処理システム。
ユーザの音声入力を受け付け、音声入力を受け付けた内容である音声入力内容に応じた処理を行う情報処理システムであって、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、
前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであることの信頼度が所定のレベル以上であるかどうかを判定する判定部と、
前記判定部が前記信頼度が所定のレベル以上であると判定した場合に、当該スコアが最大の認識候補が表す内容を音声入力内容に確定し、確定した音声入力内容に応じた処理を開始する第１音声入力処理部と、
第２音声入力処理部とを有し、
第２音声入力処理部は、
前記判定部が前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が表す内容を音声入力内容に仮設定し、仮設定した音声入力内容に応じた処理を開始する処理先行開始部と、
前記判定部が、前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、
前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、前記処理先行開始部が開始した処理の実行を取り消し、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、確定した音声入力内容に応じた処理を開始する処理開始部とを有することを特徴とする情報処理システム。
請求項２記載の情報処理システムであって、
前記判定部は、前記スコアが最大の認識候補のスコアと二番目に大きいスコアが大きい認識候補のスコアとの差が、所定の値以上である場合に、前記信頼度が所定のレベル以上であると判定し、前記所定の値未満である場合に、前記信頼度が所定のレベル以上でないと判定することを特徴とする情報処理システム。
請求項１、２または３記載の情報処理システムであって、
前記リスト表示部が前記所定期間内に、認識候補の選定を受け付けなかった場合には、前記仮設定した音声入力内容は音声入力内容に確定され、前記処理先行開始部が開始した処理は継続されることを特徴とする情報処理システム。
請求項１、２、３または４記載の情報処理システムであって、
前記処理先行開始部は、仮設定した音声入力内容に応じた処理を開始する際に、前記スコアが最大の認識候補が表す内容を、前記リストとは別に表示することを特徴とする情報処理システム。
請求項１、２、３または４記載の情報処理システムであって、
第１の表示装置と第２の表示装置とを備え、
前記処理先行開始部は、仮設定した音声入力内容に応じた処理を開始する際に、前記スコアが最大の認識候補が表す内容を前記第１の表示装置に表示し、
前記リスト表示部は、前記リストを前記第２の表示装置に表示することを特徴とする情報処理システム。
請求項６記載の情報処理システムであって、
前記音声入力内容に応じた処理は、当該処理の実行中、前記第１の表示装置への表示を行う処理であることを特徴とする情報処理システム。
請求項１、２、３、４、５、６または７記載の情報処理システムであって、
前記リスト表示部は、前記スコアが最大の認識候補のスコアとの差が所定のしきい値以内のスコアの認識候補のリストを表示することを特徴とする情報処理システム。
ユーザの音声入力を受け付ける音声入力装置であって、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、
前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、
前記リスト表示部が所定期間内に認識候補の選定を受け付けた場合に、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、前記リスト表示部が所定期間内に認識候補の選定を受け付けなかった場合に、前記スコアが最大の認識候補が表す内容を音声入力内容に確定する音声入力内容確定部とを有することを特徴とする音声入力装置。
ユーザの音声入力を受け付ける音声入力装置であって、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、
前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであることの信頼度が所定のレベル以上であるかどうかを判定する判定部と、
前記判定部が前記信頼度が所定のレベル以上であると判定した場合に、当該スコアが最大の認識候補が表す内容を音声入力内容に確定する第１音声入力処理部と、
第２音声入力処理部とを有し、
第２音声入力処理部は、
前記判定部が、前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、
前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、前記リスト表示部が所定期間内に認識候補の選定を受け付けなかった場合に、前記スコアが最大の認識候補が表す内容を音声入力内容に確定する音声入力内容確定部とを有することを特徴とする音声入力装置。
コンピュータによって読み取られ実行されるコンピュータプログラムであって、
前記コンピュータを、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、
前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が表す内容を音声入力内容に仮設定し、仮設定した音声入力内容に応じた処理を開始する処理先行開始部と、
前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、
前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、前記処理先行開始部が開始した処理の実行を取り消し、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、当該確定した音声入力内容に応じた処理を開始する処理開始部として機能させることを特徴とするコンピュータプログラム。
コンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、
前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであることの信頼度が所定のレベル以上であるかどうかを判定する判定部と、
前記判定部が前記信頼度が所定のレベル以上であると判定した場合に、当該スコアが最大の認識候補が表す内容を音声入力内容に確定し、確定した音声入力内容に応じた処理を開始する第１音声入力処理部と、
第２音声入力処理部として機能させるコンピュータプログラムであって、
第２音声入力処理部は、
前記判定部が前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が表す内容を音声入力内容に仮設定し、仮設定した音声入力内容に応じた処理を開始する処理先行開始部と、
前記判定部が、前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、
前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、前記処理先行開始部が開始した処理の実行を取り消し、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、確定した音声入力内容に応じた処理を開始する処理開始部とを有することを特徴とするコンピュータプログラム。
請求項１１または１２記載のコンピュータプログラムであって、
前記リスト表示部が前記所定期間内に、認識候補の選定を受け付けなかった場合には、前記仮設定した音声入力内容は音声入力内容に確定され、前記処理先行開始部が開始した処理は継続されることを特徴とするコンピュータプログラム。
コンピュータによって読み取られ実行されるコンピュータプログラムであって、
前記コンピュータを、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、
前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、
前記リスト表示部が所定期間内に認識候補の選定を受け付けた場合に、前記処理先行開始部が開始した処理の実行を取り消し、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、前記リスト表示部が所定期間内に認識候補の選定を受け付けなかった場合に、前記スコアが最大の認識候補が表す内容を音声入力内容に確定する音声入力内容確定部として機能させることを特徴とするコンピュータプログラム。
コンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識部と、
前記音声認識部が算出した認識候補のうちスコアが最大の認識候補が前記ユーザの発話音声を正しく認識したものであることの信頼度が所定のレベル以上であるかどうかを判定する判定部と、
前記判定部が前記信頼度が所定のレベル以上であると判定した場合に、当該スコアが最大の認識候補が表す内容を音声入力内容に確定する第１音声入力処理部と、
第２音声入力処理部として機能させるコンピュータプログラムであって、
第２音声入力処理部は、
前記判定部が、前記信頼度が所定のレベル以上でないと判定した場合に、前記音声認識部が算出したスコアが上位の複数の認識候補のうちのスコアが最大の認識候補を除く認識候補を少なくとも含むリストを表示し、ユーザによる前記リストの内から認識候補の選定を受け付けるリスト表示部と、
前記リスト表示部が所定期間内に、認識候補の選定を受け付けた場合に、選定を受け付けた認識候補が表す内容を音声入力内容に確定し、前記リスト表示部が所定期間内に認識候補の選定を受け付けなかった場合に、前記スコアが最大の認識候補が表す内容を音声入力内容に確定する音声入力内容確定部とを有することを特徴とするコンピュータプログラム。