JP6351440B2

JP6351440B2 - 音声認識装置及びコンピュータプログラム

Info

Publication number: JP6351440B2
Application number: JP2014173553A
Authority: JP
Inventors: 大和鈴木; 松本　修一; 修一松本
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2014-08-28
Filing date: 2014-08-28
Publication date: 2018-07-04
Anticipated expiration: 2034-08-28
Also published as: JP2016048338A

Description

本発明は、音声認識の技術に関するものである。

音声認識の技術としては、ユーザの発話にマッチする文字列の候補を認識候補として、発話が表す文字列としての尤度を表すスコアと共に算出し、スコアが最大の認識候補を認識結果として処理する技術が知られている（たとえば、特許文献１）。

また、音声認識の技術としては、ユーザの発話にマッチする文字列の候補を認識候補として、発話が表す文字列としての尤度を表すスコアと共に算出して、スコアが上位の複数の認識候補のリストをユーザに対して提示すると共に、提示した複数の認識候補のうちからユーザによって選定された認識候補を認識結果として処理する技術が知られている（たとえば、特許文献２）。

特開平10-097284号公報特表2005-530253号公報

上述したスコアが最大の認識候補を認識結果として処理する技術によれば、音声認識によって正しいユーザの発話内容が認識候補として算出された場合であっても、当該認識候補のスコアが最大でない場合には、他の認識候補が認識結果として処理されてしまうこととなる。そして、このような場合、ユーザが再度発話を行っても、ユーザが同様の発話を行う限り、前回と同様に、正しい発話内容とは異なる他の認識候補が認識結果として処理されてしまう蓋然性が大きい。したがって、この技術によれば、正しい発話内容ではない認識結果が得られた場合、ユーザは、正しい発話内容が認識結果として得られるように、発声の態様を変化させながら何度も繰り返し発話を行う煩雑な作業を行う必要がある。

一方、スコアが上位の複数の認識候補のリストをユーザに対して提示すると共に、提示した複数の認識候補のうちからユーザによって選定された認識候補を認識結果として処理する技術によれば、毎回、認識候補のリスト中から認識結果とする認識候補を選定する煩雑な作業が必要となってしまう。

そこで、本発明は、本発明は、ユーザがより簡易に、正しい認識結果を得ることのできる音声認識装置を提供することを課題とする。

前記課題達成のために、ユーザの発話音声を音声認識し入力文字列を確定する音声認識装置に、ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段とを備えたものである。ただし、当該入力文字列確定手段は、前記ユーザの発話音声に対する入力文字列の確定を、当該ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが最大の認識候補を自動的に入力文字列として確定する第１の形態、もしくは、当該形態と他の形態とを選択的に適用する第２の形態のいずれかで入力文字列の確定を行う第１のモードと、当該ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが上位の複数の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定する第２のモードととのいずれかで行い、かつ、当該入力文字列確定手段は、前記第１のモードでスコアが最大の認識候補を自動的に入力文字列として確定した後に、当該確定した入力文字列が発話音声の誤認識であることによるユーザの再発話が発生した場合に、当該再発話された発話音声に対する入力文字列の確定を前記第２のモードで行い、他の場合には、発話音声に対する入力文字列の確定を前記第１のモードで行うものである。

ここで、このような音声認識装置は、前記入力文字列確定手段が、前記第１のモードにおいて、ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差が所定のしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が所定のしきい値より大きくない場合に、最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定するように構成してもよい。

また、以上の音声認識装置は、前記入力文字列確定手段が、前記第２のモードにおいて、
ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが所定値以上の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定するように構成してもよい。

また、本発明は、前記課題達成のために、ユーザの発話音声を音声認識し入力文字列を確定する音声認識装置に、ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段とを備えたものである。ただし、当該入力文字列確定手段は、前記ユーザの発話音声に対する入力文字列の確定を、当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差が所定のしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が所定のしきい値より大きくない場合に、最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行うと共に、前記スコアが最大の認識候補を自動的に入力文字列として確定した後に、当該確定した入力文字列が発話音声の誤認識であることによるユーザの再発話が発生した場合に、前記所定のしきい値の値を増加させて、当該再発話された発話音声に対する入力文字列の確定を行うものである。

本発明に係る音声認識装置によれば、自動的にスコアが最大の認識候補を入力文字列として確定した場合において、当該確定した入力文字列が発話内容の誤認識であることによるユーザの再発話が発生した場合には、スコアが上位の複数の認識候補のリストを表示、または、当該リストが表示される蓋然性を高めることにより、ユーザが、複数の認識候補のうちから入力文字列として確定する認識候補の選択を行えるようにする。

したがって、本発明によれば、正しい発話内容を最大スコアの認識候補として算出できているときには自動的にスコアが最大の認識候補を入力文字列として確定することを継続してユーザ操作を簡便化しつつ、正しい発話内容を最大スコアの認識候補として算出できなかった場合には、ユーザの再発話に対して複数の認識候補のリストを表示して、ユーザが、当該再発話によって、正しい発話内容である認識候補の入力文字列としての確定を確実に行えるようすることができる。

以上のように、本発明によれば、ユーザがより簡易に、正しい認識結果を得ることのできる音声認識装置を提供することができる。

本発明の実施形態に係る音声認識装置の構成を示すブロック図である。本発明の実施形態に係る音声入力処理を示すフローチャートである。本発明の実施形態に係る音声入力処理の処理例を示す図である。本発明の実施形態に係る音声入力処理の他の例を示すフローチャートである。

以下、本発明の実施形態に係る情報処置システムについて説明する。
図示するように、情報処置システムは、マイクロフォン１、音声認識エンジン２、音声認識辞書３、音声入力制御部４、アプリケーション部５、ＧＵＩ制御部６、表示装置７、入力装置８を備えている。

但し、情報処理システムは、ハードウエア的には、ＣＰＵやメモリなどを備えたコンピュータを用いて構成されるものであり、音声認識エンジン２、音声認識辞書３、音声入力制御部４、アプリケーション部５、ＧＵＩ制御部６などは、当該コンピュータが、所定のコンピュータプログラムを実行することにより実現されるものである。

さて、このような構成において、音声認識エンジン２は、音声入力制御部４から音声認識開始を指示されると、マイクロフォン１から入力するユーザの発話音声に対して音声認識辞書３を用いて音声認識処理を行い、ユーザの発話にマッチする文字列の候補を認識候補として、認識候補の発話が表す文字列としての尤度を表すスコアと共に算出する。

音声入力制御部４は、ＧＵＩ制御部６を介して、表示装置７と入力装置８を用いたＧＵＩをユーザに提供しながら、ユーザの操作に従って音声認識エンジン２に音声認識開始を指示し、当該指示に応答して音声認識エンジン２が算出した認識候補とスコアに基づいて認識候補のうちから入力文字列を確定し、確定した入力文字列を、音声入力制御部４を用いた音声入力を利用しているアプリケーション部５に出力する音声入力処理を行う。この音声入力処理の詳細については後述する。

アプリケーション部５は、たとえば、カーナビゲーションアプリケーションや、ミュージックプレイヤアプリケーションなどの、各々所定のサービスをユーザに提供するアプリケーションであり、各アプリケーション部５は、それぞれ、ＧＵＩ制御部６を介して表示装置７と入力装置８を用いたサービス提供用のＧＵＩをユーザに提供する。

また、各アプリケーション部５は、音声入力制御部４を用いた音声入力を利用することができ、音声入力を利用しているアプリケーション部５は、音声入力制御部４から入力する入力文字列に対して所定の処理を行う。

所定の処理としては、たとえば、カーナビゲーションアプリケーションが行う、入力文字列に名称がマッチする施設の検索や、ュージックプレイヤアプリケーションが行う、入力文字列にタイトルやアルバム名やアーティスト名がマッチする楽曲の検索などがある。

以下、このような情報処理システムの構成において、上述のように音声入力制御部４が行う音声入力処理について説明する。
図２に、音声入力処理の手順を示す。
図示するように、音声入力処理において音声入力制御部４は、まず、動作モードとして自動確定モードを設定する（ステップ２０２）。
そして、入力装置８を用いたユーザからの音声入力開始の指示の入力を待ち（ステップ２０４）、音声入力開始の指示が発声したならば音声認識エンジン２に音声認識開始を指示し（ステップ２０６）、当該指示に応答して音声認識エンジン２で行われる音声認識処理によって、ユーザの発話に対する認識結果として得られた認識候補とスコアを取得する（ステップ２０８）。

そして、現在、動作モードとして自動確定モードが設定されているかどうかを調べ（ステップ２１０）、自動確定モードが設定されている場合には以下の処理を行う。
すなわち、動作モードとして自動確定モードが設定されている場合には（ステップ２１０）、音声認識エンジン２から得られた認識候補のうちスコアが最大の認識候補を第１候補、スコアが２番目に大きな認識候補を第２候補として、第１候補と第２候補のスコアの差が所定のしきい値Ｔｈｄより大きいかどうかを調べる（ステップ２１２）、
そして、スコアの差がしきい値Ｔｈｄより大きい場合には（ステップ２１２）、第１候補を入力文字列として確定し、音声入力を利用しているアプリケーション部５に出力する（ステップ２１４）。

そして、言い直しが発生（ステップ２１６）を監視する。
言い直しとは、ユーザが入力文字列として認識された発話をやり直すことであり、入力文字列としてアプリケーション部５に出力した文字列が誤認識であった場合に発生する。また、言い直しの発生の検出は、たとえば、以下のように検出する。

すなわち、まず、入力文字列を音声入力制御部４から入力されたアプリケーション部５において、入力文字列に対して行った処理の結果と共に表示装置７に表示した「戻る」ボタンの操作等により、入力文字列に対して行った処理のやり直しの指示をユーザから受け付けるようにする。そして、アプリケーション部５において、「戻る」ボタンの操作で、やり直しの指示を受け付けた場合に、音声入力制御部４に音声入力再実行指示を発行し、アプリケーション部５において、「戻る」ボタンの操作以外のユーザ操作が発生した場合には、音声入力成功をアプリケーション部５に通知する。
そして、音声入力制御部４において、入力文字列を出力したアプリケーション部５から、音声入力再実行指示を受け付けた場合に、言い直しの発生を検出し、入力文字列を出力したアプリケーション部５から、音声入力成功を通知された場合に、言い直し無しを検出するようにする。

ただし、言い直し/言い直し無しの検出は、他の手法によってもよく、ユーザが入力文字列として認識された発話をやり直すことの有無を検出できるものであれば、どのような態様によるものであってもよい。

そして、言い直しが発生していなければ（ステップ２１６）、ステップ２０４に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
一方、言い直しが発生した場合には（ステップ２１６）、動作モードとして選択受付モードを設定した上で（ステップ２１８）、ステップ２０４に戻って、次のユーザからの音声入力開始の指示の入力を待つ。

一方、ステップ２１２で、第１候補と第２候補のスコアの差が所定のしきい値Ｔｈｄより大きくないと判定された場合には、第１候補となっている認識候補と、第１候補のスコアとスコアの差がしきい値Ｔｈｄ以内の認識候補とをスコア順に並べたリストを表示装置７に表示する（ステップ２２０）。

そして、ユーザのキャンセル操作（ステップ２２２）とリスト内の認識候補の選択の受付（ステップ２２４）との発生を監視する。なお、リスト内の認識候補の選択の受付（ステップ２２４）は、入力装置８への所定操作または音声認識エンジン２を利用して認識候補を特定する所定の発話音声を音声認識することにより行う。
そして、キャンセル操作が発生したならば（ステップ２２２）、ステップ２０４に戻って、次のユーザからの音声入力開始の指示の入力を待つ。

一方、リスト内の認識候補の選択の受付が発生した場合には（ステップ２２４）、選択された認識候補を入力文字列として確定し、音声入力を利用しているアプリケーション部５に出力する（ステップ２２６）。そして、ステップ２０４に戻って、次のユーザからの音声入力開始の指示の入力を待つ。

さて、ステップ２１０で動作モードとして自動確定モードが設定されていない、すなわち、動作モードとして選択受付モードが設定されていると判定された場合には、以下の処理を行う。

すなわち、選択受付モードが設定されている場合には、スコアが所定値Ｓ以上の認識候補をスコア順に並べたリストを表示装置７に表示する（ステップ２２８）。
そして、ユーザのキャンセル操作（ステップ２３０）とリスト内の認識候補の選択の受付（ステップ２３２）との発生を監視し、キャンセル操作が発生したならば（ステップ２３０）、動作モードを自動確定モードに復帰した上で（ステップ２３６）、ステップ２０４に戻って、次のユーザからの音声入力開始の指示の入力を待つ。

また、リスト内の認識候補の選択の受付が発生した場合には（ステップ２３２）、選択された認識候補を入力文字列として確定し、音声入力を利用しているアプリケーション部５に出力する（ステップ２３４）。そして、動作モードを自動確定モードに復帰した上で（ステップ２３６）、ステップ２０４に戻って、次のユーザからの音声入力開始の指示の入力を待つ。

以上、音声入力制御部４が行う音声入力処理について説明した。
以下、このような音声入力処理の処理例を示す。
いま、自動確定モードにあるときのユーザの「スターバイク」との発話に対して、図３ａに示すように認識候補／スコアが、「スターブック」／９０点、「スターバイク」／８４点、「スカイブック」／７９点、「スターバス」／６４点と、音声認識エンジン２によって算出されたものとする。

また、自動確定モードで用いるしきい値Ｔｈｄは５であり、選択受付モードで用いる所定値Ｓは７５であるものとする。
この場合、自動確定モードが設定されており、第１候補「スターブック」と第２候補「スターバイク」とのスコアの差が６としきい値Ｔｈｄ=５より大きいので、第１候補「スターブック」が入力文字列として自動的に確定しアプリケーション部５に出力されることとなる。

そして、この入力文字列「スターブック」が、ユーザの発話した「スターバイク」と異なるためにユーザが言い直しを行うと、選択受付モードが設定される。
そして、選択受付モードにおいて、ユーザが再度「スターバイク」と発話し、音声認識エンジン２によって、さきほどと同様に図３ａに示した認識候補／スコアが算出されたものとする。

すると、今度は、選択受付モードが設定されているので、スコアが所定値Ｓ=７５以上の認識候補「スターブック」、「スターバイク」、「スカイブック」のリストが、図３ｂに示すように表示される。なお、図３ｂ中の３０１は認識候補の選択を受け付けるための選択ボタン、３０２はキャンセル操作を受け付けるためのキャンセルボタンである。

したがって、ユーザは、今度は、図３ｂに示すリスト中より、自身が発話した「スターバイク」を選択し、入力文字列として確定することができるようになる。
以上、音声入力処理の処理例を示した。
なお、以上の音声入力処理は、ステップ２１２、２２０-２２６を廃すると共に、ステップ２１０を自動確定モードと判定されたときにステップ２１４に進む処理に変更し、自動確定モードが設定されているときには、無条件にスコアが最大の認識候補を入力文字列として確定する処理としてもよい。
以上のように、本実施形態に係る音声入力処理によれば、自動確定モードで、自動的にスコアが最大の認識候補を入力文字列として確定した場合において、当該確定した入力文字列がユーザの発話の誤認識であるために、ユーザの言い直しが発生した場合には、選択受付モードを設定し、ユーザの再発話に対しては、スコアの高い複数の認識候補のリストを表示し、リスト中から入力文字列として確定する認識候補の選択を受け付ける。

したがって、正しい発話内容を最大スコアの認識候補として算出できているときには自動的にスコアが最大の認識候補を入力文字列として確定することを継続してユーザ操作を簡便化しつつ、正しい発話内容を最大スコアの認識候補として算出できなかった場合には、次回のユーザの発話に対して複数の認識候補のリストを表示し、ユーザが、当該次回の発話によって、正しい発話内容である認識候補の入力文字列としての確定を確実に行えるようすることができる。

以上、本発明の実施形態について説明した。
ところで、以上の実施形態において音声入力制御部４は、音声入力処理としては、図２に示した音声入力処理に代えて、図４に示す音声入力処理を行うようにしてもよい。
すなわち、音声入力制御部４は、音声入力処理において、まず、しきい値Ｔｈｄを予め定めた標準値に設定する（ステップ４０２）。
そして、入力装置８を用いたユーザからの音声入力開始の指示の入力を待ち（ステップ４０４）、音声入力開始の指示が発声したならば音声認識エンジン２に音声認識開始を指示し（ステップ４０６）、当該指示に応答して音声認識エンジン２で行われる音声認識処理によって、ユーザの発話に対する認識結果として得られた認識候補とスコアを取得する（ステップ４０８）。

次に、音声認識エンジン２から得られた認識候補のうちスコアが最大の認識候補を第１候補、スコアが２番目に大きな認識候補を第２候補として、第１候補と第２候補のスコアの差が所定のしきい値Ｔｈｄより大きいかどうかを調べる（ステップ４１０）、
そして、スコアの差がしきい値Ｔｈｄより大きい場合には（ステップ４１０）、第１候補を入力文字列として確定し、音声入力を利用しているアプリケーション部５に出力する（ステップ４１２）。

そして、言い直しが発生したかどうかを調べる（ステップ４１４）
言い直しが発生していなければ（ステップ４１４）、ステップ４０２からの処理を行う。

一方、言い直しが発生した場合には（ステップ４１４）、しきい値Ｔｈｄを一段階（所定値）増加した上で（ステップ４１６）、ステップ４０４に戻って、次のユーザからの音声入力開始の指示の入力を待つ。

一方、ステップ４１０で、第１候補と第２候補のスコアの差が所定のしきい値Ｔｈｄより大きくないと判定された場合には、第１候補となっている認識候補と、第１候補のスコアとスコアの差がしきい値Ｔｈｄ以内の認識候補とをスコア順に並べたリストを表示装置７に表示する（ステップ４１８）。

そして、ユーザのキャンセル操作（ステップ４２０）とリスト内の認識候補の選択の受付（ステップ４２２）との発生を監視し、キャンセル操作が発生したならば（ステップ４２０）、ステップ４０２からの処理に戻る。

また、リスト内の認識候補の選択の受付が発生した場合には（ステップ４２２）、選択された認識候補を入力文字列として確定し、音声入力を利用しているアプリケーション部５に出力する（ステップ４２４）。そして、ステップ４０２からの処理に戻る。

以下、図４に示した音声入力処理の処理例を示す。
いま、ユーザの「スターバイク」との発話に対して、図３ａに示すように認識候補／スコアが、「スターブック」／９０点、「スターバイク」／８４点、「スカイブック」／７９点、「スターバス」／６４点と、音声認識エンジン２によって算出されたものとする。

また、しきい値Ｔｈｄは標準値に設定されており、その値は５であるものとする。
この場合、第１候補「スターブック」と第２候補「スターバイク」とのスコアの差が６としきい値Ｔｈｄ=５より大きいので、第１候補「スターブック」が入力文字列として自動的に確定しアプリケーション部５に出力されることとなる。

そして、この入力文字列「スターブック」が、ユーザの発話した「スターバイク」と異なるためにユーザが言い直しを行うと、しきい値Ｔｈｄが一段階増加される。ここでは、しきい値Ｔｈｄが標準値の５から１０に増加されたものとする。

そして、ユーザが再度「スターバイク」と発話し、音声認識エンジン２によって、さきほどと同様に図３ａに示した認識候補／スコアが算出されたものとする。
すると、今度は、第１候補「スターブック」と第２候補「スターバイク」とのスコアの差が６としきい値Ｔｈｄ=１０以内であるので、第１候補「スターブック」と第１候補「スターブック」とスコア差がしきい値Ｔｈｄ=１０以内の認識候補「スターバイク」とのリストが図３ｃに示すように表示される。

従って、ユーザは、今度は、図３ｃに示すリスト中より、自身が発話した「スターバイク」を選択し、入力文字列として確定することができるようになる。
以上、図４に示した音声入力処理の処理例を示した。
このように、図４に示した音声入力処理によっても正しい発話内容を最大スコアの認識候補として算出できているときには自動的にスコアが最大の認識候補を入力文字列として確定することを継続してユーザ操作を簡便化しつつ、正しい発話内容を最大スコアの認識候補として算出できなかった場合には、次回のユーザの発話に対して複数の認識候補のリストが表示され易くして、ユーザが、当該次回の発話によって正しい発話内容である認識候補の入力文字列として確定を、より確実に行えるようすることができる。

１…マイクロフォン、２…音声認識エンジン、３…音声認識辞書、４…音声入力制御部、５…アプリケーション部、６…ＧＵＩ制御部、７…表示装置、８…入力装置。

Claims

ユーザの発話音声を音声認識し入力文字列を確定する音声認識装置であって、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、
ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段とを有し、
当該入力文字列確定手段は、前記ユーザの発話音声に対する入力文字列の確定を、
当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差が所定のしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が所定のしきい値より大きくない場合に、当該スコアが最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行う第１のモードと、
当該ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが上位の複数の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定する第２のモードととのいずれかで行い、かつ、
当該入力文字列確定手段は、前記第１のモードでスコアが最大の認識候補を自動的に入力文字列として確定した後に、当該入力文字列が確定された発話をユーザがやり直す再発話が発生した場合に、当該再発話された発話音声に対する入力文字列の確定を前記第２のモードで行い、他の場合には、発話音声に対する入力文字列の確定を前記第１のモードで行うことを特徴とする音声認識装置。
請求項１記載の音声認識装置であって、
前記入力文字列確定手段は、前記第２のモードにおいて、
ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが所定値以上の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することを特徴とする音声認識装置。
ユーザの発話音声を音声認識し入力文字列を確定する音声認識装置であって、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、
ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段とを有し、
当該入力文字列確定手段は、
前記ユーザの発話音声に対する入力文字列の確定を、当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差がしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が前記しきい値より大きくない場合に、最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行うと共に、
前記スコアが最大の認識候補を自動的に入力文字列として確定した後に、当該入力文字列が確定された発話をユーザがやり直す再発話が発生した場合に、予め定めた標準値を増加させた値を前記しきい値の値として、当該再発話された発話音声に対する入力文字列の確定を行い、他の場合に、前記標準値を前記しきい値の値として、発話音声に対する入力文字列の確定を行うことを特徴とする音声認識装置。
コンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、
ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段として機能させるコンピュータプログラムであって、
当該入力文字列確定手段は、前記ユーザの発話音声に対する入力文字列の確定を、
当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差が所定のしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が所定のしきい値より大きくない場合に、当該スコアが最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行う第１のモードと、
当該ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが上位の複数の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定する第２のモードととのいずれかで行い、かつ、
当該入力文字列確定手段は、前記第１のモードでスコアが最大の認識候補を自動的に入力文字列として確定した後に、当該入力文字列が確定された発話をユーザがやり直す再発話が発生した場合に、当該再発話された発話音声に対する入力文字列の確定を前記第２のモードで行い、他の場合には、発話音声に対する入力文字列の確定を前記第１のモードで行うことを特徴とするコンピュータプログラム。
コンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、
ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段として機能させるコンピュータプログラムであって、
当該入力文字列確定手段は、
前記ユーザの発話音声に対する入力文字列の確定を、当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差がしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が前記しきい値より大きくない場合に、最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行うと共に、
前記スコアが最大の認識候補を自動的に入力文字列として確定した後に、当該入力文字列が確定された発話をユーザがやり直す再発話が発生した場合に、予め定めた標準値を増加させた値を前記しきい値の値として、当該再発話された発話音声に対する入力文字列の確定を行い、他の場合に、前記標準値を前記しきい値の値として、発話音声に対する入力文字列の確定を行うことを特徴とするコンピュータプログラム。