JP6351440B2 - 音声認識装置及びコンピュータプログラム - Google Patents

音声認識装置及びコンピュータプログラム Download PDF

Info

Publication number
JP6351440B2
JP6351440B2 JP2014173553A JP2014173553A JP6351440B2 JP 6351440 B2 JP6351440 B2 JP 6351440B2 JP 2014173553 A JP2014173553 A JP 2014173553A JP 2014173553 A JP2014173553 A JP 2014173553A JP 6351440 B2 JP6351440 B2 JP 6351440B2
Authority
JP
Japan
Prior art keywords
character string
recognition
input character
user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014173553A
Other languages
English (en)
Other versions
JP2016048338A (ja
Inventor
大和 鈴木
大和 鈴木
松本 修一
修一 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2014173553A priority Critical patent/JP6351440B2/ja
Publication of JP2016048338A publication Critical patent/JP2016048338A/ja
Application granted granted Critical
Publication of JP6351440B2 publication Critical patent/JP6351440B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声認識の技術に関するものである。
音声認識の技術としては、ユーザの発話にマッチする文字列の候補を認識候補として、発話が表す文字列としての尤度を表すスコアと共に算出し、スコアが最大の認識候補を認識結果として処理する技術が知られている(たとえば、特許文献1)。
また、音声認識の技術としては、ユーザの発話にマッチする文字列の候補を認識候補として、発話が表す文字列としての尤度を表すスコアと共に算出して、スコアが上位の複数の認識候補のリストをユーザに対して提示すると共に、提示した複数の認識候補のうちからユーザによって選定された認識候補を認識結果として処理する技術が知られている(たとえば、特許文献2)。
特開平10-097284号公報 特表2005-530253号公報
上述したスコアが最大の認識候補を認識結果として処理する技術によれば、音声認識によって正しいユーザの発話内容が認識候補として算出された場合であっても、当該認識候補のスコアが最大でない場合には、他の認識候補が認識結果として処理されてしまうこととなる。そして、このような場合、ユーザが再度発話を行っても、ユーザが同様の発話を行う限り、前回と同様に、正しい発話内容とは異なる他の認識候補が認識結果として処理されてしまう蓋然性が大きい。したがって、この技術によれば、正しい発話内容ではない認識結果が得られた場合、ユーザは、正しい発話内容が認識結果として得られるように、発声の態様を変化させながら何度も繰り返し発話を行う煩雑な作業を行う必要がある。
一方、スコアが上位の複数の認識候補のリストをユーザに対して提示すると共に、提示した複数の認識候補のうちからユーザによって選定された認識候補を認識結果として処理する技術によれば、毎回、認識候補のリスト中から認識結果とする認識候補を選定する煩雑な作業が必要となってしまう。
そこで、本発明は、本発明は、ユーザがより簡易に、正しい認識結果を得ることのできる音声認識装置を提供することを課題とする。
前記課題達成のために、ユーザの発話音声を音声認識し入力文字列を確定する音声認識装置に、ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段とを備えたものである。ただし、当該入力文字列確定手段は、前記ユーザの発話音声に対する入力文字列の確定を、当該ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが最大の認識候補を自動的に入力文字列として確定する第1の形態、もしくは、当該形態と他の形態とを選択的に適用する第2の形態のいずれかで入力文字列の確定を行う第1のモードと、当該ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが上位の複数の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定する第2のモードととのいずれかで行い、かつ、当該入力文字列確定手段は、前記第1のモードでスコアが最大の認識候補を自動的に入力文字列として確定した後に、当該確定した入力文字列が発話音声の誤認識であることによるユーザの再発話が発生した場合に、当該再発話された発話音声に対する入力文字列の確定を前記第2のモードで行い、他の場合には、発話音声に対する入力文字列の確定を前記第1のモードで行うものである。
ここで、このような音声認識装置は、前記入力文字列確定手段が、前記第1のモードにおいて、ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差が所定のしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が所定のしきい値より大きくない場合に、最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定するように構成してもよい。
また、以上の音声認識装置は、前記入力文字列確定手段が、前記第2のモードにおいて、
ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが所定値以上の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定するように構成してもよい。
また、本発明は、前記課題達成のために、ユーザの発話音声を音声認識し入力文字列を確定する音声認識装置に、ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段とを備えたものである。ただし、当該入力文字列確定手段は、前記ユーザの発話音声に対する入力文字列の確定を、当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差が所定のしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が所定のしきい値より大きくない場合に、最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行うと共に、前記スコアが最大の認識候補を自動的に入力文字列として確定した後に、当該確定した入力文字列が発話音声の誤認識であることによるユーザの再発話が発生した場合に、前記所定のしきい値の値を増加させて、当該再発話された発話音声に対する入力文字列の確定を行うものである。
本発明に係る音声認識装置によれば、自動的にスコアが最大の認識候補を入力文字列として確定した場合において、当該確定した入力文字列が発話内容の誤認識であることによるユーザの再発話が発生した場合には、スコアが上位の複数の認識候補のリストを表示、または、当該リストが表示される蓋然性を高めることにより、ユーザが、複数の認識候補のうちから入力文字列として確定する認識候補の選択を行えるようにする。
したがって、本発明によれば、正しい発話内容を最大スコアの認識候補として算出できているときには自動的にスコアが最大の認識候補を入力文字列として確定することを継続してユーザ操作を簡便化しつつ、正しい発話内容を最大スコアの認識候補として算出できなかった場合には、ユーザの再発話に対して複数の認識候補のリストを表示して、ユーザが、当該再発話によって、正しい発話内容である認識候補の入力文字列としての確定を確実に行えるようすることができる。
以上のように、本発明によれば、ユーザがより簡易に、正しい認識結果を得ることのできる音声認識装置を提供することができる。
本発明の実施形態に係る音声認識装置の構成を示すブロック図である。 本発明の実施形態に係る音声入力処理を示すフローチャートである。 本発明の実施形態に係る音声入力処理の処理例を示す図である。 本発明の実施形態に係る音声入力処理の他の例を示すフローチャートである。
以下、本発明の実施形態に係る情報処置システムについて説明する。
図示するように、情報処置システムは、マイクロフォン1、音声認識エンジン2、音声認識辞書3、音声入力制御部4、アプリケーション部5、GUI制御部6、表示装置7、入力装置8を備えている。
但し、情報処理システムは、ハードウエア的には、CPUやメモリなどを備えたコンピュータを用いて構成されるものであり、音声認識エンジン2、音声認識辞書3、音声入力制御部4、アプリケーション部5、GUI制御部6などは、当該コンピュータが、所定のコンピュータプログラムを実行することにより実現されるものである。
さて、このような構成において、音声認識エンジン2は、音声入力制御部4から音声認識開始を指示されると、マイクロフォン1から入力するユーザの発話音声に対して音声認識辞書3を用いて音声認識処理を行い、ユーザの発話にマッチする文字列の候補を認識候補として、認識候補の発話が表す文字列としての尤度を表すスコアと共に算出する。
音声入力制御部4は、GUI制御部6を介して、表示装置7と入力装置8を用いたGUIをユーザに提供しながら、ユーザの操作に従って音声認識エンジン2に音声認識開始を指示し、当該指示に応答して音声認識エンジン2が算出した認識候補とスコアに基づいて認識候補のうちから入力文字列を確定し、確定した入力文字列を、音声入力制御部4を用いた音声入力を利用しているアプリケーション部5に出力する音声入力処理を行う。この音声入力処理の詳細については後述する。
アプリケーション部5は、たとえば、カーナビゲーションアプリケーションや、ミュージックプレイヤアプリケーションなどの、各々所定のサービスをユーザに提供するアプリケーションであり、各アプリケーション部5は、それぞれ、GUI制御部6を介して表示装置7と入力装置8を用いたサービス提供用のGUIをユーザに提供する。
また、各アプリケーション部5は、音声入力制御部4を用いた音声入力を利用することができ、音声入力を利用しているアプリケーション部5は、音声入力制御部4から入力する入力文字列に対して所定の処理を行う。
所定の処理としては、たとえば、カーナビゲーションアプリケーションが行う、入力文字列に名称がマッチする施設の検索や、ュージックプレイヤアプリケーションが行う、入力文字列にタイトルやアルバム名やアーティスト名がマッチする楽曲の検索などがある。
以下、このような情報処理システムの構成において、上述のように音声入力制御部4が行う音声入力処理について説明する。
図2に、音声入力処理の手順を示す。
図示するように、音声入力処理において音声入力制御部4は、まず、動作モードとして自動確定モードを設定する(ステップ202)。
そして、入力装置8を用いたユーザからの音声入力開始の指示の入力を待ち(ステップ204)、音声入力開始の指示が発声したならば音声認識エンジン2に音声認識開始を指示し(ステップ206)、当該指示に応答して音声認識エンジン2で行われる音声認識処理によって、ユーザの発話に対する認識結果として得られた認識候補とスコアを取得する(ステップ208)。
そして、現在、動作モードとして自動確定モードが設定されているかどうかを調べ(ステップ210)、自動確定モードが設定されている場合には以下の処理を行う。
すなわち、動作モードとして自動確定モードが設定されている場合には(ステップ210)、音声認識エンジン2から得られた認識候補のうちスコアが最大の認識候補を第1候補、スコアが2番目に大きな認識候補を第2候補として、第1候補と第2候補のスコアの差が所定のしきい値Thdより大きいかどうかを調べる(ステップ212)、
そして、スコアの差がしきい値Thdより大きい場合には(ステップ212)、第1候補を入力文字列として確定し、音声入力を利用しているアプリケーション部5に出力する(ステップ214)。
そして、言い直しが発生(ステップ216)を監視する。
言い直しとは、ユーザが入力文字列として認識された発話をやり直すことであり、入力文字列としてアプリケーション部5に出力した文字列が誤認識であった場合に発生する。また、言い直しの発生の検出は、たとえば、以下のように検出する。
すなわち、まず、入力文字列を音声入力制御部4から入力されたアプリケーション部5において、入力文字列に対して行った処理の結果と共に表示装置7に表示した「戻る」ボタンの操作等により、入力文字列に対して行った処理のやり直しの指示をユーザから受け付けるようにする。そして、アプリケーション部5において、「戻る」ボタンの操作で、やり直しの指示を受け付けた場合に、音声入力制御部4に音声入力再実行指示を発行し、アプリケーション部5において、「戻る」ボタンの操作以外のユーザ操作が発生した場合には、音声入力成功をアプリケーション部5に通知する。
そして、音声入力制御部4において、入力文字列を出力したアプリケーション部5から、音声入力再実行指示を受け付けた場合に、言い直しの発生を検出し、入力文字列を出力したアプリケーション部5から、音声入力成功を通知された場合に、言い直し無しを検出するようにする。
ただし、言い直し/言い直し無しの検出は、他の手法によってもよく、ユーザが入力文字列として認識された発話をやり直すことの有無を検出できるものであれば、どのような態様によるものであってもよい。
そして、言い直しが発生していなければ(ステップ216)、ステップ204に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
一方、言い直しが発生した場合には(ステップ216)、動作モードとして選択受付モードを設定した上で(ステップ218)、ステップ204に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
一方、ステップ212で、第1候補と第2候補のスコアの差が所定のしきい値Thdより大きくないと判定された場合には、第1候補となっている認識候補と、第1候補のスコアとスコアの差がしきい値Thd以内の認識候補とをスコア順に並べたリストを表示装置7に表示する(ステップ220)。
そして、ユーザのキャンセル操作(ステップ222)とリスト内の認識候補の選択の受付(ステップ224)との発生を監視する。なお、リスト内の認識候補の選択の受付(ステップ224)は、入力装置8への所定操作または音声認識エンジン2を利用して認識候補を特定する所定の発話音声を音声認識することにより行う。
そして、キャンセル操作が発生したならば(ステップ222)、ステップ204に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
一方、リスト内の認識候補の選択の受付が発生した場合には(ステップ224)、選択された認識候補を入力文字列として確定し、音声入力を利用しているアプリケーション部5に出力する(ステップ226)。そして、ステップ204に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
さて、ステップ210で動作モードとして自動確定モードが設定されていない、すなわち、動作モードとして選択受付モードが設定されていると判定された場合には、以下の処理を行う。
すなわち、選択受付モードが設定されている場合には、スコアが所定値S以上の認識候補をスコア順に並べたリストを表示装置7に表示する(ステップ228)。
そして、ユーザのキャンセル操作(ステップ230)とリスト内の認識候補の選択の受付(ステップ232)との発生を監視し、キャンセル操作が発生したならば(ステップ230)、動作モードを自動確定モードに復帰した上で(ステップ236)、ステップ204に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
また、リスト内の認識候補の選択の受付が発生した場合には(ステップ232)、選択された認識候補を入力文字列として確定し、音声入力を利用しているアプリケーション部5に出力する(ステップ234)。そして、動作モードを自動確定モードに復帰した上で(ステップ236)、ステップ204に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
以上、音声入力制御部4が行う音声入力処理について説明した。
以下、このような音声入力処理の処理例を示す。
いま、自動確定モードにあるときのユーザの「スターバイク」との発話に対して、図3aに示すように認識候補/スコアが、「スターブック」/90点、「スターバイク」/84点、「スカイブック」/79点、「スターバス」/64点と、音声認識エンジン2によって算出されたものとする。
また、自動確定モードで用いるしきい値Thdは5であり、選択受付モードで用いる所定値Sは75であるものとする。
この場合、自動確定モードが設定されており、第1候補「スターブック」と第2候補「スターバイク」とのスコアの差が6としきい値Thd=5より大きいので、第1候補「スターブック」が入力文字列として自動的に確定しアプリケーション部5に出力されることとなる。
そして、この入力文字列「スターブック」が、ユーザの発話した「スターバイク」と異なるためにユーザが言い直しを行うと、選択受付モードが設定される。
そして、選択受付モードにおいて、ユーザが再度「スターバイク」と発話し、音声認識エンジン2によって、さきほどと同様に図3aに示した認識候補/スコアが算出されたものとする。
すると、今度は、選択受付モードが設定されているので、スコアが所定値S=75以上の認識候補「スターブック」、「スターバイク」、「スカイブック」のリストが、図3bに示すように表示される。なお、図3b中の301は認識候補の選択を受け付けるための選択ボタン、302はキャンセル操作を受け付けるためのキャンセルボタンである。
したがって、ユーザは、今度は、図3bに示すリスト中より、自身が発話した「スターバイク」を選択し、入力文字列として確定することができるようになる。
以上、音声入力処理の処理例を示した。
なお、以上の音声入力処理は、ステップ212、220-226を廃すると共に、ステップ210を自動確定モードと判定されたときにステップ214に進む処理に変更し、自動確定モードが設定されているときには、無条件にスコアが最大の認識候補を入力文字列として確定する処理としてもよい。
以上のように、本実施形態に係る音声入力処理によれば、自動確定モードで、自動的にスコアが最大の認識候補を入力文字列として確定した場合において、当該確定した入力文字列がユーザの発話の誤認識であるために、ユーザの言い直しが発生した場合には、選択受付モードを設定し、ユーザの再発話に対しては、スコアの高い複数の認識候補のリストを表示し、リスト中から入力文字列として確定する認識候補の選択を受け付ける。
したがって、正しい発話内容を最大スコアの認識候補として算出できているときには自動的にスコアが最大の認識候補を入力文字列として確定することを継続してユーザ操作を簡便化しつつ、正しい発話内容を最大スコアの認識候補として算出できなかった場合には、次回のユーザの発話に対して複数の認識候補のリストを表示し、ユーザが、当該次回の発話によって、正しい発話内容である認識候補の入力文字列としての確定を確実に行えるようすることができる。
以上、本発明の実施形態について説明した。
ところで、以上の実施形態において音声入力制御部4は、音声入力処理としては、図2に示した音声入力処理に代えて、図4に示す音声入力処理を行うようにしてもよい。
すなわち、音声入力制御部4は、音声入力処理において、まず、しきい値Thdを予め定めた標準値に設定する(ステップ402)。
そして、入力装置8を用いたユーザからの音声入力開始の指示の入力を待ち(ステップ404)、音声入力開始の指示が発声したならば音声認識エンジン2に音声認識開始を指示し(ステップ406)、当該指示に応答して音声認識エンジン2で行われる音声認識処理によって、ユーザの発話に対する認識結果として得られた認識候補とスコアを取得する(ステップ408)。
次に、音声認識エンジン2から得られた認識候補のうちスコアが最大の認識候補を第1候補、スコアが2番目に大きな認識候補を第2候補として、第1候補と第2候補のスコアの差が所定のしきい値Thdより大きいかどうかを調べる(ステップ410)、
そして、スコアの差がしきい値Thdより大きい場合には(ステップ410)、第1候補を入力文字列として確定し、音声入力を利用しているアプリケーション部5に出力する(ステップ412)。
そして、言い直しが発生したかどうかを調べる(ステップ414)
言い直しが発生していなければ(ステップ414)、ステップ402からの処理を行う。
一方、言い直しが発生した場合には(ステップ414)、しきい値Thdを一段階(所定値)増加した上で(ステップ416)、ステップ404に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
一方、ステップ410で、第1候補と第2候補のスコアの差が所定のしきい値Thdより大きくないと判定された場合には、第1候補となっている認識候補と、第1候補のスコアとスコアの差がしきい値Thd以内の認識候補とをスコア順に並べたリストを表示装置7に表示する(ステップ418)。
そして、ユーザのキャンセル操作(ステップ420)とリスト内の認識候補の選択の受付(ステップ422)との発生を監視し、キャンセル操作が発生したならば(ステップ420)、ステップ402からの処理に戻る。
また、リスト内の認識候補の選択の受付が発生した場合には(ステップ422)、選択された認識候補を入力文字列として確定し、音声入力を利用しているアプリケーション部5に出力する(ステップ424)。そして、ステップ402からの処理に戻る。
以下、図4に示した音声入力処理の処理例を示す。
いま、ユーザの「スターバイク」との発話に対して、図3aに示すように認識候補/スコアが、「スターブック」/90点、「スターバイク」/84点、「スカイブック」/79点、「スターバス」/64点と、音声認識エンジン2によって算出されたものとする。
また、しきい値Thdは標準値に設定されており、その値は5であるものとする。
この場合、第1候補「スターブック」と第2候補「スターバイク」とのスコアの差が6としきい値Thd=5より大きいので、第1候補「スターブック」が入力文字列として自動的に確定しアプリケーション部5に出力されることとなる。
そして、この入力文字列「スターブック」が、ユーザの発話した「スターバイク」と異なるためにユーザが言い直しを行うと、しきい値Thdが一段階増加される。ここでは、しきい値Thdが標準値の5から10に増加されたものとする。
そして、ユーザが再度「スターバイク」と発話し、音声認識エンジン2によって、さきほどと同様に図3aに示した認識候補/スコアが算出されたものとする。
すると、今度は、第1候補「スターブック」と第2候補「スターバイク」とのスコアの差が6としきい値Thd=10以内であるので、第1候補「スターブック」と第1候補「スターブック」とスコア差がしきい値Thd=10以内の認識候補「スターバイク」とのリストが図3cに示すように表示される。
従って、ユーザは、今度は、図3cに示すリスト中より、自身が発話した「スターバイク」を選択し、入力文字列として確定することができるようになる。
以上、図4に示した音声入力処理の処理例を示した。
このように、図4に示した音声入力処理によっても正しい発話内容を最大スコアの認識候補として算出できているときには自動的にスコアが最大の認識候補を入力文字列として確定することを継続してユーザ操作を簡便化しつつ、正しい発話内容を最大スコアの認識候補として算出できなかった場合には、次回のユーザの発話に対して複数の認識候補のリストが表示され易くして、ユーザが、当該次回の発話によって正しい発話内容である認識候補の入力文字列として確定を、より確実に行えるようすることができる。
1…マイクロフォン、2…音声認識エンジン、3…音声認識辞書、4…音声入力制御部、5…アプリケーション部、6…GUI制御部、7…表示装置、8…入力装置。

Claims (5)

  1. ユーザの発話音声を音声認識し入力文字列を確定する音声認識装置であって、
    ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、
    ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段とを有し、
    当該入力文字列確定手段は、前記ユーザの発話音声に対する入力文字列の確定を、
    当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差が所定のしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が所定のしきい値より大きくない場合に、当該スコアが最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行う第1のモードと、
    当該ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが上位の複数の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定する第2のモードととのいずれかで行い、かつ、
    当該入力文字列確定手段は、前記第1のモードでスコアが最大の認識候補を自動的に入力文字列として確定した後に、当該入力文字列が確定された発話をユーザがやり直す再発話が発生した場合に、当該再発話された発話音声に対する入力文字列の確定を前記第2のモードで行い、他の場合には、発話音声に対する入力文字列の確定を前記第1のモードで行うことを特徴とする音声認識装置。
  2. 請求項1記載の音声認識装置であって、
    前記入力文字列確定手段は、前記第2のモードにおいて、
    ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが所定値以上の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することを特徴とする音声認識装置。
  3. ユーザの発話音声を音声認識し入力文字列を確定する音声認識装置であって、
    ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、
    ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段とを有し、
    当該入力文字列確定手段は、
    前記ユーザの発話音声に対する入力文字列の確定を、当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差がしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が前記しきい値より大きくない場合に、最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行うと共に、
    前記スコアが最大の認識候補を自動的に入力文字列として確定した後に、当該入力文字列が確定された発話をユーザがやり直す再発話が発生した場合に、予め定めた標準値を増加させた値を前記しきい値の値として、当該再発話された発話音声に対する入力文字列の確定を行い、他の場合に、前記標準値を前記しきい値の値として、発話音声に対する入力文字列の確定を行うことを特徴とする音声認識装置。
  4. コンピュータによって読み取られ実行されるコンピュータプログラムであって、
    当該コンピュータプログラムは、前記コンピュータを、
    ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、
    ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段として機能させるコンピュータプログラムであって、
    当該入力文字列確定手段は、前記ユーザの発話音声に対する入力文字列の確定を、
    当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差が所定のしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が所定のしきい値より大きくない場合に、当該スコアが最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行う第1のモードと、
    当該ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが上位の複数の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定する第2のモードととのいずれかで行い、かつ、
    当該入力文字列確定手段は、前記第1のモードでスコアが最大の認識候補を自動的に入力文字列として確定した後に、当該入力文字列が確定された発話をユーザがやり直す再発話が発生した場合に、当該再発話された発話音声に対する入力文字列の確定を前記第2のモードで行い、他の場合には、発話音声に対する入力文字列の確定を前記第1のモードで行うことを特徴とするコンピュータプログラム。
  5. コンピュータによって読み取られ実行されるコンピュータプログラムであって、
    当該コンピュータプログラムは、前記コンピュータを、
    ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、
    ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段として機能させるコンピュータプログラムであって、
    当該入力文字列確定手段は、
    前記ユーザの発話音声に対する入力文字列の確定を、当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差がしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が前記しきい値より大きくない場合に、最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行うと共に、
    前記スコアが最大の認識候補を自動的に入力文字列として確定した後に、当該入力文字列が確定された発話をユーザがやり直す再発話が発生した場合に、予め定めた標準値を増加させた値を前記しきい値の値として、当該再発話された発話音声に対する入力文字列の確定を行い、他の場合に、前記標準値を前記しきい値の値として、発話音声に対する入力文字列の確定を行うことを特徴とするコンピュータプログラム。
JP2014173553A 2014-08-28 2014-08-28 音声認識装置及びコンピュータプログラム Active JP6351440B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014173553A JP6351440B2 (ja) 2014-08-28 2014-08-28 音声認識装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014173553A JP6351440B2 (ja) 2014-08-28 2014-08-28 音声認識装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2016048338A JP2016048338A (ja) 2016-04-07
JP6351440B2 true JP6351440B2 (ja) 2018-07-04

Family

ID=55649263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014173553A Active JP6351440B2 (ja) 2014-08-28 2014-08-28 音声認識装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6351440B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200168221A1 (en) * 2017-08-08 2020-05-28 Mitsubishi Electric Corporation Voice recognition apparatus and method of voice recognition

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08160988A (ja) * 1994-12-07 1996-06-21 Sony Corp 音声認識装置
JP2003036094A (ja) * 2001-07-23 2003-02-07 Oki Electric Ind Co Ltd 音声対話装置及び音声対話処理方法
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム
JP2008051895A (ja) * 2006-08-22 2008-03-06 Casio Comput Co Ltd 音声認識装置および音声認識処理プログラム
JP2008164809A (ja) * 2006-12-27 2008-07-17 Denso Corp 音声認識装置
JP2010079103A (ja) * 2008-09-26 2010-04-08 Brother Ind Ltd 音声対話装置及びそのプログラム並びに音声対話処理方法
JP2010197669A (ja) * 2009-02-25 2010-09-09 Kyocera Corp 携帯端末、編集誘導プログラムおよび編集装置

Also Published As

Publication number Publication date
JP2016048338A (ja) 2016-04-07

Similar Documents

Publication Publication Date Title
US10497373B1 (en) Providing pre-computed hotword models
US10847147B2 (en) Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition
CN106796788B (zh) 基于用户反馈来改善自动语音识别
JP2006048628A5 (ja)
JP4867622B2 (ja) 音声認識装置、および音声認識方法
US11416593B2 (en) Electronic device, control method for electronic device, and control program for electronic device
JP6351440B2 (ja) 音声認識装置及びコンピュータプログラム
JP2009031328A (ja) 音声認識装置
JP6805431B2 (ja) 音声認識装置
AU2019100034A4 (en) Improving automatic speech recognition based on user feedback
JP2017102320A (ja) 音声認識装置
JP2018163295A (ja) 音声対話装置および音声対話方法
JP2006039383A (ja) 音声認識装置
JP2005267399A (ja) 音声辞書検索システム及び音声辞書検索プログラム
JP2010008607A (ja) 音声認識装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170303

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180227

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180605

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180605

R150 Certificate of patent or registration of utility model

Ref document number: 6351440

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150