JP2017187559A - 音声認識装置及びコンピュータプログラム - Google Patents
音声認識装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2017187559A JP2017187559A JP2016074682A JP2016074682A JP2017187559A JP 2017187559 A JP2017187559 A JP 2017187559A JP 2016074682 A JP2016074682 A JP 2016074682A JP 2016074682 A JP2016074682 A JP 2016074682A JP 2017187559 A JP2017187559 A JP 2017187559A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- recognition dictionary
- vocabulary
- dictionary
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Navigation (AREA)
Abstract
【課題】ユーザが発話した音声を正しい語彙に認識する確率を低下することなく、ユーザが発話した音声を間違った語彙に誤認識してしまうことを抑制する「音声認識装置及びコンピュータプログラム」を提供する。【解決手段】音声認識環境設定部4は、音声認識エンジン2が音声認識に用いる音声認識辞書100を変更する際に、音声認識辞書100に登録された語彙の数を算定し、音声認識エンジン2に設定する尤度しきい値を語彙の数が少ないほど大きくする。音声認識エンジン2は、音声認識辞書100に登録されている語彙のうちの、入力音声が表す語彙らしさを表す尤度が最大の語彙の尤度が、設定されている尤度しきい値より大きければ、当該語彙を音声認識結果とし、大きくない場合は音声認識失敗を音声認識の結果とする。【選択図】図1
Description
本発明は、音声認識の技術に関するものである。
音声認識の技術としては、音声認識辞書に登録された語彙の標準的な発音と、ユーザが発話した音声との類似度を算定し、類似度が所定のしきい値より大きい語彙が存在する場合には、当該類似度が最大の語彙を認識結果とし、類似度が所定のしきい値より大きい語彙が存在しなかった場合には、認識結果を失敗とする音声認識装置が知られている。
また、このような音声認識装置において、上述した認識結果を失敗とするか否かの判定に用いるしきい値を、音声認識装置が搭載された自動車の運転状態や(特許文献1)、音声認識の成功率(特許文献2)に応じて変更する技術も知られている(たとえば、特許文献1、2)。
さて、上述のようにユーザが発話した音声が表す語彙を音声認識辞書に登録された語彙のうちから認識する音声認識装置においては、ユーザが発話した音声を間違った語彙に誤認識するよりも、認識結果を失敗としてユーザに提示する方が、認識の非成功を直接ユーザに伝えることができるため望ましい。
そして、上述した音声認識の失敗の判定に用いるしきい値を大きくすれば、ユーザが発話した音声を正しい語彙に認識できなかった場合に、認識結果が他の語彙の誤認識とならずに失敗となる確率を高めることができる。
しかしながら、しきい値を大きくすると、しきい値が小さいときにはユーザが発話した音声を正しい語彙に認識する場合についてまで、認識結果が失敗となるケースが発生するため、ユーザが発話した音声を正しい語彙に認識する確率も、一律に低下してしまうこととなる。
そこで、本発明は、できるだけ、ユーザが発話した音声を正しい語彙に認識する確率を低下することなく、ユーザが発話した音声を間違った語彙に誤認識してしまうことを抑制することを課題とする。
前記課題達成のために、音声認識を行う音声認識装置に、現用音声認識辞書として設定された、複数の語彙が登録された音声認識辞書を用いて音声認識を行う音声認識処理部と、前記現用音声認識辞書に登録された語彙の数を算定し、算定した語彙の数が少ないほど大きくなるように尤度しきい値を設定するしきい値設定部とを設けたものである。ただし、前記音声認識処理部は、ユーザが発話した音声を入力音声として受け付け、前記現用音声認識辞書に登録されている語彙のうちの、前記入力音声が表す語彙としての尤度が最大の語彙の尤度が、設定されている前記尤度しきい値より大きければ、当該語彙を音声認識の結果とし、大きくない場合は音声認識の失敗を音声認識の結果として算定する。
ここで、このような音声認識装置は、前記しきい値設定部において、予め定めた数の複数の範囲のうちの、前記算定した語彙の数が含まれる範囲に対して設定されている値を前記尤度しきい値として設定するようにしてもよい。ただし、より小さな数の範囲に対して設定されている値は、より大きな数の範囲に対して設定されている値よりも大きくする。
また、以上の音声認識装置は、当該音声認識装置が自動車に搭載される音声認識装置である場合には、当該音声認識装置に、前記自動車の走行中の有無を検出する検出部を設け、前記しきい値設定部において、前記検出部が前記自動車が走行中であることを検出していないときに、前記検出部が前記自動車が走行中であることを検出しているときよりも、前記尤度しきい値が大きくなるように、当該尤度しきい値を設定するようにしてもよい。
ここで、以上の音声認識装置は、複数の前記音声認識辞書を記憶した記憶部と、前記記憶部に記憶されている前記音声認識辞書のうちから選択的に一つの音声認識辞書を前記現用音声認識辞書として設定する現用音声認識辞書設定部とを備えたものであってもよく、この場合、前記しきい値設定部は、前記現用音声認識辞書設定部が前記現用音声認識辞書を設定する際に、当該現用音声認識辞書に登録された語彙の数を算定して前記尤度しきい値を設定する。
または、以上の音声認識装置は、前記音声認識辞書を生成し、生成した音声認識辞書を前記現用音声認識辞書として設定する現用音声認識辞書設定部を備えているものであってもよく、この場合、前記しきい値設定部は、前記現用音声認識辞書設定部が前記現用音声認識辞書を設定する際に、当該現用音声認識辞書に登録された語彙の数を算定して前記尤度しきい値を設定する。
また、以上の音声認識装置には、前記現用音声認識辞書に登録されている語彙のリストを表示する音声入力メニュー表示部を設けることも好ましい。
以上のような音声認識装置によれば、音声認識処理部が音声認識に用いる音声認識辞書である現用音声認識辞書に登録されている語彙数が少ない場合には、尤度しきい値として大きな値が設定される。一方、現用音声認識辞書に登録されている語彙数が少ない場合には、現用音声認識辞書に登録されている語彙間の相違が大きくなるため、現用音声認識辞書に登録されている語彙のうちのユーザが発話した語彙以外の他の語彙について大きな尤度が算定されることはなく、現用音声認識辞書に登録されている語彙のうちのユーザが発話した語彙についてのみ大きな尤度が算定され得ることが期待できる。よって、現用音声認識辞書に登録されている語彙数が少ない場合に、尤度しきい値として大きな値を設定することにより、語彙数が少ない音声認識辞書を現用音声認識辞書として音声認識に用いている期間中、ユーザが発話した音声を正しい語彙に認識する確率を低下することなく、ユーザが発話した音声の間違った語彙への誤認識を抑制することができる。
以上のような音声認識装置によれば、音声認識処理部が音声認識に用いる音声認識辞書である現用音声認識辞書に登録されている語彙数が少ない場合には、尤度しきい値として大きな値が設定される。一方、現用音声認識辞書に登録されている語彙数が少ない場合には、現用音声認識辞書に登録されている語彙間の相違が大きくなるため、現用音声認識辞書に登録されている語彙のうちのユーザが発話した語彙以外の他の語彙について大きな尤度が算定されることはなく、現用音声認識辞書に登録されている語彙のうちのユーザが発話した語彙についてのみ大きな尤度が算定され得ることが期待できる。よって、現用音声認識辞書に登録されている語彙数が少ない場合に、尤度しきい値として大きな値を設定することにより、語彙数が少ない音声認識辞書を現用音声認識辞書として音声認識に用いている期間中、ユーザが発話した音声を正しい語彙に認識する確率を低下することなく、ユーザが発話した音声の間違った語彙への誤認識を抑制することができる。
以上のように、本発明によれば、ユーザが発話した音声を正しい語彙に認識する確率を低下することなく、ユーザが発話した音声を間違った語彙に誤認識してしまうことを抑制することができる。
以下、本発明の実施形態に係る音声認識装置の実施形態を、自動車に搭載される情報処理システムへの適用を例にとり説明する。
図示するように、情報処理システムは、マイクロフォン1、音声認識エンジン2、音声認識エンジン2が音声認識に用いる音声認識辞書100が格納される辞書格納部3、音声認識エンジン2の音声認識環境を設定する音声認識環境設定部4、オペレーティングシステム5、アプリケーション部6、ディスプレイ7、入力装置8、スピーカ9、スピーカ9に音声を出力する音声出力装置10、GPS受信機などの周辺装置11、複数の音声認識辞書100と、地図データやアドレスブックやオーディオファイル等のその他の各種データを記憶した記憶装置12とを備えている。
図示するように、情報処理システムは、マイクロフォン1、音声認識エンジン2、音声認識エンジン2が音声認識に用いる音声認識辞書100が格納される辞書格納部3、音声認識エンジン2の音声認識環境を設定する音声認識環境設定部4、オペレーティングシステム5、アプリケーション部6、ディスプレイ7、入力装置8、スピーカ9、スピーカ9に音声を出力する音声出力装置10、GPS受信機などの周辺装置11、複数の音声認識辞書100と、地図データやアドレスブックやオーディオファイル等のその他の各種データを記憶した記憶装置12とを備えている。
但し、情報処理システムは、ハードウエア的には、CPUやメモリなどを備えたコンピュータを用いて構成されるものであり、音声認識エンジン2、辞書格納部3、音声認識環境設定部4、オペレーティングシステム5、アプリケーション部6などは、当該コンピュータが、所定のコンピュータプログラムを実行することにより実現されるものである。
さて、情報処理システムは、自動車に搭載されるシステムであり、ディスプレイ7はダッシュボード上やクラスタ内に配置される。また、入力装置8は、ディスプレイ7の表示面上に配置されたタッチパネルや、ステアリングに配置されたキー等である。
次に、辞書格納部3に格納される音声認識辞書100は、記憶装置12に記憶された音声認識辞書100を選択的にロードしたものである。
また、各音声認識辞書100には、図2に示すように、複数の語彙と、その発音を表す発音データが登録されている。発音データは、語彙の発音の音素列を表すものであってもよいし、語彙の発音の音声データ等であってもよい。
また、各音声認識辞書100には、図2に示すように、複数の語彙と、その発音を表す発音データが登録されている。発音データは、語彙の発音の音素列を表すものであってもよいし、語彙の発音の音声データ等であってもよい。
次に、アプリケーション部6は、たとえば、記憶装置12に記憶されている地図データを用いて現在位置の提示や、目的地までの経路案内を行うカーナビゲーションアプリケーションや、記憶装置12に記憶されているオーディオファイルを再生出力するミュージックプレイヤアプリケーションなどの、各々所定のサービスをユーザに提供するアプリケーションであり、各アプリケーション部6は、それぞれ、オペレーティングシステム5を介して、音声認識エンジン2と入力装置8を入力に、ディスプレイ7と音声出力装置10を出力に用いたユーザインタフェースをユーザに提供しながら、各々の処理を行う。
すなわち、たとえば、アプリケーション部6は、ユーザから目的地の設定を受け付けるために、所定の音声入力メニュー画面をディスプレイ7に表示し、音声認識エンジン2を用いて、表示している音声入力メニュー画面に対応する音声認識辞書100に登録されている語彙の音声入力を受け付け、音声入力された語彙に対応する処理を行う。
ここで、記憶装置12には、各アプリケーション部6が表示する各音声入力メニュー画面の各々に対応する音声認識辞書100が予め記憶されており、各音声認識辞書100には、対応する音声入力メニュー画面を表示しているときに、その音声入力メニュー画面を表示するアプリケーション部6が音声入力の受け付けの対象とする語彙、すなわち、対応する音声入力メニュー画面を表示しているときに、音声認識エンジン2において音声認識の対象とする語彙が登録されている。
そして、アプリケーション部6は、音声入力メニュー画面を表示しているときに、表示している音声入力メニュー画面に対応する音声認識辞書100を用いた音声認識を音声認識エンジン2に行わせるために、音声入力の受け付けの開始に先立って、表示する音声入力メニュー画面に対応する音声認識辞書100の指定を含む音声入力開始要求を音声認識環境設定部4に発行し、音声認識環境設定部4は、音声入力開始要求で指定された音声認識辞書100を記憶装置12から読み出して辞書格納部3にロードする。なお、この音声認識環境設定部4の動作については、後に詳述する。
ここで、アプリケーション部6が表示する音声入力メニュー画面の例を示す。
図3a、bに示した音声入力メニュー画面は、共にカーナビゲーションアプリケーションが表示する音声入力メニュー画面を示している。
図3aに示した音声入力メニュー画面は、目的地の設定方法を受け付けるための音声入力メニュー画面であり、図3aの音声入力メニュー画面に対応する音声認識辞書100に登録されている目的地の設定方法を示す「Go Home」、「Place Na Previous Destination」、「Address」、「Address Book」の各語彙のリスト301と、図3aの音声入力メニュー画面に対応する音声認識辞書100に登録されているその他のコマンド受付用の語彙が、音声入力の受け付けの対象とする語彙として音声入力メニュー画面に表示されている。
図3a、bに示した音声入力メニュー画面は、共にカーナビゲーションアプリケーションが表示する音声入力メニュー画面を示している。
図3aに示した音声入力メニュー画面は、目的地の設定方法を受け付けるための音声入力メニュー画面であり、図3aの音声入力メニュー画面に対応する音声認識辞書100に登録されている目的地の設定方法を示す「Go Home」、「Place Na Previous Destination」、「Address」、「Address Book」の各語彙のリスト301と、図3aの音声入力メニュー画面に対応する音声認識辞書100に登録されているその他のコマンド受付用の語彙が、音声入力の受け付けの対象とする語彙として音声入力メニュー画面に表示されている。
また、図3bは、図3aの目的地の設定方法を受け付けるための音声入力メニュー画面で、「Address Book」の音声入力を受け付けた場合に表示する音声入力メニュー画面であり、この音声入力メニューに対応する音声認識辞書100には、記憶装置12に記憶されているアドレスブックに登録されている各人物の氏名を表す語彙が登録されている。そして、図3bの音声入力メニュー画面には、対応する音声認識辞書100に登録されている語彙、すなわち、アドレスブックに登録されている各人物の氏名を表す語彙のリスト302と、図3bの音声入力メニュー画面に対応する音声認識辞書100に登録されているその他のコマンド受付用の語彙が、音声入力の受け付けの対象とする語彙として音声入力メニュー画面に表示されている。
ここで、カーナビゲーションアプリケーションは、図3bの音声入力メニュー画面で、アドレスブックに登録されている人物の氏名の音声入力を受け付けると、たとえば、アドレスブックに登録されている音声入力を受け付けた氏名の人物の住所を目的地に設定する処理を行う。
さて、図3a、bの音声入力メニュー画面によっても示されるように、記憶装置12に記憶されている各音声認識辞書100に登録されている語彙の数は同一ではなく、音声認識辞書毎に登録されている語彙数は大きく異なる場合がある。
以下、このような構成における音声認識環境設定部4と、音声認識エンジン2が行う動作の詳細について説明する。
まず、音声認識環境設定部4の動作について説明する。
音声認識環境設定部4は、上述した音声入力開始要求をアプリケーション部6から受け取ると音声認識環境設定処理を行う。
図4に、この音声認識環境設定処理の手順を示す。
図示するように音声認識環境設定処理では、音声認識環境設定部4は、まず、音声入力開始要求で指定された音声認識辞書100を辞書格納部3にロードする(ステップ402)。すなわち、音声入力開始要求で指定された音声認識辞書100を記憶装置12から読み出して辞書格納部3に格納する。
まず、音声認識環境設定部4の動作について説明する。
音声認識環境設定部4は、上述した音声入力開始要求をアプリケーション部6から受け取ると音声認識環境設定処理を行う。
図4に、この音声認識環境設定処理の手順を示す。
図示するように音声認識環境設定処理では、音声認識環境設定部4は、まず、音声入力開始要求で指定された音声認識辞書100を辞書格納部3にロードする(ステップ402)。すなわち、音声入力開始要求で指定された音声認識辞書100を記憶装置12から読み出して辞書格納部3に格納する。
次に、ロードした音声認識辞書100に登録されている語彙の数を算定する(ステップ404)。
そして、算定した音声認識辞書100に登録されている語彙の数が、第1のしきい値Th1(Th1は、たとえば10)より小さい場合には(ステップ406)、音声認識エンジン2に尤度しきいThLとしてL1を設定する(ステップ408)。そして、オペレーティングシステム5を介して音声認識エンジン2の音声認識処理を起動した上で(ステップ410)、音声認識環境設定処理を終了する。
そして、算定した音声認識辞書100に登録されている語彙の数が、第1のしきい値Th1(Th1は、たとえば10)より小さい場合には(ステップ406)、音声認識エンジン2に尤度しきいThLとしてL1を設定する(ステップ408)。そして、オペレーティングシステム5を介して音声認識エンジン2の音声認識処理を起動した上で(ステップ410)、音声認識環境設定処理を終了する。
一方、算定した音声認識辞書100に登録されている語彙の数が、第1のしきい値Th1以上であり(ステップ406)、第2のしきい値Th2(Th2は、たとえば20)より小さい場合には(ステップ412)、音声認識エンジン2に尤度しきいThLとしてL2を設定する(ステップ414)。そして、オペレーティングシステム5を介して音声認識エンジン2の音声認識処理を起動した上で(ステップ410)、音声認識環境設定処理を終了する。ここで、Th1、Th2、L1、L2は、Th1<Th2、L1>L2となる値を予め設定する。
また、算定した音声認識辞書100に登録されている語彙の数が、第2のしきい値Th2以上である場合には(ステップ412)、音声認識エンジン2に尤度しきいThLとしてL3を設定する(ステップ416)。そして、オペレーティングシステム5を介して音声認識エンジン2の音声認識処理を起動した上で(ステップ410)、音声認識環境設定処理を終了する。
ここで、L3は、L2>L3となる値を予め設定する。
以上、音声認識環境設定部4が行う音声認識環境設定処理について説明した。
このような音声認識環境設定処理によれば、辞書格納部3にロードした音声認識辞書100に登録されている語彙の数が小さいほど、大きな値が尤度しきいThLとして音声認識エンジン2に設定されることとなる。
以上、音声認識環境設定部4が行う音声認識環境設定処理について説明した。
このような音声認識環境設定処理によれば、辞書格納部3にロードした音声認識辞書100に登録されている語彙の数が小さいほど、大きな値が尤度しきいThLとして音声認識エンジン2に設定されることとなる。
次に、以上の音声認識環境設定処理のステップ410で起動される音声認識エンジン2の音声認識処理について説明する。
図5に、音声認識エンジン2が行う音声認識処理の手順を示す。
図示するように音声認識エンジン2は、音声認識処理を開始すると、入力装置8の一つとして設けたトークスイッチのオン操作の発生を監視し(ステップ502)、トークスイッチのオン操作が発生したならば、マイクロフォン1からの入力音声の取得を開始する(ステップ504)。
図5に、音声認識エンジン2が行う音声認識処理の手順を示す。
図示するように音声認識エンジン2は、音声認識処理を開始すると、入力装置8の一つとして設けたトークスイッチのオン操作の発生を監視し(ステップ502)、トークスイッチのオン操作が発生したならば、マイクロフォン1からの入力音声の取得を開始する(ステップ504)。
そして、マイクロフォン1から有意な音声が所定期間以上入力しなくなったならば(ステップ506)、マイクロフォン1からの入力音声の取得を終了する(ステップ508)。
そして、次に、辞書格納部3に格納されている音声認識辞書100に登録されている各語彙と、取得した入力音声のマッチング度を算出する(ステップ510)。ここで、各語彙と入力音声のマッチング度は、音声認識辞書100に登録されている語彙の発音データと入力音声との類似度を、当該語彙のマッチング度として算定することにより行う。
次に、辞書格納部3に格納されている音声認識辞書100に登録されている各語彙の尤度を算定する(ステップ512)。
ここで、各語彙の尤度としては、当該語彙について求めたマッチング度を用いる。
または、各語彙の尤度は、たとえば、マッチング度が最大であった語彙の尤度以外の語彙の尤度は0として算定すると共に、マッチング度が最大であった語彙の尤度を、マッチング度が最大であった語彙のマッチング度をM1、マッチング度が二番目であった語彙のマッチング度をM1として、
尤度=(k1×M1)+[k2×(M1-M2)]や、尤度=M1×(M1-M2)
等により算定するようにしてもよい。但し、k1、k2は、予め設定したチューニング用の係数である。
ここで、各語彙の尤度としては、当該語彙について求めたマッチング度を用いる。
または、各語彙の尤度は、たとえば、マッチング度が最大であった語彙の尤度以外の語彙の尤度は0として算定すると共に、マッチング度が最大であった語彙の尤度を、マッチング度が最大であった語彙のマッチング度をM1、マッチング度が二番目であった語彙のマッチング度をM1として、
尤度=(k1×M1)+[k2×(M1-M2)]や、尤度=M1×(M1-M2)
等により算定するようにしてもよい。但し、k1、k2は、予め設定したチューニング用の係数である。
なお、この場合において、マッチング度が最大であった語彙の尤度は、(M1-M2)が所定値以下である場合には0とするようにしてもよい。
なお、以上の尤度の算出手法は、一例であり、音声認識辞書100に登録されている各語彙の尤度は、当該語彙が入力音声が表す語彙であることの確からしさを表すものであれば、他の任意の手法により算出するようにして良い。
なお、以上の尤度の算出手法は、一例であり、音声認識辞書100に登録されている各語彙の尤度は、当該語彙が入力音声が表す語彙であることの確からしさを表すものであれば、他の任意の手法により算出するようにして良い。
そして、次に、辞書格納部3に格納されている音声認識辞書100に登録されている各語彙について算定した尤度のうちの最大の尤度が、設定されている尤度しきいThLより大きいかどうかを調べ(ステップ514)、大きければ、尤度が最大であった語彙を音声認識結果として確定して、オペレーティングシステム5を介して、この時点で音声認識エンジン2を音声入力に用いているアプリケーション部6、すなわち、音声認識環境部に音声入力開始要求を発行したアプリケーション部6に出力し(ステップ516)、音声認識処理を終了する。
一方、最大の尤度が、設定されている尤度しきいThL以下である場合には、音声認識に失敗した旨を示すメッセージのディスプレイ7への表示や、音声認識に失敗した旨を示す音声メッセージの音声出力装置10からの出力によりユーザに通知し(ステップ518)、ステップ502からの処理に戻る。なお、音声認識に失敗した旨を示すメッセージや音声メッセージは、たとえば、「申し訳ありません。理解できませんでした。画面に表示されている言葉を言って下さい」といったものとする。
以上、音声認識エンジン2が行う音声認識処理について説明した。
以上、本発明の実施形態について説明した。
以上のように本実施形態によれば、音声認識エンジン2が音声認識に用いる音声認識辞書100に登録されている語彙数が少ない場合には、尤度しきい値ThLとして大きな値が設定される。一方、音声認識に用いる音声認識辞書100に登録されている語彙数が少ない場合には、音声認識辞書100に登録されている語彙間の相違が大きくなるため、音声認識辞書100に登録されている語彙のうちのユーザが発話した語彙以外の他の語彙について大きな尤度が算定されることはなく、音声認識辞書100に登録されている語彙のうちのユーザが発話した語彙についてのみ大きな尤度が算定され得ることが期待できる。よって、音声認識に用いる音声認識辞書100に登録されている語彙数が少ない場合に、尤度しきい値ThLとして大きな値を設定することにより、ユーザが発話した音声を正しい語彙に認識する確率を低下することなく、ユーザが発話した音声の間違った語彙への誤認識を抑制することができる。
以上、本発明の実施形態について説明した。
以上のように本実施形態によれば、音声認識エンジン2が音声認識に用いる音声認識辞書100に登録されている語彙数が少ない場合には、尤度しきい値ThLとして大きな値が設定される。一方、音声認識に用いる音声認識辞書100に登録されている語彙数が少ない場合には、音声認識辞書100に登録されている語彙間の相違が大きくなるため、音声認識辞書100に登録されている語彙のうちのユーザが発話した語彙以外の他の語彙について大きな尤度が算定されることはなく、音声認識辞書100に登録されている語彙のうちのユーザが発話した語彙についてのみ大きな尤度が算定され得ることが期待できる。よって、音声認識に用いる音声認識辞書100に登録されている語彙数が少ない場合に、尤度しきい値ThLとして大きな値を設定することにより、ユーザが発話した音声を正しい語彙に認識する確率を低下することなく、ユーザが発話した音声の間違った語彙への誤認識を抑制することができる。
ところで、以上の実施形態は、情報処理システムに、周辺装置11として当該情報処理システムが搭載されている自動車の走行中の有無を検出する検出装置を設けると共に、音声認識環境設定部4において、図4に示した音声認識環境設定処理に代えて図6に示す音声認識環境設定処理を行うようにしてもよい。
図示するように、図6に示す音声認識環境設定処理において、音声認識環境設定は、まず、音声入力開始要求で指定された音声認識辞書100を辞書格納部3にロードし(ステップ602)、ロードした音声認識辞書100に登録されている語彙の数を算定する(ステップ604)。
そして、算定した音声認識辞書100に登録されている語彙の数が、第1のしきい値Th1(Th1は、たとえば10)より小さい場合には(ステップ606)、音声認識エンジン2に尤度しきいThLとしてL1を設定する(ステップ608)。そして、オペレーティングシステム5を介して音声認識エンジン2の音声認識処理を起動した上で(ステップ610)、音声認識環境設定処理を終了する。
一方、算定した音声認識辞書100に登録されている語彙の数が、第1のしきい値Th1以上であり(ステップ606)、第2のしきい値Th2(Th2は、たとえば20)より小さい場合には(ステップ612)、現在自動車が走行中であるかどうかを調べ(ステップ614)。走行中でなければ、すなわち、自動車が駐停車中であれば、音声認識エンジン2に尤度しきいThLとしてL1を設定し(ステップ608)、走行中であれば、音声認識エンジン2に尤度しきいThLとしてL2を設定する(ステップ616)。そして、オペレーティングシステム5を介して音声認識エンジン2の音声認識処理を起動した上で(ステップ610)、音声認識環境設定処理を終了する。
また、算定した音声認識辞書100に登録されている語彙の数が、第2のしきい値Th2以上である場合には(ステップ612)、現在自動車が走行中であるかどうかを調べ(ステップ618)。走行中でなければ、すなわち、自動車が駐停車中であれば、音声認識エンジン2に尤度しきいThLとしてL2を設定し(ステップ616)、走行中であれば、音声認識エンジン2に尤度しきいThLとしてL3を設定する(ステップ620)。そして、オペレーティングシステム5を介して音声認識エンジン2の音声認識処理を起動した上で(ステップ610)、音声認識環境設定処理を終了する。
ここで、Th1、Th2、L1、L2、L3は、Th1<Th2、L1>L2>L3となる値を予め設定する。
このような図6に示した音声認識環境設定処理によれば、自動車が走行中でなく、駐停車中である場合には、走行中である場合よりも大きな値が尤度しきいThLとして音声認識エンジン2に設定される。
このような図6に示した音声認識環境設定処理によれば、自動車が走行中でなく、駐停車中である場合には、走行中である場合よりも大きな値が尤度しきいThLとして音声認識エンジン2に設定される。
ここで、自動車が駐停車中である期間は、走行中である期間に比べ、発生するノイズが小さく、走行中である期間に比べ、入力音声とユーザが発話した語彙との間に大きな尤度が得られやすい。よって、このように駐停車中である期間中、走行中である場合よりも大きな値を尤度しきいThLとして設定することにより、自動車が駐停車中である期間中には、より、ユーザが発話した音声を正しい語彙に認識する確率を低下することなく、ユーザが発話した音声を間違った語彙に誤認識してしまうことを抑制することができるようになる。
また、以上の実施形態においては、記憶装置12に、各アプリケーション部6が表示する各音声入力メニュー画面の各々に対応する音声認識辞書100を予め記憶したが、音声入力メニュー画面に対応する音声認識辞書100は、音声入力メニュー画面を表示する際や、その音声認識辞書100を用いた音声入力を開始するときに動的に作成して、辞書格納部3に格納するようにしてもよい。なお、この場合には、図4、6の音声認識環境設定処理のステップ404、604では、動的に作成され辞書格納部3に格納される音声認識辞書100に登録されている語彙の数を算定するようにする。
なお、以上の実施形態における音声入力処理の技術は、自動車に搭載される情報処理システムのみならず、音声入力を行う任意の情報処理システムに適用することができる。
1…マイクロフォン、2…音声認識エンジン、3…辞書格納部、4…音声認識環境設定部、5…オペレーティングシステム、6…アプリケーション部、7…ディスプレイ、8…入力装置、9…スピーカ、10…音声出力装置、11…周辺装置、12…記憶装置、100…音声認識辞書。
Claims (12)
- 音声認識を行う音声認識装置であって、
現用音声認識辞書として設定された、複数の語彙が登録された音声認識辞書を用いて音声認識を行う音声認識処理部と、
前記現用音声認識辞書に登録された語彙の数を算定し、算定した語彙の数が少ないほど大きくなるように尤度しきい値を設定するしきい値設定部とを有し、
前記音声認識処理部は、ユーザが発話した音声を入力音声として受け付け、前記現用音声認識辞書に登録されている語彙のうちの、前記入力音声が表す語彙としての尤度が最大の語彙の尤度が、設定されている前記尤度しきい値より大きければ、当該語彙を音声認識の結果とし、大きくない場合は音声認識の失敗を音声認識の結果として算定することを特徴とする音声認識装置。 - 請求項1記載の音声認識装置であって、
前記しきい値設定部は、予め定めた数の複数の範囲のうちの、前記算定した語彙の数が含まれる範囲に対して設定されている値を前記尤度しきい値として設定し、かつ、より小さな数の範囲に対して設定されている値は、より大きな数の範囲に対して設定されている値よりも大きいことを特徴とする音声認識装置。 - 請求項1または2記載の音声認識装置であって、
当該音声認識装置は自動車に搭載される音声認識装置あり、かつ、
当該音声認識装置は、前記自動車の走行中の有無を検出する検出部を有し、
前記しきい値設定部は、前記検出部が前記自動車が走行中であることを検出していないときに、前記検出部が前記自動車が走行中であることを検出しているときよりも、前記尤度しきい値が大きくなるように、当該尤度しきい値を設定することを特徴とする音声認識装置。 - 請求項1、2または3記載の音声認識装置であって、
複数の前記音声認識辞書を記憶した記憶部と、
前記記憶部に記憶されている前記音声認識辞書のうちから選択的に一つの音声認識辞書を前記現用音声認識辞書として設定する現用音声認識辞書設定部とを有し、
前記しきい値設定部は、前記現用音声認識辞書設定部が前記現用音声認識辞書を設定する際に、当該現用音声認識辞書に登録された語彙の数を算定して前記尤度しきい値を設定することを特徴とする音声認識装置。 - 請求項1、2または3記載の音声認識装置であって、
前記音声認識辞書を生成し、生成した音声認識辞書を前記現用音声認識辞書として設定する現用音声認識辞書設定部を有し、
前記しきい値設定部は、前記現用音声認識辞書設定部が前記現用音声認識辞書を設定する際に、当該現用音声認識辞書に登録された語彙の数を算定して前記尤度しきい値を設定することを特徴とする音声認識装置。 - 請求項1、2、3、4または5記載の音声認識装置であって、
前記現用音声認識辞書に登録されている語彙のリストを表示する音声入力メニュー表示部を有することを特徴とする音声認識装置。 - コンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、
現用音声認識辞書として設定された、複数の語彙が登録された音声認識辞書を用いて音声認識を行う音声認識処理部と、
前記現用音声認識辞書に登録された語彙の数を算定し、算定した語彙の数が少ないほど大きくなるように尤度しきい値を設定するしきい値設定部として機能させるコンピュータプログラムであって、
前記音声認識処理部は、ユーザが発話した音声を入力音声として受け付け、前記現用音声認識辞書に登録されている語彙のうちの、前記入力音声が表す語彙としての尤度が最大の語彙の尤度が、設定されている前記尤度しきい値より大きければ、当該語彙を音声認識の結果とし、大きくない場合は音声認識の失敗を音声認識の結果として算定することを特徴とするコンピュータプログラム。 - 請求項7記載のコンピュータプログラムであって、
前記しきい値設定部は、予め定めた数の複数の範囲のうちの、前記算定した語彙の数が含まれる範囲に対して設定されている値を前記尤度しきい値として設定し、かつ、より小さな数の範囲に対して設定されている値は、より大きな数の範囲に対して設定されている値よりも大きいことを特徴とするコンピュータプログラム。 - 請求項7または8記載のコンピュータプログラムであって、
前記コンピュータは自動車に搭載されるコンピュータあり、かつ、
当該コンピュータには、前記自動車の走行中の有無を検出する検出部が接続されており、
前記しきい値設定部は、前記検出部が前記自動車が走行中であることを検出していないときに、前記検出部が前記自動車が走行中であることを検出しているときよりも、前記尤度しきい値が大きくなるように、当該尤度しきい値を設定することを特徴とするコンピュータプログラム。 - 請求項7、8または9記載のコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、さらに、
複数の前記音声認識辞書を記憶した記憶部と、
前記記憶部に記憶されている前記音声認識辞書のうちから選択的に一つの音声認識辞書を前記現用音声認識辞書として設定する現用音声認識辞書設定部として機能させ、
前記しきい値設定部は、前記現用音声認識辞書設定部が前記現用音声認識辞書を設定する際に、当該現用音声認識辞書に登録された語彙の数を算定し、算定した語彙の数が少ないほど大きくなるように尤度しきい値を設定することを特徴とするコンピュータプログラム。 - 請求項7、8または9記載のコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、さらに、前記音声認識辞書を生成し、生成した音声認識辞書を前記現用音声認識辞書として設定する現用音声認識辞書設定部として機能させ、
前記しきい値設定部は、前記現用音声認識辞書設定部が前記現用音声認識辞書を設定する際に、当該現用音声認識辞書に登録された語彙の数を算定し、算定した語彙の数が少ないほど大きくなるように尤度しきい値を設定することを特徴とするコンピュータプログラム。 - 請求項7、8、9、10または11記載の音声認識装置であって、
当該コンピュータプログラムは、前記コンピュータを、さらに、前記現用音声認識辞書に登録されている語彙のリストを表示する音声入力メニュー表示部として機能させることを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016074682A JP2017187559A (ja) | 2016-04-01 | 2016-04-01 | 音声認識装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016074682A JP2017187559A (ja) | 2016-04-01 | 2016-04-01 | 音声認識装置及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017187559A true JP2017187559A (ja) | 2017-10-12 |
Family
ID=60044277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016074682A Pending JP2017187559A (ja) | 2016-04-01 | 2016-04-01 | 音声認識装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017187559A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111862972A (zh) * | 2020-07-08 | 2020-10-30 | 北京梧桐车联科技有限责任公司 | 语音交互服务方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02300800A (ja) * | 1989-05-15 | 1990-12-12 | Ricoh Co Ltd | 音声認識装置 |
JPH04163597A (ja) * | 1990-10-29 | 1992-06-09 | Ricoh Co Ltd | 車載用音声認識装置 |
JP2006251059A (ja) * | 2005-03-08 | 2006-09-21 | Nissan Motor Co Ltd | 音声対話装置および音声対話方法 |
-
2016
- 2016-04-01 JP JP2016074682A patent/JP2017187559A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02300800A (ja) * | 1989-05-15 | 1990-12-12 | Ricoh Co Ltd | 音声認識装置 |
JPH04163597A (ja) * | 1990-10-29 | 1992-06-09 | Ricoh Co Ltd | 車載用音声認識装置 |
JP2006251059A (ja) * | 2005-03-08 | 2006-09-21 | Nissan Motor Co Ltd | 音声対話装置および音声対話方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111862972A (zh) * | 2020-07-08 | 2020-10-30 | 北京梧桐车联科技有限责任公司 | 语音交互服务方法、装置、设备及存储介质 |
CN111862972B (zh) * | 2020-07-08 | 2023-11-14 | 北京梧桐车联科技有限责任公司 | 语音交互服务方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106796786B (zh) | 语音识别系统 | |
US7826945B2 (en) | Automobile speech-recognition interface | |
US10629201B2 (en) | Apparatus for correcting utterance error of user and method thereof | |
US10176806B2 (en) | Motor vehicle operating device with a correction strategy for voice recognition | |
US20150039316A1 (en) | Systems and methods for managing dialog context in speech systems | |
JP5677650B2 (ja) | 音声認識装置 | |
US9715877B2 (en) | Systems and methods for a navigation system utilizing dictation and partial match search | |
US20070005358A1 (en) | Method for determining a list of hypotheses from a vocabulary of a voice recognition system | |
JP2020086571A (ja) | 車載装置及び音声認識方法 | |
US10468017B2 (en) | System and method for understanding standard language and dialects | |
JP2006208486A (ja) | 音声入力装置 | |
JP2016061888A (ja) | 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム | |
CN110580901A (zh) | 语音识别设备、包括该设备的车辆及该车辆控制方法 | |
US20150019225A1 (en) | Systems and methods for result arbitration in spoken dialog systems | |
JP2018116206A (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
CN110556104B (zh) | 语音识别装置、语音识别方法以及存储程序的存储介质 | |
JP2017187559A (ja) | 音声認識装置及びコンピュータプログラム | |
JP2007101892A (ja) | 音声認識装置 | |
US20140136204A1 (en) | Methods and systems for speech systems | |
JP6966374B2 (ja) | 音声認識システム及びコンピュータプログラム | |
US20170214778A1 (en) | Vehicle and control method for the vehicle | |
US11217238B2 (en) | Information processing device and information processing method | |
KR101875440B1 (ko) | 차량 및 그 제어방법 | |
CN107195298B (zh) | 根本原因分析以及校正系统和方法 | |
JP2016102823A (ja) | 情報処理システム、音声入力装置及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191224 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200623 |