JP2018072599A

JP2018072599A - 音声認識装置および音声認識方法

Info

Publication number: JP2018072599A
Application number: JP2016213052A
Authority: JP
Inventors: 信範工藤; Akinori Kudo; 諒助川; Ryo Sukegawa
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2016-10-31
Filing date: 2016-10-31
Publication date: 2018-05-10
Anticipated expiration: 2036-10-31
Also published as: JP6759058B2

Abstract

【課題】音声認識の指標と比較される閾値をより適切に設定することによって誤認識の発生を低減できる「音声認識装置および音声認識方法」を提供する。【解決手段】音声認識辞書に登録されているワードの音声パターンと、発話音声との類似度を示す指標を算出し、当該算出した指標が閾値に対して所定の条件を満たすか否かによって、発話音声に対応するワードを認識する音声認識部１２を備えた音声認識装置において、車両内で再生されているオーディオ音声のソース種別を判定するソース判定部１４と、判定したソース種別に応じて閾値を可変設定する閾値設定部１５とを備え、認識対象のワードを音声認識する際にノイズとなるオーディオ音声のソース種別に応じて、音声認識の指標と比較される閾値を設定することにより、ノイズの内容によって閾値を最適化することができるようにして、誤認識の発生を低減させる。【選択図】図１

Description

本発明は、音声認識装置および音声認識方法に関し、特に、音声認識辞書に登録されているワードの音声パターンと、マイクより入力された発話音声との類似度を示す指標を算出し、当該算出した指標が閾値に対して所定の条件を満たすか否かによって、発話音声に対応するワードを認識するようになされた音声認識装置に用いて好適なものである。

車両には、オーディオ装置、エアコンディショナ、ナビゲーション装置など各種の電子機器が搭載されている。また、これらの電子機器を操作する際の片手運転等を回避するために、電子機器の操作を音声認識により行えるようにしたシステムも提供されている。この音声認識技術を用いれば、運転者は、ハンドルから手を離すことなく（リモートコントローラや操作パネル等の操作部を手動で操作せずに）各種電子機器の操作を行うことができる。

音声認識装置は通常、ユーザが発声した特定の単語や熟語、簡単な命令文など（以下、これらをまとめて「ワード」という）を発話コマンドとして認識する。電子機器は、音声認識装置により認識されたワード（発話コマンド）に応じた制御を行う。かかる音声認識装置では、発話コマンドとして用いる各認識対象ワードとその音声パターンとを対応付けた音響モデルを音声認識辞書にあらかじめ登録しておく。そして、ユーザの発話音声から算出した特徴量と音響モデルの特徴量とを比較して類似度が最も高い音声パターンを検索し、その音声パターンに対応付けられているワードを発話音声のワードであると認識する。

従来の音声認識装置は、ユーザが備え付けの発話ボタンを押すことで音声認識モードとなり、マイクから入力されたユーザの発話音声を認識してコマンドを実行するようになされている。発話ボタンの操作に代えて、手を叩く等の特定動作をトリガとして音声認識モードとなるようになされたものも知られている。最近では、音声認識時に発話ボタンの操作や特定動作などのトリガを不要にした音声認識装置（以下、トリガレス音声認識装置という）も提供されている。

トリガレス音声認識装置では、マイクを常時オン状態にしておき、入力音声を識別して、発話コマンドに該当するワードかどうかを判定する。すなわち、音声認識辞書に登録している各ワードの音声パターンと、マイクより入力された音声との近さの程度（類似度）を示す指標として距離値を算出する。そして、算出した距離値が、ワード毎に設定されている閾値よりも小さい場合に、その入力音声が、閾値を下回ったワードであると認識する。

なお、車室内では、マイクより入力される音声には、音声認識のための発話音声の他に、エンジンの動作音や走行音、オーディオ音声、搭乗者どうしの会話音声などの各種ノイズが含まれている。特に、トリガレス音声認識装置の場合は音声認識モードが設けられておらず、ノイズとなる音声が常にマイクに入力されている。そのため、このような環境下においても音声認識を正しく行えるようにするための工夫が必要となる。

音声認識の正解率を上げる（誤認識を抑制する）ためには、距離値と比較される閾値を適切に設定することが必要である。これに対し、従来、車室内の騒音レベルを車両の運転パラメータ（エンジン回転数、車速、車載エアコンディショナの送風ファンの強度、カーステレオの出力音量など）に基づいて推定し、推定した騒音レベルに応じて音声認識の閾値を設定するようになされた音声認識装置が知られている（例えば、特許文献１参照）。

特開２００１−７５５９５号公報

しかしながら、上記特許文献１に記載の技術では、単に騒音レベルに基づいて閾値を可変設定しているのみであり、騒音の内容については考慮されていない。すなわち、同じ大きさの騒音レベルでも、騒音の内容によって音声認識の正解率は変動するが、特許文献１の技術ではこれが考慮されていないため、閾値を最適化することができていないという問題があった。

本発明は、このような問題を解決するために成されたものであり、音声認識の指標と比較される閾値をより適切に設定することができるようにして、誤認識の発生を低減できるようにすることを目的とする。

上記した課題を解決するために、本発明では、音声認識辞書に登録されているワードの音声パターンと、マイクより入力された発話音声との類似度を示す指標を算出し、当該算出した指標が閾値に対して所定の条件を満たすか否かによって、発話音声に対応するワードを認識するようになされた音声認識装置において、車両内で再生されているオーディオ音声のソース種別を判定し、判定したソース種別に応じて閾値を可変設定するようにしている。

上記のように構成した本発明によれば、認識対象のワードを音声認識する際にノイズとなるオーディオ音声のソース種別に応じて、音声認識の指標と比較される閾値が設定されるため、ノイズの内容によって閾値を最適化することができ、誤認識の発生を低減することができる。

第１の実施形態による音声認識装置の構成例を示す機能ブロック図である。閾値設定部が参照するテーブル情報の一例を示す図である。第１の実施形態による音声認識装置の動作例を示すフローチャートである。第１の実施形態による音声認識装置の動作例を示すフローチャートである。第２の実施形態による音声認識装置の構成例を示す機能ブロック図である。第２の実施形態による音声認識装置の動作例を示すフローチャートである。第３の実施形態による音声認識装置の構成例を示す機能ブロック図である。第３の実施形態による音声認識装置の動作例を示すフローチャートである。閾値設定部が参照するテーブル情報の他の例を示す図である。

（第１の実施形態）
以下、本発明による第１の実施形態を図面に基づいて説明する。図１は、第１の実施形態による音声認識装置１００の構成例を示す機能ブロック図である。本実施形態の音声認識装置１００は、マイク２００より入力されるユーザの発話音声（特定の単語や熟語、簡単な命令文などのワード）を発話コマンドとして認識し、ナビゲーション装置３００に対して発話コマンドを実行するものである。なお、ここでは制御対象の電子機器をナビゲーション装置３００としているが、オーディオ装置４００、エアコンディショナ、その他の電子機器であってもよい。

図１に示すように、第１の実施形態による音声認識装置１００は、認識辞書記憶部１１、音声認識部１２、確認部１３、ソース判定部１４および閾値設定部１５を備えて構成されている。なお、上記各機能ブロック１２〜１５は、ハードウェア、ＤＳＰ（Digital Signal Processor）、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック１２〜１５は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。

認識辞書記憶部１１は、認識対象とするワードとその音声パターンとを対応付けるとともに、音声認識の指標と比較される閾値が設定されて成る音声認識辞書を記憶する。本実施形態では指標の一例として、認識辞書記憶部１１に登録している各ワードの音声パターンと、マイク２００より入力された発話音声との近さの程度（類似度）を示す距離値（例えば、０〜１０００の値）を用いる。距離値が小さいほど類似度が高いことを意味する。本実施形態において、閾値は可変設定されるものである。

音声認識部１２は、認識辞書記憶部１１の音声認識辞書に登録されているワードの音声パターンと、マイク２００より入力された発話音声との類似度を示す指標を算出し、当該算出した指標が閾値に対して所定の条件を満たす場合に、発話音声が当該所定の条件を満たすワードであると認識する。上記のように、指標として距離値を用いた場合、音声認識部１２は、発話音声について算出した距離値が、ワード毎に設定されている閾値よりも小さい場合に、その発話音声が、閾値を下回ったワードであると認識する。なお、類似度が高くなるほど値が大きくなるような指標を用いた場合、音声認識部１２は、発話音声について算出した指標が、ワード毎に設定されている閾値よりも大きい場合に、その発話音声が、閾値を上回ったワードであると認識する。

確認部１３は、音声認識部１２により認識されたワードをユーザに提示することにより、ユーザが発声したワードと一致しているか否かをユーザに確認させる。この確認は、例えば、音声認識部１２により認識されたワードを合成音声によって出力するトークバックによって行う。あるいは、音声認識部１２により認識されたワードを文字によって画面表示するようにしてもよい。

もし、ユーザが発声したワードとは異なるワードが確認部１３により提示された場合、ユーザはキャンセルを指示して音声認識を取り消すことができる。キャンセルの指示は、タッチパネルの手動操作または「キャンセル」というワードの発話入力によって行うことが可能である。確認部１３により音声認識の結果が提示されてから所定時間以内にユーザがキャンセルを指示しない場合、確認部１３は、音声認識部１２により認識されたワードを確定し、発話コマンドとしてナビゲーション装置３００に出力する。

ソース判定部１４は、車両内でオーディオ装置４００により再生されているオーディオ音声のソース種別を判定する。オーディオ音声は、音声認識にとってノイズとなる音声である。ここで、オーディオ音声の中には、会話が多く含まれる可能性の高いもの（例えば、ニュースやドラマなどの音声）から、会話が多く含まれる可能性が低いもの（例えば、ミュージック系の音声）まで、種々のソースがある。会話が多く含まれるほど、音声認識部１２において誤認識を生じる可能性が高いと言える。

そこで、ソース判定部１４は、会話が多く含まれる可能性の高さに応じてソース種別を区分し、車両内で再生されているオーディオ音声が、当該区分したソース種別のどれに該当するかを判定する。なお、オーディオ装置４００により再生されているオーディオ音声のソース種別は、オーディオ装置４００のソース設定情報を確認することによって判定することが可能である。

閾値設定部１５は、ソース判定部１４により判定されたソース種別に応じて、認識辞書記憶部１１に記憶されている音声認識の閾値を可変設定する。図２は、ソース種別の区分と、区分ごとの閾値の調整値とを対応付けたテーブル情報の一例を示す図である。閾値設定部１５は、このテーブル情報を参照して、音声認識の閾値を可変設定する。

図２の例では、会話が多く含まれる可能性の高さに応じて、ソース種別を３つに区分している。第１の区分は、ＣＤ（Compact Disc）、メモリカード、ポータブル音源等が接続されるＵＳＢ（Universal Serial Bus）などの音楽系のソースである。第２の区分は、ＤＶＤ（Digital Versatile Disk）、ＨＤＭＩ（High-Definition Multimedia Interface）、ＡＵＸなどの映像系のソースである。第３の区分は、ＤＴＶ（Digital TeleVision）、Ｒａｄｉｏなどのニュース／ドラマ系のソースである。

ここで、第１の区分＜第２の区分＜第３の区分の順番で、オーディオ装置４００により再生されるオーディオ音声の中に会話が多く含まれる可能性が高くなる。本実施形態では、会話が多く含まれる可能性が高い区分ほど、音声認識の閾値を下げるようにテーブル情報が設定されている。閾値が小さくなるほど、音声認識部１２により算出される距離値が閾値を下回りにくくなるので、誤認識の発生を低減することができる。

なお、図２に示した数値は、基準の閾値に対して調整する値を示している。すなわち、音楽系のソースの場合は、基準の閾値に対して“４０”を加算することを示している。映像系のソースの場合は、基準の閾値をそのまま用いることを示している。ニュース／ドラマ系のソースの場合は、基準の閾値から“２０”を減算することを示している。

図３および図４は、第１の実施形態による音声認識装置１００の動作例を示すフローチャートである。図３に示すフローチャートは、音声認識装置１００の電源がオンとされたときに開始し、オフとされるまで継続して実行される。図４に示すフローチャートは、図３のステップＳ２における具体的な処理内容を示すものである。なお、ここでは、マイク２００を常時オン状態にしておき、ユーザが特に操作を行わなくても常に音声認識部１２が音声認識を行うトリガレス音声認識の動作例を示している。

図３において、まず、音声認識部１２および確認部１３において、音声認識処理を行う（ステップＳ１）。すなわち、音声認識部１２は、認識辞書記憶部１１の音声認識辞書に登録されているワードの音声パターンと、マイク２００より入力された発話音声との類似度を示す距離値を算出し、当該算出した距離値が閾値より小さくなるワードを認識する。そして、確認部１３は、音声認識部１２により認識されたワードをユーザに提示し、所定時間以内にキャンセルの指示がない場合、上記認識されたワードを発話コマンドとしてナビゲーション装置３００に出力する。

次に、ソース判定部１４および閾値設定部１５において、ソース種別に応じた閾値の設定処理を実行する（ステップＳ２）。すなわち、図４において、ソース判定部１４は、オーディオ装置４００においてオーディオ音声の再生が行われているか否かを判定する（ステップＳ１１）。オーディオ音声の再生が行われていない場合、図４に示すフローチャートの処理は終了となる。

オーディオ音声の再生が行われている場合、ソース判定部１４は、当該再生されているオーディオ音声のソース種別を判定する（ステップＳ１２）。そして、閾値設定部１５は、ソース判定部１４により判定されたソース種別に応じて、図２に示すテーブル情報を参照して、認識辞書記憶部１１に記憶されている音声認識の閾値を可変設定する（ステップＳ１３）。これにより、図４に示すフローチャートの処理は終了となる。

以上詳しく説明したように、第１の実施形態では、車両内で再生されているオーディオ音声のソース種別を判定し、判定したソース種別に応じて音声認識の閾値を可変設定するようにしている。このように構成した第１の実施形態によれば、認識対象のワードを音声認識する際にノイズとなるオーディオ音声のソース種別に応じて、登録ワードの音声パターンと発話音声との類似度を示す距離値と比較される閾値が設定されるため、ノイズの内容によって閾値を最適化することができ、誤認識の発生を低減することができる。

（第２の実施形態）
次に、本発明による第２の実施形態を図面に基づいて説明する。図５は、第２の実施形態による音声認識装置１００Ａの構成例を示す機能ブロック図である。なお、この図５において、図１に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。

図５に示すように、第２の実施形態による音声認識装置１００Ａは、キャンセル回数カウント部１６を更に備えている。また、第２の実施形態による音声認識装置１００Ａは、閾値設定部１５に代えて閾値設定部１５Ａを備えている。

キャンセル回数カウント部１６は、音声認識部１２により認識されたワード（発話音声について算出された距離値が閾値より小さくなったワード）を確認部１３がユーザに提示した後、所定時間以内にユーザがキャンセルを指示した回数（以下、キャンセル回数という）をカウントする。キャンセル回数カウント部１６は、ワード毎にこのキャンセル回数を記憶しておく。

閾値設定部１５Ａは、第１の実施形態で説明した閾値設定部１５の機能に加えて、以下の機能を有する。すなわち、閾値設定部１５Ａは、キャンセル回数カウント部１６によりカウントされるキャンセル回数が所定回数に達した場合、発話音声について算出される指標が所定の条件を満たしにくくなる方向に閾値を変更する。

ここで、類似度の指標として距離値を用いる場合、閾値設定部１５Ａは、キャンセル回数が所定回数に達したワードについて、認識辞書記憶部１１に記憶されている閾値を現状よりも小さい値に変更する。例えば、閾値設定部１５Ａは、閾値の現在値から所定値を減算した値を新たな閾値として設定する。なお、類似度が高くなるほど値が大きくなるような指標を用いた場合、閾値設定部１５Ａは、キャンセル回数が所定回数に達したワードについて、認識辞書記憶部１１に記憶されている閾値を現状よりも所定値だけ大きい値に変更する。

ユーザ（例えば運転者）がキャンセルを指示するということは、運転者が発話コマンドに相当するワードを発声していないのに、オーディ音声や他の搭乗者の会話音声の中から発話コマンドのワードが音声認識部１２によって認識されてしまい、確認部１３による確認の動作が生じているということである。しかも、このような状況が所定回数繰り返し生じているということは、今後も同じ状況が繰り返し発生する可能性があることを意味している。その場合、運転者はその都度キャンセルを指示しなくてはならなくなり、煩わしい。そこで、第２の実施形態では、キャンセル回数が所定回数に達したワードについては、閾値を小さくすることにより、音声認識部１２によるワードの認識が行われにくくなるようにしている。

図６は、第２の実施形態による音声認識装置１００Ａの動作例を示すフローチャートである。図６は、図３におけるステップＳ１の具体的な処理例を示すものである。

まず、音声認識部１２は、認識辞書記憶部１１の音声認識辞書に登録されているワードの音声パターンと、マイク２００より入力された音声との類似度を示す距離値を算出し、当該算出した距離値が閾値より小さくなるワードの認識処理を実行する（ステップＳ２１）。そして、確認部１３は、距離値が閾値より小さくなるワードが音声認識辞書の中から音声認識部１２により検出されたか否かを判定する（ステップＳ２２）。

ここで、距離値が閾値より小さくなるワードが音声認識部１２により検出されていないと判定した場合、図６に示すフローチャートの処理が終了となり、図３に示すステップＳ２の処理へと進む。一方、距離値が閾値より小さくなるワードが音声認識部１２により検出されたと判定した場合、確認部１３は、その検出されたワードを提示して、発話音声と一致しているかどうかをユーザに確認させる（ステップＳ２３）。

その後、確認部１３は、所定時間以内にユーザからキャンセルの指示があったか否かを判定する（ステップＳ２４）。所定時間以内にキャンセルの指示があった場合、キャンセル回数カウント部１６は、キャンセル回数のカウント値をインクリメントする（ステップＳ２５）。そして、閾値設定部１５Ａは、キャンセル回数が所定回数に達したか否かを判定する（ステップＳ２６）。

ここで、キャンセル回数が所定回数に達した場合、閾値設定部１５Ａは、当該キャンセル回数が所定回数に達したワードについて、認識辞書記憶部１１に記憶されている閾値を現状よりも所定値だけ小さい値に変更する（ステップＳ２７）。これにより、図６に示すフローチャートの処理が終了となり、図３に示すステップＳ２の処理へと進む。一方、キャンセル回数がまだ所定回数に達していない場合は、閾値を変更することなく図６に示すフローチャートの処理が終了となり、図３に示すステップＳ２の処理へと進む。

上記ステップＳ２４において、所定時間以内にキャンセルの指示がないと判定された場合、キャンセル回数カウント部１６は、キャンセル回数のカウント値をゼロにクリアする（ステップＳ２８）。これにより、図６に示すフローチャートの処理が終了となり、図３に示すステップＳ２の処理へと進む。なお、この場合は、確認部１３は、認識されたワードを発話コマンドとしてナビゲーション装置３００に出力する。

以上詳しく説明したように、第２の実施形態によれば、音声認識部１２により認識されたワードに対するユーザのキャンセル操作が所定回数繰り返された場合に、そのワードに関する閾値を小さくすることにより、音声認識部１２によるワードの認識が行われにくくなるようにしている。これにより、ユーザの意図に反して音声認識部１２によるワードの認識が行われてしまう状況が減り、ユーザが煩わしいキャンセル操作を何度も行わなくても済むようにすることができる。

（第３の実施形態）
次に、本発明による第３の実施形態を図面に基づいて説明する。図７は、第３の実施形態による音声認識装置１００Ｂの構成例を示す機能ブロック図である。なお、この図７において、図５に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。

図７に示すように、第３の実施形態による音声認識装置１００Ｂは、近接回数カウント部１７を更に備えている。また、第３の実施形態による音声認識装置１００Ｂは、閾値設定部１５Ａに代えて閾値設定部１５Ｂを備えている。

近接回数カウント部１７は、類似度を示す指標が閾値に対して所定の条件を満たさないワードについて、指標と閾値との差分が所定値より小さくなる回数（以下、近接回数という）をカウントする。ここで、類似度の指標として距離値を用いる場合、近接回数カウント部１７は、距離値が閾値より小さくならないワードのうち、距離値と閾値との差分が所定値より小さくなるワードの検出回数を近接回数としてカウントする。近接回数カウント部１７は、ワード毎にこの近接回数を記憶しておく。

あるワードについて算出された距離値と閾値との差分が所定値より小さいということは、距離値が閾値を下回らずにワード認識には至らないものの、登録ワードに対して比較的類似度が高い、近接したワードをユーザが発声しているということである。例えば、ユーザが発話コマンドに相当する登録ワードを発声しているものの、ユーザの発話の状態（音量、イントネーション、発声速度など）によって、距離値が閾値を下回らないようなケースでは、距離値と閾値との差分が所定値より小さくなる。

閾値設定部１５Ｂは、第２の実施形態で説明した閾値設定部１５Ａの機能に加えて、以下の機能を有する。すなわち、閾値設定部１５Ｂは、近接回数カウント部１７によりカウントされる近接回数が所定回数に達した場合、発話音声について算出される指標が所定の条件を満たしやすくなる方向に閾値を変更する。これにより、第３の実施形態では、音声認識部１２によるワードの認識が行われやすくなるようにしている。

ここで、類似度の指標として距離値を用いる場合、閾値設定部１５Ｂは、近接回数が所定回数に達したワードについて、認識辞書記憶部１１に記憶されている閾値を現状よりも所定値だけ大きい値に変更する。なお、類似度が高くなるほど値が大きくなるような指標を用いた場合、閾値設定部１５Ｂは、近接回数が所定回数に達したワードについて、認識辞書記憶部１１に記憶されている閾値を現状よりも所定値だけ小さい値に変更する。

図８は、第３の実施形態による音声認識装置１００Ｂの動作例を示すフローチャートである。図８は、図３におけるステップＳ１の具体的な処理例を示すものである。なお、図８において、図６に示したステップ番号と同一の番号を付したものは同一の処理を行うものであるので、ここでは重複する説明を省略する。

図８のステップＳ２２において、距離値が閾値より小さくなるワードが音声認識辞書の中から検出されたと確認部１３により判定された場合、近接回数カウント部１７は、近接回数のカウント値をセロにクリアする（ステップＳ２９）。その後、処理はステップＳ２３へ進む。

また、ステップＳ２２において、距離値が閾値より小さくなるワードが音声認識辞書の中から検出されていないと確認部１３により判定された場合、近接回数カウント部１７は、近接回数のカウント値をインクリメントする（ステップＳ３１）。そして、閾値設定部１５Ｂは、近接回数が所定回数に達したか否かを判定する（ステップＳ３２）。

ここで、近接回数が所定回数に達した場合、閾値設定部１５Ｂは、当該近接回数が所定回数に達したワードについて、認識辞書記憶部１１に記憶されている閾値を現状よりも所定値だけ大きい値に変更する（ステップＳ３３）。これにより、図８に示すフローチャートの処理が終了となり、図３に示すステップＳ２の処理へと進む。一方、近接回数がまだ所定回数に達していない場合は、閾値を変更することなく図８に示すフローチャートの処理が終了となり、図３に示すステップＳ２の処理へと進む。

以上詳しく説明したように、第３の実施形態によれば、あるワードについて算出された距離値が閾値を下回らないものの、閾値との差分が所定値より小さい状況が所定回数繰り返された場合に、そのワードに関する閾値を大きくすることにより、音声認識部１２によるワードの認識が行われやすくなるようにしている。これにより、ユーザが発話コマンドに相当するワードを発声しているのに、ユーザの発話の状態（音量、イントネーション、発声速度など）によって認識されないといった不都合を解消することができる。

なお、上記第１〜第３の実施形態では、オーディオ音声のソース種別に応じて閾値を可変設定する例について説明したが、本発明はこれに限定されない。例えば、オーディオ音声のソース種別と音量との組み合わせに応じて閾値を可変設定するようにしてもよい。図９に、ソース種別と音量との組み合わせに応じて閾値を可変設定する場合に参照するテーブル情報の一例を示す。図９の例では、音量が小さいほど正しい音声認識をしにくくなることから、音量が小さいほど閾値が大きくなるようにテーブル情報が設定されている。

また、上記第３の実施形態では、キャンセル回数カウント部１６および近接回数カウント部１７の両方を設ける構成について説明したが、近接回数カウント部１７のみを適用した実施形態とすることも可能である。

その他、上記第１〜第３の実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

１１認識辞書記憶部
１２音声認識部
１３確認部
１４ソース判定部
１５，１５Ａ，１５Ｂ閾値設定部
１６キャンセル回数カウント部
１７近接回数カウント部

Claims

認識対象とするワードとその音声パターンとを対応付けるとともに、音声認識の指標と比較される閾値が設定されて成る音声認識辞書を記憶する認識辞書記憶部と、
上記音声認識辞書に登録されているワードの音声パターンと、マイクより入力された発話音声との類似度を示す上記指標を算出し、当該算出した上記指標が上記閾値に対して所定の条件を満たす場合に、上記発話音声が上記所定の条件を満たすワードであると認識する音声認識部と、
車両内で再生されているオーディオ音声のソース種別を判定するソース判定部と、
上記ソース判定部により判定された上記ソース種別に応じて、上記閾値を可変設定する閾値設定部とを備えたことを特徴とする音声認識装置。
上記ソース判定部は、会話が多く含まれる可能性の高さに応じて上記ソース種別を区分し、上記車両内で再生されているオーディオ音声が、当該区分したソース種別のどれに該当するかを判定することを特徴とする請求項１に記載の音声認識装置。
上記発話音声について算出された上記指標が上記閾値に対して上記所定の条件を満たしたワードをユーザに提示した後、所定時間以内にユーザがキャンセルを指示した回数であるキャンセル回数をカウントするキャンセル回数カウント部を更に備え、
上記閾値設定部は、上記キャンセル回数が所定回数に達した場合、上記発話音声について算出される上記指標が上記所定の条件を満たしにくくなる方向に上記閾値を変更する請求項１に記載の音声認識装置。
上記指標が上記閾値に対して上記所定の条件を満たさないワードについて、上記指標と上記閾値との差分が所定値より小さくなる回数である近接回数をカウントする近接回数カウント部を更に備え、
上記閾値設定部は、上記近接回数が所定回数に達した場合、上記発話音声について算出される上記指標が上記所定の条件を満たしやすくなる方向に上記閾値を変更する請求項１に記載の音声認識装置。
音声認識装置のソース判定部が、車両内で再生されているオーディオ音声のソース種別を判定する第１のステップと、
上記音声認識装置の閾値設定部が、上記ソース判定部により判定された上記ソース種別に応じて、音声認識の指標と比較される閾値を可変設定する第２のステップと、
上記音声認識装置の音声認識部が、上記閾値設定部により設定された上記閾値を用いて、音声認識辞書に登録されているワードの音声パターンと、マイクより入力された発話音声との類似度を示す上記指標を算出し、当該算出した上記指標が上記閾値に対して所定の条件を満たす場合に、上記発話音声が上記所定の条件を満たすワードであると認識する第３のステップとを有することを特徴とする音声認識方法。