JP6539940B2

JP6539940B2 - 音声認識装置及び音声認識プログラム

Info

Publication number: JP6539940B2
Application number: JP2013262482A
Authority: JP
Inventors: 俊兵花田
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2013-12-19
Filing date: 2013-12-19
Publication date: 2019-07-10
Anticipated expiration: 2033-12-19
Also published as: WO2015093013A1; US20160314787A1; JP2015118307A; US10127910B2

Description

本発明は、ガイダンス音声を出力すると共に、ユーザから発話された認識語の音声が入力されると、その認識語の音声を音声データに変換して音声認識する音声認識装置及び音声認識プログラムに関する。

従来より、ガイダンス音声（例えば「ピッと鳴ったらお話ください」等）の出力中に、ユーザから認識語の音声（例えば「自宅に帰る」等）が発話された場合でも、その認識語の音声データを正しく音声認識するための技術としてバージイン機能がある。具体的には、ユーザから発話された認識語の音声と同時にスピーカに入力されたガイダンス音声を除去することで、認識語の音声データの認識率低下を回避する。バージイン機能を実現する従来の構成として、ユーザから発話された認識語の音声を入力するマイクロホンとは別のマイクロホンを設ける技術が供されている。このものでは、別のマイクロホンに入力されたガイダンス音声を、認識語の音声を入力するマイクロホンに入力されたガイダンス音声を除去するリファレンス音声として用いる（例えば特許文献１及び２参照）。

特開２００４−１０９７７９号公報特開２００９−０２５７１４号公報

しかしながら、ガイダンス音声を除去するリファレンス音声を入力するために別のマイクロホンを設ける構成では、別のマイクロホンを必要とする分、コスト高になったり構成が複雑化したりする等の問題があった。

本発明は、上記した事情に鑑みてなされたものであり、その目的は、ユーザから発話された認識語の音声を入力する音声入力手段とは別の音声入力手段を必要とせずに、認識語の音声データの認識率低下を回避することができる音声認識装置及び音声認識プログラムを提供することにある。

請求項１に記載した発明によれば、音声出力手段は、ガイダンス音声データ出力手段から出力されたガイダンス音声データをガイダンス音声に変換して出力する。音声入力手段は、音声を入力すると、その入力した音声を音声データに変換する。音声データ入力手段は、音声データを入力する。音声認識手段は、ユーザから発話された認識語の音声が音声入力手段に入力されたことで、認識語の音声データが音声データ入力手段に入力されると、その認識語の音声データを音声認識する。ここで、ガイダンス音声データ出力手段は、ガイダンス音声データの出力が完了する前に、認識語の音声データが音声データ入力手段に入力された場合、ガイダンス音声データの出力を停止する。音声データ入力手段は、ガイダンス音声データ出力手段から出力されたガイダンス音声データの出力済みである部分に対応する対象ガイダンス音声データをリファレンス音声データとして入力する。音声認識手段は、音声出力手段から出力された、対象ガイダンス音声データに対応する対象ガイダンス音声が音声入力手段に入力されたことで、対象ガイダンス音声データが音声データ入力手段に入力されると、音声データ入力手段に入力されたリファレンス音声データのサイズが、ガイダンス音声データ出力手段から出力された対象ガイダンス音声データのサイズに達したことを条件とし、その入力された対象ガイダンス音声データを、音声データ入力手段に入力されたリファレンス音声データを用いて除去する処理を開始する。

即ち、ガイダンス音声に変換される前のガイダンス音声データをリファレンス音声データとして用い、音声出力手段から出力されたガイダンス音声が音声入力手段に入力された場合でも、そのガイダンス音声が変換されたガイダンス音声データを、そのリファレンス音声データを用いて除去するようにした。これにより、ユーザから発話された認識語の音声を入力する音声入力手段とは別の音声入力手段を必要とせずに、ガイダンス音声の出力中に、ユーザから認識語の音声が発話された場合でも、認識語の音声データの認識率低下を回避することができる。
また、請求項２に記載した発明によれば、音声認識手段は、音声出力手段から出力されたガイダンス音声が音声入力手段に入力されたことで、ガイダンス音声データが前記音声データ入力手段に入力された場合に、前記音声データ入力手段に入力されたリファレンス音声データのサイズが、前記ガイダンス音声データ出力手段から出力されたガイダンス音声データのサイズに達したことを条件とし、その入力されたガイダンス音声データを、前記音声データ入力手段に入力されたリファレンス音声データを用いて除去する処理を開始する。
即ち、音声データ入力手段に入力されたリファレンス音声データのサイズが、ガイダンス音声データ出力手段から出力されたガイダンス音声データのサイズに達したことを条件とし、ガイダンス音声データを、リファレンス音声データを用いて除去する処理を開始するようにした。これにより、ガイダンス音声データの出力と、リファレンス音声データの入力との時間差（タイムラグ）を考慮した上で、ガイダンス音声データの全てを、リファレンス音声データを用いて除去することができる。即ち、ガイダンス音声データの一部が除去されない状況（除去漏れ）を回避することができる。

本発明の一実施形態を示す機能ブロック図処理の流れを示すシーケンス図（その１）処理の流れを示すシーケンス図（その２）ガイダンス音声データを除去する態様を示す図

以下、本発明を、車両に搭載可能な車両用の音声認識装置に適用した一実施形態について図面を参照して説明する。車両用の音声認識装置１は、車両に搭載可能であり、第１の基板２と、第２の基板３とを有する。車両に搭載可能とは、車両に対して固定状態で搭載されている態様、又は車両に対して着脱可能に搭載されている態様の何れでも良い。第１の基板２には、第１のＣＰＵ（Central Processing Unit）４と、第１のサンプリングレート（サンプリング周波数）変換（ＳＲＣ：Sampling Rate Converter）回路５と、第２のサンプリングレート変換回路６（サンプリングレート変換手段）とが実装されている。第１のＣＰＵ４は、全体を制御する制御部と、各種演算を実行する演算部と、データを一時記憶するレジスタと、クロックを発振する発振器と、後述する第２のＣＰＵ９との通信インタフェース等を有する。又、第１のＣＰＵ２は、発声コア７と、音声ドライバ８（ガイダンス音声データ出力手段）とを有する。これら発声コア７及び音声ドライバ８は、第１のＣＰＵ４が実行する制御プログラム（ソフトウェア）により実現されている。

第２の基板３には、第２のＣＰＵ９（制御手段）が実装されている。第２のＣＰＵ９は、全体を制御する制御部と、各種演算を実行する演算部と、データを一時記憶するレジスタと、クロックを発振する発振器と、上記した第１のＣＰＵ４との通信インタフェース等を有する。又、第２のＣＰＵ９は、音認コア（音声認識コア）１０（音声データ入力手段）と、発声コア１１と、音声認識エンジン１２（音声認識手段）とを有する。これら音声コア１０、発声コア１１及び音声認識エンジン１２は、第２のＣＰＵ９が実行する制御プログラム（音声認識プログラムを含む、ソフトウェア）により実現されている。又、第２の基板３の音認コア１０と第１の基板２の発声コア７との間には制御線１３が接続されている。これら音認コア１０と発声コア７とは、各種の制御信号（要求や応答等）を制御線１３を介して入出力する。

ＰＴＴ（Push to Talk）ボタン１４は、ユーザが音声認識機能を開始（起動）させるために押下可能なボタンであり、ユーザが押下すると、検知信号を音認コア１０に出力する。音認コア１０は、ＰＴＴボタン１４から検知信号を入力すると、ユーザが音声認識機能を開始させたと判定し、再生開始要求を制御線１３を介して発声コア７に出力する。

ＳＤカード１５は、各種の音声データを記憶保持しており、その一つとしてガイダンス音声データ（例えば「ピッと鳴ったらお話ください」というガイダンス音声の元データ）を記憶保持している。発声コア７は、音認コア１０から再生開始要求を入力すると、ガイダンス音声データをＳＤカード１５から読み出し、その読み出したガイダンス音声データを音声データ線１６を介して音声ドライバ８に出力する（設定する）。この場合、ＳＤカード１５から発声コア７に読み出されるガイダンス音声データのサンプリングレートは例えば１８．９［ｋＨｚ］である。

又、発声コア７は、読み出したガイダンス音声データを音声データ線１６を介して音声ドライバ８に出力すると同時に、マイクオン要求を制御線１３を介して音認コア１０に出力する。音認コア１０は、発声コア７からマイクオン要求を入力すると、起動信号をマイクロホン１７に出力する。マイクロホン１７は、音認コア１０から起動信号を入力すると、起動する。マイクロホン１７は、起動すると、ユーザから発話された音声の入力（集音）を待機する。そして、マイクロホン１７は、ユーザから発話された音声を入力すると、その入力した音声を音声データ（電気信号）に変換して音声データ線１８を介して音認コア１０に出力する。

音声ドライバ８は、発声コア７からガイダンス音声データを入力すると、その入力したガイダンス音声データを音声データ線１９を介して第１のＳＲＣ回路５に出力する。第１のＳＲＣ回路５は、音声ドライバ８からガイダンス音声データを入力すると、その入力したガイダンス音声データのサンプリングレートを例えば１８．９［ｋＨｚ］から４８［ｋＨｚ］に変換する。そして、第１のＳＲＣ回路５は、そのサンプリングレートを変換したガイダンス音声データを音声データ線２０を介してアンプ２１に出力する。

アンプ２１は、第１のＳＲＣ回路５からガイダンス音声データを入力すると、その入力したガイダンス音声データを所定の増幅率にしたがって増幅し、その増幅したガイダンス音声データを音声データ線２２を介してスピーカ２３（音声出力手段）に出力する。スピーカ２３は、アンプ２１からガイダンス音声データを入力すると、その入力したガイダンス音声データをガイダンス音声（可聴音）に変換して出力する。上記した構成により、ユーザがＰＴＴボタン１４を押下すると、スピーカ２３からのガイダンス音声の出力が開始される。

マイクロホン１７は、ユーザが認識語の音声（例えば「自宅に帰る」）を発話したことで、そのユーザから発話された認識語の音声を入力すると、その入力した認識語の音声を音声データに変換する。そして、マイクロホン１７は、その認識語の音声データを音声データ線１８を介して音認コア１０に出力する。音認コア１０は、マイクロホン１７から認識語の音声データを入力すると、その入力した認識語の音声データを音声データ線２４を介して音声認識エンジン１２に出力する。この場合、マイクロホン１７から音認コア１０に入力されるガイダンス音声データのサンプリングレートは例えば１６［ｋＨｚ］である。

音声認識エンジン１２は、音認コア１０から音声データを入力すると、その入力した音声データに対して周知の音声認識処理を施すことで、その入力した音声データに対する音声認識結果を取得する。音声認識処理は、音声データから特徴を抽出する処理、音声データを音素に変換する処理、認識辞書を用いて音素列を単語に変換する処理、変換した候補の中から最も妥当性の高い候補をテキストとして出力する処理等を含む。音声認識エンジン１２により取得された音声認識結果は、例えばナビゲーション機能の目的地を設定する処理で利用される。上記した構成により、ユーザが認識語の音声として例えば「自宅に帰る」を発話すると、その認識語の音声データが音声認識エンジン１２により正しく音声認識されると、予めナビゲーションシステム（図示せず）で登録されている自宅の位置が目的地として設定される。

さて、マイクロホン１７及びスピーカ２３が設置されている車室内という限られた空間内では、マイクロホン１７とスピーカ２３とが互いに十分に離れた距離を保って配置されることが物理的に困難である。そのため、スピーカ２３から出力されたガイダンス音声がマイクロホン１７に入力される（回り込む）可能性がある。その場合、音声認識機能を利用するユーザが、スピーカ２３からのガイダンス音声の出力が完了してから認識語の音声を発話すれば、ガイダンス音声がマイクロホン１７に入力される期間と、認識語の音声がマイクロホン１７に入力される期間とが重なることはない。そのため、認識語の音声データは音声認識エンジン１２により正しく音声認識される。しかしながら、音声認識機能を利用するユーザが、スピーカ２３からのガイダンス音声の出力中に（出力が完了する前に）認識語の音声を発話してしまうと、ガイダンス音声がマイクロホン１７に入力される期間と、認識語の音声がマイクロホン１７に入力される期間とが一部重なることになる。その結果、ガイダンス音声データと認識語の音声データとが混在する（ガイダンス音声データがノイズとなる）期間が発生し、認識語の音声データが音声認識エンジン１２により正しく音声認識されなくなる可能性がある。

このような想定され得る問題を考慮し、音声認識装置１は、上記した構成に加え、以下に示す構成も加えられている。即ち、上記した第１のＳＲＣ回路５とアンプ２１とを接続する音声データ線２０は、その途中部位が分岐されて第２のＳＲＣ回路６にも接続されている。このような構成により、第１のＳＲＣ回路５から出力されたガイダンス音声データはアンプ２１に入力されることに加えて第２のＳＲＣ回路６にも入力される（取り込まれる）。

第２のＳＲＣ回路６は、第１のＳＲＣ回路５から出力されたガイダンス音声データを音声データ線２０の一部を介してリファレンス音声データとして入力する。第２のＳＲＣ回路６は、リファレンス音声データを入力すると、その入力したリファレンス音声データのサンプリングレートを例えば４８［ｋＨｚ］から１６［ｋＨｚ］に変換する。そして、第２のＳＲＣ回路６は、そのサンプリングレートを変換したリファレンス音声データを音声データ線２５を介して音声ドライバ８に出力する。即ち、第２のＳＲＣ回路６は、リファレンス音声データのサンプリングレートを、マイクロホン１７から音認コア１０に入力されるガイダンス音声データのサンプリングレートと同じレートに変換する。

音声ドライバ８は、第２のＳＲＣ回路６からリファレンス音声データを入力すると、その入力したリファレンス音声データを音声データ線２６を介して発声コア７に出力する。発声コア７は、音声ドライバ８からリファレンス音声データを入力すると、その入力したリファレンス音声データを音声データ線２７を介して発声コア１１に出力する。発声コア１１は、発声コア７からリファレンス音声データを入力すると、その入力したリファレンス音声データを音声データ線２８を介して音認コア１０に出力する。上記した構成により、ユーザがＰＴＴボタン１４を押下すると、スピーカ２３からのガイダンス音声の出力が開始されると同時に、リファレンス音声データの音認コア１０への入力が開始される。

次に、上記した構成の作用について、図２から図４も参照して説明する。発声コア７は、最終フラグを格納可能となっている。
音認コア１０は、ＰＴＴボタン１４から検知信号を入力し、ユーザが音声認識機能を開始させたと判定すると（Ａ１：ＹＥＳ）、再生開始要求を制御線１３を介して発声コア７に出力する。発声コア７は、音認コア１０から再生開始要求を入力すると、最終フラグを「０」に設定し（Ｂ１）、ＳＤカード１５からガイダンス音声データを読み出す（Ｂ２）。次いで、発声コア７は、その読み出したガイダンス音声データ（３ブロック分、１ブロックは例えば３２ｋｂｙｔｅ）を音声データ線１６を介して音声ドライバ８に出力し、続けて再生開始要求を音声ドライバ８に出力する。又、発声コア７は、その読み出したガイダンス音声データを音声データ線１６を介して音声ドライバ８に出力すると同時に、マイクオン要求を制御線１３を介して音認コア１０に出力する。音認コア１０は、発声コア７からマイクオン要求を入力すると、起動信号をマイクロホン１７に出力し、マイクロホン１７を起動させ、ユーザから発話された音声の入力（集音）を待機させる（Ａ２）。音認コア１０は、マイクロホン１７を起動させると、マイクオン応答を制御線１３を介して発声コア７に出力する。

音声ドライバ８は、発声コア７からガイダンス音声データ（３ブロック分）を入力し、続けて再生開始要求を入力すると、ガイダンス音声データの出力を開始すると共に、リファレンス音声の入力を開始する（Ｃ１）。このようにして音声ドライバ８がガイダンス音声データの出力を開始することで、その音声ドライバ８から出力されたガイダンス音声データは、第１のＳＲＣ回路５によりサンプリングレートが例えば１８．９［ｋＨｚ］から４８［ｋＨｚ］に変換され、アンプ２１により所定の増幅率にしたがって増幅され、スピーカ２３によりガイダンス音声（可聴音）に変換される。その結果、スピーカ２３からのガイダンス音声の出力が開始される。これと同時に、第１のＳＲＣ回路５から出力されたガイダンス音声データは、リファレンス音声データとして第２のＳＲＣ回路６に入力される（取り込まれる）。第２のＳＲＣ回路６に入力されたリファレンス音声データは、第２のＳＲＣ回路６によりサンプリングレートが例えば４８［ｋＨｚ］から１６［ｋＨｚ］変換され、音声ドライバ８、発声コア７及び発声コア１１を経由して音認コア１０に入力される。その結果、スピーカ２３からのガイダンス音声の出力が開始されると同時に、リファレンス音声データの音認コア１０への入力が開始される。

音声ドライバ８は、このようにしてガイダンス音声データの出力を開始すると共に、リファレンス音声の入力を開始すると、再生開始応答を発声コア７に出力する。発声コア７は、音声ドライバ８から再生開始応答を入力すると、再生開始応答を制御線１３を介して音認コア１０に出力する。

又、音声ドライバ８は、ガイダンス音声データの出力を開始した以降では、ガイダンス音声データの１ブロック分の出力を完了する毎に、１ブロック再生完了通知を発声コア７に出力する。発声コア７は、音声ドライバ８から１ブロック再生完了通知を入力する毎に、ガイダンス音声データ（１ブロック分）を音声データ線１６を介して音声ドライバ８に出力する。又、音声ドライバ８は、リファレンス音声データの入力を開始した以降では、リファレンス音声データを入力する毎に、その入力したリファレンス音声データを音声データ線２６を介して発声コア７に出力する。そして、音声ドライバ８は、その入力を完了したリファレンス音声データのサイズ（ｘｎ（ｎは１、２、３、…の自然数）ｂｙｔｅ）を示す入力完了通知を発声コア７に出力する。

発声コア７は、音声ドライバ８からリファレンス音声データを入力すると、その入力したリファレンス音声データを音声データ線２７及び２８を介して（発声コア１１を経由して）音認コア１０に出力する。このようにして音認コア１０は、リファレンス音声データを入力する（第１の手順を実行する）。又、発声コア７は、音声ドライバ８から入力完了通知を入力すると、その時点で設定している最終フラグの値も含めた入力完了通知を制御線１３を介して音認コア１０に出力する。この場合、発声コア７は、最終フラグを「０」に設定しているので、最終フラグが「０」であることを音認コア１０に通知する。

ここで、スピーカ２３からのガイダンス音声の出力中に（出力が完了する前に）、ユーザが認識語の音声を発話した場合を説明する。ユーザが認識語の音声を発話すると、そのユーザから発話された認識語の音声はマイクロホン１７に入力される。マイクロホン１７は、そのユーザから発話された認識語の音声を入力すると、その入力した認識語の音声を音声データに変換し、その認識語の音声データを音声データ線１８を介して音認コア１０に出力する。音認コア１０は、マイクロホン１７から認識語の音声データを入力したと判定すると（Ａ３：ＹＥＳ）、再生停止要求を制御線１３を介して発声コア７に出力する。発声コア７は、音認コア１０から再生停止要求を入力すると、再生停止要求を音声ドライバ８に出力する。

音声ドライバ８は、発声コア７から再生停止要求を入力すると、ガイダンス音声データの出力を停止する（Ｃ２）。その結果、スピーカ２３からのガイダンス音声の出力が停止される。音声ドライバ８は、ガイダンス音声データの出力を停止すると、再生停止応答を発声コア７に出力する。このようにスピーカ２３からのガイダンス音声の出力中に、ユーザが認識語の音声を発話すると、ガイダンス音声の出力が停止されるが、スピーカ２３から出力されたガイダンス音声とユーザから発話された認識語の音声とがマイクロホン１７に同時に入力される期間が発生する。即ち、ガイダンス音声データと認識語の音声データとが混在する期間が発生することになる。

発声コア７は、音声ドライバ８から再生停止応答を入力すると、再生停止応答を制御線１３を介して音認コア１０に出力する。次いで、発声コア７は、再生済みサイズ要求を音声ドライバ８に出力する。音声ドライバ８は、発声コア７から再生済みサイズ要求を入力すると、再生を完了したガイダンス音声データのサイズ（ｙｂｙｔｅ）を示す再生済みサイズ応答を発声コア７に出力する。発声コア７は、音声ドライバ８から再生済みサイズ応答を入力すると、その再生済みサイズ分のガイダンス音声データのサンプリングレートを例えば１８．９［ｋＨｚ］から１６［ｋＨｚ］にレート変換する（Ｂ３）。

その後、発声コア７は、音声ドライバ８からリファレンス音声データを入力し、続けて入力完了通知を入力すると、これまでに入力した入力完了通知で示されたリファレンス音声データのサイズ（入力を完了したリファレンス音声データのサイズ）の総和を計算する。そして、発声コア７は、その計算した値と、再生済みサイズ応答で示された再生済みサイズとを比較し、その計算した値が、再生を完了したガイダンス音声データのサイズに達しているか否かを判定する（Ｂ４）。

発声コア７は、その計算した値が、再生を完了したガイダンス音声データのサイズに達していないと判定すると（Ｂ４：ＮＯ）、最終フラグを「０」に設定したまま、入力完了通知を制御線１３を介して音認コア１０に出力する。この場合、発声コア７は、最終フラグを「０」に設定したままであるので、最終フラグが「０」であることを音認コア１０に通知する。音認コア１０は、発声コア７からリファレンス音声データを入力し、続けて入力完了通知を入力し、最終フラグが「０」であることが通知されると、次のリファレンス音声データ及び入力完了通知の入力を待機する。

一方、発声コア７は、その計算した値が、再生を完了したガイダンス音声データのサイズに達したと判定すると（Ｂ４：ＹＥＳ）、最終フラグを「１」に設定し（「０」から「１」に変更し）（Ｂ５）、入力完了通知を制御線１３を介して音認コア１０に出力する。この場合、発声コア７は、最終フラグを「１」に設定したので、最終フラグが「１」であることを音認コア１０に通知する。音認コア１０は、発声コア７からリファレンス音声データを入力し、続けて入力完了通知を入力し、最終フラグが「１」であることが通知されると、ガイダンス音声データを、リファレンス音声データを用いて除去する（Ａ４、第２の手順を実行する）。具体的に説明すると、音認コア１０は、リファレンス音声データを逆位相に変換し、その逆位相に変換したリファレンス音声データをガイダンス音声データに加算して相殺することで、ガイダンス音声データを除去する。そして、音認コア１０は、認識後の音声データを音声データ線２４を介して音声認識エンジン１２に出力し、認識後の音声データの音声認識エンジン１２による音声認識を開始させる（Ａ５）。

又、発声コア７は、入力完了通知を制御線１３を介して音認コア１０に出力すると同時に、入力停止要求を音声ドライバ８に出力する。音声ドライバ８は、発声コア７から入力停止要求を入力すると、リファレンス音声データの入力を停止する（Ｃ３）。音声ドライバ８は、リファレンス音声データの入力を停止すると、入力停止応答を発声コア７に出力する。

以上に説明した一連の処理を行うことで、スピーカ２３からのガイダンス音声の出力中に、ユーザが認識語の音声を発話すると、ガイダンス音声データと認識語の音声データとが混在する期間が発生することになるが、ガイダンス音声データを、リファレンス音声データを用いて除去することで、認識語の音声データを音声認識エンジン１２により正しく音声認識することができる。即ち、リファレンス音声データを入力しない図４（ａ）に示す構成では、認識語の音声データと混在するガイダンス音声データを除去することができず、認識語の音声データを正しく音声認識することができない。これに対し、リファレンス音声データを入力する図４（ｂ）に示す構成（本発明）では、リファレンス音声データを用いることで、認識語の音声データと混在するガイダンス音声データを除去することができ、認識語の音声データを正しく音声認識することができる。

以上に説明したように本実施形態によれば、音声認識装置１において、ガイダンス音声に変換される前のガイダンス音声データをリファレンス音声データとして用い、スピーカ２３から出力されたガイダンス音声がマイクロホン１７に入力された場合でも、そのガイダンス音声が変換されたガイダンス音声データを、そのリファレンス音声データを用いて除去するようにした。これにより、ユーザから発話された認識語の音声を入力するマイクロホン１７とは別のマイクロホンを必要とせずに、ガイダンス音声の出力中に、ユーザから認識語の音声が発話された場合でも、認識語の音声データの認識率低下を回避することができる。

この場合、リファレンス音声データのサンプリングレートを、マイクロホン１７から音認コア１０に入力される音声データのサンプリングレートと同じとした（揃えた）。これにより、ガイダンス音声データのサンプリングレートとリファレンス音声データのサンプリングレートとの不一致により想定される問題を解消した上で、ガイダンス音声データを、リファレンス音声データを用いて除去することができる。

又、音声ドライバ８に入力されたリファレンス音声データのサイズが、音声ドライバ８から出力されたガイダンス音声データのサイズに達したことを条件とし、ガイダンス音声データを、リファレンス音声データを用いて除去する処理を開始するようにした。これにより、音声ドライバ８からのガイダンス音声データの出力と、音声ドライバ８へのリファレンス音声データの入力との時間差（タイムラグ）を考慮した上で、音声ドライバ８から出力されたガイダンス音声データの全てを、リファレンス音声データを用いて除去することができる。即ち、ガイダンス音声データの一部が除去されない状況（除去漏れ）を回避することができる。

本発明は、上記した実施形態にのみ限定されるものではなく、以下のように変形又は拡張することができる。
車両用の音声認識装置に適用する構成に限らず、他の用途の音声認識装置に適用しても良い。ガイダンス音声は、ナビゲーション機能で利用される音声の発話を促す音声に限らず、他の機能で利用される音声の発話を促す音声であっても良い。

図面中、１は車両用の音声認識装置（音声認識装置）、６は第２のサンプリングレート変換回路（サンプリングレート変換手段）、８は音声ドライバ（ガイダンス音声データ出力手段）、９は第２のＣＰＵ（制御手段）、１０は音認コア（音声データ入力手段）、１２は音声認識エンジン（音声認識手段）、１７はマイクロホン（音声入力手段）、２３はスピーカ（音声出力手段）である。

Claims

ガイダンス音声データを出力するガイダンス音声データ出力手段（８）と、
前記ガイダンス音声データ出力手段から出力されたガイダンス音声データをガイダンス音声に変換して出力する音声出力手段（２３）と、
音声を入力し、その入力した音声を音声データに変換する音声入力手段（１７）と、
音声データを入力する音声データ入力手段（１０）と、
ユーザから発話された認識語の音声が前記音声入力手段に入力されたことで、認識語の音声データが前記音声データ入力手段に入力された場合に、その認識語の音声データを音声認識する音声認識手段（１２）と、を備え、
前記ガイダンス音声データ出力手段は、前記ガイダンス音声データの出力が完了する前に、前記認識語の音声データが前記音声データ入力手段に入力された場合、前記ガイダンス音声データの出力を停止し、
前記音声データ入力手段は、前記ガイダンス音声データ出力手段から出力された前記ガイダンス音声データの出力済みである部分に対応する対象ガイダンス音声データをリファレンス音声データとして入力し、
前記音声認識手段は、前記音声出力手段から出力された、前記対象ガイダンス音声データに対応する対象ガイダンス音声が前記音声入力手段に入力されたことで、前記対象ガイダンス音声データが前記音声データ入力手段に入力された場合に、前記音声データ入力手段に入力されたリファレンス音声データのサイズが、前記ガイダンス音声データ出力手段から出力された前記対象ガイダンス音声データのサイズに達したことを条件とし、その入力された前記対象ガイダンス音声データを、前記音声データ入力手段に入力されたリファレンス音声データを用いて除去する処理を開始することを特徴とする音声認識装置（１）。
ガイダンス音声データを出力するガイダンス音声データ出力手段（８）と、
前記ガイダンス音声データ出力手段から出力されたガイダンス音声データをガイダンス音声に変換して出力する音声出力手段（２３）と、
音声を入力し、その入力した音声を音声データに変換する音声入力手段（１７）と、
音声データを入力する音声データ入力手段（１０）と、
ユーザから発話された認識語の音声が前記音声入力手段に入力されたことで、認識語の音声データが前記音声データ入力手段に入力された場合に、その認識語の音声データを音声認識する音声認識手段（１２）と、を備え、
前記音声データ入力手段は、前記ガイダンス音声データ出力手段から出力されたガイダンス音声データをリファレンス音声データとして入力し、
前記音声認識手段は、前記音声出力手段から出力されたガイダンス音声が前記音声入力手段に入力されたことで、ガイダンス音声データが前記音声データ入力手段に入力された場合に、前記音声データ入力手段に入力されたリファレンス音声データのサイズが、前記ガイダンス音声データ出力手段から出力されたガイダンス音声データのサイズに達したことを条件とし、その入力されたガイダンス音声データを、前記音声データ入力手段に入力されたリファレンス音声データを用いて除去する処理を開始することを特徴とする音声認識装置（１）。
請求項１又は２に記載した音声認識装置において、
前記音声データ入力手段に入力されるリファレンス音声データのサンプリングレートを、前記音声入力手段から前記音声データ入力手段に入力される音声データのサンプリングレートと同じレートに変換するサンプリングレート変換手段（６）を備えたことを特徴とする音声認識装置。
ガイダンス音声データを出力するガイダンス音声データ出力手段（８）と、
前記ガイダンス音声データ出力手段から出力されたガイダンス音声データをガイダンス音声に変換して出力する音声出力手段（２３）と、
音声を入力し、その入力した音声を音声データに変換する音声入力手段（１７）と、
音声データを入力する音声データ入力手段（１０）と、
ユーザから発話された認識語の音声が前記音声入力手段に入力されたことで、認識語の音声データが前記音声データ入力手段に入力された場合に、その認識語の音声データを音声認識する音声認識手段（１２）と、を備えた音声認識装置（１）に設けられる制御手段（９）に、
前記ガイダンス音声データ出力手段から出力されたガイダンス音声データをリファレンス音声データとして前記音声データ入力手段に入力させる第１の手順と、
前記音声出力手段から出力されたガイダンス音声が前記音声入力手段に入力されたことで、ガイダンス音声データが前記音声データ入力手段に入力された場合に、前記第１の手順により入力されたリファレンス音声データのサイズが、前記ガイダンス音声データ出力手段から出力されたガイダンス音声データのサイズに達したことを条件とし、その入力されたガイダンス音声データを、前記第１の手順により入力させたリファレンス音声データを用いて除去させる処理を前記音声認識手段に開始させる第２の手順と、を実行させることを特徴とする音声認識プログラム。