JP6539940B2 - 音声認識装置及び音声認識プログラム - Google Patents

音声認識装置及び音声認識プログラム Download PDF

Info

Publication number
JP6539940B2
JP6539940B2 JP2013262482A JP2013262482A JP6539940B2 JP 6539940 B2 JP6539940 B2 JP 6539940B2 JP 2013262482 A JP2013262482 A JP 2013262482A JP 2013262482 A JP2013262482 A JP 2013262482A JP 6539940 B2 JP6539940 B2 JP 6539940B2
Authority
JP
Japan
Prior art keywords
voice
voice data
guidance
input
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013262482A
Other languages
English (en)
Other versions
JP2015118307A (ja
Inventor
俊兵 花田
俊兵 花田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2013262482A priority Critical patent/JP6539940B2/ja
Priority to US15/105,061 priority patent/US10127910B2/en
Priority to PCT/JP2014/006168 priority patent/WO2015093013A1/ja
Publication of JP2015118307A publication Critical patent/JP2015118307A/ja
Application granted granted Critical
Publication of JP6539940B2 publication Critical patent/JP6539940B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Description

本発明は、ガイダンス音声を出力すると共に、ユーザから発話された認識語の音声が入力されると、その認識語の音声を音声データに変換して音声認識する音声認識装置及び音声認識プログラムに関する。
従来より、ガイダンス音声(例えば「ピッと鳴ったらお話ください」等)の出力中に、ユーザから認識語の音声(例えば「自宅に帰る」等)が発話された場合でも、その認識語の音声データを正しく音声認識するための技術としてバージイン機能がある。具体的には、ユーザから発話された認識語の音声と同時にスピーカに入力されたガイダンス音声を除去することで、認識語の音声データの認識率低下を回避する。バージイン機能を実現する従来の構成として、ユーザから発話された認識語の音声を入力するマイクロホンとは別のマイクロホンを設ける技術が供されている。このものでは、別のマイクロホンに入力されたガイダンス音声を、認識語の音声を入力するマイクロホンに入力されたガイダンス音声を除去するリファレンス音声として用いる(例えば特許文献1及び2参照)。
特開2004−109779号公報 特開2009−025714号公報
しかしながら、ガイダンス音声を除去するリファレンス音声を入力するために別のマイクロホンを設ける構成では、別のマイクロホンを必要とする分、コスト高になったり構成が複雑化したりする等の問題があった。
本発明は、上記した事情に鑑みてなされたものであり、その目的は、ユーザから発話された認識語の音声を入力する音声入力手段とは別の音声入力手段を必要とせずに、認識語の音声データの認識率低下を回避することができる音声認識装置及び音声認識プログラムを提供することにある。
請求項1に記載した発明によれば、音声出力手段は、ガイダンス音声データ出力手段から出力されたガイダンス音声データをガイダンス音声に変換して出力する。音声入力手段は、音声を入力すると、その入力した音声を音声データに変換する。音声データ入力手段は、音声データを入力する。音声認識手段は、ユーザから発話された認識語の音声が音声入力手段に入力されたことで、認識語の音声データが音声データ入力手段に入力されると、その認識語の音声データを音声認識する。ここで、ガイダンス音声データ出力手段は、ガイダンス音声データの出力が完了する前に、認識語の音声データが音声データ入力手段に入力された場合、ガイダンス音声データの出力を停止する。音声データ入力手段は、ガイダンス音声データ出力手段から出力されたガイダンス音声データの出力済みである部分に対応する対象ガイダンス音声データをリファレンス音声データとして入力する。音声認識手段は、音声出力手段から出力された、対象ガイダンス音声データに対応する対象ガイダンス音声が音声入力手段に入力されたことで、対象ガイダンス音声データが音声データ入力手段に入力されると、音声データ入力手段に入力されたリファレンス音声データのサイズが、ガイダンス音声データ出力手段から出力された対象ガイダンス音声データのサイズに達したことを条件とし、その入力された対象ガイダンス音声データを、音声データ入力手段に入力されたリファレンス音声データを用いて除去する処理を開始する
即ち、ガイダンス音声に変換される前のガイダンス音声データをリファレンス音声データとして用い、音声出力手段から出力されたガイダンス音声が音声入力手段に入力された場合でも、そのガイダンス音声が変換されたガイダンス音声データを、そのリファレンス音声データを用いて除去するようにした。これにより、ユーザから発話された認識語の音声を入力する音声入力手段とは別の音声入力手段を必要とせずに、ガイダンス音声の出力中に、ユーザから認識語の音声が発話された場合でも、認識語の音声データの認識率低下を回避することができる。
また、請求項に記載した発明によれば、音声認識手段は、音声出力手段から出力されたガイダンス音声が音声入力手段に入力されたことで、ガイダンス音声データが前記音声データ入力手段に入力された場合に、前記音声データ入力手段に入力されたリファレンス音声データのサイズが、前記ガイダンス音声データ出力手段から出力されたガイダンス音声データのサイズに達したことを条件とし、その入力されたガイダンス音声データを、前記音声データ入力手段に入力されたリファレンス音声データを用いて除去する処理を開始する。
即ち、音声データ入力手段に入力されたリファレンス音声データのサイズが、ガイダンス音声データ出力手段から出力されたガイダンス音声データのサイズに達したことを条件とし、ガイダンス音声データを、リファレンス音声データを用いて除去する処理を開始するようにした。これにより、ガイダンス音声データの出力と、リファレンス音声データの入力との時間差(タイムラグ)を考慮した上で、ガイダンス音声データの全てを、リファレンス音声データを用いて除去することができる。即ち、ガイダンス音声データの一部が除去されない状況(除去漏れ)を回避することができる。
本発明の一実施形態を示す機能ブロック図 処理の流れを示すシーケンス図(その1) 処理の流れを示すシーケンス図(その2) ガイダンス音声データを除去する態様を示す図
以下、本発明を、車両に搭載可能な車両用の音声認識装置に適用した一実施形態について図面を参照して説明する。車両用の音声認識装置1は、車両に搭載可能であり、第1の基板2と、第2の基板3とを有する。車両に搭載可能とは、車両に対して固定状態で搭載されている態様、又は車両に対して着脱可能に搭載されている態様の何れでも良い。第1の基板2には、第1のCPU(Central Processing Unit)4と、第1のサンプリングレート(サンプリング周波数)変換(SRC:Sampling Rate Converter)回路5と、第2のサンプリングレート変換回路6(サンプリングレート変換手段)とが実装されている。第1のCPU4は、全体を制御する制御部と、各種演算を実行する演算部と、データを一時記憶するレジスタと、クロックを発振する発振器と、後述する第2のCPU9との通信インタフェース等を有する。又、第1のCPU2は、発声コア7と、音声ドライバ8(ガイダンス音声データ出力手段)とを有する。これら発声コア7及び音声ドライバ8は、第1のCPU4が実行する制御プログラム(ソフトウェア)により実現されている。
第2の基板3には、第2のCPU9(制御手段)が実装されている。第2のCPU9は、全体を制御する制御部と、各種演算を実行する演算部と、データを一時記憶するレジスタと、クロックを発振する発振器と、上記した第1のCPU4との通信インタフェース等を有する。又、第2のCPU9は、音認コア(音声認識コア)10(音声データ入力手段)と、発声コア11と、音声認識エンジン12(音声認識手段)とを有する。これら音声コア10、発声コア11及び音声認識エンジン12は、第2のCPU9が実行する制御プログラム(音声認識プログラムを含む、ソフトウェア)により実現されている。又、第2の基板3の音認コア10と第1の基板2の発声コア7との間には制御線13が接続されている。これら音認コア10と発声コア7とは、各種の制御信号(要求や応答等)を制御線13を介して入出力する。
PTT(Push to Talk)ボタン14は、ユーザが音声認識機能を開始(起動)させるために押下可能なボタンであり、ユーザが押下すると、検知信号を音認コア10に出力する。音認コア10は、PTTボタン14から検知信号を入力すると、ユーザが音声認識機能を開始させたと判定し、再生開始要求を制御線13を介して発声コア7に出力する。
SDカード15は、各種の音声データを記憶保持しており、その一つとしてガイダンス音声データ(例えば「ピッと鳴ったらお話ください」というガイダンス音声の元データ)を記憶保持している。発声コア7は、音認コア10から再生開始要求を入力すると、ガイダンス音声データをSDカード15から読み出し、その読み出したガイダンス音声データを音声データ線16を介して音声ドライバ8に出力する(設定する)。この場合、SDカード15から発声コア7に読み出されるガイダンス音声データのサンプリングレートは例えば18.9[kHz]である。
又、発声コア7は、読み出したガイダンス音声データを音声データ線16を介して音声ドライバ8に出力すると同時に、マイクオン要求を制御線13を介して音認コア10に出力する。音認コア10は、発声コア7からマイクオン要求を入力すると、起動信号をマイクロホン17に出力する。マイクロホン17は、音認コア10から起動信号を入力すると、起動する。マイクロホン17は、起動すると、ユーザから発話された音声の入力(集音)を待機する。そして、マイクロホン17は、ユーザから発話された音声を入力すると、その入力した音声を音声データ(電気信号)に変換して音声データ線18を介して音認コア10に出力する。
音声ドライバ8は、発声コア7からガイダンス音声データを入力すると、その入力したガイダンス音声データを音声データ線19を介して第1のSRC回路5に出力する。第1のSRC回路5は、音声ドライバ8からガイダンス音声データを入力すると、その入力したガイダンス音声データのサンプリングレートを例えば18.9[kHz]から48[kHz]に変換する。そして、第1のSRC回路5は、そのサンプリングレートを変換したガイダンス音声データを音声データ線20を介してアンプ21に出力する。
アンプ21は、第1のSRC回路5からガイダンス音声データを入力すると、その入力したガイダンス音声データを所定の増幅率にしたがって増幅し、その増幅したガイダンス音声データを音声データ線22を介してスピーカ23(音声出力手段)に出力する。スピーカ23は、アンプ21からガイダンス音声データを入力すると、その入力したガイダンス音声データをガイダンス音声(可聴音)に変換して出力する。上記した構成により、ユーザがPTTボタン14を押下すると、スピーカ23からのガイダンス音声の出力が開始される。
マイクロホン17は、ユーザが認識語の音声(例えば「自宅に帰る」)を発話したことで、そのユーザから発話された認識語の音声を入力すると、その入力した認識語の音声を音声データに変換する。そして、マイクロホン17は、その認識語の音声データを音声データ線18を介して音認コア10に出力する。音認コア10は、マイクロホン17から認識語の音声データを入力すると、その入力した認識語の音声データを音声データ線24を介して音声認識エンジン12に出力する。この場合、マイクロホン17から音認コア10に入力されるガイダンス音声データのサンプリングレートは例えば16[kHz]である。
音声認識エンジン12は、音認コア10から音声データを入力すると、その入力した音声データに対して周知の音声認識処理を施すことで、その入力した音声データに対する音声認識結果を取得する。音声認識処理は、音声データから特徴を抽出する処理、音声データを音素に変換する処理、認識辞書を用いて音素列を単語に変換する処理、変換した候補の中から最も妥当性の高い候補をテキストとして出力する処理等を含む。音声認識エンジン12により取得された音声認識結果は、例えばナビゲーション機能の目的地を設定する処理で利用される。上記した構成により、ユーザが認識語の音声として例えば「自宅に帰る」を発話すると、その認識語の音声データが音声認識エンジン12により正しく音声認識されると、予めナビゲーションシステム(図示せず)で登録されている自宅の位置が目的地として設定される。
さて、マイクロホン17及びスピーカ23が設置されている車室内という限られた空間内では、マイクロホン17とスピーカ23とが互いに十分に離れた距離を保って配置されることが物理的に困難である。そのため、スピーカ23から出力されたガイダンス音声がマイクロホン17に入力される(回り込む)可能性がある。その場合、音声認識機能を利用するユーザが、スピーカ23からのガイダンス音声の出力が完了してから認識語の音声を発話すれば、ガイダンス音声がマイクロホン17に入力される期間と、認識語の音声がマイクロホン17に入力される期間とが重なることはない。そのため、認識語の音声データは音声認識エンジン12により正しく音声認識される。しかしながら、音声認識機能を利用するユーザが、スピーカ23からのガイダンス音声の出力中に(出力が完了する前に)認識語の音声を発話してしまうと、ガイダンス音声がマイクロホン17に入力される期間と、認識語の音声がマイクロホン17に入力される期間とが一部重なることになる。その結果、ガイダンス音声データと認識語の音声データとが混在する(ガイダンス音声データがノイズとなる)期間が発生し、認識語の音声データが音声認識エンジン12により正しく音声認識されなくなる可能性がある。
このような想定され得る問題を考慮し、音声認識装置1は、上記した構成に加え、以下に示す構成も加えられている。即ち、上記した第1のSRC回路5とアンプ21とを接続する音声データ線20は、その途中部位が分岐されて第2のSRC回路6にも接続されている。このような構成により、第1のSRC回路5から出力されたガイダンス音声データはアンプ21に入力されることに加えて第2のSRC回路6にも入力される(取り込まれる)。
第2のSRC回路6は、第1のSRC回路5から出力されたガイダンス音声データを音声データ線20の一部を介してリファレンス音声データとして入力する。第2のSRC回路6は、リファレンス音声データを入力すると、その入力したリファレンス音声データのサンプリングレートを例えば48[kHz]から16[kHz]に変換する。そして、第2のSRC回路6は、そのサンプリングレートを変換したリファレンス音声データを音声データ線25を介して音声ドライバ8に出力する。即ち、第2のSRC回路6は、リファレンス音声データのサンプリングレートを、マイクロホン17から音認コア10に入力されるガイダンス音声データのサンプリングレートと同じレートに変換する。
音声ドライバ8は、第2のSRC回路6からリファレンス音声データを入力すると、その入力したリファレンス音声データを音声データ線26を介して発声コア7に出力する。発声コア7は、音声ドライバ8からリファレンス音声データを入力すると、その入力したリファレンス音声データを音声データ線27を介して発声コア11に出力する。発声コア11は、発声コア7からリファレンス音声データを入力すると、その入力したリファレンス音声データを音声データ線28を介して音認コア10に出力する。上記した構成により、ユーザがPTTボタン14を押下すると、スピーカ23からのガイダンス音声の出力が開始されると同時に、リファレンス音声データの音認コア10への入力が開始される。
次に、上記した構成の作用について、図2から図4も参照して説明する。発声コア7は、最終フラグを格納可能となっている。
音認コア10は、PTTボタン14から検知信号を入力し、ユーザが音声認識機能を開始させたと判定すると(A1:YES)、再生開始要求を制御線13を介して発声コア7に出力する。発声コア7は、音認コア10から再生開始要求を入力すると、最終フラグを「0」に設定し(B1)、SDカード15からガイダンス音声データを読み出す(B2)。次いで、発声コア7は、その読み出したガイダンス音声データ(3ブロック分、1ブロックは例えば32k byte)を音声データ線16を介して音声ドライバ8に出力し、続けて再生開始要求を音声ドライバ8に出力する。又、発声コア7は、その読み出したガイダンス音声データを音声データ線16を介して音声ドライバ8に出力すると同時に、マイクオン要求を制御線13を介して音認コア10に出力する。音認コア10は、発声コア7からマイクオン要求を入力すると、起動信号をマイクロホン17に出力し、マイクロホン17を起動させ、ユーザから発話された音声の入力(集音)を待機させる(A2)。音認コア10は、マイクロホン17を起動させると、マイクオン応答を制御線13を介して発声コア7に出力する。
音声ドライバ8は、発声コア7からガイダンス音声データ(3ブロック分)を入力し、続けて再生開始要求を入力すると、ガイダンス音声データの出力を開始すると共に、リファレンス音声の入力を開始する(C1)。このようにして音声ドライバ8がガイダンス音声データの出力を開始することで、その音声ドライバ8から出力されたガイダンス音声データは、第1のSRC回路5によりサンプリングレートが例えば18.9[kHz]から48[kHz]に変換され、アンプ21により所定の増幅率にしたがって増幅され、スピーカ23によりガイダンス音声(可聴音)に変換される。その結果、スピーカ23からのガイダンス音声の出力が開始される。これと同時に、第1のSRC回路5から出力されたガイダンス音声データは、リファレンス音声データとして第2のSRC回路6に入力される(取り込まれる)。第2のSRC回路6に入力されたリファレンス音声データは、第2のSRC回路6によりサンプリングレートが例えば48[kHz]から16[kHz]変換され、音声ドライバ8、発声コア7及び発声コア11を経由して音認コア10に入力される。その結果、スピーカ23からのガイダンス音声の出力が開始されると同時に、リファレンス音声データの音認コア10への入力が開始される。
音声ドライバ8は、このようにしてガイダンス音声データの出力を開始すると共に、リファレンス音声の入力を開始すると、再生開始応答を発声コア7に出力する。発声コア7は、音声ドライバ8から再生開始応答を入力すると、再生開始応答を制御線13を介して音認コア10に出力する。
又、音声ドライバ8は、ガイダンス音声データの出力を開始した以降では、ガイダンス音声データの1ブロック分の出力を完了する毎に、1ブロック再生完了通知を発声コア7に出力する。発声コア7は、音声ドライバ8から1ブロック再生完了通知を入力する毎に、ガイダンス音声データ(1ブロック分)を音声データ線16を介して音声ドライバ8に出力する。又、音声ドライバ8は、リファレンス音声データの入力を開始した以降では、リファレンス音声データを入力する毎に、その入力したリファレンス音声データを音声データ線26を介して発声コア7に出力する。そして、音声ドライバ8は、その入力を完了したリファレンス音声データのサイズ(xn(nは1、2、3、…の自然数) byte)を示す入力完了通知を発声コア7に出力する。
発声コア7は、音声ドライバ8からリファレンス音声データを入力すると、その入力したリファレンス音声データを音声データ線27及び28を介して(発声コア11を経由して)音認コア10に出力する。このようにして音認コア10は、リファレンス音声データを入力する(第1の手順を実行する)。又、発声コア7は、音声ドライバ8から入力完了通知を入力すると、その時点で設定している最終フラグの値も含めた入力完了通知を制御線13を介して音認コア10に出力する。この場合、発声コア7は、最終フラグを「0」に設定しているので、最終フラグが「0」であることを音認コア10に通知する。
ここで、スピーカ23からのガイダンス音声の出力中に(出力が完了する前に)、ユーザが認識語の音声を発話した場合を説明する。ユーザが認識語の音声を発話すると、そのユーザから発話された認識語の音声はマイクロホン17に入力される。マイクロホン17は、そのユーザから発話された認識語の音声を入力すると、その入力した認識語の音声を音声データに変換し、その認識語の音声データを音声データ線18を介して音認コア10に出力する。音認コア10は、マイクロホン17から認識語の音声データを入力したと判定すると(A3:YES)、再生停止要求を制御線13を介して発声コア7に出力する。発声コア7は、音認コア10から再生停止要求を入力すると、再生停止要求を音声ドライバ8に出力する。
音声ドライバ8は、発声コア7から再生停止要求を入力すると、ガイダンス音声データの出力を停止する(C2)。その結果、スピーカ23からのガイダンス音声の出力が停止される。音声ドライバ8は、ガイダンス音声データの出力を停止すると、再生停止応答を発声コア7に出力する。このようにスピーカ23からのガイダンス音声の出力中に、ユーザが認識語の音声を発話すると、ガイダンス音声の出力が停止されるが、スピーカ23から出力されたガイダンス音声とユーザから発話された認識語の音声とがマイクロホン17に同時に入力される期間が発生する。即ち、ガイダンス音声データと認識語の音声データとが混在する期間が発生することになる。
発声コア7は、音声ドライバ8から再生停止応答を入力すると、再生停止応答を制御線13を介して音認コア10に出力する。次いで、発声コア7は、再生済みサイズ要求を音声ドライバ8に出力する。音声ドライバ8は、発声コア7から再生済みサイズ要求を入力すると、再生を完了したガイダンス音声データのサイズ(y byte)を示す再生済みサイズ応答を発声コア7に出力する。発声コア7は、音声ドライバ8から再生済みサイズ応答を入力すると、その再生済みサイズ分のガイダンス音声データのサンプリングレートを例えば18.9[kHz]から16[kHz]にレート変換する(B3)。
その後、発声コア7は、音声ドライバ8からリファレンス音声データを入力し、続けて入力完了通知を入力すると、これまでに入力した入力完了通知で示されたリファレンス音声データのサイズ(入力を完了したリファレンス音声データのサイズ)の総和を計算する。そして、発声コア7は、その計算した値と、再生済みサイズ応答で示された再生済みサイズとを比較し、その計算した値が、再生を完了したガイダンス音声データのサイズに達しているか否かを判定する(B4)。
発声コア7は、その計算した値が、再生を完了したガイダンス音声データのサイズに達していないと判定すると(B4:NO)、最終フラグを「0」に設定したまま、入力完了通知を制御線13を介して音認コア10に出力する。この場合、発声コア7は、最終フラグを「0」に設定したままであるので、最終フラグが「0」であることを音認コア10に通知する。音認コア10は、発声コア7からリファレンス音声データを入力し、続けて入力完了通知を入力し、最終フラグが「0」であることが通知されると、次のリファレンス音声データ及び入力完了通知の入力を待機する。
一方、発声コア7は、その計算した値が、再生を完了したガイダンス音声データのサイズに達したと判定すると(B4:YES)、最終フラグを「1」に設定し(「0」から「1」に変更し)(B5)、入力完了通知を制御線13を介して音認コア10に出力する。この場合、発声コア7は、最終フラグを「1」に設定したので、最終フラグが「1」であることを音認コア10に通知する。音認コア10は、発声コア7からリファレンス音声データを入力し、続けて入力完了通知を入力し、最終フラグが「1」であることが通知されると、ガイダンス音声データを、リファレンス音声データを用いて除去する(A4、第2の手順を実行する)。具体的に説明すると、音認コア10は、リファレンス音声データを逆位相に変換し、その逆位相に変換したリファレンス音声データをガイダンス音声データに加算して相殺することで、ガイダンス音声データを除去する。そして、音認コア10は、認識後の音声データを音声データ線24を介して音声認識エンジン12に出力し、認識後の音声データの音声認識エンジン12による音声認識を開始させる(A5)。
又、発声コア7は、入力完了通知を制御線13を介して音認コア10に出力すると同時に、入力停止要求を音声ドライバ8に出力する。音声ドライバ8は、発声コア7から入力停止要求を入力すると、リファレンス音声データの入力を停止する(C3)。音声ドライバ8は、リファレンス音声データの入力を停止すると、入力停止応答を発声コア7に出力する。
以上に説明した一連の処理を行うことで、スピーカ23からのガイダンス音声の出力中に、ユーザが認識語の音声を発話すると、ガイダンス音声データと認識語の音声データとが混在する期間が発生することになるが、ガイダンス音声データを、リファレンス音声データを用いて除去することで、認識語の音声データを音声認識エンジン12により正しく音声認識することができる。即ち、リファレンス音声データを入力しない図4(a)に示す構成では、認識語の音声データと混在するガイダンス音声データを除去することができず、認識語の音声データを正しく音声認識することができない。これに対し、リファレンス音声データを入力する図4(b)に示す構成(本発明)では、リファレンス音声データを用いることで、認識語の音声データと混在するガイダンス音声データを除去することができ、認識語の音声データを正しく音声認識することができる。
以上に説明したように本実施形態によれば、音声認識装置1において、ガイダンス音声に変換される前のガイダンス音声データをリファレンス音声データとして用い、スピーカ23から出力されたガイダンス音声がマイクロホン17に入力された場合でも、そのガイダンス音声が変換されたガイダンス音声データを、そのリファレンス音声データを用いて除去するようにした。これにより、ユーザから発話された認識語の音声を入力するマイクロホン17とは別のマイクロホンを必要とせずに、ガイダンス音声の出力中に、ユーザから認識語の音声が発話された場合でも、認識語の音声データの認識率低下を回避することができる。
この場合、リファレンス音声データのサンプリングレートを、マイクロホン17から音認コア10に入力される音声データのサンプリングレートと同じとした(揃えた)。これにより、ガイダンス音声データのサンプリングレートとリファレンス音声データのサンプリングレートとの不一致により想定される問題を解消した上で、ガイダンス音声データを、リファレンス音声データを用いて除去することができる。
又、音声ドライバ8に入力されたリファレンス音声データのサイズが、音声ドライバ8から出力されたガイダンス音声データのサイズに達したことを条件とし、ガイダンス音声データを、リファレンス音声データを用いて除去する処理を開始するようにした。これにより、音声ドライバ8からのガイダンス音声データの出力と、音声ドライバ8へのリファレンス音声データの入力との時間差(タイムラグ)を考慮した上で、音声ドライバ8から出力されたガイダンス音声データの全てを、リファレンス音声データを用いて除去することができる。即ち、ガイダンス音声データの一部が除去されない状況(除去漏れ)を回避することができる。
本発明は、上記した実施形態にのみ限定されるものではなく、以下のように変形又は拡張することができる。
車両用の音声認識装置に適用する構成に限らず、他の用途の音声認識装置に適用しても良い。ガイダンス音声は、ナビゲーション機能で利用される音声の発話を促す音声に限らず、他の機能で利用される音声の発話を促す音声であっても良い。
図面中、1は車両用の音声認識装置(音声認識装置)、6は第2のサンプリングレート変換回路(サンプリングレート変換手段)、8は音声ドライバ(ガイダンス音声データ出力手段)、9は第2のCPU(制御手段)、10は音認コア(音声データ入力手段)、12は音声認識エンジン(音声認識手段)、17はマイクロホン(音声入力手段)、23はスピーカ(音声出力手段)である。

Claims (4)

  1. ガイダンス音声データを出力するガイダンス音声データ出力手段(8)と、
    前記ガイダンス音声データ出力手段から出力されたガイダンス音声データをガイダンス音声に変換して出力する音声出力手段(23)と、
    音声を入力し、その入力した音声を音声データに変換する音声入力手段(17)と、
    音声データを入力する音声データ入力手段(10)と、
    ユーザから発話された認識語の音声が前記音声入力手段に入力されたことで、認識語の音声データが前記音声データ入力手段に入力された場合に、その認識語の音声データを音声認識する音声認識手段(12)と、を備え、
    前記ガイダンス音声データ出力手段は、前記ガイダンス音声データの出力が完了する前に、前記認識語の音声データが前記音声データ入力手段に入力された場合、前記ガイダンス音声データの出力を停止し、
    前記音声データ入力手段は、前記ガイダンス音声データ出力手段から出力された前記ガイダンス音声データの出力済みである部分に対応する対象ガイダンス音声データをリファレンス音声データとして入力し、
    前記音声認識手段は、前記音声出力手段から出力された、前記対象ガイダンス音声データに対応する対象ガイダンス音声が前記音声入力手段に入力されたことで、前記対象ガイダンス音声データが前記音声データ入力手段に入力された場合に、前記音声データ入力手段に入力されたリファレンス音声データのサイズが、前記ガイダンス音声データ出力手段から出力された前記対象ガイダンス音声データのサイズに達したことを条件とし、その入力された前記対象ガイダンス音声データを、前記音声データ入力手段に入力されたリファレンス音声データを用いて除去する処理を開始することを特徴とする音声認識装置(1)。
  2. ガイダンス音声データを出力するガイダンス音声データ出力手段(8)と、
    前記ガイダンス音声データ出力手段から出力されたガイダンス音声データをガイダンス音声に変換して出力する音声出力手段(23)と、
    音声を入力し、その入力した音声を音声データに変換する音声入力手段(17)と、
    音声データを入力する音声データ入力手段(10)と、
    ユーザから発話された認識語の音声が前記音声入力手段に入力されたことで、認識語の音声データが前記音声データ入力手段に入力された場合に、その認識語の音声データを音声認識する音声認識手段(12)と、を備え、
    前記音声データ入力手段は、前記ガイダンス音声データ出力手段から出力されたガイダンス音声データをリファレンス音声データとして入力し、
    前記音声認識手段は、前記音声出力手段から出力されたガイダンス音声が前記音声入力手段に入力されたことで、ガイダンス音声データが前記音声データ入力手段に入力された場合に、前記音声データ入力手段に入力されたリファレンス音声データのサイズが、前記ガイダンス音声データ出力手段から出力されたガイダンス音声データのサイズに達したことを条件とし、その入力されたガイダンス音声データを、前記音声データ入力手段に入力されたリファレンス音声データを用いて除去する処理を開始することを特徴とする音声認識装置(1)
  3. 請求項1又は2に記載した音声認識装置において、
    前記音声データ入力手段に入力されるリファレンス音声データのサンプリングレートを、前記音声入力手段から前記音声データ入力手段に入力される音声データのサンプリングレートと同じレートに変換するサンプリングレート変換手段(6)を備えたことを特徴とする音声認識装置。
  4. ガイダンス音声データを出力するガイダンス音声データ出力手段(8)と、
    前記ガイダンス音声データ出力手段から出力されたガイダンス音声データをガイダンス音声に変換して出力する音声出力手段(23)と、
    音声を入力し、その入力した音声を音声データに変換する音声入力手段(17)と、
    音声データを入力する音声データ入力手段(10)と、
    ユーザから発話された認識語の音声が前記音声入力手段に入力されたことで、認識語の音声データが前記音声データ入力手段に入力された場合に、その認識語の音声データを音声認識する音声認識手段(12)と、を備えた音声認識装置(1)に設けられる制御手段(9)に、
    前記ガイダンス音声データ出力手段から出力されたガイダンス音声データをリファレンス音声データとして前記音声データ入力手段に入力させる第1の手順と、
    前記音声出力手段から出力されたガイダンス音声が前記音声入力手段に入力されたことで、ガイダンス音声データが前記音声データ入力手段に入力された場合に、前記第1の手順により入力されたリファレンス音声データのサイズが、前記ガイダンス音声データ出力手段から出力されたガイダンス音声データのサイズに達したことを条件とし、その入力されたガイダンス音声データを、前記第1の手順により入力させたリファレンス音声データを用いて除去させる処理を前記音声認識手段に開始させる第2の手順と、を実行させることを特徴とする音声認識プログラム
JP2013262482A 2013-12-19 2013-12-19 音声認識装置及び音声認識プログラム Active JP6539940B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013262482A JP6539940B2 (ja) 2013-12-19 2013-12-19 音声認識装置及び音声認識プログラム
US15/105,061 US10127910B2 (en) 2013-12-19 2014-12-11 Speech recognition apparatus and computer program product for speech recognition
PCT/JP2014/006168 WO2015093013A1 (ja) 2013-12-19 2014-12-11 スピーチ認識装置及びスピーチ認識のためのコンピュータプログラム製品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013262482A JP6539940B2 (ja) 2013-12-19 2013-12-19 音声認識装置及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2015118307A JP2015118307A (ja) 2015-06-25
JP6539940B2 true JP6539940B2 (ja) 2019-07-10

Family

ID=53402390

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013262482A Active JP6539940B2 (ja) 2013-12-19 2013-12-19 音声認識装置及び音声認識プログラム

Country Status (3)

Country Link
US (1) US10127910B2 (ja)
JP (1) JP6539940B2 (ja)
WO (1) WO2015093013A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6539940B2 (ja) * 2013-12-19 2019-07-10 株式会社デンソー 音声認識装置及び音声認識プログラム
JP6515897B2 (ja) 2016-09-28 2019-05-22 トヨタ自動車株式会社 音声対話システムおよび発話意図理解方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5155760A (en) * 1991-06-26 1992-10-13 At&T Bell Laboratories Voice messaging system with voice activated prompt interrupt
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
JP4296622B2 (ja) * 1998-10-26 2009-07-15 ソニー株式会社 エコー消去装置及び方法、並びに音声再生装置
GB9928011D0 (en) * 1999-11-27 2000-01-26 Ibm Voice processing system
US6574595B1 (en) * 2000-07-11 2003-06-03 Lucent Technologies Inc. Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition
WO2002052546A1 (en) * 2000-12-27 2002-07-04 Intel Corporation Voice barge-in in telephony speech recognition
US7069221B2 (en) * 2001-10-26 2006-06-27 Speechworks International, Inc. Non-target barge-in detection
JP2004109779A (ja) 2002-09-20 2004-04-08 Kobe Steel Ltd 音声処理装置
US7318030B2 (en) * 2003-09-17 2008-01-08 Intel Corporation Method and apparatus to perform voice activity detection
JP5115944B2 (ja) * 2006-04-20 2013-01-09 アルパイン株式会社 音声認識装置
JP4829184B2 (ja) 2007-07-23 2011-12-07 クラリオン株式会社 車載装置および音声認識方法
EP2107553B1 (en) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Method for determining barge-in
JP5127754B2 (ja) * 2009-03-24 2013-01-23 株式会社東芝 信号処理装置
JP5156043B2 (ja) * 2010-03-26 2013-03-06 株式会社東芝 音声判別装置
JP2011215421A (ja) * 2010-03-31 2011-10-27 Toshiba Corp 音声対話装置
JP5443547B2 (ja) * 2012-06-27 2014-03-19 株式会社東芝 信号処理装置
JP6539940B2 (ja) * 2013-12-19 2019-07-10 株式会社デンソー 音声認識装置及び音声認識プログラム

Also Published As

Publication number Publication date
WO2015093013A1 (ja) 2015-06-25
US20160314787A1 (en) 2016-10-27
JP2015118307A (ja) 2015-06-25
US10127910B2 (en) 2018-11-13

Similar Documents

Publication Publication Date Title
JP4942860B2 (ja) 認識辞書作成装置、音声認識装置及び音声合成装置
JP5613335B2 (ja) 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
JP2009169139A (ja) 音声認識装置
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP6539940B2 (ja) 音声認識装置及び音声認識プログラム
JP5375423B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
US20210056955A1 (en) Training method, speaker identification method, and recording medium
JP6673243B2 (ja) 音声認識装置
JP7338489B2 (ja) 音声信号制御装置、音声信号制御システム及び音声信号制御プログラム
JP3916861B2 (ja) 音声認識装置
JP5342629B2 (ja) 男女声識別方法、男女声識別装置及びプログラム
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP2005338454A (ja) 音声対話装置
JP2019139146A (ja) 音声認識システム、及び、音声認識方法
JP2020148805A (ja) 音声認識システム、及び、音声認識方法
US11699438B2 (en) Open smart speaker
JP5173895B2 (ja) 音声認識装置
JP2010164992A (ja) 音声対話装置
JP2006039382A (ja) 音声認識装置
JP2007171637A (ja) 音声処理装置
JP2015215503A (ja) 音声認識方法、音声認識装置および音声認識プログラム
JP2007183516A (ja) 音声対話装置及び音声認識方法
JP4979336B2 (ja) 音声出力装置
JP7465700B2 (ja) 車載装置および車載装置における音声処理方法
JP2014021425A (ja) 音声認識システム及び集積回路装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180626

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190306

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20190319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190527

R151 Written notification of patent or utility model registration

Ref document number: 6539940

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250