JP3654045B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP3654045B2
JP3654045B2 JP13286399A JP13286399A JP3654045B2 JP 3654045 B2 JP3654045 B2 JP 3654045B2 JP 13286399 A JP13286399 A JP 13286399A JP 13286399 A JP13286399 A JP 13286399A JP 3654045 B2 JP3654045 B2 JP 3654045B2
Authority
JP
Japan
Prior art keywords
voice
noise
input
detection section
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP13286399A
Other languages
English (en)
Other versions
JP2000322098A (ja
Inventor
教英 北岡
邦雄 横井
一郎 赤堀
宏 大野
英夫 宮内
義隆 尾崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP13286399A priority Critical patent/JP3654045B2/ja
Publication of JP2000322098A publication Critical patent/JP2000322098A/ja
Application granted granted Critical
Publication of JP3654045B2 publication Critical patent/JP3654045B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition

Description

【0001】
【発明の属する技術分野】
本発明は、マイクロホン等の音声入力手段から入力された音声入力信号からノイズ成分を除去することにより、認識率の向上を図るようにした音声認識装置に関する。
【0002】
【発明が解決しようとする課題】
例えばカーナビゲーション装置においては、表示部に、道路地図と併せて車両の現在位置や目的地までのルート等を表示するようになっており、この場合、音声認識装置を組込んで、表示されている地図の種類(縮尺)の切替え等のコマンドや目的地の入力等を音声でも行なえるようにしたものが供されている。このものは、音声信号を取込むマイクロホンを備え、ユーザが、PTT(push to talk)スイッチを押しながら地名等を発話することにより、マイクロホンからの音声入力信号を処理し、音声認識を行なうように構成されている。
【0003】
ここで、マイクロホンから入力される音声入力信号は、ユーザによる発話信号に、いわゆる風切り音やエンジン音、タイヤ雑音、エアコン音等の周囲の雑音(ノイズ)を含んだものとなっている。従って、音声認識の精度を高めるためには、前記音声入力信号からノイズ成分を除去することが必要となってくる。このとき、ユーザが発話していない状態における、前記マイクロホンからの入力信号をノイズ成分とみなすことができるから、従来では、PTTスイッチが押されていない状態でのマイクロホンからの入力信号(ノイズ信号)を常時測定し、その平均値をノイズ成分として音声入力信号から除去する処理が行なわれていた。
【0004】
しかしながら、上記のようにノイズ信号を常時測定するものでは、CPUの負担が大きくなると共に、ノイズ信号の平均値が実際の音声入力時のノイズ成分と一致する確度は必ずしも高いとはいえないため、認識精度に劣るものとなっていた。そこで、本出願人の先の出願である特願平9−168866号では、PTTスイッチがオンされると、入力信号のパワーから、雑音区間と音声区間とを判別し、雑音区間において検出(推定)された発話時の直前のノイズ信号を、音声区間における音声入力信号から除去することにより、認識率を高めるようにしている。
【0005】
ところが、この特願平9−168866号に示された技術でも、次のような改善の余地が残されていた。即ち、ノイズ推定にはある程度のノイズ信号の検出期間が必要となるが、ユーザによってはPTTスイッチを押してすぐ発話することがあり、これでは十分なノイズ信号の検出時間が得られない状態となり、ノイズ成分の推定の精度に劣り、ひいては認識率も低下してしまうことになる。
【0006】
本発明は上記事情に鑑みてなされたもので、その目的は、ノイズ成分の推定を高精度で行なうことができて認識率の向上を図ることができ、しかもユーザにとって使い易い音声認識装置を提供するにある。
【0007】
【課題を解決するための手段】
本発明の請求項1の音声認識装置によれば、音声入力を行なうべく指示手段による指示を行なうと、まずノイズ推定区間が設けられ、そのノイズ推定区間の終了時に発話許可報知手段による報知が行なわれた後、音声検出区間が設けられるようになる。従って、報知が行なわれた後発話を行なえば良いので、話し始めるタイミングを判り易く知らせることができる。
【0008】
そして、音声検出区間の直前のノイズからノイズ成分を推定でき、しかもノイズ推定のための十分なノイズ推定区間が確保されるので、実際の発話時のノイズ成分と一致する確度が高い高精度のノイズ成分の推定を行なうことができ、ひいては認識率の向上を図ることができるものである。
尚、発話許可報知手段による報知の方法としては、音声による報知や画像による報知、さらには音声と画像とを組合わせた報知などが有効である。
【0009】
このとき、ノイズ推定区間の終了時の報知に加えて、音声検出区間終了報知手段により音声検出区間の終了が報知されるので、ユーザに対して、音声検出区間の終了を判り易く知らせることができる。従って、ユーザが音声検出区間であるにもかかわらず雑談を始めてしまったり、ユーザに対して必要以上に沈黙を強いるといった不具合を未然に防止することができる。
【0010】
しかも、前記ノイズ推定手段によるノイズ推定を、ノイズ推定区間を越えて音声検出区間となった後も、実際の音声の入力があるまで継続して行なう構成としたので、ノイズ推定をより長い時間について行なうことが可能となり、ノイズ成分の推定をより一層高精度に行なうことが可能となる。
【0011】
ところで、本発明の音声認識装置は、カーナビゲーション装置に組込んでコマンドや目的地の音声入力のために使用することができるのであるが、このとき、ノイズ推定区間及び音声検出区間において、カーオーディオ装置から音楽等が出力されていれば、ノイズ成分の時間変化が大きいものとなって認識精度が大幅に低下する事態を招く。
【0012】
そこで、カーナビゲーション装置に組込まれるものにあっては、指示手段による指示があったときに、カーオーディオ装置の音量を低減もしくは消音させるミュート手段を設けるようにすることができる(請求項の発明)。これにより、カーオーディオ装置からの音楽等をノイズとして検出することがなくなり、ノイズ成分としては風切り音などのバックグラウンドノイズだけとなり、ノイズ成分の推定を高精度に行なうことが可能となる。
【0013】
【発明の実施の形態】
以下、本発明をカーナビゲーション装置に適用した一実施例について、図1ないし図5を参照しながら説明する。まず、図2は、カーナビゲーション装置1の全体構成を概略的に示している。ここで、カーナビゲーション装置1は、位置検出器2、地図データ入力器3、操作スイッチ群4、これらに接続されたマイクロコンピュータを主体として成る制御回路5、この制御回路5に接続された外部メモリ6、例えばフルカラー液晶ディスプレイからなる表示装置7、リモコンセンサ8、及び、本実施例に係る音声認識装置9を備えて構成されている。
【0014】
そのうち位置検出器2は、周知構成の地磁気センサ10、ジャイロセンサ11、距離センサ12、及び、衛星からの電波に基づいて車両の位置を検出するGPS(Global Positioning System )のためのGPS受信機13を有している。これら各センサ10〜13は、車両の適宜の部所に配設されている。前記制御回路5は、位置検出器2の各センサ10〜13が性質の異なる誤差を有しているため、各々補間しながら使用するように構成されており、これらセンサ10〜13からの入力に基づいて、車両の現在位置、進行方向、速度や走行距離等を高精度で検出するようになっている。
【0015】
前記地図データ入力器3は、道路地図データや、位置検出の精度向上のための所謂マップマッチング用データ等を含む各種データを記憶した記憶媒体からデータを入力するためのドライブ装置からなり、その記憶媒体としては、例えばCD−ROMやDVD等の大容量記憶媒体が用いられる。尚、前記道路地図データは、道路形状、道路幅、道路名、建造物、各種施設、それらの電話番号、地名、地形等のデータを含むと共に、その道路地図を前記表示装置7の表示画面上に再生するためのデータを含んで構成されている。
【0016】
前記操作スイッチ群4は、ユーザ(運転者)が、目的地の指定や、表示装置7に表示される道路地図の選択等の各種のコマンドを入力するための各種のメカニカルスイッチから構成されている。また、この操作スイッチ群4の一部は、前記表示装置7の画面上に設けられたタッチパネル(図示せず)からも構成されるようになっている。そして、この操作スイッチ群4と同等の機能を有するリモートコントロール端末14(以下、リモコンと称する)も設けられており、このリモコン14からの操作信号が、前記リモコンセンサ8により検出されるようになっている。
【0017】
前記表示装置7の画面には、各種縮尺の道路地図が表示されると共に、その表示に重ね合わせて、車両の現在位置及び進行方向を示すポインタが表示されるようになっている。また、ユーザが目的地などを入力するための各種の入力用画面や、各種のメッセージやインフォメーション等も表示されるようになっている。さらには、目的地までの案内を行なうルートガイダンス機能の実行時には、道路地図に重ね合わせて進むべき経路等が表示されるようになっている。
【0018】
そして、前記制御回路5は、上述のように、地図データ入力器3からの道路地図データに基づいて表示装置7に道路地図を表示させると共に、位置検出器2の検出に基づいて車両の現在位置及び進行方向を示すポインタを表示させるようになっている。このとき、車両の現在位置を道路上にのせるマップマッチングが行なわれるようになっている。また、ユーザのコマンド入力に基づいて、表示装置7に表示させる地図の種類(縮尺)の切替え等を行なうようになっている。
【0019】
さらに、制御回路5は、ユーザによる目的地の入力に基づいて、自動ルート探索及びルートガイダンスの機能を実行するようになっている。詳しい説明は省略するが、自動ルート探索の機能は、車両の現在位置からユーザにより入力された目的地までの推奨する走行経路を自動的に算出するものであり、ルートガイダンスの機能は、上述のように、表示装置7の画面にその走行経路を表示して目的地まで案内するものであり、このとき、後述する音声認識装置9の音声合成の機能を用いて、例えば「200m先の交差点を左です」といった音声をスピーカ15から出力させる音声案内も併せて行うことができるようになっている。
【0020】
尚、図示はしないが、前記表示装置7は、操作スイッチ群4やリモコンセンサ8、さらには音声認識装置9のスピーカ15等と共にユニット化され、例えば車両のインパネの正面中央部に配設されるようになっている。また、前記制御回路5や地図データ入力器3等が組込まれたカーナビゲーション装置1の本体は、例えば車両のトランクルーム等に配設されるようになっている。
【0021】
ここで、本実施例に係る音声認識装置9について、以下、図3なども参照して述べる。この音声認識装置9は、上記カーナビゲーション装置1に対するコマンドや目的地などの指示を、前記操作スイッチ群4あるいはリモコン14の手動操作に代えて、ユーザ(運転者)が前を見たまま音声入力することによって、同様に行なうことができるようにし、安全性,利便性を向上させるための装置として設けられている。
【0022】
図2に示すように、この音声認識装置9は、音声認識装置本体16、及び、その音声認識装置本体16に接続された前記スピーカ15、ユーザが音声を入力するための音声入力手段たるマイクロホン17(以下単に「マイク17」という)、ユーザが音声入力を開始する旨を指示するための指示手段たるトークスイッチ18を備えて構成されている。この場合、前記トークスイッチ18はいわゆるクリック方式のスイッチとされ、ユーザがトークスイッチ18をオン操作した後音声を入力(発話)するようになっている。
【0023】
尚、図示はしないが、前記マイク17は、車両の例えばステアリングコラムカバーの上面部や運転席側のサンバイザー等の運転者の音声を拾いやすい位置に設けられるようになっている。また、前記トークスイッチ18は、例えばステアリングコラムカバーの左側面部やシフトレバーの近傍など運転者が左手で安全に操作しやすい位置に設けられるようになっている。
【0024】
そして、前記音声認識装置本体16は、マイクロコンピュータを主体として構成され、その機能構成(ソフトウエア的構成)によって、制御部19、音声抽出部20、音声認識部21、対話制御部22、音声合成部23を備えている。また、この音声認識装置本体16はタイマ機能を備えている。前記制御部19は、前記トークスイッチ18からのオン信号の入力に基づいて、前記音声抽出部20に対して音声信号の抽出の処理の実行を指示するようになっている。
【0025】
また、後述するように、この制御部19は、前記スピーカ15から、「ピッ」という報知音(ブザー音)を出力させるようになっている。さらには、この制御部19は、カーオーディオ装置のアンプ24を制御可能に構成され、オーディオ用スピーカ25から出力される音量の調節(消音及びその解除)が可能とされている。
【0026】
前記音声抽出部20は、前記制御部19の指示により前記マイク17から音声入力信号を取込み、後述するように、ノイズ推定区間においてノイズ成分を推定し、これと共に、音声検出区間において取込まれた音声入力信号からそのノイズ成分を除去して音声信号を抽出するようになっている。そして、抽出された音声信号のデータを前記音声認識部21に出力するようになっている。従って、この音声抽出部20が、ノイズ推定手段及び音声抽出手段としての機能を果たすのである。
【0027】
図3は、この音声抽出部20の機能構成を更に詳細に示しており、音声抽出部20は、フレーム分割部26、判定部27、雑音用バッファ28、音声用バッファ29、雑音(ノイズ)用のフーリエ変換部30、音声用のフーリエ変換部31、雑音スペクトル推定部32、サブトラクト部33、フーリエ逆変換部34を備えて構成される。
【0028】
このうちフレーム分割部26は、音声の特徴量を分析するためのフレームを切出すものであり、音声入力信号を一定間隔例えば数10ms程度間隔のフレーム信号として切出していく。後述するノイズ推定区間においては、そのフレーム信号が雑音用バッファ28に蓄積される。一方、後述する音声検出区間においては、判定部27にて、そのフレーム信号が、音声成分を含む信号(音声区間)か否かが判定され、音声であると判定されたときには、音声用バッファ29に蓄積される。
【0029】
この判定の手法としては、音声入力信号の短時間パワーを抽出し、その短時間パワーがしきい値以上であるときに音声成分を含む信号と判定する手法が採用される。また、この判定部27の判定に基づいて、音声検出区間の終了が判断されるようになっており、音声区間が終了して所定時間(例えば1秒)が経過したときに、音声検出区間が終了したと判断され、その信号が前記制御部19に送られるようになっている。尚、判定部27にて音声を含まない信号(雑音区間)であると判定された場合には、そのフレーム信号を前記雑音用バッファ28に蓄積させるようにしても良い。
【0030】
そして、前記雑音用バッファ28に蓄積されたフレーム信号は、フーリエ変換部30にてフーリエ変換されて短時間スペクトルとされ、雑音スペクトル推定部32に送られる。雑音スペクトル推定部32では、例えば複数のフレーム信号の短時間スペクトルにより求められたパワースペクトルの平均により雑音スペクトル(ノイズ成分)が推定され、サブトラクト部33に送られる。一方、前記音声用バッファ29に蓄積されたフレーム信号は、フーリエ変換部31にてフーリエ変換されて短時間周波数スペクトルとされ、その短時間スペクトルデータがサブトラクト部33に送られる。
【0031】
サブトラクト部33では、フーリエ変換部31から入力された短時間スペクトルデータから、雑音スペクトル推定部32からの雑音スペクトルを差引くことにより、ノイズ成分の除去が行なわれる。ノイズ成分が除去された音声信号成分は、前記フーリエ逆変換部34にてフーリエ逆変換され、音声信号として前記音声認識部21に出力されるのである。
【0032】
図2に戻って、前記音声認識部21は、音声抽出部20から入力された音声信号のデータの認識処理を行い、その認識結果を対話制御部22に出力するようになっている。従って、この音声認識部21が認識手段として機能する。この場合、認識処理は、音声抽出部20から取得したデータに対し、記憶している辞書データを用いて照合を行い、複数の比較対象パターン候補と比較して類似度の高い上位比較対象パターンを求める周知の手法が用いられる。また、この際の単語系列の認識は、音声抽出部20から入力された音声信号データを順次音響分析して音響特徴量(例えばケプストラム)を抽出し、この音響分析によって得られた音響的特徴量時系列データを得、例えばDPマッチング法等によって、この時系列データをいくつかの区間に分け、各区間が辞書データとして格納されたどの単語に対応しているかを求めることにより行なわれる。
【0033】
前記対話制御部22は、音声認識部21により認識された音声認識データを、目的地やコマンドの入力データとして前記制御回路5に送るようになっていると共に、その音声認識データによる前記音声合成部23に応答音声(トークバック)の発声の指示を行なうようになっている。音声合成部23は、その音声認識データを音声信号に復元して前記スピーカ15から出力させるようになっている。また、前記対話制御部22は、前記制御回路5からの指令により、音声合成部23に対して、例えばルートガイダンス時の案内音声の発声等の指示も行なうようになっている。
【0034】
さて、後の作用説明でも述べるように、前記制御部19は、前記トークスイッチ18からのオン信号の入力があると、前記アンプ24に対して制御信号を出力してオーディオ用スピーカ25から出力される音声を消音させると共に、前記音声抽出部20に対して、まず例えば一定時間のノイズ推定の処理(この区間がノイズ推定区間となる)を実行させるよう指示を与え、その後、音声検出区間を開始させる指示を与えるようになっている。そして、このとき、ノイズ推定区間の終了時(音声検出区間の開始時)に、前記スピーカ15から「ピッ」という報知音を出力させてユーザに報知を行なうようになっている。さらに、上記ノイズ推定の処理は、ノイズ推定区間を越えて音声検出区間となった後も、実際の音声の入力があるまで継続して行なわれるようになっている。
【0035】
さらに、制御部19は、前記音声抽出部20から音声検出区間終了の判断信号が入力されたときに、同様に前記スピーカ15から「ピッ」という報知音を出力させてユーザに報知を行なうようになっている。従って、この制御部19が、発話許可報知手段及び音声検出区間終了報知手段、並びにミュート手段として機能するようになっているのである。尚、前記オーディオ用スピーカ25の消音は、トークバックの後に解除されるようになっている。
【0036】
次に、上記構成の作用について、図1及び図4,図5も参照して述べる。上述のように、カーナビゲーション装置1を使用するユーザ(運転者)は、操作スイッチ群4あるいはリモコン14を操作してコマンドや目的地を入力することにより、表示装置7に所望の地図を表示させたり、目的地までの自動ルート検索やルートガイダンスを行なわせたりすることができるようになっている。
【0037】
そして、上記した操作スイッチ群4あるいはリモコン14の操作に代えて、音声認識装置9を用いて、ユーザが音声入力(発話)を行なうことによっても、コマンドや目的地の入力が可能とされている。図4のフローチャートは、そのような音声入力時に、音声認識装置9(音声認識装置本体16)が実行する処理手順の概略を示している。また、図1は、その際のマイク17からの音声入力信号やスピーカ15の出力の様子を示すタイムチャートであり、さらに、図5は、その際の制御の各要素をブロックで示した制御ブロック図である。
【0038】
このとき、図1に示すように、ユーザは、音声入力を行なうにあたって、トークスイッチ18をオン操作(クリック)するようにする。すると、以下に説明するように、短時間後にスピーカ15から「ピッ」という報知音が出力されるので、この報知音を聞いた後に、コマンドや目的地を発話(音声入力)する。また、音声入力後にも、スピーカ15から「ピッ」という報知音が出力されるので、この報知音を聞くことによって、その後はマイク17等を気にせずに自由に雑談などを行なうことができるようになっている。
【0039】
即ち、図4のフローチャートに示すように、トークスイッチ18がオン操作されると(ステップS1にてYes)、まず、制御部19により、オーディオ用スピーカ25が消音される(ステップS2)と共に、ノイズ推定区間が開始され、上述したように前記音声抽出部20によるノイズ推定の処理が実行される(ステップS3)。尚、ここでは、図1に示すように、トークスイッチ18がオンされた時点(時刻T1 )からノイズ推定区間を開始するようにしているが、トークスイッチ18がオンからオフに戻った時点(時刻T1 )からノイズ推定区間を開始するようにしても良い。
【0040】
ここで、このノイズ推定区間においては、カーオーディオが消音され、また未だユーザによる発話もない状態なので、マイク17から入力される音声入力信号は、走行音や風切り音、エアコン音等の定常ノイズのみとなる。従って、ステップS3のノイズ推定の処理により、ノイズ推定区間においてマイク17から取込まれた音声入力信号から、後の音声区間のノイズ成分を推定することができるようになるのである。本実施例では、図5にも示すように、このノイズ推定は、タイマにより一定時間例えば0.5秒間実行されるようになっている。
【0041】
そして、このノイズ推定区間が終了すると(図1の時刻T2 )、音声検出区間が開始されるのであるが、ノイズ推定区間の終了時に、スピーカ15から「ピッ」という報知音が出力される(ステップS4)。この報知音は、ユーザに対し、音声入力を許可する(発話を促す)報知となり、ユーザは、その報知音を聞いた後、コマンドあるいは目的地を音声入力する。この場合、図1に示すように、音声検出区間が開始されてから、やや遅れて(時刻T3 )ユーザによる発話が開始され、その発話は時刻T4 で終了する。この時刻T3 から時刻T4 までが音声区間となる。このとき、上記ノイズ推定の処理は、ノイズ推定区間を越えて音声検出区間となった後も、実際の音声の入力があるまで、つまり図1で時刻T 1 から時刻T 3 まで継続して行なわれるようになっており、ノイズ推定をノイズ推定区間だけでなく、より長い時間について行なうことが可能とされている。
【0042】
上記したように、この音声検出区間では、音声抽出部20により、マイク17から取込まれる音声入力信号を処理し、音声成分を含む信号(音声区間)か否かの判定が行なわれながら(ステップS5)、音声信号の抽出が行なわれる(ステップS6)。ここで、この音声区間においてマイク17から入力される音声入力信号は、ユーザの発話による実際の音声と、風切り音の周囲のノイズ成分とを含んだものとなるので、上記ステップS3にて推定されたノイズ成分が差引かれることによって、ユーザの発話による音声成分のみに対応した音声信号が得られるのである。
【0043】
そして、音声の入力がない状態が一定時間(例えば1秒間)継続したときには(ステップS7にてYes)、音声検出区間が終了したと判断され、スピーカ15から「ピッ」という報知音が出力される(ステップS8)。図1では、音声区間が終了(時刻T4 )して1秒後の時刻T5 が音声検出区間の終了とされ、その時点で報知音が出力されるのである。この報知音は、ユーザに対し、音声検出区間が終了した、つまりその後は自由に雑談等を行なっても良い旨の報知となるのである。尚、ステップS8はなくてもよい。
【0044】
この後、上述したように、抽出された音声信号が音声認識部21に送られて音声認識が行なわれる(ステップS9)。音声認識の処理が終了すると(図1の時刻T6 )、認識結果を音声としてスピーカ15から出力するトークバックが行なわれ(ステップS10)、これと共に、図示はしないが、その音声認識データは、カーナビゲーション装置1の制御回路5に入力信号として送られ、制御回路5は、それに基づいた処理を行なうようになっている。その後、オーディオ装置のミュートが解除される(ステップS11)。
【0045】
尚、上記構成では、音声検出区間が終了してから(時刻T5)、音声認識を行う(ステップS9)ようにしているが、音声認識を音声の抽出と並行して行う、つまり図1の時刻T3 から音声認識区間を開始するように構成することも可能である。
【0046】
このような本実施例によれば、ユーザが音声入力を行なうべくトークスイッチ18のオン操作を行なうと、まずノイズ推定区間が設けられ、そのノイズ推定区間の終了時に報知音による音声入力の許可の報知が行なわれた後、音声検出区間が設けられるようになる。従って、ユーザは、報知音を聞いてから発話を行なえば良いので、従来のようなユーザがいつ話し始めれば良いのか判らなかったものと異なり、ユーザに対して話し始めるタイミングを判り易く知らせることができる。
【0047】
そして本実施例では、好適な例として、ユーザに対して、音声検出区間の終了についても報知音によって判り易く知らせることができるので、ユーザが音声検出区間であるにもかかわらず雑談を始めてしまったり、ユーザに対して必要以上に沈黙を強いるといった不具合も未然に防止することができるものである。この結果、いわゆるユーザフレンドリな、ユーザにとって使い易いものとなるのである。
【0048】
そして、音声検出区間の直前の音声入力信号からノイズ成分を推定でき、しかもノイズ推定のための十分なノイズ推定区間が確保されるので、従来のようなノイズ信号を常時測定するものや、十分なノイズ信号の検出時間が得られない虞のあるものと異なり、CPUの負荷を軽減できることは勿論、推定されたノイズ成分が実際の発話時のノイズ成分と一致する確度を高いものとすることができ、ノイズ成分の推定を高精度で行なうことができて認識率の向上を図ることができるものである。特に、ノイズ推定を、ノイズ推定区間を越えて音声検出区間となった後も、実際の音声の入力があるまで継続して行なうようにしたので、ノイズ成分の推定をより一層高精度に行なうことが可能となる。
【0049】
また、本実施例では、カーナビゲーション装置1に組込まれるものにあって、音声入力時にカーオーディオ装置からの出力音を消音する構成としたので、カーオーディオ装置の音楽等をノイズとして検出することがなくなり、ノイズ成分の推定を高精度に行なうことが可能となるといったメリットも得ることができるものである。
【0050】
図6は、本発明の他の実施例を示す制御ブロック図であり、上記実施例と異なるところは、ノイズ推定区間を、一定時間ではなく音声抽出部20によるノイズ推定が終了するまで行なうようにした点にあり、そのノイズ推定が終了した時点で報知音を出力し、音声検出区間に移行するようになっている。これによっても、上記実施例と同様の効果を得ることができると共に、ノイズ推定の精度をより向上させることができる。
【0051】
尚、本発明は、上記した各実施例に限定されるものではなく、次のような拡張,変更が可能である。
即ち、音声検出区間のうち音声区間終了後(図1の時刻T4 から時刻T5 の間)においてもノイズ推定を行なう構成とすることもできる。
【0052】
そして、上記実施例では、「ピッ」という報知音によって報知をおこなうようにしたが、例えば表示装置7の画面に、聞き耳を立てている人の顔を表示する等の画像による報知を行なっても良く、音声と画像とを組合わせた報知とすればより有効となる。音声による報知の場合にも、例えば「音声入力して下さい」といった合成音声により報知を行なうこともできる。
【0053】
また、上記実施例では、音声検出区間終了の報知も行なうようにしたが、少なくともノイズ推定区間の終了(音声検出区間の開始)の報知を行なうようにすれば、所期の目的を達成することができる。上記実施例のように、トークバックを行なうものであれば、トークバックの音声出力を音声検出区間終了の報知に代えることもできる。
【0054】
さらには、指示手段として、クリック式のトークスイッチを採用したが、ボタンを押しながら話すPTT方式のスイッチを採用しても良く、この場合、音声検出区間の終了の検出が容易となると共に、音声検出区間の終了のタイミングをユーザ自身が決めることができる。あるいは、例えばユーザの「音声入力」といった音声に反応するスイッチを、指示手段として採用することも可能である。マイクを、音声信号入力用と、雑音信号入力用との2本設けるようにしても良い。
【0055】
その他、音声入力信号の処理や音声認識の手法等についても各種の手法を採用することができ、カーナビゲーション装置のハードウエア構成としても種々変更することができる。また、本発明の音声認識装置は、カーナビゲーション装置に限らず、例えばパーソナルコンピュータやワードプロセッサ等の音声入力に用いることができることは勿論、電気機器全般における音声入力用に適用することが可能である等、本発明は要旨を逸脱しない範囲内で適宜変更して実施し得るものである。
【図面の簡単な説明】
【図1】本発明の一実施例を示すもので、音声入力時の音声入力信号やスピーカ出力の様子を示すタイムチャート
【図2】カーナビゲーション装置の電気的構成及び一部の機能を示すブロック図
【図3】音声抽出部の機能を詳細に示す機能ブロック図
【図4】音声入力時の音声認識装置が実行する処理手順を示すフローチャート
【図5】音声認識装置の制御構成を示す制御ブロック図
【図6】本発明の他の実施例を示す図5相当図
【符号の説明】
図面中、1はカーナビゲーション装置、4は操作スイッチ群、5は制御回路、7は表示装置、9は音声認識装置、14はリモコン、15はスピーカ、16は音声認識装置本体、17はマイクロホン(音声入力手段)、18はトークスイッチ(指示手段)、19は制御部(発話許可報知手段,音声検出区間終了報知手段,ミュート手段)、20は音声抽出部(ノイズ推定手段,音声抽出手段)、21は音声認識部(音声認識手段)、22は対話制御部、23は音声合成部、24はアンプ(カーオーディオ装置)を示す。

Claims (2)

  1. 音声を入力するための音声入力手段と、
    この音声入力手段から入力される音声入力信号のうちのノイズ成分を推定するノイズ推定手段と、
    音声検出区間において前記音声入力手段から入力された音声入力信号から前記ノイズ推定手段により推定されたノイズ成分を除去して音声信号成分を抽出する音声抽出手段と、
    この音声抽出手段により抽出された音声信号に基づいて音声認識を行なう認識手段と、
    音声入力を開始する旨を指示するための指示手段と
    前記ノイズ推定手段によるノイズ推定区間の終了時に音声入力の許可を報知する発話許可報知手段と
    を具備し、
    前記音声検出区間は、前記指示手段による指示があってから、前記ノイズ推定区間をおいた後に開始されるように構成されていると共に、前記ノイズ推定手段によるノイズ推定は、ノイズ推定区間を越えて音声検出区間となった後も、実際の音声の入力があるまで継続して行なわれ、
    前記音声検出区間の終了をユーザに報知する音声検出区間終了報知手段を設け
    前記音声検出区間が終了してから前記音声認識を行なうことを特徴とする音声認識装置。
  2. カーナビゲーション装置に組込まれるものであって、前記指示手段による指示があったときに、カーオーディオ装置の音量を低減もしくは消音させるミュート手段を備えることを特徴とする請求項1記載の音声認識装置。
JP13286399A 1999-05-13 1999-05-13 音声認識装置 Expired - Fee Related JP3654045B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13286399A JP3654045B2 (ja) 1999-05-13 1999-05-13 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13286399A JP3654045B2 (ja) 1999-05-13 1999-05-13 音声認識装置

Publications (2)

Publication Number Publication Date
JP2000322098A JP2000322098A (ja) 2000-11-24
JP3654045B2 true JP3654045B2 (ja) 2005-06-02

Family

ID=15091311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13286399A Expired - Fee Related JP3654045B2 (ja) 1999-05-13 1999-05-13 音声認識装置

Country Status (1)

Country Link
JP (1) JP3654045B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237269A (ja) * 2009-03-30 2010-10-21 Toshiba Corp 音声認識装置、その方法及びそのプログラム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3838029B2 (ja) * 2000-12-18 2006-10-25 セイコーエプソン株式会社 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
JP4694017B2 (ja) * 2001-03-27 2011-06-01 クラリオン株式会社 車載用音声認識装置
JP3902483B2 (ja) 2002-02-13 2007-04-04 三菱電機株式会社 音声処理装置及び音声処理方法
JP2003241469A (ja) 2002-02-15 2003-08-27 Sharp Corp 多色画像形成装置
JP3940895B2 (ja) * 2002-02-18 2007-07-04 日本電気株式会社 音声認識装置及び方法
JP2003241797A (ja) * 2002-02-22 2003-08-29 Fujitsu Ltd 音声対話システム
JP4840149B2 (ja) * 2007-01-12 2011-12-21 ヤマハ株式会社 発音期間を特定する音信号処理装置およびプログラム
KR20210152028A (ko) 2008-11-10 2021-12-14 구글 엘엘씨 멀티센서 음성 검출
JP5545362B2 (ja) * 2010-04-20 2014-07-09 三菱電機株式会社 エレベーターの呼び登録装置
JP2011248140A (ja) * 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
CN103940417A (zh) * 2014-04-04 2014-07-23 广东翼卡车联网服务有限公司 一种利用小波变换改善传输数据的导航方法及系统
KR101688164B1 (ko) * 2015-04-16 2016-12-20 엘지전자 주식회사 차량 단말 장치 및 이의 제어방법
EP4343499A2 (en) 2018-05-04 2024-03-27 Google LLC Adapting automated assistant based on detected mouth movement and/or gaze

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237269A (ja) * 2009-03-30 2010-10-21 Toshiba Corp 音声認識装置、その方法及びそのプログラム

Also Published As

Publication number Publication date
JP2000322098A (ja) 2000-11-24

Similar Documents

Publication Publication Date Title
US9230538B2 (en) Voice recognition device and navigation device
JP3654045B2 (ja) 音声認識装置
JP4304952B2 (ja) 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
JP3567864B2 (ja) 音声認識装置及び記録媒体
US8315868B2 (en) Vehicle-mounted voice recognition and guidance apparatus
WO2013005248A1 (ja) 音声認識装置およびナビゲーション装置
JP5677650B2 (ja) 音声認識装置
JP2002091466A (ja) 音声認識装置
JP2000322078A (ja) 車載型音声認識装置
JP4483450B2 (ja) 音声案内装置、音声案内方法およびナビゲーション装置
JP4016529B2 (ja) 雑音抑圧装置,音声認識装置及び車両用ナビゲーション装置
JP2000163098A (ja) 音声認識装置
JP3900691B2 (ja) 雑音抑圧装置及び当該装置を用いた音声認識システム
JP4026198B2 (ja) 音声認識装置
JP4478146B2 (ja) 音声認識システム、音声認識方法およびそのプログラム
JPH11142178A (ja) ナビゲーション装置
JP4320880B2 (ja) 音声認識装置及び車載ナビゲーションシステム
JP2000322074A (ja) 音声入力区間判定装置,音声データ抽出装置,音声認識装置,車両用ナビゲーション装置及び入力用マイク
JP2007057805A (ja) 車両用情報処理装置
JP4201411B2 (ja) 音声認識装置及びナビゲーションシステム
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
JP2002091488A (ja) 車載ナビゲーション装置
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JPH023520B2 (ja)
JP4190735B2 (ja) 音声認識方法および装置とナビゲーション装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050221

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080311

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110311

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120311

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120311

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130311

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140311

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees