JP4608670B2 - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP4608670B2
JP4608670B2 JP2004359697A JP2004359697A JP4608670B2 JP 4608670 B2 JP4608670 B2 JP 4608670B2 JP 2004359697 A JP2004359697 A JP 2004359697A JP 2004359697 A JP2004359697 A JP 2004359697A JP 4608670 B2 JP4608670 B2 JP 4608670B2
Authority
JP
Japan
Prior art keywords
signal
voice
recognition
input
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004359697A
Other languages
English (en)
Other versions
JP2006171077A (ja
Inventor
充伸 神沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2004359697A priority Critical patent/JP4608670B2/ja
Publication of JP2006171077A publication Critical patent/JP2006171077A/ja
Application granted granted Critical
Publication of JP4608670B2 publication Critical patent/JP4608670B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、車両内等の背景雑音が多い場所で使用する音声認識装置およびその認識方法に関する。
カーナビゲーションシステム(以下、カーナビと記す)のように車室内で用いる音声認識を用いた入出力装置では、カーナビの操作等に関するガイダンス音声やオーディオ装置からの音楽等の背景音が出力されている環境下においても使用者の音声入力を可能としたい場合がある。一般に使用者が音声を入力している最中にガイダンス音声が流れると、音声認識装置は分析誤りを起こしやすくなる。これは、ガイダンス音声が使用者の音声と混在し、このクロストークにより使用者の音声信号の特徴パラメータが変形してしまうことに起因する。なお、以下においては、音響的に存在する場合に対しては音声、またはガイダンス音声と記し、これらが電気信号に変換された状態を音声信号又はガイダンス音声信号と記す。
このように音響的なクロストークを除去する手法として、下記非特許文献1に示すような音響エコーキャンセラを用いて入力信号から動的にガイダンス音声信号を減算する手法、下記特許文献1で開示されている音声帯域の出力信号を減衰させる手法、下記特許文献2で開示されているマイク位置での背景音が小さくなるように制御する手法等が提案されている。これらの手法では、ガイダンス音声信号やオーディオ装置からの信号と、使用者によって入力された音声信号とが混在して入力された入力信号から、ガイダンス音声信号やオーディオ装置からの信号等背景音を音響的に除去、あるいは抑圧する手法が採られている。然るに、これら従来技術では単独で十分な除去、抑圧性能が得られない場合が少なからず存在していた。
特開2000−132200号公報 特開2003−174699号公報 例えば、大賀寿郎、山崎芳男、金田豊「音響システムとディジタル処理」電子情報通信学会、P201-214
前記の問題を解決するための手段の一つとして、独立に動作可能な手法を複数組み合わせて性能を向上することが考えられる。
最近多く用いられている音声認識システムでに、非線形伸縮マッチングアルゴリズムの一種がある。これは、音響的な信号を音素あるいは単語毎に確率分布に関する情報を用意し、非定常信号源である音声信号を、定常信号である単語や定常信号に近い情報である音素の連結で表わすHMM(Hidden Markov Model)を用いた音響モデルと、この音響モデルによって送出された音素を、単語や文に変換する言語モデルとを用いるものである。すなわち、入力された音声信号についてそれぞれのモデルで分析することにより、入力された音声信号をテキスト記述した語彙(または連接語彙)を尤度が高い順に出力することができる。このとき、一般には出力された語彙の中で最も尤度が高い語彙を出力させるが、「背景技術」の項で述べた音響的なクロストークが存在する環境では、最大尤度の語彙が使用者の意図した語彙とならない場合が多い。
このため、本発明においては、上記問題点を解決し、最大尤度の語彙が使用者の意図に近い語彙となるような音声認識装置を実現することを目的とした。
前記のような、ガイダンス音声による音響的なクロストークが存在する環境下での音声認識の結果を調べると、ガイダンス音声を単独で音声認識システムによって分析した結果が認識結果の候補として含まれる場合が少なからず存在する。
このため、前記目的を達成するために、本発明においては、出力されるガイダンス音声を単独で第2の音声認識手段によって分析した結果を、使用者により入力された音声とガイダンス音声信号とが混在した信号(第1の音声認識手段の信号)の分析結果から除去し、第1の音声認識手段および第2の音声認識手段は、使用者により入力された音声信号における認識対象語彙および語彙の接続に関する情報を記録した共通の辞書を有し、または音響的な音素情報と音素の接続に関する情報とを記録した共通の辞書を有する構成とした。
本発明によれば、カーナビのガイダンス音声等の音声が背景に存在する場合、この背景音を除去することが出来、使用者の発話内容の明瞭度を向上することが出来、より効果的な認識を行うことが出来るようになる。また、本発明におけるエコーキャンセラとの組み合わせ、あるいは音場制御の手法等の利用によりさらに背景音(ガイダンス音声)の除去効果を向上することが出来る。
(実施の形態1)
以下では、図1および図2を用いてガイダンス音声の内容が未知の場合について基本的な発明の構成を説明する。ここで、ガイダンス音声が未知とは、使用者の発話以外の背景音が、カーナビのガイダンス音声のように予め登録されている音声ではない場合を言う。図1は本発明の基本構成を示すブロック図、図2はこの基本構成による装置構成の一実施の形態例である。
図1の100で示す音入力手段では、マイク等、音を電気信号に変換する機器を用いて使用者が発話した音声を収集し、収集された電気信号を図2におけるAD変換装置220を用いてAD変換し、信号処理が容易な扱いやすい離散的な音信号に変換する。これは図2の200で示すマイクロホン、210で示す増幅装置、220で示すAD変換装置等によって構成される。いずれも一般的に市販されている装置を組み合わせて用いることで実現できる。
図1の110で示す音声認識手段1は、音声入力手段100から入力された音信号の内容を分析し、例えばテキストデータのような認識信号1に変換する。認識信号1は複数の認識結果候補を有している。図1の140で示す音声認識手段2はカーナビから入力されるガイダンス音声信号、その他オーディオ信号あるいは警報音である外部信号R110を未知の信号としてその内容を分析し、認識信号2に変換する。認識信号2においても複数の認識結果候補を有している。この音声認識手段2は図2の240で示す演算装置と、250で示す記憶装置とを用いることで実現できる。演算装置240としては、例えば、一般的なパーソナルコンピュータ、マイクロコンピュータ、信号処理装置のように演算機能を有するシステムを構成するCPU、MPU、DSPを単数、或いは複数個組み合わせればよく、実時間処理が可能な演算能力を有していることが望ましい。また記憶装置250もキャッシュメモリ、メインメモリ、ディスクメモリ、フラッシュメモリ、ROM等、一般的な情報処理機器に用いられている情報記憶能力を有する機器を用いればよい。
図1の120で示す音出力手段は、外部信号R110として入力された音に関する離散的な信号を離散的な音信号としてそのまま音声認識装置2(140)に、および連続的な電気信号に変換して121で示すスピーカ手段に送出する。これは図2の230で示す音出力装置を用いることで実現できる。音出力装置230は離散信号を連続的な電気信号に変換するための一般的なDA変換器や、信号を増幅する一般的な増幅装置を用いればよい。
図1の121で示すスピーカ手段は、120で示す音出力手段から送出された連続的な電気信号を音に変換して出力する。これは図2の231に示すスピーカに相当する。
図1の140で示す音声認識手段2は、図1の120で示す音出力手段から送出された離散的な信号(外部信号R110に相当)の内容を分析し、例えばテキストデータのような認識信号2に変換する。このとき認識信号2は複数の認識結果候補を有している。図1の140で示す音声認識手段2は図2の240で示す演算装置と250で示す記憶装置とを用いることで実現できる。すなわち、図示していないが音声認識手段1(110)と音声認識手段2(140)とは共通の記憶装置250を有している。
図1の150で示す除去手段は、図1の110で示す音声認識手段1から得られた認識信号1および図1の140で示す音声認識手段2から得られた認識信号2について、これら2つの信号の内容が一致する認識候補を認識信号1から除去し、残りの認識候補を認識信号R100として車載機器の制御情報として出力する。図1の150で示す除去手段は図2の240で示す演算装置と250で示す記憶装置とを用いることで実現できる。
以上述べた装置の信号処理フローを図3を用いて説明する。
システムが動作を開始すると、始めにステップS100において初期化処理を行う。このときすべての音声認識処理に関する初期化が行われる。また、図1における音声認識手段1(110)および音声認識手段2(140)については音声認識処理の入力信号待ち受け状態にしてもよいし、使用者が入力の意思を示したタイミングで起動して入力信号待ち受け状態にしてもよい。
ステップS110では、使用者による音声入力の有無を判定する。ステップS110では、使用者がスイッチ手段を用いて入力の意思をシステムに伝えた後に音声入力した場合か、あるいは音声認識処理が常に入力待ち状態となっており、音声入力の有無をシステムが自動的に検知する場合か、の何れかが存在する。いずれの場合においても、音入力が検知された場合(S110;Yes)はステップS120へ進む。音入力が検知されない場合(S110;No)はステップS110を繰り返す。
ステップS120では、使用者によって音声信号が入力された際にガイダンス音声の出力の有無を判定する。ガイダンス音声が出力されていた場合(S120;Yes)はステップS130へ進み、ガイダンス音声信号が出力されていない場合(S120;No)はステップS125へ進む。
ステップS125では、音声認識手段1(110)を用いて、使用者によって入力された音声の認識処理を行うことで、認識信号1を獲得しステップS170に進む。
また、ステップS130では、音声認識手段2(140)を用いて、出力されているガイダンス音声信号を認識してテキストデータなどの形式に変換する。認識された結果である図1の認識信号2は150で示す除去手段に送出され、ステップ140に進む。
ステップS140では、音声認識手段1(110)を用いて、入力された音声信号を認識してテキストデータなどの形式に変換する。図1において入力音声信号が認識された結果である認識信号1は図1の150で示す除去手段に送出され、ステップ150に進む。
ステップS150では、認識信号1および認識信号2の内容における両者間で部分的にでも共通の内容があるか否かを示す部分一致について判定する。部分一致が存在する場合(S150;Yes)はステップS160へ進み、存在しない場合(S150;No)はステップS170へ進む。
ステップS170では、認識信号1に含まれる認識候補の中で使用者の入力内容として過去の使用履歴から最も適切と判断された認識候補を認識信号R100として車載機器制御用の信号として出力し、その後、システム初期化S100直後の状態に戻り次の音声入力の待ち受け状態に戻る。
ステップS160では認識信号1から、認識信号1と認識信号2の内容において部分一致した内容を削除し、ステップ170に進む。ステップ170では削除後の認識信号1に含まれる認識候補の中で、使用者の認識内容として過去の使用履歴から最も適切と判断された(尤度が高い)、認識候補を認識信号R100すなわち車載機器の制御用として出力し、再び音声入力の待ち受け状態に戻る。
(実施の形態2)
以下では図4および図2を用いてガイダンス音声信号が既知である場合の発明の構成について説明する。ガイダンス音声信号が既知であるとは、カーナビの案内音声や警報音を事前に記憶手段160に登録しておき、カーナビがガイダンス音声を出力する時はその登録されているガイダンス音声情報を利用する場合を対象としている。なお、未登録の新しい語彙等が入力された場合は実施の形態1で述べたように、音出力手段120から音声認識手段2(140)を経由して当該情報を記憶手段160に新たに登録しておけば良い。図4にこの場合に対応するブロック図を示す。
図4の100で示す音入力手段では、マイク等の音を電気信号に変換する機器を用いて使用者が発話した音声を収集し、収集された電気信号をAD変換して扱いやすい離散的な音信号に変換する。
図4の110で示す音声認識装置1は、入力された音声信号の内容を分析し、例えばテキストデータのような認識信号1に変換する。認識信号1は複数の認識結果候補を有している。
図4の130で示す制御手段は、カーナビのガイダンス音声信号あるいは警報音等である外部信号R110の内容から、音をスピーカ手段121を介して出力する場合は音信号2を図4の音出力手段120に送出し、および記憶手段160に保存されている外部信号R110に対応した信号を記憶手段160に保存されているデータの中から抽出するための情報2を送出する。この情報2は外部信号R110に対応する情報を記憶手段160上で特定できる信号であれば特に制限はない。
図4の121で示すスピーカ手段は、図4の音出力手段120から送出された連続的な電気信号を音に変換して出力する。
このように、制御手段130→記憶手段160→除去手段150の経路は既知のガイダンス音声あるいは警報音が入力されてきた場合である。なお、認識信号2は複数の認識結果候補を有している。図4の記憶手段160は、図2の240で示す演算装置と250で示す記憶装置とを用いることで実現できる。
図4の除去手段150は、図4の110で示す音声認識手段1から得られた認識信号1および図4の160で示す記憶手段から得られた認識信号2について、2つの信号の内容が一致する認識候補を認識信号1から除去し、残りの認識候補を認識信号R100として車載機器の制御用信号として出力する。
図5に本実施の形態2における処理のフロー図を示す。本実施の形態2においてはガイダンス音声信号の内容が既知であることによる処理が実施の形態1と異なるのみで、他の処理は図3に示したステップと異なるところはないため、図3と共通な各ステップの説明は省略する。ただし、図3におけるステップS130は、本実施の形態2においては、予め認識して記憶手段160に記憶されているガイダンス音声信号の中から、現在出力されているガイダンス音声信号に対応する認識信号2を選択する処理が行われるためステップS131として変更している。。この認識信号2は図1における除去手段150に送出される。
(実施の形態3)
以下、実施の形態1におけるガイダンス音声信号が未知の場合、図1に示した除去手段150において語彙の除去処理を行う過程を図6を用いて説明する。
図6では、ガイダンス音声として「行き先をどうぞ」と出力されている環境下において、使用者はガイダンス音声が終了するのを待たずに「神奈川県」と入力(すなわち発話)してしまった場合を想定している。
このとき音声認識手段1(110)および音声認識手段2(140)の語彙に関する辞書は共通とし、「県名」が入力できるように設定されていたとする。このため、音声認識手段1(110)によって得られた入力された音声の認識結果(640で示される認識語彙候補1)は、認識された尤度が高い順に、
1.岩手県
2.神奈川県
3.香川県
であるとする。上記場合のようにクロストークが存在する環境下では、使用者が意図した内容と異なる音響的特徴をもつ「岩手県」のような認識結果が認識語彙候補の中に含まれることがある。
一方、音声認識手段2(140)によって得られたガイダンス音声信号の認識結果(650で示される認識語彙候補2)は、認識された尤度が高い順に、
1.岩手県
2.三重県
3.埼玉県
となったとする。このとき、認識語彙候補1(640)と認識語彙候補2(650)の内容を比較すると、いずれも最大尤度で認識された岩手県が共通していることがわかる。そこで、図1における除去手段150は認識語彙候補1(640)の内容から岩手県を除く。このとき更新された認識語彙候補1(640)の内容は、
1.神奈川県
2.香川県
となることがわかる。更に、認識語彙候補1(640)に残った2つの語彙候補の中から、例えば尤度が高い語彙を選択して認識信号R100とする。2つの語彙候補の中では「神奈川県」のほうが高い尤度を持つとして、認識信号R100は「神奈川県」となる。
このように、音声認識手段1(110)と音声認識手段2(140)とで共通の辞書を用いることにより、ガイダンス音声信号の認識結果を一致させることが出来、クロストークによる影響の除去精度を向上することが出来る。
(実施の形態4)
以下では、図7を用いて、連接された語彙を図1に示す除去手段150で除去する過程を説明する。
図7では、ガイダンス音声として「行き先をどうぞ」と出力されている環境下において、使用者はガイダンス音声が終了するのを待たずに「神奈川県横須賀市」と連接語彙を入力してしまった場合を想定している。この場合も、ガイダンス音声が未知の場合である。
このとき音声認識手段1(110)および音声認識手段2(140)の語彙に関する辞書は共通で、「県名+市区町村名」が入力できるように設定されていたとする。このため、音声認識手段1(110)によって得られた入力された音声の認識結果(740で示される連接語彙候補1)は、認識された尤度が高い順に、
1.岩手県盛岡市
2.神奈川県横須賀市
3.香川県高松市
であるとする。
一方、音声認識手段2(140)によって得られたガイダンス音声信号の認識結果(750で示される連接語彙候補2)は、認識された尤度が高い順に、
1.岩手県水沢市
2.岩手県盛岡市
3.岩手県花巻市
となったとする。このとき、連接語彙候補1(740)と連接語彙候補2(750)の内容を比較すると、連接語彙候補1(740)で最大尤度の認識された「岩手県盛岡市」と、連接語彙候補2(750)で2番目に高い尤度として認識された「岩手県盛岡市」とが共通している。そこで、図1の除去手段150は連接語彙候補1(740)の内容から岩手県盛岡市を除去する。このとき更新された連接語彙候補1(740)の内容は
1.神奈川県横須賀市
2.香川県高松市
となることがわかる。更に、連接語彙候補1(740)に残った2つの連接語彙候補の中から、例えば尤度が高い語彙を選択して認識信号R100とする。2つの連接語彙候補の中では「神奈川県横須賀市」のほうが高い尤度を持つとして、認識信号R100は「神奈川県横須賀市」となる。
本実施の形態4においても、音声認識手段1(110)および音声認識手段2(140)に対して辞書を共通とすることにより、ガイダンス音声信号の認識結果を一致させることが出来、クロストークの除去精度を向上することが出来る。
(実施の形態5)
以下では、図8を用いて、図1に示す除去手段150が語彙を除去する過程を説明する。
図8では、ガイダンス音声信号として「行き先をどうぞ」と出力されている環境下において、使用者はガイダンス音声信号が終了するのを待たずに「横浜市港南区」と入力してしまった場合を想定している。
このとき音声認識手段1(110)および音声認識手段2(140)の語彙に関する辞書730は「県名+市区町村名」が入力できるように設定されているものとする。このため、音声認識手段1によって得られた入力音声の認識結果、すなわち連接語彙候補1(840)は、認識された尤度が高い順に、
1.横浜市青葉区
2.横浜市港南区
3.横須賀市
であるとする。
一方、音声認識手段2(140)によって得られたガイダンス音声信号の認識結果、すなわち連接語彙候補2(850)は、認識された尤度が高い順に、
1.仙台市泉区
4.仙台市青葉区
5.仙台市大田区
となったとする。このとき、連接語彙候補1(840)と連接語彙候補2(850)の内容を比較すると、連接語彙候補1(840)で最大尤度として認識された「横浜市青葉区」の「青葉区」の部分と、連接語彙候補2(850)で2番目に高い尤度として認識された「仙台市青葉区」の「青葉区」の部分とが共通している。そこで、図1の除去手段150においては連接語彙候補1(840)の内容から「横浜市青葉区」を除く。このとき更新された連接語彙候補1(840)の内容は
2.横浜市港南区
3.横須賀市
となることがわかる。更に残った2つの連接語彙候補の中から、例えば尤度が高い語彙を選択して認識信号R100(860)とする。2つの連接語彙候補の中では「横浜市港南区」のほうが高い尤度を持つとすると、認識信号R100(860)は「横浜市港南区」となる。
以上は、部分的に共通する語彙の除去について述べたが、これは部分的な形態素についても適用することが出来る。
(実施の形態6)
以下では、図9により音声認識手段1(110)および音声認識手段2(140)で抽出された音素列で共通するものを除去する過程を説明する。
図9は本実施の形態6の基本構成を示すブロック図であり、本実施の形態6においてもその基本的装置構成の一例は図2で示したものと同じ構成で実現することが出来る。
図9の110で示す音声認識手段1は、入力された音の内容を分析し、音素列を含む認識信号1に変換する。認識信号1は複数の音素列候補を有している。認識信号1は図9の150で示す除去手段に送出される。
図9の140で示す音声認識手段2は、図9の120で示す音出力手段から送出された離散的な信号の内容を分析し、音素列を含む認識信号2に変換する。このとき認識信号2は複数の音素列候補を有している。
図9の150で示す除去手段は、図9の110で示す音声認識手段1から得られた認識信号1と図9の140で示す音声認識手段2から得られた認識信号2とについて、2つの信号の音素列が部分的に一致する音素列を有する音素列候補を認識信号1から除去し、残りの音素列候補を認識信号3として音声認識手段1(110)に送出する。
図9の110で示す音声認識手段1は図9の150で示す除去手段から受け取った音素列候補、すなわち認識信号3を語彙候補または連接語彙候補に変換し、更に、これら候補の中から最も適当な語彙または連接語彙を認識信号R100として車載機器の制御用として出力する。
次に、図10を用いて、図9に示す除去手段150がガイダンス音声に含まれる語彙を除去する過程を説明する。
図10では、ガイダンス音声として「行き先をどうぞ」と出力されている環境下において、使用者はガイダンス音声が終了するのを待たずに「神奈川県」と入力してしまった場合を想定している。
このとき音声認識手段1(110)によって得られた入力された音声の音素辞書1030における認識結果(音素列候補1とする)は、認識された尤度が高い順に、
1.tottoriken
2.kanagawaken
3.kagawaken
である。
一方、音声認識手段2(140)によって得られたガイダンス音声信号の音素認識の結果(音素列候補2とする)は、認識された尤度が高い順に、
1.ichinoseki
2.toride
3.sakite
となったとする。このとき、音素列候補1と音素列候補2の内容を比較すると、音素列候補1で最大尤度をもつ「tottori」と、音素列候補2で2番目に尤度の高い「toride」の「tori」の部分が共通音素であることがわかる。なお、ここで、入力された音声用およびガイダンス音声信号用それぞれの音素辞書を共通としておけば比較の精度を向上するのに有用である。この音素辞書は音声信号に含まれる音響的な音素(音響素片)情報と音素の接続に関する情報とが記録されている。そこで、図1の除去手段150は音素列候補1の内容から「tori」を含む列である「tottori」を除く。音声認識手段1(110)では「tori」を除いた結果である認識信号3である、
1.kanagawaken
2.kagawaken
を更に言語辞書1040による分析を用いて、
1.神奈川県
2.香川県
に変換し、最後に残った2つの語彙候補の中から、例えば尤度が高い語彙を選択して認識信号R100とする。2つの語彙候補の中では「神奈川県」のほうが高い尤度をもつとすれば、認識信号R100は「神奈川県」となる。
(実施の形態7)
以上述べた、(実施の形態3)から(実施の形態6)までの動作では、音声認識手段1(110)で候補となった音素、語彙、連接語彙がすべて消えてしまう場合がある。このようなときは音声認識手段2(140)および除去手段150の動作をさせないことで、認識結果が得られなくなることを避けることができる。
(実施の形態8)
また、図11の評価手段170はガイダンス音声信号を検出する検出手段としての機能を有しており、外部信号R110に含まれるガイダンス音声信号が出力されていないことが評価手段170において検出された場合には、音声認識手段2(140)および除去手段150の動作を停止し、音声認識手段1(110)のみで音声認識処理が実行される。
(実施の形態9)
マイク121から入力された音声がガイダンス音声信号より著しく大きいときは音声認識手段2(140)および除去手段150を動作させる必要はない。この動作の可否は、簡易的にガイダンス音声信号の音圧と入力された音声信号との音圧比を代用特性として図11における評価手段170で求め、この出力が予め定められた閾値を越えたところで入力された音声が十分に大きいとして除去手段150および音声認識手段2(140)に送出し、これら回路の動作を停止させることができる。
以上述べた全ての実施の形態において、音声認識手段1(110)にはスピーカ手段121から発せられたガイダンス音声が音入力手段100に音響的に回り込んで使用者の発話に混入したものであり、音声認識手段2(140)においてはガイダンス音声信号のみが認識されている。すなわち、これら両音声認識手段に入力されているガイダンス音声信号は同じ内容のものであり、したがって、これら両音声認識手段において、ガイダンス音声の認識処理は同じタイミングで動作しなければならない。これは、これら両手段の間で音声認識の時間的区間をあわせ、これによりクロストーク信号の区間を一致させる必要があるためである。
(実施の形態10)
本実施の形態10においては、図12および図2を用いて、前記本発明と音響エコーキャンセラとを組み合わせた時の構成について説明する。図12は本実施の形態10に対応するブロック図である。
図12の190で示すエコーキャンセラ手段は、例えば、図13に示すような構成にすればよい。すなわち、マイクロホン200にはガイダンス音声信号{y(t)}と、使用者の発話信号{x(t)}とが混在した信号が入力される。ここで、ガイダンス音声信号はスピーカ121から空間を経由してマイクロホン200で集音される。この伝達系をh^(t)とすれば(ここで^は図13に記載の通りhの上に記載されたものと同一の内容を示す)、結局、マイクロホン200への入力信号は
x(t)+y(t)*h^(t) (1)
で与えられる。一方、ガイダンス音声信号y(t)は上記伝達系に近い特性、h(t)≒h^(t)、を有する適応フィルタ1301を経由して
y(t)×h(t) (2)
となり、減算器1302に供給される。減算器1302では(1)式−(2)式の減算処理が行われ、所望の出力信号x^(t)を得る。適応フィルタ1301はこの出力信号x^(t)に応じて特性が変化する。
ここで、図13におけるガイダンス音声信号y(t)は図12では音出力手段120の出力がパス1を経て信号SIGとなる信号に相当するものであり、出力信号x^(t)は音声認識手段1に入力される。
図12の180で示す変換手段では、120で示す音出力手段から得られるガイダンス音声信号を、190で示すエコーキャンセラ手段による背景音除去後の信号と音出力手段120出力との差分を求めて除去誤り信号となるように変換する。この除去誤り信号は言わば消し残り成分で、図13における適応フィルタの特性の近似誤差、すなわち、h^(t)−h(t)で表わされる。これが図12における変換手段180の出力となり、音声認識手段2(140)を経由して除去手段150に入力され、音声認識手段1(110)出力の認識結果から減算される。この変換手段は、図2の240で示す演算装置と250で示す記憶装置とを用いることで実現できる。
上記のように、エコーキャンセラ190と組み合わせることにより、音入力手段100でのエコー成分(すなわちガイダンス音声信号成分)を除去し、音声認識手段1(110)および音声認識手段2(140)においてタイミングの合致した信号についてガイダンス音声信号の除去精度を向上することが出来るようになる。
(実施の形態11)
前記特許文献2で示された音場制御の手法を本発明の構成に組み合わせることにより、ガイダンス音声信号の除去効果を向上することが出来る。図14にこの場合の構成を示す。
図14において、195で示す抑圧手段は、マイクロホン200周辺の空間に存在する背景音(ガイダンス音声)を打ち消すように、スピーカ手段121で出力してガイダンス音声を制御する。これは、図8の240で示す演算装置と250で示す記憶装置を用いることで実現できる。
図14における変換手段180においては、抑圧手段195からの出力信号と音入力手段100からのマイクロホン周辺に存在する背景音(ガイダンス音)成分とから抑圧誤り信号を予測し、これを音声認識手段に出力する処理が行われる。ここで、抑圧誤り信号は実施の形態10における除去誤り信号に対応するもので、本実施の形態11においてはマイクロホン200近辺の空間におけるガイダンス音声信号成分が消音制御により抑圧するようにスピーカ121の出力を調整することから異なる名称を使用している。
(実施の形態12)
上記のようにエコーキャンセラと組み合わせて使用した場合は、音声認識手段1(110)に音声信号が入力された時点で、すでにクロストークが十分除去されている場合もある。このため、図15で示すように「実施の形態9;図11」で述べた評価手段170を挿入して、クロストークが十分除去されている場合には音声認識手段2(140)および除去手段150を動作させないことも必要となる。評価手段170によるクロストークの除去量に関する評価手法としては、例えば、ガイダンス音声信号と、当該エコーキャンセラ手段190によってクロストークが除去され入力された音声との相関値を計算することで評価は可能である。
(実施の形態13)
図16に、使用者が音声入力タイミングを指定するためのPTT(Push To Talk)スイッチを用いた構成を示す。
図16の105で示すスイッチ手段は図2の260で示す入力装置に相当し、具体的にはタッチパネル、キーボード、ジョグダイアル、その他、各種スイッチを単独、或いは組み合わせて用い、使用者が音声入力を意図したときに入力操作を行うことで、音声認識に関連する機能、例えば、音声認識手段1(110)および音声認識手段2(140)を動作させる。
本実施の形態13のようにスイッチ手段105を導入することで、音声認識手段1(110)と音声認識手段2(140)におけるガイダンス音声信号に関する信号の同期が可能となる。
なお、実施の形態2における構成においては、実施の形態5あるいは実施の形態6で述べた単語や音素列の部分一致を調べて除去する手法との組合せも有効である。
本発明第1の基本構成を示すブロック図。 図1の基本構成を実現する回路構成を示す装置構成図。 図1に示す構成の信号処理動作を示すフロー図。 本発明第2の基本構成を示すブロック図。 図4に示す構成の信号処理動作を示すフロー図。 ガイダンス音声未知の場合の信号処理系統図。 連接語彙除去を行う信号処理系統図。 図1の構成で語彙を除去する過程を示す信号処理系統図。 音素列による背景音除去法を示すブロック図。 図9における語彙除去の過程を示す信号処理系統図。 実施の形態8の場合の音声認識を行う構成を示すブロック図。 エコーキャンセラを用いた背景音除去の構成を示すブロック図。 エコーキャンセラの原理を示す基本構成図。 音場制御を用いた背景音除去を行う構成のブロック図。 エコーキャンセラを用いた背景音除去の他の構成を示すブロック図。 スイッチ手段を導入した背景音除去の構成を示すブロック図。
符号の説明
100:音入力手段 105:スイッチ手段
110:音声認識手段1 120:音出力手段
121:スピーカ手段 140:音声認識手段2
150:除去手段 160:記憶装置
170:評価手段 180:変換手段
190:エコーキャンセラ手段 195:抑圧手段
200:マイクロホン 210:増幅装置
220:AD変換装置 230:音出力装置
231:スピーカ 240:演算装置
250:記憶装置 260:入力装置
630:県名辞書 640:認識語彙候補1
650:認識語彙候補2
660、760、860、1050:認識信号R100
730:県名・市区町村名辞書 740、840:連接語彙候補1
750、850:連接語彙候補2 1030:音素辞書
1040:言語辞書 1301:適応フィルタ
1302:減算器

Claims (12)

  1. 使用者の音声を入力し、電気信号である音声信号に変換する音入力手段と、
    前記入力された音声信号を認識し、且つ第1の認識信号として送出する第1の音声認識手段と、
    前記使用者に対し音楽、音声情報、警報音を含むガイダンス音声信号を出力する音出力手段と、
    前記音出力手段のガイダンス音声信号を音声に変換するスピーカ手段と、
    前記ガイダンス音声信号を認識し、且つ第2の認識信号として送出する第2の音声認識手段と、
    該第2の音声認識手段によって認識された前記第2の認識信号に関する内容を前記第1の音声認識手段によって認識された前記第1の認識信号の内容から除去する除去手段と、を有してなり、
    前記第1の音声認識手段および第2の音声認識手段は、
    前記使用者により入力された音声信号における認識対象語彙および語彙の接続に関する情報を記録した共通の辞書を有すること、
    を特徴とする音声認識装置。
  2. 使用者の音声を入力し、電気信号である音声信号に変換する音入力手段と、
    前記入力された音声信号を認識し、且つ第1の認識信号として送出する第1の音声認識手段と、
    前記使用者に対し音楽、音声情報、警報音を含むガイダンス音声信号を出力する音出力手段と、
    前記音出力手段のガイダンス音声信号を音声に変換するスピーカ手段と、
    前記ガイダンス音声信号を認識し、且つ第2の認識信号として送出する第2の音声認識手段と、
    該第2の音声認識手段によって認識された前記第2の認識信号に関する内容を前記第1の音声認識手段によって認識された前記第1の認識信号の内容から除去する除去手段と、を有してなり、
    前記第1の音声認識手段および前記第2の音声認識手段は、
    音響的な音素情報と音素の接続に関する情報とを記録した共通の辞書を有すること、
    を特徴とする音声認識装置。
  3. 請求項1または請求項2に記載の音声認識装置において、
    音響的な回り込み信号を除去する音響的なエコーキャンセラを備え、
    該エコーキャンセラの一方の入力は前記音声入力手段の出力に、また他方の入力は前記音出力手段の出力に接続され、
    該エコーキャンセラの出力の一方は前記第1の音声認識手段に接続され、該エコーキャンセラの他方の出力は変換手段の入力に接続されており、該変換手段においては前記エコーキャンセラ手段によって前記ガイダンス音声信号が除去された信号をと前記音出力手段の出力とから除去誤り信号に変換し、さらに前記第2の音声認識手段に送出すること
    を特徴とする音声認識装置。
  4. 請求項1または請求項2に記載の音声認識装置において、
    音響的な回り込み信号を前記音入力手段のマイクロホン位置で抑圧する抑圧手段と、
    前記音入力手段を介して入力される音響空間的な回り込み信号が抑圧された信号から抑圧誤り信号に変換する変換手段と、
    該抑圧手段の入力は前記音出力手段の出力に接続され、
    該抑圧手段の一方の出力は前記スピーカ手段に、他の一方の出力は前記変換手段の一方の入力に接続され、
    前記音入力手段の出力は前記第1の音声認識手段の入力と、前記変換手段の他方の入力とにそれぞれ接続されていること
    を特徴とする音声認識装置。
  5. 請求項1乃至請求項4の何れかに記載の音声認識装置において、
    前記使用者が発話タイミングを入力するスイッチ手段を有すること、
    を特徴とする音声認識装置。
  6. 請求項5に記載の音声認識装置において、
    前記使用者が発話タイミングを前記スイッチ手段により入力した後、同時に、前記第1の音声認識手段および前記第2の音声認識手段における認識処理を開始すること
    を特徴とする音声認識装置。
  7. 使用者の音声入力を、電気信号である音声信号に音声入力手段により変換し、
    前記入力された音声信号を第1の音声認識手段により認識し、且つ第1の認識信号として送出し、
    前記使用者に対し音楽、音声情報、警報音を含むガイダンス音声信号を音出力手段により出力し、
    前記音出力手段のガイダンス音声信号をスピーカ手段により音声に変換し、
    前記ガイダンス音声信号を第2の音声認識手段により認識し、且つ第2の認識信号として送出し、
    該第2の音声認識手段によって認識された前記第2の認識信号に関する内容を前記第1の音声認識手段によって認識された前記第1の認識信号の内容から除去手段により除去し、
    前記第1の音声認識手段および第2の音声認識手段による処理は、
    前記使用者により入力された音声信号における認識対象語彙および語彙の接続に関する情報を記録した共通の辞書を使用すること、
    を特徴とする音声認識方法。
  8. 使用者の音声入力を、電気信号である音声信号に音声入力手段により変換し、
    前記入力された音声信号を第1の音声認識手段により認識し、且つ第1の認識信号として送出し、
    前記使用者に対し音楽、音声情報、警報音を含むガイダンス音声信号を音出力手段により出力し、
    前記音出力手段のガイダンス音声信号をスピーカ手段により音声に変換し、
    前記ガイダンス音声信号を第2の音声認識手段により認識し、且つ第2の認識信号として送出し、
    該第2の音声認識手段によって認識された前記第2の認識信号に関する内容を前記第1の音声認識手段によって認識された前記第1の認識信号の内容から除去手段により除去し、
    前記第1の音声認識手段および前記第2の音声認識手段による処理は、
    音響的な音素情報と音素の接続に関する情報とを記録した共通の辞書を使用すること、
    を特徴とする音声認識方法。
  9. 請求項7または請求項8に記載の音声認識方法において、
    音響的な回り込み信号をエコーキャンセラにより除去し、
    該エコーキャンセラの一方の入力には前記音声入力手段からの信号を入力し、また他方の入力には前記音出力手段からの信号を入力し、
    該エコーキャンセラの出力の一方は前記第1の音声認識手段に入力され、該エコーキャンセラの他方の出力は変換手段に入力されており、該変換手段においては前記エコーキャンセラ手段によって前記ガイダンス音声信号が除去された信号と、前記音出力手段の出力とから除去誤り信号に変換され、この変換結果を前記第2の音声認識手段に送出すること
    を特徴とする音声認識方法。
  10. 請求項7または請求項8に記載の音声認識方法において、
    音響的な回り込み信号を抑圧手段により前記音入力手段のマイクロホン位置で抑圧し、
    前記音入力手段を介して入力される音響的な回り込み信号を変換手段により抑圧誤り信号に変換し、
    前記音出力手段の出力を該抑圧手段に入力し、
    該抑圧手段の一方の出力は前記スピーカ手段に入力し、他の一方の出力は前記変換手段の一方の入力に入力し、
    前記音入力手段の出力は前記第1の音声認識手段の入力と、前記変換手段の他方の入力とにそれぞれ入力すること
    を特徴とする音声認識方法。
  11. 請求項7乃至請求項9の何れかに記載の音声認識方法において、
    前記使用者が発話タイミングを入力するスイッチ手段により発生させること、を特徴とする音声認識方法。
  12. 請求項7乃至請求項10の何れかに記載の音声認識装置において、
    前記使用者が発話タイミングを前記スイッチ手段により入力したとき前記第1の音声認識手段および前記第2の音声認識手段における認識処理を開始すること
    を特徴とする音声認識方法。
JP2004359697A 2004-12-13 2004-12-13 音声認識装置および音声認識方法 Expired - Fee Related JP4608670B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004359697A JP4608670B2 (ja) 2004-12-13 2004-12-13 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004359697A JP4608670B2 (ja) 2004-12-13 2004-12-13 音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
JP2006171077A JP2006171077A (ja) 2006-06-29
JP4608670B2 true JP4608670B2 (ja) 2011-01-12

Family

ID=36671946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004359697A Expired - Fee Related JP4608670B2 (ja) 2004-12-13 2004-12-13 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP4608670B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011129421A1 (ja) * 2010-04-13 2011-10-20 日本電気株式会社 背景雑音キャンセリング装置および方法
US10115392B2 (en) 2010-06-03 2018-10-30 Visteon Global Technologies, Inc. Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system
CN104956436B (zh) 2012-12-28 2018-05-29 株式会社索思未来 带有语音识别功能的设备以及语音识别方法
JP6817915B2 (ja) * 2017-08-29 2021-01-20 アルパイン株式会社 音声認識装置、車載システム及びコンピュータプログラム
KR102544250B1 (ko) 2018-07-03 2023-06-16 삼성전자주식회사 소리를 출력하는 디바이스 및 그 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0250198A (ja) * 1988-05-27 1990-02-20 Toshiba Corp 音声認識システム
JPH03160499A (ja) * 1989-11-20 1991-07-10 Sanyo Electric Co Ltd 音声認識装置
JPH04318900A (ja) * 1991-04-18 1992-11-10 Oki Electric Ind Co Ltd 多方向同時収音式音声認識方法
JPH08211892A (ja) * 1995-02-01 1996-08-20 Toyota Motor Corp 音声認識装置
JP2004294803A (ja) * 2003-03-27 2004-10-21 Clarion Co Ltd 音声認識装置
JP2005049436A (ja) * 2003-07-30 2005-02-24 Toshiba Corp 音声認識方法、装置及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0250198A (ja) * 1988-05-27 1990-02-20 Toshiba Corp 音声認識システム
JPH03160499A (ja) * 1989-11-20 1991-07-10 Sanyo Electric Co Ltd 音声認識装置
JPH04318900A (ja) * 1991-04-18 1992-11-10 Oki Electric Ind Co Ltd 多方向同時収音式音声認識方法
JPH08211892A (ja) * 1995-02-01 1996-08-20 Toyota Motor Corp 音声認識装置
JP2004294803A (ja) * 2003-03-27 2004-10-21 Clarion Co Ltd 音声認識装置
JP2005049436A (ja) * 2003-07-30 2005-02-24 Toshiba Corp 音声認識方法、装置及びプログラム

Also Published As

Publication number Publication date
JP2006171077A (ja) 2006-06-29

Similar Documents

Publication Publication Date Title
JP3479691B2 (ja) 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
EP1933303A1 (en) Speech dialog control based on signal pre-processing
JP2007500367A (ja) 音声認識方法およびコミュニケーション機器
US9940926B2 (en) Rapid speech recognition adaptation using acoustic input
JP2000221990A (ja) 音声認識装置
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2004333543A (ja) 音声対話システム及び音声対話方法
JP4608670B2 (ja) 音声認識装置および音声認識方法
JP2006208486A (ja) 音声入力装置
JP2018116130A (ja) 車内音声処理装置および車内音声処理方法
JP2018072599A (ja) 音声認識装置および音声認識方法
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
JPH06236196A (ja) 音声認識方法および装置
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
KR20180124226A (ko) 음성인식 작동 시스템 및 방법
JP2007206239A (ja) 音声認識装置および音声認識方法
JP2009031809A (ja) 音声認識装置
KR101066472B1 (ko) 초성 기반 음성인식장치 및 음성인식방법
JP2007248529A (ja) 音声認識装置、音声認識プログラム、及び音声動作可能な装置
JP2002372988A (ja) 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法
JP2006251699A (ja) 音声認識装置
US20090254335A1 (en) Multilingual weighted codebooks
JP2006184371A (ja) 音声認識装置および音声認識方法
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100907

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100920

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131022

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101111

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A072

Effective date: 20110301

LAPS Cancellation because of no payment of annual fees