JP4608670B2

JP4608670B2 - 音声認識装置および音声認識方法

Info

Publication number: JP4608670B2
Application number: JP2004359697A
Authority: JP
Inventors: 充伸神沼
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2004-12-13
Filing date: 2004-12-13
Publication date: 2011-01-12
Anticipated expiration: 2024-12-13
Also published as: JP2006171077A

Description

本発明は、車両内等の背景雑音が多い場所で使用する音声認識装置およびその認識方法に関する。

カーナビゲーションシステム（以下、カーナビと記す）のように車室内で用いる音声認識を用いた入出力装置では、カーナビの操作等に関するガイダンス音声やオーディオ装置からの音楽等の背景音が出力されている環境下においても使用者の音声入力を可能としたい場合がある。一般に使用者が音声を入力している最中にガイダンス音声が流れると、音声認識装置は分析誤りを起こしやすくなる。これは、ガイダンス音声が使用者の音声と混在し、このクロストークにより使用者の音声信号の特徴パラメータが変形してしまうことに起因する。なお、以下においては、音響的に存在する場合に対しては音声、またはガイダンス音声と記し、これらが電気信号に変換された状態を音声信号又はガイダンス音声信号と記す。

このように音響的なクロストークを除去する手法として、下記非特許文献１に示すような音響エコーキャンセラを用いて入力信号から動的にガイダンス音声信号を減算する手法、下記特許文献１で開示されている音声帯域の出力信号を減衰させる手法、下記特許文献２で開示されているマイク位置での背景音が小さくなるように制御する手法等が提案されている。これらの手法では、ガイダンス音声信号やオーディオ装置からの信号と、使用者によって入力された音声信号とが混在して入力された入力信号から、ガイダンス音声信号やオーディオ装置からの信号等背景音を音響的に除去、あるいは抑圧する手法が採られている。然るに、これら従来技術では単独で十分な除去、抑圧性能が得られない場合が少なからず存在していた。

特開２０００−１３２２００号公報特開２００３−１７４６９９号公報例えば、大賀寿郎、山崎芳男、金田豊「音響システムとディジタル処理」電子情報通信学会、P201-214

前記の問題を解決するための手段の一つとして、独立に動作可能な手法を複数組み合わせて性能を向上することが考えられる。
最近多く用いられている音声認識システムでに、非線形伸縮マッチングアルゴリズムの一種がある。これは、音響的な信号を音素あるいは単語毎に確率分布に関する情報を用意し、非定常信号源である音声信号を、定常信号である単語や定常信号に近い情報である音素の連結で表わすＨＭＭ（Hidden Markov Model）を用いた音響モデルと、この音響モデルによって送出された音素を、単語や文に変換する言語モデルとを用いるものである。すなわち、入力された音声信号についてそれぞれのモデルで分析することにより、入力された音声信号をテキスト記述した語彙（または連接語彙）を尤度が高い順に出力することができる。このとき、一般には出力された語彙の中で最も尤度が高い語彙を出力させるが、「背景技術」の項で述べた音響的なクロストークが存在する環境では、最大尤度の語彙が使用者の意図した語彙とならない場合が多い。
このため、本発明においては、上記問題点を解決し、最大尤度の語彙が使用者の意図に近い語彙となるような音声認識装置を実現することを目的とした。

前記のような、ガイダンス音声による音響的なクロストークが存在する環境下での音声認識の結果を調べると、ガイダンス音声を単独で音声認識システムによって分析した結果が認識結果の候補として含まれる場合が少なからず存在する。
このため、前記目的を達成するために、本発明においては、出力されるガイダンス音声を単独で第２の音声認識手段によって分析した結果を、使用者により入力された音声とガイダンス音声信号とが混在した信号(第１の音声認識手段の信号)の分析結果から除去し、第１の音声認識手段および第２の音声認識手段は、使用者により入力された音声信号における認識対象語彙および語彙の接続に関する情報を記録した共通の辞書を有し、または音響的な音素情報と音素の接続に関する情報とを記録した共通の辞書を有する構成とした。

本発明によれば、カーナビのガイダンス音声等の音声が背景に存在する場合、この背景音を除去することが出来、使用者の発話内容の明瞭度を向上することが出来、より効果的な認識を行うことが出来るようになる。また、本発明におけるエコーキャンセラとの組み合わせ、あるいは音場制御の手法等の利用によりさらに背景音（ガイダンス音声）の除去効果を向上することが出来る。

（実施の形態１）
以下では、図１および図２を用いてガイダンス音声の内容が未知の場合について基本的な発明の構成を説明する。ここで、ガイダンス音声が未知とは、使用者の発話以外の背景音が、カーナビのガイダンス音声のように予め登録されている音声ではない場合を言う。図１は本発明の基本構成を示すブロック図、図２はこの基本構成による装置構成の一実施の形態例である。

図１の１００で示す音入力手段では、マイク等、音を電気信号に変換する機器を用いて使用者が発話した音声を収集し、収集された電気信号を図２におけるＡＤ変換装置２２０を用いてＡＤ変換し、信号処理が容易な扱いやすい離散的な音信号に変換する。これは図２の２００で示すマイクロホン、２１０で示す増幅装置、２２０で示すＡＤ変換装置等によって構成される。いずれも一般的に市販されている装置を組み合わせて用いることで実現できる。

図１の１１０で示す音声認識手段１は、音声入力手段１００から入力された音信号の内容を分析し、例えばテキストデータのような認識信号１に変換する。認識信号１は複数の認識結果候補を有している。図１の１４０で示す音声認識手段２はカーナビから入力されるガイダンス音声信号、その他オーディオ信号あるいは警報音である外部信号Ｒ１１０を未知の信号としてその内容を分析し、認識信号２に変換する。認識信号２においても複数の認識結果候補を有している。この音声認識手段２は図２の２４０で示す演算装置と、２５０で示す記憶装置とを用いることで実現できる。演算装置２４０としては、例えば、一般的なパーソナルコンピュータ、マイクロコンピュータ、信号処理装置のように演算機能を有するシステムを構成するCPU、MPU、DSPを単数、或いは複数個組み合わせればよく、実時間処理が可能な演算能力を有していることが望ましい。また記憶装置２５０もキャッシュメモリ、メインメモリ、ディスクメモリ、フラッシュメモリ、ROM等、一般的な情報処理機器に用いられている情報記憶能力を有する機器を用いればよい。

図１の１２０で示す音出力手段は、外部信号Ｒ１１０として入力された音に関する離散的な信号を離散的な音信号としてそのまま音声認識装置２（１４０）に、および連続的な電気信号に変換して１２１で示すスピーカ手段に送出する。これは図２の２３０で示す音出力装置を用いることで実現できる。音出力装置２３０は離散信号を連続的な電気信号に変換するための一般的なＤＡ変換器や、信号を増幅する一般的な増幅装置を用いればよい。

図１の１２１で示すスピーカ手段は、１２０で示す音出力手段から送出された連続的な電気信号を音に変換して出力する。これは図２の２３１に示すスピーカに相当する。
図１の１４０で示す音声認識手段２は、図１の１２０で示す音出力手段から送出された離散的な信号（外部信号Ｒ１１０に相当）の内容を分析し、例えばテキストデータのような認識信号２に変換する。このとき認識信号２は複数の認識結果候補を有している。図１の１４０で示す音声認識手段２は図２の２４０で示す演算装置と２５０で示す記憶装置とを用いることで実現できる。すなわち、図示していないが音声認識手段１（１１０）と音声認識手段２（１４０）とは共通の記憶装置２５０を有している。

図１の１５０で示す除去手段は、図１の１１０で示す音声認識手段１から得られた認識信号１および図１の１４０で示す音声認識手段２から得られた認識信号２について、これら２つの信号の内容が一致する認識候補を認識信号１から除去し、残りの認識候補を認識信号Ｒ１００として車載機器の制御情報として出力する。図１の１５０で示す除去手段は図２の２４０で示す演算装置と２５０で示す記憶装置とを用いることで実現できる。

以上述べた装置の信号処理フローを図３を用いて説明する。
システムが動作を開始すると、始めにステップＳ１００において初期化処理を行う。このときすべての音声認識処理に関する初期化が行われる。また、図１における音声認識手段１（１１０）および音声認識手段２（１４０）については音声認識処理の入力信号待ち受け状態にしてもよいし、使用者が入力の意思を示したタイミングで起動して入力信号待ち受け状態にしてもよい。
ステップＳ１１０では、使用者による音声入力の有無を判定する。ステップＳ１１０では、使用者がスイッチ手段を用いて入力の意思をシステムに伝えた後に音声入力した場合か、あるいは音声認識処理が常に入力待ち状態となっており、音声入力の有無をシステムが自動的に検知する場合か、の何れかが存在する。いずれの場合においても、音入力が検知された場合（Ｓ１１０；Ｙｅｓ）はステップＳ１２０へ進む。音入力が検知されない場合（Ｓ１１０；Ｎｏ）はステップＳ１１０を繰り返す。

ステップＳ１２０では、使用者によって音声信号が入力された際にガイダンス音声の出力の有無を判定する。ガイダンス音声が出力されていた場合（Ｓ１２０；Ｙｅｓ）はステップＳ１３０へ進み、ガイダンス音声信号が出力されていない場合（Ｓ１２０；Ｎｏ）はステップＳ１２５へ進む。
ステップＳ１２５では、音声認識手段１（１１０）を用いて、使用者によって入力された音声の認識処理を行うことで、認識信号１を獲得しステップＳ１７０に進む。

また、ステップＳ１３０では、音声認識手段２（１４０）を用いて、出力されているガイダンス音声信号を認識してテキストデータなどの形式に変換する。認識された結果である図１の認識信号２は１５０で示す除去手段に送出され、ステップ１４０に進む。
ステップＳ１４０では、音声認識手段１（１１０）を用いて、入力された音声信号を認識してテキストデータなどの形式に変換する。図１において入力音声信号が認識された結果である認識信号１は図１の１５０で示す除去手段に送出され、ステップ１５０に進む。

ステップＳ１５０では、認識信号１および認識信号２の内容における両者間で部分的にでも共通の内容があるか否かを示す部分一致について判定する。部分一致が存在する場合（Ｓ１５０；Ｙｅｓ）はステップＳ１６０へ進み、存在しない場合（Ｓ１５０；Ｎｏ）はステップＳ１７０へ進む。

ステップＳ１７０では、認識信号１に含まれる認識候補の中で使用者の入力内容として過去の使用履歴から最も適切と判断された認識候補を認識信号Ｒ１００として車載機器制御用の信号として出力し、その後、システム初期化Ｓ１００直後の状態に戻り次の音声入力の待ち受け状態に戻る。

ステップＳ１６０では認識信号１から、認識信号１と認識信号２の内容において部分一致した内容を削除し、ステップ１７０に進む。ステップ１７０では削除後の認識信号１に含まれる認識候補の中で、使用者の認識内容として過去の使用履歴から最も適切と判断された（尤度が高い）、認識候補を認識信号Ｒ１００すなわち車載機器の制御用として出力し、再び音声入力の待ち受け状態に戻る。

（実施の形態２）
以下では図４および図２を用いてガイダンス音声信号が既知である場合の発明の構成について説明する。ガイダンス音声信号が既知であるとは、カーナビの案内音声や警報音を事前に記憶手段１６０に登録しておき、カーナビがガイダンス音声を出力する時はその登録されているガイダンス音声情報を利用する場合を対象としている。なお、未登録の新しい語彙等が入力された場合は実施の形態１で述べたように、音出力手段１２０から音声認識手段２（１４０）を経由して当該情報を記憶手段１６０に新たに登録しておけば良い。図４にこの場合に対応するブロック図を示す。

図４の１００で示す音入力手段では、マイク等の音を電気信号に変換する機器を用いて使用者が発話した音声を収集し、収集された電気信号をＡＤ変換して扱いやすい離散的な音信号に変換する。
図４の１１０で示す音声認識装置１は、入力された音声信号の内容を分析し、例えばテキストデータのような認識信号１に変換する。認識信号１は複数の認識結果候補を有している。

図４の１３０で示す制御手段は、カーナビのガイダンス音声信号あるいは警報音等である外部信号Ｒ１１０の内容から、音をスピーカ手段１２１を介して出力する場合は音信号２を図４の音出力手段１２０に送出し、および記憶手段１６０に保存されている外部信号Ｒ１１０に対応した信号を記憶手段１６０に保存されているデータの中から抽出するための情報２を送出する。この情報２は外部信号Ｒ１１０に対応する情報を記憶手段１６０上で特定できる信号であれば特に制限はない。

図４の１２１で示すスピーカ手段は、図４の音出力手段１２０から送出された連続的な電気信号を音に変換して出力する。

このように、制御手段１３０→記憶手段１６０→除去手段１５０の経路は既知のガイダンス音声あるいは警報音が入力されてきた場合である。なお、認識信号２は複数の認識結果候補を有している。図４の記憶手段１６０は、図２の２４０で示す演算装置と２５０で示す記憶装置とを用いることで実現できる。

図４の除去手段１５０は、図４の１１０で示す音声認識手段１から得られた認識信号１および図４の１６０で示す記憶手段から得られた認識信号２について、２つの信号の内容が一致する認識候補を認識信号１から除去し、残りの認識候補を認識信号Ｒ１００として車載機器の制御用信号として出力する。

図５に本実施の形態２における処理のフロー図を示す。本実施の形態２においてはガイダンス音声信号の内容が既知であることによる処理が実施の形態１と異なるのみで、他の処理は図３に示したステップと異なるところはないため、図３と共通な各ステップの説明は省略する。ただし、図３におけるステップＳ１３０は、本実施の形態２においては、予め認識して記憶手段１６０に記憶されているガイダンス音声信号の中から、現在出力されているガイダンス音声信号に対応する認識信号２を選択する処理が行われるためステップＳ１３１として変更している。。この認識信号２は図１における除去手段１５０に送出される。

（実施の形態３）
以下、実施の形態１におけるガイダンス音声信号が未知の場合、図１に示した除去手段１５０において語彙の除去処理を行う過程を図６を用いて説明する。
図６では、ガイダンス音声として「行き先をどうぞ」と出力されている環境下において、使用者はガイダンス音声が終了するのを待たずに「神奈川県」と入力（すなわち発話）してしまった場合を想定している。

このとき音声認識手段１（１１０）および音声認識手段２（１４０）の語彙に関する辞書は共通とし、「県名」が入力できるように設定されていたとする。このため、音声認識手段１（１１０）によって得られた入力された音声の認識結果（６４０で示される認識語彙候補１）は、認識された尤度が高い順に、
１．岩手県
２．神奈川県
３．香川県
であるとする。上記場合のようにクロストークが存在する環境下では、使用者が意図した内容と異なる音響的特徴をもつ「岩手県」のような認識結果が認識語彙候補の中に含まれることがある。

一方、音声認識手段２（１４０）によって得られたガイダンス音声信号の認識結果（６５０で示される認識語彙候補２）は、認識された尤度が高い順に、
１．岩手県
２．三重県
３．埼玉県
となったとする。このとき、認識語彙候補１（６４０）と認識語彙候補２（６５０）の内容を比較すると、いずれも最大尤度で認識された岩手県が共通していることがわかる。そこで、図１における除去手段１５０は認識語彙候補１（６４０）の内容から岩手県を除く。このとき更新された認識語彙候補１（６４０）の内容は、
１．神奈川県
２．香川県
となることがわかる。更に、認識語彙候補１（６４０）に残った２つの語彙候補の中から、例えば尤度が高い語彙を選択して認識信号Ｒ１００とする。２つの語彙候補の中では「神奈川県」のほうが高い尤度を持つとして、認識信号Ｒ１００は「神奈川県」となる。
このように、音声認識手段１（１１０）と音声認識手段２（１４０）とで共通の辞書を用いることにより、ガイダンス音声信号の認識結果を一致させることが出来、クロストークによる影響の除去精度を向上することが出来る。

（実施の形態４）
以下では、図７を用いて、連接された語彙を図１に示す除去手段１５０で除去する過程を説明する。
図７では、ガイダンス音声として「行き先をどうぞ」と出力されている環境下において、使用者はガイダンス音声が終了するのを待たずに「神奈川県横須賀市」と連接語彙を入力してしまった場合を想定している。この場合も、ガイダンス音声が未知の場合である。

このとき音声認識手段１（１１０）および音声認識手段２（１４０）の語彙に関する辞書は共通で、「県名＋市区町村名」が入力できるように設定されていたとする。このため、音声認識手段１（１１０）によって得られた入力された音声の認識結果（７４０で示される連接語彙候補１）は、認識された尤度が高い順に、
１．岩手県盛岡市
２．神奈川県横須賀市
３．香川県高松市
であるとする。
一方、音声認識手段２（１４０）によって得られたガイダンス音声信号の認識結果（７５０で示される連接語彙候補２）は、認識された尤度が高い順に、
１．岩手県水沢市
２．岩手県盛岡市
３．岩手県花巻市
となったとする。このとき、連接語彙候補１（７４０）と連接語彙候補２（７５０）の内容を比較すると、連接語彙候補１（７４０）で最大尤度の認識された「岩手県盛岡市」と、連接語彙候補２（７５０）で２番目に高い尤度として認識された「岩手県盛岡市」とが共通している。そこで、図１の除去手段１５０は連接語彙候補１（７４０）の内容から岩手県盛岡市を除去する。このとき更新された連接語彙候補１（７４０）の内容は
１．神奈川県横須賀市
２．香川県高松市
となることがわかる。更に、連接語彙候補１（７４０）に残った２つの連接語彙候補の中から、例えば尤度が高い語彙を選択して認識信号Ｒ１００とする。２つの連接語彙候補の中では「神奈川県横須賀市」のほうが高い尤度を持つとして、認識信号Ｒ１００は「神奈川県横須賀市」となる。
本実施の形態４においても、音声認識手段１（１１０）および音声認識手段２(１４０)に対して辞書を共通とすることにより、ガイダンス音声信号の認識結果を一致させることが出来、クロストークの除去精度を向上することが出来る。

(実施の形態５)
以下では、図８を用いて、図１に示す除去手段１５０が語彙を除去する過程を説明する。
図８では、ガイダンス音声信号として「行き先をどうぞ」と出力されている環境下において、使用者はガイダンス音声信号が終了するのを待たずに「横浜市港南区」と入力してしまった場合を想定している。

このとき音声認識手段１（１１０）および音声認識手段２（１４０）の語彙に関する辞書７３０は「県名＋市区町村名」が入力できるように設定されているものとする。このため、音声認識手段１によって得られた入力音声の認識結果、すなわち連接語彙候補１（８４０）は、認識された尤度が高い順に、
１．横浜市青葉区
２．横浜市港南区
３．横須賀市
であるとする。

一方、音声認識手段２（１４０）によって得られたガイダンス音声信号の認識結果、すなわち連接語彙候補２（８５０）は、認識された尤度が高い順に、
１．仙台市泉区
４．仙台市青葉区
５．仙台市大田区
となったとする。このとき、連接語彙候補１（８４０）と連接語彙候補２（８５０）の内容を比較すると、連接語彙候補１（８４０）で最大尤度として認識された「横浜市青葉区」の「青葉区」の部分と、連接語彙候補２（８５０）で２番目に高い尤度として認識された「仙台市青葉区」の「青葉区」の部分とが共通している。そこで、図１の除去手段１５０においては連接語彙候補１（８４０）の内容から「横浜市青葉区」を除く。このとき更新された連接語彙候補１（８４０）の内容は
２．横浜市港南区
３．横須賀市
となることがわかる。更に残った２つの連接語彙候補の中から、例えば尤度が高い語彙を選択して認識信号Ｒ１００（８６０）とする。２つの連接語彙候補の中では「横浜市港南区」のほうが高い尤度を持つとすると、認識信号Ｒ１００（８６０）は「横浜市港南区」となる。

以上は、部分的に共通する語彙の除去について述べたが、これは部分的な形態素についても適用することが出来る。

（実施の形態６）
以下では、図９により音声認識手段１（１１０）および音声認識手段２(１４０)で抽出された音素列で共通するものを除去する過程を説明する。
図９は本実施の形態６の基本構成を示すブロック図であり、本実施の形態６においてもその基本的装置構成の一例は図２で示したものと同じ構成で実現することが出来る。

図９の１１０で示す音声認識手段１は、入力された音の内容を分析し、音素列を含む認識信号１に変換する。認識信号１は複数の音素列候補を有している。認識信号１は図９の１５０で示す除去手段に送出される。
図９の１４０で示す音声認識手段２は、図９の１２０で示す音出力手段から送出された離散的な信号の内容を分析し、音素列を含む認識信号２に変換する。このとき認識信号２は複数の音素列候補を有している。

図９の１５０で示す除去手段は、図９の１１０で示す音声認識手段１から得られた認識信号１と図９の１４０で示す音声認識手段２から得られた認識信号２とについて、２つの信号の音素列が部分的に一致する音素列を有する音素列候補を認識信号１から除去し、残りの音素列候補を認識信号３として音声認識手段１（１１０）に送出する。

図９の１１０で示す音声認識手段１は図９の１５０で示す除去手段から受け取った音素列候補、すなわち認識信号３を語彙候補または連接語彙候補に変換し、更に、これら候補の中から最も適当な語彙または連接語彙を認識信号Ｒ１００として車載機器の制御用として出力する。

次に、図１０を用いて、図９に示す除去手段１５０がガイダンス音声に含まれる語彙を除去する過程を説明する。
図１０では、ガイダンス音声として「行き先をどうぞ」と出力されている環境下において、使用者はガイダンス音声が終了するのを待たずに「神奈川県」と入力してしまった場合を想定している。

このとき音声認識手段１（１１０）によって得られた入力された音声の音素辞書１０３０における認識結果（音素列候補１とする）は、認識された尤度が高い順に、
１．tottoriken
２．kanagawaken
３．kagawaken
である。

一方、音声認識手段２（１４０）によって得られたガイダンス音声信号の音素認識の結果（音素列候補２とする）は、認識された尤度が高い順に、
１．ichinoseki
２．toride
３．sakite
となったとする。このとき、音素列候補１と音素列候補２の内容を比較すると、音素列候補１で最大尤度をもつ「tottori」と、音素列候補２で２番目に尤度の高い「toride」の「tori」の部分が共通音素であることがわかる。なお、ここで、入力された音声用およびガイダンス音声信号用それぞれの音素辞書を共通としておけば比較の精度を向上するのに有用である。この音素辞書は音声信号に含まれる音響的な音素（音響素片）情報と音素の接続に関する情報とが記録されている。そこで、図１の除去手段１５０は音素列候補１の内容から「tori」を含む列である「tottori」を除く。音声認識手段１（１１０）では「tori」を除いた結果である認識信号３である、
１．kanagawaken
２．kagawaken
を更に言語辞書１０４０による分析を用いて、
１．神奈川県
２．香川県
に変換し、最後に残った２つの語彙候補の中から、例えば尤度が高い語彙を選択して認識信号Ｒ１００とする。２つの語彙候補の中では「神奈川県」のほうが高い尤度をもつとすれば、認識信号Ｒ１００は「神奈川県」となる。

（実施の形態７）
以上述べた、(実施の形態３)から（実施の形態６）までの動作では、音声認識手段１（１１０）で候補となった音素、語彙、連接語彙がすべて消えてしまう場合がある。このようなときは音声認識手段２（１４０）および除去手段１５０の動作をさせないことで、認識結果が得られなくなることを避けることができる。

（実施の形態８）
また、図１１の評価手段１７０はガイダンス音声信号を検出する検出手段としての機能を有しており、外部信号Ｒ１１０に含まれるガイダンス音声信号が出力されていないことが評価手段１７０において検出された場合には、音声認識手段２（１４０）および除去手段１５０の動作を停止し、音声認識手段１（１１０）のみで音声認識処理が実行される。

（実施の形態９）
マイク１２１から入力された音声がガイダンス音声信号より著しく大きいときは音声認識手段２（１４０）および除去手段１５０を動作させる必要はない。この動作の可否は、簡易的にガイダンス音声信号の音圧と入力された音声信号との音圧比を代用特性として図１１における評価手段１７０で求め、この出力が予め定められた閾値を越えたところで入力された音声が十分に大きいとして除去手段１５０および音声認識手段２（１４０）に送出し、これら回路の動作を停止させることができる。

以上述べた全ての実施の形態において、音声認識手段１（１１０）にはスピーカ手段１２１から発せられたガイダンス音声が音入力手段１００に音響的に回り込んで使用者の発話に混入したものであり、音声認識手段２（１４０）においてはガイダンス音声信号のみが認識されている。すなわち、これら両音声認識手段に入力されているガイダンス音声信号は同じ内容のものであり、したがって、これら両音声認識手段において、ガイダンス音声の認識処理は同じタイミングで動作しなければならない。これは、これら両手段の間で音声認識の時間的区間をあわせ、これによりクロストーク信号の区間を一致させる必要があるためである。

（実施の形態１０）
本実施の形態１０においては、図１２および図２を用いて、前記本発明と音響エコーキャンセラとを組み合わせた時の構成について説明する。図１２は本実施の形態１０に対応するブロック図である。
図１２の１９０で示すエコーキャンセラ手段は、例えば、図１３に示すような構成にすればよい。すなわち、マイクロホン２００にはガイダンス音声信号｛ｙ(ｔ)｝と、使用者の発話信号｛ｘ(ｔ)｝とが混在した信号が入力される。ここで、ガイダンス音声信号はスピーカ１２１から空間を経由してマイクロホン２００で集音される。この伝達系をｈ＾(ｔ)とすれば（ここで＾は図１３に記載の通りｈの上に記載されたものと同一の内容を示す）、結局、マイクロホン２００への入力信号は
ｘ(ｔ)＋ｙ(ｔ)＊ｈ＾(ｔ) （１）
で与えられる。一方、ガイダンス音声信号ｙ(ｔ)は上記伝達系に近い特性、ｈ(ｔ)≒ｈ＾(ｔ)、を有する適応フィルタ１３０１を経由して
ｙ(ｔ)×ｈ(ｔ) （２）
となり、減算器１３０２に供給される。減算器１３０２では（１）式−（２）式の減算処理が行われ、所望の出力信号ｘ＾(ｔ)を得る。適応フィルタ１３０１はこの出力信号ｘ＾(ｔ)に応じて特性が変化する。
ここで、図１３におけるガイダンス音声信号ｙ(ｔ)は図１２では音出力手段１２０の出力がパス１を経て信号ＳＩＧとなる信号に相当するものであり、出力信号ｘ＾(ｔ)は音声認識手段１に入力される。

図１２の１８０で示す変換手段では、１２０で示す音出力手段から得られるガイダンス音声信号を、１９０で示すエコーキャンセラ手段による背景音除去後の信号と音出力手段１２０出力との差分を求めて除去誤り信号となるように変換する。この除去誤り信号は言わば消し残り成分で、図１３における適応フィルタの特性の近似誤差、すなわち、ｈ＾(ｔ)−ｈ(ｔ)で表わされる。これが図１２における変換手段１８０の出力となり、音声認識手段２（１４０）を経由して除去手段１５０に入力され、音声認識手段１（１１０）出力の認識結果から減算される。この変換手段は、図２の２４０で示す演算装置と２５０で示す記憶装置とを用いることで実現できる。

上記のように、エコーキャンセラ１９０と組み合わせることにより、音入力手段１００でのエコー成分（すなわちガイダンス音声信号成分）を除去し、音声認識手段1（１１０）および音声認識手段２（１４０）においてタイミングの合致した信号についてガイダンス音声信号の除去精度を向上することが出来るようになる。

（実施の形態１１）
前記特許文献２で示された音場制御の手法を本発明の構成に組み合わせることにより、ガイダンス音声信号の除去効果を向上することが出来る。図１４にこの場合の構成を示す。
図１４において、１９５で示す抑圧手段は、マイクロホン２００周辺の空間に存在する背景音（ガイダンス音声）を打ち消すように、スピーカ手段１２１で出力してガイダンス音声を制御する。これは、図８の２４０で示す演算装置と２５０で示す記憶装置を用いることで実現できる。

図１４における変換手段１８０においては、抑圧手段１９５からの出力信号と音入力手段１００からのマイクロホン周辺に存在する背景音（ガイダンス音）成分とから抑圧誤り信号を予測し、これを音声認識手段に出力する処理が行われる。ここで、抑圧誤り信号は実施の形態１０における除去誤り信号に対応するもので、本実施の形態１１においてはマイクロホン２００近辺の空間におけるガイダンス音声信号成分が消音制御により抑圧するようにスピーカ１２１の出力を調整することから異なる名称を使用している。

（実施の形態１２）
上記のようにエコーキャンセラと組み合わせて使用した場合は、音声認識手段１（１１０）に音声信号が入力された時点で、すでにクロストークが十分除去されている場合もある。このため、図１５で示すように「実施の形態９；図１１」で述べた評価手段１７０を挿入して、クロストークが十分除去されている場合には音声認識手段２（１４０）および除去手段１５０を動作させないことも必要となる。評価手段１７０によるクロストークの除去量に関する評価手法としては、例えば、ガイダンス音声信号と、当該エコーキャンセラ手段１９０によってクロストークが除去され入力された音声との相関値を計算することで評価は可能である。

（実施の形態１３）
図１６に、使用者が音声入力タイミングを指定するためのＰＴＴ（Push To Talk）スイッチを用いた構成を示す。
図１６の１０５で示すスイッチ手段は図２の２６０で示す入力装置に相当し、具体的にはタッチパネル、キーボード、ジョグダイアル、その他、各種スイッチを単独、或いは組み合わせて用い、使用者が音声入力を意図したときに入力操作を行うことで、音声認識に関連する機能、例えば、音声認識手段１（１１０）および音声認識手段２（１４０）を動作させる。
本実施の形態１３のようにスイッチ手段１０５を導入することで、音声認識手段１（１１０）と音声認識手段２（１４０）におけるガイダンス音声信号に関する信号の同期が可能となる。

なお、実施の形態２における構成においては、実施の形態５あるいは実施の形態６で述べた単語や音素列の部分一致を調べて除去する手法との組合せも有効である。

本発明第１の基本構成を示すブロック図。図１の基本構成を実現する回路構成を示す装置構成図。図１に示す構成の信号処理動作を示すフロー図。本発明第２の基本構成を示すブロック図。図４に示す構成の信号処理動作を示すフロー図。ガイダンス音声未知の場合の信号処理系統図。連接語彙除去を行う信号処理系統図。図１の構成で語彙を除去する過程を示す信号処理系統図。音素列による背景音除去法を示すブロック図。図９における語彙除去の過程を示す信号処理系統図。実施の形態８の場合の音声認識を行う構成を示すブロック図。エコーキャンセラを用いた背景音除去の構成を示すブロック図。エコーキャンセラの原理を示す基本構成図。音場制御を用いた背景音除去を行う構成のブロック図。エコーキャンセラを用いた背景音除去の他の構成を示すブロック図。スイッチ手段を導入した背景音除去の構成を示すブロック図。

符号の説明

１００：音入力手段１０５：スイッチ手段
１１０：音声認識手段１１２０：音出力手段
１２１：スピーカ手段１４０：音声認識手段２
１５０：除去手段１６０：記憶装置
１７０：評価手段１８０：変換手段
１９０：エコーキャンセラ手段１９５：抑圧手段
２００：マイクロホン２１０：増幅装置
２２０：ＡＤ変換装置２３０：音出力装置
２３１：スピーカ２４０：演算装置
２５０：記憶装置２６０：入力装置
６３０：県名辞書６４０：認識語彙候補１
６５０：認識語彙候補２
６６０、７６０、８６０、１０５０：認識信号Ｒ１００
７３０：県名・市区町村名辞書７４０、８４０：連接語彙候補１
７５０、８５０：連接語彙候補２１０３０：音素辞書
１０４０：言語辞書１３０１：適応フィルタ
１３０２：減算器

Claims

使用者の音声を入力し、電気信号である音声信号に変換する音入力手段と、
前記入力された音声信号を認識し、且つ第１の認識信号として送出する第１の音声認識手段と、
前記使用者に対し音楽、音声情報、警報音を含むガイダンス音声信号を出力する音出力手段と、
前記音出力手段のガイダンス音声信号を音声に変換するスピーカ手段と、
前記ガイダンス音声信号を認識し、且つ第２の認識信号として送出する第２の音声認識手段と、
該第２の音声認識手段によって認識された前記第２の認識信号に関する内容を前記第１の音声認識手段によって認識された前記第１の認識信号の内容から除去する除去手段と、を有してなり、
前記第１の音声認識手段および第２の音声認識手段は、
前記使用者により入力された音声信号における認識対象語彙および語彙の接続に関する情報を記録した共通の辞書を有すること、
を特徴とする音声認識装置。
使用者の音声を入力し、電気信号である音声信号に変換する音入力手段と、
前記入力された音声信号を認識し、且つ第１の認識信号として送出する第１の音声認識手段と、
前記使用者に対し音楽、音声情報、警報音を含むガイダンス音声信号を出力する音出力手段と、
前記音出力手段のガイダンス音声信号を音声に変換するスピーカ手段と、
前記ガイダンス音声信号を認識し、且つ第２の認識信号として送出する第２の音声認識手段と、
該第２の音声認識手段によって認識された前記第２の認識信号に関する内容を前記第１の音声認識手段によって認識された前記第１の認識信号の内容から除去する除去手段と、を有してなり、
前記第１の音声認識手段および前記第２の音声認識手段は、
音響的な音素情報と音素の接続に関する情報とを記録した共通の辞書を有すること、
を特徴とする音声認識装置。
請求項１または請求項２に記載の音声認識装置において、
音響的な回り込み信号を除去する音響的なエコーキャンセラを備え、
該エコーキャンセラの一方の入力は前記音声入力手段の出力に、また他方の入力は前記音出力手段の出力に接続され、
該エコーキャンセラの出力の一方は前記第１の音声認識手段に接続され、該エコーキャンセラの他方の出力は変換手段の入力に接続されており、該変換手段においては前記エコーキャンセラ手段によって前記ガイダンス音声信号が除去された信号をと前記音出力手段の出力とから除去誤り信号に変換し、さらに前記第２の音声認識手段に送出すること
を特徴とする音声認識装置。
請求項１または請求項２に記載の音声認識装置において、
音響的な回り込み信号を前記音入力手段のマイクロホン位置で抑圧する抑圧手段と、
前記音入力手段を介して入力される音響空間的な回り込み信号が抑圧された信号から抑圧誤り信号に変換する変換手段と、
該抑圧手段の入力は前記音出力手段の出力に接続され、
該抑圧手段の一方の出力は前記スピーカ手段に、他の一方の出力は前記変換手段の一方の入力に接続され、
前記音入力手段の出力は前記第１の音声認識手段の入力と、前記変換手段の他方の入力とにそれぞれ接続されていること
を特徴とする音声認識装置。
請求項１乃至請求項４の何れかに記載の音声認識装置において、
前記使用者が発話タイミングを入力するスイッチ手段を有すること、
を特徴とする音声認識装置。
請求項５に記載の音声認識装置において、
前記使用者が発話タイミングを前記スイッチ手段により入力した後、同時に、前記第１の音声認識手段および前記第２の音声認識手段における認識処理を開始すること
を特徴とする音声認識装置。
使用者の音声入力を、電気信号である音声信号に音声入力手段により変換し、
前記入力された音声信号を第１の音声認識手段により認識し、且つ第１の認識信号として送出し、
前記使用者に対し音楽、音声情報、警報音を含むガイダンス音声信号を音出力手段により出力し、
前記音出力手段のガイダンス音声信号をスピーカ手段により音声に変換し、
前記ガイダンス音声信号を第２の音声認識手段により認識し、且つ第２の認識信号として送出し、
該第２の音声認識手段によって認識された前記第２の認識信号に関する内容を前記第１の音声認識手段によって認識された前記第１の認識信号の内容から除去手段により除去し、
前記第１の音声認識手段および第２の音声認識手段による処理は、
前記使用者により入力された音声信号における認識対象語彙および語彙の接続に関する情報を記録した共通の辞書を使用すること、
を特徴とする音声認識方法。
使用者の音声入力を、電気信号である音声信号に音声入力手段により変換し、
前記入力された音声信号を第１の音声認識手段により認識し、且つ第１の認識信号として送出し、
前記使用者に対し音楽、音声情報、警報音を含むガイダンス音声信号を音出力手段により出力し、
前記音出力手段のガイダンス音声信号をスピーカ手段により音声に変換し、
前記ガイダンス音声信号を第２の音声認識手段により認識し、且つ第２の認識信号として送出し、
該第２の音声認識手段によって認識された前記第２の認識信号に関する内容を前記第１の音声認識手段によって認識された前記第１の認識信号の内容から除去手段により除去し、
前記第１の音声認識手段および前記第２の音声認識手段による処理は、
音響的な音素情報と音素の接続に関する情報とを記録した共通の辞書を使用すること、
を特徴とする音声認識方法。
請求項７または請求項８に記載の音声認識方法において、
音響的な回り込み信号をエコーキャンセラにより除去し、
該エコーキャンセラの一方の入力には前記音声入力手段からの信号を入力し、また他方の入力には前記音出力手段からの信号を入力し、
該エコーキャンセラの出力の一方は前記第１の音声認識手段に入力され、該エコーキャンセラの他方の出力は変換手段に入力されており、該変換手段においては前記エコーキャンセラ手段によって前記ガイダンス音声信号が除去された信号と、前記音出力手段の出力とから除去誤り信号に変換され、この変換結果を前記第２の音声認識手段に送出すること
を特徴とする音声認識方法。
請求項７または請求項８に記載の音声認識方法において、
音響的な回り込み信号を抑圧手段により前記音入力手段のマイクロホン位置で抑圧し、
前記音入力手段を介して入力される音響的な回り込み信号を変換手段により抑圧誤り信号に変換し、
前記音出力手段の出力を該抑圧手段に入力し、
該抑圧手段の一方の出力は前記スピーカ手段に入力し、他の一方の出力は前記変換手段の一方の入力に入力し、
前記音入力手段の出力は前記第１の音声認識手段の入力と、前記変換手段の他方の入力とにそれぞれ入力すること
を特徴とする音声認識方法。
請求項７乃至請求項９の何れかに記載の音声認識方法において、
前記使用者が発話タイミングを入力するスイッチ手段により発生させること、を特徴とする音声認識方法。
請求項７乃至請求項１０の何れかに記載の音声認識装置において、
前記使用者が発話タイミングを前記スイッチ手段により入力したとき前記第１の音声認識手段および前記第２の音声認識手段における認識処理を開始すること
を特徴とする音声認識方法。