JP2008275881A

JP2008275881A - 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム

Info

Publication number: JP2008275881A
Application number: JP2007119194A
Authority: JP
Inventors: Takashi Fukuda; 隆福田; Osamu Ichikawa; 治市川; Masafumi Nishimura; 雅史西村
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2007-04-27
Filing date: 2007-04-27
Publication date: 2008-11-13
Anticipated expiration: 2027-04-27
Also published as: US20080270131A1; JP5156260B2; US8712770B2

Abstract

【課題】一般的な音声認識装置は、雑音や目的話者以外が発声する妨害音声によって著しく性能が低下する。大規模なマイクロフォンアレイや雑音の参照信号を必要とすることなく、雑音環境下で目的話者の音声のみを抽出する。
【解決手段】マイクロホン等から得られる２チャンネルの入力音声についての処理として、スペクトラム・サブトラクション (ＳＳ：Spectrum Subtraction)処理とフロアリング（Flooring）処理との間で利得調整を行うことだけによって、実用的な音声認識性能を実現する。利得調整としては、ＣＳＰ (Cross-power Spectrum Phase：クロス・パワー・スペクトラム・フェーズ) 係数という２チャンネル信号間の相互相関関係を利用できる。オーディオ背景音などが存在する車の室内環境において、カーナビゲーションシステムにおける音声コマンドの認識率を向上させ、ドライバーなど発話者のユーザビリティを向上させる。
【選択図】図３

Description

本発明は、音声認識技術、特に目的話者の音声を認識するにあたっての前処理の技術に関するものであり、より具体的には、雑音のある環境下で雑音を除去して目的音を抽出するための技術に関する。

近年、ユーザビリティの向上を目指し、雑音のある環境下において目的音を抽出する音声処理が必要とされる場面が多くなってきている。

その代表的な例として、音声認識を介した車載のカーナビゲーションシステムの操作がある。ドライバーが、マイクロホンの存在をそれほど意識することなく、運転席に座ったままでドライバーの肉声として発するコマンド等を通じてハンズフリーで操作を指示できれば、ドライバーが前方から視線を外すことなく運転に集中することができるため、ドライバーの安全に資することができる。

音声認識の利用形態は、発話区間検出(ＶＡＤ: Voice Activity Detection)という観点から (1) Push to Talk 方式、(2) Push to Activate 方式、(3) Always Listening 方式という３種類の方式に分けることができる。このうち、カーナビゲーションシステムでは、性能とユーザビリティとのバランスから(2) Push to Activate 方式が広く採用されている。(2) Push to Activate 方式は、まずトークスイッチを押して発話の開始をシステムに知らせてから、音声コマンドを発声する方法である。発話の終了はシステムの側で自動的に検出する。

現状での音声認識を搭載した一般的なカーナビゲーションシステムでは、認識性能と発話区間（発話終端）検出性能を維持するため、トークスイッチを押すことで演奏中のオーディオがストップし、音声認識のための静かな室内環境を作り出すようになっている。この際、助手席などに座っている同乗者も一旦は会話をやめて、物音を立てないように静かに我慢している必要がある。ドライバーや同乗者にとっては、音声認識のためにせっかくの音楽が止まってしまったり、我慢して静かに待ち構えていなければならないことは不快であってユーザビリティの観点から好ましいものであるとは言えず、車室内の音響環境を変えない状態でも実用に耐え得るような、ミューティング(Muting)を必要としない(3) Always Listening 方式に相当するような音声認識が要望されている。

車内でミューティング(Muting)を行うことなく音声認識を利用しようとすると、まず考えられる取り組みとして、エコーキャンセラによって演奏中のオーディオ音声を除去する取り組みがある。しかし、このような取り組みは、大負荷の信号処理を必要とし、専用のハードウェアや参照入力の配線群も必要となってくるなど、車載機器メーカまたは自動車メーカの負担が大きかった。

一方、ドライバーを目的話者に設定して、ドライバーが発話するコマンドを目的音声としてカーナビゲーションシステムに認識させようとする場合、助手席や後部席に座っている同乗者の声による誤動作を防ぐことが可能な、独立成分分析(ICA)や適応型ビームフォーマといった方法が提案されている。しかし、実用的に十分な性能を得ようとすると、多大な計算資源を必要としたり、雑音源の数をあらかじめ指定する（マイクロホンの数は雑音源より多くする）必要がある。

これらに対して、ＣＳＰ (Cross-power Spectrum Phase：クロス・パワー・スペクトラム・フェーズ) 係数という２チャンネル信号の相互相関関係を利用して音声スペクトルの利得調整を行う方法は、処理計算量が少なく、期待しない方向からの音声を効率的に除去できることから、有望な方法として期待されている。しかし、その他の雑音除去技術との併用が十分に検討されてこなかったこともあって、ＣＳＰを利用した従来法では、車内での実環境においては、実用的に十分な認識性能が引き出せるには至っていない。

例えば、以下の非特許文献１においては雑音処理技術とFlooing処理との関係について言及しておらず、非特許文献２においても利得調整については提案されていない。非特許文献３、非特許文献４は、ハンズフリー音声認識やＣＳＰ法の背景技術として列挙するものである。
「相関係数に基づいた音声検出と音声強調に関する検討」永田仁史，藤岡豊太，安倍正人（岩手大学工学部情報システム工学科），電子情報通信学会技術研究報告，音声研究会，SP2002-165，pp.25-31 (2003-01) 「Weighted CSP 法と零交差検出法に基づくハンズフリー発話区間検出の検討」田中貴雅，傳田遊亀，中山雅人，西浦敬信（立命館大），日本音響学会講演論文集，1-2-13，pp25-26 (2006-09) 「マイクロフォンアレイとカルマンフィルタによる実環境下でのハンズフリー音声認識 − 対話型テレビのフロントエンドシステムの構築 −」藤本雅清有木康雄（龍谷大学大学院理工学研究科）、第4回DSPS教育者会議，pp.55-58 (2002-08) 「帯域分割型ＣＳＰ法に基づく話者位置推定法の検討」傳田遊亀西浦敬信河原英紀入野俊夫（和歌山大学大学院システム工学研究科立命館大学情報理工学部）, 電子情報通信学会技術研究報告，音声研究会，NLC2004-69，pp.79-84 SP2004-109 (2004-12)

エコーキャンセラのような特別なハードウェアや配線群を必要としない環境で、低コストで実用的な音声認識性能を実現することが望まれる。

本発明によれば、前記２つの入力音声に基いた利得調整という処理手順を、代表的な雑音除去手法であるSpectrum Subtraction (ＳＳ)処理とFlooring処理とを組み合わせた処理手順に結び付けている。具体的には、ＳＳ処理とFlooring処理との間で利得調整を行う。このことによって、ハードウェアとして少なくとも２つの音声入力器が提供されればそれ以上必要なく、ソフトウェアの処理として低コストに実用的な音声認識性能を実現することができる。

もとより、従来からＣＳＰ係数を利用する利得調整の手法は「処理計算量が少なくて済む」というメリットを持っていることが手伝って、以下の（１）〜（３）のことが可能となる。

（１）実用的な性能を保ちながら、ソフトウェア処理によって実装可能な車載オーディオや同乗者等による妨害音声を除去する装置（雑音除去装置）が実現できる。

（２）ソフトウェア処理で指向性を形成することが可能となり、たとえば、認識部との関係でのライブラリとしてのプログラムとして、すなわち目的音声を抽出する前処理のプログラムとして、それ自体を独立して提供することが可能となる。全体として、音声認識プログラム、音声認識システムが構築される。

（３）ハードウェアとしては、少なくとも２つの音声入力器（代表的には、マイクロホン）が提供されれば足りることになる。例えば、カーナビゲーションシステムのハードウェアとして既に１つの音声入力器（マイクロホン）が利用可能になっていれば、ハードウェアとしてはさらにもう一つの音声入力器（マイクロホン）を追加するだけで足りることになり、専用のハードウェアを開発しないで済むために、開発コストを大幅に節減することができる。

図１は、本発明が適用される音声認識システムの構成図である。音声認識システム１０の主たる構成としては、前処理部１００と認識部２００とに分けることができ、それぞれの部は、前処理としての機能と、実際に音声認識をする機能とを果たすように、図示のように結合されている。マイクロホン１およびマイクロホン２から到来する入力音声は、各々、高速フーリエ変換（ＦＦＴ）によって周波数領域に変換され、前処理部１００でＳＳによる雑音除去とＣＳＰ係数による利得調整が行われ、その処理された結果が認識部２００に入力される。認識部２００において音声認識用の特徴量が抽出されて、参照パターンとの間でのパターンマッチングを通じて、最終的には音声認識結果が出力される。本発明が適用されるのは、前処理部１００である。

本発明の効果は、最終的に認識部２００を通してから得られる音声認識結果によって評価される。しかし、前処理部１００の存在だけをもってしても、雑音のある環境下で雑音を除去するという目的、見方を変えると、目的音を抽出するという目的は達成できている。よって、前処理部１００の存在だけをもってしても、これらの目的を達成できる特長があるので、包括的な意味で音声認識システム１０を構成していると言うことができ、音声認識方法を実現していると言うことができる。

図２は、従来法と本発明との処理手順を比較する処理フロー図である。従来法のフローにおいては，（ＣＳＰ係数による）利得調整の結果をそのまま認識部２００に入力する。一方で、本発明においては、代表的な雑音除去手法であるＳＳ（Spectrum Subtraction：スペクトラム・サブトラクション）処理の後、（ＣＳＰ係数による）利得調整を行って、最後にフロアリング(Flooring)処理をするという処理手順を採用してから、認識部２００に入力する。

本発明の重要なポイントは、図２に示すように，ＳＳ処理 → （ＣＳＰ係数による）利得調整 → Flooring処理という処理手順である。本来、Flooring処理はＳＳ処理で減算しすぎたスペクトルを補うための処理として位置付けられており、ＳＳ処理 → Flooring処理というペアの流れで処理されるのが一般的である。しかし、本発明においてはＳＳ処理とFlooring処理との間において（ＣＳＰ係数による）利得調整を行うということが非常に重要なポイントとなっている。そもそも、従来技術においては、その他の雑音除去技術との関係を深く検討した例はない。

図３は、本発明の詳細な処理手順の処理フロー図である。例えば、ＣＳＰ係数算出１１０というブロック表現は、本発明の方法においては処理ブロックの単位であり、本発明のシステムにおいてはそれぞれが接続されていて機能を実現する部（セクション）であり、本発明のプログラムにおいては方法をシステム（コンピュータシステム、ナビゲーションシステム）に実行されるコードまたは命令等の単位として体現され得る。

まず、２つの音声入力器であるマイクロホン１およびマイクロホン２を通じて２チャンネルの信号として得られる入力音声は、各々、高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）によって処理され、周波数領域に変換される。

次に、処理された入力音声は、遅延和アレイ処理１２０で強調することで目的話者の方向に対して指向性を形成することもできる。

遅延和アレイ処理１２０では、θ方向から到来する信号を少なくとも２つのマイクロホンで受音して、それぞれを同相化して加算することにより、θ方向から到来する信号を強調するものである。よって、θ方向以外から到来する信号は、同相化されないために強調されない。よって、θ方向に感度が高く、それ以外の方向に感度が低いという指向性を形成することができる。

遅延和アレイ処理１２０の代わりにも、適応型アレイ処理で雑音や残響の方向に対して死角を形成することもできる。さらには、その他のアレイ処理によって代替してもかまわない。また、これらのアレイ処理を省略して、すなわち素通りさせて、２つの音声入力器で得られる音声のうち、どちらか片方の信号そのままを利用することもできる。

次に、次式に示すＳＳ（スペクトルサブトラクション）処理１４０に進んで雑音をさらに取り除く。

この数式１で、Xω(Ｔ)はＳＳ処理前のパワースペクトル，Yω(Ｔ) はＳＳ処理後のパワースペクトルすなわち減算後パワースペクトル，Uωは雑音のパワースペクトルである。このUωについては、雑音区間すなわち目的話者の非発話区間で推定されるものであって、事前に推定して固定的に使ってもよいし、入力音声と同時に逐次推定（更新）してもよいし、もしくは、一定時間間隔で推定（更新）してもよい。

すなわち、２つの入力信号の両方についてアレイ処理で統合された信号、もしくは２つの入力信号の何れか一方であるXω(Ｔ)は、雑音推定１３０に入力され、雑音のパワースペクトルUωが推定される。αは任意の減算定数であり、１に近い値(例えば、0.90など)が選択されることが多いであろうが、任意の値をとることができる。

その後、次式で求まるＣＳＰ係数を用いて利得調整（音声強調）１５０をする。ＣＳＰ係数の算出については、ＣＳＰ係数算出１１０を通じて並行して計算を進めておくことができる。かかる利得調整は、目的話者の発話区間検出の処理をしていることにも相当している。

この数式２で、φ(i,Ｔ) は１番目と２番目の音声入力器（マイクロホン）に入力された音声から求めたＣＳＰ係数、iは音声の到来方向(ＤＯＡ： Direction Of Arrival)であって、角度指標である。tは離散時間である。s1 (t)と s2 (t)はそれぞれ時刻tに受音した１番目と２番目との音声入力器（マイクロホン）の信号である。かかるＣＳＰ係数の算出では、２チャンネル信号間の位相情報を使用することで、信号のスペクトル特性に依存しない正確な到来方向の推定ができる。

利得調整（音声強調）は次式のとおりである．ＳＳ処理後の減算スペクトルYω(Ｔ) にＣＳＰ係数を掛けることで行う。

この数式３で、Dω(Ｔ)は利得調整後のパワースペクトルである。目的話者が発話していないときはＣＳＰ係数が小さくなるので、到来方向以外からの音声のパワースペクトルはこの処理により抑圧されることになる。この式が示すように「利得調整」を行うことができれば、本発明の技術的思想は、何もＣＳＰ係数を利用したものだけに限定されるものではないことが理解できる。

図４は、車の室内における空間的位置関係を示す上面図である。

iが示す音声の到来方向（角度指標）については、車の室内空間においては、ドライバー、同乗者（助手席、後部席）の各位置はほぼ決まっており、ドライバーを目的話者とすると、ドライバーとしての定位置である運転席からコマンド等を発話する場合が普通である。従って、システム上では数式２、３に示す目的話者の音声到来方向 iを固定した上で、ＣＳＰ係数による利得調整を行う。すなわち、目的話者と音声入力器（マイクロホン）との位置関係から、音声到来方向については目的話者の発話方向に狙いをつけるべく、あらかじめ話者位置を考慮した室内空間デザインとして最適化できる。マイクロホンの種類（指向性マイクロホン、無指向性マイクロホン）を問わず、目的話者の方向に指向性を形成することができる。

かかる空間的位置関係は、以下の数式４または数式５に従って、リアルタイムに話者位置を推定することもできる。

これら数式４または数式５で、τは１番目と２番目の音声入力器（マイクロホン）への音声の到来時間差、kは離散時間、cは音速、dは１番目の音声入力器（マイクロホン）と２番目の音声入力器（マイクロホン）との間の距離、Fsはサンプリング周波数、θは音声の到来方向とマイクロホンペアがなす角度、である。

すなわち、マイクロホンと目的話者（より詳細には、人体の発声器官として関わってくる、目的話者の口、鼻、声帯など）との空間的位置関係において、予め固定的に指向性を形成しておくことが可能である。空間中の少なくとも２つの異なる箇所に設置された音声入力器（１，２）であるマイクロホンペアによって２つの入力音声が得られればよく、２次元的に指向性を形成してあれば実用上は十分であるため、図４における紙面の奥行き方向の影響についての説明は省略する。

車のユーザビリティに柔軟性をもたせるべく、例えば、ドライバーが自分の体型にあわせて座席を倒したり起こしたりする座席位置調整との関係で、車の室内空間におけるマイクロホンとの間の相対的な位置関係がずれてしまうことに対応して、当業者であれば適宜ソフトウエア的に事後調整を行っていくことも可能であろう。

そして最後にフロアリング(Flooring)処理１６０を行う。Flooring処理とは、以下の数式に従った操作のことを指す。

この数式６で、Zω(T)はFlooring処理後の認識用パワースペクトル、Uωは雑音のパワースペクトルであって、Uωとしては、数式１で用いるものと同様のものを利用できるが、他の方法で推定した異なったものを利用してもよい。数式６が示すように、Uωは条件判断のためだけに用いられることもある。フロアリング係数(Flooring係数)βは任意の値を持つ定数であり、０（ゼロ）に近い値(例えば、0.10など)が選択されることが多いであろうが、任意の値をとることができる。

助手席妨害話者に対する頑健性について
車内の室内空間でのカーナビゲーションシステムの使用を想定して、本発明について、音声コマンドの音声認識についての単語誤り率を測定する実験を行った。実験条件は、表１の通りである。

図５は、目的話者、妨害話者、２つの音声入力器（マイクロホン）との空間的位置関係および実験条件を示す模式図である。実験条件とその認識結果（単語誤り率）は表２に示す。

ここで、Case１は目的話者（ドライバー）のみが発話している場合、Case2は目的話者の発話終了と同時に妨害話者（助手席の同乗者）が発話する場合、Case3は目的話者と妨害話者が同時に発話する場合である。目的話者は連続する数字（１５４０８・・・）を発話し、妨害話者からは日常会話（例えば、「今日は暑いね」など）を発話する。

Case2やCase3は妨害話者の発話の影響で発話終端検出が難しい場合であって、助手席側マイクロホンのみ、運転席側マイクロホンのみ、というように単独のマイクロホンのみを使う場合には、認識性能が極端に悪くなってしまうことがわかる。表２の結果が示しているように、助手席側マイクロホンと運転席側マイクロホンとを利用する本発明による性能改善の効果は極めて大きい。

DVD 5.1chオーディオに対する頑健性について
停車中（アイドリング状態で、エアコンをオンにした状態）の車内において、DVD 5.1chオーディオが背景音として流れている状態を想定して、４名の話者によりカーナビゲーションシステムを操作するための５０種類の音声コマンドを発話収録し、音声認識させる実験を行った。実験結果（コマンド認識率）を表３に示す。表中の「ＳＳのみ」という項目は、２つのマイクロホンによる発話区間処理および利得調整は行わずに、従来のスペクトルサブトラクション（ＳＳ）法により雑音除去処理を行った場合のコマンド認識率の結果である。ここでも本発明の実用的に高い効果を伺うことができる。

処理する手順の比較について
本発明では、ＳＳ処理 → ＣＳＰによる利得調整 → Flooring処理の順で処理を行うことが重要なポイントであることを説明した。ここでは、処理順番の違いによる性能の差を比較するため、表４のように、ＳＳ処理 → Flooring処理 → ＣＳＰによる利得調整、およびＣＳＰによる利得調整→ ＳＳ処理 → Flooring処理としたときの実験を行った。表４に実験結果（コマンド認識率）を示す。表からわかるように、ＳＳ処理 → ＣＳＰによる利得調整 → Flooring処理の順で処理したときに飛びぬけて高い性能を示し、この順番に処理するという手順が重要であることがわかる。

このような処理手順が飛びぬけて高い性能を示す理由として、図６の（ａ）（ｂ）（ｃ）（ｄ）で示すような模式図による説明が考えられる。何れも雑音区間（目的話者の非発話区間）の例を示すものであって、（ａ）は、スペクトルサブトラクション（ＳＳ）を行う前のパワースペクトルXω(Ｔ)を示す模式図である。（ｂ）は、スペクトルサブトラクション（ＳＳ）を行った減算後パワースペクトルYω(Ｔ)を示す模式図である。ＳＳ処理によって雑音が減少している。（ｃ）はＣＳＰ係数による利得調整後のパワースペクトルDω(Ｔ)を示す模式図である。ＣＳＰ係数による利得調整によって、さらに雑音が減少している。（ｄ）は、Flooring処理を行った後の認識用パワースペクトルZω(T)を示す模式図である。でこぼこしていた雑音のスペクトルが、なだらかなものになる。

ＣＳＰとFlooringの効果は、雑音区間（目的話者の非発話区間）に現れる。雑音区間のスペクトルが、ＳＳ処理により平らになり、ところどころ飛び出ている山が、ＣＳＰ係数をかけることによってさらにつぶされ、さらに、Flooringをかけることによって谷が埋められ、平滑化された（比喩としては、雪をかぶったような）なだらかなスペクトル包絡になる。結果として、雑音を目的話者の音声として間違うことがなくなる。Push to Activate 方式や Always Listening 方式では、目的話者が発話していないのに、周囲の雑音を目的話者の音声と間違えて誤った認識を起こしてしまうことが問題となっているが、ＳＳ処理→（ＣＳＰ係数による）利得調整 → Flooring処理という処理手順で処理すると、その誤りが軽減されるというのが原理として考えられる。

本発明はカーナビゲーションシステムでの使用を想定して説明してきたが、本発明の方法およびその方法を実行するモジュール化されたソフトウェアとして、他のコンピュータシステムなど、種々のタイプのプロセッサにより実施することが可能である。

例えば、オブジェクト、手順または機能として組織することができ、コンピュータ命令の１つまたは複数の物理ブロックまたは論理ブロックを含むことができる。モジュール化されて実行可能なものは、必ずしも物理的に一緒に位置させる必要はなく、各モジュールの機能を達成することができるのであれば、いくつかの異なる格納位置に分散させておくこともできる。

さらには、ネットワークを通じて供給するなどといった態様で、存在させることもできるため、その応用として、例えばアップデート版を簡易に供給することもできる。もちろん、モジュールはハードウェア回路として実装させることもできる。

本発明が適用される音声認識システムの構成図である。従来法と本発明との処理手順を比較する処理フロー図である。本発明の詳細な処理手順の処理フロー図である。車の室内における空間的位置関係を示す上面図である。目的話者、妨害話者、２つの音声入力器（マイクロホン）との空間的位置関係および実験条件を示す模式図である。何れも雑音区間（目的話者の非発話区間）の例を示すものであって、（ａ）は、スペクトルサブトラクション（ＳＳ）を行う前のパワースペクトルXω(Ｔ)を示す模式図である。（ｂ）は、スペクトルサブトラクション（ＳＳ）を行った減算後パワースペクトルYω(Ｔ)を示す模式図である。（ｃ）はＣＳＰ係数による利得調整後のパワースペクトルDω(Ｔ)を示す模式図である。（ｄ）は、Flooring処理を行った後の認識用パワースペクトルZω(T)を示す模式図である。

符号の説明

１０音声認識システム
１００前処理部
１１０ＣＳＰ係数算出
ＣＳＰ係数算出部
１２０遅延和アレイ処理
遅延和アレイ処理部
１３０雑音推定
雑音推定部
１４０ＳＳ（スペクトルサブトラクション）処理
ＳＳ処理部
１５０利得調整（音声強調）
利得調整部
１６０ Flooring処理
Flooring処理部
２００認識部

Claims

空間中の少なくとも２つの異なる箇所に設置された音声入力器（１，２）によって得られる２つの入力音声から、目的音声を抽出する方法であって、
前記２つの入力音声の何れか一方またはそれらの両方に基いて（Xω(Ｔ)）推定される雑音のパワースペクトル（Uω）と任意の減算定数（α）とを用いた、ＳＳ（スペクトラム・サブトラクション）処理を適用して、減算後パワースペクトル（Yω(Ｔ)）を得るステップと、
得られたこの減算後パワースペクトルについて、前記２つの入力音声に基いた利得調整を適用して、利得調整後のパワースペクトル（Dω(Ｔ)）を得るステップと、
得られたこの利得調整後のパワースペクトルについて、任意のフロアリング係数（β）を用いたフロアリング(Flooring)処理を適用して、認識用パワースペクトル（Zω(T)）を得るステップとを有する、
方法。
前記利得調整は、前記２つの入力音声の相互相関関係を利用したＣＳＰ（クロス・パワー・スペクトラム・フェーズ）係数を用いた利得調整である
請求項１記載の方法。
前記減算後パワースペクトルを得るステップの前に、さらに、
目的話者からの音声を強調するために、前記２つの入力音声に基いて、アレイ処理をするステップを有する
請求項１記載の方法。
前記アレイ処理が、前記２つの入力音声を用いた遅延和アレイ処理である、
請求項３記載の方法。
前記アレイ処理が、前記２つの入力音声を用いた適応型アレイ処理である、
請求項３記載の方法。
前記空間が車室内であって、前記音声入力器によって得られる２つの入力音声には、車室内における雑音としてオーディオ音声、及び／または、妨害話者による発話を含む、
請求項１記載の方法。
前記音声入力器が、無指向性マイクロホンである、
請求項２記載の方法。
前記音声入力器が、指向性マイクロホンである、
請求項２記載の方法。
空間中の２つの異なる箇所に設置された音声入力器は、目的話者との位置関係から、車内において指向性が形成されている
請求項１記載の方法。
請求項１記載の方法を目的音声を抽出する前処理の方法として用いて、
得られた認識用パワースペクトルを入力にして音声認識結果を出力する、
音声認識方法。
空間中の少なくとも２つの異なる箇所に設置された音声入力器（１，２）によって得られる２つの入力音声から、目的音声を認識するにあたっての前処理を行う前処理部（１００）であって、
前記音声入力器（１，２）に接続され、前記２つの入力音声の何れか一方またはそれらの両方に基いて（Xω(Ｔ)）推定される雑音のパワースペクトル（Uω）と任意の減算定数（α）とを用いた、ＳＳ（スペクトラム・サブトラクション）処理を適用して、減算後パワースペクトル（Yω(Ｔ)）を得る、ＳＳ処理部（１４０）と、
前記ＳＳ処理部（１４０）に接続され、得られたこの減算後パワースペクトルについて、前記２つの入力音声に基いた利得調整を適用して、利得調整後のパワースペクトル（Dω(Ｔ)）を得る、利得調整部（１５０）と、
前記利得調整部（１５０）に接続され、得られたこの利得調整後のパワースペクトルについて、任意のフロアリング係数（β）を用いたフロアリング(Flooring)処理を適用して、認識用パワースペクトル（Zω(T)）を得る、Flooring処理部（１６０）とを有する、
前処理部（１００）。
請求項１１記載の前処理部と、
当該前処理部に結合された認識部（２００）とを有し、
認識用パワースペクトルを入力して音声認識を行って音声認識結果を出力する、
音声認識システム（１０）。
空間中の少なくとも２つの異なる箇所に設置された音声入力器によって得られる２つの入力音声から、目的音声を抽出するために、以下の各ステップをコンピュータシステムに実行させるプログラムであって、
前記２つの入力音声の何れか一方またはそれらの両方に基いて（Xω(Ｔ)）推定される雑音のパワースペクトル（Uω）と任意の減算定数（α）とを用いた、ＳＳ（スペクトラム・サブトラクション）処理を適用して、減算後パワースペクトル（Yω(Ｔ)）を得るステップと、
得られたこの減算後パワースペクトルについて、前記２つの入力音声に基いた利得調整を適用して、利得調整後のパワースペクトル（Dω(Ｔ)）を得るステップと、
得られたこの利得調整後のパワースペクトルについて、任意のフロアリング係数（β）を用いたフロアリング(Flooring)処理を適用して、認識用パワースペクトル（Zω(T)）を得るステップとを有する、
プログラム。
前記利得調整は、前記２つの入力音声の相互相関関係を利用したＣＳＰ（クロス・パワー・スペクトラム・フェーズ）係数を用いた利得調整である
請求項１３記載のプログラム。
請求項１３記載のプログラムを目的音声を抽出する前処理のプログラムとして用いて、コンピュータシステムに、
得られた認識用パワースペクトルを入力にして音声認識結果を出力させる、
音声認識プログラム。