JP4225430B2

JP4225430B2 - 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム

Info

Publication number: JP4225430B2
Application number: JP2007529641A
Authority: JP
Inventors: 克昌長濱; 信也松井
Original assignee: Asahi Kasei Corp
Current assignee: Asahi Kasei Corp
Priority date: 2005-08-11
Filing date: 2006-08-11
Publication date: 2009-02-18
Anticipated expiration: 2026-08-11
Also published as: KR100959983B1; WO2007018293A1; US20090055170A1; JPWO2007018293A1; EP1923866B1; EP1923866A4; EP1923866A1; KR20080009211A; US8112272B2; CN101238511B; CN101238511A

Description

本発明は、複数のマイクロホンを使用し、複数の音源から発せられた複数の音声信号や各種環境雑音など複数の音響信号が混ざった信号から、目的とする音源から到来する音源信号を分離する音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラムに関する。

種々の環境下において特定の音声信号などを収録したい場合、周囲環境にはさまざまな雑音源があるため、目的音とする信号のみをマイクロホンで収録することは困難であり、何らかの雑音低減処理あるいは音源分離処理が必要となる。
これらの処理が特に必要となる例として、例えば自動車環境下が挙げられる。自動車環境下において、携帯電話の普及により運転中の携帯電話を使用しての通話は車内に離れて設置されたマイクを使用するのが一般的あり、通話品質を著しく劣化させている。また、自動車環境下で運転中に音声認識を行う場合も同様の状況で発話するため、音声認識性能を劣化させる原因になっている。現在の音声認識技術の進歩により、定常雑音に対する音声認識率の劣化の問題に対して、劣化した性能のかなりの部分を回復することが可能となっている。しかし、現状の音声認識技術で対応が難しいものとして、複数発話者の同時発話時の認識性能の劣化の問題がある。現在の音声認識の技術では同時に発話された二人の混合音声を認識する技術が低いため、音声認識装置使用時には発話者以外の同乗者は発話を制限され、同乗者の行動を制限する状況が発生している。これらの音源分離の手法として独立主成分分析法などを使用する方法もあるが、演算量、音源数の変動などの問題があり実用化されていない。

上記の問題を解決するために、車内の複数のマイクを取り付け特定方向からの音声のみを収録する方法が各種提案されているが、自動車内に多数のマイクを取り付けるためのスペースを確保することは困難であり、加えてコスト的な問題から特性の揃ったマイクを使用することも難しい。このため、出来るだけ少数で特性バラつきがあるマイクを使用して動作をする方式が望まれている。
一般に複数のマイクロホンを使用する場合、低コストなマイクロホンほどその感度特性のバラつきが大きく約±３ｄＢ程度各周波数特性にバラつきがあると言われている。これらの特性のバラつきがマイクロホンアレイ技術の中でも遅延和アレイなどの加算型アレイ処理ではマイクロホンアレイ性能が設計通りの特性が実現できないだけであるが、適応アレイなどのいわゆる減算型アレイでは一つのマイクを使用する場合より特に１ｋＨＺ以下程度の低域において性能を悪化させる場合がある。

マイクロホンアレイ技術にとってセンサとしてのマイクロホンの特性のバラつきは大きな問題であり、これらの対策として、特許文献１〜５などに複数のマイク素子の感度を揃える方法が提案されている。
従来、少数のマイクロホン数で大きな効果が得られる適応ビームフォーマ処理技術を利用したマイクロホンアレイに関しては、例えば非特許文献１や、非特許文献２に述べられているように、一般化サイドローブキャンセラ（ＧＳＣ）、フロスト型ビームフォーマおよび参照信号法など、種々の方法が知られている。

適応ビームフォーマ処理は、基本的には雑音源の方向に死角を有する指向性ビームを形成したフィルタにより雑音を抑圧する処理であり、その中でも特に一般化サイドローブキャンセラは、比較的性能が良いことで知られている。しかし、ＧＳＣでは、設定された目的音源の方向とずれた方向から目的信号が到来した際に、目的信号がキャンセルされて劣化するという問題点がある。これに対し、特許文献６、７において、これを周波数領域で動作させることで計算量を削減すると共に、周波数領域のフィルタ係数から話者方向と特定雑音方向とを逐次検知し、目的音と目的音以外の雑音とをある程度分離し、スペクトルサブトラクションと併用することで到来方向不明な雑音や拡散性の雑音を低減する方法が開示されている。
［特許文献１］特開平５−１３１８６６号公報
［特許文献２］特開２００２−９９２９７号公報
［特許文献３］特開２００３−１５３３７２号公報
［特許文献４］特開２００４−３４３７００号公報
［特許文献５］特開２００４−２８９７６２号公報
［特許文献６］特開２００１−１００８００号公報
［特許文献７］特開２０００−４７６９９号公報
［非特許文献１］電子情報通信学会編「音響システムとデジタル処理」
［非特許文献２］HＡykin著、“ＡＤＡptive Filter Theory(PrentiＣe HＡll)”

［発明が解決しようとする課題］
この特許文献６、７に記載されているような適応ビームフォーマとスペクトルサブトラクションを組み合わせた技術において、マイクロホンの素子感度のバラつきが存在する場合、適応フィルタ部の入力信号として目的音を抑圧した参照信号を作成する必要があるが、目的音を十分に抑圧することが出来ず、適応フィルタ部の参照信号と目的信号双方に目的音が含まれるため、適応フィルタ処理を施した結果目的音が歪み音質が劣化する。同様の現象は、初期反射の大きな閉空間でも参照信号中に目的音信号が漏れてしまい発生する。
これを解決するために、マイクロホンの素子感度補正をするために製品組み立て時にバラつきを測定し補正データを作成して使用時に補正を行ったり、使用時に特定方向からの基準信号を利用してマイクロホンの素子感度の個体差、周囲温度や部品の経年変化による逐次変化を測定し補正する方法があるが、製造コストの増加や、基準信号をいつ再生させるか、あるいは収録した信号が本当に基準信号のみかどうかをどうやって判断するかなどの問題がある。

また適応フィルタの動作に着目すると、一般的に適応フィルタで参照信号と目標信号が高い相関性を持つ場合、適応フィルタの推定動作が上手く行えず推定精度を著しく劣化させてしまう。一例を挙げると、目的音と雑音の双方が音声信号の場合などである。
同様の問題はエコーキャンセラでも発生し、遠端信号から近端信号に混入したエコーを推定する適応フィルタにおいて、遠端、近端とも同時に２人の人が発話をした場合、いわゆるダブルトーク状態が発生しエコーキャンセラの動作が著しく劣化する。このため、ダブルトーク状態を如何に正確に検出し、適応フィルタのパラメータ推定を停止させたり推定速度も遅くしたりするかが重要な性能維持の条件となっている。

したがって、本適応フィルタ動作においても、目的音と特定雑音が双方とも音声である場合、双方とも発話している状態を検出する必要があると同時に、双方とも発話している頻度が高いほど適応フィルタ推定を停止させる頻度があがり、結果として適応フィルタの雑音除去性能が劣化すると言う問題がある。
また、自動車の走行雑音など大きな拡散性雑音などが発生する状況においては拡散性雑音の影響で適応フィルタの推定精度が劣化するため、結果として、適応フィルタの推定したフィルタパラメータを使用した話者方向、特定雑音方向の到来方向推定精度が劣化し、システム全体の性能が劣化すると言う問題がある。

また、上記の特許文献６、７に記載された方式では、自動車向けなどに低コストのマイクを使用して雑音成分抑圧装置を構成しようとした場合、車内音源の初期反射が大きい、拡散性の雑音成分が大きい、使用するマイク素子のバラつきが大きい（±３ｄｂ程度）、運転者と同乗者とが同時に発話し相関性の強い目的音と特定雑音とが同時に存在するなどの場合に、適応フィルタ部が所望の動作をせず、全体として所望の動作を実現できない。
本発明は上記問題点に鑑みてなされたものであり、マイクロホン素子の感度のばらつきに影響を受けることなく、複数の音源から発せられた音源信号が混合された混合音の中から、目的音源からの音源信号を分離することを可能とする音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラムを提供することを目的とする。
［課題を解決するための手段］
上記課題を解決するために、請求項１に記載の発明は、互いに離して配置された少なくとも２つのマイクロホンに対して複数の音源から発せられた音源信号が混合された混合音を入力し、該混合音から目的音源からの音源信号を分離する音源分離装置において、前記マイクロホンのうちの２つのマイクロホンからなるマイクロホン対からの出力信号に対して第１の係数を用いた周波数領域での積和演算を行うことにより、前記目的音源のおおまかな方向から到来する音源信号を減衰させるための第１のビームフォーマ処理を行い、かつ、前記出力信号に対して、前記第１の係数と周波数領域で複素共役の関係にある第２の係数を用いた周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する２つのマイクロホンを結ぶ直線の垂線に対して前記おおまかな方向と対称な方向から到来する音源信号を減衰させるための第２のビームフォーマ処理を行うビームフォーマ手段と、前記ビームフォ−マ手段により得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算手段と、前記パワー計算手段により計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた当該差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出手段とを備えることを特徴とする音源分離装置を提供する。

この発明によれば、音源分離装置は、指向特性がマイクロホン素子の感度に影響を受けないという性質を実現することができ、マイクロホン素子の感度のばらつきに影響を受けることなく、複数の音源から発せられた音源信号が混合された混合音の中から、目的音源からの音源信号を分離することが可能となる。
請求項２に記載の発明は、請求項１に記載の音源分離装置において、前記ビームフォーマ手段は、互いに離して配置された３つのマイクロホンのうち、何れか２つのマイクロホンの組合せ及び他の２つのマイクロホンの組合せ各々について、前記第１のビームフォーマ処理及び前記第２のビームフォーマ処理を行うことを特徴とする。

この発明によれば、３つのマイクロホンのうち、２つのマイクロホンを結ぶ直線の垂線を境界とした各領域に存在する目的音源からの音源信号を抽出することができる。
請求項３に記載の発明は、請求項１又は２に記載の音源分離装置において、前記２つのマイクロホンのうちの一方のマイクロホンからの出力信号に対して遅延を与え、前記遅延に対応した角度だけ仮想的に前記垂線を回転させることにより目的音源方向を仮想的に補正する指向性制御手段をさらに備えることを特徴とする。
この発明によれば、遅延を与えることで指向特性を最適な状態に補正することができ、音源の分離性能を向上させることができる。

請求項４に記載の発明は、請求項３に記載の音源分離装置において、前記２つのマイクロホンのうちの一方のマイクロホンからの出力信号に対して第１の遅延を与え、当該第１の遅延に応じた角度だけ仮想的に前記垂線を回転させることにより目的音源の方向を仮想的に補正する第１の指向性制御手段と、前記一方のマイクロホンまたは他方のマイクロホンのいずれか一方からの出力信号に対して第２の遅延を与え、前記２つのマイクロホンを結ぶ直線の垂線に対して前記回転とは反対方向に前記第２の遅延に応じた角度だけ前記垂線を回転させることにより目的音源の方向を仮想的に補正する第２の指向性制御手段と、をさらに備えることを特徴とする。
この発明によれば、仮想的に３つのマイクロホンからの出力信号を生成することができるため、２つのマイクロホンのみを用いて、２つのマイクロホンを結ぶ直線の垂線方向から到来する音源信号を分離抽出することが可能となる。

請求項５に記載の発明は、請求項３又は４に記載の音源分離装置において、前記音源信号が到来する方向を推定する到来方向推定手段をさらに備え、前記指向性制御手段は、前記到来方向推定手段により推定された到来方向に基づいて、２つの音源の位置が仮想的に２つのマイクロホンを結ぶ直線の垂線に対して対称となるように、該マイクロホンからの出力信号に対して遅延を与えることを特徴とする。
この発明によれば、音源の高い分離性能が得られるように遅延操作を行うことが可能となる。

請求項６に記載の発明は、請求項１から５の何れか１項に記載の音源分離装置において、前記目的音スペクトル抽出手段により抽出されたパワースペクトル情報に対して、スペクトルサブトラクション処理を行うスペクトルサブトラクション手段をさらに備えたことを特徴とする。
この発明によれば、スペクトルサブトラクション処理を行うことにより到来方向不明の定常雑音や拡散性の雑音などを除去することが可能となる。

請求項７に記載の発明は、請求項１から６の何れか１項に記載の音源分離装置において、前記ビームフォーマ手段による処理を行う前に、雑音を低減する処理を行う定常雑音低減手段をさらに備えることを特徴とする。
この発明によれば、ミュージカルノイズのような聴感上不快な雑音の発生を低減することが可能となる。
請求項８に記載の発明は、請求項１から７の何れか１項に記載の音源分離装置により分離された音源信号の音声認識を行う音声認識手段を備えた音声認識装置を提供する。

この発明によれば、精度よく分離された音源信号に基づいて、精度のよい音声認識を行うことができる。
請求項９に記載の発明は、請求項８に記載の音声認識装置において、車両の運転席側から発せられる語彙の候補の一覧である運転席側認識語彙リスト及び助手席側から発せられる語彙の候補の一覧である助手席側認識語彙リストを記憶する認識語彙リスト記憶手段をさらに備え、前記音声認識手段は、前記認識語彙リスト記憶手段に記憶されている運転席側認識語彙リスト及び助手席側認識語彙リストに基づいて、前記音源分離装置により分離された音源信号の音声認識処理を行うことを特徴とする。

この発明によれば、音声認識装置は、認識語彙リスト記憶手段に記憶されている助手席側認識語彙リスト及び運転席側認識語彙リストに基づき音声認識処理を行うため、運転席、助手席別に語彙リストの中から最適な語彙を選択することができ、精度よく音声認識を行うことが可能となる。
請求項１０に記載の発明は、請求項８又は９に記載の音声認識装置において、現在の車両の状態を管理する状態遷移手段と、車両の状態に応じた助手席側及び運転席側における有効な語彙リストを記憶する有効語彙リスト記憶手段と、前記状態遷移手段で管理されている現在の車両の状態と、前記有効語彙リスト記憶手段に記憶されている語彙リストとに基づいて、前記音声認識手段により認識された語彙が有効か否かを判断し、該判断結果に応じて制御を行う制御手段とをさらに備えることを特徴とする。

この発明によれば、現在の車両の状態と有効語彙リストとに基づいて、認識された語彙が有効か否かを判断し、判断結果に応じて制御を行うことができるため、車両内の搭乗者にとって快適な制御を行うことができる。また、有効語彙リストや制御内容を自由に設計することができるため、音声認識を使用したアプリケーション設計に自由度を与えることができる。
請求項１１に記載の発明は、請求項１から７の何れか１項に記載の音源分離装置を備えた携帯電話機を提供する。

この発明によれば、携帯電話機を中規模の会議室などで集音マイクとして利用することが可能である。
請求項１２に記載の発明は、互いに離して配置された少なくとも２つのマイクロホンのうちの２つのマイクロホンからなるマイクロホン対に対して、複数の音源から発せられた音源信号を入力する音源信号受信ステップと、前記マイクロホン対を構成する２つのマイクロホンからの出力信号に対して、周波数領域で複素共役の関係にある２つの重み係数各々を用いて周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する２つのマイクロホンを結ぶ直線の垂線に対して対称であり、スペクトル情報を得ようとする目的音源のおおまかな方向及び前記おおまかな方向と対称な方向から到来する音源信号を各々減衰させるための第１のビームフォ−マ処理及び第２のビームフォーマ処理を行うビームフォーマ処理ステップと、前記ビームフォ−マ処理ステップにおいて得られた音源信号各々についてパワースペクトル情報を算出するパワー計算ステップと、前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた当該差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップとを備えることを特徴とする音源分離方法を提供する。

請求項１３に記載の発明は、コンピュータに、互いに離して配置された少なくとも２つのマイクロホンのうちの２つのマイクロホンからなるマイクロホン対から、複数の音源から発せられた音源信号が混合された出力信号を取得する出力信号取得ステップと、前記出力信号取得ステップにおいて取得された出力信号に対して、周波数領域で複素共役の関係にある２つの重み係数各々を用いて周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する２つのマイクロホンを結ぶ直線の垂線に対して対称であり、スペクトル情報を得ようとする目的音源のおおまかな方向及び前記おおまかな方向と対称な方向から到来する音源信号を各々減衰させるための第１のビームフォ−マ処理及び第２のビームフォーマ処理を行うビームフォーマ処理ステップと、前記ビームフォ−マ処理ステップにおいて得られた音源信号各々についてパワースペクトル情報を算出するパワー計算ステップと、前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた当該差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップとを実行させるためのプログラムを提供する。
［発明の効果］
本発明によれば、周波数領域で複素共役の関係にある２つの重み係数各々を用いて周波数領域での積和演算を行うことにより、マイクロホン対を構成する２つのマイクロホンを結ぶ直線の垂線に対して対称であり、スペクトル情報を得ようとする目的音源のおおまかな方向及び前記おおまかな方向と対称な方向から到来する音源信号を各々減衰させるための第１のビームフォーマ処理及び第２のビームフォーマ処理を行うことにより、前記マイクロホン対を構成する２つのマイクロホンを結ぶ直線の垂線に対して対称な方向から到来する音源信号を各々減衰させ、前記第１のビームフォ−マ処理及び前記第２のビームフォ−マ処理により得られた音源信号各々についてのパワースペクトル情報同士の差分を求め、所定の値を超えた当該差分値を目的音源のスペクトル情報として出力することで、指向特性がマイクロホン素子の感度に影響を受けないという性質を実現することができ、マイクロホン素子の感度のばらつきに影響を受けることなく、複数の音源から発せられた音源信号が混合された混合音の中から、目的音源からの音源信号を分離することが可能となる。

本発明の第１実施形態に係る音源分離システムの基本的構成を示す図である。同実施形態に係るマイクの種類の一例を示す図である。同実施形態に係るビームフォーマ部の構成を示す図である。同実施形態に係るパワー計算部の構成を示す図である。同実施形態に係る目的音スペクトル抽出部の構成を示す図である。同実施形態に係る死角制御型ビームフォーマを説明するための図である。同実施形態に係る死角制御型ビームフォーマを説明するための図である。同実施形態に係る差分結果の指向特性の一例を示す図である。同実施形態に係るマイクの素子感度差を変動させた場合の共役ビームフォーマの指向特性を示す図である。同実施形態に係るマイクの素子感度差を変動させた場合のビームフォーマ単体の指向特性を示す図である。同実施形態に係る音源分離装置の３６０度の指向特性を求めたグラフを示す図である。同実施形態に係る音源分離装置の指向特性を利用した２話者個別録音の実施例を示す図である。同実施形態に係る音源分離装置の指向特性を利用した簡易ハンズフリー装置及び音声認識装置用マイクの実施例を示す図である。同実施形態に係る評価実験におけるマイク取り付け箇所を示す図である。同実施形態に係る評価実験の条件を示す図である。同実施形態に係る評価実験結果を示す図である。第２実施形態に係る音源分離システムの構成を示す図である。同実施形態に係るビームフォーマの構成を示す図である。第３実施形態に係る音源分離システムの構成を示す図である。同実施形態に係る他の音源分離システムの構成を示す図である。同実施形態に係る目的音スペクトル抽出部の構成を示す図である。第４実施形態に係る音源分離システムの構成を示す図である。第５実施形態に係る音源分離システムの構成を示す図である。同実施形態に係る指向性制御の例を示す図である。同実施形態に係る指向性制御部の構成を示す図である。第６実施形態に係る音源分離システムの構成を示す図である。第７実施形態に係る音源分離システムの構成を示す図である。同実施形態に係る分離される音源の位置を説明するための図である。同実施形態に係る単一指向性マイクの設置例を示す図である。同実施形態に係る目的音抽出部の構成の一例を示す図である。同実施形態に係る目的音抽出部の構成の一例を示す図である。同実施形態に係る目的音抽出部の構成の一例を示す図である。同実施形態に係る音源分離装置を利用したパソコンへの音声入力の例を示す図である。第８実施形態に係る目的音範囲と雑音範囲とを説明するための図である。同実施形態に係る遅延操作を説明するための図である。同実施形態に係る指向性制御手段の構成例を示す図である。同実施形態に係る音源分離装置システムの構成例を示す図である。同実施形態に係る目的音抽出部における処理方式の一例を示す図である。同実施形態に係る目的音抽出部における処理方式の一例を示す図である。第９実施形態に係る車載機器制御用音声認識システムの構成を示す図である。第１０実施形態に係る携帯電話機を示す図である。第１１実施形態に係る音源分離システムにおけるマイク配列を示す図である。第１２実施形態に係る音源分離システムが適用される環境を示す図である。同実施形態に係る音源分離システムが適用される発話音の入力状況を示す図である。同実施形態に係るガイダンス音声削除部の構成を示す図である。同実施形態に係る目的音声抽出部の構成を示す図である。同実施形態に係るガイダンス音声削除部の他の構成を示す図である。同実施形態に係るガイダンス音声削除部の他の構成における目的音声抽出部の構成を示す図である。同実施形態に係る音源分離システムが適用される他の環境を示す図である。同実施形態に係る音源分離システムが適用される発話音の他の入力状況を示す図である。同実施形態に係る音源分離システムの他の構成を示す図である。

以下、図面を参照して、本発明に係る実施の形態について説明する。
［第１実施形態］
図１は、本発明の第１実施形態に係る音源分離システムの基本的構成を示す図である。このシステムは、２つのマイクロホン（以下「マイク」という）１０、１１と、音源分離装置１とで構成されている。この音源分離装置１は、図示せぬ、全体を制御し演算処理を実行するＣＰＵと、ＲＯＭ、ＲＡＭ、ハードディスク装置等の記憶装置を含むハードウェアと、記憶装置に記憶されたプログラム、データ等を含むソフトウェアとを備えている。これらのハードウェア及びソフトウェアによって、図１に示す機能ブロックが実現される。

２つのマイク１０、１１は無指向性のマイクであり、平面上に互いに数ｃｍ程度離して設置されている。なお、マイク１０、１１は無指向性であることが基本であるが、図２に示すような単一指向性マイクも使用可能である。マイク１０、１１は２つの音源Ｒ１、Ｒ２から発せられた信号を受信する。このとき、これら２つの音源Ｒ１、Ｒ２は、２つのマイク１０、１１を結ぶ直線に対して引かれた垂線を境界として分割された２つの領域（以下「垂線の左右」という）にそれぞれ位置するものとするが、必ずしも垂線に対し左右対称の位置に存在する必要はない。

このマイク１０、１１で得た２つの音源信号を、スペクトル分析部２０、２１においてそれぞれマイク出力毎に周波数分析し、ビームフォーマ部３においてこれらの周波数分析された信号を２つのマイク１０、１１を結ぶ直線に対して引かれた垂線の左右に対称に死角を形成したビームフォーマ３０、３１でフィルタリングを行い、パワー計算部４０、４１においてそのフィルタ出力のパワーを計算し、目的音スペクトル抽出部５０、５１においてそれぞれの差分を計算した結果に対しある一定値以上の値を出力しそれ以下をゼロとする処理を行う。これらの処理は、通常の特定雑音に関して死角を形成する処理とは異なり、ビームフォーマ部３をいくつかの条件の下で形成し上記の処理を実施することで、従来問題であったマイクの素子感度のバラつきに起因するマイクロホンアレイの特性の劣化の問題を解決すると同時に、上記垂線を中心として左右からの音を分離する指向特性を幅広い周波数帯域に対して実現することが可能となる。以下、各機能ブロックについて詳細に説明する。

［ビームフォーマ部］
まず、図３を参照して、ビームフォーマ部３の構成を説明する。図３では、スペクトル分析部２０、スペクトル分析部２１で周波数成分毎に分解された信号ｘ₁（ω）、ｘ₂（ω）を入力として、乗算器１００ａ、１００ｂ、１００ｃ、１００ｄにて、フィルタの重み係数ｗ₁（ω）、ｗ₂（ω）、ｗ₁ ^*（ω）、ｗ₂ ^*（ω）（＊は複素共役の関係にあることを示す）と乗算をそれぞれ行い、加算器１００ｅ、１００ｆにて２つの乗算結果を加算し、その出力としてフィルタリング処理結果ｄｓ₁（ω）、ｄｓ₂（ω）を出力する。このように、ビームフォーマ部３は、複素共役フィルタ係数を使用することにより、マイク１０、１１間を結ぶ直線の垂線を中心として対称な位置に死角を形成している。
［パワー計算部］
次に、図４を参照して、パワー計算部４０、４１について説明する。パワー計算部４０、４１は、ビームフォーマ３０、ビームフォーマ３１からの出力ｄｓ₁（ω）、ｄｓ₂（ω）を、以下の計算式により、パワー計算部４０、パワー計算部４１にてパワースペクトル情報ｐｓ₁（ω）、ｐｓ₂（ω）に変換する。
ｐｓ₁（ω）＝［Ｒｅ（ｄｓ₁（ω））］²＋［Ｉｍ（ｄｓ₁（ω））］²
ｐｓ₂（ω）＝［Ｒｅ（ｄｓ₂（ω））］²＋［Ｉｍ（ｄｓ₂（ω））］²

［目的音スペクトル抽出部］
次に、図５を参照して、目的音スペクトル抽出部５０、５１に関して説明すると、パワー計算部４０、４１の出力ｐｓ₁（ω）、ｐｓ₂（ω）は、目的音スペクトル抽出部５０、５１の２つの入力として使用される。目的音スペクトル抽出部５０、５１は、２つのビームフォーマ３０、３１出力のパワースペクトル情報を入力として、出力として左右の目的音をそれぞれ出力するが、内部的には差分計算部５００、５１０と係数変換部５０１、５１１で構成される。
差分計算部５００は、減算器５００ａにてビームフォーマ３０のパワースペクトル情報からビームフォーマ３１のパワースペクトル情報の減算を行い、同様に、差分計算部５１０は、減算器５１０ａにてビームフォーマ３１のパワースペクトル情報からビームフォーマ３０のパワースペクトル情報の減算を行い、その結果をそれぞれ、係数変換部５０１、係数変換部５１１へ入力する。係数変換部５０１、係数変換部５１１は、それぞれ左右の音を分離するためのブロックであり、それぞれ、値が特定のしきい値以上の値を、目的とする方向からの信号としてスペクトル情報を出力する。ここで、しきい値の値は一般的には“０”であるが、使用環境に応じて最適値を実測より求め別々に設定しても良い。

［動作］
次に、図１を参照して、音源分離装置システム全体の動作を説明する。
まず、２つの無指向性あるいは指向性のマイク１０、１１を互いに数ｃｍ程度離して設置し、２つの音源から発せられた信号をマイク１０、マイク１１で受信する。このとき、各マイク１０、１１で受信された２つの音源信号が重畳された信号は、スペクトル分析部２０、スペクトル分析部２１で周波数分析が行われる。ここでは、一般的には高速フーリエ変換などの手法が用いられるが、フィルタバンクなどの周波数分析手法でも良い。周波数分析処理は１０ｍｓｅｃ程度の固定周期毎に行われる。
周波数分析された２つの信号は、マイク１０、１１を結ぶ直線への垂線に対して対称に死角が形成されたビームフォーマ３０、ビームフォーマ３１にてフィルタリングされ、特定方向からの信号が減衰させられる。しかし、ここでは特定の音源到来方向を正確に推測し、正確に推測された音源方向に死角を向けることを目的とはしていない。この２チャンネルの入力を使用したフィルタリングは各周波数成分毎に行われ、ビームフォーマ３０、ビームフォーマ３１の出力はパワー計算部４０、パワー計算部４１にてスペクトルパワー情報に変換されると同時に、ビームフォーマ３０、ビームフォーマ３１の出力から位相抽出部６０、位相抽出部６１にて位相情報Φ₁、Φ₂が抽出される。次に、パワー計算部４０、パワー計算部４１にてスペクトルパワー情報に変換されたビームフォーマ３０、ビームフォーマ３１の出力は、目的音スペクトル抽出部５０、目的音スペクトル抽出部５１に送られ、目的音スペクトル抽出部５０にて右方向（０〜９０°）から来た音源信号のパワースペクトル情報が抽出され、目的音スペクトル抽出部５１にて左方向（−９０°〜０）から来た音源信号のパワースペクトル情報が抽出される。

目的音スペクトル抽出部５１から抽出されたパワースペクトル情報を音声認識処理の前処理として使用する場合は、当該パワースペクトル情報は図示していない音響パラメータ解析部に送られ、音響分析処理が行われる。一方、抽出した音源信号のパワースペクトル情報を時間信号に戻す必要がある場合は、位相抽出部６０、位相抽出部６１で抽出した位相情報と目的音スペクトル抽出部５０、目的音スペクトル抽出部５１で抽出したスペクトル情報とを時間波形変換部７０、時間波形変換部７１に入力し時間信号情報に戻す処理を行う。
［死角制御型ビームフォーマの設計例］
次に、ビームフォーマ部３中のビームフォーマ３０、ビームフォーマ３１において、２つのマイク１０、１１を結ぶ直線の垂線に対して対称な位置に死角を形成することで、指向特性（指向性）がマイク素子の感度の影響を受けないことについて証明する。

２つのマイク素子を使用する場合において、図６に示すように、目的方位θ₁に対するゲインを１とし、他方向θ₂に１つの死角（ゲイン０）を形成する死角制御型ビームフォーマの設計例を以下に示す。
死角制御型ビームフォーマの出力信号をＳ（ｆ）＝［ｓ₁（ｆ）、ｓ₂（ｆ）］’、観測信号をＸ（ｆ）＝［ｘ₁（ｆ）、ｘ₂（ｆ）］’としたとき、ある周波数ｆにおける死角制御型ビームフォーマの重み係数ベクトルＷ（ｆ、θ₁、θ₂）＝［ｗ₁（ｆ）、ｗ₂（ｆ）］’は以下の計算で求めることが出来る（ただし、’ は転置操作を示す）。

一方、図７に示すように、目的方向、死角方向を２つのマイク１０、１１を結ぶ直線の垂線を中心として、図６に示す位置とは線対称な位置に設定するとき、重み係数ベクトルＷ（ｆ、−θ₁、−θ₂）＝［ｗ₁（ｆ）、ｗ₂（ｆ）］’は以下の計算で求めることが出来る。

このとき、

と計算され、両者の関係は、

となり、各重み係数は複素共役の関係にある。
次に、パワー計算部４０、４１、目的音スペクトル抽出部５０、５１において指向特性の導出を行う。指向特性の計算のため、重みベクトルＷ、及び、方位ベクトルＶを以下の式で定義する。

すると、パワー計算部４０の出力ｐｓ₁（ω）、パワー計算部４１の出力ｐｓ₂（ω）の指向特性は以下のように表現することが出来る。

ただし、＊は共役操作、Ｈは共役転置操作を表す。これより、目的音スペクトル抽出部５０内の差分操作部５００の出力ｄｒ₁（ω）は以下のように求めることが出来る。

ここで、マイクの素子感度のバラつきを表現するパラメータとしてαを導入し、一方のマイクの素子感度が一方のマイクの素子感度のα倍であると仮定する。このときに、片方のマイク出力がα倍であるということと、片方のチャンネルに掛ける重みがα倍であることとは等価であるので、マイク素子感度のバラつきを考慮し、ｗ₂＝αｗ_org2とすると、

となり、マイク素子感度が変化しても指向特性は変化しない。
このとき音源がマイクに対して十分離れている場合、すなわち平面波の場合は、方位ベクトルは、

と表現されるので、結局、

となる。ただし、上記に述べた手法は球面波の場合も同様の性質が維持される。
図８は、死角を前記垂線から±４５°方向に形成する際に、ビームフォーマ３０、３１のゲインを維持する拘束条件を垂線に対称な位置（±４５°）に指定して設計した場合の差分結果の指向特性例である。図８から分かるように、０°方向を境界として、右方向（マイク１０、１１から音源Ｒ１、Ｒ２の方向を見た場合の右方向、以下同様）（０〜９０°）から来た音源信号は正の値をとり、左方向（−９０°〜０）から来た音源信号は負の値をとる。これにより、各周波数成分において左右どちらの方向から到来したのかを判断することが出来る。

［指向特性の実験結果］
以上述べてきたように、ビームフォーマ３０、ビームフォーマ３１の乗算器で使用する重み係数をそれぞれ複素共役の関係として上記の処理を行うことで、マイクの素子感度によりアレイマイクの指向特性が影響を受けないことを示すために、マイクの素子感度差αを０ｄｂ、＋６ｄｂ、−６ｄｂと変動させて指向特性の計算を行った例を図９に示す。同図にはマイク１０、１１を結ぶ直線への垂線に対して対称な方向の指向特性が示されていないが、当該指向特性は図９に示した特性と対称な特性を持つ。図９を見て分かるように、ゲインの変動がある場合、アレイマイクの出力レベルの変動は発生するが、指向特性は変動を受けない。これにより、安価なマイクを使用しマイクの素子感度にばらつきがある場合でも安定した指向特性を実現することが可能となる。また、図中に示した指向特性は死角を±４５°方向に作成したものであるが、同図から分かるように指向特性に幅があるため、死角を実際の目的音源に対して正確に作成する必要はない。また、マイクの素子感度差αを０ｄｂ、＋６ｄｂ、−６ｄｂと変動させた場合のビームフォーマ単体の指向特性を図１０に示すが、同図よりマイクの素子感度が６ｄｂ異なると特定の方向に死角を形成するというビームフォーマに望まれている所望の動作を殆ど行えないことがわかる。一方、本発明の特徴として最も注目すべき点として、図１０に示すような指向特性が発生するような指向特性の劣化したビームフォーマを使用しても、結果として得られる指向特性はマイクの素子感度が均一な場合と同一であることである。
特定方向にビームフォーマで鋭い死角を形成する手法は少数のマイクでも理論上実現可能であるため、測定した信号はＳＮ比を上げるために使用されたり、適応フィルタとして頻繁に使用される一般化サイドローブキャンセラの参照信号生成部であるブロッキングマトリックス部分に使用されるが、上述したマイクの素子感度差により設計どおりの性能で死角を生成することが出来ず、量産を目的とした場合、実環境で所定の性能が実現出来ない大きな要因の一つになっている。

このような音源分離装置１を用いて、３６０度の指向特性を求めた例を図１１に示す。同図から分かるように、音源分離装置１は１８０°毎の指向特性を持ち、２つの指向特性がその境界において重なることなく分離されている。しかも、その指向特性がマイクの素子感度の影響を受けないことを更なる特徴としている。リニアアレイの場合、±９０°以上では０〜±９０°までの特性と対称となる指向特性となる。このように、指向特性は、２つのマイクを結ぶ線に垂直に引いた線を境界として２つのゾーンに分割することが可能となる。

この特性を利用した実施例を、図１２及び図１３に示す。図１２は音声メモ装置への応用である。従来、会議や打ち合わせの際に会議のメモの目的で音声メモ装置が使用されてきた。このような使用例の場合、周りの騒音や２人の音声が同時に録音されているため、録音された内容が聞き取りにくい場合がある。この様な場合、２つのマイク１０、１１をそれぞれ２人の発話者の方に向け、音源分離装置１でそれぞれ片方の会話の内容を強調して録音することで後日の聞き取りを容易にする。このように音源分離装置１を利用することによって、対向する２名の音声を分離し収集することが可能となり、会議の議事録用音声メモとして利用することや、会議議事録で２名の会話を個別に同時音声認識することが可能となる。

図１３は、簡易ハンズフリー装置、及び、音声認識装置用マイクへの応用例を示す図である。近年、パーソナルコンピュータ（以下「パソコン」という）を使用してネット会議などが行われるようになって来ているが、自宅などでパソコンを使用してネット会議を行う場合、パソコン内部にエコーキャンセラ機能がないためヘッドセットマイクなどを利用しスピーカ音声からマイクへのエコーの回り込み量を小さくするなどの対策が行われているが、ヘッドセットマイクのように身体の一部に器具を密着させることがなかなか受け入れられていない。この対策として、パソコン内部にエコーキャンセラ機能をソフトウェアとして実装したり、パソコン外部にエコーキャンセラ機能を内蔵したハンズフリー装置を接続することも可能である。パソコン内部にエコーキャンセラ機能を実装する場合、スピーカへの再生音声とマイクからの入力音声との同期をとる必要があるが、再生音声と入力音声間の遅延が大きく、また、パソコン機種ごとに遅延の大きさが異なるなど実装上の問題がある。また、外部にエコーキャンセラ機能を内蔵したハンズフリー装置を接続する場合、コストがかかる。

一方、本実施例では、マイク１０、１１をスピーカと発話者との間に置く必要があるが、スピーカ再生信号との同期をとる必要もない。２つのマイク１０、１１を用意し、マイク１０、１１からの信号をパソコンに取り込み、パソコンに記憶されているソフトウェアに基づいて音源分離を実行することが出来るため、実装が容易である。
また、住宅内で音声認識を行う状況で一番頻繁に発生するであろう環境として、テレビその他被制御機器に向かって音声コマンドを使用することが考えられる。この場合、テレビその他被制御機器のスピーカは被制御機器側から発話者側に向かって設置してあり、スピーカから音声が流れていたりさまざまなガイダンスが流れている状況で、発話者は音声でマイク装置に制御コマンドを入力したい場合がある。この場合、何らかの手段でスピーカの音声がマイク装置に回り込む量を減衰させる必要があるが、音源分離装置１を使用することで容易に被制御機器からの音声と発話者からの音声を分離することができ、音声認識性能が向上する。

［評価実験結果］
次に、評価実験結果について説明する。従来、自動車内での機器制御その他の目的で音声認識が使用されている。従来においては、エアコンの送風音、ロードノイズ、エンジン音などの雑音を低減する技術は確立されているが、音声などの影響を受けない音声認識技術は確立されていない。これらのことを踏まえ、以下の点を実現可能とする音声認識技術を提供することが重要となる。（１）運転席に居る運転者が発した音声、及び、助手席に居る助手席者が発した音声（以下「運転席と助手席の音声」という）の分離、（２）ヘッドポジションの移動を許容可能、（３）広いビーム幅と分離性能の両立、（４）少数マイクでの機能提供、（５）音声認識使用時、運転者又は助手席者に黙っていることを課さない

音源分離装置１の有効性を示すために、車内において２人の発話者に同時発話させ、２つのマイクで収録して音源分離装置で音源分離を行い、音声認識実験を行った。この音源分離装置は、２つの音源の分離を目的に開発されたものであり、自動車内の利用方法としては、例えば運転席と助手席の音声を分離することが可能となる。このためのマイクの設置箇所としては、図１４に示すように、取り付け箇所Ｌ１または取り付け箇所Ｌ２のように自動車内中央部が適している。また、取り付け箇所Ｌ２に設置した場合には、ルームミラー４００が運転者の方を向くため、マイク取り付け時に、マイクの取り付け方向が大体正面になるように設置してもよいし、後述する指向性制御機能を持たせてもよい。音源分離装置１では本来ビーム幅を広く取ってあるので正確な位置あわせは必要としない。また、取り付け箇所Ｌ２に設置する場合には、背面からの反射を抑えるためにマイクモジュールを工夫したり指向性マイクを利用することが有効な場合がある。
評価実験の条件を図１５に、音源分離後の音声認識実験結果を図１６に示す。図１６（ａ）に示すように、車内での２話者発話時（車内同時発話）においては、１チャンネルマイクのみを使用した従来法１における未処理時には２９％（停車時）、２７％（６０ｋｍ／ｈ走行時）であったが、本音源分離手法を適応することにより、７８％（停車時）、７８％（６０ｋｍ／ｈ走行時）と改善された。また、図１６（ｂ）に示すように、助手席側の音声を運転席側の音声と誤って音声認識結果を出してしまった、あるいは運転席側の音声を助手席側の音声と誤って音声認識結果を出してしまった割合を評価すると、従来の１チャンネルマイクのみ使用時（車内１人発話）では、全発話の９３％（リジェクション性能７％）について何らかの音声認識結果が出力されてしまったが、本手法を適応した場合は、何らかの音声認識結果が出力されたのは０％（リジェクション率１００％）であった。また、２マイクを使用した従来例として“雑音成分抑圧処理装置および雑音成分抑圧処理方法（特許第３４８４１１２号）”を従来法２として停止状態での性能比較を行った。従来法２は目的音、雑音到来方向を推定しながら適応ビームフォーミング処理を行い目的音および雑音を強調し、目的音が強調された信号から雑音が強調された信号を周波数領域でスペクトルサブトラクションする方式であるが、到来方向推定エラーの影響を省くため目的音、雑音とも到来方向を既知（固定方向から到来するもの）とし、適応ビームフォーマ部の最適値を求めた後に、目的音（発話者１）、雑音（発話者２）を同時に再生し目的音声を抽出する処理をおこなった。（図１６（ａ）参照のこと）

［第２実施形態］
次に、第２実施形態について説明する。図１７には、第２実施形態に係る音源分離システムの構成を示す。上述した第１実施形態においては、マイク１０、１１からの入力を、まずスペクトル分析部２０、スペクトル分析部２１にて周波数成分に変換したが、本実施形態においては、まず時間領域にてビームフォーマ８０及びビームフォーマ８１にて死角を生成して特定の到来方向からの信号を減衰させた信号を生成し、その後、スペクトル分析部２０及びスペクトル分析部２１にて周波数成分に変換している。なお、図１７では、図１と同一の機能を持つものには同一の番号がつけてある。ビームフォーマ８０、ビームフォーマ８１の構成は図１８に示すようなＦＩＲフィルタなどの形式で構成されたフィルタ処理を実行することで実現される。このとき、ＦＩＲフィルタの係数は、図３で示した周波数領域での複素共役の関係にある重み係数を、時間領域のフィルタ係数に変換することで求めることができる。

［第３実施形態］
次に、第３実施形態について説明する。図１９及び図２０は、第３実施形態に係る音源分離システムの構成を示す図である。上述したように、図１及び図１７に示す目的音スペクトル抽出部５０、目的音スペクトル抽出部５１は、図５で示した構成にて実現されており、実験により求めた最適なしきい値を使用して音源分離処理を行う構成となっている。一方、図８に示したように、目的音スペクトル抽出部５０、５１中の差分計算部５００、５１０の出力であるｄｒ_i（ω）（ｉ＝１、２）は正面０°を中心として点対称な関係になっていることが分かる。これより、目的音スペクトル抽出部５０、５１中の係数変換部５０１、５１１においてしきい値を“０”とすると差分計算部５００、５１０の符号のみを見ておくことで、正の時に右方向（０〜９０°）から来た音源信号のパワースペクトル情報として抽出され、負のときに左方向（−９０°〜０）から来た音源信号のパワースペクトル情報として抽出される。このため、図１及び図１７で示した全体構成は、図１９及び図２０に示すように簡略化することが可能となる。図１９及び図２０中の目的音スペクトル抽出部９０は、図２１に示す構成で実現される。

図２１において、パワー計算部４０、パワー計算部４１にて計算されたビームフォーマ３０、ビームフォーマ３１のパワースペクトル情報は、目的音スペクトル抽出部９０内部の差分計算部９００に入力される。そして、減算器９００ａにて減算処理が行われ、係数変換部９１０、係数変換部９２０においてそれぞれ目的とする方向からの音源信号のみが抽出される。具体的には、係数変換部９１０は、右方向（０〜９０°）からの音源抽出を行うためのブロックであり、入力が正の場合は、そのスペクトル情報は右方向（０〜９０°）から来たものとして出力し、負の場合は目的方向外から到来した音源のスペクトル情報として出力しない。一方、係数変換部９２０は、左方向（−９０°〜０）からの音源抽出を行うためのブロックであり、入力が負の場合は、そのスペクトル情報は左方向（−９０°〜０）から来たものとして出力し、正の場合は目的方向外から到来した音源のスペクトル情報として出力しない。以上の動作により、２つのマイク１０、１１を結ぶ直線の垂線を中心として左右の方向から到来する音源信号を分離することが可能となる。
なお、図１９に示す音源分離システムと図２０に示す音源分離システムとは、ビームフォーマ処理を周波数領域で行うか時間領域で行うかの違いが構成として異なっている。図１９ではビームフォーマ処理を周波数領域で行っており、図２０では時間領域で行っている。

［第４実施形態］
次に、第４実施形態について説明する。図２２は、第４実施形態に係る音源分離システムの構成を示す図である。同図に示すスペクトルサブトラクション部１００、１０１が、目的音スペクトル抽出部５０、目的音スペクトル抽出部５１で抽出した各目的音に重畳している到来方向不明の定常雑音や拡散性の雑音などを除去するためのスペクトルサブトラクション処理を行う。このような構成は、会議室中の空調やプロジェクタなどのファンの音などが存在する環境における使用でも有効であるが、自動車内での使用時に特に有効である。自動車内において運転者と助手席に同乗者とが搭乗している場合など、例えば運転席と助手席の音声は、前述の方式を使用することで別々に取り出すことが可能である。しかし、エアコンの送風音、ロードノイズ、風きり音など、到来方向が不明なものや拡散性の雑音は前述の方法では除去することが出来ない。これらの雑音の影響は、処理の後段にスペクトルサブトラクション処理を入れることで除去することが可能である。スペクトルサブトラクション処理は、１つのマイクの入力信号を使用して発話区間検出を行い、無発話区間で雑音スペクトルを推定し、発話区間でその前に推定した雑音成分をスケーリングして減算するタイプと、雑音が優位に収録された信号と音声が優位に収録された信号を用いて、音声が優位に収録された信号から雑音が優位に収録された信号のスペクトルをスケーリングして差分するタイプとがある。音声認識の場合、１マイク方式を基本にした処理で十分なことが多いが、本実施形態においてもこれを採用しており、本実施形態に係る音源分離システムは、第１実施形態に係る音源分離システムに対して、発話区間検出部１１０とスペクトルサブトラクション部１００、１０１をあらたに追加することで対応している。

図２２において、音源Ｒ１、音源Ｒ２は目的音であり、音源Ｒ３が到来方向不明の定常雑音や拡散性の雑音を表している。これらの雑音の多くは明確な指向性を持たないものが多い。このような雑音の場合、目的音スペクトル抽出部の出力において、弱い指向性をもつものはその方向の音源を抽出する目的音スペクトル抽出部に多く現れ、まったく指向性を持たないものや道路の継ぎ目を踏んだ衝撃音などは左右の抽出されたスペクトルに交互に検出されることが多いが、これらの雑音をスペクトルサブトラクション部１００、１０１で除去可能である。なお、スペクトルサブトラクションとしては、発話区間検出の不要な連続型スペクトルサブトラクションを使用してもよい。
［第５実施形態］
次に、第５実施形態について説明する。図２３には、第５実施形態に係る音源分離システムの構成を示す。本実施形態においては、分離したい２つの目的音源Ｒ１、Ｒ２が２つのマイク１０、１１を結ぶ直線への垂線に対して対称といえる位置から大きく外れている場合の対策が示されている。本実施形態では、この対策のために２つの目的音源Ｒ１、Ｒ２のおおまかな位置を検出するための到来方向推定部１２０と、到来方向推定部１２０が推定した２つの目的音源Ｒ１、Ｒ２のおおよその音源到来方向情報を使用し、指向性制御部１４０において分離したい２つの目的音源Ｒ１、Ｒ２が仮想的に出来るだけ２つのマイク１０、１１を結ぶ直線への垂線に対して対称となるように、片方のマイク入力に遅延操作を与える。

図２４には、２つの音源Ｒ１、音源Ｒ２がマイク１０、マイク１１を結ぶ直線の垂線に対してθτだけ回転した直線に対して左右対称となる状況を示している。このような場合、片方のマイクで取得した信号に一定遅延量τｄを与えることで、θτだけ回転したことと等価な状況を実現可能である。また、あらかじめいくつかの２つの音源について、２つのマイクを結ぶ直線の垂線に対する位置関係から、２音源を分離するのに最適なビームフォーマ３０、３１のフィルタパラメータを用意しておき、到来方向推定部１２０からのおおまかな２つの音源の到来方向情報を元に現在の状況の２つの音源を分離するのに最適と思われるビームフォーマのフィルタパラメータをビームフォーマ制御にて選択して、選択したビームフォーマのフィルタパラメータをビームフォーマ３０、ビームフォーマ３１に設定するようにしてもよい。

図２５に指向性制御部１４０の構成例を示す。図２５（ａ）に示す構成例は、周波数領域で各周波数成分毎に片方のマイクで取得した信号に一定遅延量τｄを与える時の例を示している。図２５（ａ）に示す構成例の場合、ｘ₁（ω）に対して乗算器１００ａにてｅ^-jωτとの乗算を行うことで遅延操作を実現している。また、時間領域でビームフォーマを行いたい場合は、図２５（ｂ）に示すようなＦＩＲフィルタの形式の遅延器１００ｂによりフィルタリング処理を行えばよい。
なお、片方のマイク入力に遅延を与えるのではなく、双方のマイク入力にそれぞれ半分ずつの遅延を与え全体として同量の遅延操作を実現しても良い。つまり、片方のマイクで取得した信号に遅延量τｄを与えるのではなく、片方のマイクで取得した信号に遅延量τｄ／２、もう片方のマイクで取得した信号に遅延量−τｄ／２を与えることで、全体の遅延差がτｄになるようにしてもよい。

［第６実施形態］
次に、第６実施形態について説明する。図２６は、第６実施形態に係る音源分離システムの構成を示す図である。本実施形態に係る音源分離システムは聴感を重視するための構成となっており、自動車内でのハンズフリー通話などへの応用を考慮している。自動車内において運転者と助手席の同乗者とが搭乗している場合などは、例えば運転席と助手席の音声は前述の方式を使用することで別々に取り出すことが可能であるが、エアコンの送風音、ロードノイズ、風きり音など到来方向が不明なものや拡散性の雑音は前述の方法では除去することが出来ない。これらの場合、第４実施形態で述べた様に、処理の後段にスペクトルサブトラクション処理を入れることでこれらの雑音の影響を除去することが可能であり、音声認識などの聴感上の音質を問題としない用途には最適であるが、ハンズフリー通話装置用のマイクなどに使用した場合に、聴感上ミュージカルノイズと呼ばれる雑音の消し残りが問題になることがある。本発明においては、２つのマイク１０、１１を結ぶ直線への垂線を中心にして左右の音を分離するため、拡散性の雑音などその音の指向性が絶えず変動するような雑音の場合、左右の分離結果に不規則に振り分けられてしまい音質を劣化させる場合がある。

このため、本実施形態では、本発明に係る音源分離方式がマイクゲインの時間変化に影響を受けないことを利用して、通常アレイマイク処理の後段に使用するポストフィルタ処理をビームフォーマ処理の前段に入れて、拡散性雑音、定常雑音などを低減し、音源分離後のミュージカルノイズの発生を防いでいる。
［第７実施形態］
次に、第７実施形態について説明する。図２７は、第７実施形態に係る音源分離システムの構成を示す図である。この音源分離システムは、３つのマイク１０、１１、１２を使用して３音源を分離する構成を示している。同図において、マイク１０とマイク１２、マイク１０とマイク１２を使用して、それぞれ２つのマイクを結ぶ直線への垂線を中心として左右の音源信号を分離し、２組のマイクの組を使用して分離された音源信号合計４つを使用して、目的音抽出部１６０にてマイク１０、マイク１１の正面方向近辺から到来する音源Ｒ３を最終的に分離する。

図２８を使用して本構成で分離される音源の説明を行うと、図２８に示すように２つのマイクを結ぶ直線への垂線ａと垂線ｂを中心として、垂線の左右から到来する音源を分離することが可能となる。図２８においては、ゾーンＡ、Ｂ、Ｃの各領域に音源が存在すると仮定すると、垂線ａを使用して、ゾーンＡとゾーンＢ、Ｃの領域から到来する音源信号を分離することができ、垂線ｂを使用して、ゾーンＡ、ＢとゾーンＣから到来する音源の分離をすることができる。図２７において、これらの分離を行うブロックが分離部ｂ０と分離部ｂ１である。分離部ｂ０は、３つの音源が重畳した信号から、ゾーンＡの領域からの音源信号Ｓ_Ａ（ω）と、ゾーンＢ、Ｃの領域からの音源信号Ｓ_Ｂmix（ω）、Ｓ_Ｃmix（ω）が混合した信号とを分離可能であり、分離部ｂ１は同様に、ゾーンＡ、Ｂの領域からの音源信号Ｓ_Ａmix（ω）、Ｓ_Ｂmix（ω）が混合した信号と、ゾーンＣの領域からの音源信号Ｓ_Ｃ（ω）とを分離可能で、この段階で、Ｓ_Ａ（ω）とＳ_Ｃ（ω）が分離出来ている。この様にして得られた４つの信号からパワースペクトル領域で目的音抽出部１６０にて所定の操作を行うことで、Ｓ_Ｂ（ω）を求めることが出来る。ただし、ここで、Ｓ_Ａmix（ω）、Ｓ_Ｂmix（ω）、Ｓ_Ｃmix（ω）は他信号と混合された時の各信号を表す。

上記では、ゾーンＤに音源情報が無いかあるいはあってもレベル的に小さいことが前提であるが、もしゾーンＤに音源がある場合には、３つのマイク１０、１１、１２に指向性マイクを使用することでゾーンＤからの音源信号の混入を大幅に軽減することが可能である。
図２９には単一指向性マイクの設置例を示すが、一般的にこのように指向性マイクを使用するとアレイマイクのビームフォーマ部において各マイク間の指向性のバラツキなどで設計時の性能が出ないことが起こるが、本方式でもともとマイクの素子感度バラつきに影響を受けないのと同様、指向特性のバラツキにも影響を受けない一定の性能を実現可能できる。

図３０〜３２を参照して、目的音抽出部１６０における処理方式について詳細に説明する。図３０に示す処理方式は、２チャンネルのスペクトルサブトラクション処理と同様の処理方式である。つまり、片方のチャンネル信号としても目的音と妨害音とのパワースペクトルの和が求まっており、もう片方のチャンネル信号としても妨害音のパワースペクトルが求まっているため、これらを減算器１００ａで減算することにより目的音Ｓ_Ｂ（ω）を求めることが出来る。

図３１に示す処理方式は、目的音に妨害音が重畳されたものを２つ求めることが可能なため、加算器１０１ｂにてこれらを加算することで目的音のパワースペクトル情報を２倍の大きさとし、一方、加算器１０１ａにて妨害音同士を加算することで妨害音のパワースペクトルを求め、これに乗算器１０１ｃで一定ファクタ（Ｏ．Ｅ．Ｆ１〜２）を掛けて、減算器１０１ｄで加算器１０１ｂの出力から差分を計算することにより、目的音を抽出するものである。なお、減算器１０１ｄの出力の段階で原音信号より音量が大きいのでレベル調整部１０１ｅでレベル調整を行う。

図３２に示す処理方式は、図３１に示す加算器１０１ａ、１０１ｂの代わりに最小値計算１０２ａ、１０２ｂを使用するものである。尚、図３１では、Ｏ．Ｅ．Ｆは１．０より大きい方が音質が良い場合が多いが、図３２ではＯ．Ｅ．Ｆは１．０前後が良い。なお、図３２では最小値計算を行ったが、最小値計算の代わりに最大値計算でも良い。
また、分離したい目的音源の位置が本手法で最適な分離性能が得られる位置より大きく外れている場合があるが、第５実施形態で説明したように、マイクから出力される入力信号に遅延を与え音源の到来方向を仮想的に変えることで、出来るだけ最適な分離性能が得られるように操作することが可能である。

図３３には、本実施形態に係る音源分離システムの使用例を示す。パソコンへの音声入力の用途において、３つのマイク１０、１１、１２を使用して、小さい実装面積で、パソコン正面からの音声を、指向性を持たせて取得する例を示す。
［第８実施形態］
次に、第８実施形態について説明する。上述した実施形態においては、
（１）２つのマイクを使用してマイク間を結ぶ直線を中心として、左右からの音を分離する実施形態（２）３つのマイクを使用して正面からの音とその左右からの音を分離する実施形態について説明したが、図３４に示すように、２つのマイク１０、１１を使用して２つのマイク１０、１１を結ぶ直線の正面方向からの音を分離抽出したい場合がある。

この場合、指向性制御手段により２つのマイク１０、１１のうち片方マイクのからの出力信号に図３５（ｂ）に示すように遅延を与え、仮想的に３チャンネル目のマイク位置を作成することで、仮想的に図３５（ａ）に示す３マイク入力を実現することが可能である。図３６には、図３５で示した遅延操作を行う指向性制御手段の構成例を示す。図中においてＤｉ（ｉ＝１、２、３、４）は遅延素子を表すが、実際の遅延操作は時間領域で遅延操作を行っても良いし、スペクトル分析後に周波数領域で遅延操作を行っても良い。

図３７には、本実施形態に係る音源分離装置システムの構成例を示す。指向性制御手段１４１、１４２は、スペクトル分析部２０、２１と、遅延処理を行う遅延素子とで構成されている。処理順としては、スペクトル分析処理を行ってから遅延処理を行ってもよいし（図中のＴｙｐｅ１）、遅延処理を行ってからスペクトル分析処理を行ってもよい（図中のＴｙｐｅ２）。指向性制御手段１４１、１４２の出力信号は、本手法ＮＢＦ以降のブロックにおいてビームフォーマ３０、３１、パワー計算部４０、４１等での処理が行われ、処理後の信号が目的音抽出部５２に入力される。

図３８及び図３９には、目的音抽出部５２における処理方式の一例を示す。図３８は、θ₁とθ₂とがマイク１１、１２を結ぶ直線の垂線に対して対称な角度である場合の処理方式の一例を示し、図３９は、θ₁とθ₂とが前記垂線に対して対象な角度でない場合の処理方式の一例を示す。
［第９実施形態］
次に、第９実施形態について説明する。図４０は、第９実施形態に係る車載機器制御用音声認識システムの構成を示す図である。本実施形態においては、自動車等の車両に設けられた車載機器制御用音声認識システムに本発明に係る音源分離装置１を応用した例を示している。本応用例では、運転席と助手席の音声を２つのマイク１０、１１で取得し、音源分離装置１で運転席と助手席の音声を分離し、分離した運転席と助手席の音声をそれぞれ発話区間検出、音声認識処理、音声認識結果と自動車走行状態やその他運転状態によって有効な認識結果のみを使用して、機器の制御、システムの応答などを行うことで、車載機器制御用音声認識システムの信頼性の向上と車載機器制御用音声認識システムの応答の自由性の拡張などを提供するものである。

車載機器制御用音声認識システムは、本システムに特徴的なデータとして、記憶装置に助手席側認識語彙リスト１９０、運転席側認識語彙リスト１９１、助手席側有効語彙リスト２１０、及び、運転席側有効語彙リスト２１１を記憶している。運転席側認識語彙リスト１９１は運転席側から発せられる語彙の候補の一覧であり、助手席側認識語彙リスト１９０は助手席側から発せられる語彙の候補の一覧である。運転席側有効語彙リスト２１１は、車両の状態（自動車走行状態やその他運転状態）に応じた運転席側における有効な語彙リストである。助手席側有効語彙リスト２１０は、車両の状態に応じた助手席側における有効な語彙リストである。ここで、「有効」とは、語彙（音声コマンド）に応じた制御命令を出力することが許されている状態をいう。

本システムの動作を図４０を用いて説明すると、運転者および助手席の同乗者が発話した音声は２つのマイク１０、１１で収音され、音源分離装置１で運転席と助手席との音声に分離されたのち、それぞれ運転者用、助手席の同乗者用に用意された発話区間検出部１７０、１７１、音声認識部１８０、１８１に入力される。このとき、本発明に係る音源分離装置１の出力において２人の音声は精度よく分離されているために、助手席側発話区間検出部１７０、運転席側発話区間検出部１７１で両者の発話区間を精度よく分離出来ると同時に、助手席側音声認識部１８０、運転席側音声認識部１８１に相手の音声を抑圧した情報を与えることが可能で、相手の発話に影響を受けない音声認識処理を精度良く行うことが出来る。

本応用例では、各音声認識部１８０、１８１にそれぞれ専用にシステムの状態に関係なくどのような語彙を認識すべきかを指示するための助手席側認識語彙リスト１９０、運転席側認識語彙リスト１９１が提供されており、各音声認識部１８０、１８１はこの語彙リストに従って音声認識処理を行い、音声認識結果を制御部・状態遷移部２００に出力する。
制御部・状態遷移部２００が備える状態遷移部２０１は、音声認識結果及び現在の状態に基づいて次の状態に遷移できるようになっている。制御部・状態遷移部２００が備える制御部２０２では、状態遷移部２０１から得られる現在の状態と、音声認識部１８０、１８１からの音声認識結果とに基づいて、助手席側、運転席側それぞれに用意された助手席側有効語彙リスト２１０、運転席側有効語彙リスト２１１に基づいて、どの音声コマンドに応答（制御命令を出力）して良いかを調べる。同図に示す有効語彙リスト２１０、２１１においては、状態と音声コマンドの組合せに対して“○”が対応付けられている場合に、音声コマンドに応答可能なことを示している。例えば、運転席側においては、状態が“運転中”の場合に応答が許されている音声コマンドは“もっと”、“ライトつけて”、“すずしく”であり、また、“エアコン操作”、“ＣＤ”、“ＭＤ”は禁止されている。

そして、許されている音声コマンドのみに応答し、エアコンを操作したりライトをつけたりする制御を行うことで、車両の搭乗者は車内において快適に過ごすことができる。また、車載機器制御用音声認識システムの信頼性を上げることができると同時に、音声認識を使用したアプリケーション作成に仕様設計の自由度をより多く提供することが可能となる。
以上の使用例によれば、運転席と助手席の同乗者とから同時に発話された音声を同時に認識することが可能になったり、どちらか１人が発話した場合でもそれが運転席側からの発話なのか助手席側からの発話なのかを確実に検出して認識することが可能となるため、同乗者の行動を制限せず、発話者とその発話者の音声コマンドに対する応答を個別に設計することが出来るようになる。
［第１０実施形態］
次に、第１０実施形態について説明する。図４１には、本実施形態に係る携帯電話機３００を示している。携帯電話機３００には、マイク１０、１１及び図示せぬ音源分離装置が搭載されている。この携帯電話機３００は、通常はテレビ電話用であるが、モードを切り替えて集音マイクとしても使用可能である。図４１（ａ）はマイク１０、１１がテレビ電話用マイクとして動作している時の様子を示す図であり、図４１（ｂ）はマイク１０、１１が集音マイクとして動作している時の様子を示す図である。中規模の会議室などで、発表者がマイクを使うほど大規模な会議室でもなく、しかし、部屋が広く小さな声だと発表者の声が聞き取り難い場面で使用することができる。

以上説明したように、最小２本のマイクを互いに離して設置し、２本のマイクを結ぶ直線の垂線を中心として左右対称な角度に時間領域あるいは周波数領域にてビームフォーマにより死角を形成し、時間領域で死角を作成した場合には周波数領域に変換し、双方のビームフォーマのパワースペクトルの差分を計算し、得られた結果の係数変換を行うことで、左右の死角を中心として幅を持たせた指向特性を形成し、音源分離を行うことが可能となる。このように、マイクの素子感度に指向特性が影響を受けないという性質を実現することができ、マイクの素子感度のバラつきに影響を受けず、音源到来方向の想定方向とのずれや大きな初期反射に関しても適度に広い指向特性によりカバーし、安定した２つの音源の分離特性を実現することが可能となる。
［第１１実施形態］次に、第１１実施形態について説明する。図４２には抽出したい目的音がゾーンＡ（例えば運転席のゾーン）に存在し、それ以外の場所（ゾーンＢ，ゾーンＣ，ゾーンＤ）に妨害音が存在する状況下において、ゾーンＡの目的音を抽出する例が示してある。本手法を使用したアレイマイク２００１（例えば車室内で前方に配置（例えばルームミラーに設定））を使用した場合、ゾーンＡ／Ｃ（例えば運転席及びその後部座席のゾーン）とゾーンＢ／Ｄ（例えば助手席及びその後部座席のゾーン）に存在する音を分離することは可能であるがゾーンＡ（例えば運転席のゾーン）とゾーンＣ（例えばその後部座席のゾーン）とに存在する音を分離することは出来ない。しかし、本手法を使用したアレイマイク２００２を同図に記載されるようにゾーンＡ／ＢとゾーンＣ／Ｄの境界の位置に配置することでゾーンＡ／ＢとゾーンＣ/Ｄに存在する音を分離することが可能となるためゾーンＡの音のみを抽出することが可能となる。

具体的には、ゾーンＡ，Ｂ，Ｃ，Ｄに居る発話者Ａ，Ｂ，Ｃ，Ｄが同時に発話した場合、まずゾーンＡ／ＢとゾーンＣ／Ｄの境界に配置したアレイマイク２００２を使用することでゾーンＡ／Ｂからの音とゾーンＣ／Ｄからの音を分離することが可能となる。次にアレイマイク２００1によりゾーンＡ／Ｃからの音とゾーンＢ／Ｄからの音を分離することが出来る。最後にアレイマイク２００１を使用して求めたゾーンＡ／Ｃからの音とアレイマイク２００２を使用して求めたゾーンＡ／Ｂからの音を各周波数領域で比較し双方に共通にある周波数成分をゾーンＡからの音として分離することが可能となる。同様な処理により、各ゾーンＢ，Ｃ，Ｄからの音も個別に求めることが可能である。
［第１２実施形態］次に、第１２実施形態について説明する。図４３は、自動車などの環境下において音声認識により機器操作を行う状況を想定している。図４４は、そのときの機器操作のガイダンス音声と発話者の音声との関係を示す。

この様な場合、スピーカ１５から発話者Ａの発話のタイミングを促す目的で“目的地をどうぞ”などのガイダンス音が流れた後、機械音たとえば“ピッ”などの様な音が流れ、その後に発話者Ａは音声コマンドを発声する。しかし、ユーザが音声コマンドによる機器操作に慣れてくるにつれ、図４４に示すように、ガイダンス音声中に発話者Ａが発話を始めてしまう状況が発生するようになり、これが音声認識性能を下げる要因になっている。
この様な状況への対策として、一般的にはエコーキャンセラを使用しマイク１０からの収録音に混在するガイダンス音声を適応的に推定し取り除くことで対応している。また別の対応策として、図４５〜図４８に示すように、周波数分析後のマイク１０への１入力信号に関して、スペクトルサブトラクションを行ったり（図４５、図４６）、各周波数成分毎にガイダンス音声、発話者Ａの音声のどちらが多く含まれるかを推定し発話者Ａの音声のみが多く含まれる周波数成分のみを発話者Ａの音声として取り出すことが行われている（図４７、図４８）。

ここで、図４５、図４７において、フィルタ部１００１は、スピーカ１５からマイク１０までの音響的な反射パスを模擬したフィルタであり、予め求めておいたスピーカ１５からマイク１０までのインパルス応答を使用しても良いし、適応フィルタ処理により動的に求めておいても良い。
図４５における、ゲイン操作部１００２は、スペクトルサブトラクションを行う際に使用するオーバーサブトラクションファクタを決定する部分であり、スピーカ１５の音量に応じて１〜１０程度のゲインのなかから選択され使用する。

また、図４５における、目的音声抽出部１００３は、ゲイン操作部１００２及びスペクトル分析部２１の出力に基づいて、図４６に示すような処理を行い、処理結果の信号を、時間波形変換部１００４に出力する。
図４７における、閾値計算部１０１１は、ガイダンス音声の平均エネルギーを元に閾値ｔｈを決定する。
また、図４７における、目的音声抽出部１０１２は、閾値計算部１０１１及びスペクトル分析部２１の出力に基づいて、図４８に示すような処理を行い、処理結果の信号を、時間波形変換部１００４に出力する。なお、図４８に示すｔｈ_ｍｉｎは、同図に示すＸ_Ｆａｒ（ω）が有効な入力であると判断するための閾値となる。

また、時間波形変換部１００４は、第１の実施形態における時間波形変換部７０、７１と同様な処理を行う。
しかし、従来方においては図４３のように、発話者Ａのみが発話する状況においては上述のような構成により対応可能であるが、図４９に示すように発話者Ａ（例えば運転席の乗員）のみならず発話者Ｂ（例えば助手席の乗員）がいる場合に、図５０に示すように、発話者Ａのみならず発話者Ｂも何らかの発話をする場合が起こりえるが、この様な状況には対応することが出来ない。

このような状況に対し、図５１に示すように本手法と図４５または図４７で示したガイダンス音声削除部１０２１、１０２２とを組み合わせることで対応が可能となる。
具体的には、図５１においてガイダンス音声は車内のスピーカ１５から再生され、同時に発話者Ａ，発話者Ｂとも発話している状況下において、マイク１０およびマイク１１には、ガイダンス音声、発話者Ａの発話音声、発話者Ｂの発話音声が重畳されて入力されている。このとき、ガイダンス音声削除部１０２１およびガイダンス音声削除部１０２２では図４５または図４７に示した方法により、ガイダンス音声を除去し、結果として発話者Ａの音声と発話者Ｂの音声の両者の音声が重畳された信号を結果として出力する。また、ここでは後処理として使用する本手法への入力時の計算の無駄を省くために、時間波形には戻さず、周波数成分のまま本手法（図１）へ入力する。後段の本手法においても入力として周波数成分情報が入力されるためスペクトル分析部の処理を省き、ビームフォーマ部へ直接入力を行い、本手法を適用し処理を行うことにより出力結果として、発話者Ａの音声と発話者Ｂの音声を個別に得ることが可能となり、音声認識装置の信頼性、性能の向上とアプリケーションの自由度を大幅に拡大することが出来る。

また、上述した各種機能の組合せやマイクからの信号の遅延操作により、正面方向に狭い指向特性を実現したり、特定方向からの音源信号のみを検出することが可能となる。
加えて、マイク間隔を広げなくとも低域まで高い分離性能を確保できるため、実装スペースを削減することが可能であり、携帯機器などへの使用も可能となる。
なお、上述した実施形態においては、音源分離システムの各機能ブロックをプログラムで実現するとして説明したが、回路等を用いることによりハードウェアで実現することも可能である。

産業上の利用の可能性

音声認識装置、カーナビゲーション、集音装置、録音装置、音声コマンドによる機器の制御等、音源を精度よく分離する必要のあるあらゆる産業に利用可能である。

Claims

互いに離して配置された少なくとも２つのマイクロホンに対して複数の音源から発せられた音源信号が混合された混合音を入力し、該混合音から目的音源からの音源信号を分離する音源分離装置において、
前記マイクロホンのうちの２つのマイクロホンからなるマイクロホン対からの出力信号に対して第１の係数を用いた周波数領域での積和演算を行うことにより、前記目的音源のおおまかな方向から到来する音源信号を減衰させるための第１のビームフォーマ処理を行い、
かつ、
前記出力信号に対して、前記第１の係数と周波数領域で複素共役の関係にある第２の係数を用いた周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する２つのマイクロホンを結ぶ直線の垂線に対して前記おおまかな方向と対称な方向から到来する音源信号を減衰させるための第２のビームフォーマ処理を行うビームフォーマ手段と、
前記ビームフォ−マ手段により得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算手段と、
前記パワー計算手段により計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた当該差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出手段と
を備えることを特徴とする音源分離装置。
前記ビームフォーマ手段は、
互いに離して配置された３つのマイクロホンのうち、何れか２つのマイクロホンの組合せ及び他の２つのマイクロホンの組合せ各々について、前記第１のビームフォーマ処理及び前記第２のビームフォーマ処理を行うことを特徴とする
請求項１に記載の音源分離装置。
前記２つのマイクロホンのうちの一方のマイクロホンからの出力信号に対して遅延を与え、前記遅延に対応した角度だけ仮想的に前記垂線を回転させることにより目的音源方向を仮想的に補正する指向性制御手段をさらに備えることを特徴とする
請求項１又は２に記載の音源分離装置。
前記２つのマイクロホンのうちの一方のマイクロホンからの出力信号に対して第１の遅延を与え、当該第１の遅延に応じた角度だけ仮想的に前記垂線を回転させることにより目的音源の方向を仮想的に補正する第１の指向性制御手段と、
前記一方のマイクロホンまたは他方のマイクロホンのいずれか一方からの出力信号に対して第２の遅延を与え、前記２つのマイクロホンを結ぶ直線の垂線に対して前記回転とは反対方向に前記第２の遅延に応じた角度だけ前記垂線を回転させることにより目的音源の方向を仮想的に補正する第２の指向性制御手段と、をさらに備えることを特徴とする
請求項３に記載の音源分離装置。
前記音源信号が到来する方向を推定する到来方向推定手段をさらに備え、
前記指向性制御手段は、
前記到来方向推定手段により推定された到来方向に基づいて、２つの音源の位置が仮想的に２つのマイクロホンを結ぶ直線の垂線に対して対称となるように、該マイクロホンからの出力信号に対して遅延を与えることを特徴とする
請求項３又は４に記載の音源分離装置。
前記目的音スペクトル抽出手段により抽出されたパワースペクトル情報に対して、スペクトルサブトラクション処理を行うスペクトルサブトラクション手段をさらに備えたことを特徴とする
請求項１から５の何れか１項に記載の音源分離装置。
前記ビームフォーマ手段による処理を行う前に、雑音を低減する処理を行う定常雑音低減手段をさらに備えることを特徴とする
請求項１から６の何れか１項に記載の音源分離装置。
請求項１から７の何れか１項に記載の音源分離装置により分離された音源信号の音声認識を行う音声認識手段を備えた音声認識装置。
車両の運転席側から発せられる語彙の候補の一覧である運転席側認識語彙リスト及び助手席側から発せられる語彙の候補の一覧である助手席側認識語彙リストを記憶する認識語彙リスト記憶手段をさらに備え、
前記音声認識手段は、
前記認識語彙リスト記憶手段に記憶されている運転席側認識語彙リスト及び助手席側認識語彙リストに基づいて、前記音源分離装置により分離された音源信号の音声認識処理を行うことを特徴とする
請求項８に記載の音声認識装置。
現在の車両の状態を管理する状態遷移手段と、
車両の状態に応じた助手席側及び運転席側における有効な語彙リストを記憶する有効語彙リスト記憶手段と、
前記状態遷移手段で管理されている現在の車両の状態と、前記有効語彙リスト記憶手段に記憶されている語彙リストとに基づいて、前記音声認識手段により認識された語彙が有効か否かを判断し、該判断結果に応じて制御を行う制御手段とをさらに備えることを特徴とする
請求項８又は９に記載の音声認識装置。
請求項１から７の何れか１項に記載の音源分離装置を備えた携帯電話機。
互いに離して配置された少なくとも２つのマイクロホンのうちの２つのマイクロホンからなるマイクロホン対に対して、複数の音源から発せられた音源信号を入力する音源信号受信ステップと、
前記マイクロホン対を構成する２つのマイクロホンからの出力信号に対して、周波数領域で複素共役の関係にある２つの重み係数各々を用いて周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する２つのマイクロホンを結ぶ直線の垂線に対して対称であり、スペクトル情報を得ようとする目的音源のおおまかな方向及び前記おおまかな方向と対称な方向から到来する音源信号を各々減衰させるための第１のビームフォ−マ処理及び第２のビームフォーマ処理を行うビームフォーマ処理ステップと、
前記ビームフォ−マ処理ステップにおいて得られた音源信号各々についてパワースペクトル情報を算出するパワー計算ステップと、
前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた当該差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップと
を備えることを特徴とする音源分離方法。
コンピュータに、
互いに離して配置された少なくとも２つのマイクロホンのうちの２つのマイクロホンからなるマイクロホン対から、複数の音源から発せられた音源信号が混合された出力信号を取得する出力信号取得ステップと、
前記出力信号取得ステップにおいて取得された出力信号に対して、周波数領域で複素共役の関係にある２つの重み係数各々を用いて周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する２つのマイクロホンを結ぶ直線の垂線に対して対称であり、スペクトル情報を得ようとする目的音源のおおまかな方向及び前記おおまかな方向と対称な方向から到来する音源信号を各々減衰させるための第１のビームフォ−マ処理及び第２のビームフォーマ処理を行うビームフォーマ処理ステップと、
前記ビームフォ−マ処理ステップにおいて得られた音源信号各々についてパワースペクトル情報を算出するパワー計算ステップと、
前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた当該差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップと
を実行させるためのプログラム。