JP5543023B2 - 目的音強調装置およびカーナビゲーションシステム - Google Patents
目的音強調装置およびカーナビゲーションシステム Download PDFInfo
- Publication number
- JP5543023B2 JP5543023B2 JP2013516075A JP2013516075A JP5543023B2 JP 5543023 B2 JP5543023 B2 JP 5543023B2 JP 2013516075 A JP2013516075 A JP 2013516075A JP 2013516075 A JP2013516075 A JP 2013516075A JP 5543023 B2 JP5543023 B2 JP 5543023B2
- Authority
- JP
- Japan
- Prior art keywords
- beamformer
- unit
- calculation
- indoor environment
- frequency band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004364 calculation method Methods 0.000 claims description 99
- 238000000034 method Methods 0.000 claims description 47
- 238000011156 evaluation Methods 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 22
- 230000010354 integration Effects 0.000 claims description 13
- 239000006185 dispersion Substances 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Description
この発明は、マイクロフォンアレイの出力信号から目的音を強調した音声信号を生成する目的音強調装置、およびこの目的音強調装置を利用したカーナビゲーションシステムに関する。
例えば自動車の車室のように雑音が大きい環境または複数の信号源が存在する環境の中で、車載ハンズフリーのような通話システムを構築するためには、特定の信号源(話者)の信号のみを分離して抽出する技術が必要である。そのような技術の一つとしてビームフォーマがある。ビームフォーマは、マイクロフォンアレイにより取得した複数チャネルの信号を足し合わせることで目的方向の信号を強調するものであり、固定型のビームフォーマと適応型のビームフォーマがある。最も単純な固定型ビームフォーマは遅延和法(Delay and Sum)であり、適法型のビームフォーマには最尤法(ML法)、最小分散法(MVDR)、一般化サイドローブキャンセラ(GSC)などがある(例えば、非特許文献1参照)。
遅延和法は、目的方向にマイク感度の指向性を向ける方式であり、一般に計算量が少ないが、車載目的などリソースに制限がある場合はサイドローブが大きい、残響環境に弱い、低周波領域に対して十分な指向性が得られないなどの課題があった。
低周波領域において指向性を上げるためには、マイクロフォンアレイの全体のアレイ長を長くする必要がある。例えば1000Hzの音に対してメインローブが±10°程度の指向性を得ようとすればアレイ長は約2m必要となる。
また、単純にマイクロフォンの間隔を長くすることによりアレイ長を長くしても、グレーティングローブが目的方向以外に発生し、指向性が低下する(例えば、非特許文献2参照)。
従って、グレーティングローブを抑制しつつ低周波領域での指向性を保つためには、多数のマイクロフォンを密に並べる必要があり、コストが増大してしまう。
低周波領域において指向性を上げるためには、マイクロフォンアレイの全体のアレイ長を長くする必要がある。例えば1000Hzの音に対してメインローブが±10°程度の指向性を得ようとすればアレイ長は約2m必要となる。
また、単純にマイクロフォンの間隔を長くすることによりアレイ長を長くしても、グレーティングローブが目的方向以外に発生し、指向性が低下する(例えば、非特許文献2参照)。
従って、グレーティングローブを抑制しつつ低周波領域での指向性を保つためには、多数のマイクロフォンを密に並べる必要があり、コストが増大してしまう。
一方、適応型のビームフォーマは、目的方向の感度を一定に保った上で雑音音源が死角になるような指向性を形成する方式であり、低周波領域に対しても有効で、かつ、残響環境下でも雑音抑圧を行うことができるが、計算量が大きい、拡散性雑音には効果が弱いなどの課題があった。
そこで、少ないマイクロフォンでも高い音源分離性能を実現するために、例えば特許文献1では複数のビームフォーマを用意している。周波数帯域毎にそれらのビームフォーマを適用した結果より、最も振幅の大きいビームフォーマの出力を採用して合成することで音源分離性能を高め、音声認識精度を向上させている。
また例えば、特許文献2では周波数帯域毎のビームフォーマのビーム幅および環境雑音モデルなどから、複数のビームフォーマを用いて特定領域内の角度区間範囲を最適にカバーする包括的ビームフォーマが提案されている。
また例えば、特許文献2では周波数帯域毎のビームフォーマのビーム幅および環境雑音モデルなどから、複数のビームフォーマを用いて特定領域内の角度区間範囲を最適にカバーする包括的ビームフォーマが提案されている。
浅野太著、「音のアレイ信号処理―音源の定位・追跡と分離―」、株式会社コロナ社、2011年、p69−106
大賀寿郎、山崎芳男、金田豊共著、「音響システムとディジタル処理」、社団法人電子情報通信学会、1995年、p181−186
上記特許文献1,2の方式は汎用性を追求したものであった。そのため、上記特許文献1のように複数のビームフォーマから得られる信号のうちの振幅が最大のものを選択すると、車内のようなノイズと音声のパワーが近い場合にノイズ源を選択してしまうという課題があった。また、上記特許文献2の方式は特定方向から到来する目的音を最適に強調するものではないので、車内の話者の音声を最適に強調するためには更なる改良が求められる。
この発明は、上記のような課題を解決するためになされたもので、複数の方式のビームフォーマを室内環境モデルに従って周波数帯域毎に切り替えて、室内の話者の音声信号を最適に強調することを目的とする。
この発明の目的音強調装置は、室内に設置された2個以上のマイクロフォンからの出力信号を周波数領域の信号に変換する演算部と、演算部が変換した複数の周波数領域の信号から、所定周波数帯域毎に目的音を強調した信号を生成するビームフォーマを、異なる方式で2つ以上有するビームフォーマ群と、室内環境における所定周波数帯域毎の雑音特性およびビームフォーマそれぞれの指向特性の情報を保持する室内環境モデル記憶部と、所定周波数帯域毎に、ビームフォーマそれぞれを車内環境モデル記憶部が保持する指向特性と雑音特性に基づいて評価し、当該評価の最も高いビームフォーマを選択するビームフォーマ種別判定部と、演算部が変換した周波数領域の信号を所定周波数帯域毎に、ビームフォーマ種別判定部が選択したビームフォーマへ出力する出力切替部と、ビームフォーマ群が出力する所定周波数帯域毎の信号を結合する信号結合部とを備えるものである。
この発明のカーナビゲーションシステムは、車内に設置される2個以上のマイクロフォンと、各マイクロフォンからの出力信号を入力に用いて、車内の話者の声を強調した音声信号を生成する上述の目的音強調装置と、目的音強調装置が生成した音声信号を利用してハンズフリー通話を行うハンズフリー通話制御部とを備えるものである。
この発明によれば、室内環境における音響特性に基づいて周波数帯域毎にビームフォーマを評価し、最適なビームフォーマにより目的音を強調するようにしたので、室内の話者の音声信号を最適に強調することができる。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1に示すカーナビゲーションシステム1は、車内の音声信号を収録して電気信号に変換するマイク2,3からなるマイクロフォンアレイと、これらマイク2,3の出力信号を入力に用いて目的音を強調する目的音強調装置10と、目的音を強調処理した音声信号を利用して(送信して)ハンズフリー通話を行うハンズフリー通話制御部4と、経路探索及び案内を行うナビゲーション制御部(不図示)などから構成されている。このカーナビゲーションシステム1において、マイク2,3は10cm程度の間隔とし、車内のバックミラー等に取り付けることができる。また、目的音強調装置10の目的音声は運転者の声であり、従って目的方向は運転席方向である。また、図示例ではマイク数を2個としたが、一般にビームフォーマは2チャネル以上の入力を扱えるため、マイク数を3個以上にしてもよい。ただし、本実施の形態1では説明を簡単にするため2個のマイク2,3を例に用いて説明する。
実施の形態1.
図1に示すカーナビゲーションシステム1は、車内の音声信号を収録して電気信号に変換するマイク2,3からなるマイクロフォンアレイと、これらマイク2,3の出力信号を入力に用いて目的音を強調する目的音強調装置10と、目的音を強調処理した音声信号を利用して(送信して)ハンズフリー通話を行うハンズフリー通話制御部4と、経路探索及び案内を行うナビゲーション制御部(不図示)などから構成されている。このカーナビゲーションシステム1において、マイク2,3は10cm程度の間隔とし、車内のバックミラー等に取り付けることができる。また、目的音強調装置10の目的音声は運転者の声であり、従って目的方向は運転席方向である。また、図示例ではマイク数を2個としたが、一般にビームフォーマは2チャネル以上の入力を扱えるため、マイク数を3個以上にしてもよい。ただし、本実施の形態1では説明を簡単にするため2個のマイク2,3を例に用いて説明する。
目的音強調装置10は、FFT(Fast Fourier Transform)演算部11,12と、車内環境モデル記憶部13と、ビームフォーマ種別判定部14と、BF(BeamFormer)セレクタ(出力切替部)15と、第1ビームフォーマ16と、第2ビームフォーマ17と、信号結合部18とから構成されている。
FFT演算部11は、FFTにより、マイク2の出力信号を時間領域から周波数領域に変換して、BFセレクタ15へ出力する。同様に、FFT演算部12はマイク3の出力信号を周波数領域に変換してBFセレクタ15へ出力する。なお、周波数領域への変換方式はFFTに限定されるものではない。また、FFT演算部はカーナビゲーションシステム1の有するマイクの数と同数用意すればよく、図示例のように2個に限定されるものではない。
車内環境モデル記憶部13は、特定車種の車内環境の雑音特性をモデル化して保持するメモリである。ビームフォーマ種別判定部14は、車内環境モデル記憶部13の保持する車内環境モデルに従って、BFセレクタ15から出力される所定の周波数帯域毎の信号に適用すべきビームフォーマ種別を判定する。BFセレクタ15は、FFT演算部11,12から出力される周波数領域の信号を所定の周波数帯域毎に分割してビームフォーマ種別判定部14に出力すると共に、その分割した信号を、ビームフォーマ種別判定部14の判定結果に基づいて適用すべきビームフォーマへ出力する分別器である。
第1ビームフォーマ16および第2ビームフォーマ17は互いに異なる方式のビームフォーマ器であり、BFセレクタ15から出力される周波数帯域の信号に対してビームフォーミング処理を行う。ここでは、第1ビームフォーマ16として固定型の遅延和法、第2ビームフォーマ17として適応型の最小分散法のビームフォーマ器を用いる。なお、遅延和法および最小分散法は公知の技術であるため、詳細な説明は省略する。
信号結合部18は、第1ビームフォーマ16および第2ビームフォーマ17から出力される周波数帯域毎の信号を結合し、逆FFTなどにより時間領域に変換して音声信号に復元する。
次に、図2に示すフローチャートを用いて、目的音強調装置10の動作を説明する。
FFT演算部11,12は、マイク2,3の出力信号をそれぞれ周波数領域の信号に変換して、BFセレクタ15へ出力する(ステップST1)。BFセレクタ15は、各周波数領域の信号を所定の帯域幅に分割し、帯域毎に(例えば周波数の小さい帯域から順に)ビームフォーマ種別判定部14へ出力する(ステップST2)。ビームフォーマ種別判定部14は、車内環境モデル記憶部13の保持する車内環境モデルに基づいて、BFセレクタ15から与えられた周波数帯域の信号を適用すべきビームフォーマ種別を判定する(ステップST3)。ビームフォーマ種別判定方法の詳細は後述する。
FFT演算部11,12は、マイク2,3の出力信号をそれぞれ周波数領域の信号に変換して、BFセレクタ15へ出力する(ステップST1)。BFセレクタ15は、各周波数領域の信号を所定の帯域幅に分割し、帯域毎に(例えば周波数の小さい帯域から順に)ビームフォーマ種別判定部14へ出力する(ステップST2)。ビームフォーマ種別判定部14は、車内環境モデル記憶部13の保持する車内環境モデルに基づいて、BFセレクタ15から与えられた周波数帯域の信号を適用すべきビームフォーマ種別を判定する(ステップST3)。ビームフォーマ種別判定方法の詳細は後述する。
BFセレクタ15は、処理対象の周波数帯域の信号についてビームフォーマ種別判定部14から適用すべきビームフォーマ種別の判定結果を受け取ると、その判定結果に従って第1ビームフォーマ16および第2ビームフォーマ17のいずれか選択された方へその周波数帯域の信号を出力する。そして、第1ビームフォーマ16また第2ビームフォーマ17のいずれか選択されたビームフォーマが、入力された処理対象の周波数帯域の信号をビームフォーミング処理する(ステップST4)。
最後に、信号結合部18が、第1ビームフォーマ16および第2ビームフォーマ17から出力される各周波数帯域の信号を結合して、目的音(即ち、運転者の音声)の強調された音声信号としてハンズフリー通話制御部4に出力する。
最後に、信号結合部18が、第1ビームフォーマ16および第2ビームフォーマ17から出力される各周波数帯域の信号を結合して、目的音(即ち、運転者の音声)の強調された音声信号としてハンズフリー通話制御部4に出力する。
次に、ビームフォーマ種別判定処理の詳細を説明する。
図3は、車内環境モデル記憶部13が保持する車内環境モデルを説明する図である。車内環境モデルは、第1ビームフォーマ16の指向特性の情報(以下、第1ビームフォーマ指向特性)131、第2ビームフォーマ17の指向特性の情報(以下、第2ビームフォーマ指向特性)132、および車内推定雑音パワー133の情報を含む。
図3は、車内環境モデル記憶部13が保持する車内環境モデルを説明する図である。車内環境モデルは、第1ビームフォーマ16の指向特性の情報(以下、第1ビームフォーマ指向特性)131、第2ビームフォーマ17の指向特性の情報(以下、第2ビームフォーマ指向特性)132、および車内推定雑音パワー133の情報を含む。
第1ビームフォーマ指向特性131は、対象車の車内における、第1ビームフォーマ16の周波数帯域毎の指向特性を示す情報である。第1ビームフォーマ16は遅延和法であるので、対象車の車内における音声が平面波で近似できる場合は、指向特性を下式(1)のように求めることができる。
ただし、θLは目的方向の角度、dはマイクの間隔(ここでは10cm)、Mはマイク数(ここでは2個)、fは周波数、cは音速である。
ただし、θLは目的方向の角度、dはマイクの間隔(ここでは10cm)、Mはマイク数(ここでは2個)、fは周波数、cは音速である。
上式(1)より、θ方向の感度を求め、周波数毎の目的方向θLのメインローブ幅を求めて、予め車内環境モデル記憶部13に設定しておけばよい。図4は、周波数f=1500Hzにおける第1ビームフォーマ16の指向特性の例を示すグラフである。グラフにおいて、各角度における中心からの半径は、その角度におけるビームフォーマのゲインの大きさを示す。
他方、車内形状が複雑で、音声を平面波で近似できない場合は、指向特性を予め実験により測定して、車内環境モデル記憶部13に設定しておけばよい。指向特性を測定するためには、TSP(Time Stretched Pulse)信号などのスイープ信号を所定の位置から発信し、マイク2,3で収録した音声信号を第1ビームフォーマ16により処理して、そのパワーを車内環境モデル記憶部13に設定すればよい。このときの所定の位置は、例えばマイク2,3の半径50cm地点において所定角度毎の位置などとする。
また、第2ビームフォーマ17は適応型の最小分散法であるので、上述したような測定により指向特性を求め、第2ビームフォーマ指向特性132として車内環境モデル記憶部13に予め設定しておけばよい。
車内推定雑音パワー133は、対象車の車内における平均的な雑音パワーを周波数の関数として表した情報である。図5は、車内推定雑音パワー133の一例を示すグラフである。この車内推定雑音パワー133により、対象車の車内について、特定の周波数における雑音パワーを推定することができる。
図6は、ビームフォーマ種別判定部14によるビームフォーマ種別判定処理(図2のステップST3に相当する)の詳細を示すフローチャートである。
ビームフォーマ種別判定部14は、BFセレクタ15から出力される周波数(または周波数帯域)fの信号を受け取り(ステップST31)、以下の処理により、この周波数fに適用すべきビームフォーマの種別(第1ビームフォーマ16または第2ビームフォーマ17)を判定する。
ビームフォーマ種別判定部14は、BFセレクタ15から出力される周波数(または周波数帯域)fの信号を受け取り(ステップST31)、以下の処理により、この周波数fに適用すべきビームフォーマの種別(第1ビームフォーマ16または第2ビームフォーマ17)を判定する。
ビームフォーマ種別判定部14は、車内環境モデル記憶部13から周波数fに対応する第1ビームフォーマ指向特性131と、第2ビームフォーマ指向特性132と、車内推定雑音パワー133とを取得する(ステップST32)。そして、第1ビームフォーマ16について、第1ビームフォーマ指向特性131と車内推定雑音パワー133を用いて所定の評価式により評価し、第2ビームフォーマ17について、第2ビームフォーマ指向特性132と車内推定雑音パワー133を用いて所定の評価式により評価して、それぞれ評価値を求める(ステップST33)。
評価式はV(BF,f,NP)の形式とし、ビームフォーマ種別BF(第1ビームフォーマ16をBF_1、第2ビームフォーマ17をBF_2とする)、周波数f、推定雑音パワーNPの関数とする。
ここでは、例として第1ビームフォーマ16の評価式を下式(2)、第2ビームフォーマ17の評価式を下式(3)とする。
ここでは、例として第1ビームフォーマ16の評価式を下式(2)、第2ビームフォーマ17の評価式を下式(3)とする。
V(BF_1,f,NP) (2)
=V_BF_1(f)
=1/(第1ビームフォーマ16の周波数fでのメインローブ幅)
V(BF_2,f,NP) (3)
=V_BF_B(f,NP)
={NP/(基準値)}/(第2ビームフォーマ17の周波数fでのメインローブ幅)
=V_BF_1(f)
=1/(第1ビームフォーマ16の周波数fでのメインローブ幅)
V(BF_2,f,NP) (3)
=V_BF_B(f,NP)
={NP/(基準値)}/(第2ビームフォーマ17の周波数fでのメインローブ幅)
ここで、メインローブ幅は、目的方向を基準としてゲイン値が所定以下になる目的方向を中心とした角度θの幅として定義する。このようにすることで、メインローブ幅が狭い(即ち、目的方向への指向性が高い)特性を有するビームフォーマの評価値が高くなる。また、基準値を適切に設定することにより、雑音が大きいときほど第2ビームフォーマ17の評価値が高くなり、雑音が低いときほど第1ビームフォーマ16の評価値が高くなりやすくなる。これは、第2ビームフォーマ17として用いる最小分散法が、雑音の少ない場合に性能が劣化しやすい性質をもつためである。
ビームフォーマ種別判定部14は、第1ビームフォーマ16の評価値と第2ビームフォーマ17の評価値を比較して(ステップST34)、第1ビームフォーマ16の評価値が高ければ第1ビームフォーマ16を選択してBFセレクタ15へ通知し(ステップST35)、一方、第2ビームフォーマ17の評価値が高ければ第2ビームフォーマ17を選択してBFセレクタ15へ通知する(ステップST36)。なお、BFセレクタ15はステップST36の通知を受けて、選択されたビームフォーマへ周波数fの信号を出力する。
そして、ビームフォーマ種別判定部14は、BFセレクタ15から出力される全周波数帯域の信号(即ち、FFT演算部11,12が出力する周波数領域の信号)について、ビームフォーマ種別を判定し終われば(ステップST37“YES”)、一連のビームフォーマ種別判定処理を終了する。他方、まだ判定の終わっていない周波数があれば(ステップST37“NO”)、再びステップST31に戻る。
なお、上述の説明では、図3に示す車内環境モデル記憶部13の第1ビームフォーマ指向特性131、第2ビームフォーマ指向特性132および車内推定雑音パワー133を用いてビームフォーマの評価を行ったが、この評価方法に限定されるものではない。
例えば、図7の例では、車内環境モデル記憶部13aが、新たに、周波数帯域毎のマイク2,3の指向特性を示す情報(以下、マイク指向特性)134を保持している。この構成の場合、ステップST33のビームフォーマ評価処理において、ビームフォーマ種別判定部14が、周波数帯域毎のマイク指向特性とビームフォーマ指向特性の比により、推定SN(信号対雑音)比を求める。
ここでは、例として第1ビームフォーマ16の評価式を下式(4)、第2ビームフォーマ17の評価式を下式(5)とする。
例えば、図7の例では、車内環境モデル記憶部13aが、新たに、周波数帯域毎のマイク2,3の指向特性を示す情報(以下、マイク指向特性)134を保持している。この構成の場合、ステップST33のビームフォーマ評価処理において、ビームフォーマ種別判定部14が、周波数帯域毎のマイク指向特性とビームフォーマ指向特性の比により、推定SN(信号対雑音)比を求める。
ここでは、例として第1ビームフォーマ16の評価式を下式(4)、第2ビームフォーマ17の評価式を下式(5)とする。
ここで、GM(θ),GBF1(θ),GBF2(θ)はそれぞれマイク2,3、第1ビームフォーマ16、第2ビームフォーマ17の角度θ方向の周波数fにおけるゲイン値である。θWは積分を実行する角度領域である。指向特性は360°で得られるが、実用上マイクの後ろ側などは音源が存在しないため、後ろの指向特性を考慮すべきでない場合がある。そのため、対象車の車内環境に合わせてθWを決定する。これにより、鋭い指向特性をもつビームフォーマが選択されやすくなる。また、上式(3)と同様に、推定雑音パワーと基準値の比の項を、式(5)に乗算しても良い。
以上より、実施の形態1によれば、目的音強調装置10は、車内に設置されたマイク2,3からの出力信号を周波数領域の信号に変換するFFT演算部11,12と、FFT演算部11,12が変換した2つの周波数領域の信号から、所定周波数帯域毎に運転席の方向から到来する音声を強調した信号を生成する遅延和法の第1ビームフォーマ16および最小分散法の第2ビームフォーマ17を有するビームフォーマ群と、第1ビームフォーマ指向特性131、第2ビームフォーマ指向特性132および車内推定雑音パワー133を保持する車内環境モデル記憶部13と、FFT演算部11,12が変換した周波数領域の信号を所定周波数帯域毎に、第1および第2ビームフォーマ16,17を第1および第2ビームフォーマ指向特性131,132と車内推定雑音パワー133に基づいて評価し、評価の高いビームフォーマを選択するビームフォーマ種別判定部14と、所定周波数帯域毎に、ビームフォーマ種別判定部14が選択した第1または第2ビームフォーマ16,17へ出力するBFセレクタ15と、ビームフォーマ群が出力する所定周波数帯域毎の信号を結合する信号結合部18とを備えるように構成した。このため、対象車特有の車内環境に最適なビームフォーマを周波数別に切り替えて適用することができるようになり、SN比が向上し、運転席から到来する音声を最適に強調することができる。また、車内環境モデル記憶部13の保持する車内環境モデルを対象車に合わせて変更することにより、簡易に、最適なビームフォーマ設定を行うことができる。
また、ビームフォーマ群の1つに計算コストの低い固定ビームフォーマを用いるようにしたので、計算量を抑えることができる。
また、ビームフォーマ群の1つに雑音が少ない場合に性能が劣化する最小分散法を用いたので、ビームフォーマ種別評価のための評価式(3)のように推定雑音パワーと基準値の比の項を乗算するようにすれば、雑音が少ないときはもう一方の遅延和法が選択されやすくなる。よって、ビームフォーマの種別毎の短所を補完し合うことができる。
また、ビームフォーマ群の1つに雑音が少ない場合に性能が劣化する最小分散法を用いたので、ビームフォーマ種別評価のための評価式(3)のように推定雑音パワーと基準値の比の項を乗算するようにすれば、雑音が少ないときはもう一方の遅延和法が選択されやすくなる。よって、ビームフォーマの種別毎の短所を補完し合うことができる。
なお、上記実施の形態1では、第1ビームフォーマ16と第2ビームフォーマ17のどちらを適用すべきか動的に判定する構成としたが、これに限定されるものではない。車内環境モデル記憶部13は静的なデータ集合であるので、予め周波数帯域毎にどちらのビームフォーマを適用するかを、図6に示すフローチャートに従って決定しておき、周波数帯域毎に適用するビームフォーマ種別を表にして保持しておくこともできる。
また、上記実施の形態1では、ハンズフリー通話制御部4を備えたカーナビゲーションシステム1に対して目的音強調装置10を適用した例を説明したが、用途はこれに限定されるものではない。例えば、経路案内を行う際の目的地入力を音声認識によって行う場合、前段処理として運転者が発話した目的地の音声をマイク2,3で収録して、目的音強調装置10にて適切にビームフォーミング処理した音声信号をカーナビゲーションシステム1の音声認識部が使用するなどの構成にしてもよい。
さらに、上記説明ではマイク2,3の間隔を10cm程度にしたマイクロフォンアレイを用いたが、これは車内への搭載を前提とした値であって、10cm間隔に規定されるものではない。ただし、間隔をある程度長くすれば遅延和法(第1ビームフォーマ16)にて鋭い指向性が得られるという利点があるが、間隔が長くなりすぎるとサイドローブ(グレーティングローブ)が発生するため指向性は失われるため、適度な間隔に設定する必要がある。
実施の形態2.
図8は、本実施の形態2に係る目的音強調装置10を適用したカーナビゲーションシステム1の構成を示すブロック図である。本実施の形態2に係る目的音強調装置10は、新たに、時系列で入力される周波数領域の信号から現在の車内状況を推定する車内状況推定部19を備える。なお、図8において図1と同一または相当の部分については同一の符号を付し説明を省略する。
図8は、本実施の形態2に係る目的音強調装置10を適用したカーナビゲーションシステム1の構成を示すブロック図である。本実施の形態2に係る目的音強調装置10は、新たに、時系列で入力される周波数領域の信号から現在の車内状況を推定する車内状況推定部19を備える。なお、図8において図1と同一または相当の部分については同一の符号を付し説明を省略する。
BFセレクタ15は、FFT演算部11,12から出力される周波数領域の信号を所定の帯域幅を持つ信号に分割し、周波数の小さい帯域から順にビームフォーマ種別判定部14および車内状況推定部19に出力する。
車内状況推定部19は、BFセレクタ15から出力される周波数帯域毎の信号に基づいて、現在の車内状況(周波数帯域毎の推定雑音パワー)を推定し、状況パラメータとしてビームフォーマ種別判定部14に出力する。
なお、車内状況推定部19の雑音パワーの推定方法としては、公知の技術(例えば、特開平10−171487号公報)により周波数領域の信号から音声区間と無音声区間(即ち、雑音区間)とを検出し、検出した雑音区間の信号からパワーを算出することで雑音パワーを推定すればよい。
また、推定雑音パワーの計算はマイク毎に異なるため、車内状況推定部19はマイク2,3の信号の平均値を使用したり、どちらか一方の信号を選択して使用したりすればよい。
なお、車内状況推定部19の雑音パワーの推定方法としては、公知の技術(例えば、特開平10−171487号公報)により周波数領域の信号から音声区間と無音声区間(即ち、雑音区間)とを検出し、検出した雑音区間の信号からパワーを算出することで雑音パワーを推定すればよい。
また、推定雑音パワーの計算はマイク毎に異なるため、車内状況推定部19はマイク2,3の信号の平均値を使用したり、どちらか一方の信号を選択して使用したりすればよい。
ビームフォーマ種別判定部14は、車内環境モデル記憶部13に予め保持されている車内推定雑音パワー133に代えて、車内状況推定部19から出力される周波数帯域毎の推定雑音パワーを用いて、BFセレクタ15から出力される周波数帯域毎の信号に適したビームフォーマ種別を判定する。
従って、車内環境モデル記憶部13は、車内推定雑音パワー133を予め保持しておく必要はない。
従って、車内環境モデル記憶部13は、車内推定雑音パワー133を予め保持しておく必要はない。
以上より、実施の形態2によれば、目的音強調装置10はマイク2,3の出力信号を用いて車内環境の雑音パワーを推定する車内状況推定部19を備え、ビームフォーマ種別判定部14は、車内環境モデル記憶部13が保持する車内推定雑音パワー133に代えて、車内状況推定部19が推定する雑音パワーを用いるように構成した。このため、現在の出力信号から雑音を推定でき、より状況に適したビームフォーマ種別を選択することができる。
実施の形態3.
図9は、本実施の形態3に係る目的音強調装置10を適用したカーナビゲーションシステム1の構成を示すブロック図である。なお、図9において図1と同一または相当の部分については同一の符号を付し説明を省略する。
図9は、本実施の形態3に係る目的音強調装置10を適用したカーナビゲーションシステム1の構成を示すブロック図である。なお、図9において図1と同一または相当の部分については同一の符号を付し説明を省略する。
図10は、車内環境モデル記憶部13bが保持する車内環境モデルを説明する図である。この車内環境モデル記憶部13bは、第1ビームフォーマ指向特性131と第2ビームフォーマ指向特性132と車内推定雑音パワー133に加え、新たにビームフォーミング回避周波数135の情報を保持している。
このビームフォーミング回避周波数135は、車両部品(エンジン、オーディオなど)の振動など複数のマイク2,3間で差異のない雑音の周波数帯域を示す情報であり、これはビームフォーミングでは抑圧できない雑音とする。例えばマイク2,3を取り付けるバックミラーが振動する場合などは、マイク2,3の出力信号間に強い相関があり、第1ビームフォーマ16または第2ビームフォーマ17を適用するとかえって雑音が強調されてしまうことが考えられる。このような雑音は対象車の車種に応じた特性として、予め実験により検出しておき、車内環境モデル記憶部13bにビームフォーミング回避周波数135として設定しておくことができる。
このビームフォーミング回避周波数135は、車両部品(エンジン、オーディオなど)の振動など複数のマイク2,3間で差異のない雑音の周波数帯域を示す情報であり、これはビームフォーミングでは抑圧できない雑音とする。例えばマイク2,3を取り付けるバックミラーが振動する場合などは、マイク2,3の出力信号間に強い相関があり、第1ビームフォーマ16または第2ビームフォーマ17を適用するとかえって雑音が強調されてしまうことが考えられる。このような雑音は対象車の車種に応じた特性として、予め実験により検出しておき、車内環境モデル記憶部13bにビームフォーミング回避周波数135として設定しておくことができる。
次に、図11に示すフローチャートを用いて、ビームフォーマ種別判定部14によるビームフォーマ種別判定処理の詳細を説明する。なお、図11に示すステップST31〜ST37は、図2に示すステップST31〜ST37と同一の処理であるため説明を省略し、ここではステップST41,ST42を中心に説明する。
ビームフォーマ種別判定部14は、ステップST33にてビームフォーマ評価を行う前に、処理対象の周波数(または周波数帯域)fがビームフォーミング回避周波数135に該当するか否かを判定する(ステップST41)。周波数fが回避周波数に該当すれば(ステップST41“YES”)、ビームフォーマ種別判定部14はその周波数fに適用すべきビームフォーマはないと判定して、その旨をBFセレクタ15に通知する(ステップST42)。
一方、周波数fが回避周波数に該当しなければ(ステップST41“NO”)、続くステップST33以降の処理により第1ビームフォーマ16と第2ビームフォーマ17のどちらかを選択する。
BFセレクタ15は、周波数fの信号について、ビームフォーマ種別判定部14からビームフォーミング処理なしの通知を受けた場合、その周波数fの信号を信号結合部18へ出力する。
一方、周波数fが回避周波数に該当しなければ(ステップST41“NO”)、続くステップST33以降の処理により第1ビームフォーマ16と第2ビームフォーマ17のどちらかを選択する。
BFセレクタ15は、周波数fの信号について、ビームフォーマ種別判定部14からビームフォーミング処理なしの通知を受けた場合、その周波数fの信号を信号結合部18へ出力する。
なお、ステップST33以降の処理により、第1ビームフォーマ16と第2ビームフォーマ17の評価値を求めるに際し、第1ビームフォーマ指向特性131、第2ビームフォーマ指向特性132および車内推定雑音パワー133を用いる評価方法以外にも、マイク指向特性134を用いたり、車内状況推定部19が求める推定雑音パワーを用いたりして評価してもよいことは言うまでもない。
以上より、実施の形態3によれば、目的音強調装置10は、車内環境モデル記憶部13bに第1および第2ビームフォーマ16,17による処理を回避する周波数帯域を示すビームフォーミング回避周波数135を格納しておき、ビームフォーマ種別判定部14は、ビームフォーマ評価対象の周波数帯域が車内環境モデル記憶部13bの保持するビームフォーミング回避周波数135に該当する場合にビームフォーマの選択を行わず、BFセレクタ15は、ビームフォーマ種別判定部14によるビームフォーマの選択が行われなかった周波数帯域の信号を信号結合部18へ出力するように構成した。このため、より対象車種に適合したビームフォーミング処理を行うことができる。
実施の形態4.
本実施の形態4に係る目的音強調装置10は、図1に示す目的音強調装置10と図面上では同様の構成であるため、以下では図1を援用して説明する。
本実施の形態4では、ビームフォーマの評価式V’(BF,f,NP)を、上記実施の形態1で説明した評価式V(BF,f,NP)を用いて以下のように定義する。
本実施の形態4に係る目的音強調装置10は、図1に示す目的音強調装置10と図面上では同様の構成であるため、以下では図1を援用して説明する。
本実施の形態4では、ビームフォーマの評価式V’(BF,f,NP)を、上記実施の形態1で説明した評価式V(BF,f,NP)を用いて以下のように定義する。
なお、上述したようにビームフォーマ種別BFとしてはBF_1(第1ビームフォーマ16)と、BF_2(第2ビームフォーマ17)とがある。
また、α(BF)はビームフォーマ種別毎に定められる係数パラメータであり、全てのビームフォーマ種別に対して一律で1を与えても良い。また、Cost(BF)はビームフォーマ種別に対してその計算コストを返す関数とする。この関数は、予めビームフォーマ種別毎の計算コストを表にして、車内環境モデル記憶部13などが保持しておくことで構築できる。
また、α(BF)はビームフォーマ種別毎に定められる係数パラメータであり、全てのビームフォーマ種別に対して一律で1を与えても良い。また、Cost(BF)はビームフォーマ種別に対してその計算コストを返す関数とする。この関数は、予めビームフォーマ種別毎の計算コストを表にして、車内環境モデル記憶部13などが保持しておくことで構築できる。
上式(7)を用いると、推定雑音パワーNPが大きい場合は計算量の大きさが問題とならず、VC(BF,NP)は1に近い値となる。よって、ビームフォーマの評価値(6)は、V(BF,f,NP)により求まる指向特性によって決まる。他方、推定雑音パワーNPが小さい場合は、計算コストが評価値へ寄与する度合いが増し、計算コストによりビームフォーマの評価値が決まる。
次に、図12に示すフローチャートを用いて、ビームフォーマ種別判定部14によるビームフォーマ種別判定処理の詳細を説明する。なお、この処理は、図2に示すステップST3に相当する。
ビームフォーマ種別判定部14は、先ず車内環境モデル記憶部13の車内推定雑音パワー133を参照し(ステップST51)、BFセレクタ15から出力された周波数領域の信号のうちのまだ判定を行っていない周波数帯域の推定雑音パワーを比較し、推定雑音パワーが最大となる周波数帯域(または周波数)fを選択する(ステップST52)。即ち、上記実施の形態1〜3では周波数帯域が小さい方から大きい方へと順に所定帯域幅毎にビームフォーマ種別判定処理を行ったが、本実施の形態4では推定雑音パワーが大きい順に所定帯域幅毎にビームフォーマ種別判定処理を行うことになる。
ビームフォーマ種別判定部14は、先ず車内環境モデル記憶部13の車内推定雑音パワー133を参照し(ステップST51)、BFセレクタ15から出力された周波数領域の信号のうちのまだ判定を行っていない周波数帯域の推定雑音パワーを比較し、推定雑音パワーが最大となる周波数帯域(または周波数)fを選択する(ステップST52)。即ち、上記実施の形態1〜3では周波数帯域が小さい方から大きい方へと順に所定帯域幅毎にビームフォーマ種別判定処理を行ったが、本実施の形態4では推定雑音パワーが大きい順に所定帯域幅毎にビームフォーマ種別判定処理を行うことになる。
ビームフォーマ種別判定部14は、選択した周波数帯域fの信号について、車内環境モデル記憶部13から第1ビームフォーマ指向特性131と車内推定雑音パワー133、および第2ビームフォーマ指向特性132と車内推定雑音パワー133を用いて、上式(6)より、第1ビームフォーマ16と第2ビームフォーマ17それぞれの評価値を求める(ステップST53)。そして、評価値同士を比較し(ステップST54)、第1ビームフォーマ16の評価値が高ければ第1ビームフォーマ16を選択してBFセレクタ15へ通知し(ステップST55)、第2ビームフォーマ17の評価値が高ければ第2ビームフォーマ17を選択してBFセレクタ15へ通知する(ステップST56)。
そして、ビームフォーマ種別判定部14は、推定雑音パワーの高い順にビームフォーマ種別判定を行い、BFセレクタ15から出力された全周波数帯域の信号についてビームフォーマ種別を判定し終われば(ステップST57“YES”)、一連のビームフォーマ種別判定処理を終了する。他方、また判定の終わっていない周波数があれば(ステップST57“NO”)、再びステップST51に戻る。
以上より、実施の形態4によれば、目的音強調装置10は、車内環境モデル記憶部13などに第1および第2ビームフォーマ16,17の各計算コストの情報を格納しておき、ビームフォーマ種別判定部14は、所定周波数帯域毎に、第1ビームフォーマ指向特性131、第2ビームフォーマ指向特性132、車内推定雑音パワー133および計算コストに基づいて評価するように構成した。さらに、ビームフォーマ種別判定部14は、車内環境モデル記憶部13の保持する車内推定雑音パワー133を参照して雑音パワーが大きい周波数帯域から順にビームフォーマの評価を行うように構成した。このため、推定雑音パワーが大きい周波数帯域では計算量に影響されずに指向特性の適正が高いビームフォーマ種別が選択され、反対に推定雑音パワーが小さくビームフォーマの指向特性があまり影響しない周波数帯域では計算量の小さいビームフォーマ種別が選択されるようになり、全体としての性能を大きく下げることなくトータルの計算量を小さくすることができる。
なお、上記実施の形態4では、上式(7)のように推定雑音パワーとの比により計算コストを考慮したが、計算コストを変数とした別の評価式を用いてもよい。
また、ビームフォーマ種別判定部14において雑音パワーの大きい順に周波数帯域を選択する際、車内環境モデル記憶部13の保持する車内推定雑音パワー133に代えて、上記実施の形態2のように車内状況推定部19を用いてリアルタイムに推定した雑音パワーを用いてもよい。
また、ビームフォーマ種別判定部14において雑音パワーの大きい順に周波数帯域を選択する際、車内環境モデル記憶部13の保持する車内推定雑音パワー133に代えて、上記実施の形態2のように車内状況推定部19を用いてリアルタイムに推定した雑音パワーを用いてもよい。
実施の形態5.
図13は、本実施の形態5に係る目的音強調装置10を適用したカーナビゲーションシステム1の構成を示すブロック図である。本実施の形態5に係る目的音強調装置10は、新たに、第1ビームフォーマ16および第2ビームフォーマ17による計算量を周波数帯域毎に積算していく計算量積算部20と、現在のCPU(Central Processing Unit)負荷状況を取得する負荷状況取得部21とを備える。なお、図13において図1と同一または相当の部分については同一の符号を付し説明を省略する。
図13は、本実施の形態5に係る目的音強調装置10を適用したカーナビゲーションシステム1の構成を示すブロック図である。本実施の形態5に係る目的音強調装置10は、新たに、第1ビームフォーマ16および第2ビームフォーマ17による計算量を周波数帯域毎に積算していく計算量積算部20と、現在のCPU(Central Processing Unit)負荷状況を取得する負荷状況取得部21とを備える。なお、図13において図1と同一または相当の部分については同一の符号を付し説明を省略する。
なお、図13に示す目的音強調装置10はコンピュータで構成されており、FFT演算部11,12、ビームフォーマ種別判定部14、BFセレクタ15、第1ビームフォーマ16、第2ビームフォーマ17、信号結合部18および計算量積算部20の処理内容を記述しているプログラムをコンピュータのメモリに格納し、コンピュータのCPUがメモリに格納されているプログラムを実行するものである。そのため、FFT演算部11,12、ビームフォーマ種別判定部14、BFセレクタ15、第1ビームフォーマ16、第2ビームフォーマ17、信号結合部18および計算量積算部20が、CPU負荷状況に影響を及ぼすことになる。そして、負荷状況取得部21は、このCPUの使用率X[%]を取得する。
また、目的音強調装置10のCPUをカーナビゲーションシステム1が共有している場合には、負荷状況取得部21が取得するCPUの使用率Xに、例えばハンズフリー通話制御部4なども影響を及ぼすことになる。
図14は、車内環境モデル記憶部13cが保持する車内環境モデルを説明する図である。この車内環境モデル記憶部13cは、第1ビームフォーマ指向特性131、第2ビームフォーマ指向特性132および車内推定雑音パワー133に加え、新たに計算余力テーブル136を保持している。
この計算余力テーブル136は、CPU使用率に応じたビームフォーマ群に割り当て可能な計算余力を示す情報である。
この計算余力テーブル136は、CPU使用率に応じたビームフォーマ群に割り当て可能な計算余力を示す情報である。
ここで、計算余力の一例を説明する。本実施の形態4では、目的音強調装置10が有するビームフォーマのうちの最も計算コストの小さいビームフォーマを全周波数帯域に適用した場合の計算量をMinCostとし、このMinCostとビームフォーマ群の計算コストの差分を計算余力とする。
本実施の形態4では、固定型の遅延和法を用いる第1ビームフォーマ16が最も計算コストが小さいので、これをMinCostとする。よって、計算余力テーブル136は、第2ビームフォーマ17の計算コストを計算余力として保持していることと等価になる。なお、このテーブルは、予めパラメータとして作成して車内環境モデル記憶部13cに設定しておけばよい。
本実施の形態4では、固定型の遅延和法を用いる第1ビームフォーマ16が最も計算コストが小さいので、これをMinCostとする。よって、計算余力テーブル136は、第2ビームフォーマ17の計算コストを計算余力として保持していることと等価になる。なお、このテーブルは、予めパラメータとして作成して車内環境モデル記憶部13cに設定しておけばよい。
次に、図15に示すフローチャートを用いて、ビームフォーマ種別判定処理の詳細を説明する。なお、この処理は、図2に示すステップST3に相当する。また、図15に示すステップST51〜ST57は、図12に示すステップST51〜ST57と同一の処理であるため説明を省略し、ここではステップST61〜ST66を中心に説明する。
先ず、負荷状況取得部21が、CPU使用率Xを取得する(ステップST61)。
先ず、負荷状況取得部21が、CPU使用率Xを取得する(ステップST61)。
続いてビームフォーマ種別判定部14が、負荷状況取得部21から出力されたCPU使用率Xに対応するビームフォーマ群の計算余力を、車内環境モデル記憶部13cの計算余力テーブル136を参照して取得し、計算余力Zとする(ステップST62)。
また、ビームフォーマ種別判定部14は、計算量積算部20が記憶している積算計算量をクリアする(ステップST63)。
また、ビームフォーマ種別判定部14は、計算量積算部20が記憶している積算計算量をクリアする(ステップST63)。
ビームフォーマ種別判定部14は、計算量積算部20を参照し、現在の積算計算量を取得し、積算計算量Yとする(ステップST64)。初回のステップST64では、前段のステップST63で積算計算量をクリアしたばかりなので、積算計算量Yは0である。続いて、積算計算量Yと計算余力Zとを比較し(ステップST65)、積算計算量Yが計算余力Zより大きい場合(ステップST65“YES”)、最小の計算コストとなる第1ビームフォーマ16を選択する(ステップST55)。これにより、CPU負荷が高い場合には最も計算コストの小さいビームフォーマを選択できる。
一方、積算計算量Yが計算余力Z以下の場合(ステップST65“NO”)、ビームフォーマ種別判定部14は車内環境モデル記憶部13cを参照し、上記実施の形態4と同様にまだ判定を行っていない周波数帯域のうち、推定雑音パワーが最大となる周波数帯域について、上式(6)より、適用すべきビームフォーマ種別を判定する(ステップST51〜ST56)。これにより、CPUの処理能力に余裕がある場合には、計算コストではなく、指向特性および推定雑音パワーに基づいて最適なビームフォーマを選択できる。
一方、積算計算量Yが計算余力Z以下の場合(ステップST65“NO”)、ビームフォーマ種別判定部14は車内環境モデル記憶部13cを参照し、上記実施の形態4と同様にまだ判定を行っていない周波数帯域のうち、推定雑音パワーが最大となる周波数帯域について、上式(6)より、適用すべきビームフォーマ種別を判定する(ステップST51〜ST56)。これにより、CPUの処理能力に余裕がある場合には、計算コストではなく、指向特性および推定雑音パワーに基づいて最適なビームフォーマを選択できる。
判定後、ビームフォーマ種別判定部14は、選択したビームフォーマについて下式(8)より求めた計算量を、計算量積算部20の保持している積算計算量に加算して、計算量積算部20を更新する(ステップST66)。
Cost(BF)−MinCost (8)
ここで、Cost(BF)は、上式(7)と同じであり、ビームフォーマ種別に対してその計算コストを返す関数である。また、MinCostは第1ビームフォーマ16の計算コストCost(BF_1)に相当する。
Cost(BF)−MinCost (8)
ここで、Cost(BF)は、上式(7)と同じであり、ビームフォーマ種別に対してその計算コストを返す関数である。また、MinCostは第1ビームフォーマ16の計算コストCost(BF_1)に相当する。
そして、ビームフォーマ種別判定部14は、推定雑音パワーの高い順にビームフォーマ種別判定を行い、BFセレクタ15から出力された全周波数帯域の信号についてビームフォーマ種別を判定し終われば(ステップST57“YES”)、一連のビームフォーマ種別判定処理を終了する。他方、また判定の終わっていない周波数があれば(ステップST57“NO”)、再びステップST64に戻る。
このようにして、ビームフォーマ種別判定部14は、周波数帯域毎に、最小コストMinCostからの差分を計算量積算部20に積算して、最小コストのビームフォーマ(即ち、第1ビームフォーマ16)のみ有する構成の場合からどのくらい計算量が増えたかを判定基準にして第1ビームフォーマ16と第2ビームフォーマ17とを切り替える。
以上より、実施の形態5によれば、目的音強調装置10は、所定周波数帯域毎の第1または第2ビームフォーマ16,17による計算量を積算していく計算量積算部20と、CPU負荷の度合いを示すCPU使用率を取得する負荷状況取得部21とを備え、車内環境モデル記憶部13cは、ビームフォーマ種別に応じた計算コストと、CPU使用率に応じてビームフォーマ群に割り当て可能な計算余力の情報を格納しておき、ビームフォーマ種別判定部14は、負荷状況取得部21が取得したCPU使用率に応じた計算余力を車内環境モデル記憶部13cから取得し、所定周波数帯域毎に、計算量積算部20の積算計算量が当該取得した計算余力より小さければ第1および第2ビームフォーマ16,17の評価を行って選択し、積算計算量が計算余力以上になると第1および第2ビームフォーマ16,17のうちの計算コストの小さい第1ビームフォーマ16を選択するように構成した。このため、目的音強調装置10またはカーナビゲーションシステム1の負荷状況に応じてビームフォーマ種別を切り替えることができる。よって、カーナビゲーションシステム1のような負荷状況の変動しやすいシステムに適用して好適である。
なお、上記実施の形態1〜5では、第1ビームフォーマ16に遅延和法、第2ビームフォーマ17に最小分散法を用いたが、ビームフォーマの種別はこれらに限定されるものではなく、その他にも例えば最尤法、多チャンネルWienerフィルタ、一般化サイドローブキャンセラなどを用いてもよい。この構成の場合にも、ビームフォーマ種別判定として指向特性、計算量、SN性能などにより各ビームフォーマを評価して判定すればよい。
また、第1ビームフォーマ16と第2ビームフォーマ17の2つの方式のビームフォーマを具備する構成にしたが、3つ以上の方式のビームフォーマを具備する構成にしてもよい。
また、第1ビームフォーマ16と第2ビームフォーマ17の2つの方式のビームフォーマを具備する構成にしたが、3つ以上の方式のビームフォーマを具備する構成にしてもよい。
上記以外にも、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
以上のように、この発明に係る目的音強調装置は、車内環境モデルに応じてビームフォーマ種別を切り替えるようにしたので、カーナビゲーションシステムおよび車載用ハンズフリー通話システムなどに用いるのに適している。
1 カーナビゲーションシステム、2,3 マイク、4 ハンズフリー通話制御部、10 目的音強調装置、11 FFT演算部、12 FFT演算部、13,13a,13b,13c 車内環境モデル記憶部、14 ビームフォーマ種別判定部、15 BFセレクタ(出力切替部)、16 第1ビームフォーマ、17 第2ビームフォーマ、18 信号結合部、19 車内状況推定部、20 計算量積算部、21 負荷状況取得部、131 第1ビームフォーマ指向特性、132 第2ビームフォーマ指向特性、133 車内推定雑音パワー、134 マイク指向特性、135 ビームフォーミング回避周波数、136 計算余力テーブル。
Claims (11)
- 2個以上のマイクロフォンからの出力信号を周波数領域の信号に変換する演算部と、
前記演算部が変換した複数の周波数領域の信号から、所定周波数帯域毎に目的音を強調した信号を生成するビームフォーマを、異なる方式で2つ以上有するビームフォーマ群と、
前記マイクロフォンが設置された室内環境における前記所定周波数帯域毎の雑音特性および前記ビームフォーマそれぞれの指向特性の情報を保持する室内環境モデル記憶部と、
前記所定周波数帯域毎に、前記ビームフォーマそれぞれを前記室内環境モデル記憶部が保持する指向特性と雑音特性に基づいて評価し、当該評価結果に基づいてビームフォーマを選択するビームフォーマ種別判定部と、
前記演算部が変換した周波数領域の信号を前記所定周波数帯域毎に、前記ビームフォーマ種別判定部が選択したビームフォーマへ出力する出力切替部と、
前記ビームフォーマ群が出力する前記所定周波数帯域毎の信号を結合する信号結合部とを備える目的音強調装置。 - 室内環境モデル記憶部は、室内環境における雑音特性として、当該室内環境における所定周波数帯域毎の雑音パワーを保持し、
ビームフォーマ種別判定部は、所定周波数帯域毎に、ビームフォーマそれぞれを前記室内環境モデル記憶部が保持する当該ビームフォーマの指向特性と前記雑音パワーに基づいて評価することを特徴とする請求項1記載の目的音強調装置。 - 室内環境モデル記憶部は、室内環境における雑音特性として、マイクロフォンの指向特性を保持し、
ビームフォーマ種別判定部は、所定周波数帯域毎に、ビームフォーマそれぞれを前記室内環境モデル記憶部が保持する当該ビームフォーマの指向特性と前記マイクロフォンの指向特性から求まる信号対雑音比に基づいて評価することを特徴とする請求項1記載の目的音強調装置。 - 室内環境モデル記憶部は、ビームフォーマの方式に応じた計算コストの情報を保持し、
ビームフォーマ種別判定部は、所定周波数帯域毎に、ビームフォーマそれぞれを前記室内環境モデル記憶部が保持する当該ビームフォーマの指向特性および計算コストと、雑音特性とに基づいて評価することを特徴とする請求項1記載の目的音強調装置。 - マイクロフォンの出力信号を用いて室内環境の雑音パワーを推定する室内状況推定部を備え、
ビームフォーマ種別判定部は、室内環境モデル記憶部が保持する雑音パワーに代えて、前記室内状況推定部が推定する雑音パワーを用いることを特徴とする請求項2記載の目的音強調装置。 - 室内環境モデル記憶部は、ビームフォーマによる処理を回避する周波数帯域の情報を保持し、
ビームフォーマ種別判定部は、ビームフォーマ評価対象の周波数帯域が前記室内環境モデル記憶部の保持する周波数帯域に該当する場合にビームフォーマの選択を行わず、
出力切替部は、前記ビームフォーマ種別判定部によるビームフォーマの選択が行われなかった前記周波数帯域の信号を、ビームフォーマ群へ出力せず信号結合部へ出力することを特徴とする請求項1記載の目的音強調装置。 - 所定周波数帯域毎のビームフォーマ群による計算量を積算していく計算量積算部と、
計算負荷の度合いを示す情報を取得する負荷状況取得部とを備え、
室内環境モデル記憶部は、ビームフォーマの方式に応じた計算コストと、前記負荷の度合いに応じて前記ビームフォーマ群に割り当て可能な計算余力の情報を保持し、
ビームフォーマ種別判定部は、前記負荷状況取得部が取得した負荷の度合いに応じた計算余力を前記室内環境モデル記憶部から取得し、前記所定周波数帯域毎に、前記計算量積算部の積算計算量が当該取得した計算余力より小さければ各ビームフォーマの評価を行って選択し、前記積算計算量が前記計算余力以上になると前記ビームフォーマ群のうちの最も計算コストの小さいビームフォーマを選択することを特徴とする請求項1記載の目的音強調装置。 - ビームフォーマ種別判定部は、室内環境モデル記憶部が保持する雑音特性を参照し、室内環境における雑音パワーが大きい周波数帯域から順に、ビームフォーマの評価を行うことを特徴とする請求項4記載の目的音強調装置。
- ビームフォーマ群のうちの少なくとも1つのビームフォーマとして、適応ビームフォーマに比べて計算コストが小さい固定ビームフォーマを用いることを特徴とする請求項1記載の目的音強調装置。
- ビームフォーマ群は、遅延和法によるビームフォーマと、最小分散法によるビームフォーマとからなることを特徴とする請求項1記載の目的音強調装置。
- 車内に設置される2個以上のマイクロフォンと、
前記各マイクロフォンからの出力信号を入力に用いて、前記車内の話者の声を強調した音声信号を生成する請求項1記載の目的音強調装置と、
前記目的音強調装置が生成した音声信号を利用してハンズフリー通話を行うハンズフリー通話制御部とを備えるカーナビゲーションシステム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2011/002890 WO2012160602A1 (ja) | 2011-05-24 | 2011-05-24 | 目的音強調装置およびカーナビゲーションシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5543023B2 true JP5543023B2 (ja) | 2014-07-09 |
JPWO2012160602A1 JPWO2012160602A1 (ja) | 2014-07-31 |
Family
ID=47216709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013516075A Expired - Fee Related JP5543023B2 (ja) | 2011-05-24 | 2011-05-24 | 目的音強調装置およびカーナビゲーションシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20140064514A1 (ja) |
JP (1) | JP5543023B2 (ja) |
CN (1) | CN103329200B (ja) |
DE (1) | DE112011105267T5 (ja) |
WO (1) | WO2012160602A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112012031656A2 (pt) * | 2010-08-25 | 2016-11-08 | Asahi Chemical Ind | dispositivo, e método de separação de fontes sonoras, e, programa |
US9973848B2 (en) * | 2011-06-21 | 2018-05-15 | Amazon Technologies, Inc. | Signal-enhancing beamforming in an augmented reality environment |
US9584909B2 (en) * | 2012-05-10 | 2017-02-28 | Google Inc. | Distributed beamforming based on message passing |
US9232310B2 (en) * | 2012-10-15 | 2016-01-05 | Nokia Technologies Oy | Methods, apparatuses and computer program products for facilitating directional audio capture with multiple microphones |
US9078057B2 (en) * | 2012-11-01 | 2015-07-07 | Csr Technology Inc. | Adaptive microphone beamforming |
US9275638B2 (en) * | 2013-03-12 | 2016-03-01 | Google Technology Holdings LLC | Method and apparatus for training a voice recognition model database |
CN104376848B (zh) * | 2013-08-12 | 2018-03-23 | 展讯通信(上海)有限公司 | 语音信号处理方法和装置 |
US10013975B2 (en) * | 2014-02-27 | 2018-07-03 | Qualcomm Incorporated | Systems and methods for speaker dictionary based speech modeling |
US20160127827A1 (en) * | 2014-10-29 | 2016-05-05 | GM Global Technology Operations LLC | Systems and methods for selecting audio filtering schemes |
US10405829B2 (en) | 2014-12-01 | 2019-09-10 | Clarius Mobile Health Corp. | Ultrasound machine having scalable receive beamformer architecture comprising multiple beamformers with common coefficient generator and related methods |
CN104810021B (zh) * | 2015-05-11 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 应用于远场识别的前处理方法和装置 |
GB2552723A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
GB2552722A (en) | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
CN109524016B (zh) * | 2018-10-16 | 2022-06-28 | 广州酷狗计算机科技有限公司 | 音频处理方法、装置、电子设备及存储介质 |
WO2020248235A1 (zh) * | 2019-06-14 | 2020-12-17 | 深圳市汇顶科技股份有限公司 | 差分波束形成方法及模块、信号处理方法及装置、芯片 |
US11290814B1 (en) | 2020-12-15 | 2022-03-29 | Valeo North America, Inc. | Method, apparatus, and computer-readable storage medium for modulating an audio output of a microphone array |
GB2602319A (en) * | 2020-12-23 | 2022-06-29 | Nokia Technologies Oy | Apparatus, methods and computer programs for audio focusing |
US11671752B2 (en) * | 2021-05-10 | 2023-06-06 | Qualcomm Incorporated | Audio zoom |
CN118571219B (zh) * | 2024-08-02 | 2024-10-15 | 成都赛力斯科技有限公司 | 座舱内人员对话增强方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09191255A (ja) * | 1996-01-09 | 1997-07-22 | Matsushita Electric Ind Co Ltd | 帯域分割符号化装置 |
JPH1141687A (ja) * | 1997-07-18 | 1999-02-12 | Toshiba Corp | 信号処理装置および信号処理方法 |
JP2004514317A (ja) * | 2000-11-08 | 2004-05-13 | キネテイツク・リミテツド | 適応フィルタ |
WO2006025106A1 (ja) * | 2004-09-01 | 2006-03-09 | Hitachi, Ltd. | 音声認識システム、音声認識方法およびそのプログラム |
JP2006276522A (ja) * | 2005-03-29 | 2006-10-12 | Toshiba Corp | 音声合成装置及びその方法 |
JP2008203474A (ja) * | 2007-02-20 | 2008-09-04 | Nippon Telegr & Teleph Corp <Ntt> | 多信号強調装置、方法、プログラム及びその記録媒体 |
JP2008219458A (ja) * | 2007-03-05 | 2008-09-18 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
JP2009044588A (ja) * | 2007-08-10 | 2009-02-26 | Nippon Telegr & Teleph Corp <Ntt> | 特定方向収音装置、特定方向収音方法、特定方向収音プログラム、記録媒体 |
WO2010089976A1 (ja) * | 2009-02-09 | 2010-08-12 | パナソニック株式会社 | 補聴器 |
JP2011002704A (ja) * | 2009-06-19 | 2011-01-06 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号送信装置、音響信号受信装置、音響信号送信方法及びそのプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1162838C (zh) * | 2002-07-12 | 2004-08-18 | 清华大学 | 抗噪声语音识别用语音增强-特征加权-对数谱相加方法 |
-
2011
- 2011-05-24 WO PCT/JP2011/002890 patent/WO2012160602A1/ja active Application Filing
- 2011-05-24 CN CN201180065308.9A patent/CN103329200B/zh not_active Expired - Fee Related
- 2011-05-24 US US13/992,055 patent/US20140064514A1/en not_active Abandoned
- 2011-05-24 DE DE112011105267.7T patent/DE112011105267T5/de not_active Ceased
- 2011-05-24 JP JP2013516075A patent/JP5543023B2/ja not_active Expired - Fee Related
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09191255A (ja) * | 1996-01-09 | 1997-07-22 | Matsushita Electric Ind Co Ltd | 帯域分割符号化装置 |
JPH1141687A (ja) * | 1997-07-18 | 1999-02-12 | Toshiba Corp | 信号処理装置および信号処理方法 |
JP2004514317A (ja) * | 2000-11-08 | 2004-05-13 | キネテイツク・リミテツド | 適応フィルタ |
WO2006025106A1 (ja) * | 2004-09-01 | 2006-03-09 | Hitachi, Ltd. | 音声認識システム、音声認識方法およびそのプログラム |
JP2006276522A (ja) * | 2005-03-29 | 2006-10-12 | Toshiba Corp | 音声合成装置及びその方法 |
JP2008203474A (ja) * | 2007-02-20 | 2008-09-04 | Nippon Telegr & Teleph Corp <Ntt> | 多信号強調装置、方法、プログラム及びその記録媒体 |
JP2008219458A (ja) * | 2007-03-05 | 2008-09-18 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
JP2009044588A (ja) * | 2007-08-10 | 2009-02-26 | Nippon Telegr & Teleph Corp <Ntt> | 特定方向収音装置、特定方向収音方法、特定方向収音プログラム、記録媒体 |
WO2010089976A1 (ja) * | 2009-02-09 | 2010-08-12 | パナソニック株式会社 | 補聴器 |
JP4649546B2 (ja) * | 2009-02-09 | 2011-03-09 | パナソニック株式会社 | 補聴器 |
JP2011002704A (ja) * | 2009-06-19 | 2011-01-06 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号送信装置、音響信号受信装置、音響信号送信方法及びそのプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20140064514A1 (en) | 2014-03-06 |
CN103329200A (zh) | 2013-09-25 |
JPWO2012160602A1 (ja) | 2014-07-31 |
DE112011105267T5 (de) | 2014-03-20 |
CN103329200B (zh) | 2016-04-20 |
WO2012160602A1 (ja) | 2012-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5543023B2 (ja) | 目的音強調装置およびカーナビゲーションシステム | |
JP5007442B2 (ja) | 発話改善のためにマイク間レベル差を用いるシステム及び方法 | |
JP5305743B2 (ja) | 音響処理装置及びその方法 | |
CN103718241B (zh) | 噪音抑制装置 | |
JP4873913B2 (ja) | 音源分離システムおよび音源分離方法、並びに音響信号取得装置 | |
EP2063419B1 (en) | Speaker localization | |
JP4225430B2 (ja) | 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム | |
US9338547B2 (en) | Method for denoising an acoustic signal for a multi-microphone audio device operating in a noisy environment | |
US20170140771A1 (en) | Information processing apparatus, information processing method, and computer program product | |
EP1349419A2 (en) | Orthogonal circular microphone array system and method for detecting three-dimensional direction of sound source using the same | |
EP3185243A1 (en) | Voice processing device, voice processing method, and program | |
JP2007010897A (ja) | 音響信号処理方法、装置及びプログラム | |
JP6840302B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
US10951978B2 (en) | Output control of sounds from sources respectively positioned in priority and nonpriority directions | |
JP5635024B2 (ja) | 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム | |
US11984132B2 (en) | Noise suppression device, noise suppression method, and storage medium storing noise suppression program | |
JP5405130B2 (ja) | 音再生装置および音再生方法 | |
JP5143802B2 (ja) | 雑音除去装置、遠近判定装置と、各装置の方法と、装置プログラム | |
Kim et al. | Probabilistic spectral gain modification applied to beamformer-based noise reduction in a car environment | |
JP6956929B2 (ja) | 情報処理装置、制御方法、及び制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140507 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5543023 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |