JP4156545B2 - マイクロホンアレー - Google Patents

マイクロホンアレー Download PDF

Info

Publication number
JP4156545B2
JP4156545B2 JP2004071550A JP2004071550A JP4156545B2 JP 4156545 B2 JP4156545 B2 JP 4156545B2 JP 2004071550 A JP2004071550 A JP 2004071550A JP 2004071550 A JP2004071550 A JP 2004071550A JP 4156545 B2 JP4156545 B2 JP 4156545B2
Authority
JP
Japan
Prior art keywords
microphones
interval
microphone
microphone array
delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004071550A
Other languages
English (en)
Other versions
JP2005260743A (ja
Inventor
茂樹 嵯峨山
優 鎌本
卓也 西本
俊治 堀内
光徳 水町
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004071550A priority Critical patent/JP4156545B2/ja
Publication of JP2005260743A publication Critical patent/JP2005260743A/ja
Application granted granted Critical
Publication of JP4156545B2 publication Critical patent/JP4156545B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、マイクロホンアレーに関する。
近年、自動音声認識(Automatic Speech Recognition; ASR) が、擬人化エージェントやカーナビゲーションシステムなどへ応用されてきている。実環境では雑音や残響の影響で認識率が大幅に低下することから、雑音や残響に頑健なASRシステムを目指す研究がなされてきている(参考文献〔1〕参照)。マイクロホンアレーを用いることで、対象音源と雑音源の空間的位相差を利用し、雑音や残響を抑圧することにより、遠隔発話音声の認識性能を向上させることができる。
参考文献〔1〕:中村哲,”実音響環境に頑健な音声認識を目指して,” 信学技報,SP 2002-12, pp. 31-36, 2002.
マイクロホンアレーには様々な技術があるが、Griffith-JimやAMNORなどの適応型マイクロホンアレーでは、無音声区間を予め入力して学習させることが必要である(参考文献〔2〕参照)。
参考文献〔2〕:大賀寿郎ら:音響システムとディジタル処理,電子情報通信学会,1995.
しかしながら、実際に音声認識を行う場合に、雑音環境下で学習のための無音声区間を検出することは必ずしも容易ではない。また、定常雑音に対して頑健な雑音除去を行うことはできるが、非定常雑音に対しては性能が低下する。このような雑音や残響が時々刻々変化する環境では、認識性能が低下してしまう。
そこで、本出願の発明者らは、ASRの性能と利便性の両立を目指し、その一例として、学習を必要とせず、雑音および残響の抑制に効果のある遅延和(DS:Delay and Sum) 型マイクロホンアレーに着目し、マイクロホン間隔と配置に関して改良を試みた。
以後の説明は、遅延和(DS:Delay and Sum) 型マイクロホンアレーを用いる場合について説明する。遅延和型マイクロホンアレーは、よく知られているように、各マイクロホンで受音した信号それぞれに遅延を付加した後、それらの総和をとるといった処理(以下、遅延和処理という)を行うマイクロホンアレーである。図1に、遅延和型マイクロホンアレーの構成例を示す。図1において、Mi (i=1,2,…m)は、一直線状に配されたマイクロホンである。Di は、各マイクロホンMi で受音した信号xsi(t)に遅延量di を付加する遅延器である。Sは、遅延器Di の出力信号xsi(t−di )を加算して、出力信号y(t)を出力する加算器である。
中村哲,"実音響環境に頑健な音声認識を目指して," 信学技報,SP 2002-12, pp. 31-36, 2002. 大賀寿郎ら:音響システムとディジタル処理,電子情報通信学会,1995. 鹿野清宏ら:音声認識システム,オーム社,2001.
この発明は、SNRを向上させることができるマイクロホンアレーを提供することを目的とする。
請求項1に記載の発明は、3以上のマイクロホンを備えたマイクロホンアレーにおいて、各マイクロホンの間隔が、最短ゴロム定規の目盛間隔に比例した間隔に設定されていることを特徴とする。
請求項2に記載の発明は、請求項1に記載の発明において、上記3以上のマイクロホンは、直線状に配置されていることを特徴とする。
請求項3に記載の発明は、請求項1に記載の発明において、上記3以上のマイクロホンは、円弧状に配置されていることを特徴とする。
請求項4に記載の発明は、請求項1乃至3に記載の発明において、4個のマイクロホンを備えており、各マイクロホンの間隔が、1対3対2の間隔に設定されていることを特徴とする。
この発明によれば、SNRを向上させることができるマイクロホンアレーが実現する。
以下、図面を参照して、この発明を遅延和型マイクロホンアレーに適用した場合の実施例について説明する。
〔1〕予備検討
予備検討として、様々な条件における遅延和型マイクロホンアレーの性能を比較するため、シミュレーションにより音声認識実験を行った。特に、マイクロホンの数、マイクロホン間隔、雑音のマイクロホンアレーに対する角度、SNRに注目した。なお、予備検討で用いた遅延和型マイクロホンアレーの各マイクロホンは一直線上に等間隔で配置されているものとする。
評価用の音声データには、ATRのBTECテストセット01を用いた。この評価用データは旅行の際に用いられる会話を朗読したもので、全部で510文あり、16kHzサンプリングで収録されたものである。
雑音はマイクロホンアレーの正面から到来すると仮定し、マイクロホンの受音信号として、適切な時間差を伴う音声に同一の雑音を加えた。雑音は音声の周波数帯域に合わせて、125Hzから6kHzまでのランダム帯域雑音を用いた。
SNRは、音声データの無音声区間を除いた区間の平均振幅から信号のエネルギーを求め、マイクロホンの受音信号のSNR(入力信号のSNR)が目的のSNRとなるように雑音の振幅を変化させた。その後、遅延和処理により、雑音抑圧した音声を認識した。
結果として、マイクロホンの数が多いほど認識率(単語正解精度)が向上した。さらに、マイクロホン間隔に応じて音声のマイクロホンアレーに対する角度と関係して遅延和処理後のSNRが変化し、入力信号のSNRが高いほど認識率も向上することが分かった。
遅延和型マイクロホンアレーのマイクロホンの数を2個とし、それらの間隔(マイクロホン間隔)を5cm,10cm,15cmに変化させた。各マイクロホン間隔(5cm,10cm,15cm)での、音源と雑音源の角度の変化による遅延和処理後のSNRの変化を図2に示す。図2は、入力信号のSNRを20dBとして、音源方向を−90度から+90度まで5度毎に変化させたとき、遅延和処理後のSNRの変化を示している。
予備検討から得られた結果より、音源方向と雑音方向が既知ならば、図1にしたがって、マイクロホン間隔を調節することにより、遅延和処理後のSNRを向上させることができる。したがって、予め多数のマイクロホンを用意しておけば、適切な間隔のマイクロホンの対を選択することにより、同様な効果が得られる。
できるだけマイクロホン数を増やさずに、様々な間隔が得られるような配置があれば、音源方向や雑音方向に合わせて、最適な距離を選択することができる。
〔2〕最短ゴロム定規の導入
前述の要求を満たすために、この実施例では、遅延和型マイクロホンアレーのマイクロホンの間隔に、最短ゴロム定規(Optimal Golomb Ruler;OGR)の目盛間隔を導入した。
最短ゴロム定規(OGR)は、X線センサの配置や電波望遠鏡の配置に使われている。この間隔は、センサの数が少なくても、計測できる距離の種類が増えるというものである。例えば、配置対象が4個の場合には、それらの配置位置は{0−1−4−6}となり、配置対象が10個の場合には、それらの配置位置は{0−1−6−10−23−26−34−41−53−55}となる。
最短ゴロム定規を用いると、等間隔配置よりも、多くの種類の間隔を得ることができる。図3(a)に示すように、配置対象が4個の場合に、それらを等間隔で配置した場合には、それらの配置位置は{0−2−4−6}となり、間隔の種類は、{2,4,6}の3種類となる。これに対して、図3(b)に示すように、4個の配置対象を最短ゴロム定期間隔に従って配置した場合には、それらの配置位置は{0−1−4−6}となり、間隔の種類は、{1,2,3,4,5,6}の6種類となる。
ゴロム定規(Golomb Ruler)の目盛は、2組の数字の差が同一ではない正の整数の集合である。配置対象がM個ある場合には、”δij=aj −ai (1≦i≦j≦m)が全て異なり,かつ,0=a1 <a2 <…<aM を満たす数列ak (k=1,2,…,m)”の数値を目盛とした定規を作れば、それがゴロム定規である。このaM が最も短くなるものを最短ゴロム定規という。
最短ゴロム定規の目盛間隔を遅延和型マイクロホンアレーを構成するマイクロホンの間隔として用いことにより、マイクロホンが等間隔に配置された通常の等間隔遅延和型マイクロホンアレーよりも、音声認識率を向上させることができる。
この実施例では、遅延和型マイクロホンアレーのマイクロホンの間隔が、最短ゴロム定規の目盛間隔に比例した間隔に設定される。例えば、m=4の場合の最短ゴロム定規の目盛は{0−1−4−6}となり、その目盛間隔は1,3,2となる。したがって、マイクロホンが4個の場合には、隣り合うマイクロホンの間隔が、1:3:2となるように、4個のマイクロホンが配置される。
なお、さらに、最適な間隔を強調するために、推定された音源と雑音のなす角度に応じて、その角度で遅延和処理後のSNRが高くなるマイクロホン間隔になるマイクロホン対に対応する遅延処理後の信号に対してに大きな重みを付け、遅延和処理後のSNRが低くなるマイクロホン間隔になるマイクロホン対に対応する遅延処理後の信号に対して小さな重みを付けた後に、それらを総和をとるようにすることが好ましい。
ただし、各マイクロホンに対する重みをki (i=1,2,…,m)とすると、ki の総和が1となることという条件を満たすようにki が設定される。この条件であれば、音源の振幅は変化しない。
図4は、本実施例の遅延和型マイクロホンアレーを示している。
図4において、Mi (i=1,2,3,4)は、マイクロホンである。つまり、この例では、4個のマイクロホンを備えている。Di は、各マイクロホンMi で受音した信号xsi(t)に遅延量di を付加する遅延器である。Piは遅延器Di の出力信号xsi(t−di )に重みki を乗算する乗算器である。Sは、乗算器Pi の出力信号ki si(t−di )を加算して、出力信号y(t)を出力する加算器である。
図5に示すように、4個のマイクロホンM1 〜M4 は一直線状に配置されている。マイクロホンM1 〜M4 の配置位置は、マイクロホンの間隔が最短ゴロム定規の目盛間隔に比例した間隔となるように、{0cm−3cm−12cm−18cm}に設定されている。したがって、M1 とM2 との間隔W12は3cmに、M2 とM3 との間隔W23は9cmに、M3 とM4 との間隔W34は6cmとなっている。
〔3〕評価実験
〔3.1〕実験条件
上記実施例での手法(提案手法)の効果を確かめるために、音声認識率による性能評価実験を行った。
計算機上のシミュレーションにより、マイクロホンアレーを用いた場合の雑音環境下の音声信号を作成し、そのデータをもとに音声認識実験を行った。
マイクロホンアレーのパラメータとしては、マイクロホンの列に正面から音声を入力し、30度傾いた方向から予備検討と同じ雑音を入力した。マイクロホンを4個とし、従来手法である等間隔配列の遅延和型マイクロホンアレー(以下、DSアレイ)と、提案手法である最短ゴロム定規配列の遅延和型マイクロホンアレー(OGR−DSアレイ)を比較した。
ここで、マイクロホン間隔は、2つの手法において同規模とするために、DSアレイでは、{0cm−6cm−12cm−18cm}にマイクロホンを配置し、OGR−DSアレイでは、図5に示すように、{0cm−3cm−12cm−18cm}にマイクロホンを配置した。また、対照実験として、マイクロホンアレーを用いない場合、つまりマイクロホン1個の場合の認識率も求めた。
各発声毎に、各マイクロホンの重み(ki (i=1,2,3,4))を0.1ずつ変化させ、遅延和処理後の音声区間と無音声区間を検出し、比較して得られるSNRが全84通りの中で最も高くなるものを音声認識への入力とした。
音声認識エンジンには、Julius3.lp2 を用い、IPA−testsetの200 文の新聞朗読音声を評価データとして用いた( 参考文献〔3〕参照)。
参考文献〔3〕:鹿野清宏ら:音声認識システム,オーム社,2001.
音響特徴量は12次のMFCCとそのΔMFCCおよびΔPowerの計25次元とし、フレーム長25ms、フレームシフト10msで分析した。
〔3.2〕結果と考察
音声認識実験の結果を表1に示す。
Figure 0004156545
OGR−DSアレイはマイクロホンの配置を変え、重みを付けただけの簡単な方法にも関わらず、認識率を向上させることができた。
10dB雑音環境下において、マイクロホン5個を{0cm−6cm−12cm−18cm−24cm}に配置したDSアレイにおいても認識率を求めた結果、その認識率は46.9%であった。これに対し、OGR−DSアレイでは、表1に示すように、マイクロホン4個でも認識率51.1%となる。この場合、マイクロホンアレーの規模は、OGR−DSアレイの方が6cm小さかった。
このように、提案手法により、マイクロホン数を少なくし、マイクロホンアレーの規模を小さくすることが可能となった。
今回の実験条件において、各マイクロホンの重みは、0cmと3cmに配置されたマイクロホンの重みを0.3とし、12cmと18cmに配置されたマイクロホンの重みを0.2としたものが全200文中193文にのぼった。このことから、重みの定式化ができれば、処理速度を向上させることができると考えられる。
〔4〕その他
上記実施例では、マイクロホンアレー内の各マイクロホンは、一直線状に配置されているが、図6に示すように円弧状に配置されていてもよい。この場合は、マイクロホンM1 〜M4 は、4個設けられているので、M1 とM2 との間隔(円弧に沿った長さ)と、M2 とM3 との間隔(円弧に沿った長さ)と、M3 とM4 との間隔(円弧に沿った長さ)との比は、1:3:2に設定される。
また、図7に示すように、マイクロホンアレー内に、仮想立方体の2以上の辺のそれぞれに、3以上のマイクロホンを配置したような場合にも、各辺毎のマイクロホンの配置に本発明を適用することができる。図7の場合は、各辺に4個のマイクロホンM1 〜M4 が配置されているので、各辺において、隣合うマイクロホンの間隔は、1:3:2に設定される。なお、図示はしないが、マイクロホンアレー内に、仮想四角錐の2以上の斜辺のそれぞれに、3以上のマイクロホンを配置したような場合にも、各斜辺毎のマイクロホンの配置に本発明を適用することができる。
遅延和型マイクロホンアレーの一般的な構成を示すブロック図である。 各マイクロホン間隔(5cm,10cm,15cm)での、音源と雑音源の角度の変化による遅延和処理後のSNRの変化を示すグラフである。 図3(a)は、配置対象が4個の場合に、それらを等間隔で配置した場合の配置位置および間隔の種類を示し、図3(b)は、4個の配置対象を最短ゴロム定期間隔に従って配置した場合の配置位置および間隔の種類を示す模式図である。 本実施例の遅延和型マイクロホンアレーの構成を示すブロック図である。 図4のマイクロホンの配置を示す模式図である。 マイクロホンアレー内の各マイクロホンが円弧状に配置されている場合の例を示す模式図である。 マイクロホンアレー内に、仮想立方体の2以上の辺のそれぞれに、3以上のマイクロホンを配置した場合の例を示す模式図である。
符号の説明
i マイクロホン
i 遅延器
Pi 乗算器
S 加算器

Claims (4)

  1. 3以上のマイクロホンを備えたマイクロホンアレーにおいて、各マイクロホンの間隔が、最短ゴロム定規の目盛間隔に比例した間隔に設定されていることを特徴とするマイクロホンアレー。
  2. 上記3以上のマイクロホンは、直線状に配置されていることを特徴とする請求項1に記載のマイクロホンアレー。
  3. 上記3以上のマイクロホンは、円弧状に配置されていることを特徴とする請求項1に記載のマイクロホンアレー。
  4. 4個のマイクロホンを備えており、各マイクロホンの間隔が、1対3対2の間隔に設定されていることを特徴とする請求項1、2および3のいずれかに記載のマイクロホンアレー。
JP2004071550A 2004-03-12 2004-03-12 マイクロホンアレー Expired - Fee Related JP4156545B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004071550A JP4156545B2 (ja) 2004-03-12 2004-03-12 マイクロホンアレー

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004071550A JP4156545B2 (ja) 2004-03-12 2004-03-12 マイクロホンアレー

Publications (2)

Publication Number Publication Date
JP2005260743A JP2005260743A (ja) 2005-09-22
JP4156545B2 true JP4156545B2 (ja) 2008-09-24

Family

ID=35086021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004071550A Expired - Fee Related JP4156545B2 (ja) 2004-03-12 2004-03-12 マイクロホンアレー

Country Status (1)

Country Link
JP (1) JP4156545B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5028786B2 (ja) * 2005-11-02 2012-09-19 ヤマハ株式会社 収音装置
JP4455614B2 (ja) * 2007-06-13 2010-04-21 株式会社東芝 音響信号処理方法及び装置
JP2011182067A (ja) * 2010-02-26 2011-09-15 Kddi Corp スピーカアレイ
CN102306496B (zh) * 2011-09-05 2014-07-09 歌尔声学股份有限公司 一种多麦克风阵列噪声消除方法、装置及系统
CN103002389B (zh) * 2012-11-08 2016-01-13 广州市锐丰音响科技股份有限公司 一种声接收装置
WO2014199446A1 (ja) * 2013-06-11 2014-12-18 Toa株式会社 マイクロホン装置
EP3039457B1 (en) 2013-08-27 2021-05-05 Shell Internationale Research Maatschappij B.V. Seismic acquisition method and system

Also Published As

Publication number Publication date
JP2005260743A (ja) 2005-09-22

Similar Documents

Publication Publication Date Title
EP3707716B1 (en) Multi-channel speech separation
Hoshen et al. Speech acoustic modeling from raw multichannel waveforms
Sainath et al. Speaker location and microphone spacing invariant acoustic modeling from raw multichannel waveforms
CN109074816B (zh) 远场自动语音识别预处理
KR101339592B1 (ko) 음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
Aarabi et al. Phase-based dual-microphone robust speech enhancement
JP3940662B2 (ja) 音響信号処理方法及び音響信号処理装置及び音声認識装置
CN101154384B (zh) 声音信号纠正方法、声音信号纠正设备以及计算机程序
JP4812302B2 (ja) 音源方向推定システム、音源方向推定方法及び音源方向推定プログラム
JP2004274763A (ja) マイクロホンアレイ構造、ビーム形成装置およびビーム形成方法、ならびに音源方向推定装置および方法
Tamai et al. Three ring microphone array for 3d sound localization and separation for mobile robot audition
JP4457221B2 (ja) 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム
JP4156545B2 (ja) マイクロホンアレー
Zhang et al. CSA-BF: A constrained switched adaptive beamformer for speech enhancement and recognition in real car environments
CN105830152A (zh) 集音装置、集音装置的输入信号校正方法以及移动设备信息系统
Mizumachi Neural network-based broadband beamformer with less distortion
Kawase et al. Real-time integration of statistical model-based speech enhancement with unsupervised noise PSD estimation using microphone array
Youssef et al. From monaural to binaural speaker recognition for humanoid robots
Ji et al. Coherence-Based Dual-Channel Noise Reduction Algorithm in a Complex Noisy Environment.
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
JP2005258215A (ja) 信号処理方法及び信号処理装置
Itoyama et al. Assessment of von Mises-Bernoulli Deep Neural Network in Sound Source Localization.
Potamitis et al. Speech activity detection and enhancement of a moving speaker based on the wideband generalized likelihood ratio and microphone arrays
CN113936687B (zh) 一种实时语音分离语音转写的方法
Kowalczyk Multichannel Wiener filter with early reflection raking for automatic speech recognition in presence of reverberation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080703

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080709

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110718

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees