JP4910568B2 - 紙擦れ音除去装置 - Google Patents

紙擦れ音除去装置 Download PDF

Info

Publication number
JP4910568B2
JP4910568B2 JP2006228566A JP2006228566A JP4910568B2 JP 4910568 B2 JP4910568 B2 JP 4910568B2 JP 2006228566 A JP2006228566 A JP 2006228566A JP 2006228566 A JP2006228566 A JP 2006228566A JP 4910568 B2 JP4910568 B2 JP 4910568B2
Authority
JP
Japan
Prior art keywords
phase difference
microphone
noise
sound
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006228566A
Other languages
English (en)
Other versions
JP2008054071A (ja
Inventor
真人 戸上
貴志 住吉
伸治 坂野
俊幸 松田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2006228566A priority Critical patent/JP4910568B2/ja
Publication of JP2008054071A publication Critical patent/JP2008054071A/ja
Application granted granted Critical
Publication of JP4910568B2 publication Critical patent/JP4910568B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明はテレビ会議システムなどの音声通話装置への適用を目的とした高速・高分解能な音源定位技術に属する。
音源の到来方向を推定する音源定位技術は, 音源分離フィルタの学習及びロボットの話者方向同定処理などに応用可能な重要な技術であり, 1980 年代より盛んに研究が行われている。最も単純な音源定位法は, 遅延和アレイと呼ばれる手法である(例えば、非特許文献1参照)。遅延和アレイ法は, 入力信号に重み係数をかけ加算する処理のみで構成されるため, 非常に軽量で高速な手法である。しかし, 定位性能が低いため, 複数の音源が存在する場合, 複数の音源方向を正確に定位できないという問題がある。そこで, MUSIC(MUltiple SIgnal Classification) 法(例えば、非特許文献2参照) のような高精度な音源定位技術が提案されているが, 固有値計算などの高負荷な処理を必要とすることや1フレームのデータだけでは、定位することが困難であるため、突発的に生じた雑音の方向を定位できない。 そこで、組み込みCPU でも動作する軽量な処理で構成され、1フレームのデータだけで定位可能な音源定位法が求められている。またMUSIC 法では処理量が音源方向の探索分解能に比例し増大するという問題がある。固有値計算などの重い処理を必要とせず, 処理量が分解能に比例しない音源定位法として,DUET 法(例えば、非特許文献3参照)が提案されている。しかし, 従来のDUET 法は, 複数の音源が物理的に近い位置にある場合, 高精度な音源定位が困難となる。
大賀寿郎, 山崎芳男, 金田豊, "音響システムとディジタル処理," 電子情報通信学会, 1995. 菊間信良,"アレーアンテナによる適応信号処理," 科学技術出版,1998. Oe.Yilmaz, and S.Rickard, "Blind Separation of Speech Mixtures via Time-Frequency Masking," IEEE Trans.SP,Vol.52,No.7,2004. 荒木章子, 澤田宏, 向井良, 牧野昭二, "観測信号ベクトルのクラスタリングに基づくスパース信号の到来方向推定," 2006 年春季日本音響学会全国大会予稿集, pp.615-616, 2006.
現在市販されているテレビ会議システムの音声帯域は, 従来の電話帯域(4kHz)からワイドバンド(7khz)へ移行しており, 今後, 更に高音質なCD クオリティ並みの音声帯域に移行することが予想されている。広帯域の音声は無声子音の高域成分などをはっきりと聞き取ることができ, 会話しやすい音声であるが, 雑音についても広帯域化されてしまうため, 雑音が発生すると, 途端に聞き取りにくい音声になってしまうという問題がある。
そこで, テレビ会議システムなどの音声通話装置において, 広帯域化に伴い, 雑音抑圧技術へのニーズが高まってきている。特に会議相手側の紙擦れ音や机を叩く音を抑圧することが求められている。エアコンやプロジェクタのファンの音など定常的な雑音を抑圧する目的では, ノイズキャンセラがよく使われる。しかし, 従来のノイズキャンセラは, 紙擦れ音や机を叩く音のような, 突発的かつパワーの大きい非定常雑音について, ほとんど抑圧効果が無い。我々は, 突発的な雑音を抑圧することを目的として, 音源の到来方向が雑音と目的音とで異なる場合, その到来方向の差を見分けることにより目的音のみを捕らえるような音源分離技術を開発している。このような音源分離方式の分離性能は, 雑音と目的音の到来方向の推定性能に依存する。つまり, 雑音と目的音の到来方向が正確に見分けがつく場合, 音源分離性能は良い。逆に到来方向の見分けがつきにくい場合, 音源分離性能は悪い。紙擦れ音や机を叩く音などの音源位置は通常机の上であり, ユーザーの発話とこれら雑音の到来方向は通常20 °程度の角度差しかなく, 差が極めて小さい。またテレビ会議では、会話の遅延を最小にする必要があるため、入力音声を一早く処理し、出力音声を生成しなければならない。そこで、突発的に生じた雑音の方向を少ないフレームで推定する必要がある。
本願で開示する代表的な発明の概要は以下の通りである。
マイク間隔の異なる複数のマイクペアを用いて、逐次的に定位精度を改善し、かつ1フレームのデータから複数音源の方向を定位することを特徴とする位相差ヒストグラム算出部を有する音響信号処理装置。
広帯域テレビ会議において、紙擦れ音などの机上で発生する雑音などに音声の聞きやすさを損なうことが無くなり、聞きやすい音声で会議することが可能となる。
本実施例のハードウェア構成を図1に示す。中央演算処理装置1内で本実施例に含まれる全ての計算を実施する。記録装置2は、例えばRAMで構成されるワークメモリであり、計算を行う際に使用する変数は全て記憶装置2上に確保される。計算時に使用するデータ及びプログラムは全て例えばROMで構成される記憶装置3に保存されているものとする。マイクロホンアレイ4は少なくとも2つ以上のマイクロホン素子から構成される。個々のマイクロホン素子は,アナログの音圧値を計測する。マイクロホン素子の数はMとする。A/D変換装置はアナログ信号をデジタル信号に変換(サンプリング)する装置であり、Mチャンネル以上の信号を同期サンプリングできる装置である。マイクロホンアレイ4で取り込んだマイクロホン素子毎のアナログの音圧値はA/D変換装置5に送られる。A/D変換装置5は、各チャンネル毎の音圧値をデジタルデータに変換し、量子化した音圧値を出力する。
デジタルデータに変換された各チャンネル毎の音圧値は、記憶装置2を介して、中央演算装置1で処理される。記憶装置3に記憶されている目的音や雑音の存在範囲に関する情報などを用いて、中央演算装置1は各チャンネル毎の音圧値から紙擦れ音などの雑音成分を抑圧し、目的音声を強調した信号を生成する。
本実施例のソフトウェアのブロック図を図2に示す。マイクロホンアレイ4は直線配置とする。マイクロホンアレイ4で検知したアナログの音圧値はAD変換部6に送られ、各チャンネル毎にデジタルデータ(数1)に変換される。iはチャンネルを表すインデックスである。チャンネル毎のデジタルデータを要素に持つベクトルを(数2)と記載する。(数3)はフーリエ変換部7に送られる。フーリエ変換部7ではデジタルデータをマイクチャンネル毎にフーリエ変換し、周波数領域の信号(数4)を出力する。(数4)は、各チャンネル毎の帯域分割信号を要素に持つベクトルで、(数5)で定義される。フーリエ変換は短時間フーリエ変換とする。τはフーリエ変換のフレームインデックスとする。フーリエ変換のフレームサイズL及びフレームシフトSTは予め設定するものとする。以後、フレームを表すインデックスτ及び周波数fは、フレーム及び周波数を意識する必要がある場合を除き省略し、帯域分割信号は(数6)と記述する。フーリエ変換部7が出力した周波数帯域信号は位相差ヒストグラム算出部8に送られる。位相差ヒストグラム算出部8では, 周波数帯域信号のマイク間位相差を(数7)で計算し、算出した複数のマイクペアのマイク間位相差をマイク間隔の短いマイクペアの位相差から順番に用いて、位相差の精度を逐次的に向上させ、精度向上後の位相差のヒストグラムを生成する。位相差の推定値の算出法及びヒストグラムの生成法については後述する。
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
得られた位相差のヒストグラムは、紙擦れ音パワー計算部11に送られる。予め紙擦れ音が発生する可能性が高い物理空間を設定して置く。音源の方位角をθとして、設定した物理空間は(数8)のように表現される。ここでは方位角のみ範囲を指定しているが、仰角や距離に範囲の制約を課しても良い。その物理空間内で、マイク間位相差が取りうる値を(数9)で計算する。diはi番目のマイクペアのマイク間隔である。紙擦れ音パワー計算部11では、(数9)の範囲のP(δ)を加算し、紙擦れ音パワーとして出力する。また紙擦れ音パワー計算部11では、周波数毎の位相差の推定値から、(数9)を満たす周波数帯域を紙擦れ音が優勢な帯域として特定し、その周波数帯域のインデックスを出力する。目的音パワー計算部12では、紙擦れ音パワー計算部11と同様に予め目的音が発生する可能性が高い物理空間を予め(数10)のように設定して置く。ここでは方位角のみ範囲を指定しているが、仰角や距離に範囲の制約を課しても良い。その物理空間内で、マイク間位相差が取りうる値を(数11)で計算する。紙擦れ音パワーは、全周波数帯域の頻度から計算する以外に、例えば、1000Hz毎に紙擦れ音パワーを計算するなど、帯域を複数の帯域群に分割し、分割した帯域群毎に、紙擦れ音パワーを計算してもよい。このように複数の帯域群に分割することで、紙擦れ音が一部の帯域群に偏って存在する場合などに、帯域群毎に、紙擦れ音パワーをより正確に推定することが可能となる。目的音パワー計算部12では、(数11)の範囲のP(δ)を加算し、目的音パワーとして出力する。また目的音パワー計算部12では、周波数毎の位相差の推定値から、(数11)を満たす周波数帯域を特定し、その周波数帯域のインデックスを出力する。紙擦れ音パワーと同様に目的音パワーは、全周波数帯域の頻度から計算する以外に、例えば、1000Hz毎に目的音パワーを計算するなど、帯域を複数の帯域群に分割し、分割した帯域群毎に、目的音パワーを計算してもよい。
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
紙擦れ音存在判定部10では、目的音パワー計算部12が計算した目的音パワーPsubjectと紙擦れ音パワー計算部11が計算した紙擦れ音パワーPnoiseから(数12)の値を計算する。算出した尺度が予め定める閾値を上回った場合、紙擦れ音が存在すると判断する。紙擦れ音存在判定部10は、紙擦れ音が存在するかどうかの判定結果を出力し、判定結果は音源分離部9に送られる。帯域を複数の帯域群に分割し、分割した帯域群毎に紙擦れ音パワー及び目的音パワーを計算する場合、紙擦れ音が存在するかどうかの判定は、各帯域群毎に行い、帯域群毎の判定結果を出力する。
音源分離部9では、フーリエ変換部の出力信号である帯域分割信号と紙擦れ音の存在判定結果とを使い、紙擦れ音の除去処理を行う。紙擦れ音の除去処理の詳細については後述する。紙擦れ音除去処理後の信号及び紙擦れ音が存在するかどうかの判定結果は残響抑圧部に送られる。残響抑圧部では紙擦れ音存在判定部10の紙擦れ音判定結果をもとに紙擦れ音除去処理後の信号S^(f,τ)から紙擦れ音の残響成分を除去する。残響除去は(数13)のようなスペクトルサブトラクションベースの方法で行う。Pechoは紙擦れ音の残響成分のパワーである。Floorは引数が0以下なら、0を返し、0以上であれば、引数の値を返す関数である。Pechoは(数14)に従い、更新する。|N|は周波数毎の紙擦れ音の振幅スペクトルである。紙擦れ音パワー計算部11が該当周波数を紙擦れ音が優勢な帯域だと特定した場合、|N|=|X|とする。それ以外の場合は、|N|=0とする。
Figure 0004910568
Figure 0004910568
Figure 0004910568
残響成分除去後の音声(数15)は、逆フーリエ変換部14に送られる。逆フーリエ変換部14では残響成分除去後の音声を逆フーリエ変換し、時間領域の信号y(t)を出力する。逆フーリエ変換のフレームサイズは、フーリエ変換部でのフレームサイズと等しい。逆フーリエ変換部の出力する時間領域信号は、重畳加算部に送られ、フレームシフトの大きさに応じて、重畳加算され、重ね合わせた時間領域信号y^(t)を出力する。
Figure 0004910568
図3は、位相差ヒストグラム算出部8内のブロック図である。フーリエ変換部7が出力する周波数領域信号は、位相差計算部8-1に送られる。位相差計算部8-1では、まず複数のマイクペアの位相差を計算する。マイクペアのインデックスをiとして、インデックスiのマイクペアのマイク間隔はdiである。またインデックスi のマイクペアの位相差をδiと記載する。音源の到来方位角をθとする。反響や残響及び背景雑音が存在せず、かつ1音源のみ存在する場合、θと δiは(数16)の関係にある。位相差計算部8-1では、マイクペア毎の位相差の推定量 を(数17)で算出する。arctanはtanの逆関数であり、-πから+πまでの値をとる関数である。したがって、δ^i も-πから+πまでの値をとる。それに対して真の位相差は、(数18)の範囲の値をとる。したがって(数19)の場合、δiのとりうる範囲をδ^iがカバーすることができず、θを求めることができない。δ^iがカバーすることができない範囲の値をδiがとった場合、δiとδ^iとの間に、2πの整数倍の不定性が生じる。したがって、 δiとδ^iとは、(数20)の関係にある。位相差計算部8-1では、短いマイク間隔を使い、nを求めた後、長いマイク間隔を使って、δ^iを求める。そうすることで、nを短いマイク間隔で求めるため、2πの整数倍の不定性の問題を解消することができる、また無指向性雑音のマイク間位相差はマイク間隔に依存しないため、位相差δ^iのばらつきはマイク間隔に依存しない。したがって、(数16)で求めたsinθは、マイク間隔が長いほど、真の値からのばらつきが小さいと考えられる。
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
したがって、短いマイク間隔を使って求めたδiと比較し、より正確な位相差を求めることが可能となる。ここでは図4に示すような直線配置のマイク配置を想定する。M個のマイク素子からL個のマイクペアを選び、L個のマイクペアをマイク間隔の昇順で並べる。(数23)の式をi=0からL-1まで再帰的に実行し、位相差の推定値δ^L-1を得る。マイク間隔の初期値は(数21)とし、位相差の初期値は(数22)とする。
上記の処理で求めた位相差はヒストグラム算出部8-2に送られ、(数24)で示されるヒストグラムを算出する。
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
テレビ会議の際に問題となる紙擦れ音は通常机の上で生じる雑音である。一方、人の音声は机の上より仰角が高い位置で生じる。図5のように鉛直方向に直線に配置されるマイクロホンアレイを机の上に置いた場合、音源の仰角(鉛直方向上が0°)が90°以上の音源は紙擦れ音であり、仰角が90°以下の音源は人間の音声であると推定することができる。したがって、推定した位相差δ^L-1を用いて、位相差ヒストグラム算出部8で計算するヒストグラムのピークが、仰角が90°以下に相当する位相差の範囲に立った場合、そのピークは紙擦れ音のパワーを示していると考えることができる。θnoise_min=90、θnoise_max=180に設定することで、紙擦れ音パワー計算部11で、紙擦れ音パワーを算出することができる。
図6は、ユーザーがユーザーインターフェースを通して設定する雑音存在範囲及び音声存在範囲のデータ構造を示した図である。”No.”は登録したデータのインデックスを示す。”種類”は雑音であるかまたは音声であるか、更に雑音であれば、紙擦れ音のような突発性雑音であるかエアコンの動作音のような定常雑音であるかを指定する。”範囲”は音源の存在する範囲を指定するカラムであり、方位角”θ”及び”仰角”φ”の範囲を指定する。
紙擦れ音パワー計算部11では、(数8)のように予め指定される範囲を紙擦れ音の存在範囲としても良いし、図6の構造でユーザーがユーザーインターフェースを通して指定するデータを使用してもよい。ユーザーが突発性雑音を2つ以上登録した場合、紙擦れ音パワー計算部11はそれぞれの雑音に対して、Pnoiseを計算する。またそれぞれの雑音の音源範囲内の周波数インデックスを特定し、出力する。
同様に紙擦れ音存在判定部10では、それぞれの雑音に対して、ratioを計算し、それぞれの突発性雑音に対して、別々に存在判定を行う。
音源分離部9では、目的音・雑音の各音源範囲に含まれる周波数成分より、各音源の音の伝わり方(ステアリングベクトル)を(数25)で算出する。iは音源についてのインデックスであり、図6のデータ構造における”No.”と1対1対応する。突発性雑音か音声の音源範囲に含まれるかどうかは、紙擦れ音パワー計算部11、目的音パワー計算部12が出力する周波数インデックスより分かるが、定常雑音については、定常雑音の音源範囲から(数11)を満たすかどうかを周波数毎に判定し、満たすと判定された周波数成分を定常雑音の音源範囲に含まれる周波数成分であるとみなす。
Figure 0004910568
Xの音源方向がi番目の音源の範囲である場合、(数25)でi番目の音源のステアリングベクトルを更新する。i番目以外の音源については、ステアリングベクトルを更新しない。更にステアリングベクトルを(数26)で大きさを1に正規化する。大きさを1に正規化したステアリングベクトルを要素に持つ行列をA(f,τ)として、(数27)で定義する。(数28)でA(f,τ)の一般化逆行列を計算する。音源分離部9ではA(f,τ)及びA(f,τ)の一般化逆行列を用いて、3種類の分離音を生成する。
Figure 0004910568
Figure 0004910568
Figure 0004910568
この3種類の分離音の中から、時間-周波数毎に適切な分離音を選択して、出力する。
(数29)で一つ目の分離音を算出する。(数30)で時間-周波数毎にどの音源に属するかを振り分ける。振り分けた結果から(数31)で分離を行うためのステアリングベクトルを選択し、(数32)で、分離音を得る。この分離音は、時間-周波数毎に一つの音源にのみ出力信号を振り分けており、二つ以上の音源が存在する場合、出力音は歪む可能性があるものの、雑音抑圧性能はS1と比較して高い。(数33)では時間-周波数毎に一つの音源にパワーを振り分けて、その音源のパワーを入力信号から引いたものから、分離音を得ている。これはS2と比較して出力音が歪む可能性が小さいものの、雑音抑圧性能が低くなる。またこの分離音は、時間-周波数毎に成分を振り分けた音源が雑音である場合のみ使用する。また雑音方向に死角を形成し、目的音方向にビームを形成する死角形成型ビームフォーマを用いて、得た出力信号を分離音としてもよい。また分離音に対して、スペクトルサブトラションによる雑音除去処理を加えてもよい。その際、スペクトルサブトラクションのサブトラクション係数を(数12)で定義されるratioに連動させ、ratioが大きいほど、サブトラクション係数が大きくなるように設定してもよい。このような構成にすることで、紙擦れ音が存在する場合のみ、紙擦れ音を強く抑圧することが可能となる。
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
図7は、紙擦れ音存在判定部10から音源分離部9及び残響除去部13にかけての処理フロー図である。S1では、紙擦れ音パワー及び目的音パワーを用いて(数12)で定義されるratioが予め定める閾値を越えた場合、紙擦れ音が存在すると判定し、閾値を下回った場合、紙擦れ音が存在しないと判定する。そして紙擦れ音が存在すると判定された場合、紙擦れ音除去を行う。紙擦れ音除去では、音源分離部9で算出する3つの分離音を紙擦れ音の存在判定の結果に応じて、切り替えて用いる。紙擦れ音が存在する場合であって、(数30)で紙擦れ音方向に振り分けられた周波数成分については、(数32)を分離音とする。紙擦れ音が存在する場合であって、(数30)で紙擦れ音方向に振り分けられなかった周波数成分については、(数29)を分離音とする。つまり、紙擦れ音が存在する場合は、なるべく紙擦れ音を除去する必要があるため、強い抑圧処理を施す。紙擦れ音が存在しない場合は、妨害音抑圧処理を行わず入力信号を無処理のまま出力する。こうすることで、紙擦れ音が存在しない場合に、目的音を歪ませることが少なくなる。また紙擦れ音が存在しないと判定された場合であっても、ratioがある一定値を超えた場合は、(数33)に基づき、弱い抑圧処理を施してもよい。また定常雑音の存在が仮定できる場合、紙擦れ音が存在しない場合であっても(数29)の分離音を用いて、常に定常雑音を抑圧するような構成にしてもよい。
紙擦れ音残響判定では、紙擦れ音が存在した後、予め定めるフレーム数経っていない場合は、残響抑圧を行うと判定する。紙擦れ音が存在した後、予め定めるフレーム数経っている場合は、残響抑圧を行わないと判定する。残響抑圧を行うと判定した場合は、(数13)に基づく残響抑圧処理を行い、残響抑圧後の信号を出力する。図8に紙擦れ音の振幅値の時間変化の典型例を示す。紙擦れ音は、直接音が鳴った後、小さい紙擦れ音や反響・残響が鳴ることから、しばらくの間、振幅が減衰しない様子が分かる。従って、紙擦れ音の直接音を検知し、その後、しばらくの間、残響抑圧処理を行い、強めに雑音を抑圧することが有効となる。
図9に人間の音声と紙擦れ音のパワースペクトルの比較を行った図を示す。
紙擦れ音は全周波数でほぼ均一なパワーを持つ一方、音声は1000Hz以下など、比較的低い帯域に偏っている。したがって、全帯域の信号から計算した紙擦れ音パワーが同じく全帯域の信号から計算した目的音パワーを上回っている場合であっても、1000Hz以下の低い周波数では音声の目的音パワーが紙擦れ音パワーを上回る可能性がある。その場合、1000Hz以下について、強い妨害音抑圧処理を施すと音声が歪み、聞き取り難い音声となる可能性がある。紙擦れ音パワー計算部11, 目的音パワー計算部12, 紙擦れ音存在判定部10で複数の帯域群毎に紙擦れ音パワー及び目的音パワーを計算し、紙擦れ音が存在するかどうかの判定を帯域群毎に行い、その判定結果を使い、帯域群毎に分離の仕方を切り替えることで、音声が優勢な帯域群については、弱い分離音を選択し、歪の少ない音声を出力することが可能となる。
次にマイク配置として直線配置以外の配置を用いた場合の処理について、位相差計算部8-1での処理の変更点について述べる。直線配置以外の配置として、図10に示す同心円上の正三角形配置であって、サイズの異なるものを複数用いる方法について述べる。正三角形マイクロホンアレイ16は、マイクロホンアレイ4の代わりに用いられる。正三角形マイクロホンアレイ16は、同心のサイズの異なる複数の正三角形サブマイクロホンアレイ16-1〜Uを持つ。直線配置では、-90度〜90度の範囲についてのみ定位が可能であるが、正三角形配置では、-180度〜180度まで全方位の定位が可能となる。
それぞれの正三角形の頂点に配置したU個のサブマイクロホンアレイについて、小さいサイズのものから、順番にインデックスを付与する。それぞれのサブマイクロホンアレイについて、L個のマイクペアを選択する。マイク素子の物理的な位置ベクトルをPと記述する。
l番目のサブマイクロホンアレイのi番目のマイクペアについて、2つのマイク素子をi0,i1とする。この時マイクペアの位置ベクトルの差を(数34)で計算する。更にこれらマイクペアの位置ベクトルの差を要素に持つ行列を(数35)で定義する。Dlの擬似逆行列を(数36)、(数37)で求める。l番目のサブマイクロホンのL個のマイクペア毎の位相差を要素に持つベクトルを(数38)で、時間-周波数毎の入力信号より求める。全てのマイクペアのマイク間隔が、c/2f以下であれば、大きさを1で正規化した音源の位置ベクトルは、(数39)で求めることができる。マイク間隔が広いほど、音源の位置ベクトル推定精度が向上するため、できるだけマイク間隔が広いことが望まれる。
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
しかし、一つでもマイク間隔が、c/2fを上回る場合、直線配置と同様に、位相の2πの不定性が生じ、音源方向とrの関係は、(数40)となり、不定項nを伴う。そこで、直線配置と同様に、マイク間隔が短いサブマイクロホンアレイで不定項nを算出し、マイク間隔が長いサブマイクロホンアレイで、より正確な位相差を算出する。位相の不定項の初期値を(数41)に設定する。マイクペア毎の位相差からなるベクトルrの初期値を(数42)に設定する。nlとは、(数43)に示す整数値の不定項を要素に持つベクトルである。サブマイクロホンごとに(数44)を満たすnlを求める。1は(数45)に示すような全ての要素が値1となるベクトルである。不定項nを求めた後の位相ベクトルを(数46)で定義する。
全てのサブマイクロホンアレイで不定項nを求めた後の位相ベクトルを算出し、最もサイズが大きいサブマイクロホンアレイの位相ベクトルを用いて、(数47)で音源方向の推定値を得る。ヒストグラム計算部8-2では、求めた音源方向のヒストグラムを算出する。求めた音源方向が(数48)を満たす場合、その周波数成分は、i番目の音源に属すると判断することができる。
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
Figure 0004910568
同心円上に配置した複数のサブマイクロホンアレイを用いた場合の処理について示す。
図11に示すような同心円上にマイクロホンを設置することを考える。
同一円周上マイクロホンアレイ17について、マイクロホン素子1とマイクロホン素子2のマイク間隔及びマイクロホン素子4とマイクロホン素子5のマイク間隔及びマイクロホン素子7とマイクロホン素子8のマイク間隔は等しくd0として、これら3つのマイクペアを0番目のサブマイクロホンアレイのマイクペアとする。同様にマイクロホン素子2とマイクロホン素子3のマイク間隔及びマイクロホン素子5とマイクロホン素子6のマイク間隔及びマイクロホン素子8とマイクロホン素子9のマイク間隔は等しくd1として、これら3つのマイクペアを1番目のサブマイクロホンアレイのマイクペアとする。同様にマイクロホン素子1とマイクロホン素子3のマイク間隔及びマイクロホン素子4とマイクロホン素子6のマイク間隔及びマイクロホン素子7とマイクロホン素子9のマイク間隔は等しくd2として、これら3つのマイクペアを2番目のサブマイクロホンアレイのマイクペアとする。d0<d1<d2とする。
これら3つのサブマイクロホンアレイについて、正三角形配置と同様に、(数44)に基づき不定性を解決した位相ベクトルを求め、位相ベクトルから(数47)に基づき音源方向を求めることで、高精度な音源定位が可能となる。
本発明のハードウェア構成を示した図。 本発明のソフトウェアのブロック図。 本発明の位相差ヒストグラム算出部のブロック図。 直線マイクロホンアレイの配置図。 机の上にマイクロホンアレイを配置した一例。 本発明の雑音の種類に関してユーザーが設定するデータの構造。 本発明の紙擦れ音除去の処理フロー図。 紙擦れ音の振幅値の時間変化を示した図。 音声のパワースペクトルと紙擦れ音のパワースペクトルの比較図。 本発明のマイクロホンアレイとして使用可能な正三角形配置の1例を示した図。 本発明のマイクロホンアレイとして使用可能な同一円周上配置の1例を示した図。
符号の説明
1・・・中央演算処理装置、2・・・RAMなどで構成される記憶装置、3・・・ROMなどで構成される記憶装置、4・・・少なくとも2つ以上のマイクロホン素子からなるマイクロホンアレイ、5・・・アナログの音圧値をデジタルデータに変換するA/D変換装置、6・・・アナログの音圧値をデジタルデータに変換するA/D変換手段、7・・・時間領域のデジタルデータを周波数領域のデジタルデータに変換する帯域分割手段、8・・・帯域分割された信号の位相差を各帯域毎に算出し、位相差のヒストグラムを生成する信号処理手段、9・・・帯域分割信号から目的音成分を分離・抽出する音源分離手段、10・・・フレーム毎に紙擦れ音が存在するかどうかを判定する紙擦れ音存在判定手段、11・・・予め定める紙擦れ音が存在する範囲のパワーを推定する手段、12・・・予め定める目的音が存在する範囲のパワーを推定する手段、13・・・音源分離後の信号から雑音の残響成分を抑圧する残響抑圧手段、14・・・残響抑圧後の信号を逆フーリエ変換し、時間領域信号に変換する逆フーリエ変換手段、15・・・逆フーリエ変換した信号をフレームシフト毎に重ね合わせる重畳加算手段、16・・・正三角形の複数のサブマイクロホンアレイを持つ正三角形マイクロホンアレイ、17・・・同一円周上に複数のサブマイクロホンアレイを持つマイクロホンアレイ、S1・・・紙擦れ音が存在するかどうかの判定処理、S2・・・紙擦れ音が存在した後数フレーム以内であるかどうかで残響が存在するかどうかを判定する処理。

Claims (7)

  1. 鉛直方向に配置される少なくとも2つ以上のマイクロホン素子を持つマイクロホンアレイと、
    該マイクロホンアレイからのアナログ信号をデジタル信号に変換するA/D変換手段と、
    該デジタル信号を帯域分割する帯域分割手段と、
    前記マイクロホンアレイの帯域信号ごとに、任意の2つの前記マイクロホン素子からなるマイクペアのうち少なくとも1つのマイクペアにおける位相差を算出する位相差検出部と、
    前記位相差検出部が算出する、前記マイクペアの位相差を横軸とし前記マイクペアの位相差の出現頻度を縦軸とする位相差のヒストグラムを用いて音源の方向を推定し、該推定された音源の方向に基づいて雑音が存在するかどうかを判断する雑音存在判定部と、を有し、
    前記位相差検出部は、帯域毎に、第1のマイクペアにおける第1の位相差、及び、前記マイクロホン素子間の間隔が前記第1のマイクペアよりも長い第2のマイクペアにおける第2の位相差を算出し、前記第1の位相差に基づいて前記第2の位相差から1の位相差を特定することを特徴とする音響信号処理装置。
  2. 鉛直方向に配置される少なくとも2つ以上のマイクロホン素子を持つマイクロホンアレイと、
    該マイクロホンアレイからのアナログ信号をデジタル信号に変換するA/D変換手段と、
    該デジタル信号を帯域分割する帯域分割手段と、
    前記マイクロホンアレイの帯域信号ごとに、任意の2つの前記マイクロホン素子からなるマイクペアのうち少なくとも1つのマイクペアにおける位相差を算出する位相差検出部と、
    前記位相差検出部が算出する、前記マイクペアの位相差を横軸とし前記マイクペアの位相差の出現頻度を縦軸とする位相差のヒストグラムを用いて音源の方向を推定し、該推定された音源の方向に基づいて雑音が存在するかどうかを判断する雑音存在判定部と、を有し、
    前記雑音存在判定部は、前記位相差のヒストグラムから計算される雑音のパワーと目的音のパワーとの比を算出し、該比が予め定める比率より大きい場合、突発性雑音が存在すると判定し、
    前記突発性雑音が存在する場合、前記帯域信号に対して音源分離処理による雑音を抑圧する処理を行い、
    前記突発性雑音が存在しない場合、前記帯域信号に対して前記音源分離処理による雑音を抑圧する処理を行わないことを特徴とする音響信号処理装置。
  3. 鉛直方向に配置される少なくとも2つ以上のマイクロホン素子を持つマイクロホンアレイと、
    該マイクロホンアレイからのアナログ信号をデジタル信号に変換するA/D変換手段と、
    該デジタル信号を帯域分割する帯域分割手段と、
    前記マイクロホンアレイの帯域信号ごとに、任意の2つの前記マイクロホン素子からなるマイクペアのうち少なくとも1つのマイクペアにおける位相差を算出する位相差検出部と、
    前記位相差検出部が算出する、前記マイクペアの位相差を横軸とし前記マイクペアの位相差の出現頻度を縦軸とする位相差のヒストグラムを用いて音源の方向を推定し、該推定された音源の方向に基づいて雑音が存在するかどうかを判断する雑音存在判定部と、
    突発性雑音であるか音声であるか定常雑音であるかを判別するフラグと、それらの音源が空間的に存在する範囲を所定の方向を基準とする該音源の方位角又は仰角により指定した音源範囲の情報とを対応づけるデータを保持する記憶部と、を有し、
    前記雑音存在判定部は、前記データを用いて雑音及び目的音を決定し、前記位相差のヒストグラムから計算される前記雑音のパワーと前記目的音のパワーとの比を算出し、該比が予め定める比率より大きい場合に前記突発性雑音が存在すると判定することを特徴とする音響信号処理装置。
  4. 鉛直方向に配置される少なくとも2つ以上のマイクロホン素子を持つマイクロホンアレイと、
    該マイクロホンアレイからのアナログ信号をデジタル信号に変換するA/D変換手段と、
    該デジタル信号を帯域分割する帯域分割手段と、
    前記マイクロホンアレイの帯域信号ごとに、任意の2つの前記マイクロホン素子からなるマイクペアのうち少なくとも1つのマイクペアにおける位相差を算出する位相差検出部と、
    前記位相差検出部が算出する、前記マイクペアの位相差を横軸とし前記マイクペアの位相差の出現頻度を縦軸とする位相差のヒストグラムを用いて音源の方向を推定し、該推定された音源の方向に基づいて雑音が存在するかどうかを判断する雑音存在判定部と、を有し、
    前記雑音存在判定部は、前記位相差のヒストグラムから計算される雑音のパワーと目的音のパワーとの比を算出し、該比が予め定める比率より大きい場合、突発性雑音が存在すると判定し、
    前記突発性雑音が存在すると判定した後、数フレームについてのみ、残響・反響抑圧処理を行うことを特徴とする音響信号処理装置。
  5. 大きさの異なる複数の同心円上に各々頂点を有する複数の正三角形の略頂点上に配置される、少なくとも6つ以上のマイクロホン素子を持つマイクロホンアレイと、
    該マイクロホンアレイからのアナログ信号をデジタル信号に変換するA/D変換手段と、
    該デジタル信号を帯域分割する帯域分割手段と、
    分割された帯域ごとに、任意の2つの前記マイクロホン素子からなるマイクペアのうち
    少なくとも1つのマイクペアにおける位相差推定を行う位相差検出部と、
    前記位相差検出部が算出する、前記マイクペアの位相差を横軸とし前記マイクペアの位相差の出現頻度を縦軸とする位相差のヒストグラムを用いて音源の方向を推定し、該推定された音源の方向に基づいて雑音が存在するかどうかを判断する雑音存在判定部と、を有することを特徴とする音響信号処理装置。
  6. 請求項1乃至5の何れかに記載の音響信号処理装置であって、
    前記雑音存在判定部は、前記帯域分割手段がフレーム毎に帯域分割するたびに、位相差のヒストグラムを作り直すことを特徴とする音響信号処理装置。
  7. 請求項3に記載の音響信号処理装置のユーザーインターフェースであって、
    前記フラグと前記音源範囲の情報とを対応づける前記データを設定することを特徴とするユーザーインターフェース。
JP2006228566A 2006-08-25 2006-08-25 紙擦れ音除去装置 Expired - Fee Related JP4910568B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006228566A JP4910568B2 (ja) 2006-08-25 2006-08-25 紙擦れ音除去装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006228566A JP4910568B2 (ja) 2006-08-25 2006-08-25 紙擦れ音除去装置

Publications (2)

Publication Number Publication Date
JP2008054071A JP2008054071A (ja) 2008-03-06
JP4910568B2 true JP4910568B2 (ja) 2012-04-04

Family

ID=39237666

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006228566A Expired - Fee Related JP4910568B2 (ja) 2006-08-25 2006-08-25 紙擦れ音除去装置

Country Status (1)

Country Link
JP (1) JP4910568B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4952950B2 (ja) * 2008-06-24 2012-06-13 独立行政法人産業技術総合研究所 非日常音検出システム
JP2010130144A (ja) * 2008-11-26 2010-06-10 Toyota Motor Corp ロボット、収音装置、及び音声処理方法
WO2011004503A1 (ja) * 2009-07-08 2011-01-13 株式会社日立製作所 雑音除去装置及び雑音除去方法
JP5172797B2 (ja) * 2009-08-19 2013-03-27 日本電信電話株式会社 残響抑圧装置とその方法と、プログラムと記録媒体
JP5446745B2 (ja) * 2009-11-05 2014-03-19 富士通株式会社 音信号処理方法および音信号処理装置
JP5595112B2 (ja) * 2010-05-11 2014-09-24 本田技研工業株式会社 ロボット
JP2011091851A (ja) * 2010-12-17 2011-05-06 Toyota Motor Corp ロボット、及び収音装置
JP2011101407A (ja) * 2010-12-28 2011-05-19 Toyota Motor Corp ロボット、及び収音装置
GB2493327B (en) * 2011-07-05 2018-06-06 Skype Processing audio signals
US9282405B2 (en) 2012-04-24 2016-03-08 Polycom, Inc. Automatic microphone muting of undesired noises by microphone arrays
JP6543843B2 (ja) * 2015-06-18 2019-07-17 本田技研工業株式会社 音源分離装置、および音源分離方法
CN105444873A (zh) * 2015-11-05 2016-03-30 浙江安侣智能科技有限公司 铁路设备的故障检测装置
JP6649787B2 (ja) * 2016-02-05 2020-02-19 日本放送協会 集音装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63262576A (ja) * 1987-04-20 1988-10-28 Sony Corp マイクロホン装置
JPS6420798A (en) * 1987-07-16 1989-01-24 Matsushita Electric Ind Co Ltd Sound collector
JPH0595550A (ja) * 1991-10-01 1993-04-16 Nec Corp 会議電話用騒音除去回路
JP4167694B2 (ja) * 1996-11-27 2008-10-15 富士通株式会社 マイクロホンシステム
JPH10327494A (ja) * 1997-05-22 1998-12-08 Matsushita Electric Ind Co Ltd マイクロホン装置
JPH1183612A (ja) * 1997-09-10 1999-03-26 Mitsubishi Heavy Ind Ltd 移動体の騒音測定装置
JP3484112B2 (ja) * 1999-09-27 2004-01-06 株式会社東芝 雑音成分抑圧処理装置および雑音成分抑圧処理方法
JP3812887B2 (ja) * 2001-12-21 2006-08-23 富士通株式会社 信号処理システムおよび方法
JP2003337164A (ja) * 2002-03-13 2003-11-28 Univ Nihon 音到来方向検出方法及びその装置、音による空間監視方法及びその装置、並びに、音による複数物体位置検出方法及びその装置
JP3925734B2 (ja) * 2003-03-17 2007-06-06 財団法人名古屋産業科学研究所 対象音検出方法、信号入力遅延時間検出方法及び音信号処理装置
JP2005227512A (ja) * 2004-02-12 2005-08-25 Yamaha Motor Co Ltd 音信号処理方法及びその装置、音声認識装置並びにプログラム
JP2005229420A (ja) * 2004-02-13 2005-08-25 Toshiba Corp 音声入力装置
JP4456504B2 (ja) * 2004-03-09 2010-04-28 日本電信電話株式会社 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム
JP4729927B2 (ja) * 2005-01-11 2011-07-20 ソニー株式会社 音声検出装置、自動撮像装置、および音声検出方法

Also Published As

Publication number Publication date
JP2008054071A (ja) 2008-03-06

Similar Documents

Publication Publication Date Title
JP4910568B2 (ja) 紙擦れ音除去装置
JP5007442B2 (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
EP3320692B1 (en) Spatial audio processing apparatus
CN104854878B (zh) 使用双麦克风阵列抑制空间干扰的设备、方法和计算机介质
JP6584930B2 (ja) 情報処理装置、情報処理方法およびプログラム
AU2011334840B2 (en) Apparatus and method for spatially selective sound acquisition by acoustic triangulation
CN110770827B (zh) 基于相关性的近场检测器
US9241223B2 (en) Directional filtering of audible signals
JP2004274763A (ja) マイクロホンアレイ構造、ビーム形成装置およびビーム形成方法、ならびに音源方向推定装置および方法
MX2012011203A (es) Procesador de audio espacial y metodo para proveer parametros espaciales en base a una señal de ntrada acustica.
US20130016854A1 (en) Microphone array processing system
KR20090037692A (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
KR20170053623A (ko) 사운드 소스들을 향상시키기 위한 방법 및 장치
Fukui et al. Sound source separation for plural passenger speech recognition in smart mobility system
Yousefian et al. Using power level difference for near field dual-microphone speech enhancement
Yin et al. Multi-talker Speech Separation Based on Permutation Invariant Training and Beamforming.
Himawan et al. Clustering of ad-hoc microphone arrays for robust blind beamforming
Gergen et al. Source separation by fuzzy-membership value aware beamforming and masking in ad hoc arrays
Zhu et al. Modified complementary joint sparse representations: a novel post-filtering to MVDR beamforming
JPWO2020110228A1 (ja) 情報処理装置、プログラム及び情報処理方法
Hadad et al. Multi-speaker direction of arrival estimation using SRP-PHAT algorithm with a weighted histogram
Kawase et al. Automatic parameter switching of noise reduction for speech recognition
Xiang et al. Distributed microphones speech separation by learning spatial information with recurrent neural network
Takada et al. Sound source separation using null-beamforming and spectral subtraction for mobile devices
Ogawa et al. Speech enhancement using a square microphone array in the presence of directional and diffuse noise

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081205

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20090914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111220

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120102

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150127

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees