JP4104626B2 - 収音方法及び収音装置 - Google Patents
収音方法及び収音装置 Download PDFInfo
- Publication number
- JP4104626B2 JP4104626B2 JP2005504891A JP2005504891A JP4104626B2 JP 4104626 B2 JP4104626 B2 JP 4104626B2 JP 2005504891 A JP2005504891 A JP 2005504891A JP 2005504891 A JP2005504891 A JP 2005504891A JP 4104626 B2 JP4104626 B2 JP 4104626B2
- Authority
- JP
- Japan
- Prior art keywords
- covariance matrix
- sound
- signal
- sound source
- filter coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 54
- 239000011159 matrix material Substances 0.000 claims description 247
- 238000004364 calculation method Methods 0.000 claims description 78
- 238000001514 detection method Methods 0.000 claims description 47
- 230000005236 sound signal Effects 0.000 claims description 42
- 230000005540 biological transmission Effects 0.000 claims description 27
- 238000001914 filtration Methods 0.000 claims description 26
- 238000006243 chemical reaction Methods 0.000 claims description 20
- 230000035945 sensitivity Effects 0.000 claims description 16
- 230000002087 whitening effect Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims 2
- 230000001629 suppression Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 9
- 230000003321 amplification Effects 0.000 description 8
- 238000003199 nucleic acid amplification method Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000004088 simulation Methods 0.000 description 7
- 230000006866 deterioration Effects 0.000 description 5
- 230000007774 longterm Effects 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229910052761 rare earth metal Inorganic materials 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/41—Electronic components, circuits, software, systems or apparatus used in telephone systems using speaker recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Description
図17は例えば日本国特許出願公開8−250944に示されている従来の収音装置の原理的構成をブロック図で示す。この従来の収音装置は、マイクロホン41と、パワー算出部42と、増幅率設定部43と、増幅器44により構成される。パワー算出部42は、マイクロホン41で受音された信号の長時間平均パワーPaveを求める。長時間平均パワーは、受音信号を二乗し、時間積分することで求めることができる。次に、増幅率設定部43は、パワー算出部42で算出された受音信号の長時間平均パワーPaveと、あらかじめ設定した所望の送出レベルPoptに基づき、増幅率Gを設定する。増幅率Gは、例えば、次式(1)により求められる。
増幅器44は、設定された増幅率Gで、マイクロホン受音信号を増幅し、出力する。
以上の処理により、出力信号パワーは、所望の送出レベルPoptとなり、音量が自動的に調整される。しかし、従来技術の収音方法では、長時間平均パワーを基に増幅率を決定しているので、適切な増幅率が設定されるまでに数秒から数十秒の遅延が生じる。これにより、話者が複数人存在し、それぞれの話者音声が異なるレベルでマイクロホンに収音される場合、発話者が切り替るたびに、増幅率設定の適応が遅れ、不適切な音量となるという問題が生じる。
この発明の目的は、話者が複数人存在し、それぞれの話者音声が異なるレベルでマイクロホンに収音される場合においても、各話者音声が適切な音量となるように音量を自動調整する収音装置、収音方法、及びそのプログラムを提供することである。
(a)上記複数チャネルのマイクロホンで受音された受音信号から、発話区間を判定する発話判定段階を含む状態判定段階と、
(b)上記発話判定段階において発話区間と判定された場合に、上記受音信号から、各音源位置を検出する音源位置検出段階と、
(c)上記受音信号を周波数領域の信号に変換する周波数領域変換段階と、
(d)上記周波数領域の受音信号の共分散行列を算出する共分散行列算出段階と、
(e)上記音源位置検出段階の検出結果に基づき、各音源に対し上記共分散行列を記憶する共分散行列記憶段階と、
(f)記憶されている上記共分散行列と予め決めた出力レベルに基づき上記複数チャネルのフィルタ係数を算出するフィルタ係数算出段階と、
(g)上記複数チャネルの受音信号をそれぞれ上記複数チャネルのフィルタ係数でフィルタリングするフィルタリング段階と、
(h)上記複数チャネルのフィルタリング結果を加算して送話信号として出力する加算段階、
とを含む収音方法。
この発明によれば、音響空間に配置された複数チャネルのマイクロホンにより各音源から発せられた音を収音する収音装置は、
複数チャネルのマイクロホンの各々で受音された受音信号から、発話区間を判定する発話判定部を含む状態判定部と、
上記発話判定部において発話区間と判定された場合に、上記受音信号から、音源位置を検出する音源位置検出部と、
上記受音信号を周波数領域の信号に変換する周波数領域変換部と、
上記周波数領域の複数チャネルの受音信号の共分散行列を各音源ごとに算出する共分散行列算出部と、
上記音源位置検出手段の検出結果に基づき、上記共分散行列を音源ごとに記憶する共分散行列記憶部と、
記憶された上記共分散行列を用いて、各音源に対する送話信号レベルが各々所望のレベルとなるよう複数チャネルのフィルタ係数を算出するフィルタ係数算出部と、
上記マイクロホン受音信号を、上記複数チャネルのフィルタ係数で、各々フィルタリングする複数チャネルのフィルタと、
上記複数チャネルのフィルタの出力信号を加算し、送話信号として出力する加算器、
とを含むように構成される。
この発明の第2の観点によれば、受話信号がスピーカから再生される音響空間内で少なくとも1つのマイクロホンにより少なくとも1つの音源からの発音を収音する収音方法は、
(a)上記少なくとも1チャネルのマイクロホンで受音された受音信号と受話信号から発話区間及び受話区間を判定する状態判定段階と、
(b)上記受音信号及び上記受話信号を周波数領域の信号に変換する周波数領域変換段階と、
(c)上記周波数領域の受音信号及び受話信号から発話区間での共分散行列及び受話区間での共分散行列を算出する共分散行列算出段階と、
(d)上記状態判定段階の判定結果に基づいて、上記共分散行列を上記発話区間及び上記受話区間ごとに記憶する共分散行列記憶段階と、
(e)上記発話区間及び上記受話区間での記憶された共分散行列に基づいて受音信号に含まれる受話信号成分である音響エコーを抑圧するよう上記少なくとも1チャネルの受音信号用のフィルタ係数と上記受話信号用のフィルタ係数を算出するフィルタ係数算出段階と、
(f)上記受話信号及び上記受音信号を、上記受話信号用のフィルタ係数と上記少なくとも1チャネルの受音信号用のフィルタ係数でフィルタリングするフィルタリング段階と、
(g)上記フィルタリングされた信号を加算して送話信号として出力する加算段階、
とを含む。
この発明の第2の観点による収音装置は、
音源からの送話音を収音して受音信号を出力する少なくとも1チャネルのマイクロホンと、
受話信号を再生出力するスピーカと、
受音信号と受話信号から発話区間及び受話区間を判定する状態判定部と、
上記受話信号及び上記受音信号を周波数領域の信号に変換する周波数領域変換部と、
上記発話区間及び受話区間ごとに上記周波数領域の受音信号と受話信号の共分散行列を算出する共分散行列算出部と、
上記共分散行列を発話区間及び受話区間ごとに記憶する共分散行列記憶部と、
記憶された上記共分散行列に基づいて上記受話信号の音響エコーを抑圧するように上記少なくとも1チャネルの受音信号用のフィルタ係数と上記受話信号用のフィルタ係数を算出するフィルタ係数算出部と、
上記受音信号用のフィルタ係数と上記受話信号用のフィルタ係数が設定され、上記受音信号と上記受話信号をフィルタリングして出力する受音信号用フィルタと受話信号用フィルタと、
上記受音信号用フィルタの出力と上記受話信号用フィルタの出力を加算し、加算結果を送話信号として出力する加算器、
とを含むように構成される。
本発明は、話者が複数人存在し、それぞれの話者音声が異なるレベルでマイクロホンに収音される場合においても、複数のマイクロホンを用いて指向特性を適切に制御することにより、話者ごとに適切な音量となるように音量を自動調整する。
図2は図1における状態判定部14の構成例を示すブロック図。
図3は図1における音源位置検出部15の構成例を示すブロック図。
図4は図1におけるフィルタ係数算出部21の構成例を示すブロック図。
図5は図1の収音装置を使用した収音方法の第1の例を示すフロー図。
図6は図1の収音装置を使用した収音方法の第2の例を示すフロー図。
図7は図1の収音装置を使用した収音方法の第3の例を示すフロー図。
図8は本発明の第2の実施例である収音装置を示すブロック図。
図9は図8における状態判定部14の構成例を示すブロック図。
図10は本発明の第3の実施例である収音装置を示すブロック図。
図11は図7における状態判定部14の構成例を示すブロック図。
図12は本発明の第4実施例の収音装置を示すブロック図。
図13は本発明の第5実施例の収音装置を示すブロック図。
図14は図4における重み係数設定部21Hの構成例を示すブロック図。
図15は図4における重み係数設定部21Hの他の構成例を示すブロック図。
図16は図4に設ける白色化部21Jの構成例を示すブロック図。
図17は各実施例において、共分散行列の平均化機能を設けた場合の共分散行列記憶部18の構成例を示すブロック図。
図18Aは第1実施例による処理を行う前の話者A及びBのシミュレーションによる音声波形を示す図。
図18Bは第1実施例による処理を行った場合の話者A及びBのシミュレーションによる音声波形を示す図。
図19は第3実施例による音響エコー及び雑音の抑圧を示すシミュレーションによる受話及び送話音声波形を示す図。
図20は従来の収音装置を示すブロック図。
図1は、本発明の第1の実施例である収音装置のブロック図である。
本実施例の収音装置は、音響空間内に配置されたMチャネルのマイクロホン111〜11Mと、フィルタ121〜12Mと、加算器13と、状態判定部14と、音源位置検出部15と、周波数領域変換部16と、共分散行列算出部17と、共分散行列記憶部18と、収音レベル推定部19と、フィルタ係数算出部21により構成される。
本実施例は、音響空間内の音源91〜9Kの位置を検出し、各音源位置に対する受音信号の周波数領域での共分散行列を求めて保存しておき、これらを用いてフィルタ係数を求める。これらのフィルタ係数で、マイクロホン受音信号をフィルタリングすることで、各音源からの信号が一定の音量となるように制御する。この発明の実施例において、マイクロホン111〜11Mの各出力受音信号は特に図示しないがディジタルアナログ変換器により予め決められたサンプリング周波数でディジタル値に変換して得られたディジタルの受音信号であるものとする。他の実施例においても同様である。
まず、状態判定部14では、マイクロホン111〜11Mで受音したマイクロホン受音信号から、発話区間を検出する。例えば、図2に示すように、状態判定部14ではマイクロホン111〜11Mからの全受話信号を加算部14Aで加算し、その加算出力を短時間平均パワー算出部14Bと長時間平均パワー算出部14Cでそれぞれ短時間平均パワー(例えば0.1〜1s間程度の平均パワー)PavSと、長時間平均パワー(例えば1〜100s間程度の平均パワー)PavLを求め、割算部14Dで短時間平均パワーと長時間平均パワーの比Rp=PavS/PavLを求め、発話判定部14Eでそのパワー比Rpを予め決めた発話の閾値RthUと比較し、それを超える場合に発話区間と判定する。
状態判定部14の判定結果が発話区間であった場合に、音源位置検出部15は、音源の位置を推定する。音源位置の推定方法は、例えば相互相関法による方法がある。
マイクロホンの数をM(Mは2以上の整数)個とし、i番目マイクロホン11iとj番目マイクロホン11jで受音された信号より求められる受音信号間遅延時間差の測定値をτijする。受音信号間遅延時間差の測定値は、信号間の相互相関を求め、その最大ピーク位置から求めることができる。次に、m(m=1,...,M)番目のマイクロホン11mの受音位置を(xm,ym,zm)、推定音源位置を(X,Y,Z)と表す。これらの位置から求められる受音信号間遅延時間差の測定値τijは、式(2)で表される。
ただし、cは音速である。
次に、受音信号間遅延時間差の測定値τijび推定値τijに音速cを乗じ距離に換算したものを、それぞれ受音位置間距離差の測定値dij及び推定値dijとし、これらの二乗平均誤差e(q)を求めれば、式(3)となる。
ただし、q=(X,Y,Z)である。ri及びrjは推定音源位置q=(X,Y,Z)とマイクロホン11i、11j間の距離を表している。
式(3)の二乗平均誤差e(q)を最小化する解を求めれば、受音信号間遅延時間差の測定値と推定値の誤差が最小となる推定音源位置を求めることができる。ただし、式(3)は非線形連立方程式となっており、解析的に解くことは困難であるので、逐次修正を用いた数値解析により求める。
式(3)を最小化する推定音源位置(X,Y,Z)を求めるには、式(3)のある点における勾配を求め、誤差が小さくなる方向に、推定音源位置を修正していき、勾配が0となる点を求めればよいので、推定音源位置の修正は次式(4)をu=0,1,...について繰り返し演算する。
ただし、αは修正のステップサイズであり、α>0の値を設定する。q(u)は、u回修正後のqを表し、u=0の場合のq(0)=(X0,Y0,Z0)を予め決めた任意の初期値とする。gradは勾配を表し、次式(5)〜(10)で表される。
以上、式(4)を繰返し計算することで、誤差が最小となる推定音源位置q=(X,Y,Z)を求めることができる。
図3は音源位置検出部15の機能構成をブロック図で示す。この例では、音源位置検出部15は、遅延時間差測定部15Aと、乗算器15Bと、距離計算部15Cと、二乗平均誤差計算部15Dと、勾配計算部15Eと、比較判定部15Fと、推定位置更新部15Gとから構成されている。
遅延時間差測定部15Aは1つの音源9kから発音されている期間に
i=1,2,...,M−1;
j=i+1,i+2,...,M
の全ての組の(i,j)についてマイクロホン11i、11jによる受音信号に基いて相互相関法により遅延時間差τijを測定する。乗算器15Bは、測定された各遅延時間差τijに音速cを乗算して音源とマイクロホン11i、11j間の距離差dijを求める。距離計算部15Cは推定位置更新部15Gから与えられる推定音源位置(X,Y,Z)とマイクロホン11i、11j間の距離ri,rjを式(9)、(10)により計算する。ただし、推定位置更新部15Gは、最初の推定音源位置として任意の初期値(X0,Y0,Z0)を距離計算部15Cに与える。二乗平均誤差計算部15Dは前述の全ての組の(i,j)についてdij,ri,rjを使って式(3)により二乗平均誤差e(q)を計算する。勾配計算部15Fで現在の推定音源位置とdij,ri,rjを使って式(6)、(7)、(8)により二乗平均誤差e(q)の勾配grad e(q)を計算する。
比較判定部15Fは二乗平均誤差の勾配grad e(q)の各要素と予め決めた閾値ethとを比較し、全ての要素が閾値ethより小さくなったか判定し、小さければそのときの推定音源位置(X,Y,Z)を出力する。ethより小さくなければ、推定位置更新部15Gは勾配grad e(q)と現在の推定位置q=(X,Y,Z)を使って式(4)により推定位置を更新し、更新された推定位置qu+1=(X,Y,Z)を距離計算部15Cに与える。距離計算部15Cは更新された推定位置(X,Y,Z)とdijを使って前述と同様に更新されたri,rjを計算し、以下、二乗誤差平均部15Dはe(q)を更新し、勾配計算部15Eは更新された勾配grad e(q)を計算し、比較判定部15Fは更新された二乗平均誤差e(q)が閾値ethより小となったか判定する。
このようにして推定位置(X,Y,Z)の更新を二乗平均誤差の勾配grad e(q)の全要素が十分小さい値(ethより小)になるまで繰り返し実行して音源9kの位置(X,Y,Z)を推定する。他の音源についても同様に位置を推定する。
周波数領域変換部16は、各マイクロホンの受音信号を周波数領域信号に変換する。例えば受音信号のサンプリング周波数は16kHzであり、各マイクロホン11m(m=1,...,M)からの受音信号サンプルを1フレーム256サンプルごとにFFT(ファーストフーリエ変換)処理することにより同数の周波数領域信号サンプルXm(ω)が得られる。
次に、共分散行列算出部17では、マイクロホン受音信号の共分散を求め、共分散行列を生成する。各音源9kに対し周波数領域変換部16で得られたマイクロホン受音信号の周波数領域変換信号をX1(ω)〜XM(ω)とすると、これらの信号のM×M共分散行列RXX(ω)は一般に式(11)で表される。
ただし、*は複素共役を表す。
次に、共分散行列記憶部18では、音源位置検出部15の検出結果に基づき、共分散行列RXX(ω)を、各音源9kに対する受音信号のM×M共分散行列RSkSk(ω)として保存する。
各音源9kごとのMチャネルの受音信号に対する重み付けミキシングベクトルをAk(ω)=(ak1(ω),...,akM(ω))で表すと、収音レベル推定部19は、各音源の収音レベルPSkを、共分散行列記憶部18に記憶した各音源9kに対する受音信号の共分散行列RSkSk(ω)を使って次式(12)
により求める。ここでは重み付けミキシングベクトルは周波数特性も制御可能なベクトルAk(ω)=(ak1(ω),...,akM(ω))として表しているが、周波数特性の制御を行わないのであれば、ベクトルAkの要素は予め決めた値ak1,ak2,...,akMとしてよい。例えば各音源9kに対する重み付けミキシングベクトルAkの要素はその音源9kに近いマイクロホンに対応する要素ほど大きな値を与える。極端な例では、Ak=(0,..,0,akm=1,0,...,0)のように、音源9kに最も近いマイクロホン11mに対応する要素のみを1とし、その他を全て0とすることもできる。以下の説明においては、式を簡略化するため、ak1(ω),...,akM(ω)を単にak1,...,akMと表すことにする。
式(12)におけるHは複素共役転置を表し、Ak(ω)HRSkSk(ω)Ak(ω)は次式のように展開すことができる。
式(12)はこの式(13)で表すΩ(ω)が表すパワースペクトルサンプル値を、周波数領域変換部16により生成される周波数領域信号の帯域0〜W(サンプル数)に渡って加算し、Wで割り算することにより受音信号の平均パワーPSkを求めることを意味している。
例えば、音源91に最も近いマイクロホンを111とすると、マイクロホン111(第1チャネル)の受音信号に最大の重み付けを与えるように重み係数ak1の値を決め、その他のチャネルの受音信号に対する重み係数ak2,ak3,...,akMはak1より小さい値に決める。このような重み付けを行うことにより、重み付けを行わない場合より、音源91からの受音信号のS/Nを高め、あるいは室内残響の影響を減らすことができる。即ち、各音源9kに対する重み付けミキシングベクトルAk(ω)の重み付け係数は、例えばその音源9kに対応する出力音声信号のS/Nが大きく、かつ室内残響が小さくなるように、マイクロホンの指向性や配置と音源の配置により最適な値を実験的に予め決めておく。しかしながら、この発明によれば全てのチャネルに等しく重み付けを行った場合でも、それぞれの音源からの受音信号を所望のレベルに制御して出力することができる。
次に、フィルタ係数算出部21では、各音源から発せられた音を所望の音量で収音するためのフィルタ係数を計算する。まず、各マイクロホンに接続されたのフィルタ121〜12Mのフィルタ係数を周波数領域に変換したものをH1(ω)〜HM(ω)とする。次に、これらのフィルタ係数を次式(14)により行列としたものをH(ω)とする。
また、k番目音源9kが発音している期間の各マイクロホンで受音した信号の周波数領域変換信号をXSk,1〜XSk,Mとする。
ここで、フィルタ係数行列H(ω)に要求される条件は、マイクホン受音信号をフィルタ係数行列H(ω)でそれぞれフィルタリングし、フィルタリング後の信号を加算したときに、各音源の信号成分のレベルが所望のレベルPoptなっていることである。従って、各音源9kの信号をフィルタリングおよび加算した信号が、マイクロホン111〜11Mの受音信号に対する重み付けミキシングベクトルAk(ω)と所望の利得を乗じた信号となる次式(15)が理想条件となる。
ただし、k=1,...,Kであり、Kは音源の数を表す。
次に、式(15)の条件をフィルタ係数行列H(ω)について最小二乗解で解けば、次式(16)となる。
ただし、CSkはk番目の音源位置に対する感度拘束を与える重み係数である。感度拘束とは音源位置に対する本収音装置の周波数特性をフラットにすることを意味する。この値が大きくなればその音源に対する感度拘束が強くなり、よりフラットな周波数特性での収音が可能となるが、その他の音源位置に対する周波数特性の劣化が大きくなる。そのため、通常はCSkを0.1〜10程度の値とし、全ての音源をバランスよく感度拘束するのが好ましい。
図4は式(16)で表されるフィルタ係数を計算するフィルタ係数算出部21の機能構成ブロック図を示す。この例では、共分散行列記憶部18から与えられたそれぞれの音源91〜9Kに対応する共分散行列RS1S1〜RSKSKは乗算器21A1〜21AKでそれぞれ重み係数設定部21Hにより設定された重み係数CS1〜CSKと乗算される。また収音レベル推定部19により推定された音源91〜9Kに対する収音レベルPS1〜PSKは平方比算出部21B1〜21BKで予め決めた所望の出力レベルPoptとの平方比(Popt/PS1)1/2〜(Popt/PSK)1/2が演算され、演算結果はそれぞれ乗算器21C1〜21CKで乗算器21A1〜21AKの出力と乗算される。乗算器21C1〜21CKの出力は乗算器21D1〜21DKで更に重み付けミキシングベクトルA1(ω)〜AK(ω)と乗算され、これらの乗算結果の総和の行列が加算器21Eで計算される。一方、乗算器21A1〜21AKの出力の総和の行列が加算器21Fで計算され、逆行列乗算器21Gにより、加算器21Fの出力である総和の行列の逆行列を加算器21Eの出力と乗算することによりフィルタ係数H(ω)が求まる。
次に、フィルタ係数算出部21により求められたフィルタ係数H1(ω),H2(ω),...,HM(ω)は、フィルタ121〜12Mに設定され、マイクロホン111〜11Mからの受音信号をそれぞれフィルタ処理する。フィルタ処理後の信号は、加算器13で加算され、出力信号として出力される。
この発明による収音装置を使用する方法の例として、以下に3つの方法を示す。
第1の方法は、図5に示すように、まず、ステップS1で音源数KをK=0に初期設定する。次にステップS2で状態判定部14により定期的に発話検出を行い、発話が検出されるとステップS3で音源位置検出部15により音源位置検出を実行する。ステップS4で、検出された音源位置が以前に検出された音源位置のいずれかと一致するか判定し、一致するものがあればステップS5でその音源位置に対応する共分散行列RXX(ω)を共分散行列算出部17で新たに計算し、ステップS6で共分散行列記憶部18の対応する領域の共分散行列を更新する。
ステップS4で以前に検出された音源位置と一致しなかった場合は、ステップS7でKを1だけ増加させ、ステップS8でその音源位置に対応する共分散行列RXX(ω)を共分散行列算出部17で新たに計算し、ステップS9で共分散行列記憶部18の新たな領域に共分散行列を記憶する。
次に、ステップS10で記憶されている共分散行列から、収音レベル推定部19により収音レベルを推定し、ステップS11で推定収音レベルと共分散行列を使ってフィルタ係数算出部21によりフィルタ係数H1(ω)〜HM(ω)の算出を行い、ステップS12でフィルタ121〜12Mの設定フィルタ係数を更新する。
第2の方法は、図6に示すように、ステップS1で予め音源数の最大値をKmaxに設定し、また音源数Kの初期値を0に設定しておく。以下のステップS2からS6は図5の場合と同様に発話検出を行い、発話が検出されると音源位置の検出を行い、検出した音源位置が過去に検出したものと一致するか判定し、一致するものがあれば共分散行列を計算して対応する領域に更新保存する。
ステップS4で検出音源位置が過去の検出音源位置と一致しない場合は、ステップS7でKに1を加算し、ステップS8でKが最大値Kmaxより大となったか判定する。最大値Kmaxを越えてなければステップS9で検出位置に対する共分散行列を計算し、ステップS10で新たな領域に共分散行列を保存する。ステップS8でKが最大値Kmaxを超えている場合は、ステップS11でK=Kmaxとし、ステップS12で共分散行列記憶部18に記憶されている共分散行列のうち、最も過去に更新された共分散行列を消去し、その領域に、ステップS13で共分散行列算出部17により計算された新たな共分散行列をステップS14で格納する。以下のステップS15,S16,S17は図5のステップS10,S11,S12と同様に、共分散行列から各音源の推定収音レベルを求め、フィルタ係数を計算してフィルタ121〜12Mに設定する。この方法では、音源数Kの最大値をKmaxに制限することにより図5の方法に比べて共分散行列記憶部18の記憶領域を少なくすることができる利点がある。
上記第1及び第2の方法では、音源の発話を検出するごとに必ず共分散行列の計算と保存、及びフィルタ係数の更新を行う場合を示したが、第3の方法では、検出した発話の音源位置が、既に検出した音源位置のいずれかと一致した場合は更新を行わない。図7は第3の方法の処理手順を示す。ステップS1で音源数Kの初期値を0に設定し、ステップS2で状態検出部14により定期的に発話検出動作を実行し、発話状態を検出するとステップS3で音源位置検出部15で音源位置の検出を実行する。ステップS4で検出音源位置が既に検出された音源位置のいずれかと一致するか判定し、一致するものがあれば更新処理を行わずステップS2に戻る。ステップS4で既に検出した位置と一致するものがない場合、即ち、前回までと異なる位置にいずれかの音源9kが移動したか、又は新たな音源が加わった場合は、ステップS5でKを1だけ増加し、ステップS6でその音源に対応する共分散行列RSkSk(ω)を共分散行列算出部17で新たに計算し、ステップS7で共分散行列記憶部18の対応する新たな領域MAkに保存すると共に、ステップS8でその共分散行列を使って収音レベル推定部19により収音レベルを推定し、ステップS9で全ての共分散行列と推定収音レベルを使ってフィルタ係数算出部21により更新したフィルタ係数の算出を実行し、ステップS10でフィルタ121〜12Mに更新したフィルタ係数を設定し、ステップS2に戻る。
以上示したように、本発明では、複数マイクロホンの受音信号から、音源位置を推定し、各音源に対し受音信号の共分散行列を求め、音源位置ごとに音量を調整するフィルタ係数を求め、それらのフィルタ係数でマイクロホン受音信号をフィルタリングすることで、話者位置ごとに音量を調整した出力信号を得ることができる。
図1の実施例では、音源位置検出部15は各音源9kの座標位置を推定する場合について説明したが、音源方向、即ち、マイクロホン111〜11Mの配列に対する各音源9kの角度位置を求めてもよい。音源方向の推定方法は、例えば田中、金田、小島による「音源方向推定方法の室内残響下での性能評価」、日本音響学会誌Vol.50,No.7,1994,pp.540−548に示されている。要するに、各音源に対応して受音信号の共分散行列を求め、記憶しておけばよい。
第2実施例
図8は、本発明の第2の実施例である収音装置の機能ブロック図である。
本実施例の収音装置は、マイクロホン111〜11Mと、フィルタ121〜12Mと、加算器13と、状態判定部14と、音源位置検出部15と、周波数領域変換部16と、共分散行列算出部17と、共分散行列記憶部18と、収音レベル推定部19と、フィルタ係数算出部21により構成される。
本実施例は、本発明の第1の実施例である収音装置の収音レベル調整に雑音抑圧を加えたものである。
まず、状態判定部14では、マイクロホン111〜11Mで受音したマイクロホン受音信号のパワーから、発話区間および雑音区間を検出する。状態判定部14は図9に示すように、図2の状態判定部14の構成に更に雑音判定部14Fが追加された構成となっている。例えば、第1実施例と同様に、それぞれのマイクロホン受音信号について、短時間平均パワーPavSと、長時間平均パワーPavLを短時間平均パワー算出部14Bと長時間平均パワー算出部14Cで求め、割り算部14Dで短時間平均パワーと長時間平均パワーの比Rp=PavS/PavLが求められ、発話判定部14Eで発話の閾値PthUと比較され、それを超えていれば発話区間と判定される。雑音判定部14Fはパワー比Rpを雑音閾値PthNと比較し、それより小であれば雑音区間であると判定する。
発話判定部14Eの判定結果が発話区間であった場合に、音源位置検出部15は、本発明の第1の実施例と同様にして、音源位置を検出する。
次に、周波数領域変換部16は各音源9kの発音区間及び雑音区間においてそれぞれのマイクロホン111〜11Mからの受音信号を周波数領域信号に変換して共分散行列演算部17に与える。共分散行列算出部17は、本発明の第1の実施例と同様にして、各音源9kに対する周波数領域受音信号の共分散行列RSkSk(ω)を算出する。更に、雑音区間における周波数領域受音信号の共分散行列RNN(ω)を算出する。
共分散行列記憶部18では、音源位置検出部15の検出結果および状態判定部15の判定結果に基づき、音源91,...,9Kに対する共分散行列RSkSk(ω)と雑音区間の共分散行列RNN(ω)を領域MA1,...,MAK,MAK+1に保存する。
収音レベル推定部19は、各音源の収音レベルPSkを、本発明の第1の実施例と同様にして推定する。
次に、フィルタ係数算出部21では、各音源9kから発せられた音を所望の音量で収音し、かつ雑音を抑圧するためのフィルタ係数を算出する。まず、雑音抑圧の条件を求める。雑音区間のマイクロホン受音信号の周波数領域変換信号をXN,1(ω)〜XN,M(ω)とする。雑音区間のマイクロホン受音信号XN,1(ω)〜XN,M(ω)がフィルタ121〜12Mおよび加算器13を通過後に0となれば、雑音を抑圧できているので、雑音抑圧のための条件式は、式(17)となる。
この式(17)と、本発明の第1の実施例で示した収音レベル調整のための条件式(15)の両方を満たせば、収音レベル調整と雑音抑圧の両方を実現できる。
次に、式(15)、(17)の条件をフィルタ係数行列H(ω)について最小二乗解で解けば、次式(18)
となる。CNは雑音消去量に対する重みの定数であり、値が大きくなるほど雑音の消去量が増加する。ただし、CNを大きくすることにより音源位置に対する感度拘束が弱くなり、収音信号周波数特性の劣化が大きくなるため、通常、CNは0.1〜10.0程度の適当な値に設定する。その他の記号の意味については、第1の実施例と同様である。
次に、式(18)により求められた、フィルタ係数は、フィルタ121〜12Mに設定され、マイクロホン受音信号をそれぞれフィルタリングする。フィルタリング後の信号は、加算器13で加算され、出力信号として出力される。
以上、本発明の第2の実施例は、本発明の第1の実施例における収音レベル調整の効果に加え、雑音抑圧を行うことが可能である。
これら以外の部分に関しては、本発明の第1の実施例と同じであるので、説明を省略する。
第3実施例
図10は、本発明の第3の実施例である収音装置の機能ブロック図である。
本実施例の収音装置は、スピーカ22と、マイクロホン111〜11Mと、フィルタ121〜12M、23と、加算器13と、状態判定部14と、音源位置検出部15と、周波数領域変換部16と、共分散行列算出部17と、共分散行列記憶部18と、収音レベル推定部19と、フィルタ係数算出部21により構成される。
本実施例は、図8に示した本発明の第2の実施例である収音装置に受話信号を再生するスピーカ22と、受話信号をフィルタリングするフィルタ23とを追加し、第2実施例による収音レベル調整および雑音抑圧に加えてマイクロホン111〜11Mで収音されるスピーカ再生信号成分である音響エコーを抑圧するようにしたものである。
状態判定部14は、図11に示すように、図4の状態判定部14の構成に、更に受話信号の短時間平均パワーP’avS及び長時間平均パワーP’avLを算出する短時間平均パワー算出部14B’と長時間平均パワー算出部14C’と、これらの比R’p=P’avS/P’avLを計算する割り算部14D’と、その比R’pを予め決めた受話信号の閾値RthRと比較し、それより大であれば受話区間であると判定する受話判定部14Gと、発話判定部14E、雑音判定部14F、受話判定部14Gの判定結果に基づいて状態を決定する状態決定部14Hが追加されている。状態決定部14Hは、受話判定部14Gの判定結果が受話区間と判定した場合は、他の発話判定部14E、雑音判定部14Fの判定結果にかかわらず、受話区間と決定し、受話判定部14Gが受話区間でないと判定した場合は、図4の場合と同様に発話判定部14E及び雑音判定部14Fの判定に従って、発話区間又は雑音区間と決定する。
状態判定部14の判定結果が発話区間であった場合に、音源位置検出部15は、本発明の第1の実施例と同様にして、音源位置を検出する。
次に、周波数領域変換部16でマイクロホン受音信号および受話信号をそれぞれ周波数領域信号X1(ω),...,XM(ω)及びZ(ω)に変換し、共分散行列算出部17はそれらの周波数領域受音信号及び受話信号の共分散行列を生成にする。マイクロホン受音信号の周波数領域変換信号X1(ω)〜XM(ω)及び受話信号の周波数領域変換信号Z(ω)の共分散行列RXX(ω)は、次式(19)により算出される。
ただし、*は複素共役を表す。
次に、共分散行列記憶部18では、音源位置検出部15の検出結果および状態判定部14の判定結果に基づき、共分散行列RXX(ω)を、発話区間における各音源9kに対する受音信号及び受話信号の共分散行列RSkSk(ω)と、雑音区間における受音信号及び受話信号の共分散行列RNN(ω)と、受話区間における受音信号と受話信号の共分散行列REE(ω)としてそれぞれ領域MA1,...,MAK,MAK+1,MAK+2に保存する。
収音レベル推定部19は、各音源9kの収音レベルPSkを、各音源に対する共分散行列RS1S1,...,RSKSKと、各音源ごとのM+1要素からなる予め決めた重み付けミキシングベクトルA1(ω),...,AK(ω)に基づく次式(20)により求める。
次に、フィルタ係数算出部21では、各音源から発せられた音を所望の音量で収音するためのフィルタ係数を計算する。まず、各マイクロホンに接続されたのフィルタ121〜12Mのフィルタ係数を周波数領域に変換したものをH1(ω)〜HM(ω)とし、受話信号をフィルタリングするフィルタ23のフィルタ係数を周波数領域に変換したものをF(ω)とする。次に、これらのフィルタ係数を式(21)により行列としたものをH(ω)とする。
また、受話区間のマイクロホン受音信号の周波数領域変換信号をXE,1(ω)〜XE,M(ω)、受話信号の周波数領域変換信号をZE(ω)とし、雑音区間のマイクロホン受音信号の周波数領域変換信号をXN,1(ω)〜XN,M(ω)、受話信号の周波数領域変換信号をZN(ω)とし、k番目の音源9kが発音している発話区間のマイクロホン受音信号の周波数領域変換信号をXSk,1(ω)〜XSk,M(ω)、受話信号の周波数領域変換信号をZSk(ω)とする。
ここで、フィルタ係数行列H(ω)に要求される条件は、マイクロホン受音信号および送話信号をフィルタ係数行列H(ω)でそれぞれフィルタリングし、フィルタリング後の信号を加算したときに、音響エコー信号と雑音信号が消去され、送話音声信号のみが所望のレベルで送話されることである。
従って、受話区間および雑音区間の信号に対しては、フィルタリングおよび加算後の信号が0となる次式(22)及び(23)
が理想条件となり、発話区間の信号に対しては、フィルタリングおよび加算後の信号がマイクロホン受音信号および受話信号に予め決めたM+1要素の重み付けミキシングベクトルAk(ω)と所望の利得を乗じた信号となる次式
が理想条件となる。重み付けミキシングベクトルAk(ω)=(a0(ω),ak1(ω),...,akM(ω))の要素a0(ω)は受話信号に対する重み係数を表し、通常はa0(ω)=0と設定する。
次に、式(22)〜(24)の条件をフィルタ係数行列H(ω)について最小二乗解で解けば、次式
となる。CEは音響エコー消去量に対する重みの定数であり、値が大きくなるほど音響エコーの消去量が増加する。ただし、CEを大きくすることにより収音信号の周波数特性の劣化が大きくなり、雑音抑圧特性が低下する。このため、通常、CEは0.1〜10.0程度の適当な値に設定する。その他の記号の意味については、第2の実施例と同様である。
このようにして、音量を調整し、雑音を抑圧するようにフィルタ係数を決定することができる。
次に、式(25)により求められた、フィルタ係数は、フィルタ121〜12M、23に設定され、マイクロホン受音信号と受話信号をそれぞれフィルタリングする。フィルタリング後の信号は、加算器13で加算され、出力信号として出力される。これら以外の部分に関しては、本発明の第2の実施例と同じであるので、説明を省略する。
以上、本発明の第3の実施例は、本発明の第2の実施例における収音レベル調整、雑音抑圧の効果に加え、音響エコー抑圧を行うことが可能である。第3実施例では第2実施例において音響エコー抑圧機能を付加した場合を示したが、第1実施例に対し更に音響エコー抑圧機能を付加してもよい。その場合は、図10の状態判定部14の詳細を示す図11において雑音判定部14Fを除去し、図10の共分散行列算出部17は雑音区間における共分散行列RNN(ω)の算出は行わない。従って、フィルタ係数算出部21におけるフィルタ係数の算出は次式
により行えばよいことは前述の説明から明らかである。
第4実施例
図10の第3実施例は、第2実施例の収音レベル調整機能と雑音抑圧機能に更に音響エコー消去機能を付加した実施例として示したが、雑音抑圧と音響エコー消去機能のみを有する収音装置として構成してもよい。その構成例を図12に示す。
図12に示すように、この実施例の構成は図10の構成から音源位置検出部15と収音レベル推定部19を除去し、共分散行列算出部17は送話信号の共分散行列RSS(ω)と、受話信号の共分散行列REE(ω)と、雑音信号の共分散行列RNN(ω)を演算し、共分散行列記憶部18の記憶領域MAS,MAE,MANにそれぞれ保存する構成とされている。また、この音響エコー消去機能を実現するには、マイクロホンは少なくとも1つあればよいが、ここではM個のマイクロホンを使用する例を示している。
状態判定部14は、図10の実施例と同様にマイクロホン121〜12Mで受音した受音信号、及び受話信号から、発話区間、受話区間、及び雑音区間を判定し、その具体的構成及び動作は図11に示したものと同様である。受音信号及び受話信号は周波数領域変換部16で周波数領域の受音信号X1(ω)〜XM(ω)と周波数領域受話信号Z(ω)に変換され、共分散行列算出部17に与えられる。
次に、共分散行列算出部17はそれらの周波数領域受音信号及び受話信号の共分散行列を生成する。マイクロホン受音信号の周波数領域変換信号X1(ω)〜XM(ω)及び受話信号の周波数領域変換信号Z(ω)の共分散行列RXX(ω)は、次式(27)により算出される。
ただし、*は複素共役を表す。
次に、共分散行列記憶部18では、状態判定部14の判定結果に基づき、共分散行列RXX(ω)を、受話区間における受音信号及び受話信号の共分散行列RSS(ω)と、雑音区間における受音信号及び受話信号の共分散行列RNN(ω)と、発話区間における受音信号と受話信号の共分散行列REE(ω)としてそれぞれ領域MAS,MAN,MAEに保存する。
次に、フィルタ係数算出部21では、音源から発せられた送話音を収音し、音響エコー及び雑音を抑圧するためのフィルタ係数を計算する。まず、マイクロホン111〜11Mに接続されたのフィルタ121〜12Mのフィルタ係数を周波数領域に変換したものをH1(ω)〜HM(ω)とし、受話信号をフィルタリングするフィルタ23のフィルタ係数を周波数領域に変換したものをF(ω)とする。次に、これらのフィルタ係数を式(28)により行列としたものをH(ω)とする。
また、受話区間のマイクロホン受音信号の周波数領域変換信号をXE,1(ω)〜XE,M(ω)、受話信号の周波数領域変換信号をZE(ω)とし、雑音区間のマイクロホン受音信号の周波数領域変換信号をXN,1(ω)〜XN,M(ω)、受話信号の周波数領域変換信号をZN(ω)とする。発話区間のマイクロホン受音信号の周波数領域変換信号をXS,1(ω)〜XS,M(ω)、受話信号の周波数領域変換信号をZS(ω)とする。
ここで、フィルタ係数行列H(ω)に要求される条件は、マイクロホン受音信号および送話信号をフィルタ係数行列H(ω)でそれぞれフィルタリングし、フィルタリング後の信号を加算したときに、音響エコー信号と雑音信号が消去され、送話音声信号のみが送話されることである。
従って、受話区間および雑音区間の信号に対しては、フィルタリングおよび加算後の信号が0となる次式(29)及び(30)
が理想条件となり、発話区間の信号に対しては、フィルタリングおよび加算後の信号がマイクロホン受音信号および受話信号に予め決めたM+1要素の重み付けミキシングベクトルA(ω)を乗じた信号となる次式
が理想条件となる。重み付けミキシングベクトルA(ω)=(a0(ω),ak1(ω),...,akM(ω))の第1要素a0(ω)は受話信号に対する重み係数を表し、通常はa0(ω)=0に設定する。
次に、式(29)〜(31)の条件をフィルタ係数行列H(ω)について最小二乗解で解けば、次式
となる。CEは音響エコー消去量に対する重みの定数であり、値が大きくなるほど音響エコーの消去量が増加する。ただし、CEを大きくすることにより収音信号の周波数特性の劣化が大きくなり、雑音抑圧特性が低下する。このため、通常、CEは0.1〜10.0程度の適当な値に設定する。その他の記号の意味については、第2の実施例と同様である。
このようにして、音量を調整し、雑音を抑圧するようにフィルタ係数を決定することができる。
次に、式(32)により求められたフィルタ係数は、フィルタ121〜12M及び23に設定され、マイクロホン受音信号と受話信号をそれぞれフィルタリングする。フィルタリング後の信号は、加算器13で加算され、出力信号として出力される。これら以外の部分に関しては、本発明の第2の実施例と同じであるので、説明を省略する。
以上、本発明の第4の実施例は、雑音抑圧の効果に加え、音響エコー抑圧を行うことが可能である。
第5実施例
図13に第5実施例を示す。第5実施例は、図12に示した第4実施例において、発話区間に音源位置を検出し、音源位置ごとに共分散行列を求めこれらを保存しておき、雑音区間では雑音に対する共分散行列を求めて保存しておく。次にこれら保存されている共分散行列を用いて雑音と音響エコーを抑圧するフィルタ係数を求める。これらフィルタ係数でマイクロホン受音信号と受話信号をフィルタリングすることで、雑音と音響エコーを抑圧した送話信号を得る。
この第5実施例の構成は、図10に示した第3実施例において収音レベル推定部19を除去した構成と同等である。
状態判定部14では、第3実施例と同様に発話区間、受話区間及び雑音区間を検出する。状態判定部14の判定結果が発話区間であった場合に、音源位置検出部15は各音源9kの位置を推定する。音源位置の推定方法は、図1で示した第1実施例と同様であるので説明を省略する。
次に、周波数領域変換部16で受音信号及び受話信号は周波数領域信号に変換され、共分散行列算出部17に与えられる。
共分散行列算出部17は、各音源9kに対する受音信号と受話信号の共分散行列RS1S1(ω)〜RSKSK(ω)と、受話区間の共分散行列REE(ω)と、雑音区間の共分散行列RNN(ω)を算出する。共分散行列記憶部18は状態判定部14の判定結果及び音源位置検出部15の位置検出結果に基づいて、共分散行列RS1S1(ω)〜RSKSK(ω)、REE(ω)、RNN(ω)を対応する領域MA1〜MAK、MAK+1、MAK+2に保存する。
フィルタ係数算出部21は、送話音声が収音されると、音響エコー及び雑音を抑圧するフィルタ係数を計算する。第3実施例と同様に、フィルタ係数行列H(ω)についての条件式を最小二乗解で解けば、次式
となる。ただし、CS1〜CSKは各音源に対する感度拘束の重み定数、CEは音響エコー消去量に対する重みの定数、CNは雑音消去量に対する重み定数である。
このようにして求められたフィルタ係数は、フィルタ121〜12M、23に設定され、マイクロホン受音信号と受話信号をそれぞれフィルタリングする。フィルタリング後の信号は、加算器13で加算され、出力信号として出力される。これら以外の部分に関しては、本発明の第3の実施例と同じであるので、説明を省略する。この第5実施例により、第4実施例と同様に音響エコーと雑音を抑圧した送話信号を生成することができる。また、第5実施例では、複数音源位置について感度を拘束でき、過去に発話した音源に対しても感度を保持しておくことが可能である。従って、音源位置の移動があっても、過去に発話した音源であれば感度が保持されているので、送話音声の話頭の音質劣化がないという利点がある。
第6実施例
本発明の第6の実施例である収音装置について説明する。
本発明の第6の実施例である収音装置では、本発明の第1〜3、5の実施例である収音装置の各音源位置9kに対する感度拘束の重み係数CS1〜CSKを時間的に変化させる。
音源91〜9Kに対する時間的に変化する感度拘束の重み係数CS1〜CSKは、過去に発話された音源ほど小さくする。その第1の方法は、既に検出されているそれぞれの音源位置の検出時刻から最も最近に検出された音源位置の検出時刻までの経過時間が長いほど重み係数CSkを小さくする。第2の方法は、K個の音源位置の検出時刻順に重み係数CSkを小さくする。
図14は上記第1の方法を実施する重み係数設定部21Hの機能構成ブロック図を示す。この例では、重み係数設定部21Hは時刻を出力するクロック21H1と、音源位置検出ごとに検出された音源9kを表す番号kをアドレスとしてその検出時刻tを上書きする時刻記憶部21H2と、重み係数決定部21H3とから構成されている。重み係数決定部21H3は時刻記録部21H2に記録されている音源位置検出時刻に基づいて今回検出された番号k(t)の音源に対し、予め決めた値CSを重み係数CSkとして与え、その他の番号k≠k(t)に対してはそれぞれの検出時刻tkからの経過時間t−tkによりq(t−tk)CSを重み係数CSkとして与える。qは0<q≦1の予め決めた値である。このようにして各音源に対して感度拘束の重み係数CS1〜CSKが決定され、乗算器21A1〜21AKに与えられる。
図15は上記第2の方法を実施する重み係数設定部21Hの機能構成ブロック図を示す。この例ではクロック21H1と、時刻記録部21H2と、順序判定部21H4と、重み係数決定部21H5とから構成されている。順序判定部21H4は時刻記録部21H2に記録されている時刻から音源91〜9Kの位置検出順(最も新しい順){k(t)}={k(1),...,k(K)}を判定する。重み係数決定部21H5は最も最近の検出音源9k(1)に対し予め決めた値CSを重み係数CSk(1)として与える。その他の音源に対し、CSk(t+1)←qCSk(t)をt=1,2,...,K−1までそれぞれ計算して重み係数CSk(2),...,CSk(K)を得る。これらCSk(1)〜CSk(K)は{k(1),...,k(K)}の順に従って並び替えて重み係数CS1,...,CSKとして出力される。qの値は0<q<1の予め決めた値である。
このように各音源位置に対する感度拘束の重みを変化させることにより、過去に発話のあった音源位置に対する感度拘束を減少させることができる。これにより、本発明の第1〜3の実施例である収音装置に比べ、感度拘束する音源数を抑えることができ、収音レベル調整の性能および雑音、音響エコー抑圧性能を向上することができる。
これら以外の部分に関しては、本発明の第1〜3、5等の実施例と同じであるので、説明を省略する。
第7実施例
本発明の第7の実施例である収音装置について説明する。
本発明の第7の実施例である収音装置は、本発明の第1〜6の実施例である収音装置のフィルタ係数算出部21において、共分散行列RXX(ω)を白色化することを特徴とする。図16は図4のフィルタ係数算出部21中に破線で示す白色化部21J1〜21JKの1つを代表してその機能構成を示す。この白色化部21Jは対角行列算出部21JAと、重み付け部21JBと逆演算部21JCと、乗算部21JDとにより構成されている。対角行列算出部21JAは与えられた共分散行列RXX(ω)の対角行列diag(RXX(ω))を生成する。重み付け部21JBは予め決めた任意のM行またはM+1行の行列Dに基づく重みにより、次式を計算して対角行列に重みを与える。
逆演算部21JCは式(34)の逆数
を計算する。ただし、Tは行列の転置を表す。この逆演算部21JCの演算結果は入力されたそれぞれの共分散行列RXX(ω)と乗算部21JDで乗算され、白色化された共分散行列が得られる。
共分散行列の白色化により、フィルタ係数算出部21において求められるフィルタ係数は、送話信号、受話信号、雑音信号のスペクトルの変化に対して、変化しなくなる。これにより、スペクトル変化による収音レベル調整性能、および音響エコー、雑音の抑圧性能の変化がなくなり、定常的な収音レベル調整と音響エコー、雑音抑圧を得ることができる。
これら以外の部分に関しては、本発明の第1〜4の実施例と同じであるので、説明を省略する。
第8実施例
本発明の第8の実施例である収音装置について説明する。
本発明の第8の実施例である収音装置は、本発明の第1〜7の実施例である収音装置の共分散行列記憶部18が、既に記憶されている共分散行列と、共分散行列算出部17により新たに算出された共分散行列を平均して、現在の共分散行列として記憶することを特徴とする。
共分散行列の平均は、例えば以下の方法により行われる。既に記憶されている共分散行列をRXX,old(ω)とし、共分散行列算出部17により新たに算出された共分散行列をRXX,new(ω)とし、次式
により平均された共分散行列RXX(ω)を求める。ただし、pは、平均の時定数を決定する定数であり、0≦p<1の値をとる。
図17は共分散行列記憶部18とその中に設けられた平均化部18Aの機能構成を示す。平均化部18Aは乗算器18A1と、加算器18A2と、乗算器18A3とから構成されている。共分散行列算出部17により算出された音源9kに対応する共分散行列RSkSk(ω)は新共分散行列RSkSk,new(ω)として乗算器18A1に与えられ、(1−p)と乗算され、その乗算結果は加算器18A2に与えられる。一方、音源9kに対応する共分散行列RSkSk(ω)が記憶領域18Bから読み出され、旧共分散行列RSkSk,old(ω)として乗算器18A3に与えられ、定数pと乗算される。その乗算結果は加算器18A2により乗算器18A1の出力(1−p)RSkSk,new(ω)と加算され、得られた平均共分散行列RSkSk(ω)が音源9kに対応する記憶領域に上書きされる。
以上の方法により、共分散行列を平均して記憶することにより、平均前より回路雑音などの外乱の影響を減らし、正確な共分散行列を求めることができ、従って、収音レベル調整、雑音抑圧、あるいは音響エコー抑圧の性能を向上させたフィルタ係数を決定することができる。
これら以外の部分に関しては、本発明の第1〜5の実施例と同じであるので、説明を省略する。
なお、本発明は専用のハードウェアにより実現することもできるし、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行することもできる。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM,DVD−ROM,不揮発性半導体メモリ、内蔵または外付けハードディスク、等の記憶装置をさす。更に、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送は)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
図19は図10に示した第3実施例によるシミュレーション結果を示す。シミュレーション条件は、マイクロ本数M:4,処理前の送話信号対雑音比:20dB、送話信号対音響エコー信号比:−10dB、部屋の残響時間:300msecである。この条件で、送話と受話を交互に繰り返し、そのときの送話信号レベルを図19に示す。行Aが処理前の送話信号レベルであり、行Bが第3実施例により処理した後の送話信号レベルである。以上の結果より、第3実施例は音響エコー信号を約40dB、雑音信号を約15dB低減していることがわかり、この発明の実施例が有効であることが確認できる。
以上説明したように、本発明の第1実施例によれば、複数のマイクロホンで受音した信号から音源位置を検出し、音源位置ごとの発話区間の共分散行列に基づきフィルタ係数を算出し、これらのフィルタ係数で、マイクロホン受音信号をフィルタリングして加算することにより、音量を音源位置ごとに調整した送話信号を得ることができる。
この発明の第2実施例によれば、第1実施例において発話区間の共分散行列に加え更に雑音区間の共分散行列を使用してフィルタ係数を決定することにより、収音レベル調整に加えて雑音抑圧が可能になる。
この発明の第3実施例によれば、第1又は第2実施例において、発話区間の共分散行列に加えて更に受話区間における共分散行列を使用してフィルタ係数を決定することにより、音響エコーの抑圧が可能となる。
この発明の第4実施例によれば、発話区間の共分散行列と受話区間の共分散行列を使ってフィルタ係数を決めることにより、受話信号がスピーカで再生され、収音された音響エコーを抑圧することができる。
この発明の第5実施例によれば、第4実施例において、発話区間及び受話区間の共分散行列に加え更に雑音区間の共分散行列を使ってフィルタ係数を決めることにより、更に雑音抑圧が可能となる。
この発明の第6実施例によれば、上記第1、2、3及び5の実施例において、フィルタ係数計算時に、より古い発音の共分散行列に対してより小さい感度拘束の重み係数を与えることにより、収音レベルの調整性能、雑音抑圧性能、あるいは音響エコー抑圧性能を更に向上することができる。
この発明の第7実施例によれば、上記第1乃至第6実施例において、フィルタ係数計算時に、共分散行列を白色かすることにより、信号スベクトルの変化による影響の少ない収音レベル調整、雑音抑圧、音響エコー抑圧を可能にする。
この発明の第8実施例によれば、第1乃至第7実施例において、共分散行列の保存時に、対応する領域に既に保存されている共分散行列との重み付き平均共分散行列で更新保存することにより、よし正確な共分散行列が得られ、収音レベル調整、雑音抑圧、音響エコー抑圧の性能を向上したフィルタ係数を決めることができる。
Claims (21)
- 音響空間に配置された複数チャネルのマイクロホンにより各音源から発せられた音を収音する収音方法であって、
(a)上記複数チャネルのマイクロホンで受音された受音信号から、発話区間を判定する発話判定段階を含む状態判定段階と、
(b)上記発話判定段階において発話区間と判定された場合に、上記受音信号から、各音源位置を検出する音源位置検出段階と、
(c)上記受音信号を周波数領域の信号に変換する周波数領域変換段階と、
(d)上記周波数領域の受音信号の共分散行列を算出する共分散行列算出段階と、
(e)上記音源位置検出段階の検出結果に基づき、各音源に対し上記共分散行列を記憶する共分散行列記憶段階と、
(f)記憶されている上記共分散行列と予め決めた出力レベルに基づき上記複数チャネルのフィルタ係数を算出するフィルタ係数算出段階と、
(g)上記複数チャネルの受音信号をそれぞれ上記複数チャネルのフィルタ係数でフィルタリングするフィルタリング段階と、
(h)上記複数チャネルのフィルタリング結果を加算して送話信号として出力する加算段階、
とを含む収音方法 - 請求項1記載の収音方法において、更に、各音源に対応して記憶されている共分散行列に基づいて上記音源からの発話に対する収音レベルを推定する収音レベル推定段階を含み、上記フィルタ係数算出段階は上記各音源に対応して記憶された上記共分散行列及び上記推定された収音レベルに基づいて出力レベルが所望のレベルとなるよう、上記複数チャネルのフィルタ係数を算出する段階を含む。
- 請求項2記載の収音方法において、上記状態判定段階は、上記複数チャネルの受音信号から雑音区間を判定する雑音判定段階を含み、
上記共分散行列算出段階は、上記雑音区間と判定された場合、その区間での受音信号の共分散行列を雑音の共分散行列として算出する段階を含み、
上記共分散行列記憶段階は、各音源ごとに対応して上記受音信号の共分散行列を記憶すると共に、上記雑音区間の共分散行列を記憶するよう適応されており、
上記フィルタ係数算出段階は、上記発話区間の各音源に対する記憶された共分散行列と上記雑音区間の記憶された共分散行列に基づいて、各音源に対する収音レベルが各々所望のレベルとなり、かつ雑音を抑圧するように複数チャネルのフィルタ係数を算出するよう適応されている。 - 請求項2記載の収音方法において、上記音響空間に受話信号を再生して出力するスピーカが設けられており、上記状態判定段階は受話信号から受話区間を判定する受話判定段階を含み、
上記周波数領域変換段階は受話信号を周波数領域の信号に変換する段階を含み、
上記共分散行列算出段階は、上記発話区間及び上記受話区間のそれぞれにおいて上記共分散行列を周波数領域の上記複数チャネルの受音信号と上記受話信号から算出し、
上記共分散行列記憶段階は、上記発話区間の各音源に対応する共分散行列と、上記受話区間の共分散行列を記憶し、
上記フィルタ係数算出段階は、上記受話区間の記憶された共分散行列および上記発話区間の音源ごとに記憶された共分散行列に基づいて、各音源に対する収音レベルが各々所望のレベルとなり、上記受音信号に含まれる上記スピーカによる再生音の信号成分である音響エコーを抑圧するよう複数チャネルのフィルタ係数を算出する。 - 請求項1乃至4のいずれか記載の収音方法において、上記音源は2以上のK個あり、上記フィルタ係数算出段階は、K個の音源に対する感度拘束の重みCS1〜CSKを、過去に発音した音源に対する重みほど小さくしてそれぞれの共分散行列に与えてから上記フィルタ係数を算出する。
- 請求項1乃至4のいずれか記載の収音方法において、上記複数チャネルをMチャネルとすると、上記フィルタ係数算出段階は、各々の共分散行列RXX(ω)の対角成分diag(RXX(ω))と任意のM行またはM+1行の行列Dに基づく重み1/{DHdiag(RXX(ω))D}を各々の共分散行列RXX(ω)に乗じ白色化してから、上記フィルタ係数の算出を行う。
- 請求項1乃至4のいずれか記載の収音方法において、上記共分散行列記憶段階は、過去に記憶されている共分散行列と、上記共分散行列算出段階により新たに算出された共分散行列を平均して、現在の共分散行列として記憶する。
- 音響空間に配置された複数チャネルのマイクロホンにより各音源から発せられた音を収音する収音装置において、
複数チャネルのマイクロホンの各々で受音された受音信号から、発話区間を判定する発話判定部を含む状態判定部と、
上記発話判定部において発話区間と判定された場合に、上記受音信号から、音源位置を検出する音源位置検出部と、
上記受音信号を周波数領域の信号に変換する周波数領域変換部と、
上記周波数領域の複数チャネルの受音信号の共分散行列を各音源ごとに算出する共分散行列算出部と、
上記音源位置検出手段の検出結果に基づき、上記共分散行列を音源ごとに記憶する共分散行列記憶部と、
記憶された上記共分散行列を用いて、各音源に対する送話信号レベルが各々所望のレベルとなるよう複数チャネルのフィルタ係数を算出するフィルタ係数算出部と、
上記マイクロホン受音信号を、上記複数チャネルのフィルタ係数で、各々フィルタリングする複数チャネルのフィルタと、
上記複数チャネルのフィルタの出力信号し、送話信号として出力する加算器、
とを含む。 - 請求項8記載の収音装置において、各音源に対応して記憶された共分散行列から各音源の収音レベルを推定する収音レベル推定部を更に含み、上記フィルタ係数算出部は上記推定された収音レベルに基づいて各音源に対する送話信号レベルが所定レベルとなるよう対応する共分散行列に重みを与えて上記フィルタ係数を算出するよう適応されている。
- 請求項1乃至7のいずれか記載の収音方法をコンピュータで実行させるための収音プログラム。
- 受話信号がスピーカから再生される音響空間内で少なくとも1つのマイクロホンで少なくとも1つの音源からの発音を収音する収音方法であり、
(a)上記少なくとも1チャネルのマイクロホンで受音された受音信号と受話信号から発話区間及び受話区間を判定する状態判定段階と、
(b)上記受音信号及び上記受話信号を周波数領域の信号に変換する周波数領域変換段階と、
(c)上記周波数領域の受音信号及び受話信号から発話区間での共分散行列及び受話区間での共分散行列を算出する共分散行列算出段階と、
(d)上記状態判定段階の判定結果に基づいて、上記共分散行列を上記発話区間及び上記受話区間ごとに記憶する共分散行列記憶段階と、
(e)上記発話区間及び上記受話区間での記憶された共分散行列に基づいて受話信号の音響エコーを抑圧するよう上記マイクロホンと同チャネル数の受音信号用フィルタ係数と、1チャネルの上記受話信号用フィルタ係数を算出するフィルタ係数算出段階と、
(f)上記受音信号を、上記少なくとも1チャネルの受音信号用フィルタ係数でフィルタリングし、上記受話信号を上記受話信号用フィルタ係数でフィルタリングするフィルタリング段階と、
(g)上記フィルタリングされた信号を加算して送話信号として出力する加算段階、
とを含む。 - 請求項11記載の収音方法において、上記状態判定段階は、上記受音信号及び上記受話信号から雑音区間を判定する段階を含み、上記共分散行列算出段階は上記雑音区間での共分散行列を算出する段階を含み、上記共分散行列記憶段階は、上記雑音区間での共分散行列を記憶する段階を含み、上記フィルタ係数算出段階は、上記発話区間、上記受話区間及び上記雑音区間での記憶された共分散行列に基づいて上記音響エコーと雑音を抑圧するよう上記少なくとも1チャネルの受音信号用フィルタ係数と、上記受話信号用フィルタ係数を算出する。
- 請求項11記載の収音方法において、上記マイクロホンは複数チャネルに設けられ、複数音源からの発音を受音し、上記方法は更に、上記状態判定段階により発話区間と判定された場合に、上記複数チャネルのマイクロホンからの受音信号から音源位置を検出する音源位置検出段階含み、上記共分散行列記憶段階は、上記状態判定段階の判定結果及び検出音源位置に基づいて上記上記共分散行列を音源位置、受話区間ごとに記憶する。
- 請求項13の収音方法において、上記フィルタ係数算出段階は、K個の各音源位置に対する感度拘束の重み係数CS1〜CSKを、過去に発音した音源に対する重みほど小さくしてそれぞれの音源に対応する上記共分散行列に与えてから上記フィルタ係数を算出する。
- 請求項11乃至14のいずれかの収音方法において、上記複数チャネルは2以上のMチャネルであり、上記フィルタ係数算出段階は、それぞれのM+1行M+1列の共分散行列RXX(ω)の対角成分diag(RXX(ω))と任意のM+1行の行列Dに基づく重み1/{DTdiag(RXX(ω))D}をそれぞれの共分散行列RXX(ω)に乗じて白色化してからフィルタ係数を算出する。
- 請求項11乃至14のいずれかの収音方法において、上記共分散行列記憶段階は、既に記憶されている共分散行列と、上記共分散行列算出部により新たに算出された共分散行列を平均して現在の共分散行列として記憶する。
- 収音装置であり、
音源からの送話音を収音して受音信号を出力する少なくとも1チャネルのマイクロホンと、
受話信号を再生出力するスピーカと、
受音信号と受話信号から発話区間及び受話区間を判定する状態判定部と、
上記受話信号及び上記受音信号を周波数領域の信号に変換する周波数領域変換部と、
上記発話区間及び受話区間ごとに上記周波数領域の受音信号と受話信号の共分散行列を算出する共分散行列算出部と、
上記共分散行列を発話区間及び受話区間ごとに記憶する共分散行列記憶部と、
記憶された上記共分散行列に基づいて上記受話信号の音響エコーを抑圧するように上記少なくとも1チャネルの受音信号用フィルタ係数と上記受話信号用フィルタ係数を算出するフィルタ係数算出部と、
上記受音信号用フィルタ係数と受話信号用フィルタ係数が設定され、上記受音信号と受話信号をそれぞれフィルタリングする受音信号用フィルタと受話信号用フィルタと、
上記受音信号用フィルタの出力と上記受話信号用フィルタの出力を加算して送話信号として出力する加算器、
とを含む。 - 請求項17記載の収音装置において、上記マイクロホンと上記受音信号用フィルタはそれぞれ複数チャネル設けられており、上記加算器は、上記複数チャネルの受音信号用フィルタの出力と上記受話信号用フィルタの出力を加算して送話信号として出力する。
- 請求項18記載の収音装置において、上記状態判定部は上記受音信号と上記受話信号から雑音区間を判定する雑音判定部を含み、上記共分散行列算出部は上記雑音区間の受音信号と受話信号の共分散行列を算出するよう適応されており、上記共分散行列記憶部は上記雑音区間の共分散行列を記憶するよう適応されており、上記フィルタ係数算出部は記憶された上記共分散行列に基づいて上記受話信号の音響エコー及び雑音を抑圧するよう上記複数チャネルのフィルタ係数を算出し、上記複数チャネルのフィルタに設定するよう適応されている。
- 請求項19記載の収音装置において、更に上記複数チャネルの受音信号に基づいてK個の音源の位置を検出する音源位置検出部が設けられ、上記共分散行列算出部は、上記発話区間の共分散行列を各音源ごとに算出するよう適応されており、上記共分散行列記憶部は上記発話区間の共分散行列を各音源ごとに記憶するよう適応されており、上記フィルタ係数算出部はそれぞれの音源に対し過去に発話した音源ほど小さな感度拘束の重みCS1〜CSKを小さくしてそれぞれの共分散行列に与えて上記フィルタ係数を算出する手段を含む。
- 請求項11乃至16のいずれか記載の収音方法をコンピュータで実行させるための収音プログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003030676 | 2003-02-07 | ||
JP2003030676 | 2003-02-07 | ||
JP2003058626 | 2003-03-05 | ||
JP2003058626 | 2003-03-05 | ||
PCT/JP2004/001261 WO2004071130A1 (ja) | 2003-02-07 | 2004-02-06 | 収音方法及び収音装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2004071130A1 JPWO2004071130A1 (ja) | 2006-06-01 |
JP4104626B2 true JP4104626B2 (ja) | 2008-06-18 |
Family
ID=32852686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005504891A Expired - Lifetime JP4104626B2 (ja) | 2003-02-07 | 2004-02-06 | 収音方法及び収音装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7716044B2 (ja) |
EP (1) | EP1592282B1 (ja) |
JP (1) | JP4104626B2 (ja) |
DE (1) | DE602004006967T2 (ja) |
WO (1) | WO2004071130A1 (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4298466B2 (ja) * | 2003-10-30 | 2009-07-22 | 日本電信電話株式会社 | 収音方法、装置、プログラム、および記録媒体 |
DE102004049347A1 (de) | 2004-10-08 | 2006-04-20 | Micronas Gmbh | Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale |
JP4701944B2 (ja) * | 2005-09-14 | 2011-06-15 | ヤマハ株式会社 | 音場制御機器 |
US20070083365A1 (en) * | 2005-10-06 | 2007-04-12 | Dts, Inc. | Neural network classifier for separating audio sources from a monophonic audio signal |
JP2009529699A (ja) | 2006-03-01 | 2009-08-20 | ソフトマックス,インコーポレイテッド | 分離信号を生成するシステムおよび方法 |
WO2009104252A1 (ja) * | 2008-02-20 | 2009-08-27 | 富士通株式会社 | 音処理装置、音処理方法及び音処理プログラム |
US8321214B2 (en) * | 2008-06-02 | 2012-11-27 | Qualcomm Incorporated | Systems, methods, and apparatus for multichannel signal amplitude balancing |
EP2246846B1 (de) * | 2009-04-29 | 2018-06-06 | Deutsche Telekom AG | Schattenfilter-System für quasi-unterbestimmte blinde adaptive MIMO-Filterung |
WO2011004503A1 (ja) * | 2009-07-08 | 2011-01-13 | 株式会社日立製作所 | 雑音除去装置及び雑音除去方法 |
US9332346B2 (en) | 2010-02-17 | 2016-05-03 | Nokia Technologies Oy | Processing of multi-device audio capture |
KR20120015218A (ko) * | 2010-08-11 | 2012-02-21 | 엘지이노텍 주식회사 | 데이터 재생 장치 |
WO2012023268A1 (ja) * | 2010-08-16 | 2012-02-23 | 日本電気株式会社 | 多マイクロホン話者分類装置、方法およびプログラム |
KR101702561B1 (ko) * | 2010-08-30 | 2017-02-03 | 삼성전자 주식회사 | 음원출력장치 및 이를 제어하는 방법 |
GB2493327B (en) | 2011-07-05 | 2018-06-06 | Skype | Processing audio signals |
GB2495128B (en) * | 2011-09-30 | 2018-04-04 | Skype | Processing signals |
GB2495472B (en) | 2011-09-30 | 2019-07-03 | Skype | Processing audio signals |
GB2495130B (en) | 2011-09-30 | 2018-10-24 | Skype | Processing audio signals |
GB2495131A (en) | 2011-09-30 | 2013-04-03 | Skype | A mobile device includes a received-signal beamformer that adapts to motion of the mobile device |
GB2495129B (en) | 2011-09-30 | 2017-07-19 | Skype | Processing signals |
GB2495278A (en) | 2011-09-30 | 2013-04-10 | Skype | Processing received signals from a range of receiving angles to reduce interference |
GB2496660B (en) | 2011-11-18 | 2014-06-04 | Skype | Processing audio signals |
GB201120392D0 (en) | 2011-11-25 | 2012-01-11 | Skype Ltd | Processing signals |
GB2497343B (en) | 2011-12-08 | 2014-11-26 | Skype | Processing audio signals |
US9307335B2 (en) * | 2012-07-31 | 2016-04-05 | Japan Science And Technology Agency | Device for estimating placement of physical objects |
CN107172538B (zh) | 2012-11-12 | 2020-09-04 | 雅马哈株式会社 | 信号处理系统和信号处理方法 |
US9258661B2 (en) | 2013-05-16 | 2016-02-09 | Qualcomm Incorporated | Automated gain matching for multiple microphones |
JP6261043B2 (ja) * | 2013-08-30 | 2018-01-17 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
KR101581619B1 (ko) | 2015-02-04 | 2015-12-30 | 서울대학교산학협력단 | 소리 수집 단말, 소리 제공 단말, 소리 데이터 처리 서버 및 이들을 이용한 소리 데이터 처리 시스템 |
JP6693340B2 (ja) * | 2016-08-30 | 2020-05-13 | 富士通株式会社 | 音声処理プログラム、音声処理装置、及び音声処理方法 |
CN107135443B (zh) * | 2017-03-29 | 2020-06-23 | 联想(北京)有限公司 | 一种信号处理方法及电子设备 |
KR102477099B1 (ko) | 2018-08-21 | 2022-12-13 | 삼성전자주식회사 | 소리 방향 탐지 센서 및 이를 포함하는 전자 장치 |
CN114566137A (zh) * | 2021-12-31 | 2022-05-31 | 苏州茹声电子有限公司 | 一种基于主动降噪的车辆路噪控制方法及系统、存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2602750B2 (ja) | 1992-03-02 | 1997-04-23 | 日本電信電話株式会社 | 反響消去装置 |
US5828756A (en) * | 1994-11-22 | 1998-10-27 | Lucent Technologies Inc. | Stereophonic acoustic echo cancellation using non-linear transformations |
JPH08250944A (ja) | 1995-03-13 | 1996-09-27 | Nippon Telegr & Teleph Corp <Ntt> | 自動音量制御方法およびこの方法を実施する装置 |
JP3541339B2 (ja) | 1997-06-26 | 2004-07-07 | 富士通株式会社 | マイクロホンアレイ装置 |
US6594367B1 (en) | 1999-10-25 | 2003-07-15 | Andrea Electronics Corporation | Super directional beamforming design and implementation |
JP3514714B2 (ja) | 2000-08-21 | 2004-03-31 | 日本電信電話株式会社 | 収音方法およびその装置 |
JP4028680B2 (ja) | 2000-11-01 | 2007-12-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 観測データから原信号を復元する信号分離方法、信号処理装置、モバイル端末装置、および記憶媒体 |
JP3608525B2 (ja) | 2001-05-09 | 2005-01-12 | ヤマハ株式会社 | 2チャンネルエコーキャンセル用フィルタのインパルス応答設定方法および2チャンネルエコーキャンセラ並びに双方向2チャンネル音声伝送装置 |
US7158933B2 (en) * | 2001-05-11 | 2007-01-02 | Siemens Corporate Research, Inc. | Multi-channel speech enhancement system and method based on psychoacoustic masking effects |
KR20030050338A (ko) * | 2001-12-18 | 2003-06-25 | 엘지전자 주식회사 | 가중치 갱신 방법 |
US7218741B2 (en) * | 2002-06-05 | 2007-05-15 | Siemens Medical Solutions Usa, Inc | System and method for adaptive multi-sensor arrays |
-
2004
- 2004-02-06 US US10/510,955 patent/US7716044B2/en active Active
- 2004-02-06 JP JP2005504891A patent/JP4104626B2/ja not_active Expired - Lifetime
- 2004-02-06 WO PCT/JP2004/001261 patent/WO2004071130A1/ja active IP Right Grant
- 2004-02-06 DE DE602004006967T patent/DE602004006967T2/de not_active Expired - Lifetime
- 2004-02-06 EP EP04708849A patent/EP1592282B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1592282A1 (en) | 2005-11-02 |
JPWO2004071130A1 (ja) | 2006-06-01 |
EP1592282A4 (en) | 2006-08-09 |
EP1592282B1 (en) | 2007-06-13 |
DE602004006967D1 (de) | 2007-07-26 |
DE602004006967T2 (de) | 2008-02-14 |
WO2004071130A1 (ja) | 2004-08-19 |
US20050216258A1 (en) | 2005-09-29 |
US7716044B2 (en) | 2010-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4104626B2 (ja) | 収音方法及び収音装置 | |
JP5092974B2 (ja) | 伝達特性推定装置、雑音抑圧装置、伝達特性推定方法及びコンピュータプログラム | |
US8867759B2 (en) | System and method for utilizing inter-microphone level differences for speech enhancement | |
US9288576B2 (en) | Dereverberation parameter estimation device and method, dereverberation/echo-cancellation parameter estimation device, dereverberation device, dereverberation/echo-cancellation device, and dereverberation device online conferencing system | |
JP2004507141A (ja) | 音声強調システム | |
JP5381982B2 (ja) | 音声検出装置、音声検出方法、音声検出プログラム及び記録媒体 | |
US20170140771A1 (en) | Information processing apparatus, information processing method, and computer program product | |
WO2015196729A1 (zh) | 一种麦克风阵列语音增强方法及装置 | |
KR20080111290A (ko) | 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법 | |
US9454956B2 (en) | Sound processing device | |
US11483651B2 (en) | Processing audio signals | |
JP4249729B2 (ja) | 自動利得制御方法、自動利得制御装置、自動利得制御プログラム及びこれを記録した記録媒体 | |
CN110111802B (zh) | 基于卡尔曼滤波的自适应去混响方法 | |
CN112272848A (zh) | 使用间隙置信度的背景噪声估计 | |
JP2013543151A (ja) | マイクロフォン装置から受信した信号において不要な音を減少させるシステムおよび方法 | |
JP2004078021A (ja) | 収音方法、収音装置、および収音プログラム | |
JP5240026B2 (ja) | マイクロホンアレイにおけるマイクロホンの感度を補正する装置、この装置を含んだマイクロホンアレイシステム、およびプログラム | |
JP2012128207A (ja) | 音響装置及びその制御方法、プログラム | |
JP4568193B2 (ja) | 収音装置とその方法とそのプログラムとその記録媒体 | |
JP4116600B2 (ja) | 収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体 | |
US20130253923A1 (en) | Multichannel enhancement system for preserving spatial cues | |
JP2003250193A (ja) | 反響消去方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
CN113921007B (zh) | 提升远场语音交互性能的方法和远场语音交互系统 | |
JP5889224B2 (ja) | エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム | |
JP5562451B1 (ja) | エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20070123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4104626 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120404 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130404 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140404 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |