JP5231139B2 - Sound source extraction device - Google Patents
Sound source extraction device Download PDFInfo
- Publication number
- JP5231139B2 JP5231139B2 JP2008218565A JP2008218565A JP5231139B2 JP 5231139 B2 JP5231139 B2 JP 5231139B2 JP 2008218565 A JP2008218565 A JP 2008218565A JP 2008218565 A JP2008218565 A JP 2008218565A JP 5231139 B2 JP5231139 B2 JP 5231139B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- noise
- sound
- sound source
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 24
- 238000012545 processing Methods 0.000 claims description 98
- 230000001629 suppression Effects 0.000 claims description 47
- 238000012937 correction Methods 0.000 claims description 39
- 238000002156 mixing Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000003111 delayed effect Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000000034 method Methods 0.000 description 37
- 230000002159 abnormal effect Effects 0.000 description 24
- 239000011159 matrix material Substances 0.000 description 24
- 230000008569 process Effects 0.000 description 22
- 238000000926 separation method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 12
- 238000001914 filtration Methods 0.000 description 10
- 230000006978 adaptation Effects 0.000 description 9
- 238000012546 transfer Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000037433 frameshift Effects 0.000 description 3
- 238000012880 independent component analysis Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 235000012308 Tagetes Nutrition 0.000 description 1
- 241000736851 Tagetes Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本発明は会話抽出装置に関し、様々な音源が混ざった中から特定の音源の信号のみを抽出する音源抽出装置に関する。 The present invention relates to a conversation extraction device, and more particularly to a sound source extraction device that extracts only a specific sound source signal from a mixture of various sound sources.
複数のマイクロホンを用いて、様々な音の中から、特定の音のみを抽出する音源分離技術が従来より盛んに検討されている。走行騒音が重畳した車室内収録の音声データからドライバの声を抽出するなどの応用が検討されてきている(例えば、特許文献1参照)。従来の音源分離技術は、独立成分分析に基づくブラインド音源分離技術と、SNR最大化基準に基づく方法(例えば、非特許文献2参照)などのビームフォーミング技術の2つに大別される。 2. Description of the Related Art Conventionally, a sound source separation technique for extracting only a specific sound from various sounds using a plurality of microphones has been actively studied. Applications such as extracting a driver's voice from voice data recorded in a vehicle interior on which traveling noise is superimposed have been studied (see, for example, Patent Document 1). Conventional sound source separation techniques are roughly classified into two types: a blind sound source separation technique based on independent component analysis, and a beamforming technique such as a method based on an SNR maximization criterion (see, for example, Non-Patent Document 2).
ブラインド音源分離技術は、マイク配置や目的音方向の情報を必要としないという利点があるが、残響が存在するような環境では性能が十分ではないという課題がある。SNR最大化基準に基づくビームフォーミング法は、信号帯域が広帯域の場合、性能が悪いという問題がある。そこで、時間周波数分解により、狭帯域信号に変換した信号に対して、SNR最大化基準に基づくビームフォーミング法を適用することが一般的である。しかし、一般に狭帯域信号に変換するためには、フレーム長が長い必要があるが、フレーム長が長い場合、音声の定常性の仮定が崩れて、かえって性能が劣化するという問題があった。時間領域の広帯域信号に適用可能な手法として、最小歪みビームフォーマ法(例えば、非特許文献1参照)がある。この方法は、雑音がプロジェクタのファンの音など、定常的な場合は雑音抑圧効果が高いが、原理的に雑音が音声のように時々刻々音量が変化する、非定常な雑音の場合、雑音抑圧効果が低いという課題があった。 The blind sound source separation technique has an advantage that information on the microphone arrangement and the target sound direction is not required, but there is a problem that the performance is not sufficient in an environment where reverberation exists. The beamforming method based on the SNR maximization criterion has a problem that the performance is poor when the signal band is wide. Therefore, it is common to apply a beamforming method based on the SNR maximization criterion to a signal converted into a narrowband signal by time-frequency decomposition. However, in general, in order to convert to a narrowband signal, it is necessary to have a long frame length. However, if the frame length is long, there is a problem that the assumption of speech steadiness is lost and the performance deteriorates. As a technique applicable to a time domain wideband signal, there is a minimum distortion beamformer method (for example, see Non-Patent Document 1). This method has a high noise suppression effect when the noise is steady, such as the sound of a fan of a projector, but in principle, noise suppression is performed when the noise is non-stationary noise whose volume changes from moment to moment like speech. There was a problem that the effect was low.
本発明の音源抽出装置は、雑音の空間的伝達特性を複数チャンネルのマイク素子を用いて推定することが可能な多チャンネル空間予測と、多チャンネル空間予測に伴う目的音の歪みの補正処理を有する。多チャンネル空間予測では、雑音が定常/非定常にかかわりなく、雑音の空間伝達特性を推定できる。したがって推定した空間伝達特性を用いれば、非定常な雑音であっても、抑圧することが可能である。また、本発明は、複数タップを持った雑音除去フィルタを有しており、残響を考慮して雑音を抑圧することができる。同様に目的音の残響も考慮できるため、目的音の残響成分を歪まず取り出すことができる。 The sound source extraction device of the present invention has multi-channel spatial prediction capable of estimating spatial noise transfer characteristics using a multi-channel microphone element, and correction processing of target sound distortion accompanying multi-channel spatial prediction. . In multi-channel spatial prediction, the spatial transfer characteristics of noise can be estimated regardless of whether the noise is stationary or non-stationary. Therefore, if the estimated spatial transfer characteristic is used, even non-stationary noise can be suppressed. In addition, the present invention includes a noise removal filter having a plurality of taps, and can suppress noise in consideration of reverberation. Similarly, since the reverberation of the target sound can be considered, the reverberation component of the target sound can be extracted without distortion.
本発明の音源抽出装置は、複数のマイクロホン素子からなるマイクロホンアレイと、マイクロホンアレイから出力されるアナログ信号をデジタル信号に変換するAD変換装置と、計算装置と、記憶装置とを有し、計算装置は、AD変換装置によって変換されたデジタル信号中の雑音成分を抑圧するようなデジタル信号処理を施し、雑音抑圧信号を取り出した後、該雑音抑圧信号中に含まれる目的音の歪みを補正し、補正後の信号を再生又は記憶装置に記憶する。 A sound source extraction device of the present invention includes a microphone array including a plurality of microphone elements, an AD conversion device that converts an analog signal output from the microphone array into a digital signal, a calculation device, and a storage device. Performs digital signal processing to suppress a noise component in the digital signal converted by the AD converter, and after extracting the noise suppression signal, corrects distortion of the target sound included in the noise suppression signal, The corrected signal is reproduced or stored in a storage device.
計算装置は、複数のマイクロホン素子のうちの1つの素子に含まれる雑音信号を当該素子以外の素子に含まれる雑音信号に第1のFIRフィルタをかけたものの和で近似するとともに近似誤差の2乗和が最少となるように第1のFIRフィルタの係数を決定する多チャンネル空間予測部を有し、雑音抑圧信号を、複数のマイクロホン素子のうちの任意の1素子の信号から当該素子以外の素子に含まれる信号に多チャンネル空間予測部で予測した第1のFIRフィルタを重畳したものの和を差し引くことで生成することができる。 The calculation apparatus approximates a noise signal included in one element of the plurality of microphone elements by a sum of noise signals included in elements other than the element multiplied by the first FIR filter, and squares an approximation error. A multi-channel spatial prediction unit that determines the coefficient of the first FIR filter so that the sum is minimized, and a noise suppression signal is transmitted from any one of a plurality of microphone elements to an element other than the element. Can be generated by subtracting the sum of the superposed first FIR filter predicted by the multi-channel spatial prediction unit.
更に、雑音抑圧信号をマイクロホンアレイの全てのマイクロホン素子の出力に対して個々に生成し、生成した複数の雑音抑圧信号に第2のFIRフィルタを施して1チャンネルの歪み補正信号を得る多チャンネル歪み補正部を有し、歪み補正信号とマイクロホンアレイの中の特定のマイクロホン素子の出力信号又はその遅延信号との間の2乗誤差とマイクロホン素子の入力信号が雑音のみの場合の歪み補正信号の2乗和に定数値を掛けたものとの和が最も小さくなるように、多チャンネル歪み補正部の前記第2のFIRフィルタを決定するのが好ましい。 Furthermore, a noise suppression signal is individually generated for the outputs of all microphone elements of the microphone array, and a second channel FIR filter is applied to the generated plurality of noise suppression signals to obtain a one-channel distortion correction signal. A correction unit is included, and a square error between the distortion correction signal and the output signal of a specific microphone element in the microphone array or its delay signal and 2 of the distortion correction signal when the input signal of the microphone element is only noise. It is preferable to determine the second FIR filter of the multi-channel distortion correction unit so that the sum of the product sum and the constant value is minimized.
更に、雑音信号を推定する雑音信号推定部を有し、推定した雑音信号と歪み補正信号に個別の第3のFIRフィルタに重畳したものの和と、マイクロホンアレイの中の特定のマイクロホン素子の出力信号又はその遅延信号との間の2乗誤差が最も小さくなるように第3のFIRフィルタを決定し、歪み補正信号に第3のFIRフィルタを重畳したものを出力する1チャンネル歪み補正部を有するのが好ましい。 And a noise signal estimator for estimating the noise signal, the sum of the estimated noise signal and distortion correction signal superimposed on an individual third FIR filter, and the output signal of a specific microphone element in the microphone array Alternatively, the third FIR filter is determined so that the square error between the delay signal and the delay signal is minimized, and a one-channel distortion correction unit that outputs a distortion correction signal obtained by superimposing the third FIR filter is provided. Is preferred.
雑音区間は、ユーザーの目的音位置の指定操作により同定した目的音位置の情報に基づいて算出した短時間区間毎の目的音パワーと雑音パワーの比率から計算される混合度をもとに同定することができる。 The noise section is identified based on the degree of mixing calculated from the ratio between the target sound power and the noise power for each short time section calculated based on the target sound position information identified by the user's target sound position designation operation. be able to.
本発明の雑音抑圧法では、雑音の空間的伝達特性が不変であれば、雑音の原信号が音声のような非定常な雑音であっても原理的に消去することが可能である。したがって、複数の音声が混ざった音から特定の音声をとりだすことが可能であり、高精度な音声監視システムが実現可能である。また、本発明は、時間領域又は、サブバンド領域の広帯域の信号に対して適用可能であり、時間周波数領域に信号を変換する必要がない。時間周波数領域の音声の定常性問題を考慮する必要がなく、時間周波数領域の技術と比べて、性能の高い雑音抑圧信号を得ることが可能である。 In the noise suppression method of the present invention, if the noise spatial transfer characteristic is unchanged, even if the noise original signal is non-stationary noise such as speech, it can be eliminated in principle. Therefore, a specific sound can be taken out from a sound in which a plurality of sounds are mixed, and a highly accurate sound monitoring system can be realized. Further, the present invention can be applied to a wideband signal in the time domain or subband domain, and it is not necessary to convert the signal to the time frequency domain. It is not necessary to consider the continuity problem of speech in the time-frequency domain, and it is possible to obtain a noise suppression signal with higher performance compared to the technology in the time-frequency domain.
以下、本発明の具体的な形態を、図を用いて説明する。
図1に、本発明の第一の実施例のハードウェア構成を示す。複数のマイクロホン素子を有するマイクロホンアレイ101にて取り込んだアナログ音圧は、AD変換装置102に送られ、アナログからデジタルデータに変換される。デジタルデータへの変換処理は、マイクロホン素子毎に行われる。変換された各マイクロホン素子のデジタル音圧データは、中央演算装置103に送られ、デジタル信号処理を施される。この際、デジタル信号処理を行うソフトウェア及び必要なデータは不揮発性メモリ105に予め記憶されており、また処理に必要なワークエリアは揮発性メモリ104上に確保される。デジタル信号処理により処理された音圧データはDA変換装置106に送られ、デジタルデータからアナログ音圧に変換される。変換後、スピーカ107から出力され、再生される。本発明の第一実施例におけるソフトウェアブロックは全て中央演算装置103上で実行されるものとする。
Hereinafter, specific embodiments of the present invention will be described with reference to the drawings.
FIG. 1 shows a hardware configuration of the first embodiment of the present invention. The analog sound pressure captured by the
図2に、第一実施例のソフトウェアブロック構成図を示す。また図20に、ソフトウェアブロックと図1に示したハードウェア構成との対応関係を示す。波形取り込み部201はAD変換装置で取り込んだマイクロホン素子毎のデジタルデータを揮発性メモリ104上に展開する。取り込んだ音圧データを次式(1)のように表記する。
FIG. 2 shows a software block configuration diagram of the first embodiment. FIG. 20 shows the correspondence between the software block and the hardware configuration shown in FIG. The waveform capturing
xm(t) (1)
mはマイクロホン素子のインデックスを表し、1からMまでの値をとる。Mは雑音抑圧処理に用いるマイクロホン素子数とする。tはサンプリング間隔単位の時間インデックスとする。
x m (t) (1)
m represents an index of the microphone element and takes a value from 1 to M. M is the number of microphone elements used for noise suppression processing. t is a time index in sampling interval units.
取り込んだ波形は、フィルタ適応処理部202に送られ、雑音抑圧フィルタの適応処理を行う。適応後のフィルタ係数は、揮発性メモリ104又は不揮発性メモリ105に確保されたフィルタデータ204に記憶される。フィルタリング部203は、記憶されたフィルタデータ204を読み込み、雑音抑圧フィルタを波形取り込み部201が取り込んだマイク入力信号に重畳し、雑音抑圧後の信号を得る。雑音抑圧後の信号は波形再生部205に送られ、スピーカ107から出力され、再生される。また雑音抑圧後の信号を揮発性メモリ104又は不揮発性メモリ105に記憶し、ネットワーク装置などを使って外部システムに送信するような構成をとっても良いし、別システムが読み出し再生するような構成をとっても良い。
The acquired waveform is sent to the filter
波形取り込み部201が取り込む音は、ユーザーにとって不要な雑音だけか、又はユーザーが聞きたい目的音が混ざった音と仮定する。本発明は、このような音の中から、雑音を抑圧し、ユーザーが聞きたい目的音を取り出すことを目的としている。M個のマイク素子のうち一つをターゲットマイクと呼び、ターゲットマイクの入力信号から目的音成分を抜き出す。フィルタ適応処理部202は、波形取り込み部が得た音データを後述する方法で、ユーザーにとって不要な雑音だけか、又はユーザーが聞きたい目的音が混ざった音かを判定し、判定結果を用いてフィルタ適応を行う。フィルタの適応はいわゆるバッチ処理で行われる。つまりある程度長時間の録音データを使ってフィルタの適応を行う。それに対して、フィルタリング部203は、フィルタデータ204さえあれば、波形を得るたびに動作することが可能である。
It is assumed that the sound captured by the waveform capturing
図3にフィルタ適応処理部202内の処理のフローチャートを示す。フィルタ適応処理は、まず波形取り込み部が得た音をユーザーにとって不要な雑音だけの音か、又はユーザーが聞きたい目的音が混ざった音(混合音)のどどちらかを判定する。雑音取り込みS301では、雑音だと判定された時間帯のデータを取り込み、揮発性メモリ上に展開する。混合音取り込みS302では、混合音と判定された時間帯のデータを取り込み、揮発性メモリ上に展開する。得られた雑音を式(2)で表す。また得られた混合音を式(3)で表す。
FIG. 3 shows a flowchart of processing in the filter
本発明では、フィルタバンク処理などを用いて、マイクで得られた信号を複数のサブバンドに分割した後、処理を行っても良い。その場合、信号がマイクから取り込まれた直後にアナリシスフィルタバンク処理を行い、サブバンドに分割し、各サブバンド毎に本発明の雑音抑圧処理を施し、サブバンド毎の雑音抑圧後の信号に対して、シンセシスフィルタバンク処理を行い、各サブバンドの信号が合成された形で得られる構成をとればよい。DFT(Discrete Fourier Transform)モジュレートフィルタバンクを用いる場合、サブバンド分割後の信号は複素数になるが、本発明の処理は入力信号が複素数であっても実数であっても適用可能である。 In the present invention, processing may be performed after the signal obtained by the microphone is divided into a plurality of subbands using filter bank processing or the like. In that case, the analysis filter bank processing is performed immediately after the signal is taken in from the microphone, divided into subbands, the noise suppression processing of the present invention is performed for each subband, and the signal after noise suppression for each subband is performed. Thus, the synthesis filter bank processing may be performed to obtain a configuration obtained by combining the signals of the subbands. When a DFT (Discrete Fourier Transform) modulated filter bank is used, the signal after subband division is a complex number, but the processing of the present invention can be applied regardless of whether the input signal is a complex number or a real number.
得られた雑音、混合音は雑音多チャンネル空間予測S303で処理される。雑音統計量として、式(4)で表わされる雑音共分散行列と式(5)で表わされる雑音相関行列とが得られる。ここで、Vm(t)は式(6)で定義する。これはm番目のマイク入力信号を含まない要素数が(M-1)Lのベクトルである。Lはフィルタ長とする。またDは因果性を満たすための遅延とする。 The obtained noise and mixed sound are processed in the noise multi-channel spatial prediction S303. As the noise statistic, the noise covariance matrix expressed by Equation (4) and the noise correlation matrix expressed by Equation (5) are obtained. Here, V m (t) is defined by Equation (6). This is a vector whose number of elements does not include the mth microphone input signal (M−1) L. L is the filter length. D is a delay to satisfy causality.
目的音推定S304は、雑音抑圧信号とともに、雑音抑圧信号の共分散行列である式(10)及びターゲットマイクと雑音抑圧信号との相関行列である式(11)を出力する。targetはターゲットマイクのマイクインデックスとする。Y(t)は、式(12)で定義される。L2は後段の歪み補正処理のフィルタ長とする。 The target sound estimation S304 outputs, together with the noise suppression signal, Expression (10) that is a covariance matrix of the noise suppression signal and Expression (11) that is a correlation matrix between the target microphone and the noise suppression signal. target is the microphone index of the target microphone. Y (t) is defined by equation (12). L 2 is the filter length of the subsequent distortion correction processing.
図4に、本発明のフィルタリング部203の処理フローを示す。多チャンネル空間予測部401で、目的音と雑音が混合したm番目のマイク以外の入力信号に空間予測フィルタwmを重畳する。遅延処理部402では、マイク入力信号を因果性を満たすために、m番目のマイク入力信号をDポイント遅延させる。遅延したマイク入力信号から多チャンネル空間予測フィルタ重畳後の信号を差し引くことで、雑音抑圧信号が得られる。多チャンネル歪み補正部403では、得られた多チャンネルの雑音抑圧信号に、式(16)で定義される多チャンネルの歪み補正フィルタHをかける。
FIG. 4 shows a processing flow of the
図3の雑音取り込みS301での雑音区間の判定は、ユーザーが雑音のみが存在する時間区間を波形表示ツール上でドラッグして指定するような形態をとっても良い。また従来の独立成分分析や、後述するスパース性に基づく時間周波数振り分け法に基づく時間周波数領域音源分離により音を分離した信号と、ユーザーが指定した目的音の空間位置を元に雑音区間をシステムが自動的に同定するような形態をとっても良い。 The determination of the noise interval in the noise acquisition S301 in FIG. 3 may take a form in which the user specifies a time interval in which only noise exists by dragging on the waveform display tool. In addition, the system uses the independent independent component analysis and the time-frequency domain sound source separation based on the time-frequency distribution method based on sparsity, which will be described later, and the noise interval based on the spatial position of the target sound specified by the user. It may take the form of automatically identifying.
後者の形態の具体的な処理フローを図6に示す。混合音取り込み601は、複数の音源が混ざった音を複数のマイクロホン素子で受音した信号を出力する。時間周波数領域音源分離602は、独立成分分析に基づく音源分離の場合には、時間周波数領域の音源方向推定(例えば、非特許文献3参照)を使って推定した時間周波数毎の音源方向推定結果をクラスタリングし、音源毎の原信号を復元する。
A specific processing flow of the latter form is shown in FIG. The mixed sound capturing 601 outputs a signal obtained by receiving a sound mixed with a plurality of sound sources with a plurality of microphone elements. In the case of sound source separation based on independent component analysis, the time-frequency domain
目的音指定603では復元した原信号の中から、ユーザーが抽出したい音を選択する。選択は、ユーザーがそれぞれの原信号の音をスピーカで再生させ聞きながら選択するような構成をとっても良いし、復元した原信号毎に音源方向推定(例えば、非特許文献3参照)を行い、推定した音源方向を画面上に表示し、画面上に表示した音源方向の中から、抽出したい方向をユーザーに選択させるような構成をとっても良い。このようにして、目的音指定603は、時間周波数領域音源分離602が出力した複数の復元信号の中で、ユーザーが抽出したい目的音がどの音源であるかの情報を出力し終了する。ここで、目的音の数は1つである必要はなく、複数であっても良い。
In
区間毎の処理604では、復元信号を数秒の短区間に切って、ループ処理を行う。目的音指定603後に復元信号は、目的音か雑音かに振り分けることが可能である。目的音と振り分けられた音を全て加算し、同様に雑音と振り分けられた音を全て加算する。加算後の目的音及び雑音の時間毎のパワーの時系列は、図7の最上段及び2段目に示すような形状となる。短区間毎の目的音のパワーをPs(τ)、雑音のパワーをPn(τ)とする。ここで、τは短区間のインデックスを表す変数とする。
In
混合度処理605では、目的音の雑音に対するパワー比率(混合度)の推定値として、Ps(τ)+ Pn(τ)とPs(τ)の比率を短区間毎に計算する。音源混合度は例えば、図7の3段目のような時系列となる。ソーティング606では、混合度が小さい短区間を同定する目的で、混合度が小さい上記比率を小さいものから順番に並べなおす。区間毎の処理607は、次の短区間に処理を移す。雑音区間推定608は、混合度が小さい短区間から予め定める上位N区間を取り出す。取り出した区間を雑音区間として出力して終了する。
In the
時間周波数領域の音源分離処理として、時間周波数毎に計算した音源方向のヒストグラムから音源分離を行う例を図8に示す。時間周波数毎の処理801では、まず、複数素子のマイク入力信号を、短時間毎(フレームシフト)に処理する。短時間毎に処理を開始する波形の先頭をフレームシフトずつずらす。フレームシフトは数+ms程度の時間長になるように予め定める。処理を開始する波形の先頭から終端までの時間長をフレームサイズと呼び、フレームシフトより長い値に設定する。マイク素子毎にフレームサイズ分のデータに対して、直流成分カット、ハニング窓重畳、短時間フーリエ変換を施し、時間周波数領域の信号を得る。短時間処理の処理単位をフレームと呼び、フレームのインデックスをτと記載する。マイク素子番号mで得られたf番目の周波数のフレームτの信号をxm(f,τ)と記載し、X(f,τ)=[x1(f,τ)…xm(f,τ)… xM(f,τ)]Tとする。時間周波数毎の処理801では、周波数f、フレームτ毎に処理を行うループをスタートする。
FIG. 8 shows an example of performing sound source separation from the histogram of the sound source direction calculated for each time frequency as the sound source separation processing in the time frequency domain. In the
位相差解析802では、GCC-PHATやSPIRE法(例えば、非特許文献3参照)により、周波数f、フレームτの音源方向を推定する。ヒストグラム生成803では、推定した音源方向のヒストグラムを推定する。周波数f、フレームτに求めた音源方向に対応するヒストグラムのビンに周波数f、フレームτ毎に1票加算される。時間周波数毎の処理804は、次の周波数又は次のフレームに処理を移す。ヒストグラムピークサーチ805は、求めた音源方向のヒストグラムのピークを探索する。前後のビンよりも値が大きいヒストグラムのビンがピークとして検出され、そのピークの中から、投票値が大きい順番で予め定める数のピークが抽出され、出力される。ピークの数Pはマイク数以下とする。ステアリングベクトル生成806では、周波数f、フレームτ毎の音源方向とヒストグラムピークサーチ805で求めた各ピークとの方向差を比較して、最も方向差が小さいピークを選択する。ステアリングベクトル生成806では、選択されたピークの番号がpとなる音源方向のうち、周波数fの音源方向に対応する入力ベクトルX(f,τ)の集合をΓp(f)とする。ピーク、周波数毎に1つ保持するステアリングベクトルap(f)を式(18)で求める。求めたステアリングベクトルの大きさを1に正規化する。正規化後のステアリングベクトルをa^p (f)と表記する。このステアリングベクトルを元に生成した行列A(f)を式(19)とおく。逆フィルタリング807ではA(f)の一般化逆行列で定義されるフィルタ(式(20))を時間周波数毎のマイク入力信号に重畳する。重畳後のベクトルは時間周波数毎の分離信号を要素に持つベクトルとなっている。
In the
図9には、雑音除去に加え残響除去をリアルタイムに行うための構成を記載している。波形取り込み部901からフィルタデータ904では、それぞれ図2の波形取り込み部201からフィルタデータ204と同じ内容の処理を行う。図2の構成では、ターゲットマイクをM個のマイクのうちのある特定の一つとしていたが、図9では全てのマイクの雑音抑圧後の波形を抽出する。つまり、ターゲットマイクを1からMまで変化させて、雑音抑圧を実施し、雑音抑圧後の波形を抽出する。
FIG. 9 shows a configuration for performing reverberation removal in real time in addition to noise removal. The processing from the
目的音区間抽出部905では、フィルタリング部903が出力する雑音抑圧後のMチャンネルの信号に対して、信号のパワー時系列を算出する。そして、パワーに基づくVAD(音声区間検出技術)を利用して、音声区間を抽出する。さらに、予め定める個数又は取り出した後の総時間長が所定の時間長になるように、パワーが大きい順で音声区間を抽出する。抽出した音声区間を目的音区間として出力する。このようにパワーが大きい音声区間を取り出すことで、高精度な空間伝達特性の学習が可能となる。
The target sound
目的音伝達特性学習部906では、2次統計量に基づくマルチチャンネル残響除去で用いられる各種統計量を目的音区間抽出部905が取り出した目的音区間波形から学習し、学習後に残響除去フィルタを算出し、算出した残響除去フィルタを残響除去フィルタ907に書き出す。ここまでの処理がいわゆるバッチ処理であったのに対して、以後リアルタイムに取り出した波形に対する雑音抑圧処理及び残響除去処理を行う。
The target sound transfer
リアルタイム波形取り込み部908は、複数チャンネルの音データをフィルタリング処理するために必要な最小限のデータが得られるたびにそのデータを出力する。出力されたデータはフィルタリング部903に送られ、雑音抑圧された後、残響除去部909に送られる。
The real-time
残響除去部909は、バッチ処理で適応した残響除去フィルタ907を読み込み、残響除去処理を行う。残響除去後のデータは、リアルタイム波形再生部910に送られ、DA変換を施され、スピーカから放出される。
The
一般に残響除去フィルタの適応には、長時間の観測データが必要であるため、バッチで適応したフィルタを使うのが望ましい。目的音が複数存在する場合を勘案し、目的音区間抽出部905で、得られた区間毎に音源方向推定を行い、得られた区間を方向推定結果を元にクラスタリングし、各クラスタ毎に所定の時間長の目的音信号をパワーに基づき抽出し、抽出した区間から目的音伝達特性学習部906で、残響除去フィルタを方向毎に求めるようにし、さらに残響除去部909の前に音源方向推定を行い、推定した方向に最も近い方向の残響除去フィルタを使って残響除去するような構成をとっても良い。
In general, adaptation of a dereverberation filter requires long-time observation data, so it is desirable to use a filter adapted in batch. Considering the case where there are multiple target sounds, the target sound
図10に、図3の空間的/F特歪み補正S306の空間的歪み補正の構成例を示す。空間的歪み補正フィルタHは次式(21)で定義され、式(22)で計算される。 FIG. 10 shows a configuration example of the spatial distortion correction of the spatial / F special distortion correction S306 in FIG. The spatial distortion correction filter H is defined by the following equation (21) and calculated by the equation (22).
図11にF特歪み補正の一構成を示す。多チャンネル歪み補正部1101は、式(16)で定義される多チャンネル歪み後の信号を算出する。遅延処理部1102は、ターゲットマイクの入力信号を因果性を満たす遅延Dだけ遅延させ、遅延後の信号を出力する。雑音共分散行列は、式(24)で定義されるRcov(noise)を計算する。ここで、V(t)は式(23)で定義される。
FIG. 11 shows one configuration of the F characteristic distortion correction. The multi-channel
最小2乗フィルタ推定部1110では、式(28)で表わされる入力信号推定値xtaget^(t-D)とxtarget(t-D)の間の2乗誤差が最小値をとるg及びqを、最小2乗法(式(29))で求める。式中”*”は畳み込みを表す演算子とする。求めた歪み補正フィルタgを出力して終了する。
In the least square
また会議データを閲覧するユーザーのリクエストに応じて、サーバはデータを会議データ閲覧ユーザーに送信する。閲覧ユーザーサイドのHUB 1211を介してデータが、閲覧ユーザーが保有する計算機1208に送られる。計算機1208上でデータが処理されスピーカ1209から再生される。また、一部の音響情報が表示装置1210に表示される。
Further, in response to a request from a user browsing the conference data, the server transmits the data to the conference data browsing user. The data is sent to the
図13は、閲覧ユーザーの表示装置1210に表示する画面の構成を示している。表示装置1210の画面1301は4つのサブ画面からなる。カメラ画像表示部1301-1上には、会議時にカメラ1202で撮影した動画が表示される。音源位置表示部1301-2は、会議時にマイクロホンアレイで取り込んだ音から推定した音源位置を表示する。音源位置は、会議時の音声全てを使って作った方向ヒストグラムのピークサーチをすることで求める構成を取っても良いし、カメラ画像と同期して、映像時刻前後の音声波形から生成した方向ヒストグラムをピークサーチすることで求めた音源位置を表示するような構成を取っても良い。1301-2の画面を会議室を縮尺した平面図と見立て、音源の平面的な位置を表示するようにする。音源位置毎に、表示の色や形を変化させて表示しても良い。
FIG. 13 shows a configuration of a screen displayed on the
発話タイミング表示部1301-3は、発話箇所を、発話音量に応じて濃淡を変えてマーキングする。音源位置表示部1301-2で各音源の表示に使った色や形で各音源の発話位置をマーキングするようにしても良い。サムネイル画像表示部1301-4は、発話箇所毎に1枚その発話箇所に含まれる時間帯のカメラ画像を表示する。カメラが複数台ある場合は、発話箇所の音源方向を写したカメラの画像を表示するようにしても良い。また、カメラ画像表示部1301-1のある特定の点をユーザーが計算機付属のマウスでクリックすると、そのクリック位置の音が再生されたり、音源位置表示部1301-2の音源位置をクリックすると、その音源の再生箇所が発話タイミング表示部1301-3に表示され、発話タイミング表示部1301-3の発話箇所をクリックすると、そのクリック箇所が再生されるような構成を取っても良い。 The utterance timing display unit 1301-3 marks the utterance portion with different shades according to the utterance volume. The sound source position display unit 1301-2 may mark the utterance position of each sound source with the color and shape used to display each sound source. Thumbnail image display section 1301-4 displays one camera image for each utterance location and the time zone included in that utterance location. When there are a plurality of cameras, a camera image showing the sound source direction of the utterance portion may be displayed. When the user clicks on a certain point on the camera image display unit 1301-1 with the mouse attached to the computer, the sound at that clicked position is played, or when the sound source position on the sound source position display unit 1301-2 is clicked, A configuration may be adopted in which the playback location of the sound source is displayed on the utterance timing display unit 1301-3, and when the utterance location on the utterance timing display unit 1301-3 is clicked, the clicked location is reproduced.
図14は、本発明の第二実施例のソフトウェア構成図を示した図である。音取り込み部1401で取り込んだ複数チャンネルの音情報及び画像取り込み部1403で取り込んだ画像データは、データ送信部1404に送られ、サーバに送られる。また、会議拠点におけるマイクロホンアレイの各マイク素子の配置及びカメラの配置及び向きに関する情報1402も音情報や画像データと一緒に送信される。サーバ上では、データ受信部1405で、音情報や画像データ及びマイクロホンアレイの各マイク素子の配置及びカメラの配置及び向きのデータを受信し、拠点毎データ1413に記憶する。拠点毎データ1413は大規模ストレージ上のデータ領域とする。
FIG. 14 is a diagram showing the software configuration of the second embodiment of the present invention. The sound information of a plurality of channels captured by the
閲覧拠点では、ユーザーI/F処理部1412で、ユーザーのクリック位置やドラッグ位置を認識し、再生する音源位置の情報に変換する。拠点毎データ1410内に記憶された該当音源位置の音声波形を再生する。拠点毎データ1410内に該当音源位置の音声波形が存在しなければ、会議データリクエスト部1406が、該当音源位置の音声波形を送信するリクエストをサーバに送信するような作りを取っても良い。サーバに送信されたリクエストはデータ受信部1407で受信される。そして音響情報生成部1409に、リクエストに含まれる再生音源位置の音声波形を抽出するようなコマンドを送付する。
At the viewing base, the user I /
音響情報生成部1409では、拠点毎データ1413に記憶された多チャンネルの音声波形とその音声波形を録音したマイクロホンアレイの空間的配置の情報から、本発明の第一の実施例に基づき再生音源位置の音声波形を分離して抽出する。データ送信部1408は、抽出した音声波形を閲覧拠点に送信する。また、カメラ画像や各時間の音源方向の情報を送付するようにしても良い。画像表示部1415は、カメラ画像を表示装置上のカメラ画像表示部に表示する。表示する際、再生音源波形に合わせて再生画像を変えても良い。音声再生部1411は、ユーザーが選択した音源位置の波形の指定された再生箇所を再生し、スピーカから音声を出力する。
In the acoustic
図15に、ユーザーI/F処理部及び音声再生部、画像表示部を含んだユーザークリックやドラッグ処理の処理フローを示す。聞きたい方向を選択1501で、ユーザーのクリック位置やドラッグ位置からユーザーの聞きたい方向を同定する。音源が存在するか1502で、同定した方向に音源が存在するか判定し、もし存在しない場合は、その方向に音源が存在しない旨、メッセージ提示1507して終了する。音源が存在する場合は、雑音区間同定1503で、第一実施例で示した図6の雑音区間抽出処理により、雑音区間を抽出する。目的音抽出1504で、雑音区間の情報から第一実施例で示した図3の雑音抑圧方式で雑音抑圧後の目的音を抽出する。再生区間を選択1505では、雑音抑圧後の目的音の発話区間を発話タイミング表示部に表示した後、ユーザーに発話区間の中から聞きたい区間を選択させる。音・画像を再生1506では、選択させた発話区間の音声を音声再生部が再生するとともに、再生発話区間に対応するカメラ画像を、表示装置1210のカメラ画像表示部1301-1上に再生発話区間と同期させて、表示する。再生終了後、処理を終了する。
FIG. 15 shows a processing flow of user click and drag processing including a user I / F processing unit, an audio reproduction unit, and an image display unit. In a
図16は、本発明の第三実施例の監視システムの異常音検出ブロックを示した図である。対象とする異常音は、例えば、工場における機械の異常時の動作音であったり、オフィス、家庭内でのガラスが割れる音などである。ハードウェア構成は、図12に示した第二実施例のハードウェア構成と同一とする。またソフトウェアブロック構成は図14に記載の構成と同一とする。音源情報生成部1601は、図14の音響情報生成部に相当する。
FIG. 16 is a diagram showing an abnormal sound detection block of the monitoring system of the third embodiment of the present invention. The target abnormal sound is, for example, an operation sound when a machine malfunctions in a factory, or a sound of glass breaking in an office or home. The hardware configuration is the same as the hardware configuration of the second embodiment shown in FIG. The software block configuration is the same as that shown in FIG. The sound source
異常音データベース1603には、異常音の振幅スペクトルやケプストラムなどの音響特徴量やHidden Markov Model 形式で記述された異常音の音響特徴量の遷移パターンの状態遷移情報が記憶されているものとする。パターンマッチング部1602は、取り出した音源波形の情報と異常音データベースに記載の異常音の情報とパターンマッチングを行う。音源波形に短時間フーリエ変換をかけ、振幅スペクトルやケプストラムなどの音響特徴量を抽出し、抽出した音響特徴量と異常音データベースに記載の異常音の音響特徴量の遷移パターンやHidden Markov Modelで記述された異常音のスペクトルパターンとの距離計算を行う。距離計算の結果から、異常音の存在確率のゆう度を計算する。Hidden Markov Modelで記述された異常音のスペクトルパターンの場合、ビタビアルゴリズムなどで高速に距離計算を行うことが可能である。
It is assumed that the
異常音判定部1604では、計算したゆう度から異常音が存在するかどうかを短時間区間毎に判定する。判定の結果、異常音が存在した場合は、アラート送信部1605で警告情報を送信する。警告情報は、閲覧拠点上のスピーカから予め定める警告音を鳴らすとともに、その異常音が発生した場所と時間帯を画面上に表示するような形態をとる。
The abnormal
図17は、異常音検出処理の具体的な処理フローを示した図である。混合音取り込み1701では、様々な音が混ざった複数チャンネルの音データを取り込む。時間周波数領域音源分離1702で音源毎の信号を生成する。時間周波数領域音源分離では、音源毎の信号を完全には分離しきれないため、次にその分離精度を高める処理を加える。音源毎の処理1703では、分離した音源毎の処理ループを開始する。区間毎の処理1704では、処理対象の音源信号の各短時間区間毎の波形に対する処理ループを開始する。混合度処理1705では、処理対象の音源波形のパワーPs(t)と処理対象以外の音源のパワーを加算したものPn(t)とを用いて、混合度Ps(t)/(Pn(t)+Ps(t))を区間t毎に計算する。計算した混合度をソーティング1706で混合度が小さいものから順番に並び変える。区間毎の処理1707では、次の区間に処理を移す。雑音区間抽出1708では、ソーティング後の混合度の情報から、混合度が小さいものから順番に総時間が予め定める時間になるまで区間を抽出する。そして抽出した区間を雑音区間として出力する。雑音除去1709では、本発明の第一実施例の図3に示す処理フローにより雑音を除去した目的音だけの信号を抽出する。異常音検出1710で、異常音情報とのパターンマッチング処理を行い、異常音が検出された場合は、アラート送信部1711に処理を移して、アラートを閲覧拠点に送信した後次の音源の処理に移る。また異常音が検出されなかった場合は、何もせず次の音源の処理に移る。
FIG. 17 is a diagram illustrating a specific processing flow of the abnormal sound detection processing. The mixed sound capturing 1701 captures sound data of a plurality of channels in which various sounds are mixed. A signal for each sound source is generated by time frequency domain
図18に、本発明に基づき、ユーザーが指定した音源位置の音声を高速再生するための話速変換処理の処理フローを示す。本処理フローは、図14における音声再生部1411で処理される。本処理の目的は、ユーザーが指定した音源の音声をゆっくりと聞きやすい速度で再生し、それ以外の話者の音声を高速に再生することで、聞きたい音だけを聞きやすく再生することである。それ以外の音は高速に再生されるため、時間をかけずに聞き流すことができる。
FIG. 18 shows a processing flow of speech speed conversion processing for high speed reproduction of sound at a sound source position designated by a user based on the present invention. This processing flow is processed by the
目的音/雑音抽出1801では、本発明の第一実施例により、目的音が存在する区間と雑音だけの区間を抽出する。区間毎の処理1802では、抽出した音声を短時間区間にわけて、各区間毎のループ処理を開始する。SNRに基づく音声検出1803では、目的音の短時間パワーPs(t)と雑音の短時間パワーPn(t)からSNR=Ps(t)/Pn(t)を計算する。音声判定1804では、SNRが予め定める閾値以上であれば、音声がその短時間区間に存在すると判定し、その区間の再生速度を予め定める目的音区間用の話速に設定する(1806)。また、閾値以下であれば、その区間を雑音区間と判定し、雑音区間用話速に設定1805で、その区間の再生速度を予め定める雑音区間用の話速に設定する。ここで、予め雑音区間用の話速が目的音区間用話速より速くなるように設定しておく。設定の後、区間毎の処理1807で次の区間に処理を移す。設定した話速に従い再生1808で、実際にスピーカから設定した話速に従い話速変換処理を行い、変換後の音声を再生した後、終了する。
In the target sound /
図19は、ユーザーが選択した音源方向の情報だけを抽出し、再生する処理のフロー図である。1901から1904までは図18の相当する処理と同様とする。このフローでは、区間を削除1905で、目的音区間と判定されなかった区間を再生区間から削除する。また、区間を残す1906で、目的音区間と判定された区間を再生区間に残す。区間毎の処理1907は、次の区間に処理を移す。設定した再生区間を再生1908では、設定した再生区間をスピーカから再生した後、処理を終了する。
FIG. 19 is a flowchart of processing for extracting and reproducing only the information on the sound source direction selected by the user. The processing from 1901 to 1904 is the same as the corresponding processing in FIG. In this flow, the section that is not determined to be the target sound section is deleted from the playback section in Delete 1905. In 1906, which leaves the section, the section determined as the target sound section is left in the playback section. The
101…マイクロホンアレイ、102…AD変換装置、103…中央演算装置、104…揮発性メモリ、105…不揮発性メモリ、106…DA変換装置、107…スピーカ、201…波形取り込み部、202…フィルタ適応処理部、203…フィルタリング部、204…フィルタデータ、205…波形再生部、401…多チャンネル空間予測部、402…遅延処理部、403…多チャンネル歪み補正部、404…1チャンネル歪み補正部、901…波形取り込み部、902…フィルタ適応処理部、903…フィルタリング部、904…フィルタデータ、905…目的音区間抽出部、906…目的音伝達特性学習部、907…残響除去フィルタ、908…リアルタイム波形取り込み部、909…残響除去部、910…リアルタイム波形再生部、1001…残留雑音推定部、1002…目的音推定部、1003…残留雑音共分散推定部、1004…μ乗算部、1005…目的音共分散推定部、1006…逆行列演算部、1007…遅延処理部、1008…目的音相関行列推定部、1009…行列掛け算部、1101…多チャンネル歪補正部、1102…遅延処理部、1103…雑音共分散推定部、1104…μ乗算部、1105…目的音共分散推定部、1106…逆行列演算部、1107…雑音相関推定部、1108…行列掛け算部、1109…雑音推定部、1110…最小2乗フィルタ推定部、1201…マイクロホンアレイ、1201…カメラ、1203…AD変換装置、1204…計算機、1205…HUB、1206…HUB2、1207…計算機、1208…計算機、1209…スピーカ、1210…表示装置、1301…画面、1301-1…カメラ画像表示部、1301-2…音源位置表示部、1301-3…発話タイミング表示部、1301-4…サムネイル画像表示部、1401…音取り込み部、1403…画像取り込み部、1404…データ送信部、1405…データ受信部、1406…会議データリクエスト部、1407…データ受信部、1408…データ送信部、1409…音響情報生成部、1410…拠点毎データ、1411…音声再生部、1412…拠点毎データ、1601…音源抽出部、1602…パターンマッチング部、1603…異常音データベース、1604…異常音判定部、1605…アラート送信部
DESCRIPTION OF
Claims (6)
前記マイクロホンアレイから出力されるアナログ信号をデジタル信号に変換するAD変換装置と、
計算装置と、
記憶装置とを有し、
前記計算装置は、前記AD変換装置によって変換されたデジタル信号中の雑音成分を抑圧するようなデジタル信号処理を施し、雑音抑圧信号を取り出した後、該雑音抑圧信号中に含まれる目的音の歪みを補正し、補正後の信号を再生又は前記記憶装置に記憶するものであり、かつ、前記複数のマイクロホン素子のうちの1つの素子に含まれる雑音信号を当該素子以外の全ての複数の素子に含まれる雑音信号に第1のFIRフィルタをかけたものの和で近似するとともに近似誤差の2乗和が最少となるように前記第1のFIRフィルタの係数を決定する多チャンネル空間予測部を有し、前記雑音抑圧信号を、前記複数のマイクロホン素子のうちの任意の1素子の信号から当該素子以外の素子に含まれる信号に前記多チャンネル空間予測部で予測した前記第1のFIRフィルタを重畳したものの和を差し引くことで生成することを特徴とする音源抽出装置。 A microphone array composed of a plurality of microphone elements;
An AD converter for converting an analog signal output from the microphone array into a digital signal;
A computing device;
A storage device,
The calculation device performs digital signal processing for suppressing a noise component in the digital signal converted by the AD conversion device, extracts the noise suppression signal, and then distorts the target sound included in the noise suppression signal. And the corrected signal is reproduced or stored in the storage device , and a noise signal included in one element of the plurality of microphone elements is transmitted to all the plurality of elements other than the element. A multi-channel spatial prediction unit that approximates the sum of the noise signal included by the first FIR filter and determines the coefficient of the first FIR filter so that the square sum of the approximation error is minimized; The multi-channel spatial prediction unit predicts the noise suppression signal from a signal of any one of the plurality of microphone elements to a signal included in an element other than the element. Signal extraction apparatus characterized by generating by subtracting the sum of those by superimposing the first FIR filter.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008218565A JP5231139B2 (en) | 2008-08-27 | 2008-08-27 | Sound source extraction device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008218565A JP5231139B2 (en) | 2008-08-27 | 2008-08-27 | Sound source extraction device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010054728A JP2010054728A (en) | 2010-03-11 |
JP5231139B2 true JP5231139B2 (en) | 2013-07-10 |
Family
ID=42070735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008218565A Active JP5231139B2 (en) | 2008-08-27 | 2008-08-27 | Sound source extraction device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5231139B2 (en) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9552840B2 (en) * | 2010-10-25 | 2017-01-24 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
JP5693201B2 (en) * | 2010-12-16 | 2015-04-01 | 中部電力株式会社 | Method and apparatus for reproducing propagation sound from specified area |
KR101312451B1 (en) * | 2013-04-05 | 2013-09-27 | 주식회사 시그테크 | Extraction method and extraction apparatus of voice signal used for voice recognition in enviroment outputting a plurality of audio sources |
DK3011286T3 (en) * | 2013-06-21 | 2017-11-13 | Brüel & Kjaer Sound & Vibration Measurement As | PROCEDURE FOR DETERMINING NOISE CONTRIBUTION OF NOISE SOURCES FROM A MOTOR VEHICLE |
JP5841986B2 (en) * | 2013-09-26 | 2016-01-13 | 本田技研工業株式会社 | Audio processing apparatus, audio processing method, and audio processing program |
WO2015097829A1 (en) | 2013-12-26 | 2015-07-02 | 株式会社東芝 | Method, electronic device and program |
WO2016167141A1 (en) * | 2015-04-16 | 2016-10-20 | ソニー株式会社 | Signal processing device, signal processing method, and program |
JP2019165386A (en) * | 2018-03-20 | 2019-09-26 | ヤマハ株式会社 | Signal analysis method and signal analysis device |
WO2021171406A1 (en) * | 2020-02-26 | 2021-09-02 | 日本電信電話株式会社 | Signal processing device, signal processing method, and program |
CN115881151B (en) * | 2023-01-04 | 2023-05-12 | 广州市森锐科技股份有限公司 | Bidirectional pickup noise elimination method, device, equipment and medium based on high-speed shooting instrument |
CN117037836B (en) * | 2023-10-07 | 2023-12-29 | 之江实验室 | Real-time sound source separation method and device based on signal covariance matrix reconstruction |
CN117202077B (en) * | 2023-11-03 | 2024-03-01 | 恩平市海天电子科技有限公司 | Microphone intelligent correction method |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3183104B2 (en) * | 1995-07-14 | 2001-07-03 | 松下電器産業株式会社 | Noise reduction device |
JP3804569B2 (en) * | 2002-04-12 | 2006-08-02 | ブラザー工業株式会社 | Text-to-speech device, text-to-speech method, and program |
JP3878892B2 (en) * | 2002-08-21 | 2007-02-07 | 日本電信電話株式会社 | Sound collection method, sound collection device, and sound collection program |
JP4286637B2 (en) * | 2002-11-18 | 2009-07-01 | パナソニック株式会社 | Microphone device and playback device |
JP4255888B2 (en) * | 2004-06-30 | 2009-04-15 | 日本電信電話株式会社 | Signal separation method and apparatus, signal separation program, and recording medium recording the program |
KR100657948B1 (en) * | 2005-02-03 | 2006-12-14 | 삼성전자주식회사 | Speech enhancement apparatus and method |
JP4690973B2 (en) * | 2006-09-05 | 2011-06-01 | 日本電信電話株式会社 | Signal section estimation apparatus, method, program, and recording medium thereof |
-
2008
- 2008-08-27 JP JP2008218565A patent/JP5231139B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010054728A (en) | 2010-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5231139B2 (en) | Sound source extraction device | |
US10455325B2 (en) | Direction of arrival estimation for multiple audio content streams | |
EP3320692B1 (en) | Spatial audio processing apparatus | |
JP5134876B2 (en) | Voice communication apparatus, voice communication method, and program | |
JP5007442B2 (en) | System and method using level differences between microphones for speech improvement | |
EP3189521B1 (en) | Method and apparatus for enhancing sound sources | |
JP5383867B2 (en) | System and method for decomposition and modification of audio signals | |
CN110537221A (en) | Two stages audio for space audio processing focuses | |
JP6065028B2 (en) | Sound collecting apparatus, program and method | |
CN110012331B (en) | Infrared-triggered far-field double-microphone far-field speech recognition method | |
WO2015086895A1 (en) | Spatial audio processing apparatus | |
JP4448464B2 (en) | Noise reduction method, apparatus, program, and recording medium | |
Ochi et al. | Multi-Talker Speech Recognition Based on Blind Source Separation with ad hoc Microphone Array Using Smartphones and Cloud Storage. | |
US20130253923A1 (en) | Multichannel enhancement system for preserving spatial cues | |
JP4116600B2 (en) | Sound collection method, sound collection device, sound collection program, and recording medium recording the same | |
Araki et al. | Online meeting recognizer with multichannel speaker diarization | |
CN110706709A (en) | Multi-channel convolution aliasing voice channel estimation algorithm combined with video signal | |
US11823698B2 (en) | Audio cropping | |
JP2010161735A (en) | Sound reproducing apparatus and sound reproducing method | |
Samborski et al. | Speaker localization in conferencing systems employing phase features and wavelet transform | |
CN111462771B (en) | Howling processing method | |
JP6059112B2 (en) | Sound source separation device, method and program thereof | |
JP2009025025A (en) | Device for estimating sound-source direction and sound source separating device using the same, and method for estimating sound-source direction and sound source separating method using the same | |
EP3029671A1 (en) | Method and apparatus for enhancing sound sources | |
US20240135948A1 (en) | Acoustic echo cancellation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110323 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120703 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130321 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160329 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5231139 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |