JPH10313498A - Method for picking up sound by sneaking sound suppression, system and recording medium - Google Patents

Method for picking up sound by sneaking sound suppression, system and recording medium

Info

Publication number
JPH10313498A
JPH10313498A JP9264652A JP26465297A JPH10313498A JP H10313498 A JPH10313498 A JP H10313498A JP 9264652 A JP9264652 A JP 9264652A JP 26465297 A JP26465297 A JP 26465297A JP H10313498 A JPH10313498 A JP H10313498A
Authority
JP
Japan
Prior art keywords
band
signal
sound
difference
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9264652A
Other languages
Japanese (ja)
Other versions
JP3384540B2 (en
Inventor
Shigeaki Aoki
茂明 青木
Mariko Aoki
真理子 青木
Manabu Okamoto
学 岡本
Hiroyuki Matsui
弘行 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP26465297A priority Critical patent/JP3384540B2/en
Publication of JPH10313498A publication Critical patent/JPH10313498A/en
Application granted granted Critical
Publication of JP3384540B2 publication Critical patent/JP3384540B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To sufficiently suppress occurrence of howling with a comparatively simple configuration and insignificant sound quality deterioration. SOLUTION: A microphone 1 is placed to a taker side and a microphone 2 is placed as a speaker driven by a received signal from a subscriber, where output channel signals of the microphones 1, 2 are split into a plurality of bands so that a major component of one frequency band results from one sound source signal (4). An inter-channel level difference/arrival time difference for each identical frequency band are detected and compared with respective threshold levels for each band, and it is determined whether the frequency band is a voice signal component of the talker or other signal component (601). Then the frequency band component of the output of the microphone 1 is selected only for the frequency band discriminated as the voice signal (602) and they are synthesized and the result is transmitted to the subscriber (7A).

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は対地からの受信信
号を拡声器などで音響信号として放射し、また発話者の
発声音声信号をマイクロホンで収音して対地へ送信する
際に、受信信号を変換した音響信号が上記マイクロホン
に収音されて、ハウリングが発生するのを抑圧する、つ
まり、受信信号の音響信号が対地へ送信する信号に回り
込むのを抑圧する回り込み音抑圧形収音方法、その装
置、およびそのプログラム記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention radiates a received signal from the ground as an acoustic signal with a loudspeaker or the like, and collects a voice signal of a speaker with a microphone and transmits the signal to the ground. The converted sound signal is picked up by the microphone, and howling is suppressed.In other words, the sneaking sound suppression type sound collecting method for suppressing the sneaking of the sound signal of the received signal to the signal transmitted to the ground, The present invention relates to an apparatus and a program recording medium thereof.

【0002】[0002]

【従来の技術】不要な回り込み音を抑圧し、ハウリング
を抑圧できる従来法は、大きく分けて3種類あった。第
1の手法は、ハウリングの生ずる周波数を検知し、その
周波数のノッチフィルタを送信信号(話者音声信号)ま
たは受信信号に導入する。この手法はノッチフィルタを
入れた帯域成分が送信信号から欠落することから音質の
劣化が生ずる。
2. Description of the Related Art Conventional methods capable of suppressing unnecessary wraparound noise and suppressing howling are roughly classified into three types. The first method detects a frequency at which howling occurs, and introduces a notch filter of the frequency into a transmission signal (speaker voice signal) or a reception signal. In this method, the sound quality is deteriorated because the band component including the notch filter is missing from the transmission signal.

【0003】第2の手法は、受信して再生した信号と、
収音して送信する信号の周波数特性を異なるように周波
数変調を掛けて、ハウリングを抑圧する方式である。受
信して再生した信号は電気信号として確実に把握でき
る。一方、収音した信号は収音して送信すべき信号と受
信して再生した信号が混在し、収音して送信すべき信号
を確実に把握することはできない。したがって、ハウリ
ングを抑圧するために必要でない収音して送信すべき信
号にまで、変調を掛けてしまい、音質の劣化が起こる。
[0003] The second technique is to receive and reproduce a signal,
In this method, howling is suppressed by performing frequency modulation so that the frequency characteristics of a signal to be collected and transmitted are different. The signal received and reproduced can be reliably grasped as an electric signal. On the other hand, the collected signal includes a signal to be collected and transmitted and a signal to be received and reproduced, and the signal to be collected and transmitted cannot be reliably grasped. Therefore, modulation is applied to signals to be collected and transmitted, which are not necessary for suppressing howling, thereby deteriorating sound quality.

【0004】第3の手法として、受信して再生した信号
が収音して送信する信号に混入する状況を適応形フィル
タを用いて予測する方法である。混入が予測された再生
信号の成分を収音して送信する信号から、引き去ること
で、ハウリングを抑圧する。しかし、予測するための適
応形フィルタは、時事刻々変動しており、適応形フィル
タの予測は収音して送信すべき信号が無いときのみ、す
なわち再生信号のみがあるとき、可能である。第2の手
法と同様に、収音した信号は収音して送信すべき信号と
受信して再生した信号が混在した場合が多く、収音して
送信すべき信号が無いことを確実に把握することが、必
要となる。
As a third technique, there is a method of predicting, by using an adaptive filter, a situation where a signal received and reproduced is mixed with a signal to be collected and transmitted. Howling is suppressed by subtracting the component of the reproduction signal predicted to be mixed from the signal to be collected and transmitted. However, the adaptive filter for prediction varies every moment, and the prediction of the adaptive filter is possible only when there is no signal to be collected and transmitted, that is, when there is only a reproduced signal. As in the second method, there are many cases where the collected signal is mixed with a signal to be collected and transmitted and a signal to be received and reproduced, and it is sure that there is no signal to be collected and transmitted. Need to be done.

【0005】[0005]

【発明が解決しようとする課題】したがって従来の技術
では、音質の劣化が少なく、ハウリングを抑圧できない
といった問題を有している。
Therefore, the prior art has a problem that the deterioration of sound quality is small and howling cannot be suppressed.

【0006】[0006]

【課題を解決するための手段】この発明の収音方法は、
互いに離して設けられた複数のマイクロホンを用い、上
記各マイクロホンの各出力チャネル信号を、帯域分割過
程で複数の周波数帯域に分割し、その各帯域には主とし
て1つの音源信号成分のみ存在するようにし、これら分
割された各出力チャネル信号の各同一帯域ごとに、上記
複数のマイクロホンの位置に起因して変化する、マイク
ロホンに到達する音響信号のパラメータ、つまりレベル
(パワー)、到達時間(位相)の値の差を、帯域別チャ
ネル間パラメータ値差として検出し、上記各帯域の帯域
別チャネル間パラメータ値差を用いて、予め設定された
しきい値にもとづき、上記帯域分割された出力チャネル
信号が発話者の音声信号成分か否かを音声信号判定過程
で判定し、この音声信号判定過程の判定にもとづき、上
記帯域分割された出力チャネル信号から、同一発話者か
ら入力され音声信号を少なくとも1つ、音声信号選択過
程で選択し、その音声信号選択過程で同一発話者からの
信号として選択された、複数の帯域信号を音声信号とし
て音声合成過程で合成し、その合成音声信号を対地へ送
信する。
A sound pickup method according to the present invention comprises:
Using a plurality of microphones provided apart from each other, each output channel signal of each microphone is divided into a plurality of frequency bands in a band division process, and each band mainly includes only one sound source signal component. For each of the same bands of each of the divided output channel signals, the parameters of the acoustic signal reaching the microphone, that is, the level (power) and the arrival time (phase), which change due to the positions of the plurality of microphones, The value difference is detected as a band-specific inter-channel parameter value difference, and the band-divided output channel signal is calculated based on a preset threshold value using the band-specific channel parameter value difference of each band. It is determined in the voice signal determination process whether or not the voice signal component of the speaker, and based on the determination in the voice signal determination process, the band is divided. At least one audio signal input from the same speaker is selected from the power channel signal in the audio signal selection process, and a plurality of band signals selected as signals from the same speaker in the audio signal selection process are output as the audio signal. In the speech synthesis process, and transmits the synthesized speech signal to the ground.

【0007】この発明の実施例によれば、対地からの受
信信号を1つの帯域には主として無視できる程度に小さ
なレベルしか存在しない帯域が存在する程度に狭い複数
の帯域に分割すると共にその帯域分割された受信信号の
レベルをそれぞれ検出し、これら各分割帯域について、
その上記検出したレベルが所定値以下であれば送信可能
帯域判定過程で送信可能帯域と判定し、音声信号選択過
程で選択された帯域信号中の送信可能と判定された帯域
だけを送信可能選択過程で選択して音声合成過程へ送
る。
According to an embodiment of the present invention, a signal received from the ground is divided into a plurality of bands as narrow as a band having only a negligibly small level in one band, and the band is divided. The level of each received signal is detected, and for each of these divided bands,
If the detected level is equal to or less than a predetermined value, the transmission band is determined in the transmission band determination process, and only the band determined to be transmittable in the band signal selected in the audio signal selection process is selected. And send it to the speech synthesis process.

【0008】その送信可能選択過程での選択は、上記音
声信号判定過程での判定を、送信可能と判定された帯域
のみに行うことによってもよい。この発明の他の実施例
によれば、受信信号を、複数の周波数帯域に分割し、上
記音声信号選択過程で選択された帯域と対応する、帯域
分割された受信信号成分を周波数成分除去過程で除去
し、その成分除去された残りの受信信号の帯域成分を、
時間領域の信号に再合成過程で合成し、その合成信号を
電気音響変換手段へ供給する。
[0008] The selection in the transmission possible selection step may be performed by performing the determination in the audio signal determination step only on the band determined to be transmittable. According to another embodiment of the present invention, a received signal is divided into a plurality of frequency bands, and a band-divided received signal component corresponding to the band selected in the audio signal selecting step is subjected to a frequency component removing step. The band component of the remaining received signal from which the component has been removed is
The signal is synthesized with the signal in the time domain in a re-synthesis process, and the synthesized signal is supplied to the electroacoustic conversion means.

【0009】[0009]

【発明の実施の形態】この発明の収音装置に用い基本構
成を図1に示す。図1において室210内に電気音響変
換手段としてスピーカ211が設けられ、伝送線212
を介して送られて来た相手話者の音声信号(受信信号)
が、スピーカ211で再生され、室210内へ音響信号
として放射される。一方室210内の発話者215が発
声した音声信号がマイクロホン1で受音され、電気信号
として伝送線216を通して相手話者側へ伝送される。
この場合、スピーカ211より放音される音声信号がマ
イクロホン1で捕捉され、相手話者側へ伝送されるとハ
ウリングが発生する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 shows a basic configuration used in a sound pickup apparatus according to the present invention. In FIG. 1, a speaker 211 is provided as an electroacoustic conversion unit in a room 210, and a transmission line 212 is provided.
Signal (received signal) of the other party's speaker sent via
Is reproduced by the speaker 211 and emitted into the room 210 as an acoustic signal. On the other hand, a voice signal uttered by the speaker 215 in the room 210 is received by the microphone 1 and transmitted as an electric signal to the partner speaker through the transmission line 216.
In this case, howling occurs when an audio signal emitted from the speaker 211 is captured by the microphone 1 and transmitted to the other party.

【0010】そこでこの実施例ではスピーカ211と発
話者215との配列方向とほぼ平行にマイクロホン2が
マイクロホン1とが例えば20cm程度離して並んで設
けられ、かつマイクロホン2はスピーカ211側とされ
る。これらマイクロホン1,2が収音処理部220に接
続される。図2に収音処理部220の具体例を説明す
る。マイクロホン1の出力をLチャネル信号と、マイク
ロホン2の出力をRチャネル信号と称する。Lチャネル
信号とRチャネル信号はチャネル間時間差/レベル差検
出部3と、帯域分割部4へ供給され、帯域分割部4では
それぞれ複数の周波数帯域信号に分割されて帯域別チャ
ネル間時間差/レベル差検出部5と音源判定信号選別部
6へ供給される。検出部3,5の各検出出力に応じて選
別部6において各帯域ごとに何れかのチャネル信号が発
話者の音声成分又はスピーカからの音響成分として選別
され、これら選択された帯域ごとの発話者音声成分信号
は音声信号合成部7Aで合成されて、発話者音声信号の
みが取出される。
Therefore, in this embodiment, the microphone 2 is provided in parallel with the arrangement direction of the speaker 211 and the speaker 215, and the microphone 1 is provided, for example, about 20 cm apart, and the microphone 2 is on the speaker 211 side. These microphones 1 and 2 are connected to the sound collection processing unit 220. FIG. 2 illustrates a specific example of the sound collection processing unit 220. The output of the microphone 1 is called an L channel signal, and the output of the microphone 2 is called an R channel signal. The L-channel signal and the R-channel signal are supplied to an inter-channel time difference / level difference detection unit 3 and a band division unit 4, where they are divided into a plurality of frequency band signals, and the inter-channel time difference / level difference for each band. The signal is supplied to the detection unit 5 and the sound source determination signal selection unit 6. According to each detection output of the detection units 3 and 5, the selection unit 6 selects any channel signal for each band as a voice component of a speaker or a sound component from a speaker, and the speaker for each of the selected bands. The voice component signals are synthesized by the voice signal synthesis unit 7A, and only the speaker voice signal is extracted.

【0011】発話者215はマイクロホン2よりマイク
ロホン1に近いから、発話者音声はマイクロホン1にマ
イクロホン2より早く到達し、かつレベルが大きい、ま
たスピーカ211はマイクロホン1よりマイクロホン2
に近いため、スピーカ211からの音響信号はマイクロ
ホン1よりも早くマイクロホン2に到達し、レベルも大
きい。このようにこの発明では、音源である発話者とス
ピーカのマイクロホン1,2に対する位置に起因する両
マイクロホン1,2に到達する音響信号の変化量、この
例では両信号の到達時間差とレベル差を利用する。
Since the speaker 215 is closer to the microphone 1 than the microphone 2, the speaker's voice reaches the microphone 1 earlier and has a higher level, and the speaker 211 is connected to the microphone 2 more than the microphone 1.
, The acoustic signal from the speaker 211 reaches the microphone 2 earlier than the microphone 1 and has a higher level. As described above, according to the present invention, the amount of change in the acoustic signal reaching the microphones 1 and 2 due to the positions of the speaker as the sound source and the speaker with respect to the microphones 1 and 2, in this example, the arrival time difference and the level difference between the signals. Use.

【0012】音声信号判定部201で、各帯域ごとにそ
のしきい値、例えば比較してレベル差と到達時間差が0
より大きいときは、その帯域の成分は発話者音声成分と
判定し、0より小さい時は、その帯域の成分はスピーカ
音響成分と判定する。ただし、差検出部5でマイクロホ
ン1の出力信号から得たレベル、到達時間から、マイク
ロホン2の出力信号から得たレベル、到達時間を引いた
場合である。
In the audio signal determination unit 201, a threshold value for each band, for example, a difference between the level difference and the arrival time is 0 for comparison.
If it is larger, the component of the band is determined to be the speaker's voice component, and if smaller than 0, the component of the band is determined to be the speaker acoustic component. However, this is a case where the level and the arrival time obtained from the output signal of the microphone 2 are subtracted from the level and the arrival time obtained from the output signal of the microphone 1 by the difference detection unit 5.

【0013】このようにして発話者音声と判定された帯
域についてのみ、音声信号選別部602でマイクロホン
1の信号の帯域成分を選択し、これら選択された帯域音
声成分を、音声信号合成部7Aで時間領域信号、つまり
合成音声信号に変換して、伝送路216へ送信する。以
下に発話者音声信号をスピーカ音響信号と分離して取出
す手法の一例を具体的に説明する。以下では発話者21
5とスピーカ211をそれぞれ、音源A,Bと称し、例
えば、発話者が複数居る場合にこれらの発話者の各音声
信号を分離し、その1つのみ、又は複数を送信する場合
にも適用できるからである。
The audio signal selecting unit 602 selects the band components of the signal of the microphone 1 only for the band determined to be the speaker's voice in this way, and the selected band audio component is converted by the audio signal synthesizing unit 7A. The signal is converted into a time domain signal, that is, a synthesized voice signal, and transmitted to the transmission path 216. Hereinafter, an example of a method of extracting a speaker voice signal separately from a speaker acoustic signal and extracting the same will be specifically described. In the following, speaker 21
5 and the speaker 211 are referred to as sound sources A and B, respectively. For example, when there are a plurality of speakers, each audio signal of these speakers is separated and only one or a plurality of them are transmitted. Because.

【0014】図3に示すように、マイクロホン1,2に
2つの音源A,Bからの信号が取り込まれる(S0
1)。チャネル間時間差/レベル差検出部3は、Lチャ
ネル信号とRチャネル信号からチャネル間時間差または
レベル差を検出する。時間差の検出に用いるパラメータ
としては、Lチャネル信号とRチャネル信号との相互相
関関数を用いた場合で説明する。図4に示すようにま
ず、Lチャネル信号とRチャネル信号との各サンプルL
(t),R(t)を読み込み(S02)、これらサンプ
ル間の相互相関関数を算出する(S03)。この算出は
両チャネル信号が同一サンプル時点についての相互相関
を求め、また一方のチャネル信号に対し他方のチャネル
信号をサンプル時点を1つだけずらした場合、2つだけ
ずらした場合・・・の各場合の相互相関をそれぞれ求め
て相互相関関数を求める。これら相互相関を多数求め、
これらをパワーで正規化したヒストグラムを作成する
(S04)。次に、ヒストグラムの累積度数順位第一
位、第二位をそれぞれとる時点差Δα 1 ,Δα2 を求め
る(S05)。これらの時点差Δα1 ,Δα2 を、次式
によりそれぞれチャネル間時間差Δτ1 ,Δτ2 に変換
して出力する(S06)。
[0014] As shown in FIG.
Signals from the two sound sources A and B are taken in (S0
1). The inter-channel time difference / level difference detection unit 3
Time difference between channels from the channel signal and the R channel signal or
Detect level differences. Parameters used to detect time differences
Is the mutual phase between the L channel signal and the R channel signal.
The case where a function is used will be described. As shown in FIG.
Of each sample of the L channel signal and the R channel signal
(T) and R (t) are read (S02),
Then, a cross-correlation function between the files is calculated (S03). This calculation is
Cross-correlation of both channel signals at the same sample time
And one channel signal for the other channel
If the signal is shifted one sample time, only two
Cross-correlation in each case of shifting ...
To find the cross-correlation function. Find a large number of these cross-correlations,
Create a histogram that normalizes these with power
(S04). Next, the cumulative frequency ranking of the histogram
Time difference Δα to take second place and second place respectively 1, ΔαTwoAsk for
(S05). These time differences Δα1, ΔαTwoIs given by
Time difference between channels Δτ1, ΔτTwoConversion to
And output (S06).

【0015】 Δτ1 =1000×Δα1 /F (1) Δτ2 =1000×Δα2 /F (2) ただしFはサンプリング周波数であり、1000倍にす
るのは演算の便宜上値をある程度大きくするためであ
る。時間差Δτ1 ,Δτ2 は、音源A,Bそれぞれの信
号のLチャネル信号とRチャネル信号のチャネル間時間
差である。
Δτ 1 = 1000 × Δα 1 / F (1) Δτ 2 = 1000 × Δα 2 / F (2) where F is a sampling frequency, and setting it to 1000 times is to increase the value to some extent for the sake of computational convenience. It is. The time differences Δτ 1 and Δτ 2 are the time differences between the channels of the L channel signal and the R channel signal of the signals of the sound sources A and B, respectively.

【0016】図2、3の説明に戻って帯域分割部4はL
チャネル信号とRチャネル信号をそれぞれ各周波数帯域
の信号L(f1),L(f2),…,(fn)と、信号
R(f1),R(f2),…,(fn)に分割する(S
04)。この分割は例えば各チャネル信号をそれぞれ離
散的フーリエ変換して周波数領域信号に変換した後、各
周波数帯域に分割することにより行う。この帯域分割
は、音源A,Bの各信号の周波数特性の差から各帯域に
おいて、一方の音源の信号成分のみが主として存在する
程度、音声信号の場合は、例えば20Hz帯域幅で分割
する。音源Aのパワースペクトルが例えば図5Aに示す
ように得られ、音源Bのパワースペクトルが図5Bに示
すように得られ、この各スペクトルが分離できる程度の
帯域幅Δfで分割する。この時、例えば破線で対応する
スペクトルを示すように、一方の音源のスペクトルに対
し他方の音源のスペクトルは無視できる。またこの図5
A、5Bから理解されるように帯域幅2Δfで分離して
もよい。つまり、各帯域に1本のスペクトルのみが含ま
れるようにしなくてもよい。なお、離散的フーリエ変換
は例えば20〜40msごとに行う。
Returning to the description of FIGS.
The channel signal and the R channel signal are divided into signals L (f1), L (f2),..., (Fn) and signals R (f1), R (f2),. S
04). This division is performed, for example, by discretely Fourier-transforming each channel signal into a frequency-domain signal, and then dividing it into frequency bands. In this band division, in the case of an audio signal, for example, a 20 Hz bandwidth is used so that only the signal component of one of the sound sources mainly exists in each band from the difference in the frequency characteristics of the signals of the sound sources A and B. The power spectrum of the sound source A is obtained, for example, as shown in FIG. 5A, and the power spectrum of the sound source B is obtained as shown in FIG. 5B, and each of the spectra is divided by a bandwidth Δf that can be separated. At this time, the spectrum of one sound source can be neglected with respect to the spectrum of the other sound source, for example, as shown by the corresponding spectrum with a broken line. FIG. 5
As may be understood from A and 5B, they may be separated by a bandwidth 2Δf. That is, it is not necessary to include only one spectrum in each band. The discrete Fourier transform is performed, for example, every 20 to 40 ms.

【0017】次に、帯域別チャネル間時間差/レベル差
検出部5は、例えばL(f1)とR(f1),…L(f
n)とR(fn)といった各対応する帯域信号のチャネ
ル間について、帯域別チャネル間時間差またはレベル差
を検出する(S05)。ここで、帯域別チャネル間時間
差は、チャネル間時間差検出部3で検出したチャネル間
時間差Δτ1 ,Δτ2 を利用することにより一意的に検
出される。この検出に用いる式は以下のとおりである。
Next, for example, L (f1), R (f1),... L (f)
A time difference or a level difference between channels for each band is detected between the channels of the corresponding band signals such as n) and R (fn) (S05). Here, the inter-channel time difference for each band is uniquely detected by using the inter-channel time differences Δτ 1 and Δτ 2 detected by the inter-channel time difference detection unit 3. The equation used for this detection is as follows.

【0018】 Δτ1 −{(Δφi/(2πfi)+(ki1/fi)}=εi 1 (3) Δτ2 −{(Δφi/(2πfi)+(ki2/fi)}=εi 2 (4) i=1,2,…,n、Δφiは信号L(fi)と信号R
(fi)の位相差である。これら式でεi 1,εi 2が
最小になるように整数ki1,ki2を決める。次に、
その最小値のεi 1とεi 2とを比べて小さい方のチャ
ネル時間差Δτ j (j=1,2)を、その帯域iのチャ
ネル間時間差Δτijとする。つまり一方の音源信号のそ
の帯域でのチャネル間時間差とする。
Δτ1− {(Δφi / (2πfi) + (ki1 / fi)} = εi1 (3) ΔτTwo− {(Δφi / (2πfi) + (ki2 / fi)} = εi2 (4) i = 1, 2,..., N, Δφi are the signal L (fi) and the signal R
(Fi) is the phase difference. In these equations, εi1, εi2
The integers ki1 and ki2 are determined so as to be minimum. next,
Its minimum εi1 and εiCha that is smaller than 2
Flannel time difference Δτ j(J = 1, 2) is replaced by the channel i
Time difference between tunnels ΔτijAnd That is, one of the sound source signals
Is the time difference between channels in the band.

【0019】音源判定信号選別部6は、帯域別チャネル
間時間差/レベル差検出部5で検出された帯域別チャネ
ル間時間差Δτ1j〜τnjを用いて各帯域信号L(f1)
〜L(fn)とR(f1)〜R(fn)との各対応する
ものについて何れを選択するか判定を音声信号判定部6
01で行う(S06)。例えば、チャネル間時間差/レ
ベル差検出部3で算出された時間差Δτ1 ,Δτ2 のう
ち、Δτ1 が、L側のマイクロホンに近い、音源Aから
の信号のチャネル間時間差であり、Δτ2 が、R側のマ
イクロホンに近い、音源Bからの信号のチャネル間時間
差である場合で説明する。
The sound source determination signal selection section 6 uses the band-to-channel time differences Δτ 1j to τ nj detected by the band-to-channel time difference / level difference detection section 5 to generate each band signal L (f1).
To L (fn) and R (f1) to R (fn) to determine which one to select, the audio signal determination unit 6
01 (S06). For example, of the time differences Δτ 1 and Δτ 2 calculated by the inter-channel time difference / level difference detection unit 3, Δτ 1 is the inter-channel time difference of the signal from the sound source A close to the L-side microphone, and Δτ 2 is , And the time difference between channels of the signal from the sound source B, which is close to the microphone on the R side.

【0020】この場合、帯域別チャネル間時間差/レベ
ル差検出部5で算出された時間差ΔτijがΔτ1 である
帯域iは、音声信号判定部601によりゲート602L
iが開とされてL側の入力信号L(fi)がそのままS
A(fi)として出力され、R側の帯域iの入力信号R
(fi)は音声信号判定部601によりゲート602R
が閉とされてSB(fi)は0として出力される。時間
差ΔτijがΔτ2 となる帯域iは、逆に、L側は信号L
(fi)はSA(fi)=0として出力され、R側は入
力信号R(fi)がそのままSB(fi)として出力さ
れる。つまり図1に示すように帯域信号L(f1)〜L
(fn)はそれぞれゲート602L1〜602Lnを通
じて音源信号合成部7Aへ供給され、帯域信号R(f
1)〜R(fn)はそれぞれゲート602R1〜602
Rnを通じて音源信号合成部7へ供給される。音源判定
信号選別部6内の音声信号判定部601ではΔτ1j〜Δ
τnjが入力され、ΔτijがΔτ1 と判定された帯域iに
ついてはゲート制御信号CLi=1とCRi=0が生成
され、対応するゲート602Liが開、602Riが閉
にそれぞれ制御され、ΔτijがΔτ2 と判定された帯域
iについてはゲート制御信号CLi=0と、CRi=1
が生成され、対応するゲート602Liが閉、602R
iが開にそれぞれ制御される。以上の説明は機能構成で
あって、実際には例えばデジタルシグナルプロセッサに
より処理される。
In this case, the band i in which the time difference Δτ ij calculated by the band-by-band channel time difference / level difference detection unit 5 is Δτ 1 is determined by the audio signal determination unit 601 by the gate 602L.
i is opened and the input signal L (fi) on the L side remains at S
A (fi), and the input signal R of the band i on the R side
(Fi) indicates that the audio signal determination unit 601 uses the gate 602R.
Is closed, and SB (fi) is output as 0. The band i in which the time difference Δτ ij becomes Δτ 2 is, on the contrary, the signal L on the L side.
(Fi) is output as SA (fi) = 0, and on the R side, the input signal R (fi) is output as it is as SB (fi). That is, as shown in FIG. 1, the band signals L (f1) to L (f1) to L
(Fn) are supplied to the sound source signal synthesis unit 7A through the gates 602L1 to 602Ln, respectively, and the band signal R (f
1) to R (fn) are gates 602R1 to 602, respectively.
The signal is supplied to the sound source signal synthesis unit 7 through Rn. In the sound signal determination section 601 in the sound source determination signal selection section 6, Δτ 1j
For the band i for which τ nj is input and Δτ ij is determined to be Δτ 1 , gate control signals CLi = 1 and CRi = 0 are generated, and the corresponding gate 602Li is controlled to be open and 602Ri is controlled to be closed, and Δτ ij is controlled. Is determined to be Δτ 2 , the gate control signal CLi = 0 and CRi = 1
Is generated and the corresponding gate 602Li is closed, 602R
i is respectively controlled to be open. The above description is a functional configuration, and is actually processed by, for example, a digital signal processor.

【0021】音源信号合成部7Aで信号SA(fi)〜
SA(fn)が合成され、前記帯域分割の例ではそれぞ
れ逆フーリエ変換され、信号SAとして出力端子tA
出力され、また音源信号合成部7Bで信号SB(fi)
〜SB(fn)が同様に合成されて信号SBとして出力
端子tB に出力される。以上の説明で明らかなように、
この発明装置においては、各チャネル信号の細かく帯域
分割した、各帯域成分がそれぞれどの音源からのもので
あるかを判定し、判定された成分は全て出力する、すな
わち、音源A,Bの信号の周波数成分が互いに重なって
いなければ、特定の周波数帯域を欠落させることなく処
理を行うため、調波構造のみ抜き出す従来の方法に比べ
て音質を高く保ったまま音源A,Bの各信号を分離する
ことが可能である。
The signals SA (fi) to
SA (fn) are combined, the band in the example of the division is the inverse Fourier transform respectively, is output to the output terminal t A as a signal SA, and the signal SB by the sound source signal synthesizer 7B (fi)
To SB (fn) is output to the output terminal t B as similarly synthesized by the signal SB. As is clear from the above explanation,
In the apparatus of the present invention, it is determined from which sound source each band component is obtained by finely band-dividing each channel signal, and all the determined components are output, that is, the signals of the sound sources A and B are output. If the frequency components do not overlap each other, processing is performed without dropping a specific frequency band, so that the signals of the sound sources A and B are separated while maintaining high sound quality as compared with the conventional method of extracting only the harmonic structure. It is possible.

【0022】以上の説明は、チャネル間時間差/レベル
差検出部3及び帯域別チャネル間時間差/レベル差検出
部5で検出した、チャネル間時間差と、帯域別チャネル
間時間差のみを利用して、音源判定信号部601で判定
条件を決定した。次にこの判定条件の決定をチャネル間
のレベル差を用いて処理する実施例を説明する。この実
施例は図6に示すようにマイクロホン1,2からLチャ
ネル信号とRチャネル信号を取込み(S02)、これら
Lチャネル信号とRチャネル信号のチャネル間レベル差
ΔLをチャネル間時間差/レベル差検出部3(図2)で
検出する(S03)。図3中のステップS04と同様
に、Lチャネル信号、Rチャネル信号をそれぞれn個の
帯域別チャネル信号L(f1)〜L(fn),R(f
1)〜R(fn)に分割し(S04)、帯域別チャネル
信号L(f1)〜L(fn)とR(f1)〜R(fn)
との対応帯域、つまりL(f1)とR(f1),L(f
2)とR(f2),…,L(fn)とR(fn)につい
て帯域別チャネル間レベル差ΔL1,ΔL2,…,ΔL
nを検出する(S05)。
In the above description, the sound source is generated using only the inter-channel time difference and the inter-channel time difference detected by the inter-channel time difference / level difference detection unit 3 and the inter-channel time difference / level difference detection unit 5. The determination condition is determined by the determination signal unit 601. Next, an embodiment in which the determination of the determination condition is processed using the level difference between the channels will be described. In this embodiment, as shown in FIG. 6, an L channel signal and an R channel signal are fetched from the microphones 1 and 2 (S02), and a level difference ΔL between the L channel signal and the R channel signal is detected by a time difference / level difference between channels. The detection is performed by the unit 3 (FIG. 2) (S03). As in step S04 in FIG. 3, the L channel signal and the R channel signal are respectively divided into n band-specific channel signals L (f1) to L (fn), R (f).
1) to R (fn) (S04), and band-specific channel signals L (f1) to L (fn) and R (f1) to R (fn).
, That is, L (f1) and R (f1), L (f
2) and R (f2),..., L (fn) and R (fn), the level difference between channels ΔL1, ΔL2,.
n is detected (S05).

【0023】人間の音声は、20ms〜40ms程度の
間は定常状態とみなすことが出来る。そのため、音声信
号判定部601(図2)においては、20ms〜40m
s毎に、チャネル間レベル差ΔLの対数を取った値の符
号と、帯域別チャネル間レベル差ΔLiの対数を取った
値の符号とが、全帯域のうち何割以上の帯域で、同じ符
号(+又は−)になるのかを算出し、所定値、例えば8
割以上の帯域で両者が同じ符号を持てば(S06,S0
7)、そこから20ms〜40msの間はチャネル間レ
ベル差ΔLのみで判定し(S08)、同じ符号を持つの
が8割以下の帯域であれば、そこから20ms〜40m
sの間は帯域毎に、帯域別チャネル間レベル差ΔLiを
用いて判定する(S09)。判定の仕方は、全帯域をチ
ャネル間レベル差ΔLで判定する場合は、ΔLが正であ
れば、Lチャネル信号L(t)がそのまま信号SAとし
て出力され、Rチャネル信号R(t)は信号SB=0と
して出力される。ΔLが0以下であれば逆に、Lチャネ
ル信号L(t)は信号SA=0として出力され、Rチャ
ネル信号R(t)がそのまま信号SBとして出力され
る。ただし、これは、チャネル間レベル差としてL側か
らR側を引いた値を用いた場合の説明である。また、帯
域別チャネル間レベル差ΔLiを用いて帯域毎に判定す
る場合は、各帯域fiごとに帯域別チャネル間レベル差
ΔLiが正であれば、L側分割信号L(fi)がそのま
ま信号SA(fi)として出力され、R側分割信号R
(fi)は信号SB(fi)=0として出力される。レ
ベル差ΔLiが0以下であれば逆に、L側は分割信号L
(fi)は信号SA(fi)=0として出力され、R側
は分割信号R(fi)が信号SB(fi)として出力さ
れる。以上のようにして音声信号判定部601からゲー
ト制御信号CL1〜CLn,CR1〜CRnが出力さ
れ、ゲート602L1〜602Ln,602R1〜60
2Rnがそれぞれ制御される。これも、前者と同様、帯
域別チャネル間レベル差として、L側からR側を引いた
値を用いた場合の説明である。信号SA(f1)〜SA
(fn)、信号SB(f1)〜SB(fn)は先の実施
例と同様にそれぞれ合成された信号SA,SBとして出
力端子tA ,tB にそれぞれ出力される(S10)。
A human voice can be regarded as a steady state for about 20 ms to 40 ms. Therefore, in the audio signal determination unit 601 (FIG. 2), 20 ms to 40 m
For each s, the sign of the value obtained by taking the logarithm of the inter-channel level difference ΔL and the sign of the value obtained by taking the logarithm of the inter-channel level difference ΔLi are the same sign in more than a few percent of the entire band. (+ Or-) is calculated, and a predetermined value, for example, 8
If both have the same code in a band equal to or greater than a certain percentage (S06, S0
7) From 20 ms to 40 ms therefrom, it is determined only by the level difference ΔL between the channels (S08), and if the band having the same code is 80% or less, 20 ms to 40 m from there.
During s, determination is made for each band using the band-based channel level difference ΔLi (S09). When the entire band is determined by the level difference ΔL between channels, if ΔL is positive, the L channel signal L (t) is output as it is as the signal SA, and the R channel signal R (t) is It is output as SB = 0. If ΔL is equal to or less than 0, the L-channel signal L (t) is output as the signal SA = 0, and the R-channel signal R (t) is output as the signal SB as it is. However, this is an explanation in the case where a value obtained by subtracting the R side from the L side is used as the level difference between channels. Further, when the determination is made for each band using the level difference ΔLi between the bands, if the level difference ΔLi between the channels is positive for each band fi, the L-side divided signal L (fi) is directly used as the signal SA. (Fi) and the R-side divided signal R
(Fi) is output as the signal SB (fi) = 0. On the other hand, if the level difference ΔLi is 0 or less, the L side
(Fi) is output as a signal SA (fi) = 0, and on the R side, a divided signal R (fi) is output as a signal SB (fi). As described above, the gate control signals CL1 to CLn and CR1 to CRn are output from the audio signal determination unit 601 and the gates 602L1 to 602Ln, 602R1 to 60
2Rn are respectively controlled. This is also a case where a value obtained by subtracting the R side from the L side is used as the level difference between channels for each band, as in the former case. Signals SA (f1) to SA
(Fn), the signal SB (f1) ~SB (fn) signals are respectively similar to the previous embodiments the synthetic SA, an output terminal t A as SB, are output to t B (S10).

【0024】前記実施例では、音声信号判定部601で
用いる判定条件として、到達時間差とレベル差のうちど
ちらかの片方のみを利用する。しかし、レベル差のみを
利用した場合、低域の周波数帯域ではL(fi)とR
(fi)とのレベルが拮抗する場合があり、その場合は
レベル差を正確に求めることが困難になる。また、時間
差のみを利用した場合は、高い周波数帯域においては、
位相の回転が起こるため時間差を正しく算出することが
困難な場合がある。これらの点から、低域の周波数帯域
では時間差を、高域ではレベル差を判定に用いた方が、
全帯域に渡り単一のパラメータを用いるよりも有利であ
る場合がある。
In the above embodiment, only one of the arrival time difference and the level difference is used as the judgment condition used in the audio signal judgment unit 601. However, if only the level difference is used, L (fi) and R
In some cases, the level with (fi) may antagonize, in which case it is difficult to accurately determine the level difference. Also, when only the time difference is used, in a high frequency band,
In some cases, it is difficult to calculate the time difference correctly due to the rotation of the phase. From these points, it is better to use the time difference for the low frequency band and the level difference for the high frequency band,
It may be advantageous to use a single parameter over the entire band.

【0025】そこで、音声信号判定部601で帯域別チ
ャネル間時間差と帯域別チャネル間レベル差を共に用い
る実施例を図7以下の図面を参照して説明する。この実
施例の機能構成のブロックとしては図2と同一である
が、チャネル間時間差/レベル差検出部分3、帯域別チ
ャネル間時間差/レベル差検出部5と音声信号判定部6
01での処理が以下のように異なる。チャネル間時間差
/レベル差検出部3は、検出された時間差Δτ1 ,Δτ
2 の各絶対値の平均、又はΔτ1 ,Δτ2 が比較的近い
値であれば、その一方のみなど、一つの時間差Δτを出
力する。なおチャネル間時間差Δτ1 ,Δτ2 ,Δτを
チャネル信号L(t),R(t)を周波数軸上で帯域分
割する前に算出したが、帯域分割した後に算出すること
も可能である。
An embodiment in which the audio signal determination section 601 uses both the time difference between channels for each band and the level difference between channels for each band will be described with reference to FIGS. The blocks of the functional configuration of this embodiment are the same as those shown in FIG. 2, but an inter-channel time difference / level difference detecting section 3, an inter-channel time difference / level difference detecting section 5, and an audio signal judging section 6 are provided.
01 differs as follows. The inter-channel time difference / level difference detector 3 detects the detected time differences Δτ 1 , Δτ
If the average of the absolute values of 2 or Δτ 1 and Δτ 2 are relatively close values, one time difference Δτ is output, such as only one of them. Although the inter-channel time differences Δτ 1 , Δτ 2 , and Δτ have been calculated before band division of the channel signals L (t) and R (t) on the frequency axis, they may be calculated after band division.

【0026】図6に示すように、Lチャネル信号L
(t)、Rチャネル信号R(t)をフレーム(例えば2
0〜40ms)毎に読み込み(S02)、帯域分割部4
でLチャネル信号、Rチャネル信号をそれぞれ複数の周
波数帯域に分割する。この例ではLチャネル信号L
(t)、Rチャネル信号R(t)にそれぞれハニング窓
をかけ(S03)、それぞれフーリエ変換を施して分割
された信号L(f1)〜L(fn)、R(f1)〜R
(fn)を得る(S04)。次に、帯域別チャネル間時
間差/レベル差検出部5では分割された信号の周波数f
iが1/(2Δτ)(Δτはチャネル時間差)以下の帯
域(以下、低域と呼ぶ)であるかを調べ(S05)、以
下であれば帯域別チャネル間位相差Δφiを出力し(S
08)、分割された信号の周波数fが1/(2Δτ)よ
り大きく1/Δτ未満の帯域(以下、中域と呼ぶ)であ
るかがチェックされ(S06)、この中域であれば帯域
別チャネル間位相差Δφi及びレベル差ΔLiを出力し
(S09)、分割された信号の周波数fが1/Δτ以上
の帯域(以下、高域と呼ぶ)かがチェックされ(S0
7)、高域であれば帯域別チャネル間レベル差ΔLiを
出力する(S10)。
As shown in FIG. 6, the L channel signal L
(T), the R channel signal R (t) is converted to a frame (for example, 2
0 to 40 ms) (S02), and the band dividing unit 4
Divides the L channel signal and the R channel signal into a plurality of frequency bands, respectively. In this example, the L channel signal L
(T), a Hanning window is applied to each of the R channel signals R (t) (S03), and the signals L (f1) to L (fn) and R (f1) to R divided by applying the Fourier transform are respectively applied.
(Fn) is obtained (S04). Next, the band-by-band time difference between channels / level difference detector 5 detects the frequency f of the divided signal.
It is checked whether or not i is a band (hereinafter, referred to as a low band) equal to or less than 1 / (2Δτ) (Δτ is a channel time difference) (S05), and if it is, a phase difference Δφi between bands is output (S05).
08), it is checked whether or not the frequency f of the divided signal is a band larger than 1 / (2Δτ) and smaller than 1 / Δτ (hereinafter referred to as a middle band) (S06). The inter-channel phase difference Δφi and the level difference ΔLi are output (S09), and it is checked whether the frequency f of the divided signal is equal to or more than 1 / Δτ (hereinafter, referred to as high band) (S0).
7) If the frequency is in the high frequency range, the inter-channel level difference ΔLi is output (S10).

【0027】音声信号判定部601は、帯域別チャネル
間時間差/レベル差検出部5で検出された帯域別チャネ
ル間位相差、レベル差を用いてL(f1)〜L(f
n)、R(f1)〜R(fn)それぞれについて何れを
出力するかの判定を行う。なお、位相差Δφi、レベル
差ΔLについては、この例では共にL側からR側の値を
引いて算出した値を用いる。
The audio signal determination unit 601 uses L (f1) to L (f) using the band-to-channel phase difference and level difference detected by the band-to-channel time difference / level difference detection unit 5.
n), and which of R (f1) to R (fn) is output is determined. In this example, values calculated by subtracting the value on the R side from the L side are used for the phase difference Δφi and the level difference ΔL.

【0028】低域と判定された信号L(fi),R(f
i)については図8に示すようにまず位相差Δφiがπ
以上かを調べ(S15)、π以上であればΔφiから2
πを減算した値をΔφiとし(S17)、ステップS1
5でΔφiがπ以上でなければ、−π以下かを調べ(S
16)、以下であればΔφiに2πを加算した値をΔφ
iとし(S18)、ステップS16で−π以下でなけれ
ばΔφiをそのまま用いる(S19)。ステップS1
7,S18,S19で求めた帯域別チャネル間位相差Δ
φiを時間差Δσiに次式で変換する(S20)。
The signals L (fi) and R (f
Regarding i), first, as shown in FIG.
It is checked whether it is the above (S15).
The value obtained by subtracting π is set to Δφi (S17), and step S1
If Δφi is not equal to or more than π in 5, it is checked whether it is equal to or less than −π (S
16), the value obtained by adding 2π to Δφi is Δφ
i (S18), and if it is not less than -π in step S16, Δφi is used as it is (S19). Step S1
7, phase difference Δ between channels obtained in band obtained in S18, S19
φi is converted into a time difference Δσi by the following equation (S20).

【0029】 Δσi=1000・Δφi/2πfi (5) 分割された信号L(fi),R(fi)が中域と判定さ
れた場合は図9に示すように帯域別チャネル間レベル差
ΔL(fi)を利用して、位相差Δφiを一意に決定す
る。即ちΔL(fi)が正かを調べ(S23)、正であ
れば、その帯域別チャネル間位相差Δφiが正であるか
を調べ(S24)、正であればそのΔφiをそのまま出
力し(S26)、ステップS24で正でなければΔφi
に2πを加算した値をΔφiとして出力する(S2
7)。ステップS23でΔL(fi)が正でなければ、
その帯域別チャネル間位相差Δφiが負であるかを調べ
(S25)、負であれば、そのΔφiをそのままΔφi
として出力し(S28)、ステップS25で負でなけれ
ばΔφiから2πを減算した値をΔφiとして出力する
(S29)。これらステップS26〜S29の何れかの
Δφiが次式によりその帯域別チャネル間時間差Δσi
として演算される(S30)。
Δσi = 1000 · Δφi / 2πfi (5) When the divided signals L (fi) and R (fi) are determined to be in the middle band, as shown in FIG. ) Is used to uniquely determine the phase difference Δφi. That is, it is checked whether ΔL (fi) is positive (S23). If positive, it is checked whether the phase difference Δφi for each band is positive (S24). If positive, the Δφi is output as it is (S26). ), Δφi if not positive in step S24
Is output as Δφi (S2
7). If ΔL (fi) is not positive in step S23,
It is checked whether the band-by-band phase difference Δφi is negative (S25). If negative, the Δφi is directly used as Δφi
(S28), and a value obtained by subtracting 2π from Δφi is output as Δφi unless it is negative in step S25 (S29). Any of these Δφi in steps S26 to S29 is represented by
Is calculated (S30).

【0030】 Δσi=1000・Δφi/2πfi (6) 以上のようにして低域、中域における帯域別チャネル間
時間差Δσiと、高域における帯域別チャネル間レベル
差ΔL(fi)が得られ、これらに応じて音源信号の判
別が次のようになされる。図10に示すように低域と中
域においては位相差Δφiを、高域においてはレベル差
ΔLiを利用して両チャネルの各周波数成分を該当する
どちらかの音源の信号として判別する。具体的には、低
域と中域においては図8、9でそれぞれ求められた帯域
別チャネル間時間差Δσiが正であるかを調べ(S3
4)、正であれば、その帯域iのL側チャネル信号L
(fi)を信号SA(fi)として出力し、R側帯域チ
ャネル信号R(fi)を0の信号SB(fi)として出
力する(S36)。ステップS34で帯域別チャネル時
間差Δσiが正でない場合は逆にSA(fi)として0
を出力し、SB(fi)としてR側チャネル信号R(f
i)を出力する(S37)。
Δσi = 1000 · Δφi / 2πfi (6) As described above, the inter-channel time difference Δσi in the low band and the middle band and the inter-channel level difference ΔL (fi) in the high band are obtained. Is determined in the following manner. As shown in FIG. 10, using the phase difference Δφi in the low band and the middle band, and using the level difference ΔLi in the high band, each frequency component of both channels is determined as a signal of one of the corresponding sound sources. Specifically, it is checked whether or not the band-by-band channel time difference Δσi obtained in FIGS. 8 and 9 is positive in the low band and the middle band (S3).
4) If positive, the L-side channel signal L of the band i
(Fi) is output as a signal SA (fi), and the R-side band channel signal R (fi) is output as a signal SB (fi) of 0 (S36). If the band-based channel time difference Δσi is not positive in step S34, on the contrary, SA (fi) is set to 0.
And outputs the R-side channel signal R (f) as SB (fi).
i) is output (S37).

【0031】また、高域においては、図7中のステップ
S10で検出した帯域別チャネル間レベル差ΔL(f
i)が正であるかを調べ(S35)、正であれば信号S
A(fi)としてL側チャネル信号L(fi)を出力
し、SB(fi)として0を出力する(S38)。ステ
ップS35でレベル差ΔLiが正でなければSA(f
i)として0を出力し、SB(fi)としてR側帯域チ
ャネル信号R(fi)を出力する(S39)。
In the high frequency range, the channel-to-channel level difference ΔL (f) detected in step S10 in FIG.
It is checked whether i) is positive (S35).
The L-side channel signal L (fi) is output as A (fi), and 0 is output as SB (fi) (S38). If the level difference ΔLi is not positive in step S35, SA (f
It outputs 0 as i) and outputs the R-side band channel signal R (fi) as SB (fi) (S39).

【0032】以上のようにして各帯域についてL側又は
R側が出力され、音源信号合成部7A,7Bでそれぞれ
判別した各周波数成分を全帯域に渡り加算し(S4
0)、かつ、加算した各信号を逆フーリエ変換し(S4
1)、その変換した信号SA,SBを出力する(S4
2)。以上説明したように、この実施例においては、周
波数帯域毎に音源分離に有利なパラメータを用いること
により、全帯域に渡り単一のパラメータを用いる場合に
比べてより分離性能の高い音源分離を実現することが可
能である。
As described above, the L side or the R side is output for each band, and the frequency components determined by the sound source signal combining units 7A and 7B are added over the entire band (S4).
0) and inversely Fourier-transform each added signal (S4
1) Output the converted signals SA and SB (S4)
2). As described above, in this embodiment, by using parameters that are advantageous for sound source separation for each frequency band, sound source separation with higher separation performance is realized as compared with the case where a single parameter is used over the entire band. It is possible to

【0033】この発明は音源の数が3個以上でも適用で
きる。例として、音源数が3、マイクロホン数が2であ
る場合でマイクロホンへの到達時間差を利用して音源分
離する場合を説明する。この場合、チャネル間時間差/
レベル差検出部3で各音源についてLチャネル信号、R
チャネル信号のチャネル間時間差を算出する際に、図4
に示したように相互相関のパワーで正規化したヒストグ
ラムの、累積度数(ピーク値)第一位から第三位までを
とる各時点を求めることによって各音源信号についての
チャネル間時間差Δτ1 ,Δτ2 ,Δτ 3 を算出する。
そして、帯域別チャネル間時間差/レベル差検出部5に
おいても、各帯域の帯域別チャネル間時間差をΔτ1
らΔτ3 のどれかに決定する。この決定の仕方は、前記
実施例で述べた計算式(3),(4)と同様である。音
声信号判定部601では、例として、Δτ1 >0、Δτ
2 >0、Δτ3 <0である場合で説明する。ここで、Δ
τ1 ,Δτ2 ,Δτ3 はそれぞれ、音源A,B,C各信
号のチャネル間時間差と仮定し、さらに、これらの値は
L側からR側の値を引いて算出した値と仮定する。この
場合、音源AはL側のマイクロホン1に近く、音源Bは
R側のマイクロホン2の近くにある。よって、Lチャネ
ルの信号から、帯域別チャネル間時間差がΔτ1 となる
帯域の信号を加算して音源Aの信号を、またΔτ2 とな
る帯域を加算して、音源Bの信号をそれぞれ分離するこ
とが可能である。また、Rチャネル信号から、帯域別チ
ャネル間時間差がΔτ3 となる帯域の信号を加算して出
力することにより、音源Cの信号を分離する。
The present invention is applicable even when the number of sound sources is three or more.
Wear. For example, if the number of sound sources is 3 and the number of microphones is 2,
Source time difference using the arrival time difference to the microphone
The case of separation will be described. In this case, the time difference between channels /
In the level difference detection unit 3, L channel signal, R
When calculating the time difference between channels of the channel signal, FIG.
Histogram normalized by cross-correlation power as shown in
The ram's cumulative frequency (peak value)
By determining each time point taken,
Time difference between channels Δτ1, ΔτTwo, Δτ ThreeIs calculated.
Then, the band-by-band time difference between channels / level difference detection unit 5
In addition, the time difference between channels in each band is Δτ1Or
ΔτThreeDecide on one of How to determine this
This is the same as the calculation formulas (3) and (4) described in the embodiment. sound
In the voice signal determination unit 601, for example, Δτ1> 0, Δτ
Two> 0, ΔτThreeThe case where <0 is described. Where Δ
τ1, ΔτTwo, ΔτThreeAre the signals of sound sources A, B, and C, respectively.
Signal time difference between channels, and furthermore, these values are
It is assumed that the value is calculated by subtracting the value on the R side from the L side. this
In this case, the sound source A is close to the microphone 1 on the L side, and the sound source B is
It is near the microphone 2 on the R side. Therefore, L channel
Time difference between channels for each band is Δτ1Becomes
The signals of the sound source A are added by adding the signals of the bands, and ΔτTwoTona
And separate the signals of sound source B from each other.
And it is possible. Also, from the R channel signal,
The time difference between channels is ΔτThreeSignal of the band
By applying the force, the signal of the sound source C is separated.

【0034】上述の音源分離において、発話者215
と、スピーカ211とが固定されている場合は、発話者
215(又はスピーカ211)からの音響信号がマイク
ロホン1と2と到達する時間差Δτ1 (又はΔτ2 )は
一定であり、予め知ることができ、同様チャネル間レベ
ル差ΔLは予め知ることができる。従って、図3中のス
テップS03のチャネル間時間差Δτ1 、Δτ2 の検出
や図6中のステップS03のチャネル間レベル差ΔLの
検出は省略することができ、図2中のチャネル間時間差
/レベル差検出部3を省略できる。また帶域別チャネル
間レベル差ΔL(fi)を利用する場合は、図6におい
て、ステップS03,S06,S07,S08を省略し
て、常に各分割帯域ごとに帯域別チャネル間レベル差を
用いて音源分離をしてもよい。つまりチャネル間レベル
差は検出しなくてもよい。ただ図6に示すような処理を
行えばp/n≧0.8が成立する場合は、処理が簡単に
なる。
In the above sound source separation, the speaker 215
And the speaker 211 are fixed, the time difference Δτ 1 (or Δτ 2 ) at which the sound signal from the speaker 215 (or the speaker 211) reaches the microphones 1 and 2 is constant, and it is known in advance. And the inter-channel level difference ΔL can be known in advance. Therefore, the detection of the inter-channel time differences Δτ 1 and Δτ 2 in step S03 in FIG. 3 and the detection of the inter-channel level difference ΔL in step S03 in FIG. 6 can be omitted, and the inter-channel time difference / level in FIG. The difference detector 3 can be omitted. In the case of using the band-based channel level difference ΔL (fi), in FIG. 6, steps S03, S06, S07, and S08 are omitted, and the band-based channel level difference is always used for each divided band. Sound source separation may be performed. That is, the level difference between the channels need not be detected. However, if p / n ≧ 0.8 is satisfied by performing the processing shown in FIG. 6, the processing is simplified.

【0035】上述では音源信号を分離し、分離された各
音源信号SA,SBを各別に出力した。しかし、例えば
一方の音源Aは発話者による音声であり、他方の音源B
は騒音のような場合、騒音と混合された音源Aの信号音
を分離抽出し、騒音を抑圧するためにもこの発明を適用
することができる。一方の音源A、例えば発話者が他方
の音源B、つまりスピーカより周波数帯域が広い場合で
その各周波数帯域が予め知られている場合は、図11に
示すように図2において帯域分離部11において、両音
源信号の重なっていない周波数帯域を分離する。例えば
音源Aの信号A(t)の周波数帯域はf1〜fnである
が音源Bの信号B(t)の周波数帯域はf1〜fn(f
n>fm)の場合、重なっていない帯域fm+1〜fn
の信号をマイクロホン1,2の出力から分離し、この帯
域fm+1〜fnの信号については、音声信号判定部6
01の判定処理、場合によっては帯域別チャネル間時間
差/レベル差検出部5の処理を行わず、音声信号判定部
601は、音源Bの信号として選出するチャネル信号S
B(t)として選出するRの分割された帯域チャネル信
号R(fm+1)〜R(fn)をそれぞれSB(fm+
1)〜SB(fn)として出力し、SA(fm+1)〜
SA(fn)は0を出力させるように音声信号選択部6
02を制御する。即ちゲート602Lm+1〜602L
nは常閉とし、ゲート602Rm+1〜602Rnは常
開とする。
In the above description, the sound source signals are separated, and the separated sound source signals SA and SB are separately output. However, for example, one sound source A is a voice by a speaker and the other sound source B
In the case of a noise, the present invention can also be applied to separate and extract the signal sound of the sound source A mixed with the noise and suppress the noise. When one sound source A, for example, the speaker has a wider frequency band than the other sound source B, that is, the speaker, and the respective frequency bands are known in advance, as shown in FIG. In addition, a frequency band in which both sound source signals do not overlap is separated. For example, the frequency band of the signal A (t) of the sound source A is f1 to fn, while the frequency band of the signal B (t) of the sound source B is f1 to fn (f
n> fm), non-overlapping bands fm + 1 to fn
Are separated from the outputs of the microphones 1 and 2, and the signals of the bands fm + 1 to fn are separated by the audio signal determination unit 6.
01, and in some cases, the processing of the band-by-band time difference / level difference detection unit 5 is not performed, and the audio signal determination unit 601 selects the channel signal S selected as the signal of the sound source B.
The divided band channel signals R (fm + 1) to R (fn) of R to be selected as B (t) are respectively expressed as SB (fm +
1) to SB (fn) and output as SA (fm + 1) to
SA (fn) outputs the audio signal selecting unit 6 so that 0 is output.
02 is controlled. That is, the gate 602Lm + 1 to 602L
n is normally closed, and gates 602Rm + 1 to 602Rn are normally open.

【0036】上述では各帯域別チャネル間時間差Δσ
i、正か負かにより、また各帯域別チャネル間レベル差
ΔLiが正か負かにより、つまり、いずれも0をしきい
値として、その帯域信号が何れのマイクロホンに近いか
を判別した。これはマイクロホン1として結ぶ線の2等
分線に対して音源Aと音源Bと左右対称に位置している
場合である。この関係にない場合は判別しきい値を以下
のように決めればよい。
In the above description, the time difference between channels Δσ for each band
i, positive or negative, and whether the level difference ΔLi between the respective channels is positive or negative, that is, 0 is set as the threshold value, and it is determined which microphone is close to the band signal. This is a case where the sound source A and the sound source B are located symmetrically with respect to the bisector of the line connected as the microphone 1. If not, the determination threshold value may be determined as follows.

【0037】音源Aの信号がマイクロホン1、マイクロ
ホン2に到達する帯域別チャネル間レベル差をΔLA
到達する帯域別チャネル間時間差をΔτA 、音源Bの信
号がマイクロホン1、マイクロホン2に到達する帯域別
チャネル間レベル差をΔLB、到達する帯域別チャネル
間時間差をΔτB とそれぞれする。このとき、帯域別チ
ャネル間レベル差のしきい値ΔLthは ΔLth=(ΔLA +ΔLi)/2 とし、帯域別チャネル間時間差のしきい値Δτthは Δτth=(ΔτA +ΔτB )/2 とすればよい。先に述べた実施例ではΔLB =−Δ
A 、ΔτB =−ΔτA の場合でΔLth=0、Δτth=
0となる。音源A,Bを分離できるように、二つの音源
をマイクロホン1,2に対し、互いに異なる側となるよ
うに、マイクロホン1,2を位置させ、マイクロホン
1,2に対する距離、方向は必ずしも正しくはわかって
いない場合があり、しきい値ΔLth,Δτthを可変とし
て、分離がよく行われるようにΔLth,Δτthを調整可
能としてもよい。
The level difference between the channels at which the signal of the sound source A reaches the microphones 1 and 2 is represented by ΔL A ,
Arriving per-band channel between the time difference .DELTA..tau A, signal microphone 1 of the sound source B, [Delta] L B the level difference between the band-by-band channel that reaches the microphone 2, respectively and .DELTA..tau B the time difference between the arriving band-by-band channel. In this case, the threshold DerutaLth the per-band channel level difference is set to ΔLth = (ΔL A + ΔLi) / 2, the threshold Derutatauth the per-band channel between the time difference if Δτth = (Δτ A + Δτ B ) / 2 Good. In the embodiment described above, ΔL B = −Δ
When L A , Δτ B = −Δτ A , ΔLth = 0, Δτth =
It becomes 0. In order to separate the sound sources A and B, the microphones 1 and 2 are positioned so that the two sound sources are on the different sides with respect to the microphones 1 and 2, and the distances and directions to the microphones 1 and 2 are not always known correctly. In some cases, the threshold values ΔLth and Δτth may be variable, and the threshold values ΔLth and Δτth may be adjustable so that separation is performed well.

【0038】図12はこのハウリング抑圧方法を、更に
改善したものである。スピーカ211に接続された相手
側からの伝送線212に分岐部231が挿入され、これ
により分岐された相手発話者からの音声信号は必要に応
じて遅延部232で遅延された後、帯域分割部233で
複数の周波数帯域に分割される。この分割は、帯域分割
部4で行われる分割数と等しく、かつ同様の手法により
行えばよい。この相手側より音声信号の帯域分割された
各帯域の成分が、送信可能帯域判定部234で分析さ
れ、その成分の周波数帯域が送信可能な周波数帯域であ
るか否かの判定がなされる。つまり、相手側からの音声
信号の周波数成分が無い帯域又は十分レベルが小さい帯
域は送信可能帯域と判定される。また分割部4は相手側
からの受信信号は、分割された帯域にその受信信号の成
分が無視できる帯域が得られる程度に狭い帯域に分割す
る。
FIG. 12 shows a further improvement of the howling suppressing method. A branching unit 231 is inserted into the transmission line 212 from the other side connected to the speaker 211, and the audio signal from the other side speaker, which is branched by this, is delayed by the delay unit 232 as necessary, and then divided by the band division unit. At 233, it is divided into a plurality of frequency bands. This division is equal to the number of divisions performed by the band division unit 4 and may be performed by a similar method. The component of each band of the audio signal that has been band-divided by the other party is analyzed by the transmittable band determining unit 234, and it is determined whether the frequency band of the component is a transmittable frequency band. That is, a band having no frequency component of the audio signal from the other party or a band having a sufficiently low level is determined as a transmittable band. The dividing unit 4 also divides the received signal from the other party into a band narrow enough to obtain a band in which the components of the received signal can be ignored.

【0039】音声信号選択部602Lと音源信号合成部
7Aとの間に送信可能成分選択部235が挿入される。
音声信号選択部602Lにより、マイクロホン1の出力
信号S1から発話者215の音声信号と判定選択され、
更にこれら判定選択された帯域成分は、送信可能成分選
択部235で、送信可能帯域判定部234により、送信
可能な帯域と判定されたもののみが選択されて音源信号
合成部7Aへ送られる。従って、スピーカ211から放
声され、ハウリングの原因となる可能性のある周波数成
分は、伝送線216に送出されず、ハウリングの発生を
一層確実に抑圧することができる。送信可能成分選択部
235としては、音声信号判定部601で、送信可能帯
域判定部234により送信可能と判定された帯域のみを
判定を行い、他の帯域は送信不可としてもよい。
A transmittable component selector 235 is inserted between the audio signal selector 602L and the sound source signal synthesizer 7A.
The audio signal selection unit 602L determines and selects the output signal S1 of the microphone 1 as the audio signal of the speaker 215,
Further, only the band components determined to be transmittable by the transmittable band determination unit 234 are selected by the transmittable component selection unit 235 and sent to the sound source signal combining unit 7A. Therefore, the frequency component that is output from the speaker 211 and may cause howling is not transmitted to the transmission line 216, and the occurrence of howling can be suppressed more reliably. As the transmittable component selection unit 235, the audio signal determination unit 601 may determine only the band that is determined to be transmittable by the transmittable band determination unit 234, and may not transmit other bands.

【0040】遅延部232はスピーカ211とマイクロ
ホン1,2との間の音響信号の伝搬時間を考慮して、遅
延量が定められる。この遅延部232で行う遅延作用を
得る手段としては分岐部231と送信可能成分選択部2
35との間のどの処理段の後に挿入してもよい。送信可
能帯域判定部234の後段に点線枠237として示すよ
うに挿入する場合は、データを蓄積する読み書き可能な
記録部を用い、その所要の遅延量に相当する時間の後、
読み出して送信可能成分選択部235へ供給するように
することもできる。要は前記伝搬時間を考慮して、送信
可能成分選択部235の制御を遅らせて行うように遅延
される手段を設ければよい。場合によってはこれら遅延
手段を省略することもできる。
The delay unit 232 determines the amount of delay in consideration of the propagation time of the acoustic signal between the speaker 211 and the microphones 1 and 2. Means for obtaining the delay effect performed by the delay unit 232 include a branching unit 231 and a transmittable component selection unit 2
35 may be inserted after any processing stage. When the data is inserted after the transmittable band determination unit 234 as shown by a dotted frame 237, a readable and writable recording unit that accumulates data is used, and after a time corresponding to the required delay amount,
The information can be read and supplied to the transmittable component selection unit 235. In short, it is sufficient to provide a means for delaying the control of the transmittable component selection unit 235 in consideration of the propagation time. In some cases, these delay means can be omitted.

【0041】図12の実施例ではハウリングの可能性が
ある成分を送信側(出力側)で遮断したが、受信側(入
力側)で遮断してもよい。その実施例の要部を図13に
示す。伝送線212よりの受信信号は帯域分割部241
で複数の周波数帯域に分割される。この分割は帯域分割
部4(図2)の分割と同一とし、同一手法で行うことが
できる。この帯域分割された受信信号は周波数成分除去
部242に入力される。音声信号判定部601より得ら
れている、音声信号選択部602Lでマイクロホン1か
らの発話者215の音声成分を選択する制御信号が周波
数成分除去部242に入力され、音声信号選択部602
Lで選択しない、つまり伝送線216へ送信しない帯域
成分が、周波数成分除去部242で帯域分割された受信
信号から選択されて音響信号合成部243へ供給され、
二つで音響信号に合成されてスピーカ211へ供給され
る。音響信号合成部243は音源信号合成部7Aと同様
の機能をもつものである。この構成によればスピーカ2
11から放音される音響信号には、伝送線216へ送出
される周波数成分が除外されているため、ハウリングの
発生が抑圧される。
In the embodiment shown in FIG. 12, a component which may cause howling is cut off on the transmission side (output side), but may be cut off on the reception side (input side). FIG. 13 shows a main part of the embodiment. The received signal from the transmission line 212 is transmitted to the band division unit 241.
Is divided into a plurality of frequency bands. This division is the same as that of the band division unit 4 (FIG. 2), and can be performed by the same method. This band-divided received signal is input to frequency component removing section 242. A control signal obtained from the audio signal determination unit 601 and used by the audio signal selection unit 602L to select the audio component of the speaker 215 from the microphone 1 is input to the frequency component removal unit 242, and the audio signal selection unit 602
A band component not selected by L, that is, a band component not transmitted to the transmission line 216 is selected from the reception signal band-divided by the frequency component removal unit 242 and supplied to the acoustic signal synthesis unit 243,
The two are combined into an acoustic signal and supplied to the speaker 211. The sound signal synthesizing section 243 has the same function as the sound source signal synthesizing section 7A. According to this configuration, the speaker 2
Since the frequency component transmitted to the transmission line 216 is excluded from the acoustic signal emitted from the audio signal 11, the occurrence of howling is suppressed.

【0042】図2の実施例で説明したように、帯域別チ
ャネル間時間差や帯域別チャネル間レベル差から、その
帯域成分が何れの音源信号に属するかを決定するしきい
値ΔLth,Δτthは音源とマイクロホンとの相対位置に
より、好ましい値が異なる。従って、図12中に示すよ
うにしきい値設定部251を設けて、音声信号判定部6
01における判定基準、つまりしきい値ΔLth,Δτth
を状況に応じて変更設定するようにすることが好まし
い。
As described in the embodiment of FIG. 2, the thresholds ΔLth and Δτth for determining to which sound source signal the band component belongs from the time difference between channels for each band and the level difference between channels for each band. Preferred values differ depending on the relative positions of the microphone and the microphone. Therefore, the threshold value setting unit 251 is provided as shown in FIG.
01, that is, the threshold values ΔLth, Δτth
Is preferably changed according to the situation.

【0043】また、耐騒音性を高めるためには、基準値
設定部252を設けて、一定値以下のレベルの周波数成
分は無音化する無音化基準を設定して、音声信号選択部
602Lに送る。この結果、音声信号選択部602Lに
おいて、レベル差しきい値、位相差(時間差)しきい値
により選択されたマイクロホン1の収音信号の周波数成
分の中から、レベルが一定値以下の周波数成分は暗騒
音、空調騒音等の雑音成分と見なされて除去され、耐騒
音性が向上する。
Further, in order to improve noise resistance, a reference value setting unit 252 is provided to set a silence criterion for silencing frequency components having a level equal to or lower than a certain value, and send the same to the audio signal selection unit 602L. . As a result, in the audio signal selection unit 602L, of the frequency components of the collected sound signal of the microphone 1 selected based on the level difference threshold value and the phase difference (time difference) threshold value, the frequency component whose level is equal to or less than the predetermined value is dark. It is regarded as noise components such as noise and air-conditioning noise and is removed, thereby improving noise resistance.

【0044】ところで、ハウリングの発生を防止するに
は、基準値設定部252に一定値以上のレベルの周波数
成分を、その一定値以下に保持するハウリング防止基準
を追加し、音声信号選択部602Lに送る。この結果、
音声信号選択部602Lにおいて、レベル差しきい値と
位相差しきい値、あるいはこれに加えた上記無音化基準
により選択されたマイクロホン1の収音信号の周波数成
分の中から、レベルが一定値以上の周波数成分はその一
定値以下のレベルに補正される。この補正は一定値レベ
ル以上となることは瞬時的にかつたまにある場合はその
一定値レベルにクリップし、一定値レベル以上に比較的
頻繁になる場合は、ダイナミックレンジを圧縮すること
により行う。このようにすると、ハウリングの発生原因
となる音響結合量の増加を抑えることができ、ハウリン
グを防止することができる。
By the way, in order to prevent the occurrence of howling, a howling prevention criterion for holding a frequency component having a level equal to or higher than a predetermined value to the reference value setting section 252 is added to the reference value setting section 252. send. As a result,
In the audio signal selection unit 602L, from the frequency difference of the level difference threshold value and the phase difference threshold value, or the frequency component of the collected sound signal of the microphone 1 selected based on the silence criterion added thereto, the level of which is equal to or more than a certain value The frequency component is corrected to a level equal to or lower than the fixed value. This correction is performed by instantaneously and occasionally clipping to the fixed value level when the level becomes higher than the predetermined value level, and by compressing the dynamic range when the frequency becomes relatively higher than the predetermined value level. By doing so, it is possible to suppress an increase in the amount of acoustic coupling that causes howling, and to prevent howling.

【0045】図13中に示すように反響音を抑圧する構
成を付加することもできる。つまり出力端子tA に、遅
延した回り込み信号を推定する回り込み信号推定部26
1と、推定された遅延した回り込み信号を減ずる推定回
り込み信号減算部262を接続し、直接音と反響音との
伝達特性の性質を利用して、回り込み信号推定部261
において遅延した回り込み信号を推定して取り出す。こ
の推定処理には、例えば伝達特性の最小位相特性を考慮
した複素ケプストラム法を用いる。必要に応じて、直接
音と反響音との伝達特性は、インパルスレスポンス法で
測定することができる。推定部261で推定した遅延し
た回り込み信号を、回り込み信号除去部262で出力端
子tA よりの分離された音源信号(発話者215の音声
信号)から除去して伝送線216へ送出する。回り込み
信号推定部261と回り込み信号除去部262による回
り込み信号の抑圧については、例えば、文献、昭和62
年11月25日株式会社コロナ社発行、伊達玄訳「ディ
ジタル信号処理」に示されている。なお回り込み信号推
定部261と回り込み信号除去部262は、例えば1つ
のDSP(デジタルシグナルプロセッサ)で処理するこ
とができる。
As shown in FIG. 13, a configuration for suppressing reverberation can be added. In other words the output terminal t A, wraparound estimates the echo signal obtained by delaying the signal estimator 26
1 and an estimated wraparound signal subtraction section 262 for reducing the estimated delayed wraparound signal, and utilizing the property of the transfer characteristic between the direct sound and the reverberation sound, to make use of the wraparound signal estimation section 261.
The wraparound signal delayed in is estimated and extracted. For this estimation processing, for example, a complex cepstrum method considering the minimum phase characteristic of the transfer characteristic is used. If necessary, the transfer characteristics between the direct sound and the reverberant sound can be measured by the impulse response method. The echo signal delayed estimated by the estimation unit 261, and sends it to the echo signal removing unit 262 at the output terminal t separated sound source signal from the A (speaker 215 of the speech signal) transmission line 216 is removed from the. Suppression of a sneak signal by the sneak signal estimation unit 261 and the sneak signal removal unit 262 is described in, for example, the literature, Showa 62
It is shown in "Digital Signal Processing", translated by Date Gen on November 25, 2008 by Corona Co., Ltd. The wraparound signal estimation unit 261 and the wraparound signal removal unit 262 can be processed by, for example, one DSP (digital signal processor).

【0046】発話者215が一定の範囲しか移動しない
場合、その発話者215の側に設置したマイクロホン1
で収音された音声の周波数成分と、スピーカ211の側
に設置したマイクロホン2で収音された音声の周波数成
分とのレベル差や位相し差/到達時間差は、一定の範囲
内に限定される。したがって、しきい値設定部251に
判定基準範囲を設定し、そのレベル差範囲の位相差範囲
内のものに対してのみ信号処理し、範囲外のものは処理
の対象外とする。このようにすると、より高い精度でマ
イクロホン1の収音信号の中から、発話者215の発音
声が選択できる。
When the speaker 215 moves only within a certain range, the microphone 1 installed on the side of the speaker 215
And the phase difference / arrival time difference between the frequency component of the sound picked up by the microphone and the frequency component of the sound picked up by the microphone 2 installed on the side of the speaker 211 are limited to a certain range. . Therefore, a determination reference range is set in the threshold value setting unit 251 and signal processing is performed only on the phase difference range within the level difference range, and the signal processing outside the range is not processed. In this way, the uttered voice of the speaker 215 can be selected from the collected signals of the microphone 1 with higher accuracy.

【0047】なお、前記した場合と別の観点からは、ス
ピーカ211は固定であるため、発話者215の側のマ
イクロホン1で収音されたスピーカ211の音声の周波
数成分と、スピーカ211の側のマイクロホン2で収音
されたスピーカ211の音声の周波数成分とのレベル
差、位相差又は到達時間差は一定の範囲に限定される。
これらのレベル差、位相差/到達時間差の範囲は、音声
信号選択部602Lで破棄するための基準でもあり、こ
れらに基づいて音声信号選択部602Lでの選択を行う
ための判定基準をしきい値設定部251に設定すること
もできる。
From another viewpoint, the speaker 211 is fixed, so that the frequency component of the sound of the speaker 211 picked up by the microphone 1 of the speaker 215 and the frequency component of the sound of the speaker 211 The level difference, phase difference, or arrival time difference from the frequency component of the sound of the speaker 211 collected by the microphone 2 is limited to a certain range.
The range of the level difference and the phase difference / arrival time difference is also a criterion for discarding in the audio signal selection unit 602L, and a determination criterion for making a selection in the audio signal selection unit 602L is based on the threshold value. It can also be set in the setting unit 251.

【0048】このハウリング抑圧においても、3個以上
のマイクロホンを使用すれば、必要な周波数成分を選択
する機能をより高精度に達成することができる。さら
に、拡声系の音響システムの回り込み音抑圧形収音装置
にこの発明を適用したが、一般の電話用送受話装置にお
いても適用することができる。また、音声信号選択部6
02Lで選択されるべき周波数成分は、マイクロホン1
で収音した音声信号の周波数成分の中の特定の周波数成
分(発話者215の音声)に限られるものではなく、状
況に応じて、例えば発話者215側に空調装置の吹き出
し口がある場合、マイクロホン2で収音した周波数成分
の中の発話者215の音声と判定された周波数成分を選
出し、あるいは騒音が大きな環境下では両マイクロホン
1,2で収音した周波数成分の中の発話者215の音声
と判定された周波数成分を選択することもできる。
Also in this howling suppression, if three or more microphones are used, the function of selecting a necessary frequency component can be achieved with higher accuracy. Further, the present invention has been applied to the sneaking sound suppressing type sound pickup device of a loudspeaker type sound system, but can also be applied to a general telephone transmission / reception device. Also, the audio signal selection unit 6
The frequency component to be selected at 02L is the microphone 1
The frequency component is not limited to a specific frequency component (speech of the speaker 215) among the frequency components of the audio signal picked up in the above. If, for example, the speaker 215 has an air outlet of the air conditioner, A frequency component determined as the voice of the speaker 215 from the frequency components picked up by the microphone 2 is selected, or, in an environment where the noise is large, the speaker 215 among the frequency components picked up by the microphones 1 and 2 is selected. It is also possible to select the frequency component determined to be the voice of the sound.

【0049】先に発話者が複数の場合にこれらを分離し
て、1又は2つの音声信号を、回り込み音を抑圧して送
信することにこの発明を適用できることを述べた。この
場合、複数の発話者の合成音声信号を互いに分離して得
るが、発話していない発話者に対応する合成音声信号を
抑圧乃至遮断すると、送信音声信号の品質が一層よくな
る。このためには発話者が発話しているか否かを検出す
るが、どの音源が発音していないかを検出して、対応合
成音声信号に対する抑圧信号を作成する。この抑圧信号
の作成方法を簡単に説明する。
It has been described above that the present invention can be applied to a case where a plurality of speakers are separated and one or two voice signals are transmitted while suppressing the looping sound. In this case, the synthesized speech signals of a plurality of speakers are obtained separately from each other. However, if the synthesized speech signals corresponding to the speakers who are not speaking are suppressed or cut off, the quality of the transmission speech signal is further improved. For this purpose, it is detected whether or not the speaker is speaking, but it is detected which sound source is not sounding, and a suppression signal for the corresponding synthesized speech signal is created. A method of creating the suppression signal will be briefly described.

【0050】図14に示すように、マイクロホンM1,
M2,M3は、例えば1辺が20cmの正三角形の頂点
の位置に配置されている。マイクロホンM1〜M3の指
向特性に基づいて空間が分割して設定され、その各分割
された空間を音源ゾーンと呼ぶ。全てのマイクロホンM
1〜M3が無指向で同じ特性を有する場合には、例えば
図12に示すように、ゾーンZ1〜Z6のように6個に
分割される。つまり、各マイクロホンM1,M2,M3
と、その中心点Cp をそれぞれ通る直線により、中心点
Cp を中心に等角間隔で6分割された6つのゾーンZ1
〜Z6が形成される。音源AはゾーンZ3に、音源Bは
ゾーンZ4に位置している。つまり、1個の音源ゾーン
には1個の音源が属するよう、マイクロホンM1〜M3
の配置や特性に基づいて各音源ゾーンを決定する。
As shown in FIG. 14, microphones M1,
M2 and M3 are arranged, for example, at the vertices of an equilateral triangle having one side of 20 cm. A space is divided and set based on the directional characteristics of the microphones M1 to M3, and each divided space is called a sound source zone. All microphones M
When 1 to M3 are omnidirectional and have the same characteristics, for example, as shown in FIG. 12, they are divided into six zones Z1 to Z6. That is, each microphone M1, M2, M3
And six zones Z1 divided into six at equal angular intervals around the center point Cp by straight lines passing through the center point Cp.
To Z6 are formed. Sound source A is located in zone Z3, and sound source B is located in zone Z4. That is, the microphones M1 to M3 are set so that one sound source zone belongs to one sound source zone.
Each sound source zone is determined based on the arrangement and characteristics of the sound source.

【0051】図14において、帯域分割部41は、マイ
クロホンM1で収音した第1チャネルの音響信号S1を
n個の周波数帯域信号S1(f1)〜S1(fn)に分
割し、分割部42でマイクロホンM2で収音した第2チ
ャネルの音響信号S2をn個の周波数帯域信号S2(f
1)〜S2(fn)に分割し、帯域分割部43は、マイ
クロホンM3で収音した第3チャネルの音響信号S3を
n個の周波数帯域信号S3(f1)〜S3(fn)に分
割する。これら各帯域f1〜fnは帯域分割部41〜4
3で共通であり、このような帯域分割は離散的フーリエ
変換器を利用することができる。
In FIG. 14, a band dividing unit 41 divides a sound signal S1 of the first channel collected by the microphone M1 into n frequency band signals S1 (f1) to S1 (fn). The acoustic signal S2 of the second channel collected by the microphone M2 is converted into n frequency band signals S2 (f
1) to S2 (fn), and the band dividing unit 43 divides the sound signal S3 of the third channel collected by the microphone M3 into n frequency band signals S3 (f1) to S3 (fn). These bands f1 to fn are divided into band division units 41 to 4
3, and such band division can utilize a discrete Fourier transformer.

【0052】音源分離部80は図2乃至図11を参照し
て説明した手法を用いて音源信号を分離するものであ
る。ただし図14ではマイクロホンが3つであるから、
この3つのチャネルの信号の各2つの組合せについて同
様な処理を行う。従って音源分離部80内の帯域分割部
と帯域分割部41〜43を兼用することもできる。帯域
別レベル(パワー)検出部S1で帯域分割部41で得ら
れた各帯域の信号S1(f1)〜S1(fn)のレベル
(パワー)信号P(S1f1)〜P(S1fn)が検出
され、同様に帯域別レベル検出部52,53でそれぞれ
帯域分割部42,43で得られた各帯域信号S2(f
1)〜S2(fn),S3(f1)〜S3(fn)の各
P(S2f1)〜P(S2fn),P(S3f1)〜P
(S3fn)がそれぞれ検出される。これら帯域別レベ
ル検出もフーリエ変換器で実現できる。つまり各チャネ
ル信号を離散的フーリエ変換によりスペクトルに分解
し、その各スペクトルの電力を求めればよい。従って、
各チャネル信号について、パワースペクトルを求め、そ
のパワースペクトルを帯域分割してもよい。各マイクロ
ホンM1〜M3の各チャネル信号を、帯域別レベル検出
部400で各帯域に分割すると共にそのレベル(パワ
ー)を出力することになる。
The sound source separation section 80 separates a sound source signal by using the method described with reference to FIGS. However, in FIG. 14, since there are three microphones,
Similar processing is performed for each two combinations of these three channel signals. Therefore, the band division unit and the band division units 41 to 43 in the sound source separation unit 80 can also be used. The level (power) detection section S1 detects the level (power) signals P (S1f1) to P (S1fn) of the signals S1 (f1) to S1 (fn) of each band obtained by the band division section 41, Similarly, each band signal S2 (f) obtained by the band division units 42 and 43 by the band-specific level detection units 52 and 53, respectively.
1) -S2 (fn), S3 (f1) -S3 (fn) P (S2f1) -P (S2fn), P (S3f1) -P
(S3fn) are respectively detected. These band-specific level detections can also be realized by a Fourier transformer. That is, each channel signal may be decomposed into a spectrum by a discrete Fourier transform, and the power of each spectrum may be obtained. Therefore,
A power spectrum may be obtained for each channel signal, and the power spectrum may be divided into bands. Each channel signal of each of the microphones M1 to M3 is divided into each band by the band-specific level detection unit 400, and the level (power) is output.

【0053】一方全帯域レベル検出部61でマイクロホ
ンM1で収音された第1チャネルの音響信号S1の全周
波数成分のレベル(パワー)P(S1)が検出され、全
帯域レベル検出部62,63でそれぞれマイクロホンM
2,M3でそれぞれ収音された第2、第3チャネル2,
3の各音響信号S2,S3の全周波数成分のレベルP
(S2),P(S3)が検出される。
On the other hand, the level (power) P (S1) of all frequency components of the sound signal S1 of the first channel picked up by the microphone M1 is detected by the all-band level detector 61, and the entire-band level detectors 62 and 63 are detected. With each microphone M
2 and 3, the second and third channels collected by M3, respectively.
Level P of all frequency components of each of the acoustic signals S2 and S3 of FIG.
(S2) and P (S3) are detected.

【0054】音源状態判定部70では、コンピュータ処
理により、音響を発していない音源ゾーンを判定する。
まず、帯域別レベル検出部50により得られる帯域別レ
ベルP(S1f1)〜P(S1fn)、P(S2f1)
〜P(S2fn)、P(S3f1)〜P(S3fn)
を、同一の帯域の信号について相互に比較する。そして
各帯域f1〜fn毎に、最も大きなレベルのチャネルを
特定する。
The sound source state determination unit 70 determines, by computer processing, a sound source zone that does not emit sound.
First, the band-specific levels P (S1f1) to P (S1fn) and P (S2f1) obtained by the band-specific level detection unit 50.
~ P (S2fn), P (S3f1) ~ P (S3fn)
Are compared with each other for signals in the same band. Then, the highest level channel is specified for each of the bands f1 to fn.

【0055】帯域分割の数nを所定数以上にすることに
より、前述したように、1つの帯域には1個の音源の音
響信号しか含まれないと見なせるようにすることができ
るので、同一帯域fiのレベルP(S1fi),P(S
2fi),P(S3fiは、同一音源からの音響のレベ
ルと見なすことができる。よって、第1〜第3チャネル
について同一の帯域のレベルP(S1fi),P(S2
fi),P(S3fi)に差があるときは、音源に最も
近いマイクロホンのチャネルの帯域のレベルが最も大き
くなる。
By setting the number n of band divisions to a predetermined number or more, as described above, one band can be regarded as containing only the sound signal of one sound source. fi level P (S1fi), P (S
2fi), P (S3fi can be regarded as the level of sound from the same sound source, so that the levels P (S1fi), P (S2) of the same band for the first to third channels.
When there is a difference between fi) and P (S3fi), the level of the band of the microphone channel closest to the sound source becomes the highest.

【0056】前記処理の結果、各帯域f1〜fnについ
て、最もレベルの大きなチャネルがそれぞれ割り当てら
れる。n個の帯域中で第1〜第3各チャネルについて、
最もレベルが大きな帯域の合計数χ1,χ2,χ3を算
出する。この合計数の値が大きいチャネルのマイクロホ
ンほど、音源に近いとみなすことができる。合計数値が
例えば90n/100以上程度であればそのチャネルの
マイクロホンに音源が近いと判定することができる。し
かし、最もレベルが大きい帯域の合計数が53n/10
0、次に合計値が大きい値が49n/100の場合はそ
のそれぞれの対応マイクロホンに音源が近いか明確では
ない。従って当該合計数が予め設定した基準値ThP、
例えばn/3程度を越えたとき、当該合計数と対応する
チャネルのマイクロホンにその音源が最も近いと判定す
る。
As a result of the above processing, the highest level channel is assigned to each of the bands f1 to fn. For each of the first to third channels in the n bands,
The total number # 1, # 2, and # 3 of the bands having the highest level is calculated. The microphone of a channel having a larger value of the total number can be regarded as being closer to the sound source. If the total numerical value is, for example, about 90 n / 100 or more, it can be determined that the sound source is close to the microphone of that channel. However, the total number of bands having the highest level is 53n / 10
If the next largest sum is 0n / 100, it is not clear whether the sound source is close to the corresponding microphone. Therefore, the total number is equal to the preset reference value ThP,
For example, when it exceeds about n / 3, it is determined that the sound source is closest to the microphone of the channel corresponding to the total number.

【0057】また、この音源状態判定部70には、全帯
域レベル検出部60で検出された各チャネルのレベルP
(S1)〜P(S3)も入力されていて、そのレベルの
全てが予め設定した基準値ThR以下の場合には、何れ
のゾーンにも、音源がないと判定する。この音源状態判
定部70による判定結果に基づき、制御信号を発生し
て、音源分離部80で分割された音響信号A,Bに対す
る抑圧を信号抑圧部90で行う。つまり制御信号SAi
により音響信号SAを抑圧(減衰ないし削除)し、制御
信号SBiにより音響信号SBを抑圧し、制御信号SA
Biにより両音響信号SA,SBを抑圧する。例えば信
号抑圧部90内に常閉スイッチ9A,9Bが設けられ、
音源分離部80の出力端子tA ,tB が常閉スイッチ9
A,9Bを通じて、出力端子tA ′,tB ′に接続さ
れ、制御信号SAiによりスイッチ9Aが開とされ、制
御信号SBiによりスイッチ9Bが開とされ、制御信号
SABiによりスイッチ9A,9Bが共に開にされる。
当然のことであるが、音源分離部80で行う分離処理す
るフレームの信号と、信号抑圧部90での抑圧に用いる
制御信号を得るフレームの信号とは同一のものを用い
る。抑圧(制御)信号SAi,SBi,SABiの発生
についてわかり易く説明する。
Further, the sound source state determination section 70 has the level P of each channel detected by the all-band level detection section 60.
If (S1) to P (S3) are also input and all of the levels are equal to or less than the preset reference value ThR, it is determined that there is no sound source in any zone. Based on the determination result by the sound source state determination unit 70, a control signal is generated, and the signal suppression unit 90 suppresses the sound signals A and B divided by the sound source separation unit 80. That is, the control signal SAi
Suppresses (attenuates or deletes) the sound signal SA, suppresses the sound signal SB with the control signal SBi, and outputs the control signal SA.
Bi suppresses both acoustic signals SA and SB. For example, normally closed switches 9A and 9B are provided in the signal suppression unit 90,
The output terminals t A and t B of the sound source separation unit 80 are normally closed switches 9
A, 9B are connected to the output terminals t A ′, t B ′, the switch 9A is opened by the control signal SAi, the switch 9B is opened by the control signal SBi, and both the switches 9A, 9B are controlled by the control signal SABi. It is opened.
As a matter of course, the same signal is used for the signal of the frame to be separated by the sound source separation unit 80 and the signal of the frame for obtaining the control signal used for suppression by the signal suppression unit 90. The generation of the suppression (control) signals SAi, SBi, and SABi will be described in an easily understandable manner.

【0058】いま、図15に示すように音源A,Bが位
置している時マイクロホンM1〜M3を図に示したよう
に配置し、ゾーンZ1〜Z6を決定し、音源AとBが別
個のゾーンZ3,Z4にそれぞれ位置するようにする。
この時、音源AのマイクロホンM1〜M3に対する距離
SA1,SA2,SA3は、SA2<SA3<SA1と
なる。また、音源Bの各マイクロホンM1〜M3に対す
る距離SB1,SB2,SB3は、SB3<SB2<S
B1となる。
Now, when sound sources A and B are located as shown in FIG. 15, microphones M1 to M3 are arranged as shown in the figure, zones Z1 to Z6 are determined, and sound sources A and B are separated. It should be located in each of the zones Z3 and Z4.
At this time, the distances SA1, SA2, and SA3 of the sound source A to the microphones M1 to M3 satisfy SA2 <SA3 <SA1. The distances SB1, SB2, and SB3 of the sound source B from the microphones M1 to M3 are represented by SB3 <SB2 <S.
B1.

【0059】全帯域レベル検出部60の検出信号P(S
1)〜P(S3)のすべてが基準値ThRよりも小さい
とき、音源A,Bは発音、例えば発話していないと見な
し、制御信号SABiにより、両音響信号SA,SBを
抑圧する。このとき、出力音響信号SA,SBは無音信
号となる(図16の101,102)。音源Aのみが発
音しているときは、その音響信号のすべての帯域の周波
数成分がマイクロホンM2へ一番大きな音圧レベル(パ
ワー)で到達するので、このマイクロホンM2のチャネ
ルの合計帯域数χ2が最も多くなる。
The detection signal P (S
When all of 1) to P (S3) are smaller than the reference value ThR, it is considered that the sound sources A and B do not generate sound, for example, speak, and the control signal SABi suppresses both sound signals SA and SB. At this time, the output acoustic signals SA and SB are silent signals (101 and 102 in FIG. 16). When only the sound source A is sounding, the frequency components in all the bands of the sound signal reach the microphone M2 at the highest sound pressure level (power), so that the total number of channels χ2 of the channels of the microphone M2 is The most.

【0060】また、音源Bのみが発音しているときは、
その音響信号のすべての帯域の周波数成分がマイクロホ
ンM3へ一番大きな音圧レベルで到達するので、このマ
イクロホンM3のチャネルの合計帯域数χ3が最も多く
なる。さらに、音源A,Bが共に発音している場合に
は、音響信号が最も大きな音圧レベルで到達する帯域数
がマイクロホンM2とM3で拮抗する。
When only the sound source B is sounding,
Since the frequency components of all the bands of the acoustic signal reach the microphone M3 at the highest sound pressure level, the total number of bands χ3 of the channels of the microphone M3 is the largest. Further, when both of the sound sources A and B are sounding, the microphones M2 and M3 compete with each other for the number of bands in which the sound signal reaches at the highest sound pressure level.

【0061】したがって、前記した基準値ThPによ
り、音響信号があるマイクロホンへ最も大きな音圧レベ
ルで到達する合計帯域数が、当該基準値ThPを越えた
場合、当該マイクロホンが司るゾーンに音源が存在する
と判定することにより、発音している音源ゾーンを検出
することができる。上記の例では、音源Aのみが発音し
ているときは、χ2のみが基準値ThPを越えて、発音
している音源が存在するのはマイクロホンM2が司るゾ
ーンZ3であると検出されるので、制御信号SBiによ
り音声信号SBを抑制して、音響信号SAのみを出力さ
せる(図16の103,104)。
Therefore, according to the above-mentioned reference value ThP, if the total number of bands in which the acoustic signal reaches the microphone with the largest sound pressure level exceeds the reference value ThP, it is determined that the sound source exists in the zone controlled by the microphone. By making the determination, the sound source zone that is sounding can be detected. In the above example, when only the sound source A is sounding, only # 2 exceeds the reference value ThP, and it is detected that the sounding sound source exists in the zone Z3 controlled by the microphone M2. The audio signal SB is suppressed by the control signal SBi, and only the audio signal SA is output (103 and 104 in FIG. 16).

【0062】さらに、音源A,Bが共に発音していて、
χ2,χ3ともに基準値ThPを越えるときは、例えば
音源Aに優先度を与えて、音源Aのみが発音していると
処理することができる。図16の処理手順はそのように
してある。また、χ2,χ3が共に基準値ThPに達し
ていない場合は、レベルP(S1)〜P(S3)が基準
値ThRを越えている限り、両音源A,Bともに発音し
ていると判断し、制御信号SAi,SBi,SABiの
何れも出力せず、音声抑圧部90では合成信号SA,S
Bに対する抑圧は行われない(図16の107)。
Further, if the sound sources A and B are both sounding,
When both # 2 and # 3 exceed the reference value ThP, for example, priority can be given to the sound source A, and it can be processed that only the sound source A is sounding. The processing procedure of FIG. If both # 2 and # 3 do not reach the reference value ThP, it is determined that both sound sources A and B are sounding as long as the levels P (S1) to P (S3) exceed the reference value ThR. , And does not output any of the control signals SAi, SBi, and SABi.
B is not suppressed (107 in FIG. 16).

【0063】以上のようにして、音源分離部80で分離
された音源信号SA,SBは、音源状態判定部70によ
って発音していないと判定された音源に対応するもの
が、信号抑圧部90で抑圧され、不要音が抑圧されるよ
うになる。このような制御信号の生成は、帯域間到達時
間差を利用して検出することもできる。つまり図14に
おいて帯域間レベル差検出部51で、レベル差の代りに
到達時間差信号An(S1f1)〜An(S1fn)を
検出し、同様に到達時間差信号An(S2f1)〜An
(S2fn),An(S3f1)〜An(S3fn)を
検出し、これらの到達時間差信号を得る処理は、例え
ば、フーリエ変換により各帯域の信号の位相(あるいは
群遅延)を算出し、同一の帯域fiの信号S1(f
i),S2(fi),S3(fi)(i=1,2,…,
n)の位相を相互に比較することで、同一音源信号の到
達時間差と対応した信号を得ることができる。この場合
も帯域分割部40での分割は、1つの帯域には1つの音
源信号成分しか存在しないとみなせる程度に小さく行
う。
As described above, the sound source signals SA and SB separated by the sound source separation unit 80 correspond to the sound source determined not to be sounding by the sound source state determination unit 70, and are output by the signal suppression unit 90. It is suppressed, and unnecessary sound is suppressed. The generation of such a control signal can also be detected using the difference in arrival time between bands. That is, in FIG. 14, the inter-band level difference detection unit 51 detects arrival time difference signals An (S1f1) to An (S1fn) instead of the level difference, and similarly arrives at the time difference signals An (S2f1) to An.
In the process of detecting (S2fn) and An (S3f1) to An (S3fn) and obtaining the arrival time difference signal, for example, the phase (or group delay) of the signal in each band is calculated by Fourier transform, and the same band is calculated. fi signal S1 (f
i), S2 (fi), S3 (fi) (i = 1, 2,...,
By comparing the phases n) with each other, a signal corresponding to the arrival time difference of the same sound source signal can be obtained. In this case as well, the division by the band dividing section 40 is performed so small that only one sound source signal component exists in one band.

【0064】この到達時間差の表現方法は、例えば、マ
イクロホンM1〜M3のいずれかを基準にしてその基準
マイクロホンに対する到達時間差を0に設定しておけ
ば、他のマイクロホンに対する到達時間差はその基準マ
イクロホンに対して速く到達したか遅く到達したかで判
定できるので、正又は負の極性を付した数値で表すこと
ができる。この場合、基準マイクロホンを例えばM1と
すると、到達時間差信号An(S1f1)〜An(S1
fn)は全て0となる。
The method of expressing the arrival time difference is as follows. For example, if the arrival time difference with respect to one of the microphones M1 to M3 is set to 0, the arrival time difference with respect to the other microphones is set to the reference microphone. On the other hand, since it is possible to determine whether the vehicle has arrived fast or late, it can be represented by a numerical value with a positive or negative polarity. In this case, assuming that the reference microphone is M1, for example, arrival time difference signals An (S1f1) to An (S1
fn) are all 0.

【0065】音源状態判定部70では、到達時間差信号
An(S1f1)〜An(S1fn),An(S2f
1)〜An(S2fn),An(S3f1)〜An(S
3fn)を、同一の帯域の信号について相互に比較す
る。これにより各帯域f1〜fn毎に、最も信号が速く
到達するチャネルが決定できる。そこで、各チャネルに
ついて信号が最も速く到達すると判定された帯域の合計
数を算出して、それをチャネル間で比較する。この結
果、この合計帯域数の値が大きいチャネルのマイクロホ
ンほど、音源に近いとみなすことができる。そして、あ
るチャネルについて、当該合計帯域数が予め設定した基
準値ThPを越えたとき、当該のチャネルのマイクロホ
ンが司るゾーンに音源があると判定する。
In the sound source state determination unit 70, the arrival time difference signals An (S1f1) to An (S1fn), An (S2f)
1) to An (S2fn), An (S3f1) to An (S
3fn) are compared with each other for signals in the same band. As a result, for each of the bands f1 to fn, the channel in which the signal reaches the fastest can be determined. Therefore, the total number of bands determined to reach the fastest signal for each channel is calculated and compared between channels. As a result, the microphone of a channel having a larger value of the total number of bands can be regarded as being closer to the sound source. Then, for a certain channel, when the total number of bands exceeds a preset reference value ThP, it is determined that a sound source exists in a zone controlled by the microphone of the channel.

【0066】いま図15に示したように音源A,Bに対
し、マイクロホンM1〜M3を配置したとする。またマ
イクロホンM1のチャネルに対する前記した合計帯域数
をχ1、マイクロホンM2,M3の各チャネルに対する
合計帯域数をそれぞれχ2,χ3とする。この場合も図
16に示した処理手順と同様にすればよい。即ち、ま
ず、全帯域レベル検出部60の検出信号P(S1)〜P
(S3)のすべてが基準値ThRよりも小さいとき(1
01)、音源A,Bは発音していないと見なし、制御信
号SABiを生成して(102)、両音源信号SA,S
Bを抑圧する。このとき、出力信号SA′,SB′は無
音信号となる。
Assume that microphones M1 to M3 are arranged for sound sources A and B as shown in FIG. The total number of bands for the channel of the microphone M1 is $ 1, and the total number of bands for each channel of the microphones M2 and M3 is $ 2 and $ 3, respectively. In this case, the procedure may be the same as the procedure shown in FIG. That is, first, the detection signals P (S1) to P (P1)
When all of (S3) is smaller than the reference value ThR (1
01), it is considered that the sound sources A and B are not sounding, and a control signal SABi is generated (102).
Suppress B. At this time, the output signals SA 'and SB' are silent signals.

【0067】音源Aのみが発音しているときは、その音
源信号のすべての帯域の周波数成分がマイクロホンM2
へ一番速く到達するので、このマイクロホンM2のチャ
ネルの合計帯域数χ2が最も多くなる。また、音源Bの
みが発音しているときは、その音源信号のすべての帯域
の周波数成分がマイクロホンM3へ一番速く到達するの
で、このマイクロホンM3のチャネルの合計帯域数χ3
が最も多くなる。
When only the sound source A is sounding, the frequency components of all the bands of the sound source signal are output from the microphone M2.
, The total number of bands χ2 of the channel of the microphone M2 becomes the largest. Further, when only the sound source B is sounding, the frequency components of all the bands of the sound source signal reach the microphone M3 fastest, so that the total number of bands of the channel of the microphone M3χ3
Is the most.

【0068】さらに、音源A,Bが共に発音している場
合には、音源信号が最も速く到達する帯域数がマイクロ
ホンM2とM3で拮抗する。したがって、前記した基準
値ThPにより、音源信号があるマイクロホンへ最も速
く到達する合計帯域数が、当該設定値ThPを越えた場
合、当該マイクロホンが司るゾーンに音源が存在し、そ
の音源が発音していると判定する。
Further, when both the sound sources A and B are sounding, the number of bands in which the sound source signal reaches the fastest is opposed by the microphones M2 and M3. Therefore, when the total number of bands in which the sound source signal reaches the microphone at the earliest exceeds the set value ThP, the sound source exists in the zone controlled by the microphone, and the sound source emits a sound. It is determined that there is.

【0069】上記の例では、音源Aのみが発音している
ときは、χ2のみが基準値ThPを越えて(図16の1
03)、音響を発生している音源が存在するのはマイク
ロホンM2が司るゾーンZ3であると検出されるので、
制御信号SBiが生成され(104)、音響信号SBが
抑制され、信号SAのみが出力される。また、音源Bの
みが発音しているときは、χ3のみが基準値ThPを越
え(105)、音を発している音源が存在するのは、マ
イクロホンM3が司るゾーンZ4であると検出されるの
で、制御信号SAiが生成され(106)信号SAが抑
制されて、信号SBのみが出力される。
In the above example, when only the sound source A is sounding, only # 2 exceeds the reference value ThP (1 in FIG. 16).
03) Since it is detected that the sound source generating the sound exists in the zone Z3 controlled by the microphone M2,
A control signal SBi is generated (104), the acoustic signal SB is suppressed, and only the signal SA is output. Further, when only the sound source B is sounding, only # 3 exceeds the reference value ThP (105), and it is detected that the sound source emitting the sound is in the zone Z4 controlled by the microphone M3. , A control signal SAi is generated (106), the signal SA is suppressed, and only the signal SB is output.

【0070】この例ではThPは例えばn/3程度に設
定され、音源A,Bが共に発音していて、χ2,χ3と
もに基準値ThPを越えることがある。この場合は図1
3の処理手順に示すように一方の音源、この例ではAを
優先させ、音源Aへ分離信号のみを出力させることもで
きる。また、χ2,χ3が共に基準値ThPに達してい
ない場合は、レベルP(S1)〜P(S3)が基準値T
hRを越えている限り、両音源A,Bともに発音してい
ると判断し、制御信号SAi,SBi,SABiは出力
せず(図16の107)音声抑圧部90では音声信号S
A,SBに対する抑圧は行われない。
In this example, ThP is set to, for example, about n / 3, and both the sound sources A and B are sounding, and both # 2 and # 3 may exceed the reference value ThP. In this case, FIG.
As shown in the processing procedure 3, one of the sound sources, A in this example, may be prioritized, and only the separated signal may be output to the sound source A. When both # 2 and # 3 do not reach the reference value ThP, the levels P (S1) to P (S3) are changed to the reference value TP.
As long as it exceeds hR, it is determined that both sound sources A and B are sounding, and the control signals SAi, SBi and SABi are not output (107 in FIG. 16).
No suppression is performed on A and SB.

【0071】このように、発音していない合成音信号を
抑圧あるいは無音化する方法を回り込み抑圧収音装置に
適用した例の機能構成図を図17に、図2、図12、図
14と対応する部分に同一符号を付けて示す。つまりこ
の場合は、マイクロホン1,2よりの各チャネル信号は
帯域分割部4で複数の帯域に分割されて音声信号選択部
602L、帯域別チャネル間時間差/レベル差検出部
5、帯域別レベル/時間差検出部50に供給される。両
マイクロホン1,2の出力はチャネル間時間差/レベル
差検出部3へも供給され、そのチャネル間時間差又はレ
ベル差は帯域別チャネル間時間差/レベル差検出部5と
音声信号判定部601とへ供給され、またマイクロホン
1,2の各出力のレベルが音源状態判定部70へ供給さ
れる。
FIG. 17 is a functional block diagram of an example in which the method of suppressing or silencing a synthetic sound signal that is not sounding is applied to a wraparound suppression sound pickup apparatus, and corresponds to FIGS. 2, 12, and 14. The same reference numerals are given to the portions to be performed. That is, in this case, each channel signal from the microphones 1 and 2 is divided into a plurality of bands by the band division unit 4, and the audio signal selection unit 602L, the band-by-channel time difference / level difference detection unit 5, the band-by-band level / time difference It is supplied to the detection unit 50. The outputs of the two microphones 1 and 2 are also supplied to an inter-channel time difference / level difference detection unit 3, and the inter-channel time difference or level difference is supplied to a band-specific inter-channel time difference / level difference detection unit 5 and an audio signal determination unit 601. The output levels of the microphones 1 and 2 are supplied to the sound source state determination unit 70.

【0072】帯域別チャネル間時間差/レベル差検出部
5の出力は音声信号判定部601へ供給され、前述した
ように、帯域ごとに何れの音源成分かの判定がなされ、
この判定結果にもとづき、音声信号選択部602Lで特
定の音源の音響信号成分、この例では1人の話者の音声
の成分のみが選択されて音源信号合成部7へ供給され
る。一方、帯域別レベル/時間差検出部50で、各帯域
のレベル又は到達時間差が検出され、これら検出出力は
音源状態判定部70で前述したように発音している又は
していない音源を検出して、発音していない合成音源信
号を信号抑圧部90で抑圧する。
The output of the inter-channel time difference / level difference detection unit 5 for each band is supplied to the audio signal judgment unit 601, and as described above, which sound source component is judged for each band.
Based on the determination result, the audio signal selection unit 602L selects only the audio signal component of the specific sound source, in this example, only the component of the voice of one speaker, and supplies it to the sound source signal synthesis unit 7. On the other hand, the level / arrival time difference of each band is detected by the band-specific level / time difference detection unit 50, and these detection outputs are detected by the sound source state determination unit 70 by detecting the sound source that is sounding or not as described above. Then, the synthesized sound source signal that is not sounding is suppressed by the signal suppression unit 90.

【0073】図13、図14に示した回り込み抑圧収音
装置にも同様に発音していない合成音源信号を抑圧する
手法を適用することができる。図2中の帯域分割部4、
図14中の各帯域分割部40、図12中の帯域分割部2
33、図13中の帯域分割部241における各周波数帯
域の分割は必ずしも同一とする必要はない。要求される
精度に応じて、これらの分割数を互いに異ならせてもよ
い。図2中で帯域間レベル差を用いる場合の帯域分割部
4、図12中の帯域分割部233、図14中の帯域分割
部40はそれぞれその後の処理のために、その入力信号
のパワースペクトルを先ず求め、その後、複数の周波数
帯域に分割してもよい。
The technique of suppressing a synthetic sound source signal that is not sounding can be applied to the wraparound suppression sound pickup apparatus shown in FIGS. The band division unit 4 in FIG.
Each band division unit 40 in FIG. 14 and band division unit 2 in FIG.
33, the division of each frequency band in the band division unit 241 in FIG. 13 does not necessarily have to be the same. These division numbers may be different from each other depending on the required accuracy. The band division unit 4, the band division unit 233 in FIG. 12, and the band division unit 40 in FIG. 14 in the case of using the inter-band level difference in FIG. The frequency band may be determined first, and then divided into a plurality of frequency bands.

【0074】[0074]

【発明の効果】以上述べたように、この発明によれば、
複数のマイクロホンの出力信号を十分に狭い複数の帯域
に分割し、その各帯域ごとの音響信号のパラメータ値を
検出し、同一帯域間でこれらの差を検出し、そのパラメ
ータ値差を、しきい値と比較して、発話者の音声信号
を、他の音響信号から正しく分離することができ、ハウ
リングの発生を、比較的簡単な構成で十分抑圧すること
ができる。しかも音響の劣化も少ない。
As described above, according to the present invention,
The output signals of the plurality of microphones are divided into a plurality of bands that are sufficiently narrow, the parameter values of the acoustic signal in each band are detected, the difference between the same bands is detected, and the parameter value difference is determined by a threshold. Compared to the value, the speaker's voice signal can be correctly separated from other acoustic signals, and howling can be sufficiently suppressed with a relatively simple configuration. Moreover, there is little deterioration of sound.

【0075】また受信信号を、帯域内のそのレベル(パ
ワー)が十分無視できる程度の帯域が存在する程度に十
分狭い複数の帯域に分割し、この信号を無視できる帯域
のみ、分離抽出した音声信号の成分を取出して、音声合
成し、又は帯域分割された受信信号から、音声合成して
送信する帯域の成分を除去して、その除去された分割帯
域受信信号を音声合成して電気音響変換器へ供給するこ
とにより、ハウリングの発生を一層、確実に抑えること
ができる。
The received signal is divided into a plurality of bands that are sufficiently narrow so that there is a band whose level (power) in the band is sufficiently negligible, and only the band in which the signal can be ignored is separated and extracted. The component of the band to be synthesized and transmitted is removed from the received signal subjected to voice synthesis or band division, and the removed divided band received signal is subjected to voice synthesis to obtain an electroacoustic converter. By supplying to the hopper, howling can be suppressed more reliably.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明装置の主要構成を示すブロック図。FIG. 1 is a block diagram showing a main configuration of a device of the present invention.

【図2】この発明に用いられる音源分離部の実施例の機
能構成を示すブロック図。
FIG. 2 is a block diagram showing a functional configuration of an embodiment of a sound source separation unit used in the present invention.

【図3】この発明に用いられる音源分離方法の実施例の
処理手順を示す流れ図。
FIG. 3 is a flowchart showing a processing procedure of an embodiment of a sound source separation method used in the present invention.

【図4】図3中のチャネル間時間差Δτ1 ,Δτ2 を求
める処理手順の例を示す流れ図。
FIG. 4 is a flowchart showing an example of a processing procedure for obtaining time differences Δτ 1 and Δτ 2 between channels in FIG. 3;

【図5】A,Bはそれぞれ二つの音源信号のスペクトル
の例を示す図である。
FIGS. 5A and 5B are diagrams illustrating examples of spectra of two sound source signals, respectively.

【図6】音源分離方法で、チャネル間レベル差を利用し
て音源分離を行う実施例の処理手順を示す流れ図。
FIG. 6 is a flowchart showing a processing procedure of an embodiment in which sound source separation is performed using a level difference between channels in a sound source separation method.

【図7】音源分離方法で、チャネル間レベル差と、チャ
ネル間到達時間差を利用する実施例の処理手順の一部を
示す流れ図。
FIG. 7 is a flowchart showing a part of a processing procedure of an embodiment using an inter-channel level difference and an inter-channel arrival time difference in a sound source separation method.

【図8】図7中のステップS08の続きを示す流れ図。FIG. 8 is a flowchart showing a continuation of step S08 in FIG. 7;

【図9】図7中のステップS09の続きを示す流れ図。FIG. 9 is a flowchart showing a continuation of step S09 in FIG. 7;

【図10】図7中のステップS10、図7、図8中のス
テップS20,S30の続きを示す流れ図。
FIG. 10 is a flowchart showing a continuation of step S10 in FIG. 7 and steps S20 and S30 in FIGS. 7 and 8;

【図11】周波数帯域が異なる音源信号を分離する実施
例の機能構成を示すブロック図。
FIG. 11 is a block diagram showing a functional configuration of an embodiment for separating sound source signals having different frequency bands.

【図12】この発明の回り込み音抑圧形収音装置の実施
例の機能構成を示すブロック図。
FIG. 12 is a block diagram showing a functional configuration of an embodiment of the sneak noise suppression type sound collecting device according to the present invention.

【図13】その他の実施例の機能構成の一部を示すブロ
ック図。
FIG. 13 is a block diagram showing a part of the functional configuration of another embodiment.

【図14】レベル差を利用して不要音源信号を抑圧する
構成を付加した音源分離部の実施例の機能構成を示すブ
ロック図。
FIG. 14 is a block diagram showing a functional configuration of an embodiment of a sound source separation unit to which a structure for suppressing an unnecessary sound source signal by using a level difference is added.

【図15】3つのマイクロホンとその受けもつゾーン
と、2つの音源の配置例を示す図。
FIG. 15 is a diagram showing an example of the arrangement of three microphones, their zones, and two sound sources.

【図16】発音している音源が1つの場合の音源ゾーン
の検出と、抑圧制御信号の生成処理手順の例を示す流れ
図。
FIG. 16 is a flowchart showing an example of a procedure for detecting a sound source zone and generating a suppression control signal when only one sound source is sounding;

【図17】この発明の更に他の実施例の機能構成を示す
ブロック図。
FIG. 17 is a block diagram showing a functional configuration of still another embodiment of the present invention.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 松井 弘行 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 ──────────────────────────────────────────────────の Continuing on the front page (72) Inventor Hiroyuki Matsui Nippon Telegraph and Telephone Corporation, 3-19-2 Nishi Shinjuku, Shinjuku-ku, Tokyo

Claims (35)

【特許請求の範囲】[Claims] 【請求項1】 対地よりの受信信号が電気音響変換手段
により変換された音響信号と、発話者よりの音声信号と
が存在する音響空間より、上記音声信号をマイクロホン
で収音して、上記対地へ送信する収音装置の上記音響信
号の回り込みを抑圧して上記音声信号を収音送信する方
法において、 上記マイクロホンとして複数のマイクロホンを互いに離
して設け、 これらマイクロホンの各出力チャネル信号を、それぞれ
複数の周波数帯域に分割すると共に、これら帯域分割さ
れた各チャネル信号の各帯域ごとに、上記複数のマイク
ロホンの位置に起因して変化する、マイクロホンに到達
する音響信号のパラメータ値を検出する帯域別パラメー
タ値検出過程と、 各同一帯域ごとに上記検出されたパラメータ値のチャネ
ル間の差を検出するパラメータ値差検出過程と、 これら検出されたパラメータ値差を用いて、予め設定さ
れたしきい値に基づき、上記帯域分割されたチャネル信
号から、上記音声信号成分を上記帯域単位で選択する音
声信号選択過程と、 これら選択された帯域の音声信号成分を音声信号に合成
する音声合成過程と、 その合成音声信号を上記対地へ送信する過程とを有する
回り込み音抑圧形収音方法。
1. A microphone which picks up a voice signal from a sound space in which a sound signal obtained by converting a reception signal from the ground by an electro-acoustic conversion means and a voice signal from a speaker exist, and In the method of collecting the sound signal by suppressing the wraparound of the acoustic signal of the sound pickup device to be transmitted to the plurality of microphones, a plurality of microphones are provided apart from each other as the microphone, and each output channel signal of the microphone is provided by a plurality. Band-specific parameters for detecting a parameter value of an acoustic signal arriving at the microphone, which varies according to the positions of the plurality of microphones, for each band of each of the band-divided channel signals. Value detection process, and a parameter for detecting a difference between channels of the detected parameter value for each same band. A value difference detection step, and using these detected parameter value differences, based on a preset threshold value, an audio signal selection for selecting the audio signal component from the band-divided channel signal in the unit of the band. A voice synthesis process for synthesizing voice signal components of these selected bands into a voice signal; and transmitting the synthesized voice signal to the ground.
【請求項2】 請求項1記載の方法において、 上記受信信号を、複数の周波数帯域に分割すると共にこ
れら帯域分割された受信信号の各帯域のレベルを検出す
るレベル検出過程と、 上記帯域分割された受信信号の各帯域ごとに、そのレベ
ルが所定値以下であれば送信可能帯域と判定する送信可
能帯域判定過程と、 上記音声信号選択過程で選択された帯域信号中の上記送
信可能と判定された帯域だけを選択して上記音声合成過
程へ送る送信可能選択過程とを有する回り込み音抑圧形
収音方法。
2. The method according to claim 1, wherein the received signal is divided into a plurality of frequency bands, and a level detecting step of detecting the level of each band of the band-divided received signal; For each band of the received signal, if the level is equal to or less than a predetermined value, a transmittable band determining step of determining a transmittable band, and the transmittable band signal selected in the audio signal selecting step is determined to be transmittable. And a transmission selectable step of selecting only the selected band and sending the selected band to the speech synthesis step.
【請求項3】 請求項2記載の方法において、 上記送信可能選択過程での選択制御を、上記電気音響変
換手段と上記マイクロホンとの間の音響信号の伝搬時間
と対応して遅らして行わせる遅延過程を有する回り込み
音抑圧形収音方法。
3. The method according to claim 2, wherein the selection control in the transmission enabled selection step is performed with a delay corresponding to a propagation time of an acoustic signal between the electroacoustic transducer and the microphone. A wraparound noise suppression type sound collection method having a delay process.
【請求項4】 請求項1記載の方法において、 上記受信信号を、複数の周波数帯域に分割する第2帯域
分割過程と、 上記音声信号選択過程で選択された帯域と対応する、上
記帯域分割された受信信号成分を除去する周波数成分除
去過程と、 上記成分除去された残りの受信信号の帯域成分を、時間
領域の信号に合成して上記電気音響変換手段へ供給する
再合成過程とを有する回り込み音抑圧形収音方法。
4. The method according to claim 1, wherein the received signal is divided into a plurality of frequency bands, a second band dividing step, and the band division corresponding to the band selected in the audio signal selecting step. And a re-synthesizing step of combining the band components of the remaining received signal from which the components have been removed with a signal in the time domain and supplying the signal to the electroacoustic conversion means. Sound suppression type sound collection method.
【請求項5】 請求項1〜4の何れかに記載の方法にお
いて、 上記各チャネル信号を複数の帯域に分割すると共に、こ
れら分割された信号の各帯域ごとに、上記複数のマイク
ロホンの位置に起因して変化するマイクロホンに到達す
る音響信号のパラメータ値を検出する第2帯域別パラメ
ータ値検出過程と、 これら検出された各帯域別パラメータ値を同一帯域につ
いてチャネル間で比較した結果にもとづき発話をしてい
ない発話者を検出する音源状態判定過程と、 その音源状態判定過程で得た発話をしていない発話者を
検出する検出信号により、上記音声合成過程で合成され
た音声信号のうち、上記発話していない発話者と対応す
る合成信号を抑圧する信号抑圧過程とを有する回り込み
音抑圧形収音方法。
5. The method according to claim 1, wherein each of the channel signals is divided into a plurality of bands, and a position of the plurality of microphones is set for each band of the divided signals. A second band-based parameter value detecting step of detecting a parameter value of an acoustic signal reaching a microphone which is changed due to the cause, and uttering an utterance based on a result of comparing the detected band-based parameter values in the same band between channels. A sound source state determination step of detecting a speaker who has not performed speech, and a detection signal for detecting a speaker who has not spoken obtained in the sound source state determination step. A sneaking sound suppressing type sound collecting method, comprising: a speaker who is not speaking and a signal suppressing process of suppressing a synthesized signal corresponding to the speaker.
【請求項6】 請求項1〜5の何れかの方法に記載の方
法において、 上記帯域別チャネル間パラメータ値差検出過程における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達するまでの時間であり、上記帯域別チャネ
ル間パラメータ値差は各マイクロホンに到達するまでの
時間のマイクロホン間の差である帯域別チャネル間時間
差であることを特徴とする回り込み音抑圧形収音方法。
6. The method according to claim 1, wherein the parameter value in the step of detecting a parameter value difference between channels for each band is determined until a sound signal from a sound source reaches each of the microphones. Wherein the inter-channel parameter value difference is a time difference between the microphones in the time required to reach each microphone.
【請求項7】 請求項1〜5の何れかに記載の方法にお
いて、 上記帯域別チャネル間パラメータ値差検出過程における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達した時の信号レベルであり、上記帯域別チ
ャネル間パラメータ値差は各分割された出力チャネル信
号の対応帯域間のレベル差である帯域別チャネル間レベ
ル差であることを特徴とする回り込み音抑圧形収音方
法。
7. The method according to claim 1, wherein the parameter value in the step of detecting a parameter value difference between channels for each band is a signal level when an acoustic signal from a sound source reaches each of the microphones. Wherein the inter-channel parameter value difference is a band-to-channel level difference which is a level difference between corresponding bands of the divided output channel signals.
【請求項8】 請求項1〜5の何れかに記載の方法にお
いて、 上記帯域別チャネル間パラメータ値差検出過程における
上記パラメータ値は音源からの音響信号が上記マイクロ
ホンに到達するまでの時間と、その音響信号が到達した
時の信号レベルであり上記帯域別チャネル間パラメータ
値差として帯域別チャネル間時間差と、帯域別チャネル
間レベル差が求められ、 上記チャネル間時間差を基準にして上記分割された各出
力チャネル信号を、低域、中域、高域の3つの周波数領
域に分け領域分割過程とを有し、 上記音声信号選択過程は、上記分割された低域の周波数
帯域については、上記帯域別チャネル間時間差を利用し
て上記選択を行い、上記分割された中域の周波数帯域に
ついては、上記帯域別チャネル間レベル差と、上記帯域
別チャネル間時間差を利用して、上記選択を行い、上記
分割された高域の周波数帯域については、上記帯域別チ
ャネル間レベル差を利用して、上記選択を行うことを特
徴とする回り込み音抑圧形収音方法。
8. The method according to claim 1, wherein the parameter value in the band-to-channel parameter value difference detecting process is a time required for an acoustic signal from a sound source to reach the microphone. It is the signal level when the sound signal arrives, and the band-to-channel parameter value difference is the band-to-channel time difference, and the band-to-channel level difference is obtained. Dividing each output channel signal into three frequency regions of a low band, a middle band, and a high band, and performing a region dividing process. The audio signal selecting process includes: The above-mentioned selection is performed using the time difference between different channels, and for the divided middle frequency band, the level difference between channels for each band and the channel difference for each band are described. The above-mentioned selection is performed by using the time difference between channels, and for the divided high frequency band, the above-described selection is performed by using the above-mentioned channel-by-band level difference between bands. Sound collection method.
【請求項9】 請求項1〜8の何れかに記載の方法にお
いて、 上記帯域分割されたチャネル信号に対し、一定値以下の
レベルの帯域は無音化する過程を含むことを特徴とする
回り込み音抑圧形収音方法。
9. The wraparound sound according to claim 1, further comprising a step of silencing a band having a level equal to or less than a predetermined value with respect to the band-divided channel signal. Suppressed sound collection method.
【請求項10】 請求項1〜9の何れかに記載の方法に
おいて、 上記帯域別チャネル間パラメータ値差が基準値より大な
るものは上記選択処理の対象外とする過程を含むことを
特徴とする回り込み音抑圧形収音方法。
10. The method according to claim 1, further comprising a step of excluding, when the parameter value difference between the bands is larger than a reference value, the selection process. Wraparound sound suppression type sound collection method.
【請求項11】 請求項1〜10の何れかに記載の方法
において、 上記音声合成過程により合成された合成音声信号に対
し、遅延した回り込み信号を除去する過程を含むことを
特徴とする回り込み音抑圧形収音方法。
11. The wraparound sound according to claim 1, further comprising a step of removing a delayed wraparound signal from the synthesized speech signal synthesized by the speech synthesis step. Suppressed sound collection method.
【請求項12】 請求項1〜8の何れかに記載の方法に
おいて、 上記帯域別パラメータを検出過程における帯域分割は各
帯域には主として、1つの音源の信号成分のみとなる程
度に狭い帯域とすることを特徴とする回り込み音抑圧形
収音方法。
12. The method according to any one of claims 1 to 8, wherein the band division in the process of detecting the band-specific parameters includes a band as narrow as possible so that only a signal component of one sound source is included in each band. A wraparound noise suppression type sound collecting method.
【請求項13】 請求項1〜8、12の何れかに記載の
方法において、 上記レベル検出過程における帯域分割は各帯域には主と
して1つの音源の信号成分のみとなる程度に狭い帯域と
することを特徴とする回り込み音抑圧形収音方法。
13. The method according to claim 1, wherein the band division in the level detection step is a band narrow enough that each band mainly includes only a signal component of one sound source. A wraparound noise suppression type sound collection method characterized by the following.
【請求項14】 請求項1〜8、12、13の何れかに
記載の方法において、 上記第2帯域別パラメータ値検出過程における帯域分割
は各帯域には主として1つの音源の信号成分のみとする
程度に狭い帯域とすることを特徴とする回り込み音抑圧
形収音方法。
14. The method according to any one of claims 1 to 8, 12 and 13, wherein the band division in the second band-specific parameter value detection process includes only one sound source signal component in each band. A sneak noise suppression type sound collection method characterized by a narrow band.
【請求項15】 対地よりの受信信号が電気音響変換手
段により変換された音響信号と、発話者よりの音声信号
とが存在する音響空間より、上記音声信号をマイクロホ
ンで収音して、上記対地へ送信する収音装置において、 上記マイクロホンとして互いに離して設けられた複数の
マイクロホンと、 これらマイクロホンの各出力チャネル信号を、それぞれ
複数の周波数帯域に分割すると共に、これら帯域分割さ
れた各チャネル信号の各帯域ごとに、上記複数のマイク
ロホンの位置に起因して変化する、マイクロホンに到達
する音響信号のパラメータ値を検出する帯域別パラメー
タ値検出手段と、 各同一帯域ごとに上記検出されたパラメータ値のチャネ
ル間の差を検出するパラメータ値差検出手段と、 これら検出されたパラメータ値差を用いて、予め設定さ
れたしきい値に基づき、上記帯域分割されたチャネル信
号から、上記音声信号成分を、上記帯域単位で選択する
音声信号選択手段と、 これら選択された帯域の音声信号成分を音声信号に合成
する音声合成手段と、 その合成音声信号を上記対地へ送信する手段とを備えて
いることを特徴とする回り込み音抑圧形収音装置。
15. A microphone that picks up the audio signal from a sound space in which a sound signal obtained by converting a reception signal from the ground by an electroacoustic conversion unit and a voice signal from a speaker exist, and A plurality of microphones provided apart from each other as the microphone, and each output channel signal of these microphones is divided into a plurality of frequency bands, and each of the band-divided channel signals is For each band, a parameter value detecting means for each band which detects a parameter value of an acoustic signal reaching the microphone, which changes due to the positions of the plurality of microphones, and a parameter value detecting means for each of the same bands. Parameter value difference detecting means for detecting a difference between channels, and using the detected parameter value differences, An audio signal selecting means for selecting the audio signal component from the band-divided channel signal based on a preset threshold value in band units; and converting the audio signal component of the selected band into an audio signal. A wraparound sound suppression type sound collection device comprising: a voice synthesis unit for synthesizing; and a unit for transmitting the synthesized voice signal to the ground.
【請求項16】 請求項15に記載の装置において、 上記受信信号を、複数の周波数帯域に分割すると共に、
これら分割された受信信号の各帯域のレベルを検出する
レベル検出手段と、 上記帯域分割された受信信号の各帯域ごとにそのレベル
が所定以下であれば送信可能帯域と判定する送信可能帯
域判定手段と、 上記音声信号選択手段で選択された帯域信号中の上記送
信可能と判定された帯域だけを選択して上記音声合成過
程へ送る送信可能選択手段とを有する回り込み音抑圧形
収音装置。
16. The apparatus according to claim 15, wherein the received signal is divided into a plurality of frequency bands,
Level detecting means for detecting the level of each band of the divided received signal; and transmittable band determining means for judging the transmittable band if the level of each band of the band-divided received signal is equal to or less than a predetermined level. And a transmission selectable means for selecting only a band determined to be transmittable in the band signal selected by the audio signal selection means and transmitting the selected band to the voice synthesis process.
【請求項17】 請求項16に記載の装置において、 上記送信可能選択手段での選択制御を、上記電気音響変
換手段と上記マイクロホンとの間の音響信号の伝搬時間
と対応して遅らして行わせる遅延手段を有する回り込み
音抑圧形収音装置。
17. The apparatus according to claim 16, wherein the selection control by said transmittable selection means is performed with a delay corresponding to a propagation time of an acoustic signal between said electroacoustic conversion means and said microphone. A wraparound sound suppressing type sound collecting device having a delay means for delaying.
【請求項18】 請求項1記載の装置において、 上記受信信号を、複数の周波数帯域に分割する第2帯域
分割手段と、 上記音源信号選択手段で選択された帯域と対応する、上
記帯域分割された受信信号を除去する周波数成分除去手
段と、 上記成分除去された残りの受信信号の帯域成分を時間領
域の信号に合成して上記電気音響変換手段へ供給する再
合成手段とを有する回り込み音抑圧形収音装置。
18. The apparatus according to claim 1, wherein said received signal is divided into a plurality of frequency bands by a second band dividing means, and said band division corresponding to the band selected by said sound source signal selecting means. Frequency component removing means for removing the received signal, and re-synthesizing means for combining the band component of the remaining received signal from which the component has been removed into a time-domain signal and supplying the signal to the electroacoustic converting means. Shape sound pickup device.
【請求項19】 請求項15〜18の何れかに記載の装
置において、 上記帯域別チャネル間パラメータ値差検出手段における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達するまでの時間であり、上記帯域別チャネ
ル間パラメータ値差は各マイクロホンに到達するまでの
時間のマイクロホン間の差である帯域別チャネル間時間
差であることを特徴とする回り込み音抑圧形収音装置。
19. The apparatus according to claim 15, wherein the parameter value in the band-specific inter-channel parameter value difference detecting means is a time until an acoustic signal from a sound source reaches each of the microphones. And wherein the inter-channel parameter value difference is a band-to-channel inter-channel time difference which is a difference between microphones in a time required to reach each microphone.
【請求項20】 請求項15〜18の何れかに記載の装
置において、 上記帯域別チャネル間パラメータ値差検出手段における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達した時の信号レベルであり、上記帯域別チ
ャネル間パラメータ値差は各分割された出力チャネル信
号の対応帯域間のレベル差である帯域別チャネル間レベ
ル差であることを特徴とする回り込み音抑圧形収音装
置。
20. The apparatus according to claim 15, wherein said parameter value in said band-by-band parameter value difference detecting means is a signal level when an acoustic signal from a sound source reaches each of said microphones. Wherein the inter-channel parameter value difference is a band-to-channel level difference which is a level difference between corresponding bands of the divided output channel signals.
【請求項21】 請求項15〜18の何れかに記載の装
置において、 上記帯域別チャネル間パラメータ値差検出手段における
上記パラメータ値は音源からの音響信号が上記マイクロ
ホンに到達するまでの時間と、その音響信号が到達した
時の信号レベルであり、上記帯域別チャネル間パラメー
タ値差は帯域別チャネル間時間差と、帯域別チャネル間
レベル差であり、 上記チャネル間時間差を基準にして、上記分割された各
出力チャネル信号を、低域、中域、高域の3つの周波数
領域に分ける領域分割手段とを有し、 上記音声信号選択手段は、上記分割された低域の周波数
帯域については、上記帯域別チャネル間時間差を利用し
て上記選択を行い、上記分割された中域の周波数帯域に
ついては、上記帯域別チャネル間レベル差と、上記帯域
別チャネル間時間差を利用して、上記選択を行い、上記
分割された高域の周波数帯域については、上記帯域別チ
ャネル間レベル差を利用して、上記選択を行う手段であ
ることを特徴とする回り込み音抑圧形収音装置。
21. The apparatus according to claim 15, wherein the parameter value in the band-specific inter-channel parameter value difference detecting means is a time required for an acoustic signal from a sound source to reach the microphone. The signal level when the sound signal arrives, the inter-channel parameter value difference by band is the inter-channel time difference by band, and the inter-channel level difference by band, and the division is performed based on the inter-channel time difference. And each of the output channel signals is divided into three frequency regions of a low band, a middle band, and a high band. The audio signal selecting unit includes: The above-mentioned selection is performed by using the time difference between the channels for each band, and for the divided middle frequency band, the level difference between the channels for each band and the channel difference for each band are obtained. Means for making the selection using the time difference between channels, and for the divided high frequency band, means for making the selection by using the level difference between the channels for each band. Sound suppression type sound collection device.
【請求項22】 請求項15〜18の何れかに記載の装
置において、 上記各チャネル信号を複数の周波数帯域に分割すると共
に、これら分割された信号の各帯域ごとに、上記複数の
マイクロホンの位置に起因して変化するマイクロホンに
到達する音響信号のパラメータ値を検出する第2帯域別
パラメータ値検出手段と、 これら検出された各帯域別パラメータ値を、同一帯域に
ついてチャネル間で比較した結果にもとづき発話をして
いない発話者を検出する音源状態判定手段と、 その音源状態判定手段で得た発話をしていない発話者を
検出する検出信号により、上記音声合成手段で合成され
た音声信号のうち、上記発話していない発話者と対応す
る合成信号を抑圧する信号抑圧手段とを有する回り込み
音抑圧形収音装置。
22. The apparatus according to claim 15, wherein each of the channel signals is divided into a plurality of frequency bands, and the position of the plurality of microphones is determined for each of the divided signal bands. A second band parameter value detecting means for detecting a parameter value of an acoustic signal reaching a microphone that changes due to the above, based on a result of comparing the detected band parameter values between channels for the same band. Sound source state determination means for detecting a speaker who is not speaking; and a detection signal for detecting a speaker who is not speaking obtained by the sound source state determination means. And a signal suppression unit for suppressing the synthesized signal corresponding to the speaker who is not speaking.
【請求項23】 請求項15〜21の何れかに記載の装
置において、 上記音声信号選択手段における上記しきい値を設定する
しきい値設定手段を有する回り込み音抑圧形収音装置。
23. The apparatus according to claim 15, further comprising a threshold value setting unit that sets the threshold value in the audio signal selection unit.
【請求項24】 請求項15〜21の何れかに記載の装
置において、 上記音声信号選択手段において、上記帯域別チャネル間
パラメータ値差が基準値より大なるものを判定対象外と
するための基準値を設定する手段を有する回り込み音抑
圧形収音装置。
24. The apparatus according to claim 15, wherein, in the audio signal selecting means, a signal for which the parameter value difference between channels for each band is larger than a reference value is excluded from a determination target. A wraparound noise suppression type sound collection device having a means for setting a value.
【請求項25】 請求項15〜21の何れかに記載の装
置において、 上記音声信号選択手段において、一定値以下のレベルの
帯域成分を無音とする判定基準を設定する基準値設定手
段を有する回り込み音抑圧形収音装置。
25. The apparatus according to claim 15, wherein said audio signal selecting means includes reference value setting means for setting a criterion for determining a band component having a level equal to or less than a predetermined value as silence. Sound suppression type sound collection device.
【請求項26】 請求項15〜21の何れかに記載の装
置において、 上記音源信号合成手段よりの合成信号に対し、遅延した
回り込み信号を除去する除去手段を設ける回り込み音抑
圧形収音装置。
26. The apparatus according to claim 15, further comprising removing means for removing a delayed sneak signal from the synthesized signal from the sound source signal synthesizing means.
【請求項27】 対地よりの受信信号が電気音響変換手
段により変換された音響信号と、発話者よりの音声信号
とが存在する音響空間より、上記音声信号をマイクロホ
ンで収音して、上記対地へ送信する収音装置における上
記音響信号の回り込みを抑圧して上記音声信号を収音送
信するプログラムを記録した記録媒体であって、 上記プログラムは、 上記各マイクロホンの各出力チャネル信号を、複数の周
波数帯域に分割すると共に、これら分割された各出力チ
ャネル信号の各帯域ごとに、上記複数のマイクロホンの
位置に起因して変化する、マイクロホンに到達する音響
信号のパラメータの値の差を、帯域別チャネル間パラメ
ータ値差として検出する帯域別チャネル間パラメータ値
差検出過程と、 上記各帯域の帯域別チャネル間パラメータ値差を用いて
予め設定されたしきい値にもとづき、上記帯域分割され
た出力チャネル信号から、上記音声信号成分を上記帯域
単位で選択する音声信号選択過程と、 上記音声信号選択過程で選択された複数帯域の音声信号
成分を音声信号として合成する音声合成過程と、 その合成された合成音声信号を上記対地へ送信する過程
とを有するコンピュータにより読出し可能な記録媒体。
27. A microphone which picks up the sound signal from a sound space in which a sound signal obtained by converting a received signal from the ground by an electro-acoustic conversion means and a sound signal from a speaker exist, and A recording medium that records a program that suppresses the wraparound of the acoustic signal in the sound collection device that transmits the sound signal and collects and transmits the sound signal, wherein the program is configured to convert each output channel signal of each microphone into a plurality of microphones. The frequency band is divided into frequency bands, and for each band of each of the divided output channel signals, a difference between parameter values of an acoustic signal reaching the microphones, which varies due to the positions of the plurality of microphones, is classified by band. A band-by-band parameter value difference detection process for detecting as a channel-to-channel parameter value difference; An audio signal selection step of selecting the audio signal component in the band unit from the band-divided output channel signal based on a threshold value set in advance using the difference, and an audio signal component selected in the audio signal selection step. A computer-readable recording medium having a voice synthesizing step of synthesizing voice signal components of a plurality of bands as a voice signal, and a step of transmitting the synthesized voice signal to the ground.
【請求項28】 請求項27に記載の記録媒体におい
て、 上記プログラムは上記受信信号を、複数の周波数帯域に
分割すると共に分割された各帯域の受信信号のレベルを
検出する帯域別レベル検出過程と、 上記帯域分割された受信信号の各帯域ごとに、その上記
検出レベルが所定以下であれば送信可能帯域と判定する
送信可能帯域判定過程と、 上記音声信号選択過程で選択された帯域信号中の上記送
信可能と判定された帯域だけを選択して上記音源合成過
程へ送る送信可能選択過程とを有することを特徴とする
記録媒体。
28. The recording medium according to claim 27, wherein the program divides the reception signal into a plurality of frequency bands and detects a level of the reception signal in each of the divided bands. A transmittable band determining step of determining a transmittable band if the detection level is equal to or less than a predetermined value, for each band of the band-divided received signal, and in the band signal selected in the audio signal selecting step, A transmission possible selecting step of selecting only the band determined to be transmittable and transmitting the selected band to the sound source synthesizing step.
【請求項29】 請求項28に記載の記録媒体におい
て、 上記プログラムは上記送信可能選択過程での選択制御
を、上記電気音響変換手段と上記マイクロホンとの間の
音響信号の伝搬時間と対応して遅らせて行わせる遅延過
程を有する記録媒体。
29. The recording medium according to claim 28, wherein the program performs selection control in the transmittable selection step in accordance with a propagation time of an acoustic signal between the electroacoustic conversion unit and the microphone. A recording medium having a delay process to be performed with a delay.
【請求項30】 請求項27に記載の記録媒体におい
て、 上記プログラムは上記受信信号を、複数の周波数帯域に
分割する第2帯域分割過程と、 上記音声信号選択過程で選択された帯域と対応する、上
記帯域分割された受信信号を除去する周波数成分除去過
程と、 上記成分除去された帯域分割された受信信号の残りの帯
域成分を時間領域の信号に合成して上記電気音響変換手
段へ供給する再合成過程とを有することを特徴とする記
録媒体。
30. The recording medium according to claim 27, wherein the program corresponds to a second band division step of dividing the reception signal into a plurality of frequency bands, and a band selected in the audio signal selection step. A frequency component removing step of removing the band-divided received signal, and combining the remaining band component of the band-divided received signal from which the component has been removed with a time-domain signal and supplying the time-domain signal to the electroacoustic conversion means. A recording medium having a re-synthesis process.
【請求項31】 請求項27〜30の何れかに記載の記
録媒体において、 上記帯域別チャネル間パラメータ値差検出過程における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達するまでの時間であり、上記帯域別チャネ
ル間パラメータ値差は各マイクロホンに到達するまでの
時間のマイクロホン間の差である帯域別チャネル間時間
差であることを特徴とする記録媒体。
31. The recording medium according to claim 27, wherein the parameter value in the band-by-band parameter value difference detection process is a time required for an acoustic signal from a sound source to reach each of the microphones. Wherein the difference between band-specific parameter values is a time difference between channels, which is a difference between microphones in a time required to reach each microphone.
【請求項32】 請求項27〜30の何れかに記載の記
録媒体において、 上記帯域別チャネル間パラメータ値差検出過程における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達した時の信号レベルであり、上記帯域別チ
ャネル間パラメータ値差は各分割された出力チャネル信
号の対応帯域間のレベル差である帯域別チャネル間レベ
ル差であることを特徴とする記録媒体。
32. The recording medium according to claim 27, wherein the parameter value in the band-by-band parameter value difference detection process is a signal when an acoustic signal from a sound source reaches each of the microphones. The recording medium according to claim 1, wherein the parameter value difference between bands is a level difference between channels, which is a level difference between corresponding bands of the divided output channel signals.
【請求項33】 請求項27〜30の何れかに記載の記
録媒体において、 上記パラメータ値は音源からの音響信号が上記マイクロ
ホンに到達するまでの時間と、その音響信号が到達した
時の信号レベルであり、上記帯域別チャネル間パラメー
タ値差は帯域別チャネル間時間差と、帯域別チャネル間
レベル差であり、 上記チャネル間時間差を基準にして、上記分割された各
出力チャネル信号を、 低域、中域、高域の3つの周波数領域に分ける領域分割
過程とを有し、 上記音声信号選択過程は、 上記分割された低域の周波数帯域については、上記帯域
別チャネル間時間差を利用して上記選択を行い、上記分
割された中域の周波数帯域については、上記帯域別チャ
ネル間レベル差と、上記帯域別チャネル間時間差を利用
して、上記選択を行い、上記分割された高域の周波数帯
域については、上記帯域別チャネル間レベル差を利用し
て、上記選択を行う過程であることを特徴とする記録媒
体。
33. The recording medium according to claim 27, wherein the parameter value is a time until an acoustic signal from a sound source reaches the microphone and a signal level when the acoustic signal reaches the microphone. Wherein the inter-channel parameter value difference by band is a time difference between channels by band and a level difference between channels by band.Based on the time difference between channels, each of the divided output channel signals is And a region dividing step of dividing the frequency band into three frequency regions of a middle band and a high band. The audio signal selecting step is characterized in that, for the divided low band frequency band, using the time difference between channels for each band. Selection, and for the divided middle frequency band, the selection is performed using the inter-channel level difference between the bands and the inter-channel time difference between the bands. The frequency band of the divided high frequency band, using the level difference between the per-band channel, a recording medium which is a process of performing the selection.
【請求項34】 請求項27〜33の何れかに記載の記
録媒体において、 上記プログラムは、 各チャネル信号を複数の周波数帯域に分割すると共にこ
れら分割された信号の各帯域ごとに、上記複数のマイク
ロホン位置に起因して変化するマイクロホンに到達する
音響信号のパラメータ値を検出する第2帯域別パラメー
タ値検出過程と、 これら検出された各帯域別パラメータ値を、同一帯域に
ついてチャネル間で比較した結果にもとづき発話をして
いない発話者を検出する音源状態判定過程と、 その音源状態判定過程で得た発話をしていない発話者を
検出する検出信号により、上記音声合成過程で合成され
た音声信号のうち、上記発話していない発話者と対応す
る合成信号を抑圧する信号抑圧過程とを有することを特
徴とする記録媒体。
34. The recording medium according to claim 27, wherein the program divides each channel signal into a plurality of frequency bands and, for each band of the divided signals, A second band parameter value detection process of detecting a parameter value of an acoustic signal reaching the microphone that changes due to the microphone position, and a result of comparing these detected band parameter values between channels in the same band. A sound signal synthesized in the above-described speech synthesis process by a sound source state determination process for detecting a speaker who is not speaking based on the sound source state detection process and a detection signal for detecting a speaker who is not uttering obtained in the sound source state determination process. And a signal suppressing step of suppressing a synthesized signal corresponding to the speaker who is not speaking.
【請求項35】 請求項27〜34の何れかに記載の記
録媒体において、 上記プログラムは、 上記音声合成過程により合成された合成音声信号に対
し、遅延した回り込み信号を除去する過程を含むことを
特徴とする記録媒体。
35. The recording medium according to claim 27, wherein the program includes a step of removing a delayed wraparound signal from the synthesized speech signal synthesized by the speech synthesis step. Characteristic recording medium.
JP26465297A 1997-03-13 1997-09-29 Receiving method, apparatus and recording medium Expired - Lifetime JP3384540B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26465297A JP3384540B2 (en) 1997-03-13 1997-09-29 Receiving method, apparatus and recording medium

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7666897 1997-03-13
JP9-76668 1997-03-13
JP26465297A JP3384540B2 (en) 1997-03-13 1997-09-29 Receiving method, apparatus and recording medium

Publications (2)

Publication Number Publication Date
JPH10313498A true JPH10313498A (en) 1998-11-24
JP3384540B2 JP3384540B2 (en) 2003-03-10

Family

ID=26417799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26465297A Expired - Lifetime JP3384540B2 (en) 1997-03-13 1997-09-29 Receiving method, apparatus and recording medium

Country Status (1)

Country Link
JP (1) JP3384540B2 (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006043413A1 (en) * 2004-10-19 2006-04-27 Sony Corporation Audio signal processing device and audio signal processing method
JP2007067780A (en) * 2005-08-31 2007-03-15 Kumamoto Univ Output controller
JP2008141718A (en) * 2006-11-02 2008-06-19 Hitachi Communication Technologies Ltd Acoustic echo canceller system
JP2008185834A (en) * 2007-01-30 2008-08-14 Fujitsu Ltd Sound determination method, sound determination apparatus and computer program
JP2009503568A (en) * 2005-07-22 2009-01-29 ソフトマックス,インコーポレイテッド Steady separation of speech signals in noisy environments
WO2009034686A1 (en) * 2007-09-11 2009-03-19 Panasonic Corporation Sound judging device, sound sensing device, and sound judging method
JP2009147654A (en) * 2007-12-13 2009-07-02 Sony Corp Sound processor, sound processing system, and sound processing program
WO2010038385A1 (en) * 2008-09-30 2010-04-08 パナソニック株式会社 Sound determining device, sound determining method, and sound determining program
WO2010038386A1 (en) * 2008-09-30 2010-04-08 パナソニック株式会社 Sound determining device, sound sensing device, and sound determining method
JP2011085904A (en) * 2009-10-15 2011-04-28 Honda Research Inst Europe Gmbh Sound separated from noise with reference information
JP2011120116A (en) * 2009-12-04 2011-06-16 Roland Corp Musical sound signal processing apparatus

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8442241B2 (en) 2004-10-19 2013-05-14 Sony Corporation Audio signal processing for separating multiple source signals from at least one source signal
WO2006043413A1 (en) * 2004-10-19 2006-04-27 Sony Corporation Audio signal processing device and audio signal processing method
KR101229386B1 (en) * 2004-10-19 2013-02-05 소니 주식회사 Audio signal processing device and audio signal processing method
JP2009503568A (en) * 2005-07-22 2009-01-29 ソフトマックス,インコーポレイテッド Steady separation of speech signals in noisy environments
JP2007067780A (en) * 2005-08-31 2007-03-15 Kumamoto Univ Output controller
JP2008141718A (en) * 2006-11-02 2008-06-19 Hitachi Communication Technologies Ltd Acoustic echo canceller system
JP2008185834A (en) * 2007-01-30 2008-08-14 Fujitsu Ltd Sound determination method, sound determination apparatus and computer program
US8352274B2 (en) 2007-09-11 2013-01-08 Panasonic Corporation Sound determination device, sound detection device, and sound determination method for determining frequency signals of a to-be-extracted sound included in a mixed sound
WO2009034686A1 (en) * 2007-09-11 2009-03-19 Panasonic Corporation Sound judging device, sound sensing device, and sound judging method
JP2009147654A (en) * 2007-12-13 2009-07-02 Sony Corp Sound processor, sound processing system, and sound processing program
WO2010038386A1 (en) * 2008-09-30 2010-04-08 パナソニック株式会社 Sound determining device, sound sensing device, and sound determining method
JPWO2010038386A1 (en) * 2008-09-30 2012-02-23 パナソニック株式会社 Sound determination device, sound detection device, and sound determination method
JPWO2010038385A1 (en) * 2008-09-30 2012-02-23 パナソニック株式会社 Sound determination device, sound determination method, and sound determination program
JP4547042B2 (en) * 2008-09-30 2010-09-22 パナソニック株式会社 Sound determination device, sound detection device, and sound determination method
JP4545233B2 (en) * 2008-09-30 2010-09-15 パナソニック株式会社 Sound determination device, sound determination method, and sound determination program
WO2010038385A1 (en) * 2008-09-30 2010-04-08 パナソニック株式会社 Sound determining device, sound determining method, and sound determining program
JP2011085904A (en) * 2009-10-15 2011-04-28 Honda Research Inst Europe Gmbh Sound separated from noise with reference information
JP2011120116A (en) * 2009-12-04 2011-06-16 Roland Corp Musical sound signal processing apparatus

Also Published As

Publication number Publication date
JP3384540B2 (en) 2003-03-10

Similar Documents

Publication Publication Date Title
US6130949A (en) Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
JP3355598B2 (en) Sound source separation method, apparatus and recording medium
CN106664473B (en) Information processing apparatus, information processing method, and program
KR101444100B1 (en) Noise cancelling method and apparatus from the mixed sound
KR100750440B1 (en) Reverberation estimation and suppression system
CN101826892B (en) Echo canceller
US9269343B2 (en) Method of controlling an update algorithm of an adaptive feedback estimation system and a decorrelation unit
US20080317260A1 (en) Sound discrimination method and apparatus
WO2009145192A1 (en) Voice detection device, voice detection method, voice detection program, and recording medium
JP6019969B2 (en) Sound processor
WO2007018293A1 (en) Sound source separating device, speech recognizing device, portable telephone, and sound source separating method, and program
JP3384540B2 (en) Receiving method, apparatus and recording medium
JP2012189907A (en) Voice discrimination device, voice discrimination method and voice discrimination program
JP4448464B2 (en) Noise reduction method, apparatus, program, and recording medium
JPH11249693A (en) Sound collecting device
JP2000081900A (en) Sound absorbing method, and device and program recording medium therefor
JP3411648B2 (en) Automotive audio equipment
JP3756828B2 (en) Reverberation elimination method, apparatus for implementing this method, program, and recording medium therefor
JP6840302B2 (en) Information processing equipment, programs and information processing methods
Freudenberger et al. A noise PSD and cross-PSD estimation for two-microphone speech enhancement systems
JPH09311696A (en) Automatic gain control device
JP5076974B2 (en) Sound processing apparatus and program
As' ad et al. Binaural beamforming with spatial cues preservation for hearing aids in real-life complex acoustic environments
Hoffmann et al. Towards audio signal equalization based on spectral characteristics of a listening room and music content reproduced
JPH07111527A (en) Voice processing method and device using the processing method

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071227

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081227

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091227

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101227

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101227

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111227

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111227

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121227

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121227

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131227

Year of fee payment: 11

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term