JPH0327698A - Sound signal detection method - Google Patents

Sound signal detection method

Info

Publication number
JPH0327698A
JPH0327698A JP2059641A JP5964190A JPH0327698A JP H0327698 A JPH0327698 A JP H0327698A JP 2059641 A JP2059641 A JP 2059641A JP 5964190 A JP5964190 A JP 5964190A JP H0327698 A JPH0327698 A JP H0327698A
Authority
JP
Japan
Prior art keywords
microphone
noise
sound
power
receiver
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2059641A
Other languages
Japanese (ja)
Other versions
JP2913105B2 (en
Inventor
Yutaka Kaneda
豊 金田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2059641A priority Critical patent/JP2913105B2/en
Publication of JPH0327698A publication Critical patent/JPH0327698A/en
Application granted granted Critical
Publication of JP2913105B2 publication Critical patent/JP2913105B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To detect a desired sound period under non-steady state noise by providing a microphone array system having a directivity control function and a sound receiver with a different S/N from the system at the same position and deciding a power difference of received sound for a time period. CONSTITUTION:A 1st sound receiver 41 outputting a signal with high S/N consists of a microphone array 51 making up of plural microphone elements and a directivity characteristic control section 52. On the other hand, a 2nd sound receiver outputs a signal with low S/N. The receivers are placed at the same location and power calculation sections 43, 44 detect the power for a time period for a short period respectively. A sound period detection section 45 detects the difference and when the value is within a prescribed range, it is decided to receive an object signal. There is a difference in the S/N in the two signals by the method and since noise and sound period are timewise matched, a desired sound period is detected under non-steady-state noise.

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、雑音と所望の音響信号が混在する信号に対し
て、所望の音響信号の存在する時間区間を検出する音響
検出方法に関する. [従来の技術] 近年、音声認識装置の開発はめざましいものがあるが、
耐雑音性のある音声認識装置の開発は遅れている。その
理由は、雑音環境下で正しく音声区間検出(時間軸上で
音声が存在する時間区間を判定すること)を行うことが
難しいという点にある.ja音区間を誤って音声と判定
した場合、雑音をむりやり何かの音韻と対応づけてしま
うため、正しい音声認識結果を得ることは不可能である
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a sound detection method for detecting a time period in which a desired sound signal exists in a signal in which noise and a desired sound signal are mixed. [Prior art] In recent years, there has been remarkable development of speech recognition devices.
The development of noise-resistant speech recognition devices is slow. The reason for this is that it is difficult to correctly detect speech segments (determine the time segment in which speech exists on the time axis) in a noisy environment. If the ja sound section is mistakenly determined to be speech, the noise is forced to be associated with some phoneme, making it impossible to obtain correct speech recognition results.

従って雑音下でも良好に動作する音声区間検出技術の開
発は大変重要なものと考えられている.第13図は第1
の従来の音声区間検出法を説明する図である.同図は、
信号の短時間パワーの時間的変化を表すもので、縦軸は
マイクロホンから出力された信号の短時間パワーを、横
軸は時刻を表している.以下、本明細書では特に明記し
ない場合、「パワー」とLt短時間パワーを表している
.信号には定常雑音11(時間的にパワーがほぼ一定の
雑音:例えば、空調雑音や機器のファン雑音)、非定常
雑音12(時間的にパワーが大きく変動する雑音:PA
えば、ドアの閉まる音や不要な音声)および(所望の)
音声13が含まれている.定常雑音のパワーは事前に知
ることは可能であるが、非定常雑音のパワーは予測不可
能である. 第1の従来法は、信号のパワーの監視を続
け、そのパワーが、定常雑音のパワーに基づいて決定さ
れる閾値Thl 4より大きくなった時間区間を音声区
間と判定するものである。現在の音声認識装置の大半は
、この方法を用いて音声区間検出を行っている。
Therefore, the development of speech segment detection technology that works well even under noisy conditions is considered to be extremely important. Figure 13 is the first
FIG. 2 is a diagram illustrating a conventional speech interval detection method. The figure is
It represents the temporal change in the short-term power of the signal, with the vertical axis representing the short-term power of the signal output from the microphone, and the horizontal axis representing time. Hereinafter, in this specification, unless otherwise specified, "power" and Lt short-time power are used. The signal includes stationary noise 11 (noise whose power is almost constant over time: for example, air conditioning noise or equipment fan noise), non-stationary noise 12 (noise whose power fluctuates greatly over time: PA
(for example, the sound of a door closing or unwanted sounds) and (desired)
Contains 13 sounds. Although it is possible to know the power of stationary noise in advance, the power of non-stationary noise is unpredictable. The first conventional method continues to monitor the power of the signal, and determines a time period in which the power becomes larger than a threshold value Thl 4 determined based on the power of stationary noise to be a speech period. Most current speech recognition devices use this method to detect speech segments.

しかしこの方法では、第■3図に示す正しい音声区間1
6の検出も行えるが、パワーの大きい非定常雑音区間1
5も誤って音声区間と判定してしまうという大きな問題
点があった.この点を解決する第2の従来法は2個のマ
イクロホンを用いて、一方のマイクロホンは音声と周囲
雑音とのSN比が大きく、他のマイクロホンはSN比が
小さくなるように、即ち2つのマイクロホン出力にSN
比の差が生じるように設置される.この事を実現するマ
イクロホンの具体的設置方法としては、第14図(a)
に示すように第1のマイクロホン1は発声者3の近くに
、第2のマイクロホン2は発声者3から遠くの場所にそ
れぞれ設置する方法、あるいは第14図(b)示すよう
に第1のマイクロホン1は発声者3の正面に、第2のマ
イクロホン2は発声者3の側面にそれぞれ設置する方法
などが考えられる。これらの設置方法を行えば、第1の
マイクロホン1より出力される音声パワーは第2のマイ
クロホン2より出力される音声パワーより大きく一方、
電音は遠方で発生すると考えると、両マイクロホン1、
2の出力における雑音パワーはほぼ等しく、その結果、
2つのマイクロホン1、2の出力にSN比の差が生じる
.第15図は第2の従来法の理想的動作を説明する図で
、第15図(a>は第1のマイクロホン出力の短時間パ
ワーPlの時間的変化を、第15図(b)は第2のマイ
クロホン出力の短時間パワーP2の時間的変化を表し、
それぞれの図において、第13図と同様に、11は定常
雑音、12は非定常雑音、13は音声を表している。2
つのマイクロホンをSN比の差が生じるように設置した
結果、短時間パワーP2における音声のパワーは、短時
間パワーptにおける音声のパワーより小さくなり、一
方、雑音のパワーは両者において等しくなっている.第
2の従来法では、第15図(C)に示すように、2つの
信号の短時間バワーP1とP2の差PD(PD=P1−
P2)を計算し、このパワー差PDが、記号17で示す
ある閾値pthより大きくなった時間区間18を音声区
間と判定するものである.第15図(C)より、第2の
従来法では、第1の従来法のようにパワーの大きな非定
常雑音12の区間を誤って音声区間と判定する問題は生
じないことがわかる。
However, with this method, the correct voice section 1 shown in Figure 3
6 can also be detected, but non-stationary noise section 1 with large power can also be detected.
5 also had a major problem in that it was incorrectly determined to be a voice section. The second conventional method to solve this problem is to use two microphones, one microphone has a large S/N ratio between the voice and ambient noise, and the other microphone has a small S/N ratio. SN on output
They are installed so that there is a difference in ratio. The specific method of installing the microphone to achieve this is shown in Figure 14 (a).
As shown in FIG. 14(b), the first microphone 1 is installed near the speaker 3, and the second microphone 2 is installed far from the speaker 3. Alternatively, as shown in FIG. A conceivable method is to install the microphone 1 in front of the speaker 3 and the second microphone 2 on the side of the speaker 3. If these installation methods are used, the audio power output from the first microphone 1 will be greater than the audio power output from the second microphone 2.
Considering that electric sounds occur far away, both microphones 1,
The noise powers at the outputs of 2 are approximately equal, so that
A difference in SN ratio occurs between the outputs of the two microphones 1 and 2. FIG. 15 is a diagram explaining the ideal operation of the second conventional method. 2 represents the temporal change in the short-term power P2 of the microphone output,
In each figure, as in FIG. 13, 11 represents stationary noise, 12 represents unsteady noise, and 13 represents voice. 2
As a result of installing the two microphones so that a difference in signal-to-noise ratio occurs, the voice power at the short-time power P2 is smaller than the voice power at the short-time power pt, while the noise power is equal in both. In the second conventional method, as shown in FIG. 15(C), the difference PD (PD=P1−
P2), and a time interval 18 in which this power difference PD is greater than a certain threshold value pth indicated by symbol 17 is determined to be a voice interval. It can be seen from FIG. 15(C) that the second conventional method does not have the problem of erroneously determining a section of large-power non-stationary noise 12 as a speech section, unlike the first conventional method.

しかし、実際には、この第2の従来法が、このように理
想的に動作することはまれである.その理由は、2つの
信号のパワー差を利用して利用して音声区間検出を正し
く行うためには、以下の3つの条件が満足さている必要
がある. 条件1:2つの信号にSN比の差があること。
However, in reality, this second conventional method rarely works as ideally. The reason for this is that the following three conditions must be satisfied in order to correctly detect a speech segment using the power difference between two signals. Condition 1: There is a difference in SN ratio between the two signals.

条件2:2つの信号における雑音区間および音声区間が
、ともに時間的に整合していること。
Condition 2: Both the noise section and the voice section in the two signals are temporally consistent.

条件3:種々の環境条件の変動による上記SN比の差の
変動が小さいこと。(SN比の差の安定性) ところが、第2の従来法では上記第1の条件にのみ注目
し、第2および第3の条件を考慮していないため、以下
に述べる問題点が発生する.まず、第1の問題点につい
て説明する。第16図は第14図(a)に雑音源4を書
き加えたものである.この時、音声は第1のマイクロホ
ン1に先ず入力され、次に第2のマイクロホン2に入力
される。一方、雑音は第2のマイクロホン2に先ず入力
され、次に第1のマイクロホン1に入力される.従って
、2つのマイクロホンの出力信号において音声区間およ
び雑音区間は整合しない.この事を第17図に示した.
第17図(a)は第1のマイクロホン出力の短時間パワ
ーP1を、第17図(b)は第2のマイクロホン出力の
短時間バワーP2を、第17図(C)はその短時間パワ
ーの差PDをそれぞれ表している.また、11は定常雑
音、12は非定常雑音、13は音声を表していることは
第15図の例と同様である.第17図(a)、(b)に
おける音声と誰音のパワーの大きさの関係は、第15図
(a)、(b)におけるそれと同一である.しかし一第
17図では、音声は第2のマイクロホンの出力において
、第1のマイクロホンの出力より記号3lで示す時間τ
Sだけ遅れたものとなっており,雑音は記号32で示す
時間τNだけ進んだものとなっている。
Condition 3: The variation in the difference in the SN ratio due to variations in various environmental conditions is small. (Stability of difference in SN ratio) However, the second conventional method focuses only on the first condition and does not consider the second and third conditions, which causes the following problems. First, the first problem will be explained. Figure 16 is a diagram with noise source 4 added to Figure 14(a). At this time, audio is first input to the first microphone 1 and then input to the second microphone 2. On the other hand, noise is first input to the second microphone 2 and then input to the first microphone 1. Therefore, the voice section and the noise section do not match in the output signals of the two microphones. This is shown in Figure 17.
17(a) shows the short-time power P1 of the first microphone output, FIG. 17(b) shows the short-time power P2 of the second microphone output, and FIG. 17(C) shows the short-time power P1 of the first microphone output. Each represents the difference PD. Also, as in the example of FIG. 15, 11 represents stationary noise, 12 represents non-stationary noise, and 13 represents voice. The relationship between the power magnitude of the voice and the voice in FIGS. 17(a) and (b) is the same as that in FIGS. 15(a) and (b). However, in FIG. 17, the sound is transmitted at the output of the second microphone for a time τ, indicated by the symbol 3l, from the output of the first microphone.
The noise is delayed by S, and the noise is advanced by a time τN indicated by symbol 32.

即ち、音声区間と雑音区間は、共に、時間的に整合して
いない.その結果、2つの信号のパワーの差PDは第1
7図(c)のように第15図<C)とは異なったものと
なり、記号l7で示す閾値Pt.h以上の区間を音声区
間を判定した場合には、第17図(C)の記号33に示
した区間が誤って音声区間と判定されてしまうという第
1の問題が生じる。この雑音区間の記号32で示す時間
差τNは、雑音源の位置により大きく変化するため、遅
延器などを用いて整合性を計ることは不可能である. 次に、第2の問題として、実際の環境においては、2つ
のマイクロホン出力信号間のSN比の差を変動させる種
々の要因が存在し、2つの信号間のSN比の差の安定性
を確保することは難しいということを説明する. 変動要因の第1としては、雑音源の位置がある.前述の
説明では、雑音源は遠方にあると仮定したが、雑音源が
比較的近い位置にある時には、雑音源の位置はSN比の
差の大きな変動要因になる。
In other words, both the speech interval and the noise interval are not temporally consistent. As a result, the power difference PD between the two signals is the first
As shown in FIG. 7(c), the result is different from FIG. 15<C), and the threshold value Pt. If a section of h or more is determined to be a voice section, the first problem arises in that the section indicated by symbol 33 in FIG. 17(C) is erroneously determined to be a voice section. Since the time difference τN shown by symbol 32 in this noise section varies greatly depending on the position of the noise source, it is impossible to measure the consistency using a delay device or the like. Next, the second problem is that in the actual environment, there are various factors that cause the difference in SNR between two microphone output signals to fluctuate, and it is difficult to ensure the stability of the difference in SNR between the two signals. Explain that it is difficult to do so. The first variable factor is the position of the noise source. In the above description, it is assumed that the noise source is located far away, but when the noise source is located relatively close, the location of the noise source becomes a large factor in the variation of the difference in the S/N ratio.

第18図を用いてその例を示す。第18図<a)(b)
において、前述した第16図の例と同様に、l、2はそ
れぞれ第1および第2のマイクロホン、3は発声者、4
は雑音源である.雑音源がこの2つの図に示す位置にあ
った場合には、音声のパワーと同様に、第1のマイクロ
ホン1の出力における雑音のパワーが第2のマイクロホ
ン2の出力の雑音のパワーより大きくなる.その結果、
2つのマイクロホン出力の間のSN比の差は小さなもの
となる。
An example will be shown using FIG. Figure 18 <a) (b)
16, 1 and 2 are the first and second microphones, 3 is the speaker, and 4 is the same as the example shown in FIG.
is a noise source. If the noise source were in the position shown in these two figures, the power of the noise at the output of the first microphone 1 would be greater than the power of the noise at the output of the second microphone 2, similar to the power of the voice. .. the result,
The difference in signal to noise ratio between the two microphone outputs will be small.

第2の変動要因としては、発声者の動きがある.例えば
、第18図(b)において発声者が45゜右方向に首を
向けることによってと、音声は2つのマイクロホンにほ
ぼ同一のパワーで受音される.その結果、2つのマイク
ロホン1、2の出力において音声のパワー差は生じなく
なり、SN比の差は変動する. 第3の変動要因としては、室内反射音の影響がある.2
つのマイクロホン1、2が、SN比が異なるように設置
された場合の多くにおいて、時間的構造および大きさの
異なる反射音が、各マイクロホンにおける雑音および音
声に付加され、その結果、SN比は時間的に大きく変動
する.さらにその他にも、電気的雑音、振動雑音など数
多くの変動要因が存在する。従って、これらのSN比の
変動要因が存在する環境下で、安定したSN比の差を確
保することはきわめて困難であり、第2の従来法が有効
に動作可能なマイクロホン設置方法を見いだすことは容
易ではない.このように、第2の従来法には重大な問題
点があり、実用的には十分な性能を発揮することはでき
ない。
The second variable factor is the movement of the speaker. For example, in FIG. 18(b), when the speaker turns his or her head 45 degrees to the right, the sound is received by the two microphones with approximately the same power. As a result, there is no difference in audio power between the outputs of the two microphones 1 and 2, and the difference in SN ratio varies. The third variable factor is the influence of indoor reflected sound. 2
In many cases where two microphones 1 and 2 are installed with different signal-to-noise ratios, reflected sounds with different temporal structures and magnitudes are added to the noise and speech at each microphone, so that the signal-to-noise ratio is It fluctuates greatly. Furthermore, there are many other fluctuation factors such as electrical noise and vibration noise. Therefore, it is extremely difficult to secure a stable SN ratio difference in an environment where these SN ratio fluctuation factors exist, and it is difficult to find a microphone installation method that allows the second conventional method to work effectively. It's not easy. As described above, the second conventional method has serious problems and cannot exhibit sufficient performance in practical use.

次に、上記第2の従来法の問題点の解決をねらいとした
第3の従来法を第19図を用いてこの方法を説明する.
第19図において、前述した例と同様に、1は第1のマ
イクロホン、2は第2のマイクロホンである.また、2
lは短時間パワー計算部、22は音声区間候補選択部、
23、24は音声区間候補における平均パワー計算部、
25はパワー差検出部、26は音声区間候補検定部であ
る. この方法において、第2の従来法と同様に、第1のマイ
クロホン1は、音声と周囲雑音とのSN比が大きく、第
2のマイクロホン2は、前者のマイクロホン1に比べて
SN比が小さくなるように設置される.この方法におい
て、まず、第1のマイクロホンの出力信号の短時間パワ
ーを、短時間パワー計算部21において計算する。次に
、音声区間候補検出部22において、信号の短時間パワ
ーの監視を続け、そのパワーが、定常雑音のパワーに基
づいて決定される閾値Thより大きくなった時間区間を
音声区間候補として選択する.ここまでの動作は第13
図に示した第1の従来法と全く同一である.従って、第
工3図の記号工5で示した雑音区間も音声区間候補とし
て選択されている。次に、平均パワー計算部23、24
において、この候補区間における第1のマイクロホン1
の出力の平均パワーおよび第2のマイクロホン2の出力
の平均パワーを算出する。次に、パワー差検出部25に
おいて、各々の平均パワーの差PDLを求める。最後に
、音声区間候補検定部26において、予め定めた閾値P
 DLtより大きい時にはその候補区間を音声区間と決
定し、小さい時にはその候補区間を棄却する。
Next, a third conventional method aimed at solving the problems of the second conventional method will be explained using FIG. 19.
In FIG. 19, 1 is the first microphone and 2 is the second microphone, as in the example described above. Also, 2
1 is a short-time power calculation unit, 22 is a voice section candidate selection unit,
23 and 24 are average power calculation units for voice section candidates;
25 is a power difference detection section, and 26 is a voice section candidate testing section. In this method, as in the second conventional method, the first microphone 1 has a large S/N ratio between voice and ambient noise, and the second microphone 2 has a small S/N ratio compared to the former microphone 1. It is installed like this. In this method, first, the short-time power calculation section 21 calculates the short-time power of the output signal of the first microphone. Next, the speech segment candidate detection unit 22 continues to monitor the short-term power of the signal, and selects a time segment whose power is greater than a threshold Th determined based on the power of stationary noise as a speech segment candidate. .. The operation so far is the 13th
This is exactly the same as the first conventional method shown in the figure. Therefore, the noise section indicated by symbol 5 in FIG. 3 is also selected as a speech section candidate. Next, the average power calculation units 23 and 24
, the first microphone 1 in this candidate section
The average power of the output of the second microphone 2 and the average power of the output of the second microphone 2 are calculated. Next, the power difference detection section 25 calculates the difference PDL between the respective average powers. Finally, in the voice section candidate testing section 26, a predetermined threshold P
When it is larger than DLt, the candidate section is determined to be a speech section, and when it is smaller than DLt, the candidate section is rejected.

この第3の従来法において特徴的なことは、短時間パワ
ーの差でなく、第1のマイクロホン1の出力において音
声区間候補として選んだ、比較的長時間区間内の平均パ
ワーの差を計算することである.従って、第17図(a
)、(b)のように、2つのマイクロホン出力において
、音声区間や雑音区間が時間的に整合していなくても、
また、2つの信号に時間的構造が異なった反射音が付加
されてSN比の時間的変動があったとしても、その事が
平均パワーの差におよぼす影響は小さく、前記第2の従
来法の問題点は改善される。
The characteristic feature of this third conventional method is that it calculates the difference in average power within a relatively long period of time selected as a speech period candidate in the output of the first microphone 1, rather than the difference in short-time power. That's true. Therefore, Fig. 17 (a
) and (b), even if the voice section and noise section are not temporally aligned in the two microphone outputs,
Furthermore, even if there is a temporal fluctuation in the S/N ratio due to the addition of reflected sounds with different temporal structures to the two signals, this has only a small effect on the difference in average power. Problems will be improved.

[発明が解決しようとする課題] しかし、この方法では候補区間内の平均パワーにより音
声区間を決定しているために、雑音区間と音声区間が連
続的に存在する場合には誤った判定結果を生じる。第2
0図にそのような場合の例を示す。第20図は、第1の
マイクロホンlの出力を表しており、正しい音声区間は
図の34の区間である。この図において、非定常雑音1
2と音声13は時間的に近接しているため、短時間パワ
ーが記号14で示す閾値Thを越える、雑音区間と音声
区間を一つにした区間35が音声区間候補として選ばれ
てしまう。従って、平均パワーの差を求めた結果、この
候補区間が正しい音声区間と判定された場合には、第2
0図の記号36に示した区間が誤判定区間となってしま
うし、また、この音声区間が棄却された場合には正しい
音声区間か非音声区間とみなされたことになって、いず
れの場合においても誤った判定結果となるという問題が
生じる. このことから、この第3の従来法は、第2の従来法の持
つ問題点を解決する手法となっていないことがわかる. このように、従来の音声区間検出法では上述した数々の
問題点があるため、非定常雑音が存在する場合に、正し
い音声区間の検出を行うことは困難であった. それ故、本発明の主目的は、従来より高い確率で、非定
常雑音環境下における音声区間を検出できる方法を提供
することにある。
[Problems to be Solved by the Invention] However, since this method determines the speech section based on the average power within the candidate section, incorrect judgment results may be obtained if a noise section and a speech section exist consecutively. arise. Second
Figure 0 shows an example of such a case. FIG. 20 shows the output of the first microphone l, and the correct audio section is section 34 in the figure. In this figure, unsteady noise 1
2 and the voice 13 are temporally close to each other, a section 35 in which the short-time power exceeds the threshold Th indicated by the symbol 14 and which combines the noise section and the speech section is selected as a speech section candidate. Therefore, as a result of calculating the difference in average power, if this candidate section is determined to be the correct speech section, the second
The section indicated by symbol 36 in Figure 0 will be an erroneously determined section, and if this speech section is rejected, it will be regarded as a correct speech section or a non-speech section, so in either case, There is also the problem of incorrect judgment results. From this, it can be seen that this third conventional method does not solve the problems of the second conventional method. As described above, conventional speech interval detection methods have many of the problems mentioned above, making it difficult to detect correct speech intervals when non-stationary noise is present. Therefore, the main object of the present invention is to provide a method that can detect speech intervals in a non-stationary noise environment with higher probability than before.

また本発明の他の目的は、発生者の近く(マイクロホン
から発声者を見たとき±30度の範囲)を除いた任意の
位置に雑音源があったとしても、音声区間の検出ができ
る方法を提供することにある. [課題を解決するための手段] このような課題を達成するために、本発明は、以下の用
件を必須とする。すなわち、前述したように、2つの信
号のパワー差を利用して音声区間検出を正しく行うため
には、以下の3つの条件が必要である. 条件1:2つの信号にSN比の差があること.条件2:
2つの信号における雑音区間および音声区間が、ともに
時間的に整合していること.条件3:種々の環境条件の
変動による上記SN比の差の変動が小さいこと. (SN比の差の安定性〉 本発明の第1の特徴は、上記第1と第2の条件を同時に
満足させるために、同一の場所(厳密な意味での同一の
場所ではなく、本発明を有効に動作させるために、実質
的に同一と見なせる場所)にSN比の異なる信号を発生
させる2つの受音器を設置し、その2つの出力信号のパ
ワー差を用いて音声区間の検出を行う点にある。また、
本発明の第2の特徴は、上記第3の条件を満足させるた
めに、上記2つの受音器のうちの1つは、指向性制御機
能を有したマイクロホンアレーシステムを用いる点にあ
る. [作用] 本発明の第1の特徴によれば、雑音も音声も2つの受音
器には同一時刻に到達するので、2つの受音器出力信号
における雑音区間および音声区間はともに時間的に整合
している.従って、第2の従来法における第1の問題点
は解決される.また、2つの受音器が同一位置に設置さ
れていれば、各信号に付加される反射音の時間的tR造
も同一のものとなるため、前記第2の従来法における第
2の問題点として述べた2つの受音器出力にSN比の差
の変動に及ぼす反射音の影響は大幅に軽減される。
Another object of the present invention is to detect a speech interval even if the noise source is located at any position other than the vicinity of the speaker (within a range of ±30 degrees when looking at the speaker from the microphone). The goal is to provide the following. [Means for Solving the Problems] In order to achieve such problems, the present invention requires the following requirements. That is, as described above, the following three conditions are necessary to correctly detect a speech section using the power difference between two signals. Condition 1: There is a difference in SN ratio between the two signals. Condition 2:
Both the noise section and the speech section of the two signals are temporally consistent. Condition 3: The variation in the above-mentioned SN ratio difference due to variations in various environmental conditions is small. (Stability of SN ratio difference) The first feature of the present invention is that in order to simultaneously satisfy the first and second conditions above, the present invention In order to operate effectively, two receivers that generate signals with different signal-to-noise ratios are installed in locations that can be considered to be virtually the same, and the difference in power between the two output signals is used to detect voice sections. It is in the point of doing.Also,
A second feature of the present invention is that, in order to satisfy the third condition, one of the two sound receivers uses a microphone array system having a directivity control function. [Operation] According to the first feature of the present invention, since both noise and speech arrive at the two receivers at the same time, both the noise section and the speech section in the output signals of the two receivers are temporally equal to each other. It is consistent. Therefore, the first problem in the second conventional method is solved. Furthermore, if the two sound receivers are installed at the same location, the temporal tR structure of the reflected sound added to each signal will also be the same, which is the second problem with the second conventional method. The influence of reflected sound on the fluctuation of the difference in the S/N ratio between the outputs of the two sound receivers is significantly reduced.

次に、本発明の第2の特徴によれば、前記第2の従来法
における第2の問題点として述べた2つの受音器出力間
のSN比の差の変動に及ぼす雑音源位置、および発声者
の移動の問題が改善できる.[実施例コ 本発明の構成図を第1図に示した.第1図において、4
1はSN比の高い信号を出力する第1の受音器(マイク
ロホンアレーシステム)で、複数のマイクロホン素子よ
り構成されるマイクロホンアレー51と指向特性制御部
52とより構成される。42は第1の受音器出力のSN
比に比べてSN比の低い信号を出力する第2の受音器で
、この2つの受音器は同一の場所に設置されている。ま
た、43、44は短時間パワー計算部、45は2つの信
号のパワー差に基づく音声区間検出部である。
Next, according to the second feature of the present invention, the position of the noise source that affects the fluctuation of the difference in the SN ratio between the two receiver outputs, which is mentioned as the second problem in the second conventional method, and The problem of speaker movement can be improved. [Example] A configuration diagram of the present invention is shown in Fig. 1. In Figure 1, 4
Reference numeral 1 denotes a first sound receiver (microphone array system) that outputs a signal with a high signal-to-noise ratio, and is composed of a microphone array 51 composed of a plurality of microphone elements and a directional characteristic control section 52. 42 is the SN of the first receiver output
The second receiver outputs a signal with a lower signal-to-noise ratio than the signal-to-noise ratio, and these two receivers are installed at the same location. Further, 43 and 44 are short-time power calculation units, and 45 is a voice section detection unit based on the power difference between two signals.

さて、本発明の効果を説明するために、第1図の構成に
おける、第1の受音器4■として、マイクロホンアレー
システムの代わりに、単一指向性マイクロホンを、第2
の受音器42として無指向性マイクロホンを用いた方法
を考える。そのようにすれば、発声者に指向性を向けた
第1の受音器の出力のSN比は、指向性を有しない第2
の受音器の出力のSN比より大きなものになる.しかし
、この方法は必ずしも良好に動作しない.このことを第
2図を用いて説明する。第2図において、61は単一指
向性マイクロホンの、62は無指向性マイクロホンの、
それぞれの指向性パターンを示しており、3は発声者、
63、64は雑a源の位置を表している.第2図(a)
.(b)からわかるように、単一指向性マイクロホンは
発声者の方に向けた正面方向に対しては感度が高く、そ
の逆方向には感度が低い.無指向性マイクロホンは全て
の方向に同一の感度を持っている.従って、雄音源が第
2図(a).(b)の記号63の位置にあれば、単一指
向性マイクロホンの出力のSN比は無指向性マイクロホ
ンのSN比より大変大きくなる.しかし、第2図(a)
.(b)において、雑音源が例えば記号64の位置にあ
る時(またはその位置に移動した時)には、単一指向性
マイクロホンの雑音に対する感度は高くなるため、単一
指向性マイクロホンの出力と無指向性マイクロホンの出
力のSN比の差は小さくなってしまう。このように、単
一指向性マイクロホンを第1の受音器として用いる方法
では、雑音源の位置によりSN比が大きく変動するとい
う問題点が発生する。
Now, in order to explain the effects of the present invention, a unidirectional microphone is used instead of the microphone array system as the first sound receiver 4■ in the configuration shown in FIG.
Consider a method using an omnidirectional microphone as the sound receiver 42. In this way, the S/N ratio of the output of the first sound receiver, which has directivity toward the speaker, will be the same as that of the second sound receiver, which has no directivity.
The signal-to-noise ratio of the output of the receiver is greater than that of the receiver. However, this method does not always work well. This will be explained using FIG. 2. In FIG. 2, 61 is a unidirectional microphone, 62 is an omnidirectional microphone,
Each direction pattern is shown, 3 is the speaker,
63 and 64 represent the positions of miscellaneous a sources. Figure 2(a)
.. As can be seen from (b), the unidirectional microphone has high sensitivity in the front direction toward the speaker, and low sensitivity in the opposite direction. Omnidirectional microphones have the same sensitivity in all directions. Therefore, the male sound source is as shown in FIG. 2(a). At position 63 in (b), the SN ratio of the output of the unidirectional microphone is much larger than the SN ratio of the omnidirectional microphone. However, Fig. 2(a)
.. In (b), for example, when the noise source is at the position of symbol 64 (or when it moves to that position), the sensitivity of the unidirectional microphone to noise increases, so the output of the unidirectional microphone increases. The difference in the SN ratio of the output of the omnidirectional microphone becomes small. As described above, the method of using a unidirectional microphone as the first sound receiver has a problem in that the S/N ratio varies greatly depending on the position of the noise source.

上記の単一指向性マイクロホンを使用した場合の問題点
;ま、第3図に示すような超指向性を持つ受音器を、第
1図の第1の受音器41として用いれば解決するように
考えられるかもしれない。しかし、通常の超指向性受音
器の指向特性は周波数により異なっている.即ち、低周
波数域では第2図(a)の記号61のような広がった指
向特性を持ち、高周波数域では第2図(a)に示したも
のよりさらに鋭い指向特性を持つ。その結果、低周波数
域の雑音に対しては、前述したように雑音源の位置によ
りSN比が変動するという問題が、高周波数域において
は発声者の少しの移動でSN比が変動するという問題が
発生する. 以上説明したように、良好な音声区間検出結果を得るた
めには、第1図に示した本発明の構成における第1の受
音器4■として、良く知られている指向性受音器を代用
することは困難であることがわかる。
The problem when using the above-mentioned unidirectional microphone; well, it can be solved by using a superdirectional sound receiver as shown in Figure 3 as the first sound receiver 41 in Figure 1. It may be thought like this. However, the directional characteristics of normal superdirectional sound receivers differ depending on the frequency. That is, in the low frequency range, it has a wide directional characteristic as shown by symbol 61 in FIG. 2(a), and in the high frequency range, it has a directional characteristic that is even sharper than that shown in FIG. 2(a). As a result, for noise in the low frequency range, there is the problem that the SN ratio fluctuates depending on the position of the noise source, as described above, but in the high frequency range, the problem is that the SN ratio fluctuates with the slightest movement of the speaker. occurs. As explained above, in order to obtain good voice section detection results, it is necessary to use a well-known directional sound receiver as the first sound receiver 4■ in the configuration of the present invention shown in FIG. It turns out that it is difficult to substitute.

次に、指向性制御機能を持つマイクロホンアレーシステ
ムを用いる本発明では、雑音源の位置や、発声者の移動
に対してもSN比の変動を小さく保つことができること
を説明する. 指向性制御機能を持つマイクロホンアレーシステムの代
表例は適応形アレー(Adapjive (micro
phone) array)と呼ばれている受音器であ
る。適応形アレーの一構成例を第4図に示す。第4図に
おいて、5lはマイクロホンアレーで、Mgのマイクロ
ホン素子561〜56lIlより構成される.52は指
向性制御部で、各マイクロホン出力に接続されたフィル
タ531〜53M、フィルタ出力の総和をとる加算器5
5およびフィルタ特性制御部54より構成される。
Next, it will be explained that in the present invention, which uses a microphone array system with a directivity control function, fluctuations in the SN ratio can be kept small even when the position of a noise source or the speaker moves. A typical example of a microphone array system with a directivity control function is an adaptive array (micro
It is a sound receiver called a phone) array). An example of the configuration of an adaptive array is shown in FIG. In FIG. 4, 5l is a microphone array, which is composed of Mg microphone elements 561 to 56lIl. 52 is a directivity control unit, which includes filters 531 to 53M connected to each microphone output, and an adder 5 that takes the sum of the filter outputs.
5 and a filter characteristic control section 54.

フィルタ特性制御部54には、各マイクロホン出力信号
および加算器55の出力xiが入力され、xiに含まれ
る雑音戒分を小さくするようにフィルタ531〜53l
4の特性を制御する.次に、このフィルタ特性制御部5
4の動作原理を説明する.加算器55の出力信号xiは
、音声成分Sと雑音成分nとの和として、次式のように
表される。
The filter characteristic control unit 54 receives each microphone output signal and the output xi of the adder 55, and controls the filters 531 to 53l so as to reduce the noise component included in xi.
Control the characteristics of 4. Next, this filter characteristic control section 5
The operating principle of 4 will be explained. The output signal xi of the adder 55 is expressed as the sum of the audio component S and the noise component n as shown in the following equation.

Xl=s+n       (1) このとき、何の条件もつけずに雑音成分のバワーn2を
最少化するフィルタ特性を求めると、フィルタ531〜
53Mが全てゲイン零のフィルタとなってしまう。その
結果雑音成分nは零となって最少になるが、音声成分S
も出力されないという意味のない結果となる。そこで、
フィルタ動作の結果として得られる信号xiに含まれる
音声成分Sに対して、ある拘束条件を設定し、その条件
下でxiに含まれる雑音成分nを最少化するフィルタの
特性を求める。拘束条件の例としては、マイクロホン出
力信号(フィルタ入力信号)に含まれる音声成分をsO
と表したとき、S=SOという拘束条件や、Is−sl
2の平均値が予め定められた閾値以下とするという条件
などが知られている。
Xl=s+n (1) At this time, if we find the filter characteristics that minimize the power n2 of the noise component without adding any conditions, the filters 531 to
53M all become filters with zero gain. As a result, the noise component n becomes zero and becomes the minimum, but the voice component S
is also not output, which is a meaningless result. Therefore,
A certain constraint condition is set for the audio component S included in the signal xi obtained as a result of the filter operation, and the characteristics of the filter that minimizes the noise component n included in xi under that condition are determined. As an example of the constraint condition, the audio component included in the microphone output signal (filter input signal) is
When expressed as
A condition that the average value of 2 is less than or equal to a predetermined threshold is known.

さて、M個のマイクロホン素子の出力をul〜uMと表
し、フィルタ53l〜53lI1の特性をhl〜hl4
と表すと、信号xlのパワーxl2は、次のようになる
Now, the outputs of the M microphone elements are expressed as ul~uM, and the characteristics of the filters 53l~53lI1 are hl~hl4.
The power xl2 of the signal xl is expressed as follows.

M と表される。また、音声と雑音が互いに無相関であると
仮定すると、次式が成立する。
It is expressed as M. Further, assuming that speech and noise are uncorrelated with each other, the following equation holds true.

xl2=s2+n2       (3)(2)、(3
)式より、xiに含まれる雑音成分のパワーn2はフィ
ルタ特性hl−hl4の2次関数となることがわかる.
従って、拘束条件のもとて雑音成分のパワーn2を最少
化するフィルタ制御の問題は、よく知られた拘束条件付
き2次関数の最少化の問題となる. 各種の拘束条件に対する種々の解決、具体的アルゴリズ
ムについては、文献(”Introduction t
.oAdaptive  Arrays”R.A.Mo
nzingo ef. at,JohnWiley &
 Sons,NEW YORK, 1980 )や、米
国特許第4,536,887号に詳しく述べられている
.このように、X1に含まれる雑音成分を低減させるこ
とは、雑音の到来方向に対するこのアレーシステムの感
度を低減することに相当し、その結果、このアレーシス
テムは、目的方向に感度が高く、雑音源方向に感度の低
い指向特性を形成する。
xl2=s2+n2 (3) (2), (3
), it can be seen that the power n2 of the noise component included in xi is a quadratic function of the filter characteristic hl-hl4.
Therefore, the problem of filter control that minimizes the power n2 of the noise component under constraint conditions becomes the well-known problem of minimizing a quadratic function with constraint conditions. For various solutions and specific algorithms for various constraint conditions, please refer to the literature ("Introduction
.. oAdaptive Arrays"R.A.Mo
nzingo ef. at, John Wiley &amp;
Sons, NEW YORK, 1980) and US Pat. No. 4,536,887. In this way, reducing the noise component contained in Forms a directional characteristic with low sensitivity in the direction of the source.

第5図は、適応形アレーの形成する指向特性の一PA6
6を示す。第5図において、3はこれまでの実施例と同
様に発声者であり、63、64は雑音源である.第5図
からわかるように、適応形アレーは、鋭い指向特性は持
たないが、雑音源の方向に感度の低い指向特性を実現す
る.この指向特性の低感度の部分は「死角」と呼ばれ、
マイクロホンアレーがM個の素子より構成されている時
、アレーシステムはM−1個の死角を形戒することがで
きる。
Figure 5 shows one of the directional characteristics formed by the adaptive array PA6.
6 is shown. In FIG. 5, 3 is a speaker as in the previous embodiments, and 63 and 64 are noise sources. As can be seen from Figure 5, the adaptive array does not have a sharp directional characteristic, but it does achieve a directional characteristic with low sensitivity in the direction of the noise source. This low-sensitivity part of the directional characteristic is called the "blind spot".
When the microphone array is composed of M elements, the array system can account for M-1 blind spots.

このような指向特性を形成する適応形アレーは、室内で
反射された雑音が、雑音源以外の方向からも多数到来す
る場合には、超指向性受音器と比べて、得られるSN比
は小さい。しかし、雑音源の位置によらず、ほぼ一定の
SN比を得ることができるという特徴、また、発声者3
の方向に鋭い指向性を持たないため、発声者3の移動に
よるSN比の変動が少ないという特徴は、2つの信号の
パワー差を用いて音声区間検出を行う場合に必要なSN
比の差の安定性を確保するために大変適した受音器であ
る。
An adaptive array that forms such a directional characteristic has a lower signal-to-noise ratio compared to a superdirectional receiver when a large number of noises reflected in the room arrive from directions other than the noise source. small. However, it is possible to obtain a nearly constant S/N ratio regardless of the position of the noise source, and
Because it does not have sharp directivity in the direction of
This receiver is very suitable for ensuring the stability of the ratio difference.

加えて、適応形アレーには雑音パワーの時間的変動を小
さくするという特徴がある。このことを第6図(a),
(b)を用いて説明する。一般に室内では雄音源の方向
以外からも壁・床・天井などで反射された雑音が受音器
に入射する.適応形アレーはそれら全ての雑音方向に死
角を形成することはできず、マイクロホンアレーがM個
のマイクロホン素子より構成される時には、直接音およ
びエネルギーの大きな反射音の入射する方向に最大Mト
個の死角を形成することによりSN比を改善する。
In addition, adaptive arrays have the characteristic of reducing temporal fluctuations in noise power. This can be seen in Figure 6(a).
This will be explained using (b). Generally, in a room, noise reflected from walls, floors, ceilings, etc. from directions other than the direction of the male sound source enters the receiver. An adaptive array cannot form a blind spot in all of these noise directions, and when a microphone array is composed of M microphone elements, a maximum of M microphone elements can be formed in the direction in which direct sound and high-energy reflected sound are incident. The signal-to-noise ratio is improved by creating a blind spot.

この効果を第6図(a).(b)を用いて説明する。第
6図(a)は無指向性マイクロホンで受音した時のパル
ス性雑音、第6図(b)は適応形アレーで受音した時の
パルス性雑音を信号を表す。
This effect is shown in Figure 6(a). This will be explained using (b). FIG. 6(a) shows the pulse noise signal when the sound is received by the omnidirectional microphone, and FIG. 6(b) shows the pulse noise signal when the sound is received by the adaptive array.

第6図(a)において71は雑音源から直接受音した雑
音、72、73、74は壁・床などで1回もしくは複数
回反射してから受音した雑音である。
In FIG. 6(a), 71 is noise directly received from a noise source, and 72, 73, and 74 are noises received after being reflected one or more times from walls, floors, etc.

直接音71のエネルギーに比べて、反射音72、73、
74のエネルギーは時間とともに指数関数的に減衰する
。アレーを構成するマイクロホン素子数を4とすると、
この適応形アレーは雑音源方向および72、73の反射
音の方向の3つの死角を形成する。従って、適応形アレ
ー出力第6図(b)において74で示した雑音の反射音
のパワーは無指向性マイクロホンで受音したものと大き
な差はないが、雑音の直接音および72、73の反射音
のパワーは大きく低下している。そしてその結果、雑音
のパワーの時間的変動が小さくなることがわかる. 先に述べたように、音声区間の誤検出の犬きな要因は、
雑音のパワーの大きな時間的変動である.この時間的変
動に対処するために2つの信号のパワー差を利用した音
声区間検出を行うのであるが、種々のSN比の変動要因
を完全に除去することは不可能であるため、誤検出を1
00%回避することはできない.従って、本発明におい
て用いられる雑音パワーの時間的変動を小さくする適応
形アレーの特徴は、音声区間の誤検出をより少なくする
ために大変効果を発揮する. 第1図における本発明の構成例における第2の受音器4
2としては、マイクロホンアレー51を横成するマイク
ロホン素子のうちの一つを用いるのが最も簡便な方法で
ある。この例は、後述する第7図に示される. また、第2の受音器は、第10図に示すように、第1の
受音器42のマイクロホンアレー5lのマイクロホンの
出力のいくつかを合戒器52Aに入力し、出力を得るこ
とにより、第2の信号x2を得ることも可能である. 指向性vI御機能を持つマイクロホンアレーシステムの
他の例としては、米国特許第791,418号に示され
ているような受音方式がある.この方式では、到来方向
の明確な音声信号を保存し、周囲一様から到来する雑音
を低減するような信号処理がなされている。この方式が
良好に動作するためには、発声者と雑音源の位置が一致
していないという条件(マイクロホンからみた方向は同
一でもよい〉が必要であり、所望の位置にある音源から
の音のみを抽出するという意味から指向性制御の一種と
見なせる。
Compared to the energy of direct sound 71, reflected sound 72, 73,
The energy of 74 decays exponentially with time. Assuming that the number of microphone elements constituting the array is 4,
This adaptive array forms three blind spots: in the direction of the noise source and in the direction of the reflected sound at 72, 73. Therefore, the power of the reflected sound of the noise shown at 74 in the adaptive array output in FIG. 6(b) is not much different from that received by the omnidirectional microphone, but The power of sound has decreased significantly. As a result, it can be seen that the temporal fluctuations in the noise power become smaller. As mentioned earlier, the key factors for false detection of voice sections are:
This is a large temporal fluctuation in the power of the noise. In order to deal with this temporal variation, speech interval detection is performed using the power difference between the two signals, but it is impossible to completely eliminate various causes of S/N ratio variation, so false detections may occur. 1
00% cannot be avoided. Therefore, the feature of the adaptive array used in the present invention, which reduces temporal fluctuations in noise power, is very effective in reducing false detections of voice sections. Second sound receiver 4 in the configuration example of the present invention in FIG.
2, the simplest method is to use one of the microphone elements forming the microphone array 51. An example of this is shown in Figure 7 below. Further, as shown in FIG. 10, the second sound receiver inputs some of the outputs of the microphones of the microphone array 5l of the first sound receiver 42 to the signal receiver 52A and obtains the output. , it is also possible to obtain a second signal x2. Another example of a microphone array system with directional VI control is a sound receiving system as shown in US Pat. No. 791,418. In this method, signal processing is performed to preserve voice signals with a clear direction of arrival and to reduce noise arriving from the surrounding area. In order for this method to work well, it is necessary that the positions of the speaker and the noise source do not match (the directions seen from the microphone may be the same), and only the sound from the sound source located at the desired position is required. It can be considered a type of directional control in the sense that it extracts the

第7図は、第1図に示される本発明の第一の実施例をよ
り具体的に説明する図である.同図において、51はマ
イクロホンアレー、52は指向特性fil御部、43は
第一の短時間パワー計算部、44は第二の短時間パワー
計算部、45はパワー差に基づく音声区間検出部である
ことは、これまでの実施例と同様である。また、81は
指向特性制御部52の出力側に接続されて信号x1を受
けかつ出力をパワー演計算43に送出する第一の増幅器
、82はマイクロホン42(この例ではマイクロホンア
レ−51を構成するマイクロホン素子のひとつを使用)
に接続されて信号x2を受けかつ出力をパワー計算部4
4に送出する第二の増幅器、83はパワー計算部43、
44の出力pi,p2を受ける差分器、84はパワー計
算部43の出力p1を受けかつ音声区間の一部をなして
いるという可能性のある短時間区間パワーに基づく判定
部、85は差分器83の出力を受けるパワーに基づく判
定部、86は短時間パワーに基づく判定部84の出力S
1とパワーに基づく判定部85の出力S2とを受ける音
声区間候補検定部あるいは音声区間決定部である。
FIG. 7 is a diagram illustrating in more detail the first embodiment of the present invention shown in FIG. In the figure, 51 is a microphone array, 52 is a directional characteristic fil control section, 43 is a first short-time power calculation section, 44 is a second short-time power calculation section, and 45 is a voice section detection section based on a power difference. Certain things are the same as in the previous embodiments. Further, 81 is a first amplifier connected to the output side of the directional characteristic control unit 52 to receive the signal x1 and send the output to the power calculation unit 43; 82 is a first amplifier that is connected to the output side of the directional characteristic control unit 52; (using one of the microphone elements)
is connected to the power calculation unit 4 to receive the signal x2 and output the output.
83 is a power calculation unit 43;
44, a difference device that receives the outputs pi and p2; 84, a determination unit that receives the output p1 of the power calculation unit 43 and is based on the power of a short period that may be part of a voice section; 85, a difference device; 83 is a determination unit based on the power that receives the output, and 86 is the output S of the determination unit 84 based on the short-time power.
1 and the output S2 of the power-based determination section 85.

この方法を実行する手順は以下の通りである。The steps to carry out this method are as follows.

先ず、雑音の重畳した音声はマイクロホンアレー5Lに
より受音される。このマイクロホンアレー51の田方信
号は指向性制御部52に入力され、第1の信号xiを発
生する。一方、マイクロホンアレー51を構成する1つ
のマイクロホン素子の出力をx2とする。この時、指向
性制v4部52による指向性制御の結果、xiにおける
SN比はX2におけるSN比より大きいものとなってい
る.次に増幅器81、82を用いて信号xiおよびx2
に含まれる音声のパワーが等しくなるように信号のレベ
ルを補正する.この操作は必須なものではないが、この
操作を行っておくと、後の説明が簡単化される。次に、
短時間パワー計算部43、44において、それぞれ、X
1およびx2の短時間バワーP1およびP2を計算し出
力する。この短時間パワーptおよびP2は対数値(d
B)または真数値で表されているものとする。
First, the sound with superimposed noise is received by the microphone array 5L. The Tagata signal from the microphone array 51 is input to the directivity control section 52, which generates a first signal xi. On the other hand, the output of one microphone element constituting the microphone array 51 is assumed to be x2. At this time, as a result of the directivity control by the directivity control v4 section 52, the SN ratio at xi is larger than the SN ratio at X2. Next, using amplifiers 81 and 82, signals xi and x2 are
Correct the signal level so that the power of the audio contained in is equal. Although this operation is not essential, performing this operation will simplify the explanation later. next,
In the short-time power calculation units 43 and 44, X
Short-term powers P1 and P2 of 1 and x2 are calculated and output. This short-time power pt and P2 are logarithmic (d
B) or expressed as an exact value.

次にSN比の高い信号のバワーP1をパワーに基づく判
定部84に入力する。このパワーに基づく判定部84に
おいては、P1の値があらかじめ定められた閏値Thよ
り大きい場合には、該当する短時間区間が音声区の一部
である可能性を示すために出力Stとして”1”を出力
し、そうでない場合には”0”を出力する。
Next, the power P1 of the signal with a high SN ratio is input to the power-based determination section 84. In the determination unit 84 based on this power, if the value of P1 is larger than a predetermined leap value Th, an output St is output to indicate the possibility that the corresponding short period is part of a vocal section. 1” is output, otherwise it outputs “0”.

次に、差分器83においてptとP2の差分PD  (
PD =  P2−PL>を演算し、この差分PDをパ
ワー差に基づく判定部85に入力する。
Next, in the differentiator 83, the difference PD (
PD=P2-PL> is calculated, and this difference PD is input to the determination unit 85 based on the power difference.

このパワー差に基づく判定部85においては、PDの値
があらかじめ定められた閾値pthより小さい場合には
、出力S2として”1”を出力し、そうでない場合には
′゛0”′を出力する。
The determination unit 85 based on this power difference outputs "1" as the output S2 when the value of PD is smaller than a predetermined threshold pth, and otherwise outputs ``0''''. .

最後に、上記パワーに基づく判定部84の出力S1とパ
ワー差に基づく判定部85の出力S2は音声区間決定部
86に入力される。音声区間決定部86では、S1およ
びS2の値がともに”1”である時、候補となった短時
間区間は正しい音声区間の一部をなすものと判定し、そ
れ以外の場合には雑音区間と判定した結果を出力する。
Finally, the output S1 of the determination section 84 based on the power and the output S2 of the determination section 85 based on the power difference are input to the voice section determination section 86. In the speech section determination unit 86, when the values of S1 and S2 are both "1", the short time section that has become a candidate is determined to be part of a correct speech section, and in other cases, it is determined that it is a noise section. Outputs the determined result.

次に、上記パワー差に基づく音声区間検出部45の動作
を第8図(a)、(b)、(c)を用いて説明する。第
8図(a)は、第1の受音器の出力におけるパワーPL
の時間的変化を表し、第8図(b)は第2の受音器の出
力におけるパワーP2の時間的変化を表し、第8図(C
)はP2とP1の差PD(PD=.P2−P1)を表し
ている.それぞれの図において、縦軸は信号の短時間パ
ワーを、横軸は時刻を表している。また、11は定常雑
音、121.122は非定常雑音、13は音声を前述し
た例の説明と同様に表している。
Next, the operation of the voice section detection section 45 based on the power difference will be explained using FIGS. 8(a), (b), and (c). FIG. 8(a) shows the power PL at the output of the first receiver.
8(b) represents the temporal change in the power P2 at the output of the second receiver, and FIG. 8(C
) represents the difference PD between P2 and P1 (PD=.P2-P1). In each figure, the vertical axis represents the short-time power of the signal, and the horizontal axis represents time. Further, 11 represents stationary noise, 121 and 122 represent non-stationary noise, and 13 represents voice in the same manner as described in the above example.

ptおよびP2に含まれる音声のパワーは、等しくなる
ように調整されているため、P2における定常雑音のパ
ワーが音声のパワーより多少小さいものであれば、対数
値でパワーを表示している第8図(a)、(b)におい
て、音声区間のパワーはほぼ等しいものとなる。一方、
第2の受音器の出力は第1の受音器の出力よりSN比が
小さいため、第8図(b)における雑音のパワーは、第
8図(a)における雑音のパワーに比べて、SN比の差
に相当する分だけ大きくなっていることが示されている
。そして、その結果、第8図(C)に示したP2とpt
のパワー差PI)の値は、音声区間においては零となり
、非音声区間では非零の値をとる. しかし、現実の環境丁では、前述したように種々のSN
比の差の変動要因が存在するため、指向性制御機能を持
つマイクロホンアレーシステムを利用して変動要因の軽
減を図った本発明においても、PDの値はこのような理
想的な値をとるとは限らない。例えば、予想を上回る範
囲の話者の移動は音声区間であってもPDの値を零より
大きな値とするし、また、音声と同一方向から到来する
雑音(例えば、発声者の舌うちや、発声者が紙をめくる
音等〉に対しては、それが比較的パワーの小さなもので
あったとしても、PDの値はその雑音区間においては零
となってしまう. このような点を考慮して、本発明では、まず、パワーに
基づく判定部84の動作として、第8図(a>に示すよ
うに、閾値Thより小さい雉時間区間は非音声区間と判
定してしまう。その結果、例えば、記号122で示した
雑音が音声と同一方向から到来する雑音であって、その
雑音区間においてPDが小さなものであったとしてもこ
の雑音区間を音声区間と誤検出することはなく、有効性
の高い音声区間検出が実現されることがわかる。
The power of the voice contained in pt and P2 is adjusted to be equal, so if the power of the stationary noise in P2 is somewhat smaller than the power of voice, the power of the voice contained in pt and P2 is adjusted to be equal. In Figures (a) and (b), the powers of the voice sections are approximately equal. on the other hand,
Since the output of the second receiver has a smaller S/N ratio than the output of the first receiver, the power of the noise in FIG. 8(b) is smaller than the power of the noise in FIG. 8(a). It is shown that the difference is increased by an amount corresponding to the difference in the S/N ratio. As a result, P2 and pt shown in FIG. 8(C)
The value of the power difference PI) is zero in the speech section, and takes a non-zero value in the non-speech section. However, in a real environment, various SN
Since there are factors that cause variation in the ratio difference, even in the present invention, which uses a microphone array system with a directivity control function to reduce the variation factors, the PD value does not take such an ideal value. is not limited. For example, if the speaker moves within a larger range than expected, the PD value will be greater than zero even in the voice section, and noise coming from the same direction as the voice (for example, the speaker's tongue clicking, For the sound of a speaker turning a paper, etc., even if the sound has relatively low power, the PD value will be zero in that noise section. Taking this point into consideration, Therefore, in the present invention, first, as shown in FIG. 8(a), the power-based determination unit 84 operates to determine that the pheasant time interval smaller than the threshold Th is a non-speech interval.As a result, for example, , even if the noise indicated by symbol 122 is noise coming from the same direction as the voice and the PD is small in that noise section, this noise section will not be mistakenly detected as a speech section, and the effectiveness will be reduced. It can be seen that high speech interval detection is achieved.

第7図に示される音声区間決定部86は、第1L図に示
されるように、パワーに基づく判定部84からの出力s
1をパワー差に基づく判定部85からの出力S2がとも
に”1”であるときに、その短時間区間を音声区間と判
定する音声区間候補検定部86aの他にこの検定部が音
声区間と判した時間区間が音声の最小継続区間の予測値
を越えて継続した場合のみ、この時間区間を音声区間と
判定する区間検定部86bを設けるようにしても良い。
The voice section determination unit 86 shown in FIG. 7 outputs the output s from the power-based determination unit 84 as shown in FIG.
1 and the output S2 from the determination unit 85 based on the power difference are both “1”, this testing unit determines that the short time interval is a voice interval in addition to the voice interval candidate test unit 86a that determines the short time interval as a voice interval. An interval verification unit 86b may be provided that determines the time interval to be a voice interval only when the time interval continues beyond the predicted value of the minimum duration interval of voice.

本発明の有効性を確認するために、以下の実験を行った
. 〈実験条件〉 実験は残響時間が0.4秒の室内において行っf,:。
In order to confirm the effectiveness of the present invention, the following experiment was conducted. <Experimental conditions> The experiment was conducted in a room with a reverberation time of 0.4 seconds f,:.

雑音としてはスビーカから妨害音声(ラジオのニュース
)を発生させた。所望音声としては単語音声(都市名〉
を用い、異なった妨害音声下で発声したl00単語を収
集した。発声者と雑音源の位置は受音器からみて45度
離れた位置に設定した。受音器1としては、適応形アレ
ーの一つである、A M N O.R受音装置(参考文
献:  Y.Kanedaand J.Ohga ”A
dapt.ive Microphone−array
 SystCmfor Noise Reductio
n , fEEE ’rrans. on Acous
t..,Speech,Signal  Proces
sing,vol−ASSP−34,PP.1391−
1400, Dec.1986 )を用いた。Al4N
OR受a装置は、複数のマイクロホン素子より構成され
るマイクロホンアレーとディジタルフィルタを組み合わ
せて実現され、単一のマイクロホン素子に比べて、lO
〜16 dB程度の高SN比受音が可能である.また、
受音器2としては、前記のマイクロホンアレーの構成要
素である■つのマイクロホン素子を用いた。短時間パワ
ーの算出は窓長30 msで10 ms毎に行った. パワーに基づく判定部84における閾値Thは、各発声
を一定の長さ(l秒〉で取り込み、その中での最大短時
間パワーと最小短時間パワーの差Pl4Mを求め、Th
=PMM X O.5 、と定めた。
As for the noise, interference sound (radio news) was generated from the Subika. The desired audio is word audio (city name)
We collected 100 words uttered under different distracting voices. The positions of the speaker and the noise source were set at 45 degrees apart from the receiver. The sound receiver 1 is an A M N O. which is one of the adaptive arrays. R sound receiving device (Reference: Y. Kaneda and J. Ohga ”A
dapt. ive Microphone-array
SystCmfor Noise Reduction
n, fEEE'rrans. on Acous
t. .. ,Speech,Signal Processes
sing, vol-ASSP-34, PP. 1391-
1400, Dec. 1986) was used. Al4N
The OR receiver a device is realized by combining a microphone array composed of multiple microphone elements and a digital filter, and has a lower lO than a single microphone element.
It is possible to receive sound with a high SN ratio of ~16 dB. Also,
As the sound receiver 2, two microphone elements, which are the constituent elements of the aforementioned microphone array, were used. Short-term power calculations were performed every 10 ms with a window length of 30 ms. The threshold Th in the power-based determination unit 84 is determined by capturing each utterance for a certain length (1 second), finding the difference Pl4M between the maximum short-time power and the minimum short-time power, and determining Th
= PMM X O. 5.

また、PDの閾値PLhは8dB  と設定した。Further, the PD threshold PLh was set to 8 dB.

なお、音声区間の正解としては、無雑音時の音声に対し
て第1の従来法(パワーに基づく判定のみを用いる方法
)を適用して得られた区間を用いた。
Note that, as the correct answer for the speech section, the section obtained by applying the first conventional method (method using only determination based on power) to speech in the absence of noise was used.

(実験結果) 以上の条件で、受音点での音声のSN比を、受音器2の
出力において−5 dBとなるように設定して、単語区
間の検出実験を行った。
(Experimental Results) Under the above conditions, a word section detection experiment was conducted with the SN ratio of the voice at the sound receiving point set to -5 dB at the output of the sound receiver 2.

第9図に実験結果の一例を示す。第9図(a)は雑音が
無い場合の音声パワーと音声区間の正解を示す.第9図
(b)は妨害音声が付加された時の第2の受音器の出力
のバワーP2を示している。
FIG. 9 shows an example of the experimental results. Figure 9(a) shows the correct answer for the speech power and speech section when there is no noise. FIG. 9(b) shows the power P2 of the output of the second receiver when interfering sound is added.

第9図(C)は、妨害音声が付加された時の第1の受音
器(AMNOR受音装置〉の出力のパワーPL,および
選択された音声区間候補を示している。ハッチで示した
部分が、誤って検出された音声区間を示している。第9
図(b)と(C)を比べた時、(b)図にΔ印で示した
雑音のパワーの時間的変動が、適応形アレーの出力であ
る(C)図において小さなものになっていることがわか
る。
Fig. 9(C) shows the power PL of the output of the first sound receiver (AMNOR sound receiving device) and the selected sound section candidates when the interfering sound is added. The part indicates the incorrectly detected voice section.
When comparing Figures (b) and (C), the temporal fluctuation of the noise power indicated by the Δ symbol in Figure (b) is smaller in Figure (C), which is the output of the adaptive array. I understand that.

すなわち、パワーの時間的変化の鋭いピークが平坦なも
のになっている。
In other words, the sharp peak of the temporal change in power has become flat.

第9図(d)は本発明の手法を適用した結果、単語区間
と判定した結果を矢印で表示している.なお、第9図(
c),(d)において検出された音声区間にはさまれる
200■S以内の非音声区間は、単語区間の一部と見な
した。ハッチで示した部分は誤検出(音声区間を雑音区
間と判定した)した区間である。この図より、本発明の
方法は、ほぼ良好に動作を行っていることが確認できる
FIG. 9(d) shows the results determined to be word intervals as a result of applying the method of the present invention with arrows. In addition, Fig. 9 (
The non-speech section within 200 S between the speech sections detected in c) and (d) was considered to be part of the word section. The hatched portions are sections that were erroneously detected (a speech section was determined to be a noise section). From this figure, it can be confirmed that the method of the present invention operates almost satisfactorily.

実験結果を定量的に評価するために、単語区間の始端お
よび終端における誤差が50 Ils以内で検出できた
場合を正解とみなし、その正解率を求めた。SN比の高
いAMNOHの出力に対して、現在の音声認識装置にお
いても、最も多く利用されている第1の従来法を適用し
た場合、正解率は43?≦であった。これに対し、本発
明方式では、96%の検出結果を得、その時の始・終端
の平均検出誤差は約20ffisであった。この結果よ
り、本音声区間検出法の有効性が確認された。
In order to quantitatively evaluate the experimental results, a case where the error at the start and end of a word section could be detected within 50 Ils was regarded as a correct answer, and the correct answer rate was calculated. When the first conventional method, which is the most commonly used method in current speech recognition devices, is applied to the output of AMNOH, which has a high S/N ratio, the accuracy rate is 43? ≦. On the other hand, in the method of the present invention, a detection result of 96% was obtained, and the average detection error at the beginning and end was about 20ffis. These results confirmed the effectiveness of the present speech interval detection method.

また、例えば第2図(a)に示されるように、第1の受
音器として単一指向性マイクロホンを用いた場合には、
発声者とマイクロホンとを結ぶ直線し対して、マイクロ
ホンを中心に実質的に発声者方向90度以内の範囲に雑
音源が存在した場合には、単語区間の正答率は10%程
度であり、本発明が高精度な音響信号検出方式であるこ
とが確認された.なお、本発明では発声者とマイクロホ
ンとを結ぶ直線に対して±30゜の範囲を除いて前述し
た±96%の検定結果が得られている。
Furthermore, if a unidirectional microphone is used as the first sound receiver, as shown in FIG. 2(a), for example,
If a noise source exists within a range of 90 degrees from the microphone in the direction of the speaker, with respect to the straight line connecting the speaker and the microphone, the correct answer rate for the word section is approximately 10%; It was confirmed that the invention is a highly accurate acoustic signal detection method. In addition, in the present invention, the above-mentioned test result of ±96% is obtained except for the range of ±30° with respect to the straight line connecting the speaker and the microphone.

若干の性能劣化が許容できる応用には、いわゆる超指向
性受音器と選択フィルタより構成される受音器も、本発
明の第1の受音器として適用が可能である.第12図に
その構成例を示す。第12図において51はマイクロホ
ンアレー、91は超指向性を実現するための加算器、9
2は処理フィルタである.府述したように、超指向性受
音器を用いた場合には低周波域、高周波域においてSN
比の変動が大きくなるため、この処理フィルタは発声者
の移動が予思される範囲において感度が高く、その範囲
外では感度の低い帯域のみを抽出することにより、この
問題点の改善を行うものである。この方式の問題点はS
N比の変動の少ない周波数帯域が必ずしも音声をエネル
ギーの大きな帯域とは一致しないため、第1の受音器の
出力のSN比が低下し、音声区間候補に置ける誤選択が
増加する点にある.一方、この方式の利点は、系構成が
単純であるという点にある。
For applications where a slight performance deterioration can be tolerated, a sound receiver composed of a so-called superdirectional sound receiver and a selection filter can also be applied as the first sound receiver of the present invention. FIG. 12 shows an example of its configuration. In FIG. 12, 51 is a microphone array, 91 is an adder for realizing superdirectivity, 9
2 is a processing filter. As mentioned above, when using a superdirectional sound receiver, the SN is low in the low frequency range and high frequency range.
Since the fluctuation in the ratio becomes large, this processing filter has high sensitivity in the range where the speaker is expected to move, and improves this problem by extracting only the band with low sensitivity outside of that range. It is. The problem with this method is S
Since the frequency band with small fluctuations in the N ratio does not necessarily match the band with high voice energy, the S/N ratio of the output of the first sound receiver decreases, and the number of incorrect selections in voice section candidates increases. .. On the other hand, the advantage of this method is that the system configuration is simple.

本発明においては、音声信号固有の性質を全く利用して
いない.しかし、音声区間検出を行うためには、音声信
号の性質を利用した判定法を本発明と組み合わせて使用
することは大変有効である。
The present invention does not utilize any characteristics specific to audio signals. However, in order to perform voice section detection, it is very effective to use a determination method that utilizes the properties of voice signals in combination with the present invention.

実際、第1の従来法はそれ単独で使用されることはなく
、音声信号の性質を利用した判定法と組み合わせて使用
するのが通常である。たとえば、き声信号の最小継続時
間の予測値Tcを利用して、Tcより短い音声区間の候
補は雑音と判定する方法が知られている.この判定法を
組み合わせて、パルス性雑音の影響を除去することは、
音声区間検出において大変有効な方式である。また、音
声信号の周期性を利用して、信号が非周期性である区間
は非音声であると判定する方法など、その他にも数多く
の判定方が知られている.これら従来の方法は、本発明
で音声区間と判定した区間を入力として、その区間の再
判定を行う、または、本発明を含めた複数の判定を行っ
た結果の多数決により音声区間の最終決定を行うなどの
方法により、簡単に本発明と組み合わせて使用すること
ができる このように、本発明は、従来知られている多くの音声区
間検出法と組み合わせることが可能であり、その結果、
使用目的に応じて、検出性能の大きな向上を実現するこ
とも可能である.さて、本発明の第一の応用分野゛とし
ては、以上で説明してきたように音声認識装置への適用
がある。第二の応用分野としては、音饗エコーキャンセ
ラがある.音響エコーキャンセラとは、例えば、拡声電
話系などにおいて、受話スビ一カからの音が送話マイク
ロホンに回り込んで受音され、その結果ハウリング等の
問題を生じる事を防ぐための技術である.音響エコーキ
ャンセラの原理は、受話スビーカから送話マイクロホン
までの音響伝達特性を推定し、その推定結果に基づいて
送話マイクロホンで受音された信号から受話スビーカか
らの音の成分を差し引くというものである。この受話ス
ビーカから送話マイクロホンまでの伝達特性は時刻と共
に変化するため、推定を継続的に行う必要があるが、そ
の推定を行う時には送話者は発声していないという条件
(さもないと、大きな推定誤差が発生する)が必要であ
る。しかし、送話者の発声の有無の判定は必ずしもうま
くは行われず、そのことが、この技術の現在の課題の一
つとなっている。
In fact, the first conventional method is not used alone, but is usually used in combination with a determination method that utilizes the properties of the audio signal. For example, a method is known in which a predicted value Tc of the minimum duration of a voice signal is used to determine that candidates for a voice section shorter than Tc are noise. Combining this judgment method to remove the influence of pulsed noise is
This is a very effective method for detecting voice sections. In addition, many other determination methods are known, such as a method that uses the periodicity of the audio signal to determine that sections where the signal is aperiodic are non-speech. These conventional methods input the section determined to be a speech section by the present invention and re-determine the section, or finalize the speech section by majority vote as a result of multiple determinations including the present invention. Thus, the present invention can be combined with many conventionally known speech interval detection methods, so that
Depending on the purpose of use, it is also possible to achieve significant improvements in detection performance. Now, the first field of application of the present invention is application to speech recognition devices, as explained above. The second field of application is the acoustic echo canceller. Acoustic echo canceller is a technology used, for example, in public address telephone systems, to prevent the sound from the receiving speaker from reaching the transmitting microphone and being received, resulting in problems such as howling. The principle of an acoustic echo canceller is to estimate the acoustic transfer characteristics from the receiving speaker to the transmitting microphone, and then subtract the sound component from the receiving speaker from the signal received by the transmitting microphone based on the estimation results. be. Since the transfer characteristics from the receiving speaker to the transmitting microphone change over time, it is necessary to continuously estimate the transmission characteristics, but the condition is that the speaker is not speaking at the time of estimation (otherwise, a large estimation error) is necessary. However, it is not always possible to determine whether the speaker is speaking or not, and this is one of the current issues with this technology.

この問題に対して、送話者の音声を目的音声、受話スビ
ーカからの音声を不要音声と考えて本発明を適用し、あ
る時間区間に目的音声が存在するとp1定した時刻には
送話者が発声しているものとみなして、上記伝達特性の
推定動作を停止することを行えば、上記課題を解決した
、高性能な音響エコーキャンセラの実現が可能となる。
To solve this problem, the present invention is applied by considering the voice of the sender as the target voice and the voice from the receiver speaker as the unnecessary voice. If it is assumed that the person is making a sound and the estimation operation of the transfer characteristic is stopped, it becomes possible to realize a high-performance acoustic echo canceller that solves the above problems.

第三の応用分野としては、音声蓄積技術への応用がある
。例えば、大量の連続発声音声をディジタル化し、磁気
ディスクなどに記録しようとする場合、音声符号化によ
る情報圧縮技術も重要であるが、非音声区間を検出して
その区間を切り捨てたり,またはその区間を特に低い情
報量で記録することも大変重要な技術である.本発明は
そのような技術における非音声区間の検出に適用可能で
ある. さらに、本発明方式は音声信号固有の性質を利用してい
ないため、検出対象とする音としては、音声以外の任意
の音〈例えば音楽、機械音、衝撃音など〉を選ぶことが
可能である.そして、その結果、本発明方式は各種監視
装置、計測装置、などを始めとした、様々な応用形態が
考えられる.[発明の効果コ 以上説明したように、本発明の方法は同一の場所に設置
された第1の受音器(指向性制m機能を持つマイクロホ
ンアレーシステム)および第2の受音器によって受音さ
れた信号の間の短時間パワーの差を利用して所望の信号
の存在を判定するため、従来のこの種方式では不可能で
あった、非定常雑音環境下における所望音声区間の検出
を可能とするものである.
The third application field is application to voice storage technology. For example, when trying to digitize a large amount of continuous vocalizations and record them on a magnetic disk, etc., information compression technology using audio encoding is also important, but it is also possible to detect non-speech sections and truncate them, or It is also a very important technology to record information with a particularly low amount of information. The present invention is applicable to detecting non-speech intervals in such techniques. Furthermore, since the method of the present invention does not utilize the inherent properties of audio signals, it is possible to select any sound other than audio (for example, music, mechanical sounds, impact sounds, etc.) as the sound to be detected. .. As a result, the method of the present invention can be applied to various types of monitoring devices, measuring devices, etc. [Effects of the Invention] As explained above, the method of the present invention allows the sound to be received by the first sound receiver (microphone array system with directional control function) and the second sound receiver installed at the same location. Since the presence of a desired signal is determined by using the short-term power difference between the audible signals, it is possible to detect a desired voice section in a non-stationary noise environment, which was impossible with conventional methods of this type. This makes it possible.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明による音響信号検出方法の実施例を説明
するためのブロック図、第2図は唯一指向性マイクロホ
ンと無指向性マイクロホンとを用いた場合の問題点を説
明するための図、第3図は超指向性受f器を用いた場合
の問題点を説明するための図、第4図は第1図の第1の
受音器の具体例を示すブロック図、第5図は適応形アレ
ーの指向特性を示す図、第6図は無指向性マイクロホン
と適応形アレーを用いたときのパルス性懐音の受音信号
波形を示す波形図、第7図は第1図に示される実施例を
より具体的に示すブロック図、第8図は第7図に示され
る音声区間検出部の動作を説明するためのグラフ、第9
図は本発明の有効性を確かめた実験結果を示す図、第1
O図から第12図は本発明の他の実施例を示すブロック
図、第13図は従来の含声区間検出法の第1の例を示す
グラフ,第14図は従来の音声区間検出法の第2の例を
説明するためのマイクロホン設置例を示す図、第15図
は第2の従来法の理想的動作を説明するためのグラフ、
第16図はマイクロホンと雑音源との位置関係を示すグ
ラフ、第17図は第2の従来法の問題を説明するための
グラフ、第18図はマイクロホンと雑音源との位置関係
を示す図、第19図は従来の音声区間検出法の第3の例
を示すブロック図、第20図は第19図に示される第3
の例の問題点を説明するためのグラフである。 41.41・・・・受音器、43.44・・・・短時間
パワー計算部、45・・・・音声区間検出部、5■・・
・・マイクロホンアレー、52・・・指向性制御部、8
4.85・・・・判定部、86・・・・音声区間決定部
FIG. 1 is a block diagram for explaining an embodiment of the acoustic signal detection method according to the present invention, and FIG. 2 is a diagram for explaining problems when using a unique directional microphone and an omnidirectional microphone. Fig. 3 is a diagram for explaining the problems when using a super-directional receiver, Fig. 4 is a block diagram showing a specific example of the first receiver in Fig. 1, and Fig. 5 is Figure 6 is a diagram showing the directivity characteristics of the adaptive array. Figure 6 is a waveform diagram showing the received signal waveform of a pulsed voice when an omnidirectional microphone and adaptive array are used. Figure 7 is shown in Figure 1. FIG. 8 is a block diagram illustrating the embodiment shown in FIG. 7 in more detail, and FIG.
Figure 1 shows the experimental results that confirmed the effectiveness of the present invention.
Figures O through 12 are block diagrams showing other embodiments of the present invention, Figure 13 is a graph showing the first example of the conventional voice-containing interval detection method, and Figure 14 is a graph showing the conventional voice interval detection method. A diagram showing an example of microphone installation for explaining the second example, FIG. 15 is a graph for explaining the ideal operation of the second conventional method,
FIG. 16 is a graph showing the positional relationship between the microphone and the noise source, FIG. 17 is a graph for explaining the problem of the second conventional method, and FIG. 18 is a graph showing the positional relationship between the microphone and the noise source. FIG. 19 is a block diagram showing a third example of the conventional speech interval detection method, and FIG.
This is a graph for explaining the problem of the example. 41.41...Speech receiver, 43.44...Short-time power calculation unit, 45...Voice section detection unit, 5■...
... Microphone array, 52 ... Directivity control section, 8
4.85...determination section, 86...voice section determination section.

Claims (9)

【特許請求の範囲】[Claims] (1)ほぼ同一の位置に設けられかつ目的信号および雑
音の電力比(SN比)がそれぞれ異なる信号を送出する
第1及び第2の受音器を使用し、ある時間区間における
これらの受音器から送出される前記信号の電力の差また
は比が、予め決められた範囲内である場合、この時間区
間に前記目的信号を受音したと判定するようにし、前記
第1の受音器は、雑音位置に応じて指向特性を制御でき
る適応形マイクロホンアレーであることを特徴とする音
響信号検出方法。
(1) Using first and second receivers that are installed at approximately the same location and transmit signals with different power ratios of target signal and noise (SN ratio), these receivers are used to receive these sounds in a certain time interval. If the power difference or ratio of the signals transmitted from the receiver is within a predetermined range, it is determined that the target signal has been received in this time interval, and the first receiver , an acoustic signal detection method characterized in that it is an adaptive microphone array whose directional characteristics can be controlled according to the noise position.
(2)請求項1において、前記第1及び第2の受音器は
、指向特性の異なった受音器を使用することを特徴とす
る音響信号検出方法。
(2) The acoustic signal detection method according to claim 1, wherein the first and second sound receivers use sound receivers having different directivity characteristics.
(3)請求項1において、前記第1の受音器は、複数の
マイクロホン素子より構成されるマイクロホンアレーと
、その後段に配置された指向特性制御回路より構成され
ることを特徴とする音響信号検出方法。
(3) The acoustic signal according to claim 1, wherein the first sound receiver is composed of a microphone array composed of a plurality of microphone elements and a directional characteristic control circuit arranged at a subsequent stage. Detection method.
(4)請求項1において、ある時間区間における前記2
つの信号の電力の差または比が、予め決められた範囲内
であり、かつ、SN比の高い受音器から出力される信号
のある時間区間におけるの電力が、予め決められた範囲
内である場合、この時間区間に前記目的信号を受音した
と判定することを特徴とする音響信号検出方法。
(4) In claim 1, said 2 in a certain time interval
The difference or ratio of the power of the two signals is within a predetermined range, and the power of the signal output from the receiver with a high SN ratio in a certain time interval is within the predetermined range. If so, it is determined that the target signal has been received during this time interval.
(5)請求項1において、前記第2の受音器もマイクロ
ホンアレーによって構成されていることを特徴とする音
響信号検出方法。
(5) The acoustic signal detection method according to claim 1, wherein the second sound receiver is also constituted by a microphone array.
(6)請求項1において、前記目的信号を受音したと判
定した時間区間が、音声の最小継続時間の予測値を越え
て継続した場合、この時間区間に前記目的信号を受音し
たと判定することを特徴とする音響信号検出方法。
(6) In claim 1, if the time interval in which it is determined that the target signal has been received continues beyond the predicted minimum duration of audio, it is determined that the target signal has been received in this time interval. An acoustic signal detection method characterized by:
(7)請求項3において、前記第2の受音器は、前記第
1の受音器を構成するマイクロホンアレーの構成要素で
ある一つのマイクロホン素子を使用することを特徴とす
る音響信号検出方法。
(7) The acoustic signal detection method according to claim 3, wherein the second sound receiver uses one microphone element that is a component of a microphone array that constitutes the first sound receiver. .
(8)請求項6において、前記第1の受音器は、複数の
マイクロホン素子より構成されるマイクロホンアレーと
、その後段に配置された指向性特性制御回路より構成さ
れ、前記第2の受音器は、前記第1の受音器を構成する
マイクロホンアレーを構成するマイクロホン素子のいく
つかを共有し、さらにこれらいくつかのマイクロホン素
子の出力を合成する手段を有することを特徴とする音響
信号検出方法。
(8) In claim 6, the first sound receiver includes a microphone array composed of a plurality of microphone elements and a directional characteristic control circuit disposed at a subsequent stage, and the first sound receiver The acoustic signal detection device is characterized in that the device shares some of the microphone elements constituting the microphone array constituting the first sound receiver, and further has means for synthesizing the outputs of these several microphone elements. Method.
(9)ほぼ同一の位置に設けられかつ目的信号および雑
音の電力比(SN比)がそれぞれ異なる信号を送出する
第1および第2の受音器を使用し、ある時間区間におけ
るこれらの受音器から送出される前記信号の電力の差ま
たは比が、あらかじめ決められた範囲内である場合、こ
の時間区間に前記目的信号を受音したと判定するように
し、前記第1の受音器は、複数のマイクロホンが配置さ
れた指向性マイクロホンアレーと、各マイクロホンの出
力を受けて超指向性を合成する合成器と、こ合成器の出
力を受手所定の帯域成分を通過させ帯域選択フィルタに
よって構成されることを特とする音響信号検出方法。
(9) Using first and second receivers that are installed at approximately the same location and transmit signals with different power ratios of target signal and noise (SN ratio), these receivers are used to receive these sounds in a certain time interval. If the power difference or ratio of the signals transmitted from the receiver is within a predetermined range, it is determined that the target signal has been received during this time interval, and the first receiver , a directional microphone array in which a plurality of microphones are arranged, a synthesizer that receives the output of each microphone and synthesizes superdirectivity, and the output of this synthesizer is passed through a receiver's predetermined band components and is processed by a band selection filter. An acoustic signal detection method comprising:
JP2059641A 1989-03-10 1990-03-09 Sound signal detection method Expired - Fee Related JP2913105B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2059641A JP2913105B2 (en) 1989-03-10 1990-03-09 Sound signal detection method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP1-58953 1989-03-10
JP5895389 1989-03-10
JP2059641A JP2913105B2 (en) 1989-03-10 1990-03-09 Sound signal detection method

Publications (2)

Publication Number Publication Date
JPH0327698A true JPH0327698A (en) 1991-02-06
JP2913105B2 JP2913105B2 (en) 1999-06-28

Family

ID=26399975

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2059641A Expired - Fee Related JP2913105B2 (en) 1989-03-10 1990-03-09 Sound signal detection method

Country Status (1)

Country Link
JP (1) JP2913105B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003515177A (en) * 1999-10-19 2003-04-22 ソニー エレクトロニクス インク Natural language interface control system
JP2005309366A (en) * 2004-03-25 2005-11-04 Nec Corp Method and device for signal processing
JP2008304498A (en) * 2007-06-05 2008-12-18 Yamaha Corp Voice detection device, voice conferencing system, and tele-conference system
WO2012086834A1 (en) * 2010-12-21 2012-06-28 日本電信電話株式会社 Speech enhancement method, device, program, and recording medium
JP2012198289A (en) * 2011-03-18 2012-10-18 Fujitsu Ltd Sound erroneous detection discrimination device, sound erroneous detection discrimination method and program
JP2014510452A (en) * 2011-02-10 2014-04-24 ドルビー ラボラトリーズ ライセンシング コーポレイション Synthetic suppression of noise, echo and out-of-location signals

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57148413A (en) * 1981-03-10 1982-09-13 Matsushita Electric Ind Co Ltd Sound absorbing device
JPS5974800A (en) * 1982-09-30 1984-04-27 シユア・ブラザ−ズ・インコ−ポレイテツド Audio unit
JPS632500A (en) * 1986-06-20 1988-01-07 Matsushita Electric Ind Co Ltd Sound pickup device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57148413A (en) * 1981-03-10 1982-09-13 Matsushita Electric Ind Co Ltd Sound absorbing device
JPS5974800A (en) * 1982-09-30 1984-04-27 シユア・ブラザ−ズ・インコ−ポレイテツド Audio unit
JPS632500A (en) * 1986-06-20 1988-01-07 Matsushita Electric Ind Co Ltd Sound pickup device

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003515177A (en) * 1999-10-19 2003-04-22 ソニー エレクトロニクス インク Natural language interface control system
JP2005309366A (en) * 2004-03-25 2005-11-04 Nec Corp Method and device for signal processing
JP4655572B2 (en) * 2004-03-25 2011-03-23 日本電気株式会社 Signal processing method, signal processing apparatus, and robot
JP2008304498A (en) * 2007-06-05 2008-12-18 Yamaha Corp Voice detection device, voice conferencing system, and tele-conference system
WO2012086834A1 (en) * 2010-12-21 2012-06-28 日本電信電話株式会社 Speech enhancement method, device, program, and recording medium
JP5486694B2 (en) * 2010-12-21 2014-05-07 日本電信電話株式会社 Speech enhancement method, apparatus, program, and recording medium
JP2014510452A (en) * 2011-02-10 2014-04-24 ドルビー ラボラトリーズ ライセンシング コーポレイション Synthetic suppression of noise, echo and out-of-location signals
JP2012198289A (en) * 2011-03-18 2012-10-18 Fujitsu Ltd Sound erroneous detection discrimination device, sound erroneous detection discrimination method and program

Also Published As

Publication number Publication date
JP2913105B2 (en) 1999-06-28

Similar Documents

Publication Publication Date Title
CA2011775C (en) Method of detecting acoustic signal
US8204248B2 (en) Acoustic localization of a speaker
US10331396B2 (en) Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrival estimates
JP5706513B2 (en) Spatial audio processor and method for providing spatial parameters based on an acoustic input signal
US8996367B2 (en) Sound processing apparatus, sound processing method and program
US10395667B2 (en) Correlation-based near-field detector
US11621017B2 (en) Event detection for playback management in an audio device
JP2021511755A (en) Speech recognition audio system and method
CN113810825A (en) Robust loudspeaker localization system and method in the presence of strong noise interference
Sullivan et al. Multi-microphone correlation-based processing for robust speech recognition
Maas et al. A two-channel acoustic front-end for robust automatic speech recognition in noisy and reverberant environments
CN110169082B (en) Method and apparatus for combining audio signal outputs, and computer readable medium
JPH11249693A (en) Sound collecting device
JPH0327698A (en) Sound signal detection method
JPWO2020110228A1 (en) Information processing equipment, programs and information processing methods
KR101073632B1 (en) A zero-crossing-based multiple source localization apparatus in reverberant environments
US6633847B1 (en) Voice activated circuit and radio using same
CN110140171B (en) Audio capture using beamforming
CN108141694B (en) Event detection for playback management in audio devices
Gong et al. Noise power spectral density matrix estimation based on modified IMCRA
Madhu et al. Source number estimation for multi-speaker localisation and tracking
US11483644B1 (en) Filtering early reflections
JP3332144B2 (en) Target sound source area detection method and apparatus
Laska et al. Room Acoustic Characterization with Smartphone-Based Automated Speech Recognition
Mavandadi et al. Post Recognition Speech Localization

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees