JPH10319985A - Noise level detecting method, system and recording medium - Google Patents

Noise level detecting method, system and recording medium

Info

Publication number
JPH10319985A
JPH10319985A JP10058722A JP5872298A JPH10319985A JP H10319985 A JPH10319985 A JP H10319985A JP 10058722 A JP10058722 A JP 10058722A JP 5872298 A JP5872298 A JP 5872298A JP H10319985 A JPH10319985 A JP H10319985A
Authority
JP
Japan
Prior art keywords
noise level
level
noise
power
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10058722A
Other languages
Japanese (ja)
Inventor
Takahiko Niimura
貴彦 新村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA KK
NTT Data Group Corp
Original Assignee
N T T DATA KK
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA KK, NTT Data Corp filed Critical N T T DATA KK
Priority to JP10058722A priority Critical patent/JPH10319985A/en
Publication of JPH10319985A publication Critical patent/JPH10319985A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To constantly and definitely detect a noise level even with respect to the variation of noise levels. SOLUTION: A power level calculating part 1 cuts out voice data by shifting frames having prescribed time widths and being short voice sections by a prescribed time. A power distribution calculating part 2 calculates frequency distribution characteristics of power levels for every frame. A boundary estimating part 3 estimates the boundary between a noise level area and a voice level area so that ranges in which noise levels are distributed are all at least included in the noise level area based on the frequency distribution characteristics of power levels for every frame which are obtained in the power distribution calculating part 2. A noise distribution calculating part 4 calculates distributions of noise levels as to noise level areas of not larger than the boundary value set in the boundary estimating part 3. A noise level computing part 5 computes a noise level by adding a deviation to the mean value of the distributions of the noise levels calculated in the noise distribution calculating part 4 to output it.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、音声データの分
析等に際し、ノイズの影響の低減除去等に供するため、
音声データ中に含まれるノイズのパワーレベルを検出す
る技術に係り、特にノイズレベルの検出の自動化に好適
なノイズレベル検出方法、システム及び記録媒体に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to the purpose of reducing and removing the influence of noise when analyzing audio data.
The present invention relates to a technology for detecting a power level of noise included in audio data, and more particularly to a noise level detection method, system, and recording medium suitable for automating the detection of noise level.

【0002】[0002]

【従来の技術】近年、音声合成技術を用いて生成したい
わゆる合成音声が、合成音サービス及び音声案内等の形
でマンマシンインタフェイスに利用されることが多くな
ってきた。このような、合成音声の構成音源としての波
形辞書は、スタジオ録音された実音声の音声データをも
とにして作成される。
2. Description of the Related Art In recent years, so-called synthesized speech generated using a speech synthesis technique has been increasingly used for a man-machine interface in the form of a synthesized speech service and voice guidance. Such a waveform dictionary as a component sound source of the synthesized voice is created based on the voice data of the real voice recorded in the studio.

【0003】このような、音声データに基づく波形辞書
の作成等にあたっては、いわゆる声優又はアナウンサ等
の音声を収録し、その発生データを分析して、所要の音
声波形を抽出する。この音声データの精度の高い分析に
際しては、ノイズの影響を取り除くために、ノイズのパ
ワーレベルを検知する必要が生じる。
In creating such a waveform dictionary based on voice data, voices of so-called voice actors or announcers are recorded, and the generated data is analyzed to extract a required voice waveform. When analyzing the voice data with high accuracy, it is necessary to detect the power level of the noise in order to remove the influence of the noise.

【0004】従来、音声データからのノイズレベルの検
出は次のようにして行っていた。例えば図11に示すよ
うな音声波形を有する音声データが与えられたとする。
この図11の音声波形の先頭部分のスペクトルグラム
を、図12に示す。
Conventionally, detection of a noise level from audio data has been performed as follows. For example, assume that audio data having an audio waveform as shown in FIG. 11 is given.
FIG. 12 shows the spectrumgram at the beginning of the audio waveform in FIG.

【0005】図11の音声波形では、実質的な音声が始
まる前には、何も信号がないように見えるが、実際には
図12に示すようにノイズのパワーが入力されている。
この部分は、ノイズのみのパワーであるので、従来のノ
イズレベル検出の第1の方法では、このような音声区間
の先頭の100〜200msの区間のパワーを調べて、
それをノイズのパワーレベルとみなしている。
In the sound waveform of FIG. 11, it appears that there is no signal before the substantial sound starts, but the noise power is actually input as shown in FIG.
Since this part is only the power of noise, the first method of the conventional noise level detection checks the power of the first 100 to 200 ms of such a voice section,
We regard it as the power level of the noise.

【0006】あるいは、従来のノイズレベル検出の第2
の方法では、経験的にノイズのパワーレベルの上限値を
推定して、これを閾値とし、この閾値以下の値を持つ音
声区間を検索して、パワーレベルの値を求めてノイズレ
ベルとみなしている。
[0006] Alternatively, the second method of the conventional noise level detection.
In the method, the upper limit of the noise power level is empirically estimated, and this is used as a threshold. A voice section having a value equal to or lower than the threshold is searched, and the value of the power level is calculated as the noise level. I have.

【0007】[0007]

【発明が解決しようとする課題】上述したように、従来
のノイズレベル検出の方法では、第1及び第2の方法の
いずれにおいても、音声データの一部の特定の区間の音
声データそのものからノイズレベルを決定していたた
め、他の区間でノイズレベルが変動している場合には、
ノイズレベルの充分な検出・測定を行うことができなか
った。
As described above, in the conventional noise level detection method, in both of the first and second methods, the noise data itself in a specific section of a part of the audio data is used. Because the level was determined, if the noise level fluctuated in other sections,
Sufficient detection and measurement of the noise level could not be performed.

【0008】また、ノイズのパワーレベルの上限値を経
験的に定め、これを閾値とする第2の方法は、閾値の決
定手法のアルゴリズムを具現化しにくいため、自動化が
困難であった。
Further, the second method of empirically determining the upper limit value of the noise power level and using the upper limit value as the threshold value is difficult to implement an algorithm for determining the threshold value, and thus has been difficult to automate.

【0009】この発明は、上述した事情に鑑みてなされ
たもので、ノイズレベルの変動に対しても安定に且つ的
確にノイズレベルを検出することができ、ノイズレベル
検出の自動化も容易なノイズレベル検出方法、システム
及び記録媒体を提供することを目的とする。
SUMMARY OF THE INVENTION The present invention has been made in view of the above-mentioned circumstances, and it is possible to detect a noise level stably and accurately even when the noise level fluctuates, and it is easy to automate the noise level detection. It is an object to provide a detection method, a system, and a recording medium.

【0010】[0010]

【課題を解決するための手段】上記目的を達成するた
め、この発明の第1の観点によるノイズレベル検出方法
は、音声データに基づいて該音声データ中に含まれるノ
イズのノイズレベルを検出するにあたり、前記音声デー
タの所定時間幅におけるパワーレベルを所定時間毎に求
めるパワーレベル算出ステップと、前記パワーレベル算
出ステップで算出される所定時間幅毎のパワーレベルの
頻度分布特性を求めるパワー分布算出ステップと、前記
パワー分布算出ステップで求められたパワーレベルの頻
度分布特性に基づいて、ノイズレベル領域と音声レベル
領域との境界を推定する境界推定ステップと、前記境界
推定ステップで推定されたノイズレベル領域についてノ
イズレベルの分布を計算するノイズレベル分布算出ステ
ップと、前記ノイズレベル分布算出ステップで求められ
たノイズレベル分布に基づいてノイズレベルを算定する
ノイズレベル算定ステップと、を有する。
According to a first aspect of the present invention, there is provided a noise level detecting method for detecting a noise level of noise included in audio data based on the audio data. A power level calculating step of obtaining a power level in a predetermined time width of the audio data at predetermined time intervals; and a power distribution calculating step of obtaining a frequency distribution characteristic of the power level for each predetermined time width calculated in the power level calculating step. A boundary estimation step of estimating a boundary between a noise level area and a voice level area based on a frequency distribution characteristic of a power level obtained in the power distribution calculation step; and a noise level area estimated in the boundary estimation step. A noise level distribution calculating step of calculating a noise level distribution; Having a noise level calculation step of calculating a noise level based on the noise level distribution determined by Bell distribution calculating step.

【0011】前記境界推定ステップは、パワーレベルの
平均値を求めて、ノイズレベル領域と音声レベル領域と
の境界と推定する平均値算出ステップを含んでいてもよ
い。前記境界推定ステップは、低位の隣接区域とのパワ
ーレベル頻度の少なくとも正の差分の二乗値を求め、さ
らに該二乗差分値の累積値を求める二乗差分累積算出ス
テップと、該二乗差分累積算出ステップで得られる二乗
差分値の累積値の変化率が所定値を超える点をノイズレ
ベル領域と音声レベル領域との境界と推定する変化率判
定ステップとを含んでいてもよい。
[0011] The boundary estimation step may include an average value calculation step of obtaining an average value of the power level and estimating a boundary between the noise level area and the audio level area. The boundary estimating step obtains a square value of at least a positive difference of a power level frequency with respect to a lower adjacent area, further calculates a square difference accumulation calculating step of calculating a cumulative value of the square difference value, and the square difference accumulation calculating step. The method may further include a change rate determining step of estimating a point where the change rate of the obtained cumulative value of the squared difference value exceeds a predetermined value as a boundary between the noise level area and the audio level area.

【0012】前記パワーレベル算出ステップは、振幅の
パワーレベルとして二乗平均(RMS:root-mean-squa
re〜以下、「RMS」と略称する)対数を算出するRM
S対数算出ステップを含んでいてもよい。前記パワーレ
ベル算出ステップは、振幅のパワーレベルとして高速フ
ーリエ変換(FFT:Fast Fourier Transform〜以下、
「FFT」と略称する)値を算出するFFTパワー算出
ステップを含んでいてもよい。前記ノイズレベル算定ス
テップは、ノイズレベル分布の平均値に偏差を加算して
ノイズレベルを求めるステップを含んでいてもよい。
In the power level calculating step, a root mean square (RMS) is used as a power level of the amplitude.
re-hereinafter, abbreviated as “RMS”) RM for calculating logarithm
An S logarithmic calculation step may be included. The power level calculating step includes the steps of: fast Fourier transform (FFT: Fast Fourier Transform to
An FFT power calculating step of calculating a value (abbreviated as “FFT”) may be included. The noise level calculation step may include a step of adding a deviation to an average value of the noise level distribution to obtain a noise level.

【0013】また、この発明の第2の観点によるノイズ
レベル検出システムは、ノイズを含む音声データの所定
時間幅におけるパワーレベルを所定時間毎に求めるパワ
ーレベル算出手段と、前記パワーレベル算出手段で算出
される所定時間幅毎のパワーレベルの頻度分布特性を求
めるパワー分布算出手段と、前記パワー分布算出手段で
求められたパワーレベルの頻度分布特性に基づいて、ノ
イズレベル領域と音声レベル領域との境界を推定する境
界推定手段と、前記境界推定手段で推定されたノイズレ
ベル領域についてノイズレベルの分布を計算するノイズ
レベル分布算出手段と、前記ノイズレベル分布算出手段
で求められたノイズレベル分布に基づいてノイズレベル
を算定するノイズレベル算定手段と、を具備する。
Further, a noise level detecting system according to a second aspect of the present invention is a power level calculating means for obtaining a power level of a voice data including noise in a predetermined time width at predetermined time intervals, and the power level calculating means. Power distribution calculating means for obtaining a frequency distribution characteristic of the power level for each predetermined time width, and a boundary between the noise level area and the audio level area based on the power distribution frequency distribution characteristic obtained by the power distribution calculating means. , A noise level distribution calculating means for calculating a noise level distribution for the noise level area estimated by the boundary estimating means, and a noise level distribution obtained by the noise level distribution calculating means. Noise level calculating means for calculating a noise level.

【0014】前記境界推定手段は、パワーレベルの平均
値を求めて、ノイズレベル領域と音声レベル領域との境
界と推定する平均値算出手段を含んでいてもよい。前記
境界推定手段は、低位の隣接区域とのパワーレベル頻度
の少なくとも正の差分の二乗値を求め、さらに該二乗差
分値の累積値を求める二乗差分累積算出手段と、該二乗
差分累積算出手段で得られる二乗差分値の累積値の変化
率が所定値を超える点をノイズレベル領域と音声レベル
領域との境界と推定する変化率判定手段とを含んでいて
もよい。
[0014] The boundary estimating means may include an average value calculating means for obtaining an average value of the power level and estimating a boundary between the noise level area and the audio level area. The boundary estimating means calculates a square value of at least a positive difference of the power level frequency with respect to the lower adjacent area, and further calculates a squared difference accumulating means for calculating a cumulative value of the squared difference value. A change rate judging means for estimating a point at which the change rate of the obtained cumulative square difference value exceeds a predetermined value as a boundary between the noise level area and the audio level area may be included.

【0015】前記パワーレベル算出手段は、振幅のパワ
ーレベルとしてRMS対数を算出するRMS対数算出手
段を含んでいてもよい。前記パワーレベル算出手段は、
振幅のパワーレベルとしてFFT値を算出するFFTパ
ワー算出手段を含んでいてもよい。前記ノイズレベル算
定手段は、ノイズレベル分布の平均値に偏差を加算して
ノイズレベルを求める手段を含んでいてもよい。
The power level calculating means may include an RMS logarithm calculating means for calculating an RMS logarithm as an amplitude power level. The power level calculation means,
An FFT power calculating means for calculating an FFT value as a power level of the amplitude may be included. The noise level calculating means may include means for adding a deviation to an average value of the noise level distribution to obtain a noise level.

【0016】この発明に係るノイズレベル検出方法及び
システムは、音声データに基づいて該音声データ中に含
まれるノイズのノイズレベルを検出するにあたり、前記
音声データの所定時間幅におけるパワーレベルを所定時
間毎に算出し、所定時間幅毎のパワーレベルの頻度分布
特性を求め、該頻度分布特性に基づいて、ノイズレベル
領域と音声レベル領域との境界を推定して、ノイズレベ
ル領域についてノイズレベルの分布を計算し、該ノイズ
レベル分布に基づいてノイズレベルを算定する。このシ
ステムでは、所定時間幅毎のパワーレベルの頻度分布に
よりノイズレベルを求めるので、ノイズレベルの変動が
あってっも安定に且つ的確にノイズレベルを検出するこ
とができ、主として統計的演算でノイズレベルを求める
ので自動化も容易である。
The noise level detecting method and system according to the present invention, when detecting the noise level of the noise included in the audio data based on the audio data, change the power level in a predetermined time width of the audio data every predetermined time. The frequency distribution characteristic of the power level for each predetermined time width is obtained, the boundary between the noise level region and the audio level region is estimated based on the frequency distribution characteristic, and the distribution of the noise level for the noise level region is calculated. Calculate and calculate the noise level based on the noise level distribution. In this system, since the noise level is obtained from the frequency distribution of the power level for each predetermined time width, the noise level can be detected stably and accurately even if the noise level fluctuates. Automation is easy because the level is required.

【0017】また、この発明の第3の観点によるコンピ
ュータ読み取り可能な記録媒体は、コンピュータをノイ
ズを含む音声データの所定時間幅におけるパワーレベル
を所定時間毎に求めるパワーレベル算出手段、前記パワ
ーレベル算出手段で算出される所定時間幅毎のパワーレ
ベルの頻度分布特性を求めるパワー分布算出手段、前記
パワー分布算出手段で求められたパワーレベルの頻度分
布特性に基づいて、ノイズレベル領域と音声レベル領域
との境界を推定する境界推定手段、前記境界推定手段で
推定されたノイズレベル領域についてノイズレベルの分
布を計算するノイズレベル分布算出手段、前記ノイズレ
ベル分布算出手段で求められたノイズレベル分布に基づ
いてノイズレベルを算定するノイズレベル算定手段、と
して機能させるためのプログラムを記録する。
According to a third aspect of the present invention, there is provided a computer-readable recording medium, comprising: a power level calculating means for obtaining a power level in a predetermined time width of audio data including noise at predetermined time intervals; Power distribution calculating means for calculating the frequency distribution characteristic of the power level for each predetermined time width calculated by the means, based on the frequency distribution characteristic of the power level calculated by the power distribution calculating means, a noise level area and a sound level area; A noise level distribution calculating means for calculating a noise level distribution for the noise level area estimated by the boundary estimating means, and a noise level distribution obtained by the noise level distribution calculating means. Function as a noise level calculating means for calculating the noise level. To record the program.

【0018】[0018]

【発明の実施の形態】以下、この発明の実施の形態を図
面を参照して説明する。図1〜図6を参照して、この発
明の第1の実施の形態に係るノイズレベル検出システム
を説明する。
Embodiments of the present invention will be described below with reference to the drawings. A noise level detecting system according to a first embodiment of the present invention will be described with reference to FIGS.

【0019】図1は、この発明の第1の実施の形態に係
るノイズレベル検出システムの構成を模式的に示してお
り、図2はその動作の概要を模式的に示している。
FIG. 1 schematically shows a configuration of a noise level detection system according to a first embodiment of the present invention, and FIG. 2 schematically shows an outline of the operation.

【0020】図1に示すノイズレベル検出システムは、
パワーレベル算出部1、パワー分布算出部2、境界推定
部3、ノイズ分布算出部4及びノイズレベル算定部5を
具備している。パワーレベル算出部1は、入力される音
声データを、所定時間幅の短い音声区間であるフレーム
を所定時間ずつずらして切り出す。例えば、図11に示
すように、フレームの時間幅つまりフレーム長を23
〔ms〕とし、フレームをずらす間隔つまりフレームピ
ッチを10〔ms〕とすれば、フレームピッチ10〔m
s〕毎に、フレーム長23〔ms〕の音声区間を逐次抽
出する。このとき、図11に示すように近接するいくつ
かのフレームは、互いにその一部をオーバラップしてい
る。
The noise level detection system shown in FIG.
It comprises a power level calculator 1, a power distribution calculator 2, a boundary estimator 3, a noise distribution calculator 4, and a noise level calculator 5. The power level calculation unit 1 cuts out input audio data by shifting a frame, which is an audio section having a short predetermined time width, by a predetermined time. For example, as shown in FIG.
[Ms] and the frame shifting interval, that is, the frame pitch is 10 [ms], the frame pitch is 10 [m].
s], a speech section having a frame length of 23 [ms] is sequentially extracted. At this time, some frames that are close to each other partially overlap each other as shown in FIG.

【0021】さらに、パワーレベル算出部1は、このよ
うに抽出したフレーム毎のパワーレベルを算出する。音
声データのパワーレベルとしては、例えば、RMS対数
値を用いる。音声データのパワーレベルとしてFFTパ
ワーを用いることもできる。パワー分布算出部2は、パ
ワーレベル算出部1で求めたフレーム毎のパワーレベル
の頻度分布特性を求める。境界推定部3は、パワー分布
算出部2で得たフレーム毎のパワーレベルの頻度分布特
性に基づいて、ノイズレベル領域と音声レベル領域との
境界を、少なくともノイズレベル領域にノイズレベルの
分布する範囲を全て含むように推定する。この場合、音
声データには無音区間が比較的少ないものとすると、パ
ワーレベルの平均値は、音声データの平均値に近い値と
なる。したがって、平均値よりも小さい値を持つフレー
ムには主としてノイズレベルを示すものが多く含まれる
ことになる。
Further, the power level calculator 1 calculates the power level of each frame extracted in this manner. As a power level of the audio data, for example, an RMS logarithmic value is used. The FFT power may be used as the power level of the audio data. The power distribution calculator 2 obtains a frequency distribution characteristic of the power level for each frame obtained by the power level calculator 1. The boundary estimation unit 3 determines a boundary between the noise level region and the audio level region based on the frequency distribution characteristic of the power level for each frame obtained by the power distribution calculation unit 2, at least in a range where the noise level is distributed in the noise level region. Is estimated to include all In this case, assuming that the audio data has relatively few silent sections, the average value of the power level is close to the average value of the audio data. Therefore, many frames having a value smaller than the average value mainly indicate a noise level.

【0022】そこで、境界推定部3は、平均値算出部3
1及び境界設定部32を有し、平均値算出部31で、パ
ワーレベルの頻度分布の平均値のパワーレベルを求め
て、境界設定部32でノイズレベル領域と音声レベル領
域との境界として設定する。境界設定部32で設定され
た平均値のパワーレベル以下の領域がノイズレベル分布
の計算領域となる。
Therefore, the boundary estimating unit 3 includes the average value calculating unit 3
1 and a boundary setting unit 32, an average value calculating unit 31 obtains a power level of an average value of the power level frequency distribution, and the boundary setting unit 32 sets the power level as a boundary between the noise level area and the audio level area. . The area below the power level of the average value set by the boundary setting unit 32 is the calculation area of the noise level distribution.

【0023】ノイズ分布算出部4は、境界推定部3の境
界設定部32で設定された境界値以下のノイズレベル領
域について、ノイズレベルの分布を計算する。このと
き、ノイズ分布算出部4で求めるノイズレベルの分布
は、例えばノイズレベル分布の平均値及び偏差で特定さ
れる。すなわち、ノイズ分布算出部4は、典型的には、
ノイズレベル分布の平均値及び偏差を求めるものとす
る。例えば、ノイズレベル分布の平均値が23.7〔d
B〕、偏差が14.5〔dB〕であるとする。
The noise distribution calculating section 4 calculates a noise level distribution for a noise level area equal to or smaller than the boundary value set by the boundary setting section 32 of the boundary estimating section 3. At this time, the noise level distribution obtained by the noise distribution calculation unit 4 is specified by, for example, the average value and the deviation of the noise level distribution. That is, the noise distribution calculation unit 4 typically includes
An average value and a deviation of the noise level distribution are determined. For example, the average value of the noise level distribution is 23.7 [d
B], and the deviation is 14.5 [dB].

【0024】ノイズレベル算定部5は、ノイズ分布算出
部4で求めたノイズレベル分布の平均値に偏差を加算し
て、 23.7+14.5=38.2〔dB〕 と、ノイズレベルを算定して出力する。
The noise level calculator 5 adds the deviation to the average value of the noise level distribution obtained by the noise distribution calculator 4 to calculate the noise level as 23.7 + 14.5 = 38.2 [dB]. Output.

【0025】次に、図1のように構成されたノイズレベ
ル検出システムの動作の模式図を図2に示している。こ
の場合、音声入力は、スタジオ録音された音声データの
ように、比較的ノイズが少ない音声データであり、音声
のパワーレベルの分布する範囲とノイズのパワーレベル
の分布する範囲とにそれぞれ偏りがある。
Next, FIG. 2 shows a schematic diagram of the operation of the noise level detection system configured as shown in FIG. In this case, the audio input is audio data having relatively little noise, such as audio data recorded in a studio, and there is a bias between the distribution range of the audio power level and the distribution range of the noise power level. .

【0026】まず、入力された音声データからフレーム
という短い音声区間毎の音声データを切り出す。このよ
うに、切り出されたフレーム毎にパワーレベルを計算す
る。パワーレベルの値としては、FFTパワー等もある
が、ここではRMS対数(RMSをdB表現した値)を
パワーレベルとして求めている。フレーム内の各点につ
いて後述する計算式(数1)で振幅を表現したものがR
MS対数値である。
First, audio data for each short audio section called a frame is cut out from the input audio data. As described above, the power level is calculated for each of the extracted frames. As the value of the power level, there is an FFT power or the like, but here, an RMS logarithm (a value expressing RMS in dB) is obtained as the power level. R representing the amplitude of each point in the frame by a calculation formula (Equation 1) described later is R
MS log value.

【0027】フレーム毎に、このRMS対数値からなる
パワーレベルを求めたら、その頻度を調べ、頻度分布を
示すヒストグラムを作成する。先に述べた通り、スタジ
オ録音された音声データは、S/N(信号対雑音比)が
よいので、音声のパワーレベルがある範囲に偏って分布
している。そして、ノイズレベルの分布範囲は音声の分
布範囲よりもパワーレベルが低いところに位置するのが
普通である。
When a power level consisting of the RMS logarithmic value is obtained for each frame, its frequency is examined and a histogram showing a frequency distribution is created. As described above, studio-recorded audio data has a good S / N (signal-to-noise ratio), so that the audio power level is unevenly distributed in a certain range. The noise level distribution range is usually located at a lower power level than the voice distribution range.

【0028】次に、ノイズレベルの分布を計算する。こ
の場合、音声データには、無音区間が比較的少ないた
め、頻度分布おけるパワーレベルの平均値を求めると音
声のパワーレベルの平均値に近い値をとることになる。
このような全体のパワーレベルの平均値よりも小さいパ
ワーレベル値を持つフレームには、主としてノイズレベ
ルに起因するものが多く含まれていることになる。そこ
で、この平均値以下のパワーレベルのフレームのみを計
算対象として分布を求めれば、ノイズレベルの分布が求
められることになる。
Next, the distribution of the noise level is calculated. In this case, since the audio data has relatively few silent sections, when the average value of the power level in the frequency distribution is obtained, the average value of the power level of the audio is close to the average value.
Such a frame having a power level value smaller than the average value of the entire power levels includes many frames mainly due to the noise level. Therefore, if the distribution is calculated only for frames having a power level equal to or lower than the average value, the noise level distribution is obtained.

【0029】上述したノイズレベル検出システムの詳細
な動作を図3に示すフローチャートを参照して説明す
る。まず、パワーレベル算出部1は、入力された音声デ
ータから、図11に示すように、フレーム長23〔m
s〕で且つフレームピッチ10〔ms〕のフレーム毎の
音声データを切り出し、逐次パワーレベルを計算する
(ステップS11)。
The detailed operation of the above-described noise level detection system will be described with reference to the flowchart shown in FIG. First, the power level calculator 1 calculates a frame length of 23 [m
s] and audio data for each frame with a frame pitch of 10 [ms] are cut out, and power levels are sequentially calculated (step S11).

【0030】ステップS11では、切り出されたフレー
ム毎に逐次パワーレベルを計算する。パワーレベルの値
としては、この場合、RMS対数をパワーレベルとして
求めている。すなわち、図4に示すように、フレーム内
の各点x1,x2,…,xNについて、数1に示す計算式
で振幅を表現したものがRMSである。
In step S11, a power level is sequentially calculated for each of the extracted frames. In this case, as the value of the power level, the RMS logarithm is obtained as the power level. That is, as shown in FIG. 4, the RMS expresses the amplitude of each point x 1 , x 2 ,..., X N in the frame by the calculation formula shown in Expression 1.

【0031】[0031]

【数1】 このRMSに基づき、さらに数2に示す計算式でその対
数を求めたものがRMS対数値である。
(Equation 1) Based on this RMS, the logarithm of the logarithm obtained by the calculation formula shown in Expression 2 is the RMS logarithmic value.

【0032】[0032]

【数2】RMS対数=10log10RMS (単位はd
B)
## EQU2 ## RMS logarithm = 10 log 10 RMS (unit is d
B)

【0033】フレーム毎にこの値を求めたら、パワー分
布算出部2が、パワーレベルの頻度分布を調べ図5に示
すようなヒストグラムを作成する(ステップS12)。
上述したように、スタジオ録音された音声データは、S
/Nがよいため、図5のように、音声のパワーレベルの
分布がある範囲に偏っており、ノイズレベルは音声の分
布範囲よりも低いパワーレベル部分に分布している。こ
の場合、境界推定部3は、ノイズレベルの分布の計算範
囲を求めるのに、平均値を用いる方法を採用している。
まず、平均値算出部31が、図5の頻度分布におけるパ
ワーレベルの平均値を求める(ステップS13)。音声
データには無音区間が比較的少ないため、全体のパワー
レベルの平均値は、音声のパワーレベルの平均値に近い
値となる。
After obtaining this value for each frame, the power distribution calculation unit 2 checks the frequency distribution of the power level and creates a histogram as shown in FIG. 5 (step S12).
As described above, the audio data recorded in the studio is S
As shown in FIG. 5, the power level distribution of the voice is biased to a certain range, and the noise level is distributed to a power level lower than the voice distribution range. In this case, the boundary estimating unit 3 employs a method using an average value to obtain the calculation range of the noise level distribution.
First, the average value calculation unit 31 obtains an average value of power levels in the frequency distribution of FIG. 5 (step S13). Since the audio data has relatively few silent sections, the average value of the entire power level is close to the average value of the power level of the audio.

【0034】つまり、境界設定部32が、全体の平均
値、例えば45〔dB〕を境界として設定する(ステッ
プS14)。この境界値よりも小さい値を持つフレーム
には、ノイズレベルを示すものが多く含まれているはず
であるから、ノイズ分布算出部4が、これらのフレーム
のみを計算対象としてノイズレベルの分布を求める(ス
テップS15)。このようにして、ノイズレベルの分布
を求めると、図6に示すように、平均値が23.7〔d
B〕及び偏差が14.5〔dB〕という結果が得られ
る。この分布結果を用いて、ノイズレベル算定部5にお
いて、 平均値+偏差 によりノイズレベルを求めれば(ステップS16)、ノ
イズレベルは38.2〔dB〕となる。
That is, the boundary setting section 32 sets an average value of the whole, for example, 45 [dB] as a boundary (step S14). Since a frame having a value smaller than the boundary value should include many frames indicating a noise level, the noise distribution calculation unit 4 obtains a noise level distribution by using only these frames as calculation targets. (Step S15). When the noise level distribution is obtained in this way, as shown in FIG. 6, the average value is 23.7 [d
B] and a deviation of 14.5 [dB] are obtained. If the noise level is calculated from the average value and the deviation in the noise level calculating section 5 using the distribution result (step S16), the noise level becomes 38.2 [dB].

【0035】このようにして、ノイズレベルを的確に検
出することができる。また、ノイズレベルの変動に対し
ても音響分析や波形切り出しの精度が安定しており、自
動化も容易である。
Thus, the noise level can be accurately detected. Also, the accuracy of acoustic analysis and waveform cutout is stable with respect to fluctuations in noise level, and automation is easy.

【0036】上述した第1の実施の形態では、全体の平
均値からノイズレベルの範囲を予想して、ノイズレベル
分布の計算範囲を決める境界値を設定した。音声を含む
フレームのほうが出現頻度が高いことを利用すれば他の
方法でノイズレベル分布の計算範囲の境界を設定するこ
とができる。それが、この発明の第2の実施の形態であ
る。
In the above-described first embodiment, the boundary value for determining the calculation range of the noise level distribution is set by predicting the range of the noise level from the overall average value. If the fact that the frequency of appearance of the frame including the voice is higher is used, the boundary of the calculation range of the noise level distribution can be set by another method. That is the second embodiment of the present invention.

【0037】図7〜図10を参照して、この発明の第2
の実施の形態に係るノイズレベル検出システムを説明す
る。図7は、この発明の第2の実施の形態に係るノイズ
レベル検出システムの構成を模式的に示しており、図8
はその動作のフローチャートを示している。
Referring to FIGS. 7 to 10, a second embodiment of the present invention will be described.
A noise level detection system according to the embodiment will be described. FIG. 7 schematically shows a configuration of a noise level detection system according to a second embodiment of the present invention.
Shows a flowchart of the operation.

【0038】図7に示すノイズレベル検出システムは、
図1と同様のパワーレベル算出部1、パワー分布算出部
2、ノイズ分布算出部4及びノイズレベル算定部5を具
備しており、境界推定部6のみが図1の場合と異なって
いる。境界推定部6は、低位の隣接するパワーレベル区
間との差分のうち、“1”以下及び負の差分値を“0”
として、“1”を超える差分を二乗し、その低位からの
累積値を求めて、変化率が急増する個所を境界値と推定
する。
The noise level detection system shown in FIG.
It has the same power level calculation unit 1, power distribution calculation unit 2, noise distribution calculation unit 4, and noise level calculation unit 5 as in FIG. 1, and only the boundary estimation unit 6 is different from that in FIG. The boundary estimating unit 6 sets “1” or less and a negative difference value between “0” and “0” among the differences from the lower adjacent power level section.
Then, the difference exceeding “1” is squared, and the accumulated value from the lower rank is obtained, and the location where the change rate sharply increases is estimated as the boundary value.

【0039】すなわち、境界推定部6は、二乗差分累積
算出部61及び変化率判定部62を有している。二乗差
分累積算出部61は、隣接する低位側のパワーレベル区
間との差分を求め、“1”以下及び負の差分値を“0”
とし、“1”を超える差分を二乗して、二乗差分値の分
布を求めるとともに、二乗差分値分布の低位側からの累
積値を求める。変化率判定部62は、その変化率を低位
の1〔dB〕側から逐次判定し、変化率が急増して
“1”を超える個所を検出して、ノイズレベル分布計算
の境界値とする。
That is, the boundary estimating unit 6 includes a square difference accumulation calculating unit 61 and a change rate determining unit 62. The squared difference accumulation calculator 61 calculates a difference between the adjacent power level sections on the lower side, and sets the difference value equal to or less than “1” and the negative difference value to “0”.
Then, the difference exceeding “1” is squared to obtain the squared difference value distribution, and the accumulated value from the lower side of the squared difference value distribution is obtained. The change rate determination unit 62 sequentially determines the change rate from the lower 1 [dB] side, detects a portion where the change rate sharply increases and exceeds "1", and sets the detected value as a boundary value for noise level distribution calculation.

【0040】図7のノイズレベル検出システムの動作を
図8に示すフローチャートを参照して説明する。まず、
入力された音声データから、フレーム長23〔ms〕で
且つフレームピッチ10〔ms〕のフレーム毎の音声デ
ータを切り出し、逐次パワーレベルを計算する(ステッ
プS21)。フレーム毎にパワーレベルを求めたら、パ
ワーレベルの頻度分布を調べヒストグラムを作成する
(ステップS22)。ステップS21におけるパワーレ
ベルの計算及びステップS22におけるパワーレベルの
頻度分布のヒストグラムの作成は、図1のシステムの場
合と同様である。
The operation of the noise level detection system shown in FIG. 7 will be described with reference to the flowchart shown in FIG. First,
From the input audio data, audio data for each frame having a frame length of 23 [ms] and a frame pitch of 10 [ms] is cut out, and the power level is sequentially calculated (step S21). When the power level is obtained for each frame, the frequency distribution of the power level is checked to create a histogram (step S22). The calculation of the power level in step S21 and the creation of the histogram of the power level frequency distribution in step S22 are the same as in the system of FIG.

【0041】次に、二乗差分累積算出部61は、図5に
示す頻度分布特性において隣接する低位のパワーレベル
区間との頻度の変化分、すなわち頻度の差分を二乗し
て、図9に示すような二乗差分特性を求める(上述した
ように、“1”以下及び負の差分は“0”とする)。図
9では、変化分が強調されて、かなり明確に示されてい
る。低位から逐次頻度の変化分を観察すると、音声のパ
ワーレベルの範囲に入る45〔dB〕近傍になると頻度
が急激に増加していることがわかる。そこで、二乗差分
累積算出部61は、さらに、図9の特性の累積値、すな
わち図9の折れ線と横軸とで囲まれる面積の累積値を求
める(ステップS23)。
Next, the square difference accumulation calculator 61 squares the frequency change from the adjacent lower power level section in the frequency distribution characteristic shown in FIG. 5, that is, the square of the frequency difference, as shown in FIG. (See “1” or less and negative difference is “0” as described above). In FIG. 9, the change is emphasized and clearly shown. By observing the change in the frequency from low to high, it can be seen that the frequency sharply increases near 45 [dB] which is within the range of the power level of the voice. Accordingly, the squared difference accumulation calculator 61 further obtains the cumulative value of the characteristic in FIG. 9, that is, the cumulative value of the area enclosed by the polygonal line and the horizontal axis in FIG. 9 (step S23).

【0042】この累積値の特性を示したのが図10であ
る。図10では、上述した45〔dB〕近傍において変
化率が急激に増加している。そこで、変化率判定部62
は、図10において、1〔dB〕(横軸の始端)側か
ら、逐次探索して、変化率(傾き)が“1”を越えるパ
ワーレベルを判定し(ステップS24)、ノイズレベル
分布の計算のための境界値として設定する(ステップS
25)。
FIG. 10 shows the characteristics of the accumulated value. In FIG. 10, the rate of change sharply increases near 45 [dB] described above. Therefore, the change rate determination unit 62
In FIG. 10, the power level whose change rate (slope) exceeds “1” is determined by sequentially searching from the 1 [dB] (start of the horizontal axis) side (step S24), and the noise level distribution is calculated. Is set as the boundary value for
25).

【0043】ステップS23の二乗差分値の累積計算
は、ステップS24で変化率が“1”を超えたと判定さ
れるまで繰り返す。ステップS24で変化率が“1”を
超えたと判定されると、ステップS25で境界値として
設定し、それ以後は二乗差分値の累積計算は行わない。
The cumulative calculation of the squared difference value in step S23 is repeated until it is determined in step S24 that the rate of change has exceeded "1". If it is determined in step S24 that the change rate has exceeded "1", the boundary value is set in step S25, and thereafter, the cumulative calculation of the squared difference value is not performed.

【0044】この境界値よりも小さい値を持つフレーム
には、ノイズレベルを示すものが多く含まれているはず
であるから、これらのフレームのみを計算対象としてノ
イズレベルの分布を求める(ステップS26)。このス
テップS26の結果を用いて、数3によりノイズレベル
を求める(ステップS27)。
Since a frame having a value smaller than the boundary value should include many frames indicating the noise level, the distribution of the noise level is obtained only for these frames as the calculation target (step S26). . Using the result of step S26, a noise level is obtained from equation 3 (step S27).

【0045】[0045]

【数3】平均値+偏差=ノイズレベル[Equation 3] average value + deviation = noise level

【0046】このようにしても、第1の実施の形態と同
様にノイズレベルを的確に検出することができる。この
場合も、ノイズレベルの変動に対しても音響分析や波形
切り出しの精度が安定しており、自動化も容易である。
Also in this case, the noise level can be accurately detected as in the first embodiment. Also in this case, the accuracy of acoustic analysis and waveform cutout is stable with respect to fluctuations in the noise level, and automation is easy.

【0047】なお、この発明のノイズレベル検出システ
ムは、専用のシステムとして構成することなく、通常の
コンピュータシステムを用いて実現することができる。
例えば、コンピュータシステムに上述の動作を実行する
ためのプログラムを格納した媒体(フロッピーディス
ク、CD−ROM等)から該プログラムをインストール
することにより、上述の処理を実行するノイズレベル検
出システムを構築することができる。なお、上述の機能
を、OSが分担又はOSとアプリケーションの共同によ
り実現する場合等には、OS以外の部分のみを媒体に格
納してもよい。
The noise level detection system according to the present invention can be realized by using an ordinary computer system without configuring as a dedicated system.
For example, a noise level detection system that executes the above-described processing can be constructed by installing the program for executing the above-described operation in a computer system from a medium (a floppy disk, a CD-ROM, or the like) storing the program. Can be. In the case where the above-described functions are realized by the OS sharing or the OS and the application being jointly used, only the part other than the OS may be stored in the medium.

【0048】また、コンピュータにプログラムを供給す
るための媒体は、狭義の記憶媒体に限らず、通信回線、
通信ネットワーク及び通信システムのように、一時的且
つ流動的にプログラム等の情報を保持する通信媒体等を
含む広義の記憶媒体であってもよい。
The medium for supplying the program to the computer is not limited to a storage medium in a narrow sense, but may be a communication line,
Like a communication network and a communication system, it may be a storage medium in a broad sense including a communication medium that temporarily and fluidly stores information such as a program.

【0049】例えば、インターネット等の通信ネットワ
ーク上に設けたFTP(File Transfer Protocol)サー
バに当該プログラムを登録し、FTPクライアントにネ
ットワークを介して配信してもよく、通信ネットワーク
の電子掲示板(BBS:Bulletin Board System)等に
該プログラムを登録し、これをネットワークを介して配
信してもよい。そして、このプログラムを起動し、OS
(Operating System)の制御下において実行することに
より、上述の処理を達成することができる。さらに、通
信ネットワークを介してプログラムを転送しながら起動
実行することによっても、上述の処理を達成することが
できる。
For example, the program may be registered in an FTP (File Transfer Protocol) server provided on a communication network such as the Internet, and distributed to an FTP client via the network, or a bulletin board (BBS: Bulletin) of the communication network. The program may be registered in a board system or the like and distributed via a network. Then start this program and run the OS
The above processing can be achieved by executing under the control of the (Operating System). Furthermore, the above-described processing can also be achieved by starting and executing the program while transferring the program via the communication network.

【0050】[0050]

【発明の効果】以上説明したように、この発明に係るノ
イズレベル検出方法及びシステムは、音声データに基づ
いて該音声データ中に含まれるノイズのノイズレベルを
検出するにあたり、前記音声データの所定時間幅におけ
るパワーレベルを所定時間毎に算出し、所定時間幅毎の
パワーレベルの頻度分布特性を求め、該頻度分布特性に
基づいて、ノイズレベル領域と音声レベル領域との境界
を推定して、ノイズレベル領域についてノイズレベルの
分布を計算し、該ノイズレベル分布に基づいてノイズレ
ベルを算定する。このシステムでは、所定時間幅毎のパ
ワーレベルの頻度分布によりノイズレベルを求めるの
で、ノイズレベルの変動があっても安定に且つ的確にノ
イズレベルを検出することができ、主として統計的演算
でノイズレベルを求めるので自動化も容易である。すな
わち、この発明では、ノイズレベルの変動に対しても安
定に且つ的確にノイズレベルを検出することができ、ノ
イズレベル検出の自動化も容易なノイズレベル検出方法
及びシステムを提供することができる。
As described above, the noise level detecting method and system according to the present invention, when detecting the noise level of the noise included in the audio data based on the audio data, take a predetermined time of the audio data. The power level in the width is calculated for each predetermined time, the frequency distribution characteristic of the power level for each predetermined time width is obtained, and the boundary between the noise level region and the audio level region is estimated based on the frequency distribution characteristic, and the noise level is calculated. The noise level distribution is calculated for the level area, and the noise level is calculated based on the noise level distribution. In this system, since the noise level is obtained from the frequency distribution of the power level for each predetermined time width, the noise level can be detected stably and accurately even if the noise level fluctuates. Therefore, automation is easy. That is, according to the present invention, it is possible to provide a noise level detection method and system that can stably and accurately detect a noise level even when the noise level fluctuates, and that can easily automate the noise level detection.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明の第1の実施の形態に係るノイズレベ
ル検出システムの構成を模式的に示すブロック図であ
る。
FIG. 1 is a block diagram schematically showing a configuration of a noise level detection system according to a first embodiment of the present invention.

【図2】図1のノイズレベル検出システムの動作原理を
説明するための模式図である。
FIG. 2 is a schematic diagram for explaining the operation principle of the noise level detection system of FIG.

【図3】図1のノイズレベル検出システムにおける動作
を説明するためのフローチャートである。
FIG. 3 is a flowchart illustrating an operation of the noise level detection system of FIG. 1;

【図4】図1のノイズレベル検出システムにおける二乗
平均(RMS)対数パワーレベルを説明するための図で
ある。
FIG. 4 is a diagram illustrating a root-mean-square (RMS) log power level in the noise level detection system of FIG. 1;

【図5】図1のノイズレベル検出システムにおける音声
データのパワーレベル分布特性を説明するための図であ
る。
FIG. 5 is a diagram for explaining a power level distribution characteristic of audio data in the noise level detection system of FIG. 1;

【図6】図1のノイズレベル検出システムにおけるノイ
ズレベル分布を説明するための図である。
FIG. 6 is a diagram for explaining a noise level distribution in the noise level detection system of FIG. 1;

【図7】この発明の第2の実施の形態に係るノイズレベ
ル検出システムの構成を模式的に示すブロック図であ
る。
FIG. 7 is a block diagram schematically showing a configuration of a noise level detection system according to a second embodiment of the present invention.

【図8】図7のノイズレベル検出システムにおける動作
を説明するためのフローチャートである。
FIG. 8 is a flowchart for explaining an operation in the noise level detection system of FIG. 7;

【図9】図7のノイズレベル検出システムにおける二乗
差分特性を説明するための図である。
FIG. 9 is a diagram for explaining a square difference characteristic in the noise level detection system of FIG. 7;

【図10】図7のノイズレベル検出システムにおける二
乗差分値の累積特性を説明するための図である。
FIG. 10 is a diagram for explaining a cumulative characteristic of a squared difference value in the noise level detection system of FIG. 7;

【図11】この発明に係る音声データを説明するための
波形図である。
FIG. 11 is a waveform chart for explaining audio data according to the present invention.

【図12】図11に係る音声データを説明するためのス
ペクトルグラムである。
FIG. 12 is a spectrum gram for explaining the audio data according to FIG. 11;

【符号の説明】[Explanation of symbols]

1 パワーレベル算出部 2 パワー分布算出部 3,6 境界推定部 4 ノイズ分布算出部 5 ノイズレベル算定部 31 平均値算出部 32 境界設定部 61 二乗差分累積算出部 62 変化率判定部 DESCRIPTION OF SYMBOLS 1 Power level calculation part 2 Power distribution calculation part 3, 6 Boundary estimation part 4 Noise distribution calculation part 5 Noise level calculation part 31 Average value calculation part 32 Boundary setting part 61 Square difference accumulation calculation part 62 Change rate judgment part

Claims (13)

【特許請求の範囲】[Claims] 【請求項1】音声データに基づいて該音声データ中に含
まれるノイズのノイズレベルを検出するにあたり、 前記音声データの所定時間幅におけるパワーレベルを所
定時間毎に求めるパワーレベル算出ステップと、 前記パワーレベル算出ステップで算出される所定時間幅
毎のパワーレベルの頻度分布特性を求めるパワー分布算
出ステップと、 前記パワー分布算出ステップで求められたパワーレベル
の頻度分布特性に基づいて、ノイズレベル領域と音声レ
ベル領域との境界を推定する境界推定ステップと、 前記境界推定ステップで推定されたノイズレベル領域に
ついてノイズレベルの分布を計算するノイズレベル分布
算出ステップと、 前記ノイズレベル分布算出ステップで求められたノイズ
レベル分布に基づいてノイズレベルを算定するノイズレ
ベル算定ステップと、を有することを特徴とするノイズ
レベル検出方法。
1. A power level calculating step for detecting a noise level of noise included in audio data based on the audio data at a predetermined time interval of the audio data for each predetermined time; A power distribution calculating step for obtaining a frequency distribution characteristic of a power level for each predetermined time width calculated in the level calculating step; and a noise level area and a sound based on the frequency distribution characteristic of the power level obtained in the power distribution calculating step. A boundary estimation step of estimating a boundary with a level area; a noise level distribution calculation step of calculating a noise level distribution for the noise level area estimated in the boundary estimation step; and a noise obtained in the noise level distribution calculation step. Noise that calculates noise level based on level distribution Noise level detecting method characterized by comprising: a level calculation step.
【請求項2】前記境界推定ステップは、パワーレベルの
平均値を求めて、ノイズレベル領域と音声レベル領域と
の境界と推定する平均値算出ステップを含むことを特徴
とする請求項1に記載のノイズレベル検出方法。
2. The method according to claim 1, wherein said boundary estimating step includes an average value calculating step of obtaining an average value of a power level and estimating a boundary between a noise level region and a voice level region. Noise level detection method.
【請求項3】前記境界推定ステップは、低位の隣接区域
とのパワーレベル頻度の少なくとも正の差分の二乗値を
求め、さらに該二乗差分値の累積値を求める二乗差分累
積算出ステップと、該二乗差分累積算出ステップで得ら
れる二乗差分値の累積値の変化率が所定値を超える点を
ノイズレベル領域と音声レベル領域との境界と推定する
変化率判定ステップとを含むことを特徴とする請求項1
に記載のノイズレベル検出方法。
3. The method according to claim 1, wherein the step of estimating the boundary calculates a square value of at least a positive difference in power level frequency with respect to a lower adjacent area, and further calculates a square difference cumulative value for calculating a cumulative value of the square difference value. A change rate determining step of estimating a point at which a change rate of a cumulative value of the squared difference value obtained in the difference cumulative calculation step exceeds a predetermined value as a boundary between the noise level area and the voice level area. 1
2. The noise level detection method according to 1.
【請求項4】前記パワーレベル算出ステップは、振幅の
パワーレベルとして二乗平均(RMS)対数を算出する
RMS対数算出ステップを含むことを特徴とする請求項
1乃至3のうちのいずれか1項に記載のノイズレベル検
出方法。
4. The power level calculating method according to claim 1, wherein said power level calculating step includes an RMS logarithm calculating step of calculating a root mean square (RMS) logarithm as an amplitude power level. The described noise level detection method.
【請求項5】前記パワーレベル算出ステップは、振幅の
パワーレベルとして高速フーリエ変換(FFT)値を算
出するFFTパワー算出ステップを含むことを特徴とす
る請求項1乃至3のうちのいずれか1項に記載のノイズ
レベル検出方法。
5. The power level calculating step according to claim 1, wherein said power level calculating step includes an FFT power calculating step of calculating a fast Fourier transform (FFT) value as an amplitude power level. 2. The noise level detection method according to 1.
【請求項6】前記ノイズレベル算定ステップは、ノイズ
レベル分布の平均値に偏差を加算してノイズレベルを求
めるステップを含むことを特徴とする請求項1乃至5の
うちのいずれか1項に記載のノイズレベル検出方法。
6. The noise level calculating step according to claim 1, wherein the noise level calculating step includes a step of obtaining a noise level by adding a deviation to an average value of the noise level distribution. Noise level detection method.
【請求項7】ノイズを含む音声データの所定時間幅にお
けるパワーレベルを所定時間毎に求めるパワーレベル算
出手段と、 前記パワーレベル算出手段で算出される所定時間幅毎の
パワーレベルの頻度分布特性を求めるパワー分布算出手
段と、 前記パワー分布算出手段で求められたパワーレベルの頻
度分布特性に基づいて、ノイズレベル領域と音声レベル
領域との境界を推定する境界推定手段と、 前記境界推定手段で推定されたノイズレベル領域につい
てノイズレベルの分布を計算するノイズレベル分布算出
手段と、 前記ノイズレベル分布算出手段で求められたノイズレベ
ル分布に基づいてノイズレベルを算定するノイズレベル
算定手段と、を具備することを特徴とするノイズレベル
検出システム。
7. A power level calculating means for obtaining a power level in a predetermined time width of audio data including noise at predetermined time intervals, and a frequency distribution characteristic of the power level for each predetermined time width calculated by the power level calculating means. Power distribution calculating means to be determined; boundary estimating means for estimating a boundary between a noise level area and a sound level area based on the frequency distribution characteristic of the power level obtained by the power distribution calculating means; Noise level distribution calculating means for calculating a noise level distribution for the obtained noise level region; and noise level calculating means for calculating a noise level based on the noise level distribution obtained by the noise level distribution calculating means. A noise level detection system, characterized in that:
【請求項8】前記境界推定手段は、パワーレベルの平均
値を求めて、ノイズレベル領域と音声レベル領域との境
界と推定する平均値算出手段を含むことを特徴とする請
求項7に記載のノイズレベル検出システム。
8. The apparatus according to claim 7, wherein said boundary estimating means includes an average value calculating means for obtaining an average value of the power level and estimating a boundary between the noise level area and the audio level area. Noise level detection system.
【請求項9】前記境界推定手段は、低位の隣接区域との
パワーレベル頻度の少なくとも正の差分の二乗値を求
め、さらに該二乗差分値の累積値を求める二乗差分累積
算出手段と、該二乗差分累積算出手段で得られる二乗差
分値の累積値の変化率が所定値を超える点をノイズレベ
ル領域と音声レベル領域との境界と推定する変化率判定
手段とを含むことを特徴とする請求項7に記載のノイズ
レベル検出システム。
9. The boundary estimating means obtains a square value of at least a positive difference in power level frequency with respect to a lower adjacent area, and further calculates a squared difference accumulating means for obtaining an accumulated value of the squared difference value; A change rate determining means for estimating a point at which a change rate of a cumulative value of the squared difference value obtained by the difference cumulative calculation means exceeds a predetermined value as a boundary between the noise level area and the audio level area. 8. The noise level detection system according to 7.
【請求項10】前記パワーレベル算出手段は、振幅のパ
ワーレベルとして二乗平均(RMS)対数を算出するR
MS対数算出手段を含むことを特徴とする請求項7乃至
9のうちのいずれか1項に記載のノイズレベル検出シス
テム。
10. The power level calculating means calculates a root mean square (RMS) logarithm as an amplitude power level.
10. The noise level detection system according to claim 7, further comprising an MS logarithmic calculation unit.
【請求項11】前記パワーレベル算出手段は、振幅のパ
ワーレベルとして高速フーリエ変換(FFT)値を算出
するFFTパワー算出手段を含むことを特徴とする請求
項7乃至9のうちのいずれか1項に記載のノイズレベル
検出システム。
11. The power level calculating means according to claim 7, wherein said power level calculating means includes an FFT power calculating means for calculating a fast Fourier transform (FFT) value as an amplitude power level. 2. The noise level detection system according to 1.
【請求項12】前記ノイズレベル算定手段は、ノイズレ
ベル分布の平均値に偏差を加算してノイズレベルを求め
る手段を含むことを特徴とする請求項7乃至11のうち
のいずれか1項に記載のノイズレベル検出システム。
12. The apparatus according to claim 7, wherein said noise level calculating means includes means for obtaining a noise level by adding a deviation to an average value of a noise level distribution. Noise level detection system.
【請求項13】コンピュータをノイズを含む音声データ
の所定時間幅におけるパワーレベルを所定時間毎に求め
るパワーレベル算出手段、前記パワーレベル算出手段で
算出される所定時間幅毎のパワーレベルの頻度分布特性
を求めるパワー分布算出手段、前記パワー分布算出手段
で求められたパワーレベルの頻度分布特性に基づいて、
ノイズレベル領域と音声レベル領域との境界を推定する
境界推定手段、前記境界推定手段で推定されたノイズレ
ベル領域についてノイズレベルの分布を計算するノイズ
レベル分布算出手段、前記ノイズレベル分布算出手段で
求められたノイズレベル分布に基づいてノイズレベルを
算定するノイズレベル算定手段、 として機能させるためのプログラムを記録したコンピュ
ータ読み取り可能な記録媒体。
13. A power level calculating means for obtaining a power level in a predetermined time width of audio data including noise at predetermined time intervals by a computer, and a frequency distribution characteristic of the power level for each predetermined time width calculated by the power level calculating means. Power distribution calculation means for obtaining, based on the frequency distribution characteristics of the power level determined by the power distribution calculation means,
Boundary estimating means for estimating a boundary between the noise level area and the audio level area, noise level distribution calculating means for calculating a noise level distribution for the noise level area estimated by the boundary estimating means, and noise level distribution calculating means. And a noise level calculating means for calculating a noise level based on the obtained noise level distribution.
JP10058722A 1997-03-14 1998-03-11 Noise level detecting method, system and recording medium Pending JPH10319985A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10058722A JPH10319985A (en) 1997-03-14 1998-03-11 Noise level detecting method, system and recording medium

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9-60444 1997-03-14
JP6044497 1997-03-14
JP10058722A JPH10319985A (en) 1997-03-14 1998-03-11 Noise level detecting method, system and recording medium

Publications (1)

Publication Number Publication Date
JPH10319985A true JPH10319985A (en) 1998-12-04

Family

ID=26399749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10058722A Pending JPH10319985A (en) 1997-03-14 1998-03-11 Noise level detecting method, system and recording medium

Country Status (1)

Country Link
JP (1) JPH10319985A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039059A (en) * 2008-08-01 2010-02-18 Yamaha Motor Co Ltd Utterance section detecting device
JP2011186384A (en) * 2010-03-11 2011-09-22 Fujitsu Ltd Noise estimation device, noise reduction system, noise estimation method and program
JP2012088404A (en) * 2010-10-15 2012-05-10 Honda Motor Co Ltd Noise power estimation device and noise power estimation method, and voice recognition device and voice recognition method
JP2013190655A (en) * 2012-03-14 2013-09-26 Fujitsu Ltd Noise estimating device, noise estimating method and computer program for noise estimation
JP2014160214A (en) * 2013-02-20 2014-09-04 Nippon Hoso Kyokai <Nhk> Method, device and program for removing impulse response noise
JP2017009657A (en) * 2015-06-17 2017-01-12 本田技研工業株式会社 Voice enhancement device and voice enhancement method
JP2020170190A (en) * 2014-07-28 2020-10-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Method for estimating noise in audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039059A (en) * 2008-08-01 2010-02-18 Yamaha Motor Co Ltd Utterance section detecting device
JP2011186384A (en) * 2010-03-11 2011-09-22 Fujitsu Ltd Noise estimation device, noise reduction system, noise estimation method and program
JP2012088404A (en) * 2010-10-15 2012-05-10 Honda Motor Co Ltd Noise power estimation device and noise power estimation method, and voice recognition device and voice recognition method
US8666737B2 (en) 2010-10-15 2014-03-04 Honda Motor Co., Ltd. Noise power estimation system, noise power estimating method, speech recognition system and speech recognizing method
JP2013190655A (en) * 2012-03-14 2013-09-26 Fujitsu Ltd Noise estimating device, noise estimating method and computer program for noise estimation
JP2014160214A (en) * 2013-02-20 2014-09-04 Nippon Hoso Kyokai <Nhk> Method, device and program for removing impulse response noise
JP2020170190A (en) * 2014-07-28 2020-10-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Method for estimating noise in audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
US11335355B2 (en) 2014-07-28 2022-05-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Estimating noise of an audio signal in the log2-domain
JP2017009657A (en) * 2015-06-17 2017-01-12 本田技研工業株式会社 Voice enhancement device and voice enhancement method

Similar Documents

Publication Publication Date Title
JP4587160B2 (en) Signal processing apparatus and method
EP1895507B1 (en) Pitch estimation, apparatus, pitch estimation method, and program
JP4740609B2 (en) Voiced and unvoiced sound detection apparatus and method
US9396739B2 (en) Method and apparatus for detecting voice signal
CN112037816B (en) Correction, howling detection and suppression method and device for frequency domain frequency of voice signal
JP6174856B2 (en) Noise suppression device, control method thereof, and program
JP4454591B2 (en) Noise spectrum estimation method, noise suppression method, and noise suppression device
JP4497911B2 (en) Signal detection apparatus and method, and program
CN110248300A (en) A kind of chauvent&#39;s criterion method and sound reinforcement system based on autonomous learning
WO2007026436A1 (en) Vocal fry detecting device
JPH10319985A (en) Noise level detecting method, system and recording medium
US8559656B2 (en) System and method for automatic microphone volume setting
JP4548953B2 (en) Voice automatic gain control apparatus, voice automatic gain control method, storage medium storing computer program having algorithm for voice automatic gain control, and computer program having algorithm for voice automatic gain control
CN112712816A (en) Training method and device of voice processing model and voice processing method and device
JP2004012151A (en) System of estimating direction of sound source
US20050216260A1 (en) Method and apparatus for evaluating speech quality
CN111755025A (en) State detection method, device and equipment based on audio features
CN112750458B (en) Touch screen sound detection method and device
JP2008085894A (en) Symbol speed detection device, and program
JPH06261391A (en) Howling controller
JP4630979B2 (en) Pitch estimation apparatus, pitch estimation method and program
Czyżewski et al. Online sound restoration for digital library applications
JP5054646B2 (en) Beat position estimating apparatus, beat position estimating method, and beat position estimating program
JP4381383B2 (en) Discrimination device, discrimination method, program, and recording medium
JP4630982B2 (en) Pitch estimation apparatus, pitch estimation method and program