JP2006171008A - Device, method and program for extracting fundamental frequency, and recording medium with the program stored thereon - Google Patents
Device, method and program for extracting fundamental frequency, and recording medium with the program stored thereon Download PDFInfo
- Publication number
- JP2006171008A JP2006171008A JP2006014305A JP2006014305A JP2006171008A JP 2006171008 A JP2006171008 A JP 2006171008A JP 2006014305 A JP2006014305 A JP 2006014305A JP 2006014305 A JP2006014305 A JP 2006014305A JP 2006171008 A JP2006171008 A JP 2006171008A
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- fundamental frequency
- power
- extraction
- fundamental
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
この発明は複数の音や雑音下の音声信号などの音響信号からその基本周波数を
狭い周波数帯域に分割して抽出する基本周波数抽出方法およびその装置、基本周
波数抽出プログラム、並びにその記録媒体に関する。
基本周波数抽出は、音声合成、音声認識、音声符号化等の信号処理の前処理と
して利用されている。したがって、雑音下での高精度な基本周波数抽出は、後処
理として実施される信号処理装置の性能を向上させることに寄与する。このよう
な信号処理装置には、以下のようなものが含まれる。
1.基本周波数の情報をもとに複数音源の混合音から各構成音を分離する音源
分離装置
2.基本周波数の情報をもとに音声を符号化する音声符号化・復号化装置
3. 騒がしい環境で人が鼻歌で歌った音の基本周波数からメロディを抽出し
て、楽曲を検索する音楽検索装置
4.音楽演奏を音響信号を受け取って楽譜、もしくは楽譜相当の音楽情報を抽
出する自動採譜装置
5.人が発した声の基本周波数の高さで機械にコマンドを渡す機械制御インタ
ーフェース装置、および、機械との対話装置
The present invention relates to a fundamental frequency extraction method and apparatus, a fundamental frequency extraction program, and a recording medium for extracting the fundamental frequency by dividing it into a narrow frequency band from a plurality of sound signals such as sound signals under noise.
Fundamental frequency extraction is used as preprocessing for signal processing such as speech synthesis, speech recognition, speech coding, and the like. Therefore, high-accuracy fundamental frequency extraction under noise contributes to improving the performance of a signal processing device implemented as post-processing. Such a signal processing device includes the following.
1. A sound source that separates each component sound from the mixed sound of multiple sound sources based on fundamental frequency information
3. Music search device for searching for music Music performance is obtained by receiving sound signals and extracting music information equivalent to music scores
4. Automatic music transcription device Machine control interface that passes commands to the machine at the fundamental frequency of human voice
Interface device and machine interaction device
基本周波数抽出装置の従来例1を図14を参照して説明する。
この従来例1は基本周波数の整数倍の周波数で、対数パワースペクトル上に周
期的なピークが現れることを利用する。信号入力部11よりの入力信号は対数パ
ワースペクトル抽出部12で短時間フーリエ変換され、その各スペクトルの絶対
値を2乗したものの対数をとって対数パワースペクトルが演算され、この対数パ
ワースペクトルに対し、周期性抽出部13により短時間フーリエ逆変換が施され
、各周期と対応したレベル、つまり周期性が抽出される。最大値抽出部14で周
期性が最大になる時間差を抽出する。この抽出した時間差、つまり周期の逆数が
基本周波数である。
Conventional example 1 of the fundamental frequency extracting apparatus will be described with reference to FIG.
This conventional example 1 utilizes the fact that periodic peaks appear on the logarithmic power spectrum at a frequency that is an integral multiple of the fundamental frequency. The input signal from the
他の従来例2は、非特許文献1に示すように、瞬時周波数を用いて、前記従来
例1と同じ対数パワースペクトルのピークをより強調して、高精度な基本周波数
を抽出しようとするものである。入力信号の瞬時周波数成分を抽出し、これを各
周波数帯ごとの瞬時周波数φ′(ω)(ωは各周波数帯域ごとの中心周波数)と
、対数パワースペクトル抽出部が抽出したスペクトルS(ω)から、以下の式を
用いてピークを強調した瞬時周波数スペクトルG(λ0 )を求める。
As shown in Non-Patent
本周波数を抽出する。
上述した基本周波数抽出装置の従来例1は、入力信号中に、目的音以外の複数
音声や雑音が含まれている場合、対数パワースペクトル上に目的音以外の特徴が
重畳されてしまう。このため、目的音以外の音のパワーが大きくなると、基本周
波数抽出の誤差が大きくなってしまう問題点があった。
また、従来例2では、瞬時周波数スペクトルは、瞬時周波数の微小区間の傾き
を用いて周波数ピークの強調を行うため、雑音下では、瞬時周波数の不安定な挙
動がそのまま瞬時周波数スペクトルにあらわれてしまう。このため、雑音下で安
定して基本周波数を抽出する特徴量としては不適切であった。
In the conventional example 1 of the fundamental frequency extraction device described above, when a plurality of sounds other than the target sound and noise are included in the input signal, features other than the target sound are superimposed on the logarithmic power spectrum. For this reason, when the power of sound other than the target sound is increased, there has been a problem that an error in extraction of the fundamental frequency is increased.
In Conventional Example 2, since the instantaneous frequency spectrum emphasizes the frequency peak using the slope of the minute section of the instantaneous frequency, the unstable behavior of the instantaneous frequency appears in the instantaneous frequency spectrum as it is under noise. . For this reason, it is inappropriate as a feature quantity for stably extracting a fundamental frequency under noise.
この発明の装置によれば、入力された音声信号又は音楽信号などの音響信号の
パワーを抽出するパワー抽出部と、各周波数のパワーの平均値を求める平均値演
算部と、上記パワーに対し、複数のある周波数について、これとその整数倍の周
波数に関する各パワーから上記平均値をそれぞれ減算した値の和を求める調波構
造パワー抽出部と、上記減算値の和の最大値を抽出して、これと対応する周波数
を基本周波数として出力する最大値抽出部とを備える。
また、この発明の方法によれば、入力された音声信号又は音楽信号などの音響
信号のパワーを抽出するパワー抽出過程と、各周波数のパワーの平均値を求める
平均値演算過程と、上記パワーに対し、複数のある周波数について、これとその
整数倍の周波数に関する各パワーから上記平均値をそれぞれ減算した値の和を求
める調波構造パワーを抽出する調波構造パワー抽出過程と、上記減算値の和の最
大値を抽出して、これと対応する周波数を基本周波数として出力する最大値抽出
過程と、を有する。
まず、この発明に関連する占有度抽出及びそれを使った基本周波数抽出等につ
いて説明する。
この発明に関連する発明では、入力音の各周波数成分が雑音の影響を受けてい
ない度合いを表す占有度を定義し、その占有度の抽出方法とその装置、またその
占有度を利用した基本周波数抽出方法とその装置を提供する。このため、瞬時周
波数に関する次の性質を利用する。
瞬時周波数φ′とは、例えば短時間フーリエ変換の各周波数ビン(bin)を
、等間隔にならんだ狭帯域通過フィルタ出力群とみなした場合の、その各出力波
の位相φの時間微分のことである。ある時刻のある帯域に強いパワーを持った占
有的な周波数成分があると、短時間フーリエ変換(以下、STFTと記す)にお
けるその周波数近傍のbinでは、瞬時周波数がほぼ一定値になることが知られ
ている。このため、雑音が少ない入力信号中の調波構造を持った音の瞬時周波数
を縦軸に、STFTの周波数binを横軸にとってプロットすると、図15A中
の細実線で示すような階段状になる。この階段の水平部分と各周波数binの中
心周波数ωc が一致する点(φ′=ωc 、以下、不動点と呼ぶ)が、各高調波成
分の周波数とみなすことができる。一方、強い雑音がある入力信号中では、瞬時
周波数は明確な階段状にならず、図15B中の細実線の600Hz以上の部で示
すように、なだらかな右上がりの線になる。
According to the apparatus of the present invention, a power extraction unit that extracts the power of an input audio signal or an acoustic signal such as a music signal, an average value calculation unit that calculates an average value of the power of each frequency, For a plurality of frequencies, a harmonic structure power extraction unit for obtaining the sum of values obtained by subtracting the average value from each power related to this and an integer multiple of the frequency, and extracting the maximum value of the sum of the subtraction values, And a maximum value extraction unit that outputs the corresponding frequency as a fundamental frequency.
Further, according to the method of the present invention, a power extraction process for extracting the power of an input audio signal or an acoustic signal such as a music signal, an average value calculation process for obtaining an average value of power at each frequency, and the power On the other hand, for a plurality of frequencies, the harmonic structure power extraction process for extracting the harmonic structure power for obtaining the sum of the values obtained by subtracting the average value from the respective powers related to the integral multiple frequency, and the subtraction value A maximum value extracting process of extracting a maximum value of the sum and outputting a frequency corresponding thereto as a fundamental frequency.
First, occupancy extraction and fundamental frequency extraction using the occupancy associated with the present invention will be described.
In the invention related to the present invention, an occupancy representing the degree to which each frequency component of the input sound is not affected by noise is defined, a method and apparatus for extracting the occupancy, and a fundamental frequency using the occupancy An extraction method and apparatus are provided. For this reason, the following property regarding the instantaneous frequency is used.
The instantaneous frequency φ ′ is, for example, the time differentiation of the phase φ of each output wave when each frequency bin of the short-time Fourier transform is regarded as a group of narrow band pass filters output at equal intervals. It is. It is known that if there is an occupying frequency component with strong power in a certain band at a certain time, the instantaneous frequency becomes a substantially constant value in the bin near that frequency in the short-time Fourier transform (hereinafter referred to as STFT). It has been. Therefore, when the instantaneous frequency of a sound having a harmonic structure in an input signal with little noise is plotted on the vertical axis and the frequency bin of the STFT is plotted on the horizontal axis, a staircase pattern as shown by a thin solid line in FIG. 15A is obtained. . A point (φ ′ = ω c , hereinafter referred to as a fixed point) where the horizontal portion of the staircase coincides with the center frequency ω c of each frequency bin can be regarded as the frequency of each harmonic component. On the other hand, in an input signal with strong noise, the instantaneous frequency does not have a clear staircase shape, but becomes a gentle upward line as shown by a portion of 600 Hz or more of a thin solid line in FIG. 15B.
上述の瞬時周波数の性質を用いて、調波構造が周波数binの出力をどの程度
占めているかを評価するために、占有度(degree of dominance)D0 (ωc )
を以下で定義する。
inにおいて、各瞬時周波数(位相の微分値)φ′(ω)とωc の差分をパワー
スペクトルS(ω)2 で重み付き和をとったものである。占有的な周波数成分に
対応する不動点近傍では、φ′(ω)とωc はほぼ同じ値をとるため、B(ωc
)2 は極小値をとると期待される。B(ωc )2 の逆数(の対数)をとって、同
じ点で極大値を取るようにしたものがD0 (ωc )である。なおS(ω)2 によ
る重み付けは必ずしもしなくてもよいが、重み付けをした方が強いパワーを持つ
周波数の特徴がより強調される。また式(2)の分母はパワーによる定規化であ
る。
占有度D0 (ωc )は、それ自身で調波構造を強調したスペクトル(占有度ス
ペクトルと呼ぶ)として見ることができるため、ケプストラム法のように対数パ
ワースペクトルに基づく基本周波数抽出法を、占有度スペクトルにそのまま適用
して基本周波数を抽出することができる。また、対数パワースペクトルを占有度
で重み付けした以下のスペクトルDp も占有度スペクトルとして利用できる(式
中のa,bは重み付け係数)。
Dp (ωc )=log(S(ωc )2a)+bD0 (ωc ) (3)
=log(S(ωc )2a/B(ωc )2b) (4)
D0 (ωc ),Dp (ωc )のどちらのスペクトルも、調波構造の強調効果に
より正確な基本周波数抽出が期待される。さらに、SNRの悪い状態でも、雑音
の影響の少ない周波数成分はそのまま強調され、雑音に埋もれた成分は抑制され
る。この結果、雑音下でも頑健な基本周波数抽出が実現出来る。
In order to evaluate how much the harmonic structure occupies the output of the frequency bin using the properties of the instantaneous frequency described above, the degree of dominance D 0 (ω c )
Is defined below.
In, the difference between each instantaneous frequency (phase differential value) φ ′ (ω) and ω c is a weighted sum of the power spectrum S (ω) 2 . In the vicinity of the fixed point corresponding to the occupied frequency component, φ ′ (ω) and ω c take almost the same value, so B (ω c
2 is expected to take a local minimum. D 0 (ω c ) is obtained by taking the reciprocal of B (ω c ) 2 and taking the maximum value at the same point. Although weighting with S (ω) 2 is not necessarily performed, the characteristics of the frequency having stronger power are more emphasized when weighting is performed. The denominator of equation (2) is regularization by power.
Since the occupancy D 0 (ω c ) can be viewed as a spectrum that emphasizes the harmonic structure by itself (referred to as an occupancy spectrum), a fundamental frequency extraction method based on a logarithmic power spectrum, such as a cepstrum method, The fundamental frequency can be extracted by applying it directly to the occupancy spectrum. Further, the spectrum D p of less weighted the logarithmic power spectrum in occupancy can be used as occupancy spectrum (a in the formula, b is the weighting factor).
D p (ω c ) = log (S (ω c ) 2a ) + bD 0 (ω c ) (3)
= Log (S (ω c ) 2a / B (ω c ) 2b ) (4)
In both spectra of D 0 (ω c ) and D p (ω c ), accurate fundamental frequency extraction is expected due to the enhancement effect of the harmonic structure. Furthermore, even in a state with a poor SNR, frequency components that are less affected by noise are emphasized as they are, and components buried in noise are suppressed. As a result, robust fundamental frequency extraction can be realized even under noise.
精緻化した基本周波数を求めるために、以下で定義する不動点を利用する。S
TFTのとなりあった周波数binの中心周波数をωc1,ωc2とし(ωc1<ωc2)、
各周波数binの瞬時周波数をφ’(ωc1),φ’(ωc2)とし、以下の等式を満
たす場合、ωc1とωc2の間にφ’(ω)=ωとなる周波数ωが存在し、これを不動
点と呼ぶ。
φ’(ωc1)>ωc1andφ’(ωc2)< ωc2
不動点の周波数は、基本周波数を持つ音の各周波数成分の周波数に相当すると
考えられる。特に、大きな占有度の値を持つ不動点は、背景雑音に比べて十分に
強い周波数成分に相当することが予想されるため、この不動点の周波数は正確な
周波数成分の周波数を与えるものと期待される。また、周波数成分の周波数をあ
る整数で割ることで基本周波数の候補を得ることができる。この不動点から導か
れる基本周波数の候補に対し、大きな占有度を持つ値により大きな重みを置いて
平均を計算することで、雑音下でも精度の高い基本周波数抽出法を構成する。
また、占有度のかわりに信号のパワー、または包絡成分を取り除いたパワーを
用いる方法でも、同様に、精緻化した基本周波数の抽出法を構成できる。一般に
、パワーの強い周波数成分に相当する不動点では、背景雑音に比べて周波数成分
の影響が強いため、不動点の周波数が周波数成分の周波数の良い近似を与えるで
あろうことが期待される。したがって、本発明では、パワーの強い周波数により
大きな重みを置いた基本周波数候補値の平均を計算することで、雑音下でも精度
の高い基本周波数抽出法を構成する。
In order to obtain a refined fundamental frequency, the fixed point defined below is used. S
The center frequency of the frequency bin adjacent to the TFT is ω c1 , ω c2 (ω c1 <ω c2 ),
When the instantaneous frequency of each frequency bin is φ ′ (ω c1 ), φ ′ (ω c2 ), and the following equation is satisfied, the frequency ω at which φ ′ (ω) = ω is obtained between ω c1 and ω c2. It exists and is called a fixed point.
φ '(ω c1 )> ω c1 andφ' (ω c2 ) <ω c2
The frequency of the fixed point is considered to correspond to the frequency of each frequency component of the sound having the fundamental frequency. In particular, a fixed point with a large occupancy value is expected to correspond to a frequency component that is sufficiently stronger than the background noise, so the frequency of this fixed point is expected to give an accurate frequency component frequency. Is done. Further, a fundamental frequency candidate can be obtained by dividing the frequency of the frequency component by a certain integer. By calculating an average with a larger weight on a value having a large occupancy for a fundamental frequency candidate derived from this fixed point, a highly accurate fundamental frequency extraction method is configured even under noise.
Similarly, a method of using a signal power or a power from which an envelope component is removed instead of the occupancy can similarly form a refined method of extracting a fundamental frequency. In general, at a fixed point corresponding to a frequency component with strong power, the influence of the frequency component is stronger than that of background noise, so it is expected that the frequency of the fixed point will give a good approximation of the frequency component frequency. Therefore, in the present invention, a basic frequency extraction method with high accuracy is configured even under noisy conditions by calculating an average of basic frequency candidate values that place a greater weight on a high-power frequency.
さらに、音源分離装置と組み合わせることでより高精度な基本周波数抽出法を
構成する。音源分離装置を用いると、空間的に異なる位置で測定された二つ以上
の入力信号中で、特定の位置の音源から出てくる信号を強調、もしくは抑制する
ことができることが知られている。しかし、この分離信号も、分離結果にある程
度以上のひずみが含まれているため、従来例1、2などの基本周波数抽出法では
、ひずみの影響で基本周波数抽出性能が劣化してしまうことがあった。これに対
し、占有度を利用した基本周波数抽出では、占有的な周波数成分のみで基本周波
数を抽出するためひずみの影響も受けにくい。このため、音源分離装置が抑制す
る雑音の影響を回避しつつ、より高精度な基本周波数抽出を実現できる。
Furthermore, a more accurate fundamental frequency extraction method is configured by combining with a sound source separation device. It is known that when a sound source separation device is used, a signal emitted from a sound source at a specific position can be emphasized or suppressed among two or more input signals measured at spatially different positions. However, since this separation signal also includes a certain degree of distortion in the separation result, the fundamental frequency extraction methods such as the conventional examples 1 and 2 may deteriorate the fundamental frequency extraction performance due to the distortion. It was. On the other hand, in the fundamental frequency extraction using the degree of occupancy, the fundamental frequency is extracted using only the occupying frequency component, so that it is not easily affected by distortion. For this reason, more accurate fundamental frequency extraction can be realized while avoiding the influence of noise suppressed by the sound source separation device.
対数変換を加えていない信号のパワーでは、雑音成分と周波数成分の差が大き
いという性質を持つ。本発明では、信号のパワーのこの性質に着目して、周波数
特性の変形を受けていない信号に対する基本周波数抽出方法を構成する。また、
周波数特性の変形を受けた信号に対しても、その周波数特性の変形を受ける前の
状態にもどす補償方法と組み合わせた基本周波数抽出方法を構成する。これによ
り、背景雑音下で頑健な基本周波数抽出が行えるようになる。
The power of a signal not subjected to logarithmic conversion has a property that a difference between a noise component and a frequency component is large. In the present invention, focusing on this property of signal power, a fundamental frequency extraction method is configured for a signal that has not undergone frequency characteristic deformation. Also,
A fundamental frequency extraction method is configured in combination with a compensation method for returning a signal that has undergone frequency characteristic deformation to a state before undergoing the frequency characteristic deformation. This makes it possible to perform robust fundamental frequency extraction under background noise.
以下この発明の実施の形態の説明に先立ち、関連のある基本周波数抽出装置及
びその方法について説明する。
占有度の抽出(装置)
占有度抽出装置の例を図1に示す。入力部11から音響信号が入力信号に変換
されて入力され、この入力信号は瞬時周波数抽出部21で各周波数帯域ごとに各
時刻の入力信号の瞬時周波数φ′(ω1 )〜φ′(ωn )がそれぞれ抽出される。
ω1 〜ωn は各帯域の中心周波数である。この周波数帯域は例えば50〜100
Hzの等間隔の帯域であり、例えば短時間フーリエ変換部22で30〜50ms
ごとの入力信号が短時間フーリエ変換され、つまり周波数領域に変換され、この
変換されたスペクトルが帯域分割位相検出部231 〜23n により、n個の周波
数帯域に分割され、各帯域において、その複素スペクトルの位相φ(ω1 )〜φ
(ωn )が検出される。入力信号の周波数領域の変換はウェーブレット変換、余
弦変換など他の手法を用いてもよい。あるいは50〜100Hzの間隔の帯域通
過フィルタ(フィルタバンク)により入力信号を帯域ごとに分割し、その各出力
を正弦波とみなし、その位相を求めてもよい。なお、この装置においては一般に
はディジタル処理で行われる。
このようにして帯域ごとの位相φ(ω1 )〜φ(ωn )が微分部241 〜24
n でそれぞれ微分されて瞬時周波数φ′(ω1 )〜φ′(ωn )とされる。
これら瞬時周波数φ′(ω1 )〜φ′(ωn )は周波数差抽出部25に入力さ
れ、各周波数帯域ごとにその中心周波数ωc (c=1,2,…,n)を中心とし
た与えられた前後の帯域を含む帯域ωc −Δω〜ωc +Δωについてその各瞬時
周波数と中心周波数ωc との差がそれぞれ求められる。つまりφ′(ω1 −Δω
)−ω1 〜φ′(ω1 +Δω)−ω1 ,φ′(ω2 −Δω)−ω2 〜φ′(ω2
+Δω)−ω2 ,…,φ′(ωn −Δω)−ωn 〜φ′(ωn +Δω)−ωn が
得られる。
なお、積分範囲は想定される基本周波数の50〜100%に該当する適当な固
定値としてもよく後述のように適応的に変更してもよい。
Prior to the description of the embodiments of the present invention, a related fundamental frequency extraction apparatus and method will be described.
Occupancy extraction (device)
An example of the occupancy extraction device is shown in FIG. An acoustic signal is converted into an input signal and input from the
ω 1 to ω n are the center frequencies of the respective bands. This frequency band is, for example, 50-100.
For example, 30-50 ms in the short-time
Each input signal is Fourier-transformed for a short time, that is, converted into the frequency domain, and the converted spectrum is divided into n frequency bands by the band
(Ω n ) is detected. Other methods such as wavelet transform and cosine transform may be used for transforming the input signal in the frequency domain. Alternatively, the input signal may be divided for each band by a band-pass filter (filter bank) having an interval of 50 to 100 Hz, and each output may be regarded as a sine wave to obtain the phase. In this apparatus, digital processing is generally performed.
In this way, the phases φ (ω 1 ) to φ (ω n ) for each band are differentiated from the
Differentiated by n , the instantaneous frequencies φ ′ (ω 1 ) to φ ′ (ω n ) are obtained.
These instantaneous frequencies φ ′ (ω 1 ) to φ ′ (ω n ) are input to the frequency
) −ω 1 to φ ′ (ω 1 + Δω) −ω 1 , φ ′ (ω 2 −Δω) −ω 2 to φ ′ (ω 2
+ Δω) −ω 2 ,..., Φ ′ (ω n −Δω) −ω n to φ ′ (ω n + Δω) −ω n are obtained.
The integration range may be an appropriate fixed value corresponding to 50 to 100% of the assumed fundamental frequency, or may be adaptively changed as described later.
一方、入力信号が信号パワー抽出部26に入力され、各周波数帯域の中心周波
数ωc の入力信号パワーS(ωc )2 を抽出する。例えば短時間フーリエ変換部
22などの周波数領域に変換された係数の該当中心周波数ωc のスペクトルS(
ωc )を取り出し、それを2乗すればよい。
周波数差抽出部25からの各周波数差φ′(ωc −Δω)と信号パワー抽出部
26からの中心周波数パワーS(ω)2 とが占有度演算部27に入力されて占有
度が演算される。占有度は式(1)により定義されたD0 (ωc )又は式(3)
あるいは(4)により定義されたDp (ωc )を演算して求められる。
占有度D0 (ωc )を求めるには例えば図2Aに示すように周波数差φ′(ω
c −Δω)−ωc 〜φ′(ωc +Δω)−ωc が重み付き加算部271でパワー
スペクトルS(ωc )2 の重み付き加算が行われる。つまり各周波数差φ′(p
)−ωc (p=ωc −Δω,…,ωc ,…ωc +Δω)が2乗部272で2乗さ
れ、この2乗値(φ′(p)−ωc )2 に対し乗算部273にS(ωc )2 が乗
算され、加算部274で加算され、重み付き加算結果Σ(φ′(p)−ωc )2
・S(ωc )2 (Σはp=ωc −Δωからp=ωc +Δωまで)が得られる。
一方、その周波数差の帯域ωc −Δω〜ωc +Δωの各周波数の入力信号のパ
ワースペクトルS(ωc −Δω)2 〜S(ωc +Δω)2 が加算部275に入力
され、これらが加算され、その加算値により、重み付き加算部271よりの加算
値が割算部276で割算されて、B(ωc )2 が求まる。更に逆数・対数演算部
278でB(ωc )2 の逆数の対数log(1/B(ωc )2 )=D0 (ωc )
が演算されて出力される。
On the other hand, the input signal is input to the signal
ω c ) is taken out and squared.
Each frequency difference φ ′ (ω c −Δω) from the
Alternatively, it is obtained by calculating D p (ω c ) defined by (4).
To determine the occupancy D 0 (ω c ), for example, as shown in FIG. 2A, the frequency difference φ ′ (ω
c− Δω) −ω c to φ ′ (ω c + Δω) −ω c is subjected to weighted addition of the power spectrum S (ω c ) 2 by the weighted addition unit 271. That is, each frequency difference φ ′ (p
) −ω c (p = ω c −Δω,..., Ω c ,..., Ω c + Δω) is squared by the
S (ω c ) 2 (Σ is p = ω c −Δω to p = ω c + Δω) is obtained.
On the other hand, the power spectrum of each frequency of the input signal of the frequency difference band ω c -Δω~ω c + Δω of S (ω c -Δω) 2 ~S (ω c + Δω) 2 are input to the
Is calculated and output.
式(3)による占有度Dp (ωc )を求めるには例えば図2Bに示すように、
各帯域の中心周波数のパワーS(ωc )2 がべき乗部279でaべき乗され、そ
の結果S(ωc )2aに対し、対数演算部281で対数演算される。一方、図2A
で求めたD0 (ωc )が乗算部282でb倍され、この結果bD0 (ωc )と対
数演算部281の出力log(S(ωc )2a)とが加算部283で加算されて、
Dp (ωc )として出力される。
式(4)による占有度Dp (ωc )を求めるには例えば図2Cに示すように、
S(ωc )2 がべき乗部279でaべき乗され、一方図2A中の割算部276の
出力B(ωc )2 がべき乗部284でbべき乗され、これらべき乗結果が割算部
285で割算され、S(ωc )2a/B(ωc )2bが計算され、この結果に対し対
数演算部285で対数がとられてDp (ωc )として出力される。
図2B及び図2Cにおいてa=bとしてもよい。この場合は図2Bでべき乗算
部279、乗算部282は省略され、図2Cでべき乗算部279,284が省略
される。なおa,bは0より大きい値であればよく、S(ωc )2 とD0 (ωc
)又はB(ωc )2 との何れを重視するか、かつその重視の程度により、a,b
を決定する。これは入力信号の雑音混入状態などにより決定される。
In order to obtain the occupancy D p (ω c ) according to the equation (3), for example, as shown in FIG.
The power S (ω c ) 2 of the center frequency of each band is multiplied by a power by the
D 0 (ω c ) obtained in step ( b ) is multiplied by b by the
It is output as D p (ω c ).
To obtain the occupancy D p (ω c ) according to the equation (4), for example, as shown in FIG.
S (ω c ) 2 is a-powered by the
It is good also as a = b in FIG. 2B and FIG. 2C. In this case, the
) Or B (ω c ) 2 and a or b depending on the importance
To decide. This is determined by the noise mixing state of the input signal.
占有度演算部27では周波数差を中心周波数パワーS(ωc )2 の重み付き加
算したが、この重み付きを省略し、つまり図2Aで乗算部273を省略して周波
数差を加算してもよい。つまり単なる周波数差の加算でも対数パワースペクトル
よりも調波構造が強調される。場合によってはパワーによる正規化も省略しても
よい。つまり図2Aで加算部275、割算部276を省略してもよい。
式(2)中の積分範囲、つまりωc −Δω〜ωc +Δωは固定としてもよいが
、入力信号の基本周波数の概算値により適応的に変更することが望ましい。つま
り図1中に破線で示すように、積分範囲決定部28を設け、この積分範囲決定部
28で決定されたΔωが周波数差抽出部25に入力され、演算する周波数差の周
波数範囲ωc −Δω〜ωc +Δωが決定される。
つまり入力音声の基本周波数によって、積分範囲の最適値は変化するため、よ
りよい精度で基本周波数を求めるためには、より適切な積分範囲を選択すること
が望ましい。例えば、入力信号の音源である話者が男性か女性かが事前にわかっ
ていることを想定して、それぞれに最適な固定の積分範囲、例えば男性の場合Δ
ωを約80Hz、女性の場合Δωを約140Hz程度とし、これを積分範囲決定
部28に設定する。また、別の方法では、式(2)を適用する前に、従来技術の
項で説明した基本周波数抽出法、その他の方法など別の基本周波数抽出法を用い
て積分範囲決定部28で基本周波数の初期推定値F0を求め、その初期推定基本
周波数に応じて例えば基本周波数に対して2・Δωを約50〜100%程度、好
ましくは2・Δω≒ F0×0.75として積分範囲を決定し、そのΔωが周波数
差抽出部25へ供給されるようにしてもよい。
In the
Integration range in the equation (2), i.e. ω c -Δω~ω c + Δω is may be fixed, it is desirable to adaptively modify the estimate of the fundamental frequency of the input signal. That is, as shown by a broken line in FIG. 1, an integration
In other words, since the optimum value of the integration range varies depending on the fundamental frequency of the input speech, it is desirable to select a more appropriate integration range in order to obtain the fundamental frequency with better accuracy. For example, assuming that it is known in advance whether the speaker that is the sound source of the input signal is male or female, the optimal fixed integration range for each, for example, Δ
ω is set to about 80 Hz, and in the case of a woman, Δω is set to about 140 Hz, and this is set in the integration
占有度の抽出(方法)
次に前述した占有度抽出装置における処理手順、つまり占有度の抽出方法を以
下に説明する。
図3に基本的手順の例を示す。入力信号の各周波数帯域ごとの瞬時周波数を瞬
時周波数抽出過程(S1)で抽出する。この瞬時周波数抽出は先の装置説明で行
ったように例えば入力信号を短時間フーリエ変換により周波数領域信号に変換し
(Sa)、この周波数領域信号を狭い周波数帯域の信号に帯域分割し(Sb)、
この各帯域の信号の位相φ(ωc )をそれぞれ抽出し(Sc)、その各位相φ(
ωc )を微分して瞬時周波数φ′(ωc )を求める(Sd)。
これら瞬時周波数φ′(ωc )について、その中心周波数ωc を中心とした前
後の帯域を含むωc −Δω〜ωc +Δωの範囲の各値から中心周波数をωc を差
し引いて周波数差を抽出する(S2)。
これら周波数差の各ωc −Δω〜ωc +Δωの成分の和を求め、この和を用い
てそのωc の占有度を演算する(S3)。
このステップS3の占有度演算における占有度D0 (ωc )を求める場合の例
を図4を参照して説明する。まず各帯域について周波数差のパワースペクトルの
重み付き加算を行う(S1)。即ち各ωc についてωc −Δω〜ωc +Δωの帯
域における各周波数差を2乗し(S1a)、その2乗値にパワースペクトルS(
ωc )2 を乗算し(S1b)、このパワースペクトルを乗算したものを、この帯
域ωc −Δω〜ωc +Δωについて加算する(Sc)。
一方、各中心周波数ωc について同一の帯域ωc −Δω〜ωc +Δωのパワー
スペクトルの和を求め(S2)、このパワースペクトルの和で、同一帯域の前記
重み付き和を割算して正規化してB(ωc )2 を求める(S3)。そのB(ωc
)2 の逆数を取り、その逆数に対数演算を行ってD0 (ωc )を得る(S4)。
図4Aにおいて、ステップS1とS2は順を逆にしてもよい。
Occupancy extraction (method)
Next, a processing procedure in the above-described occupation degree extraction apparatus, that is, a method for extracting the occupation degree will be described below.
FIG. 3 shows an example of a basic procedure. The instantaneous frequency for each frequency band of the input signal is extracted in the instantaneous frequency extraction process (S1). This instantaneous frequency extraction is performed, for example, by converting the input signal into a frequency domain signal by a short-time Fourier transform (Sa), and dividing the frequency domain signal into a narrow frequency band signal (Sb). ,
The phase φ (ω c ) of each band signal is extracted (Sc), and each phase φ (
ω c ) is differentiated to obtain an instantaneous frequency φ ′ (ω c ) (Sd).
For these instantaneous frequencies φ ′ (ω c ), subtract the center frequency ω c from each value in the range of ω c −Δω to ω c + Δω including the bands before and after the center frequency ω c as the center to obtain the frequency difference. Extract (S2).
Calculates the sum of the components of each ω c -Δω~ω c + Δω of the frequency difference, it calculates the occupancy of the omega c using the sum (S3).
An example of obtaining the occupancy D 0 (ω c ) in the occupancy calculation of step S3 will be described with reference to FIG. First, weighted addition of the power spectrum of the frequency difference is performed for each band (S1). That each frequency difference in the band of ω c -Δω~ω c + Δω for each
ω c ) 2 is multiplied (S1b), and this power spectrum is multiplied for this band ω c −Δω to ω c + Δω (Sc).
On the other hand, for each center frequency omega c calculates the sum of the power spectrum of the same band ω c -Δω~ω c + Δω (S2 ), the sum of the power spectrum, by dividing the weighted sum of the same band regular To obtain B (ω c ) 2 (S3). B (ω c
) Take the reciprocal of 2 , and perform logarithmic operation on the reciprocal to obtain D 0 (ω c ) (S4).
In FIG. 4A, steps S1 and S2 may be reversed in order.
次に占有度Dp (ωc )を式(3)により求めた順を図5Aを参照して説明す
る。図4Aで求めた占有度D0 (ωc )に重み定数bを乗算してbD0 (ωc )
を求め(S1)、またωc のパワースペクトルに対し重み定数aをべき乗してS
(ωc )2aを求め(S2)、その対数log(S(ωc )2a)を演算し(S3)
、これとbD0 (ωc )を加算して占有度Dp (ωc )とする(S4)。ステッ
プS1〜S3の順は任意でよい。
更に式(4)による占有度Dp (ωc )を求める手順を図5Bを参照して説明
する。図4A中のステップS3で求めたB(ωc )2 に対し重み定数bのべき乗
を計算し(S1)、またωc のパワースペクトルに対し重み定数aのべき乗を計
算し(S2)、これらべき乗算結果の比S(ωc )2a/B(ωc )2bを求め(S
3)、この比の対数をとり占有度Dp (ωc )とする(S4)。ここでステップ
S1とS2は何れを先に行ってもよい。
Next, the order in which the occupancy D p (ω c ) is obtained by Expression (3) will be described with reference to FIG. 5A. The occupancy D 0 (ω c ) obtained in FIG. 4A is multiplied by a weight constant b to obtain bD 0 (ω c ).
(S1), and the power constant of ω c is raised to the power of the weighting constant a.
(Ω c ) 2a is obtained (S2), and its logarithm log (S (ω c ) 2a ) is calculated (S3).
These and bD 0 (ω c ) are added to obtain an occupancy D p (ω c ) (S4). The order of steps S1 to S3 may be arbitrary.
Further, a procedure for obtaining the occupancy D p (ω c ) according to the equation (4) will be described with reference to FIG. 5B. The power of weight constant b is calculated for B (ω c ) 2 obtained in step S3 in FIG. 4A (S1), and the power of weight constant a is calculated for the power spectrum of ω c (S2). The power multiplication result ratio S (ω c ) 2a / B (ω c ) 2b is obtained (S
3) The logarithm of this ratio is taken as the occupation degree D p (ω c ) (S4). Here, either step S1 or S2 may be performed first.
図3乃至図5を参照して説明した占有度抽出方法について、先に説明した占有
度抽出装置における変形は同様に行うことができ、また各種条件も同様である。
例えば積分範囲Δωの適応的決定も同様にこの方法にも適用できる。図1中の瞬
時周波数抽出部21、図3中の瞬時周波数抽出ステップS1における瞬時周波数
抽出の手法としてはこれらの図に示した手法に限らず、例えば「L.コーエン著
、『時間−周波数解析』(吉川昭・佐藤俊輔訳)、第2章、朝倉書店(1998
)」に示す手法、その他の手法を用いてもよい。
The occupancy extraction method described with reference to FIGS. 3 to 5 can be similarly modified in the occupancy extraction apparatus described above, and various conditions are also the same.
For example, the adaptive determination of the integration range Δω can be applied to this method as well. The instantaneous frequency extraction unit 21 in FIG. 1 and the instantaneous frequency extraction method in the instantaneous frequency extraction step S1 in FIG. 3 are not limited to the methods shown in these drawings. For example, “L. Cohen”, “Time-frequency analysis”. (Translated by Akira Yoshikawa and Shunsuke Sato),
) "Or other methods may be used.
基本周波数抽出(装置)
次に上述した占有度抽出装置を用いた基本周波数抽出装置の例を説明する。
図6に示すように入力部11からの入力信号は前述した占有度抽出装置(以下
では占有度抽出部と記す)31は入力されて、各帯域の占有度D0 (ω1 )〜
D0 (ωn )又はDp (ω1 )〜Dp (ωn )が抽出される。これら占有度は周期
性演算部32に入力されて、周波数軸上での占有度の周期性が演算される。例え
ば各時刻、例えば30〜50ミリ秒ごとに得られる占有度スペクトルD0(ω1 )
〜D0 (ωn )又はDp (ω1 )〜Dp (ωn )に対し短時間フーリエ逆変換を行
い、スペクトルピークの周期性P0(T1 )〜P0 (Tn )が抽出される。この周
期性は例えば図16に横軸に時間(周期)Tを縦軸にレベルをとって示すように
なる。
これら周期性P0 (T1 )〜P0(Tn )は最大値抽出部33に入力され、そ
の最大値を与える周期T0 が抽出され、その周期T0 の逆数が逆数計算部34で
計算され、基本周波数F0 =1/T0 として出力される。
Basic frequency extraction (device)
Next, an example of a fundamental frequency extraction device using the above-described occupancy degree extraction device will be described.
As shown in FIG. 6, the input signal from the
D 0 (ω n ) or D p (ω 1 ) to D p (ω n ) is extracted. These occupancy levels are input to the
˜D 0 (ω n ) or D p (ω 1 ) to D p (ω n ) is subjected to a short-time inverse Fourier transform, and the spectral peak periodicities P 0 (T 1 ) to P 0 (T n ) are Extracted. This periodicity is, for example, shown in FIG. 16 with time (period) T on the horizontal axis and level on the vertical axis.
These periodicity P 0 (T 1) ~P 0 (T n) are input to the maximum value extraction unit 33, the period T 0 is extracted to provide the maximum value, the inverse of the period T 0 is the
次に基本周波数抽出装置の他の例を図7を参照して説明する。
図6に示した場合と同様に、入力部11からの入力信号は占有度抽出部31で占
有度(スペクトル)が抽出される。この例においてはこれら占有度スペクトルは
調波構造占有度演算部35に入力され、以下で定義される調波構造に関する占有
度の和Dt0(ω0 )(もしくはDtp(ω0 ))を最大にするω0 を求めることで
基本周波数を求める。
Dt0(ω0 )=Σq D0 (r(q・ω0 )) (5)
Dtp(ω0 )=Σq Dp (r(q・ω0 )) (6)
ここで、ω0 は任意の周波数、qは高調波の次数、r(・)はq・ω0 で求ま
る周波数を、占有度抽出に用いられた帯域分割における帯域中心周波数ωc の最
も近い周波数に変換する関数である。qの次はいくらでも高い値としてもよいが
、演算量を単に増加させることになる。この点からq・ω0 の値が1500Hz
程度乃至は3000Hz程度までとしても十分である。
Next, another example of the fundamental frequency extraction device will be described with reference to FIG.
As in the case shown in FIG. 6, the occupancy (spectrum) is extracted by the
D t0 (ω 0) = Σ q D 0 (r (q · ω 0)) (5)
D tp (ω 0) = Σ q D p (r (q · ω 0)) (6)
Here, ω 0 is an arbitrary frequency, q is a harmonic order, r (·) is a frequency obtained by q · ω 0 , and the frequency closest to the band center frequency ω c in the band division used for occupancy extraction. Is a function that converts to The value after q may be any value, but the amount of calculation is simply increased. From this point, q · ω 0 is 1500Hz
It is sufficient even if it is about to about 3000 Hz.
調波構造占有度演算部35で演算されたDt0(ω1 )〜Dt0(ωn )又はDtp
(ω1 )〜Dtp(ωn )が最大値抽出部36に入力され、これらの中の最大値が
抽出され、その最大値を与えるDt0(ωc )又はDtp(ωc )と対応するω0 が
基本周波数F0 として出力される。
調波構造占有度演算部35は例えば図8に示すように乗算部351に順次ω0
を設定してその各ω0 についてq・ω0 を計算する。男性のピッチ周期の平均を
125Hzとすると、90Hz〜100Hz程度から1乃至数Hzずつ増加した
周波数をω0 として順次設定すればよい。乗算部351の乗算結果q・ω0 は対
応中心周波数検出部352に入力されて、ω1 〜ωn 中のq・ω0 に最も近いω
c がωcqとして求められ、占有度取出部353において各ωcqに対する占有度D
0 (ωcq)又はDp (ωcq)を取り出し、各ω0 について取り出された各qの占
有度が加算されてDt0(ω0 )又はDtp(ω0 )として出力される。
占有度D0 (ωc )を利用する場合は次式を最大とするω0 を求めることによ
り、式(5)を用いる場合より更に雑音に強い基本周波数抽出装置とすることが
できる。
Dt0(ω0 )=Σq (D0 (r(q・ω0 ))−D0AV ) (7)
ここでD0AV は占有度D0 (ω1 )〜D0 (ωn )の平均値である。
この場合は図8中に破線で示すように平均値計算部355においてD0 (ω1
)〜D0 (ωn )の平均値D0AV が計算され、加算部356でΣq (D0 (ωcq
)−D0AV )が計算され、Dt0(ω0 )として出力される。
占有度Dp (ωc )を利用する場合は、Dp (ω1 )〜Dp (ωn )を時間系
列とみなして高域通過フィルタ処理を行い、そのフィルタ処理したDp (ω1 )
〜Dp (ωn )を式(6)に用いることにより更に高い精度の基本周波数抽出装
置とすることができる。つまり図8中に破線で示すようにフィルタ処理部357
でDp (ω1 )〜Dp (ωn )がこれらを時間系列とみなして高域通過フィルタ
処理され、この系列の変化における細かい変化成分D′p (ω1 )〜D′p (ω
n )が取り出され、検出された各ωcqと対応するD′p (ωcq)が占有度取出部
358で取り出され、これらが加算部359で加算され、Dtp(ω0 )=Σq D
′p (ωcq)として出力される。
D t0 (ω 1 ) to D t0 (ω n ) or D tp calculated by the harmonic structure
(Ω 1 ) to D tp (ω n ) are input to the maximum
For example, as shown in FIG. 8, the harmonic structure
And q · ω 0 is calculated for each ω 0 . If the average pitch period of men is 125 Hz, the frequency increased from about 90 Hz to about 100 Hz by 1 to several Hz may be sequentially set as ω 0 . Multiplication result q · omega 0 multiplier 351 is input to the corresponding center
c is obtained as omega cq, occupancy D for each omega cq in
0 (ω cq ) or D p (ω cq ) is extracted, and the occupancy of each q extracted for each ω 0 is added and output as D t0 (ω 0 ) or D tp (ω 0 ).
When the occupancy D 0 (ω c ) is used, by obtaining ω 0 that maximizes the following equation, a fundamental frequency extraction device that is more resistant to noise than when using Equation (5) can be obtained.
D t0 (ω 0 ) = Σ q (D 0 (r (q · ω 0 )) − D 0AV ) (7)
Here, D 0AV is an average value of occupancy degrees D 0 (ω 1 ) to D 0 (ω n ).
In this case, as indicated by a broken line in FIG. 8, the average
) To D 0 (ω n ), an average value D 0AV is calculated, and the
) −D 0AV ) is calculated and output as D t0 (ω 0 ).
When the occupancy D p (ω c ) is used, D p (ω 1 ) to D p (ω n ) are regarded as a time series, high-pass filtering is performed, and the filtered D p (ω 1 )
By using ~ D p (ω n ) in the equation (6), it is possible to obtain a fundamental frequency extraction device with higher accuracy. That is, as shown by the broken line in FIG.
D p (ω 1 ) to D p (ω n ) are regarded as time series and are subjected to high-pass filtering, and fine change components D ′ p (ω 1 ) to D ′ p (ω
n ) is extracted, D ′ p (ω cq ) corresponding to each detected ω cq is extracted by the
It is output as ′ p (ω cq ).
所で図6に示した基本周波数抽出装置は雑音に強く、図7に示した基本周波数
抽出装置は精度が高い性質がある。このような点から、図6に示すように、占有
度スペクトルの周期性を演算し、その最大値の周期を抽出して、その逆数から基
本周波数F0 を求め、図6中に破線で示すように、その基本周波数F0 が調波構
造占有度利用基本周波数抽出部38へ供給され、この抽出部38では入力された
基本周波数F0 の近傍、例えばF0 ±F0 の10%の各周波数をω0 として、先
に説明した、図7及び図8に示した調波構造占有度演算が行われ、式(5)又は
(6)あるいは(7)若しくはΣq D′p (r(q・ω0 ))を最大にするω0
が求められ、そのω0 が正しい基本周波数F0 として出力される。このようにす
れば、雑音に強く、かつ精度が高い基本周波数抽出装置が構成される。
The fundamental frequency extraction device shown in FIG. 6 is resistant to noise, and the fundamental frequency extraction device shown in FIG. 7 is highly accurate. From this point, as shown in FIG. 6, the periodicity of the occupancy spectrum is calculated, the period of the maximum value is extracted, the fundamental frequency F 0 is obtained from the reciprocal thereof, and is shown by a broken line in FIG. As described above, the fundamental frequency F 0 is supplied to the harmonic structure occupation degree utilization fundamental
And ω 0 is output as the correct fundamental frequency F 0 . In this way, a fundamental frequency extraction device that is resistant to noise and has high accuracy is configured.
基本周波数抽出(方法)
次に先に説明した基本周波数抽出装置の処理手順、つまり基本周波数抽出方法
の例を説明する。
図9は図6に示した装置と対応するものであり、まず、図3乃至図5に示した
この発明による占有度抽出方法により、入力信号からのその占有度(スペクトル
)D0 (ωc )又はDp (ωc)を抽出し(S1)、この占有度スペクトルの周
波数軸上での占有度の周期性を演算する、例えば、各時刻ごとの占有度スペクト
ルに短時間フーリエ変換して周期性を求める(S2)。この占有度の周期性の最
大値を与える周期(時間)T0 を抽出し(S3)、その周期T0 の逆数1/T0
=F0 を求めて基本周波数F0 を得る(S4)。
Basic frequency extraction (method)
Next, the processing procedure of the fundamental frequency extraction apparatus described above, that is, an example of the fundamental frequency extraction method will be described.
FIG. 9 corresponds to the apparatus shown in FIG. 6. First, the occupancy (spectrum) D 0 (ω c ) from the input signal is obtained by the occupancy extraction method according to the present invention shown in FIGS. ) Or D p (ω c ) is extracted (S1), and the periodicity of the occupancy on the frequency axis of this occupancy spectrum is calculated. For example, the occupancy spectrum at each time is Fourier-transformed for a short time. Periodicity is obtained (S2). The period (time) T 0 giving the maximum value of the periodicity of the occupancy is extracted (S3), and the reciprocal 1 / T 0 of the period T 0 is extracted.
= F 0 is obtained to obtain the fundamental frequency F 0 (S4).
次に図7に示した装置と対応する基本周波数抽出方法の例を図10を参照して
説明する。先の場合と同様に図3乃至図5に示したこの発明による占有度抽出方
法により、入力信号からその占有度(スペクトル)D0 (ωc )又はDp (ωc )
を抽出する(S1)。次にこの実施例ではその占有度に対して、複数のある周波
数ω0 について、その整数倍の周波数に関する占有度の和をそれぞれ求めて調波
構造占有度Dt0(ω0 )又はDtp(ω0 )を求める(S2)。
このステップS2は例えば各ω0 をq倍(q=1,2,…)し(S2a)、そ
の各q・ω0 と最も近いωc 、つまり占有度を抽出する際に入力信号を狭い周波
数帯域に分割した時の各帯域の中心周波数ω1 ,…,ωn 中のq・ω0 に最も近
いものを求める、そのωc をωcqと書く(S2b)。求めた各ωcqの占有度D0
(ωcq)又はDp (ωcq)を求め(S2c)、更にその各ω0 についてその求め
たD0 (ωcq)又はDp (ωcq)の和Σq D0 (ωcq)又はΣq Dp (ωcq)を
求め、つまり調波構造占有度Dt0(ω0 )又はDtp(ω0 )を得る(S2d)。
このようにして求めた各ω0 に対する調波構造占有度Dt0(ω0 )又はDtp(
ω0 )中の最大のものを抽出し、その抽出した最大のDt0(ω0 )又はDtp(ω
0 )のω0 を基本周波数F0 とする(S3)。
Next, an example of a fundamental frequency extraction method corresponding to the apparatus shown in FIG. 7 will be described with reference to FIG. As in the previous case, the occupancy (spectrum) D 0 (ω c ) or D p (ω c ) is determined from the input signal by the occupancy extraction method according to the present invention shown in FIGS.
Is extracted (S1). Next, in this embodiment, with respect to the occupancy, the sum of the occupancy for a plurality of frequencies ω 0 is obtained for each of the frequencies, and the harmonic structure occupancy D t0 (ω 0 ) or D tp ( (ω 0 ) is obtained (S2).
In this step S2, for example, each ω 0 is multiplied by q (q = 1, 2,...) (S2a), and ω c closest to each q · ω 0 , that is, when the occupancy is extracted, the input signal is narrowed. The one closest to q · ω 0 in the center frequencies ω 1 ,..., Ω n of each band when divided into bands is calculated, and ω c is written as ω cq (S2b). Occupancy degree D 0 of each obtained ω cq
(Ω cq ) or D p (ω cq ) is obtained (S 2 c), and for each ω 0 , the sum of the obtained D 0 (ω cq ) or D p (ω cq ) Σ q D 0 (ω cq ) or Σ q D p (ω cq ) is obtained, that is, the harmonic structure occupancy D t0 (ω 0 ) or D tp (ω 0 ) is obtained (S2d).
In this way, the harmonic structure occupancy for each omega 0 obtained D t0 (ω 0) or D tp (
The largest one of ω 0 ) is extracted, and the extracted maximum D t0 (ω 0 ) or D tp (ω
The ω 0 of 0) and the fundamental frequency F 0 (S3).
この図10に示す方法においては図8を参照して説明したと同様の変形例が考
えられる。つまり図10中に破線で示すように、ステップS2の次に又は予め、
占有度D0 (ω1 )〜D0 (ωn )の平均値D0AV を計算し(S4)、各ω0 に
ついてその求めたD0 (ωcq)と平均値D0AV との差の和Σq (D0 (ωcq)−
D0AV )をDt0(ω0 )として求め(S5)、これよりステップS3に移り、こ
れらDt0(ω0 )中の最大値を与えるω0 を求めてF0 を得る。
あるいはステップS2bの次に又は予め占有度Dp (ω1 )〜Dp (ωn )を
時系列として高域通過フィルタ処理を施し、ゆるやかに変化する成分を除く、細
かい変化成分のみからなるD′p (ω1 )〜D′p (ωn )を求め(S6)、ス
テップS2cではDp (ωcq)の代りにD′p (ωcq)を各qについて求め、ス
テップS2dではDtp=Σq D′p (ωcq)を計算してステップS3に移る。
図6中に示したように、占有度の周期性を求め、その最大値を与える周期T0
を求め、その逆数F0 =1/T0 を基本周波数として求め、図6中に破線で示す
ように更に調波構造占有度利用基本周波数抽出部38によりF0 の近傍の周波数
をω0 として、更に高い精度の基本周波数を求める構成とすることができる。基
本周波数抽出方法においても図9に破線で示すように、ステップS4の次にステ
ップS4で得られた基本周波数F0 の近傍周波数、例えばF0 ±F0 ×0.1の
帯域の各周波数をω0 として図10に示したステップS2以後の処理を行って、
より精度が高い基本周波数を求める(S5)ようにしてもよい。このステップS
5では図10中に破線で示した各種変形も適用できる。
In the method shown in FIG. 10, a modification similar to that described with reference to FIG. 8 can be considered. That is, as indicated by a broken line in FIG.
The sum of the difference between the occupancy D 0 (ω 1) ~D 0 calculates the average value D 0AV of (ω n) (S4), for each omega 0 the determined D 0 and (omega cq) and the average value D 0AV Σ q (D 0 (ω cq ) −
D 0AV) a D t0 (ω 0) as determined (S5), Turning now to step S3, to obtain a F 0 seeking omega 0 giving the maximum value in these D t0 (ω 0).
Alternatively, after the step S2b or in advance, a high-pass filter process is performed with the occupancy D p (ω 1 ) to D p (ω n ) as a time series, and D consisting only of fine change components excluding slowly changing components. 'p (ω 1) ~D' seek p (ω n) (S6) , determined for each q a D 'p (ω cq) in place of step S2c the D p (ω cq), step S2d the D tp = Σ q D 'by calculating p (ω cq) proceeds to step S3.
As shown in FIG. 6, the periodicity of the occupancy is obtained and the period T 0 giving the maximum value is obtained.
Look, Searching for the inverse F 0 = 1 / T 0 as the fundamental frequency, as omega 0 a frequency near the F 0 by further harmonic structure occupancy utilizing fundamental
A fundamental frequency with higher accuracy may be obtained (S5). This step S
5, various modifications indicated by broken lines in FIG. 10 can be applied.
変形例
図11にこの発明の基本周波数抽出装置の変形例を示す。図6及び図7に示し
た装置と違う点は、占有周期性演算部32よりの占有度周期性P0 (T1 )〜
P0 (Tn )又は調波構造占有度演算部35よりの占有度和Dt0(ω1 )〜D
t0(ωn )あるいはDtp(ω1 )〜Dtp(ωn )は基本周期又は基本周波数平滑
化部37で時間的に連続するように平滑化され、その平滑化された占有度周期性
又は占有度和が最大値抽出部35又は36へ供給され、異常値に基づく誤抽出を
防止するようにすることもできる。
つまり各時刻において求められた基本周波数の抽出精度を、時間的な連続性を
用いてさらに抽出精度を向上するものである。これは、図9に示した基本周波数
抽出法の周期性、または、図10に示した基本周波数抽出法の調波構造に関する
占有度の和の時系列に対して、図9中のステップS2の次に破線で示すように、
また図10中のステップS2dの次に破線で示すように、平滑化処理ステップS
7において、周波数ギャップの少ないピーク位置を時間軸に沿って追跡すること
で実現する。
Modification FIG. 11 shows a modification of the fundamental frequency extraction apparatus of the present invention. The difference from the apparatus shown in FIGS. 6 and 7 is that the occupancy periodicity P 0 (T 1 ) ˜
P 0 (T n ) or the occupancy sum D t0 (ω 1 ) to D from the harmonic
t0 (ω n ) or D tp (ω 1 ) to D tp (ω n ) is smoothed so as to be temporally continuous by the fundamental period or fundamental
That is, the extraction accuracy of the fundamental frequency obtained at each time is further improved by using temporal continuity. This corresponds to the periodicity of the fundamental frequency extraction method shown in FIG. 9 or the time series of the sum of occupancy related to the harmonic structure of the fundamental frequency extraction method shown in FIG. Next, as shown by the broken line,
Further, as shown by a broken line after step S2d in FIG.
7, the peak position with a small frequency gap is tracked along the time axis.
このピーク追跡には、例えば、ダイナミックプログラミング(以下DPと呼ぶ
)などの既知のアルゴリズムを適用できる。また、基本周波数抽出は、様々な音
声処理の前処理として想定されているため、DPのようなバッチ処理ではなく逐
次処理であることが望ましい場合もある。この場合は、DPのアルゴリズムを改
良した逐次DPが適用できる。逐次DPでは、各時刻において、すでに求められ
た現在時刻以前の周期性または占有度の和の時系列に対して、通常のDPを実行
して現在の基本周波数を求める。この方法で、過去から現在にわたる周波数の連
続性について考慮した現在時刻の基本周波数推定ができる。しかも、もともとD
Pは、実行途中において、現在時刻までの最適パスを更新する逐次アルゴリズム
であるため、逐次DPにしても通常のDPと比べて余分な計算は発生しない。
For this peak tracking, for example, a known algorithm such as dynamic programming (hereinafter referred to as DP) can be applied. In addition, since the fundamental frequency extraction is assumed as a pre-process for various audio processes, it may be desirable to perform a sequential process instead of a batch process such as DP. In this case, a sequential DP in which the DP algorithm is improved can be applied. In the sequential DP, at each time, a normal DP is executed on a time series of the sum of periodicity or occupancy before the current time that has already been obtained to obtain the current fundamental frequency. With this method, it is possible to estimate the fundamental frequency at the current time in consideration of frequency continuity from the past to the present. And originally D
Since P is a sequential algorithm that updates the optimum path up to the current time during execution, even if it is a sequential DP, no extra calculation occurs compared to a normal DP.
次に音源分離装置により分離した音源信号の基本周波数抽出装置の実施例を図
12に示す。信号入力部41により2チャネル以上の音響信号が入力され、これ
ら複数チャネルの入力信号は音源分離装置42で音源と信号入力部との位置関係
から目的音源信号が強調、もしくは目的音源信号以外の音響信号が抑圧されて目
的音源信号が分離され、その分離された目的音源信号の基本周波数が、図6、図
7、図11の何れかに示した基本周波数抽出装置43により抽出される。
Next, FIG. 12 shows an embodiment of a fundamental frequency extraction device for sound source signals separated by a sound source separation device. Two or more channels of acoustic signals are input by the
図13にダミーヘッドマイクロフォンを用いた音源分離装置42の構成例を示
す。各左右の耳の信号入力部41L及び41Rから入力された2チャネルの入力信
号のそれぞれに対し、周波数解析部421R,421Lにおいて例えば短時間フー
リエ変換が施され、この変換されたスペクトルにより、左右の各周波数ごとに信
号の強度と位相がそれぞれ求められ、その各周波数ごとに左右の入力の強度差と
位相差が強度差抽出部422、位相差抽出部423でそれぞれ求められる。目的
音源の方向からくる音の強度差と位相差に関するダミーヘッドの特性を使うと、
各周波数ごとに、目的方向からくる音の強度差と時間差の範囲が求められる。こ
の性質を利用して、目的方向周波数帯域選択部424,425で各周波数で入力
音がこの範囲に入っているかどうかを調べ、目的方向周波数帯域信号通過部42
6で目的方向以外の音の場合は、その周波数の入力信号を0と置き換える。その
結果得られる左右の信号に、短時間フーリエ逆変換を施すことで、目的方向から
くる音だけを分離することが出来る。この音源分離装置は例えばJ. Acoust. Soc
. Jpn(E)20, 2(1999)147〜149頁を参照されたい。
FIG. 13 shows a configuration example of a sound
For each frequency, a range of difference in sound intensity and time difference from the target direction is obtained. Using this property, the target direction frequency
In the case of a sound other than the target direction at 6, the input signal of that frequency is replaced with 0. By applying a short time inverse Fourier transform to the left and right signals obtained as a result, only the sound coming from the target direction can be separated. This sound source separation device is, for example, J. Acoust. Soc
Jpn (E) 20, 2 (1999) pp. 147-149.
こうして分離された音声信号は、いくつかの周波数帯域の音を0に置き換えら
れているため、大きなひずみを持った音信号である。しかしながら、雑音に比べ
て強度の強い占有的な周波数成分を目的音信号が持つときは、分離音信号にもそ
のままその成分は残されている。したがって、この発明による占有度を用いた基
本周波数抽出法をそのまま適用することができ、音源分離装置の雑音抑制効果に
加えて、分離ひずみの影響も受けにくい基本周波数抽出法を構成できる。
なお、複数マイクロホンによる音源分離法は、独立成分分析法、ヌルビームフ
ォーマ法、ディレイサム法、ミント法など多数のものが知られている。どの方法
を用いる場合も、分離音信号に対しこの発明による占有度を用いる方法で基本周
波数を抽出することで、占有度が分離ひずみの影響を受けにくい評価尺度である
ため高精度の分離装置を構成することが出来る。
The sound signal thus separated is a sound signal having a large distortion because sounds in several frequency bands are replaced with zero. However, when the target sound signal has an occupying frequency component that is stronger than noise, the component remains in the separated sound signal. Therefore, the fundamental frequency extraction method using the occupancy according to the present invention can be applied as it is, and a fundamental frequency extraction method that is not easily affected by separation distortion in addition to the noise suppression effect of the sound source separation device can be configured.
Many sound source separation methods using a plurality of microphones are known, such as an independent component analysis method, a null beam former method, a delay sum method, and a mint method. Whichever method is used, the fundamental frequency is extracted from the separated sound signal by the method using the occupancy according to the present invention. Can be configured.
適応的な積分範囲決定方法
図19に、入力信号の概算基本周波数が得られていない場合に、適応的に積分
範囲を決定し基本周波数を抽出する処理手順を示す。
まず、入力部から入力された入力信号を占有度に基づく基本周波数抽出部が受
け取り、式(1)、(2)で求められる占有度を抽出する。この際、式(2)で
必要な積分範囲については、入力音に含まれる音の基本周波数に共通に利用でき
る積分範囲(大人の話者の発声の場合、約260Hz幅)を利用する。このようにし
て求められた占有度に対し、次に、同基本周波数抽出部は調波構造占有度を求め
る。これは、例えば、図8において説明した方法に関連して以下の式を用いて計
算される。
周波数ωcに変換する関数、E(D0(ωc))はD0(ωc)の全周波数にわたる
平均値である。同基本周波数抽出部はこうして求められた調波構造占有度に関し
て、以下の式に従って、最大値を与える基本周波数の初期設定値を抽出する(S
1)。
First, an input signal input from the input unit is received by a fundamental frequency extraction unit based on the occupancy level, and the occupancy levels obtained by equations (1) and (2) are extracted. At this time, for the integration range required in Expression (2), an integration range (about 260 Hz width in the case of an utterance of an adult speaker) that can be commonly used for the fundamental frequency of the sound included in the input sound is used. Next, the fundamental frequency extraction unit obtains the harmonic structure occupation degree with respect to the occupation degree thus obtained. This is calculated, for example, using the following equation in connection with the method described in FIG.
1).
次に、こうして求められた初期基本周波数に対して最適な積分範囲を積分範囲
決定部28が決定する(S2)。最適な積分範囲は、STFTの各周波数bin
を中心として、基本周波数の初期推定値の60%〜100%程度の範囲である。
こうして求められた積分範囲を用いて、同じ入力信号に対して、占有度に基づ
く基本周波数抽出部は、基本周波数の初期設定と同じ方法で、占有度、調波構造
占有度、および最大値を抽出し、より正確な基本周波数を抽出する(S3)。
なお、占有度の抽出は、基本周波数の初期設定値を求めるために式(2)を計
算する過程において、積分を部分的に行った時点の計算途中結果を保存しておく
ことで、2回目には、式(2)の計算をしなくても1回目の途中結果を利用する
ことができる。これにより計算コストを短縮することができる。
Next, the integration
Is about 60% to 100% of the initial estimated value of the fundamental frequency.
Using the integration range thus obtained, for the same input signal, the fundamental frequency extraction unit based on the occupancy degree calculates the occupancy degree, harmonic structure occupancy degree, and maximum value in the same manner as the initial setting of the fundamental frequency. Extraction is performed to extract a more accurate fundamental frequency (S3).
The extraction of the degree of occupancy is performed the second time by saving the intermediate calculation result when the integration is partially performed in the process of calculating Equation (2) to obtain the initial setting value of the fundamental frequency. The first halfway result can be used without calculating the formula (2). Thereby, calculation cost can be shortened.
[この発明の実施形態]
占有度の代わりにパワースペクトルを用いる基本周波数抽出法
図20、21に、包絡成分を取り除いた入力信号のパワーを用いる基本周波数
抽出装置、処理手順を示す。
まず、前処理を用いて入力信号の周波数特性を基本周波数抽出に適したものに
変形する。これには、例えば、時系列入力信号に対して高域通過フィルタを適用
することで、低域の周波数を抑制して高域の周波数を強調する処理や、逆に低域
通過フィルタを適用して高域を抑制する処理などがあげられる。周波数特性の変
形を受けていない入力信号、または、その補正をする必要がない入力信号の場合
は、この処理は省略することができる。(以上がS1の処理である。)
次に、パワー抽出部51が、入力信号の周波数ωc(ωc1〜ωcn)ごとにパワ
ーS(ωc)2を計算する。これには、例えば、STFTの各周波数binの出力
の2乗をとることで計算することができる。
[Embodiment of the Invention]
Basic Frequency Extraction Method Using Power Spectrum Instead of Occupancy FIGS. 20 and 21 show a basic frequency extraction apparatus and processing procedure using the power of an input signal from which an envelope component has been removed.
First, the frequency characteristics of the input signal are transformed into those suitable for basic frequency extraction using preprocessing. To this end, for example, a high-pass filter is applied to the time-series input signal to suppress the low-frequency and emphasize the high-frequency, or conversely, the low-pass filter is applied. For example, processing that suppresses high frequencies. In the case of an input signal that has not been subjected to frequency characteristic deformation or an input signal that does not need to be corrected, this processing can be omitted. (The above is the process of S1.)
Next, the
次に、包絡成分除去部52がそのパワーの包絡成分を取り除く。これには、例
えば次の方法を用いることができる。まず、各周波数のパワーS(ωc)2を周波
数軸に沿って並べたもの(周波数特性と呼ぶ)に対して、更に離散フーリエ変換
を適用する。次に、この離散フーリエ変換の低い周波数に相当する信号を0と置
き換えてから、離散逆フーリエ変換をかけて周波数特性に相当する信号にもどす
。このとき、得られる信号は、一般に複素数になるため、この信号の実部を抽出
したものが、包絡成分を除去したパワーとなる。
Next, the envelope
次にこうして求めた包絡を取り除いたパワーに対して、調波構造パワー抽出部
53が以下の式に基づいて調波構造パワーSt0(ω0)2を抽出する。
中心周波数ωcに変換する関数、E(S(ωc))はS(ωc)の全周波数にわた
る平均値(平均値抽出部54)である。
こうして求められた調波構造パワーの最大値を最大値抽出部55が抽出し、以
下の式に従って、最大値を与える基本周波数を抽出する。(以上がS2の処理で
ある。)
るが、その見返りとして計算コストを削減することができる。
Next, the harmonic structure
The maximum
精緻化した基本周波数抽出法
図23に、概算で求められている基本周波数F'0をより精緻化して求めるため
の機能構成を示す。
入力信号を受け取ると瞬時周波数抽出部61は各周波数ごとに瞬時周波数を抽
出する。得られた瞬時周波数から不動点抽出部62は、以下の式を満たす不動点
とその周波数φ’を抽出する。
ここで、ωc1、ωc2は、となりあった周波数binの中心周波数(ωc1<ωc2)
、φ1’,φ2’はそれぞれの瞬時周波数である。また、式(5)を計算する代わ
りにφ’=ωc1、または、φ’=ωc2とすることで、計算精度はやや落ちるが計
算コストを少なくすることができる。
上記の計算と並行して、占有度抽出部63が各周波数binの占有度を抽出す
る。概算基本周波数抽出部64において、概算基本周波数を抽出する際に占有度
がすでに計算されている場合には、この処理は必要ない。
Refined Fundamental Frequency Extraction Method FIG. 23 shows a functional configuration for obtaining a more refined fundamental frequency F ′ 0 that is roughly calculated.
When receiving the input signal, the instantaneous
Here, ω c1 and ω c2 are the center frequencies (ω c1 <ω c2 ) of the existing frequency bin.
, Φ 1 ′, φ 2 ′ are respective instantaneous frequencies. In addition, by calculating φ ′ = ω c1 or φ ′ = ω c2 instead of calculating equation (5), the calculation cost can be reduced, but the calculation cost can be reduced.
In parallel with the above calculation, the occupancy
最後に、精緻化基本周波数抽出部65は、概算基本周波数F'0の整数倍(=i
)の周波数の近傍(±10%程度)に含まれる不動点φ’∈Φ’(i・F'0)(Φ
’(F)は周波数Fの近傍にある不動点の集合を表す。)を抽出するとともに、
不動点の瞬時周波数φ’を整数(=i)で割った値を基本周波数候補値として、
その平均値を各占有度D0(r(φ’))で重み付けして計算することで、精緻
化した基本周波数を求める。これには、以下の式に従い計算する。
意の小さい正の値でよい。
この占有度を用いた基本周波数の精緻化法は、占有度の代わりに、パワ−抽出
部51で抽出したパワーもしくは包絡成分除去部68において包絡成分を取り除
いたパワーを用いることで、全く同様に構成することができる。図24にその機
能構成を示す。
Finally, the refined fundamental
) Fixed point φ′∈Φ ′ (i · F ′ 0 ) (Φ
'(F) represents a set of fixed points in the vicinity of the frequency F. )
A value obtained by dividing the instantaneous frequency φ ′ of the fixed point by an integer (= i) is a basic frequency candidate value,
The refined fundamental frequency is obtained by calculating the average value by weighting each occupancy D 0 (r (φ ′)). This is calculated according to the following formula.
The refinement method of the fundamental frequency using the occupancy is exactly the same by using the power extracted by the
上述した占有度抽出装置、基本周波数抽出装置はそれぞれ、コンピュータによ
りプログラムを実行させることにより、機能させることもできる。この場合は実
施例に示した何れかの占有度抽出方法をコンピュータに実行させるため占有度抽
出プログラム、あるいは基本周波数抽出方法をコンピュータに実行させるための
基本周波数抽出プログラムを、CD−ROM、可撓性磁気ディスクなどの記録媒
体、又は通信回線を介してコンピュータ内にインストールして行えばよい。
Each of the above-described occupancy extraction device and fundamental frequency extraction device can also function by causing a computer to execute a program. In this case, an occupancy degree extraction program for causing a computer to execute one of the occupancy degree extraction methods described in the embodiments, or a fundamental frequency extraction program for causing a computer to execute the fundamental frequency extraction method is a CD-ROM, flexible May be installed in a computer via a recording medium such as a magnetic disk or a communication line.
実験例
図15A,15Bに雑音のない場合と、0dBの白色雑音を加えた場合の音声
について、各周波数binにおける占有度D0 (ωc )を太い実線で示す。この
太い実線の占有度によれば図15Aより、各高調波成分の中心付近の周波数にお
いても鋭いピークがえられているのがわかる。また、図15Bより、第3高調波
までは鋭いピークがあるが、第4高調波以上のピークが抑制されており、白色雑
音の影響が大きいことがわかる。これは、破線で示す対数パワースペクトルを目
視で評価した結果とよく一致しており、占有度が雑音の影響を評価する適切な尺
度であることを示している。
Experimental Example FIGS. 15A and 15B show the occupancy D 0 (ω c ) at each frequency bin with a solid solid line for the case where there is no noise and the case where white noise of 0 dB is added. According to the occupancy of this thick solid line, it can be seen from FIG. 15A that sharp peaks are obtained even at frequencies near the center of each harmonic component. From FIG. 15B, it can be seen that there is a sharp peak up to the third harmonic, but a peak higher than the fourth harmonic is suppressed, and the influence of white noise is large. This is in good agreement with the result of visual evaluation of the logarithmic power spectrum indicated by the broken line, indicating that the occupancy is an appropriate measure for evaluating the influence of noise.
図17Aに、白色雑音下での、図17Bに白色雑音と妨害音声下での目的音声
の基本周波数抽出正解率(抽出した基本周波数が正解値から±5%に入っている
割合)を示す。目的音声には男女各2名(計4名)が発話した30種類の文(計
120文)を用い、背景雑音には、白色雑音単独(雑音−1)と、白色雑音にさ
らに1名の妨害音声(男女各1名の計60文)をくわえたもの(雑音−2)を用
いた。雑音−2では、2つの雑音同士のパワーは同一とし、目的音声と片方の雑
音とのパワー比をSNRとして記している。適応的に積分範囲を決める方法(占
有度法1)、事前情報(入力信号が男性か女性か)を用いる方法(占有度法2)
、および、ケプストラム法(従来法)を、それぞれ破線、太実線、□付破線で示
した。なお、目的音声の正解基本周波数は音声集音時に同時に収集したEGG(
electro glottal graph)波形から求めた。また占有度としてDp(ωc )を用い
た。両図より、どの背景雑音下でも占有度法2が最も安定して基本周波数が抽出
できていることがわかる。また、占有度法1も雑音の強度増加に応じた性能劣化
が少なく、0dB付近で、占有度法2についで正解率が高い。このことから、占
有度を用いることで雑音に強い基本周波数抽出が行えているといえる。
FIG. 17A shows the fundamental frequency extraction accuracy rate of the target speech under white noise and interfering speech (the rate at which the extracted fundamental frequency is within ± 5% from the correct answer value) under white noise. Thirty sentences (total of 120 sentences) spoken by 2 males and females (total 4 persons) are used for the target speech, and the background noise is white noise alone (noise-1), and white noise is one additional person. A speech (noisy-2) including disturbing speech (total of 60 sentences for each male and female) was used. In noise-2, the powers of the two noises are the same, and the power ratio between the target speech and one of the noises is described as SNR. Method of adaptively determining the integration range (occupancy method 1), using prior information (whether the input signal is male or female) (occupancy method 2)
The cepstrum method (conventional method) is indicated by a broken line, a thick solid line, and a dotted line with □, respectively. Note that the correct fundamental frequency of the target voice is the EGG (
electro glottal graph). Also, D p (ω c ) was used as the degree of occupation. From both figures, it can be seen that the
図18に、0dBの白色雑音下で、ケプストラム法(従来法)および占有度と
してDp (ωc )を用いた上記占有度法1の方法で抽出した基本周波数の時系列
を示す。図18Aは正解を、図18Bは従来法を、図18Cは占有度法1をそれ
ぞれ示す。正解値と比較して、ケプストラム法では非常に誤差が大きいのに比べ
、占有度法1では安定して正解に近い値が抽出されていることがわかる。
図25に、背景雑音下における目的音声のF0正解率(推定したF0が正解値か
ら±5%に入っている割合)を示す。目的音声には男女各2名(計4名)の30種
類の文(計120文)を用い、背景雑音には白色雑音とマルチトーカ雑音を用いた
。マルチトーカ雑音はカクテルパーティ環境を模擬する雑音で、上記120文から
ランダムに選んだ10個の発話を同時に重複して作成した。占有度を用いて適応的
に積分範囲を決定する基本周波数抽出法(調波構造占有度を最大化に式(1)を
利用)と、占有度を用いて精緻化する方法とを組み合わせた基本周波数抽出法(
proposedと表記)と、従来から知られているケプストラム法を比較した。正解
F0は音声収音時に同時に収集したEGG(electro glottal graph)信号から各
F0抽出法を用いて抽出し、雑音下の目的音声から抽出したF0と比較した。図より
占有度を用いた方法が従来法より各SNR下で頑健にF0抽出が行えている。
FIG. 18 shows a time series of basic frequencies extracted by the method of the
FIG. 25 shows the F 0 correct answer rate of the target speech under background noise (the ratio at which the estimated F 0 is within ± 5% of the correct answer value). Thirty sentences (total of 120 sentences) of 2 males and females (total of 4 persons) were used for the target speech, and white noise and multi-talker noise were used for the background noise. Multi talker noise simulates a cocktail party environment, and was created by duplicating 10 utterances randomly selected from the above 120 sentences. A basic frequency combining method that uses an occupancy to adaptively determine the integration range (using equation (1) to maximize the harmonic structure occupancy) and a refinement method using the occupancy Frequency extraction method (
The proposed cepstrum method was compared with the proposed method. The correct answer F 0 is extracted from each EGG (electro glottal graph) signal collected at the time of voice collection using each F 0 extraction method, and compared with F 0 extracted from the target voice under noise. From the figure, F 0 extraction can be performed more robustly under each SNR in the method using occupancy than the conventional method.
図26に、この発明の実施例による包絡成分を取り除いたパワーを用いる基本
周波数抽出法を利用した場合の結果を示す。抽出処理の前に周波数特性の補正の
ために入力信号に高域通過フィルタ処理を施さない方法(PowerSpec-1)、施す方
法(PowerSpec-2)、および正解F0を求める場合のみ高域通過フィルタ処理を施す
方法(PowerSpec-3)を比較した。結果は、PowerSpec-3が一番よい。これは、包
絡成分を取り除いた信号のパワーを用いる方法では、正解F0と目的音声のF0抽
出のために前処理を変えなければならない場合があることを示している一方で、適
切に、前処理を選択した場合は、背景雑音に対して頑健であることを示している。
FIG. 26 shows a result of using the fundamental frequency extraction method using the power from which the envelope component is removed according to the embodiment of the present invention. A method that does not perform high-pass filter processing on the input signal to correct frequency characteristics before extraction processing (PowerSpec-1), a method that performs it (PowerSpec-2), and a high-pass filter only when the correct answer F 0 is obtained The processing method (PowerSpec-3) was compared. The result is PowerSpec-3 is the best. This shows that in the method using the power of the signal from which the envelope component is removed, the preprocessing may be changed for extracting the correct answer F 0 and the target voice F 0 . When pre-processing is selected, it is robust against background noise.
Claims (10)
すべての中心周波数のパワーの平均値を求める平均値演算部と、
基本周波数が存在すると想定される周波数範囲の中の複数の各周波数を基本周波数の候補とし、基本周波数の各候補の整数倍の周波数と近い中心周波数をそれぞれ求め、上記各周波数ごとに上記求めた整数倍に近い各中心周波数について、その中心周波数の上記パワーから上記平均値を引いたものの和を求める調波構造パワー抽出部と、
上記基本周波数の各候補についての上記和の最大値を抽出し、これと対応する周波数を基本周波数として出力する最大値抽出部と、
を備えたことを特徴とする基本周波数抽出装置。 A power extraction unit that calculates the power of an acoustic signal (hereinafter referred to as an input signal) such as an input audio signal or music signal for each center frequency of each frequency band;
An average value calculation unit for calculating an average value of powers of all center frequencies;
A plurality of frequencies within a frequency range in which a fundamental frequency is assumed to be present are used as candidates for the fundamental frequency, a center frequency that is close to an integer multiple of each candidate of the fundamental frequency is obtained, and the above obtained for each frequency. For each center frequency close to an integer multiple, a harmonic structure power extraction unit that calculates the sum of the power of the center frequency minus the average value;
A maximum value extraction unit that extracts the maximum value of the sum for each candidate for the fundamental frequency and outputs the frequency corresponding thereto as a fundamental frequency;
A fundamental frequency extraction device comprising:
包絡成分を取り除いたパワーに対し、基本周波数を抽出することを特徴とする請求項1記載の基本周波数抽出装置。 From the power of the extracted input signal, an envelope of the frequency characteristic is extracted, and an envelope component removing unit that removes the envelope from the power is provided.
2. The fundamental frequency extracting apparatus according to claim 1, wherein a fundamental frequency is extracted from the power from which the envelope component is removed.
入力信号から各周波数帯域の中心周波数の瞬時周波数を抽出する瞬時周波数抽出部と、
各周波数帯域の中心周波数と瞬時周波数が一致する周波数である不動点を抽出する不動点抽出部と、
基本周波数の概算値を計算する概算基本周波数抽出部と、
概算基本周波数を更に精緻化する基本周波数精緻化部とを備え、
上記基本周波数精緻化部では、概算基本周波数の整数倍の周波数近傍に存在する不動点を選択して、その周波数を整数で割って求められる基本周波数候補に対し、上記パワー抽出部で求められるパワーを重みとして平均を取ることで、より精緻化した基本周波数を抽出することを特徴とする基本周波数抽出装置。 A power extractor for calculating the power of the input signal for each center frequency of each frequency band;
An instantaneous frequency extraction unit that extracts an instantaneous frequency of the center frequency of each frequency band from the input signal;
A fixed point extraction unit that extracts a fixed point that is a frequency at which the center frequency and the instantaneous frequency of each frequency band coincide with each other;
An approximate fundamental frequency extractor for calculating an approximate value of the fundamental frequency;
A fundamental frequency refinement unit that further refines the approximate fundamental frequency,
The fundamental frequency refinement unit selects a fixed point existing in the vicinity of an integer multiple of the approximate fundamental frequency, and calculates the power obtained by the power extraction unit for the fundamental frequency candidate obtained by dividing the frequency by an integer. A fundamental frequency extracting apparatus that extracts a more refined fundamental frequency by taking an average with a weight as a weight.
すべての中心周波数のパワーの平均値を求める平均値演算過程と、
基本周波数が存在すると想定される周波数範囲の中の複数の各周波数を基本周波数の候補とし、基本周波数の各候補の整数倍の周波数と近い中心周波数をそれぞれ求め、上記各周波数ごとに上記求めた整数倍に近い各中心周波数について、その中心周波数の上記パワーから上記平均値を引いたものの和を求める調波構造パワー抽出過程と、
上記基本周波数の各候補についての上記和の最大値を抽出し、これと対応する周波数を基本周波数として出力する最大値抽出過程と、
を備えたことを特徴とする基本周波数抽出方法。 A power extraction process for calculating the power of an acoustic signal (hereinafter referred to as an input signal) such as an input audio signal or music signal for each center frequency of each frequency band;
An average value calculation process for obtaining an average value of powers of all center frequencies,
A plurality of frequencies within a frequency range in which a fundamental frequency is assumed to be present are used as candidates for the fundamental frequency, a center frequency that is close to an integer multiple of each candidate of the fundamental frequency is obtained, and the above obtained for each frequency. For each center frequency close to an integer multiple, a harmonic structure power extraction process for calculating the sum of the power at the center frequency minus the average value,
Extracting the maximum value of the sum for each candidate for the fundamental frequency, and outputting the corresponding frequency as the fundamental frequency;
A fundamental frequency extraction method characterized by comprising:
包絡成分を取り除いたパワーに対し、基本周波数を抽出することを特徴とする請求項5記載の基本周波数抽出方法。 From the extracted input signal power, the envelope of the frequency characteristic is extracted, and the envelope component removal process of removing this from the power,
6. The fundamental frequency extraction method according to claim 5, wherein the fundamental frequency is extracted from the power from which the envelope component is removed.
入力信号から各周波数帯域ごとの瞬時周波数を抽出する瞬時周波数抽出過程と、
各周波数帯域の中心周波数と瞬時周波数が一致する周波数である不動点を抽出する不動点抽出過程と、
基本周波数の概算値を計算する概算基本周波数抽出過程と、
概算基本周波数を更に精緻化する基本周波数精緻化過程とを備え、
上記基本周波数精緻化過程では、概算基本周波数の整数倍の周波数近傍に存在する不動点を選択して、その周波数を整数で割って求められる基本周波数候補に対し、上記パワー抽出過程で求められるパワーを重みとして平均を取ることで、
より精緻化した基本周波数を抽出することを特徴とする基本周波数抽出方法。 A power extraction process for calculating the power of the input signal for each center frequency of each frequency band,
An instantaneous frequency extraction process for extracting an instantaneous frequency for each frequency band from the input signal;
A fixed point extraction process for extracting a fixed point that is a frequency at which the center frequency and the instantaneous frequency of each frequency band coincide with each other;
An approximate fundamental frequency extraction process for calculating an approximate value of the fundamental frequency;
With a fundamental frequency refinement process to further refine the approximate fundamental frequency,
In the fundamental frequency refinement process, the power obtained in the power extraction process is selected for a fundamental frequency candidate obtained by selecting a fixed point existing in the vicinity of an integer multiple of the approximate fundamental frequency and dividing the frequency by an integer. By taking the average as
A fundamental frequency extraction method characterized by extracting a more refined fundamental frequency.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006014305A JP4125322B2 (en) | 2001-09-28 | 2006-01-23 | Basic frequency extraction device, method thereof, program thereof, and recording medium recording the program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001299717 | 2001-09-28 | ||
JP2006014305A JP4125322B2 (en) | 2001-09-28 | 2006-01-23 | Basic frequency extraction device, method thereof, program thereof, and recording medium recording the program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002062513A Division JP3841705B2 (en) | 2001-09-28 | 2002-03-07 | Occupancy degree extraction device and fundamental frequency extraction device, method thereof, program thereof, and recording medium recording the program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006171008A true JP2006171008A (en) | 2006-06-29 |
JP4125322B2 JP4125322B2 (en) | 2008-07-30 |
Family
ID=36671880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006014305A Expired - Lifetime JP4125322B2 (en) | 2001-09-28 | 2006-01-23 | Basic frequency extraction device, method thereof, program thereof, and recording medium recording the program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4125322B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008064821A (en) * | 2006-09-05 | 2008-03-21 | Nippon Telegr & Teleph Corp <Ntt> | Signal section prediction apparatus, method, program and recording medium thereof |
JP2015043014A (en) * | 2013-08-26 | 2015-03-05 | カシオ計算機株式会社 | Fundamental tone visualization device, fundamental tone visualization method, and program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101662288B (en) * | 2008-08-28 | 2012-07-04 | 华为技术有限公司 | Method, device and system for encoding and decoding audios |
-
2006
- 2006-01-23 JP JP2006014305A patent/JP4125322B2/en not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008064821A (en) * | 2006-09-05 | 2008-03-21 | Nippon Telegr & Teleph Corp <Ntt> | Signal section prediction apparatus, method, program and recording medium thereof |
JP4690973B2 (en) * | 2006-09-05 | 2011-06-01 | 日本電信電話株式会社 | Signal section estimation apparatus, method, program, and recording medium thereof |
JP2015043014A (en) * | 2013-08-26 | 2015-03-05 | カシオ計算機株式会社 | Fundamental tone visualization device, fundamental tone visualization method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP4125322B2 (en) | 2008-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2633524B1 (en) | Method, apparatus and machine-readable storage medium for decomposing a multichannel audio signal | |
KR101266894B1 (en) | Apparatus and method for processing an audio signal for speech emhancement using a feature extraxtion | |
EP0459362B1 (en) | Voice signal processor | |
JP3591068B2 (en) | Noise reduction method for audio signal | |
JP4818335B2 (en) | Signal band expander | |
JP5127754B2 (en) | Signal processing device | |
JP6374120B2 (en) | System and method for speech restoration | |
US20100198588A1 (en) | Signal bandwidth extending apparatus | |
RU2719543C1 (en) | Apparatus and method for determining a predetermined characteristic relating to processing of artificial audio signal frequency band limitation | |
Shahnaz et al. | Pitch estimation based on a harmonic sinusoidal autocorrelation model and a time-domain matching scheme | |
CN110349598A (en) | A kind of end-point detecting method under low signal-to-noise ratio environment | |
CN114005457A (en) | Single-channel speech enhancement method based on amplitude estimation and phase reconstruction | |
Ealey et al. | Harmonic tunnelling: tracking non-stationary noises during speech. | |
JP2010210758A (en) | Method and device for processing signal containing voice | |
Muhammad | Extended average magnitude difference function based pitch detection | |
JP4125322B2 (en) | Basic frequency extraction device, method thereof, program thereof, and recording medium recording the program | |
US20150162014A1 (en) | Systems and methods for enhancing an audio signal | |
JP3841705B2 (en) | Occupancy degree extraction device and fundamental frequency extraction device, method thereof, program thereof, and recording medium recording the program | |
Rigaud et al. | Drum extraction from polyphonic music based on a spectro-temporal model of percussive sounds | |
CN110931037A (en) | Improved Mel frequency scale and ear voice formant combined ear voice enhancement algorithm | |
Liu et al. | Speech enhancement of instantaneous amplitude and phase for applications in noisy reverberant environments | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
Kotnik et al. | Noise robust F0 determination and epoch-marking algorithms | |
JP3892379B2 (en) | Harmonic structure section estimation method and apparatus, harmonic structure section estimation program and recording medium recording the program, harmonic structure section estimation threshold determination method and apparatus, harmonic structure section estimation threshold determination program and program Recording media | |
JPH1097288A (en) | Background noise removing device and speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080401 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080430 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080507 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4125322 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110516 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120516 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130516 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140516 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |