JP3195700B2 - Voice analyzer - Google Patents

Voice analyzer

Info

Publication number
JP3195700B2
JP3195700B2 JP28784293A JP28784293A JP3195700B2 JP 3195700 B2 JP3195700 B2 JP 3195700B2 JP 28784293 A JP28784293 A JP 28784293A JP 28784293 A JP28784293 A JP 28784293A JP 3195700 B2 JP3195700 B2 JP 3195700B2
Authority
JP
Japan
Prior art keywords
pitch
minimum value
detector
amplitude difference
average amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP28784293A
Other languages
Japanese (ja)
Other versions
JPH07121196A (en
Inventor
俊男 萩原
Original Assignee
株式会社スペクトラ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社スペクトラ filed Critical 株式会社スペクトラ
Priority to JP28784293A priority Critical patent/JP3195700B2/en
Publication of JPH07121196A publication Critical patent/JPH07121196A/en
Application granted granted Critical
Publication of JP3195700B2 publication Critical patent/JP3195700B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

PURPOSE:To prevent the deterioration in tone quality by remarkably reducing an error rate of pitch extraction from an audio signal and the error rate of discrimination of sound/soundless. CONSTITUTION:The minimum value and the nearest maximum value of a normalized mean amplitude difference function are detected, and the true minimum value is obtained from the minimum value by an interpolater 9, and a difference between the true minimum value and the nearest maximum value is obtained by an ALU 10 to be inputted to a pitch detector 11, and further, a guide pitch detected by the detector is obtained by the ALU 12 to be inputted to the pitch detector 11. In addition, the audio signal from an A/D converter 3, an extraction parameter from a spectal envelope parameter extractor 4 and the true minimum value and the nearest maximum value of the normalized mean amplitude difference function corresponding to the detected pitch from the pitch detector 11 are inputted to a sound/soundless discriminator 13.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、音声信号から音源情報
の基本的パラメータであるピッチおよび有声音・無声音
判別パラメータを自動分析・抽出する音声分析装置に関
するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech analyzer for automatically analyzing and extracting pitch and voiced / unvoiced sound discrimination parameters, which are basic parameters of sound source information, from a speech signal.

【0002】[0002]

【従来の技術】従来、この種の音声分析法の代表的なも
のとして、(イ)自己相関法、(ロ)変形相関法、
(ハ)SIFTアルゴリズム、(ニ)平均振幅差関数
(AMDF:Average Magnitude D
ifference Function)があるが、い
ずれの方法においても自動的なピッチ抽出については、
真の基本周期の2倍のピッチ(倍ピッチ)や半分のピッ
チ(半ピッチ)を誤って抽出したり、有声音・無声音の
判別を誤ったりして、音声合成時に音質が劣化する大き
な原因となっていた。
2. Description of the Related Art Conventionally, typical examples of this type of speech analysis method include (a) an autocorrelation method, (b) a modified correlation method,
(C) SIFT algorithm, (d) Average amplitude difference function (AMDF: Average Magnitude D)
In any case, for automatic pitch extraction,
A major cause of sound quality degradation during speech synthesis is erroneous extraction of a pitch twice as long as the true fundamental period (double pitch) or half of the pitch (half pitch) or erroneous discrimination between voiced and unvoiced sounds. Had become.

【0003】[0003]

【発明が解決しようとする課題】本発明は、上記音声分
析の問題点に鑑み、ピッチ抽出の誤り率と、有声音・無
声音の判別誤り率とを著しく低減することにより、音質
の劣化を極力防止するようにした音声分析装置を提供す
るものである。
SUMMARY OF THE INVENTION In view of the above problems in speech analysis, the present invention significantly reduces the pitch extraction error rate and voiced / unvoiced discrimination error rate, thereby minimizing sound quality degradation. It is an object of the present invention to provide a voice analysis device which is prevented.

【0004】[0004]

【課題を解決するための手段】本発明は、 (1) 音声信号の入力端子と、第1の低域通過フィル
タと、アナログデジタル変換器と、スペクトル包絡パラ
メータ抽出器と、第2の低域通過フィルタと、これらを
通して所定のサンプリング周期でデジタル化された一定
時間長(1フレーム)の音声波形データの正規化平均振
幅差関数を算出する平均振幅差関数演算器とを有し、こ
の演算器で得られた正規化平均振幅差関数が極小値をと
る遅延量から音声信号の基本周波数のピッチを検出する
ピッチ検出器と、を備えた音声分析装置において、前記
平均振幅差関数演算器で得られた前記正規化平均振幅差
関数の極小値と直近の極大値とを検出する平均振幅差関
数極小値・極大値検出器と、この検出器で検出された極
小値を含む3点以上の検出値から近似した2次曲線以上
の近似関数にて真の極小値を求める補間器と、を備え、
前記補間器にて得られた真の極小値を前記ピッチ検出器
に入力するとともに、このピッチ検出器で検出されてピ
ッチ出力端子に出力された前のフレームのピッチ(IP
k-1)とガイドピッチ(GPk-1)とから現在分析してい
るフレームのピッチ(IPk)に近似するガイドピッチ
(GPk)を求めるガイドピッチ演算器を備え、この求
められたガイドピッチ(GPk)を前記ピッチ検出器に
入力し、該ピッチ検出器はガイドピッチ(GPk)前後
のピッチ探索範囲とそれ以外の探索範囲で異なる識別条
件を与えてピッチ(IPk)を検出することを特徴とす
る音声分析装置を提供することにより上記課題を解決す
る。 (2) また、上記(1)記載の音声分析装置におい
て、前記補間器で得られた真の極小値と直近の極大値と
の差分を求める平均振幅差関数極小値・極大値差分演算
器を備えるとともに、該演算器で得られる差分(DEL
TRAi)を前記ピッチ検出器に入力し、前記アナログ
デジタル変換器で変換された音声信号と、前記スペクト
ル包絡パラメータ抽出器で抽出されたパラメータのスペ
クトル包絡パラメータ(K1)及び最小2乗誤差(E
p)と、前記ピッチ検出器で検出されたピッチに対応す
る正規化平均振幅差関数の真の極小値と直近の極大値と
の差分(DELTRA)と、を判別パラメータとして帰
納的に得られる判別条件にて有声音・無声音を判別する
有声音・無声音判別器を備えたことを特徴とする音声分
析装置を提供することにより上記課題を解決する。
According to the present invention, there are provided (1) an input terminal for an audio signal, a first low-pass filter, an analog-to-digital converter, a spectrum envelope parameter extractor, and a second low-pass. A pass filter, and an average amplitude difference function calculator for calculating a normalized average amplitude difference function of audio waveform data of a fixed time length (one frame) digitized at a predetermined sampling period through the filters. A pitch detector that detects the pitch of the fundamental frequency of the audio signal from the delay amount at which the normalized average amplitude difference function obtained in step 1 takes a minimum value. An average amplitude difference function minimum value / maximum value detector for detecting the minimum value and the nearest maximum value of the normalized average amplitude difference function obtained, and detection of three or more points including the minimum value detected by this detector Value And a interpolator to determine the true minimum value at a quadratic curve more approximate function which approximates,
The true minimum value obtained by the interpolator is input to the pitch detector, and the pitch (IP) of the previous frame detected by the pitch detector and output to the pitch output terminal is output.
k-1) and a guide pitch (GPk-1), and a guide pitch calculator for calculating a guide pitch (GPk) that approximates the pitch (IPk) of the frame currently being analyzed. ) Is input to the pitch detector, and the pitch detector detects a pitch (IPk) by giving different identification conditions between a pitch search range before and after the guide pitch (GPk) and other search ranges. The above problem is solved by providing a voice analysis device. (2) In the speech analyzer according to the above (1), an average amplitude difference function minimum value / maximum value difference calculator for calculating a difference between a true minimum value obtained by the interpolator and a nearest maximum value is provided. And the difference (DEL
TRAi) is input to the pitch detector, and the speech signal converted by the analog-to-digital converter, the spectrum envelope parameter (K1) of the parameter extracted by the spectrum envelope parameter extractor, and the least square error (E
p) and the difference (DELTRA) between the true minimum value and the most recent maximum value of the normalized average amplitude difference function corresponding to the pitch detected by the pitch detector, as a discrimination parameter. The above object is attained by providing a voice analysis device including a voiced / unvoiced sound discriminator for discriminating voiced / unvoiced sound under conditions.

【0005】[0005]

【作用】本発明によると、残差信号の平均振幅差関数の
差分に新規な関数を見い出し、基本周波数のピッチに対
応する係数をもつ補正関数及び抽出するピッチの予想値
を与えるガイドピッチを並用することにより、ピッチ抽
出の誤り率と有声音・無声音の判別誤り率が著しく低減
される。
According to the present invention, a new function is found for the difference between the average amplitude difference functions of the residual signals, and a correction function having a coefficient corresponding to the pitch of the fundamental frequency and a guide pitch for giving an expected value of the pitch to be extracted are used in common. By doing so, the pitch extraction error rate and the discrimination error rate between voiced and unvoiced sounds are significantly reduced.

【0006】[0006]

【実施例】本発明の実施例を図1に示す音声分析装置の
ブロック図で説明する。音声信号入力端子1に加えられ
た一定時間長(1フレーム)の音声信号は、第1の低域
通過フィルタ2によって標本化周波数(たとえば8KH
z)の少なくとも1/2以上の周波数成分(例えば3.
4KHz以上)が除去された後、アナログデジタル変換
器(A/D変換器)3によって標本化周波数でデジタル
化される。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described with reference to a block diagram of a speech analyzer shown in FIG. The audio signal of a fixed time length (one frame) applied to the audio signal input terminal 1 is sampled by the first low-pass filter 2 at a sampling frequency (for example, 8 KH).
z) at least a half or more frequency component (for example, 3.
(4 kHz or more), and is digitized by an analog-to-digital converter (A / D converter) 3 at a sampling frequency.

【0007】次に、デジタル化された信号はスペクトル
包絡パラメータ抽出器4の中で、データ窓によって切り
出した後、自己相関関数が求められる。
Next, after the digitized signal is cut out by the data window in the spectral envelope parameter extractor 4, an autocorrelation function is obtained.

【0008】更にスペクトル包絡パラメータの抽出に偏
相関分析器を用いれば例えば次の斬化式によってスペク
トル包絡パラメータK1,K2…Kpおよび最小2乗誤差
Epが求められる。
Further, if a partial correlation analyzer is used to extract the spectral envelope parameters, the spectral envelope parameters K1, K2... Kp and the least square error Ep can be obtained by, for example, the following cutting equation.

【0009】 Kn=Wn-1/Un-1 n=1,…p(p:分析次数)Kn = Wn-1 / Un-1 n = 1,... P (p: analysis order)

【0010】[0010]

【数1】 (Equation 1)

【数2】 (Equation 2)

【0011】[0011]

【数3】 (Equation 3)

【0012】Ep=Up/Vo このようにして求められたスペクトル包絡パラメータK
1,…Kpおよびデジタル化された音声信号列を音源の特
性に応じて分析フィルタ5に加えるか、又は直接第2の
低域通過フィルタ6に一点鎖線矢印の如く加える。
Ep = Up / Vo Spectral envelope parameter K thus obtained
1,... Kp and the digitized audio signal sequence are added to the analysis filter 5 or directly to the second low-pass filter 6 as indicated by a dashed line arrow according to the characteristics of the sound source.

【0013】この分析フィルタ5に次式で表わされる偏
相関格子型フィルタを用いると、残差信号列EDjが次
の式で求められる。
When a partial correlation lattice type filter expressed by the following equation is used as the analysis filter 5, a residual signal sequence EDj is obtained by the following equation.

【0014】 EFi=EFi-1−Ki・EBBi-1 i=1,…p EBi=EBBi-1−Ki・EFi-1 i=1,…p EBBi=EBi EFo=NDj (NDj=音声信号列) EBBo=NDj-1 EDj=EFp,j=1…3,SN(SN:切り出した音
声信号の数) この求められた残差信号列又は音声信号列を概略最大ピ
ッチ周波数以上の成分を除去あるいは減衰させるために
第2の低域通過フィルタ6を通し、残差信号列又は音声
信号列から高域成分を濾波した信号列EA(j=1,
…,SN)を得る。
EFi = EFi-1−Ki · EBBi−1 i = 1,... P EBi = EBBi−1−Ki · EFi−1 i = 1,. EBBo = NDj-1 EDj = EFp, j = 1 ... 3, SN (SN: number of cut-out audio signals) The obtained residual signal sequence or the audio signal sequence is removed or attenuated from components having a frequency substantially equal to or higher than the maximum pitch frequency. Through a second low-pass filter 6 to filter a high-frequency component from a residual signal sequence or an audio signal sequence, EA (j = 1,
.., SN).

【0015】更にEAjを平均振幅差関数(AMDF)
演算器7に入力して正規化平均振幅差関数列RAjを次
式によって求める。
Further, EAj is converted to an average amplitude difference function (AMDF)
It is input to the arithmetic unit 7 to obtain a normalized average amplitude difference function sequence RAj by the following equation.

【0016】[0016]

【数4】 (Equation 4)

【0017】ここにおいて、単に最小となるRAjを求
めてjをピッチとすると、倍ピッチや3倍ピッチ、半ピ
ッチを求めてしまう抽出誤りの確率が高くなってしまう
点に着目し、本発明では、更に、得られた正規化平均振
幅差関数列RAjをAMDF極小値・極大値を検出する
検出器8に入力し、RAjの極小値RAMNi,RAMN
iを与えるjの値APi(ピッチ選択の候補の値)および
RAMNiの直近の極大値RAMAXiを求める。
In the present invention, attention is paid to the point that if the minimum RAj is simply obtained and j is set as the pitch, the probability of an extraction error for obtaining the double pitch, triple pitch, and half pitch increases. Further, the obtained normalized average amplitude difference function sequence RAj is input to a detector 8 for detecting the minimum value / maximum value of the AMDF, and the minimum values RAMNi and RAMN of RAj are detected.
A value APi (a value of a pitch selection candidate) of j giving i and a local maximum value RAMAXi of RAMNi are obtained.

【0018】この極大値RAMAXiは比較的ゆるやか
な曲線上に存在するが、極小値RAMNiは鋭い尖頭曲
線上に存在するため、標本化周期では正確な値が求めら
れない。
Although the maximum value RAMAXi exists on a relatively gentle curve, the minimum value RAMNi exists on a sharp peak curve, so that an accurate value cannot be obtained in the sampling period.

【0019】そこで、極小値RAMNiをAMDF極小
値補間器9に通して真の極小値を求める。
Then, the minimum value RAMNi is passed through the AMDF minimum value interpolator 9 to determine the true minimum value.

【0020】かかる補間方法としては、例えば、極小値
付近を2次曲線(y=ax+bx+c)で近似し、その
頂点を真の極小値RAMINiとする程度で十分であ
る。
For such an interpolation method, for example, it is sufficient to approximate a local minimum value with a quadratic curve (y = ax + bx + c) and set its vertex to a true local minimum value RAMINi.

【0021】次に、真の極小値と直近の極大値を、AM
DF極小値・極大値差分演算器10に入力し、次式によ
り、極小値・極大値の差分DELTRAiを求める。
Next, the true minimum value and the nearest maximum value are expressed by AM
The difference is input to the DF minimum value / maximum value difference calculator 10 and the difference DELTRAi between the minimum value / maximum value is calculated by the following equation.

【0022】DELTRAi=RAMAXi−RAMIN
i 更に、この差分DELTRAiと補間器9で求めた真の
極小値とをピッチ検出器11に入力して、ピッチIPを
後述の手段で検出し、この検出されたピッチIPはピッ
チ出力端子14へ出力されると共にガイドピッチ演算器
12へ入力される。
DELTARAi = RAMAXi-RAMIN
i Further, this difference DELTARi and the true minimum value obtained by the interpolator 9 are input to the pitch detector 11, and the pitch IP is detected by means described later, and the detected pitch IP is sent to the pitch output terminal 14. It is output and input to the guide pitch calculator 12.

【0023】一方、A/D変換器3で変換された音声信
号と、スペクトル包絡パラメータ抽出器4で抽出された
パラメータとが有声音・無声音判別器13に入力されて
有声音・無声音が判別され、有音声・無音声判別パラメ
ータ出力端子15に出力されると共にこのガイドピッチ
演算器12へ入力される。尚、このガイドピッチ演算器
12への入力(1点鎖線矢印)は実用的にはあった方が
良いが、無くてもそれなりの効果が得られる。
On the other hand, the voice signal converted by the A / D converter 3 and the parameters extracted by the spectrum envelope parameter extractor 4 are input to the voiced / unvoiced sound discriminator 13 to discriminate the voiced / unvoiced sound. Are output to the voiced / unvoiced discrimination parameter output terminal 15 and also to the guide pitch calculator 12. It should be noted that the input to the guide pitch calculator 12 (the one-dot chain line arrow) should be practical, but a certain effect can be obtained without it.

【0024】そして、このガイドピッチ演算器12で
は、k番目の音声フレーム分析におけるガイドピッチG
Pkを求める次の演算が行われる。
The guide pitch calculator 12 calculates the guide pitch G in the k-th speech frame analysis.
The following calculation for Pk is performed.

【0025】GPk=(1−GR)・GPk-1+GR・I
Pk-1 ここに、GRは0<GR<1の適当な定数である。ま
た、IPk-1は直前に求めた(kー1)番目のフレーム
の抽出されたピッチである。
GPk = (1-GR) .GPk-1 + GR.I
Pk-1 where GR is a suitable constant of 0 <GR <1. IPk-1 is the extracted pitch of the (k-1) th frame obtained immediately before.

【0026】この時、好ましくは連続する無声音フレー
ム(無音フレームを含む)から有声音フレームになり、
いくつかの有声音フレームが続いた後の有声音フレーム
を完全有声音フレームとし、この完全有声音フレームに
なるまでの有声音フレームを有声音への遷移フレームと
いうことにすると、完全有声音フレームとなった時点
で、有声音への遷移フレームの間の平均ピッチを新しい
ガイドピッチとしてセットする。
At this time, preferably, a continuous unvoiced frame (including a non-voice frame) is converted to a voiced frame.
A voiced sound frame after several voiced sound frames continues is defined as a fully voiced sound frame, and a voiced sound frame up to the fully voiced sound frame is referred to as a transition frame to a voiced sound. At this point, the average pitch between transition frames to voiced sounds is set as the new guide pitch.

【0027】この求められたk番目のフレームのガイド
ピッチGPkをピッチ検出器11に入力させることによ
り、ピッチ検出器11内で次の手順によりAPi(ピッ
チ選択の候補の値)の中からピッチIPkが選択され
る。
By inputting the determined guide pitch GPk of the k-th frame to the pitch detector 11, the pitch IPk is selected from APi (pitch selection candidate value) in the pitch detector 11 in the following procedure. Is selected.

【0028】(1)例えば、ガイドピッチGPk<32
ならば、変数GPC=1.375とする。GPk<64
ならば、変数GPC=1.25とする。GPk≧64な
らば、変数GPC=1.1875とする。
(1) For example, the guide pitch GPk <32
Then, the variable GPC is set to 1.375. GPk <64
Then, the variable GPC is set to 1.25. If GPk ≧ 64, the variable GPC is set to 1.1875.

【0029】(2)例えば、最小予想ピッチGPMIN
=GPk/GPCとし、例えば、最大予想ピッチGPM
AX=GPk・GPCとする(この間のピッチ探索領域
が予想される抽出すべきピッチの存在領域である)。
(2) For example, the minimum expected pitch GPMIN
= GPk / GPC, for example, the maximum expected pitch GPM
AX = GPk · GPC (the pitch search area during this period is the expected pitch existence area to be extracted).

【0030】(3)j=1とする。(3) j = 1.

【0031】(4)1フレーム程度の時間の経過では、
ピッチの変動は小さいという事実から、RAI,RAJ
という重み変数を導入する。現在の分析フレーム(k番
目)が完全に有声音フレームであってAPi≧GPMI
NかつAPi≦GPMAXであるならば重み変数RAI
=RACとし、APj≧GPMINかつAPj≦GPMA
Xであるならば重み変数RAJ=RACとする。RAC
は例えば、RAC=0.34375とする。逆に、現在
の分析フレームが無声音フレームまたは有声音への遷移
フレームであるならば、変数RAI=RAJ=0とす
る。
(4) After a lapse of about one frame,
RAI, RAJ
Weight variable is introduced. The current analysis frame (kth) is a completely voiced frame and APi ≧ GPMI
N and if APi≤GPMAX, weight variable RAI
= RAC, APj ≧ GPMIN and APj ≦ GPMA
If X, the weight variable RAJ = RAC. RAC
Is, for example, RAC = 0.34375. Conversely, if the current analysis frame is an unvoiced sound frame or a transition frame to a voiced sound, the variable RAI = RAJ = 0.

【0032】(5)正規化平均振幅差関数が同じ大きさ
を持つ場合、より小さいピッチが正しいピッチである確
率が高いという事実から、WAI,WAJという重み変
数を導入する。重み変数WAI=APi・RAWGTと
する。重み変数WAJ=APj・RAWGTとする。定
数RAWGTは例えば、RAWGT=1/512とす
る。
(5) When the normalized average amplitude difference functions have the same magnitude, weight variables WAI and WAJ are introduced due to the fact that a smaller pitch is more likely to be a correct pitch. It is assumed that the weight variable WAI = APi · RAWGT. It is assumed that the weight variable WAJ = APj · RAWGT. The constant RAWGT is, for example, RAWGT = 1/512.

【0033】(6)RAMINi+WAI−RAI>R
AMINj+WAJ−RAJならば(8)の処理へ移
る。逆に、RAMINi+WAI−RAI≦RAMINj
+WAJ−RAJならば(7)の処理へ移る。
(6) RAMINi + WAI-RAI> R
If AMINj + WAJ-RAJ, the process proceeds to (8). Conversely, RAMINi + WAI-RAI ≦ RAMINj
If it is + WAJ-RAJ, the process proceeds to (7).

【0034】(7)IPk=APi,DELTRA=DE
LTRAi,j=iとする。
(7) IPk = APi, DELTA = DE
Let LTRAi, j = i.

【0035】(8)APiの候補が未だ存在すれば、
(4)へ戻り、処理をくり返す。
(8) If the candidate for APi still exists,
Return to (4) and repeat the process.

【0036】(9)全てのAPiについて選択操作が終
了すると、最終のIPkが求めるピッチとなり、ピッチ
出力端子14に出力される。
(9) When the selection operation is completed for all APi, the final IPk becomes the pitch to be obtained and is output to the pitch output terminal 14.

【0037】この場合、例えば図2に示すように、従来
のAMDF法ではRAMN2が最小値となっているの
で、AP2をピッチとして抽出してしまうが、本発明で
は補間を行うことにより真の極小値RAMIN1,RA
MIN2が求められ、RAMIN1が真の最小値であるこ
とが判り、AP1をピッチとして抽出することができ、
AP2を誤って抽出し、倍ピッチとなってしまうことを
防止する。更に、完全有声音フレームにおいては、例え
ば図3に示すように、ガイドピッチ、重み変数の導入に
より、RAMINi>RAMINjとなっている場合で
も、倍ピッチであるAPjではなく、正しいピッチのA
Piをk番目のフレームのピッチIPkとして抽出する。
In this case, as shown in FIG. 2, for example, in the conventional AMDF method, since RAMN2 is the minimum value, AP2 is extracted as a pitch. In the present invention, the true minimum is obtained by performing interpolation. Value RAMIN1, RA
MIN2 is found, RAMIN1 is found to be the true minimum, AP1 can be extracted as pitch,
AP2 is prevented from being erroneously extracted and becoming double pitch. Further, in a completely voiced sound frame, as shown in FIG. 3, for example, even if RAMINi> RAMINj due to the introduction of the guide pitch and the weighting variable, the correct pitch Aj is used instead of the double pitch APj.
Extract Pi as the pitch IPk of the k-th frame.

【0038】このようにして求められたスペクトル包絡
パラメータK1と最小2乗誤差Epと極小値・極大値の差
分DELTRAが有声音・無声音判別器13に入力さ
れ、分析次数p=8の場合、次の基準で判別が行われ
る。尚、この基準となる数値は一例である。 (ア)K1≧0.9かつDELTRA≧0.15625
ならば有声音である。 (イ)K1≧0.7かつEp≦0.5かつDELTRA≧
0.19375ならば有声音である。 (ウ)K1≧0.4かつEp≦0.3かつDELTRA≧
0.23125ならば有声音である。 (エ)K1≧0かつEp≦0.2かつDELTRA≧0.
26875ならば有声音である。 (オ)Ep<0.7かつDELTRA≧0.30625
かつEp<DELTRA+0.15ならば有声音であ
る。 (カ)Ep≧0.7かつDELTRA≧0.34375
かつEp<DELTRA+0.3ならば有声音である。 (キ)Epが極めて小さい場合(例えばEp<0.00
1)は、(ア)〜(カ)を満足していても無声音とす
る。 (ク)音声信号レベルが極めて小さい場合は、(ア)〜
(カ)を満足していても無声音とする。 (ケ)上記条件に適合しないものは無声音とする。そし
て、この判別結果は有声音・無声音判別パラメータ出力
端子15より出力される。
The spectrum envelope parameter K 1, the least square error Ep, and the difference DELTRA between the minimum value and the maximum value thus obtained are input to the voiced / unvoiced sound discriminator 13. Is determined based on the following criteria. Note that this reference value is an example. (A) K1 ≥ 0.9 and DELTA * 0.15625
Then it is a voiced sound. (B) K1 ≧ 0.7, Ep ≦ 0.5 and DELTA *
If it is 0.193375, it is a voiced sound. (C) K1 ≧ 0.4 and Ep ≦ 0.3 and DERTRA ≧
If it is 0.23125, it is a voiced sound. (D) K1 ≧ 0 and Ep ≦ 0.2 and DERTRA ≧ 0.
26875 is a voiced sound. (E) Ep <0.7 and DERTRA ≧ 0.30625
And if Ep <DELTRA + 0.15, it is a voiced sound. (F) Ep ≧ 0.7 and DERTRA ≧ 0.34375
If Ep <DELTRA + 0.3, it is a voiced sound. (G) When Ep is extremely small (for example, Ep <0.00)
In 1), even if (a) to (f) are satisfied, the voice is unvoiced. (H) When the audio signal level is extremely low,
Even if (f) is satisfied, the sound is unvoiced. (G) Those that do not meet the above conditions shall be unvoiced. The discrimination result is output from the voiced / unvoiced discrimination parameter output terminal 15.

【0039】尚、無声音の区間でも、例えば図4に示す
ように、正規化平均振幅差関数の大きさが、従来の方法
では、有声音であると判定してしまう場合が多いが、本
発明では、正規化平均振幅差関数の真の極小値と極大値
との差分DELTRAという考えを導入することによ
り、図4の例の場合にはDELTRAが小さいので、そ
の他の判定条件と組合わせて、このフレームは無声音で
あると判定することができる。
In the unvoiced sound section, as shown in FIG. 4, for example, the magnitude of the normalized average amplitude difference function is often determined to be a voiced sound by the conventional method. Then, by introducing the idea of the difference DELTRA between the true minimum value and the maximum value of the normalized average amplitude difference function, in the case of the example in FIG. 4, since DELTRA is small in the example of FIG. This frame can be determined to be unvoiced.

【0040】又、図5に示すように、RAMINが従来
の判定方法では、無声音と判定してしまう大きさであっ
てもDELTRAが十分大きい場合には、他の条件との
組合わせにより、本発明では有声音と判定できる。
Further, as shown in FIG. 5, even if RAMIN is large enough to be judged as unvoiced sound in the conventional judgment method, if DELTRA is sufficiently large, the combination of other conditions will cause the present invention to fail. In the invention, it can be determined that the voiced sound is present.

【0041】[0041]

【発明の効果】以上説明したように、本発明の請求項1
の音声分析装置は、正規化平均振幅差関数の極小値と直
近の極大値とを検出器で検出して、この検出された極小
値から真の極小値を補間器で求めてピッチ検出器に入力
し、更にこのピッチ検出器で検出されたピッチの予想領
域を与えるガイドピッチをガイドピッチ演算器で求めて
ピッチ検出器に入力し、ピッチ検出器に重み変数を導入
するようにしたので、ピッチ抽出の誤り率を著しく低減
でき、音質の劣化を極力防止することができる。
As described above, according to the first aspect of the present invention,
The voice analysis device detects the minimum value and the latest maximum value of the normalized average amplitude difference function with a detector, obtains a true minimum value from the detected minimum value with an interpolator, and outputs the true minimum value to a pitch detector. Input, and furthermore, a guide pitch which gives an expected area of the pitch detected by this pitch detector is obtained by a guide pitch calculator and input to the pitch detector, and a weight variable is introduced into the pitch detector. The error rate of extraction can be significantly reduced, and the deterioration of sound quality can be prevented as much as possible.

【0042】又、本発明の請求項2の音声分析装置は、
アナログデジタル変換器で変換された音声信号と、スペ
クトル包絡パラメータ抽出器で抽出されたパラメータ
と、ピッチ検出器で検出されたピッチに対応する正規化
平均振幅差関数の真の極小値と直近の極大値との差分の
各値を有声音・無声音判別器に入力するようにしたの
で、有声音・無声音の判別誤り率を著しく低減でき、音
質の劣化を極力防止することができる。
Further, according to the second aspect of the present invention,
The true minimum value and the nearest local maximum of the normalized average amplitude difference function corresponding to the voice signal converted by the analog-to-digital converter, the parameters extracted by the spectrum envelope parameter extractor, and the pitch detected by the pitch detector Since each value of the difference from the value is input to the voiced / unvoiced sound discriminator, the discrimination error rate of the voiced / unvoiced sound can be significantly reduced, and the deterioration of the sound quality can be prevented as much as possible.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施例を示すブロック図である。FIG. 1 is a block diagram showing an embodiment of the present invention.

【図2】極小値の補間の効果の例を示す正規化平均振幅
差関数と遅延の特性図である。
FIG. 2 is a characteristic diagram of a normalized average amplitude difference function and delay showing an example of the effect of interpolation of a minimum value.

【図3】完全有声音フレームにおける重み変数の効果の
例を示す正規化平均振幅差関数と遅延の特性図である。
FIG. 3 is a characteristic diagram of a normalized average amplitude difference function and a delay illustrating an example of an effect of a weight variable in a completely voiced sound frame.

【図4】無声音を有声音に判別誤りし易い例を示す正規
化平均振幅差関数と遅延の特性図である。
FIG. 4 is a characteristic diagram of a normalized average amplitude difference function and a delay illustrating an example in which an unvoiced sound is easily erroneously determined to be a voiced sound.

【図5】有声音を無声音に判別誤りし易い例を示す正規
化平均振幅差関数と遅延の特性図である。
FIG. 5 is a characteristic diagram of a normalized average amplitude difference function and delay showing an example in which a voiced sound is likely to be erroneously determined to be unvoiced.

【符号の説明】[Explanation of symbols]

1 音声信号入力端子 2 低減通過フィルタ 3 アナログデジタル変換器 4 スペクトル包絡パラメータ抽出器 5 分析フィルタ 6 低域通過フィルタ 7 AMDF演算器 8 AMDF極小値・極大値検出器 9 AMDF極小値補間器 10 AMDF極小値・極大値差分演算器 11 ピッチ検出器 12 ガイドピッチ演算器 13 有声音・無声音判別器 Reference Signs List 1 audio signal input terminal 2 reduction pass filter 3 analog-to-digital converter 4 spectrum envelope parameter extractor 5 analysis filter 6 low-pass filter 7 AMDF calculator 8 AMDF minimum / maximum value detector 9 AMDF minimum value interpolator 10 AMDF minimum Value / maximum value difference calculator 11 pitch detector 12 guide pitch calculator 13 voiced / unvoiced sound discriminator

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 音声信号の入力端子と、第1の低域通過
フィルタと、アナログデジタル変換器と、スペクトル包
絡パラメータ抽出器と、第2の低域通過フィルタと、こ
れらを通して所定のサンプリング周期でデジタル化され
た一定時間長(1フレーム)の音声波形データの正規化
平均振幅差関数を算出する平均振幅差関数演算器とを有
し、この演算器で得られた正規化平均振幅差関数が極小
値をとる遅延量から音声信号の基本周波数のピッチを検
出するピッチ検出器と、を備えた音声分析装置におい
て、 前記平均振幅差関数演算器で得られた前記正規化平均振
幅差関数の極小値と直近の極大値とを検出する平均振幅
差関数極小値・極大値検出器と、この検出器で検出され
た極小値を含む3点以上の検出値から近似した2次曲線
以上の近似関数にて真の極小値を求める補間器と、を備
え、前記補間器にて得られた真の極小値を前記ピッチ検
出器に入力するとともに、このピッチ検出器で検出され
てピッチ出力端子に出力された前のフレームのピッチ
(IPk-1)とガイドピッチ(GPk-1)とから現在分析
しているフレームのピッチ(IPk)に近似するガイド
ピッチ(GPk)を求めるガイドピッチ演算器を備え、
この求められたガイドピッチ(GPk)を前記ピッチ検
出器に入力し、該ピッチ検出器はガイドピッチ(GP
k)前後のピッチ探索範囲とそれ以外の探索範囲で異な
る識別条件を与えてピッチ(IPk)を検出することを
特徴とする音声分析装置。
1. An audio signal input terminal, a first low-pass filter, an analog-to-digital converter, a spectrum envelope parameter extractor, a second low-pass filter, and a predetermined sampling period through these. An average amplitude difference function calculator for calculating a normalized average amplitude difference function of the digitized audio waveform data having a fixed time length (one frame), wherein the normalized average amplitude difference function obtained by the calculator is A pitch detector for detecting a pitch of a fundamental frequency of the audio signal from a delay amount having a minimum value, wherein a minimum value of the normalized average amplitude difference function obtained by the average amplitude difference function calculator is provided. Mean amplitude difference function for detecting the minimum value and the local maximum value, a minimum value / maximum value detector, and an approximation function of a quadratic curve or more approximated from three or more detection values including the minimum value detected by this detector And an interpolator for obtaining a true minimum value.The true minimum value obtained by the interpolator is input to the pitch detector, and detected by the pitch detector and output to a pitch output terminal. A guide pitch calculator for calculating a guide pitch (GPk) that approximates the pitch (IPk) of the frame currently being analyzed from the pitch (IPk-1) of the previous frame and the guide pitch (GPk-1);
The obtained guide pitch (GPk) is inputted to the pitch detector, and the pitch detector receives the guide pitch (GPk).
k) A voice analysis device that detects a pitch (IPk) by giving different identification conditions between the preceding and following pitch search ranges and other search ranges.
【請求項2】 請求項1に記載の音声分析装置におい
て、 前記補間器で得られた真の極小値と直近の極大値との差
分を求める平均振幅差関数極小値・極大値差分演算器を
備えるとともに、該演算器で得られる差分(DELTR
Ai)を前記ピッチ検出器に入力し、前記アナログデジ
タル変換器で変換された音声信号と、前記スペクトル包
絡パラメータ抽出器で抽出されたパラメータのスペクト
ル包絡パラメータ(K1)及び最小2乗誤差(Ep)
と、前記ピッチ検出器で検出されたピッチに対応する正
規化平均振幅差関数の真の極小値と直近の極大値との差
分(DELTRA)と、を判別パラメータとして帰納的
に得られる判別条件にて有声音・無声音を判別する有声
音・無声音判別器を備えたことを特徴とする音声分析装
置。
2. The speech analyzer according to claim 1, wherein an average amplitude difference function minimum value / maximum value difference calculator for calculating a difference between a true minimum value obtained by the interpolator and a nearest maximum value is provided. And the difference (DELTR
Ai) is input to the pitch detector, and the speech signal converted by the analog-to-digital converter, the spectrum envelope parameter (K1) of the parameter extracted by the spectrum envelope parameter extractor, and the least square error (Ep)
And a difference (DELTRA) between the true minimum value and the latest maximum value of the normalized average amplitude difference function corresponding to the pitch detected by the pitch detector, as a determination parameter, A voice / unvoiced sound discriminator for discriminating voiced / unvoiced sounds.
JP28784293A 1993-10-23 1993-10-23 Voice analyzer Expired - Lifetime JP3195700B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28784293A JP3195700B2 (en) 1993-10-23 1993-10-23 Voice analyzer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28784293A JP3195700B2 (en) 1993-10-23 1993-10-23 Voice analyzer

Publications (2)

Publication Number Publication Date
JPH07121196A JPH07121196A (en) 1995-05-12
JP3195700B2 true JP3195700B2 (en) 2001-08-06

Family

ID=17722485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28784293A Expired - Lifetime JP3195700B2 (en) 1993-10-23 1993-10-23 Voice analyzer

Country Status (1)

Country Link
JP (1) JP3195700B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3662445B2 (en) 1999-06-30 2005-06-22 花王株式会社 Water-in-oil emulsified fat composition
US7460831B2 (en) * 2002-06-20 2008-12-02 Dekolink Wireless Ltd. System and method for excluding narrow band noise from a communication channel
US8089349B2 (en) * 2005-07-18 2012-01-03 Diego Giuseppe Tognola Signal process and system
JP6479447B2 (en) * 2014-12-11 2019-03-06 国立研究開発法人産業技術総合研究所 Walking state determination method, walking state determination device, program, and storage medium

Also Published As

Publication number Publication date
JPH07121196A (en) 1995-05-12

Similar Documents

Publication Publication Date Title
US6199035B1 (en) Pitch-lag estimation in speech coding
KR100363309B1 (en) Voice Activity Detector
US5197113A (en) Method of and arrangement for distinguishing between voiced and unvoiced speech elements
US5305422A (en) Method for determining boundaries of isolated words within a speech signal
US6453285B1 (en) Speech activity detector for use in noise reduction system, and methods therefor
US5228088A (en) Voice signal processor
US4881266A (en) Speech recognition system
US5774847A (en) Methods and apparatus for distinguishing stationary signals from non-stationary signals
US7860708B2 (en) Apparatus and method for extracting pitch information from speech signal
JP3195700B2 (en) Voice analyzer
US4625327A (en) Speech analysis system
US20020156620A1 (en) Method and apparatus for speech coding with voiced/unvoiced determination
EP0092612B1 (en) Speech analysis system
JP3418005B2 (en) Voice pitch detection device
JPH10301594A (en) Sound detecting device
US6157712A (en) Speech immunity enhancement in linear prediction based DTMF detector
JPH04100099A (en) Voice detector
JP3065739B2 (en) Voice section detection device
EP3956890B1 (en) A dialog detector
JPS6151320B2 (en)
JP3410789B2 (en) Voice recognition device
JP3423233B2 (en) Audio signal processing method and apparatus
JPH05183997A (en) Automatic discriminating device with effective sound
JP2772598B2 (en) Audio coding device
KR0128669B1 (en) Real time detecting method for voice signal

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080601

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090601

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090601

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100601

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100601

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110601

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120601

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130601

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130601

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140601

Year of fee payment: 13

EXPY Cancellation because of completion of term