JPH0683390A - Speech analyzing method - Google Patents

Speech analyzing method

Info

Publication number
JPH0683390A
JPH0683390A JP4255925A JP25592592A JPH0683390A JP H0683390 A JPH0683390 A JP H0683390A JP 4255925 A JP4255925 A JP 4255925A JP 25592592 A JP25592592 A JP 25592592A JP H0683390 A JPH0683390 A JP H0683390A
Authority
JP
Japan
Prior art keywords
value
autocorrelation function
voiced
unvoiced
maxr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4255925A
Other languages
Japanese (ja)
Other versions
JP2962066B2 (en
Inventor
Ayumi Fukada
アユミ 深田
Tetsuo Nishimoto
哲夫 西元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP4255925A priority Critical patent/JP2962066B2/en
Publication of JPH0683390A publication Critical patent/JPH0683390A/en
Application granted granted Critical
Publication of JP2962066B2 publication Critical patent/JP2962066B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

PURPOSE:To facilitate arithmetic operation and make a voiced/voiceless decision with high likelihood by performing specific arithmetic operation for analyzing the tendency of variation in autocorrelation function and generating a correction value, and making the voiced/voiceless decision. CONSTITUTION:In a step S8, the specific arithmetic operation for analyzing the tendency of variation in autocorrelation function Ri is performed and the correction value is generated according to the arithmetic operation result. For the purpose, the number LPCT (Local Peak Count) of extreme value of the autocorrelation function Ri is counted. In a step S9, it is checked whether or not the number LPCT of extreme value found in the step S8 is less than 24 (namely, LPCT-24<0) and it is judged which of two correction expressions is applied. Thus, an arithmetic operation expression obtained by combining the correction expression and a decision expression together is executed, the value MAXR of the ratio of a voiceless area is corrected, and voiced/voiceless decision arithmetic operation based upon the correction value MAXR' is carried out to obtain a voiced/voiceless decision value UV.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は、音声分析方法に関
し、特に有声音と無声音を判定する方法に関し、詳しく
は有声音と無声音の判定を簡便にかつ素早く行えるよう
にしたものである。この発明に係る有声音と無声音の判
定方法は、例えば、電子楽器等の楽音制御技術の分野に
おいて有声音と無声音の判定結果に応じて楽音制御を行
うために利用可能である。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice analysis method, and more particularly to a method for determining voiced sound and unvoiced sound, and more particularly to a method for easily and quickly determining voiced sound and unvoiced sound. The method for determining voiced sound and unvoiced sound according to the present invention can be used, for example, in the field of musical sound control technology for electronic musical instruments and the like to perform musical sound control according to the result of determination of voiced sound and unvoiced sound.

【0002】[0002]

【従来の技術】有声音と無声音を判定する方法の1つと
して、変形自己相関関数re(n)を用いるものがあ
る。この方法は大別して次の4つのステップからなる。
ステップ1:線形予測により、分析対象である音声波形
信号の残差波形信号を求める。ステップ2:この残差波
形信号の自己相関関数(これを変形自己相関関数とい
う)を求める。ステップ3:この変形自己相関関数の初
期値re(0)とその後の最大極値re(T)との比re
(T)/re(0)を求める。ステップ4:求めた比の
値から、上記音声波形信号の有声/無声を判定する。一
例として、上記比の値が、0.18以下であれば無声音
と判定し、有声度判定値V=0,無声度判定値U=1と
する。また、上記比の値が、0.25以上であれば有声
音と判定し、有声度判定値V=1,無声度判定値U=0
とする。また、上記比の値が、0.18と0.25の間
の場合は、その値に応じて有声度判定値Vと無声度判定
値Uを適切に決定する(ただし、U+V=1)。
2. Description of the Related Art As one of methods for determining voiced sound and unvoiced sound, there is a method using a modified autocorrelation function re (n). This method is roughly divided into the following four steps.
Step 1: By linear prediction, a residual waveform signal of the speech waveform signal to be analyzed is obtained. Step 2: Obtain an autocorrelation function of this residual waveform signal (this is called a modified autocorrelation function). Step 3: The ratio re of the initial value re (0) of this modified autocorrelation function and the maximum extremum re (T) thereafter.
Calculate (T) / re (0). Step 4: The voiced / unvoiced voice signal is determined from the obtained ratio value. As an example, if the value of the above ratio is 0.18 or less, it is determined as unvoiced sound, and the voicedness determination value V = 0 and the unvoicedness determination value U = 1. If the value of the ratio is 0.25 or more, it is determined as voiced sound, and the voicedness determination value V = 1 and the unvoicedness determination value U = 0.
And If the value of the ratio is between 0.18 and 0.25, the voicedness determination value V and the unvoicedness determination value U are appropriately determined according to the values (provided that U + V = 1).

【0003】[0003]

【発明が解決しようとする課題】このように変形自己相
関関数を使用した有声/無声判定法は、音声波形信号に
おけるフォルマント成分の影響を受けにくいので、精度
のよい判定が期待できる。しかし、その反面、残差波形
を求めるための複雑な演算が必要であるため、演算装置
及びプログラムの構成が複雑になってしまうという欠点
がある。また、その分、演算時間が余計にかかるので、
音声波形信号の入力から有声/無声判定結果の出力まで
に時間がかかり、実時間で分析を行うことが困難であっ
た。従って、任意の音声波形信号を入力してその有声/
無声判定結果に応じて実時間で楽音制御を行おうとする
場合に不向きであった。一方、分析対象である音声波形
信号の自己相関関数を直接求め、この自己相関関数に基
づき有声/無声判定を行うことも考えられているが、そ
れだけでは実用に耐えうる判定精度が出せないという問
題点があった。この発明は上述の点に鑑みてなされたも
ので、簡単な構成で比較的精度のよい有声/無声判定を
行うことができるようにした、実時間分析に適した、音
声分析方法を提供しようとするものである。
As described above, the voiced / unvoiced decision method using the modified autocorrelation function is not easily influenced by the formant component in the speech waveform signal, and therefore accurate decision can be expected. However, on the other hand, there is a drawback that the configuration of the arithmetic unit and the program becomes complicated because a complicated arithmetic operation for obtaining the residual waveform is required. Also, since the calculation time will be extra,
It took time from the input of the voice waveform signal to the output of the voiced / unvoiced determination result, and it was difficult to perform the analysis in real time. Therefore, input an arbitrary voice waveform signal and
It is not suitable for performing musical tone control in real time according to the result of unvoiced judgment. On the other hand, it has been considered that the autocorrelation function of the speech waveform signal to be analyzed is directly obtained and the voiced / unvoiced decision is made based on this autocorrelation function, but the problem is that the decision accuracy that can be put to practical use alone cannot be obtained. There was a point. The present invention has been made in view of the above points, and an object of the present invention is to provide a voice analysis method suitable for real-time analysis, which enables relatively accurate voiced / unvoiced determination with a simple configuration. To do.

【0004】[0004]

【課題を解決するための手段】この発明に係る音声分析
方法は、音声波形信号を入力する第1のステップと、入
力された音声波形信号の自己相関関数を計算する第2の
ステップと、前記第2のステップで求めた自己相関関数
の初期値とその後の最大極値との比を計算する第3のス
テップと、前記第2のステップで求めた自己相関関数の
変化の傾向を分析するための所定の演算を行い、この演
算結果に応じて補正値を発生する第4のステップと、前
記第4のステップで発生した補正値に応じて前記第3の
ステップで求めた比の値を補正し、補正された比の値に
基づき有声/無声判定を行う第5のステップとを具えた
音声分析方法。
A voice analysis method according to the present invention comprises a first step of inputting a voice waveform signal, a second step of calculating an autocorrelation function of the input voice waveform signal, and To analyze the tendency of the change in the autocorrelation function obtained in the second step and the third step of calculating the ratio between the initial value of the autocorrelation function obtained in the second step and the maximum extremum thereafter. Is performed and a correction value is generated according to the calculation result, and the ratio value obtained in the third step is corrected according to the correction value generated in the fourth step. And a fifth step of performing voiced / unvoiced determination based on the corrected ratio value.

【0005】[0005]

【作用】第2のステップでは、入力された音声波形信号
の自己相関関数が直接求められる。従って、変形自己相
関関数を求めるための演算が省略されており、演算がか
なり簡単化されている。第3のステップでは、第2のス
テップで求めた自己相関関数の初期値とその後の最大極
値との比を計算する。一般に、自己相関関数において、
初期値の後の最大極値は、音声波形信号のピッチ周期に
対応する位置に表われる。そこで、この自己相関関数の
初期値とその後の最大極値との比の値により、該音声波
形信号の周期性が判り、これに基づき有声音と無声音の
判定ができることになる。しかし、音声波形信号の自己
相関関数においては、基本波成分以外の成分の影響が残
るため、該比の値のみでは正確な有声/無声判定が行え
ない。特に、無声音における雑音成分によるランダムな
極値が比較的大きなレベルで生じてしまうので、該比の
値のみによって有声/無声判定を行うのは極めて困難で
ある。このように、第3のステップで求めた比の値は、
不十分なものである。
In the second step, the autocorrelation function of the input voice waveform signal is directly obtained. Therefore, the calculation for obtaining the modified autocorrelation function is omitted, and the calculation is considerably simplified. In the third step, the ratio between the initial value of the autocorrelation function obtained in the second step and the maximum extremum thereafter is calculated. Generally, in the autocorrelation function,
The maximum extreme value after the initial value appears at the position corresponding to the pitch period of the voice waveform signal. Therefore, the periodicity of the voice waveform signal is known from the value of the ratio between the initial value of the autocorrelation function and the maximum extreme value thereafter, and based on this, it is possible to determine voiced sound and unvoiced sound. However, in the autocorrelation function of the voice waveform signal, components other than the fundamental component remain, so that accurate voiced / unvoiced determination cannot be performed only by the value of the ratio. In particular, since a random extreme value due to a noise component in unvoiced sound is generated at a relatively large level, it is extremely difficult to make a voiced / unvoiced determination only by the value of the ratio. Thus, the value of the ratio obtained in the third step is
It is insufficient.

【0006】この発明では、不十分な上記比の値を補正
するために第4及び第5のステップを具備していること
が特徴である。特に、音声波形信号の自己相関関数にお
いては、雑音的成分による影響が残されるために、無声
音の自己相関関数の方が、有声音の自己相関関数に比べ
て、自己相関関数値の変化が大きい(若しくは激しい)
ことに着目したものである。すなわち、音声波形信号の
自己相関関数における関数波形の変化傾向は、有声度/
無声度に関係していることに着目したものである。そこ
で、第4のステップでは、第2のステップで求めた自己
相関関数の変化の傾向を分析するための所定の演算を行
い、この演算結果に応じて補正値を発生するようにした
ことを特徴としている。そして、第5のステップでは、
この補正値に応じて前記比の値を補正し、これに基づき
有声/無声判定を行う。これにより、例えば、自己相関
関数値が大きく変化する傾向にあるならば、無声度が高
いので、無声度を高める方向に前記比の値を補正するよ
うにすれば、比較的精度のよい有声/無声判定を行うこ
とができることになる。しかも、変形自己相関関数を求
めるための演算は省略されるので、演算構成が簡単であ
り、これに伴い演算時間も短縮される。従って、実時間
分析にも適している。
The present invention is characterized by including the fourth and fifth steps for correcting the insufficient value of the ratio. Especially, in the autocorrelation function of the speech waveform signal, the influence of the noise component remains, so that the autocorrelation function of the unvoiced sound has a larger change in the autocorrelation function value than the autocorrelation function of the voiced sound. (Or intense)
It focuses on that. That is, the tendency of the function waveform to change in the autocorrelation function of the speech waveform signal is
It focuses on the relationship with unvoicedness. Therefore, in the fourth step, a predetermined calculation for analyzing the tendency of the change of the autocorrelation function obtained in the second step is performed, and the correction value is generated according to the calculation result. I am trying. And in the fifth step,
The value of the ratio is corrected according to this correction value, and voiced / unvoiced determination is performed based on this. Accordingly, for example, if the autocorrelation function value tends to change significantly, the unvoiced degree is high. Therefore, if the value of the ratio is corrected in the direction of increasing the unvoiced degree, the voice with relatively high accuracy can be obtained. It will be possible to make a silent judgment. Moreover, since the calculation for obtaining the modified autocorrelation function is omitted, the calculation configuration is simple and the calculation time is shortened accordingly. Therefore, it is also suitable for real-time analysis.

【0007】第4のステップにおける分析演算の手法は
種々考えられる。その分析演算の一実施態様は、前記第
2のステップで求めた自己相関関数における極値の数を
カウントすることからなっていてよい。極値の数が多け
れば、自己相関関数の波形変化の傾向が激しい(若しく
は頻繁である)ことを意味し、無声度が高いことにな
る。この場合、カウントすべき極値として、極大値及び
極小値の両方をカウントするようしてよく、また、極大
値及び極小値のどちらか一方をカウントするようにして
もよい。
There are various conceivable analytical calculation methods in the fourth step. One embodiment of the analytical operation may consist in counting the number of extreme values in the autocorrelation function determined in the second step. If the number of extreme values is large, it means that the tendency of the waveform change of the autocorrelation function is strong (or frequent), and the unvoicedness is high. In this case, both the maximum value and the minimum value may be counted as the extreme values to be counted, or either the maximum value or the minimum value may be counted.

【0008】上記における極値の数のカウントの仕方の
一実施態様は、前記自己相関関数の各関数値において、
隣接する関数値同士の差をそれぞれ求め、該差の符号が
変化したときカウントを行なうようにしてよい。該差の
符号が正から負に変化したときは極大値を通過したとき
であり、該差の符号が負から正に変化したときは極小値
を通過したときであるので、その数をカウントすること
により、極値数をカウントできる。
One embodiment of the method of counting the number of extreme values in the above is, in each function value of the autocorrelation function,
The difference between adjacent function values may be obtained, and counting may be performed when the sign of the difference changes. When the sign of the difference changes from positive to negative, it means that the maximum value has passed, and when the sign of the difference changes from negative to positive, it means that the minimum value has passed, so that number is counted. Therefore, the number of extreme values can be counted.

【0009】第4のステップにおける分析演算の別の実
施態様は、前記第2のステップで求めた自己相関関数に
おける極大値と極小値の差の絶対値を累算することから
なっていてよい。極大値と極小値の差の絶対値の累算値
が大きいほど、極大値と極小値の差が大きくまた極値の
数も多いことになり、従って、自己相関関数の振幅変化
が大きく、変化傾向が大きい(若しくは激しい)ことを
意味し、無声度が高いことになる。
Another embodiment of the analytical operation in the fourth step may consist of accumulating the absolute values of the differences between the maximum and minimum values in the autocorrelation function obtained in the second step. The larger the accumulated absolute value of the difference between the maximum value and the minimum value, the greater the difference between the maximum value and the minimum value, and the greater the number of the extreme values. Therefore, the amplitude change of the autocorrelation function is large and changes. It means that the tendency is large (or intense), and the degree of unvoicedness is high.

【0010】第4のステップにおける分析演算の更に別
の実施態様は、前記第2のステップで求めた自己相関関
数における所定サンプル毎の関数値の差の絶対値を累算
することからなっていてよい。所定サンプル毎の関数値
の差の絶対値の累算値が大きいほど、所定サンプル毎の
関数値の差が大きく、従って、自己相関関数の変化が急
峻であり、変化傾向が大きい(若しくは激しい)ことを
意味し、無声度が高いことになる。この場合、自己相関
関数における隣接サンプル毎の関数値の差の絶対値を累
算するようにしてもよいし、適当数のサンプル毎の関数
値の差の絶対値を累算するようにしてもよい。
Yet another embodiment of the analytical operation in the fourth step consists in accumulating the absolute values of the differences between the function values for each predetermined sample in the autocorrelation function obtained in the second step. Good. The larger the accumulated absolute value of the difference between the function values for each predetermined sample is, the larger the difference between the function values for each predetermined sample is. Therefore, the change in the autocorrelation function is steeper and the change tendency is large (or severe). It means that there is a high degree of silence. In this case, the absolute value of the difference between the function values of adjacent samples in the autocorrelation function may be accumulated, or the absolute value of the difference between the function values of a suitable number of samples may be accumulated. Good.

【0011】第5のステップにおける補正の一実施態様
は、前記補正値が所定値以上であるか否かに応じて異な
る補正式に従って補正を行うことであってもよい。これ
は、補正値が無声度を示している場合と有声度を示して
いる場合とで異なった態様の補正を行い、より一層精度
のよい有声/無声判定を行うために、有効である。
An embodiment of the correction in the fifth step may be that the correction is performed according to a different correction formula depending on whether or not the correction value is a predetermined value or more. This is effective for performing different types of correction depending on whether the correction value indicates the unvoiced degree or the voiced degree, and performing a more accurate voiced / unvoiced determination.

【0012】[0012]

【実施例】以下、添付図面を参照してこの発明の一実施
例を詳細に説明しよう。図1は、この発明に従う音声分
析方法の一実施例の処理手順を示すフロー図である。ま
ず、アナログ音声波形信号をマイクロフォン等によって
外部から取り込む(ステップS1)。次に、取り込んだ
アナログ音声波形信号をローパスフィルタ処理する(ス
テップS2)。次に、ローパスフィルタ処理済みのアナ
ログ音声波形信号をディジタル信号に変換する(ステッ
プS3)。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described in detail below with reference to the accompanying drawings. FIG. 1 is a flow chart showing a processing procedure of an embodiment of a voice analysis method according to the present invention. First, an analog voice waveform signal is externally fetched by a microphone or the like (step S1). Next, the captured analog voice waveform signal is low-pass filtered (step S2). Next, the low-pass filtered analog voice waveform signal is converted into a digital signal (step S3).

【0013】次のステップS4では、ディジタル変換し
た音声波形信号サンプルデータをメモリに記憶する。こ
の場合、1回の分析に必要な1フレーム分の波形サンプ
ルデータY(m+i)をメモリに記憶すればよい。ここ
で、mは任意の初期サンプルを示す番号であり、分析し
ようとするフレームの初期サンプル番号を示す。iは1
フレーム内の相対サンプル番号を示す変数であり、i=
0,1,2,…,Nである。例えば、1フレーム=N+
1サンプル=128サンプルの場合、i=0,1,2,
…,127である。以下では、便宜上、m=0として、
メモリに記憶した1フレーム分の波形サンプルデータ
を、Y0〜Y127で示す。次のステップS5では、ステッ
プS4で記憶した1フレーム分の波形サンプルデータY
0〜Y127を読出し、その自己相関関数Riを計算する。
自己相関関数の計算式の一例を示すと次のようである。
In the next step S4, the digitally converted voice waveform signal sample data is stored in the memory. In this case, the waveform sample data Y (m + i) for one frame required for one analysis may be stored in the memory. Here, m is a number indicating an arbitrary initial sample, and indicates the initial sample number of the frame to be analyzed. i is 1
A variable that indicates the relative sample number within the frame, i =
0, 1, 2, ..., N. For example, 1 frame = N +
When 1 sample = 128 samples, i = 0, 1, 2,
..., 127. In the following, for convenience, m = 0
The waveform sample data for one frame stored in the memory is indicated by Y0 to Y127. In the next step S5, the waveform sample data Y for one frame stored in step S4
0 to Y127 are read out and the autocorrelation function Ri thereof is calculated.
An example of the calculation formula of the autocorrelation function is as follows.

【0014】[0014]

【数1】 ここで、Riにおけるiは自己相関関数の次数を示す変
数であり、i=0,1,2,…,127である。Nは、
前述の通り、1フレームにおける最終サンプル番号であ
る。nは、iからNまで変化する変数であり、波形サン
プルデータYn(Y0〜Y127)のサンプル番号を特定す
る。従って、上記数1において、n=iのときは、Yn
=Yi,Yn-i=Y0,であり、n=N=127のとき
は、Yn=Y127,Yn-i=Y127-i,である。上記数1に
示すような自己相関関数の計算式に従って、iの各値
(0,1,2,…,127)に対応して、合計N+1=
128サンプルの自己相関関数値Riが求められる。求
めた自己相関関数値Riはメモリにストアされる。
[Equation 1] Here, i in Ri is a variable indicating the order of the autocorrelation function, and i = 0, 1, 2, ..., 127. N is
As described above, it is the final sample number in one frame. n is a variable that changes from i to N, and specifies the sample number of the waveform sample data Yn (Y0 to Y127). Therefore, in the above formula 1, when n = i, Yn
= Yi, Yn-i = Y0, and when n = N = 127, Yn = Y127 and Yn-i = Y127-i. According to the calculation formula of the autocorrelation function as shown in the above mathematical expression 1, a total of N + 1 = corresponds to each value (0, 1, 2, ..., 127) of i.
An autocorrelation function value Ri of 128 samples is obtained. The obtained autocorrelation function value Ri is stored in the memory.

【0015】ステップS6では、前ステップで求めた自
己相関関数値Riの中から初期値R0と該初期値R0を除
く最大極値Rkを抽出する(R0,Rkについては、例え
ば図6(e)を参照されたし)。ステップS7では、最
大極値Rkと初期値R0の比Rk/R0を求める。以下で
は、この比Rk/R0をMAXRで表わす。一般に、初期
値R0と最大極値Rkの間隔は、オリジナル音声波形信号
のピッチに対応していることが知られている。従って、
この比Rk/R0=MAXRは、オリジナル音声波形信号
の有声度を知るためには有効である。しかし、無声音に
おいては、ランダムな位置で最大極値Rkが生じるの
で、この比Rk/R0=MAXRは、オリジナル音声波形
信号の無声度を知るためには十分ではない。
In step S6, the initial value R0 and the maximum extremum Rk excluding the initial value R0 are extracted from the autocorrelation function value Ri obtained in the previous step (for R0 and Rk, for example, FIG. 6 (e)). See). In step S7, the ratio Rk / R0 between the maximum extreme value Rk and the initial value R0 is obtained. In the following, this ratio Rk / R0 is represented by MAXR. It is generally known that the interval between the initial value R0 and the maximum extreme value Rk corresponds to the pitch of the original speech waveform signal. Therefore,
This ratio Rk / R0 = MAXR is effective for knowing the voiced degree of the original speech waveform signal. However, since the maximum extremum Rk occurs at random positions in unvoiced sound, this ratio Rk / R0 = MAXR is not sufficient to know the unvoiced degree of the original speech waveform signal.

【0016】数多くの実測を行った結果、上記比Rk/
R0=MAXRの値と有声度/無声度の関係は、図3の
ような傾向を示すことが判った。すなわち、有声音にお
いて高い値を示すのは勿論のこと、無声音においても比
較的高い値を示す。また、有声音と無声音の中間の過渡
的な音では比較的低い値を示す。従って、この比の値M
AXRのみでは、正確な有声/無声判定を行うことが困
難である。また、そのような実測の結果、上記比の値M
AXRに応じて下記数2のような仮定の関係式を適用す
ることにより、一応、有声度/無声度の判定の目安とす
ることができることが判った。なお、下記数2における
数値0.4及び0.8は、あくまでも経験値に過ぎないの
で、下記数2の仮定式を一般化して表現する場合は、こ
れらの数値0.4及び0.8を、条件に応じた適宜の定数
に置き換えるべきであることは勿論である。
As a result of many measurements, the ratio Rk /
It was found that the relationship between the value of R0 = MAXR and the voicedness / unvoicedness shows a tendency as shown in FIG. That is, not only does the voiced sound show a high value, but also the unvoiced sound shows a relatively high value. The transitional sound between voiced sound and unvoiced sound has a relatively low value. Therefore, the value of this ratio M
It is difficult to make an accurate voiced / unvoiced determination only with AXR. In addition, as a result of such actual measurement, the value M of the above ratio
It has been found that by applying a hypothetical relational expression such as the following Expression 2 according to AXR, it can be used as a standard for determining the voiced / unvoiced level. Since the numerical values 0.4 and 0.8 in the following formula 2 are merely empirical values, when generalizing the hypothetical formula of the following formula 2, these numerical values 0.4 and 0.8 are used. Of course, it should be replaced with an appropriate constant according to the conditions.

【0017】[0017]

【数2】 MAXR≦0.4 が成立すれば、無声音 MAXR≧0.8 が成立すれば、有声音 0.4<MAXR<0.8 のときは、過渡状態 しかし、この数2のような関係式のみでは、上述のよう
に、比の値MAXR自体が不正確であるために、正確な
判定ができない。そこで、比の値MAXRの不正確さを
補うために、続くステップS8〜S15の処理を行い、
この比の値MAXRを補正し、これに基づき最終的な有
声/無声判定値UVを比較的高い確度で求めるようにし
ている。
## EQU00002 ## If MAXR.ltoreq.0.4 holds, unvoiced sound MAXR.gtoreq.0.8 holds, if voiced sound 0.4 <MAXR <0.8, transient state As described above, since the ratio value MAXR itself is inaccurate, an accurate determination cannot be made only with the relational expression. Therefore, in order to compensate the inaccuracy of the ratio value MAXR, the following steps S8 to S15 are performed,
The value MAXR of this ratio is corrected, and based on this, the final voiced / unvoiced judgment value UV is obtained with relatively high accuracy.

【0018】ステップS8では、ステップS5で求めた
自己相関関数Riの変化の傾向を分析するための所定の
演算を行い、この演算結果に応じて補正値を発生する。
そのための分析演算の一例として、図1のステップS8
では、前ステップS5で求めた自己相関関数Riにおけ
る極値の数LPCT(この記号の意味は、Local PeakCo
untと理解されたい)をカウントするようにしている。
この場合、カウントすべき極値として、極大値及び極小
値の両方をカウントするようにしてよく、また、極大値
及び極小値のどちらか一方をカウントするようにしても
よい。なお、通常の定義の通り、極大とは関数波形の上
向きのピーク(山)、極小とは関数波形の下向きのピー
ク(谷)を指す。従って、極値すなわちピークの数が多
ければ、関数波形の振動の頻度が高いことになり、これ
は、自己相関関数の変化の傾向が大きいことを意味し、
従って、無声度が高いことを意味する。
In step S8, a predetermined calculation for analyzing the change tendency of the autocorrelation function Ri obtained in step S5 is performed, and a correction value is generated according to the calculation result.
As an example of the analytical calculation for that, step S8 of FIG.
Then, the number of extreme values LPCT in the autocorrelation function Ri obtained in the previous step S5 (the meaning of this symbol is Local PeakCo
I want to be understood as unt).
In this case, both the maximum value and the minimum value may be counted as the extreme values to be counted, or either one of the maximum value and the minimum value may be counted. As is usually defined, the maximum means an upward peak (peak) of the function waveform, and the minimum means a downward peak (valley) of the function waveform. Therefore, if the number of extreme values, that is, the number of peaks, the frequency of vibration of the function waveform is high, which means that the tendency of the change of the autocorrelation function is large,
Therefore, it means that the degree of unvoicedness is high.

【0019】一例として、所定のサンプリング周波数1
0kHzの下でサンプリングしたオリジナル音声波形デ
ータを上記のように1フレーム=128サンプルでその
自己相関関数Riを求め、極大値及び極小値の両方をカ
ウントする手法で、数多くの実測を行った結果、上記極
値の数LPCTは、図4のような傾向を示すことが判っ
た。すなわち、極値数LPCTは、無声音において大き
な値を示すことが理解できる。図3を参照すると、無声
音領域における前記比の値MAXRを適切に補正して、
補正後の比の値の関数が単調増加傾向を示すものとなれ
ば、これに基づき正確な有声/無声判定を行うことがで
きるようになるであろうことが理解できる。また、図4
を参照すると、極値数LPCTは無声音領域において大
きな値を示すので、これを使用すれば、無声音領域にお
いて不安定な前記比の値MAXRを適切に補正すること
ができるであろうことが予測できる。そこで、極値数L
PCTを使用して前記比の値MAXRを適切に補正し、
これに基づき正確な有声/無声判定を行うことを以下の
ように提案する。
As an example, the predetermined sampling frequency 1
The original speech waveform data sampled under 0 kHz is obtained by auto-correlation function Ri at 1 frame = 128 samples as described above, and a number of actual measurements are performed by the method of counting both the maximum value and the minimum value. It was found that the above-mentioned extreme number LPCT shows a tendency as shown in FIG. That is, it can be understood that the extreme value number LPCT shows a large value in unvoiced sound. Referring to FIG. 3, by appropriately correcting the value MAXR of the ratio in the unvoiced region,
It can be understood that if the function of the corrected ratio value shows a monotonically increasing tendency, accurate voiced / unvoiced determination can be performed based on this. Also, FIG.
, Since the extreme value LPCT shows a large value in the unvoiced region, it can be predicted that the ratio value MAXR, which is unstable in the unvoiced region, can be appropriately corrected by using this. . Therefore, the number of extreme values L
Properly correct the ratio value MAXR using PCT,
Based on this, it is proposed to make an accurate voiced / unvoiced decision as follows.

【0020】そのような補正のための補正式は種々に設
定可能である。数多くの実測と試行錯誤の結果、一例と
して、次のような補正式と判定式を導入することが比較
的有効であることに帰納した。しかし、これに限定され
ないのは勿論である。 〔MAXRの補正式〕上記サンプリング条件及び極大値
と極小値の両方をカウントする条件下における数多くの
実測の結果、該条件下においては、一つの目安として、
極値数LPCTが「24」よりも小さいならば、補正の
必要がないことが判った。極値数LPCTがそれ以上の
場合は、無声音または過渡領域である可能性が高い。そ
こで、無声音または過渡領域の音の前記比の値MAXR
を下記数3のような補正式で補正することが比較的有効
であることに帰納した。なお、MAXR’は、補正後の
比の値を示す。
Various correction equations for such correction can be set. As a result of many measurements and trial and error, as an example, we have introduced that it is relatively effective to introduce the following correction formula and judgment formula. However, it goes without saying that the present invention is not limited to this. [MAXR correction formula] As a result of a number of actual measurements under the above sampling conditions and conditions in which both the maximum value and the minimum value are counted, as a guideline under the conditions,
It has been found that if the extreme value LPCT is smaller than "24", no correction is necessary. If the extremum number LPCT is higher, it is likely to be unvoiced sound or a transient region. Then, the ratio value MAXR of the unvoiced sound or the sound in the transient region is
It has been inferred that it is relatively effective to correct Eq. In addition, MAXR 'shows the value of the ratio after correction.

【0021】[0021]

【数3】(a)LPCTが24以上の場合のMAXRの
補正式: MAXR’=MAXR−√(LPCT−24)/32 (b)LPCTが24よりも小さい場合のMAXRの補
正式: MAXR’=MAXR (つまり補正せず) なお、上記数3における数値24及び32は、あくまで
も上記条件下での経験値に過ぎないので、これを一般化
して表現する場合は、これらの数値24及び32を、条
件に応じた適宜の定数に置き換えるべきであることは勿
論である。
(A) MAXR correction formula when LPCT is 24 or more: MAXR '= MAXR-√ (LPCT-24) / 32 (b) MAXR correction formula when LPCT is smaller than 24: MAXR' = MAXR (that is, without correction) Since the numerical values 24 and 32 in the above mathematical expression 3 are merely empirical values under the above conditions, in generalizing these numerical values, these numerical values 24 and 32 are Of course, it should be replaced with an appropriate constant according to the conditions.

【0022】〔UVの判定式〕最終的に得ようとする有
声/無声判定値UVは、上記数3によって補正された比
の値MAXR’を前記数2の関係式に適用することによ
り、下記数4の関係式に従い求められる。
[UV Judgment Formula] The voiced / unvoiced judgment value UV to be finally obtained is as follows by applying the ratio value MAXR ′ corrected by the above Equation 3 to the relational expression of the above Equation 2. It is calculated according to the relational expression of Equation 4.

【数4】UV=(MAXR'−0.4)/0.4 (ただし、MAXR'−0.4<0の場合は、UV=0と
し、MAXR'−0.4>0.4の場合は、UV=1とす
る。) 上記数4から理解できるように、上記数3によって補正
された比の値MAXR’が0.4以下であれば有声/無
声判定値UVは0であり、無声音であることを示す。ま
た、上記数3によって補正された比の値MAXR’が
0.8以上であれば有声/無声判定値UVは1であり、
有声音であることを示す。また、0.4<MAXR'<
0.8のときは、有声/無声判定値UVは0<UV<1
の範囲の小数をとり、有声/無声の過渡領域にあり、そ
の小数値に応じた有声度若しくは無声度を示すことにな
る。
[Equation 4] UV = (MAXR'-0.4) /0.4 (However, if MAXR'-0.4 <0, UV = 0, and if MAXR'-0.4> 0.4 Is set to UV = 1.) As can be understood from the above mathematical expression 4, if the ratio value MAXR ′ corrected by the mathematical expression 3 is 0.4 or less, the voiced / unvoiced judgment value UV is 0, and the unvoiced sound is unvoiced. Is shown. If the ratio value MAXR 'corrected by the above equation 3 is 0.8 or more, the voiced / unvoiced judgment value UV is 1,
Indicates voiced sound. Also, 0.4 <MAXR '<
When 0.8, voiced / unvoiced judgment value UV is 0 <UV <1.
Is in the voiced / unvoiced transitional area, and indicates the voiced degree or unvoiced degree according to the decimal value.

【0023】図1に戻ると、ステップS9では、前ステ
ップS8で求めた極値数LPCTが24より小さいか
(つまりLPCT−24<0が成立するか)を調べる。
これは、前記数3の補正式a,bのうちどちらを適用す
べきかを判断するためである。ステップS9でYESと
判断した場合は、ステップS10に行く。ステップS1
0では、補正していない前記比の値MAXRを使用し
て、 UV=(MAXR−0.4)/0.4 なる演算を行う。これは、上記数3の補正式bと数4の
判定式を組合せた演算式に相当する。
Returning to FIG. 1, in step S9, it is checked whether or not the number of extreme values LPCT obtained in the previous step S8 is smaller than 24 (that is, whether LPCT-24 <0 is satisfied).
This is to determine which of the correction equations a and b in the above Equation 3 should be applied. If YES is determined in step S9, the process proceeds to step S10. Step S1
At 0, the uncorrected ratio value MAXR is used to perform an operation of UV = (MAXR-0.4) /0.4. This corresponds to an arithmetic expression that is a combination of the correction expression b of the above-mentioned Expression 3 and the determination expression of the above-mentioned Expression 4.

【0024】ステップS9でNOと判断した場合は、ス
テップS11に行く。ステップS11では、前記比の値
MAXRを上記数3の補正式aにより補正して、 UV=[{MAXR−√(LPCT−24)/32}−
0.4]/0.4 なる演算を行う。これは、上記数3の補正式aと数4の
判定式を組合せた演算式に相当する。このように、ステ
ップS10又はS11により、上記数3の補正式と数4
の判定式を組合せた演算式が実行され、前記比の値MA
XRの補正が行われると共に、この補正値MAXR’に
基づく有声/無声判定演算が行われ、有声/無声判定値
UVが得られる。
If NO in step S9, the process proceeds to step S11. In step S11, the value MAXR of the ratio is corrected by the correction equation a of the above-mentioned equation 3, and UV = [{MAXR-√ (LPCT-24) / 32}-
[0.4] /0.4 is performed. This corresponds to an arithmetic expression that is a combination of the correction expression a of the above-mentioned Expression 3 and the judgment expression of the above-mentioned Expression 4. In this way, the correction equation of the above-mentioned equation 3 and the equation 4 are obtained by step S10 or S11.
An arithmetic expression that is a combination of the above judgment expressions is executed, and the ratio value MA
Along with the correction of XR, the voiced / unvoiced determination calculation based on this correction value MAXR 'is performed, and the voiced / unvoiced determination value UV is obtained.

【0025】続くステップS12〜S15では、上記数
4のただし書き条件に応じた処理が行われる。すなわ
ち、前ステップS10又はS11で求めた有声/無声判
定値UVが1より大きい場合(つまりMAXR'−0.4
>0.4の場合)、ステップS12でYESと判定し、
ステップ14に行き、有声/無声判定値UVを1に設定
する。また、前ステップS10又はS11で求めた有声
/無声判定値UVが0より小さい場合(つまりMAX
R'−0.4<0の場合)、ステップS14でYESと判
定し、ステップ15に行き、有声/無声判定値UVを0
に設定する。以上により、正確な有声/無声判定値UV
を得ることができる。
In the subsequent steps S12 to S15, the processing according to the proviso condition of the above-mentioned equation 4 is performed. That is, when the voiced / unvoiced determination value UV obtained in the previous step S10 or S11 is larger than 1 (that is, MAXR'-0.4.
> 0.4), YES is determined in step S12,
Go to step 14 and set the voiced / unvoiced judgment value UV to 1. When the voiced / unvoiced determination value UV obtained in the previous step S10 or S11 is smaller than 0 (that is, MAX
R'-0.4 <0), YES is determined in step S14, the process proceeds to step 15, and the voiced / unvoiced determination value UV is set to 0.
Set to. From the above, accurate voiced / unvoiced judgment value UV
Can be obtained.

【0026】なお、以上は1フレーム分の分析について
のみ説明しているが、複数フレームの分析も同様にして
可能であることは勿論である。その場合、波形サンプル
データのフレーム分割に際しては、それぞれのフレーム
の初期サンプル番号mを任意に指定して、各フレームの
設定は任意に行ってよい。また、ステップS4で1フレ
ーム以上のサンプル数にわたるディジタル音声波形サン
プルデータをメモリに逐次記憶し、所望のフレームのデ
ィジタル音声波形サンプルデータを該メモリから読み出
してステップS5〜S15の処理を行なうようにしても
よい。
Although only the analysis for one frame has been described above, it goes without saying that the analysis for a plurality of frames is also possible. In that case, when dividing the waveform sample data into frames, the initial sample number m of each frame may be arbitrarily designated and each frame may be arbitrarily set. Further, in step S4, the digital voice waveform sample data over the number of samples of one frame or more are sequentially stored in the memory, the digital voice waveform sample data of a desired frame is read from the memory, and the processes of steps S5 to S15 are performed. Good.

【0027】次に、図1のステップS8における極値数
カウント処理の一具体例について図2により説明する。
図2においては、図1のステップS5で求めた自己相関
関数Riの各関数値において、隣接する関数値同士の差
をそれぞれ求め、該差の符号が変化したとき極大値(上
向きのピーク)又は極小値(下向きのピーク)を通過し
たと判定し、その数をカウントするようにしている。ま
ず、ステップS20では、図1のステップS5で求めた
自己相関関数Riの初期値R0とその次の値R1との差R
1−R0を求め、これをレジスタd1にセットすると共
に、自己相関関数Riの次数iを指定する演算変数jを
1にセットし、かつ極値数LPCTのカウント値を0に
セットする。ステップS21では、演算変数jとj+1
によって指定される隣接する2つの次数の自己相関関数
値RjとRj+1の差を求め、これをレジスタd2にセット
する。
Next, a specific example of the extreme value number counting process in step S8 of FIG. 1 will be described with reference to FIG.
In FIG. 2, for each function value of the autocorrelation function Ri obtained in step S5 of FIG. 1, a difference between adjacent function values is obtained, and when the sign of the difference changes, a maximum value (upward peak) or It is determined that the minimum value (downward peak) has been passed, and the number is counted. First, in step S20, the difference R between the initial value R0 and the next value R1 of the autocorrelation function Ri obtained in step S5 of FIG.
1-R0 is obtained, and this is set in the register d1. At the same time, the calculation variable j designating the order i of the autocorrelation function Ri is set to 1, and the count value of the extreme value number LPCT is set to 0. In step S21, the calculation variables j and j + 1
The difference between the autocorrelation function values Rj and Rj + 1 of two adjacent orders designated by is calculated and set in the register d2.

【0028】次のステップS22では、レジスタd1と
d2にそれぞれストアされた差の値の正/負を調べ、正
/負符号が変化したかどうかを判定する。すなわち、d
1≧0かつd2<0が成立するか、若しくはd1<0かつ
d2≧0が成立するかどうかを判定する。d1≧0かつd
2<0が成立するときは、隣接する関数値同士の差が正
から負に変化したこと、つまり極大値を通過したことを
意味する。d1<0かつd2≧0が成立するときは、隣接
する関数値同士の差が負から正に変化したこと、つまり
極小値を通過したことを意味する。どちらかの判定条件
が成立したならば、ステップS23に行き、極値数LP
CTのカウント値を1増加し、その後ステップS24に
行く。どちらの判定条件も成立しないならば、ステップ
S24にジャンプし、LPCTのカウントは行なわな
い。
In the next step S22, the positive / negative of the difference value stored in each of the registers d1 and d2 is checked to determine whether the positive / negative sign has changed. That is, d
It is determined whether 1 ≧ 0 and d2 <0 holds, or whether d1 <0 and d2 ≧ 0 holds. d1 ≧ 0 and d
When 2 <0 holds, it means that the difference between the adjacent function values has changed from positive to negative, that is, has passed the maximum value. When d1 <0 and d2 ≧ 0 are satisfied, it means that the difference between the adjacent function values changes from negative to positive, that is, the minimum value is passed. If either of the determination conditions is satisfied, the process proceeds to step S23, and the number of extreme values LP
The count value of CT is incremented by 1, and then the process goes to step S24. If neither determination condition is satisfied, the process jumps to step S24 and LPCT is not counted.

【0029】ステップS24では、レジスタd2にスト
アされている差の値をレジスタd1に移し、演算変数j
を1増加する。次のステップS25では、演算変数jが
128になったか、つまり自己相関関数Riのすべての
次数i=0,1,2,…127に関して照合を終えたか
を調べる。NOであれば、ステップS21に戻り、増加
した次数j,j+1に関して、上述と同様のステップS
21からS24の処理を繰り返す。自己相関関数Riの
すべての次数iに関して照合を終えたとき、ステップS
25はYESとなり、図2の処理を終了する。このと
き、LPCTの内容は自己相関関数Riにおける極大値
と極小値の合計カウント数を示している。なお、極大値
と極小値の一方のみをカウントしたい場合は、ステップ
S22での判定条件を一方のみとすればよい。
In step S24, the difference value stored in the register d2 is transferred to the register d1 and the calculated variable j
Is increased by 1. In the next step S25, it is checked whether the calculation variable j has become 128, that is, whether the collation has been completed for all the orders i = 0, 1, 2, ... 127 of the autocorrelation function Ri. If NO, the process returns to step S21, and for the increased order j, j + 1, the same step S as described above is performed.
The processing from 21 to S24 is repeated. When the collation is completed for all orders i of the autocorrelation function Ri, step S
25 becomes YES, and the processing of FIG. 2 is terminated. At this time, the content of LPCT indicates the total count number of the maximum value and the minimum value in the autocorrelation function Ri. In addition, when it is desired to count only one of the maximum value and the minimum value, the determination condition in step S22 may be set to only one.

【0030】次に、実測例について説明する。図5は、
男性音声によって「シャ(sha)」と発音した場合の
音声波形例を示している。図6は、図5の音声波形に基
づき求めたいくつかのフレームにおける自己相関関数を
示す。この例において、音声波形のサンプリング周波数
は10kHz、1フレームのサンプル数は128(従っ
て1フレームの時間長は12.8msec)としている。図5
は、測定開始から1817msec(ミリ秒)後から1919msec
後までの波形を示している。この部分は、概ね、無声音
の「s」から始まり、過渡状態を経て、有声音の「a」
に至るまでの波形変化を顕著に表わしている部分であ
り、無声、過渡、有声の3種の分析に適していると思わ
れるので、実測例として選定した。
Next, an actual measurement example will be described. Figure 5
An example of a voice waveform when a male voice pronounces “sha” is shown. FIG. 6 shows autocorrelation functions in some frames obtained based on the speech waveform of FIG. In this example, the sampling frequency of the voice waveform is 10 kHz, and the number of samples in one frame is 128 (hence the time length of one frame is 12.8 msec). Figure 5
Is 1917 msec after 1817 msec from the start of measurement
Waveforms up to the latter are shown. This part generally starts with an unvoiced "s", goes through a transient state, and then goes to a voiced "a".
Since it is a part that shows the waveform change up to and including, and seems to be suitable for three kinds of analysis of unvoiced, transient, and voiced, it was selected as an actual measurement example.

【0031】図6の(a)は1810msecから1フレーム
分(便宜上第1フレーム:F1という)の音声波形の自
己相関関数Riを示す。(b)は1826msecから1フレ
ーム分(第2フレーム:F2という)の音声波形の自己
相関関数Riを示す。(c)は1834msecから1フレー
ム分(第3フレーム:F3という)の音声波形の自己相
関関数Riを示す。(d)は1842msecから1フレーム
分(第4フレーム:F4という)の音声波形の自己相関
関数Riを示す。(e)は1858msecから1フレーム分
(第5フレーム:F5という)の音声波形の自己相関関
数Riを示す。(f)は1874msecから1フレーム分
(第6フレーム:F6という)の音声波形の自己相関関
数Riを示す。図6a〜fに示す各フレームF1〜F6
毎の自己相関関数における最大極値Rkと初期値R0の比
Rk/R0=MAXRと、これら各自己相関関数について
上述のように演算した極値数LPCT、及びこれらを前
記数3及び数4の各式に適用して得られた判定結果UV
を下記表に示す。
FIG. 6A shows the autocorrelation function Ri of the speech waveform for one frame (for convenience, the first frame: F1) from 1810 msec. (B) shows the autocorrelation function Ri of the speech waveform for one frame (second frame: called F2) from 1826 msec. (C) shows the autocorrelation function Ri of the speech waveform for 1 frame (3rd frame: F3) from 1834 msec. (D) shows the autocorrelation function Ri of the speech waveform for 1 frame (fourth frame: F4) from 1842 msec. (E) shows the autocorrelation function Ri of the speech waveform from 1858 msec to one frame (fifth frame: F5). (F) shows the autocorrelation function Ri of the speech waveform for 1 frame (sixth frame: F6) from 1874 msec. Each frame F1 to F6 shown in FIGS.
The ratio Rk / R0 = MAXR of the maximum extremum Rk and the initial value R0 in each autocorrelation function, the number of extrema LPCT calculated as described above for each of these autocorrelation functions, and these UV judgment result obtained by applying each formula
Is shown in the table below.

【0032】[0032]

【表1】 [Table 1]

【0033】図7は、女性音声によって「チ(ch
i)」と発音した場合の音声波形例を示している。図8
は、図7の音声波形に基づき求めたいくつかのフレーム
における自己相関関数を示す。この例においても、音声
波形のサンプリング周波数は10kHz、1フレームの
サンプル数は128(従って1フレームの時間長は12.8
msec)としている。図7は、測定開始から691msec後
から793msec後までの波形を示している。この部分は、
概ね、無声音の「c」から始まり、過渡状態を経て、有
声音の「i」に至るまでの波形変化を顕著に表わしてい
る部分であり、無声、過渡、有声の3種の分析に適して
いると思われるので、実測例として選定した。
FIG. 7 shows a voice message "ch
i) ”is an example of a voice waveform when pronounced. Figure 8
Shows the autocorrelation function in several frames obtained based on the speech waveform of FIG. 7. Also in this example, the sampling frequency of the voice waveform is 10 kHz, the number of samples in one frame is 128 (the time length of one frame is 12.8
msec). FIG. 7 shows the waveform from 691 msec to 793 msec after the start of measurement. This part is
In general, it is a part that shows the waveform change from unvoiced sound "c" to transient voiced sound "i", and is suitable for three types of analysis: unvoiced, transient, and voiced. Since it seems that there are some, it was selected as an actual measurement example.

【0034】図8の(a)は688msecから1フレーム分
(便宜上第1フレーム:F1という)の音声波形の自己
相関関数Riを示す。(b)は712msecから1フレーム
分(第2フレーム:F2という)の音声波形の自己相関
関数Riを示す。(c)は720msecから1フレーム分
(第3フレーム:F3という)の音声波形の自己相関関
数Riを示す。(d)は724msecから1フレーム分(第
4フレーム:F4という)の音声波形の自己相関関数R
iを示す。(e)は728msecから1フレーム分(第5フ
レーム:F5という)の音声波形の自己相関関数Riを
示す。(f)は760msecから1フレーム分(第6フレー
ム:F6という)の音声波形の自己相関関数Riを示
す。図8a〜fに示す各フレームF1〜F6毎の自己相
関関数における最大極値Rkと初期値R0の比Rk/R0=
MAXRと、これら各自己相関関数について上述のよう
に演算した極値数LPCT、及びこれらを前記数3及び
数4の各式に適用して得られた判定結果UVを下記表に
示す。
FIG. 8 (a) shows the autocorrelation function Ri of the speech waveform for one frame (first frame: F1 for convenience) from 688 msec. (B) shows the autocorrelation function Ri of the speech waveform for one frame (second frame: F2) from 712 msec. (C) shows the autocorrelation function Ri of the speech waveform for one frame (third frame: F3) from 720 msec. (D) is an autocorrelation function R of the voice waveform for one frame (fourth frame: F4) from 724 msec.
indicates i. (E) shows the autocorrelation function Ri of the speech waveform for one frame (fifth frame: F5) from 728 msec. (F) shows the autocorrelation function Ri of the speech waveform for one frame (sixth frame: F6) from 760 msec. Ratio Rk / R0 of maximum extreme value Rk and initial value R0 in the autocorrelation function for each frame F1 to F6 shown in FIGS.
The following table shows MAXR, the number of extreme values LPCT calculated as described above for each of these autocorrelation functions, and the determination result UV obtained by applying these to each of the equations (3) and (4).

【0035】[0035]

【表2】 [Table 2]

【0036】上記表1及び2から理解できることは、こ
の発明に従って補正を行なう前の比Rk/R0の値MAX
Rをそのまま適用して前記数2に従って有声/無声判定
を行なったとすると、明らかな無声音部分において過渡
状態との誤った判定がなされるであろうはずであったと
ころ(例えば表1のF1,F3や表2のF1,F2,F
4)、極値数LPCTに応じた補正により、これらがす
べて無声音として正しく判定されるようになっているこ
とである。
It can be seen from Tables 1 and 2 above that the value MAX of the ratio Rk / R0 before correction according to the invention is
If R is applied as it is and the voiced / unvoiced determination is performed according to the above-mentioned mathematical expression 2, it should have been erroneously determined to be a transient state in an apparent unvoiced sound portion (for example, F1 and F3 in Table 1). And F1, F2, F in Table 2
4) That is, all of them are correctly determined as unvoiced sound by the correction according to the extreme value LPCT.

【0037】次に、この発明に従う音声分析方法の別の
実施例の処理手順について図9により説明する。図9に
おいて、ステップS1〜S7とS12〜S15は図1の
同一番号のステップS1〜S7とS12〜S15と同じ
処理であり、ステップS16〜S19が図1のステップ
S8〜S11に置き換えられている。ステップS7で前
述の比Rk/R0=MAXRを求めた後、ステップS16
の処理が行われる。ステップS16においては、ステッ
プS5で求めた自己相関関数Riの変化の傾向を分析す
るための所定の演算を行い、この演算結果に応じて補正
値を発生するが、そのための分析演算の仕方が図1のス
テップS8とは異なっている。このステップS16で
は、前ステップS5で求めた自己相関関数Riにおける
極大値と極小値の差の絶対値を累算し、その累算値LP
DSUM(この記号の意味は、Local Peak Differencia
l Sumと理解されたい。)を出力する。極大値と極小値
の差の絶対値とは、関数波形における上向きピーク
(山)と下向きピーク(谷)の間隔を示しており、この
値が大きいことは、関数波形の振幅変化が大きいことを
意味する。この極大値と極小値の差の絶対値の累算値が
大きいほど、極大値と極小値のひらきが大きくまた極値
の数も多いことになり、従って、自己相関関数の振幅変
化が大きく、変化傾向が大きい又は激しいことを意味
し、無声度が高いことを意味する。
Next, the processing procedure of another embodiment of the voice analysis method according to the present invention will be described with reference to FIG. 9, steps S1 to S7 and S12 to S15 are the same as steps S1 to S7 and S12 to S15 having the same numbers in FIG. 1, and steps S16 to S19 are replaced by steps S8 to S11 in FIG. . After obtaining the above-mentioned ratio Rk / R0 = MAXR in step S7, step S16
Is processed. In step S16, a predetermined calculation for analyzing the tendency of the change in the autocorrelation function Ri obtained in step S5 is performed, and a correction value is generated according to the calculation result. This is different from step S8 of 1. In this step S16, the absolute value of the difference between the maximum value and the minimum value in the autocorrelation function Ri obtained in the previous step S5 is accumulated, and the accumulated value LP
DSUM (The meaning of this symbol is Local Peak Differencia
l Be understood as Sum. ) Is output. The absolute value of the difference between the maximum value and the minimum value indicates the interval between the upward peak (peak) and the downward peak (valley) in the function waveform, and a large value indicates that the amplitude change of the function waveform is large. means. The larger the cumulative value of the absolute value of the difference between the maximum value and the minimum value, the greater the opening of the maximum value and the minimum value, and the more the number of extreme values. Therefore, the amplitude change of the autocorrelation function is large, It means that the tendency of change is large or severe, and that the degree of unvoicedness is high.

【0038】一例として、所定のサンプリング周波数1
0kHzの下でサンプリングしたオリジナル音声波形デ
ータを上記のように1フレーム=128サンプルでその
自己相関関数Riを求め、数多くの実測を行った結果、
上記ローカルピーク差分累算値LPDSUMは、図11
のような傾向を示すことが判った。すなわち、該累算値
LPDSUMは、無声音において大きな値を示すことが
理解できる。なお、分析に際しては、サンプリングした
音声の音量の相違による分析ノイズを解消するために、
該累算値LPDSUMを正規化することが必要である。
以下の実例では、単純累算値を自己相関関数Riの初期
値R0によって除すことにより、正規化した累算値LP
DSUMを求めるようにしている。従って、ここにおい
て述べるローカルピーク差分累算値LPDSUMの数値
は、上記のように正規化した値である。
As an example, the predetermined sampling frequency 1
The original speech waveform data sampled under 0 kHz was subjected to a large number of actual measurement as a result of obtaining the autocorrelation function Ri of 1 frame = 128 samples as described above.
The local peak difference accumulated value LPDSUM is shown in FIG.
It was found that the following tendency was exhibited. That is, it can be understood that the accumulated value LPDSUM shows a large value in unvoiced sound. When analyzing, in order to eliminate the analysis noise due to the difference in the volume of the sampled voice,
It is necessary to normalize the accumulated value LPDSUM.
In the following example, the normalized accumulated value LP is obtained by dividing the simple accumulated value by the initial value R0 of the autocorrelation function Ri.
I am trying to find DSUM. Therefore, the numerical value of the local peak difference accumulated value LPDSUM described here is a value normalized as described above.

【0039】図11を参照すると、ローカルピーク差分
累算値LPDSUMは無声音領域において大きな値を示
すので、これを使用すれば、無声音領域において不安定
な前記比の値MAXRを適切に補正することができるで
あろうことが予測できる。そこで、ローカルピーク差分
累算値LPDSUMを使用して前記比の値MAXRを適
切に補正し、これに基づき正確な有声/無声判定を行う
ことを以下のように提案する。そのための該値LPDS
UMに応じた補正式は種々に設定可能である。数多くの
実測と試行錯誤の結果、一例として、LPDSUMに応
じた次のような補正式を導入することが比較的有効であ
ることに帰納した。しかし、これに限定されないのは勿
論である。上記サンプリング条件においては、一つの目
安として、累算値LPDSUMが「10」よりも小さい
ならば、補正の必要がないことが判った。累算値LPD
SUMがそれ以上の場合は、無声音または過渡領域であ
る可能性が高い。そこで、無声音または過渡領域の音の
前記比の値MAXRを下記数5のような補正式で補正す
ることが比較的有効であることに帰納した。なお、MA
XR’は、補正後の比の値を示す。
Referring to FIG. 11, since the local peak difference accumulated value LPDSUM has a large value in the unvoiced sound area, the use of this value can appropriately correct the unstable value MAXR of the ratio in the unvoiced sound area. You can predict what you can do. Therefore, it is proposed as follows that the value MAXR of the ratio is appropriately corrected using the local peak difference accumulated value LPDSUM, and the accurate voiced / unvoiced determination is performed based on this. The value for that LPDS
Various correction formulas can be set according to UM. As a result of many actual measurements and trial and error, it was inferred that it is relatively effective to introduce the following correction formula according to LPDSUM as an example. However, it goes without saying that the present invention is not limited to this. Under the above sampling conditions, as one guide, it was found that if the accumulated value LPDSUM is smaller than "10", no correction is necessary. Accumulated value LPD
If the SUM is higher, it is likely to be unvoiced or transient. Therefore, it has been inferred that it is relatively effective to correct the ratio value MAXR of the unvoiced sound or the sound in the transient region by a correction formula such as the following Expression 5. In addition, MA
XR 'shows the value of the ratio after correction.

【0040】[0040]

【数5】(a)LPDSUMが10以上の場合のMAX
Rの補正式: MAXR’=MAXR−(LPDSUM−10)/64 (b)LPDSUMが10よりも小さい場合のMAXR
の補正式: MAXR’=MAXR (つまり補正せず) なお、上記数5における数値10及び64は、あくまで
も上記条件下での経験値に過ぎないので、これを一般化
して表現する場合は、これらの数値10及び64を、条
件に応じた適宜の定数に置き換えるべきであることは勿
論である。最終的に得ようとする有声/無声判定値UV
は、上記数5によって補正された比の値MAXR’を、
前述と同様に、前記数4の関係式に適用することにより
求められる。
(5) (a) MAX when LPDSUM is 10 or more
Correction formula of R: MAXR '= MAXR- (LPDSUM-10) / 64 (b) MAXR when LPDSUM is smaller than 10
Correction formula: MAXR '= MAXR (that is, without correction) Since the numerical values 10 and 64 in the above mathematical expression 5 are merely empirical values under the above conditions, when generalizing this, Of course, the numerical values 10 and 64 of should be replaced with appropriate constants according to the conditions. Voiced / unvoiced judgment value UV to be finally obtained
Is the ratio value MAXR ′ corrected by the above equation 5,
Similar to the above, it is obtained by applying to the relational expression of the equation (4).

【0041】図9に戻ると、ステップS17では、前ス
テップS16で求めた正規化されたローカルピーク差分
累算値LPDSUMが10より小さいか(つまりLPD
SUM−10<0が成立するか)を調べる。これは、前
記数5の補正式a,bのうちどちらを適用すべきかを判
断するためである。ステップS17でYESと判断した
場合は、ステップS18に行く。ステップS18では、
補正していない前記比の値MAXRを使用して、 UV=(MAXR−0.4)/0.4 なる演算を行う。これは、上記数5の補正式bと前記数
4の判定式を組合せた演算式に相当する。
Returning to FIG. 9, in step S17, is the normalized local peak difference accumulated value LPDSUM obtained in the previous step S16 smaller than 10 (that is, LPD)?
SUM-10 <0 is satisfied). This is to determine which of the correction equations a and b in the equation 5 should be applied. If YES is determined in the step S17, the process proceeds to a step S18. In step S18,
Using the uncorrected ratio value MAXR, the calculation UV = (MAXR-0.4) /0.4 is performed. This corresponds to an arithmetic expression that is a combination of the correction equation b of the above equation 5 and the determination equation of the above equation 4.

【0042】ステップS17でNOと判断した場合は、
ステップS19に行く。ステップS19では、前記比の
値MAXRを上記数5の補正式aにより補正して、 UV=[{MAXR−(LPDSUM−10)/64}
−0.4]/0.4 なる演算を行う。これは、上記数5の補正式aと数4の
判定式を組合せた演算式に相当する。このように、ステ
ップS18又はS19により、上記数5の補正式と数4
の判定式を組合せた演算式が実行され、前記比の値MA
XRの補正が行われると共に、この補正値MAXR’に
基づく有声/無声判定演算が行われ、有声/無声判定値
UVが得られる。また、続くステップS12〜S15の
処理により、前述と同様に、この値UVが1より大又は
0より小のとき、それぞれ1又は0に設定する処理を行
なう。
If NO in step S17,
Go to step S19. In step S19, the value MAXR of the ratio is corrected by the correction equation a of the above-mentioned equation 5, and UV = [{MAXR- (LPDSUM-10) / 64}
-0.4] /0.4 is performed. This corresponds to an arithmetic expression that is a combination of the correction expression a of the above expression 5 and the determination expression of the above expression 4. In this way, the correction equation of the above equation 5 and the equation 4 are obtained by step S18 or S19.
An arithmetic expression that is a combination of the above judgment expressions is executed, and the ratio value MA
Along with the correction of XR, the voiced / unvoiced determination calculation based on this correction value MAXR 'is performed, and the voiced / unvoiced determination value UV is obtained. Further, by the processing of the following steps S12 to S15, when the value UV is larger than 1 or smaller than 0, the processing of setting 1 or 0, respectively, is performed as described above.

【0043】次に、図9のステップS16におけるロー
カルピーク差分累算値LPDSUMを求める処理の一具
体例について図10により説明する。図10において
は、図9のステップS5で求めた自己相関関数Riの各
関数値において、隣接する関数値同士の差をそれぞれ求
め、該差の符号が変化したとき極大値又は極小値を通過
したと判定し、隣接する極大値と極小値の差を求め、該
差の絶対値を累算する処理を行う。まず、ステップS3
0では、図9のステップS5で求めた自己相関関数Ri
の初期値R0とその次の値R1との差R1−R0を求め、こ
れをレジスタdにセットする。次に、レジスタdの値が
0より小さいかを調べ(ステップS31)、YESなら
ばサインフラグSF1を「−1」にセットし、負である
ことを示す(ステップS32)。NOならばサインフラ
グSF1を「1」にセットし、正であることを示す(ス
テップS33)。
Next, a specific example of the processing for obtaining the local peak difference accumulated value LPDSUM in step S16 of FIG. 9 will be described with reference to FIG. In FIG. 10, in each function value of the autocorrelation function Ri obtained in step S5 of FIG. 9, the difference between adjacent function values is obtained, and when the sign of the difference changes, the maximum value or the minimum value is passed. Then, the difference between the adjacent maximum value and the minimum value is obtained, and the absolute value of the difference is accumulated. First, step S3
0, the autocorrelation function Ri calculated in step S5 of FIG.
The difference R1-R0 between the initial value R0 and the next value R1 is calculated and set in the register d. Next, it is checked whether the value of the register d is smaller than 0 (step S31). If YES, the sign flag SF1 is set to "-1" to indicate that it is negative (step S32). If NO, the sign flag SF1 is set to "1" to indicate that it is positive (step S33).

【0044】ステップS34では、自己相関関数Riの
次数iを指定する演算変数jを1にセットし、かつロー
カルピークナンバnを0にリセットする。ステップS3
5では、演算変数jとj+1によって指定される隣接す
る2つの次数の自己相関関数値RjとRj+1の差を求め、
これをレジスタdにセットする。次に、レジスタdにス
トアされた差の値が負であるかを調べ(ステップS3
6)、YESならばサインフラグSF2を「−1」にセ
ットし、負であることを示す(ステップS37)。NO
ならばサインフラグSF2を「1」にセットし、正であ
ることを示す(ステップS38)。
In step S34, the calculation variable j designating the order i of the autocorrelation function Ri is set to 1, and the local peak number n is reset to 0. Step S3
In 5, the difference between two adjacent autocorrelation function values Rj and Rj + 1 specified by the calculation variables j and j + 1 is calculated,
This is set in the register d. Next, it is checked whether the difference value stored in the register d is negative (step S3
6) If YES, the sign flag SF2 is set to "-1" to indicate that it is negative (step S37). NO
If so, the sign flag SF2 is set to "1" to indicate that it is positive (step S38).

【0045】ステップS39では、第1のサインフラグ
SF1と第2のサインフラグSF2の値を比較し、不一
致であるかを調べる。第1のサインフラグSF1には、
先行する2つの隣接する関数値Rj-1とRjの差の符号が
セットされており、第2のサインフラグSF2には、後
続する2つの隣接する関数値RjとRj+1の差の符号がセ
ットされている。従って、隣接する関数値同士の差の符
号が変化したとき、すなわち、極大値を通過したとき又
は極小値を通過したとき、両フラグSF1,SF2は不
一致であり、ステップS39はYESとなる。ステップ
S39がYESならば、ステップS40に行き、ローカ
ルピークナンバnの現在値に対応するローカルピーク値
レジスタLP(n)に、変数jによって指定される次数の
自己相関関数値Rjをストアする。次のステップS41
では、ローカルピークナンバnの値を1増加する。
In step S39, the values of the first sign flag SF1 and the second sign flag SF2 are compared with each other, and it is checked whether they do not match. The first sign flag SF1 includes
The sign of the difference between the preceding two adjacent function values Rj-1 and Rj is set, and the sign of the difference between the following two adjacent function values Rj and Rj + 1 is set in the second sign flag SF2. It is set. Therefore, when the sign of the difference between the adjacent function values changes, that is, when the maximum value or the minimum value is passed, both flags SF1 and SF2 do not match, and step S39 is YES. If YES in step S39, the flow advances to step S40 to store the autocorrelation function value Rj of the order designated by the variable j in the local peak value register LP (n) corresponding to the current value of the local peak number n. Next step S41
Then, the value of the local peak number n is incremented by 1.

【0046】ステップS39がNOならば、またはステ
ップS41の後、ステップS42に行き、第2のサイン
フラグSF2の値を第1のサインフラグSF1にシフト
し、かつ、演算変数jを1増加する。ステップS43で
は、演算変数jが128になったか、つまり自己相関関
数Riのすべての次数i=0,1,2,…127に関し
て照合を終えたかを調べる。NOであれば、ステップS
35に戻り、増加した次数j,j+1に関して、上述と
同様のステップS35からS42の処理を繰り返す。自
己相関関数Riのすべての次数iに関して照合を終えた
とき、ステップS43はYESとなり、ステップS44
に行く。このとき、ローカルピークナンバnは、自己相
関関数Riにおけるピーク(極大値と極小値)の合計数
を示しており、n個のローカルピーク値レジスタLP
(0)〜LP(n-1)のそれぞれには、各ピークの値をストア
している。
If NO in step S39 or after step S41, the process proceeds to step S42, the value of the second sine flag SF2 is shifted to the first sine flag SF1, and the operation variable j is incremented by 1. In step S43, it is checked whether the operation variable j has become 128, that is, whether the collation has been completed for all orders i = 0, 1, 2, ... 127 of the autocorrelation function Ri. If NO, step S
Returning to step 35, the processes of steps S35 to S42 similar to the above are repeated for the increased orders j and j + 1. When the collation is completed for all orders i of the autocorrelation function Ri, step S43 becomes YES, and step S44
go to. At this time, the local peak number n indicates the total number of peaks (maximum value and minimum value) in the autocorrelation function Ri, and n local peak value registers LP
The value of each peak is stored in each of (0) to LP (n-1).

【0047】ステップS44では、ローカルピーク差分
累算値LPDSUMを0にリセットする。ステップS4
5では、ローカルピークナンバnが1以下であるかを調
べる。NOであれば、ステップS46に行き、演算変数
jを1にセットする。次のステップS47では、演算変
数jに応じて、j−1番目のローカルピーク値レジスタ
LP(j-1)とj番目のローカルピーク値レジスタLP(j)
のピーク値(極大値と極小値)を読み出し、その差の絶
対値|LP(j)−LP(j-1)|を求め、これをLPDSU
Mの現在値に加算する。
In step S44, the local peak difference accumulated value LPDSUM is reset to zero. Step S4
At 5, it is checked whether the local peak number n is 1 or less. If NO, the process goes to step S46 to set the calculation variable j to 1. In the next step S47, the j-1th local peak value register LP (j-1) and the jth local peak value register LP (j) are determined according to the calculation variable j.
The peak value (maximum value and minimum value) of is read, the absolute value of the difference | LP (j) -LP (j-1) | is calculated, and this is calculated by LPDSU.
Add to the current value of M.

【0048】次に、ステップS48では演算変数jを1
増加する。ステップS49では、演算変数jがローカル
ピークナンバnに一致したか、つまりすべてのピークに
関してステップS47の演算を行ったかを調べる。NO
であれば、ステップS47に戻り、増加した変数j,j
+1に関して、上述と同様のステップS47の演算を行
う。すべてのピークに関してステップS47の演算を完
了するとステップS49はYESとなり、ステップS5
0に行く。こうして、自己相関関数Riにおけるすべて
の極大値と極小値に関して、隣接する極大値と極小値同
士の差の絶対値が次々に累算され、その累算値LPDS
UMが求められる。ステップS50では、上記のように
して求めた累算値LPDSUMを自己相関関数Riの初
期値R0で除算し、正規化したローカルピーク差分累算
値LPDSUMを得る。
Next, in step S48, the calculation variable j is set to 1
To increase. In step S49, it is checked whether or not the calculation variable j matches the local peak number n, that is, whether or not the calculation in step S47 has been performed for all the peaks. NO
If so, the process returns to step S47 and the increased variables j, j
With respect to +1, the same calculation in step S47 as described above is performed. When the calculation of step S47 is completed for all the peaks, step S49 becomes YES, and step S5
Go to 0. In this way, the absolute values of the differences between the adjacent maximum values and minimum values are successively accumulated for all the maximum values and the minimum values in the autocorrelation function Ri, and the accumulated value LPDS
UM is required. In step S50, the accumulated value LPDSUM obtained as described above is divided by the initial value R0 of the autocorrelation function Ri to obtain the normalized local peak difference accumulated value LPDSUM.

【0049】次に、図7,図8の実測例について上記第
2の実施例に従って分析した結果の一例を示す。図8の
a〜fに示す各フレームF1〜F6毎の自己相関関数に
おける最大極値Rkと初期値R0の比Rk/R0=MAXR
と、これら各自己相関関数について上述のように演算し
た正規化ローカルピーク差分累算値LPDSUM、及び
これらを前記数5及び数4の各式に適用して得られた判
定結果UVを示すと、次表のようである。
Next, an example of the results of analysis according to the second embodiment described above with respect to the actually measured examples shown in FIGS. 7 and 8 will be shown. The ratio Rk / R0 = MAXR of the maximum extreme value Rk and the initial value R0 in the autocorrelation function for each frame F1 to F6 shown in a to f of FIG.
And the normalized local peak difference accumulated value LPDSUM calculated as described above for each of these autocorrelation functions, and the determination result UV obtained by applying these to each of the equations 5 and 4, It looks like the following table.

【0050】[0050]

【表3】 [Table 3]

【0051】次に、この発明に従う音声分析方法の更に
別の実施例の処理手順について図12により説明する。
図12において、ステップS1〜S7とS12〜S15
は図1の同一番号のステップS1〜S7とS12〜S1
5と同じ処理であり、ステップS7で前述の比Rk/R0
=MAXRを求めた後、ステップS51の処理が行われ
る。
Next, a processing procedure of still another embodiment of the voice analysis method according to the present invention will be described with reference to FIG.
In FIG. 12, steps S1 to S7 and S12 to S15
Are steps S1 to S7 and S12 to S1 having the same numbers in FIG.
This is the same process as 5 and the above-mentioned ratio Rk / R0 in step S7.
After obtaining = MAXR, the process of step S51 is performed.

【0052】ステップS51においては、ステップS5
で求めた自己相関関数Riの変化の傾向を分析するため
の所定の演算を行い、この演算結果に応じて補正値を発
生するが、そのための分析演算の仕方が図1のステップ
S8及び図9のステップS16とは異なっている。この
ステップS51では、前ステップS5で求めた自己相関
関数Riにおける隣接するサンプル値同士の差の絶対値
を累算し、その累算値ADSUM(この記号の意味は、
Absolute Differencial Sumと理解されたい)を出力す
る。自己相関関数Riにおける隣接するサンプル値同士
の差が大きいほど、その部分での波形変化が急峻である
ことを意味する。従って、自己相関関数Riにおける隣
接するサンプル値同士の差の絶対値の累算値ADSUM
が大きいほど、自己相関関数全体における波形変化の傾
向が急峻であり、変化傾向が大きい又は激しいことを意
味し、無声度が高いことを意味する。
In step S51, step S5
A predetermined calculation for analyzing the tendency of the change of the autocorrelation function Ri obtained in step S1 is performed, and a correction value is generated according to the calculation result. The method of analysis calculation for that purpose is step S8 and FIG. This is different from step S16. In this step S51, the absolute value of the difference between adjacent sample values in the autocorrelation function Ri obtained in the previous step S5 is accumulated, and the accumulated value ADSUM (the meaning of this symbol is
It should be understood as Absolute Differencial Sum). The larger the difference between the adjacent sample values in the autocorrelation function Ri, the steeper the waveform change at that portion. Therefore, the accumulated value ADSUM of the absolute values of the differences between the adjacent sample values in the autocorrelation function Ri
The larger is, the steeper the tendency of the waveform change in the whole autocorrelation function is, which means that the change tendency is larger or more severe, which means that the unvoiced degree is higher.

【0053】一例として、所定のサンプリング周波数1
0kHzの下でサンプリングしたオリジナル音声波形デ
ータを上記のように1フレーム=128サンプルでその
自己相関関数Riを求め、数多くの実測を行った結果、
上記アブソリュート差分累算値ADSUMは、図13の
ような傾向を示すことが判った。すなわち、該累算値A
DSUMは、無声音において最も大きな値を示し、過渡
部では急激に減少し、有声音ではやや増加することが理
解できる。なお、分析に際しては、サンプリングした音
声の音量の相違による分析ノイズを解消するために、前
述と同様に、該累算値ADSUMを正規化することが必
要である。以下の実例では、単純累算値を自己相関関数
Riの初期値R0によって除すことにより、正規化した
累算値ADSUMを求めるようにしている。従って、こ
こにおいて述べるアブソリュート差分累算値ADSUM
の数値は、上記のように正規化した値である。
As an example, the predetermined sampling frequency 1
The original speech waveform data sampled under 0 kHz was subjected to a large number of actual measurement as a result of obtaining the autocorrelation function Ri of 1 frame = 128 samples as described above.
It has been found that the absolute difference accumulated value ADSUM exhibits a tendency as shown in FIG. That is, the accumulated value A
It can be understood that DSUM shows the largest value in unvoiced sound, sharply decreases in the transient part, and slightly increases in voiced sound. In the analysis, it is necessary to normalize the accumulated value ADSUM in the same manner as described above in order to eliminate the analysis noise due to the difference in the volume of the sampled voice. In the following example, the normalized accumulated value ADSUM is obtained by dividing the simple accumulated value by the initial value R0 of the autocorrelation function Ri. Therefore, the absolute difference accumulation value ADSUM described here
The numerical value of is a value normalized as described above.

【0054】図13を参照すると、累算値ADSUMは
無声音領域において大きな値を示すので、これを使用す
れば、無声音領域において不安定な前記比の値MAXR
を適切に補正することができるであろうことが予測でき
る。そこで、累算値ADSUMを使用して前記比の値M
AXRを適切に補正し、これに基づき正確な有声/無声
判定を行うことを以下のように提案する。そのための累
算値ADSUMに応じた補正式は種々に設定可能であ
る。数多くの実測と試行錯誤の結果、一例として、AD
SUMに応じた次のような補正式と判定式を導入するこ
とが比較的有効であることに帰納した。しかし、これに
限定されないのは勿論である。
Referring to FIG. 13, since the accumulated value ADSUM shows a large value in the unvoiced area, if this is used, the ratio value MAXR which is unstable in the unvoiced area is used.
Can be expected to be corrected appropriately. Therefore, using the accumulated value ADSUM, the value of the ratio M
It is proposed as follows that the AXR is appropriately corrected and an accurate voiced / unvoiced decision is made based on the AXR. Various correction formulas corresponding to the accumulated value ADSUM for that purpose can be set. As a result of numerous measurements and trial and error, as an example, AD
We have introduced that it is relatively effective to introduce the following correction formula and judgment formula according to SUM. However, it goes without saying that the present invention is not limited to this.

【0055】上記サンプリング条件においては、一つの
目安として、上記正規化された累算値ADSUMが「1
2」よりも小さいならば、補正の必要がないことが判っ
た。累算値ADSUMがそれ以上の場合は、無声音また
は過渡領域である可能性が高い。そこで、無声音または
過渡領域の音の前記比の値MAXRを下記数6のような
補正式で補正することが比較的有効であることに帰納し
た。なお、MAXR’は、補正後の比の値を示す。
Under the above sampling conditions, the normalized accumulated value ADSUM is "1" as one guide.
If it is smaller than 2 ”, it turns out that no correction is necessary. If the accumulated value ADSUM is more than that, there is a high possibility that it is in the unvoiced sound or the transient region. Therefore, it was inferred that it is relatively effective to correct the value MAXR of the ratio of the unvoiced sound or the sound in the transient region by a correction formula such as the following Expression 6. In addition, MAXR 'shows the value of the ratio after correction.

【0056】[0056]

【数6】(a)ADSUMが12以上の場合のMAXR
の補正式: MAXR’=MAXR−(ADSUM−12)/64 (b)ADSUMが12よりも小さい場合のMAXRの
補正式: MAXR’=MAXR (つまり補正せず) なお、上記数6における数値12及び64は、あくまで
も上記条件下での経験値に過ぎないので、これを一般化
して表現する場合は、これらの数値12及び64を、条
件に応じた適宜の定数に置き換えるべきであることは勿
論である。最終的に得ようとする有声/無声判定値UV
は、上記数2によって補正された比の値MAXR’を、
前述と同様に、前記数4の関係式に適用して求められ
る。
[Formula 6] (a) MAXR when ADSUM is 12 or more
Correction formula: MAXR '= MAXR- (ADSUM-12) / 64 (b) Correction formula of MAXR when ADSUM is smaller than 12: MAXR' = MAXR (that is, no correction) Since 64 and 64 are merely empirical values under the above conditions, it is needless to say that when generalizing and expressing these, these numerical values 12 and 64 should be replaced with appropriate constants according to the conditions. Is. Voiced / unvoiced judgment value UV to be finally obtained
Is the ratio value MAXR ′ corrected by the above equation 2,
Similar to the above, it can be obtained by applying to the relational expression of the equation (4).

【0057】図12に戻ると、ステップS52では、前
ステップS51で求めた正規化されたアブソリュート差
分累算値ADSUMが12より小さいか(つまりADS
UM−12<0が成立するか)を調べる。これは、前記
数6の補正式a,bのうちどちらを適用すべきかを判断
するためである。ステップS52でYESと判断した場
合は、ステップS53に行く。ステップS53では、補
正していない前記比の値MAXRを使用して、 UV=(MAXR−0.4)/0.4 なる演算を行う。これは、上記数6の補正式bと前記数
4の判定式を組合せた演算式に相当する。
Returning to FIG. 12, in step S52, is the normalized absolute difference accumulation value ADSUM obtained in the previous step S51 smaller than 12 (that is, ADS)?
UM-12 <0 is established). This is to determine which of the correction equations a and b in the equation 6 should be applied. If YES is determined in step S52, the process proceeds to step S53. In step S53, UV = (MAXR-0.4) /0.4 is calculated using the uncorrected ratio value MAXR. This corresponds to an arithmetic expression that is a combination of the correction expression b of the above-mentioned Expression 6 and the judgment expression of the above-mentioned Expression 4.

【0058】ステップS52でNOと判断した場合は、
ステップS54に行く。ステップS54では、前記比の
値MAXRを上記数6の補正式aにより補正して、 UV=[{MAXR−(ADSUM−12)/64}−
0.4]/0.4 なる演算を行う。これは、上記数6の補正式aと数4の
判定式を組合せた演算式に相当する。
If NO in step S52,
Go to step S54. In step S54, the value MAXR of the ratio is corrected by the correction equation a of the above-mentioned equation 6, and UV = [{MAXR- (ADSUM-12) / 64}-
[0.4] /0.4 is performed. This corresponds to an arithmetic expression that is a combination of the correction expression a of the above equation 6 and the determination expression of the above equation 4.

【0059】このように、ステップS53又はS54に
より、上記数6の補正式と数4の判定式を組合せた演算
式が実行され、前記比の値MAXRの補正が行われると
共に、この補正値MAXR’に基づく有声/無声判定演
算が行われ、有声/無声判定値UVが得られる。また、
続くステップS12〜S15の処理により、前述と同様
に、この値UVが1より大又は0より小のとき、それぞ
れ1又は0に設定する処理を行なう。
As described above, in step S53 or S54, an arithmetic expression that combines the correction equation of the above equation 6 and the determination equation of the above equation 4 is executed to correct the ratio value MAXR, and at the same time, the correction value MAXR. A voiced / unvoiced determination calculation is performed based on 'to obtain a voiced / unvoiced determination value UV. Also,
In the subsequent steps S12 to S15, when the value UV is larger than 1 or smaller than 0, the processing of setting 1 or 0 is performed, as described above.

【0060】次に、図7,図8の実測例について上記第
3の実施例に従って分析した結果の一例を示す。図8の
a〜fに示す各フレームF1〜F6毎の自己相関関数に
おける最大極値Rkと初期値R0の比Rk/R0=MAXR
と、これら各自己相関関数について上述のように演算し
た正規化アブソリュート差分累算値ADSUM、及びこ
れらを前記数6及び数4の各式に適用して得られた判定
結果UVを示すと、次表のようである。
Next, an example of the result of analysis according to the third embodiment described above with respect to the actual measurement examples of FIGS. 7 and 8 will be shown. The ratio Rk / R0 = MAXR of the maximum extreme value Rk and the initial value R0 in the autocorrelation function for each frame F1 to F6 shown in a to f of FIG.
And the normalized absolute difference accumulation value ADSUM calculated as described above for each of these autocorrelation functions, and the determination result UV obtained by applying these to each of the equations 6 and 4, It looks like a table.

【0061】[0061]

【表4】 [Table 4]

【0062】なお、上述では、アブソリュート差分累算
値ADSUMを求めるにあたって、自己相関関数Riに
おける隣接するサンプル値同士の差の絶対値を累算する
ようにしているが、これに限らず、3サンプル毎あるい
は4サンプル毎など所定サンプル数(次数)毎の自己相
関関数値の差の絶対値を累算するようにしてもよい。
In the above description, in obtaining the absolute difference accumulated value ADSUM, the absolute value of the difference between adjacent sample values in the autocorrelation function Ri is accumulated, but the invention is not limited to this. You may make it accumulate | store the absolute value of the difference of the autocorrelation function value for every predetermined sample number (order), such as every 4 samples.

【0063】次に、上述の各実施例に係る方法を実施す
る音声分析システムを音源システムと共に一体的に具備
した電子楽器の一実施例を図14により説明する。図1
4において、中央処理ユニット(CPU)10,リード
オンリーメモリ(ROM)11,ランダムアクセスメモ
リ(RAM)12を含むマイクロコンピュータの制御に
より各種の処理が実行される。ROM11においては、
上記実施例に示されたような各処理手順を実現するため
のプログラムがストアされている。マイクロフォン13
によって外部から取り込んだアナログ音声信号がアンプ
14を介してA/D変換器15に与えられ、所定のサン
プリングクロックに従ってサンプリングされてディジタ
ル音声波形信号に変換される。このディジタル音声波形
信号は、RAM12にストアされる。ディジタル信号プ
ロセッサ(DSP)16はプログラムされた計算式を高
速で実行するものであり、自己相関関数Riの演算など
複雑な計算をこのDSP16によって行う。以上の構成
により、上記実施例に示されたような有声/無声分析の
ための各処理手順がマイクロコンピュータの制御に基づ
き実行される。分析の結果得られた有声/無声判定値U
Vは、CPU10やRAM12等にあるレジスタに適宜
ストアされ、楽音制御のために利用される。
Next, an embodiment of an electronic musical instrument integrally equipped with a sound source system and a voice analysis system for carrying out the method according to each of the above embodiments will be described with reference to FIG. Figure 1
4, various processes are executed under the control of a microcomputer including a central processing unit (CPU) 10, a read only memory (ROM) 11 and a random access memory (RAM) 12. In ROM11,
A program for realizing each processing procedure as shown in the above embodiment is stored. Microphone 13
The analog voice signal taken in from the outside is given to the A / D converter 15 via the amplifier 14, sampled according to a predetermined sampling clock, and converted into a digital voice waveform signal. This digital voice waveform signal is stored in the RAM 12. The digital signal processor (DSP) 16 executes a programmed calculation formula at high speed, and the DSP 16 performs complicated calculation such as calculation of the autocorrelation function Ri. With the above configuration, each processing procedure for voiced / unvoiced analysis as shown in the above embodiment is executed under the control of the microcomputer. Voiced / unvoiced judgment value U obtained as a result of analysis
V is appropriately stored in a register in the CPU 10, RAM 12, etc., and is used for tone control.

【0064】パネルスイッチ部17は、楽音の音色、音
量、音高、効果等を設定、選択、制御するための各種の
スイッチを含むものであり、外部から音声信号を取り込
むことを指示するスイッチや分析の結果得られた有声/
無声判定値UVを楽音制御のために利用することを指示
するスイッチなど音声分析処理に関連する各種スイッチ
類を含んでいてよい。パネルスイッチ部17はインタフ
ェース18を介してマイクロコンピュータのバスに接続
されている。発生すべき音階音を指定するための複数の
鍵を具備した鍵盤部19も、インタフェース20を介し
てマイクロコンピュータのバスに接続されている。
The panel switch section 17 includes various switches for setting, selecting, and controlling the tone color, volume, pitch, effect, etc. of a musical tone, and a switch for instructing to take in an audio signal from the outside or Voiced as a result of analysis /
Various switches related to the voice analysis process, such as a switch for instructing to use the unvoiced judgment value UV for tone control, may be included. The panel switch unit 17 is connected to the bus of the microcomputer via the interface 18. A keyboard section 19 having a plurality of keys for designating a scale note to be generated is also connected to a bus of a microcomputer via an interface 20.

【0065】鍵盤部19で指定された音階音に対応する
ディジタル楽音信号が、楽音信号発生回路21から発生
され、D/A変換器22でアナログ信号に変換されて、
サウンドシステム23から音響的に発音される。楽音信
号発生回路21における楽音信号発生方式は、PCM波
形メモリ方式やFM方式、AM方式など公知のどのよう
な方式を用いてもよい。
A digital tone signal corresponding to the scale tone designated by the keyboard section 19 is generated from the tone signal generation circuit 21 and converted into an analog signal by the D / A converter 22.
Sound is produced acoustically from the sound system 23. As the tone signal generating method in the tone signal generating circuit 21, any known method such as PCM waveform memory method, FM method, AM method may be used.

【0066】分析の結果得られた有声/無声判定値UV
は、どのような形態で楽音制御のために利用するように
してもよい。例えば、楽音信号発生回路21で発生する
楽音信号の音色を制御するために利用する場合、フィル
タの特性を制御したり、波形メモリから読み出す波形の
選択を制御したり、各種補間演算のパラメータを制御し
たりするために、有声/無声判定値UVを利用するよう
にしてよい。有声/無声判定値UVの利用形態はその他
種々あってよいが、ここでは特に詳しく述べない。
Voiced / unvoiced judgment value UV obtained as a result of analysis
May be used for musical tone control in any form. For example, when it is used to control the tone color of a tone signal generated by the tone signal generation circuit 21, it controls the characteristics of the filter, controls the selection of the waveform read from the waveform memory, and controls the parameters of various interpolation calculations. The voiced / unvoiced determination value UV may be used for this purpose. The voiced / unvoiced determination value UV may be used in various other forms, but will not be described in detail here.

【0067】制御の形態としては、例えば、鍵盤部19
等で指定した楽音を発音中に、マイクロフォン13で適
宜の音声を入力し、実時間でその分析を行い、その分析
の結果得られた有声/無声判定値UVに応じて、発音中
の楽音を実時間で制御するようにすることが可能であ
る。その場合に、適当な1フレームだけの分析を行い、
その結果得られた有声/無声判定値UVに応じて楽音を
制御するようにしてもよい。あるいは、適当な複数フレ
ームについて実時間で分析を行い、それぞれの分析結果
に応じて変化する可能性のある有声/無声判定値UVに
応じて楽音を時間的に可変で制御するようにしてもよ
い。
The control mode is, for example, the keyboard section 19
While sounding a musical sound specified by, etc., an appropriate voice is input by the microphone 13 and its analysis is performed in real time, and the musical sound being sounded is determined according to the voiced / unvoiced judgment value UV obtained as a result of the analysis. It is possible to control in real time. In that case, analyze only one appropriate frame,
The musical sound may be controlled according to the voiced / unvoiced determination value UV obtained as a result. Alternatively, an appropriate plurality of frames may be analyzed in real time, and the musical sound may be variably controlled in time according to the voiced / unvoiced determination value UV that may change according to each analysis result. .

【0068】上述の各実施例に係る方法を実施する音声
分析システムは単体の音声コントローラとして構成され
ていてもよい。図15はそのような音声コントローラ2
4の一実施例を示す。図15において、音声コントロー
ラ24は、外部から音声信号を取り込むためのマイクロ
フォン25と、アンプ26と、A/D変換器27と、音
声分析装置28と、MIDI変換器29とを含んでい
る。音声分析装置28は、上述の各実施例に係る方法を
実施する装置であり、上述のような音声分析プログラム
を搭載したマイクロコンピュータとDSPとによって構
成してもよいし、ディスクリート回路によって構成して
もよい。MIDI変換器29は、分析の結果得られた有
声/無声判定値UV及びその他必要なデータをMIDI
フォーマットに変換して出力する。MIDIフォーマッ
トの有声/無声判定値UV及びその他必要なデータは、
外部の電子楽器30に与えられ、該電子楽器30におい
て発生する楽音の制御のために使用される。
The voice analysis system for carrying out the method according to each of the above embodiments may be configured as a single voice controller. FIG. 15 shows such a voice controller 2.
4 shows an example. In FIG. 15, the voice controller 24 includes a microphone 25 for taking in a voice signal from the outside, an amplifier 26, an A / D converter 27, a voice analysis device 28, and a MIDI converter 29. The voice analysis device 28 is a device for performing the method according to each of the above-described embodiments, and may be configured by a microcomputer equipped with the voice analysis program as described above and a DSP, or by a discrete circuit. Good. The MIDI converter 29 sends the voiced / unvoiced judgment value UV obtained as a result of the analysis and other necessary data to MIDI.
Convert to format and output. Voice / unvoiced judgment value UV in MIDI format and other necessary data are
It is given to an external electronic musical instrument 30 and used for controlling a musical sound generated in the electronic musical instrument 30.

【0069】なお、上記各実施例において、分析の対象
である音声信号の入力の仕方は、マイクロフォンによっ
てサンプリングして入力する例に限らず、データ伝送ラ
インを介してディジタル音声波形データを入力するよう
にしてもよいし、あるいはメモリに記録済みのディジタ
ル音声波形データを適宜読み出すことにより入力するよ
うにしてもよい。
In each of the above embodiments, the method of inputting the voice signal to be analyzed is not limited to the example of sampling and input by the microphone, but the digital voice waveform data may be input via the data transmission line. Alternatively, the digital voice waveform data already recorded in the memory may be appropriately read and input.

【0070】また、音声波形信号の自己相関関数の変化
の傾向の分析及び補正の仕方は、上記実施例に示された
ものに限らず、本明細書及び図面から理解及び予測でき
るすべての態様を含む。すなわち、音声波形信号から直
接求めた自己相関関数の初期値R0と最大極値Rkとの比
の値は、特に、無声音領域で不安定であり、無声音領域
での判定の改善が望まれるという発想と、該自己相関関
数の変化の傾向は無声音ほど変化が激しいので、この変
化の激しさを何らかの観点から数値化し、この数値に応
じて、特に無声音領域が区別できるように、該比の値を
補正するという発想により、この発明では、精度のよい
有声/無声判定が期待できるようになっているのであ
る。従って、そのような観点で、自己相関関数の変化の
激しさが計量化できる何らかのファクタを計量・分析す
る演算を行えばよいことになり、そのような計量化・分
析演算とそれに基づく補正演算に係るすべての実施態様
がこの発明の範囲に含まれる。
The method of analyzing and correcting the tendency of the change in the autocorrelation function of the voice waveform signal is not limited to the one shown in the above embodiment, and all modes that can be understood and predicted from the present specification and the drawings are applicable. Including. That is, the value of the ratio between the initial value R0 of the autocorrelation function directly obtained from the speech waveform signal and the maximum extreme value Rk is particularly unstable in the unvoiced sound region, and the idea that improvement of judgment in the unvoiced sound region is desired. Since the tendency of the change in the autocorrelation function changes more drastically for unvoiced sounds, the intensity of this change is quantified from some point of view, and the value of the ratio is changed according to this numerical value so that unvoiced sound regions can be particularly distinguished. Due to the idea of correction, accurate voiced / unvoiced determination can be expected in the present invention. Therefore, from such a viewpoint, it suffices to perform an operation for measuring / analyzing any factor that can quantify the degree of change in the autocorrelation function. All such embodiments are within the scope of this invention.

【0071】[0071]

【発明の効果】以上説明したように、この発明によれ
ば、音声波形信号の自己相関関数を直接求め、これに基
づきラフな有声/無声判定のための関数初期値とその後
の最大極値の比の値を求め、更に、この自己相関関数の
変化の傾向を分析するための所定の演算を行い、この演
算結果に応じて補正値を発生し、この補正値に応じて前
記比の値を補正し、これに基づき有声/無声判定を行う
ようにしたので、変形自己相関関数を求める場合に比べ
て演算を簡単化することができ、しかも補正により確度
の高い有声/無声判定を行うことができるようになる、
という優れた効果を奏する。従って、音声信号を実時間
で分析し、その分析結果に応じて実時間で楽音制御を行
うような場合に最適である。
As described above, according to the present invention, the autocorrelation function of the speech waveform signal is directly obtained, and based on this, the initial value of the function for rough voiced / unvoiced determination and the maximum extremum thereafter are calculated. The value of the ratio is obtained, further, a predetermined calculation for analyzing the tendency of the change of the autocorrelation function is performed, a correction value is generated according to the calculation result, and the value of the ratio is calculated according to the correction value. Since the correction is performed and the voiced / unvoiced determination is performed based on this, the calculation can be simplified as compared with the case where the modified autocorrelation function is obtained, and the corrected voiced / unvoiced determination can be performed with high accuracy. become able to,
It has an excellent effect. Therefore, it is most suitable when the voice signal is analyzed in real time and the musical tone control is performed in real time according to the analysis result.

【図面の簡単な説明】[Brief description of drawings]

【図1】この発明に従う音声分析方法の一実施例の処理
手順を示すフロー図。
FIG. 1 is a flowchart showing a processing procedure of an embodiment of a voice analysis method according to the present invention.

【図2】図1における極値数カウント処理ステップの一
具体例を示すフロー図。
FIG. 2 is a flowchart showing one specific example of the extreme value number counting processing step in FIG.

【図3】音声波形信号の自己相関関数の初期値と最大極
値の比の値と有声度/無声度との関係の一例をおおまか
な傾向で示すグラフ。
FIG. 3 is a graph showing an example of the relationship between the value of the ratio of the initial value of the autocorrelation function of the speech waveform signal and the maximum extreme value and the voicedness / unvoicedness in a rough tendency.

【図4】音声波形信号の自己相関関数における極値数と
有声度/無声度との関係の一例をおおまかな傾向で示す
グラフ。
FIG. 4 is a graph showing an example of the relationship between the number of extreme values in the autocorrelation function of a speech waveform signal and the voicedness / unvoicedness in a rough tendency.

【図5】男性音声によって「シャ(sha)」と発音し
た場合の音声波形例を示す図。
FIG. 5 is a diagram showing an example of a voice waveform in the case of pronouncing “sha” by a male voice.

【図6】図5の音声波形に基づき求めたいくつかのフレ
ームにおける自己相関関数を示す関数波形図。
6 is a functional waveform diagram showing an autocorrelation function in several frames obtained based on the speech waveform of FIG.

【図7】女性音声によって「チ(chi)」と発音した
場合の音声波形例を示す図。
FIG. 7 is a view showing an example of a voice waveform when a female voice pronounces “chi”.

【図8】図7の音声波形に基づき求めたいくつかのフレ
ームにおける自己相関関数を示す関数波形図。
8 is a functional waveform diagram showing an autocorrelation function in several frames obtained based on the speech waveform of FIG. 7.

【図9】この発明に従う音声分析方法の別の実施例の処
理手順を示すフロー図。
FIG. 9 is a flowchart showing a processing procedure of another embodiment of the voice analysis method according to the present invention.

【図10】図9におけるローカルピーク差分累算値を求
める処理ステップの一具体例を示すフロー図。
10 is a flowchart showing a specific example of processing steps for obtaining a local peak difference accumulated value in FIG.

【図11】音声波形信号の自己相関関数におけるローカ
ルピーク差分累算値と有声度/無声度との関係の一例を
おおまかな傾向で示すグラフ。
FIG. 11 is a graph showing an example of the relationship between the accumulated local peak difference value and the voiced / unvoiced degree in the autocorrelation function of the speech waveform signal, with a rough tendency.

【図12】この発明に従う音声分析方法の更に別の実施
例の処理手順を示すフロー図。
FIG. 12 is a flowchart showing a processing procedure of still another embodiment of the voice analysis method according to the present invention.

【図13】音声波形信号の自己相関関数におけるアブソ
リュート差分累算値と有声度/無声度との関係の一例を
おおまかな傾向で示すグラフ。
FIG. 13 is a graph showing an example of the relationship between the absolute difference accumulated value and the voiced level / unvoiced level in the autocorrelation function of a voice waveform signal, with a rough tendency.

【図14】この発明に従う音声分析方法を実施する音声
分析システムを音源システムと共に一体的に具備した電
子楽器の一実施例を示すブロック図。
FIG. 14 is a block diagram showing an embodiment of an electronic musical instrument integrally equipped with a sound source system and a sound analysis system for implementing the sound analysis method according to the present invention.

【図15】この発明に従う音声分析方法を実施する音声
分析システムを単体の音声コントローラとして構成した
一実施例を示すブロック図。
FIG. 15 is a block diagram showing an embodiment in which a voice analysis system for implementing the voice analysis method according to the present invention is configured as a single voice controller.

【符号の説明】[Explanation of symbols]

10…中央処理ユニット(CPU)、11…リードオン
リーメモリ(ROM)、12…ランダムアクセスメモリ
(RAM)、13…マイクロフォン、16…ディジタル
信号プロセッサ(DSP)、17…パネルスイッチ部、
19…鍵盤部、21…楽音信号発生回路、24…音声コ
ントローラ、28…音声分析装置。
10 ... Central processing unit (CPU), 11 ... Read only memory (ROM), 12 ... Random access memory (RAM), 13 ... Microphone, 16 ... Digital signal processor (DSP), 17 ... Panel switch section,
Reference numeral 19 indicates a keyboard portion, 21 indicates a tone signal generating circuit, 24 indicates a voice controller, 28 indicates a voice analysis device.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 音声波形信号を入力する第1のステップ
と、 入力された音声波形信号の自己相関関数を計算する第2
のステップと、 前記第2のステップで求めた自己相関関数の初期値とそ
の後の最大極値との比を計算する第3のステップと、 前記第2のステップで求めた自己相関関数の変化の傾向
を分析するための所定の演算を行い、この演算結果に応
じて補正値を発生する第4のステップと、 前記第4のステップで発生した補正値に応じて前記第3
のステップで求めた比の値を補正し、補正された比の値
に基づき有声/無声判定を行う第5のステップとを具え
た音声分析方法。
1. A first step of inputting a speech waveform signal, and a second step of calculating an autocorrelation function of the input speech waveform signal.
And a third step of calculating a ratio between the initial value of the autocorrelation function obtained in the second step and the maximum extremum thereafter, and a change of the autocorrelation function obtained in the second step. A fourth step of performing a predetermined calculation for analyzing the tendency and generating a correction value according to the calculation result, and the third step according to the correction value generated in the fourth step
5. A voice analysis method comprising: a fifth step of correcting the ratio value obtained in the step, and performing voiced / unvoiced determination based on the corrected ratio value.
JP4255925A 1992-08-31 1992-08-31 Voice analyzer Expired - Fee Related JP2962066B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4255925A JP2962066B2 (en) 1992-08-31 1992-08-31 Voice analyzer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4255925A JP2962066B2 (en) 1992-08-31 1992-08-31 Voice analyzer

Publications (2)

Publication Number Publication Date
JPH0683390A true JPH0683390A (en) 1994-03-25
JP2962066B2 JP2962066B2 (en) 1999-10-12

Family

ID=17285481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4255925A Expired - Fee Related JP2962066B2 (en) 1992-08-31 1992-08-31 Voice analyzer

Country Status (1)

Country Link
JP (1) JP2962066B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004534274A (en) * 2001-03-23 2004-11-11 インスティチュート・フォー・インフォコム・リサーチ Method and system for displaying music information on a digital display for use in content-based multimedia information retrieval

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004534274A (en) * 2001-03-23 2004-11-11 インスティチュート・フォー・インフォコム・リサーチ Method and system for displaying music information on a digital display for use in content-based multimedia information retrieval

Also Published As

Publication number Publication date
JP2962066B2 (en) 1999-10-12

Similar Documents

Publication Publication Date Title
US7579546B2 (en) Tempo detection apparatus and tempo-detection computer program
US7582824B2 (en) Tempo detection apparatus, chord-name detection apparatus, and programs therefor
US7521618B2 (en) Tuning device for musical instruments and computer program used therein
JP4916947B2 (en) Rhythm detection device and computer program for rhythm detection
JP2008516289A (en) Method and apparatus for extracting a melody that is the basis of an audio signal
US7507899B2 (en) Automatic music transcription apparatus and program
WO2017047447A1 (en) Evaluation device and recording medium
JP2008516288A (en) Extraction of melody that is the basis of audio signal
Caetano et al. A source-filter model for musical instrument sound transformation
JP3489503B2 (en) Sound signal analyzer, sound signal analysis method, and storage medium
WO2020158891A1 (en) Sound signal synthesis method and neural network training method
JP3279204B2 (en) Sound signal analyzer and performance information generator
JP2962066B2 (en) Voice analyzer
JP6578544B1 (en) Audio processing apparatus and audio processing method
JPH01219634A (en) Automatic score taking method and apparatus
JP2000293188A (en) Chord real time recognizing method and storage medium
JP2591894B2 (en) Tuner
JP3001353B2 (en) Automatic transcription device
CN112750422B (en) Singing voice synthesis method, device and equipment
JP3776782B2 (en) Method for encoding an acoustic signal
JPH07199978A (en) Karaoke device
JP2985441B2 (en) Automatic transcription analyzer
JP3358243B2 (en) Digital signal processing method
JPH01219888A (en) Method and device for automatic sampling
Samouelian Real time pitch estimation:[manuscript]

Legal Events

Date Code Title Description
S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070806

Year of fee payment: 8

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080806

Year of fee payment: 9

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090806

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees