JP3235445B2 - Pitch detection device - Google Patents

Pitch detection device

Info

Publication number
JP3235445B2
JP3235445B2 JP524996A JP524996A JP3235445B2 JP 3235445 B2 JP3235445 B2 JP 3235445B2 JP 524996 A JP524996 A JP 524996A JP 524996 A JP524996 A JP 524996A JP 3235445 B2 JP3235445 B2 JP 3235445B2
Authority
JP
Japan
Prior art keywords
pitch
zero
signal
pitch period
interval data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP524996A
Other languages
Japanese (ja)
Other versions
JPH09198093A (en
Inventor
健 大聖寺
康男 若森
俊彦 鈴木
裕介 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP524996A priority Critical patent/JP3235445B2/en
Priority to TW86100383A priority patent/TW312009B/zh
Priority to CNB971004285A priority patent/CN1136536C/en
Priority to KR1019970001192A priority patent/KR100406655B1/en
Publication of JPH09198093A publication Critical patent/JPH09198093A/en
Application granted granted Critical
Publication of JP3235445B2 publication Critical patent/JP3235445B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

PROBLEM TO BE SOLVED: To accurately find a pitch cycle fast with inexpensive constitution even when a speech waveform is a complicated waveform containing an overtone component. SOLUTION: A binarization part 8 and a timer 9 find and store successive zero-crossing intervals of a digital speech signal supplied from the precedent stage. A pitch arithmetic part 11 assumes that a pitch cycle is the sum 2n pieces of zero-crossing interval data as to n=1-4, calculates a reproduction rate as the degree of matching in each pitch cycle of each zero-crossing interval data constituting one pitch cycle, and employs the assumption by which the highest reproduction rate is obtained to find the pitch cycle.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、音声波形のピッ
チ周期またはピッチ周波数を検出するピッチ検出装置に
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a pitch detecting device for detecting a pitch period or a pitch frequency of an audio waveform.

【0002】[0002]

【従来の技術】音声波形を特徴付けるパラメータの1つ
としてピッチ周期(あるいはピッチ周波数)があり、こ
の音声波形のピッチ周期を検出する技術が音声分析・合
成システム、音声符号化システム等において一般的に使
用されている。また、最近では、カラオケシステムに
も、歌唱者の音声のピッチ周期の検出を行うものがあ
り、歌唱の採点等に利用されている。
2. Description of the Related Art A pitch period (or a pitch frequency) is one of parameters that characterize a speech waveform, and a technique for detecting the pitch period of the speech waveform is generally used in speech analysis / synthesis systems, speech encoding systems, and the like. It is used. Recently, some karaoke systems also detect a pitch period of a singer's voice, and are used for scoring singing.

【0003】従来、音声のピッチ周期を検出する方法と
して以下のものがあった。 (1)零クロス法 音声波形が正弦波に非常に近いものと仮定すると、音声
波形は零レベル線を負方向から正方向に横切り、次いで
正方向から負方向に横切り、再び負方向から正方向に横
切るという単調な変化を繰り返すため、零レベル線を同
一方向に横切る時間間隔によってピッチ周期が与えられ
る。零クロス法は、この考えに従い、単純に2つの零ク
ロス間隔を計測してピッチ周期とする方法である。ま
た、これと同様な発想として、音声波形の瞬時値が極大
値または極小値となるタイミングの間隔を計測してピッ
チ周期とする方法もある。
Conventionally, there have been the following methods for detecting a pitch period of a voice. (1) Zero-cross method Assuming that the speech waveform is very close to a sine wave, the speech waveform crosses the zero level line from the negative direction to the positive direction, then from the positive direction to the negative direction, and again from the negative direction to the positive direction. In order to repeat the monotonous change of traversing the zero level line, the pitch period is given by the time interval traversing the zero level line in the same direction. The zero-cross method is a method of simply measuring the interval between two zero-crosses to determine the pitch period in accordance with this idea. Further, as a similar idea, there is a method of measuring an interval between timings at which the instantaneous value of the audio waveform becomes a maximum value or a minimum value, and uses the measured interval as a pitch cycle.

【0004】(2)自己相関法 この自己相関法においては、音声波形を一定のサンプリ
ング周期毎にサンプリングすることによって得られる時
系列サンプルx(1),x(2),…を用い、以下の自
己相関関数R(r)の演算を行うことにより、ピッチ周
期を求める。 R(r)=1/N・Σ {x(n)・x(n+r)} (ただし、上記式において、Σはn=1〜N・rの範囲
で{}内の総和を求める演算子である。) すなわち、rを各種変化させ、各rについて自己相関関
数R(r)を求め、R(r)が最大(すなわち、自己相
関が最大)になるときのrから音声波形のピッチ周期を
算出する。
(2) Autocorrelation method In this autocorrelation method, time-series samples x (1), x (2),... Obtained by sampling a speech waveform at fixed sampling periods are used, and The pitch period is obtained by calculating the autocorrelation function R (r). R (r) = 1 / N · Σ {x (n) · x (n + r)} (where, in the above formula, Σ is an operator for obtaining a sum within {} within a range of n = 1 to N · r). That is, r is variously changed, an autocorrelation function R (r) is obtained for each r, and the pitch period of the speech waveform is calculated from r when R (r) becomes maximum (ie, the autocorrelation becomes maximum). calculate.

【0005】[0005]

【発明が解決しようとする課題】ところで、上述した零
クロス法は、比較的安価にしかも高速にピッチ周期を検
出することができる反面、人間の音声は多くの倍音成分
を多く含んでいるため正確なピッチ周期を検出すること
ができないという問題があった。また、上述した自己相
関法は、ある程度正確にピッチ周期を検出することが可
能であるが、計算量が膨大であるとともに、検出時間が
多くかかる。また、コスト的にも高くなる。
By the way, the above-mentioned zero-crossing method can detect the pitch period relatively inexpensively and at high speed, but on the other hand, since human speech contains many harmonic components, it is accurate. There is a problem that a proper pitch period cannot be detected. Although the above autocorrelation method can detect the pitch period with some accuracy, it requires a large amount of calculation and a long detection time. In addition, the cost is increased.

【0006】この発明は、上記2つのピッチ検出手法の
問題点を克服し、安価な構成で、正確かつ高速にピッチ
周期を検出することが可能なピッチ検出装置を提供する
ことを目的とする。
SUMMARY OF THE INVENTION It is an object of the present invention to provide a pitch detecting apparatus which overcomes the problems of the above two pitch detecting methods and which can detect a pitch period accurately and at high speed with an inexpensive configuration.

【0007】[0007]

【課題を解決するための手段】請求項1に係る発明は、
音声波形の連続する零クロス間隔t1,t2,…を計測す
る零クロス間隔計測手段と、n(nは1以上の整数)を
各種変化させ、各nについて、2n個の零クロス間隔の
総和T=(t1+t2+・・t2n)をピッチ周期と仮定
し、前記零クロス間隔t1,t2,…に基づいて、隣接す
るm周期(mは2以上の整数)分の各ピッチ周期間での
前記音声波形の一致の程度を算出し、音声波形の一致の
程度が最も高いnを選択することによりピッチ周期を求
めるピッチ演算手段とを具備することを特徴とするピッ
チ検出装置を要旨とする。請求項2に係る発明は、前記
ピッチ演算手段は、前記nが所定値以下の場合は前記m
を4とし、前記nが所定値より大きい場合は前記mを3
とすることを特徴とする請求項1記載のピッチ検出装置
を要旨とする。請求項3に係る発明は、前記ピッチ演算
手段は、前記ピッチ周期を構成する2n個の零クロス間
隔の各々について、前記m周期分のピッチ周期において
所定の誤差範囲内で一致した時間長のものが再現される
回数を求め、この回数の総和に基づいて前記音声波形の
一致の程度を算出することを特徴とする請求項1または
2に記載のピッチ検出装置を要旨とする。
The invention according to claim 1 is
A zero-crossing interval measuring means for measuring continuous zero-crossing intervals t 1 , t 2 ,... Of the voice waveform, and changing n (n is an integer of 1 or more) variously. Assuming that the total sum T = (t 1 + t 2 +... T 2n ) is the pitch period, and based on the zero-cross intervals t 1 , t 2 ,..., M adjacent periods (m is an integer of 2 or more) Pitch detection means for calculating the degree of coincidence of the voice waveforms between each pitch period and selecting n having the highest degree of coincidence of the voice waveforms to determine the pitch period. The device is the gist. The invention according to claim 2 is characterized in that the pitch calculation means sets the m
Is set to 4, and when the n is larger than a predetermined value, the m is set to 3
The gist of the present invention is a pitch detection device according to claim 1. The invention according to claim 3, wherein the pitch calculation means has a time length that matches each of the 2n zero cross intervals constituting the pitch cycle within a predetermined error range in the m pitch cycles. 3. The pitch detecting apparatus according to claim 1, wherein the number of times that the sound waveform is reproduced is obtained, and the degree of matching of the audio waveforms is calculated based on the total number of times.

【0008】[0008]

【発明の実施の形態】以下、本発明を更に理解しやすく
するため、実施の形態について説明する。かかる実施の
形態は、本発明の一態様を示すものであり、この発明を
限定するものではなく、本発明の範囲で任意に変更可能
である。
BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments will be described to make the present invention easier to understand. Such an embodiment shows one aspect of the present invention, and does not limit the present invention, and can be arbitrarily changed within the scope of the present invention.

【0009】A.実施形態の構成 図1はこの発明をカラオケシステムに適用した実施形態
の構成を示すブロック図である。本実施形態は、カラオ
ケシステムの構成部分のうち歌唱者の歌の採点をする部
分に関するものである。図1において、1はデジタル音
楽信号が記録されたCD(コンパクトディスク)であ
る。このCD1に記録されたデジタル音楽信号はサンプ
リング周波数fs=44.1kHzのクロックに同期し
て順次再生される。2はボーカル抽出部であり、CD1
から再生されたデジタル音楽信号からボーカル音に相当
する信号(以下、デジタルお手本信号という。)を抽出
する。一例として、CD1から再生されたデジタル音楽
信号の音声帯域を含む周波数帯域の信号をバンドパスフ
ィルタにより抽出するという処理によりデジタルお手本
信号を得ることができる。また、ボーカル音のみを記録
したメディアを利用可能な場合は、そのメディアから再
生されたデジタル音楽信号をそのままデジタルお手本信
号として使用すればよい。3はマイクロホンであり、C
D1の再生に合わせて歌う歌唱者の歌声を採取し、アナ
ログ音声信号として出力する。4はA/D変換器であ
り、マイクロホン1からアナログ音声信号を、CD1の
再生の場合と同様なサンプリング周波数fs=44.1
kHzのクロックに同期してサンプリングし、デジタル
音声信号に変換する。
A. Configuration of Embodiment FIG. 1 is a block diagram showing a configuration of an embodiment in which the present invention is applied to a karaoke system. The present embodiment relates to a part for grading a singer's song among constituent parts of a karaoke system. In FIG. 1, reference numeral 1 denotes a CD (compact disk) on which a digital music signal is recorded. The digital music signals recorded on the CD 1 are sequentially reproduced in synchronization with a clock having a sampling frequency fs = 44.1 kHz. Reference numeral 2 denotes a vocal extraction unit, and CD1
A signal corresponding to the vocal sound (hereinafter, referred to as a digital sample signal) is extracted from the digital music signal reproduced from the digital music signal. As an example, a digital sample signal can be obtained by extracting a signal in a frequency band including the audio band of the digital music signal reproduced from the CD 1 with a band-pass filter. If a medium on which only vocal sound is recorded can be used, a digital music signal reproduced from the medium may be used as a digital sample signal. 3 is a microphone, C
The singing voice of the singer who sings along with the reproduction of D1 is collected and output as an analog audio signal. Reference numeral 4 denotes an A / D converter, which converts an analog audio signal from the microphone 1 into the same sampling frequency fs = 44.1 as in the case of reproducing the CD1.
Sampling is performed in synchronization with a clock of kHz and converted into a digital audio signal.

【0010】5はDC除去部であり、順次供給されるデ
ジタル音声信号およびデジタルお手本信号に対してDC
除去処理を施し、DCとみなせる低い周波数帯域、例え
ば0Hz〜50Hzの帯域の成分の除去されたデジタル
音声信号およびデジタルお手本信号を各々出力する。6
はLPF(ローパスフィルタ)であり、DC除去部5に
よって出力されたデジタル音声信号およびデジタルお手
本信号の各々から例えば500kHz以上の周波数の成
分を除去して出力する。これらのDC除去部5およびL
PF6により、デジタル音声信号およびデジタルお手本
信号の各々について、50〜500Hzの帯域内の成分
のみが選択され、出力される。
Reference numeral 5 denotes a DC removing unit which removes DC from the digital audio signal and the digital sample signal supplied sequentially.
The digital audio signal and the digital sample signal from which components in a low frequency band that can be regarded as DC, for example, a band of 0 Hz to 50 Hz are removed are output. 6
Is an LPF (Low Pass Filter) which removes, for example, a component having a frequency of 500 kHz or more from each of the digital audio signal and the digital sample signal output by the DC removing unit 5 and outputs the signal. These DC removing units 5 and L
The PF 6 selects and outputs only the components within the band of 50 to 500 Hz for each of the digital audio signal and the digital sample signal.

【0011】7は4倍オーバーサンプリング部であり、
LPF6を通過したデジタル音声信号およびデジタルお
手本信号(いずれもサンプリング周波数fs=44.1
kHz)に対して補間演算を施し、4倍のサンプリング
周波数の信号に変換して出力する。
Reference numeral 7 denotes a 4 times oversampling unit,
Digital audio signal and digital sample signal that have passed through LPF 6 (both sampling frequency fs = 44.1)
kHz), the signal is converted into a signal having a quadruple sampling frequency and output.

【0012】図2はこの4倍オーバーサンプリング部7
のうちデジタル音声信号またはデジタルお手本信号の一
方(以下、入力デジタル信号という。)の処理を行うの
に必要な回路構成を例示したものである。この図におい
て、ラッチ71は、サンプリング周波数fsに対応した
クロックが与えられることにより、入力デジタル信号を
取り込んで保持する。遅延器72,72,…は図示の通
りラッチ71の後段にカスケード接続されている。これ
らの遅延器72は、各々サンプリング周波数fsの4倍
の周波数のクロックが与えられることにより、ラッチ7
1に保持された入力信号を順次シフトし、該入力信号を
1クロック周期ずつ順次遅延させた遅延信号を各々出力
する。73,73,…は乗算器、74,74,…は加算
器であり、これらによりラッチ71および遅延器72,
72,…の各出力信号に所定の補間係数列を畳み込む補
間演算が実行される。以上の構成により、サンプリング
周波数fsの4倍の周波数のクロックに同期して補間演
算が実行され、補間のなされたデジタル信号が最終段の
加算器74から順次出力される。
FIG. 2 shows the quadruple oversampling unit 7.
Of the digital audio signal or the digital sample signal (hereinafter, referred to as an input digital signal). In this figure, a latch 71 receives and holds an input digital signal when a clock corresponding to a sampling frequency fs is applied. Are cascaded after the latch 71 as shown. Each of these delay units 72 is supplied with a clock having a frequency four times the sampling frequency fs, so that the latch 7
The input signals held at 1 are sequentially shifted, and the input signals are sequentially delayed by one clock cycle to output delayed signals. Are multipliers, and 74, 74,... Are adders.
An interpolation operation for convolving a predetermined interpolation coefficient sequence with each of the output signals 72,... Is performed. With the above configuration, the interpolation operation is performed in synchronization with the clock having a frequency four times the sampling frequency fs, and the interpolated digital signal is sequentially output from the adder 74 at the final stage.

【0013】この4倍オーバーサンプリング部7は、ピ
ッチ周期を求める際の精度を高めるために設けられた手
段である。すなわち、本実施形態においては、デジタル
音声信号およびデジタルお手本信号の各々の零クロス点
の時間間隔を測定することにより各デジタル信号のピッ
チ周期を求める。このため、ピッチ周期の測定精度を高
めるためには、時間軸上における零クロス点の位置の検
出精度を高める必要がある。そこで、この4倍オーバー
サンプリング部7を介挿することにより、デジタル音声
信号およびデジタルお手本信号の各々のサンプルの時間
密度を4倍にし、各々の零クロス点の位置の検出精度を
高めている。この例では曲線補間によりオーバーサンプ
リングを行っているが、コストの問題に鑑みて、ある程
度の精度が得られる直線補間を用いることもできる。
The quadruple oversampling unit 7 is a means provided for improving the accuracy in obtaining the pitch period. That is, in the present embodiment, the pitch period of each digital signal is obtained by measuring the time interval between the zero cross points of each of the digital audio signal and the digital sample signal. For this reason, in order to increase the measurement accuracy of the pitch period, it is necessary to increase the detection accuracy of the position of the zero cross point on the time axis. Therefore, by interposing this quadruple oversampling unit 7, the time density of each sample of the digital audio signal and the digital sample signal is quadrupled, and the detection accuracy of the position of each zero cross point is enhanced. In this example, oversampling is performed by curve interpolation. However, in view of the problem of cost, linear interpolation that can obtain a certain degree of accuracy can be used.

【0014】8は2値化部であり、4倍オーバーサンプ
リング部7から出力されるデジタル音声信号およびデジ
タルお手本信号のレベルの2値化を行う。この2値化
は、基本的には、零レベルを基準として入力デジタル信
号の正負判定を行い、入力デジタル信号が正の場合は
“1”を、負の場合は“0”を出力するものである。す
なわち、この2値化部8は入力デジタル信号が零レベル
を横切る毎に“0”/“1”が反転する2値信号を出力
する手段である。ただし、本実施形態においては2値化
を行う際に零レベルを中心に±Δの範囲をマスキング帯
とし、入力デジタル信号にこの±Δのマスキング帯内の
微小な振動があったとしても、かかる微小な振動によっ
ては2値信号を反転させないようにしている。
Reference numeral 8 denotes a binarizing unit which binarizes the levels of the digital audio signal and the digital sample signal output from the quadruple oversampling unit 7. This binarization basically determines whether the input digital signal is positive or negative based on the zero level, and outputs “1” when the input digital signal is positive and outputs “0” when the input digital signal is negative. is there. That is, the binarizing section 8 is a means for outputting a binary signal in which "0" / "1" is inverted every time the input digital signal crosses the zero level. However, in the present embodiment, when binarization is performed, the range of ± Δ around the zero level is used as a masking band, and even if there is a minute vibration in the ± Δ masking band in the input digital signal, the masking band is applied. The binary signal is prevented from being inverted by the minute vibration.

【0015】図3はこの2値化部8のうちデジタル音声
信号またはデジタルお手本信号の一方(以下、入力デジ
タル信号という。)の処理を行うのに必要な回路構成を
例示したものである。この図において、81は入力デジ
タル信号の絶対値を検出する絶対値検出部である。82
は比較部であり、絶対値検出部81によって検出された
入力デジタル信号の絶対値を所定値Δと比較し、絶対値
がΔを越えている場合には“1”を、越えていない場合
には“0”を出力する。83はサンプルホールド部であ
り、比較部82から“1”が出力されている期間は入力
デジタル信号をそのまま出力し(サンプル状態)、比較
部82から“0”が出力されている期間は比較部82の
出力信号が“1”から“0”に変化する直前の入力デジ
タル信号を保持し出力する(ホールド状態)。84は比
較部であり、零レベルを基準としてサンプルホールド部
83の出力信号の正負判定を行い、正の場合は“1”
を、負の場合は“0”の2値信号を出力する。
FIG. 3 exemplifies a circuit configuration necessary for processing one of the digital audio signal and the digital sample signal (hereinafter, referred to as an input digital signal) in the binarization section 8. In this figure, reference numeral 81 denotes an absolute value detection unit that detects the absolute value of an input digital signal. 82
Is a comparing unit, which compares the absolute value of the input digital signal detected by the absolute value detecting unit 81 with a predetermined value Δ, and when the absolute value exceeds Δ, “1”; Outputs “0”. Reference numeral 83 denotes a sample-and-hold unit, which outputs the input digital signal as it is (in a sample state) while "1" is output from the comparison unit 82, and outputs a comparison unit during which "0" is output from the comparison unit 82 The input digital signal immediately before the output signal of 82 changes from “1” to “0” is held and output (hold state). Reference numeral 84 denotes a comparison unit which performs a positive / negative determination of the output signal of the sample-and-hold unit 83 based on the zero level.
, And outputs a binary signal of “0” in the case of a negative value.

【0016】以上の構成によれば、入力デジタル信号が
±Δの範囲外にある場合にはサンプルホールド部83を
介してそのまま出力される。また、入力デジタル信号が
零レベル±Δのマスキング帯内に入った場合には、その
直前の入力デジタル信号の値がサンプルホールド部83
によって保持され、この保持動作が行われている期間中
は比較部84が出力する2値信号が反転することはな
い。従って、入力デジタル信号が零レベル±Δのマスキ
ング帯を横切って変化する場合はマスキング帯を横切り
終えた時点で2値信号が反転することとなる。一方、入
力デジタル信号が零レベル±Δのマスキング帯に入った
がこれを横切ることなくマスキング帯内を上下動するよ
うな場合には、たとえ入力デジタル信号が零レベルを横
切ったとしてもサンプルホールド部83の出力信号値が
零レベルを横切ることはないため、2値信号の反転は起
こらない。
According to the above configuration, when the input digital signal is out of the range of ± Δ, it is output as it is via the sample and hold section 83. When the input digital signal falls within the masking band of zero level ± Δ, the value of the immediately preceding input digital signal is stored in the sample and hold section 83.
The binary signal output from the comparing section 84 is not inverted during the period in which the holding operation is performed. Therefore, when the input digital signal changes across the masking band of zero level ± Δ, the binary signal is inverted at the time when the crossing of the masking band is completed. On the other hand, if the input digital signal enters the masking band of zero level ± Δ but moves up and down within the masking band without crossing it, even if the input digital signal crosses the zero level, the sample hold unit Since the output signal value of 83 does not cross the zero level, the inversion of the binary signal does not occur.

【0017】図3において比較部84よりも前段にある
回路は、図4に示すものに置き換えてもよい。この図4
において、85および86は比較部であり、各々、入力
デジタル信号を基準レベルと比較し、入力デジタル信号
が基準レベルより高いときには“1”を、基準レベルよ
り低いときには“0”を出力する。比較部85に対して
は基準レベルとして+Δが与えられ、比較部86に対し
ては基準レベルとして−Δが与えられる。87は入力デ
ジタル信号を保持するラッチ、88は入力デジタル信号
またはラッチ87の出力信号を選択して出力するセレク
タである。89は制御部であり、比較部85および86
の各出力信号に基づいてラッチ87およびセレクタ88
の制御を行う。すなわち、次の通りである。
In FIG. 3, the circuit preceding the comparing section 84 may be replaced with the circuit shown in FIG. This figure 4
, Reference numerals 85 and 86 denote comparison units, each of which compares the input digital signal with a reference level and outputs “1” when the input digital signal is higher than the reference level and outputs “0” when the input digital signal is lower than the reference level. The comparator 85 is given + Δ as a reference level, and the comparator 86 is given −Δ as a reference level. 87 is a latch for holding the input digital signal, and 88 is a selector for selecting and outputting the input digital signal or the output signal of the latch 87. Reference numeral 89 denotes a control unit.
Latch 87 and selector 88 based on each output signal of
Control. That is, it is as follows.

【0018】a.比較部85および86の出力信号がい
ずれも“1”、あるいはいずれも“0”である場合 入力デジタル信号が零レベル±Δのマスキング帯の外側
にある場合である。この場合、制御部89は、ラッチ8
7をサンプル状態とし、セレクタ88には入力デジタル
信号を出力させる。 b.比較部85の出力信号が“0”であり、かつ、比較
部86の出力信号が“1”である場合 入力デジタル信号が零レベル±Δのマスキング帯の内側
にある場合である。この場合、制御部89は、入力デジ
タル信号がマスキング帯内に入った時点でラッチ87を
ホールド状態とし、セレクタ88にはラッチ87の出力
信号を出力させる。
A. When the output signals of the comparison units 85 and 86 are both "1" or both are "0" This is the case where the input digital signal is outside the masking band of zero level ± Δ. In this case, the control unit 89 controls the latch 8
7 is set to a sample state, and the selector 88 outputs an input digital signal. b. When the output signal of the comparing unit 85 is “0” and the output signal of the comparing unit 86 is “1” This is the case where the input digital signal is inside the masking band of zero level ± Δ. In this case, the control unit 89 puts the latch 87 into the hold state when the input digital signal enters the masking band, and causes the selector 88 to output the output signal of the latch 87.

【0019】図1において、9はデジタル音声信号およ
びデジタルお手本信号に対応した2値化部8の各出力信
号の反転が起こる時間間隔、すなわち、これらの各デジ
タル信号の零クロス点の発生する時間間隔を計時するた
めのタイマであり、10はタイマ9の計時結果を記憶す
るRAMである。
In FIG. 1, reference numeral 9 denotes a time interval at which the inversion of each output signal of the binarization unit 8 corresponding to the digital audio signal and the digital sample signal occurs, that is, a time at which a zero cross point of each digital signal occurs. Reference numeral 10 denotes a timer for measuring an interval, and reference numeral 10 denotes a RAM for storing the result of the timer 9.

【0020】図5はタイマ9およびRAM10をそれら
の制御系と共に示したブロック図である。なお、この図
は、デジタル音声信号およびデジタルお手本信号の一方
に対応した処理に必要な部分のみが示されている。図5
において、91は遅延器、92は排他的論理和回路であ
る。これらは2値化部8が出力する2値信号を微分する
微分回路90を構成しており、2値信号の反転が起こる
毎にパルスを出力する。タイマ9は、微分回路90から
の出力パルスが与えられる毎にリセットされ、このリセ
ットの後、次にリセットされるまでの間は、一定周波数
4fsのクロックをカウントする。
FIG. 5 is a block diagram showing the timer 9 and the RAM 10 together with their control systems. In this figure, only a part necessary for processing corresponding to one of the digital audio signal and the digital sample signal is shown. FIG.
In the figure, reference numeral 91 denotes a delay unit, and 92 denotes an exclusive OR circuit. These constitute a differentiating circuit 90 for differentiating the binary signal output from the binarizing unit 8, and output a pulse every time the inversion of the binary signal occurs. The timer 9 is reset every time an output pulse from the differentiating circuit 90 is given, and counts a clock having a constant frequency of 4 fs after this reset until the next reset.

【0021】タイマ9のカウント値は、ラッチ93に対
し入力データとして与えられる。ラッチ93は、微分回
路90からの出力パルスが与えられることにより、リセ
ット直前のタイマ9のカウント値を取り込んで保持す
る。このラッチ93に保持されるカウント値は、前回の
2値信号の反転が検出されてから今回の反転が検出され
るまでの間に出力された周波数4fsのクロックの個数
であるから、零クロス点が発生する時間間隔を表してい
ると言える。従って、以下では、このラッチ93の保持
データを零クロス間隔データと呼ぶ。
The count value of the timer 9 is given to the latch 93 as input data. The latch 93 receives and holds the count value of the timer 9 immediately before reset by receiving the output pulse from the differentiating circuit 90. The count value held in the latch 93 is the number of clocks of the frequency 4fs output between the time when the previous inversion of the binary signal is detected and the time when the current inversion is detected. It can be said that it represents the time interval in which. Therefore, hereinafter, the data held by the latch 93 will be referred to as zero cross interval data.

【0022】書込制御部94は、微分回路90からの出
力パルスが与えられる毎に、ラッチ93内の零クロス間
隔データを順次読み出し、一定範囲内の零クロス間隔デ
ータが所定値以上(タイマ9のカウント値が大)のとき
はリミットを設けてRAM10に書込み、また、所定値
未満(タイマ9のカウント値が小)のときはリミットを
設けてRAM10への書込みを行わず廃棄する。このよ
うに一定範囲内の零クロス間隔データのみをRAM10
へ書込むようにしたのは、音声信号の零クロス点の時間
間隔として妥当でない零クロス間隔データが演算に使用
され、誤ったピッチ周期が演算されてしまうのを防止す
るためである。
Each time the output pulse from the differentiating circuit 90 is applied, the write control unit 94 sequentially reads the zero-cross interval data in the latch 93, and the zero-cross interval data within a certain range is equal to or greater than a predetermined value (timer 9). When the count value is large, a limit is provided and the data is written into the RAM 10. When the count value is smaller than a predetermined value (the count value of the timer 9 is small), a limit is provided and the data is not written into the RAM 10 and discarded. As described above, only the zero-cross interval data within a certain range is stored in the RAM 10.
The reason why the data is written in is to prevent the use of zero-crossing interval data that is not appropriate as the time interval of the zero-crossing point of the audio signal in the calculation, thereby preventing an erroneous pitch period from being calculated.

【0023】図1におけるピッチ演算部11は、RAM
10に蓄積された零クロス間隔データを参照することに
より、デジタル音声信号およびデジタルお手本信号の各
々のピッチ周期を演算する。
The pitch calculation unit 11 in FIG.
The pitch cycle of each of the digital audio signal and the digital sample signal is calculated by referring to the zero-crossing interval data accumulated in 10.

【0024】ここで、デジタル音声信号等が正弦波であ
るとすると、1周期分の正弦波の始点と終点において零
レベル線とクロスする他、これらの零クロス点の中間に
おいて1回だけ零レベル線とクロスする。従って、連続
した2個の零クロス間隔データを加算することによりピ
ッチ周期を求めることができる。
Here, assuming that a digital audio signal or the like is a sine wave, it crosses the zero level line at the start point and the end point of one cycle of the sine wave, and only once at the intermediate point between these zero cross points. Cross with line. Therefore, the pitch period can be obtained by adding two consecutive zero-cross interval data.

【0025】しかしながら、人間の音声波形を表したデ
ジタル音声信号等は、多くの倍音成分を含んでいるた
め、1ピッチ周期分の波形がそのピッチ周期の始点と終
点の間に3個以上の零クロス点を含んでいる場合があ
り、かかる場合には連続した2個の零クロス間隔データ
を加算しても正しいピッチ周期が得られない。
However, since a digital audio signal or the like representing a human audio waveform contains many harmonic components, a waveform for one pitch period has three or more zeros between the start point and the end point of the pitch period. A cross point may be included. In such a case, a correct pitch period cannot be obtained even if two consecutive zero cross interval data are added.

【0026】そこで、本実施形態においては、複数種類
の整数nの各々について、1ピッチ周期が2n個の零ク
ロス間隔データの和に相当する長さを有するものと仮定
する。そして、各々の仮定の下でピッチ周期を求め、1
ピッチ周期内の各零クロス点の発生タイミングが各ピッ
チ周期間でどの程度一致しているかを求める。なお、こ
の零クロス点の発生タイミングの一致の程度の検出の詳
細については後述する。そして、この一致の程度が最も
高いピッチ周期を真のピッチ周期として選択する。これ
は、短い時間内であれば大きな波形の変化は生じないと
いう音声信号の性質を前提としたものである。
Therefore, in the present embodiment, it is assumed that one pitch period has a length corresponding to the sum of 2n zero-crossing interval data for each of a plurality of types of integers n. Then, a pitch period is obtained under each assumption, and 1
The degree to which the occurrence timing of each zero crossing point in the pitch cycle matches between the pitch cycles is determined. The details of the detection of the degree of coincidence of the occurrence timing of the zero cross point will be described later. Then, the pitch cycle having the highest degree of coincidence is selected as the true pitch cycle. This is based on the property of the audio signal that a large waveform change does not occur within a short time.

【0027】次に、図1において、12はレベル検出部
であり、A/D変換器4によって出力されたデジタル音
声信号およびボーカル抽出部2によって出力されたデジ
タルお手本信号の各々のレベルを検出し、各レベルを表
す信号を出力する。
Next, in FIG. 1, reference numeral 12 denotes a level detector, which detects the levels of the digital audio signal output by the A / D converter 4 and the digital sample signal output by the vocal extractor 2. , And outputs a signal representing each level.

【0028】13は採点部であり、ピッチ演算部11に
よって求められたデジタル音声信号およびデジタルお手
本信号の各々のピッチ周期のずれと、レベル検出部12
によって求められた両信号レベルのずれを総合評価し、
歌唱者の歌を採点する。この採点結果は表示部14に表
示される。
Numeral 13 denotes a scoring unit, which shifts the pitch cycle of each of the digital audio signal and the digital sample signal obtained by the pitch calculator 11 and the level detector 12.
Comprehensively evaluate the difference between both signal levels obtained by
Score the singer's song. This scoring result is displayed on the display unit 14.

【0029】B.実施形態の動作 以下、本実施形態の動作を説明する。歌唱者によって選
曲が行われると、その曲に対応したCD1からデジタル
音楽信号が順次再生される。そして、ボーカル抽出部2
により、デジタル音楽信号からデジタルお手本信号が抽
出され、DC除去部5およびレベル検出部12へ出力さ
れる。一方、CD1の再生により歌唱者が歌唱を開始
し、その歌声がマイクロホン3によって採取され、アナ
ログ音声信号として出力される。このアナログ音声信号
は、A/D変換器4を介すことにより、デジタル音声信
号に変換され、DC除去部5およびレベル検出部12へ
出力される。
B. Operation of Embodiment Hereinafter, the operation of this embodiment will be described. When a singer selects a song, digital music signals are sequentially reproduced from the CD 1 corresponding to the song. And the vocal extraction unit 2
Thus, a digital sample signal is extracted from the digital music signal, and is output to the DC removing unit 5 and the level detecting unit 12. On the other hand, the singer starts singing by playing the CD1, and the singing voice is collected by the microphone 3 and output as an analog audio signal. The analog audio signal is converted to a digital audio signal via the A / D converter 4 and output to the DC removing unit 5 and the level detecting unit 12.

【0030】デジタル音声信号およびデジタルお手本信
号は、DC除去部5およびLPF6を順次介すことによ
り、不要な周波数帯域の信号が除去され、人の声の周波
数帯域内の成分のみからなる波形を表すデジタル信号と
なって4倍オーバーサンプリング部7へ各々出力され
る。
The digital audio signal and the digital sample signal sequentially pass through the DC removing unit 5 and the LPF 6 to remove a signal in an unnecessary frequency band, and represent a waveform composed of only components in the frequency band of a human voice. The signals are output to the four-times oversampling unit 7 as digital signals.

【0031】そして、デジタル音声信号およびデジタル
お手本信号は、4倍オーバーサンプリング部7により、
各々時間軸上において補間され、4倍のサンプリング周
波数の信号に変換されて出力され、2値化部8によって
2値信号に変換される。
The digital audio signal and the digital sample signal are converted by the 4 × oversampling unit 7
Each is interpolated on the time axis, converted into a signal having a quadruple sampling frequency, output, and converted into a binary signal by the binarization unit 8.

【0032】図6はこの4倍オーバーサンプリング部7
の動作を例示したものである。図6(a)において、水
平方向の直線は零レベル線である。また、正弦波状の信
号波形に沿って○印のプロットが示されているが、後者
のプロットはデジタル音声信号(デジタルお手本信号)
を構成する個々の原サンプルを表しており、前者はこれ
らの原サンプルの母体である本来の信号波形を表してい
る。また、各原サンプルを表す○印のプロットの間に
は、3個の×印のプロットが介挿されているが、これら
は4倍オーバーサンプリング部7によって求められた補
間サンプルを各々表している。
FIG. 6 shows the quadruple oversampling unit 7.
Is an example of the operation. In FIG. 6A, a horizontal straight line is a zero level line. A plot of a circle is shown along a sinusoidal signal waveform. The latter plot is a digital audio signal (digital sample signal).
, And the former represents the original signal waveform which is the base of these original samples. In addition, three plots of x are interposed between plots of ○ representing each original sample, and these plots respectively represent the interpolated samples obtained by the quadruple oversampling unit 7. .

【0033】図6(b)は、4倍オーバーサンプリング
を行わず、原サンプル(○印)のみを2値化部8に与え
た場合に得られる2値信号を示しており、図6(c)は
4倍オーバーサンプリングを行い、原サンプル(○印)
および補間サンプル(×印)を2値化部8に与えた場合
に得られる2値信号を示している。なお、これらの図
は、説明の便宜のため、デジタル音声信号(デジタルお
手本信号)が2値化部8のマスキング帯よりも小さなレ
ベルの振動を含んでいない場合の例を示している。
FIG. 6 (b) shows a binary signal obtained when only the original sample (marked by ○) is given to the binarizing section 8 without performing 4-fold oversampling. ): 4 times oversampling, original sample (○)
2 shows a binary signal obtained when an interpolation sample (marked by x) is given to the binarization unit 8. Note that, for convenience of description, these figures show examples in which the digital audio signal (digital sample signal) does not include vibration at a level smaller than the masking band of the binarization unit 8.

【0034】ここで、デジタル音声信号等は信号波形と
無関係に一定のサンプリング周期毎にサンプリングされ
たものである。従って、デジタル音声信号等が同一波形
を繰り返すものである場合に、図6(a)に示すよう
に、いずれのタイミングの瞬時値がサンプリングされる
かは各波形により区々になる。このため、サンプリング
周期が粗いと、図6(b)に示すように、ピッチ周期が
切り換わると同一波形であるにも拘わらず異なった波形
の2値信号が得られてしまう場合がある。しかしなが
ら、本実施形態のようにデジタル音声信号等の4倍オー
バーサンプリングを行った後で2値化を行う場合には、
図6(c)に示すように本来の零クロス点に近いタイミ
ングで反転する2値信号が得られ、図6(b)に示した
ような不具合は防止される。
Here, the digital audio signal or the like is sampled at a constant sampling cycle regardless of the signal waveform. Therefore, when the digital audio signal or the like repeats the same waveform, as shown in FIG. 6A, the instantaneous value at which timing is sampled varies depending on each waveform. For this reason, if the sampling period is coarse, as shown in FIG. 6B, when the pitch period is switched, a binary signal having a different waveform may be obtained despite the same waveform. However, when binarization is performed after performing 4 times oversampling of a digital audio signal or the like as in the present embodiment,
As shown in FIG. 6C, a binary signal which is inverted at a timing close to the original zero cross point is obtained, and the problem shown in FIG. 6B is prevented.

【0035】図7(a)〜(d)は2値化部8の動作を
例示したものである。まず、図7(a)において正弦波
状の信号波形は4倍オーバーサンプリング部7から出力
されるデジタル音声信号(デジタルお手本信号)を表し
ており、水平線は零レベル線を表している。図7(b)
は図3におけるサンプルホールド部83の動作を示すも
のである。この図に示すように、サンプルホールド部8
3は、入力信号たるデジタル音声信号(デジタルお手本
信号)が零レベル±Δのマスキング帯の外側にある場合
にはサンプル状態とされ(同図において“S”と表
記)、零レベル±Δのマスキング帯の内側にある場合に
はホールド状態とされる(同図において“H”と表記)
される。このようなサンプルホールド部83の制御が行
われる結果、比較部84へ入力される信号波形は図7
(c)に例示するものとなり、比較部84から得られる
2値信号は図7(d)に例示するものとなる。このよう
にデジタル音声信号(デジタルお手本信号)が零レベル
±Δのマスキング帯を横切って変化する場合はマスキン
グ帯を横切り終えた時点で2値信号が反転することとな
る。また、仮にデジタル音声信号(デジタルお手本信
号)に±Δ以下の振幅の微小な振動部分を含んでいたと
しても、デジタル音声信号(デジタルお手本信号)が零
レベル±Δのマスキング帯内にある場合にはサンプルホ
ールド部83が前値保持動作を行うため、振動部分にお
いて2値信号が反転することはない。
FIGS. 7A to 7D exemplify the operation of the binarizing section 8. FIG. First, in FIG. 7A, a sinusoidal signal waveform represents a digital audio signal (digital sample signal) output from the 4 × oversampling unit 7, and a horizontal line represents a zero level line. FIG. 7 (b)
Shows the operation of the sample hold unit 83 in FIG. As shown in FIG.
Reference numeral 3 denotes a sample state when the digital audio signal (digital sample signal) as an input signal is outside the masking band of zero level ± Δ (denoted by “S” in the figure), and masking of zero level ± Δ. If it is inside the band, it will be in the hold state (indicated as "H" in the figure)
Is done. As a result of such control of the sample and hold unit 83, the signal waveform input to the comparison unit 84 is as shown in FIG.
7C, and the binary signal obtained from the comparing unit 84 is as shown in FIG. 7D. As described above, when the digital audio signal (digital sample signal) changes across the masking band of zero level ± Δ, the binary signal is inverted when the crossing of the masking band is completed. Even if the digital audio signal (digital sample signal) includes a minute vibration portion having an amplitude of ± Δ or less, the digital audio signal (digital sample signal) is within the masking band of zero level ± Δ. Since the sample hold unit 83 performs the previous value holding operation, the binary signal is not inverted in the vibration part.

【0036】本実施形態においては、零クロス間隔を使
用してピッチ周期を演算するため、1ピッチ周期相当の
入力デジタル信号波形についてあまりの多くの零クロス
間隔が検出されてしまうと、ピッチ周期の演算の負担が
大きくなってしまう。しかしながら、本実施形態におい
ては、上記のようにマスキング帯を有する2値化部8に
よって2値信号を生成しているので、入力デジタル信号
中、ピッチ周期の演算にとって重要でない零レベル近傍
の微動が無視され、“0”/“1”反転箇所を必要以上
に多く含まない2値信号が得られ、ピッチ周期の演算に
とって適度な数の零クロス間隔を検出することが可能と
なる。
In the present embodiment, the pitch period is calculated using the zero-cross interval. Therefore, if too many zero-cross intervals are detected for the input digital signal waveform corresponding to one pitch period, the pitch period is calculated. The computational burden increases. However, in the present embodiment, since the binary signal is generated by the binarizing unit 8 having the masking band as described above, the fine movement near zero level which is not important for the calculation of the pitch period in the input digital signal is generated. A binary signal that is ignored and does not include the “0” / “1” inversion point more than necessary is obtained, and it becomes possible to detect an appropriate number of zero-cross intervals for the calculation of the pitch period.

【0037】以上のようにデジタル音声信号およびデジ
タルお手本信号の各々に基づいて2値信号が生成され
る。そして、各2値信号毎に、“1”/“0”反転が生
じる時間間隔がタイマ9によって順次計時され、その計
時結果たる零クロス間隔データが図5に示すラッチ93
に順次保持される。このようにしてラッチ93に順次保
持される零クロス間隔データが、書込制御部94による
制御の下、RAM10に順次書込まれる。すなわち、書
込制御部94は、2値信号の反転によって微分回路90
からパルスが出力されるのに応答し、図8にフローを示
す書込制御ルーチンを実行する。まず、書込制御部94
は、ラッチ93から零クロス間隔データtを取り込み
(ステップS1)、この零クロス間隔データtが下限値
「8」以上か否かを判断する。この判断結果が「NO」
の場合は零クロス間隔データtの書込みを行うことなく
ルーチンを終了する。ステップS2の判断結果が「YE
S」の場合はステップS3に進み、零クロス間隔データ
tが上限値「8192」より大きいか否かを判断する。
この判断結果が「NO」の場合は零クロス間隔データt
をRAM10へ書込み(ステップS4)、ルーチンを終
了する。一方、ステップS3の判断結果が「YES」の
場合は、取り込んだ零クロス間隔データtの代りに「8
192」をRAM10に書込み(ステップS5)、ルー
チンを終了する。以上の制御により、「8」〜「819
2」の範囲内の零クロス間隔データのみがRAM10へ
書込まれるため、音声信号の零クロス点の時間間隔とし
て妥当でない零クロス間隔データが演算に使用され、誤
ったピッチ周期が演算されてしまうのを防止することが
できる。
As described above, a binary signal is generated based on each of the digital audio signal and the digital sample signal. Then, for each binary signal, the time interval at which "1" / "0" inversion occurs is sequentially timed by the timer 9, and the zero-crossing interval data as the timed result is stored in the latch 93 shown in FIG.
Are sequentially held. The zero-cross interval data sequentially held in the latch 93 in this manner is sequentially written into the RAM 10 under the control of the write control unit 94. That is, the write control unit 94 operates the differentiating circuit 90 by inverting the binary signal.
In response to the output of the pulse from, a write control routine whose flow is shown in FIG. 8 is executed. First, the write control unit 94
Fetches the zero-cross interval data t from the latch 93 (step S1), and determines whether or not the zero-cross interval data t is equal to or larger than a lower limit value “8”. If the result of this determination is "NO"
In this case, the routine ends without writing the zero cross interval data t. If the determination result of step S2 is "YE
In the case of "S", the process proceeds to step S3, and it is determined whether or not the zero cross interval data t is larger than the upper limit value "8192".
If the result of this determination is "NO", the zero cross interval data t
Is written into the RAM 10 (step S4), and the routine ends. On the other hand, if the determination result of step S3 is “YES”, “8” is used instead of the acquired zero cross interval data t.
192 "is written in the RAM 10 (step S5), and the routine ends. By the above control, “8” to “819”
Since only the zero-cross interval data within the range of "2" is written into the RAM 10, the zero-cross interval data that is not appropriate as the time interval of the zero-cross point of the audio signal is used for the calculation, and an erroneous pitch period is calculated. Can be prevented.

【0038】このようにしてRAM10に蓄積される零
クロス間隔データがピッチ演算部11によって参照さ
れ、デジタル音声信号およびデジタルお手本信号の各々
のピッチ周期が求められる。ここで、図9を参照し、デ
ジタル音声信号のピッチ周期の算出処理を例にその概要
を説明する。図9(a)に例示するようなデジタル音声
信号が2値化部8に与えられたとすると、現時点までに
発生された零クロス間隔データt1,t2,…がRAM1
0内に蓄積されている。ピッチ演算部11は、これらの
零クロス間隔データt1,t2,…とデジタル音声信号の
ピッチ周期との間の関係について以下の4通りの仮定を
設け、各々の妥当性を検討するという手順に従ってピッ
チ周期を求める。
The zero-crossing interval data stored in the RAM 10 is referred to by the pitch calculator 11 to determine the pitch periods of the digital audio signal and the digital sample signal. Here, with reference to FIG. 9, an outline of the process of calculating the pitch cycle of the digital audio signal will be described as an example. Assuming that a digital audio signal as illustrated in FIG. 9A is given to the binarizing unit 8, the zero-cross interval data t 1 , t 2 ,.
It is stored in 0. The pitch calculation unit 11 makes the following four assumptions regarding the relationship between the zero-cross interval data t 1 , t 2 ,... And the pitch period of the digital audio signal, and examines the validity of each. The pitch period is obtained according to

【0039】仮定1 デジタル音声信号のピッチ周期は、2個の零クロス間隔
データt1,t2の和に相当する長さT1を有する。すな
わち、図9(b1)に示す時間T11,T12,…がデジタ
ル音声信号のピッチ周期である。 仮定2 デジタル音声信号のピッチ周期は、4個の零クロス間隔
データt1〜t4の和に相当する長さT2を有する。すな
わち、図9(b2)に示す時間T21,T22,…がデジタ
ル音声信号のピッチ周期である。 仮定3 デジタル音声信号のピッチ周期は、6個の零クロス間隔
データt1〜t6の和に相当する長さT3を有する。すな
わち、図9(b3)に示す時間T31,T32,…がデジタ
ル音声信号のピッチ周期である。 仮定4 デジタル音声信号のピッチ周期は、8個の零クロス間隔
データt1〜t8の和に相当する長さT4を有する。すな
わち、図9(b4)に示す時間T41,T42,…がデジタ
ル音声信号のピッチ周期である。
Assumption 1 The pitch period of the digital audio signal has a length T 1 corresponding to the sum of two zero-cross interval data t 1 and t 2 . That is, the times T 11 , T 12 ,... Shown in FIG. 9 (b1) are the pitch periods of the digital audio signal. Pitch period hypotheses 2 digital audio signal has a length T 2 corresponding to the sum of the four zero-cross interval data t 1 ~t 4. That is, the time T 21, T 22 shown in FIG. 9 (b2), ... is the pitch period of the digital audio signal. The pitch period of the hypothetical 3 digital audio signal has a length T 3 corresponding to the six zero sum of cross interval data t 1 ~t 6. That is, the times T 31 , T 32 ,... Shown in FIG. 9 (b3) are the pitch periods of the digital audio signal. Pitch period hypotheses 4 digital audio signal has a length T 4 corresponding to the sum of the eight zero cross interval data t 1 ~t 8. That is, the times T 41 , T 42 ,... Shown in FIG. 9B4 are the pitch periods of the digital audio signal.

【0040】上記各仮定の妥当性の検討およびこの検討
結果に基づくピッチ周期の算出は図10に示すフローに
従って実行される。まず、ピッチ演算部11は、上記仮
定1を前提とした場合のデジタル音声信号の波形の再現
率CR1を算出する(ステップS101)。この再現率
は、上記各仮定に従った場合に各ピッチ周期に対応した
各デジタル音声信号波形がどの程度一致しているかを表
す数値であり、本実施形態においては、零クロス間隔デ
ータt1,t2,…に基づいて算出する。
The examination of the validity of each of the above assumptions and the calculation of the pitch period based on the examination result are executed according to the flow shown in FIG. First, the pitch calculator 11 calculates the recall rate CR1 of the waveform of the digital audio signal on the assumption of the assumption 1 (step S101). This recall is a numerical value indicating how much each digital audio signal waveform corresponding to each pitch period matches under the above assumptions. In the present embodiment, the zero cross interval data t 1 , Calculated based on t 2 ,.

【0041】ここで、図11のフローチャートを参照
し、ステップS101において行われる再現率CR1を
求める演算の手順について説明する。まず、ステップS
201に進み、カウンタCNTおよび制御変数iに対
し、初期値として「0」および「1」を各々設定する。
Here, the procedure for calculating the recall rate CR1 performed in step S101 will be described with reference to the flowchart in FIG. First, step S
In step 201, "0" and "1" are respectively set as initial values for the counter CNT and the control variable i.

【0042】次にステップS202に進み、制御変数i
を「2」だけ増加させ、i=「3」とする。次にステッ
プS203に進み、0.9t1−ti<0なる条件を満た
すか否か、すなわち、零クロス間隔データt3が零クロ
ス間隔データt1の90%よりも大きいか否かを判断す
る。そして、この判断結果が「YES」の場合はカウン
タCNTを「1」だけ増加させ(ステップS204)、
ステップS205へ進み、「NO」の場合はステップS
204を介すことなくステップS205に進む。次にス
テップS205に進むと、−1.1t1+ti<0なる条
件を満たすか否か、すなわち、零クロス間隔データt3
が零クロス間隔データt1の110%よりも小さいか否
かを判断する。そして、この判断結果が「YES」の場
合はカウンタCNTを「1」だけ増加させ(ステップS
206)、ステップS207へ進み、「NO」の場合は
ステップS206を介すことなくステップS207に進
む。
Next, the process proceeds to step S202, where the control variable i
Is increased by “2”, and i = “3”. Next, the process proceeds to step S203, and it is determined whether or not the condition of 0.9t 1 −t i <0 is satisfied, that is, whether or not the zero cross interval data t 3 is larger than 90% of the zero cross interval data t 1. I do. If the result of this determination is "YES", the counter CNT is increased by "1" (step S204),
Proceed to step S205, and if “NO”, step S205
The process proceeds to step S205 without the intervention of 204. Then proceeds to step S205, -1.1t 1 + t i < 0 satisfies the condition or not made, i.e., the zero cross interval data t 3
Is smaller than 110% of the zero cross interval data t 1 . If the result of this determination is “YES”, the counter CNT is increased by “1” (step S
206), and the process proceeds to step S207. If “NO”, the process proceeds to step S207 without passing through step S206.

【0043】次にステップS207に進むと、制御変数
iが「7」となったか否かを判断し、この判断結果が
「NO」の場合はステップS202に戻る。以後、2回
に亙ってステップS202〜S207が実行され、零ク
ロス間隔データt5およびt7の各々について上記ステッ
プS203およびS205の判断が行われ、各零クロス
間隔データが零クロス間隔データt1の90%より大き
い場合または110%よりも小さい場合にカウンタCN
Tのインクリメントが行われる(ステップS204,S
206)。
Next, in step S207, it is determined whether or not the control variable i has become "7". If the result of this determination is "NO", the flow returns to step S202. Thereafter, step S202~S207 over twice is performed, zero for each of the cross interval data t 5 and t 7 the determination in steps S203 and S205 are performed, the zero-cross interval data the zero cross interval data t The counter CN when it is larger than 90% of 1 or smaller than 110%.
T is incremented (steps S204, S204).
206).

【0044】そして、i=「7」となると、ステップS
207の判断結果が「YES」となってステップS20
8へ進み、制御変数iに「2」を設定する。
When i = “7”, step S
The result of determination in step 207 is “YES”, and step S20
Proceeding to step 8, the control variable i is set to "2".

【0045】次いでステップS209に進み、制御変数
iを「2」だけ増加させ、i=「4」とする。次にステ
ップS210に進み、0.9t2−ti<0なる条件を満
たすか否か、すなわち、零クロス間隔データt4が零ク
ロス間隔データt2の90%よりも大きいか否かを判断
する。そして、この判断結果が「YES」の場合はカウ
ンタCNTを「1」だけ増加させ(ステップS21
1)、ステップS212へ進み、「NO」の場合はステ
ップS211を介すことなくステップS212に進む。
次にステップS212に進むと、−1.1t2+ti<0
なる条件を満たすか否か、すなわち、零クロス間隔デー
タt4が零クロス間隔データt2の110%よりも小さい
か否かを判断する。そして、この判断結果が「YES」
の場合はカウンタCNTを「1」だけ増加させ(ステッ
プS213)、ステップS214へ進み、「NO」の場
合にはステップS213を介すことなくステップS21
4に進む。
Next, proceeding to step S209, the control variable i is increased by "2", and i is set to "4". Next, the process proceeds to step S210, where it is determined whether or not the condition 0.9t 2 −t i <0 is satisfied, that is, whether or not the zero cross interval data t 4 is greater than 90% of the zero cross interval data t 2. I do. If the result of this determination is "YES", the counter CNT is increased by "1" (step S21).
1) The process proceeds to step S212. If “NO”, the process proceeds to step S212 without going through step S211.
Next, when the process proceeds to step S212, -1.1t 2 + t i <0
Satisfying whether made, i.e., to determine the zero or cross interval data t 4 is less than 110% of the zero-cross interval data t 2. If the result of this determination is "YES"
In the case of, the counter CNT is increased by “1” (step S213), and the process proceeds to step S214. In the case of “NO”, the process proceeds to step S21 without going through step S213
Proceed to 4.

【0046】次にステップS214に進むと、制御変数
iが「8」となったか否かを判断し、この判断結果が
「NO」の場合はステップS209に戻る。以後、2回
に亙ってステップS209〜S214が実行され、零ク
ロス間隔データt6およびt8の各々について上記ステッ
プS210およびS212の判断が行われ、各零クロス
間隔データが零クロス間隔データt2の90%より大き
い場合または110%よりも小さい場合にカウンタCN
Tのインクリメントが行われる(ステップS211,S
213)。
Next, in step S214, it is determined whether or not the control variable i has become "8". If the result of this determination is "NO", the flow returns to step S209. Thereafter, step S209~S214 over twice is performed, zero for each of the cross interval data t 6 and t 8 determines in step S210 and S212 are performed, the zero-cross interval data the zero cross interval data t If it is larger than 90% of 2 or smaller than 110%, the counter CN
T is incremented (steps S211, S2).
213).

【0047】そして、i=「8」となると、ステップS
214の判断結果が「YES」となってステップS21
5へ進み、カウンタCNTの値を零クロス間隔データに
ついての判断の回数によって正規化し、その結果を再現
率CR1とする。このフローの場合、判断は12回行わ
れるので、CNT/12が再現率CR1とされる。
When i = 8, step S
The result of the determination at 214 is “YES”, and step S21
Proceeding to 5, the value of the counter CNT is normalized by the number of determinations on the zero-cross interval data, and the result is set as the recall rate CR1. In the case of this flow, since the determination is performed 12 times, CNT / 12 is set as the recall rate CR1.

【0048】ここで、ピッチ周期の長さを2個の零クロ
ス間隔データの和T1とした仮定が正しく、かつ、ピッ
チ周期が4回切り換わってもデジタル音声信号の波形が
変化しない理想状態においては、t1=t3=t5=t7
つt2=t4=t6=t8となる。従って、この場合に上記
処理によって得られる再現率CR1は100%となる。
また、各零クロス間隔データに多少の誤差があっても、
3,t5およびt7がt1±10%の範囲内に収ってお
り、かつ、t4,t6およびt8がt2±10%の範囲内に
収っている場合には再現率CR1は100%となる。一
方、上記仮定が誤りであるとすると、ピッチ周期が切り
換わることによって相互に対応する零クロス間隔データ
間に大きな差が生じることとなる。このため、上記ステ
ップS203等において否定的な判断がされ易くなり、
そのような否定的な判断のなされる回数の増加に応じて
再現率CR1が低下することとなる。
Here, the assumption that the length of the pitch period is assumed to be the sum T 1 of two zero-cross interval data is correct, and that the waveform of the digital audio signal does not change even if the pitch period is switched four times. , T 1 = t 3 = t 5 = t 7 and t 2 = t 4 = t 6 = t 8 . Therefore, in this case, the recall rate CR1 obtained by the above processing is 100%.
Also, even if each zero cross interval data has some errors,
If t 3 , t 5 and t 7 fall within the range of t 1 ± 10%, and t 4 , t 6 and t 8 fall within the range of t 2 ± 10%, The recall rate CR1 becomes 100%. On the other hand, if the above assumption is erroneous, a large difference occurs between the mutually corresponding zero-cross interval data due to the switching of the pitch period. For this reason, it is easy to make a negative determination in step S203 and the like, and
As the number of times such a negative judgment is made increases, the recall ratio CR1 decreases.

【0049】このようにして再現率CR1の算出が終了
すると、図10のフローに戻ってステップS102に進
み、上記仮定2を前提とした場合のデジタル音声信号の
波形の再現率CR2を算出する。すなわち、ピッチ周期
が4個の零クロス間隔データの和に相当する長さT2
有していると仮定する。そして、第1番目のピッチ周期
に対応した零クロス間隔データt1〜t4を各々基準と
し、第2番目,第3番目および第4番目の各ピッチ周期
に対応した零クロス間隔データt5〜t8,t9〜t12
よびt13〜t15の各々が基準と所定の誤差範囲内で一致
しているか否かを判断する。そして、肯定的な判断結果
の得られた回数をカウントし、全判断回数によって正規
化し、再現率CR2を求める。
When the calculation of the recall rate CR1 is completed in this manner, the flow returns to the flow of FIG. 10 and proceeds to step S102, where the recall rate CR2 of the waveform of the digital audio signal under the assumption 2 is calculated. That is, it is assumed to have a length T 2 in which the pitch period corresponds to the sum of the four zero-cross interval data. Then, based on the zero-cross interval data t 1 to t 4 corresponding to the first pitch period, respectively, the zero-cross interval data t 5 to t 5 corresponding to the second, third, and fourth pitch periods, respectively. t 8, t 9 each ~t 12 and t 13 ~t 15 determines whether or not the match in the reference and the predetermined error range. Then, the number of times a positive determination result is obtained is counted, and normalized by the total number of determinations, thereby obtaining a recall rate CR2.

【0050】ピッチ周期の長さを4個の零クロス間隔デ
ータの和とした仮定が正しく、かつ、ピッチ周期が4回
切り換わってもデジタル音声信号の波形が変化しない理
想状態においては、 t1=t5=t9=t132=t6=t10=t143=t7=t11=t154=t8=t12=t16 なる条件を全て満たし、再現率CR2は100%とな
る。また、各零クロス間隔データに多少の誤差があって
も、±10%の範囲内に収っている場合には再現率CR
2は100%となる。ピッチ周期が切り換わることによ
って基準(すなわち、第1番目のピッチ周期に対応した
零クロス間隔データ)から大きくずれた零クロス間隔デ
ータが生じる場合には、その個数に応じて再現率CR2
が低下することとなる。
In an ideal state where the assumption that the pitch period length is the sum of four zero-cross interval data is correct and the digital audio signal waveform does not change even if the pitch period is switched four times, t 1 = T 5 = t 9 = t 13 t 2 = t 6 = t 10 = t 14 t 3 = t 7 = t 11 = t 15 t 4 = t 8 = t 12 = t 16 CR2 becomes 100%. Even if there is some error in each zero-cross interval data, if it falls within the range of ± 10%, the recall rate CR
2 becomes 100%. When the switching of the pitch cycle produces zero cross interval data greatly deviating from the reference (that is, the zero cross interval data corresponding to the first pitch cycle), the recall rate CR2 depends on the number of the zero cross interval data.
Will decrease.

【0051】次にステップS103に進み、上記仮定3
を前提とした場合のデジタル音声信号の波形の再現率C
R3を算出する。すなわち、ピッチ周期が6個の零クロ
ス間隔データの和に相当する長さT3を有していると仮
定する。そして、第1番目のピッチ周期に対応した零ク
ロス間隔データt1〜t6を各々基準とし、第2番目,第
3番目および第4番目の各ピッチ周期に対応した零クロ
ス間隔データt7〜t1 2,t13〜t18およびt19〜t24
の各々が基準と所定の誤差範囲内で一致しているか否か
を判断する。そして、肯定的な判断結果の得られた回数
をカウントし、全判断回数によって正規化し、再現率C
R3を求める。
Next, the process proceeds to step S103, where the above assumption 3
Reproducibility C of the digital audio signal waveform on the assumption of
Calculate R3. That is, it is assumed to have a length T 3 of the pitch period corresponds to the sum of the six zero cross interval data. Then, the zero cross interval data t 1 ~t 6 corresponding to the first pitch period, respectively as a reference, the second, third and fourth zero corresponding to the pitch period of the cross interval data t 7 ~ t 1 2, t 13 ~t 18 and t 19 ~t 24
Are determined to be equal to the reference within a predetermined error range. Then, the number of times a positive determination result is obtained is counted, normalized by the total number of determinations, and the recall C
Find R3.

【0052】この再現率CR3は、 t1=t7=t13=t192=t8=t14=t203=t9=t15=t214=t10=t16=t225=t11=t17=t236=t12=t18=t24 なる条件を全て満たす場合あるいは各零クロス間隔デー
タに多少の誤差があっても±10%の範囲内の誤差であ
る場合には再現率CR3は100%となる。また、誤差
の大きな零クロス間隔データが生じる場合にはその個数
に応じて再現率CR3が低下する。
The recall rate CR3 is calculated as follows: t 1 = t 7 = t 13 = t 19 t 2 = t 8 = t 14 = t 20 t 3 = t 9 = t 15 = t 21 t 4 = t 10 = t 16 = T 22 t 5 = t 11 = t 17 = t 23 t 6 = t 12 = t 18 = t 24 When all the conditions are satisfied or each zero cross interval data has some error, the range is ± 10%. If the error is within the range, the recall rate CR3 becomes 100%. Further, when zero-cross interval data having a large error occurs, the recall rate CR3 decreases in accordance with the number of the data.

【0053】次にS104に進み、上記仮定4を前提と
した場合のデジタル音声信号の波形の再現率CR3を算
出する。すなわち、ピッチ周期が8個の零クロス間隔デ
ータの和に相当する長さT4を有していると仮定する。
そして、第1番目のピッチ周期に対応した零クロス間隔
データt1〜t8を各々基準とし、第2番目および第3番
目の各ピッチ周期に対応した零クロス間隔データt9
16およびt17〜t24の各々が基準と所定の誤差範囲内
で一致しているか否かを判断する。そして、肯定的な判
断結果の得られた回数をカウントし、全判断回数によっ
て正規化し、再現率CR4を求める。
Next, the process proceeds to S104, in which the reproduction rate CR3 of the waveform of the digital audio signal on the assumption of the above assumption 4 is calculated. That is, it is assumed to have a length T 4 the pitch period corresponds to the sum of eight zero cross interval data.
Then, based on the zero cross interval data t 1 to t 8 corresponding to the first pitch cycle, respectively, the zero cross interval data t 9 to t 9 corresponding to the second and third pitch cycles are respectively used.
Each of t 16 and t 17 ~t 24 determines whether or not the match in the reference and the predetermined error range. Then, the number of times a positive determination result is obtained is counted, and normalized by the total number of determinations, thereby obtaining a recall rate CR4.

【0054】上記ステップS101〜S103までの各
処理においては4個分のピッチ周期を処理対象とした
が、このステップS104においては3個分のピッチ周
期(図9(b4)におけるT41〜T43)を処理対象とし
ている。これは次の理由によるものである。すなわち、
ステップS104においては、ピッチ周期として8個分
の零クロス間隔データに相当する長い時間を仮定してい
る。従って、仮にステップS104において4個分のピ
ッチ周期を処理対象とすると、たとえ仮定4が正しい場
合であっても、4個分のピッチ周期という極めて長時間
に亙ってデジタル音声信号波形が安定していないと再現
率CR4が低下することとなる。しかし、デジタル音声
信号の波形は、ある程度の短時間の間は同一波形を維持
し得るが、ある程度の時間が経つと波形に変化が生じる
ものである。このため、4個分のピッチ周期を処理対象
とした場合には、たとえ仮定4が正しかったとしても、
デジタル音声信号の波形の時間的変化の影響によって不
当に低い再現率CR4が演算されてしまう可能性が高
い。そこで、ステップS104においては、上述の通り
3個分のピッチ周期を処理対象としている。
[0054] In the process up to the step S101~S103 is has been processed the pitch period of the 4 pieces of, T 41 through T 43 in the pitch period corresponding to three in step S104 (FIG. 9 (b4) ) Is to be processed. This is for the following reason. That is,
In step S104, a long period of time corresponding to eight zero-crossing interval data is assumed as the pitch period. Therefore, if it is assumed that four pitch periods are to be processed in step S104, even if assumption 4 is correct, the digital audio signal waveform becomes stable for an extremely long period of four pitch periods. If not, the recall rate CR4 will decrease. However, although the waveform of the digital audio signal can maintain the same waveform for a certain short time, the waveform changes after a certain time. Therefore, if four pitch periods are to be processed, even if assumption 4 is correct,
There is a high possibility that an unduly low recall rate CR4 will be calculated due to the influence of a temporal change in the waveform of the digital audio signal. Thus, in step S104, three pitch periods are to be processed as described above.

【0055】ステップS104において、再現率CR4
は、 t1=t9=t172=t10=t183=t11=t194=t12=t205=t13=t216=t14=t227=t15=t238=t16=t24 なる条件を全て満たす場合あるいは各零クロス間隔デー
タに多少の誤差があっても±10%の範囲内の誤差であ
る場合には再現率CR4は100%となる。また、誤差
の大きな零クロス間隔データが生じる場合にはその個数
に応じて再現率CR4が低下する。
In step S104, the recall rate CR4
Is t 1 = t 9 = t 17 t 2 = t 10 = t 18 t 3 = t 11 = t 19 t 4 = t 12 = t 20 t 5 = t 13 = t 21 t 6 = t 14 = t 22 Reproduced when all the conditions of t 7 = t 15 = t 23 t 8 = t 16 = t 24 are satisfied or when each zero cross interval data has an error within ± 10% even if there is some error. The rate CR4 becomes 100%. Further, when zero-cross interval data having a large error is generated, the recall rate CR4 is reduced according to the number thereof.

【0056】次にステップS105に進み、以上のよう
にして求めた再現率CR1〜CR4に基づき、仮定1〜
4のいずれが妥当であるか否かを判断する。この判断の
詳細なフローを図12に示す。まず、ステップS301
に進み、再現率CR1〜CR4のうちどれが最大である
かを判断する。そして、再現率CR1が最大である場合
は、このCR1が所定の基準値refよりも大きいか否
かを判断し(ステップS302)、この判断結果が「Y
ES」の場合には仮定1に従うこと、すなわち、2個分
の零クロス間隔データの長さT1によりピッチ周期を求
めることとする。他の再現率CR2〜CR4が最大であ
る場合も同様であり、CR2等が所定の基準値refよ
りも大きいか否かを判断し(ステップS303〜S30
5)、この判断結果が「YES」の場合には、各再現率
の算出の前提となった仮定に従い、4個分の零クロス間
隔データの長さT2、6個分の零クロス間隔データの長
さT3あるいは8個分の零クロス間隔データの長さT4
よりピッチ周期を求めることとする。万一、再現率が同
じ場合には、その優先順位は、CR1>CR2>CR3
>CR4(CR1が最優先)である。
Next, the process proceeds to step S105, where assumptions 1 to 4 are obtained based on the recall rates CR1 to CR4 obtained as described above.
4 is determined to be appropriate. FIG. 12 shows a detailed flow of this determination. First, step S301
To determine which of the recall rates CR1 to CR4 is the largest. If the recall rate CR1 is the maximum, it is determined whether or not this CR1 is larger than a predetermined reference value ref (step S302).
To follow the assumption 1 in the case of ES ", i.e., the length T 1 of the 2 pieces of zero crossing interval data and obtaining the pitch period. The same applies to the case where the other recall rates CR2 to CR4 are maximum, and it is determined whether CR2 or the like is larger than a predetermined reference value ref (steps S303 to S30).
5) If the result of this determination is “YES”, the length T 2 of four zero-crossing interval data and the six zero-crossing interval data according to the assumption on which the calculation of each recall is based. and determining the pitch period by the length T 3 or a zero cross interval data of 8 pieces of length T 4 of. If the recall rates are the same, the priority order is CR1>CR2> CR3
> CR4 (CR1 is the highest priority).

【0057】一方、再現率CR1〜CR4のうち最大の
ものが基準値ref以下である場合には、ステップS3
02〜S305のいずれに進んだとしても判断結果が
「NO」となる。この場合、仮定1〜4のいずれが妥当
であるか結論を出すことができず、該当なしという判断
結果となる。
On the other hand, if the largest one of the recall rates CR1 to CR4 is equal to or less than the reference value ref, step S3
No matter which of the steps from 02 to S305, the determination result is “NO”. In this case, it cannot be concluded which of the assumptions 1 to 4 is appropriate, and the result of the determination is that there is no such case.

【0058】以上の判断が終了すると、図10に示すフ
ローに戻り、判断結果に対応したステップへ進む。すな
わち、2個分の零クロス間隔データの長さT1によりピ
ッチ周期を求めることと判断した場合にはステップS1
06に進み、各々2個分の零クロス間隔データからなる
ピッチ周期を4周期分求め(図9(b1)のT11〜T14
に相当)、これらの平均値をデジタル音声信号のピッチ
周期とする。また、4個分の零クロス間隔データの長さ
2によりピッチ周期を求めることと判断した場合には
ステップS107に進み、この判断結果に従ってピッチ
周期を4周期分求め(図9(b2)のT21〜T24に相
当)、これらの平均値をデジタル音声信号のピッチ周期
とする。また、6個分の零クロス間隔データの長さT3
によりピッチ周期を求めることと判断した場合にはステ
ップS108に進み、この判断結果に従ってピッチ周期
を4周期分求め(図9(b3)のT31〜T34に相当)、
これらの平均値をデジタル音声信号のピッチ周期とす
る。そして、8個分の零クロス間隔データの長さT4
よりピッチ周期を求めることと判断した場合にはステッ
プS109に進み、この判断結果に従ってピッチ周期を
3周期分求め(図9(b4)のT41〜T43に相当)、こ
れらの平均値をデジタル音声信号のピッチ周期とする。
When the above judgment is completed, the flow returns to the flow shown in FIG. 10, and proceeds to the step corresponding to the judgment result. That is, if it is determined that the pitch period is to be obtained based on the length T 1 of the two zero-cross interval data, step S1 is performed.
Proceeds to 06, T 11 ~T 14 each corresponding to two zero crossing interval pitch cycle four cycles determined comprising data (FIG. 9 (b1)
), And these average values are used as the pitch period of the digital audio signal. Further, the process proceeds to step S107 when determining that to determine the pitch period by four minutes of the zero cross interval data length T 2, 4 cycles determine the pitch period according to the determination result (FIG. 9 (b2) corresponds to T 21 ~T 24), these average values and the pitch period of the digital audio signal. In addition, the length T 3 of the zero cross interval data for six pieces
Proceeds to step S108 when it is determined that obtaining the pitch period, the pitch period four periods determined according to the determination result (equivalent to T 31 through T 34 in FIG. 9 (b3)), the
The average of these values is used as the pitch period of the digital audio signal. Then, the process proceeds to step S109 when determining that to determine the pitch period of eight length of content of the zero cross interval data T 4, the three cycles determine the pitch period according to the determination result (FIG. 9 (b4) corresponds to T 41 ~T 43), these average values and the pitch period of the digital audio signal.

【0059】以上の処理が終了すると、ステップS10
1へ戻り、同様の処理を繰り返す。このようにして、デ
ジタル音声信号のピッチ周期が連続的に出力される訳で
ある。一方、図12の判断において、「該当なし」との
結論が得られた場合にはピッチ周期の演算は行わず、ピ
ッチ周期の演算を行わなかった旨を示す信号を出力し、
ステップS101に戻る。なお、上記においては、デジ
タル音声信号の場合を例にピッチ周期の演算処理を説明
したが、デジタルお手本信号についても全く同様な処理
によりピッチ周期が演算される。
When the above processing is completed, step S10
1 and the same processing is repeated. Thus, the pitch period of the digital audio signal is output continuously. On the other hand, in the determination of FIG. 12, when the conclusion of “not applicable” is obtained, the calculation of the pitch period is not performed, and a signal indicating that the calculation of the pitch period is not performed is output.
It returns to step S101. In the above description, the pitch period calculation process has been described by taking the case of a digital audio signal as an example. However, the pitch period is also calculated for a digital sample signal by exactly the same process.

【0060】以上のように、本実施形態は、仮定1〜4
のすべてについて再現率を求め、最も高い再現率の得ら
れた仮定を選択し、この選択した仮定に基づくピッチ演
算を当該再現率が許容範囲内である場合に限って実施
し、許容範囲外である場合は実施しないという慎重な手
順を踏むものである。このような慎重な手順を踏むこと
とした理由は次の通りである。
As described above, this embodiment is based on assumptions 1-4.
For all of the above, the recall is determined, the assumption that gives the highest recall is selected, and the pitch calculation based on the selected assumption is performed only when the recall is within the allowable range. It is a careful procedure that does not take place in some cases. The reasons for this careful procedure are as follows.

【0061】a.上記手順以外のものとして、例えば仮
定1〜4に対応した各再現率を順次演算してゆき、許容
範囲内の再現率が得られた時点で演算を終了し、その再
現率の得られた仮定を選択してピッチ周期を求めるよう
な代替案が考えられる。しかしながら、音声波形によっ
ては、例えば仮定1および3に対応した再現率が許容範
囲内にあり、しかも仮定3に対応した再現率の方が仮定
1のものよりも高いという状況の生じることが有り得
る。かかる場合にこの代替案に従うとすると、仮定1を
選択し、誤ったピッチ周期を求めることとなる。仮定の
選択が正しくなされるように許容範囲を狭く設定するこ
とも考えられるが、その場合には「該当なし」と判断さ
れるケースが続出するおそれがある。
A. As a procedure other than the above procedure, for example, the respective recall rates corresponding to assumptions 1 to 4 are sequentially calculated, and when the recall rate within the allowable range is obtained, the calculation is terminated, and the assumption that the recall rate is obtained is obtained. There is an alternative that can be selected to determine the pitch period. However, depending on the audio waveform, for example, a situation may occur in which the recall rates corresponding to assumptions 1 and 3 are within an allowable range, and the recall rate corresponding to assumption 3 is higher than that of assumption 1. If this alternative is followed in such a case, Assumption 1 will be selected and an incorrect pitch period will be determined. It is conceivable to set the allowable range narrow so that the selection of the assumption is correctly performed, but in such a case, there is a possibility that a case determined to be “not applicable” may continue.

【0062】b.また、仮定1〜4に対応した各再現率
をすべて演算し、最大の再現率の得られた仮定を無条件
に採用し、ピッチ周期を求めるという代替案も考えられ
る。しかしながら、いずれの仮定に対応した再現率も一
様に低く、特定の仮定に対応した再現率が僅かに他より
勝っているようなケースが生じる場合が考えられ、この
ような場合に特定の仮定を採用して無理にピッチ周期を
求めたとしても果たして正確なピッチ周期が得られる
か、その保証はない。例えばピッチ周期をデジタル音声
信号の波形が急激に変化した場合等においては、上記仮
定のいずれにおいても再現率が低くなる可能性が高い。
B. Further, an alternative is also conceivable in which all the recall rates corresponding to assumptions 1 to 4 are calculated, and the assumption in which the maximum recall rate is obtained is unconditionally adopted to obtain the pitch period. However, the recall rate corresponding to any of the assumptions is uniformly low, and there may be cases where the recall rate corresponding to a specific assumption is slightly superior to the others. Even if the pitch period is forcibly obtained by adopting, there is no guarantee that an accurate pitch period can be obtained. For example, when the waveform of the digital audio signal suddenly changes in pitch cycle, the recall is likely to be low under any of the above assumptions.

【0063】c.そこで、本実施形態においては、上述
の手順に従ってピッチ周期の演算をすることとし、不適
当なピッチ周期の出力を防止している。
C. Therefore, in the present embodiment, the calculation of the pitch period is performed according to the above-described procedure, and the output of the inappropriate pitch period is prevented.

【0064】以上のようにして求められるデジタル音声
信号およびデジタルお手本信号の各ピッチ周期が採点部
13に順次報告され、この両信号のピッチ周期のずれと
レベル検出部12によって求められた両信号レベルのず
れとの総合評価により、歌唱者の歌が採点され、採点結
果が表示部14に表示される。
The pitch periods of the digital audio signal and the digital sample signal obtained as described above are sequentially reported to the scoring unit 13, and the difference between the pitch periods of the two signals and the two signal levels obtained by the level detection unit 12. The singers' songs are scored by the comprehensive evaluation with the deviation, and the scoring results are displayed on the display unit 14.

【0065】C.本実施形態に係る装置の評価結果 以上説明したピッチ周期検出装置について各部の動作条
件を種々設定し、ピッチ周期の検出時間および検出誤差
の評価を行った。図13〜図16はその結果を示すもの
である。まず、図13は、4倍オーバーサンプリング部
7として直線補間を行う回路を使用し、この回路のオー
バーサンプリング周波数を種々に変化させ、実用域での
ピッチ周期の検出誤差を測定した結果である。この結果
より、4倍オーバーサンプリング程度の補間を行えば実
用域での検出誤差を充分に小さくすることができること
がわかる。次に図14は、ピッチ周期を3周期間の相関
により求めた場合(m=3)と4周期間の相関により求
めた場合(m=4)の各々について、ピッチ周期が検出
されるまでの遅れ時間を入力周波数毎に測定した結果を
示すものである。この実験結果が示すように、m=3ま
たは4程度であれば、検出遅れを問題のない範囲に収め
ることができる。また、図15は、平均化の回数とピッ
チ周期の抽出誤差との関係を示している。また、図16
は、過去何周期(ピッチ周期)分の波形と比較をすれば
正確にピッチ周期を抽出できるかを実験した結果を示す
ものである。この実験結果は、過去2周期程度を比較し
たのでは誤差が多く、過去5周期以上の入力波形を比較
したのでは波形が古過ぎて却ってピッチ周期を誤ってし
まい、結局のところ、過去3〜4周期に亙って入力波形
の比較を行うことが正確なピッチ抽出を行う上で最適で
あることを物語っている。
C. Evaluation Results of Apparatus According to the Present Embodiment The operating conditions of each part of the above-described pitch cycle detection apparatus were set variously, and the pitch cycle detection time and the detection error were evaluated. 13 to 16 show the results. First, FIG. 13 shows the result of using a circuit that performs linear interpolation as the 4 × oversampling unit 7 and changing the oversampling frequency of this circuit in various ways, and measuring the pitch period detection error in a practical range. From this result, it can be understood that the detection error in the practical range can be sufficiently reduced by performing interpolation of about four times oversampling. Next, FIG. 14 shows a case in which the pitch period is detected by a correlation between three periods (m = 3) and a case in which the pitch period is determined by a correlation between four periods (m = 4). It shows the result of measuring the delay time for each input frequency. As shown by the experimental results, when m = about 3 or 4, the detection delay can be kept within a range in which there is no problem. FIG. 15 shows the relationship between the number of times of averaging and the pitch period extraction error. FIG.
Shows the result of an experiment on how many cycles (pitch cycles) in the past can be compared with a waveform to accurately extract a pitch cycle. The results of this experiment show that comparing the past two cycles has many errors, and comparing the input waveforms of the past five or more cycles results in a waveform that is too old and incorrectly changes the pitch cycle. It indicates that comparing input waveforms over four cycles is optimal for accurate pitch extraction.

【0066】D.変形例 (1)上記実施形態においては、1ピッチ周期を構成す
る各零クロス間隔データが各ピッチ周期間でどの程度一
致しているかにより、ピッチ周期を2n個分の零クロス
間隔データの和とした仮定が妥当か否かの判断を行っ
た。この方法の代りに、各nについて、2n個分の零ク
ロス間隔データの和を演算することにより所定個数のピ
ッチ周期を求め、これらのピッチ周期のばらつきが最も
少ないnを選択し、ピッチ周期を選択するようにしても
よい。すなわち、図9(b1)〜(b4)において、T
11〜T14のばらつきが最も小さい場合はT11〜T14の平
均値をピッチ周期とし、T21〜T24のばらつきが最も小
さい場合はT21〜T24の平均値をピッチ周期とし、…と
いう具合にピッチ周期を求める訳である。また、上記実
施形態において開示した零クロス間隔データに基づく判
定方法とこのピッチ周期のばらつきに求める判定方法を
併用し、零クロス間隔データおよびピッチ周期の長さの
ピッチ周期間ばらつきを総合評価し、ピッチ周期を選択
するようにしてもよい。
D. Modifications (1) In the above embodiment, the pitch period is calculated by adding the sum of 2n pieces of zero cross interval data to each other, based on how much each zero cross interval data forming one pitch period matches between each pitch period. A determination was made as to whether the assumptions made were appropriate. Instead of this method, for each n, a predetermined number of pitch periods is obtained by calculating the sum of 2n zero-cross interval data, and n having the smallest variation in these pitch periods is selected. You may make it select. That is, in FIGS. 9 (b1) to 9 (b4), T
11 when the variations of the through T 14 is the smallest and pitch period average value of T 11 through T 14, if the variation of T 21 through T 24 is the smallest and pitch period average value of T 21 through T 24, ... That is, the pitch period is obtained. Further, the determination method based on the zero-cross interval data disclosed in the above embodiment and the determination method for determining the variation of the pitch cycle are used together, and the zero-cross interval data and the pitch cycle length are comprehensively evaluated for the pitch cycle variation, A pitch cycle may be selected.

【0067】(2)上記実施形態において、2値化部8
のマスキング帯の幅Δを固定とした。しかし、零レベル
付近に生じる音声波形の微小な上下動の振幅は、音声波
形全体の振幅に依存するため、適切なΔを決めるのが困
難な場合もある。そこで、デジタル音声信号またはデジ
タルお手本信号の振幅を検出し、この振幅値に所定の係
数を乗じ、その結果をΔとする等の方法により、2値化
部8のマスキング帯の幅Δの制御を行うのが好ましい。 (3)上記実施形態ではデジタル処理によりピッチ周期
を求めたが、零クロス間隔をアナログ音声波形から直接
求め、その結果に基づいてピッチ周期を求めるようにし
てもよい。
(2) In the above embodiment, the binarizing section 8
The width Δ of the masking band was fixed. However, since the amplitude of the minute vertical movement of the voice waveform generated near the zero level depends on the amplitude of the entire voice waveform, it may be difficult to determine an appropriate Δ. Therefore, the amplitude Δ of the digital audio signal or the digital sample signal is detected, the amplitude value is multiplied by a predetermined coefficient, and the result is set as Δ. It is preferred to do so. (3) In the above embodiment, the pitch period is obtained by digital processing. However, the zero crossing interval may be obtained directly from the analog voice waveform, and the pitch period may be obtained based on the result.

【0068】[0068]

【発明の効果】以上説明したように、本発明によれば、
音声波形の連続した零クロス間隔を求め、各種のnにつ
いて、ピッチ周期を2n個分の零クロス間隔データの和
と仮定し、1ピッチ周期を構成する各零クロス間隔デー
タの各ピッチ周期間での一致度あるいは各ピッチ周期の
一致度を求め、最も優れた一致度の得られる仮定を採用
してピッチ周期を求めるようにしたので、音声波形が倍
音成分を含んだ複雑な波形である場合においても、安価
の構成で、高速かつ正確にピッチ周期を求めることがで
きるという効果がある。
As described above, according to the present invention,
The continuous zero-cross interval of the voice waveform is obtained, and for each n, the pitch period is assumed to be the sum of 2n zero-cross interval data, and between each pitch period of the zero-cross interval data constituting one pitch period. Or the pitch of each pitch cycle, and the pitch cycle is determined by using the assumption that the best match is obtained, so that when the audio waveform is a complex waveform containing harmonic components, However, there is an effect that the pitch period can be quickly and accurately obtained with an inexpensive configuration.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 この発明の一実施形態の構成を示すブロック
図である。
FIG. 1 is a block diagram showing a configuration of an embodiment of the present invention.

【図2】 同実施形態における4倍オーバーサンプリン
グ部の構成例を示すブロック図である。
FIG. 2 is a block diagram illustrating a configuration example of a 4 × oversampling unit in the embodiment.

【図3】 同実施形態における2値化部の構成を例示す
るブロック図である。
FIG. 3 is a block diagram illustrating a configuration of a binarizing unit according to the embodiment;

【図4】 同実施形態における2値化部の構成を例示す
るブロック図である。
FIG. 4 is a block diagram illustrating a configuration of a binarizing unit according to the first embodiment;

【図5】 同実施形態におけるタイマ、RAMおよびこ
れらの制御系を示すブロック図である。
FIG. 5 is a block diagram showing a timer, a RAM, and a control system thereof in the embodiment.

【図6】 同実施形態における4倍オーバーサンプリン
グ部の動作を示す図である。
FIG. 6 is a diagram showing an operation of a 4 × oversampling unit in the embodiment.

【図7】 同実施形態における2値化部の動作を示す図
である。
FIG. 7 is a diagram showing an operation of a binarization unit in the embodiment.

【図8】 同実施形態における書込制御部の動作を示す
図である。
FIG. 8 is a diagram showing an operation of a write control unit in the embodiment.

【図9】 同実施形態におけるピッチ周期の算出処理の
概要を説明する図である。
FIG. 9 is a diagram for explaining an outline of pitch period calculation processing in the embodiment.

【図10】 同実施形態におけるピッチ周期の算出処理
を示すフローチャートである。
FIG. 10 is a flowchart showing a pitch cycle calculation process in the embodiment.

【図11】 同実施形態におけるピッチ周期の算出処理
を示すフローチャートである。
FIG. 11 is a flowchart showing pitch period calculation processing in the embodiment.

【図12】 同実施形態におけるピッチ周期の算出処理
を示すフローチャートである。
FIG. 12 is a flowchart showing pitch period calculation processing in the embodiment.

【図13】 同実施形態の性能評価結果を示す図であ
る。
FIG. 13 is a diagram showing a performance evaluation result of the embodiment.

【図14】 同実施形態の性能評価結果を示す図であ
る。
FIG. 14 is a diagram showing a performance evaluation result of the embodiment.

【図15】 同実施形態の性能評価結果を示す図であ
る。
FIG. 15 is a diagram showing a performance evaluation result of the embodiment.

【図16】 同実施形態の性能評価結果を示す図であ
る。
FIG. 16 is a diagram showing a performance evaluation result of the embodiment.

【符号の説明】[Explanation of symbols]

1……CD、2……ボーカル抽出部、3……マイクロホ
ン、4……A/D変換器、5……DC除去部、6……L
PF、7……4倍オーバーサンプリング部、8……2値
化部、9……タイマ(零クロス間隔計測手段)、10…
…RAM(零クロス間隔計測手段)、11……ピッチ演
算部(ピッチ演算手段)、12……レベル検出部、13
……採点部、14……表示部。
1 ... CD, 2 ... vocal extraction unit, 3 ... microphone, 4 ... A / D converter, 5 ... DC removal unit, 6 ... L
PF, 7: 4 × oversampling section, 8: Binarization section, 9: Timer (zero-crossing interval measuring means), 10:
... RAM (zero-crossing interval measuring means), 11... Pitch calculating section (pitch calculating means), 12.
... Scoring section, 14 ... Display section.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 山本 裕介 静岡県浜松市中沢町10番1号 ヤマハ株 式会社内 (56)参考文献 特開 昭62−115499(JP,A) 特開 昭62−115500(JP,A) 特開 昭62−54296(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 11/04 ──────────────────────────────────────────────────続 き Continuation of the front page (72) Inventor Yusuke Yamamoto 10-1 Nakazawa-cho, Hamamatsu City, Shizuoka Prefecture Inside Yamaha Corporation (56) References JP-A-62-115499 (JP, A) JP-A-62- 115500 (JP, A) JP-A-62-54296 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G10L 11/04

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 音声波形の連続する零クロス間隔t1
2,…を計測する零クロス間隔計測手段と、 n(nは1以上の整数)を各種変化させ、各nについ
て、2n個の零クロス間隔の総和T=(t1+t2+・・
2n)をピッチ周期と仮定し、前記零クロス間隔t1
2,…に基づいて、隣接するm周期(mは2以上の整
数)分の各ピッチ周期間での前記音声波形の一致の程度
を算出し、音声波形の一致の程度が最も高いnを選択す
ることによりピッチ周期を求めるピッチ演算手段とを具
備することを特徴とするピッチ検出装置。
1. A continuous zero cross interval t 1 ,
a zero-cross interval measuring means for measuring t 2 ,..., n (n is an integer of 1 or more) being varied, and for each n, a sum T of 2n zero-cross intervals T = (t 1 + t 2 +...)
t 2n ) is assumed to be the pitch period, and the zero-cross interval t 1 ,
Based on t 2 ,..., the degree of coincidence of the audio waveforms between pitch periods of adjacent m periods (m is an integer of 2 or more) is calculated, and n having the highest degree of coincidence of the audio waveforms is calculated. A pitch calculating means for obtaining a pitch cycle by selecting the pitch detecting means.
【請求項2】 前記ピッチ演算手段は、前記nが所定値
以下の場合は前記mを4とし、前記nが所定値より大き
い場合は前記mを3とすることを特徴とする請求項1記
載のピッチ検出装置。
2. The apparatus according to claim 1, wherein said pitch calculation means sets said m to 4 when said n is smaller than a predetermined value, and sets said m to 3 when said n is larger than a predetermined value. Pitch detection device.
【請求項3】 前記ピッチ演算手段は、前記ピッチ周期
を構成する2n個の零クロス間隔の各々について、前記
m周期分のピッチ周期において所定の誤差範囲内で一致
した時間長のものが再現される回数を求め、この回数の
総和に基づいて前記音声波形の一致の程度を算出するこ
とを特徴とする請求項1または2に記載のピッチ検出装
置。
3. The pitch calculating means reproduces, for each of the 2n zero-cross intervals constituting the pitch cycle, those having a time length that coincides within a predetermined error range in the m pitch cycles. 3. The pitch detecting apparatus according to claim 1, wherein the number of times the voice waveforms are obtained is calculated, and the degree of coincidence of the audio waveforms is calculated based on the total number of times.
JP524996A 1996-01-16 1996-01-16 Pitch detection device Expired - Lifetime JP3235445B2 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP524996A JP3235445B2 (en) 1996-01-16 1996-01-16 Pitch detection device
TW86100383A TW312009B (en) 1996-01-16 1997-01-15
CNB971004285A CN1136536C (en) 1996-01-16 1997-01-16 Tone detecting device
KR1019970001192A KR100406655B1 (en) 1996-01-16 1997-01-16 Pitch Detection Device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP524996A JP3235445B2 (en) 1996-01-16 1996-01-16 Pitch detection device

Publications (2)

Publication Number Publication Date
JPH09198093A JPH09198093A (en) 1997-07-31
JP3235445B2 true JP3235445B2 (en) 2001-12-04

Family

ID=11605945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP524996A Expired - Lifetime JP3235445B2 (en) 1996-01-16 1996-01-16 Pitch detection device

Country Status (1)

Country Link
JP (1) JP3235445B2 (en)

Also Published As

Publication number Publication date
JPH09198093A (en) 1997-07-31

Similar Documents

Publication Publication Date Title
Goto A robust predominant-F0 estimation method for real-time detection of melody and bass lines in CD recordings
EP0722161B1 (en) Method for pitch recognition, in particular for musical instruments which are excited by plucking or striking
Rossignol et al. Vibrato: detection, estimation, extraction, modification
CN102568456A (en) Notation recording method and a notation recording device based on humming input
CN114882905A (en) Music tempo detection method based on neural network
JP3235445B2 (en) Pitch detection device
JP3707121B2 (en) Pitch detection device
JP3996221B2 (en) Pitch detection device
JP3707120B2 (en) Pitch detection device
JP3996222B2 (en) Pitch detection device
KR100406655B1 (en) Pitch Detection Device
JPH09198094A (en) Pitch detecting device
JP3645364B2 (en) Frequency detector
JP3919359B2 (en) Device for detecting the attack position of a musical sound signal
JP3092197B2 (en) Pitch extraction device
JP5177657B2 (en) Acoustic characteristic control device
JP5956936B2 (en) Audio data reproduction speed conversion method and audio data reproduction speed conversion apparatus
Lao et al. Computationally inexpensive and effective scheme for automatic transcription of polyphonic music
JP4381383B2 (en) Discrimination device, discrimination method, program, and recording medium
Ishibashi et al. Analyses of Kagura musical signals using LMS-based Fourier Analyzer
JPH0972779A (en) Pitch detector for waveform of speech
JPH11274952A (en) Noise reduction device
JPH07234672A (en) Pitch detection device
JPH06295194A (en) Signal comparing device
JPH11305795A (en) Voice signal processor and information medium

Legal Events

Date Code Title Description
S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070928

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080928

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090928

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110928

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120928

Year of fee payment: 11