JPH10207455A - Sound signal analyzing device and its method - Google Patents

Sound signal analyzing device and its method

Info

Publication number
JPH10207455A
JPH10207455A JP9336328A JP33632897A JPH10207455A JP H10207455 A JPH10207455 A JP H10207455A JP 9336328 A JP9336328 A JP 9336328A JP 33632897 A JP33632897 A JP 33632897A JP H10207455 A JPH10207455 A JP H10207455A
Authority
JP
Japan
Prior art keywords
section
sound signal
pitch
detecting
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9336328A
Other languages
Japanese (ja)
Other versions
JP3669129B2 (en
Inventor
Tomoyuki Funaki
知之 船木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP33632897A priority Critical patent/JP3669129B2/en
Publication of JPH10207455A publication Critical patent/JPH10207455A/en
Application granted granted Critical
Publication of JP3669129B2 publication Critical patent/JP3669129B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

PROBLEM TO BE SOLVED: To enable analyzing a musical steady part other than a fluctuated part, that is, a part corresponding to one notation even if a pitch or a level of an input sound from a microphone and the like are fluctuated delicately, by making a device such constitution that a second section for analyzing a sound signal is detected by section analysis of two stages. SOLUTION: This device is controlled by a microcomputer consisting of a CPU 1, a program memory 2, and a working memory 3. And in this device, an average value including the prescribed number of samples with each sample amplitude value of a sound signal inputted from an input means is obtained. Therefore, average level information varying smoothly responding to level variation of an inputted sound signal can be obtained, a section assumed that a musical sound exists, that is, an effective section can be appropriately detected as a first section. And a section suitable for analyzing a sound signal can be appropriately detected by making this effective first section as an object and detecting a second section from it.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、マイクロフォン
等によって入力した音声信号や楽音信号等、そのピッチ
またはノートが未確定の音信号に基づいて、音楽的な音
が存在する区間(有効区間)やその音楽的な音の定常部
分を分析し、そのノート(音階の音名)や音符長を自動
的に分析することができるようにした音信号分析装置及
び方法に関し、更に、そのためのプログラムを記憶した
記録媒体に関する。この発明に従う分析結果は、必要に
応じてMIDI情報等の形態の電子的楽譜情報として出
力することができるものであり、従って、この発明は人
間の音声等で入力した可聴的なメロディを自動的に楽譜
化することができる技術に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a section (effective section) in which a musical sound exists based on a sound signal whose pitch or note is undetermined, such as an audio signal or a tone signal input by a microphone or the like. The present invention relates to a sound signal analyzing apparatus and method capable of analyzing a stationary portion of the musical sound and automatically analyzing the note (note name of the scale) and the note length, and further stores a program therefor. Related to a recorded medium. The analysis result according to the present invention can be output as electronic musical score information in the form of MIDI information or the like as necessary. Therefore, the present invention automatically converts audible melody input by human voice or the like. The present invention relates to a technology that can be converted into a score.

【0002】[0002]

【従来の技術】最近、コンピュータ等を用いて、MID
I情報等の演奏情報を発生し、その演奏情報に基づいて
演奏音を再生するコンピュータ演奏システムが新たな楽
音演奏装置として注目されている。この種のコンピュー
タ演奏システムでは、演奏情報を発生するためのデータ
を入力する方式として、リアルタイム入力方式、ステッ
プ入力方式、数値入力方式、楽譜入力方式等がある。リ
アルタイム入力方式は、テープレコーダのように演奏者
が実際に演奏した鍵盤等の演奏操作子の操作情報をリア
ルタイムに演奏情報に変換する方式である。数値入力方
式は、音高(ピッチ)、音の長さ、音の強弱等の演奏情
報をコンピュータのキーボードから直接数値データとし
て入力する方式である。楽譜入力方式は、コンピュータ
のファンクションキーやマウス等を用いてディスプレイ
上の楽譜(5線譜)に単純化した音譜記号等を配置して
いく方式である。ステップ入力方式は、音譜をMIDI
鍵盤やソフトウェア鍵盤で入力し、音の長さをコンピュ
ータのファンクションキーやマウス等を用いて入力する
方式である。
2. Description of the Related Art Recently, MIDs have been
A computer performance system that generates performance information such as I information and reproduces performance sounds based on the performance information has attracted attention as a new musical performance apparatus. In this type of computer performance system, a method for inputting data for generating performance information includes a real-time input method, a step input method, a numerical value input method, a score input method, and the like. The real-time input method is a method of converting operation information of a performance operator such as a keyboard actually played by a player like a tape recorder into performance information in real time. The numerical value input method is a method in which performance information such as a pitch (pitch), a sound length, and the strength of a sound is directly input as numerical data from a computer keyboard. The score input method is a method in which simplified music symbols and the like are arranged in a score (5-line notation) on a display using a function key of a computer, a mouse, or the like. The step input method uses MIDI
In this method, the sound is input using a keyboard or a software keyboard, and the sound length is input using a function key of a computer, a mouse, or the like.

【0003】上述の各入力方式のうち、リアルタイム入
力方式は、実際の演奏操作状態をそのまま演奏情報とし
て記憶することができるので、人間的な微妙な演奏上の
ニュアンスを表現し易く、また短時間入力が可能である
という利点を有する。しかし、この方式は演奏者自身に
高度の楽器演奏能力が必要であり、初心者等には不向き
な入力方式である。そこで、リアルタイム入力方式の利
点を生かし、初心者でも短時間で簡単に演奏情報を入力
できるようにした演奏情報発生装置として、人声音又は
自然楽器の楽音をマイクを介して直接入力し、その入力
音に応じて演奏情報を発生するものがある。すなわち、
これは、人声音やギター等の音(単音)をマイクから入
力するだけで、簡単にMIDI信号を発生することがで
き、MIDIキーボード等を使用しなくてもMIDI機
器を制御できる。
[0003] Among the above-mentioned input methods, the real-time input method can store the actual performance operation state as performance information as it is, so that it is easy to express subtle human nuances in the performance, and it is also easy to express in a short time. It has the advantage that input is possible. However, this method requires the player to have a high level of musical instrument playing ability, and is not suitable for beginners. Therefore, as a performance information generator that allows beginners to easily input performance information in a short time by taking advantage of the real-time input method, a human voice or a musical instrument of a natural instrument is directly input via a microphone, and the input sound is input. In some cases, performance information is generated in response to a request. That is,
In this method, a MIDI signal can be easily generated only by inputting a human voice or a sound (single sound) of a guitar or the like from a microphone, and a MIDI device can be controlled without using a MIDI keyboard or the like.

【0004】[0004]

【発明が解決しようとする課題】従来の演奏情報発生装
置では、マイクからの入力音のピッチ変化に対して、次
のような処理を行ってMIDI情報を発生している。す
なわち、第1の方法はピッチ変化を半音単位で検出し、
そのピッチのノート情報のみを発生する。第2の方法は
ピッチ変化を半音単位で検出し、そのピッチのノート情
報と、その間のピッチ変化に関するピッチベンド情報
(音高変化情報)とを発生する。第3の方法はノート検
出することなく、入力信号のピッチを上下1オクターブ
の範囲で変化し得るピッチベンド情報として発生する。
また、ノート情報(ノートオン又はノートオフ)を発生
するのに、入力音のレベルを所定の基準値と比較し、そ
の基準値よりも入力音のレベルが大きくなった時点でノ
ートオンを、小さくなった時点でノートオフを発生して
いる。しかしながら、上記第1及び第2の方法のように
ピッチ変化を半音単位で検出する場合において、入力音
のピッチが微妙にゆれると意図しないノート情報(ノー
トオン又はノートオフ)が多数発生するという問題があ
る。また、第3の方法のようにピッチ変化をピッチベン
ド情報で発生する場合は、ピッチ変化をピッチベンド情
報で忠実に追従させることができるが、採譜のような目
的には適さない。さらに、入力レベルに応じてノート情
報を発生すると、入力音のレベルのゆれに応じて意図し
ないノート情報が多数発生するという問題がある。
In a conventional performance information generating apparatus, MIDI information is generated by performing the following processing for a pitch change of a sound input from a microphone. That is, the first method detects a pitch change in semitone units,
Only note information of the pitch is generated. The second method detects a pitch change in semitone units, and generates note information of the pitch and pitch bend information (pitch change information) relating to a pitch change therebetween. The third method is to generate pitch bend information that can change the pitch of an input signal in the range of one octave up and down without detecting a note.
To generate note information (note on or note off), the level of the input sound is compared with a predetermined reference value, and when the level of the input sound becomes higher than the reference value, the note-on is reduced. A note-off has occurred at that point. However, in the case where the pitch change is detected in semitone units as in the first and second methods, if the pitch of the input sound is slightly changed, a lot of unintended note information (note on or note off) is generated. There is. Further, when the pitch change is generated by the pitch bend information as in the third method, the pitch change can be accurately followed by the pitch bend information, but is not suitable for purposes such as transcription. Further, when note information is generated according to the input level, there is a problem that a large number of unintended note information is generated according to the fluctuation of the level of the input sound.

【0005】ところで、リアルタイム入力方式において
は、複数の音が任意の時間間隔で時系列的にマイクに入
力されるので、音の存在する部分に対して効率的な分析
を行うことが要求される。すなわち、マイク入力された
信号に対してピッチ等の分析を絶えず行うようにしてい
たのでは、実際には音が入力されていない時間において
も無駄な分析処理をすることになるので好ましくない。
そこで、マイク入力された信号から実際に音が存在して
いる区間(有効区間)を抽出し、抽出された有効区間に
ついてのみピッチ分析等の複雑な分析処理を施すように
するのが効率的である。そのための従来の有効区間の抽
出法は、単純に所定基準レベルと入力信号レベルを比較
して有効区間の抽出を行っていたので、入力音のレベル
が微妙に変動するような場合、特に基準レベル付近で変
動した場合には有効区間の抽出が不正確になると問題が
あった。
In the real-time input method, since a plurality of sounds are input to the microphone in a time series at arbitrary time intervals, it is required to efficiently analyze a portion where the sound exists. . That is, it is not preferable that the analysis of the pitch and the like is constantly performed on the signal input to the microphone, because useless analysis processing is performed even during the time when no sound is actually input.
Therefore, it is efficient to extract a section (effective section) where a sound actually exists from a signal input to the microphone, and to perform a complicated analysis process such as pitch analysis only on the extracted effective section. is there. In the conventional method for extracting an effective section, the effective section is simply extracted by comparing a predetermined reference level with an input signal level. If it fluctuates in the vicinity, there is a problem that the extraction of the effective section becomes inaccurate.

【0006】この発明は、マイク等からの入力音のピッ
チ又はレベルが微妙にゆれた場合でも、そのゆれた部分
以外の音楽的な音の定常部分すなわち1つの音符に相当
する部分を分析することのできる音信号分析装置及び方
法を提供することを目的とする。詳しくは、入力された
音信号からその定常部分を有効に分析し、これに基づき
音のピッチを正確に分析できるようにするものである。
しかして、この分析結果を必要に応じてMIDI情報等
の形態の電子的楽譜情報として出力することができるよ
うにし、人間の音声や実際の楽器演奏等で入力した可聴
的なメロディを自動的に楽譜化することを正確に行うこ
とができるようにした技術を提供しようとするものであ
る。
According to the present invention, even when the pitch or level of an input sound from a microphone or the like is slightly fluctuated, a stationary part of a musical sound other than the fluctuated part, that is, a part corresponding to one note, is analyzed. It is an object of the present invention to provide a sound signal analyzing device and a sound signal analyzing method. More specifically, a stationary part is effectively analyzed from an input sound signal, and a pitch of a sound can be accurately analyzed based on the effective part.
This analysis result can be output as electronic musical score information in the form of MIDI information or the like, if necessary, so that audible melody input by human voice or actual musical instrument performance can be automatically output. It is an object of the present invention to provide a technique capable of accurately performing musical score conversion.

【0007】[0007]

【課題を解決するための手段】出願時の請求項1に記載
の本発明に係る音信号分析装置は、任意の音信号を入力
するための入力手段と、前記入力手段から入力された音
信号のサンプル振幅値の所定サンプル数にわたる平均値
をそれぞれ求め、その結果を時系列的な平均レベル情報
として出力する演算手段と、前記演算手段によって求め
られた平均レベル情報に基づいて前記音信号の中から音
楽的な音が存在すると思われる第1の区間を検出する第
1区間検出手段と、前記第1の区間内における前記音信
号のサンプル振幅値に基づいて音信号分析用の第2の区
間を、該第1の区間の中から検出する第2区間検出手段
とを具えたものである。入力手段から入力される音信号
の各サンプル振幅値の所定サンプル数にわたる平均値を
それぞれ求めているので、入力された音信号のレベル変
動に応答して滑らかに変化する平均レベル情報を得るこ
とができ、音楽的な音が存在すると思われる区間、いわ
ば有効な区間、を第1の区間として適切に検出すること
ができる。そして、かかる有効な第1の区間を対象にし
て、その中から更に第2の区間を検出するようにしてい
るので、音信号分析に適した区間を、該第2の区間とし
て適切に検出することができる。このような2段階の区
間分析によって音信号分析用の第2の区間を検出するよ
うにしたので、音信号分析に適した区間、例えばピッチ
検出に適した安定した区間、を適切に検出することがで
き、音分析、特にピッチ検出、の精度を向上させること
ができる。なお、このような第2の区間は、1つの第1
の区間内において1に限らず複数存在し得る。
According to a first aspect of the present invention, there is provided a sound signal analyzing apparatus, comprising: input means for inputting an arbitrary sound signal; and a sound signal input from the input means. Calculating means for calculating an average value of the sample amplitude values over a predetermined number of samples, and outputting the result as time-series average level information; and First section detecting means for detecting a first section in which a musical sound is considered to exist, and a second section for sound signal analysis based on a sample amplitude value of the sound signal in the first section. Is detected from the first section by a second section detecting means. Since the average value of each sample amplitude value of the sound signal input from the input means over a predetermined number of samples is obtained, it is possible to obtain the average level information that smoothly changes in response to the level fluctuation of the input sound signal. Thus, a section where a musical sound is considered to exist, that is, an effective section can be appropriately detected as the first section. Since the second section is further detected from the effective first section, a section suitable for sound signal analysis is appropriately detected as the second section. be able to. Since the second section for sound signal analysis is detected by such two-step section analysis, a section suitable for sound signal analysis, for example, a stable section suitable for pitch detection can be appropriately detected. And the accuracy of sound analysis, especially pitch detection, can be improved. Note that such a second section is one first section.
Is not limited to one, and a plurality of sections may exist.

【0008】上記請求項1に記載の音信号分析装置の一
実施態様として、前記第2区間検出手段は、前記平均レ
ベル情報の傾斜度数が所定値以下である区間を求め、求
められた区間の長さが所定長以上の部分をレベル安定区
間として判定し、このレベル安定区間に基づき前記第2
の区間を検出するものとしてよい。平均レベル情報の傾
斜度数が小さいほど音信号の振幅レベルの変動が少な
い、つまり安定していることを意味しており、また安定
しているというからには時間的にも或る程度以上の長さ
にわたっている必要がある。すなわち、平均レベル情報
の傾斜度数が所定値以下であっても、その区間長が短い
場合には安定した区間とは言えないので、それを除外す
る。よって、この傾斜度数が所定値以下である区間の時
間的長さが所定長以上である部分をレベル安定区間とし
て判定することが適切である。
[0008] In one embodiment of the sound signal analyzer according to the first aspect, the second section detecting means determines a section in which the inclination degree of the average level information is equal to or less than a predetermined value, and determines the section of the determined section. A portion having a length equal to or longer than a predetermined length is determined as a level stable section, and the second level is determined based on the level stable section.
May be detected. The smaller the gradient level of the average level information, the smaller the fluctuation of the amplitude level of the sound signal, that is, it means that it is stable. Need to be. In other words, even if the gradient frequency of the average level information is equal to or less than a predetermined value, if the section length is short, it cannot be said that the section is a stable section, so that it is excluded. Therefore, it is appropriate to determine a portion in which the temporal length of the section in which the inclination frequency is equal to or less than the predetermined value is equal to or more than the predetermined length as the level stable section.

【0009】出願時の請求項2に記載の本発明に係る音
信号分析装置は、任意の音信号を入力するための入力手
段と、前記入力手段から入力された音信号のサンプル振
幅値の所定サンプル数毎にその最大値を検出し、検出さ
れた最大値を補間することによって補助波形を作成する
波形作成手段と、前記波形作成手段によって作成された
補助波形に基づいて前記音信号の中から音楽的な音が存
在すると思われる第1の区間を検出する第1区間検出手
段と、前記第1の区間内における前記音信号のサンプル
振幅値に基づいて音信号分析用の第2の区間を、該第1
の区間の中から検出する第2区間検出手段とを具えたも
のである。この場合、前記と同様の第1及び第2の区間
を検出するために、波形作成手段で作成した補間波形を
使用することが特徴である。例えば、この補間波形は音
信号波形の各ピークレベル間を結ぶ振幅エンベロープ波
形に類似した波形として得られるもので、音信号の振幅
レベルの傾向を示している。このような補間波形の算出
は、平均レベル情報の演算よりも素早く行えるので、処
理速度を早くすることができ、各区間の検出速度を向上
することができ、音信号の分析時間を短縮し、かつその
ための演算装置の負担を軽減することができる。
A sound signal analyzing apparatus according to the present invention according to claim 2 of the present application is an input means for inputting an arbitrary sound signal, and a predetermined sample amplitude value of the sound signal input from the input means. A waveform generating unit that detects the maximum value for each number of samples and creates an auxiliary waveform by interpolating the detected maximum value; and from the sound signal based on the auxiliary waveform created by the waveform creating unit. A first section detecting means for detecting a first section in which a musical sound is considered to exist; and a second section for sound signal analysis based on a sample amplitude value of the sound signal in the first section. , The first
And a second section detecting means for detecting from among the sections. In this case, in order to detect the first and second sections similar to the above, an interpolated waveform created by the waveform creating means is used. For example, this interpolated waveform is obtained as a waveform similar to an amplitude envelope waveform connecting between peak levels of the sound signal waveform, and indicates a tendency of the amplitude level of the sound signal. Since the calculation of such an interpolated waveform can be performed more quickly than the calculation of the average level information, the processing speed can be increased, the detection speed of each section can be improved, the analysis time of the sound signal can be reduced, In addition, the load on the arithmetic unit for that purpose can be reduced.

【0010】上記請求項2に記載の音信号分析装置の一
実施態様として、前記第2区間検出手段は、前記音信号
のサンプル振幅値に対して両方向からエンベロープ検出
を行うことによって最大値を検出し、検出された最大値
を補間することによって最大値補間曲線を求め、求めら
れた最大値補間曲線に基づいて各サンプルポイントにお
ける合計傾斜を求め、求められた合計傾斜が所定値以下
の部分をレベル安定区間として判定し、このレベル安定
区間に基づき前記第2の区間を検出するようにしてもよ
い。このように、両方からエンベロープ検出を行うこと
によって、徐々にレベルの上がる波形において、倍音ピ
ークをピッチのピークとして誤って検出しないようにす
ることができる。
In one embodiment of the sound signal analyzing apparatus according to the second aspect, the second section detecting means detects a maximum value by performing envelope detection on the sample amplitude value of the sound signal from both directions. Then, a maximum value interpolation curve is obtained by interpolating the detected maximum value, and a total slope at each sample point is obtained based on the obtained maximum value interpolation curve. A determination may be made as a level stable section, and the second section may be detected based on this level stable section. In this manner, by performing envelope detection from both, it is possible to prevent a harmonic peak from being erroneously detected as a pitch peak in a waveform whose level gradually increases.

【0011】出願時の請求項3に記載の本発明に係る音
信号分析装置は、任意の音信号を入力するための入力手
段と、前記音信号に所定の周波数特性のフィルタ処理を
施すフィルタ手段と、前記フィルタ処理後の音信号にお
ける連続するサンプル振幅値に基づいて各隣接する波形
同士の一致度合いを分析する分析手段と、前記分析手段
により所定の条件に従う範囲内で一致していると分析さ
れた連続する複数の波形からなる区間を同波形区間とし
て検出する区間検出手段と、前記区間検出手段によって
検出された同波形区間における前記音信号のピッチを検
出するピッチ検出手段とを具えたものである。所定の周
波数特性のフィルタ処理によって入力音信号の波形を適
切にシェーピングすることにより、分析手段による波形
一致度の分析処理を容易にしかつ正確にすることができ
る。区間検出手段によって検出される同波形区間はほぼ
同波形とみなせる複数の波形が連続している区間であ
り、波形形状が安定している区間である。よって、この
ような同波形区間においては、入力音信号のピッチも安
定しており、ピッチ検出処理の対象区間とするのに適し
ているので、入力音信号の適切なピッチ検出を正確かつ
容易に行うことができる。また、このような同波形区間
に基づく入力音信号のピッチ検出/分析処理は、振幅レ
ベルの変動からは音符の区切りが見い出せないような入
力音信号、例えば、振幅レベルはあまり変化せずにピッ
チや波形が変化するスラー効果音など、から音符として
のかたまりを区別し、そのピッチ等を分析する場合にき
わめて有益である。
The sound signal analyzer according to the present invention according to claim 3 of the present invention is an input means for inputting an arbitrary sound signal, and a filter means for performing a filtering process of a predetermined frequency characteristic on the sound signal. Analyzing means for analyzing the degree of coincidence between adjacent waveforms based on successive sample amplitude values in the sound signal after the filtering, and analyzing that the analysis means matches within a range according to a predetermined condition. And a pitch detecting means for detecting a pitch of the sound signal in the same waveform section detected by the section detecting means. It is. By appropriately shaping the waveform of the input sound signal by filter processing of a predetermined frequency characteristic, the analysis processing of the degree of coincidence of the waveform by the analysis means can be facilitated and accurate. The same waveform section detected by the section detecting means is a section in which a plurality of waveforms that can be regarded as substantially the same waveform are continuous, and is a section in which the waveform shape is stable. Therefore, in such a waveform section, the pitch of the input sound signal is also stable, and is suitable for the target section of the pitch detection processing. Therefore, appropriate pitch detection of the input sound signal can be accurately and easily performed. It can be carried out. Further, pitch detection / analysis processing of an input sound signal based on the same waveform section is performed in such a manner that a note delimiter cannot be found from fluctuations in the amplitude level. This is extremely useful when a chunk as a note is distinguished from, for example, a slur effect sound with a changing waveform, and the pitch is analyzed.

【0012】出願時の請求項4に記載の本発明に係る音
信号分析装置は、任意の音信号を入力するための入力手
段と、前記入力手段から入力する前記音信号に関して所
定区間毎に前記音信号のピッチをそれぞれ検出し、検出
したピッチのデータ列を生成する第1のピッチ検出手段
と、前記ピッチデータ列における各ピッチに対応する周
波数に応じて通過帯域が可変制御されるフィルタ処理
を、前記入力された音信号に施すフィルタ処理手段と、
前記フィルタ処理手段から出力される前記音信号のサン
プル振幅値に基づいて該音信号のより正確なピッチを検
出する第2のピッチ検出手段とを具えたものである。第
1のピッチ検出手段によるピッチ検出は、入力音信号の
おおまかなピッチに対応しているものであってよく、入
力音信号のラフな波形周期測定を行い、それに基づくピ
ッチデータ列を時系列的に得る。フィルタ処理手段で
は、このピッチデータ列における各ピッチに対応する周
波数に応じて通過帯域が可変制御される時変動フィルタ
処理を入力音信号に対して施す。これにより、入力音信
号の時々刻々のピッチに応じて該音信号のできるだけ基
本波波形成分が取り出されるようにできるだけ正弦波に
近い形に波形整形することができ、このフィルタ処理済
み音信号波形を対象とする第2のピッチ検出手段による
ピッチ検出処理が容易にかつ正確に行えるようになる。
The sound signal analyzing apparatus according to the present invention according to claim 4 of the present application is an input means for inputting an arbitrary sound signal, and the sound signal input from the input means is provided at every predetermined interval. First pitch detecting means for respectively detecting the pitch of the sound signal and generating a data string of the detected pitch, and filtering processing in which a pass band is variably controlled according to a frequency corresponding to each pitch in the pitch data string. , Filtering means for applying to the input sound signal,
Second pitch detecting means for detecting a more accurate pitch of the sound signal based on a sample amplitude value of the sound signal output from the filtering means. The pitch detection by the first pitch detection means may correspond to the approximate pitch of the input sound signal, and performs a rough waveform period measurement of the input sound signal, and generates a pitch data sequence based on the time series. Get to. The filter processing means performs a time-varying filter process on the input sound signal when the pass band is variably controlled according to the frequency corresponding to each pitch in the pitch data sequence. Thereby, the waveform of the input sound signal can be shaped as close to a sine wave as possible so that the fundamental wave component of the sound signal can be extracted as much as possible according to the instantaneous pitch. The pitch detection processing by the target second pitch detection means can be easily and accurately performed.

【0013】出願時の請求項5に記載の本発明に係る音
信号分析装置は、任意の音信号を入力するための入力手
段と、前記入力手段から入力する前記音信号に関して所
定区間毎に前記音信号のピッチをそれぞれ検出し、検出
したピッチのデータ列を生成する第1のピッチ検出手段
と、前記ピッチデータ列における各ピッチに対応する周
波数に応じて通過帯域が可変制御されるフィルタ処理
を、前記入力された音信号に施すフィルタ処理手段と、
前記フィルタ処理後の音信号における連続するサンプル
振幅値に基づいて各隣接する波形同士の一致度合いを分
析する分析手段と、前記分析手段により所定の条件に従
う範囲内で一致していると分析された連続する複数の波
形からなる区間を同波形区間として検出する区間検出手
段と、前記区間検出手段によって検出された同波形区間
における前記音信号のピッチを検出する第2のピッチ検
出手段とを具えたものである。第1のピッチ検出手段と
フィルタ処理手段とによって、上記と同様に、入力音信
号のピッチ傾向に応じた時変動フィルタ処理を該音信号
に対して施し、これにより、該音信号のできるだけ基本
波波形成分が取り出されるようにできるだけ正弦波に近
い形に波形整形することができる。従って、このフィル
タ処理済み音信号波形を対象とする分析手段と区間検出
手段による同波形区間を検出する処理する処理が容易か
つ正確に行うことができ、この同波形区間を対象とする
第2のピッチ検出手段によるピッチ検出処理も容易にか
つ正確に行えるようになる。
The sound signal analyzing apparatus according to the present invention according to claim 5 at the time of filing is an input means for inputting an arbitrary sound signal, and the sound signal input from the input means is provided for each predetermined section. First pitch detecting means for respectively detecting the pitch of the sound signal and generating a data string of the detected pitch, and filtering processing in which a pass band is variably controlled according to a frequency corresponding to each pitch in the pitch data string. , Filtering means for applying to the input sound signal,
Analyzing means for analyzing the degree of coincidence between adjacent waveforms based on continuous sample amplitude values in the filtered sound signal; and analyzing means that the adjacent waveforms are matched within a range according to a predetermined condition. A section detecting means for detecting a section including a plurality of continuous waveforms as the same waveform section; and a second pitch detecting means for detecting a pitch of the sound signal in the same waveform section detected by the section detecting means. Things. Similarly to the above, the first pitch detection means and the filter processing means perform time-varying filter processing on the sound signal in accordance with the pitch tendency of the input sound signal, whereby the fundamental The waveform can be shaped to be as close to a sine wave as possible so that the waveform component is extracted. Therefore, the processing of detecting the same waveform section by the analyzing means and the section detecting means for the filtered sound signal waveform can be easily and accurately performed, and the second processing for the same waveform section can be performed. Pitch detection processing by the pitch detection means can be easily and accurately performed.

【0014】出願時の請求項6に記載の本発明に係る音
信号分析装置は、任意の音信号を入力するための入力手
段と、前記入力手段から入力する前記音信号に関して所
定区間毎に前記音信号のピッチをそれぞれ検出し、検出
したピッチのデータ列を生成する第1のピッチ検出手段
と、前記ピッチデータ列における各ピッチに対応する周
波数に応じて通過帯域が時変動制御されるフィルタ処理
を、前記入力された音信号に施すフィルタ処理手段と、
前記フィルタ処理後の音信号における連続するサンプル
振幅値に基づいて各隣接する波形同士の一致度合いを分
析する分析手段と、前記分析手段により所定の条件に従
う範囲内で一致していると分析された連続する複数の波
形からなる第1の区間を検出する第1区間検出手段と、
前記第1区間検出手段によって検出された第1の区間内
の一致度のより高い波形を基準にその前後における複数
の各波形との間で一致度合い判定し、一致度のより高い
第2の区間を検出する第2区間検出手段と、前記第2区
間検出手段によって検出された第2の区間における前記
音信号のピッチを検出する第2のピッチ検出手段とを具
えたものである。第1のピッチ検出手段とフィルタ処理
手段とによって、上記と同様に、入力音信号のピッチ傾
向に応じた時変動フィルタ処理を該音信号に対して施
し、これにより、該音信号のできるだけ基本波波形成分
が取り出されるようにできるだけ正弦波に近い形に波形
整形することができる。従って、このフィルタ処理済み
音信号波形を対象とする分析手段と第1区間検出手段に
よる第1の区間、つまり波形一致度の比較的高い区間、
を検出する処理する処理が容易かつ正確に行うことがで
きる。また、第2区間検出手段では、第1区間検出手段
によって検出された第1の区間内の一致度のより高い波
形を基準にして、その前後における複数の各波形との間
で一致度合い判定し、一致度のより高い第2の区間を検
出し、第2のピッチ検出手段では、この第2の区間を対
象としてピッチ検出処理を行うので、より安定した区間
を第2の区間として抽出してその区間を対象にしてピッ
チ検出を行うことにより、ピッチ検出処理をより容易か
つ正確に行えるようになる。
The sound signal analyzer according to the present invention according to claim 6 at the time of filing is an input means for inputting an arbitrary sound signal, and the sound signal input from the input means is provided at predetermined intervals with respect to the sound signal. First pitch detection means for respectively detecting the pitch of the sound signal and generating a data string of the detected pitch, and filtering processing in which a pass band is time-varying controlled according to a frequency corresponding to each pitch in the pitch data string Filter processing means for applying to the input sound signal,
Analyzing means for analyzing the degree of coincidence between adjacent waveforms based on continuous sample amplitude values in the filtered sound signal; and analyzing means that the adjacent waveforms are matched within a range according to a predetermined condition. First section detection means for detecting a first section consisting of a plurality of continuous waveforms;
Based on the waveform having a higher degree of coincidence in the first section detected by the first section detecting means, the degree of coincidence is determined between a plurality of waveforms before and after the waveform, and a second section having a higher degree of coincidence is determined. And a second pitch detecting means for detecting a pitch of the sound signal in the second section detected by the second section detecting means. Similarly to the above, the first pitch detection means and the filter processing means perform time-varying filter processing on the sound signal in accordance with the pitch tendency of the input sound signal, whereby the fundamental The waveform can be shaped to be as close to a sine wave as possible so that the waveform component is extracted. Therefore, a first section by the analyzing means and the first section detecting means for the filtered sound signal waveform, that is, a section having a relatively high degree of waveform matching,
Can be easily and accurately performed. Further, the second section detection means determines the degree of coincidence between a plurality of waveforms before and after the waveform having a higher degree of coincidence in the first section detected by the first section detection means. , A second section having a higher degree of coincidence is detected, and the second pitch detection means performs the pitch detection processing on the second section, so that a more stable section is extracted as the second section. By performing pitch detection on the section, pitch detection processing can be performed more easily and accurately.

【0015】上記請求項4乃至6のいずれかに記載の音
信号分析装置の一実施態様として、前記第1のピッチ検
出手段は、前記入力手段により入力された前記音信号に
関して周期基準となる仮候補位置の複数を検出する仮周
期基準検出手段と、検出された前記仮候補位置に基づい
て前記仮候補位置毎に前記音信号のピッチをそれぞれ検
出し、検出したピッチのデータ列を生成するピッチデー
タ列生成手段とを含んでおり、前記仮周期基準検出手段
は、前記音信号の振幅のプラス側又はマイナス側で強く
ピークの表れるいずれか一方側の波形に注目してピーク
位置の検出を行い、そのピーク位置を仮周期基準として
検出するものであってよい。このような仮候補位置毎の
ピッチ検出(仮周期測定)によって、入力音信号のラフ
な波形周期測定を行うことができ、それに基づくピッチ
データ列を時系列的に得ることを容易に行えるので、有
利である。また、入力音信号の振幅のプラス側又はマイ
ナス側で強くピークの表れるいずれか一方側の波形に注
目してピーク位置の検出を行い、そのピーク位置を仮周
期基準として検出するようにしたことにより、音信号の
振幅の正負レベルに片寄りがあるような場合でも、すな
わち、音信号の振れ方がその振幅のプラス側又はマイナ
ス側のいずれか一方に強く現れた場合でも、それに対応
して適切な仮周期検出を行うことができる。
In one embodiment of the sound signal analyzer according to any one of claims 4 to 6, the first pitch detection means includes a temporary reference which is a period reference for the sound signal input by the input means. Provisional period reference detecting means for detecting a plurality of candidate positions; and a pitch for detecting a pitch of the sound signal for each of the provisional candidate positions based on the detected provisional candidate positions and generating a data sequence of the detected pitch. Data sequence generating means, and the provisional period reference detecting means detects a peak position by focusing on one of the waveforms on the plus side or the minus side of the amplitude of the sound signal, where a strong peak appears. , The peak position may be detected as a provisional period reference. By such a pitch detection (provisional period measurement) for each provisional candidate position, a rough waveform period measurement of the input sound signal can be performed, and a pitch data sequence based on the measurement can be easily obtained in time series. It is advantageous. Also, the peak position is detected by focusing on one of the waveforms on the plus side or the minus side of the amplitude of the input sound signal where a strong peak appears, and the peak position is detected as a provisional period reference. Even if the amplitude of the sound signal has a bias in the positive / negative level, that is, if the swing of the sound signal appears strongly on either the plus side or the minus side of the amplitude, the appropriate Tentative period detection can be performed.

【0016】上記請求項4乃至6のいずれかに記載の音
信号分析装置の一実施態様として、前記第1のピッチ検
出手段は、前記入力手段により入力された前記音信号に
関して周期基準となる仮候補位置の複数を検出する仮周
期基準検出手段と、検出された前記仮候補位置に基づい
て前記仮候補位置毎に前記音信号のピッチをそれぞれ検
出し、検出したピッチのデータ列を生成するピッチデー
タ列生成手段とを含んでおり、前記ピッチデータ列生成
手段は、前記仮候補位置毎に求められる前記音信号のピ
ッチデータを補間処理することによって、前記ピッチデ
ータ列を生成するようになっていてよい。この場合も、
このような仮候補位置毎のピッチ検出(仮周期測定)に
よって、入力音信号のラフな波形周期測定を行うことが
でき、それに基づくピッチデータ列を時系列的に得るこ
とを容易に行えるので、有利である。また、ピッチデー
タ列生成手段では、前記仮候補位置毎に求められる前記
音信号のピッチデータを補間処理することによってより
細かなピッチデータ列を生成するので、これに基づき、
仮候補位置と仮候補位置との間でより細かく時変動する
フィルタ処理を施すことができ、分析精度を向上させる
ことができる。
In one embodiment of the sound signal analyzing device according to any one of claims 4 to 6, the first pitch detecting means includes a temporary reference which is a period reference for the sound signal input by the input means. Provisional period reference detecting means for detecting a plurality of candidate positions; and a pitch for detecting a pitch of the sound signal for each of the provisional candidate positions based on the detected provisional candidate positions and generating a data sequence of the detected pitch. And a data string generating means, wherein the pitch data string generating means generates the pitch data string by interpolating pitch data of the sound signal obtained for each of the tentative candidate positions. May be. Again,
By such a pitch detection (provisional period measurement) for each provisional candidate position, a rough waveform period measurement of the input sound signal can be performed, and a pitch data sequence based on the measurement can be easily obtained in time series. It is advantageous. Further, the pitch data string generating means generates a finer pitch data string by interpolating the pitch data of the sound signal obtained for each of the tentative candidate positions.
Filter processing that fluctuates more finely between the temporary candidate position and the temporary candidate position can be performed, and the analysis accuracy can be improved.

【0017】上記請求項5又は6に記載の音信号分析装
置の一実施態様として、前記分析手段は、前記フィルタ
処理後の音信号に関してその周期基準となる候補位置の
複数を検出する周期基準位置検出手段と、前記検出され
た複数の候補位置に対応して区切られる該音信号の複数
の区間について、各隣接する区間同士の波形の一致度合
いを判定する手段とを含んでおり、前記周期基準検出手
段は、前記音信号の振幅のプラス側又はマイナス側で強
くピークの表れるいずれか一方側の波形に注目してピー
ク位置の検出を行い、そのピーク位置を周期基準として
検出するようにしたものであってよい。これにより、分
析手段では、波形周期に対応する候補位置毎に区切られ
た区間同士で波形比較を行うことができるので、波形一
致度合いの判定処理を容易かつ正確に行うことができる
ものとなるので、有利である。また、音信号の振幅のプ
ラス側又はマイナス側で強くピークの表れるいずれか一
方側の波形に注目してピーク位置の検出を行い、そのピ
ーク位置を周期基準として検出するようにしたことによ
り、音信号の振幅の正負レベルに片寄りがあるような場
合でも、すなわち、音信号の振れ方がその振幅のプラス
側又はマイナス側のいずれか一方に強く現れた場合で
も、それに対応して適切な周期検出を行うことができ
る。
In one embodiment of the sound signal analyzing device according to the fifth or sixth aspect, the analyzing means detects a plurality of candidate positions as a cycle reference for the filtered sound signal. Detecting means for determining a degree of coincidence of waveforms between adjacent sections for a plurality of sections of the sound signal divided corresponding to the plurality of detected candidate positions; The detecting means detects the peak position by focusing on one of the waveforms on which the peak appears strongly on the plus side or the minus side of the amplitude of the sound signal, and detects the peak position on a cycle basis. It may be. Thus, the analysis means can perform waveform comparison between sections divided for each candidate position corresponding to the waveform period, and thus can easily and accurately determine the degree of waveform coincidence. Is advantageous. In addition, the peak position is detected by focusing on one of the waveforms where a strong peak appears on the plus side or the minus side of the amplitude of the sound signal. Even if the amplitude of the signal has a bias in the positive or negative level, that is, if the sound signal swings strongly on either the plus side or the minus side of the amplitude, an appropriate period Detection can be performed.

【0018】上記請求項5又は6に記載の音信号分析装
置の一実施態様として、前記分析手段は、前記フィルタ
処理後の音信号に関してその周期基準となる候補位置の
複数を検出する周期基準位置検出手段と、前記検出され
た複数の候補位置に対応して区切られる該音信号の複数
の区間について、各隣接する区間同士の波形の一致度合
いを判定する手段とを含んでおり、前記周期基準検出手
段は、前記フィルタ処理手段による時変動フィルタ処理
後の音信号波形の振幅のプラス側又はマイナス側で強く
ピークの表れるいずれか一方側の波形に注目し、前記時
変動フィルタ処理に用いられたカットオフ周波数に対応
する周期で前記音信号波形を区切り、その区切られた区
間内で最大となるピーク位置を周期基準として検出する
ようにしたものであってよい。この場合も、分析手段で
は、波形周期に対応する候補位置毎に区切られた区間同
士で波形比較を行うことができるので、波形一致度合い
の判定処理を容易かつ正確に行うことができるものとな
るので、有利である。また、前記フィルタ処理手段によ
る時変動フィルタ処理後の音信号波形の振幅のプラス側
又はマイナス側で強くピークの表れるいずれか一方側の
波形に注目し、前記時変動フィルタ処理に用いられたカ
ットオフ周波数の周期で前記音信号波形を区切り、その
区切られた区間内で最大となるピーク位置を周期基準と
して検出するようにしているので、区切り、その中でピ
ーク位置を検出しているので、短い周期で発生するよう
なピークを誤って検出するようなことがなくり、ピーク
位置の検出精度が向上し、結果的に音信号の分析精度が
向上する。
In one embodiment of the sound signal analyzing apparatus according to the fifth or sixth aspect, the analyzing means detects a plurality of candidate positions serving as a cycle reference for the filtered sound signal. Detecting means for determining a degree of coincidence of waveforms between adjacent sections for a plurality of sections of the sound signal divided corresponding to the plurality of detected candidate positions; The detection means focuses on one of the waveforms on the plus side or the minus side of the amplitude of the sound signal waveform after the time-varying filter processing performed by the filter processing means, and is used for the time-varying filter processing. The sound signal waveform is divided at a cycle corresponding to a cutoff frequency, and a peak position that is maximum in the divided section is detected as a cycle reference. Good me. Also in this case, the analysis means can perform the waveform comparison between the sections divided for each candidate position corresponding to the waveform cycle, so that the processing of determining the degree of waveform coincidence can be easily and accurately performed. So it is advantageous. Also, focusing on one of the waveforms on the plus side or the minus side of the amplitude of the sound signal waveform after the time-varying filter processing performed by the filter processing means, the cutoff used in the time-varying filter processing. The sound signal waveform is divided by the frequency cycle, and the peak position that is maximum in the divided section is detected as a cycle reference. This eliminates the possibility of erroneously detecting a peak that occurs in a cycle, thereby improving the detection accuracy of the peak position and consequently improving the analysis accuracy of the sound signal.

【0019】上記請求項4乃至6のいずれかに記載の音
信号分析装置の一実施態様として、前記入力手段から入
力した前記音信号の中から該信号の状態が安定している
区間を検出する安定区間検出手段を更に具え、前記第1
ピッチ検出手段では、前記安定区間検出手段によって検
出された安定区間における前記音信号に関してピッチの
検出を行うようにしてもよい。このように、入力音信号
から安定区間を検出し、この安定区間を対象として前記
第1ピッチ検出手段によるピッチ検出処理を行うことに
より、第1ピッチ検出手段によるピッチ検出処理を迅速
に行うことができ、全体として音信号の分析処理を高速
かつ正確に行うことができるようになる。
In one embodiment of the sound signal analyzer according to any one of claims 4 to 6, a section in which the state of the signal is stable is detected from the sound signal input from the input means. Further comprising a stable section detecting means;
The pitch detecting means may detect a pitch with respect to the sound signal in the stable section detected by the stable section detecting means. As described above, by detecting the stable section from the input sound signal and performing the pitch detection processing by the first pitch detection section on the stable section, the pitch detection processing by the first pitch detection section can be quickly performed. As a result, the analysis processing of the sound signal can be performed at high speed and accurately as a whole.

【0020】上記請求項6に記載の音信号分析装置の一
実施態様として、前記第2区間検出手段は、前記第1の
区間内において前記第1区間検出手段によって検出され
た一致度の最も高い波形を基準にその前後における複数
の各波形との間で順次比較誤差を演算し、その比較誤差
が所定値以下となる連続する複数波形からなる部分を音
色区間として検出し、前記第1の区間内の前記音色区間
以外の残りの部分の長さが所定長以上の場合には、その
残りの部分についても同様にして前記音色区間を検出
し、こうして検出された各音色区間以外の残りの前記第
1の区間の部分の長さが所定長以下になるまで、前記音
色区間の検出を行い、検出された1又は複数の音色区間
を前記第2の区間とするようにしてもよい。第1の区間
内に複数の音色区間が存在する場合、最初に検出された
音色区間以外の残りの第1の区間の長さが所定長以上で
ある場合には、その残りの第1の区間内に別の音色区間
が存在するものとして、音色区間の更なる検出を行い、
こうして検出したすべての音色区間を、波形形状の安定
した第2の区間として検出することにより、正確な検出
が行える。
In one embodiment of the sound signal analyzing apparatus according to the sixth aspect, the second section detecting means has the highest degree of coincidence detected by the first section detecting means within the first section. A comparison error is sequentially calculated between a plurality of waveforms before and after the waveform based on the waveform, and a portion including a plurality of continuous waveforms in which the comparison error is equal to or less than a predetermined value is detected as a timbre section, and the first section is performed. If the length of the remaining portion other than the timbre section is equal to or longer than a predetermined length, the timbre section is similarly detected for the remaining portion, and the remaining The timbre section may be detected until the length of the portion of the first section becomes equal to or less than a predetermined length, and one or more detected timbre sections may be set as the second section. When there are a plurality of timbre sections in the first section, and when the length of the remaining first section other than the first detected timbre section is a predetermined length or more, the remaining first section Assuming that another timbre section exists in the
By detecting all the detected tone color sections as the second sections having a stable waveform shape, accurate detection can be performed.

【0021】出願時の請求項7に記載の本発明に係る音
信号分析装置は、任意の音信号を入力するための入力手
段と、所定のカットオフ周波数を最大周波数及び最小周
波数とするバンドパスフィルタ処理を前記入力手段から
入力する前記音信号に施す第1フィルタ処理手段と、前
記第1フィルタ処理手段から出力される前記音信号に対
して周期基準となる第1候補位置の複数を検出する第1
周期基準検出手段と前記第1周期基準検出手段によって
検出された前記第1候補位置に基づいて前記音信号の最
大周波数及び最小周波数を検出する周波数帯検出手段
と、この周波数帯検出手段によって検出された最大周波
数及び最小周波数をカットオフ周波数とするバンドフィ
ルタ処理を、前記入力手段から入力する前記音信号に施
す第2フィルタ処理手段と、前記第2フィルタ処理手段
から出力される前記音信号に対して周期基準となる候補
位置の複数を検出する第2周期基準検出手段と、前記第
2周期基準検出手段によって検出された前記候補位置毎
に前記音信号のピッチをそれぞれ検出するピッチ検出手
段とを具えたものである。これによれば、フィルタ処理
を2度行ってから周期候補位置を検出するので、正確な
ピッチ検出が行える。
The sound signal analyzer according to the present invention described in claim 7 at the time of filing is an input means for inputting an arbitrary sound signal, and a band pass having a predetermined cutoff frequency as a maximum frequency and a minimum frequency. First filter processing means for performing filter processing on the sound signal input from the input means, and detecting a plurality of first candidate positions serving as a period reference for the sound signal output from the first filter processing means First
Frequency band detection means for detecting a maximum frequency and a minimum frequency of the sound signal based on the cycle reference detection means and the first candidate position detected by the first cycle reference detection means; A second filter processing unit that performs band filter processing using the maximum frequency and the minimum frequency as a cutoff frequency on the sound signal input from the input unit, and the sound signal output from the second filter processing unit. A second cycle reference detecting means for detecting a plurality of candidate positions serving as a cycle reference, and a pitch detecting means for respectively detecting a pitch of the sound signal for each of the candidate positions detected by the second cycle reference detecting means. It is equipped. According to this, since the period candidate position is detected after performing the filtering process twice, accurate pitch detection can be performed.

【0022】出願時の請求項8に記載の本発明に係る音
信号分析装置は、任意の音信号を入力するための入力手
段と、前記音信号に所定の周波数帯域のフィルタ処理を
施すフィルタ手段と、前記フィルタ手段によるフィルタ
リング処理後の前記音信号のピーク位置をそれぞれ検出
するピーク位置検出手段と、このピーク位置検出手段に
よって検出された任意の2つのピーク位置間で前記音信
号の波形を区切ることにより得られる多様な区間のう
ち、前記フィルタの通過帯域による制限に見合った時間
長の区間について、隣合う2つの区間の対を可能な数だ
け選定し、選定された各対における2区間の波形の一致
度をそれぞれ判定し、その一致度の最も高い1つの対を
同波形区間として検出する区間検出手段と、前記区間検
出手段によって検出された同波形区間に基づいて音信号
分析用の定常区間を検出する定常区間検出手段とを具え
たものである。音信号における波形のピーク位置の出方
は多様であり、隣接するピーク位置の間隔が必ずしも波
形周期に対応しているとは限らない。従って、どのピー
ク位置の対が波形周期に対応しているのかを区間検出手
段によって適切に判定する必要がある。そのために、音
信号をフィルタに通すことにより、その通過帯域に対応
する周期よりも長い時間間隔のピーク位置の対は、波形
周期に対応しているピーク位置の対の候補から除外する
ことができる。そのような除外によって、区間検出手段
では、波形周期に対応しているピーク位置の対、つまり
同波形区間、を効率的に検出することができる。従っ
て、音信号分析処理の効率化に貢献する。
A sound signal analyzing apparatus according to the present invention according to claim 8 of the present application is an input means for inputting an arbitrary sound signal, and a filter means for performing a filtering process of a predetermined frequency band on the sound signal. A peak position detecting means for respectively detecting a peak position of the sound signal after the filtering processing by the filter means; and a waveform of the sound signal is divided between any two peak positions detected by the peak position detecting means. Of the various sections obtained in this way, for a section having a time length commensurate with the restriction by the pass band of the filter, a pair of adjacent two sections is selected as many as possible, and two sections in each selected pair are selected. A section detecting means for judging the degree of coincidence of the waveforms and detecting one pair having the highest degree of coincidence as the same waveform section; The in which it equipped with a constant interval detection means for detecting the constant section for the sound signal analysis based on the waveform segment. The peak positions of the waveform in the sound signal appear in various ways, and the interval between adjacent peak positions does not always correspond to the waveform period. Therefore, it is necessary to appropriately determine which peak position pair corresponds to the waveform period by the section detecting means. Therefore, by passing the sound signal through a filter, a pair of peak positions at a time interval longer than a period corresponding to the pass band can be excluded from candidates of a pair of peak positions corresponding to the waveform period. . By such exclusion, the section detecting means can efficiently detect a pair of peak positions corresponding to the waveform period, that is, the same waveform section. Therefore, it contributes to the efficiency of the sound signal analysis processing.

【0023】出願時の請求項9に記載の本発明に係る音
信号分析装置は、任意の音信号を入力するための入力手
段と、前記入力された音信号のピーク位置をそれぞれ検
出するピーク位置検出手段と、このピーク位置検出手段
によって検出された任意の2つのピーク位置間で前記音
信号の波形を区切ることにより得られる多様な区間のう
ち、隣合う任意の2つの区間の波形の一致度をそれぞれ
判定し、その一致度の高い区間同士を接続して第1の同
波形区間群を検出する第1区間検出手段と、前記第1の
同波形区間群の中の開始区間と最終区間を比較の対象区
間として、前記第1の同波形区間群の前後に隣接する区
間のそれぞれについて波形の一致度を算出し、算出され
た一致度に基づいて前記第1の同波形区間群をその前後
に拡張し、これを第2の同波形区間群として検出する第
2区間検出手段と、前記第2区間検出手段によって検出
された第2の同波形区間群に基づいて音信号分析用の定
常区間を検出する定常区間検出手段とを具えたものであ
る。この構成は、第1区間検出手段によって検出された
第1の同波形区間群を第2区間検出手段によってその前
後に拡張することにより、音信号分析用の定常区間を検
出するようにしたことを特徴としている。すなわち、一
致度を低く設定すると同波形区間が広くなりすぎて定常
区間の検出が困難となる。かといって、一致度を高く設
定すると同波形区間がまばらになってしまう。そこで、
第1区間検出手段の一致度を高めに設定しておいて、一
旦、第1の同波形区間群を検出し、そして、第2区間検
出手段でその第1の同波形区間群の前後に区間を拡張す
ることによって、同波形区間の検出を効率的に行えるよ
うにしたものである。
A sound signal analyzer according to the present invention according to claim 9 of the present application is an input means for inputting an arbitrary sound signal, and a peak position for detecting a peak position of the input sound signal. Detecting means, and the degree of coincidence of the waveforms of any two adjacent sections among various sections obtained by dividing the waveform of the sound signal between any two peak positions detected by the peak position detecting means. And a first section detecting means for connecting sections having a high degree of coincidence to each other to detect a first same waveform section group, and a start section and a last section in the first same waveform section group. As the comparison target section, the degree of coincidence of the waveform is calculated for each of the adjacent sections before and after the first same waveform section group, and the first same waveform section group is calculated based on the calculated degree of match. And extend this to A second section detecting means for detecting as a second same waveform section group, and a steady section detecting means detecting a steady section for sound signal analysis based on the second same waveform section group detected by the second section detecting means. It is equipped with. This configuration is such that the first same waveform section group detected by the first section detection means is extended before and after the first same waveform section group by the second section detection means to detect a steady section for sound signal analysis. Features. That is, if the degree of coincidence is set to be low, the waveform section becomes too wide, and it becomes difficult to detect a steady section. However, if the degree of coincidence is set high, the same waveform section will be sparse. Therefore,
With the degree of coincidence of the first section detection means set to a high value, the first same waveform section group is once detected, and the second section detection means is used to set a section before and after the first same waveform section group. Is expanded so that the same waveform section can be detected efficiently.

【0024】上記請求項9に記載の音信号分析装置の一
実施態様として、前記第2区間検出手段によって検出さ
れた第2の同波形区間群の中の隣接するもの同士の間に
いずれにも属さないすき間区間が存在する場合に、前側
の第2の同波形区間群の最終区間とそれに隣接する前記
すき間区間との一致度及び後側の第2の同波形区間群の
開始区間とそれに隣接する前記すき間区間との一致度を
それぞれ求めて、その一致度の高い方を前側又は後側の
第2の同波形区間群に組み込むようにしてもよい。第2
区間検出手段によって拡張された結果、第2の同波形区
間群の間にいずれにも属さない区間が存在する場合に
は、それをいずれか一方の同波形区間群に組み込むよう
にしている。なお、組み込み方法にはいろいろあり、前
側の第2の同波形区間群の最終区間及び後側の第2の同
波形区間群の開始区間を基準に順番に一致度を比較して
組み込んでもよいし、組み込まれた区間を最終区間又は
開始区間として同様の処理を行ってもよい。また、一致
度に限界値を設け、あまり一致度があまりにも低すぎる
場合にはその区間はどちらにも組み込まないようにして
もよい。
In one embodiment of the sound signal analyzing apparatus according to the ninth aspect, the sound signal analyzing apparatus is provided between any adjacent ones of the second same waveform section group detected by the second section detecting means. When there is a gap section that does not belong to, the degree of coincidence between the last section of the second same waveform section group on the front side and the gap section adjacent thereto and the start section of the second same waveform section group on the rear side and the adjacent section thereof Alternatively, the degree of coincidence with the gap section may be determined, and the higher degree of coincidence may be incorporated into the front or rear second identical waveform section group. Second
As a result of the expansion by the section detection means, if there is a section that does not belong to any of the second same waveform section groups, it is incorporated into any one of the same waveform section groups. In addition, there are various methods of incorporating, and the degree of coincidence may be sequentially compared based on the last section of the second same waveform section group on the front side and the start section of the second same waveform section group on the rear side. Similar processing may be performed with the incorporated section as the last section or the start section. Alternatively, a limit value may be provided for the degree of coincidence, and if the degree of coincidence is too low, the section may not be incorporated in either of the sections.

【0025】出願時の請求項12に記載の本発明に係る
音信号分析装置は、任意の音信号を入力するための入力
手段と、前記入力手段から入力する前記音信号に関して
所定区間毎に前記音信号のピッチをそれぞれ検出し、検
出したピッチのデータ列を生成するピッチ検出手段と、
前記ピッチデータ列における各ピッチに対応する周波数
に応じて通過帯域が時変動制御されるフィルタ処理を、
前記入力された音信号に施す第1フィルタ処理手段と、
前記第1フィルタ処理手段から出力される前記音信号に
関して周期基準となる候補位置の複数を検出する周期基
準位置検出手段と、前記ピッチデータ列における各ピッ
チに対応する周波数及びその所定整数倍の周波数に応じ
て通過帯域が時変動制御されるフィルタ処理を前記入力
された前記音信号に施す第2フィルタ処理手段と、検出
された前記候補位置に対応して前記第2フィルタ処理手
段から出力される前記音信号を区切ることにより得られ
る複数の区間の波形の一致度を判定し、一致度の高い区
間を同波形区間として検出する区間検出手段と、前記区
間検出手段によって検出された同波形区間に基づいて前
記音信号のピッチを分析するピッチ分析手段とを具えた
ものである。
The sound signal analyzing apparatus according to the present invention described in claim 12 at the time of filing is an input means for inputting an arbitrary sound signal, and the sound signal input from the input means is provided for each predetermined section with respect to the sound signal. Pitch detection means for detecting the pitch of each sound signal and generating a data string of the detected pitch,
Filter processing in which the pass band is time-varying controlled according to the frequency corresponding to each pitch in the pitch data string,
First filtering means for applying the input sound signal;
A period reference position detection unit for detecting a plurality of candidate positions serving as a period reference for the sound signal output from the first filter processing unit; a frequency corresponding to each pitch in the pitch data sequence and a frequency of a predetermined integer multiple thereof Second filtering processing means for performing a filtering process in which a pass band is subjected to time-varying control according to the input sound signal, and output from the second filtering processing means corresponding to the detected candidate position. A section detecting means for determining a degree of coincidence of a plurality of sections obtained by dividing the sound signal, and detecting a section having a high degree of coincidence as the same waveform section; Pitch analyzing means for analyzing the pitch of the sound signal based on the pitch.

【0026】ピッチ検出手段と第1フィルタ処理手段と
によって、入力音信号のピッチ傾向に応じた時変動フィ
ルタ処理を該音信号に対して施し、これにより、該音信
号のできるだけ基本波波形成分が取り出されるようにで
きるだけ正弦波に近い形に波形整形することができる。
従って、この第1フィルタ処理済み音信号波形を対象と
して、周期基準位置検出手段によって行われる、入力音
信号に関する周期基準となる候補位置の検出処理は、該
入力音信号の波形周期にできるだけ正確に対応して行わ
れることとなる。よって、区間検出手段における区間の
区切りが正確に行える。一方、第2フィルタ処理手段で
は、前記ピッチデータ列における各ピッチに対応する周
波数及びその所定整数倍の周波数に応じて通過帯域が時
変動制御されるフィルタ処理を、前記入力された前記音
信号に施すので、この第2フィルタ処理済みの音信号波
形は、基本波成分のみならず、適度な倍音成分をも含ん
でおり、入力音信号の時変動する波形形状の特徴を適度
に維持している(しかし複雑な成分はフィルタリングに
よって除去しているので、比較処理に適した比較的シン
プルな波形となっている)ものである。よって、区間検
出手段では、比較的正確な波形周期に対応する区間で区
切られたところの、比較的正確な波形形状を維持した、
しかし、比較処理に適した比較的シンプルに整形された
音信号波形を、各区間毎に比較し、その一致度を判定す
るので、波形一致度の判定処理がし易くしかも精度がよ
い、という優れた効果を奏する。すなわち、ピッチ分析
の対象とする区間(同波形区間)の検出をより高精度に
行えるようになり、音信号分析の精度が向上する。
The pitch detecting means and the first filter processing means perform time-varying filter processing on the sound signal in accordance with the pitch tendency of the input sound signal, whereby the fundamental wave component of the sound signal is reduced as much as possible. The waveform can be shaped to be as close to a sine wave as possible so as to be extracted.
Therefore, the process of detecting the candidate position to be the cycle reference for the input sound signal, which is performed by the cycle reference position detection means for the first filtered sound signal waveform, is as accurate as possible in the waveform cycle of the input sound signal. It will be performed in response. Therefore, the section can be accurately separated by the section detecting means. On the other hand, in the second filter processing means, a filter process in which a pass band is time-varying controlled according to a frequency corresponding to each pitch in the pitch data sequence and a frequency of a predetermined integer multiple thereof is applied to the input sound signal. Therefore, the sound signal waveform after the second filter processing includes not only the fundamental wave component but also an appropriate harmonic component, and appropriately maintains the characteristic of the waveform shape that fluctuates with time of the input sound signal. (However, since a complicated component is removed by filtering, it has a relatively simple waveform suitable for comparison processing.) Therefore, the section detecting means maintains a relatively accurate waveform shape, which is divided by a section corresponding to a relatively accurate waveform cycle.
However, a relatively simple shaped sound signal waveform suitable for comparison processing is compared for each section, and the degree of coincidence is determined, so that the processing of determining the degree of waveform coincidence is easy and the accuracy is good. It has the effect. That is, the section (the same waveform section) to be subjected to the pitch analysis can be detected with higher accuracy, and the accuracy of the sound signal analysis is improved.

【0027】出願時の請求項13に記載の本発明に係る
音信号分析装置は、任意の音信号の連続するサンプル振
幅値を提供する提供手段と、前記提供された連続するサ
ンプル振幅値に対して所定の特性の第1のフィルタ処理
を施す第1フィルタ処理手段と、前記第1のフィルタ処
理が施された前記連続するサンプル振幅値に基づいて第
2のフィルタ処理用の制御周波数データを作成する制御
データ作成手段と、前記作成された制御周波数データに
基づく特性の第2のフィルタ処理を、前記提供手段によ
って提供される前記連続するサンプル振幅値に対して施
す第2フィルタ処理手段と、前記第2のフィルタ処理が
施された前記連続するサンプル振幅値に基づいて前記音
信号のピッチを検出するピッチ検出手段とを具えたもの
である。このように、2段構成のフィルタ処理手段によ
って入力音信号を整形することにより、ピッチ検出を行
い易い状態とすることができ、分析の精度を向上させる
ことができる。
The sound signal analyzing apparatus according to the present invention according to claim 13 of the present application provides a providing means for providing a continuous sample amplitude value of an arbitrary sound signal, First filter processing means for performing first filter processing of predetermined characteristics, and generating control frequency data for second filter processing based on the continuous sample amplitude values subjected to the first filter processing. Control data creating means for performing, the second filter processing means for performing a second filter processing of the characteristic based on the created control frequency data, to the continuous sample amplitude value provided by the providing means, Pitch detecting means for detecting a pitch of the sound signal based on the continuous sample amplitude values subjected to the second filter processing. As described above, by shaping the input sound signal by the two-stage filter processing means, it is possible to make the pitch detection easy to perform, and to improve the analysis accuracy.

【0028】出願時の請求項10に記載の本発明に係る
音信号分析装置は、任意の音信号を入力するための入力
手段と、前記入力手段から入力する前記音信号に関して
所定区間毎に前記音信号のピッチをそれぞれ検出し、検
出したピッチのデータ列を生成するピッチ検出手段と、
前記ピッチデータ列における相前後するピッチ同士の差
分を、音程のセント値に基づく相対値にそれぞれ変換す
る相対値変換手段と、前記相対値変換手段によって得ら
れた相対値の動的平均を基にして、動的基準値を算出す
る動的基準算出手段と、前記相対値変換手段によって得
られた相対値と前記動的基準算出手段によって算出され
た動的基準値とを比較して、音信号分析用の定常区間を
検出する定常区間検出手段とを具えたものである。
The sound signal analyzing apparatus according to the present invention described in claim 10 at the time of filing is an input means for inputting an arbitrary sound signal, and the sound signal input from the input means is provided at every predetermined interval with respect to the sound signal. Pitch detection means for detecting the pitch of each sound signal and generating a data string of the detected pitch,
Based on a dynamic average of relative values obtained by the relative value conversion means for converting the difference between successive pitches in the pitch data sequence into relative values based on the cent value of the pitch. A dynamic reference calculating means for calculating a dynamic reference value, and comparing the relative value obtained by the relative value converting means with the dynamic reference value calculated by the dynamic reference calculating means. A stationary section detecting means for detecting a stationary section for analysis.

【0029】ピッチデータ列における相前後するピッチ
同士の差分を、音程のセント値に基づく相対値にそれぞ
れ変換し、この相対値の動的平均に基づいて動的基準値
(動的ボーダ)を算出し、動的基準値と該相対値とを比
較して、定常区間を検出するようにしている。動的平均
とは、所定の平均開始時点から現時点までの前記各ピッ
チの相対値の累計平均であり、いわば現時点までのピッ
チの相対値の積分的平均値である。この動的平均が動的
基準値すなわち動的ボーダとして使用される。動的ボー
ダは、動的な(つまり時変動する)境界値若しくは基準
値のことである。このように、セント値に基づく相対値
の動的平均によって動的基準値(動的ボーダ)を作成す
ることにより、ピッチ安定区間検出のためのノーマライ
ズされた比較基準データ(つまり動的ボーダ)を得るこ
とができ、検出精度を向上させることができる。例えば
隣接するピッチの音程差つまり相対値が「0」であれ
ば、それらのピッチは同一ピッチであり、同じピッチの
音が連続していることがわかる。また、例えば、相対値
の「1」が半音の音程に対応するものと条件設定した場
合、例えば隣接するピッチの音程差つまり相対値が
「1」であれば、それらのピッチは半音相違しているの
で、完全に別の音であることがわかる。実際には、それ
ほど単純ではなく、同じ音が連続している場合であって
も、ピッチが適宜変動する。動的ボーダは、そのように
適宜時変動する音のピッチにおいて安定している部分を
検出するための判定基準値として用いられる。これによ
って、ピッチが安定な部分から急に不安定になった場合
には、その部分を定常区間の区切りだと検出することが
でき、一方、ピッチが不安定な部分でピッチが多少変動
した場合でも、その変動した箇所を定常区間の区切りで
はないと判断することができ、より人間の耳に近い感覚
で定常区間の検出を行うことができるようになる。
The difference between successive pitches in the pitch data sequence is converted into a relative value based on the cent value of the pitch, and a dynamic reference value (dynamic border) is calculated based on a dynamic average of the relative values. Then, the stationary section is detected by comparing the dynamic reference value with the relative value. The dynamic average is a cumulative average of the relative values of the respective pitches from a predetermined averaging start time to the present time, that is, an integrated average of the relative values of the pitches up to the present time. This dynamic average is used as a dynamic reference value or dynamic border. A dynamic border is a dynamic (ie, time-varying) boundary or reference value. In this manner, by creating a dynamic reference value (dynamic border) by dynamic averaging of relative values based on cent values, normalized comparison reference data (that is, dynamic border) for detecting a stable pitch section is obtained. And detection accuracy can be improved. For example, if the pitch difference between adjacent pitches, that is, the relative value is “0”, those pitches are the same pitch, and it is understood that sounds of the same pitch are continuous. Also, for example, if the condition is set such that the relative value “1” corresponds to the pitch of a semitone, for example, if the pitch difference between adjacent pitches, that is, the relative value is “1”, those pitches differ by a semitone. So you know that it's a completely different sound. Actually, the pitch is not so simple, and the pitch fluctuates appropriately even when the same sound is continuous. The dynamic border is used as a criterion value for detecting a portion that is stable in such a sound pitch that fluctuates as appropriate. In this way, if the pitch suddenly becomes unstable from a stable part, it can be detected that the part is a break in the steady section, while if the pitch fluctuates slightly in the part where the pitch is unstable, However, it can be determined that the changed portion is not a break of the steady section, and the steady section can be detected with a feeling closer to the human ear.

【0030】入力された音信号の前記第2の区間または
前記定常区間を、上述した様々な手法のいずれか1また
はそれらの複数の組合せを用いて、検出したら、それら
の検出した第2の区間または定常区間を対象にしてノー
ト分析処理を行う。すなわち、本発明に係る音信号分析
装置は、前記検出された音信号分析用の前記第2の区間
又は前記定常区間において、前記音信号のピッチを分析
し、該音信号のノートを決定するノート分析手段を更に
具えていてよい。
When the second section or the stationary section of the input sound signal is detected by using any one of the above-described various methods or a combination thereof, the detected second section is used. Alternatively, note analysis processing is performed for a steady section. That is, the sound signal analyzer according to the present invention analyzes the pitch of the sound signal in the second section or the steady section for analyzing the detected sound signal, and determines a note of the sound signal. An analysis means may be further provided.

【0031】出願時の請求項14に記載の本発明に係る
音信号分析装置は、任意の音信号を入力するための入力
手段と、前記入力手段から入力する前記音信号に関して
所定区間毎に前記音信号のピッチをそれぞれ検出し、検
出したピッチのデータ列を生成するピッチ検出手段と、
前記ピッチデータ列における相前後するピッチ同士の差
分を、音程のセント値に基づく相対値にそれぞれ変換す
る相対値変換手段と、前記相対値変換手段によって得ら
れた相対値の動的平均を基にして、動的基準値を算出す
る動的基準算出手段と、前記相対値変換手段によって得
られた相対値と前記動的基準算出手段によって算出され
た動的基準値とを比較して、ピッチ分析用の定常区間を
検出する定常区間決定手段と、前記定常区間内における
前記相対値の静的平均に基づき、静的基準値を算出する
静的基準算出手段と、前記静的基準値と前記定常区間内
における前記相対値とを比較して、前記定常区間の代表
周波数を算出するための音高決定区間を検出する音高決
定区間検出手段と、前記検出された音高決定区間内にお
ける前記ピッチデータ列に基づいて前記定常区間の代表
周波数を算出する周波数算出手段とを具えたものであ
る。
The sound signal analyzing apparatus according to the present invention described in claim 14 at the time of filing is an input means for inputting an arbitrary sound signal, and the sound signal input from the input means is provided for each predetermined section. Pitch detecting means for detecting the pitch of each sound signal and generating a data sequence of the detected pitch,
Based on a dynamic average of relative values obtained by the relative value conversion means for converting the difference between successive pitches in the pitch data sequence into relative values based on the cent value of the pitch. A dynamic reference calculating means for calculating a dynamic reference value, and comparing the relative value obtained by the relative value converting means with the dynamic reference value calculated by the dynamic reference calculating means, to perform pitch analysis. A steady-state section determining means for detecting a steady-state section for use; a static reference calculating means for calculating a static reference value based on a static average of the relative values within the steady-state section; A pitch determining section detecting means for comparing the relative value within the section and calculating a pitch determining section for calculating the representative frequency of the steady section; and the pitch de-sampling section within the detected pitch determining section. Based on the data row is obtained comprising a frequency calculating means for calculating a representative frequency of the stationary section.

【0032】静的平均は、1つの定常区間内における前
記相対値の全ての単純な相加平均値であり、その定常区
間に関して一定の値である。この静的平均が静的基準値
(静的ボーダ)として使用される。静的基準値(静的ボ
ーダ)は、その定常区間については時変動しない、静的
な境界値(つまり比較基準値)である。音高決定区間検
出手段では、例えば、前記相対値が静的ボーダ以下であ
れば、その相対値に関わるピッチが最も安定した区間に
属しているものと判定し、この最も安定した区間を音高
決定区間とする。このように、この発明では、定常区間
の代表周波数すなわちピッチを算出する場合に、定常区
間内の全ての波形に基づいて算出するのではなく、静的
ボーダに応じて定常区間の中で最も安定した区間すなわ
ち音高決定区間内におけるピッチデータに基づいてその
定常区間の代表周波数を算出するようにしている。これ
によって、その定常区間の代表周波数を高精度に算出す
ることができる。
The static average is a simple arithmetic average of all the relative values in one stationary section, and is a constant value for the stationary section. This static average is used as a static reference value (static border). The static reference value (static border) is a static boundary value (that is, a comparison reference value) that does not fluctuate over the steady section. For example, if the relative value is equal to or smaller than the static border, the pitch determining section detecting means determines that the pitch related to the relative value belongs to the section with the most stable, and determines the section with the most stable pitch as the pitch. The section is determined. As described above, according to the present invention, when calculating the representative frequency, that is, the pitch of the steady section, the representative frequency is not calculated based on all the waveforms in the steady section, but is calculated based on the static border. The representative frequency of the stationary section is calculated on the basis of the pitch data in the set section, that is, the pitch determination section. As a result, the representative frequency of the steady section can be calculated with high accuracy.

【0033】上記動的基準値算出手段は、前記相対値の
動的平均に対して、所定値を乗算した値、または所定値
を加算した値、又は所定値を乗算しかつその積に所定値
を加算した値、のいずれかを、前記動的ボーダとして算
出するようにしたものであってよい。
The dynamic reference value calculating means multiplies the dynamic average of the relative values by a predetermined value, a value obtained by adding a predetermined value, or a predetermined value, and multiplies the product by a predetermined value. May be calculated as the dynamic border.

【0034】上述した各手法によって検出された定常区
間が、全て有効な音符に相当しているとは限らず、その
中には、無効なものもあり得る。無効な定常区間を判定
するために、本発明によれば、所定の音符長(例えば許
容される最小音符長)に対応する時間間隔で分割された
グリッドを、有利に使用することができる。すなわち、
本発明の音信号分析装置は、前記決定された前記各定常
区間を、その時系列に従って、所定の音符長に対応する
時間間隔で分割されたグリッド上にそれぞれ配置し、各
定常区間の開始端部に最も近い1つのグリッド位置を各
定常区間に対してそれぞれ割り当て、その結果同じグリ
ッド位置に複数の定常区間が割り当てられた場合には最
も時間長の長い1つの定常区間を有効なものとして選択
する手段を更に具えていてよい。同様に、出願時の請求
項15に記載の本発明の音信号分析装置は、1又は複数
の音符の時系列的連なりからなる任意の音信号を入力す
るための入力手段と、前記入力された音信号の中から1
つ1つの音符に相当すると推量される区間をそれぞれ検
出する区間検出手段と、前記検出された区間を、その時
系列に従って、所定の音符長に対応する時間間隔で分割
されたグリッド上にそれぞれ配置し、各定常区間の開始
又は終了端部のうち所定の一方の端部に最も近い1つの
グリッド位置を各定常区間に対してそれぞれ割り当て、
その結果同じグリッド位置に複数の定常区間が割り当て
られた場合には最も時間長の長い1つの定常区間を有効
な音符として選択する手段とを具備したものである。
The stationary sections detected by the above-described methods do not always correspond to valid notes, and some of them may be invalid. According to the present invention, a grid divided at time intervals corresponding to a predetermined note length (for example, the minimum allowable note length) can be advantageously used to determine an invalid stationary section. That is,
The sound signal analyzer of the present invention arranges each of the determined stationary sections on a grid divided at a time interval corresponding to a predetermined note length in accordance with a time series thereof. Is assigned to each stationary section, and as a result, if a plurality of stationary sections are assigned to the same grid position, one stationary section having the longest time length is selected as a valid section. Means may be further provided. Similarly, the sound signal analyzing apparatus of the present invention described in claim 15 at the time of filing is an input means for inputting an arbitrary sound signal consisting of a time series of one or a plurality of notes, and 1 from the sound signal
A section detecting means for respectively detecting a section estimated to correspond to one note; and arranging the detected section on a grid divided at time intervals corresponding to a predetermined note length in accordance with the time series. Assigning one grid position closest to one predetermined end of the start or end end of each steady section to each steady section,
As a result, when a plurality of stationary sections are assigned to the same grid position, means for selecting one of the stationary sections having the longest time length as a valid note is provided.

【0035】更に、本発明によれば、隣接する区間同士
の波形の一致度を演算し、この一致度が所定値よりも大
きい部分を有声区間として検出し、検出された有声区間
内の一致度の高い区間の波形を基準にして、その両側の
区間の波形との間で順次一致度を演算し、その一致度に
基づいて定常区間を検出し、この定常区間について音信
号のピッチ等を分析/検出するようにしてもよい。有声
区間内で一致度の高い区間は音声の母音の基準となるの
で、それを基準に求められた一致度によって母音の変化
を検出できる。このように検出された定常区間を母音、
すなわち1つの音符として認識するとよい。すでに説明
した本発明の各構成において、波形の一致度の高い区
間、すなわち、同波形区間として判定された区間は、母
音区間つまり、1つの音符のかたまりとして認識し、分
析処理すことができる。
Further, according to the present invention, the degree of coincidence between the waveforms of adjacent sections is calculated, a portion where the degree of coincidence is larger than a predetermined value is detected as a voiced section, and the degree of coincidence within the detected voiced section is detected. Based on the waveform of the high section, the degree of coincidence is sequentially calculated with the waveforms of the sections on both sides of the section, and a steady section is detected based on the degree of coincidence, and the pitch of the sound signal is analyzed for the steady section. / May be detected. Since a section having a high degree of coincidence in a voiced section serves as a reference for a vowel of a voice, a change in a vowel can be detected based on the degree of coincidence determined based on the vowel. The stationary section detected in this way is a vowel,
That is, it may be recognized as one note. In each configuration of the present invention described above, a section having a high degree of coincidence of waveforms, that is, a section determined as the same waveform section can be recognized and analyzed as a vowel section, that is, a single note chunk.

【0036】更に、本発明においては、上述した各構成
すなわち発明は、音声分析装置の装置発明として構成す
ることができるのみならず、音声分析方法の方法発明と
して構成することができる。また、本発明の実施は、コ
ンピュータプログラムの形態で実施することができ、そ
のようなコンピュータプログラムを記憶した記録媒体の
形態で本発明を実施することもできるし、それも本出願
における本発明の範囲に含まれる。
Further, in the present invention, each of the above-described configurations, that is, the invention, can be configured not only as a device invention of a voice analysis device, but also as a method invention of a voice analysis method. Further, the embodiment of the present invention can be implemented in the form of a computer program, and the present invention can be implemented in the form of a recording medium storing such a computer program. Included in the range.

【0037】[0037]

【発明の実施の形態】以下、この発明の実施の形態を添
付図面に従って詳細に説明する。図2はこの発明に係る
楽音情報分析装置及び演奏情報発生装置を内蔵した電子
楽器の構成を示すハードブロック図である。電子楽器
は、マイクロプロセッサユニット(CPU)1、プログ
ラムメモリ2及びワーキングメモリ3からなるマイクロ
コンピュータによって制御される。CPU1は、この電
子楽器全体の動作を制御するものである。このCPU1
に対して、データ及びアドレスバス1Eを介してプログ
ラムメモリ2、ワーキングメモリ3、演奏データメモリ
4、押鍵検出回路5、マイクインターフェイス6、スイ
ッチ検出回路7、表示回路8及び音源回路9がそれぞれ
接続されている。
Embodiments of the present invention will be described below in detail with reference to the accompanying drawings. FIG. 2 is a hardware block diagram showing the configuration of an electronic musical instrument incorporating a musical sound information analyzer and a performance information generator according to the present invention. The electronic musical instrument is controlled by a microcomputer including a microprocessor unit (CPU) 1, a program memory 2, and a working memory 3. The CPU 1 controls the operation of the entire electronic musical instrument. This CPU1
, A program memory 2, a working memory 3, a performance data memory 4, a key press detection circuit 5, a microphone interface 6, a switch detection circuit 7, a display circuit 8, and a sound source circuit 9 are connected to each other via a data and address bus 1 E. Have been.

【0038】プログラムメモリ2はCPU1の各種プロ
グラム(システムプログラムや動作プログラムなど)、
各種データ等を格納するものであり、リードオンリーメ
モリ(ROM)で構成されている。ワーキングメモリ3
は、演奏情報やCPU1がプログラムを実行する際に発
生する各種データを一時的に記憶するものであり、ラン
ダムアクセスメモリ(RAM)の所定のアドレス領域が
それぞれ割り当てられ、レジスタ、フラグ、バッファ、
テーブル等などとして利用される。演奏データメモリ4
は、マイク等からの入力音に基づいて発生された演奏情
報(MIDIデータ)などを記憶するものである。ま
た、CPU1には、ハードディスク装置1Hなどを接続
して、そこに自動演奏データやコード進行データ等の各
種データを記憶していてもよく、更に、前記動作プログ
ラムを記憶するようにしてもよい。また、前記ROM2
に動作プログラムを記憶せずに、ハードディスク装置1
Hにこれらの動作プログラムを記憶させておき、それを
RAM3に読み込むことにより、ROM2に動作プログ
ラムを記憶したときと同様の動作をCPU1に行わせる
ことができる。このようにすると、動作プログラムの追
加やバージョンアップ等が容易に行える。また、着脱自
在な外部記憶媒体1G、例えばCD−ROM等、を設け
てもよい。この外部記憶媒体1G例えばCD−ROMに
は、各種データ及び任意の動作プログラムを記憶してい
てもよい。このCD−ROMに記憶されている動作プロ
グラムや各種データは、CD−ROMドライブ(図示せ
ず)によって、読み出され、ハードディスク装置1Hに
転送記憶させることができる。これにより、動作プログ
ラムの新規のインストールやバージョンアップを容易に
行うことができる。
The program memory 2 stores various programs of the CPU 1 (such as system programs and operation programs),
It stores various data and the like, and is constituted by a read only memory (ROM). Working memory 3
Is a memory for temporarily storing performance information and various data generated when the CPU 1 executes a program. A predetermined address area of a random access memory (RAM) is assigned to each of the registers, flags, buffers,
It is used as a table or the like. Performance data memory 4
Is for storing performance information (MIDI data) generated based on an input sound from a microphone or the like. Further, the CPU 1 may be connected to a hard disk device 1H or the like, and may store various data such as automatic performance data and chord progression data, and may further store the operation program. The ROM 2
Without storing the operation program in the hard disk drive 1
By storing these operation programs in H and reading them into the RAM 3, it is possible to cause the CPU 1 to perform the same operation as when the operation programs are stored in the ROM 2. By doing so, it is possible to easily add an operation program or upgrade the version. Also, a removable external storage medium 1G, for example, a CD-ROM or the like may be provided. Various data and an arbitrary operation program may be stored in the external storage medium 1G, for example, a CD-ROM. The operation program and various data stored in the CD-ROM can be read out by a CD-ROM drive (not shown) and transferred to and stored in the hard disk drive 1H. This makes it possible to easily perform new installation and version upgrade of the operation program.

【0039】なお、通信インターフェイス1Fをデータ
及びアドレスバス1Eに接続し、この通信インターフェ
イス1Fを介してLAN(ローカルエリアネットワー
ク)やインターネットなどの種々の通信ネットワーク上
に接続可能とし、他のサーバコンピュータとの間でデー
タのやりとりを行うようにしてもよい。これにより、ハ
ードディスク装置1H内に動作プログラムや各種データ
が記憶されていないような場合には、サーバコンピュー
タからその動作プログラムや各種データをダウンロード
することができる。この場合、クライアントとなる楽音
生成装置である電子楽器から、通信インターフェイス及
び通信ネットワークを介してサーバコンピュータに動作
プログラムや各種データのダウンロードを要求するコマ
ンドを送信する。サーバコンピュータは、このコマンド
に応じて、所定の動作プログラムやデータを、通信ネッ
トワークを介して電子楽器1に送信する。電子楽器で
は、通信インターフェイスを介してこれらの動作プログ
ラムやデータを受信して、ハードディスク装置にこれら
を蓄積する。これによって、動作プログラム及び各種デ
ータのダウンロードが完了する。
The communication interface 1F is connected to a data and address bus 1E, and can be connected to various communication networks such as a LAN (local area network) and the Internet via the communication interface 1F. Data may be exchanged between the devices. Thereby, when the operation program and various data are not stored in the hard disk device 1H, the operation program and various data can be downloaded from the server computer. In this case, an electronic musical instrument, which is a musical sound generation device serving as a client, transmits a command for requesting download of an operation program and various data to a server computer via a communication interface and a communication network. The server computer transmits predetermined operation programs and data to the electronic musical instrument 1 via the communication network in response to the command. The electronic musical instrument receives these operation programs and data via the communication interface and stores them in the hard disk device. Thus, the download of the operation program and various data is completed.

【0040】鍵盤10は、発音すべき楽音の音高を選択
するための複数の鍵を備えており、各鍵に対応してキー
スイッチを有しており、また必要に応じて押鍵速度検出
装置や押圧力検出装置等のタッチ検出手段を有してい
る。押鍵検出回路5は、発生すべき楽音の音高を指定す
る鍵盤10のそれぞれの鍵に対応して設けられた複数の
キースイッチからなる回路を含んで構成されており、新
たな鍵が押圧されたときはキーオンイベントを出力し、
鍵が新たに離鍵されたときはキーオフイベントを出力す
る。また、鍵押し下げ時の押鍵操作速度又は押圧力等を
判別してタッチデータを生成する処理を行い、生成した
タッチデータをベロシティデータとして出力する。この
ようにキーオン、キーオフイベント及びベロシティなど
のデータはMIDI規格に準拠したデータ(以下「MI
DIデータ」とする)で表現されておりキーコードと割
当てチャンネルを示すデータも含んでいる。マイクロフ
ォン1Aは、音声信号や楽器音を電圧信号に変換して、
マイクインターフェイス6に出力する。マイクインター
フェイス6は、マイクロフォン1Aからのアナログの電
圧信号をディジタル信号に変換してデータ及びアドレス
バス1Eを介してCPU1に出力する。
The keyboard 10 is provided with a plurality of keys for selecting the pitch of a musical tone to be pronounced, has a key switch corresponding to each key, and detects a key pressing speed as required. It has touch detection means such as a device and a pressing force detection device. The key press detection circuit 5 is configured to include a circuit composed of a plurality of key switches provided corresponding to each key of the keyboard 10 for designating a pitch of a musical tone to be generated, and a new key is pressed. When a key-on event is output,
When a key is newly released, a key-off event is output. In addition, a process of generating touch data by determining a key pressing operation speed or a pressing force at the time of key pressing is performed, and the generated touch data is output as velocity data. As described above, data such as a key-on event, a key-off event, and velocity are data conforming to the MIDI standard (hereinafter referred to as “MI
DI data ”) and includes data indicating the key code and the assigned channel. The microphone 1A converts an audio signal or a musical instrument sound into a voltage signal,
Output to the microphone interface 6. The microphone interface 6 converts an analog voltage signal from the microphone 1A into a digital signal and outputs the digital signal to the CPU 1 via the data and address bus 1E.

【0041】テンキー&各種スイッチ1Bは、数値デー
タ入力用のテンキーや文字データ入力用のキーボード、
音符化処理(音信号分析処理及び演奏情報発生処理)の
スタート/ストップスイッチなどの各種の操作子を含ん
で構成される。なお、この他にも音高、音色、効果等を
選択・設定・制御するための各種操作子を含むが、その
詳細については公知なので説明を省略する。スイッチ検
出回路7は、テンキー&各種スイッチ1Bの各操作子の
操作状態を検出し、その操作状態に応じたスイッチ情報
をデータ及びアドレスバス1Eを介してCPU1に出力
する。表示回路8はCPU1の制御状態、設定データの
内容等の各種の情報をディスプレイ1Cに表示するもの
である。ディスプレイ1Cは液晶表示パネル(LCD)
やCRT等から構成され、表示回路8によってその表示
動作を制御されるようになっている。このテンキー&各
種スイッチ1B、並びにディスプレイ1CによってGU
I(Graphical User Interfac
e)が構成される。
The numeric keypad and various switches 1B include a numeric keypad for inputting numerical data, a keyboard for inputting character data,
It is configured to include various operators such as a start / stop switch for a note conversion process (sound signal analysis process and performance information generation process). In addition, various controls for selecting, setting, and controlling pitches, timbres, effects, and the like are also included, but details thereof are publicly known, and thus description thereof is omitted. The switch detection circuit 7 detects the operation state of each operator of the numeric keypad & various switches 1B, and outputs switch information corresponding to the operation state to the CPU 1 via the data and address bus 1E. The display circuit 8 displays various information such as the control state of the CPU 1 and the contents of the setting data on the display 1C. The display 1C is a liquid crystal display panel (LCD)
, A CRT or the like, and the display operation thereof is controlled by the display circuit 8. GU is operated by this numeric keypad & various switches 1B and display 1C.
I (Graphical User Interface)
e) is configured.

【0042】音源回路9は、複数チャンネルで楽音信号
の同時発生が可能であり、データ及びアドレスバス1E
を経由して与えられた楽音トラック上のMIDIデータ
を入力し、このデータに基づいた楽音信号を生成し、そ
れをサウンドシステム1Dに出力する。音源回路9にお
いて複数チャンネルで楽音信号を同時に発音させる構成
としては、1つの回路を時分割で使用することによって
複数の発音チャンネルを形成するようなものや、1つの
発音チャンネルが1つの回路で構成されるような形式の
ものであってもよい。また、音源回路9における楽音信
号発生方式はいかなるものを用いてもよい。例えば、発
生すべき楽音の音高に対応して変化するアドレスデータ
に応じて波形メモリに記憶した楽音波形サンプル値デー
タを順次読み出すメモリ読み出し方式(波形メモリ方
式)、又は上記アドレスデータを位相角パラメータデー
タとして所定の周波数変調演算を実行して楽音波形サン
プル値データを求めるFM方式、あるいは上記アドレス
データを位相角パラメータデータとして所定の振幅変調
演算を実行して楽音波形サンプル値データを求めるAM
方式等の公知の方式を適宜採用してもよい。また、これ
らの方式以外にも、自然楽器の発音原理を模したアルゴ
リズムにより楽音波形を合成する物理モデル方式、基本
波に複数の高調波を加算することで楽音波形を合成する
高調波合成方式、特定のスペクトル分布を有するフォル
マント波形を用いて楽音波形を合成するフォルマント合
成方式、VCO、VCF及びVCAを用いたアナログシ
ンセサイザ方式等を採用してもよい。また、専用のハー
ドウェアを用いて音源回路を構成するものに限らず、D
SPとマイクロプログラムを用いて音源回路を構成する
ようにしてもよいし、CPUとソフトウェアのプログラ
ムで音源回路を構成するようにしてもよい。音源回路9
から発生された楽音信号は、アンプ及びスピーカからな
るサウンドシステム1Dを介して発音される。
The tone generator circuit 9 is capable of simultaneously generating musical tone signals on a plurality of channels.
, MIDI data on the musical sound track given via the input device, and generates a musical sound signal based on this data, and outputs it to the sound system 1D. The tone generator circuit 9 can simultaneously generate tone signals on a plurality of channels by using a single circuit in a time-division manner to form a plurality of tone channels, or a single tone channel is constituted by a single circuit. It may be of the type as described below. Also, any tone signal generation method in the tone generator 9 may be used. For example, a memory reading method (waveform memory method) for sequentially reading out tone waveform sample value data stored in a waveform memory in accordance with address data that changes according to the pitch of a musical tone to be generated, or a phase angle parameter An FM method for executing a predetermined frequency modulation operation as data to obtain tone waveform sample value data, or an AM for executing a predetermined amplitude modulation operation using the address data as phase angle parameter data to obtain tone waveform sample value data
A known method such as a method may be appropriately adopted. In addition to these methods, a physical model method that synthesizes a musical sound waveform by an algorithm that simulates the sounding principle of a natural musical instrument, a harmonic synthesis method that synthesizes a musical sound waveform by adding a plurality of harmonics to a fundamental wave, A formant synthesis method of synthesizing a musical tone waveform using a formant waveform having a specific spectral distribution, an analog synthesizer method using VCO, VCF, and VCA may be employed. Further, the present invention is not limited to the case where the tone generator circuit is configured using dedicated hardware.
The tone generator circuit may be configured by using the SP and the microprogram, or the tone generator circuit may be configured by a CPU and a software program. Sound source circuit 9
Is generated through a sound system 1D including an amplifier and a speaker.

【0043】次に、この発明に係る電子楽器が音信号分
析装置及び演奏情報発生装置として動作する場合の一例
を説明する。図1は図2の電子楽器が演奏情報発生装置
として動作する際のメインフローを示す図である。メイ
ンフローは次のようなステップで順番に実行される。 ステップ11:まず、初期設定処理を行い、図2のワー
キングメモリ3内の各レジスタ及びフラグなどに初期値
を設定したりする。このとき、テンキー&各種スイッチ
1B上の音符化処理スタートスイッチがオン操作された
場合に、ステップ12〜ステップ18までの一連の処理
を行う。
Next, an example in which the electronic musical instrument according to the present invention operates as a sound signal analyzer and a performance information generator will be described. FIG. 1 is a diagram showing a main flow when the electronic musical instrument of FIG. 2 operates as a performance information generating device. The main flow is executed sequentially in the following steps. Step 11: First, an initial setting process is performed, and an initial value is set in each register, flag, and the like in the working memory 3 in FIG. At this time, when the musical note conversion start switch on the numeric keypad & various switches 1B is turned on, a series of processing from step 12 to step 18 is performed.

【0044】ステップ12:このステップは音符化処理
スタートスイッチのオン操作有りと判定された場合に行
われるものであり、ここでは、そのオン操作に対応し
て、マイクインターフェイス6を介してマイクロフォン
1Aから入力される音声信号や楽器音の電圧波形を所定
周期(例えば44.1kHz)でサンプリング処理し、
それをディジタルサンプル信号としてワーキングメモリ
3内の所定領域に記憶する。このサンプリング処理は従
来の公知の方法で行うので、ここでは詳細は省略する。
ステップ13からステップ16までが音符化処理スター
トスイッチのオン操作に対応した音符化処理である。こ
の音符化処理ではサンプリングされた音声信号や楽器音
のディジタルサンプル信号を種々分析してそれを音高列
すなわち楽譜表示可能なMIDIデータに変換する。 ステップ13:ステップ12の音声サンプリング処理の
結果得られたディジタルサンプル信号に基づいて音楽的
な音が存在する区間すなわち有効区間がどこにあるのか
を検出するための有効区間検出処理を行う。この有効区
間検出処理の詳細については後述する。 ステップ14:ステップ13の有効区間検出処理の結
果、検出された各有効区間をさらにレベルの安定してい
る安定区間に細分化するための安定区間検出処理を行
う。この安定区間検出処理の詳細についは後述する。 ステップ15:ステップ14の安定区間検出処理の結
果、検出された各安定区間内に存在する音楽的な音の定
常部分(1つの音符に相当する部分)を検出する定常区
間検出処理を行う。この定常区間検出処理の詳細につい
は後述する。 ステップ16:ステップ13〜ステップ15の処理の結
果、得られた各定常区間毎に最も最適な音符を割り当て
る音高列決定処理を行う。すなわち、このステップでは
MIDIデータを発生する。この音高列決定処理の詳細
については後述する。 ステップ17:ステップ16の処理によって発生された
MIDIデータに基づいて楽譜を作成する楽譜作成処理
を行う。この楽譜作成処理は従来の技術によって容易に
実現可能なので詳細は省略する。 ステップ18:ステップ16の処理によって発生された
MIDIデータに基づいた自動演奏処理を行う。この自
動演奏処理についても従来の技術によって容易に実現可
能なので詳細は省略する。
Step 12: This step is carried out when it is determined that the musical note processing start switch has been turned on. The input audio signal and the voltage waveform of the musical instrument sound are sampled at a predetermined period (for example, 44.1 kHz).
This is stored in a predetermined area in the working memory 3 as a digital sample signal. Since this sampling process is performed by a conventionally known method, the details are omitted here.
Steps 13 to 16 correspond to the note conversion process corresponding to the ON operation of the note conversion start switch. In this note conversion process, sampled audio signals and digital sample signals of musical instrument sounds are analyzed in various ways and converted into a pitch sequence, that is, MIDI data that can be displayed in a musical score. Step 13: Based on the digital sample signal obtained as a result of the audio sampling processing in step 12, an effective section detection process for detecting a section where a musical sound exists, that is, an effective section is performed. Details of the valid section detection processing will be described later. Step 14: As a result of the effective section detection processing in step 13, a stable section detection processing for subdividing each detected effective section into a stable section having a more stable level is performed. The details of the stable section detection processing will be described later. Step 15: As a result of the stable section detection processing in step 14, a steady section detection processing for detecting a steady part (a part corresponding to one note) of a musical sound present in each detected stable section is performed. The details of the stationary section detection processing will be described later. Step 16: As a result of the processing of steps 13 to 15, a pitch sequence determination process for allocating the most optimal note for each steady section obtained is performed. That is, in this step, MIDI data is generated. Details of the pitch sequence determination processing will be described later. Step 17: A score creation process for creating a score based on the MIDI data generated by the process of step 16 is performed. Since the score creation processing can be easily realized by the conventional technique, the details are omitted. Step 18: Perform an automatic performance process based on the MIDI data generated by the process of step 16. Since the automatic performance processing can be easily realized by the conventional technique, the details are omitted.

【0045】図3は図1のステップ13の有効区間検出
処理の詳細を示す図である。以下、ステップ12によっ
て求められたディジタルサンプル信号からどのようにし
て有効区間が検出されるのか、この有効区間検出処理の
動作を図7及び図8を用いて説明する。 ステップ31:ステップ12によって求められたディジ
タルサンプル信号に基づいて平均音圧レベルを算出す
る。図7は、サンプリング周波数44.1kHzでサン
プリングされた音声信号すなわちディジタルサンプル信
号の波形値の一例を示す図である。図7では、約20ポ
イント分の波形値が示されている。ステップ31では、
所定のサンプル数(例えば、10msec相当の時間に
対応するサンプル数)にわたるサンプル振幅値の平均を
求め、それを平均音圧レベルとする。従って、サンプリ
ング周期44.1kHzの場合においては、この所定サ
ンプル数は『441個』であり、あるサンプルポイント
の平均値は、そのポイントを最終ポイントとする10m
sec分前の各ポイントの合計値、すなわち最終ポイン
トから441ポイント分前の波形値の合計を441で除
した値となる。なお、0ポイントから440ポイントま
では、441ポイント分の波形値が存在しないので、0
ポイントからその該当ポイントまでの波形値の平均をそ
のポイントの平均値とする。こうして、時系列的な平均
音圧レベル情報が各サンプルタイミング毎に得られる。
FIG. 3 is a diagram showing details of the valid section detection processing in step 13 of FIG. Hereinafter, how the effective section is detected from the digital sample signal obtained in step 12 will be described with reference to FIGS. 7 and 8. Step 31: An average sound pressure level is calculated based on the digital sample signal obtained in step 12. FIG. 7 is a diagram showing an example of a waveform value of a voice signal sampled at a sampling frequency of 44.1 kHz, that is, a digital sample signal. FIG. 7 shows waveform values for about 20 points. In step 31,
The average of the sample amplitude values over a predetermined number of samples (for example, the number of samples corresponding to a time equivalent to 10 msec) is obtained, and the average is used as the average sound pressure level. Therefore, in the case of the sampling period of 44.1 kHz, the predetermined number of samples is “441”, and the average value of a certain sample point is 10 m
It is the sum of the points before sec, ie, the sum of the waveform values 441 points before the last point divided by 441. Since there is no waveform value for 441 points from 0 point to 440 points,
The average of the waveform values from the point to the corresponding point is defined as the average value of the point. In this way, time-series average sound pressure level information is obtained for each sample timing.

【0046】図7では、説明の便宜上15ポイント分の
波形値の平均値を平均音圧レベルとして算出する場合を
図示している。従って、最初の15ポイントまではそれ
までの波形値の合計値をそのポイント数で除する形にな
っている。また、波形値の合計は、その絶対値を合計す
ることによって求める。図8(A)はこのようにして求
められた平均音圧レベルの値を、サンプリングポイント
を横軸とした場合をグラフ化して示したものである。以
下、図8(A)の平均音圧レベルによって形成される曲
線を平均音圧レベルカーブと称する。なお、図7のよう
に15ポイント毎に平均音圧レベルを求める場合には、
カットオフ周波数10Hz程度のローパスフィルタを掛
けて、レベル変動を滑らかにしている。従って、実際に
441ポイント分の波形値の平均を取る場合には、カッ
トオフ周波数80〜100Hz程度のローパスフィルタ
を掛けて、そのレベル変動を滑らかにするのが望まし
い。また、ここでは、あるサンプリングポイントの平均
値を求めるのに、そのポイントより前の所定数のポイン
トの波形値を合計して平均音圧レベルを求める場合につ
いて説明したが、あるサンプリングポイントを中心とし
て前後に所定数のポイントの波形値を合計してもよい
し、サンプリングポイントから後に所定数のポイントの
波形値を合計してもよい。
FIG. 7 shows a case where the average value of the waveform values for 15 points is calculated as the average sound pressure level for convenience of explanation. Therefore, up to the first 15 points, the total value of the waveform values up to that point is divided by the number of points. The sum of the waveform values is obtained by summing the absolute values. FIG. 8A is a graph showing the average sound pressure level value obtained in this way, with the sampling point on the horizontal axis. Hereinafter, the curve formed by the average sound pressure level in FIG. 8A is referred to as an average sound pressure level curve. When the average sound pressure level is obtained every 15 points as shown in FIG.
A low-pass filter with a cutoff frequency of about 10 Hz is applied to smooth the level fluctuation. Therefore, when actually averaging the waveform values for 441 points, it is desirable to apply a low-pass filter having a cutoff frequency of about 80 to 100 Hz to smooth the level fluctuation. Also, here, a case has been described in which the average value of a certain sampling point is obtained, and the average sound pressure level is obtained by summing the waveform values of a predetermined number of points before that point. The waveform values at a predetermined number of points before and after may be totaled, or the waveform values at a predetermined number of points after the sampling point may be totaled.

【0047】ステップ32:前記ステップ31で求めら
れた図8(A)のような平均音圧レベルカーブを、所定
のしきい値に基づいて有効区間又は無効区間にそれぞれ
分類する。この処理では、しきい値として、その平均音
圧レベルカーブの中の最大波形値の20パーセントの値
をしきい値とする。これ以外の値をしいき値としてもよ
いことは言うまでもない。例えば、平均音圧レベルカー
ブの平均値をしきい値としたり、又はその平均値の80
パーセントをしきい値としたり、平均音圧レベルカーブ
の最大値の半分の値をしきい値としたりしてもよい。し
きい値は図8(B)のような点線で示される。従って、
この点線(しきい値)と平均音圧レベルカーブとの交点
位置が有効区間及び無効区間の境界となり、この点線
(しきい値)よりも大きい区間が有効区間となり、小さ
い区間が無効区間となる。図8(B)では、有効区間を
○印で示し、無効区間を×印で示す。
Step 32: The average sound pressure level curve obtained in step 31 as shown in FIG. 8A is classified into an effective section or an invalid section based on a predetermined threshold value. In this process, the threshold value is set to 20% of the maximum waveform value in the average sound pressure level curve. It goes without saying that other values may be used as threshold values. For example, the average value of the average sound pressure level curve may be used as the threshold value, or the average value of the average value may be set to 80.
Percentage may be used as the threshold, or half the maximum value of the average sound pressure level curve may be used as the threshold. The threshold value is indicated by a dotted line as shown in FIG. Therefore,
The intersection point between the dotted line (threshold) and the average sound pressure level curve is a boundary between the effective section and the invalid section. . In FIG. 8B, the valid section is indicated by a circle, and the invalid section is indicated by a cross.

【0048】ステップ33:人間が音高を認知できる必
要な最低長を0.05msecとした場合に、前記ステ
ップ32で決定された無効区間の中からこの最低長より
も小さな無効区間を有効区間に変更する。例えば、サン
プリング周期が44.1kHzの場合にはサンプリング
数で2205個以下の無効区間を有効区間に変更する。
図8(B)においては、左側から第3番目及び第5番目
の無効区間がこの短い無効区間に相当する。従って、ス
テップ33の処理の結果、図8(B)は図8(C)のよ
うになり、有効区間が拡張される。なお、この処理にお
いて、全区間内の始まりと終わりの部分に存在する無効
区間は、短い無効区間に相当するが、短いからといって
有効区間に変更しない特別な領域として△印を用いて表
現している。
Step 33: If the minimum length required for human recognition of the pitch is 0.05 msec, an invalid section smaller than the minimum length is set as an effective section from the invalid sections determined in step 32. change. For example, when the sampling period is 44.1 kHz, invalid sections of 2205 or less in sampling number are changed to valid sections.
In FIG. 8B, the third and fifth invalid sections from the left correspond to this short invalid section. Accordingly, as a result of the processing in step 33, FIG. 8B becomes as shown in FIG. 8C, and the valid section is extended. In this process, the invalid sections existing at the beginning and end of the entire section correspond to short invalid sections, but are represented by special symbols that are not changed to valid sections just because they are short, using a triangle. doing.

【0049】ステップ34:前記ステップ33の処理の
結果、得られた有効区間及び無効区間のパターンの中か
ら0.05msec以下の短い有効区間を無効区間に変
更する処理を行う。この処理は前記ステップ33と同様
の処理にて行う。図8(C)においては、右端の有効区
間がこの短い有効区間に該当する。従って、ステップ3
4の処理の結果、図8(C)は図8(D)のようにな
る。図8(D)から明らかなように、有効区間は第1区
間から第4区間までの全部の4つの区間となる。なお、
区間の終わりの部分の△印は第4の有効区間とみなされ
る。 ステップ35:ステップ34で特定された有効区間の平
均音圧レベルカーブの平均値を求め、それが所定値より
も小さい場合にその部分を無効区間とする最終的な有効
区間のチェックを行う。この平均値はその有効区間に存
在する各ポイントの平均音圧レベル値の合計をその有効
区間長で除することによって得られる。このようにして
得られた平均音圧レベルの平均値が図8(D)の各区間
の下側に示してある。第1区間は60、第2区間は2
5、第3区間は45、第4区間は15である。この平均
音圧レベルの平均値がその区間の最大波形値の30パー
セントを下回った場合は、その区間を無効区間とする。
ここでは、第2区間及び第4区間が該当するので、それ
ぞれの区間が無効区間になる。図8(E)はこのステッ
プ35の有効区間チェック処理によって特定された有効
区間と無効区間を示す図である。
Step 34: A process of changing a short effective section of 0.05 msec or less from the pattern of the effective section and the invalid section obtained as a result of the processing of the step 33 to an invalid section is performed. This process is performed in the same manner as in step 33. In FIG. 8C, the rightmost effective section corresponds to this short effective section. Therefore, step 3
As a result of the process 4, FIG. 8C becomes as shown in FIG. As is clear from FIG. 8D, the effective sections are all four sections from the first section to the fourth section. In addition,
A mark at the end of the section is regarded as a fourth valid section. Step 35: The average value of the average sound pressure level curve of the effective section specified in step 34 is obtained, and if the average value is smaller than a predetermined value, a final effective section in which that part is regarded as an invalid section is checked. This average value is obtained by dividing the sum of the average sound pressure level values of the points existing in the effective section by the effective section length. The average value of the average sound pressure levels obtained in this manner is shown below each section in FIG. The first section is 60, the second section is 2
5, the third section is 45, and the fourth section is 15. If the average value of the average sound pressure level falls below 30% of the maximum waveform value of the section, the section is regarded as an invalid section.
Here, since the second section and the fourth section correspond to each other, each section becomes an invalid section. FIG. 8E is a diagram showing the valid section and the invalid section specified by the valid section check processing in step 35.

【0050】ステップ36:ステップ31〜ステップ3
5までの処理によって特定された有効区間を拡張する処
理を行う。例えば、図8(F)に示すように最大波形値
の15パーセントを拡張許可レベルとして、そこの部分
に線を引き、有効区間を特定する境界線をその拡張許可
レベルの線のところまで拡張する。すなわち、各有効区
間の端から外側に向かって平均音圧レベルカーブの上昇
下降をチェックしながら、そのカーブが拡張許可レベル
を下回ったかどうかのチェックを行いながら拡張処理を
行う。このとき、下降が上昇に反転した場合や拡張許可
レベルを下回った場合には、そこまでを有効区間とす
る。また、図8(G)は、この有効区間拡張処理の別の
例を示す図である。拡張許可レベルを最大波形値の5パ
ーセントとし、平均音圧レベルカーブの下降が終了した
位置を有効区間の末端とする。又は、上昇が始まった位
置を末端としてもいい。この拡張処理によれば、図8
(F)の場合よりも第1区間及び第3区間の拡張幅が大
きくなる。このようにして、人間が音高として認知する
ことの可能な有効区間が最終的に決定することになる。
なお、拡張許可レベルが低く、かつ、有効区間が近い距
離にある場合には、ある有効区間の末尾側の拡張位置と
次の有効区間の先頭側の拡張位置とが接近することもあ
れば、また同じ位置になることもある。また、下降が終
わる部分と上昇が始まる部分のいずれを区切りにするか
によっても境界位置が変わる。この拡張処理の結果、有
効区間同士が重複した場合には、両方の中間位置を境界
位置とすればよい。なお、図8(F)及び(G)では、
有効区間の拡張を前後に行う場合について説明したが、
前方向又は後方向のみにしてもよい。また、前後に拡張
する場合に、前方向と後方向とで拡張許可レベルを異な
らせるようにしてもよい。
Step 36: Steps 31 to 3
A process for extending the valid section specified by the processes up to 5 is performed. For example, as shown in FIG. 8F, 15% of the maximum waveform value is set as the extension permission level, a line is drawn on that portion, and the boundary line specifying the effective section is extended to the line of the extension permission level. . In other words, the extension process is performed while checking whether the average sound pressure level curve has fallen below the extension permission level while checking the rise and fall of the average sound pressure level curve from the end of each effective section to the outside. At this time, when the descending is reversed to the ascending or when the descending is below the extended permission level, the area up to that point is regarded as an effective section. FIG. 8G is a diagram showing another example of the effective section extension processing. The extension permission level is set to 5% of the maximum waveform value, and the position where the lowering of the average sound pressure level curve ends is set as the end of the effective section. Alternatively, the position where the rise has started may be set as the end. According to this extension processing, FIG.
The extension width of the first section and the third section is larger than in the case of (F). In this way, an effective section that can be recognized as a pitch by a human is finally determined.
If the extension permission level is low and the effective section is at a short distance, the extension position at the end of a certain effective section may be close to the extension position at the beginning of the next effective section. It may also be at the same position. In addition, the boundary position changes depending on whether a part where the descent ends or a part where the ascent starts is delimited. If the effective sections overlap as a result of this extension processing, both intermediate positions may be set as boundary positions. Note that in FIGS. 8F and 8G,
Although the case where the effective section is extended before and after has been described,
Only the front direction or the rear direction may be used. Further, when extending forward and backward, the extension permission level may be different between the forward direction and the backward direction.

【0051】図4は図1のステップ14の安定区間検出
処理の詳細を示す図である。以下、ステップ13によっ
て求められた有効区間内の平均音圧レベルカーブに対し
て、レベルの安定した領域を検出するための安定区間検
出処理を行う。この安定区間検出処理の動作を図9を用
いて説明する。図9は、図8のA点からB点までの第1
の有効区間について、安定区間を検出する場合について
示してある。 ステップ41:図3で検出された有効区間内の平均音圧
レベルカーブに基づいて、その傾斜度数を算出する。こ
の処理では、図9(B)に示すように、傾斜を算出する
ための算出幅を例えば100ポイントとし、その算出幅
のシフト量を例えば50ポイントとして、A点からB点
に向かって順次シフトしながら、その傾斜度数を算出す
る。A点がサンプルポイント『000』だとすると、サ
ンプルポイント『000』と『100』との間の傾斜を
求め、次にそれをそれぞれ50ポイントずつシフトした
サンプルポイント『050』と『150』との間の傾斜
度数を求める。例えば、サンプルポイント『000』の
平均音圧レベルが『325』で、サンプルポイント『1
00』の平均音圧レベルが『1576』である場合、そ
の傾斜度数は(1576−325)/100=12.5
1となる。以後、サンプルポイント『100』と『20
0』との間、『150』と『250』との間、『20
0』と『300』との間のように、順番にその傾斜度数
を算出する。算出された傾斜度数の一例を図9(B)に
示す。図から明らかなように、サンプルポイント『00
0』,『100』間の傾斜度数は12.51、サンプル
ポイント『050』,『150』間の傾斜度数は32.
42、サンプルポイント『100』,『200』間の傾
斜度数は20.12、サンプルポイント『150』,
『250』間の傾斜度数は11.84、サンプルポイン
ト『200』,『300』間の傾斜度数は5.24、サ
ンプルポイント『250』,『350』間の傾斜度数は
4.82、サンプルポイント『300』,『400』間
の傾斜度数は2.34、サンプルポイント『350』,
『450』間の傾斜度数は3.89、サンプルポイント
『400』,『500』間の傾斜度数は5.36とな
る。これらの傾斜度数は前者のサンプルポイントにおけ
る傾斜度数として記憶されることになる。すなわち、サ
ンプルポイント『000』の傾斜度数は12.51、サ
ンプルポイント『050』の傾斜度数は32.42とし
て、それぞれのサンプルポイント毎に傾斜度数が記憶さ
れる。このようにしてA点からB点までの全区間におけ
る傾斜度数を算出し、次のステップ42の安定区間抽出
処理を行う。
FIG. 4 is a diagram showing details of the stable section detection processing in step 14 of FIG. Hereinafter, a stable section detection process is performed on the average sound pressure level curve in the effective section obtained in step 13 to detect a region where the level is stable. The operation of the stable section detection processing will be described with reference to FIG. FIG. 9 is a view showing the first point from point A to point B in FIG.
Is shown for the case where a stable section is detected for the valid section of FIG. Step 41: The slope frequency is calculated based on the average sound pressure level curve in the effective section detected in FIG. In this process, as shown in FIG. 9B, the calculation width for calculating the inclination is, for example, 100 points, and the shift amount of the calculation width is, for example, 50 points, and the shift from point A to point B is sequentially performed. While calculating the inclination frequency. Assuming that the point A is the sample point "000", the slope between the sample points "000" and "100" is calculated, and then the slope is shifted by 50 points between the sample points "050" and "150". Obtain the slope frequency. For example, the average sound pressure level of the sample point “000” is “325” and the sample point “1” is
When the average sound pressure level of “00” is “1576”, the slope frequency is (1576-325) /100=12.5
It becomes 1. Thereafter, sample points “100” and “20”
0 "," 150 "and" 250 "," 20 "
The slope frequency is calculated in order, such as between "0" and "300". FIG. 9B shows an example of the calculated inclination degree. As is clear from the figure, the sample point “00”
The gradient between 12.0 and 100 is 12.51, and the gradient between sample points 050 and 150 is 32.1.
42, the slope between sample points "100" and "200" is 20.12, sample point "150",
The slope between “250” is 11.84, the slope between sample points “200” and “300” is 5.24, the slope between sample points “250” and “350” is 4.82, and the sample point The gradient between “300” and “400” is 2.34, and the sample point “350”,
The gradient between “450” is 3.89, and the gradient between sample points “400” and “500” is 5.36. These gradients will be stored as the gradients at the former sample point. That is, the slope frequency of the sample point “000” is 12.51, and the slope frequency of the sample point “050” is 32.42, and the slope frequency is stored for each sample point. In this way, the gradient frequencies in all the sections from the point A to the point B are calculated, and the stable section extraction processing in the next step 42 is performed.

【0052】ステップ42:前記ステップ41で算出さ
れた傾斜度数に基づいて今度は安定区間の抽出を行う。
すなわち、各サンプルポイントにおける傾斜度数の中か
ら所定値(例えば10)以下のものを安定部分とみな
し、この安定部分とみなされたサンプルポイントの数が
所定数以上すなわち所定時間だけ継続している場合にそ
の連続した安定部分を安定区間とする。この所定時間
は、テンポも考慮に入れて、例えば、約2000サンプ
ルポイント程度とする。図9(A)のような平均音圧レ
ベルカーブの場合は、図9(C)のようなa,b,cの
3ヵ所が安定区間として探索されることになる。 ステップ43:前記ステップ42によって抽出された安
定区間の存在に基づいて人間は初めてその安定区間の開
始点付近に音符のトリガである音の開始点があることに
気付く。ここでは、その音符の開始点付近を決定するた
めに、前記ステップ42で抽出された安定区間を拡張す
る。この安定区間を拡張する場合、すなわち音符の開始
点を決定する場合、最初の安定区間aについては、必然
的にA点がその安定区間aの音符の開始点となり、最後
の安定区間cについては、必然的にB点がその安定区間
cの音符の終了点となる。ところが、安定区間aの音符
終了点、安定区間bの音符開始点は容易に求めることが
できない。そこで、安定区間の終了点から次の安定区間
の開始点までの間における傾斜度数の最も大きいサンプ
ルポイントをその安定区間の音符終了点及び次の安定区
間の音符開始点とすることにした。各安定区間aの音符
終了点及び安定区間bの音符開始点は図9(D)のよう
にC点となり、安定区間bの音符終了点及び安定区間c
の音符開始点はD点となる。なお、上述の説明では、傾
斜度数の最も大きいサンプルポイントを安定区間の音符
開始点及び次の安定区間の音符終了点とする場合につい
て説明したが、これに限らず、安定区間の終了点から次
の安定区間の開始点までの間で安定度数が所定の値(し
きい値)を最初に越えた場合のサンプルポイントを音符
終了点(音符開始点)としてもよいし、安定区間の開始
点の直前で所定の値(しいき値)を下回った場合のサン
プルポイントを音符終了点(音符開始点)としてもよい
し、以上の3つの方法で求められたサンプルポイントを
複合的に計算して新たに音符終了点(音符開始点)を求
めるようにしてもよい。このようにして求められた区間
AC,CD,DBがそれぞれのレベルに対応した安定区
間になる。すなわち、図9の場合、安定区間aのレベル
に対応した安定区間はACとなり、安定区間bのレベル
の対応した安定区間はCDとなり、安定区間cのレベル
に対応した安定区間はDBとなる。
Step 42: Based on the gradient calculated in step 41, a stable section is extracted this time.
In other words, when the slope frequency at each sample point is equal to or less than a predetermined value (for example, 10) as a stable portion, and the number of sample points regarded as the stable portion is equal to or more than a predetermined number, that is, for a predetermined time, Then, the continuous stable portion is defined as a stable section. The predetermined time is set to, for example, about 2000 sample points in consideration of the tempo. In the case of the average sound pressure level curve as shown in FIG. 9A, three locations a, b and c as shown in FIG. 9C are searched for as stable sections. Step 43: Based on the existence of the stable section extracted in step 42, the human first notices that there is a starting point of the note trigger sound near the starting point of the stable section. Here, in order to determine the vicinity of the starting point of the note, the stable section extracted in step 42 is extended. When extending this stable section, that is, when determining the start point of a note, for the first stable section a, the point A is necessarily the start point of the note in the stable section a, and for the last stable section c, Inevitably, point B is the end point of the note in the stable section c. However, the note end point of the stable section a and the note start point of the stable section b cannot be easily obtained. Therefore, the sample point having the largest inclination between the end point of the stable section and the start point of the next stable section is determined as the note end point of the stable section and the note start point of the next stable section. The note end point of each stable section a and the note start point of stable section b become point C as shown in FIG. 9D, and the note end point and stable section c of stable section b.
The note start point is point D. Note that, in the above description, the case where the sample point with the largest inclination is the note start point of the stable section and the note end point of the next stable section has been described. However, the present invention is not limited to this. The sample point when the stability degree first exceeds a predetermined value (threshold value) up to the start point of the stable section may be the note end point (note start point), or the start point of the stable section. A sample point in the case where the value falls below a predetermined value (threshold value) immediately before may be set as a note end point (note start point), or a sample point obtained by the above three methods may be compositely calculated and newly calculated. Alternatively, the note end point (note start point) may be obtained. The sections AC, CD, and DB obtained in this manner become stable sections corresponding to the respective levels. That is, in the case of FIG. 9, the stable section corresponding to the level of the stable section a is AC, the stable section corresponding to the level of the stable section b is CD, and the stable section corresponding to the level of the stable section c is DB.

【0053】図5は図1のステップ15の定常区間検出
処理の詳細を示す図である。ステップ14によって求め
られた安定区間の中から定常区間がどのようにして検出
されるのか、その定常区間検出処理の詳細を図10から
図17までの図面を用いて説明する。音声や楽音などの
音楽的なオーディオ信号を分析する場合、定常部がどこ
にあるかを知ることは重要なことである。リズム系以外
の音色では、定常部の周期性によって音高が決定され、
定常部を骨格として音価が決定されるからである。この
実施の形態では、定常部は、楽譜として表した時に一つ
の音符に相当する区間のことであり、音色、音高、ベロ
シティという音の3大要素の変化に注目し、人間が一つ
の音として認識する区間を時間軸上で検出しようとする
ことをいう。以下、図5のステップに従って、この定常
区間検出処理について説明する。
FIG. 5 is a diagram showing the details of the stationary section detection processing in step 15 of FIG. How the steady section is detected from the stable sections determined in step 14 will be described in detail with reference to FIGS. 10 to 17. When analyzing musical audio signals such as voices and musical sounds, it is important to know where the stationary part is. For non-rhythm sounds, the pitch is determined by the periodicity of the stationary part.
This is because the sound value is determined using the stationary part as a skeleton. In this embodiment, the stationary part is a section corresponding to one note when expressed as a musical score. Means to detect on the time axis a section recognized as. Hereinafter, the stationary section detection processing will be described according to the steps in FIG.

【0054】定常区間を検出するためには、まず音信号
波形の周期の基準位置を検出することが必要である。こ
の基準位置の検出方法には大きく分けて、0クロス位置
検出法とピーク位置検出法のいずれか一方を用いるのが
一般的である。0クロス位置検出法によって周期の基準
位置を検出するためには、フィルタ等で倍音をできるだ
け取り除かないと検出は困難であり、それに帯域分割も
必要である。ピーク位置検出法の場合も倍音をできるだ
け取り除くことが望ましいが、0クロス位置検出ほどは
シビアでないため、音声や楽器の発音可能周波数帯をカ
ットオフ周波数としてバンドパスフィルタを掛けるだけ
でよく、帯域分割などの処理を特に行う必要はない。従
って、ピーク位置検出法の方が手順が簡単で、そこそこ
の結果が得られる方法であり、望ましい。従って、この
実施の形態では、ピーク位置検出法のよって周期の基準
位置を検出する場合について説明する。
In order to detect a stationary section, it is necessary to first detect a reference position of the period of the sound signal waveform. The method of detecting the reference position can be roughly divided into one generally using either the 0 cross position detection method or the peak position detection method. In order to detect the reference position of the cycle by the 0 cross position detection method, it is difficult to detect the overtone without removing as much as possible of the overtone with a filter or the like, and band division is also required. In the case of the peak position detection method as well, it is desirable to remove harmonics as much as possible, but since it is not as severe as the 0 cross position detection, it is only necessary to apply a band-pass filter with the cut-off frequency of the audible frequency band of the voice or instrument. There is no particular need to perform such processing. Therefore, the peak position detection method is simpler in procedure, and a method that can obtain a reasonable result is desirable. Therefore, in this embodiment, the case where the reference position of the cycle is detected by the peak position detection method will be described.

【0055】ステップ51:第1次バンドパスフィルタ
(第1次BPF)を通過させて、所定の倍音を削除す
る。これは、発音可能な帯域をカットオフ周波数とし
て、バンドパスフィルタを掛けることである。音声の場
合、人間の発音可能な帯域は80〜1000Hz程度で
あり、ユーザを限定せずに、オールマイティに分析する
にはこれくらいが必要である。但し、ユーザが限定され
ている場合には、発音可能な帯域をある程度絞ることに
よって、倍音による間違いを減少させて、検出精度を向
上させることができる。ギターなら、80〜700Hz
程度であるが、これも予め音高枠を決めておくと精度が
上がる。楽器ごとの違いなども予め設定しておくと精度
が向上する。図10(A)は、第1次BPF処理後の音
声波形の一部を示すものである。 ステップ52:ステップ51の第1次BPF処理によっ
て得られた楽音波形信号に対してピーク位置検出法を用
いて1周期の基準となるピーク基準位置検出処理を行
う。このピーク位置検出方法は公知の手法によって行
う。楽音波形のピークレベルを検知して、これを所定の
時定数回路で保持し、その保持されている値をスレッシ
ュルドホールド電圧として次にこのスレッシュルドホー
ルド電圧以上になった場合を次のピークレベルとして保
持し、それを順次繰り返すことによって、図10(A)
のようなピーク位置を検出することができる。図10
(A)はこのピーク位置を検出する際のスレッシュルド
ホールド電圧の様子を示す図である。図10(A)の音
声波形からは、図10(B)のようなピーク位置が検出
されることになる。図10(B)ではピーク基準位置P
1,P2,P3,P6は共に規則正しく所定の位置で現
れているが、ピーク基準位置P4,P5については、音
声波形の若干の乱れによって誤差を含む位置にピークが
現れている。これは、ステップ51の第1次BPF処理
のカットオフ周波数の帯域が広い範囲を網羅しているた
め、図10(A)のようにピーク位置が連続して表れた
からである。
Step 51: A predetermined harmonic is deleted by passing through a first-order band-pass filter (first-order BPF). This is to apply a band-pass filter using a soundable band as a cutoff frequency. In the case of voice, the band that can be pronounced by a human is about 80 to 1000 Hz, and this is necessary for analyzing almighty without limiting the user. However, when the number of users is limited, it is possible to reduce errors due to overtones and improve the detection accuracy by narrowing the soundable band to some extent. 80-700Hz for guitar
However, if the pitch frame is determined in advance, the accuracy is improved. The accuracy can be improved by setting in advance the differences for each instrument. FIG. 10A shows a part of the audio waveform after the first BPF processing. Step 52: A peak reference position detection process, which is a reference for one cycle, is performed on the musical tone waveform signal obtained by the first-order BPF process of step 51 using a peak position detection method. This peak position detection method is performed by a known method. The peak level of the musical tone waveform is detected and held by a predetermined time constant circuit, and the held value is set as a threshold voltage. 10A by sequentially repeating the process,
Can be detected. FIG.
(A) is a diagram showing a state of a threshold hold voltage when detecting this peak position. From the audio waveform of FIG. 10A, a peak position as shown in FIG. 10B is detected. In FIG. 10B, the peak reference position P
1, P2, P3, and P6 regularly appear at predetermined positions, but peaks appear at peak reference positions P4 and P5 at positions including errors due to slight disturbance of the audio waveform. This is because the peak position appears continuously as shown in FIG. 10A because the band of the cutoff frequency of the first-order BPF processing in step 51 covers a wide range.

【0056】ステップ53:前記ステップ52で検出さ
れたピーク基準位置に基づいて、あるピーク基準位置か
ら始まる基本区間と、その基本区間の直後の次のピーク
基準位置までの区間(以下、移動区間とする)との間の
2つの区間の波形について波形が同じであるか否かの比
較を行う。図10(B)に示されるピーク基準位置につ
いて考察すると、ピーク基準位置P1からピーク基準位
置P2までが区間d、ピーク基準位置P2からピーク基
準位置P3までが区間eとなる。このとき、両区間d,
eは帯域最低長よりも大きく、帯域最高長よりも小さい
ので、区間dが基本区間となり、区間eが移動区間とな
り、後述する波形比較処理の対象となる。次に、区間e
が基本区間となり、ピーク基準位置P3からピーク基準
位置P4までが区間fとなる。このとき、両区間e,f
は帯域最低長よりも大きく、帯域最高長よりも小さいの
で、今度は区間eが基本区間となり、区間fが移動区間
となり、後述する波形比較処理の対象となる。ところ
が、ピーク基準位置P4からピーク基準位置P5までの
区間は帯域最低長よりも小さいので、比較対象の区間と
はならずに、次のピーク基準位置P5からピーク基準位
置P6までの区間gが区間fとの波形比較対象となる。
なお、波形比較処理の結果、区間f及び区間gは他の区
間dや区間eとは異なった波形として認識されることに
なる。まず、ワーキングメモリ(RAM)には、ピーク
基準位置情報をアドレスとして、そこに一致フラグ又は
不一致フラグがそれぞれ書き込まれるデータ領域が設け
られる。そして、図10(B)のような場合には、区間
dと区間eとは一致すると判定されるので、区間eに対
応するピーク基準位置情報P2に関するデータ領域には
一致フラグが書き込まれる。一方、区間eと区間fとは
一致しないと判定されるので、区間fに対応するピーク
基準位置情報P3に関するデータ領域には不一致フラグ
が書き込まれる。ピーク基準位置P4からピーク基準位
置P5までの区間は帯域最低長よりも小さいので、ピー
ク基準位置情報P4及びP5に関するデータ領域には不
一致フラグが書き込まれる。なお、ピーク基準位置情報
P1及びP6に関するデータ領域には一致フラグが書き
込まれているものとする。このようにして順次ピーク基
準位置情報と共に書き込まれた一致フラグ及び不一致フ
ラグの様子が図10(C)に示されている。
Step 53: Based on the peak reference position detected in step 52, a basic section starting from a certain peak reference position and a section up to the next peak reference position immediately after the basic section (hereinafter referred to as a moving section). ) Are compared with each other to determine whether or not the waveforms are the same in the two sections. Considering the peak reference position shown in FIG. 10B, a section d is from the peak reference position P1 to the peak reference position P2, and a section e is from the peak reference position P2 to the peak reference position P3. At this time, both sections d,
Since e is larger than the minimum band length and smaller than the maximum band length, the section d is a basic section, the section e is a moving section, and is subjected to a waveform comparison process described later. Next, section e
Is a basic section, and a section from the peak reference position P3 to the peak reference position P4 is a section f. At this time, both sections e and f
Is larger than the minimum band length and smaller than the maximum band length, so that the section e becomes a basic section and the section f becomes a moving section, and is subjected to a waveform comparison process described later. However, since the section from the peak reference position P4 to the peak reference position P5 is smaller than the minimum bandwidth, the section g from the next peak reference position P5 to the peak reference position P6 is not a section to be compared. f is a waveform comparison target.
As a result of the waveform comparison processing, the sections f and g are recognized as different waveforms from the other sections d and e. First, the working memory (RAM) is provided with a data area in which a match flag or a non-match flag is written, using the peak reference position information as an address. Then, in the case as shown in FIG. 10B, since it is determined that the section d and the section e match, a match flag is written in the data area related to the peak reference position information P2 corresponding to the section e. On the other hand, since it is determined that the section e does not match the section f, a mismatch flag is written in the data area related to the peak reference position information P3 corresponding to the section f. Since the section from the peak reference position P4 to the peak reference position P5 is smaller than the minimum bandwidth, a mismatch flag is written in the data area related to the peak reference position information P4 and P5. It is assumed that a match flag has been written in the data area relating to the peak reference position information P1 and P6. FIG. 10C shows the state of the match flag and the mismatch flag which are sequentially written together with the peak reference position information.

【0057】波形比較処理は後述する誤差率を算出する
方法によって行われる。図13はこの波形比較処理の中
で行われる誤差率の算出方法を説明するための図であ
る。まず、誤差率の算出対象となる2つの波形が図12
の示すような比較波1Xと比較波2Xであるとする。こ
の波形は図10のピーク基準位置によって区切られた範
囲となる。まず、比較波1X及び比較波2Xについて、
最大振幅値が100パーセントとなるようにその振幅値
の正規化を行う。まず、比較波1Xは比較波1Yとな
り、比較波2Xは比較波2Yとなる。ここで、比較波2
Xは比較波1Xに比べて時間軸(横軸)方向の長さが短
いので、比較波2Xを比較波1Xと同じ時間幅となるよ
うに伸長する。すなわち、比較波2Yの時間軸を伸長し
て比較波2Zにする。この比較波1Yと比較波2Zとの
間で誤差率の計算が行われる。図13は、比較波1Yと
比較波2Zとの間の誤差率を算出する場合の具体的な値
を示す図である。図では、比較波1Yと比較波2Zの最
初の1周期の波形すなわちサンプリング数で24個分に
ついて誤差率を算出する場合について説明する。比較波
1Yと比較波2Zの同じサンプリング位置についてその
差分を算出し、その差分の絶対値の合計を求める。図1
3の場合には絶対値の合計値は122である。これをサ
ンプリング数24で除することによって、誤差率が求ま
る。この場合には誤差率は5となる。そこで、同じ波形
がどうかのしいき値を10とすれば、図13の場合の誤
差率5は10以下なので、同じ波形として処理されるこ
とになる。なお、図13において、各波形は1000を
最大レベルとして正規化されている。
The waveform comparison processing is performed by a method for calculating an error rate, which will be described later. FIG. 13 is a diagram for explaining a method of calculating an error rate performed in the waveform comparison processing. First, two waveforms for which the error rate is calculated are shown in FIG.
It is assumed that the comparison wave 1X and the comparison wave 2X as shown in FIG. This waveform is a range divided by the peak reference position in FIG. First, regarding the comparison wave 1X and the comparison wave 2X,
The amplitude value is normalized so that the maximum amplitude value becomes 100%. First, the comparison wave 1X becomes the comparison wave 1Y, and the comparison wave 2X becomes the comparison wave 2Y. Here, comparison wave 2
Since X has a shorter length in the time axis (horizontal axis) direction than the comparative wave 1X, the comparative wave 2X extends so as to have the same time width as the comparative wave 1X. That is, the time axis of the comparison wave 2Y is extended to make the comparison wave 2Z. The error rate is calculated between the comparison wave 1Y and the comparison wave 2Z. FIG. 13 is a diagram showing specific values when calculating the error rate between the comparison wave 1Y and the comparison wave 2Z. In the figure, a case will be described in which the error rates are calculated for the waveforms of the first cycle of the comparison wave 1Y and the comparison wave 2Z, that is, for 24 sampling waves. The difference is calculated for the same sampling position of the comparison wave 1Y and the comparison wave 2Z, and the sum of the absolute values of the difference is calculated. FIG.
In the case of 3, the total value of the absolute values is 122. By dividing this by the sampling number 24, the error rate is obtained. In this case, the error rate is 5. Therefore, if the threshold value of the same waveform is set to 10, the error rate 5 in the case of FIG. 13 is 10 or less, so that the same waveform is processed. In FIG. 13, each waveform is normalized with 1000 as the maximum level.

【0058】ステップ54:ステップ53の波形比較処
理の結果を利用して、誤差率が所定値(例えば10)よ
りも小さな区間同士を繋げて、それを疑似的な一致区間
とし、各一致区間から抽出されるピッチの最大値と最小
値を検出し、それに基づいてカットオフ周波数帯を決定
する。例えば、波形比較処理の結果得られた複数の一致
区間の中のピッチの最小値が235ポイントで、最大値
が365ポイントだとする。この一致区間にやや余裕を
持たせるために、最小値を1割減とし、最大値を1割増
しとすると、一致区間は約212ポイントから約402
ポイントになる。これは、サンプリング周波数が44.
1kHzだと、110Hzから208Hzのオーディオ
信号の周波数帯に相当する。従って、この110Hzか
ら208Hzをカットオフ周波数帯とする。 ステップ55:ステップ54で決定された新たなカット
オフ周波数帯を用いて、第2次バンドパスフィルタ(第
2次BPF)を通過させて、不要な倍音を除去する。例
えば、前述の場合には、カットオフ周波数帯は110H
zから208Hzの範囲となる。これによって、倍音に
よる間違いを減少させて、検出精度を向上させることが
できる。 ステップ56:ステップ52のピーク基準位置検出処理
と同じ処理を行う。 ステップ57:ステップ53の波形比較処理と同じ処理
を行う。 ステップ55からステップ57までの一連の処理によっ
て、誤差の原因となる低周波や高調波がカットされてよ
り精度の高いピーク基準位置検出処理及び波形比較処理
が可能となり、前回よりも精度の高い一致区間が得られ
る。ステップ57の波形比較処理によって、図10
(C)のように一致フラグ及び不一致フラグによって特
徴付けられた有効区間の波形は、図10(D)のような
三つの定常区間X,Y,Zのようなピッチ列が求められ
る。
Step 54: Using the result of the waveform comparison processing in step 53, the sections in which the error rate is smaller than a predetermined value (for example, 10) are connected to each other to make a pseudo matching section. The maximum value and the minimum value of the extracted pitch are detected, and the cutoff frequency band is determined based on the maximum value and the minimum value. For example, suppose that the minimum value of the pitch in a plurality of matching sections obtained as a result of the waveform comparison processing is 235 points, and the maximum value is 365 points. Assuming that the minimum value is reduced by 10% and the maximum value is increased by 10% in order to give a margin to this coincidence section, the coincidence section becomes from about 212 points to about 402 points.
Become a point. This means that the sampling frequency is 44.
If it is 1 kHz, it corresponds to a frequency band of an audio signal of 110 Hz to 208 Hz. Accordingly, the cutoff frequency band is from 110 Hz to 208 Hz. Step 55: Using the new cut-off frequency band determined in Step 54, the signal is passed through a second-order band-pass filter (second-order BPF) to remove unnecessary harmonics. For example, in the above case, the cutoff frequency band is 110H
The range is from 208 to 208 Hz. As a result, errors due to harmonics can be reduced, and the detection accuracy can be improved. Step 56: The same processing as the peak reference position detection processing of step 52 is performed. Step 57: The same processing as the waveform comparison processing of step 53 is performed. By a series of processes from step 55 to step 57, low frequencies and harmonics that cause an error are cut, and a more accurate peak reference position detection process and a waveform comparison process can be performed. A section is obtained. By the waveform comparison processing of step 57, FIG.
As shown in FIG. 10C, a pitch sequence such as three steady intervals X, Y, and Z as shown in FIG. 10D is obtained from a waveform of an effective section characterized by a match flag and a mismatch flag.

【0059】ステップ58:ステップ57までの処理に
よって得られた図10(D)のようなピッチ列を用いて
も良いが、さらに精度を高めるために、各ピーク基準位
置におけるピッチデータを補間して、1サンプルポイン
ト毎に1ピッチデータとなるように補間する。この場合
に、図10(A)から明らかなように最初のピーク基準
位置より前のサンプルポイント及び最後のピーク基準位
置より後のサンプルポイントについては、補間するため
のピッチデータが存在しないためピッチの補間を行うこ
とができない。そこで、最初のピーク基準位置より前の
サンプルポイントについては最初のピーク位置における
ピッチデータを、最後のピーク基準位置より後のサンプ
ルポイントについては最後のピーク位置におけるピッチ
データをそのまま適用することにした。そして、それぞ
れのピーク基準位置間においては、両者のピッチデータ
の値を直線補間して適用する。例えば、図10(B)に
おいて、ピーク基準位置P1のピッチデータがPD1、
ピーク基準位置P2のピッチデータがPD2であるとす
れば、ピーク基準位置P1とP2との間の任意のサンプ
ルポイントPVにおけるピッチデータは、次式によって
求められる。 (PD2−PD1)×(PV−PA)/(P2−P1)
Step 58: The pitch sequence as shown in FIG. 10D obtained by the processing up to step 57 may be used, but in order to further improve the accuracy, the pitch data at each peak reference position is interpolated. , Interpolation is performed so that one pitch data is obtained for each sample point. In this case, as apparent from FIG. 10 (A), for the sample points before the first peak reference position and the sample points after the last peak reference position, since there is no pitch data for interpolation, the pitch Interpolation cannot be performed. Therefore, pitch data at the first peak position is applied to the sample points before the first peak reference position, and pitch data at the last peak position is applied to the sample points after the last peak reference position. Then, between the respective peak reference positions, the values of both pitch data are linearly interpolated and applied. For example, in FIG. 10B, the pitch data of the peak reference position P1 is PD1,
Assuming that the pitch data at the peak reference position P2 is PD2, the pitch data at an arbitrary sample point PV between the peak reference positions P1 and P2 is obtained by the following equation. (PD2-PD1) x (PV-PA) / (P2-P1)

【0060】ステップ59:ステップ58の処理によっ
て求められた各サンプルポイント毎のピッチデータを用
いてバンドパスフィルタ処理を行う。すなわち、ピッチ
データは時間経過と共に変化するので、カットオフ周波
数帯も時間的に変動する、いわやる時変動バンドパスフ
ィルタ(BPF)処理を行う。これによって、楽音波形
信号はサイン波形に近い波形に変形されるので、このよ
うな波形に対してピーク位置検出処理を行うことによっ
て、理想的なピーク位置検出を行うことができる。ま
た、これを基準に比較処理を行えるので、誤差が最小限
に抑えられるようになるため、高精度で同波形(同母
音)区間を見つけることが可能となる。 ステップ5A:ステップ59の時変動BPF処理を経た
楽音波形に対して、ステップ52のピーク基準位置検出
処理と同じ処理を行う。 ステップ5B:ステップ59の時変動BPF処理を経た
楽音波形に対して、ステップ53の波形比較処理と同じ
処理を行う。
Step 59: Band-pass filter processing is performed using the pitch data for each sample point obtained by the processing of step 58. That is, since the pitch data changes with the passage of time, the so-called time-varying band-pass filter (BPF) processing in which the cutoff frequency band also varies with time is performed. As a result, the tone waveform signal is deformed into a waveform close to a sine waveform. By performing peak position detection processing on such a waveform, ideal peak position detection can be performed. In addition, since the comparison process can be performed based on this, the error can be minimized, so that the same waveform (same vowel) section can be found with high accuracy. Step 5A: The same processing as the peak reference position detection processing in step 52 is performed on the musical tone waveform that has undergone the time-varying BPF processing in step 59. Step 5B: The same processing as the waveform comparison processing in step 53 is performed on the musical tone waveform that has undergone the time-varying BPF processing in step 59.

【0061】上述の説明では、図5の定常区間検出処理
のステップ52、56及び5Aでは、楽音波形のプラス
側だけに注目してピーク基準位置を検出する場合につい
て説明したが、音声音や楽器音などのようにピッチを有
する楽音波形は、プラス側、マイナス側、又はプラス側
マイナス側の両側に強いピークが現れることがある。従
って、前述のようにプラス側にピークが強く現れている
場合にはプラス側に注目してピーク基準位置を検出する
ことによって、ピッチの検出が可能である。この場合、
鋭いピークが両側に現れている場合も問題ないが、マイ
ナス側に偏って強く現れる場合がある。このような場合
には、その強く現れる側に注目してピーク基準位置の検
出を行う方が良いことは言うまでもない。仮に、ピーク
基準位置の検出をピークが弱く現れる方向に注目して行
ったとすると、ピーク基準位置の検出自体が曖昧にな
り、思ったようにピッチを検出することができなくなる
というおそれが生じる。ピークがプラス側マイナス側の
どちらかに偏って現れるという現象は、発音する人間や
楽器のその時々の条件に応じて種々変化するものなの
で、一概にどちら側に注目してピーク基準位置を検出し
たらよいかということは言えないのが現状である。そこ
で、強いピークがどちら側に現れてもよいように、予め
楽音波形をチェックして、ピークがプラス側又はマイナ
ス側のどちらに強く現れているかを検出し、検出された
側の楽音波形に基づいてピーク基準位置の検出及びピッ
チ検出を行うようにすればよい。例えば、図5のステッ
プ51の第1次BPF処理後における安定区間の楽音波
形が図11のようであったとする。この楽音波形の場
合、強いピークはマイナス側に現れ、弱いピークがプラ
ス側に現れている。この楽音波形の両側についてピーク
基準位置の検出処理を施した場合、ピークの強さは異な
るがどちら側にも安定したピークが現れているので、プ
ラス側でもマイナス側でもほぼ変わりなく規則的なピー
ク基準位置を検出することは可能である。従って、この
楽音波形の場合には、プラス側に注目して図5の定常区
間検出処理を行ってもなんら支障はないことになる。し
かしながら、楽音波形によっては、周期が比較的短かく
て、長く繰り返す波形などの場合には、徐々にそのピー
クが鈍ることもあり、プラス側だけに注目して定常区間
処理を行った場合に、正確なピーク基準位置を検出でき
なくなることがある。従って、図11のような波形の場
合でも、できるだけ強いピークの現れるマイナス側に注
目することが望ましい。そこで、図4の安定区間検出処
理によって検出された安定区間毎に、その区間全体で楽
音波形の絶対値の最大がプラス側又はマイナス側のどち
らに存在するかを検出し、検出する側に注目してピーク
基準位置の検出を行うようにすればよい。図11の場合
にはマイナス側に絶対値の最大が存在するので、マイナ
ス側に注目してピーク基準位置の検出が行うことが望ま
しいことになる。これによって、倍音などに惑わされる
ことなくピーク基準位置を検出することができる。
In the above description, in steps 52, 56 and 5A of the stationary section detection processing in FIG. 5, the case where the peak reference position is detected by focusing only on the plus side of the musical sound waveform has been described. A musical sound waveform having a pitch, such as a sound, may have strong peaks on both the plus side, the minus side, and both the plus side and the minus side. Therefore, as described above, when a peak appears strongly on the plus side, the pitch can be detected by focusing on the plus side and detecting the peak reference position. in this case,
There is no problem when sharp peaks appear on both sides, but they sometimes appear strongly on the negative side. In such a case, it is needless to say that it is better to detect the peak reference position by paying attention to the strong appearance side. If the peak reference position is detected by paying attention to the direction in which the peak appears weakly, the detection of the peak reference position itself becomes ambiguous, and the pitch may not be detected as expected. The phenomenon that the peak appears to be biased to either the plus side or the minus side varies variously depending on the conditions of the sounding person or instrument at each time, so if you focus on either side and detect the peak reference position At present it is not possible to say that it is good. Therefore, the tone waveform is checked in advance so that a strong peak may appear on either side, and whether the peak appears strongly on the plus side or the minus side is detected, and based on the tone waveform on the detected side. Then, the peak reference position and the pitch may be detected. For example, it is assumed that the tone waveform in the stable section after the first-order BPF processing in step 51 in FIG. 5 is as shown in FIG. In the case of this tone waveform, a strong peak appears on the minus side, and a weak peak appears on the plus side. When the peak reference position is detected on both sides of this musical tone waveform, the peak intensity is different, but stable peaks appear on both sides. It is possible to detect the reference position. Therefore, in the case of this musical tone waveform, there is no problem even if the stationary section detection processing of FIG. 5 is performed by focusing on the plus side. However, depending on the musical sound waveform, in the case of a waveform having a relatively short cycle and a long repetition, the peak may gradually become dull. When the stationary section processing is performed by paying attention only to the plus side, In some cases, an accurate peak reference position cannot be detected. Therefore, even in the case of the waveform as shown in FIG. 11, it is desirable to pay attention to the minus side where the strongest peak appears. Therefore, for each stable section detected by the stable section detection processing of FIG. 4, it is detected whether the maximum of the absolute value of the musical tone waveform exists on the plus side or the minus side in the entire section, and attention is paid to the side on which the detection is performed. Then, the peak reference position may be detected. In the case of FIG. 11, since the maximum of the absolute value exists on the minus side, it is desirable to detect the peak reference position by paying attention to the minus side. This makes it possible to detect the peak reference position without being disturbed by harmonics or the like.

【0062】なお、上述の実施の形態では、楽音波形の
ピークレベルを検知して、これを所定の時定数回路で保
持し、その保持されている値をスレッシュルドホールド
電圧として次にこのスレッシュルドホールド電圧以上に
なった場合を次のピークレベルとして保持し、それを順
次繰り返すことによって、ピーク位置を検出していた。
しかしながら、この方法だと、時定数をどの程度に設定
するかによって、所望のピーク基準位置を検出すること
ができるか否かが決定していたので、倍音を相当な帯域
で含む音声音や楽器音の場合には、整然としたピークが
なかなか出現しない場合が多いという問題を有してい
た。そこで、上述の実施の形態では、検出されたピーク
基準位置が後の周波数帯決定処理に用いることのできる
正確なものであるか否かの判定を、検出されたピーク位
置に基づいた波形比較処理によって行っていた。このこ
とは、前述のピーク基準位置検出処理によって検出され
たピーク位置がさほど正確なものでもなくてもよいとい
うことを意味するものである。そこで、楽音波形のピー
クレベルを検知する場合に、時定数をある程度小さめに
設定しておき、楽音波形からピーク基準位置として可能
性のあるものを多数抽出し、抽出されたピーク基準位置
に基づいて波形比較処理を行って、ピーク基準位置を順
次決定していくようにしてもよい。この場合、図14の
ような楽音波形のプラス側に注目してピーク位置を検出
すれば、各ピーク位置は1周期内で3箇所抽出される。
この1周期当たり3箇所のピーク位置に基づいてそれぞ
れ波形比較処理を行うと、その処理に要する時間は大変
なものとなる。故に、ここでは、まず、同波形であると
認定された区間に基づいて、これ以降の同波形区間の検
出処理を効率的に行うようにした。例えば、図14のよ
うな楽音波形の場合、ピーク位置としてPa〜Poが検
出されることになる。従って、最初に波形比較処理され
るのは、ピーク位置Paを起点とした以下の16通りの
組み合わせについてである。(Pa−Pb)と(Pb−
Pc)、(Pa−Pb)と(Pb−Pd)、(Pa−P
b)と(Pb−Pe)、(Pa−Pb)と(Pb−P
f)、(Pa−Pc)と(Pc−Pd)、(Pa−P
c)と(Pc−Pe)、(Pa−Pc)と(Pc−P
f)、(Pa−Pc)と(Pc−Pg)、(Pa−P
d)と(Pd−Pe)、(Pa−Pd)と(Pd−P
f)、(Pa−Pd)と(Pd−Pg)、(Pa−P
d)と(Pd−Ph)、(Pa−Pe)と(Pe−P
f)、(Pa−Pe)と(Pe−Pg)、(Pa−P
e)と(Pe−Ph)、(Pa−Pe)と(Pe−P
i)この結果、区間(Pa−Pd)と区間(Pd−P
g)の波形が一致すると判定される。この結果、ピーク
位置Paはピッチ基準位置PPaとなり、他のピーク位
置Pb,Pcは候補から除外される。そして、次はピー
ク位置Pdを起点として同じようして16通りの組み合
わせについて波形比較処理を行い、ピーク位置Pdがピ
ッチ基準位置PPdとなる。以下、同様にして、ピッチ
基準位置が次々と検出されることになる。なお、16通
りの中から同波形区間を検出する場合には、16通り全
ての誤差率を算出し、その中で所定値(例えば10)以
下の誤差率で最小のものを同波形区間としてもよいし、
順次算出された誤差率の中で所定値(例えば10)以下
のものが現れた時点でそれを同波形区間としてもよい。
In the above-described embodiment, the peak level of the tone waveform is detected and held by a predetermined time constant circuit, and the held value is set as a threshold hold voltage. The case where the voltage is equal to or higher than the hold voltage is held as the next peak level, and the peak position is detected by sequentially repeating the level.
However, according to this method, it is determined whether or not a desired peak reference position can be detected depending on how much the time constant is set. In the case of a sound, there is a problem that an orderly peak often does not easily appear. Therefore, in the above-described embodiment, the determination whether or not the detected peak reference position is an accurate one that can be used in the subsequent frequency band determination processing is performed by the waveform comparison processing based on the detected peak position. Had gone by. This means that the peak position detected by the above-described peak reference position detection process may not be very accurate. Therefore, when detecting the peak level of the musical sound waveform, the time constant is set to a small value to some extent, a large number of possible peak reference positions are extracted from the musical sound waveform, and based on the extracted peak reference position. A waveform comparison process may be performed to sequentially determine the peak reference position. In this case, if the peak positions are detected by paying attention to the plus side of the musical tone waveform as shown in FIG. 14, three peak positions are extracted in one cycle.
When the waveform comparison processing is performed based on the three peak positions per one cycle, the time required for the processing becomes very long. Therefore, here, based on the section determined to have the same waveform, the subsequent detection processing of the same waveform section is performed efficiently. For example, in the case of a musical tone waveform as shown in FIG. 14, Pa to Po are detected as peak positions. Therefore, the waveform comparison processing is first performed for the following 16 combinations starting from the peak position Pa. (Pa-Pb) and (Pb-
Pc), (Pa-Pb) and (Pb-Pd), (Pa-P
b) and (Pb-Pe), (Pa-Pb) and (Pb-P)
f), (Pa-Pc) and (Pc-Pd), (Pa-P
c) and (Pc-Pe), (Pa-Pc) and (Pc-P)
f), (Pa-Pc) and (Pc-Pg), (Pa-P
d) and (Pd-Pe), (Pa-Pd) and (Pd-P)
f), (Pa-Pd) and (Pd-Pg), (Pa-P
d) and (Pd-Ph), (Pa-Pe) and (Pe-P
f), (Pa-Pe) and (Pe-Pg), (Pa-P
e) and (Pe-Ph), (Pa-Pe) and (Pe-P)
i) As a result, the section (Pa-Pd) and the section (Pd-P
It is determined that the waveforms in g) match. As a result, the peak position Pa becomes the pitch reference position PPa, and the other peak positions Pb and Pc are excluded from the candidates. Then, waveform comparison processing is performed for 16 combinations in the same manner starting from the peak position Pd, and the peak position Pd becomes the pitch reference position PPd. Hereinafter, similarly, the pitch reference positions are successively detected. When the same waveform section is detected from the 16 patterns, the error rates of all 16 patterns are calculated, and the smallest one having an error rate equal to or less than a predetermined value (for example, 10) is set as the same waveform section. Good
When an error rate that is less than or equal to a predetermined value (for example, 10) appears in the sequentially calculated error rates, it may be set as the same waveform section.

【0063】このように同波形区間を抽出するのに多数
の組み合わせについて誤差率の算出処理を行っている
と、相当の時間を要することになるので、ここでは、前
述のように同波形であると認定された区間に基づいて、
これ以降の同波形区間の検出処理を行う。すなわち、前
述の16通りの組み合わせの中でも、(Pa−Pb)と
(Pb−Pd)、(Pa−Pb)と(Pb−Pe)、
(Pa−Pb)と(Pb−Pf)、(Pa−Pc)と
(Pc−Pd)、(Pa−Pc)と(Pc−Pg)、
(Pa−Pd)と(Pd−Pe)、(Pa−Pd)と
(Pd−Pf)、(Pa−Pe)と(Pe−Pf)、
(Pa−Pe)と(Pe−Pg)の9通りについては比
較処理を行わない。これは比較対象の波形区間長の比が
2倍近いので、比較するまでもなく同波形とはなりえな
いので、事前にそれらの比較を行わないようにするため
である。従って、ここでは、次の7通りの組み合わせに
ついて波形比較処理を行う。(Pa−Pb)と(Pb−
Pc)、(Pa−Pc)と(Pc−Pe)、(Pa−P
c)と(Pc−Pf)、(Pa−Pd)と(Pd−P
g)、(Pa−Pd)と(Pd−Ph)、(Pa−P
e)と(Pe−Ph)、(Pa−Pe)と(Pe−P
i) すると、前述の場合と同じく区間(Pa−Pd)と区間
(Pd−Pg)の波形が一致すると判定される。この結
果、ピーク位置Paはピッチ基準位置PPaとなり、他
のピーク位置Pb,Pcは候補から除外される。そし
て、次はピーク位置Pdを起点として同じようして7通
りの組み合わせについて波形比較処理を行うことになる
が、ここでは、区間(Pd−Pg)に基づいて、次の比
較対象となる区間を限定する。すなわち、区間(Pd−
Pg)の区間長に±αとなるような区間(Pg−P
i)、(Pg−Pj)、(Pg−Pk)に対して波形比
較処理を行う。ここで、αとして、例えば、区間(Pa
−Pd)の約4分の1の長さを用いる。なお、αにはこ
れ以外の適当な値を用いてもよいことはいうまでもな
い。この波形比較処理の結果、区間(Pd−Pg)と区
間(Pg−Pj)が同波形区間と判定される。従って、
これ以降は3通りの組み合わせについて波形比較処理を
行えばよいので、演算処理が非常に楽になる。
As described above, it takes a considerable amount of time to calculate the error rate for a large number of combinations in order to extract the same waveform section. Therefore, here, the same waveform section is used as described above. Based on the sections that have been certified as
Thereafter, the same waveform section is detected. That is, (Pa-Pb) and (Pb-Pd), (Pa-Pb) and (Pb-Pe) among the 16 combinations described above.
(Pa-Pb) and (Pb-Pf), (Pa-Pc) and (Pc-Pd), (Pa-Pc) and (Pc-Pg),
(Pa-Pd) and (Pd-Pe), (Pa-Pd) and (Pd-Pf), (Pa-Pe) and (Pe-Pf),
No comparison processing is performed for the nine cases (Pa-Pe) and (Pe-Pg). This is because the ratio of the waveform section lengths to be compared is almost twice, and it is impossible to obtain the same waveform without comparison, so that those comparisons are not performed in advance. Therefore, here, the waveform comparison processing is performed for the following seven combinations. (Pa-Pb) and (Pb-
Pc), (Pa-Pc) and (Pc-Pe), (Pa-P
c) and (Pc-Pf), (Pa-Pd) and (Pd-P
g), (Pa-Pd) and (Pd-Ph), (Pa-P
e) and (Pe-Ph), (Pa-Pe) and (Pe-P)
i) Then, it is determined that the waveforms of the section (Pa-Pd) and the section (Pd-Pg) match as in the case described above. As a result, the peak position Pa becomes the pitch reference position PPa, and the other peak positions Pb and Pc are excluded from the candidates. Next, the waveform comparison process is performed for the seven combinations in the same manner starting from the peak position Pd. Here, based on the interval (Pd-Pg), the next interval to be compared is determined. limit. That is, the section (Pd−
Pg) (Pg−P)
i), (Pg-Pj) and (Pg-Pk) are subjected to waveform comparison processing. Here, as α, for example, the section (Pa
Use about a quarter of the length of -Pd). It goes without saying that other appropriate values may be used for α. As a result of this waveform comparison processing, the section (Pd-Pg) and the section (Pg-Pj) are determined to be the same waveform section. Therefore,
Thereafter, since the waveform comparison process may be performed for the three combinations, the calculation process becomes very easy.

【0064】ステップ5C:ステップ51からステップ
5Bまでの処理によって得られた定常区間を拡張する。
すなわち、ステップ51からステップ5Bまでの処理を
行った結果、各定常区間X,Y,Zが図10(D)のよ
うに1個の不一致区間によって区切られている場合はよ
いが、図10(C)のように定常区間が複数の不一致区
間によって区切られている場合には、各不一致区間を定
常区間に接続して、定常区間を拡張しなければならな
い。このステップ5Cはこの定常区間の拡張処理を行う
ものである。例えば、ステップ51からステップ5Bま
での処理によって、1つの安定区間が図15のように第
1同母音部XXと第2同母音部YYという同波形区間す
なわち定常区間が決定された場合、その安定区間の先頭
部分に接する第1同母音部XXの先頭周期区間S1と、
安定区間の末尾部分に接する第2同母音部YYの最終周
期区間E2とは、その安定区間に沿って拡張すればよ
い。ところが、第1同母音部XXと第2同母音部YYと
の間の不一致区間N1〜N6については単純に拡張する
ことはできないので、次のように拡張する。まず、前記
ステップ53、57及び5Bの波形比較処理よりも誤差
率の許容度の大きい拡張用誤差率に基づいて、第1同母
音部XXの最終周期区間E1と不一致区間N1、N2、
N3、N4、N5、N6の順に比較し、拡張用誤差率よ
りも小さいと判断された不一致区間を第1同母音部XX
に組み込んで拡張する。同じく第2同母音部YYの先頭
周期区間S2と不一致区間N6、N5、N4、N3、N
2、N1の順に比較し、拡張用誤差率よりも小さいと判
断された不一致区間を両方の同母音部XX、YYに組み
込んで拡張する。図15(A)の場合は、不一致区間N
1,N2が第1同母音部XXに組み込まれ、不一致区間
N6が第2同母音部YYに組み込まれ、結果として、図
15(B)のようになったとする。なお、各同母音区間
に組み込まれずに残った不一致区間N3,N4,N5は
次のようにして、いずれかの同母音区間に組み込むよう
にする。不一致区間N3と、第1同母音部XXに組み込
まれた不一致区間N2との間の波形比較処理を行って誤
差率を求め、不一致区間N5と、第2同母音区間YYに
組み込まれた不一致区間N6との波形比較処理を行って
誤差率を求め、両方の誤差率を比較して、誤差率の小さ
い方(一致する度合いの高い方)をその同母音部として
組み込み、拡張する。この結果、不一致区間N2と不一
致区間N3との誤差率の方が小さいので、図15(C)
のように、不一致区間N3が第1同母音部XXに組み込
まれる。今度は、不一致区間N2と不一致区間N4との
誤差率を求め、不一致区間N6と不一致区間N5との誤
差率と比べ、同じく誤差率の小さい方を組み込む。この
ようにして、図15(C)のように不一致区間N3,N
4が第1同母音部XXに組み込まれ、不一致区間N5は
第2同母音部YYに組み込まれる。なお、前述のように
不一致区間N3が第1同母音区間に組み込まれた時点
で、図15(D)のように、この不一致区間N3を第1
同母音区間とみなして、次の誤差率算出の際の不一致区
間N4と不一致区間N3とを比較対象区間としてもよい
ことはいうまでもない。また、この誤差率の小さいほう
をいずれかの同母音区間に組み込む際に、誤差率に上限
値を設け、誤差率がその上限値を越えた場合には、その
不一致区間は同母音区間に組み込まないようにしてもよ
い。以上のようにして、すき間区間を両側の同母音区間
に組み込み、定常区間の拡張処理を終了する。
Step 5C: The stationary section obtained by the processing from step 51 to step 5B is extended.
That is, as a result of performing the processing from step 51 to step 5B, it is good that each of the stationary sections X, Y, and Z is separated by one non-matching section as shown in FIG. When the stationary section is divided by a plurality of non-coincidence sections as in C), each non-coincidence section must be connected to the normal section to extend the normal section. This step 5C is for performing the process of extending the steady section. For example, when one stable section is determined to have the same waveform section of the first same vowel portion XX and the second same vowel portion YY as shown in FIG. A first period section S1 of the first vowel portion XX in contact with the beginning of the section;
The last period section E2 of the second vowel portion YY that is in contact with the end of the stable section may be extended along the stable section. However, the non-coincidence sections N1 to N6 between the first vowel portion XX and the second vowel portion YY cannot be simply expanded, and are expanded as follows. First, based on the expansion error rate having a larger error rate tolerance than the waveform comparison processing of steps 53, 57, and 5B, the last period section E1 of the first same vowel portion XX and the non-coincidence sections N1, N2,
N3, N4, N5, and N6 are compared in this order, and the non-coincidence section determined to be smaller than the error rate for expansion is determined by the first vowel part XX.
Incorporate and extend. Similarly, the first period section S2 of the second vowel portion YY and the non-coincidence sections N6, N5, N4, N3, N
The comparison is made in the order of N1 and N1, and the unmatched section determined to be smaller than the error rate for expansion is incorporated into both of the same vowel parts XX and YY for expansion. In the case of FIG.
Suppose that N1 and N2 are incorporated in the first vowel part XX, and the non-matching section N6 is incorporated in the second vowel part YY, and as a result, as shown in FIG. The unmatched sections N3, N4, and N5 remaining without being incorporated into each of the homologous vowel sections are incorporated into any of the vowel sections as follows. An error rate is obtained by performing a waveform comparison process between the mismatched section N3 and the mismatched section N2 incorporated in the first vowel section XX, and the mismatched section N5 and the mismatched section incorporated in the second same vowel section YY. The error rate is obtained by performing a waveform comparison process with N6, the two error rates are compared, and the one with the smaller error rate (the one with a higher degree of coincidence) is incorporated as the same vowel part and expanded. As a result, since the error rate between the mismatched section N2 and the mismatched section N3 is smaller, FIG.
, The non-matching section N3 is incorporated in the first same vowel part XX. This time, the error rate between the non-matching section N2 and the non-matching section N4 is determined, and the smaller error rate is compared with the error rate between the mismatching section N6 and the mismatching section N5. In this way, as shown in FIG.
4 is incorporated in the first vowel part XX, and the non-matching section N5 is incorporated in the second vowel part YY. At the time when the non-matching section N3 is incorporated into the first same vowel section as described above, as shown in FIG.
It is needless to say that the non-coincidence section N4 and the non-coincidence section N3 at the time of calculating the next error rate may be regarded as the comparison target sections assuming the same vowel section. When incorporating the smaller error rate into any of the same vowel sections, an upper limit value is provided for the error rate. If the error rate exceeds the upper limit, the mismatched section is incorporated into the same vowel section. It may not be necessary. As described above, the gap section is incorporated into the same vowel section on both sides, and the extended processing of the steady section is completed.

【0065】なお、前述の波形比較処理では、ステップ
59の時変動BPF処理の施された楽音波形に対して、
ステップ5Bの波形比較処理を行う場合について説明し
たが、この場合だと、BPF処理後のサイン波形に近い
波形に対して比較処理を行うことになるので、母音毎の
特徴までもがフィルタリングされてしまい同母音区間を
抽出するという意義が薄れてしまう恐れがある。そこ
で、ピーク位置検出用と波形比較処理用の波形を別途用
意して、それに基づいてそれぞれピーク位置検出及び波
形比較処理を行うようにしてもよい。すなわち、ピーク
位置検出用の波形としては時変動BPF処理後の波形を
そのまま用い、波形比較処理用としてはその時変動BP
F処理に用いた周波数成分の数倍周期の周波数帯波形を
残すようなBPF処理を行った波形を用いるようにす
る。例えば、ステップ5Aのピーク基準位置検出処理に
よって検出されたピーク基準位置に基づいてそれぞれの
波形区間長の周波数を求めた場合、次のような周波数列
になったとする。134.6Hz、135.2Hz、1
45.7Hz、135.7Hz、・・・従って、この周
波数列を基本周波数列として、その整数倍の周波数帯を
今度はカットオフ周波数とする時変動BPF処理をそれ
ぞれの周波数帯毎に行い、それによって得られた波形を
合成する。すなわち、上記のような周波数列の場合に
は、基本周波数列の2倍の周波数列として、269.2
Hz、270.4Hz、291.4Hz、271.4H
z、・・・3倍の周波数列として、403.8Hz、4
05.6Hz、437.1Hz、407.1Hz、・・
・4倍の周波数列として、538.4Hz、540.8
Hz、582.8Hz、542.8Hz、・・・のよう
に、それぞれ基本周波数列の整数倍の周波数列をカット
オフ周波数とする時変動BPF処理をそれぞれ別々に行
う。このようにして得られた各周波数列に対応したBP
F処理後の波形を合成して得られた合成波形をステップ
5Bの波形比較処理の対象波形として使用する。これに
よって、同母音区間の検出時には、音色(母音)の変化
に従った正確な同母音区間の検出を行うことができるよ
うになる。なお、基本周波数を最低周波数とし、基本周
波数の整数倍を最高周波数とするバンドパスフィルタ処
理を行い、それを波形比較処理の対象波形として使用し
てもよいことはいうまでもない。
In the above-described waveform comparison processing, the tone waveform subjected to the time-varying BPF processing in step 59 is
The case where the waveform comparison process of step 5B is performed has been described. In this case, since the comparison process is performed on a waveform close to the sine waveform after the BPF process, even the feature of each vowel is filtered. As a result, there is a possibility that the significance of extracting the same vowel section is weakened. Therefore, a waveform for peak position detection and a waveform for waveform comparison processing may be separately prepared, and the peak position detection and waveform comparison processing may be respectively performed based on the waveforms. In other words, the waveform after the time-varying BPF process is used as it is as the waveform for peak position detection, and the
A BPF-processed waveform that leaves a frequency band waveform with a period several times the frequency component used in the F process is used. For example, when the frequencies of the respective waveform section lengths are obtained based on the peak reference positions detected by the peak reference position detection processing in step 5A, it is assumed that the following frequency sequence is obtained. 134.6 Hz, 135.2 Hz, 1
45.7 Hz, 135.7 Hz,... Therefore, this frequency sequence is used as a basic frequency sequence, and time-varying BPF processing is performed for each frequency band with a frequency band that is an integral multiple thereof as a cutoff frequency. Are synthesized. That is, in the case of the above-described frequency train, 269.2 is set as a frequency train twice as large as the fundamental frequency train.
Hz, 270.4 Hz, 291.4 Hz, 271.4H
.., 403.8 Hz, 4
05.6Hz, 437.1Hz, 407.1Hz, ...
538.4 Hz, 540.8 as a quadruple frequency train
, And the time-varying BPF processing is performed separately using a frequency sequence that is an integral multiple of the fundamental frequency sequence as a cutoff frequency, such as Hz, 582.8 Hz, 542.8 Hz,. The BP corresponding to each frequency train obtained in this way
The combined waveform obtained by combining the waveforms after the F processing is used as the target waveform of the waveform comparison processing in step 5B. This makes it possible to accurately detect a vowel section in accordance with a change in timbre (vowel) when detecting a vowel section. It goes without saying that band-pass filter processing may be performed in which the basic frequency is set to the lowest frequency and the integral frequency of the basic frequency is set to the highest frequency, and this may be used as a target waveform for the waveform comparison processing.

【0066】ステップ5D:ステップ51からステップ
5Cまでの処理によって得られた定常区間について今度
は音高の変化や安定性を考慮して細分化処理を行い、最
終的な定常区間を決定する。ステップ5Cまでの定常区
間検出処理では、波形を引き延ばして比較しているた
め、『ああ』などのような連続母音による音声波形の音
高変化であっても、それを1つの同じ音としてとらえる
ような仕組みになっている。従って、楽器音の楽音波形
の場合には、持続系の楽器音の音高変化を見つけ出せな
いような事態も起こる。そこで、この実施の形態では、
ステップ5Cまでの処理によって得られた定常部区間ご
とに音高変化の状態を調べて、その状態に応じてさらに
分割する必要があるかどうかの判定を行い。必要がある
と判定された場合には、定常部区間をさらに細かな定常
区間に分割する。すなわち、ある定常区間の中における
ピーク基準位置間の長さ(周期長)を計算し、それでサ
ンプリング周波数を割ることによってそのピーク基準位
置における周波数が算出される。各定常区間を構成する
各波形の周波数の値に基づいて、その波形区間の周波数
1と前波形区間の周波数f0との差分(すなわち比)
を、ノートに対応したリニア軸で数値化した値すなわち
「音程のセント値」に基づいた相対値xで表わすと、下
記式のようになる。 f1/f0 = 2(x/12) これを対数で表わして、xを解くと、 x = log(f1/f0)/log(12√2) なる式によって求められる。なお、「12√2」は、2の
12乗根である。周知のように、これは、2つの周波数
の差すなわち比(すなわち音程)をセント値に変換する
公式に対応している。ただし、一般的なセント値の表現
では半音の音程が100セントで表現されるが、上記式
に従うxは数値「1」が半音の音程に相当しており、半
音の音程を「1」とする、小数点以下の値を含む値であ
る。しかし、これは小数点の位取りの仕方の問題でしか
ないので、上記相対値xは、実質的にセント値に相当す
るものであると考えてもよく、要するに、相対的な音程
情報のことである。上記式では、この相対値xは、f1
とf0のどちらが大きいかによってプラス又はマイナス
の符号を持つことになるが、ピッチ安定区間の検出のた
めにはこの正負符号は不要であるから、これを除去した
絶対値表現|x|で表わしたものを「ノート距離」とい
うことにする。図16(A)は、このようにして求めら
れる「ノート距離」の時間的変化の関数(以下、ノート
距離変動曲線という)の一例を示すもので、縦軸が「ノ
ート距離」、横軸が時間である。このノート距離変動曲
線がフラットである区間が、ピッチが安定している区間
に相当する。
Step 5D: The stationary section obtained by the processing from step 51 to step 5C is subdivided in consideration of the change in pitch and stability, and the final stationary section is determined. In the stationary section detection processing up to step 5C, since the waveform is expanded and compared, even if the pitch change of the speech waveform is caused by a continuous vowel such as "Oh", it is regarded as one and the same sound. It is a mechanism. Therefore, in the case of the musical sound waveform of the musical instrument sound, a situation may occur in which the pitch change of the continuous musical instrument sound cannot be found. Therefore, in this embodiment,
The state of the pitch change is checked for each steady part section obtained by the processing up to step 5C, and it is determined whether or not it is necessary to further divide it according to the state. If it is determined that it is necessary, the steady section is divided into smaller steady sections. That is, the frequency at the peak reference position is calculated by calculating the length (period length) between the peak reference positions in a certain stationary section and dividing the sampling frequency by that. Based on the value of the frequency of each waveform constituting each stationary section, the difference (ie, ratio) between the frequency f 1 of that waveform section and the frequency f 0 of the previous waveform section
Is expressed as a relative value x based on a value quantified on a linear axis corresponding to a note, that is, a “cent pitch value”. f 1 / f 0 = 2 (x / 12) When this is expressed in logarithm and x is solved, it can be obtained by the equation x = log (f 1 / f 0 ) / log ( 12 √2). In addition, "12 √2" is a 2 of the 12 root. As is well known, this corresponds to a formula that converts the difference or ratio (ie, pitch) of two frequencies to a cent value. However, in the expression of a typical cent value, the pitch of a semitone is expressed by 100 cents. However, for x according to the above equation, the numerical value “1” corresponds to the pitch of the semitone, and the pitch of the semitone is “1”. , The value including the value after the decimal point. However, since this is only a matter of the scale of the decimal point, the relative value x may be considered to substantially correspond to a cent value, that is, relative pitch information. . In the above equation, the relative value x is f 1
And it will have a positive or negative sign by either the larger f 0, because for the detection of pitch stable section the sign is not necessary, which was magnitude representation removed | expressed as | x The result is called "note distance." FIG. 16A shows an example of a function of a temporal change of the “note distance” (hereinafter referred to as a note distance variation curve) obtained as described above, in which the vertical axis represents the “note distance” and the horizontal axis represents the “note distance”. Time. The section where the note distance variation curve is flat corresponds to the section where the pitch is stable.

【0067】図16(A)のようなノート距離変動曲線
を微分してその立下り又は立上りの大きい部分を区切り
とすれば、2箇所のピッチ安定区間PS1及びPS2が
検出される。なお、このようにしてピッチ安定区間を求
めてもよいが、この実施の形態では、動的ボーダ曲線を
算出し、それに基づいてピッチ安定区間を検出するよう
にした。ここで、動的ボーダ曲線は、ノート距離変動曲
線に基づいて算出されるものであり、例えば、あるサン
プルポイントPXにおける動的ボーダは、開始位置から
サンプルポイントPXまでのノート距離変動曲線の平均
値を求め、それに所定の定数を乗じたものである。な
お、これにオフセット値を加算してもよい。図16
(A)の場合は、動的ボーダ曲線は曲線AC1のように
なる。この動的ボーダ曲線AC1とノート距離変動曲線
NC1とを比較して、ノート距離変動曲線NC1が動的
ボーダ曲線AC1よりも小さな区間をピッチ安定区間と
する。なお、このとき、動的ボーダ曲線AC1がノート
距離変動曲線NC1よりも小さくなった時点で、動的ボ
ーダ曲線AC1の演算を停止し、その値を保持し続け
て、ノート距離変動曲線NC1とその保持していた値と
が等しくなった時点で前回までの動的ボーダ曲線AC1
の値をリセットして、再び最初から同じように動的ボー
ダ曲線AC1の演算を開始する。このようすが図16
(B)に示されている。すると、図16(B)のような
ピッチ安定区間PS3及びPS4が求まることになる。
図16のようなノート距離変動曲線NC1の場合は、微
分処理によって検出されたピッチ安定区間も、動的ボー
ダ曲線によって検出されたピッチ安定区間もさほど変わ
りはない。しかしながら、図17のようにノート距離変
動曲線NC2の場合には、明確な違いが現れる。
When a note distance variation curve as shown in FIG. 16A is differentiated and a portion having a large falling or rising is defined as a break, two pitch stable sections PS1 and PS2 are detected. Although the pitch stable section may be obtained in this way, in this embodiment, the dynamic border curve is calculated, and the pitch stable section is detected based on the dynamic border curve. Here, the dynamic border curve is calculated based on the note distance variation curve. For example, the dynamic border at a certain sample point PX is an average value of the note distance variation curve from the start position to the sample point PX. And multiplying it by a predetermined constant. Note that an offset value may be added to this. FIG.
In the case of (A), the dynamic border curve becomes like a curve AC1. By comparing the dynamic border curve AC1 with the note distance variation curve NC1, a section where the note distance variation curve NC1 is smaller than the dynamic border curve AC1 is defined as a pitch stable section. At this time, when the dynamic border curve AC1 becomes smaller than the note distance variation curve NC1, the calculation of the dynamic border curve AC1 is stopped, and the value is kept to be maintained. When the held value becomes equal, the dynamic border curve AC1 up to the previous time is obtained.
Is reset, and the calculation of the dynamic border curve AC1 is started again from the beginning in the same manner. Thus, FIG.
This is shown in (B). Then, pitch stable sections PS3 and PS4 as shown in FIG. 16B are obtained.
In the case of the note distance variation curve NC1 as shown in FIG. 16, the pitch stable section detected by the differentiation processing and the pitch stable section detected by the dynamic border curve do not change much. However, in the case of the note distance variation curve NC2 as shown in FIG. 17, a clear difference appears.

【0068】図17のノート距離変動曲線NC2の場合
は、同母音区間の後半部分でピッチが不安定になってい
るため、曲線NC2の傾きでピッチ安定区間を検出する
と、図17(A)のようにピッチ安定区間PS5,PS
6,PS7,PS8が多数現れてしまう。しかしなが
ら、図17のノート距離変動曲線の場合、人間の耳はピ
ッチが不安定な部分でそのピッチ変化に対して鈍く(疎
く)反応するようになるので、実際には図17(A)の
ような多数のピッチ安定区間を感じとることはなく、図
16(B)のような大まかな2つのピッチ安定区間を感
じ取ることになる。一方、前述の動的ボーダ曲線によっ
てピッチ安定区間を検出すれば、人間の耳と同じような
反応を行わせることが可能となる。すなわち、図17の
ノート距離変動曲線NC2の動的ボーダ曲線を求める
と、図17(B)のような曲線AC2になる。従って、
この動的ボーダ曲線AC2よりも小さなノート距離変動
曲線NC2の部分がピッチ安定区間PS9及びPSAと
なり、図16のような大まかな2区間として把握される
ようになる。すなわち、音程が安定している区間(図1
7の安定区間PS9)では、その後にそれなりの音程変
化が発生すると音の区割りが変わったこと、つまり新し
い音が始まったということを人間は感じる。逆に、音程
が不安定な区間(図17の安定区間PSA)では多少の
音程の変化は人間の耳にはあまり感じ取られなくなり、
新しい音すなわち区間として認識しない。従って、音程
が不安定な区間ではそれなりの大きな音程の変化でない
と、音程の変化として認められなくなる。このような人
間の耳に近いピッチ安定区間の検出を可能とするため
に、上述のような動的ボーダを曲線を用い、一連の処理
で安定区間又は不安定区間を動的に検出し、区間分けを
行っている。このようにして検出されたピッチ安定区間
が図5の定常区間検出処理によって最終的に検出された
定常区間すなわち楽譜として表した時に一つの音符に相
当する区間になる。
In the case of the note distance variation curve NC2 shown in FIG. 17, the pitch is unstable in the latter half of the same vowel section. Pitch stable section PS5, PS
6, PS7, and PS8 appear in large numbers. However, in the case of the note distance variation curve of FIG. 17, the human ear responds dullly (sparsely) to a change in pitch in a portion where the pitch is unstable. The user does not feel a large number of stable pitch sections, but feels roughly two pitch stable sections as shown in FIG. On the other hand, if the pitch stable section is detected by the above-described dynamic border curve, it is possible to cause a reaction similar to that of the human ear. That is, when a dynamic border curve of the note distance variation curve NC2 in FIG. 17 is obtained, a curve AC2 as shown in FIG. 17B is obtained. Therefore,
The portion of the note distance variation curve NC2 smaller than the dynamic border curve AC2 becomes the pitch stable sections PS9 and PSA, and can be grasped as roughly two sections as shown in FIG. That is, a section in which the pitch is stable (FIG. 1)
In the 7 stable section PS9), when a certain pitch change occurs thereafter, the human feels that the sound division has changed, that is, a new sound has started. Conversely, in a section where the pitch is unstable (stable section PSA in FIG. 17), a slight change in the pitch is hardly perceived by the human ear,
It is not recognized as a new sound or section. Accordingly, in a section where the pitch is unstable, the change of the pitch is not recognized unless the change of the pitch is relatively large. In order to enable detection of such a pitch stable section close to the human ear, a dynamic section as described above is used as a curve, and a stable section or an unstable section is dynamically detected in a series of processes. We are doing the division. The stable pitch section detected in this way is a steady section finally detected by the steady section detection process in FIG. 5, that is, a section corresponding to one note when expressed as a musical score.

【0069】図6は図1のステップ16の音高列決定処
理の詳細を示す図である。音高列決定処理は、ステップ
15によって検出された各定常区間に対して最適な音高
列を決定するための処理である。以下、この音高列決定
処理について図18及び図19を用いて説明する。音声
や楽音などを最終的に音符情報に変換する場合、ある特
定周波数をどの音高に丸めるかによってメロディが大幅
に変わってしまい、思ったような検出ができない場合が
多い。そこで、この実施の形態では、相対音を主体とし
て音高を決定し、さらにそれに調を利用して一番ふさわ
しい音高遷移を選択することによって音高列を決定する
ようにした。この音高列決定処理の一例を図6のフロー
チャートに従って説明する。 ステップ61:ステップ15(図5)の定常区間検出処
理によって得られた各定常区間に対してその区間の代表
周波数を決定する。図19(A)は、最終的に得られた
定常区間の一例を示す図である。ここでは全部で12個
の区間が検出されたものとして、各区間に括弧記号で囲
まれた
FIG. 6 is a diagram showing details of the pitch sequence determination processing in step 16 of FIG. The pitch sequence determination process is a process for determining an optimal pitch sequence for each stationary section detected in step 15. Hereinafter, the pitch sequence determination processing will be described with reference to FIGS. When voices, musical sounds, and the like are finally converted to note information, the melody greatly changes depending on the pitch to which a certain specific frequency is rounded, and in many cases, the desired detection cannot be performed. Therefore, in this embodiment, the pitch is determined mainly by the relative sound, and the pitch sequence is determined by selecting the most suitable pitch transition using the key. An example of this pitch sequence determination processing will be described with reference to the flowchart of FIG. Step 61: For each stationary section obtained by the stationary section detection processing of step 15 (FIG. 5), a representative frequency of the section is determined. FIG. 19A is a diagram illustrating an example of a finally obtained steady section. Here, it is assumed that a total of 12 sections have been detected, and each section is enclosed in parentheses.

〔0〕〜〔12〕の区間番号を割り当ててある。
各定常区間の代表周波数を決定する場合に重要なこと
は、各定常区間の周期位置から周波数の動向を洗い出し
て、その区間固有の周波数を1つに決定することであ
る。そのための方法として、第1の方法は定常区間全体
の平均周波数をその区間の代表周波数とする。第2の方
法は定常区間の丁度中間付近の周期(周波数)をその区
間の代表周波数とする。第3の方法はピッチが安定して
いる部分の平均周波数をその区間の代表周波数とする。
なお、この実施の形態では、図5のステップ5Dのノー
ト距離による細分化処理の際に使用したノート距離変動
曲線、及びその時に検出されたピッチ安定区間を用いて
代表周波数を算出する。すなわち、図5のステップ5D
の細分化処理によって細分化された区間すなわちピッチ
安定区間におけるノート距離変動曲線の平均値を求め
る。この平均値を静的ボーダとする。例えば、図17の
ようなノート距離変動曲線NC2の場合には、ピッチ区
間PS9における静的ボーダはSB1となり、ピッチ区
間PSAにおける静的ボーダはSB2となる。そして、
各ピッチ区間PS9及びPSAにおけるノート距離変動
曲線NC2がこの静的ボーダSB1及びSB2よりも小
さい区間を代表周波数検出区間F1及びF2として、そ
の代表周波数検出区間F1及びF2に存在する各波形の
ピッチに基づいてその定常区間(ピッチ安定区間)PS
9及びPSAの代表周波数を決定する。例えば、図18
の代表周波数検出区間F1を構成する波形区間が図19
(B)のような12個であり、各波形区間の周期長は図
示の通りとする。この場合、この代表周波数検出区間F
1における周期長の平均値は、255.833となる。
ここで、周期長はサンプリング数で表されているので、
サンプリング周波数が44.1kHzだから、この代表
周波数検出区間F1の代表周波数は、その周期長の平均
値でサンプリング周波数を除することによって得られる
ので、図19(B)の場合には172.38Hzとな
る。この場合、代表周波数の値は小数点2桁を有効とし
て扱う。図19(C)はこのようにして図19(A)の
ような各定常区間の代表周波数を算出した結果を示す図
である。
Section numbers [0] to [12] are assigned.
What is important when determining the representative frequency of each stationary section is to identify the trend of the frequency from the periodic position of each stationary section and determine one unique frequency for that section. As a method for this, the first method uses the average frequency of the entire stationary section as the representative frequency of the section. In the second method, a cycle (frequency) near the middle of a stationary section is set as a representative frequency of the section. In the third method, the average frequency of the portion where the pitch is stable is set as the representative frequency of the section.
In this embodiment, the representative frequency is calculated using the note distance variation curve used in the subdivision processing based on the note distance in step 5D of FIG. 5 and the pitch stable section detected at that time. That is, step 5D in FIG.
The average value of the note distance variation curve in the section subdivided by the subdivision processing of, that is, the pitch stable section is obtained. This average value is used as a static border. For example, in the case of the note distance variation curve NC2 as shown in FIG. 17, the static border in the pitch section PS9 is SB1, and the static border in the pitch section PSA is SB2. And
The intervals in which the note distance variation curves NC2 in the pitch sections PS9 and PSA are smaller than the static borders SB1 and SB2 are defined as representative frequency detection sections F1 and F2, and the pitch of each waveform existing in the representative frequency detection sections F1 and F2 is Based on the steady section (pitch stable section) PS
9 and the representative frequency of the PSA are determined. For example, FIG.
The waveform section constituting the representative frequency detection section F1 of FIG.
(B), and the cycle length of each waveform section is as shown in the figure. In this case, the representative frequency detection section F
The average value of the cycle length at 1 is 255.833.
Here, the cycle length is represented by the number of samples,
Since the sampling frequency is 44.1 kHz, the representative frequency of the representative frequency detection section F1 can be obtained by dividing the sampling frequency by the average value of the period length. In the case of FIG. 19B, the representative frequency is 172.38 Hz. Become. In this case, the value of the representative frequency treats two decimal places as valid. FIG. 19C is a diagram showing a result of calculating the representative frequency of each steady section as shown in FIG. 19A.

【0070】ステップ62:ステップ61の処理によっ
て各定常区間の代表周波数が決定されると、今度はその
代表周波数に基づいて各定常区間の相前後する定常区間
番号同士のノート距離を決定する。ノート距離の決定は
図5のステップ5Dで用いた演算式と同様にして求め
る。図19(C)にはこのようにして算出されたノート
距離の一例が示されている。 ステップ63:算出されたノート距離の小数点以下一桁
を四捨五入して、ノート距離を12音階上の各音高へ丸
め込む。例えば、図19(C)の場合には、各ノート距
離は四捨五入されて、右欄の整数のようになる。この整
数は、前音高からのノート番号上の差を示すことになる
ので、最初の音高を決定することによって、音高列デー
タを完成することが可能となる。図19(C)の最右欄
に示す音高列データが最初の音高を0とした場合の音高
遷移のようすを示すデータである。すなわち、図19
(C)の場合には0−2−4−5−2−3・・・とな
る。 ステップ64:第1音の音高を決定する。まず、最も簡
単な方法は、第1音にデフォルト値として60のノート
ナンバ(ノートネームC4)音を割り当てる。すなわ
ち、MIDI規格の場合、ノートナンバの限界は0〜1
27なので、第1音の音高として、ノートナンバ60
(ノートネームC4)の音を割り当てる。これによっ
て、高音側(プラス側)には67半音分、低音側(マイ
ナス側)には60半音分だけ音高を振ることができる。
このようにすると図19(C)の最右欄の音高列を示す
データは、60(C4)−62(D4)−64(E4)
−65(F4)−62(D4)−63(D♯4)・・・
・となる。
Step 62: When the representative frequency of each stationary section is determined by the processing of step 61, the note distance between the consecutive section numbers before and after each stationary section is determined based on the representative frequency. The determination of the note distance is obtained in the same manner as the arithmetic expression used in step 5D of FIG. FIG. 19C shows an example of the note distance calculated as described above. Step 63: The calculated note distance is rounded off to one decimal place, and the note distance is rounded to each pitch on the 12th scale. For example, in the case of FIG. 19C, each note distance is rounded off and becomes an integer in the right column. Since this integer indicates the difference in note number from the previous pitch, it is possible to complete the pitch sequence data by determining the initial pitch. The pitch sequence data shown in the rightmost column of FIG. 19C is data indicating a state of a pitch transition when the first pitch is set to 0. That is, FIG.
In the case of (C), 0-2--4-5-2-3... Step 64: Determine the pitch of the first sound. First, the simplest method is to assign a 60 note number (note name C4) sound to the first sound as a default value. That is, in the case of the MIDI standard, the limit of the note number is 0 to 1
27, the note number 60
(Note name C4) is assigned. As a result, the pitch can be increased by 67 semitones on the high frequency side (plus side) and by 60 semitones on the low frequency side (minus side).
In this way, the data indicating the pitch sequence in the rightmost column in FIG. 19C is 60 (C4) -62 (D4) -64 (E4).
-65 (F4) -62 (D4) -63 (D♯4) ・ ・ ・
・ It becomes.

【0071】ステップ65:ステップ64で決定された
音高列データを修正する。すなわち、ステップ64で決
定された音高列データの振れ幅を検出し、それが低音側
(マイナス側)に−60以下に振れている場合には、そ
の最小振れ幅に合わせてデフォルト値60を修正する。
この修正は、最小振れ幅のノートが0以上となるように
デフォルト値を上側にシフトすることによって行う。例
えば、最小振れ幅が−64の場合には、計算式−60−
(−64)=4の結果に従って、デフォルト値60を4
ノート分上側にシフトして、第1音として64を割当て
る。高音側(プラス側)に+67以上振れている場合に
も同様に最大振れ幅に合わせてデフォルト値60を修正
すればよい。なお、低音側(マイナス側)及び高音(プ
ラス側)の両方において振れ幅がオーバーすることは人
間の発声帯域から判断してあり得ないので、そのような
場合は除外する。なお、このようなことが起こり得るよ
うな場合には、特別に音域を0〜256の範囲で設定す
るようにしてもよい。なお、ステップ64では、第1音
の音高をデフォルト値(例えば60)として決定し、音
高列データを作成する場合について説明したが、これに
限らず、最初の定常区間の代表周波数に最も近い純正率
音階の周波数を検出し、その音階に当てはめるようにし
てもよい。例えば、図19(C)の場合には、区間番号
Step 65: The pitch sequence data determined in Step 64 is corrected. That is, the swing range of the pitch sequence data determined in step 64 is detected, and if it swings to -60 or less on the bass side (minus side), the default value 60 is set according to the minimum swing range. Fix it.
This correction is performed by shifting the default value upward so that the note with the minimum swing is 0 or more. For example, if the minimum swing width is −64, the calculation formula −60−
According to the result of (−64) = 4, the default value 60 is changed to 4
Shift up by a note and assign 64 as the first note. Even in the case where the swing is +67 or more on the treble side (plus side), the default value 60 may be similarly corrected in accordance with the maximum swing width. It is impossible to judge from the human utterance band that the swing width exceeds both the bass side (minus side) and the treble side (plus side), and such a case is excluded. If such a situation can occur, the range may be set in a range of 0 to 256. In step 64, the case where the pitch of the first sound is determined as a default value (for example, 60) and the pitch sequence data is created has been described. However, the present invention is not limited to this. It is also possible to detect the frequency of a close genuine scale and apply it to the scale. For example, in the case of FIG.

〔0〕の代表周波数は172.38Hzなので、第1音
の音高をそれに最も近いノートナンバ53(ノートネー
ムF3)に決定する。これによって、図19(C)の音
高列を示すデータは、53(F3)−55(G3)−5
7(A3)−58(A♯3)−55(G3)−56(G
♯3)・・・・となる。なお、これ以外にも種々の方法
で音程列を割り当ててもよいことは言うまでもない。
Since the representative frequency of [0] is 172.38 Hz, the pitch of the first sound is determined to be the note number 53 (note name F3) closest thereto. As a result, the data indicating the pitch sequence in FIG. 19C is 53 (F3) -55 (G3) -5
7 (A3) -58 (A♯3) -55 (G3) -56 (G
♯3) ... It goes without saying that the pitch sequence may be assigned by various other methods.

【0072】次に、この発明に係る電子楽器が音信号分
析装置及び演奏情報発生装置として動作する場合の第2
の実施の形態について説明する。この第2の実施の形態
に係る電子楽器が音信号分析装置及び演奏情報発生装置
として動作する際のメインフローは図1と同じなので、
その説明は省略する。ただし、メインフローの中のステ
ップ13〜ステップ15の各処理の内容が前述の第1の
実施の形態のものとは異なるので、以下その異なる点に
ついて詳細に説明する。
Next, the second case in which the electronic musical instrument according to the present invention operates as a sound signal analyzing device and a performance information generating device.
An embodiment will be described. The main flow when the electronic musical instrument according to the second embodiment operates as the sound signal analyzer and the performance information generator is the same as that in FIG.
The description is omitted. However, since the contents of each processing of steps 13 to 15 in the main flow are different from those of the first embodiment, the different points will be described in detail below.

【0073】図20は図1のステップ13の有効区間検
出処理の詳細を示す図であり、図3に対応したものであ
る。有効区間検出処理は、ステップ12の音声サンプリ
ング処理の結果得られたディジタルサンプル信号に基づ
いて音楽的な音が存在する区間すなわち有効区間を検出
するための処理である。以下、この有効区間検出処理の
詳細を図23を用いて説明する。 ステップ201:ステップ12によって求められたディ
ジタルサンプル信号を所定のサンプル数毎に区切る処理
を行う。図23(A)は、サンプリング周波数44.1
kHzでサンプリングされた音声信号すなわちディジタ
ルサンプル信号の波形値の一例を示す図である。図23
(A)には、約4408ポイント分の波形値が示されて
いる。図23(D)には、その2倍の約8816ポイン
ト分の波形値が示されている。ステップ201では、所
定のサンプル数(例えば、音声の最低周波数を80Hz
とした場合におけるその最大周期に対応するサンプル
数)でディジタルサンプル信号を区切る。従って、サン
プリング周期44.1kHzの場合には、この所定サン
プル数は『551=44100/80』である。図23
(B)は図23(A)の波形値に対応しており、この波
形値が551サンプル数毎に区切られた場合の各波形区
間S1〜S8の様子を示す図である。
FIG. 20 is a diagram showing details of the valid section detection processing in step 13 of FIG. 1, and corresponds to FIG. The valid section detection processing is processing for detecting a section in which a musical sound exists, that is, a valid section, based on the digital sample signal obtained as a result of the voice sampling processing in step 12. Hereinafter, the details of the valid section detection processing will be described with reference to FIG. Step 201: A process for dividing the digital sample signal obtained in step 12 into a predetermined number of samples is performed. FIG. 23A shows the sampling frequency 44.1.
FIG. 3 is a diagram illustrating an example of a waveform value of a voice signal sampled at kHz, that is, a digital sample signal. FIG.
(A) shows waveform values for about 4408 points. FIG. 23D shows a waveform value of about 8816 points which is twice as large. In step 201, a predetermined number of samples (for example, the lowest frequency of audio is set to 80 Hz
, The digital sample signal is divided by the number of samples corresponding to the maximum period). Therefore, when the sampling period is 44.1 kHz, the predetermined number of samples is “551 = 44100/80”. FIG.
(B) corresponds to the waveform values in FIG. 23 (A), and is a diagram showing a state of each waveform section S1 to S8 when the waveform values are divided every 551 samples.

【0074】ステップ202:ステップ201によって
区切られた区間毎に、その区間内に存在するディジタル
サンプル信号波形の最大値を抽出する。図23(C)に
は、図23(A)のディジタルサンプル信号波形が点線
で示され、その各区間S1〜S8内における各波形の最
大値が黒点で示されている。 ステップ203:ステップ202で求められた各区間の
最大値を補間(例えば直線補間)し、補助波形を作成す
る。図23(D)は、図23(A)〜(C)の約2倍の
区間に相当する補助波形を示すものであり、各区間の最
大値を直線補間することによって得られた補助波形を示
している。なお、図23(A)のディジタルサンプル信
号波形は点線で示されている。次のステップ204〜ス
テップ206では、このようにして得られた補助波形に
基づいて有効区間の抽出処理が行われる。
Step 202: For each section divided by step 201, the maximum value of the digital sample signal waveform existing in that section is extracted. In FIG. 23 (C), the digital sample signal waveform of FIG. 23 (A) is indicated by a dotted line, and the maximum value of each waveform in each of the sections S1 to S8 is indicated by a black point. Step 203: Interpolate (for example, linearly interpolate) the maximum value of each section obtained in Step 202 to create an auxiliary waveform. FIG. 23D shows an auxiliary waveform corresponding to a section approximately twice as long as FIGS. 23A to 23C. The auxiliary waveform obtained by linearly interpolating the maximum value of each section is shown in FIG. Is shown. The waveform of the digital sample signal in FIG. 23A is shown by a dotted line. In the following steps 204 to 206, an effective section is extracted based on the auxiliary waveform thus obtained.

【0075】ステップ204:前記ステップ203で求
められた図23(D)のような補助波形を、所定のしき
い値Thに基づいて有効区間又は無効区間にそれぞれ分
類する。この処理では、しきい値Thとして、最大波形
値の約3分の1の値をしきい値とする。これ以外の値を
しきい値Thとしてもよいことは言うまでもない。例え
ば、図23(D)の実線波形の平均値をしきい値Thと
したり、又はその平均値の80パーセントをしきい値T
hとしたりしてもよい。従って、このしきい値Thと補
助波形との交点位置が有効区間及び無効区間の境界とな
り、このしきい値Thよりも大きい区間が有効区間とな
り、小さい区間が無効区間となる。
Step 204: The auxiliary waveform as shown in FIG. 23D obtained in step 203 is classified into an effective section and an invalid section based on a predetermined threshold Th. In this processing, the threshold Th is set to a value that is about one third of the maximum waveform value. It goes without saying that other values may be used as the threshold value Th. For example, the average value of the solid line waveform in FIG. 23D is set as the threshold value Th, or 80% of the average value is set as the threshold value T
h. Therefore, the intersection point between the threshold value Th and the auxiliary waveform is a boundary between the valid section and the invalid section, a section larger than the threshold Th is a valid section, and a section smaller than the threshold Th is a invalid section.

【0076】ステップ205:人間が音高を認知できる
必要な最低長を0.05msecとした場合に、前記ス
テップ202で決定された無効区間の中からこの最低長
よりも小さな無効区間を有効区間に変更する。例えば、
サンプリング周期が44.1kHzの場合にはサンプリ
ング数で2205個以下のの無効区間が、人間が音高を
認知できる必要な最低長である0.05msec以下の
無効期間に対応するので、そのような無効区間を有効区
間に変更する。図23(D)の無効区間は、波形区間で
3個分(サンプリング数で約1653個分)なので、こ
の最低長よりも小さな無効区間に相当するので、このス
テップ205の処理によって有効区間に変更される。 ステップ206:前記ステップ205の処理の結果、得
られた有効区間及び無効区間のパターンの中から0.0
5msec以下の短い有効区間を無効区間に変更する処
理を行う。この処理は前記ステップ205と同様の処理
にて行う。
Step 205: If the minimum length required for human recognition of the pitch is 0.05 msec, an invalid section smaller than the minimum length is set as an effective section from the invalid sections determined in step 202. change. For example,
In the case where the sampling period is 44.1 kHz, the invalid period of 2205 or less in sampling number corresponds to the invalid period of 0.05 msec or less, which is the minimum length necessary for human being to recognize the pitch. Change the invalid section to a valid section. Since the invalid section in FIG. 23D is three waveform sections (about 1653 sampling numbers), it corresponds to an invalid section smaller than the minimum length. Is done. Step 206: As a result of the processing of the step 205, 0.0
A process of changing a short valid section of 5 msec or less to an invalid section is performed. This process is performed in the same manner as in the step 205.

【0077】図21は図1のステップ14の安定区間検
出処理の詳細を示す図であり、図4に対応したものであ
る。以下、図20の有効区間検出処理によって求められ
た有効区間内のディジタルサンプリング信号に対して、
レベルの安定した領域を検出するための安定区間検出処
理を行う。この安定区間検出処理の動作を図24〜図2
6を用いて説明する。 ステップ211:図20の有効区間検出処理によって検
出された有効区間内のディジタルサンプリング信号に基
づいて、波形のピークが強く出ているサイドを検出す
る。すなわち、図24(A)のように有効区間内のディ
ジタルサンプリング信号のプラス(+)側の波形のピー
ク値maxとマイナス(−)側の波形のピーク値min
のそれぞれの絶対値を取り、どちらの絶対値が大きいか
によって、ピークの強く出ているサイドを決定する。な
お、これ以外の方法でピークの強く出ているサイドを決
定するようにしてもよい。例えば、上位3〜5個のピー
ク値の絶対値の合計を比較して決定するようにしてもよ
い。 ステップ212:ステップ211でピークの検出された
サイドにおいて、前方(時間経過方向)に向けてエンベ
ロープを取り、そのピーク部を検出する。すなわち、図
24(B)のように、プラス側の波形に対して前方にエ
ンベロープを取り、そのピーク部を検出する。この結
果、図24(B)の場合、ピーク部としてP1〜P4の
4点が検出される。 ステップ213:今度はステップ212とは逆の方向
(時間経過とは逆方向)に向けてエンベロープを取り、
そのピーク部を検出する。すると、図24(C)のよう
に、同じ位置にピーク部P1〜P4が検出されるが、波
形によってはこれ以外にもピーク部PPが検出される。
このことは、徐々にレベルが上がっている波形において
は、いずれか一方向だけでエンベロープ検出を行った場
合には、倍音ピークをピッチのピークとして取り間違
え、実際にピークでない箇所(ピーク部PPなどのよう
なもの)を誤ってピークとして検出してしまうことがあ
る。従って、ステップ212及びステップ213のよう
に、異なる方向でエベロープを取り、ピーク部を検出す
ることによって、ピーク部の検出精度を向上することが
できる。
FIG. 21 is a diagram showing details of the stable section detection processing in step 14 of FIG. 1, and corresponds to FIG. Hereinafter, with respect to the digital sampling signal in the effective section obtained by the effective section detection processing of FIG.
A stable section detection process for detecting a region with a stable level is performed. The operation of the stable section detection processing is shown in FIGS.
6 will be described. Step 211: Based on the digital sampling signal in the effective section detected by the effective section detection processing in FIG. 20, the side where the peak of the waveform appears strongly is detected. That is, as shown in FIG. 24A, the peak value max of the waveform on the plus (+) side and the peak value min of the waveform on the minus (−) side of the digital sampling signal within the effective section.
Are determined, and the side having the strongest peak is determined depending on which absolute value is larger. Note that a side having a strong peak may be determined by other methods. For example, the total of the absolute values of the top three to five peak values may be compared and determined. Step 212: On the side where the peak is detected in step 211, the envelope is taken forward (in the time lapse direction), and the peak portion is detected. That is, as shown in FIG. 24B, an envelope is taken ahead of the waveform on the plus side, and the peak portion is detected. As a result, in the case of FIG. 24B, four points P1 to P4 are detected as peak portions. Step 213: This time, the envelope is taken in the direction opposite to that of step 212 (the direction opposite to the elapsed time),
The peak part is detected. Then, as shown in FIG. 24C, peak portions P1 to P4 are detected at the same position, but other peak portions PP are detected depending on the waveform.
This means that in a waveform whose level is gradually rising, if the envelope is detected in only one direction, the overtone peak is mistaken as a pitch peak, and a portion that is not actually a peak (peak portion PP, etc.) ) May be erroneously detected as a peak. Therefore, as in steps 212 and 213, by detecting the peaks in different directions and detecting the peaks, the detection accuracy of the peaks can be improved.

【0078】ステップ214:ステップ212及びステ
ップ213の処理によって検出されたピーク部を直線補
間し、新たな波形を生成する。図24(D)は、ステッ
プ212及びステップ213によって検出されたピーク
部P1〜P4を直線補間することによって生成された新
たなピーク値補間曲線を示している。なお、図24
(D)において図24(A)のディジタルサンプル信号
波形は点線で示されている。 ステップ215:以上の処理によって生成されたピーク
値補間曲線に基づいて、ピーク間の合計傾斜を算出す
る。この処理では、図24(D)に示すように、傾斜を
算出するための算出幅を例えば200ポイントとし、そ
の算出幅のシフト量を例えば100ポイントとして、こ
のシフト量に相当するポイントを順次シフトしながら、
その傾斜を算出する。有効区間の最初のサンプルポイン
トa1が『100』だとすると、そのサンプルポイント
『100』と『300』との間の傾斜b1は、算式:
(a3 −a1)/200によって求められる。次にそれ
ぞれのポイントを100ポイントずつシフトしたサンプ
ルポイント『200』と『400』との間の傾斜b2を
求める。
Step 214: A new waveform is generated by linearly interpolating the peaks detected by the processing of steps 212 and 213. FIG. 24D shows a new peak value interpolation curve generated by linearly interpolating the peak portions P1 to P4 detected in steps 212 and 213. Note that FIG.
In (D), the digital sample signal waveform of FIG. 24 (A) is shown by a dotted line. Step 215: Calculate the total slope between the peaks based on the peak value interpolation curve generated by the above processing. In this process, as shown in FIG. 24D, the calculation width for calculating the inclination is, for example, 200 points, the shift amount of the calculation width is, for example, 100 points, and points corresponding to this shift amount are sequentially shifted. while doing,
The inclination is calculated. Assuming that the first sample point a1 of the valid section is “100”, the slope b1 between the sample points “100” and “300” is calculated by the following formula:
(A3-a1) / 200. Next, a slope b2 between sample points “200” and “400” obtained by shifting each point by 100 points is obtained.

【0079】このようにして算出された傾斜の一例を図
25に示す。図から明らかなように、サンプルポイント
『100』−『300』間の傾斜b1は0.03、サン
プルポイント『200』−『400』間の傾斜b2は
0.15、サンプルポイント『300』−『500』間
の傾斜b3は0.25、サンプルポイント『400』−
『600』間の傾斜b4は0.50、サンプルポイント
『500』−『700』間の傾斜b5は0.90、サン
プルポイント『600』−『800』間の傾斜b6は
1.80、サンプルポイント『700』−『900』間
の傾斜b7は1.90、サンプルポイント『800』−
『1000』間の傾斜b8は2.00、サンプルポイン
ト『900』−『1100』間の傾斜b9は1.70、
『1000』−『1200』間の傾斜b10は1.2
0、『1100』−『1300』間の傾斜b11は0.
70となる。これらの傾斜b1〜b11は前者のサンプ
ルポイントa1〜a11における傾斜として記憶され
る。すなわち、サンプルポイントa1の傾斜b1が0.
03、サンプルポイントa2の傾斜b2が0.15とし
て、それぞれのサンプルポイント毎に傾斜が記憶され
る。
FIG. 25 shows an example of the inclination calculated in this way. As is clear from the figure, the slope b1 between the sample points "100" and "300" is 0.03, the slope b2 between the sample points "200" and "400" is 0.15, and the sample points "300" and "300". The slope b3 between “500” is 0.25, and the sample point “400” −
The slope b4 between "600" is 0.50, the slope b5 between sample points "500" and "700" is 0.90, the slope b6 between sample points "600" and "800" is 1.80, and the sample point. The slope b7 between “700” and “900” is 1.90, and the sample point “800” −
The slope b8 between “1000” is 2.00, the slope b9 between sample points “900” and “1100” is 1.70,
The slope b10 between “1000” and “1200” is 1.2.
0, the inclination b11 between “1100” and “1300” is 0.
70. These slopes b1 to b11 are stored as the slopes at the former sample points a1 to a11. That is, the inclination b1 of the sample point a1 is 0.
03, assuming that the slope b2 of the sample point a2 is 0.15, the slope is stored for each sample point.

【0080】次に、このようにして求められた傾斜b1
〜b11の値に基づいて、合計傾斜を求める。合計傾斜
はそのサンプルポイントを基準に後ろ5つの傾斜を合計
することによって得られるものであり、そのサンプルポ
イント付近の傾斜の度合いを示すものである。例えば、
サンプルポイントa1の合計傾斜c1は、そのサンプル
ポイントa1の傾斜b1と、それから4つ後ろの傾斜b
2〜b5とを合計することによって算出される。すなわ
ち、c1=b1+b2+b3+b4+b5によって算出
される。図25の場合には、サンプルポイントa1の合
計傾斜c1は1.83、サンプルポイントa2の合計傾
斜は3.60、サンプルポイントa3の合計傾斜c3は
5.35、サンプルポイントa4の合計傾斜は7.1
0、サンプルポイントa5の合計傾斜は8.30、サン
プルポイントa6の合計傾斜c6は8.60、サンプル
ポイントa7の合計傾斜は7.50である。
Next, the inclination b1 obtained in this way is
The total slope is determined based on the values of b11. The total slope is obtained by summing the last five slopes with reference to the sample point, and indicates the degree of the slope near the sample point. For example,
The total slope c1 of the sample point a1 is the slope b1 of the sample point a1 and the slope b four behind it.
It is calculated by summing 2 to b5. That is, it is calculated by c1 = b1 + b2 + b3 + b4 + b5. In the case of FIG. 25, the total slope c1 of the sample point a1 is 1.83, the total slope of the sample point a2 is 3.60, the total slope c3 of the sample point a3 is 5.35, and the total slope of the sample point a4 is 7 .1
0, the total slope of the sample point a5 is 8.30, the total slope c6 of the sample point a6 is 8.60, and the total slope of the sample point a7 is 7.50.

【0081】このようにして全区間における合計傾斜を
算出し、次のステップ216の処理を行う。なお、ここ
では、5ポイントの合計をその先頭の合計傾斜とする場
合について説明したが、これに限らず、5ポイントの中
間の合計傾斜としてもよい。すなわち、合計傾斜c1を
サンプルポイントa1〜a5の中間すなわちサンプルポ
イントa3の値としてもよい。また、これ以外に5ポイ
ントにおける位置が明確であれば、合計傾斜をどのポイ
ントの値としてもよいことは言うまでもない。また、5
ポイントに限らず、それ以上でもそれ以下でもよいこと
は言うまでもない。このように合計傾斜を用いること
で、一時的な傾きにだまされることなく、適切な傾斜部
分が見つけ出せるので、適切な安定箇所を発見すること
ができるようになる。
In this way, the total inclination in all sections is calculated, and the processing of the next step 216 is performed. Here, the case where the sum of the five points is set as the total slope at the beginning is described, but the present invention is not limited to this, and the total slope in the middle of the five points may be used. That is, the total slope c1 may be set to a value between the sample points a1 to a5, that is, the value of the sample point a3. In addition, if the position at five points is clear, the total inclination may be set to any value. Also, 5
It goes without saying that not only the points but also more or less may be used. By using the total inclination in this manner, an appropriate inclined portion can be found without being fooled by a temporary inclination, so that an appropriate stable portion can be found.

【0082】ステップ216:前記ステップ215で算
出された合計傾斜に基づいて今度は安定区間の抽出を行
う。すなわち、各サンプルポイントにおける合計傾斜を
直線補間又はその他の補間によって結ぶことによって形
成された合計傾斜曲線の中で所定値(例えば、合計傾斜
値5)以下の箇所を安定区間とし、それ以外の箇所は不
安定区間とする。 ステップ217:ステップ216の処理によって安定区
間とみなされた区間毎に波形の最大値すなわちピーク値
補間曲線の最大値を検出し、その最大値が所定値以下の
場合にはその安定区間は削除し、不安定区間に変更す
る。 ステップ218:このようにして抽出された安定区間の
存在に基づいて人間は初めてその安定区間の開始点付近
に音符のトリガである音の開始点があることに気付く。
そこで、その音符の開始点付近を決定するために、ステ
ップ216及びステップ217で安定区間と認定された
部分の音符開始点を検出し、それに応じて安定区間の拡
張を行う。
Step 216: A stable section is extracted this time based on the total slope calculated in step 215. That is, in a total slope curve formed by connecting the total slopes at each sample point by linear interpolation or other interpolation, a section having a predetermined value (for example, a total slope value of 5) or less is defined as a stable section, and other sections are defined as stable sections. Is an unstable section. Step 217: The maximum value of the waveform, that is, the maximum value of the peak value interpolation curve is detected for each section considered as a stable section by the processing of step 216, and if the maximum value is equal to or less than the predetermined value, the stable section is deleted. , Change to an unstable section. Step 218: Based on the existence of the stable section extracted in this way, the human first notices that there is a start point of the note trigger sound near the start point of the stable section.
Therefore, in order to determine the vicinity of the starting point of the note, the note starting point of the portion recognized as a stable section in steps 216 and 217 is detected, and the stable section is extended accordingly.

【0083】図26はステップ216からステップ21
8までの処理の概念を示すものである。有効区間内の合
計傾斜曲線が図26に示すような場合、それを所定値で
区切ることによって3つの安定区間d1〜d3が検出さ
れる。なお、安定区間d2についてはステップ217の
処理の結果、ピーク値補間曲線の最大値が所定値以下で
あるために削除される。従って、図26の有効区間の場
合には2つの安定区間d1,d3が存在することにな
り、2つの安定区間d1,d3の間には削除された安定
区間d2を含む不安定区間が存在することになる。この
不安定区間を安定区間d1,d3に接続して、それぞれ
の安定区間d1,d3の拡張処理を行う必要がある。
FIG. 26 shows steps 216 to 21.
8 illustrates the concept of processing up to 8. When the total slope curve in the effective section is as shown in FIG. 26, three stable sections d1 to d3 are detected by dividing the curve by a predetermined value. Note that the stable section d2 is deleted because the maximum value of the peak value interpolation curve is equal to or less than the predetermined value as a result of the process of step 217. Therefore, in the case of the effective section in FIG. 26, two stable sections d1 and d3 exist, and an unstable section including the deleted stable section d2 exists between the two stable sections d1 and d3. Will be. It is necessary to connect the unstable sections to the stable sections d1 and d3 and perform the extension processing of the respective stable sections d1 and d3.

【0084】安定区間d1については、必然的に有効区
間の開始点がその安定区間d1の音符の開始点となり、
安定区間d3については、必然的に有効区間の最終点が
その安定区間d3の音符の終了点となる。そして、安定
区間d3の音符開始点及び安定区間d1の最終点は次の
ようにして求められる。すなわち、ステップ216で検
出された不安定区間の中から、音符開始点の検出対象と
なる安定区間に近い方の不安定区間を決定し、その不安
定区間内の合計傾斜曲線のピーク値に相当するサンプル
ポイントをその安定区間の音符開始点とするようにし
た。従って、図26のように安定区間d2が削除されて
不安定区間が2箇所存在する場合には、音符開始点の検
出対象となる安定区間d3に近い方の不安定区間におい
て、合計傾斜のピーク値に相当するサンプルポイントf
2が安定区間d3の音符開始点となる。従って、安定区
間d1の音符終了点はサンプルポイントf2となるの
で、最終的に、安定区間d1は拡張安定区間e1とな
り、安定区間d2は拡張安定区間e3となる。なお、図
26の場合に、安定区間d2がステップ217の処理で
削除されなかった場合には、サンプルポイントf1が安
定区間d1の音符終了点及び安定区間d2の音符開始点
となり、サンプルポイントf2が安定区間d2の音符終
了点及び安定区間d3の音符開始点となる。
As for the stable section d1, the start point of the effective section is necessarily the start point of the note in the stable section d1.
For the stable section d3, the final point of the effective section is necessarily the end point of the note in the stable section d3. The note start point of the stable section d3 and the end point of the stable section d1 are obtained as follows. That is, from the unstable sections detected in step 216, an unstable section that is closer to the stable section for which the note start point is to be detected is determined and corresponds to the peak value of the total slope curve in the unstable section. The sample point to be used is set as the note start point of the stable section. Therefore, when the stable section d2 is deleted and two unstable sections exist as shown in FIG. 26, the peak of the total slope is determined in the unstable section closer to the stable section d3 for which the note start point is to be detected. Sample point f corresponding to the value
2 is the note start point of the stable section d3. Accordingly, since the note end point of the stable section d1 is the sample point f2, the stable section d1 finally becomes the extended stable section e1, and the stable section d2 becomes the extended stable section e3. In the case of FIG. 26, if the stable section d2 is not deleted in the process of step 217, the sample point f1 becomes the note end point of the stable section d1 and the note start point of the stable section d2, and the sample point f2 becomes This is the note end point of the stable section d2 and the note start point of the stable section d3.

【0085】図22は図1のステップ15の定常区間検
出処理の詳細を示す図であり、図5に対応したものであ
る。図21の安定区間検出処理によって求められた安定
区間の中から定常区間がどのようにして検出されるの
か、その定常区間検出処理の詳細を説明する。なお、図
22の定常区間処理の内、ステップ221〜ステップ2
29は図5に示したステップ51〜ステップ59とほと
んど同じなので、その部分については簡単に説明し、こ
れ以外について詳細に説明する。
FIG. 22 is a diagram showing details of the stationary section detection processing in step 15 of FIG. 1 and corresponds to FIG. How the steady section is detected from the stable sections obtained by the stable section detection processing of FIG. 21 will be described in detail. Steps 221 and 2 in the stationary section processing of FIG.
Since step 29 is almost the same as steps 51 to 59 shown in FIG.

【0086】ステップ221:第1次バンドパスフィル
タ(第1次BPF)を通過させて、所定の倍音を削除す
る。 ステップ222:ステップ221の第1次BPF処理に
よって得られた楽音波形信号に対してピーク位置検出法
を用いて1周期の基準となるピーク基準位置検出処理を
行う。 ステップ223:前記ステップ222で検出されたピー
ク基準位置に基づいて、あるピーク基準位置から始まる
基本区間と、その基本区間の直後の次のピーク基準位置
までの区間(以下、移動区間とする)との間の2つの区
間の波形について波形が同じであるか否かの比較を図1
3に示すような誤差率算出方法によって行う。 ステップ224:ステップ223の波形比較処理の結果
を利用して、誤差率が所定値(例えば10)よりも小さ
な区間同士を繋げて、それを疑似的な一致区間とし、各
一致区間から抽出されるピッチの最大値と最小値を検出
し、それに基づいてカットオフ周波数帯を決定する。 ステップ225:ステップ224で決定された新たなカ
ットオフ周波数帯を用いて、第2次バンドパスフィルタ
(第2次BPF)を通過させて、不要な倍音を除去す
る。 ステップ226:ステップ222のピーク基準位置検出
処理と同じ処理を行う。 ステップ227:ステップ223の波形比較処理と同じ
処理を行う。ステップ225からステップ227までの
一連の処理によって、誤差の原因となる低周波や高調波
がカットされて、より精度の高いピーク基準位置検出処
理及び波形比較処理が可能となり、前回よりも精度の高
い一致区間が得られる。 ステップ228:ステップ227までの処理によって得
られた各ピーク基準位置におけるピッチデータを補間し
て、1サンプルポイント毎に1ピッチデータとなるよう
に直線補間する。
Step 221: Pass a first-order band-pass filter (first-order BPF) to delete predetermined harmonics. Step 222: A peak reference position detection process, which is a reference for one cycle, is performed on the musical tone waveform signal obtained by the primary BPF process of step 221 using a peak position detection method. Step 223: Based on the peak reference position detected in step 222, a basic section starting from a certain peak reference position and a section up to the next peak reference position immediately after the basic section (hereinafter referred to as a moving section). FIG. 1 shows a comparison of whether or not the waveforms of two sections between
This is performed by an error rate calculation method as shown in FIG. Step 224: Using the result of the waveform comparison process of step 223, the sections in which the error rate is smaller than a predetermined value (for example, 10) are connected to each other to be a pseudo matching section, and extracted from each matching section. The maximum value and the minimum value of the pitch are detected, and the cutoff frequency band is determined based on the maximum value and the minimum value. Step 225: Using the new cut-off frequency band determined in Step 224, pass through a second-order band-pass filter (second-order BPF) to remove unnecessary harmonics. Step 226: The same processing as the peak reference position detection processing of step 222 is performed. Step 227: The same processing as the waveform comparison processing of step 223 is performed. By a series of processes from step 225 to step 227, low frequencies and harmonics that cause errors are cut, and more accurate peak reference position detection processing and waveform comparison processing can be performed. A matching section is obtained. Step 228: The pitch data at each peak reference position obtained by the processing up to step 227 is interpolated, and linear interpolation is performed so that one pitch data is obtained for each sample point.

【0087】ステップ229:ステップ228の処理に
よって求められた各サンプルポイント毎のピッチデータ
を用いて時変動バンドパスフィルタ(BPF)処理を行
う。 ステップ22A:ステップ229の時変動バンドパスフ
ィルタ処理を経た楽音波形に対して、ピークが強く出て
いるサイドを決定し、ステップ228で得られた周波数
変化に基づいて決定されるピリオド区間によって楽音波
形を区切り、各区切り区間内で最大となる位置を検出
し、そこをピーク基準位置とする。すなわち、ステップ
229の時変動バンドパスフィルタ処理によって得られ
た楽音波形が図27に示すようなものである場合、その
周波数変化に基づいて決定されるピリオド区間PR1〜
PR5によって各楽音波形を区切る。この区切られた区
間PR1〜PR5における最大値P1〜P6がピーク基
準位置となる。ステップ222(ステップ52)やステ
ップ226(ステップ56)のようなピーク基準位置検
出処理によってピーク基準位置を検出すると、図10
(A)に示すような波形の場合、明らかに誤った位置に
ピーク基準位置P4,P5が出現してしまうという問題
があるが、このステップ22Aのようにピリオド区間に
よって楽音波形を区切り、その中でピーク基準位置を検
出する場合だと、そのような明らかに誤ったピーク基準
位置が検出されることはなくなり、ピーク基準位置検出
精度が向上する。
Step 229: A time-varying band-pass filter (BPF) process is performed using the pitch data for each sample point obtained by the process of step 228. Step 22A: For the musical sound waveform that has undergone the time-varying band-pass filter processing in step 229, determine the side where the peak is strong, and determine the musical sound waveform according to the period interval determined based on the frequency change obtained in step 228. , And the maximum position in each section is detected, and this is set as the peak reference position. That is, when the tone waveform obtained by the time-varying band-pass filter processing in step 229 is as shown in FIG. 27, the period sections PR1 to PR1 determined based on the frequency change are used.
Each tone waveform is separated by PR5. The maximum values P1 to P6 in the divided sections PR1 to PR5 are peak reference positions. When the peak reference position is detected by the peak reference position detection processing as in step 222 (step 52) or step 226 (step 56), FIG.
In the case of the waveform shown in (A), there is a problem that the peak reference positions P4 and P5 appear at erroneously wrong positions. However, as in step 22A, the musical tone waveform is divided by a period section, and In the case where the peak reference position is detected by such a method, such a clearly incorrect peak reference position is not detected, and the accuracy of peak reference position detection is improved.

【0088】ステップ22B:ステップ22Aのピーク
基準位置検出処理によって検出されたピーク基準位置に
基づいて波形の有声区間検出処理を行う。すなわち、こ
の有声区間検出処理では、ステップ223と同様に、ス
テップ22Aで検出されたピーク基準位置に基づいて、
あるピーク基準位置から始まる基本区間と、その基本区
間の直後の次のピーク基準位置までの区間(以下、移動
区間とする)との間の2つの区間の波形について波形が
同じであるか否かの比較を図13に示すような誤差率算
出方法によって行う。そのために、この有声区間検出処
理では、基本区間と移動区間とが不一致と判定された場
合、その部分を直ちに有声区間の区切りとしないで、不
一致が所定回数以上連続して発生した場合に有声区間の
区切りとする。これによって、「あ〜い〜う〜」や「あ
〜あ〜あ〜」等のように「母音が連続する部分」を有声
区間として検出することができる。
Step 22B: A voiced section detection process of the waveform is performed based on the peak reference position detected by the peak reference position detection process of step 22A. That is, in this voiced section detection process, as in step 223, based on the peak reference position detected in step 22A,
Whether the waveforms of two sections between a basic section starting from a certain peak reference position and a section immediately after the basic section to the next peak reference position (hereinafter referred to as a moving section) are the same. Are performed by an error rate calculation method as shown in FIG. Therefore, in this voiced section detection process, if it is determined that the basic section and the moving section do not match, the section is not immediately delimited as a voiced section. And a delimiter. This makes it possible to detect a "vowel continuous portion", such as "a-a-a-" or "a-a-a-", as a voiced section.

【0089】例えば、図28の場合、ピーク基準位置P
1からピーク基準位置P2までを基本区間P12とする
と、ピーク基準位置P2からピーク基準位置P3までが
移動区間P23となる。この場合、基本区間P12と移
動区間23は一致すると判定されたとする。区間P23
と区間P34についても同様に一致と判定されたとす
る。次の区間P34と区間P45が不一致と判定された
場合、その区間P34と、区間P45の次の区間P56
との間で波形比較処理を行う。その結果、区間P34と
区間P56が一致と判定された場合には、区間P45と
区間56が不一致であっても、区間P34、区間P4
5、区間P56は一致するものとして次の区間P56と
区間P67(図示せず)の判定に進む。このとき、区間
P34と区間P45、区間P34と区間P56、区間P
34と区間P67(図示せず)、区間P34と区間P7
8(図示せず)、区間P34と区間P89(図示せず)
がそれぞれ不一致と判定された場合、すなわち所定回数
(例えば5回)以上不一致が連続して発生した場合に
は、その区間P34を有声区間の区切りとし、次の区間
P45と区間P56について同様の判定を行う。区間P
45と区間P56が不一致の場合には、区間P45と区
間P67(図示へせず)について判定を行う。なお、区
間45と区間P56が不一致の場合、不一致が連続する
がどうかの処理を行わずに、次の区間P56と区間P6
7について判定を行い、隣合う区間が一致したときに始
めて前述と同様の一致処理を行うようにしてもよい。こ
のようにして、有声区間が決定したら、今度はその有声
区間の中で所定長以下のもの(短い有声区間)を削除す
る。
For example, in the case of FIG.
Assuming that a section from 1 to the peak reference position P2 is a basic section P12, a section from the peak reference position P2 to the peak reference position P3 is a movement section P23. In this case, it is assumed that it is determined that the basic section P12 and the moving section 23 match. Section P23
And section P34 are also determined to be the same. When it is determined that the next section P34 and the section P45 do not match, the section P34 and the section P56 next to the section P45 are determined.
And performs a waveform comparison process. As a result, when it is determined that the section P34 and the section P56 match, the section P34 and the section P4 are set even if the section P45 and the section 56 do not match.
5. The section P56 is determined to be the same, and the process proceeds to the next section P56 and section P67 (not shown). At this time, section P34 and section P45, section P34 and section P56, section P
34 and section P67 (not shown), section P34 and section P7
8 (not shown), section P34 and section P89 (not shown)
Are determined as non-coincidences, that is, when the non-coincidence occurs continuously for a predetermined number of times (for example, 5 times) or more, the section P34 is set as a section of the voiced section, and the same determination is performed for the next section P45 and the section P56. I do. Section P
If the interval 45 and the interval P56 do not match, a determination is made for the interval P45 and the interval P67 (not shown). When the section 45 and the section P56 do not match, the process of determining whether the mismatch continues is not performed, and the next section P56 and the section P6 are not performed.
7 may be determined, and the same matching process as described above may be performed only when adjacent sections match. When the voiced section is determined in this way, the voiced section having a predetermined length or less (short voiced section) is deleted.

【0090】以上の処理によって、安定区間は、図29
に示すように不安定区間によって分離された有声区間V
1〜V3のように分類される。なお、この有声区間V1
〜V3は隣接比較誤差曲線の値の低い安定した部分に対
応し、隣接比較誤差曲線の値の高い部分が不安定区間に
対応している。従って、この隣接比較誤差曲線に基づい
て、安定区間V1〜V3の拡張処理を行う。この拡張処
理は、安定区間の開始点及び終了点に接する有効区間に
ついては無条件にその安定区間の開始点及び終了点まで
拡張し、二つの有声区間に挟まれた不安定区間について
は隣接比較誤差の最大値を区切り点として、有効区間の
拡張を行う。従って、図29に示すような隣接比較誤差
曲線の場合には、各有声区間V1〜V3は拡張処理によ
って拡張有声区間V1E〜V3Eのようになる。なお、
図29では、拡張有声区間内の隣接比較誤差の傾きが0
となる部分(底辺部分)が一か所の場合のみが示されて
いるが、実際には隣接比較誤差の傾きが0となる部分
(底辺部分)は複数箇所存在する場合があることは言う
までもない。
By the above processing, the stable section is set as shown in FIG.
Voiced section V separated by unstable section as shown in
They are classified as 1 to V3. This voiced section V1
VV3 corresponds to a stable portion having a low value of the adjacent comparison error curve, and a portion having a high value of the adjacent comparison error curve corresponds to the unstable section. Therefore, expansion processing of the stable sections V1 to V3 is performed based on this adjacent comparison error curve. This expansion process unconditionally extends the effective section adjacent to the start point and end point of the stable section to the start point and end point of the stable section, and performs adjacent comparison for the unstable section between two voiced sections. The effective section is extended using the maximum value of the error as a breakpoint. Therefore, in the case of the adjacent comparison error curve as shown in FIG. 29, each voiced section V1 to V3 becomes an expanded voiced section V1E to V3E by the expansion processing. In addition,
In FIG. 29, the slope of the adjacent comparison error in the extended voiced section is 0
Although only one portion (base portion) is shown, it is needless to say that there may be a plurality of portions (bottom portion) where the inclination of the adjacent comparison error is 0 in actuality. .

【0091】ステップ22C:ステップ221からステ
ップ22Bまでの処理によって得られた各拡張有声区間
について、隣合う区間の誤差すなわち隣接比較誤差の傾
きが0となる部分(底辺部分)を検出し、そこを母音の
基準位置とし、その母音の発音に対応した区間を音色区
間として検出する処理を行う。この音色区間を検出する
処理では、底辺部分に相当する波形区間を基本区間とし
て固定し、その前後に存在する複数の波形区間を移動区
間として順次波形比較処理を行い、その比較誤差を求め
る。このようにして求めた比較誤差を基準比較誤差と呼
ぶ。すなわち、図30(A)に示すように隣接比較誤差
の底辺部分に相当する波形区間m0を基本区間とし、こ
の基本区間とその両側に存在する複数の移動区間m1,
m−1,m2,m−2,m3,m−3,m4,m−4・
・・との間で波形比較処理を行う。基本区間は隣接比較
誤差の最低値に相当するもの、すなわち、波形比較処理
の結果、一致度が高いと認定された波形区間のことであ
る。このようにして得られた比較誤差が図30(B)の
ような基準比較誤差曲線となる。この基準比較誤差曲線
は波形区間m0を基準にして波形比較処理を行っている
関係上、波形区間m0の近傍では隣接比較誤差曲線と同
じような傾向を示すが、比較的離れた部分では誤差率は
大きくなり、誤差率最大に収束する。そして、この基準
比較誤差曲線の値(誤差率)が所定値以下の部分の波形
区間が音色区間TS1となる。なお、基準比較誤差曲線
を求める場合にも、ステップ22Bの有声区間検出処理
のように、基準比較誤差曲線の値が所定値よりも大きく
なった場合にそこを直ちに音色区間の区切りとしない
で、所定値よりも大きい値が所定回数以上連続して発生
した場合に音色区間の区切りとする。
Step 22C: With respect to each extended voiced section obtained by the processing from step 221 to step 22B, a part (base part) where the error of the adjacent section, that is, the slope of the adjacent comparison error becomes 0, is detected. A process for detecting a section corresponding to the pronunciation of the vowel as a timbre section is performed as a reference position of the vowel. In the processing for detecting the tone color section, a waveform section corresponding to the base portion is fixed as a basic section, and a plurality of waveform sections existing before and after the section are set as moving sections, and a waveform comparison process is sequentially performed to obtain a comparison error. The comparison error thus obtained is called a reference comparison error. That is, as shown in FIG. 30A, a waveform section m0 corresponding to the bottom portion of the adjacent comparison error is set as a basic section, and this basic section and a plurality of moving sections m1,
m-1, m2, m-2, m3, m-3, m4, m-4
Performs waveform comparison processing with. The basic section is a section corresponding to the lowest value of the adjacent comparison error, that is, a waveform section determined as having high coincidence as a result of the waveform comparison processing. The comparison error thus obtained becomes a reference comparison error curve as shown in FIG. This reference comparison error curve shows the same tendency as the adjacent comparison error curve in the vicinity of the waveform section m0 due to the waveform comparison processing performed on the basis of the waveform section m0. Increases and converges to the maximum error rate. The waveform section in which the value (error rate) of the reference comparison error curve is equal to or less than a predetermined value is the timbre section TS1. When the reference comparison error curve is obtained, as in the voiced section detection process in step 22B, if the value of the reference comparison error curve becomes larger than a predetermined value, the reference comparison error curve is not immediately used as a delimiter of the timbre section. When a value larger than a predetermined value occurs continuously for a predetermined number of times or more, it is defined as a timbre section break.

【0092】このようにして音色区間が決定した場合
に、拡張有声区間内でこの音色区間以外の未決定区間長
が所定長以上の場合には、決定した音色区間以外の拡張
音声区間について同様の処理を行う。すなわち、図30
の場合には、図30(B)のような音色区間TS1が決
定した場合、この音色区間TS1以外の拡張有声区間す
なわち未決定区間長が所定長以上なので、この未決定区
間長についても同様に、図30(C)に示すような隣接
比較誤差の底辺部分に相当する波形区間n0を基本区間
とし、この基本区間とその前後に存在する複数の移動区
間n1,n−1,n2,n−2,n3,n−3,n4,
n−4・・・との間で波形比較処理を行う。このように
して得られた比較誤差が図30(D)のような基準比較
誤差曲線となる。この基準比較誤差曲線の値(誤差率)
が所定値以下の部分の波形区間が今度は音色区間TS2
となる。従って、図30の拡張有声区間の場合には2つ
の音色区間TS1,TS2が検出されることになる。
When the timbre section is determined in this way, if the length of the undecided section other than this timbre section is longer than a predetermined length in the extended voiced section, the same applies to the extended speech section other than the determined timbre section. Perform processing. That is, FIG.
In the case of, when the timbre section TS1 as shown in FIG. 30B is determined, the extended voiced section other than this timbre section TS1, that is, the undecided section length is equal to or longer than a predetermined length. A waveform section n0 corresponding to the base portion of the adjacent comparison error as shown in FIG. 30C is set as a basic section, and the basic section and a plurality of moving sections n1, n-1, n2, n- 2, n3, n-3, n4
Perform waveform comparison processing with n-4. The comparison error obtained in this manner becomes a reference comparison error curve as shown in FIG. Value of this reference comparison error curve (error rate)
Is below the predetermined value, this time the timbre section TS2
Becomes Therefore, in the case of the extended voiced section in FIG. 30, two tone color sections TS1 and TS2 are detected.

【0093】ステップ22D:ステップ22Cの処理に
よって得られた音色区間をステップ5Cの定常区間拡張
処理と同じようにして拡張する。すなわち、ステップ2
21からステップ22Cまでの処理を行った結果、検出
された音色区間ST1と音声区間ST2との間が1個の
波形区間によって区切られている場合にはそのままその
波形区間を音色区間ST1及びST2の区切りとすれば
よいが、隣合う音色区間同士が複数の波形区間によって
区切られている場合には、これらの波形区間を前後の音
色区間に接続して、音色区間を拡張しなければならな
い。この音色区間を拡張する処理は、図15と同様の処
理によって行われる。なお、この場合もBPF処理後の
サイン波形に近い波形に対して比較処理を行うことにな
るので、母音毎の特徴までもがフィルタリングされてし
まい同母音区間すなわち同じ音色を抽出するという意義
が薄れてしまう恐れがある。そこで、ピーク位置検出用
と波形比較処理用の波形を別途用意して、それに基づい
てそれぞれピーク位置検出及び波形比較処理を行うよう
にしてもよい。すなわち、ピーク位置検出用の波形とし
ては時変動BPF処理後の波形をそのまま用い、波形比
較処理用としてはその時変動BPF処理に用いた周波数
成分の数倍周期の周波数帯波形を残すようなBPF処理
を行った波形を用いるようにする。なお、基本周波数を
最低周波数とし、基本周波数の整数倍を最高周波数とす
るバンドパスフィルタ処理を行い、それを波形比較処理
の対象波形として使用してもよいことはいうまでもな
い。
Step 22D: The timbre section obtained by the processing of step 22C is extended in the same manner as the stationary section extension processing of step 5C. That is, step 2
As a result of performing the processing from step 21 to step 22C, if the detected timbre section ST1 and speech section ST2 are separated by one waveform section, the waveform section is directly changed to the timbre sections ST1 and ST2. It is sufficient to set a delimiter. However, when adjacent timbre sections are separated by a plurality of waveform sections, these timbre sections must be connected to the preceding and following timbre sections to extend the timbre section. The process of expanding the tone color section is performed by the same process as in FIG. In this case as well, since the comparison process is performed on a waveform close to the sine waveform after the BPF process, even the features of each vowel are filtered, and the significance of extracting the same vowel section, that is, the same timbre, is diminished. There is a risk that it will. Therefore, a waveform for peak position detection and a waveform for waveform comparison processing may be separately prepared, and the peak position detection and waveform comparison processing may be respectively performed based on the waveforms. That is, the waveform after the time-varying BPF processing is used as it is as the waveform for peak position detection, and the BPF processing for leaving a frequency band waveform several times as long as the frequency component used in the time-varying BPF processing is used for the waveform comparison processing. The waveform obtained by performing the above is used. It goes without saying that band-pass filter processing may be performed in which the basic frequency is set to the lowest frequency and the integral frequency of the basic frequency is set to the highest frequency, and this may be used as a target waveform for the waveform comparison processing.

【0094】このようにした拡張された音色区間につい
て今度は音高の変化や安定性を考慮して細分化処理を行
い、最終的な音程区間を決定する。ステップ22Cまで
の音色区間検出処理では、波形を引き延ばして比較して
いるため、『ああ』などのような連続母音による音声波
形の音高変化であっても、それを1つの同じ音としてと
らえるような仕組みになっている。従って、楽器音の楽
音波形の場合には、持続系の楽器音の音高変化を見つけ
出せないような事態も起こる。そこで、この実施の形態
では、ステップ22Cまでの処理によって得られた音色
区間ごとに音高変化の状態を調べて、その状態に応じて
さらに分割する必要があるかどうかの判定を行い。必要
があると判定された場合には、音色区間をさらに細かな
音程区間に分割する。この音色区間を音程区間に分割す
る処理は、図16に示すようなノート距離変動曲線を用
いて行う。
The subdivision process is performed on the expanded tone color section in consideration of the change in pitch and stability, and the final pitch section is determined. In the timbre section detection processing up to step 22C, since the waveform is expanded and compared, even if the pitch change of the voice waveform is caused by a continuous vowel such as "Oh", it is regarded as one and the same sound. It is a mechanism. Therefore, in the case of the musical sound waveform of the musical instrument sound, a situation may occur in which the pitch change of the continuous musical instrument sound cannot be found. Therefore, in this embodiment, the state of the pitch change is examined for each timbre section obtained by the processing up to step 22C, and it is determined whether further division is necessary according to the state. If it is determined that it is necessary, the timbre section is divided into smaller pitch sections. The process of dividing the timbre section into pitch sections is performed using a note distance variation curve as shown in FIG.

【0095】ステップ22E:ステップ22Dの処理に
よって検出された音程区間の中には、音符として存在し
えないほど短いものが含まれていたりする場合がある。
故に、このステップでは1小節を所定の音符長(例えば
8分音符長)を単位としたグリッドに均等に分割し、こ
のグリッドに前述の音程区間を当てはめて、音価を決定
するようにしている。各音程区間の先頭が最も近いグリ
ッドにその音程区間を当てはめるようにしているが、1
つのグリッドに対して2つ以上の音程区間が最も近いと
いう場合には、それらの音程区間の中で音長の長いもの
をそのグリッドに当てはめるようにした。例えば、図3
1は8分音符長で分割された1小節分に該当する音程区
間の一例を示す図である。図において、ステップ22D
によって最終的に決定された音程区間はPT1〜PT5
のようになったとする。この場合、音程区間PT1はグ
リッドG2に、音程区間PT2はグリッドG4に、音程
区間PT3はグリッドG5に当てはまる。しかしなが
ら、グリッドG6に関しては、音程区間PT4と音程区
間PT5の2つがグリッドG6に最も近い音程区間であ
る。従って、この場合には、音程区間PT4と音程区間
PT5の音長の長い方、すなわち音程区間PT5がグリ
ッグG6に当てはめられることになる。なお、グリッド
G5に音程区間PT3が当てはめられている関係上、音
程区間PT2の音長はクリッドG4からグリッドG5ま
でとなるが、このときに、音程区間PT3が存在しない
場合には、その音程区間PT2の音長の最終位置をその
まま採用してもよいし、音程区間PT2の末尾が最も近
いグリッドにその音程区間を当てはめるようにしてもよ
い。この場合、音程区間の存在しない部分にノートオフ
(休符)を当てはめるようにしてもよい。また、音程区
間PT3が存在しない場合には、その音程区間PT2の
音長の最終位置を次の音程区間PT5の開始位置である
グリッドG6までとしてもよい。この場合には、ノート
オフ(休符)などは存在しないことになる。このように
図22の定常区間検出処理によって音価が決定された後
は、図1のステップ16の音高列決定処理によって、各
音価に最適な音高列が割り当てられる。この音高列決定
処理は第1の実施の形態と同じなので説明は省略する。
Step 22E: The interval detected by the process of step 22D may include a note that is too short to exist as a note.
Therefore, in this step, one bar is equally divided into a grid in units of a predetermined note length (for example, eighth note length), and the pitch interval is applied to this grid to determine a note value. . The interval section is assigned to the grid closest to the beginning of each interval section.
If two or more intervals are closest to one grid, the longer interval of those intervals is applied to the grid. For example, FIG.
1 is a diagram showing an example of a musical interval corresponding to one measure divided by an eighth note length. In the figure, step 22D
The pitch interval finally determined by PT1 to PT5
Let's say In this case, the interval PT1 applies to the grid G2, the interval PT2 applies to the grid G4, and the interval PT3 applies to the grid G5. However, with regard to the grid G6, the interval PT4 and the interval PT5 are the intervals closest to the grid G6. Therefore, in this case, the longer interval between the interval PT4 and the interval PT5, that is, the interval PT5 is applied to the Grigg G6. Note that, since the pitch section PT3 is applied to the grid G5, the pitch length of the pitch section PT2 is from the grid G4 to the grid G5. The final position of the pitch of PT2 may be used as it is, or the interval of the interval PT2 may be applied to the nearest grid. In this case, note-off (rest) may be applied to a portion where no interval exists. When the interval PT3 does not exist, the last position of the pitch of the interval PT2 may be set to the grid G6, which is the start position of the next interval PT5. In this case, note-off (rest) does not exist. After the pitch value is determined by the stationary section detection process of FIG. 22 in this way, the optimum pitch sequence is assigned to each pitch value by the pitch sequence determination process of step 16 of FIG. This pitch sequence determination processing is the same as that of the first embodiment, and thus the description is omitted.

【0096】[0096]

【発明の効果】この発明に係る音信号分析装置によれ
ば、マイク等からの入力音のピッチ又はレベルが微妙に
ゆれた場合でも、そのゆれた部分以外の音楽的な音の定
常部分すなわち1つの音符に相当する部分を分析するこ
とのできる音信号分析装置を提供することができる。
According to the sound signal analyzing apparatus of the present invention, even when the pitch or level of the input sound from the microphone or the like slightly fluctuates, the stationary part of the musical sound other than the fluctuated part, that is, 1 A sound signal analyzer capable of analyzing a portion corresponding to one note can be provided.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 図2の電子楽器が演奏情報発生装置として動
作する際のメインフローを示す図である。
FIG. 1 is a diagram showing a main flow when the electronic musical instrument of FIG. 2 operates as a performance information generating device.

【図2】 この発明に係る楽音情報分析装置及び演奏情
報発生装置を内蔵した電子楽器の構成を示すハードブロ
ック図である。
FIG. 2 is a hardware block diagram showing a configuration of an electronic musical instrument incorporating a musical sound information analyzer and a performance information generator according to the present invention.

【図3】 図1のステップ13の有効区間検出処理の詳
細を示す図である。
FIG. 3 is a diagram showing details of an effective section detection process in step 13 of FIG. 1;

【図4】 図1のステップ14の安定区間検出処理の詳
細を示す図である。
FIG. 4 is a diagram showing details of a stable section detection process in step 14 of FIG. 1;

【図5】 図1のステップ15の定常区間検出処理の詳
細を示す図である。
FIG. 5 is a diagram showing details of a stationary section detection process in step 15 of FIG. 1;

【図6】 図1のステップ16の音高列決定処理の詳細
を示す図である。
FIG. 6 is a diagram showing details of a pitch sequence determination process in step 16 of FIG. 1;

【図7】 サンプリング周波数44.1kHzでサンプ
リングされた音声信号すなわちディジタルサンプル信号
の波形値の一例を示す図である。
FIG. 7 is a diagram illustrating an example of a waveform value of an audio signal sampled at a sampling frequency of 44.1 kHz, that is, a digital sample signal.

【図8】 図3の有効区間検出処理の動作例の概念を示
す図である。
FIG. 8 is a diagram showing a concept of an operation example of the valid section detection processing of FIG. 3;

【図9】 図4の安定区間検出処理の動作例の概念を示
す図である。
9 is a diagram showing a concept of an operation example of the stable section detection processing of FIG.

【図10】 図5の第1次及び第2次BPF処理並びに
波形比較処理による動作例の概念を示す図である。
10 is a diagram showing a concept of an operation example by the first and second order BPF processes and the waveform comparison process of FIG. 5;

【図11】 図5のステップ51の第1次BPF処理後
における安定区間の楽音波形の強いピークがマイナス側
に現れ、弱いピークがプラス側に現れる場合の波形例を
示す図である。
11 is a diagram showing a waveform example when a strong peak of a musical tone waveform in a stable section appears on the minus side and a weak peak appears on the plus side after the first-order BPF processing in step 51 of FIG.

【図12】 図5の波形比較処理の中で行われる誤差率
の算出方法がどのように行われるのか、その具体例を2
個の比較波を用いて示した図である。
FIG. 12 shows a specific example of how the calculation method of the error rate performed in the waveform comparison processing of FIG. 5 is performed.
FIG. 5 is a diagram illustrating the comparison waves.

【図13】 図5の波形比較処理によって、図11の2
個の比較波からどのようにして誤差率が算出されるの
か、具体的な数値を示す図である。
FIG. 13 shows the waveform comparison process shown in FIG.
It is a figure which shows the concrete numerical value how the error rate is calculated from this comparison wave.

【図14】 時定数を小さめに設定した場合に図5のピ
ーク基準位置検出処理によってピーク基準位置がどのよ
うに抽出されるか、その具体例を示す図である。
FIG. 14 is a diagram showing a specific example of how a peak reference position is extracted by the peak reference position detection processing in FIG. 5 when the time constant is set to be small.

【図15】 図5のステップ5Cの定常区間拡張処理の
動作例を示す図である。
FIG. 15 is a diagram illustrating an operation example of a steady section extension process in step 5C of FIG. 5;

【図16】 図5のステップ5Dのノート距離による細
分化処理の動作例を示す図である。
FIG. 16 is a diagram illustrating an operation example of a subdivision process based on a note distance in step 5D of FIG. 5;

【図17】 図5のステップ5Dのノート距離による細
分化処理の別の動作例を示す図である。
FIG. 17 is a diagram illustrating another operation example of the subdivision processing based on the note distance in step 5D of FIG. 5;

【図18】 図6のステップ61の各定常区間の代表周
波数決定処理を行う場合に、定常区間のどの部分から代
表周波数を検出するのかその動作例を示す図である。
FIG. 18 is a diagram illustrating an example of an operation of determining a representative frequency from which part of the steady section to detect a representative frequency when performing the representative frequency determination processing of each steady section in step 61 of FIG. 6;

【図19】 図6のステップ61の各定常区間からどの
ようにして代表周波数が検出されるのかその動作例を示
す図である。
FIG. 19 is a diagram showing an operation example of how a representative frequency is detected from each stationary section in step 61 of FIG. 6;

【図20】 図1のステップ13の有効区間検出処理の
別の実施の形態に係るものの詳細を示す図である。
FIG. 20 is a diagram showing details of an effective section detection process in step 13 of FIG. 1 according to another embodiment.

【図21】 図1のステップ14の安定区間検出処理の
別の実施の形態に係るものの詳細を示す図である。
FIG. 21 is a diagram showing details of a stable section detection process according to another embodiment in step S14 of FIG. 1;

【図22】 図1のステップ15の定常区間検出処理の
別の実施の形態に係るものの詳細を示す図である。
FIG. 22 is a diagram illustrating details of another embodiment of the stationary section detection processing in step 15 of FIG. 1;

【図23】 図20の有効区間検出処理の動作例の概念
を示す図である。
FIG. 23 is a diagram showing a concept of an operation example of the valid section detection processing of FIG. 20;

【図24】 図21のステップ211からステップ21
5までの処理の動作例の概念を示す図である。
FIG. 24 shows steps 211 to 21 of FIG.
It is a figure which shows the concept of the operation example of the process to 5.

【図25】 図21のステップ215の合計傾斜の算出
例を示す図である。
FIG. 25 is a diagram illustrating an example of calculating a total inclination in step 215 of FIG. 21.

【図26】 図21のステップ216及びステップ21
8の処理の動作例の概念を示す図である。
FIG. 26 shows steps 216 and 21 of FIG.
8 is a diagram illustrating a concept of an operation example of the processing of No. 8; FIG.

【図27】 図22のステップ22Aのピーク基準位置
検出処理の動作例の概念を示す図である。
FIG. 27 is a diagram showing a concept of an operation example of the peak reference position detection processing in step 22A of FIG. 22.

【図28】 図22のステップ22Bの有声区間検出処
理における動作例の概念の前半部分を示す図である。
FIG. 28 is a diagram showing the first half of the concept of an operation example in the voiced section detection processing in step 22B of FIG. 22;

【図29】 図22のステップ22Bの有声区間検出処
理における動作例の概念の後半部分を示す図である。
FIG. 29 is a diagram illustrating the latter half of the concept of the operation example in the voiced section detection process in step 22B of FIG. 22;

【図30】 図22のステップ22Cの音色区間検出処
理における動作例の概念を示す図である。
30 is a diagram showing a concept of an operation example in the tone color section detection processing in step 22C of FIG. 22.

【図31】 図22のステップ22Eの音価決定処理に
おける動作例の概念を示す図である。
FIG. 31 is a diagram showing a concept of an operation example in a tone value determination process in step 22E of FIG. 22.

【符号の説明】[Explanation of symbols]

1…CPU、2…プログラムメモリ、3…ワーキングメ
モリ、4…演奏データメモリ、5…押鍵検出回路、6…
マイクインターフェイス、7…スイッチ検出回路、8…
表示回路、9…音源回路、10…鍵盤、1A…マイクロ
フォン、1B…テンキー&各種スイッチ、1C…ディス
プレイ、1D…サウンドシステム、1E…データ及びア
ドレスバス
DESCRIPTION OF SYMBOLS 1 ... CPU, 2 ... program memory, 3 ... working memory, 4 ... performance data memory, 5 ... key press detection circuit, 6 ...
Microphone interface, 7 ... Switch detection circuit, 8 ...
Display circuit, 9: sound source circuit, 10: keyboard, 1A: microphone, 1B: numeric keypad and various switches, 1C: display, 1D: sound system, 1E: data and address bus

Claims (39)

【特許請求の範囲】[Claims] 【請求項1】 任意の音信号を入力するための入力手段
と、 前記入力手段から入力された音信号のサンプル振幅値の
所定サンプル数にわたる平均値をそれぞれ求め、その結
果を時系列的な平均レベル情報として出力する演算手段
と、 前記演算手段によって求められた平均レベル情報に基づ
いて前記音信号の中から音楽的な音が存在すると思われ
る第1の区間を検出する第1区間検出手段と、 前記第1の区間内における前記音信号のサンプル振幅値
に基づいて音信号分析用の第2の区間を、該第1の区間
の中から検出する第2区間検出手段とを具えたことを特
徴とする音信号分析装置。
An input means for inputting an arbitrary sound signal, and an average value over a predetermined number of samples of a sample amplitude value of the sound signal input from the input means is obtained. Calculating means for outputting as level information; first section detecting means for detecting a first section in which a musical sound is considered to be present from the sound signal based on the average level information obtained by the calculating means; And a second section detecting means for detecting a second section for sound signal analysis from the first section based on a sample amplitude value of the sound signal in the first section. Characteristic sound signal analyzer.
【請求項2】 任意の音信号を入力するための入力手段
と、 前記入力手段から入力された音信号のサンプル振幅値の
所定サンプル数毎にその最大値を検出し、検出された最
大値を補間することによって補助波形を作成する波形作
成手段と、 前記波形作成手段によって作成された補助波形に基づい
て前記音信号の中から音楽的な音が存在すると思われる
第1の区間を検出する第1区間検出手段と、 前記第1の区間内における前記音信号のサンプル振幅値
に基づいて音信号分析用の第2の区間を、該第1の区間
の中から検出する第2区間検出手段とを具えたことを特
徴とする音信号分析装置。
2. An input means for inputting an arbitrary sound signal, detecting a maximum value of a sample amplitude value of the sound signal input from the input means for each predetermined number of samples, and detecting the detected maximum value. A waveform creating unit that creates an auxiliary waveform by interpolating; and a first section that detects a first section in which a musical sound is considered to exist from the sound signal based on the auxiliary waveform created by the waveform creating unit. One section detecting means; and second section detecting means for detecting a second section for sound signal analysis from the first section based on a sample amplitude value of the sound signal in the first section. A sound signal analyzer comprising:
【請求項3】 任意の音信号を入力するための入力手段
と、 前記音信号に所定の周波数特性のフィルタ処理を施すフ
ィルタ手段と、 前記フィルタ処理後の音信号における連続するサンプル
振幅値に基づいて各隣接する波形同士の一致度合いを分
析する分析手段と、 前記分析手段により所定の条件に従う範囲内で一致して
いると分析された連続する複数の波形からなる区間を同
波形区間として検出する区間検出手段と、 前記区間検出手段によって検出された同波形区間におけ
る前記音信号のピッチを検出するピッチ検出手段とを具
えたことを特徴とする音信号分析装置。
3. An input means for inputting an arbitrary sound signal, a filter means for performing a filtering process of a predetermined frequency characteristic on the sound signal, and a continuous sample amplitude value in the filtered sound signal. Analyzing means for analyzing the degree of coincidence between adjacent waveforms, and detecting, as the same waveform section, a section composed of a plurality of continuous waveforms analyzed by the analyzing means as matching within a range according to a predetermined condition. A sound signal analyzing apparatus comprising: a section detecting means; and a pitch detecting means for detecting a pitch of the sound signal in the same waveform section detected by the section detecting means.
【請求項4】 任意の音信号を入力するための入力手段
と、 前記入力手段から入力する前記音信号に関して所定区間
毎に前記音信号のピッチをそれぞれ検出し、検出したピ
ッチのデータ列を生成する第1のピッチ検出手段と、 前記ピッチデータ列における各ピッチに対応する周波数
に応じて通過帯域が可変制御されるフィルタ処理を、前
記入力された音信号に施すフィルタ処理手段と、 前記フィルタ処理手段から出力される前記音信号のサン
プル振幅値に基づいて該音信号のより正確なピッチを検
出する第2のピッチ検出手段とを具えたことを特徴とす
る音信号分析装置。
4. An input means for inputting an arbitrary sound signal, and a pitch of the sound signal is detected for each predetermined section with respect to the sound signal input from the input means, and a data string of the detected pitch is generated. First pitch detection means for performing filtering processing for variably controlling a pass band in accordance with a frequency corresponding to each pitch in the pitch data string to the input sound signal; A second pitch detecting means for detecting a more accurate pitch of the sound signal based on a sample amplitude value of the sound signal output from the means.
【請求項5】 任意の音信号を入力するための入力手段
と、 前記入力手段から入力する前記音信号に関して所定区間
毎に前記音信号のピッチをそれぞれ検出し、検出したピ
ッチのデータ列を生成する第1のピッチ検出手段と、 前記ピッチデータ列における各ピッチに対応する周波数
に応じて通過帯域が可変制御されるフィルタ処理を、前
記入力された音信号に施すフィルタ処理手段と、 前記フィルタ処理後の音信号における連続するサンプル
振幅値に基づいて各隣接する波形同士の一致度合いを分
析する分析手段と、 前記分析手段により所定の条件に従う範囲内で一致して
いると分析された連続する複数の波形からなる区間を同
波形区間として検出する区間検出手段と、 前記区間検出手段によって検出された同波形区間におけ
る前記音信号のピッチを検出する第2のピッチ検出手段
とを具えたことを特徴とする音信号分析装置。
5. An input means for inputting an arbitrary sound signal, and detecting a pitch of the sound signal at predetermined intervals with respect to the sound signal input from the input means, and generating a data string of the detected pitch. First pitch detection means for performing filtering processing for variably controlling a pass band in accordance with a frequency corresponding to each pitch in the pitch data string to the input sound signal; Analysis means for analyzing the degree of coincidence between adjacent waveforms based on successive sample amplitude values in the subsequent sound signal; and a plurality of continuous waveforms analyzed by the analysis means to be consistent within a range according to a predetermined condition. Section detection means for detecting a section having the same waveform as the same waveform section; and the sound signal in the same waveform section detected by the section detection means. The sound signal analysis device, characterized in that it comprises a second pitch detecting means for detecting a pitch.
【請求項6】 任意の音信号を入力するための入力手段
と、 前記入力手段から入力する前記音信号に関して所定区間
毎に前記音信号のピッチをそれぞれ検出し、検出したピ
ッチのデータ列を生成する第1のピッチ検出手段と、 前記ピッチデータ列における各ピッチに対応する周波数
に応じて通過帯域が時変動制御されるフィルタ処理を、
前記入力された音信号に施すフィルタ処理手段と、 前記フィルタ処理後の音信号における連続するサンプル
振幅値に基づいて各隣接する波形同士の一致度合いを分
析する分析手段と、 前記分析手段により所定の条件に従う範囲内で一致して
いると分析された連続する複数の波形からなる第1の区
間を検出する第1区間検出手段と、 前記第1区間検出手段によって検出された第1の区間内
の一致度のより高い波形を基準にその前後における複数
の各波形との間で一致度合いを判定し、一致度のより高
い第2の区間を検出する第2区間検出手段と、 前記第2区間検出手段によって検出された第2の区間に
おける前記音信号のピッチを検出する第2のピッチ検出
手段とを具えたことを特徴とする音信号分析装置。
6. An input means for inputting an arbitrary sound signal, and detecting a pitch of the sound signal for each predetermined section with respect to the sound signal input from the input means, and generating a data string of the detected pitch. A first pitch detecting means, and a filtering process in which a pass band is time-varying controlled in accordance with a frequency corresponding to each pitch in the pitch data sequence,
Filter processing means for applying to the input sound signal; analysis means for analyzing the degree of coincidence between adjacent waveforms based on continuous sample amplitude values in the sound signal after the filter processing; and First section detection means for detecting a first section consisting of a plurality of continuous waveforms analyzed to be identical within a range according to a condition; and a first section detected by the first section detection means. A second section detection means for determining a degree of coincidence between a plurality of waveforms before and after the waveform having a higher degree of coincidence as a reference and detecting a second section having a higher degree of coincidence; And a second pitch detecting means for detecting a pitch of the sound signal in a second section detected by the means.
【請求項7】 任意の音信号を入力するための入力手段
と、 所定のカットオフ周波数を最大周波数及び最小周波数と
するバンドパスフィルタ処理を前記入力手段から入力す
る前記音信号に施す第1フィルタ処理手段と、 前記第1フィルタ処理手段から出力される前記音信号に
対して周期基準となる第1候補位置の複数を検出する第
1周期基準検出手段と、 前記第1周期基準検出手段によって検出された前記第1
候補位置に基づいて前記音信号の最大周波数及び最小周
波数を検出する周波数帯検出手段と、 この周波数帯検出手段によって検出された最大周波数及
び最小周波数をカットオフ周波数とするバンドフィルタ
処理を、前記入力手段から入力する前記音信号に施す第
2フィルタ処理手段と、 前記第2フィルタ処理手段から出力される前記音信号に
対して周期基準となる候補位置の複数を検出する第2周
期基準検出手段と、 前記第2周期基準検出手段によって検出された前記候補
位置毎に前記音信号のピッチをそれぞれ検出するピッチ
検出手段とを具えた音信号分析装置。
7. An input means for inputting an arbitrary sound signal, and a first filter for performing a band-pass filter process for setting a predetermined cut-off frequency to a maximum frequency and a minimum frequency on the sound signal input from the input means. Processing means; first cycle reference detection means for detecting a plurality of first candidate positions serving as a cycle reference for the sound signal output from the first filter processing means; detection by the first cycle reference detection means Said first
A frequency band detecting means for detecting a maximum frequency and a minimum frequency of the sound signal based on the candidate position; and a band filter process for setting the maximum frequency and the minimum frequency detected by the frequency band detecting means to a cutoff frequency. Second filter processing means for applying the sound signal input from the means, and second cycle reference detection means for detecting a plurality of candidate positions serving as a cycle reference for the sound signal output from the second filter processing means. A sound signal analyzing apparatus comprising: a pitch detecting means for detecting a pitch of the sound signal for each of the candidate positions detected by the second cycle reference detecting means.
【請求項8】 任意の音信号を入力するための入力手段
と、 前記音信号に所定の周波数帯域のフィルタ処理を施すフ
ィルタ手段と、 前記フィルタ手段によるフィルタリング処理後の前記音
信号のピーク位置をそれぞれ検出するピーク位置検出手
段と、 このピーク位置検出手段によって検出された任意の2つ
のピーク位置間で前記音信号の波形を区切ることにより
得られる多様な区間のうち、前記フィルタの通過帯域に
よる制限に見合った時間長の区間について、隣合う2つ
の区間の対を可能な数だけ選定し、選定された各対にお
ける2区間の波形の一致度をそれぞれ判定し、その一致
度の最も高い1つの対を同波形区間として検出する区間
検出手段と、 前記区間検出手段によって検出された同波形区間に基づ
いて音信号分析用の定常区間を検出する定常区間検出手
段とを具えたことを特徴とする音信号分析装置。
8. An input means for inputting an arbitrary sound signal, a filter means for filtering the sound signal in a predetermined frequency band, and a peak position of the sound signal after the filtering processing by the filter means. A peak position detecting means for detecting each of the peak positions, and a limit by a pass band of the filter among various sections obtained by dividing the waveform of the sound signal between any two peak positions detected by the peak position detecting means. For a section having a time length corresponding to the above, two pairs of adjacent sections are selected as many as possible, and the degree of coincidence of the waveforms of the two sections in each selected pair is determined. A section detecting means for detecting a pair as the same waveform section; and a stationary section for sound signal analysis based on the same waveform section detected by the section detecting means. The sound signal analysis device, characterized in that it comprises a stationary section detecting means for output.
【請求項9】 任意の音信号を入力するための入力手段
と、 前記入力された音信号のピーク位置をそれぞれ検出する
ピーク位置検出手段と、 このピーク位置検出手段によって検出された任意の2つ
のピーク位置間で前記音信号の波形を区切ることにより
得られる多様な区間のうち、隣合う任意の2つの区間の
波形の一致度をそれぞれ判定し、その一致度の高い区間
同士を接続して第1の同波形区間群を検出する第1区間
検出手段と、 前記第1の同波形区間群の中の開始区間と最終区間を比
較の対象区間として、前記第1の同波形区間群の前後に
隣接する区間のそれぞれについて波形の一致度を算出
し、算出された一致度に基づいて前記第1の同波形区間
群をその前後に拡張し、これを第2の同波形区間群とし
て検出する第2区間検出手段と、 前記第2区間検出手段によって検出された第2の同波形
区間群に基づいて音信号分析用の定常区間を検出する定
常区間検出手段とを具えたことを特徴とする音信号分析
装置。
9. An input means for inputting an arbitrary sound signal, a peak position detecting means for detecting a peak position of the input sound signal, and an arbitrary two signals detected by the peak position detecting means. Among various sections obtained by dividing the waveform of the sound signal between the peak positions, the degree of coincidence between the waveforms of any two adjacent sections is determined, and the sections having a high degree of coincidence are connected to each other to determine the degree of coincidence. A first section detecting means for detecting one of the same waveform section groups; and a start section and a last section in the first same waveform section group as comparison target sections before and after the first same waveform section group. A degree of coincidence of waveforms is calculated for each of the adjacent sections, and the first same waveform section group is extended before and after that based on the calculated degree of coincidence, and this is detected as a second same waveform section group. Two section detection means, A sound signal analyzing apparatus, comprising: a stationary section detecting means for detecting a stationary section for sound signal analysis based on the second group of the same waveform sections detected by the second section detecting means.
【請求項10】 任意の音信号を入力するための入力手
段と、 前記入力手段から入力する前記音信号に関して所定区間
毎に前記音信号のピッチをそれぞれ検出し、検出したピ
ッチのデータ列を生成するピッチ検出手段と、 前記ピッチデータ列における相前後するピッチ同士の差
分を、音程のセント値に基づく相対値にそれぞれ変換す
る相対値変換手段と、 前記相対値変換手段によって得られた相対値の動的平均
を基にして、動的基準値を算出する動的基準算出手段
と、 前記相対値変換手段によって得られた相対値と前記動的
基準算出手段によって算出された動的基準値とを比較し
て、音信号分析用の定常区間を検出する定常区間検出手
段とを具えたことを特徴とする音信号分析装置。
10. An input means for inputting an arbitrary sound signal, and a pitch of the sound signal is detected for each predetermined section with respect to the sound signal input from the input means, and a data sequence of the detected pitch is generated. Pitch detecting means, and a relative value converting means for converting a difference between successive pitches in the pitch data string into relative values based on a cent value of a pitch, and a relative value obtained by the relative value converting means. Based on a dynamic average, a dynamic reference calculation means for calculating a dynamic reference value, and a relative value obtained by the relative value conversion means and a dynamic reference value calculated by the dynamic reference calculation means A sound signal analyzer comprising: a stationary section detecting means for detecting a stationary section for sound signal analysis in comparison.
【請求項11】 前記検出された音信号分析用の前記第
2の区間又は前記定常区間において、前記音信号のピッ
チを分析し、該音信号のノートを決定するノート分析手
段を更に具えたことを特徴とする請求項1,2,8,9
及び10のいずれか1つに記載の音信号分析装置。
11. The apparatus further comprises note analysis means for analyzing a pitch of the sound signal and determining a note of the sound signal in the second section or the stationary section for analyzing the detected sound signal. 10. The method according to claim 1, wherein:
11. The sound signal analyzer according to any one of claims 10 and 10.
【請求項12】 任意の音信号を入力するための入力手
段と、 前記入力手段から入力する前記音信号に関して所定区間
毎に前記音信号のピッチをそれぞれ検出し、検出したピ
ッチのデータ列を生成するピッチ検出手段と、 前記ピッチデータ列における各ピッチに対応する周波数
に応じて通過帯域が時変動制御されるフィルタ処理を、
前記入力された音信号に施す第1フィルタ処理手段と、 前記第1フィルタ処理手段から出力される前記音信号に
関して周期基準となる候補位置の複数を検出する周期基
準位置検出手段と、 前記ピッチデータ列における各ピッチに対応する周波数
及びその所定整数倍の周波数に応じて通過帯域が時変動
制御されるフィルタ処理を前記入力された前記音信号に
施す第2フィルタ処理手段と、 検出された前記候補位置に対応して前記第2フィルタ処
理手段から出力される前記音信号を区切ることにより得
られる複数の区間の波形の一致度を判定し、一致度の高
い区間を同波形区間として検出する区間検出手段と、 前記区間検出手段によって検出された同波形区間に基づ
いて前記音信号のピッチを分析するピッチ分析手段とを
具えたことを特徴とする音信号分析装置。
12. An input means for inputting an arbitrary sound signal, and detecting a pitch of the sound signal for each predetermined section with respect to the sound signal input from the input means, and generating a data string of the detected pitch. Pitch detection means, and a filtering process in which the pass band is time-varying controlled according to the frequency corresponding to each pitch in the pitch data sequence,
First filter processing means for applying the input sound signal, cycle reference position detection means for detecting a plurality of candidate positions serving as a cycle reference for the sound signal output from the first filter processing means, and the pitch data Second filter processing means for performing a filtering process in which a pass band is subjected to time-varying control in accordance with a frequency corresponding to each pitch in the row and a frequency that is a predetermined integer multiple thereof, to the input sound signal; Section detection for determining the degree of coincidence of waveforms in a plurality of sections obtained by dividing the sound signal output from the second filter processing means in accordance with a position, and detecting a section having a high degree of coincidence as the same waveform section Means, and pitch analysis means for analyzing the pitch of the sound signal based on the same waveform section detected by the section detection means. Sound signal analyzer.
【請求項13】 任意の音信号の連続するサンプル振幅
値を提供する提供手段と、 前記提供された連続するサンプル振幅値に対して所定の
特性の第1のフィルタ処理を施す第1フィルタ処理手段
と、 前記第1のフィルタ処理が施された前記連続するサンプ
ル振幅値に基づいて第2のフィルタ処理用の制御周波数
データを作成する制御データ作成手段と、 前記作成された制御周波数データに基づく特性の第2の
フィルタ処理を、前記提供手段によって提供される前記
連続するサンプル振幅値に対して施す第2フィルタ処理
手段と、 前記第2のフィルタ処理が施された前記連続するサンプ
ル振幅値に基づいて前記音信号のピッチを検出するピッ
チ検出手段とを具えたことを特徴とする音信号分析装
置。
13. A providing means for providing a continuous sample amplitude value of an arbitrary sound signal, and a first filter processing means for performing a first filtering process of a predetermined characteristic on the provided continuous sample amplitude value. Control data creating means for creating control frequency data for second filtering based on the continuous sample amplitude values subjected to the first filtering; characteristics based on the created control frequency data Second filter processing means for performing the second filter processing on the continuous sample amplitude values provided by the providing means, and based on the continuous sample amplitude values subjected to the second filter processing. And a pitch detecting means for detecting a pitch of the sound signal.
【請求項14】 任意の音信号を入力するための入力手
段と、 前記入力手段から入力する前記音信号に関して所定区間
毎に前記音信号のピッチをそれぞれ検出し、検出したピ
ッチのデータ列を生成するピッチ検出手段と、 前記ピッチデータ列における相前後するピッチ同士の差
分を、音程のセント値に基づく相対値にそれぞれ変換す
る相対値変換手段と、 前記相対値変換手段によって得られた相対値の動的平均
を基にして、動的基準値を算出する動的基準算出手段
と、 前記相対値変換手段によって得られた相対値と前記動的
基準算出手段によって算出された動的基準値とを比較し
て、ピッチ分析用の定常区間を検出する定常区間決定手
段と、 前記定常区間内における前記相対値の静的平均に基づ
き、静的基準値を算出する静的基準算出手段と、 前記静的基準値と前記定常区間内における前記相対値と
を比較して、前記定常区間の代表周波数を算出するため
の音高決定区間を検出する音高決定区間検出手段と、 前記検出された音高決定区間内における前記ピッチデー
タ列に基づいて前記定常区間の代表周波数を算出する周
波数算出手段とを具えたことを特徴とする音信号分析装
置。
14. An input means for inputting an arbitrary sound signal, and a pitch of the sound signal is detected for each predetermined section with respect to the sound signal input from the input means, and a data string of the detected pitch is generated. Pitch detecting means, and a relative value converting means for converting a difference between successive pitches in the pitch data string into relative values based on a cent value of a pitch, and a relative value obtained by the relative value converting means. Based on a dynamic average, a dynamic reference calculation means for calculating a dynamic reference value, and a relative value obtained by the relative value conversion means and a dynamic reference value calculated by the dynamic reference calculation means A stationary section determining means for comparing and detecting a stationary section for pitch analysis; and a static reference calculating means for calculating a static reference value based on a static average of the relative values in the stationary section. Comparing the static reference value and the relative value in the stationary section, a pitch determining section detecting means for detecting a pitch determining section for calculating a representative frequency of the stationary section, And a frequency calculating means for calculating a representative frequency of the stationary section based on the pitch data sequence in the pitch determining section.
【請求項15】 1又は複数の音符の時系列的連なりか
らなる任意の音信号を入力するための入力手段と、 前記入力された音信号の中から1つ1つの音符に相当す
ると推量される区間をそれぞれ検出する区間検出手段
と、 前記検出された区間を、その時系列に従って、所定の音
符長に対応する時間間隔で分割されたグリッド上にそれ
ぞれ配置し、各定常区間の開始又は終了端部のうち所定
の一方の端部に最も近い1つのグリッド位置を各定常区
間に対してそれぞれ割り当て、その結果同じグリッド位
置に複数の定常区間が割り当てられた場合には最も時間
長の長い1つの定常区間を有効な音符として選択する手
段とを具備した音信号分析装置。
15. An input means for inputting an arbitrary sound signal composed of a time series of one or a plurality of notes, and it is presumed that each of the input sound signals corresponds to each note. A section detecting means for detecting each section; and arranging the detected sections on a grid divided at a time interval corresponding to a predetermined note length in accordance with the time series, and starting or ending the end of each steady section. One of the grid positions closest to one of the predetermined ends is assigned to each stationary section, and as a result, if a plurality of stationary sections are assigned to the same grid position, one stationary section having the longest time length is assigned. Means for selecting a section as a valid note.
【請求項16】 分析すべき音信号を入力するステッ
プと、 入力された音信号のサンプル振幅値の所定サンプル数に
わたる平均値をそれぞれ求め、その結果を時系列的な平
均レベル情報として出力するステップと、 前記平均レベル情報に基づいて前記音信号の中から音楽
的な音が存在すると思われる第1の区間を検出するステ
ップと、 前記第1の区間内における前記音信号のサンプル振幅値
に基づいて音信号分析用の第2の区間を、該第1の区間
の中から検出するステップとを具備する音信号を分析す
るための方法。
16. A step of inputting a sound signal to be analyzed, and a step of obtaining an average value of sample amplitude values of the input sound signal over a predetermined number of samples, and outputting the result as time-series average level information. Detecting a first section in which a musical sound is considered to be present from the sound signal based on the average level information; based on a sample amplitude value of the sound signal in the first section Detecting a second section for analyzing the sound signal from the first section.
【請求項17】 分析すべき音信号を入力するステップ
と、 入力された音信号のサンプル振幅値の所定サンプル数毎
にその最大値を検出し、検出された最大値を補間するこ
とによって補助波形を作成するステップと、 前記作成された補助波形に基づいて前記音信号の中から
音楽的な音が存在すると思われる第1の区間を検出する
ステップと、 前記第1の区間内における前記音信号のサンプル振幅値
に基づいて音信号分析用の第2の区間を、該第1の区間
の中から検出するステップとを具備する音信号を分析す
るための方法。
17. An auxiliary waveform by inputting a sound signal to be analyzed, detecting a maximum value of a sample amplitude value of the input sound signal for each predetermined number of samples, and interpolating the detected maximum value. And detecting a first section where a musical sound is considered to be present from the sound signal based on the generated auxiliary waveform; and the sound signal in the first section. Detecting a second section for analyzing the sound signal from the first section based on the sample amplitude value of the first section.
【請求項18】 分析すべき音信号を入力するステップ
と、 前記入力された音信号に対して所定の周波数特性のフィ
ルタ処理を施すステップと、 前記フィルタ処理後の音信号における連続するサンプル
振幅値に基づいて各隣接する波形同士の一致度合いを分
析するステップと、 前記ステップにより所定の条件に従う範囲内で一致して
いると分析された連続する複数の波形からなる区間を同
波形区間として検出するステップと、 前記検出された同波形区間における前記音信号のピッチ
を検出するステップとを具備する音信号を分析するため
の方法。
18. A step of inputting a sound signal to be analyzed, a step of performing a filtering process with a predetermined frequency characteristic on the input sound signal, and a continuous sample amplitude value in the filtered sound signal. Analyzing the degree of coincidence between adjacent waveforms on the basis of the above, and detecting, as the same waveform section, a section composed of a plurality of continuous waveforms that have been analyzed as matching within a range according to a predetermined condition by the step. A method for analyzing a sound signal, comprising the steps of: detecting a pitch of the sound signal in the detected same waveform section.
【請求項19】 分析すべき音信号を入力するステップ
と、 前記入力された音信号に関して所定区間毎に前記音信号
のピッチをそれぞれ検出し、検出したピッチのデータ列
を生成するステップと、 前記ピッチデータ列における各ピッチに対応する周波数
に応じて通過帯域が可変制御されるフィルタ処理を、前
記入力された音信号に施すステップと、 前記フィルタ処理された音信号のサンプル振幅値に基づ
いて該音信号のより正確なピッチを検出するステップと
を具備する音信号を分析するための方法。
19. A step of inputting a sound signal to be analyzed, a step of detecting a pitch of the sound signal in each of predetermined intervals with respect to the input sound signal, and generating a data string of the detected pitch. Performing a filtering process in which a pass band is variably controlled in accordance with a frequency corresponding to each pitch in the pitch data sequence, to the input sound signal, based on a sample amplitude value of the filtered sound signal. Detecting a more accurate pitch of the sound signal.
【請求項20】 分析すべき音信号を入力するステップ
と、 前記入力された音信号に関して所定区間毎に前記音信号
のピッチをそれぞれ検出し、検出したピッチのデータ列
を生成するステップと、 前記ピッチデータ列における各ピッチに対応する周波数
に応じて通過帯域が可変制御されるフィルタ処理を、前
記入力された音信号に施すステップと、 前記フィルタ処理後の音信号における連続するサンプル
振幅値に基づいて各隣接する波形同士の一致度合いを分
析するステップと、 前記ステップにより所定の条件に従う範囲内で一致して
いると分析された連続する複数の波形からなる区間を同
波形区間として検出するステップと、 前記検出された同波形区間における前記音信号のピッチ
を検出するステップとを具備する音信号を分析するため
の方法。
20. A step of inputting a sound signal to be analyzed, a step of detecting a pitch of the sound signal for each of predetermined intervals with respect to the input sound signal, and generating a data sequence of the detected pitch. Performing a filtering process in which a pass band is variably controlled in accordance with a frequency corresponding to each pitch in the pitch data sequence to the input sound signal, based on a continuous sample amplitude value in the filtered sound signal Analyzing the degree of coincidence between adjacent waveforms, and detecting, as the same waveform section, a section composed of a plurality of continuous waveforms that have been analyzed to be matched within a range according to a predetermined condition by the step. Detecting the pitch of the sound signal in the detected same waveform section. Method.
【請求項21】 分析すべき音信号を入力するステップ
と、 前記入力された音信号に関して所定区間毎に前記音信号
のピッチをそれぞれ検出し、検出したピッチのデータ列
を生成するステップと、 前記ピッチデータ列における各ピッチに対応する周波数
に応じて通過帯域が時変動制御されるフィルタ処理を、
前記入力された音信号に施すステップと、 前記フィルタ処理後の音信号における連続するサンプル
振幅値に基づいて各隣接する波形同士の一致度合いを分
析するステップと、 前記ステップにより所定の条件に従う範囲内で一致して
いると分析された連続する複数の波形からなる第1の区
間を検出するステップと、 前記検出された第1の区間内の一致度のより高い波形を
基準にその前後における複数の各波形との間で一致度合
いを判定し、一致度のより高い第2の区間を検出するス
テップと、 前記検出された第2の区間における前記音信号のピッチ
を検出するステップとを具備する音信号を分析するため
の方法。
21. A step of inputting a sound signal to be analyzed, a step of detecting a pitch of the sound signal in each of predetermined intervals with respect to the input sound signal, and generating a data string of the detected pitch. Filter processing in which the pass band is time-varying controlled according to the frequency corresponding to each pitch in the pitch data sequence,
Applying to the input sound signal; analyzing the degree of coincidence between adjacent waveforms based on continuous sample amplitude values in the filtered sound signal; and Detecting a first section consisting of a plurality of continuous waveforms that have been analyzed as being coincident with each other; and determining a plurality of waveforms before and after the detected waveform having a higher degree of coincidence in the first section. Determining a degree of coincidence between each waveform and detecting a second section having a higher degree of coincidence; and detecting a pitch of the sound signal in the detected second section. A method for analyzing a signal.
【請求項22】 分析すべき音信号を入力するステップ
と、 前記入力された音信号に所定の周波数帯域のフィルタ処
理を施すステップと、 前記フィルタリング処理後の前記音信号のピーク位置を
それぞれ検出するステップと、 検出された任意の2つの前記ピーク位置間で前記音信号
の波形を区切ることにより得られる多様な区間のうち、
前記フィルタの通過帯域による制限に見合った時間長の
区間について、隣合う2つの区間の対を可能な数だけ選
定し、選定された各対における2区間の波形の一致度を
それぞれ判定し、その一致度の最も高い1つの対を同波
形区間として検出するステップと、 前記検出された同波形区間に基づいて音信号分析用の定
常区間を検出するステップとを具備する音信号を分析す
るための方法。
22. A step of inputting a sound signal to be analyzed, a step of filtering the input sound signal in a predetermined frequency band, and detecting a peak position of the sound signal after the filtering processing. And, among various sections obtained by dividing the waveform of the sound signal between any two of the detected peak positions,
For a section having a time length commensurate with the restriction by the pass band of the filter, two pairs of adjacent sections are selected as many as possible, and the degree of coincidence of the waveforms of the two sections in each selected pair is determined. Detecting a pair having the highest degree of coincidence as the same waveform section; and detecting a stationary section for sound signal analysis based on the detected same waveform section. Method.
【請求項23】 分析すべき音信号を入力するステップ
と、 前記入力された音信号のピーク位置をそれぞれ検出する
ステップと、 任意の2つのピーク位置間で前記音信号の波形を区切る
ことにより得られる多様な区間のうち、隣合う任意の2
つの区間の波形の一致度をそれぞれ判定し、その一致度
の高い区間同士を接続して第1の同波形区間群を検出す
るステップと、 前記第1の同波形区間群の中の開始区間と最終区間を比
較の対象区間として、前記第1の同波形区間群の前後に
隣接する区間のそれぞれについて波形の一致度を算出
し、算出された一致度に基づいて前記第1の同波形区間
群をその前後に拡張し、これを第2の同波形区間群とし
て検出するステップと、 前記検出された第2の同波形区間群に基づいて音信号分
析用の定常区間を検出するステップとを具備する音信号
を分析するための方法。
23. A step of inputting a sound signal to be analyzed, a step of detecting a peak position of the input sound signal, and a step of dividing a waveform of the sound signal between any two peak positions. Of any two adjacent sections
Determining the degree of coincidence of the waveforms of the two sections, connecting the sections having a high degree of coincidence to detect a first same-waveform section group, and determining a start section in the first same-waveform section group. Using the last section as a comparison target section, the degree of coincidence of the waveform is calculated for each of the sections adjacent before and after the first same waveform section group, and based on the calculated degree of match, the first same waveform section group is calculated. And a step of detecting this as a second group of the same waveform sections, and a step of detecting a steady section for sound signal analysis based on the detected second group of the same waveform sections. A method for analyzing a sound signal to be played.
【請求項24】 分析すべき音信号を入力するステップ
と、 前記入力された音信号に関して所定区間毎に前記音信号
のピッチをそれぞれ検出し、検出したピッチのデータ列
を生成するステップと、 前記ピッチデータ列における各ピッチに対応する周波数
に応じて通過帯域が時変動制御される第1のフィルタ処
理を、前記入力された音信号に施すステップと、 前記第1のフィルタ処理の施された音信号に関して周期
基準となる候補位置の複数を検出するステップと、 前記ピッチデータ列における各ピッチに対応する周波数
及びその所定整数倍の周波数に応じて通過帯域が時変動
制御される第2のフィルタ処理を前記入力された前記音
信号に施すステップと、 前記検出された各候補位置に対応して前記第2のフィル
タ処理の施された音信号を区切ることにより得られる複
数の区間の波形の一致度を判定し、一致度の高い区間を
同波形区間として検出するステップと、 前記検出された同波形区間に基づいて前記音信号のピッ
チを分析するステップとを具備する音信号を分析するた
めの方法。
24. A step of inputting a sound signal to be analyzed, a step of detecting a pitch of the sound signal for each of predetermined intervals with respect to the input sound signal, and generating a data string of the detected pitch. Applying a first filter process in which a pass band is time-varying controlled in accordance with a frequency corresponding to each pitch in a pitch data sequence to the input sound signal; and a sound subjected to the first filter process. Detecting a plurality of candidate positions serving as a cycle reference for the signal; and a second filter process in which a pass band is time-varying controlled according to a frequency corresponding to each pitch in the pitch data string and a frequency of a predetermined integer multiple thereof. To the input sound signal, and classifying the sound signal that has been subjected to the second filter processing in correspondence with each of the detected candidate positions. Determining the degree of coincidence of the waveforms of a plurality of sections obtained by performing the above, detecting a section having a high degree of coincidence as the same waveform section, and analyzing a pitch of the sound signal based on the detected same waveform section. And a step for analyzing the sound signal.
【請求項25】 分析すべき音信号を入力するステップ
と、 前記入力された音信号に関して所定区間毎に前記音信号
のピッチをそれぞれ検出し、検出したピッチのデータ列
を生成するステップと、 前記ピッチデータ列における相前後するピッチ同士の差
分を、音程のセント値に基づく相対値にそれぞれ変換す
るステップと、 前記変換された相対値の動的平均を基にして、動的基準
値を算出するステップと、 前記変換された相対値と前記動的基準値とを比較して、
音信号分析用の定常区間を検出するステップとを具備す
る音信号を分析するための方法。
25. A step of inputting a sound signal to be analyzed, a step of detecting a pitch of the sound signal for each of predetermined intervals with respect to the input sound signal, and generating a data string of the detected pitch. Converting a difference between successive pitches in the pitch data sequence into relative values based on a cent value of a pitch; and calculating a dynamic reference value based on a dynamic average of the converted relative values. Step, comparing the converted relative value and the dynamic reference value,
Detecting a stationary interval for analyzing the sound signal.
【請求項26】 任意の音信号の連続するサンプル振幅
値を提供するステップと、 前記提供された連続するサンプル振幅値に対して所定の
特性の第1のフィルタ処理を施すステップと、 前記第1のフィルタ処理が施された前記連続するサンプ
ル振幅値に基づいて第2のフィルタ処理用の制御周波数
データを作成するステップと、 前記作成された制御周波数データに基づく特性の第2の
フィルタ処理を、前記提供された前記連続するサンプル
振幅値に対して施すステップと、 前記第2のフィルタ処理が施された前記連続するサンプ
ル振幅値に基づいて前記音信号のピッチを検出するステ
ップとを具備する音信号を分析するための方法。
26. providing a continuous sample amplitude value of an arbitrary sound signal; applying a first filter processing of a predetermined characteristic to the provided continuous sample amplitude value; Generating control frequency data for a second filter process based on the continuous sample amplitude values subjected to the filter process; and a second filter process having characteristics based on the generated control frequency data, Applying a sound to the continuous sample amplitude value provided; and detecting a pitch of the sound signal based on the continuous sample amplitude value subjected to the second filtering. A method for analyzing a signal.
【請求項27】 分析すべき音信号を入力するステップ
と、 前記入力された音信号に関して所定区間毎に前記音信号
のピッチをそれぞれ検出し、検出したピッチのデータ列
を生成するステップと、 前記ピッチデータ列における相前後するピッチ同士の差
分を、音程のセント値に基づく相対値にそれぞれ変換す
るステップと、 前記変換された相対値の動的平均を基にして、動的基準
値を算出するステップと、 前記変換された相対値と前記動的基準値とを比較して、
ピッチ分析用の安定している定常区間を検出するステッ
プと、 前記定常区間内における前記相対値の静的平均に基づ
き、静的基準値を算出するステップと、 前記静的基準値と前記定常区間内における前記相対値と
を比較して、前記定常区間の代表周波数を算出するため
の音高決定区間を検出するステップと、 前記検出された音高決定区間内における前記ピッチデー
タ列に基づいて前記定常区間の代表周波数を算出するス
テップとを具備する音信号を分析するための方法。
27. A step of inputting a sound signal to be analyzed, a step of detecting a pitch of the sound signal for each of predetermined intervals with respect to the input sound signal, and generating a data sequence of the detected pitch. Converting a difference between successive pitches in the pitch data sequence into relative values based on a cent value of a pitch; and calculating a dynamic reference value based on a dynamic average of the converted relative values. Step, comparing the converted relative value and the dynamic reference value,
Detecting a stable stationary section for pitch analysis; calculating a static reference value based on a static average of the relative values within the stationary section; and the static reference value and the stationary section Comparing the relative value within the interval, detecting a pitch determination section for calculating the representative frequency of the stationary section, and based on the pitch data string in the detected pitch determination section Calculating a representative frequency of the stationary section.
【請求項28】 機械によって読み取り可能な記録媒体
であって、コンピュータによって実行される音信号を分
析するためのプログラムについての命令群をその記憶内
容として有しており、前記音信号を分析するためのプロ
グラムは、 分析すべき音信号を入力するステップと、 入力された音信号のサンプル振幅値の所定サンプル数に
わたる平均値をそれぞれ求め、その結果を時系列的な平
均レベル情報として出力するステップと、 前記平均レベル情報に基づいて前記音信号の中から音楽
的な音が存在すると思われる第1の区間を検出するステ
ップと、 前記第1の区間内における前記音信号のサンプル振幅値
に基づいて音信号分析用の第2の区間を、該第1の区間
の中から検出するステップとを含んでいることを特徴と
する記録媒体。
28. A recording medium readable by a machine, comprising, as its storage contents, a group of instructions for a program for analyzing a sound signal executed by a computer, and for analyzing the sound signal. The program includes a step of inputting a sound signal to be analyzed, a step of obtaining an average value of a sample amplitude value of the input sound signal over a predetermined number of samples, and a step of outputting the result as time-series average level information. Detecting a first section in which a musical sound is considered to be present from the sound signal based on the average level information; and based on a sample amplitude value of the sound signal in the first section. Detecting a second section for sound signal analysis from the first section.
【請求項29】 機械によって読み取り可能な記録媒体
であって、コンピュータによって実行される音信号を分
析するためのプログラムについての命令群をその記憶内
容として有しており、前記音信号を分析するためのプロ
グラムは、 分析すべき音信号を入力するステップと、 入力された音信号のサンプル振幅値の所定サンプル数毎
にその最大値を検出し、検出された最大値を補間するこ
とによって補助波形を作成するステップと、 前記作成された補助波形に基づいて前記音信号の中から
音楽的な音が存在すると思われる第1の区間を検出する
ステップと、 前記第1の区間内における前記音信号のサンプル振幅値
に基づいて音信号分析用の第2の区間を、該第1の区間
の中から検出するステップとを含んでいることを特徴と
する記録媒体。
29. A recording medium readable by a machine, comprising, as storage contents, instructions for a program for analyzing a sound signal executed by a computer, and analyzing the sound signal. The program includes a step of inputting a sound signal to be analyzed, detecting a maximum value of a sample amplitude value of the input sound signal for each predetermined number of samples, and interpolating the detected maximum value to generate an auxiliary waveform. Creating; detecting a first section in which a musical sound is considered to be present from the sound signal based on the created auxiliary waveform; and detecting the first section of the sound signal in the first section. Detecting a second section for sound signal analysis from the first section based on the sample amplitude value.
【請求項30】 機械によって読み取り可能な記録媒体
であって、コンピュータによって実行される音信号を分
析するためのプログラムについての命令群をその記憶内
容として有しており、前記音信号を分析するためのプロ
グラムは、 分析すべき音信号を入力するステップと、 前記入力された音信号に対して所定の周波数特性のフィ
ルタ処理を施すステップと、 前記フィルタ処理後の音信号における連続するサンプル
振幅値に基づいて各隣接する波形同士の一致度合いを分
析するステップと、 前記ステップにより所定の条件に従う範囲内で一致して
いると分析された連続する複数の波形からなる区間を同
波形区間として検出するステップと、 前記検出された同波形区間における前記音信号のピッチ
を検出するステップとを含んでいることを特徴とする記
録媒体。
30. A recording medium readable by a machine, having, as its storage contents, a group of instructions for a program for analyzing a sound signal executed by a computer, and analyzing the sound signal. A step of inputting a sound signal to be analyzed; a step of performing a filter process of a predetermined frequency characteristic on the input sound signal; and a step of applying a continuous sample amplitude value in the sound signal after the filter process. Analyzing the degree of coincidence between adjacent waveforms on the basis of the same, and detecting, as the same waveform section, a section composed of a plurality of continuous waveforms that have been analyzed as matching within a range according to a predetermined condition by the step. And detecting a pitch of the sound signal in the detected same waveform section. Recording medium according to symptoms.
【請求項31】 機械によって読み取り可能な記録媒体
であって、コンピュータによって実行される音信号を分
析するためのプログラムについての命令群をその記憶内
容として有しており、前記音信号を分析するためのプロ
グラムは、 分析すべき音信号を入力するステップと、 前記入力された音信号に関して所定区間毎に前記音信号
のピッチをそれぞれ検出し、検出したピッチのデータ列
を生成するステップと、 前記ピッチデータ列における各ピッチに対応する周波数
に応じて通過帯域が可変制御されるフィルタ処理を、前
記入力された音信号に施すステップと、 前記フィルタ処理された音信号のサンプル振幅値に基づ
いて該音信号のより正確なピッチを検出するステップと
を含んでいることを特徴とする記録媒体。
31. A recording medium readable by a machine, having, as its storage contents, a group of instructions for a program for analyzing a sound signal executed by a computer, and analyzing the sound signal. A program for inputting a sound signal to be analyzed; a step of detecting a pitch of the sound signal for each predetermined section with respect to the input sound signal, and generating a data sequence of the detected pitch; Performing a filtering process in which a pass band is variably controlled in accordance with a frequency corresponding to each pitch in the data train, to the input sound signal; and performing the sound processing based on a sample amplitude value of the filtered sound signal. Detecting a more accurate pitch of the signal.
【請求項32】 機械によって読み取り可能な記録媒体
であって、コンピュータによって実行される音信号を分
析するためのプログラムについての命令群をその記憶内
容として有しており、前記音信号を分析するためのプロ
グラムは、 分析すべき音信号を入力するステップと、 前記入力された音信号に関して所定区間毎に前記音信号
のピッチをそれぞれ検出し、検出したピッチのデータ列
を生成するステップと、 前記ピッチデータ列における各ピッチに対応する周波数
に応じて通過帯域が可変制御されるフィルタ処理を、前
記入力された音信号に施すステップと、 前記フィルタ処理後の音信号における連続するサンプル
振幅値に基づいて各隣接する波形同士の一致度合いを分
析するステップと、 前記ステップにより所定の条件に従う範囲内で一致して
いると分析された連続する複数の波形からなる区間を同
波形区間として検出するステップと、 前記検出された同波形区間における前記音信号のピッチ
を検出するステップとを含んでいることを特徴とする記
録媒体。
32. A recording medium readable by a machine, comprising, as storage contents, instructions for a program for analyzing a sound signal executed by a computer, and analyzing the sound signal. A program for inputting a sound signal to be analyzed; a step of detecting a pitch of the sound signal for each predetermined section with respect to the input sound signal, and generating a data sequence of the detected pitch; Performing a filtering process in which a pass band is variably controlled according to a frequency corresponding to each pitch in the data sequence, to the input sound signal, and based on a continuous sample amplitude value in the filtered sound signal. Analyzing the degree of coincidence between each adjacent waveform; and Detecting, as the same waveform section, a section composed of a plurality of continuous waveforms that have been analyzed as being coincident with each other; and detecting the pitch of the sound signal in the detected same waveform section. Characteristic recording medium.
【請求項33】 機械によって読み取り可能な記録媒体
であって、コンピュータによって実行される音信号を分
析するためのプログラムについての命令群をその記憶内
容として有しており、前記音信号を分析するためのプロ
グラムは、 分析すべき音信号を入力するステップと、 前記入力された音信号に関して所定区間毎に前記音信号
のピッチをそれぞれ検出し、検出したピッチのデータ列
を生成するステップと、 前記ピッチデータ列における各ピッチに対応する周波数
に応じて通過帯域が時変動制御されるフィルタ処理を、
前記入力された音信号に施すステップと、 前記フィルタ処理後の音信号における連続するサンプル
振幅値に基づいて各隣接する波形同士の一致度合いを分
析するステップと、 前記ステップにより所定の条件に従う範囲内で一致して
いると分析された連続する複数の波形からなる第1の区
間を検出するステップと、 前記検出された第1の区間内の一致度のより高い波形を
基準にその前後における複数の各波形との間で一致度合
いを判定し、一致度のより高い第2の区間を検出するス
テップと、 前記検出された第2の区間における前記音信号のピッチ
を検出するステップとを含んでいることを特徴とする記
録媒体。
33. A recording medium readable by a machine, comprising, as storage contents, instructions for a program for analyzing a sound signal executed by a computer, and analyzing the sound signal. A program for inputting a sound signal to be analyzed; a step of detecting a pitch of the sound signal for each predetermined section with respect to the input sound signal, and generating a data sequence of the detected pitch; Filter processing in which the pass band is time-varying controlled according to the frequency corresponding to each pitch in the data sequence,
Applying to the input sound signal; analyzing the degree of coincidence between adjacent waveforms based on continuous sample amplitude values in the filtered sound signal; and Detecting a first section consisting of a plurality of continuous waveforms that have been analyzed as being coincident with each other; and determining a plurality of waveforms before and after the detected waveform having a higher degree of coincidence in the first section. Determining a degree of coincidence with each waveform and detecting a second section having a higher degree of coincidence; and detecting a pitch of the sound signal in the detected second section. A recording medium characterized by the above-mentioned.
【請求項34】 機械によって読み取り可能な記録媒体
であって、コンピュータによって実行される音信号を分
析するためのプログラムについての命令群をその記憶内
容として有しており、前記音信号を分析するためのプロ
グラムは、 分析すべき音信号を入力するステップと、 前記入力された音信号に所定の周波数帯域のフィルタ処
理を施すステップと、 前記フィルタリング処理後の前記音信号のピーク位置を
それぞれ検出するステップと、 検出された任意の2つの前記ピーク位置間で前記音信号
の波形を区切ることにより得られる多様な区間のうち、
前記フィルタの通過帯域による制限に見合った時間長の
区間について、隣合う2つの区間の対を可能な数だけ選
定し、選定された各対における2区間の波形の一致度を
それぞれ判定し、その一致度の最も高い1つの対を同波
形区間として検出するステップと、 前記検出された同波形区間に基づいて音信号分析用の定
常区間を検出するステップとを含んでいることを特徴と
する記録媒体。
34. A recording medium readable by a machine, having, as its storage contents, a group of instructions for a program for analyzing a sound signal executed by a computer, and analyzing the sound signal. A step of inputting a sound signal to be analyzed; a step of performing a filtering process of a predetermined frequency band on the input sound signal; and a step of detecting a peak position of the sound signal after the filtering process. And, among various sections obtained by dividing the waveform of the sound signal between any two of the detected peak positions,
For a section having a time length commensurate with the restriction by the pass band of the filter, two pairs of adjacent sections are selected as many as possible, and the degree of coincidence of the waveforms of the two sections in each selected pair is determined. Recording, comprising: detecting a pair having the highest degree of coincidence as the same waveform section; and detecting a stationary section for sound signal analysis based on the detected same waveform section. Medium.
【請求項35】 機械によって読み取り可能な記録媒体
であって、コンピュータによって実行される音信号を分
析するためのプログラムについての命令群をその記憶内
容として有しており、前記音信号を分析するためのプロ
グラムは、 分析すべき音信号を入力するステップと、 前記入力された音信号のピーク位置をそれぞれ検出する
ステップと、 任意の2つのピーク位置間で前記音信号の波形を区切る
ことにより得られる多様な区間のうち、隣合う任意の2
つの区間の波形の一致度をそれぞれ判定し、その一致度
の高い区間同士を接続して第1の同波形区間群を検出す
るステップと、 前記第1の同波形区間群の中の開始区間と最終区間を比
較の対象区間として、前記第1の同波形区間群の前後に
隣接する区間のそれぞれについて波形の一致度を算出
し、算出された一致度に基づいて前記第1の同波形区間
群をその前後に拡張し、これを第2の同波形区間群とし
て検出するステップと、 前記検出された第2の同波形区間群に基づいて音信号分
析用の定常区間を検出するステップとを含んでいること
を特徴とする記録媒体。
35. A recording medium readable by a machine, comprising, as storage contents, instructions for a program for analyzing a sound signal executed by a computer, and analyzing the sound signal. Is obtained by inputting a sound signal to be analyzed, detecting a peak position of the input sound signal, and dividing a waveform of the sound signal between any two peak positions. Arbitrary two adjacent among various sections
Determining the degree of coincidence of the waveforms of the two sections, connecting the sections having a high degree of coincidence to detect a first same-waveform section group, and determining a start section in the first same-waveform section group. Using the last section as a comparison target section, the degree of coincidence of the waveform is calculated for each of the sections adjacent before and after the first same waveform section group, and based on the calculated degree of match, the first same waveform section group is calculated. And detecting the same as a second same waveform section group, and detecting a steady section for sound signal analysis based on the detected second same waveform section group. A recording medium characterized by the following.
【請求項36】 機械によって読み取り可能な記録媒体
であって、コンピュータによって実行される音信号を分
析するためのプログラムについての命令群をその記憶内
容として有しており、前記音信号を分析するためのプロ
グラムは、 分析すべき音信号を入力するステップと、 前記入力された音信号に関して所定区間毎に前記音信号
のピッチをそれぞれ検出し、検出したピッチのデータ列
を生成するステップと、 前記ピッチデータ列における各ピッチに対応する周波数
に応じて通過帯域が時変動制御される第1のフィルタ処
理を、前記入力された音信号に施すステップと、 前記第1のフィルタ処理の施された音信号に関して周期
基準となる候補位置の複数を検出するステップと、 前記ピッチデータ列における各ピッチに対応する周波数
及びその所定整数倍の周波数に応じて通過帯域が時変動
制御される第2のフィルタ処理を前記入力された前記音
信号に施すステップと、 前記検出された各候補位置に対応して前記第2のフィル
タ処理の施された音信号を区切ることにより得られる複
数の区間の波形の一致度を判定し、一致度の高い区間を
同波形区間として検出するステップと、 前記検出された同波形区間に基づいて前記音信号のピッ
チを分析するステップとを含んでいることを特徴とする
記録媒体。
36. A recording medium readable by a machine, comprising, as storage contents, instructions for a program for analyzing a sound signal executed by a computer, and analyzing the sound signal. A program for inputting a sound signal to be analyzed; a step of detecting a pitch of the sound signal for each predetermined section with respect to the input sound signal, and generating a data sequence of the detected pitch; Applying a first filter process in which a pass band is time-varying controlled in accordance with a frequency corresponding to each pitch in the data sequence to the input sound signal; and a sound signal subjected to the first filter process. Detecting a plurality of candidate positions serving as a period reference with respect to the frequency corresponding to each pitch in the pitch data sequence and Applying a second filter processing in which a pass band is time-varying controlled in accordance with a frequency of a predetermined integer multiple of the input sound signal; and the second filter processing corresponding to each of the detected candidate positions. Judging the degree of coincidence of the waveforms of a plurality of sections obtained by dividing the sound signal that has been subjected to the filter processing, and detecting a section having a high degree of coincidence as the same waveform section; based on the detected same waveform section Analyzing the pitch of the sound signal.
【請求項37】 機械によって読み取り可能な記録媒体
であって、コンピュータによって実行される音信号を分
析するためのプログラムについての命令群をその記憶内
容として有しており、前記音信号を分析するためのプロ
グラムは、 分析すべき音信号を入力するステップと、 前記入力された音信号に関して所定区間毎に前記音信号
のピッチをそれぞれ検出し、検出したピッチのデータ列
を生成するステップと、 前記ピッチデータ列における相前後するピッチ同士の差
分を、音程のセント値に基づく相対値にそれぞれ変換す
るステップと、 前記変換された相対値の動的平均を基にして、動的基準
値を算出するステップと、 前記変換された相対値と前記動的基準値とを比較して、
音信号分析用の定常区間を検出するステップとを含んで
いることを特徴とする記録媒体。
37. A recording medium readable by a machine, having, as its storage contents, a group of instructions for a program for analyzing a sound signal to be executed by a computer, and for analyzing the sound signal. A program for inputting a sound signal to be analyzed; a step of detecting a pitch of the sound signal for each predetermined section with respect to the input sound signal, and generating a data sequence of the detected pitch; Converting the difference between successive pitches in the data sequence into relative values based on the pitch cent value; and calculating a dynamic reference value based on a dynamic average of the converted relative values. And, comparing the converted relative value and the dynamic reference value,
Detecting a stationary section for sound signal analysis.
【請求項38】 機械によって読み取り可能な記録媒体
であって、コンピュータによって実行される音信号を分
析するためのプログラムについての命令群をその記憶内
容として有しており、前記音信号を分析するためのプロ
グラムは、 任意の音信号の連続するサンプル振幅値を提供するステ
ップと、 前記提供された連続するサンプル振幅値に対して所定の
特性の第1のフィルタ処理を施すステップと、 前記第1のフィルタ処理が施された前記連続するサンプ
ル振幅値に基づいて第2のフィルタ処理用の制御周波数
データを作成するステップと、 前記作成された制御周波数データに基づく特性の第2の
フィルタ処理を、前記提供された前記連続するサンプル
振幅値に対して施すステップと、 前記第2のフィルタ処理が施された前記連続するサンプ
ル振幅値に基づいて前記音信号のピッチを検出するステ
ップとを含んでいることを特徴とする記録媒体。
38. A recording medium readable by a machine, comprising, as its storage content, a group of instructions for a program for analyzing a sound signal to be executed by a computer, and for analyzing the sound signal. Providing a continuous sample amplitude value of an arbitrary sound signal; applying a first filter process of a predetermined characteristic to the provided continuous sample amplitude value; Creating control frequency data for a second filtering process based on the continuous sampled amplitude values subjected to the filtering process; and performing a second filtering process with characteristics based on the created control frequency data, Applying to the provided successive sample amplitude values; and providing the second filtered processed successive sample values. Recording medium characterized in that it includes a step of detecting the pitch of the sound signal based on pull amplitude value.
【請求項39】 機械によって読み取り可能な記録媒体
であって、コンピュータによって実行される音信号を分
析するためのプログラムについての命令群をその記憶内
容として有しており、前記音信号を分析するためのプロ
グラムは、 分析すべき音信号を入力するステップと、 前記入力された音信号に関して所定区間毎に前記音信号
のピッチをそれぞれ検出し、検出したピッチのデータ列
を生成するステップと、 前記ピッチデータ列における相前後するピッチ同士の差
分を、音程のセント値に基づく相対値にそれぞれ変換す
るステップと、 前記変換された相対値の動的平均を基にして、動的基準
値を算出するステップと、 前記変換された相対値と前記動的基準値とを比較して、
ピッチ分析用の安定している定常区間を検出するステッ
プと、 前記定常区間内における前記相対値の静的平均に基づ
き、静的基準値を算出するステップと、 前記静的基準値と前記定常区間内における前記相対値と
を比較して、前記定常区間の代表周波数を算出するため
の音高決定区間を検出するステップと、 前記検出された音高決定区間内における前記ピッチデー
タ列に基づいて前記定常区間の代表周波数を算出するス
テップとを含んでいることを特徴とする記録媒体。
39. A recording medium readable by a machine, comprising, as storage contents, instructions for a program for analyzing a sound signal executed by a computer, and analyzing the sound signal. A program for inputting a sound signal to be analyzed; a step of detecting a pitch of the sound signal for each predetermined section with respect to the input sound signal, and generating a data sequence of the detected pitch; Converting the difference between successive pitches in the data sequence into relative values based on the pitch cent value; and calculating a dynamic reference value based on a dynamic average of the converted relative values. And, comparing the converted relative value and the dynamic reference value,
Detecting a stable stationary section for pitch analysis; calculating a static reference value based on a static average of the relative values within the stationary section; and the static reference value and the stationary section Comparing the relative value within the interval, detecting a pitch determination section for calculating the representative frequency of the stationary section, and based on the pitch data string in the detected pitch determination section Calculating a representative frequency of a stationary section.
JP33632897A 1996-11-20 1997-11-20 Sound signal analyzing apparatus and method Expired - Fee Related JP3669129B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33632897A JP3669129B2 (en) 1996-11-20 1997-11-20 Sound signal analyzing apparatus and method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP32477596 1996-11-20
JP8-324775 1996-11-20
JP33632897A JP3669129B2 (en) 1996-11-20 1997-11-20 Sound signal analyzing apparatus and method

Related Child Applications (4)

Application Number Title Priority Date Filing Date
JP2004217683A Division JP4134961B2 (en) 1996-11-20 2004-07-26 Sound signal analyzing apparatus and method
JP2004217684A Division JP3888370B2 (en) 1996-11-20 2004-07-26 Sound signal analyzing apparatus and method
JP2004217685A Division JP3888371B2 (en) 1996-11-20 2004-07-26 Sound signal analyzing apparatus and method
JP2004217686A Division JP3888372B2 (en) 1996-11-20 2004-07-26 Sound signal analyzing apparatus and method

Publications (2)

Publication Number Publication Date
JPH10207455A true JPH10207455A (en) 1998-08-07
JP3669129B2 JP3669129B2 (en) 2005-07-06

Family

ID=26571605

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33632897A Expired - Fee Related JP3669129B2 (en) 1996-11-20 1997-11-20 Sound signal analyzing apparatus and method

Country Status (1)

Country Link
JP (1) JP3669129B2 (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002049001A1 (en) * 2000-12-14 2002-06-20 Sony Corporation Information extracting device
WO2003005342A1 (en) * 2001-07-02 2003-01-16 Kabushiki Kaisha Kenwood Signal coupling method and apparatus
JP2005346078A (en) * 2004-06-04 2005-12-15 Honda Research Inst Europe Gmbh Method for deciding common source of two harmonic signals
JP2006030610A (en) * 2004-07-16 2006-02-02 Yamaha Corp Script generating device for voice synthesis, voice synthesizer, script generating program for voice synthesis, and voice synthesis program
WO2006106946A1 (en) * 2005-04-01 2006-10-12 National Institute Of Advanced Industrial Science And Technology Pitch estimating method and device, and pitch estimating program
JP2007064819A (en) * 2005-08-31 2007-03-15 Ho Jinyama Signal inspection method and signal inspection module
JP2007133090A (en) * 2005-11-09 2007-05-31 Yamaha Corp Voice feature amount calculation apparatus
WO2007074755A1 (en) * 2005-12-27 2007-07-05 Mitsubishi Electric Corporation Musical composition section detecting method and its device, and data recording method and its device
JP2011102978A (en) * 2009-10-15 2011-05-26 Yamaha Corp Tone signal processing apparatus and program
JP2012013915A (en) * 2010-06-30 2012-01-19 Humminglish Academy Llc Learning material and device for outputting information thereof
US8682132B2 (en) 2006-05-11 2014-03-25 Mitsubishi Electric Corporation Method and device for detecting music segment, and method and device for recording data
JP2020064177A (en) * 2018-10-17 2020-04-23 株式会社Nttドコモ Information processing apparatus and program

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6083983A (en) * 1983-10-15 1985-05-13 日本ビクター株式会社 Musical note display
JPS60262197A (en) * 1984-06-08 1985-12-25 シャープ株式会社 Fundamental frequency and phase detection circuit for cyclicsignal
JPS61123897A (en) * 1984-11-20 1986-06-11 ブラザー工業株式会社 Initial end decision apparatus for voide
JPH01219627A (en) * 1988-02-29 1989-09-01 Nec Home Electron Ltd Automatic score taking method and apparatus
JPH01219636A (en) * 1988-02-29 1989-09-01 Nec Home Electron Ltd Automatic score taking method and apparatus
JPH01219635A (en) * 1988-02-29 1989-09-01 Nec Home Electron Ltd Automatic score taking method and apparatus
JPH0535296A (en) * 1991-07-26 1993-02-12 Casio Comput Co Ltd Pitch extracting device and electronic musical instrument using pitch extracting device
JPH05241597A (en) * 1992-02-27 1993-09-21 Kawai Musical Instr Mfg Co Ltd Pitch period extracting method
JPH06186973A (en) * 1992-12-21 1994-07-08 Yamaha Corp Pitch detecting device
JPH0728486A (en) * 1993-07-13 1995-01-31 Nec Corp Voice compression device

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6083983A (en) * 1983-10-15 1985-05-13 日本ビクター株式会社 Musical note display
JPS60262197A (en) * 1984-06-08 1985-12-25 シャープ株式会社 Fundamental frequency and phase detection circuit for cyclicsignal
JPS61123897A (en) * 1984-11-20 1986-06-11 ブラザー工業株式会社 Initial end decision apparatus for voide
JPH01219627A (en) * 1988-02-29 1989-09-01 Nec Home Electron Ltd Automatic score taking method and apparatus
JPH01219636A (en) * 1988-02-29 1989-09-01 Nec Home Electron Ltd Automatic score taking method and apparatus
JPH01219635A (en) * 1988-02-29 1989-09-01 Nec Home Electron Ltd Automatic score taking method and apparatus
JPH0535296A (en) * 1991-07-26 1993-02-12 Casio Comput Co Ltd Pitch extracting device and electronic musical instrument using pitch extracting device
JPH05241597A (en) * 1992-02-27 1993-09-21 Kawai Musical Instr Mfg Co Ltd Pitch period extracting method
JPH06186973A (en) * 1992-12-21 1994-07-08 Yamaha Corp Pitch detecting device
JPH0728486A (en) * 1993-07-13 1995-01-31 Nec Corp Voice compression device

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002049001A1 (en) * 2000-12-14 2002-06-20 Sony Corporation Information extracting device
US7739112B2 (en) 2001-07-02 2010-06-15 Kabushiki Kaisha Kenwood Signal coupling method and apparatus
WO2003005342A1 (en) * 2001-07-02 2003-01-16 Kabushiki Kaisha Kenwood Signal coupling method and apparatus
JP2005346078A (en) * 2004-06-04 2005-12-15 Honda Research Inst Europe Gmbh Method for deciding common source of two harmonic signals
JP2006030610A (en) * 2004-07-16 2006-02-02 Yamaha Corp Script generating device for voice synthesis, voice synthesizer, script generating program for voice synthesis, and voice synthesis program
JP4622356B2 (en) * 2004-07-16 2011-02-02 ヤマハ株式会社 Script generator for speech synthesis and script generation program for speech synthesis
WO2006106946A1 (en) * 2005-04-01 2006-10-12 National Institute Of Advanced Industrial Science And Technology Pitch estimating method and device, and pitch estimating program
GB2440079A (en) * 2005-04-01 2008-01-16 Nat Inst Of Advanced Ind Scien Pitch estimating method and device and pitch estimating program
GB2440079B (en) * 2005-04-01 2009-07-29 Nat Inst Of Advanced Ind Scien Pitch estimating method and device and pitch estimating program
US7885808B2 (en) 2005-04-01 2011-02-08 National Institute Of Advanced Industrial Science And Technology Pitch-estimation method and system, and pitch-estimation program
JP2007064819A (en) * 2005-08-31 2007-03-15 Ho Jinyama Signal inspection method and signal inspection module
JP2007133090A (en) * 2005-11-09 2007-05-31 Yamaha Corp Voice feature amount calculation apparatus
WO2007074755A1 (en) * 2005-12-27 2007-07-05 Mitsubishi Electric Corporation Musical composition section detecting method and its device, and data recording method and its device
KR100962803B1 (en) 2005-12-27 2010-06-10 미쓰비시덴키 가부시키가이샤 Musical composition section detecting method and its device, and data recording method and its device
US8855796B2 (en) 2005-12-27 2014-10-07 Mitsubishi Electric Corporation Method and device for detecting music segment, and method and device for recording data
US8682132B2 (en) 2006-05-11 2014-03-25 Mitsubishi Electric Corporation Method and device for detecting music segment, and method and device for recording data
JP2011102978A (en) * 2009-10-15 2011-05-26 Yamaha Corp Tone signal processing apparatus and program
JP2012013915A (en) * 2010-06-30 2012-01-19 Humminglish Academy Llc Learning material and device for outputting information thereof
JP2020064177A (en) * 2018-10-17 2020-04-23 株式会社Nttドコモ Information processing apparatus and program

Also Published As

Publication number Publication date
JP3669129B2 (en) 2005-07-06

Similar Documents

Publication Publication Date Title
JP5113307B2 (en) How to change the harmonic content of a composite waveform
US8735709B2 (en) Generation of harmony tone
EP1340219A1 (en) Method for analyzing music using sounds of instruments
JPH08500452A (en) Voice chord generating method and device
WO2017082061A1 (en) Tuning estimation device, evaluation apparatus, and data processing apparatus
JP2002529773A5 (en)
JPH1074087A (en) Automatic accompaniment pattern generator and method therefor
US6525255B1 (en) Sound signal analyzing device
US11417312B2 (en) Keyboard instrument and method performed by computer of keyboard instrument
JP3669129B2 (en) Sound signal analyzing apparatus and method
JP5229998B2 (en) Code name detection device and code name detection program
JP2806351B2 (en) Performance information analyzer and automatic arrangement device using the same
JP3279204B2 (en) Sound signal analyzer and performance information generator
Lerch Software-based extraction of objective parameters from music performances
JP4134961B2 (en) Sound signal analyzing apparatus and method
JP3888371B2 (en) Sound signal analyzing apparatus and method
JP3888372B2 (en) Sound signal analyzing apparatus and method
JP4480650B2 (en) Pitch control device and pitch control program
JP3888370B2 (en) Sound signal analyzing apparatus and method
JP2017173655A (en) Sound evaluation device and sound evaluation method
JP5618743B2 (en) Singing voice evaluation device
JP5585320B2 (en) Singing voice evaluation device
JPH01288900A (en) Singing voice accompanying device
JP2011197564A (en) Electronic music device and program
JP6036800B2 (en) Sound signal generating apparatus and program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050404

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090422

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090422

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100422

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110422

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120422

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130422

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140422

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees