JP2003216147A - Encoding method of acoustic signal - Google Patents

Encoding method of acoustic signal

Info

Publication number
JP2003216147A
JP2003216147A JP2002009263A JP2002009263A JP2003216147A JP 2003216147 A JP2003216147 A JP 2003216147A JP 2002009263 A JP2002009263 A JP 2002009263A JP 2002009263 A JP2002009263 A JP 2002009263A JP 2003216147 A JP2003216147 A JP 2003216147A
Authority
JP
Japan
Prior art keywords
phoneme data
tone color
data
frequency
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002009263A
Other languages
Japanese (ja)
Inventor
Toshio Motegi
敏雄 茂出木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2002009263A priority Critical patent/JP2003216147A/en
Publication of JP2003216147A publication Critical patent/JP2003216147A/en
Withdrawn legal-status Critical Current

Links

Abstract

<P>PROBLEM TO BE SOLVED: To provide an encoding method of an acoustic signal capable of separating the acoustic signal in which a plurality of tones are mixed, into three or more tones. <P>SOLUTION: Frequency analysis is performed to the acoustic signal and separated into time series phonemic data to be constituted of starting time, ending time, frequency and strength (S1). Then, a unit tone parameter is calculated based on a distribution state of other pieces of phonemic data to be overlapped on the respective pieces of phonemic data at the same time and with different frequencies (S2). Next, pieces of the phonemic data of which the frequency and time are similar among the respective pieces of phonemic data are linked with one piece of linked phonemic data (S3). Furthermore, a linked tone parameter is calculated based on temporal changes of the frequency/a strength value of the phonemic data to be a base to be linked for the respective pieces of the linked phonemic data (S4). The linked phonemic data are sorted into a plurality of groups based on the calculated unit tone parameter and the linked tone parameter (S5). Thus, code data sorted into a plurality of tone groups can be obtained. <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、放送メディア(ラジ
オ、テレビ)、通信メディア(CS映像・音声配信、イ
ンターネット音楽配信、通信カラオケ)、パッケージメ
ディア(CD、MD、カセット、ビデオ、LD、CD−
ROM、ゲームカセット、携帯音楽プレーヤ向け固体メ
モリ媒体)などで提供する各種オーディオコンテンツの
制作、並びに、音楽演奏録音信号から楽譜出版、通信カ
ラオケ配信用MIDIデータ、演奏ガイド機能付き電子
楽器向け自動演奏データ、携帯電話・PHS・ポケベル
などの着信メロディデータを自動的に作成する自動採譜
技術に関する。
The present invention relates to broadcast media (radio, television), communication media (CS video / audio distribution, Internet music distribution, communication karaoke), package media (CD, MD, cassette, video, LD, CD). −
Production of various audio contents provided in ROM, game cassettes, solid-state memory media for portable music players, etc., as well as music performance recording signals, musical score publishing, MIDI data for communication karaoke distribution, and automatic performance data for electronic musical instruments with performance guide function. , Automatic music transcription technology for automatically creating ringing melody data for mobile phones, PHS, pagers, etc.

【0002】[0002]

【従来の技術】音響信号に代表される時系列信号には、
その構成要素として複数の周期信号が含まれている。こ
のため、与えられた時系列信号にどのような周期信号が
含まれているかを解析する手法は、古くから知られてい
る。例えば、フーリエ解析は、与えられた時系列信号に
含まれる周波数成分を解析するための方法として広く利
用されている。
2. Description of the Related Art A time series signal represented by an acoustic signal is
A plurality of periodic signals are included as its constituent elements. Therefore, a method of analyzing what kind of periodic signal is included in a given time series signal has been known for a long time. For example, Fourier analysis is widely used as a method for analyzing frequency components included in a given time series signal.

【0003】このような時系列信号の解析方法を利用す
れば、音響信号を符号化することも可能である。コンピ
ュータの普及により、原音となるアナログ音響信号を所
定のサンプリング周波数でサンプリングし、各サンプリ
ング時の信号強度を量子化してデジタルデータとして取
り込むことが容易にできるようになってきており、こう
して取り込んだデジタルデータに対してフーリエ解析な
どの手法を適用し、原音信号に含まれていた周波数成分
を抽出すれば、各周波数成分を示す符号によって原音信
号の符号化が可能になる。
By using such a time-series signal analysis method, it is possible to encode an acoustic signal. With the spread of computers, it has become easy to sample the analog sound signal that is the original sound at a predetermined sampling frequency, quantize the signal strength at each sampling, and capture it as digital data. If a method such as Fourier analysis is applied to the data and the frequency components included in the original sound signal are extracted, the original sound signal can be encoded by the code indicating each frequency component.

【0004】一方、電子楽器による楽器音を符号化しよ
うという発想から生まれたMIDI(Musical Instrume
nt Digital Interface)規格も、パーソナルコンピュー
タの普及とともに盛んに利用されるようになってきてい
る。このMIDI規格による符号データ(以下、MID
Iデータという)は、基本的には、楽器のどの鍵盤キー
を、どの程度の強さで弾いたか、という楽器演奏の操作
を記述したデータであり、このMIDIデータ自身に
は、実際の音の波形は含まれていない。そのため、実際
の音を再生する場合には、楽器音の波形を記憶したMI
DI音源が別途必要になるが、その符号化効率の高さが
注目を集めており、MIDI規格による符号化および復
号化の技術は、現在、パーソナルコンピュータを用いて
楽器演奏、楽器練習、作曲などを行うソフトウェアに広
く採り入れられている。
On the other hand, MIDI (Musical Instrume) was born from the idea of encoding musical instrument sounds by electronic musical instruments.
The nt Digital Interface) standard has also been actively used with the spread of personal computers. Code data according to this MIDI standard (hereinafter referred to as MID
Basically, the I data) is data that describes the operation of the musical instrument playing, such as which keyboard key of the musical instrument was played and with what strength. The MIDI data itself contains the actual sound. Waveform not included. Therefore, when reproducing the actual sound, the MI that stores the waveform of the instrument sound is stored.
Although a DI sound source is required separately, its high coding efficiency has been attracting attention, and the MIDI coding and decoding technology is currently used for musical instrument performance, musical instrument practice, composition, etc. using a personal computer. It is widely adopted in software that does.

【0005】そこで、音響信号に代表される時系列信号
に対して、所定の手法で解析を行うことにより、その構
成要素となる周期信号を抽出し、抽出した周期信号をM
IDIデータを用いて符号化しようとする提案がなされ
ている。例えば、特開平10−247099号公報、特
開平11−73199号公報、特開平11−73200
号公報、特開平11−95753号公報、特開2000
−99009号公報、特開2000−99092号公
報、特開2000−99093号公報には、任意の時系
列信号について、構成要素となる周波数を解析し、その
解析結果からMIDIデータを作成することができる種
々の方法が提案されている。
Therefore, a time-series signal typified by an acoustic signal is analyzed by a predetermined method to extract a periodic signal which is a constituent element thereof, and the extracted periodic signal is M
Proposals have been made to encode using IDI data. For example, JP-A-10-247099, JP-A-11-73199, and JP-A-11-73200.
JP, JP-A-11-95753, JP, 2000
In JP-A-999009, JP-A-2000-99092, and JP-A-2000-99093, it is possible to analyze a frequency that is a component of an arbitrary time-series signal and create MIDI data from the analysis result. Various possible methods have been proposed.

【0006】[0006]

【発明が解決しようとする課題】近年では、音響信号の
符号化に関する研究も進歩しており、複数の音色が混合
された音響信号を音色別に分離符号化する試みが行われ
ている。具体的には、2チャンネルステレオやマイクロ
フォンアレイを用いたマルチチャンネル入力信号に対し
て独立成分分析などを用いて解析する方法が一般的であ
る。しかし、記録されたレコード媒体では、ソースがモ
ノラルの場合が多く、ましてやマイクロフォンアレイな
ど多チャンネル信号が提供される場合は極めて異例であ
り現実的でない。そこで、モノラル信号にも適用できる
方法として、本出願人は以下のような手法を提案した。
In recent years, research on the coding of acoustic signals has progressed, and attempts have been made to separately code the acoustic signals in which a plurality of timbres are mixed for each timbre. Specifically, a method of analyzing a multi-channel input signal using a 2-channel stereo or a microphone array by using an independent component analysis is generally used. However, in the recorded record medium, the source is often monaural, and it is extremely unusual and impractical when a multi-channel signal such as a microphone array is provided. Therefore, the present applicant has proposed the following method as a method applicable to monaural signals.

【0007】基本的には、上記各公報または明細書にお
いて提案してきたMIDI符号化方式を利用したもので
あるが、特願2000−319175号では周波数のゆ
らぎの度合い、特願2001−321968号では倍音
分布度合い・デュレーション、特願2001−8750
号ではレベル分布度合いをパラメータとして算出し、1
次元的な閾値処理でチャンネル分けを行う。これらによ
り、ピアノとボーカルなど代表的な2つの音源に分離す
ることは可能となるが、分けられるチャンネル数は2つ
だけであり、双方にまたがる音素は、いずれかに振り分
けられてしまうという問題がある。
Basically, the MIDI encoding method proposed in each of the above-mentioned publications or specifications is used. However, in Japanese Patent Application No. 2000-319175, the degree of frequency fluctuation, and in Japanese Patent Application No. 2001-321968. Overtone distribution degree / duration, Japanese Patent Application No. 2001-8750
In No. 1, the level distribution degree is used as a parameter to calculate 1
Channel division is performed by dimensional threshold processing. With these, it is possible to separate into two representative sound sources such as piano and vocal, but the number of channels that can be divided is only two, and the problem that phonemes that span both are distributed to either one. is there.

【0008】また、特願2001−35378号で提案
した音色管理データベースを用いる方法では、ピアノ・
ボーカルなど音色グループ別にスペクトログラムパター
ンのデータベースを構築し、解析された音素パターンと
マッチングを総当りで行い、照合率が高い音色グループ
を選択する方法をとっている。この方法では、データベ
ースを充実すれば、いくらでも多くの音色グループに分
離することが可能である。ただし、膨大な回数のマッチ
ング演算を実施しなければならず、非効率で所望の分離
精度を得るのは困難である。また、この方法でも、双方
のグループにまたがる音素はいずれかに振り分けられて
いた。
In the method using the tone color management database proposed in Japanese Patent Application No. 2001-35378, a piano
A database of spectrogram patterns is constructed for each timbre group such as vocals, matching is performed with the analyzed phoneme patterns in a brute force manner, and timbre groups with a high matching rate are selected. With this method, it is possible to separate as many tone color groups as possible by expanding the database. However, a huge number of matching operations must be performed, and it is difficult to obtain the desired separation accuracy inefficiently. Also in this method, the phonemes spanning both groups were distributed to either one.

【0009】上記のような点に鑑み、本発明は、複数の
音色が混合された音響信号を3つ以上の音色として分離
することが可能な音響信号の符号化方法を提供すること
を課題とする。
In view of the above points, it is an object of the present invention to provide an audio signal encoding method capable of separating an audio signal in which a plurality of tones are mixed into three or more tones. To do.

【0010】[0010]

【課題を解決するための手段】上記課題を解決するた
め、本発明では、音響信号の符号化方法として、与えら
れた音響信号に対して周波数解析を行って開始時刻・終
了時刻・周波数・強度で構成される時系列の音素データ
に分解するための音素データ生成段階、前記各音素デー
タに対して同一開始時刻および同一終了時刻で周波数が
異なる他の音素データの分布状態を基に単位音色パラメ
ータを算出して前記各音素データに付与する単位音色パ
ラメータ算出段階、前記各音素データのなかで時間的に
連続する複数の音素データの周波数が類似していて先行
する音素データの終了時刻と後続する単位音素データの
開始時刻が類似している場合、先行する音素データと後
続する音素データを1つの連結音素データに統合させ、
先行する音素データの開始時刻、後続する音素データの
終了時刻、および先行する音素データまたは後続する音
素データのいずれかの周波数・強度値・単位音色の各パ
ラメータで構成される連結音素データを生成する音素連
結段階、前記各連結音素データに対して、構成される複
数の音素データの周波数・強度値の分布状態を基に連結
音色パラメータを算出し、前記各連結音素データに付与
する連結音色パラメータ算出段階、前記各連結音素デー
タの少なくとも単位音色パラメータおよび連結音色パラ
メータを含む複数のパラメータを基に、前記各連結音素
データを複数の音色グループに分類する音素分類段階を
実行し、開始時刻・終了時刻・周波数・強度値・前記分
類された音色グループで構成される符号データを得るよ
うにしたことを特徴とする。本発明によれば、周波数解
析により得られた音素データの特性から得られる単位音
色パラメータ、および音素データを連結することにより
得られる連結音素データの特性から得られる連結音色パ
ラメータ等の複数の音色パラメータに基づいて連結音素
データを複数の音色グループに分類するようにしたの
で、複数の音色が混合された音響信号を2つ以上の音色
として分離することが可能となり、特に3つ以上の音色
として分離することにも適している。
In order to solve the above problems, according to the present invention, as a method of encoding an acoustic signal, a frequency analysis is performed on a given acoustic signal to start / end time / frequency / strength. A phoneme data generation step for decomposing into time-series phoneme data composed of, unit timbre parameters based on a distribution state of other phoneme data having different frequencies at the same start time and the same end time for each of the phoneme data. A unit timbre parameter calculation step of calculating and assigning to each of the phoneme data, a frequency of a plurality of temporally continuous phoneme data in each of the phoneme data is similar, and is followed by the end time of the preceding phoneme data. If the start times of the unit phoneme data are similar, the preceding phoneme data and the following phoneme data are integrated into one concatenated phoneme data,
Generates concatenated phoneme data composed of the start time of the preceding phoneme data, the end time of the following phoneme data, and the frequency, intensity value, and unit tone color parameters of either the preceding phoneme data or the following phoneme data. Phoneme connection step, for each of the connected phoneme data, a connected tone color parameter is calculated based on a distribution state of frequency / intensity values of a plurality of phoneme data that are configured, and a connected tone color parameter calculation is given to each of the connected phoneme data. Step, based on a plurality of parameters including at least unit tone color parameters and connected tone color parameters of each connected phoneme data, performing a phoneme classification step of classifying each connected phoneme data into a plurality of tone color groups, start time and end time・ Frequency / intensity value ・ Character data composed of the classified tone color groups is obtained. To. According to the present invention, a plurality of tone color parameters such as a unit tone color parameter obtained from the characteristics of phoneme data obtained by frequency analysis, and a connected tone color parameter obtained from the characteristics of connected phoneme data obtained by connecting phoneme data. Since the concatenated phoneme data is classified into a plurality of timbre groups based on the above, it becomes possible to separate an acoustic signal in which a plurality of timbres are mixed into two or more timbres, and in particular, it is separated into three or more timbres. It is also suitable for doing.

【0011】[0011]

【発明の実施の形態】以下、本発明の実施形態について
図面を参照して詳細に説明する。 (1.音響信号符号化方法の基本原理)はじめに、本発明
に係る音響信号の符号化方法の基本原理を述べておく。
この基本原理は、前掲の各公報あるいは明細書に開示さ
れているので、ここではその概要のみを簡単に述べるこ
とにする。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below in detail with reference to the drawings. (1. Basic Principle of Acoustic Signal Coding Method) First, the basic principle of the acoustic signal coding method according to the present invention will be described.
Since this basic principle is disclosed in each of the above-mentioned publications or specifications, only the outline thereof will be briefly described here.

【0012】図1(a)に示すように、時系列信号とし
てアナログ音響信号が与えられたものとする。図1の例
では、横軸に時間t、縦軸に振幅(強度)をとって、こ
の音響信号を示している。ここでは、まずこのアナログ
音響信号を、デジタルの音響データとして取り込む処理
を行う。これは、従来の一般的なPCMの手法を用い、
所定のサンプリング周波数でこのアナログ音響信号をサ
ンプリングし、振幅を所定の量子化ビット数を用いてデ
ジタルデータに変換する処理を行えば良い。ここでは、
説明の便宜上、PCMの手法でデジタル化した音響デー
タの波形も図1(a)のアナログ音響信号と同一の波形
で示すことにする。
As shown in FIG. 1A, it is assumed that an analog acoustic signal is given as a time series signal. In the example of FIG. 1, the horizontal axis represents time t, and the vertical axis represents amplitude (intensity) to show this acoustic signal. Here, first, a process of taking in the analog acoustic signal as digital acoustic data is performed. This uses the conventional general PCM method,
The analog acoustic signal may be sampled at a predetermined sampling frequency, and the amplitude may be converted into digital data by using a predetermined number of quantization bits. here,
For convenience of explanation, the waveform of the acoustic data digitized by the PCM method is also shown as the same waveform as the analog acoustic signal of FIG.

【0013】続いて、この解析対象となる音響信号の時
間軸上に、複数の単位区間を設定する。図1(a)に示
す例では、時間軸t上に等間隔に6つの時刻t1〜t6
が定義され、これら各時刻を始点および終点とする5つ
の単位区間d1〜d5が設定されている。図1の例で
は、全て同一の区間長をもった単位区間が時間軸上で重
複せずに設定されているが、隣接する単位区間が時間軸
上で部分的に重なり合うような区間設定を行ってもかま
わない。
Then, a plurality of unit sections are set on the time axis of the acoustic signal to be analyzed. In the example shown in FIG. 1A, six times t1 to t6 are equally spaced on the time axis t.
Is defined, and five unit sections d1 to d5 whose start point and end point are the respective time points are set. In the example of FIG. 1, all unit sections having the same section length are set without overlapping on the time axis, but the section setting is performed so that adjacent unit sections partially overlap on the time axis. It doesn't matter.

【0014】こうして単位区間が設定されたら、各単位
区間ごとの音響信号(以下、区間信号と呼ぶことにす
る)について、それぞれ代表周波数を選出する。各区間
信号には、通常、様々な周波数成分が含まれているが、
例えば、その中で成分の強度割合の大きな周波数成分を
代表周波数として選出すれば良い。ここで、代表周波数
とはいわゆる基本周波数が一般的であるが、音声のフォ
ルマント周波数などの倍音周波数や、ノイズ音源のピー
ク周波数も代表周波数として扱うことがある。代表周波
数は1つだけ選出しても良いが、音響信号によっては複
数の代表周波数を選出した方が、より精度の高い符号化
が可能になる。図1(b)には、個々の単位区間ごとに
それぞれ3つの代表周波数を選出し、1つの代表周波数
を1つの代表符号(図では便宜上、音符として示してあ
る)として符号化した例が示されている。ここでは、代
表符号(音符)を収容するために3つのトラックT1,
T2,T3が設けられているが、これは個々の単位区間
ごとに選出された3つずつの代表符号を、それぞれ異な
るトラックに収容するためである。
When the unit section is set in this way, a representative frequency is selected for each acoustic signal (hereinafter referred to as section signal) for each unit section. Each section signal usually contains various frequency components,
For example, a frequency component having a large intensity ratio of the components may be selected as the representative frequency. Here, the representative frequency is generally a so-called fundamental frequency, but a harmonic frequency such as a formant frequency of voice or a peak frequency of a noise sound source may be treated as a representative frequency. Although only one representative frequency may be selected, more accurate encoding becomes possible if a plurality of representative frequencies are selected depending on the acoustic signal. FIG. 1B shows an example in which three representative frequencies are selected for each unit section and one representative frequency is encoded as one representative code (in the figure, it is shown as a note for convenience). Has been done. Here, three tracks T1 for accommodating a representative code (note) are provided.
T2 and T3 are provided so that the three representative codes selected for each unit section are accommodated in different tracks.

【0015】例えば、単位区間d1について選出された
代表符号n(d1,1),n(d1,2),n(d1,
3)は、それぞれトラックT1,T2,T3に収容され
ている。ここで、各符号n(d1,1),n(d1,
2),n(d1,3)は、MIDI符号におけるノート
ナンバーを示す符号である。MIDI符号におけるノー
トナンバーは、0〜127までの128通りの値をと
り、それぞれピアノの鍵盤の1つのキーを示すことにな
る。具体的には、例えば、代表周波数として440Hz
が選出された場合、この周波数はノートナンバーn=6
9(ピアノの鍵盤中央の「ラ音(A3音)」に対応)に
相当するので、代表符号としては、n=69が選出され
ることになる。もっとも、図1(b)は、上述の方法に
よって得られる代表符号を音符の形式で示した概念図で
あり、実際には、各音符にはそれぞれ強度に関するデー
タも付加されている。例えば、トラックT1には、ノー
トナンバーn(d1,1),n(d2,1)・・・とい
う音高を示すデータとともに、e(d1,1),e(d
2,1)・・・という強度を示すデータが収容されるこ
とになる。この強度を示すデータは、各代表周波数の成
分が、元の区間信号にどの程度の度合いで含まれていた
かによって決定される。具体的には、各代表周波数をも
った周期関数の区間信号に対する相関値に基づいて強度
を示すデータが決定されることになる。また、図1
(b)に示す概念図では、音符の横方向の位置によっ
て、個々の単位区間の時間軸上での位置が示されている
が、実際には、この時間軸上での位置を正確に数値とし
て示すデータが各音符に付加されていることになる。
For example, the representative codes n (d1,1), n (d1,2), n (d1,) selected for the unit section d1.
3) are housed in the tracks T1, T2, T3, respectively. Here, each code n (d1,1), n (d1,
2) and n (d1,3) are codes indicating note numbers in the MIDI code. The note number in the MIDI code takes 128 values from 0 to 127, and each indicates one key on the keyboard of the piano. Specifically, for example, the representative frequency is 440 Hz
Is selected, the frequency is note number n = 6
Since it corresponds to 9 (corresponding to "Ra sound (A3 sound)" at the center of the keyboard of the piano), n = 69 is selected as the representative code. However, FIG. 1B is a conceptual diagram showing the representative code obtained by the above-described method in the form of a musical note, and in fact, each musical note is also provided with data relating to its strength. For example, the track T1 includes note numbers n (d1,1), n (d2,1) ... Pitch data and e (d1,1), e (d
Data indicating the strength of 2, 1, 1 ... The data indicating this intensity is determined by the degree to which the component of each representative frequency is included in the original section signal. Specifically, the data indicating the intensity is determined based on the correlation value of the section signal of the periodic function having each representative frequency. Also, FIG.
In the conceptual diagram shown in (b), the position of each unit section on the time axis is shown by the position of the note in the lateral direction. The data shown as is added to each note.

【0016】音響信号を符号化する形式としては、必ず
しもMIDI形式を採用する必要はないが、この種の符
号化形式としてはMIDI形式が最も普及しているた
め、実用上はMIDI形式の符号データを用いるのが好
ましい。MIDI形式では、「ノートオン」データもし
くは「ノートオフ」データが、「デルタタイム」データ
を介在させながら存在する。「ノートオン」データは、
特定のノートナンバーNとベロシティーVを指定して特
定の音の演奏開始を指示するデータであり、「ノートオ
フ」データは、特定のノートナンバーNとベロシティー
Vを指定して特定の音の演奏終了を指示するデータであ
る。また、「デルタタイム」データは、所定の時間間隔
を示すデータである。ベロシティーVは、例えば、ピア
ノの鍵盤などを押し下げる速度(ノートオン時のベロシ
ティー)および鍵盤から指を離す速度(ノートオフ時の
ベロシティー)を示すパラメータであり、特定の音の演
奏開始操作もしくは演奏終了操作の強さを示すことにな
る。
It is not always necessary to adopt the MIDI format as the format for encoding the acoustic signal, but since the MIDI format is the most popular as this type of encoding format, the MIDI format code data is practically used. Is preferably used. In the MIDI format, “note on” data or “note off” data exists with “delta time” data interposed. The "Note On" data is
The "note-off" data is data for instructing the start of playing a specific sound by designating a specific note number N and velocity V. The "note-off" data is a data of a specific note designated by a specific note number N and velocity V. This is data for instructing the end of performance. The "delta time" data is data indicating a predetermined time interval. Velocity V is a parameter indicating, for example, the speed at which the piano keyboard is pushed down (velocity at note-on) and the speed at which the finger is released from the keyboard (velocity at note-off), and operation to start playing a specific sound. Alternatively, it indicates the strength of the performance ending operation.

【0017】前述の方法では、第i番目の単位区間di
について、代表符号としてJ個のノートナンバーn(d
i,1),n(di,2),・・・,n(di,J)が
得られ、このそれぞれについて強度e(di,1),e
(di,2),・・・,e(di,J)が得られる。そ
こで、次のような手法により、MIDI形式の符号デー
タを作成することができる。まず、「ノートオン」デー
タもしくは「ノートオフ」データの中で記述するノート
ナンバーNとしては、得られたノートナンバーn(d
i,1),n(di,2),・・・,n(di,J)を
そのまま用いれば良い。一方、「ノートオン」データも
しくは「ノートオフ」データの中で記述するベロシティ
ーVとしては、得られた強度e(di,1),e(d
i,2),・・・,e(di,J)を所定の方法で規格
化した値を用いれば良い。また、「デルタタイム」デー
タは、各単位区間の長さに応じて設定すれば良い。な
お、ここでの説明においては、基本原理をわかりやすく
説明するために「トラック」という概念を用いて各符号
を振り分けるようにしたが、MIDI規格においては、
1つのチャンネルに複数の符号を記録するようにしてい
る。現在、MIDI規格では1つのチャンネルにつき1
6〜64の音を同時に発音することが可能であるため、
トラックという概念はなく、図1に示した3つの符号は
1つのチャンネルに記録され、和音として発音されるよ
うになっている。この意味で、後述するチャンネルと上
述のトラックとは異なるものである。
In the above method, the i-th unit section di
About J note numbers n (d
i, 1), n (di, 2), ..., N (di, J) are obtained for each of these intensities e (di, 1), e
(Di, 2), ..., E (di, J) are obtained. Therefore, the code data in the MIDI format can be created by the following method. First, as the note number N described in the “note on” data or the “note off” data, the obtained note number n (d
i, 1), n (di, 2), ..., N (di, J) may be used as they are. On the other hand, as the velocity V described in the “note-on” data or the “note-off” data, the obtained intensities e (di, 1), e (d
i, 2), ..., E (di, J) may be standardized by a predetermined method. The “delta time” data may be set according to the length of each unit section. In the description here, in order to explain the basic principle in an easy-to-understand manner, the concept of "track" is used to distribute each code, but in the MIDI standard,
A plurality of codes are recorded on one channel. Currently, one channel per MIDI standard
Since it is possible to pronounce 6 to 64 sounds at the same time,
There is no concept of a track, and the three codes shown in FIG. 1 are recorded in one channel and sounded as a chord. In this sense, the channels described later are different from the tracks described above.

【0018】(2.周期関数との相関を求める具体的な方
法)上述した基本原理の基づく方法では、区間信号に対
して、1つまたは複数の代表周波数が選出され、この代
表周波数をもった周期信号によって、当該区間信号が表
現されることになる。ここで、選出される代表周波数
は、文字どおり、当該単位区間内の信号成分を代表する
周波数である。この代表周波数を選出する具体的な方法
には、後述するように、短時間フーリエ変換を利用する
方法と、一般化調和解析の手法を利用する方法とがあ
る。いずれの方法も、基本的な考え方は同じであり、あ
らかじめ周波数の異なる複数の周期関数を調和信号とし
て用意しておき、これら複数の周期関数の中から、当該
単位区間内の区間信号に対する相関が高い周期関数を見
つけ出し、この相関の高い周期関数の周波数を代表周波
数として選出する、という手法を採ることになる。すな
わち、代表周波数を選出する際には、あらかじめ用意さ
れた複数の周期関数と、単位区間内の区間信号との相関
を求める演算を行うことになる。そこで、ここでは、周
期関数との相関を求める具体的な方法を述べておく。
(2. Concrete Method for Obtaining Correlation with Periodic Function) In the method based on the above-mentioned basic principle, one or a plurality of representative frequencies are selected for the section signal and have the representative frequency. The section signal is represented by the periodic signal. Here, the selected representative frequency is literally a frequency representing the signal component in the unit section. As a specific method of selecting the representative frequency, there are a method using a short-time Fourier transform and a method using a generalized harmonic analysis method, as described later. In either method, the basic idea is the same, and a plurality of periodic functions with different frequencies are prepared in advance as harmonic signals, and the correlation with respect to the section signal in the unit section is selected from the plurality of periodic functions. A method of finding a high periodic function and selecting the frequency of this highly correlated periodic function as the representative frequency is adopted. That is, when the representative frequency is selected, the calculation for obtaining the correlation between the plurality of periodic functions prepared in advance and the section signal in the unit section is performed. Therefore, here, a specific method for obtaining the correlation with the periodic function will be described.

【0019】複数の周期関数として、図2に示すような
三角関数が用意されているものとする。これらの三角関
数は、同一周波数をもった正弦関数と余弦関数との対か
ら構成されており、128通りの標準周波数f(0)〜
f(127)のそれぞれについて、正弦関数および余弦
関数の対が定義されていることになる。ここでは、同一
の周波数をもった正弦関数および余弦関数からなる一対
の関数を、当該周波数についての周期関数として定義す
ることにする。すなわち、ある特定の周波数についての
周期関数は、一対の正弦関数および余弦関数によって構
成されることになる。このように、一対の正弦関数と余
弦関数とにより周期関数を定義するのは、信号に対する
周期関数の相関値を求める際に、相関値が位相の影響を
受ける事を考慮するためである。なお、図2に示す各三
角関数内の変数Fおよびkは、区間信号Xについてのサ
ンプリング周波数Fおよびサンプル番号kに相当する変
数である。例えば、周波数f(0)についての正弦波
は、sin(2πf(0)k/F)で示され、任意のサ
ンプル番号kを与えると、区間信号を構成する第k番目
のサンプルと同一時間位置における周期関数の振幅値が
得られる。ここでは、128通りの標準周波数f(0)
〜f(127)を以下に示す〔数式1〕で定義する。
It is assumed that a trigonometric function as shown in FIG. 2 is prepared as a plurality of periodic functions. These trigonometric functions are composed of a pair of a sine function and a cosine function having the same frequency, and 128 standard frequencies f (0) to
For each of f (127), a pair of sine and cosine functions will be defined. Here, a pair of functions including a sine function and a cosine function having the same frequency will be defined as a periodic function for the frequency. That is, the periodic function for a specific frequency is composed of a pair of sine function and cosine function. Thus, the reason why the periodic function is defined by a pair of sine function and cosine function is to consider that the correlation value is influenced by the phase when the correlation value of the periodic function with respect to the signal is obtained. The variables F and k in each trigonometric function shown in FIG. 2 are variables corresponding to the sampling frequency F and the sample number k for the interval signal X. For example, a sine wave for the frequency f (0) is represented by sin (2πf (0) k / F), and given an arbitrary sample number k, the same time position as the kth sample forming the interval signal is given. The amplitude value of the periodic function at is obtained. Here, 128 standard frequencies f (0)
~ F (127) is defined by the following [Formula 1].

【0020】〔数式1〕 f(n)=440×2γ (n) γ(n)=(n−69)/12 ただし、n=0,1,2,・・・,127[Formula 1] f (n) = 440 × 2 γ (n) γ (n) = (n−69) / 12 where n = 0, 1, 2, ..., 127

【0021】このような式によって標準周波数を定義し
ておくと、最終的にMIDIデータを用いた符号化を行
う際に便利である。なぜなら、このような定義によって
設定される128通りの標準周波数f(0)〜f(12
7)は、等比級数をなす周波数値をとることになり、M
IDIデータで利用されるノートナンバーに対応した周
波数になるからである。したがって、図2に示す128
通りの標準周波数f(0)〜f(127)は、対数尺度
で示した周波数軸上に等間隔(MIDIにおける半音単
位)に設定した周波数ということになる。このため、本
願では、図に掲載するグラフにおけるノートナンバー軸
を、いずれも対数尺度で示すことにする。
Defining the standard frequency by such an equation is convenient when finally performing encoding using MIDI data. This is because there are 128 standard frequencies f (0) to f (12) set by such a definition.
7) is to take frequency values forming a geometric series, and M
This is because the frequency corresponds to the note number used in the IDI data. Therefore, 128 shown in FIG.
The standard frequencies f (0) to f (127) are the frequencies set at equal intervals (semitone unit in MIDI) on the frequency axis shown by the logarithmic scale. Therefore, in the present application, all the note number axes in the graphs shown in the figures will be shown on a logarithmic scale.

【0022】(2.1.短時間フーリエ変換法)続いて、任
意の区間の区間信号に対する各周期関数の相関の求め方
について、具体的な説明を行う。例えば、図3に示すよ
うに、ある単位区間dについて区間信号Xが与えられて
いたとする。ここでは、区間長Lをもった単位区間dに
ついて、サンプリング周波数Fでサンプリングが行なわ
れており、全部でw個のサンプル値が得られているもの
とし、サンプル番号を図示のように、0,1,2,3,
・・・,k,・・・,w−2,w−1とする(白丸で示
す第w番目のサンプルは、右に隣接する次の単位区間の
先頭に含まれるサンプルとする)。この場合、任意のサ
ンプル番号kについては、X(k)なる振幅値がデジタ
ルデータとして与えられていることになる。短時間フー
リエ変換においては、X(k)に対して各サンプルごと
に中央の重みが1に近く、両端の重みが0に近くなるよ
うな窓関数W(k)を乗ずることが通常である。すなわ
ち、X(k)×W(k)をX(k)と扱って以下のよう
な相関計算を行うもので、窓関数の形状としては余弦波
形状のハミング窓が一般に用いられている。ここで、w
は以下の記述においても定数のような記載をしている
が、一般にはnの値に応じて変化させ、区間長Lを超え
ない範囲で最大となるF/f(n)の整数倍の値に設定
することが望ましい。
(2.1. Short-Time Fourier Transform Method) Next, a specific description will be given of how to obtain the correlation of each periodic function with respect to the section signal of an arbitrary section. For example, as shown in FIG. 3, it is assumed that the section signal X is given to a certain unit section d. Here, it is assumed that the unit section d having the section length L is sampled at the sampling frequency F and w sample values are obtained in total, and the sample number is 0, as shown in the figure. 1, 2, 3,
..., k, ..., w-2, w-1 (the w-th sample indicated by a white circle is a sample included at the beginning of the next unit section adjacent to the right). In this case, for any sample number k, the amplitude value X (k) is given as digital data. In the short-time Fourier transform, it is usual to multiply X (k) by a window function W (k) such that the center weight is close to 1 and the weights at both ends are close to 0 for each sample. That is, the following correlation calculation is performed by treating X (k) × W (k) as X (k), and a cosine wave-shaped Hamming window is generally used as the shape of the window function. Where w
Is also described as a constant in the following description, but it is generally an integer multiple of F / f (n) that varies depending on the value of n and becomes maximum within the range L. It is desirable to set to.

【0023】このような区間信号Xに対して、第n番目
の標準周波数f(n)をもった正弦関数Rnとの相関値
を求める原理を示す。両者の相関値A(n)は、以下の
〔数式2〕によって定義することができる。
The principle of obtaining the correlation value with the sine function Rn having the nth standard frequency f (n) for such a section signal X will be described. The correlation value A (n) between the two can be defined by the following [Formula 2].

【0024】 〔数式2〕 A(n)=(2/w)Σk=0,w-1x(k) sin(2πfnk/F) B(n)=(2/w)Σk=0,w-1x(k) cos(2πfnk/F) {E(n)}2={A(n)}2+{B(n)}2 [Formula 2] A (n) = (2 / w) Σ k = 0, w−1 x (k) sin (2πf n k / F) B (n) = (2 / w) Σ k = 0, w-1 x (k) cos (2πf n k / F) {E (n)} 2 = {A (n)} 2 + {B (n)} 2

【0025】上記〔数式2〕において、X(k)は、図
3に示すように、区間信号Xにおけるサンプル番号kの
振幅値であり、sin(2πfnk/F)は、時間軸上
での同位置における正弦関数Rnの振幅値である。な
お、数式が繁雑になるのを避けるため、数式内ではf
(n)をfnと表現している。〔数式2〕の第1の演算
式は、単位区間d内の全サンプル番号k=0〜w−1の
次元について、それぞれ区間信号Xの振幅値と正弦関数
Rnの振幅ベクトルの内積を求める式ということができ
る。
In the above [Formula 2], X (k) is the amplitude value of the sample number k in the interval signal X, as shown in FIG. 3, and sin (2πf n k / F) is on the time axis. It is the amplitude value of the sine function Rn at the same position of. In order to avoid complicated expressions, f
(N) is expressed as f n . The first arithmetic expression of [Equation 2] is an expression for obtaining the inner product of the amplitude value of the interval signal X and the amplitude vector of the sine function Rn for the dimensions of all sample numbers k = 0 to w−1 in the unit interval d. Can be said.

【0026】同様に、上記〔数式2〕の第2の演算式
は、区間信号Xと、第n番目の標準周波数f(n)をも
った余弦関数との相関値を求める式であり、両者の相関
値はB(n)で与えられる。なお、相関値A(n)を求
めるための第1の演算式も、相関値B(n)を求めるた
めの第2の演算式も、最終的に2/wが乗ぜられている
が、これは相関値を規格化するためのものでり、前述の
とおりwはnに依存して変化させるのが一般的であるた
め、この係数もnに依存する変数である。
Similarly, the second arithmetic expression of the above [Equation 2] is an expression for obtaining the correlation value between the interval signal X and the cosine function having the nth standard frequency f (n). The correlation value of is given by B (n). Note that both the first arithmetic expression for obtaining the correlation value A (n) and the second arithmetic expression for obtaining the correlation value B (n) are finally multiplied by 2 / w. Is for normalizing the correlation value, and since w is generally changed depending on n as described above, this coefficient is also a variable depending on n.

【0027】区間信号Xと標準周波数f(n)をもった
標準周期関数との相関実効値は、上記〔数式2〕の第3
の演算式に示すように、正弦関数との相関値A(n)と
余弦関数との相関値B(n)との二乗和平方根のうち、
正の値であるE(n)によって示すことができる。この
相関実効値の大きな標準周期関数の周波数を代表周波数
として選出すれば、この代表周波数を用いて区間信号X
を符号化することができる。
The effective value of the correlation between the interval signal X and the standard periodic function having the standard frequency f (n) is the third value of the above [Formula 2].
As shown in the following equation, of the square root of the sum of squares of the correlation value A (n) with the sine function and the correlation value B (n) with the cosine function,
It can be indicated by a positive value, E (n). If the frequency of the standard periodic function having a large effective value of the correlation is selected as the representative frequency, the interval signal X
Can be encoded.

【0028】すなわち、この相関値E(n)が所定の基
準以上の大きさとなる1つまたは複数の標準周波数を代
表周波数として選出すれば良い。なお、ここで「相関値
E(n)が所定の基準以上の大きさとなる」という選出
条件は、例えば、何らかの閾値を設定しておき、相関値
E(n)がこの閾値を超えるような標準周波数f(n)
をすべて代表周波数として選出する、という絶対的な選
出条件を設定しても良いが、例えば、相関値E(n)の
大きさの順にQ番目までを選出する、というような相対
的な選出条件を設定しても良い。
That is, one or a plurality of standard frequencies whose correlation value E (n) is greater than a predetermined standard may be selected as the representative frequency. The selection condition that “the correlation value E (n) is greater than or equal to a predetermined reference” is, for example, a threshold that is set in advance and the correlation value E (n) exceeds the threshold. Frequency f (n)
May be set as a representative frequency, but an absolute selection condition may be set. For example, relative selection conditions such as selecting up to the Qth in the order of the magnitude of the correlation value E (n). May be set.

【0029】(2.2.一般化調和解析の手法)ここでは、
本発明に係る音響信号の符号化を行う際に有用な一般化
調和解析の手法について説明する。既に説明したよう
に、音響信号を符号化する場合、個々の単位区間内の区
間信号について、相関値の高いいくつかの代表周波数を
選出することになる。一般化調和解析は、より高い精度
で代表周波数の選出を可能にする手法であり、その基本
原理は次の通りである。
(2.2. Generalized Harmonic Analysis Method) Here,
A method of generalized harmonic analysis useful for encoding an acoustic signal according to the present invention will be described. As already described, when the acoustic signal is encoded, some representative frequencies having a high correlation value are selected for the section signals in each unit section. Generalized harmonic analysis is a method that enables selection of representative frequencies with higher accuracy, and its basic principle is as follows.

【0030】図4(a)に示すような単位区間dについ
て、信号S(j)なるものが存在するとする。ここで、
jは後述するように、繰り返し処理のためのパラメータ
である(j=1〜J)。まず、この信号S(j)に対し
て、図2に示すような128通りの周期関数すべてにつ
いての相関値を求める。そして、最大の相関値が得られ
た1つの周期関数の周波数を代表周波数として選出し、
当該代表周波数をもった周期関数を要素関数として抽出
する。続いて、図4(b)に示すような含有信号G
(j)を定義する。この含有信号G(j)は、抽出され
た要素関数に、その振幅として、当該要素関数の信号S
(j)に対する相関値を乗じることにより得られる信号
である。例えば、周期関数として図2に示すように、一
対の正弦関数と余弦関数とを用い、周波数f(n)が代
表周波数として選出された場合、振幅A(n)をもった
正弦関数A(n)sin(2πfnk/F)と、振幅B
(n)をもった余弦関数B(n)cos(2πfnk/
F)との和からなる信号が含有信号G(j)ということ
になる(図4(b)では、図示の便宜上、一方の関数し
か示していない)。ここで、A(n),B(n)は、上
記〔数式2〕で得られる規格化された相関値であるか
ら、結局、含有信号G(j)は、信号S(j)内に含ま
れている周波数f(n)をもった信号成分ということが
できる。
It is assumed that the signal S (j) exists in the unit section d as shown in FIG. 4 (a). here,
As will be described later, j is a parameter for iterative processing (j = 1 to J). First, for this signal S (j), correlation values for all 128 periodic functions as shown in FIG. 2 are obtained. Then, the frequency of one periodic function for which the maximum correlation value is obtained is selected as the representative frequency,
A periodic function having the representative frequency is extracted as an element function. Then, the inclusion signal G as shown in FIG.
Define (j). The content signal G (j) is added to the extracted element function as its amplitude and the signal S of the element function.
It is a signal obtained by multiplying the correlation value for (j). For example, as shown in FIG. 2 as a periodic function, when a pair of sine function and cosine function are used and the frequency f (n) is selected as the representative frequency, the sine function A (n) having the amplitude A (n) is used. ) Sin (2πf n k / F) and amplitude B
Cosine function B (n) cos (2πf n k / with (n)
The signal composed of the sum of F and F is the content signal G (j) (in FIG. 4B, only one function is shown for convenience of illustration). Here, since A (n) and B (n) are normalized correlation values obtained by the above [Formula 2], the inclusion signal G (j) is eventually included in the signal S (j). It can be said that it is a signal component having the frequency f (n) that is set.

【0031】こうして、含有信号G(j)が求まった
ら、信号S(j)から含有信号G(j)を減じることに
より、差分信号S(j+1)を求める。図4(c)は、
このようにして求まった差分信号S(j+1)を示して
いる。この差分信号S(j+1)は、もとの信号S
(j)の中から、周波数f(n)をもった信号成分を取
り去った残りの信号成分からなる信号ということができ
る。そこで、パラメータjを1だけ増加させることによ
り、この差分信号S(j+1)を新たな信号S(j)と
して取り扱い、同様の処理を、パラメータjをj=1〜
Jまで1ずつ増やしながらJ回繰り返し実行すれば、J
個の代表周波数を選出することができる。
When the content signal G (j) is obtained in this way, the difference signal S (j + 1) is obtained by subtracting the content signal G (j) from the signal S (j). Figure 4 (c) shows
The difference signal S (j + 1) thus obtained is shown. This difference signal S (j + 1) is the original signal S
It can be said that the signal is composed of the remaining signal components obtained by removing the signal component having the frequency f (n) from (j). Therefore, by increasing the parameter j by 1, the difference signal S (j + 1) is treated as a new signal S (j), and the same processing is performed for the parameter j from j = 1 to 1.
If you repeat J times while incrementing by 1 to J, J
Individual representative frequencies can be selected.

【0032】このような相関計算の結果として出力され
るJ個の含有信号G(1)〜G(J)は、もとの区間信
号Xの構成要素となる信号であり、もとの区間信号Xを
符号化する場合には、これらJ個の含有信号の周波数を
示す情報および振幅(強度)を示す情報を符号データと
して用いるようにすれば良い。尚、Jは代表周波数の個
数であると説明してきたが、標準周波数f(n)の個数
と同一すなわちJ=128であってもよく、周波数スペ
クトルを求める目的においてはそのように行うのが通例
である。
The J contained signals G (1) to G (J) output as a result of such a correlation calculation are signals which are constituent elements of the original section signal X, and are the original section signals. When X is coded, information indicating the frequency and amplitude (intensity) of these J contained signals may be used as code data. Although it has been described that J is the number of representative frequencies, it may be the same as the number of standard frequencies f (n), that is, J = 128, and it is customary to do so for the purpose of obtaining the frequency spectrum. Is.

【0033】こうして、各単位区間について、所定数の
周波数群が選出されたら、この周波数群の各周波数に対
応する「音の高さを示す情報」、選出された各周波数の
信号強度に対応する「音の強さを示す情報」、当該単位
区間の始点に対応する「音の発音開始時刻を示す情
報」、当該単位区間に後続する単位区間の始点に対応す
る「音の発音終了時刻を示す情報」、の4つの情報を含
む所定数の符号データを作成すれば、当該単位区間内の
区間信号Xを所定数の符号データにより符号化すること
ができる。符号データとして、MIDIデータを作成す
るのであれば、「音の高さを示す情報」としてノートナ
ンバーを用い、「音の強さを示す情報」としてベロシテ
ィーを用い、「音の発音開始時刻を示す情報」としてノ
ートオン時刻を用い、「音の発音終了時刻を示す情報」
としてノートオフ時刻を用いるようにすれば良い。
In this way, when a predetermined number of frequency groups are selected for each unit section, "information indicating the pitch of the sound" corresponding to each frequency of this frequency group, corresponding to the signal strength of each selected frequency. "Information indicating the sound intensity", "Information indicating the sound production start time" corresponding to the start point of the relevant unit section, "Indicating the sound production end time corresponding to the start point of the unit section subsequent to the relevant unit section" By generating a predetermined number of code data including four pieces of information, it is possible to encode the section signal X in the unit section with a predetermined number of code data. If MIDI data is created as code data, note number is used as "information indicating pitch of tone", velocity is used as "information indicating intensity of tone", and "start time of sound generation" Note-on time is used as "information to indicate", and "information to indicate the end time of sound generation"
The note-off time may be used as

【0034】(3.1.本発明に係る音響信号の符号化方
法)ここからは、本発明の音響信号符号化方法につい
て、図5に示すフローチャートを用いて説明する。ま
ず、音響信号の時間軸上の全区間に渡って単位区間を設
定し、周波数解析を行って各周波数に対応する強度値を
算出し、周波数、強度値、単位区間の始点、終点の4つ
の情報からなる音素データを算出する(ステップS
1)。このステップS1における周波数解析の手法は、
上記(基本原理)および(周波数解析の具体的な手法)
の項において説明した通りである。ここで、単位区間は
連続する単位区間を重複させて設定するようにしても良
いし、図1(a)に示したように先行する単位区間の終
点と後続する単位区間の始点が同一な点となるようにし
て設定しても良いが、以下の説明では、便宜上後者の設
定を行った場合を例にとって説明する。
(3.1. Audio Signal Coding Method According to the Present Invention) The audio signal coding method according to the present invention will be described below with reference to the flowchart shown in FIG. First, a unit section is set over the entire section on the time axis of the acoustic signal, frequency analysis is performed to calculate an intensity value corresponding to each frequency, and four values of frequency, intensity value, start point and end point of the unit section are set. Phoneme data consisting of information is calculated (step S
1). The method of frequency analysis in step S1 is
Above (basic principle) and (specific method of frequency analysis)
Is as described in the section. Here, the unit section may be set by overlapping consecutive unit sections, or as shown in FIG. 1A, the end point of the preceding unit section and the start point of the following unit section are the same point. However, in the following description, for convenience, the latter setting will be described as an example.

【0035】音素データの算出は、具体的には、図2に
示したような128種の周期関数に対して区間信号の相
関強度を求め、その周期関数の周波数、求めた相関強
度、単位区間の始点、終点の4つの情報を音素データと
定義することにより行われる。ただし、本実施形態で
は、上記基本原理で説明した場合のように、代表周波数
を選出するのではなく、用意した周期関数全てに対応す
る音素データを取得する。このステップS1の処理を全
単位区間に対して行うことにより、音素データ[m,n]
(0≦m≦M−1,0≦n≦N−1)群が得られる。こ
こで、Nは周期関数の総数(上述の例ではN=12
8)、Mは音響信号において設定された単位区間の総数
である。つまり、M×N個の音素データからなる音素デ
ータ群が得られることになる。
To calculate the phoneme data, specifically, the correlation strength of the interval signal is calculated for 128 types of periodic functions as shown in FIG. 2, the frequency of the periodic function, the calculated correlation strength, and the unit interval. It is performed by defining four pieces of information of the starting point and the ending point of the phoneme data. However, in this embodiment, phoneme data corresponding to all prepared periodic functions are acquired instead of selecting a representative frequency as in the case of the above-described basic principle. The phoneme data [m, n] is obtained by performing the process of step S1 for all unit intervals.
A group of (0 ≦ m ≦ M−1, 0 ≦ n ≦ N−1) is obtained. Here, N is the total number of periodic functions (N = 12 in the above example).
8) and M are the total number of unit sections set in the acoustic signal. That is, a phoneme data group including M × N phoneme data is obtained.

【0036】続いて、得られた音素データの構成要素で
ある開始時刻・終了時刻・周波数・強度値を利用して単
位音色パラメータを算出する(ステップS2)。本実施
形態では、単位音色パラメータとして、ゆらぎ分布パラ
メータPy・倍音分布パラメータPoを算出する。さら
に、音響信号としてステレオ信号を利用した場合には、
ベロシティを左右別に算出し、その比率を基にステレオ
定位パラメータPsを算出する。
Subsequently, a unit tone color parameter is calculated using the start time, end time, frequency, and intensity value, which are components of the obtained phoneme data (step S2). In this embodiment, the fluctuation distribution parameter Py and the overtone distribution parameter Po are calculated as the unit tone color parameters. Furthermore, when a stereo signal is used as an acoustic signal,
The velocity is calculated for each of the right and left sides, and the stereo localization parameter Ps is calculated based on the ratio.

【0037】具体的には、ゆらぎ分布パラメータPyは
局所的な周波数のゆらぎの分布を示すパラメータであ
り、各ノートナンバーnに対応するゆらぎ分布パラメー
タPy(n)は、以下の〔数式3〕により算出される。
Specifically, the fluctuation distribution parameter Py is a parameter indicating a local frequency fluctuation distribution, and the fluctuation distribution parameter Py (n) corresponding to each note number n is calculated by the following [Equation 3]. It is calculated.

【0038】〔数式3〕 Py(n)={ V(n-1) + V(n+1) + 2V(n-2) + 2V(n+2)
}×6/V(n)
[Formula 3] Py (n) = {V (n-1) + V (n + 1) + 2V (n-2) + 2V (n + 2)
} × 6 / V (n)

【0039】上記〔数式3〕に示すように、ゆらぎ分布
パラメータは各音素データ(ノートナンバーn)につい
て、自身よりも半音低い音(ノートナンバーn−1)、
半音高い音(ノートナンバーn+1)、2半音低い音
(ノートナンバーn−2)、2半音高い音(ノートナン
バーn+2)の強度値Vが自身に比べてどの程度の強さ
であるかを示すものである。このゆらぎ分布パラメータ
Pyは、〔数式3〕では0から11の範囲になるように
規格化されているため、Pyが0に近いほど、ピアノ音
傾向が高く、Pyが11に近いほど、ボーカル音傾向が
高いということになる。
As shown in the above [Formula 3], the fluctuation distribution parameter has a tone (note number n-1) lower by one semitone than itself for each phoneme data (note number n),
Higher half tone (note number n + 1), lower half tone (note number n-2), higher tone by two semitones (note number n + 2) indicates how strong the intensity value V is compared to itself. Is. Since this fluctuation distribution parameter Py is standardized in the range of 0 to 11 in [Equation 3], the closer Py is to 0, the higher the piano sound tendency, and the closer Py is to 11, the vocal sound is. The tendency is high.

【0040】また、倍音分布パラメータPoは、その単
位音素データが基本音であるか、他の単位音素データの
倍音であるかどうかを判定するための値である。具体的
には、以下の〔数式4〕を用いてノートナンバーnに対
応する倍音分布パラメータPo (n)が算出される。
The harmonic overtone distribution parameter Po is a value for determining whether the unit phoneme data is a fundamental sound or a harmonic overtone of other unit phoneme data. Specifically, the harmonic distribution parameter Po (n) corresponding to the note number n is calculated using the following [Formula 4].

【0041】〔数式4〕 Po(n)={6V(n)+V(n+12) + V(n+19) + V(n+24)
+ V(n+28) + V(n+31) +V(n+34) + V(n+36) - V(n-12) -
V(n-19) - V(n-24) - V(n-28) - V(n-31) - V(n-34) -
V(n-36) }/V(n)
[Formula 4] Po (n) = {6V (n) + V (n + 12) + V (n + 19) + V (n + 24)
+ V (n + 28) + V (n + 31) + V (n + 34) + V (n + 36)-V (n-12)-
V (n-19)-V (n-24)-V (n-28)-V (n-31)-V (n-34)-
V (n-36)} / V (n)

【0042】上記〔数式4〕において、V(n)はノートナ
ンバーnの強度値を示しており、 V(n+12) ,V(n+19) ,V
(n+24) ,V(n+28) ,V(n+31) ,V(n+34) ,V(n+36) はそれ
ぞれノートナンバーnの音の2倍音、3倍音、4倍音、
5倍音、6倍音、7倍音、8倍音の強度値を、 V(n-12)
,V(n-19) ,V(n-24) ,V(n-28) ,V(n-31) ,V(n-34) ,V(n
-36) はそれぞれノートナンバーnの音を2倍音、3倍
音、4倍音、5倍音、6倍音、7倍音、8倍音と仮定し
たときの基本音の強度値を示している。結局、上記〔数
式4〕で算出される倍音分布パラメータPo(n)は、
0から11の範囲になるように規格化されており、自身
の整数倍の周波数の音が多く存在する場合、すなわち基
本音の場合には11に近い値となり、自身の整数分の1
の周波数の音が多く存在する場合、すなわち倍音の場合
には0に近い値となる。
In the above [Formula 4], V (n) represents the intensity value of the note number n, and V (n + 12), V (n + 19), V
(n + 24), V (n + 28), V (n + 31), V (n + 34), V (n + 36) are the second overtone, the third overtone, and the fourth overtone of the note number n, respectively.
The intensity value of the 5th overtone, 6th overtone, 7th overtone, and 8th overtone is V (n-12)
, V (n-19), V (n-24), V (n-28), V (n-31), V (n-34), V (n
-36) indicates the intensity value of the basic sound when the note number n is assumed to be the second overtone, the third overtone, the fourth overtone, the fifth overtone, the sixth overtone, the seventh overtone, and the eighth overtone, respectively. After all, the overtone distribution parameter Po (n) calculated by the above [Formula 4] is
It is standardized to fall within the range of 0 to 11, and when there are many sounds with frequencies that are integral multiples of itself, that is, in the case of basic sounds, the value is close to 11 and is a fraction of its own integer.
When there are many sounds with the frequency of, that is, in the case of overtones, the value is close to 0.

【0043】音響信号としてステレオ信号を利用した場
合には、上記ステップS1において各チャンネルからの
信号について周波数解析を行って音素データを算出す
る。そのため、各チャンネルについてM×N個の音素デ
ータが得られることになるが、各単位区間の開始点・終
了点・周波数については、同一であるので両チャンネル
の音素データをまとめ、各音素データの強度値としてL
(左)チャンネルからの強度値とR(右)チャンネルか
らの強度値をそれぞれVL 、VRとしてもつようにす
る。そして、ステップS2においては、単位音色パラメ
ータの1つとして、ステレオ定位パラメータPsを以下
の〔数式5〕により算出する。
When a stereo signal is used as the acoustic signal, frequency analysis is performed on the signal from each channel in step S1 to calculate phoneme data. Therefore, M × N pieces of phoneme data are obtained for each channel, but since the start point, the end point, and the frequency of each unit section are the same, the phoneme data of both channels are collected, and L as intensity value
The intensity value from the (left) channel and the intensity value from the R (right) channel are set as V L and V R , respectively. Then, in step S2, the stereo localization parameter Ps is calculated as one of the unit tone color parameters by the following [Formula 5].

【0044】 〔数式5〕 Ps(n) =6−6[{VL(n) - VR(n)}/VR(n) ]1/2 :VL(n) > VR(n)のとき =6+6[{VR(n) - VL(n)}/VL(n) ]1/2 :VR(n) > VL(n)のとき =6 :VR(n) = VL(n)のとき[0044] [Equation 5] Ps (n) = 6-6 [{ V L (n) - V R (n)} / V R (n)] 1/2: V L (n)> V R (n ) when = 6 + 6 [{V R (n) - V L (n)} / V L (n)] 1/2: when V R (n)> V L (n) = 6: V R (n ) = V L (n)

【0045】ステレオ定位パラメータPsは、〔数式
5〕で0から11の範囲になるように規格化されてお
り、あるノートナンバーの音について、左右のチャンネ
ルの強度値が同一の場合に最大値6をとり、左チャンネ
ルの強度値が右チャンネルの強度値に比べて大きい程、
0に近い値をとり、右チャンネルの強度値が左チャンネ
ルの強度値に比べて大きい程、11に近い値をとること
になる。一般に楽器音はボーカルに比べて、どちらかの
チャンネルに偏って記録されることが多いので、ステレ
オ定位パラメータPsの値が6から離れている場合に
は、楽器音であると判断することができる。
The stereo localization parameter Ps is standardized so as to fall within the range of 0 to 11 in [Equation 5], and the maximum value 6 is obtained when the intensity value of the left and right channels is the same for the sound of a certain note number. And the larger the intensity value of the left channel compared to the intensity value of the right channel,
It takes a value close to 0, and as the intensity value of the right channel is larger than the intensity value of the left channel, it takes a value closer to 11. In general, a musical instrument sound is often recorded biased to one of the channels as compared with vocals. Therefore, when the value of the stereo localization parameter Ps is far from 6, it can be determined to be a musical instrument sound. .

【0046】単位音色パラメータが算出されたら、同一
周波数で時系列方向に連続する複数の音素データを1つ
の連結音素データとして連結する(ステップS3)。な
お、この処理を行うために、上記ステップS1またはス
テップS2の処理過程において、強度値が所定の基準に
達しない音素データについては、あらかじめ削除してお
く。この場合、所定の基準としては、音がノイズ等であ
って対象とする演奏録音信号ではないと判断される程度
の基準を設定する。図6は音素データの連結を説明する
ための概念図である。図6(a)は連結前の音素データ
群の様子を示す図である。図6(a)において、格子状
に仕切られた各矩形は音素データを示しており、網掛け
がされている矩形は、上記ステップS3において強度値
が所定の基準に達しないために削除された音素データで
あり、その他の矩形は有効な音素データを示す。ステッ
プS3においては、同一周波数(同一ノートナンバー)
で時間t方向に連続する音素データを連結するため、図
6(a)に示す音素データ群に対して連結処理を実行す
ると、図6(b)に示すような連結音素データ群が得ら
れる。例えば、図6(a)に示した音素データA1、A
2、A3は連結されて、図6(b)に示すような連結音
素データAが得られることになる。このとき、新たに得
られる連結音素データAの周波数としては、音素データ
A1、A2、A3に共通の周波数が与えられ、強度値と
しては、音素データA1、A2、A3の強度値のうち最
大のものが与えられ、開始時刻としては、先頭の音素デ
ータA1の区間開始時刻t1が与えられ、終了時刻とし
ては、最後尾の音素データA3の区間終了時刻t4が与
えられる。音素データ、連結音素データ共に、周波数
(ノートナンバー)、強度値、開始時刻、終了時刻の4
つの情報で構成されるため、3つの音素データが1つの
連結音素データに統合されることにより、データ量は3
分の1に削減される。このことは、最終的にMIDI符
号化される場合には、短い音符3つではなく、長い音符
1つとして表現されることを意味している。
When the unit timbre parameters are calculated, a plurality of phoneme data which have the same frequency and are continuous in the time series direction are connected as one connected phoneme data (step S3). In order to perform this process, phoneme data whose intensity value does not reach a predetermined standard in the process of step S1 or step S2 is deleted in advance. In this case, as the predetermined reference, a reference is set to the extent that it is determined that the sound is noise or the like and is not the target performance recording signal. FIG. 6 is a conceptual diagram for explaining connection of phoneme data. FIG. 6A is a diagram showing a state of a phoneme data group before connection. In FIG. 6 (a), each of the rectangles partitioned in a grid shows phoneme data, and the shaded rectangles are deleted because the intensity value does not reach the predetermined standard in step S3. It is phoneme data, and other rectangles show valid phoneme data. In step S3, the same frequency (same note number)
In order to connect the phoneme data continuous in the time t direction, the concatenation process is performed on the phoneme data group shown in FIG. 6A to obtain a connected phoneme data group as shown in FIG. 6B. For example, the phoneme data A1 and A shown in FIG.
2 and A3 are connected to obtain connected phoneme data A as shown in FIG. 6 (b). At this time, a frequency common to the phoneme data A1, A2, A3 is given as the frequency of the newly obtained concatenated phoneme data A, and the intensity value is the maximum of the intensity values of the phoneme data A1, A2, A3. The section start time t1 of the first phoneme data A1 is given as the start time, and the section end time t4 of the last phoneme data A3 is given as the end time. For both phoneme data and concatenated phoneme data, frequency (note number), intensity value, start time, end time 4
Since three phoneme data are integrated into one concatenated phoneme data, the data amount is 3
It is reduced by a factor of 1. This means that, when finally encoded in MIDI, it is represented as one long note instead of three short notes.

【0047】さらに、ステップS3においては、連結の
元となった音素データのうち最大の強度値をもつ音素デ
ータの単位音色パラメータを、連結音素データの単位音
色パラメータとする。
Further, in step S3, the unit tone color parameter of the phoneme data having the maximum intensity value among the phoneme data which is the source of the connection is set as the unit tone color parameter of the connected phoneme data.

【0048】続いて、得られた連結音素データの構成要
素である開始時刻・終了時刻・周波数・強度値を利用し
て連結音色パラメータを算出する(ステップS4)。本
実施形態では、連結音色パラメータとして、レベル分布
パラメータPlを算出する。具体的には、各ノートナン
バーnに対応するレベル分布パラメータPl(n)は時
系列方向の強度値の分布を示すパラメータであり、1つ
の連結音素データに連結される元の単位音素データのう
ち、先行する単位音素データの強度値をVi、後続する
単位音素データの強度値をVi+1とすると、以下の〔数
式6〕により算出される。
Subsequently, the connected tone color parameters are calculated using the start time, end time, frequency, and intensity value, which are components of the obtained connected phoneme data (step S4). In this embodiment, the level distribution parameter Pl is calculated as the connected tone color parameter. Specifically, the level distribution parameter Pl (n) corresponding to each note number n is a parameter that indicates the distribution of intensity values in the time series direction, and is one of the original unit phoneme data that is connected to one connected phoneme data. , V i is the intensity value of the preceding unit phoneme data, and V i + 1 is the intensity value of the following unit phoneme data, the following formula 6 is calculated.

【0049】〔数式6〕 Pl(n)=36×Σi=0,I|Vi+1−Vi|×(ti+1
i)/ VmaxΣi=0,I(ti+1−ti
[Equation 6] Pl (n) = 36 × Σ i = 0, I | V i + 1 −V i | × (t i + 1
t i ) / V max Σ i = 0, I (t i + 1 −t i ).

【0050】上記〔数式6〕において、Iは1つの連結
音素データに連結されることになった基の音素データの
個数から1つ減じたものであり、tiは各音素データの
始点の時刻を示している。また、Vmaxは、V0〜VI
うち最大のものを示す。なお、先頭で36を乗じている
のは、Pl(n)の値を0から11の範囲に規格化する
ためである。算出された連結音色パラメータは連結音素
データの1要素として開始時刻・終了時刻・周波数・強
度値・単位音色の各パラメータに加えて付与されること
になる。
In the above [Equation 6], I is the number of the basic phoneme data to be connected to one concatenated phoneme data minus one, and t i is the time of the start point of each phoneme data. Is shown. Further, V max indicates the maximum value of V 0 to V I. The reason that 36 is multiplied at the beginning is to standardize the value of Pl (n) in the range of 0 to 11. The calculated concatenated tone color parameter is added as one element of the concatenated phoneme data in addition to the parameters of start time, end time, frequency, intensity value, and unit tone color.

【0051】連結音色パラメータが算出されたら、各連
結音素データに付与された単位音色パラメータおよび連
結音色パラメータを基に、各連結音素データを複数の音
色グループに分類する(ステップS5)。具体的には、
あらかじめ出力用のチャンネルごとに分類用の重み係数
を用意しておき、これらの重み係数と各音色パラメータ
を用いて、以下の〔数式7〕により、各連結音素データ
の各グループへの適正値を算出する。
When the connected tone color parameters are calculated, each connected phoneme data is classified into a plurality of tone color groups based on the unit tone color parameter and the connected tone color parameter given to each connected phoneme data (step S5). In particular,
A weighting coefficient for classification is prepared in advance for each output channel, and an appropriate value for each group of each concatenated phoneme data is calculated by the following [Equation 7] using these weighting coefficients and each timbre parameter. calculate.

【0052】〔数式7〕 Ch1=a1n+a2D+a3V+a4Py+a5Po+a6
Ps+a7Pl Ch2=b1n+b2D+b3V+b4Py+b5Po+b6
Ps+b7Pl Ch3=c1n+c2D+c3V+c4Py+c5Po+c6
Ps+c7Pl
[Equation 7] Ch1 = a 1 n + a 2 D + a 3 V + a 4 Py + a 5 Po + a 6
Ps + a 7 Pl Ch2 = b 1 n + b 2 D + b 3 V + b 4 Py + b 5 Po + b 6
Ps + b 7 Pl Ch3 = c 1 n + c 2 D + c 3 V + c 4 Py + c 5 Po + c 6
Ps + c 7 Pl

【0053】上記〔数式7〕において、a1・・・a7、b1
・・・b7、c1・・・c7は各連結音素データのノートナンバ
ー(周波数)、デュレーション(終了時刻−開始時
刻)、ベロシティ(強度)、ゆらぎ分布パラメータ、倍
音分布パラメータ、ステレオ定位パラメータ、レベル分
布パラメータからなる7つのパラメータに対応する分類
用の重み係数である。〔数式7〕において、Ch1、C
h2、Ch3は分類されるグループ番号であり、MID
I規格に符号化を行う場合にはチャンネルに対応してい
る。各連結音素データは、自身の適正値が最大となるグ
ループに分類されることになる。例えば、重み係数a1
・・a7をピアノ、b1・・・b7をピアノとボーカルの混合、
1・・・c7をボーカルの特性に合わせた値に設定した場
合、ピアノの特性を有する連結音素データではCh1の
値が大きくなり、ピアノとボーカルの混合音の特性を有
する連結音素データではCh2の値が大きくなり、ボー
カルの特性を有する連結音素データではCh3の値が大
きくなり、Ch1・Ch2・Ch3の値比率から3種類
に分類されることになる。Ch1・Ch2・Ch3のい
ずれの値も顕著に大きくならない場合は、設定した重み
係数では分類不能な連結音素データである。このように
多数の変量を用いた解析は多変量解析と呼ばれる。
In the above [Formula 7], a 1 ... A 7 , b 1
··· b 7, c 1 ··· c 7 each connecting phoneme data note number (frequency), duration (end time - starting time), velocity (intensity), fluctuation distribution parameters, harmonic distribution parameter, stereo position parameters , Are weighting factors for classification corresponding to seven parameters including level distribution parameters. In [Formula 7], Ch1, C
h2 and Ch3 are classified group numbers, and MID
When encoding to the I standard, it corresponds to the channel. Each piece of connected phoneme data will be classified into a group in which its proper value is maximum. For example, the weighting coefficient a 1
The ·· a 7 piano, b 1 ··· b 7 mixture of piano and vocals,
When c 1 ... c 7 is set to a value matched to the vocal characteristic, the value of Ch1 becomes large in the connected phoneme data having the characteristic of piano, and the value of Ch1 becomes large in the connected phoneme data having the characteristic of the mixed sound of piano and vocal. The value of Ch2 becomes large, and the value of Ch3 becomes large in the concatenated phoneme data having the vocal characteristic, and the value is classified into three types from the value ratio of Ch1, Ch2, and Ch3. When none of the values of Ch1, Ch2, and Ch3 is significantly increased, the phoneme data is unclassifiable by the set weighting factor. Analysis using a large number of variables in this way is called multivariate analysis.

【0054】上述のように音響信号としては、広く普及
しているMIDI規格に変換することが好ましい。この
場合、上記連結音素データはMIDI符号データに変換
されることになるが、上記ステップS5における複数の
グループへの分類をMIDI符号データへの変換後に行
うようにしても良い。
As described above, it is preferable that the audio signal is converted into the widely used MIDI standard. In this case, the concatenated phoneme data is converted into MIDI code data, but classification into a plurality of groups in step S5 may be performed after conversion into MIDI code data.

【0055】(3.2.他の実施形態)上記第1の実施形態
では、全ての処理をコンピュータ等の演算処理装置によ
り行うようにしたが、音響信号から得られた連結音素デ
ータの状態を確認しながら、オペレータが、各音色パラ
メータの具体的な閾値を決定するようにすることも可能
である。ここでは、このような第2の実施形態について
説明する。本発明の第2の実施形態のフローチャートを
図7に示す。図7に示すように、第2の実施形態におい
ても、ステップS4の連結音色パラメータの算出処理ま
では、第1の実施形態と同様に行われる。第2の実施形
態では、連結音色パラメータが算出されたら、連結音素
データの分類先であるグループを指定する(ステップS
11)。例えば、「ピアノのグループ」、「ボーカルの
グループ」などと指定する。既にMIDI変換を行った
後でステップS11以降の処理を行う場合には、グルー
プとして符号データの記録先であるチャンネルを指定す
ることになる。例えば、ピアノの音を記録するチャンネ
ル、ボーカルの音を記録するチャンネルを指定する。例
えば、チャンネルch1にピアノの音を記録させようと
考えている場合には、ch1を指定し、GM(General
MIDI)規格に基づいて、ピアノのプログラム番号である
「1」をch1に設定する。
(3.2. Other Embodiments) In the first embodiment, all processing is performed by the arithmetic processing unit such as a computer, but the state of the connected phoneme data obtained from the acoustic signal is confirmed. However, it is also possible for the operator to determine a specific threshold value for each timbre parameter. Here, such a second embodiment will be described. A flow chart of the second embodiment of the present invention is shown in FIG. As shown in FIG. 7, also in the second embodiment, the process up to the calculation of the connected tone color parameter in step S4 is performed in the same manner as in the first embodiment. In the second embodiment, when the connected tone color parameters are calculated, a group that is a classification destination of the connected phoneme data is designated (step S
11). For example, "piano group", "vocal group", etc. are designated. In the case where the process after step S11 is performed after the MIDI conversion has already been performed, the channel which is the recording destination of the code data is designated as the group. For example, a channel for recording a piano sound and a channel for recording a vocal sound are designated. For example, when recording a piano sound on channel ch1, ch1 is specified and GM (General
Based on the MIDI standard, set the program number "1" of the piano to ch1.

【0056】続いて、指定されたグループに連結音素デ
ータを分類させるための、各音色パラメータの閾値を設
定する(ステップS12)。この設定のために、まずデ
ィスプレイ装置に図8に示すような連結音素データ表示
画面を表示させる。図8において、横軸は時刻、縦軸は
音階(MIDI規格のノートナンバー)である。縦軸に
ついては、左端に鍵盤を示し、鍵盤の各キーが1つのノ
ートナンバーに対応している。このような画面におい
て、各連結音素データは矩形として表示される。連結音
素データを示す矩形は、その左端位置が開始時刻、右端
位置が終了時刻、上端位置が音階、上下の長さが強度値
を示している。
Then, threshold values of each tone color parameter for classifying the connected phoneme data into the designated group are set (step S12). For this setting, first, a connected phoneme data display screen as shown in FIG. 8 is displayed on the display device. In FIG. 8, the horizontal axis represents time and the vertical axis represents scale (MIDI standard note number). On the vertical axis, the keyboard is shown at the left end, and each key on the keyboard corresponds to one note number. On such a screen, each connected phoneme data is displayed as a rectangle. In the rectangle indicating the concatenated phoneme data, the left end position indicates the start time, the right end position indicates the end time, the upper end position indicates the scale, and the upper and lower lengths indicate the intensity value.

【0057】図8に示す連結音素データ表示画面におい
ては、各連結音素データを表わす矩形が色分け表示され
る。色分けの数は、必要に応じて設定することができる
が、本実施形態では、最大12色の表示を可能としてい
る。実際には、閾値を1つ指定すると、閾値未満(0か
ら閾値−1)または閾値以上(閾値から11)の範囲内
の音色パラメータをもつ連結音素データが抽出され、閾
値を2つ指定すると2つの閾値の範囲内の音色パラメー
タをもつ連結音素データが抽出される。また、2つの閾
値がたとえば「10と1」のように終点が始点より小さ
い値が設定された場合には、「10、11、0、1」を
指定したものと解釈される。そして抽出した連結音素デ
ータとそれ以外の連結音素データを2つのチャンネルに
分類するように設定し、表示画面の色分けモードをチャ
ンネルに設定すれば、連結音素データが2色に色分け表
示される。このとき、全ての連結音素データと抽出した
連結音素データという具合に重複させて2つのチャンネ
ルに分類させてもよい。連結音素データ表示画面を利用
した具体的な閾値の設定方法としては、音色パラメータ
の種類を指定した後、音色パラメータの閾値を設定す
る。このとき、音色パラメータが0〜11の値をとるよ
うにしておけば、音色パラメータの閾値に応じた色分け
表示を行うことができる。
On the connected phoneme data display screen shown in FIG. 8, rectangles representing the connected phoneme data are displayed in different colors. The number of colors can be set as necessary, but in the present embodiment, a maximum of 12 colors can be displayed. Actually, when one threshold value is specified, the connected phoneme data having the tone color parameter within the range of less than the threshold value (0 to threshold value −1) or more than the threshold value (threshold value to 11) is extracted. Connected phoneme data having timbre parameters within one threshold range is extracted. Further, if the two threshold values are set such that the end point is smaller than the start point, such as "10 and 1," it is interpreted that "10, 11, 0, 1" is designated. If the extracted connected phoneme data and the other connected phoneme data are set to be classified into two channels and the color-coding mode of the display screen is set to the channel, the connected phoneme data is displayed in two colors. At this time, all the connected phoneme data and the extracted connected phoneme data may be overlapped and classified into two channels. As a concrete threshold value setting method using the connected phoneme data display screen, the threshold value of the tone color parameter is set after the type of the tone color parameter is designated. At this time, if the tone color parameters have values of 0 to 11, it is possible to perform color-coded display according to the tone color parameter threshold value.

【0058】例えば、音色パラメータとして、ゆらぎ分
布パラメータを設定し、閾値を「6未満」に設定した場
合、連結音素データ表示画面には、ゆらぎ分布パラメー
タの値が6以上(6〜11)であるか、6未満(0〜
5)であるかによって2色に色分けされることになる。
例えば、ゆらぎ分布パラメータの値が6未満の連結音素
データは赤(ピアノ)、ゆらぎ分布パラメータの値が6
以上の連結音素データは青(ピアノ以外、例えばボーカ
ル)で表示される。ここで、オペレータは連結音素デー
タを表現した矩形の形状・位置・並びの状態を見なが
ら、ピアノ音の形状・位置・並びの様相を呈する連結音
素データが青で表示されていたりしないかどうかを確認
する。もし、形状・位置・並びの状態と表示されている
色の状態が一致しない場合は、ゆらぎ分布パラメータの
値を変更して再度色分け表示を行う。このようにして閾
値の変更と色分け表示を繰返し、ピアノ音の形状・位置
・並びの状態と表示されている色の状態が一致したら、
ゆらぎ分布パラメータの閾値を決定し、その閾値未満を
ピアノ音を記録するためのチャンネルであるch1に取
り込むよう設定する。
For example, when the fluctuation distribution parameter is set as the timbre parameter and the threshold value is set to "less than 6," the value of the fluctuation distribution parameter is 6 or more (6 to 11) on the connected phoneme data display screen. Or less than 6 (0 to
Depending on whether it is 5), it will be divided into two colors.
For example, connected phoneme data having a fluctuation distribution parameter value of less than 6 is red (piano), and the fluctuation distribution parameter value is 6
The above connected phoneme data is displayed in blue (other than piano, for example, vocal). Here, the operator looks at the shape, position, and arrangement of the rectangle that represents the connected phoneme data, and checks whether the connected phoneme data showing the shape, position, and arrangement of the piano sound is displayed in blue. Check. If the shape / position / arrangement state does not match the displayed color state, the value of the fluctuation distribution parameter is changed and color-coded display is performed again. In this way, changing the threshold and repeating the color-coded display, if the state of the shape, position, and arrangement of the piano sounds and the state of the displayed color match,
The threshold value of the fluctuation distribution parameter is determined, and a value less than the threshold value is set to be taken into ch1 which is a channel for recording a piano sound.

【0059】同様にして倍音分布パラメータ、ステレオ
定位パラメータ等の他の単位音色パラメータ、および連
結音色パラメータであるレベル分布パラメータについて
も色分け表示を行いながら、閾値を決定していく。この
ようにして1つのチャンネルについて閾値が指定された
最大4つのパラメータの論理和により分類される連結音
素データが決定される。さらに、他のチャンネルについ
ても同様に音色パラメータの閾値の設定を行っていく。
Similarly, the threshold values are determined while color-coded display is performed for other unit tone color parameters such as overtone distribution parameters, stereo localization parameters, and level distribution parameters that are connected tone color parameters. In this way, the concatenated phoneme data classified by the logical sum of the maximum four parameters with the threshold value specified for one channel is determined. Further, the thresholds of the tone color parameters are similarly set for the other channels.

【0060】各グループ(MIDIの場合はチャンネ
ル)に分類すべき音色パラメータが設定されたら、コン
ピュータ等の演算処理装置は、各連結音素データが有す
る音色パラメータの値に従って、各連結音素データを各
グループに分類する処理を行う(ステップS13)。上
述の例のように既にMIDIに変換されている場合に
は、設定されたチャンネルに記録されることになる。そ
して、各チャンネルにはMIDI音源で適切な音色で再
生されるように、MIDI規格に基づいたプログラム番
号、バンク番号といった音色指示情報が付加されること
になる。各連結音素データは、各グループごとに設定さ
れた音色パラメータに基づいて分類されるため、複数の
グループに分類される場合もあり、従来のように、1つ
の連結音素データが必ずどれか1つのグループだけに分
類されるということはなくなる。
When the tone color parameters to be classified into each group (channel in the case of MIDI) are set, the arithmetic processing unit such as a computer sets each connected phoneme data into each group according to the value of the tone color parameter included in each connected phoneme data. The process of classifying into is performed (step S13). If it has already been converted to MIDI as in the above example, it will be recorded in the set channel. Then, tone color instruction information such as a program number and a bank number based on the MIDI standard is added to each channel so that a proper tone color can be reproduced by a MIDI sound source. Since each concatenated phoneme data is classified based on the tone color parameter set for each group, it may be classified into a plurality of groups. It will no longer be grouped alone.

【0061】以上、本発明の好適な実施形態について説
明したが、上記符号化方法は、コンピュータ等で実行さ
れることは当然である。具体的には、図5のフローチャ
ートに示したようなステップを上記手順で実行するため
のプログラムをコンピュータに搭載しておく。そして、
音響信号をPCM方式等でデジタル化した後、コンピュ
ータに取り込み、ステップS1〜ステップS5の処理を
行った後、MIDI形式等の符号データをコンピュータ
より出力する。出力された符号データは、例えば、MI
DIデータの場合、MIDIシーケンサ、MIDI音源
を用いて音響信号として再生される。特に、第2の実施
形態では、連結音素データ表示画面を表示するためのデ
ィスプレイ装置、パラメータの閾値を設定するための指
示入力機器が接続されたコンピュータを必要とする。第
2の実施形態においては、コンピュータは搭載されてい
るプログラムに従ってステップS1〜ステップS4の処
理を実行した後、ステップS11における連結音素デー
タの分類先であるグループの指定を受け付け、ステップ
S12において設定された各音色パラメータの閾値を受
け付け、受け付けたグループおよびパラメータに基づい
て、ステップS13の処理、すなわち各連結音素データ
を各グループに分類する処理を行う。
Although the preferred embodiments of the present invention have been described above, it goes without saying that the above encoding method is executed by a computer or the like. Specifically, a program for executing the steps shown in the flowchart of FIG. 5 in the above procedure is installed in the computer. And
After the audio signal is digitized by the PCM method or the like, the audio signal is taken into the computer, the processes of steps S1 to S5 are performed, and then the code data in the MIDI format or the like is output from the computer. The output code data is, for example, MI
In the case of DI data, it is reproduced as an acoustic signal using a MIDI sequencer and MIDI sound source. In particular, the second embodiment requires a display device for displaying a concatenated phoneme data display screen and a computer to which an instruction input device for setting a threshold value of a parameter is connected. In the second embodiment, the computer executes the processes of steps S1 to S4 in accordance with the installed program, receives the designation of the group as the classification destination of the concatenated phoneme data in step S11, and sets in step S12. The threshold value of each tone color parameter is accepted, and the process of step S13, that is, the process of classifying each connected phoneme data into each group is performed based on the accepted group and parameter.

【0062】[0062]

【発明の効果】以上、説明したように本発明によれば、
与えられた音響信号に対して周波数解析を行って開始時
刻・終了時刻・周波数・強度で構成される時系列の音素
データに分解し、各音素データに対して同一開始時刻お
よび同一終了時刻で周波数が異なる他の音素データの分
布状態を基に単位音色パラメータを算出して各音素デー
タに付与し、各音素データのなかで時間的に連続する複
数の音素データの周波数が類似していて先行する音素デ
ータの終了時刻と後続する単位音素データの開始時刻が
類似している場合、先行する音素データと後続する音素
データを1つの連結音素データに統合させ、先行する音
素データの開始時刻、後続する音素データの終了時刻、
および先行する音素データまたは後続する音素データの
いずれかの周波数・強度値・単位音色の各パラメータで
構成される連結音素データを生成し、各連結音素データ
に対して、構成される複数の音素データの周波数・強度
値の分布状態を基に連結音色パラメータを算出して各連
結音素データに付与し、各連結音素データの少なくとも
単位音色パラメータおよび連結音色パラメータを含む複
数のパラメータを基に、各連結音素データを複数の音色
グループに分類することにより、開始時刻・終了時刻・
周波数・強度値・音色グループで構成される符号データ
を得るようにしたので、複数の音色が混合された音響信
号を2つ以上の音色として分離することが可能となると
いう効果を奏する。
As described above, according to the present invention,
Frequency analysis is performed on a given acoustic signal and decomposed into time-series phoneme data consisting of start time, end time, frequency, and intensity, and frequency is calculated for each phoneme data at the same start time and end time. Unit tone color parameters are calculated based on the distribution state of other phoneme data different from each other and given to each phoneme data, and the frequency of a plurality of time-continuous phoneme data in each phoneme data is similar and precedes. When the end time of the phoneme data is similar to the start time of the subsequent unit phoneme data, the preceding phoneme data and the following phoneme data are integrated into one concatenated phoneme data, and the start time of the preceding phoneme data and the following End time of phoneme data,
And connected phoneme data that is composed of each parameter of the frequency, intensity value, and unit tone color of either the preceding phoneme data or the following phoneme data, and a plurality of phoneme data that is configured for each connected phoneme data. The connected tone color parameters are calculated based on the distribution state of the frequency / intensity values of each and are given to each connected phoneme data, and based on the plurality of parameters including at least the unit tone color parameter and the connected tone color parameter of each connected phoneme data, By classifying phoneme data into multiple timbre groups, start time, end time,
Since the code data composed of the frequency, the intensity value, and the tone color group is obtained, it is possible to separate the acoustic signal in which a plurality of tone colors are mixed into two or more tone colors.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の音響信号の符号化方法の基本原理を示
す図である。
FIG. 1 is a diagram showing a basic principle of an audio signal encoding method of the present invention.

【図2】本発明で利用される周期関数の一例を示す図で
ある。
FIG. 2 is a diagram showing an example of a periodic function used in the present invention.

【図3】解析対象となる信号と周期信号との相関計算の
手法を示す図である。
FIG. 3 is a diagram showing a method of calculating a correlation between a signal to be analyzed and a periodic signal.

【図4】一般化調和解析の基本的な手法を示す図であ
る。
FIG. 4 is a diagram showing a basic method of generalized harmonic analysis.

【図5】本発明に係る音響信号の符号化方法の第1の実
施形態を示すフローチャートである。
FIG. 5 is a flowchart showing a first embodiment of an audio signal encoding method according to the present invention.

【図6】音素データの連結を説明するための概念図であ
る。
FIG. 6 is a conceptual diagram for explaining connection of phoneme data.

【図7】本発明に係る音響信号の符号化方法の第2の実
施形態を示すフローチャートである。
FIG. 7 is a flowchart showing a second embodiment of an audio signal encoding method according to the present invention.

【図8】連結音素データ表示画面を示す図である。FIG. 8 is a diagram showing a connected phoneme data display screen.

【符号の説明】[Explanation of symbols]

A1〜A3・・・音素データ A・・・連結音素データ d,d1〜d5・・・単位区間 G(j)・・・含有信号 n ・・・ノートナンバー S(j),S(j+1)・・・差分信号 X,X(k)・・・区間信号 A1 to A3 ... Phoneme data A: Connected phoneme data d, d1 to d5 ... Unit section G (j) ... Inclusion signal n ・ ・ ・ Note number S (j), S (j + 1) ... Difference signal X, X (k) ... Section signal

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】与えられた音響信号に対して周波数解析を
行って、開始時刻・終了時刻・周波数・強度で構成され
る時系列の音素データに分解するための音素データ生成
段階と、 前記各音素データに対して、同一開始時刻および同一終
了時刻で周波数が異なる他の音素データの分布状態を基
に単位音色パラメータを算出し、前記各音素データに付
与する単位音色パラメータ算出段階と、 前記各音素データのなかで時間的に連続する複数の音素
データの周波数が類似していて先行する音素データの終
了時刻と後続する単位音素データの開始時刻が類似して
いる場合、先行する音素データと後続する音素データを
1つの連結音素データに統合させ、先行する音素データ
の開始時刻、後続する音素データの終了時刻、および先
行する音素データまたは後続する音素データいずれかの
周波数・強度値・単位音色の各パラメータで構成される
連結音素データを生成する音素連結段階と、 前記各連結音素データに対して、構成される複数の音素
データの周波数・強度値の分布状態を基に連結音色パラ
メータを算出し、前記各連結音素データに付与する連結
音色パラメータ算出段階と、 前記各連結音素データの少なくとも単位音色パラメータ
および連結音色パラメータを含む複数のパラメータを基
に、前記各連結音素データを複数の音色グループに分類
する音素分類段階と、を有し、 開始時刻・終了時刻・周波数・強度値・前記分類された
音色グループで構成される符号データにより音響信号を
符号化することを特徴とする音響信号の符号化方法。
1. A phoneme data generation step for performing frequency analysis on a given acoustic signal to decompose into time-series phoneme data composed of start time, end time, frequency, and intensity, and With respect to the phoneme data, a unit tone color parameter is calculated based on a distribution state of other phoneme data having different frequencies at the same start time and the same end time, and a unit tone color parameter calculation step is given to each of the phoneme data, When the frequencies of a plurality of phoneme data consecutive in time among the phoneme data are similar and the end time of the preceding phoneme data is similar to the start time of the following unit phoneme data, the preceding phoneme data and the subsequent phoneme data are succeeded. Phoneme data to be combined into one concatenated phoneme data, and the start time of the preceding phoneme data, the end time of the following phoneme data, and the preceding phoneme data or A phoneme concatenation step of generating concatenated phoneme data composed of each frequency / intensity value / unit timbre parameter of any of the following phoneme data, and a frequency of a plurality of phoneme data constituted for each concatenated phoneme data. A connected tone color parameter calculation step of calculating a connected tone color parameter based on a distribution state of intensity values and giving it to each connected phoneme data, and a plurality of parameters including at least a unit tone color parameter and a connected tone color parameter of each connected phoneme data A phoneme classification step of classifying each of the concatenated phoneme data into a plurality of tone color groups on the basis of, and a code data composed of the start time, end time, frequency, intensity value, and the classified tone color group. An encoding method for an acoustic signal, comprising encoding an acoustic signal.
【請求項2】前記音響信号が少なくともLチャンネルと
Rチャンネルをもつステレオ信号であって、前記音素デ
ータ生成段階が開始時刻・終了時刻・周波数・Lチャン
ネルに対応する強度値・Rチャンネルに対応する強度値
で構成される音素データに分解するものであり、 前記単位音色パラメータ算出段階が、単位音色パラメー
タとして強度値Lと強度値Rの比率を与えると共に、音
素データの強度値としていずれかの強度値を代表させて
与えるものであることを特徴とする請求項1に記載の音
響信号の符号化方法。
2. The acoustic signal is a stereo signal having at least L channel and R channel, and the phoneme data generating step corresponds to start time, end time, frequency, intensity value corresponding to L channel, and R channel. The unit timbre parameter calculating step gives a ratio of the strength value L and the strength value R as a unit timbre parameter, and the strength value of the phoneme data is either strength. The method for encoding an acoustic signal according to claim 1, wherein the value is given as a representative.
【請求項3】前記音素分類段階が、各連結音素データを
複数の音色グループに分類する際、音色グループの境界
に位置する連結音素データに対しては、複数の音色グル
ープに属させるようにしていることを特徴とする請求項
1に記載の音響信号の符号化方法。
3. The phoneme classifying step, when classifying each concatenated phoneme data into a plurality of tone color groups, causes the concatenated phoneme data located at the boundary of the tone color groups to belong to a plurality of tone color groups. The method for encoding an acoustic signal according to claim 1, wherein
【請求項4】前記音素分類段階が、各連結音素データの
少なくとも単位音色パラメータおよび連結音色パラメー
タを含む複数のパラメータを基に多変量解析を行い、い
ずれかの音色グループに分類するものであることを特徴
とする請求項1に記載の音響信号の符号化方法。
4. The phoneme classification step performs a multivariate analysis based on a plurality of parameters including at least a unit tone color parameter and a connected tone color parameter of each connected phoneme data, and classifies into any tone color group. The method for encoding an acoustic signal according to claim 1, wherein:
【請求項5】前記音素分類段階が、各連結音素データを
ディスプレイ装置にグラフィック表示させると共に、各
連結音素データを選択された音色パラメータの閾値に従
って色分け表示し、指定された音色パラメータの閾値に
基づいて各連結音素データを複数の音色グループに分類
するものであることを特徴とする請求項1に記載の音響
信号の符号化方法。
5. The phoneme classifying step graphically displays each concatenated phoneme data on a display device, displays each concatenated phoneme data by color according to a threshold value of a selected tone color parameter, and based on a specified threshold value of the tone color parameter. 2. The method of encoding an acoustic signal according to claim 1, wherein each concatenated phoneme data is classified into a plurality of tone color groups.
【請求項6】前記単位音色パラメータ算出段階が、同一
開始時刻および同一終了時刻で周波数が近傍である音素
データの強度値分布を基に、単位音色パラメータを算出
するものであることを特徴とする請求項1に記載の音響
信号の符号化方法。
6. The unit timbre parameter calculating step calculates a unit timbre parameter based on intensity value distributions of phoneme data having frequencies close to each other at the same start time and the same end time. The method for encoding an acoustic signal according to claim 1.
【請求項7】前記単位音色パラメータ算出段階が、同一
開始時刻および同一終了時刻で周波数が整数倍または整
数分の1になる音素データの強度値分布を基に、単位音
色パラメータを算出するものであることを特徴とする請
求項1に記載の音響信号の符号化方法。
7. The unit tone color parameter calculating step calculates a unit tone color parameter based on the intensity value distribution of the phoneme data whose frequency becomes an integral multiple or an integer fraction at the same start time and the same end time. The audio signal encoding method according to claim 1, wherein the audio signal encoding method is provided.
【請求項8】前記連結音色パラメータ算出段階が、1つ
の連結音素データを構成する複数の音素データのうち時
間的に隣接する音素データの開始時刻の間隔に対する強
度値変化分の比率の分布状態を基に連結音色パラメータ
を算出するものであることを特徴とする請求項1に記載
の音響信号の符号化方法。
8. The connected tone color parameter calculating step calculates a distribution state of a ratio of a change in intensity value with respect to an interval of start times of phoneme data which are temporally adjacent to each other among a plurality of phoneme data constituting one connected phoneme data. 2. The method of encoding an acoustic signal according to claim 1, wherein the connection tone color parameter is calculated based on the basis.
JP2002009263A 2002-01-17 2002-01-17 Encoding method of acoustic signal Withdrawn JP2003216147A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002009263A JP2003216147A (en) 2002-01-17 2002-01-17 Encoding method of acoustic signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002009263A JP2003216147A (en) 2002-01-17 2002-01-17 Encoding method of acoustic signal

Publications (1)

Publication Number Publication Date
JP2003216147A true JP2003216147A (en) 2003-07-30

Family

ID=27647305

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002009263A Withdrawn JP2003216147A (en) 2002-01-17 2002-01-17 Encoding method of acoustic signal

Country Status (1)

Country Link
JP (1) JP2003216147A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009053088A (en) * 2007-08-28 2009-03-12 Mitsubishi Electric Corp Signal separation device
JP2009258291A (en) * 2008-04-15 2009-11-05 Yamaha Corp Sound data processing device and program
JP2010197605A (en) * 2009-02-24 2010-09-09 Dainippon Printing Co Ltd Phoneme code correcting device, phoneme code database, and voice synthesizer
JP2012053392A (en) * 2010-09-03 2012-03-15 Yamaha Corp Musical tone editing device and program
JP2012249048A (en) * 2011-05-27 2012-12-13 Yamaha Corp Acoustic processing device

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009053088A (en) * 2007-08-28 2009-03-12 Mitsubishi Electric Corp Signal separation device
JP2009258291A (en) * 2008-04-15 2009-11-05 Yamaha Corp Sound data processing device and program
JP2010197605A (en) * 2009-02-24 2010-09-09 Dainippon Printing Co Ltd Phoneme code correcting device, phoneme code database, and voice synthesizer
JP2012053392A (en) * 2010-09-03 2012-03-15 Yamaha Corp Musical tone editing device and program
JP2012249048A (en) * 2011-05-27 2012-12-13 Yamaha Corp Acoustic processing device

Similar Documents

Publication Publication Date Title
US7582824B2 (en) Tempo detection apparatus, chord-name detection apparatus, and programs therefor
KR100455752B1 (en) Method for analyzing digital-sounds using sounds of instruments, or sounds and information of music notes
CN112382257B (en) Audio processing method, device, equipment and medium
JP4132362B2 (en) Acoustic signal encoding method and program recording medium
JP2003216147A (en) Encoding method of acoustic signal
JP2000293188A (en) Chord real time recognizing method and storage medium
JP2000099009A (en) Acoustic signal coding method
JP4156252B2 (en) Method for encoding an acoustic signal
JP4695781B2 (en) Method for encoding an acoustic signal
JP4331289B2 (en) Method for encoding an acoustic signal
JP2001005450A (en) Method of encoding acoustic signal
JP4220108B2 (en) Acoustic signal coding system
JP3776782B2 (en) Method for encoding an acoustic signal
JP2002215142A (en) Encoding method for acoustic signal
JP3935745B2 (en) Method for encoding acoustic signal
JP4268328B2 (en) Method for encoding an acoustic signal
JP2002244691A (en) Encoding method for sound signal
JP2002123296A (en) Method for encoding acoustic signals and method for separating acoustic signals
JP4156269B2 (en) Frequency analysis method for time series signal and encoding method for acoustic signal
JP4473979B2 (en) Acoustic signal encoding method and decoding method, and recording medium storing a program for executing the method
JP4156268B2 (en) Frequency analysis method for time series signal and encoding method for acoustic signal
JP4697919B2 (en) Method for encoding an acoustic signal
JP4662407B2 (en) Frequency analysis method
JP4601865B2 (en) Method for encoding an acoustic signal
JP2003084799A (en) Frequency analysis method and sound signal encoding method

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050405