JP6263382B2 - Audio signal processing apparatus, audio signal processing apparatus control method, and program - Google Patents
Audio signal processing apparatus, audio signal processing apparatus control method, and program Download PDFInfo
- Publication number
- JP6263382B2 JP6263382B2 JP2013268963A JP2013268963A JP6263382B2 JP 6263382 B2 JP6263382 B2 JP 6263382B2 JP 2013268963 A JP2013268963 A JP 2013268963A JP 2013268963 A JP2013268963 A JP 2013268963A JP 6263382 B2 JP6263382 B2 JP 6263382B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrogram
- sound
- unit
- instrument
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 143
- 238000012545 processing Methods 0.000 title claims description 143
- 230000005236 sound signal Effects 0.000 title claims description 47
- 238000009527 percussion Methods 0.000 claims description 153
- 238000000926 separation method Methods 0.000 claims description 48
- 230000001360 synchronised effect Effects 0.000 claims description 46
- 239000000284 extract Substances 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 description 48
- 238000010586 diagram Methods 0.000 description 27
- 238000000605 extraction Methods 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 239000002131 composite material Substances 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 4
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 239000011295 pitch Substances 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 239000012636 effector Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001342895 Chorus Species 0.000 description 1
- 241001647280 Pareques acuminatus Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Landscapes
- Auxiliary Devices For Music (AREA)
Description
本発明は、楽曲中の楽器音を抽出する音声信号処理装置、音声信号処理装置の制御方法、プログラムに関する。 The present invention relates to an audio signal processing device for extracting musical instrument sounds in music, a control method for the audio signal processing device, and a program.
従来、楽曲中の各楽器の音を抽出する方法として、アイソレータ(バンド分割フィルタを用いたイコライザの一種)を用いた方法が知られている。ところが、アイソレータを用いて中域のレベルを下げると、打楽器の場合、バスドラム、スネアドラム、ハイハットの音が同時に削れてしまう。つまり、スネアドラムだけの減衰、またはハイハットだけの減衰など、楽器別の制御はできない。 Conventionally, a method using an isolator (a kind of equalizer using a band division filter) is known as a method for extracting the sound of each instrument in a music piece. However, if the level of the mid range is lowered using an isolator, the bass drum, snare drum, and hi-hat sounds are simultaneously cut off in the case of percussion instruments. In other words, it is not possible to control by instrument such as the attenuation of only the snare drum or the attenuation of only the hi-hat.
これに対し、楽曲中の楽器音を抽出する技術として、特許文献1ないし特許文献3が知られている。特許文献1は、スペクトログラムとテンプレート(プロファイルスペクトル)を照合することにより、バスドラムやハイハットなどの打楽器音と、非打楽器音を分離・抽出する。また、特許文献2は、テンプレートや反復推定を用いることなく、スペクトログラムの周波数と時間方向の成分の異方性に着目して、打楽器音と非打楽器音を分離・抽出する。また、特許文献3は、混合音から楽器音を分離するものであり、特定の楽器音を模擬した特定音を出力する音源モジュールの音をテンプレートとして分離音を生成する。
On the other hand,
ところが、特許文献1および特許文献3の技術は、事前情報としてテンプレートが必要となる。また、特許文献2の技術は、打楽器音と非楽器音とを分離することができるものの、打楽器ごとのスペクトログラム形状を推定できるものではない。
However, the techniques of
本発明は、上記の問題点に鑑み、テンプレートを用いることなく、打楽器ごとのスペクトログラム形状を推定可能な音声信号処理方法、音声信号処理装置およびプログラムを提供することを目的とする。 In view of the above problems, an object of the present invention is to provide an audio signal processing method, an audio signal processing apparatus, and a program that can estimate a spectrogram shape for each percussion instrument without using a template.
本発明の音声信号処理装置は、所定の発音区間から、任意の楽器の周波数スペクトログラムである第1スペクトログラムを特定する第1特定部と、所定の発音区間から、第1スペクトログラムとの相関値に基づいて、任意の楽器と同一楽器の周波数スペクトログラムである第2スペクトログラムを特定する第2特定部と、第1スペクトログラムと第2スペクトログラムの共通成分を抽出する同期減算部と、を備えたことを特徴とする。 The audio signal processing device according to the present invention is based on a first specifying unit that specifies a first spectrogram that is a frequency spectrogram of an arbitrary instrument from a predetermined sounding section, and a correlation value between the predetermined sounding section and the first spectrogram. And a second specifying unit for specifying a second spectrogram, which is a frequency spectrogram of the same instrument as an arbitrary instrument, and a synchronous subtracting unit for extracting a common component of the first spectrogram and the second spectrogram. To do.
上記の音声信号処理装置において、第2特定部は、所定の発音区間に、任意の楽器と同一楽器の周波数スペクトログラムが複数存在する場合、第1スペクトログラムと最も相関値が高い周波数スペクトログラムを第2スペクトログラムとして特定することを特徴とする。 In the audio signal processing apparatus, the second specifying unit, when there are a plurality of frequency spectrograms of the same instrument as an arbitrary instrument in a predetermined tone generation section, obtains a frequency spectrogram having the highest correlation value with the first spectrogram. It is characterized by specifying as.
上記の音声信号処理装置において、所定の発音区間に、任意の楽器の周波数スペクトログラムがL個(但し、Lは、L≧2となる整数)存在する場合、同期減算部により抽出されたL個の共通成分を平均化して、共通スペクトログラムを算出する同期加算部をさらに備えたことを特徴とする。 In the above audio signal processing apparatus, when there are L frequency spectrograms of an arbitrary musical instrument in a predetermined sound generation section (where L is an integer satisfying L ≧ 2), L pieces of sound extracted by the synchronous subtraction unit It further includes a synchronous adder that averages the common components and calculates a common spectrogram.
上記の音声信号処理装置において、所定の発音区間に存在する、任意の楽器のL個の周波数スペクトログラムを、同期加算部により算出された共通スペクトログラムに置き換えることにより、任意の楽器の同期処理済み音源を生成する音源生成部をさらに備えたことを特徴とする。 In the above audio signal processing apparatus, by replacing the L frequency spectrograms of an arbitrary musical instrument existing in a predetermined sound generation section with the common spectrogram calculated by the synchronous addition unit, the synchronously processed sound source of the arbitrary musical instrument can be obtained. It further comprises a sound source generating unit for generating.
上記の音声信号処理装置において、任意の楽曲から、音源生成部により生成された任意の楽器の同期処理済み音源を分離する音源分離部をさらに備え、任意の楽曲に、複数の楽器音が含まれている場合、楽器音ごとに、第1特定部、第2特定部、同期減算部、同期加算部、音源生成部および音源分離部の処理を含む楽器音分離処理を実行することを特徴とする。 The above audio signal processing apparatus further includes a sound source separation unit that separates a synchronization-processed sound source of an arbitrary instrument generated by the sound source generation unit from an arbitrary piece of music, and the arbitrary piece of music includes a plurality of instrument sounds. If it is, the instrument sound separation process including the processes of the first specifying unit, the second specifying unit, the synchronization subtracting unit, the synchronization adding unit, the sound source generating unit, and the sound source separating unit is executed for each instrument sound. .
上記の音声信号処理装置において、複数の楽器音が、バスドラム、スネアドラム、ハイハットであり、任意の楽曲内に、単独で鳴っているハイハットと、別の打楽器と同時に鳴っているハイハットが存在する場合、楽器音分離処理は、別の打楽器と同時に発音されているハイハット、バスドラム、スネアドラム、単独で発音されているハイハットの順に同期処理済み音源を分離することを特徴とする。 In the above audio signal processing apparatus, a plurality of musical instrument sounds are a bass drum, a snare drum, and a hi-hat, and there is a hi-hat that is sounding alone and a hi-hat that is sounding simultaneously with another percussion instrument in an arbitrary musical piece. In this case, the musical instrument sound separation process is characterized in that the synchronized sound source is separated in the order of a hi-hat sounded simultaneously with another percussion instrument, a bass drum, a snare drum, and a hi-hat sounded independently.
上記の音声信号処理装置において、打楽器ごとに定められた周波数帯域を対象として、所定の発音区間を等分割した単位時間ごとに、打楽器ごとのベロシティを特定するベロシティ特定部をさらに備え、同期減算部は、打楽器ごとのベロシティに基づいて、第1スペクトログラムと第2スペクトログラムの振幅値を揃えた後、共通成分を抽出することを特徴とする。 In the above audio signal processing device, a synchronization subtracting unit further includes a velocity specifying unit for specifying a velocity for each percussion instrument for each unit time obtained by equally dividing a predetermined sound generation section for a frequency band defined for each percussion instrument Is characterized in that the common component is extracted after aligning the amplitude values of the first spectrogram and the second spectrogram based on the velocity for each percussion instrument.
上記の音声信号処理装置において、所定の発音区間に存在する複数個の周波数スペクトログラムを、同じ打楽器種類且つ同じ鳴り方をしていることを条件としてグルーピングする詳細判別部をさらに備え、第2特定部は、第1スペクトログラムと同じグループに属する1以上の周波数スペクトログラムの中から、第2スペクトログラムを特定する。 The audio signal processing device further includes a detailed determination unit that groups a plurality of frequency spectrograms existing in a predetermined sound generation section on condition that the same percussion instrument type and the same sounding method are used, and the second specifying unit Specifies a second spectrogram from one or more frequency spectrograms belonging to the same group as the first spectrogram.
上記の音声信号処理装置において、3つの打楽器の発音位置を示す発音位置情報を取得する発音位置情報取得部をさらに備え、詳細判別部は、発音位置情報から、所定の発音区間に、第1スペクトログラムと同じ打楽器の周波数スペクトログラムが複数存在することが分かっている場合、当該複数の周波数スペクトログラムの第1スペクトログラムに対する相関値の平均値を算出し、当該平均値を超える相関値の周波数スペクトログラムを、第1スペクトログラムと同じグループとして分類することを特徴とする。 The audio signal processing apparatus further includes a sound generation position information acquisition unit that acquires sound position information indicating the sound generation positions of the three percussion instruments, and the detailed determination unit includes a first spectrogram in a predetermined sound generation section from the sound generation position information. When it is known that there are a plurality of frequency spectrograms of the same percussion instrument, the average value of the correlation values of the plurality of frequency spectrograms with respect to the first spectrogram is calculated, and the frequency spectrogram of the correlation value exceeding the average value is calculated as the first spectrogram. It is classified as the same group as the spectrogram.
上記の音声信号処理装置において、任意の楽曲の音声信号を周波数フーリエ変換することにより得られた振幅スペクトル情報に基づいて、所定時間以上継続している継続音成分を抽出し、音声信号から除去する継続音除去部をさらに備え、第1特定部および第2特定部は、継続音成分が除去された後、第1スペクトログラムおよび第2スペクトログラムを特定することを特徴とする。 In the above audio signal processing device, based on the amplitude spectrum information obtained by performing frequency Fourier transform on the audio signal of an arbitrary piece of music, a continuous sound component continuing for a predetermined time or more is extracted and removed from the audio signal. A continuous sound removing unit is further provided, wherein the first specifying unit and the second specifying unit specify the first spectrogram and the second spectrogram after the continuous sound component is removed.
本発明の音声信号処理装置の制御方法は、所定の発音区間から、任意の楽器の周波数スペクトログラムである第1スペクトログラムを特定する第1特定ステップと、所定の発音区間から、第1スペクトログラムとの相関値に基づいて、任意の楽器と同一楽器の周波数スペクトログラムである第2スペクトログラムを特定する第2特定ステップと、第1スペクトログラムと第2スペクトログラムの共通成分を抽出する同期減算ステップと、を実行することを特徴とする。 The control method of the audio signal processing device according to the present invention includes a first specifying step of specifying a first spectrogram that is a frequency spectrogram of an arbitrary instrument from a predetermined sounding section, and a correlation between the first sounding section from the predetermined sounding section. Performing a second specifying step for specifying a second spectrogram, which is a frequency spectrogram of the same instrument as an arbitrary instrument based on the value, and a synchronous subtracting step for extracting a common component of the first spectrogram and the second spectrogram. It is characterized by.
本発明のプログラムは、コンピューターに、上記の音声信号処理装置の制御方法における各ステップを実行させることを特徴とする。 A program according to the present invention causes a computer to execute each step in the above-described method for controlling an audio signal processing device.
以下、添付の図面を参照し、本発明の一実施形態に係る音声信号処理装置、音声信号処理装置の制御方法、プログラムについて説明する。本発明は、楽曲中の特定の楽器のスペクトログラム形状を推定し、その楽器音を分離(抽出)するものである。そこで、本実施形態では、3種類の打楽器(バスドラム、スネアドラム、ハイハット)のスペクトログラム形状を推定し、それら3つの打楽器音を分離する場合について例示する。 Hereinafter, an audio signal processing device, a control method for the audio signal processing device, and a program according to an embodiment of the present invention will be described with reference to the accompanying drawings. The present invention estimates the spectrogram shape of a specific musical instrument in music and separates (extracts) the musical instrument sound. Therefore, in the present embodiment, the case where the spectrogram shapes of three types of percussion instruments (bass drum, snare drum, hi-hat) are estimated and these three percussion instrument sounds are illustrated is exemplified.
図1は、本発明の一実施形態に係る音声信号処理装置1の機能構成を示すブロック図である。音声信号処理装置1は、主な機能構成として、FFT(Fast Fourier Transform)部11、継続音除去部12、帯域分割部13、詳細判別用音加工部14、詳細判別部15、ベロシティ特定部16、グルーヴ判定部17および打楽器音分離部18を備えている。なお、音声信号処理装置1は、専用装置であっても良いし、DJ機器(DJプレーヤー、DJミキサーなど)、オーディオ機器(CDプレーヤー、DVDプレーヤーなど)、音声編集機器、パーソナルコンピューター、タブレット端末、エフェクター、録音機器、放送機器など、各種電子機器の一部であっても良い。
FIG. 1 is a block diagram showing a functional configuration of an audio
FFT部11は、入力音(wavファイルなど、任意の楽曲の音声信号)を周波数フーリエ変換することにより、解析データ(振幅スペクトル情報)を生成する。ここでは、FFTサイズを2048サンプル、オーバーラップ数を4回としている。この場合、1フレーム(FFTの処理間隔)は、512サンプルとなる。
The
継続音除去部12は、周波数フーリエ変換により得られた振幅スペクトル情報に基づいて、所定時間以上継続している継続音成分を抽出し、入力された音声信号から除去する。この処理により、各打楽器のスペクトログラム形状を特定する際の誤差要因となる「打楽器ではない成分」を取り除くことができる。なお、特に図示しないが、継続音除去部12の処理後、IFFT(Inverse FFT)を行って一旦時間軸に戻した後、再度FFTを行っている。具体的には、FFTサイズを512サンプル、1フレームを、128サンプルとしている。このように、FFTサイズを変更してから打楽器音分離部18にデータ(継続音除去音源)を供給することにより、アタック感を再現することができる。
The continuous
帯域分割部13は、各打楽器の周波数帯域を分割する。例えば、バスドラム「40〜300Hz」、スネアドラム「600〜3000Hz」、ハイハット「6000Hz〜16000Hz」のように、各打楽器に対応する周波数範囲を限定する。
The
詳細判別用音加工部14は、外部から発音位置情報を取得し、入力された音声信号に対して、打楽器のみの成分となるような加工を施す。この処理により、後段の詳細判別部15の判別正答率を上げることができる。なお、発音位置情報とは、楽曲の拍位置解析結果を元に生成される情報であり、楽曲に含まれる各打楽器の発音位置を示す情報(バスドラム、スネアドラム、ハイハットがそれぞれどの位置で鳴っているのかを示す情報)である。本実施形態では、不図示の外部装置において、既に解析済みであるものとする。
The detail determination
詳細判別部15は、取得した発音位置情報に基づいて、所定の発音区間(本実施形態では、楽曲の8小節)に存在する複数個の周波数スペクトログラムを、同じ打楽器種類且つ同じ鳴り方をしていることを条件としてグルーピングする。この処理により、後述する打楽器音分離部18における同期処理の精度を上げることができる。
Based on the acquired sound generation position information, the
なお、詳細判別部15は、取得した発音位置情報から、所定の発音区間に、任意のスペクトログラム(第1スペクトログラム)と同じ打楽器の周波数スペクトログラムが複数存在することが分かっている場合、当該複数の周波数スペクトログラムの、任意のスペクトログラムに対する相関値の平均値を算出し、当該平均値を超える相関値の周波数スペクトログラムを、任意のスペクトログラムと同じグループとして分類する(同じ打楽器種類且つ同じ鳴り方をしていると判定する)。詳細については、後述する。
In addition, when it is known from the acquired sound generation position information that there are a plurality of frequency spectrograms of the same percussion instrument as an arbitrary spectrogram (first spectrogram) from the acquired sound generation position information, the
ベロシティ特定部16は、取得した発音位置情報に基づいて、所定の発音区間における各打楽器のベロシティ情報を特定する。当該処理も、後述する打楽器音分離部18における同期処理の精度を上げるために行われる。
The
グルーヴ判定部17は、ベロシティ特定部16により特定された所定の発音区間における各打楽器のベロシティ情報と、取得した発音位置情報に基づいて、所定の発音区間における楽曲のグルーヴを判定する。また、その判定結果を、グルーヴ情報として出力する。なお、ベロシティ情報とは、1小節を等分割した単位時間(例えば、16分音符単位)ごとのベロシティの値を指す。詳細については後述するが、所定の発音区間(8小節)に含まれる全ての小節に共通して、単位時間(単位時間1/16〜16/16)ごとのベロシティが特定される。
The
打楽器音分離部18は、上記の継続音除去部12で得られた継続音除去音源を用い、詳細判別部15およびベロシティ特定部16で得られた詳細判別情報(グルーピング情報およびベロシティ情報)に基づいて、各打楽器のスペクトログラム形状を推定し、各打楽器音を分離する。また、スペクトログラム形状の推定結果を、スペクトログラム情報(バスドラム振幅情報、スネアドラム振幅情報、ハイハット振幅情報)として出力する。なお、図面では、バスドラムを「BD」、スネアドラムを「SD」、ハイハットを「HH」と略記する。
The percussion instrument
次に、図2ないし図4を参照し、詳細判別用音加工部14、ベロシティ特定部16および打楽器音分離部18の詳細な機能構成について説明する。図2は、詳細判別用音加工部14の詳細ブロック図である。詳細判別用音加工部14は、バスドラム加工部21、スネアドラム加工部22およびハイハット加工部23を含む。バスドラム加工部21は、ベース音などを排除し、バスドラム音を抽出するための加工を施す。スネアドラム加工部22は、人間の声やピアノの伴奏などを排除し、スネアドラム音を抽出するための加工を施す。ハイハット加工部23は、抽出対象のハイハット音に被っている他のハイハット音などを排除するための加工を施す。
Next, with reference to FIG. 2 thru | or FIG. 4, the detailed functional structure of the
ここで、バスドラム加工部21について、さらに詳細に説明する。バスドラム加工部21は、発音位置情報取得部21a、検索区間特定部21b、鳴り終わり判定部21c、抽出部21d、第1加工部21eおよび第2加工部21fを含む。
Here, the bass
発音位置情報取得部21aは、外部から、任意の楽曲に含まれる任意の楽器(バスドラム、スネアドラム、ハイハット)の発音位置を示す発音位置情報を取得する。検索区間特定部21bは、取得した発音位置情報に基づき、バスドラムの発音区間を検索するための検索区間を特定する。本実施形態では、バスドラムのアタック位置を基準とした前後所定時間から成る区間を検索区間として特定する。
The sound generation position
鳴り終わり判定部21cは、特定した検索区間内においてバスドラムの鳴り終わりを判定する。本実施形態では「平均値終了点判定法」と「新規アタック判定法」の2つの判定法を用いて鳴り終わりを判定する。前者は、検索区間において、複数フレーム分の移動平均値が、アタック位置付近の平均値である変動閾値よりも連続して下回った時点を鳴り終わりとして判定する方法である。また、後者は、判定対象となるバスドラムとは別の音が発音された場合、当該別の音が発音された時点を鳴り終わりとして判定する方法である。 The ringing end determination unit 21c determines the end of ringing of the bass drum within the specified search section. In the present embodiment, the end of ringing is determined using two determination methods of “average value end point determination method” and “new attack determination method”. The former is a method of determining, as the end of sounding, a point in time when a moving average value for a plurality of frames continuously falls below a variation threshold value that is an average value near an attack position in a search section. The latter is a method in which when a sound different from the bass drum to be determined is generated, the time point when the other sound is generated is determined as the end of sounding.
抽出部21dは、鳴り終わり判定部21cにより鳴り終わりが判定されなかった場合(鳴り終わらなかった場合)、検索区間の所定位置における振幅値(以下、「振幅データ」とも称する)を抽出する。本実施形態では、検索区間の最後のフレームの振幅値を抽出するものとする。
The
第1加工部21eは、鳴り終わり判定部21cにより鳴り終わりが判定されなかった場合、検索区間に含まれる音声データを、抽出部21dで抽出された振幅値に基づいて加工する。本実施形態では、検索区間に含まれる全フレームから、抽出部21dで抽出された振幅値を減算する。これにより、バスドラム音とベース音が重複している場合、ベース音を排除し、バスドラム音のみを抽出することができる。一方、第2加工部21fは、鳴り終わり判定部21cにより鳴り終わりが判定された場合(鳴り終わった場合)、検索区間における当該鳴り終わり以降の振幅値をゼロにする。これにより、鳴り終わり以降の不要な音を排除することができる。
When the end of ringing is not determined by the end of ring determination unit 21c, the
なお、詳細については後述するが、スネアドラム加工部22およびハイハット加工部23においても、バスドラム加工部21における発音位置情報取得部21a、検索区間特定部21b、抽出部21dおよび第1加工部21eと略同様の処理を行う。また、変形例として、スネアドラム加工部22およびハイハット加工部23においても、鳴り終わり判定部21cおよび第2加工部21fを含む構成としても良い。つまり、スネアドラムおよびハイハットについて検索区間内における鳴り終わりを判定し、鳴り終わり以降の振幅値をゼロにする処理を行っても良い。
Although details will be described later, also in the snare
続いて、図3は、ベロシティ特定部16の詳細ブロック図である。ベロシティ特定部16は、ベロシティ検出部31およびベロシティ算出部32を含む。なお、ベロシティ特定部16の各部は、打楽器ごとに処理される。
Next, FIG. 3 is a detailed block diagram of the
ベロシティ検出部31は、所定の発音区間内の一部区間を対象として、各打楽器のベロシティを検出する。例えば、バスドラムの場合、楽曲の8小節のうち、取得した発音位置情報から得られる2番目の発音位置から最後の発音位置までの区間を対象とする。また、スネアドラムおよびハイハットの場合、楽曲の8小節のうち、3小節目から6小節目までの区間を対象とする。そして、いずれの打楽器についても、各小節をN個(本実施形態では、16個)に等分割した単位時間ごとに各打楽器のベロシティを検出する。また、ベロシティ検出部31は、打楽器ごとに定められた周波数範囲の、打楽器ごとに定められた発音継続区間における振幅値の合計を振幅強度としたとき、所定の発音区間の中で最も大きな振幅強度で正規化した値を、対応する打楽器のベロシティとして検出する。
The
ベロシティ算出部32は、ベロシティ検出部31の検出結果を用いて、所定の発音区間内の上記一部区間を除いた区間における各打楽器のベロシティを算出する。具体的には、上記一部区間に含まれる各小節内の、それぞれ1番目から16番目までの各単位時間の平均値を、各打楽器のベロシティとして算出する。
The
続いて、図4は、打楽器音分離部18の詳細ブロック図である。打楽器音分離部18は、第1特定部41、第2特定部42、同期減算部43、同期加算部44、再アタック検出部45、鳴り終わり判定部46、音源生成部47および音源分離部48を含む。なお、打楽器音分離部18の各部も、打楽器ごとに処理される。
Next, FIG. 4 is a detailed block diagram of the percussion instrument
第1特定部41は、継続音除去部12により、入力された音声信号から継続音成分が除去された後、所定の発音区間から、任意の打楽器の周波数スペクトログラムである第1スペクトログラムを特定する。第2特定部42は、所定の発音区間から、第1スペクトログラムとの相関値に基づいて、任意の打楽器と同じグループに属する1以上の周波数スペクトログラムの中から、第1スペクトログラムと同一楽器の周波数スペクトログラムである第2スペクトログラムを特定する。ここで、特定候補となる周波数スペクトログラムが複数存在する場合は、第1スペクトログラムと最も相関値が高い周波数スペクトログラムを特定する。
The first specifying
同期減算部43は、特定された第1スペクトログラムと第2スペクトログラムの共通成分を抽出する。このとき、同期減算部43は、ベロシティ特定部16により特定された打楽器ごとのベロシティに基づいて、第1スペクトログラムと第2スペクトログラムの振幅値を揃えた後、共通成分を抽出する。同期加算部44は、所定の発音区間に、任意の打楽器の周波数スペクトログラムがL個(但し、Lは、L≧2となる整数)存在する場合、同期減算部43により抽出されたL個の共通成分を平均化して、共通スペクトログラムを算出する。
The
再アタック検出部45は、同期減算部43および同期加算部44による同期処理結果を用いてアタック検出を行う。この処理により、バスドラムやハイハットに対しスネアドラムのみ前倒しで発音されている場合も、正確にアタック位置を検出することができる。鳴り終わり判定部46は、任意の打楽器の鳴り終わりを判定し、任意の打楽器と同じ周波数帯域の他の成分を除去する。この処理より、同期処理によって除去できなかった打楽器以外の成分を除去することができ、打楽器らしい音に加工することができる。
The
音源生成部47は、所定の発音区間に存在する、各打楽器のL個の周波数スペクトログラムを、同期加算部44により算出された共通スペクトログラムに置き換え、且つ再アタック検出部45および鳴り終わり判定部46による処理結果に基づいて加工された同期処理済み音源を生成する。また、音源分離部48は、入力音(任意の楽曲)から、音源生成部47により生成された各打楽器の同期処理済み音源を分離する。なお、打楽器音分離部18によって実行される楽器音分離処理は、別の打楽器と同時に発音されているハイハット(以下、「複合ハイハット」と称する)、バスドラム、スネアドラム、単独で発音されているハイハット(以下、「単独ハイハット」と称する)の順に実行される。
The sound
次に、図5以降を参照し、上記の各部について具定例を挙げてさらに説明する。まず、図5〜図11を参照し、継続音除去部12による継続音除去処理について説明する。継続音除去処理は、上記のとおり「打楽器ではない成分」を取り除く処理である。図5は、音声信号処理装置1による継続音除去処理の流れを示すフローチャートである。
Next, with reference to FIG. 5 and subsequent figures, each part will be further described with a specific example. First, the continuous sound removal processing by the continuous
継続音除去処理では、FFTにより得られた振幅スペクトル情報から極小点および極大点を検出し(S11,S12)、これらの結果から極大点の突出度合いを判定する(S13)。また、その判定結果に基づいて継続カウンタの更新を行い(S14)、継続音を確定する(S15)。また、確定した継続音の中から継続音範囲を検出し(S16)、検出された継続音範囲に基づいて、誤検出された継続音を修正する(S17)。その後、原音から継続音の振幅を除去し(S18)、継続音除去処理を終了する。 In the continuous sound removal process, the minimum point and the maximum point are detected from the amplitude spectrum information obtained by FFT (S11, S12), and the degree of protrusion of the maximum point is determined from these results (S13). Further, the continuation counter is updated based on the determination result (S14), and the continuation sound is determined (S15). Further, the continuous sound range is detected from the confirmed continuous sound (S16), and the erroneously detected continuous sound is corrected based on the detected continuous sound range (S17). Thereafter, the amplitude of the continuous sound is removed from the original sound (S18), and the continuous sound removal process is terminated.
図6は、極小点検出処理(図5のS11参照)の流れを示すフローチャートである。極小点検出処理では、周波数bin「0」を開始値とし、FFTサイズの半分を対象として処理を開始する(S21)。まず、対象となる周波数bin(同図、符号P1参照)の振幅値を中心として、両隣のbinの振幅値との傾きを求める(S22)。ここで、対象となる周波数binが極小である場合(両隣のbinに対する傾きが所定値以上である場合)は(S23:Yes)、極小点の周波数binとして記録する(S24)。また、対象となる周波数binが極小でない場合は(S23:No)、S24を省略する。その後、対象となる周波数binを順次インクリメントしながら、S21〜S24を繰り返す(S25)。 FIG. 6 is a flowchart showing the flow of the minimum point detection process (see S11 in FIG. 5). In the minimum point detection process, the frequency bin “0” is set as a start value, and the process is started for half of the FFT size (S21). First, an inclination with respect to the amplitude value of the bins adjacent to each other is obtained centering on the amplitude value of the target frequency bin (see the figure, reference P1) (S22). Here, when the target frequency bin is minimum (when the inclination with respect to both adjacent bins is greater than or equal to a predetermined value) (S23: Yes), the frequency bin is recorded as the minimum point frequency bin (S24). If the target frequency bin is not minimal (S23: No), S24 is omitted. Thereafter, S21 to S24 are repeated while sequentially increasing the target frequency bin (S25).
図7は、極大点検出処理(図5のS12参照)の流れを示すフローチャートである。極大点検出処理でも、周波数bin「0」を開始値とし、FFTサイズの半分を対象として処理を開始する(S31)。まず、対象となる周波数bin(同図、符号P2参照)の振幅値を中心として、両隣のbinの振幅値との傾きを求める(S32)。ここで、対象となる周波数binが極大である場合(両隣のbinに対する傾きが所定値以下である場合)は(S33:Yes)、極大点の周波数binとして記録する(S34)。また、対象となる周波数binが極大でない場合は(S33:No)、S34を省略する。その後、対象となる周波数binを順次インクリメントしながら、S31〜S34を繰り返す(S35)。 FIG. 7 is a flowchart showing the flow of local maximum point detection processing (see S12 in FIG. 5). Even in the local maximum point detection process, the frequency bin “0” is set as a start value, and the process is started for half of the FFT size (S31). First, an inclination with respect to the amplitude value of the bins adjacent to each other is obtained centering on the amplitude value of the target frequency bin (see the figure, reference symbol P2) (S32). Here, when the target frequency bin is maximal (when the slope with respect to both adjacent bins is equal to or smaller than a predetermined value) (S33: Yes), it is recorded as the frequency bin of the maximal point (S34). If the target frequency bin is not maximal (S33: No), S34 is omitted. Thereafter, S31 to S34 are repeated while sequentially incrementing the target frequency bin (S35).
図8は、極大点の突出度合い判定処理(図5のS13参照)の流れを示すフローチャートである。この処理は、ノイズ成分による極大点を排除するために行われる。例えば、ホワイトノイズなどが入力されると、高域で無数の小さな極大点が発生することがある。そのため、極大点の突出度合い判定処理により、そのようなノイズ成分と、検出したい声や楽器などの極大点を区別し、周りの周波数の振幅値よりもある程度突出した極大点を残す。 FIG. 8 is a flowchart showing the flow of the maximum point protrusion degree determination process (see S13 in FIG. 5). This process is performed in order to eliminate the local maximum point due to the noise component. For example, when white noise or the like is input, innumerable small local maximum points may occur in the high frequency range. For this reason, such a noise component and a maximum point such as a voice or a musical instrument to be detected are distinguished from each other by a protrusion degree determination process of the maximum point, and a maximum point protruding to some extent from the amplitude value of the surrounding frequency is left.
突出度合い判定処理でも、周波数bin「0」を開始値とし、FFTサイズの半分を対象として処理を開始する(S41)。まず、対象となる極大点の周波数bin(同図、符号P5参照)について、両隣の極小点の振幅値(極小値,同図、符号P3およびP4)で線形補完した値(補完値,同図、符号L11参照)を求める(S42)。線形補完した値が大きい場合(補完値が所定値以上である場合)は(S43:Yes)、極大点の周波数binとして記録する(S44)。また、線形補完した値が小さい場合は(S44:No)、S44を省略する。その後、対象となる周波数binを順次インクリメントしながら、S41〜S44を繰り返す(S45)。 Also in the protrusion degree determination process, the frequency bin “0” is set as a start value, and the process is started for half of the FFT size (S41). First, a value (complementary value, the same figure) linearly complemented with the amplitude value (minimum value, the same figure, symbols P3 and P4) of the adjacent local minimum points for the frequency bin (see the symbol P5) of the target local maximum point. , (See symbol L11) (S42). When the linearly complemented value is large (when the complement value is greater than or equal to a predetermined value) (S43: Yes), it is recorded as the maximum point frequency bin (S44). When the linearly complemented value is small (S44: No), S44 is omitted. Thereafter, S41 to S44 are repeated while sequentially incrementing the target frequency bin (S45).
図9は、継続カウンタ更新処理の説明図である。この処理では、突出度合い判定処理により記録された極大点に基づいて、どの位の時間継続している音であるかを示すカウンタを更新する。具体的には、前回のフレームで極大点が同じ周波数binに存在していた、または両隣の周波数binに存在していた場合、継続中と判定し、カウンタをインクリメントする。同図の例の場合、矢印で示される0フレーム目から4フレーム目までの極大点は、継続している音としてカウントされ、5フレーム継続した音であると判定する。また、6フレーム目に存在する極大点(同図、符号P6参照)については、極大点の継続が途切れたため、新しい音としてカウントする。 FIG. 9 is an explanatory diagram of the continuation counter update process. In this process, a counter indicating how long the sound has continued is updated based on the maximum point recorded by the protrusion degree determination process. Specifically, if the local maximum point exists in the same frequency bin in the previous frame or exists in both adjacent frequency bins, it is determined that it is continuing and the counter is incremented. In the case of the example in the figure, the maximum point from the 0th frame to the 4th frame indicated by the arrow is counted as a continuous sound, and is determined to be a sound that has continued for 5 frames. Further, the local maximum point existing in the sixth frame (see P6 in the figure) is counted as a new sound because the continuation of the local maximum point is interrupted.
図10は、継続音範囲検出処理(図5のS16参照)の流れを示すフローチャートである。この処理は、確定した継続音のうち、各フレームで最も周波数が高い周波数binを集計し、8小節内の中央値に基づいて継続音範囲を検出する処理である。 FIG. 10 is a flowchart showing the flow of the continuous sound range detection process (see S16 in FIG. 5). This process is a process of counting the frequency bin having the highest frequency in each frame among the determined continuous sounds and detecting the continuous sound range based on the median value in the eight bars.
継続音範囲検出処理では、フレーム「0」を開始値とし、8小節分のフレームを対象として処理を開始する(S51)。まず、その中で最も周波数が高い周波数binを集計し(S52)、予め定められた検索範囲(例えば、0Hz〜4000Hz)を逸脱しているか否かを判別する(S53)。検索範囲を逸脱している場合は(S53:Yes)、逸脱回数を記録する(S54)。その後、対象となる周波数フレームを順次インクリメントしながら、S51〜S54を繰り返す(S55)。その後、集計した最も高い周波数の中央値を算出し、0Hz〜中央値までを継続音範囲として確定する(S56)。さらに、検索範囲を逸脱した回数(時間)が8小節中の半分以上の場合、音が詰まっていることを意味するため、サビフラグを立てる(S57)。当該サビフラグは、後述する打楽器音分離処理の鳴り終わり判定などに用いる。 In the continuous sound range detection process, the process is started with the frame “0” as a start value and a frame for 8 bars (S51). First, the frequency bin having the highest frequency is counted (S52), and it is determined whether or not a predetermined search range (for example, 0 Hz to 4000 Hz) is deviated (S53). If the search range is deviated (S53: Yes), the number of departures is recorded (S54). Thereafter, S51 to S54 are repeated while sequentially incrementing the target frequency frame (S55). Thereafter, the median value of the highest frequency that has been aggregated is calculated, and the range from 0 Hz to the median value is determined as the continuous sound range (S56). Further, if the number of times (time) deviating from the search range is more than half of the eight bars, it means that the sound is clogged, and a rust flag is set (S57). The rust flag is used for determining the end of a percussion instrument sound separation process, which will be described later.
図11は、継続音修正処理(図5のS17参照)の説明図である。この処理は、継続音範囲の2倍以上に存在する継続音は、オープンハイハットなどの「打楽器ではあるが、継続している音」の誤検出であるとの想定の下、継続音を修正する。例えば、同図(a)に示すように、判定した継続音範囲の2倍の周波数を超える継続音成分を誤検出とみなし、同図(b)に示すように、誤検出性分を除去する。 FIG. 11 is an explanatory diagram of the continuous sound correction process (see S17 of FIG. 5). This process corrects a continuation sound on the assumption that a continuation sound that is more than twice the continuous sound range is a false detection of a “percussion instrument but a continuous sound” such as an open hi-hat. . For example, as shown in FIG. 6A, a continuous sound component exceeding a frequency twice the determined continuous sound range is regarded as erroneous detection, and the erroneous detection property is removed as shown in FIG. .
次に、図12〜図15を参照し、詳細判別用音加工部14による詳細判別用音加工処理について説明する。詳細判別用音加工処理は、上記のとおり、詳細判別処理の前処理として、打楽器のみの成分を生成する処理である。図12および図13は、バスドラム加工処理の説明図である。なお、両図において、符号taは、バスドラムのアタック位置(発音位置)、符号teは、バスドラムの鳴り終わり位置、符号t1は、打楽器の鳴り終わりを検索するための検索区間の開始位置、符号t2は、検索区間の終了位置を示している。本実施形態において、検索区間の開始点および終了点は、各打楽器のアタック位置から予め定められた所定時間前および所定時間後(例えば、数十ms〜数百ms前後)の時点として規定している。なお、この前後所定時間は、打楽器ごとに異なる時間であっても良い。
Next, the detailed discrimination sound processing by the detailed determination
バスドラムの詳細判別処理は、低域のみで判別を行うため、低域の振幅情報に対して加工を施す。また、バスドラムの場合は、ベースの成分を極力取り除きたいため、バスドラムの鳴り終わりを反映した加工を行う。図12(a)は、平均値終了判定法の説明図である。この方法では、比較的時定数の大きいLPF(Low-pass filter)からアタック位置付近の低域の音量の平均値を算出し、変動閾値とする。そして、複数フレーム(例えば、4フレーム)分の移動平均を取り、変動閾値よりも移動平均値の方が連続して下回った時点(同図、te参照)を、鳴り終わりとして判定する。なお、複数フレーム分の移動平均を取るのは、FFTサイズが小さいと、周波数分解能が低く、低域の波形が乱れるためである(FFTサイズを大きくすることで、その乱れを低減できる)。また、変動閾値を用いて判定を行うのは、ベース音と誤検出することなく、バスドラム低域区間を正確に検出するためである。さらに、連続して下回ったことを条件とするのは、複数フレーム分の平均値を取ることで波形乱れを抑制しても、波形乱れを抑制しきれない場合、一瞬閾値を下回ることがあるので、そのような場合の誤判定を避けるためである。 Since the detailed determination processing of the bass drum is performed only in the low range, the low-frequency amplitude information is processed. In the case of a bass drum, in order to remove the bass component as much as possible, processing that reflects the end of the bass drum sound is performed. FIG. 12A is an explanatory diagram of the average value end determination method. In this method, an average value of volume in a low frequency region near an attack position is calculated from an LPF (Low-pass filter) having a relatively large time constant, and is used as a variation threshold value. Then, a moving average for a plurality of frames (for example, 4 frames) is taken, and a point in time when the moving average value is continuously lower than the fluctuation threshold (see te in the figure) is determined as the end of ringing. The reason why the moving average for a plurality of frames is taken is that if the FFT size is small, the frequency resolution is low and the low-frequency waveform is disturbed (the disturbance can be reduced by increasing the FFT size). The reason why the determination is made using the variation threshold is to accurately detect the bass drum low frequency section without erroneously detecting the bass sound. Furthermore, if the waveform disturbance cannot be suppressed even if the waveform disturbance is suppressed by taking an average value for a plurality of frames, it may fall below the threshold for a moment. This is to avoid erroneous determination in such a case.
一方、同図(b)は、新規アタック判定法の説明図である。この方法では、新しい何らかの音が発生したとき(同図、te参照)、鳴り終わりと判定する。例えば、同図に示すように、バスドラムが鳴り終わる前に次のバスドラムが鳴ってしまった場合などが考えられる。 On the other hand, FIG. 5B is an explanatory diagram of the new attack determination method. In this method, when any new sound is generated (see te in the same figure), it is determined that the ringing is finished. For example, as shown in the figure, there may be a case where the next bass drum is played before the bass drum is finished.
図12(a)の平均値終了判定法、または同図(b)の新規アタック判定法により鳴り終わりが判定された場合は、同図(c)に示すように、鳴り終わり以降(te〜t2の範囲)の振幅を「0」にする。また、図13(a)に示すように、検索区間(t1〜t2の範囲)において、平均値終了判定法および新規アタック判定法のいずれの方法でも鳴り終わりが判定されなかった場合は、同図(b)に示すように、検索区間の最後のフレームの振幅データ(同図、符号51a参照)を検索区間に含まれる音声データから減算する。同図(c)は、その減算結果を示したものである。このように、ベース音が減衰していない場合、検索区間の最後のフレームの振幅データを減算することにより、ベース音の影響をなくすことができる。
When the end of ringing is determined by the average value end determination method of FIG. 12 (a) or the new attack determination method of FIG. 12 (b), as shown in FIG. The amplitude of (range) is set to “0”. In addition, as shown in FIG. 13A, when the end of ringing is not determined by either the average value end determination method or the new attack determination method in the search section (range t1 to t2), As shown in (b), the amplitude data (see
なお、減算する区間(第1加工部21eの対象となる区間)は、検索区間のみに限らず、検索区間に前後所定時間を加えた区間としても良い。また、検索区間に関係なく、アタック位置を基準として減算する区間を規定しても良い。また、鳴り終わりが判定された場合の減算する区間(第2加工部21fの対象となる区間)も、検索区間の最後までではなく、検索区間の終了後も含めた区間としても良い。
The section to be subtracted (the section that is the target of the
図14は、スネアドラム加工処理の説明図である。同図において、符号taは、スネアドラムのアタック位置、符号t1および符号t2は、検索区間の開始位置および終了位置を示している。また、符号t3は、検索区間の終了位置から所定時間前の時点(スネアドラムのアタック位置から所定時間後の時点)であって、抽出部21d(図2参照)の抽出対象位置を示している。
FIG. 14 is an explanatory diagram of the snare drum processing. In the figure, reference symbol ta represents the attack position of the snare drum, and reference symbols t1 and t2 represent the start position and end position of the search section. Reference numeral t3 is a time point a predetermined time before the end position of the search section (a time point a predetermined time after the snare drum attack position), and indicates the extraction target position of the
スネアドラムの帯域では、主に声やピアノなどの伴奏が詳細判別の判別結果に影響を及ぼす。そこで、検索区間の終了位置から所定時間前(同図、t3参照)の振幅データ(同図、符号52参照)、すなわちスネアドラムのアタック位置(同図、ta参照)から数十ms進んだ時間(同図、t3参照)の振幅データを減算することで、これらの影響を軽減する。つまり、同図(a)に示すように、スネアドラムと重複して、声などのスネアドラム以外の音が鳴っている場合、同図(b)に示すように、時間t3のフレームの振幅データを検索区間内の全フレームから減算する。同図(c)は、その減算結果を示したものである。このように、スネアドラム以外の音が同じ音程で鳴り続けている場合、アタック位置から所定時間経過後の振幅データを減算することにより、その影響を軽減できる。
In the band of the snare drum, accompaniment such as voice and piano mainly affects the result of detailed discrimination. Therefore, amplitude data (see
図15は、ハイハット加工処理の説明図である。同図において、符号taは、ハイハットのアタック位置、符号t1および符号t2は、検索区間の開始位置および終了位置を示している。また、符号t4は、検索区間の開始位置から所定時間後の時点(ハイハットのアタック位置から所定時間前の時点)であって、抽出部21d(図2参照)の抽出対象位置を示している。ハイハットの場合、前のハイハットが鳴り終わる前に次のハイハットが鳴るケースが多い。しかも、バスドラムやスネアドラムと異なり、別の種類のハイハットがなる可能性が高い。このため、発音が強制停止されて新しい音が発音されるのではなく、前のハイハット音が新しく発生したハイハット音に覆いかぶってしまい、詳細判別に悪影響を及ぼす。これを解消すべく、過去の振幅を減算する。つまり、同図(a)に示すように、オープンハイハットが鳴り終わる前にハイハットが鳴っている場合、同図(b)に示すように、ハイハットのアタック位置(同図、ta参照)から数十ms溯った時間(同図、t4参照)の振幅データ(同図、符号53参照)を全フレームから減算する。同図(c)は、その減算結果を示したものである。このように、オープンハイハットが鳴り終わる前にハイハットが鳴っている場合でも、ハイハットのアタックから所定時間前の振幅データを減算することにより、オープンハイハットの影響を軽減できる。
FIG. 15 is an explanatory diagram of the hi-hat processing. In the figure, reference symbol ta indicates the hi-hat attack position, and reference symbols t1 and t2 indicate the start position and end position of the search section. Reference sign t4 indicates a position to be extracted by the
なお、図14に示したスネアドラム加工処理と、図15に示したハイハット加工処理では、必ずしも検索区間を特定する必要はない。つまり、スネアドラム加工部22およびハイハット加工部23においては、バスドラム加工部21における検索区間特定部21bを省略した構成としても良い。この場合、減算する区間は、アタック位置から前後所定時間として規定すれば良い。
In the snare drum processing shown in FIG. 14 and the hi-hat processing shown in FIG. 15, it is not always necessary to specify the search section. That is, in the snare
次に、図16〜図18を参照し、詳細判別部15による詳細判別処理について説明する。詳細判別処理は、上記のとおり、打楽器音分離処理において必要となる「同じ種類(ハイハットとオープンハイハットは異なる種類とする)、または同じ打楽器の重ね合わせの箇所」の情報を得るために行う。具体的には、同じ打楽器種類且つ同じ鳴り方をしていることを条件としてグループ分けを行う。
Next, with reference to FIGS. 16 to 18, the detailed determination processing by the
図16は、音声信号処理装置1による詳細判別処理の流れを示すフローチャートである。詳細判別処理では、・・・ごとに判別を行う(S61)。また、8小節内のアタック「0」を初期値とし、全アタックを対象として処理を行う(S62)。まず、検出したアタックが、対象の打楽器であるか否かを判別し(S63)、対象の打楽器である場合は(S63:Yes)、同種の打楽器について相関値を算出する(S64)。その結果、相関値が閾値を超えるアタックは同じグループとみなす(S65)。その後、対象となるアタックを順次インクリメントしながら、S62〜S65を繰り返す(S66)。さらに、S61〜S66を、各打楽器について繰り返す(S67)。
FIG. 16 is a flowchart showing the flow of the detailed determination process by the audio
図17は、詳細判別処理の説明図である。同図に示すように、同じ打楽器種類且つ同じ鳴り方をしていることを調べる特徴量として、同じ打楽器同士の周波数スペクトログラムの相関値を用いる。ここでは、発音位置情報に基づいて、元々同じ打楽器同士で照合するため、基本的には高い相関値が得られるはずである。例えば、8小節の中に、同図(a)に示すように複数の周波数スペクトログラムが含まれている場合、相関をとる元となる任意の周波数スペクトログラムを決定する(同図、符号52参照,同図の例ではハイハット)。続いて、同図(b)に示すように、8小節の中に含まれるハイハットの周波数スペクトログラム全てについて、任意の周波数スペクトログラムとの相関値を求める。その結果、同図(c)に示すように、相関値が低いハイハット(オープンハイハット)を除く3つの周波数スペクトログラムが、任意の周波数スペクトログラムと同じグループ(同図の例ではHHグループ1)と判定する。グループ分けに用いられる閾値(グルーピング閾値)については、後述する。その後、グループ番号が付いていない打楽器の周波数スペクトログラムについて、同じ処理を繰り返し、全ての周波数スペクトログラムにグループ番号がついたところで、詳細判別処理を終了する。当該グループ番号は、グルーピング情報として打楽器音分離部18に出力される。
FIG. 17 is an explanatory diagram of the detailed determination process. As shown in the figure, the correlation value of the frequency spectrogram between the same percussion instruments is used as a feature value for checking that the same percussion instrument type and the same sounding style are used. Here, since the same percussion instrument is originally collated based on the pronunciation position information, a high correlation value should be basically obtained. For example, when a plurality of frequency spectrograms are included in 8 bars as shown in FIG. 8A, an arbitrary frequency spectrogram from which correlation is obtained is determined (see FIG. Hi-hat in the example in the figure). Subsequently, as shown in FIG. 5B, the correlation value with an arbitrary frequency spectrogram is obtained for all the hi-hat frequency spectrograms included in the eight bars. As a result, as shown in FIG. 6C, the three frequency spectrograms except for the high hat (open hi-hat) having a low correlation value are determined to be the same group as the arbitrary frequency spectrogram (
図18は、グルーピング閾値の説明図である。同じ鳴り方をしていることを判定するグルーピング閾値は、計算式「閾値=1−(相関値の最大値−相関値の平均値)×0.5」によって求める。つまり、相関値の最大値と相関値の平均値の中央値がグルーピング閾値となる。同図の例は、任意の打楽器について、8小節の中に9個の周波数スペクトログラムが存在し、その中の1の元スペクトログラムとの相関値の算出結果を示したものである。このように、グルーピング閾値を変動閾値としたことで、楽曲によらず、より正確なグループ分けを行うことができる。なお、グルーピング閾値は、打楽器ごとに決定する。 FIG. 18 is an explanatory diagram of the grouping threshold. The grouping threshold value for determining that the same ringing is performed is obtained by a calculation formula “threshold = 1− (maximum correlation value−average correlation value) × 0.5”. That is, the median value of the maximum correlation value and the average correlation value is the grouping threshold. The example in the figure shows the calculation result of the correlation value with one original spectrogram among nine frequency spectrograms in eight bars for an arbitrary percussion instrument. Thus, by setting the grouping threshold as the variation threshold, more accurate grouping can be performed regardless of the music. The grouping threshold is determined for each percussion instrument.
次に、図19〜図21を参照し、ベロシティ特定部16によるベロシティ特定処理について説明する。ベロシティ特定処理は、後述する打楽器音分離処理において、振幅の割合が異なる周波数スペクトログラム間で同期処理を行うと、振幅の小さい方に周波数スペクトログラムが収束してしまうため、振幅同士の強度の割合(ベロシティ情報)を得るために行う。
Next, the velocity specifying process by the
図19は、音声信号処理装置1によるベロシティ特定処理の流れを示すフローチャートである。ベロシティ特定処理では、打楽器ごとに判別を行う(S71)。まず、対象の打楽器について、ベロシティの検出範囲を算出する(S72)。その検出範囲内で振幅強度を検出し(S73)、振幅強度をベロシティへ変換する(S74,ベロシティ検出部31)。その後、S74で得られた情報に基づいて、検出範囲外のベロシティを算出する(S75,ベロシティ算出部32)。以降、S71〜S75を、各打楽器について繰り返す(S76)。
FIG. 19 is a flowchart showing the flow of velocity specifying processing by the audio
図20は、ベロシティ検出処理の説明図である。同図に示すように、S72で算出する検出範囲について、スネアドラムとハイハットは、3小節目〜6小節目までと算出される。これは、8小節の最初にシンバルなどが入ったり、8小節の最後にフィルインなどの不規則なリズムパターンや効果音が入ることが多いためである。また、バスドラムは、8小節内における2つ目のアタック位置〜最後のアタック位置までと算出される。これは、バスドラムの場合、1つ目のアタックだけ極端に振幅が大きい場合があるためである。 FIG. 20 is an explanatory diagram of velocity detection processing. As shown in the figure, the snare drum and hi-hat are calculated from the 3rd bar to the 6th bar for the detection range calculated in S72. This is because a cymbal or the like is often placed at the beginning of 8 bars, and an irregular rhythm pattern or sound effect such as a fill-in is often placed at the end of 8 bars. The bass drum is calculated from the second attack position to the last attack position in the eight bars. This is because in the case of a bass drum, the amplitude may be extremely large by the first attack.
また、S73で検出する振幅強度は、各打楽器のアタック位置からの対象区間内で、所定の周波数範囲に存在する振幅値の合計を振幅強度として検出する。対象区間は、打楽器ごとに定めている(数十ms〜数百ms)。また、周波数範囲は、帯域分割部13による帯域分割と同様に、バスドラム「40〜300Hz」、スネアドラム「600〜3000Hz」、ハイハット「6000Hz〜16000Hz」と定めている。
In addition, the amplitude intensity detected in S73 detects the sum of amplitude values existing in a predetermined frequency range as the amplitude intensity within the target section from the attack position of each percussion instrument. The target section is determined for each percussion instrument (several tens ms to several hundred ms). Further, the frequency range is defined as a bass drum “40 to 300 Hz”, a snare drum “600 to 3000 Hz”, and a hi-hat “6000 Hz to 16000 Hz”, similarly to the band division by the
また、S74のベロシティへの変換は、8小節内において、算出した振幅強度の中で一番大きな振幅強度で正規化した0〜1の値をベロシティとする。なお、この正規化は、詳細判別処理で判別した同じグループ内の(同じ打楽器種類且つ同じ鳴り方をしている)周波数スペクトログラム同士で行う。 In the conversion to velocity in S74, the value of 0 to 1 normalized with the largest amplitude intensity among the calculated amplitude intensity is set as the velocity within 8 bars. Note that this normalization is performed between frequency spectrograms in the same group determined by the detailed determination processing (the same percussion instrument type and the same sounding method).
図21は、ベロシティ算出処理の説明図である。S75のベロシティの算出は、グループごとに、検出範囲で検出されたベロシティ情報に基づいて、検出範囲外のベロシティを補完するものである。同図の例は、3小節目〜6小節目までを検出範囲とするスネアドラムとハイハットの場合の補完方法を示している。同図に示すように、検出範囲のベロシティは、16分音符単位で算出する。また、検出範囲に含まれる4小節(3小節目〜6小節目)について、グループごと且つ単位時間(1/16〜16/16)ごとにベロシティを平均化する。また、その平均化した値を、1,2,7,8小節内の各単位時間の補完値として補完する。なお、バスドラムについては特に図示しないが、スネアドラムやハイハットの場合と同様に、検出範囲で検出されたベロシティ情報を小節単位で平均化した値を、検出範囲外のベロシティとして補完する。
FIG. 21 is an explanatory diagram of the velocity calculation process. The calculation of the velocity in S75 is to supplement the velocity outside the detection range based on the velocity information detected in the detection range for each group. The example in the figure shows a complementary method in the case of a snare drum and a hi-hat in which the detection range is from the third bar to the sixth bar. As shown in the figure, the velocity of the detection range is calculated in units of 16th notes. Further, the velocity is averaged for each group and for each unit time (1/16 to 16/16) for the four bars (third bar to sixth bar) included in the detection range. Further, the averaged value is complemented as a supplementary value for each unit time in the
次に、図22〜図27を参照し、打楽器音分離部18による打楽器音分離処理について説明する。打楽器音分離処理は、前処理で得られた詳細判別情報(グルーピング情報およびベロシティ情報)を元に同期処理を行い、各打楽器の周波数スペクトログラム情報を生成する処理である。図22は、打楽器音分離処理の流れを示すフローチャートである。打楽器音分離処理では、まず継続音除去部12により出力された継続音除去音源から、複合ハイハットを分離する(S81)。続いて、複合ハイハット分離後の音源(1)から、バスドラムを分離し(S82)、バスドラム分離後の音源(2)から、スネアドラムを分離し(S83)、スネアドラム分離後の音源(3)から、単独ハイハットを分離する(S84)。さらに、アタック検出できなかった情報を補完し(S85)、アタックより前の振幅を除去して、最終的に各打楽器のスペクトログラム情報を生成する。なお、S81〜S84は、対象となる打楽器種類が異なるだけであり、処理内容としては、各ステップにおいて、図4に示した第1特定部41〜鳴り終わり判定部46の処理を行う。
Next, a percussion instrument sound separation process by the percussion instrument
図23(a)は、複合ハイハット分離処理(図22のS81参照)の説明図である。複合ハイハットは、8小節の中に、バスドラムやスネアドラムなど他の打楽器と同時に発音されているハイハットと、単独で発音されているハイハットが存在することを条件としている。言い換えれば、バスドラムやスネアドラムなど他の打楽器と同時に発音されているハイハットが存在していても、単独で発音されているハイハットが存在しない場合、それを複合ハイハットとは看做さない。これは、単独で発音されているハイハットが存在しない場合、同期減算処理において、バスドラムやスネアドラムを除去できないためである。同図は、「BDと同時に鳴ったHH」として示す2つのハイハット(符号56)と、「単独で鳴ったHH」として示す2つのハイハットが同じハイハットである、とグルーピングされた例である。符号56のハイハットと同時に鳴ったバスドラムの振幅成分を損なわないように、ハイハットだけを分離するため、単独で鳴ったハイハットの振幅成分を利用する。したがって、同図の例では、符号56の2つのハイハットと、単独で鳴った2つのハイハット、合計4つのハイハットを、複合ハイハットとして分離する。
FIG. 23A is an explanatory diagram of the composite hi-hat separation process (see S81 in FIG. 22). The composite hi-hat is based on the condition that there are hi-hats that are pronounced simultaneously with other percussion instruments such as bass drums and snare drums and hi-hats that are pronounced independently in 8 bars. In other words, even if there is a hi-hat that is sounded simultaneously with other percussion instruments such as a bass drum and a snare drum, if there is no hi-hat sounded independently, it is not regarded as a composite hi-hat. This is because bass drums and snare drums cannot be removed in the synchronous subtraction process when there is no hi-hat sounded alone. This figure is an example in which two hi-hats (reference numeral 56) indicated as “HH sung at the same time as BD” and two hi-hats indicated as “HH sung singly” are grouped as the same hi-hat. In order to isolate only the hi-hat so as not to impair the amplitude component of the bass drum struck at the same time as the hi-hat of
一方、図23(b)は、バスドラム分離処理(図22のS82参照)の説明図である。同図に示すように、4つ打ち系の楽曲の場合、バスドラムとスネアドラムが同時に鳴ることがある。この場合、バスドラムは、スネアドラムよりも鳴る回数が多いため、単独で存在する確率が高い。つまり、バスドラムを分離しないでスネアドラムのスペクトグラム形状を推定しようとしても、バスドラムと被っていることが多いため、正しく推定できない可能性が高い。また、バスドラムの音色が残ったままでスネアドラムの音を分離すると、バスドラムの音が目立ってしまうといった問題もある。そのため、バスドラムを先に分離する必要がある。同図の例では、符号57の4つのバスドラムを分離する。
On the other hand, FIG. 23B is an explanatory diagram of the bass drum separation process (see S82 in FIG. 22). As shown in the figure, in the case of a four-tone type musical composition, a bass drum and a snare drum may sound simultaneously. In this case, the bass drum has a higher number of sounds than the snare drum, and therefore has a high probability of being present alone. That is, even if an attempt is made to estimate the spectrogram shape of the snare drum without separating the bass drum, there is a high possibility that it cannot be correctly estimated because it often covers the bass drum. Another problem is that if the snare drum sound is separated while the bass drum tone remains, the bass drum sound will stand out. Therefore, it is necessary to separate the bass drum first. In the example of the figure, four bass drums denoted by
なお、スネアドラム分離処理(図22のS83参照)については、特に図示しないが、バスドラムを分離した後に処理を行うため、スペクトグラム形状の推定が容易である。また、単独ハイハット処理(図22のS84参照)についても、特に図示しないが、スネアドラムと同様に、既に被っている音が分離された後に処理を行うため、スペクトグラム形状の推定が容易である。 The snare drum separation process (see S83 in FIG. 22) is not particularly shown, but the process is performed after the bass drum is separated, so that the spectrogram shape can be easily estimated. Also, the single hi-hat process (see S84 in FIG. 22) is not particularly shown. However, as with the snare drum, the process is performed after the sound already covered is separated, so that the spectrogram shape can be easily estimated. .
続いて、第1特定部41、第2特定部42および同期減算部43による同期減算処理について説明する。打楽器は、繰り返し同じ波形で鳴らされるが、打楽器以外の成分は異なる音程で鳴らされることが多い。このため、共通部分を抽出することで、打楽器のみの成分を残すことができる。まず、第1特定部41および第2特定部42による同期減算の相手を特定する方法について説明する。同期減算は、詳細判別処理で同じグループに属すると判別されたもの同士で相関値を算出し、最も相関値が高いもの同士で行う。例えば、図17(b)のように、8小節の中に、同一種類の周波数スペクトログラムが複数含まれている場合、その中の任意の周波数スペクトログラム(同図、符号52)を第1スペクトログラムとして特定する。また、第1スペクトログラムと最も相関値が高い周波数スペクトログラム(同図、符号53)を、同期減算の相手となる第2スペクトログラムとして特定する。なお、第1スペクトログラムおよび第2スペクトログラムの特定は、1のグループ内に含まれる全ての周波数スペクトログラムを対象として行う。つまり、1のグループ内にL個の周波数スペクトログラムが含まれる場合、L回のスペクトログラム特定および同期減算処理を繰り返すことになる。
Next, the synchronous subtraction process performed by the first specifying
図24は、同期減算部43による同期減算処理の説明図である。同図(a)は、同期減算の対象として決定された2つのスネアドラムに対し、ベロシティ情報に基づいて、スペクトグラムの大きさを揃えた後の状態を示している。例えば、同図左側が第1スペクトログラムであり、右側が第2スペクトログラムである。同図(b)に示すように、これら2つのスネアドラムの同期減算を行うと、減算元の第1スペクトログラムに含まれていない成分が、マイナス成分となる。また、スネアドラム成分以外は双方同じ大きさであるため、打楽器以外の成分を抽出できる。さらに、マイナス成分を「0」にすると、減算元の第1スペクトログラムのうち、打楽器以外の成分が残る。その後、同図(c)に示すように、減算元の第1スペクトログラムから、上記の打楽器以外の成分を減算すると、共通成分(本来のスネアドラムのスペクトログラム形状)を求めることができる。
FIG. 24 is an explanatory diagram of the synchronous subtraction process by the
なお、同期減算処理については、図24に示した方法ではなく、双方のスペクトログラムの振幅を各フレーム、各binで比較して、小さい方を採用する、といった単純な方法でも良い。 Note that the synchronous subtraction process is not limited to the method shown in FIG. 24 but may be a simple method in which the amplitudes of both spectrograms are compared for each frame and each bin and the smaller one is adopted.
続いて、同期加算部44による同期加算処理について説明する。この処理は、同期減算によって求めたスペクトログラム形状の誤差を減少させるために行われる。図25は、同期加算処理の説明図である。同図に示すように、同期加算処理では、1のグループ内に存在するL個の周波数スペクトログラムの同期減算結果を、同期加算によって平均化する。同図の例では、同期加算の対象が4個の周波数スペクトログラムであったため、4個の周波数スペクトログラムについての同期減算データの合計値を4で除算し、平均値(同期処理済みデータ)を求めている。なお、同期加算処理は、1のグループ内に存在する同期減算結果が1のみの場合、省略される。
Next, the synchronous addition process by the
続いて、再アタック検出部45による再アタック検出処理について説明する。この処理は、アタック位置が正確でない場合や、スネアドラムのみ前倒しで発音されている場合などを考慮し、同期処理済みデータに基づいて、アタック検出を行う。図26は、再アタック検出処理までの流れを示す簡易フローチャートおよびその説明図である。
Next, re-attack detection processing by the
まず、不図示の拍位置解析アプリケーションより、拍位置の解析結果を取得する(S91)。なお、同図のS91およびS92は、発音位置情報(図1参照)の取得前に行われる工程である。つまり、本実施形態における発音位置情報は、拍位置解析アプリケーションの解析結果を元に生成されている。S91の説明図に示すように、拍位置の解析結果は、楽曲によってBPMが正確であっても、拍位置が遅れてしまうことがある。そこで、拍位置の遅れを回避するため、全ての拍位置を所定時間(例えば、50ms)前倒ししておく(S92)。その後、第1特定部41、第2特定部42、同期減算部43および同期加算部44による同期処理を行う(S93)。このとき、前倒しによりアタックの取り逃しは回避できるが、元々正しい拍位置が検出されていた楽曲では、前倒しによって余分な音(符号61,符号62参照)が入ってしまうことがある。このうち符号62については、鳴り終わり判定部46による鳴り終わり判定(図12参照)で除去するが、符号61についての除去が別途必要となる。そこで、同期処理後の単体の打楽器に対して改めてアタック検出を行い(S94)、図22のS86にて、アタックよりも前の音を削除する(無音にする)。このように、再アタック検出処理は、単体の打楽器に対して行うため、スネアドラムのみ前倒ししている楽曲についても、正確にそのアタック位置を検出することができる。
First, a beat position analysis result is acquired from a beat position analysis application (not shown) (S91). In addition, S91 and S92 of the same figure are processes performed before acquisition of sound generation position information (refer FIG. 1). That is, the pronunciation position information in the present embodiment is generated based on the analysis result of the beat position analysis application. As shown in the explanatory diagram of S91, the beat position may be delayed in the analysis result of the beat position even if the BPM is accurate depending on the music. Therefore, in order to avoid a delay in beat positions, all beat positions are moved forward by a predetermined time (for example, 50 ms) (S92). Thereafter, synchronization processing is performed by the
なお、拍位置の遅れがない場合、S91およびS92の処理を省略可能である。また、発音位置情報に、「スネアドラムのみ前倒しされている」旨の情報が含まれる場合、再アタック検出処理(S94)を省略できる。 If there is no delay in the beat position, the processing of S91 and S92 can be omitted. Further, when the sound generation position information includes information indicating that “only the snare drum has been advanced”, the re-attack detection process (S94) can be omitted.
続いて、鳴り終わり判定部46による鳴り終わり判定処理について説明する。この処理は、同期処理を行っても打楽器以外の成分を削除しきれない場合があるため、打楽器の大まかな鳴り終わりを判定し、打楽器以外の成分を削除するために行う。具体的には、図12に示した2つの方法で鳴り終わりを判定する。まず、継続音範囲検出処理(図10のS57参照)において、サビフラグが立てられている場合、全ての帯域で図12(a)に示した平均値終了判定法による終了点を用いる。これは、サビでは全帯域で継続音が定常的になっている可能性が高いため、余計な音が入りにくい平均値終了判定法を用いることが好ましいためである。また、サビフラグが立てられていない場合は、継続音範囲(継続音が存在する帯域)に対して平均値終了判定法による終了点を用い、継続音範囲以外に対しては、図12(b)に示した新規アタック判定法による終了点を用いる。これは、平均値終了判定法が、余計な音が入りにくい代わりに実際の音より短めに打ち切られてしまう特徴があり、新規アタック判定法が、余計な音が入ってしなう可能性があるものの、実際の音と同じような終了点を検出できる(打楽器の消え際まで音を出すことができる)特徴があるためである。つまり、余計な音が入ってしまうおそれのある継続音範囲に対してのみ、余計な音が入りにくい平均値終了判定法を使用し、それ以外は新規アタック判定法を使用することで、より適切に打楽器音の終了点を特定することができる。なお、図12では、バスドラムの鳴り終わり判定について例示したが、スネアドラムやハイハットについても同様に鳴り終わり判定処理を行う。
Next, the sound end determination process by the sound
ところで、鳴り終わり判定処理では、各周波数binについて鳴り終わりを判定するため、鳴り終わり地点が周りの周波数binと比べて極端に短かったり長かったりする場合がある。このような極端な鳴り終わり地点が検出されると、分離される打楽器音が劣化してしまう。このため、鳴り終わり地点を揃える必要がある。 By the way, in the sounding end determination process, since the sounding end is determined for each frequency bin, the sounding end point may be extremely shorter or longer than the surrounding frequency bins. When such an extreme end point is detected, the percussion instrument sound to be separated is deteriorated. For this reason, it is necessary to align the ringing end points.
図27は、鳴り終わり修正処理の説明図である。この処理は、鳴り終わり判定の結果、同図(a)に示すように、極端に短い鳴り終わりや極端に長い鳴り終わりが存在する場合、同図(a)に示すように、極端に短い/長い鳴り終わりを周りに合わせる処理である。同図(c)は、鳴り終わりを周りに合わせる方法を示している。同図に示すように、全周波数帯域を1/3オクターブ幅に分割し、1/3オクターブ幅単位で鳴り終わり地点を中央値に揃えている。なお、帯域の分割数や各帯域の範囲については、設定変更可能である。 FIG. 27 is an explanatory diagram of a ringing end correction process. As shown in FIG. 6A, this process is performed when the end of the ringing is extremely short and the end of the long ringing is extremely short as shown in FIG. It is a process that adjusts the end of a long ringing around. FIG. 5C shows a method for matching the end of the ringing around. As shown in the figure, the entire frequency band is divided into 1/3 octave widths, and the end points of sounding are aligned to the median in 1/3 octave width units. Note that the setting of the number of divided bands and the range of each band can be changed.
続いて、アタック検出できなかった情報を補完する方法(図22のS85)について説明する。アタックが非常に弱い打楽器の場合、再アタック検出処理(図26のS94参照)における、「アタックと看做す閾値」を超えない成分が存在する場合がある。これは、「アタックと看做す閾値」が図1の発音位置情報を検出する処理と、打楽器音分離の処理で異なるためである。そこで、拍位置解析アプリケーションから得られた拍位置が、本当のアタック位置からどの位ずれているのかを示すアタック値の最頻値を算出し、アタック検出できなかった情報を補完する。アタック検出できなかった箇所は、「アタックと看做す閾値」に満たないため、非常に弱いアタックであるが、発音位置情報から、打楽器の発音位置が分かっているため、この部分を補完する。例えば、ハイハットが5種類鳴っている場合を想定する。ハイハット1は5ms、ハイハット2は10ms、ハイハット3は10ms、ハイハット4は8ms、とアタック値(アタックのずれ時間)が算出されて、ハイハット5がアタックの閾値に満たなかったとする。このとき、5msと8msは1回しか現れていないが、10msは2回現れているため、ハイハット5のアタック値が不明である場合も、一番多く現れている10msとする。
Next, a method for supplementing information that could not be attack detected (S85 in FIG. 22) will be described. In the case of a percussion instrument with a very weak attack, there may be a component that does not exceed the “threshold value regarded as an attack” in the re-attack detection process (see S94 in FIG. 26). This is because the “threshold value regarded as an attack” differs between the process of detecting the pronunciation position information in FIG. 1 and the percussion instrument sound separation process. Therefore, the mode value of the attack value indicating how much the beat position obtained from the beat position analysis application is deviated from the true attack position is calculated, and the information that could not be detected is complemented. The location where the attack could not be detected is less than the “threshold value to be regarded as an attack” and is a very weak attack. However, since the pronunciation position of the percussion instrument is known from the pronunciation position information, this portion is complemented. For example, a case where five types of hi-hats are sounding is assumed. Assume that the attack value (attack deviation time) is calculated as 5 ms for hi-
次に、分離した各打楽器音の応用例について説明する。図28は、打楽器音の調節に関する説明図である。同図に示すように、バスドラム、スネアドラム、ハイハット、3音以外の、それぞれの音量を、ロータリー型操作子71等の操作子を用いて調節しても良い。また、音量ではなく、各打楽器音の分離率(生成率)を調節可能としても良い。この場合、調節可能な分離率の最小値を、0(ゼロ)としても良い。
Next, application examples of the separated percussion instrument sounds will be described. FIG. 28 is an explanatory diagram regarding adjustment of percussion instrument sounds. As shown in the figure, each volume other than the bass drum, snare drum, hi-hat, and three sounds may be adjusted using an operator such as a
その他、バスドラム、スネアドラム、ハイハット、3音以外の、それぞれの音に対し、異なるエフェクトをかけても良い。また、そのエフェクト付与率(加工処理量)を、ユーサーが調節可能としても良い。エフェクトとしては、ディレイ、リバーブ、エコーなど、DJ機器のエフェクター等で用いられる各種音響効果を適用可能である。操作方法としては、例えばバスドラムに対応したロータリー型操作子71を右側に回転させると、バスドラム音の数を徐々に増加させ(ディレイをかけて足していき)、左側に回転させると、バスドラム音の数を徐々に減衰させる、などが考えられる。なお、操作子の形態は、ロータリー型操作子71に限らず、フェーダー型操作子やタッチパネルなどその種類を問わない。
In addition, different effects may be applied to each sound other than the bass drum, snare drum, hi-hat, and three sounds. Further, the effect applying rate (processing amount) may be adjustable by the user. Various effects such as delay, reverb, echo, and other effects used in DJ equipment effectors can be applied as effects. As an operation method, for example, when the rotary
また、図29に示すように、分離した打楽器音を譜面表示しても良い。つまり、バスドラム、スネアドラム、ハイハットの判別結果をMIDI(Musical Instrument Digital Interface)化し、ドラム譜面72として用いても良い。この場合、ハイハットについては、オープンハイハットとクローズハイハットに分け、打楽器種類別(グループ別)に表示しても良い。また、スネアドラムに代えて、ハンドクラップを譜面表示しても良い。ハンドクラップは、スネアドラムと同様の処理工程により、スペクトログラム形状の推定・分離が可能である。
Further, as shown in FIG. 29, the separated percussion instrument sound may be displayed as a musical score. That is, the discrimination result of the bass drum, snare drum, and hi-hat may be converted to MIDI (Musical Instrument Digital Interface) and used as the
また、特に図示しないが、ドラムをMIDIで鳴らし、音色を切り替えても良い。つまり、各打楽器音のアタックのタイミングで、別の音(アコースティックドラムなど)を出力しても良い。また、分離した打楽器音をサンプリングし、ユーザーが入力したシーケンスにしたがって(若しくはユーザーが指定した出力タイミングで)、各打楽器音を出力しても良い。 Although not particularly shown, the drum may be sounded with MIDI to switch the timbre. That is, another sound (such as an acoustic drum) may be output at the timing of each percussion instrument sound attack. Alternatively, the percussion instrument sounds may be sampled and output according to the sequence input by the user (or at the output timing specified by the user).
以上説明したとおり、本実施形態によれば、打楽器音分離部18において、同期処理により周波数スペクトログラムを推定するため、テンプレートを用いる必要がない。したがって、楽曲によらず、打楽器ごとのスペクトログラム形状を正確に推定することができる。また、継続音除去部12において、所定時間以上継続している継続音成分を除去するため、打楽器音分離部18によるスペクトログラム形状をより正確に推定することができる。
As described above, according to the present embodiment, the percussion instrument
また、詳細判別用音加工部14では、詳細判別処理の前処理として、打楽器別に不要な音を除去するため、詳細判別部15の判別正答率を上げることができる。また、詳細判別用音加工部14では、打楽器のアタック位置から検索区間を特定し、その検索区間の所定位置における振幅値を減算するため、簡易な処理で、不要な音を除去することができる。また、打楽器別に、振幅値の抽出方法が異なるため、目的の打楽器音をより正確に抽出することができる。また、バスドラムの加工においては、鳴り終わりを判定し、鳴り終わった場合は鳴り終わり以降をゼロにするため、不要な音を確実に除去することができる。また、詳細判別部15では、同じ打楽器種類且つ同じ鳴り方をしていることを条件として周波数スペクトログラムをグルーピングするため、後段の打楽器音分離部18における同期処理の精度を上げることができる。
Further, since the detailed discrimination
また、ベロシティ特定部16では、各打楽器のベロシティを特定するため、後段のグルーヴ判定部17において、楽曲のグルーヴを正確且つ容易に判定することができる。また、ベロシティを特定するために、楽曲の8小節のうち、雑音が入りにくい一部の区間(バスドラムは、2つ目のアタック〜最後のアタック、スネアドラムとハイハットは、3小節目〜6小節目)を対象としてベロシティの検出を行うため、正確な検出結果が得られる。さらに、その検出結果をグループごと且つ単位時間ごとに平均化し、その平均化した値を、8小節のうち一部の区間以外の区間に補完するため、各打楽器の8小節における各単位時間のベロシティを正確に特定することができる。また、ベロシティを正確に特定することで、打楽器音分離部18における同期処理の精度を上げることができる。
Further, since the
なお、以下の変形例・応用例を採用可能である。例えば、上記の実施形態では、外部から発音位置情報を取得する構成としたが、音声信号処理装置1によって楽曲の解析を行い、発音位置情報を生成する構成としても良い。また、ユーザーが発音位置情報を手入力しても良い。
Note that the following modifications and application examples can be employed. For example, in the above embodiment, the sound generation position information is acquired from the outside. However, the sound
また、上記の実施形態のバスドラム加工部21は、図30(a)に示すように、検索区間(t1〜t2)の最後のフレームにおける振幅データ51aを減算する処理を行ったが、同図(b)に示すように、検索区間(t1〜t2)の最初のフレームにおける振幅データ51bを減算しても良い。前者の場合(上記の実施形態の場合)は、同図(a)に示すように、バスドラムと同時に音程が切り替わる場合に効果的である。また、後者の場合は、同図(b)に示すように、バスドラムの発音前からベース音が鳴り続けている場合に効果的である。この場合は、検索区間の最後の振幅データを減算すると、音程が変わっていたり、ベース音自体が減衰している可能性があるためである。また、減算対象となるフレームの位置(抽出部21dにより抽出する位置)を、検索区間の開始位置や終了位置またはアタック位置を基準としてユーザーが設定可能としても良いし、楽曲解析結果に応じてフレームの位置を可変しても良い。
Further, as shown in FIG. 30A, the bass
また、バスドラム加工部21の変形例として、抽出部21dにより、検索区間の先頭から所定数(但し、2以上)のフレーム、または検索区間の最後から所定数(但し、2以上)のフレームを抽出し、第1加工部21eにより、検索区間に含まれる全フレームから、抽出された所定数のフレームの平均振幅値を減算しても良い。この場合、所定数は、オーバーラップ数と同じ数(4回オーバーラップの場合は「4」)が好ましい。
As a modification of the bass
さらに、バスドラム加工部21における第1加工部21eの変形例として、減算以外の処理を行っても良い。つまり、検索区間に含まれる音声データを、抽出部21dで抽出された振幅値に基づいて加工するものであれば、その演算方法は問わない。また、減算処理を行う場合でも、減算割合を100%とするのではなく、80%または50%など所定の割合で減算しても良い。
Further, as a modification of the
また、詳細判別用音加工部14の応用例として、打楽器音以外の音を対象として加工処理を行っても良い。例えば、図31に示すように、ピアノの伴奏に合わせてボーカルが流れている場合、各周波数帯域において、ボーカルの基音が存在しない位置の振幅データ(例えば、符号54または符号55に示す振幅データ)を抽出して減算処理を行うことにより、ボーカルのみを抽出することができる。
Further, as an application example of the detailed discrimination
また、上記の実施形態のベロシティ特定部16は、1小節を16分割した16分音符単位でベロシティを特定(検出および算出)したが、特定単位(分割数)は任意である。また、楽曲に応じて(発音位置情報をはじめ、楽曲ジャンル、楽曲BPM(Beats Per Minute)、リズムなどの情報に応じて)、特定単位を可変しても良い。
Further, the
また、上記の実施形態の打楽器音分離部18は、3つの打楽器(バスドラム、スネアドラム、ハイハット)について、スペクトログラム形状の推定および打楽器音の分離を行ったが、これらの打楽器以外の打楽器にも、本実施形態を適用可能である。また、打楽器以外のリズム楽器、またはリズム楽器以外の楽器にも、本実施形態を適用可能である。
Further, the percussion instrument
また、上記の実施形態では、所定の発音期間を8小節としたが、それより長い/短い期間としても良い。また、楽曲1曲分を、所定の発音期間としても良い。 In the above embodiment, the predetermined sound generation period is eight bars, but a longer / shorter period may be used. Further, one music piece may be set as a predetermined pronunciation period.
また、上記の各実施形態に示した音声信号処理装置1における各部および各機能をプログラム(アプリケーション)として提供することが可能である。また、そのプログラムを各種記録媒体(CD−ROM、フラッシュメモリ等)に格納して提供することも可能である。すなわち、コンピューターを、音声信号処理装置1の各部として機能させるためのプログラム、およびそれを記録した記録媒体も、本発明の権利範囲に含まれる。その他、音声信号処理装置1を、ネットワーク上のサーバー(クラウドコンピューティング)で実現するなど、本発明の要旨を逸脱しない範囲で適宜変更が可能である。
Moreover, it is possible to provide each part and each function in the audio | voice
1:音声信号処理装置 11:FFT部 12:継続音除去部 13:帯域分割部 14:詳細判別用音加工部 15:詳細判別部 16:ベロシティ特定部 17:グルーヴ判定部 18:打楽器音分離部 21:バスドラム加工部 21a:発音位置情報取得部 21b:検索区間特定部 21c:鳴り終わり判定部 21d:抽出部 21e:第1加工部 21f:第2加工部 22:スネアドラム加工部 23:ハイハット加工部 31:ベロシティ検出部 32:ベロシティ算出部 41:第1特定部 42:第2特定部 43:同期減算部 44:同期加算部 45:再アタック検出部 46:鳴り終わり判定部 47:音源生成部 48:音源分離部
DESCRIPTION OF SYMBOLS 1: Audio | voice signal processing apparatus 11: FFT part 12: Continuous sound removal part 13: Band division part 14: Sound processing part for detailed determination 15: Detailed determination part 16: Velocity specific part 17: Groove determination part 18: Percussion instrument sound separation part 21: Bass
Claims (12)
前記所定の発音区間から、前記第1スペクトログラムとの相関値に基づいて、前記任意の楽器と同一楽器の周波数スペクトログラムである第2スペクトログラムを特定する第2特定部と、
前記第1スペクトログラムと前記第2スペクトログラムの共通成分を抽出する同期減算部と、を備えたことを特徴とする音声信号処理装置。 A first specifying unit for specifying a first spectrogram which is a frequency spectrogram of an arbitrary instrument from a predetermined sound generation section;
A second specifying unit that specifies a second spectrogram that is a frequency spectrogram of the same musical instrument as the arbitrary musical instrument based on a correlation value with the first spectrogram from the predetermined sounding section;
An audio signal processing apparatus, comprising: a synchronous subtractor that extracts a common component of the first spectrogram and the second spectrogram.
前記任意の楽曲に、複数の楽器音が含まれている場合、
前記楽器音ごとに、前記第1特定部、前記第2特定部、前記同期減算部、前記同期加算部、前記音源生成部および前記音源分離部の処理を含む楽器音分離処理を実行することを特徴とする請求項4に記載の音声信号処理装置。 A sound source separation unit that separates a synchronization-processed sound source of the arbitrary musical instrument generated by the sound source generation unit from an arbitrary music piece;
If the arbitrary music contains a plurality of instrument sounds,
For each instrument sound, performing instrument sound separation processing including processing of the first specifying unit, the second specifying unit, the synchronization subtracting unit, the synchronization adding unit, the sound source generating unit, and the sound source separating unit. The audio signal processing device according to claim 4, wherein
前記楽器音分離処理は、別の打楽器と同時に発音されているハイハット、バスドラム、スネアドラム、単独で発音されているハイハットの順に前記同期処理済み音源を分離することを特徴とする請求項5に記載の音声信号処理装置。 When the plurality of instrument sounds are bass drums, snare drums, hi-hats, and there is a hi-hat that is sounding alone and a hi-hat that is sounding simultaneously with another percussion instrument in the arbitrary music piece,
6. The instrument sound separation process of claim 5, wherein the synchronized sound source is separated in the order of a hi-hat sounded simultaneously with another percussion instrument, a bass drum, a snare drum, and a hi-hat sounded independently. The audio signal processing device described.
前記同期減算部は、前記打楽器ごとのベロシティに基づいて、前記第1スペクトログラムと前記第2スペクトログラムの振幅値を揃えた後、前記共通成分を抽出することを特徴とする請求項6に記載の音声信号処理装置。 For a frequency band defined for each percussion instrument, further comprising a velocity specifying unit for specifying a velocity for each percussion instrument for each unit time obtained by equally dividing the predetermined sound generation section,
The voice according to claim 6, wherein the synchronous subtraction unit extracts the common component after aligning amplitude values of the first spectrogram and the second spectrogram based on a velocity for each percussion instrument. Signal processing device.
前記第2特定部は、前記第1スペクトログラムと同じグループに属する1以上の周波数スペクトログラムの中から、前記第2スペクトログラムを特定することを特徴とする請求項6または7に記載の音声信号処理装置。 A detailed discriminating section for grouping a plurality of frequency spectrograms existing in the predetermined sound generation section on condition that the same percussion instrument type and the same sounding method are used,
The audio signal processing apparatus according to claim 6 or 7, wherein the second specifying unit specifies the second spectrogram from one or more frequency spectrograms belonging to the same group as the first spectrogram.
前記詳細判別部は、前記発音位置情報から、前記所定の発音区間に、前記第1スペクトログラムと同じ打楽器の周波数スペクトログラムが複数存在することが分かっている場合、当該複数の周波数スペクトログラムの前記第1スペクトログラムに対する相関値の平均値を算出し、当該平均値を超える相関値の周波数スペクトログラムを、前記第1スペクトログラムと同じグループとして分類することを特徴とする請求項8に記載の音声信号処理装置。 A pronunciation position information acquisition unit for acquiring pronunciation position information indicating the pronunciation positions of the three percussion instruments;
When it is known from the sound generation position information that there are a plurality of frequency spectrograms of the same percussion instrument as the first spectrogram in the predetermined sound generation section, the detailed determination unit determines the first spectrogram of the plurality of frequency spectrograms. 9. The audio signal processing apparatus according to claim 8, wherein an average value of correlation values with respect to is calculated, and a frequency spectrogram of correlation values exceeding the average value is classified as the same group as the first spectrogram.
前記第1特定部および前記第2特定部は、前記継続音成分が除去された後、前記第1スペクトログラムおよび前記第2スペクトログラムを特定することを特徴とする請求項5ないし9のいずれか1項に記載の音声信号処理装置。 A continuous sound removing unit that extracts a continuous sound component that continues for a predetermined time or more based on amplitude spectrum information obtained by performing a frequency Fourier transform on the sound signal of the arbitrary music piece, and removes the continuous sound component from the sound signal; Prepared,
The said 1st specific part and the said 2nd specific part identify the said 1st spectrogram and the said 2nd spectrogram after the said continuous sound component is removed, The any one of Claim 5 thru | or 9 characterized by the above-mentioned. The audio signal processing apparatus according to 1.
前記所定の発音区間から、前記第1スペクトログラムとの相関値に基づいて、前記任意の楽器と同一楽器の周波数スペクトログラムである第2スペクトログラムを特定する第2特定ステップと、
前記第1スペクトログラムと前記第2スペクトログラムの共通成分を抽出する同期減算ステップと、を実行することを特徴とする音声信号処理装置の制御方法。 A first specifying step of specifying a first spectrogram which is a frequency spectrogram of an arbitrary instrument from a predetermined sound generation section;
A second specifying step of specifying a second spectrogram which is a frequency spectrogram of the same musical instrument as the arbitrary instrument based on a correlation value with the first spectrogram from the predetermined sounding section;
A method for controlling an audio signal processing device, comprising: performing a synchronous subtraction step of extracting a common component of the first spectrogram and the second spectrogram.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013268963A JP6263382B2 (en) | 2013-12-26 | 2013-12-26 | Audio signal processing apparatus, audio signal processing apparatus control method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013268963A JP6263382B2 (en) | 2013-12-26 | 2013-12-26 | Audio signal processing apparatus, audio signal processing apparatus control method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015125238A JP2015125238A (en) | 2015-07-06 |
JP6263382B2 true JP6263382B2 (en) | 2018-01-17 |
Family
ID=53535980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013268963A Active JP6263382B2 (en) | 2013-12-26 | 2013-12-26 | Audio signal processing apparatus, audio signal processing apparatus control method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6263382B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113081054B (en) * | 2018-12-04 | 2022-10-11 | 深圳迈瑞生物医疗电子股份有限公司 | Ultrasonic imaging method and ultrasonic imaging system |
JP7286570B2 (en) * | 2020-02-25 | 2023-06-05 | 株式会社東芝 | Signal specification determination device and signal specification determination method |
CN112037814B (en) * | 2020-08-20 | 2024-01-30 | 北京达佳互联信息技术有限公司 | Audio fingerprint extraction method and device, electronic equipment and storage medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3569104B2 (en) * | 1997-05-06 | 2004-09-22 | 日本電信電話株式会社 | Sound information processing method and apparatus |
JP2004240214A (en) * | 2003-02-06 | 2004-08-26 | Nippon Telegr & Teleph Corp <Ntt> | Acoustic signal discriminating method, acoustic signal discriminating device, and acoustic signal discriminating program |
JP5438704B2 (en) * | 2011-02-23 | 2014-03-12 | 日本電信電話株式会社 | Sound source parameter estimation device, sound source separation device, method and program thereof |
-
2013
- 2013-12-26 JP JP2013268963A patent/JP6263382B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015125238A (en) | 2015-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4823804B2 (en) | Code name detection device and code name detection program | |
JP4767691B2 (en) | Tempo detection device, code name detection device, and program | |
US10235981B2 (en) | Intelligent crossfade with separated instrument tracks | |
Chen et al. | Electric Guitar Playing Technique Detection in Real-World Recording Based on F0 Sequence Pattern Recognition. | |
JP4973537B2 (en) | Sound processing apparatus and program | |
JP2008040284A (en) | Tempo detector and computer program for tempo detection | |
JP3789326B2 (en) | Tempo extraction device, tempo extraction method, tempo extraction program, and recording medium | |
US8554348B2 (en) | Transient detection using a digital audio workstation | |
US20060075883A1 (en) | Audio signal analysing method and apparatus | |
JP2014029425A (en) | Accompaniment progress generation device and program | |
JP6263382B2 (en) | Audio signal processing apparatus, audio signal processing apparatus control method, and program | |
CN108292499A (en) | Skill determining device and recording medium | |
JP6263383B2 (en) | Audio signal processing apparatus, audio signal processing apparatus control method, and program | |
JP2010025972A (en) | Code name-detecting device and code name-detecting program | |
CN107210029A (en) | Method and apparatus for handling succession of signals to carry out polyphony note identification | |
JP2005292207A (en) | Method of music analysis | |
Every et al. | A spectral-filtering approach to music signal separation | |
JP6920445B2 (en) | Music analysis device and music analysis program | |
JP6235198B2 (en) | Audio signal processing method, audio signal processing apparatus, and program | |
Stöter et al. | Unison Source Separation. | |
JP5153517B2 (en) | Code name detection device and computer program for code name detection | |
Fitria et al. | Music transcription of javanese gamelan using short time fourier transform (stft) | |
JP2001067068A (en) | Identifying method of music part | |
JP5618743B2 (en) | Singing voice evaluation device | |
Cano et al. | Melody line detection and source separation in classical saxophone recordings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20151127 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161031 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6263382 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |