JP6601109B2 - Instrument identification device - Google Patents
Instrument identification device Download PDFInfo
- Publication number
- JP6601109B2 JP6601109B2 JP2015195238A JP2015195238A JP6601109B2 JP 6601109 B2 JP6601109 B2 JP 6601109B2 JP 2015195238 A JP2015195238 A JP 2015195238A JP 2015195238 A JP2015195238 A JP 2015195238A JP 6601109 B2 JP6601109 B2 JP 6601109B2
- Authority
- JP
- Japan
- Prior art keywords
- channel
- score information
- acoustic signal
- instrument
- channels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 claims description 9
- 238000003672 processing method Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 9
- 230000007717 exclusion Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000009527 percussion Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 241001077262 Conga Species 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G1/00—Means for the representation of music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Description
本発明は楽器類識別装置に関する。 The present invention relates to a musical instrument identification device.
例えば、下記特許文献1には、アコースティック楽器、自然音、人、生物等の音源が発した音から、音源を特定する音源識別装置が開示されている。具体的には、当該音源識別装置は、音源から発せられる音の特徴データをデータベースに登録しておき、特定対象の音源から発せられた音の特徴データベースとの相関に基づいて、音源を特定する。
For example,
しかしながら、上記音源識別装置においては、対象である音響信号毎に独立して音源を特定する構成であることから、例えば、複数の楽器からの音響信号が入力される場合に、類似する音色の楽器について音源の特定の精度が不十分である場合がある。 However, since the sound source identification device is configured to specify a sound source independently for each target acoustic signal, for example, when acoustic signals from a plurality of musical instruments are input, musical instruments of similar tones The specific accuracy of the sound source may be insufficient.
上記に鑑み、本発明は、例えば、複数の楽器からの音響信号が入力される場合であっても、より精度よく楽器の識別が可能な楽器類識別装置等を実現することを目的とする。 In view of the above, an object of the present invention is to realize a musical instrument identification device and the like that can identify musical instruments with higher accuracy even when acoustic signals from a plurality of musical instruments are input.
楽器類識別装置であって、複数のチャンネル毎に取得された音響信号に基づいて、前記音響信号の特徴および前記音響信号の楽器類毎に、当該楽器類に対応する可能性を表す指標値により構成される指標値データを取得する指標値取得手段と、前記複数のチャンネル間の音響信号に基づいて、前記チャンネル間における前記音響信号の特徴を特徴情報として検出するチャンネル間特徴情報検出手段と、前記指標値データと前記特徴情報に基づいて、前記各チャンネルの前記楽器類毎に、前記楽器類に該当する確度に応じた値をスコア情報として生成するスコア情報生成手段と、を含むことを特徴とする。 A musical instrument identification device based on an acoustic signal acquired for each of a plurality of channels, based on an index value representing the characteristics of the acoustic signal and the possibility of corresponding to the instrument for each instrument of the acoustic signal Index value acquisition means for acquiring index value data configured; interchannel feature information detection means for detecting features of the acoustic signal between the channels as feature information based on the acoustic signals between the plurality of channels; Score information generating means for generating, as score information, a value corresponding to the accuracy corresponding to the musical instrument for each musical instrument of each channel based on the index value data and the characteristic information. And
以下、本発明の実施形態について、図面を参照しつつ説明する。なお、図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。 Embodiments of the present invention will be described below with reference to the drawings. In addition, about drawing, the same code | symbol is attached | subjected to the same or equivalent element, and the overlapping description is abbreviate | omitted.
図1は、本実施の形態における音響信号処理システムの概要の一例を示す図である。図1に示すように、音響信号処理システム100は、例えば、キーボード101、ドラム102、ギター103、マイク104、トップマイク105、ミキサ106、アンプ107、スピーカ108を有する。
FIG. 1 is a diagram illustrating an example of an outline of an acoustic signal processing system according to the present embodiment. As shown in FIG. 1, the acoustic
キーボード101は、例えば、シンセサイザーや電子ピアノであって、演奏者の演奏に応じて、音響信号を出力する。マイク104は、例えば、歌手の声を収音し、当該収音した音を音響信号として出力する。ドラム102は、例えば、ドラムセットと、当該ドラムセットに含まれる打楽器(例えばバスドラムやスネアドラム等)を打つことにより発生する音を収音する各マイクを含む。当該マイクは、打楽器ごとに設けられており、収音した音を音響信号として出力する。ギター103は、例えば、アコースティックギター103とマイクを有し、アコースティックギター103の音を、当該マイクで収音して音響信号として出力する。なお、ギター103は、エレクトリックアコースティックギターやエレクトリックギターとしてもよい。その場合は、マイクを設ける必要はない。トップマイク105は、複数の楽器からの音、例えば、ドラムセットの上方に設置されるマイクであって、ドラムセット全体からの音を収音し、音響信号として出力する。なお、トップマイク105は、例えば左右に設置する等、複数のマイクから構成してもよい。トップマイク105は、ドラムセット以外の楽器類からの音も小音量ながら不可避的に収音する。
The
ミキサ106は、複数の入力端子を有し、当該各入力端子に入力された上記キーボード101、ドラム102、ギター103、マイク104等からの音響信号を電気的に加算、加工し出力する。具体的には、ミキサ106は、例えば、音量等のレベルの制御を行うレベル制御部や音のバランスを変化させ音の定位を調整するパン制御部等を含み、レベル制御等が行われた各音響信号を混合部により、混合して、アンプ107に出力する。なお、本実施の形態におけるミキサ106は、上記のような一般的なミキサ106の構成の他、楽器類識別機能等を有するが、当該楽器類識別機能等の詳細については、後述する。また、一般的なミキサ106の構成については周知であるので、詳細については説明を省略する。
The mixer 106 has a plurality of input terminals, and electrically adds, processes, and outputs acoustic signals from the
アンプ107は、ミキサ106の出力端子から出力される音響信号を増幅しスピーカ108に出力する。スピーカ108は、増幅された音響信号に応じて放音する。
The
次に、本実施の形態におけるミキサ106の構成の一例について説明する。図2は、本実施の形態におけるミキサ106の構成の概要について説明するための図である。図2に示すように、ミキサ106は、例えば、制御部201、記憶部202、操作部203、表示部204、入出力部205を有する。なお、制御部201、記憶部202、操作部203、表示部204、入出力部205は、内部バス206により互いに接続される。
Next, an example of the configuration of the mixer 106 in the present embodiment will be described. FIG. 2 is a diagram for explaining the outline of the configuration of the mixer 106 in the present embodiment. As illustrated in FIG. 2, the mixer 106 includes, for example, a
制御部201は、例えば、CPU、MPU等であって、記憶部202に格納されたプログラムに従って動作する。記憶部202は、例えば、ROMやRAM、ハードディスク等の情報記録媒体で構成され、制御部201によって実行されるプログラムを保持する情報記録媒体である。
The
記憶部202は、制御部201のワークメモリとしても動作する。なお、当該プログラムは、例えば、ネットワーク(図示なし)を介して、ダウンロードされて提供されてもよいし、または、CD−ROMやDVD−ROM等のコンピュータで読み取り可能な各種の情報記録媒体によって提供されてもよい。
The
操作部203は、例えば、スライド式のボリューム、ボタン、ツマミ等、ユーザの指示操作に応じて、当該指示操作の内容を制御部201に出力する。表示部204は、例えば、液晶ディスプレイ、有機ELディスプレイ等であって、制御部201からの指示に従い、情報を表示する。
The
入出力部205は、複数の入力端子及び出力端子を有する。各入力端子には、キーボード101、ドラム102、ギター103、マイク104等の各楽器類およびトップマイク105から、音響信号が入力される。また、出力端子からは、上記入力された音響信号を電気的に加算、加工した音響信号が出力される。なお、当該ミキサ106の構成は、一例であってこれに限定されるものではない。例えば、レベル制御等の一部の機能をアナログで処理するように構成してもよい。
The input /
次に、図3を用いて、本実施の形態におけるミキサ106の制御部201の機能的構成について説明する。
Next, the functional configuration of the
音響信号取得部301は、チャンネル毎に音響信号を取得する。ここで、各チャンネルは、それぞれ上記キーボード101、ドラム102、ギター103等の各楽器類からの各音響信号の各入力端子に対応する。
The acoustic
オンセット・オフセット検出部302は、入力された音響信号からオンセット及びオフセットを抽出する。オンセットとは音響信号の立ち上がりに相当し、オフセットとは当該音響信号の出力が所定の値以下(例えば、ほぼ0)になることに相当する。
The onset / offset
特徴量抽出部303は、オンセットからオフセットの間の音響信号(以下単に「発音区間」という)の特徴量を抽出する。当該抽出はチャンネル毎及び発音区間毎に行う。
The feature
指標値取得部304は、特徴量に基づいて、発音区間毎にどの楽器類であると識別されるかの指標を表す指標値を取得する。なお、当該指標値の取得はチャンネル毎に、また楽器類毎に行う。
The index
具体的には、例えば、指標値取得部304は、図4に示すように、3つのSVM(Support Vector Machine)を用いて構成する。当該3つのSVMは、上記特徴量(例えば、特徴ベクトル(feature vector))に基づいて、入力された発音区間がどの楽器類の候補の音響信号に相当するかにつき識別する。具体的には、SVM0は、ギター(Guitar)や男性、女性音声(male Vo, female Vo)等を表す調和(harmonic)音か、スネア(Snare)やシンバル(Cymbal)等打楽器(percussive)の音かを識別する。SVM1は、入力されたオンセットが、キック(Kick)、スネア、シンバル等の打楽器のいずれの楽器であるかを識別する。SVM2は、入力された発音区間が、バス(Bass)、ギター(Guitar)、男性ボーカル(maleVo)、女性ボーカル(femaleVo)等のいずれであるかを識別する。
Specifically, for example, the index
なお、各SVMで識別する楽器類の種類や数は例示であって、本実施の形態はこれらに限定されるものではない。また、SVMとは、機械学習アルゴリズムの1つであって、あらかじめ各楽器類の音響信号の特徴量を学習させておき、これに基づいて、入力された特徴量がいずれの楽器類であるか分類する技術であるが、周知であるので、詳細については説明を省略する。また、本実施の形態においては、機械学習アルゴリズムによる分類の一例としてSVMを用いる場合について説明するが、その他のアルゴリズム(例えば、単純回帰分析(Simple logistic regression))等を用いてもよい。更に、上記においては3つのSVMを用いる場合について説明したが、本実施の形態は、これに限られず例えば2つのSVM等で構成してもよい。 Note that the types and number of musical instruments identified by each SVM are examples, and the present embodiment is not limited to these. SVM is one of machine learning algorithms, and learns the feature value of the acoustic signal of each instrument beforehand, and based on this, which instrument is the input feature value? Although it is a technique to classify, since it is well known, the description is omitted for details. In this embodiment, the case where SVM is used as an example of classification by a machine learning algorithm will be described, but other algorithms (for example, simple logistic regression) may be used. Furthermore, although the case where three SVMs are used has been described above, the present embodiment is not limited to this, and may be configured with two SVMs, for example.
上記のようにして、取得された指標値から構成される指標値データの一例を図5に示す。ここで、図5において、onsetは入力された各音響信号の発音区間を識別する情報を表す。Onset Timeは、発音区間の開始時刻(以下、オンセット時刻)を表し、Offset Timeは発音区間の終了時刻(以下、オフセット時刻)を示す。amplitudeは、は、発音区間の振幅を表す。また、NonPercussive(上記調和音に相当)及びPercussiveは、SVM0からの出力を、CongaからKickまでは、SVM1からの出力を表し、BassからWindは、SVM2からの出力を示す。なお、指標値の数値が大きいほど、当該楽器類に対応する可能性が高いことを表す。なお、図5において、SVM0については0から1までの数値をとるように設計されている。 An example of index value data composed of the index values acquired as described above is shown in FIG. Here, in FIG. 5, onset represents information for identifying the sound generation interval of each input acoustic signal. Onset Time represents the start time (hereinafter referred to as onset time) of the sounding section, and Offset Time represents the end time (hereinafter referred to as offset time) of the sounding section. “amplitude” represents the amplitude of the sound generation interval. Further, NonPercussive (corresponding to the above harmonic sound) and Percussive represent the output from SVM0, Conga to Kick represent the output from SVM1, and Bass to Wind represent the output from SVM2. In addition, it represents that possibility that it corresponds to the said musical instruments is so high that the numerical value of an index value is large. In FIG. 5, SVM0 is designed to take a numerical value from 0 to 1.
閾値判定・除外部305は、1つのチャンネルに含まれる発音区間が所定の音量閾値以下であるか否かを判定する。そして、閾値判定・除外部305は、所定の音量以下であると判定された発音区間に関する情報を指標値データから除外する。具体的には、例えば、図6に示す場合、Vo. Activeとして示す以外の発音区間(other source)の極大値は、点線で示す音量閾値以下であることから、当該other sourceで表される発音区間を除外する。
The threshold determination /
チャンネル間特徴情報検出部306は、各チャンネルの発音区間を比較し、所定の特徴情報を検出する。ここで、所定の特徴情報とは、例えば、発音区間の開始タイミングが他のチャンネルと異なるという特徴を示す情報である。また、所定の特徴情報は、他のチャンネルの発音区間の信号レベルが当チャンネルの発音区間の信号レベルと比べて非常に小さい(所定の閾値以下)という特徴を示す情報であってもよい。具体的には、例えば、各チャンネルの発音区間が図7に示す場合、図7の701で示す部分のチャンネルの発音区間は、発音区間の開始タイミング(オンセット時刻)が他のチャンネルと異なっており、また、他のチャンネルの信号レベルが当該発音区間の信号レベルと比べて非常に小さい。
The inter-channel feature
また、所定の特徴情報は、例えば、複数のチャンネルに渡ってオンセット時刻・オフセット時刻がほぼ同時(所定の閾値の範囲内)で、かつ、当該複数の発音チャンネルの発音区間について指標値が最も大きな値を示す楽器類が同じ場合であってもよい。具体的には、当該特徴情報は、例えば、図8の801で表す部分に示すように、3チャンネル同時にオンセット時刻、オフセット時刻が同じで、当該3チャンネルのSnareの指標値が当該発音区間について最も高い値であることを示すという特徴情報である。なお、802で表す部分が3チャンネルの間で最も大きな指標値を示す。 Further, the predetermined feature information includes, for example, the onset time and the offset time almost simultaneously (within a predetermined threshold range) across a plurality of channels, and the index value for the sound generation section of the sound generation channels is the highest. The same musical instrument may be used. Specifically, for example, as shown in the part indicated by 801 in FIG. 8, the feature information has the same onset time and offset time for the three channels at the same time, and the Snare index value for the three channels indicates the sound generation interval. This is characteristic information indicating the highest value. Note that the portion represented by 802 indicates the largest index value among the three channels.
スコア情報生成部307は、指標値データ及び上記検出された特徴情報に基づいて、スコア情報を生成する。具体的には、例えば、図4に示すようにSVM1の出力、及び、SVM2の出力に、SVM0の出力のうち調和音と識別された出力、打楽器音と識別された出力をそれぞれ乗算した後、加算してスコア情報を生成する。この場合、SVM1からの当該各出力は0乃至1の範囲とし、SVM1、SVM2の出力のSVM0からの出力に重みづけして乗算する構成とする。なお、当該指標値データは、上記のように閾値以下のオンセットが含まれている場合には当該オンセットが除外された指標値データに相当する。
The score
ここで、スコア情報生成部307は、検出された特徴情報に応じて、各発音区間のスコア情報への寄与度を調整しつつスコア情報を生成する。具体的には、例えば、所定の特徴情報が、上記発音区間の開始タイミングが他のチャンネルと異なるという特徴を示す情報や、他のチャンネルの発音区間の信号レベルが当チャンネルの発音区間の信号レベルと比べて非常に小さいという特徴を示す情報の場合は、当該発音区間の寄与度を上げるように調整する。また、所定の特徴情報は、例えば、複数のチャンネルに渡ってオンセット時刻・オフセット時刻がほぼ同時で、かつ、当該発音区間について指標値が最も大きな値を示す楽器類が同じ場合は、他のチャンネルにおける当該発音区間の寄与度を下げるように調整する。その他、例えば、発音区間の開始時刻がほぼ同時の場合、一番早いオンセット時刻の発音区間以外の寄与度を下げるように調整するように構成してもよい。なお、上記においては、寄与度が高くするほど、スコア情報が高くなるものとする。
Here, the score
このようにして生成されたスコア情報を図9に示す。図9に示すように、スコア情報においては、チャンネル毎に各楽器類であることを示すスコアが数値で示される。言い換えれば、当該数値が大きいほど、当該チャンネルが当該楽器であることが確からしいことを表す。すなわち、スコア情報は楽器類に該当する確度に応じた値となっている。 The score information generated in this way is shown in FIG. As shown in FIG. 9, in the score information, a score indicating that each instrument is for each channel is indicated by a numerical value. In other words, the larger the value, the more likely that the channel is the instrument. That is, the score information is a value corresponding to the accuracy corresponding to the musical instrument.
信頼度取得部308は、各チャンネルの信頼度を取得する。当該信頼度は、例えば、指標値データにおける各指標値の一貫性(分散)や、発音区間の数、全発音区間の平均音量等に基づいて取得する。具体的には、例えば、指標値データに含まれる発音区間の数が少ないものは信頼度を下げ、例えば、全発音区間の平均音量が他のチャンネルの平均音量が大きいほど信頼度を上げる等である。なお、上記は全てのチャンネルのマイクゲインが均一であることをその前提とする。また、上記信頼度の取得は一例であって、本実施の形態は上記に限定されるものではない。
The
楽器決定部309は、信頼度及びスコアに基づいて、各チャンネルの楽器類を決定する。具体的には、例えば、まず、楽器類が未決定のチャンネルのうち、信頼度が最大のチャンネルでスコアが一番高い楽器類を選択して、当該チャンネルの楽器類に相当すると決定する。次に、2番目に信頼度が高いチャンネルでスコアが一番高い楽器類を当該チャンネルの楽器類であると決定する。以下同様に各チャンネルの楽器類を決定する。
The
なお、楽器決定部309は、ユーザが予め定めた制約に反するか否かを判定し、当該判定結果に応じて決定するように構成してもよい。具体的には、例えば、制約に反すると判定した場合には、決定された楽器のスコアを0として当該チャンネルの選択を上記と同様に行うように構成する。なお、当該制約とは、例えば、ドラム102は1個しか存在しない、ギター103は2本まで、女性ボーカルは存在しないなど、ユーザより入力される制約である。
Note that the
画像情報生成部310は、各チャンネルに対応する各楽器類を表す画像情報を生成し、表示部204に表示する。なお、チャンネルに対応する楽器類が決定できない場合には、当該チャンネルについては楽器類が決定できない旨を表すメッセージ等が表示されるように構成してもよい。
The image
次に、図10を用いて、本実施の形態における音響信号を取得してから各チャンネルに対応する楽器類を決定するまでの処理のフローの一例について説明する。図10に示すように、まず、音響信号取得部301は、入力チャンネル毎に音響信号を取得する(S101)。オンセット・オフセット検出部302は、入力された音響信号からオンセット及びオフセットを抽出する(S102)。特徴量抽出部303は発音区間の特徴量を抽出する(S103)。指標値取得部304は、特徴量に基づいて、発音区間毎にどの楽器類であると推定されるかを表す指標値を取得する(S104)。閾値判定・除外部305は、1つのチャンネルに含まれる発音区間が所定の音量閾値以下であるか否かを判定する(S105)。閾値判定・除外部305は、所定の音量以下であると判定された発音区間に関する情報を指標値データから除外する(S106)。チャンネル間特徴情報検出部306は、各チャンネルの発音区間を比較し、所定の特徴情報を検出する(S107)。スコア情報生成部307は、指標値データ及び上記検出された特徴情報に基づいて、スコア情報を生成する(S108)。
Next, an example of a processing flow from acquisition of an acoustic signal according to the present embodiment to determination of musical instruments corresponding to each channel will be described with reference to FIG. As shown in FIG. 10, first, the acoustic
信頼度取得部308は、各チャンネルの信頼度を取得する(S109)。楽器決定部309は、まず対応する楽器類が未決定のチャンネルがあるか否かを判定する(S110)。未決定チャンネルがあると判定した場合には、未決定チャンネルのうち、信頼度が最大のチャンネルで、かつ、スコアが最大の楽器類を選択する(S111)。そして、S110に戻る。一方、未決定チャンネルがないと判定した場合には処理を終了する。なお、上記処理は一例であって、本実施の形態は上記フローに限られない。
The
本実施の形態によれば、複数の楽器類からの音響信号が入力される場合であっても、より精度よく楽器類の識別が可能な楽器類識別装置等を実現することができる。 According to the present embodiment, it is possible to realize a musical instrument identification device or the like that can identify musical instruments with higher accuracy even when acoustic signals from a plurality of musical instruments are input.
本発明は、上記実施の形態に限定されるものではなく、例えば、上記実施の形態で示した構成と実質的に同一の構成、同一の作用効果を奏する構成又は同一の目的を達成することができる構成で置き換えることができる。 The present invention is not limited to the above-described embodiment. For example, the configuration substantially the same as the configuration shown in the above-described embodiment, the configuration having the same operational effects, or the same object can be achieved. It can be replaced with a possible configuration.
[第2の実施形態]
次に、本発明の第2の実施形態を説明する。本実施の形態においては、図11に示すように、主に、組み合わせスコア情報取得部311及び組み合わせスコア情報抽出部312を有する点、及び、信頼度取得部308の処理が、上記第1の実施形態と異なる。なお、下記において第1の実施形態と同様である点については説明を省略する。
[Second Embodiment]
Next, a second embodiment of the present invention will be described. In the present embodiment, as shown in FIG. 11, the points having the combination score
組み合わせスコア情報取得部311は、チャンネル毎に楽器の組み合わせを網羅し、スコア情報取得部が取得したスコア情報に基づいてその合計スコアを取得する。具体的には、例えば、図12に示すように、全ての楽器の組み合わせ毎に、スコアの合計を取得する。図12において、combi1で表される楽器の組み合わせは、チャンネル1がキック(Kick)、チャンネル2がスネア(Snare)等であり、その合計スコア(score)が33.52であることを示す。なお、組み合わせスコア情報取得部311は、ユーザから与えられた制約を満たさない組み合わせは除外するように構成してもよい。なお、combi1等は楽器類の各組み合わせを表す。
The combination score
組み合わせスコア情報抽出部312は、合計スコアの高い順に所定の数の組み合わせスコア情報を抽出する。例えば、図13は、合計スコアが高い方から5つの組み合わせスコア情報を抽出した場合を示す。 The combination score information extraction unit 312 extracts a predetermined number of combination score information in descending order of the total score. For example, FIG. 13 shows a case where five pieces of combination score information are extracted from a higher total score.
信頼度取得部308は、抽出された組み合わせスコア情報に基づいて、各チャンネルの信頼度を取得する。具体的には、例えば、信頼度取得部308は、より高い順位に安定して同じ楽器が選択されているか否かに基づいて各チャンネルの信頼度を求める。より具体的には、例えば、チャンネル1(ch1)やチャンネル5(ch5)は、すべてそれぞれKick及びBassが選ばれている一方で、チャンネル3(ch3)は、combi1からcombi4までHi-Hatが選択されていることから、チャンネル1、5の安定度はチャンネル3よりも高い信頼度が取得されるように構成する等である。
The
次に、楽器決定部309は、上記取得された信頼度の順に、各チャンネルに対応する楽器類を決定する。具体的には、例えば、図13に示す場合、チャンネル1と5の信頼度が同じであるので、チャンネル1と5をKick、Bassに対応するとそれぞれ決定する。なお、信頼度が同じ場合は決定の順序はいずれでもよい。次に、チャンネル3は、combi1からcombi4までHi-Hatが選択されており、未決定の他のチャンネルよりもより高い順位で安定度が高く信頼度が高いことから、チャンネル3をHi-Hatと決定する。以下同様に各チャンネルに対応する楽器類を決定する。
Next, the musical
なお、本実施の形態において、安定して同じ楽器が選択されていないチャンネル、つまり、信頼度が所定の閾値以下のチャンネルについては楽器類の決定を保留するように構成してもよい。具体的には、例えば、図13に示す場合、チャンネル4及び7は選択されている楽器類が不安定なので保留にする等である。この場合、楽器類をユーザが確認し訂正した後に更に保留したチャンネルだけで上記と同様に、組み合わせスコア情報を取得し、保留した各チャンネルに対応する楽器類を決定するように構成してもよい。
In the present embodiment, the determination of musical instruments may be suspended for channels for which the same musical instrument is not stably selected, that is, for channels whose reliability is a predetermined threshold value or less. Specifically, for example, in the case shown in FIG. 13,
次に、図14を用いて、本実施の形態における音響信号を取得してから各チャンネルに対応する楽器類を決定するまでの処理のフローの一例について説明する。 Next, an example of a processing flow from acquisition of an acoustic signal in this embodiment to determination of musical instruments corresponding to each channel will be described with reference to FIG.
まず、S201乃至S208については、第1の実施形態のS101乃至S108と同様であるので、説明を省略する。次に、組み合わせスコア情報取得部311は、チャンネル毎に楽器の組み合わせを網羅し、スコア情報取得部が取得したスコア情報に基づいてその合計スコアを取得する(S209)。組み合わせスコア情報抽出部312は、合計スコアの高い順に所定の数の組み合わせスコア情報を抽出する(S210)。楽器決定部309は、まず対応する楽器類が未決定のチャンネルがあるか否かを判定する(S211)。未決定チャンネルがあると判定した場合には、未決定チャンネルのうち、信頼度が最大のチャンネルの楽器類を決定する(S212)。そして、S211に戻る。一方、未決定チャンネルがないと判定した場合には処理を終了する。
First, S201 to S208 are the same as S101 to S108 of the first embodiment, and thus description thereof is omitted. Next, the combination score
本実施の形態によれば、上記第1の実施形態と同様に、例えば、チャンネル毎に楽器類を識別する場合と比較して、より精度の高い楽器編成の識別を行うことができ、また、例えば、より容易にどの機器からの音響信号が入力されているかを把握することができる。また、本実施の形態によれば、上記第1の実施形態と比較してより精度の高い楽器編成の識別を行うことができる。 According to the present embodiment, as in the first embodiment, for example, it is possible to identify a musical instrument organization with higher accuracy than when identifying musical instruments for each channel. For example, it is possible to more easily determine from which device an acoustic signal is input. In addition, according to the present embodiment, it is possible to identify a musical instrument organization with higher accuracy than in the first embodiment.
本発明は、上記実施の形態に限定されるものではなく、例えば、上記実施の形態で示した構成と実質的に同一の構成、同一の作用効果を奏する構成又は同一の目的を達成することができる構成で置き換えることができる。例えば、信頼度の取得については、第1の実施形態における信頼度の取得と組み合わせて用いてもよい。 The present invention is not limited to the above-described embodiment. For example, the configuration substantially the same as the configuration shown in the above-described embodiment, the configuration having the same operational effects, or the same object can be achieved. It can be replaced with a possible configuration. For example, the acquisition of reliability may be used in combination with the acquisition of reliability in the first embodiment.
[第3の実施形態]
次に、本発明の第3の実施形態を説明する。本実施の形態においては、図15に示すように、相関値取得部313、相関値加算部314、トップマイク決定部315を有する点が第1の実施形態と異なる。なお、下記において第1の実施形態と同様である点については説明を省略する。
[Third embodiment]
Next, a third embodiment of the present invention will be described. As shown in FIG. 15, the present embodiment is different from the first embodiment in that a correlation
相関値取得部313は、各チャネル間の音響信号の相関に基づいた相関値を取得する。具体的には、例えば、図16に示すような各チャネル間の相関値データを取得する。相関値加算部314は、チャネル毎に相関値を加算し、合計値を求める。
The correlation
トップマイク決定部315は、合計値に基づいてトップマイク105のチャンネルを決定する。具体的には、例えば、通常、トップマイク105は左右2つ配置されるため、合計値が最大のものから2つのチャンネルをトップマイク105であると決定する。具体的には、図16に示す場合、チャンネル3及び4の合計値(summary)が最大なので、チャンネル3及び4をトップマイクであると決定する。なお、その他チャンネル間でオンセット、オフセット時間が重なる時間の総和を求め、当該時間に基づいてトップマイク105を決定するように構成してもよい。
The top
また、オンセット、オフセット時刻がほぼ同時刻のペアのチャンネルを検出した場合には、他のチャンネルのオンセット時刻との時刻差や、音量差に基づいて、トップマイク105のチャンネルを決定するように構成してもよい。具体的には、例えば、上記第1の実施形態によりKickやSnare等のドラム類が決定されている場合には、各チャンネルの音量を当該ドラム類のうちの1のチャンネルの音量から減算する。その場合の様子を図17に示す。そして、当該ドラム類のチャンネルの音量と比べて最も低い音量(負の値でかつ最も絶対値が大きい)を表すチャンネルから順に2つのチャンネルをトップマイク105と決定するように構成する。
If a pair of channels having the same onset and offset times are detected, the channel of the
また、例えば、図18に示すように、上記第1の実施形態によりKickやSnare等のドラム類が決定されている場合には、各チャンネルのオンセット時刻を当該ドラム類のうちの1のチャンネルのオンセット時刻から減算する。そして、当該ドラム類のチャンネルのオンセット時刻と比べて最も遅れたオンセット時刻(正の値でかつ最も絶対値が大きい)を表すチャンネル2つをトップマイク105と決定するように構成してもよい。なお、図17及び図18においては、各チャンネルが決定されていない場合を例として示しているが、例えば、第1の実施形態により、少なくとも上記当該ドラム類のうちの1つが決定されることを前提とする。
Further, for example, as shown in FIG. 18, when drums such as Kick and Snare are determined according to the first embodiment, the onset time of each channel is set to one channel of the drums. Subtract from the onset time. Further, the
画像情報生成部310は、各チャンネルと対応する各楽器類を表す画像情報を生成し、表示部に表示する。ここで、各楽器類にはトップマイク105が含まれる。
The image
本実施の形態によれば、例えば、上記第1及び第2の実施形態と比較して、トップマイクに対応するチャンネルをより精度よく決定することができる。 According to the present embodiment, for example, the channel corresponding to the top microphone can be determined with higher accuracy than in the first and second embodiments.
本発明は、上記実施の形態に限定されるものではなく、上記実施の形態で示した構成と実質的に同一の構成、同一の作用効果を奏する構成又は同一の目的を達成することができる構成で置き換えることができる。 The present invention is not limited to the above-described embodiment, and is substantially the same configuration as the configuration shown in the above-described embodiment, a configuration that exhibits the same operational effects, or a configuration that can achieve the same purpose. Can be replaced.
例えば、上記においては、主に、トップマイク105が2つの場合を例として説明したが、トップマイク105の数は2つに限られず、1つまたは3つ
以上であってもよい。また、上記においては、第1の実施形態とトップマイク105に対応するチャンネルを決定する構成を組み合わせた場合を例として説明したが、第2の実施形態と組み合わせてもよいし、トップマイク105に対応するチャンネルを決定する構成のみを単独で実現するように構成してもよい。
For example, in the above description, the case where there are two
また、第3の実施形態は、第1または第2の実施形態と組み合わせて構成してもよい。ここで、例えば、スネアについては、すべての発音区間が、トップマイクとほぼ同じタイミングで存在し、音量(amp)が他のチャンネルよりも大きく、そして、Onset timeが早い。そこで、スネアと対応している発音区間の寄与度を下げるように構成してもよい。この場合、例えば、寄与度は、他のチャンネルで同じタイミングのオンセットのうちの音量が最大の発音区間との音量比等を用いてもよい。 Further, the third embodiment may be configured in combination with the first or second embodiment. Here, for example, with respect to the snare, all the sound generation sections exist at almost the same timing as the top microphone, the volume (amp) is larger than the other channels, and the Onset time is earlier. Thus, the contribution degree of the sound generation section corresponding to the snare may be reduced. In this case, for example, the contribution ratio may be a volume ratio with the sound generation section having the maximum volume in the onset at the same timing in other channels.
また、上記第1乃至第3の実施形態においては、主に、楽器類識別装置をミキサ106として実現する場合について説明したが、ミキサ106とは別個に形成してもよいし、その他の音響装置内で実現してもよい。 Further, in the first to third embodiments, the case where the instrument identification device is realized as the mixer 106 has been mainly described. However, the instrument identification device may be formed separately from the mixer 106 or other acoustic device. It may be realized within.
また、上記においては、信頼度に基づいて、楽器類を決定する構成について説明したが、信頼度に基づかずに、スコア情報や組み合わせスコア情報に基づいて、楽器類を決定するように構成してもよい。 In the above description, the configuration for determining musical instruments based on the reliability has been described. However, the configuration is such that the musical instruments are determined based on the score information and the combination score information without using the reliability. Also good.
更に、上記においては、音響信号の発音区間の特徴に基づいて指標値の取得や特徴情報の取得等の処理を行う構成について説明したが、音響信号の特徴に基づいて指標値の取得や特徴情報の取得等の処理を行う構成であればその他の構成であってもよい。 Further, in the above description, the configuration for performing processing such as acquisition of an index value and acquisition of feature information based on the characteristics of the sounding section of the acoustic signal has been described. However, acquisition of the index value and feature information based on the characteristics of the acoustic signal are described. Any other configuration may be used as long as it performs processing such as acquisition.
100 音響信号処理システム、101 キーボード、102 ドラム、103 ギター、104 マイク、105 トップマイク、106 ミキサ、107 アンプ、108 スピーカ、201 制御部、202 記憶部、203 操作部、204 表示部、301 音響信号取得部、302 オンセット・オフセット検出部、303 特徴量抽出部、304 指標値取得部、305 閾値判定・除外部、306 チャンネル間特徴情報検出部、307 スコア情報生成部、308 信頼度取得部、309 楽器決定部、310 画像情報生成部、311 組み合わせスコア情報取得部、312 組み合わせスコア情報抽出部、313 相関値取得部、314 相関値加算部、315 トップマイク決定部。
DESCRIPTION OF
Claims (5)
前記複数のチャンネル間の音響信号に基づいて、前記チャンネル間における前記音響信号の特徴を特徴情報として検出するチャンネル間特徴情報検出手段と、
前記指標値データと前記特徴情報に基づいて、前記各チャンネルの前記楽器類毎に、前記楽器類に該当する確度に応じた値をスコア情報として生成するスコア情報生成手段と、
を含むことを特徴とする楽器類識別装置。 Based on the acoustic signal obtained for each of a plurality of channels, index value data including index values indicating the characteristics of the acoustic signal and the possibility of corresponding to the musical instruments is obtained for each musical instrument of the acoustic signal. Index value acquisition means to
Inter-channel feature information detecting means for detecting, as feature information, characteristics of the acoustic signal between the channels based on acoustic signals between the plurality of channels;
Score information generating means for generating, as score information, a value corresponding to the accuracy corresponding to the musical instrument for each musical instrument of each channel based on the index value data and the feature information;
A musical instrument identification device comprising:
前記指標値に基づいて、前記各チャンネルの所定の信頼度を取得する信頼度取得手段と、
前記信頼度と、前記スコア情報に基づいて、前記各チャンネルに対応する楽器類を決定する楽器類決定手段と、
を含む特徴とする請求項1または2記載の楽器類識別装置。 Sequential processing method Based on the index value, reliability obtaining means for obtaining a predetermined reliability of each channel;
Instrument determination means for determining an instrument corresponding to each channel based on the reliability and the score information;
The musical instrument identification device according to claim 1, comprising:
前記組み合わせスコア情報の指標が高い順に所定の数の組み合わせスコア情報を抽出する組み合わせスコア情報抽出手段と、
前記抽出された組み合わせスコア情報に基づいて、前記各チャンネルに対応する前記各チャンネルの所定の信頼度を取得する信頼度取得手段と、
前記組み合わせスコア情報と、前記信頼度に基づいて、前記各チャンネルに対応する楽器類を決定する楽器類決定手段と、
を含むことを特徴とする請求項1または2に記載の楽器類識別装置。 Based on the score information, combination score information acquisition means for acquiring, for each combination of each instrument, combination score information representing an index corresponding to each instrument combination of each channel;
Combination score information extraction means for extracting a predetermined number of combination score information in descending order of the index of the combination score information;
Reliability acquisition means for acquiring a predetermined reliability of each channel corresponding to each channel based on the extracted combination score information;
Instrument determining means for determining instruments corresponding to each channel based on the combination score information and the reliability;
The musical instrument identification device according to claim 1 or 2, characterized by comprising:
前記相関値に基づいて、複数の楽器からの音を収音するよう配置されたトップマイクに対応するチャンネルを識別するトップマイク識別手段と、
を含むことを特徴とする請求項1乃至4のいずれかに記載の楽器類識別装置。 Correlation value acquisition means for acquiring a correlation value based on the correlation of the acoustic signal between the channels based on the acoustic signal acquired for each channel;
Top microphone identifying means for identifying a channel corresponding to the top microphone arranged to collect sound from a plurality of musical instruments based on the correlation value;
The musical instrument identification device according to claim 1, comprising:
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015195238A JP6601109B2 (en) | 2015-09-30 | 2015-09-30 | Instrument identification device |
PCT/JP2016/078754 WO2017057532A1 (en) | 2015-09-30 | 2016-09-29 | Instrument type identification device and instrument sound identification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015195238A JP6601109B2 (en) | 2015-09-30 | 2015-09-30 | Instrument identification device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017068125A JP2017068125A (en) | 2017-04-06 |
JP6601109B2 true JP6601109B2 (en) | 2019-11-06 |
Family
ID=58423749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015195238A Active JP6601109B2 (en) | 2015-09-30 | 2015-09-30 | Instrument identification device |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6601109B2 (en) |
WO (1) | WO2017057532A1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023157132A (en) * | 2022-04-14 | 2023-10-26 | ヤマハ株式会社 | Information processing method, information processing device, and program |
CN115116232B (en) * | 2022-08-29 | 2022-12-09 | 深圳市微纳感知计算技术有限公司 | Voiceprint comparison method, device and equipment for automobile whistling and storage medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010092915A1 (en) * | 2009-02-13 | 2010-08-19 | 日本電気株式会社 | Method for processing multichannel acoustic signal, system thereof, and program |
JP5879813B2 (en) * | 2011-08-17 | 2016-03-08 | 大日本印刷株式会社 | Multiple sound source identification device and information processing device linked to multiple sound sources |
-
2015
- 2015-09-30 JP JP2015195238A patent/JP6601109B2/en active Active
-
2016
- 2016-09-29 WO PCT/JP2016/078754 patent/WO2017057532A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2017057532A1 (en) | 2017-04-06 |
JP2017068125A (en) | 2017-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7649137B2 (en) | Signal processing apparatus and method, program, and recording medium | |
US7601907B2 (en) | Signal processing apparatus and method, program, and recording medium | |
JP2008516289A (en) | Method and apparatus for extracting a melody that is the basis of an audio signal | |
CN109979483B (en) | Melody detection method and device for audio signal and electronic equipment | |
US9245508B2 (en) | Music piece order determination device, music piece order determination method, and music piece order determination program | |
WO2017057530A1 (en) | Audio processing device and audio processing method | |
US10298192B2 (en) | Sound processing device and sound processing method | |
JP2017083484A (en) | Musical sound evaluation device and evaluation standard generation device | |
JP6481319B2 (en) | Music score display apparatus and music score display method | |
JP6601109B2 (en) | Instrument identification device | |
JP6565528B2 (en) | Automatic arrangement device and program | |
JP6565548B2 (en) | Acoustic analyzer | |
JP2021128297A (en) | Estimation model construction method, performance analysis method, estimation model construction device, performance analysis device, and program | |
WO2019180830A1 (en) | Singing evaluating method, singing evaluating device, and program | |
JP6326976B2 (en) | Electronic musical instrument, pronunciation control method for electronic musical instrument, and program | |
JP2015200685A (en) | Attack position detection program and attack position detection device | |
JP7419768B2 (en) | Music generation method and music generation system | |
JP2007248610A (en) | Musical piece analyzing method and musical piece analyzing device | |
JP7293653B2 (en) | Performance correction method, performance correction device and program | |
Luizard et al. | Changes in the voice production of solo singers across concert halls | |
JP6604307B2 (en) | Code detection apparatus, code detection program, and code detection method | |
JP6496998B2 (en) | Performance information editing apparatus and performance information editing program | |
CN112992110A (en) | Audio processing method, device, computing equipment and medium | |
JP6565529B2 (en) | Automatic arrangement device and program | |
Boeckmann-Barthel et al. | Melody and chord discrimination of cochlear implant users in different pitch ranges |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190923 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6601109 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |