JP2007536587A - Apparatus and method for analyzing information signals - Google Patents

Apparatus and method for analyzing information signals Download PDF

Info

Publication number
JP2007536587A
JP2007536587A JP2007511985A JP2007511985A JP2007536587A JP 2007536587 A JP2007536587 A JP 2007536587A JP 2007511985 A JP2007511985 A JP 2007511985A JP 2007511985 A JP2007511985 A JP 2007511985A JP 2007536587 A JP2007536587 A JP 2007536587A
Authority
JP
Japan
Prior art keywords
spectrum
short
time
information signal
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2007511985A
Other languages
Japanese (ja)
Inventor
クリスティアン ディットマー
クリスティアン ウーレ
ユールゲン ヘレ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2007536587A publication Critical patent/JP2007536587A/en
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Abstract

In order to analyse an information signal, a significant short-time spectrum is extracted from the information signal. The extraction device (16) is embodied in such a way as to extract the short-time spectra which come closer to a specific characteristic than other short-time spectra of the information signal. The extracted short-time spectra are then decomposed (18) into component signals, by ICA analysis, a component signal spectrum representing a profile spectrum of a sound source which generates a sound corresponding to the required characteristic. An amplitude envelope is calculated (20) for each profile spectrum from a series of short-time spectra of the information signal and from the determined profile spectra, said envelope indicating how the profile spectrum of a sound source generally varies over time. The profile spectra and associated amplitude envelopes describe the information signal that can be further evaluated, e.g. for the purposes of a transcription in the case of a music signal.

Description

本発明は、オーディオ信号のような情報信号を解析することに関し、特に、個々のソースまたは1グループの個々のソースから生じることが可能である部分的な信号の重畳から成る情報信号を解析することに関する。   The present invention relates to analyzing information signals, such as audio signals, and in particular to analyzing information signals consisting of partial signal superpositions that can originate from individual sources or from a group of individual sources. About.

マルチメディアコンテンツのためのデジタル配布メディアの進行中の発展は、提供される多種多様なデータに至った。提供される莫大な種類のデータは、人間のユーザに対して扱いやすさの許容値を大きく超えていた。このように、メタデータによるデータのコンテンツの記述は、ますます重要になる。原則として、目的は、テキストファイルだけでなく、例えば音楽ファイル、ビデオファイルまたは他の情報信号ファイルをサーチすることを可能にすることであり、その一方で、一般のテキストデータベースと同様に同じ利便性を想定することである。この状況における1つのアプローチは、周知のMPEG7規格である。   The ongoing development of digital distribution media for multimedia content has led to the wide variety of data provided. The vast variety of data provided has greatly exceeded the ease of handling for human users. Thus, the description of data contents by metadata becomes more and more important. In principle, the purpose is to be able to search not only text files, but for example music files, video files or other information signal files, while on the other hand the same convenience as a general text database Is assumed. One approach in this situation is the well-known MPEG7 standard.

特に、オーディオ信号、すなわち音楽および/または音声を含む信号の解析において、フィンガープリントを抽出することは、非常に重要である。   In particular, extracting fingerprints is very important in analyzing audio signals, i.e. signals containing music and / or speech.

また、例えば音楽のために、想定されることは、フィンガープリントに基づいてメタデータを読み出すためにオーディオデータをメタデータで「充実させる」ことである。「フィンガープリント」は、一方では、関連情報の十分な量を提供することであり、他方では、できるだけ短くて簡潔であることである。このように、「フィンガープリント」は、音楽信号から発生され、かつ、メタデータを含まないが、例えばオーディオマテリアル(「オーディオID」)を識別するためのシステムにおいて、例えばデータベースをサーチすることによって、メタデータを参照するために役立つ圧縮された情報信号を示す。   Also, for example, for music, it is envisaged to “enrich” audio data with metadata in order to retrieve the metadata based on the fingerprint. A “fingerprint” is on the one hand to provide a sufficient amount of relevant information and on the other hand to be as short and concise as possible. Thus, a “fingerprint” is generated from a music signal and does not include metadata, but for example by searching a database in a system for identifying audio material (“audio ID”), for example, Fig. 2 shows a compressed information signal useful for referencing metadata.

通常、音楽データは、個々のソースからの部分的な信号の重畳から成る。ポップスにおいて、比較的少ない個々のソース、すなわちシンガー、ギター、ベースギター、ドラムおよびキーボードが典型的に存在するが、ソースの数は、オーケストラ部分のために非常に大きくなる場合がある。オーケストラ部分およびポップスは、例えば、個々の楽器によって発せられるトーンの重畳から成る。このように、オーケストラ部分またはいかなる音楽も、個々のソースからの部分的な信号の重畳を表し、部分的な信号は、オーケストラおよび/またはポップスのフォーメーションの個々の楽器によって発生されたトーンであり、個々の楽器は、個々のソースである。   Music data usually consists of a superposition of partial signals from individual sources. In pops, there are typically relatively few individual sources: singer, guitar, bass guitar, drums and keyboard, but the number of sources can be very large due to the orchestra part. Orchestra parts and pops consist of, for example, a superposition of tones emitted by individual instruments. Thus, an orchestra portion or any music represents a superposition of partial signals from individual sources, where the partial signals are tones generated by individual instruments in an orchestra and / or pop formation, Each instrument is an individual source.

また、複数グループのオリジナルソースでさえ個々のソースと見なされ、その結果、1つの信号は少なくとも2つの個々のソースに割り当てられる。   Also, even multiple groups of original sources are considered individual sources so that one signal is assigned to at least two individual sources.

一般の情報信号の解析は、オーケストラ信号について、例えば、以下に示される。オーケストラ信号の解析は、さまざまな方法で実行される。例えば、個々の楽器を認識し、楽器の個々の信号を全体の信号から抽出し、そして、それらを、音符が「メタデータ」として作用する場合に、音符にできる限り変換したいという要望がある場合がある。解析の他の可能性は、主要なリズムを抽出することであり、調和的にサステインがある楽器といわれるトーンをかなり生じる楽器に基づくよりも、打楽器に基づいてリズムを抽出することが、より容易である。打楽器は、典型的にケトルドラム、ドラム、ガラガラまたは他の打楽器を含む一方、調和的にサステインがある楽器は、例えばバイオリン、管楽器などの他の全ての楽器を含む。   The analysis of a general information signal is shown below for an orchestra signal, for example. The orchestra signal analysis is performed in various ways. For example, if you want to recognize individual instruments, extract individual instrument signals from the entire signal, and convert them to notes as much as possible when the notes act as "metadata" There is. Another possibility of the analysis is to extract the main rhythm, making it easier to extract rhythms based on percussion instruments than on instruments that produce significant tones called harmonically sustaining instruments. It is. Percussion instruments typically include kettle drums, drums, rattles or other percussion instruments, while harmonically sustaining instruments include all other instruments such as violins, wind instruments, and the like.

さらに、打楽器は、それらのサウンド特性を理由にリズムセクションに貢献する全てのそれらの音響または合成サウンドプロデューサーを含む(例えばリズムギター)。   In addition, percussion instruments include all their acoustic or synthetic sound producers that contribute to the rhythm section because of their sound characteristics (eg, rhythm guitar).

このように、例えば音楽におけるリズム抽出のために、音楽全体から打楽器の部分だけを抽出し、調和的にサステインがある楽器からの信号によってリズム検出に「干渉する」ことのないこれらの打楽器の部分に基づいてリズム検出を実行することが望ましい。   Thus, for example, to extract rhythms in music, only the percussion instrument parts are extracted from the entire music, and those percussion instrument parts that do not "interfer" with the rhythm detection by a signal from a musical instrument with sustain sustainably. It is desirable to perform rhythm detection based on

一方、調和的にサステインがある楽器について情報だけを必要とするメタデータを抽出する目的を追い求めているいかなる解析(例えば調和的なまたは旋律的な解析)も、アップストリームの分離から、調和的にサステインがある部分の更なる処理での利益を得る。   On the other hand, any analysis pursuing the purpose of extracting metadata that requires information only about instruments that are sustainably in harmony (eg harmonic or melodic analyzes) Benefit from further processing of the part where there is sustain.

ごく最近、この状況において、信号処理および信号解析のためのブラインドソース分離(BSS)および独立成分解析(ICA)技術の利用について報告があった。適用分野は、特に、生医学技術、通信技術、人工知能および画像処理である。   Most recently in this situation, there have been reports on the use of blind source separation (BSS) and independent component analysis (ICA) techniques for signal processing and signal analysis. Application fields are in particular biomedical technology, communication technology, artificial intelligence and image processing.

通常、BSSは、ミキシング処理および信号の性質の知識または最小限の前の経験で信号の混合物から信号を分離するための技術を含む。ICAは、混合物の基礎となるソースが少なくともある程度は統計的に互いに独立であるという仮定に基づく方法である。さらに、ミキシング処理は、時間において不変であると仮定され、観察された混合信号の数は、混合物の基礎となるソース信号の数以上であると仮定される。   BSS typically includes techniques for separating signals from a mixture of signals with knowledge of the mixing process and the nature of the signal or with minimal prior experience. ICA is a method based on the assumption that the underlying sources of a mixture are statistically independent of each other at least in part. Furthermore, the mixing process is assumed to be invariant in time and the number of observed mixed signals is assumed to be greater than or equal to the number of source signals underlying the mixture.

独立部分空間解析(ISA)は、ICAの拡張を表す。ISAについて、成分は独立部分空間に再分割され、それの成分は統計的に独立である必要はない。音楽信号を変換することによって、混合信号の多次元表現は決定され、ICAのための後の仮定は応じられる。ここ数年において、独立成分を計算するさまざまな方法が開発された。後に続くものは、部分的に、オーディオ信号を解析することを扱っている関連文献である:
[1]エム・エー ケーシー(M.A. Casey)およびエー ウエストナー(A. Westner)の「独立部分空間解析による混合オーディオソースの分離(Separation of Mixed Audio Sources by Independent Subspace Analysis)」、国際コンピュータ音楽会議のプロシーディング中(in Proc. of the International Computer Music Conference)、ベルリン、2000年
[2]アイ・エフ・オー オリーフ(I.F.O. Orife)の「リディム:独立部分空間解析に基づくリズム解析および分解ツール(Riddim:A rhythm analysis and decomposition tool based on independent subspace analysis)」、マスター論文(Master thesis)、ダートマス大学(Darthmouth College)、ハノーバー、ニューハンプシャー、2001年
[3]シー ウーレ(C. Uhle)、シー ディットマー(C. Dittmar)およびティー スポーラー(T. Sporer)の「独立部分空間解析を用いたポリフォニー音楽からのドラムトラックの抽出(Extraction of Drum Track from polyphonic Music using Independent Subspace Analysis)」、独立成分解析に関する第4回国際シンポジウムのプロシーディング中(in Proc. of the Fourth International Symposium on Independent Component Analysis)、奈良、日本、2003年
[4]ディー フィッツジェラルド(D. Fitzgerald)、ビー ロウラー(B. Lawlor)およびイー コイル(E. Coyle)の「ドラムトランスクリプションのための従来の部分空間解析(Prior Subspace Analysis for Drum Transcription)」、第114回AESコンベンションのプロシーディング中(in Proc. of the 114th AES Convention)、アムステルダム、2003年
[5]ディー フィッツジェラルド(D. Fitzgerald)、ビー ロウラー(B. Lawlor)およびイー コイル(E. Coyle)の「従来の部分空間解析を用いた標準音高の楽器の存在下でのドラムトランスクリプション(Drum Transcription in the presence of pitched instruments useing Prior Subspace Analysis)」、ISSCのプロシーディング中(in Proc. of the ISSC)、リメリック、アイルランド、2003年
[6]エム プランブレイ(M. Plumbley)の「負でない独立成分解析のためのアルゴリズム(Algorithms for Non−Negative Independent Component Analysis)」、ニューラルネットワークに関するIEEEトランザクション中(in IEEE Transactions on Neural Networks、14(3)、第534頁−第543頁、2003年5月
Independent subspace analysis (ISA) represents an extension of ICA. For ISA, the components are subdivided into independent subspaces, and the components need not be statistically independent. By transforming the music signal, a multidimensional representation of the mixed signal is determined and later assumptions for ICA are met. In the last few years, various methods for calculating independent components have been developed. What follows are relevant literature that deals in part with analyzing audio signals:
[1] M. A. Casey and A. Westner "Separation of Mixed Audio Sources by Subbase Analysis International Computer," In Proc. Of the International Computer Music Conference, Berlin, 2000 [2] “Ridim: Based on Independent Subspace Analysis” Rhythm analysis and decomposition tool (Riddim: A rhythm analysis and decomposition tool based on independent subspace analysis ", Master thesis, Dartmouth College, Hannover, New Hampshire, 2001 [3] C. Uhle, C. Ditmar (C. Dittmar) Sperer's "Extraction of Drum Track from Polyphonic Musical Independent Independent Analysis", the 4th International Proceedings of the International Symposium on Independent Component Analysis Proc. Of the Fourth Inter National Symposium on Independent Component Analysis, Nara, Japan, 2003 [4] “Drum transcription for D. Fitzgerald, B. Lawror and E. Coyle Prior Subspace Analysis for Drum Transcription ”, in Proc. Of the 114th AES Convention, Amsterdam, 2003 [5] D Fitzgerald (D. Fitzgerald, B. Lawror, and E. Coyle, “Drum Transcription in the presence of pitched instrument in the presence of a standard pitch instrument using conventional subspace analysis. "Instruments use Prior Subspace Analysis"", ISSC Proceeding (in Proc. of the ISSC), Limerick, Ireland, 2003 [6]" Algorithm for non-negative independent component analysis " (Algorithms for Non-Negative Independent Component Analysis) ", Neura In IEEE Transactions on network (in IEEE Transactions on Neural Networks, 14 (3), pp. 534 - pp. 543, May 2003

[1]において、モノラルオーディオ信号の個々のソースを分離する方法が表されている。[2]は、信号トレースへの再分割のための適用、および、その後に、リズム解析を示している。[3]において、成分解析は、ポリフォニー部分の打楽器のおよび非打楽器のサウンドへの再分割を達成するために実行される。[4]において、独立成分解析(ICA)は、一般に計算された周波数ベースによってドラムトレースのスペクトル表現から得られた振幅ベースに適用される。これは、トランスクリプション目的のために実行される。[5]において、この方法は、音楽のポリフォニー部分を含むために拡張される。   In [1], a method for separating individual sources of a monaural audio signal is described. [2] shows the application for subdivision into signal traces and then rhythm analysis. In [3], component analysis is performed to achieve a subdivision of the polyphony portion into percussion and non-percussion instrument sounds. In [4], independent component analysis (ICA) is applied to the amplitude base obtained from the spectral representation of the drum trace, generally by the calculated frequency base. This is done for transcription purposes. In [5], this method is extended to include a polyphony portion of music.

ケーシーによる第1の前述の公表は、従来技術の例として、以下に表される。前記公表は、独立部分空間解析の技術によって混合オーディオサウンドを分離する方法を述べる。これは、BSS技術を用いる個々の成分信号にオーディオ信号を分けることを含む。個々の成分信号のうちのどれがマルチ成分部分空間に属するかを決定するために、成分の相互の類似性がいわゆるイクセグラムによって表されるという効果に、グループ化が実行される。イクセグラムは、独立成分のクロスエントロピーマトリックスといわれる。それは、2つの成分の相互の類似性の程度を見つけるために、相関計算において対になって全ての個々の成分信号を検討することによって計算される。このように、徹底的なペアワイズ類似性計算は、全ての成分信号全体にわたって実行され、そのため、結果として生じるものは、全ての成分信号がy軸に沿ってプロットされ、さらに、全ての成分信号がx軸に沿ってプロットされる類似性マトリックスである。各々の成分信号のために、この2次元配列は、それぞれ、他の1つの成分信号との類似性の程度を提供する。イクセグラム、すなわち2次元マトリックスは、クラスタ化を実行するために現在用いられ、そのために、目的グループ化が2個一組のデータに基づいてクラスタアルゴリズムを用いて実行される。k個のカテゴリにイクセグラムの最適な区切りを実行するために、クラスタの中でコンパクト性を測定し、クラスタ間の等質性を決定する費用関数が規定される。費用関数は最小化され、その結果、結局結果として生じるものは、個々の部分空間に対する個々の成分の割り当てである。もし、これが滝の連続的な轟音という状況でスピーカを表す信号に適用されるとすれば、部分空間として結果として生じるものはスピーカであり、スピーカ部分空間の再構築された情報信号が滝の轟音の重要な減衰を呈する。   The first aforementioned publication by Casey is represented below as an example of the prior art. The publication describes how to separate mixed audio sounds by independent subspace analysis techniques. This includes dividing the audio signal into individual component signals using BSS technology. In order to determine which of the individual component signals belong to the multi-component subspace, grouping is performed on the effect that the mutual similarity of the components is represented by so-called ixograms. An exegram is called an independent component cross-entropy matrix. It is calculated by examining all individual component signals in pairs in the correlation calculation to find the degree of similarity between the two components. In this way, a thorough pair-wise similarity calculation is performed across all component signals, so the result is that all component signals are plotted along the y-axis, and all component signals are A similarity matrix plotted along the x-axis. For each component signal, this two-dimensional array provides a degree of similarity with each other component signal. Exegrams, or two-dimensional matrices, are currently used to perform clustering, for which purpose grouping is performed using a cluster algorithm based on a set of data. A cost function is defined that measures compactness among clusters and determines homogeneity between clusters in order to perform an optimal segmentation of exegrams into k categories. The cost function is minimized so that eventually the result is an assignment of the individual components to the individual subspaces. If this is applied to a signal representing a speaker in the situation of a continuous waterfall noise, the resulting subspace is a speaker, and the reconstructed information signal of the speaker subspace is the waterfall noise. Exhibits significant attenuation.

記載されているコンセプトについて不利な点は、ソースの信号部分が異なった成分信号にあるようになる場合の可能性が非常にあるということである。そのため、上述のように、複雑で計算時間集中的な類似性計算は、2次元類似性マトリックスを得るために全ての成分信号間で実行され、それに基づいて、部分空間への成分信号の分類は、結局、最小化される費用関数によって実行される。   A disadvantage with the described concept is that there is a great possibility that the signal part of the source will be in different component signals. Therefore, as mentioned above, a complex and time-intensive similarity calculation is performed between all component signals to obtain a two-dimensional similarity matrix, and based on that, the classification of component signals into subspaces is After all, it is implemented with a cost function that is minimized.

また、不利な点は、いくつかの個々のソースがある場合、すなわち出力信号が推測的に知られていない場合、類似性配布がやや長い計算の後であっても、類似性配布そのものが実際のオーディオシーンについての実際のアイデアを与えないということである。このように、ビューアは、単に、特定の成分信号が最小化された費用関数に関して互いに類似しているということを知っているだけである。しかしながら、どの情報が、結局得られたこれらの部分空間に含まれるかについて、および/または、どのオリジナルの個々のソースまたはどのグループの個々のソースが、部分空間によって表されるかについて知られない。したがって、独立部分空間解析(ISA)は、オーディオ信号の時間−周波数表現すなわちスペクトログラムを独立成分スペクトルに分解するために用いられてもよい。このために、上述の従来の方法は、全体のスペクトログラムからの周波数および振幅ベースの計算機的に集中的な決定に、または、推測的に決定される周波数ベースに依存する。そのような推測的に決定される周波数ベースおよび/またはプロファイルスペクトルは、例えば、部分がトランペットを特徴とする可能性が非常にあると言われ、さらに、トランペットの例示的なスペクトルが信号解析のために用いられるということにある。   Also, the disadvantage is that if there are several individual sources, ie the output signal is not speculatively known, even if the similarity distribution is after a little long computation, the similarity distribution itself is actually Is not to give a real idea about the audio scene. Thus, the viewer simply knows that the particular component signals are similar to each other with respect to the minimized cost function. However, it is not known which information will eventually be included in these subspaces obtained and / or which original individual source or which group of individual sources is represented by the subspace. . Thus, independent subspace analysis (ISA) may be used to decompose a time-frequency representation or spectrogram of an audio signal into independent component spectra. To this end, the conventional methods described above rely on frequency and amplitude-based computationally intensive determinations from the entire spectrogram or on a frequency base determined speculatively. Such a speculatively determined frequency-based and / or profile spectrum is said to be very likely, for example, that the portion is characterized by a trumpet, and further, an exemplary spectrum of the trumpet is used for signal analysis. It is to be used for.

この手順は、前もって楽器を特徴としている全てを知らなければならないという不利な点を有し、それは、すでに原理上、オートメーション化された処理に反する。更なる不利な点は、非常に注意深い方法で動作したい場合、例えば、トランペットだけでなく、それらの全てがサウンドの品質または音色において異なり、そのためそれらのスペクトルにおいて異なる多くの異なった種類のトランペットもあるということである。このアプローチが成分解析のための全種類の例示的なスペクトルを使用することになっている場合、方法は、再び、非常に時間がかかり、高価になり、非常に高い冗長性を呈するようになり、その理由は、典型的に、全ての可能な異なった種類のトランペットではなく、単一の種類のすなわち単一のプロファイルスペクトルを有する、または、場合により数少ない異なった音色を有するすなわち数少ないプロファイルスペクトルを有するトランペットだけが、1つの部分において大きな特徴となるからである。この問題は、ピッチに応じて、特に各々のトーンが拡散/収縮プロファイルスペクトルを備えるように、トランペットの異なった音符になるときは悪化する。これを考慮に入れることは、莫大な計算経費を伴う。   This procedure has the disadvantage of having to know everything that characterizes the instrument in advance, which is in principle contrary to the automated process. A further disadvantage is that if you want to work in a very careful way, for example, not only the trumpet, but all of them differ in sound quality or timbre, so there are also many different types of trumpet that differ in their spectrum That's what it means. If this approach is to use all types of exemplary spectra for component analysis, the method will again be very time consuming, expensive and exhibit very high redundancy. The reason is that typically, not all possible different types of trumpet, but a single type, i.e. a single profile spectrum, or possibly a few different tones, i.e. a few profile spectra. This is because only the trumpet is a major feature in one part. This problem is exacerbated depending on the pitch, especially when the different notes of the trumpet result in each tone having a spread / shrink profile spectrum. Taking this into account involves enormous computational costs.

一方、全体のスペクトログラムが用いられる場合、ISAコンセプトに基づく分解は、極端に計算機的に集中的で、干渉の影響を受けやすくなる。スペクトログラムが、典型的に、一連の個々のスペクトル、個々のスペクトルの間で規定されるホッピング時間周期、およびサンプルの特定数を表すスペクトルから成ると指摘され、そのため、スペクトルがそれに関連した特定の時間期間すなわち信号の1ブロックのサンプルを有する。典型的に、スペクトルが計算されるサンプルのブロックで表されるこの間隔は、必要とされる周波数分解能に関しておよび必要とされる時間分解能に関して満足なスペクトログラムを得るために、ホッピング時間よりかなり長い。しかしながら、一方では、このスペクトログラム表現が非常に冗長であるということが分かる。例えば、ホッピング時間期間が10ミリ秒に達し、スペクトルが例えば100ミリ秒の時間期間を有する1ブロックのサンプルに基づく場合を考慮すると、あらゆるサンプルは、10個の連続的なスペクトルにおいて生じる。このように発生される冗長性は、特に比較的多数の楽器がサーチされる場合、計算時間に関する要求を桁外れに大きくする。   On the other hand, if the entire spectrogram is used, decomposition based on the ISA concept is extremely computationally intensive and susceptible to interference. It is pointed out that a spectrogram typically consists of a series of individual spectra, a hopping time period defined between the individual spectra, and a spectrum representing a specific number of samples, so that the spectrum has a specific time associated with it. It has a period or sample of one block of the signal. Typically, this interval, represented by the block of samples from which the spectrum is calculated, is much longer than the hopping time in order to obtain a satisfactory spectrogram with respect to the required frequency resolution and with respect to the required time resolution. However, on the other hand, it can be seen that this spectrogram representation is very verbose. For example, considering the case where the hopping time period reaches 10 milliseconds and the spectrum is based on a block of samples having a time period of, for example, 100 milliseconds, every sample occurs in 10 consecutive spectra. The redundancy generated in this way makes the calculation time requirement extremely large, especially when a relatively large number of instruments are searched.

さらに、全体のスペクトログラムに基づいて作用するアプローチは、含まれる全てのソースが信号から抽出されるのではなく、例えば、特定の種類のソース、すなわち特定の特徴を有するソースだけが抽出されるそのような場合に不利である。そのような特徴は、打楽器のソースすなわち打楽器に、または、例えばトランペット、バイオリンなどのように、トーンの典型的楽器である、調和的にサステインがある楽器ともいわれる、いわゆる標準音高の楽器に関連する。全てのこれらのソースに基づいて動作する方法は、あまりに時間がかかり、高価であり、結局、例えば、いくらかのソースだけすなわち特定の特徴を満たすそれらのソースが抽出される場合、十分に頑健でない。この場合、そのようなソースが生じなくまたは非常に小さき範囲にだけ生じるスペクトログラムの個々のスペクトルは、崩壊するか、全体の結果を「ぼやけさせ」、その理由は、スペクトログラムのこれらのスペクトルが重要なスペクトルとちょうど同じだけの最終的な成分解析計算に明らかに含まれるからである。   Furthermore, an approach that works based on the entire spectrogram is that not all the included sources are extracted from the signal, for example, only certain types of sources, i.e. sources with certain characteristics, are extracted. It is disadvantageous in some cases. Such features relate to the source of percussion instruments, ie percussion instruments, or so-called standard pitched instruments, also called harmonically sustaining instruments, which are typical instruments of tones, such as trumpet, violin etc. To do. Methods that operate based on all these sources are too time consuming and expensive, and eventually are not robust enough if, for example, only some sources, ie those sources that meet certain characteristics, are extracted. In this case, the individual spectra of the spectrogram that do not produce such a source or occur only in a very small range will collapse or “blur” the overall result, because these spectra of the spectrogram are important This is because it is clearly included in the final component analysis calculation that is exactly the same as the spectrum.

エム・エー ケーシー(M.A. Casey)およびエー ウエストナー(A. Westner)の「独立部分空間解析による混合オーディオソースの分離(Separation of Mixed Audio Sources by Independent Subspace Analysis)」、国際コンピュータ音楽会議のプロシーディング中(in Proc. of the International Computer Music Conference)、ベルリン、2000年M. A. Casey and A. Westner, "Separation of Mixed Audio Sources by Independent Subspace Analysis", International Computer Music Conference In Proc. Of the International Computer Music Conference, Berlin, 2000 アイ・エフ・オー オリーフ(I.F.O. Orife)の「リディム:独立部分空間解析に基づくリズム解析および分解ツール(Riddim:A rhythm analysis and decomposition tool based on independent subspace analysis)」、マスター論文(Master thesis)、ダートマス大学(Darthmouth College)、ハノーバー、ニューハンプシャー、2001年IF Orife's “Riddim: Rhythm analysis and decomposition tool based on independence analysis, Master thesis”, Riddim: Rhythm analysis and decomposition tool based on independence analysis (Riddim: Independent subspace analysis) Master thesis, Dartmouth College, Hannover, New Hampshire, 2001 シー ウーレ(C. Uhle)、シー ディットマー(C. Dittmar)およびティー スポーラー(T. Sporer)の「独立部分空間解析を用いたポリフォニー音楽からのドラムトラックの抽出(Extraction of Drum Track from polyphonic Music using Independent Subspace Analysis)」、独立成分解析に関する第4回国際シンポジウムのプロシーディング中(in Proc. of the Fourth International Symposium on Independent Component Analysis)、奈良、日本、2003年“Extraction of Drum Track inspiring Muscular Pulsing” by C. Uhle, C. Dittmar, and T. Sporer Subspace Analysis) ", Proc. Of the Fourth International Symposium on Independent Component Analysis, Nara, Japan, 2003 (in Proc. Of the Fourth International Symposium on Independent Component Analysis) ディー フィッツジェラルド(D. Fitzgerald)、ビー ロウラー(B. Lawlor)およびイー コイル(E. Coyle)の「ドラムトランスクリプションのための従来の部分空間解析(Prior Subspace Analysis for Drum Transcription)」、第114回AESコンベンションのプロシーディング中(in Proc. of the 114th AES Convention)、アムステルダム、2003年D. Fitzgerald, B. Lawlor, and E. Coyle, “Prior Subspace Analysis for Drum Transcription 114, Drum Transcription” In Proc. Of the 114th AES Convention, Amsterdam, 2003 ディー フィッツジェラルド(D. Fitzgerald)、ビー ロウラー(B. Lawlor)およびイー コイル(E. Coyle)の「従来の部分空間解析を用いた標準音高の楽器の存在下でのドラムトランスクリプション(Drum Transcription in the presence of pitched instruments useing Prior Subspace Analysis)」、ISSCのプロシーディング中(in Proc. of the ISSC)、リメリック、アイルランド、2003年D. Fitzgerald, B. Lawlor and E. Coyle, “Drum transcription in the presence of a standard pitch instrument using conventional subspace analysis (Drum "Transcribation in the presence of pitched instruments using Prior Subspace Analysis", ISSC proceeding (in Proc. Of the ISSC), Limerick, Ireland, 2003 エム プランブレイ(M. Plumbley)の「負でない独立成分解析のためのアルゴリズム(Algorithms for Non−Negative Independent Component Analysis)」、ニューラルネットワークに関するIEEEトランザクション中(in IEEE Transactions on Neural Networks、14(3)、第534頁−第543頁、2003年5月M. Plumpley's “Algorithms for Non-Negative Independent Component Analysis”, IEEE Transactions on Neural Networks (in IEEE Transactions on N Pages 534-543, May 2003

本発明の目的は、情報信号を解析するための頑健で計算時間効率的なコンセプトを提供することである。   It is an object of the present invention to provide a robust and computation time efficient concept for analyzing information signals.

この目的は、請求項1に記載の情報信号を解析するための装置、請求項24に記載の情報信号を解析するための方法、または、請求項25に記載のコンピュータプログラムによって達成される。   This object is achieved by an apparatus for analyzing an information signal according to claim 1, a method for analyzing an information signal according to claim 24, or a computer program according to claim 25.

本発明は、頑健で効率的な情報信号解析が、全体の情報信号からおよび/または情報信号のスペクトログラムから、例えば差スペクトルなど、重要な短時間スペクトルまたは重要な短周期スペクトルから導き出される短時間スペクトルを、最初に抽出することによって、達成される発見に基づき、抽出される短周期スペクトルは、情報信号の他の短時間スペクトルより特定の特徴により近くなるそのような短時間スペクトルである。   The present invention provides a short-time spectrum in which a robust and efficient information signal analysis is derived from the entire information signal and / or from the spectrogram of the information signal from an important short-time spectrum or an important short-period spectrum, for example a difference spectrum. Based on the findings achieved by first extracting, the extracted short-period spectrum is such a short-term spectrum that is closer to a particular feature than other short-term spectra of the information signal.

好ましくは抽出されるものは、打楽器の部分を有する短時間スペクトルであり、その結果、調和的な部分を有する短時間スペクトルは、抽出されない。この場合、特定の特徴は、打楽器またはドラムの特徴である。   What is preferably extracted is a short-time spectrum having a percussion instrument part, so that a short-time spectrum having a harmonic part is not extracted. In this case, the particular feature is a percussion instrument or drum feature.

次に、抽出された短周期または抽出された短周期スペクトルから導き出される短周期スペクトルは、短周期スペクトルを、成分信号スペクトル、シークされる特徴に対応しているトーンを発生するトーンソースのプロファイルスペクトルを表す成分信号スペクトル、およびシークされる特徴に対応しているトーンを発生するトーンソースの他のプロファイルスペクトルを表す他の成分信号スペクトルに分解するための手段に送られる。   Next, the extracted short period or the short period spectrum derived from the extracted short period spectrum is a profile spectrum of the tone source that generates the tones corresponding to the short period spectrum, the component signal spectrum, the feature to be sought. And a means for decomposing the signal into other component signal spectra representing other profile spectra of the tone source that generate tones corresponding to the feature being sought.

結局、振幅エンベロープは、トーンソースのプロファイルスペクトルに基づいて時間とともに計算され、オリジナルの短時間スペクトルと同様に決定されるプロファイルスペクトルは、時間とともに振幅エンベロープを計算するために用いられ、その結果、各時点のために、短時間スペクトルが取られたところで、振幅値が同様に得られる。   Eventually, the amplitude envelope is calculated over time based on the tone source profile spectrum, and the profile spectrum determined in the same way as the original short-time spectrum is used to calculate the amplitude envelope over time, so that each The amplitude value is similarly obtained when a short-time spectrum is taken for the time.

このように得られた情報、すなわちプロファイルスペクトルのための振幅エンベロープと同様にさまざまなプロファイルスペクトルは、抽出が実行されたものに関する特定の特徴に関して音楽および/または情報信号の総合的な記述を提供し、その結果、この情報は、トランスクリプションを実行するために、すなわち、特徴抽出およびセグメント化のコンセプトによって、どの楽器がプロファイルスペクトルに「属する」か、および、どのリズム運動が近くにあるか、すなわち特定の時点で演奏されるこの楽器の音符を示す高低のイベントであるかを、最初に確立するために十分である。   The information obtained in this way, ie the various profile spectra as well as the amplitude envelope for the profile spectrum, provide a comprehensive description of the music and / or information signal with respect to the specific features regarding what the extraction has been performed on. As a result, this information is used to perform transcription, i.e., by the feature extraction and segmentation concept, which instruments "belong" to the profile spectrum and which rhythmic movements are nearby, That is, it is sufficient to initially establish whether it is a high or low event that indicates the notes of this instrument played at a particular point in time.

本発明は、全体のスペクトログラムより、抽出された短時間スペクトルだけが成分解析を計算するために、すなわち分解のために用いられることについて利点があり、その結果、独立部分空間解析(ISA)の計算が全てのスペクトルのサブセットを用いるためだけに実行され、その結果、計算必要条件が下げられる。さらに、特定のソースを見つけることに関する頑健さは、特に、特定の特徴を満たさない他の短時間スペクトルが成分解析に存在せず、そのため、実際のスペクトルのいかなる干渉および/または「ぼやけさせる」ことを表さないように、増加する。   The present invention has the advantage that only the extracted short-time spectrum is used to calculate the component analysis, i.e. for decomposition, from the overall spectrogram, so that independent subspace analysis (ISA) calculation is achieved. Is performed only to use a subset of all spectra, resulting in lower computational requirements. Furthermore, the robustness with respect to finding a particular source is that there are no other short-term spectra in the component analysis that do not meet a particular feature in particular, so any interference and / or “blurring” of the actual spectrum. It increases so as not to represent.

さらに、本発明のコンセプトは、プロファイルスペクトルが、不正確な結果またはさらなる計算経費を再び導く既存のプロファイルスペクトルの課題を生じることなく、信号から直接決定されるという利点がある。   Furthermore, the inventive concept has the advantage that the profile spectrum is determined directly from the signal without incurring the problems of existing profile spectra that again lead to inaccurate results or additional computational costs.

好ましくは、本発明のコンセプトは、プロファイルスペクトルおよび個々のプロファイルスペクトルのための振幅エンベロープの両方を得るために、ポリフォニーのオーディオ信号において打楽器の非調和的な楽器を検出しおよび分類するために使用される。   Preferably, the inventive concept is used to detect and classify percussive anharmonic instruments in polyphony audio signals to obtain both profile spectra and amplitude envelopes for individual profile spectra. The

本発明の好ましい実施態様が添付図面に関して詳細に以下に説明されるが、これらの図としては:
図1は、情報信号を解析するための本発明の装置のブロック図を示し、
図2は、情報信号を解析するための本発明の装置の好ましい実施形態のブロック図を示し、
図3aは、打楽器のソースのための振幅エンベロープの例を示し、
図3bは、打楽器のソースのためのプロファイルスペクトルの例を示し、
図4aは、調和的にサステインがある楽器のための振幅エンベロープの例を示し、
図4bは、調和的にサステインがある楽器のためのプロファイルスペクトルの例を示す。
Preferred embodiments of the invention are described in detail below with reference to the accompanying drawings, which include:
FIG. 1 shows a block diagram of an apparatus of the present invention for analyzing information signals,
FIG. 2 shows a block diagram of a preferred embodiment of the apparatus of the present invention for analyzing information signals,
FIG. 3a shows an example of an amplitude envelope for a percussion source,
FIG. 3b shows an example profile spectrum for a percussion instrument source,
FIG. 4a shows an example of an amplitude envelope for a musical instrument with harmonic sustain.
FIG. 4b shows an example profile spectrum for a musical instrument with harmonic sustain.

図1は、入力ライン10を介して情報信号を表す短時間スペクトルのシーケンスを提供するための手段12に送られる情報信号を解析するための本発明の装置の好ましい実施形態を示す。図1に破線で描かれる迂回ルーティング14によって表されるように、情報信号は、たとえば時間的なフォームで、情報信号から、重要な短時間スペクトル、または短時間スペクトルから導き出される短時間スペクトルを抽出するための手段16に送られ、抽出するための手段は、情報信号の他の短時間スペクトルより特定の特徴により近くなるそのような短時間スペクトルを抽出するように構成されている。   FIG. 1 shows a preferred embodiment of the apparatus of the present invention for analyzing an information signal that is sent via an input line 10 to a means 12 for providing a sequence of short-time spectra representing the information signal. As represented by the detour routing 14 depicted by the dashed lines in FIG. 1, the information signal extracts an important short-time spectrum or a short-time spectrum derived from the short-time spectrum, for example in a temporal form. The means for sending to and extracting means 16 are configured to extract such short time spectra that are closer to a particular feature than other short time spectra of the information signal.

抽出されたスペクトル、すなわちオリジナルの短時間スペクトルまたはオリジナルの短時間スペクトルから導き出された短時間スペクトルは、例えば、微分、微分および整流、または、他の動作によって、抽出された短時間スペクトルを、成分信号スペクトル、シークされる特徴に対応しているトーンを発生するトーンソースのプロファイルスペクトルを表す1つの成分信号スペクトル、およびシークされる特徴に対応しているトーンを発生する他のトーンソースを表す他のプロファイルスペクトルに分解するための手段18に送られる。   The extracted spectrum, i.e., the original short-time spectrum or the short-time spectrum derived from the original short-time spectrum, is composed of the extracted short-time spectrum by, for example, differentiation, differentiation and rectification, or other operations. The signal spectrum, one component signal spectrum that represents the profile spectrum of the tone source that generates the tone that corresponds to the seeked feature, and the other that represents the other tone source that produces the tone that corresponds to the seeked feature Is sent to means 18 for resolving into the following profile spectrum.

プロファイルスペクトルは、結局、1つのトーンソースのための振幅エンベロープを計算するための手段20に送られ、振幅エンベロープは、トーンソースのプロファイルスペクトルが時間とともにどのように変わるか、および、特に、プロファイルスペクトルのインテンシティまたは重み付けが時間とともにどのように変わるかを示す。手段20は、図1から分かるように、一方では短時間スペクトルのシーケンスに基づいて、他方ではプロファイルスペクトルに基づいて機能するように構成されている。出力側において、計算するための手段20は、ソースのための振幅エンベロープを提供するが、手段18は、トーンソースのためのプロファイルスペクトルを提供する。プロファイルスペクトルは、関連付けられた振幅エンベロープと同様に、特定の特徴に対応する情報信号の部分の総合的な記述を提供する。好ましくは、この部分は、音楽の打楽器の部分である。しかしながら、代わりに、この部分は、調和的な部分でもよい。この場合、重要な短時間スペクトルを抽出するための手段は、特定の特徴が打楽器の特徴である場合とは異なって構成される。   The profile spectrum is eventually sent to the means 20 for calculating the amplitude envelope for one tone source, which determines how the tone source profile spectrum changes over time and, in particular, the profile spectrum. It shows how the intensity or weighting of changes over time. As can be seen from FIG. 1, the means 20 is arranged to function on the one hand on the basis of the short-time spectrum sequence and on the other hand on the profile spectrum. On the output side, means 20 for calculating provides an amplitude envelope for the source, while means 18 provides a profile spectrum for the tone source. The profile spectrum provides a comprehensive description of the portion of the information signal that corresponds to a particular feature, as well as the associated amplitude envelope. Preferably, this part is a musical percussion part. However, this part may alternatively be a harmonious part. In this case, the means for extracting the important short-time spectrum is configured differently from the case where the specific feature is a percussion instrument feature.

図2に関して、本発明の好ましい実施形態が以下に表される。好ましくは、打楽器の非調和的な楽器の検出および分類は、図2のブロック22によって表されるように、プロファイルスペクトルFおよび振幅エンベロープEによって実行される。しかしながら、これは、後により詳細に述べる。   With reference to FIG. 2, a preferred embodiment of the present invention is represented below. Preferably, perharmonic instrument detection and classification is performed by profile spectrum F and amplitude envelope E, as represented by block 22 of FIG. However, this will be described in more detail later.

Figure 2007536587
Figure 2007536587

Figure 2007536587
Figure 2007536587

Figure 2007536587
Figure 2007536587

Figure 2007536587
Figure 2007536587

Figure 2007536587
Figure 2007536587

振幅基準は、対応しているスペクトルプロファイルの1セットの時間可変振幅エンベロープと解釈される。   The amplitude reference is interpreted as a set of time variable amplitude envelopes of the corresponding spectral profile.

本発明によれば、スペクトルプロファイルは、音楽信号自体から得られる。これによって、計算の複雑さは、前の方法と比較して減少され、定常信号部分すなわち調和的にサステインがある楽器による信号部分に対して増加した頑健さが達成される。   According to the invention, the spectral profile is obtained from the music signal itself. Thereby, the computational complexity is reduced compared to the previous method, and increased robustness is achieved for the stationary signal part, ie the signal part with a harmonically sustaining instrument.

ブロック22において、特徴抽出および分類動作が実行される。特に、成分は、2つのサブセットに、すなわち、最初に「非打楽器の」すなわち調和的な特性を有するサブセットにおよび他に打楽器のサブセットに区別される。さらに、「打楽器の/不調和の」特性を有する成分は、楽器のさまざまなクラスにさらに分類される。   At block 22, feature extraction and classification operations are performed. In particular, the components are differentiated into two subsets, namely the first “non-percussive”, ie the subset with harmonious properties and the other percussion. In addition, components having “percussive / disharmonic” characteristics are further classified into various classes of instruments.

2つのサブセットへの分類のために、打楽器またはスペクトル不調和の特徴が用いられる。   Percussion or spectral discordant features are used for classification into two subsets.

次の特徴は、楽器を分類するために使用される:
個々の楽器のプロファイル、スペクトル中心、スペクロラム分布、スペクトル歪み、中心周波数、インテンシティ、広がり、最も明白な部分的な線の歪み、などを有するトレーニングデータベースにおけるサーチパターンとしてのスペクトルプロファイルの平滑化バージョン。
The following features are used to classify instruments:
A smoothed version of the spectral profile as a search pattern in a training database with individual instrument profiles, spectral centers, spectrum distribution, spectral distortion, center frequency, intensity, spread, most obvious partial line distortion, etc.

分類は、例えば、楽器の次のクラスに実行される:
キックドラム、スネアドラム、ハイハット、シンバル、タム、ボンゴ、コンガ、ウッドブロック、カウベル、タンバール、シェーカ、タブラ、タンバリン、トライアングル、ダブルカ、カスタネット、手拍子。
The classification is performed, for example, on the following class of instruments:
Kick drum, snare drum, hi-hat, cymbal, tom, bongo, conga, wood block, cowbell, tambar, shaker, tabla, tambourine, triangle, double mosquito, castanets, clapping.

さらに発明コンセプトの頑健さを増加するために、打楽器開始のための決定および/または打楽器の最大値の受け入れは、ブロック24において実行される。このように、可変閾値より上の振幅エンべロープにおける一時的な上昇を有する最大値は、打楽器のイベントと考えられるが、可変閾値より下の一時的な上昇を有する最大値は、破棄され、または、アーチファクトとして認識され、無視される。可変閾値は、最大値周辺で比較的に広範囲において全体の振幅によって、好ましくは変動する。出力は、打楽器のイベントの時点を、楽器のクラス、インテンシティおよび、できる限り、例えばMIDIフォームにおける音符および/またはリズム情報などの更なる情報に関連付ける適切なフォームで実行される。   In order to further increase the robustness of the inventive concept, the decision to start the percussion instrument and / or the acceptance of the percussion instrument maximum is performed in block 24. Thus, a maximum value with a temporary rise in the amplitude envelope above the variable threshold is considered a percussion event, while a maximum value with a temporary rise below the variable threshold is discarded, Or it is recognized as an artifact and ignored. The variable threshold preferably varies with the overall amplitude over a relatively wide range around the maximum value. The output is performed in a suitable form that associates the time of the event of the percussion instrument with the instrument class, intensity and, where possible, further information such as, for example, note and / or rhythm information in the MIDI form.

ここで、重要な短時間スペクトルを抽出するための手段16は、例えば短時間フーリエ変換によって得られるような実際の短時間スペクトルを用いてこの抽出を実行するように構成されてもよいことが指摘される。特に本発明の適用の例については、特定の特徴は打楽器の特徴であり、それは、実際の短時間スペクトルではなく、微分されたスペクトログラムすなわち差スペクトルから短時間スペクトルを抽出することが好ましい。図2のブロック16aに示される微分は、短時間スペクトルのシーケンスを、導き出されおよび/または微分されたスペクトルのシーケンスに導き、各々の(微分された)短時間スペクトルは、現在、オリジナルスペクトルおよび次のスペクトルの間で生じている変化を含む。このように、信号における定常部分、すなわち、例えば、調和的にサステインがある楽器による信号部分は、頑健で信頼性が高い方法で除去される。これは、微分が信号の変化を強調し、同一部分を抑制するということによる。しかしながら、打楽器は、これらの楽器によって生じるトーンがそれらの時間の経過に関して非常に一時的であるということを特徴とする。   It is pointed out here that the means 16 for extracting the important short-time spectrum may be configured to perform this extraction using an actual short-time spectrum, for example obtained by a short-time Fourier transform. Is done. Particularly for the application example of the present invention, the particular feature is that of a percussion instrument, which preferably extracts a short-time spectrum from a differentiated spectrogram or difference spectrum rather than an actual short-time spectrum. The differentiation shown in block 16a of FIG. 2 leads to a sequence of short-time spectra into a sequence of derived and / or differentiated spectra, where each (differentiated) short-time spectrum is now the original spectrum and the next. Including changes occurring between the spectra. In this way, the stationary part of the signal, i.e. the signal part of a harmonically sustaining instrument, for example, is removed in a robust and reliable manner. This is because differentiation emphasizes signal changes and suppresses the same part. However, percussion instruments are characterized by the fact that the tones produced by these instruments are very transient with respect to their passage of time.

さらに、PCA18aおよび負でないICA18bを、すなわち、より一般的に言って、オリジナルの短時間スペクトルよりむしろ導き出された短時間スペクトルに対して図1のブロック18において抽出された短時間スペクトルを分解するための分解動作を実行することが好ましい。これは、非常に極めて一時的な信号のために、非常に急速な変化が信号にある場合に特に真である、微分された信号が微分より前のオリジナル信号と非常に類似しているという効果を活用する。これは、打楽器にあてはまる。   Further, to decompose the short-time spectrum extracted in block 18 of FIG. 1 against PCA 18a and non-negative ICA 18b, ie, more generally speaking, the derived short-time spectrum rather than the original short-time spectrum. It is preferable to perform the disassembling operation. This is an effect that the differentiated signal is very similar to the original signal before differentiation, which is especially true for very very transient signals, especially when there is a very rapid change in the signal. Utilize. This is true for percussion instruments.

さらに、次の負でないICA(18b)を有するPCA18aを実行する、分解するための手段18は、プロファイルスペクトルを決定するために、手段によって提供される抽出されたスペクトルの重み付け線形補償をとにかく実行することが指摘される。これは、個々の方法によって計算される特定の重み付けファクタが、抽出されるスペクトルに適用され、または、抽出されるスペクトルが、すなわち減算または加算によって、線形に結合されることを意味する。したがって、少なくとも部分的に、抽出される短時間スペクトルを堆積するために、手段18が微分に反対に作用する機能性を有する効果を観察することができ、その結果、トーンソースのために決定されるプロファイルスペクトルは、微分されたプロファイルスペクトルではなくて、実際のプロファイルスペクトルである。いずれにせよ、微分されたスペクトル、すなわち、分解アルゴリズム−抽出される個々のスペクトルの重み付け線形結合に基づく分解アルゴリズム−と結合する差スペクトログラムからの差スペクトルの使用が、手段18における個々の高品質で高選択性のトーンソースのためのプロファイルスペクトルを導くことが見つけられた。一方では、定常部分がさらに処理されるだけで、すなわち、特定の特徴が打楽器的でないが調和的な特徴である場合、一時的な部分と比較して定常部分を補強するために、積分によって、すなわち合計することによって、スペクトログラムの前処理を達成することが好ましい。この場合、また、合計スペクトルすなわち積分されたスペクトログラムを用いている、個々の−この場合調和的な−トーンソースのためのプロファイルスペクトルを計算することが好ましい。   Further, the means 18 for decomposing, performing the PCA 18a with the next non-negative ICA (18b), anyway performs the weighted linear compensation of the extracted spectrum provided by the means to determine the profile spectrum It is pointed out. This means that specific weighting factors calculated by the individual methods are applied to the extracted spectra, or the extracted spectra are combined linearly, ie by subtraction or addition. Thus, at least in part, the means 18 can observe the effect of having the functionality of acting against the derivative to deposit the extracted short-time spectrum, so that it is determined for the tone source. The profile spectrum is not the differentiated profile spectrum but the actual profile spectrum. In any case, the use of the difference spectrum from the difference spectrogram in combination with the differentiated spectrum, i.e. the decomposition algorithm-a decomposition algorithm based on a weighted linear combination of the individual spectra to be extracted, in each high quality means 18. It has been found to lead a profile spectrum for a highly selective tone source. On the one hand, if the stationary part is only processed further, i.e. if a particular feature is not a percussive but harmonious feature, then by integration to reinforce the stationary part compared to the temporary part, That is, it is preferable to achieve spectrogram preprocessing by summing. In this case, it is also preferable to calculate the profile spectrum for the individual—in this case the harmonic—tone source, using the total spectrum, ie the integrated spectrogram.

発明コンセプトの個々の機能性は、以下により詳細に示される。しかしながら、本発明の好ましい実施態様において、代表的なデジタルオーディオ信号は、最初に手段8の前処理によって前処理される。さらに、前処理手段8に入力されるPCMオーディオ信号として、44.1Hzのサンプリング周波数でサンプルごとに16ビットの幅を有するモノラルファイルを供給することが好ましい。これらのオーディオ信号、すなわち、ビデオサンプルのストリームであってもよくて、通常、情報サンプルのストリームであってもよいオーディオサンプルのこのストリームは、「エキサイタ」とよくいわれる音響効果装置のソフトウェアに基づくエミュレーションを用いている時間範囲内で前処理を実行するために、前処理手段8に送られる。このコンセプトについて、前処理ステージ8は、オーディオ信号の高周波数部分を増幅する。これは、信号の高域通過フィルタ処理バージョンを有する非線形ディストーションを実行することによって、さらに、ディストーションの結果をオリジナル信号に加えることによって達成される。この前処理は、評価されるハイハットまたは同様にハイピッチおよびローインテンシティを有するイディオフォーンがあるときに、特に有利なことが分かる。全体の音楽信号に関してそれらのエネルギッシュな重みは、このステップによって増加するが、より低いトーンを有する大部分の調和的にサステインがある楽器および打楽器は、否定的に影響を受けない。   The individual functionality of the inventive concept is shown in more detail below. However, in a preferred embodiment of the invention, the representative digital audio signal is first preprocessed by means of preprocessing by means 8. Furthermore, it is preferable to supply a mono file having a 16-bit width for each sample at a sampling frequency of 44.1 Hz as the PCM audio signal input to the preprocessing means 8. These streams of audio signals, which may be streams of video samples, and usually information samples, are based on sound effects device software often referred to as “exciters”. In order to execute the preprocessing within the time range using the emulation, it is sent to the preprocessing means 8. For this concept, the preprocessing stage 8 amplifies the high frequency part of the audio signal. This is accomplished by performing non-linear distortion with a high-pass filtered version of the signal and further adding the distortion result to the original signal. This pre-treatment has been found to be particularly advantageous when there are evaluated hi-hats or idiophones with high pitch and low intensity as well. Their energetic weight with respect to the overall music signal is increased by this step, but most harmonically sustaining and percussion instruments with lower tones are not negatively affected.

他の肯定的な副作用は、この処理によって本質的に低域通過フィルタ処理されたMP3の符号化および復号化されたファイルが、再び高周波数情報を得るということである。   Another positive side effect is that MP3 encoded and decoded files that are inherently low pass filtered by this process again get high frequency information.

前処理時間信号のスペクトル表現は、好ましくは短時間フーリエ変換(STFT)を実行する時間/周波数手段12を用いて得られる。   A spectral representation of the pre-processing time signal is preferably obtained using time / frequency means 12 that performs a short time Fourier transform (STFT).

時間/周波数手段を実施するために、好ましくは4096値の比較的大きいブロックサイズおよび高度のオーバーラップが好ましい。最初に必要とされるものは、低周波数範囲のために、すなわちより低いスペクトル係数のために、良好なスペクトル分解能である。さらに、時間分解能は、少ないホップサイズ、すなわち隣接したブロック間の小さいホップインターバルを得ることによって、所望の精度に増加される。この好ましい実施形態において、すでに説明されたように、ブロックごとに4096個のサンプルは、92ミリ秒の時間ブロック期間に対応する短時間フーリエ変換による。10ミリ秒の値が、ホップサイズとして用いられる。これは、各々のサンプルが短時間スペクトル中の列において9回を超えて生じることを意味する。   In order to implement time / frequency means, a relatively large block size of preferably 4096 values and a high degree of overlap are preferred. What is needed first is good spectral resolution for the low frequency range, ie for lower spectral coefficients. Furthermore, the temporal resolution is increased to the desired accuracy by obtaining a small hop size, i.e. a small hop interval between adjacent blocks. In this preferred embodiment, as already explained, 4096 samples per block are by a short time Fourier transform corresponding to a time block period of 92 milliseconds. A value of 10 milliseconds is used as the hop size. This means that each sample occurs more than 9 times in a row in the short-time spectrum.

Figure 2007536587
Figure 2007536587

Figure 2007536587
Figure 2007536587

微分が負の値を導くことが指摘され、その結果、半波整流は、この影響を除去するためにブロック16bにおいて実行される。しかしながら、その代わりに、負の符号は、実行されないが、成分の次の分解のために、簡単に反転することができる。   It is pointed out that the derivative leads to a negative value, so that half-wave rectification is performed in block 16b to remove this effect. Instead, however, a negative sign is not performed, but can be easily inverted for subsequent decomposition of the components.

整流器16bのために、負でない差スペクトログラムが得られ、最大値サーチャー16cに送られる。   For the rectifier 16b, a non-negative difference spectrogram is obtained and sent to the maximum value searcher 16c.

最大値サーチャー16cは、以下で取り扱われるイベント検出を実行する。いくつかの局部の極値の、好ましくは音楽信号における一時的な開始イベントに関連する極大値の検出は、最初に2つの連続的なドラム開始を分離する時間許容範囲を規定することによって実行される。この好ましい実施例において、68ミリ秒の時間周期が、時間分解能から、および、音楽信号についての知識から導き出される一定値として用いられる。特に、この値は、フレームおよび/または個々のスペクトルおよび/または2つの連続的な開始間で少なくとも生じなければならない微分された個々のスペクトルの数を決定する。この最小距離の使用は、250bpmの非常に高速の上限速度で16分音符が60ミリ秒持続するという考慮事項によって支持される。   The maximum value searcher 16c performs event detection handled below. Detection of several local extremes, preferably local maxima associated with a temporary start event in the music signal, is performed by first defining a time tolerance that separates two consecutive drum starts. The In this preferred embodiment, a time period of 68 milliseconds is used as a constant value derived from the time resolution and from knowledge about the music signal. In particular, this value determines the number of differentiated individual spectra that must occur at least between a frame and / or individual spectra and / or two consecutive starts. The use of this minimum distance is supported by the consideration that a sixteenth note lasts 60 milliseconds at a very high upper speed limit of 250 bpm.

Figure 2007536587
Figure 2007536587

最大値のサーチの信頼性は、好ましくは、瞬間より長いもののためのウインドウに現れるそれらの最大値だけが維持されるということによって改善され、その理由は、それらが興味深いピークである可能性が非常にあるからである。このように、瞬間、すなわち例えば3つの瞬間の所定の閾値を超える最大値を表すそれらの最大値を用いることが好ましく、この閾値は、ブロック期間およびポップサイズの比率によって決まる。これは、最大値が、それが実際に重要な最大値である場合、一定数の瞬間のための最大値でなければならない、すなわち、結局、上述の数値について、各々のサンプルが少なくとも9つの連続的な短時間スペクトル「に関係している」ということを考慮する場合、一定数のオーバーラップするスペクトルのための最大値でなければならないことを示す。   Maximum search reliability is preferably improved by maintaining only those maximum values that appear in the window for those that are longer than the moment, because it is highly possible that they are interesting peaks. Because it is. Thus, it is preferred to use those maximum values that represent the maximum values that exceed the predetermined threshold of the moment, ie, for example, three moments, which threshold depends on the ratio of the block period and the pop size. This must be the maximum value for a certain number of moments if it is actually the maximum value that is important, ie, for each of the above numbers, each sample is at least 9 consecutive When considering the fact that it is “related to” a short time spectrum, it indicates that it must be the maximum value for a certain number of overlapping spectra.

Figure 2007536587
Figure 2007536587

本発明によれば、差スペクトログラムの小さい部分、特に微分によって形成される短時間スペクトルは、抽出され、次の分解手段に送られる。   According to the invention, a small part of the difference spectrogram, in particular a short-time spectrum formed by differentiation, is extracted and sent to the next decomposition means.

Figure 2007536587
Figure 2007536587

この周知の技術を用いて、小さい再構成エラーを有するオリジナルデータの良好な表現を生じる、限定数の非相関関係の主成分に集められる全セットの短時間スペクトルを減少することが可能である。この目的のために、データセットの共分散マトリックスの固有値分解(EVD)が計算される。1セットの固有ベクトルから、d個の最大固有値を有するそれらの固有ベクトルは、以下の方程式に従ってオリジナルベクトルの線形結合のための係数を提供するために選択される:

Figure 2007536587
Using this well-known technique, it is possible to reduce the entire set of short-time spectra collected in a limited number of uncorrelated principal components, resulting in a good representation of the original data with small reconstruction errors. For this purpose, the eigenvalue decomposition (EVD) of the covariance matrix of the data set is calculated. From a set of eigenvectors, those eigenvectors with d largest eigenvalues are selected to provide coefficients for a linear combination of the original vectors according to the following equation:
Figure 2007536587

Figure 2007536587
Figure 2007536587

Figure 2007536587
Figure 2007536587

Figure 2007536587
Figure 2007536587

Figure 2007536587
Figure 2007536587

その絶対最大値とのRの正規化は、−1から+1までの範囲の重み係数を生じ、その結果、次の方程式

Figure 2007536587
を用いて抽出されるスペクトルプロファイルは、オリジナルスペクトログラムの範囲の値を有する。更なる正規化は、そのL2ノルムによる各々のスペクトルプロファイルを分割することによって達成される。 Normalization of R with its absolute maximum yields a weighting factor ranging from -1 to +1, resulting in the following equation
Figure 2007536587
The spectral profile extracted using has a value in the range of the original spectrogram. Further normalization is achieved by dividing each spectral profile by its L2 norm.

上述のように、独立の仮定および不変の仮定は、与えられた短時間スペクトルのために100パーセント、必ずしも満足しない。したがって、非混合の後に得られるスペクトルプロファイルが特定の依存性をまだ呈することは、思いがけないことではない。しかしながら、これは、不完全な挙動として見なされてはならない。個々の打楽器のトーンのスペクトルプロファイルを用いて行われるテストは、スペクトルプロファイルも、異なった打楽器の開始スペクトル間で大量の依存性を呈することが分かった。周波数軸に沿って相互のオーバーラップおよび類似性の程度を測定する1つの可能性は、クロストーク測定を行うことである。説明のために、ICAプロセスから得られるスペクトルプロファイルは、フィルタバンクにおける非常に周波数選択的な部分の伝達関数として見なされ、通過バンドにとってフィルタバンクチャネルの出力におけるクロストークに導くことが可能である。2つのスペクトルプロファイル間に存在するクロストークは、以下の方程式に従って計算される:

Figure 2007536587
As mentioned above, independent and invariant assumptions are not necessarily 100 percent satisfactory for a given short-time spectrum. Therefore, it is not unexpected that the spectral profile obtained after unmixing still exhibits a certain dependence. However, this should not be regarded as incomplete behavior. Tests performed using the spectral profiles of individual percussion instrument tones have been found that the spectral profile also exhibits a great deal of dependence between the starting spectra of different percussion instruments. One possibility to measure the degree of mutual overlap and similarity along the frequency axis is to make crosstalk measurements. For illustration purposes, the spectral profile obtained from the ICA process can be viewed as a transfer function of a very frequency selective part in the filter bank and can lead to crosstalk at the output of the filter bank channel for the passband. The crosstalk that exists between the two spectral profiles is calculated according to the following equation:
Figure 2007536587

上述の方程式において、iは1からdの範囲に及び、jは1からdの範囲に及び、jはiと異なる。実際に、この値はよく知られた相関係数に関連するが、後者は異なった正規化を用いる。   In the above equation, i ranges from 1 to d, j ranges from 1 to d, and j is different from i. In fact, this value is related to the well-known correlation coefficient, but the latter uses a different normalization.

決定されるスペクトルプロファイルに基づいて、振幅エンベロープ決定は、図2のブロック20において実行される。この目的のために、オリジナルスペクトル、すなわち、例えば図1の手段12によってまたは図2の時間/周波数変換器12において得られる短時間スペクトルのシーケンスが用いられる。次の方程式が適用する:

Figure 2007536587
Based on the determined spectral profile, amplitude envelope determination is performed in block 20 of FIG. For this purpose, the original spectrum, i.e. a sequence of short-time spectra obtained, for example, by means 12 of FIG. 1 or in the time / frequency converter 12 of FIG. 2, is used. The following equation applies:
Figure 2007536587

第2の情報ソースとして、差スペクトログラムから、次の方程式に従って、振幅エンベロープの微分されたバージョンが決定できる:

Figure 2007536587
As a second source of information, a differentiated version of the amplitude envelope can be determined from the difference spectrogram according to the following equation:
Figure 2007536587

このコンセプトについて本質的なことは、更なるICA計算が振幅エンベロープによって実行されないということである。また、本発明のコンセプトは、信号において実際に生じるそれらの楽器のスペクトルに非常に近くなる非常に専門化されたスペクトルプロファイルを提供する。それにもかかわらず、例えば非常に主要な打楽器のリズム部分を有するダンスを指向する音楽のために、抽出された振幅エンベロープが鋭いピークを有する優れた検出関数であることは、特定の場合にだけである。振幅エンベロープは、上述のクロストーク効果によってもよい比較的小さいピークおよびプラトーをよく含む。   Essential to this concept is that no further ICA calculations are performed by the amplitude envelope. The inventive concept also provides a very specialized spectral profile that is very close to the spectrum of those instruments that actually occur in the signal. Nevertheless, it is only in certain cases that the extracted amplitude envelope is an excellent detection function with a sharp peak, for example for music that is oriented to dance with the rhythmic part of a very major percussion instrument. is there. The amplitude envelope often includes relatively small peaks and plateaus that may be due to the above-described crosstalk effect.

特徴抽出および分類のための手段22のより詳細な実施は、以下に指し示される。成分の実際の数が最初に現実の音楽信号のために知られていないことは、よく知られている。この状況において、「成分」は、スペクトルプロファイルおよび対応している振幅エンベロープの両方を示す。抽出される成分の数dがあまりに低い場合、考慮されてない成分のアーチファクトは、他の成分において生じる可能性が非常にある。一方、多すぎる成分が抽出される場合、大部分の顕著な成分は、いくつかの成分に分割される。残念なことに、この分割は、成分の正しい数によってさえ生じ、時々現実の成分の検出を難しくする。   A more detailed implementation of the means 22 for feature extraction and classification is indicated below. It is well known that the actual number of components is not initially known for a real music signal. In this context, “component” refers to both the spectral profile and the corresponding amplitude envelope. If the number d of extracted components is too low, unaccounted component artifacts can very much occur in other components. On the other hand, if too many components are extracted, the most prominent components are divided into several components. Unfortunately, this division occurs even with the correct number of components, sometimes making it difficult to detect real components.

この問題を克服するために、成分の最大数dは、PCAまたはICAプロセスにおいて特定される。その後、抽出される成分は、1セットのスペクトルベースおよび時間ベースの特徴を用いて分類される。分類は、2種類の情報を提供することである。最初に、検出されるそれらの成分は、高度の確実性によって、非打楽器のように、更なる手順から除去されることになる。さらに、残りの成分は、楽器の所定のクラスに割り当てられることになる。   To overcome this problem, the maximum number of components d is specified in the PCA or ICA process. The extracted components are then classified using a set of spectral and time-based features. Classification is to provide two types of information. Initially, those components that are detected will be removed from further procedures, like non-percussion instruments, with a high degree of certainty. Furthermore, the remaining components will be assigned to a predetermined class of musical instruments.

Figure 2007536587
Figure 2007536587

このように、振幅エンベロープは、以下に説明されるように、打楽器のソース(図3b;ハイハット)の場合および調和的にサステインがある楽器(図4b;ギター)の場合において明らかに異なるプロファイルスペクトルとして、等しくよく分類および/または特徴抽出のために用いられる。このように、調和的にサステインがある楽器については、ハーモニックスを強く生じるのに対して、打楽器的なソースは、明らかに発音されたハーモニックスを有しないが、全体でエネルギーが集中される範囲を有し、集中されたエネルギーのこの範囲が非常に広帯域である、かなりノイズのようなスペクトルを有する。   Thus, the amplitude envelope, as explained below, has a distinct spectrum spectrum in the case of percussion instrument sources (FIG. 3b; hi-hat) and harmonically sustaining instruments (FIG. 4b; guitar). Equally well used for classification and / or feature extraction. Thus, harmonically sustaining instruments produce harmonics strongly, whereas percussive sources do not have clearly pronounced harmonics, but the overall energy concentration range. And this range of concentrated energy has a very broad spectrum, which is very broadband.

このように、スペクトルベースの測定、すなわちプロファイルスペクトル(例えば図3bおよび4b)から導き出される測定は、打楽器のトーンに関連するスペクトルから調和的にサステインがあるトーンのスペクトルを分離するために好ましくは用いる。再び、好ましい実施形態において、この測定を計算する修正バージョンが用いられ、スペクトル遅延現象に対する許容範囲、全てのハーモニックスを有する不調和および適切な正規化を呈する。より高度の計算効率は、オリジナルの不調和関数を周波数対のための重みマトリックスと交換することによって達成される。   Thus, spectrum-based measurements, ie, measurements derived from profile spectra (eg, FIGS. 3b and 4b), are preferably used to separate harmonically sustained tone spectra from those associated with percussion instrument tones. . Again, in a preferred embodiment, a modified version that calculates this measurement is used, exhibiting tolerances for spectral delay phenomena, discord with all harmonics, and proper normalization. A higher degree of computational efficiency is achieved by exchanging the original anharmonic function with a weight matrix for frequency pairs.

打楽器の所定のクラスにスペクトルプロファイルを割り当てることは、トレーニングデータベースとして個々の楽器のスペクトルプロファイルを有するk個の次の隣接したものを分類するための単純な分類器によって提供される。距離関数は、クエリープロファイルおよびデータベースプロファイル間の少なくとも1つの相関係数から計算される。低い信頼性の場合に分類を検査するために、すなわち低い相関係数のために、または、同じ楽器の多数の発生を検査するために、スペクトルプロファイルのフォームについて詳細な情報を提供する付加的な特徴が抽出される。これらの特徴は、すでに上述の個々の特徴を含む。   Assigning spectral profiles to a given class of percussion instruments is provided by a simple classifier to classify the k next neighbors with the individual instrument's spectral profile as a training database. The distance function is calculated from at least one correlation coefficient between the query profile and the database profile. Additional information that provides detailed information about the form of the spectral profile, in order to check the classification in the case of low confidence, i.e. for low correlation coefficients or to check for multiple occurrences of the same instrument Features are extracted. These features include the individual features already mentioned above.

以下に、図2の決定器24の機能性が取り扱われる。ドラムのような開始は、ピークピッキングともいわれる一般のピーク選択方法を用いて、例えば図3aの振幅エンベロープのような振幅エンベロープにおいて検出される。オリジナルの時間t、すなわち最大値サーチャー16cが結果を提供する時間に加えて許容範囲内で生じているピークだけが、主に開始の候補として考えられる。振幅エンベロープから抽出されるいかなる残りのピークも、更なる考慮のために最初に格納される。振幅エンベロープの量の値は、その位置で、各々の開始候補と関連付けられる。この値が所定の動的な閾値を超えない場合、開始は受け入れられない。開始を包囲している比較的大きい時間範囲において、エネルギー量全体にわたって、閾値は変動する。調和的にサステインがある楽器および同時に演奏される打楽器の大部分のクロストーク影響は、このステップにおいて減少される。さらに、さまざまな打楽器の同時開始が、実際に存在するか、または、クロストーク効果に基づいてだけ存在するかどうかについては微分することが好ましい。この問題に対する解決策は、開始時に大部分の激しい楽器の値と比較すると比較的高い値を有するこれらの更なる発生を受け入れることが好ましい。   In the following, the functionality of the determiner 24 of FIG. 2 will be dealt with. A drum-like start is detected in an amplitude envelope, such as the amplitude envelope of FIG. 3a, using a common peak selection method, also called peak picking. Only peaks that occur within an acceptable range in addition to the original time t, i.e., the time that the maximum value searcher 16c provides results, are mainly considered candidates for start. Any remaining peaks extracted from the amplitude envelope are initially stored for further consideration. A value for the magnitude of the amplitude envelope is associated with each starting candidate at that position. If this value does not exceed a predetermined dynamic threshold, the start is not accepted. In a relatively large time range surrounding the start, the threshold varies across the amount of energy. Most crosstalk effects of harmonically sustaining instruments and percussion instruments played at the same time are reduced in this step. Furthermore, it is preferable to differentiate as to whether the simultaneous onset of various percussion instruments actually exists or only based on the crosstalk effect. The solution to this problem preferably accepts these further occurrences having relatively high values when compared to the values of most intense instruments at the start.

本発明によれば、現実のポリフォニー音楽信号における非標準音高の打楽器の自動検出および好ましくは自動分類が達成され、このための開始基準は、一方では、プロファイルスペクトルであり、他方では、振幅エンベロープである。さらに、音楽のリズム情報は、次々に好ましい音符から音符へのトランスクリプションを導く可能性が高い、打楽器から容易に抽出することができる。   According to the invention, automatic detection and preferably automatic classification of non-standard pitch percussion instruments in real polyphony music signals is achieved, the starting criterion for this being on the one hand the profile spectrum and on the other hand the amplitude envelope. It is. Furthermore, music rhythm information can be easily extracted from percussion instruments, which are likely to lead to desirable note-to-note transcription one after another.

状況によっては、情報信号を解析するための本発明の方式は、ハードウェアまたはソフトウェアでも実施されてもよい。この実施は、その方法が実行されるように、プログラム可能なコンピュータシステムと相互に作用することができ、電子的に読み出すことができる制御信号を有する、デジタル記憶媒体、特に、プロッピー(登録商標)ディスクまたはCD上で行うことができる。本発明は、一般に、コンピュータプログラム製品がコンピュータ上で実行されるときに、機械で読み出し可能なキャリアに格納されたこの方法を実行するためのプログラムコードを有するコンピュータプログラム製品にも存在する。言い換えれば、本発明は、コンピュータプログラムがコンピュータ上で実行されるときに、この方法を実行するためのプログラムコードを有するコンピュータプログラムとしても実現することができる。   In some situations, the inventive scheme for analyzing information signals may also be implemented in hardware or software. This implementation is capable of interacting with a programmable computer system such that the method is carried out, and has a control signal that can be read electronically, in particular a digital storage medium, in particular Propy® It can be done on a disc or CD. The present invention also generally resides in a computer program product having program code for performing this method stored on a machine readable carrier when the computer program product is executed on a computer. In other words, the present invention can also be realized as a computer program having a program code for executing this method when the computer program is executed on a computer.

図1は、情報信号を解析するための本発明の装置のブロック図を示す。FIG. 1 shows a block diagram of an apparatus of the present invention for analyzing information signals. 図2は、情報信号を解析するための本発明の装置の好ましい実施形態のブロック図を示す。FIG. 2 shows a block diagram of a preferred embodiment of the apparatus of the present invention for analyzing information signals. 図3aは、打楽器のソースのための振幅エンベロープの例を示す。FIG. 3a shows an example of an amplitude envelope for a percussion instrument source. 図3bは、打楽器のソースのためのプロファイルスペクトルの例を示す。FIG. 3b shows an example of a profile spectrum for a percussion instrument source. 図4aは、調和的にサステインがある楽器のための振幅エンベロープの例を示す。FIG. 4a shows an example of an amplitude envelope for a musical instrument with harmonic sustain. 図4bは、調和的にサステインがある楽器のためのプロファイルスペクトルの例を示す。FIG. 4b shows an example profile spectrum for a musical instrument with harmonic sustain.

Claims (25)

情報信号を解析するための装置であって、
前記情報信号から、重要な短時間スペクトルまたは前記情報信号の短時間スペクトルから導き出される重要な短時間スペクトルを抽出するための手段(16)であって、抽出するための前記手段(16)は、前記情報信号の他の短時間スペクトルより特定の特徴により近くなるそのような短時間スペクトルを抽出するように構成されている、手段(16)と、
前記抽出された短時間スペクトルを、成分信号スペクトル、シークされる特徴に対応しているトーンを発生するトーンソースのプロファイルスペクトルを表す成分信号スペクトル、およびシークされる前記特徴に対応しているトーンを発生する他のトーンソースのプロファイルスペクトルを表す他の成分信号スペクトルに分解するための手段(18)と、
前記トーンソースのための振幅エンベロープを計算するための手段(20)であって、トーンソースのための振幅エンベロープは、前記トーンソースのプロファイルスペクトルが時間とともにどのように変わるかを、前記プロファイルスペクトルおよび前記情報信号を表している短時間スペクトルのシーケンスを用いて示す、手段(20)とを備える、装置。
An apparatus for analyzing an information signal,
Means (16) for extracting an important short-time spectrum or an important short-time spectrum derived from the information signal from the information signal, the means (16) for extracting comprising: Means (16) configured to extract such a short time spectrum that is closer to a particular feature than other short time spectra of said information signal;
The extracted short-time spectrum is divided into a component signal spectrum, a component signal spectrum representing a profile spectrum of a tone source that generates a tone corresponding to the feature to be sought, and a tone corresponding to the feature to be sought. Means (18) for decomposing into other component signal spectra representing profile spectra of other tone sources that are generated;
Means (20) for calculating an amplitude envelope for the tone source, wherein the amplitude envelope for the tone source determines how the profile spectrum of the tone source changes over time, and the profile spectrum and Means (20) for indicating with a sequence of short-time spectra representing said information signal.
抽出するための前記手段(16)は、より高い周波数で前記情報信号に存在する信号部分が、より低い周波数で前記情報信号に存在する信号部分と比較して、前記情報信号において、強調されるように、前記情報信号を前処理(8)するように構成されている、請求項1に記載の装置。   The means for extracting (16) is enhanced in the information signal, wherein the signal part present in the information signal at a higher frequency is compared to the signal part present in the information signal at a lower frequency. The apparatus of claim 1, wherein the apparatus is configured to pre-process (8) the information signal. 抽出するための前記手段(16)は、
前記前処理(8)において、
前記情報信号を高域通過フィルタ処理し、
非線形方法で前記情報信号の前記高域通過フィルタ処理バージョンをディストートし、
前記非線形にディストートされた信号を前記オリジナルの情報信号に加えるように構成されている、請求項2に記載の装置。
Said means (16) for extracting comprises:
In the pre-processing (8),
High-pass filtering the information signal;
Distorting the high-pass filtered version of the information signal in a non-linear manner,
The apparatus of claim 2, wherein the apparatus is configured to add the nonlinearly-distorted signal to the original information signal.
抽出するための前記手段(16)は、短時間スペクトルのシーケンスを得るために前記情報信号を時間領域/周波数領域変換(12)するように構成され、時間において隣接した2つの短時間スペクトルは、ホッピングインターバルを除いてオーバーラップする前記情報信号の部分に関連する、先行する請求項のいずれかに記載の装置。   The means for extracting (16) is configured to time domain / frequency domain transform (12) the information signal to obtain a sequence of short time spectra, wherein two short time spectra adjacent in time are: An apparatus according to any preceding claim, associated with the portion of the information signal that overlaps except for a hopping interval. 各々の短時間スペクトルは、スペクトル係数のシーケンスを備え、
抽出するための前記手段(16)は、微分された短時間のシーケンスを得るために時間に関して短時間スペクトルの前記シーケンスを微分(16a)するように構成され、微分された時間スペクトルは、先行するまたは次の短時間スペクトルと比較して、短時間スペクトルの変化について情報を提供する、請求項4に記載の装置。
Each short-time spectrum comprises a sequence of spectral coefficients,
The means (16) for extracting is configured to differentiate (16a) the sequence of short time spectra with respect to time to obtain a differentiated short time sequence, the differentiated time spectrum preceding 5. The apparatus of claim 4, wherein the apparatus provides information about changes in the short-time spectrum as compared to the next short-time spectrum.
抽出するための前記手段(16)は、各々のスペクトル係数のために、現在の短時間スペクトルと先行するまたは次の短時間スペクトルとにおける前記スペクトル係数の差を形成することによって微分された短時間スペクトルを得るように構成されている、請求項5に記載の装置。   Said means for extracting (16) is, for each spectral coefficient, a short time differentiated by forming a difference of said spectral coefficient in the current short time spectrum and the previous or next short time spectrum. The apparatus of claim 5, configured to obtain a spectrum. 抽出するための前記手段(16)は、微分され整流された短時間スペクトルがいかなる負の値も呈しないように、前記微分された短時間スペクトルを整流(16b)するように構成されている、請求項5または請求項6に記載の装置。   The means (16) for extracting is configured to rectify (16b) the differentiated short-time spectrum such that the differentiated and rectified short-time spectrum does not exhibit any negative value; Apparatus according to claim 5 or claim 6. 抽出するための前記手段(16)は、前記微分された短時間スペクトルに基づいて重要な信号を決定するように構成されている、請求項5ないし請求項7のいずれかに記載の装置。   8. An apparatus according to any of claims 5 to 7, wherein the means (16) for extracting is configured to determine an important signal based on the differentiated short-time spectrum. 抽出するための前記手段(16)は、各々の微分された短時間スペクトルのために、短時間スペクトルのための合計値を得るように、前記微分された短時間スペクトルから、スペクトル係数またはスペクトル係数から導き出される値を合計(16c)するように構成され、その結果、時間とともに検出関数が生じる、請求項8に記載の装置。   Said means (16) for extracting, from each differentiated short-time spectrum, for each differentiated short-time spectrum, a spectral coefficient or a spectral coefficient is obtained from said differentiated short-time spectrum. 9. The apparatus of claim 8, wherein the apparatus is configured to sum (16c) values derived from the result, resulting in a detection function over time. 抽出するための前記手段(16)は、時間とともに前記検出関数を平滑化するように構成されている、請求項9に記載の装置。   The apparatus according to claim 9, wherein the means (16) for extracting is configured to smooth the detection function over time. 抽出するための前記手段(16)は、ある時点で前記検出関数における最大値を見つけ(16c)、それに関連しその時点で前記検出関数が最大値を呈する時点を有する重要なスペクトルとして、微分された短時間スペクトルまたは短時間スペクトルを用いるように構成されている、請求項9または請求項10に記載の装置。   The means for extracting (16) finds a maximum value in the detection function at a certain time (16c) and is differentiated as an important spectrum having a time point associated with it at which the detection function exhibits a maximum value. 11. An apparatus according to claim 9 or claim 10 configured to use a short time spectrum or a short time spectrum. 抽出するための前記手段(16)は、前記検出関数のそのような最大値だけを、所定の時間周期を超えて時間において離れて間隔を置かれる重要なものとして見なすように構成されている、請求項9ないし請求項11のいずれかに記載の装置。   The means for extracting (16) is configured to consider only such maximum values of the detection function as significant spaced apart in time beyond a predetermined time period, 12. A device according to any one of claims 9 to 11. 抽出するための前記手段(16)は、総量スペクトルを短時間スペクトルのシーケンスとして決定し、前記重要な短時間スペクトルを抽出するときに前記短時間スペクトルのフェーズ情報を用いるように構成されている、請求項4ないし請求項12のいずれかに記載の装置。   The means for extracting (16) is configured to determine a total amount spectrum as a sequence of short-time spectra and to use the phase information of the short-time spectra when extracting the important short-time spectrum, The apparatus according to any one of claims 4 to 12. 分解するための前記手段(18)は、減少された数の抽出された短時間スペクトルを得るために重み付け方法において前記抽出された短時間スペクトルを加える(18a)ように構成されている、先行する請求項のいずれかに記載の装置。   The means for decomposing (18) is configured to add (18a) the extracted short-time spectrum in a weighting method to obtain a reduced number of extracted short-time spectra An apparatus according to any of the claims. 分解するための前記手段(18)は、処理された短時間スペクトルを得るために次元減少のための主成分解析を実行(18a)するように構成されている、請求項1ないし請求項14のいずれかに記載の装置。   The means (18) for decomposing is configured to perform a principal component analysis (18a) for dimensionality reduction to obtain a processed short-time spectrum. The device according to any one of the above. 分解するための前記手段(18)は、複数の成分信号を生じるために独立成分解析(18b)を実行するように構成され、成分信号は、前記情報信号に貢献している情報ソースに関連する、先行する請求項のいずれかに記載の装置。   The means for decomposing (18) is configured to perform independent component analysis (18b) to produce a plurality of component signals, the component signals being associated with information sources contributing to the information signal. A device according to any of the preceding claims. 前記振幅エンベロープを計算するための前記手段(20)は、前記トーンソースのための前記振幅エンベロープを得るために、前記プロファイルスペクトルを含んでいるマトリックスと前記情報信号の短時間スペクトルのシーケンスを含んでいるマトリックスとを乗じるように構成されている、先行する請求項のいずれかに記載の装置。   The means (20) for calculating the amplitude envelope includes a matrix containing the profile spectrum and a sequence of short-time spectra of the information signal to obtain the amplitude envelope for the tone source. An apparatus according to any preceding claim, wherein the apparatus is configured to multiply with a matrix. 前記振幅エンベロープを計算するための前記手段は、前記トーンソースのための前記プロファイルスペクトルを用いて、さらに前記差スペクトログラムを用いて、微分された振幅エンベロープをさらに決定するように構成されている、先行する請求項のいずれかに記載の装置。   The means for calculating the amplitude envelope is configured to further determine a differentiated amplitude envelope using the profile spectrum for the tone source and further using the difference spectrogram. An apparatus according to any of the claims. 前記成分信号を打楽器の成分信号および非打楽器の成分信号に分類するための手段(22)をさらに備える、先行する請求項のいずれかに記載の装置。   An apparatus according to any preceding claim, further comprising means (22) for classifying the component signals into percussion instrument component signals and non-percussion instrument component signals. 分類するための前記手段(22)は、前記プロファイルスペクトルおよび/または前記振幅エンベロープに基づいて分類を実行するように構成されている、請求項19に記載の装置。   20. Apparatus according to claim 19, wherein the means (22) for classifying is configured to perform classification based on the profile spectrum and / or the amplitude envelope. 分類するための前記手段(20)は、前記プロファイルスペクトルまたは前記振幅エンベロープから特徴を抽出し、それをデータベースにおける周知のソースの特徴と比較するように構成されている、請求項19または請求項20に記載の装置。   21. The means (20) for classifying is configured to extract features from the profile spectrum or the amplitude envelope and compare them to features of known sources in a database. The device described in 1. 抽出するための前記手段(16)が閾値に類似した時点で重要な短時間スペクトルを抽出するときに、トーンソースのための前記振幅エンベロープを、前記トーンソースから信号の開始として前記振幅エンベロープの最大値を受け入れるために、検討するための手段(24)をさらに備える、先行する請求項のいずれかに記載の装置。   When the means for extracting (16) extracts an important short-term spectrum at a time similar to a threshold, the amplitude envelope for the tone source is set to the maximum of the amplitude envelope as the start of the signal from the tone source. Apparatus according to any of the preceding claims, further comprising means (24) for considering to accept the value. 前記振幅エンベロープを計算するための前記手段(20)は、トーンソースのための前記振幅エンベロープを、前記振幅エンベロープが前記トーンソースのプロファイルスペクトルのインテンシティまたは重み付けが時間とともにどのように変わるかを示すように、計算するように構成されている、先行する請求項のいずれかに記載の装置。   The means (20) for calculating the amplitude envelope indicates the amplitude envelope for a tone source and how the amplitude envelope changes the intensity or weighting of the tone source profile spectrum over time. An apparatus according to any preceding claim, wherein the apparatus is configured to calculate. 情報信号を解析するための方法であって、
前記情報信号から重要な短時間スペクトルまたは前記情報信号の短時間スペクトルから導き出される重要な短時間スペクトルを抽出するステップ(16)であって、抽出される前記短時間スペクトルは、前記情報信号の他の短時間スペクトルより特定の特徴により近くなるそのような短時間スペクトルである、ステップ(16)と、
前記抽出された短時間スペクトルを、成分信号スペクトル、シークされる特徴に対応しているトーンを発生するトーンソースのプロファイルスペクトルを表す成分信号スペクトル、およびシークされる前記特徴に対応しているトーンを発生する他のトーンソースのプロファイルスペクトルを表す他の成分信号スペクトルに分解するステップ(18)と、
前記トーンソースのための振幅エンベロープを計算するステップ(20)であって、トーンソースのための振幅エンベロープは、前記トーンソースのプロファイルスペクトルが時間とともにどのように変わるかを、前記プロファイルスペクトルおよび前記情報信号を表している短時間スペクトルのシーケンスを用いて示す、ステップ(20)とを備える、方法。
A method for analyzing an information signal, comprising:
Extracting an important short-time spectrum from the information signal or an important short-time spectrum derived from the short-time spectrum of the information signal, wherein the extracted short-time spectrum includes the information signal Step (16), which is such a short-term spectrum that is closer to a particular feature than the short-term spectrum of
The extracted short-time spectrum is divided into a component signal spectrum, a component signal spectrum representing a profile spectrum of a tone source that generates a tone corresponding to the feature to be sought, and a tone corresponding to the feature to be sought. Resolving (18) into other component signal spectra representing profile spectra of other tone sources to be generated;
Calculating (20) an amplitude envelope for the tone source, wherein the amplitude envelope for the tone source determines how the profile spectrum of the tone source changes over time, the profile spectrum and the information; And (20) indicated with a sequence of short time spectra representing the signal.
コンピュータプログラムがコンピュータ上で動作するときに、請求項24に記載された情報信号を解析するための前記方法を実行するためのプログラムコードを有する、コンピュータプログラム。   A computer program comprising program code for performing the method for analyzing an information signal as claimed in claim 24 when the computer program runs on a computer.
JP2007511985A 2004-05-07 2005-04-29 Apparatus and method for analyzing information signals Ceased JP2007536587A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102004022660A DE102004022660B4 (en) 2004-05-07 2004-05-07 Apparatus and method for analyzing an information signal
PCT/EP2005/004685 WO2005114651A1 (en) 2004-05-07 2005-04-29 Device and method for analysing an information signal

Publications (1)

Publication Number Publication Date
JP2007536587A true JP2007536587A (en) 2007-12-13

Family

ID=34968451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007511985A Ceased JP2007536587A (en) 2004-05-07 2005-04-29 Apparatus and method for analyzing information signals

Country Status (5)

Country Link
EP (1) EP1743324B1 (en)
JP (1) JP2007536587A (en)
AT (1) ATE377240T1 (en)
DE (2) DE102004022660B4 (en)
WO (1) WO2005114651A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723200B (en) * 2021-08-03 2024-01-12 同济大学 Method for extracting time spectrum structural features of non-stationary signals

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675562A (en) * 1992-08-28 1994-03-18 Brother Ind Ltd Automatic musical note picking-up device
JP2000035796A (en) * 1998-05-07 2000-02-02 Canon Inc Method and device for processing music information
JP2002207482A (en) * 2000-11-07 2002-07-26 Matsushita Electric Ind Co Ltd Device and method for automatic performance
JP2004029274A (en) * 2002-06-25 2004-01-29 Fuji Xerox Co Ltd Device and method for evaluating signal pattern, and signal pattern evaluation program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6140568A (en) * 1997-11-06 2000-10-31 Innovative Music Systems, Inc. System and method for automatically detecting a set of fundamental frequencies simultaneously present in an audio signal
GB2363227B (en) * 1999-05-21 2002-02-20 Yamaha Corp Method and system for supplying contents via communication network
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6453252B1 (en) * 2000-05-15 2002-09-17 Creative Technology Ltd. Process for identifying audio content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675562A (en) * 1992-08-28 1994-03-18 Brother Ind Ltd Automatic musical note picking-up device
JP2000035796A (en) * 1998-05-07 2000-02-02 Canon Inc Method and device for processing music information
JP2002207482A (en) * 2000-11-07 2002-07-26 Matsushita Electric Ind Co Ltd Device and method for automatic performance
JP2004029274A (en) * 2002-06-25 2004-01-29 Fuji Xerox Co Ltd Device and method for evaluating signal pattern, and signal pattern evaluation program

Also Published As

Publication number Publication date
DE102004022660A1 (en) 2005-12-15
EP1743324A1 (en) 2007-01-17
WO2005114651A1 (en) 2005-12-01
DE102004022660B4 (en) 2006-03-23
DE502005001838D1 (en) 2007-12-13
ATE377240T1 (en) 2007-11-15
EP1743324B1 (en) 2007-10-31

Similar Documents

Publication Publication Date Title
US8175730B2 (en) Device and method for analyzing an information signal
Paulus et al. Drum transcription with non-negative spectrogram factorisation
Gillet et al. Transcription and separation of drum signals from polyphonic music
US20080300702A1 (en) Music similarity systems and methods using descriptors
US9774948B2 (en) System and method for automatically remixing digital music
WO2009001202A1 (en) Music similarity systems and methods using descriptors
EP3430612B1 (en) Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms
US20130339011A1 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
Elowsson et al. Modelling perception of speed in music audio
Grosche et al. Automatic transcription of recorded music
Dittmar et al. Further steps towards drum transcription of polyphonic music
Dziubinski et al. Estimation of musical sound separation algorithm effectiveness employing neural networks
Amarasinghe et al. Supervised learning approach for singer identification in sri lankan music
Kraft et al. The tonalness spectrum: feature-based estimation of tonal components
JP2007536587A (en) Apparatus and method for analyzing information signals
Peiris et al. Musical genre classification of recorded songs based on music structure similarity
Lerch An introduction to audio content analysis: Music Information Retrieval tasks and applications
Peiris et al. Supervised learning approach for classification of Sri Lankan music based on music structure similarity
Zhang et al. Maximum likelihood study for sound pattern separation and recognition
Pardo et al. Applying source separation to music
Janer et al. Combining a harmonic-based NMF decomposition with transient analysis for instantaneous percussion separation
Battenberg Improvements to percussive component extraction using non-negative matrix factorization and support vector machines
Flederus Enhancing music genre classification with neural networks by using extracted musical features
Morman et al. A system for the automatic segmentation and classification of chord sequences
Dubey et al. Music Instrument Recognition using Deep Learning

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100602

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20100602

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100616

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101026

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20110222