JP3914878B2 - リズム情報に関するオーディオ信号を解析するための装置及び方法 - Google Patents
リズム情報に関するオーディオ信号を解析するための装置及び方法 Download PDFInfo
- Publication number
- JP3914878B2 JP3914878B2 JP2002590149A JP2002590149A JP3914878B2 JP 3914878 B2 JP3914878 B2 JP 3914878B2 JP 2002590149 A JP2002590149 A JP 2002590149A JP 2002590149 A JP2002590149 A JP 2002590149A JP 3914878 B2 JP3914878 B2 JP 3914878B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- rhythm
- subband
- information
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000033764 rhythmic process Effects 0.000 title claims abstract description 118
- 230000005236 sound signal Effects 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims description 13
- 238000013441 quality evaluation Methods 0.000 claims abstract description 6
- 238000005311 autocorrelation function Methods 0.000 claims description 81
- 238000009499 grossing Methods 0.000 claims description 2
- 238000005314 correlation function Methods 0.000 claims 1
- 238000013432 robust analysis Methods 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000012805 post-processing Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 210000004081 cilia Anatomy 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/40—Rhythm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/135—Autocorrelation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Electrophonic Musical Instruments (AREA)
- Auxiliary Devices For Music (AREA)
Description
【発明の属する技術分野】
本発明は、信号処理概念、特にリズム情報に関するオーディオ信号の解析に関する。
【0002】
【従来の技術及び課題】
近年、オーディオデータやビデオデータのようなマルチメディアデータ資料の入手可能度が著しく進歩してきた。これは、特にインターネット、能率的なコンピュータのハードウェア及びソフトウェア、能率的なデータ圧縮つまりソース符号化方法やオーディオ及びビデオ方法の幅広い有用度に基づく一連の技術的要因による。
【0003】
例えば、インターネットにより世界的に入手可能な大容量の音声視覚信号は、内容の基準によってこれらのデータを判断したり分類することが可能になる概念を必要とする。有効な基準を指定することによって、所定の計算方法でマルチメディアを検索し、見つけ出せることが求められている。
【0004】
この要求は「コンテントベース」技術と呼ばれ、音声視覚データから、その信号の重要な特性を表すいわゆる特徴点を抜粋する。このような特徴点及びこれらの特徴点の組合せに基づき、オーディオ信号やビデオ信号それぞれの間で、類似のものや共通の特徴点が引き出される。これは、単純に「作品」とも称される異なる信号から抜粋された特徴値をそれぞれ比較及び関連付けることによって実行される。
【0005】
信号論理的だけでなく直接意味論的である意義を有する、つまりリスナーによって直接受信された特徴点を表すような特徴点の決定と抜粋のそれぞれが、特に注目されている。
【0006】
これにより、ユーザーは、オーディオ信号データバンクの一覧にある全てのデータからいくつかの作品を見つけ出すために、簡単で直感的な方法で検索要求を表現することができる。同様に、意味論的に関連する特徴点により、人間の感覚に近い方法で、作品の間の類似関係を類型化することができる。意味論的意義を有する特徴点の使用は、また、ユーザーの好みが明らかである場合には、例えばそのユーザーのために作品を自動的に提案することも可能にする。
【0007】
音楽解析の分野において、テンポは重要な音楽パラメータであり、これは意味論的意義を有するものである。テンポは、通常、分単位のビート(bpm)で測定される。テンポだけでなく「ビート」の小節ごとの強勢の自動的な抜粋、つまり概してリズム情報の自動的な抜粋は、一つの音楽作品の意味論的に重要な特徴点をとらえるための一つの例である。
【0008】
さらに、特徴点の抜粋、つまり、オーディオ信号からリズム情報を抜粋することは、確実でありコンピュータ的に効率的な方法で行われることが望まれている。確実であるというのは、その作品がソース符号化され、再び復号化されたものかどうか、その作品はスピーカを介して演奏されたりマイクから受信されるものかどうか、大きくあるいは穏やかに演奏されているのかどうか、一つの楽器あるいは複数の楽器で演奏されているのかどうかは関係ないということである。
【0009】
小節の強勢及びこれによりテンポを決定するために、つまりリズム情報を決定するために、「ビートトラッキング」という言葉が専門家の間で確立してきた。先行技術より、楽譜のような書き写された信号表記に基づき、つまりミディフォーマットで、ビートトラッキングを行うことが知られている。しかし、このようなメタ表記を必要とするのではなく、例えば、PCM符号化された又は概してデジタルオーディオ信号を直接解析することが目標である。
【0010】
ジャーナル音響社会学アメリカ103:1(1998年1月)588〜601ページ、Eric D. Scheirerによる“Tempo and Beat Analysis of Acoustic Musical Signals”に、音楽的な抜粋からリズムパルスを自動的に抜粋する方法が開示されている。入力信号は、フィルターバンクを介して一連の副帯、例えば、200Hz、400Hz、800Hz、1600Hz、3200Hzという遷移周波数を有する六つの副帯に分割される。低域フィルタリングが最初の副帯のために行われる。最後の副帯のためには高域フィルタリングが行われ、他の中間副帯のためには帯域フィルタリングが行われる。各副帯は以下のように処理される。まず、副帯信号を整流する。それとは別にサンプルの絶対値を決定する。そして、エンベロープ信号を得るために、決定した値nを、例えば適当なウィンドウで平均化することによって平滑にする。コンピュータ演算の複雑さを緩和するために、エンベロープ信号を二段抽出することが可能である。エンベロープ信号は微分され、つまり、好ましくは微分フィルタによって信号の振幅の突然の変化にも対応できる。結果は負ではない値に制限される。各エンベロープ信号は共振フィルター、つまり振動子のバンクに格納される。各振動子は各テンポ領域のためのフィルターを備えており、従ってその音楽のテンポに合うフィルターが最も刺激される。入力信号のテンポをそのフィルターに属するテンポに合せるための手段として、各フィルターの出力信号のエネルギーが算出される。各テンポのためのエネルギーは全ての副帯において合計され、最も大きなエネルギー合計が結果として与えられるテンポ、つまりリズム情報を特徴づける。
【0011】
この方法の重要な不利点は、特に、多数の振動子を並行して共振させ、最終的にはそのうちのただ一つを選択するということを実現するために行われる膨大な計算量とメモリの複雑さにある。このことが、リアルタイムな応用というような効率的な実行をほとんど不可能にしている。
【0012】
Eric D. Scheirerによる“Pulse Tracking with a Pitch Tracker”(音声及び音波信号処理の応用に関するワークショップ1997年会報、モーホンク、ニューヨーク、1997年10月)では、前述の振動子概念と別の概念との比較を検討している。別の概念とは、オーディオ信号からの周期性の抜粋、つまり信号のリズム情報抜粋のための、自動相関関数の使用に基づくものである。ビートトラッキングのために、人間のピッチ感覚の変調のためのアルゴリズムが使用される。
【0013】
図3は、公知のアルゴリズムを示すブロック図である。オーディオ信号は、オーディオ入力300を介して解析フィルターバンク302に送り込まれる。解析フィルターバンクは、そのオーディオ入力からn個のチャンネル、つまり個々の副帯信号を生成する。各副帯信号は、オーディオ信号のある特定の周波数領域を有している。解析フィルターバンクのフィルターは、人間の内耳の選択特性に近くなるように選択される。このような解析フィルターバンクは、γトーンフィルターバンクとも称される。
【0014】
各副帯のリズム情報は手段304a〜304cで評価される。各入力信号に対して、まず、エンベロープ状の出力信号が(耳の中のいわゆる内部繊毛細胞処理に関して)計算され、二段抽出される。この結果から自動相関関数(ACF)が算出され、信号の周期性を遅延の関数として得る。
【0015】
手段304a〜304cの出力側において、自動相関関数が各副帯信号に対して与えられ、これは各副帯信号のリズム情報の様相を表す。
【0016】
副帯信号のそれぞれの自動相関関数は、手段306で合計されることで組み合わされ、総自動相関関数(SACF)を得る。総自動相関関数は、オーディオ入力300で信号のリズム情報を再生する。この情報はテンポ出力308で出力できる。総自動相関関数において高い値は、小節の始まりの高い周期性が総自動相関関数のピークのずれとして現れることを示している。従って、例えば総自動相関関数のピーク値は、音楽的に有用な遅延内において探し出される。
【0017】
音楽的に有用な遅延とは、例えば、60〜200bpmの範囲のテンポである。手段306は、遅延時間をテンポ情報に変換させるために設けられている。従って、1秒間のピークの遅延は、例えば毎分60ビートというテンポに相当する。遅延がそれより小さい場合はテンポがそれよりも速いことを示し、遅延がそれより大きい場合はテンポがそれよりも遅いことを示している。
【0018】
いずれの振動子をも高い計算及び記憶能力を必要としないので、この方法は最初に述べた方法に比べて有利である。しかし他方では、結果の質はオーディオ信号のタイプにかなり左右されるという点で、この概念は不利である。例えば、オーディオ信号から主要なリズム楽器の音が聞こえる場合には、図3に示した概念は良好に作用するであろう。しかし、声が主で、明白なリズム情報が与えられない場合には、リズム決定は曖昧なものになってしまう。しかし、オーディオ信号中に、単にリズム情報を含むだけの帯域が存在している可能性がある。例えば、ドラムのハイハットが周波数上位置している高周波帯域、又は大きなドラムが周波数上位置している低周波帯域である。それぞれの情報の組み合わせにより、このような特定の副帯に関するかなり明確な情報は、他の副帯に関する曖昧な情報に重畳され、「減殺」される。
【0019】
副帯信号の周期性を引き出すために自動相関関数を用いる際の他の問題点は、手段306によって得られる総自動相関関数が曖昧であるということである。出力306における総自動相関関数は、自動相関関数のピーク値は複数の遅延期間を持って形成されるという点で曖昧である。これは、自動相関関数処理される際、t0の期間の湾曲成分が、t0での望ましい最高値及び複数の遅延期間をおいた時点、即ち、2t0、3t0等の時点での最高値とは無関係に形成されるという事実から納得できる。
【0020】
TolonenとKarjalainenによる“A Computationally Efficient Multipitch Analysis Model”(スピーチ及びオーディオ処理に関するIEEE転送、第8巻、2000年11月)は、複雑なオーディオ信号の周期性解析のための時間効率的な計算モデルを開示している。この計算モデルでは、信号を二つのチャンネル、つまり、1000Hz未満のチャンネルと1000Hz以上のチャンネルに分ける。これらから、低周波チャンネルの自動相関関数及び高周波チャンネルのエンベロープの自動相関関数が算出される。最終的に、これら二つの自動相関関数が合計される。総自動相関関数の曖昧さを除去するために、この総自動相関関数はさらに処理され、いわゆるエンハンストサマリー自動相関関数(ESACF)が得られる。この総自動相関関数の後処理は、負でない値に制限して、整数の係数で拡張された様々な変形自動相関関数を総自動相関関数から繰り返し引くという処理を含む。
【0021】
本発明の目的は、リズム情報を有するオーディオ信号を解析するための計算時間に関して効率的で確実な装置、及び、効率的で確実な方法を提供することである。
【0022】
【発明の構成、作用及び効果】
前記目的は、請求項1に係るオーディオ信号を解析するための装置、又は、請求項11に係るオーディオ信号を解析するための方法によって達成される。
【0023】
本発明は、それぞれの周波数帯域、つまり副帯に、リズミカルな周期性を探し出すための様々な好ましい条件がしばしば存在するという知識に基づいている。例えば、ポップミュージックでは、しばしば1kHz周辺の中央領域では、ビートに呼応しない声が主であり、高周波領域では主にドラムにハイハットのようなパーカッションの音が存在し、これによりリズムの定期性を非常によく抜粋することができる。また、異なる周波数帯域には、オーディオ信号によって異なる量のリズム情報が存在し、これらの周波数帯域はそのオーディオ信号にとって異なる質又は重要性をそれぞれ有している。
【0024】
従って、本発明によると、オーディオ信号はまず副帯信号に分けられる。各副帯信号はその周期性に関して認識され、各副帯信号のリズム生情報が得られる。本発明によると、その後、各副帯信号の重要度を得るために、各副帯信号の周期性の質の評価が行われる。高い重要度は、その副帯信号に明白なリズム情報が存在することを示し、低い重要度は、その副帯にはあまり明白でないリズム情報が存在することを示している。
【0025】
本発明の好ましい一実施形態によると、副帯信号をその周期性に関して認識する際、まず、副帯信号の変形エンベロープが計算され、そのエンベロープの自動相関関数が算出される。このエンベロープの自動相関関数はリズムの生情報を示している。自動相関関数が明らかな最高値を示す場合には明白なリズム情報が存在し、一方、その副帯信号のエンベロープの自動相関関数が重要な信号ピーク値を有さないか又は全くピーク値を有さない場合には、明白なリズム情報がほとんど存在しない。従って、明白な信号ピークを有する自動相関関数は重要度が高く、比較的平坦な信号波形を有する自動相関関数は重要度が低い。
【0026】
本発明によると、それぞれの副帯信号のそれぞれのリズム生情報は「盲目的に」のみ組み合わされるのではなく、オーディオ信号のリズム情報を得るための各副帯信号の重要度を考慮して組み合わされる。ある副帯信号が高い重要度を有している場合、リズム情報を決定する際、これを十分に考慮することが好ましく、一方、ある副帯信号が低い重要度を有している場合、つまり、リズム情報に関して低い質しか有さない場合には、リズム情報を決定する際、これをほとんどあるいは極端な場合には全く考慮しない。
【0027】
これは、重要度に基づく重み付け係数により、良好な方法で計算時間的に効率的に実施することができる。リズム情報にとって良質な、つまり高い重要度を有する副帯信号には1の重み付け係数を与えることも可能であり、重要度の低い他の副帯信号には1よりも小さい重み付け係数を与えられる。極端な場合、全く平坦な自動相関関数を有する副帯信号は0の重み付け係数を有することになる。重み付けされた自動相関関数、つまり重み付けされた生リズム情報は、その後単純に合計される。全ての副帯信号のうちのただ一つの副帯信号のみが良質なリズム情報を提供し、他の副帯信号は平坦な信号波形の自動相関関数を有している場合、この重み付けは、極端な場合、その唯一の副帯信号を除く他の全ての副帯信号には重み付け係数0が与えられ、リズム情報決定の際には全く考慮されないことになる。そして、このオーディオ信号のリズム情報は単に一つの副帯信号からのみ決定されることになる。
【0028】
本発明は、リズム情報の確実な決定が可能になることに利点がある。明白でなくさらにそれぞれ異なるリズム情報を有する副帯信号、例えば、声がその作品の実際のビートとは異なるリズムを有している場合、それらがオーディオ信号のリズム情報を弱めたり崩壊させたりしないからである。さらに、非常にノイズに近い副帯信号はシステム自動相関関数に全く平坦な信号波形を与えるが、これらの信号は、リズム情報を決定する際、信号雑音比を低下させない。しかし、先行技術のように、全ての副帯信号の自動相関関数を同じ重みで単に合計すれば、信号雑音比を低下させることになる。
【0029】
本発明の方法の他の利点は、わずかな付加的な演算処理で重要度が決定できること、及びその重要度を有するリズム生情報の評価とそれに続く合計が膨大な記憶量や計算時間を費やさずに効率的に行えることであり、従って、本発明は特にリアルタイムな応用に適している。
【0030】
【発明の実施の形態】
本発明の好ましい実施形態を添付図面を参照して以下に説明する。
【0031】
図1は、オーディオ信号をリズム情報に関して解析するための装置のブロック図を示す。オーディオ信号は入力100を介して手段102に送られ、少なくとも二つの副帯信号104a,104bに分けられる。各副帯信号104a,104bはそれぞれ手段106a,106bに送られ、その副帯信号中の周期性に関して認識され、それぞれの副帯信号に対してリズム生情報108a,108bが得られる。このリズム生情報108a,108bは手段110a,110bに送られ、その少なくとも二つの副帯信号のそれぞれの周期性の質が評価され、それぞれの副帯信号に対して重要度112a,112bが与えられる。これらのリズム生情報108a,108b及び重要度112a,112bの両方が手段114に送られ、このオーディオ信号のリズム情報を決定する。オーディオ信号を決定する際、手段114は、各副帯信号の重要度112a,112b及び少なくとも一つの副帯信号のリズム生情報108a,108bを考慮する。
【0032】
例えば、質評価手段110aが副帯信号104a中には特に周期性はないと判断した場合、重要度112aは非常に小さくほぼ0に等しいものとなる。この場合、リズム情報を決定する手段114は、重要度112aが0であるので、オーディオ信号のリズム情報を決定する際には、副帯信号104aのリズム生情報108aを全く考慮する必要はないと判断する。このオーディオ信号のリズム情報は、副帯信号104bのリズム生情報108bのみに基づいて決定されることになる。
【0033】
図2を参照して、図1の装置の具体的な実施形態を以下に説明する。オーディオ信号を分割する手段102として、共通解析フィルターバンクが使用でき、この場合、出力側に与えられる副帯信号の数はユーザーにより選択可能となる。各副帯信号はそれぞれ手段106a,106b,106cの処理を受け、各リズム生情報の重要度が手段110a〜110cにより決定される。図2に示す好ましい実施形態において、手段114は、各副帯信号の重み付け係数をその副帯信号の重要度及び任意に他の副帯信号の重要度に基づき算出する手段114aを含んでいる。そして、手段114bにおいて、リズム生情報108a〜108cの重み付けがその副帯信号の重み付け係数をもって行われる。その後、手段114bでは、重み付けされたリズム生情報が例えば合計されて組み合わされ、テンポ出力116でオーディオ信号のリズム情報が得られる。
【0034】
従って、本発明の概念は以下のようなものである。例えば、エンベロープ作成、平滑化、微分、正の値への限定及び自動相関関数の作成(手段106a〜106c)を行うことによってそれぞれの帯域のリズム情報を評価した後、これらの中間結果の重要度及び質の評価が手段110a〜110cにおいて行われる。これは、それぞれの結果の信用性を重要度をもって評価する評価関数の助けを借りて行われる。リズム情報の抜粋のために、重み付け係数が各帯域の副帯信号全ての重要度から引き出される。そして、それぞれの帯域幅の結果をそれぞれの重み付け係数を考慮して組み合わせることにより、リズム抜粋の最終的な結果が手段114bで得られる。
【0035】
結果的に、このように実行されたリズム解析のアルゴリズムは、不都合な条件下にあっても、信号内のリズム情報を確実に見つけ出すことができる。従って、本発明の概念は高い確実性によって区別される。
【0036】
好ましい実施形態において、各副帯信号の周期性を示すリズム生情報108a,108b,108cは自動相関関数によって決定される。この場合、自動相関関数の最大値をその自動相関関数の平均で割り、そして1を引くことにより、重要度を決定することが好ましい。ここで明記すべき点は、全ての自動相関関数は常に遅延0で信号のエネルギーを示す局部的最大値を与えるということである。質の決定を台無しにしないように、この最大値は考慮すべきではない。
【0037】
さらに、自動相関関数はある特定のテンポの範囲内でのみ、例えば、最大遅延つまり関連する最小テンポから最小遅延つまり関連する最大テンポまででのみ、考慮すべきである。典型的なテンポの範囲は60〜200bpmである。
【0038】
あるいは、関連するテンポ範囲内の自動相関関数の算術的平均とそのテンポ範囲内の自動相関関数の幾何学的平均との間の関係を重要度として決定することもできる。周知のように、自動相関関数の全ての値が等しい場合、つまり、自動相関関数が平坦な信号波形を有する場合、自動相関関数の幾何学的平均と自動相関関数の算術的平均は等しい。この場合、重要度は1に等しい値であり、これはそのリズム生情報は重要でないことを意味している。
【0039】
強いピークを有するシステム自動相関関数の場合、算術的平均の幾何学的平均に対する比は1以上となり、これはこの自動相関関数が好ましいリズム情報を有していることを意味している。算術的平均と幾何学的平均の間の比が小さければ小さいほど、その自動相関関数は平坦で、低い周期性であり、その副帯信号のリズム情報はさほど重要でない、つまり低い又は0の重み付け係数で表されるような質の低いものであるということを意味している。
【0040】
重み付け係数に関して、いくつかの可能性が存在する。比較重み付けが好ましく、全ての副帯信号の重み付け係数の合計が1になるようにする。例えば、ある帯域の重み付け係数は、全ての重要度の値の合計で割られた重要度の値として決定される。この場合、比較重み付けは、オーディオ信号のリズム情報を得るための重み付けされたリズム生情報の合計の前に行われる。
【0041】
前述したように、自動相関関数を用いてリズム情報の評価を行うことが好ましい。図4は、この場合の説明図である。オーディオ信号は、オーディオ信号を副帯信号104a,104bに分割する手段102に、オーディオ信号入力100を介して送り込まれる。前述したように、各副帯信号は、自動相関関数を使用して、それぞれ手段106a,106bにおいて認識される。そして、リズム生情報108a,108bが手段106a,106bの出力側に与えられる。これらは手段118a、118bにそれぞれ送られ、手段118a,118bにて手段106a,106bから自動相関関数を介して出力されたリズム生情報の後処理が行われる。これにより、自動相関関数の曖昧さ、つまり信号ピークが整数回の遅延をもって起こることが副帯ごとに必ず除去され、後処理されたリズム生情報120a,120bがそれぞれ得られる。
【0042】
従来技術のように、それぞれの自動相関関数の合計の後に曖昧さが除去されるだけではなく、自動相関関数、つまりリズム生情報108a,108bの曖昧さは、すでに副帯ごとに除去されているという利点を有している。その上、手段118a,118bにより自動相関関数の曖昧さを各帯域に関して除去することで、副帯信号のリズム生情報を互いに独立して扱うことが可能になる。例えば、リズム生情報108aの手段110aを介して又はリズム生情報108bの手段110bを介して質の評価を行うことが可能になる。
【0043】
図4に点線で示されているように、質の評価は後処理されたリズム生情報に関しても行うことができ、この最後の可能性が好ましい。後処理されたリズム生情報に基づき質の評価を行うことは、もはや曖昧でない情報の質を評価することになるからである。
【0044】
手段114によるリズム情報の決定は、一つのチャンネルの後処理されたリズム情報に基づき行われ、好ましくは、このチャンネルの重要度にも基づいて行われる。
【0045】
質の評価が手段118aの前段の信号を意味するリズム生情報に基づき行われる場合、重要度が0である、即ち、自動相関関数が平坦な信号波形であると判断されると、計算時間を節約するために手段118aを介した後処理は全く削除され得るというような点で有利である。
【0046】
図5を参照して、リズム生情報の後処理を行う手段118a,118bの構造をより詳細に以下に説明する。まず、104aのような副帯信号が、自動相関関数を介して副帯信号の周期性を認識する手段106aに送り込まれ、リズム生情報108aが得られる。曖昧さを副帯ごとに除去するために、先行技術にあるように、手段121によって拡張自動相関関数を算出することも可能である。その際、自動相関関数が整数回の遅延をもって拡張される拡張自動相関関数を算出するために、手段122が設置されている。この場合、手段122は、この拡張自動相関関数を元の自動相関関数、つまりリズム生情報108aから引くために設置されている。特に、自動相関関数をまず2倍のサイズに拡張し、そしてそれをリズム生情報108aから引くことが好ましい。次のステップでは、係数3で拡張された自動相関関数が手段121で算出され、前段階の引き算の結果から再びそれを引く。このようにして、リズム生情報から、全ての曖昧さが徐々に除去されていく。
【0047】
あるいは又は付加的に、整数の係数によって作り出される、例えば1よりも小さい係数で拡張された自動相関関数を計算するために、手段121を設けてもよい。これは、遅延時間t0/2,t0/3等の部分をも形成するために、手段122によってリズム生情報に付加される。
【0048】
さらに、拡張され、作成されたリズム生情報の変形108aに対して、確実性という意味でここで融通性を得るために、加算及び減算の前に重み付けをしてもよい。
【0049】
自動相関関数に基づく副帯信号の周期性を認識するこの方法によって、自動相関関数の特性が取り込まれ、手段118a,118bによって後処理が行われる際、さらなる向上が可能となる。このように、距離t0を有する一連の周期的な小節の始まりは、遅延時間t0だけでなく2t0,3t0でも自動相関関数のピークを形成する。このことは、テンポ検出、つまり自動相関関数の重要な最大値を探し出す際に曖昧さをもたらすことになる。整数の係数によって拡張された自動相関関数の変形が出力値から副帯ごとに(重み付けされて)引かれることにより、この曖昧さが除去される。
【0050】
さらに自動相関関数に関して、「基本のテンポ」の2倍又は3倍を意味するt0/2,t0/3等で、何の情報も与えられないという問題がある。特に、異なる副帯に存在する二つの楽器がその信号のリズムを共に決めている場合には、間違った結果につながるおそれがある。この問題は整数の係数によって作成された自動相関関数の変形が算出され、重み付けされるか又は重み付けされないでリズム生情報に付加されるという事実によって考慮される。
【0051】
このように、ACF後処理は副帯ごとに行われ、これにより自動相関関数が少なくとも一つの副帯信号に対して算出され、そしてこの関数の拡大変形と組み合わされる。
【図面の簡単な説明】
【図1】 リズム生情報の質的評価に関してオーディオ信号を解析するための装置のブロック図である。
【図2】 重要度に基づく重み付け係数を使用して、オーディオ信号を解析する装置のブロック図である。
【図3】 リズム情報に関してオーディオ情報を解析する従来の装置のブロック図である。
【図4】 リズム生情報の副帯ごとの後処理をした自動相関関数を使用して、オーディオ信号をリズム情報に関して解析する装置のブロック図である。
【図5】 図4の後処理手段の詳細なブロック図である。
Claims (11)
- オーディオ信号を、そのオーディオ信号のリズム情報に関して解析するための装置であり、以下のものを備えている、
オーディオ信号を少なくとも二つの副帯信号(104a,104b)に分ける手段(102)、
前記副帯信号のリズム生情報(108a,108b)を得るために、前記副帯信号の周期性に関して該副帯信号を認識する手段(106a,106b)、
前記副帯信号の重要度(112a,112b)を得るために、副帯信号(104a,104b)のリズム生情報(108a,108b)の周期性の質に関して評価する手段(110a,110b)、及び、
前記副帯信号の重要度(112a,112b)と少なくとも一つの副帯信号のリズム生情報(108a,108b)を考慮して、オーディオ信号のリズム情報を決定する手段(114)。 - 請求項1に記載の装置において、前記認識手段(106a,106b)は、前記少なくとも二つの副帯信号のそれぞれに対する自動相関関数を算出するためのものである。
- 請求項1又は請求項2に記載の装置において、前記認識手段(106a,106b)は以下のものを含む、
副帯信号のエンベロープを形成する手段、
平滑なエンベロープを得るために前記副帯信号のエンベロープを平滑化する手段、
微分されたエンベロープを得るために平滑化されたエンベロープを微分する手段、
限定されたエンベロープを得るために微分されたエンベロープを正の値に限定する手段、及び、
リズム生情報(108a,108b)を得るために、限定されたエンベロープの自動相関関数を作成する手段。 - 請求項2に記載の装置において、前記質の評価手段(110a,110b)は、自動相関関数の最大値の自動相関関数の平均値に対する比を重要度として用いるものである。
- 請求項2又は請求項3に記載の装置において、前記質の評価手段(110a,110b)は、リズム生情報の算術的平均値のリズム生情報の幾何学的平均値に対する比を重要度として用いるものである。
- 請求項4に記載の装置において、前記質の評価手段(110a,110b)は、最大テンポを得るための最小遅延から最小テンポを得るための最大遅延に至るテンポの範囲内でのみ、自動相関関数を評価するものである。
- 請求項1、請求項2、請求項3、請求項4、請求項5又は請求項6に記載の装置において、前記決定手段(114)は以下のものを含む、
副帯信号に対する重要度を用いて、副帯信号に対する重み付け係数を引き出す手段(114a)、及び
副帯信号に対する重み付けされたリズム生情報を得るために、該副帯信号の重み付け係数を用いて副帯信号のリズム生情報を重み付けし、オーディオ信号のリズム情報を得るために、重み付けされた該副帯信号のリズム生情報を、重み付けされた他の副帯信号のリズム生情報と統合する手段(114b)。 - 請求項7に記載の装置において、前記重み付け係数を引き出す手段(114a)は、それぞれの副帯信号に対して相関的な重み付け係数を算出するものであり、全ての副帯信号の重み付け係数の合計は1となる。
- 請求項8に記載の装置において、前記重み付け係数を引き出す手段(114a)は、重み付け係数を、副帯信号の重要度の全ての副帯信号の重要度の合計に対する比として算出するものである。
- 請求項9に記載の装置において、前記副帯信号認識手段(106a,106b)は、その長さが10秒より長い副帯信号を認識する。
- オーディオ信号を、該オーディオ信号のリズム情報に関して解析する方法であり、以下のステップを備えている、
手段(102)によってオーディオ信号を少なくとも二つの副帯信号(104a,104b)に分ける、
前記副帯信号のリズム生情報(108a,108b)を得るために、手段(106a,106b)によって前記副帯信号の周期性に関して該副帯信号を認識する、
前記副帯信号の重要度(112a,112b)を得るために、手段(110a,110b)によって副帯信号(104a,104b)のリズム生情報(108a,108b)の周期性の質を評価する、及び、
前記副帯信号の重要度(112a,112b)と少なくとも一つの副帯信号のリズム生情報(108a,108b)を考慮して、手段(114)によってオーディオ信号のリズム情報を決定する。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10123366A DE10123366C1 (de) | 2001-05-14 | 2001-05-14 | Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen |
PCT/EP2002/004618 WO2002093557A1 (de) | 2001-05-14 | 2002-04-25 | Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004528596A JP2004528596A (ja) | 2004-09-16 |
JP3914878B2 true JP3914878B2 (ja) | 2007-05-16 |
Family
ID=7684710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002590149A Expired - Lifetime JP3914878B2 (ja) | 2001-05-14 | 2002-04-25 | リズム情報に関するオーディオ信号を解析するための装置及び方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20040068401A1 (ja) |
EP (1) | EP1388145B1 (ja) |
JP (1) | JP3914878B2 (ja) |
AT (1) | ATE279769T1 (ja) |
DE (2) | DE10123366C1 (ja) |
HK (1) | HK1059959A1 (ja) |
WO (1) | WO2002093557A1 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8535236B2 (en) * | 2004-03-19 | 2013-09-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for analyzing a sound signal using a physiological ear model |
JP4979018B2 (ja) * | 2005-07-01 | 2012-07-18 | パイオニア株式会社 | コンピュータプログラム、並びに情報再生装置及び方法 |
JP4940588B2 (ja) | 2005-07-27 | 2012-05-30 | ソニー株式会社 | ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法 |
JP4948118B2 (ja) * | 2005-10-25 | 2012-06-06 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP4465626B2 (ja) * | 2005-11-08 | 2010-05-19 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
KR101287984B1 (ko) | 2005-12-09 | 2013-07-19 | 소니 주식회사 | 음악 편집 장치 및 음악 편집 방법 |
JP4949687B2 (ja) | 2006-01-25 | 2012-06-13 | ソニー株式会社 | ビート抽出装置及びビート抽出方法 |
JP5351373B2 (ja) * | 2006-03-10 | 2013-11-27 | 任天堂株式会社 | 演奏装置および演奏制御プログラム |
US8184712B2 (en) | 2006-04-30 | 2012-05-22 | Hewlett-Packard Development Company, L.P. | Robust and efficient compression/decompression providing for adjustable division of computational complexity between encoding/compression and decoding/decompression |
US7645929B2 (en) * | 2006-09-11 | 2010-01-12 | Hewlett-Packard Development Company, L.P. | Computational music-tempo estimation |
US8463615B2 (en) * | 2007-07-30 | 2013-06-11 | Google Inc. | Low-delay audio coder |
WO2009125489A1 (ja) * | 2008-04-11 | 2009-10-15 | パイオニア株式会社 | テンポ検出装置及びテンポ検出プログラム |
US8168876B2 (en) * | 2009-04-10 | 2012-05-01 | Cyberlink Corp. | Method of displaying music information in multimedia playback and related electronic device |
US8996538B1 (en) | 2009-05-06 | 2015-03-31 | Gracenote, Inc. | Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects |
US8805854B2 (en) | 2009-06-23 | 2014-08-12 | Gracenote, Inc. | Methods and apparatus for determining a mood profile associated with media data |
US8071869B2 (en) * | 2009-05-06 | 2011-12-06 | Gracenote, Inc. | Apparatus and method for determining a prominent tempo of an audio work |
US9646592B2 (en) | 2013-02-28 | 2017-05-09 | Nokia Technologies Oy | Audio signal analysis |
JP6759545B2 (ja) * | 2015-09-15 | 2020-09-23 | ヤマハ株式会社 | 評価装置およびプログラム |
US10666475B2 (en) * | 2018-10-29 | 2020-05-26 | Bae Systems Information And Electronic Systems Integration Inc. | Techniques for phase modulated signals having poor autocorrelation |
CN111785237B (zh) * | 2020-06-09 | 2024-04-19 | Oppo广东移动通信有限公司 | 音频节奏确定方法、装置、存储介质和电子设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2207027B (en) * | 1987-07-15 | 1992-01-08 | Matsushita Electric Works Ltd | Voice encoding and composing system |
JP2591430B2 (ja) * | 1993-06-30 | 1997-03-19 | 日本電気株式会社 | ベクトル量子化装置 |
JP3840684B2 (ja) * | 1996-02-01 | 2006-11-01 | ソニー株式会社 | ピッチ抽出装置及びピッチ抽出方法 |
JPH09293083A (ja) * | 1996-04-26 | 1997-11-11 | Toshiba Corp | 楽曲検索装置および検索方法 |
KR100269216B1 (ko) * | 1998-04-16 | 2000-10-16 | 윤종용 | 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법 |
DE10123281C1 (de) * | 2001-05-14 | 2002-10-10 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion |
JP3859462B2 (ja) * | 2001-05-18 | 2006-12-20 | 株式会社東芝 | 予測パラメータ分析装置および予測パラメータ分析方法 |
-
2001
- 2001-05-14 DE DE10123366A patent/DE10123366C1/de not_active Expired - Fee Related
-
2002
- 2002-04-25 US US10/467,704 patent/US20040068401A1/en not_active Abandoned
- 2002-04-25 AT AT02745267T patent/ATE279769T1/de not_active IP Right Cessation
- 2002-04-25 JP JP2002590149A patent/JP3914878B2/ja not_active Expired - Lifetime
- 2002-04-25 WO PCT/EP2002/004618 patent/WO2002093557A1/de active IP Right Grant
- 2002-04-25 EP EP02745267A patent/EP1388145B1/de not_active Expired - Lifetime
- 2002-04-25 DE DE2002501311 patent/DE50201311D1/de not_active Expired - Lifetime
-
2004
- 2004-04-22 HK HK04102850A patent/HK1059959A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
EP1388145A1 (de) | 2004-02-11 |
ATE279769T1 (de) | 2004-10-15 |
JP2004528596A (ja) | 2004-09-16 |
HK1059959A1 (en) | 2004-07-23 |
DE50201311D1 (de) | 2004-11-18 |
DE10123366C1 (de) | 2002-08-08 |
EP1388145B1 (de) | 2004-10-13 |
WO2002093557A1 (de) | 2002-11-21 |
US20040068401A1 (en) | 2004-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3914878B2 (ja) | リズム情報に関するオーディオ信号を解析するための装置及び方法 | |
US7012183B2 (en) | Apparatus for analyzing an audio signal with regard to rhythm information of the audio signal by using an autocorrelation function | |
JP4438144B2 (ja) | 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置 | |
US9111526B2 (en) | Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal | |
JP5593608B2 (ja) | 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム | |
JP5112300B2 (ja) | コンテンツ項目の特性を決定する方法および電子装置 | |
US20050273319A1 (en) | Device and method for analyzing an information signal | |
JP2004530153A (ja) | 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置 | |
JP2009511954A (ja) | モノラルオーディオ信号からオーディオソースを分離するためのニューラル・ネットワーク識別器 | |
Uhle et al. | Estimation of tempo, micro time and time signature from percussive music | |
JP3344195B2 (ja) | カラオケ採点装置 | |
JP2005266797A (ja) | 音源信号分離装置及び方法、並びにピッチ検出装置及び方法 | |
Klapuri et al. | Automatic transcription of musical recordings | |
Marolt | On finding melodic lines in audio recordings | |
Dressler | Towards computational auditory scene analysis: Melody extraction from polyphonic music | |
JP4483561B2 (ja) | 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム | |
JP2008015388A (ja) | 歌唱力評価方法及びカラオケ装置 | |
Theimer et al. | Definitions of audio features for music content description | |
CN113658612A (zh) | 一种基于音频识别被弹奏琴键的方法及系统 | |
JP5359786B2 (ja) | 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム | |
JP5540651B2 (ja) | 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム | |
Hsu et al. | Singing pitch extraction at mirex 2010 | |
Jensen et al. | Hybrid perception | |
Gainza et al. | Onset detection and music transcription for the Irish tin whistle | |
Christian et al. | Rindik rod sound separation with spectral subtraction method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3914878 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100209 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110209 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120209 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130209 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140209 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |