JP5507997B2 - 調音およびキー分析のためのオーディオスペクトル中の音成分の選択 - Google Patents
調音およびキー分析のためのオーディオスペクトル中の音成分の選択 Download PDFInfo
- Publication number
- JP5507997B2 JP5507997B2 JP2009504862A JP2009504862A JP5507997B2 JP 5507997 B2 JP5507997 B2 JP 5507997B2 JP 2009504862 A JP2009504862 A JP 2009504862A JP 2009504862 A JP2009504862 A JP 2009504862A JP 5507997 B2 JP5507997 B2 JP 5507997B2
- Authority
- JP
- Japan
- Prior art keywords
- chromagram
- sound
- histogram
- components
- sound component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001228 spectrum Methods 0.000 title description 11
- 238000004458 analytical method Methods 0.000 title description 3
- 238000000034 method Methods 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 230000000873 masking effect Effects 0.000 description 17
- 230000003595 spectral effect Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H3/00—Instruments in which the tones are generated by electromechanical means
- G10H3/12—Instruments in which the tones are generated by electromechanical means using mechanical resonant generators, e.g. strings or percussive instruments, the tones of which are picked up by electromechanical transducers, the electrical signals being further manipulated or amplified and subsequently converted to sound by a loudspeaker or equivalent instrument
- G10H3/125—Extracting or recognising the pitch or fundamental frequency of the picked up signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/38—Chord
- G10H1/383—Chord detection and/or recognition, e.g. for correction, or automatic bass generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/066—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/081—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/025—Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
- G10H2250/031—Spectrum envelope processing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Description
アルゴリズムへの入力として、2つの信号が使われる。入力信号x(n)、および入力信号の前方差分y(n)=x(n+1)−x(n)である。両方の信号から対応のセグメントが選択され、ハニング窓により窓を付される。その後、これらの信号は、高速フーリエ変換を用いて周波数領域に変換され、その結果、それぞれX(f)およびY(f)という複素信号がもたらされる。
上記で見積もられた周波数および振幅パラメータに基づき、マスキングモデルを用いて、実質的に可聴でない成分が破棄される。ERBスケールと同等の帯域幅を有する互いに重なり合った周波数帯域の組を用い、各帯域に包含される音成分の全エネルギーを積分することにより、励起パターンが蓄積される。続いて、各帯域における累積エネルギーが、近傍の帯域に亘って平滑化され、マスキングのスペクトル分布の一形態が得られる。各成分につき、その成分のエネルギーが、その帯域内の測定された合計エネルギーの、少なくとも特定割合分(たとえば50%)であるか否かが特定される。成分のエネルギーがこの基準よりも小さければ、その成分は実質的にマスキングされるという前提であり、その後は考慮に入れられない。
上記で取得された精確な周波数見積値は、音符値に変換される。この音符値は、たとえば、その成分が4番目のオクターブのA音であることを示す。この目的のため、周波数は、対数目盛りに変換され、適切な方法で離散化される。生じ得る完全な音楽片のミスチューニングを克服するため、追加の一括周波数逓倍が適用されてもよい。
すべての音符値が、1オクターブ分にたたみ込まれる。したがって、結果として得られるクロマ値は、オクターブの位置に関わらず、その音符がAやA#であったことを示すだけである。
クロマ値は、A、A#、B等々に対応するすべての振幅を加算することにより、累積される。こうして、12個の累積クロマ値が得られ、これらの累積クロマ値は、各クロマ値の相対的な優位性に類似している。これら12個の値を、クロマグラムと呼ぶ。クロマグラムは、1つのフレーム内のすべての成分に亘って累積されてもよいが、好ましくは、さらに複数の連続したフレームの範囲に亘って累積される。
ここでは、キー情報を抽出するタスクに特化する。上記で述べたように、Pauwsが行ったのと類似の方法で、Krumhanslのデータに対してキープロファイルを取得することができる。評価対象の抜粋部分に対するキー抽出は、プロトタイプの(参照)クロマグラムと観測されたクロマグラムとの間で最良の相関関係が得られるようにするためには、観測されたクロマグラムがどのようにシフトされる必要があるかを、見出す作業である。
Claims (6)
- 特定の時間の音楽片を示すオーディオ信号を処理する装置であって、
前記オーディオ信号から、音成分を選択する選択ユニットと、
選択された前記音成分にマスクを適用し、少なくとも1つの音成分を破棄するマスクユニットと、
破棄の後に残った前記音成分の音符値を特定するラベルユニットと、
前記音符値を1オクターブ分にマッピングして、クロマ値を取得するマッピングユニットと、
前記クロマ値を累積して、ヒストグラムまたはクロマグラムとなす累積ユニットと、
前記音楽片のキーを特定するため、前記ヒストグラムまたはクロマグラムを、参照ヒストグラムまたはクロマグラムと比較することにより、前記ヒストグラムまたはクロマグラムを評価する評価ユニットとを含み、
閾値に基づいて実質的に可聴でない音成分を破棄するように、前記マスクが適用されることを特徴とする装置。 - 前記オーディオ信号を周波数領域に変換することにより前記音成分が選択され、該音成分のそれぞれが、周波数値と振幅値とにより表されることを特徴とする請求項1記載の装置。
- 前記振幅値を、該振幅値を真数とする対数関数により、圧縮して変換する圧縮型変換ユニットをさらに含むことを特徴とする請求項2記載の装置。
- コンピュータに、
特定の時間の音楽片を示すオーディオ信号から、音成分を選択する処理と、
選択された前記音成分にマスクを適用し、少なくとも1つの音成分を破棄する処理と、
破棄の後に残った前記音成分の音符値を特定する処理と、
前記音符値を1オクターブ分にマッピングして、クロマ値を取得する処理と、
前記クロマ値を累積して、ヒストグラムまたはクロマグラムとなす処理と、
前記音楽片のキーを特定するため、前記ヒストグラムまたはクロマグラムを、参照ヒストグラムまたはクロマグラムと比較することにより、前記ヒストグラムまたはクロマグラムを評価する処理とを実行させ、
閾値に基づいて実質的に可聴でない音成分を破棄するように、前記マスクが適用されることを特徴とするソフトウェアプログラム。 - 前記オーディオ信号を周波数領域に変換することにより前記音成分が選択され、該音成分のそれぞれが、周波数値と振幅値とにより表されることを特徴とする請求項4記載のプログラム。
- 前記振幅値が、該振幅値を真数とする対数関数により、圧縮されて変換されることを特徴とする請求項5記載のプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US79239106P | 2006-04-14 | 2006-04-14 | |
US79239006P | 2006-04-14 | 2006-04-14 | |
US60/792,390 | 2006-04-14 | ||
US60/792,391 | 2006-04-14 | ||
PCT/IB2007/051067 WO2007119182A1 (en) | 2006-04-14 | 2007-03-27 | Selection of tonal components in an audio spectrum for harmonic and key analysis |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012285875A Division JP6005510B2 (ja) | 2006-04-14 | 2012-12-27 | 調音およびキー分析のためのオーディオスペクトル中の音成分の選択 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009539121A JP2009539121A (ja) | 2009-11-12 |
JP5507997B2 true JP5507997B2 (ja) | 2014-05-28 |
Family
ID=38337873
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009504862A Active JP5507997B2 (ja) | 2006-04-14 | 2007-03-27 | 調音およびキー分析のためのオーディオスペクトル中の音成分の選択 |
JP2012285875A Active JP6005510B2 (ja) | 2006-04-14 | 2012-12-27 | 調音およびキー分析のためのオーディオスペクトル中の音成分の選択 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012285875A Active JP6005510B2 (ja) | 2006-04-14 | 2012-12-27 | 調音およびキー分析のためのオーディオスペクトル中の音成分の選択 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7910819B2 (ja) |
EP (1) | EP2022041A1 (ja) |
JP (2) | JP5507997B2 (ja) |
CN (1) | CN101421778B (ja) |
WO (1) | WO2007119182A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5507997B2 (ja) * | 2006-04-14 | 2014-05-28 | コーニンクレッカ フィリップス エヌ ヴェ | 調音およびキー分析のためのオーディオスペクトル中の音成分の選択 |
WO2009104269A1 (ja) * | 2008-02-22 | 2009-08-27 | パイオニア株式会社 | 楽曲判別装置、楽曲判別方法、楽曲判別プログラム及び記録媒体 |
DE102009026981A1 (de) | 2009-06-16 | 2010-12-30 | Trident Microsystems (Far East) Ltd. | Ermittlung eines Vektorfeldes für ein Zwischenbild |
WO2013079524A2 (en) | 2011-11-30 | 2013-06-06 | Dolby International Ab | Enhanced chroma extraction from an audio codec |
US10147407B2 (en) | 2016-08-31 | 2018-12-04 | Gracenote, Inc. | Characterizing audio using transchromagrams |
JP2019127201A (ja) | 2018-01-26 | 2019-08-01 | トヨタ自動車株式会社 | 車両の冷却装置 |
JP6992615B2 (ja) | 2018-03-12 | 2022-02-04 | トヨタ自動車株式会社 | 車両の温度制御装置 |
JP6919611B2 (ja) | 2018-03-26 | 2021-08-18 | トヨタ自動車株式会社 | 車両の温度制御装置 |
JP2019173698A (ja) | 2018-03-29 | 2019-10-10 | トヨタ自動車株式会社 | 車両駆動装置の冷却装置 |
JP6992668B2 (ja) | 2018-04-25 | 2022-01-13 | トヨタ自動車株式会社 | 車両駆動システムの冷却装置 |
CN109979483B (zh) * | 2019-03-29 | 2020-11-03 | 广州市百果园信息技术有限公司 | 音频信号的旋律检测方法、装置以及电子设备 |
CN111415681B (zh) * | 2020-03-17 | 2023-09-01 | 北京奇艺世纪科技有限公司 | 一种基于音频数据确定音符的方法及装置 |
CN116312636B (zh) * | 2023-03-21 | 2024-01-09 | 广州资云科技有限公司 | 电音基调分析方法、装置、计算机设备和存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6057502A (en) * | 1999-03-30 | 2000-05-02 | Yamaha Corporation | Apparatus and method for recognizing musical chords |
GB0023207D0 (en) * | 2000-09-21 | 2000-11-01 | Royal College Of Art | Apparatus for acoustically improving an environment |
CN2650597Y (zh) * | 2003-07-10 | 2004-10-27 | 李楷 | 可调节式牙刷 |
DE102004028693B4 (de) * | 2004-06-14 | 2009-12-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt |
JP5507997B2 (ja) * | 2006-04-14 | 2014-05-28 | コーニンクレッカ フィリップス エヌ ヴェ | 調音およびキー分析のためのオーディオスペクトル中の音成分の選択 |
US7842874B2 (en) * | 2006-06-15 | 2010-11-30 | Massachusetts Institute Of Technology | Creating music by concatenative synthesis |
-
2007
- 2007-03-27 JP JP2009504862A patent/JP5507997B2/ja active Active
- 2007-03-27 US US12/296,583 patent/US7910819B2/en active Active
- 2007-03-27 WO PCT/IB2007/051067 patent/WO2007119182A1/en active Application Filing
- 2007-03-27 EP EP20070735270 patent/EP2022041A1/en not_active Withdrawn
- 2007-03-27 CN CN2007800134644A patent/CN101421778B/zh active Active
-
2012
- 2012-12-27 JP JP2012285875A patent/JP6005510B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
CN101421778B (zh) | 2012-08-15 |
US20090107321A1 (en) | 2009-04-30 |
CN101421778A (zh) | 2009-04-29 |
US7910819B2 (en) | 2011-03-22 |
JP2009539121A (ja) | 2009-11-12 |
WO2007119182A1 (en) | 2007-10-25 |
EP2022041A1 (en) | 2009-02-11 |
JP6005510B2 (ja) | 2016-10-12 |
JP2013077026A (ja) | 2013-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5507997B2 (ja) | 調音およびキー分析のためのオーディオスペクトル中の音成分の選択 | |
JP5543640B2 (ja) | 複雑さがスケーラブルな知覚的テンポ推定 | |
RU2418321C2 (ru) | Классификатор на основе нейронных сетей для выделения аудио источников из монофонического аудио сигнала | |
US7012183B2 (en) | Apparatus for analyzing an audio signal with regard to rhythm information of the audio signal by using an autocorrelation function | |
EP2549475B1 (en) | Segmenting audio signals into auditory events | |
JP5507596B2 (ja) | スピーチ増強 | |
KR101101384B1 (ko) | 파라미터화된 시간 특징 분석 | |
EP1393300B1 (en) | Segmenting audio signals into auditory events | |
JP4650662B2 (ja) | 信号処理装置および信号処理方法、プログラム、並びに記録媒体 | |
JP2004530153A (ja) | 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置 | |
US8865993B2 (en) | Musical composition processing system for processing musical composition for energy level and related methods | |
JP2004530153A6 (ja) | 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置 | |
US20040068401A1 (en) | Device and method for analysing an audio signal in view of obtaining rhythm information | |
TWI410958B (zh) | 用於處理音訊信號之方法與裝置及相關軟體程式 | |
Jo et al. | Classification of pathological voice into normal/benign/malignant state. | |
Glover et al. | Real-time segmentation of the temporal evolution of musical sounds | |
JPH1020886A (ja) | 波形データに存在する調和波形成分の検出方式 | |
Bartkowiak et al. | Hybrid sinusoidal modeling of music with near transparent audio quality | |
Pentyala | Variable length windowing to improve non-negative matrix factorization of music signals | |
Every et al. | Separation of overlapping impulsive sounds by bandwise noise interpolation | |
Korycki | Authenticity investigation of digital audio recorded as MP3 files | |
JP2018141841A (ja) | 音域推定装置、音域推定方法、および、音域推定プログラム | |
Voellmy | Note Onset Detection in Audio Sources | |
MX2008004572A (en) | Neural network classifier for seperating audio sources from a monophonic audio signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120417 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121227 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130111 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20130322 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130712 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130718 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140320 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5507997 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |