JP5642882B2 - 時間展開情報をもつ基底関数を使用する音楽信号の分解 - Google Patents
時間展開情報をもつ基底関数を使用する音楽信号の分解 Download PDFInfo
- Publication number
- JP5642882B2 JP5642882B2 JP2013536730A JP2013536730A JP5642882B2 JP 5642882 B2 JP5642882 B2 JP 5642882B2 JP 2013536730 A JP2013536730 A JP 2013536730A JP 2013536730 A JP2013536730 A JP 2013536730A JP 5642882 B2 JP5642882 B2 JP 5642882B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- basis functions
- segments
- audio signal
- signal representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000006870 function Effects 0.000 title claims description 216
- 238000000354 decomposition reaction Methods 0.000 title description 8
- 239000013598 vector Substances 0.000 claims description 155
- 238000000034 method Methods 0.000 claims description 123
- 230000004913 activation Effects 0.000 claims description 97
- 230000005236 sound signal Effects 0.000 claims description 68
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 11
- 230000002123 temporal effect Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 6
- 230000005526 G1 to G0 transition Effects 0.000 claims description 3
- 239000011295 pitch Substances 0.000 description 46
- 238000012805 post-processing Methods 0.000 description 44
- 238000001514 detection method Methods 0.000 description 41
- 239000002131 composite material Substances 0.000 description 36
- 238000004891 communication Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 15
- 238000000926 separation method Methods 0.000 description 14
- 238000003491 array Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000005259 measurement Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 238000009527 percussion Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 5
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 5
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 5
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 239000005441 aurora Substances 0.000 description 1
- 238000005284 basis set Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Auxiliary Devices For Music (AREA)
Description
以下に、本願出願時に最初に添付した特許請求の範囲に記載された発明を付記する。
[1] オーディオ信号を分解する方法であって、前記方法は、 前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算することと、 前記複数の計算された信号表現と複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算することと、を備え、 前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、 前記複数の基底関数の各々は、前記周波数範囲にわたる第1の対応する信号表現と、前記第1の対応する信号表現とは異なる、前記周波数範囲にわたる第2の対応する信号表現と、を備える、方法。
[2] 前記複数のセグメントのうちの少なくとも1つについて、(A)200ヘルツを上回る周波数における総エネルギーと(B)前記周波数範囲にわたる総エネルギーとの比が、前記対応するセグメントにおけるよりも前記計算された対応する信号表現において高い、[1]に記載の方法。
[3] 前記複数のセグメントのうちの少なくとも1つについて、前記計算された対応する信号表現における変調のレベルは、前記対応するセグメントにおける前記変調のレベルよりも低く、 前記変調が、振幅変調とピッチ変調とのうちの少なくとも1つである、[1]および[2]のいずれか一に記載の方法。
[4] 前記複数のセグメントのうちの前記少なくとも1つについて、前記対応する信号表現を前記計算することは、前記変調の前記レベルの測定を記録することを備える、[3]に記載の方法。
[5] 前記ベクトルの前記アクティブ化係数の少なくとも50パーセントが0値である、[1]から[4]のいずれか一に記載の方法。
[6] アクティブ化係数の前記ベクトルを前記計算することは、Bf=yの形の連立一次方程式の解を計算することを備え、 yは、前記複数の計算された信号表現を含むベクトルであり、 Bは、前記複数の基底関数を含む行列であり、 fはアクティブ化係数の前記ベクトルである、 [1]から[5]のいずれか一に記載の方法。
[7] アクティブ化係数の前記ベクトルを前記計算することは、アクティブ化係数の前記ベクトルのL1ノルムを最小限に抑えることを備える、[1]から[6]のいずれか一に記載の方法。
[8] 前記複数のセグメントのうちの少なくとも1つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも1つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、[1]から[7]のいずれか一に記載の方法。
[9] 前記複数の基底関数の各基底関数について、 前記第1の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第1の音色を記述し、 前記第2の対応する信号表現は、前記第1の音色とは異なる、前記周波数範囲にわたる前記対応する楽器の第2の音色を記述する、[1]から[8]のいずれか一に記載の方法。
[10] 前記複数の基底関数の各基底関数について、 前記第1の音色は、対応するノートの第1の時間間隔中の音色であり、 前記第1の音色が、前記第1の時間間隔とは異なる、前記対応するノートの第2の時間間隔中の音色である、[9]に記載の方法。
[11] 前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、[1]から[10]のいずれか一に記載の方法。
[12] 前記方法は、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも1つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択することを備える、[1]から[11]のいずれか一に記載の方法。
[13] 前記方法は、 前記複数のセグメントのうちの少なくとも1つについて、非線形周波数領域における対応する信号表現を計算することと、 アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第2の複数の基底関数とに基づいて、アクティブ化係数の第2のベクトルを計算することと、を備え、 前記第2の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、[1]から[12]のいずれか一に記載の方法。
[14] 前記方法は、アクティブ化係数の前記計算された第2のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択することを備える、[13]に記載の方法。
[15] オーディオ信号を分解するための装置であって、前記装置は、 前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算するための手段と、 前記複数の計算された信号表現と複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算するための手段と、を備え、 前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、 前記複数の基底関数の各々は、前記周波数範囲にわたる第1の対応する信号表現と、前記第1の対応する信号表現とは異なる、前記周波数範囲にわたる第2の対応する信号表現と、を備える、装置。
[16] 前記複数のセグメントのうちの少なくとも1つについて、(A)200ヘルツを上回る周波数における総エネルギーと(B)前記周波数範囲にわたる総エネルギーとの比が、前記対応するセグメントにおけるよりも前記計算された対応する信号表現において高い、[15]に記載の装置。
[17] 前記複数のセグメントのうちの少なくとも1つについて、前記計算された対応する信号表現における変調のレベルは、前記対応するセグメントにおける前記変調のレベルよりも低く、 前記変調は、振幅変調とピッチ変調とのうちの少なくとも1つである、[15]に記載の装置。
[18] 前記対応する信号表現を計算するための前記手段は、前記複数のセグメントのうちの前記少なくとも1つについて、前記変調の前記レベルの測定を記録するための手段を備える、[17]に記載の装置。
[19] 前記ベクトルの前記アクティブ化係数の少なくとも50パーセントが0値である、[15]に記載の装置。
[20] アクティブ化係数の前記ベクトルを計算するための前記手段は、Bf=yの形の連立一次方程式の解を計算するための手段を備え、 yは、前記複数の計算された信号表現を含むベクトルであり、 Bは、前記複数の基底関数を含む行列であり、 fは、アクティブ化係数の前記ベクトルである、[15]に記載の装置。
[21] アクティブ化係数の前記ベクトルを計算するための前記手段は、アクティブ化係数の前記ベクトルのL1ノルムを最小限に抑えるための手段を備える、[15]に記載の装置。
[22] 前記複数のセグメントのうちの少なくとも1つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも1つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、[15]に記載の装置。
[23] 前記複数の基底関数の各基底関数について、 前記第1の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第1の音色を記述し、 前記第2の対応する信号表現は、前記第1の音色とは異なる、前記周波数範囲にわたる前記対応する楽器の第2の音色を記述する、[15]に記載の装置。
[24] 前記複数の基底関数の各基底関数について、 前記第1の音色は、対応するノートの第1の時間間隔中の音色であり、 前記第1の音色は、前記第1の時間間隔とは異なる、前記対応するノートの第2の時間間隔中の音色である、[23]に記載の装置。
[25] 前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、[15]に記載の装置。
[26] 前記装置は、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも1つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択するための手段を備える、[15]に記載の装置。
[27] 基底関数のより大きいセットから前記複数の基底関数を選択するための前記手段は、 前記複数のセグメントのうちの少なくとも1つについて、非線形周波数領域における対応する信号表現を計算するための手段と、 アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第2の複数の基底関数とに基づいて、アクティブ化係数の第2のベクトルを計算するための手段と、を備え、 前記第2の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、[15]に記載の装置。
[28] 前記装置は、アクティブ化係数の前記計算された第2のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択するための手段を備える、[27]に記載の装置。
[29] オーディオ信号を分解するための装置であって、前記装置は、 前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算するように構成された変換モジュールと、 前記複数の計算された信号表現と複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算するように構成された係数ベクトル計算器と、を備え、 前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、 前記複数の基底関数の各々は、前記周波数範囲にわたる第1の対応する信号表現と、前記第1の対応する信号表現とは異なる、前記周波数範囲にわたる第2の対応する信号表現とを備える、装置。
[30] 前記複数のセグメントのうちの少なくとも1つについて、(A)200ヘルツを上回る周波数における総エネルギーと(B)前記周波数範囲にわたる総エネルギーとの比が、前記対応するセグメントにおけるよりも前記計算された対応する信号表現において高い、[29]に記載の装置。
[31] 前記複数のセグメントのうちの少なくとも1つについて、前記計算された対応する信号表現における変調のレベルは、前記対応するセグメントにおける前記変調のレベルよりも低く、 前記変調は、振幅変調とピッチ変調とのうちの少なくとも1つである、[29]に記載の装置。
[32] 前記装置は、前記複数のセグメントのうちの前記少なくとも1つについて、前記変調の前記レベルの測定を計算するように構成された変調レベル計算器を含む、[31]に記載の装置。
[33] 前記ベクトルの前記アクティブ化係数の少なくとも50パーセントが0値である、[29]に記載の装置。
[34] 前記係数ベクトル計算器は、Bf=yの形の連立一次方程式の解を計算するように構成され、 yは、前記複数の計算された信号表現を含むベクトルであり、 Bは、前記複数の基底関数を含む行列であり、 fは、アクティブ化係数の前記ベクトルである、[29]に記載の装置。
[35] 前記係数ベクトル計算器は、アクティブ化係数の前記ベクトルのL1ノルムを最小限に抑えるように構成された、[29]に記載の装置。
[36] 前記複数のセグメントのうちの少なくとも1つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも1つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、[29]に記載の装置。
[37] 前記複数の基底関数の各基底関数について、 前記第1の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第1の音色を記述し、 前記第2の対応する信号表現は、前記第1の音色とは異なる、前記周波数範囲にわたる前記対応する楽器の第2の音色を記述する、[29]に記載の装置。
[38] 前記複数の基底関数の各基底関数について、 前記第1の音色は、対応するノートの第1の時間間隔中の音色であり、 前記第1の音色は、前記第1の時間間隔とは異なる、前記対応するノートの第2の時間間隔中の音色である、[37]に記載の装置。
[39] 前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、[29]に記載の装置。
[40] 前記装置は、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも1つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択するように構成されたインベントリ低減モジュールを備える、[29]に記載の装置。
[41] 前記インベントリ低減モジュールは、 前記複数のセグメントのうちの少なくとも1つについて、非線形周波数領域における対応する信号表現を計算するように構成された第2の変換モジュールと、 アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第2の複数の基底関数とに基づいて、アクティブ化係数の第2のベクトルを計算するように構成された第2の係数ベクトル計算器と、を備え、 前記第2の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、[29]に記載の装置。
[42] 前記装置は、アクティブ化係数の前記計算された第2のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択するように構成された基底関数セレクタを備える、[41]に記載の装置。
[43] 機械によって読み取られたとき、前記機械に[1]から[14]のいずれか一に記載の方法を実行させる実体的な特徴を備える機械可読記憶媒体。
Claims (40)
- オーディオ信号を分解する方法であって、前記オーディオ信号は、一連のノートとしてモデル化され、前記ノートは、オンセット段階、定常段階、およびオフセット段階を含む、時間的に異なる時間領域に分割され、前記方法は、
前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算することと、
前記複数の計算された信号表現と、前記オーディオ信号を分解するための複数の基底関数とに基づいて、前記オーディオ信号の少なくとも選択された部分を再構成するためのアクティブ化係数のベクトルを計算することと、を備え、
前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、
前記複数の基底関数の各々は、各々が前記ノートの前記異なる領域に対応する音色を表す、前記周波数範囲にわたる第1の対応する信号表現と前記周波数範囲にわたる第2の対応する信号表現とを備え、前記ノートの前記異なる領域の前記音色に関係する情報は、基底関数が時間に対する前記音色の変化に基づいて選択されるように、前記複数の基底関数に符号化される、方法。 - 前記計算された対応する信号表現において、(A)200ヘルツを上回る周波数における総エネルギーと(B)前記周波数範囲にわたる総エネルギーとの比を増加させるために、前記複数のセグメントのうちの少なくとも1つの前記オーディオ信号の200ヘルツを上回る高周波領域をプリエンファシスすることをさらに備える、請求項1に記載の方法。
- カラーレーション効果を検出するために、周波数領域または時間領域における前記オーディオ信号でのエネルギーピークを検出することをさらに備える、請求項1および2のいずれか一項に記載の方法。
- 前記複数のセグメントのうちの前記少なくとも1つについて、前記エネルギーピークを検出することは、前記対応する信号表現を計算することと、変調のレベルの測度を記録することを備える、請求項3に記載の方法。
- 前記ベクトルの前記アクティブ化係数の少なくとも50パーセントが0値である、請求項1から4のいずれか一項に記載の方法。
- アクティブ化係数の前記ベクトルを前記計算することは、Bf=yの形の連立一次方程式の解を計算することを備え、
yは、前記複数の計算された信号表現を含むベクトルであり、
Bは、前記複数の基底関数を含む行列であり、
fは、アクティブ化係数の前記ベクトルである、請求項1から5のいずれか一項に記載の方法。 - アクティブ化係数の前記ベクトルを前記計算することは、アクティブ化係数の前記ベクトルのL1ノルムを最小限に抑えることを備える、請求項1から6のいずれか一項に記載の方法。
- 前記複数のセグメントのうちの少なくとも1つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも1つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、請求項1から7のいずれか一項に記載の方法。
- 前記複数の基底関数の各基底関数について、
前記第1の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第1の音色を記述し、
前記第2の対応する信号表現は、前記第1の音色とは異なる、前記周波数範囲にわたる同じ対応する楽器の第2の音色を記述する、請求項1から8のいずれか一項に記載の方法。 - 前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、請求項1から9のいずれか一項に記載の方法。
- 前記方法は、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも1つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択することを備える、請求項1から10のいずれか一項に記載の方法。
- 前記方法は、
前記複数のセグメントのうちの少なくとも1つについて、非線形周波数領域における対応する信号表現を計算することと、
アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第2の複数の基底関数とに基づいて、アクティブ化係数の第2のベクトルを計算することと、を備え、
前記第2の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、請求項1から11のいずれか一項に記載の方法。 - 前記方法は、アクティブ化係数の前記計算された第2のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択することを備える、請求項12に記載の方法。
- オーディオ信号を分解するための装置であって、前記オーディオ信号は、一連のノートとしてモデル化され、前記ノートは、オンセット段階、定常段階、およびオフセット段階を含む、時間的に異なる時間領域に分割され、前記装置が、
前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算するための手段と、
前記複数の計算された信号表現と、前記オーディオ信号を分解するための複数の基底関数とに基づいて、前記オーディオ信号の少なくとも選択された部分を再構成するためのアクティブ化係数のベクトルを計算するための手段と、を備え、
前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、
前記複数の基底関数の各々は、各々が前記ノートの前記異なる領域に対応する音色を表す、前記周波数範囲にわたる第1の対応する信号表現と前記周波数範囲にわたる第2の対応する信号表現とを備え、前記ノートの前記異なる領域の前記音色に関係する情報は、基底関数が時間に対する前記音色の変化に基づいて選択されるように、前記複数の基底関数に符号化される、装置。 - 前記計算された対応する信号表現において、(A)200ヘルツを上回る周波数における総エネルギーと(B)前記周波数範囲にわたる総エネルギーとの比を増加させるために、前記複数のセグメントのうちの少なくとも1つの前記オーディオ信号の200ヘルツを上回る高周波領域をプリエンファシスすることをさらに備える、請求項14に記載の装置。
- カラーレーション効果を検出するために、周波数領域または時間領域における前記オーディオ信号でのエネルギーピークを検出するための手段をさらに備える、請求項14に記載の装置。
- 前記複数のセグメントのうちの前記少なくとも1つについて、前記エネルギーピークを検出するための手段は、前記対応する信号表現を計算するための手段と、変調のレベルの測度を記録するための手段を備える、請求項16に記載の装置。
- 前記ベクトルの前記アクティブ化係数の少なくとも50パーセントが0値である、請求項14に記載の装置。
- アクティブ化係数の前記ベクトルを計算するための前記手段は、Bf=yの形の連立一次方程式の解を計算するための手段を備え、
yは、前記複数の計算された信号表現を含むベクトルであり、
Bは、基底関数の前記複数を含む行列であり、
fは、アクティブ化係数の前記ベクトルである、請求項14に記載の装置。 - アクティブ化係数の前記ベクトルを計算するための前記手段は、アクティブ化係数の前記ベクトルのL1ノルムを最小限に抑えるための手段を備える、請求項14に記載の装置。
- 前記複数のセグメントのうちの少なくとも1つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも1つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、請求項14に記載の装置。
- 前記複数の基底関数の各基底関数について、
前記第1の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第1の音色を記述し、
前記第2の対応する信号表現は、前記第1の音色とは異なる、前記周波数範囲にわたる前記対応する楽器の第2の音色を記述する、請求項14に記載の装置。 - 前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、請求項14に記載の装置。
- 前記装置が、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも1つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択するための手段を備える、請求項14に記載の装置。
- 基底関数のより大きいセットから前記複数の基底関数を選択するための前記手段は、
前記複数のセグメントのうちの少なくとも1つについて、非線形周波数領域における対応する信号表現を計算するための手段と、
アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第2の複数の基底関数とに基づいて、アクティブ化係数の第2のベクトルを計算するための手段と、を備え、
前記第2の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、請求項14に記載の装置。 - 前記装置が、アクティブ化係数の前記計算された第2のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択するための手段を備える、請求項25に記載の装置。
- オーディオ信号を分解するための装置であって、前記オーディオ信号は、一連のノートとしてモデル化され、前記ノートは、オンセット段階、定常段階、およびオフセット段階を含む、時間的に異なる時間領域に分割され、前記装置は、
前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算するように構成された変換モジュールと、
前記複数の計算された信号表現と、前記オーディオ信号を分解するための複数の基底関数とに基づいて、前記オーディオ信号の少なくとも選択された部分を再構成するためのアクティブ化係数のベクトルを計算するように構成された係数ベクトル計算器と、を備え、
前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、
前記複数の基底関数の各々は、各々が前記ノートの前記異なる領域に対応する音色を表す、前記周波数範囲にわたる第1の対応する信号表現と前記周波数範囲にわたる第2の対応する信号表現とを備え、前記ノートの前記異なる領域の前記音色に関係する情報は、基底関数が時間に対する前記音色の変化に基づいて選択されるように、前記複数の基底関数に符号化される、装置。 - 前記計算された対応する信号表現において、(A)200ヘルツを上回る周波数における総エネルギーと(B)前記周波数範囲にわたる総エネルギーとの比を増加させるために、前記複数のセグメントのうちの少なくとも1つの前記オーディオ信号の200ヘルツを上回る高周波領域をプリエンファシスするためのプリエンファシスフィルタをさらに備える、請求項27に記載の装置。
- カラーレーション効果を検出するために、周波数領域または時間領域における前記オーディオ信号でのエネルギーピークを検出するための変調レベル計算器をさらに備える、請求項27に記載の装置。
- 前記変調レベル計算器は、前記複数のセグメントのうちの前記少なくとも1つについて、変調のレベルの測度を計算するように構成される、請求項29に記載の装置。
- 前記ベクトルの前記アクティブ化係数の少なくとも50パーセントが0値である、請求項27に記載の装置。
- 前記係数ベクトル計算器は、Bf=yの形の連立一次方程式の解を計算するように構成され、
yは、前記複数の計算された信号表現を含むベクトルであり、
Bは、前記複数の基底関数を含む行列であり、
fは、アクティブ化係数の前記ベクトルである、請求項27に記載の装置。 - 前記係数ベクトル計算器が、アクティブ化係数の前記ベクトルのL1ノルムを最小限に抑えるように構成された、請求項27に記載の装置。
- 前記複数のセグメントのうちの少なくとも1つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも1つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、請求項27に記載の装置。
- 前記複数の基底関数の各基底関数について、
前記第1の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第1の音色を記述し、
前記第2の対応する信号表現は、前記第1の音色とは異なる、前記周波数範囲にわたる前記対応する楽器の第2の音色を記述する、請求項27に記載の装置。 - 前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、請求項27に記載の装置。
- 前記装置は、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも1つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択するように構成されたインベントリ低減モジュールを備える、請求項27に記載の装置。
- 前記インベントリ低減モジュールは、
前記複数のセグメントのうちの少なくとも1つについて、非線形周波数領域における対応する信号表現を計算するように構成された第2の変換モジュールと、
アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第2の複数の基底関数とに基づいて、アクティブ化係数の第2のベクトルを計算するように構成された第2の係数ベクトル計算器と、を備え、
前記第2の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、請求項37に記載の装置。 - 前記装置は、アクティブ化係数の前記計算された第2のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択するように構成された基底関数セレクタを備える、請求項38に記載の装置。
- 機械によって読み取られたとき、前記機械に請求項1から13のいずれか一項に記載の方法を実行させる実体的な特徴を備える機械可読記憶媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US40637610P | 2010-10-25 | 2010-10-25 | |
US61/406,376 | 2010-10-25 | ||
US13/280,295 | 2011-10-24 | ||
US13/280,295 US8805697B2 (en) | 2010-10-25 | 2011-10-24 | Decomposition of music signals using basis functions with time-evolution information |
PCT/US2011/057712 WO2012058225A1 (en) | 2010-10-25 | 2011-10-25 | Decomposition of music signals using basis functions with time-evolution information |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013546018A JP2013546018A (ja) | 2013-12-26 |
JP5642882B2 true JP5642882B2 (ja) | 2014-12-17 |
Family
ID=45973723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013536730A Expired - Fee Related JP5642882B2 (ja) | 2010-10-25 | 2011-10-25 | 時間展開情報をもつ基底関数を使用する音楽信号の分解 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8805697B2 (ja) |
EP (1) | EP2633523B1 (ja) |
JP (1) | JP5642882B2 (ja) |
KR (1) | KR101564151B1 (ja) |
CN (1) | CN103189915B (ja) |
WO (1) | WO2012058225A1 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012155189A1 (en) | 2011-05-13 | 2012-11-22 | National Ict Australia Ltd | Method and apparatus for estimating neural recruitment - f |
CA2835486C (en) | 2011-05-13 | 2022-07-19 | Saluda Medical Pty Limited | Method and apparatus for measurement of neural response - a |
WO2012155185A1 (en) | 2011-05-13 | 2012-11-22 | National Ict Australia Ltd | Method and apparatus for measurement of neural response |
US9872990B2 (en) | 2011-05-13 | 2018-01-23 | Saluda Medical Pty Limited | Method and apparatus for application of a neural stimulus |
US9558762B1 (en) * | 2011-07-03 | 2017-01-31 | Reality Analytics, Inc. | System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner |
US9691395B1 (en) * | 2011-12-31 | 2017-06-27 | Reality Analytics, Inc. | System and method for taxonomically distinguishing unconstrained signal data segments |
JP5942420B2 (ja) * | 2011-07-07 | 2016-06-29 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
US9305570B2 (en) | 2012-06-13 | 2016-04-05 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis |
US9460729B2 (en) | 2012-09-21 | 2016-10-04 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
EP2908904B1 (en) | 2012-11-06 | 2020-09-23 | Saluda Medical Pty Limited | System for controlling electrical conditions of tissue |
WO2014210284A1 (en) | 2013-06-27 | 2014-12-31 | Dolby Laboratories Licensing Corporation | Bitstream syntax for spatial voice coding |
US9812150B2 (en) | 2013-08-28 | 2017-11-07 | Accusonus, Inc. | Methods and systems for improved signal decomposition |
JP6671021B2 (ja) | 2013-11-22 | 2020-03-25 | サルーダ・メディカル・ピーティーワイ・リミテッド | 神経測定において神経反応を検出するための方法およびデバイス |
US10468036B2 (en) * | 2014-04-30 | 2019-11-05 | Accusonus, Inc. | Methods and systems for processing and mixing signals using signal decomposition |
US9477895B2 (en) * | 2014-03-31 | 2016-10-25 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for detecting events in an acoustic signal subject to cyclo-stationary noise |
US10564923B2 (en) | 2014-03-31 | 2020-02-18 | Sony Corporation | Method, system and artificial neural network |
ES2801348T3 (es) | 2014-05-05 | 2021-01-11 | Saluda Medical Pty Ltd | Medición neurológica mejorada |
EP4285985A3 (en) | 2014-12-11 | 2024-01-17 | Saluda Medical Pty Ltd | Method and device for feedback control of neural stimulation |
US9668066B1 (en) * | 2015-04-03 | 2017-05-30 | Cedar Audio Ltd. | Blind source separation systems |
AU2016245335B2 (en) | 2015-04-09 | 2020-11-19 | Saluda Medical Pty Ltd | Electrode to nerve distance estimation |
CA3019701A1 (en) | 2016-04-05 | 2017-10-12 | Saluda Medical Pty Ltd | Improved feedback control of neuromodulation |
EP3474747A4 (en) | 2016-06-24 | 2020-01-22 | Saluda Medical Pty Ltd | NERVOUS STIMULATION FOR REDUCED ARTIFACT |
US11212637B2 (en) | 2018-04-12 | 2021-12-28 | Qualcomm Incorproated | Complementary virtual audio generation |
CN112334184A (zh) | 2018-04-27 | 2021-02-05 | 萨鲁达医疗有限公司 | 混合神经的神经刺激 |
CN109841232B (zh) * | 2018-12-30 | 2023-04-07 | 瑞声科技(新加坡)有限公司 | 音乐信号中音符位置的提取方法和装置及存储介质 |
CN110111773B (zh) * | 2019-04-01 | 2021-03-30 | 华南理工大学 | 基于卷积神经网络的音乐信号多乐器识别方法 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10149187A (ja) * | 1996-11-19 | 1998-06-02 | Yamaha Corp | 音声情報抽出装置 |
US20010044719A1 (en) | 1999-07-02 | 2001-11-22 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for recognizing, indexing, and searching acoustic signals |
US6691082B1 (en) * | 1999-08-03 | 2004-02-10 | Lucent Technologies Inc | Method and system for sub-band hybrid coding |
JP3881943B2 (ja) * | 2002-09-06 | 2007-02-14 | 松下電器産業株式会社 | 音響符号化装置及び音響符号化方法 |
FR2867648A1 (fr) * | 2003-12-10 | 2005-09-16 | France Telecom | Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques |
CN1886780A (zh) * | 2003-12-15 | 2006-12-27 | 法国电信 | 声音合成和空间化方法 |
EP1755111B1 (en) | 2004-02-20 | 2008-04-30 | Sony Corporation | Method and device for detecting pitch |
US7415392B2 (en) * | 2004-03-12 | 2008-08-19 | Mitsubishi Electric Research Laboratories, Inc. | System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution |
US7505902B2 (en) | 2004-07-28 | 2009-03-17 | University Of Maryland | Discrimination of components of audio signals based on multiscale spectro-temporal modulations |
JP3906230B2 (ja) | 2005-03-11 | 2007-04-18 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
GB2430073A (en) | 2005-09-08 | 2007-03-14 | Univ East Anglia | Analysis and transcription of music |
US8190425B2 (en) * | 2006-01-20 | 2012-05-29 | Microsoft Corporation | Complex cross-correlation parameters for multi-channel audio |
US7953604B2 (en) * | 2006-01-20 | 2011-05-31 | Microsoft Corporation | Shape and scale parameters for extended-band frequency coding |
US7772478B2 (en) | 2006-04-12 | 2010-08-10 | Massachusetts Institute Of Technology | Understanding music |
US7612275B2 (en) | 2006-04-18 | 2009-11-03 | Nokia Corporation | Method, apparatus and computer program product for providing rhythm information from an audio signal |
US7842874B2 (en) | 2006-06-15 | 2010-11-30 | Massachusetts Institute Of Technology | Creating music by concatenative synthesis |
JP5007563B2 (ja) | 2006-12-28 | 2012-08-22 | ソニー株式会社 | 音楽編集装置および方法、並びに、プログラム |
US8160273B2 (en) | 2007-02-26 | 2012-04-17 | Erik Visser | Systems, methods, and apparatus for signal separation using data driven techniques |
EP2148321B1 (en) | 2007-04-13 | 2015-03-25 | National Institute of Advanced Industrial Science and Technology | Sound source separation system, sound source separation method, and computer program for sound source separation |
JP5275612B2 (ja) * | 2007-07-18 | 2013-08-28 | 国立大学法人 和歌山大学 | 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法 |
JP4872871B2 (ja) | 2007-09-27 | 2012-02-08 | ソニー株式会社 | 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ |
US8483854B2 (en) * | 2008-01-28 | 2013-07-09 | Qualcomm Incorporated | Systems, methods, and apparatus for context processing using multiple microphones |
JP2009204808A (ja) * | 2008-02-27 | 2009-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 音響特徴抽出方法及び、その装置、そのプログラム、そのプログラムを記録した記録媒体 |
EP2211335A1 (en) * | 2009-01-21 | 2010-07-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal |
-
2011
- 2011-10-24 US US13/280,295 patent/US8805697B2/en not_active Expired - Fee Related
- 2011-10-25 EP EP11784836.6A patent/EP2633523B1/en not_active Not-in-force
- 2011-10-25 WO PCT/US2011/057712 patent/WO2012058225A1/en active Application Filing
- 2011-10-25 JP JP2013536730A patent/JP5642882B2/ja not_active Expired - Fee Related
- 2011-10-25 CN CN201180051682.3A patent/CN103189915B/zh not_active Expired - Fee Related
- 2011-10-25 KR KR1020137013307A patent/KR101564151B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20130112898A (ko) | 2013-10-14 |
CN103189915A (zh) | 2013-07-03 |
US8805697B2 (en) | 2014-08-12 |
WO2012058225A1 (en) | 2012-05-03 |
KR101564151B1 (ko) | 2015-10-28 |
CN103189915B (zh) | 2015-06-10 |
EP2633523B1 (en) | 2014-04-09 |
JP2013546018A (ja) | 2013-12-26 |
EP2633523A1 (en) | 2013-09-04 |
US20120101826A1 (en) | 2012-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5642882B2 (ja) | 時間展開情報をもつ基底関数を使用する音楽信号の分解 | |
JP5749346B2 (ja) | マルチチャネルオーディオ信号を分解するための方法、装置およびコンピュータ可読記憶媒体 | |
JP6069341B2 (ja) | オーディオ・コーデックからの向上したクロマ抽出のための方法、エンコーダ、デコーダ、ソフトウェア・プログラム、記憶媒体 | |
JP5961950B2 (ja) | 音声処理装置 | |
Canadas-Quesada et al. | Percussive/harmonic sound separation by non-negative matrix factorization with smoothness/sparseness constraints | |
US9892758B2 (en) | Audio information processing | |
CN107533848B (zh) | 用于话音恢复的系统和方法 | |
US9305570B2 (en) | Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis | |
US8219390B1 (en) | Pitch-based frequency domain voice removal | |
Eklund | Data augmentation techniques for robust audio analysis | |
CN117079623A (zh) | 音频降噪模型训练方法、歌唱作品处理方法、设备和介质 | |
Dittmar et al. | An experimental approach to generalized Wiener filtering in music source separation | |
Pardo et al. | Applying source separation to music | |
JP5879813B2 (ja) | 複数音源の識別装置および複数音源に連動する情報処理装置 | |
JP5573529B2 (ja) | 音声処理装置およびプログラム | |
Yasuraoka et al. | I-divergence-based dereverberation method with auxiliary function approach | |
Lagrange et al. | Robust similarity metrics between audio signals based on asymmetrical spectral envelope matching | |
CN116803105A (zh) | 音频内容识别 | |
CN114566191A (zh) | 录音的修音方法及相关装置 | |
Badeau et al. | Robust similarity metrics between audio signals based on asymmetrical spectral envelope matching | |
Armendáriz | Informed Source Separation for Multiple Instruments of Similar Timbre |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140603 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140901 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140930 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141029 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5642882 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |