JP2019515323A - スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法 - Google Patents
スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法 Download PDFInfo
- Publication number
- JP2019515323A JP2019515323A JP2018549258A JP2018549258A JP2019515323A JP 2019515323 A JP2019515323 A JP 2019515323A JP 2018549258 A JP2018549258 A JP 2018549258A JP 2018549258 A JP2018549258 A JP 2018549258A JP 2019515323 A JP2019515323 A JP 2019515323A
- Authority
- JP
- Japan
- Prior art keywords
- time frequency
- time
- frequency
- frequency bin
- change
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 53
- 238000009527 percussion Methods 0.000 title claims description 36
- 238000000926 separation method Methods 0.000 title description 29
- 230000008859 change Effects 0.000 claims abstract description 71
- 230000005236 sound signal Effects 0.000 claims abstract description 57
- 230000004044 response Effects 0.000 claims abstract description 17
- 238000004458 analytical method Methods 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims 3
- 238000001228 spectrum Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000009499 grossing Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/40—Rhythm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/025—Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/025—Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
- G10H2250/031—Spectrum envelope processing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/221—Cosine transform; DCT [discrete cosine transform], e.g. for use in lossy audio compression such as MP3
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/261—Window, i.e. apodization function or tapering function amounting to the selection and appropriate weighting of a group of samples in a digital signal within some chosen time interval, outside of which it is zero valued
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Acoustics & Sound (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
Description
− オーディオ信号の振幅スペクトログラムに応じて、オーディオ信号の振幅スペクトログラムの複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定すること、および
− 上記時間周波数ビンについて判定された周波数の変化に応じて、複数の時間周波数ビンの各時間周波数ビンを、2つ以上の信号成分グループのうちの1つの信号成分グループに割り当てること。
(b,k)は複数の時間周波数ビンのうちの1つの時間周波数ビンを示し、R(b,k)は上記時間周波数ビン(b,k)の周波数の変化を示し、bは時間を示し、kは周波数を示し、fsはオーディオ信号のサンプリング周波数を示し、Nは分析窓の長さを示し、Hは分析窓のホップサイズを示し、α(b,k)は上記時間周波数ビン(b,k)の角度を示し、角度α(b,k)は振幅スペクトログラムに依存する。
を決定するように構成される。
応じて、複数の時間周波数ビンの各時間周波数ビン(b,k)の角度α(b,k)を決定するように構成することができる。
の固有ベクトル
の
および
の2つの成分を決定することによって、および、以下の式に従って上記時間周波数ビン((b,k))の角度(α(b,k))を決定することによって、複数の時間周波数ビンの各時間周波数ビン(b,k)の角度α(b,k)を決定するように構成することができる。
および
μ(b,k)は第1の固有値であり、λ(b,k)は上記時間周波数ビン(b,k)の構造テンソル
の第2の固有値であり、
である。
C(b,k)は上記時間周波数ビン(b,k)について依存する異方性の測度であり、分類器120は、異方性の測度C(b,k)が第1の閾値cより小さい場合、上記時間周波数ビン(b,k)を2つ以上の信号成分グループの残差成分グループに割り当てるように構成され、または、分類器120は、異方性の測度C(b,k)が第1の閾値c以下である場合に、上記時間周波数ビン(b,k)を2つ以上の信号成分グループの残差成分グループに割り当てるように構成され、
である。
である。
である。
のスペクトログラム表現に適用することができる。
のスペクトル分析のために、以下の短時間フーリエ変換(STFT)が使用される。
式中、
であり、bはフレームインデックスを表し、kは周波数インデックスであり、
は長さNの窓関数である(換言すれば、Nは分析窓の長さである)。
H≦Nは、窓の分析ホップサイズを表す。STFTスペクトルはN/2にあるナイキスト点を中心とした一定の対称性を有するため、対称性は逆STFTの間に再構築することができるので、例えば、処理は0≦k≦N/2に制限することができることに留意されたい。
256サンプル≦N≦2048サンプルであるように定義することができる。
0.25N≦H≦0.75Nである。
一方、周波数インデックスkに関する偏導関数は次のように定義される。
ここで、dは離散微分演算子であり(例えば、中心差分についてはd=[-1,0,1]/2を選択することができる)、*は2次元畳み込みを示す。
式中、
は、アダマール積としても知られている点ごとの行列乗算であり、Gは、時間インデックス方向の標準偏差σbおよび周波数インデックス方向の標準偏差σkを有する2Dガウス平滑フィルタである。その後、構造テンソル
が、以下の2×2の対称で半正定値な行列によって与えられる。
は、スペクトログラムのこの位置における勾配よりも多くの情報を含まないことに留意されたい。しかし、勾配とは対照的に、構造テンソルはGによって相殺効果なしに平滑化することができ、これによって雑音に対してよりロバストになる。
は、複数の時間周波数ビンの各時間周波数ビン(b,k)に対して定義されることに留意されたい。したがって、複数の時間周波数ビン、例えば時間周波数ビン(0,0);(0,1);(0,2);...(1,0);(1,1);(1,2);...が考慮される場合、複数の構造テンソル
が存在する。例えば、複数の時間周波数ビンの各時間周波数ビン(b,k)に対して、1つの構造テンソル
が決定される。
の固有値λ(b,k)、μ(b,k)、λ(b,k)≦μ(b,k)、ならびに、対応する固有ベクトル
および
を計算することによって得られる。小さい方の固有値λ(b,k)に対応する固有ベクトルである
は、インデックス(b,k)のスペクトログラムにおける変化が最も低い方向を指しており、一方、
は、最高の変化の方向を指していることに留意されたい。したがって、特定のビンにおける配向の角度は、以下によって得ることができる。
および
は、固有ベクトル
の成分である。
atan()は逆タンジェント関数を示す。
ここで、
は、各ビンについて決定することができる。
であることに留意されたい。1に近いC(b,k)の値は、インデックス(b,k)におけるスペクトログラムの高い異方性を示し、一方、一定の近傍は0に近い値をもたらす。雑音に対するロバスト性をさらに高めるために、異方性とみなされるべきものに対する限界を定める閾値
を選択することができる。
− 第1の制約は、例えば、角度α(b,k)の絶対値が閾値αhよりも小さい(または閾値αhと等しい)ことであり得る。閾値αhは、例えば、
の範囲内にあってもよい。これは、ビンが、αhより大きいまたはより小さい傾きを有しないいくつかのスペクトル構造の一部であるべきであることを意味する。このようにして、周波数変調音も、パラメータαhに依存して調波成分の一部と考えることができる。
− 第2の制約は、例えば、異方性の測度C(b,k)が、ビン(b,k)がいくつかの有向異方性構造の一部であることを立証し、したがって第2の閾値cを超えることであってもよい。所与のビン(b,k)について、角度α(b,k)および異方性の測度C(b,k)はともに、極座標で与えられる
内の点を定義することに留意されたい。
− 第1の制約は、例えば、角度α(b,k)の絶対値が閾値αpよりも大きい(または閾値αpと等しい)ことであり得る。閾値αpは、例えば、
の範囲内にあってもよい。これは、ビンが、αpより大きいまたはより小さい傾きを有しないいくつかのスペクトル構造の一部であるべきであることを意味する。このようにして、周波数変調音も、パラメータαpに依存して調波成分の一部と考えることができる。
− 第2の制約は、例えば、異方性の測度C(b,k)が、ビン(b,k)がいくつかの有向異方性構造の一部であることを立証し、したがって第2の閾値cを超えることであってもよい。所与のビン(b,k)について、角度α(b,k)および異方性の測度C(b,k)はともに、極座標で与えられる
内の点を定義することに留意されたい。
に関して定義されてもよいことに留意されたい。マスクは以下のように与えられる。
− 調波重み付け係数w1hは、左サラウンドおよび右サラウンドオーディオ出力チャネルを生成するための調波重み付け係数w2hと比較して、左、中央、および右オーディオ出力チャネルの生成についてより大きくてもよい。
− 打楽器重み付け係数w1pは、左サラウンドおよび右サラウンドオーディオ出力チャネルを生成するための打楽器重み付け係数w2pと比較して、左、中央、および右オーディオ出力チャネルの生成についてより小さくてもよい。
および
をもたらす標準偏差σb=σk=1.4を有する9×9等方性ガウスフィルタを使用して実行された。最後に、分離の閾値がe=20、c=0.2およびrh=rp=10000Hz/sに設定された。
Claims (17)
- オーディオ信号の振幅スペクトログラムを分析するための装置であって、
前記オーディオ信号の前記振幅スペクトログラムに応じて、前記オーディオ信号の前記振幅スペクトログラムの複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するように構成された周波数変化判定器(110)と、
前記時間周波数ビンについて判定された前記周波数の前記変化に応じて、前記複数の時間周波数ビンの各時間周波数ビンを、2つ以上の信号成分グループのうちの1つの信号成分グループに割り当てるように構成された分類器(120)と、を備える、装置。 - 前記周波数変化判定器(110)は、前記時間周波数ビンの角度(α(b,k))に応じて、前記複数の時間周波数ビンの各時間周波数ビンについて前記周波数の前記変化を判定するように構成されており、前記時間周波数ビンの前記角度(α(b,k))は、前記オーディオ信号の前記振幅スペクトログラムに依存する、請求項1に記載の装置。
- 前記周波数変化判定器(110)は、前記オーディオ信号のサンプリング周波数(fs)、ならびに、分析窓の長さ(N)および前記分析窓のホップサイズ(H)にさらに依存して、前記複数の時間周波数ビンの各時間周波数ビンについて前記周波数の前記変化を判定するように構成されている、請求項2に記載の装置。
- 前記装置周波数変化判定器(110)は、以下の式に応じて、前記複数の時間周波数ビンの各時間周波数ビンについて前記周波数の前記変化を判定するように構成されており、
(b,k)は前記複数の時間周波数ビンのうちの1つの時間周波数ビンを示し、
R(b,k)は前記時間周波数ビン(b,k)の前記周波数の前記変化を示し、
bは時間を示し、
kは周波数を示し、
fsは前記オーディオ信号の前記サンプリング周波数を示し、
Nは前記分析窓の前記長さを示し、
Hは前記分析窓の前記ホップサイズを示し、
α(b,k)は前記時間周波数ビン(b,k)の前記角度を示し、
前記角度α(b,k)は前記振幅スペクトログラムに依存する、請求項3に記載の装置。 - 前記周波数変化判定器(110)は、時間インデックスに関する前記オーディオ信号の前記振幅スペクトログラム(S)の偏導関数(Sb)を決定するように構成されており、
前記周波数変化判定器(110)は、時間インデックスに関する前記オーディオ信号の前記振幅スペクトログラム(S)の偏導関数(Sk)を決定するように構成されており、
前記周波数変化判定器110は、前記時間インデックスに関する前記オーディオ信号の前記振幅スペクトログラム(S)の前記偏導関数(Sb)、および、前記周波数インデックスに関する前記オーディオ信号の前記振幅スペクトログラム(S)の前記偏導関数(Sk)に応じて、前記複数の時間周波数ビンの時間周波数ビンの各時間周波数ビン((b,k))について構造テンソル
を決定するように構成されており、
前記周波数変化判定器(110)は、前記時間周波数ビン((b,k))の前記構造テンソル
に応じて、前記複数の時間周波数ビンの各時間周波数ビン((b,k))の前記角度(α(b,k))を決定するように構成されている、請求項2〜4のいずれか一項に記載の装置。 - 前記周波数変化判定器(110)は、前記時間周波数ビン((b,k))の前記構造テンソル
の固有ベクトル
の
および
の2つの成分を決定することによって、および、以下の式に従って前記時間周波数ビン((b,k)の前記角度(α(b,k))を決定することによって、前記複数の時間周波数ビンの各時間周波数ビン((b,k))の前記角度(α(b,k))を決定するように構成されており、
α(b,k)は前記時間周波数ビン((b,k))の前記角度を示し、
bは時間を示し、
kは周波数を示し、
atan()は逆タンジェント関数を示す、請求項5に記載の装置。 - 前記分類器120は、以下の式のうちの少なくとも1つに依存して、前記複数の時間周波数ビンの各時間周波数ビン(b,k)について異方性の測度を決定するように構成されており、
および
μ(b,k)は第1の固有値であり、λ(b,k)は前記時間周波数ビン(b,k)の前記構造テンソル
の第2の固有値であり、
であり、
前記分類器(120)は、前記異方性の測度の前記変化にさらに依存して、前記複数の時間周波数ビンの各時間周波数ビンを、2つ以上の信号成分グループのうちの1つの信号成分グループに割り当てるように構成されている、請求項5または6に記載の装置。 - 前記分類器(120)は、以下の式に応じて前記時間周波数ビン(b,k)の前記異方性の測度を決定するように構成されており、
C(b,k)は前記時間周波数ビン(b,k)について依存する前記異方性の測度であり、
前記分類器(120)は、前記異方性の測度C(b,k)が第1の閾値cより小さい場合、前記時間周波数ビン(b,k)を前記2つ以上の信号成分グループの残差成分グループに割り当てるように構成されており、または
前記分類器(120)は、前記異方性の測度C(b,k)が前記第1の閾値c以下である場合に、前記時間周波数ビン(b,k)を前記2つ以上の信号成分グループの前記残差成分グループに割り当てるように構成されており、
である、請求項7に記載の装置。 - 前記分類器(120)は、前記複数の時間周波数ビンの各時間周波数ビンを、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))に応じて2つ以上の信号成分グループの信号成分グループに割り当てるように構成されており、結果、前記分類器(120)は、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))の絶対値(|R(b,k)|)が第2の閾値rhよりも小さいか否かに応じて、または、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))の前記絶対値(|R(b,k)|)が前記第2の閾値rh以下であるか否かに応じて、前記複数の時間周波数ビンのうちの1つの時間周波数ビンを、前記2つ以上の信号成分グループのうちの調波信号成分グループに割り当て、
である、請求項1〜8のいずれか一項に記載の装置。 - 前記分類器(120)は、前記複数の時間周波数ビンの各時間周波数ビンを、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))に応じて2つ以上の信号成分グループの信号成分グループに割り当てるように構成されており、結果、前記分類器(120)は、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))の絶対値(|R(b,k)|)が第3の閾値rpよりも大きいか否かに応じて、または、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))の前記絶対値(|R(b,k)|)が前記第3の閾値rp以上であるか否かに応じて、前記複数の時間周波数ビンのうちの1つの時間周波数ビンを、前記2つ以上の信号成分グループのうちの打楽器信号成分グループに割り当て、
である、請求項1〜8のいずれか一項に記載の装置。 - 前記分類器(120)は、前記複数の時間周波数ビンの各時間周波数ビンを、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))に応じて2つ以上の信号成分グループの信号成分グループに割り当てるように構成されており、結果、前記分類器(120)は、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))の絶対値(|R(b,k)|)が前記第3の閾値rpよりも大きいか否かに応じて、または、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))の前記絶対値(|R(b,k)|)が前記第3の閾値rp以上であるか否かに応じて、前記複数の時間周波数ビンのうちの1つの時間周波数ビンを、前記2つ以上の信号成分グループのうちの打楽器信号成分グループに割り当て、
である、請求項9に記載の装置。 - 前記装置は、前記複数の時間周波数ビンの前記2つ以上の信号成分グループへの前記割り当てに応じてオーディオ出力信号を生成するように構成された信号発生器(130)を備える、請求項1〜11のいずれか一項に記載の装置。
- 前記信号発生器(130)は、前記複数の時間周波数ビンの各時間周波数ビンの振幅値に重み付け係数(wh,wp,wr)を適用して、前記オーディオ出力信号を得るように構成され、ここで、前記時間周波数ビンに適用される前記重み付け係数(wh,wp,wr)は、前記時間周波数ビンが割り当てられる前記信号成分グループに依存する、請求項12に記載の装置。
- 前記信号プロセッサ(130)は、前記オーディオ信号をアップミックスして2つ以上のオーディオ出力チャネルを含む前記オーディオ出力信号を得るように構成されたアップミキサであり
前記アップミキサは、前記複数の時間周波数ビンを前記2つ以上の信号成分グループに前記割り当てることに応じて前記2つ以上のオーディオ出力チャネルを生成するように構成されている、請求項12または13に記載の装置。 - 前記装置は、前記オーディオ信号を記録するための1つまたは複数のマイクロホン(171,172)を備え、
前記装置は、前記オーディオ信号から前記オーディオ信号の前記振幅スペクトログラムを生成するための振幅スペクトログラム生成器(180)をさらに備える、請求項1〜14のいずれか一項に記載の装置。 - オーディオ信号の振幅スペクトログラムを分析するための方法であって、
前記オーディオ信号の前記振幅スペクトログラムに応じて、前記オーディオ信号の前記振幅スペクトログラムの複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するステップと、
前記時間周波数ビンについて判定された前記周波数の前記変化に応じて、前記複数の時間周波数ビンの各時間周波数ビンを、2つ以上の信号成分グループのうちの1つの信号成分グループに割り当てるステップと、を含む、方法。 - コンピュータまたは信号プロセッサ上で実行されるとき、請求項16に記載の方法を実装するためのコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16161251.0 | 2016-03-18 | ||
EP16161251.0A EP3220386A1 (en) | 2016-03-18 | 2016-03-18 | Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms |
PCT/EP2017/056257 WO2017158102A1 (en) | 2016-03-18 | 2017-03-16 | Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019515323A true JP2019515323A (ja) | 2019-06-06 |
JP6800995B2 JP6800995B2 (ja) | 2020-12-16 |
Family
ID=55646318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018549258A Active JP6800995B2 (ja) | 2016-03-18 | 2017-03-16 | スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法 |
Country Status (11)
Country | Link |
---|---|
US (1) | US10770051B2 (ja) |
EP (2) | EP3220386A1 (ja) |
JP (1) | JP6800995B2 (ja) |
KR (1) | KR102250624B1 (ja) |
CN (1) | CN109247030B (ja) |
BR (1) | BR112018068852A2 (ja) |
CA (1) | CA3017558C (ja) |
ES (1) | ES2788682T3 (ja) |
MX (1) | MX2018011104A (ja) |
RU (1) | RU2712652C1 (ja) |
WO (1) | WO2017158102A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109658951B (zh) * | 2019-01-08 | 2021-03-26 | 北京雷石天地电子技术有限公司 | 混合信号检测方法及系统 |
TWI783215B (zh) * | 2020-03-05 | 2022-11-11 | 緯創資通股份有限公司 | 信號處理系統及其信號降噪的判定方法與信號補償方法 |
CN112150386B (zh) * | 2020-09-29 | 2023-03-21 | 西安工程大学 | 基于对比度均值的sar图像相干斑非局部平均抑制方法 |
CN113203992A (zh) * | 2021-04-29 | 2021-08-03 | 电子科技大学 | 一种多基sar的抗欺骗性干扰方法 |
KR102475219B1 (ko) * | 2022-09-21 | 2022-12-07 | 국방과학연구소 | 비디오 형태의 데이터 증강에 기반한 합성 개구면 레이다의 표적 분류 장치, 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009210888A (ja) * | 2008-03-05 | 2009-09-17 | Univ Of Tokyo | 音信号の分離方法 |
JP2010054802A (ja) * | 2008-08-28 | 2010-03-11 | Univ Of Tokyo | 音楽音響信号からの単位リズムパターン抽出法、該方法を用いた楽曲構造の推定法、及び、音楽音響信号中の打楽器パターンの置換法 |
JP2010210758A (ja) * | 2009-03-09 | 2010-09-24 | Univ Of Tokyo | 音声を含む信号の処理方法及び装置 |
JP2016506664A (ja) * | 2012-12-21 | 2016-03-03 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 複数の瞬間到来方向推定を用いるインフォ−ムド空間フィルタリングのフィルタおよび方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5950734A (ja) | 1982-09-16 | 1984-03-23 | スタンレー電気株式会社 | 磁石式交流発電機の電圧調整装置 |
JPS638698A (ja) * | 1986-06-27 | 1988-01-14 | 松下電器産業株式会社 | リズム表示装置 |
US5845241A (en) * | 1996-09-04 | 1998-12-01 | Hughes Electronics Corporation | High-accuracy, low-distortion time-frequency analysis of signals using rotated-window spectrograms |
DE10313875B3 (de) * | 2003-03-21 | 2004-10-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Analysieren eines Informationssignals |
DE102004049517B4 (de) * | 2004-10-11 | 2009-07-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Extraktion einer einem Audiosignal zu Grunde liegenden Melodie |
US7521622B1 (en) * | 2007-02-16 | 2009-04-21 | Hewlett-Packard Development Company, L.P. | Noise-resistant detection of harmonic segments of audio signals |
JP5560861B2 (ja) * | 2010-04-07 | 2014-07-30 | ヤマハ株式会社 | 楽曲解析装置 |
JP5617042B2 (ja) | 2011-09-16 | 2014-10-29 | パイオニア株式会社 | 音声処理装置、再生装置、音声処理方法およびプログラム |
JP2013164584A (ja) * | 2012-01-12 | 2013-08-22 | Yamaha Corp | 音響処理装置 |
CN103680517A (zh) * | 2013-11-20 | 2014-03-26 | 华为技术有限公司 | 一种音频信号的处理方法、装置及设备 |
JP6763721B2 (ja) * | 2016-08-05 | 2020-09-30 | 大学共同利用機関法人情報・システム研究機構 | 音源分離装置 |
US10354632B2 (en) * | 2017-06-28 | 2019-07-16 | Abu Dhabi University | System and method for improving singing voice separation from monaural music recordings |
-
2016
- 2016-03-18 EP EP16161251.0A patent/EP3220386A1/en not_active Withdrawn
-
2017
- 2017-03-16 BR BR112018068852A patent/BR112018068852A2/pt unknown
- 2017-03-16 MX MX2018011104A patent/MX2018011104A/es unknown
- 2017-03-16 RU RU2018136575A patent/RU2712652C1/ru active
- 2017-03-16 CN CN201780030531.7A patent/CN109247030B/zh active Active
- 2017-03-16 JP JP2018549258A patent/JP6800995B2/ja active Active
- 2017-03-16 EP EP17711161.4A patent/EP3430612B1/en active Active
- 2017-03-16 CA CA3017558A patent/CA3017558C/en active Active
- 2017-03-16 ES ES17711161T patent/ES2788682T3/es active Active
- 2017-03-16 KR KR1020187029671A patent/KR102250624B1/ko active IP Right Grant
- 2017-03-16 WO PCT/EP2017/056257 patent/WO2017158102A1/en active Application Filing
-
2018
- 2018-09-12 US US16/129,732 patent/US10770051B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009210888A (ja) * | 2008-03-05 | 2009-09-17 | Univ Of Tokyo | 音信号の分離方法 |
JP2010054802A (ja) * | 2008-08-28 | 2010-03-11 | Univ Of Tokyo | 音楽音響信号からの単位リズムパターン抽出法、該方法を用いた楽曲構造の推定法、及び、音楽音響信号中の打楽器パターンの置換法 |
JP2010210758A (ja) * | 2009-03-09 | 2010-09-24 | Univ Of Tokyo | 音声を含む信号の処理方法及び装置 |
JP2016506664A (ja) * | 2012-12-21 | 2016-03-03 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 複数の瞬間到来方向推定を用いるインフォ−ムド空間フィルタリングのフィルタおよび方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2017158102A1 (en) | 2017-09-21 |
JP6800995B2 (ja) | 2020-12-16 |
KR20180121995A (ko) | 2018-11-09 |
MX2018011104A (es) | 2019-01-10 |
KR102250624B1 (ko) | 2021-05-12 |
BR112018068852A2 (pt) | 2019-01-22 |
CA3017558C (en) | 2021-03-16 |
RU2712652C1 (ru) | 2020-01-30 |
ES2788682T3 (es) | 2020-10-22 |
EP3430612B1 (en) | 2020-03-25 |
CN109247030A (zh) | 2019-01-18 |
EP3220386A1 (en) | 2017-09-20 |
CN109247030B (zh) | 2023-03-10 |
US10770051B2 (en) | 2020-09-08 |
CA3017558A1 (en) | 2017-09-21 |
EP3430612A1 (en) | 2019-01-23 |
US20190012999A1 (en) | 2019-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Défossez et al. | Demucs: Deep extractor for music sources with extra unlabeled data remixed | |
JP6800995B2 (ja) | スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法 | |
CN103999076B (zh) | 包括将声音信号变换成频率调频域的处理声音信号的系统和方法 | |
Chi et al. | Multiresolution spectrotemporal analysis of complex sounds | |
JP6790114B2 (ja) | 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング | |
CN104246796A (zh) | 使用多模匹配方案的对象辨识 | |
KR20180050652A (ko) | 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용 | |
JP2004528599A (ja) | オーディトリーイベントに基づく特徴付けを使ったオーディオの比較 | |
Jeong et al. | Singing voice separation using RPCA with weighted-norm | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
Rupesh Kumar et al. | A novel approach towards generalization of countermeasure for spoofing attack on ASV systems | |
Vinitha George et al. | A novel U-Net with dense block for drum signal separation from polyphonic music signal mixture | |
Pishdadian et al. | Multi-resolution common fate transform | |
Felipe et al. | Acoustic scene classification using spectrograms | |
JP2017520016A (ja) | パラメトリック音声合成システムに基づく声門パルスモデルの励磁信号形成方法 | |
Mankad et al. | On the performance of empirical mode decomposition-based replay spoofing detection in speaker verification systems | |
Olivero et al. | Sound morphing strategies based on alterations of time-frequency representations by Gabor multipliers | |
Dhiman et al. | A Spectro-Temporal Demodulation Technique for Pitch Estimation. | |
Janer et al. | Combining a harmonic-based NMF decomposition with transient analysis for instantaneous percussion separation | |
McCallum | Foreground Harmonic Noise Reduction for Robust Audio Fingerprinting | |
Solís et al. | POSSIBILITIES FOR AUDIO ANALYSIS WITH NEURAL NETWORKS | |
Wells et al. | Principal Component Analysis of Rasterised Audio for Cross-Synthesis | |
Remya et al. | Efficient Watermarking Schemes for Speaker Verification Guaranteeing Non-repudiation | |
BR112018068892B1 (pt) | Aparelho para reconstrução de fase a partir de um espectrograma de magnitude de um sinal de áudio, sistema, codificador e método para reconstrução de fase a partir de um espectrograma de magnitude de um sinal de áudio | |
Barth et al. | ELEC 301 Projects Fall 2006 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181116 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200128 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201027 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201125 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6800995 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |