JP2019515323A - スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法 - Google Patents

スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法 Download PDF

Info

Publication number
JP2019515323A
JP2019515323A JP2018549258A JP2018549258A JP2019515323A JP 2019515323 A JP2019515323 A JP 2019515323A JP 2018549258 A JP2018549258 A JP 2018549258A JP 2018549258 A JP2018549258 A JP 2018549258A JP 2019515323 A JP2019515323 A JP 2019515323A
Authority
JP
Japan
Prior art keywords
time frequency
time
frequency
frequency bin
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018549258A
Other languages
English (en)
Other versions
JP6800995B2 (ja
Inventor
アンドレアス・ニーデルマイヤー
リカルト・フェグ
ザッシャ・ディシェ
マイナルト・ミュラー
ジョナサン・ドリードガー
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2019515323A publication Critical patent/JP2019515323A/ja
Application granted granted Critical
Publication of JP6800995B2 publication Critical patent/JP6800995B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/221Cosine transform; DCT [discrete cosine transform], e.g. for use in lossy audio compression such as MP3
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/261Window, i.e. apodization function or tapering function amounting to the selection and appropriate weighting of a group of samples in a digital signal within some chosen time interval, outside of which it is zero valued

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

オーディオ信号の振幅スペクトログラムを分析するための装置が提供される。この装置は、オーディオ信号の振幅スペクトログラムに応じて、オーディオ信号の振幅スペクトログラムの複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するように構成された周波数変化判定器(110)を備える。さらに、装置は、上記時間周波数ビンについて判定された周波数の変化に応じて、複数の時間周波数ビンの各時間周波数ビンを、2つ以上の信号成分グループのうちの1つの信号成分グループに割り当てるように構成された分類器(120)を備える。【選択図】 図1

Description

本発明は、オーディオ信号処理に関し、特にスペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離のための装置および方法に関する。
音声を調波成分と打楽器成分とに分離できることは、多くの用途にとって効果的な前処理ステップである。
「調波打楽器(残差)分離」は一般的な用語であるが、基本周波数の整数倍の周波数を有する正弦波を有する調波構造を意味するため、誤解を招く。正確な用語は「音調打楽器(残差)分離」でなければならないが、理解を容易にするために、以下では 「音調」ではなく上記用語および「調波」を使用している。
例えば、音楽録音の打楽器成分の分離を使用すると、ビートトラッキング([1]参照)、リズム分析およびリズム楽器の音写の品質が向上する。調波成分の分離は、音程のある楽器の音写およびコード検出に適している([3]参照)。さらに、調波打楽器分離は、両方の信号成分のレベル比を変化させるようなリミックスの目的で使用することができ([4]参照)、全体的な音声の感覚が「より滑らか」または「より力強い」ものになる。
調波打楽器音分離のためのいくつかの方法は、調波音が入力信号の振幅スペクトログラムにおいて水平構造(時間方向)を有し、一方で、打楽器音が垂直構造(周波数方向)として現れるという仮定に依拠する。Ono他は、まず、時間/周波数方向の拡散によって調波/打楽器強調スペクトログラムを作成する方法を提示している[5]。これらの強調された表現を後で比較することによって、音声が調波か打楽器かを導き出すことができる。
同様の方法がFitzgeraldによって発表されている。当該文献においては、拡散の代わりに垂直方向のメジアンフィルタリングを使用して強調スペクトルが計算され([6]を参照)、計算複雑度を低減しながら同様の結果がもたらされる。
これは、小さなセットのパラメータによってそれぞれの信号成分を記述することを目指すフレームワークである、正弦波+過渡+雑音(S+T+N)信号モデル([7]、[8]、[9]参照)から着想を得ている。その後、Fitzgeraldの方法は、[10]の調波打楽器残差(HPR)分離まで拡張された。オーディオ信号は、しばしば明瞭な調波でも打楽器でもない音声から構成されているため、この手順ではこれらの音声を第3の残りの成分において捕捉する。これらの残差信号のいくつかは、水平でも垂直でも内もない等方性の構造(例えば雑音)を明瞭に有するが、明瞭な水平構造を持たないにもかかわらず、音調情報を担持し、音声の調波部分として知覚することができる音声が存在する。例は、「ビブラート」があると言われる、ヴァイオリン演奏またはボーカルの録音において発生し得るような周波数変調トーンである。上述の方法は、水平構造または垂直構造のいずれかを認識する戦略のために、その調波成分において常にそのような音声を捕捉することができるとは限らない。
調波成分において非水平スペクトル構造を有する調波音を捕捉することができる非負行列分解に基づく調波打楽器分離手順が[11]で提案されている。しかしながら、それは第3の残差成分を含まない。
上記を要約すると、最近の方法は、スペクトログラム表現では、調波音が水平構造をもたらし、打楽器音が垂直構造をもたらすという観察に依拠する。さらに、これらの方法は、水平でも垂直でもない構造(すなわち、調波でなく、打楽器でもない音声)と、残差のカテゴリとを関連付ける。しかし、この仮定は、スペクトル構造の変動を示し、一方でそれにもかかわらず音調情報を担持する、周波数変調トーンのような信号には成り立たない。
構造テンソルは、画像処理に使用されるツールであり([12]、[13]参照)、これはその分野において、エッジおよびコーナ検出のために画像をグレースケーリングし([14]参照)、または、物体の向きを推定するために適用される。構造テンソルは、オーディオ処理において前処理および特徴抽出にすでに使用されている([15]、[16]参照)。
本発明の目的は、オーディオ信号処理のための改善された概念を提供することである。本発明の目的は、請求項1に記載の装置、請求項16に記載の方法、および請求項17に記載のコンピュータプログラムによって解決される。
オーディオ信号の振幅スペクトログラムを分析するための装置が提供される。この装置は、オーディオ信号の振幅スペクトログラムに応じて、オーディオ信号の振幅スペクトログラムの複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するように構成された周波数変化判定器を備える。さらに、装置は、上記時間周波数ビンについて判定された周波数の変化に応じて、複数の時間周波数ビンの各時間周波数ビンを、2つ以上の信号成分グループのうちの1つの信号成分グループに割り当てるように構成された分類器を備える。
さらに、オーディオ信号の振幅スペクトログラムを分析するための方法が提供される。この方法は、以下のステップを含む。
− オーディオ信号の振幅スペクトログラムに応じて、オーディオ信号の振幅スペクトログラムの複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定すること、および
− 上記時間周波数ビンについて判定された周波数の変化に応じて、複数の時間周波数ビンの各時間周波数ビンを、2つ以上の信号成分グループのうちの1つの信号成分グループに割り当てること。
さらに、コンピュータプログラムが提供され、コンピュータプログラムは、コンピュータまたは信号プロセッサ上で実行されるときに上記方法を実装するように構成されている。
以下では、本発明の実施形態を、図面を参照してより詳細に説明する。
一実施形態によるオーディオ信号の振幅スペクトログラムを分析するための装置を示す図である。 矢印の向きが方向を示し、矢印の長さが異方性測度を示す、一実施形態による、領域的に拡大されている歌声、カスタネット、および拍手の混合音のスペクトログラムを示す図である。 一実施形態による構造テンソルを使用することによって計算された様々な配向/異方性値を示す図である。 合成入力信号の抜粋に対するHPR−M法とHPR−ST法との間の比較を示す図である。 一実施形態による、信号発生器を備える装置を示す図である。 一実施形態による、オーディオ信号を記録するための1つまたは複数のマイクロホンを備える装置を示す図である。
図1は、実施形態によるオーディオ信号の振幅スペクトログラムを分析するための装置を示す。
この装置は周波数変化判定器110を備える。周波数変化判定器110は、オーディオ信号の振幅スペクトログラムに応じて、オーディオ信号の振幅スペクトログラムの複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するように構成されている。
さらに、この装置は、分類器120を備える。分類器120は、上記時間周波数ビンについて判定された周波数の変化に応じて、複数の時間周波数ビンの各時間周波数ビンを、2つ以上の信号成分グループのうちの1つの信号成分グループに割り当てるように構成されている。
一実施形態によれば、周波数変化判定器110は、例えば、上記時間周波数ビンの角度α(b,k)に応じて、複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するように構成することができる。上記時間周波数ビンの角度α(b,k)は、オーディオ信号の振幅スペクトログラムに依存する。
一実施形態では、周波数変化判定器110は、例えば、オーディオ信号のサンプリング周波数f、ならびに、分析窓の長さNおよび分析窓のホップサイズHにさらに依存して、複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するように構成することができる。
一実施形態によれば、装置周波数変化判定器110は、以下の式に応じて、複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するように構成される。

(b,k)は複数の時間周波数ビンのうちの1つの時間周波数ビンを示し、R(b,k)は上記時間周波数ビン(b,k)の周波数の変化を示し、bは時間を示し、kは周波数を示し、fはオーディオ信号のサンプリング周波数を示し、Nは分析窓の長さを示し、Hは分析窓のホップサイズを示し、α(b,k)は上記時間周波数ビン(b,k)の角度を示し、角度α(b,k)は振幅スペクトログラムに依存する。
一実施形態では、周波数変化判定器110は、例えば、時間インデックスに関するオーディオ信号の振幅スペクトログラムSの偏導関数Sを決定するように構成することができる。そのような実施形態では、周波数変化判定器110は、例えば、時間インデックスに関するオーディオ信号の振幅スペクトログラムSの偏導関数Sを決定するように構成することができる。
さらに、このような実施形態では、周波数変化判定器110は、時間インデックスに関するオーディオ信号の振幅スペクトログラムSの偏導関数S、および、周波数インデックスに関するオーディオ信号の振幅スペクトログラムSの偏導関数Sに応じて、複数の時間周波数ビンの時間周波数ビンの各時間周波数ビン(b,k)について構造テンソル
を決定するように構成される。
さらにそのような実施形態において、周波数変化判定器110は、例えば、上記時間周波数ビン(b,k)の構造テンソル
応じて、複数の時間周波数ビンの各時間周波数ビン(b,k)の角度α(b,k)を決定するように構成することができる。
一実施形態によれば、周波数変化判定器110は、例えば、上記時間周波数ビン(b,k)の構造テンソル
の固有ベクトル

および
の2つの成分を決定することによって、および、以下の式に従って上記時間周波数ビン((b,k))の角度(α(b,k))を決定することによって、複数の時間周波数ビンの各時間周波数ビン(b,k)の角度α(b,k)を決定するように構成することができる。
α(b,k)は上記時間周波数ビン((b,k))の角度を示し、bは時間を示し、kは周波数を示し、atan()は逆タンジェント関数を示す。
一実施形態では、分類器120は、例えば、以下の式のうちの少なくとも1つに依存して、複数の時間周波数ビンの各時間周波数ビン(b,k)について異方性の測度を決定するように構成することができる。
および
μ(b,k)は第1の固有値であり、λ(b,k)は上記時間周波数ビン(b,k)の構造テンソル
の第2の固有値であり、
である。
そのような実施形態において、分類器120は、例えば、異方性の測度の変化にさらに依存して、複数の時間周波数ビンの各時間周波数ビンを、2つ以上の信号成分グループのうちの1つの信号成分グループに割り当てるように構成することができる。
一実施形態によれば、分類器120は、例えば、以下の式に応じて上記時間周波数ビン(b,k)の異方性の測度を決定するように構成することができる。
C(b,k)は上記時間周波数ビン(b,k)について依存する異方性の測度であり、分類器120は、異方性の測度C(b,k)が第1の閾値cより小さい場合、上記時間周波数ビン(b,k)を2つ以上の信号成分グループの残差成分グループに割り当てるように構成され、または、分類器120は、異方性の測度C(b,k)が第1の閾値c以下である場合に、上記時間周波数ビン(b,k)を2つ以上の信号成分グループの残差成分グループに割り当てるように構成され、
である。
一実施形態では、分類器120は、例えば、複数の時間周波数ビンの各時間周波数ビンを、上記時間周波数ビン(b,k)について判定された周波数の変化R(b,k)に応じて2つ以上の信号成分グループの信号成分グループに割り当てるように構成することができ、それによって、分類器120は、上記時間周波数ビン(b,k)について判定された周波数の変化R(b,k)絶対値|(b,k)|が第2の閾値rよりも小さいか否かに応じて、または、上記時間周波数ビン(b,k)について判定された周波数の変化R(b,k)の絶対値|R(b,k)|が第2の閾値r以下であるか否かに応じて、複数の時間周波数ビンのうちの1つの時間周波数ビンを、2つ以上の信号成分グループのうちの調波信号成分グループに割り当て、
である。
一実施形態によれば、分類器120は、例えば、複数の時間周波数ビンの各時間周波数ビンを、上記時間周波数ビン(b,k)について判定された周波数の変化R(b,k)に応じて2つ以上の信号成分グループの信号成分グループに割り当てるように構成することができ、それによって、分類器120は、上記時間周波数ビン(b,k)について判定された周波数の変化R(b,k)の絶対値|R(b,k)|が第3の閾値rよりも大きいか否かに応じて、または、上記時間周波数ビン(b,k)について判定された周波数の変化R(b,k)の絶対値|R(b,k)|が第3の閾値r以上であるか否かに応じて、複数の時間周波数ビンのうちの1つの時間周波数ビンを、2つ以上の信号成分グループのうちの打楽器信号成分グループに割り当て、
である。
以下では、実施形態の詳細な説明を提供する。
実施形態は、構造テンソルに基づく調波打楽器残差(HPR)音声分離のための改善された概念を提供する。いくつかの実施形態は、構造テンソルによって提供されるスペクトル構造の向きに関する情報を利用することによって、調波成分内に音調情報を保持する周波数変調音を捕捉する。
いくつかの実施形態は、水平および垂直への厳密な分類がこれらの信号には不適切であり、残差成分への音調情報の漏洩をもたらす可能性があるという知見に基づいている。実施形態は、振幅スペクトログラムにおける優勢な配向角を計算するために、数学的ツールである構造テンソルを代わりに使用する新規の方法に関する。実施形態は、周波数変調された信号の場合であっても、この配向情報を利用して調波、打楽器および残差信号成分を区別する。最後に、実施例の概念の有効性が、客観的評価測度および音声例の両方によって検証される。
さらに、いくつかの実施形態は、構造テンソルが、入力がグレースケール画像であり、出力が最小変化の方向に対応する各ピクセルの角度nおよび各ピクセルのこの方向の確実性または異方性測度であるブラックボックスと考えることができるという知見に基づいている。構造テンソルは、平滑化される可能性を付加的に提供し、ロバスト性の向上に対する雑音の影響を低減する。さらに、推定角度の品質を判定するために確実性測度を用いることができる。この確実性測度の低い値は、ピクセルが明瞭な方向なしに一定の明るさの領域にあることを示す。
局所的な周波数変化を、例えば、構造テンソルによって得られる角度から抽出することができる。これらの角度を形成することにより、スペクトログラムの時間周波数ビンが調波(=低い局所周波数変化)または打楽器(=高いまたは無限の局所周波数変化)成分に属するかを判定することができる。
調波打楽器残差分類および分離のための改良された実施形態が提供される。
調波打楽器残差音声分離は、音程のある楽器の音写またはリズム抽出などの用途に有用な前処理ツールである。厳密に水平および垂直構造のみを探索する代わりに、いくつかの実施形態は、画像処理から知られている構造テンソルを使用することによって、スペクトログラムの優勢な配向角および局所異方性を判定する。
実施形態では、適切な閾値を設定することによって、スペクトル構造の向きに関する提供された情報を使用して、調波、打楽器および残差信号成分を区別することができる。図2参照。
図2は、構造テンソルによって得られる方向(矢印の向き)および異方性測度(矢印の長さ)をさらに示す、領域的に拡大されている歌声、カスタネットおよび拍手の混合音のスペクトログラムを示す。矢印の色は、それぞれの時間周波数ビンが、向きおよび異方性情報に基づいて、調波成分(領域210)、打楽器成分(領域230)、または残差成分(領域220)に割り当てられるかを示す。
高い局所周波数変化率も低い局所周波数変化率のいずれも有せず、または、一定の領域が割り当てられていることを示す確実性測度も有しないすべてのビンは、残差成分に属する。このスペクトログラムの分離の一例を図2に見ることができる。実施形態は、周波数変調音を含むオーディオ信号に対して、振幅スペクトログラムに作用する同様の方法よりも良好に機能する。
最初に、構造テンソルの概念が記述され、この一般的な概念はオーディオ処理の文脈において適用可能となるように拡張される。
以下では、表記上の便宜のために、行列およびベクトルを太字で表記している。さらに、(・)演算子は特定の要素のインデックスに使用される。この場合、行列またはベクトルはそのスカラーとしての使用を示すために非太字の文字として表記される。
まず、実施形態によるスペクトログラムの計算について説明する。オーディオ信号は、例えば(離散的な)入力オーディオ信号であってもよい。
構造テンソルは、fのサンプリング周波数による離散入力オーディオ信号
のスペクトログラム表現に適用することができる。
のスペクトル分析のために、以下の短時間フーリエ変換(STFT)が使用される。
式中、
であり、bはフレームインデックスを表し、kは周波数インデックスであり、
は長さNの窓関数である(換言すれば、Nは分析窓の長さである)。
H≦Nは、窓の分析ホップサイズを表す。STFTスペクトルはN/2にあるナイキスト点を中心とした一定の対称性を有するため、対称性は逆STFTの間に再構築することができるので、例えば、処理は0≦k≦N/2に制限することができることに留意されたい。
上記式(1)を用いることにより、スペクトログラムを得ることができる。スペクトログラムは複数のスペクトルを含み、複数のスペクトルは互いに時間的に連続する。第2のスペクトルを生成するために使用され、第1のスペクトルを生成するために使用されず、第1のスペクトルを生成するために使用される第1の時間領域サンプルよりも後の時点を参照する時間領域サンプルである少なくともいくつかの第2の時間領域サンプルが存在する場合、複数のスペクトルの第2のスペクトルは、時間的に第1のスペクトルに後続する。時間的に隣接するスペクトルを生成するために使用される時間領域サンプルの窓は、例えば、重なり合い得る。
実施形態では、分析窓の長さNは、例えば、
256サンプル≦N≦2048サンプルであるように定義することができる。
いくつかの実施形態では、分析窓の長さは、例えば、2048であってもよい。他の実施形態では、分析窓の長さは、例えば、1024サンプルであってもよい。さらなる実施形態では、分析窓の長さは、例えば768サンプルであってもよい。またさらなる実施形態では、分析窓の長さは、例えば、256サンプルであってもよい。
実施形態では、分析ホップサイズHは、例えば、分析窓の25%と75%との間の範囲にあってもよい。このような実施形態では、
0.25N≦H≦0.75Nである。
したがって、そのような実施形態では、分析窓が、例えば2048個のサンプル(N=2048)を有する場合、分析ホップサイズは、例えば、512サンプル≦H≦1536サンプルの範囲内であってもよい。
分析窓が、例えば256個のサンプル(N=256)を有する場合、分析ホップサイズは、例えば、64サンプル≦H≦192サンプルの範囲内であってもよい。
好ましい実施形態では、分析ホップサイズは、例えば、分析窓の50%であってもよい。これは、50%の2つの後続の分析窓の窓重なりに対応する。
いくつかの実施形態では、分析ホップサイズは、例えば、分析窓の25%であってもよい。これは、75%の2つの後続の分析窓の窓重なりに対応する。
他の実施形態では、分析ホップサイズは、例えば、分析窓の75%であってもよい。これは、25%の2つの後続の分析窓の窓重なりに対応する。
本発明の概念は、MDCT(修正離散コサイン変換)、MDST(修正離散サイン変換)、DSTFT(離散短時間フーリエ変換)などのような、任意の種類の時間領域からスペクトル領域への変換に適用可能であることに留意されたい。
実数値の対数スペクトログラムは、例えば、以下のように計算することができる。
オーディオ信号の振幅スペクトログラムはSとして参照され得、時間周波数ビン(b,k)の振幅スペクトログラムの値は、S(b,k)として参照され得る。
以下では、実施形態による構造テンソルの計算について説明する。
構造テンソルの計算には、Sの偏導関数が必要である。時間インデックスbに関する偏導関数は、以下によって与えられ、
一方、周波数インデックスkに関する偏導関数は次のように定義される。
ここで、dは離散微分演算子であり(例えば、中心差分についてはd=[-1,0,1]/2を選択することができる)、*は2次元畳み込みを示す。
さらに、次のように定義することができる。
式中、
は、アダマール積としても知られている点ごとの行列乗算であり、Gは、時間インデックス方向の標準偏差σおよび周波数インデックス方向の標準偏差σを有する2Dガウス平滑フィルタである。その後、構造テンソル
が、以下の2×2の対称で半正定値な行列によって与えられる。
構造テンソルは、位置(b,k)におけるスペクトログラムの優勢な向きに関する情報を含む。Gがスカラーである特殊な事例では、
は、スペクトログラムのこの位置における勾配よりも多くの情報を含まないことに留意されたい。しかし、勾配とは対照的に、構造テンソルはGによって相殺効果なしに平滑化することができ、これによって雑音に対してよりロバストになる。
構造テンソル
は、複数の時間周波数ビンの各時間周波数ビン(b,k)に対して定義されることに留意されたい。したがって、複数の時間周波数ビン、例えば時間周波数ビン(0,0);(0,1);(0,2);...(1,0);(1,1);(1,2);...が考慮される場合、複数の構造テンソル
が存在する。例えば、複数の時間周波数ビンの各時間周波数ビン(b,k)に対して、1つの構造テンソル
が決定される。
以下では、実施形態による角度および異方性測度の計算について説明する。
スペクトログラムの各ビンの向きに関する情報は、構造テンソル
の固有値λ(b,k)、μ(b,k)、λ(b,k)≦μ(b,k)、ならびに、対応する固有ベクトル
および
を計算することによって得られる。小さい方の固有値λ(b,k)に対応する固有ベクトルである
は、インデックス(b,k)のスペクトログラムにおける変化が最も低い方向を指しており、一方、
は、最高の変化の方向を指していることに留意されたい。したがって、特定のビンにおける配向の角度は、以下によって得ることができる。
および
は、固有ベクトル
の成分である。
atan()は逆タンジェント関数を示す。
さらに、異方性の測度は以下のとおりであり、
ここで、
は、各ビンについて決定することができる。
であることに留意されたい。1に近いC(b,k)の値は、インデックス(b,k)におけるスペクトログラムの高い異方性を示し、一方、一定の近傍は0に近い値をもたらす。雑音に対するロバスト性をさらに高めるために、異方性とみなされるべきものに対する限界を定める閾値
を選択することができる。
角度の物理的意味α(b,k)は、時間間隔Δtの間の瞬時周波数の変化Δfを伴う連続信号を考慮することによって理解することができる。したがって、瞬時周波数変化率Rは、以下によって示される。
例えば、実施形態によれば、構造テンソルによって得られる角度(図2の矢印の方向によって示される)は、例えば、以下の、スペクトログラムの各時間周波数ビンの局所周波数変化率に変換することができる。
各時間周波数ビンの周波数の変化は、例えば、瞬時周波数変化率と呼ぶことができる。
適用されているSTFT分析のサンプルレート、長さおよびホップサイズを考慮すると、スペクトログラムの角度と各ビンの瞬時周波数変化率R(b,k)との間の関係は、以下によって導き出すことができる。
また、離散領域σおよびσにおける平滑化フィルタGの標準偏差は、以下によって連続的な物理パラメータσおよびσに変換することができる。
以下では、構造テンソルを使用した調波打楽器残差分離について説明する。
構造テンソルを介して得られた情報は、HPR分離の問題、例えばスペクトログラムの各ビンを入力信号の調波、打楽器または残差成分のいずれかの一部として分類するために適用することができる。
実施形態は、調波成分に割り当てられたビンがどちらかと言えば水平構造に属するべきであり、一方、どちらかと言えば垂直構造に属するビンが打楽器成分に割り当てられるべきであるという知見に基づいている。さらに、どのような種類の配向構造にも属さないビンは、残差成分に割り当てられるべきである。
実施形態によれば、ビン(b,k)は、例えば、以下の2つの制約のうちの第1の制約を満たす場合、調波成分に割り当てることができる。
好ましい実施形態によれば、ビン(b,k)は、例えば、以下の2つの制約の両方を満たす場合、調波成分に割り当てることができる。
− 第1の制約は、例えば、角度α(b,k)の絶対値が閾値αよりも小さい(または閾値αと等しい)ことであり得る。閾値αは、例えば、
の範囲内にあってもよい。これは、ビンが、αより大きいまたはより小さい傾きを有しないいくつかのスペクトル構造の一部であるべきであることを意味する。このようにして、周波数変調音も、パラメータαに依存して調波成分の一部と考えることができる。
− 第2の制約は、例えば、異方性の測度C(b,k)が、ビン(b,k)がいくつかの有向異方性構造の一部であることを立証し、したがって第2の閾値cを超えることであってもよい。所与のビン(b,k)について、角度α(b,k)および異方性の測度C(b,k)はともに、極座標で与えられる
内の点を定義することに留意されたい。
同様に、実施形態では、別の角度閾値αが割り当てられて、ビンが打楽器成分(図3の垂直線で囲まれた領域330)に割り当てられるべき場合を定義する。
したがって、実施形態によれば、ビン(b,k)は、例えば、以下の2つの制約のうちの第1の制約を満たす場合、打楽器成分に割り当てることができる。
好ましい実施形態によれば、ビン(b,k)は、例えば、以下の2つの制約の両方を満たす場合、打楽器成分に割り当てることができる。
− 第1の制約は、例えば、角度α(b,k)の絶対値が閾値αよりも大きい(または閾値αと等しい)ことであり得る。閾値αは、例えば、
の範囲内にあってもよい。これは、ビンが、αより大きいまたはより小さい傾きを有しないいくつかのスペクトル構造の一部であるべきであることを意味する。このようにして、周波数変調音も、パラメータαに依存して調波成分の一部と考えることができる。
− 第2の制約は、例えば、異方性の測度C(b,k)が、ビン(b,k)がいくつかの有向異方性構造の一部であることを立証し、したがって第2の閾値cを超えることであってもよい。所与のビン(b,k)について、角度α(b,k)および異方性の測度C(b,k)はともに、極座標で与えられる
内の点を定義することに留意されたい。
最後に、実施形態では、調波および打楽器成分のいずれにも割り当てられないすべてのビンを、例えば、残差成分に割り当てることができる。
上記割り当てプロセスは、調波成分のマスクM、打楽器成分のマスクM、残差成分のマスクMを定義することによって表すことができる。
閾値αおよび閾値αを使用する代わりに、閾値は、実施形態において、パラメータの選択により良い物理的解釈を与えるために、例えば、r≧rである最大絶対周波数変化率
に関して定義されてもよいことに留意されたい。マスクは以下のように与えられる。


最後に、調波成分X、打楽器成分Xおよび残差成分XのSTFTは、以下によって得られる。
その後、対応する時間信号を、逆STFTを介して計算することができる。
図3は、構造テンソルによって計算された様々な配向/異方性値を示す。
特に、図3は、調波成分への割り当てをもたらすすべての点のサブセットを示す。特に、波線を有する領域310内の値は、調波成分への割り当てをもたらす。
垂直線を有する領域330内の値は、打楽器成分への割り当てをもたらす。
点線を有する領域320内の値は、残差成分への割り当てをもたらす。
閾値αは図3の線301を規定し、閾値αは図3の線302を規定する。
図5は、一実施形態による装置を示し、装置は、複数の時間周波数ビンの2つ以上の信号成分グループへの割り当てに応じてオーディオ出力信号を生成するように構成された信号発生器130を備える。
例えば、信号発生器は、異なる信号成分グループの時間周波数ビンの振幅値に異なる重み付け係数を適用することによって、オーディオ信号の異なる成分をフィルタリングすることができる。例えば、調波信号成分グループは、第1の重み係数wを有することができ、打楽器信号成分グループは第2の重み係数wを有することができ、残差信号成分グループは第1の重み係数wを有することができ、複数の時間周波数ビンの各時間周波数ビンの振幅値は、例えば、その時間周波数ビンが割り当てられる信号成分グループの重み係数で重み付けされる。
例えば、調波信号成分を強調するために、一実施形態では、重み係数に線形振幅値が乗算され、例えば、w=1.3、w=0.7、およびw=0.2である。
例えば、調波信号成分を強調するために、一実施形態では、重み係数が対数振幅値に加算され、例えば、w = +0.26, w = −0.35, およびw = −−1.61である。
例えば、打楽器信号成分を強調するために、一実施形態では、重み係数に線形振幅値が乗算され、例えば、w = 0.7, w = 1.3, およびw = 0.2である。
例えば、打楽器信号成分を強調するために、一実施形態では、重み係数が対数振幅値に加算され、例えば、w=−0.35,w=+0.26,およびw=−−1.61である。
したがって、信号発生器130は、複数の時間周波数ビンの各時間周波数ビンの振幅値に重み付け係数を適用して、オーディオ出力信号を得るように構成され、ここで、上記時間周波数ビンに適用される重み付け係数は、上記時間周波数ビンが割り当てられる信号成分グループに依存する。
図5の特定の実施形態では、信号プロセッサ130は、例えば、オーディオ信号をアップミックスして2つ以上のオーディオ出力チャネルを含むオーディオ出力信号を得るように構成されたアップミキサであってもよい。アップミキサは、例えば、複数の時間周波数ビンを2つ以上の信号成分グループに割り当てることに応じて2つ以上のオーディオ出力チャネルを生成するように構成することができる。
例えば、2つ以上のオーディオ出力チャネルは、上述したように異なる信号成分グループの時間周波数ビンの振幅値に異なる重み付け係数を適用することによって、オーディオ信号の異なる成分をフィルタリングすることによって、オーディオ信号から生成することができる。
しかしながら、異なるオーディオチャネルを生成するために、例えば、異なるオーディオ出力チャネルの各々に固有であり得る信号成分グループのための異なる重みが使用されてもよい。
例えば、第1のオーディオ出力チャネルの場合、対数振幅値に加算される重みは、例えば、w1h=+0.26、w1p=−0.35、およびw1r=−1.61でもよい。
また、第2のオーディオ出力チャネルの場合、対数振幅値に加算される重みは、例えば、w2h=+0.35,w2p=−0.26,およびw2r=−−1.61でもよい。
例えば、オーディオ信号をアップミックスして、正面左、中央、右、左サラウンドおよび右サラウンドの5つのオーディオ出力チャネルを得る場合、
− 調波重み付け係数w1hは、左サラウンドおよび右サラウンドオーディオ出力チャネルを生成するための調波重み付け係数w2hと比較して、左、中央、および右オーディオ出力チャネルの生成についてより大きくてもよい。
− 打楽器重み付け係数w1pは、左サラウンドおよび右サラウンドオーディオ出力チャネルを生成するための打楽器重み付け係数w2pと比較して、左、中央、および右オーディオ出力チャネルの生成についてより小さくてもよい。
個々の重み付け係数は、生成される各オーディオ出力チャネルに対して使用されてもよい。
図6は、一実施形態による、オーディオ信号を記録するための1つまたは複数のマイクロホン171、172を備える装置を示す。
図6において、第1のマイクロホン171は、オーディオ信号の第1のオーディオチャネルを記録する。任意選択の第2のマイクロホン172は、オーディオ信号の任意選択の第2のオーディオチャネルを記録する。
その上、図6の装置は、第1のオーディオチャネルを含み、任意選択的に、任意選択の第2のオーディオチャネルを含むオーディオ信号からオーディオ信号の振幅スペクトログラムを生成するための振幅スペクトログラム生成器180をさらに備える。オーディオ信号から振幅スペクトログラムを生成することは、当業者にとって周知の概念である。
以下において、実施形態の評価が考察される。
調波成分の周波数変調音の捕捉における実施形態の有効性を示すために、実施形態による構造テンソルに基づくHPR法(HPR−ST)を、[10]に提示されたメジアンフィルタリングに基づく非反復法(HPR−M)と比較する。さらに、達成可能な最大分離品質の基準として機能する理想バイナリマスク(IBM)による分離結果についてもこのメトリックが計算される。
HPR−STとHPR−Mの両方について、被試験システムパラメータを考慮して、STFTパラメータは、wに対して正弦波窓を使用してf=22050Hz、N=1024およびH=256であるように選択された。HPR−Mの分離パラメータは[10]で行われている実験のように選択した。実施形態によれば、構造テンソルは、微分演算子、例えば離散微分演算子dとしてのScharr−Operator[17]を用いて計算される。平滑化は、
および
をもたらす標準偏差σ=σ=1.4を有する9×9等方性ガウスフィルタを使用して実行された。最後に、分離の閾値がe=20、c=0.2およびr=r=10000Hz/sに設定された。
実施形態によるrおよびrの選択によれば、スペクトログラムの非常に急峻な構造でさえ、調波成分に割り当てられることに留意されたい。実施形態は、例えば図2に示すように、現実世界のビブラート音についての観察を使用する。ここでは、場合によっては歌声のビブラートが非常に高い瞬時周波数変化率を有することが分かる。さらに、r=rを選択することによって、スペクトログラム中のビンを残差成分に割り当てることは、純粋にその異方性測定に依存することに留意すべきである。
実施形態によるHPR−STの有効性は、客観的評価測度およびオーディオ例の両方によって、[10]で提示された現行技術水準のメジアンフィルタリングに基づくHPR−M方法と比較することによって評価された。
客観的結果を得るために周波数変調音を含む信号に適用した場合の実施形態によるHPR−STおよび従来技術のHPR−M挙動を比較するために、2つの試験項目が生成された。
試験項目1は純粋な合成音の重ね合わせから成る。調波音源は、基本周波数が1000Hz、ビブラート周波数が3Hz、ビブラート範囲が50Hz、および倍音が4つのビブラートトーンになるように選択された。打楽器音源については、いくつかのインパルスが使用され、一方、白色雑音は調波でも打楽器でもない残差音源を表す。
試験項目2は、歌声の実世界の信号にビブラート(調波)、カスタネット(打楽器)、および拍手(調波でも打楽器でもない)を重ね合わせることによって生成された。
これらの項目のHPR分離を音源分離問題として解釈すると、標準音源分離評価メトリックが、両方の手順の分離結果について計算されている([18]で導入されているように、音源対歪比SDR、音源対干渉比SIR、および音源対アーチファクト比SAR)。結果を表1に示す。
表1は、すべての値がdB単位で与えられている客観的評価測度を示す。
項目1について、HPR−STはビブラートトーンについて21.25dBのSDRをもたらし、それゆえ、HPR−Mの分離結果(11.51dB)よりもIBMの最適な分離結果(29.43dB)に近くなる。これは、HPR−STが、HPRMと比較して調波成分におけるこの周波数変調音の捕捉を改善することを示している。これは図4にも示されている。
図4は、合成入力信号の抜粋(項目1)に対するHPR−M法とHPR−ST法との間の比較を示す。見やすくするために、スペクトログラムは、分離アルゴリズムに使用されるものとは異なるSTFTパラメータを用いて計算された。
図4(a)は時間に対する入力信号の周波数を示す。図4には、調波成分のスペクトログラムと、両方の手順について計算された打楽器成分および残差成分の合計がプロットされている。HPR−Mについて、ビブラートトーンの急峻な勾配が残差成分へと漏洩しており(図4(b)および図4(c))、一方で、HPR−ST(図4(d)および図4(e))は良好な分離をもたらすことが分かる。これはまた、HPR−STと比較して残差成分に対するHPRMの非常に低いSIR値を説明する(−11.99dB対14.12dB)。
調波成分に対するHPR−Mの高いSIR値は、他の成分からの干渉音がほとんどないことを反映しているに過ぎず、ビブラートの音声は全体として十分に捕捉されていないことに留意されたい。一般に、項目1の観察のほとんどは、それほど顕著ではないが、項目2の現実世界の音声の混合音についても有効である。この項目では、ボーカルのHPR−MのSIR値はHPR−STのSIR値をさらに超える(20.83dB対15.61dB)。ここでも、拍手に関する低いSIR値は、ボーカルのビブラートの部分がHPR−M(1.11dB)については残差成分に漏洩していることを立証しており、一方、HPR−STの残差成分はより少ない干渉音(6.34dB)を含む。これは、実施形態がHPR−Mよりもはるかに良好に、ボーカルの周波数変調構造を捕捉することができることを示している。
結果を要約すると、周波数変調音を含む信号について、実施形態のHPR−ST概念は、HPR−Mと比較してはるかに良好な分離結果を提供する。
いくつかの実施形態は、歌声検出のために構造テンソルを使用する。(従来技術による歌声検出が[2]に記載されている)。
いくつかの態様を装置の文脈で説明してきたが、これらの態様は、対応する方法の説明も表していることは明らかであり、そこで、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明されている態様は、対応する装置の対応するブロックまたは項目または特徴の説明をも表す。方法ステップの一部または全部は、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって(またはそれを使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップの1つまたは複数は、そのような装置によって実行されてもよい。
特定の実装要件に応じて、本発明の実施形態は、ハードウェアもしくはソフトウェアにおいて、または少なくとも部分的にハードウェアにおいて、もしくは少なくとも部分的にソフトウェアにおいて実装することができる。実装態様は、電子的に読み取り可能な制御信号が記憶された、例えばフロッピーディスク、DVD、Blu−Ray、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリなどのデジタル記憶媒体を使用して実行することができ、これはそれぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)。したがって、デジタル記憶媒体はコンピュータ可読であってもよい。
本発明によるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子可読制御信号を有するデータキャリアを備える。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作するときに、方法の1つを実行するように動作する。プログラムコードは、例えば、機械可読キャリアに格納することができる。
他の実施形態は、機械可読キャリアに格納される、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
換言すれば、それゆえ、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを記録されているデータキャリア(またはデジタル記憶媒体もしくはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録媒体は、典型的には有形かつ/または非一時的である。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、例えば、データ通信接続を介して、例えば、インターネットを介して転送されるように構成することができる。
さらなる実施形態は、本明細書に記載の方法のうちの1つを実行するように構成または適合される処理手段、例えばコンピュータまたはプログラマブル論理装置を含む。
さらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールされているコンピュータを含む。
本発明によるさらなる実施形態は、本明細書で説明される方法の1つを実行するためのコンピュータプログラムを受信機に(例えば、電子的にまたは光学的に)転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。この装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含むことができる。
いくつかの実施形態では、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)を使用して、本明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書で説明する方法の1つを実行するためにマイクロプロセッサと協働することができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。
本明細書に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実装することができる。
本明細書に記載の方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実施することができる。
上述の実施形態は、本発明の原理の例示にすぎない。当業者には、本明細書に記載された構成および詳細の修正および変形が明らかになることは理解されたい。したがって、本発明は添付の特許請求の範囲によってのみ限定され、本明細書の実施形態の記述および説明によって示される特定の詳細によっては限定されないことが意図される。

Claims (17)

  1. オーディオ信号の振幅スペクトログラムを分析するための装置であって、
    前記オーディオ信号の前記振幅スペクトログラムに応じて、前記オーディオ信号の前記振幅スペクトログラムの複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するように構成された周波数変化判定器(110)と、
    前記時間周波数ビンについて判定された前記周波数の前記変化に応じて、前記複数の時間周波数ビンの各時間周波数ビンを、2つ以上の信号成分グループのうちの1つの信号成分グループに割り当てるように構成された分類器(120)と、を備える、装置。
  2. 前記周波数変化判定器(110)は、前記時間周波数ビンの角度(α(b,k))に応じて、前記複数の時間周波数ビンの各時間周波数ビンについて前記周波数の前記変化を判定するように構成されており、前記時間周波数ビンの前記角度(α(b,k))は、前記オーディオ信号の前記振幅スペクトログラムに依存する、請求項1に記載の装置。
  3. 前記周波数変化判定器(110)は、前記オーディオ信号のサンプリング周波数(f)、ならびに、分析窓の長さ(N)および前記分析窓のホップサイズ(H)にさらに依存して、前記複数の時間周波数ビンの各時間周波数ビンについて前記周波数の前記変化を判定するように構成されている、請求項2に記載の装置。
  4. 前記装置周波数変化判定器(110)は、以下の式に応じて、前記複数の時間周波数ビンの各時間周波数ビンについて前記周波数の前記変化を判定するように構成されており、

    (b,k)は前記複数の時間周波数ビンのうちの1つの時間周波数ビンを示し、
    R(b,k)は前記時間周波数ビン(b,k)の前記周波数の前記変化を示し、
    bは時間を示し、
    kは周波数を示し、
    は前記オーディオ信号の前記サンプリング周波数を示し、
    Nは前記分析窓の前記長さを示し、
    Hは前記分析窓の前記ホップサイズを示し、
    α(b,k)は前記時間周波数ビン(b,k)の前記角度を示し、
    前記角度α(b,k)は前記振幅スペクトログラムに依存する、請求項3に記載の装置。
  5. 前記周波数変化判定器(110)は、時間インデックスに関する前記オーディオ信号の前記振幅スペクトログラム(S)の偏導関数(S)を決定するように構成されており、
    前記周波数変化判定器(110)は、時間インデックスに関する前記オーディオ信号の前記振幅スペクトログラム(S)の偏導関数(S)を決定するように構成されており、
    前記周波数変化判定器110は、前記時間インデックスに関する前記オーディオ信号の前記振幅スペクトログラム(S)の前記偏導関数(S)、および、前記周波数インデックスに関する前記オーディオ信号の前記振幅スペクトログラム(S)の前記偏導関数(S)に応じて、前記複数の時間周波数ビンの時間周波数ビンの各時間周波数ビン((b,k))について構造テンソル
    を決定するように構成されており、
    前記周波数変化判定器(110)は、前記時間周波数ビン((b,k))の前記構造テンソル
    に応じて、前記複数の時間周波数ビンの各時間周波数ビン((b,k))の前記角度(α(b,k))を決定するように構成されている、請求項2〜4のいずれか一項に記載の装置。
  6. 前記周波数変化判定器(110)は、前記時間周波数ビン((b,k))の前記構造テンソル
    の固有ベクトル

    および
    の2つの成分を決定することによって、および、以下の式に従って前記時間周波数ビン((b,k)の前記角度(α(b,k))を決定することによって、前記複数の時間周波数ビンの各時間周波数ビン((b,k))の前記角度(α(b,k))を決定するように構成されており、
    α(b,k)は前記時間周波数ビン((b,k))の前記角度を示し、
    bは時間を示し、
    kは周波数を示し、
    atan()は逆タンジェント関数を示す、請求項5に記載の装置。
  7. 前記分類器120は、以下の式のうちの少なくとも1つに依存して、前記複数の時間周波数ビンの各時間周波数ビン(b,k)について異方性の測度を決定するように構成されており、
    および
    μ(b,k)は第1の固有値であり、λ(b,k)は前記時間周波数ビン(b,k)の前記構造テンソル
    の第2の固有値であり、
    であり、
    前記分類器(120)は、前記異方性の測度の前記変化にさらに依存して、前記複数の時間周波数ビンの各時間周波数ビンを、2つ以上の信号成分グループのうちの1つの信号成分グループに割り当てるように構成されている、請求項5または6に記載の装置。
  8. 前記分類器(120)は、以下の式に応じて前記時間周波数ビン(b,k)の前記異方性の測度を決定するように構成されており、

    C(b,k)は前記時間周波数ビン(b,k)について依存する前記異方性の測度であり、
    前記分類器(120)は、前記異方性の測度C(b,k)が第1の閾値cより小さい場合、前記時間周波数ビン(b,k)を前記2つ以上の信号成分グループの残差成分グループに割り当てるように構成されており、または
    前記分類器(120)は、前記異方性の測度C(b,k)が前記第1の閾値c以下である場合に、前記時間周波数ビン(b,k)を前記2つ以上の信号成分グループの前記残差成分グループに割り当てるように構成されており、
    である、請求項7に記載の装置。
  9. 前記分類器(120)は、前記複数の時間周波数ビンの各時間周波数ビンを、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))に応じて2つ以上の信号成分グループの信号成分グループに割り当てるように構成されており、結果、前記分類器(120)は、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))の絶対値(|R(b,k)|)が第2の閾値rよりも小さいか否かに応じて、または、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))の前記絶対値(|R(b,k)|)が前記第2の閾値r以下であるか否かに応じて、前記複数の時間周波数ビンのうちの1つの時間周波数ビンを、前記2つ以上の信号成分グループのうちの調波信号成分グループに割り当て、
    である、請求項1〜8のいずれか一項に記載の装置。
  10. 前記分類器(120)は、前記複数の時間周波数ビンの各時間周波数ビンを、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))に応じて2つ以上の信号成分グループの信号成分グループに割り当てるように構成されており、結果、前記分類器(120)は、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))の絶対値(|R(b,k)|)が第3の閾値rよりも大きいか否かに応じて、または、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))の前記絶対値(|R(b,k)|)が前記第3の閾値r以上であるか否かに応じて、前記複数の時間周波数ビンのうちの1つの時間周波数ビンを、前記2つ以上の信号成分グループのうちの打楽器信号成分グループに割り当て、
    である、請求項1〜8のいずれか一項に記載の装置。
  11. 前記分類器(120)は、前記複数の時間周波数ビンの各時間周波数ビンを、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))に応じて2つ以上の信号成分グループの信号成分グループに割り当てるように構成されており、結果、前記分類器(120)は、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))の絶対値(|R(b,k)|)が前記第3の閾値rよりも大きいか否かに応じて、または、前記時間周波数ビン((b,k))について判定された前記周波数の前記変化(R(b,k))の前記絶対値(|R(b,k)|)が前記第3の閾値r以上であるか否かに応じて、前記複数の時間周波数ビンのうちの1つの時間周波数ビンを、前記2つ以上の信号成分グループのうちの打楽器信号成分グループに割り当て、
    である、請求項9に記載の装置。
  12. 前記装置は、前記複数の時間周波数ビンの前記2つ以上の信号成分グループへの前記割り当てに応じてオーディオ出力信号を生成するように構成された信号発生器(130)を備える、請求項1〜11のいずれか一項に記載の装置。
  13. 前記信号発生器(130)は、前記複数の時間周波数ビンの各時間周波数ビンの振幅値に重み付け係数(w,w,w)を適用して、前記オーディオ出力信号を得るように構成され、ここで、前記時間周波数ビンに適用される前記重み付け係数(w,w,w)は、前記時間周波数ビンが割り当てられる前記信号成分グループに依存する、請求項12に記載の装置。
  14. 前記信号プロセッサ(130)は、前記オーディオ信号をアップミックスして2つ以上のオーディオ出力チャネルを含む前記オーディオ出力信号を得るように構成されたアップミキサであり
    前記アップミキサは、前記複数の時間周波数ビンを前記2つ以上の信号成分グループに前記割り当てることに応じて前記2つ以上のオーディオ出力チャネルを生成するように構成されている、請求項12または13に記載の装置。
  15. 前記装置は、前記オーディオ信号を記録するための1つまたは複数のマイクロホン(171,172)を備え、
    前記装置は、前記オーディオ信号から前記オーディオ信号の前記振幅スペクトログラムを生成するための振幅スペクトログラム生成器(180)をさらに備える、請求項1〜14のいずれか一項に記載の装置。
  16. オーディオ信号の振幅スペクトログラムを分析するための方法であって、
    前記オーディオ信号の前記振幅スペクトログラムに応じて、前記オーディオ信号の前記振幅スペクトログラムの複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するステップと、
    前記時間周波数ビンについて判定された前記周波数の前記変化に応じて、前記複数の時間周波数ビンの各時間周波数ビンを、2つ以上の信号成分グループのうちの1つの信号成分グループに割り当てるステップと、を含む、方法。
  17. コンピュータまたは信号プロセッサ上で実行されるとき、請求項16に記載の方法を実装するためのコンピュータプログラム。
JP2018549258A 2016-03-18 2017-03-16 スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法 Active JP6800995B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16161251.0 2016-03-18
EP16161251.0A EP3220386A1 (en) 2016-03-18 2016-03-18 Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms
PCT/EP2017/056257 WO2017158102A1 (en) 2016-03-18 2017-03-16 Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms

Publications (2)

Publication Number Publication Date
JP2019515323A true JP2019515323A (ja) 2019-06-06
JP6800995B2 JP6800995B2 (ja) 2020-12-16

Family

ID=55646318

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018549258A Active JP6800995B2 (ja) 2016-03-18 2017-03-16 スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法

Country Status (11)

Country Link
US (1) US10770051B2 (ja)
EP (2) EP3220386A1 (ja)
JP (1) JP6800995B2 (ja)
KR (1) KR102250624B1 (ja)
CN (1) CN109247030B (ja)
BR (1) BR112018068852A2 (ja)
CA (1) CA3017558C (ja)
ES (1) ES2788682T3 (ja)
MX (1) MX2018011104A (ja)
RU (1) RU2712652C1 (ja)
WO (1) WO2017158102A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658951B (zh) * 2019-01-08 2021-03-26 北京雷石天地电子技术有限公司 混合信号检测方法及系统
TWI783215B (zh) * 2020-03-05 2022-11-11 緯創資通股份有限公司 信號處理系統及其信號降噪的判定方法與信號補償方法
CN112150386B (zh) * 2020-09-29 2023-03-21 西安工程大学 基于对比度均值的sar图像相干斑非局部平均抑制方法
CN113203992A (zh) * 2021-04-29 2021-08-03 电子科技大学 一种多基sar的抗欺骗性干扰方法
KR102475219B1 (ko) * 2022-09-21 2022-12-07 국방과학연구소 비디오 형태의 데이터 증강에 기반한 합성 개구면 레이다의 표적 분류 장치, 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009210888A (ja) * 2008-03-05 2009-09-17 Univ Of Tokyo 音信号の分離方法
JP2010054802A (ja) * 2008-08-28 2010-03-11 Univ Of Tokyo 音楽音響信号からの単位リズムパターン抽出法、該方法を用いた楽曲構造の推定法、及び、音楽音響信号中の打楽器パターンの置換法
JP2010210758A (ja) * 2009-03-09 2010-09-24 Univ Of Tokyo 音声を含む信号の処理方法及び装置
JP2016506664A (ja) * 2012-12-21 2016-03-03 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 複数の瞬間到来方向推定を用いるインフォ−ムド空間フィルタリングのフィルタおよび方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5950734A (ja) 1982-09-16 1984-03-23 スタンレー電気株式会社 磁石式交流発電機の電圧調整装置
JPS638698A (ja) * 1986-06-27 1988-01-14 松下電器産業株式会社 リズム表示装置
US5845241A (en) * 1996-09-04 1998-12-01 Hughes Electronics Corporation High-accuracy, low-distortion time-frequency analysis of signals using rotated-window spectrograms
DE10313875B3 (de) * 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
DE102004049517B4 (de) * 2004-10-11 2009-07-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraktion einer einem Audiosignal zu Grunde liegenden Melodie
US7521622B1 (en) * 2007-02-16 2009-04-21 Hewlett-Packard Development Company, L.P. Noise-resistant detection of harmonic segments of audio signals
JP5560861B2 (ja) 2010-04-07 2014-07-30 ヤマハ株式会社 楽曲解析装置
WO2013038459A1 (ja) * 2011-09-16 2013-03-21 パイオニア株式会社 音声処理装置、再生装置、音声処理方法およびプログラム
JP2013164584A (ja) * 2012-01-12 2013-08-22 Yamaha Corp 音響処理装置
CN103680517A (zh) * 2013-11-20 2014-03-26 华为技术有限公司 一种音频信号的处理方法、装置及设备
JP6763721B2 (ja) * 2016-08-05 2020-09-30 大学共同利用機関法人情報・システム研究機構 音源分離装置
US10354632B2 (en) * 2017-06-28 2019-07-16 Abu Dhabi University System and method for improving singing voice separation from monaural music recordings

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009210888A (ja) * 2008-03-05 2009-09-17 Univ Of Tokyo 音信号の分離方法
JP2010054802A (ja) * 2008-08-28 2010-03-11 Univ Of Tokyo 音楽音響信号からの単位リズムパターン抽出法、該方法を用いた楽曲構造の推定法、及び、音楽音響信号中の打楽器パターンの置換法
JP2010210758A (ja) * 2009-03-09 2010-09-24 Univ Of Tokyo 音声を含む信号の処理方法及び装置
JP2016506664A (ja) * 2012-12-21 2016-03-03 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 複数の瞬間到来方向推定を用いるインフォ−ムド空間フィルタリングのフィルタおよび方法

Also Published As

Publication number Publication date
BR112018068852A2 (pt) 2019-01-22
EP3430612A1 (en) 2019-01-23
JP6800995B2 (ja) 2020-12-16
CA3017558A1 (en) 2017-09-21
KR20180121995A (ko) 2018-11-09
US20190012999A1 (en) 2019-01-10
CA3017558C (en) 2021-03-16
MX2018011104A (es) 2019-01-10
KR102250624B1 (ko) 2021-05-12
EP3430612B1 (en) 2020-03-25
US10770051B2 (en) 2020-09-08
RU2712652C1 (ru) 2020-01-30
CN109247030B (zh) 2023-03-10
CN109247030A (zh) 2019-01-18
EP3220386A1 (en) 2017-09-20
WO2017158102A1 (en) 2017-09-21
ES2788682T3 (es) 2020-10-22

Similar Documents

Publication Publication Date Title
Défossez et al. Demucs: Deep extractor for music sources with extra unlabeled data remixed
JP6800995B2 (ja) スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法
CN103999076B (zh) 包括将声音信号变换成频率调频域的处理声音信号的系统和方法
Chi et al. Multiresolution spectrotemporal analysis of complex sounds
JP6790114B2 (ja) 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング
CN104246796A (zh) 使用多模匹配方案的对象辨识
KR20180050652A (ko) 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용
JP2004528599A (ja) オーディトリーイベントに基づく特徴付けを使ったオーディオの比較
JP2020034624A (ja) 信号生成装置、信号生成システム、信号生成方法およびプログラム
Jeong et al. Singing voice separation using RPCA with weighted-norm
CN108369803B (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
Rupesh Kumar et al. A novel approach towards generalization of countermeasure for spoofing attack on ASV systems
Pishdadian et al. Multi-resolution common fate transform
Felipe et al. Acoustic scene classification using spectrograms
JP2017520016A (ja) パラメトリック音声合成システムに基づく声門パルスモデルの励磁信号形成方法
Mankad et al. On the performance of empirical mode decomposition-based replay spoofing detection in speaker verification systems
Vinitha George et al. A novel U-Net with dense block for drum signal separation from polyphonic music signal mixture
Dhiman et al. A Spectro-Temporal Demodulation Technique for Pitch Estimation.
Olivero et al. Sound morphing strategies based on alterations of time-frequency representations by Gabor multipliers
Janer et al. Combining a harmonic-based NMF decomposition with transient analysis for instantaneous percussion separation
McCallum Foreground Harmonic Noise Reduction for Robust Audio Fingerprinting
Solís et al. POSSIBILITIES FOR AUDIO ANALYSIS WITH NEURAL NETWORKS
Wells et al. Principal Component Analysis of Rasterised Audio for Cross-Synthesis
Remya et al. Efficient Watermarking Schemes for Speaker Verification Guaranteeing Non-repudiation
Barth et al. ELEC 301 Projects Fall 2006

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200128

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201027

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201125

R150 Certificate of patent or registration of utility model

Ref document number: 6800995

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250