JP6790114B2 - 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング - Google Patents

音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング Download PDF

Info

Publication number
JP6790114B2
JP6790114B2 JP2018549178A JP2018549178A JP6790114B2 JP 6790114 B2 JP6790114 B2 JP 6790114B2 JP 2018549178 A JP2018549178 A JP 2018549178A JP 2018549178 A JP2018549178 A JP 2018549178A JP 6790114 B2 JP6790114 B2 JP 6790114B2
Authority
JP
Japan
Prior art keywords
time
frequency
phase
bins
frequency bins
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018549178A
Other languages
English (en)
Other versions
JP2019512740A (ja
Inventor
アンドレーアス ニーダーマイアー
アンドレーアス ニーダーマイアー
リヒャルト フューク
リヒャルト フューク
サッシャ ディスヒ
サッシャ ディスヒ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2019512740A publication Critical patent/JP2019512740A/ja
Application granted granted Critical
Publication of JP6790114B2 publication Critical patent/JP6790114B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/041Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/066MPEG audio-visual compression file formats, e.g. MPEG-4 for coding of audio-visual objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/071Wave, i.e. Waveform Audio File Format, coding, e.g. uncompressed PCM audio according to the RIFF bitstream format method
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Description

本発明は、音声信号処理に関し、詳細には、スペクトログラムに基づく構造テンソルを使用して調波−打楽器−残留音を分離するための装置および方法に関する。
音をその調波成分と打楽器成分に分離できることは、多くの利用分野のための有効な前処理ステップである。
「調波−打楽器(−残留)分離」は一般的な用語であるものの、それは調波音構造が基本周波数の整数倍数の周波数を有する正弦波を伴うものであることを暗示することから、誤解を招く恐れがある。正しい用語は「音調−打楽器−(残留)分離」であるべきであるにせよ、より容易に理解できるようにするため以下では「音調(tonal)」の代りに「調波(harmonic)」なる用語を使用する。
例えば音楽の録音などの分離された打楽器成分を使用することにより、リズム楽器のビート・トラッキング(文献[1]を参照)、リズム分析および採譜の品質を改善することができる。分離された調波成分は、音程のある楽器の採譜およびコード検出のために好適である(文献[3]を参照)。その上、調波−打楽器分離は、より「スムーズな」またはより「パンチの効いた」全体的な音の知覚のいずれかを導く、両方の信号成分の間のレベル比の変更などのリミキシングの目的のために使用可能である(文献[4]を参照)。
調波−打楽器音分離のためのいくつかの方法は、調波音は入力信号の振幅スペクトログラム(magnitude spectrogram)内に水平構造(時間方向で)を有しているのに対し、打楽器音が垂直な構造(周波数方向で)として現れる、という仮定に依存している。Onoらは、時間/周波数方向での発散により調波的に/打楽器的に強化されたスペクトログラムをまず作成する方法を提示した(文献[5]を参照)。後にこれらの強化された表示を比較することによって、音が調波か打楽器のいずれであるかの決定を導くことができる。
同様の方法がFitzgeraldによっても公開されており、ここでは、強化されたスペクトログラムは発散の代りに直交方向でのメジアンフィルタリングを使用することによって計算されており(文献[6]を参照)、こうして、コンピュータ処理上の複雑性を削減しながら同様の結果が導かれる。
正弦+過渡+雑音(S+T+N)信号モデルからヒントを得て(文献[7]、[8]、[9]を参照)、フレームワークは、小さなパラメータセットを用いてそれぞれの信号成分を記述することを目的としている。Fitzgeraldの方法は、その後文献[10]において、調波−打楽器−残留(HPR)分離へと拡張された。音声信号は多くの場合、明らかに調波でも打楽器でもない音で構成されることから、この手順はこれらの音を第3の、残留成分として捕捉する。これらの残留信号のいくつかは、水平でも垂直でもない等方性(isotropic)の構造を(例えば雑音として)明らかに有するものの、明らかな水平構造を有さずそれでも音調情報を保持しかつ音の調波部分として知覚され得る音が存在する。一つの例としては、「ビブラート」を有すると言われるバイオリン演奏やボーカルの録音において発生し得るような、周波数変調された音調がある。水平または垂直のいずれかの構造を認識するストラテジーのために、上述の方法は、常にこのような音をその調波成分として捕捉することができるわけではない。
調波成分で非水平スペクトルの構造を伴う調波音を捕捉する能力を有する非負値行列因子分解に基づく調波−打楽器分離手順が、文献[11]で提案されている。しかしながら、これには、第3の残留成分は含まれていなかった。
以上のことを要約すると、近年の方法は、スペクトログラム表示において、調波音が水平構造を導き、打楽器音が垂直構造を導くという観測事実に依存している。その上、これらの方法は、水平でも垂直でもない構造(すなわち非調波音、非打楽器音)を残留カテゴリと結びつけている。しかしながら、この仮定は、音調情報をなおも保持しながら、変動するスペクトルの構造を示す周波数変調された音調のような信号については、有効でない。
画像処理において使用されるツールである構造テンソル(文献[12]、[13]を参照)が、エッジおよびコーナーの検出のためのグレースケール画像(文献[14]を参照)に対して、または物体の向きの推定に対してそこでは適用されている。構造テンソルはすでに、音声処理において、前処理および特徴抽出のために使用されてきている(文献[15]、[16]を参照)。
本発明の目的は、音声信号処理のための改良された概念を提供することにある。本発明の目的は、請求項1に係る装置によって、請求項18に係るシステムによって、請求項19に係るエンコーダによって、請求項20に係る方法によって、そして請求項21に係るコンピュータプログラムによって解決される。
音声信号の振幅スペクトログラムからの位相復元装置が提供されている。装置は、音声信号の振幅スペクトログラムに依存して、音声信号の振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されている周波数変化決定部と、複数の時間−周波数ビンについて決定された周波数の変化に依存して、複数の時間−周波数ビンについての位相値を生成するように構成されている位相復元部と、を含む。
さらに、上述の通りの位相復元装置のために音声信号の振幅スペクトログラムを生成するように構成されているエンコーダが提供されている。
さらに、音声信号の振幅スペクトログラムから位相を復元するための方法が提供されている。この方法は、
− 音声信号の振幅スペクトログラムに依存して、音声信号の振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するステップと、
− 複数の時間−周波数ビンについて決定された周波数の変化に依存して、複数の時間−周波数ビンについての位相値を生成するステップと、
を含む。
その上、コンピュータまたは信号プロセッサ上で実行されているときに、上述の方法を実装するように構成されたコンピュータプログラムが提供されている。
以下では、本発明の実施形態について図面を参照しながらより詳細に説明する。
図1は、一実施形態における音声信号の振幅スペクトログラムを分析するための装置を例示する図である。 図2は、一実施形態における拡大領域を伴う、歌声、カスタネットおよび拍手の混合のスペクトログラムを例示しており、ここで矢印の向きは方向を表わし、矢印の長さは異方性の大きさ(anisotropy measure)を表わす図である。 図3は、一実施形態における構造テンソルを使用することによってコンピュータ処理された向き/異方性の値の範囲を例示する図である。 図4は、合成入力信号の抜粋についてのHPR−MとHPR−ST法の比較を例示する図である。 図5は、信号生成部を含む、一実施形態における装置を例示する図である。 図6は、音声信号を記録するための1つ以上のマイクロホンを含む、一実施形態における装置を例示する図である。 図7は、一実施形態における位相復元装置を例示する図である。 図8は、信号生成部を含む、一実施形態における位相復元装置を例示する図である。 図9は、デコーダが一実施形態における位相復元装置である、一実施形態におけるエンコーダとデコーダとを含むシステムを例示する図である。 図10は、伝送のための振幅スペクトル(magnitude spectrum)を使用する実施形態に係る音声エンコーダおよび音声デコーダを例示する図である。
図1は、実施形態に係る音声信号の振幅スペクトログラムを分析するための装置を例示する。
装置は周波数変化決定部110を含む。周波数変化決定部110は、音声信号の振幅スペクトログラムに依存して、音声信号の振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されている。
さらに、装置は、分類部(classifier)120を含む。分類部120は、前記時間−周波数ビンについて決定された周波数の変化に依存して、2つ以上の信号成分群のうちの信号成分群に対して複数の時間−周波数ビンのうちの各々の時間−周波数ビンを割当てるように構成されている。
一実施形態によると、周波数変化決定部110は、例えば前記時間−周波数ビンについての角度(α(b,k))に依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されていてよい。前記時間−周波数ビンについての角度α(b,k)は、音声信号の振幅スペクトログラムによって左右される。
一実施形態において、周波数変化決定部110は、例えば、さらに音声信号のサンプリング周波数fsに依存して、および分析ウィンドウの長さNに依存して、および分析ウィンドウのホップサイズ(hop size)Hに依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての周波数の変化を決定するように構成されていてよい。
このような実施形態において、分類部120は、例えば、さらに異方性の大きさの変化に依存して、2つ以上の信号成分群のうちの1つの信号成分群に対して複数の時間−周波数ビンのうちの各々の時間−周波数ビンを割当てるように構成されていてよい。
以下では、実施形態の詳細な説明が提供される。
実施形態は、構造テンソルに基づく調波−打楽器−残留(HPR)音分離についての改良された概念を提供する。いくつかの実施形態は、構造テンソルにより提供されるスペクトルの構造の向きに関する情報を活用することによって、調波成分中として、音調情報を保持する周波数変調された音を捕捉する。
いくつかの実施形態は、水平および垂直への厳密な分類がこれらの信号には不適切であり、残留成分内への音調情報の漏出を導く可能性があるという発見に基づいている。実施形態は、その代わりとして、振幅スペクトログラム内の優勢な向きの角度を計算するための数学的ツールである構造テンソルを使用する新しい方法に関する。実施形態は、この向きの情報を用いて、周波数変調された信号の場合でさえ、調波、打楽器および残留信号成分を区別する。最後に、実施形態の概念の有効性は、客観的な評価の大きさならびに音声例の両方を用いて確認される。
さらに、いくつかの実施形態は、ブラックボックスとして構造テンソルを考慮できるという発見に基づいており、そこでは、入力がグレースケール画像であり、出力が、最低の変化の方向に対応する各々の画素についての角度n、および各画素についてのこの方向の確実性または異方性の大きさである。構造テンソルはさらに、平滑化される可能性を提供し、これにより、強化されたロバスト性についての雑音の影響は軽減される。その上、確実性の大きさは、推定された角度の質を決定するために使用することができる。この確実性の大きさの低い値は、いかなる明確な方向も無い一定の明るさの領域内に画素が存在することを表わす。
局所的な周波数の変化は、例えば、構造テンソルによって得られた角度から抽出され得る。これらの角度から、スペクトログラム内の時間−周波数ビンが調波成分(=低い局所的な周波数の変化)かまたは打楽器成分(=高いかまたは無限の局所的な周波数の変化)のいずれに属するかを決定することができる。
調波−打楽器−残留分類および分離のための改良された実施形態が提供される。
調波−打楽器−残留音分離は、音程のある楽器の採譜またはリズム抽出などの利用分野のための有用な前処理ツールである。厳密に水平なおよび垂直な構造だけを検索する代りに、いくつかの実施形態は、画像処理から公知である構造テンソルを使用することによって、スペクトログラム内の局所的な異方性と優勢な向きの角度も決定する。
実施形態において、スペクトルの構造の向きに関して提供された情報は、このとき、適切な閾値を設定することによって、調波、打楽器および残留信号成分を区別するために使用可能である。図2を参照されたい。
図2は、歌声、カスタネットおよび拍手の混合のスペクトログラムを例示しており、拡大領域がさらに、構造テンソルにより得られた方向(矢印の向き)および異方性の大きさ(矢印の長さ)を示している。矢印の色は、それぞれの時間−周波数ビンが、向きおよび異方性情報に基づいて、調波成分(区域210)、打楽器成分(区域230)または残留成分(区域220)のいずれに割当てられるかを表わす。
高くも低くもない局所的な周波数の変化率または一定の領域を表わす確実性の大きさを有する全てのビンは、残留成分に属するように割当てられた。スペクトログラムのこの分離についての一つの例が図2に見られる。実施形態は、振幅スペクトログラムに基づいて機能する類似の方法に比べて、周波数変調された音を含む音声信号についてより優れた成果を示す。
最初に、構造テンソルの概念について説明を行い、この一般的な概念を音声処理との関連で適応されるように拡張する。
以下では、表記の便宜上、行列およびベクトルをボールド体で記している。その上、特定の要素の指標となるように(・)演算子が使用されている。この場合、行列またはベクトルは、そのスカラの使用を示すため非ボールド体で記されている。
最初に、実施形態に係るスペクトログラムの計算を説明する。音声信号は、例えば、(離散)入力音声信号であってよい。
上述の式(1)を使用することにより、スペクトログラムを得ることができる。スペクトログラムは複数のスペクトルを含み、ここで複数のスペクトルは互いに時間的に続いて起こる。第2のスペクトルを生成するために使用されるが第1のスペクトルを生成するために使用されず、第1のスペクトルを生成するのに使用される第1の時間領域サンプルよりも遅い時点を基準にする時間領域サンプルである、少なくともいくつかの第2の時間領域サンプルが存在する場合、複数のスペクトルのうちの第2のスペクトルが時間的に第1のスペクトルの後に起こる。近傍のスペクトルを適時に生成するために使用される時間領域サンプルのウィンドウは、例えば重複してよい。
実施形態において、分析ウィンドウの長さNは、例えば、以下の通りになるように定義されてよい。
256サンプル≦N≦2048サンプル
いくつかの実施形態において、分析ウィンドウの長さは、例えば、2048であってよい。他の実施形態において、分析ウィンドウの長さは、例えば、1024サンプルであってよい。さらなる実施形態において、分析ウィンドウの長さは、例えば、768サンプルであってよい。なおさらなる実施形態において、分析ウィンドウの長さは、例えば、256サンプルであってよい。
実施形態において、分析ホップサイズHは、例えば、分析ウィンドウの25%〜75%の範囲内にあり得る。このような実施形態では、
0.25N≦H≦0.75N
である。
こうして、このような実施形態において、分析ウィンドウが、例えば、2048サンプル(N=2048)を有する場合、分析ホップサイズは、例えば、以下の範囲内にあり得る。
512サンプル≦H≦1536サンプル
分析ウィンドウが、例えば、256サンプル(N=256)を有する場合、分析ホップサイズは、例えば、以下の範囲内にあり得る。
64サンプル≦H≦192サンプル
好ましい実施形態において、分析ホップサイズは、例えば、分析ウィンドウの50%であってよい。これは、2つの後の分析ウィンドウの50%というウィンドウの重複に対応する。
いくつかの実施形態において、分析ホップサイズは、例えば、分析ウィンドウの25%であってよい。これは、2つの後の分析ウィンドウの75%というウィンドウの重複に対応する。
他の実施形態において、分析ホップサイズは、例えば、分析ウィンドウの75%であってよい。これは、2つの後の分析ウィンドウの25%というウィンドウの重複に対応する。
本発明の概念が、MDCT(修正離散コサイン変換)、MDST(修正離散サイン変換)、DSTFT(離散短時間フーリエ変換)などの、あらゆる種類の時間領域からスペクトル領域への変換について適用可能である、ということを留意しておくべきである。
音声信号の振幅スペクトログラムをSと呼び、時間−周波数ビン(b,k)についての振幅スペクトログラムの値をS(b,k)と呼ぶことができる。
以下では、実施形態に係る構造テンソルの計算について説明する。
以下では、実施形態に係る角度および異方性の大きさの計算について説明する。
atan()は、逆正接関数を表わす。
各々の時間−周波数ビンについての周波数の変化は、例えば、瞬時周波数の変化率と呼んでもよい。
以下では、構造テンソルを使用した調波−打楽器−残留分離について説明する。
構造テンソルを介して得られた情報は、例えば、入力信号の調波、打楽器または残留成分のいずれかの一部であるものとしてスペクトログラム内の各ビンを分類する目的で、HPR分離の問題に適用可能である。
実施形態は、調波成分に割当てられたビンがどちらかと言えば水平構造に属するべきであるのに対し、どちらかと言えば垂直構造に属するビンは打楽器成分に割当てられるべきである、という発見に基づくものである。その上、どの種類の向きの構造にも属さないビンは、残留成分に割当てられなければならない。
実施形態によると、ビン(b,k)は、例えば、以下の2つの制約条件のうちの第1を満たす場合、調波成分に割当てられてよい。
同様にして、実施形態において、ビンを打楽器成分に割当てなければならない場合を定義するために、別の角度閾値αpが割当てられる(図3中の垂直線を伴う区域330)。
こうして、実施形態によると、ビン(b,k)は、例えば、以下の2つの制約条件のうちの第1を満たす場合、打楽器成分に割当てられてよい。
最終的に、実施形態において、調波成分にも打楽器成分にも割当てられない全てのビンは、例えば、残留成分に割当てられてよい。
対応する時間信号はこのとき、逆STFTにより計算することができる。
図3は、構造テンソルによりコンピュータ処理される向き/異方性の値の範囲を例示する。
詳細には、図3は、調波成分に対する割当てを導く全ての点の部分集合を描いている。詳細には、波線を伴う区域310内の値は、調波成分に対する割当てを導く。
垂直線を伴う区域330内の値は、打楽器成分に対する割当てを導く。
ドットのある区域320内の値は、残留成分に対する割当てを導く。
閾値αhは図3内で線301を画定し、閾値αPは図3内で線302を画定する。
図5は、2つ以上の信号成分群に対する複数の時間−周波数ビンの割当てに依存して音声出力信号を生成するように構成されている信号生成部130を含む、一実施形態における装置を例示する。
こうして、信号生成部130は、音声出力信号を得るため、複数の時間−周波数ビンのうちの各々の時間−周波数ビンのマグニチュード値に対して重み付け係数を適用するように構成されており、ここで前記時間−周波数ビンに適用される重み付け係数は、前記時間−周波数ビンが割当てられている信号成分群に左右される。
図5の特定の実施形態において、信号プロセッサ130は、例えば、2つ以上の音声出力チャンネルを含む音声出力信号を得るため音声信号をアップミックスするように構成されたアップミキサであり得る。アップミキサは、例えば、2つ以上の信号成分群に対する複数の時間−周波数ビンの割当てに依存して、2つ以上の音声出力チャンネルを生成するように構成されていてよい。
例えば、2つ以上の音声出力チャンネルは、上述の通り、異なる信号成分群の時間−周波数ビンのマグニチュード値に対して異なる重み付け係数を適用することによって、音声信号の異なる成分を音声信号フィルタから生成されてよい。
しかしながら、異なる音声チャンネルを生成するためには、信号成分群のために、異なる音声出力チャンネルの各々について例えば固有であり得る異なる重みを使用することができる。
個別の重み付け係数を、各々の音声出力チャンネルの生成のために使用することができる。
図6は、音声信号を記録するための1つ以上のマイクロホン171、172を含む、一実施形態における装置を例示する。
図6において、第1のマイクロホン171は、音声信号の第1の音声チャンネルを記録する。オプションの第2のマイクロホン172は、音声信号のオプションの第2の音声チャンネルを記録する。
さらに、図6の装置は、第1の音声チャンネルを含みオプションで第2の音声チャンネルを含む音声信号から音声信号の振幅スペクトログラムを生成するための、振幅スペクトログラム生成部180をさらに含んでいる。音声信号から振幅スペクトログラムを生成することは、当業者にとっては周知の概念である。
以下では、実施形態の評価を検討する。
調波成分内の周波数変調された音の捕捉における実施形態の有効性を示すため、実施形態に係る構造テンソルに基づいたHPR方法(HPR−ST)は、文献[10]に提示されているメジアンフィルタリングに基づく非反復法(HPR−M)と比較される。さらに、最大到達可能な分離品質のための基準として役立っているイデアル2進マスク(IBM)を用いて分離結果についての測定規準も同様にコンピュータ処理される。
実施形態に係るHPR−STの有効性は、客観的な評価の大きさならびに音声例の両方を用いて、文献[10]に提示されている現状の技術のメジアンフィルタリングに基づく方法HPR−Mと比較することによって、評価された。
客観的な結果を得るために周波数変調された音を含む信号に適用された場合の実施形態に係るHPR−STおよび先行技術のHPR−Mの動きを比較するために、2つのテスト項目が設定された。
テスト項目1は、純粋な合成音の重畳で構成されている。調波源は、1000Hzの基本周波数、3Hzのビブラート周波数、50Hzのビブラート範囲および4倍音を有するビブラート音調として選択された。打楽器源については、複数のインパルスが使用される一方で、ホワイトノイズは、調波でも打楽器でもない残留源を表わす。
テスト項目2は、実世界での歌声の信号をビブラート(調波)、カスタネット(打楽器)および拍手(調波でも打楽器でもない)とスーパーインポーズすることによって生成された。
これらの項目のHPR分離を音源分離の問題として解釈して、両方の手順の分離結果について、標準音源分離評価測定規準がコンピュータ処理されてきた(文献[18]中で紹介されているような音源対歪比SDR、音源対干渉比SIRおよび音源対アーチファクト比SAR)。結果が表1に示されている。
表1は、客観的な評価の大きさが描かれ、表中全ての値はdB単位で示されている。
項目1については、HPR−STがビブラート音調について21.25dBのSDRを生み出し、したがって、HPR−Mの分離結果(11.51dB)よりもIBMの最適分離結果(29.43dB)の方に近い。これは、HPR−STが、HPRMに比べて、調波成分内のこの周波数変調された音の捕捉時点で改善することを表わしている。これは図4でも見られる。
図4は、合成入力信号の抜粋についてのHPR−MとHPR−ST法の比較を例示している(項目1)。強化された可視性について、スペクトログラムは、分離アルゴリズムのために使用されたものとは異なるSTFTパラメータを用いて計算された。
図4(a)は、時間との関係における入力信号の周波数を例示している。図4では、両方の手順についてコンピュータ処理された調波成分および打楽器および残留成分の和のスペクトログラムがプロットされている。HPR−Mについては、ビブラート音調の急勾配傾斜が残留成分内に漏出している(図4(b)および(c))のに対して、HPR−ST(図4(d)および(e))は良好な分離を生み出している、ということが分かる。このことは同様に、HPR−STに比べてHPRMでは残留成分についてのSIR値が非常に低いこと(−11.99dB対14.12dB)も説明している。
調波成分のみについてのHPR−Mの高いSIR値は、ビブラート音が全体としてうまく捕捉されていることではなく、他の成分からの干渉音がほとんど存在しないことを反映している、ということを留意しておくべきである。概して、項目1についての観察事実の大部分は、さほど顕著ではないが、項目2内の実世界の音の混合についても有効である。この項目については、ボーカルのHPR−MのSIR値は、HPR−STのSIR値を上回ってさえいる(20.83dB対15.61dB)。ここでもまた、拍手についての低いSIR値は、ボーカル内のビブラート部分がHPR−Mについての残留成分内に漏出しており(1.11dB)、その一方でHPR−STの残留成分が含む干渉音は比較的低いものである(6.34dB)ということを裏付けている。このことは、実施形態が、ボーカルの周波数変調された構造を、HPR−Mよりもはるかにうまく捕捉する能力を有していたことを表わしている。
結果をまとめると、周波数変調された音調を含む信号について、実施形態のHPR−ST概念は、HPR−Mに比べてはるかに優れた分離結果を提供する。
いくつかの実施形態では、歌声検出のために構造テンソルが利用される(先行技術に係る歌声検出については、文献[2]中に記載されている)。
以下では、実施形態の別の態様が説明されている。このさらなる態様は、振幅スペクトログラムからの位相の復元に関係する。
図7は、一実施形態における音声信号の振幅スペクトログラムからの位相復元装置を例示する。
装置は、音声信号の振幅スペクトログラムに依存して、音声信号の振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されている周波数変化決定部110を含む。
さらに、装置は、複数の時間−周波数ビンについて決定された周波数の変化に依存して、複数の時間−周波数ビンについての位相値を生成するように構成されている位相復元部140を含む。
実施形態によると、位相復元部140は、例えば、周波数の変化を2回積分することにより(時間で2回積分することにより)複数の時間−周波数ビンの各々の時間−周波数ビンについて位相値を生成するように構成されていてよい。換言すると、実施形態において、位相復元部140は、時間で2回積分することによって、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて位相値を生成するように構成されている。したがって、換言すると、積分が2回行なわれる間隔(単数または複数)は、スペクトログラムの時間軸に沿って延在する。
他の実施形態によると、位相復元部140は、周波数で2回積分することにより(スペクトル的に2回積分することにより)、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて位相値を生成するように構成されている。したがって、換言すると、積分が2回行なわれる間隔(単数または複数)は、スペクトログラムの周波数軸に沿って延在する。例えば、2回行なわれる周波数に渡る積分は、例えば、式(30)および(31)に基づいて行なわれてよい。
実施形態において、周波数変化決定部110は、例えば、時間−周波数ビンについての角度α(b,k)に依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されていてよく、ここで、前記時間−周波数ビンについての角度α(b,k)は、音声信号の振幅スペクトログラムによって左右される。
実施形態によると、周波数変化決定部110は、例えば、さらに音声信号のサンプリング周波数fsに依存して、および分析ウィンドウの長さNに依存して、および分析ウィンドウのホップサイズHに依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての周波数の変化を決定するように構成されていてよい。
実施形態によると、位相復元部140は、複数の時間−周波数ビンについて決定された周波数の変化に依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて位相値を生成するように構成されていてよい。
実施形態において、位相復元部140は、例えば、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて決定された周波数の変化に依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビン(b,k)について異方性の大きさを決定するように構成されていてよい。
実施形態によると、位相復元部140は、例えば、位相の復元が行なわれるか否かに関わらず、異方性の大きさに依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて、位相復元モードを決定するように構成されていてよい。
位相復元部140は、例えば、前記時間−周波数ビンについて位相復元部140が決定した位相復元モードが第1のモードを表わしている場合には、周波数の変化を2回積分することにより複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて位相値を生成するように構成されていてよい。さらに、位相復元部140は、例えば、前記時間−周波数ビンについて位相復元部140が決定した位相復元モードが、第1のモードと異なるものである第2のモードを表わしている場合には、周波数の変化を2回積分することにより複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相を決定するように構成されていてよい。
実施形態において、位相復元部140は、例えば、異方性の大きさが下方閾値cよりも大きい場合には位相復元モードが第1のモードを表わし、前記時間−周波数ビン(b,k)についての異方性の大きさが下方閾値c以下である場合には、位相復元モードが第2のモードを表わすように、複数の時間−周波数ビンのうちの各々の時間−周波数ビン(b,k)について位相復元モードを決定するように構成されていてよい。
実施形態において、上方閾値および下方閾値cは、例えば、等しいものであってよい。
あるいは、位相復元部140は、前記時間−周波数ビン(b,k)についての異方性の大きさが閾値c以上である場合には位相復元モードが第1のモードを表わし、異方性の大きさが閾値cより小さい場合には、位相復元モードが第2のモードを表わすように、複数の時間−周波数ビンのうちの各々の時間−周波数ビン(b,k)について位相復元モードを決定するように構成されている。
第1のモードは、例えば、時間−周波数ビンが調波または打楽器信号成分群に属することを表わす場合がある。
第1のモードは、例えば、時間−周波数ビンが残留信号成分群に属することを表わす場合がある。
以下では、特定の実施形態に係る位相推定についてより詳細に説明する。
所与の振幅スペクトログラムからの位相情報を推定する作業用のアルゴリズムが、文献[19]および[20]で提案されている。しかしながら、これらのアルゴリズムは、計算複雑性が高いか、または一般的な音声信号用としては知覚可能な品質が不十分であるという状況を導く。
振幅スペクトログラムから位相情報を推定することは、例えば、デコーダにおいて位相が修復されている間にエンコーダが振幅のみを伝送する音声コーディングにおいて使用可能と考えられる作業である。一定の音調信号についてさえスペクトルが経時的な変動を示す現状の技術のMDCTに基づくコーディングと比べて、(例えば、DFT、またはMCLTとして知られるCMDCTの)振幅スペクトルは、はるかに安定しており、これにより経時的なビットレート効率の高い差分コーディング(文献[21]を参照)および有効なマルチチャンネル冗長性削減が可能になる。
こうして、周波数の変化率を2回積分することにより現在の位相を得ることができる。離散領域内で機能する我々のアルゴリズムについては、この積分は総和へと変わる。各々のスペクトログラムビンが局所的な線形チャープ信号に対応すると仮定すると、構造テンソルにより推定される局所的な周波数の変化は、このとき、各局所的なチャープについてRに対応する。その上、構造テンソルを介して得られる異方性の大きさを使用して、いかなる明示的な信号モデルも事前の意味的な分類も無く、局所的な周波数の変化率の求められる積分を行なうことが可能である。
高い異方性の大きさは、スペクトログラム内の音調または打楽器成分などの有向構造に対応することから、結果として、それは、ランダム位相が仮定され得る等方性の雑音領域とは対照的に、位相の復元が可能である領域に対応する。
ここではこれについて、より詳細に説明する。
これはすなわち、先行の分析ブロックにおける位相および瞬時周波数、さらには一定の周波数の変化R0が分かっている場合、分析ブロックbにおける位相φ(bH)を計算することができることを意味している。
例えばインパルスなどの過渡信号のために、これらの数式および式の双対(dual)を計算することができるという点に留意されたい。ただし、そこでは、一定の分析ブロックbのスペクトル位相ψ(k)=arg(X(b、k))内の周波数指標kとの関係において有限差分が行なわれなければならない。
式(27)および式(29)についての双対の数式を、この事例について演繹することができる。
実施形態によると、振幅スペクトルからの位相の復元のためのアルゴリズムが、構造テンソルにより得られた局所的な周波数の変化率の推定値を使用して、以上に説明された通りに提供される。
それぞれ線形の周波数変化を有する局所的な線形チャープ信号に対応する各々のスペクトログラムビンを仮定すると、このとき、構造テンソルにより推定される局所的な周波数の変化R(b、k)は、先行の節で説明されているようにチャープ率または局所的な線形周波数変化R0に対応する。このことはすなわち、構造テンソルによって得られる優勢な方向を、時間指標bとの関係においてかつ一部の乗法定数まで、φbb(b)の第2の導関数のための平滑化されたロバストな推定値として見ることができる、ということを意味する。
この推定値を使用して、このとき、信号の現在の位相を計算するために、式(29)を使用することができる。より複雑な周波数変調を伴う信号についてさえ1つのビンの範囲内でのみ線形の周波数の変化が仮定されることから、位相推定値を得ることができる。瞬時周波数ならびに初期位相は、予め既知である(例えばサイド情報として伝送される)かまたは異なる方法で推定されなければならない、ということに留意すべきである。特に、瞬時周波数は、振幅スペクトルの導関数またはQFFTなどの内挿を使用して推定可能である。
式(29)は、分析ブロック方向bへと厳密に加算する和を示すものの、より高度なアルゴリズムでは、和はスペクトログラム内の信号のメインローブ(main lobe)の軌道をたどらなければならない、ということに留意すべきである。したがって、総和の方向で暗示的または明示的のいずれかで構造テンソルを介して得られた方向情報と局所的な周波数の変化率をそれぞれ取込む必要がある可能性がある。これにより、推定された位相が周波数指標のk方向および分析ブロック指標のb方向での和の結果の重畳となる可能性がある。
その上、式(29)を介して計算された式が、式(25)に示されている正弦の独立変数に対応する、ということに留意すべきである。これはスペクトル表示内で観察される位相に対する高い対応性を有するにせよ、各ビン(例えばスペクトルのサイドローブ(side lobe))についての位相を正しく合成するためには、さらなる知識(例えば、位相に依存しているスペクトルの分析式)を使用する必要があるかもしれない。
その上、構造テンソルを介して得られる異方性の大きさを使用して、いかなる明示的な信号モデルも事前の意味的な分類も無く、局所的な周波数の変化率の必要な積分を行なうことが可能である。高い異方性の大きさは、スペクトログラム内の音調または打楽器成分などの有向構造に対応することから、結果として、それは、ランダム位相が仮定され得る等方性の雑音領域とは対照的に、位相の復元が可能である領域に対応する。
その上、単音色信号(monotimbral signal)にアルゴリズムを限定する必要はない。
実施形態は、先行技術に比べた利点を達成する。例えば、一部の実施形態は、コンピュータ処理に関して適度な複雑性を示す(例えば、文献[19]の場合より低い)。さらに、一部の実施形態は、周波数変調された信号について文献[20]の場合よりも優れた位相推定を示す。
一部の実施形態は、信号成分の固有の分類を実現する。
例えば、一部の実施形態によると、調波信号成分について位相推定が可能であり、打楽器信号成分について位相推定が可能であるが、残留信号成分および/または雑音の信号成分について位相推定は不可能である。
以下では、音声コーディングの利用分野が考慮される。
音声コーデックを設計するにあたっては、フィルタバンクの選択が極めて重要なステップである。最新のコーデックは、多くの場合、量子化の不在下で臨界的にサンプリングされた完璧な復元でありながら、50%の重複を提供することを理由としてMDCT(修正離散コサイン変換)を使用する。コーディングの利用分野では、これらの特性は、伝送すべきスペクトル係数のためのデータ量を低く保ちながらブロッキングアーチファクトを削減する。MDCTの不利な点は、定常信号についてさえ、経時的にスペクトル変動を示すことにある。これにより、先に伝送されたMDCTスペクトルの情報が現在のMDCTスペクトルの復元において限定的にしか使用できないことから、例えばスペクトル係数の差分コーディングについてコーディング利得の損失が導かれる。
スペクトルの大きさ(magnitude of a spectrum)、例えば50%重複するMCLT(変調複素重複変換)フィルタバンクの大きさは、特に定常信号について、経時的にはるかに安定していることから、実施形態は、位相の復元のための上述の概念に基づいたコーデックの設計を提供する 文献[21]。
実施形態によると、エンコーダは、例えば1フレームなどの一定時間の間隔についての複素スペクトルX(f)を得るために分析フィルタバンクを使用してPCM入力信号x(t)の時間周波数分解を行なう。X(f)は、サイド情報を抽出するために使用される。
実施形態において、サイド情報は、例えば、過渡信号および/または初期位相の基本周波数および/または時間位置(例えば一定の間隔での)および/または現在の信号クラスについての情報などを含む。
次に、X(f)の大きさは|Y(f)|に量子化され、サイド情報と共にデコーダに伝送される。次にデコーダは、サイド情報ならびに量子化された振幅スペクトル|Y(f)|を使用して、上述のように、元の複素スペクトルX(f)の位相を推定する。この推定された位相を使用して、X(f)と共通点の多いはずの複素スペクトルY(f)を得ることができる。Y(f)は次に、時間領域出力信号y(t)を得るため、合成フィルタバンクに送り込まれる。提案されたMCLTフィルタバンクを用いて、このようなコーデックは、定常信号の差動コーディングのより効率の良い可能性を提供しながら、重複および臨界サンプリングなどの望ましい特徴をなおも示す。
図8は、信号生成部150を含む上述の実施形態の1つに係る位相復元装置を例示する。信号生成部150は、音声信号の振幅スペクトログラムに依存して、かつ複数の時間−周波数ビンについての位相値に依存して、音声出力信号を生成するように構成されている。
例えば、振幅スペクトログラムは、特定の時間−周波数ビンについての振幅値を提供し、特定の時間−周波数ビンについての位相値は、位相復元部140によってすでに復元されている。
図9は、一実施形態におけるエンコーダ210およびデコーダ220を含むシステムを例示しており、ここでデコーダ220は、上述の実施形態の1つに係る位相復元装置である。
エンコーダ210は、音声信号の振幅スペクトログラムを符号化するように構成されている。
デコーダ220は、音声信号の振幅スペクトログラムに依存して、音声信号の振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されている。
さらに、デコーダ220は、複数の時間−周波数ビンについて決定された周波数の変化に依存して、複数の時間−周波数ビンについての位相値を生成するように構成されている。
その上、デコーダ220は、音声信号の振幅スペクトログラムを使用し、かつ複数の時間−周波数ビンについての位相値を使用して、音声信号を復号化するように構成されている。
図10は、伝送のために振幅スペクトルを使用する、実施形態に係る音声エンコーダ210および音声デコーダ220を例示する。
音声エンコーダ210は、上述のような位相復元装置のために音声信号の振幅スペクトログラムを生成するように構成されている。図10では、デコーダ220は、例えば、上述のような位相復元装置であり得る。
いくつかの態様が装置に関連して説明されてきたが、これらの態様が、対応する方法の説明も表わしていることは明らかであり、そこでは、ブロックまたはデバイスが、方法ステップまたは方法ステップの特徴に対応する。同様にして、方法ステップに関連して説明された態様は同様に、対応する装置の対応するブロックまたは品目または特徴の説明も表わす。方法ステップの一部または全ては、ハードウェア装置、例えばマイクロプロセッサ、プログラマブルコンピュータ、または電子回路などによって(またはこれらを使用して)実行されてよい。一部の実施形態において、最も重要な方法ステップの1つ以上をこのような装置により実行してもよい。
一定の実装の要件に依存して、本発明の実施形態をハードウェアまたはソフトウェアあるいは、少なくとも部分的にハードウェアまたは少なくとも部分的にソフトウェアで実装することができる。実装は、それぞれの方法が行なわれるようにプログラマブルコンピュータシステムと協働し(または協働する能力を有し)、そこに記録された電子的に可読の制御信号を有する、例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリなどのデジタル記憶媒体を使用して行なうことができる。したがって、デジタル記憶媒体は、コンピュータ可読であってよい。
本発明に係る一部の実施形態は、本明細書中に記載の方法の1つが行なわれるようにプログラマブルコンピュータシステムと協働する能力を有する電子的に可読の制御信号を有するデータキャリアを含む。
概して、本発明の実施形態は、プログラムコードを伴うコンピュータプログラムプロダクトとして実装され得、このプログラムコードは、コンピュータプログラムプロダクトがコンピュータ上で実行されるとき、方法のうちの1つを行なうのに有効であり得る。プログラムコードは、例えば、機械可読キャリア上に記憶されてよい。
他の実施形態は、機械可読キャリア上に記憶された、本明細書中に記載の方法のうちの1つを行なうためのコンピュータプログラムを含む。
換言すると、発明に関する方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるとき、本明細書中に記載の方法のうちの1つを行なうためのプログラムコードを有するコンピュータプログラムである。
発明に関する方法のさらなる実施形態は、したがって、本明細書中に記載の方法のうちの1つを行なうためのコンピュータプログラムを記録して含むデータキャリア(すなわちデジタル記憶媒体またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録された媒体は、典型的に有形かつ/または非一時的である。
発明に関する方法のさらなる実施形態は、したがって、本明細書中に記載の方法のうちの1つを行なうためのコンピュータプログラムを表わすデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えばインターネットを介してなどのデータ通信接続を介して転送されるように構成されていてよい。
さらなる実施形態は、本明細書中に記載の方法のうちの1つを行なうように構成されたまたはそのように適応された処理手段、例えばコンピュータまたはプログラマブル論理デバイスを含む。
さらなる実施形態は、本明細書中に記載の方法のうちの1つを行なうためのコンピュータプログラムがインストールされたコンピュータを含む。
本発明に係るさらなる実施形態は、本明細書中に記載の方法のうちの1つを行なうためのコンピュータプログラムをレシーバに転送する(例えば電子的にまたは光学的に)ように構成された装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、例えば、レシーバに対してコンピュータプログラムを転送するためのファイルサーバを含んでいてよい。
一部の実施形態において、プログラマブル論理デバイス(例えばフィールドプログラマブルゲートアレイ)は、本明細書中に記載の方法の機能のいくつかまたは全てを行なうために使用されてよい。一部の実施形態において、フィールドプログラマブルゲートアレイは、マイクロプロセッサと協働して、本明細書中に記載の方法のうちの1つを行なうことができる。概して、本方法は、好ましくは任意のハードウェア装置によって行なわれる。
本明細書中に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組合せを使用して実装されてよい。
本明細書中に記載の方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組合せを使用して行なわれてよい。
上述の実施形態は、本発明の原理を単に例示しているにすぎない。本明細書中に記載の配置および詳細の修正および変形形態が当業者にとっては明白であるということが理解される。したがって、本明細書中の実施形態の描写および説明として提示された具体的詳細によってではなく、以下の特許請求の範囲によってのみ限定されることが意図されているところである。
110 周波数変化決定部
140 位相復元部
150 信号生成部
210 エンコーダ
220 デコーダ

Claims (21)

  1. 音声信号の振幅スペクトログラムから位相復元するための装置であって、
    前記音声信号の前記振幅スペクトログラムに依存して、前記音声信号の前記振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成され周波数変化決定部(110)と、
    前記複数の時間−周波数ビンについて決定された周波数の変化に依存して、前記複数の時間−周波数ビンについての位相値を生成するように構成され位相復元部(140)と、
    を含む、装置。
  2. 前記位相復元部(140)は、前記周波数の変化を2回積分することにより前記複数の時間周波数ビンの各々の時間−周波数ビンについての前記位相値を生成するように構成される、
    請求項1に記載の装置。
  3. 前記周波数変化決定部(110)は、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて前記周波数の変化を、当該時間−周波数ビンについての角度(α(b,k))に依存して決定するように構成され、
    当該時間−周波数ビンについての前記角度(α(b,k))、前記音声信号の前記振幅スペクトログラムに依存する、
    請求項1〜3の1に記載の装置。
  4. 前記周波数変化決定部(110)は、さらに前記音声信号のサンプリング周波数(fs)に依存して、および分析ウィンドウの長さ(N)に依存して、および前記分析ウィンドウのホップサイズ(H)に依存して、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての前記周波数の変化を決定するように構成される
    請求項4に記載の装置。
  5. 前記位相復元部(140)は、前記複数の時間−周波数ビンについて決定された前記周波数の変化に依存して、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相値を生成するように構成される、請求項1〜8の1に記載の装置。
  6. 前記位相復元部(140)は、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて決定された前記周波数の変化に依存して、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビン(b,k)について異方性の大きさを決定するように構成される、請求項7または8に記載の装置。
  7. 前記位相復元部(140)は、位相の復元が行なわれるか否かに関わらず、前記異方性の大きさに依存して、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて、位相復元モードを決定するように構成され、
    前記位相復元部(140)は、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相値を、前記位相復元部(140)が当該時間−周波数ビンについて決定した前記位相復元モードが第1のモードを表わしている場合には、前記周波数の変化を2回積分することによって生成するように構成され、
    前記位相復元部(140)は、前記位相復元部(140)が当該時間−周波数ビンについて決定した位相復元モードが前記第1のモードと異なる第2のモードを表わしている場合には、前記周波数の変化を2回積分することによって前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相を決定するように構成される
    請求項9〜12の1に記載の装置。
  8. 前記位相復元部(140)は、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての前記位相復元モードを、当該時間−周波数ビン((b,k))についての前記異方性の大きさが下側閾値(c)よりも大きい場合には前記位相復元モードが前記第1のモードを表わし、当該時間−周波数ビン((b,k))についての前記異方性の大きさが前記下側閾値(c)以下である場合には前記位相復元モードが前記第2のモードを表わすように決定するように構成される、または、
    前記位相復元部(140)は、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相復元モードを、当該時間−周波数ビン((b,k))についての前記異方性の大きさが前記下側閾値(c)以上である場合には前記位相復元モードが前記第1のモードを表わし、当該時間−周波数ビン((b,k))についての前記異方性の大きさが前記下側閾値(c)より小さい場合には前記位相復元モードが前記第2のモードを表わすように決定するように構成される
    請求項13に記載の装置。
  9. 前記位相復元部(140)は、周波数にわたって2回積分することにより、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相値を生成するように構成される
    請求項1〜14の1に記載の装置。
  10. 前記位相復元部(140)、経時的に2回積分することにより、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相値を生成するように構成される
    請求項1〜15の1に記載の装置。
  11. 前記装置は、前記音声信号の前記振幅スペクトログラムに依存して、かつ前記複数の時間−周波数ビンについての前記位相値に依存して、音声出力信号を生成するように構成され信号生成部(150)を含む、請求項1〜16の1に記載の装置。
  12. 音声信号の振幅スペクトログラムを符号化するためのエンコーダ(210)と、
    請求項1〜17の1項に記載の装置である、前記音声信号を復号化するためのデコーダ(220)と、
    を含むシステムであって、
    前記デコーダ(220)は、前記音声信号の前記振幅スペクトログラムに依存して、前記音声信号の前記振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての周波数の変化を決定するように構成され、
    前記デコーダ(220)は、前記複数の時間−周波数ビンについて決定された前記周波数の変化に依存して、前記複数の時間−周波数ビンについての位相値を生成するように構成され、
    前記デコーダ(220)は、前記音声信号の前記振幅スペクトログラムを使用して、且つ、前記複数の時間−周波数ビンについての位相値を使用して、前記音声信号を復号化するように構成される、
    システム。
  13. 請求項1〜17の1に記載の位相復元装置のための、音声信号の振幅スペクトログラムを生成するように構成されるエンコーダ(210)。
  14. 音声信号の振幅スペクトログラムから位相を復元するための方法であって、
    前記音声信号の前記振幅スペクトログラムに依存して、前記音声信号の前記振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するステップと、
    前記複数の時間−周波数ビンについて決定された前記周波数の変化に依存して、前記複数の時間−周波数ビンについての位相値を生成するステップと、
    を含む、方法。
  15. コンピュータまたは信号プロセッサ上で実行されているときに、請求項20に記載の方法を実装するためのコンピュータプログラム。
JP2018549178A 2016-03-18 2017-03-16 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング Active JP6790114B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16161230.4 2016-03-18
EP16161230 2016-03-18
PCT/EP2017/056263 WO2017158105A1 (en) 2016-03-18 2017-03-16 Encoding by reconstructing phase information using a structure tensor on audio spectrograms

Publications (2)

Publication Number Publication Date
JP2019512740A JP2019512740A (ja) 2019-05-16
JP6790114B2 true JP6790114B2 (ja) 2020-11-25

Family

ID=55646317

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018549178A Active JP6790114B2 (ja) 2016-03-18 2017-03-16 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング

Country Status (7)

Country Link
US (1) US10607630B2 (ja)
EP (1) EP3430620B1 (ja)
JP (1) JP6790114B2 (ja)
CN (1) CN109247069B (ja)
BR (1) BR112018068892A2 (ja)
RU (1) RU2714579C1 (ja)
WO (1) WO2017158105A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10664715B2 (en) * 2018-03-16 2020-05-26 University Of Wolverhampton Computer-implemented print analysis
DE102019205543A1 (de) * 2019-04-17 2020-10-22 Robert Bosch Gmbh Verfahren zum Klassifizieren zeitlich aufeinanderfolgender digitaler Audiodaten
CN110246510B (zh) * 2019-06-24 2021-04-06 电子科技大学 一种基于RefineNet的端到端语音增强方法
JP7218688B2 (ja) * 2019-07-24 2023-02-07 日本電信電話株式会社 位相推定装置、位相推定方法、およびプログラム
CN111312258A (zh) * 2019-12-16 2020-06-19 随手(北京)信息技术有限公司 用户的身份认证方法、装置、服务器及存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2759646B2 (ja) * 1985-03-18 1998-05-28 マサチユ−セツツ インステイテユ−ト オブ テクノロジ− 音響波形の処理
ATE527654T1 (de) 2004-03-01 2011-10-15 Dolby Lab Licensing Corp Mehrkanal-audiodecodierung
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
JP5294300B2 (ja) * 2008-03-05 2013-09-18 国立大学法人 東京大学 音信号の分離方法
ES2898865T3 (es) 2008-03-20 2022-03-09 Fraunhofer Ges Forschung Aparato y método para sintetizar una representación parametrizada de una señal de audio
EP4231291B1 (en) * 2008-12-15 2023-11-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension decoder, corresponding method and computer program
AU2013203159B2 (en) * 2008-12-15 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder and bandwidth extension decoder
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
JP2013057895A (ja) * 2011-09-09 2013-03-28 Research Organization Of Information & Systems 音声再生装置、音声再生方法及びコンピュータプログラム
JP2013114009A (ja) * 2011-11-29 2013-06-10 Honda Motor Co Ltd 能動型振動騒音制御装置
JP5898534B2 (ja) * 2012-03-12 2016-04-06 クラリオン株式会社 音響信号処理装置および音響信号処理方法
JP2013197815A (ja) * 2012-03-19 2013-09-30 Nippon Telegr & Teleph Corp <Ntt> 変調光源および変調信号の生成方法
US10497381B2 (en) * 2012-05-04 2019-12-03 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
EP2747451A1 (en) 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
US20170178664A1 (en) * 2014-04-11 2017-06-22 Analog Devices, Inc. Apparatus, systems and methods for providing cloud based blind source separation services
CN104240695A (zh) * 2014-08-29 2014-12-24 华南理工大学 一种优化的基于耳机重放的虚拟声合成方法
CN104616659B (zh) * 2015-02-09 2017-10-27 山东大学 相位对重构语音声调感知影响方法及在人工耳蜗中应用

Also Published As

Publication number Publication date
US20190019529A1 (en) 2019-01-17
CN109247069B (zh) 2021-12-21
RU2714579C1 (ru) 2020-02-18
US10607630B2 (en) 2020-03-31
WO2017158105A1 (en) 2017-09-21
EP3430620B1 (en) 2020-03-25
EP3430620A1 (en) 2019-01-23
JP2019512740A (ja) 2019-05-16
CN109247069A (zh) 2019-01-18
BR112018068892A2 (pt) 2019-01-22

Similar Documents

Publication Publication Date Title
JP6790114B2 (ja) 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング
US11817110B2 (en) Cross product enhanced subband block based harmonic transposition
TWI587289B (zh) 用以決定用於音訊信號之相位校正資料的計算器及方法
KR101572034B1 (ko) 파라메트릭 오디오 코딩 방식들의 포렌식 검출
KR102095385B1 (ko) 고주파 복원 동안 오디오 신호들의 프로세싱
CA2867069C (en) Apparatus and method for converting an audio signal into a parameterized representation, apparatus and method for modifying a parameterized representation, apparatus and method for synthesizing a parameterized representation of an audio signal
JP6800995B2 (ja) スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法
DK2843659T3 (en) PROCEDURE AND APPARATUS TO DETECT THE RIGHT OF PITCH PERIOD
CN105556602A (zh) 用于高频重构算法的频带表设计
AU2015202647B2 (en) Cross product enhanced subband block based harmonic transposition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200114

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201104

R150 Certificate of patent or registration of utility model

Ref document number: 6790114

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250