JP2020512594A - 音響信号のスペクトル強調処理に関する所定の特性を決定するための装置および方法 - Google Patents

音響信号のスペクトル強調処理に関する所定の特性を決定するための装置および方法 Download PDF

Info

Publication number
JP2020512594A
JP2020512594A JP2019553539A JP2019553539A JP2020512594A JP 2020512594 A JP2020512594 A JP 2020512594A JP 2019553539 A JP2019553539 A JP 2019553539A JP 2019553539 A JP2019553539 A JP 2019553539A JP 2020512594 A JP2020512594 A JP 2020512594A
Authority
JP
Japan
Prior art keywords
frequency
signal
spectrum
acoustic signal
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019553539A
Other languages
English (en)
Other versions
JP6896881B2 (ja
Inventor
パトリック・ガンプ
クリスティアン・ウーレ
ザシャ・ディッシュ
アントニオス・カランポウルニオティス
ユリア・ハーフェンスタイン
オリヴァー・ヘルムート
ユルゲン・ヘレ
ペーター・プロカイン
Original Assignee
フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.
フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ., フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. filed Critical フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.
Publication of JP2020512594A publication Critical patent/JP2020512594A/ja
Application granted granted Critical
Publication of JP6896881B2 publication Critical patent/JP6896881B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control

Abstract

音響信号のスペクトル強調処理に関する所定の特性を決定するための装置が、音響信号のスペクトルを取得するため、およびスペクトルから極大信号を導出するために構成された導出器を含む。この装置は、極大信号のセグメント間で類似度を決定するために構成された決定器を含むとともに、類似度の評価に依存する所定の特性を音響信号が含むことを示す情報を提供するためのプロセッサを含む。

Description

本発明は、音響信号のスペクトル強調処理に関する所定の特性を決定するための装置および方法に関する。
マルチメディアアプリケーションにおいて、音響信号はしばしば、MPEG1/2レイヤ3(「mp3」)、MPEG2/4先進的音響符号化(AAC)などの専用の知覚符号化方法を用いて符号化される。エンコードされた音響信号をデコードするとき、元々エンコードされていた音響信号を再構築するために多様な処理方法を適用することができる。しかしながら、知覚的適応量子化などのロスあり符号化動作またはスペクトル帯域幅複製(SBR)などのパラメトリック符号化技術により、デコードされた音響信号において妨害となるかもしれないアーティファクトを取得する可能性がある。
かなり長い間、元の信号の知覚的な質を何よりも保つために知覚音響コーダが開発されてきた。符号化信号と非符号化信号とが知覚的に区別できない場合、この特性は「知覚的透明性」と呼ばれる。
しかしながら、透明性は、使用可能なビットレート(すなわち用いられるデータの量)が十分に高い場合にのみ、達成されうる。近年、低ビットレートでは、透明性の意味においてオリジナルに近いことよりも知覚的な心地よさが重要になることが認識された。したがって、MP3またはAACのようなよく確立された知覚符号化スキームは、知覚的な心地よさを目的としている現代の符号化アプローチと比較して、これまでのところ準最適のように思われることがある。以下において、いくつかの符号化アーティファクトを簡単に説明する。
バーディーアーティファクト
低ビットレートの変換符号化では、スペクトル線の符号化用の量子化器はしばしば、それらのダイナミックレンジが信号に適応するよう、非常に粗い精度に設定しなければならない。結果として、多くのスペクトル線が、最初の量子化器ステップに対応して、量子化器の不感帯によって0に、または値1に量子化される。時間が経つにつれて、スペクトル線または線のグループが0と1との間で切り替わることがあり、これによって望ましくない時間変調が導入される。このアーティファクトは、鳥のさえずりを連想して「バーディー」と呼ばれている。したがって、スペクトルホールとスペクトルアイランドのこの強力で時変的な存在は、好ましくない知覚的アーティファクトにつながる望ましくないコーデック挙動である。非特許文献2および非特許文献3参照。
帯域幅制限
他のよく知られた符号化アーティファクトは帯域幅制限である。低ビットレートの符号化条件で、使用可能なビットバジェットが透明性に必要な精度に対応するには不十分であれば、レガシーコーデックはしばしば、静的ローパスを導入して音響帯域幅を制限していた。これにより、音が鈍くくぐもった印象になることがある。非特許文献2および非特許文献3参照。
トーンスパイクアーティファクト
このアーティファクトは、トーン対ノイズ比が過大評価されているとき、スペクトル帯域複製(SBR)などの人為的帯域幅拡張方法に関連して現れる。非特許文献4参照。この場合、調性成分が、金属音につながる過度のエネルギーで再現される。非特許文献3参照。
ビーティングアーティファクト
トーンスパイクアーティファクトと同様に、ビーティングアーティファクトは、人為的帯域幅拡張とともに現れる。ビーティングは粗さの知覚を作成し、SBRにおいて用いられるようなコピーアップによって引き起こされる可能性のある周波数距離が近い2つのトーン成分から発生する。非特許文献3参照。
したがって、音響信号がアーティファクトを導入することが可能な処理を受けたかどうかを検出すること、および/またはそのようなアーティファクトを低減することが目的である。
アーティファクトの元となり得る処理方法についての例は、デコーダ側で音響信号の帯域幅を拡張するためのセミパラメトリックな方法であるスペクトル帯域複製(SBR)である。第1のステップにおいて、低域から高域の周波数領域にスペクトル係数をコピーすることによって、伝送されるローパス信号スペクトルの一部が複製される。第2のステップにおいて、スペクトル包絡線が調整される。スペクトル包絡線の調整は、スペクトルの粗い形状が所与の目標に一致するように行われるが、微細構造は未修正のままである。
SBRの検出が望ましいのは、取得された情報から以下のことを結論付けることができるからである。
1.知覚音響符号化によって信号が圧縮されている(すなわち、損失が多い)。したがって、上記のアーティファクトタイプに対処する強調方法の適用が適切である。
2.SBRによって導入されたアーティファクトの可聴性を低減するための専用の方法によって信号の音質を潜在的に改善することができる。このような方法は、SBRが有効になる開始周波数についての知識から利益を得る。
SBRが有効になる開始周波数は、SBRによって導入されたアーティファクトを軽減することによって音質を改善する後処理にとって重要である。したがって、SBRを検出し、SBRの開始周波数を推定する必要がある。特に、そのような強調が望ましいか否かを判断することが望まれる。たとえば、音響信号が高音質であるとき、強調により音質が低下するおそれがあるため、それは高音質の信号には適切でない。
SBRの検出のための方法が、米国特許第9,117,440号に記載されている。記載された方法は、フィルタバンクまたは時間周波数変換を用いて計算されるサブバンド信号に作用する。次いで、相互相関によって、すなわち、対応するサンプルを乗算してこれらの積を経時的に蓄積することによって、複数のサブバンド間の関係を定量化する。
アーティファクトの元についての他の例は、帯域幅制限(BL)とも呼ばれる帯域幅削減(BR)である。帯域幅が厳しく制限されると、音質の劣化が知覚され、質の向上が望まれる。このような質の改善は帯域幅拡張(BWE)を含むことができるが、これは必要な場合にのみ、すなわち信号の自然な帯域幅が人為的に大幅に減少したときにのみ適用すべきである。帯域幅の推定を用いるBWEのための方法が非特許文献1に記載されている。帯域幅は、任意の所与の時点で信号に存在する最高周波数を検出することによって推定される。この方法では、信号を生成するメカニズムが低い周波数でのみエネルギーを生成すると、音響信号の帯域幅が本質的に制限されることがあるため、偽陽性検出のエラーが起こりやすくなる。
要約すると、音響コンテンツ用の格納スペースまたはストリーミング帯域幅が制限されているとき、知覚音響コーダが広く用いられている。適用される圧縮率が非常に高い(そして圧縮後の使用データ率が非常に低い)場合、知覚される音響の質を低下させるいくつかの符号化アーティファクトが導入される。
米国特許第9,117,440号
M. Arora、J. Lee、およびS. Park、「High quality blind bandwidth extension of audio for portable player applications」、Proc. of the AES 120th Conv.、2006年 Markus Erne、「Perceptual audio coders "what to listen for?"」、Audio Engineering Society Convention 111、2001年11月 Chia-Ming Chang、Han-Wen Hsu、Kan-Chun Lee、Wen-Chieh Lee、Chi-Min Liu、Shou-Hung Tang、Chung-Han Yang、およびYung-Cheng Yang、「Compression artifacts in perceptual audio coding」、Audio Engineering Society Convention 121、2006年10月 Martin Dietz、Lars Liljeryd、Kristofer Kjorling、およびOliver Kunz、「Spectral band replication, a novel approach in audio coding」、Audio Engineering Society Convention 112、2002年4月 Sascha Disch、Andreas Niedermeier、Christian R. Helmrich、Christian Neukam、Konstantin Schmidt、Ralf Geiger、Jeremie Lecomte、Florin Ghido、Frederik NagelおよびBernd Edler、「Intelligent gap filling in perceptual transform coding of audio」、Audio Engineering Society Convention 141、2016年9月
したがって、本発明の目的は、アーティファクトが起こりやすい音響処理によって得られる特性を含む音響信号の識別を強化すること、および/またはそのような音響材料に専用の後処理を適用することによりそのようなアーティファクトを低減する概念を提供することである。
この目的は、独立請求項に記載の主題によって達成される。
第1の態様によれば、本発明者らは、音響信号から派生する極大信号を用いることによって、および極大信号のセグメント間の類似度を決定することによって、たとえば、トーンスパイクアーティファクトおよび/またはビーティングアーティファクトを低減するようにそれぞれの音響信号についてそれぞれの後処理を実装することができるように、スペクトル強調処理に関する特性の確実かつ効率的な識別を得ることができることを発見した。信号の評価に基づいて、実装された音響処理を示すサイド情報を不要にすることができ、モジュールのブラインド動作が可能になる。
第1の態様の一実施形態によれば、音響信号のスペクトル強調処理に関する所定の特性を決定するための装置が、音響信号のスペクトルを取得するため、およびスペクトルの微細構造に関する情報を導出するために構成された導出器を含む。この装置は、スペクトルの微細構造の類似度を決定するために構成された決定器を含む。この装置は、類似度の評価に依存する所定の特性を音響信号が含むことを示す情報を提供するためのプロセッサをさらに含む。微細構造に関する情報のセグメント間の類似度を比較するため、少量の計算作業が必要になることがある。さらに、スペクトル強調処理が実行された可能性があることを示す類似のセグメントの正確かつ確実な決定を得ることができる。
第1の態様のさらなる一実施形態によれば、音響信号のスペクトル強調処理に関する所定の特性を決定するための方法が、音響信号のスペクトルを取得するステップと、スペクトルの微細構造に関する情報を導出するステップと、を含む。この方法は、たとえば微細構造に関する情報のセグメント間で微細構造の類似度を決定するステップと、類似度の評価に依存する所定の特性を音響信号が含むことを示す情報を提供するステップと、を含む。
第1の態様のさらなる一実施形態によれば、非一時的記憶媒体が、コンピュータ上で動いているとき、このような方法を実行するためのプログラムコードを有するコンピュータプログラムを格納している。
第2の態様によれば、本発明者らは、スペクトルの傾斜に関して音響信号のスペクトルを評価することによって、たとえばバーディーアーティファクトおよび/または帯域幅制限アーティファクトを低減または除去するそれぞれの後処理を可能にするように、人為的帯域幅制限処理に関する特性を含むような音響信号の確実かつ効率的な特徴付けを得ることができることを発見した。信号の評価に基づいて、実装された音響処理を示すサイド情報を不要にすることができ、モジュールのブラインド動作が可能になる。
第2の態様の一実施形態によれば、音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための装置が、音響信号のスペクトルの傾斜を評価して傾斜評価結果を得るために構成された傾斜評価器を含む。この装置は、傾斜評価結果の評価に依存する所定の特性を音響信号が含むことを示す情報を提供するためのプロセッサをさらに含む。音響信号が人為的帯域幅制限処理に関する特性を含むかどうかの評価の基礎をスペクトルの傾斜、たとえば、スペクトルの立ち下がりエッジに置くことによって、少ない計算作業で人為的帯域幅制限処理の正確な検出を得ることができる。
第2の態様の他の一実施形態によれば、音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための方法が、音響信号のスペクトルの傾斜を評価して傾斜評価結果を得るステップを含む。この方法は、傾斜評価結果の評価に依存する所定の特性を音響信号が含むことを示す情報を提供するステップを含む。
第2の態様の一実施形態によれば、非一時的記憶媒体が、コンピュータ上で動いているとき、このような方法を実行するためのプログラムコードを有するコンピュータプログラムを格納している。
第1の態様および第2の態様は両方とも、未処理のフレームの後処理を回避するよう、それぞれの処理を受けた音響信号またはそのフレームと、未処理の音響信号またはそのフレームとを区別することを可能にしている。
第3の態様によれば、本発明者らは、音響信号の異なる信号特性を有する異なる部分について帯域幅拡張を異なる方法で実行することによって、強調された第1の部分および強調された第2の部分を含む高い質の合成信号を得るよう、異なる部分および/または特性の強調を互いに独立して実行することができることを発見した。異なる信号特性を異なる方法で処理することにより、それぞれの特性に基づいて処理を適応させることが可能になり得る。
第3の態様の一実施形態によれば、音響信号を処理するための装置が、音響信号のスペクトルの第1の部分を音響信号のスペクトルの第2の部分から分離するためのセパレータを含む。第1の部分は第1の信号特性を有し、第2の部分は第2の信号特性を有する。この装置は、第1の拡張部分を取得するため、第1の信号特性に関連する第1のパラメータを用いて第1の部分の帯域幅を拡張するための第1の帯域幅拡張器を含む。この装置は、第2の拡張部分を取得するため、第2の信号特性に関連する第2のパラメータを用いて第2の部分の帯域幅を拡張するための第2の帯域幅拡張器を含む。この装置は、拡張合成音響信号を取得するために第1の拡張部分および第2の拡張部分を用いるために構成された合成器をさらに含む。これにより、質の高い合成音響信号を取得するよう、異なる信号特性を有する異なる部分を互いに独立して強調することが可能になり得る。
第3の態様の他の一実施形態によれば、音響信号を処理するための方法が、音響信号のスペクトルの第1の部分を音響信号のスペクトルの第2の部分から分離するステップを含み、第1の部分は第1の信号特性を有し、第2の部分は第2の信号特性を有する。この方法は、第1の拡張部分を取得するため、第1の信号特性に関連する第1のパラメータを用いて第1の部分の帯域幅を拡張するステップを含む。この方法は、第2の拡張部分を取得するため、第2の信号特性に関連する第2のパラメータを用いて第2の部分の帯域幅を拡張するステップを含む。この方法は、拡張合成音響信号を取得するために第1の拡張部分および第2の拡張部分を用いるステップをさらに含む。
第3の態様の他の実施形態によれば、非一時的記憶媒体が、コンピュータ上で動いているとき、このような方法を実行するためのプログラムコードを有するコンピュータプログラムを格納している。
第4の態様によれば、本発明者らは、音響信号の一部を音響信号の異なる部分に対して位相シフトすることによって、知覚される粗さを低減することができることを発見した。特に、帯域幅を拡張するために生成またはコピーされる可能性のある部分を、未拡張のスペクトルと比較したとき位相シフトすることができる。
第4の態様の一実施形態によれば、音響信号を処理するための装置が、位相シフト信号を得るように音響信号の少なくとも一部を位相シフトするための粗さ低減フィルタを含む。この装置は、第1のフィルタリング信号を得るように位相シフト信号をフィルタリングするために構成されたハイパスフィルタを含む。この装置は、第2のフィルタリング信号を得るように音響信号をフィルタリングするために構成されたローパスフィルタを含む。この装置は、強調音響信号を得るように第1のフィルタリング信号と第2のフィルタリング信号とを合成するために構成された合成器を含む。この装置は、第1のフィルタリング信号が、音響信号、第2のフィルタリング信号とそれぞれ比較したとき位相シフト部分を含むことができるよう、ローパスフィルタによって残された部分と比較したときハイパスフィルタによって残された部分を位相シフトすることを可能にしている。これにより、合成信号において粗さを少なくすることが可能になり得る。
第4の態様の他の一実施形態によれば、音響信号を処理するための方法が、位相シフト信号を得るように音響信号の少なくとも一部を位相シフトするステップを含む。この方法は、第1のフィルタリング信号を得るようにハイパスフィルタを用いて位相シフト信号をフィルタリングするステップを含む。この方法は、第2のフィルタリング信号を得るようにローパスフィルタを用いて音響信号をフィルタリングするステップをさらに含む。この方法は、強調音響信号を得るように第1のフィルタリング信号と第2のフィルタリング信号とを合成するステップをさらに含む。
第4の態様の他の一実施形態によれば、非一時的記憶媒体が、コンピュータ上で動いているとき、このような方法を実行するためのプログラムコードを有するコンピュータプログラムを格納している。
本発明のさらなる実施形態が従属請求項に定義されている。
本開示、およびその利点のより完全な理解のため、添付の図面と併せてここで以下の説明を参照する。
第1の態様の一実施形態による、音響信号のスペクトル強調処理に関する所定の特性を決定するための装置の概略ブロック図である。 図1のスペクトルを取得することができる音響信号から導出することができる、第1の態様の一実施形態による例としてのスペクトルを示す概略グラフである。 第1の態様の一実施形態による図2aと同じ周波数横座標上の極大信号の概略図例を示す図である。 決定規則を用いて類似度を決定するための第1の態様の一実施形態による概略グラフである。 フィルタリングされた値として示される、第1の態様の一実施形態による後処理された類似度関数の例を示す図である。 周波数推定器を含む第1の態様の一実施形態による装置の概略ブロック図である。 第1の態様の一実施形態による例としての局所的類似度マトリックスの概略グラフ表示を示す図である。 第1の態様の一実施形態による図6aに示したマトリックスの線の概略図である。 スペクトル計算器を含む、第1の態様の一実施形態による装置の概略ブロック図である。 第1の態様の一実施形態による音響信号のスペクトル強調処理に関する所定の特性を決定するための方法の概略フローチャートである。 第2の態様の一実施形態による装置の概略ブロック図である。 第2の態様の一実施形態に関連する例としてのスペクトルを示す概略図である。 第2の態様の一実施形態によるスペクトル差関数の例としての結果の概略図である。 エネルギー推定器を含む、第2の態様の一実施形態による装置の概略ブロック図である。 第2の態様の一実施形態によるカットオフ周波数での立ち下がりエッジを含む例としてのスペクトルを示す図である。 第2の態様の実施形態によるデコーダから受信することができる音響信号を処理するために構成された装置の概略ブロック図である。 第2の態様の一実施形態によるスペクトル重みを決定するためのプロセッサの機能の概略ブロック図である。 バーディーアーティファクトを低減するために構成された、第2の態様の一実施形態による信号強調器の概略ブロック図である。 第2の態様の一実施形態による音響信号を処理するための方法の概略フローチャートである。 第2の態様の一実施形態による、音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための方法の概略フローチャートである。 第2の態様の一実施形態による音響信号の人為的帯域幅制限処理に関する所定の特性を決定するためのさらなる方法の概略フローチャートであり、この方法はカットオフ周波数も評価する。 第3の態様の一実施形態による装置の概略ブロック図である。 第3の態様の一実施形態による異なる成分を含む例としてのスペクトルを示す概略図である。 第3の態様の一実施形態による装置の概略ブロック図である。 第3の態様の一実施形態による、音響信号の第1の部分の例としてのスペクトルを示す図である。 第3の態様の一実施形態による2つの(a number of two)複製部分によって拡張された第1の部分の概略図である。 第3の態様の一実施形態による、図17bの少なくとも拡張部分を整形するために構成されている包絡線整形器から取得することができる例としての振幅スペクトルを示す図である。 第3の態様の一実施形態による音響信号を白色化するために構成されているスペクトル白色化器の概略ブロック図である。 第3の態様の一実施形態による、信号分析器であり、図16の装置のルックアップテーブルである任意選択のブロックの機能を示す図である。 第3の態様の一実施形態による方法の概略フローチャートである。 第4の態様の一実施形態による装置の概略図である。 第4の態様の一実施形態によるセパレータを含む装置の概略ブロック図である。 第3の態様の一実施形態による音響信号を処理するための方法の概略フローチャートである。
同等または等価の要素または同等または等価の機能を備えた要素は、以下の説明において、異なる図において存在する場合でも同等または等価の参照番号によって示す。
本明細書に記載の実施形態はデジタル信号処理に関するということにも留意すべきである。したがって、すべての信号が、サンプリングのためにサンプリング周波数の半分より下の周波数に帯域制限されている。本明細書で議論する(人為的な)帯域幅制限は、信号の帯域幅がデジタル表現で許容されるであろうよりも小さくなるような追加の帯域幅制限を指す。
第1の態様および第2の態様は、それぞれの音響信号が特定の処理を受けたことを示す音響信号内の信号特性を識別することに関する。それぞれの特性およびそれに関するパラメータを識別することによって、処理に応じて発生する可能性のあるアーティファクトを低減または除去するように適切なアクションおよび処理を行うまたは実行することができる。したがって、処理された音響信号に挿入される可能性のあるアーティファクトを低減することは、第1の態様、第2の態様にそれぞれ関連していると理解することができる。
第3の態様および第4の態様は、音響信号の後処理に言及している。音響の質を向上させるように音響信号を後処理するため、音響信号の前に実行された処理に関連する情報、たとえば、第1の態様および第2の態様に従って導出された情報を用いることができ、および/または異なる音響信号に関連して用いることができる。
したがって、以下において、第3の態様および第4の態様を参照する前にまず第1の態様および第2の態様を参照する。第1の態様の範囲は、音響信号の、特にロッシー圧縮または他の信号処理を用いて符号化された音響信号の音質の改善である。スペクトル帯域複製(SBR)は、通常はビットストリームにおいて送信されるサイド情報によって導かれる、より低い周波数から音響信号スペクトルの複製部分の高周波コンテンツを合成するためのパラメトリック音響符号化のための方法である。SBRの存在およびSBRが有効になる開始周波数(またはSBRより前に信号が帯域制限されたカットオフ周波数の同義語)についての知識が、音響信号の音質を向上または改善させるために使用または必要とされる。第1の態様による実施形態は、ビットストリームにおける情報を用いずにデコードされた後、音響信号からこの情報を取得するための分析概念を提供する。説明する概念は、より低いサブバンドでスペクトルの一部をコピーし、より高い周波数に貼り付けるSBRおよび他の処理を検出することができる。このような方法のためのSBR以外の他の一例は、特定の構成に基づいて、インテリジェントギャップ充填(IGF)である。
米国特許第9,117,440号に開示された方法と比較すると、第1の態様による実施形態は、スペクトルの微細構造を分析、おそらく独占的に分析することによって、スペクトル包絡線の修正に関する分析の堅牢性を改善する。加えて、関係は乗算ではなく2進数の合計を用いて計算されるため、計算負荷が少なくなる。
図1は、音響信号12のスペクトル強調処理、たとえば、SBR、および/またはIGFに関する所定の特性を決定するための装置10の概略ブロック図を示している。装置10は、音響信号12のスペクトルを取得するため、およびスペクトルの微細構造に関する情報を導出するために構成された導出器14を含む。微細構造は、スペクトルにおけるスペクトル線のコースに関し得る。このような情報は、たとえば、極値、たとえば、スペクトルにおける最大値および/または最小値を示す極大信号を用いて表すことができる。たとえば、極大信号は、極大の場所で最大値または最小値、および他の場所で異なる値などの事前定義された値を有することができる。たとえば、他の場所では、極大信号は最小値を含むことができる。あるいは、極大信号は、極大では最小値、そうでなければ最大値を含むことができる。あるいは、または加えて、極大信号は、極大および極小の両方を表すことができる。これによって、スペクトルの微細構造を維持しながら、他の情報を減衰または除外することができる。非限定的な例としてのみ、本明細書に記載の実施形態は、導出器14によって導出される極大信号に言及することができる。
スペクトルから極大信号を導出するため、導出器14は、音響信号12からスペクトルを導出または計算または決定のいずれかを行うことができる。あるいは、導出器14は、スペクトルを示す情報またはスペクトル自体を含む信号を受信することができる。したがって、図示された信号12は、時間領域における、または周波数領域における信号であり得る。導出器14によって導出されるか、または導出器14によって受信されるスペクトルは、たとえば、振幅スペクトルまたはパワースペクトルであり得る。このようなスペクトルを導出または計算するため、短期フーリエ変換(STFT)または他の適切な変換を用いることができる。STFTを用いることによって、音響信号12は、いくつかの適切なブロックに分割または分離することができ、各ブロックがSTFTを受けることができる。これにより、音響信号の複数のスペクトル、たとえば、各ブロックについて1つのスペクトルを取得することが可能になり得る。
たとえば、フィルタバンクを用いてサブバンド信号を計算することができる。SBRは、スペクトルの一部が複製される処理である。同じことが高調波移送にも当てはまる。IGFにおいて、たとえば、高周波範囲を含むスペクトルの一部が減衰されるか、または0に設定されてその後補充される。SBRを参照すると、スペクトル包絡線は修正することができるが、スペクトルの微細構造は維持することができる。したがって、第1の態様による実施形態は、スペクトル包絡線の修正に対して堅牢な概念を提案する。この目的のため、導出器14は、スペクトルから極大信号を導出するように構成されている。極大信号は、たとえば、スペクトルにおける周波数ビンに従って特定の長さのベクトルとして定義することができ、その要素は、スペクトルが極大を有するインデックスで1に設定され、そうでなければ0に設定される。他の規則を適用することができることが言及されるべきである。たとえば、極大に加え、極小を特定の値、たとえば、1に設定することができる。あるいは、または加えて、極大および/または最小を示すように異なる値、たとえば、0または1とは異なる値を用いることができる。この処理は、微細構造を維持してすべての他の情報を除去する白色化またはフラッタリング動作に似ていることがある。極大信号により、比較されるセグメントの構造に焦点を合わせるように比較を実施することができるため、類似度の識別を強化することが可能になり得る。
図2aは、信号12から導出され得る、または信号12であり得る例としてのスペクトル16を示す概略グラフを示している。横座標は周波数インデックスkを示し、縦座標はスペクトル16の振幅値X(k)を示している。
図2bは、同じ周波数横座標kにわたる極大信号Zの概略図例を示している。スペクトル16が極大値181から187を含む周波数ビンk1からk7で、極大関数Z(k)は1のような正規化最大値に設定され、他の場所では同様に0のような正規化最小値に設定される。図2bにおける三角形は、図をよりよく理解するため、異なる周波数ビン間の補間から得ることができる。極大信号Zは、スペクトルX(k)と同じ長さを含むことができる。導出器14は、スペクトル16から導出される極大信号Z(k)を示す情報を含む信号22を提供するために構成することができる。
装置10は、極大信号のセグメント間の類似度C(τ)を決定するために構成された決定器24を含むことができる。スペクトル強調処理の検出のため、ベクトルZ(k)、k=k0....klの第1のセグメントとベクトルZ(k+τ)の第2のセグメントとの間の類似度は、決定器24によってラグまたはシフトτの関数として決定または計算することができる。たとえば、類似度C(τ)は、2つのベクトル、すなわち極大信号のセグメントの差の絶対値の合計として計算することができる。
比較されるべきセグメントは同じ長さを有し得る。長さは、スペクトルおよび極大信号が計算された周波数分解能に依存する。周波数分解能は、計算されるスペクトル係数の数に依存する。スペクトルおよび極大信号についての係数の数は、少なくとも16または最大で16384であるが、通常は256と4096との間の値が選択される。正確な値は、信号のサンプリングレートに応じて選択することができる。第1のセグメントは、たとえば、2000Hzと15000Hzとの間の範囲における周波数に対応する極大信号ベクトルの要素を含むことができる。
パラメータτは、1から、たとえば、音響信号12におけるカットオフ周波数に関する最大周波数または最大検索周波数を表す信号における可能な最大値まで変動することができる。これは、以下の決定規則として表すことができる。
Figure 2020512594
図3は、上記の決定規則を用いて類似度を決定する場合に得ることができる例に従う概略グラフを示している。グラフの横座標はラグまたはシフトτを示し、縦座標は類似度関数C(τ)の値を示している。
パラメータτの複数の値について類似度値C(τ)を決定することによって、図3に示すグラフを得ることができる。領域261から263において、パラメータτの値τ1、τ2、τ3にそれぞれ関連している信号の変動を得ることができる。これらの変動は、類似度関数C(τ)における極大および/または極小を含むことができる。すなわち、ラグτ1、τ2、τ3をシフトまたは適用することによって、類似度関数は、極大または極小を示すことができ、したがって、ラグτ1、τ2、τ3だけそれぞれのセグメントをシフトすることによって、スペクトル強調処理についての指標であり得る同様の信号が得られることを示している。上記の例において、最大ラグτは20000Hzである。
決定器は、少なくとも1つの極大値および/または極小値を類似度値から選択するために構成することができ、および/または類似度を決定するためにそれらの派生値を選択することができる。特に、領域261、262および263での変動は、それぞれパラメータτ1、τ2、τ3によって示されるシフトで用いられるセグメント間の高い類似度を示している。
再び図1を参照すると、決定器24は、類似度の結果、たとえば、パラメータτの値τ1、τ2、および/またはτ3またはそれらの派生値を示す情報または信号28を提供するために構成することができる。装置10は、音響信号12が、たとえば、信号28を評価することにより、類似度の評価に依存する所定の特性を含むことを示す情報34を提供するためのプロセッサ32を含むことができる。任意選択で、取得された分析関数、すなわち類似度関数は、たとえば、決定器24および/またはプロセッサ32によってさらに処理することができる。たとえば、バンドパスフィルタリングを実行して、類似度関数におけるオフセット成分を減衰させるとともに、類似度関数C(τ)における対象の極大のコントラストを増加させることができる。装置10、たとえば、決定器24は、図4に示すフィルタリングされた類似度値を得るように類似度値をフィルタリングするために構成されたフィルタを含むことができる。プロセッサ32は、音響信号がスペクトル強調処理を受けたこと、スペクトル強調処理の開始周波数および/または終了周波数の少なくとも1つを示す情報を含むように情報34を提供するように構成することができる。
図4は、後処理された類似度関数の一例を示し、そのフィルタリングされた値、すなわちH(C(τ))として縦座標に示し、横座標はパラメータτを示している。たとえば、フィルタ係数h=[-1 2 -1]を有する有限インパルス応答(FIR)フィルタとしてフィルタが実装される。これは、フィルタリングされたベクトルのk番目の出力要素が、h(1)=-1、h(2)=2およびh(3)=-1で重み付けされたインデックスk-1、k、およびk+1での要素の線形結合によって計算されることを意味している。これは、以下の決定規則に基づいて表すことができる。
y(k)=h(1)x_{k-1}+h(2)x_{k}+h(3)x_{k+1}
パラメータ値τ1、τ2、およびτ3での最も大きな3つの極大は、スペクトル強調処理、たとえば、スペクトル帯域複製から引き起こされる。たとえば、振幅が大きい少数の極大が関数に現れると、SBR処理を検出することができる。少数とは、最大15、最大10または最大5の最大数を指すことができる。一実施形態によれば、SBRの一般的な最新技術の構成に従ってSBRを検出するために最大13の極大が調査されるべきである。
大きな振幅とは、通常の信号と比較したとき、少なくとも3dB、少なくとも5dBまたは少なくとも6dBである値を指すことができる。再び図3を参照すると、領域261、262および263における極大は、それぞれの領域の側の信号をノイズであると呼ぶことができる。このようなノイズは、図4に関連して説明したように最大値の決定を強化するように、後処理によって減衰させることができる。極大の大きな振幅は閾値より大きいと定義される。閾値の正確な値は、類似度関数の計算に用いられた値の数に応じて、たとえば、手動で、0.1から10の範囲に設定することができる。通常、5の値を用いることができる。
すなわち、プロセッサ32は、類似度値またはその派生値のいくつかの極大26を評価するため、および極大26の振幅を評価するために構成することができる。プロセッサ32は、少なくとも振幅閾値27を含む最大値26の数が数の閾値を下回る、すなわち、振幅閾値27の値を超える極大の数が十分に少ないとき、音響信号12が所定の特性を含むことを示す情報34を提供するために構成することができる。
換言すれば、図4は後処理の類似度関数を示している。極大は円で示し、大域的最大は十字で強調表示している。決定器24は、フィルタリングされた類似度値から少なくとも1つの極大を選択するために構成することができる。高調波信号が、基本周波数を有する1つまたは複数の正弦曲線およびその高調波、すなわち周波数が基本周波数の略整数倍である部分音で構成されている。したがって、自動相関関数(ACF)などの類似度関数において1つまたは複数の極大が現れる可能性がある。高調波部分音に対応する極大とSBRまたは他のスペクトル強調処理とを区別するため、検索範囲を適切な値に設定することができ、たとえば、高調波部分音についてよりもSBRについての方が明らかに大きい。このように、プロセッサ32は、類似度の評価から音響信号の高調波を除外するために構成することができる。これは、音響信号のスペクトルのうち、高調波の量が少ないか、まったくないことが予想される部分を選択することによって行うことができる。
パラメータ値τ1、τ2、およびτ3での極大の検出は、スペクトル強調処理の存在を示す十分な指標となり得る。しかしながら、スペクトル強調処理、たとえば、SBRの開始周波数をさらに推定することが有利であり得る。類似度関数の結果または極大は、スペクトルの一部がコピーおよび貼り付けられたシフトを説明することができる。完全を期すため、ソースサブバンドスペクトルまたはデスティネーションサブバンドスペクトルの開始周波数および停止周波数についての情報が重要になることがある。
図5は、一実施形態による装置50の概略ブロック図を示している。装置50は、装置10の拡張バージョンとすることができ、スペクトル強調処理の開始周波数および/または停止周波数を決定するために構成された周波数推定器36をさらに含むことができる。周波数推定器36は、開始周波数および/または停止周波数を示すそれぞれの情報を含む情報または信号38を提供するために構成することができる。周波数推定器36は、たとえば、信号22を取得または受信することによって、極大信号Z(k)を用いて、極大信号の第1のセグメントの要素と極大信号の第2のセグメントの対応する要素との間の要素類似度を決定するために構成することができる。第2のセグメントは、τのサンプルの数だけ第1のセグメントに対してシフトされ得る。これは、局所的類似度分析(LSA)と呼ぶことができる。入力は、振幅スペクトル、たとえば極大信号Z(k)の微細構造の表示であり得る。周波数推定器36は、LSAを実行するとき、第1のベクトルZ(k)におけるk番目の要素と位置k+τ、Z(k+τ)での要素との間の要素ごとの類似度において動作することができる。この目的のため、局所的類似度マトリックスは、以下の決定規則に従って2つの2進数Z(k)およびZ(k+τ)との差の絶対値として計算することができる。
L(K、τ)=|Z(k)-Z(k+τ)|
局所的類似度マトリックスの値L(k、τ)は、時間の経過に伴う再帰平均化によって次いで処理することができる。これは以下の決定規則に従って実行することができる。
L(K、τ)=bL(K、τ)+(1-b)B(K、τ)
ここで、B(k、τ)は、音響信号の前の時間ステップ(フレーム)からの再帰平均化の出力を保存するバッファを示し、0<b<1は時間平均化を制御する時定数である。したがって、周波数推定器36は、平均要素類似度を取得するように、第1のセグメントおよび第2のセグメントについての複数の要素の要素類似度を経時的に再帰平均化するため、および平均要素類似度を用いて開始周波数および/または終了周波数を決定するために構成することができる。時間平均化は、任意選択で、現フレームが無音でない、すなわち、そのエネルギーが非無音フレームから無音フレームを特徴付けている閾値27よりも大きいときにのみ適用することができる。
フレームのエネルギーが閾値より小さければ、フレームは無音であると判断することができ、閾値の正確な値は、フレームの長さおよびサンプル値が表される範囲に応じて設定することができる。一般にこのような閾値は、平均から大音量設定で一般的な音声再生機器(携帯電話またはテレビ)で再生したときにちょうど聞こえるように調整されるピンクノイズ信号のエネルギーに等しくなるように選択することができる。
すなわち、周波数推定器は、平均要素類似度を取得するように、第1のセグメントおよび第2のセグメントの複数の要素の要素類似度を経時的に再帰的平均化するため、および平均化類似度を用いて開始周波数および/または終了周波数を決定するために構成することができる。スペクトルの各サンプルはフレームに関連付けることができる。周波数推定器は、エネルギー閾値レベル27未満のスペクトルエネルギーを有するフレームを時間の経過に伴って再帰平均化から除外するように構成することができ、エネルギー閾値レベル27は、フレームまたはスペクトルが無音であるか否かの検討に関連している。これによって、無音であると見なされるフレームは音響処理の対象外であるとも見なすことができるため、これらのフレームを除外することによって一貫性のない結果を回避することができる。
図4に関連して説明したように、再帰平均化の結果L(k、τ)は、帯域通過フィルタリングによって処理されてオフセット成分を減衰させ、たとえば、h=[-1 2 -1]のようなカーネルでマトリックスの各行を畳み込むことによって、対象の極大のコントラストを増加させることができる。
図6aは、例としての局所的類似度マトリックスL(k、τ)の概略的なグラフ表示を示し、横座標は周波数ビン(位置)kを示し、縦座標はラグτを表している。見やすくするため、マトリックスLの絶対値が示されている。位置kおよびラグτ用の単位は周波数ビンである。非限定的なサンプルによって、1つの周波数ビンが46.9Hzの値を有することができ、任意の他のより小さな値またはより大きな値を取得することができる。したがって、図4は、次の情報を含む後処理された類似度マトリックスL(k、τ)についての例を示している。
図4に関連して説明したような大局的類似度は、x軸(パラメータk)に沿って合計して結果の絶対値を取ることによってL(k、τ)から取得することができる。与えられた例における3本の水平線381、382および383は、図4の極大値に対応している。線381、382および383は、関数L(k、τ)のそれぞれの値、すなわち、値の合計が特定の閾値、たとえば、0〜1の範囲の値の0.1、0.2、または0.3をそれに沿って超える線に対応し得る。水平線の開始位置および終了位置は、スペクトルの繰り返し部分のそれぞれ開始周波数ks1、ks2、ks3およびそれぞれ終了周波数ke1、ke2、ke3に対応している。
図6bは、パラメータτ2での図6aに示したマトリックスの線の概略図を示している。図6bにおいて、グラフ42aは、たとえば、フィルタリングされていない値を示し、グラフ42bは、平均値またはフィルタリング値を示すことができる。たとえば、グラフ42bは、たとえば、0.2である閾値27と比較される。局所的類似度マトリックスL(k、τ)、それぞれの平均値が閾値27を超える範囲は、インデックスτ2での水平線382に対応している。あるいは、または加えて、局所的類似度マトリックスの峻度(ΔL(k、τ)/k)を評価することができる。特定の値、たとえば、少なくとも0.5、少なくとも1または少なくとも1.5で上昇する急峻な立ち上がりエッジは、開始周波数ks2を識別するエッジとして識別することができる。したがって、それぞれの急峻で高い立ち下がりエッジは、終了周波数ke2を識別することができる。あるいは、または加えて、入力スペクトルそれぞれに対して、および最終結果に対して、時間平均化を実行することができる。これにより、時間平均化を用いた偽陽性検出の防止が可能になり得る。入力スペクトルの時間平均化は前処理と呼ぶことができ、最終結果の時間平均化は後処理と呼ぶことができる。偽陽性検出を防止する理由は、極大が部分音のために一般的に時間的に変化することである。すなわち、異なる音楽トーンがメロディーにおいて演奏されるため、または音楽における倍音変化のため、極大は経時的に変化する可能性がある。これとは対照的に、SBRなどのスペクトル強調処理のいくつかのパラメータは、通常は時間不変の技術プロセス、たとえば、スペクトルが拡大されるエッジ周波数、たとえば、前に実行されたフィルタリングのカットオフ周波数、または複製される周波数範囲の開始周波数および終了周波数であり得る。
一例によれば、開始周波数を推定するため、LSAマトリックスのLを分析して、各水平線の開始位置および終了位置を特定する。開始位置ksは、複製されたスペクトルの開始に対応し得る。終了位置keは、複製されたスペクトルの終了に対応し得る。複製に用いられた元のスペクトルの最大終了位置は、SBRが有効になる開始周波数についての推定値である。これは、たとえば、図6aにおけるke3であり得る。
まず、大局的類似度は次のように計算することができる。
Figure 2020512594
ここで、v1およびv2は、値L(k、τ)の範囲を決定するパラメータであり、たとえば、少なくとも500Hzそして最大15kHzの範囲内の値を有するL(k、τ)の範囲を定義するように選択することができる。
次いで、極大mi、すなわち、閾値より大きいC(τ)における26が検出される。たとえば、図4参照。各極大について、L(k、τ)における対応する行が分析される。たとえば、第2の極大m2は、行R2=L(k、τ2)をインデックス化し、図6bに示されている。この極大について、τ=133の値が有効であり得、図5に従ってk=74から開始することができる。
開始インデックスksおよび終了インデックスkeは、たとえば、いくつかの、たとえば、少なくとも3、少なくとも5または少なくとも10の近接する値の時間的または移動平均を計算することによって、たとえば、グラフ42bを得るように、それぞれの線Riをまず平滑化することによって計算することができる。次いで、平滑線の傾斜が最も急に増加および減少する位置が検出される。あるいは、または加えて、たとえば、0.2のような閾値を超える傾斜は、それぞれの線を評価するための基準とすることができる。すなわち、周波数推定器36は、平均要素類似度42bを取得するように、第1のセグメントおよび第2のセグメントの複数の要素の要素類似度を経時的に再帰平均化するため、および平均要素類似度42bを用いて開始周波数および/または終了周波数を決定するために構成することができる。あるいは、または加えて、この装置は、スペクトルの、極大信号またはその派生信号の時間平均化を実行するために構成することができ、プロセッサは、スペクトル、極大信号またはその派生信号の時間平均情報に基づいて音響信号が所定の特性を含むことを示す情報を提供するために構成することができる。
再び図6aを参照すると、インデックスτ1、τ2およびτ3で与えられた例について3つの顕著な水平線381、382および383がある。インデックスτ2での線は、最も早い開始、すなわち、最も低いパラメータksを示すものとして複製されたスペクトルの第1の部分に対応し得る。水平線はインデックスks1で始まり、ラグτ2に対応し得る。したがって、スペクトルの第1の複製部分はks2で始まり、インデックスks22にコピーされている。非限定的な一例によって、τ1は104であり得、τ2は133であり得、τ3は236であり得る。ks2は、たとえば、74という値を含むことができる。したがって、スペクトルの第1の複製部分はインデックス74で始まり、インデックス74+133にコピーされている可能性がある。このインデックスはしたがって、スペクトル強調処理(SBR)が有効になる周波数に対応している。
図5に関連して説明した周波数推定器36は、局所的類似度マトリックスまたは異なる局所的類似度記述を計算するために構成することができる。非限定的な例によってのみ、各行が前の行に結び付けられているなどの所定の構造を有する値のベクトルまたは他の行が、同じ情報を可能にし得る。周波数推定器36は、局所的類似度記述(局所的類似度マトリックスL)を決定することができ、帯域幅拡張処理を示すその中の部分、たとえば、線を決定するために構成することができる。帯域幅拡張処理を示す部分を決定するため、局所的類似度記述における信号の峻度および/または閾値27の到達または超過を、周波数推定器36によって評価することができる。
行を評価するものとして説明してきたが、局所的類似度マトリックスLは、たとえば、行を列に、およびその逆に切り替えるなど、異なる構造を含むことができることは明らかである。周波数推定器はしたがって、局所的類似度マトリックスLを局所的類似度記述として決定するため、および行または列における値(たとえば、行または列内の隣接する値)の間の峻度を用いて、および/または少なくとも閾値27に到達する、またはそれを超えさえする行または列における値の評価を用いて、スペクトル強調処理の開始周波数ksおよび/または終了ke周波数を決定するために構成することができる。
図7は、装置10を拡張した装置70の概略ブロック図を示す。装置10を拡張したものとして説明しているが、図7に関連して与えられた説明は、装置50を拡張するためにも用いることができる。装置70は、時間領域における信号として音響信号12を受信するために構成されるとともに、音響信号12からスペクトルを計算し、スペクトルを含む信号12'を提供するために構成されたスペクトル計算器44を含むことができる。これに基づいて、導出器14は、スペクトル12'を受信するために構成することができる。あるいは、導出器14は、それ自体でスペクトル12'を導出するように構成することができる。
導出器14は、図3および図4に関連して説明したようなフィルタリング類似度値を得るように、類似度値をフィルタリングするために構成されたフィルタ46を含むことができる。導出器14は、たとえば、類似度マトリックスL(k、τ)における行インデックスとして、さらなる検討のために、フィルタリング類似度値から少なくとも1つの極大値を選択するために構成することができる。すなわち、類似度値またはその派生値からの極大値の選択は、スペクトル強調処理の開始周波数および/または終了周波数を決定するためにそれをさらに用いることを言うことができる。
装置70は、音響信号12を受信するとともに、たとえば、情報34を受信することによって、スペクトル強化処理が実行されたという情報を受信するために構成された信号強調器48を含むことができる。信号強調器は、情報34を用いて、すなわち、音響信号が所定の特性を含み、複製プロセスの開始周波数および/または停止周波数などのさらなる詳細を任意選択で含むことを示す情報に依存して、音響信号のスペクトル強調処理によって引き起こされるアーティファクトを低減するために構成される。
図8は、音響信号のスペクトル強調処理に関する所定の特性を決定するための方法1000の概略フローチャートを示している。方法1000は、音響信号のスペクトルが取得され、スペクトルの微細構造に関する情報、たとえば、極大信号が導出されるステップ1100を含む。ステップ1200は、極大信号のセグメント間の微細構造の類似度を決定することを含む。ステップ1300は、類似度の評価に依存する所定の特性を音響信号が含むことを示す情報を提供することを含む。
以下において、第2の態様を参照する。第2の態様によれば、音響信号の、特にロッシー圧縮を用いて符号化された音響信号の音質を改善することが範囲内にある。説明する概念は、デジタル信号処理アプリケーションにおいて制限されている音響信号の帯域幅に関連している。この概念は、(人為的)帯域幅削減(BR)の存在を検出し、BLが動作しているカットオフ周波数を推定するための信号分析概念を提案している。得られた結果は、帯域幅拡張(BWE)によって帯域幅を復元するため、およびフィルタリングなどの他の手段によって音質の改善を制御するための後続の処理を制御するためにも用いられる。
音質を向上させるため、元々低帯域幅を有する信号(たとえば、ベースンで演奏される低音)と、信号処理によって、たとえば、ロッシーエンコーディングまたはダウンサンプリングのために帯域制限された信号とを区別することが非常に重要である。このような区別は、信号を解析して「信号に存在する最高周波数を見つける」ことによって、すなわち、非特許文献1に記載されたように無視できるエネルギーしか上に存在しない周波数を決定することによってでは不可能である。対照的に、第2の態様は、以下で説明するように追加情報を評価することを提案している。
提案した人為的帯域幅制限分析(ABLA)の目的は2つある。
1)ロッシー圧縮または他の信号処理によって引き起こされる可能性が高いため、アーティファクトと見なされる入力信号における帯域幅削減(BR)の存在を検出すること。出力は、たとえば、ここではDと呼ぶバイナリ変数であり得、BLが検出されればD=1、そうでなければ0である。
2)帯域幅制限のカットオフ周波数を推定すること。推定量はfcと呼ぶ。
図9は、第2の態様の一実施形態による装置の概略ブロック図を示している。この装置は、音響信号の人為的帯域幅制限処理に関する所定の特性を決定するために用いることができる。装置90は、音響信号12のスペクトル、たとえば、スペクトル12'の傾斜を評価するために構成された傾斜評価器52を含む。傾斜評価器52は、傾斜評価結果56を提供するために構成することができる。傾斜評価結果56は、スペクトルの少なくとも一部の傾斜(包絡線カーブ)の最大値、最小値若しくは平均値について、スペクトルにおける立ち上がりエッジまたは立ち下がりエッジ若しくはその傾斜についての情報または傾斜54に関する他の情報を含むことができる。
装置90は、音響信号のスペクトル12'のカットオフ周波数fcを評価して、カットオフ周波数fcを示す情報を含む周波数評価結果62を得るために構成された周波数評価器58を任意選択でさらに含むことができる。
装置90は、音響信号が人為的帯域幅制限処理に関する所定の特性を含むことを示す情報を提供するためのプロセッサ64を含む。プロセッサは、傾斜評価結果を用いて、音響信号が所定の特性を含むことを示す情報を提供するために構成され、すなわち、プロセッサは傾斜評価結果に応じた情報を提供することができる。たとえば、これにより、たとえば、イエス/ノー情報または二分決定に関して音響信号が後処理を必要とするかどうかの決定が可能になり得る。これにより、それぞれの特性を含まないと評価されるこのようなフレームを後処理から除外することが可能になり得る。これらのフレームは、人為的帯域幅制限を受けないものとして識別することができるため、後処理を回避しなければならない。任意選択として、この装置は、カットオフ周波数を決定するための周波数評価器58を含むことができる。これにより、たとえば、対象フレームの後処理に使用または必要とされるさらなる情報を識別することが可能になり得る。したがって、任意選択で、プロセッサは、傾斜評価結果56および周波数評価結果62の評価に依存する所定の特性を音響信号が含むことを示す情報を提供するために構成することができる。スペクトル12'についての、および/またはさらなるスペクトル12'をもたらす音響信号のさらなるフレームについての傾斜評価結果56および周波数評価結果62を評価することによって、プロセッサ64は、スペクトル12'が導出される音響信号が人為的帯域幅制限を受けたかどうかの情報を導出することができる。たとえば、傾斜評価器52は、スペクトルにおける減衰のために傾斜を評価するために構成することができる。スペクトルは、傾斜の峻度に関して、すなわち、ロールオフ係数によって示されるように、定量化または評価することができる。
例として、傾斜評価器52は、スペクトル12'における減衰を評価するため、および減衰の尺度を示すように傾斜評価結果56を提供するために構成することができる。プロセッサ64は、減衰の尺度が少なくとも峻度閾値であれば、音響信号が所定の特性を含むことを示す情報66を提供するように構成することができる。任意選択で、この装置は、たとえば、プロセッサ64の一部であるか、別個に実装されるリサンプリング評価器を含むことができる。リサンプリング評価器は、アップサンプリングに関する所定の特性について音響信号を評価するために構成することができる。アップサンプリングは、サンプリング周波数を用いて実装することができ、たとえば、一般的なサンプリングレートは、11,025Hz、22,050Hzおよび/または32,000Hzであり得る。装置90および/または120は、リサンプリングが検出される場合のサンプリング周波数に基づいて、傾斜評価器52の、および/または周波数評価器58の周波数範囲を適応させるように構成することができる。リサンプリングを用いることによって、スペクトルの周波数範囲を適応または増加させることができ、低サンプリングレートは低周波数範囲に対応し得るとともに、高サンプリングレートはナイキスト基準に従ってスペクトルに高周波数範囲を含めることが可能になり得る。リサンプリング評価器は、予想サンプリングレートの特定のセットを観察または評価するために構成することができ、この周波数でスペクトルが大幅に減少するか、および上に顕著なエネルギーがなくなるかを評価できる。このような場合、前述のような傾斜における急なエッジが存在し、エネルギー閾値を超える顕著なエネルギーがなければ、エネルギー評価器は、それぞれのリサンプリング周波数またはサンプリングレートを用いて音響信号がリサンプリングされていると見なすことができる。リサンプリング評価器は、サンプリングレートに対応する決定または評価された周波数で決定規則
X(k)>閾値
が当てはまり、周波数kでのスペクトルの値が、ポイントkでスペクトル内に顕著なエネルギーがあることを示す閾値より大きいことを意味しているとき、否定的評価結果を得るために構成することができる。さらに決定規則
X(k)<X(k+1)-オフセットパラメータ
が当てはまることがあり、周波数k+1が増加すると、スペクトル、そのエネルギーがそれぞれ増加することを示している。この考察は、たとえば、0.1、0.2、0.3、0.5または1dBまたは異なる値のオフセットパラメータを減算することによって正規化することができ、すなわち、決定規則を満たすため、スペクトルはオフセットパラメータより増加しなければならない。これにより、ノイズなどによって引き起こされる影響を排除することが可能になる。したがって、振幅は、0.5dBを超える帯域幅制限を超える周波数ポイントkで、より高い周波数に向かって増加する。閾値は、上で説明したように、たとえば、-30dB、-40dB、-50dB、または-60dBとすることができる。これは、否定的決定について、急激な減衰がないか、またはそれぞれの周波数値を超えて振幅が増加するかのいずれかを意味している。
たとえば、スペクトル差関数S(k)または上述したような異なる適切な関数が閾値を超えるか、少なくとも閾値である値を導出するとき、音響信号が周波数インデックスkで帯域幅を制限するアップサンプリングを受けたことを示す肯定的評価結果が決定され得る。したがって、決定規則
S(k)>閾値
が当てはまることがあり、スペクトル差関数は、急峻で強い減衰を示すことができ、したがってリサンプリングを示すことができる。したがって、図11における最大値72が予想リサンプリングレート/リサンプリング周波数またはその近くに配置されると、リサンプリングの存在を決定することができる。
さらに、減衰は、量、すなわち、スペクトルにおける立ち下がりエッジの半分に関して評価することができる。たとえば、傾斜評価器52は、たとえば、100Hz、1kHzまたは2kHzの特定の周波数範囲内の減少に関して、および/または立ち下がりエッジにおける減少の総量について、傾斜54を評価することができる。
プロセッサ64は、スペクトル12'が人為的帯域幅制限を受けたかどうかを決定するために構成することができ、どのカットオフ周波数fcで上記制限が適用されたかを決定するためにさらに構成することができる。したがって、情報66は、少なくとも、プロセッサ64がスペクトル12'を人為的帯域幅制限処理に適用されたと決定したとき、変数Dまたは同様の情報を含むことができ、カットオフ周波数を示す情報をさらに含むことができる。
図10は、傾斜54を有する例としてのスペクトル12'を示す概略図を示している。傾斜評価器52は、スペクトル12'の、立ち下がりエッジ68のそれぞれ峻度に関して傾斜54を評価するために構成することができる。傾斜評価器52は、峻度の尺度を示す情報を含むように傾斜評価結果56を提供するために構成することができる。峻度の尺度は、たとえば、振幅X(f)の減少量ΔX1と周波数範囲Δfをリンクすることによって、たとえば、周波数範囲Δfあたりの減少量ΔX1として、または減少量ΔX1を得るために用いられる周波数範囲Δfに関して得ることができる。
プロセッサ64は、峻度の尺度が少なくとも峻度閾値であれば、音響信号が所定の特性を含むことを示す情報を提供するために構成することができる。峻度の尺度は、項目ΔX1/Δfの値の上昇に対して増加することができ、および/または項目Δf/ΔX1の値の減少に対して増加することができる。たとえば、峻度閾値は、少なくとも25dB/1kHz、30dB/1kHz、40dB/1kHzまたは50dB/1kHzまたはこれより高い値に等しいまたは比例する値を含むことができる。
傾斜評価器52は、たとえば、評価のためにスペクトル12'の一部のみを選択する窓関数を用いて、スペクトル12'のスペクトル差関数を決定するために構成することができる。窓関数は、スペクトル12'の複数の周波数値、傾斜54をそれぞれ組み合わせることができ、傾斜評価器52が窓関数の結果を用いて減衰の尺度を決定することを可能にし得る。これはウィンドウフィルタリングとも呼ぶことができる。異なるウィンドウの値を組み合わせる、たとえば、減算することによって、峻度の尺度を得ることができる。あるいは、任意の他の適切なプロセスを用いて傾斜54の峻度を評価することができる。あるいは、または加えて、周波数評価器は、スペクトル12'の第1の周波数帯域の第1のエネルギーレベルとスペクトルの第2のエネルギー帯域の第2のエネルギーレベルとの間の減衰を評価するために構成することができる。
第1のエネルギー帯域および第2のエネルギー帯域は、たとえば、いわゆる低周波数帯域およびいわゆる高周波数帯域であり得る。高周波数帯域は、ローパスフィルタリングされた後に無音になると予想される周波数帯域、たとえば、3kHzより上の周波数であり得る。低周波数領域は、このような周波数範囲より下の周波数を有する周波数領域を指すことができる。したがって、第1のエネルギー帯域は、第2の周波数帯域の第2の周波数範囲f2と比較したときに低い第1の周波数範囲f1を含むことができる。傾斜評価器52は、減衰ΔX2の尺度を示すように傾斜評価結果56を提供するために構成することができる。プロセッサ64は、減衰の尺度が少なくとも減衰閾値であるかどうかの情報66を提供するために構成することができる。減衰閾値は、たとえば、少なくとも30dB、少なくとも40dB、少なくとも50dBまたは少なくとも60dBまたはそれよりさらに高くてもよい。
換言すれば、減衰は、高周波数帯域におけるフィルタリング後に無視できるエネルギーのみが残るように高いと見なすことができる。たとえば、上部周波数領域f2における振幅は、通過帯域、すなわち、周波数領域f1における平均振幅よりも小さい-60dB(減衰閾値)未満である。スペクトルの峻度の評価と減衰量の評価との組み合わせにより、スペクトル12'の現フレームが人為的帯域幅制限を受けたことを決定することが可能になり得る。したがって、少なくとも1つまたは好ましくは両方の評価がこのような処理についてのヒントを与えれば、変数Dは1に設定することができる。評価基準の少なくとも1つまたは好ましくは両方が否定的に評価されれば、変数Dは0に設定することができ、すなわち、人為的帯域幅制限が適用されていないと決定することができる。
換言すれば、減衰の峻度は、低いサブバンドf1におけるスペクトル振幅と周波数インデックスkの周りの高いサブバンドf2におけるスペクトル振幅とを比較し、対象の範囲におけるすべての周波数インデックスについてこれを繰り返すことによって定量化することができる。一例は、以下によって形成することができるスペクトル差関数S(k)である。
S(k)=maxX1-maxX2
スペクトル差関数S(k)は、低い方のサブバンドの最大振幅と高い方のサブバンドの最大振幅との差として減衰を定量化することができる。パラメータkは周波数インデックスを指すことができる。X(k)は振幅スペクトルを示すことができる。演算maxは、ベクトルの最大値を返すことができ、ここでX1=(xk-a、xk-b)は、周波数インデックスkより下のスペクトルのセグメントを指すことができ、x2=(xk+b、xk+a)は、周波数インデックスkより上のスペクトルのセグメントを指すことができ、a>bである。ベクトルの長さ、すなわち、ベクトルX1および/またはX2において用いられるべきサンプルの数は、たとえば、3、5、8、または10またはこれよりさらに多くてもよい。非限定的な一実施形態において、長さ7の第1のセグメントと長さ7の第2のセグメントが、両セグメント間の5つの値のギャップに関連して用いられる。したがって、要素1、2、3、4、5、6、7の最大値が決定され、要素13、14、15、16、17、18、19の最大値と比較される。
あるいは、他の関数、たとえば、S2(k)=minX1-maxX2、またはX1およびX2の平均値から決定される差を用いることができる。
周波数評価器58は、音響信号の周波数帯域内のエネルギーの尺度を決定するため、およびエネルギーに基づいてカットオフ周波数fcを決定するために構成することができる。たとえば、周波数評価器は、周波数値が減少する周波数帯域における、すなわち、減少する周波数範囲内のエネルギーを評価することができる。図10に示した最上部の周波数を参照すると、周波数評価器は、たとえば、周波数範囲f2においてエネルギーの低量を決定することができる。いくつかのビンまたは1つの周波数ビンのみを含む比較的小さな周波数範囲を評価しながら、周波数評価器58は、示したように、周波数fを減少させエネルギーを増加させて傾斜54を決定することができる。カットオフ周波数fcで、周波数評価器58は、周波数範囲f2における低エネルギーレベルと比較したとき、たとえば、少なくとも30dB、40dB、50dBさらには60dBのエネルギーの強い増加を決定することができる。これに基づいて、すなわち、周波数範囲におけるエネルギーの増加に基づいて、周波数評価器58はカットオフ周波数fcを決定することができる。これは、サブバンドエネルギーが増加する周波数としてカットオフ周波数fcを決定することとも呼ぶことができる。
図11は、スペクトル差関数S(k)の例としての結果の概略図を示している。縦座標はスペクトル差関数S(k)の結果を示し、横座標は図10に示したものと同じ周波数軸を示している。スペクトル差関数により、傾斜54の峻度の尺度を得ることが可能になり得る。スペクトル差関数S(k)の局所的または大域的でもある最大72は、傾斜54が最も急な変動を含む、すなわち、減衰が非常に急である周波数を示すことができる。したがって、この尺度はあるいは、または加えて、カットオフ周波数fcの尺度として周波数評価器によって用いることができる。
傾斜54の減少、したがって減衰は、それぞれのベクトルの最大値を用いた差が十分な精度を提供することができるように、多数のサンプルに沿う範囲に及び得る。あるいは、スペクトル差関数は、個別の周波数値について決定されてもよく、すなわち、ベクトルX1およびX2は1の長さを有してもよい。
音質を向上させるため、元々低帯域幅を有する信号(たとえば、ベースンで演奏される低音)と、信号処理によって、たとえば、ロッシーエンコーディングまたはダウンサンプリングのために帯域制限された信号とを区別することが非常に重要である。これは、高音質を有する信号をいかなる後処理からも防ぎ、必要なときにのみ強調処理を適用するため、すなわち、信号から人為的に除去された高周波エネルギーを復元するためのみに後続の帯域幅拡張(BWE)を適用し、本来、低帯域幅を有する信号を処理しないために重要である。このような目的のため、減衰の峻度、減衰の量およびカットオフ周波数によって与えられる3つの特性に関して信号を分析することができる。これは、たとえば、第2の態様による装置によって実行される以下の処理ステップによって実行することができる。
図12aは、第2の態様の実施形態による装置120の概略ブロック図を示している。装置90と比較すると、装置120は、音響信号のいくつかのブロックから導出することができる複数のスペクトル121'から123'について所定の特性を決定するために構成されている。すなわち、音響信号はブロックに分割することができ、各ブロックからスペクトル12'を導出することができる。傾斜評価器52は、スペクトル121'から123'のそれぞれの傾斜54を評価するために構成されている。これに従って、周波数評価器58は、スペクトル121'から123'のそれぞれを評価するために構成されている。
プロセッサ64は、音響信号がスペクトル121'から123'のそれぞれについて所定の特性を含むことを示す情報66を提供するために構成することができる。音響信号が分割されるブロックの数は任意とすることができる。たとえば、ブロックの数が音響信号の長さに拠ることができるように、各ブロックの時間の長さは一定にすることができる。
装置120は、周波数評価器58に接続され、周波数評価結果62を受信するために構成されたフィルタ74を含むことができる。フィルタ74は、フィルタリングされた周波数評価結果62'を提供するために構成することができる。プロセッサは、音響信号が、スペクトル121'から123'のそれぞれについての複数の傾斜評価結果56および/またはそのフィルタリングされたバージョン、および音響信号の複数のスペクトル121'から123'に関連するフィルタリングされた周波数評価結果62'に基づいて、所定の特性を含むことを示す情報66を提供するために構成することができる。音響信号のエンコードに用いられるカットオフ周波数は、フィルタ74によって実装される、ローパスフィルタリング、移動最大、移動平均または移動中央値フィルタリングにより、たとえば、周波数評価器58が、異なるスペクトル121'から123'の間のわずかな異なるカットオフ周波数fcを決定するとき、さらなる処理のために変更されないまたは一定のままの、または少なくとも低レートで変化するフィルタリング値62'を取得することが可能になるように、本質的に時間不変、時間不変とすることができ、または、経時的にほとんど変化しない、またはまれに変化するパラメータであり得る。すなわち、取得した値fcの後処理は、ローパスフィルタリング、またはあるいは異なるフィルタリングによって実行することができる。
同様の方法で、人為的帯域幅制限処理に関する特性の変化が1つのフレームに存在し、後続のフレームには存在しない、すなわちないということがおそらくないように、人為的帯域幅制限は、通常、完全な音響信号または少なくともその大部分について実行される。したがって、プロセッサ64は、たとえば、複数のフレームについて、すなわち、複数のスペクトル121'から123'について中央値フィルタリングなどを用いて、変数Dまたは対応する結果または値の後処理を実行することができる。プロセッサは、音響信号の複数のフレームのそれぞれにそれぞれの情報を提供することによって、音響信号が所定の特性を含むことを示す情報66を提供するため、および結合された結果66'がフィルタにかけられてフィルタの出力に影響を及ぼす複数のフレームについて有効となるよう、フレームの結果を結合することによって、結合またはフィルタリングされた結果66'を提供するために構成することができる。たとえば、中央値フィルタリングを用いるとき、フレームおよび/またはスペクトル121'から123'の数が、それぞれのフィルタ、たとえば、プロセッサ64に接続された、またはプロセッサ64の一部である、またはプロセッサ64によって実装されるフィルタ76内で考慮される。フィルタ76の出力66'は、考慮されたフレームから派生した結合された中央値フィルタリングされた値であり得る。別個のブロックとして示しているが、フィルタ76は実装されてもよく、または他のコンピューティングブロックの一部であってもよい。
あるいは、または加えて、装置120は、スペクトル121'から123'の周波数帯域のエネルギーEを決定するため、およびそれぞれの周波数帯域内のエネルギーEの存在および/または量を示す信号82を提供するために構成された決定器78を含むことができる。信号82またはその派生信号は、プロセッサ64が決定されたエネルギーについての知識を有することができるように、プロセッサ64に提供することができる。いわゆる高周波数領域fhにエネルギーが存在するか否かに関心があってもよい。たとえば、高周波数領域fhは、少なくとも1kHz、2kHz、3kHz、4kHzまたは異なる値またはこれより上である周波数値、すなわち、異なる帯域幅制限周波数を有する周波数領域であり得る。たとえば、エンコーダが特定の周波数値を超える周波数を落とすまたは破棄することがある。周波数値は、音声関連のアプリケーションについて、3kHzまたは4kHzのような特定のアプリケーションに従っていてもよい。
決定器78は、スペクトル121'から123'がエネルギーを含むか、または高周波領域fhにおいて特定の閾値を超えるエネルギーを含むかを決定することができる。決定器78が、それぞれのスペクトル121'から123'が高周波数領域fhにおいてエネルギーEをまったくまたは少量しか含まないと決定する場合、カットオフ周波数および/または減衰の信頼できる決定は、たとえば、それぞれのフレームが適切な傾斜を提供しないため、困難または不可能ですらあり得る。非限定的な例のみによって、完全なスペクトルにおいてエネルギーを有さない無音スペクトルを考慮すると、カットオフ周波数も傾斜54の減衰も決定されない可能性がある。このような情報を信号82によって提供することができる。プロセッサは、実際のフレームまたはスペクトル121'から123'の評価をスキップすることができ、エネルギーEが、関連するエネルギーの有無を区別すると見なされるエネルギー閾値レベルを下回っていれば、前に観察または評価された前のスペクトルに基づいて情報66を提供するために構成することができる。別の言い方をすれば、実際のスペクトルが十分な情報を提供することができない場合、プロセッサは前のフレームに基づいて判断を下すことができる。
・任意選択のステップにおいて、音響信号/入力信号の短いブロックへの分割を実行することができ、すなわち、いくつかのブロックを取得することができる。ブロックの長さは、たとえば、少なくとも0.5ミリ秒、少なくとも1ミリ秒または少なくとも5ミリ秒、および最大1秒、500ミリ秒または100ミリ秒とすることができる。一例の間隔は、少なくとも2ミリ秒および最大80ミリ秒の値を含む。
・任意選択で、たとえば、変換またはフィルタバンクによって、各ブロックについての振幅スペクトルを計算する。したがって、装置90は、たとえば、スペクトル12'を提供するように振幅スペクトルなどのスペクトルを導出するための周波数導出器を含むことができる。各ブロックについて、図10に示したスペクトルに従うか、またはこれに類似したスペクトルを導出することができる。
・任意選択で、時間および周波数に関してスペクトル係数のローパスフィルタリングを実行することができる。たとえば、たとえば、傾斜評価器52および/または周波数評価器58および/または傾斜評価器52および周波数評価器58の両方を実装するプロセッサによって、移動平均化または再帰平均化を実行することができる。これにより、減衰および減衰の峻度、ならびにカットオフ周波数が、周波数範囲の評価により十分な精度が可能になり得るよう、個別の周波数値を超えて拡張された特定の周波数範囲内に配置されるため、計算負荷を減らすことが可能になり得る。
・任意選択で、入力信号がミュートであるか、高周波数領域にエネルギーを含まないとき、信頼できる推定を取得するのは困難なことがあり、取得するのは不可能なことがある。したがって、3kHzを超える最大サブバンドエネルギーが閾値を下回っていれば、このフレームは望ましい情報を含んでいないため、前のフレームの検出結果を用いることができる。
・任意選択で、たとえば、決定器78を用いて、信号がより低いサンプリング周波数からアップサンプリングされたかどうかを検出する。低ビットレートでの符号化信号が、通常、現在の処理フレームワークが動作するサンプリング周波数よりも低い可能性がある低サンプリング周波数でエンコードされる。デコーディング後のアップサンプリングまたはリサンプリングが検出されると、検出されるべき最高周波数がエンコーダのサンプリング周波数に等しくなるように、第2の態様による人為的帯域幅制限分析(ABLA)の検索範囲を変更することができる。リサンプリングを検出するため、11,025Hz、22,050Hz、32,000Hzおよび/または44,100Hzなどの一般的なサンプリングレートのセットについてリサンプリングの検出を実行することができる。サンプリング周波数の半分を超える範囲におけるスペクトル係数の最大値が閾値を下回るとき、リサンプリングを検出することができる。これは、サンプリングレートと比較したとき、周波数値の半分の周波数を取得することを可能にするナイキスト基準に基づいている。したがって、エネルギーが上半分において閾値を下回っているとき、これは用いられているサンプリングレートによって引き起こされている可能性がある。検出されるべき最高周波数が検出されたエンコーダのサンプリング周波数と等しくなるように検索範囲が変更され、したがってそれぞれのスペクトルの一部のみを検索することを可能にするように、次のABLA処理が次いで変更される。他の部分、たとえば、上半分は、アップサンプリングによって引き起こされると予想されるとして無視することができる。リサンプリングによる減衰は、エンコードの減衰より大きくなることがある。リサンプリング検出により、より低いカットオフ周波数fcでリサンプリングが帯域幅制限として誤って検出されないことを保証することができる。
・周波数にわたる減衰の峻度を定量化する検出関数、たとえば、スペクトル差関数を計算する。スペクトル差関数または図11と比較したときの代替バージョンを用いることができる。検出関数は、隣接する周波数帯域間のレベル差の情報を提供することができる。
・スペクトル差関数およびサブバンドエネルギーおよび閾値パラメータを評価する規則のセットを用いて、人為的帯域幅制限(ABL)を検出する。検索範囲の上端の周波数インデックスkで開始し、スペクトル係数およびスペクトル差関数S(k)または同様の関数または量の大きさXを、条件が有効になるまで、または検索範囲の下限に達するまで、条件のセットに関してテストすることができる。すべての閾値は、偽陽性検出と偽陰性検出との間のトレードオフを変更するように調整することができるパラメータである。以下の条件
1).x(k)>閾値、および
2).X(k)<X(k+1)-オフセットパラメータAND x(k)大きい閾値、
すなわち、振幅が閾値、たとえば、-60dBより大きいとき、オフセットパラメータ、たとえば、0.5dBより大きなBLを超える高い周波数に向かって振幅が増加する、
これにより、陰性検出につながる可能性がある。
1).S(k)>閾値、および
2).リサンプリングが検出された
以上による条件は陽性検出につながる可能性がある。
・カットオフ周波数fcを、たとえば周波数評価器58を用いて、サブバンドエネルギーが増加する周波数として決定する。
・任意選択で、たとえば、フィルタ74を用いたローパスフィルタ処理によってfcを後処理する。
・任意選択で、たとえば、フィルタ76を用いた中央値フィルタリングによってDを後処理する。
装置90および/または装置120は、信号強調器、たとえば、第1の態様に関連して説明した信号強調器48をさらに含むことができる。信号強調器48は、音響信号が所定の特性を含むことを示す情報66に依存する音響信号の人為的帯域幅制限処理によって引き起こされるアーティファクトを低減するために構成することができる。すなわち、信号強調器は、人為的帯域幅制限によって引き起こされるアーティファクトに適応させることができる。
以下において、第2の態様に従ってバーディー符号化アーティファクトを抑制または少なくとも低減するため、および知覚される音質を改善するために構成された装置を参照する。それぞれの装置または方法は、音響信号が人為的帯域幅制限に、および/またはスペクトル帯域複製などのスペクトル強調処理に関する特性を含むという情報が導出された場合に用いることができる。たとえば、この装置は、人為的帯域幅制限またはスペクトル帯域複製の少なくとも一方が検出された場合に用いることができる。
したがって、人為的帯域幅制限およびスペクトル強調処理の少なくとも一方が検出されると、スペクトルギャップと呼ぶことができる、スペクトルにおける急峻で高度に減衰した領域を検出するように、人為的帯域幅制限がそれに従い検出される概念を再利用または利用することができる。スペクトルギャップは第1のエッジおよび第2のエッジを含むことができる。したがって、スペクトルアイランドも第1のエッジおよび第2のエッジを含むことができ、それぞれのエッジ間にギャップまたはアイランドを配置することができる。
ここで図12bを参照すると、カットオフ周波数fcでの立ち下がりエッジ68を含む例としてのスペクトルが示されている。さらに、そのカットオフ周波数fcより低い周波数範囲で、例としてのスペクトルギャップ202および例としてのスペクトルアイランド204が配置されている。低周波数から始まり、まず立ち下がりエッジ2061が、その後に立ち上がりエッジ2062が配置され、その間の周波数範囲でスペクトルギャップ202を配置することができる。したがって、スペクトルアイランド204は、エッジ2063とエッジ2064との間に配置することができる。エッジは、エッジ68を見つけるために本明細書で開示された教示を用いて位置特定、定量化および認定することができ、特に、周波数/エネルギー評価を実行することができる。
カットオフ周波数fcとは対照的に、ギャップ202およびアイランド204の位置、存在および大きさ、ならびにそれらの数は、音響信号のフレーム間で変動し得る。簡略化すると、ギャップ202の充填および/またはアイランド204の減衰は、それぞれの周波数が可変であることを除き、カットオフ周波数fcに関連して説明したように、エッジ2061から2064を見つける概念を用いた後に実行することができる。すなわち、装置または信号強調器が、スペクトルギャップを埋めるため、および/またはスペクトルアイランドを減衰させるために構成することができる。したがって、音響信号自体から決定することができるスペクトル重みを用いることができ、すなわち、サイド情報は不要なままでよい。バーディー符号化アーティファクトを抑制することによって、知覚される音質を向上させることができる。導入された概念は、デコーダの後にある後処理概念として用いることができる。非圧縮音響信号に、および他のサイド情報にアクセスすることなく、それは盲目的に動作することができる。
バーディーアーティファクトを低減するように以下で説明する概念は、スペクトル重み付けまたは短期スペクトル減衰と呼ばれる基本原理を用いることができる。したがって、時間領域信号X[n]をその周波数領域表現X[k、m]に変換することができ、kおよびmはそれぞれ、タイムフレームインデックスにおける周波数を示す。説明する実施形態において、短時間フーリエ変換(STFT)を適用することができるが、他の変換を用いることもできる。スペクトル重み付けの出力信号Yは、次の式において与えることができる。
Y[k、m]=G[k、m]・X[k、m]
周波数領域信号Y[n]の時間領域表現Y[n]は、逆変換、実施形態においては逆STFTによって計算することができる。以下において、時間領域の信号は小文字で、周波数領域の信号は大文字で示す。インデックスkおよびmまたは周波数領域信号は、読みやすくするため省略する。
図12cは、デコーダから受信することができ、人為的帯域幅制限および/またはスペクトル帯域複製などのスペクトル強調を受けた可能性がある音響信号91を処理するために構成された装置125の概略ブロック図を示す。装置125は、傾斜評価器52および周波数評価器58を含む。傾斜評価器52は、図9および/または図12aに関連して説明したように、音響信号91のスペクトルの傾斜を評価して傾斜結果を得るために構成されている。周波数評価器は、たとえば、それぞれのアーティファクト、すなわち、ギャップ202および/またはスペクトルアイランド204を取り囲む、境界を定める、または囲いをしているエッジ2061および2062および/またはエッジ2063および/または2064で少なくとも第1の周波数および第2の周波数を評価するために構成することができる。
装置125は、スペクトル重みGおよび/またはWを決定するため、およびスペクトル重みGおよび/またはWを用いて、少なくともそれぞれのエッジ2061と2062、2063と2064の間のスペクトル領域において音響信号91を処理するために構成されたプロセッサ208を含む。装置125は、音響信号91の周波数領域、周波数ビンおよび/またはフレームのそれぞれについてスペクトル重みGおよび/またはWを決定するために構成することができる。スペクトル重みはG、スペクトルギャップを埋めるように音響信号と合成されるべき充填信号Sを形成または整形するために用いることができる。スペクトル重みWは、スペクトルアイランドを減衰させるように用いることができる。すなわち、スペクトルギャップ202におけるアーティファクトを低減するため、充填信号Fを用いることができる。スペクトルアイランド204によって引き起こされるアーティファクトを低減するため、アイランドの高さを減衰させるためにスペクトル重みWを用いることができる。複数の周波数値について、それぞれのスペクトルギャップ202およびそれぞれのスペクトルアイランド204内で、複数のスペクトル重みを決定することができる。
図12dは、スペクトル重みGを決定するためにプロセッサ208によって実装され得る機能の概略ブロック図を示している。スペクトルギャップは、周波数および時間領域/方向におけるスペクトル振幅領域の急激な減少、すなわち、少なくとも30dB、少なくとも40dB、または少なくとも50dBと定義することができる。経時的な追加評価により、トーン信号の高調波間のスペクトル領域がスペクトルギャップとして誤って検出されないことが分かる。非特許文献5において、この検出方法はスペクトル領域において完全なゼロを検索している。これは、この方法がデコーダにあり、エンコーダと同じフィルタバンクおよびブロッキングにアクセスを有するから可能であるに過ぎない。説明する実施形態は、振幅スペクトルXの差およびその平滑化されたコピーを用いて、急激な相対スペクトル変化を評価するデコーダの後処理に言及している。スペクトルギャップおよびスペクトルアイランドの両方を検出するための信号フローを図12dに示している。音響信号91のスペクトル表現を取得するため、STFTまたは異なるスペクトル計算器44を用いることができる。絶対値形成器212が、振幅スペクトルXを出力するために構成され得る。対数214が、次のような対数変換を用いるため、振幅スペクトルXを対数領域に変換するために構成されている。
X'=20log10(X)
得られた対数振幅スペクトルX'は、並列の2つのローパスフィルタによって平滑化することができ、第1のローパスフィルタ216aは、周波数領域において平滑化された信号Y'を取得するように、音響信号、すなわち、周波数領域における音響信号のスペクトルを平滑化するために構成することができる。第2のローパスフィルタ216bは、平滑信号Z'を得るように、時間領域において振幅スペクトルX'を平滑化するために構成することができる。対数領域において平滑化されると説明しているが、平滑化は線形領域または異なる領域において実行することもできる。すなわち、対数214はなくてもよく、またはローパスフィルタの後に配置されてもよい。すなわち、対数振幅スペクトルX'は、信号Y'および信号Z'にそれぞれつながる可能性のある周波数および時間の両方で、2つのローパスフィルタによって平滑化することができる。特別な重みGの計算のため、線形値は次のように計算することができる。
Figure 2020512594
これらの線形値は、周波数差値および/または時間差値を得るように、振幅スペクトルXと比較することができる。時間Z'および周波数Y'にわたってスペクトルの振幅Xと平滑化されたバージョンを比較する相対差ΔtおよびΔfは、たとえば、各スペクトル係数について、および各フレームについて、対数領域において
Δf=Y'-20log10(X)
および
Δt=Z'-20log10(X)
によって計算することができ、Δfは周波数差値を指し、Δtは時間差値を指す。
スペクトル重み計算器218は、以下に従ってスペクトル重みGを計算するために構成することができる。
Figure 2020512594
すなわち、周波数差値Δfが周波数差閾値Δf以上であれば、および時間差値Δtが時間差閾値Δt以上であれば、スペクトル重みGは非ゼロ値に設定される。時間差値ΔfおよびΔtはそれぞれの閾値Δf、Δtより大きい必要があると説明しているが、他の閾値または異なるように選択された閾値に基づいて、利得パラメータは、閾値に等しいときも、Γであり得る。次の決定規則を適用することができる。
Figure 2020512594
ここで、ΔfおよびΔtは閾値パラメータを示す。α、βおよびγは、スペクトル重み計算の特性に影響を与えるパラメータである。すべてのパラメータは調整可能なパラメータである。κは、重み付けの影響を増加させるために用いられる用語であり、決定規則に従って、またはこれに基づいて計算することができる。
Figure 2020512594
計算されたスペクトル利得は、たとえば、ローパスフィルタ222a、222bを用いて、それぞれ時間および周波数にわたって平滑化される。スペクトル利得は続いて、図12eに関連して説明するように、充填ソース信号Sのスペクトル重み付けに用いられる。
図12eは、バーディーアーティファクトを低減するために構成された信号強調器200の概略ブロック図を示している。この処理は、たとえば、プロセッサ208の使用によって行うことができる。装置200は、充填信号Fを得るように、たとえば、乗算によって、充填ソース信号Sをスペクトル重み付け係数Gと結合するための結合器224を含むことができる。充填信号Fは、スペクトルギャップが推定された場所で非ゼロ値のみを含む構造を含むことができる。さらなる結合器226を、たとえば、加算によって、充填信号Fを振幅スペクトルXと結合するように構成することができる。すなわち、充填信号Fは入力信号Xに追加される。充填ソース信号Sは、時間領域において音響信号91をフィルタリングすることによって取得または生成することができ、これは先行フレームからの情報を延長する。あるいは、充填ソース信号は、1つのスペクトルフレーム内の他の位置からスペクトル係数をコピーすることによって、応答場所でスペクトルギャップを示さない他の音響チャネルからスペクトル係数をコピーすることによって、および/またはスペクトルギャップを示さない前のスペクトルフレームからスペクトル係数をコピーすることによって、取得することができる。
既知の概念において、たとえば先進的音響符号化(AAC)の知覚ノイズ置換(PNS)ツールからのノイズ置換が用いられる。スペクトルのノイズのような部分は、所与のターゲットエネルギーに一致するように調整された値の擬似ランダムシーケンスによってデコーダにおいて置換される。このプロセスはサイド情報によって制御される。さらに、ノイズ充填と名付けられた技術が知られている。ノイズ充填は、統合音声音響符号化(USAC)コーデックにおいて用いられ、小さなビットバジェットの制約下で動作する量子化器のデッドゾーンによって引き起こされるスペクトルホールを埋める。これらのスペクトルゼロを埋めるために値の擬似ランダムシーケンスが用いられる。さらに、インテリジェントギャップ充填と名付けられた技術がMPEG-Hおよび3GPP EVSから知られている。ここで、スペクトルギャップは、ノイズで、または離れたスペクトル位置から供給されたスペクトルタイルを用いて充填される。このプロセスはサイド情報によって制御される。本明細書に記載の実施形態は、先行する時間フレームからの時間周波数情報の分布を用いてスペクトルホールを埋めるように、ノイズ充填とは異なる。PNSとは対照的に、フィルタリングされた出力信号は、PNS帯域全体ではなく、スペクトルギャップ内のみに注がれる。PNSおよびIGF(インテリジェントギャップ充填)とは対照的に、本実施形態は、ガイドなしの処理として、すなわち、サイド情報を用いることなく用いることができる。
装置200は、またプロセッサ208によって実行することができるスペクトルアイランド重み計算器228を含むことができる。結合器226から受信され、入力スペクトルXと充填信号Fとを
Z=X+F
に従って加算することによって得られる信号Zに含まれるスペクトルアイランドは
Y=W・Z
に従うスペクトルの重み付けによって抑制することができる。
G、Wはスペクトル重みであり、各フレームmおよびスペクトル係数kについて再計算される。できるだけ多くの帯域幅を保持するため、スペクトルギャップが充填された後にスペクトルアイランドの抑制が行われる。スペクトルの主要部分に接続できなかった孤立したスペクトルアイランドのみが最終的に抑制される。部分的な強調を達成するため、スペクトルアイランド抑制は、スペクトルギャップ充填なしで実行することができる。あるいは、スペクトルギャップ充填は、スペクトル重みの計算なしで実行することができる。
スペクトル重み計算を抑制するため、およびスペクトル重みWを計算するため、以下の教示を実装することができる。スペクトルアイランドは、非常に低いスペクトル振幅値に囲まれた周波数および時間方向のスペクトル振幅領域の急激な増加として定義することができる。大きさの上昇は、たとえば、少なくとも30dB、少なくとも40dBまたは少なくとも50dBであり得る。スペクトルアイランドは、スペクトルの重み付けによって対応するスペクトル係数を減衰させることによって抑制することができる。スペクトル重みWを導出するため、図12dに関連して説明したものと同様の処理を実行することができる。スペクトル重みGについて説明したように、時間差値および周波数差値ΔfおよびΔtを決定することができる。スペクトルの重みWは、次の決定規則に基づいて導出することができる。
Figure 2020512594
ここで
Figure 2020512594
Δpは、スペクトルアイランドが低エネルギーのスペクトル係数に囲まれているという仮定を反映した閾値である。ΔfおよびΔtは閾値パラメータである。上述のように、α、βおよびγは調整可能なパラメータである。上の決定規則を考慮して、スペクトルアイランドの範囲で、信号Z、Yをそれぞれ減衰することを可能にするスペクトル重みΩが決定され、すなわち、Ωは1より小さい値である。スペクトルアイランドの外側の範囲において、Wは1の値であり、すなわち、減衰は実行されない。装置200は、たとえば、乗算を用いてスペクトル重みWを信号Zと結合するように結合器232を含むことができる。ISTFTを実行するように、すなわち、時間領域信号を取得するため、信号変換器234を用いることができる。
換言すれば、バーディー抑制の概念は、スペクトルギャップ充填とスペクトルアイランド抑制とに分けることができる。充填信号Fは、スペクトル重みG付きの広帯域充填ソース信号Sをフィルタリングすることによって計算することができる。Fはゼロ以外の値のみを含み、
F=G・S
に従って決定されたXにおいてスペクトルギャップが識別されている。
図12fは、音響信号を処理するための方法1500の概略フローチャートを示している。方法1500は、音響信号のスペクトルの傾斜を評価して傾斜評価結果を得るステップ1600を含む。ステップ1700は、周波数評価結果を得るよう、スペクトルがエッジを含む少なくとも第1の周波数エッジおよび第2の周波数エッジを評価することを含む。ステップ1800は、スペクトル重みを決定し、スペクトル重みを用いて、第1の周波数エッジと第2の周波数エッジとの間のスペクトル領域において音響信号を処理することを含む。
図13aは、音声信号の人為的帯域幅制限処理に関する所定の特性を決定するための方法2000の概略フローチャートを示している。方法2000は、音響信号のスペクトルの傾斜を評価して傾斜評価結果を取得することを含むステップ2100を含む。ステップ2200は、傾斜評価結果の評価に依存する所定の特性を音響信号が含むことを示す情報を提供することを含む。プロセッサ64によって提供される情報66は、たとえば、信号強調器を用いて音響信号の音質を改善するために適用される帯域幅拡張処理を始動させるために用いることができる、以下でDと呼ぶ変数を含むことができる。任意選択で、カットオフ周波数fcを決定することができ、すなわち、任意選択のステップが、音響信号のスペクトルのカットオフ周波数を評価して周波数評価結果を取得し、傾斜評価結果に依存して、および周波数評価結果に依存して、音響信号が所定の特性を含むことを示す情報を提供することができるようにすることを含むことができる。カットオフ周波数fcは、欠落している周波数領域のみを回復するようにBWEが動作する周波数範囲を決定することによって、帯域幅拡張(BWE)を制御するために用いることができる。これは、他の一実施形態による方法2500の概略フローチャートを示す図13bに示され、この方法は、音響信号のスペクトルのカットオフ周波数を評価して周波数評価結果を得ることを含むステップ2150を含む。
ABLA、すなわち、それぞれの特性の検出を使用または必要とすることができる第2のアプリケーションは、音響信号をロッシー圧縮による低音質の信号として分類することである。この分類は、説明した分析のみに基づいて、または音響信号から抽出することができる他の情報と組み合わせることによって行うことができる。この文脈において用いることができる追加情報についての例は、ステレオ信号の幅またはスペクトル帯域複製(SBR)、すなわち、ロッシーコーデックによって適用される方法の存在である。ABLAを次いで用いて、BWE処理に限定されず、ロッシー圧縮の為された信号の音質を改善する他の処理を始動させる。例としては、ステレオ幅の、および過渡信号成分の強調のためのフィルタリングがある。
ABLAの結果、すなわちパラメータDおよびカットオフ周波数fcは、人間のオペレータを関与させることなく、このようなアーティファクトを自動的に修復するために用いることができ、または必要になることさえある。音質が劣化した信号にのみ音質の向上を適用することは非常に重要であり得る。高品質の信号は、音質に悪影響を与えるおそれがあるため、このような方法で処理されるべきではない。第2の態様による実施形態は、人為的帯域幅制限を受けている音響フレームまたは音響信号を高精度で検出することを可能にしている。音響信号には、音生成プロセスによって決定される自然な帯域幅がある。帯域幅は、信号のキャプチャ、保存、処理および送信のために適用される帯域幅制限を含む、様々な技術プロセスのため変化する可能性がある。帯域幅制限は、上述のように、非常に急な減衰、非常に高い減衰およびカットオフ周波数という特性を有するローパスフィルタリングである。
以下において、たとえば、第2の態様に従って人為的帯域幅制限を決定したことに応答して、第3の態様における帯域幅制限信号を帯域幅拡張するための概念を参照して、本発明の第3の態様および第4の態様を参照する。したがって、第3の態様による実施形態は、第2の態様に関連して信号強調器として用いることができる。
第3の態様による概念は、いくつかの符号化アーティファクトを抑制して、知覚される音質を改善することを目的としている。技術的なステップは、後処理として実行することができ、デコーダによって用いることができるソフトウェアを用いて部分的に実行することができる。この概念は、非圧縮音響信号に、および他のサイド情報にアクセスすることなく盲目的に機能することができる。第3の態様による低ビットレート符号化強調処理は、遺産知覚コーダによって事前符号化された音響素材の無誘導後処理に対する概念に関する知覚的快感を導入または強化するポストプロセッサを含む、または本質的にこれからなる。これによって、事前にコード化された音響素材は、知覚的な快適さという現代的な概念から利益を得ることができる。
第3の態様および第4の態様に関連して説明する実施形態は、スペクトル重み付けまたは短期スペクトル減衰と呼ばれる基本原理を用いることができる。したがって、時間領域信号x[n]は、その周波数領域表現X[k、m]に変換され、kおよびmはそれぞれ周波数および時間フレームインデックスを指す。実施形態によれば、短時間フーリエ変換(STFT)を適用することができるが、他の変換も用いることができる。スペクトル重み付けの出力信号Yは、次の式によって与えられ得る。
Y[k、m]=G[k、m]・X[k、m]
ここで、周波数領域信号Y[k、m]の時間領域表現y[n]は、逆変換、たとえば、逆STFT、すなわち、ISTFTによって計算することができる。以下のセクションにおいて、時間領域の信号は小文字で、周波数領域の信号は大文字で示すことができる。インデックスkおよびmまたは周波数領域信号は、読みやすくするために省略する。スペクトル重み付けは、スペクトル重み付けG[k、m]についての詳細が説明されているスペクトル重み付けと呼ばれる態様に関連してより詳細に説明される。
図14は、第3の態様の実施形態による装置140の概略ブロック図を示している。装置140は、音声信号を処理するために構成されており、処理のために音響信号のスペクトル12'を受信することができる。装置140は、音響信号、すなわち、音響信号12の時間領域表現を受信するために構成することができ、そしてスペクトル12'を導出することができ、たとえば、装置140は、このような目的のためにスペクトル計算器44を含むことができる。
装置140は、音響信号91のスペクトル91'の第1の部分91'aを、音響信号91のスペクトル91'の第2の部分91'bから分離するためのセパレータ92を含む。第1の部分91'aは第1の信号特性を有し、第2の部分91'bは第2の信号特性を有する。音響信号91は、時間領域において、および/または周波数領域において装置140によって受信され得、たとえば、カットオフ周波数fcを用いて帯域幅制限されてもよく、後処理を受けてもよい。帯域幅拡張に関する第3の態様の1つの主な特徴は、各部分におけるモジュールについて異なるパラメータ設定を適用することによって独立して処理される過渡信号部分および持続信号部分などの異なる特性に入力信号を分割することができることである。
第1の信号特性および第2の信号特性は、異なる知覚によって、および/または周波数範囲内の異なる特性によって互いに異なり得る。実施形態はこれに限定されないが、第1の信号特性および第2の信号特性は互いに相補的であり得、すなわち、共通のスペクトル91'から一方の信号特性を除去、除外または減算することによって、残りの部分が他方の特性を形成する。非限定的な例として、第1の信号特性はスペクトルの中間周波数範囲であり得、第2の信号特性はスペクトルのサイド周波数範囲であり得る。あるいは、第1の信号特性は音響信号の直接信号特性であり得、第2の信号特性は音響信号の周囲信号特性であり得る。他の一実施形態によれば、第1の信号特性は音響信号のトーン特性であり得、第2の信号特性は、過渡などと称され得る音響信号の持続信号特性であり得る。あるいは、第1の信号特性は音響信号の音声特性であり得、第2の信号特性は音響信号の非音声特性であり得る。他の信号特性も可能である。さらに、これらの組み合わせを形成すること、すなわち、上で特定された特性の2つ以上を組み合わせることが可能である。第1部分91'aおよび第2の部分91'bは、同等または同じ帯域幅、開始周波数および停止周波数を含むことができ、互いに組み合わされたとき、スペクトル91'を再び形成することができる。すなわち、過渡持続信号分解によって分割または分離を行うことができる。あるいは、または加えて、ミッドサイド信号分解、直接周囲信号分解または前景/背景分解および/または音声非音声分解など、他の分解規則または方法が可能である。
装置140は、第1の拡張部分98aを取得するため、第1の信号特性に関連する第1のパラメータ961を用いて第1の部分91'aの帯域幅を拡張するための第1の帯域幅拡張器941を含むことができる。装置140は、第2の拡張部分98bを取得するため、第2の信号特性に関連する第2のパラメータ962を用いて第2の部分91'bの帯域幅を拡張するための第2の帯域幅拡張器942をさらに含む。帯域幅拡張は、元の信号と結合されるべきスペクトルにおける追加部分または周波数部分を形成することを含むことができる。これは、非線形性の適用による転置、スペクトル伸張または倍音の生成による、このようなさらなる周波数領域のコピーおよび/または生成を含むことができる。第1の帯域幅拡張器および第2の帯域幅拡張器を用いることによって、異なる部分91'aおよび91'bに存在する異なる信号特性は、それぞれの帯域幅拡張器941および942によって異なると見なされ得る。たとえば、コピーされた部分の帯域幅、コピー数、コピーの交替、取得される信号のスペクトル整形および/または人為的に生成されるスペクトル部分の周波数特性は、異なる信号特性に関連するパラメータ961および962の異なるセットを用いることによって考慮され得る異なる信号特性間で変化することがある。これにより、帯域幅拡張を信号特性に高度に適合させることが可能になる。
第1の信号特性および第2の信号特性を考慮するための第1の帯域幅拡張器および第2の帯域幅拡張器を含むものとして装置140を説明したが、さらなる実施形態による装置は、2つ以上、たとえば、3つ、4つ、5つまたはさらに大きな数を異なる帯域幅拡張にかけるために構成することができる。このような装置は、対応する数の帯域幅拡張器を含むことができるが、たとえば、異なる信号特性を順次処理するとき、少なくとも2つの帯域幅拡張について1つの帯域幅拡張器を用いることもできる。したがって、装置140は、1つの帯域幅拡張器94を実装することによって、そしてこの帯域幅拡張器を異なるパラメータ961および962に順次適応させながら、異なる部分91'aおよび91'bを順次処理するために実装することができる。
装置140は、拡張合成音響信号104を得るために第1の拡張部分98aおよび第2の拡張部分98bを用いるために構成された合成器102を含む。拡張部分98aおよび98bは、合成音響信号104も時間領域にあり得るように、時間領域表現として合成器102から受信することができる。あるいは、拡張部分98aおよび98bは、合成された音響信号104も後で時間領域に変換されるように周波数領域にあり得るように、周波数領域において合成器によって受信することができる。あるいは、合成器102は、時間領域で合成音響信号104を提供するため、単一部分98aおよび98bのそれぞれまたはそれらの組み合わせバージョンを時間領域に変換するように構成することができる。
図15は、異なる成分106aおよび106bを含む例としてのスペクトルを示す概略図である。たとえば、成分106aは、たとえば、スネアドラムによって得られるスペクトルの過渡信号に関連し得る。このような信号は、1つのスペクトルフレーム内でより高い相関を有することがあり、また、たとえば、人間の声に関し得るスペクトル部分106によって示されている持続信号よりも高い帯域幅を有することがある。図15において、過渡部分106aは、たとえば、歌声など、部分106bよりもかなり大きな帯域幅を有することが分かる。
図16は、第3の態様の一実施形態による装置160の概略ブロック図を示している。以下において、音響信号およびその派生信号を参照する。音響信号は、時間領域において、および/または周波数領域において存在および/または処理することができ、両変形は、周波数から時間への変換または時間から周波数への変換によって互いに対して変換することができる。したがって、音響信号を参照するとき、これは、時間領域表現および同義的に許容される周波数領域表現を指すことができ、そうでなければ明示的に説明する。
装置160は、音響信号91の周波数領域表現91'を受信するために構成されたセパレータ92を含む。この目的のため、装置160は、時間領域表現から周波数領域表現91'を取得するためのスペクトル計算器44を含むことができる。
セパレータ92は、音響信号、たとえば、その周波数領域表現を受信するため、および第1の修正音響信号を取得するように音響信号91における過渡部分を低減するために構成された過渡抑制器108を含むことができる。セパレータ92は、第1の修正音響信号に基づいて第1の部分98aを取得するために構成することができる。一実施形態によれば、第1の部分98aは第1の修正音響信号に対応する。他の一実施形態によれば、第1の変更部分の処理、たとえば、フィルタリング、増幅、減衰などが実行される。
セパレータ92は、第2の修正信号を得るよう、音響信号91から第1の修正音響信号、たとえば第1の部分91'aを減算するための減算器112を含むことができる。一実施形態によれば、第2の修正信号は第2の部分91'bである。第1の部分91'aについて説明したように、第2の部分91'bは、取得した減算結果の処理に基づいて取得することもできる。したがって、音響信号91から第1の部分91'aを除去することによって、第2の部分91'bを取得することができる。第1の修正信号を取得することによって、および第2の修正信号を取得するようにそれを音響信号から減算することによって、音響信号の2つの部分への分解を実行することができる。
セパレータ92は、周波数領域において、または時間領域において動作し、過渡抑制器108が音響信号91のスペクトルの各サブバンドについての過渡および/またはトーン部分を低減または除去するよう、音響信号91を処理するように構成することができる。これは、過渡またはトーン(すなわちノイズの多い)部分をほとんどまたはまったく含まないサブバンドについての処理を少なくする、さらにはなくすことにつながり得る。過渡抑制器108は、分離されるべき特性の1つを、それらを抑制することによって、または増幅することによって処理するように過渡処理段階、トーン処理段階および/または結合段階を含むことができる。音響信号91の周波数領域表現は、多数のサブバンド(周波数帯域)を含むことができ、過渡処理段階および/またはトーン処理段階は、これらの周波数帯域のそれぞれを処理するように構成されている。あるいは、音響信号91の周波数変換によって得られたスペクトルは、選択された特性を含むか、選択された特性が欠落している周波数帯域など、特定の周波数範囲または周波数帯域をさらなる処理から除外するように削減、すなわち、カットすることができる。これにより、計算の労力が削減されるため、より速い、および/またはより正確な処理が可能になり得る。
過渡処理段階は、処理された周波数帯域のそれぞれについて、周波数帯域が過渡部分を含むかどうかを決定するように構成することができる。トーン処理段階は、周波数帯域のそれぞれについて、音響信号91が周波数帯域内にトーン部分を含むかどうかを決定するように構成することができる。過渡処理段階は、少なくとも過渡部分を含む周波数帯域についてスペクトル重み係数を決定するように構成することができ、スペクトル重み係数は、それぞれの周波数帯域に関連し、それぞれの部分を減衰/除外または増幅することを可能にし得る。過渡特性およびトーン特性は、スペクトル処理によって特定することができる。過渡性および/またはトーン性のレベルは、セパレータ92の過渡処理段階および/またはトーン処理段階によって測定することができ、スペクトル重みに変換することができる。セパレータ92は、少なくともトーン部分を含む周波数帯域についてスペクトル重み係数を決定するように構成することができる。スペクトル重み係数は多数の可能な値を含むことができ、スペクトル重み係数の大きさは、周波数帯域内の過渡および/またはトーン部分の量を示している。
スペクトル重み係数は、絶対値または相対値を含むことができる。たとえば、絶対値は、周波数帯域内の過渡および/または調性音のエネルギーの値を含むことができる。あるいは、スペクトル重み係数は、0と1との間の値などの相対値を含むことができ、値0は、周波数帯域が過渡または調性部分をまったくまたはほとんど含まないことを示し、値1は、大量または完全に過渡部分および/または調性部分を含む周波数帯域を示している。スペクトルの重み係数は、3、5、10またはそれ以上の値(ステップ)、たとえば、(0、0.3および1)、(0.1、0.2、…、1)などのような、多数の値の1つを含むことができる。スケールのサイズ、最小値と最大値との間のステップ数は、少なくともゼロ、しかし好ましくは少なくとも1、より好ましくは少なくとも5であり得る。好ましくは、スペクトル重みの多数の値は、最小値、最大値、および最小値と最大値との間の値を含む少なくとも3つの値を含む。最小値と最大値との間の値の数が多くなると、周波数帯域のそれぞれのより連続的な重み付けが可能になり得る。最小値および最大値は、0と1との間のスケールまたは他の値に調整することができる。最大値は、過渡性および/または調性の最高または最低レベルを示すことができる。
セパレータ92の結合段階は、周波数帯域のそれぞれについてのスペクトル重みを音響信号と結合するように構成することができる。セパレータ92は、結合されたスペクトル重みを周波数帯域のそれぞれに適用するように構成することができる。たとえばスペクトル重みは、処理された周波数帯域における音響信号91のスペクトル値と乗算することができる。
音響信号91からいくつかの部分/特性を抑制または除外することによって、それぞれの特性を欠くが他の特性を含む第1の修正信号を得ることができる。音響信号から信号を減算することによって、抑制された特性を含み、第1の修正信号の特性を欠く逆信号を、第2の修正信号によって得ることができる。
以下において、帯域幅拡張器941および942の例としての構成を参照する。帯域幅拡張器941および942のそれぞれは、それぞれの部分の少なくとも一部を複製するための複製器114を含むことができ、少なくとも複製器によって生成された拡張部分を整形する包絡線整形器116を含むことができ、少なくとも拡張部分を等化するための白色化器118を含むことができ、および/または拡張部分の少なくとも一部を位相シフトするための粗さ低減フィルタ122を含むことができる。これらの要素のそれぞれは、他の参照要素とともに配置することができる。あるいは、これらの要素の一部またはすべてが存在しないことがあり、および/または他の要素によって置換されることがある。たとえば、複製器によって実行されるコピーの代わりに、帯域幅の人為的な生成が帯域幅拡張器によって実行されると、帯域幅ジェネレータが複製器114の代わりになることができる。あるいは、スペクトルの整形または白色化は却下することができ、および/または他の処理を用いることができる。さらに、粗さ低減フィルタ122は任意選択である。内向き短期フーリエ変換ブロック124の出力が供給されることによって時間領域においてそれぞれの信号をフィルタリングするように示しているが、粗さ低減フィルタは、周波数領域において動作するために構成することができ、したがってそれぞれの逆短期フーリエ変換ブロック124の前に配置することができる。このように、配置されたブロックに加え、その順序も変えることができる。
帯域幅拡張器941および942のそれぞれは、それぞれの第1の複製器1141および第2の複製器1142を含むことができる。複製器1141および1142は、それぞれの第1の部分91'aおよび第2の部分91'bの少なくとも一部を複製するため、およびそれぞれの延長部分126a、126bを得るように、第1の部分、第2の部分のそれぞれ複製された部分の少なくとも1つのバージョンをそれぞれ第1の部分、第2の部分91'a、91'bと結合するために構成される。
ここで図17aを参照すると、第1の部分91'aの例としてのスペクトルが示されており、与えられた説明は、制限なしに第2の部分91'bに言及している。部分91'aは、カットオフ周波数fcより下で関連エネルギーまたは振幅|X|を有することができ、カットオフ周波数fcより上で少量のエネルギーを含むことができるか、またはエネルギーを含まなくてもよい。スペクトルは、周波数の増加とともに減少し得る。換言すれば、図17aは、帯域制限された信号の振幅スペクトル|X|を示している。カットオフ周波数はfcとして示している。
図17bは、2つの複製部分1281および1282によって延長されている第1の部分91'aの概略図を示している。複製部分1281および1282のそれぞれは、第1の部分91'aの周波数帯域wのコピーであり得、部分91'aによって占有されていない周波数範囲、すなわち、カットオフ周波数fcを超える周波数範囲にコピーされており、好ましくは、複製部分1281および1282は、元の信号、すなわち、第1の部分91'a上で直接順序付けられるように組み合わされている。図17bはしたがって、コピーアップがどのように実行されるかを示している。複素スペクトル係数は、周波数間隔[fc-w、fc]におけるいわゆるソースパッチwから間隔[fc、fc+w、fc+2w]などにおける宛先パッチに、すなわち、各nについての[fc(n-1)w、fc+nw]にシフトされ、nは1からパッチの数または挿入されるコピーの数までの範囲の変数である。図17bにおける非限定的な例によって2である数nおよび複製部分の幅Dfwは、帯域幅拡張器941および942のそれぞれについて独立して装置160によって調整することができる。すなわち、ソースパッチwがシフトされる頻度は、所望の帯域幅および/またはパッチの数に依存し得るものであり、両方とも調整可能なパラメータであり得る。スペクトルの大きさの減少と同様に、パッチが取り付けられている場所でステップまたは不連続が発生することがある。
第1の部分および第2の部分のコピー部分は、第1の中間周波数、たとえば、第1の部分91'aのfcopy1から第1の部分の最大周波数fcまでの範囲であり得る。したがって、第2の部分のコピー部分は、第2の部分91'bの同じまたは異なる中間周波数からカットオフ周波数fcでもあり得る第2の部分の最大周波数までの範囲の第2の周波数範囲を含むことができる。異なる中間周波数に基づいて、幅Dfwは異なり得る。結果として同じ帯域幅を取得するため、したがって、異なる帯域幅拡張器間でパッチの数が変わることもある。
望ましくないアーティファクトを回避するため、第1の帯域幅拡張器は第1の包絡線整形器1161を含むことができ、第2の帯域幅拡張器942は第2の包絡線整形器1162を含むことができる。包絡線整形器1161および1162は、少なくとも拡張部分、すなわち、カットオフ周波数fcより上の周波数部分を整形するために構成することができる。振幅スペクトルは平坦でないことが多く、図17aに示すように、高い周波数に向かって振幅が低下する傾向があるので、包絡線の整形、すなわち、スペクトル包絡線整形の実行を用いることができる。図17bは、さらなる適応なしでコピーアップが実行されたときの振幅スペクトルを視覚化している。振幅スペクトルの急激な遷移が、周波数fc、fc+w、…、fc+kwで現れることがある。これにより、鋭く明るい音が知覚される可能性があり、これは包絡線整形器1161および1162によって防止されるはずである。
このような影響を避けるため、周波数間隔[fc-w、fc]を含むソースパッチの対数スペクトルに線形回帰によって適合された傾斜│X│を計算することによって、図17bに示すようなスペクトルチルトTを推定することができる。各パッチwは値kTで減衰させることができ、すなわち、パッチを周波数範囲にコピーするほど、減衰が大きくなる。kは自然数であり得、いわゆるパッチ次数であり得、これは1から始まり、シフトされる各追加パッチについて増加し、したがって前述のnに対応し得る。
換言すれば、図17bは、包絡線整形なしのスペクトル係数のコピーアップを示している。コピーアップのためのソースは、間隔[fc-w、fc]からのものであり、wはパッチの幅である。アナログシェーピング中、間隔[fc、fc+2w]におけるコピーされたターゲットパッチの大きさは、スペクトル傾斜を表すTの倍数で減衰される。
図17cは、少なくとも拡張部分1261を整形するために構成されている包絡線整形器1161から取得され得る例としての振幅スペクトル132aを示している。補間に基づいて、複製された部分1281および1282の大きさは、均一なスペクトルを得るように整形または減衰され得る。図17cは、パッチ次数2の包絡線整形の振幅スペクトルを示し、パッチ次数は1以上の任意の値を含むことができる。帯域幅拡張器491および492のそれぞれは、少なくとも拡張された第1の部分、拡張された第2の部分をそれぞれ等化するための白色化器を含むことができる。スペクトルの白色化は、スペクトル値を上げてスペクトルピークを下げることによって行うことができる。
より良い理解のため、図18に、音響信号91を独立して白色化するために構成されているスペクトル白色化器の概略ブロック図を示す。白色化器は、音響信号のスペクトルを取得するようにスペクトル計算器44を含むことができる。白色化器134は、各スペクトル係数および時間フレームの大きさX[k、m]を平滑化バージョンY[k、m]と比較するために構成することができ、kはスペクトル係数インデックスであり、mはフレームインデックスである。Y[k、m]は、周波数にわたって対数スペクトルの大きさを平滑化することによって導き出すことができる。続いて、これらの対数値は、以下による決定規則を用いて線形領域に変換することができる。
Figure 2020512594
実数値のスペクトル重みG[k、m]は、以下の決定規則によって説明されているように計算することができる。
Figure 2020512594
ここでも、読みやすくするために、インデックスkおよびmは省略する。α1、α2、β1、β2、γ1、γ2は、白色化器1181および1182のそれぞれについて独立して適応させることができる調整可能なパラメータである。白色化器は、スペクトルの絶対値を計算するための計算器126を含むことができる。これらの値はXと呼ぶことができ、これらの値は、任意のスペクトル重みGを計算するための計算器138に提供されるものであり、平滑化バージョンYを得るように平滑化経路142に提供されるものである。周波数変換器144が、結果を時間領域に変換するために構成され得る。ここで図16を参照すると、白色化器1181および1182は、周波数計算器44および/または周波数変換器144などなしでそれぞれの白色化器を実装できるように、周波数領域においてすでに動作することができることが分かる。
帯域幅拡張器941および942のそれぞれは、拡張された第1の部分の、拡張された第2の部分のそれぞれ少なくとも一部を位相シフトするためのそれぞれの粗さ低減フィルタ1221、1222をそれぞれ含むことができる。これは、複製部分1281および1282および/またはその成形バージョン128'1、128'2および/または白色化バージョン146aおよび146bをそれぞれ位相シフトすることとして実行され得る。すなわち、粗さ低減フィルタは、位相シフトされた信号を取得するように、それぞれの拡張部分またはその右の信号を位相シフトするために構成されている。粗さ低減フィルタ1221および1222は、フィルタリングされるべきそれぞれの信号に異なる位相シフトを適用するために構成することができる。位相シフトを用いることによって、元の信号に対するコピー部分または拡張部分の位相シフトを取得することができる。あるいは、粗さ低減フィルタは、提供される完全な信号への位相シフトを実行することができる。これは、たとえば、以下で説明するように、それぞれのコア部分が非位相シフト部分によって後で置き換えられるときに実行することができる。粗さ低減フィルタ1221および1222は、時間領域においてそれぞれの信号をフィルタリングするように実装することができる。したがって、ISTFTブロック1241、1242を、時間領域においてそれぞれの信号を提供するように配置することができる。あるいは、粗さ低減フィルタ1221および1222は、周波数領域においてフィルタリングするように実装することができる。このような場合、ISTFTブロック1241および1242はなくてもよく、または粗さ低減フィルタ1221、1222の後にそれぞれ配置されてもよい。粗さ低減フィルタリングを実行して、コピーアップによって主に引き起こされる知覚される粗さを低減することができる。ここでは、信号の音色には影響を与えないが、主に信号の位相を変更するフィルタが適し得る。たとえば、ネストされた2つのオールパスフィルタを並列に配置することができ、時間領域において計算することができる。ネストされたオールパスフィルタは、それぞれのフィルタのユニティゲインオールパス伝達関数を表すH1(z)およびH2(z)として理解することができ、このときH1(H2(z))とH2(H1(z))とは両方ともオールパスフィルタである。
任意選択で、帯域幅拡張器941および942のそれぞれは、持続部分または過渡部分を増幅するためにそれぞれ利得gt、gsを適用するための増幅器/減衰器1481、1482をそれぞれ含むことができる。結果は、合成器102に提供される拡張部分98aおよび98bであり得る。上で説明したように、拡張部分98aおよび98bは、異なる方法で、および/または説明した信号修正の一部のみを実行することによって取得することができる。
粗さフィルタに関連して、装置160は、フィルタリング信号154を得るように、第1の拡張部分および第2の拡張部分98aおよび98b、合成信号102をそれぞれ同義的にフィルタリングするためのハイパスフィルタ152を含むことができる。帯域幅拡張器941および942と並行して、音響信号91は、ブロック44における時間周波数変換およびブロック1241および1242における周波数時間変換によって引き起こされる時間遅延を補償するための遅延156を受け得る。装置160は、遅延音響信号をフィルタリングするために構成されたローパスフィルタ158を含むことができる。装置160は、ローパスフィルタリングされた音響信号と信号154とを合成するために構成された合成器162をさらに含むことができる。一実施形態によれば、装置160は、合成された均質信号を取得するよう、ローパスフィルタ158の上限周波数(カットオフ周波数Xc)をハイパスフィルタ152の下端周波数と一致させるように構成されている。特に、装置160は、音響信号91の決定されたカットオフ周波数に応答して、これに従って、ローパスフィルタ158の上端周波数(カットオフ周波数)とともにハイパスフィルタ152のそれぞれのより低い周波数を適応させるように構成することができる。したがって、ハイパスフィルタ152に基づいて、カットオフ周波数fcより下の信号部分は、拡張および移相部分のみが残るように、除去または強く減衰され得る。これとは対照的に、ローパスフィルタ158は、音響信号91の一部を除去、破棄または強く減衰するために用いることができ、その一部はそれぞれカットオフ周波数fcを超えて延びる。これにより、粗さ低減フィルタ1221および1222を除く、帯域幅拡張器における他の遅延を補償するようにのみ遅延している元の音響信号91に対して位相シフトされている拡張およびコピーされたバージョンを取得することが可能になる。得られた音響信号164は、拡張され最適化された音声信号であり得る。
粗さ低減フィルタリングはスペクトルの帯域幅拡張エリアにのみ適用されるはずであるため、結果の信号はハイパスフィルタリングされ、ローパスフィルタリングおよび遅延入力信号に追加することができる。遅延は、STFTによって導入された遅延を補償するために用いられ、または必要とされている。前述のハイパスフィルタおよびローパスフィルタのカットオフ周波数は、たとえば、図17aに示すように、カットオフ周波数fcに対応し得る。
図16に関連する図19に関して、装置160の信号分析器である任意選択のブロック166およびルックアップテーブルである168の機能が示されている。装置160は、ブラインド帯域幅拡張であり得る。これは、説明したように、たとえば、サイド情報に基づいて、さらなる知識を有することなく、失われた帯域幅を復元することを目的とし得る。信号分析器166は、信号が人為的に帯域制限されているか否かを検出するために構成することができ、および/または音響信号91のカットオフ周波数fcを推定することができる。両方のステップは、人為的帯域幅制限分析に関連して説明したように実行することができる。両方の値は、フレームごとに更新することができる。したがって、音響信号91は複数のフレームを含むことができる。装置160は、音響信号91の人為的帯域幅制限に関する特性について音響信号91のスペクトルを各フレームについて分析するため、および音響信号91におけるカットオフ周波数fcを決定するために構成された信号分析器166を含むことができる。
図19においてそれぞれf0、f1、f2、f3、f4として概略的に参照される異なるカットオフ周波数に基づいて、複製器114、整形器116、白色化器118および/または粗さ低減フィルタ122の機能を適合させるために用いられている異なるパラメータが変化し得る。たとえば、パラメータpを用いて、それぞれのブロックを適応させることができる。図19に示すように、異なるカットオフ周波数が、異なるパラメータまたは同じパラメータの異なる値に関連し得る。これらの値は、それぞれのパラメータをそれぞれのブロックに提供するためにルックアップテーブル168に格納することができる。図16において、破線のつながりは、たとえば、リアルタイムでモジュールが制御されることを示している。例としてのパラメータがあり得るが、ここに一例がある。1つのパラメータはソースパッチwの帯域幅であり得る。このパラメータは、人為的に作成された帯域幅に影響することがある。他の一例のパラメータは、異なるコーデックについて異なる可能性のある平滑化フィルタの時定数であり得る。複数の他の例を用いて、周波数領域および/または時間領域においてブロック114、116、118および/または122を制御することができる。
ルックアップテーブルは、信号解析結果に応じて、制御パラメータの一部またはすべてについての調整を保持することができる。カットオフ周波数fcの推定の場合、選択された各周波数fiについて、対応するパラメータの知覚的調整が実行されてもよく、これは制御値piにつながり得る。選択された値piは、異なる帯域幅拡張器について異なり得る、すなわち、装置160は、それぞれのブロックを異なる方法で適合させるように構成され得ることが留意される。帯域幅拡張器941または942についてのルックアップテーブルサンプリングポイントsiは、たとえば、以下によるタプルとして与えることができる。
si=(fi、pi)
図19において、5つのカットオフ周波数f0からf4についての1つの制御パラメータpの調整についての例を示す。いくつかの例によれば、中間値が適切であると、パラメータは補間することができる。このような場合、間隔[fi、fi+1]における2つのサンプリングポイント間で、線形補間を以下によって実行することができる。
Figure 2020512594
このような補間値のための一例は、たとえば、図17a〜図17cに関連して説明したような各パッチの幅wであり得る。補間されないままである可能性のあり得るパラメータは、たとえば、整数値に制限されるいくつかのパッチであり得る。
この装置は、人為的帯域幅制限に関する特性を有するフレームについて第1のパラメータおよび第2のパラメータを用いるために構成することができる。他のフレームについて、この装置は、たとえば、人為的帯域幅制限に関する特性とは異なる特性を有するフレームについて、第1の帯域幅拡張器には第3のパラメータおよび第2の帯域幅拡張器には第4のパラメータを用いるために構成することができる。あるいは、この装置は、人為的帯域幅制限に関連する特性とは異なる特性を有するフレームについて第1の帯域幅拡張器および第2の帯域幅拡張器を停止状態にするように構成されてもよい。このように、この装置は、それぞれの特性を含むと見なされるフレームについて帯域幅拡張を実行するために構成することができ、そしてその特性を含まないと見なされるフレームを、第3のパラメータおよび第4のパラメータを用いて異なる方法で、またはそれぞれのフレームを未処理のままにするように処理することができる。
この装置はしたがって、カットオフ周波数fcなどの対応する複数の信号修正パラメータに関連する複数のパラメータと、第1の帯域幅拡張器941および第2の帯域幅拡張器942についてそれぞれ用いられる対応する複数の信号修正パラメータfcに関連する複数の他のパラメータと、を含むルックアップテーブル168を含むことができる。この装置は、音響信号91に適用される修正についてスペクトルを分析するための信号分析器166を含むことができる。装置160は、修正に関連する修正パラメータ、たとえば、カットオフ周波数fcおよび/または傾斜の峻度に関するパラメータを導出するために構成することができる。この装置は、ルックアップテーブルを用いて、および修正パラメータを用いて、それぞれの第1のパラメータおよび/または第2のパラメータを導出するために構成することができる。一例によれば、この装置は、修正パラメータカットオフ周波数を導出することができ、そして第1の帯域幅拡張器について1回、第2の帯域幅拡張器について1回パラメータpを決定することができる。
既知の概念において、人為的帯域幅拡張はよく知られた音響符号化技術である。また、ガイドなしの帯域幅拡張もよく知られている。しかしながら、帯域幅拡張計算前のセマンティック分解は知られていない。帯域幅拡張アプリケーションにおいて必然的に見られるようなコピーアップまたは転置機能を含まない、空間アップミキシングという目的のためにセマンティック非相関を用いることができる。したがって、第3の態様による実施形態は異なる。他の技術が非相関の帯域幅拡張から知られている。ここで、すべての高帯域ターゲットスペクトル領域が、専用の非相関器により、または相互に独立するようにランダムなノイズの非相関インスタンスを挿入することにより相関が失われる。既知の概念は異なるスペクトルターゲット領域の非相関を含むだけであるが、第3の態様による本実施形態は、セマンティックに分解された信号部分の相互非相関を教示している。
図20は、第3の態様の一実施形態による方法3000の概略フローチャートを示している。方法3000は、音響信号のスペクトルの第1の部分を音響信号のスペクトルの第2の部分から分離することを含むステップ3100を含み、第1の部分は第1の信号特性を有し、第2の部分は第2の信号特性を有する。ステップ3200は、第1の拡張部分を取得するため、第1の信号特性に関連する第1のパラメータを用いて第1の部分の帯域幅を拡張することを含む。ステップ3300は、第2の拡張部分を取得するため、第2の信号特性に関連する第2のパラメータを用いて第2の部分の帯域幅を拡張することを含む。ステップ3400は、拡張された合成音響信号を取得するため、第1の拡張部分および第2の拡張部分を用いることを含む。
第4の態様によれば、粗さ抑制は、たとえば、異なる概念で帯域幅拡張を実行した後の後処理として実行することができる。したがって、たとえば、人為的帯域幅制限が実行され、それぞれの拡張も実行されたと判断したとき、信号強調器48に関連して、アーティファクトを低減するよう、粗さ抑制または粗さフィルタリングを用いることができる。
図21は、第4の態様の一実施形態による装置210の概略図を示している。装置210は、たとえば、人為的帯域幅拡張の対象である音響信号12を処理するために用いることができる。装置210は、位相シフトされた信号172を得るよう、音響信号12の少なくとも一部を位相シフトするための粗さ低減フィルタ122を含むことができる。粗さ低減フィルタ122は、たとえば、時間領域において、あるいは周波数領域において動作することができる。一実施形態によれば、粗さ低減フィルタ122は、完全な音響信号12を位相シフトするために構成することができる。装置210は、第1のフィルタリングされた信号174を得るよう、位相シフトされた信号172をフィルタリングするためのハイパスフィルタ、たとえば、ハイパスフィルタ152を含む。装置210は、第2のフィルタリングされた信号176を取得するよう、音響信号12をフィルタリングするためのローパスフィルタ158などのローパスフィルタを含む。装置210は、信号174と176とを合成して強調音響信号178を得るための合成器162をさらに含み、ここでは知覚される粗さが低減されている。装置160に関連して説明したように、拡張帯域幅は音響信号12に対して位相シフトされている。一態様は、選択されたフィルタ周波数、カットオフ周波数fcをそれぞれ超えるいずれの信号部分をも除去するよう、ローパスフィルタ158を用いて音響信号12をフィルタリングすることである。これにより、合成信号178における異なる信号部分の影響または重ね合わせを低減または制限することが可能になる。
図22は、第4の態様の一実施形態による装置220の概略ブロック図を示している。図16に関連して説明したように、装置220は、周波数領域において音響信号12の第1の部分12'aおよび第2の部分12'bを提供するためのセパレータ92を含むことができる。装置220は異なる経路を含むことができ、各経路は、非限定的な例のみによって、時間領域においてそれぞれ動作する粗さ低減フィルタ1221、1222とともに、非限定的な例によって、それぞれ白色化器1181、1182を含む。あるいは、または加えて、各経路は増幅器/減衰器148を含むことができる。このように、装置220は、異なる部分12'aおよび12'bを互いに独立して強化することによって音響信号12を強化するために構成することができる。このような目的のため、装置220は、図16に関連して説明したように、信号分析器166およびルックアップテーブル168を含むことができる。
特に、装置220は、音響信号12における帯域幅拡張の開始周波数を決定するために構成された信号分析器166を含むことができ、帯域幅拡張の開始周波数は、拡張帯域幅、たとえば、音響信号12の、図17a〜図17cによる追加パッチwまたはその処理されたバージョンと、コア帯域幅、すなわち、音響信号91の帯域幅などの元の帯域幅との間に配置されている。
これに関連して、この装置は、音響信号12における帯域幅拡張の開始周波数に従って、ハイパスフィルタ152のより低い周波数および/またはローパスフィルタ158のより高い周波数を適応させるように構成することができる。帯域幅拡張の開始周波数は、さらなるチャネルによって受信されてもよく、信号分析器166によって決定されてもよい。
装置210の独立した実施形態と、および第4の態様の他の実施形態のそれぞれと組み合わせることができる一実施形態によれば、この装置は、たとえば、音響信号における帯域幅拡張の開始周波数を用いて、音響信号12を強調するための白色化器118、包絡線整形器などを含む粗さフィルタおよび/または信号強調器を適合させるように構成され得る。たとえば、音響信号12における帯域幅拡張の開始周波数に基づいて、ルックアップテーブルは、白色化器118および/または粗さ低減フィルタ122および/またはさらなるブロックなど、調整されるべきブロックのそれぞれについて4つの異なるパラメータを提供することができる。
第4の態様による他の実施形態のそれぞれと組み合わせることができる一実施形態によれば、粗さ低減フィルタ122は第1の経路に配置することができ、ローパスフィルタ158は第2の経路に配置することができる。第2の経路は、粗さ低減フィルタに提供される、または粗さ低減フィルタから受信される信号に基づいて信号を等化するための白色化器118を含むことができ、すなわち、白色化器および粗さ低減フィルタの順序または順番は変更することができる。
第4の態様のさらなる一実施形態によれば、これは他の実施形態のそれぞれと組み合わせることができ、粗さ低減フィルタ122は第1の経路に配置することができ、ローパスフィルタ158は第2の経路に配置することができる。装置220は、たとえば、白色化器118および/または整形器116を用いて、第1の経路において、および少なくとも部分的に周波数領域において音響信号を強化するように構成された信号強調器を含むことができる。第2の経路は、最大で±10%、±5%または±2%の許容範囲内で時間周波数変換および周波数時間変換によって引き起こされる第1の経路における遅延に対応し、おそらく粗さ低減フィルタの遅延を除外している遅延だけ音響信号12を遅延させるための遅延156などの遅延ブロックを含むことができる。
さらなる一実施形態によれば、これは第4の態様による他の実施形態のそれぞれと組み合わせることができ、粗さ低減フィルタ122は第1の粗さ低減フィルタである。この装置は、音響信号12のスペクトルを受信するため、および音響信号12のスペクトル12'の第1の部分12'aを音響信号12のスペクトルの第2の部分12'bから分離するためのセパレータを含む。第1の部分12'aは第1の信号特性を有し、第2の部分12'bは第2の信号特性を有する。装置220は、第1の粗さ低減フィルタ1221を有する第1の経路に第1の部分12'aを提供するため、および第2の粗さ低減フィルタ1222を有する第3の経路に第2の部分12'bを提供するために構成することができる。
前述の実施形態と組み合わせることができるさらなる一実施形態によれば、この装置は、第1の経路に第1の利得gtを、第3の経路に第2の利得gsを適用するように構成することができる。
前および最後から2番目の実施形態と組み合わせることができる第4の態様のさらなる一実施形態によれば、この装置は、音響信号12の帯域幅拡張の開始周波数を用いて互いに異なる方法で第1の粗さ低減フィルタ1221および第2の粗さ低減フィルタ1222を調整するために構成することができる。
第4の態様の最後の3つの実施形態と組み合わせることができる第4の態様のさらなる一実施形態によれば、セパレータは、音響信号12を受信するため、および第1の修正された音響信号を取得するよう、音響信号12における過渡部分を低減するために構成された過渡抑制器108などの過渡抑制器を含む。セパレータ92は、たとえば、第1の部分12'aとして第1の修正音響信号を用いることによって、第1の修正音響信号に基づいて第1の部分12'aを取得するために構成されている。セパレータ92は、第2の修正信号を得るよう、音響信号12から第1の修正音響信号を減算するための減算器112をさらに含む。セパレータ92は、たとえば、第2の修正音声信号を第2の部分12'bとして取ることによって、第2の修正音声信号に基づいて第2の部分を取得するために構成されている。
第4の態様のさらなる一実施形態によれば、これは最後の4つの実施形態と組み合わせることができ、第1の信号特性は、a)スペクトルの中間周波数範囲、b)音響信号の直接信号特性、c)音響信号のトーン特性、およびd)音響信号の音声特性のうちの1つである。第2の信号特性は、次に用いる文字a)スペクトルのサイド周波数範囲、b)音響信号の周囲信号特性、c)音響信号の持続信号特性、およびd)音響信号の非音声特性に従うものである。
第4の態様のさらなる一実施形態によれば、これは第4の態様の他の実施形態のそれぞれと組み合わせることができ、強調音響信号164は、第1のフィルタリングされた信号と比較すると位相シフトされている第2のフィルタリングされた信号を含み、すなわち、低い周波数領域と比較すると、高い周波数領域が位相シフトされる。
図23は、音響信号を処理するための方法4000の概略フローチャートを示している。方法4000は、位相シフト信号を得るように音響信号の少なくとも一部を位相シフトすることを含むステップ4100を含む。ステップ4200は、第1のフィルタリング信号を得るよう、ハイパスフィルタを用いて位相シフト信号をフィルタリングすることを含む。ステップ4300は、第2のフィルタリング信号を得るよう、ローパスフィルタを用いて音響信号をフィルタリングすることを含む。ステップ4400は、強調音響信号を得るよう、第1のフィルタリング信号と第2のフィルタリング信号とを合成することを含む。換言すれば、人為的帯域幅拡張粗さ抑制(ARS)は、前述のように、トーンスパイクアーティファクトまたはビートアーティファクトなどのアーティファクトを削減することを目的としている。図22に示すように、ARSの方法またはブロックのいくつかは、前にすでに説明したBWEの概念によっても用いられる。これらの一般的な方法または概念は、異なるパラメータ調整で用いることができることにも留意しなければならない。以下のセクションにおいて、装置160と装置220との間の違いを概説する。
信号分析器を用いて、一方で信号が人為的に帯域幅拡張されているか否かを検出することによって、図22におけるARSを始動させる。他方、現在の信号に適用された人為的帯域幅拡張の開始周波数(カットオフ周波数)のリアルタイム推定が実行され得る。信号の説明は、本明細書に記載の他の態様による概念を実行することができるかどうかを分析する。信号分析器の結果は、図22に示すモジュールに影響する制御パラメータを含んだ出力を得るためにルックアップテーブル168に転送される。ルックアップテーブル168は、いくつかの開始周波数について知覚的に調整されたパラメータ調整を含むことができる。
ARS用のルックアップテーブルは、図16に関連して説明したBWEのルックアップテーブルと同じ原理に基づき得るが、従属変数がBWEの開始周波数の推定であり得るという違いがある。制御されるパラメータも異なり得る。
いくつかの態様を装置の文脈で説明したが、これらの態様は対応する方法の説明も表し、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で説明した態様は、対応するブロックまたは項目または対応する装置の特徴の説明も表す。
本発明のエンコードされた音響信号は、デジタル記憶媒体上に格納することができ、またはインターネットなどの無線伝送媒体または有線伝送媒体などの伝送媒体上を伝送することができる。
特定の実装要件に応じて、本発明の実施形態は、ハードウェアにおいて、またはソフトウェアにおいて実装することができる。実装は、デジタル記憶媒体、たとえばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを用いて実行することができ、これらには、電子的に読み取り可能な制御信号が格納されており、それぞれの方法が実行されるよう、プログラム可能なコンピュータシステムと協働する(または協働することができる)。
本発明によるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるよう、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータ担体を含む。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するために動作する。プログラムコードは、たとえば、機械読み取り可能な担体に格納することができる。
他の実施形態は、機械読み取り可能な担体に格納された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
換言すれば、本発明の方法の実施形態はしたがって、コンピュータプログラムがコンピュータ上で実行されるとき、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
本発明の方法のさらなる一実施形態はしたがって、本明細書に記載の方法の1つを実行するためのコンピュータプログラムが記録されたデータ担体(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。
本発明の方法のさらなる一実施形態はしたがって、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスはたとえば、データ通信接続を介して、たとえばインターネットを介して転送されるように構成することができる。
さらなる一実施形態は、本明細書に記載の方法の1つを実行するように構成または適合された処理手段、たとえばコンピュータ、またはプログラマブルロジックデバイスを含む。
さらなる一実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
いくつかの実施形態において、プログラマブルロジックデバイス(たとえばフィールドプログラマブルゲートアレイ)を用いて、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態において、本明細書に記載の方法の1つを実行するためにフィールドプログラマブルゲートアレイがマイクロプロセッサと協働することができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。
上述の実施形態は、本発明の原理についての単なる例示である。本明細書に記載の配置および詳細の修正および変更は、他の当業者には明らかであろうことが理解される。したがって、本明細書の実施形態の記載および説明として提示された特定の詳細によってではなく、すぐ後の特許請求の範囲によってのみ限定されることが意図されている。
10 装置
12 音響信号
12'、12'1、12'2、12'3 スペクトル
12'a 第1の部分
12'b 第2の部分
14 導出器
16 スペクトル
181〜187 極大値
22 信号
24 決定器
261、262、263 領域
27 振幅閾値、閾値、エネルギー閾値レベル
28 信号
32 プロセッサ
34 情報
36 周波数推定器
38 信号
381、382、383 水平線
42a、42b グラフ
44 スペクトル計算器
46 フィルタ
48 信号強調器
52 傾斜評価器
54 傾斜
56 傾斜評価結果
58 周波数評価器
62、62' 周波数評価結果
64 プロセッサ
66 情報
66' 結合結果
68 立ち下がりエッジ
72 最大値
74 フィルタ
76 フィルタ
78 決定器
82 信号
90 装置
91 音響信号
91' スペクトル
91'a 第1の部分
91'b 第2の部分
92 セパレータ
94、941、942 帯域幅拡張器
961 第1のパラメータ
962 第2のパラメータ
98a 第1の拡張部分
98b 第2の拡張部分
102 合成器
104 拡張合成音響信号
106a、106b 成分
108 過渡抑制器
112 減算器
114 複製器
1141 第1の複製器
1142 第2の複製器
116 整形器
1161 第1の包絡線整形器
1162 第2の包絡線整形器
118、1181、1182 白色化器
122、1221、1222 粗さ低減フィルタ
1241、1242 ISTFTブロック
125 装置
126a、126b 延長部分
1281、1282 複製部分
132a 振幅スペクトル
134 白色化器
138 計算器
140 装置
142 平滑化経路
144 周波数変換器
148、1481、1482 増幅器/減衰器
152 ハイパスフィルタ
154 フィルタリング信号
156 遅延
158 ローパスフィルタ
160 装置
162 合成器
166 信号分析器
168 ルックアップテーブル
172 位相シフトされた信号
174 第1のフィルタリングされた信号
176 第2のフィルタリングされた信号
178 強調音響信号、合成信号
200 信号強調器
202 スペクトルギャップ
204 スペクトルアイランド
2061、2062、2063、2064 エッジ
208 プロセッサ
210 装置
212 絶対値形成器
214 対数
216a 第1のローパスフィルタ
216b 第2のローパスフィルタ
218 スペクトル重み計算器
222a、222b ローパスフィルタ
224 結合器
226 結合器
228 スペクトルアイランド重み計算器
234 信号変換器
1000、1500、2000、2500、3000、4000 方法
本発明は、音響信号のスペクトル強調処理に関する所定の特性を決定するための装置および方法に関する。
マルチメディアアプリケーションにおいて、音響信号はしばしば、MPEG1/2レイヤ3(「mp3」)、MPEG2/4先進的音響符号化(AAC)などの専用の知覚符号化方法を用いて符号化される。エンコードされた音響信号をデコードするとき、元々エンコードされていた音響信号を再構築するために多様な処理方法を適用することができる。しかしながら、知覚的適応量子化などのロスあり符号化動作またはスペクトル帯域幅複製(SBR)などのパラメトリック符号化技術により、デコードされた音響信号において妨害となるかもしれないアーティファクトを取得する可能性がある。
かなり長い間、元の信号の知覚的な質を何よりも保つために知覚音響コーダが開発されてきた。符号化信号と非符号化信号とが知覚的に区別できない場合、この特性は「知覚的透明性」と呼ばれる。
しかしながら、透明性は、使用可能なビットレート(すなわち用いられるデータの量)が十分に高い場合にのみ、達成されうる。近年、低ビットレートでは、透明性の意味においてオリジナルに近いことよりも知覚的な心地よさが重要になることが認識された。したがって、MP3またはAACのようなよく確立された知覚符号化スキームは、知覚的な心地よさを目的としている現代の符号化アプローチと比較して、これまでのところ準最適のように思われることがある。以下において、いくつかの符号化アーティファクトを簡単に説明する。
バーディーアーティファクト
低ビットレートの変換符号化では、スペクトル線の符号化用の量子化器はしばしば、それらのダイナミックレンジが信号に適応するよう、非常に粗い精度に設定しなければならない。結果として、多くのスペクトル線が、最初の量子化器ステップに対応して、量子化器の不感帯によって0に、または値1に量子化される。時間が経つにつれて、スペクトル線または線のグループが0と1との間で切り替わることがあり、これによって望ましくない時間変調が導入される。このアーティファクトは、鳥のさえずりを連想して「バーディー」と呼ばれている。したがって、スペクトルホールとスペクトルアイランドのこの強力で時変的な存在は、好ましくない知覚的アーティファクトにつながる望ましくないコーデック挙動である。非特許文献2および非特許文献3参照。
帯域幅制限
他のよく知られた符号化アーティファクトは帯域幅制限である。低ビットレートの符号化条件で、使用可能なビットバジェットが透明性に必要な精度に対応するには不十分であれば、レガシーコーデックはしばしば、静的ローパスを導入して音響帯域幅を制限していた。これにより、音が鈍くくぐもった印象になることがある。非特許文献2および非特許文献3参照。
トーンスパイクアーティファクト
このアーティファクトは、トーン対ノイズ比が過大評価されているとき、スペクトル帯域複製(SBR)などの人為的帯域幅拡張方法に関連して現れる。非特許文献4参照。この場合、調性成分が、金属音につながる過度のエネルギーで再現される。非特許文献3参照。
ビーティングアーティファクト
トーンスパイクアーティファクトと同様に、ビーティングアーティファクトは、人為的帯域幅拡張とともに現れる。ビーティングは粗さの知覚を作成し、SBRにおいて用いられるようなコピーアップによって引き起こされる可能性のある周波数距離が近い2つのトーン成分から発生する。非特許文献3参照。
したがって、音響信号がアーティファクトを導入することが可能な処理を受けたかどうかを検出すること、および/またはそのようなアーティファクトを低減することが目的である。
アーティファクトの元となり得る処理方法についての例は、デコーダ側で音響信号の帯域幅を拡張するためのセミパラメトリックな方法であるスペクトル帯域複製(SBR)である。第1のステップにおいて、低域から高域の周波数領域にスペクトル係数をコピーすることによって、伝送されるローパス信号スペクトルの一部が複製される。第2のステップにおいて、スペクトル包絡線が調整される。スペクトル包絡線の調整は、スペクトルの粗い形状が所与の目標に一致するように行われるが、微細構造は未修正のままである。
SBRの検出が望ましいのは、取得された情報から以下のことを結論付けることができるからである。
1.知覚音響符号化によって信号が圧縮されている(すなわち、損失が多い)。したがって、上記のアーティファクトタイプに対処する強調方法の適用が適切である。
2.SBRによって導入されたアーティファクトの可聴性を低減するための専用の方法によって信号の音質を潜在的に改善することができる。このような方法は、SBRが有効になる開始周波数についての知識から利益を得る。
SBRが有効になる開始周波数は、SBRによって導入されたアーティファクトを軽減することによって音質を改善する後処理にとって重要である。したがって、SBRを検出し、SBRの開始周波数を推定する必要がある。特に、そのような強調が望ましいか否かを判断することが望まれる。たとえば、音響信号が高音質であるとき、強調により音質が低下するおそれがあるため、それは高音質の信号には適切でない。
SBRの検出のための方法が、米国特許第9,117,440号に記載されている。記載された方法は、フィルタバンクまたは時間周波数変換を用いて計算されるサブバンド信号に作用する。次いで、相互相関によって、すなわち、対応するサンプルを乗算してこれらの積を経時的に蓄積することによって、複数のサブバンド間の関係を定量化する。
アーティファクトの元についての他の例は、帯域幅制限(BL)とも呼ばれる帯域幅削減(BR)である。帯域幅が厳しく制限されると、音質の劣化が知覚され、質の向上が望まれる。このような質の改善は帯域幅拡張(BWE)を含むことができるが、これは必要な場合にのみ、すなわち信号の自然な帯域幅が人為的に大幅に減少したときにのみ適用すべきである。帯域幅の推定を用いるBWEのための方法が非特許文献1に記載されている。帯域幅は、任意の所与の時点で信号に存在する最高周波数を検出することによって推定される。この方法では、信号を生成するメカニズムが低い周波数でのみエネルギーを生成すると、音響信号の帯域幅が本質的に制限されることがあるため、偽陽性検出のエラーが起こりやすくなる。
要約すると、音響コンテンツ用の格納スペースまたはストリーミング帯域幅が制限されているとき、知覚音響コーダが広く用いられている。適用される圧縮率が非常に高い(そして圧縮後の使用データ率が非常に低い)場合、知覚される音響の質を低下させるいくつかの符号化アーティファクトが導入される。
米国特許第9,117,440号
M. Arora、J. Lee、およびS. Park、「High quality blind bandwidth extension of audio for portable player applications」、Proc. of the AES 120th Conv.、2006年 Markus Erne、「Perceptual audio coders "what to listen for?"」、Audio Engineering Society Convention 111、2001年11月 Chia-Ming Chang、Han-Wen Hsu、Kan-Chun Lee、Wen-Chieh Lee、Chi-Min Liu、Shou-Hung Tang、Chung-Han Yang、およびYung-Cheng Yang、「Compression artifacts in perceptual audio coding」、Audio Engineering Society Convention 121、2006年10月 Martin Dietz、Lars Liljeryd、Kristofer Kjorling、およびOliver Kunz、「Spectral band replication, a novel approach in audio coding」、Audio Engineering Society Convention 112、2002年4月 Sascha Disch、Andreas Niedermeier、Christian R. Helmrich、Christian Neukam、Konstantin Schmidt、Ralf Geiger、Jeremie Lecomte、Florin Ghido、Frederik NagelおよびBernd Edler、「Intelligent gap filling in perceptual transform coding of audio」、Audio Engineering Society Convention 141、2016年9月
したがって、本発明の目的は、アーティファクトが起こりやすい音響処理によって得られる特性を含む音響信号の識別を強化すること、および/またはそのような音響材料に専用の後処理を適用することによりそのようなアーティファクトを低減する概念を提供することである。
この目的は、独立請求項に記載の主題によって達成される。
第1の態様によれば、本発明者らは、音響信号から派生する極大信号を用いることによって、および極大信号のセグメント間の類似度を決定することによって、たとえば、トーンスパイクアーティファクトおよび/またはビーティングアーティファクトを低減するようにそれぞれの音響信号についてそれぞれの後処理を実装することができるように、スペクトル強調処理に関する特性の確実かつ効率的な識別を得ることができることを発見した。信号の評価に基づいて、実装された音響処理を示すサイド情報を不要にすることができ、モジュールのブラインド動作が可能になる。
第1の態様の一実施形態によれば、音響信号のスペクトル強調処理に関する所定の特性を決定するための装置が、音響信号のスペクトルを取得するため、およびスペクトルの微細構造に関する情報を導出するために構成された導出器を含む。この装置は、スペクトルの微細構造の類似度を決定するために構成された決定器を含む。この装置は、類似度の評価に依存する所定の特性を音響信号が含むことを示す情報を提供するためのプロセッサをさらに含む。微細構造に関する情報のセグメント間の類似度を比較するため、少量の計算作業が必要になることがある。さらに、スペクトル強調処理が実行された可能性があることを示す類似のセグメントの正確かつ確実な決定を得ることができる。
第1の態様のさらなる一実施形態によれば、音響信号のスペクトル強調処理に関する所定の特性を決定するための方法が、音響信号のスペクトルを取得するステップと、スペクトルの微細構造に関する情報を導出するステップと、を含む。この方法は、たとえば微細構造に関する情報のセグメント間で微細構造の類似度を決定するステップと、類似度の評価に依存する所定の特性を音響信号が含むことを示す情報を提供するステップと、を含む。
第1の態様のさらなる一実施形態によれば、非一時的記憶媒体が、コンピュータ上で動いているとき、このような方法を実行するためのプログラムコードを有するコンピュータプログラムを格納している。
第2の態様によれば、本発明者らは、スペクトルの傾斜に関して音響信号のスペクトルを評価することによって、たとえばバーディーアーティファクトおよび/または帯域幅制限アーティファクトを低減または除去するそれぞれの後処理を可能にするように、人為的帯域幅制限処理に関する特性を含むような音響信号の確実かつ効率的な特徴付けを得ることができることを発見した。信号の評価に基づいて、実装された音響処理を示すサイド情報を不要にすることができ、モジュールのブラインド動作が可能になる。
第2の態様の一実施形態によれば、音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための装置が、音響信号のスペクトルの傾斜を評価して傾斜評価結果を得るために構成された傾斜評価器を含む。この装置は、傾斜評価結果の評価に依存する所定の特性を音響信号が含むことを示す情報を提供するためのプロセッサをさらに含む。音響信号が人為的帯域幅制限処理に関する特性を含むかどうかの評価の基礎をスペクトルの傾斜、たとえば、スペクトルの立ち下がりエッジに置くことによって、少ない計算作業で人為的帯域幅制限処理の正確な検出を得ることができる。
第2の態様の他の一実施形態によれば、音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための方法が、音響信号のスペクトルの傾斜を評価して傾斜評価結果を得るステップを含む。この方法は、傾斜評価結果の評価に依存する所定の特性を音響信号が含むことを示す情報を提供するステップを含む。
第2の態様の一実施形態によれば、非一時的記憶媒体が、コンピュータ上で動いているとき、このような方法を実行するためのプログラムコードを有するコンピュータプログラムを格納している。
第1の態様および第2の態様は両方とも、未処理のフレームの後処理を回避するよう、それぞれの処理を受けた音響信号またはそのフレームと、未処理の音響信号またはそのフレームとを区別することを可能にしている。
第3の態様によれば、本発明者らは、音響信号の異なる信号特性を有する異なる部分について帯域幅拡張を異なる方法で実行することによって、強調された第1の部分および強調された第2の部分を含む高い質の合成信号を得るよう、異なる部分および/または特性の強調を互いに独立して実行することができることを発見した。異なる信号特性を異なる方法で処理することにより、それぞれの特性に基づいて処理を適応させることが可能になり得る。
第3の態様の一実施形態によれば、音響信号を処理するための装置が、音響信号のスペクトルの第1の部分を音響信号のスペクトルの第2の部分から分離するためのセパレータを含む。第1の部分は第1の信号特性を有し、第2の部分は第2の信号特性を有する。この装置は、第1の拡張部分を取得するため、第1の信号特性に関連する第1のパラメータを用いて第1の部分の帯域幅を拡張するための第1の帯域幅拡張器を含む。この装置は、第2の拡張部分を取得するため、第2の信号特性に関連する第2のパラメータを用いて第2の部分の帯域幅を拡張するための第2の帯域幅拡張器を含む。この装置は、拡張合成音響信号を取得するために第1の拡張部分および第2の拡張部分を用いるために構成された合成器をさらに含む。これにより、質の高い合成音響信号を取得するよう、異なる信号特性を有する異なる部分を互いに独立して強調することが可能になり得る。
第3の態様の他の一実施形態によれば、音響信号を処理するための方法が、音響信号のスペクトルの第1の部分を音響信号のスペクトルの第2の部分から分離するステップを含み、第1の部分は第1の信号特性を有し、第2の部分は第2の信号特性を有する。この方法は、第1の拡張部分を取得するため、第1の信号特性に関連する第1のパラメータを用いて第1の部分の帯域幅を拡張するステップを含む。この方法は、第2の拡張部分を取得するため、第2の信号特性に関連する第2のパラメータを用いて第2の部分の帯域幅を拡張するステップを含む。この方法は、拡張合成音響信号を取得するために第1の拡張部分および第2の拡張部分を用いるステップをさらに含む。
第3の態様の他の実施形態によれば、非一時的記憶媒体が、コンピュータ上で動いているとき、このような方法を実行するためのプログラムコードを有するコンピュータプログラムを格納している。
第4の態様によれば、本発明者らは、音響信号の一部を音響信号の異なる部分に対して位相シフトすることによって、知覚される粗さを低減することができることを発見した。特に、帯域幅を拡張するために生成またはコピーされる可能性のある部分を、未拡張のスペクトルと比較したとき位相シフトすることができる。
第4の態様の一実施形態によれば、音響信号を処理するための装置が、位相シフト信号を得るように音響信号の少なくとも一部を位相シフトするための粗さ低減フィルタを含む。この装置は、第1のフィルタリング信号を得るように位相シフト信号をフィルタリングするために構成されたハイパスフィルタを含む。この装置は、第2のフィルタリング信号を得るように音響信号をフィルタリングするために構成されたローパスフィルタを含む。この装置は、強調音響信号を得るように第1のフィルタリング信号と第2のフィルタリング信号とを合成するために構成された合成器を含む。この装置は、第1のフィルタリング信号が、音響信号、第2のフィルタリング信号とそれぞれ比較したとき位相シフト部分を含むことができるよう、ローパスフィルタによって残された部分と比較したときハイパスフィルタによって残された部分を位相シフトすることを可能にしている。これにより、合成信号において粗さを少なくすることが可能になり得る。
第4の態様の他の一実施形態によれば、音響信号を処理するための方法が、位相シフト信号を得るように音響信号の少なくとも一部を位相シフトするステップを含む。この方法は、第1のフィルタリング信号を得るようにハイパスフィルタを用いて位相シフト信号をフィルタリングするステップを含む。この方法は、第2のフィルタリング信号を得るようにローパスフィルタを用いて音響信号をフィルタリングするステップをさらに含む。この方法は、強調音響信号を得るように第1のフィルタリング信号と第2のフィルタリング信号とを合成するステップをさらに含む。
第4の態様の他の一実施形態によれば、非一時的記憶媒体が、コンピュータ上で動いているとき、このような方法を実行するためのプログラムコードを有するコンピュータプログラムを格納している。
本発明のさらなる実施形態が従属請求項に定義されている。
本開示、およびその利点のより完全な理解のため、添付の図面と併せてここで以下の説明を参照する。
第1の態様の一実施形態による、音響信号のスペクトル強調処理に関する所定の特性を決定するための装置の概略ブロック図である。 図1のスペクトルを取得することができる音響信号から導出することができる、第1の態様の一実施形態による例としてのスペクトルを示す概略グラフである。 第1の態様の一実施形態による図2aと同じ周波数横座標上の極大信号の概略図例を示す図である。 決定規則を用いて類似度を決定するための第1の態様の一実施形態による概略グラフである。 フィルタリングされた値として示される、第1の態様の一実施形態による後処理された類似度関数の例を示す図である。 周波数推定器を含む第1の態様の一実施形態による装置の概略ブロック図である。 第1の態様の一実施形態による例としての局所的類似度マトリックスの概略グラフ表示を示す図である。 第1の態様の一実施形態による図6aに示したマトリックスの線の概略図である。 スペクトル計算器を含む、第1の態様の一実施形態による装置の概略ブロック図である。 第1の態様の一実施形態による音響信号のスペクトル強調処理に関する所定の特性を決定するための方法の概略フローチャートである。 第2の態様の一実施形態による装置の概略ブロック図である。 第2の態様の一実施形態に関連する例としてのスペクトルを示す概略図である。 第2の態様の一実施形態によるスペクトル差関数の例としての結果の概略図である。 エネルギー推定器を含む、第2の態様の一実施形態による装置の概略ブロック図である。 第2の態様の一実施形態によるカットオフ周波数での立ち下がりエッジを含む例としてのスペクトルを示す図である。 第2の態様の実施形態によるデコーダから受信することができる音響信号を処理するために構成された装置の概略ブロック図である。 第2の態様の一実施形態によるスペクトル重みを決定するためのプロセッサの機能の概略ブロック図である。 バーディーアーティファクトを低減するために構成された、第2の態様の一実施形態による信号強調器の概略ブロック図である。 第2の態様の一実施形態による音響信号を処理するための方法の概略フローチャートである。 第2の態様の一実施形態による、音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための方法の概略フローチャートである。 第2の態様の一実施形態による音響信号の人為的帯域幅制限処理に関する所定の特性を決定するためのさらなる方法の概略フローチャートであり、この方法はカットオフ周波数も評価する。 第3の態様の一実施形態による装置の概略ブロック図である。 第3の態様の一実施形態による異なる成分を含む例としてのスペクトルを示す概略図である。 第3の態様の一実施形態による装置の概略ブロック図である。 第3の態様の一実施形態による、音響信号の第1の部分の例としてのスペクトルを示す図である。 第3の態様の一実施形態による2つの(a number of two)複製部分によって拡張された第1の部分の概略図である。 第3の態様の一実施形態による、図17bの少なくとも拡張部分を整形するために構成されている包絡線整形器から取得することができる例としての振幅スペクトルを示す図である。 第3の態様の一実施形態による音響信号を白色化するために構成されているスペクトル白色化器の概略ブロック図である。 第3の態様の一実施形態による、信号分析器であり、図16の装置のルックアップテーブルである任意選択のブロックの機能を示す図である。 第3の態様の一実施形態による方法の概略フローチャートである。 第4の態様の一実施形態による装置の概略図である。 第4の態様の一実施形態によるセパレータを含む装置の概略ブロック図である。 第3の態様の一実施形態による音響信号を処理するための方法の概略フローチャートである。
同等または等価の要素または同等または等価の機能を備えた要素は、以下の説明において、異なる図において存在する場合でも同等または等価の参照番号によって示す。
本明細書に記載の実施形態はデジタル信号処理に関するということにも留意すべきである。したがって、すべての信号が、サンプリングのためにサンプリング周波数の半分より下の周波数に帯域制限されている。本明細書で議論する(人為的な)帯域幅制限は、信号の帯域幅がデジタル表現で許容されるであろうよりも小さくなるような追加の帯域幅制限を指す。
第1の態様および第2の態様は、それぞれの音響信号が特定の処理を受けたことを示す音響信号内の信号特性を識別することに関する。それぞれの特性およびそれに関するパラメータを識別することによって、処理に応じて発生する可能性のあるアーティファクトを低減または除去するように適切なアクションおよび処理を行うまたは実行することができる。したがって、処理された音響信号に挿入される可能性のあるアーティファクトを低減することは、第1の態様、第2の態様にそれぞれ関連していると理解することができる。
第3の態様および第4の態様は、音響信号の後処理に言及している。音響の質を向上させるように音響信号を後処理するため、音響信号の前に実行された処理に関連する情報、たとえば、第1の態様および第2の態様に従って導出された情報を用いることができ、および/または異なる音響信号に関連して用いることができる。
したがって、以下において、第3の態様および第4の態様を参照する前にまず第1の態様および第2の態様を参照する。第1の態様の範囲は、音響信号の、特にロッシー圧縮または他の信号処理を用いて符号化された音響信号の音質の改善である。スペクトル帯域複製(SBR)は、通常はビットストリームにおいて送信されるサイド情報によって導かれる、より低い周波数から音響信号スペクトルの複製部分の高周波コンテンツを合成するためのパラメトリック音響符号化のための方法である。SBRの存在およびSBRが有効になる開始周波数(またはSBRより前に信号が帯域制限されたカットオフ周波数の同義語)についての知識が、音響信号の音質を向上または改善させるために使用または必要とされる。第1の態様による実施形態は、ビットストリームにおける情報を用いずにデコードされた後、音響信号からこの情報を取得するための分析概念を提供する。説明する概念は、より低いサブバンドでスペクトルの一部をコピーし、より高い周波数に貼り付けるSBRおよび他の処理を検出することができる。このような方法のためのSBR以外の他の一例は、特定の構成に基づいて、インテリジェントギャップ充填(IGF)である。
米国特許第9,117,440号に開示された方法と比較すると、第1の態様による実施形態は、スペクトルの微細構造を分析、おそらく独占的に分析することによって、スペクトル包絡線の修正に関する分析の堅牢性を改善する。加えて、関係は乗算ではなく2進数の合計を用いて計算されるため、計算負荷が少なくなる。
図1は、音響信号12のスペクトル強調処理、たとえば、SBR、および/またはIGFに関する所定の特性を決定するための装置10の概略ブロック図を示している。装置10は、音響信号12のスペクトルを取得するため、およびスペクトルの微細構造に関する情報を導出するために構成された導出器14を含む。微細構造は、スペクトルにおけるスペクトル線のコースに関し得る。このような情報は、たとえば、極値、たとえば、スペクトルにおける最大値および/または最小値を示す極大信号を用いて表すことができる。たとえば、極大信号は、極大の場所で最大値または最小値、および他の場所で異なる値などの事前定義された値を有することができる。たとえば、他の場所では、極大信号は最小値を含むことができる。あるいは、極大信号は、極大では最小値、そうでなければ最大値を含むことができる。あるいは、または加えて、極大信号は、極大および極小の両方を表すことができる。これによって、スペクトルの微細構造を維持しながら、他の情報を減衰または除外することができる。非限定的な例としてのみ、本明細書に記載の実施形態は、導出器14によって導出される極大信号に言及することができる。
スペクトルから極大信号を導出するため、導出器14は、音響信号12からスペクトルを導出または計算または決定のいずれかを行うことができる。あるいは、導出器14は、スペクトルを示す情報またはスペクトル自体を含む信号を受信することができる。したがって、図示された信号12は、時間領域における、または周波数領域における信号であり得る。導出器14によって導出されるか、または導出器14によって受信されるスペクトルは、たとえば、振幅スペクトルまたはパワースペクトルであり得る。このようなスペクトルを導出または計算するため、短期フーリエ変換(STFT)または他の適切な変換を用いることができる。STFTを用いることによって、音響信号12は、いくつかの適切なブロックに分割または分離することができ、各ブロックがSTFTを受けることができる。これにより、音響信号の複数のスペクトル、たとえば、各ブロックについて1つのスペクトルを取得することが可能になり得る。
たとえば、フィルタバンクを用いてサブバンド信号を計算することができる。SBRは、スペクトルの一部が複製される処理である。同じことが高調波移送にも当てはまる。IGFにおいて、たとえば、高周波範囲を含むスペクトルの一部が減衰されるか、または0に設定されてその後補充される。SBRを参照すると、スペクトル包絡線は修正することができるが、スペクトルの微細構造は維持することができる。したがって、第1の態様による実施形態は、スペクトル包絡線の修正に対して堅牢な概念を提案する。この目的のため、導出器14は、スペクトルから極大信号を導出するように構成されている。極大信号は、たとえば、スペクトルにおける周波数ビンに従って特定の長さのベクトルとして定義することができ、その要素は、スペクトルが極大を有するインデックスで1に設定され、そうでなければ0に設定される。他の規則を適用することができることが言及されるべきである。たとえば、極大に加え、極小を特定の値、たとえば、1に設定することができる。あるいは、または加えて、極大および/または最小を示すように異なる値、たとえば、0または1とは異なる値を用いることができる。この処理は、微細構造を維持してすべての他の情報を除去する白色化またはフラッタリング動作に似ていることがある。極大信号により、比較されるセグメントの構造に焦点を合わせるように比較を実施することができるため、類似度の識別を強化することが可能になり得る。
図2aは、信号12から導出され得る、または信号12であり得る例としてのスペクトル16を示す概略グラフを示している。横座標は周波数インデックスkを示し、縦座標はスペクトル16の振幅値X(k)を示している。
図2bは、同じ周波数横座標kにわたる極大信号Zの概略図例を示している。スペクトル16が極大値181から187を含む周波数ビンk1からk7で、極大関数Z(k)は1のような正規化最大値に設定され、他の場所では同様に0のような正規化最小値に設定される。図2bにおける三角形は、図をよりよく理解するため、異なる周波数ビン間の補間から得ることができる。極大信号Zは、スペクトルX(k)と同じ長さを含むことができる。導出器14は、スペクトル16から導出される極大信号Z(k)を示す情報を含む信号22を提供するために構成することができる。
装置10は、極大信号のセグメント間の類似度C(τ)を決定するために構成された決定器24を含むことができる。スペクトル強調処理の検出のため、ベクトルZ(k)、k=k0....klの第1のセグメントとベクトルZ(k+τ)の第2のセグメントとの間の類似度は、決定器24によってラグまたはシフトτの関数として決定または計算することができる。たとえば、類似度C(τ)は、2つのベクトル、すなわち極大信号のセグメントの差の絶対値の合計として計算することができる。
比較されるべきセグメントは同じ長さを有し得る。長さは、スペクトルおよび極大信号が計算された周波数分解能に依存する。周波数分解能は、計算されるスペクトル係数の数に依存する。スペクトルおよび極大信号についての係数の数は、少なくとも16または最大で16384であるが、通常は256と4096との間の値が選択される。正確な値は、信号のサンプリングレートに応じて選択することができる。第1のセグメントは、たとえば、2000Hzと15000Hzとの間の範囲における周波数に対応する極大信号ベクトルの要素を含むことができる。
パラメータτは、1から、たとえば、音響信号12におけるカットオフ周波数に関する最大周波数または最大検索周波数を表す信号における可能な最大値まで変動することができる。これは、以下の決定規則として表すことができる。
Figure 2020512594
図3は、上記の決定規則を用いて類似度を決定する場合に得ることができる例に従う概略グラフを示している。グラフの横座標はラグまたはシフトτを示し、縦座標は類似度関数C(τ)の値を示している。
パラメータτの複数の値について類似度値C(τ)を決定することによって、図3に示すグラフを得ることができる。領域261から263において、パラメータτの値τ1、τ2、τ3にそれぞれ関連している信号の変動を得ることができる。これらの変動は、類似度関数C(τ)における極大および/または極小を含むことができる。すなわち、ラグτ1、τ2、τ3をシフトまたは適用することによって、類似度関数は、極大または極小を示すことができ、したがって、ラグτ1、τ2、τ3だけそれぞれのセグメントをシフトすることによって、スペクトル強調処理についての指標であり得る同様の信号が得られることを示している。上記の例において、最大ラグτは20000Hzである。
決定器は、少なくとも1つの極大値および/または極小値を類似度値から選択するために構成することができ、および/または類似度を決定するためにそれらの派生値を選択することができる。特に、領域261、262および263での変動は、それぞれパラメータτ1、τ2、τ3によって示されるシフトで用いられるセグメント間の高い類似度を示している。
再び図1を参照すると、決定器24は、類似度の結果、たとえば、パラメータτの値τ1、τ2、および/またはτ3またはそれらの派生値を示す情報または信号28を提供するために構成することができる。装置10は、音響信号12が、たとえば、信号28を評価することにより、類似度の評価に依存する所定の特性を含むことを示す情報34を提供するためのプロセッサ32を含むことができる。任意選択で、取得された分析関数、すなわち類似度関数は、たとえば、決定器24および/またはプロセッサ32によってさらに処理することができる。たとえば、バンドパスフィルタリングを実行して、類似度関数におけるオフセット成分を減衰させるとともに、類似度関数C(τ)における対象の極大のコントラストを増加させることができる。装置10、たとえば、決定器24は、図4に示すフィルタリングされた類似度値を得るように類似度値をフィルタリングするために構成されたフィルタを含むことができる。プロセッサ32は、音響信号がスペクトル強調処理を受けたこと、スペクトル強調処理の開始周波数および/または終了周波数の少なくとも1つを示す情報を含むように情報34を提供するように構成することができる。
図4は、後処理された類似度関数の一例を示し、そのフィルタリングされた値、すなわちH(C(τ))として縦座標に示し、横座標はパラメータτを示している。たとえば、フィルタ係数h=[-1 2 -1]を有する有限インパルス応答(FIR)フィルタとしてフィルタが実装される。これは、フィルタリングされたベクトルのk番目の出力要素が、h(1)=-1、h(2)=2およびh(3)=-1で重み付けされたインデックスk-1、k、およびk+1での要素の線形結合によって計算されることを意味している。これは、以下の決定規則に基づいて表すことができる。
y(k)=h(1)x_{k-1}+h(2)x_{k}+h(3)x_{k+1}
パラメータ値τ1、τ2、およびτ3での最も大きな3つの極大は、スペクトル強調処理、たとえば、スペクトル帯域複製から引き起こされる。たとえば、振幅が大きい少数の極大が関数に現れると、SBR処理を検出することができる。少数とは、最大15、最大10または最大5の最大数を指すことができる。一実施形態によれば、SBRの一般的な最新技術の構成に従ってSBRを検出するために最大13の極大が調査されるべきである。
大きな振幅とは、通常の信号と比較したとき、少なくとも3dB、少なくとも5dBまたは少なくとも6dBである値を指すことができる。再び図3を参照すると、領域261、262および263における極大は、それぞれの領域の側の信号をノイズであると呼ぶことができる。このようなノイズは、図4に関連して説明したように最大値の決定を強化するように、後処理によって減衰させることができる。極大の大きな振幅は閾値より大きいと定義される。閾値の正確な値は、類似度関数の計算に用いられた値の数に応じて、たとえば、手動で、0.1から10の範囲に設定することができる。通常、5の値を用いることができる。
すなわち、プロセッサ32は、類似度値またはその派生値のいくつかの極大26を評価するため、および極大26の振幅を評価するために構成することができる。プロセッサ32は、少なくとも振幅閾値27を含む最大値26の数が数の閾値を下回る、すなわち、振幅閾値27の値を超える極大の数が十分に少ないとき、音響信号12が所定の特性を含むことを示す情報34を提供するために構成することができる。
換言すれば、図4は後処理の類似度関数を示している。極大は円で示し、大域的最大は十字で強調表示している。決定器24は、フィルタリングされた類似度値から少なくとも1つの極大を選択するために構成することができる。高調波信号が、基本周波数を有する1つまたは複数の正弦曲線およびその高調波、すなわち周波数が基本周波数の略整数倍である部分音で構成されている。したがって、自動相関関数(ACF)などの類似度関数において1つまたは複数の極大が現れる可能性がある。高調波部分音に対応する極大とSBRまたは他のスペクトル強調処理とを区別するため、検索範囲を適切な値に設定することができ、たとえば、高調波部分音についてよりもSBRについての方が明らかに大きい。このように、プロセッサ32は、類似度の評価から音響信号の高調波を除外するために構成することができる。これは、音響信号のスペクトルのうち、高調波の量が少ないか、まったくないことが予想される部分を選択することによって行うことができる。
パラメータ値τ1、τ2、およびτ3での極大の検出は、スペクトル強調処理の存在を示す十分な指標となり得る。しかしながら、スペクトル強調処理、たとえば、SBRの開始周波数をさらに推定することが有利であり得る。類似度関数の結果または極大は、スペクトルの一部がコピーおよび貼り付けられたシフトを説明することができる。完全を期すため、ソースサブバンドスペクトルまたはデスティネーションサブバンドスペクトルの開始周波数および停止周波数についての情報が重要になることがある。
図5は、一実施形態による装置50の概略ブロック図を示している。装置50は、装置10の拡張バージョンとすることができ、スペクトル強調処理の開始周波数および/または停止周波数を決定するために構成された周波数推定器36をさらに含むことができる。周波数推定器36は、開始周波数および/または停止周波数を示すそれぞれの情報を含む情報または信号38を提供するために構成することができる。周波数推定器36は、たとえば、信号22を取得または受信することによって、極大信号Z(k)を用いて、極大信号の第1のセグメントの要素と極大信号の第2のセグメントの対応する要素との間の要素類似度を決定するために構成することができる。第2のセグメントは、τのサンプルの数だけ第1のセグメントに対してシフトされ得る。これは、局所的類似度分析(LSA)と呼ぶことができる。入力は、振幅スペクトル、たとえば極大信号Z(k)の微細構造の表示であり得る。周波数推定器36は、LSAを実行するとき、第1のベクトルZ(k)におけるk番目の要素と位置k+τ、Z(k+τ)での要素との間の要素ごとの類似度において動作することができる。この目的のため、局所的類似度マトリックスは、以下の決定規則に従って2つの2進数Z(k)およびZ(k+τ)との差の絶対値として計算することができる。
L(K、τ)=|Z(k)-Z(k+τ)|
局所的類似度マトリックスの値L(k、τ)は、時間の経過に伴う再帰平均化によって次いで処理することができる。これは以下の決定規則に従って実行することができる。
L(K、τ)=bL(K、τ)+(1-b)B(K、τ)
ここで、B(k、τ)は、音響信号の前の時間ステップ(フレーム)からの再帰平均化の出力を保存するバッファを示し、0<b<1は時間平均化を制御する時定数である。したがって、周波数推定器36は、平均要素類似度を取得するように、第1のセグメントおよび第2のセグメントについての複数の要素の要素類似度を経時的に再帰平均化するため、および平均要素類似度を用いて開始周波数および/または終了周波数を決定するために構成することができる。時間平均化は、任意選択で、現フレームが無音でない、すなわち、そのエネルギーが非無音フレームから無音フレームを特徴付けている閾値27よりも大きいときにのみ適用することができる。
フレームのエネルギーが閾値より小さければ、フレームは無音であると判断することができ、閾値の正確な値は、フレームの長さおよびサンプル値が表される範囲に応じて設定することができる。一般にこのような閾値は、平均から大音量設定で一般的な音声再生機器(携帯電話またはテレビ)で再生したときにちょうど聞こえるように調整されるピンクノイズ信号のエネルギーに等しくなるように選択することができる。
すなわち、周波数推定器は、平均要素類似度を取得するように、第1のセグメントおよび第2のセグメントの複数の要素の要素類似度を経時的に再帰的平均化するため、および平均化類似度を用いて開始周波数および/または終了周波数を決定するために構成することができる。スペクトルの各サンプルはフレームに関連付けることができる。周波数推定器は、エネルギー閾値レベル27未満のスペクトルエネルギーを有するフレームを時間の経過に伴って再帰平均化から除外するように構成することができ、エネルギー閾値レベル27は、フレームまたはスペクトルが無音であるか否かの検討に関連している。これによって、無音であると見なされるフレームは音響処理の対象外であるとも見なすことができるため、これらのフレームを除外することによって一貫性のない結果を回避することができる。
図4に関連して説明したように、再帰平均化の結果L(k、τ)は、帯域通過フィルタリングによって処理されてオフセット成分を減衰させ、たとえば、h=[-1 2 -1]のようなカーネルでマトリックスの各行を畳み込むことによって、対象の極大のコントラストを増加させることができる。
図6aは、例としての局所的類似度マトリックスL(k、τ)の概略的なグラフ表示を示し、横座標は周波数ビン(位置)kを示し、縦座標はラグτを表している。見やすくするため、マトリックスLの絶対値が示されている。位置kおよびラグτ用の単位は周波数ビンである。非限定的なサンプルによって、1つの周波数ビンが46.9Hzの値を有することができ、任意の他のより小さな値またはより大きな値を取得することができる。したがって、図4は、次の情報を含む後処理された類似度マトリックスL(k、τ)についての例を示している。
図4に関連して説明したような大局的類似度は、x軸(パラメータk)に沿って合計して結果の絶対値を取ることによってL(k、τ)から取得することができる。与えられた例における3本の水平線381、382および383は、図4の極大値に対応している。線381、382および383は、関数L(k、τ)のそれぞれの値、すなわち、値の合計が特定の閾値、たとえば、0〜1の範囲の値の0.1、0.2、または0.3をそれに沿って超える線に対応し得る。水平線の開始位置および終了位置は、スペクトルの繰り返し部分のそれぞれ開始周波数ks1、ks2、ks3およびそれぞれ終了周波数ke1、ke2、ke3に対応している。
図6bは、パラメータτ2での図6aに示したマトリックスの線の概略図を示している。図6bにおいて、グラフ42aは、たとえば、フィルタリングされていない値を示し、グラフ42bは、平均値またはフィルタリング値を示すことができる。たとえば、グラフ42bは、たとえば、0.2である閾値27と比較される。局所的類似度マトリックスL(k、τ)、それぞれの平均値が閾値27を超える範囲は、インデックスτ2での水平線382に対応している。あるいは、または加えて、局所的類似度マトリックスの峻度(ΔL(k、τ)/k)を評価することができる。特定の値、たとえば、少なくとも0.5、少なくとも1または少なくとも1.5で上昇する急峻な立ち上がりエッジは、開始周波数ks2を識別するエッジとして識別することができる。したがって、それぞれの急峻で高い立ち下がりエッジは、終了周波数ke2を識別することができる。あるいは、または加えて、入力スペクトルそれぞれに対して、および最終結果に対して、時間平均化を実行することができる。これにより、時間平均化を用いた偽陽性検出の防止が可能になり得る。入力スペクトルの時間平均化は前処理と呼ぶことができ、最終結果の時間平均化は後処理と呼ぶことができる。偽陽性検出を防止する理由は、極大が部分音のために一般的に時間的に変化することである。すなわち、異なる音楽トーンがメロディーにおいて演奏されるため、または音楽における倍音変化のため、極大は経時的に変化する可能性がある。これとは対照的に、SBRなどのスペクトル強調処理のいくつかのパラメータは、通常は時間不変の技術プロセス、たとえば、スペクトルが拡大されるエッジ周波数、たとえば、前に実行されたフィルタリングのカットオフ周波数、または複製される周波数範囲の開始周波数および終了周波数であり得る。
一例によれば、開始周波数を推定するため、LSAマトリックスのLを分析して、各水平線の開始位置および終了位置を特定する。開始位置ksは、複製されたスペクトルの開始に対応し得る。終了位置keは、複製されたスペクトルの終了に対応し得る。複製に用いられた元のスペクトルの最大終了位置は、SBRが有効になる開始周波数についての推定値である。これは、たとえば、図6aにおけるke3であり得る。
まず、大局的類似度は次のように計算することができる。
Figure 2020512594
ここで、v1およびv2は、値L(k、τ)の範囲を決定するパラメータであり、たとえば、少なくとも500Hzそして最大15kHzの範囲内の値を有するL(k、τ)の範囲を定義するように選択することができる。
次いで、極大mi、すなわち、閾値より大きいC(τ)における26が検出される。たとえば、図4参照。各極大について、L(k、τ)における対応する行が分析される。たとえば、第2の極大m2は、行R2=L(k、τ2)をインデックス化し、図6bに示されている。この極大について、τ=133の値が有効であり得、図5に従ってk=74から開始することができる。
開始インデックスksおよび終了インデックスkeは、たとえば、いくつかの、たとえば、少なくとも3、少なくとも5または少なくとも10の近接する値の時間的または移動平均を計算することによって、たとえば、グラフ42bを得るように、それぞれの線Riをまず平滑化することによって計算することができる。次いで、平滑線の傾斜が最も急に増加および減少する位置が検出される。あるいは、または加えて、たとえば、0.2のような閾値を超える傾斜は、それぞれの線を評価するための基準とすることができる。すなわち、周波数推定器36は、平均要素類似度42bを取得するように、第1のセグメントおよび第2のセグメントの複数の要素の要素類似度を経時的に再帰平均化するため、および平均要素類似度42bを用いて開始周波数および/または終了周波数を決定するために構成することができる。あるいは、または加えて、この装置は、スペクトルの、極大信号またはその派生信号の時間平均化を実行するために構成することができ、プロセッサは、スペクトル、極大信号またはその派生信号の時間平均情報に基づいて音響信号が所定の特性を含むことを示す情報を提供するために構成することができる。
再び図6aを参照すると、インデックスτ1、τ2およびτ3で与えられた例について3つの顕著な水平線381、382および383がある。インデックスτ2での線は、最も早い開始、すなわち、最も低いパラメータksを示すものとして複製されたスペクトルの第1の部分に対応し得る。水平線はインデックスks1で始まり、ラグτ2に対応し得る。したがって、スペクトルの第1の複製部分はks2で始まり、インデックスks22にコピーされている。非限定的な一例によって、τ1は104であり得、τ2は133であり得、τ3は236であり得る。ks2は、たとえば、74という値を含むことができる。したがって、スペクトルの第1の複製部分はインデックス74で始まり、インデックス74+133にコピーされている可能性がある。このインデックスはしたがって、スペクトル強調処理(SBR)が有効になる周波数に対応している。
図5に関連して説明した周波数推定器36は、局所的類似度マトリックスまたは異なる局所的類似度記述を計算するために構成することができる。非限定的な例によってのみ、各行が前の行に結び付けられているなどの所定の構造を有する値のベクトルまたは他の行が、同じ情報を可能にし得る。周波数推定器36は、局所的類似度記述(局所的類似度マトリックスL)を決定することができ、帯域幅拡張処理を示すその中の部分、たとえば、線を決定するために構成することができる。帯域幅拡張処理を示す部分を決定するため、局所的類似度記述における信号の峻度および/または閾値27の到達または超過を、周波数推定器36によって評価することができる。
行を評価するものとして説明してきたが、局所的類似度マトリックスLは、たとえば、行を列に、およびその逆に切り替えるなど、異なる構造を含むことができることは明らかである。周波数推定器はしたがって、局所的類似度マトリックスLを局所的類似度記述として決定するため、および行または列における値(たとえば、行または列内の隣接する値)の間の峻度を用いて、および/または少なくとも閾値27に到達する、またはそれを超えさえする行または列における値の評価を用いて、スペクトル強調処理の開始周波数ksおよび/または終了ke周波数を決定するために構成することができる。
図7は、装置10を拡張した装置70の概略ブロック図を示す。装置10を拡張したものとして説明しているが、図7に関連して与えられた説明は、装置50を拡張するためにも用いることができる。装置70は、時間領域における信号として音響信号12を受信するために構成されるとともに、音響信号12からスペクトルを計算し、スペクトルを含む信号12'を提供するために構成されたスペクトル計算器44を含むことができる。これに基づいて、導出器14は、スペクトル12'を受信するために構成することができる。あるいは、導出器14は、それ自体でスペクトル12'を導出するように構成することができる。
導出器14は、図3および図4に関連して説明したようなフィルタリング類似度値を得るように、類似度値をフィルタリングするために構成されたフィルタ46を含むことができる。導出器14は、たとえば、類似度マトリックスL(k、τ)における行インデックスとして、さらなる検討のために、フィルタリング類似度値から少なくとも1つの極大値を選択するために構成することができる。すなわち、類似度値またはその派生値からの極大値の選択は、スペクトル強調処理の開始周波数および/または終了周波数を決定するためにそれをさらに用いることを言うことができる。
装置70は、音響信号12を受信するとともに、たとえば、情報34を受信することによって、スペクトル強化処理が実行されたという情報を受信するために構成された信号強調器48を含むことができる。信号強調器は、情報34を用いて、すなわち、音響信号が所定の特性を含み、複製プロセスの開始周波数および/または停止周波数などのさらなる詳細を任意選択で含むことを示す情報に依存して、音響信号のスペクトル強調処理によって引き起こされるアーティファクトを低減するために構成される。
図8は、音響信号のスペクトル強調処理に関する所定の特性を決定するための方法1000の概略フローチャートを示している。方法1000は、音響信号のスペクトルが取得され、スペクトルの微細構造に関する情報、たとえば、極大信号が導出されるステップ1100を含む。ステップ1200は、極大信号のセグメント間の微細構造の類似度を決定することを含む。ステップ1300は、類似度の評価に依存する所定の特性を音響信号が含むことを示す情報を提供することを含む。
以下において、第2の態様を参照する。第2の態様によれば、音響信号の、特にロッシー圧縮を用いて符号化された音響信号の音質を改善することが範囲内にある。説明する概念は、デジタル信号処理アプリケーションにおいて制限されている音響信号の帯域幅に関連している。この概念は、(人為的)帯域幅削減(BR)の存在を検出し、BLが動作しているカットオフ周波数を推定するための信号分析概念を提案している。得られた結果は、帯域幅拡張(BWE)によって帯域幅を復元するため、およびフィルタリングなどの他の手段によって音質の改善を制御するための後続の処理を制御するためにも用いられる。
音質を向上させるため、元々低帯域幅を有する信号(たとえば、ベースンで演奏される低音)と、信号処理によって、たとえば、ロッシーエンコーディングまたはダウンサンプリングのために帯域制限された信号とを区別することが非常に重要である。このような区別は、信号を解析して「信号に存在する最高周波数を見つける」ことによって、すなわち、非特許文献1に記載されたように無視できるエネルギーしか上に存在しない周波数を決定することによってでは不可能である。対照的に、第2の態様は、以下で説明するように追加情報を評価することを提案している。
提案した人為的帯域幅制限分析(ABLA)の目的は2つある。
1)ロッシー圧縮または他の信号処理によって引き起こされる可能性が高いため、アーティファクトと見なされる入力信号における帯域幅削減(BR)の存在を検出すること。出力は、たとえば、ここではDと呼ぶバイナリ変数であり得、BLが検出されればD=1、そうでなければ0である。
2)帯域幅制限のカットオフ周波数を推定すること。推定量はfcと呼ぶ。
図9は、第2の態様の一実施形態による装置の概略ブロック図を示している。この装置は、音響信号の人為的帯域幅制限処理に関する所定の特性を決定するために用いることができる。装置90は、音響信号12のスペクトル、たとえば、スペクトル12'の傾斜を評価するために構成された傾斜評価器52を含む。傾斜評価器52は、傾斜評価結果56を提供するために構成することができる。傾斜評価結果56は、スペクトルの少なくとも一部の傾斜(包絡線カーブ)の最大値、最小値若しくは平均値について、スペクトルにおける立ち上がりエッジまたは立ち下がりエッジ若しくはその傾斜についての情報または傾斜54に関する他の情報を含むことができる。
装置90は、音響信号のスペクトル12'のカットオフ周波数fcを評価して、カットオフ周波数fcを示す情報を含む周波数評価結果62を得るために構成された周波数評価器58を任意選択でさらに含むことができる。
装置90は、音響信号が人為的帯域幅制限処理に関する所定の特性を含むことを示す情報を提供するためのプロセッサ64を含む。プロセッサは、傾斜評価結果を用いて、音響信号が所定の特性を含むことを示す情報を提供するために構成され、すなわち、プロセッサは傾斜評価結果に応じた情報を提供することができる。たとえば、これにより、たとえば、イエス/ノー情報または二分決定に関して音響信号が後処理を必要とするかどうかの決定が可能になり得る。これにより、それぞれの特性を含まないと評価されるこのようなフレームを後処理から除外することが可能になり得る。これらのフレームは、人為的帯域幅制限を受けないものとして識別することができるため、後処理を回避しなければならない。任意選択として、この装置は、カットオフ周波数を決定するための周波数評価器58を含むことができる。これにより、たとえば、対象フレームの後処理に使用または必要とされるさらなる情報を識別することが可能になり得る。したがって、任意選択で、プロセッサは、傾斜評価結果56および周波数評価結果62の評価に依存する所定の特性を音響信号が含むことを示す情報を提供するために構成することができる。スペクトル12'についての、および/またはさらなるスペクトル12'をもたらす音響信号のさらなるフレームについての傾斜評価結果56および周波数評価結果62を評価することによって、プロセッサ64は、スペクトル12'が導出される音響信号が人為的帯域幅制限を受けたかどうかの情報を導出することができる。たとえば、傾斜評価器52は、スペクトルにおける減衰のために傾斜を評価するために構成することができる。スペクトルは、傾斜の峻度に関して、すなわち、ロールオフ係数によって示されるように、定量化または評価することができる。
例として、傾斜評価器52は、スペクトル12'における減衰を評価するため、および減衰の尺度を示すように傾斜評価結果56を提供するために構成することができる。プロセッサ64は、減衰の尺度が少なくとも峻度閾値であれば、音響信号が所定の特性を含むことを示す情報66を提供するように構成することができる。任意選択で、この装置は、たとえば、プロセッサ64の一部であるか、別個に実装されるリサンプリング評価器を含むことができる。リサンプリング評価器は、アップサンプリングに関する所定の特性について音響信号を評価するために構成することができる。アップサンプリングは、サンプリング周波数を用いて実装することができ、たとえば、一般的なサンプリングレートは、11,025Hz、22,050Hzおよび/または32,000Hzであり得る。装置90および/または120は、リサンプリングが検出される場合のサンプリング周波数に基づいて、傾斜評価器52の、および/または周波数評価器58の周波数範囲を適応させるように構成することができる。リサンプリングを用いることによって、スペクトルの周波数範囲を適応または増加させることができ、低サンプリングレートは低周波数範囲に対応し得るとともに、高サンプリングレートはナイキスト基準に従ってスペクトルに高周波数範囲を含めることが可能になり得る。リサンプリング評価器は、予想サンプリングレートの特定のセットを観察または評価するために構成することができ、この周波数でスペクトルが大幅に減少するか、および上に顕著なエネルギーがなくなるかを評価できる。このような場合、前述のような傾斜における急なエッジが存在し、エネルギー閾値を超える顕著なエネルギーがなければ、エネルギー評価器は、それぞれのリサンプリング周波数またはサンプリングレートを用いて音響信号がリサンプリングされていると見なすことができる。リサンプリング評価器は、サンプリングレートに対応する決定または評価された周波数で決定規則
X(k)>閾値
が当てはまり、周波数kでのスペクトルの値が、ポイントkでスペクトル内に顕著なエネルギーがあることを示す閾値より大きいことを意味しているとき、否定的評価結果を得るために構成することができる。さらに決定規則
X(k)<X(k+1)-オフセットパラメータ
が当てはまることがあり、周波数k+1が増加すると、スペクトル、そのエネルギーがそれぞれ増加することを示している。この考察は、たとえば、0.1、0.2、0.3、0.5または1dBまたは異なる値のオフセットパラメータを減算することによって正規化することができ、すなわち、決定規則を満たすため、スペクトルはオフセットパラメータより増加しなければならない。これにより、ノイズなどによって引き起こされる影響を排除することが可能になる。したがって、振幅は、0.5dBを超える帯域幅制限を超える周波数ポイントkで、より高い周波数に向かって増加する。閾値は、上で説明したように、たとえば、-30dB、-40dB、-50dB、または-60dBとすることができる。これは、否定的決定について、急激な減衰がないか、またはそれぞれの周波数値を超えて振幅が増加するかのいずれかを意味している。
たとえば、スペクトル差関数S(k)または上述したような異なる適切な関数が閾値を超えるか、少なくとも閾値である値を導出するとき、音響信号が周波数インデックスkで帯域幅を制限するアップサンプリングを受けたことを示す肯定的評価結果が決定され得る。したがって、決定規則
S(k)>閾値
が当てはまることがあり、スペクトル差関数は、急峻で強い減衰を示すことができ、したがってリサンプリングを示すことができる。したがって、図11における最大値72が予想リサンプリングレート/リサンプリング周波数またはその近くに配置されると、リサンプリングの存在を決定することができる。
さらに、減衰は、量、すなわち、スペクトルにおける立ち下がりエッジの半分に関して評価することができる。たとえば、傾斜評価器52は、たとえば、100Hz、1kHzまたは2kHzの特定の周波数範囲内の減少に関して、および/または立ち下がりエッジにおける減少の総量について、傾斜54を評価することができる。
プロセッサ64は、スペクトル12'が人為的帯域幅制限を受けたかどうかを決定するために構成することができ、どのカットオフ周波数fcで上記制限が適用されたかを決定するためにさらに構成することができる。したがって、情報66は、少なくとも、プロセッサ64がスペクトル12'を人為的帯域幅制限処理に適用されたと決定したとき、変数Dまたは同様の情報を含むことができ、カットオフ周波数を示す情報をさらに含むことができる。
図10は、傾斜54を有する例としてのスペクトル12'を示す概略図を示している。傾斜評価器52は、スペクトル12'の、立ち下がりエッジ68のそれぞれ峻度に関して傾斜54を評価するために構成することができる。傾斜評価器52は、峻度の尺度を示す情報を含むように傾斜評価結果56を提供するために構成することができる。峻度の尺度は、たとえば、振幅X(f)の減少量ΔX1と周波数範囲Δfをリンクすることによって、たとえば、周波数範囲Δfあたりの減少量ΔX1として、または減少量ΔX1を得るために用いられる周波数範囲Δfに関して得ることができる。
プロセッサ64は、峻度の尺度が少なくとも峻度閾値であれば、音響信号が所定の特性を含むことを示す情報を提供するために構成することができる。峻度の尺度は、項目ΔX1/Δfの値の上昇に対して増加することができ、および/または項目Δf/ΔX1の値の減少に対して増加することができる。たとえば、峻度閾値は、少なくとも25dB/1kHz、30dB/1kHz、40dB/1kHzまたは50dB/1kHzまたはこれより高い値に等しいまたは比例する値を含むことができる。
傾斜評価器52は、たとえば、評価のためにスペクトル12'の一部のみを選択する窓関数を用いて、スペクトル12'のスペクトル差関数を決定するために構成することができる。窓関数は、スペクトル12'の複数の周波数値、傾斜54をそれぞれ組み合わせることができ、傾斜評価器52が窓関数の結果を用いて減衰の尺度を決定することを可能にし得る。これはウィンドウフィルタリングとも呼ぶことができる。異なるウィンドウの値を組み合わせる、たとえば、減算することによって、峻度の尺度を得ることができる。あるいは、任意の他の適切なプロセスを用いて傾斜54の峻度を評価することができる。あるいは、または加えて、周波数評価器は、スペクトル12'の第1の周波数帯域の第1のエネルギーレベルとスペクトルの第2のエネルギー帯域の第2のエネルギーレベルとの間の減衰を評価するために構成することができる。
第1のエネルギー帯域および第2のエネルギー帯域は、たとえば、いわゆる低周波数帯域およびいわゆる高周波数帯域であり得る。高周波数帯域は、ローパスフィルタリングされた後に無音になると予想される周波数帯域、たとえば、3kHzより上の周波数であり得る。低周波数領域は、このような周波数範囲より下の周波数を有する周波数領域を指すことができる。したがって、第1のエネルギー帯域は、第2の周波数帯域の第2の周波数範囲f2と比較したときに低い第1の周波数範囲f1を含むことができる。傾斜評価器52は、減衰ΔX2の尺度を示すように傾斜評価結果56を提供するために構成することができる。プロセッサ64は、減衰の尺度が少なくとも減衰閾値であるかどうかの情報66を提供するために構成することができる。減衰閾値は、たとえば、少なくとも30dB、少なくとも40dB、少なくとも50dBまたは少なくとも60dBまたはそれよりさらに高くてもよい。
換言すれば、減衰は、高周波数帯域におけるフィルタリング後に無視できるエネルギーのみが残るように高いと見なすことができる。たとえば、上部周波数領域f2における振幅は、通過帯域、すなわち、周波数領域f1における平均振幅よりも小さい-60dB(減衰閾値)未満である。スペクトルの峻度の評価と減衰量の評価との組み合わせにより、スペクトル12'の現フレームが人為的帯域幅制限を受けたことを決定することが可能になり得る。したがって、少なくとも1つまたは好ましくは両方の評価がこのような処理についてのヒントを与えれば、変数Dは1に設定することができる。評価基準の少なくとも1つまたは好ましくは両方が否定的に評価されれば、変数Dは0に設定することができ、すなわち、人為的帯域幅制限が適用されていないと決定することができる。
換言すれば、減衰の峻度は、低いサブバンドf1におけるスペクトル振幅と周波数インデックスkの周りの高いサブバンドf2におけるスペクトル振幅とを比較し、対象の範囲におけるすべての周波数インデックスについてこれを繰り返すことによって定量化することができる。一例は、以下によって形成することができるスペクトル差関数S(k)である。
S(k)=maxX1-maxX2
スペクトル差関数S(k)は、低い方のサブバンドの最大振幅と高い方のサブバンドの最大振幅との差として減衰を定量化することができる。パラメータkは周波数インデックスを指すことができる。X(k)は振幅スペクトルを示すことができる。演算maxは、ベクトルの最大値を返すことができ、ここでX1=(xk-a、xk-b)は、周波数インデックスkより下のスペクトルのセグメントを指すことができ、x2=(xk+b、xk+a)は、周波数インデックスkより上のスペクトルのセグメントを指すことができ、a>bである。ベクトルの長さ、すなわち、ベクトルX1および/またはX2において用いられるべきサンプルの数は、たとえば、3、5、8、または10またはこれよりさらに多くてもよい。非限定的な一実施形態において、長さ7の第1のセグメントと長さ7の第2のセグメントが、両セグメント間の5つの値のギャップに関連して用いられる。したがって、要素1、2、3、4、5、6、7の最大値が決定され、要素13、14、15、16、17、18、19の最大値と比較される。
あるいは、他の関数、たとえば、S2(k)=minX1-maxX2、またはX1およびX2の平均値から決定される差を用いることができる。
周波数評価器58は、音響信号の周波数帯域内のエネルギーの尺度を決定するため、およびエネルギーに基づいてカットオフ周波数fcを決定するために構成することができる。たとえば、周波数評価器は、周波数値が減少する周波数帯域における、すなわち、減少する周波数範囲内のエネルギーを評価することができる。図10に示した最上部の周波数を参照すると、周波数評価器は、たとえば、周波数範囲f2においてエネルギーの低量を決定することができる。いくつかのビンまたは1つの周波数ビンのみを含む比較的小さな周波数範囲を評価しながら、周波数評価器58は、示したように、周波数fを減少させエネルギーを増加させて傾斜54を決定することができる。カットオフ周波数fcで、周波数評価器58は、周波数範囲f2における低エネルギーレベルと比較したとき、たとえば、少なくとも30dB、40dB、50dBさらには60dBのエネルギーの強い増加を決定することができる。これに基づいて、すなわち、周波数範囲におけるエネルギーの増加に基づいて、周波数評価器58はカットオフ周波数fcを決定することができる。これは、サブバンドエネルギーが増加する周波数としてカットオフ周波数fcを決定することとも呼ぶことができる。
図11は、スペクトル差関数S(k)の例としての結果の概略図を示している。縦座標はスペクトル差関数S(k)の結果を示し、横座標は図10に示したものと同じ周波数軸を示している。スペクトル差関数により、傾斜54の峻度の尺度を得ることが可能になり得る。スペクトル差関数S(k)の局所的または大域的でもある最大72は、傾斜54が最も急な変動を含む、すなわち、減衰が非常に急である周波数を示すことができる。したがって、この尺度はあるいは、または加えて、カットオフ周波数fcの尺度として周波数評価器によって用いることができる。
傾斜54の減少、したがって減衰は、それぞれのベクトルの最大値を用いた差が十分な精度を提供することができるように、多数のサンプルに沿う範囲に及び得る。あるいは、スペクトル差関数は、個別の周波数値について決定されてもよく、すなわち、ベクトルX1およびX2は1の長さを有してもよい。
音質を向上させるため、元々低帯域幅を有する信号(たとえば、ベースンで演奏される低音)と、信号処理によって、たとえば、ロッシーエンコーディングまたはダウンサンプリングのために帯域制限された信号とを区別することが非常に重要である。これは、高音質を有する信号をいかなる後処理からも防ぎ、必要なときにのみ強調処理を適用するため、すなわち、信号から人為的に除去された高周波エネルギーを復元するためのみに後続の帯域幅拡張(BWE)を適用し、本来、低帯域幅を有する信号を処理しないために重要である。このような目的のため、減衰の峻度、減衰の量およびカットオフ周波数によって与えられる3つの特性に関して信号を分析することができる。これは、たとえば、第2の態様による装置によって実行される以下の処理ステップによって実行することができる。
図12aは、第2の態様の実施形態による装置120の概略ブロック図を示している。装置90と比較すると、装置120は、音響信号のいくつかのブロックから導出することができる複数のスペクトル121'から123'について所定の特性を決定するために構成されている。すなわち、音響信号はブロックに分割することができ、各ブロックからスペクトル12'を導出することができる。傾斜評価器52は、スペクトル121'から123'のそれぞれの傾斜54を評価するために構成されている。これに従って、周波数評価器58は、スペクトル121'から123'のそれぞれを評価するために構成されている。
プロセッサ64は、音響信号がスペクトル121'から123'のそれぞれについて所定の特性を含むことを示す情報66を提供するために構成することができる。音響信号が分割されるブロックの数は任意とすることができる。たとえば、ブロックの数が音響信号の長さに拠ることができるように、各ブロックの時間の長さは一定にすることができる。
装置120は、周波数評価器58に接続され、周波数評価結果62を受信するために構成されたフィルタ74を含むことができる。フィルタ74は、フィルタリングされた周波数評価結果62'を提供するために構成することができる。プロセッサは、音響信号が、スペクトル121'から123'のそれぞれについての複数の傾斜評価結果56および/またはそのフィルタリングされたバージョン、および音響信号の複数のスペクトル121'から123'に関連するフィルタリングされた周波数評価結果62'に基づいて、所定の特性を含むことを示す情報66を提供するために構成することができる。音響信号のエンコードに用いられるカットオフ周波数は、フィルタ74によって実装される、ローパスフィルタリング、移動最大、移動平均または移動中央値フィルタリングにより、たとえば、周波数評価器58が、異なるスペクトル121'から123'の間のわずかな異なるカットオフ周波数fcを決定するとき、さらなる処理のために変更されないまたは一定のままの、または少なくとも低レートで変化するフィルタリング値62'を取得することが可能になるように、本質的に時間不変、時間不変とすることができ、または、経時的にほとんど変化しない、またはまれに変化するパラメータであり得る。すなわち、取得した値fcの後処理は、ローパスフィルタリング、またはあるいは異なるフィルタリングによって実行することができる。
同様の方法で、人為的帯域幅制限処理に関する特性の変化が1つのフレームに存在し、後続のフレームには存在しない、すなわちないということがおそらくないように、人為的帯域幅制限は、通常、完全な音響信号または少なくともその大部分について実行される。したがって、プロセッサ64は、たとえば、複数のフレームについて、すなわち、複数のスペクトル121'から123'について中央値フィルタリングなどを用いて、変数Dまたは対応する結果または値の後処理を実行することができる。プロセッサは、音響信号の複数のフレームのそれぞれにそれぞれの情報を提供することによって、音響信号が所定の特性を含むことを示す情報66を提供するため、および結合された結果66'がフィルタにかけられてフィルタの出力に影響を及ぼす複数のフレームについて有効となるよう、フレームの結果を結合することによって、結合またはフィルタリングされた結果66'を提供するために構成することができる。たとえば、中央値フィルタリングを用いるとき、フレームおよび/またはスペクトル121'から123'の数が、それぞれのフィルタ、たとえば、プロセッサ64に接続された、またはプロセッサ64の一部である、またはプロセッサ64によって実装されるフィルタ76内で考慮される。フィルタ76の出力66'は、考慮されたフレームから派生した結合された中央値フィルタリングされた値であり得る。別個のブロックとして示しているが、フィルタ76は実装されてもよく、または他のコンピューティングブロックの一部であってもよい。
あるいは、または加えて、装置120は、スペクトル121'から123'の周波数帯域のエネルギーEを決定するため、およびそれぞれの周波数帯域内のエネルギーEの存在および/または量を示す信号82を提供するために構成された決定器78を含むことができる。信号82またはその派生信号は、プロセッサ64が決定されたエネルギーについての知識を有することができるように、プロセッサ64に提供することができる。いわゆる高周波数領域fhにエネルギーが存在するか否かに関心があってもよい。たとえば、高周波数領域fhは、少なくとも1kHz、2kHz、3kHz、4kHzまたは異なる値またはこれより上である周波数値、すなわち、異なる帯域幅制限周波数を有する周波数領域であり得る。たとえば、エンコーダが特定の周波数値を超える周波数を落とすまたは破棄することがある。周波数値は、音声関連のアプリケーションについて、3kHzまたは4kHzのような特定のアプリケーションに従っていてもよい。
決定器78は、スペクトル121'から123'がエネルギーを含むか、または高周波領域fhにおいて特定の閾値を超えるエネルギーを含むかを決定することができる。決定器78が、それぞれのスペクトル121'から123'が高周波数領域fhにおいてエネルギーEをまったくまたは少量しか含まないと決定する場合、カットオフ周波数および/または減衰の信頼できる決定は、たとえば、それぞれのフレームが適切な傾斜を提供しないため、困難または不可能ですらあり得る。非限定的な例のみによって、完全なスペクトルにおいてエネルギーを有さない無音スペクトルを考慮すると、カットオフ周波数も傾斜54の減衰も決定されない可能性がある。このような情報を信号82によって提供することができる。プロセッサは、実際のフレームまたはスペクトル121'から123'の評価をスキップすることができ、エネルギーEが、関連するエネルギーの有無を区別すると見なされるエネルギー閾値レベルを下回っていれば、前に観察または評価された前のスペクトルに基づいて情報66を提供するために構成することができる。別の言い方をすれば、実際のスペクトルが十分な情報を提供することができない場合、プロセッサは前のフレームに基づいて判断を下すことができる。
・任意選択のステップにおいて、音響信号/入力信号の短いブロックへの分割を実行することができ、すなわち、いくつかのブロックを取得することができる。ブロックの長さは、たとえば、少なくとも0.5ミリ秒、少なくとも1ミリ秒または少なくとも5ミリ秒、および最大1秒、500ミリ秒または100ミリ秒とすることができる。一例の間隔は、少なくとも2ミリ秒および最大80ミリ秒の値を含む。
・任意選択で、たとえば、変換またはフィルタバンクによって、各ブロックについての振幅スペクトルを計算する。したがって、装置90は、たとえば、スペクトル12'を提供するように振幅スペクトルなどのスペクトルを導出するための周波数導出器を含むことができる。各ブロックについて、図10に示したスペクトルに従うか、またはこれに類似したスペクトルを導出することができる。
・任意選択で、時間および周波数に関してスペクトル係数のローパスフィルタリングを実行することができる。たとえば、たとえば、傾斜評価器52および/または周波数評価器58および/または傾斜評価器52および周波数評価器58の両方を実装するプロセッサによって、移動平均化または再帰平均化を実行することができる。これにより、減衰および減衰の峻度、ならびにカットオフ周波数が、周波数範囲の評価により十分な精度が可能になり得るよう、個別の周波数値を超えて拡張された特定の周波数範囲内に配置されるため、計算負荷を減らすことが可能になり得る。
・任意選択で、入力信号がミュートであるか、高周波数領域にエネルギーを含まないとき、信頼できる推定を取得するのは困難なことがあり、取得するのは不可能なことがある。したがって、3kHzを超える最大サブバンドエネルギーが閾値を下回っていれば、このフレームは望ましい情報を含んでいないため、前のフレームの検出結果を用いることができる。
・任意選択で、たとえば、決定器78を用いて、信号がより低いサンプリング周波数からアップサンプリングされたかどうかを検出する。低ビットレートでの符号化信号が、通常、現在の処理フレームワークが動作するサンプリング周波数よりも低い可能性がある低サンプリング周波数でエンコードされる。デコーディング後のアップサンプリングまたはリサンプリングが検出されると、検出されるべき最高周波数がエンコーダのサンプリング周波数に等しくなるように、第2の態様による人為的帯域幅制限分析(ABLA)の検索範囲を変更することができる。リサンプリングを検出するため、11,025Hz、22,050Hz、32,000Hzおよび/または44,100Hzなどの一般的なサンプリングレートのセットについてリサンプリングの検出を実行することができる。サンプリング周波数の半分を超える範囲におけるスペクトル係数の最大値が閾値を下回るとき、リサンプリングを検出することができる。これは、サンプリングレートと比較したとき、周波数値の半分の周波数を取得することを可能にするナイキスト基準に基づいている。したがって、エネルギーが上半分において閾値を下回っているとき、これは用いられているサンプリングレートによって引き起こされている可能性がある。検出されるべき最高周波数が検出されたエンコーダのサンプリング周波数と等しくなるように検索範囲が変更され、したがってそれぞれのスペクトルの一部のみを検索することを可能にするように、次のABLA処理が次いで変更される。他の部分、たとえば、上半分は、アップサンプリングによって引き起こされると予想されるとして無視することができる。リサンプリングによる減衰は、エンコードの減衰より大きくなることがある。リサンプリング検出により、より低いカットオフ周波数fcでリサンプリングが帯域幅制限として誤って検出されないことを保証することができる。
・周波数にわたる減衰の峻度を定量化する検出関数、たとえば、スペクトル差関数を計算する。スペクトル差関数または図11と比較したときの代替バージョンを用いることができる。検出関数は、隣接する周波数帯域間のレベル差の情報を提供することができる。
・スペクトル差関数およびサブバンドエネルギーおよび閾値パラメータを評価する規則のセットを用いて、人為的帯域幅制限(ABL)を検出する。検索範囲の上端の周波数インデックスkで開始し、スペクトル係数およびスペクトル差関数S(k)または同様の関数または量の大きさXを、条件が有効になるまで、または検索範囲の下限に達するまで、条件のセットに関してテストすることができる。すべての閾値は、偽陽性検出と偽陰性検出との間のトレードオフを変更するように調整することができるパラメータである。以下の条件
1).x(k)>閾値、および
2).X(k)<X(k+1)-オフセットパラメータAND x(k)大きい閾値、
すなわち、振幅が閾値、たとえば、-60dBより大きいとき、オフセットパラメータ、たとえば、0.5dBより大きなBLを超える高い周波数に向かって振幅が増加する、
これにより、陰性検出につながる可能性がある。
1).S(k)>閾値、および
2).リサンプリングが検出された
以上による条件は陽性検出につながる可能性がある。
・カットオフ周波数fcを、たとえば周波数評価器58を用いて、サブバンドエネルギーが増加する周波数として決定する。
・任意選択で、たとえば、フィルタ74を用いたローパスフィルタ処理によってfcを後処理する。
・任意選択で、たとえば、フィルタ76を用いた中央値フィルタリングによってDを後処理する。
装置90および/または装置120は、信号強調器、たとえば、第1の態様に関連して説明した信号強調器48をさらに含むことができる。信号強調器48は、音響信号が所定の特性を含むことを示す情報66に依存する音響信号の人為的帯域幅制限処理によって引き起こされるアーティファクトを低減するために構成することができる。すなわち、信号強調器は、人為的帯域幅制限によって引き起こされるアーティファクトに適応させることができる。
以下において、第2の態様に従ってバーディー符号化アーティファクトを抑制または少なくとも低減するため、および知覚される音質を改善するために構成された装置を参照する。それぞれの装置または方法は、音響信号が人為的帯域幅制限に、および/またはスペクトル帯域複製などのスペクトル強調処理に関する特性を含むという情報が導出された場合に用いることができる。たとえば、この装置は、人為的帯域幅制限またはスペクトル帯域複製の少なくとも一方が検出された場合に用いることができる。
したがって、人為的帯域幅制限およびスペクトル強調処理の少なくとも一方が検出されると、スペクトルギャップと呼ぶことができる、スペクトルにおける急峻で高度に減衰した領域を検出するように、人為的帯域幅制限がそれに従い検出される概念を再利用または利用することができる。スペクトルギャップは第1のエッジおよび第2のエッジを含むことができる。したがって、スペクトルアイランドも第1のエッジおよび第2のエッジを含むことができ、それぞれのエッジ間にギャップまたはアイランドを配置することができる。
ここで図12bを参照すると、カットオフ周波数fcでの立ち下がりエッジ68を含む例としてのスペクトルが示されている。さらに、そのカットオフ周波数fcより低い周波数範囲で、例としてのスペクトルギャップ202および例としてのスペクトルアイランド204が配置されている。低周波数から始まり、まず立ち下がりエッジ2061が、その後に立ち上がりエッジ2062が配置され、その間の周波数範囲でスペクトルギャップ202を配置することができる。したがって、スペクトルアイランド204は、エッジ2063とエッジ2064との間に配置することができる。エッジは、エッジ68を見つけるために本明細書で開示された教示を用いて位置特定、定量化および認定することができ、特に、周波数/エネルギー評価を実行することができる。
カットオフ周波数fcとは対照的に、ギャップ202およびアイランド204の位置、存在および大きさ、ならびにそれらの数は、音響信号のフレーム間で変動し得る。簡略化すると、ギャップ202の充填および/またはアイランド204の減衰は、それぞれの周波数が可変であることを除き、カットオフ周波数fcに関連して説明したように、エッジ2061から2064を見つける概念を用いた後に実行することができる。すなわち、装置または信号強調器が、スペクトルギャップを埋めるため、および/またはスペクトルアイランドを減衰させるために構成することができる。したがって、音響信号自体から決定することができるスペクトル重みを用いることができ、すなわち、サイド情報は不要なままでよい。バーディー符号化アーティファクトを抑制することによって、知覚される音質を向上させることができる。導入された概念は、デコーダの後にある後処理概念として用いることができる。非圧縮音響信号に、および他のサイド情報にアクセスすることなく、それは盲目的に動作することができる。
バーディーアーティファクトを低減するように以下で説明する概念は、スペクトル重み付けまたは短期スペクトル減衰と呼ばれる基本原理を用いることができる。したがって、時間領域信号X[n]をその周波数領域表現X[k、m]に変換することができ、kおよびmはそれぞれ、タイムフレームインデックスにおける周波数を示す。説明する実施形態において、短時間フーリエ変換(STFT)を適用することができるが、他の変換を用いることもできる。スペクトル重み付けの出力信号Yは、次の式において与えることができる。
Y[k、m]=G[k、m]・X[k、m]
周波数領域信号Y[n]の時間領域表現Y[n]は、逆変換、実施形態においては逆STFTによって計算することができる。以下において、時間領域の信号は小文字で、周波数領域の信号は大文字で示す。インデックスkおよびmまたは周波数領域信号は、読みやすくするため省略する。
図12cは、デコーダから受信することができ、人為的帯域幅制限および/またはスペクトル帯域複製などのスペクトル強調を受けた可能性がある音響信号91を処理するために構成された装置125の概略ブロック図を示す。装置125は、傾斜評価器52および周波数評価器58を含む。傾斜評価器52は、図9および/または図12aに関連して説明したように、音響信号91のスペクトルの傾斜を評価して傾斜結果を得るために構成されている。周波数評価器は、たとえば、それぞれのアーティファクト、すなわち、ギャップ202および/またはスペクトルアイランド204を取り囲む、境界を定める、または囲いをしているエッジ2061および2062および/またはエッジ2063および/または2064で少なくとも第1の周波数および第2の周波数を評価するために構成することができる。
装置125は、スペクトル重みGおよび/またはWを決定するため、およびスペクトル重みGおよび/またはWを用いて、少なくともそれぞれのエッジ2061と2062、2063と2064の間のスペクトル領域において音響信号91を処理するために構成されたプロセッサ208を含む。装置125は、音響信号91の周波数領域、周波数ビンおよび/またはフレームのそれぞれについてスペクトル重みGおよび/またはWを決定するために構成することができる。スペクトル重みはG、スペクトルギャップを埋めるように音響信号と合成されるべき充填信号Sを形成または整形するために用いることができる。スペクトル重みWは、スペクトルアイランドを減衰させるように用いることができる。すなわち、スペクトルギャップ202におけるアーティファクトを低減するため、充填信号Fを用いることができる。スペクトルアイランド204によって引き起こされるアーティファクトを低減するため、アイランドの高さを減衰させるためにスペクトル重みWを用いることができる。複数の周波数値について、それぞれのスペクトルギャップ202およびそれぞれのスペクトルアイランド204内で、複数のスペクトル重みを決定することができる。
図12dは、スペクトル重みGを決定するためにプロセッサ208によって実装され得る機能の概略ブロック図を示している。スペクトルギャップは、周波数および時間領域/方向におけるスペクトル振幅領域の急激な減少、すなわち、少なくとも30dB、少なくとも40dB、または少なくとも50dBと定義することができる。経時的な追加評価により、トーン信号の高調波間のスペクトル領域がスペクトルギャップとして誤って検出されないことが分かる。非特許文献5において、この検出方法はスペクトル領域において完全なゼロを検索している。これは、この方法がデコーダにあり、エンコーダと同じフィルタバンクおよびブロッキングにアクセスを有するから可能であるに過ぎない。説明する実施形態は、振幅スペクトルXの差およびその平滑化されたコピーを用いて、急激な相対スペクトル変化を評価するデコーダの後処理に言及している。スペクトルギャップおよびスペクトルアイランドの両方を検出するための信号フローを図12dに示している。音響信号91のスペクトル表現を取得するため、STFTまたは異なるスペクトル計算器44を用いることができる。絶対値形成器212が、振幅スペクトルXを出力するために構成され得る。対数214が、次のような対数変換を用いるため、振幅スペクトルXを対数領域に変換するために構成されている。
X'=20log10(X)
得られた対数振幅スペクトルX'は、並列の2つのローパスフィルタによって平滑化することができ、第1のローパスフィルタ216aは、周波数領域において平滑化された信号Y'を取得するように、音響信号、すなわち、周波数領域における音響信号のスペクトルを平滑化するために構成することができる。第2のローパスフィルタ216bは、平滑信号Z'を得るように、時間領域において振幅スペクトルX'を平滑化するために構成することができる。対数領域において平滑化されると説明しているが、平滑化は線形領域または異なる領域において実行することもできる。すなわち、対数214はなくてもよく、またはローパスフィルタの後に配置されてもよい。すなわち、対数振幅スペクトルX'は、信号Y'および信号Z'にそれぞれつながる可能性のある周波数および時間の両方で、2つのローパスフィルタによって平滑化することができる。特別な重みGの計算のため、線形値は次のように計算することができる。
Figure 2020512594
これらの線形値は、周波数差値および/または時間差値を得るように、振幅スペクトルXと比較することができる。時間Z'および周波数Y'にわたってスペクトルの振幅Xと平滑化されたバージョンを比較する相対差ΔtおよびΔfは、たとえば、各スペクトル係数について、および各フレームについて、対数領域において
Δf=Y'-20log10(X)
および
Δt=Z'-20log10(X)
によって計算することができ、Δfは周波数差値を指し、Δtは時間差値を指す。
スペクトル重み計算器218は、以下に従ってスペクトル重みGを計算するために構成することができる。
Figure 2020512594
すなわち、周波数差値Δfが周波数差閾値Δf以上であれば、および時間差値Δtが時間差閾値Δt以上であれば、スペクトル重みGは非ゼロ値に設定される。時間差値ΔfおよびΔtはそれぞれの閾値Δf、Δtより大きい必要があると説明しているが、他の閾値または異なるように選択された閾値に基づいて、利得パラメータは、閾値に等しいときも、Γであり得る。次の決定規則を適用することができる。
Figure 2020512594
ここで、ΔfおよびΔtは閾値パラメータを示す。α、βおよびγは、スペクトル重み計算の特性に影響を与えるパラメータである。すべてのパラメータは調整可能なパラメータである。κは、重み付けの影響を増加させるために用いられる用語であり、決定規則に従って、またはこれに基づいて計算することができる。
Figure 2020512594
計算されたスペクトル利得は、たとえば、ローパスフィルタ222a、222bを用いて、それぞれ時間および周波数にわたって平滑化される。スペクトル利得は続いて、図12eに関連して説明するように、充填ソース信号Sのスペクトル重み付けに用いられる。
図12eは、バーディーアーティファクトを低減するために構成された信号強調器200の概略ブロック図を示している。この処理は、たとえば、プロセッサ208の使用によって行うことができる。装置200は、充填信号Fを得るように、たとえば、乗算によって、充填ソース信号Sをスペクトル重み付け係数Gと結合するための結合器224を含むことができる。充填信号Fは、スペクトルギャップが推定された場所で非ゼロ値のみを含む構造を含むことができる。さらなる結合器226を、たとえば、加算によって、充填信号Fを振幅スペクトルXと結合するように構成することができる。すなわち、充填信号Fは入力信号Xに追加される。充填ソース信号Sは、時間領域において音響信号91をフィルタリングすることによって取得または生成することができ、これは先行フレームからの情報を延長する。あるいは、充填ソース信号は、1つのスペクトルフレーム内の他の位置からスペクトル係数をコピーすることによって、応答場所でスペクトルギャップを示さない他の音響チャネルからスペクトル係数をコピーすることによって、および/またはスペクトルギャップを示さない前のスペクトルフレームからスペクトル係数をコピーすることによって、取得することができる。
既知の概念において、たとえば先進的音響符号化(AAC)の知覚ノイズ置換(PNS)ツールからのノイズ置換が用いられる。スペクトルのノイズのような部分は、所与のターゲットエネルギーに一致するように調整された値の擬似ランダムシーケンスによってデコーダにおいて置換される。このプロセスはサイド情報によって制御される。さらに、ノイズ充填と名付けられた技術が知られている。ノイズ充填は、統合音声音響符号化(USAC)コーデックにおいて用いられ、小さなビットバジェットの制約下で動作する量子化器のデッドゾーンによって引き起こされるスペクトルホールを埋める。これらのスペクトルゼロを埋めるために値の擬似ランダムシーケンスが用いられる。さらに、インテリジェントギャップ充填と名付けられた技術がMPEG-Hおよび3GPP EVSから知られている。ここで、スペクトルギャップは、ノイズで、または離れたスペクトル位置から供給されたスペクトルタイルを用いて充填される。このプロセスはサイド情報によって制御される。本明細書に記載の実施形態は、先行する時間フレームからの時間周波数情報の分布を用いてスペクトルホールを埋めるように、ノイズ充填とは異なる。PNSとは対照的に、フィルタリングされた出力信号は、PNS帯域全体ではなく、スペクトルギャップ内のみに注がれる。PNSおよびIGF(インテリジェントギャップ充填)とは対照的に、本実施形態は、ガイドなしの処理として、すなわち、サイド情報を用いることなく用いることができる。
装置200は、またプロセッサ208によって実行することができるスペクトルアイランド重み計算器228を含むことができる。結合器226から受信され、入力スペクトルXと充填信号Fとを
Z=X+F
に従って加算することによって得られる信号Zに含まれるスペクトルアイランドは
Y=W・Z
に従うスペクトルの重み付けによって抑制することができる。
G、Wはスペクトル重みであり、各フレームmおよびスペクトル係数kについて再計算される。できるだけ多くの帯域幅を保持するため、スペクトルギャップが充填された後にスペクトルアイランドの抑制が行われる。スペクトルの主要部分に接続できなかった孤立したスペクトルアイランドのみが最終的に抑制される。部分的な強調を達成するため、スペクトルアイランド抑制は、スペクトルギャップ充填なしで実行することができる。あるいは、スペクトルギャップ充填は、スペクトル重みの計算なしで実行することができる。
スペクトル重み計算を抑制するため、およびスペクトル重みWを計算するため、以下の教示を実装することができる。スペクトルアイランドは、非常に低いスペクトル振幅値に囲まれた周波数および時間方向のスペクトル振幅領域の急激な増加として定義することができる。大きさの上昇は、たとえば、少なくとも30dB、少なくとも40dBまたは少なくとも50dBであり得る。スペクトルアイランドは、スペクトルの重み付けによって対応するスペクトル係数を減衰させることによって抑制することができる。スペクトル重みWを導出するため、図12dに関連して説明したものと同様の処理を実行することができる。スペクトル重みGについて説明したように、時間差値および周波数差値ΔfおよびΔtを決定することができる。スペクトルの重みWは、次の決定規則に基づいて導出することができる。
Figure 2020512594
ここで
Figure 2020512594
Δpは、スペクトルアイランドが低エネルギーのスペクトル係数に囲まれているという仮定を反映した閾値である。ΔfおよびΔtは閾値パラメータである。上述のように、α、βおよびγは調整可能なパラメータである。上の決定規則を考慮して、スペクトルアイランドの範囲で、信号Z、Yをそれぞれ減衰することを可能にするスペクトル重みΩが決定され、すなわち、Ωは1より小さい値である。スペクトルアイランドの外側の範囲において、Wは1の値であり、すなわち、減衰は実行されない。装置200は、たとえば、乗算を用いてスペクトル重みWを信号Zと結合するように結合器232を含むことができる。ISTFTを実行するように、すなわち、時間領域信号を取得するため、信号変換器234を用いることができる。
換言すれば、バーディー抑制の概念は、スペクトルギャップ充填とスペクトルアイランド抑制とに分けることができる。充填信号Fは、スペクトル重みG付きの広帯域充填ソース信号Sをフィルタリングすることによって計算することができる。Fはゼロ以外の値のみを含み、
F=G・S
に従って決定されたXにおいてスペクトルギャップが識別されている。
図12fは、音響信号を処理するための方法1500の概略フローチャートを示している。方法1500は、音響信号のスペクトルの傾斜を評価して傾斜評価結果を得るステップ1600を含む。ステップ1700は、周波数評価結果を得るよう、スペクトルがエッジを含む少なくとも第1の周波数エッジおよび第2の周波数エッジを評価することを含む。ステップ1800は、スペクトル重みを決定し、スペクトル重みを用いて、第1の周波数エッジと第2の周波数エッジとの間のスペクトル領域において音響信号を処理することを含む。
図13aは、音声信号の人為的帯域幅制限処理に関する所定の特性を決定するための方法2000の概略フローチャートを示している。方法2000は、音響信号のスペクトルの傾斜を評価して傾斜評価結果を取得することを含むステップ2100を含む。ステップ2200は、傾斜評価結果の評価に依存する所定の特性を音響信号が含むことを示す情報を提供することを含む。プロセッサ64によって提供される情報66は、たとえば、信号強調器を用いて音響信号の音質を改善するために適用される帯域幅拡張処理を始動させるために用いることができる、以下でDと呼ぶ変数を含むことができる。任意選択で、カットオフ周波数fcを決定することができ、すなわち、任意選択のステップが、音響信号のスペクトルのカットオフ周波数を評価して周波数評価結果を取得し、傾斜評価結果に依存して、および周波数評価結果に依存して、音響信号が所定の特性を含むことを示す情報を提供することができるようにすることを含むことができる。カットオフ周波数fcは、欠落している周波数領域のみを回復するようにBWEが動作する周波数範囲を決定することによって、帯域幅拡張(BWE)を制御するために用いることができる。これは、他の一実施形態による方法2500の概略フローチャートを示す図13bに示され、この方法は、音響信号のスペクトルのカットオフ周波数を評価して周波数評価結果を得ることを含むステップ2150を含む。
ABLA、すなわち、それぞれの特性の検出を使用または必要とすることができる第2のアプリケーションは、音響信号をロッシー圧縮による低音質の信号として分類することである。この分類は、説明した分析のみに基づいて、または音響信号から抽出することができる他の情報と組み合わせることによって行うことができる。この文脈において用いることができる追加情報についての例は、ステレオ信号の幅またはスペクトル帯域複製(SBR)、すなわち、ロッシーコーデックによって適用される方法の存在である。ABLAを次いで用いて、BWE処理に限定されず、ロッシー圧縮の為された信号の音質を改善する他の処理を始動させる。例としては、ステレオ幅の、および過渡信号成分の強調のためのフィルタリングがある。
ABLAの結果、すなわちパラメータDおよびカットオフ周波数fcは、人間のオペレータを関与させることなく、このようなアーティファクトを自動的に修復するために用いることができ、または必要になることさえある。音質が劣化した信号にのみ音質の向上を適用することは非常に重要であり得る。高品質の信号は、音質に悪影響を与えるおそれがあるため、このような方法で処理されるべきではない。第2の態様による実施形態は、人為的帯域幅制限を受けている音響フレームまたは音響信号を高精度で検出することを可能にしている。音響信号には、音生成プロセスによって決定される自然な帯域幅がある。帯域幅は、信号のキャプチャ、保存、処理および送信のために適用される帯域幅制限を含む、様々な技術プロセスのため変化する可能性がある。帯域幅制限は、上述のように、非常に急な減衰、非常に高い減衰およびカットオフ周波数という特性を有するローパスフィルタリングである。
以下において、たとえば、第2の態様に従って人為的帯域幅制限を決定したことに応答して、第3の態様における帯域幅制限信号を帯域幅拡張するための概念を参照して、本発明の第3の態様および第4の態様を参照する。したがって、第3の態様による実施形態は、第2の態様に関連して信号強調器として用いることができる。
第3の態様による概念は、いくつかの符号化アーティファクトを抑制して、知覚される音質を改善することを目的としている。技術的なステップは、後処理として実行することができ、デコーダによって用いることができるソフトウェアを用いて部分的に実行することができる。この概念は、非圧縮音響信号に、および他のサイド情報にアクセスすることなく盲目的に機能することができる。第3の態様による低ビットレート符号化強調処理は、遺産知覚コーダによって事前符号化された音響素材の無誘導後処理に対する概念に関する知覚的快感を導入または強化するポストプロセッサを含む、または本質的にこれからなる。これによって、事前にコード化された音響素材は、知覚的な快適さという現代的な概念から利益を得ることができる。
第3の態様および第4の態様に関連して説明する実施形態は、スペクトル重み付けまたは短期スペクトル減衰と呼ばれる基本原理を用いることができる。したがって、時間領域信号x[n]は、その周波数領域表現X[k、m]に変換され、kおよびmはそれぞれ周波数および時間フレームインデックスを指す。実施形態によれば、短時間フーリエ変換(STFT)を適用することができるが、他の変換も用いることができる。スペクトル重み付けの出力信号Yは、次の式によって与えられ得る。
Y[k、m]=G[k、m]・X[k、m]
ここで、周波数領域信号Y[k、m]の時間領域表現y[n]は、逆変換、たとえば、逆STFT、すなわち、ISTFTによって計算することができる。以下のセクションにおいて、時間領域の信号は小文字で、周波数領域の信号は大文字で示すことができる。インデックスkおよびmまたは周波数領域信号は、読みやすくするために省略する。スペクトル重み付けは、スペクトル重み付けG[k、m]についての詳細が説明されているスペクトル重み付けと呼ばれる態様に関連してより詳細に説明される。
図14は、第3の態様の実施形態による装置140の概略ブロック図を示している。装置140は、音声信号を処理するために構成されており、処理のために音響信号のスペクトル12'を受信することができる。装置140は、音響信号、すなわち、音響信号12の時間領域表現を受信するために構成することができ、そしてスペクトル12'を導出することができ、たとえば、装置140は、このような目的のためにスペクトル計算器44を含むことができる。
装置140は、音響信号91のスペクトル91'の第1の部分91'aを、音響信号91のスペクトル91'の第2の部分91'bから分離するためのセパレータ92を含む。第1の部分91'aは第1の信号特性を有し、第2の部分91'bは第2の信号特性を有する。音響信号91は、時間領域において、および/または周波数領域において装置140によって受信され得、たとえば、カットオフ周波数fcを用いて帯域幅制限されてもよく、後処理を受けてもよい。帯域幅拡張に関する第3の態様の1つの主な特徴は、各部分におけるモジュールについて異なるパラメータ設定を適用することによって独立して処理される過渡信号部分および持続信号部分などの異なる特性に入力信号を分割することができることである。
第1の信号特性および第2の信号特性は、異なる知覚によって、および/または周波数範囲内の異なる特性によって互いに異なり得る。実施形態はこれに限定されないが、第1の信号特性および第2の信号特性は互いに相補的であり得、すなわち、共通のスペクトル91'から一方の信号特性を除去、除外または減算することによって、残りの部分が他方の特性を形成する。非限定的な例として、第1の信号特性はスペクトルの中間周波数範囲であり得、第2の信号特性はスペクトルのサイド周波数範囲であり得る。あるいは、第1の信号特性は音響信号の直接信号特性であり得、第2の信号特性は音響信号の周囲信号特性であり得る。他の一実施形態によれば、第1の信号特性は音響信号のトーン特性であり得、第2の信号特性は、過渡などと称され得る音響信号の持続信号特性であり得る。あるいは、第1の信号特性は音響信号の音声特性であり得、第2の信号特性は音響信号の非音声特性であり得る。他の信号特性も可能である。さらに、これらの組み合わせを形成すること、すなわち、上で特定された特性の2つ以上を組み合わせることが可能である。第1部分91'aおよび第2の部分91'bは、同等または同じ帯域幅、開始周波数および停止周波数を含むことができ、互いに組み合わされたとき、スペクトル91'を再び形成することができる。すなわち、過渡持続信号分解によって分割または分離を行うことができる。あるいは、または加えて、ミッドサイド信号分解、直接周囲信号分解または前景/背景分解および/または音声非音声分解など、他の分解規則または方法が可能である。
装置140は、第1の拡張部分98aを取得するため、第1の信号特性に関連する第1のパラメータ961を用いて第1の部分91'aの帯域幅を拡張するための第1の帯域幅拡張器941を含むことができる。装置140は、第2の拡張部分98bを取得するため、第2の信号特性に関連する第2のパラメータ962を用いて第2の部分91'bの帯域幅を拡張するための第2の帯域幅拡張器942をさらに含む。帯域幅拡張は、元の信号と結合されるべきスペクトルにおける追加部分または周波数部分を形成することを含むことができる。これは、非線形性の適用による転置、スペクトル伸張または倍音の生成による、このようなさらなる周波数領域のコピーおよび/または生成を含むことができる。第1の帯域幅拡張器および第2の帯域幅拡張器を用いることによって、異なる部分91'aおよび91'bに存在する異なる信号特性は、それぞれの帯域幅拡張器941および942によって異なると見なされ得る。たとえば、コピーされた部分の帯域幅、コピー数、コピーの交替、取得される信号のスペクトル整形および/または人為的に生成されるスペクトル部分の周波数特性は、異なる信号特性に関連するパラメータ961および962の異なるセットを用いることによって考慮され得る異なる信号特性間で変化することがある。これにより、帯域幅拡張を信号特性に高度に適合させることが可能になる。
第1の信号特性および第2の信号特性を考慮するための第1の帯域幅拡張器および第2の帯域幅拡張器を含むものとして装置140を説明したが、さらなる実施形態による装置は、2つ以上、たとえば、3つ、4つ、5つまたはさらに大きな数を異なる帯域幅拡張にかけるために構成することができる。このような装置は、対応する数の帯域幅拡張器を含むことができるが、たとえば、異なる信号特性を順次処理するとき、少なくとも2つの帯域幅拡張について1つの帯域幅拡張器を用いることもできる。したがって、装置140は、1つの帯域幅拡張器94を実装することによって、そしてこの帯域幅拡張器を異なるパラメータ961および962に順次適応させながら、異なる部分91'aおよび91'bを順次処理するために実装することができる。
装置140は、拡張合成音響信号104を得るために第1の拡張部分98aおよび第2の拡張部分98bを用いるために構成された合成器102を含む。拡張部分98aおよび98bは、合成音響信号104も時間領域にあり得るように、時間領域表現として合成器102から受信することができる。あるいは、拡張部分98aおよび98bは、合成された音響信号104も後で時間領域に変換されるように周波数領域にあり得るように、周波数領域において合成器によって受信することができる。あるいは、合成器102は、時間領域で合成音響信号104を提供するため、単一部分98aおよび98bのそれぞれまたはそれらの組み合わせバージョンを時間領域に変換するように構成することができる。
図15は、異なる成分106aおよび106bを含む例としてのスペクトルを示す概略図である。たとえば、成分106aは、たとえば、スネアドラムによって得られるスペクトルの過渡信号に関連し得る。このような信号は、1つのスペクトルフレーム内でより高い相関を有することがあり、また、たとえば、人間の声に関し得るスペクトル部分106によって示されている持続信号よりも高い帯域幅を有することがある。図15において、過渡部分106aは、たとえば、歌声など、部分106bよりもかなり大きな帯域幅を有することが分かる。
図16は、第3の態様の一実施形態による装置160の概略ブロック図を示している。以下において、音響信号およびその派生信号を参照する。音響信号は、時間領域において、および/または周波数領域において存在および/または処理することができ、両変形は、周波数から時間への変換または時間から周波数への変換によって互いに対して変換することができる。したがって、音響信号を参照するとき、これは、時間領域表現および同義的に許容される周波数領域表現を指すことができ、そうでなければ明示的に説明する。
装置160は、音響信号91の周波数領域表現91'を受信するために構成されたセパレータ92を含む。この目的のため、装置160は、時間領域表現から周波数領域表現91'を取得するためのスペクトル計算器44を含むことができる。
セパレータ92は、音響信号、たとえば、その周波数領域表現を受信するため、および第1の修正音響信号を取得するように音響信号91における過渡部分を低減するために構成された過渡抑制器108を含むことができる。セパレータ92は、第1の修正音響信号に基づいて第1の部分98aを取得するために構成することができる。一実施形態によれば、第1の部分98aは第1の修正音響信号に対応する。他の一実施形態によれば、第1の変更部分の処理、たとえば、フィルタリング、増幅、減衰などが実行される。
セパレータ92は、第2の修正信号を得るよう、音響信号91から第1の修正音響信号、たとえば第1の部分91'aを減算するための減算器112を含むことができる。一実施形態によれば、第2の修正信号は第2の部分91'bである。第1の部分91'aについて説明したように、第2の部分91'bは、取得した減算結果の処理に基づいて取得することもできる。したがって、音響信号91から第1の部分91'aを除去することによって、第2の部分91'bを取得することができる。第1の修正信号を取得することによって、および第2の修正信号を取得するようにそれを音響信号から減算することによって、音響信号の2つの部分への分解を実行することができる。
セパレータ92は、周波数領域において、または時間領域において動作し、過渡抑制器108が音響信号91のスペクトルの各サブバンドについての過渡および/またはトーン部分を低減または除去するよう、音響信号91を処理するように構成することができる。これは、過渡またはトーン(すなわちノイズの多い)部分をほとんどまたはまったく含まないサブバンドについての処理を少なくする、さらにはなくすことにつながり得る。過渡抑制器108は、分離されるべき特性の1つを、それらを抑制することによって、または増幅することによって処理するように過渡処理段階、トーン処理段階および/または結合段階を含むことができる。音響信号91の周波数領域表現は、多数のサブバンド(周波数帯域)を含むことができ、過渡処理段階および/またはトーン処理段階は、これらの周波数帯域のそれぞれを処理するように構成されている。あるいは、音響信号91の周波数変換によって得られたスペクトルは、選択された特性を含むか、選択された特性が欠落している周波数帯域など、特定の周波数範囲または周波数帯域をさらなる処理から除外するように削減、すなわち、カットすることができる。これにより、計算の労力が削減されるため、より速い、および/またはより正確な処理が可能になり得る。
過渡処理段階は、処理された周波数帯域のそれぞれについて、周波数帯域が過渡部分を含むかどうかを決定するように構成することができる。トーン処理段階は、周波数帯域のそれぞれについて、音響信号91が周波数帯域内にトーン部分を含むかどうかを決定するように構成することができる。過渡処理段階は、少なくとも過渡部分を含む周波数帯域についてスペクトル重み係数を決定するように構成することができ、スペクトル重み係数は、それぞれの周波数帯域に関連し、それぞれの部分を減衰/除外または増幅することを可能にし得る。過渡特性およびトーン特性は、スペクトル処理によって特定することができる。過渡性および/またはトーン性のレベルは、セパレータ92の過渡処理段階および/またはトーン処理段階によって測定することができ、スペクトル重みに変換することができる。セパレータ92は、少なくともトーン部分を含む周波数帯域についてスペクトル重み係数を決定するように構成することができる。スペクトル重み係数は多数の可能な値を含むことができ、スペクトル重み係数の大きさは、周波数帯域内の過渡および/またはトーン部分の量を示している。
スペクトル重み係数は、絶対値または相対値を含むことができる。たとえば、絶対値は、周波数帯域内の過渡および/または調性音のエネルギーの値を含むことができる。あるいは、スペクトル重み係数は、0と1との間の値などの相対値を含むことができ、値0は、周波数帯域が過渡または調性部分をまったくまたはほとんど含まないことを示し、値1は、大量または完全に過渡部分および/または調性部分を含む周波数帯域を示している。スペクトルの重み係数は、3、5、10またはそれ以上の値(ステップ)、たとえば、(0、0.3および1)、(0.1、0.2、…、1)などのような、多数の値の1つを含むことができる。スケールのサイズ、最小値と最大値との間のステップ数は、少なくともゼロ、しかし好ましくは少なくとも1、より好ましくは少なくとも5であり得る。好ましくは、スペクトル重みの多数の値は、最小値、最大値、および最小値と最大値との間の値を含む少なくとも3つの値を含む。最小値と最大値との間の値の数が多くなると、周波数帯域のそれぞれのより連続的な重み付けが可能になり得る。最小値および最大値は、0と1との間のスケールまたは他の値に調整することができる。最大値は、過渡性および/または調性の最高または最低レベルを示すことができる。
セパレータ92の結合段階は、周波数帯域のそれぞれについてのスペクトル重みを音響信号と結合するように構成することができる。セパレータ92は、結合されたスペクトル重みを周波数帯域のそれぞれに適用するように構成することができる。たとえばスペクトル重みは、処理された周波数帯域における音響信号91のスペクトル値と乗算することができる。
音響信号91からいくつかの部分/特性を抑制または除外することによって、それぞれの特性を欠くが他の特性を含む第1の修正信号を得ることができる。音響信号から信号を減算することによって、抑制された特性を含み、第1の修正信号の特性を欠く逆信号を、第2の修正信号によって得ることができる。
以下において、帯域幅拡張器941および942の例としての構成を参照する。帯域幅拡張器941および942のそれぞれは、それぞれの部分の少なくとも一部を複製するための複製器114を含むことができ、少なくとも複製器によって生成された拡張部分を整形する包絡線整形器116を含むことができ、少なくとも拡張部分を等化するための白色化器118を含むことができ、および/または拡張部分の少なくとも一部を位相シフトするための粗さ低減フィルタ122を含むことができる。これらの要素のそれぞれは、他の参照要素とともに配置することができる。あるいは、これらの要素の一部またはすべてが存在しないことがあり、および/または他の要素によって置換されることがある。たとえば、複製器によって実行されるコピーの代わりに、帯域幅の人為的な生成が帯域幅拡張器によって実行されると、帯域幅ジェネレータが複製器114の代わりになることができる。あるいは、スペクトルの整形または白色化は却下することができ、および/または他の処理を用いることができる。さらに、粗さ低減フィルタ122は任意選択である。内向き短期フーリエ変換ブロック124の出力が供給されることによって時間領域においてそれぞれの信号をフィルタリングするように示しているが、粗さ低減フィルタは、周波数領域において動作するために構成することができ、したがってそれぞれの逆短期フーリエ変換ブロック124の前に配置することができる。このように、配置されたブロックに加え、その順序も変えることができる。
帯域幅拡張器941および942のそれぞれは、それぞれの第1の複製器1141および第2の複製器1142を含むことができる。複製器1141および1142は、それぞれの第1の部分91'aおよび第2の部分91'bの少なくとも一部を複製するため、およびそれぞれの延長部分126a、126bを得るように、第1の部分、第2の部分のそれぞれ複製された部分の少なくとも1つのバージョンをそれぞれ第1の部分、第2の部分91'a、91'bと結合するために構成される。
ここで図17aを参照すると、第1の部分91'aの例としてのスペクトルが示されており、与えられた説明は、制限なしに第2の部分91'bに言及している。部分91'aは、カットオフ周波数fcより下で関連エネルギーまたは振幅|X|を有することができ、カットオフ周波数fcより上で少量のエネルギーを含むことができるか、またはエネルギーを含まなくてもよい。スペクトルは、周波数の増加とともに減少し得る。換言すれば、図17aは、帯域制限された信号の振幅スペクトル|X|を示している。カットオフ周波数はfcとして示している。
図17bは、2つの複製部分1281および1282によって延長されている第1の部分91'aの概略図を示している。複製部分1281および1282のそれぞれは、第1の部分91'aの周波数帯域wのコピーであり得、部分91'aによって占有されていない周波数範囲、すなわち、カットオフ周波数fcを超える周波数範囲にコピーされており、好ましくは、複製部分1281および1282は、元の信号、すなわち、第1の部分91'a上で直接順序付けられるように組み合わされている。図17bはしたがって、コピーアップがどのように実行されるかを示している。複素スペクトル係数は、周波数間隔[fc-w、fc]におけるいわゆるソースパッチwから間隔[fc、fc+w、fc+2w]などにおける宛先パッチに、すなわち、各nについての[fc(n-1)w、fc+nw]にシフトされ、nは1からパッチの数または挿入されるコピーの数までの範囲の変数である。図17bにおける非限定的な例によって2である数nおよび複製部分の幅Dfwは、帯域幅拡張器941および942のそれぞれについて独立して装置160によって調整することができる。すなわち、ソースパッチwがシフトされる頻度は、所望の帯域幅および/またはパッチの数に依存し得るものであり、両方とも調整可能なパラメータであり得る。スペクトルの大きさの減少と同様に、パッチが取り付けられている場所でステップまたは不連続が発生することがある。
第1の部分および第2の部分のコピー部分は、第1の中間周波数、たとえば、第1の部分91'aのfcopy1から第1の部分の最大周波数fcまでの範囲であり得る。したがって、第2の部分のコピー部分は、第2の部分91'bの同じまたは異なる中間周波数からカットオフ周波数fcでもあり得る第2の部分の最大周波数までの範囲の第2の周波数範囲を含むことができる。異なる中間周波数に基づいて、幅Dfwは異なり得る。結果として同じ帯域幅を取得するため、したがって、異なる帯域幅拡張器間でパッチの数が変わることもある。
望ましくないアーティファクトを回避するため、第1の帯域幅拡張器は第1の包絡線整形器1161を含むことができ、第2の帯域幅拡張器942は第2の包絡線整形器1162を含むことができる。包絡線整形器1161および1162は、少なくとも拡張部分、すなわち、カットオフ周波数fcより上の周波数部分を整形するために構成することができる。振幅スペクトルは平坦でないことが多く、図17aに示すように、高い周波数に向かって振幅が低下する傾向があるので、包絡線の整形、すなわち、スペクトル包絡線整形の実行を用いることができる。図17bは、さらなる適応なしでコピーアップが実行されたときの振幅スペクトルを視覚化している。振幅スペクトルの急激な遷移が、周波数fc、fc+w、…、fc+kwで現れることがある。これにより、鋭く明るい音が知覚される可能性があり、これは包絡線整形器1161および1162によって防止されるはずである。
このような影響を避けるため、周波数間隔[fc-w、fc]を含むソースパッチの対数スペクトルに線形回帰によって適合された傾斜│X│を計算することによって、図17bに示すようなスペクトルチルトTを推定することができる。各パッチwは値kTで減衰させることができ、すなわち、パッチを周波数範囲にコピーするほど、減衰が大きくなる。kは自然数であり得、いわゆるパッチ次数であり得、これは1から始まり、シフトされる各追加パッチについて増加し、したがって前述のnに対応し得る。
換言すれば、図17bは、包絡線整形なしのスペクトル係数のコピーアップを示している。コピーアップのためのソースは、間隔[fc-w、fc]からのものであり、wはパッチの幅である。アナログシェーピング中、間隔[fc、fc+2w]におけるコピーされたターゲットパッチの大きさは、スペクトル傾斜を表すTの倍数で減衰される。
図17cは、少なくとも拡張部分1261を整形するために構成されている包絡線整形器1161から取得され得る例としての振幅スペクトル132aを示している。補間に基づいて、複製された部分1281および1282の大きさは、均一なスペクトルを得るように整形または減衰され得る。図17cは、パッチ次数2の包絡線整形の振幅スペクトルを示し、パッチ次数は1以上の任意の値を含むことができる。帯域幅拡張器491および492のそれぞれは、少なくとも拡張された第1の部分、拡張された第2の部分をそれぞれ等化するための白色化器を含むことができる。スペクトルの白色化は、スペクトル値を上げてスペクトルピークを下げることによって行うことができる。
より良い理解のため、図18に、音響信号91を独立して白色化するために構成されているスペクトル白色化器の概略ブロック図を示す。白色化器は、音響信号のスペクトルを取得するようにスペクトル計算器44を含むことができる。白色化器134は、各スペクトル係数および時間フレームの大きさX[k、m]を平滑化バージョンY[k、m]と比較するために構成することができ、kはスペクトル係数インデックスであり、mはフレームインデックスである。Y[k、m]は、周波数にわたって対数スペクトルの大きさを平滑化することによって導き出すことができる。続いて、これらの対数値は、以下による決定規則を用いて線形領域に変換することができる。
Figure 2020512594
実数値のスペクトル重みG[k、m]は、以下の決定規則によって説明されているように計算することができる。
Figure 2020512594
ここでも、読みやすくするために、インデックスkおよびmは省略する。α1、α2、β1、β2、γ1、γ2は、白色化器1181および1182のそれぞれについて独立して適応させることができる調整可能なパラメータである。白色化器は、スペクトルの絶対値を計算するための計算器126を含むことができる。これらの値はXと呼ぶことができ、これらの値は、任意のスペクトル重みGを計算するための計算器138に提供されるものであり、平滑化バージョンYを得るように平滑化経路142に提供されるものである。周波数変換器144が、結果を時間領域に変換するために構成され得る。ここで図16を参照すると、白色化器1181および1182は、周波数計算器44および/または周波数変換器144などなしでそれぞれの白色化器を実装できるように、周波数領域においてすでに動作することができることが分かる。
帯域幅拡張器941および942のそれぞれは、拡張された第1の部分の、拡張された第2の部分のそれぞれ少なくとも一部を位相シフトするためのそれぞれの粗さ低減フィルタ1221、1222をそれぞれ含むことができる。これは、複製部分1281および1282および/またはその成形バージョン128'1、128'2および/または白色化バージョン146aおよび146bをそれぞれ位相シフトすることとして実行され得る。すなわち、粗さ低減フィルタは、位相シフトされた信号を取得するように、それぞれの拡張部分またはその右の信号を位相シフトするために構成されている。粗さ低減フィルタ1221および1222は、フィルタリングされるべきそれぞれの信号に異なる位相シフトを適用するために構成することができる。位相シフトを用いることによって、元の信号に対するコピー部分または拡張部分の位相シフトを取得することができる。あるいは、粗さ低減フィルタは、提供される完全な信号への位相シフトを実行することができる。これは、たとえば、以下で説明するように、それぞれのコア部分が非位相シフト部分によって後で置き換えられるときに実行することができる。粗さ低減フィルタ1221および1222は、時間領域においてそれぞれの信号をフィルタリングするように実装することができる。したがって、ISTFTブロック1241、1242を、時間領域においてそれぞれの信号を提供するように配置することができる。あるいは、粗さ低減フィルタ1221および1222は、周波数領域においてフィルタリングするように実装することができる。このような場合、ISTFTブロック1241および1242はなくてもよく、または粗さ低減フィルタ1221、1222の後にそれぞれ配置されてもよい。粗さ低減フィルタリングを実行して、コピーアップによって主に引き起こされる知覚される粗さを低減することができる。ここでは、信号の音色には影響を与えないが、主に信号の位相を変更するフィルタが適し得る。たとえば、ネストされた2つのオールパスフィルタを並列に配置することができ、時間領域において計算することができる。ネストされたオールパスフィルタは、それぞれのフィルタのユニティゲインオールパス伝達関数を表すH1(z)およびH2(z)として理解することができ、このときH1(H2(z))とH2(H1(z))とは両方ともオールパスフィルタである。
任意選択で、帯域幅拡張器941および942のそれぞれは、持続部分または過渡部分を増幅するためにそれぞれ利得gt、gsを適用するための増幅器/減衰器1481、1482をそれぞれ含むことができる。結果は、合成器102に提供される拡張部分98aおよび98bであり得る。上で説明したように、拡張部分98aおよび98bは、異なる方法で、および/または説明した信号修正の一部のみを実行することによって取得することができる。
粗さフィルタに関連して、装置160は、フィルタリング信号154を得るように、第1の拡張部分および第2の拡張部分98aおよび98b、合成信号102をそれぞれ同義的にフィルタリングするためのハイパスフィルタ152を含むことができる。帯域幅拡張器941および942と並行して、音響信号91は、ブロック44における時間周波数変換およびブロック1241および1242における周波数時間変換によって引き起こされる時間遅延を補償するための遅延156を受け得る。装置160は、遅延音響信号をフィルタリングするために構成されたローパスフィルタ158を含むことができる。装置160は、ローパスフィルタリングされた音響信号と信号154とを合成するために構成された合成器162をさらに含むことができる。一実施形態によれば、装置160は、合成された均質信号を取得するよう、ローパスフィルタ158の上限周波数(カットオフ周波数Xc)をハイパスフィルタ152の下端周波数と一致させるように構成されている。特に、装置160は、音響信号91の決定されたカットオフ周波数に応答して、これに従って、ローパスフィルタ158の上端周波数(カットオフ周波数)とともにハイパスフィルタ152のそれぞれのより低い周波数を適応させるように構成することができる。したがって、ハイパスフィルタ152に基づいて、カットオフ周波数fcより下の信号部分は、拡張および移相部分のみが残るように、除去または強く減衰され得る。これとは対照的に、ローパスフィルタ158は、音響信号91の一部を除去、破棄または強く減衰するために用いることができ、その一部はそれぞれカットオフ周波数fcを超えて延びる。これにより、粗さ低減フィルタ1221および1222を除く、帯域幅拡張器における他の遅延を補償するようにのみ遅延している元の音響信号91に対して位相シフトされている拡張およびコピーされたバージョンを取得することが可能になる。得られた音響信号164は、拡張され最適化された音声信号であり得る。
粗さ低減フィルタリングはスペクトルの帯域幅拡張エリアにのみ適用されるはずであるため、結果の信号はハイパスフィルタリングされ、ローパスフィルタリングおよび遅延入力信号に追加することができる。遅延は、STFTによって導入された遅延を補償するために用いられ、または必要とされている。前述のハイパスフィルタおよびローパスフィルタのカットオフ周波数は、たとえば、図17aに示すように、カットオフ周波数fcに対応し得る。
図16に関連する図19に関して、装置160の信号分析器である任意選択のブロック166およびルックアップテーブルである168の機能が示されている。装置160は、ブラインド帯域幅拡張であり得る。これは、説明したように、たとえば、サイド情報に基づいて、さらなる知識を有することなく、失われた帯域幅を復元することを目的とし得る。信号分析器166は、信号が人為的に帯域制限されているか否かを検出するために構成することができ、および/または音響信号91のカットオフ周波数fcを推定することができる。両方のステップは、人為的帯域幅制限分析に関連して説明したように実行することができる。両方の値は、フレームごとに更新することができる。したがって、音響信号91は複数のフレームを含むことができる。装置160は、音響信号91の人為的帯域幅制限に関する特性について音響信号91のスペクトルを各フレームについて分析するため、および音響信号91におけるカットオフ周波数fcを決定するために構成された信号分析器166を含むことができる。
図19においてそれぞれf0、f1、f2、f3、f4として概略的に参照される異なるカットオフ周波数に基づいて、複製器114、整形器116、白色化器118および/または粗さ低減フィルタ122の機能を適合させるために用いられている異なるパラメータが変化し得る。たとえば、パラメータpを用いて、それぞれのブロックを適応させることができる。図19に示すように、異なるカットオフ周波数が、異なるパラメータまたは同じパラメータの異なる値に関連し得る。これらの値は、それぞれのパラメータをそれぞれのブロックに提供するためにルックアップテーブル168に格納することができる。図16において、破線のつながりは、たとえば、リアルタイムでモジュールが制御されることを示している。例としてのパラメータがあり得るが、ここに一例がある。1つのパラメータはソースパッチwの帯域幅であり得る。このパラメータは、人為的に作成された帯域幅に影響することがある。他の一例のパラメータは、異なるコーデックについて異なる可能性のある平滑化フィルタの時定数であり得る。複数の他の例を用いて、周波数領域および/または時間領域においてブロック114、116、118および/または122を制御することができる。
ルックアップテーブルは、信号解析結果に応じて、制御パラメータの一部またはすべてについての調整を保持することができる。カットオフ周波数fcの推定の場合、選択された各周波数fiについて、対応するパラメータの知覚的調整が実行されてもよく、これは制御値piにつながり得る。選択された値piは、異なる帯域幅拡張器について異なり得る、すなわち、装置160は、それぞれのブロックを異なる方法で適合させるように構成され得ることが留意される。帯域幅拡張器941または942についてのルックアップテーブルサンプリングポイントsiは、たとえば、以下によるタプルとして与えることができる。
si=(fi、pi)
図19において、5つのカットオフ周波数f0からf4についての1つの制御パラメータpの調整についての例を示す。いくつかの例によれば、中間値が適切であると、パラメータは補間することができる。このような場合、間隔[fi、fi+1]における2つのサンプリングポイント間で、線形補間を以下によって実行することができる。
Figure 2020512594
このような補間値のための一例は、たとえば、図17a〜図17cに関連して説明したような各パッチの幅wであり得る。補間されないままである可能性のあり得るパラメータは、たとえば、整数値に制限されるいくつかのパッチであり得る。
この装置は、人為的帯域幅制限に関する特性を有するフレームについて第1のパラメータおよび第2のパラメータを用いるために構成することができる。他のフレームについて、この装置は、たとえば、人為的帯域幅制限に関する特性とは異なる特性を有するフレームについて、第1の帯域幅拡張器には第3のパラメータおよび第2の帯域幅拡張器には第4のパラメータを用いるために構成することができる。あるいは、この装置は、人為的帯域幅制限に関連する特性とは異なる特性を有するフレームについて第1の帯域幅拡張器および第2の帯域幅拡張器を停止状態にするように構成されてもよい。このように、この装置は、それぞれの特性を含むと見なされるフレームについて帯域幅拡張を実行するために構成することができ、そしてその特性を含まないと見なされるフレームを、第3のパラメータおよび第4のパラメータを用いて異なる方法で、またはそれぞれのフレームを未処理のままにするように処理することができる。
この装置はしたがって、カットオフ周波数fcなどの対応する複数の信号修正パラメータに関連する複数のパラメータと、第1の帯域幅拡張器941および第2の帯域幅拡張器942についてそれぞれ用いられる対応する複数の信号修正パラメータfcに関連する複数の他のパラメータと、を含むルックアップテーブル168を含むことができる。この装置は、音響信号91に適用される修正についてスペクトルを分析するための信号分析器166を含むことができる。装置160は、修正に関連する修正パラメータ、たとえば、カットオフ周波数fcおよび/または傾斜の峻度に関するパラメータを導出するために構成することができる。この装置は、ルックアップテーブルを用いて、および修正パラメータを用いて、それぞれの第1のパラメータおよび/または第2のパラメータを導出するために構成することができる。一例によれば、この装置は、修正パラメータカットオフ周波数を導出することができ、そして第1の帯域幅拡張器について1回、第2の帯域幅拡張器について1回パラメータpを決定することができる。
既知の概念において、人為的帯域幅拡張はよく知られた音響符号化技術である。また、ガイドなしの帯域幅拡張もよく知られている。しかしながら、帯域幅拡張計算前のセマンティック分解は知られていない。帯域幅拡張アプリケーションにおいて必然的に見られるようなコピーアップまたは転置機能を含まない、空間アップミキシングという目的のためにセマンティック非相関を用いることができる。したがって、第3の態様による実施形態は異なる。他の技術が非相関の帯域幅拡張から知られている。ここで、すべての高帯域ターゲットスペクトル領域が、専用の非相関器により、または相互に独立するようにランダムなノイズの非相関インスタンスを挿入することにより相関が失われる。既知の概念は異なるスペクトルターゲット領域の非相関を含むだけであるが、第3の態様による本実施形態は、セマンティックに分解された信号部分の相互非相関を教示している。
図20は、第3の態様の一実施形態による方法3000の概略フローチャートを示している。方法3000は、音響信号のスペクトルの第1の部分を音響信号のスペクトルの第2の部分から分離することを含むステップ3100を含み、第1の部分は第1の信号特性を有し、第2の部分は第2の信号特性を有する。ステップ3200は、第1の拡張部分を取得するため、第1の信号特性に関連する第1のパラメータを用いて第1の部分の帯域幅を拡張することを含む。ステップ3300は、第2の拡張部分を取得するため、第2の信号特性に関連する第2のパラメータを用いて第2の部分の帯域幅を拡張することを含む。ステップ3400は、拡張された合成音響信号を取得するため、第1の拡張部分および第2の拡張部分を用いることを含む。
第4の態様によれば、粗さ抑制は、たとえば、異なる概念で帯域幅拡張を実行した後の後処理として実行することができる。したがって、たとえば、人為的帯域幅制限が実行され、それぞれの拡張も実行されたと判断したとき、信号強調器48に関連して、アーティファクトを低減するよう、粗さ抑制または粗さフィルタリングを用いることができる。
図21は、第4の態様の一実施形態による装置210の概略図を示している。装置210は、たとえば、人為的帯域幅拡張の対象である音響信号12を処理するために用いることができる。装置210は、位相シフトされた信号172を得るよう、音響信号12の少なくとも一部を位相シフトするための粗さ低減フィルタ122を含むことができる。粗さ低減フィルタ122は、たとえば、時間領域において、あるいは周波数領域において動作することができる。一実施形態によれば、粗さ低減フィルタ122は、完全な音響信号12を位相シフトするために構成することができる。装置210は、第1のフィルタリングされた信号174を得るよう、位相シフトされた信号172をフィルタリングするためのハイパスフィルタ、たとえば、ハイパスフィルタ152を含む。装置210は、第2のフィルタリングされた信号176を取得するよう、音響信号12をフィルタリングするためのローパスフィルタ158などのローパスフィルタを含む。装置210は、信号174と176とを合成して強調音響信号178を得るための合成器162をさらに含み、ここでは知覚される粗さが低減されている。装置160に関連して説明したように、拡張帯域幅は音響信号12に対して位相シフトされている。一態様は、選択されたフィルタ周波数、カットオフ周波数fcをそれぞれ超えるいずれの信号部分をも除去するよう、ローパスフィルタ158を用いて音響信号12をフィルタリングすることである。これにより、合成信号178における異なる信号部分の影響または重ね合わせを低減または制限することが可能になる。
図22は、第4の態様の一実施形態による装置220の概略ブロック図を示している。図16に関連して説明したように、装置220は、周波数領域において音響信号12の第1の部分12'aおよび第2の部分12'bを提供するためのセパレータ92を含むことができる。装置220は異なる経路を含むことができ、各経路は、非限定的な例のみによって、時間領域においてそれぞれ動作する粗さ低減フィルタ1221、1222とともに、非限定的な例によって、それぞれ白色化器1181、1182を含む。あるいは、または加えて、各経路は増幅器/減衰器148を含むことができる。このように、装置220は、異なる部分12'aおよび12'bを互いに独立して強化することによって音響信号12を強化するために構成することができる。このような目的のため、装置220は、図16に関連して説明したように、信号分析器166およびルックアップテーブル168を含むことができる。
特に、装置220は、音響信号12における帯域幅拡張の開始周波数を決定するために構成された信号分析器166を含むことができ、帯域幅拡張の開始周波数は、拡張帯域幅、たとえば、音響信号12の、図17a〜図17cによる追加パッチwまたはその処理されたバージョンと、コア帯域幅、すなわち、音響信号91の帯域幅などの元の帯域幅との間に配置されている。
これに関連して、この装置は、音響信号12における帯域幅拡張の開始周波数に従って、ハイパスフィルタ152のより低い周波数および/またはローパスフィルタ158のより高い周波数を適応させるように構成することができる。帯域幅拡張の開始周波数は、さらなるチャネルによって受信されてもよく、信号分析器166によって決定されてもよい。
装置210の独立した実施形態と、および第4の態様の他の実施形態のそれぞれと組み合わせることができる一実施形態によれば、この装置は、たとえば、音響信号における帯域幅拡張の開始周波数を用いて、音響信号12を強調するための白色化器118、包絡線整形器などを含む粗さフィルタおよび/または信号強調器を適合させるように構成され得る。たとえば、音響信号12における帯域幅拡張の開始周波数に基づいて、ルックアップテーブルは、白色化器118および/または粗さ低減フィルタ122および/またはさらなるブロックなど、調整されるべきブロックのそれぞれについて4つの異なるパラメータを提供することができる。
第4の態様による他の実施形態のそれぞれと組み合わせることができる一実施形態によれば、粗さ低減フィルタ122は第1の経路に配置することができ、ローパスフィルタ158は第2の経路に配置することができる。第2の経路は、粗さ低減フィルタに提供される、または粗さ低減フィルタから受信される信号に基づいて信号を等化するための白色化器118を含むことができ、すなわち、白色化器および粗さ低減フィルタの順序または順番は変更することができる。
第4の態様のさらなる一実施形態によれば、これは他の実施形態のそれぞれと組み合わせることができ、粗さ低減フィルタ122は第1の経路に配置することができ、ローパスフィルタ158は第2の経路に配置することができる。装置220は、たとえば、白色化器118および/または整形器116を用いて、第1の経路において、および少なくとも部分的に周波数領域において音響信号を強化するように構成された信号強調器を含むことができる。第2の経路は、最大で±10%、±5%または±2%の許容範囲内で時間周波数変換および周波数時間変換によって引き起こされる第1の経路における遅延に対応し、おそらく粗さ低減フィルタの遅延を除外している遅延だけ音響信号12を遅延させるための遅延156などの遅延ブロックを含むことができる。
さらなる一実施形態によれば、これは第4の態様による他の実施形態のそれぞれと組み合わせることができ、粗さ低減フィルタ122は第1の粗さ低減フィルタである。この装置は、音響信号12のスペクトルを受信するため、および音響信号12のスペクトル12'の第1の部分12'aを音響信号12のスペクトルの第2の部分12'bから分離するためのセパレータを含む。第1の部分12'aは第1の信号特性を有し、第2の部分12'bは第2の信号特性を有する。装置220は、第1の粗さ低減フィルタ1221を有する第1の経路に第1の部分12'aを提供するため、および第2の粗さ低減フィルタ1222を有する第3の経路に第2の部分12'bを提供するために構成することができる。
前述の実施形態と組み合わせることができるさらなる一実施形態によれば、この装置は、第1の経路に第1の利得gtを、第3の経路に第2の利得gsを適用するように構成することができる。
前および最後から2番目の実施形態と組み合わせることができる第4の態様のさらなる一実施形態によれば、この装置は、音響信号12の帯域幅拡張の開始周波数を用いて互いに異なる方法で第1の粗さ低減フィルタ1221および第2の粗さ低減フィルタ1222を調整するために構成することができる。
第4の態様の最後の3つの実施形態と組み合わせることができる第4の態様のさらなる一実施形態によれば、セパレータは、音響信号12を受信するため、および第1の修正された音響信号を取得するよう、音響信号12における過渡部分を低減するために構成された過渡抑制器108などの過渡抑制器を含む。セパレータ92は、たとえば、第1の部分12'aとして第1の修正音響信号を用いることによって、第1の修正音響信号に基づいて第1の部分12'aを取得するために構成されている。セパレータ92は、第2の修正信号を得るよう、音響信号12から第1の修正音響信号を減算するための減算器112をさらに含む。セパレータ92は、たとえば、第2の修正音声信号を第2の部分12'bとして取ることによって、第2の修正音声信号に基づいて第2の部分を取得するために構成されている。
第4の態様のさらなる一実施形態によれば、これは最後の4つの実施形態と組み合わせることができ、第1の信号特性は、a)スペクトルの中間周波数範囲、b)音響信号の直接信号特性、c)音響信号のトーン特性、およびd)音響信号の音声特性のうちの1つである。第2の信号特性は、次に用いる文字a)スペクトルのサイド周波数範囲、b)音響信号の周囲信号特性、c)音響信号の持続信号特性、およびd)音響信号の非音声特性に従うものである。
第4の態様のさらなる一実施形態によれば、これは第4の態様の他の実施形態のそれぞれと組み合わせることができ、強調音響信号164は、第1のフィルタリングされた信号と比較すると位相シフトされている第2のフィルタリングされた信号を含み、すなわち、低い周波数領域と比較すると、高い周波数領域が位相シフトされる。
図23は、音響信号を処理するための方法4000の概略フローチャートを示している。方法4000は、位相シフト信号を得るように音響信号の少なくとも一部を位相シフトすることを含むステップ4100を含む。ステップ4200は、第1のフィルタリング信号を得るよう、ハイパスフィルタを用いて位相シフト信号をフィルタリングすることを含む。ステップ4300は、第2のフィルタリング信号を得るよう、ローパスフィルタを用いて音響信号をフィルタリングすることを含む。ステップ4400は、強調音響信号を得るよう、第1のフィルタリング信号と第2のフィルタリング信号とを合成することを含む。換言すれば、人為的帯域幅拡張粗さ抑制(ARS)は、前述のように、トーンスパイクアーティファクトまたはビートアーティファクトなどのアーティファクトを削減することを目的としている。図22に示すように、ARSの方法またはブロックのいくつかは、前にすでに説明したBWEの概念によっても用いられる。これらの一般的な方法または概念は、異なるパラメータ調整で用いることができることにも留意しなければならない。以下のセクションにおいて、装置160と装置220との間の違いを概説する。
信号分析器を用いて、一方で信号が人為的に帯域幅拡張されているか否かを検出することによって、図22におけるARSを始動させる。他方、現在の信号に適用された人為的帯域幅拡張の開始周波数(カットオフ周波数)のリアルタイム推定が実行され得る。信号の説明は、本明細書に記載の他の態様による概念を実行することができるかどうかを分析する。信号分析器の結果は、図22に示すモジュールに影響する制御パラメータを含んだ出力を得るためにルックアップテーブル168に転送される。ルックアップテーブル168は、いくつかの開始周波数について知覚的に調整されたパラメータ調整を含むことができる。
ARS用のルックアップテーブルは、図16に関連して説明したBWEのルックアップテーブルと同じ原理に基づき得るが、従属変数がBWEの開始周波数の推定であり得るという違いがある。制御されるパラメータも異なり得る。
いくつかの態様を装置の文脈で説明したが、これらの態様は対応する方法の説明も表し、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で説明した態様は、対応するブロックまたは項目または対応する装置の特徴の説明も表す。
本発明のエンコードされた音響信号は、デジタル記憶媒体上に格納することができ、またはインターネットなどの無線伝送媒体または有線伝送媒体などの伝送媒体上を伝送することができる。
以下において、個々にまたは本明細書に記載の特徴および機能および詳細のいずれかと組み合わせて用いることができる本発明の追加の実施形態および態様を説明する。
第1の態様によれば、音響信号12のスペクトル強調処理に関する所定の特性を決定するための装置が、音響信号12のスペクトル12'を取得するため、およびスペクトル12'の微細構造に関する情報Z(k)を導出するために構成された導出器14と、微細構造の類似度を決定するために構成された決定器24と、類似度の評価に依存する所定の特性を音響信号12が含むことを示す情報34を提供するためのプロセッサ32と、を含む。
第1の態様を参照して第2の態様によれば、スペクトルの微細構造は、スペクトルの極大および/または極小に関する。
第1の態様から第2の態様のいずれか1つを参照して第3の態様によれば、導出器は、微細構造に関する情報を導出するようにスペクトル12'から極大信号Z(k)を導出するために構成され、決定器は、極大信号Z(k)のセグメント間で類似度を決定するために構成されている。
第1の態様から第3の態様のいずれか1つを参照して第4の態様によれば、この装置は、音響信号12を受信するため、および音響信号12からスペクトル12'を計算するように構成されたスペクトル計算器44をさらに含む。
第1の態様から第4の態様のいずれか1つを参照して第5の態様によれば、決定器24は、微細構造に関する情報の第1のセグメントを用いて、および第2のセグメントを用いて、類似度を決定するために構成され、第1のセグメントおよび第2のセグメントは、スペクトル12'のサンプルの数τだけシフトされる。
第1の態様から第5の態様のいずれか1つを参照して第6の態様によれば、決定器24は、類似度を決定するため、微細構造に関する情報の第1のセグメントと第2のセグメントとの間で類似度値C(τ)を決定するために構成され、第1のセグメントおよび第2のセグメントは、サンプルの数τを参照するパラメータだけ互いに対してシフトされ、決定器24は、パラメータの複数の値について類似度値を決定するために構成され、決定器は、類似度値またはその派生値C(τ)から少なくとも1つの極大26 i 、m i を選択するために構成されている。
第6の態様を参照して第7の態様によれば、決定器24は、フィルタリングされた類似度値H(C(τ))を得るよう、類似度値C(τ)をフィルタリングするために構成されたフィルタを含み、決定器は、フィルタリングされた類似度値H(C(τ))から少なくとも1つの極大m i を選択するために構成されている。
第6の態様または第7の態様のいずれか1つを参照して第8の態様によれば、決定器は
Figure 2020512594
として表される決定規則に基づいて類似度値C(τ)を決定するために構成され、ここで、C(τ)はパラメータτについての類似度値であり、kはk 0 からk l の範囲およびl+1のサンプルの長さを有するスペクトルにおけるサンプルであり、Z(k)は、サンプルkの極大関数である。
第1の態様から第8の態様のいずれか1つを参照して第9の態様によれば、プロセッサ32は、微細構造に関する情報に関する類似度値C(τ)またはその派生値H(C(τ))の極大26 i 、m i の数を評価するため、および極大26 i 、m i の振幅を評価するため、および少なくとも振幅閾値27を含む極大26 i 、m i の数が数閾値未満であるとき、音響信号12が所定の特性を含むことを示す情報34を提供するために構成されている。
第1の態様から第9の態様のいずれか1つを参照して第10の態様によれば、プロセッサ32は、音響信号12の高調波を類似度の評価から除外するために構成されている。
第1の態様から第10の態様のいずれか1つを参照して第11の態様によれば、この装置は、微細構造に関する情報またはその派生信号C(τ)、H(C(τ))のスペクトル12'の時間平均化を実行するために構成され、プロセッサ32は、時間平均化情報に基づいて、音響信号12が所定の特性を含むことを示す情報34を提供するために構成されている。
第1の態様から第11の態様のいずれか1つを参照して第12の態様によれば、この装置は、スペクトル強調処理の開始周波数k s および/または終了周波数k e を決定するために構成された周波数推定器36をさらに含む。
第12の態様を参照して第13の態様によれば、周波数推定器36は、微細構造に関する情報の第1のセグメントの要素と微細構造に関する情報の第2のセグメントの対応する要素との間で要素類似度を決定するため、微細構造に関する情報を用いるために構成され、第2のセグメントは、サンプルの数τだけ第1のセグメントに対してシフトされる。
第12の態様から第13の態様のいずれか1つを参照して第14の態様によれば、周波数推定器は、微細構造の類似度を用いて局所的類似度記述を決定するために構成され、局所的類似度記述は、スペクトル強調処理の開始周波数k s および/または終了周波数k e を示している。
第14の態様を参照して第15の態様によれば、周波数推定器は、局所的類似度記述として局所的類似度マトリックスLを決定するため、および行または列における値間の峻度を用いて、および/または少なくとも閾値27に達している行または列における値の評価を用いて、スペクトル強調処理の開始周波数k s および/または終了周波数k e を決定するために構成されている。
第13の態様から第15の態様のいずれか1つを参照して第16の態様によれば、周波数推定器36は、平均化要素類似度を得るよう、第1のセグメントおよび第2のセグメントの複数の要素の要素類似度を経時的に再帰平均化するため、および平均化要素類似度を用いて開始周波数k s および/または終了周波数k e を決定するために構成されている。
第16の態様を参照して第17の態様によれば、スペクトル12'の各サンプルはフレームに関連付けられ、周波数推定器は、エネルギー閾値レベル未満のスペクトルエネルギーEを有するフレームを経時的に再帰平均化することから除外するように構成されている。
第1の態様から第17の態様のいずれか1つを参照して第18の態様によれば、プロセッサ32は、音響信号12がスペクトル強調処理を受けたこと、スペクトル強調処理の開始周波数k s 、および/またはスペクトル強調処理の終了周波数k e のうちの少なくとも1つを示す情報を含む情報を提供するように構成されている。
第1の態様から第18の態様のいずれか1つを参照して第19の態様によれば、この装置は、音響信号12が所定の特性を含むことを示す情報34に応じて、音響信号12のスペクトル強調処理によって引き起こされるアーティファクトを低減するために構成された信号強調器48をさらに含む。
第20の態様によれば、音響信号のスペクトル強調処理に関する所定の特性を決定するための方法1000が、音響信号のスペクトルを取得してスペクトルの微細構造に関する情報を導出するステップ1100と、微細構造の類似度を決定するステップ1200と、類似度の評価に依存する所定の特性を音響信号が含むことを示す情報を提供するステップ1300と、を有することができる。
第21の態様は、コンピュータ上で動いているとき、第20の態様による方法を実行するためのプログラムコードを有するコンピュータプログラムを格納している非一時的記憶媒体を有することができる。
特定の実装要件に応じて、本発明の実施形態は、ハードウェアにおいて、またはソフトウェアにおいて実装することができる。実装は、デジタル記憶媒体、たとえばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを用いて実行することができ、これらには、電子的に読み取り可能な制御信号が格納されており、それぞれの方法が実行されるよう、プログラム可能なコンピュータシステムと協働する(または協働することができる)。
本発明によるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるよう、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータ担体を含む。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するために動作する。プログラムコードは、たとえば、機械読み取り可能な担体に格納することができる。
他の実施形態は、機械読み取り可能な担体に格納された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
換言すれば、本発明の方法の実施形態はしたがって、コンピュータプログラムがコンピュータ上で実行されるとき、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
本発明の方法のさらなる一実施形態はしたがって、本明細書に記載の方法の1つを実行するためのコンピュータプログラムが記録されたデータ担体(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。
本発明の方法のさらなる一実施形態はしたがって、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスはたとえば、データ通信接続を介して、たとえばインターネットを介して転送されるように構成することができる。
さらなる一実施形態は、本明細書に記載の方法の1つを実行するように構成または適合された処理手段、たとえばコンピュータ、またはプログラマブルロジックデバイスを含む。
さらなる一実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
いくつかの実施形態において、プログラマブルロジックデバイス(たとえばフィールドプログラマブルゲートアレイ)を用いて、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態において、本明細書に記載の方法の1つを実行するためにフィールドプログラマブルゲートアレイがマイクロプロセッサと協働することができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。
上述の実施形態は、本発明の原理についての単なる例示である。本明細書に記載の配置および詳細の修正および変更は、他の当業者には明らかであろうことが理解される。したがって、本明細書の実施形態の記載および説明として提示された特定の詳細によってではなく、すぐ後の特許請求の範囲によってのみ限定されることが意図されている。
10 装置
12 音響信号
12'、12'1、12'2、12'3 スペクトル
12'a 第1の部分
12'b 第2の部分
14 導出器
16 スペクトル
181〜187 極大値
22 信号
24 決定器
261、262、263 領域
27 振幅閾値、閾値、エネルギー閾値レベル
28 信号
32 プロセッサ
34 情報
36 周波数推定器
38 信号
381、382、383 水平線
42a、42b グラフ
44 スペクトル計算器
46 フィルタ
48 信号強調器
52 傾斜評価器
54 傾斜
56 傾斜評価結果
58 周波数評価器
62、62' 周波数評価結果
64 プロセッサ
66 情報
66' 結合結果
68 立ち下がりエッジ
72 最大値
74 フィルタ
76 フィルタ
78 決定器
82 信号
90 装置
91 音響信号
91' スペクトル
91'a 第1の部分
91'b 第2の部分
92 セパレータ
94、941、942 帯域幅拡張器
961 第1のパラメータ
962 第2のパラメータ
98a 第1の拡張部分
98b 第2の拡張部分
102 合成器
104 拡張合成音響信号
106a、106b 成分
108 過渡抑制器
112 減算器
114 複製器
1141 第1の複製器
1142 第2の複製器
116 整形器
1161 第1の包絡線整形器
1162 第2の包絡線整形器
118、1181、1182 白色化器
122、1221、1222 粗さ低減フィルタ
1241、1242 ISTFTブロック
125 装置
126a、126b 延長部分
1281、1282 複製部分
132a 振幅スペクトル
134 白色化器
138 計算器
140 装置
142 平滑化経路
144 周波数変換器
148、1481、1482 増幅器/減衰器
152 ハイパスフィルタ
154 フィルタリング信号
156 遅延
158 ローパスフィルタ
160 装置
162 合成器
166 信号分析器
168 ルックアップテーブル
172 位相シフトされた信号
174 第1のフィルタリングされた信号
176 第2のフィルタリングされた信号
178 強調音響信号、合成信号
200 信号強調器
202 スペクトルギャップ
204 スペクトルアイランド
2061、2062、2063、2064 エッジ
208 プロセッサ
210 装置
212 絶対値形成器
214 対数
216a 第1のローパスフィルタ
216b 第2のローパスフィルタ
218 スペクトル重み計算器
222a、222b ローパスフィルタ
224 結合器
226 結合器
228 スペクトルアイランド重み計算器
234 信号変換器
1000、1500、2000、2500、3000、4000 方法

Claims (21)

  1. 音響信号のスペクトル強調処理に関する所定の特性を決定するための装置であって、
    前記音響信号のスペクトルを取得するため、および前記スペクトルの微細構造に関する情報を導出するために構成された導出器と、
    前記微細構造の類似度を決定するために構成された決定器と、
    前記類似度の評価に依存する前記所定の特性を前記音響信号が含むことを示す情報を提供するためのプロセッサと、
    を含む、装置。
  2. 前記スペクトルの前記微細構造は、前記スペクトルの極大および/または極小に関する、請求項1に記載の装置。
  3. 前記導出器は、前記微細構造に関する前記情報を導出するよう、前記スペクトルから極大信号を導出するために構成され、前記決定器は、前記極大信号のセグメント間で前記類似度を決定するために構成されている、請求項1または2に記載の装置。
  4. 前記音響信号を受信するため、および前記音響信号から前記スペクトルを計算するよう構成されたスペクトル計算器をさらに含む、請求項1から3のいずれか一項に記載の装置。
  5. 前記決定器は、前記微細構造に関する前記情報の第1のセグメントを用いて、および第2のセグメントを用いて、前記類似度を決定するために構成され、前記第1のセグメントおよび前記第2のセグメントは、前記スペクトルのサンプルの数だけシフトされる、請求項1から4のいずれか一項に記載の装置。
  6. 前記決定器は、前記類似度を決定するため、前記微細構造に関する前記情報の第1のセグメントと第2のセグメントとの間で類似度値を決定するために構成され、前記第1のセグメントおよび前記第2のセグメントは、サンプルの数を参照するパラメータだけ互いに対してシフトされ、
    前記決定器は、前記パラメータの複数の値について前記類似度値を決定するために構成され、
    前記決定器は、前記類似度値またはその派生値から少なくとも1つの極大を選択するために構成されている、請求項1から5のいずれか一項に記載の装置。
  7. 前記決定器は、フィルタリングされた類似度値を得るよう、前記類似度値をフィルタリングするために構成されたフィルタを含み、前記決定器は、前記フィルタリングされた類似度値から少なくとも1つの極大を選択するために構成されている、請求項6に記載の装置。
  8. 前記決定器は
    Figure 2020512594
    として表される決定規則に基づいて前記類似度値を決定するために構成され、ここで、C(τ)は前記パラメータτについての前記類似度値であり、kはk0からklの範囲およびl+1のサンプルの長さを有する前記スペクトルにおけるサンプルであり、Z(k)は、サンプルkの前記極大関数である、請求項6または7に記載の装置。
  9. 前記プロセッサは、前記微細構造に関する前記情報に関する類似度値またはその派生値の極大の数を評価するため、および前記極大の振幅を評価するため、および少なくとも振幅閾値を含む極大の前記数が数閾値未満であるとき、前記音響信号が前記所定の特性を含むことを示す前記情報を提供するために構成されている、請求項1から8のいずれか一項に記載の装置。
  10. 前記プロセッサは、前記音響信号の高調波を前記類似度の前記評価から除外するために構成されている、請求項1から9のいずれか一項に記載の装置。
  11. 前記装置は、前記微細構造に関する前記情報またはその派生信号の前記スペクトルの時間平均化を実行するために構成され、前記プロセッサは、時間平均化情報に基づいて、前記音響信号が前記所定の特性を含むことを示す前記情報を提供するために構成されている、請求項1から10のいずれか一項に記載の装置。
  12. 前記スペクトル強調処理の開始周波数および/または終了周波数を決定するために構成された周波数推定器をさらに含む、請求項1から11のいずれか一項に記載の装置。
  13. 前記周波数推定器は、前記微細構造に関する前記情報の第1のセグメントの要素と前記微細構造に関する前記情報の第2のセグメントの対応する要素との間で要素類似度を決定するため、前記微細構造に関する前記情報を用いるために構成され、前記第2のセグメントは、サンプルの数だけ前記第1のセグメントに対してシフトされる、請求項12に記載の装置。
  14. 前記周波数推定器は、前記微細構造の前記類似度を用いて局所的類似度記述を決定するために構成され、前記局所的類似度記述は、前記スペクトル強調処理の前記開始周波数および/または前記終了周波数を示している、請求項12または13に記載の装置。
  15. 前記周波数推定器は、前記局所的類似度記述として局所的類似度マトリックスを決定するため、および行または列における値間の峻度を用いて、および/または少なくとも閾値に達している前記行または列における値の評価を用いて、前記スペクトル強調処理の前記開始周波数および/または前記終了周波数を決定するために構成されている、請求項14に記載の装置。
  16. 前記周波数推定器は、平均化要素類似度を得るよう、前記第1のセグメントおよび前記第2のセグメントの複数の要素の前記要素類似度を経時的に再帰平均化するため、および前記平均化要素類似度を用いて前記開始周波数および/または前記終了周波数を決定するために構成されている、請求項13から15のいずれか一項に記載の装置。
  17. 前記スペクトルの各サンプルはフレームに関連付けられ、前記周波数推定器は、エネルギー閾値レベル未満のスペクトルエネルギーを有するフレームを前記経時的に再帰平均化することから除外するよう構成されている、請求項16に記載の装置。
  18. 前記プロセッサは、
    前記音響信号が前記スペクトル強調処理を受けたこと、
    前記スペクトル強調処理の開始周波数、および/または
    前記スペクトル強調処理の終了周波数
    のうちの少なくとも1つを示す情報を含む情報を提供するよう構成されている、請求項1から17のいずれか一項に記載の装置。
  19. 前記音響信号が前記所定の特性を含むことを示す前記情報に応じて、前記音響信号の前記スペクトル強調処理によって引き起こされるアーティファクトを低減するために構成された信号強調器をさらに含む、請求項1から18のいずれか一項に記載の装置。
  20. 音響信号のスペクトル強調処理に関する所定の特性を決定するための方法であって、
    前記音響信号のスペクトルを取得して前記スペクトルの微細構造に関する情報を導出するステップと、
    前記微細構造の類似度を決定するステップと、
    前記類似度の評価に依存する前記所定の特性を前記音響信号が含むことを示す情報を提供するステップと、
    を含む、方法。
  21. コンピュータ上で動いているとき、請求項20に記載の方法を実行するためのプログラムコードを有するコンピュータプログラムを格納している非一時的記憶媒体。
JP2019553539A 2017-03-31 2018-03-29 音響信号のスペクトル強調処理に関する所定の特性を決定するための装置および方法 Active JP6896881B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP17164360.4 2017-03-31
EP17164360 2017-03-31
EP17189988.3A EP3382704A1 (en) 2017-03-31 2017-09-07 Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
EP17189988.3 2017-09-07
PCT/EP2018/025083 WO2018177612A1 (en) 2017-03-31 2018-03-29 Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal

Publications (2)

Publication Number Publication Date
JP2020512594A true JP2020512594A (ja) 2020-04-23
JP6896881B2 JP6896881B2 (ja) 2021-06-30

Family

ID=58632740

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2019553448A Active JP6968191B2 (ja) 2017-03-31 2018-03-29 音響信号を処理するための装置および方法
JP2019553539A Active JP6896881B2 (ja) 2017-03-31 2018-03-29 音響信号のスペクトル強調処理に関する所定の特性を決定するための装置および方法
JP2019553537A Active JP7059301B2 (ja) 2017-03-31 2018-03-29 音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための装置および方法
JP2022066339A Active JP7455890B2 (ja) 2017-03-31 2022-04-13 音響信号を処理する装置および方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2019553448A Active JP6968191B2 (ja) 2017-03-31 2018-03-29 音響信号を処理するための装置および方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2019553537A Active JP7059301B2 (ja) 2017-03-31 2018-03-29 音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための装置および方法
JP2022066339A Active JP7455890B2 (ja) 2017-03-31 2022-04-13 音響信号を処理する装置および方法

Country Status (13)

Country Link
US (3) US20200020347A1 (ja)
EP (6) EP3382704A1 (ja)
JP (4) JP6968191B2 (ja)
KR (3) KR102517285B1 (ja)
CN (3) CN110870007B (ja)
AU (4) AU2018246838A1 (ja)
BR (3) BR112019020523A2 (ja)
CA (3) CA3058353C (ja)
ES (3) ES2933500T3 (ja)
MX (3) MX2019011519A (ja)
PL (3) PL3602553T3 (ja)
RU (3) RU2733533C1 (ja)
WO (3) WO2018177611A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220375485A1 (en) * 2019-09-24 2022-11-24 Sony Group Corporation Signal processing apparatus, signal processing method, and program
CN112927710B (zh) * 2021-01-21 2021-10-26 安徽南瑞继远电网技术有限公司 一种基于无监督方式的电力变压器工况噪声分离方法
CN113299313B (zh) * 2021-01-28 2024-03-26 维沃移动通信有限公司 音频处理方法、装置及电子设备
CN115512711A (zh) * 2021-06-22 2022-12-23 腾讯科技(深圳)有限公司 语音编码、语音解码方法、装置、计算机设备和存储介质
CN114070679B (zh) * 2021-10-25 2023-05-23 中国电子科技集团公司第二十九研究所 一种面向脉冲智能分类的频相特征分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011075728A (ja) * 2009-09-29 2011-04-14 Oki Electric Industry Co Ltd 音声帯域拡張装置および音声帯域拡張プログラム
JP2013515287A (ja) * 2009-12-21 2013-05-02 マインドスピード テクノロジーズ インコーポレイテッド 音声帯域拡張方法及び音声帯域拡張システム
JP2014513819A (ja) * 2011-05-19 2014-06-05 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーディング方式の鑑識検出
JP2016509257A (ja) * 2013-01-29 2016-03-24 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオエンコーダ、オーディオデコーダ、符号化されたオーディオ情報を生成する方法、復号されたオーディオ情報を生成する方法、コンピュータプログラム及び信号適応帯域幅拡張を用いる符号化表現
JP2017507348A (ja) * 2014-01-07 2017-03-16 ハーマン インターナショナル インダストリーズ インコーポレイテッド 圧縮済みオーディオ信号の信号品質ベース強調及び補償

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4230414B2 (ja) * 1997-12-08 2009-02-25 三菱電機株式会社 音信号加工方法及び音信号加工装置
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
JP4679049B2 (ja) * 2003-09-30 2011-04-27 パナソニック株式会社 スケーラブル復号化装置
KR100552693B1 (ko) * 2003-10-25 2006-02-20 삼성전자주식회사 피치검출방법 및 장치
EP2273494A3 (en) * 2004-09-17 2012-11-14 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus
EP1638083B1 (en) * 2004-09-17 2009-04-22 Harman Becker Automotive Systems GmbH Bandwidth extension of bandlimited audio signals
CN101273404B (zh) * 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
US8073704B2 (en) * 2006-01-24 2011-12-06 Panasonic Corporation Conversion device
US8798172B2 (en) 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US7881459B2 (en) * 2007-08-15 2011-02-01 Motorola, Inc. Acoustic echo canceller using multi-band nonlinear processing
CN101939782B (zh) * 2007-08-27 2012-12-05 爱立信电话股份有限公司 噪声填充与带宽扩展之间的自适应过渡频率
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8005233B2 (en) * 2007-12-10 2011-08-23 Dts, Inc. Bass enhancement for audio
DE102008015702B4 (de) 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
US8433582B2 (en) 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
KR101518532B1 (ko) * 2008-07-11 2015-05-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램
RU2443028C2 (ru) * 2008-07-11 2012-02-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Устройство и способ расчета параметров расширения полосы пропускания посредством управления фреймами наклона спектра
ATE539433T1 (de) * 2008-07-11 2012-01-15 Fraunhofer Ges Forschung Bereitstellen eines zeitverzerrungsaktivierungssignals und codierung eines audiosignals damit
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP4224474B1 (en) 2008-12-15 2023-11-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension decoder, corresponding method and computer program
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
JP4945586B2 (ja) * 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
TWI444989B (zh) * 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
AU2016204672B2 (en) 2010-07-02 2016-08-18 Dolby International Ab Audio encoder and decoder with multiple coding modes
SG187950A1 (en) * 2010-08-25 2013-03-28 Fraunhofer Ges Forschung Apparatus for generating a decorrelated signal using transmitted phase information
CN103339670B (zh) * 2011-02-03 2015-09-09 瑞典爱立信有限公司 确定多通道音频信号的通道间时间差
CA2827249C (en) * 2011-02-14 2016-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
WO2012119140A2 (en) * 2011-03-03 2012-09-07 Edwards Tyson Lavar System for autononous detection and separation of common elements within data, and methods and devices associated therewith
WO2012158705A1 (en) * 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
EP2544465A1 (en) * 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral weights generator
US9390721B2 (en) 2012-01-20 2016-07-12 Panasonic Intellectual Property Corporation Of America Speech decoding device and speech decoding method
US9685921B2 (en) * 2012-07-12 2017-06-20 Dts, Inc. Loudness control with noise detection and loudness drop detection
ES2549953T3 (es) 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
US9601125B2 (en) * 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
US10424321B1 (en) * 2013-02-12 2019-09-24 Google Llc Audio data classification
CA2964368C (en) * 2013-06-21 2020-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Jitter buffer control, audio decoder, method and computer program
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
EP2830065A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
JP6186503B2 (ja) * 2013-10-03 2017-08-23 ドルビー ラボラトリーズ ライセンシング コーポレイション アップミキサーにおける適応的な拡散性信号生成
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
JP6668372B2 (ja) * 2015-02-26 2020-03-18 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
US20190051286A1 (en) 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011075728A (ja) * 2009-09-29 2011-04-14 Oki Electric Industry Co Ltd 音声帯域拡張装置および音声帯域拡張プログラム
JP2013515287A (ja) * 2009-12-21 2013-05-02 マインドスピード テクノロジーズ インコーポレイテッド 音声帯域拡張方法及び音声帯域拡張システム
JP2014513819A (ja) * 2011-05-19 2014-06-05 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーディング方式の鑑識検出
JP2016509257A (ja) * 2013-01-29 2016-03-24 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオエンコーダ、オーディオデコーダ、符号化されたオーディオ情報を生成する方法、復号されたオーディオ情報を生成する方法、コンピュータプログラム及び信号適応帯域幅拡張を用いる符号化表現
JP2017507348A (ja) * 2014-01-07 2017-03-16 ハーマン インターナショナル インダストリーズ インコーポレイテッド 圧縮済みオーディオ信号の信号品質ベース強調及び補償

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DEESROCHERS SIMON ET AL.: "Detection and Removal of the Birdies Artifact in Low Bit-Rate Audio", AES 139TH CONVENTION, JPN6020042801, 23 October 2015 (2015-10-23), pages 1 - 8, ISSN: 0004383973 *
LAITINEN, MIKKO-VILLE ET AL.: "Phase Derivative Correction of Bandwidth-Extended Signals for Perceptual Audio Codecs", AES 140TH CONVENTION, JPN6020042799, 26 May 2016 (2016-05-26), pages 1 - 8, ISSN: 0004383972 *

Also Published As

Publication number Publication date
CA3057739A1 (en) 2018-10-04
AU2021203677B2 (en) 2022-10-13
EP3602552A1 (en) 2020-02-05
MX2019011515A (es) 2019-12-19
KR20190134708A (ko) 2019-12-04
EP3382703A1 (en) 2018-10-03
US20200027474A1 (en) 2020-01-23
JP2022097514A (ja) 2022-06-30
KR20190134707A (ko) 2019-12-04
KR102426636B1 (ko) 2022-07-29
CA3058353C (en) 2023-03-07
RU2733278C1 (ru) 2020-10-01
KR102563915B1 (ko) 2023-08-04
EP3602553B1 (en) 2022-04-27
JP2020512593A (ja) 2020-04-23
BR112019020357A2 (pt) 2020-04-28
KR20190134709A (ko) 2019-12-04
AU2018246837B2 (en) 2020-12-24
MX2019011519A (es) 2019-12-19
MX2019011522A (es) 2019-12-19
RU2733533C1 (ru) 2020-10-05
AU2018246838A1 (en) 2019-10-24
BR112019020523A2 (pt) 2020-05-05
US11170794B2 (en) 2021-11-09
JP6968191B2 (ja) 2021-11-17
EP3602555B1 (en) 2022-10-12
PL3602553T3 (pl) 2022-08-22
CN110870007B (zh) 2023-10-13
JP2020512591A (ja) 2020-04-23
WO2018177612A1 (en) 2018-10-04
US20200020346A1 (en) 2020-01-16
ES2923098T3 (es) 2022-09-23
EP3382702A1 (en) 2018-10-03
JP7059301B2 (ja) 2022-04-25
CN110914902A (zh) 2020-03-24
AU2018241963A1 (en) 2019-10-24
KR102517285B1 (ko) 2023-04-03
AU2018241963B2 (en) 2021-08-12
AU2021203677A1 (en) 2021-07-01
CN110832582B (zh) 2023-10-24
CN110832582A (zh) 2020-02-21
WO2018177611A1 (en) 2018-10-04
PL3602552T3 (pl) 2022-11-21
WO2018177610A1 (en) 2018-10-04
EP3602553A1 (en) 2020-02-05
EP3602552B1 (en) 2022-07-20
ES2927808T3 (es) 2022-11-11
EP3602555B8 (en) 2023-06-14
BR112019020578A2 (pt) 2020-05-19
JP7455890B2 (ja) 2024-03-26
US20200020347A1 (en) 2020-01-16
JP6896881B2 (ja) 2021-06-30
AU2018246837A1 (en) 2019-10-17
PL3602555T3 (pl) 2023-05-08
CA3057897C (en) 2022-05-17
EP3382704A1 (en) 2018-10-03
CA3058353A1 (en) 2018-10-04
EP3602553B8 (en) 2022-11-02
CA3057897A1 (en) 2018-10-04
CN110914902B (zh) 2023-10-03
RU2719543C1 (ru) 2020-04-21
ES2933500T3 (es) 2023-02-09
CN110870007A (zh) 2020-03-06
EP3602555A1 (en) 2020-02-05

Similar Documents

Publication Publication Date Title
JP7455890B2 (ja) 音響信号を処理する装置および方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191126

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210609

R150 Certificate of patent or registration of utility model

Ref document number: 6896881

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150