JP2017507348A - 圧縮済みオーディオ信号の信号品質ベース強調及び補償 - Google Patents

圧縮済みオーディオ信号の信号品質ベース強調及び補償 Download PDF

Info

Publication number
JP2017507348A
JP2017507348A JP2016544538A JP2016544538A JP2017507348A JP 2017507348 A JP2017507348 A JP 2017507348A JP 2016544538 A JP2016544538 A JP 2016544538A JP 2016544538 A JP2016544538 A JP 2016544538A JP 2017507348 A JP2017507348 A JP 2017507348A
Authority
JP
Japan
Prior art keywords
signal
frequency
audio signal
treatment
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016544538A
Other languages
English (en)
Other versions
JP6576934B2 (ja
Inventor
ケビン エリック ヒーバー,
ケビン エリック ヒーバー,
ギルバート アーサー ジョセフ スーロードレ,
ギルバート アーサー ジョセフ スーロードレ,
Original Assignee
ハーマン インターナショナル インダストリーズ インコーポレイテッド
ハーマン インターナショナル インダストリーズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ハーマン インターナショナル インダストリーズ インコーポレイテッド, ハーマン インターナショナル インダストリーズ インコーポレイテッド filed Critical ハーマン インターナショナル インダストリーズ インコーポレイテッド
Publication of JP2017507348A publication Critical patent/JP2017507348A/ja
Application granted granted Critical
Publication of JP6576934B2 publication Critical patent/JP6576934B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

サンプラモジュールはオーディオ信号をシーケンシャルサンプルのシリーズに分割することができる。信号品質検出器モジュールは、オーディオ信号の冒頭の複数のシーケンシャルサンプルにまたがるオーディオ信号の一貫性のあるブリックウォール周波数を識別し、ブリックウォール周波数に比例する信号トリートメント指示を決定することができる。信号エンハンサモジュールは、オーディオ信号の1つまたは複数のサンプル成分をシーケンシャルに受信し解析して、それぞれのシーケンシャルサンプルの1つまたは複数のサンプル成分内でオーディオ信号の喪失部分を識別し、信号品質指示に従って、対応する識別済み喪失部分を有するそれぞれのシーケンシャルサンプルの1つまたは複数のサンプル成分のそれぞれについて対応する信号トリートメントを生成することができる。【選択図】図9a

Description

[関連出願に対する相互参照]
本出願は、2014年1月7日に出願された米国仮出願第61/924,641号の利益を主張し、その開示は参照によりその全体が本明細書に組込まれる。
本開示の態様は、オーディオ信号処理に関し、より詳細には、オーディオ信号強調及び回復に関する。
圧縮済みオーディオ信号は、知覚的オーディオコーデックによって何らかの形態のデータ圧縮を受けた信号である。知覚的オーディオコーデックは、聞き取れないかまたは知覚的に重要でないと認識されるオーディオ信号の成分を破棄することによって、オーディオ信号を記憶する、転送する、または送信するために使用されるデータ量を低減する。データ圧縮プロセスは、オリジナルの(非圧縮)オーディオ信号と圧縮済みオーディオ信号との間に望ましくない聞き取れる差を導入することが多い。異なる知覚的オーディオコーデックは、オリジナルのオーディオ信号の複数の部分を破棄するため異なる戦略を使用することができるが、聞き取れる差の認識される特性は、通常、類似する。
サンプラモジュールはオーディオ信号をシーケンシャルサンプルのシリーズに分割することができる。信号品質検出器モジュールは、オーディオ信号の冒頭の複数のシーケンシャルサンプルにまたがるオーディオ信号の一貫性のあるブリックウォール周波数を識別し、ブリックウォール周波数に比例する信号トリートメント指示を決定することができる。信号エンハンサモジュールは、オーディオ信号の1つまたは複数のサンプル成分をシーケンシャルに受信し解析して、それぞれのシーケンシャルサンプルの1つまたは複数のサンプル成分内でオーディオ信号の喪失部分を識別し、信号品質指示に従って、対応する識別済み喪失部分を有するそれぞれのシーケンシャルサンプルの1つまたは複数のサンプル成分のそれぞれについて対応する信号トリートメントを生成することができる。
システムを、以下の図面及び説明を参照してよりよく理解することができる。図中のコンポーネントは必ずしも一定比例尺に従っておらず、代わりに、本発明の原理を示すことに力点が置かれる。更に、図において、同じ参照符号は、異なる図全体にわたって対応する部品を指定する。
知覚的オーディオエンコーダ及びデコーダと共に使用される例示的な信号エンハンサシステムを含むブロック図である。 信号エンハンサシステムに統合される知覚的オーディオデコーダの例を含むブロック図である。 信号エンハンサシステムの例のブロック図である。 ステレオ信号のミッドサイド部分に作用する信号エンハンサシステムの例のブロック図である。 オーディオ信号の個々の空間スライスに作用する別個の信号エンハンサモジュールの例のブロック図である。 ブロックベース分解の表現を有する例示的なインパルス応答の成分を示す図である。 図3に示すリバーブフィルモジュールの例示的なブロック図である。 所与の周波数におけるサンプルの入力残響シリーズのサンプル成分の例示的な推定値を示す図である。 信号品質解析器、トリートメントレベル調整器、及びディスプレイモジュールの例示的なブロック図である。 ストリームについてまたはトラックについてトリートメント利得量を自動的に再調整する圧縮検出及びトリートメントアルゴリズムのプロセスの例示的なブロック図である。 帯域幅強調信号トリートメントを有する出力信号の例示的なディスプレイである。 信号エンハンサシステムによる圧縮を示すための例示的なスペクトル図(周波数領域)である。 信号エンハンサシステムによる過渡変化強調を示すための例示的なスペクトル図である。 例示的なコンピューティングシステムの図である。
必要に応じて、本発明の詳細な実施形態が本明細書で述べられる。しかし、開示される実施形態が、種々の形態及び代替の形態で具現化することができる本発明の例示に過ぎないことが理解される。図は、必ずしも一定比例尺に従っておらず、特定のコンポーネントの詳細を示すため、幾つかの特徴を誇張または最小化することができる。したがって、本明細書で述べる特定の構造的詳細及び機能的詳細は、制限的であると解釈されるのではなく、本発明をさまざまに使用することを当業者に教示するための代表的な基礎として解釈される。
圧縮済みオーディオ信号は、知覚的オーディオコーデック等による何らかの形態のデータ圧縮を受けたオーディオコンテンツを含む信号である。一般的な型の知覚的オーディオコーデックは、MP3、AAC、ドルビーデジタル、及びDTSを含む。これらの知覚的オーディオコーデックは、オーディオ信号の有意の部分を破棄することによってオーディオ信号のサイズを低減する。知覚的オーディオコーデックが使用されて、オーディオ信号を記憶するために必要とされる空間(メモリ)の量を低減する、または、オーディオ信号を送信または転送するために必要とされる帯域幅の量を低減する可能性がある。オーディオ信号を90%以上圧縮することは一般的ではない。知覚的オーディオコーデックは、人間の聴覚系がどのように音を認識するかというモデルを使用する可能性がある。こうして、知覚的オーディオコーデックは、聞き取れないかまたはリスナーによる音の知覚にとって最も重要でないと思われるオーディオ信号の部分を破棄する可能性がある。結果として、知覚的オーディオコーデックは、残りの信号に関して認識される比較的良好なオーディオ品質を依然として維持しながら、オーディオ信号のサイズを低減することができる。一般に、圧縮済みオーディオ信号の認識される品質は、圧縮済み信号のビットレートに依存する可能性がある。低いビットレートは、オリジナルのオーディオ信号の大きな部分が破棄されたことを示す可能性があり、したがって、一般に、圧縮済みオーディオ信号の認識される品質はより十分でない可能性がある。
多数の型の知覚的オーディオコーデックが存在し、各型は、オリジナルのオーディオ信号のどの部分が圧縮プロセスにおいて破棄されることになるかを決定するときに異なる基準のセットを使用する可能性がある。知覚的オーディオコーデックは、符号化及び復号化プロセスを含む可能性がある。エンコーダは、オリジナルのオーディオ信号を受信し、信号のどの部分が破棄されることになるかを決定する可能性がある。エンコーダは、その後、残りの信号を、圧縮式記憶及び/または伝送に適する形式にする可能性がある。デコーダは、圧縮済みオーディオ信号を受信し、それを復号化し、その後、復号化済みオーディオ信号を、オーディオ再生に適する形式に変換する可能性がある。ほとんどの知覚的オーディオコーデックにおいて、知覚モデルの使用を含む可能性がある符号化プロセスは、圧縮済みオーディオ信号の結果として得られる品質を決定する可能性がある。これらの場合に、デコーダは、圧縮形式からの信号(通常、何らかの形態の周波数領域表現)をオーディオ再生に適する形式に変換する形式変換器の役をする可能性がある。
信号エンハンサシステムは、知覚的オーディオコーデックによって処理された圧縮済みオーディオ信号を修正する可能性があり、それにより、圧縮プロセスにおいて破棄または変更されたと思われる信号成分及び特性は、処理済み出力信号において回復されると認識される場合がある。本明細書で使用するとき、用語、オーディオ信号は、別途述べられない限り、オーディオコンテンツを表す電気信号または聞き取れる音を指すことができる。
オーディオ信号が知覚的オーディオコーデックを使用して圧縮されると、破棄済み信号成分を取出すことは不可能である。しかし、信号エンハンサシステムは、圧縮済みオーディオ信号内の残りの信号成分を解析し、破棄済み成分を知覚的に置換する新しい信号成分を生成する可能性がある。
幾つかの場合において、圧縮済みオーディオ信号のソースの品質は、オーディオソースによって明示的に指定される場合がある、またはオーディオソースに基づいて推測される場合がある。一例において、衛星無線コンテンツは、特定の品質及びレートで符号化されることがわかっている場合がある。別の例において、オーディオソースについての現在のビットレート及びコーデック情報等のメタデータは、バスメッセージによって、または、復号化されるオーディオファイルのヘッダ情報によって指定することができる。こうした場合、信号エンハンサは、オーディオソースによって指定される品質に基づいてトリートメントレベルを適用するように構成することができる。他の場合には、ソース品質は、わかっていないかまたは容易に予測可能でない場合がある。こうしたオーディオソースの幾つかの例は、iPOD、USBドライブ、ブルートゥース(登録商標)接続を通じて受信されるオーディオ、補助接続を介して受信されるオーディオ、またはわかっていないミュージックストリーミングアプリケーションからのオーディオストリーミング等のミュージックプレーヤを含むことができる。こうした場合、信号エンハンサは、到来するオーディオ自体のコンテンツの特性に基づいてオーディオソースに適するトリートメントレベルを自動的に検出するように構成することができる。
自動検出は、入力信号の冒頭の被測定品質に基づいて比例量のトリートメントを適用するように構成することができる。例えば、ブリックウォール傾斜(例えば、12kHzを超える周波数のハードカットオフ)が検出される場合、オーディオソースを、圧縮済みであると考え、トリートメントを適用することができる。ブリックウォール傾斜が検出されない場合、オーディオソースを、未圧縮であると考え、トリートメントを、不必要であり適用されないと見なすことができる。適用される特定の量のトリートメントは、ブリックウォールの周波数カットオフポイントに依存するとすることができる。例えば、より低いカットオフ周波数は、比較的より多くの圧縮済みオーディオストリームを示し、より多くの量のトリートメントを必要とする場合があり、一方、より高いカットオフ周波数は、比較的より少ない圧縮済みオーディオストリームを示し、より少ない量のトリートメントを必要とする場合がある。幾つかの場合、カットオフ周波数が最小閾値未満である場合、信号エンハンサは、オーディオソースが、品質が低過ぎて処理されないと判定する場合があり、トリートメントが適用されない場合がある。別の可能性として、カットオフ周波数が最大閾値を超える場合、信号エンハンサは、オーディオ信号がトリートメントを必要としないほどに十分な品質があると判定する場合がある。
オーディオトラックが十分な高周波数コンテンツを欠く場合、信号エンハンサは、オーディオ品質が低いかまたはオーディオのビットレートが低くても、トリートメントが適用されるべきでないと判定する場合がある。一例において、ピアノのオーディオトラックは、ブリックウォールが容易に検出可能でないように高周波数コンテンツを欠く場合がある。または、トラックが、記録済みレベルが低過ぎる場合、信号エンハンサは、同様に、トリートメントが適用されないと判定する場合がある。
初期化されると、または、ギャップ(例えば、ミュートまたはトラック変化)が検出されると、信号エンハンサは、ラッチをリセットし、検出済みエンハンスメントレベルを何もなしにセットすることができる。オーディオが始動または再開すると、自動検出メカニズムは、(例えば、ブリックウォールカットオフ周波数検出を実施することによって)圧縮を探すことができる。トラックが圧縮済みであるとして識別されると、トリートメントレベルを、次のトラックまでトリートメントレベルが狭い範囲内にあるままであるようにセット(すなわち、ラッチ)することができる。したがって、このラッチ操作は、ポンピング、変動性サウンド、または、変化するトリートメントレートの他の聞き取れるアーチファクトを防止することができる。
付加的にまたは代替的に、ギャップの検出後に、タイマが計数し始めることができる。所定の期間または所定の数のサンプル(例えば、5秒)以内に圧縮が検出されない場合、信号エンハンサは、次のギャップが検出されるまで、トリートメントを適用しないと決めることができる。これは、高周波数の突然の出現及び後続のトリートメントレベル調整によるトラックの中央における予想しないスペクトル変化を回避することができる。
図1は、信号エンハンサシステム110の例を含むブロック図である。信号エンハンサシステム110は周波数領域または時間領域で動作する可能性がある。信号エンハンサシステム110はサンプラモジュール112を含むことができる。サンプラモジュール112は、入力信号(X)をリアルタイムに受信し、入力信号(X)をサンプルに分割することができる。周波数領域における動作中に、サンプラモジュール112は、シーケンシャルな時間領域サンプルを収集(collect)し、適したウィンドウ関数(ルートハンウィンドウ等)が適用され、ウィンドウ処理済みサンプルは、FFT(高速フーリエ変換)等を使用して、周波数領域内のシーケンシャルビンに変換される。一例において、サンプラモジュール112は、1024ポイントFFT及び44.1kHzサンプリングレートを利用することができる。同様に、信号エンハンサシステム110の最終ステップとして、強調済み周波数領域ビンは、逆FFT(inverse Fast Fourier Transformation、逆高速フーリエ変換)を使用して、サンプラモジュール112によって時間領域に変換される可能性があり、適した相補的ウィンドウ(ルートハンウィンドウ等)が適用されて、強調済み時間領域サンプルのブロックを生成する。少なくとも50%等の所定の量のオーバラップが使用されて、時間領域サンプルを、周波数領域に変換する前に加算しウィンドウ処理する可能性がある。信号エンハンサシステム110の出力ライン105上の出力において、少なくとも50%等の同様の所定のオーバラップが、周波数領域から時間領域への変換に続いて強調済み時間領域サンプルを構築するときに使用される可能性がある。代替的に、信号エンハンサシステム110は、時間領域サンプルのシーケンシャルブロックを使用して時間領域において動作する可能性があり、変換器を、サンプラモジュール112から削除(eliminate)することができる。議論及び図を簡単にするため、サンプラモジュール112の更なる議論及び例証並びに時間・周波数変換及び周波数・時間変換は省略される。そのため、本明細書で述べるとき、シーケンシャルサンプルまたはサンプルのシーケンスは、サンプラモジュール112によってサンプリングされた入力信号(X)の時系列受信に対応する、時間領域サンプルの時系列シーケンスまたは周波数領域ビンの時系列シーケンスを交換可能に指すことができる。
図1において、信号エンハンサシステム110は、知覚的オーディオエンコーダ101及び知覚的オーディオデコーダ103と共に使用されるものとして示される。オリジナルオーディオ信号(Z)は、オーディオ信号入力ライン100上の知覚的オーディオエンコーダ101に提供される可能性がある。知覚的オーディオエンコーダ101は、オーディオ信号成分を破棄して、圧縮済みビットストリームライン102上で圧縮済みオーディオビットストリーム(Q)を生成することができる。知覚的オーディオデコーダ103は、圧縮済みオーディオビットストリーム(Q)を復号化して、入力信号ライン104上で入力信号(X)(本明細書で入力信号(X)104と呼ばれることがある)を生成することができる。入力信号(X)は、オーディオ再生に適した形式のオーディオ信号であるとすることができる。信号エンハンサシステム110は、入力信号(X)を強調するため入力信号(X)をサンプルのシーケンスに分割して、出力信号ライン105上で出力信号(Y)を生成するように動作することができる。サイドチェインデータは、入力信号(X)の処理に関連する情報、例えば、使用されるオーディオコーデックの型、コーデック製造業者、ビットレート、ステレオ対ジョイントステレオ符号化、サンプリングレート、ユニークな入力チャネルの数、コーディングブロックサイズ、及び、ソング/トラック識別子の指示を含むことができる。他の例において、オーディオ信号(X)または符号化/復号化プロセスに関連する任意の他の情報を、サイドチェインデータの一部として含むことができる。サイドチェインデータを、サイドチェインデータライン106上で知覚的オーディオデコーダ103から信号エンハンサシステム110に提供することができる。代替的にまたは付加的に、サイドチェインデータを、入力信号(X)の一部として含むことができる。
図2は、知覚的オーディオエンコーダ及びデコーダと共に使用される信号エンハンサシステム110の例のブロック図である。この場合、知覚的オーディオデコーダ103は、信号エンハンサシステム110の一部として組込まれる可能性がある。結果として、信号エンハンサシステム110は、圧縮済みビットストリームライン102上で受信される圧縮済みオーディオビットストリーム(Q)に直接作用することができる。代替的に、他の例では、信号エンハンサシステム110は、知覚的オーディオデコーダ103内に含まれる場合がある。この構成において、信号エンハンサシステム110は、圧縮済みオーディオビットストリーム(Q)102の詳細にアクセスすることができる。
図3は、信号エンハンサシステム110の例のブロック図である。図3において、信号エンハンサシステム110は、入力信号ライン104上で入力信号(X)を受信することができる信号トリートメントモジュール300を含む。信号トリートメントモジュール300は、対応する信号トリートメントライン310上に幾つかの個々のかつユニークな信号トリートメント(ST1、ST2、ST3、ST4、ST5、ST6、及びST7)を生成することができる。7つの信号トリートメントが示されるが、他の例において、より少ないまたはより多い数(n)の信号トリートメントが可能である。信号トリートメント(STn)のそれぞれの相対的エネルギーレベルは、第1の総和ブロック321で共に加算される前に、トリートメント利得(g1、g2、g3、g4、g5、g6、及びg7)315によって個々に調整されて、全体信号トリートメント(STT)323を生成することができる。全体信号トリートメント(STT)323のレベルは、第2の総和ブロック322で入力信号(X)104に加算される前に、全体トリートメント利得(gT)320によって調整することができる。
信号トリートメントモジュール300は、1つまたは複数のトリートメントモジュール(301、302、303、304、305、306、及び307)を含むことができ、トリートメントモジュールは、入力信号(X)のシーケンシャルサンプルの個々のサンプル成分に作用して、それぞれの成分のそれぞれについてサンプルごとに信号トリートメント(310)をシーケンシャルに生成する。シーケンシャルサンプルの個々のサンプル成分は、オーディオ信号の異なる特性に関連することができる。代替的にまたは付加的に、信号トリートメントモジュール300は、更なるまたはより少ないトリートメントモジュール300を含むことができる。示すモジュールは、独立している場合がある、または、モジュールを作成するため種々の組合せの任意の組合せで形成されるサブモジュールである場合がある。
図4は、ミッドサイド成分モジュール400によって抽出されるような、入力信号(X)のミッドサイド成分に作用する信号エンハンサシステム110の例である。用語「ミッドサイド」は、ステレオオーディオ信号内のオーディオ情報を指し、ステレオオーディオ信号において、左と右の両方のステレオチャネルに共通であるオーディオ情報はオーディオ情報の「ミッド(Mid)」信号成分であると考えられ、オーディオ情報の「サイド(Side)」信号成分は、左ステレオチャネルと右ステレオチャネルとの間で異なるオーディオ情報である。知覚的オーディオコーデックは、知覚的オーディオコーデックの性能の改善のためにオーディオ信号のミッドサイド成分に作用する可能性がある。この状況において、エンコーダはより多くのミッド信号成分を保持しながら、より多くのサイド信号成分を破棄する可能性がある。したがって、この状況において、信号エンハンサシステム110の動作の最適化は、信号エンハンサシステム110が、ステレオ信号の左及び右チャネルに直接作用するのではなく、ステレオ入力信号(X)のミッドサイド成分に作用する場合に改善される場合がある。
図4において、ステレオ・ミッドサイドモジュール400は、ステレオ入力信号Xをミッドサイド信号構成Xmsに変換することができ、ミッドサイド信号構成Xmsを、次に、処理のためにミッドサイド信号ライン401上で信号エンハンサシステム110に提供することができる。信号エンハンサシステム110は、ミッドサイド信号Xmsに作用して、強調済みミッドサイド信号(Yms)を生成することができる。強調済みミッドサイド信号(Yms)を、強調済みミッドサイド信号ライン402上でミッドサイド・ステレオモジュール403に供給することができる。ミッドサイド・ステレオモジュール403は、強調済みミッドサイド信号(Yms)を、出力ライン105に供給されるステレオ(左及び右チャネル)出力信号(Y)に変換することができる。
図5は、空間スライス分解モジュール500から導出することができる空間スライスストリームライン501上の「n個の」空間スライスストリーム(XSS1、XSS2、XSS3、…、XSSn)のセットに作用する「n個の」信号エンハンサシステム110のセットの例である。空間スライス分解モジュール500は、入力信号ライン104上でステレオまたはマルチチャネルオーディオ入力信号(X)を受信し、空間スライスストリームのセットを生成することができる。空間スライスストリームは、空間フィルタバンクの出力を含むことができ、空間フィルタバンクは、認識されるステレオまたはマルチチャネルサウンドステージ内のオーディオ信号ソースの空間ロケーションに基づいて入力信号を分解する。空間スライスストリーム501を生成するため入力信号を空間スライスに分解するための考えられる1つの方法は、参照によりその全体が本明細書に組込まれる、「SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS」という名称の米国特許出願第12/897,709号に記載される。
図5において、「n個の」信号エンハンサ110のそれぞれは、強調済み出力ストリームライン502上で強調済み出力ストリーム(YSS1、YSS2、YSS3、…YSSn)を生成する。「n個の」出力ストリームは、総和モジュール503において結合されて、出力ライン105上で出力信号(Y)を生成する。システムの性能の改善は、個々の空間スライスストリームに対して別々の信号エンハンサシステム110を作用させるときに得ることができる。その理由は、各信号エンハンサシステム110が、オーディオ入力信号104のより隔離されたサンプル成分に作用し、したがって、各空間スライスストリーム(XSSn)について適切な信号トリートメント(ST1、ST2、ST3、ST4、ST5、ST6、及びST7)をよりよく導出することができるからである。任意の数の異なる信号トリートメント(ST1、ST2、ST3、ST4、ST5、ST6、及びST7)を、それぞれの空間スライスストリーム(XSSn)のそれぞれの空間スライスストリームのサンプルに含まれる異なるサンプル成分について独立して導出することができる。
図3において、信号トリートメントモジュール300は、オーディオ信号またはオーディオ信号から生成される空間スライスストリームのそれぞれのシーケンシャルサンプルの個々のサンプル成分について信号トリートメント(ST1、ST2、ST3、ST4、ST5、ST6、及びST7)を導出する1つまたは複数のトリートメントモジュール(301、302、303、304、305、306、及び307)を含むことができる。トリートメントモジュール(301、302、303、304、305、306、及び307)のそれぞれは、オーディオ信号または空間ストリームに関連する異なる特性について信号トリートメント(ST1、ST2、ST3、ST4、ST5、ST6、及びST7)を導出することができる。例示的なオーディオ信号特性は、帯域幅、高調波、過渡変化、拡張、残響、マスキング、及び高調波位相整列を含む。他の例では、信号トリートメントを、オーディオ信号に関連する更なるまたはより少ない特性について導出することができる。信号トリートメントを、それぞれのトリートメントモジュールの特性に対応するオーディオ信号の欠落部分について導出することができる。したがって、信号トリートメントは、サンプルのシリーズ内の個々のサンプル成分から欠落しているとして識別されるオーディオ信号の種々の異なる特性の置換部分を効果的に供給することができる。そのため、それぞれの特性の喪失部分が識別されるシリーズ内のサンプル成分のうちの一部のサンプル成分は、信号トリートメントを適用されている場合があり、一方、それぞれの特性の喪失部分が全く識別されないシーケンス内の他のサンプル成分は、信号トリートメントを適用されていない場合がある。
帯域幅の特性がオーディオ信号の欠落部分であることに関して、比較的低いビットレートで動作するコーデックを含む一部の知覚的オーディオコーデックは、所定の閾値を超える信号成分を破棄することによって圧縮済み信号の帯域幅を制限することができるようなものである。例えば、知覚的オーディオコーデックは、12kHzを超える等、所定の周波数を超える全ての周波数成分が、知覚的に重要でないと考え、したがって、それらを破棄することができる。帯域幅伸長モジュール301は、入力信号(X)に作用して、こうした所定のカットオフ周波数(Fx)を超える、信号成分または信号トリートメント(ST1)を生成することができる。帯域幅伸長モジュール301は、入力信号(X)を解析して、存在する場合、入力信号のカットオフ周波数(Fx)を決定することができる。カットオフ周波数(Fx)の知識が使用されて、所定のカットオフ周波数(Fx)を超える新しい信号成分を有する信号トリートメントストリーム(ST1)の発生を誘導し、それにより、オーディオ信号の対応するサンプル成分内にこの特性が存在しないことを補償することができる。
代替的にまたは付加的に、サイドチェイン情報106が、図1に示すように、知覚的オーディオデコーダ103から入手可能である場合、カットオフ周波数(Fx)を、帯域幅伸長モジュール301に提供することができる。他の場合、知覚的オーディオデコーダ103及び信号エンハンサシステム110が、図2の例等において統合される場合、カットオフ周波数(Fx)を、知覚的オーディオデコーダ103によって帯域幅伸長モジュール301に直接提供することができる。
高調波の特性がオーディオ信号の欠落または喪失部分であることに関して、比較的低いビットレートで動作するコーデックを含む一部の知覚的オーディオコーデックは、信号内の所与の時点において圧縮済み信号内の或る「中間高調波(middle harmonics)」を破棄することができる。例えば、或る時点において、知覚的オーディオコーデックは、幾つかの低次高調波と共に特定のサウンドソースの基本周波数成分を保持することができる。知覚的オーディオコーデックは、サウンドソースの中間高調波の1つまたは複数を破棄しながら、信号の最高次高調波の一部または全てを同様に維持することができる。帯域内高調波フィルモジュール302は、入力信号(X)104を解析して、知覚的オーディオコーデックがオーディオ信号の1つまたは複数の中間高調波特性を破棄した事象を探索することができる。帯域内高調波フィルモジュール302は、オーディオ信号のサンプル成分からこの特性が欠落することに応答してオーディオ信号に適用するための新しい中間高調波を有する信号トリートメントストリーム(ST2)を生成するように動作することができる。
過渡変化の特性がオーディオ信号の欠落部分であることに関して、比較的低いビットレートで動作するコーデックを含む一部の知覚的オーディオコーデックは、過渡変化信号の「スミアリング(smearing)」をもたらすことができる。この型のコーディングアーチファクトは、「プリエコー(pre−echo)」と述べられる可能性があり、また、過渡変化事象時に過渡変化信号がシャープアタックを有し他の信号成分に比べて比較的音量が大きいとき、最も容易に聞き取られる可能性がある。プリエコーは、過渡変化信号成分の認識される鈍化をもたらす傾向がある。過渡変化強調モジュール303は、この特性をオーディオ信号の成分サンプルからの欠落として識別し、過渡変化信号成分の認識されるシャープアタックを回復する信号トリートメントを導出しようとする場合がある。過渡変化強調モジュール303は、入力信号(X)を解析することができ、また、過渡変化事象及び過渡変化信号成分を識別して、欠落している特性を識別することができる。過渡変化強調モジュール303は、オーディオ信号に適用するための新しい過渡変化信号成分を含む信号トリートメントストリーム(ST3)を生成して、既存の過渡変化信号成分の冒頭の知覚を向上させるように動作することができる。
オーディオ信号内の過渡変化を検出するための例示的な方法は以下の活動を含むことができる。時間領域入力信号サンプルの現在のブロックについてのFFTビンの大きさが、計算されて、履歴バッファに記憶される。FFTビンの現在のセットの大きさは、ビンごとにFFTビンの過去のセットの大きさと比較され、ここで、現在のセット及び過去のセットは、サンプルのそれぞれのシリーズのサンプル成分のシリーズを示す。FFTビンの過去のセットの大きさは、履歴バッファに前もって記憶され、この比較のために取出される。現在のFFTビンの大きさが、大きさ閾値等の所定の閾値だけ過去のFFTビンの大きさを超えるビンの数が計数される。カウントが、決定済みカウント閾値を超える場合、時間領域サンプルの現在のブロックが過渡変化事象を含むと判定される。20dB等の所定の値は、過渡変化を検出するための大きさ閾値に適する場合がある。過去のFFTビンは、サンプルの現在のブロックの背後の1つまたは2つのブロックから採取される可能性がある。すなわち、履歴バッファは、サンプルのサンプル成分のシーケンシャル処理において1つまたは2つの処理ブロックの遅延を示す可能性がある。
拡張の特性がオーディオ信号の欠落または喪失部分であることに関して、比較的低いビットレートで動作するコーデックを含む一部の知覚的オーディオコーデックは、オーディオ信号が聞き取れるサウンドとして生成されるときリスナーによって認識されるステレオサウンドステージの認識される狭隘化をもたらすことができる。すなわち、オリジナルの未圧縮オーディオ信号内で極端な左または右に位置していると認識されるサウンドは、圧縮プロセス中に他のサウンドに比べて減衰する場合がある。結果として、得られるオーディオ信号は、より「モノラル(monophonic)」である、また、「ステレオ(stereophonic)」でないと認識される場合がある。サウンドステージ強調モジュール304は、サンプル成分のシリーズにおいてこの特性に関連するオーディオ信号の欠落または喪失部分を識別し、入力信号(X)内で極端な左または右に位置していると認識される信号成分を被生成信号トリートメントとして増幅することができる。例えば、サウンドステージ強調モジュール304は、極端な左または右の信号成分を抽出し、これらの信号成分の増幅済みバージョンを含む信号トリートメントストリーム(ST4)を生成するように動作することができる。極端な左または右の信号成分を抽出するための考えられる1つの方法は、参照によりその全体が本明細書に組込まれる、「SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS」という名称の米国特許出願第12/897,709号に記載される。
残響の特性がオーディオ信号の欠落または喪失部分であることに関して、比較的低いビットレートで動作するコーデックを含む一部の知覚的オーディオコーデックは、オーディオ信号において「雰囲気(ambience)」または「残響」特性の認識される減少をもたらすことができるようなものである。残響特性のこの減少は、全体のサウンドの認識される「鈍化(dulling)」、並びに、オーディオ信号の喪失部分によるサウンドの詳細の認識される喪失をもたらす場合がある。残響の減少は、同様に、全体のサウンドフィールドの認識されるサイズ及び幅を減少させる場合がある。リバーブフィルモジュール305は、入力信号(X)をドライ信号成分と残響性信号成分に分解するように動作することができる。リバーブフィルモジュール305は、その後、対応するサンプル成分内でオーディオ信号の欠落部分を識別し、サンプル成分内で残響の認識されるレベルを増加させ、新しい残響性信号成分を含むことができる信号トリートメントストリーム(ST5)を生成するように動作することができ、また、オーディオ信号の一部が欠落していると判定されるサンプルのシーケンスのサンプル成分だけに適用するための増幅済み残響性信号成分を含むことができる。
入力信号(X)をドライ信号成分と残響性信号成分に分解するための考えられる1つの方法は、共に参照によりその全体が本明細書に組込まれる、「SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL」という名称の米国特許第8,180,067号、及び、「SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL」という名称の米国特許第8,036,767号に記載される。
マスク信号の特性がオーディオ信号の欠落または喪失部分であることに関して、比較的低いビットレートで動作するコーデックを含む一部の知覚的オーディオコーデックは、信号内の明瞭度及び低レベル詳細の認識される減少をもたらすことができる。これは、例えば知覚モデルによればほとんどのリスナーにとって聞き取れないと思われる信号成分を破棄する知覚的オーディオコーデックによってもたらされる場合がある。通常、知覚モデルは、或る第1の信号成分を、その第1の信号成分をマスクすることができる他の優勢な信号成分が存在する場合、聞き取れないとして識別することになる。すなわち、人間の聴覚系のマスキング特性によって優勢な信号成分は、第1の信号成分を聞き取れなくさせる(マスクする)場合がある。しかし、各リスナーのマスキング特性は、幾らか異なっており、知覚的オーディオコーデック内の知覚モデルは、1人のリスナーのマスキング特性を近似するだけである可能である。結果として、知覚的オーディオコーデックは、一部のリスナーにとって聞き取れる或る信号成分を破棄する場合がある。
マスク式信号フィルモジュール306は、オーディオ信号の対応するサンプル成分の欠落部分を識別し、低レベル信号成分を、マスクされるまさに閾値に低レベル信号成分があるように増幅するように動作することができる。マスク式信号フィルモジュール306は、入力信号(X)を受信し、知覚モデルを適用して、各周波数について「同時マスキング閾値(simultaneous masking threshold)」を決定することができる。同時マスキング閾値は、或る周波数の信号成分が他の周波数の信号成分によってそこでマスクされると知覚モデルが判定するレベルを示す。例えば、1100Hzの信号成分は、1000Hzにおいて十分に音量が大きい信号成分が存在する場合、聞き取れない場合がある。この例において、同時マスキング閾値は、他の周波数(1100Hz等)の信号成分が1000Hzの信号成分によってそこでマスクされることになるレベルを示す。したがって、1100Hzの信号成分のレベルが同時マスキング閾値を下回る場合、知覚モデルは、この信号成分がマスクされる(聞き取れない)ことになると判定する。
継続してこの例を考えると、マスク式信号フィルモジュール306が、1100Hzの信号成分が同時マスキング閾値を下回ると判定し、それにより、オーディオ信号の対応するサンプル成分の喪失部分を識別する場合、マスク式信号フィルモジュール306は、信号トリートメントストリーム(ST6)を生成することができ、信号トリートメントストリーム(ST6)は、1100Hzの信号成分が同時マスキング閾値に達するように1100Hzの信号成分の増幅済みバージョンを含むことができる。同様に、マスク式信号フィルモジュール306は、全ての周波数の信号成分についてこの操作を実施して、対応するサンプル成分の喪失部分を識別し、それにより、マスク式信号フィルモジュール306は、種々の周波数の増幅済み信号成分を含む信号トリートメントストリーム(ST6)を生成することができるため、全ての周波数の信号成分が同時マスキング閾値に達することができる。
同時マスキング閾値を決定するための知覚モデルの例は、共に参照によりその全体が本明細書に組込まれる、『SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL』という名称の米国特許第8,180,067号、及び、「SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL」という名称の米国特許第8,036,767号に記載される。一般に、知覚モデルは、所定の期間にわたる成分サンプルの生成中に(サンプルのシリーズについての成分サンプルの多数のスナップショットにわたって等で)、時間ベース聴覚マスキング推定値及び周波数ベース聴覚マスキング推定値の少なくとも一方に基づいて平滑化を実施することができる。
高調波的に富んだ信号の基本成分及び高調波成分の位相は、所定期間にわたって互いに追従する(track)傾向がある可能性がある。すなわち、高調波的に富んだ信号の基本成分及び高調波成分は、何らかの方法で整列する傾向がある可能性がある。高調波位相整列の特性がオーディオ信号の欠落または喪失部分であることに関して、比較的低いビットレートで動作するコーデックを含む一部の知覚的オーディオコーデックは、所与のサウンドソースの高調波の位相に対して位相に関してその整列を喪失させることができる。サンプル成分の欠落部分としての位相整列のこの喪失は、信号の少なくとも高次高調波上で起こる可能性がある。位相整列のこの喪失を、異なる方法でリスナーが認識することができる。位相整列の喪失の1つの一般的な結果は、より高い周波数で、通常、聞き取ることができる「シューシュー音(swooshing)」である。高調波位相整列モジュール307は、高調波的に関連する信号成分が所定期間にわたって強制的に位相整列されるように動作することができる。高調波位相整列モジュール307は、入力信号(X)を解析し、(過渡変化信号成分またはノイズに似た信号成分と対照的に)調性信号成分を探し、調性信号成分が高調波的に関連するかどうかを判定することができる。更に、高調波位相整列モジュール307は、高調波的に関連する任意の調性成分の位相が所定期間にわたって整列するかどうかを判定することができる。対応するサンプル成分の特性、すなわち、高調波的に関連する調性成分の位相整列が、オーディオ信号の欠落部分として識別される場合、整列状態にない任意の高調波の位相を調整することができる。高調波位相整列モジュール307は、これらの未整列調性成分の位相整列済みバージョンを含むことができる信号トリートメントストリーム(ST7)を生成することができる。代替的にまたは付加的に、高調波位相整列モジュール307は、調性成分の何らかの他の形態の整列を提供することができる。
入力信号(X)104がステレオまたはマルチチャネルである場合、図5を参照して述べたように、信号エンハンサ110によって処理される前に入力信号(X)104を空間スライス501に分解することができる。信号を空間スライスに分解するためのシステム及び方法は、参照によりその全体が本明細書に組込まれる、「SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS」という名称の米国特許出願第12/897,709号に記載される。入力信号を空間スライスに分解することは、空間スライス(XSS1、XSS2、XSS3、…、XSSn)501のそれぞれに含まれる信号成分に対する種々のトリートメント(301、302、303、304、305、306、及び307)のより的確な適用を可能にすることができる。例えば、過渡変化信号が所与の空間スライス内に位置する場合、過渡変化強調トリートメント303は、他の空間スライス内の非過渡変化信号成分に影響を及ぼさない状態で、その空間スライスにおいて適用されるだけである場合がある。
適切なトリートメントが空間スライスのそれぞれに適用されると、空間スライスのそれぞれからの強調済み出力ストリーム(YSS1、YSS2、YSS3、…、YSSn)502は、総和モジュール503において結合されて、出力ライン105上で複合出力信号(Y)を生成することができる。
所与の空間スライス内の信号成分に適用される種々のトリートメントは、入力信号(X)のコンテンツが変化するにつれて、所定の期間にわたって変動する場合がある。上記例を使用して、過渡変化強調トリートメント303を、所与の空間スライス内のサンプル成分の一部のサンプル成分に、過渡変化信号成分がその空間スライス内で検出された期間中に適用するだけである場合がある。
ミュージックまたはスピーチ等のオーディオ信号は、通常、或る程度の量の残響を含む。この残響は、オーディオ信号がその中で記録された部屋(例えば、コンサートホール)のせいである場合がある、または、この残響は電子的に付加される場合がある。残響のソースは、残響性システムと呼ばれる。残響の特性は、残響性システムのインパルス応答によって決定される。残響性システムのインパルス応答は、ブロックのセットに分割される可能性がある。インパルス応答推定器910は、入力信号に作用して、インパルス応答の周波数領域表現の知覚的に重要な推定値を生成する。一般に、インパルス応答推定器は、入力信号に作用して、インパルス応答のブロックベース推定値を生成することができる。インパルス応答のブロックベース推定値は、インパルス応答の周波数領域推定値に対応する複数のブロック推定値からなる。
図6は、インパルス応答の例である。第1の垂直ラインは直接のサウンド成分602を示し、一方、残りのラインは反射を示す。各ラインの高さはその振幅を示し、時間軸(t)上でのそのロケーションは、マイクロフォン等のサウンド測定デバイスにおけるその到達時間を示す。時間が経過するにつれて、反射の回数が、個々の反射を識別することがもはや可能でないポイントまで増加する。最終的に、反射は、拡散性の指数関数的減衰システムに進化する。これは、通常、インパルス応答の残響性テイル604と呼ばれる。
いわゆる早期反射606は、直接サウンド成分602の直後に到達し、残響性テイルと異なる知覚効果を有する。これらの早期反射は、オーディオ信号のソースとマイクロフォンとの間の音響空間及び距離のサイズに関する知覚的キューを提供する。早期反射606はまた、サウンドに対して改善された明瞭度及び了解度を提供する可能性がある点で重要である。残響性テイルはまた、音響空間に関する知覚的キューを提供する。
インパルス応答はまた、そのフーリエ変換(または何らかの他の変換)を計算することによって周波数領域で観察される可能性があるため、残響システムは、その周波数領域表現H(ω)によって完全に記述される可能性がある。変数ωは周波数を示す。インパルス応答のフーリエ表現は、大きさ応答と位相応答の両方を提供する。一般的に言えば、大きさ応答は、インパルス応答における異なる周波数成分の相対レベルに関する情報を提供し、一方、位相応答は、周波数成分の時間的態様に関する情報を提供する。
リバーブフィルモジュール305は、入力信号内の残響性エネルギーの大きさの推定値の周波数領域推定値を生成することができる。残響性エネルギーの大きさのこの推定値は、入力信号から減算され、したがって、入力信号のドライオーディオ信号成分の大きさの推定値を提供する。残響性入力信号の位相が使用されて、オリジナルのドライ信号の位相を近似する。本明細書で使用するとき、用語「ドライ信号(dry signal)」、「ドライ信号成分(dry signal component)」、「ドライオーディオ信号成分(dry audio signal component)」、または「直接信号成分(direct signal component)」は、オーディオ信号内に存在する残響性エネルギーがほとんどないオーディオ信号またはオーディオ信号の一部分を指す。そのため、オリジナルのドライ信号は、ほぼ完全に直接サウンドインパルス602からなるため、残響性エネルギーがほとんどない場合がある。本明細書で使用するとき、用語「残響性エネルギー(reverberant energy)」、「残響性入力信号(reverberant input signal)」、「残響性成分(reverberant component)」、「残響性信号成分(reverberant signal component)」、「残響成分(reveration component)」、または「残響信号成分(reveration signal component)」は、オーディオ信号の早期反射及び残響テイルを指す。更に、オーディオ信号に関して、本明細書で使用するとき、用語「成分(component)」または「複数の成分(components)」は、1つまたは複数の成分を指す。
インパルス応答全体を使用してオリジナルのドライ信号の位相を全体として近似するため残響性入力信号の位相が使用される場合、重大な時間領域アーチファクトを処理済み信号内で聞き取ることになる可能性がある。したがって、リバーブフィルモジュール305は、インパルス応答全体の推定値をブロック608に分割する可能性があり、また、処理は、ブロックベースの方法で実施される可能性がある。ブロック608の所定の長さは、処理済み出力信号の位相の誤差によって人間の耳が時間領域アーチファクトを全く認識しないほどに十分に短い可能性がある。
所与の周波数において残響性入力信号が減衰するレートを決定するために2つの因子が組合される。第1の因子はドライ(すなわち、非残響性)サウンドソースの減衰レートであり、第2の因子は残響性システムの減衰レートである。所与の周波数における残響性システムの減衰レートは所定の期間にわたって比較的一定であるが、ドライサウンドソースの減衰レートは連続的に変動する。入力信号(X)について考えられる最も速い減衰レートは、ドライサウンドソースが所与の周波数で停止するときに起こり、その信号の減衰は、全体として残響性システムの減衰による。図6の例において、ドライサウンドソースは、例えば、早期反射606の時点で停止する場合がある。所与の周波数における残響性システムの減衰レートは、その周波数における残響性システムのインパルス応答によって直接決定される可能性がある。したがって、入力信号(X)は、残響性システムのインパルス応答によって左右されるレートより速いレートで減衰するべきではない。
図7は、リバーブフィルモジュール305のより詳細な図である。リバーブフィルモジュール305は、入力信号(X)104を受信し、信号トリートメント310 ST5を出力として提供することができる。インパルス応答推定器710、リバーブドロップアウト検出器モジュール711及びリバーブドロップアウトフィルモジュール712、並びに分解プロセッサモジュール713を、リバーブフィルモジュール305に含むことができる。他の例において、論じた機能を達成するためのより少ないまたはより多い数のモジュールを述べることができる。
インパルス応答推定器710が使用されて、入力信号(X)の残響性システムのインパルス応答の推定値を導出することができる。入力信号(X)の残響性システムのインパルス応答を推定するための考えられる1つの方法は、共に参照によりその全体が本明細書に組込まれる、「SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL」という名称の米国特許第8,180,067号、及び、「SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL」という名称の米国特許第8,036,767号に記載される。
図8は、リバーブフィルモジュール305によって推定される可能性があるオーディオ信号の残響性成分の推定値の例である。分解プロセッサモジュール713は、入力信号(X)に作用して、入力信号の先に論じたサンプル成分のうちの1つのサンプル成分である入力リバーブ成分802を導出することができる。入力リバーブ成分802は、入力信号の残響性成分(残響)または特性の推定値からなることができる。入力信号(X)の入力リバーブ成分802を導出するための考えられる1つの方法は、共に参照によりその全体が本明細書に組込まれる、「SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL」という名称の米国特許第8,180,067号、及び、「SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL」という名称の米国特許第8,036,767号に記載される。予想済み減衰レート806は、分解プロセッサモジュール713によってインパルス応答からそれぞれのシーケンシャルサンプルについて直接決定することができる。図8において、入力リバーブ成分802は、期間(t)にわたる所与の周波数におけるサンプル成分のシーケンスとして示される。入力リバーブ成分802が、ある時点で成長(増大)し、他の時点で減衰することが見てわかる。
図7及び8を参照すると、リバーブドロップアウト検出器711は、異なる時点において入力リバーブ成分802の減衰レートを、予想済み減衰レート806と比較することができる。リバーブドロップアウト検出器711は、個々のサンプル成分内で、入力リバーブ成分802が予想済み減衰レート806を下回る1つまたは複数のリバーブドロップアウト804を、オーディオ信号の欠落または喪失部分として識別することができる。リバーブドロップアウトフィルモジュール712は、リバーブフィルトリートメントを信号トリートメントとして生成して、リバーブドロップアウト804による喪失エネルギーを補償するように動作することができる。図8に示すように、信号トリートメントは、オーディオ信号の一部が欠落しているサンプル成分に適用されるだけである。したがって、サンプル成分のシーケンスがシーケンシャルに処理されるにつれて、信号トリートメントを、入力信号の欠落または喪失部分を有するとして識別されたサンプル成分だけに選択的に適用することができる。
図9aは、強調コントローラモジュール900に結合された信号エンハンサモジュール110のブロック図の例である。強調コントローラモジュール900は、トリートメントレベル調整器モジュール901、信号品質解析器モジュール902、及びディスプレイモジュール906を含むことができる。動作中、信号トリートメントモジュール300は、トリートメント要件インジケータを信号品質解析器902に提供することができる。トリートメント要件インジケータは、入力信号(X)の識別された欠落部分によって必要とされる信号トリートメントの量に関する重要な情報を、種々のトリートメントモジュール(301、302、303、304、305、306、及び307)から提供する可能性がある。
考えられるトリートメント要件インジケータの一例として、帯域幅伸長モジュール301(図3)は、入力信号(X)のカットオフ周波数(Fx)の推定値を提供することができる。カットオフ周波数を、時折、周波数スペクトルグラフにおけるその外見のせいでブリックウォールまたはブリックウォール周波数と呼ぶことができる。ブリックウォールは、通常、10〜19kHz領域内の、圧縮によって導入されるハードで急峻なカットオフ周波数を示すことができる。カットオフ周波数ポイントを超えると、入力信号(X)内に実質的に全く情報が存在しない。使用される圧縮の型または使用される圧縮の差に応じて、ブリックウォールの周波数は、トラックごとに変動するか、または更に、一トラック中に一時的に消える可能性がある。カットオフ周波数についてのより低い値は、知覚的オーディオエンコーダ101がオリジナルのオーディオ信号(Z)100(図1)により攻撃的に作用したことを示唆する場合があり、したがって、入力信号(X)は、信号の高周波部の有意の部分を欠落し、オーディオ信号が再生された場合にリスナーによるより低い認識される品質をもたらす場合がある。代替的にまたは付加的に、帯域幅伸長トリートメントモジュール301は、知覚的オーディオエンコーダ101によって破棄されたカットオフ周波数を超える信号の欠落エネルギーと、保持された信号のエネルギーとの比の推定値を提供することができる。この比についてのより大きな値は、オリジナルのオーディオ信号(Z)100のより有意の部分が欠落し(破棄され)、したがって、入力信号(X)が、オーディオ信号が再生された場合にリスナーによるより低い認識される品質を有する場合があることを示唆する場合がある。
別の例として、帯域内高調波フィルモジュール302(図3)は、中間(帯域内)高調波がどれほど頻繁に、破棄されており、また、オーディオ信号から欠落しているかという指示を提供することができる。代替的にまたは付加的に、帯域内高調波フィルモジュール302は、破棄された高調波のエネルギーの推定値を提供することができる。欠落している(破棄された)帯域内高調波エネルギーのレベルがより高いことは、入力信号(X)が、オーディオ信号が再生された場合にリスナーによるより低い認識される品質を有することを示すことができる。
別の例として、リバーブフィルモジュール305は、入力信号(X)内の残響性エネルギーの尺度、並びに、知覚的オーディオエンコーダ101によって破棄された喪失残響性エネルギーの推定値を提供することができる。欠落する残響性エネルギーのレベルが高いことは、入力信号(X)が、オーディオ信号が再生された場合にリスナーによるより低い認識される品質を有することを示すことができる。
更に別の例として、サウンドステージ拡張モジュール304(図3)は、欠落しているまたは喪失したサイド(左−右)エネルギー及び知覚的オーディオエンコーダ101によって破棄されたミッド(左+右)エネルギーの量の推定値を提供することができる。代替的にまたは付加的に、サウンドステージ拡張モジュール304は、入力信号(X)の全体エネルギーに対する極端な左または右の信号成分のエネルギーの尺度を提供することができる。極端な左または右の信号エネルギーのレベルがより低いことは、複数の部分が入力信号104から欠落し、オーディオ信号が再生された場合にリスナーによるより低い認識される品質をもたらすことを示すことができる。
別の例として、過渡変化強調モジュール303は、過渡変化がどれほど頻繁に入力信号(X)104において起こるかを示すことによってオーディオ信号の欠落部分の指示を提供することができる。別の例として、マスク式信号フィルモジュール306は、入力信号(X)を調査し、同時マスキング閾値を下回った信号成分がどれほど頻繁に、破棄され、したがって、オーディオ信号から欠落しているかという指示を提供することができる。信号成分が頻繁に欠落している(破棄される)場合、これは、入力信号(X)が、オーディオ信号が再生された場合にリスナーによるより低い認識される品質を有する場合があることを示すことができる。
別の例として、高調波位相整列モジュール307(図3)は、入力信号(X)を調査し、高調波的に関連する信号成分がどれほど頻繁に位相整列しないかという指示を提供することができる。代替的にまたは付加的に、高調波位相整列モジュール307は、位相整列しない高調波成分のエネルギーの尺度を提供することができる。位相整列しない高調波成分のレベルがより高いことは、入力信号(X)104の複数の部分が喪失されることを示唆することができ、入力信号(X)104は、オーディオ信号が再生された場合にリスナーによるより低い認識される品質を有する場合がある。
信号品質解析器902は、トリートメント要件インジケータを受信し、信号品質インジケータを導出する。代替的にまたは付加的に、信号品質解析器902は、メタデータバッファ905からメタデータを受信することができる。メタデータは、入力信号(X)の認識される品質の直接の指示を提供することができる。メタデータバッファ905に含まれるメタデータを、知覚的オーディオデコーダ103、オーディオ信号、または何らかの他のソースによって提供することができる。代替的に、メタデータを、信号品質解析器902に直接提供することができ、メタデータバッファ905を省略することができる。メタデータは、限定はしないが、カットオフ周波数(Fx)、知覚的オーディオエンコーダ101によって使用される現在の処理ブロックの長さ、入力信号(X)のビットレート、及び/または、入力信号(X)のサンプリングレートを含む入力信号の起源及び特性に関する情報を提供することができる。
受信済みトリートメント要件インジケータ及び/またはメタデータの一方または両方を使用して、信号品質解析器902は、入力信号(X)の認識される全体品質の推定値を導出することができる。代替的にまたは付加的に、信号品質解析器902は、個々の信号トリートメントに関して入力信号の認識される品質の推定値を導出することができる。
信号エンハンサモジュール110が入力信号(X)に適用する信号トリートメント310の相対エネルギーレベルは、入力信号及び/または入力信号のサンプル成分の相対品質に応じて変動する場合がある。例えば、入力信号(X)の品質が比較的良好である状況において、信号トリートメント310の相対エネルギーレベルは減少する場合がある。同様に、入力信号(X)の品質が比較的低い状況において、信号トリートメント310の相対エネルギーレベルは相応して増加する場合がある。トリートメントレベル調整器901は、トリートメント利得(g1、g2、g3、g4、g5、g6、及びg7)315の1つまたは複数を増加または減少させることによって信号トリートメント310の相対エネルギーレベルを独立に変更することができる。代替的にまたは付加的に、トリートメントレベル調整器901は、全体トリートメント利得(gT)320を増加または減少させることによって信号トリートメント310の全体的な相対エネルギーレベルを変更することができる。
トリートメントレベル調整器901は、信号品質解析器902から1つまたは複数の信号品質インジケータをパラメータとして受信することができる。トリートメントレベル調整器901は、入手可能な信号品質インジケータ903の1つまたは複数を使用して、個々のトリートメント利得(g1、g2、g3、g4、g5、g6、及びg7)315のそれぞれについての適切な値、並びに、全体トリートメント利得(gT)320についての適切な値を独立に決定することができる。代替的にまたは付加的に、信号品質解析器1002は、入力信号(X)の認識される品質の直接の指示を提供することができるメタデータを使用して、個々のトリートメント利得(g1、g2、g3、g4、g5、g6、及びg7)315のそれぞれについての適切な値、並びに、全体トリートメント利得(gT)320についての適切な値を決定することができる。こうして、種々の信号トリートメント310のレベルを、入力信号(X)の要件に整合するよう自動的に調整することができる。
幾つかの場合、入力信号(X)に関するメタデータが入手不能である場合がある。したがって、信号品質解析器902は、ストリームについてまたはトラックについてトリートメントレベルを自動的に再調整する圧縮検出及びトリートメントアルゴリズムを利用することができる。トリートメントアルゴリズムは、ギャップ検出器907、ラッチ908、及び自動タイマ909を含むことができる。ギャップ検出器907は、トラック間の無音のギャップ並びに新しいトラックまたはオーディオ信号の冒頭を識別するように構成することができる。ラッチ908は、或る条件が満たされるとき、個々のトリートメント利得(g1、g2、g3、g4、g5、g6、及びg7)315及び全体トリートメント利得(gT)320を選択的にロックするように構成することができる。トラックが「圧縮済み」であると識別されると、種々の信号トリートメント310のレベルは、次のトラックまで、狭い範囲内にセット(すなわち、ラッチ)され、その範囲内のままである。これは、ポンピングまたは変動性サウンドを防止する。ギャップ検出器907がギャップ(例えば、ミュートまたはトラック変更)を検出する場合、信号品質解析器902は、ラッチ908をリセットし、種々の信号トリートメント310のレベルを何もなしにセットすることになる。オーディオが入力信号(X)内で再開すると、圧縮検出メカニズムは、圧縮(ブリックウォール)を再び探すことになる。
自動タイマ909は、新しいストリームまたはトラックがギャップ検出器907によって検出されるとリセットし、トリートメント利得をその間に調整することができるオーディオの始めにおいて所定の時間量だけカウントダウンするように構成することができる。したがって、自動タイマ909は、オーディオストリームまたはトラックの中間において適用済みトリートメントのレベルの聞き取れる変化を回避するように構成することができる。幾つかの例において、所定の時間量(例えば、5秒)以内に圧縮が全く検出されないと、種々の信号トリートメント310のレベルは、次のギャップが検出されるまで、何もなしのままである場合がある。これは、高周波の突然の出現によるトラックの中間における予想しないスペクトル変化を回避する。
トリートメントレベル調整器モジュール901は、同様に、個々のトリートメント利得及び全体トリートメント利得を決定するとき、他のパラメータを考慮することができる。そのため、例えば、そのパラメータに基づいてトリートメントレベル調整器モジュール901によって、個々のトリートメント利得の或る利得を減少することができ、また、個々のトリートメント利得の或る他の利得を増加することができる。こうしたパラメータは、生成されるオーディオ信号のジャンル等の入力信号のメタデータを含むことができ、それにより、ロックミュージックのジャンルの場合、過渡変化トリートメントレベル利得が増加されて、ドラムを強調することができ、クラシックミュージックのジャンルの場合、残響トリートメントレベル利得が増加されて、ミュージックホールの効果を強調することができる。別の例において、トリートメント利得を、入力信号がミュージックに対するトークであるとき調整することができる。任意の数のトリートメントレベル利得及びパラメータを、他の例において使用することができる。トリートメントレベル調整器モジュール901による利得調整は、同様に、ルールベースであるとすることができ、例えば、所定の閾値を超える残響の特性についてのトリートメントが存在するとき、過渡変化強調の特性についての利得を、例えば比に基づいて相応して減少することができる。ユーザ設定が、同様にトリートメントレベル調整器モジュール901に適用されて、或る動作条件または動作モード下で選択的に適用されるトリートメント利得の量をもたらす(effect)ことができる。
図9bは、ストリームについてまたはトラックについてトリートメント利得の量を自動的に再調整する圧縮検出及びトリートメントアルゴリズムのプロセス950の例示的なブロック図である。プロセス950を、例えば、強調コントローラモジュール900の信号エンハンサモジュール110の信号品質解析器902によって実施することができる。プロセス950が使用されて、入力信号(X)の品質に関するメタデータ情報が全く入手可能でなくても、信号品質解析器902が、個々のトリートメント利得(g1、g2、g3、g4、g5、g6、及びg7)315及び全体トリートメント利得(gT)320を、入力信号(X)の圧縮レベルにとって適切なレベルに自動的にセットすることを可能にすることができる。一例において、圧縮検出を実施するため、信号品質解析器902は、512または1024ポイントFFT後に周波数ビンに作用することができる。以下の例は、1024ポイントFFT及び44.1kHzサンプリングレートを仮定するが、他のポイントレベルFFT及びサンプリングレートを同様に利用することができることが留意されるべきである。
一般に、プロセス950は、被監視情報が高速でかつ最新であるように直接のFFT入力から任意のビンの幅広い集合体をサンプリングすることができ、また、この情報を一定ギャップ閾値と比較することができる。平均エネルギーが所定の閾値より小さい場合、プロセス950は、ミュートまたはトラック変更に対して入力信号(X)を判定することができる。そうでなければ、プロセス950は、ビンエネルギーのナイキスト周波数から見直すことに進んで、候補周波数においてエネルギーの有意の上昇が存在するかどうかを確かめる。プロセス950は、上昇の一番上を正確に示し、このポイントを幾つかの測定のために使用しようと試みることができる。このポイントを超えるとノイズフロアと考えられ、このポイントを下回ると信号フロアと考えられる。プロセス950は、候補カットオフ周波数に関して幾つかのチェックを実施して、候補カットオフ周波数がブリックウォールに十分に似ているように見えるかどうか、候補カットオフ周波数を超えて起こる有意な情報が存在しないかどうか、また、候補カットオフ周波数が、高周波数におけるランダムでまぐれ当たりの高調波またはスパイクだけではないかどうかを確かめることができる。候補カットオフ周波数は、全てのテストを切抜ける場合、或る列内の少なくとも所定の数のフレーム(例えば、一例では、連続する20のフレーム)についてテストを全てパスしなければならない。この時点で、入力信号(X)のトリートメントは、漸増し始めることができる。トリートメントは、カットオフ周波数に比例し、それにより、より低いカットオフは、より多くのトリートメントが入力信号(X)に適用されることを意味する。トリートメントのレベルは、トラックが終了する(または、ミュートされる)まで持続する(persist)ことができる。新しいカットオフ周波数は、新しいカットオフ周波数が所定のパーセンテージより大きな値だけ異なり(例えば、少なくとも5%異なり)かつより大きなブリックウォール高さを有すると判定される場合等、種々の条件下で、直前に決定されたカットオフ周波数に取って代わることができる。これらの条件は、したがって、絶えず変動するトリートメントレベルによる望ましくないアーチファクトを防止することができる。
より具体的には、オペレーション952にて、信号品質解析器902は、圧縮検出及びトリートメントアルゴリズムを始動する。例えば、信号品質解析器902は、ラッチ908をリセットし、個々のトリートメント利得315及び全体トリートメント利得320を利得なしにセットし、自動タイマ909を同様にリセットすることができる。信号品質解析器902は、有効オーディオのフレームを更に待つことができる。この監視は、例えば、入力信号(X)の200Hz〜4kHz領域内の任意のビンのセットの瞬時値を見ることによって実施することができる。信号品質解析器902は、これらのビンの平滑化済み総和が所定の一定レベルのエネルギーを超えることを確認して、新しいトラックまたはストリームが始まったと判定することができる。オーディオが始まった場合、コントロールはオペレーション954に進む。
オペレーション954にて、信号品質解析器902は自動タイマ909を増分する。一例において、自動タイマ909は、トリートメント利得315、320に対する自動調整を、その間に実施することができるトラックまたはオーディオの始まりにおいて時間量を指定することができる。自動タイマ909が満了すると、次のギャップが検出されるまで、更なる自動調整は実施されない場合がある。信号品質解析器902は、ギャップが検出された後の有効オーディオの各フレームについて、オペレーション954にて自動タイマ909(使用可能である場合)を増分することができる。
オペレーション956にて、信号品質解析器902は、入力信号(X)について候補カットオフ周波数を検出する。一例において、信号品質解析器902は、周波数ビンを、19kHzから最低8kHzまでスキャンして、信号エネルギーの有意の上昇(例えば、1FFT周波数ビンの空間におけるエネルギーの少なくとも4倍の上昇)を突止める(locate)。信号エネルギーの上昇が見出される場合、信号品質解析器902は、エネルギーが上昇するのを停止する(例えば、エネルギーが、ビン当たり10%より大きいレートで上昇するのを停止する)ビンを更に突止めることができる。エネルギーが上昇するのを停止するこのビンを、候補BinXまたはカットオフ周波数と呼ぶことができる。
オペレーション958にて、信号品質解析器902は、カットオフ周波数を超える入力信号(X)の周波数がカットオフを確認するかどうかを判定する。1024ポイントFFTを使用する例において、信号品質解析器902は、BinXカットオフ周波数を超える11ビンで始まる周波数ビンを最高19kHzまでスキャンして、ノイズフロアが何か情報を保持するかどうかを判定する。ノイズフロアが情報を保持する場合、それは、カットオフが真の圧縮誘起性ブリックウォールでないことを示す場合がある。より特定的な例として、ノイズフロアが、2つの連続するビン内で5%より大きく上昇する場合、BinXカットオフ周波数候補は落ちる。候補がパスする場合、コントロールはオペレーション968に進んで、候補ブリックウォール周波数を評価し続ける。候補が落ちると、コントロールはオペレーション960に進む。
オペレーション960にて、信号品質解析器902は、候補カットオフ周波数に整合するフレーム数を何もなしにリセットする。オペレーション962にて、信号品質解析器902は、自動タイマ909が満了したかどうかを判定し、更なる自動調整が実施されない場合がある。自動タイマ909が満了しなかった場合、コントロールはオペレーション954に進んで、オーディオを処理し続ける。自動タイマ909が満了した場合、コントロールはオペレーション966に進んで、次のオーディオトラックまたはサウンドを識別するギャップを待つ。ギャップ検出は、オペレーション952に関して上述したオーディオ検出と同様に実施することができ、それにより、或るビンが所定の一定レベルのエネルギーをもはや超えないとき、信号品質解析器902は、ギャップを識別することができる。ギャップが検出されると、コントロールはオペレーション966からオペレーション952に進んで、自動トリートメントレベル決定プロセスを再開する。
オペレーション968にて、信号品質解析器902は、カットオフ周波数未満の入力信号(X)の周波数がカットオフを確認するかどうかを判定する。1024ポイントFFTを使用する例において、信号品質解析器902は、BinX−1で始まる周波数ビンを最低BinX−100までスキャンして、5倍より大きいエネルギー低下を突止める。こうしたエネルギー低下が突止められる場合、候補BinXは、おそらくは、狭い高調波スパイクに過ぎず、真のブリックウォールではない場合があり、候補は落ちる。候補が、候補周波数未満のエネルギー低下を検出することなくパスする場合、コントロールはオペレーション970に進む。候補が落ちると、コントロールはオペレーション960に進む。
オペレーション970にて、信号品質解析器902は、入力信号(X)が有効オーディオを含むかどうかを判定する。これは、例えば、全体信号エネルギーが、ブリックウォール検出を意味あるものにするのに十分な所定の閾値を超えることを保証するために実施することができる。多くの例において、十分なエネルギーの検出は、オペレーション952で実施される決定と同様または同一であって、検出済みギャップの端を示す入力信号(X)内でオーディオを識別することができる。入力信号(X)が有効性テストにパスした場合、コントロールはオペレーション972に進む。そうでなければ、コントロールはオペレーション960に進む。
オペレーション972にて、信号品質解析器902は、候補ブリックウォールの高さ及び急峻度が所定の閾値を超えるかどうかを判定する。一例において、信号品質解析器902は、候補ブリックウォールが、次のビンの同程度のエネルギーの少なくとも2.5倍のエネルギーを有することを保証することによって急峻度を確認することができる。信号品質解析器902は、現在の候補ブリックウォールが、同じオーディオトラックについて過去に確認済みのどの候補ブリックウォールとも少なくとも同じほど高いことを保証することによって高さを確認することができる。候補がパスする場合、コントロールはオペレーション974に進む。候補が落ちる場合、コントロールはオペレーション960に進む。
オペレーション974にて、信号品質解析器902は、整合フレームカウントを増分する。したがって、整合フレームカウントは、BinXにおいて現在の候補ブリックウォールについての全ての基準を成功裡に満たしたフレーム数を示すことができる。
オペレーション976にて、信号品質解析器902は、整合フレームカウントが所定の閾値カウントに達したかどうかを判定する。一例において、所定の閾値カウントは、20の連続するフレームであるとすることができる。整合フレームカウントが所定の閾値カウントに達した場合、候補を、正しいと考えることができ、コントロールはオペレーション978に進むことができる。そうでなければ、コントロールはオペレーション962に進む。
オペレーション978にて、信号品質解析器902は、ラッチ908がセットされたかどうかを判定する。ラッチ908は、例えば、過去の候補ブリックウォールの早期の成功裡の決定によって、前もってセットされている場合がある。ラッチ908がセットされていない場合、コントロールはオペレーション980に進む。ラッチ908が既にセットされている場合、コントロールはオペレーション984に進む。
オペレーション980にて、信号品質解析器902はラッチ908をセットし、オペレーション982にて、信号品質解析器902は、ブリックウォールBinXの周波数に従ってトリートメント利得315及び全体トリートメント利得320をセットする。一例において、トリートメントレベルは、ブリックウォール周波数に基づくパーセンテージである(すなわち、より低いカットオフ周波数はより高いレベルのトリートメントを実現する)。トリートメントを、このパーセンテージに等しい強度でオリジナルのオーディオストリームと混合することができるように、トリートメント利得315をセットすることができ、組合せ式出力についての全体トリートメント利得320を、トリートメントレベルに対してスケーリングすることができる。すなわち、より高いトリートメント値は、より低いトリートメント値に比べて多くのスケーリングを受け、また、圧縮されないオーディオはスケーリングされない。したがって、ラッチ908がセットされると、トリートメント利得315、320は、ブリックウォール周波数に従って決定されるレベルに固定される。オペレーション982の後、コントロールはオペレーション960に進んで、オーディオについてブリックウォール検出を継続する。
オペレーション984にて、信号品質解析器902は、候補ブリックウォールが、そのトラックについて前もって確立したカットオフ周波数より高いかどうか、または同様に、候補ブリックウォールが、前もって確立したカットオフ周波数の所定の閾値周波数内にあるかどうかを判定する。一例において、プロセス950は、自動タイマ909が満了していない限り継続するため、自動タイマ909が満了する前に、よりよいブリックウォールが検出される場合、そのよりよいブリックウォールを、代わりに、トリートメント利得315、320をラッチするために使用することができる。一例において、よりよいブリックウォールは、過去のカットオフ周波数に比べて高いブリックウォール高さであり、過去のカットオフ周波数に取って代わるため周波数が5%より大きく異なることを必要とされる場合がある。
ディスプレイモジュール906は、入力信号(X)、出力信号(Y)の品質の視覚表現、並びに、信号エンハンサモジュール110の性能及び/または動作の異なる態様を提供することができる。図9に示すように、ディスプレイモジュール906は、信号トリートメント(ST1、ST2、ST3、ST4、ST5、ST6、及びST7)310の1つまたは複数を受信し表示することができる。例えば、ディスプレイモジュール906は、帯域幅伸長モジュール301によって信号トリートメントST1を表示することができる。この場合、ディスプレイモジュール906は、帯域幅伸長モジュール301によって生成されたカットオフ周波数(Fx)を超える新しい信号成分のスペクトル表現の視覚ディスプレイを生成することができる。代替的にまたは付加的に、ディスプレイモジュール906は、適用される信号トリートメント310の全てを含む出力信号(Y)のスペクトルまたは時間領域表現を表示することができる。代替的にまたは付加的に、ディスプレイモジュール906は、信号品質解析器902から1つまたは複数の信号品質インジケータを受信することができる。ディスプレイモジュール906は、次に、入力信号(X)の品質の視覚表現を生成することができる。ディスプレイモジュール906はまた、入力信号(X)に適用される信号トリートメント310の全体レベルの視覚表現を生成することができる。ディスプレイモジュール906はまた、出力信号(Y)の品質の視覚表現を生成することができる。そのため、ディスプレイを観察するユーザは、入力信号(X)の品質、及び同様に、トリートメント信号が適用される程度またはレベルの視覚指示を提供される場合がある。
図10は、帯域幅強調の信号トリートメントがその中で指示される出力信号(Y)の例示的なディスプレイである。図10において、約12kHzのカットオフ周波数を超えると、入力信号(X)1002の一部分は、−120〜−150dBの範囲内にある入力信号(X)1002の部分によって示されるように、直前の符号化中に破棄されている。帯域幅伸長モジュール301は、欠落しているかまたは喪失したオーディオ信号の部分を識別し、同じ周波数範囲にわたって信号トリートメント1004を提供することができる。信号トリートメント1004は、入力信号(X)1002の未トリートメント部分に適用される可能性がある。したがって、ユーザは、ディスプレイを観察し、未トリートメント出力信号がどのように見えたであろうかという品質の指示だけでなく、信号エンハンサシステム110によって提供されるトリートメントのレベル及び程度の指示もまた提供される可能性がある。他の例において、他の形態のディスプレイが生成されて、適用される1つまたは複数のトリートメントのうちの任意のトリートメントを指示することができる。
図11a及び11bは、帯域幅伸長モジュール301の動作の例示的な結果を示す。図11aは、オーディオ信号が知覚的オーディオコーデックによって圧縮される前及び圧縮された後のオーディオ信号の短いブロックのスペクトル図(周波数領域)を示す。オリジナルの信号の曲線が示され、有意の信号エネルギーがナイキスト周波数まで継続することが見てわかる。圧縮済みオーディオ信号曲線は、この同じ信号であって、知覚的オーディオコーデックによって圧縮された後の、この同じ信号を示す。図11aにおいて、或るカットオフ周波数(Fx)を超えると、信号成分が破棄されており、残っているものが、単に低レベルノイズであることが見てわかる。
図11bは、圧縮済みオーディオ信号が帯域幅伸長モジュール301によって処理される前及び処理された後の圧縮済みオーディオ信号の短いブロックの例のスペクトル図を示す。ここで、圧縮済みオーディオ信号は、カットオフ周波数(Fx)を超える信号成分が破棄された状態で示される。同じ圧縮済みオーディオ信号であって、帯域幅伸長モジュール301によって処理された後の、同じ圧縮済みオーディオ信号の曲線が図11bに含まれる。新しい信号成分がカットオフ周波数(Fx)を超えて生成されたことが見てわかる。これらの新しい信号成分は、カットオフ(Fx)未満の信号成分の少なくとも一部に基づいて及び/またはそれを使用して生成された。
図12a及び12bは、過渡変化強調モジュール303の例示的な動作を示す。図12aは、過渡変化信号成分の時間領域図を示す。図12aの上側パネルはオリジナルの信号を示す。開始信号が、ほぼ無音であり、所定の期間にわたって減衰する鮮明な過渡変化信号がそれに続くことが見てわかる。図12aの下側パネルは、同様の過渡変化信号成分であって、知覚的オーディオコーデックによって圧縮された後の、同様の過渡変化信号成分を示す。過渡変化がもはや鮮明に規定されないことが見てわかる。更に、圧縮済みオーディオ信号は、ここでは、実際の過渡変化の前に到達するエネルギーを有する。これは、先に述べた、いわゆる「プリエコー(pre−echo)」の例である。
図12bは、例示的な過渡変化信号成分が過渡変化強調モジュール303によって処理される前及び処理された後の例示的な過渡変化信号成分の時間領域図を示す。図12bの上側パネルは、所定の期間にわたって多数の過渡変化を有する圧縮済みオーディオ信号を示す。過渡変化が信号内でそれほど顕著でないことが見てわかる。図12bの下側パネルは、同じ過渡変化信号であって、過渡変化強調モジュール303によって処理された後の、同じ過渡変化信号を示し、個々の過渡変化の冒頭は、ここでは、鮮明に規定され、容易に目に見える。
図13は、例示的なコンピューティングシステム1300である。コンピュータシステム1300は、命令のセットを含むことができ、命令のセットは、実行されて、コンピュータシステム1300に、述べる方法またはコンピュータベース機能の任意の1つまたは複数を実施させる可能性がある。コンピュータシステム1300は、独立型デバイスとして動作する場合がある、別のデバイスの一部である場合がある、または、ネットワーク等を使用して他のコンピュータシステムまたは周辺デバイスに接続される場合がある。
ネットワーク化配備において、コンピュータシステム1300は、サーバの能力内で、或は、サーバクライアントユーザネットワーク環境内のクライアントユーザコンピュータとして、ピア・トゥ・ピア(または分散)ネットワーク環境内のピアコンピュータシステムとして、または種々の他の方法で動作することができる。コンピュータシステム1300はまた、例えば、乗物内のテレマティクスシステム等の種々のデバイスとして実装されるまたは種々のデバイスに組込まれる可能性がある。他の例において、任意の他の機械であって、その機械がとる行動を指定する命令のセットを(シーケンシャルにまたはその他の方法で)実行することが可能な、任意の他の機械を使用することができる。コンピュータシステム1300は、音声、オーディオ、ビデオ、またはデータ通信を提供する電子デバイスを使用して実装することができる。単一コンピュータシステム1300が示されるが、用語「システム(system)」は、1つまたは複数のコンピュータ機能を実施するため、命令のセットまたは複数のセットを個々にまたは連携して実行するシステムまたはサブシステムの任意の集合体を含むことができる。
コンピュータシステム1300は、中央処理ユニット(CPU)等のプロセッサ1302、グラフィクス処理ユニット(GPU)、デジタル信号プロセッサ(DSP)、或は、異なるまたは同じプロセッサの何らかの組合せを含むことができる。プロセッサ1302は、種々のシステム内のコンポーネントであるとすることができる。例えば、プロセッサ1302は、乗物内のヘッドユニットまたは増幅器の一部であるとすることができる。プロセッサ1302は、1つまたは複数の汎用プロセッサ、デジタル信号プロセッサ、特定用途向け集積回路、フィールドプログラマブルゲートアレイ、デジタル回路、アナログ回路、その組合せ、或は、データを解析し処理するための現在知られているかまたは後で開発される他のデバイスであるとすることができる。プロセッサ1302は、手作業で生成されるかまたはプログラムされるコード等のソフトウェアプログラムを実装することができる。
プロセッサ1302は、システムの少なくとも一部分を動作させ制御することができる。用語「モジュール(module)」を、1つまたは複数の実行可能なモジュールを含むと定義することができる。モジュールは、プロセッサ1302等のプロセッサによって実行可能な、ソフトウェア、ハードウェア、ファームウェア、またはその何らかの組合せを含むことができる。ソフトウェアモジュールは、メモリ1304等のメモリまたは別のメモリデバイスに記憶された命令を含むことができ、その命令は、プロセッサ1302または他のプロセッサによって実行可能であるとすることができる。ハードウェアモジュールは、プロセッサ1302が実施するため、実行可能である、指令される、または制御される、種々のデバイス、コンポーネント、回路、ゲート、回路基板等を含むことができる。
コンピュータシステム1300は、バス1308を介して通信することができるメモリ1304等のメモリ1304を含むことができる。メモリ1304は、主メモリか、スタティックメモリか、またはダイナミックメモリであるとすることができる。メモリ1304は、種々の型の揮発性及び不揮発性記憶媒体等のコンピュータ可読記憶媒体を含むことができるが、それに限定されず、コンピュータ可読記憶媒体は、ランダムアクセスメモリ、読出し専用メモリ、プログラマブルな読出し専用メモリ、電気的にプログラマブルな読出し専用メモリ、電気的に消去可能な読出し専用メモリ、フラッシュメモリ、磁気テープまたはディスク、光媒体等を含むが、それに限定されない。一例において、メモリ1304は、プロセッサ1302用のキャッシュまたはランダムアクセスメモリを含む。代替の例において、メモリ1304は、プロセッサのキャッシュメモリ、システムメモリ、または他のメモリ等、プロセッサ1302と別個であるとすることができる。メモリ1304は、データを記憶するため外部記憶デバイスまたはデータベースを含むことができる。例は、ハードドライブ、コンパクトディスク(「CD」)、デジタルビデオディスク(「DVD」)、メモリカード、メモリスティック、フロッピー(登録商標)ディスク、ユニバーサルシリアルバス(「USB」)メモリデバイス、またはデータを記憶するように働く任意の他のデバイスを含む。
コンピュータシステム1300は、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)、フラットパネルディスプレイ、固体ディスプレイ、陰極線管(CRT)、プロジェクタ等のメモリ1304、或は、決定された情報を出力するための現在知られているかまたは後で開発される他のディスプレイデバイスを更に含む場合がある、または含まない場合がある。ディスプレイ1310は、ユーザがプロセッサ1302の機能を制御するためのインタフェースとして、または特にメモリ1304に記憶されるソフトウェアとのインタフェースとして働くことができる。
コンピュータシステム1300は、ユーザが、コンピュータシステムのコンポーネントのうちの任意のコンポーネントと相互作用することを可能にするよう構成される入力デバイス1312を含むことができる。入力デバイス1312は、音声コマンドを受信するマイクロフォン、キーパッド、キーボード、または、マウスまたはジョイスティック等のカーソル制御デバイス、タッチスクリーンディスプレイ、リモートコントロール、或は、コンピュータシステム1300と相互作用するように働く任意の他のデバイスであるとすることができる。システムのユーザは、例えば、システム及び/またはテレマティクスシステムによって考慮される基準または条件を入力することができる。
コンピュータシステム1300は、命令を含むコンピュータ可読媒体を含むことができ、または、ネットワーク1326に接続されたデバイスがネットワーク1326を通じて音声、ビデオ、オーディオ、画像、または任意の他のデータを通信できるように伝搬信号に応答して命令を受信し実行する。命令を、ネットワーク1326を通じて通信ポートまたはインタフェース1320を介して、或はバス1308を使用して送受信することができる。通信ポートまたはインタフェース1320は、プロセッサ1302の一部である場合がある、または、別個のコンポーネントである場合がある。通信ポート1320は、ソフトウェアで作成される場合がある、または、ハードウェアの物理的接続である場合がある。通信ポート1320は、ネットワーク1326、外部媒体、ディスプレイ1310、またはコンピュータシステム1300内の任意の他のコンポーネント、或は、その組合せと接続するように構成することができる。ネットワーク1326との接続は、有線イーサネット(登録商標)接続等の物理的接続である場合がある、または、無線で確立される場合がある。コンピュータシステム1300の他のコンポーネントとの更なる接続は、物理的接続である場合がある、または、無線で確立される場合がある。ネットワーク1326を、代替的に、バス1308に直接接続することができる。
ネットワーク1326は、有線ネットワーク、無線ネットワーク、イーサネット(登録商標)AVBネットワーク、またはその組合せを含むことができる。無線ネットワークは、携帯電話ネットワーク、802.11、802.16、802.20、802.1Q、またはWiMaxネットワークであるとすることができる。更に、ネットワーク1326は、インターネット等のパブリックネットワーク、イントラネット等のプライベートネットワーク、またはその組合せであるとすることができ、限定はしないが、TCP/IPベースネットワーク化プロトコルを含む現在利用可能であるかまたは後で開発される種々のネットワーク化プロトコルを利用することができる。システムの1つまたは複数のコンポーネントは、ネットワーク1326によってまたはネットワーク1326を通して互いに通信することができる。
例示的な実施形態が上述されたが、これらの実施形態が本発明の考えられる全ての形態を述べることが意図されない。むしろ、本明細書で使用される単語は、制限ではなく説明の単語であり、種々の変更を、本発明の精神及び範囲から逸脱することなく行うことができることが理解される。更に、種々の実装用の実施形態の特徴が組合されて、本発明の更なる実施形態を形成することができる。

Claims (31)

  1. 圧縮済みオーディオ信号のトリートメントためのシステムであって、
    プロセッサと、
    オーディオ信号をシーケンシャルサンプルのシリーズに分割するための前記プロセッサによって実行可能なサンプラモジュールと、
    前記オーディオ信号の冒頭の複数の前記シーケンシャルサンプルにまたがる前記オーディオ信号の一貫性のあるブリックウォール周波数を識別し、前記ブリックウォール周波数に比例する信号トリートメント指示を決定するための前記プロセッサによって実行可能な信号品質検出器モジュールと、
    前記プロセッサによって実行可能な信号エンハンサモジュールとを備え、前記信号エンハンサモジュールは、
    前記オーディオ信号の1つまたは複数のサンプル成分をシーケンシャルに受信し解析して、それぞれのシーケンシャルサンプルの前記1つまたは複数のサンプル成分内で前記オーディオ信号の喪失部分を識別し、
    前記信号品質指示に応じたレベルで、対応する識別済み喪失部分を有するそれぞれのシーケンシャルサンプルの前記1つまたは複数のサンプル成分のそれぞれについて対応する信号トリートメントを前記オーディオ信号に適用する
    ためのものである、システム。
  2. 前記シーケンシャルサンプルのシリーズは、高速フーリエ変換を使用して決定される周波数領域内のシーケンシャルビンを含み、前記信号品質検出器モジュールは、前記シーケンシャルビンのうちの1つのビンを前記ブリックウォール周波数を含む候補ビンとして識別することによって、前記一貫性のあるブリックウォール周波数を識別するように更に実行可能である、請求項1に記載のシステム。
  3. 前記一貫性のあるブリックウォール周波数を識別することは、
    スペクトルエネルギーが前記ブリックウォール周波数未満に存在するという確認、
    所定の閾値を超える前記ブリックウォール周波数の高さが次に高い周波数のシーケンシャルビンの高さを超えるという確認、及び、
    所定の閾値を超える前記ブリックウォール周波数のカットオフの急峻度が前記次に高い周波数のシーケンシャルビンのカットオフの急峻度を超えるという確認
    のうちの1つまたは複数を更に含む、請求項2に記載のシステム。
  4. 前記信号トリートメント指示は、
    (i)前記ブリックウォール周波数が最小周波数閾値を超えないとき信号トリートメントなし、
    (ii)前記ブリックウォール周波数が最大周波数閾値を超えるとき信号トリートメントなし、及び、
    (iii)前記ブリックウォール周波数が前記最小周波数閾値と前記最大周波数閾値との間にあるとき、前記ブリックウォール周波数が増加するにつれて、信号トリートメントのレベルが減少すること
    のうちの1つにセットされる、請求項1に記載のシステム。
  5. 前記信号品質検出器モジュールは、
    前記オーディオ信号の前記一貫性のあるブリックウォール周波数を検出する前に信号トリートメントを適用しないよう、前記信号トリートメント指示をセットし、
    前記オーディオ信号の前記一貫性のあるブリックウォール周波数を示す連続する予め規定された数のサンプルを識別すると前記オーディオ信号に前記処理を適用するよう、前記信号トリートメント指示をラッチする
    ように更に実行可能である、請求項1に記載のシステム。
  6. 前記連続する予め規定された数のサンプルは20である、請求項5に記載のシステム。
  7. 前記連続する予め規定された数のサンプルは、前記オーディオ信号の約1秒の1/10と1秒の1/2との間の期間を表す、請求項5に記載のシステム。
  8. 前記信号品質検出器モジュールは、
    前記オーディオ信号の冒頭の検出に応答して自動タイマをリセットし、
    前記複数の前記シーケンシャルサンプルを評価して、前記自動タイマが満了するまで前記オーディオ信号の前記一貫性のあるブリックウォール周波数を識別し、
    前記自動タイマが満了すると、前記複数の前記シーケンシャルサンプルの評価を中止する
    ように更に実行可能である、請求項1に記載のシステム。
  9. 前記信号品質検出器モジュールは、所定の期間の間、所定の閾値未満であるオーディオ信号強度の期間を識別すると、前記品質指示をリセットするように更に実行可能である、請求項1に記載のシステム。
  10. 前記サンプル成分は周波数成分であり、前記対応する信号トリートメントは、カットオフ周波数閾値を超える欠落周波数成分を有するサンプル成分に適用される周波数成分である、
    前記サンプル成分は過渡変化成分であり、前記対応する信号トリートメントは、前記オーディオ信号に存在する既存の過渡変化の冒頭を強調するため、欠落過渡変化を有するサンプル成分に適用される過渡成分である、
    前記サンプル成分は残響成分であり、前記対応する信号トリートメントは、前記オーディオ信号の減衰レートを低減するため、欠落残響を有するサンプル成分に適用される
    のうちの1つまたは複数を含む、請求項1に記載のシステム。
  11. 前記対応する信号トリートメントは、帯域幅伸長トリートメント、過渡変化強調トリートメント、及び残響フィルトリートメントを含む複数の信号トリートメントである、請求項1に記載のシステム。
  12. 前記信号エンハンサモジュールは複数の信号エンハンサモジュールを含み、前記信号エンハンザモジュールのそれぞれは、前記プロセッサによって実行されて、少なくとも1つの信号トリートメントを付加するようリスナー認識サウンドステージの空間的スライスに独立して作用し、前記リスナー認識サウンドステージは前記オーディオ信号の再生中にリスナーによって認識される、請求項1に記載のシステム。
  13. 前記信号エンハンサモジュールは、複数の対応する信号トリートメントを生成するように構成され、前記対応する信号トリートメントは前記オーディオ信号に付加される、請求項1に記載のシステム。
  14. 圧縮済みオーディオ信号をトリートメントするためプロセッサによって実行可能なコンピュータ可読命令を記憶するコンピュータ可読記憶媒体であって、
    オーディオ信号のシーケンシャルサンプルのシーケンスを生成するための前記プロセッサによって実行可能な命令と、
    前記オーディオ信号の冒頭の複数の前記シーケンシャルサンプルにまたがる前記オーディオ信号の一貫性のあるブリックウォール周波数を識別し、前記ブリックウォール周波数に比例する信号トリートメント指示を決定するための前記プロセッサによって実行可能な命令と、
    前記オーディオ信号の1つまたは複数のサンプル成分をシーケンシャルに受信し解析して、それぞれのシーケンシャルサンプルの前記1つまたは複数のサンプル成分内で前記オーディオ信号の喪失部分を識別するための前記プロセッサによって実行可能な命令と、
    前記信号品質指示に応じたレベルで、対応する識別済み喪失部分を有するそれぞれのシーケンシャルサンプルの前記1つまたは複数のサンプル成分のそれぞれについて対応する信号トリートメントを前記オーディオ信号に適用するための前記プロセッサによって実行可能な命令とを含む、コンピュータ可読記憶媒体。
  15. シーケンシャルサンプルの前記シーケンスは、高速フーリエ変換を使用して決定される周波数領域内のシーケンシャルビンを含み、前記プロセッサによって実行可能な前記命令は、前記シーケンシャルビンのうちの1つのビンを、前記ブリックウォール周波数を含む候補ビンとして識別することによって、前記一貫性のあるブリックウォール周波数を識別するための命令を更に含む、請求項14に記載のコンピュータ可読記憶媒体。
  16. 前記一貫性のあるブリックウォール周波数を識別するための前記プロセッサによって実行可能な前記命令は、
    スペクトルエネルギーが前記ブリックウォール周波数未満に存在することを確認するための前記プロセッサによって実行可能な命令、
    所定の閾値を超える前記ブリックウォール周波数の高さが次に高い周波数のシーケンシャルビンの高さを超えることを確認するための前記プロセッサによって実行可能な命令、及び、
    所定の閾値を超える前記ブリックウォール周波数のカットオフの急峻度が前記次に高い周波数のシーケンシャルビンのカットオフの急峻度を超えることを確認するための前記プロセッサによって実行可能な命令
    のうちの1つまたは複数を更に含む、請求項14に記載のコンピュータ可読記憶媒体。
  17. 前記信号トリートメント指示は、
    (i)前記ブリックウォール周波数が最小周波数閾値を超えないとき信号トリートメントなし、
    (ii)前記ブリックウォール周波数が最大周波数閾値を超えるとき信号トリートメントなし、及び、
    (iii)前記ブリックウォール周波数が前記最小周波数閾値と前記最大周波数閾値との間にあるとき、前記ブリックウォール周波数が増加するにつれて、信号トリートメントのレベルが減少すること
    のうちの1つにセットされる、請求項14に記載のコンピュータ可読記憶媒体。
  18. 前記プロセッサによって実行可能な前記命令は、
    前記オーディオ信号の前記一貫性のあるブリックウォール周波数を検出する前に信号トリートメントを適用しないよう、前記信号トリートメント指示をセットするための前記プロセッサによって実行可能な命令、及び、
    前記オーディオ信号の前記一貫性のあるブリックウォール周波数を示す連続する予め規定された数のサンプルを識別すると前記オーディオ信号に前記トリートメントを適用するよう、前記信号トリートメント指示をラッチするための前記プロセッサによって実行可能な命令
    を更に含む、請求項14に記載のコンピュータ可読記憶媒体。
  19. 前記連続する予め規定された数のサンプルは、(i)20の連続するサンプル及び(ii)前記オーディオ信号の約1秒の1/10と1秒の1/2との間の期間を示す幾つかの連続するサンプルの一方または両方である、請求項18に記載のコンピュータ可読記憶媒体。
  20. 前記プロセッサによって実行可能な前記命令は、
    前記オーディオ信号の冒頭の検出に応答して自動タイマをリセットするための前記プロセッサによって実行可能な命令、
    前記複数の前記シーケンシャルサンプルを評価して、前記自動タイマが満了するまで前記オーディオ信号の前記一貫性のあるブリックウォール周波数を識別するための前記プロセッサによって実行可能な命令、及び、
    前記自動タイマが満了すると、前記複数の前記シーケンシャルサンプルの評価を中止するための前記プロセッサによって実行可能な命令
    を更に含む、請求項14に記載のコンピュータ可読記憶媒体。
  21. 前記プロセッサによって実行可能な前記命令は、所定の期間の間、所定の閾値未満であるオーディオ信号強度の期間を識別すると、前記品質指示をリセットするための命令を更に含む、請求項14に記載のコンピュータ可読記憶媒体。
  22. 前記サンプル成分は周波数成分であり、前記対応する信号トリートメントは、カットオフ周波数閾値を超える欠落周波数成分を有するサンプル成分に適用される周波数成分である、
    前記サンプル成分は過渡成分であり、前記対応する信号トリートメントは、前記オーディオ信号に存在する既存の過渡変化の冒頭を強調するため、欠落過渡変化を有するサンプル成分に適用される過渡成分である、
    前記サンプル成分は残響成分であり、前記対応する信号トリートメントは、前記オーディオ信号の減衰レートを低減するため、欠落残響を有するサンプル成分に適用される
    のうちの1つまたは複数を含む、請求項14に記載のコンピュータ可読記憶媒体。
  23. 圧縮済みオーディオ信号を処理する方法であって、
    プロセッサを使用してオーディオ信号をシーケンシャルサンプルに分離すること、
    前記プロセッサを使用して、前記オーディオ信号の冒頭の複数の前記シーケンシャルサンプルにまたがる前記オーディオ信号の一貫性のあるブリックウォール周波数を識別し、前記ブリックウォール周波数に比例する信号トリートメント指示を決定すること、
    前記プロセッサを使用して、前記オーディオ信号の1つまたは複数のサンプル成分をシーケンシャルに解析することであって、それにより、それぞれのシーケンシャルサンプルの前記1つまたは複数のサンプル成分内で前記オーディオ信号の喪失部分を識別する、シーケンシャルに解析すること、及び、
    前記信号品質指示に応じたレベルで、対応する識別済み喪失部分を有するそれぞれのシーケンシャルサンプルの前記1つまたは複数のサンプル成分のそれぞれについて対応する信号トリートメントを、前記プロセッサを使用して前記オーディオ信号に適用すること
    を含む、方法。
  24. 前記シーケンシャルサンプルは、高速フーリエ変換を使用して決定される周波数領域内のシーケンシャルビンを含み、前記一貫性のあるブリックウォール周波数を識別することは、前記シーケンシャルビンのうちの1つのビンを前記ブリックウォール周波数を含む候補ビンとして識別することを含む、請求項23に記載の方法。
  25. スペクトルエネルギーが前記ブリックウォール周波数未満に存在することを確認すること、
    所定の閾値を超える前記ブリックウォール周波数の高さが次に高い周波数のシーケンシャルビンの高さを超えることを確認すること、及び、
    所定の閾値を超える前記ブリックウォール周波数のカットオフの急峻度が前記次に高い周波数のシーケンシャルビンのカットオフの急峻度を超えることを確認すること
    のうちの1つまたは複数を更に含む、請求項23に記載の方法。
  26. 前記信号トリートメント指示は、
    (i)前記ブリックウォール周波数が最小周波数閾値を超えないとき信号トリートメントなし、
    (ii)前記ブリックウォール周波数が最大周波数閾値を超えるとき信号トリートメントなし、及び、
    (iii)前記ブリックウォール周波数が前記最小周波数閾値と前記最大周波数閾値との間にあるとき、前記ブリックウォール周波数が増加するにつれて、信号トリートメントのレベルが減少すること
    のうちの1つにセットされる、請求項23に記載の方法。
  27. 前記オーディオ信号の前記一貫性のあるブリックウォール周波数を検出する前に信号トリートメントを適用しないよう、前記信号トリートメント指示をセットすること、
    前記オーディオ信号の前記一貫性のあるブリックウォール周波数を示す連続する予め規定された数のサンプルを識別すると前記オーディオ信号に前記トリートメントを適用するよう、前記信号トリートメント指示をラッチすること
    を更に含む、請求項23に記載の方法。
  28. 前記連続する予め規定された数のサンプルは、(i)20の連続するサンプル及び(ii)前記オーディオ信号の約1秒の1/10と1秒の1/2との間の期間を示す幾つかの(a number of)連続するサンプルの一方または両方である、請求項27に記載の方法。
  29. 前記オーディオ信号の冒頭の検出に応答して自動タイマをリセットすること、
    前記複数の前記シーケンシャルサンプルを評価することであって、それにより、前記自動タイマが満了するまで前記オーディオ信号の前記一貫性のあるブリックウォール周波数を識別する、評価すること、及び、
    前記自動タイマが満了すると、前記複数の前記シーケンシャルサンプルの評価を中止すること
    を更に含む、請求項23に記載の方法。
  30. 所定の期間の間、所定の閾値未満であるオーディオ信号強度の期間を識別すると、前記品質指示をリセットすることを更に含む、請求23に記載の方法。
  31. 前記サンプル成分は周波数成分であり、前記対応する信号トリートメントは、カットオフ周波数閾値を超える欠落周波数成分を有するサンプル成分に適用される周波数成分である、
    前記サンプル成分は過渡成分であり、前記対応する信号トリートメントは、前記オーディオ信号に存在する既存の過渡変化の冒頭を強調するため、欠落過渡変化を有するサンプル成分に適用される過渡成分である、
    前記サンプル成分は残響成分であり、前記対応する信号トリートメントは、前記オーディオ信号の減衰レートを低減するため、欠落残響を有するサンプル成分に適用される
    のうちの1つまたは複数を含む、請求23に記載の方法。
JP2016544538A 2014-01-07 2015-01-06 圧縮済みオーディオ信号の信号品質ベース強調及び補償 Active JP6576934B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461924641P 2014-01-07 2014-01-07
US61/924,641 2014-01-07
PCT/US2015/010266 WO2015105775A1 (en) 2014-01-07 2015-01-06 Signal quality-based enhancement and compensation of compressed audio signals

Publications (2)

Publication Number Publication Date
JP2017507348A true JP2017507348A (ja) 2017-03-16
JP6576934B2 JP6576934B2 (ja) 2019-09-18

Family

ID=53524279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016544538A Active JP6576934B2 (ja) 2014-01-07 2015-01-06 圧縮済みオーディオ信号の信号品質ベース強調及び補償

Country Status (7)

Country Link
US (1) US10192564B2 (ja)
EP (1) EP3092640B1 (ja)
JP (1) JP6576934B2 (ja)
KR (1) KR102340151B1 (ja)
CN (1) CN105900170B (ja)
BR (1) BR112016015695B1 (ja)
WO (1) WO2015105775A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110832582A (zh) * 2017-03-31 2020-02-21 弗劳恩霍夫应用研究促进协会 用于处理音频信号的装置和方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9736588B2 (en) * 2015-07-23 2017-08-15 Automotive Data Solutions, Inc. Digital signal router for vehicle replacement sound system
EP3182406B1 (en) * 2015-12-16 2020-04-01 Harman Becker Automotive Systems GmbH Sound reproduction with active noise control in a helmet
CN108604454B (zh) * 2016-03-16 2020-12-15 华为技术有限公司 音频信号处理装置和输入音频信号处理方法
CA3018039C (en) * 2016-03-24 2023-08-29 Harman International Industries, Incorporated Signal quality-based enhancement and compensation of compressed audio signals
CN107644649B (zh) * 2017-09-13 2022-06-03 黄河科技学院 一种信号处理方法
CN107863095A (zh) 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
CN108156575B (zh) 2017-12-26 2019-09-27 广州酷狗计算机科技有限公司 音频信号的处理方法、装置及终端
CN108156561B (zh) 2017-12-26 2020-08-04 广州酷狗计算机科技有限公司 音频信号的处理方法、装置及终端
CN109036457B (zh) * 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
US11935552B2 (en) 2019-01-23 2024-03-19 Sony Group Corporation Electronic device, method and computer program
US11133017B2 (en) * 2019-06-07 2021-09-28 Harman Becker Automotive Systems Gmbh Enhancing artificial reverberation in a noisy environment via noise-dependent compression
CN110211610A (zh) * 2019-06-20 2019-09-06 平安科技(深圳)有限公司 评估音频信号损失的方法、装置及存储介质
EP4131257A4 (en) * 2020-04-01 2023-08-30 Sony Group Corporation SIGNAL PROCESSING DEVICE AND METHOD AND PROGRAM
US11264017B2 (en) * 2020-06-12 2022-03-01 Synaptics Incorporated Robust speaker localization in presence of strong noise interference systems and methods
CN115184016A (zh) * 2022-09-06 2022-10-14 江苏东控自动化科技有限公司 一种升降机轴承故障检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005114890A (ja) * 2003-10-06 2005-04-28 Alpine Electronics Inc オーディオ信号圧縮装置
JP2007192964A (ja) * 2006-01-18 2007-08-02 Yamaha Corp オーディオ信号の帯域拡張装置
JP2007271686A (ja) * 2006-03-30 2007-10-18 Yamaha Corp オーディオ信号処理装置
JP2008537174A (ja) * 2005-04-20 2008-09-11 キューエヌエックス ソフトウェア システムズ (ウェイブメイカーズ), インコーポレイテッド 音声の品質および了解度を改善するためのシステム
WO2009054228A1 (ja) * 2007-10-26 2009-04-30 D & M Holdings Inc. オーディオ信号補間装置及びオーディオ信号補間方法
WO2009054393A1 (ja) * 2007-10-23 2009-04-30 Clarion Co., Ltd. 高域補間装置および高域補間方法
JP2010085876A (ja) * 2008-10-02 2010-04-15 Clarion Co Ltd 高域補完装置
JP2011186187A (ja) * 2010-03-09 2011-09-22 Jvc Kenwood Holdings Inc 音声処理装置、音声処理方法および音声処理プログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5410632A (en) * 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
DE10225146A1 (de) * 2002-06-06 2003-12-18 Bosch Gmbh Robert Verfahren zum Einstellen von Filterparametern und zugeordnetes Wiedergabesystem
AU2004248544B2 (en) * 2003-05-28 2010-02-18 Dolby Laboratories Licensing Corporation Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
WO2006006809A1 (en) * 2004-07-09 2006-01-19 Electronics And Telecommunications Research Institute Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information
US9014377B2 (en) 2006-05-17 2015-04-21 Creative Technology Ltd Multichannel surround format conversion and generalized upmix
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
DE102008015702B4 (de) * 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
PL4224475T3 (pl) * 2008-12-15 2024-03-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder powiększania szerokości pasma audio, powiązany sposób oraz program komputerowy
CN102687536B (zh) * 2009-10-05 2017-03-08 哈曼国际工业有限公司 用于音频信号的空间提取的系统
WO2012094827A1 (en) * 2011-01-14 2012-07-19 Huawei Technologies Co., Ltd. A method and an apparatus for voice quality enhancement
WO2013066244A1 (en) * 2011-11-03 2013-05-10 Telefonaktiebolaget L M Ericsson (Publ) Bandwidth extension of audio signals
PL2831875T3 (pl) * 2012-03-29 2016-05-31 Ericsson Telefon Ab L M Rozszerzenie pasma harmonicznego sygnału audio
WO2013189030A1 (zh) * 2012-06-19 2013-12-27 深圳广晟信源技术有限公司 对单声道或立体声进行编码的方法
US9135920B2 (en) * 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
US9258428B2 (en) * 2012-12-18 2016-02-09 Cisco Technology, Inc. Audio bandwidth extension for conferencing
CN103107863B (zh) * 2013-01-22 2016-01-20 深圳广晟信源技术有限公司 一种分段平均码率的数字音频信源编码方法及装置
BR112015031605B1 (pt) * 2013-06-21 2022-03-29 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de áudio tendo um módulo de extensão de largura de banda com um módulo de ajuste de energia

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005114890A (ja) * 2003-10-06 2005-04-28 Alpine Electronics Inc オーディオ信号圧縮装置
JP2008537174A (ja) * 2005-04-20 2008-09-11 キューエヌエックス ソフトウェア システムズ (ウェイブメイカーズ), インコーポレイテッド 音声の品質および了解度を改善するためのシステム
JP2007192964A (ja) * 2006-01-18 2007-08-02 Yamaha Corp オーディオ信号の帯域拡張装置
JP2007271686A (ja) * 2006-03-30 2007-10-18 Yamaha Corp オーディオ信号処理装置
WO2009054393A1 (ja) * 2007-10-23 2009-04-30 Clarion Co., Ltd. 高域補間装置および高域補間方法
WO2009054228A1 (ja) * 2007-10-26 2009-04-30 D & M Holdings Inc. オーディオ信号補間装置及びオーディオ信号補間方法
JP2010085876A (ja) * 2008-10-02 2010-04-15 Clarion Co Ltd 高域補完装置
JP2011186187A (ja) * 2010-03-09 2011-09-22 Jvc Kenwood Holdings Inc 音声処理装置、音声処理方法および音声処理プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110832582A (zh) * 2017-03-31 2020-02-21 弗劳恩霍夫应用研究促进协会 用于处理音频信号的装置和方法
JP2020512591A (ja) * 2017-03-31 2020-04-23 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響信号を処理するための装置および方法
JP2020512594A (ja) * 2017-03-31 2020-04-23 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響信号のスペクトル強調処理に関する所定の特性を決定するための装置および方法
JP2020512593A (ja) * 2017-03-31 2020-04-23 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための装置および方法
US11170794B2 (en) 2017-03-31 2021-11-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
JP7059301B2 (ja) 2017-03-31 2022-04-25 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための装置および方法
JP2022097514A (ja) * 2017-03-31 2022-06-30 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための装置および方法
CN110832582B (zh) * 2017-03-31 2023-10-24 弗劳恩霍夫应用研究促进协会 用于处理音频信号的装置和方法
JP7455890B2 (ja) 2017-03-31 2024-03-26 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響信号を処理する装置および方法

Also Published As

Publication number Publication date
EP3092640A1 (en) 2016-11-16
CN105900170B (zh) 2020-03-10
EP3092640B1 (en) 2018-06-27
CN105900170A (zh) 2016-08-24
BR112016015695B1 (pt) 2022-11-16
EP3092640A4 (en) 2017-07-05
KR102340151B1 (ko) 2021-12-17
KR20160106586A (ko) 2016-09-12
US20160329061A1 (en) 2016-11-10
US10192564B2 (en) 2019-01-29
WO2015105775A1 (en) 2015-07-16
JP6576934B2 (ja) 2019-09-18
BR112016015695A2 (ja) 2017-08-08

Similar Documents

Publication Publication Date Title
JP6576934B2 (ja) 圧縮済みオーディオ信号の信号品質ベース強調及び補償
US10311880B2 (en) System for perceived enhancement and restoration of compressed audio signals
US8750538B2 (en) Method for enhancing audio signals
JP2024020311A (ja) 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
JP2019097219A (ja) ダウンミックスされたオーディオ・コンテンツについてのラウドネス調整
TW201215177A (en) Method and system for scaling ducking of speech-relevant channels in multi-channel audio
JP2015531084A5 (ja)
US20120137189A1 (en) Error concealment for sub-band coded audio signals
Tsilfidis et al. Blind single-channel suppression of late reverberation based on perceptual reverberation modeling
JP2011508897A (ja) 音声コーデックの品質向上装置およびその方法
US10741196B2 (en) Signal quality-based enhancement and compensation of compressed audio signals
EP2828853A1 (en) Method and system for bias corrected speech level determination
JP2013057825A (ja) 電子透かし検出装置及び電子透かし検出方法
EP4387271A1 (en) Systems and methods for assessing hearing health based on perceptual processing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190821

R150 Certificate of patent or registration of utility model

Ref document number: 6576934

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250