JP2016502139A - 圧縮されたオーディオ信号を修復するシステム、コンピュータ可読記憶媒体、および方法 - Google Patents

圧縮されたオーディオ信号を修復するシステム、コンピュータ可読記憶媒体、および方法 Download PDF

Info

Publication number
JP2016502139A
JP2016502139A JP2015544075A JP2015544075A JP2016502139A JP 2016502139 A JP2016502139 A JP 2016502139A JP 2015544075 A JP2015544075 A JP 2015544075A JP 2015544075 A JP2015544075 A JP 2015544075A JP 2016502139 A JP2016502139 A JP 2016502139A
Authority
JP
Japan
Prior art keywords
signal
audio signal
sample
component
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015544075A
Other languages
English (en)
Other versions
JP6212567B2 (ja
Inventor
ギルバート アーサー ジョセフ ソルドル,
ギルバート アーサー ジョセフ ソルドル,
Original Assignee
ハーマン インターナショナル インダストリーズ インコーポレイテッド
ハーマン インターナショナル インダストリーズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ハーマン インターナショナル インダストリーズ インコーポレイテッド, ハーマン インターナショナル インダストリーズ インコーポレイテッド filed Critical ハーマン インターナショナル インダストリーズ インコーポレイテッド
Publication of JP2016502139A publication Critical patent/JP2016502139A/ja
Application granted granted Critical
Publication of JP6212567B2 publication Critical patent/JP6212567B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control

Abstract

圧縮されたオーディオの処理システムは、1つまたは複数の信号処理を生成するよう構成された信号エンハンサモジュールを有する。1つまたは複数の信号処理を、入ってくるオーディオ信号の分析に基づき、信号エンハンサモジュールにより生成してもよい。代わりにまたは加えて、入ってくるオーディオ信号の特性を、1つまたは複数の信号処理の生成で使用するため信号エンハンサモジュールに提供してもよい。1つまたは複数の信号処理を、オーディオ信号に追加してもよい。【選択図】図3

Description

(関連出願の相互参照)
本出願は、2012年11月26日出願の米国仮出願第61/730,053号の受益を主張し、および2013年3月15日出願の米国出願第13/842,479号の優先権を主張し、それらの開示はこれによって全体が参照により組み込まれる。
(分野)
本発明は、オーディオ信号処理に関し、とりわけオーディオ信号の増強および修復に関する。
圧縮されたオーディオ信号は、知覚オーディオコーデックによるある形態のデータ圧縮を経た信号である。知覚オーディオコーデックは、可聴度が低い、または知覚的に重要性が低い知覚されるオーディオ信号の成分を廃棄することにより、オーディオ信号の格納、転送または送信に使用されるデータ量を減少する。データ圧縮プロセスは、原型の(圧縮されない)オーディオ信号と圧縮されたオーディオ信号の間に、しばしば望ましくない聴覚的な違いをもたらす。異なる知覚オーディオコーデックは、原型のオーディオ信号の廃棄する部分に対して異なる方法を採用しうるが、知覚される特性の聴覚的な違いは概して同様である。
圧縮されたオーディオ信号の知覚される増強および修復のシステムは信号エンハンサシステムを含み、信号エンハンサシステムは、圧縮プロセスで廃棄または変更されたかもしれない信号成分および特性が処理された出力信号内で増強または修復されて知覚されるように、圧縮されたオーディオ信号を変更する。信号エンハンサのいくつかの態様は、以下を含む。それは、圧縮されたオーディオ信号の帯域幅を拡張しうる。それは、なくなったまたは失われた帯域内信号調波を修復しうる。それは、トランジェントを増強しうる。それは、ドライな信号成分を修復しうる。それは、残響信号成分を修復しうる。それは、被マスク信号を修復しうる。そしてそれは、調波信号成分を位相整列しうる。さらに、信号エンハンサは、ステレオまたはマルチチャネルオーディオ信号に由来する個々の空間スライスに作動してもよい。信号エンハンサは、ステレオ信号のミッドサイド成分に作動してもよい。
後述の図および詳細な記載を検討すると、他のシステム、方法、機能および利点が当業者に明らかであり、または明らかになる。全てのそのような付加的なシステム、方法、機能および利点はこの記載内に含まれ、本発明の範囲内にあり、および後述の請求項により保護されることが意図される。
システムは、後述の図および記載を参照して、よりよく理解されうる。図内の構成要素は必ずしも縮尺通りではなく、本発明の原理を説明するに際し配置よりも強調されている。さらに、図内で、同様の参照番号は別の図を通して対応する部分を指す。
知覚オーディオエンコーダおよびデコーダと併せて使用される信号エンハンサシステムの例を有するブロック図である。 信号エンハンサシステム内に組み込まれた知覚オーディオデコーダの例を有するブロック図である。 信号エンハンサシステムの例のブロック図である。 ステレオ信号のミッドサイド部分に作動する信号エンハンサシステムの例のブロック図である。 オーディオ信号の個々の空間スライスに作動する分離した信号エンハンサモジュールの例のブロック図である。 ブロックベースの分解表現のインパルス応答の例の成分を示す。 図3で示される残響補充モジュールのブロック図の例である。 与えられた周波数の入力残響の一連のサンプルの成分の推定値の例である。 信号品質分析手段、処理レベル調整手段、および表示モジュールのブロック図の例である。 帯域幅増強信号処理をともなった出力信号の表示の例である。 図11aおよび11bは、信号エンハンサシステムによる圧縮を示すスペクトル図(周波数領域)の例を示す。 図12aおよび12b信号エンハンサシステムによるトランジェント増強を示すスペクトル図の例を示す。 計算システムの例である。
圧縮されたオーディオ信号は、知覚オーディオコーデックによるようなある形態のデータ圧縮を経たオーディオコンテンツを含む信号である。知覚オーディオコーデックの一般的なタイプは、MP3、AAC、ドルビーデジタルおよびDTSを含む。これらの知覚オーディオコーデックは、オーディオ信号のかなりの部分を廃棄することにより、オーディオ信号のサイズを減少する。知覚オーディオコーデックは、オーディオ信号を格納するのに必要とされるスペース(メモリ)の量を減少するのに、またはオーディオ信号を送信または転送するのに必要とされる帯域幅の量を減少するのに使用可能である。オーディオ信号を90%以上圧縮するのは、まれではない。知覚オーディオコーデックは、人間の聴覚系が音を知覚する方法モデルを採用可能である。このようにして、知覚オーディオコーデックは、聞き取れないかまたは聴取者の音の知覚にわずかに関連するかのどちらかと思われるオーディオ信号のそれらの部分を廃棄可能である。結果として、知覚オーディオコーデックは、オーディオ信号のサイズを減少しながら、残りの信号で比較的良好な知覚されるオーディオ品質をなお保持することが可能である。一般に、圧縮されたオーディオ信号の知覚される品質は、圧縮された信号のビットレートによって決まりうる。低いビットレートは原型のオーディオ信号のより多くの部分が廃棄されたことを示しえて、従って、一般に圧縮されたオーディオ信号の知覚される品質はより低下しうる。
多くのタイプの知覚オーディオコーデックが存在し、それぞれのタイプは、圧縮プロセスで原型のオーディオ信号のどの部分を廃棄するかの判断に、異なる基準セットを使用可能である。知覚オーディオコーデックは、符号化および復号プロセスを有することが可能である。エンコーダは、原型のオーディオ信号を受信し、信号のどの部分を廃棄するかを判断可能である。それからエンコーダは、残りの信号を圧縮された記憶および/または送信に適切なフォーマットにおくことが可能である。デコーダは、圧縮されたオーディオ信号を受信し、それを復号することが可能で、およびそれから復号されたオーディオ信号をオーディオ再生に適切なフォーマットに変換可能である。ほとんどの知覚オーディオコーデックにおいて、知覚モデルの使用を含みうる符号化プロセスは、圧縮されたオーディオ信号フォーマットの結果として生じる品質を決定しうる。これらのケースで、デコーダは、信号を圧縮されたフォーマット(通常ある形態の周波数領域の表現)からオーディオ再生に適切なフォーマットに変換するフォーマット変換手段として機能可能である。
圧縮プロセスで廃棄または変更された信号成分および特性が処理された出力信号で修復されたように知覚されるように、信号エンハンサシステムは、知覚オーディオコーデックにより処理された圧縮されたオーディオ信号を変更可能である。本明細書で使用するオーディオ信号という用語は、別に記載する場合を除いて、オーディオコンテンツの電気信号表現、または可聴音のどちらかを指しうる。
オーディオ信号が知覚オーディオコーデックを用いて圧縮されるとき、廃棄された信号成分を取り戻すことは不可能である。しかし信号エンハンサシステムは、圧縮されたオーディオ信号内の残りの信号成分を分析し、知覚的に廃棄された成分を置き換える新しい信号成分を生成することが可能である。
図1は、信号エンハンサシステム110の例を含むブロック図である。信号エンハンサシステム110は、周波数領域または時間領域で作動可能である。信号エンハンサシステム110は、サンプラモジュール112を有してもよい。サンプラモジュール112は、リアルタイムで入力信号(X)を受信し、入力信号(X)をサンプルに分割してもよい。周波数領域での動作の間、サンプラモジュール112は、シーケンシャル時間領域サンプルを収集してもよく、(ルートハン窓のような)適切な窓関数が適用され、窓をされたサンプルが、FFT(高速フーリエ変換)の使用のような周波数領域の連続したビンに変換される。同様に、信号エンハンサシステム110の最終ステップとして、増強された周波数領域のビンを、サンプラモジュール112により逆FFT(逆高速フーリエ変換)を用いて時間領域に変換可能であり、増強された時間領域サンプルのブロックを生成するため(ルートハン窓のような)適切な補足する窓が適用される。少なくとも50%のような予め定められた量の重複を、時間領域サンプルを周波数領域に変換する前に、それらを追加および窓適用を実行するよう使用可能である。信号エンハンサシステム110の出力ライン105上の出力で、周波数領域から時間領域への変換に続き増強された時間領域サンプルを構成するとき、同様の少なくとも50%のような予め定められた量の重複を使用可能である。代わりに信号エンハンサシステム110は、時間領域サンプルのシーケンシャルブロックを用いて時間領域で作動可能であり、変換手段をサンプラモジュール112から除去してもよい。説明と図を単純にするため、サンプラモジュール112、ならびに時間から周波数へおよび周波数から時間への変換のさらなる説明および例示は省略する。よって、本明細書に記載するシーケンシャルサンプルまたはサンプルのシーケンスは、時間領域サンプルの時系列シーケンス、またはサンプラモジュール112によりサンプル化された入力信号(X)の時系列受信に対応する周波数領域のビンの時系列シーケンスを同義で指しうる。
図1で、信号エンハンサ110は、知覚オーディオエンコーダ101および知覚オーディオデコーダ103と併せて使用されるように示される。原型のオーディオ信号(Z)を、オーディオ信号入力ライン100上で知覚オーディオエンコーダ101へ提供することが可能である。知覚オーディオエンコーダ101は、オーディオ信号成分を廃棄して、圧縮ビットストリームライン102上に圧縮されたオーディオビットストリーム(Q)を生成してもよい。知覚オーディオデコーダ103は、圧縮されたオーディオビットストリーム(Q)を復号して入力信号ライン104上に入力信号(X)を生成してもよい。入力信号(X)は、オーディオ再生に適切なフォーマットのオーディオ信号であってもよい。入力信号(X)を増強して出力信号ライン105上に出力信号(Y)を生成するため、信号エンハンサシステム110は、入力信号(X)をサンプルのシーケンスに分割するよう作動してもよい。サイドチェーンデータは、使用されたオーディオコーデックのタイプ、コーデック製造者、ビットレート、ステレオ対ジョイントステレオの符号化、サンプリングレート、固有の入力チャネルの数、コード化ブロックサイズ、およびソング/トラック識別子の指標のような入力信号(X)の処理に関連する情報を含んでもよい。他の例では、オーディオ信号(X)または符号化/復号プロセスに関連するあらゆる他の情報を、サイドチェーンデータの一部として含んでもよい。サイドチェーンデータを、知覚オーディオデコーダ103からサイドチェーンデータライン106上で信号エンハンサシステム110へ提供してもよい。代わりにまたは加えて、サイドチェーンデータを入力信号(X)の一部として含んでもよい。
図2は、知覚オーディオエンコーダおよびデコーダと併せて使用される信号エンハンサシステム110の例のブロック図である。このケースでは、知覚オーディオデコーダ103を、信号エンハンサシステム110の一部として組み込み可能である。結果として、信号エンハンサシステム110は、圧縮ビットストリームライン102上で受信された圧縮されたオーディオビットストリーム(Q)に、直接作動してもよい。代わりに他の例では、信号エンハンサシステム110は、知覚オーディオデコーダ103に包含されてもよい。この構成で、信号エンハンサシステム110は、圧縮されたオーディオビットストリーム(Q)102の詳細へのアクセスを有してもよい。
図3は、信号エンハンサシステム110の例のブロック図である。図3で信号エンハンサシステム110は、入力信号ライン104上の入力信号(X)を受信しうる信号処理モジュール300を有する。信号処理モジュール300は、対応する信号処理ライン310上の多数の個々のおよび固有の信号処理(ST1、ST2、ST3、ST4、ST5、ST6、およびST7)を行ってもよい。7つの信号処理を示すが、他の例ではより少ないまたはより多い数(n)の信号処理が可能である。信号処理(STn)のそれぞれの相対的なエネルギーレベルを、第1の総和ブロック321でともに加えられて総合信号処理(STT)323を生成する前に、処理ゲイン(g1、g2、g3、g4、g5、g6、およびg7)315により個別に調整してもよい。総合信号処理(STT)323のレベルを、第2の総和ブロック322で入力信号(X)104に加えられる前に、総合処理ゲイン(gT)320により調整してもよい。
信号処理モジュール300は1つまたは複数の処理モジュール(301、302、303、304、305、306、および307)を有してもよく、それらは入力信号(X)のシーケンシャルサンプルの個々のサンプル成分に作動し、成分のそれぞれについてサンプル毎のベースで順次信号処理(310)を生成する。シーケンシャルサンプルの個々のサンプル成分は、オーディオ信号の異なる特性に関連してもよい。代わりに、または加えて、信号処理モジュール300は、追加のまたはより少ない処理モジュール300を有してもよい。示されたモジュールは独立していてもよく、またはモジュールを作るあらゆる種々の組み合わせで形成されたサブモジュールであってもよい。
図4は、ミッドサイド成分モジュール400により抽出されるような入力信号(X)のミッドサイド成分に作動する信号エンハンサシステム110の例である。「ミッドサイド」という用語はステレオオーディオ信号内のオーディオ情報をいい、ステレオオーディオ信号内で左および右の両方のステレオチャネルに共通のオーディオ情報がオーディオ情報の「ミッド」信号成分とみなされ、オーディオ情報の「サイド」信号成分は左と右のステレオチャネルで異なるオーディオ情報である。知覚オーディオコーデックの性能向上のため、知覚オーディオコーデックは、オーディオ信号のミッドサイド成分に作動可能である。この状況で、エンコーダはより多くのサイド信号成分を破棄し、一方でより多くのミッド信号成分を保持することが可能である。そのように、この状況で、信号エンハンサシステム110が、ステレオ信号の左および右チャネルに直接ではなくステレオ入力信号(X)のミッドサイド信号成分に作動する場合、信号エンハンサシステム110の動作の最適化が向上されうる。
図4で、ステレオ−ミッドサイドモジュール400はステレオ入力信号Xをミッドサイド信号構成Xmsに変換してもよく、次にミッドサイド信号構成Xmsをミッドサイド信号ライン401上で処理のため信号エンハンサシステム110へ提供してもよい。信号エンハンサシステム110は、ミッドサイド信号Xmsに作動して増強されたミッドサイド信号(Yms)を生成してもよい。増強されたミッドサイド信号(Yms)を、増強ミッドサイド信号ライン402上でミッドサイド−ステレオモジュール403に供給してもよい。ミッドサイド−ステレオモジュール403は、増強されたミッドサイド信号(Yms)を出力ライン105上に供給されるステレオ(左および右チャネル)出力信号(Y)に変換してもよい。
図5は、空間スライスストリームライン501上の“n”個の空間スライスストリーム(XSS1、XSS2、XSS3、〜XSSn)のセットに作動する“n”個の信号エンハンサシステム110のセットの例であり、空間スライスストリームを空間スライス分解モジュール500から取得してもよい。空間スライス分解モジュール500は、入力信号ライン104上のステレオまたはマルチチャネルオーディオ入力信号(X)を受信し、空間スライスストリームのセットを生成してもよい。空間スライスストリームは、知覚されるステレオまたはマルチチャネルサウンドステージ内のオーディオ信号源の空間的位置に基づき入力信号を分解する空間フィルタバンクの出力を含んでもよい。入力信号を空間スライスに分解して空間スライスストリーム501を生成する1つの可能な方法が、米国特許出願第12/897,709号”SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS”に記載され、その全体は本明細書に参照により組み込まれる。
図5で、“n”個の信号エンハンサ110のそれぞれは、増強出力ストリームライン502上に増強された出力ストリーム(YSS1、YSS2、YSS3、〜YSSn)を生成する。“n”個の出力ストリームは、総和モジュール503で組み合わされ、出力ライン105上に出力信号(Y)を生成する。分離した信号エンハンサシステム110を個々の空間スライスストリームに作動するとき、それぞれの信号エンハンサシステム110がオーディオ入力信号104のより多くの分離したサンプル成分に作動しえて、よってそれぞれの空間スライスストリーム(XSSn)について適切な信号処理(ST1、ST2、ST3、ST4、ST5、ST6、およびST7)をよりよく導出することができうるので、システムの性能向上が得られうる。それぞれの空間スライスストリーム(XSSn)のサンプルに含まれる異なるサンプル成分について、任意の数の異なる信号処理(ST1、ST2、ST3、ST4、ST5、ST6、およびST7)を独立して得てもよい。
図3で、信号処理モジュール300は、オーディオ信号、またはオーディオ信号から生成された空間スライスストリームのどちらかのそれぞれのシーケンシャルサンプルの個々のサンプル成分について信号処理(ST1、ST2、ST3、ST4、ST5、ST6、およびST7)を導き出す1つまたは複数の処理モジュール(301、302、303、304、305、306、および307)を有してもよい。処理モジュール(301、302、303、304、305、306、および307)のそれぞれは、オーディオ信号または空間ストリームに関連する異なる特性について、信号処理(ST1、ST2、ST3、ST4、ST5、ST6、およびST7)を導出してもよい。オーディオ信号特性の例は、帯域幅、調波、トランジェント、拡大、残響、マスキングおよび調波位相整列を含む。他の例では、信号処理を、オーディオ信号に関連する追加のまたはより少ない特性について得てもよい。信号処理を、それぞれの処理モジュールの特性に対応するオーディオ信号の失われた部分について得てもよい。従って信号処理は、一連のサンプル内の個々のサンプル成分からなくなったと識別されるオーディオ信号の種々の異なる特性の交換部分を、効果的に供給しうる。よって、それぞれの特性の失われた部分が識別された一連のサンプル成分のいくつかに信号処理を加えてもよく、一方でそれぞれの特性のなくなった部分が確認されないシーケンス内の他のサンプル成分に、信号処理を加えなくてもよい。
オーディオ信号のなくなった部分である帯域幅の特性に関して、比較的低いビットレートで作動するものを含むいくつかの知覚オーディオコーデックは、いくつかの予め定められた閾値を超える信号成分を廃棄することにより、圧縮された信号の帯域幅を限定しうるものである。例えば、知覚オーディオコーデックは、12kHz超のような予め定められた周波数を超える全ての周波数成分を、知覚的に重要性はより少ないとみなし、よってそれらを廃棄しうる。帯域幅拡張モジュール301は、そのような予め定められたカットオフ周波数(Fx)を超える信号成分、または信号処理(ST1)を発生させるよう入力信号(X)に作動してもよい。帯域幅拡張モジュール301は、カットオフ周波数(Fx)を分析し、存在する場合は入力信号のカットオフ周波数(Fx)を判断してもよい。カットオフ周波数(Fx)の認識を、予め定められたカットオフ周波数(Fx)を超える新しい信号成分とともに信号処理ストリーム(ST1)を生成するよう導き、オーディオ信号の対応するサンプル成分内のこの特性の欠如を補正するように使用してもよい。
代わりにまたは加えて、図1に示されるように知覚オーディオデコーダ103からサイドチェーン情報106が利用可能なケースで、カットオフ周波数(Fx)を帯域幅拡張モジュール301に提供してもよい。図2の例のように、知覚オーディオデコーダ103および信号エンハンサシステム110が統合された他のケースで、カットオフ周波数(Fx)を、知覚オーディオデコーダ103により直接帯域幅拡張モジュール301に提供してもよい。
オーディオ信号のなくなったまたは失われた部分である調波の特性に関して、比較的低いビットレートで作動するものを含むいくつかの知覚オーディオコーデックは、信号内の所定の時点で圧縮された信号内の特定の「中調波」を廃棄してもよい。例えばある時点で、知覚オーディオコーデックは、いくつかの低調波とともに特定の音源の基本的な周波数成分を保持してもよい。知覚オーディオコーデックはまた、信号の最高の調波のいくつかまたは全てを保存し、一方で音源の中調波の1つまたは複数を廃棄してもよい。帯域内調波補充モジュール302は、入力信号(X)104を分析し、知覚オーディオコーデックがオーディオ信号の1つまたは複数の中調波特性を廃棄したイベントを探してもよい。帯域内調波補充モジュール302は、この特性がオーディオ信号のサンプル成分からなくなったことに応え、新しい中調波とともに信号処理ストリーム(ST2)を生成し、オーディオ信号に加えるよう作動してもよい。
オーディオ信号のなくなった部分であるトランジェントの特性に関して、比較的低いビットレートで作動するものを含むいくつかの知覚オーディオコーデックは、トランジェント信号の「不鮮明化」を起こしうる。このタイプのコード化アーチファクトを「プレエコー」として記述可能であり、トランジェント信号がシャープなアタックを有し、トランジェントイベントの時点で他の信号成分に対して比較的大音量であるとき、最も容易に聞き取ることが可能である。プレエコーは、トランジェント信号成分のくすみの知覚を起こす傾向がある。トランジェント増強モジュール303は、オーディオ信号の成分サンプルからなくなったものとしてこの特性を識別しようと試み、トランジェント信号成分の知覚されるシャープなアタックを修復するよう信号処理を導出してもよい。トランジェント増強モジュール303は、入力信号(X)を分析してもよく、トランジェントイベントおよびトランジェント信号成分を識別して紛失した特性を識別してもよい。トランジェント増強モジュール303は、既存のトランジェント信号成分の出だしの知覚を強化するため、オーディオ信号に適用する新しいトランジェント信号成分を含む信号処理ストリーム(ST3)を生成するよう作動してもよい。
オーディオ信号内のトランジェントを検出する方法の例は、以下の活動を有してもよい。時間領域入力信号サンプルの現在のブロックについて、FFTビンの大きさが計算され、ヒストリバッファ内に格納される。FFTビンの現在のセットの大きさがFFTビンの過去のセットの大きさとビン対ビンベースで比較され、ここで現在のセットおよび過去のセットは、それぞれの一連のサンプルの一連のサンプル成分を示す。FFTビンの過去のセットの大きさは、ヒストリバッファ内に前に格納されており、この比較のため取り出される。現在のFFTビンの大きさが振幅閾値のような予め定められた閾値分過去のFFTビンの大きさを超えるビンの数が、計数される。計数が決定された計数閾値を超える場合、時間領域サンプルの現在のブロックがトランジェントイベントを有すると判断される。20dBのような予め定められた値が、トランジェントを検出する振幅閾値として適切でありうる。過去のFFTビンを、サンプルの現在のブロックの1または2ブロック後ろから取ることが可能である。すなわち、ヒストリバッファは、サンプルのサンプル成分のシーケンシャル処理の1または2処理ブロックの遅延を示しうる。
オーディオ信号のなくなったまたは失われた部分である拡大の特性に関して、比較的低いビットレートで作動するものを含むいくつかの知覚オーディオコーデックは、オーディオ信号が可聴音として生成されるとき、聴取者に知覚されるステレオサウンドステージの狭小の知覚を起こしうる。すなわち、原型の非圧縮のオーディオ信号内で左端または右端に位置すると知覚される音は、圧縮プロセスの間、他の音に対して減衰されうる。結果として、その結果生じるオーディオ信号は、より「モノラル」らしく、より「ステレオ」らしくなく知覚されうる。サウンドステージ増強モジュール304は、一連のサンプル成分内のこの特性に関連するオーディオ信号のなくなったまたは失われた部分を識別し、入力信号(X)内で左端または右端に位置すると知覚される信号成分を、生成される信号処理として増幅する。例えばサウンドステージ増強モジュール304は、左端または右端の信号成分を抽出し、これらの信号成分の増幅されたバージョンを含む信号処理ストリーム(ST4)を生成するよう作動してもよい。左端または右端の信号成分を抽出する1つの可能な方法は、米国特許出願第12/897,709号、“SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS”に記載され、その全体は本明細書に参照により組み込まれる。
オーディオ信号のなくなったまたは失われた部分である残響の特性に関して、比較的低いビットレートで作動するものを含むいくつかの知覚オーディオコーデックは、オーディオ信号内の「アンビエンス」または「残響」特性の知覚の減少を起こしうるものである。この残響特性の減少は、音全体の「くすみ」の知覚、ならびにオーディオ信号の失われた部分による音の詳細の損失の知覚をもたらしうる。残響の減少はまた、音場全体の知覚されるサイズおよび幅を減少しうる。残響補充モジュール305は、入力信号(X)をドライおよび残響信号成分に分解するよう作動してもよい。残響補充モジュール305はそれから、対応するサンプル成分内のオーディオ信号のなくなった部分を識別し、サンプル成分内の残響の知覚されるレベルを増加し、新しい残響信号成分を含みうる信号処理ストリーム(ST5)を生成するよう作動してもよく、中のオーディオ信号の一部がなくなったと判断されるサンプルのシーケンスのそれらのサンプル成分にのみ適用するための増幅された残響信号成分を有してもよい。
入力信号(X)をドライおよび残響信号成分に分解することが可能な方法は、米国特許第8,180,067号、“SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL”、および米国特許第8,036,767号、“SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL”に記載され、それら両方の全体は本明細書に参照により組み込まれる。
オーディオ信号のなくなったまたは失われた部分であるマスク信号の特性に関して、比較的低いビットレートで作動するものを含むいくつかの知覚オーディオコーデックは、信号内の明瞭性および低レベルの詳細で知覚の減少を起こしうる。これは、知覚オーディオコーデックが、例えば知覚モデルにより多くの聴取者が聞き取れないと考えられる信号成分を廃棄することにより引き起こされうる。通常、知覚モデルは、第1の信号成分をマスクしうる他の主要な信号成分がある場合、特定の第1の信号成分を聞き取れないものとして識別する。すなわち、人間の聴覚系のマスキング特性により、主要な信号成分が第1の信号成分を聞き取れなく(マスク)しうる。しかし、それぞれの聴取者のマスキング特性はいくぶん異なり、知覚オーディオコーデックの知覚モデルは、ある聴取者のマスキング特性に近似することが可能であるのみである。結果として、知覚オーディオコーデックは、いくぶんかの聴取者が聞き取れる特定の信号成分を廃棄しうる。
被マスク信号補充モジュール306は、オーディオ信号の対応するサンプル成分のなくなった部分を識別し、低レベルの信号成分がマスクされる閾値ちょうどであるようにそれらを増幅するよう作動してもよい。被マスク信号補充モジュール306は、入力信号(X)を受信し、知覚モデルを適用してそれぞれの周波数について「同時マスキング閾値」を判断してもよい。同時マスキング閾値は、知覚モデルが、特定の周波数の信号成分が他の周波数の信号成分によりマスクされると判断するレベルを示す。例えば、1000Hzの充分に大音量の信号成分がある場合、1100Hzの信号成分は聞き取れないかもしれない。この例で、同時マスキング閾値は、(1100Hzのような)他の周波数の信号成分が1000Hzの信号成分によりマスクされるレベルを示す。従って、1100Hzの信号成分のレベルが同時マスキング閾値を下回る場合、そのとき知覚モデルはこの信号成分がマスクされる(聞き取れない)と判断する。
この例を続けると、被マスク信号補充モジュール306が、1100Hzの信号成分のレベルが同時マスキング閾値を下回ると判断し、それによってオーディオ信号の対応するサンプル成分の失われた部分を識別する場合、1100Hzの信号成分が同時マスキング閾値に達するように、被マスク信号補充モジュール306は、1100Hzの信号成分の増幅されたバージョンを有しうる信号処理ストリーム(ST6)を生成してもよい。同様に、被マスク信号補充モジュール306が種々の周波数の増幅された信号成分を有する信号処理ストリーム(ST6)を生成しえて、それで全ての周波数の信号成分が同時マスキング閾値に達しうるように、被マスク信号補充モジュール306は、対応するサンプル成分のなくなった部分を識別するよう、全ての周波数の信号成分についてこの動作を実行してもよい。
同時マスキング閾値を判断する知覚モデルの例は、米国特許第8,180,067号、“SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL”および米国特許第8,036,767号、”SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL”に記載され、それら両方の全体は本明細書に参照により組み込まれる。一般に知覚モデルは、(一連のサンプルについて成分サンプルの多数のスナップショットにわたるように)徐々に成分サンプルを生成する間、時間ベースの聴覚マスキング推定値、および周波数ベースの聴覚マスキング推定値のうち少なくとも1つに基づき補整を実行してもよい。
調波的に豊富な信号の基本および調波成分の位相は、徐々に互いになぞる傾向がありうる。つまり、調波的に豊富な信号の基本および調波成分は、何らかの方法で整列される傾向がありうる。オーディオ信号のなくなったまたは失われた部分である調波位相の整列の特性に関して、比較的低いビットレートで作動するものを含むいくつかの知覚オーディオコーデックは、与えられた音源の調波の位相に、位相に関してそれらの整列を失なわせうる。サンプル成分のなくなった部分としてのこの位相整列の喪失は、信号の少なくとも高次の調波で起こりうる。この位相整列の喪失は、異なる方法で聴取者が知覚しうる。位相整列の喪失の1つのよくある結果は、通常高い周波数で聞き取れる「シューシュー」音である。調波位相整列モジュール307は、調波的に関連する信号成分を、徐々に位相整列させるよう作動してもよい。調波位相整列モジュール307は、入力信号(X)を分析し、(トランジェントまたはノイズのような信号成分とではなく)音の信号成分を探し、その音の成分が調波的に関連するかどうか判断してもよい。さらに、調波位相整列モジュール307は、あらゆる調波的に関連する音の成分の位相が徐々に整列されるかどうか判断してもよい。対応するサンプル成分の特性が、オーディオ信号のなくなった部分、すなわち調波的に関連する音の成分の位相整列と識別される場合、整列内にないあらゆる調波の位相を調整してもよい。調波位相整列モジュール307は、これらの整列されていない音の成分の位相整列されたバージョンを含みうる信号処理ストリーム(ST7)を生成してもよい。代わりにまたは加えて、調波位相整列モジュール307は、音の成分の整列のいくつかの他の形態を提供してもよい。
入力信号(X)104がステレオまたはマルチチャネルである場合、図5に関連して記載したように、信号エンハンサ110により処理される前にそれを空間スライス501に分解してもよい。信号を空間スライスに分解するシステムおよび方法が、米国特許出願第12/897,709号、“SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS”に記載され、その全体は本明細書に参照により組み込まれる。入力信号の空間スライスへの分解は、種々の処理(301、302、303、304、304、305、306、および,307)をより正確に、それぞれの空間スライス(XSS1、XSS2、XSS3、〜XSSn)501内に含まれる信号成分へ適用することを可能にしうる。例えば、トランジェント信号が与えられた空間スライス内に位置する場合、トランジェント増強処理303をその空間スライス内にのみ加え、一方で他の空間スライス内の非トランジェント信号成分に影響を与えなくてもよい。
それぞれの空間スライスに適切な処理が加えられると、それぞれの空間スライスからの増強された出力ストリーム(YSS1、YSS2、YSS3、〜YSSn)502を総和モジュール503で組み合わせ、出力ライン105上に複合出力信号(Y)を生成してもよい。
入力信号(X)の内容が変化するにつれて、与えられた空間スライス内の信号成分に適用される種々の処理は、変化してもよい。前述の例を用いると、トランジェント信号成分が与えられた空間スライス内で検出されたときの間にのみ、トランジェント増強処理303を、その空間スライス内のサンプル成分のいくつかに加えてもよい。
音楽または音声のようなオーディオ信号は、通常いくぶんかの量の残響を含む。この残響はオーディオ信号が記録された場所(例えばコンサートホール)によるものかもしれないし、またはそれが電子的に追加されるかもしれない。残響源は、残響系と呼ばれる。残響の特性は、残響系のインパルス応答により判断される。残響系のインパルス応答を、ブロックのセットに分割可能である。インパルス応答推定手段910は、インパルス応答の周波数領域表現の知覚的に関連する推定値を生成するよう入力信号に作動する。通常、インパルス応答推定手段は、インパルス応答のブロックベースの推定値を生成するよう入力信号に作動してもよい。インパルス応答のブロックベースの推定値は、インパルス応答の周波数領域の推定値に対応する複数のブロック推定値で構成される。
図6は、インパルス応答の例である。最初の垂直線は直接の音の成分602を示し、一方で残りの線は反響を示す。それぞれの線の高さはその振幅を示し、時間軸(t)上のその位置は、マイクロホンのような音測定装置におけるその到達時間を示す。時間が経つにつれ、反響の数は個々の反響をもはや識別できない時点まで増加する。最終的に、反響は拡散し急激に減衰系に変化する。これは、一般的にインパルス応答の残響テール604と呼ばれる。
いわゆる初期反響606は、直接の音の成分602の直後に到達し、残響テールと異なる知覚効果を有する。これらの初期反響は、音響空間のサイズおよびオーディオ信号源とマイクロホンの間の距離に関する知覚の手掛かりを提供する。初期反響606はまた、それらが音の明瞭性および理解度を向上できる点で重要である。残響テールもまた、音響空間に関する知覚の手掛かりを提供する。
インパルス応答はまた、そのフーリエ変換(またはいくつかの他の変換)を計算することにより周波数領域内に見ることが可能で、それで残響系をその周波数領域表現に関して完全に記載可能である。変数は周波数を示す。インパルス応答のフーリエ表現は、振幅応答および位相応答の両方を提供する。一般的に言って、振幅応答はインパルス応答内の異なる周波数成分の相対的なレベルに関する情報を提供し、一方で位相応答は周波数成分の一時的な様相に関する情報を提供する。
残響補充モジュール305は、入力信号内の残響エネルギーの振幅の推定値の周波数領域推定値を生成してもよい。残響エネルギーの振幅のこの推定値が入力信号から減算され、よって入力信号のドライなオーディオ信号の振幅の推定値を提供する。原型のドライな信号の位相に近付けるため、残響入力信号の位相が使用される。本明細書で使用される、「ドライな信号」、「ドライなオーディオ信号成分」または「直接の信号成分」という用語は、オーディオ信号内に存在する残響エネルギーをほとんど有さないオーディオ信号またはオーディオ信号の一部を指す。よって原型のドライな信号は、それが直接のインパルス音602のほぼ全体を構成するので、残響エネルギーをほとんど有さないかもしれない。本明細書で使用される「残響エネルギー」、「残響入力信号」、「残響成分」、「残響信号成分」という用語は、オーディオ信号の初期反響、および残響テールを指す。またオーディオ信号に関して、本明細書で使用される「成分」の語は、1つまたは複数の成分を指す。
残響入力信号の位相が、まとめてインパルス応答の全体を用いて原型のドライな信号の位相を近づけるように使用される場合、重度の時間領域のアーチファクトが処理された信号内で聞き取れるだろうことがありうる。従って残響補充モジュール305は、インパルス応答全体の推定値をブロック608に分割可能であり、処理をブロックベースの方法で実行可能である。ブロック608の予め定められた長さは、処理された出力信号の位相のエラーにより、人間の耳があらゆる時間領域のアーチファクトを知覚しないよう、十分短いことが可能である。
残響入力信号が与えられた周波数で減衰する速度を判断するのに、2つの因子が組み合わさる。第1の因子はドライな(すなわち非残響の)音源の減衰速度であり、第2は残響系の減衰速度である。与えられた周波数の残響系の減衰速度が比較的時間的に一定である一方で、ドライな音源の減衰速度は継続的に変わる。入力信号(X)に関して可能な最も速い減衰速度は、ドライな音源が与えられた周波数で停止し、信号の減衰が完全に残響系の減衰によるときに起こる。図6の例で、例えばドライな音源は初期反響606の時間で停止しうる。 与えられた周波数の残響系の減衰速度は、その周波数の残響系のインパルス応答により直接判断可能である。従って入力信号(X)は、残響系のインパルス応答により決定される速度より速い速度で減衰するはずがない。
図7は、残響補充モジュール305のより詳細な図を示す。残響補充モジュール305は、入力信号(X)104を受信し、出力として信号処理310 ST5を提供してもよい。インパルス応答推定手段710、残響降下検出手段モジュール711および残響降下補充モジュール712、および分解プロセッサモジュール713を、残響補充モジュール305内に有してもよい。他の例では、述べられた機能を達成するため、より少ないまたはより大きい数のモジュールが記載されうる。
インパルス応答推定手段710を、入力信号(X)の残響系のインパルス応答の推定値を得るのに使用してもよい。入力信号(X)の残響系のインパルス応答の推定値を得る1つの可能な方法は、米国特許第8,180,067号、”SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL”、および米国特許第8,036,767号、”SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL”に記載され、それら両方の全体は本明細書に参照により組み込まれる。
図8は、残響補充モジュール305により推定可能なオーディオ信号の残響成分の推定値の例である。分解プロセッサモジュール713は、入力信号の前述のサンプル成分のうちの1つである入力残響成分802を導き出すよう、入力信号(X)に作動してもよい。入力残響成分802は、入力信号の残響成分(残響)または特性の推定値で構成されうる。入力信号(X)の入力残響成分802を導き出す1つの可能な方法は、米国特許第8,180,067号”SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL”、および米国特許第8,036,767号”SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL”に記載され、それら両方の全体は本明細書に参照により組み込まれる。予測減衰速度806を、分解プロセッサモジュール713により、インパルス応答からそれぞれのシーケンシャルサンプルについて直接判断しうる。図8で、入力残響成分802は、時間(t)にわたり与えられた周波数のサンプル成分のシーケンスとして示される。入力残響成分802が、ある時点で上昇(増加)し、他の時点で低下するのを見ることができる。
図7および図8を参照すると、残響降下検出手段711は、異なる時点で入力残響成分802の減衰速度を予測減衰速度806に比較してもよい。残響降下検出手段711は、個々のサンプル成分内でオーディオ信号のなくなったまたは失われた部分として1つまたは複数の残響降下804を識別してもよく、残響降下で入力残響成分802は予測減衰速度806を下回る。残響降下補充モジュール712は、残響降下804により失われたエネルギーを補正する信号処理として、残響補充処理を生成するよう作動してもよい。図8に示されるように、信号処理は、その中でオーディオ信号の一部がなくなったそれらのサンプル成分にのみ適用される。従って、サンプル成分のシーケンスは順次に処理されているので、入力信号のなくなったまたは失われた部分があると識別されたそれらのサンプル成分にのみ、信号処理を選択的に適用しうる。
図9は、増強コントローラモジュール900に接続された信号エンハンサモジュール110の例のブロック図である。増強コントローラモジュール900は、処理レベル調整手段モジュール901、信号品質分析手段モジュール902、および表示モジュール906を有してもよい。動作中、信号処理モジュール300は、信号品質分析手段902に処理要求指標を提供してもよい。処理要求指標は、種々の処理モジュール(301、302、303、304、305、306、および307)からの、入力信号(X)の識別されたなくなった部分のために必要とされる信号処理量に関する関連情報を提供可能である。
可能な処理要求指標の1つの例として、帯域幅拡張モジュール301(図3)は、入力信号(X)のカットオフ周波数(Fx)の推定値を提供してもよい。カットオフ周波数の値が低いことは、知覚オーディオエンコーダ101が原型のオーディオ信号(Z)100(図1)により積極的にはたらき、従って入力信号(X)が信号の一部の高周波数の大部分をなくしていて、オーディオ信号が再生されるなら聴取者が知覚する品質の劣化をもたらすかもしれないことを示唆しうる。代わりにまたは加えて、帯域幅拡張処理モジュール301は、知覚オーディオエンコーダ101により廃棄されたカットオフ周波数を超える信号のなくなったエネルギー対保持された信号のエネルギーの比率の推定値を提供してもよい。この比率の値が大きいことは、原型のオーディオ信号(Z)100のより大部分がなくなって(廃棄され)、従ってオーディオ信号が再生されるなら入力信号(X)が、聴取者が知覚する品質の劣化を有しうることを示唆しうる。
他の例として、帯域内調波補充モジュール302(図3)は、中(帯域内)調波が廃棄されてオーディオ信号からなくなった頻度の指標を提供してもよい。代わりにまたは加えて、帯域内調波補充モジュール302は、廃棄された調波のエネルギーの推定値を提供してもよい。なくなった(廃棄された)帯域内調波エネルギーのレベルが大きいことは、オーディオ信号が再生されるなら入力信号(X)が、聴取者が知覚する品質の劣化を有することを示すかもしれない。
他の例として、残響補充モジュール305は、入力信号(X)内の残響エネルギーの測定値、ならびに知覚オーディオエンコーダ101により廃棄された失われた残響エネルギーの推定値を提供してもよい。なくなった残響エネルギーのレベルが大きいことは、オーディオ信号が再生されるなら入力信号(X)が、聴取者が知覚する品質の劣化を有することを示すかもしれない。
さらに他の例として、サウンドステージ拡大モジュール304(図3)は、知覚オーディオエンコーダ101により廃棄された、なくなったまたは失われたサイド(左マイナス右)エネルギーおよびミッド(左プラス右)エネルギーの量の推定値を提供してもよい。代わりにまたは加えて、サウンドステージ拡大モジュール304は、入力信号(X)の全エネルギーに対する左端または右端の信号成分のエネルギーの測定値を提供してもよい。左端または右端の信号エネルギーのレベルが低いことは、入力信号104から一部がなくなって、オーディオ信号が、再生されるなら聴取者が知覚する品質の劣化をもたらすことを示すかもしれない。
他の例として、トランジェント増強モジュール303は、入力信号(X)104内でトランジェントが起こる頻度を示すことにより、オーディオ信号のなくなった部分の指標を提供してもよい。他の例として、被マスク信号補充306モジュールは、入力信号(X)を検査し、同時マスキング閾値を下回った信号成分が廃棄され、従ってオーディオ信号からなくなった頻度の指標を提供してもよい。信号成分が頻繁になくなっている(廃棄されている)場合、これはオーディオ信号が再生されるなら入力信号(X)が、聴取者が知覚する品質の劣化を有することを示すかもしれない。
他の例として、調波位相整列モジュール307(図3)は、入力信号(X)を検査し、調波的に関連する信号成分が位相整列されていない頻度の指標を提供してもよい。代わりにまたは加えて、調波位相整列モジュール307は、位相整列されていない調波成分のエネルギーの測定値を提供してもよい。位相整列されていない調波成分のエネルギーのレベルが高いことは、入力信号(X)104の一部が失われ、それが、オーディオ信号が再生されるなら聴取者が知覚する品質の劣化を有しうることを示唆しうる。
信号品質分析手段902は、処理要求指標を受信し、信号品質指標を導き出してもよい。代わりにまたは加えて、信号品質分析手段902は、メタデータバッファ905からメタデータを受信してもよい。メタデータは、入力信号(X)の知覚される品質の直接の指標を提供してもよい。メタデータバッファ905に含まれるメタデータを、知覚オーディオデコーダ103、オーディオ信号、またはいくつかの他の発生源が提供してもよい。代わりにメタデータを信号品質分析手段902へ直接提供してもよく、メタデータバッファ905を省略してもよい。メタデータは、それらに限定されないが、カットオフ周波数(Fx)、知覚オーディオエンコーダ101が使用する現在の処理ブロックの長さ、入力信号(X)のビットレート、および/または入力信号(X)のサンプリングレートを含む入力信号の原型および特性に関する情報を提供してもよい。
1つまたは複数の受信された処理要求指標および/またはメタデータを用いて、信号品質分析手段902は、入力信号(X)の知覚される全体の品質の推定値を導き出してもよい。代わりにまたは加えて、信号品質分析手段902は、個々の信号処理についての入力信号の知覚される品質の推定値を導き出してもよい。
信号エンハンサモジュール110が入力信号(X)に適用する信号処理310の相対的なエネルギーレベルを、入力信号の相対的な品質および/または入力信号のサンプル成分によって変更してもよい。例えば、入力信号(X)の品質が比較的よい状況で、信号処理310の相対的なエネルギーレベルを減少してもよい。同様に、入力信号(X)の品質が比較的悪い状況で、信号処理310の相対的なエネルギーレベルを対応して増やしてもよい。処理レベル調整手段901は、1つまたは複数の処理ゲイン(g1、g2、g3、g4、g5、g6、およびg7)315を増加または減少することにより、信号処理310の相対的なエネルギーレベルを独立して変更してもよい。代わりにまたは加えて、処理レベル調整手段901は、総合処理ゲイン(gT)320を増加または減少することにより、信号処理310の総合の相対的なエネルギーレベルを変更してもよい。
処理レベル調整手段901は、パラメータとして1つまたは複数の信号品質指標を信号品質分析手段902から受信してもよい。処理レベル調整手段901は、1つまたは複数の可能な信号品質指標903を使用して、個々の処理ゲイン(g1、g2、g3、g4、g5、g6、およびg7)315のそれぞれについての適切な値、ならびに総合処理ゲイン(gT)320についての適切な値を独立して決定してもよい。代わりにまたは加えて、信号品質分析手段1002は、入力信号(X)の知覚される品質の直接の指標を提供しうるメタデータを使用して、個々の処理ゲイン(g1、g2、g3、g4、g5、g6、およびg7)315のそれぞれについての適切な値、ならびに総合処理ゲイン(gT)320についての適切な値を決定してもよい。このようにして、種々の信号処理310のレベルを、入力信号(X)の要求に合致するよう自動的に調整してもよい。
処理レベル調整手段モジュール901はまた、個々の処理ゲインおよび総合処理ゲインを決定するとき、他のパラメータを検討してもよい。よって、例えば処理レベル調整手段モジュール901が、パラメータに基づき、個別の処理ゲインのいくつかを減少してもよく、他の個別の処理ゲインのいくつかを増加してもよい。例えばロック音楽のジャンルについてドラムを強調するようトランジェント処理レベルゲインを増加しえて、クラシック音楽のジャンルについて音楽ホール効果を強調するよう残響処理レベルゲインを増加しうるように、そのようなパラメータは、生成されるオーディオ信号のジャンルのような入力信号のメタデータを有してもよい。他の例では、入力信号が会話対音楽であるとき、処理ゲインを調整してもよい。他の例では、任意の数の処理レベルゲインおよびパラメータを使用してもよい。処理レベル調整手段モジュール901によるゲイン調整はまた、予め定められた閾値を超える残響特性の処理があるときといった、規則に基づいたものであってもよく、トランジェント増強特性についてのゲインを、例えば比率に基づき対応して減少してもよい。ある状況または動作モード下で選択的に加えられる処理ゲインの量をもたらすよう、処理レベル調整手段モジュール901にユーザ設定もまた加えてもよい。
表示モジュール906は、入力信号(X)、出力信号(Y)、ならびに信号エンハンサモジュール110の性能および/または動作の異なる側面の品質の視覚表現を提供してもよい。図9に示されるように、表示モジュール906は、1つまたは複数の信号処理(ST1、ST2、ST3、ST4、ST5、ST6、およびST7)310を受信および表示してもよい。例えば、表示モジュール906は、帯域幅拡張モジュール301による信号処理ST1を表示してもよい。このケースでは、表示モジュール906は、帯域幅拡張モジュール301により生成されたカットオフ周波数(Fx)を超える新しい信号成分のスペクトル表現の視覚表現を生成してもよい。代わりにまたは加えて、表示モジュール906は、加えられた信号処理310の全てを含む出力信号(Y)のスペクトルまたは時間領域表現を表示してもよい。代わりにまたは加えて、表示モジュール906は、信号品質分析手段902から1つまたは複数の信号品質指標を受信してもよい。表示モジュール906は次に、入力信号(X)の品質の視覚表現を生成してもよい。表示モジュール906はまた、入力信号(X)に加えられた信号処理310の総合レベルの視覚表現を生成してもよい。表示モジュール906はまた、出力信号(Y)の品質の視覚表現を生成してもよい。よって、ディスプレイを見るユーザに、入力信号(X)の品質、また処理信号が加えられる範囲またはレベルの視覚的表示を提供してもよい。
図10は出力信号(Y)の表示例であり、帯域幅増強の信号処理が示される。図10で、−120から−150dBの範囲内にある入力信号(X)1002の部分に示される、約12kHzのカットオフ周波数を超える入力信号(X)1002の部分が、以前の符号化の間に廃棄されている。帯域幅拡張モジュール301は、オーディオ信号の一部がなくなったまたは失われたことを識別し、同一範囲の周波数にわたり信号処理1004を提供してもよい。信号処理1004を、入力信号(X)1002の処理されていない部分に適用することが可能である。従って、ユーザは、処理されていない出力信号の品質がどのようだったかだけではなく、信号エンハンサシステム110により提供されている処理のレベルおよび範囲の表示を見て、その指標を提供されることが可能である。他の例では、加えられる1つまたは複数の処理のいずれも示すよう、他の形態の表示を生成してもよい。
図11aおよび図11bは、帯域幅拡張モジュール301の動作の結果の例を示す。図11aは、オーディオ信号が知覚オーディオコーデックにより圧縮された前および後の、その短いブロックのスペクトル図(周波数領域)を示す。原型の信号の曲線が示され、そこでかなりの信号エネルギーがナイキスト周波数まで続くことを見ることができる。圧縮されたオーディオ信号曲線は、それが知覚オーディオコーデックにより圧縮された後のこの同一の信号を示す。図11aで、特定のカットオフ周波数(Fx)を超える信号成分が廃棄され、残っているのは単に低レベルのノイズであることを見ることができる。
図11bは、圧縮されたオーディオ信号が帯域幅拡張モジュール301により処理された前および後の、その短いブロックの例のスペクトル図を示す。ここで、カットオフ周波数(Fx)を超える信号成分が廃棄された圧縮されたオーディオ信号が示される。帯域幅拡張モジュール301に処理された後の同一の圧縮されたオーディオ信号の曲線が、図11bに含まれる。カットオフ周波数(Fx)を超える新しい信号成分が生成されていることを、見ることができる。これらの新しい信号成分は、カットオフ(Fx)を下回る信号成分の少なくともいくつかに基づき、および/またはそれらを用いて生成されている。
図12aおよび図12bは、トランジェント増強モジュール303の動作の例を示す。図12aは、トランジェント信号成分の時間領域図を示す。図12aの上の枠は、原型の信号を示す。開始信号はほぼ静寂であり、鋭いトランジェント信号が続き、それが徐々に低下することを見ることができる。図12aの下の枠は、知覚オーディオコーデックにより圧縮された後の同様のトランジェント信号成分を示す。トランジェントは、もう鋭く形成されていないことを見ることができる。また、圧縮されたオーディオ信号は、今度は実際のトランジェントが表れる前にエネルギーを有する。これは、前述したいわゆる「プレエコー」の例である。
図12bは、トランジェント信号成分がトランジェント増強モジュール303により処理された前および後のその時間領域図の例を示す。図12bの上の枠は、時間にわたり多数のトランジェントを有する圧縮されたオーディオ信号を示す。トランジェントが信号内でそれほど明確でないことを見ることができる。図12bの下の枠は、トランジェント増強モジュール303により処理された後の同一のトランジェント信号を示し、ここで個々のトランジェントの出だしが、今度は鋭く形成され、容易に視認可能である。
図13は、コンピュータシステム1300の例である。コンピュータシステム1300は、コンピュータシステム1300に、記述された任意の1つまたは複数の方法またはコンピュータベースの機能を実行させるよう実行可能な命令セットを有してもよい。コンピュータシステム1300は、スタンドアロン装置として作動してもよく、他の装置の一部であってもよく、ネットワークを用いるといったように他のコンピュータシステムまたは周辺装置に接続してもよい。
ネットワーク化された配置で、コンピュータシステム1300は、サーバの機能で、またはサーバ−クライアントユーザネットワーク環境のクライアントユーザコンピュータとして、ピアツーピア(または分散)ネットワーク環境のピアコンピュータシステムとして、または種々の他の方法で作動してもよい。コンピュータシステム1300をまた、例えば車両内のテレマティクスシステムのような種々の装置として実行してもよく、またはそれらに組み込むことが可能である。他の例では、行う動作を指定する命令セット(シーケンシャルまたは他)を実行可能なあらゆる任意の他の機械を使用してもよい。コンピュータシステム1300を、音声、オーディオ、ビデオまたはデータ通信を提供する電子装置を用いて実現してもよい。1台のコンピュータシステム1300が示されるが、「システム」の語は、1つまたは複数のコンピュータ機能を実行するため個別にまたは合同で命令のセット、または複数のセットを実行する、あらゆるシステムまたはサブシステムの集合体を含んでもよい。
コンピュータシステム1300は、中央処理装置(CPU)、グラフィック処理ユニット(GPU)、デジタル信号プロセッサ(DSP)、または異なるまたは同一のプロセッサのいくつかの組み合わせのようなプロセッサ1302を有してもよい。プロセッサ1302は、さまざまなシステム内の構成要素であってもよい。例えばプロセッサ1302は、車両内のヘッドユニットまたは増幅手段の一部であってもよい。プロセッサ1302は、1つまたは複数の汎用プロセッサ、デジタル信号プロセッサ、特定用途集積回路、フィールドプログラマブルゲートアレイ、デジタル回路、アナログ回路、それらの組み合わせ、またはデータの分析および処理に関して現在既知または後に開発される装置であってもよい。プロセッサ1302は、手動で生成されまたはプログラムされたコードのようなソフトウェアプログラムを実施してもよい。
プロセッサ1302は、システムの少なくとも一部を作動および制御してもよい。「モジュール」という用語は、1つまたは複数の実行可能モジュールを有するように定義してもよい。モジュールは、プロセッサ1302のようなプロセッサにより実行可能な、ソフトウェア、ハードウェア、ファームウェア、またはそれらのいくつかの組み合わせを含みうる。ソフトウェアモジュールは、メモリ1304、または他のメモリ装置のようなメモリ内に格納された命令を有してもよく、それらはプロセッサ1302または他のプロセッサにより実行可能でありうる。ハードウェアモジュールは、プロセッサ1302により実行可能、実行のために指示または制御される種々の装置、構成要素、回路、ゲート、回路基板などを有してもよい。
コンピュータシステム1300は、バス1308を介して通信可能なメモリ1304のようなメモリ1304を含みうる。メモリ1304は、メインメモリ、静的メモリ、または動的メモリであってもよい。メモリ1304は、それらに限定されないが、ランダムアクセスメモリ、読み出し専用メモリ、プログラム可能読出専用メモリ、電気的にプログラム可能読出専用メモリ、電気的に消去可能読み出し専用メモリ、フラッシュメモリ、磁気テープまたはディスク、光学媒体などを含む、種々のタイプの揮発性および不揮発性記憶装置媒体のようなコンピュータ可読記憶媒体を含みうるが、それらに限定されない。1つの例では、メモリ1304は、プロセッサ1302のキャッシュまたはランダムアクセスメモリを含む。別の例で、メモリ1304は、プロセッサのキャッシュメモリ、システムメモリ、または他のメモリのように、プロセッサ1302から分離してもよい。メモリ1304は、データを格納する外部の記憶装置またはデータベースを含みうる。例は、ハードドライブ、コンパクトディスク(「CD」)、デジタルビデオディスク(「DVD」)、メモリカード、メモリスティック、フロッピー(登録商標)ディスク、汎用シリアルバス(「USB」)メモリ装置、またはデータを格納するよう作動可能な任意の他の装置を含む。
コンピュータシステム1300は、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)、フラットパネルディスプレイ、固体ディスプレイ、陰極線管(CRT)、プロジェクタ、または判断された情報を出力する他の現在既知または後に開発されるディスプレイ装置のようなディスプレイユニット1310をさらに有しても有しなくてもよい。ディスプレイ1310は、ユーザがプロセッサ1302の機能を制御するインタフェースとして、または特にメモリ1304内に格納されたソフトウェアとのインタフェースとして作用してもよい。
コンピュータシステム1300は、ユーザがコンピュータシステムの任意の構成要素と対話することを可能にするよう構成された入力装置1312を有してもよい。入力装置1312は、音声コマンドを受信するマイクロホン、キーパッド、キーボード、またはマウス、またはジョイスティック、タッチスクリーンディスプレイ、リモート制御、またはコンピュータシステム1300と対話するよう作動可能な任意の他の装置のようなカーソル制御装置であってもよい。システムのユーザは、例えばシステムおよび/またはテレマティクスシステムにより検討される基準または条件を入力してもよい。
ネットワーク1326に接続された装置が、ネットワーク1326上で音声、ビデオ、オーディオ、画像またはあらゆる他のデータを通信可能なように、コンピュータシステム1300は、命令を有する、または伝播された信号に応答して命令を受信および実行するコンピュータ可読な媒体を有してもよい。命令を、通信ポートまたはインタフェース1320により、またはバス1308を用いて、ネットワーク1326上で送信または受信してもよい。通信ポートまたはインタフェース1320は、プロセッサ1302の一部であってもよく、または別個の構成要素であってもよい。通信ポート1320を、ソフトウェア内で生成してもよく、またはハードウェア内の物理接続であってもよい。通信ポート1320を、ネットワーク1326、外部の媒体、ディスプレイ1310、またはコンピュータシステム1300内の任意の他の構成要素、またはそれらの組み合わせと接続するよう構成してもよい。ネットワーク1326との接続は、有線イーサネット(登録商標)接続のような物理接続であってもよく、または無線で確立してもよい。コンピュータシステム1300の他の構成要素との追加の接続は、物理接続であってもよく、または無線で確立してもよい。ネットワーク1326を、代わりに直接バス1308に接続してもよい。
ネットワーク1326は、有線ネットワーク、無線ネットワーク、イーサネット(登録商標)AVBネットワーク、またはそれらの組み合わせを含みうる。無線ネットワークは、携帯電話ネットワーク、802.11、802.16、802.20、802.1QまたはWiMaxネットワークであってもよい。さらにネットワーク1326は、インターネットのような公衆ネットワーク、イントラネットのようなプライベートネットワーク、またはそれらの組み合わせであってもよく、TCP/IPベースネットワーキングプロトコルを含むが、それらに限定されない、現在可能な、または後に開発されるさまざまなネットワーキングプロトコルを使用してもよい。システムの1つまたは複数の構成要素は、ネットワーク1326により、またはネットワーク1326を通して互いに通信してもよい。
種々の本発明の実施形態を記載したが、もっと多くの実施形態および実行が本発明の範囲内で可能であることは、当業者に明らかになるであろう。従って、本発明は、添付された請求項およびそれらの均等物の観点を除いて制限されるべきではない。

Claims (23)

  1. プロセッサと、
    一連のシーケンシャルサンプルにオーディオ信号を分割するようプロセッサにより実行可能なサンプラモジュールと、
    前記オーディオ信号の1つまたは複数のサンプル成分を順次受信および分析して、それぞれのシーケンシャルサンプルの前記1つまたは複数のサンプル成分内の前記オーディオ信号の失われた部分を識別するよう前記プロセッサにより実行可能な信号エンハンサモジュールと
    を備え、
    前記信号エンハンサモジュールは、対応する識別された失われた部分があるそれぞれのシーケンシャルサンプルの前記1つまたは複数のサンプル成分のそれぞれについて、対応する信号処理を生成するようプロセッサによりさらに実行可能である、
    圧縮されたオーディオ信号の修復システム。
  2. 前記サンプル成分が周波数成分であり、前記対応する信号処理が、カットオフ周波数の閾値を超える、なくなった周波数成分を有するサンプル成分に適用される周波数成分である、請求項1に記載のシステム。
  3. 前記サンプル成分がトランジェント成分であり、前記対応する信号処理が、オーディオ信号内に存在する既存のトランジェントの出だしを増強するように、なくなったトランジェントを有するサンプル成分に適用されるトランジェント成分である、請求項1に記載のシステム。
  4. 前記サンプル成分が残響成分であり、前記対応する信号処理が、前記オーディオ信号の減衰速度を減少するように、なくなった残響を有するサンプル成分に適用される、請求項1に記載のシステム。
  5. 前記信号エンハンサモジュールが、前記オーディオ信号とともに受信されたサイドチェーンデータに基づき前記1つまたは複数のサンプル成分を分析するよう構成される、請求項1に記載のシステム。
  6. 前記対応する信号処理が、帯域幅拡張処理、トランジェント増強処理および残響補充処理を含む複数の信号処理である、請求項1に記載のシステム。
  7. 前記信号エンハンサモジュールが複数の信号エンハンサモジュールであり、それぞれの前記信号エンハンサモジュールが、少なくとも1つの信号処理を追加するよう聴取者に知覚されるサウンドステージの空間スライスに独立して作動し、前記聴取者に知覚されるサウンドステージが、前記オーディオ信号の再生の間聴取者により知覚される、請求項1に記載のシステム。
  8. 前記信号エンハンサモジュールが複数の対応する信号処理を生成するよう構成され、前記対応する信号処理が前記オーディオ信号に追加される、請求項1に記載のシステム。
  9. 圧縮されたオーディオ信号を修復するように、プロセッサにより実行可能なコンピュータ可読命令を格納するコンピュータ可読記憶媒体であって、前記コンピュータ可読媒体が
    オーディオ信号のサンプルのシーケンスを生成するように前記プロセッサにより実行可能な命令と、
    前記シーケンス内のそれぞれのサンプルを、前記オーディオ信号の異なる特性に関連するサンプル成分に分割するように前記プロセッサにより実行可能な命令と、
    前記サンプルのシーケンス内の一連のサンプル成分内に含まれるサンプル成分内の前記オーディオ信号のなくなった部分を識別するように前記プロセッサにより実行可能な命令と、
    前記サンプル成分内の前記オーディオ信号の前記なくなった部分の識別に応答して、前記一連のサンプル成分内に含まれる前記サンプル成分の信号処理を生成しかつ前記オーディオ信号に適用するように前記プロセッサにより実行可能な命令と
    を備える、コンピュータ可読記憶媒体。
  10. 前記サンプル成分が第1のサンプル成分であり、前記コンピュータ可読記憶媒体が、第2のサンプル成分内の前記オーディオ信号のなくなった部分の識別がないことに応答して、前記一連のサンプル成分内に含まれる前記第2のサンプル成分へ前記信号処理をその後適用しないよう、前記プロセッサにより実行可能な命令をさらに備える、請求項9に記載のコンピュータ可読記憶媒体。
  11. 前記オーディオ信号に関連するパラメータに基づき、前記オーディオ信号の品質を判断するよう前記プロセッサにより実行可能な命令と、前記オーディオ信号の前記判断された品質に従って、前記信号処理のゲインを調整する命令と、をさらに備える、請求項9に記載のコンピュータ可読記憶媒体。
  12. 前記オーディオ信号の前記異なる特性が、周波数範囲特性、トランジェント特性および残響特性を含む、請求項9に記載のコンピュータ可読記憶媒体。
  13. 前記オーディオ信号の前記サンプルのシーケンス内のそれぞれのサンプルが一定時間内に連続して受信され、前記サンプル成分がそれぞれの前記シーケンシャルサンプル内に含まれる、請求項9に記載のコンピュータ可読記憶媒体。
  14. サンプル成分内の前記オーディオ信号のなくなった部分を識別するよう前記プロセッサにより実行可能な前記命令が、周波数カットオフを超える、なくなった周波数成分を識別する命令を含み、前記信号処理を生成しおよび前記オーディオ信号に適用するように前記プロセッサにより実行可能な前記命令が、前記周波数カットオフを超える周波数成分を生成する命令、および前記オーディオ信号に前記周波数成分を適用する命令を含む、請求項9に記載のコンピュータ可読記憶媒体。
  15. 前記サンプル成分内の前記オーディオ信号のなくなった部分を識別するよう前記プロセッサにより実行可能な前記命令が、前記サンプル成分内のなくなったトランジェント成分を識別する命令を含み、前記信号処理を生成しおよび前記オーディオ信号に適用するように前記プロセッサにより実行可能な前記命令が、トランジェント成分を生成する命令と、前記トランジェント成分を前記オーディオ信号に適用する命令を含む、請求項9に記載のコンピュータ可読記憶媒体。
  16. 前記サンプル成分内の前記オーディオ信号のなくなった部分を識別するよう前記プロセッサにより実行可能な前記命令が、前記オーディオ信号の最大減衰速度に基づき、なくなった残響成分を識別する命令を含み、前記信号処理を生成しおよび前記オーディオ信号に適用するように前記プロセッサにより実行可能な前記命令が、残響成分を生成する命令と、前記残響成分を前記オーディオ信号に適用する命令を含む、請求項9に記載のコンピュータ可読記憶媒体。
  17. 前記オーディオ信号のなくなった部分がある前記一連のサンプル成分内のそれらのサンプル成分にのみ前記信号処理を加えるように前記プロセッサで実行可能な命令をさらに備える、請求項9に記載のコンピュータ可読記憶媒体。
  18. 前記オーディオ信号の品質の表示、および加えられている前記信号処理のレベルの表示をディスプレイ上に出力するよう前記コンピュータで実行可能な命令をさらに備える、請求項9に記載のコンピュータ可読記憶媒体。
  19. プロセッサを用いてオーディオ信号をサンプルに分離することと、
    前記プロセッサでそれぞれの前記サンプルをサンプル成分に分割し、前記サンプル成分は前記オーディオ信号の特性の表現であることと、
    前記プロセッサで前記オーディオ信号の特性の一連のサンプル成分を順次分析し、前記オーディオ信号の失われた部分があるサンプル成分を識別することと、
    前記プロセッサが、前記オーディオ信号の失われた部分があると識別された前記一連のサンプル成分内のそれらのサンプル成分にのみ信号処理を適用することと
    を含む、圧縮されたオーディオ信号の修復方法。
  20. 前記プロセッサが、前記信号処理で前記オーディオ信号の前記失われた部分内にエネルギーを補充することをさらに含む、請求項19に記載の方法。
  21. 前記プロセッサが、前記オーディオ信号の失われた部分がないと識別された前記一連のサンプル成分内のそれらのサンプル成分に信号処理を加えないことをさらに含む、請求項19に記載の方法。
  22. 前記プロセッサで前記オーディオ信号の品質を判断し、前記プロセッサが前記判断された品質に基づき信号処理のレベルを変えることをさらに含む、請求項19に記載の方法。
  23. 前記オーディオ信号の前記品質および前記信号処理のレベルの表示をディスプレイに出力することをさらに含む、請求項22に記載の方法。
JP2015544075A 2012-11-26 2013-11-01 圧縮されたオーディオ信号を修復するシステム、コンピュータ可読記憶媒体、および方法 Active JP6212567B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261730053P 2012-11-26 2012-11-26
US61/730,053 2012-11-26
US13/842,479 US9135920B2 (en) 2012-11-26 2013-03-15 System for perceived enhancement and restoration of compressed audio signals
US13/842,479 2013-03-15
PCT/US2013/067981 WO2014081548A1 (en) 2012-11-26 2013-11-01 System, computer-readable storage medium and method for repair of compressed audio signals

Publications (2)

Publication Number Publication Date
JP2016502139A true JP2016502139A (ja) 2016-01-21
JP6212567B2 JP6212567B2 (ja) 2017-10-11

Family

ID=50774017

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015544075A Active JP6212567B2 (ja) 2012-11-26 2013-11-01 圧縮されたオーディオ信号を修復するシステム、コンピュータ可読記憶媒体、および方法

Country Status (7)

Country Link
US (3) US9135920B2 (ja)
EP (1) EP2923355B1 (ja)
JP (1) JP6212567B2 (ja)
KR (1) KR101825507B1 (ja)
CN (1) CN104823237B (ja)
BR (1) BR112015011820B1 (ja)
WO (1) WO2014081548A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020512598A (ja) * 2017-03-31 2020-04-23 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ トランジェント位置検出を使用したオーディオ信号の後処理のための装置
US11089472B2 (en) 2017-03-14 2021-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Transmitter for emitting signals and receiver for receiving signals
US11562756B2 (en) 2017-03-31 2023-01-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135920B2 (en) * 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
EP2830065A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
KR101862356B1 (ko) * 2014-01-03 2018-06-29 삼성전자주식회사 개선된 앰비소닉 디코딩을 수행하는 방법 및 장치
WO2015105775A1 (en) * 2014-01-07 2015-07-16 Harman International Industries, Incorporated Signal quality-based enhancement and compensation of compressed audio signals
US9782672B2 (en) 2014-09-12 2017-10-10 Voyetra Turtle Beach, Inc. Gaming headset with enhanced off-screen awareness
US10057705B2 (en) 2015-01-13 2018-08-21 Harman International Industries, Incorporated System and method for transitioning between audio system modes
CN108604454B (zh) 2016-03-16 2020-12-15 华为技术有限公司 音频信号处理装置和输入音频信号处理方法
CA3018039C (en) * 2016-03-24 2023-08-29 Harman International Industries, Incorporated Signal quality-based enhancement and compensation of compressed audio signals
CN109643555B (zh) 2016-07-04 2024-01-30 哈曼贝克自动系统股份有限公司 自动校正包含语音信号的音频信号中的响度级
CN107452398B (zh) * 2017-08-09 2021-03-16 深圳创维数字技术有限公司 回声获取方法、电子设备及计算机可读存储介质
KR102551359B1 (ko) 2017-10-24 2023-07-04 삼성전자주식회사 기계학습을 이용한 오디오 복원 방법 및 장치
CN111201569B (zh) 2017-10-25 2023-10-20 三星电子株式会社 电子装置及其控制方法
CN110033781B (zh) * 2018-01-10 2021-06-01 盛微先进科技股份有限公司 音频处理方法、装置及非暂时性电脑可读媒体
CN109767760A (zh) * 2019-02-23 2019-05-17 天津大学 基于振幅和相位信息的多目标学习的远场语音识别方法
US11264017B2 (en) * 2020-06-12 2022-03-01 Synaptics Incorporated Robust speaker localization in presence of strong noise interference systems and methods
CN112735454A (zh) * 2020-12-30 2021-04-30 北京大米科技有限公司 音频处理方法、装置、电子设备和可读存储介质
CN112565124B (zh) * 2021-03-01 2021-04-23 中国人民解放军国防科技大学 基于重叠加窗的无失真信号处理方法、存储介质和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008158302A (ja) * 2006-12-25 2008-07-10 Sony Corp 信号処理装置、信号処理方法、再生装置、再生方法、電子機器
US20110081024A1 (en) * 2009-10-05 2011-04-07 Harman International Industries, Incorporated System for spatial extraction of audio signals
JP2011518520A (ja) * 2008-04-18 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60217522T2 (de) * 2001-08-17 2007-10-18 Broadcom Corp., Irvine Verbessertes verfahren zur verschleierung von bitfehlern bei der sprachcodierung
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
KR100754439B1 (ko) * 2003-01-09 2007-08-31 와이더댄 주식회사 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법
US8180067B2 (en) 2006-04-28 2012-05-15 Harman International Industries, Incorporated System for selectively extracting components of an audio input signal
CN101518100B (zh) * 2006-09-14 2011-12-07 Lg电子株式会社 对话增强技术
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
EP1947642B1 (en) * 2007-01-16 2018-06-13 Apple Inc. Active noise control system
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
KR101597375B1 (ko) * 2007-12-21 2016-02-24 디티에스 엘엘씨 오디오 신호의 인지된 음량을 조절하기 위한 시스템
JP4940158B2 (ja) * 2008-01-24 2012-05-30 株式会社東芝 音補正装置
EP2226794B1 (en) * 2009-03-06 2017-11-08 Harman Becker Automotive Systems GmbH Background noise estimation
CN102422531B (zh) * 2009-06-29 2014-09-03 三菱电机株式会社 音频信号处理装置
US20110317841A1 (en) 2010-06-25 2011-12-29 Lloyd Trammell Method and device for optimizing audio quality
US9135920B2 (en) * 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008158302A (ja) * 2006-12-25 2008-07-10 Sony Corp 信号処理装置、信号処理方法、再生装置、再生方法、電子機器
JP2011518520A (ja) * 2008-04-18 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置
US20110081024A1 (en) * 2009-10-05 2011-04-07 Harman International Industries, Incorporated System for spatial extraction of audio signals

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11089472B2 (en) 2017-03-14 2021-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Transmitter for emitting signals and receiver for receiving signals
JP2020512598A (ja) * 2017-03-31 2020-04-23 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ トランジェント位置検出を使用したオーディオ信号の後処理のための装置
JP7055542B2 (ja) 2017-03-31 2022-04-18 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ トランジェント位置検出を使用したオーディオ信号の後処理のための装置
US11373666B2 (en) 2017-03-31 2022-06-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for post-processing an audio signal using a transient location detection
US11562756B2 (en) 2017-03-31 2023-01-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping

Also Published As

Publication number Publication date
US9576584B2 (en) 2017-02-21
CN104823237A (zh) 2015-08-05
KR20150088253A (ko) 2015-07-31
EP2923355B1 (en) 2018-07-04
US9135920B2 (en) 2015-09-15
US20170162208A1 (en) 2017-06-08
US20150379999A1 (en) 2015-12-31
US20140149126A1 (en) 2014-05-29
BR112015011820B1 (pt) 2021-11-09
EP2923355A1 (en) 2015-09-30
JP6212567B2 (ja) 2017-10-11
US10311880B2 (en) 2019-06-04
KR101825507B1 (ko) 2018-02-05
WO2014081548A1 (en) 2014-05-30
BR112015011820A2 (pt) 2017-07-11
CN104823237B (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
JP6212567B2 (ja) 圧縮されたオーディオ信号を修復するシステム、コンピュータ可読記憶媒体、および方法
JP6576934B2 (ja) 圧縮済みオーディオ信号の信号品質ベース強調及び補償
US10573328B2 (en) Determining the inter-channel time difference of a multi-channel audio signal
JP7443423B2 (ja) マルチチャネル信号の符号化方法およびエンコーダ
CN109903776B (zh) 用于各种回放环境的动态范围控制
US10741196B2 (en) Signal quality-based enhancement and compensation of compressed audio signals

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170818

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170915

R150 Certificate of patent or registration of utility model

Ref document number: 6212567

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250