JP2016514857A - オーディオ・エンコーダおよびデコーダ - Google Patents
オーディオ・エンコーダおよびデコーダ Download PDFInfo
- Publication number
- JP2016514857A JP2016514857A JP2016505841A JP2016505841A JP2016514857A JP 2016514857 A JP2016514857 A JP 2016514857A JP 2016505841 A JP2016505841 A JP 2016505841A JP 2016505841 A JP2016505841 A JP 2016505841A JP 2016514857 A JP2016514857 A JP 2016514857A
- Authority
- JP
- Japan
- Prior art keywords
- transform
- transform coefficients
- envelope
- blocks
- current block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Abstract
Description
さらに、エンコーダ100はいわゆる長ストライド・モードにおいて動作させられてもよいことを注意しておくべきである。このモードでは、オーディオ信号のセグメントのフレームは、細分されず、単一のブロックとして処理される。よって、フレーム当たり、変換係数の単一のブロック131だけが決定される。長ストライド・モードで動作するときは、フレーミング・ユニット101は、オーディオ信号のセグメントまたはフレームについて変換係数の単一の現在のブロック131を抽出するよう構成されていてもよい。包絡推定ユニット102は、現在のブロック131について現在の包絡133を決定するよう構成されていてもよく、包絡量子化ユニット103は、単一の現在の包絡133を量子化して量子化された現在の包絡134を決定する(そして現在のブロック131についての包絡データ161を決定する)よう構成されていてもよい。長ストライド・モードにあるときは、包絡補間は典型的には無用である。よって、現在のブロック131についての補間された包絡136は典型的には量子化された現在の包絡134に対応する(エンコーダ100が長ストライド・モードで動作させられるとき)。
・量子化された現在の包絡134を示す包絡データ161。量子化された現在の包絡134は、変換係数のブロックの現在の集合132またはシフトされた集合332の諸ブロックの包絡を記述するために使われる。
・変換係数の現在ブロック131の補間された包絡136を調整するためのレベル補正利得aを示す利得データ162。典型的には、ブロックの現在の集合132またはシフトされた集合332の各ブロック131について異なる利得aが提供される。
・現在ブロック131についての予測誤差係数のブロック141を示す係数データ163。特に、係数データ163は、量子化された誤差係数のブロック145を示す。さらに、係数データ163は、デコーダにおいて逆量子化を実行するための量子化器を決定するために使われてもよいオフセット・パラメータを示してもよい。
・再構成された係数の以前のブロック149から、推定された係数のブロック150を決定するために使われるべき一つまたは複数の予測器係数を示す予測器データ164。
rfu=min(1,max(g,0))
である。制御パラメータ146 rfuを決定するための代替的な諸方法が使われてもよい。特に、制御パラメータ146は、表1において与えられる擬似コードを使って決定されてもよい。
1.ターゲット・ベクトルxの要素は単位分散をもつ。これは、平坦化ユニット108によって実行される平坦化の結果であってもよい。この想定は、平坦化ユニット108によって実行される包絡ベースの平坦化の品質に依存して充足される。
2.予測残差ベクトルzの要素の分散は、i=1,…,Kおよび何らかのt≧0について、E{z2(i)}=min{t/w(i),1}の形である。この想定は、最小二乗指向の予測器探索は重み付け領域において均等に分布した誤差寄与につながり、残差ベクトル(√w)zは多少なりとも平坦になるというヒューリスティックに基づいている。さらに、予測器候補は平坦に近いことが期待されてもよく、これは合理的な限界E{z2(i)}≦1につながる。この第二の想定のさまざまな修正が使用されうることを注意しておくべきである。
・0ビット割り当てのための適応的なノイズ利得。換言すれば、ノイズ合成量子化器321のノイズ利得は分散保存フラグによって影響されてもよい。
・ディザリングされる量子化器の範囲。換言すれば、ディザリングされる量子化器322が使われるSNRの範囲324、325が、分散保存フラグによって影響されてもよい。
・ディザリングされる量子化器の事後利得。ディザリングされる量子化器の平均平方誤差パフォーマンスに影響するために、ディザリングされる量子化器の出力に対して事後利得が適用されてもよい。事後利得は、分散保存フラグに依存してもよい。
・ヒューリスティック・スケーリングの適用。(再スケーリング・ユニット111および逆再スケーリング・ユニット113における)ヒューリスティック・スケーリングの使用が分散保存フラグに依存してもよい。
Claims (76)
- 発話信号をビットストリームにエンコードするよう構成されている変換ベースの発話エンコーダであって、当該エンコーダは:
・ブロックの集合を受領するよう構成されたフレーム構成ユニットであって、ブロックの集合は、変換係数の複数の逐次的なブロックを含み、該複数のブロックは発話信号のサンプルを示し、変換係数のブロックは対応する複数の周波数ビンについての変換係数を含む、フレーム構成ユニットと;
・変換係数の前記複数の逐次的なブロックに基づいて現在の包絡を決定するよう構成されている包絡推定ユニットであって、前記現在の包絡は、前記対応する複数の周波数ビンについて複数のスペクトル・エネルギー値を示す、包絡推定ユニットと;
・前記現在の包絡に基づいて、それぞれ変換係数の前記複数のブロックについて複数の補間された包絡を決定するよう構成された包絡補間ユニットと;
・それぞれ前記対応する複数の補間された包絡を使って変換係数の前記対応する複数のブロックを平坦化することによって、平坦化された変換係数の複数のブロックを決定するよう構成された平坦化ユニットとを有しており、
前記ビットストリームは平坦化された変換係数の前記複数のブロックに基づいて決定される、
変換ベースの発話エンコーダ。 - ・当該変換ベースの発話エンコーダはさらに、それぞれ変換係数の前記複数のブロックについて複数の包絡利得を決定するよう構成された包絡利得決定ユニットを有しており;
・当該変換ベースの発話エンコーダはさらに、それぞれ前記複数の包絡利得に従って前記複数の補間された包絡をシフトさせることによって、複数の調整された包絡を決定するよう構成された包絡洗練ユニットを有しており;
・前記平坦化ユニットは、それぞれ前記対応する複数の調整された包絡を使って変換係数の前記対応する複数のブロックを平坦化することによって、平坦化された変換係数の前記複数のブロックを決定するよう構成されている、
請求項1記載の変換ベースの発話エンコーダ。 - 前記包絡利得決定ユニットは、変換係数の第一のブロックのための第一の包絡利得を、第一の調整された包絡を使って導出される平坦化された変換係数の対応する第一のブロックの平坦化された変換係数の分散が、第一の補間された包絡を使って導出される平坦化された変換係数の対応する第一のブロックの平坦化された変換係数の分散に比べて調整されるように、決定するよう構成されている、請求項2記載の変換ベースの発話エンコーダ。
- 前記包絡利得決定ユニットは、変換係数の前記第一のブロックについての前記第一の包絡利得を、前記第一の調整された包絡を使って導出される平坦化された変換係数の前記対応する第一のブロックの平坦化された変換係数の分散が1になるように、決定するよう構成されている、請求項3記載の変換ベースの発話エンコーダ。
- 前記包絡利得決定ユニットは、前記複数の包絡利得を示す利得データを前記ビットストリーム中に挿入するよう構成されている、請求項2ないし4のうちいずれか一項記載の変換ベースの発話エンコーダ。
- ・前記現在の包絡が、対応する複数の周波数帯域についての複数のスペクトル・エネルギー値を示し;
・周波数帯域が一つまたは複数の周波数ビンを含み;
・前記包絡推定ユニットが、特定の周波数帯域についてのスペクトル・エネルギー値を、その特定の周波数帯域についての前記複数の逐次的なブロックの変換係数に基づいて決定するよう構成されている、
請求項1ないし5のうちいずれか一項記載の変換ベースの発話エンコーダ。 - 周波数帯域毎の周波数ビンの数が周波数が増すとともに増大する、請求項6記載の変換ベースの発話エンコーダ。
- 前記包絡推定ユニットは、前記特定の周波数帯域についてのスペクトル・エネルギー値を、前記特定の周波数帯域についての前記複数の逐次的なブロックの変換係数の二乗平均平方根値に基づいて、決定するよう構成されている、請求項6または7記載の変換ベースの発話エンコーダ。
- ・前記現在の包絡を量子化することによって、量子化された現在の包絡を決定し;
・前記量子化された現在の包絡を示す包絡データを前記ビットストリーム中に挿入するよう構成された包絡量子化ユニットをさらに有する、
請求項1ないし8のうちいずれか一項記載の変換ベースの発話エンコーダ。 - 前記包絡補間ユニットは、前記量子化された現在の包絡に基づいて前記複数の補間された包絡を決定するよう構成されている、請求項9記載の変換ベースの発話エンコーダ。
- ・変換係数のブロックはMDCT係数を含む;および/または
・変換係数のブロックは256個の周波数ビン内の256個の変換係数を含む;および/または
・ブロックの集合は変換係数の四つ以上のブロックを含む、
請求項1ないし10のうちいずれか一項記載の変換ベースの発話エンコーダ。 - ・変換ベースの発話エンコーダが、短ストライド・モードおよび長ストライド・モードを含む複数の異なるモードで動作するよう構成されており;
・前記フレーム構成ユニット、前記包絡推定ユニットおよび前記包絡補間ユニットは、前記変換ベースの発話エンコーダが短ストライド・モードで動作させられるときは、変換係数の前記複数の逐次的なブロックを含むブロックの前記集合を処理するよう構成されており;
・前記フレーム構成ユニット、前記包絡推定ユニットおよび前記包絡補間ユニットは、前記変換ベースの発話エンコーダが長ストライド・モードで動作させられるときは、変換係数の単一のブロックを含むブロックの集合を処理するよう構成されている、
請求項1ないし11のうちいずれか一項記載の変換ベースの発話エンコーダ。 - 長ストライド・モードにあるとき、
・前記包絡推定ユニットは、ブロックの前記集合内に含まれる変換係数の前記単一のブロックの現在の包絡を決定するよう構成されており;
・前記包絡補間ユニットは、変換係数の前記単一のブロックについての補間された包絡を、変換係数の前記単一のブロックの前記現在の包絡として決定するよう構成されている、
請求項12記載の変換ベースの発話エンコーダ。 - 再構成された発話信号を提供するためにビットストリームをデコードするよう構成された変換ベースの発話デコーダであって、
・前記ビットストリーム内に含まれる包絡データから、量子化された現在の包絡を決定するよう構成された包絡デコード・ユニットであって、前記量子化された現在の包絡は、対応する複数の周波数ビンについての複数のスペクトル・エネルギー値を示し、前記ビットストリームは、再構成された平坦化された変換係数の複数の逐次的なブロックを示すデータを含み、再構成された平坦化された変換係数のブロックは、前記対応する複数の周波数ビンについての複数の再構成された平坦化された変換係数を含む、包絡デコード・ユニットと;
・前記量子化された現在の包絡に基づいて、それぞれ再構成された平坦化された変換係数の前記複数のブロックについて複数の補間された包絡を決定するよう構成された包絡補間ユニットと;
・それぞれ前記対応する複数の補間された包絡を使って、再構成された平坦化された変換係数の前記対応する複数のブロックにスペクトル形状を与えることによって、再構成された変換係数の複数のブロックを決定するよう構成された逆平坦化ユニットとを有しており、
再構成された変換係数の前記複数のブロックに基づいて、前記再構成された発話信号が決定される、
変換ベースの発話デコーダ。 - 前記包絡補間ユニットは、前記複数の補間された包絡を、量子化された以前の包絡にさらに基づいて決定するよう構成されている、請求項14記載の変換ベースの発話デコーダ。
- 前記量子化された以前の包絡は、再構成された変換係数の前記複数のブロックの直前の、再構成された変換係数の複数の以前のブロックに関連付けられている、請求項15記載の変換ベースの発話デコーダ。
- ・前記包絡補間ユニットは、第一の補間された包絡のある特定の周波数ビンについてのスペクトル・エネルギー値を、前記量子化された現在の包絡と第一の中間時点における前記量子化された以前の包絡との前記特定の周波数ビンについてのスペクトル・エネルギー値を補間することによって、決定するよう構成されており;
・前記第一の補間された包絡は、再構成された平坦化された変換係数の第一のブロックに関連付けられる、
請求項15または16記載の変換ベースの発話デコーダ。 - 前記包絡補間ユニットは、線形補間、幾何的補間および調和的補間の一つまたは複数を実行するよう構成されている、請求項17記載の変換ベースの発話デコーダ。
- 前記包絡補間ユニットは、対数領域において前記補間を実行するよう構成されている、請求項17または18記載の変換ベースの発話デコーダ。
- 前記包絡補間ユニットは、前記第一の補間された包絡の前記特定の周波数ビンについてのスペクトル・エネルギー値を、前記量子化された現在の包絡と前記量子化された以前の包絡との前記特定の周波数ビンについてのスペクトル・エネルギー値の間の補間を量子化することによって、決定するよう構成されている、請求項17ないし19のうちいずれか一項記載の変換ベースの発話デコーダ。
- ・前記包絡補間ユニットは、第二の補間された包絡の前記特定の周波数ビンについてのスペクトル・エネルギー値を、前記量子化された現在の包絡と第二の中間時点における前記量子化された以前の包絡との前記特定の周波数ビンについてのスペクトル・エネルギー値を補間することによって、決定するよう構成されており;
・前記第二の補間された包絡は、再構成された平坦化された変換係数の第二のブロックに関連付けられ;
・再構成された平坦化された変換係数の前記第二のブロックは、再構成された平坦化された変換係数の前記第一のブロックより後であり;
・前記第二の中間時点は前記第一の中間時点より後である、
請求項17ないし20のうちいずれか一項記載の変換ベースの発話デコーダ。 - 前記第二の中間時点と前記第一の中間時点との間の差は、再構成された平坦化された変換係数の前記第二のブロックと再構成された平坦化された変換係数の前記第一のブロックとの間の時間間隔に対応する、請求項21記載の変換ベースの発話デコーダ。
- ・前記ビットストリームは、それぞれ再構成された平坦化された変換係数の前記複数のブロックについて複数の包絡利得を示し;
・当該変換ベースの発話デコーダはさらに、それぞれ前記複数の補間された包絡に前記複数の包絡利得を適用することによって複数の調整された包絡を決定するよう構成された包絡洗練ユニットを有し;
・前記逆平坦化ユニットは、それぞれ前記対応する複数の調整された包絡を使って、再構成された平坦化された変換係数の前記対応する複数のブロックにスペクトル形状を与えることによって、再構成された変換係数の前記複数のブロックを決定するよう構成されている、
請求項14ないし22のうちいずれか一項記載の変換ベースの発話デコーダ。 - 発話信号をビットストリームにエンコードするよう構成された変換ベースの発話エンコーダであって、
・現在のブロックおよび一つまたは複数の以前のブロックを含む変換係数の複数の逐次的なブロックを受領するよう構成されたフレーム構成ユニットであって、前記複数の逐次的なブロックは前記発話信号のサンプルを示す、フレーム構成ユニットと;
・それぞれ対応する現在のブロック包絡および対応する一つまたは複数の以前のブロック包絡を使って変換係数の前記対応する現在のブロックおよび前記一つまたは複数の以前のブロックを平坦化することによって、平坦化された変換係数の現在のブロックおよび一つまたは複数の以前のブロックを決定するよう構成された平坦化ユニットと;
・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器であって、再構成された変換係数の前記一つまたは複数の以前のブロックは、それぞれ平坦化された変換係数の前記一つまたは複数の以前のブロックから導出されたものである、予測器であって、前記予測器は、
・再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記一つまたは複数の予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定するよう構成された抽出器;および
・推定された変換係数の前記現在のブロックに基づき、前記一つまたは複数の以前のブロック包絡に基づき、かつ前記一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定するよう構成されたスペクトル整形器を有している、
予測器と;
・平坦化された変換係数の前記現在のブロックに基づいて、かつ推定された平坦化された変換係数の前記現在のブロックに基づいて、予測誤差係数の現在のブロックを決定するよう構成された差分ユニットとを有しており、
前記ビットストリームは、予測誤差係数の前記現在のブロックに基づいて決定される、
変換ベースの発話エンコーダ。 - ・前記予測器は、信号モデルを使うモデル・ベースの予測器を有し;
・前記信号モデルは、一つまたは複数のモデル・パラメータを有し;
・前記一つまたは複数の予測器パラメータは、前記一つまたは複数のモデル・パラメータを示す、
請求項24記載の変換ベースの発話エンコーダ。 - 前記モデル・ベースの予測器は、
・前記信号モデルの前記一つまたは複数のモデル・パラメータを決定し;
・前記信号モデルに基づき、かつ前記一つまたは複数のモデル・パラメータに基づいて、再構成された変換係数の以前のブロックの第一の周波数ビン内の第一の再構成された変換係数に適用されるべき予測係数を決定し;
・前記第一の再構成された変換係数に前記予測係数を適用することによって、推定された変換係数の前記現在のブロックの前記第一の周波数ビン内の第一の推定された変換係数の推定値を決定するよう構成されている、
請求項25記載の変換ベースの発話エンコーダ。 - ・前記信号モデルは一つまたは複数の正弦波モデル成分を含み;
・前記一つまたは複数のモデル・パラメータは前記一つまたは複数の正弦波モデル成分の周波数を示す、
請求項25または26記載の変換ベースの発話エンコーダ。 - 前記一つまたは複数のモデル・パラメータは、複数正弦波信号モデルの基本周波数を示す、請求項27記載の変換ベースの発話エンコーダ。
- 前記予測器は、予測誤差係数の前記現在のブロックの前記予測誤差係数の平均平方値が低減されるよう、前記一つまたは複数の予測パラメータを決定するよう構成されている、請求項24ないし28のうちいずれか一項記載の変換ベースの発話エンコーダ。
- 前記予測器は、前記一つまたは複数の予測器パラメータを示す予測器データを前記ビットストリーム中に挿入するよう構成されている、請求項24ないし29のうちいずれか一項記載の変換ベースの発話エンコーダ。
- ビットストリームをデコードして、再構成された発話信号を提供するよう構成された変換ベースの発話デコーダであって、
・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ前記ビットストリームから導出される一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器であって、該予測器は、
・再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記一つまたは複数の予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定するよう構成された抽出器;および
・推定された変換係数の前記現在のブロックに基づき、一つまたは複数の以前のブロック包絡に基づき、かつ前記一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定するよう構成されたスペクトル整形器を有する、
予測器と;
・前記ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定するよう構成されたスペクトル・デコーダと;
・推定された平坦化された変換係数の前記現在のブロックに基づき、かつ量子化された予測誤差係数の前記現在のブロックに基づいて、再構成された平坦化された変換係数の現在のブロックを決定するよう構成された加算ユニットと;
・現在のブロック包絡を使って、再構成された平坦化された変換係数の前記現在のブロックにスペクトル形状を与えることによって、再構成された変換係数の現在のブロックを決定するよう構成されており、それぞれ前記一つまたは複数の以前のブロック包絡を使って、再構成された平坦化された変換係数の一つまたは複数の以前のブロックにスペクトル形状を与えることによって、再構成された変換係数の前記一つまたは複数の以前のブロックを決定するよう構成されている逆平坦化ユニットとを有しており、
再構成された変換係数の前記現在のブロックおよび前記一つまたは複数の以前のブロックに基づいて、前記再構成された発話信号が決定される、
変換ベースの発話デコーダ。 - ・前記一つまたは複数の予測器パラメータは、ブロック遅延パラメータを含み;
・前記ブロック遅延パラメータは、推定された平坦化された変換係数の前記現在のブロックに先行するブロック数を示す、
請求項31記載の変換ベースの発話デコーダ。 - 前記スペクトル整形器は、
・現在の推定された包絡を使って、推定された変換係数の前記現在のブロックを平坦化し;
・前記一つまたは複数の以前のブロック包絡に基づき、かつ前記ブロック遅延パラメータに基づいて、前記現在の推定された包絡を決定するよう構成されている、
請求項32記載の変換ベースの発話デコーダ。 - 前記スペクトル整形器は、
・前記ブロック遅延パラメータに基づいて整数遅延値を決定し;
・推定された平坦化された変換係数の前記現在のブロックより前記整数遅延値だけ先行する、再構成された変換係数の前記以前のブロックの前記以前のブロック包絡として、前記現在の推定された包絡を決定するよう構成されている、
請求項33記載の変換ベースの発話デコーダ。 - 前記スペクトル整形器は、前記整数遅延値を、前記ブロック遅延パラメータを最も近い整数に丸めることによって決定するよう構成されている、請求項34記載の変換ベースの発話デコーダ。
- ・当該変換ベースの発話デコーダが、一つまたは複数の以前のブロック包絡を記憶するよう構成された包絡バッファを有し;
・前記スペクトル整形器が、前記整数遅延値を、前記包絡バッファ内に記憶されている以前のブロック包絡の数に制限することによって、整数遅延値を決定するよう構成されている、
請求項35記載の変換ベースの発話デコーダ。 - 前記スペクトル整形器は、前記一つまたは複数の予測器パラメータの適用前に、平坦化された推定された変換係数の前記現在のブロックが分散1を示すよう、推定された変換係数の前記現在のブロックを平坦化するよう構成されている、請求項33ないし36のうちいずれか一項記載の変換ベースの発話デコーダ。
- ・前記ビットストリームが、分散利得パラメータを含み;
・前記スペクトル整形器が、前記分散利得パラメータを、推定された変換係数の前記現在のブロックに適用するよう構成されている、
請求項37記載の変換ベースの発話デコーダ。 - 前記抽出器は、再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記ブロック遅延パラメータに基づいて、推定された変換係数の現在のブロックを決定するよう構成されている、請求項32ないし38のうちいずれか一項記載の変換ベースの発話デコーダ。
- 発話信号をビットストリームにエンコードするよう構成された変換ベースの発話エンコーダであって、
・現在のブロックおよび一つまたは複数の以前のブロックを含む変換係数の複数の逐次的なブロックを受領するよう構成されたフレーム構成ユニットであって、前記複数の逐次的なブロックは前記発話信号のサンプルを示す、フレーム構成ユニットと;
・対応する現在のブロック包絡を使って変換係数の前記対応する現在のブロックを平坦化することによって、平坦化された変換係数の現在のブロックを決定するよう構成された平坦化ユニットと;
・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器であって、再構成された変換係数の前記一つまたは複数の以前のブロックは、変換係数の前記一つまたは複数の以前のブロックから導出されたものである、予測器と;
・平坦化された変換係数の前記現在のブロックに基づいて、かつ推定された平坦化された変換係数の前記現在のブロックに基づいて、予測誤差係数の現在のブロックを決定するよう構成された差分ユニットと;
・一組のあらかじめ決定された量子化器を使って、予測誤差係数の前記現在のブロックから導出される係数を量子化するよう構成された係数量子化ユニットであって、前記係数量子化ユニットは、前記一つまたは複数の予測器パラメータに依存して、前記一組のあらかじめ決定された量子化器を決定するよう構成されており、前記係数量子化ユニットは、前記量子化された係数に基づいて前記ビットストリームについての係数データを決定するよう構成されている、係数量子化ユニットとを有する、
変換ベースの発話エンコーダ。 - 平均で、再スケーリングされた誤差係数の現在のブロックの再スケーリングされた誤差係数の分散が、予測誤差係数の前記現在のブロックの予測誤差係数の分散より高くなるように、一つまたは複数のスケーリング規則を使って、予測誤差係数の前記現在のブロックに基づいて、再スケーリングされた誤差係数の現在のブロックを決定するよう構成されたスケーリング・ユニットをさらに有する、請求項40記載の変換ベースの発話エンコーダ。
- ・予測誤差係数の前記現在のブロックは、対応する複数の周波数ビンについての複数の予測誤差係数を含み、
・前記一つまたは複数のスケーリング規則に従って前記スケーリング・ユニットによって前記予測誤差係数に適用されるスケーリング利得は、それぞれの予測誤差係数の周波数ビンに依存する、
請求項41記載の変換ベースの発話エンコーダ。 - 前記スケーリング規則は、前記一つまたは複数の予測器パラメータに依存する、請求項41または42記載の変換ベースの発話エンコーダ。
- 前記スケーリング規則は、前記現在のブロック包絡に依存する、請求項41ないし43のうちいずれか一項記載の変換ベースの発話エンコーダ。
- ・前記予測器は、重み付けされた平均平方誤差基準を使って、推定された平坦化された変換係数の前記現在のブロックを決定するよう構成されており、
・前記重み付けされた平均平方誤差基準は、前記現在のブロック包絡を重みとして考慮に入れる、
請求項40ないし44のうちいずれか一項記載の変換ベースの発話エンコーダ。 - 前記係数量子化ユニットは、再スケーリングされた誤差係数の前記現在のブロックの再スケーリングされた誤差係数を量子化するよう構成されている、請求項41ないし45のうちいずれか一項記載の変換ベースの発話エンコーダ。
- ・変換ベースの発話エンコーダはさらに、前記現在のブロック包絡に基づいて割り当てベクトルを決定するよう構成されたビット割り当てユニットを有しており、
・前記割り当てベクトルは、予測誤差係数の前記現在のブロックから導出された第一の係数を量子化するために使われる前記一組のあらかじめ決定された量子化器からの第一の量子化器を示す、
請求項40ないし46のうちいずれか一項記載の変換ベースの発話エンコーダ。 - 前記割り当てベクトルは、それぞれ予測誤差係数の前記現在のブロックから導出された係数全部について使われる量子化器を示す、請求項47記載の変換ベースの発話エンコーダ。
- 前記ビット割り当てユニットは、
・予測誤差係数の前記現在のブロックについての係数データが所定のビット数を超えないよう前記割り当てベクトルを決定し;
・前記現在のブロック包絡から導出される割り当て包絡に適用されるべきオフセットを示すオフセット値を決定するよう構成されており、前記オフセット値は、前記ビットストリーム中に含められる、
請求項47または48記載の変換ベースの発話エンコーダ。 - ビットストリームをデコードして再構成された発話信号を提供するよう構成された変換ベースの発話デコーダであって、
・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ前記ビットストリームから導出される一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定するよう構成された予測器と;
・一組のあらかじめ決定された量子化器を使って、前記ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定するよう構成されたスペクトル・デコーダであって、前記スペクトル・デコーダは、前記一つまたは複数の予測器パラメータに依存して前記一組のあらかじめ決定された量子化器を決定するよう構成されている、スペクトル・デコーダと;
・推定された平坦化された変換係数の前記現在のブロックに基づき、かつ量子化された予測誤差係数の前記現在のブロックに基づいて、再構成された平坦化された変換係数の現在のブロックを決定するよう構成された加算ユニットと;
・現在のブロック包絡を使って、再構成された平坦化された変換係数の前記現在のブロックにスペクトル形状を与えることによって、再構成された変換係数の現在のブロックを決定するよう構成された逆平坦化ユニットを有しており、
前記再構成された発話信号は、再構成された変換係数の前記現在のブロックに基づいて決定される、
変換ベースの発話デコーダ。 - 前記一組のあらかじめ決定された量子化器は、
・異なる信号対雑音比をもつ異なる量子化器;および
・少なくとも一つのディザリングされる量子化器を含む、
請求項50記載の変換ベースの発話デコーダ。 - ・前記一つまたは複数の予測器パラメータは予測器利得を含み;
・前記予測器利得は、再構成された変換係数の前記現在のブロックについての再構成された変換係数の前記一つまたは複数の以前のブロックの関連度を示し;
・前記一組のあらかじめ決定された量子化器に含まれるディザリングされる量子化器の数は、前記予測器利得に依存する、
請求項51記載の変換ベースの発話デコーダ。 - 前記一組のあらかじめ決定された量子化器に含まれるディザリングされる量子化器の数は、予測器利得が増すとともに減少する、請求項52記載の変換ベースの発話デコーダ。
- ・前記スペクトル・デコーダは、あらかじめ決定された量子化器の第一の集合および第二の集合へのアクセスをもち、
・第二の集合は、量子化器の前記第一の集合より少数のディザリングされる量子化器を含み、
・前記スペクトル・デコーダは、前記予測器利得に基づいて集合基準を決定するよう構成されており、
・前記スペクトル・デコーダは、前記集合基準が所定の閾値より小さければあらかじめ決定された量子化器の前記第一の集合を使うよう構成されており、
・前記スペクトル・デコーダは、前記集合基準が前記所定の閾値以上であればあらかじめ決定された量子化器の前記第二の集合を使うよう構成されている、
請求項52または53記載の変換ベースの発話デコーダ。 - ・前記集合基準は前記予測器利得gに依存する所定の制御パラメータrfuを含み、
・前記所定の閾値は0.75である、
請求項54記載の変換ベースの発話デコーダ。 - 前記制御パラメータが
・rfu=min(1,max(g,0))である;または
・g<−1.0についてはrfu=1.0;−1.0≦g<0.0についてはrfu=−g;0.0≦g<1.0についてはrfu=g;1.0≦g<2.0についてはrfu=2.0−g;および/またはg≧2.0についてはrfu=0.0である、
請求項55記載の変換ベースの発話デコーダ。 - ・当該変換ベースの発話デコーダは、逆スケーリング規則を使って、量子化された予測誤差係数の前記現在のブロックの前記量子化された予測誤差係数を再スケーリングして、再スケーリングされた予測誤差係数の現在のブロックを与えるよう構成された逆再スケーリング・ユニットを有しており;
・前記加算ユニットは、再スケーリングされた予測誤差係数の前記現在のブロックを、推定された平坦化された変換係数の前記現在のブロックに加えることによって、再構成された平坦化された変換係数の前記現在のブロックを決定するよう構成されている、
請求項50ないし56のうちいずれか一項記載の変換ベースの発話デコーダ。 - ・前記逆スケーリング規則に従って前記逆スケーリング・ユニットによって前記量子化された予測誤差係数に適用されるスケーリング利得は、それぞれの量子化された予測誤差係数の周波数ビンに依存し;
・前記逆スケーリング規則は、対応する変換ベースの発話エンコーダのスケーリング・ユニットによって適用されるスケーリング規則の逆である、
請求項57記載の変換ベースの発話デコーダ。 - ・前記一つまたは複数の制御パラメータは分散保存フラグを含み;
・前記分散保存フラグは、量子化された予測誤差係数の前記現在のブロックの分散がどのように整形されるべきかを示し;
・前記一組のあらかじめ決定された量子化器は前記分散保存フラグに依存して決定される、
請求項50ないし58のうちいずれか一項記載の変換ベースの発話デコーダ。 - ・前記一組のあらかじめ決定された量子化器はノイズ合成量子化器を含み;
・前記ノイズ合成量子化器のノイズ利得が、前記分散保存フラグに依存する、
請求項59記載の変換ベースの発話デコーダ。 - ・前記一組のあらかじめ決定された量子化器はあるSNR範囲をカバーする一つまたは複数のディザリングされる量子化器を含み;
・前記SNR範囲は、前記分散保存フラグに依存して決定される、
請求項59ないし60のうちいずれか一項記載の変換ベースの発話デコーダ。 - ・前記一組のあらかじめ決定された量子化器は少なくとも一つのディザリングされる量子化器を有し;
・前記少なくとも一つのディザリングされる量子化器は、量子化された予測誤差係数を決定するときに、事後利得γを適用するよう構成されており;
・前記事後利得γは、前記分散保存フラグに依存する、
請求項59ないし61のうちいずれか一項記載の変換ベースの発話デコーダ。 - ・当該変換ベースの発話デコーダは、量子化された予測誤差係数の前記現在のブロックの前記量子化された予測誤差係数を再スケーリングして、再スケーリングされた予測誤差係数の現在のブロックを与えるよう構成された逆再スケーリング・ユニットを有しており;
・前記加算ユニットは、前記分散保存フラグに依存して、推定された平坦化された変換係数の前記現在のブロックに対して、再スケーリングされた予測誤差係数の前記現在のブロックを加えることによって、あるいは量子化された予測誤差係数の前記現在のブロックを加えることによって、再構成された平坦化された変換係数の前記現在のブロックを決定するよう構成されている、
請求項59ないし62のうちいずれか一項記載の変換ベースの発話デコーダ。 - 第一のセグメントを含むオーディオ信号をビットストリームにエンコードするよう構成された変換ベースのオーディオ・エンコーダであって、当該オーディオ・エンコーダは、
・前記オーディオ信号から前記第一のセグメントを識別するよう構成された信号分類器であって、前記第一のセグメントは、変換ベースの発話エンコーダによってエンコードされるべきものである、信号分類器と;
・前記第一のセグメントに基づいて変換係数の複数の逐次的なブロックを決定するよう構成された変換ユニットであって、変換係数のブロックは対応する複数の周波数ビンについての複数の変換係数を含み、前記変換ユニットは、第一の数の変換係数を含む長ブロックおよび第二の数の変換係数を含む短ブロックを決定するよう構成されており、前記第一の数は前記第二の数より大きく、前記複数の逐次的なブロックの諸ブロックは短ブロックである、変換ユニットと;
・前記複数の逐次的なブロックを前記ビットストリームにエンコードするよう構成された変換ベースの発話エンコーダとを有する、
変換ベースのオーディオ・エンコーダ。 - 前記オーディオ信号の前記第一のセグメント以外のセグメントをエンコードするよう構成された一般的な変換ベースのオーディオ・エンコーダをさらに有する、請求項64記載の変換ベースのオーディオ・エンコーダ。
- 前記一般的な変換ベースのオーディオ・エンコーダは、AACまたはHE-AACエンコーダである、請求項65記載の変換ベースのオーディオ・エンコーダ。
- ・前記変換ユニットはMDCTを実行するよう構成されている;および/または
・サンプルの前記第一の数は1024個である;および/または
・サンプルの前記第二の数は256個である、
請求項64ないし66のうちいずれか一項記載の変換ベースのオーディオ・エンコーダ。 - 第一のセグメントを含むオーディオ信号を示すビットストリームをデコードするよう構成された変換ベースのオーディオ・デコーダであって、当該オーディオ・デコーダは、
・前記ビットストリーム内に含まれるデータに基づいて、再構成された変換係数の複数の逐次的なブロックを決定するよう構成された変換ベースの発話デコーダと;
・再構成された変換係数の前記複数の逐次的なブロックに基づいて、再構成された第一のセグメントを決定するよう構成された逆変換ユニットであって、再構成された変換係数のブロックは、対応する複数の周波数ビンについて複数の再構成された変換係数を含み、前記逆変換ユニットは、第一の数の再構成された変換係数を含む長ブロックおよび第二の数の再構成された変換係数を含む短ブロックを処理するよう構成されており、前記第一の数は前記第二の数より大きく、前記複数の逐次的なブロックの諸ブロックは短ブロックである、逆変換ユニットとを有する、
変換ベースのオーディオ・デコーダ。 - 発話信号をビットストリームにエンコードする方法であって、
・一組のブロックを受領する段階であって、前記一組のブロックは、変換係数の複数の逐次的なブロックを含み、前記複数の逐次的なブロックは、前記発話信号のサンプルを示し、変換係数のブロックは、対応する複数の周波数ビンについての複数の変換係数を含む、段階と;
・変換係数の前記複数の逐次的なブロックに基づいて現在の包絡を決定する段階であって、前記現在の包絡は、前記対応する複数の周波数ビンについて複数のスペクトル・エネルギー値を示す、段階と;
・前記現在の包絡に基づいて、それぞれ変換係数の前記複数のブロックについて複数の補間された包絡を決定する段階と;
・それぞれ前記対応する複数の補間された包絡を使って変換係数の前記対応する複数のブロックを平坦化することによって、平坦化された変換係数の複数のブロックを決定する段階と;
・前記ビットストリームを、平坦化された変換係数の前記複数のブロックに基づいて決定する段階とを含む、
方法。 - ビットストリームをデコードして、再構成された発話信号を提供する方法であって、
・前記ビットストリーム内に含まれる包絡データから、量子化された現在の包絡を決定する段階であって、前記量子化された現在の包絡は、対応する複数の周波数ビンについての複数のスペクトル・エネルギー値を示し、前記ビットストリームは、再構成された平坦化された変換係数の複数の逐次的なブロックを示し、再構成された平坦化された変換係数のブロックは、前記対応する複数の周波数ビンについての複数の再構成された平坦化された変換係数を含む、段階と;
・前記量子化された現在の包絡に基づいて、それぞれ再構成された平坦化された変換係数の前記複数のブロックについて複数の補間された包絡を決定する段階と;
・それぞれ前記対応する複数の補間された包絡を使って、再構成された平坦化された変換係数の前記対応する複数のブロックにスペクトル形状を与えることによって、再構成された変換係数の複数のブロックを決定する段階と;
・前記再構成された発話信号を、再構成された変換係数の前記複数のブロックに基づいて決定する段階とを含む、
方法。 - 発話信号をビットストリームにエンコードする方法であって、
・現在のブロックおよび一つまたは複数の以前のブロックを含む、変換係数の複数の逐次的なブロックを受領する段階であって、前記複数の逐次的なブロックは前記発話信号のサンプルを示す、段階と;
・それぞれ対応する現在のブロック包絡および対応する一つまたは複数の以前のブロック包絡を使って変換係数の前記対応する現在のブロックおよび前記一つまたは複数の以前のブロックを平坦化することによって、平坦化された変換係数の現在のブロックおよび一つまたは複数の以前のブロックを決定する段階と;
・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定する段階であって、再構成された変換係数の前記一つまたは複数の以前のブロックは、それぞれ平坦化された変換係数の前記一つまたは複数の以前のブロックから導出されたものであり、推定された平坦化された変換係数の前記現在のブロックを決定する該段階は、
・再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定し、
・推定された変換係数の前記現在のブロックに基づき、前記一つまたは複数の以前のブロック包絡に基づき、かつ前記予測器パラメータに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定することを含む、段階と;
・
平坦化された変換係数の前記現在のブロックに基づいて、かつ推定された平坦化された変換係数の前記現在のブロックに基づいて、予測誤差係数の現在のブロックを決定する段階と;
・前記ビットストリームを、予測誤差係数の前記現在のブロックに基づいて決定する段階とを含む、
方法。 - ビットストリームをデコードして、再構成された発話信号を提供する方法であって、
・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ前記ビットストリームから導出される予測器パラメータに基づいて、推定された平坦化された変換係数の現在のブロックを決定する段階であって、推定された平坦化された変換係数の前記現在のブロックを決定する該段階は、
・再構成された変換係数の前記一つまたは複数の以前のブロックに基づき、かつ前記予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定し;
・推定された変換係数の前記現在のブロックに基づき、一つまたは複数の以前のブロック包絡に基づき、かつ前記予測器パラメータに基づいて、推定された平坦化された変換係数の前記現在のブロックを決定することを含む、段階と;
・前記ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定する段階と;
・推定された平坦化された変換係数の前記現在のブロックに基づき、かつ量子化された予測誤差係数の前記現在のブロックに基づいて、再構成された平坦化された変換係数の現在のブロックを決定する段階と;
・再構成された変換係数の現在のブロックを、現在のブロック包絡を使って、再構成された平坦化された変換係数の前記現在のブロックにスペクトル形状を与えることによって決定する段階と;
・再構成された変換係数の前記一つまたは複数の以前のブロックを、それぞれ前記一つまたは複数の以前のブロック包絡を使って、再構成された平坦化された変換係数の一つまたは複数の以前のブロックにスペクトル形状を与えることによって、決定する段階と;
・再構成された変換係数の前記現在のブロックおよび前記一つまたは複数の以前のブロックに基づいて、前記再構成された発話信号を決定する段階とを含む、
方法。 - 発話信号をビットストリームにエンコードする方法であって、
・現在のブロックおよび一つまたは複数の以前のブロックを含む、変換係数の複数の逐次的なブロックを受領する段階であって、前記複数の逐次的なブロックは前記発話信号のサンプルを示す、段階と;
・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定する段階であって、再構成された変換係数の前記一つまたは複数の以前のブロックは、変換係数の前記一つまたは複数の以前のブロックから導出されたものである、段階と;
・変換係数の前記現在のブロックに基づいて、かつ推定された変換係数の前記現在のブロックに基づいて、予測誤差係数の現在のブロックを決定する段階と;
・一組のあらかじめ決定された量子化器を使って、予測誤差係数の前記現在のブロックから導出される係数を量子化する段階であって、前記一組のあらかじめ決定された量子化器は、前記予測器パラメータに依存する、段階と;
・前記量子化された係数に基づいて前記ビットストリームについての係数データを決定する段階とを含む、
方法。 - ビットストリームをデコードして、再構成された発話信号を提供する方法であって、
・再構成された変換係数の一つまたは複数の以前のブロックに基づき、かつ前記ビットストリームから導出される予測器パラメータに基づいて、推定された変換係数の現在のブロックを決定する段階と;
・一組のあらかじめ決定された量子化器を使って、前記ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在のブロックを決定する段階であって、前記一組のあらかじめ決定された量子化器は、前記予測器パラメータの関数である、段階と;
・推定された変換係数の前記現在のブロックに基づき、かつ量子化された予測誤差係数の前記現在のブロックに基づいて、再構成された変換係数の現在のブロックを決定する段階と;
・前記再構成された発話信号を、再構成された変換係数の前記現在のブロックに基づいて決定する段階とを含む、
方法。 - 発話セグメントを含むオーディオ信号をビットストリームにエンコードする方法であって、
・前記オーディオ信号から前記発話セグメントを識別する段階と;
・変換ユニットを使って、前記発話セグメントに基づいて変換係数の複数の逐次的なブロックを決定する段階であって、前記変換ユニットは、第一の数の変換係数を含む長ブロックおよび第二の数の変換係数を含む短ブロックを決定するよう構成されており、前記第一の数は前記第二の数より大きく、前記複数の逐次的なブロックの諸ブロックは、短ブロックである、段階と;
・前記複数の逐次的なブロックを前記ビットストリームにエンコードする段階とを含む、
方法。 - 発話セグメントを含むオーディオ信号を示すビットストリームをデコードする方法であって、
・前記ビットストリーム内に含まれるデータに基づいて、再構成された変換係数の複数の逐次的なブロックを決定する段階と;
・逆変換ユニットを使って、再構成された変換係数の前記複数の逐次的なブロックに基づいて、再構成された発話セグメントを決定する段階であって、再構成された変換係数のブロックは対応する複数の周波数ビンについての複数の再構成された変換係数を含み、前記逆変換ユニットは、第一の数の再構成された変換係数を含む長ブロックおよび第二の数の再構成された変換係数を含む短ブロックを処理するよう構成されており、前記第一の数は前記第二の数より大きく、前記複数の逐次的なブロックの諸ブロックは短ブロックである、
方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361808675P | 2013-04-05 | 2013-04-05 | |
US61/808,675 | 2013-04-05 | ||
US201361875553P | 2013-09-09 | 2013-09-09 | |
US61/875,553 | 2013-09-09 | ||
PCT/EP2014/056851 WO2014161991A2 (en) | 2013-04-05 | 2014-04-04 | Audio encoder and decoder |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016514857A true JP2016514857A (ja) | 2016-05-23 |
JP6227117B2 JP6227117B2 (ja) | 2017-11-08 |
Family
ID=50439392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016505841A Active JP6227117B2 (ja) | 2013-04-05 | 2014-04-04 | オーディオ・エンコーダおよびデコーダ |
Country Status (20)
Country | Link |
---|---|
US (4) | US10043528B2 (ja) |
EP (3) | EP2981958B1 (ja) |
JP (1) | JP6227117B2 (ja) |
KR (5) | KR102028888B1 (ja) |
CN (2) | CN109712633B (ja) |
AU (6) | AU2014247000B2 (ja) |
BR (3) | BR122020017853B1 (ja) |
CA (6) | CA2948694C (ja) |
DK (1) | DK2981958T3 (ja) |
ES (1) | ES2665599T3 (ja) |
HK (2) | HK1218802A1 (ja) |
HU (1) | HUE039143T2 (ja) |
IL (5) | IL294836A (ja) |
MX (1) | MX343673B (ja) |
MY (1) | MY176447A (ja) |
PL (1) | PL2981958T3 (ja) |
RU (3) | RU2630887C2 (ja) |
SG (1) | SG11201507703SA (ja) |
UA (1) | UA114967C2 (ja) |
WO (1) | WO2014161991A2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2665599T3 (es) | 2013-04-05 | 2018-04-26 | Dolby International Ab | Codificador y descodificador de audio |
JP6276846B2 (ja) * | 2014-05-01 | 2018-02-07 | 日本電信電話株式会社 | 周期性統合包絡系列生成装置、周期性統合包絡系列生成方法、周期性統合包絡系列生成プログラム、記録媒体 |
AU2015291897B2 (en) * | 2014-07-25 | 2019-02-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Acoustic signal encoding device, acoustic signal decoding device, method for encoding acoustic signal, and method for decoding acoustic signal |
US9530400B2 (en) * | 2014-09-29 | 2016-12-27 | Nuance Communications, Inc. | System and method for compressed domain language identification |
US10210871B2 (en) * | 2016-03-18 | 2019-02-19 | Qualcomm Incorporated | Audio processing for temporally mismatched signals |
CN106782573B (zh) * | 2016-11-30 | 2020-04-24 | 北京酷我科技有限公司 | 一种编码生成aac文件的方法 |
DK3642839T3 (da) * | 2017-06-19 | 2022-07-04 | Rtx As | Audiosignalkodning og -afkodning |
CN110764422A (zh) * | 2018-07-27 | 2020-02-07 | 珠海格力电器股份有限公司 | 电器的控制方法和装置 |
EP3751567B1 (en) | 2019-06-10 | 2022-01-26 | Axis AB | A method, a computer program, an encoder and a monitoring device |
BR112022010062A2 (pt) * | 2019-11-27 | 2022-09-06 | Fraunhofer Ges Forschung | Codificador, decodificador, aparelho para ocultação de perda de quadro, sistema e métodos |
CN112201283B (zh) * | 2020-09-09 | 2022-02-08 | 北京小米松果电子有限公司 | 音频播放方法及装置 |
US11935546B2 (en) * | 2021-08-19 | 2024-03-19 | Semiconductor Components Industries, Llc | Transmission error robust ADPCM compressor with enhanced response |
WO2023056920A1 (en) * | 2021-10-05 | 2023-04-13 | Huawei Technologies Co., Ltd. | Multilayer perceptron neural network for speech processing |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0844399A (ja) * | 1994-03-17 | 1996-02-16 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号変換符号化方法および復号化方法 |
JP2002123298A (ja) * | 2000-10-18 | 2002-04-26 | Nippon Telegr & Teleph Corp <Ntt> | 信号符号化方法、装置及び信号符号化プログラムを記録した記録媒体 |
JP2014515124A (ja) * | 2011-04-28 | 2014-06-26 | ドルビー・インターナショナル・アーベー | 効率的なコンテンツ分類及びラウドネス推定 |
Family Cites Families (83)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1062963C (zh) * | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
JP3123286B2 (ja) * | 1993-02-18 | 2001-01-09 | ソニー株式会社 | ディジタル信号処理装置又は方法、及び記録媒体 |
US5684920A (en) * | 1994-03-17 | 1997-11-04 | Nippon Telegraph And Telephone | Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein |
US5751903A (en) | 1994-12-19 | 1998-05-12 | Hughes Electronics | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset |
SE506379C3 (sv) * | 1995-03-22 | 1998-01-19 | Ericsson Telefon Ab L M | Lpc-talkodare med kombinerad excitation |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6370502B1 (en) * | 1999-05-27 | 2002-04-09 | America Online, Inc. | Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec |
US7039581B1 (en) * | 1999-09-22 | 2006-05-02 | Texas Instruments Incorporated | Hybrid speed coding and system |
US6978236B1 (en) | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US7254116B2 (en) * | 2000-04-07 | 2007-08-07 | Broadcom Corporation | Method and apparatus for transceiver noise reduction in a frame-based communications network |
EP1279167B1 (en) * | 2000-04-24 | 2007-05-30 | QUALCOMM Incorporated | Method and apparatus for predictively quantizing voiced speech |
SE0001926D0 (sv) | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
US6636830B1 (en) * | 2000-11-22 | 2003-10-21 | Vialta Inc. | System and method for noise reduction using bi-orthogonal modified discrete cosine transform |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
US6963842B2 (en) | 2001-09-05 | 2005-11-08 | Creative Technology Ltd. | Efficient system and method for converting between different transform-domain signal representations |
US6988066B2 (en) * | 2001-10-04 | 2006-01-17 | At&T Corp. | Method of bandwidth extension for narrow-band speech |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
WO2003077425A1 (fr) * | 2002-03-08 | 2003-09-18 | Nippon Telegraph And Telephone Corporation | Procedes de codage et de decodage signaux numeriques, dispositifs de codage et de decodage, programme de codage et de decodage de signaux numeriques |
WO2003091989A1 (en) * | 2002-04-26 | 2003-11-06 | Matsushita Electric Industrial Co., Ltd. | Coding device, decoding device, coding method, and decoding method |
RU2321901C2 (ru) | 2002-07-16 | 2008-04-10 | Конинклейке Филипс Электроникс Н.В. | Аудиокодирование |
SG108862A1 (en) * | 2002-07-24 | 2005-02-28 | St Microelectronics Asia | Method and system for parametric characterization of transient audio signals |
US7634399B2 (en) * | 2003-01-30 | 2009-12-15 | Digital Voice Systems, Inc. | Voice transcoder |
US7318027B2 (en) * | 2003-02-06 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Conversion of synthesized spectral components for encoding and low-complexity transcoding |
WO2004082288A1 (en) | 2003-03-11 | 2004-09-23 | Nokia Corporation | Switching between coding schemes |
US8359197B2 (en) * | 2003-04-01 | 2013-01-22 | Digital Voice Systems, Inc. | Half-rate vocoder |
KR101000345B1 (ko) * | 2003-04-30 | 2010-12-13 | 파나소닉 주식회사 | 음성 부호화 장치, 음성 복호화 장치 및 그 방법 |
US7460684B2 (en) * | 2003-06-13 | 2008-12-02 | Nielsen Media Research, Inc. | Method and apparatus for embedding watermarks |
US7325023B2 (en) | 2003-09-29 | 2008-01-29 | Sony Corporation | Method of making a window type decision based on MDCT data in audio encoding |
NZ562188A (en) * | 2005-04-01 | 2010-05-28 | Qualcomm Inc | Methods and apparatus for encoding and decoding an highband portion of a speech signal |
EP1760696B1 (en) * | 2005-09-03 | 2016-02-03 | GN ReSound A/S | Method and apparatus for improved estimation of non-stationary noise for speech enhancement |
US8396717B2 (en) * | 2005-09-30 | 2013-03-12 | Panasonic Corporation | Speech encoding apparatus and speech encoding method |
RU2427978C2 (ru) * | 2006-02-21 | 2011-08-27 | Конинклейке Филипс Электроникс Н.В. | Кодирование и декодирование аудио |
US7590523B2 (en) | 2006-03-20 | 2009-09-15 | Mindspeed Technologies, Inc. | Speech post-processing using MDCT coefficients |
US20070270987A1 (en) * | 2006-05-18 | 2007-11-22 | Sharp Kabushiki Kaisha | Signal processing method, signal processing apparatus and recording medium |
EP1870880B1 (en) | 2006-06-19 | 2010-04-07 | Sharp Kabushiki Kaisha | Signal processing method, signal processing apparatus and recording medium |
US7987089B2 (en) | 2006-07-31 | 2011-07-26 | Qualcomm Incorporated | Systems and methods for modifying a zero pad region of a windowed frame of an audio signal |
US8135047B2 (en) * | 2006-07-31 | 2012-03-13 | Qualcomm Incorporated | Systems and methods for including an identifier with a packet associated with a speech signal |
EP2958106B1 (en) * | 2006-10-11 | 2018-07-18 | The Nielsen Company (US), LLC | Methods and apparatus for embedding codes in compressed audio data streams |
DK2102619T3 (en) * | 2006-10-24 | 2017-05-15 | Voiceage Corp | METHOD AND DEVICE FOR CODING TRANSITION FRAMEWORK IN SPEECH SIGNALS |
RU2420815C2 (ru) | 2006-10-25 | 2011-06-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для генерации значений подполос звукового сигнала и устройство и способ для генерации отсчетов звукового сигнала во временной области |
US20100017197A1 (en) | 2006-11-02 | 2010-01-21 | Panasonic Corporation | Voice coding device, voice decoding device and their methods |
FR2912249A1 (fr) * | 2007-02-02 | 2008-08-08 | France Telecom | Codage/decodage perfectionnes de signaux audionumeriques. |
US8214200B2 (en) | 2007-03-14 | 2012-07-03 | Xfrm, Inc. | Fast MDCT (modified discrete cosine transform) approximation of a windowed sinusoid |
EP2165328B1 (en) * | 2007-06-11 | 2018-01-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding of an audio signal having an impulse-like portion and a stationary portion |
KR101411901B1 (ko) | 2007-06-12 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화/복호화 방법 및 장치 |
EP2015293A1 (en) | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
JP5539203B2 (ja) * | 2007-08-27 | 2014-07-02 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 改良された音声及びオーディオ信号の変換符号化 |
EP2191467B1 (en) | 2007-09-12 | 2011-06-22 | Dolby Laboratories Licensing Corporation | Speech enhancement |
KR101373004B1 (ko) * | 2007-10-30 | 2014-03-26 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 장치 및 방법 |
US9177569B2 (en) * | 2007-10-30 | 2015-11-03 | Samsung Electronics Co., Ltd. | Apparatus, medium and method to encode and decode high frequency signal |
CN101465122A (zh) | 2007-12-20 | 2009-06-24 | 株式会社东芝 | 语音的频谱波峰的检测以及语音识别方法和系统 |
ATE500588T1 (de) | 2008-01-04 | 2011-03-15 | Dolby Sweden Ab | Audiokodierer und -dekodierer |
CN101527138B (zh) * | 2008-03-05 | 2011-12-28 | 华为技术有限公司 | 超宽带扩展编码、解码方法、编解码器及超宽带扩展系统 |
CN101971251B (zh) * | 2008-03-14 | 2012-08-08 | 杜比实验室特许公司 | 像言语的信号和不像言语的信号的多模式编解码方法及装置 |
CN101572586B (zh) * | 2008-04-30 | 2012-09-19 | 北京工业大学 | 编解码方法、装置及系统 |
RU2536679C2 (ru) * | 2008-07-11 | 2014-12-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен | Передатчик сигнала активации с деформацией по времени, кодер звукового сигнала, способ преобразования сигнала активации с деформацией по времени, способ кодирования звукового сигнала и компьютерные программы |
AU2009267525B2 (en) * | 2008-07-11 | 2012-12-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio signal synthesizer and audio signal encoder |
KR20100007738A (ko) * | 2008-07-14 | 2010-01-22 | 한국전자통신연구원 | 음성/오디오 통합 신호의 부호화/복호화 장치 |
US8407046B2 (en) | 2008-09-06 | 2013-03-26 | Huawei Technologies Co., Ltd. | Noise-feedback for spectral envelope quantization |
US8352279B2 (en) | 2008-09-06 | 2013-01-08 | Huawei Technologies Co., Ltd. | Efficient temporal envelope coding approach by prediction between low band signal and high band signal |
WO2010028301A1 (en) | 2008-09-06 | 2010-03-11 | GH Innovation, Inc. | Spectrum harmonic/noise sharpness control |
US8463603B2 (en) * | 2008-09-06 | 2013-06-11 | Huawei Technologies Co., Ltd. | Spectral envelope coding of energy attack signal |
GB2466671B (en) * | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
EP3751570B1 (en) | 2009-01-28 | 2021-12-22 | Dolby International AB | Improved harmonic transposition |
US8848788B2 (en) * | 2009-05-16 | 2014-09-30 | Thomson Licensing | Method and apparatus for joint quantization parameter adjustment |
RU2591661C2 (ru) * | 2009-10-08 | 2016-07-20 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Многорежимный декодировщик аудио сигнала, многорежимный кодировщик аудио сигналов, способы и компьютерные программы с использованием кодирования с линейным предсказанием на основе ограничения шума |
MX2012004593A (es) * | 2009-10-20 | 2012-06-08 | Fraunhofer Ges Forschung | Codec multimodo de audio y codificacion de celp adaptada a este. |
JP5316896B2 (ja) * | 2010-03-17 | 2013-10-16 | ソニー株式会社 | 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム |
US8600737B2 (en) * | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
PL2591470T3 (pl) * | 2010-07-08 | 2019-05-31 | Fraunhofer Ges Forschung | Koder wykorzystujący kasowanie aliasingu w przód |
US9047875B2 (en) | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
US8560330B2 (en) | 2010-07-19 | 2013-10-15 | Futurewei Technologies, Inc. | Energy envelope perceptual correction for high band coding |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
CN102436820B (zh) | 2010-09-29 | 2013-08-28 | 华为技术有限公司 | 高频带信号编码方法及装置、高频带信号解码方法及装置 |
CN103229235B (zh) * | 2010-11-24 | 2015-12-09 | Lg电子株式会社 | 语音信号编码方法和语音信号解码方法 |
TWI469136B (zh) | 2011-02-14 | 2015-01-11 | Fraunhofer Ges Forschung | 在一頻譜域中用以處理已解碼音訊信號之裝置及方法 |
EP2727105B1 (en) | 2011-06-30 | 2015-08-12 | Telefonaktiebolaget LM Ericsson (PUBL) | Transform audio codec and methods for encoding and decoding a time segment of an audio signal |
DK2791937T3 (en) * | 2011-11-02 | 2016-09-12 | ERICSSON TELEFON AB L M (publ) | Generation of an højbåndsudvidelse of a broadband extended buzzer |
EP2830062B1 (en) * | 2012-03-21 | 2019-11-20 | Samsung Electronics Co., Ltd. | Method and apparatus for high-frequency encoding/decoding for bandwidth extension |
EP2903004A4 (en) * | 2012-09-24 | 2016-11-16 | Samsung Electronics Co Ltd | METHOD AND APPARATUS FOR HAMPERING FRAME ERRORS, AND METHOD AND APPARATUS FOR DECODING AUDIO DATA |
CN107452392B (zh) | 2013-01-08 | 2020-09-01 | 杜比国际公司 | 临界采样滤波器组中的基于模型的预测 |
ES2665599T3 (es) * | 2013-04-05 | 2018-04-26 | Dolby International Ab | Codificador y descodificador de audio |
US9487224B1 (en) * | 2015-09-22 | 2016-11-08 | Siemens Industry, Inc. | Mechanically extendable railroad crossing gate |
-
2014
- 2014-04-04 ES ES14715307.6T patent/ES2665599T3/es active Active
- 2014-04-04 EP EP14715307.6A patent/EP2981958B1/en active Active
- 2014-04-04 RU RU2015147276A patent/RU2630887C2/ru active
- 2014-04-04 CN CN201910177919.0A patent/CN109712633B/zh active Active
- 2014-04-04 EP EP19200800.1A patent/EP3671738A1/en active Pending
- 2014-04-04 CA CA2948694A patent/CA2948694C/en active Active
- 2014-04-04 KR KR1020167029688A patent/KR102028888B1/ko active IP Right Grant
- 2014-04-04 WO PCT/EP2014/056851 patent/WO2014161991A2/en active Application Filing
- 2014-04-04 CN CN201480024367.5A patent/CN105247614B/zh active Active
- 2014-04-04 PL PL14715307T patent/PL2981958T3/pl unknown
- 2014-04-04 BR BR122020017853-1A patent/BR122020017853B1/pt active IP Right Grant
- 2014-04-04 MY MYPI2015703311A patent/MY176447A/en unknown
- 2014-04-04 DK DK14715307.6T patent/DK2981958T3/en active
- 2014-04-04 RU RU2017129566A patent/RU2740690C2/ru active
- 2014-04-04 CA CA2997882A patent/CA2997882C/en active Active
- 2014-04-04 BR BR122020017837-0A patent/BR122020017837B1/pt active IP Right Grant
- 2014-04-04 IL IL294836A patent/IL294836A/en unknown
- 2014-04-04 UA UAA201510735A patent/UA114967C2/uk unknown
- 2014-04-04 JP JP2016505841A patent/JP6227117B2/ja active Active
- 2014-04-04 KR KR1020197028066A patent/KR102150496B1/ko active IP Right Grant
- 2014-04-04 US US14/781,219 patent/US10043528B2/en active Active
- 2014-04-04 KR KR1020217011662A patent/KR102383819B1/ko active IP Right Grant
- 2014-04-04 CA CA3029037A patent/CA3029037C/en active Active
- 2014-04-04 KR KR1020207024594A patent/KR102245916B1/ko active Application Filing
- 2014-04-04 IL IL278164A patent/IL278164B/en unknown
- 2014-04-04 EP EP18154660.7A patent/EP3352167B1/en active Active
- 2014-04-04 CA CA3029041A patent/CA3029041C/en active Active
- 2014-04-04 AU AU2014247000A patent/AU2014247000B2/en active Active
- 2014-04-04 KR KR1020157027587A patent/KR101739789B1/ko active IP Right Grant
- 2014-04-04 CA CA2908625A patent/CA2908625C/en active Active
- 2014-04-04 HU HUE14715307A patent/HUE039143T2/hu unknown
- 2014-04-04 SG SG11201507703SA patent/SG11201507703SA/en unknown
- 2014-04-04 RU RU2017129552A patent/RU2740359C2/ru active
- 2014-04-04 CA CA3029033A patent/CA3029033C/en active Active
- 2014-04-04 MX MX2015013927A patent/MX343673B/es active IP Right Grant
- 2014-04-04 BR BR112015025139-0A patent/BR112015025139B1/pt active IP Right Grant
-
2015
- 2015-09-21 IL IL241739A patent/IL241739A/en active IP Right Grant
-
2016
- 2016-06-10 HK HK16106671.5A patent/HK1218802A1/zh unknown
-
2017
- 2017-03-20 AU AU2017201872A patent/AU2017201872B2/en active Active
- 2017-03-20 AU AU2017201874A patent/AU2017201874B2/en active Active
- 2017-06-04 IL IL252640A patent/IL252640B/en active IP Right Grant
-
2018
- 2018-03-25 IL IL258331A patent/IL258331B/en active IP Right Grant
- 2018-07-11 US US16/032,921 patent/US10515647B2/en active Active
- 2018-08-09 HK HK18110247.0A patent/HK1250836A1/zh unknown
- 2018-11-07 AU AU2018260843A patent/AU2018260843B2/en active Active
-
2019
- 2019-12-18 US US16/719,857 patent/US11621009B2/en active Active
-
2020
- 2020-12-02 AU AU2020281040A patent/AU2020281040B2/en active Active
-
2023
- 2023-01-13 AU AU2023200174A patent/AU2023200174B2/en active Active
- 2023-03-31 US US18/194,251 patent/US20230238011A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0844399A (ja) * | 1994-03-17 | 1996-02-16 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号変換符号化方法および復号化方法 |
JP2002123298A (ja) * | 2000-10-18 | 2002-04-26 | Nippon Telegr & Teleph Corp <Ntt> | 信号符号化方法、装置及び信号符号化プログラムを記録した記録媒体 |
JP2014515124A (ja) * | 2011-04-28 | 2014-06-26 | ドルビー・インターナショナル・アーベー | 効率的なコンテンツ分類及びラウドネス推定 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6227117B2 (ja) | オーディオ・エンコーダおよびデコーダ | |
JP6779966B2 (ja) | 先進量子化器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170912 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171010 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6227117 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |