JP7371133B2 - 時間反転されたオーディオサブフレームエラー隠蔽 - Google Patents
時間反転されたオーディオサブフレームエラー隠蔽 Download PDFInfo
- Publication number
- JP7371133B2 JP7371133B2 JP2021573331A JP2021573331A JP7371133B2 JP 7371133 B2 JP7371133 B2 JP 7371133B2 JP 2021573331 A JP2021573331 A JP 2021573331A JP 2021573331 A JP2021573331 A JP 2021573331A JP 7371133 B2 JP7371133 B2 JP 7371133B2
- Authority
- JP
- Japan
- Prior art keywords
- time
- subframe
- peak
- spectrum
- reversed phase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001228 spectrum Methods 0.000 claims description 169
- 238000000034 method Methods 0.000 claims description 78
- 230000005236 sound signal Effects 0.000 claims description 35
- 230000003595 spectral effect Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 description 54
- 238000012937 correction Methods 0.000 description 40
- 238000010586 diagram Methods 0.000 description 21
- 238000004590 computer program Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 17
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 13
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 125000004122 cyclic group Chemical class 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000005067 remediation Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
のスペクトルを取得する。ある実施形態においては、サブフレームスペクトルは、再構築された時間ドメイン合成
から取得されることが可能であり、この場合、nはサンプルインデックスである。図2における破線の枠は、周波数ドメイン処理がメモリおよびPLCモジュールの前または後のいずれかに行われることが可能であるということを示している。サブフレームウィンドウ処理関数w1(n)およびw2(n)を用いて
に乗算を行い、
に従ってDFT変換を適用することによって、スペクトルが取得されることが可能であり、この場合、Nは、サブフレームウィンドウの長さを示し、Nstep12は、第1および第2のサブフレームの始点間のサンプルどうしにおける距離である。サブフレームウィンドウ処理関数w1(n)およびw2(n)は、互いのミラーリングされたまたは時間反転されたバージョンである。ここで、サブフレームスペクトルは、図2において概説されているシステムと同様に、デコーダ時間ドメイン合成から取得される。それらの実施形態は、図1において概説されているように、デコーダが直接サブフレームスペクトルを再構築するシステムに関して等しく適用可能であるということに留意されたい。それぞれの正しく受信されデコードされたオーディオフレームmに関して、第2のサブフレーム
に対応するスペクトルがメモリに格納される。
は、ピークを分数周波数スケールで検知するピーク検知器アルゴリズムへ入力される。ピークのセット
F={fi},i=1,2,…Npeaks
が検知されることが可能であり、それらは、それらの推定された分数周波数fiによって表され、この場合、Npeaksは、検知されたピークの数である。正弦波コーディングパラダイムと同様に、スペクトルのピークは、特定の振幅、周波数、および位相を伴う正弦波を用いてモデル化される。分数周波数は、DFTビンの分数として表されることが可能であり、それによって、たとえばナイキスト周波数は、f=N/2+1で見出される。それぞれのピークは、そのピークを表す周波数ビンの数に関連付けられることが可能である。これらは、
のように、分数周波数を最も近い整数に丸めて、隣り合うビン、たとえば、それぞれの側のNnear個のピークを含めることによって見出され、この場合、[・]は、丸め演算を表し、Giは、周波数fiでのピークを表すビンのグループである。Nnearという数は、システムを設計する際に特定されることが可能である調整定数である。より大きなNnearは、それぞれのピーク表示におけるさらに高い精度を提供するが、モデル化されることが可能であるピークどうしの間におけるさらに大きな距離ももたらす。Nnearに関する適切な値は、1または2である場合がある。隠蔽スペクトル
のピークは、ビンのこれらのグループを使用することによって形成されることが可能であり、この場合、それぞれのグループに位相調整が適用されている。位相調整は、最後の正しく受信されデコードされたフレームと隠蔽フレームとの間において周波数が同じままであると想定して、基礎をなす正弦波における位相での変化を考慮する。位相調整は、前のフレームの分析フレームと、現在のフレームが開始するであろう場所との間における分数周波数およびサンプル数に基づく。図3において示されているように、このサンプル数は、最後の受信されたフレームの第2のサブフレームの始まりと、第1のECUフレームの第1のサブフレームの始まりとの間におけるNstep21、および最後の受信されたフレームの第1のサブフレームと、第1のECUフレームの第1のサブフレームとの間におけるNfullである。Nfullはまた、最後の受信されたフレームの第2のサブフレームと、第1のECUフレームの第2のサブフレームとの間における距離を与えるということに留意されたい。
Δφi=-2φi-2πfi (N+Nstep21+(Nlost-1)Nfull)/N
として書かれることが可能であり、この場合、Nlostは、連続した失われたフレームの数を示し、φiは、周波数fiでの正弦波の位相を示す。(Nlost-1)Nfullという項は、バーストエラーに関する位相進行を取り扱い、この場合、ステップは、フルフレームのフレーム長Nfullでインクリメントされる。第1の失われたフレームに関しては、Nlost=1である。スペクトル
の周波数ビンを中心とする周波数に関しては、位相φiは、単に角度
を抽出することによって容易に利用可能であり、この場合、ki=[fi]である。
この場合、
は、それぞれ切り捨ておよび切り上げのための演算子を表す。しかしながら、この推定方法は不安定であることが判明した。この推定方法はさらに、2相抽出を必要とし、これは、a+biという標準形式での複素数を用いてスペクトルが表されるケースにおいて、計算の面で複雑なarctan関数を必要とする。計算の面での比較的低い複雑さで信頼できると判明した別の位相推定は、
ffrac=fi-ki
であり、この場合、ffracは丸め誤差であり、φCは、適用されるウィンドウ形状に依存する調整定数である。この実施形態のウィンドウ形状に関しては、適切な値はφC=0.33であると判明した。別のウィンドウ形状に関しては、適切な値はφC=0.48であると判明した。一般には、適切な値は[0.1,0.7]の範囲で見つかることが可能であると予想される。
オペレーション502において、時間反転された位相調整Δφiが、上で説明されているように導出される。
アスタリスク「*」は、複素共役を示し、これは、オペレーション504において信号の時間反転を与える。これは、第1のECUサブフレームの時間反転をもたらす。逆DFTの後に時間ドメインにおいて反転を実行することが可能である場合もあるということに留意されたい。しかしながら、
が完全なスペクトルの一部を表すだけである場合、これは、残りのスペクトルが、たとえばDFT分析の前に時間反転によって前処理されることを必要とする。
の残りのビンは、ノイズスペクトルまたはスペクトルのノイズ成分と呼ばれる場合がある。それらは、ランダムな位相が適用されている状態の格納されているスペクトルの係数を使用して投入されることが可能であり、
この場合、φrandはランダムな位相の値を示す。残りのビンは、信号の望ましい特性、たとえばマルチチャネルデコーダシステムにおける第2のチャネルとの相関を保持するスペクトル係数を用いて投入されることも可能である。オペレーション505において、ピークスペクトル
(この場合、k∈Gi)が、ノイズスペクトル
(この場合、
)と組み合わされて、組み合わされたスペクトルを形成する。
Δφi=2πfiNfullNlost/N
正弦波成分の開始位相がφ0であり、正弦波の周波数がfであると想定されたい。Nstep個のサンプルだけ進んだ後の正弦波の望ましい位相φ1は、下記のとおりである。
φ1=φ0+2πfNstep/N
φ2=-φ1-2πf(N-1)/N
φ0+Δφ=φ2⇒Δφ=φ2-φ0
Δφ=-2φ0-2πf(Nstep+N-1)/N
Δφ=-2φ0-2πf(N+Nstep-1+(Nlost-1)Nfull)/N,
Δφ=-2φ0-2πf(N+Nstep-1+(Nlost-1)Nfull)/N+2πk/N
Δφ=-2φ0-2πf(N+Nstep-1+(Nlost-1)Nfull)/N+2πf/N=
-2φ0-2πf(N+Nstep+(Nlost-1)Nfull)/N
Δφ=-2φ0-2πf(Nstep+Nlost・N)/N
φm=φ0+φfrac
φfrac=πffrac
ffrac=fi-ki
ki=[fi]
この場合、[・]は、丸め演算を示す。正の角度として表されるφεは、ffracとの線形関係によって近似されることが可能であるということも判明した。図8においては、角度φεは、周波数fの関数として表されている。図8のノコギリ歯形状を観察すると、φεの良好な近似値は、下記のとおりであると判明した。
φε=-ffracφC
この場合、φCは定数である。一実施形態においては、φCは、φC=0.33に設定されることが可能であり、これは、ごく近い近似値を生み出す。φ0は、明示的には知られていないので、φmの交互近似が、下記のように書かれることが可能である。
この場合、
は、最初の位相調整ステップの後の丸められた周波数ビンkiで見出された最大ピーク係数の位相である。
これは、上で使用されている位相近似である。
この場合、Nは、サブフレームウィンドウの長さを示し、サブフレームウィンドウ処理関数w1(n)は、連続したサブフレームのうちの第1のサブフレーム
に関するサブフレームウィンドウ処理関数であり、w2(n)は、連続したサブフレームのうちの第2のサブフレーム
に関するサブフレームウィンドウ処理関数であり、Nstep12は、第1の2つの連続したサブフレームのうちの第1のサブフレームと、第1の2つの連続したサブフレームのうちの第2のサブフレームとの間におけるサンプル数である。
に対応するスペクトルは、
など、メモリに格納される。正しく受信されたフレームに関して、デコーダデバイス900は、上述され図4において示されているように、周波数ドメイン処理ステップを実行することを進めて、逆DFT変換を実行し、オーバーラップ加算戦略を使用して出力オーディオを再構築することが可能である。オーバーラップ加算の原理は、サブフレームおよびフレームの両方に関して同じであるということに留意されたい。フレームの作成は、サブフレーム上にオーバーラップ加算を適用することを必要とし、その一方で最終的な出力フレームは、フレームどうしの間におけるオーバーラップ加算演算の結果である。
この場合、φiは、周波数fiでの推定された位相であり、
は、周波数ビンkiでのスペクトル
の角度であり、ffracは丸め誤差であり、φCは調整定数であり、kiは[fi]である。調整定数φCは、0.1と0.7との間における範囲の値であることが可能である。
サブフレームベースで周波数スペクトルを生成すること(1000)であって、オーディオ信号の連続したサブフレームが、それらの連続したサブフレームのうちの第1のサブフレームの適用されたウィンドウ形状がそれらの連続したサブフレームのうちの第2のサブフレームのミラーリングされたバージョンまたは時間反転されたバージョンであるという特性を有する、周波数スペクトルを生成すること(1000)と、
不良フレームインジケータを受信すること(1002)と、
オーディオ信号の以前に受信されたオーディオフレームの信号スペクトルのピークを分数周波数スケールで検知すること(1008)であって、以前に受信されたそのオーディオフレームが、不良フレームインジケータを受信する前に受信された、分数周波数スケールで検知すること(1008)と、
ピークのうちのそれぞれの位相を推定すること(1012)と、
推定された位相に基づいて信号スペクトルのピークに適用するための時間反転された位相補正を導出すること(1014)と、
時間反転された位相補正を信号スペクトルのピークに適用して、時間反転された位相補正を施されたピークを形成すること(1016)と、
時間反転を隠蔽オーディオサブフレームに適用すること(1018)と、
時間反転された位相補正を施されたピークを信号スペクトルのノイズスペクトルと組み合わせて、隠蔽オーディオサブフレームに関する組み合わされたスペクトルを形成すること(1020)と、
組み合わされたスペクトルに基づいて、合成された隠蔽オーディオサブフレームを生成すること(1022)とを含む方法。
少なくとも2つの連続した隠蔽サブフレームのうちの第2の隠蔽サブフレームに関する信号スペクトルのピークに適用するための時間反転されていない位相補正を導出すること(1024)と、
時間反転されていない位相補正を第2のサブフレームに関する信号スペクトルのピークに適用して、時間反転されていない位相補正を施されたピークを形成すること(1026)と、
時間反転されていない位相補正を施されたピークを信号スペクトルのノイズスペクトルと組み合わせて、第2の隠蔽サブフレームに関する組み合わされたスペクトルを形成すること(1028)と、
組み合わされたスペクトルに基づいて第2の合成された隠蔽オーディオサブフレームを生成すること(1030)とを含む、実施形態1の方法。
をさらに含む、実施形態1から6のいずれか1つの方法。
をさらに含む、実施形態8のいずれか1つの方法。
下記に従って、時間反転された位相補正を施されたピークのピークに関する位相推定を計算することを含み、
この場合、φiが、周波数fiでの推定された位相であり、
が、周波数ビンkiでのスペクトル
の角度であり、ffracが丸め誤差であり、φCが調整定数であり、kiが[fi]である、実施形態1から9のいずれか1つの方法。
Δφi=2πfiNfullNlost/N
この場合、Δφiが、周波数fiでの正弦波の位相補正を示し、Nfullが、2つのフレームの間におけるサンプル数を示し、Nlostが、連続した失われたフレームの数を示し、Nが、サブフレームウィンドウの長さを示す、実施形態10の方法。
処理回路(902)と、
その処理回路と結合されているメモリ(904)であって、命令を含み、それらの命令が、処理回路によって実行されたときに、実施形態1から14のいずれか1つによるオペレーションをデコーダデバイスに実行させる、メモリ(904)とを含むデコーダデバイス(900)。
サブフレームベースで周波数スペクトルを生成すること(1000)であって、オーディオ信号の連続したサブフレームが、それらの連続したサブフレームのうちの第1のサブフレームの適用されたウィンドウ形状がそれらの連続したサブフレームのうちの第2のサブフレームのミラーリングされたバージョンまたは時間反転されたバージョンであるという特性を有する、周波数スペクトルを生成すること(1000)と、
第1の2つの連続したサブフレームのうちの第2のサブフレームに対応する信号スペクトルを格納すること(1004)と、
第2の2つの連続したサブフレームに関する不良フレームインジケータを受信すること(1002)と、
信号スペクトルを取得すること(1006)と、
信号スペクトルのピークを分数周波数スケールで検知すること(1008)と、
ピークのうちのそれぞれの位相を推定すること(1012)と、
推定された位相に基づいて、第2の2つの連続したサブフレームのうちの第1のサブフレームに関して格納されているスペクトルのピークに適用するための時間反転された位相補正を導出すること(1014)と、
時間反転された位相補正を信号スペクトルのピークに適用して、時間反転された位相補正を施されたピークを形成すること(1016)と、
時間反転を隠蔽オーディオサブフレームに適用すること(1018)と、
時間反転された位相補正を施されたピークを信号スペクトルのノイズスペクトルと組み合わせて、第2の2つの連続したサブフレームのうちの第1のサブフレームに関する組み合わされたスペクトルを形成すること(1020)と、
組み合わされたスペクトルに基づいて、合成された隠蔽オーディオサブフレームを生成すること(1022)とを含む方法。
第2の2つの連続したサブフレームのうちの第2のサブフレームに関する信号スペクトルのピークに適用するための時間反転されていない位相補正を導出すること(1024)と、
時間反転されていない位相補正を第2の2つの連続したサブフレームのうちの第2のサブフレームに関する信号スペクトルのピークに適用して、時間反転されていない位相補正を施されたピークを形成すること(1026)と、
時間反転されていないオーディオサブフレームを信号スペクトルのノイズスペクトルと組み合わせて、第2の2つの連続したサブフレームのうちの第2のサブフレームに関する第2の組み合わされたスペクトルを形成すること(1028)と、
第2の組み合わされたスペクトルに基づいて第2の合成されたオーディオサブフレームを生成すること(1030)とを含む、実施形態19の方法。
をさらに含む、実施形態18から24のいずれか1つの方法。
をさらに含む、実施形態26のいずれか1つの方法。
下記に従って、時間反転された位相補正を施されたピークに関する位相推定を計算することを含み、
ffrac=fi-ki
この場合、φiが、周波数fiでの推定された位相であり、
が、周波数fiでのスペクトル
の角度であり、ffracが丸め誤差であり、φCが調整定数であり、kiが[fi]である、実施形態19から27のいずれか1つの方法。
Δφi=2πfiNfullNlost/N
この場合、Δφiが、周波数fiでの正弦波の位相補正を示し、Nfullが、2つのフレームの間におけるフレームサンプル数を示し、Nlostが、連続した失われたフレームの数を示し、Nが、サブフレームウィンドウの長さを示す、実施形態28の方法。
この場合、Nが、サブフレームウィンドウの長さを示し、サブフレームウィンドウ処理関数w1(n)が、連続したサブフレームのうちの第1のサブフレーム
に関するサブフレームウィンドウ処理関数であり、w2(n)が、連続したサブフレームのうちの第2のサブフレーム
に関するサブフレームウィンドウ処理関数であり、Nstep12が、第1の2つの連続したサブフレームのうちの第1のサブフレームと、第1の2つの連続したサブフレームのうちの第2のサブフレームとの間におけるサンプル数である、実施形態19から30のいずれか1つの方法。
処理回路(902)と、
その処理回路と結合されているメモリ(904)であって、命令を含み、それらの命令が、処理回路によって実行されたときに、実施形態19から33のいずれか1つによるオペレーションをデコーダデバイスに実行させる、メモリ(904)とを含むデコーダデバイス(900)。
略語 説明
DFT 離散フーリエ変換
IDFT 逆離散フーリエ変換
LP 線形予測
PLC パケットロス隠蔽
ECU エラー隠蔽ユニット
FEC フレームエラー補正/隠蔽
[1] T. Vaillancourt, M. Jelinek, R. Salami and R. Lefebvre, "Efficient Frame Erasure Concealment in Predictive Speech Codecs using Glottal Pulse Resynchronisation," 2007 IEEE International Conference on Acoustics, Speech and Signal Processing - ICASSP '07, Honolulu, HI, 2007, pp. IV-1113-IV-1116.
[2] J. Lecomte et al., "Packet-loss concealment technology advances in EVS," 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, QLD, 2015, pp. 5708-5712.
[3] 3GPP TS 26.447, Codec for Enhanced Voice Services (EVS); Error Concealment of Lost Packets (Release 12)
[4] S. Bruhn, E. Norvell, J. Svedberg and S. Sverrisson, "A novel sinusoidal approach to audio signal frame loss concealment and its application in the new evs codec standard," 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, QLD, 2015, pp. 5142-5146.
Claims (22)
- デコーディングデバイスにおいてオーディオ信号の隠蔽オーディオサブフレームを生成する方法であって、
前記オーディオ信号の連続したサブフレームが、前記連続したサブフレームのうちの第1のサブフレームの適用されたウィンドウ形状が前記連続したサブフレームのうちの第2のサブフレームのミラーリングされたバージョンまたは時間反転されたバージョンであるという特性を有するとき、サブフレームベースで周波数スペクトルを生成すること(1000)と、
以前に受信されたオーディオ信号の信号スペクトルのピークを分数周波数スケールで検知すること(1008)と、
前記ピークのうちのそれぞれの位相を推定すること(1012)と、
推定された前記位相に基づいて前記信号スペクトルの前記ピークに適用するための時間反転された位相調整を導出すること(1014)と、
前記時間反転された位相調整を前記信号スペクトルの前記ピークに適用して、時間反転された位相調整を施されたピークを形成すること(1016)と、
時間反転を前記隠蔽オーディオサブフレームに適用すること(1018)とを含む方法。 - 前記時間反転された位相調整を施されたピークを前記信号スペクトルのノイズスペクトルと組み合わせて、前記隠蔽オーディオサブフレームに関する組み合わされたスペクトルを形成すること(1020)と、
前記組み合わされたスペクトルに基づいて、合成された隠蔽オーディオサブフレームを生成すること(1022)と
をさらに含む、請求項1に記載の方法。 - 合成された隠蔽オーディオフレームが、少なくとも2つの連続した隠蔽サブフレームを含み、前記時間反転された位相調整を導出すること、前記時間反転された位相調整を適用すること、前記時間反転を適用すること、および前記時間反転された位相調整を施されたピークを組み合わせることが、前記少なくとも2つの連続した隠蔽サブフレームのうちの第1の隠蔽サブフレームに関して実行され、前記方法がさらに、
前記少なくとも2つの連続した隠蔽サブフレームのうちの第2の隠蔽サブフレームに関する前記信号スペクトルの前記ピークに適用するための時間反転されていない位相調整を導出すること(1024)と、
前記時間反転されていない位相調整を前記第2のサブフレームに関する前記信号スペクトルの前記ピークに適用して、時間反転されていない位相調整を施されたピークを形成すること(1026)と、
前記時間反転されていない位相調整を施されたピークを前記信号スペクトルのノイズスペクトルと組み合わせて、前記第2の隠蔽サブフレームに関する組み合わされたスペクトルを形成すること(1028)と、
前記組み合わされたスペクトルに基づいて第2の合成された隠蔽オーディオサブフレームを生成すること(1030)とを含む、請求項1または2に記載の方法。 - 前記以前に受信されたオーディオ信号の前記信号スペクトルを前記デコーディングデバイスのメモリから取得すること(1006)をさらに含む、請求項1から3のいずれか一項に記載の方法。
- 前記時間反転を適用することが、前記時間反転された位相調整を施されたピークに複素共役を適用することを含む、請求項1から4のいずれか一項に記載の方法。
- 検知された前記ピークのうちのそれぞれのピークを、前記ピークを表す複数のピーク周波数ビンに関連付けること(1100)をさらに含む、請求項1から5のいずれか一項に記載の方法。
- 前記複数のピーク周波数ビンのうちのそれぞれのピーク周波数ビンに関して、前記時間反転された位相調整および時間反転されていない前記位相調整のうちの一方が前記ピーク周波数ビンに適用される(1102)、請求項6に記載の方法。
- 格納されている前記信号スペクトルの係数を使用して前記信号スペクトルの残りのビンを投入すること(1104)であって、前記スペクトル係数が前記信号の望ましい特性を保持する、残りのビンを投入すること(1104)
をさらに含む、請求項7に記載の方法。 - 前記望ましい特性が、マルチチャネルデコーダシステムにおける第2のチャネルとの相関を含む、請求項8に記載の方法。
- 時間反転された前記隠蔽オーディオサブフレームの前記ピークに関する位相調整Δφが、
Δφ=-2φ 0 -2πf(N step +N lost ・N)/N
に従って計算され、この場合、φ 0 はピークの位相であり、fはピークの周波数であり、N lost は連続した失われたフレームの数を示し、Nはサブフレームの長さを示し、N step は分析サブフレームと隠蔽サブフレームの始点間のサンプルどうしにおける距離である、請求項10に記載の方法。 - オーディオ信号の隠蔽オーディオサブフレームを生成するように設定されているデコーダデバイス(900)であって、
前記オーディオ信号の連続したサブフレームが、前記連続したサブフレームのうちの第1のサブフレームの適用されたウィンドウ形状が前記連続したサブフレームのうちの第2のサブフレームのミラーリングされたバージョンまたは時間反転されたバージョンであるという特性を有するとき、サブフレームベースで周波数スペクトルを生成することと、
以前に受信されたオーディオ信号の信号スペクトルのピークを分数周波数スケールで検知することと、
前記ピークのうちのそれぞれの位相を推定することと、
推定された前記位相に基づいて前記信号スペクトルの前記ピークに適用するための時間反転された位相調整を導出することと、
前記時間反転された位相調整を前記信号スペクトルの前記ピークに適用して、時間反転された位相調整を施されたピークを形成することと、
時間反転を前記隠蔽オーディオサブフレームに適用することとを行うように適合されているデコーダデバイス(900)。 - 前記時間反転された位相調整を施されたピークを前記信号スペクトルのノイズスペクトルと組み合わせて、前記隠蔽オーディオサブフレームに関する組み合わされたスペクトルを形成することと、
前記組み合わされたスペクトルに基づいて、合成された隠蔽オーディオサブフレームを生成することと
を行うようにさらに適合されている、請求項12に記載のデコーダデバイス。 - 合成された隠蔽オーディオフレームが、少なくとも2つの連続した隠蔽サブフレームを含み、前記時間反転された位相調整を導出すること、前記時間反転された位相調整を適用すること、前記時間反転を適用すること、および前記時間反転された位相調整を施されたピークを組み合わせることが、前記少なくとも2つの連続した隠蔽サブフレームのうちの第1の隠蔽サブフレームに関して実行され、前記デコーダデバイスがさらに、
前記少なくとも2つの連続した隠蔽サブフレームのうちの第2の隠蔽サブフレームに関する前記信号スペクトルの前記ピークに適用するための時間反転されていない位相調整を導出することと、
前記時間反転されていない位相調整を前記第2のサブフレームに関する前記信号スペクトルの前記ピークに適用して、時間反転されていない位相調整を施されたピークを形成することと、
前記時間反転されていない位相調整を施されたピークを前記信号スペクトルのノイズスペクトルと組み合わせて、前記第2の隠蔽サブフレームに関する組み合わされたスペクトルを形成することと、
前記組み合わされたスペクトルに基づいて第2の合成された隠蔽オーディオサブフレームを生成することとを行うように適合されている、請求項12または13に記載のデコーダデバイス。 - 前記以前に受信されたオーディオ信号の前記信号スペクトルを前記デコーダデバイスのメモリから取得するようにさらに適合されている、請求項12から14のいずれか一項に記載のデコーダデバイス。
- 前記時間反転された位相調整を施されたピークに複素共役を適用することによって前記時間反転を適用するように適合されている、請求項12から15のいずれか一項に記載のデコーダデバイス。
- 検知された前記ピークのうちのそれぞれのピークを、前記ピークを表す複数のピーク周波数ビンに関連付けるようにさらに適合されている、請求項12から16のいずれか一項に記載のデコーダデバイス。
- 前記時間反転された位相調整および時間反転されていない前記位相調整のうちの一方を前記複数のピーク周波数ビンのうちのそれぞれのピーク周波数ビンに適用するようにさらに適合されている、請求項17に記載のデコーダデバイス。
- 格納されている前記信号スペクトルの係数を使用して前記信号スペクトルの残りのビンを投入することであって、前記スペクトル係数が前記信号の望ましい特性を保持する、残りのビンを投入すること
を行うようにさらに適合されている、請求項18に記載のデコーダデバイス。 - 前記望ましい特性が、マルチチャネルデコーダシステムにおける第2のチャネルとの相関を含む、請求項19に記載のデコーダデバイス。
- 時間反転された前記隠蔽オーディオサブフレームの前記ピークに関する位相調整Δφを
Δφ=-2φ 0 -2πf(N step +N lost ・N)/N
に従って計算するように適合されており、この場合、φ 0 はピークの位相であり、fはピークの周波数であり、N lost は連続した失われたフレームの数を示し、Nはサブフレームの長さを示し、N step は分析サブフレームと隠蔽サブフレームの始点間のサンプルどうしにおける距離である、請求項21に記載のデコーダデバイス。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023179369A JP2024012337A (ja) | 2019-06-13 | 2023-10-18 | 時間反転されたオーディオサブフレームエラー隠蔽 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962860922P | 2019-06-13 | 2019-06-13 | |
US62/860,922 | 2019-06-13 | ||
PCT/EP2020/064394 WO2020249380A1 (en) | 2019-06-13 | 2020-05-25 | Time reversed audio subframe error concealment |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023179369A Division JP2024012337A (ja) | 2019-06-13 | 2023-10-18 | 時間反転されたオーディオサブフレームエラー隠蔽 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022536158A JP2022536158A (ja) | 2022-08-12 |
JP7371133B2 true JP7371133B2 (ja) | 2023-10-30 |
Family
ID=70847403
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021573331A Active JP7371133B2 (ja) | 2019-06-13 | 2020-05-25 | 時間反転されたオーディオサブフレームエラー隠蔽 |
JP2023179369A Pending JP2024012337A (ja) | 2019-06-13 | 2023-10-18 | 時間反転されたオーディオサブフレームエラー隠蔽 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023179369A Pending JP2024012337A (ja) | 2019-06-13 | 2023-10-18 | 時間反転されたオーディオサブフレームエラー隠蔽 |
Country Status (7)
Country | Link |
---|---|
US (2) | US11967327B2 (ja) |
EP (1) | EP3984026A1 (ja) |
JP (2) | JP7371133B2 (ja) |
CN (1) | CN113950719A (ja) |
BR (1) | BR112021021928A2 (ja) |
CO (1) | CO2021016704A2 (ja) |
WO (1) | WO2020249380A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015530622A (ja) | 2012-09-26 | 2015-10-15 | モトローラ モビリティ エルエルシーMotorola Mobility Llc | オーディオ信号をエンコードするための方法および装置 |
JP2016510432A (ja) | 2013-02-05 | 2016-04-07 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | オーディオフレーム損失のコンシールメントを制御する方法及び装置 |
JP2016515725A (ja) | 2013-04-18 | 2016-05-30 | オランジュ | 重み付けされたノイズの注入によるフレーム消失補正 |
JP2018040917A (ja) | 2016-09-07 | 2018-03-15 | 日本電信電話株式会社 | 復号装置、復号方法及びプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006079349A1 (en) * | 2005-01-31 | 2006-08-03 | Sonorit Aps | Method for weighted overlap-add |
TWI610296B (zh) * | 2011-10-21 | 2018-01-01 | 三星電子股份有限公司 | 訊框錯誤修補裝置及音訊解碼裝置 |
WO2014108738A1 (en) * | 2013-01-08 | 2014-07-17 | Nokia Corporation | Audio signal multi-channel parameter encoder |
FR3001593A1 (fr) * | 2013-01-31 | 2014-08-01 | France Telecom | Correction perfectionnee de perte de trame au decodage d'un signal. |
WO2015108358A1 (ko) * | 2014-01-15 | 2015-07-23 | 삼성전자 주식회사 | 선형 예측 부호화 계수를 양자화하기 위한 가중치 함수 결정 장치 및 방법 |
EP2922055A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information |
RU2711108C1 (ru) * | 2016-03-07 | 2020-01-15 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Блок маскирования ошибок, аудиодекодер и соответствующие способ и компьютерная программа, подвергающие затуханию замаскированный аудиокадр согласно разным коэффициентам затухания для разных полос частот |
CN109155133B (zh) * | 2016-03-07 | 2023-06-02 | 弗劳恩霍夫应用研究促进协会 | 音频帧丢失隐藏的错误隐藏单元、音频解码器及相关方法 |
CN110114988B (zh) * | 2016-11-10 | 2021-09-07 | 松下电器(美国)知识产权公司 | 发送方法、发送装置及记录介质 |
US10714098B2 (en) * | 2017-12-21 | 2020-07-14 | Dolby Laboratories Licensing Corporation | Selective forward error correction for spatial audio codecs |
-
2020
- 2020-05-25 EP EP20728023.1A patent/EP3984026A1/en active Pending
- 2020-05-25 WO PCT/EP2020/064394 patent/WO2020249380A1/en active Application Filing
- 2020-05-25 BR BR112021021928A patent/BR112021021928A2/pt unknown
- 2020-05-25 CN CN202080042683.0A patent/CN113950719A/zh active Pending
- 2020-05-25 JP JP2021573331A patent/JP7371133B2/ja active Active
- 2020-06-04 US US17/618,676 patent/US11967327B2/en active Active
-
2021
- 2021-12-09 CO CONC2021/0016704A patent/CO2021016704A2/es unknown
-
2023
- 2023-10-18 JP JP2023179369A patent/JP2024012337A/ja active Pending
-
2024
- 2024-03-18 US US18/608,303 patent/US20240221760A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015530622A (ja) | 2012-09-26 | 2015-10-15 | モトローラ モビリティ エルエルシーMotorola Mobility Llc | オーディオ信号をエンコードするための方法および装置 |
JP2016510432A (ja) | 2013-02-05 | 2016-04-07 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | オーディオフレーム損失のコンシールメントを制御する方法及び装置 |
JP2016515725A (ja) | 2013-04-18 | 2016-05-30 | オランジュ | 重み付けされたノイズの注入によるフレーム消失補正 |
JP2018040917A (ja) | 2016-09-07 | 2018-03-15 | 日本電信電話株式会社 | 復号装置、復号方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2022536158A (ja) | 2022-08-12 |
CN113950719A (zh) | 2022-01-18 |
EP3984026A1 (en) | 2022-04-20 |
BR112021021928A2 (pt) | 2021-12-21 |
CO2021016704A2 (es) | 2022-01-17 |
JP2024012337A (ja) | 2024-01-30 |
WO2020249380A1 (en) | 2020-12-17 |
US20240221760A1 (en) | 2024-07-04 |
US20220246156A1 (en) | 2022-08-04 |
US11967327B2 (en) | 2024-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101828186B1 (ko) | 개선된 펄스 재동기화를 사용하여 acelp-형 은폐 내에서 적응적 코드북의 개선된 은폐를 위한 장치 및 방법 | |
US20230008547A1 (en) | Audio frame loss concealment | |
JP7116521B2 (ja) | パワー補償を使用してエラー隠し信号を生成する装置及び方法 | |
KR20080002756A (ko) | 가중된 오버랩 애드 방법 | |
JP7167109B2 (ja) | 適応型ノイズ推定を使用してエラー隠し信号を生成する装置及び方法 | |
US20240304192A1 (en) | Methods for phase ecu f0 interpolation split and related controller | |
KR20160022382A (ko) | 개선된 피치 래그 추정을 사용하여 acelpp-형 은폐 내에서 적응적 코드북의 개선된 은폐를 위한 장치 및 방법 | |
CN113196386A (zh) | 用于控制多声道音频帧丢失隐藏的方法和装置 | |
JP7371133B2 (ja) | 時間反転されたオーディオサブフレームエラー隠蔽 | |
CN111402905B (zh) | 音频数据恢复方法、装置及蓝牙设备 | |
Huang et al. | Recovery of lost speech segments using incremental subspace learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220224 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230605 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230919 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231018 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7371133 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |