JP7179812B2 - 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法 - Google Patents
時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法 Download PDFInfo
- Publication number
- JP7179812B2 JP7179812B2 JP2020184357A JP2020184357A JP7179812B2 JP 7179812 B2 JP7179812 B2 JP 7179812B2 JP 2020184357 A JP2020184357 A JP 2020184357A JP 2020184357 A JP2020184357 A JP 2020184357A JP 7179812 B2 JP7179812 B2 JP 7179812B2
- Authority
- JP
- Japan
- Prior art keywords
- energy spectrum
- mask
- excitation
- frequency
- scaled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 31
- 238000013139 quantization Methods 0.000 title claims description 31
- 230000005284 excitation Effects 0.000 claims description 165
- 238000001228 spectrum Methods 0.000 claims description 78
- 230000015572 biosynthetic process Effects 0.000 claims description 48
- 238000003786 synthesis reaction Methods 0.000 claims description 48
- 230000003595 spectral effect Effects 0.000 claims description 45
- 230000005236 sound signal Effects 0.000 claims description 18
- 238000009499 grossing Methods 0.000 claims description 15
- 238000012935 Averaging Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims 6
- 238000012805 post-processing Methods 0.000 description 29
- 230000009467 reduction Effects 0.000 description 28
- 230000006870 function Effects 0.000 description 21
- 230000007774 longterm Effects 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 11
- 239000002131 composite material Substances 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000003321 amplification Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 6
- 238000003199 nucleic acid amplification method Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 239000003638 chemical reducing agent Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000003607 modifier Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000013213 extrapolation Methods 0.000 description 4
- 238000010183 spectrum analysis Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 101100129500 Caenorhabditis elegans max-2 gene Proteins 0.000 description 2
- 101100083446 Danio rerio plekhh1 gene Proteins 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000695 excitation spectrum Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
Description
ここに説明する後処理は、音楽や残響音声などの信号のLP合成フィルタのデコードされた励振に適用される。信号の性質(音声、音楽、残響音声など)に関する判定および後処理を適用することに関する判定は、AMR-WBビットストリームの一部としてデコーダ分類情報に向けて送るエンコーダによって信号伝達することができる。そうでない場合には、信号分類は、デコーダ側で代替的に行うことができる。複雑性と分類信頼性とのトレードオフにより、合成フィルタは、一時的合成およびより良好な分類分析を得るために現在の励振に任意選択で適用することができる。この構成においては、合成は、分類が結果としてポストフィルタリングが適用されるカテゴリになる場合、上書きされる。複雑性が増すのを最小限にするために、分類は、過去のフレーム合成で行うこともでき、合成フィルタは、後処理の後、一度適用される。
例示的な実施形態においては、第1の段の分類は、デマルチプレクサ103からのVAD信号のパラメータに応答して、第1の段の分類器112におけるデコーダにおいて実施される。デコーダの第1の段の分類は、Vaillancourt'011の場合と同様である。以下のパラメータが、デコーダの信号分類推定器114において分類のために使用される。すなわち、正規化相関関係rx、スペクトル傾斜測定値et、ピッチ安定性カウンタpc、現在のフレームの終端における信号の相対フレームエネルギーEs、およびゼロ交差カウンタzcである。信号を分類するのに使用される、これらのパラメータの計算について、以下に説明する。
pc=|p3+p2-p1-p0| (3)
Es=Ef-Elt (4)
Elt=0.99Elt+0.01Ef (6)
ps=kp・px+cp (7)
周波数分解能を増大させるために、フレーム長より長い周波数変換が使用される。そうするために、例示的実施形態においては、連結励振ベクトルec(n)が、過去の励振バッファメモリ106に記憶された前のフレーム励振の最後の192サンプル、時間領域励振デコーダ104からの現在のフレームe(n)のデコードされた励振、および励振外挿器118から将来のフレームex(n)の192励振サンプルの外挿を連結することにより励振連結器120において作製される。これは以下に説明されるが、ただし、LWが過去の励振の長さならびに外挿された励振の長さであり、Lがフレーム長である。これは、それぞれ、192サンプルおよび256サンプルに対応し、例示的実施形態において全長Lc=640サンプルが得られる。
e(n)=bv(n)+gc(n)
窓掛けおよび周波数変換モジュール122においては、時間/周波数変換の前に、窓掛けが連結励振に対して実施される。選択された窓w(n)は、現在のフレームに対応する平坦な頂部を有し、各端部においてハミング機能により0まで減少する。以下の式は使用される窓を表す。
周波数領域後処理フェーズの間、連結励振は変換領域で表現される。この例示的実施形態においては、時間/周波数変換は、10Hzの分解能を与えるタイプII DCTを使用して窓掛けおよび周波数変換モジュール122において達成されるが、任意の他の変換を使用することができる。別の変換(または異なる変換の長さ)を使用した場合、周波数分解能(上記に定義された)、帯域の数、帯域ごとのビンの数(さらに以下に定義された)は、それに応じて改訂する必要があり得る。連結され窓掛けされた時間領域のCELP励振feの周波数表現は、以下に与えられる。
DCTの後、結果として得られたスペクトルは、臨界周波数帯域に分割される(実現化では、周波数範囲0~4000Hzにおいて17の臨界帯域および周波数範囲0~6400Hzにおいて20の臨界周波数帯域を使用する)。使用される臨界周波数帯域は、参照によりその内容が本明細書に組み込まれる、J. D. Johnston「Transform coding of audio signal using perceptual noise criteria」、IEEE J. Select. Areas Commun.、vol. 6、314~323ページ、1988年2月に指定されるものにできるだけ近くし、それらの上限は以下のように定義される。すなわち、CB={100, 200, 300, 400, 510, 630, 770, 920, 1080, 1270, 1480, 1720, 2000, 2320, 2700, 3150, 3700, 4400, 5300, 6400} Hzである。
ji={0, 10, 20, 30, 40, 51, 63, 77, 92, 108, 127, 148, 172, 200, 232, 270, 315, 370, 440, 530}
によって与えられるi番目の臨界帯域における第1のビンのインデックスである。
Vaillancourt'050に説明されるように、デコードされた汎用音響信号を強化するための方法は、どのフレームがトーン間雑音低減によく適しているかを識別することにより高調波間雑音低減の効率をさらに最大化するように設計された励振信号の追加の分析を含む。
トーン間または高調波間雑音低減は、強化の第1の動作として連結励振の周波数表現により実施される。トーン間量子化雑音の低減は、スケーリング利得gsを最小利得gminと最大利得gmaxとの間に制限して、各臨界帯域においてスペクトルをスケーリングすることにより雑音低減装置128において実施される。スケーリング利得は、その臨界帯域における推定信号対雑音比(SNR)から導出される。処理は、臨界帯域ベースではなく、周波数ビンベースで実施される。したがって、スケーリング利得は、すべての周波数ビンに適用され、そのビンを含む臨界帯域の雑音エネルギーの推定によって割られたビンエネルギーを使用して計算されたSNRから導出される。この特徴により、高調波またはトーンの近くの周波数におけるエネルギーを維持することが可能になり、したがって、実質的に歪みを防止し、高調波間の雑音を強力に低減することが可能になる。
gBIN,LP(k)=αgsgBIN,LP (k)+(1-αgs)gs (28)
この例示的実施形態においては、臨界周波数帯域ごとのトーン間量子化雑音エネルギーは、同じ帯域の最大ビンエネルギーを除外する、その臨界周波数帯域の平均エネルギーであるとして帯域ごとの雑音レベル推定器126において推定される。以下の公式は、具体的な帯域iの量子化雑音エネルギーの推定をまとめたものである。
q={10,10,10,10,10,10,11,11,11,11,11,11,11,11,11,15,15,15,15,15}
周波数後処理の第2の動作は、符号化雑音内に失われた周波数情報を取り出す能力を提供する。CELPコーデックは、特に低ビットレートで使用されたとき、3.5~4kHz超で周波数コンテンツを正しく符号化するのにそれほど効率的ではない。ここでの主な考え方は、音楽スペクトルがしばしば実質的にフレームごとに変化しないことを利用することである。したがって、長時間平均化を行うことができ、符号化雑音の一部を削除することができる。以下の動作は、周波数依存利得関数を定義するのに実施される。この関数は、次いで、時間領域にまた変換する前に励振をさらに強化するのに使用される。
第1の動作は、連結励振のスペクトルの正規化エネルギーに基づいてマスクビルダ130において重み付けマスクを作製することにある。正規化は、トーン(または高調波)が1.0超の値を有し、谷が1.0未満の値を有するようにスペクトルエネルギー正規化器131において行われる。そうするために、ビンエネルギースペクトルEBIN(k)を0.925と1.925との間で正規化して、以下の式を使用して正規化エネルギースペクトルEn(k)を得る。
Ep(k)=En(k)8 k=0,...,639 (32)
Epl(k)=min(5,Ep(k)) k=0,...,639 (33)
最後の2つの動作により、最も活動的なパルスの位置が具体化し始める。正規化エネルギースペクトルのビンに8の累乗を適用することは、スペクトルダイナミクスを増大させるための効率的なマスクを作製する第1の動作である。次の2つの動作は、このスペクトルマスクをさらに強化する。まず、スケーリングされたエネルギースペクトルは、平均化フィルタを使用して低周波数から高周波数まで周波数軸に沿ってエネルギー平均化器132において平滑化される。次いで、結果として得られたスペクトルは、時間領域軸に沿ってエネルギー平滑化器134において処理して、フレームごとにビンの値を平滑化する。
上記に定義された重み付けマスクは、第2の段の励振分類器の出力(table 4(表4)に示すeCATの値)によりスペクトルダイナミクス変更器136によって異なって適用される。重み付けマスクは、励振がカテゴリ0(eCAT=0。すなわち、音声コンテンツの確率が高い)として分類された場合適用されない。コーデックのビットレートが高いとき、量子化雑音のレベルは、概して、より低く、周波数により変化する。すなわち、トーン増幅をスペクトル内のパルス位置およびエンコードされたビットレートにより制限することができる。CELP以外の別のエンコーディング方法を使用して、例えば、励振信号が時間および周波数領域で符号化された構成要素の組合せを含む場合、重み付けマスクの使用は、特定の事例ごとに調整され得る。例えば、パルス増幅は制限することができるが、方法は量子化雑音低減として依然として使用することができる。
周波数領域強化が完了した後、強化された時間領域励振を取り戻すために、逆周波数/時間変換が周波数/時間領域変換器138において実施される。この例示的な実施形態においては、周波数/時間変換は、時間/周波数変換に使用されるのと同じ種類のII DCTを用いて達成される。変更された時間領域励振
合成に遅延を追加することは望ましくないので、実用化の構築においてオーバーラップおよび追加のアルゴリズムを避けることが決定されている。実用化は、以下の式に示されるようにオーバーラップなしで、合成を生成するのに使用される最終励振efの正確な長さを強化された連結励振から直接とる。
102 受信機
103 デマルチプレクサ
104 時間領域励振デコーダ
106 過去の励振バッファメモリ
108 LP合成フィルタ
110 LP合成フィルタ
112 第1の段の信号分類器
114 信号分類推定器
116 クラス選択テストポイント
118 励振外挿器
120 励振連結器
122 窓掛けおよび周波数変換モジュール
124 第2の段の信号分類器
126 帯域ごとの雑音レベル推定器
128 雑音低減装置
130 マスクビルダ
131 スペクトルエネルギー正規化器
132 エネルギー平均化器
134 エネルギー平滑化器
136 スペクトルダイナミクス変更器
138 周波数/時間領域変換器
140 フレーム励振抽出器
142 上書き器
144 判定テストポイント
146 スイッチ
148 ディエンファサイジングフィルタおよびリサンプラ
150 コア合成信号
152 合成信号
154 デジタル/アナログ変換器
156 増幅器
158 スピーカ
200 デコーダ
202 入力
204 出力
206 プロセッサ
208 メモリ
A、B、C、D、E コネクタ
Claims (16)
- 音響信号の符号化時に生じた量子化雑音中の失われたスペクトル情報を取り出すために、周波数領域におけるデコードされた合成フィルタ励振に適用のための重み付けマスクを作製するマスクビルダであって、
前記デコードされた合成フィルタ励振のエネルギースペクトルの正規化器と、
スケーリングされたエネルギースペクトルを生成するために、前記正規化エネルギースペクトルをスケーリングする手段と、
周波数軸に沿って前記スケーリングされたエネルギースペクトルを平滑化する平均化フィルタと、
時間平均重み付けマスクである前記重み付けマスクを作製するために、前記平均化フィルタにおいて平滑化された前記エネルギースペクトルを時間軸に沿って処理するエネルギースペクトル平滑化器と
を備える、マスクビルダ。 - 前記エネルギースペクトル正規化器は、トーンが1.0を超える値を有し、谷が1.0未満の値を有するように正規化を実行する、請求項1に記載のマスクビルダ。
- 前記エネルギースペクトル正規化器は、第1のより低い値と、第2のより大きい値との間に位置する値に前記デコードされた合成フィルタ励振の前記エネルギースペクトルを正規化する、請求項2に記載のマスクビルダ。
- 前記スケーリングする手段は、前記スケーリングされたエネルギースペクトルを生成するために、べき関数により前記正規化エネルギースペクトルを処理する、請求項1から3のいずれか一項に記載のマスクビルダ。
- 前記べき関数は、所定の数のべき乗を前記正規化エネルギースペクトルに適用する、請求項4に記載のマスクビルダ。
- 前記スケーリングする手段は、前記スケーリングされたエネルギースペクトルを所定の最大値に制限する、請求項1から5のいずれか一項に記載のマスクビルダ。
- 前記平均化フィルタは、前記周波数軸に沿って低周波数から高周波数まで前記スケーリングされたエネルギースペクトルを平滑化する、請求項1から6のいずれか一項に記載のマスクビルダ。
- 前記エネルギースペクトル平滑化器は、フレームからフレームへのエネルギースペクトル値を平滑化するために、前記時間軸に沿って前記平均化フィルタからの前記エネルギースペクトルを処理する、請求項1から7のいずれか一項に記載のマスクビルダ。
- 音響信号の符号化時に生じた量子化雑音中の失われたスペクトル情報を取り出すために、周波数領域におけるデコードされた合成フィルタ励振に適用のための重み付けマスクを作製するマスク構築方法であって、
前記デコードされた合成フィルタ励振のエネルギースペクトルの正規化するステップと、
スケーリングされたエネルギースペクトルを生成するために、前記正規化エネルギースペクトルをスケーリングするステップと、
周波数軸に沿って前記スケーリングされたエネルギースペクトルを平滑化するために、前記スケーリングされたエネルギースペクトルを平均化するステップと、
時間平均重み付けマスクである前記重み付けマスクを生成するために、前記平均化するステップにおいて前記平滑化されたエネルギースペクトルを時間軸に沿って平滑化するステップ
を含む、マスク構築方法。 - 前記デコードされた合成フィルタ励振の前記エネルギースペクトルを正規化するステップは、トーンが1.0を超える値を有し、谷が1.0未満の値を有するように正規化を実行するステップを含む、請求項9に記載のマスク構築方法。
- 前記デコードされた合成フィルタ励振の前記エネルギースペクトルを正規化するステップは、第1のより低い値と、第2のより大きい値との間に位置する値に前記デコードされた合成フィルタ励振の前記エネルギースペクトルを正規化するステップを含む、請求項10に記載のマスク構築方法。
- 前記正規化エネルギースペクトルをスケーリングするステップは、前記スケーリングされたエネルギースペクトルを生成するために、べき関数により前記正規化エネルギースペクトルを処理する、請求項9から11のいずれか一項に記載のマスク構築方法。
- 前記べき関数は、所定の数のべき乗を前記正規化エネルギースペクトルに適用する、請求項12に記載のマスク構築方法。
- 前記正規化エネルギースペクトルをスケーリングするステップは、前記スケーリングされたエネルギースペクトルを所定の最大値に制限するステップを含む、請求項9から13のいずれか一項に記載のマスク構築方法。
- 前記スケーリングされたエネルギースペクトルを平均化するステップは、前記周波数軸に沿って低周波数から高周波数まで前記スケーリングされたエネルギースペクトルを平滑化するステップを含む、請求項9から14のいずれか一項に記載のマスク構築方法。
- 前記平均化するステップにおいて前記平滑化されたエネルギースペクトルを時間軸に沿って前記平滑化するステップは、フレームからフレームへのエネルギースペクトル値を平滑化するステップを含む、請求項9から15のいずれか一項に記載のマスク構築方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022182738A JP7427752B2 (ja) | 2013-03-04 | 2022-11-15 | 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361772037P | 2013-03-04 | 2013-03-04 | |
US61/772,037 | 2013-03-04 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018232444A Division JP6790048B2 (ja) | 2013-03-04 | 2018-12-12 | 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022182738A Division JP7427752B2 (ja) | 2013-03-04 | 2022-11-15 | 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021015301A JP2021015301A (ja) | 2021-02-12 |
JP7179812B2 true JP7179812B2 (ja) | 2022-11-29 |
Family
ID=51421394
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015560497A Active JP6453249B2 (ja) | 2013-03-04 | 2014-01-09 | 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法 |
JP2018232444A Active JP6790048B2 (ja) | 2013-03-04 | 2018-12-12 | 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法 |
JP2020184357A Active JP7179812B2 (ja) | 2013-03-04 | 2020-11-04 | 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法 |
JP2022182738A Active JP7427752B2 (ja) | 2013-03-04 | 2022-11-15 | 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015560497A Active JP6453249B2 (ja) | 2013-03-04 | 2014-01-09 | 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法 |
JP2018232444A Active JP6790048B2 (ja) | 2013-03-04 | 2018-12-12 | 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022182738A Active JP7427752B2 (ja) | 2013-03-04 | 2022-11-15 | 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法 |
Country Status (20)
Country | Link |
---|---|
US (2) | US9384755B2 (ja) |
EP (4) | EP3537437B1 (ja) |
JP (4) | JP6453249B2 (ja) |
KR (1) | KR102237718B1 (ja) |
CN (2) | CN111179954B (ja) |
AU (1) | AU2014225223B2 (ja) |
CA (1) | CA2898095C (ja) |
DK (3) | DK3537437T3 (ja) |
ES (2) | ES2872024T3 (ja) |
FI (1) | FI3848929T3 (ja) |
HK (1) | HK1212088A1 (ja) |
HR (2) | HRP20231248T1 (ja) |
HU (2) | HUE054780T2 (ja) |
LT (2) | LT3848929T (ja) |
MX (1) | MX345389B (ja) |
PH (1) | PH12015501575A1 (ja) |
RU (1) | RU2638744C2 (ja) |
SI (2) | SI3537437T1 (ja) |
TR (1) | TR201910989T4 (ja) |
WO (1) | WO2014134702A1 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105976830B (zh) * | 2013-01-11 | 2019-09-20 | 华为技术有限公司 | 音频信号编码和解码方法、音频信号编码和解码装置 |
LT3848929T (lt) * | 2013-03-04 | 2023-10-25 | Voiceage Evs Llc | Prietaisas ir būdas kvantavimo triukšmams sumažinti laiko srities dekoderiu |
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
EP2887350B1 (en) * | 2013-12-19 | 2016-10-05 | Dolby Laboratories Licensing Corporation | Adaptive quantization noise filtering of decoded audio data |
US9484043B1 (en) * | 2014-03-05 | 2016-11-01 | QoSound, Inc. | Noise suppressor |
TWI543151B (zh) * | 2014-03-31 | 2016-07-21 | Kung Lan Wang | Voiceprint data processing method, trading method and system based on voiceprint data |
TWI602172B (zh) * | 2014-08-27 | 2017-10-11 | 弗勞恩霍夫爾協會 | 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
US9972334B2 (en) | 2015-09-10 | 2018-05-15 | Qualcomm Incorporated | Decoder audio classification |
CN111201565A (zh) | 2017-05-24 | 2020-05-26 | 调节股份有限公司 | 用于声对声转换的系统和方法 |
JP6816277B2 (ja) * | 2017-07-03 | 2021-01-20 | パイオニア株式会社 | 信号処理装置、制御方法、プログラム及び記憶媒体 |
EP3428918B1 (en) * | 2017-07-11 | 2020-02-12 | Harman Becker Automotive Systems GmbH | Pop noise control |
DE102018117556B4 (de) * | 2017-07-27 | 2024-03-21 | Harman Becker Automotive Systems Gmbh | Einzelkanal-rauschreduzierung |
JP7123134B2 (ja) * | 2017-10-27 | 2022-08-22 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | デコーダにおけるノイズ減衰 |
CN108388848B (zh) * | 2018-02-07 | 2022-02-22 | 西安石油大学 | 一种多尺度油气水多相流动力学特性分析方法 |
CN109240087B (zh) * | 2018-10-23 | 2022-03-01 | 固高科技股份有限公司 | 实时改变指令规划频率抑制振动的方法和系统 |
RU2708061C9 (ru) * | 2018-12-29 | 2020-06-26 | Акционерное общество "Лётно-исследовательский институт имени М.М. Громова" | Способ оперативной инструментальной оценки энергетических параметров полезного сигнала и непреднамеренных помех на антенном входе бортового радиоприёмника с телефонным выходом в составе летательного аппарата |
US11146607B1 (en) * | 2019-05-31 | 2021-10-12 | Dialpad, Inc. | Smart noise cancellation |
WO2021030759A1 (en) | 2019-08-14 | 2021-02-18 | Modulate, Inc. | Generation and detection of watermark for real-time voice conversion |
US11374663B2 (en) * | 2019-11-21 | 2022-06-28 | Bose Corporation | Variable-frequency smoothing |
US11264015B2 (en) | 2019-11-21 | 2022-03-01 | Bose Corporation | Variable-time smoothing for steady state noise estimation |
JP2023546989A (ja) * | 2020-10-08 | 2023-11-08 | モジュレイト インク. | コンテンツモデレーションのためのマルチステージ適応型システム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110046947A1 (en) | 2008-03-05 | 2011-02-24 | Voiceage Corporation | System and Method for Enhancing a Decoded Tonal Sound Signal |
JP2012003277A (ja) | 2011-08-05 | 2012-01-05 | Toshiba Corp | 復号装置およびスペクトル整形方法 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3024468B2 (ja) * | 1993-12-10 | 2000-03-21 | 日本電気株式会社 | 音声復号装置 |
KR100261254B1 (ko) * | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치 |
JP4230414B2 (ja) | 1997-12-08 | 2009-02-25 | 三菱電機株式会社 | 音信号加工方法及び音信号加工装置 |
WO1999030315A1 (fr) * | 1997-12-08 | 1999-06-17 | Mitsubishi Denki Kabushiki Kaisha | Procede et dispositif de traitement du signal sonore |
CA2388439A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
JP4786183B2 (ja) | 2003-05-01 | 2011-10-05 | 富士通株式会社 | 音声復号化装置、音声復号化方法、プログラム、記録媒体 |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US7707034B2 (en) * | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
US8566086B2 (en) * | 2005-06-28 | 2013-10-22 | Qnx Software Systems Limited | System for adaptive enhancement of speech signals |
US7490036B2 (en) * | 2005-10-20 | 2009-02-10 | Motorola, Inc. | Adaptive equalizer for a coded speech signal |
US8255207B2 (en) * | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
KR20070115637A (ko) * | 2006-06-03 | 2007-12-06 | 삼성전자주식회사 | 대역폭 확장 부호화 및 복호화 방법 및 장치 |
CN101086845B (zh) * | 2006-06-08 | 2011-06-01 | 北京天籁传音数字技术有限公司 | 声音编码装置及方法以及声音解码装置及方法 |
DK2102619T3 (en) * | 2006-10-24 | 2017-05-15 | Voiceage Corp | METHOD AND DEVICE FOR CODING TRANSITION FRAMEWORK IN SPEECH SIGNALS |
WO2009004225A1 (fr) * | 2007-06-14 | 2009-01-08 | France Telecom | Post-traitement de reduction du bruit de quantification d'un codeur, au decodage |
US8428957B2 (en) * | 2007-08-24 | 2013-04-23 | Qualcomm Incorporated | Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands |
US8271273B2 (en) * | 2007-10-04 | 2012-09-18 | Huawei Technologies Co., Ltd. | Adaptive approach to improve G.711 perceptual quality |
WO2009113516A1 (ja) * | 2008-03-14 | 2009-09-17 | 日本電気株式会社 | 信号分析制御システム及びその方法と、信号制御装置及びその方法と、プログラム |
WO2010031003A1 (en) * | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
US8391212B2 (en) * | 2009-05-05 | 2013-03-05 | Huawei Technologies Co., Ltd. | System and method for frequency domain audio post-processing based on perceptual masking |
EP2489041B1 (en) * | 2009-10-15 | 2020-05-20 | VoiceAge Corporation | Simultaneous time-domain and frequency-domain noise shaping for tdac transforms |
MX2012004648A (es) * | 2009-10-20 | 2012-05-29 | Fraunhofer Ges Forschung | Codificacion de señal de audio, decodificador de señal de audio, metodo para codificar o decodificar una señal de audio utilizando una cancelacion del tipo aliasing. |
EP2491555B1 (en) * | 2009-10-20 | 2014-03-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-mode audio codec |
JP6239521B2 (ja) | 2011-11-03 | 2017-11-29 | ヴォイスエイジ・コーポレーション | 低レートcelpデコーダに関する非音声コンテンツの向上 |
LT3848929T (lt) * | 2013-03-04 | 2023-10-25 | Voiceage Evs Llc | Prietaisas ir būdas kvantavimo triukšmams sumažinti laiko srities dekoderiu |
-
2014
- 2014-01-09 LT LTEP21160367.5T patent/LT3848929T/lt unknown
- 2014-01-09 JP JP2015560497A patent/JP6453249B2/ja active Active
- 2014-01-09 HU HUE19170370A patent/HUE054780T2/hu unknown
- 2014-01-09 EP EP19170370.1A patent/EP3537437B1/en active Active
- 2014-01-09 RU RU2015142108A patent/RU2638744C2/ru active
- 2014-01-09 ES ES19170370T patent/ES2872024T3/es active Active
- 2014-01-09 SI SI201431837T patent/SI3537437T1/sl unknown
- 2014-01-09 LT LTEP19170370.1T patent/LT3537437T/lt unknown
- 2014-01-09 CA CA2898095A patent/CA2898095C/en active Active
- 2014-01-09 EP EP21160367.5A patent/EP3848929B1/en active Active
- 2014-01-09 FI FIEP21160367.5T patent/FI3848929T3/fi active
- 2014-01-09 DK DK19170370.1T patent/DK3537437T3/da active
- 2014-01-09 ES ES21160367T patent/ES2961553T3/es active Active
- 2014-01-09 CN CN201911163569.9A patent/CN111179954B/zh active Active
- 2014-01-09 HR HRP20231248TT patent/HRP20231248T1/hr unknown
- 2014-01-09 DK DK21160367.5T patent/DK3848929T3/da active
- 2014-01-09 EP EP14760909.3A patent/EP2965315B1/en active Active
- 2014-01-09 SI SI201432045T patent/SI3848929T1/sl unknown
- 2014-01-09 HU HUE21160367A patent/HUE063594T2/hu unknown
- 2014-01-09 AU AU2014225223A patent/AU2014225223B2/en active Active
- 2014-01-09 CN CN201480010636.2A patent/CN105009209B/zh active Active
- 2014-01-09 MX MX2015010295A patent/MX345389B/es active IP Right Grant
- 2014-01-09 TR TR2019/10989T patent/TR201910989T4/tr unknown
- 2014-01-09 DK DK14760909.3T patent/DK2965315T3/da active
- 2014-01-09 EP EP23184518.1A patent/EP4246516A3/en active Pending
- 2014-01-09 WO PCT/CA2014/000014 patent/WO2014134702A1/en active Application Filing
- 2014-01-09 KR KR1020157021711A patent/KR102237718B1/ko active IP Right Grant
- 2014-03-04 US US14/196,585 patent/US9384755B2/en active Active
-
2015
- 2015-07-15 PH PH12015501575A patent/PH12015501575A1/en unknown
- 2015-12-24 HK HK15112670.5A patent/HK1212088A1/xx unknown
-
2016
- 2016-06-20 US US15/187,464 patent/US9870781B2/en active Active
-
2018
- 2018-12-12 JP JP2018232444A patent/JP6790048B2/ja active Active
-
2020
- 2020-11-04 JP JP2020184357A patent/JP7179812B2/ja active Active
-
2021
- 2021-07-09 HR HRP20211097TT patent/HRP20211097T1/hr unknown
-
2022
- 2022-11-15 JP JP2022182738A patent/JP7427752B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110046947A1 (en) | 2008-03-05 | 2011-02-24 | Voiceage Corporation | System and Method for Enhancing a Decoded Tonal Sound Signal |
JP2011514557A (ja) | 2008-03-05 | 2011-05-06 | ヴォイスエイジ・コーポレーション | 復号化音調音響信号を増強するためのシステムおよび方法 |
JP2012003277A (ja) | 2011-08-05 | 2012-01-05 | Toshiba Corp | 復号装置およびスペクトル整形方法 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7179812B2 (ja) | 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法 | |
US10276176B2 (en) | Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal | |
JP7297803B2 (ja) | 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加 | |
US10262662B2 (en) | Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal | |
KR102105044B1 (ko) | 낮은 레이트의 씨이엘피 디코더의 비 음성 콘텐츠의 개선 | |
US20200327896A1 (en) | Low-frequency emphasis for lpc-based coding in frequency domain | |
JP2021502597A (ja) | 一時的ノイズシェーピング |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211206 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20211207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7179812 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |