JP3554566B2 - 音声復号器および音声復号方法 - Google Patents
音声復号器および音声復号方法 Download PDFInfo
- Publication number
- JP3554566B2 JP3554566B2 JP54238699A JP54238699A JP3554566B2 JP 3554566 B2 JP3554566 B2 JP 3554566B2 JP 54238699 A JP54238699 A JP 54238699A JP 54238699 A JP54238699 A JP 54238699A JP 3554566 B2 JP3554566 B2 JP 3554566B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- frame
- decoder
- error
- excitation signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 16
- 230000005284 excitation Effects 0.000 claims description 50
- 230000005236 sound signal Effects 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 29
- 230000003321 amplification Effects 0.000 claims description 20
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 description 58
- 230000003044 adaptive effect Effects 0.000 description 47
- 230000015572 biosynthetic process Effects 0.000 description 22
- 238000003786 synthesis reaction Methods 0.000 description 22
- 238000012805 post-processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 5
- 102100036419 Calmodulin-like protein 5 Human genes 0.000 description 4
- 101000983962 Conus victoriae Alpha-conotoxin Vc1a Proteins 0.000 description 4
- 101000714353 Homo sapiens Calmodulin-like protein 5 Proteins 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- AVZSFFJXEUUJIQ-UHFFFAOYSA-N CCBO Chemical compound CCBO AVZSFFJXEUUJIQ-UHFFFAOYSA-N 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/40—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
- H03M7/42—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code using table look-up for the coding or decoding process, e.g. using read-only memory
- H03M7/425—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code using table look-up for the coding or decoding process, e.g. using read-only memory for the decoding process only
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6005—Decoder aspects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
この発明は、音声CODECに用いられる音声復号器および音声復号方法に関する。
背景技術
音声符号化方法の1つとして、CELP(Code Excited Linear Predictive Coding)が注目されている。
このCELPは、過去の復号結果から現在の音声信号のサンプルを予測し、音声信号のサンプルの予測値と実際のサンプル値の差である予測誤差を符号化して送る予測符号化の一種である。そして、このCELPでは、予測誤差を雑音系列によりベクトル量子化して送信する。
このCELPのような予測符号化方法により得られた符号化音声信号を受信して復号する復号器では、一定のフレーム周期毎に、符号化音声信号と復号器の内部状態とから励起信号が発生され、この励起信号から音声信号が復号されるとともに、この励起信号により内部状態の更新が行われる。ここで、符号化音声信号のフレームに符号誤りがあることが判明した場合には、励起信号を減衰させるコンシールメント処理が行われる。なお、このコンシールメント処理については、例えばR.Salam他による文献“Design and Description of CS−ACELP:A Toll Quality 8kb/s Speech Coder",IEEE Trans.on Speech and Audio Processing,vol.6 No.2,March 1998に説明されている。
このコンシールメント処理が行われることによりフレーム誤りによる耳障りな歪みの発生が防止される。
しかし、複数フレーム連続して受信フレームに符号誤りが生じ、このコンシールメント処理が繰り返されると、復号器の内部状態がほぼ零に近くなってしまう。このため、その後、連続したフレーム誤りが終了したとしても、正常に受信された符号化音声信号が本来の電力量で復号されるようになるまで長時間を要してしまうという問題点があった。
発明の開示
この発明は以上説明した事情に鑑みてなされたものであり、その目的は、符号化音声信号が連続して誤った場合でも、再び符号化音声信号が正常に入力されたときには早期に本来の電力量での復号が可能な状態に復帰させることができる音声復号器および音声復号方法を提供することにある。
この目的を達成するため、この発明は、予測符号化された符号化音声信号のフレームを受け取り、該符号化音声信号と内部状態とから励起信号を生成し、この励起信号に基づいて復号音声信号を生成するとともに前記内部状態を更新し、フレームの符号誤りがあった場合には前記励起信号を減衰させるコンシールメント処理を行う音声復号器において、所定の基準フレーム誤り数を越える連続したフレーム誤りが生じた場合に、この連続したフレーム誤りがなくなってから一定期間、増幅指示信号を出力する増幅制御手段と、前記増幅指示信号が出力されている間、前記励起信号を増幅する増幅手段とを備えたことを特徴とする音声復号器を提供するものである。
本発明によれば、連続してーム誤りが発生した場合であって、かつ、その後フレーム誤りがなくなった場合に、復号器の内部状態を早期にフレーム誤り発生前の状態に戻し、本来の電力量での復号を行うことができるので、フレーム誤り回復後の主観音声品質の劣化を軽減することができる。
【図面の簡単な説明】
図1は、この発明の一実施形態である音声復号器の構成を示すブロック図である。
図2は、同実施形態のCELPデコーダへの適用例を示すブロック図である。
図3は、同CELPデコーダの励起信号再構築部の具体的構成を示すブロック図である。
発明の実施するための最良の形態
次に図面を参照して本発明の好適な実施形態について説明する。
A.実施形態の構成
図1はこの発明の一実施形態である音声復号器10の構成を示すブロック図である。
この音声信号器10は、復号処理部11と増幅処理制御部12とを有している。
ここで、復号処理部11は、受信した符号化音声信号(ビットストリーム)BSを復号化して復号音声信号SPを出力する装置である。また、符号化音声信号BSには、コードブックパラメータPCと、ゲインパラメータPGと、合成パラメータPSYとが含まれている。
増幅処理制御部12は、符号化音声信号BSのフレーム誤りの発生状況を監視し、所定の基準フレーム誤り数を越える連続したフレーム誤りが生じた場合に、この連続したフレーム誤りがなくなってから所定フレーム数の間、切替制御信号CSW(増幅指示信号)を出力する装置である。なお、この切替制御信号CSWを出力する目的およびこの切替制御信号CSWに従って行われる処理については後述する。
次に、復号処理部11および増幅処理制御部12の各々の構成について説明する。
まず、復号処理部11は、コードブックデータ生成出力部15と、増幅器16と、合成フィルタ17と、切替スイッチSWとを有している。
ここで、コードブックデータ生成出力部15は、コードブックデコーダ18と前段増幅器19とにより構成されている。
これらのうち、コードブックデコーダ18は、書き換え可能なメモリを有している。このメモリには、最近生成された所定個数のコードブックデータDCB(後述)が原コードブックデータDCBOとして記憶される。この原コードブックデータDCBOは、この復号器の内部状態を示す情報として復号処理に用いられる。コードブックデコーダ18には、符号化音声信号BSに含まれているコードブックパラメータPCが供給される。コードブックデコーダ18は、このコードブックパラメータPCをインデックスとし、上記メモリ内のこのインデックスに対応した記憶エリアに記憶されている原コードブックデータCCBOを出力する。
前段増幅器19は、この原コードブックデータDCBOをゲインパラメータPGに対応するゲインで増幅し、コードブックデータDCBとして出力する。
切替スイッチSWは、前段増幅器19から出力されるコードブックデータDCBの供給先を切り換えるスイッチであり、上述した切替制御信号CSWが出力されていないときはコードブックデータDCBを合成フィルタ17に供給し、切替制御信号CSWが出力されているときはコードブックデータDCBを増幅器16に出力する。
増幅器16は、切替スイッチSWを介して前段増幅器19からコードブックデータDCBが供給された場合に、そのコードブックデータDCBを所定の増幅率で増幅し、増幅コードブックデータDACBとして出力する。
合成フィルタ17は、コードブックデータDCBまたは増幅コードブックデーダDACBの一方(励起信号)と、合成パラメータPSYとから復号音声信号SPを合成して出力する。また、コードブックデータDCBまたは増幅コードブックデータDACBのうち合成フィルタ17に入力されるデータ(励起信号)は、新たな原コードブックデータDCBOとして、上述したコードブックデコーダ18に与えられる。そして、コードブックデコーダ18のメモリ内の原コードブックデータDCBOのうち最も古いものが廃棄され、新たな原コードブックデータDCBOがメモリに書き込まれる。
次に、増幅処理制御部12は、誤り検出部21Aと、カウンタ部22Aと、切替制御部23Aとを有している。
誤り検出部21Aは、符号化音声信号BSのフレーム誤りを検出し、誤り検出信号SERを出力する。
カウンタ部22Aは、誤り検出信号SERに基づいて連続フレーム誤り数をカウントし、カウント信号SCNを出力する。具体的には、このカウンタ部22Aは、各フレーム周期において誤り検出信号SERが出力されたときはカウント値を「1」だけ増加させ、誤り検出信号SERが出力されなかったときはカウント値を「0」にする。そして、各フレーム周期においてカウント値をカウント信号CNとして出力するものである。
切替制御部23Aは、カウント信号SCNを監視し、カウント信号SCNによって示される連続フレーム誤り数が所定の基準フレーム誤り数を越えた場合に、その後、フレーム誤りがなくなってから所定フレーム数の間、切替スイッチSWを増幅器16側に切り替えるための切替制御信号CSWを出力する。ここで、切替制御部23Aは、誤り検出信号SERが出力されなくなったことを以て、それまでの連続したフレーム誤りが終了したことを検知する。
B.実施形態の動作
次に音声復号器10の動作について説明する。
以下の説明においては、基準連続フレーム誤り数を「4」とする。また、切替制御部23Aは、連続フレーム誤り数が「4」を越え、かつ、その後フレーム誤りがなくなったタイミングから1フレーム(=所定フレーム数)の間、切替スイッチSWを増幅器16側に切り替えるための切替制御信号CSWを出力するものとする。
▲1▼連続フレーム誤り数が「4」以下であるときの動作
各フレーム周期において、コードブックデータ生成出力部15におけるコードブックデコーダ18から、符号化音声信号BSに含まれるコードブックパラメータPCに対応した原コードブックデータDCBOが出力される。この原コードブックデータDCBOは、前段増幅器19によってゲインパラメータPGに対応したゲインで増幅され、コードブックデータDCBとして出力される。
ここで、連続フレーム誤り数が基準連続フレーム誤り数「4」を越えていないので、切替スイッチSWにより、コードブックデータDCBの供給先として合成フィルム17が選択される。
従って、前段増幅器19から出力されたコードブックデータDCBは、切替スイッチSWを介して合成フィルタ17に供給される。合成フィルタ17では、コードブックデータDCBと合成パラメータPSYとから復号音声信号SPが合成される。また、合成フィルタ17に供給されたコードブックデータDCBは、新たな原コードブックデータDCBOとしてコードブックデコーダ18に書き込まれる。
▲2▼連続してフレーム誤りが生じた場合の動作
この音声復号器10では、フレーム誤りが生じると、復号結果を急速に減衰させるコンシールメント処理が行われる。このコンシールメント処理が複数フレーム周期に亙って続くと、コードブックデコーダ18のメモリ内の原コードブックデータDCBOが次第に「0」に近づいてゆく。なお、このコンシールメント処理については、例えば文献“Design and Description of CS−ACELP:A Toll Quality 8kb/s Speech Coder",IEEE Trans.on Speech and Audio Processing,vol.6 No.2,March 1998に説明されている。
▲3▼連続フレーム誤り数が「4」を越え、その後、フレーム誤りがなくなった場合の動作
連続フレーム誤り数が「4」を越え、その後、フレーム誤りがなくなると、切替制御部23Aから切替制御信号CSWが出力され、1フレーム周期の間、切替スイッチSWにより、コードブックデータDCBの供給先として増幅器16が選択される。
このときコードブックデコーダ18のメモリに記憶された原コードブックデータDCBOは殆ど「0」であるため、前段増幅器19から得られるコードブックデータDCBの大きさは僅かである。
しかし、このコードブックデータDCBは、切替スイッチSWを介して増幅器16に供給され、所定の増幅率で増幅され、増幅コードブックデータDACBとして合成フィルタ部17に供給されるとともに、新たな原コードブックデータDCBOとしてコードブックデコーダ18のメモリに書き込まれる。
このように、連続したフレーム誤りにより音声復号器10の過去の内部状態、すなわち、コードブックデコーダ18のメモリ内の原コードブックデータDCBOがほぼ零に近くなっていても、その後、フレーム誤りがなくなったときには、一定期間、増幅器16の増幅率に応じた増幅コードブックデータDACBが励起信号として得られる。従って、連続したフレーム誤りの後、正常に入力された符号化音声信号BSをより本来の電力量に電力量に近い電力量で復号することができ、復号音声信号SPの主観音声品質を向上することができる。
C.具体的適用例
次に図2を参照し、予測符号化方式の1つであるCS−ACELP方式(Conjugate−Structure Algebraic Code Excited Linear−Prediction方式)のCODECの音声復号器に本実施形態を適用した具体例について説明する。なお、この種のCS−ACELP方式の音声符号化器および音声復号器については、例えばR.Salam他による文献“Design and Description of CS−ACELP:A Toll Quality 8kb/s Speech Coder",IEEE Trans.on Speech and Audio Processing,vol.6 No.2,March 1998に説明されている。
(1)音声復号器の構成
図2において、音声復号器20は、パラメータデコーダ21を有している。このパラメータデコーダ21は、受信した符号化音声信号(ビットストリーム)BSからピッチ遅延パラメータ群GP、コードブックゲインパラメータ群GG、コードブックインデックスパラメータ群GC及びLSP(Line Spectrum Pairs)インデックスパラメータ群GLを復号する装置である。
ここで、コードブックインデックスパラメータ群GCには、複数のコードブックインデックスパラメータ及び複数のコードブック符号パラメータが含まれている。
また、音声復号器20は、適応コードベクトルデコーダ22と、固定コードベクトルデコーダ23と、適応前処理フィルタ(adaptive pre−filter)25とを有している。
ここで、適応コードベクトルデコーダ22は、ピッチ遅延パラメータ群GPに対応した適応コードベクトルACVを出力する装置である。さらに詳述すると、この適応コードベクトルデコーダ22は、書き換え可能なメモリを有しており、このメモリには過去入力された所定個数の適応コードベクトルACVが記憶されている。適応コードベクトルデコーダ22は、ピッチ遅延パラメータ群GPをインデックスとし、このインデックスに対応した適応コードベクトルACVをメモリから読み出して出力するのである。また、後述する励起信号再構築部27によって励起信号SEXCが再構築された場合、この励起信号SEXCが新たな適応コードベクトルACVとして適応コードベクトルデコーダ22のメモリに書き込まれ、同メモリ内の最も古い適応コードベクトルACVが廃棄される。
固定コードベクトルデコーダ23は、コードブックインデックスパラメータ群GCに対応した原固定コードベクトルFCV0を出力する装置である。
これらの適応コードベクトルデコーダ22および固定コードベクトルデコーダ23は、図1におけるコードブックデコーダ18に対応している。
適応前処理フィルタ25は、強調処理手段として機能し、デコードされた原固定コードベクトルFCV0に対し、その高調波成分(harmonic components)を強調する強調処理を行い、固定コードベクトルFCVとして出力する装置である。
さらに、音声復号器20は、ゲインデコーダ24とLSP再構築部26とを有している。
ゲインデコーダ24は、固定コードベクトルFCV(あるいは原固定コードベクトルFCV0)及びコードブックゲインパラメータ群GGに基づいて、適応コードブックゲインACG及び固定コードブックゲインFCGを出力する装置である。
LSP再構築部26は、LSPインデックスパラメータ群GLに基づいて、LSP係数CLSPを再構築する装置である。
さらにまた、音声復号器20は、励起信号再構築部27と、LP合成フィルタ28と、後処理フィルタ29と、ハイパスフィルタ/アップスケーリング部30とを有している。
ここで、励起信号再構築部27は、適応コードベクトルACV、適応コードブックゲインACG、固定コードブックゲインFCG及び固定コードベクトルFCV(あるいは原固定コードベクトルFCV0)に基づいて、励起信号SEXCを再構築する装置である。この励起信号SEXCは、新たな適応コードベクトルACVとして適応コードベクトルデコーダ22のメモリに書き込まれ、同メモリ内の最も古い適応コードベクトルACVが廃棄される。
LP合成フィルタ28は、励起信号SEXC及びLSP係数CLSPに基づいてLP合成を行い、音声信号SSPCを再構築する装置である。
後処理フィルタ29は、音声信号SSPCの後処理フィルタリングを行う装置である。この後処理フィルタ29は、ロングターム後処理フィルタ、ショートターム後処理フィルタ及び傾き補償フィルタの3つのフィルタにより構成されている。これらの3つのフィルタは、入力側から出力側に向かって、ロングターム後処理フィルタ→ショートターム後処理フィルタ→傾き補償フィルタの順番で直列に接続されている。
ハイパスフィルタ/アップスケーリング部30は、後処理フィルタ29の出力信号に対してハイパスフィルタリング処理及びアップスケーリング処理を行う装置である。
また、音声復号器20は、誤り検出部31と、カウンタ部32と、切替制御部33とを有している。
ここで、誤り検出部31は、受信した符号化音声信号BSのフレーム誤りを検出し、誤り検出信号SERを出力する装置である。
また、カウンタ部32は、誤り検出信号SERに基づいて連続フレーム誤り数をカウントし、カウント信号SCNを出力する装置である。
さらに切替制御部33は、カウント信号SCNによって示される連続フレーム誤り数が所定の基準フレーム誤り数を越えた場合に、その後、フレーム誤りがなくなってから所定フレーム数の間、後述の切替スイッチSW1を後述の第3増幅器44(図3参照)側に切り替えるための切替制御信号SSWを出力する装置である。
これらの誤り検出部31と、カウンタ部32と、切替制御部33とは、図1における誤り検出部21Aと、カウンタ部22Aと、切替制御部23Aとに対応している。
図3は励起信号再構築部27の構成例を示すブロック図である。
図3に示すように、励起信号再構築部27は、第1増幅器41と、第2増幅器42と、再構築部43と、切替スイッチSW1と、第3増幅器44とを有している。
ここで、第1増幅器41は、適応コードベクトルACVを適応コードブックゲインACGに対応するゲインで増幅して増幅適応コードベクトルACV1として出力する。
また、第2増幅器42は、固定コードベクトルFCVを固定コードブックゲインFCGに対応するゲインで増幅して増幅固定コードベクトルFCV1として出力する。
再構築部43は、増幅適応コードベクトルACV1及び増幅固定コードベクトルFCV1に基づいて原励起信号SEXCOを再構築する。この
切替スイッチSW1は、切替制御信号SSWが出力されていないときは原励起信号SEXCOをLP合成フィルタ28に出力し、切替制御信号SSWが出力されているときは原励起信号SEXCOを第3増幅器44に出力する。
第3増幅器44は、原励起信号SEXCOを増幅して励起信号SEXCとしてLP合成フィルタ28に出力する。
(2)音声復号器の動作
次に音声復号器の動作について説明する。
以下の説明においては、基準連続フレーム誤り数を「4」とする。また、切替制御部33は、連続フレーム誤り数が「4」を越え、その後フレーム誤りがなくなってから1フレームの間、切替スイッチSW1を第3増幅器44側に切り替えるための切替制御信号SSWを出力するものとする。
▲1▼連続フレーム誤り数が「4」以下の場合の動作
図2において、パラメータデコーダ21は、受信した符号化音声信号(ビットストリーム)BSからピッチ遅延パラメータ群GP、コードブックゲインパラメータ群GG、コードブックインデックスパラメータ群GC及びLSP(Line Spectrum Pairs)インデックスパラメータ群GLを復号する。
そして、パラメータデコーダ21は、復号により得られたピッチ遅延パラメータ群GPを適応コードベクトルデコーダ22に出力し、コードブックゲインパラメータ群GGをゲインデコーダ24に出力し、コードブックインデックスパラメータ群GCを固定コードベクトルデコーダ23に出力し、LSP(Line Spectrum Pairs)インデックスパラメータ群GLをLSP再構築部26に出力する。
LSP再構築部26は、LSPインデックスパラメータ群GLに基づいてLSP係数CLSPを再構築し、LP合成フィルタ28及び後処理フィルタ29に出力する。
適応コードベクトルデコーダ22は、ピッチ遅延パラメータ群GPに基づいて適応コードベクトルACVを復号し、励起信号再構築部27に出力する。
固定コードベクトルデコーダ23は、コードブックインデックスパラメータ群GCに基づいて原固定コードベクトルFCV0をデコードし、適応前処理フィルタ25に出力する。
適応前処理フィルタ25は、デコードされた原固定コードベクトルFCV0に対し、その高調波成分を強調する強調処理を行って固定コードベクトルFCVとしてゲインデコーダ24及び励起信号再構築部27に出力する。
ゲインデコーダ24は、固定コードベクトルFCV(あるいは原固定コードベクトルFCV0)及びコードブックゲインパラメータ群GGに基づいて適応コードブックゲインACG及び固定コードブックゲインFCGを励起信号再構築部27に出力する。
励起信号再構築部27において、第1増幅器41は、適応コードベクトルACVを適応コードブックゲインACGに対応するゲインで増幅して増幅適応コードベクトルACV1として再構築部43に出力する。
また、第2増幅器42は、固定コードベクトルFCVを固定コードブックゲインFCGに対応するゲインで増幅して増幅固定コードベクトルFCV1として再構築部43に出力する。
再構築部43は、増幅適応コードベクトルACV1及び増幅固定コードベクトルFCV1に基づいて原励起信号SEXCOを再構築し、切替スイッチSW1に出力する。
ここで、符号化音声信号BSの連続フレーム誤り数が所定の基準フレーム誤り数「4」以下の場合、切替スイッチSW1は、LP合成フィルタ28側に設定されている。
従って、原励起信号SEXC0は、励起信号SEXCとして、LP合成フィルタ28に出力される。また、この励起信号SEXCは、新たな適応コードベクトルACVとして適応コードベクトルデコーダ22のメモリに書き込まれ、同メモリ内の最も古い適応コードベクトルACVが廃棄される。
LP合成フィルタ28は、励起信号SEXC及びLSP係数CLSPに基づいてLP合成を行って音声信号SSPCを再構築し、後処理フィルタ29に出力する。
後処理フィルタ29は、音声信号SSPCの後処理フィルタリングを行って、ハイパスフィルタ/アップスケーリング部30に出力する。
ハイパスフィルタ/アップスケーリング部30は、入力された音声信号SSPCのハイパスフィルタリング処理及びアップスケーリング処理を行って復号音声信号SPとして出力することとなる。
このように連続フレーム誤り数が4以下の場合、すなわち、符号化音声信号BSの受信状態が良い場合には、適正なレベルの励起信号SEXCが適応コードベクトルデコーダ22のメモリに書き込まれ、このようにしてメモリに書き込まれた過去の励起信号SEXCを用いて復号化が行われるので、最適な電力量を有する復号音声信号SPが出力されることとなる。
▲2▼フレーム誤りが連続して発生した場合の動作
フレーム誤りが生じると、復号結果を急速に減衰させるコンシールメント処理が行われる。このコンシールメント処理が複数フレーム周期に亙って続くと、適応コードベクトルデコーダ22のメモリ内の適応コードベクトルACVが次第に「0」に近づいてゆく。なお、このコンシールメント処理については、文献“Design and Description of CS−ACELP:A Toll Quality 8kb/s Speech Coder",IEEE Trans.on Speech and Audio Processing,vol.6 No.2,March 1998に説明されている。
▲3▼連続フレーム誤り数が「4」を越え、その後、フレーム誤りがなくなった場合の動作
この場合、切替制御部33は、フレーム誤りがなくなったタイミングから1フレームの間、切替スイッチSW1を第3増幅器44側に切り替えるための切替制御信号SSWを出力する。
この結果、励起信号再構築部27では、再構築部43から出力された原励起信号SEXC0が切替スイッチSW1を介して第3増幅器44に送られる。
ここで、原励起信号SEXC0は、連続的にコンシールメント処理が行われた直後のものであるため、そのレベルは僅かである。しかし、原励起信号SEXC0は、第3増幅器44によって増幅され、原励起信号SEXCとしてLP合成フィルタ28に出力されるとともに新たな適応コードベクトルACVとして適応コードベクトルデコーダ22のメモリに書き込まれる。
このため、音声復号器20の過去の内部状態、すなわち、適応コードベクトルデコーダ22のメモリ内の適応コードベクトルACVが早期に正常なときの状態に復帰し、正常な場合とほぼ同様な電力量を有する復号音声信号SPが出力されることとなる。
したがって、復号音声信号SPの主観音声品質が増幅処理を行わない場合と比較して向上されることとなる。
D.実施形態の変形例
以上の説明においては、音声信号処理装置の具体例として、CS−ACELP方式の音声復号器の場合について説明したが、本発明は、予測符号化を行っている音声信号処理装置であれば、他の方式の音声信号処理装置にも適用が可能であり、例えば、APC(Adaptive Predictive Coding)、LPC(Linear Prediction Coding)、RELP(Residual Excited LPC)、CELP(Code Excited LPC)、などの方式を用いた音声復号器についても適用が可能である。
Claims (4)
- 予測符号化された符号化音声信号のフレームを受け取り、該符号化音声信号と内部状態とから励起信号を生成し、この励起信号に基づいて復号音声信号を生成するとともに前記内部状態を更新し、フレームの符号誤りがあった場合には前記励起信号を減衰させるコンシールメント処理を行う音声復号器において、
所定の基準フレーム誤り数を越える連続したフレーム誤りが生じた場合に、この連続したフレーム誤りがなくなってから一定期間、増幅指示信号を出力する増幅制御手段と、
前記増幅指示信号が出力されている間、前記励起信号を増幅する増幅手段と、
を備えたことを特徴とする音声復号器。 - 前記増幅制御手段は、
前記フレーム誤りを検出し、誤り検出信号を出力する誤り検出手段と、
前記誤り検出信号に基づいて、連続したフレーム誤りのフレーム数をカウントし、連続フレーム誤り数を出力するカウント手段と、
前記カウント手段から出力される連続フレーム誤り数が前記基準フレーム誤り数を越えた場合に、その後、フレーム誤りがなくなってから一定期間、前記増幅指示信号を出力する増幅指示信号出力手段と、
を備えたことを特徴とする請求項1に記載の音声復号器。 - CELP方式に音声符号化器によって符号化された信号の復号を行うことを特徴とする請求項1に記載の音声復号器。
- 予測符号化された符号化音声信号のフレームを受け取り、該符号化音声信号と内部状態とから励起信号を生成し、この励起信号に基づいて復号音声信号を生成するとともに前記内部状態を更新し、フレームの符号誤りがあった場合には前記励起信号を減衰させるコンシールメント処理を行う音声復号方法において、
所定の基準フレーム誤り数を越える連続したフレーム誤りが生じた場合には、この連続したフレーム誤りがなくなってから所定フレーム数の間、前記励起信号を増幅することを特徴とする音声復号方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14619498 | 1998-05-27 | ||
PCT/JP1999/002801 WO1999062055A1 (fr) | 1998-05-27 | 1999-05-27 | Decodeur de son et procede de decodage de son |
Publications (1)
Publication Number | Publication Date |
---|---|
JP3554566B2 true JP3554566B2 (ja) | 2004-08-18 |
Family
ID=15402266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP54238699A Expired - Lifetime JP3554566B2 (ja) | 1998-05-27 | 1999-05-27 | 音声復号器および音声復号方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6714908B1 (ja) |
EP (1) | EP1001541B1 (ja) |
JP (1) | JP3554566B2 (ja) |
CN (1) | CN1134762C (ja) |
DE (1) | DE69942658D1 (ja) |
WO (1) | WO1999062055A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3881157B2 (ja) * | 2000-05-23 | 2007-02-14 | 株式会社エヌ・ティ・ティ・ドコモ | 音声処理方法及び音声処理装置 |
US7409338B1 (en) * | 2004-11-10 | 2008-08-05 | Mediatek Incorporation | Softbit speech decoder and related method for performing speech loss concealment |
KR100723409B1 (ko) * | 2005-07-27 | 2007-05-30 | 삼성전자주식회사 | 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치 |
WO2012000882A1 (en) | 2010-07-02 | 2012-01-05 | Dolby International Ab | Selective bass post filter |
EP2922056A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
EP2922055A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information |
EP2922054A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation |
CN110770822B (zh) * | 2017-06-19 | 2024-03-08 | Rtx股份有限公司 | 音频信号编码和解码 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4178549A (en) * | 1978-03-27 | 1979-12-11 | National Semiconductor Corporation | Recognition of a received signal as being from a particular transmitter |
JP3275248B2 (ja) * | 1991-07-15 | 2002-04-15 | 日本電信電話株式会社 | 音声復号方法 |
US6085158A (en) * | 1995-05-22 | 2000-07-04 | Ntt Mobile Communications Network Inc. | Updating internal states of a speech decoder after errors have occurred |
US5699485A (en) * | 1995-06-07 | 1997-12-16 | Lucent Technologies Inc. | Pitch delay modification during frame erasures |
US5664055A (en) * | 1995-06-07 | 1997-09-02 | Lucent Technologies Inc. | CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
JP3095340B2 (ja) * | 1995-10-04 | 2000-10-03 | 松下電器産業株式会社 | 音声復号化装置 |
JP3308783B2 (ja) * | 1995-11-10 | 2002-07-29 | 日本電気株式会社 | 音声復号化装置 |
-
1999
- 1999-05-27 EP EP99922522A patent/EP1001541B1/en not_active Expired - Lifetime
- 1999-05-27 DE DE69942658T patent/DE69942658D1/de not_active Expired - Lifetime
- 1999-05-27 JP JP54238699A patent/JP3554566B2/ja not_active Expired - Lifetime
- 1999-05-27 WO PCT/JP1999/002801 patent/WO1999062055A1/ja active Application Filing
- 1999-05-27 CN CNB998008419A patent/CN1134762C/zh not_active Expired - Lifetime
- 1999-05-27 US US09/462,126 patent/US6714908B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69942658D1 (de) | 2010-09-23 |
CN1134762C (zh) | 2004-01-14 |
US6714908B1 (en) | 2004-03-30 |
EP1001541A1 (en) | 2000-05-17 |
CN1272199A (zh) | 2000-11-01 |
EP1001541B1 (en) | 2010-08-11 |
WO1999062055A1 (fr) | 1999-12-02 |
EP1001541A4 (en) | 2001-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1576585B1 (en) | Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding | |
EP0747883B1 (en) | Voiced/unvoiced classification of speech for use in speech decoding during frame erasures | |
AU2003233724B2 (en) | Method and device for efficient frame erasure concealment in linear predictive based speech codecs | |
JP3354138B2 (ja) | 音声符号化 | |
US10431233B2 (en) | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates | |
EP1141946B1 (en) | Coded enhancement feature for improved performance in coding communication signals | |
EP1526507B1 (en) | Method for packet loss and/or frame erasure concealment in a voice communication system | |
US20020016161A1 (en) | Method and apparatus for compression of speech encoded parameters | |
EP0503684A2 (en) | Vector adaptive coding method for speech and audio | |
JPH09190197A (ja) | フレーム消失の間のピッチ遅れ修正方法 | |
JP2010507818A (ja) | 音声信号中の遷移フレームの符号化のための方法およびデバイス | |
JP3554567B2 (ja) | 音声復号器および音声復号方法 | |
JP3554566B2 (ja) | 音声復号器および音声復号方法 | |
EP0865027A2 (en) | Method for coding the random component vector in an ACELP coder | |
EP0747884B1 (en) | Codebook gain attenuation during frame erasures | |
KR20100084632A (ko) | 복잡성 분배를 이용하는 디지털 신호에서의 전송 에러 위장 | |
JP3582693B2 (ja) | 音声符号化方法 | |
JP3308783B2 (ja) | 音声復号化装置 | |
KR20120032444A (ko) | 적응 코드북 업데이트를 이용한 오디오 신호 디코딩 방법 및 장치 | |
JPH0786952A (ja) | 音声の予測符号化方法 | |
JP2775533B2 (ja) | 音声の長期予測装置 | |
Görtz | On the combination of redundant and zero-redundant channel error detection in CELP speech-coding | |
KR100221186B1 (ko) | 음성 부호화 및 복호화 장치와 그 방법 | |
JP2022532094A (ja) | コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイス | |
KR20120032443A (ko) | 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040427 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040510 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090514 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090514 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100514 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110514 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110514 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120514 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140514 Year of fee payment: 10 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |