JP2005513539A - 音声信号の効率的コーディングのための信号修正方法 - Google Patents
音声信号の効率的コーディングのための信号修正方法 Download PDFInfo
- Publication number
- JP2005513539A JP2005513539A JP2003553555A JP2003553555A JP2005513539A JP 2005513539 A JP2005513539 A JP 2005513539A JP 2003553555 A JP2003553555 A JP 2003553555A JP 2003553555 A JP2003553555 A JP 2003553555A JP 2005513539 A JP2005513539 A JP 2005513539A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- frame
- sound signal
- pitch
- current frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000002715 modification method Methods 0.000 title claims abstract description 30
- 230000005236 sound signal Effects 0.000 claims abstract description 252
- 238000000034 method Methods 0.000 claims abstract description 156
- 230000007774 longterm Effects 0.000 claims abstract description 107
- 238000012986 modification Methods 0.000 claims abstract description 93
- 230000004048 modification Effects 0.000 claims abstract description 93
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000001914 filtration Methods 0.000 claims abstract description 16
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 230000005284 excitation Effects 0.000 claims description 50
- 238000012937 correction Methods 0.000 claims description 46
- 230000003044 adaptive effect Effects 0.000 claims description 29
- 230000004044 response Effects 0.000 claims description 25
- 230000006872 improvement Effects 0.000 claims description 16
- 238000011161 development Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000010348 incorporation Methods 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims 14
- 230000000875 corresponding effect Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 238000007781 pre-processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000593 degrading effect Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
音信号をデジタル符号化するための信号修正を用いる手法において、長期予測を特徴付ける長期予測遅延パラメータを決定するために、音信号は、一連の連続フレームに分割され、音信号の特徴は、先行フレームにおいて特定され、音信号の対応する特徴は、現行フレームにおいて特定され、また、長期予測遅延パラメータは、現行フレームに対して決定される一方で、長期予測で、現行フレームの対応する信号特徴で先行フレームの信号特徴をマッピングする。音信号をデジタル符号化するための手法に組み込むための信号修正方法において、音信号は一連の連続フレームに分割され、音信号の各フレームは複数の信号セグメントに分割され、フレームの信号セグメントの少なくとも一部は、歪曲される一方で、歪曲された信号セグメントはフレーム内に制約される。音信号においてピッチパルスを検索するために、残差信号は、線形予測分析フィルタを経て音信号をフィルタ処理することによって生成され、信号周期性を示す重み付けされた音信号は、重み付けフィルタを経て音信号を処理することによって生成され、合成され重み付けされた音信号は、重み付けフィルタを経て音信号の先行フレームの最終サブフレーム時生成された合成音声信号をフィルタ処理することによって生成され、先行フレームの音信号の最終ピッチパルスは、残差信号から特定され、所定の長さのピッチパルス原型は、合成され重み付けされた音信号を用いて、先行フレームの音信号の最終ピッチパルス位置周辺において抽出され、ピッチパルスは、ピッチパルス原型を用いて、現行フレームにおいて特定される。
Description
本発明は、一般的に、通信システムにおける音信号の符号化及び復号化に関する。具体的には、本発明は、排他的ではないが、特に符号励振線形予測(CELP)符号化に適用可能な信号修正手法に関する。
主観的な品質とビットレートとの間のトレードオフが良好な効率的デジタル狭帯域及び広帯域音声コーディング手法に対する需要は、遠隔会議、マルチメディア、及び無線通信等の様々な応用分野でますます大きくなりつつある。最近まで、200−3400Hzの範囲に制約された電話帯域幅が、音声コーディング用途に用いられてきた。しかしながら、広帯域音声用途では、従来の電話帯域幅と比較して、通信の了解度と自然さが改善される。範囲50−7000Hzの帯域幅は、良好な品質を提供して対面通信の印象を与えるのに充分であることが分かっている。一般的なオーディオ信号の場合、この帯域幅は、許容可能な主観的な品質を与えるが、それぞれ、20−16000Hz及び20−20000Hzの範囲で動作するFM無線やCDの品質より依然として低い。
音声エンコーダは、通信チャネル上で送信される又は記憶媒体に記憶されるデジタルビットストリームに音声信号を変換する。音声信号は、デジタル化される。即ち、サンプリングされ、また、通常、サンプル当たり16ビットで量子化される。音声エンコーダは、良好な主観的な音声品質を維持しつつ、これらのデジタルサンプルをより少ない数のビットで表現する役割を有する。音声デコーダすなわち合成器は、送信又は記憶されたビットストリームを処理し、それを再度音信号に変換する。
符号励振線形予測(CELP)コーディングは、主観的な品質とビットレートとの間の良好な妥協点を実現するための最適な手法の1つである。このコーディング手法は、無線及び有線の両用途における幾つかの音声コーディング標準の基礎である。CELPコーディングにおいて、サンプリングされた音声信号は、通常”フレーム”と呼ばれるNサンプルの連続ブロックにおいて処理される。ここで、Nは、通常、10−30msに相当する所定の数である。線形予測(LP)フィルタは、フレーム毎に計算され、また、送信される。通常、LPフィルタの計算には、予測、即ち、後続のフレームから5−10msの音声セグメントが必要である。N−サンプルフレームは、サブフレームと呼ばれるより小さいブロックに分割される。通常、サブフレームの数は、3つ又は4つであり、4−10msのサブフレームになる。各サブフレームにおいて、通常、励振信号は、2つの構成要素、即ち、過去の励振及び新規の固定コードブック励振から得られる。過去の励振から形成された構成要素は、適応コードブック又はピッチ励振と呼ばれることが多い。励振信号を特徴付けるパラメータは、符号化され、また、デコーダに送信される、この場合、再構成された励振信号は、LPフィルタの入力として用いられる。
従来のCELPコーディングにおいて、過去の励振を現在の励振マッピングするための長期予測は、通常、サブフレームベースで行なわれる。長期予測は、通常、計算され、符号化され、そして、サブフレーム毎にデコーダに送信される遅延パラメータ及びピッチ利得によって特徴付けられる。低ビットレートでは、これらのパラメータは、利用可能なビット経費のかなりの割合を消費する。信号修正手法[1−7]、即ち、
[1]W.B.Kleijn、P.Kroon、及びD.Nahumi、”RCELP音声コーディングアルゴリズム”欧州電気通信会報、Vol.4、No.5、pp.573−582、1994年;
[2]W.B.Kleijn、R.P.Ramachandran、及びP.Kroon、”分析合成音声コーダにおいてピッチ予測器パラメータの補間”音声及びオーディオ処理に関するIEEE会報、Vol.2、No.1、pp.42−54、1994年;
[3]Y.Gao、A.Benyassine、J.Thyssen、H.Su、及びE.Shlomot、”EX−CELP:音声コーディングパラダイム”音響学、音声、及び信号処理(ICASSP)に関するIEEE国際会議、米国ユタ州ソルトレーク市、pp.689−692、2001年5月7日−11日;
[4]米国特許第5,704,003号、”RCELPコーダ”LucentTechnologies社、(W.B.Kleijn及びD.Nahumi)、出願日1995年9月19日;
[5]欧州特許出願第0602826号A2、”分析合成コーディングのための時間シフト処理”AT&T社、(B.Klein)、出願日1993年12月1日;
[6]特許出願第WO00/11653号、”連続的な歪曲を長期予測と組み合わせた音声エンコーダ”Conexantシステムズ社、(Y.Gao)、出願日1999年8月24日;
[7]特許出願第WO00/11654号、”連続的な歪曲によるピッチ前処理を適応的に応用する音声エンコーダ”Conexantシステム社、(H.Su及びY.Gao)、出願日1999年8月24日;
は、符号化される信号を調整することによって、低ビットレートでの長期予測の性能を改善する。このことは、長期予測遅延に適合するように音声信号のピッチサイクルの展開を適応させることによって行なわれ、フレーム当たり1つだけの遅延パラメータを送信可能にする。信号修正は、修正された音声信号と元の音声信号との間の差異を聞き取れないようにできるという前提条件に基づく。信号修正を利用するCELPコーダは、汎用分析合成又は緩和CELP(RCELP)コーダと呼ばれることが多い。
[1]W.B.Kleijn、P.Kroon、及びD.Nahumi、”RCELP音声コーディングアルゴリズム”欧州電気通信会報、Vol.4、No.5、pp.573−582、1994年;
[2]W.B.Kleijn、R.P.Ramachandran、及びP.Kroon、”分析合成音声コーダにおいてピッチ予測器パラメータの補間”音声及びオーディオ処理に関するIEEE会報、Vol.2、No.1、pp.42−54、1994年;
[3]Y.Gao、A.Benyassine、J.Thyssen、H.Su、及びE.Shlomot、”EX−CELP:音声コーディングパラダイム”音響学、音声、及び信号処理(ICASSP)に関するIEEE国際会議、米国ユタ州ソルトレーク市、pp.689−692、2001年5月7日−11日;
[4]米国特許第5,704,003号、”RCELPコーダ”LucentTechnologies社、(W.B.Kleijn及びD.Nahumi)、出願日1995年9月19日;
[5]欧州特許出願第0602826号A2、”分析合成コーディングのための時間シフト処理”AT&T社、(B.Klein)、出願日1993年12月1日;
[6]特許出願第WO00/11653号、”連続的な歪曲を長期予測と組み合わせた音声エンコーダ”Conexantシステムズ社、(Y.Gao)、出願日1999年8月24日;
[7]特許出願第WO00/11654号、”連続的な歪曲によるピッチ前処理を適応的に応用する音声エンコーダ”Conexantシステム社、(H.Su及びY.Gao)、出願日1999年8月24日;
は、符号化される信号を調整することによって、低ビットレートでの長期予測の性能を改善する。このことは、長期予測遅延に適合するように音声信号のピッチサイクルの展開を適応させることによって行なわれ、フレーム当たり1つだけの遅延パラメータを送信可能にする。信号修正は、修正された音声信号と元の音声信号との間の差異を聞き取れないようにできるという前提条件に基づく。信号修正を利用するCELPコーダは、汎用分析合成又は緩和CELP(RCELP)コーダと呼ばれることが多い。
信号修正手法は、信号のピッチを所定の遅延等高線に調整する。次に、長期予測は、この遅延等高線及び利得パラメータによるスケーリングを用いて、過去の励振信号を現行サブフレームにマッピングする。遅延等高線は、2つの開ループピッチ推定値間、即ち、先行フレームにおいて得られる第1番目と現行フレームにおける第2番目との間で補間することによって、簡単明瞭に得られる。補間は、フレームのあらゆる時点の遅延値を与える。遅延等高線が利用可能になった後、現時点で符号化されるサブフレームのピッチは、信号の時間尺度を歪曲、即ち、変更することによって、この人為的な等高線に従うように調整される。
不連続的な歪曲[1、4及び5]、即ち、
[1]W.B.Kleijn、P.Kroon、及びD.Nahumi、”RCELP音声コーディングアルゴリズム”欧州電気通信会報、Vol.4、No.5、pp.573−582、1994年;
[4]米国特許第5,704,003号、”RCELPコーダ”LucentTechnologies社、(W.B.Kleijn及びD.Nahumi)、出願日1995年9月19日;
[5]欧州特許出願第0602826号A2、”分析合成コーディングのための時間シフト処理”AT&T社、(B.Klein)、出願日1993年12月1日;
において、信号セグメントが、セグメント長を変えることなく、時間的にシフトされる。不連続的な歪曲には、結果的に得られる重複又は欠落信号部位を取り扱うための手順が必要である。連続的な歪曲[2、3、6、7]、即ち、
[2]W.B.Kleijn、R.P.Ramachandran、及びP.Kroon、”分析合成音声コーダにおいてピッチ予測器パラメータの補間”音声及びオーディオ処理に関するIEEE会報、Vol.2、No.1、pp.42−54、1994年;
[3]Y.Gao、A.Benyassine、J.Thyssen、H.Su、及びE.Shlomot、”EX−CELP:音声コーディングパラダイム”音響学、音声、及び信号処理(ICASSP)に関するIEEE国際会議、米国ユタ州ソルトレーク市、pp.689−692、2001年5月7日−11日;
[6]特許出願第WO00/11653号、”連続的な歪曲を長期予測と組み合わせた音声エンコーダ”Conexantシステムズ社、(Y.Gao)、出願日1999年8月24日;
[7]特許出願第WO00/11654号、”連続的な歪曲によるピッチ前処理を適応的に応用する音声エンコーダ”Conexantシステム社、(H.Su及びY.Gao)、出願日1999年8月24日;
は、信号セグメントを収縮又は膨張させる。このことは、信号セグメントに対する時間連続的な近似法であって、遅延等高線に基づき決定された等しくないサンプリング間隔でそれを所望の長さに再サンプリングするための方法を用いて行なわれる。これらの処理においてアーティファクトを低減するために、時間尺度の許容可能な変化は、小さく保たれる。更に、歪曲は、通常、結果的に得られる歪を低減するために、LP残差信号又は重み付けされた音声信号を用いて行なわれる。また、音声信号の代わりにこれらの信号を用いると、ピッチパルス及びそれらの間における低出力領域の検出、また従って、歪曲のための信号セグメントの決定が容易になる。実際の修正された音声信号は、逆フィルタ処理によって生成される。
[1]W.B.Kleijn、P.Kroon、及びD.Nahumi、”RCELP音声コーディングアルゴリズム”欧州電気通信会報、Vol.4、No.5、pp.573−582、1994年;
[4]米国特許第5,704,003号、”RCELPコーダ”LucentTechnologies社、(W.B.Kleijn及びD.Nahumi)、出願日1995年9月19日;
[5]欧州特許出願第0602826号A2、”分析合成コーディングのための時間シフト処理”AT&T社、(B.Klein)、出願日1993年12月1日;
において、信号セグメントが、セグメント長を変えることなく、時間的にシフトされる。不連続的な歪曲には、結果的に得られる重複又は欠落信号部位を取り扱うための手順が必要である。連続的な歪曲[2、3、6、7]、即ち、
[2]W.B.Kleijn、R.P.Ramachandran、及びP.Kroon、”分析合成音声コーダにおいてピッチ予測器パラメータの補間”音声及びオーディオ処理に関するIEEE会報、Vol.2、No.1、pp.42−54、1994年;
[3]Y.Gao、A.Benyassine、J.Thyssen、H.Su、及びE.Shlomot、”EX−CELP:音声コーディングパラダイム”音響学、音声、及び信号処理(ICASSP)に関するIEEE国際会議、米国ユタ州ソルトレーク市、pp.689−692、2001年5月7日−11日;
[6]特許出願第WO00/11653号、”連続的な歪曲を長期予測と組み合わせた音声エンコーダ”Conexantシステムズ社、(Y.Gao)、出願日1999年8月24日;
[7]特許出願第WO00/11654号、”連続的な歪曲によるピッチ前処理を適応的に応用する音声エンコーダ”Conexantシステム社、(H.Su及びY.Gao)、出願日1999年8月24日;
は、信号セグメントを収縮又は膨張させる。このことは、信号セグメントに対する時間連続的な近似法であって、遅延等高線に基づき決定された等しくないサンプリング間隔でそれを所望の長さに再サンプリングするための方法を用いて行なわれる。これらの処理においてアーティファクトを低減するために、時間尺度の許容可能な変化は、小さく保たれる。更に、歪曲は、通常、結果的に得られる歪を低減するために、LP残差信号又は重み付けされた音声信号を用いて行なわれる。また、音声信号の代わりにこれらの信号を用いると、ピッチパルス及びそれらの間における低出力領域の検出、また従って、歪曲のための信号セグメントの決定が容易になる。実際の修正された音声信号は、逆フィルタ処理によって生成される。
信号修正が現行サブフレームに対して行なわれた後、コーディングは、適応コードブック励振が所定の遅延等高線を用いて生成されることを除いて、従来のいずれの方法で進行し得る。本質的に、同じ信号修正手法を狭帯域及び広帯域CELPコーディングの双方において用い得る。
また、信号修正手法は、例えば、[8]、即ち、
[8]米国特許第6,223,151号、”変換式音声コーダによるコーディングに先立つ音声信号の前処理のための方法及び装置”Telefon_Aktie_Bolaget_LM_Ericsson、(W.B.Kleijn及びT.Eriksson)、出願日1999年2月10日、に基づき、波形補間コーディング及び正弦波コーディング等、他の種類の音声コーディング方法に適用し得る。
[8]米国特許第6,223,151号、”変換式音声コーダによるコーディングに先立つ音声信号の前処理のための方法及び装置”Telefon_Aktie_Bolaget_LM_Ericsson、(W.B.Kleijn及びT.Eriksson)、出願日1999年2月10日、に基づき、波形補間コーディング及び正弦波コーディング等、他の種類の音声コーディング方法に適用し得る。
本発明は、音信号をデジタル符号化するための信号修正を用いる手法において長期予測を特徴付ける長期予測遅延パラメータを決定するための方法に関する。本方法には、音信号を一連の連続フレームに分割する段階と、先行フレームにおいて音信号の特徴を特定する段階と、現行フレームにおいて音信号の対応する特徴を特定する段階と、長期予測が、先行フレームの信号特徴を現行フレームの対応する信号特徴にマッピングするように、現行フレームの長期予測遅延パラメータを決定する段階と、が含まれる。
該発明は、音信号をデジタル符号化するための信号修正を用いる手法において長期予測を特徴付ける長期予測遅延パラメータを決定するための装置に関する。本装置には、一連の連続フレームへの音信号の分割器と、先行フレームにおける音信号の特徴の検出器と、現行フレームにおける音信号の対応する特徴の検出器と、現行フレームの長期予測遅延パラメータの計算器であって、長期予測遅延パラメータの計算は、長期予測が、先行フレームの信号特徴を現行フレームの対応する信号特徴にマッピングするように行なわれる前記計算器と、が含まれる。
本発明によれば、音信号をデジタル符号化するための手法へ組み込むための信号修正方法が提供される。本方法には、音信号を一連の連続フレームに分割する段階と、音信号の各フレームを複数の信号セグメントに分割する段階と、フレームの信号セグメントの少なくとも一部を歪曲する段階であって、歪曲された信号セグメントをフレーム内に制約する段階を含む前記歪曲する段階と、が含まれる。
本発明に基づき、音信号をデジタル符号化するための手法へ組み込むための信号修正装置が提供される。本装置には、一連の連続フレームへの音信号の第1分割器と、複数の信号セグメントへの音信号の各フレームの第2分割器と、フレームの信号セグメントの少なくとも一部が供給される信号セグメント歪曲要素であって、フレーム内に歪曲された信号セグメントの制約器を含む前記歪曲要素と、が含まれる。
また、本発明は、音信号においてピッチパルスを検索するための方法に関する。本方法には、音信号を一連の連続フレームに分割する段階と、各フレームを多数のサブフレームに分割する段階と、線形予測分析フィルタを経て音信号をフィルタ処理することによって、残差信号を生成する段階と、残差信号から先行フレームの音信号の最終ピッチパルスを特定する段階と、残差信号を用いて、先行フレームの最終ピッチパルス位置周辺における所定の長さのピッチパルス原型を抽出する段階と、ピッチパルス原型を用いて、現行フレームにおいてピッチパルスを特定する段階と、が含まれる。
また、本発明は、音信号においてピッチパルスを検索するための装置に関する。本装置には、一連の連続フレームへの音信号の分割器と、多数のサブフレームへの各フレームの分割器と、音信号をフィルタ処理し、これによって残差信号を生成するための線形予測分析フィルタと、残差信号に応答した、先行フレームにおける音信号の最終ピッチパルスの検出器と、残差信号に応答した、先行フレームの最終ピッチパルス位置周辺における所定の長さのピッチパルス原型の抽出器と、ピッチパルス原型を用いた、現行フレームにおけるピッチパルスの検出器と、が含まれる。
本発明によれば、音信号においてピッチパルスを検索するための方法が提供される。本方法には、音信号を一連の連続フレームに分割する段階と、各フレームを多数のサブフレームに分割する段階と、重み付けフィルタを経て音信号を処理することによって、重み付けされた音信号を生成する段階であって、重み付けされた音信号は、信号周期性を示す前記段階と、重み付けされた音信号から先行フレームの音信号の最終ピッチパルスを特定する段階と、重み付けされた音信号を用いて、先行フレームの最終ピッチパルス位置周辺における所定の長さのピッチパルス原型を抽出する段階と、ピッチパルス原型を用いて、現行フレームにおけるピッチパルスを特定する段階と、が含まれる。
また、本発明に基づき、音信号においてピッチパルスを検索するための装置が提供される。本装置には、一連の連続フレームへの音信号の分割器と、多数のサブフレームへの各フレームの分割器と、音信号を処理して、信号周期性を示す重み付けされた音信号を生成するための重み付けフィルタと、重み付けされた音信号に応答した、先行フレームにおける音信号の最終ピッチパルスの検出器と、重み付けされた音信号に応答した、先行フレームの最終ピッチパルス位置周辺における所定の長さのピッチパルス原型の抽出器と、ピッチパルス原型を用いた、現行フレームにおけるピッチパルスの検出器と、が含まれる。
更に、本発明は、音信号においてピッチパルスを検索するための方法に関する。本方法には、音信号を一連の連続フレームに分割する段階と、各フレームを多数のサブフレームに分割する段階と、重み付けフィルタを経て音信号の先行フレームの最終サブフレーム時生成された合成音声信号をフィルタ処理することによって、合成され重み付けされた音信号を生成する段階と、合成され重み付けされた音信号から先行フレームの音信号の最終ピッチパルスを特定する段階と、合成され重み付けされた音信号を用いて、先行フレームの最終ピッチパルス位置周辺における所定の長さのピッチパルス原型を抽出する段階と、ピッチパルス原型を用いて、現行フレームにおけるピッチパルスを特定する段階と、が含まれる。
本発明は、更に、音信号においてピッチパルスを検索するための装置に関する。本装置には、一連の連続フレームへの音信号の分割器と、多数のサブフレームへの各フレームの分割器と、音信号の先行フレームの最終サブフレーム時生成された合成音声信号をフィルタ処理し、これによって、合成され重み付けされた音信号を生成するための重み付けフィルタと、合成され重み付けされた音信号に応答した、先行フレームにおける音信号の最終ピッチパルスの検出器と、合成され重み付けされた音信号に応答した、先行フレームの最終ピッチパルス位置周辺における所定の長さのピッチパルス原型の抽出器と、ピッチパルス原型を用いた、現行フレームにおけるピッチパルスの検出器と、が含まれる。
更に、本発明によれば、連続フレームに分割された、また、音信号をデジタル符号化するための信号修正を用いる手法によって先行して符号化された音信号の復号化時、適応コードブック励振を形成するための方法が提供される。本方法には、各フレームに対して、デジタル音信号符号化手法において長期予測を特徴付ける長期予測遅延パラメータを受信する段階と、現行フレーム時受信された長期予測遅延パラメータ及び先行フレーム時受信された長期予測遅延パラメータを用いて、遅延等高線を回復する段階であって、遅延等高線は、長期予測で、先行フレームの信号特徴を現行フレームの対応する信号特徴にマッピングする前記段階と、遅延等高線に応答して、適応コードブックにおいて適応コードブック励振を形成する段階と、が含まれる。
更に、本発明に基づき、連続フレームに分割された、また、音信号をデジタル符号化するための信号修正を用いる手法によって先行して符号化された音信号の復号化時、適応コードブック励振を形成するための装置が提供される。本装置には、各フレームの長期予測遅延パラメータの受信器であって、長期予測遅延パラメータは、デジタル音信号符号化手法における長期予測を特徴付ける前記受信器と、現行フレーム時受信された長期予測遅延パラメータ及び先行フレーム時受信された長期予測遅延パラメータに応答した、遅延等高線の計算器であって、遅延等高線は、長期予測で、先行フレームの信号特徴を現行フレームの対応する信号特徴にマッピングする前記計算器と、遅延等高線に応答して適応コードブック励振を形成するための適応コードブックと、が含まれる。
本発明の前述の及び他の目的、利点及び特徴は、添付の図面を参照して、一例としてのみ与えられた以下に示すその実施形態例についての非限定的説明を解釈すると更に明らかになる。
本発明の実施形態例について、音声信号及び3GPPAMR広帯域音声コーデックAMR−WB標準(ITU−TG.722.2)に関連して説明するが、本発明の概念は、他の種類の音信号及び他の音声並びにオーディオコーダに適用し得ることに留意されたい。
図1は、1フレーム内における修正された残差信号12の例を示す。図1に示すように、修正された残差信号12の時間シフトは、この修正された残差信号が、時点tn−1及びtnにおいて発生するフレーム境界において、元の非修正残差信号11と時間同期するように制約される。ここで、nは、現フレームの添え字を指す。
具体的には、時間シフトは、現行フレーム上で遅延パラメータを補間するために用いられる遅延等高線で暗黙的に制御される。遅延パラメータ及び等高線は、時間整合が上述したフレーム境界に制約されることを考慮して決定される。線形補間を用いて時間整合を強制的に行なう場合、結果的に得られる遅延パラメータは、幾つかのフレーム上で振動する傾向がある。このことは、人為的に振動する遅延等高線に従うピッチを有する修正された信号に煩わしいアーティファクトをもたらすことが多い。遅延パラメータのための適切に選択された非線形補間手法を用いると、これらの振動は実質的に低減される。
本発明による信号修正方法の実施形態例の機能ブロック図を図2に提示する。
本方法は、”ピッチサイクル検索”ブロック101において、個々のピッチパルス及びピッチサイクルを特定することによって始まる。ブロック101の検索は、フレーム上で補間された開ループピッチ推定値を利用する。特定されたピッチパルスに基づき、フレームは、ピッチサイクルセグメントに分割され、各ピッチサイクルセグメントは、1つのピッチパルスを含み、また、フレーム境界tn−1及びtn内に制約される。
”遅延曲線選択”ブロック103の機能は、長期予測器のための遅延パラメータを決定することであり、また、この遅延パラメータをフレーム上で補間するための遅延等高線を形成することである。遅延パラメータ及び等高線は、時間同時性が、フレーム境界tn−l及びtnに制約されることを考慮して、決定される。ブロック103で決定された遅延パラメータは、現行フレームに対して信号修正が可能である場合、符号化されデコーダに送信される。
実際の信号修正手順は、”ピッチ同期信号修正”ブロック105において実施される。ブロック105は、最初に、ブロック103において決定された遅延等高線に基づき目標信号を形成して、引き続き個々のピッチサイクルセグメントをこの目標信号に整合させる。次に、ピッチサイクルセグメントは、この目標信号とのそれらの相関関係を最大にするために、1つずつシフトされる。この複雑さのレベルを低く維持するために、最適なシフトを検索する間及びセグメントをシフトする間、連続的な時間歪曲は適用されない。
本明細書に開示した信号修正方法の実施形態例は、通常、純粋な発声音声フレーム上でのみ可能である。例えば、発声開始等の移行フレームは、アーティファクトを引き起こす危険性が高いため、修正されない。純粋な発声フレームにおいて、ピッチサイクルは、通常、相対的にゆっくりと変化し、また、従って、信号を長期予測モデルに適応させるには、小さいシフトで充分である。慎重に小さな信号調整だけを行なうことから、アーティファクトを引き起こす確率は、最小限に抑えられる。
信号修正方法は、純粋な発声セグメント用の効率的な分類器と、以って音声信号の供給源制御式コーディングに用いられるレート決定メカニズムとを定める。図2のブロック101、103及び105毎に、信号周期性、及び現行フレームにおける信号修正の適性に関する幾つかの指標が提供される。これらの指標は、現行フレームの適切なコーディングモード及びビットレートを決定するために、論理ブロック102、104及び106において、分析される。具体的には、これらの論理ブロック102、104及び106は、ブロック101、103、及び105で実施される処理の達成状況をモニタする。
ブロック102が、ブロック101で行なわれた処理が成功であることを検出した場合、信号修正方法は、ブロック103に進む。このブロック102が、ブロック101において行なわれた処理が失敗に終わったことを検出した場合、信号修正手順は、終了され、元の音声フレームは、そのまま保持されコーディングされる(ノーマルモードに対応するブロック108を参照のこと(信号修正無し))。
ブロック104が、ブロック103で行なわれた処理が成功であることを検出した場合、信号修正方法は、ブロック105に進む。逆に、このブロック104が、ブロック103において行なわれた処理が失敗に終わったことを検出した場合、信号修正手順は終了され、元の音声フレームは、そのまま保持されコーディングされる(ノーマルモードに対応するブロック108を参照のこと(信号修正無し))。
ブロック106が、ブロック105で行なわれた処理が成功であることを検出した場合、信号修正での低ビットレートモードが用いられる(ブロック107を参照のこと)。逆に、このブロック106が、ブロック105で行なわれた処理が失敗に終わったことを検出した場合、信号修正手順は、終了され、元の音声フレームは、そのまま保持されコーディングされる(ノーマルモードに対応するブロック108を参照のこと(信号修正無し))。ブロック101−108の処理については、本明細書において詳細に後述する。
図3は、音声エンコーダ及びデコーダの使用方法を示す音声通信システムの説明例を示す概略ブロック図である。図3の音声通信システムは、通信チャネル205を介した音声信号の伝送及び再生をサポートする。これには、例えば、有線、光リンク、又はファイバリンクが含まれるが、通信チャネル205には、通常、少なくとも部分的に無線周波数リンクが含まれる。無線周波数リンクは、多重同時音声通信をサポートすることが多く、携帯電話に存在し得るような帯域幅資源の共有が必要である。図示しないが、通信チャネル205は、後で再生される符号化音声信号を記録し記憶する記憶装置で置き換え得る。
送信機側では、マイク201が、アナログデジタル(A/D)変換器202に供給されるアナログ音声信号210を生成する。A/D変換器202の機能は、アナログ音声信号210をデジタル音声信号211に変換することである。音声エンコーダ203は、デジタル音声信号211を符号化して、一組のコーディングパラメータ212を生成し、コーディングパラメータ212は、二進数に符号化され、チャネルエンコーダ204に出力される。チャネルエンコーダ204は、コーディングパラメータの二進数表現に冗長度を加えた後、通信チャネル205を介して、それらをビットストリーム213に送信する。
受信機側では、チャネルデコーダ206には、受信されたビットストリーム214からコーディングパラメータの上述した冗長二進数表現が供給され、伝送において生じたチャネル誤差が検出され、また、補正される。音声デコーダ207は、チャネルデコーダ206からのチャネル誤差補正されたビットストリーム215を一組のコーディングパラメータに再度変換して、合成デジタル音声信号216を生成する。音声デコーダ207によって再構成された合成音声信号216は、デジタルアナログ(D/A)変換器208を経てアナログ音声信号217に変換され、スピーカユニット209を経て再生される。
図4は、信号修正機能を内蔵した音声エンコーダ203(図3)の実施形態例によって行なわれる処理を示す概略ブロック図である。本明細書は、図4のブロック603におけるこの信号修正機能の新規な実施例を提示する。音声エンコーダ203によって行なわれる他の処理は、当業者には公知であり、また、例えば、刊行物[10]、
即ち、
[10]3GPPTS26.190、”AMR広帯域音声コーデック:トランスコディング機能、”3GPP技術明細書、
に記載されている。これは、本明細書中に引用参照する。特に記載しない場合、本発明の説明用実施形態及び例における音声符号化及び復号化処理の実施例は、AMR広帯域音声コーデック(AMR−WB)標準に準拠する。
即ち、
[10]3GPPTS26.190、”AMR広帯域音声コーデック:トランスコディング機能、”3GPP技術明細書、
に記載されている。これは、本明細書中に引用参照する。特に記載しない場合、本発明の説明用実施形態及び例における音声符号化及び復号化処理の実施例は、AMR広帯域音声コーデック(AMR−WB)標準に準拠する。
図4に示す音声エンコーダ203は、1つ又は複数のコーディングモードを用いて、デジタル音声信号を符号化する。これらのモードの1つにおいて、複数のコーディングモードが用いられ、また、信号修正機能が不可能になった場合、この特定のモードは、当業者には公知の充分に確立された標準に基づき動作する。
図4には示さないが、音声信号は、16kHzのレートでサンプリングされ、各音声信号サンプルがデジタル化される。デジタル音声信号は、次に、所定の長さの連続フレームに分割され、これらの各フレームは、所定数の連続サブフレームに分割される。デジタル音声信号は、更に、AMR−WB標準によって教示される前処理を受ける。この前処理には、高域通過フィルタ処理、フィルタP(z)=1−0.68z−1を用いるプリエンファシスフィルタ処理、及び16kHzから12.8kHzまでのサンプリングレートのダウンサンプリングが含まれる。図4の後続処理は、入力音声信号s(t)が、前処理され、また、12.8kHzのサンプリングレートまでダウンサンプリングされたと仮定する。
音声エンコーダ203には、前処理済み入力デジタル音声信号s(t)617に応答して、LPフィルタ1/A(z)のパラメータa0、a1、a2、...、anAを計算し量子化するLP(線形予測)分析・量子化モジュール601が含まれるが、ここで、nAは、フィルタの次数であり、A(z)=a0+a1z−1+a2z−2+...+anAz−nAである。これらの量子化されたLPフィルタパラメータの二進数表現616は、マルチプレクサ614に供給され、引き続きビットストリーム615に多重化される。量子化されなかった及び量子化されたLPフィルタパラメータは、補間され、対応するLPフィルタパラメータがサブフレーム毎に得られる。
音声エンコーダ203には、更に、LP分析・量子化モジュール601からのLPフィルタパラメータ618に応答して、現行フレーム用の開ループピッチ推定値619を計算するためのピッチ推定器602が含まれる。これらの開ループピッチ推定値619は、フレーム上で補間され、信号修正モジュール603において用いられる。
LP分析・量子化モジュール601及びピッチ推定器602において行なわれる処理は、上述したAMR−WB標準に準拠して実現し得る。
図4の信号修正モジュール603は、適応コードブック励振信号の閉ループピッチ検索に先立ち信号修正処理を行なって、決定された遅延等高線d(t)に音声信号を調整する。実施形態例おいて、遅延等高線d(t)は、フレームのサンプル毎に長期予測遅延を定義する。構造上、遅延等高線は、フレーム境界における遅延等高線の値に等しい遅延パラメータ620dn=d(tn)及びその先行値dn−1=d(tn−1)によって、フレームt∈(tn−1、tn)上で完全に特徴付けられる。遅延パラメータ620は、信号修正処理の一部として決定され、符号化され、そして、マルチプレクサ614に供給され、ここで、ビットストリーム615に多重化される。
フレームのサンプル毎に長期予測遅延パラメータを定義する遅延等高線d(t)は、適応コードブック607に供給される。適応コードブック607は、遅延等高線d(t)に応答して、遅延等高線d(t)を用いて、励振u(t)から現行サブフレームの適応コードブック励振ub(t)をub(t)=u(t−d(t))として形成する。従って、遅延等高線は、励振信号u(t−d(t))の過去のサンプルを適応コードブック励振ub(t)の現在のサンプルにマッピングする。
また、信号修正手順は、固定コードブック励振uc(t)の閉ループ検索用の修正された目標信号621を構成するために用いられる修正された残差信号
を生成する。修正された残差信号
は、LP残差信号のピッチサイクルセグメントを歪曲することによって信号修正モジュール603において得られ、そして、モジュール604における修正された目標信号の計算に合わせて供給される。次に、フィルタ1/A(z)による修正された残差信号のLP合成フィルタ処理により、モジュール604において、修正された音声信号が生成される。固定コードブック励振検索の修正された目標信号621は、AMR−WB標準の処理に基づき、モジュール604において形成されるが、元の音声信号は、その修正されたバージョンで置き換えられる。
適応コードブック励振ub(t)及び修正された目標信号621が現行サブフレーム用に得られた後、符号化は、更に、従来の手段を用いて、進行し得る。
閉ループ固定コードブック励振検索の機能は、現行サブフレームのための固定コードブック励振信号uc(t)を決定することである。閉ループ固定コードブック検索の処理を概略的に示すと、固定コードブック励振uc(t)は、増幅器610を経て利得調整される。同様に、適応コードブック励振ub(t)は、増幅器609を経て利得調整される。利得調整された適応及び固定コードブック励振ub(t)及びuc(t)は、加算器611を経て共に加算され、総合励振信号u(t)を形成する。この総合励振信号u(t)は、LP合成フィルタ1/A(z)612を経て処理され、合成音声信号625を生成し、合成音声信号625は、加算器605を経て修正された目標信号621から減算され、誤差信号626を生成する。誤差重み付け・最小化モジュール606は、誤差信号626に応答して、従来の方法により、サブフレーム毎に増幅器609及び610用の利得パラメータを計算する。誤差重み付け・最小化モジュール606は、更に、従来の方法に基づき、また、誤差信号626に応答して、固定コードブック608への入力627を計算する。量子化された利得パラメータ622及び623、並びに固定コードブック励振信号uc(t)を特徴付けるパラメータ624は、マルチプレクサ614に供給され、ビットストリーム615に多重化される。上述の手順は、信号修正が可能又は不可能な場合の双方において、同様に行なわれる。
信号修正機能が不可能であれば、適応励振コードブック607は、従来の方法によって動作することに留意されたい。この場合、別の遅延パラメータが、適応コードブック607のサブフレーム毎に検索され、開ループピッチ推定値619が改善される。これらの遅延パラメータは、符号化され、マルチプレクサ614に供給され、そして、ビットストリーム615に多重化される。更に、固定コードブックのための検索目標信号621は、従来の方法に基づき、形成される。
図13に示す音声デコーダは、信号修正が可能な場合を除いて、従来の方法により動作する。信号修正が不可能及び可能な処理は、適応コードブック励振信号ub(t)が形成される方法においてのみ本質的に異なる。両処理モードにおいて、デコーダは、受信されたパラメータをそれらの二進数表現から復号する。通常、受信されたパラメータは、励振、利得、遅延、及びLPパラメータを含む。復号化された励振パラメータは、モジュール701に用いられ、サブフレーム毎に固定コードブック励振信号uc(t)を形成する。この信号は、増幅器702を経て加算器703に供給される。同様に、現行サブフレームの適応コードブック励振信号ub(t)は、増幅器704を経て加算器703に供給される。加算器703において、利得調整された適応及び固定コードブック励振信号ub(t)及びuc(t)は、共に加算されて、現行サブフレーム用の総合励振信号u(t)を形成する。この励振信号u(t)は、現行サブフレームに対してモジュール707において補間されたLPパラメータを用いるLP合成フィルタ1/A(z)708を経て処理され、合成音声信号s^(t)を生成する。
信号修正が可能な場合、音声デコーダは、受信された遅延パラメータ、及びエンコーダにおけるその先行受信値dn−1を用いて、モジュール705において遅延等高線d(t)を回復する。この遅延等高線d(t)は、現行フレームのあらゆる時点の長期予測遅延パラメータを定義する。適応コードブック励振Ub(t)=u(t−d(t)は、遅延等高線d(t)を用いて、エンコーダにおける現行サブフレームに対する過去の励振から形成される。
残りの説明は、信号修正手順603、及びモード決定メカニズムの一部としてのその使用方法の詳細な作用を開示する。
ピッチパルス及びピッチサイクルセグメントの検索
本信号修正方法は、ピッチ及びフレームを同期処理して、各検出されたピッチサイクルセグメントを個々にシフトするが、そのシフトをフレーム境界に制約する。これには、現行フレームに対してピッチパルス及び対応するピッチサイクルセグメントを特定するための手段が必要である。信号修正方法の実施形態例において、ピッチサイクルセグメントは、図5に従って検索される検出済みピッチパルスに基づき決定される。
ピッチパルス検索は、残差信号r(t)、重み付けされた音声信号w(t)及び/又は重み付けされた合成音声信号
に作用し得る。残差信号r(t)は、サブフレームの補間された音声信号s(t)をLPフィルタA(z)でフィルタ処理することによって得られる。実施形態例において、LPフィルタA(z)の次数は、16である。重み付けされた音声信号w(t)は、重み付けフィルタを経て音声信号s(t)を処理することによって得られる。
ここで、係数γ1=0.92であり、また、γ2=0.68である。式(1)によって定義された重み付けフィルタが、音声信号s(t)における形成音構造を減衰し、また、正弦波信号セグメントに関して周期性も保持することから、重み付けされた音声信号w(t)は、開ループピッチ推定(モジュール602)に利用されることが多い。これによって、可能な信号周期性が、重み付けされた信号においてはっきりと識別できるため、ピッチパルス検索が容易になる。現行フレームの最終ピッチパルスを検索するために、重み付けされた音声信号w(t)は、予測のためにも必要とされることに留意されたい。このことは、現行フレームの最終サブフレームにおいて予測部位上に形成された式(1)の重み付けフィルタを用いることによって行ない得る。
図5のピッチパルス検索手順は、ブロック301において、残差信号r(t)から先行フレームの最終ピッチパルスを特定することによって始まる。通常、ピッチパルスは、約p(tn−1)の長さを有するピッチサイクルにおける低域通過フィルタ処理済み残差信号の最大絶対値としてはっきりと際立っている。長さ5のサンプルを有する正規化されたハミングウィンドウH5(z)=(0.08z−2+0.54z−1+1+0.54z+0.08z2)/2.24が、先行フレームの最終ピッチパルスの特定を容易にするために、低域通過フィルタ処理に用いられる。このピッチパルス位置は、T0によって示される。本発明による信号修正方法の実施形態例は、このピッチパルスに対する正確な位置を必要としないが、むしろピッチサイクルにおける高エネルギセグメントの大まかな位置推定値を必要とする。
先行フレームにおいてT0での最終ピッチパルスを特定した後、長さ2/+1サンプルのピッチパルス原型は、例えば、以下の式によるこの大まかな位置推定値周辺において、図5のブロック302において抽出される。
このピッチパルス原型は、現行フレームでのピッチパルスの特定に引き続き用いられる。
合成され重み付けされた音声信号
(又は重み付けされた音声信号w(t))は、残差信号r(t)の代わりにパルス原型に用い得る。これによって、ピッチパルス検索が容易になるが、これは、信号の周期的な構造が、重み付けされた音声信号において、より良く保持されるためである。合成され重み付けされた音声信号
は、式(1)の重み付けフィルタW(z)による先行フレームの最終サブフレームの合成音声信号
をフィルタ処理することによって得られる。ピッチパルス原型が、先行して合成されたフレームの終端上を延在する場合、現行フレームの重み付けされた音声信号w(t)は、この超過部位に用いられる。先行合成音声フレームが、既に充分に展開されたピッチサイクルを含む場合、ピッチパルス原型は、重み付けされた音声信号w(t)のピッチパルスと高い相関関係を有する。従って、原型抽出に合成音声を用いると、以下の説明において更に詳細に説明するように、現行フレームにおいてコーディングの性能をモニタするための、また、適切なコーディングモードを選択するための追加情報が提供される。
l=10サンプルを選択すると、ピッチパルス検索において、複雑さと性能との間で良好な妥協点が提供される。lの値は、開ループピッチ推定値に比例して決定し得る。
先行フレームの最終パルス位置T0が与えられた場合、現行フレームの第1ピッチパルスは、ほぼ時点T0+p(T0)で発生すると予測し得る。ここで、p(t)は、時点(位置)tでの補間された開ループピッチ推定値を示す。この予測は、ブロック303において行なわれる。
ブロック305において、予測されたピッチパルス位置T0+p(T0)は、次のように改善される。
この場合、予測された位置近傍の重み付けされた音声信号w(t)は、次のようにパルス原型と互いに関連付けられる。
従って、この改善は、パルス原型と、上述した残差信号、重み付けされた音声信号又は重み付けされた合成音声信号の内の1つとの間における重み付けされた相関関係C(j)を最大にする([−jmax,jmax]に制限された)引数jである。説明例によれば、限界jmaxは、min{20,<p(0)/4>}として、開ループピッチ推定値に比例するが、この場合、演算子<・>は、最も近い整数への丸め処理を示す。式(4)における重み付け関数
は、開ループピッチ推定値を用いて予測されたパルス位置に有利である。これは、γ(j)が、j=0でその最大値1に達するためである。式(5)における分母p(T0+p(T0)は、予測されたピッチパルス位置に対する開ループピッチ推定値である。
第1ピッチパルス位置T1が、式(3)を用いて求められた後、次のピッチパルスは、時点T2=T1+p(T1)にあると予測でき、そして、上述したように改善し得る。予測303及び改善305が含まれるこのピッチパルス検索は、予測又は改善手順のいずれか一方が、現行フレーム外にピッチパルス位置を生成するまで繰返される。これらの条件は、論理ブロック304において、次のピッチパルス位置の予測(ブロック303)について、また、論理ブロック306において、ピッチパルスのこの位置の改善(ブロック305)について、チェックされる。論理ブロック304が検索を終了するのは、予測されたパルス位置が、後続のフレームにおいて、改善ステップがそれを現行フレームに戻せないほど遠い場合のみであることに留意されたい。この手順により、T1,T2,...,Tcによって示されるc個のピッチパルス位置が、現行フレーム内に生成される。
説明例によれば、ピッチパルスは、Tcによって示したフレームの最終ピッチパルスを除いて、整数解像度で特定される。2連続フレームの最終パルス間の厳密な距離が、送信される遅延パラメータを決定するために必要なことから、最終パルスは、jについての式(4)における1/4サンプルの少数解像度を用いて特定される。この少数解像度は、式(4)の相関関係を評価する前に、最終の予測ピッチパルス近傍においてw(t)をアップサンプリングすることによって得られる。説明例によれば、長さ33のハミング−ウィンドウ化同期補間がアップサンプリングに用いられる。最終ピッチパルス位置の少数解像度は、時間同時性の制約がフレーム終端に設定されているにも関わらず、長期予測の良好な性能を維持するのに役立つ。このことは、高い精度で遅延パラメータを送信するために必要な追加ビットレートのコストで得られる。
現行フレームにおいてピッチサイクルセグメンテーションを完了した後、各セグメントに対する最適なシフトが決定される。この処理は、以下の記述で説明する重み付けされた音声信号w(t)を用いて行なわれる。歪曲に起因する歪を低減する場合、個々のピッチサイクルセグメントのシフトは、LP残差信号r(t)を用いて実現される。シフトを行なうと、特にセグメント境界周辺の信号が歪むことから、残差信号r(t)の低パワー部位に境界を配置することが、不可欠である。説明例において、セグメント境界は、2つの連続するピッチパルスのほぼ中央に配置されるが、現行フレーム内に制約される。セグメント境界は、各セグメントが厳密に1つのピッチパルスを含むように、常に現行フレーム内で選択される。ピッチパルスが1つを越えるセグメント又はピッチパルスが全く無い”空”セグメントは、後続の相関関係に基づく目標信号との整合を阻害するため、ピッチサイクルセグメンテーションでは防止すべきである。lsサンプルのs番目の抽出されたセグメントは、k=0,1,...,ls−1に対して、ws(k)として示される。このセグメントの開始時点は、ws(0)=w(ts)であるように選択されたtsである。現在のフレームにおけるセグメントの数は、cによって示される。
現行フレーム内の2つの連続ピッチパルスTs及びTs+1間のセグメント境界を選択する間、次の手順が用いられる。最初に、2つのパルス間の中央時点が、Λ=<(Ts+Ts+1)/2>として計算される。セグメント境界の候補位置は、領域[Λ−εmax,Λ+εmax]に配置されるが、この場合、εmaxは、5個のサンプルに対応する。各候補境界位置のエネルギは、以下の様に計算される。
最小エネルギを与える位置が選択されるが、このことは、この選択が、通常、修正された音声信号における最小歪になるという理由による。式(6)を最小限に抑える時点は、εとして示す。新セグメントの開始時点は、ts=Λ+εとして選択される。先行セグメントが時点Λ+ε−1で終端することから、これによって、先行セグメントの長さも定義される。
図6は、ピッチサイクルセグメンテーションの説明例を示す。特に、最初及び最終セグメントW1(k)及びw4(k)が、それぞれ空セグメントが生じないように、また、フレーム境界を越えないように、抽出されていることに留意されたい。
遅延パラメータの決定
一般的に、信号修正の主な利点は、フレーム当たり遅延パラメータを1つだけ符号化してデコーダ(図示せず)に送信しなければならないことである。しかしながら、この単一のパラメータの決定には、特に、注意しなければならない。遅延パラメータは、その先行値と共に、フレーム上でのピッチサイクル長の展開を定義するのみならず、結果的に得られる修正された信号の時間非同時性に影響を及ぼす。
[1、4−7]に記載する、即ち、
[1]W.B.Kleijn、P.Kroon、及びD.Nahumi、”RCELP音声コーディングアルゴリズム”欧州電気通信会報、Vol.4、No.5、pp.573−582、1994年;
[4]米国特許第5,704,003号、”RCELPコーダ”LucentTechnologies社、(W.B.Kleijn及びD.Nahumi)、出願日1995年9月19日;
[5]欧州特許出願第0602826号A2、”分析合成コーディングのための時間シフト処理”AT&T社、(B.Klein)、出願日1993年12月1日;
[6]特許出願第WO00/11653号、”連続的な歪曲を長期予測と組み合わせた音声エンコーダ”Conexantシステムズ社、(Y.Gao)、出願日1999年8月24日;
[7]特許出願第WO00/11654号、”連続的な歪曲によるピッチ前処理を適応的に応用する音声エンコーダ”Conexantシステム社、(H.Su及びY.Gao)、出願日1999年8月24日;
に記載する方法において、時間同時性は、フレーム境界では必要なく、また、従って、送信される遅延パラメータは、開ループピッチ推定値を用いて、簡単明瞭に決定し得る。このように選択すると、通常、フレーム境界において時間の非同時性が生じ、また、信号の連続性が保持されなければならないため、後続のフレームにおいて時間シフトが蓄積することにつながる。人間の聴覚は、合成音声信号の時間尺度での変化に対する感受性はないが、時間非同時性が大きくなると、エンコーダの実行が複雑になる。実際、長信号バッファは、拡張された時間尺度の信号を収容する必要があり、また、符号化時、蓄積されたシフトを制限するための制御論理を実装しなければならない。また、RCELPコーディングに特有な幾つかのサンプルの時間非同時性は、LPパラメータと修正された残差信号との間の不整合をもたらすことがある。この不整合は、修正された残差信号のLPフィルタ処理によって合成される修正音声信号の知覚アーティファクトに至ることがある。
[1]W.B.Kleijn、P.Kroon、及びD.Nahumi、”RCELP音声コーディングアルゴリズム”欧州電気通信会報、Vol.4、No.5、pp.573−582、1994年;
[4]米国特許第5,704,003号、”RCELPコーダ”LucentTechnologies社、(W.B.Kleijn及びD.Nahumi)、出願日1995年9月19日;
[5]欧州特許出願第0602826号A2、”分析合成コーディングのための時間シフト処理”AT&T社、(B.Klein)、出願日1993年12月1日;
[6]特許出願第WO00/11653号、”連続的な歪曲を長期予測と組み合わせた音声エンコーダ”Conexantシステムズ社、(Y.Gao)、出願日1999年8月24日;
[7]特許出願第WO00/11654号、”連続的な歪曲によるピッチ前処理を適応的に応用する音声エンコーダ”Conexantシステム社、(H.Su及びY.Gao)、出願日1999年8月24日;
に記載する方法において、時間同時性は、フレーム境界では必要なく、また、従って、送信される遅延パラメータは、開ループピッチ推定値を用いて、簡単明瞭に決定し得る。このように選択すると、通常、フレーム境界において時間の非同時性が生じ、また、信号の連続性が保持されなければならないため、後続のフレームにおいて時間シフトが蓄積することにつながる。人間の聴覚は、合成音声信号の時間尺度での変化に対する感受性はないが、時間非同時性が大きくなると、エンコーダの実行が複雑になる。実際、長信号バッファは、拡張された時間尺度の信号を収容する必要があり、また、符号化時、蓄積されたシフトを制限するための制御論理を実装しなければならない。また、RCELPコーディングに特有な幾つかのサンプルの時間非同時性は、LPパラメータと修正された残差信号との間の不整合をもたらすことがある。この不整合は、修正された残差信号のLPフィルタ処理によって合成される修正音声信号の知覚アーティファクトに至ることがある。
逆に、本発明による信号修正方法の実施形態例は、フレーム境界における時間同時性を保持する。従って、厳密に制約されたシフトがフレーム終端において発生し、また、全ての新フレームが、元の音声フレームと完璧に時間整合して始まる。
フレーム終端において時間同時性を保証する場合、遅延等高線d(t)は、長期予測で、先行合成音声フレームの終端における最終ピッチパルスを現行フレームのピッチパルスにマッピングする。遅延等高線は、時点tn−1+1からtnまでの全てのサンプルに対して、現行のn番目のフレーム上で補間長期予測遅延パラメータを定義する。フレーム終端の遅延パラメータdn=d(tn)だけが、デコーダに送信され、d(t)は、送信された値によって完全に規定された形式を有さなければならないことが暗に示される。長期予測遅延パラメータは、結果的に得られる遅延等高線が、パルスマッピングを達成するように選択されなければならない。数学的形式では、このマッピングは、次の様に提示し得る。即ち、κcを暫定時間変数とし、T0及びTcをそれぞれ先行及び現行フレームにおける最終ピッチパルス位置とすると、遅延パラメータdnは、表1に提示された擬似符号化を実行した後、変数κcが、T0に極めて近い値を有して、誤差|κc−T0|を最小化するように選択されなければならない。擬似符号は、値κc=Tcから始まり、κj=κj−1−d(κj−1)を更新することによって、c回後方反復を行なう。次に、κcがT0に等しい場合、フレーム終端での時間非同時性が無い状態において最大効率で長期予測を利用し得る。
図7は、c=3の場合における遅延選択ループの処理の例を示す。ループは、値κ0=Tcから始まり、κ1=κ0−d(κ0)として、最初の後方反復を行なう。反復は、2回継続され、更に、κ2=κ1−d(κ1)及びκ3=κ2−d(κ2)となる。そして、最終値κ3は、誤差en=|κ3−T0|に関してT0と比較される。結果的に得られる誤差は、本明細書において後述する遅延選択アルゴリズムにおいて調整される遅延等高線の関数である。
信号修正方法[1、4、6、7]、即ち、
[1]W.B.Kleijn、P.Kroon、及びD.Nahumi、”RCELP音声コーディングアルゴリズム”欧州電気通信会報、Vol.4、No.5、pp.573−582、1994年;
[4]米国特許第5,704,003号、”RCELPコーダ”LucentTechnologies社、(W.B.Kleijn及びD.Nahumi)、出願日1995年9月19日;
[6]特許出願第WO00/11653号、”連続的な歪曲を長期予測と組み合わせた音声エンコーダ”Conexantシステムズ社、(Y.Gao)、出願日1999年8月24日;
[7]特許出願第WO00/11654号、”連続的な歪曲によるピッチ前処理を適応的に応用する音声エンコーダ”Conexantシステムズ社、(H.Su及びY.Gao)、出願日1999年8月24日;
に記載するような信号修正方法では、フレーム上でdn−1とdnとの間において遅延パラメータが線形的に補間される。しかしながら、フレーム終端において、時間同時性が必要な場合、線形補間によって遅延等高線が振動するようになる傾向がある。従って、修正された音声信号のピッチサイクルは、周期的に収縮また膨張して、煩わしいアーティファクトを容易に引き起こす。振動の展開及び振幅は、最終ピッチ位置に関係する。最終ピッチパルスがピッチ周期と関連してフレーム終端から遠いほど、振動は、更に増幅される可能性がある。フレーム終端での時間同時性は、本発明による信号修正方法の実施形態例における本質的な要件であることから、音声品質を低下させずに、従来の方法からのなじみのある線形補間を用いることはできない。その代わり、本発明による信号修正方法の実施形態例は、区分的線形遅延等高線を開示する。
ここで、
振動は、この遅延等高線を用いることによって大幅に減少する。ここで、tn及びtn−1は、それぞれ、現行及び先行フレームの終端時点であり、dn及びdn−1は、対応する遅延パラメータ値である。時点tn−1+σnの後、遅延等高線は一定の状態になることに留意されたい。
[1]W.B.Kleijn、P.Kroon、及びD.Nahumi、”RCELP音声コーディングアルゴリズム”欧州電気通信会報、Vol.4、No.5、pp.573−582、1994年;
[4]米国特許第5,704,003号、”RCELPコーダ”LucentTechnologies社、(W.B.Kleijn及びD.Nahumi)、出願日1995年9月19日;
[6]特許出願第WO00/11653号、”連続的な歪曲を長期予測と組み合わせた音声エンコーダ”Conexantシステムズ社、(Y.Gao)、出願日1999年8月24日;
[7]特許出願第WO00/11654号、”連続的な歪曲によるピッチ前処理を適応的に応用する音声エンコーダ”Conexantシステムズ社、(H.Su及びY.Gao)、出願日1999年8月24日;
に記載するような信号修正方法では、フレーム上でdn−1とdnとの間において遅延パラメータが線形的に補間される。しかしながら、フレーム終端において、時間同時性が必要な場合、線形補間によって遅延等高線が振動するようになる傾向がある。従って、修正された音声信号のピッチサイクルは、周期的に収縮また膨張して、煩わしいアーティファクトを容易に引き起こす。振動の展開及び振幅は、最終ピッチ位置に関係する。最終ピッチパルスがピッチ周期と関連してフレーム終端から遠いほど、振動は、更に増幅される可能性がある。フレーム終端での時間同時性は、本発明による信号修正方法の実施形態例における本質的な要件であることから、音声品質を低下させずに、従来の方法からのなじみのある線形補間を用いることはできない。その代わり、本発明による信号修正方法の実施形態例は、区分的線形遅延等高線を開示する。
説明例において、パラメータσnは、以下のようにdn−1の関数として変化する。
また、フレーム長さNは、256サンプルである。振動を回避する場合、ピッチサイクルの長さが大きくなるにつれて、σnの値を小さくすると有益である。他方、tn−1<t<tn−1+σnの場合、フレームの初めにおける遅延等高線d(t)の急激な変化を回避する場合、パラメータσnは、常にフレーム長さの少なくとも半分でなければならない。d(t)の急激な変化は、修正された音声信号の品質を容易に低下させる。
先行フレームのコーディングモードに依存して、dn−1は、フレーム終端における遅延値(信号修正可能状態)又は最終サブフレームの遅延値(信号修正不可能状態)のいずれか一方であり得ることに留意されたい。遅延パラメータの過去の値dn−1は、デコーダにおいて分かることから、遅延等高線は、dnではっきりと定義され、デコーダは、式(7)を用いて、遅延等高線を形成できる。
最適な遅延等高線を検索する間変更し得る唯一のパラメータは、[34、231]に制約されるフレームの終端における遅延パラメータ値dnである。一般的な場合、最適なdnを求めるための簡単ではっきりした方法は存在しない。その代わり、最適な解を求めるために、幾つかの値を調べなければならない。しかしながら、この検索は、簡単明瞭である。まず、dnの値は、以下のように予測し得る。
実施形態例において、検索は、3つの段階で解像度を大きくし、また、全ての段階において[34、231]内で調査される検索範囲に焦点を合わせることによって、行なわれる。これら3つの段階において最小誤差en=|κc−T0|を与える表1の手順における遅延パラメータは、それぞれ、以下の式で示される。
第1段階において、検索は、
の場合、範囲
において、そうでない場合、
の範囲において、4サンプルの解像度で式(10)を用いて予測された値
の周辺で行なわれる。第2段階は、範囲を
に制約して、整数解像度を用いる。最終の第3段階は、
に対して、1/4サンプルの解像度で、範囲
を調査する。その範囲を越えると、
及び1/2サンプルの解像度が用いられる。この第3段階は、デコーダに送信される最適な遅延パラメータdnを生成する。この手順は、検索精度と複雑さとの間の妥協である。勿論、当業者は、本発明の本質及び精神から逸脱することなく、他の手段を用いて、時間同時性の制約の下で、遅延パラメータの検索を容易に実現し得る。
図8は、dn−1=50、dn=53、σn=172、及びフレーム長N=256の場合の遅延補間を示す。本信号修正方法の実施形態例に用いられる補間方法は、太線で示し、他方、従来の方法に対応する線形補間は、細線で示す。双方の補間された等高線は、表1の遅延選択ループにおいてほぼ同様に機能するが、開示された区分的線形補間によると、絶対変化|dn−1−dn|が小さくなる。この特徴により、遅延等高線d(t)における潜在的な振動、及びこの遅延等高線に従うピッチを有する修正された音声信号における煩わしいアーティファクトが減少する。
区分的線形補間方法の性能を更に明らかにするために、図9は、10フレーム上で結果的に得られた遅延等高線d(t)に関する例を太線で示す。対応する従来の線形補間で得られる遅延等高線d(t)は、細線で示す。この例は、52サンプルの一定の遅延パラメータを有する人為的な音声信号を音声修正手順の入力として用いて、構成されている。遅延パラメータd0=54サンプルを最初のフレームの初期値として故意に用いて、音声コーディングに特有なピッチ推定誤差の影響を示した。そして、線形補間及び本明細書に開示された区分的線形補間方法双方の遅延パラメータdnを、表1の手順を用いて検索した。必要な全てのパラメータが、本発明による信号修正方法の実施形態例に基づき選択された。結果的に得られた遅延等高線d(t)が示すことは、区分的線形補間が、急速に集中する遅延等高線d(t)を生成し、他方、従来の線形補間は、10フレーム期間内に正しい値に到達し得ないことである。遅延等高線d(t)におけるこれらの延長された振動は、修正された音声信号に対して、煩わしいアーティファクトを引き起こし、全体的な知覚品質を低下させることが多い。
信号の修正
遅延パラメータdn及びピッチサイクルセグメンテーションが決定された後、信号修正手順自体を開始し得る。信号修正方法の実施形態例において、音声信号は、個々のピッチサイクルセグメントを1つずつシフトして、それらを遅延等高線d(t)に調整することによって修正される。セグメントシフトは、重み付けされた音声領域のセグメントを目標信号と関係付けることによって決定される。目標信号は、先行フレームの合成され重み付けされた音声信号
及び現行フレームの先行する既にシフトされたセグメントを用いて構成される。実際のシフトは、残差信号r(t)について行なわれる。
信号修正は、長期予測の性能の最大化と、修正された音声信号の知覚品質の保持とを両立するために、注意深く行なわなければならない。フレーム境界において要求される時間同時性は、修正時もまた考慮しなければならない。
信号修正方法の実施形態例のブロック図は、図10に示す。修正は、ブロック401において、重み付けされた音声信号w(t)からlSサンプルの新セグメントwS(k)を抽出することによって始まる。このセグメントは、セグメント長lS、及びk=0,1,...,ls−1の場合、ws(k)=w(ts+k)を与える開始時点tsによって定義される。セグメンテーション手順は、前述の説明の教示内容に基づき実行される。
セグメントをこれ以上選択又は抽出できない場合(ブロック402)、信号修正処理は、終了する(ブロック403)。そうでない場合、信号修正処理は、ブロック404に進む。
現行セグメントws(k)の最適なシフトを求める場合、ブロック405において、目標信号
を生成する。現行フレームの最初のセグメントw1(k)の場合、この目標信号は、機能的方法
によって得られる。
ここで、
は、t=tn−1に対する先行フレームにおいて入手可能な重み付けされた合成音声信号である。パラメータδ1は、長さl1の最初のセグメントに対して許された最大シフトである。式(11)は、現行のシフトされたセグメントを潜在的に配置し得る信号部位上の遅延等高線を用いた長期予測のシミュレーションとして解釈し得る。後続のセグメントに対する目標信号の計算は、同じ原理に従うものであり、この節において後述する。
ここで、
現行セグメントの最適なシフトを求めるための検索手順は、目標信号を形成した後、開始し得る。この手順は、ブロック404において、時点tsで始まるセグメントwS(k)と目標信号
との間で、以下の様に計算された相関関係Cs(δ’)に基づく。
この場合、δSは、現行セグメントws(k)に対して許された最大シフトを決定し、
は、正の無限大側への丸め処理を示す。正規化された相関関係は、式(12)の代わりに充分に用い得るが、複雑さが増大する。実施形態例において、次の値は、δSに用いられる。即ち、
本節において後述するように、δSの値は、フレーム中の最初及び最後のセグメントに対しては、更に制限される。
相関関係(12)は、整数分解能で評価されるが、精度が高くなると、長期予測の性能が改善される。複雑さを低く維持するためには、式(12)の信号ws(k)又は
を直接アップサンプリングすることは適当ではない。その代わり、少数分解能が、サンプリングされた相関関係cs(δ’)を用いて最適なシフトを決定することによって、計算上効率的な方法で得られる。
相関関係cs(δ’)を最大化するシフトδが、ブロック404において、整数分解能で、最初に検索される。次に、少数分解能において、最大値は、開区間(δ−1,δ+1)において特定し、また、[−δs,δs]に境界を定めなければならない。ブロック406において、相関関係cs(δ’)は、65サンプルに等しい長さのハミングウィンドウ化同期補間を用いて、1/8サンプルの解像度にこの区間内でアップサンプリングされる。こうして、アップサンプリングされた相関関係の最大値に対応するシフトδは、少数分解能における最適なシフトである。この最適なシフトを求めた後、重み付けされた音声セグメントws(k)は、求められた少数分解能でブロック407で再計算される。即ち、セグメントの厳密な新しい開始時点は、
である場合、ts=ts−δ+δlとして更新される。更に、少数分解能における重み付けされた音声セグメントws(k)に対応する残差セグメントrs(k)が、再度、上述した同期補間を用いて、この点において、残差信号r(t)から計算される(ブロック407)。最適なシフトの少数部は、残差及び重み付けされた音声セグメントに組み込まれることから、全ての後続の計算は、上方に丸められたシフト
で実現し得る。
図11は、図10のブロック407に基づくセグメントws(k)の再計算を示す。この説明例において、最適なシフトは、値
を与える相関関係を最大化することによって、1/8サンプルの解像度で検索される。従って、整数部δ1は、
になり、少数部は、
になる。その結果、セグメントの開始時点は、tS=ts+3/8として更新される。図11では、ws(k)の新サンプルは、灰色の点で示す。
連続セグメントにおけるシフトは、互いに独立であることから、
に配置されたセグメントは、それらの間で重複するか又は間隙を有する。簡単明瞭な重み付けされた平均化法を、重複セグメントに用い得る。間隙は、隣接するサンプルを隣接するセグメントからコピーすることによって埋められる。重複又は欠落サンプルの数は、通常小さく、また、セグメント境界が残差信号の低エネルギ領域で発生することから、通常、知覚アーティファクトは、発生しない。留意されたいことは、[2]、[6]、[7]、即ち、
[2]W.B.Kleijn、R.P.Ramachandran、及びP.Kroon、”分析合成音声コーダにおけるピッチ予測器パラメータの補間”音声及びオーディオ処理に関するIEEE会報、Vol.2、No.1、pp.42−54、1994年;
[6]特許出願第WO00/11653号、”連続的な歪曲を長期予測と組み合わせた音声エンコーダ”Conexantシステムズ社、(Y.Gao)、出願日1999年8月24日;
[7]特許出願第WO00/11654号、”連続的な歪曲によるピッチ前処理を適応的に応用する音声エンコーダ”Conexantシステムズ社、(H.Su及びY.Gao)、出願日1999年8月24日;
に記載された連続的な信号歪曲は、用いられないが、修正は、複雑さを低減するために、ピッチサイクルセグメントをシフトすることによって連続的に行なわれる。
[2]W.B.Kleijn、R.P.Ramachandran、及びP.Kroon、”分析合成音声コーダにおけるピッチ予測器パラメータの補間”音声及びオーディオ処理に関するIEEE会報、Vol.2、No.1、pp.42−54、1994年;
[6]特許出願第WO00/11653号、”連続的な歪曲を長期予測と組み合わせた音声エンコーダ”Conexantシステムズ社、(Y.Gao)、出願日1999年8月24日;
[7]特許出願第WO00/11654号、”連続的な歪曲によるピッチ前処理を適応的に応用する音声エンコーダ”Conexantシステムズ社、(H.Su及びY.Gao)、出願日1999年8月24日;
に記載された連続的な信号歪曲は、用いられないが、修正は、複雑さを低減するために、ピッチサイクルセグメントをシフトすることによって連続的に行なわれる。
後続のピッチサイクルセグメントの処理は、ブロック405における目標信号
が、最初のセグメントのものとは異なるように形成されることを除いて、上述の開示された手順に従う。
のサンプルは、まず、以下の様に、修正され重み付けされた音声サンプルで置き換えられる。
この手順は、図11に示す。次に、更新されたセグメントに従うこれらのサンプルもまた更新される。
目標信号
の更新は、遅延等高線d(t)を考慮して修正済み音声信号における連続ピッチサイクルセグメント間の高い相関関係を保証し、また従って、より正確な長期予測を保証する。フレームの最終セグメントを処理する間、目標信号
は、更新する必要はない。
フレームにおける最初及び最終セグメントのシフトは、特に、注意深く行なわなければならない特別な場合である。最初のセグメントをシフトする前、フレーム境界tn−1に近接して残差信号r(t)に高出力領域が存在しないようにすべきである。これは、このようなセグメントをシフトすると、アーティファクトが生じ得るためである。高出力領域は、以下のように、残差信号r(t)を2乗することによって検索される。
この場合、
である。範囲[tn−1−2,tn−1+2]においてフレーム境界に近接してE0(k)の最大値が検出されると、許されるシフトは、1/4サンプルに制限される。最初のセグメントの処理されたシフトlδlが、この限界より小さい場合、信号修正手順は、現行フレームにおいて使用可能であるが、最初のセグメントは、そのままの状態である。
フレームの最終セグメントは、同様に処理される。前述の説明で述べたように、遅延等高線d(t)は、基本的に、最終セグメントにシフトが必要ないように選択される。しかしながら、目標信号は、式(16)及び(17)の連続セグメント間の相関関係を考慮して、信号修正時、繰返し更新されるため、最終セグメントが、わずかにシフトされなければならないのはあり得ることである。実施形態例において、このシフトは、常に、3/2サンプルより小さく制限される。フレーム終端に高出力領域が存在する場合、シフトは、許されない。この条件は、平方残差信号
を用いることによって検証される。
ここで、
ζ1=p(tn)である。E1(k)の最大値が、tn−4以上であるkに対して実現された場合、最終セグメントに対するシフトは、許されない。同様に、最初のセグメントの場合、処理されたシフトlδl<1/4の時、現在のフレームは、依然修正のために受け入れられるが、最終セグメントは、そのままの状態である。
ここで、
公知の信号修正方法とは逆に、シフトは、次のフレームに平行移動せず、また、全ての新フレームは、元の入力信号と完璧に同期して始まることに留意されたい。特に、RCELPコーディングに対する基本的な他の相違として、信号修正方法の実施形態例は、サブフレームが符号化される前、音声フレーム全体を処理する。明らかに、サブフレーム的な修正を行なうと、先行して符号化されたサブフレームを用いて、サブフレーム毎に目標信号を構成して、潜在的に性能を改善し得る。この手法は、フレーム終端での許された時間非同時性が厳密に制約されることから、信号修正方法の実施形態例に関しては用い得ない。しかしながら、式(15)及び(16)で目標信号を更新すると、滑らかに展開する発声フレームに関してのみ修正が可能であるため、発話と等しい性能がサブフレーム的な処理で実際に与えられる。
モード決定論理の信号修正手順への組み込み
本発明による信号修正方法の実施形態例は、図2に示すように、効率的分類及びモード決定メカニズムを備えている。ブロック101、103及び105において行なわれる全ての処理は、現行フレームにおける長期予測が到達し得る性能を定量化する幾つかの指標を生成する。これらの指標のいずれかが、その許される限界外にある場合、信号修正手順は、論理ブロック102、104、又は106の1つによって、終了される。この場合、元の信号は、そのまま保持される。
ピッチパルス検索手順101は、現フレームの周期性に関する幾つかの指標を生成する。従って、これらの指標を分析する論理ブロック102は、分類論理の最も重要な構成要素である。論理ブロック102は、下式
を用いて、検出されたピッチパルス位置間の差異と補間された開ループピッチ推定値とを比較し、また、この条件が満たされない場合、信号修正手順を終了する。
また、ブロック103において遅延等高線d(t)を選択すると、ピッチサイクルの展開及び現行音声フレームの周期性に関する追加情報が与えられる。この情報は、論理ブロック104において、調査される。信号修正手順は、条件|dn−dn−1|<0.2dnが満たされた場合にのみ、このブロック104から進む。この条件は、現行フレームを純粋な発声フレームとして分類するのは、許容される遅延変化が小さい場合のみであることを意味する。また、論理ブロック104は、選択された遅延パラメータ値dnに対する差異|κc−T0|を調査することによって、表1の遅延選択ループの達成状況を評価する。この差異が、1つのサンプルより大きい場合、信号修正手順は、終了される。
修正された音声信号に対して良好な品質を保証する場合、ブロック105において連続ピッチサイクルセグメントに対して行なわれたシフトを制約すると有利である。このことは、基準
をフレームの全てのセグメントに課すことによって、論理ブロック106で達成される。ここで、δ(s)及びδ(s−1)は、それぞれ、s番目及び(s−1)番目のピッチサイクルセグメントに対して行なわれたシフトである。閾値を越えた場合、信号修正手順は割込みを受けて、元の信号が維持される。
信号修正を受けたフレームが低ビットレートで符号化される場合、ピッチサイクルセグメントの形状がフレーム上で同じままであることが不可欠である。これによって、長期予測による忠実な信号モデル化、また従って、主観的な品質を低下することなく低ビットレートでのコーディングが可能になる。連続セグメントの類似性は、図10のブロック407でws(k)を更新した後の最適なシフトにおける現行セグメントと目標信号との間の正規化された相関関係
によって容易に定量化し得る。正規化された相関関係gsは、ピッチ利得とも呼ぶ。
ピッチサイクルセグメントをブロック105でシフトして、目標信号とのそれらの相関関係を最大化すると、信号修正が現行フレームにおいて有用である場合、周期性が強化され、また、高いピッチ予測利得が生成される。手順の達成状況は、論理ブロック106において、基準
gs>=0.84を用いて、調査される。
この条件が、全てのセグメントに対して満たされない場合、信号修正手順は、終了され(ブロック409)、元の信号がそのままの状態に維持される。この条件が満たされた場合(ブロック106)、信号修正は、ブロック411に進む。ピッチ利得gsは、ブロック408において、ブロック407からの再計算されたセグメントws(k)とブロック405からの目標信号
との間で計算される。一般的に、わずかに低い利得閾値が、男性の声については許容され、コーディング性能は等しい。利得閾値は、信号修正モードの使用割合、また従って、結果的に得られる平均ビットレートを調整するためのエンコーダの異なる処理モードにおいて変更し得る。
この条件が、全てのセグメントに対して満たされない場合、信号修正手順は、終了され(ブロック409)、元の信号がそのままの状態に維持される。この条件が満たされた場合(ブロック106)、信号修正は、ブロック411に進む。ピッチ利得gsは、ブロック408において、ブロック407からの再計算されたセグメントws(k)とブロック405からの目標信号
供給源制御式可変ビットレート音声コーデックのためのモード決定論理
本節は、供給源制御式可変ビットレート音声コーデックにおける汎用レート決定メカニズムの一部として、信号修正手順の使用方法を開示する。この機能は、本信号修正方法の実施形態例に組み込まれている。これは、この機能が、信号周期性、及び現在のフレームにおける長期予測の予想コーディング性能に関する幾つかの指標を提供するためである。これらの指標は、ピッチ周期の展開、この展開を記述するための選択された遅延等高線の適合性、及び信号修正で実現可能なピッチ予測利得を含む。図2に示す論理ブロック102、104及び106で信号修正が可能な場合、長期予測によって、修正された音声フレームをモデル化することができ、主観的な品質を低下することなく、低ビットレートでのそのコーディングを効率的に実現する。この場合、適応コードブック励振は、励振信号を記述する際、主要な影響を有し、また従って、固定コードブック励振に割当てられたビットレートを低減し得る。論理ブロック102、104又は106で信号修正が不可能な場合、フレームは、発声開始又は急速に展開する発声音声信号等の非静止音声セグメントを含む可能性がある。これらのフレームには、通常、良好な主観的な品質を保持するために高ビットレートが必要である。
図12は、4つのコーディングモードを制御するレート決定論理の一部としての信号修正手順603を示す。この実施形態例において、モードの組には、非アクティブ音声フレーム(ブロック508)、非発声音声フレーム(ブロック507)、安定発声フレーム(ブロック506)、及び他の種類のフレーム(ブロック505)のための専用モードが含まれる。安定発声フレーム506用のモードを除く、これら全てのモードは、当業者には公知の手法に基づき実現されることに留意されたい。
レート決定論理は、論理ブロック501、502、及び504において、3つのステップで行なわれる信号分類に基づくが、この内、ブロック501及び502の処理は、当業者には公知である。
最初に、発声アクティビティ検出器(VAD)501は、アクティブとイナクティブ音声フレームとの間の区別を行なう。イナクティブ音声フレームが検出されると、音声信号は、モード508によって処理される。
アクティブ音声フレームがブロック501で検出されると、フレームは、発声決定の実行専用の第2分類器502に供給される。分類器502が現行フレームを非発声音声信号と見なした場合、分類チェーンは終了し、また、音声信号は、モード507に基づき処理される。そうでない場合、音声フレームは、信号修正モジュール603に渡される。
次に、信号修正モジュールは、それ自体、論理ブロック504において、現行フレームの信号修正を可能にするか又は不可能にするかに関する決定を行なう。この決定は、実際、図2を参照して上述したように、論理ブロック102、104及び106において、信号修正手順の不可欠な部分として行なわれる。信号修正が可能な場合、フレームは、安定発声又は純粋に発声された音声セグメントと考えられる。
レート決定メカニズムがモード506を選択する場合、信号修正モードが使用可能になり、また、音声フレームが、前節の教示内容に基づき、符号化される。表2は、モード506に対して実施形態例に用いられるビット割当てを開示する。このモードで符号化されるフレームは、特徴的に極めて周期的であることから、実質的に低いビットレートが、例えば、移行フレームと比較して、良好な主観的な品質を保持するには充分である。また、信号修正によって、20msフレーム当たり9ビットだけを用いて、遅延情報の効率的コーディングが可能になり、他のパラメータに対してかなりの部分のビット経費を節約し得る。長期予測の性能が良好であると、主観的な音声品質を犠牲にすることなく、固定コードブック励振に対して、5msサブフレーム当たり13ビットだけを用い得る。固定コードブックには、2パルスで1トラックが含まれ、両パルスは、64の可能な位置を有する。
る。
る。
他のコーディングモード505、507及び508は、公知の手法に従って、実現される。信号修正は、これら全てのモードで不可能である。表3は、AMR−WB標準から採用されたモード505のビット割当てを示す。
AMR−WB標準に関する技術明細書[11]及び[12]、即ち、
[11]3GPPTS26。192、”AMR広帯域音声コーデック:快適雑音の特徴”3GPP技術明細書;
[12]3GPPTS26。193、”AMR広帯域音声コーデック:発声アクティビティ検出器(VAD)、”3GPP技術明細書;
は、それぞれ、501及び508における快適雑音及びVAD機能に関する参考文献として、ここに示す。
[11]3GPPTS26。192、”AMR広帯域音声コーデック:快適雑音の特徴”3GPP技術明細書;
[12]3GPPTS26。193、”AMR広帯域音声コーデック:発声アクティビティ検出器(VAD)、”3GPP技術明細書;
は、それぞれ、501及び508における快適雑音及びVAD機能に関する参考文献として、ここに示す。
要約すると、本明細書は、純粋な発声音声フレームのためのフレーム同期信号修正方法、修正されるフレームを検出するための分類メカニズムについて説明し、また、低ビットレートでの高品質コーディングを可能にするために、供給源制御式CELP音声コーデックにこれらの方法を用いるために説明した。
本信号修正方法は、修正されるフレームを決定するための分類メカニズムを備える。このことは、処理及び修正された信号の特性の点で、従来の信号修正及び前処理手段と異なる。本信号修正手順に取り入れた分類機能は、供給源制御式CELP音声コーデックのレート決定メカニズムの一部として用いられる。
信号修正は、ピッチ及びフレームに同期して行なわれる。即ち、後続の音声フレームが元の信号と完全に時間整合した状態で始まるように、現行フレームにおいて一度に1つのピッチサイクルセグメントを構成する。ピッチサイクルセグメントは、フレーム境界によって制限される。この特徴によって、フレーム境界上での時間シフトの平行移動が防止され、エンコーダの実行が簡素化され、修正された音声信号におけるアーティファクトの危険性が低減される。連続フレーム上で時間シフトが蓄積しないことから、開示した本信号修正方法は、拡張された信号を収容するための長いバッファや蓄積された時間シフトを制御するための複雑な論理回路を必要としない。供給源制御式音声コーディングにおいて、新フレームが全て元の信号と時間整合した状態で始まることから、信号修正可能及び不可能モード間でのマルチモード処理が簡素化される。
勿論、他の数多くの修正及び変更が、可能である。本発明及び関連する図面の上記詳細な例示の説明に鑑み、このような他の修正や変更は、当業者には現時点で明らかであろう。また、このような他の変更は、本発明の精神と範囲から逸脱することなく実施し得ることは明白である。
201・・・マイク、202・・・アナログデジタル(A/D)変換器、203・・・音声エンコーダ、204・・・チャネルエンコーダ、205・・・通信チャネル、206・・・チャネルデコーダ、207・・・音声デコーダ、208・・・デジタルアナログ(D/A)変換器、209・・・スピーカユニット、210・・・アナログ音声信号、211・・・デジタル音声信号、212・・・一組のコーディングパラメータ、213・・・ビットストリーム、214・・・ビットストリーム、215・・・ビットストリーム、216・・・合成デジタル音声信号、217・・・アナログ音声信号、601・・・LP(線形予測)分析・量子化モジュール、602・・・ピッチ推定器、603・・・信号修正モジュール、607・・・適応コードブック、614・・・マルチプレクサ、615・・・引き続きビットストリーム、616・・・量子化されたLPフィルタパラメータの二進数表現、617・・・前処理済み入力デジタル音声信号s(t)、618・・・LPフィルタパラメータ、619・・・現行フレーム用の開ループピッチ推定値、620・・・遅延パラメータ、621・・・修正された目標信号。
Claims (66)
- 音信号をデジタル符号化するための信号修正を用いる手法において長期予測を特徴付ける長期予測遅延パラメータを決定するための方法であって、
前記音信号を一連の連続フレームに分割する段階と、
先行フレームにおいて前記音信号の特徴を特定する段階と、
現行フレームにおいて前記音信号の対応する特徴を特定する段階と、
前記長期予測が、前記先行フレームの前記信号特徴を前記現行フレームの前記対応する信号特徴にマッピングするように、前記現行フレームの前記長期予測遅延パラメータを決定する段階と、
が含まれる方法。 - 請求項1に記載の長期予測遅延パラメータを決定するための方法であって、前記長期予測遅延パラメータを決定する段階は、
前記長期予測遅延パラメータから遅延等高線を形成する段階を含む方法。 - 請求項2に記載の長期予測遅延パラメータを決定するための方法であって、
前記音信号は、音声信号を含み、
前記先行フレームにおける前記音声信号の前記特徴は、前記先行フレームにおける前記音声信号のピッチパルスを含み、
前記現行フレームにおける前記音声信号の前記特徴は、前記現行フレームにおける前記音声信号のピッチパルスを含み、
遅延等高線を形成する段階は、前記長期予測で、前記先行フレームの前記ピッチパルスに前記現行フレームの前記ピッチパルスをマッピングする段階を含む、方法。 - 請求項3に記載の長期予測遅延パラメータを決定するための方法であって、前記長期予測遅延パラメータを定義する段階は、
前記先行フレームの最終ピッチパルスと前記現行フレームの最終ピッチパルスとの間における連続ピッチパルスの距離の関数として前記長期予測遅延パラメータを計算する段階を含む、方法。 - 請求項2に記載の長期予測遅延パラメータを決定するための方法であって、更に、
前記先行フレームの長期予測遅延パラメータ及び前記現行フレームの前記長期予測遅延パラメータで前記遅延等高線を完全に特徴付ける段階を含む方法。 - 請求項2に記載の長期予測遅延パラメータを決定するための方法であって、遅延等高線を形成する段階は、
前記先行フレームの長期予測遅延パラメータと前記現行フレームの前記長期予測遅延パラメータとの間で前記遅延等高線を非線形的に補間する段階を含む方法。 - 請求項2に記載の長期予測遅延パラメータを決定するための方法であって、遅延等高線を形成する段階は、
前記先行フレームの長期予測遅延パラメータ及び前記現行フレームの前記長期予測遅延パラメータから区分的線形遅延等高線を決定する段階を含む方法。 - 音信号をデジタル符号化するための信号修正を用いる手法において長期予測を特徴付ける長期予測遅延パラメータを決定するための装置であって、
一連の連続フレームへの前記音信号の分割器と、
先行フレームにおける前記音信号の特徴の検出器と、
現行フレームにおける前記音信号の対応する特徴の検出器と、
前記現行フレームの前記長期予測遅延パラメータの計算器であって、前記長期予測遅延パラメータの計算は、前記長期予測が、前記先行フレームの前記信号特徴を前記現行フレームの前記対応する信号特徴にマッピングするように行なわれる前記計算器と、
が含まれる装置。 - 請求項8に記載の長期予測遅延パラメータを決定するための装置であって、前記長期予測遅延パラメータの前記計算器は、
前記長期予測遅延パラメータからの遅延等高線の選択器を含む装置。 - 請求項9に記載の長期予測遅延パラメータを決定するための装置であって、
前記音信号は、音声信号を含み、
前記先行フレームにおける前記音声信号の前記特徴は、前記先行フレームにおける前記音信号のピッチパルスを含み、
前記現行フレームにおける前記音声信号の前記特徴は、前記現行フレームにおける前記音声信号のピッチパルスを含み、
前記遅延等高線選択器は、前記長期予測で、前記先行フレームの前記ピッチパルスに前記現行フレームの前記ピッチパルスをマッピングする遅延等高線の選択器である、
装置。 - 請求項10に記載の長期予測遅延パラメータを決定するための装置であって、前記長期予測遅延パラメータ副計算器は、
前記先行フレームの前記最終ピッチパルスと前記現行フレームの最終ピッチパルスとの間における連続ピッチパルスの距離の関数としての前記長期予測遅延パラメータの計算器である装置。 - 請求項9に記載の長期予測遅延パラメータを決定するための装置であって、更に、
前記先行フレームの長期予測遅延パラメータ及び前記現行フレームの前記長期予測遅延パラメータで前記遅延等高線を完全に特徴付ける機能を備える装置。 - 請求項9に記載の長期予測遅延パラメータを決定するための装置であって、前記遅延等高線選択器は、
前記先行フレームの前記長期予測遅延パラメータと前記現行フレームの前記長期予測遅延パラメータとの間における非線形的に補間された遅延等高線の選択器である装置。 - 請求項9に記載の長期予測遅延パラメータを決定するための装置であって、前記遅延等高線選択器は、
前記先行フレームの前記長期予測遅延パラメータ及び前記現行フレームの前記長期予測遅延パラメータからの区分的線形遅延等高線の選択器である装置。 - 音信号をデジタル符号化するための手法へ組み込むための信号修正方法であって、
前記音信号を一連の連続フレームに分割する段階と、
前記音信号の各フレームを複数の信号セグメントに分割する段階と、
前記フレームの前記信号セグメントの少なくとも一部を歪曲する段階であって、前記歪曲された信号セグメントを前記フレーム内に制約する段階を含む前記歪曲する段階と、が含まれる方法。 - 請求項15に記載の信号修正方法であって、
前記音信号は、ピッチパルスを含み、
各フレームは、境界を含み、
各フレームを分割する段階は、
前記フレームの前記音信号においてピッチパルスを特定する段階と、
前記フレームをピッチサイクルセグメントに分割する段階であって、各ピッチサイクルセグメントは、前記ピッチパルスの1つを含み、また、前記フレームの前記境界内に配置される前記段階と、を含む方法。 - 請求項16に記載の信号修正方法であって、
ピッチパルスを特定する段階は、前記フレーム上で補間された開ループピッチ推定値を用いる段階を含み、
前記信号修正方法は、更に、特定されたピッチパルス位置と前記補間された開ループピッチ推定値との間の差異が、所定の条件を満たさない場合、信号修正手順を終了させる段階を含む方法。 - 請求項15に記載の信号修正方法であって、前記音信号の各フレームを複数の信号セグメントに分割する段階は、
前記音信号を重み付けして、重み付けされた音信号を生成する段階と、
前記重み付けされた音信号から前記信号セグメントを抽出する段階と、
を含む方法。 - 請求項15に記載の信号修正方法であって、前記歪曲する段階は、
現行信号セグメントの目標信号を生成する段階と、
前記目標信号に応答して前記現行信号セグメントの最適なシフトを求める段階と、
を含む方法。 - 請求項17に記載の信号修正方法であって、
目標信号を生成する段階は、先行フレームの重み付けされた合成音声信号から、又は、修正され重み付けされた音声信号から目標信号を生成する段階を含み、
前記現行信号セグメントの最適なシフトを求める段階は、前記現行信号セグメントと前記目標信号との間の相関関係をとる段階を含む、
方法。 - 請求項20に記載の信号修正方法であって、相関関係をとる段階は、
最初に、整数分解能との前記相関関係を評価して、前記相関関係を最大にする信号セグメントシフトを求める段階と、
次に、前記相関関係最大化信号セグメントシフト周辺の領域における前記相関関係をアップサンプリングする段階であって、少数分解能との前記相関関係を最大化することによって、前記現行信号セグメントの最適なシフトを検索する段階が含まれる前記相関関係の前記アップサンプリングする前記段階と、
を含む方法。 - 請求項15に記載の信号修正方法であって、
各フレームは、境界を含み、
前記フレームの前記信号セグメントの少なくとも一部を歪曲する段階は、
高出力領域が、信号セグメントに隣接する前記フレーム境界に近接する前記音信号に存在するか否か検出する段階と、
高出力領域の検出の有無と関連して前記信号セグメントシフトする段階と、
を含む方法。 - 請求項15に記載の信号修正方法であって、前記歪曲する段階は、
補間された長期予測遅延パラメータを前記現行フレーム上に定義する遅延等高線を形成し、また、前記ピッチサイクルの前記展開及び前記現行音信号フレームの周期性に関する追加情報を提供する段階と、
前記個々のピッチサイクルセグメントを1つずつシフトして、それらを前記遅延等高線に調整する段階と、
を含む方法。 - 請求項23に記載の信号修正方法であって、前記個々のピッチサイクルセグメントをシフトする段階は、
前記遅延等高線を用いて目標信号を形成する段階と、
前記ピッチサイクルセグメントをシフトして、前記ピッチサイクルセグメントの前記目標信号との前記相関関係を最大にする段階と、
を含む方法。 - 請求項23に記載の信号修正方法であって、更に、
前記ピッチサイクルの前記展開及び前記現行音信号フレームの前記周期性に関する前記遅延等高線からの前記情報を調べる段階と、
前記ピッチサイクルの前記展開及び前記現行音信号フレームの前記周期性に関する前記遅延等高線によって与えられた前記情報に関係する少なくとも1つの条件を定義する段階と、
前記ピッチサイクルの前記展開及び前記現行音信号フレームの前記周期性に関する前記遅延等高線によって与えられた前記情報に関係する前記少なくとも1つの条件が満たされない場合、前記信号修正を中断する段階と、
を含む方法。 - 請求項19に記載の信号修正方法であって、更に、
前記信号セグメントの前記シフトを制約する段階であって、所定の基準を前記フレームの全ての前記信号に課す段階が含まれる前記制約する段階と、
前記所定の基準が守られない場合前記信号修正手順を中断し、前記元の音信号を維持する段階と、
を含む方法。 - 請求項15に記載の信号修正方法であって、更に、
前記音信号の前記現行フレームにおける発声アクティビティの欠如を検出する段階と、
前記現行フレームにおける発声アクティビティの前記欠如の検出に応答して、前記音信号の前記現行フレームをコーディングする信号修正不可能モードを選択する段階と、
を含む方法。 - 請求項15に記載の信号修正方法であって、更に、
前記音信号の前記現行フレームにおける発声アクティビティの存在を検出する段階と、
前記現行フレームを非発声音信号フレームと見なす段階と、
前記音信号の前記現行フレームをコーディングする信号修正不可能モードを、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出、及び
前記現行フレームを非発声音信号フレームと見なすこと、
に応答して選択する段階と、
を含む方法。 - 請求項15に記載の信号修正方法であって、更に、
前記音信号の前記現行フレームにおける発声アクティビティの存在を検出する段階と、
前記現行フレームを発声音信号フレームと見なす段階と、
信号修正が成功であることを検出する段階と、
前記音信号の前記現行フレームをコーディングする信号修正可能モードを、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出、
前記現行フレームを発声音信号フレームと見なすこと、及び
信号修正が成功であることの検出、
に応答して選択する段階と、
を含む方法。 - 請求項15に記載の信号修正方法であって、更に、
前記音信号の前記現行フレームにおける発声アクティビティの存在を検出する段階と、
前記現行フレームを発声音信号フレームと見なす段階と、
信号修正が成功であることを検出する段階と、
前記音信号の前記現行フレームをコーディングする信号修正不可能モードを、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出、
前記現行フレームを発声音信号フレームと見なすこと、及び
信号修正が不成功であることの検出、
に応答して選択する段階と、
を含む方法。 - 音信号をデジタル符号化するための手法へ組み込むための信号修正装置であって、
一連の連続フレームへの前記音信号の第1分割器と、
複数の信号セグメントへの前記音信号の各フレームの第2分割器と、
前記フレームの前記信号セグメントの少なくとも一部が供給される信号セグメント歪曲要素であって、前記フレーム内に前記歪曲された信号セグメントの制約器を含む前記歪曲要素と、
が含まれる装置。 - 請求項31に記載の信号修正装置であって、
前記音信号は、ピッチパルスを含み、
各フレームは、境界を含み、
前記第2分割器は、
前記フレームの前記音信号におけるピッチパルスの検出器と、
ピッチサイクルセグメントへの前記フレームの分割器であって、各ピッチサイクルセグメントは、前記ピッチパルスの1つを含み、また、前記フレームの前記境界内に配置される前記分割器と、
を含む装置。 - 請求項32に記載の信号修正装置であって、
ピッチパルス前記検出器は、前記フレーム上で補間された開ループピッチ推定値を用い、
前記信号修正装置は、更に、検出されたピッチパルスの位置と前記補間された開ループピッチ推定値との間の差異が所定の条件を満たさない時動作する信号修正終了要素を含む、
装置。 - 請求項31に記載の信号修正装置であって、複数の信号セグメントへの前記音信号の各フレームの前記第2分割器は、
前記音信号を重み付けして、重み付けされた音信号を生成するためのフィルタと、
前記重み付けされた音信号からの前記信号セグメントの抽出器と、
を含む装置。 - 請求項31に記載の信号修正装置であって、前記信号セグメント歪曲要素は、
現行信号セグメントの目標信号の計算器と、
前記目標信号に応答した前記現行信号セグメントの最適なシフトの発見器と、
を含む装置。 - 請求項35に記載の信号修正装置であって、
目標信号の前記計算器は、先行フレームの重み付けされた合成音声信号から、又は、修正され重み付けされた音声信号からの目標信号の計算器であり、
前記現行信号セグメントの最適なシフトの発見器は、前記現行信号セグメントと前記目標信号との間の相関関係の計算器を含む、
装置。 - 請求項36に記載の信号修正装置であって、相関関係の前記計算器は、
前記相関関係を最大にする信号セグメントシフトを求めるための整数分解能との前記相関関係の評価器と、
前記相関関係最大化信号セグメントシフト周辺の領域における前記相関関係のアップサンプリング器であって、前記アップサンプリング器は、前記現行信号セグメントの最適なシフトの検索器を含み、前記現行信号セグメントの最適なシフトの前記検索器には、少数分解能との前記相関関係の評価器が含まれる前記アップサンプリング器と、
を含む装置。 - 請求項34に記載の信号修正装置であって、
各フレームは、境界を含み、
前記信号セグメント歪曲要素は、
高出力領域が、信号セグメントに隣接する前記フレーム境界に近接する前記音信号に存在するか否かの検出器と、
高出力領域の検出の有無と関連した前記信号セグメントのシフタと、
を含む装置。 - 請求項31に記載の信号修正装置であって、前記信号セグメント歪曲要素は、
補間された長期予測遅延パラメータを前記現行フレーム上に定義し、また、前記ピッチサイクルの前記展開及び前記現行音信号フレームの周期性に関する追加情報を提供する遅延等高線の計算器と、
前記個々のピッチサイクルセグメントを1つずつシフトして、それらを前記遅延等高線に調整するシフタと、
を含む装置。 - 請求項39に記載の信号修正装置であって、前記個々のピッチサイクルセグメントのシフタは、
前記遅延等高線を用いた目標信号の計算器と、
前記ピッチサイクルセグメントの前記目標信号との前記相関関係を最大にするための前記ピッチサイクルセグメントのシフタと、
を含む装置。 - 請求項40に記載の信号修正装置であって、更に、
前記ピッチサイクルの前記展開及び前記現行音信号フレームの前記周期性に関する前記遅延等高線からの前記情報の評価器と、
前記ピッチサイクルの前記展開及び前記現行音信号フレームの前記周期性に関する前記遅延等高線によって与えられた前記情報に関係する少なくとも1つの条件の定義器と、
前記ピッチサイクルの前記展開及び前記現行音信号フレームの前記周期性に関する前記遅延等高線によって与えられた前記情報に関係する前記少なくとも1つの条件が満たされない場合の前記信号修正の終了器と、
を含む装置。 - 請求項35に記載の信号修正装置であって、更に、
前記ピッチサイクルセグメントの前記シフトの制約器であって、前記フレームの全てのセグメントへの所定の基準の賦課器が含まれる前記制約器と、
前記所定の基準が守られない場合の前記信号修正手順の終了器と、
を含む装置。 - 請求項31に記載の信号修正装置であって、更に、
前記音信号の前記現行フレームにおける発声アクティビティの欠如の検出器と、
前記現行フレームにおける発声アクティビティの前記欠如の検出に応答して前記音信号の前記現行フレームをコーディングする信号修正不可能モードの選択器と、
を含む装置。 - 請求項31に記載の信号修正装置であって、更に、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出器と、
前記現行フレームを非発声音信号フレームと見なすための分類器と、
前記音信号の前記現行フレームをコーディングする信号修正不可能モードの選択器であって、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出、及び
前記現行フレームを非発声音信号フレームと見なすこと、
に応答する前記選択器と、
を含む装置。 - 請求項31に記載の信号修正装置であって、更に、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出器と、
前記現行フレームを発声音信号フレームと見なすための分類器と、
信号修正が成功であることの検出器と、
前記音信号の前記現行フレームをコーディングする信号修正可能モードの選択器であって、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出、
前記現行フレームを発声音信号フレームと見なすこと、及び
信号修正が成功であることの検出、
に応答する前記選択器と、
を含む装置。 - 請求項31に記載の信号修正装置であって、更に、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出器と、
前記現行フレームを発声音信号フレームと見なすための分類器と、
信号修正が不成功であることの検出器と、
前記音信号の前記現行フレームをコーディングする信号修正不可能モードの選択器であって、
前記音信号の前記現行フレームにおける発声アクティビティの存在の検出、
前記現行フレームを発声音信号フレームと見なすこと、及び
信号修正が不成功であることの検出、
に応答する前記選択器と、
を含む装置。 - 音信号においてピッチパルスを検索するための方法であって、
前記音信号を一連の連続フレームに分割する段階と、
各フレームを多数のサブフレームに分割する段階と、
線形予測分析フィルタを経て前記音信号をフィルタ処理することによって、残差信号を生成する段階と、
前記残差信号から前記先行フレームの前記音信号の最終ピッチパルスを特定する段階と、
前記残差信号を用いて、前記先行フレームの前記最終ピッチパルスの前記位置周辺における所定の長さのピッチパルス原型を抽出する段階と、
前記ピッチパルス原型を用いて、現行フレームにおいてピッチパルスを特定する段階と、
が含まれる方法。 - 請求項47に記載の音信号においてピッチパルスを検索するための方法であって、更に、
前記先行して特定されたピッチパルスの前記位置に関係する時点で発生する前記現行フレームの第1ピッチパルスの前記位置と、前記先行して特定されたピッチパルスの前記位置に対応する時点での補間された開ループピッチ推定値と、を予測する段階と、
前記パルス原型と前記残差信号との間の重み付けされた相関関係を最大化することによって、前記ピッチパルスの前記予測された位置を改善する段階と、
を含む方法。 - 請求項48に記載の音信号においてピッチパルスを検索するための方法であって、更に、
前記予測及び改善が、前記現行フレーム外において特定されたピッチパルス位置を生成するまで、ピッチパルス位置の前記予測及び予測された位置の前記改善を繰返す段階と、
を含む方法。 - 音信号においてピッチパルスを検索するための装置であって、
一連の連続フレームへの前記音信号の分割器と、
多数のサブフレームへの各フレームの分割器と、
前記音信号をフィルタ処理し、これによって残差信号を生成するための線形予測分析フィルタと、
前記残差信号に応答した、前記先行フレームにおける前記音信号の最終ピッチパルスの検出器と、
前記残差信号に応答した、前記先行フレームの前記最終ピッチパルスの前記位置周辺における所定の長さのピッチパルス原型の抽出器と、
前記ピッチパルス原型を用いた、現行フレームにおけるピッチパルスの検出器と、
が含まれる装置。 - 請求項50に記載の音信号においてピッチパルスを検索するための方法であって、更に、
前記先行特定ピッチパルスの前記位置に関係する時点で発生する前記現行フレームの各ピッチパルスの前記位置と、前記先行して特定されたピッチパルスの前記位置に対応する時点での補間された開ループピッチ推定値と、の予測器と、
前記パルス原型と前記残差信号との間の重み付けされた相関関係を最大化することによる前記ピッチパルスの前記予測された位置の改善器と、
を含む装置。 - 請求項51に記載の音信号においてピッチパルスを検索するための装置であって、更に、
前記予測及び改善が、前記現行フレーム外において特定されたピッチパルス位置を生成するまでのピッチパルス位置の前記予測及び予測された位置の前記改善の繰返し器と、
を含む装置。 - 音信号においてピッチパルスを検索するための方法であって、
前記音信号を一連の連続フレームに分割する段階と、
各フレームを多数のサブフレームに分割する段階と、
重み付けフィルタを経て前記音信号を処理することによって、重み付けされた音信号を生成する段階であって、前記重み付けされた音信号は、信号周期性を示す前記段階と、
前記重み付けされた音信号から前記先行フレームの前記音信号の最終ピッチパルスを特定する段階と、
前記重み付けされた音信号を用いて、前記先行フレームの前記最終ピッチパルスの前記位置周辺における所定の長さのピッチパルス原型を抽出する段階と、
前記ピッチパルス原型を用いて、現行フレームにおけるピッチパルスを特定する段階と、
が含まれる方法。 - 請求項53に記載の音信号においてピッチパルスを検索するための方法であって、更に、
前記先行特定ピッチパルスの前記位置に関係する時点で発生する前記現行フレームの第1ピッチパルスの前記位置と、前記先行して特定されたピッチパルスの前記位置に対応する時点での補間された開ループピッチ推定値と、を予測する段階と、
前記パルス原型と前記重み付けされた残差信号との間の重み付けされた相関関係を最大化することによって、前記ピッチパルスの前記位置を改善する段階と、
を含む方法。 - 請求項54に記載の音信号においてピッチパルスを検索するための方法であって、更に、
前記予測及び改善が、前記現行フレーム外において特定されたピッチパルス位置を生成するまで、ピッチパルス位置の前記予測及び予測された位置の前記改善を繰返す段階と、
を含む方法。 - 音信号においてピッチパルスを検索するための装置であって、
一連の連続フレームへの前記音信号の分割器と、
多数のサブフレームへの各フレームの分割器と、
前記音信号を処理して、信号周期性を示す重み付けされた音信号を生成するための重み付けフィルタと、
前記重み付けされた音信号に応答した、前記先行フレームにおける前記音信号の最終ピッチパルスの検出器と、
前記重み付けされた音信号に応答した、前記先行フレームの前記最終ピッチパルスの前記位置周辺における所定の長さのピッチパルス原型の抽出器と、
前記ピッチパルス原型を用いた、現行フレームにおけるピッチパルスの検出器と、
が含まれる装置。 - 請求項56に記載の音信号においてピッチパルスを検索するための装置であって、更に、
前記先行特定ピッチパルスの前記位置に関係する時点で発生する前記現行フレームの各ピッチパルスの前記位置と、前記先行して特定されたピッチパルスの前記位置に対応する前記時点での補間された開ループピッチ推定値と、の予測器と、
前記パルス原型と前記重み付けされた音信号との間の重み付けされた相関関係を最大化することによる前記ピッチパルスの前記予測された位置の改善器と、
を含む装置。 - 請求項57に記載の音信号においてピッチパルスを検索するための装置であって、更に、
前記予測及び改善が、前記現行フレーム外において特定されたピッチパルス位置を生成するまでのピッチパルス位置の前記予測及び予測された位置の前記改善の繰返し器と、
を含む装置。 - 音信号においてピッチパルスを検索するための方法であって、
前記音信号を一連の連続フレームに分割する段階と、
各フレームを多数のサブフレームに分割する段階と、
重み付けフィルタを経て前記音信号の先行フレームの最終サブフレーム時生成された合成音声信号をフィルタ処理することによって、合成され重み付けされた音信号を生成する段階と、
前記合成され重み付けされた音信号から前記先行フレームの前記音信号の最終ピッチパルスを特定する段階と、
前記合成され重み付けされた音信号を用いて、前記先行フレームの前記最終ピッチパルスの前記位置周辺における所定の長さのピッチパルス原型を抽出する段階と、
前記ピッチパルス原型を用いて、現行フレームにおけるピッチパルスを特定する段階と、
が含まれる方法。 - 請求項59に記載の音信号においてピッチパルスを検索するための方法であって、更に、
前記先行特定ピッチパルスの前記位置に関係する時点で発生する前記現行フレームの第1ピッチパルスの前記位置と、前記先行して特定されたピッチパルスの前記位置に対応する時点での補間された開ループピッチ推定値と、を予測する段階と、
前記パルス原型と前記合成され重み付けされた残差信号との間の重み付けされた相関関係を最大化することによって、前記ピッチパルスの前記位置を改善する段階と、
を含む方法。 - 請求項60に記載の音信号においてピッチパルスを検索するための方法であって、更に、
前記予測及び改善が、前記現行フレーム外において特定されたピッチパルス位置を生成するまで、ピッチパルス位置の前記予測及び予測された位置の前記改善を繰返す段階と、
を含む方法。 - 音信号においてピッチパルスを検索するための装置であって、
一連の連続フレームへの前記音信号の分割器と、
多数のサブフレームへの各フレームの分割器と、
前記音信号の先行フレームの最終サブフレーム時生成された合成音声信号をフィルタ処理し、これによって、合成され重み付けされた音信号を生成するための重み付けフィルタと、
前記合成され重み付けされた音信号に応答した、前記先行フレームにおける前記音信号の最終ピッチパルスの検出器と、
前記合成され重み付けされた音信号に応答した、前記先行フレームの前記最終ピッチパルスの前記位置周辺における所定の長さのピッチパルス原型の抽出器と、
前記ピッチパルス原型を用いた、現行フレームにおけるピッチパルスの検出器と、
が含まれる装置。 - 請求項62に記載の音信号においてピッチパルスを検索するための装置であって、更に、
前記先行特定ピッチパルスの前記位置に関係する時点で発生する前記現行フレームの各ピッチパルスの前記位置と、前記先行して特定されたピッチパルスの前記位置に対応する前記時点での補間された開ループピッチ推定値と、の予測器と、
前記パルス原型と前記合成され重み付けされた音信号との間の重み付けされた相関関係を最大化することによる前記ピッチパルスの前記予測された位置の改善器と、
を含む装置。 - 請求項63に記載の音信号においてピッチパルスを検索するための装置であって、更に、
前記予測及び改善が、前記現行フレーム外において特定されたピッチパルス位置を生成するまでのピッチパルス位置の前記予測及び予測された位置の前記改善の繰返し器と、
を含む装置。 - 連続フレームに分割された、また、音信号をデジタル符号化するための信号修正を用いる手法によって先行して符号化された、前記音信号の復号化時、適応コードブック励振を形成するための方法であって、
各フレームに対して、前記デジタル音信号符号化手法において長期予測を特徴付ける長期予測遅延パラメータを受信する段階と、
現行フレーム時受信された長期予測遅延パラメータ及び先行フレーム時受信された前記長期予測遅延パラメータを用いて、遅延等高線を回復する段階であって、前記遅延等高線は、長期予測で、前記先行フレームの信号特徴を前記現行フレームの対応する信号特徴にマッピングする前記段階と、
前記遅延等高線に応答して、適応コードブックにおいて前記適応コードブック励振を形成する段階と、
が含まれる方法。 - 連続フレームに分割された、また、音信号をデジタル符号化するための信号修正を用いる手法によって先行して符号化された、前記音信号の復号化時、適応コードブック励振を形成するための装置であって、
各フレームの長期予測遅延パラメータの受信器であって、前記長期予測遅延パラメータは、前記デジタル音信号符号化手法における長期予測を特徴付ける前記受信器と、
現行フレーム時受信された前記長期予測遅延パラメータ及び先行フレーム時受信された前記長期予測遅延パラメータに応答した、遅延等高線の計算器であって、前記遅延等高線は、長期予測で、前記先行フレームの信号特徴を前記現行フレームの対応する信号特徴にマッピングする前記計算器と、
前記遅延等高線に応答して前記適応コードブック励振を形成するための適応コードブックと、
が含まれる装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CA002365203A CA2365203A1 (en) | 2001-12-14 | 2001-12-14 | A signal modification method for efficient coding of speech signals |
PCT/CA2002/001948 WO2003052744A2 (en) | 2001-12-14 | 2002-12-13 | Signal modification method for efficient coding of speech signals |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005513539A true JP2005513539A (ja) | 2005-05-12 |
JP2005513539A5 JP2005513539A5 (ja) | 2006-02-09 |
Family
ID=4170862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003553555A Withdrawn JP2005513539A (ja) | 2001-12-14 | 2002-12-13 | 音声信号の効率的コーディングのための信号修正方法 |
Country Status (19)
Country | Link |
---|---|
US (2) | US7680651B2 (ja) |
EP (2) | EP1454315B1 (ja) |
JP (1) | JP2005513539A (ja) |
KR (1) | KR20040072658A (ja) |
CN (2) | CN101488345B (ja) |
AT (1) | ATE358870T1 (ja) |
AU (1) | AU2002350340B2 (ja) |
BR (1) | BR0214920A (ja) |
CA (1) | CA2365203A1 (ja) |
DE (1) | DE60219351T2 (ja) |
ES (1) | ES2283613T3 (ja) |
HK (2) | HK1069472A1 (ja) |
MX (1) | MXPA04005764A (ja) |
MY (1) | MY131886A (ja) |
NO (1) | NO20042974L (ja) |
NZ (1) | NZ533416A (ja) |
RU (1) | RU2302665C2 (ja) |
WO (1) | WO2003052744A2 (ja) |
ZA (1) | ZA200404625B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008108083A1 (ja) * | 2007-03-02 | 2008-09-12 | Panasonic Corporation | 音声符号化装置および音声符号化方法 |
JP2012532344A (ja) * | 2009-06-29 | 2012-12-13 | サムスン エレクトロニクス カンパニー リミテッド | 加重線形予測変換を利用したオーディオ信号符号化及び復号化装置並びにその方法 |
KR101297026B1 (ko) | 2009-05-19 | 2013-08-14 | 광운대학교 산학협력단 | Mdct―tcx 프레임과 celp 프레임 간 연동을 위한 윈도우 처리 장치 및 윈도우 처리 방법 |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
AU2006232361B2 (en) * | 2005-04-01 | 2010-12-23 | Qualcomm Incorporated | Methods and apparatus for encoding and decoding an highband portion of a speech signal |
US20060221059A1 (en) * | 2005-04-01 | 2006-10-05 | Samsung Electronics Co., Ltd. | Portable terminal having display buttons and method of inputting functions using display buttons |
PL1875463T3 (pl) * | 2005-04-22 | 2019-03-29 | Qualcomm Incorporated | Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia |
WO2006137425A1 (ja) * | 2005-06-23 | 2006-12-28 | Matsushita Electric Industrial Co., Ltd. | オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置 |
EP1905009B1 (en) * | 2005-07-14 | 2009-09-16 | Koninklijke Philips Electronics N.V. | Audio signal synthesis |
JP2007114417A (ja) * | 2005-10-19 | 2007-05-10 | Fujitsu Ltd | 音声データ処理方法及び装置 |
EP2013871A4 (en) * | 2006-04-27 | 2011-08-24 | Technologies Humanware Inc | METHOD FOR TEMPORALLY NORMALIZING AN AUDIO SIGNAL |
US8260609B2 (en) * | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
US8239190B2 (en) | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
US8688437B2 (en) | 2006-12-26 | 2014-04-01 | Huawei Technologies Co., Ltd. | Packet loss concealment for speech coding |
KR100883656B1 (ko) * | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
US8312492B2 (en) * | 2007-03-19 | 2012-11-13 | At&T Intellectual Property I, L.P. | Systems and methods of providing modified media content |
US8160872B2 (en) * | 2007-04-05 | 2012-04-17 | Texas Instruments Incorporated | Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains |
US9653088B2 (en) | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US8515767B2 (en) | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
WO2009078093A1 (ja) * | 2007-12-18 | 2009-06-25 | Fujitsu Limited | 非音声区間検出方法及び非音声区間検出装置 |
EP2107556A1 (en) | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
KR20090122143A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US8355921B2 (en) * | 2008-06-13 | 2013-01-15 | Nokia Corporation | Method, apparatus and computer program product for providing improved audio processing |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
CN102150201B (zh) | 2008-07-11 | 2013-04-17 | 弗劳恩霍夫应用研究促进协会 | 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码 |
MY154452A (en) | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
GB2466671B (en) | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
GB2466669B (en) | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466675B (en) | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466672B (en) | 2009-01-06 | 2013-03-13 | Skype | Speech coding |
GB2466670B (en) | 2009-01-06 | 2012-11-14 | Skype | Speech encoding |
GB2466673B (en) | 2009-01-06 | 2012-11-07 | Skype | Quantization |
GB2466674B (en) | 2009-01-06 | 2013-11-13 | Skype | Speech coding |
EP2211335A1 (en) * | 2009-01-21 | 2010-07-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
CN102292769B (zh) * | 2009-02-13 | 2012-12-19 | 华为技术有限公司 | 一种立体声编码方法和装置 |
US20100225473A1 (en) * | 2009-03-05 | 2010-09-09 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Postural information system and method |
US8452606B2 (en) | 2009-09-29 | 2013-05-28 | Skype | Speech encoding using multiple bit rates |
CN102687199B (zh) * | 2010-01-08 | 2015-11-25 | 日本电信电话株式会社 | 编码方法、解码方法、编码装置、解码装置 |
CA2792500C (en) * | 2010-03-10 | 2016-05-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio signal decoder, audio signal encoder, methods and computer program using a sampling rate dependent time-warp contour encoding |
US9082416B2 (en) * | 2010-09-16 | 2015-07-14 | Qualcomm Incorporated | Estimating a pitch lag |
BR112013005676B1 (pt) | 2010-09-16 | 2021-02-09 | Dolby International Ab | sistema e método para gerar um sinal de tempo alongado e/ou um sinal de frequência transposta a partir de um sinal de entrada e suporte de dados e meio de armazenamento legível por computador não transitório |
CN102783034B (zh) * | 2011-02-01 | 2014-12-17 | 华为技术有限公司 | 用于提供信号处理系数的方法和设备 |
ES2529025T3 (es) | 2011-02-14 | 2015-02-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para procesar una señal de audio decodificada en un dominio espectral |
CA2827000C (en) | 2011-02-14 | 2016-04-05 | Jeremie Lecomte | Apparatus and method for error concealment in low-delay unified speech and audio coding (usac) |
SG185519A1 (en) | 2011-02-14 | 2012-12-28 | Fraunhofer Ges Forschung | Information signal representation using lapped transform |
TWI488177B (zh) | 2011-02-14 | 2015-06-11 | Fraunhofer Ges Forschung | 使用頻譜域雜訊整形之基於線性預測的編碼方案 |
MX2013009304A (es) | 2011-02-14 | 2013-10-03 | Fraunhofer Ges Forschung | Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad. |
ES2639646T3 (es) | 2011-02-14 | 2017-10-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificación y decodificación de posiciones de impulso de pistas de una señal de audio |
CA2827335C (en) * | 2011-02-14 | 2016-08-30 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Audio codec using noise synthesis during inactive phases |
US9020818B2 (en) * | 2012-03-05 | 2015-04-28 | Malaspina Labs (Barbados) Inc. | Format based speech reconstruction from noisy signals |
US9830920B2 (en) | 2012-08-19 | 2017-11-28 | The Regents Of The University Of California | Method and apparatus for polyphonic audio signal prediction in coding and networking systems |
US9406307B2 (en) * | 2012-08-19 | 2016-08-02 | The Regents Of The University Of California | Method and apparatus for polyphonic audio signal prediction in coding and networking systems |
US9208775B2 (en) | 2013-02-21 | 2015-12-08 | Qualcomm Incorporated | Systems and methods for determining pitch pulse period signal boundaries |
KR101788484B1 (ko) | 2013-06-21 | 2017-10-19 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | Tcx ltp를 이용하여 붕괴되거나 붕괴되지 않은 수신된 프레임들의 재구성을 갖는 오디오 디코딩 |
WO2015108935A1 (en) | 2014-01-14 | 2015-07-23 | Interactive Intelligence Group, Inc. | System and method for synthesis of speech from provided text |
FR3024581A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Determination d'un budget de codage d'une trame de transition lpd/fd |
KR102422794B1 (ko) * | 2015-09-04 | 2022-07-20 | 삼성전자주식회사 | 재생지연 조절 방법 및 장치와 시간축 변형방법 및 장치 |
EP3306609A1 (en) * | 2016-10-04 | 2018-04-11 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for determining a pitch information |
US10957331B2 (en) | 2018-12-17 | 2021-03-23 | Microsoft Technology Licensing, Llc | Phase reconstruction in a speech decoder |
US10847172B2 (en) * | 2018-12-17 | 2020-11-24 | Microsoft Technology Licensing, Llc | Phase quantization in a speech encoder |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2258751B1 (ja) * | 1974-01-18 | 1978-12-08 | Thomson Csf | |
CA2102080C (en) | 1992-12-14 | 1998-07-28 | Willem Bastiaan Kleijn | Time shifting for generalized analysis-by-synthesis coding |
FR2729246A1 (fr) * | 1995-01-06 | 1996-07-12 | Matra Communication | Procede de codage de parole a analyse par synthese |
US5704003A (en) * | 1995-09-19 | 1997-12-30 | Lucent Technologies Inc. | RCELP coder |
US6330533B2 (en) * | 1998-08-24 | 2001-12-11 | Conexant Systems, Inc. | Speech encoder adaptively applying pitch preprocessing with warping of target signal |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6449590B1 (en) * | 1998-08-24 | 2002-09-10 | Conexant Systems, Inc. | Speech encoder using warping in long term preprocessing |
US6223151B1 (en) * | 1999-02-10 | 2001-04-24 | Telefon Aktie Bolaget Lm Ericsson | Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders |
-
2001
- 2001-12-14 CA CA002365203A patent/CA2365203A1/en not_active Abandoned
-
2002
- 2002-12-13 AT AT02784985T patent/ATE358870T1/de not_active IP Right Cessation
- 2002-12-13 DE DE60219351T patent/DE60219351T2/de not_active Expired - Lifetime
- 2002-12-13 MX MXPA04005764A patent/MXPA04005764A/es active IP Right Grant
- 2002-12-13 CN CN200910005427XA patent/CN101488345B/zh not_active Expired - Lifetime
- 2002-12-13 BR BR0214920-6A patent/BR0214920A/pt not_active IP Right Cessation
- 2002-12-13 WO PCT/CA2002/001948 patent/WO2003052744A2/en active IP Right Grant
- 2002-12-13 JP JP2003553555A patent/JP2005513539A/ja not_active Withdrawn
- 2002-12-13 CN CNA028276078A patent/CN1618093A/zh active Pending
- 2002-12-13 KR KR10-2004-7009260A patent/KR20040072658A/ko not_active Application Discontinuation
- 2002-12-13 NZ NZ533416A patent/NZ533416A/en unknown
- 2002-12-13 EP EP02784985A patent/EP1454315B1/en not_active Expired - Lifetime
- 2002-12-13 EP EP06125444A patent/EP1758101A1/en not_active Withdrawn
- 2002-12-13 ES ES02784985T patent/ES2283613T3/es not_active Expired - Lifetime
- 2002-12-13 AU AU2002350340A patent/AU2002350340B2/en not_active Ceased
- 2002-12-13 RU RU2004121463/09A patent/RU2302665C2/ru active
- 2002-12-13 US US10/498,254 patent/US7680651B2/en active Active
- 2002-12-16 MY MYPI20024699A patent/MY131886A/en unknown
-
2004
- 2004-06-10 ZA ZA200404625A patent/ZA200404625B/en unknown
- 2004-07-14 NO NO20042974A patent/NO20042974L/no not_active Application Discontinuation
-
2005
- 2005-03-02 HK HK05101816A patent/HK1069472A1/xx not_active IP Right Cessation
-
2008
- 2008-10-21 US US12/288,592 patent/US8121833B2/en not_active Expired - Lifetime
-
2010
- 2010-01-22 HK HK10100712.5A patent/HK1133730A1/xx not_active IP Right Cessation
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008108083A1 (ja) * | 2007-03-02 | 2008-09-12 | Panasonic Corporation | 音声符号化装置および音声符号化方法 |
JPWO2008108083A1 (ja) * | 2007-03-02 | 2010-06-10 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
US8364472B2 (en) | 2007-03-02 | 2013-01-29 | Panasonic Corporation | Voice encoding device and voice encoding method |
JP5596341B2 (ja) * | 2007-03-02 | 2014-09-24 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声符号化装置および音声符号化方法 |
KR101297026B1 (ko) | 2009-05-19 | 2013-08-14 | 광운대학교 산학협력단 | Mdct―tcx 프레임과 celp 프레임 간 연동을 위한 윈도우 처리 장치 및 윈도우 처리 방법 |
JP2012532344A (ja) * | 2009-06-29 | 2012-12-13 | サムスン エレクトロニクス カンパニー リミテッド | 加重線形予測変換を利用したオーディオ信号符号化及び復号化装置並びにその方法 |
Also Published As
Publication number | Publication date |
---|---|
HK1133730A1 (en) | 2010-04-01 |
RU2302665C2 (ru) | 2007-07-10 |
EP1454315B1 (en) | 2007-04-04 |
ES2283613T3 (es) | 2007-11-01 |
CN101488345B (zh) | 2013-07-24 |
CA2365203A1 (en) | 2003-06-14 |
US20050071153A1 (en) | 2005-03-31 |
DE60219351T2 (de) | 2007-08-02 |
CN101488345A (zh) | 2009-07-22 |
WO2003052744A3 (en) | 2004-02-05 |
AU2002350340B2 (en) | 2008-07-24 |
HK1069472A1 (en) | 2005-05-20 |
EP1758101A1 (en) | 2007-02-28 |
BR0214920A (pt) | 2004-12-21 |
EP1454315A2 (en) | 2004-09-08 |
NO20042974L (no) | 2004-09-14 |
MY131886A (en) | 2007-09-28 |
US7680651B2 (en) | 2010-03-16 |
DE60219351D1 (de) | 2007-05-16 |
CN1618093A (zh) | 2005-05-18 |
RU2004121463A (ru) | 2006-01-10 |
ZA200404625B (en) | 2006-05-31 |
NZ533416A (en) | 2006-09-29 |
MXPA04005764A (es) | 2005-06-08 |
US8121833B2 (en) | 2012-02-21 |
WO2003052744A2 (en) | 2003-06-26 |
AU2002350340A1 (en) | 2003-06-30 |
ATE358870T1 (de) | 2007-04-15 |
KR20040072658A (ko) | 2004-08-18 |
US20090063139A1 (en) | 2009-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005513539A (ja) | 音声信号の効率的コーディングのための信号修正方法 | |
JP4390803B2 (ja) | 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置 | |
JP5412463B2 (ja) | 音声信号内の雑音様信号の存在に基づく音声パラメータの平滑化 | |
JP4658596B2 (ja) | 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置 | |
US7788105B2 (en) | Method and apparatus for coding or decoding wideband speech | |
US9153237B2 (en) | Audio signal processing method and device | |
CN113223540B (zh) | 在声音信号编码器和解码器中使用的方法、设备和存储器 | |
CN105431903A (zh) | 使用tcx ltp利用损毁或未接收到的帧的重建的音频解码 | |
JP2013242579A (ja) | ピッチ調整コーディング及び非ピッチ調整コーディングを使用する信号符号化 | |
JPWO2005106850A1 (ja) | 階層符号化装置および階層符号化方法 | |
KR20040042903A (ko) | 일반화된 분석에 의한 합성 스피치 코딩 방법 및 그방법을 구현하는 코더 | |
CA2469774A1 (en) | Signal modification method for efficient coding of speech signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051213 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051213 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20090326 |