JP2010507818A - 音声信号中の遷移フレームの符号化のための方法およびデバイス - Google Patents

音声信号中の遷移フレームの符号化のための方法およびデバイス Download PDF

Info

Publication number
JP2010507818A
JP2010507818A JP2009533622A JP2009533622A JP2010507818A JP 2010507818 A JP2010507818 A JP 2010507818A JP 2009533622 A JP2009533622 A JP 2009533622A JP 2009533622 A JP2009533622 A JP 2009533622A JP 2010507818 A JP2010507818 A JP 2010507818A
Authority
JP
Japan
Prior art keywords
transition
codebook
frame
glottal
transition mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009533622A
Other languages
English (en)
Other versions
JP5166425B2 (ja
Inventor
ヴァクラヴ・エクスラー
ミラン・ジェリネク
レドワン・サラミ
Original Assignee
ヴォイスエイジ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=39324068&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2010507818(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by ヴォイスエイジ・コーポレーション filed Critical ヴォイスエイジ・コーポレーション
Publication of JP2010507818A publication Critical patent/JP2010507818A/ja
Application granted granted Critical
Publication of JP5166425B2 publication Critical patent/JP5166425B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

音響信号中の遷移フレームおよび/または遷移に後続するフレームでの適応コードブック励振を置き換える遷移モード励振を生成するための予測型の音響信号コーデックで用いられる遷移モードデバイスおよび方法が提供され、このデバイスは、コードブックのインデックスを受け取るための入力端と、過去の励振から独立した1組のコードベクトルを発生するための遷移モードのコードブックとを備える。遷移モードのコードブックは、遷移フレームおよび/または遷移に後続するフレーム中に、この遷移モード励振に対応する組のコードベクトルのうち1つを発生するためのインデックスに対応する。前述の遷移モードデバイスおよび方法を用いる、符号化のデバイスおよび方法ならびに復号化のデバイスおよび方法も提供される。

Description

本発明は、音響信号、例えば音声信号またはオーディオ信号を転送および合成することに鑑みて、この音響信号をデジタル符号化するための技法に関する。
より詳細には、しかし排他的ではなく、本発明は、主にフレーム消去の場合にデコーダでのエラー伝播を低減するため、および/または有声セグメントの先頭(オンセットフレーム)で符号化効率を向上するために、音響信号、例えば音声信号またはオーディオ信号中の遷移フレームおよびこの遷移に後続するフレームを符号化するための方法およびデバイスに関する。具体的には、この方法およびデバイスは、予測型エンコーダで一般に用いられる適応コードブックを、例えば遷移フレームおよびこの遷移に後続するフレーム中の声門インパルス形状のコードブックで置き換える。声門形状のコードブックは過去の励振から独立した固定コードブックとすることができ、それによって、エンコーダおよびデコーダは、一旦フレーム消去が終わると同一の励振を用い、その結果クリーンチャネルの合成への収束が相当急速である。従来の符号励振線形予測(CELP)におけるオンセットフレームの符号化では、過去の励振バッファは、現行の励振とは非常に異なる以前の無声フレームまたは不活性フレームのノイズ状の励振を用いて更新される。一方、提案された技法は、励振の周期的部分を非常に正確に構築することができる。
音声エンコーダは、音声信号をデジタルのビットストリームに変換し、これが通信チャネルを通して転送されるかまたは記憶媒体に保存される。音声信号はデジタル化されるが、通常は1サンプルにつき16ビットでサンプリングされて量子化される。音声エンコーダには、より少ないビット数でこれらのデジタルサンプルを表し、同時に優れた主観的音声音質を維持する役割がある。音声デコーダすなわちシンセサイザは、転送または保存されたビットストリームに対して働き、それを変換して音声信号へ戻す。
符号励振線形予測(CELP)符号化は、主観的音質とビットレートとの良好な兼ね合いを実現するための最も優れた従来技術の技法のうちの1つである。この符号化法は、無線用途および有線用途の両方で、いくつかの音声符号化規準の基礎をなす。CELP符号化では、サンプリングされた音声信号が、一般にフレームと呼ばれるM個のサンプルの連続したブロックで処理され、Mは一般に10〜30ミリ秒に相当する所定数である。すべてのフレームで線形予測(LP)フィルタが計算され、転送される。LPフィルタの計算では、一般にルックアヘッド(後続フレームからの5〜15ミリ秒の音声セグメント)が必要である。M個のサンプルのフレームは、サブフレームと呼ばれるより小さなブロックに分割される。通常、サブフレームの数は3または4であり、4〜10ミリ秒のサブフレームをもたらす。各サブフレームでは、励振信号は、通常、過去の励振および革新的(innovative)固定コードブック励振の2つの要素から得られる。過去の励振から形成された要素は、多くの場合、適応コードブックまたはピッチ励振と称される。励振信号を特徴づけるパラメータは符号化されてデコーダに転送され、ここで、復元された励振信号がLPフィルタの入力として用いられる。
CELP型の音声コーデックは、その高性能を実現するのに、予測に極度に依存する。用いられる予測は、様々な種類であり得るが、通常、過去のフレームで選択された励振信号を含む適応コードブックの使用を含む。CELPエンコーダは、過去の励振の中で現在符号化されているセグメントに最も似ているセグメントを検索することにより、有声の音声信号の疑似周期性を利用する。同一の過去の励振信号もデコーダ内に維持される。そこで、エンコーダは、エンコーダで用いられるのと同一の励振信号を復元するのに、デコーダ向けに遅延パラメータおよび利得を送れば十分である。以前の音声セグメントと現在の符号化された音声セグメントの間の変遷(evolution)(差異)は、固定コードブックから選択される革新(innovation)を用いてさらにモデル化される。本明細書では、CELP技術を以下でより詳細に説明する。
エンコーダとデコーダが非同期状態になると、転送エラー(消去されたフレームまたはパケット)の存在下で、CELPベースの音声コーダに固有の強度の予測の問題が生じる。このように、予測が原因で、消去されたフレームの影響が消去されたフレームに限定されることなく、消去後に、多くの場合、いくつかの後続するフレームを通じて伝播し続ける。当然、知覚のある影響が非常に不快なものになる恐れがある。
無声の音声セグメントから有声の音声セグメントへの遷移(例えば、子音または不活性の音声の期間と母音の間の遷移)または2つの異なる有声セグメント間の遷移(例えば2つの母音間の遷移)は、フレーム消去の隠蔽に対して最も問題となる場合である。無声の音声セグメントから有声の音声セグメントへの遷移(有声オンセット)が失われると、有声オンセットフレームの直前のフレームは無声フレームまたは不活性フレームであり、したがって、過去の励振のバッファ(適応コードブック)中に意味のある周期的励振は見つからない。エンコーダでは、オンセットフレームの間に適応コードブックで過去の周期的励振が構築され、この過去の周期的励振を用いて後続の有声フレームが符号化される。ほとんどのフレームエラー隠蔽技法は、最新の正確に受信されたフレームからの情報を用いて欠けているフレームを隠蔽する。したがって、オンセットフレームが失われると、デコーダの過去の励振バッファは、前フレーム(無声フレームまたは不活性フレーム)のノイズ状の励振を用いて更新されることになる。したがって、有声オンセットフレームが失われた後に、デコーダにおいて適応コードブック中で励振の周期的部分が完全に欠損し、デコーダがこの消失から回復するのに、いくつかのフレームまでとることがある。
無声フレームから有声フレームへの遷移のとき同様の状況が生じる。その場合、遷移フレームの以前に適応コードブックに保存された励振は、一般に、遷移の後に適応コードブックに保存された励振とは非常に異なった特性を有する。繰返しになるが、デコーダが、通常過去のフレーム情報を用いて失われたフレームを隠蔽するので、エンコーダとデコーダの状態は非常に異なることになり、合成された信号が重大な歪みを受ける恐れがある。
B. BESSETTE, R. SALAMI, R. LEFEBVRE, M. JELINEK, J. ROTOLA- PUKKILA, J. VAINIO, H. MIKKOLA, K. JARVINEN, "The Adaptive Multi- Rate Wideband Speech Codec (AMR-WB)", Special Issue of IEEE Transactions on Speech and Audio Processing, Vol. 10, No. 8, pp. 620-636, 2002年11月 R. SALAMI, C. LAFLAMME, J-P. ADOUL, D. MASSALOUX, "A toll quality 8 kb/s speech codec for the personal communications system (PCS)", IEEE Transactions on Vehicular Technology, Vol. 43, No. 3, pp. 808-816, 1994年8月 3GPP2 Tech. Spec. C.S0052-A v1.0, "Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service Options 62 and 63 for Spread Spectrum Systems," 2005年4月; http://www.3gpp2.org S. P. Lloyd, "Least squares quantization in PCM," IEEE Transactions on Information Theory, Vol. 28, No.2, pp. 129-136, 1982年3月 3GPP Tech. Spec. 26.290, "Adaptive Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions," 2005年6月 "Extended high-level description of the Q9 EV-VBR baseline codec," ITU-T SG16 Tech. Cont. COM16-C199R1-E, 2007年6月
したがって、本発明の目的は、失われたフレームに対するエンコーダの頑強性の改善および/または符号化効率の改善のために、予測型の音声エンコーダおよび/またはオーディオエンコーダにおける遷移フレームを符号化するための方法およびデバイスを提供することである。
本発明の別の目的は、フレームが相互に依存する適応コードブック検索を非予測型の(例えば声門形状の)コードブック検索で置き換えることにより、CELPベースのコーデックにおけるエラー伝播を除去し、かつ、符号化効率を向上することである。この技法は、従来のCELP符号化と比べて、余分な遅延を必要とせず、付加される複雑さは無視できるものであり、ビットレートにおける増加がない。
より詳細には、本発明の一態様によれば、音響信号中の遷移フレームおよび/または遷移に後続するフレームでの適応コードブック励振を置き換える遷移モード励振を生成するための予測型の音響信号コーデックで用いられる遷移モード方式が提供され、この方式は、過去の励振から独立した1組のコードベクトルを発生するための遷移モードのコードブックをもたらすステップと、遷移モードのコードブックにコードブックのインデックスを供給するステップと、遷移モードのコードブックを用いて、コードブックのインデックスに応じて、遷移モード励振に対応する組のコードベクトルのうちの1つを発生するステップとを含む。
本発明の第2の態様によれば、音響信号中の遷移フレームおよび/または遷移に後続するフレームでの適応コードブック励振を置き換える遷移モード励振を生成するための予測型の音響信号コーデックで用いられる遷移モードデバイスが提供され、このデバイスは、コードブックのインデックスを受け取るための入力端と、過去の励振から独立した1組のコードベクトルを発生するための遷移モードのコードブックとを備える。遷移モードのコードブックは、遷移フレームおよび/またはこの遷移に後続するフレーム中に前記遷移モード励振に対応する組のコードベクトルのうち1つを発生するためのインデックスに応答する。
本発明の第3の態様によれば、音響信号中の遷移フレームおよび/または遷移に後続するフレームでの適応コードブック励振を置き換える遷移モード励振を発生するための符号化の方法が提供され、この方法は、コードブック検索の目標信号を発生するステップと、過去の励振から独立した1組のコードベクトルを発生するための遷移モードのコードブックをもたらすステップであって、この組のコードベクトルのそれぞれが、それぞれの遷移モード励振に対応するステップと、コードブック検索の目標信号に最適に対応する遷移モード励振に対応する組のコードベクトルを見つけるために遷移モードのコードブックを検索するステップとを含む。
本発明の第4の態様によれば、音響信号中の遷移フレームおよび/または遷移に後続するフレームでの適応コードブック励振を置き換える遷移モード励振を発生するためのエンコーダデバイスが提供され、このデバイスは、コードブック検索の目標信号の発生器と、過去の励振から独立した1組のコードベクトルを発生するための遷移モードのコードブックであって、この組のコードベクトルのそれぞれが、それぞれの遷移モード励振に対応する遷移モードのコードブックと、コードブック検索の目標信号に最適に対応する遷移モード励振に対応する組のコードベクトルを見つけるための遷移モードのコードブックの検索器とを備える。
本発明の第5の態様によれば、音響信号中の遷移フレームおよび/または遷移に後続するフレームでの適応コードブック励振を置き換える遷移モード励振を発生するための復号化の方法が提供され、この方法は、コードブックのインデックスを受け取るステップと、過去の励振から独立した1組のコードベクトルを発生するための遷移モードのコードブックに対してコードブックのインデックスを供給するステップと、遷移モードのコードブックを用いて、コードブックのインデックスに応じて、遷移モード励振に対応する組のコードベクトルのうちの1つを発生するステップとを含む。
本発明の第6の態様によれば、音響信号中の遷移フレームおよび/または遷移に後続するフレームでの適応コードブック励振を置き換える遷移モード励振を発生するためのデコーダデバイスが提供され、このデバイスは、コードブックのインデックスを受け取るための入力端と、過去の励振から独立した1組のコードベクトルを発生するための遷移モードのコードブックとを備える。遷移モードのコードブックは、遷移フレームおよび/またはこの遷移に後続するフレーム中でこの遷移モード励振に対応する組のコードベクトルのうち1つを発生するためのインデックスに応答する。
本発明の前述の目的およびその他の目的、利点ならびに特徴は、以下の、例としてのみ与えられたその例示的実施形態の非限定的説明を、添付図面を参照しながら読み取ることによってさらに明白になる。
a)は、CELPベースのエンコーダの概略ブロック図であり、b)はCELPベースのデコーダの概略ブロック図である。 消去を隠蔽するためのフレーム分類状態機械の概略ブロック図である。 1つの有声遷移フレームおよび1つのオンセットフレームを有する音声信号のセグメントの例を示す図である。 音声オンセットの遷移モード(TM)フレームを選択するための分類規則を示す機能ブロック図であり、ここでN_TM_FRAMESは、TM符号化技法の使用を防止するための連続したフレームの数を表し、「クラス(clas)」は、フレームのクラスを表し、また、VOICED_TYPEは、ONSETクラス、VOICEDクラスおよびVOICED TRANSITIONクラスを表す。 a)は、時間領域の音声信号を示す、4つのサブフレームに分割された音声信号のフレームの一例の概略図であり、b)は、LP残余信号を示す、4つのサブフレームに分割された音声信号のフレームの一例の概略図であり、c)は、エンコーダ内でTM符号化技法を用いて構築された第1段階の励振信号を示す、4つのサブフレームに分割された音声信号のフレームの一例の概略図である。 声門形状のコードブック構成に用いられた17のサンプル長を有する8つの声門インパルスを示すグラフであり、ここでX軸は離散時間のインデックスを示し、Y軸はインパルスの大きさを示す。 CELPエンコーダのTM部分の一例の概略ブロック図であり、ここでk'は声門形状のコードブックのインデックスを表し、G(z)は成形フィルタである。 式(16)の基準における分子の平方根Ck'の計算の絵図であり、ここでベクトル/マトリクスの斜線の部分は非ゼロである。 式(16)の基準の分母Ek'の計算の絵図であり、ここでベクトル/マトリクスの斜線の部分は非ゼロである。 畳み込みマトリクスZTの計算の絵図であり、この例では、成形フィルタG(z)には3つの非ゼロ係数(L1/2=1)しかない。 CELPデコーダのTM部分の一例の概略ブロック図である。 a)は、フィルタQ(z)の構造の一例の概略ブロック図であり、b)は、声門形状のコードベクトルの変更形態の一例を示すグラフであり、ここでは繰り返されたインパルスが点々で示されている。 フィルタQ(z)を含むCELPエンコーダのTM部分の概略ブロック図である。 声門形状のコードブック検索を用いてサブフレームの一部で適応コードブック検索が用いられるとき、2つのインパルスの構成を有する声門形状のコードベクトルを示すグラフである。 第2の声門インパルスが次のサブフレームの第1のL1/2位置に現われる場合の声門形状のコードベクトルの構成を示すグラフである。 内蔵の可変ビットレート(EV-VBR)コーデックの実装形態で用いられるエンコーダのTM部分の概略ブロック図である。 a)は、時間領域の音声信号の一例を示すグラフであり、b)は、a)の音声信号に対応するLP残余信号を示すグラフであり、c)は、エラーのない状態での第1段階の励振信号を示すグラフである。 オンセット構成の比較の一例を示すグラフであり、ここでa)のグラフは入力音声信号を表し、b)のグラフは、TM符号化技法を用いないEV-VBRコーデックの出力合成音声を表し、c)のグラフは、TM符号化技法を用いたEV-VBRコーデックの出力合成音声を表す。 フレーム消去の場合のTM符号化技法の影響の一例を示すグラフであり、ここでa)のグラフは入力音声信号を表し、b)のグラフは、TM符号化技法を用いないEV-VBRコーデックの出力合成音声を表し、c)のグラフは、TM符号化技法を用いたEV-VBRコーデックの出力合成音声を表す。 構成TRANSITION_1_1の1つのフレームにおける第1段階の励振信号の一例を示すグラフである。 構成TRANSITION_1_2の1つのフレームにおける第1段階の励振信号の一例を示すグラフである。 構成TRANSITION_1_3の1つのフレームにおける第1段階の励振信号の一例を示すグラフである。 構成TRANSITION_1_4の1つのフレームにおける第1段階の励振信号の一例を示すグラフである。 構成TRANSITION_2の1つのフレームにおける第1段階の励振信号の一例を示すグラフである。 構成TRANSITION_3の1つのフレームにおける第1段階の励振信号の一例を示すグラフである。 構成TRANSITION_4の1つのフレームにおける第1段階の励振信号の一例を示すグラフである。 音声符号化デバイスおよび音声復号化デバイスの用途を示す音声通信システムの概略ブロック図である。
本発明の非限定的な例示の実施形態は、上記で説明された状況におけるエラー伝播を克服し、かつ符号化効率を向上することを目的とする方法およびデバイスに関する。
より詳細には、本発明の非限定的な例示の実施形態による方法およびデバイスは、音響信号、例えば音声信号またはオーディオ信号中の遷移フレームおよびこの遷移に後続するフレームの、遷移モード(TM)符号化技法と呼ばれる特別の符号化を実施する。TM符号化技法は、遷移フレームおよびこの遷移に後続するフレーム中のCELPコーデックの適応コードブックを、声門インパルス形状の新規コードブック(以後声門形状のコードブックとして示す)で置き換える。声門形状のコードブックは、過去の励振から独立した固定コードブックである。したがって、一旦フレーム消去が終了すると、エンコーダとデコーダが同一の励振を用いることによってクリーンチャネルの合成への収束がかなり急速になる。
遷移フレームが失われたとき、遷移に後続するフレーム中でTM符号化技法を用いるとエラー伝播の防止に役立つが、遷移フレームでもTM符号化技法を用いることの別の目的は、符号化効率を改善することにある。例えば、適応コードブックは、有声オンセットの直前に、通常、有声セグメントの先頭の符号化に関してあまり効率的でないノイズ状の信号を含んでいる。したがって、TM符号化技法の背景の概念は、有声オンセットを符号化するのに、声門インパルスの簡略化された量子化バージョンで取り込まれた、より優れたコードブックで適応コードブックを補足することである。
提案されたTM符号化技法は、あらゆるCELP型コーデックまたは予測型コーデックで用いることができる。一例として、TM符号化技法は、以下の本文でEV-VBRコーデックと称される内蔵の可変ビットレートコーデックに関するITU-T標準化活動における候補のコーデックで実施される。本発明の非限定的な例示の実施形態はEV-VBRコーデックの構成に関して説明されることになるが、本発明の原理および概念はEV-VBRコーデックの用途に限定されることなく、予測符号化を用いる他のあらゆるコーデックに適用可能であることに留意しなければならない。また、本発明の非限定的な例示の実施形態は音声信号に関して説明されることになるが、本発明は音声信号の用途に限定されることなく、その原理および概念がオーディオ信号を含む他のあらゆるタイプの音響信号に適用可能であることに留意しなければならない。
音声フレームは、以下の4つの音声クラスのうち1つにほぼ分類することができる(このことは以下の記述でより詳細に説明される)。
1)音声活動がないことによって特徴づけられる不活性フレーム
2)非周期的構造およびより高い周波数に向かうエネルギー集中によって特徴づけられる無声の音声フレーム
3)エネルギーが主に低周波数に集中して、はっきりした疑似周期的性質を有する有声の音声フレーム
4)急速に変化する特性を有する遷移として分類される他のあらゆるフレーム
EV-VBRコーデックでは、クラスのそれぞれに向けて特化された符号化モードが設計されてきた。概して、不活性フレームはコンフォートノイズを発生することによって処理され、無声の音声フレームは最適化された無声の符号化モードによって処理され、有声の音声フレームは最適化された有声の符号化モードによって処理され、他のすべてのフレームは一般的な代数CELP(ACELP)技術で処理されるといえる。したがって、EV-VBRコーデックの構成では、TM符号化技法は、遷移フレームおよびこの遷移に後続するフレームを符号化するためのEV-VBR符号化方式における別の符号化モードとして導入される。
図27は、音声符号化および音声復号化の用途を示す音声通信システムの概略ブロック図である。音声通信システムは、通信チャネル905にわたって音声信号の転送および再生に対応する。音声通信システムは、例えばワイヤリンク、光リンクまたはファイバリンクを備えてよいが、通信チャネル905は、一般に少なくとも一部分無線周波数リンクを備える。無線周波数リンクは、携帯電話とともに見られるものなど共用の帯域幅リソースを必要とする複数の同時音声通信に対応することが多い。図示されていないが、通信チャネル905は、符号化された音声信号を後で再生するために記録し保存する通信システムの単一デバイスの実施形態における記憶装置で置き換えることができる。
図27をさらに参照すると、マイクロホン901はアナログ音声信号を生成し、それがアナログデジタル(A/D)コンバータ902に供給されてデジタル形式に変換される。音声エンコーダ903は、デジタル音声信号を符号化することによって1組の符号化パラメータを生成し、これが2進形へ符号化されてチャネルエンコーダ904に配送される。任意選択のチャネルエンコーダは、符号化パラメータの2進表現に冗長性を付加してから通信チャネル905によって転送する。受信機側で、チャネルデコーダ906は、転送で生じたチャネルエラーを検出して補正するのに、受信されたビットストリーム中の前述の冗長情報を利用する。音声デコーダ907は、合成されたデジタル音声信号を形成するために、チャネルデコーダ906から受け取ったビットストリームを変換して1組の符号化パラメータへ戻す。音声デコーダ907で復元された合成デジタル音声信号は、デジタルアナログ(D/A)コンバータ908でアナログ形式に変換され、スピーカユニット909で再生される。
§ CELPに関する簡単な背景
音声コーデックは、エンコーダおよびデコーダの2つの基本部からなる。エンコーダはオーディオ信号をデジタル化し、音声信号を表す符号化パラメータの限定された数を選択して、これらのパラメータを、通信チャネルを介してデコーダに転送されるデジタルビットストリームに変換する。デコーダは、この音声信号を元の音声信号にできるだけ似るように復元する。現在、広く普及した音声符号化技法は線形予測(LP)に基づくものであり、より詳細にはCELP技術に基づく。LPベースの符号化では、音声信号は、全極型合成フィルタ1/A(z)によって励振信号をフィルタリングすることにより合成される。CELPでは、励振は一般に2つの部分からなり、第1段階の励振信号は適応コードブックから選択され、第2段階の励振信号は固定コードブックから選択される。一般に、適応コードブック励振は励振の周期的部分をモデル化し、また、音声信号の変遷をモデル化するために固定コードブック励振が付加される。
一般に、音声は通常20ミリ秒のフレームによって処理され、また、LPフィルタの係数は1フレームにつき1度転送される。CELPでは、励振信号を符号化するために、すべてのフレームがいくつかのサブフレームにさらに分割される。サブフレームの長さは通常5ミリ秒である。
図1aおよび図1bを参照すると、CELPの背景の主要な原理は合成による分析と呼ばれており、可能性のあるデコーダ出力が既に符号化プロセス(分析)中に試験(合成)され、次いで元の音声信号と比較される。この検索は、知覚重み付き領域で入力音声信号s(n)と合成音声信号s'(n)の間の平均2乗誤差を最小化する。離散時間のインデックスは、n=0、1、・・・、N-1、であり、Nはサブフレームの長さである。知覚重み付きフィルタW(z)は、通常LPフィルタから導出される周波数マスク効果を利用する。知覚重み付きフィルタW(z)の一例は次の式(1)で与えられ、
Figure 2010507818
この式で、係数γ1およびγ2は、知覚重み付きの量を制御し、かつ0<γ21≦1という関係を保つ。この従来型の知覚重み付きフィルタは、200〜3400Hzの帯域幅の狭帯域(NB)信号に対してうまく働く。50〜7000Hzの帯域幅の広帯域(WB)信号向けの知覚重み付きフィルタの一例は、非特許文献1に見ることができる。
デコーダに転送されたビットストリームは、有声フレーム向けに、LP合成フィルタの量子化パラメータ、適応コードブックのインデックスおよび固定コードブックのインデックス、ならびに適応部および固定部の利得といった符号化パラメータを含む。
§ 適応コードブック検索
遅延(ピッチ周期)tおよびピッチ利得gpを求め、かつ適応コードベクトルv(n)と称される励振信号の疑似周期的部分を構築するために、重み付き音声領域でCELPベースのコーデックにおける適応コードブック検索が行われる。ピッチ周期は特定の話者に強く依存し、その正確な測定は合成音声の質に決定的な影響を及ぼす。
EV-VBRコーデックでは、ピッチの周期および利得を求めるのに3段階のプロシージャが用いられる。第1段階では、知覚重み付き音声信号sw(n)および正規化された相関演算を用いて、各フレームに対して3つの開ループピッチ推定Topが計算されるが、1つは10ミリ秒の各ハーフフレームについての推定であり、1つは10ミリ秒のルックアヘッドについての推定である。第2段階では、すべてのサブフレームに対して、推定された開ループピッチ周期Topぐらいの整数周期を求めて、閉ループピッチの検索が行われる。一旦最適の整数ピッチ周期が見つかると、第3の検索段階は、その最適整数値のまわりの分数を通っていく。閉ループピッチ検索は、元の音声と合成音声の間の重み付き平均2乗誤差を最小化することによって行われる。これは次の項を最大化することにより実現される。
Figure 2010507818
この式で、x1(n)は目標信号であり、第1段階の寄与信号(フィルタリングされた適応コードベクトルとも呼ばれる)y1(n)は、時間tでの過去の励振信号v(n)と重み付き合成フィルタH(z)のインパルス応答h(n)との畳み込みによって計算される。
y1(n)=v(n)*h(n) (3)
知覚重み付き入力音声信号sw(n)は、知覚重み付きフィルタW(z)によって入力音声信号s(n)を処理することにより得られる。フィルタH(z)は、LP合成フィルタ1/A(z)と知覚重み付きフィルタW(z)のカスケード接続によって形成される。目標信号x1(n)は、知覚重み付き入力音声信号sw(n)からフィルタH(z)のゼロ入力応答を減じたものに相当する。
ピッチ利得は、信号x1(n)と第1段階の寄与信号y1(n)の間の平均2乗誤差を最小化することにより得られる。ピッチ利得は次式で表現される。
Figure 2010507818
次いで、ピッチ利得は0≦gp≦1.2によって制限され、また、一旦革新が見つかると、通常は固定コードブックの利得と一緒に量子化される。
CELPベースのコーデックでは、現在処理されるフレームの先頭の励振信号は、前フレームからの励振信号からこのように復元される。このメカニズムは、疑似周期的であって転送エラーがない音声信号の有声セグメントに対して非常に効率的である。フレーム消去の場合には、前フレームからの励振信号が失われ、また、エンコーダとデコーダのそれぞれの適応コードブックはもはや同一ではない。消去に後続するフレームでは、デコーダは、次いで、内容が不正確な適応コードブックを用いて音声を合成し続ける。したがって、フレーム消去によって、合成音声の質が、消去されたフレームを通して劣化するばかりでなく、いくつかの後続するフレームも通して劣化する恐れがある。従来の隠蔽技法は、以前の正確に転送されたフレームの波形の繰返しに基づくことが多いが、これらの技法は、音声信号の特性が準定常のところ(例えば安定した有声セグメント中)の信号部分にしか効率的に機能しない。この場合、エンコーダとデコーダのそれぞれの適応コードブックの間の差は、かなり小さいことが多く、合成信号の質はあまり影響を受けない。しかし、遷移フレームが消去されると、これらの技法の有効性(efficiency)は非常に限定的なものになる。CELPベースのコーデックを用いる通信システムでは、フレーム消去率(FER)が通常3%から5%であり、そこで合成音声の質がかなり低下する。
クリーンチャネルの転送でさえ、適応コードブックの有効性は遷移フレームに限定されており、CELPエンコーダは、遷移の間、音声の低い周期性または見当たらない周期性を利用するために適応コードブックを用いるが、それによって符号化効率が低下する。これは有声オンセットの場合であり、具体的には、過去の励振信号と現行フレーム向けの最適励振信号の相関が非常に弱いか、全く相関がない場合である。
§ 固定コードブック検索
CELPベースのコーデックにおける固定(革新)コードブック(FCB)検索の寄与の目的は、適応コードブックを用いた後の残余誤差(すなわち次式で表される)を最小化することであり、
Figure 2010507818
この式で、gcは固定コードブックの利得であり、第2段階の寄与信号(フィルタリングされた固定コードベクトルとも呼ばれる)
Figure 2010507818
は、h(n)で畳み込まれた固定コードブックベクトルck(n)である。適応コードブックの目標から適応コードブックの寄与を減じることにより目標信号x1(n)が更新され、次式を得る。
x2(n)=x1(n)-gpy1(n) (6)
固定コードブックは、例えば非特許文献2に説明されているような代数コードブックを用いることにより実現することができる。ckがインデックスkにおける代数符号ベクトルを示す場合、代数コードブックは次の基準を最大化することにより検索される。
Figure 2010507818
この式で、Hは対角線h(0)および下方の対角線h(1)、・・・、h(N-1)の下側三角形のテプリッツ(Toeplitz)畳み込みマトリクスである。ベクトルd=HTx2は、更新された目標信号x2(n)とh(n)の間の相関(逆方向フィルタリングされた目標ベクトルとしても知られている)であり、マトリクスΦ=HTHはh(n)の相関マトリクスである。上付き文字Tは、マトリクスまたはベクトルの転置を示す。dおよびφは、通常どちらも固定コードブック検索に先立って計算される。非特許文献1は、固定コードブックの代数構造がほんの少数の非ゼロ要素を含む場合、可能性のあるすべてのインデックスkに対する最大化基準の計算が非常に高速であると論じている。以下に見られる遷移モード(TM)の符号化技法では同様のプロシージャが用いられる。
そうでなければ、CELPは当業者には周知であると考えられるので、本明細書ではさらに説明されない。
§ EV-VBRコーデックにおけるフレーム分類
EV-VBRコーデックにおけるフレーム分類は、非特許文献3に説明されるような可変レート多重モード広帯域(VMR-WB)分類に基づく。VMR-WB分類は隠蔽および回復の方策の配慮とともになされる。換言すれば、いかなるフレームも、後続のフレームが失われていたなら隠蔽が最適になり得るように、あるいは前フレームが失われていたなら回復が最適になり得るように分類される。フレーム消去隠蔽処理に用いられたクラスのうちのいくつかは、それらをデコーダで曖昧さなしに推定することができるので転送する必要はない。5つの別個のクラスが用いられ、以下のように定義される。
1)UNVOICED(無声)クラスは、すべての無声の音声フレームおよび活性の音声がないすべてのフレームを包含する。有声のオフセットフレームの終端部に無声の傾向があって、それが失われたとき、後続するフレームに対して無声フレーム向けに設計された隠蔽を用いることができるなら、有声のオフセットフレームもUNVOICEDとして分類することができる。
2)UNVOICED TRANSITION(無声遷移)クラスは、終端部に可能性のある有声オンセットを有する無声フレームを包含する。しかし、有声オンセットは、有声フレーム向けに設計された隠蔽を用いるには短すぎるかまたは十分によく構築されていない。UNVOICED TRANSITIONフレームは、UNVOICEDまたはUNVOICED TRANSITIONとして分類されたフレームにしか後続することができない。
3)VOICED TRANSITION(有声遷移)クラスは、比較的弱い有声の特性を有する有声フレームを包含する。それらは、通常、急速に変化する特性(母音間の遷移)またはフレーム全体に持続する有声オフセットを有する有声フレームである。VOICED TRANSITIONフレームは、VOICED TRANSITION、VOICED(有声)またはONSET(オンセット)として分類されたフレームにしか後続することができない。
4)VOICED(有声)クラスは、安定した特性を有する有声フレームを包含する。VOICEDフレームは、VOICED TRANSITION、VOICEDまたはONSETとして分類されたフレームにしか後続することができない。
5)ONSET(オンセット)クラスは、UNVOICEDまたはUNVOICED TRANSITIONとして分類されたフレームに後続する安定した特性を有するすべての有声フレームを包含する。ONSETとして分類されたフレームは有声オンセットフレームに相当し、ここで、オンセットは、失われた有声フレーム向けに設計された隠蔽を用いるのに既に十分よく構築されている。ONSETとして分類されたフレームに後続してフレーム消去に用いられる隠蔽技法は、従来のCELPベースのコーデックでVOICEDとして分類されたフレームに後続するものと同一であり、その差異は、失われたオンセットを人為的に復元するのに特殊技術を用いることができるときの回復方策にある。本発明の非限定的な例示の実施形態によれば、この場合はTM符号化技法が首尾よく用いられる。
図2に分類状態図が概説されている。分類情報は2ビットを用いて転送される。図2から見られるように、UNVOICED TRANSITION(無声遷移)クラスとVOICED TRANSITION(有声遷移)クラスは、デコーダで明白に区別することができるので、一緒にグループ化することができる(UNVOICED TRANSITIONフレームはUNVOICED(無声)フレームまたはUNVOICED TRANSITIONフレームにしか後続することができず、VOICED TRANSITIONフレームは、ONSET(オンセット)フレーム、VOICED(有声)フレームまたはVOICED TRANSITIONフレームにしか後続することができない)。
以下のパラメータが分類に用いられる。
正規化相関
Figure 2010507818
スペクトルのチルト値(tilt measure)e't
ピッチ安定性カウンタpc
現行フレームの終端部での音声信号の相対的フレームエネルギーErel
ゼロ交差カウンタzc
以下の詳細な分析で見られるように、これらのパラメータの計算はルックアヘッドを用いる。ルックアヘッドによって後続のフレーム中の音声信号の変遷を推定することが可能になり、その結果、将来の音声信号の挙動を考慮に入れることにより分類を行うことができる。
平均正規化相関
Figure 2010507818
が、後半フレームの最大の正規化相関の平均として計算され、また、次式を用いてルックアヘッドが計算される。
Figure 2010507818
最大の正規化相関Cnormは、開ループピッチ検索の一部として計算され、重み付き音声信号の2つの隣接したピッチ周期の最大限の正規化相関に相当する。
スペクトルのチルトパラメータe'tは、エネルギーの周波数分布に関する情報を含む。1つのスペクトル分析についてのスペクトルのチルトは、低周波数に集中したエネルギーと高周波数に集中したエネルギーの間の比として推定される。ここで、用いられるチルト値は、低周波数エネルギーetilt(0)と高周波数エネルギーetilt(1)の比として定義されるスペクトルのチルト値の対数領域における平均である。すなわち次式で表される。
e't=10log(etilt(0)/etilt(1)) (9)
ピッチ安定性カウンタpcは、ピッチ周期の変動を評価する。これは次のように計算される。
pc=|Top1-Top0|+|Top2-Top0| (10)
値Top0、Top1、およびTop2は、それぞれ現行フレームの前半、現行フレームの後半、およびルックアヘッドからの開ループピッチ推定に相当する。
相対的フレームエネルギーErelは、現行フレームのエネルギーと長期的な有効音声エネルギーの平均の間の差としてdBで計算される。
最後のパラメータは、音声信号の20ミリ秒のセグメントに対して計算されるゼロ交差パラメータzcである。セグメントは、現行フレームの中間で始まり、ルックアヘッドの2つのサブフレームを使用する。ここで、ゼロ交差カウンタzcは、セグメントの期間中に音声信号の符号がプラスからマイナスへ変化する回数をカウントする。
分類をより頑強にするために、分類パラメータは一緒に検討されてメリット関数fmを形成する。その目的のために、分類パラメータは最初に0と1の間にスケーリングされ、その結果、無声の音声信号に一般的なパラメータの値は0に変換され、有声の音声信号に一般的な各パラメータの値は1に変換される。それらの間に線形関数が用いられる。あるパラメータpxのスケーリングされたバージョンpsは次式を用いて得られる。
ps=kppx+cp (0≦ps≦1によって制限される) (11)
関数の係数kpおよびcpは、フレームエラーの存在下で用いられる隠蔽および回復の技法による信号歪みが最小限になるように、各パラメータに対して実験的に見つけられている。用いる値は表1に要約されている。
Figure 2010507818
次いで、メリット関数fmは次のように定義されている。
Figure 2010507818
この式で、上付き文字sはスケーリングされたバージョンのパラメータを示す。
UNVOICEDクラスに関する最初の分類決定は次のようになる。
If (local_VAD=0) OR (Erel<-8) then class=UNVOICED (13)
ここでlocal_VADは、ローカルの有声活動検出を表す。
上記の条件(13)が満たされないとき、分類は、メリット関数fmを用いて表2に要約された基準に従って進行する。
Figure 2010507818
本明細書で上記に説明されたように、クラス情報は2ビットで符号化される。補助情報(フレーム消去の隠蔽を改善する)は一般的なフレームでのみ転送されるという事実にも拘わらず、各フレームに対して分類が行われる。このことは、分類の状態機械が前フレームのクラスに関する情報を用いるので、分類の状態機械の更新を維持するために必要である。しかし、UNVOICEDフレームまたはVOICEDフレームに専用の符号化タイプについては分類が簡単である。したがって、有声フレームは常にVOICEDとして分類され、また無声フレームは常にUNVOICEDとして分類される。
§ TM符号化向けのフレーム選択
今まで論じられたように、説明されている技法は、CELPベースのコーダにおける適応コードブックを声門形状のコードブックで置き換えてフレーム消去に対する頑強性を改善し、かつ非定常音声フレームを処理するときの符号化効率を向上する。これは、この技法が過去の励振を用いて第1段階の励振信号を構築するのでなく、声門形状のコードブックから第1段階の励振信号を選択することを意味する。第2段階の励振信号(全体の励振の革新部分)は、依然として従来のCELP固定コードブックから選択される。これらのコードブックのうちいかなるものも、過去の(以前に転送された)音声フレームからの情報を用いることなく、それによってCELPベースのエンコーダに固有のフレームエラー伝播に関する主要な理由を解消する。
(すべてのフレームを符号化するのに)TM符号化技法を系統的に用いると、エラー伝播を大幅に制限するはずであるが、エラーのない状態では符号化効率および合成音声の質が低下することになる。コーデックのクリーンチャネル性能とチャネルエラーに対するその頑強性との兼ね合いとして、遷移フレームおよび各遷移フレームに後続するいくつかのフレームだけにTM符号化技法を適用することができる。フレーム消去の頑強性のために、遷移に後続する有声の音声フレームに対してTM符号化技法を用いることができる。以前に紹介されたように、これらの遷移は有声オンセットおよび2つの異なる有声音間の遷移を基本的に含む。TM符号化技法を用いて符号化されるべき適切なフレームを選択するように、遷移が検出される。任意の遷移検出器を用いることができるが、非限定的な例示の実施形態は、本明細書で上記に説明されたようなEV-VBR構成の分類を用いる。
上記で説明されたような遷移(有声オンセットまたは2つの異なる有声音間の遷移)フレームおよびいくつかの後続のフレームを符号化するのにTM符号化技法を適用することができる。TMフレーム(TM符号化技法を用いて符号化されたフレーム)の数は、クリーンチャネル状態でのコーデック性能とチャネルエラーのある状態との兼ね合いの問題である。遷移(有声オンセットまたは2つの異なる有声音間の遷移)フレームだけがTM符号化技法を用いて符号化されるのであれば、符号化効率が向上する。この向上は、例えばセグメントの信号対雑音比(SNR)の向上によって測定することができる。SNRは次式を用いて計算する。
Figure 2010507818
この式で、Esdは現行フレームの入力音声信号のエネルギーであり、Eeはこの入力音声信号と現行フレームの合成音声信号の間のエラーのエネルギーである。
しかし、遷移フレームだけを符号化するのにTM符号化技法を用いることは、エラー頑強性にあまり役立たず、遷移(有声オンセットまたは2つの異なる有声音間の遷移)フレームが失われると、後続のフレームが標準的CELPプロシージャを用いて符号化されるはずであるため、エラーが伝播することになる。一方、遷移(有声オンセットまたは2つの異なる有声音間の遷移)フレームに先行するフレームが失われると、性能に対するこの失われた先行フレームの影響は、TM符号化技法を用いないときでさえ重大ではない。有声オンセット遷移の場合には、オンセットに先行するフレームは大抵無声であり、適応コードブックの寄与はそれほど重大ではない。2つの有声音間の遷移の場合には、一般に、遷移の前のフレームがかなり定常的であり、エンコーダおよびデコーダ中の適応コードブックの状態がフレーム消去の後に似ていることが多い。
頑強性を向上するために、TM符号化技法を用いて、遷移(有声オンセットまたは2つの異なる有声音間の遷移)に後続するフレームを符号化することができる。クリーンチャネルの性能強化が重要でない場合、遷移フレームに後続するフレームでのみTM符号化技法を用いることができる。基本的に、連続するTMフレームの数は、保護のために配慮したい連続するフレーム消去の数によって決まる。分離した消去(すなわち、1度に、分離した1つのフレームの消去)のみを検討する場合、遷移(有声オンセットまたは2つの異なる有声音間の遷移)フレームに後続するフレームだけを符号化すれば十分である。遷移(有声オンセットまたは2つの異なる有声音間の遷移)フレームが失われる場合、後続するフレームは過去の励振信号を用いずに符号化され、また、エラー伝播は遮断される。しかし、遷移(有声オンセットまたは2つの異なる有声音間の遷移)フレームは正確に転送されるが後続するフレームが失われる場合、次のフレームが従来のCELP符号化を既に用いているので、エラー伝播が防止されないことに注意しなければならない。しかし、図3に示されるように、遷移(有声オンセットまたは2つの異なる有声音間の遷移)の終端部に少なくとも1つのピッチ周期が既に十分に構築されている場合、恐らく歪みは限定されるはずである。
いくつかの既存のコーデックにTM符号化技法の実装形態が与えられ、現行フレームのクラスおよび符号化モードが既知であるとき、TM符号化のためにオンセットおよび後続するフレームを設定するのに以下の方式を用いることができる。以前に用いられた連続するTMフレームのカウンタであるパラメータ状態が、エンコーダの状態メモリに保存される。このパラメータ状態の値がマイナスであるとTM符号化を用いることができない。パラメータ状態がマイナスではなく、保護するべき連続したフレーム消去の数以下であり、かつフレームのクラスがONSET、VOICEDまたはVOICED TRANSITIONであるなら、フレームはTMフレームとして示される(より詳細には図4を参照されたい)。換言すると、N_TM_FRAMES≧状態>0であれば、フレームはTMフレームとして示され、ここでN_TM_FRAMESは、TM符号化技法を用いてエラー伝播を防止するべき連続したフレームの数である。
通信チャネルの特性が、しばしば複数の分離したフレームが一度に消去される(すなわちフレーム消去が一括で行われる傾向がある)ものであると予期される場合、最善の解決策は、2つまたはさらに多くの連続したフレーム消去を保護するのにTM符号化技法を用いることであり得る。しかし、クリーンチャネル状態での符号化効率は低下する。エンコーダ内でチャネルに関するフィードバックが有効である場合、連続したTMフレームの数に、転送状態に対する適応性を持たせることができる。本発明の非限定的な例示の実施形態では、遷移(有声オンセットまたは2つの異なる有声音間の遷移)フレームに後続する2つまでのTMフレームが検討され、これは、連続した2つまでのフレーム消去に対処することができる設計に相当する。
前述の結論は、基本的に、遷移(有声オンセットまたは2つの異なる有声音間の遷移)フレームに後続するTMフレームの固定数を用いる(この数が転送の前に固定されるか、あるいは、転送のチャネル状態に左右されるかということについて)。クリーンチャネル性能とフレームエラーの頑強性との兼ね合いも、閉ループ分類に基づくものであり得る。より詳細には、前フレームの消去に対して保護したいフレームまたはオンセットフレームかどうか判断したいフレームでは、可能性のある2つの符号化モードの計算を並行して行い、一般的な(CELP)符号化モードおよびTM符号化技法の両方を用いてフレームを処理する。次いで、両手法の性能は、例えばSNR値を用いて比較されるが、「EV-VBRコーデックにおけるTM符号化技法の性能」というタイトルの下記の節で、より詳細に示す。一般的な(CELP)符号化モードに関するSNRとTM符号化技法に関するSNRの間の差が所与の閾値より大きいとき、一般的な(CELP)符号化モードが適用される。一般的な(CELP)符号化モードに関するSNRとTM符号化技法に関するSNRの間の差が所与の閾値より小さいとき、TM符号化技法が適用される。閾値の値は、フレーム消去保護およびオンセット符号化の確定がどれくらい強く必要とされるかに応じて選択される。
§ 声門形状のコードブック検索向けのサブフレーム選択
前の節では、TM符号化技法を用いる符号化向けにフレームを選択する理由およびメカニズムを説明した。次に、所与のビットレートでのクリーンチャネル性能とTMフレームに先行するフレームに消去がある状況での性能との最善の兼ね合いを実現するためには、すべてのサブフレームでは声門形状のコードブックを用いない方が、一般により高効率であることを示す。まず、声門形状のコードブック検索は、フレームの最初のピッチ周期でのみ重要である。後続するピッチ周期は、もはや過去のフレームの励振を用いない(適応コードブックが検索されるとき、励振は過去の約1つのピッチ周期まで検索される)ので、より効率的な標準的適応コードブック検索を用いて符号化することができる。その結果、フレームの最初のピッチ周期の部分を含まないサブフレームで声門形状のコードブック検索を用いる理由はない。
同様に、有声オンセットフレームで符号化効率を向上させるために声門形状のコードブック検索を用いるときは、この声門形状のコードブック検索を先頭の有声セグメントの最初のピッチ周期で用いる。その理由は、最初のピッチ周期については、適応コードブックがノイズ状の信号を含み(前のセグメントが無声であった)、それを量子化された声門インパルスで置き換えると符号化効率が向上することが多いためである。しかし、後続するピッチ周期については、適応コードブックで既に周期的励振が確立しており、このコードブックを用いると、より優れた結果をもたらすことになる。このため、少なくともサブフレーム分解能に関して、有声オンセットの位置に関する情報は有効である。
ビット割付けのさらなる最適化は、サブフレーム長より長いピッチ周期を有するフレームに関するものである。声門形状のコードブックが声門インパルスの量子化された形状を含むならば、このコードブックは、声門インパルスを含むサブフレームで用いられるのに最適である。他のサブフレームでは、その効率は低い。音声符号化の用途ではビットレートがかなり限定されていることが多く、また、声門形状のコードブックの符号化が低ビットレート音声符号化のために比較的多くのビット数を必要とすることを考えて、非限定的な例示の実施形態では、声門形状のコードブックが用いられて1フレームにつき1つのサブフレームのみが検索されるビット割付けを選択した。
声門形状のコードブックで符号化されることになるサブフレームを選択するために、LP残余信号中の最初の声門インパルスを探す。以下の簡単なプロシージャを用いることができる。LP残余信号中の最大のサンプルは[0, 0+Top+2]の範囲で検索され、ここでTopは前半フレームに関する開ループピッチの周期であり、0はフレームの先頭に相当する。有声オンセットフレームで、オンセットの先頭を確実に求めることができるならば、0はオンセットの先頭があるサブフレームの先頭を示す。次いで、最大の残余信号エネルギーを有するサブフレームで、声門形状のコードブックが用いられることになる。さらに、最大値の位置は、声門インパルスがおよそどこに位置しているかという情報を与え、複雑さを軽減するためにこの位置を利用することができるが、これは後で論じることになる。声門形状のコードブック検索は適応コードブック検索しか置き換えないので、TMフレームのすべてのサブフレームで固定コードブック検索が行われることに留意しなければならない。
他のサブフレーム(声門形状のコードブックを用いて符号化されたものではない)は、以下のように処理される。声門形状のコードブック検索を用いるサブフレームがフレーム中の最初のサブフレームでないと、フレームの先行する1つまたは複数のサブフレーム中の励振信号は、固定CELPコードブックのみを用いて符号化されるが、このことは、第1段階の励振信号がゼロであることを意味する。声門形状のコードブックのサブフレームがフレーム中の最後のサブフレームでない場合、フレームの後続する1つまたは複数のサブフレームは、標準的なCELP符号化を用いて(すなわち適応コードブック検索および固定コードブック検索を用いて)処理される。図5a〜図5cには、最初の声門インパルスが第2のサブフレームに出現する場合の状況が示されている。図5bで、u(n)はLP残余信号である。第1段階の励振信号は、声門形状のコードブックを用いて構築されるときqk'(n)で示され、あるいは適応コードブックを用いて構築されるときはv(n)で示される。この例(図5c)では、第1段階の励振信号は第1のサブフレーム中ではゼロであり、この励振信号は、第2のサブフレーム中では声門形状のコードベクトルであり、また、最後の2つのサブフレーム中では適応コードブックのベクトルである。
符号化効率をさらに向上させ、かつビット割付けを最適化するために、TMフレームの特定のサブフレームではピッチ周期に応じた様々な処理を用いる。最初のサブフレームがTMサブフレームとして選択されるとき、LP残余信号中の第2の声門インパルスを有するサブフレームが求められる。これはピッチ周期の値に基づいて求められ、次いで、以下の4つの状況が生じることがある。第1の状況では、第2の声門インパルスは第1のサブフレーム中にあり、第2、第3および第4のサブフレームは標準的CELP符号化(適応コードブック検索および固定コードブック検索)を用いて処理する。第2の状況では、第2の声門インパルスは第2のサブフレーム中にあり、第2、第3および第4のサブフレームはこれも標準的なCELP符号化を用いて処理する。第3の状況では、第2の声門インパルスは第3のサブフレーム中にある。適応コードブックを用いて検索されるべきLP残余信号の第2のサブフレーム中には声門インパルスがないので、第2のサブフレームは固定コードブック検索のみを用いて処理する。第3および第4のサブフレームは標準的CELP符号化を用いて処理する。最後の(第4の)状況では、第2の声門インパルスは第4のサブフレーム(または次のフレーム)中にあり、第2および第3のサブフレームは固定コードブック検索のみを用いて処理し、第4のサブフレームは標準的CELP符号化を用いて処理する。後に、例示的実装形態で、より詳細な論議が以下に与えられる。
表3は、可能性のある符号化構成の名前およびそれらの発生統計を示す。換言すれば、表3は、TM符号化技法で処理されたフレームに関して各サブフレーム中の第1および第2の声門インパルス発生の分布を与える。表3は、TM符号化技法が有声オンセットフレームおよび後続の1フレームだけを符号化するのに用いられるときのシナリオに相当する。この実験における音声信号のフレーム長は20ミリ秒、サブフレーム長は5ミリ秒であり、実験は、32人の男性および32人の女性の声を用いて行われた(異なって言及しないときは、以下の説明で言及される他のすべての実験でも同一の音声データベースを用いた)。
Figure 2010507818
§ 声門形状のコードブック
原理的には、声門形状のコードブックは、特定の位置に配置された声門インパルスの量子化され正規化された形状からなる。したがって、コードブック検索は、最善の形状の選択および特定のサブフレーム中にその最善の位置を求めることの両方にある。その最も簡単な形式では、声門インパルス形状は単位インパルスによって表すことができ、量子化する必要はない。その場合、サブフレーム中の単位インパルスの位置だけが求められる。しかし、そのような簡単なコードブックの性能は非常に制限されている。
一方、声門形状のコードブックのエントリ長Lがピッチ周期の長さに相当し、かつ多数の声門インパルス形状が表される場合、恐らく最善の表現が実現されるはずである。声門インパルスの長さおよび形状が、話者から話者で一様でなく、フレームからフレームでも一様でないため、そのようなコードブックを検索して保存するには、複雑さおよび所要メモリ量が大規模すぎる。兼ね合いとして、声門インパルス長ならびにそれらの数は限定されなければならない。非限定的な例示の実施形態では、声門形状のコードブックは8つの異なった声門インパルス形状からなり、個々の声門インパルス長はL=17サンプルである。量子化された形状は、絶対最大値がこの長さの中央のまわりにあるように選択されている。声門形状のコードブック検索中に、この中央は、現行のサブフレーム中の声門インパルスの位置を表すインデックスk'と位置合わせされ、[0, N-1]の期間から選択されており、Nはサブフレーム長である。コードブックのエントリ長の17サンプルがサブフレーム長より短いので、残りのサンプルはゼロに設定される。
声門形状のコードブックは、できるだけ多くの現存の声門インパルスを表すように設計される。非特許文献4のK平均アルゴリズムに基づくトレーニング過程を用いて、声門形状のコードブックは、いくつかの異なる言語で話す様々な話者の発声からなる3時間を上回る音声信号を用いて養成された。このデータベースから、声門インパルスはLP残余信号から抽出され、最大絶対値のまわりの17のサンプルに切り詰められた。K平均アルゴリズムによって選択された16の形状から、実験的にセグメントのSNR音質値を用いて、形状の数はさらに8つに低減された。選択された声門形状のコードブックは、図6に示されている。言うまでもなく、声門形状のコードブックを設計するのに他の手段を用いることができる。
§ 声門形状のコードブック検索
声門形状のコードブックの実現は、いくつかのやり方で行うことができる。例えば検索は、CELPにおける固定コードブック検索と同様に行うことができる。この場合、コードブックは、サブフレーム中のあらゆる可能な位置に声門インパルス形状の中心を配置することにより構築される。例えば、64サンプルのサブフレーム長および8つの声門インパルス形状については、64×8=512のサイズの声門形状のコードブックのコードベクトルが得られる。別の例によれば、適応コードブック検索と同様に、コードブックのエントリは、過去の励振中のすべての可能な位置に次々と配置することができ、適応コードブック検索で用いられたのと同様のやり方で最善の形状/位置の組合せを選択することができる。後者の実現では、すべてのピッチ周期の繰返しは、長期のCELPフィルタによって自動的に行われ、声門インパルスは(後に論じるように境界では声門形状の切捨てが必要な第1の実現とは対照的に)フルサイズの形状で表される。
この非限定的な例示の実施形態は、コードブック検索が代数CELP(ACELP)における固定コードブック検索と似ている構成を用いる。この手法では、それぞれの候補の形状は、成形フィルタG(z)のインパルス応答として表される。したがって、様々な位置に中心がある声門インパルス形状に対応するコードベクトルは、成形フィルタG(z)によってフィルタリングされた1つだけの非ゼロ要素を含むコードベクトルによって表すことができる(サブフレームのサイズNに対して可能な声門インパルスの位置k'についてN個の単一パルスベクトルがある)。
声門インパルスの位置k'が、奇数の長さL個のサンプルの声門形状の中央にあり、k'は範囲[0, N-1]からのものであるため、最初と最後のL1/2=(L-1)/2個のサンプルについては声門形状を切り詰めなければならない。このことは声門のパルス検索を通して考慮に入れることになる。というのは、それによって成形フィルタG(z)が非因果性フィルタになるからである。
TM部の構成は、エンコーダについては図7に示され、デコーダについては図11に示されている。前述のように、TM部はエンコーダ/デコーダの適応コードブック部分を置き換える。検索の間中、成形フィルタG(z)のインパルス応答をフィルタH(z)のインパルス応答に組み込むことができる。
次に、成形フィルタG(z)によって与えられた声門インパルスの一定の形状に対して最適の声門インパルスの中心位置k'を検索するためのプロシージャおよび対応するコードブック検索器を説明する。フィルタG(z)の形状がいくつかの候補形状(図6に示されるように、非限定的な例示の実施形態では8つの形状が用いられる)から選択されるので、最適のインパルス形状および位置を見つけるために、コードブックのそれぞれの声門形状について検索プロシージャを繰り返す必要がある。
TM符号化パラメータを求めるために、検索は、目標ベクトルx1と位置k'に中心があって重み付き合成フィルタH(z)によってフィルタリングされた声門形状のコードベクトルの間の平均2乗誤差を求める。CELPと同様に、検索は、次の形の基準の最高値を見つけることにより行うことができる。
Figure 2010507818
この式で、y1はフィルタリングされた声門形状のコードベクトルである。qk'は位置k'に中心がある声門形状のコードベクトルを示し、pk'は位置k'を示す非ゼロ要素を1つ有する位置コードベクトルを示すものとすると、qk'はqk'=G・pk'と書くことができ、ここでGは声門インパルスの形状を表すテプリッツマトリクスである。したがって、固定コードブック検索と同様に次式が成り立つ。
Figure 2010507818
この式で、Hは、重み付き合成フィルタの下側三角形のテプリッツ畳み込みマトリクスである。後に論じることになるが、マトリクスZTの行は、声門インパルス形状のフィルタリングされたシフトバージョンまたはそれを切り詰めた表現に相当する。本文におけるすべてのベクトルは想定上の列ベクトル(N×1のマトリクス)であることに留意しなければならない。
3つのサンプルのインパルス長およびN=4のマトリクスGの転置形式(T)の一例は、次の形式を有することになる。
Figure 2010507818
この式で、g(n)は、非因果性(non-causal)成形フィルタG(z)のインパルス応答の係数である。以下の説明では、非因果性成形フィルタG(z)の係数は、nが[-L1/2, L1/2]の範囲内にある値g(n)から与えられる。位置コードベクトルpk'が1つの非ゼロ要素しか有しないという事実のために、基準(16)の計算は非常に簡単であり、次式を用いて表現することができる。
Figure 2010507818
式(18)から理解することができるように、マトリクスΦgの対角線だけを計算すればよい。
1つの声門形状のコードベクトルに関する基準(18)の計算を絵で表現したものが、図8および図9に示されている。前述のように、ACELP代数コードブック検索では、式(18)は、通常、逆方向フィルタリングされた目標ベクトルdgおよび相関マトリクスΦgをあらかじめ計算することにより用いられる。しかし、成形フィルタG(z)が非因果性であると、これは、最初のL1/2の位置に対して直接適用することはできない。これらの状況では、より精巧な検索が用いられ、低レベルでの複雑性を維持するために依然としていくつかの算出値を再使用することができる。これは以下で説明する。
zk'がマトリクスZTの(k'+1)番目の行であって、マトリクスZT(図10)が以下のように計算されることを示す。成形フィルタG(z)が非因果性を有すると、計算の複雑さを最小化するために2段階でマトリクスZTを計算する。まず、このマトリクスの最初のL1/2+1行を計算する。マトリクスZTの残存部(マトリクスZTの最後のN-L1/2-1行)に対して、ACELP固定コードブック検索と同様のやり方で基準(18)を用いる。
次に、マトリクスZTおよび基準(18)を計算する方法を詳細に説明する。
第1段階では、範囲[0, L1/2]内で位置k'に相当するマトリクスZTの最初のL1/2+1行を計算する。これらの位置については、この範囲内の各位置k'に対して、切り詰められた様々な声門形状を用いる。最初の演算で、次式を用いて、位置k'=0に対する声門形状の応答とインパルス応答h(n)の間の畳み込みを計算する。
Figure 2010507818
ここでは、成形フィルタG(z)にはL1/2+1個の非ゼロ係数(すなわちg(0)、g(1)、・・・、g(L1/2)が非ゼロ係数である)しかないという事実を利用している。
第2の演算では、以下のようにz0(n)の値を再使用して、位置k'=1に対する声門形状のコードブック応答とインパルス応答H(z)の間の畳み込みz1(n)を計算する(マトリクスZT=GT・HTは、いくつかの0の逆傾斜する対角線を有するマトリクスであるが、このマトリクスZTは、もはや図10に示されるようにテプリッツかつ三角形のマトリクスではない)。
z1(0)=g(-1)h(0)
z1(n)=z0(n-1)+g(-1)h(n) for n=1、・・・、N-1 (20)
後続の行については、式(21)の帰納を再使用する。
zk'(0)=g(-k')h(0)
zk'(n)=zk'-1(n-1)+g(-k')h(n) for n=1、・・・、N-1 (21)
すべてのk'≦L1/2について帰納(21)を繰り返す。k'=L1/2については、成形フィルタG(z)は既にL個の非ゼロ係数を有し、したがってマトリクスZTの(L1/2+1)番目の行は次式によって得られる。
Figure 2010507818
この時点で、マトリクスZTの最初のL1/2+1行が計算されている。これらの行はゼロ係数を含まない(図10)。次いで、次式を用いて、範囲[0, L1/2]内のk'に対して基準(18)を計算することができる。
Figure 2010507818
第2段階では、マトリクスZTの残りを計算し、また、範囲[L1/2+1, N-1]内の位置k'に対して基準(18)を評価する。マトリクスZTの行L1/2+1、・・・、N-1は、式(22)によって説明されるように既に計算済みの畳み込み
Figure 2010507818
の係数を用いて構築されるという事実を利用する。違いは、これらの行を計算するのに係数の一部しか必要でないことである。すなわち、各行は、前の行を1だけ右へシフトして先頭にゼロを付加したものに相当し、次式で表される。
zk'(0)=0
zk'(n)=zk'-1(n-1) for n=1、・・・、N-1 (24)
これは、範囲[L1/2+1, N-1]内のk'に対して繰り返される。
この第2段階では、基準(18)は、計算の複雑さをさらに低減するために、上の節の「固定コードブック検索」で説明されたのと同様のやり方で計算することができる。最後の位置k'=N-1(これはマトリクスZTの最後の行である)に対して基準(18)をまず評価する。k'=N-1に対して、基準(18)の分子および分母は以下の式で与えられる。
Figure 2010507818
および
Figure 2010507818
マトリクスZTの係数のうちいくつかがゼロであるため(図10)、基準(18)の分子および分母を計算するのに(式(23)で用いられるようなN回の乗算の代わりに)L1/2+1回の乗算だけを用いる。
図10の例(L1/2=1)を用いるとき、式(25)および式(26)を用いて計算する基準(18)は、次式のように簡略化することができる。
Figure 2010507818
次のステップでは、以前の算出値のいくつかを、もう一度分母の計算に再使用することができる。位置N-2に対して、基準(18)の分母は次式を用いて計算する。
Figure 2010507818
分子は、総和のインデックスを変えて式(25)を用いて計算する。
Figure 2010507818
同様のやり方で、k'>L1/2のすべての位置に対して基準(18)の分子および分母を計算する。
前述のプロシージャによって、声門インパルスからの最初の形状を表すコードベクトルに対して基準(18)の最大値を見つけることが可能になる。その検索は、他のすべての声門インパルス形状向けの前述プロシージャを使い続ける。基準(18)の最大値の検索は、基準(18)に関する1つの最大値を見つけるための声門形状のコードブック検索として継続するが、この最大値は、検索の結果を構成する1つの声門形状および1つの位置k'に対応する。
声門のパルスの中心位置k'を検索するときサブサンプル分解能(sub-sample resolution)を用いることも可能であるが、これは複雑さを増大させることになる。より詳細には、これは、分解能を向上するために声門インパルス形状をアップサンプリングし、かつ異なる分解能でシフトされた異なるバージョンを抽出することが必要となるはずである。このことは、より大きな声門形状のコードブックを用いるのと同等である。
理想的には、可能なあらゆる声門インパルスの位置k'に対して基準(18)を計算する。非限定的な例示の実施形態では、位置k'の予期された位置のまわりの抑制された範囲でのみ検索を行い、計算の複雑さがさらに低減する。この予期された位置は、範囲[kmin, kmax]、0≦kmin<kmax<Nにあり、上の節の、「声門形状のコードブック検索向けのサブフレーム選択」で説明されたように、見つかったLP残余信号の最大値からの最初の声門形状向けに求めることができる。次いで、声門形状のコードブック検索を行い、最初の声門形状に関して位置k'が見つかる。次のように、第2の声門形状の検索用に新規の範囲[kmin, kmax]を設定する。
kmin=k'-Δ
kmax=k'+Δ (30)
通常Δ=4である。同様に、第2の形状の選択位置のまわりの第3の形状に対する検索範囲を定義するために式(30)を用い、以下同様である。
以下の例では、初期の検索範囲は、[N-15, N-7]、L=17かつN=64であると想定されている。検索は次の値を計算するステップで始まる。
Figure 2010507818
次いで、次式を用いて位置k'=N-7に対する基準(18)を評価する。
Figure 2010507818
位置k'=N-8に対する基準を計算するのに、分母は、次のように帰納的に計算する。
Figure 2010507818
同じように、k'=N-15まで、すべての残されている位置に対して分母を計算する。基準(18)の分子は、範囲[N-15, N-7]内ですべての位置に対して、式(29)と同様のやり方で、次式を用いて別個に計算する。
Figure 2010507818
声門形状のコードブック検索で求められる最後のパラメータは利得gpであり、式(4)でのように計算することができるが、適応コードブック検索でのように制限されていないところに違いがある。その理由は、フィルタリングされた声門形状のコードベクトルが、実際の励振信号インパルスのエネルギーと非常に異なるエネルギーを有する正規化され量子化された声門形状を用いて構築されるということである。
声門インパルスの位置および声門形状に関連したインデックスは、デコーダに転送される。フィルタリングされた声門形状のコードベクトルのデコーダにおける再構成が図11に示されている。サブフレームが複数の声門インパルスを含むとき(これは以下で論じる)を除いて、声門形状のコードブック検索サブフレームでは、もはやピッチ周期の長さを転送する必要がないことに留意しなければならない。
§ 1つのサブフレーム中のより多くの声門インパルス
音声信号のピッチ周期がサブフレーム長より短い状況があり、この場合、サブフレームが複数の声門インパルスを含むことがある(特に構成TRANSITION_1_1において)。この場合、声門インパルスをすべてモデル化する必要がある。この非限定的な例示の実施形態では、ピッチ周期の長さの制限およびサブフレーム長が与えられると、サブフレームは2つを上回る声門インパルスを含むことができない。
これらの状況は、2つの異なる手法によって解決することができる。第1の、より簡単なものは、非特許文献1に説明されるように適応多重レート広帯域(AMR-WB)で用いられる周期性強化(ピッチ先鋭化)と同様のプロシージャによってこれらの状況を解決するものであり、インパルスは、線形フィルタを用いて基本的にピッチ周期で繰り返される。したがって、図12aに示されるように、次の形式の適応反復フィルタによって声門形状のコードベクトルqk'(n)を処理する。
Figure 2010507818
ピッチ周期T0は、例えば標準的な閉ループピッチ検索手法によって求めることができる。パラメータαは第2のインパルスのエネルギーに影響を与え、非限定的な例示の実施形態ではα=0.85に設定されている。この技法は、声門形状のコードベクトルの中へ、正確な位置で、欠けている声門インパルスを付加する。これは図12bの点々のインパルスとして示される。声門インパルスの中心位置k'とピッチ周期T0の和がサブフレーム長N未満であるとき、すなわち(k'+T0)<Nであるとき、この状況が現われる。しかし、インパルスの位置k'とピッチ周期の和がサブフレーム長を超える状況でも、代数コードブックでピッチ先鋭化を用いるとき、固定コードベクトルを構築するためにもピッチ周期値を用いる。
エンコーダに関する図13のブロック図に示されるように、フィルタG(z)とH(z)の間のコーデックのTM部へ反復フィルタQ(z)を挿入する。デコーダ内で同じ変更を行う。ピッチ先鋭化と同様に、コードブック検索に先立って反復フィルタQ(z)のインパルス応答をG(z)およびH(z)のインパルス応答に付加することができ、その結果、低レベルで検索の複雑さを保つ一方で、検索を通して両方のインパルスが考慮に入れられる。
1つのサブフレーム中に2つの声門インパルスを有する声門形状のコードベクトルを構築するための別の手法に、サブフレームの一部で適応コードブック検索を用いるものがある。図14に示されるように、声門形状のコードブック検索を用いて声門形状のコードベクトルqk'(n)の最初のT0のサンプルが構築され、次いで、適応検索を用いてサブフレーム中のその他のサンプルが構築される。この手法はより複雑であるが、より正確である。
符号化効率をさらに向上させるために、たとえ次のサブフレームの最初のL1/2の位置のうちの1つに第2の声門インパルスが現われても、前述のプロシージャを用いることができる(図15)。この状況で、すなわちk'およびT0がN≦(k'+T0)<(N+L1/2)という関係を保つとき、現行のサブフレームの終端部に声門形状のほんの少数の(L1/2+1未満の)サンプルを用いる。この手法は非限定的な例示の実施形態で用いる。この手法には制約がある。というのは、理想的にはピッチ周期値はT0≦N+L1/2に制限されるべきであるにも拘わらず、これらの状況で転送されるピッチ周期値は、T0<Nに制限されているためである(これは効果的な符号化の問題である)。したがって、第2の声門インパルスが次のサブフレームの先頭に現われると、最初の声門インパルスの最初のL1/2の声門インパルス位置k'のうちのいくつかに対して反復プロシージャを用いることができない。
§ EV-VBRコーデックにおけるTM符号化技法の実装形態
非限定的な例示の実施形態によるTM符号化技法が、EV-VBRコーデックで実施されている。EV-VBRは、12.8kHzの内部サンプリング周波数および20ミリ秒のフレーム長を用いる。各フレームはN=64サンプルの4つのサブフレームに分割される。EV-VBR分類プロシージャは、TM符号化技法を用いて符号化されるべきフレームを選択するように適合されている。この実装形態では、声門形状のコードブックの寄与の利得は、図16に示されるように2ステップで量子化され、ここでG(z)は成形フィルタであり、k'は声門形状の中心の位置であり、gmはTM利得(すなわち声門形状コードベクトルの概算で量子化されたエネルギー)である。TM利得gmは、式(4)を用いてピッチ利得と同じやり方で見つかるが、ピッチ利得との違いはTM利得が制限されないことだけである。次いで、TM利得は3ビットのスカラ量子化器によって量子化され、符号用の1ビットが用いられる。次いで、この利得gmを用いて声門形状のコードベクトルをスケーリングする。フィルタリングされた励振信号に対する両方の寄与(第1段階の寄与信号および第2段階の寄与信号、すなわちフィルタリングされた声門形状のコードブックの寄与およびフィルタリングされた代数コードブックの寄与)が見つかった後、標準的なEV-VBR利得ベクトル量子化(VQ)を用いて、第1段階の励振信号の利得を、第2段階の励振信号の利得量子化と一緒にさらに調節する。このように、一般的な符号化モードまたは有声の符号化モード向けに設計されたEV-VBRの利得量子化コードブックをTM符号化でも用いることができる。もちろん、他の様々な方法を用いて利得量子化を行うことは本発明の範囲内である。
声門インパルスの中心位置k'の検索は、理論的にはサブフレーム中のすべての位置に対して、すなわち範囲[0, N-1]内で行うべきである。しかし、前述のように、試験されるべき声門形状の数を与えられると、この検索は、計算上大容量のメモリを使い、実際上LP残余信号中の最大絶対値の位置のまわりのいくつかのサンプルの区間でしか行うことができない。検索する区間は、現行フレームにおけるLP残余信号中の最初の声門インパルスの最大値の位置のまわりの±4サンプルに設定することができる。このように、EV-VBRの一般的な符号化については、適応コードブック検索と固定コードブック検索を用いる処理の複雑さはほぼ同じである。
TM符号化技法に関連した転送されるパラメータが、対応するビット数を伴って表4に列挙されている。フィルタQ(z)を求めるかあるいは1つのサブフレーム中にインパルスが2つあるときに2番目の声門インパルスの適応検索を行うのに用いられるパラメータT0は、T0≦Nであるとき転送される。TMフレームに用いられる残りのパラメータではあっても一般的なACELP処理で共通のものは(フレーム識別ビット、LPパラメータ、適応励振に対するピッチ遅延、固定コードブック励振、第1段階および第2段階のコードブック利得)、ここに示されていない。ビットストリームにTMパラメータを付加するとき、固定ビットレートを維持するために、他のEV-VBRパラメータにもともと割り付けられたビット数を低減する。これらのビットは、例えば固定コードブック励振ビットならびに利得量子化から減じることができる。
Figure 2010507818
EV-VBRで用いられるビット割付け表が本明細書で以下に示される。声門形状のコードブック検索が最初のサブフレームに適用されないとき、声門形状のコードブックのサブフレームに先行するサブフレーム中の励振信号を符号化するのに、固定コードブックおよびその利得だけが転送されることを想起しなければならない。同じ状況が構成TRANSITION_1_3およびTRANSITION_1_4に対して起きる。それらの場合では、元の一般的なACELP符号化でのように、すべてのサブフレーム向けに固定コードブックの同じサイズまたは大きなサイズさえ維持することが可能である。
§ EV-VBRコーデックにおけるTM技法の性能
この節では、EV-VBRコーデックの実装形態におけるTM符号化技法の性能のいくつかの例が提示される。図17に、クリーンチャネル状態に関してTM符号化技法の影響の一例が示されている。図17aは入力音声信号を示し、図17bはLP残余信号を示し、図17cは第1段階の励振信号を示すが、ここでは最初の3フレームでTM符号化技法を用いる。予期されたように、残余信号と第1段階の励振信号の間の差は、各フレームの先頭でより顕著である。フレームの終端に向かって、標準的な適応コードブック検索が用いられるので、第1段階の励振信号は、よりぴったりと残余信号に一致する。
表5および表6は、SNR値を用いて測定されたTM符号化技法の性能のいくつかの例を要約する。
最初の例(表5)では、TM技法はコーデックにおいて実施され、コア(内部)サンプリング周波数Fs=8kHz(すなわちサブフレーム長はN=40サンプル)で、17サンプル長の16の形状を有する声門形状のコードブックを用いた。また、狭帯域入力信号を試験した。TM符号化技法を用いて有声オンセットフレームを符号化すると、出力音声信号の質が向上することが表5から理解できる(1つおよび2つのTMフレームに関するセグメントSNR値および重み付きセグメントSNR値を参照されたい)。TM符号化技法を用いて有声オンセットフレームおよび1つの後続フレームを符号化すると、さらなるSNRの向上を観測することができる。しかし、有声オンセットフレームに後続する複数のフレームもTM符号化技法を用いて符号化すると、SNR値は低下する。重み付きSNRは、フレーム長で正規化されたフレームエネルギーによって重み付けされたSNRであり、dBで表される。
Figure 2010507818
表6は、コア(内部)サンプリング周波数Fs=12.8kHz、WB入力音声信号および長さ17サンプルの8つの形状を有する声門形状のコードブックを有するEV-VBRコーデックの性能の一例を要約する。主としてサブフレーム長Nがより長いために、たった1つのフレームでTM符号化技法が用いられたとしても、SNR値はクリーンチャネルに対していくらかの劣化を示す。これは、主として声門形状のインパルスが有限長であるためにもたらされる。NBの例と比べて、サブフレーム中の第1段階の励振信号中により多くのゼロ値が見られる。この例では、TM符号化技法を用いる利点はフレーム消去(FE)の保護にある。
Figure 2010507818
消去されたフレームの後のフレームでTM符号化技法を用いるときさえ、クリーンチャネルとノイズの入ったチャネルにおける合成された音声の間に依然としていくらかの違いがあることにも留意しなければならない。これは、エンコーダとデコーダの内部状態が、過去の励振信号だけでなく、他の多くのパラメータ(例えばフィルタメモリ、イミタンススペクトル周波数(ISF)量子化器メモリ、・・・)にも左右されるためである。メモリがないLPパラメータ量子化で最適化したTM符号化を用い、TMフレームに関する内部状態をすべてリセットするとき、この変形形態を試験することはもちろん可能である。このように、標準的な一般的符号化モードでEV-VBRコーデックが用いるメモリがすべてリセットされて、フレーム消去後のデコーダの内部状態は、そのエラーのない状態での状態と同一であることが確実になる。それにも拘わらず、この変形形態に関してエラーのない状態における音声の質はかなり低下する。したがって、さらなるメモリリセットをしないとき、エラーのない状態での高性能と、消去されたフレームまたはパケットに対する頑強性との兼ね合いがはかられる。
表7に、TM符号化技法の計算の複雑さの問題が要約されている。最悪の場合には、TM符号化技法によって、毎秒1.8百万回の重み付き演算(1.8WMOPS)だけエンコーダ内の複雑さが増す。デコーダ内の複雑さはほぼ同一のままである。
Figure 2010507818
添付の図面は、有声オンセットフレームのモデリング(図18a〜図18c)およびフレームエラー伝播緩和(図19a〜図19c)に関するTM符号化技法の性能を示す。この例では、TM符号化技法は1度に1つのフレームでのみ用いられる。入力音声信号のセグメント(図18aおよび図19a)、図18bおよび図19bに示されるようにTM符号化技法なしのEV-VBRデコーダによって処理された対応する出力合成音声信号、およびTM符号化技法付きの標準的EV-VBRデコーダを用いて処理された出力合成音声信号(図18cおよび図19c)が示される。有声オンセットフレーム(図18の2番目のフレーム)のモデリングおよびフレームエラー伝播の制限(図19の4番目と5番目のフレーム)の両方で、TM符号化技法の利点を観測することができる。
EV-VBRデコーダで用いられるフレーム消去の隠蔽技法は、20ミリ秒の長さ(1つのフレーム長に相当する)の追加のデコーダ遅延を用いることに基づく。これは、フレームが欠けていると、それが将来のフレームパラメータについての知識で隠蔽されることを意味する。3つの連続したフレームがm-1、mおよびm+1として示され、フレームmが欠けている場合の状況を推測することにする。次いで、最後の正確に受け取ったフレームm-1と後続の正確に受け取ったフレームm+1の間の補間を、特に、排他的でなく、LPフィルタ係数(イミタンススペクトル周波数ISFによって表される)、閉ループピッチ周期T0、ピッチおよび固定コードブック利得を含むコーデックパラメータを求めることに鑑みて計算することができる。補間は、安定した有声セグメントを求めて失われたフレームパラメータをより正確に推定するのに役立つ。しかし、補間は、コーデックパラメータが急激に変化するとき、遷移セグメントに対して機能しないことが多い。この問題に対処するために、現行フレームm+1における第1段階の励振の構成のために補間を用いないときでさえ、すべてのTMフレームでピッチ周期の絶対値を転送することができる。これは、特に構成TRANSITION_1_4およびTRANSITION_4に対して有効である。
TMフレームで転送される他のパラメータは、先行するフレームのISFである。CELP型エンコーダでは、一般に、各サブフレームについて前フレームの諸ISFと現行フレームの諸ISFの間でISFパラメータを補間する。これによって、あるサブフレームから別のサブフレームへのLP合成フィルタの滑らかな変遷が確実になる。フレーム消去の場合には、消去に後続するフレームにおける補間には、消去されたフレームの諸ISFの代わりに、通常、フレーム消去に先行するフレームの諸ISFを用いる。しかし、遷移セグメントを通して諸ISFが急激に変化し、また、最後の有効なフレームの諸ISFが、欠けている消去されたフレームの諸ISFとは非常に異なる可能性がある。したがって、欠けているフレームの諸ISFを前フレームの諸ISFで置き換えると重大なアーチファクトをもたらす恐れがある。過去のフレームの諸ISFを転送することができるなら、前フレームが消去されているとき、TMフレームにおけるISF補間にそれらを用いることができる。後に、TMフレームに先行するフレームが欠けているときISF補間に用いるLP係数の別の推定を説明する。
EV-VBRコーデックに対するTM符号化技法の最後の実装形態は、オンセット/遷移フレームの後の1つのフレームだけがTMを用いて符号化されると想定する。このように、TM符号化およびTM復号化向けに有効な音声フレームの約6.3%が選択される。
別のカテゴリの試験は、符号化効率の向上に焦点を当てた。2つの変形形態(TM符号化技法の有りと無し)がエンコーダ内で並行して計算され、より高いSNRを有する変形形態が出力信号として選択されたとき、閉ループ検索において分類がなされた。
8kbpsのビットレートを有するEV-VBRコーデックに関する結果が、表8に要約されている。WBの場合には、有効な音声フレームの28%がTM符号化技法を用いる符号化に分類され、セグメントSNRにおいて0.203dBの向上が達成された。NBの場合には、有効な音声フレームの25%がTM符号化技法を用いる符号化に分類され、セグメントSNRにおいてさらに0.300dBの向上が達成された。残念ながら、この客観テストの向上は主観的リスニング試験では確認されず、TM符号化技法有りのコーデックと無しのコーデック間の選好は報告されなかった。音声の音質劣化がなく、TMフレームの合計数が開ループ分類と比較して4倍大きくてはるかに高いFE保護をもたらすにも拘わらず、この分類および同様の結果分類は、複雑さが増すためにEV-VBRコーデックの実装形態では用いない方がよい。
Figure 2010507818
§ EV-VBRコーデックにおけるTM符号化技法向けのビット割付け表
TM符号化技法はITU-T標準化のためのEV-VBRコーデック候補で実施された。以下の表9は、本明細書で上記に紹介された元の一般的なモードおよびすべてのTM符号化モード構成のビット割付け表を示す。これらの構成はEV-VBRコーデックで用いられる。
Figure 2010507818
Figure 2010507818
Figure 2010507818
表9の構成TRANSITION_2には例外が1つある。このビット割付け表は、有声オンセットフレームに後続するフレームでのみTM符号化技法を用いると判断したときの状況でしか用いることができない(有声オンセットフレームは一般的な符号化モードを用いて符号化され、有声オンセットフレームに後続する1つのフレームだけがTM符号化技法を用いて符号化される)。この状況では、第2のサブフレームにおいてピッチ周期T0はT0≧Nであり、第2のサブフレームでこのパラメータを転送する必要はない。しかし、有声オンセットフレームでもTM符号化技法が用いられるなら、以下の状況が生じることがある。ピッチ周期がNより短いが、有声オンセットは第2のサブフレームでしか始まることができない(例えば第1のサブフレームが依然として無声の信号を含んでいる)。この場合、ピッチ周期T0を転送する必要がある。この状況では、別のビット割付け表が用いられ、パラメータT0は第2のサブフレームで5ビットを用いて転送され、また、1つのサブフレームでは、より短い固定コードブックが用いられる(表10を参照されたい)。同一の状況が構成TRANSITION_3についても出現する。しかし、別のパラメータ符号化向けに、保存されたビットの優れた使用法がないので、ピッチ周期は、この非限定的実装形態では(オンセットフレームがTM符号化技法を用いて符号化されようとそうでなかろうと)、どのような方法でもここで転送される。
様々な遷移モード構成で他のビット割付けを用いることができる。例えば、声門のパルスを含むサブフレーム中の固定コードブックにはより多くのビットを割り付けることができる。例えば、TRANSITION_3モードでは、第2のサブフレームで12ビットを有するFCBを用いることができ、また第3のサブフレームでは28ビットのものを用いることができる。もちろん、別のコーダ実装形態では12ビットFCBと28ビットFCB以外のものを用いることができる。
Figure 2010507818
利用可能な帯域幅がある場合、より優れたフレーム消去(FE)保護のためにより多くの情報を転送することにより、さらなる機能強化を実現することができる。VMR-WBコーデックは、FE保護ビットのいくらかの部分を用いるコーデックの一例である。例えば、Rate-Set IIのVMR-WBの一般的な全レート符号化タイプでは1フレームにつき14の保護ビットが用いられる。これらのビットは、フレーム分類(2ビット)、合成音声エネルギー(6ビット)および声門のパルス位置(6ビット)を表す。有声オンセットフレームが失われたとき、デコーダ内で人為的に声門パルスが挿入される。TM符号化技法は過去の励振信号を利用しないので、TMフレーム中の励振構成にとってこれらのFER保護ビットはあまり重要でなく、TM符号化技法は、現行(TM)フレームに転送されたパラメータを用いて励振信号を構築する。しかし、これらのビットは、他のパラメータの転送向けに用いることができる。実装形態の一例では、現行のTMフレームにおいて前フレームのISFパラメータを転送するのにこれらのビットを用いることができるが、利用可能なのは36ビットではなく12ビットである。これらのISFは、フレーム消去の場合に、より正確なLPフィルタの係数を再構成するために用いられる。
EV-VBRコーデックでは、LPパラメータの組は第4のサブフレームの中心で計算されるのに対して、第1、第2および第3のサブフレームは、現行フレームと前フレームの間でLPフィルタのパラメータの直線補間を用いる。補間はイミタンススペクトルの対(ISP: Immittance Spectral Pair)に対して行う。
Figure 2010507818
がこのフレームの第4のサブフレームにおけるISPベクトルであり、
Figure 2010507818
が過去のフレームm-1の第4のサブフレームにおけるISPベクトルであるものとする。第1、第2および第3のサブフレームにおける補間されたISPベクトルは以下の式から与えられる。
Figure 2010507818
Figure 2010507818
しかし、この補間は、前フレーム消去の場合のTM符号化技法にそのまま適しているわけではない。TMフレームに先行するフレームが欠けているとき、最後の正確に受け取られたフレームが無声であると想定されることがある。この状況では、様々な補間定数を用いて欠けているフレーム向けにISFベクトルを復元することがより効率的であり、FER保護ビットからいくらかのISF情報が利用可能であるかどうかということは問題ではない。一般に、補間は、前フレームのISPをより重度に用いている。欠けているフレームm向けのISPベクトルは、例えば次式を用いることによってデコーダで得ることができる。
Figure 2010507818
次いで、後続の正確に受け取られたTMフレームm+1は、式(35)によって記述されるLP係数補間を用いる。また、式(36)中の補間係数は、非限定的な例として与えられている。最終的な係数は異なることがあり、また、さらに、前フレームからのいくつかのISF情報が利用可能なときは1組の補間係数を用いるのが望ましく、前フレームからのISF情報が利用可能でない(すなわち、ビットストリーム中にフレーム消去の保護ビットがない)ときは別の組を用いるのが望ましい。
§ EV-VBRコーデックにおけるTMフレーム中のピッチの周期および利得の符号化
EV-VBRコーデックで用いられる一般的な符号化モードでは、すべてのサブフレームについてピッチ周期T0の値を転送する。第1および第3のサブフレームでは8ビットの符号化を用い、一方、ピッチ周期値は、分数(範囲[Tmin, 91・1/2]のT0については1/2)または整数(範囲[92, Tmax]のT0について)の分解能で伝達する。第2および第4のサブフレームではデルタ検索を用い、また、常に分数の分解能を有するピッチ周期値は5ビットで符号化する。デルタ検索は、範囲[T0p-8, T0p+7・1/2]での検索を意味し、ここでT0pは前の(第1または第3の)サブフレームの分数のピッチ周期に最も近い整数である。ピッチ周期の値は、EV-VBRコーデックでは範囲[Tmin, Tmax]内の値に制限されており、ここでTmin=34かつTmax=231である。
ピッチ利得gpおよび固定コードブック利得gcは、EV-VBRコーデックでは、原則として非特許文献5のAMR-WB+コーデックと同じやり方で符号化される。まず、非予測的なスケーリングされた固定コードブックのエネルギーの推定をフレーム中のすべてのサブフレームに対して計算し、1フレームにつき1回3ビットで量子化する(表9のパラメータのエネルギー推定を参照されたい)。次いで、ピッチ利得gpおよび固定コードブック利得gcを、すべてのサブフレームに関して、5ビットを用いて1ステップでベクトル量子化し符号化する。
推定された固定コードブックエネルギーは、次のように計算し量子化する。まず、各サブフレームkで、次式を用いてLP残余エネルギーを計算する。
Figure 2010507818
この式で、u(n)はLP残余信号である。次いで、次式によって1つのサブフレーム当りの平均の残余エネルギーが見つかる。
Figure 2010507818
固定コードブックのエネルギーは、残余エネルギーから適応コードブック寄与の推定を除去することにより推定する。これは、フレームで行われた2つの開ループピッチ分析から得られる平均の正規化相関と関連したエネルギーを除去することにより行う。次式を用いる。
Figure 2010507818
この式で
Figure 2010507818
は、現行フレームの各ハーフフレームについての開ループピッチ分析から得られる正規化されたピッチ相関の平均である。推定されたスケーリング済固定コードブックのエネルギーは前フレームエネルギーに左右されることがなく、したがって、利得符号化原理はフレーム消去に対して頑強である。
一旦固定コードブックエネルギーの推定が見つかれば、ピッチ利得および固定コードブック利得の補正を計算するが、推定された固定コードブック利得および補正係数γ(真の固定コードブック利得と推定された固定コードブック利得の間の比)を計算するのに、推定されたスケーリング済固定コードブックエネルギーを用いる。値γは、1つのサブフレームにつき5ビットを用いてピッチ利得と一緒に量子化されたベクトルである。量子化器の設計のために、非特許文献4の修正K平均法を用いる。ピッチ利得は、コードブック初期化中は区間<0; 1.2>内に制限され、コードブックの反復改善中は区間<0; ∞>に制限される。同様に、補正係数γは、コードブック初期化中は<0; 5>に制限され、コードブック改善中は<0; ∞>に制限される。修正K平均アルゴリズムは、以下の基準の最小化を求める。
Figure 2010507818
TM符号化技法を用いるとき、重要な声門インパルスがないサブフレームでは、ピッチ周期ならびにピッチ利得および固定コードブック利得の転送は不要であり得て、固定コードブック寄与だけを計算すればよい。
以下はすべてのTM構成のリストおよび説明である。
構成TRANSITION_1_1(図20)
この構成では、1つまたは2つの最初の声門インパルスが、声門形状のコードブック検索を用いて処理される第1のサブフレームに現われる。これは、第1のサブフレーム中のピッチ周期値がサブフレーム長未満の最大値を有し得る(すなわちTmin<T0<Nである)ことを意味する。整数の分解能でピッチ周期値を5ビットで符号化することができる。次のサブフレーム中のピッチ周期は、分数の分解能で5ビットのデルタ検索を用いて見つかる。これはTM符号化技法の最もビットを必要とする構成であり、すなわち声門形状のコードブックが第1のサブフレームで用いられ、また、第1のサブフレームの一部でフィルタQ(z)を求めるかまたは適応コードブック検索を行うためにピッチ周期T0が転送されるときである。この構成は、第1のサブフレームでは前述のプロシージャを用いる。第1のサブフレームに1つの声門インパルスだけが現われるときにも、EV-VBRコーデックでこの構成を用いる。ここで、ピッチ周期T0はT0<Nという関係を保ち、T0は、固定コードブック検索での周期性向上に用いられる(非特許文献1)。
構成TRANSITION_1_2(図21)
構成TRANSITION_1_2を用いるとき、声門形状のコードブック検索を用いて第1のサブフレームを処理する。ピッチ周期は不要であり、適応コードブック検索を用いて後続するすべてのサブフレームを処理する。第2のサブフレームが第2の声門インパルスを含むことが既知であるため、ピッチ周期の最大値はT0≦2・N-1という関係を保つ。この最大値は、声門インパルスの位置k'についての知識の恩恵でさらに減少させることができる。次いで、全範囲で、分数の分解能で7ビットを用いて、第2のサブフレーム中のピッチ周期値を符号化する。第3および第4のサブフレームでは、5ビットを用いるデルタ検索を分数の分解能で用いる。
構成TRANSITION_1_3(図22)
構成TRANSITION_1_3を用いるとき、再び声門形状のコードブック検索を用いて、ピッチ周期を用いずに第1のサブフレームを処理する。LP残余信号の第2のサブフレームが声門インパルスを含まず、適応検索が役立たないので、第2のサブフレームでは第1段階の励振信号をゼロで置き換える。第2のサブフレームでは適応コードブックパラメータ(T0およびgp)を転送せず、第3のサブフレームではFCBのサイズを増加するために保存されたビットを用いる。第2のサブフレームが含む有益情報が最小限であるため12ビットしかないFCBを用い、第4のサブフレームでは20ビットのFCBを用いる。第3のサブフレーム中の第1段階の励振信号は、ピッチ周期の最大値(3・N-1-k')および最小値(2・N-k')を有する適応コードブック検索を用いて構築し、したがって、すべての範囲にわたって分数の分解能を有するピッチ周期の7ビット符号化だけを用いる。第4のサブフレームは、再びピッチ周期値の5ビットのデルタ検索符号化で適応検索を用いて処理する。第2のサブフレームでは、固定コードブック利得gcだけを転送する。したがって、利得の量子化には、従来のACELP符号化を用いるサブフレームで用いられる5ビット(すなわち利得gpおよびgcを転送するとき)の量子化器の代わりに、2ビットまたは3ビットしか必要でない。このことは、以下のすべての構成にも有効である。フレームで利用可能なビット数に合わせるために、利得量子化器が2ビットまたは3ビットを用いるべきか否かが判断される。
構成TRANSITION_1_4(図23)
構成TRANSITION_1_4を用いるとき、声門形状のコードブック検索を用いて第1のサブフレームを処理する。再び、ピッチ周期を転送する必要はない。しかし、LP残余信号が第2および第3のサブフレームに声門インパルスを含まないので、これら2つのサブフレームには適応コードブック検索が役立たない。再び、これらのサブフレーム中の第1段階の励振信号をゼロで置き換え、すべてのサブフレームが利益を受けかつ20ビットのFCBを用いることができるように、FCBのサイズを増加するために保存されたビットを用いる。ピッチ周期値は第4のサブフレームでのみ転送され、その最小値は(3・N-k')である。ピッチ周期の最大値はTmaxによって制限される。第2の声門インパルスが第4のサブフレームに現われるか否かということは問題ではない(k'+Tmax≧Nであれば、第2の声門インパルスは次のフレーム中に存在し得る)。ピッチ周期の絶対値は、デコーダにおいてフレーム隠蔽のために用いられるので、ピッチ周期のこの絶対値は、第2の声門インパルスが次のフレームに現われる状況のとき転送される。TMフレームm+1に先行するフレームmが欠けているとき、フレームmで合成信号の欠けている部分を首尾よく復元するのに、フレームm-1とm+1からのピッチ周期値についての正確な知識が役立つ。
構成TRANSITION_2(図24)
第1の声門インパルスが第2のサブフレームに現われ、TM符号化技法を用いて有声オンセットフレームの後のフレームだけを符号化する(すなわち、有声オンセットフレームは従来の一般的な符号化を用いて符号化する)とき、第3および第4のサブフレームでのみピッチ周期を転送する。この場合、第1のサブフレームでは、固定コードブックパラメータだけを転送する。図24に示されたフレームは、有声オンセットフレームでTMを用いないときこの構成を想定する。有声オンセットフレームでもTMを用いるなら、構成TRANSITION_2aを用い、この構成では、前述のプロシージャを用いるために第2のサブフレームでピッチ周期T0を転送する。
構成TRANSITION_3(図25)
第1の声門インパルスが第3のサブフレームに現われ、TM符号化技法を用いて有声オンセットフレームの後のフレームだけを符号化する(すなわち、有声オンセットフレームは従来の一般的な符号化を用いて符号化する)とき、第4のサブフレームでのみピッチ周期を転送する。この場合、第1および第2のサブフレームでは固定コードブックパラメータだけを転送する。ピッチ周期は、ビットストリーム中の第3のサブフレーム向けに依然として転送される。しかし、有声オンセットフレームを符号化するのにTM符号化技法を用いないなら、ピッチ周期は役に立たない。この値が有効なのは、TM符号化技法を用いて有声オンセットフレームを符号化するときだけである。
構成TRANSITION_4(図26)
第1の声門インパルスが第4のサブフレームに現われ、TM符号化技法を用いて有声オンセットフレームの後のフレームだけを符号化する(すなわち、有声オンセットフレームは従来の一般的な符号化を用いて符号化する)とき、このサブフレームではピッチ周期値情報を用いない。しかし、デコーダでのフレーム隠蔽ではピッチ周期値を用いる(TMフレームに先行するフレームが欠けているとき、欠けているフレームの再構成にこの値を用いる)。したがって、第4のサブフレームでのみピッチ値を転送し、第1、第2および第3のサブフレームでは固定コードブックパラメータのみを転送する(ピッチ利得gpは必要でない)。保存されたビットによって、すべてのサブフレームで20ビットのFCBを用いることが可能になる。
前述の説明で、本発明が、その非限定的な例示の実施形態と関連して説明されてきたが、添付の特許請求の範囲の範囲内で、本発明の範囲および趣旨から逸脱することなく、この非限定的な例示の実施形態を変更することができる。
901 マイクロホン
902 A/Dコンバータ
903 音声エンコーダ
904 チャネルエンコーダ
905 通信チャネル
906 チャネルデコーダ
907 音声デコーダ
908 D/Aコンバータ
909 スピーカユニット

Claims (94)

  1. 音響信号中の遷移フレームおよび/または遷移に後続するフレームでの適応コードブック励振を置き換える遷移モード励振を生成するための予測型の音響信号コーデックで用いられる遷移モードデバイスであって、
    コードブックのインデックスを受け取るための入力端と、
    過去の励振から独立した1組のコードベクトルを発生するための遷移モードのコードブックと
    を備え、前記遷移モードのコードブックは、前記遷移フレームおよび/または前記遷移に後続するフレーム中に前記遷移モード励振に対応する前記組の前記コードベクトルのうち1つを発生するための前記インデックスに応答する遷移モードデバイス。
  2. 前記遷移モードのコードブックが、過去の励振から独立した固定コードブックを備える請求項1に記載の遷移モードデバイス。
  3. 前記予測型の音響信号コーデックがデコーダを備え、それによって、作動中、前記遷移フレームおよび/または前記遷移に後続する前記フレームの中で、前記適応コードブック励振を前記遷移モード励振で置き換えることが、フレーム消去の場合に前記デコーダでのエラー伝播を低減し、かつ/または、符号化効率を向上する請求項1に記載の遷移モードデバイス。
  4. 前記遷移モードのコードブックが声門インパルス形状のコードブックを備える請求項1に記載の遷移モードデバイス。
  5. 前記音響信号が音声信号を含み、前記遷移フレームが、有声オンセットを含むフレームと2つの異なる有声音の間の遷移を含むフレームからなるグループから選択される請求項1に記載の遷移モードデバイス。
  6. 前記遷移フレームおよび/または前記遷移に後続する前記フレームが、いくつかのフレームが後続する遷移フレームを備える請求項1に記載の遷移モードデバイス。
  7. 前記遷移フレームおよび前記遷移フレームに後続する前記いくつかのフレームが、連続したフレームである請求項6に記載の遷移モードデバイス。
  8. 前記遷移フレームおよび/または前記遷移に後続する前記フレームが、前記遷移に後続する少なくとも1つのフレームを備える請求項1に記載の遷移モードデバイス。
  9. 前記予測型コーデックがCELP型コーデックであり、前記遷移モードのコードブックが、前記遷移フレームおよび/または前記遷移に後続する前記フレームの中で前記CELP型コーデックの適応コードブックに取って代わる請求項1に記載の遷移モードデバイス。
  10. 前記遷移フレームおよび/または前記遷移に後続する前記フレームのそれぞれが複数のサブフレームを備え、前記遷移モードのコードブックが前記サブフレームの第1の部分で用いられ、前記予測型コーデックの予測型コードブックが前記サブフレームの第2の部分で用いられる請求項1に記載の遷移モードデバイス。
  11. 前記コードブックが、前記コードベクトルの特定の位置に配置された声門インパルスの形状で構成されたコードベクトルを含む声門形状のコードブックを備える請求項1に記載の遷移モードデバイス。
  12. 前記声門形状のコードブックが、所定数の声門インパルスの様々な形状を含み、声門インパルスの各形状が、前記コードベクトルの複数の様々な位置に配置されて前記声門形状のコードブックの複数の様々なコードベクトルを形成する請求項11に記載の遷移モードデバイス。
  13. 前記声門形状のコードブックが、非ゼロ要素を1つだけ含むコードベクトルの発生器および非ゼロ要素を1つだけ含む前記コードベクトルを処理するための成形フィルタを備えて、様々な位置に中心がある声門インパルス形状を表すコードベクトルを生成する請求項11に記載の遷移モードデバイス。
  14. 前記予測型の音響信号コーデックが、様々な位置に中心がある声門インパルス形状を表す、前記成形フィルタからの前記コードベクトルを処理するための重み付き合成フィルタを備えたエンコーダを備える請求項13に記載の遷移モードデバイス。
  15. 前記遷移フレームおよび/または前記遷移に後続する前記フレームのそれぞれが複数のサブフレームを備え、前記声門形状のコードブックが、1つのサブフレームにつき複数の声門インパルスがあるときピッチ周期が経過した後に前記声門インパルス形状を繰り返すために、前記成形フィルタの下流に配置された反復フィルタをさらに備える請求項13に記載の遷移モードデバイス。
  16. 前記声門形状のインパルスが、最初と最後のサンプルを含み、前記最初と最後のサンプルの所定数が切り詰められる請求項11に記載の遷移モードデバイス。
  17. 様々な位置に中心がある声門インパルス形状を表す前記コードベクトルに利得を適用するための増幅器をさらに備える請求項13に記載の遷移モードデバイス。
  18. 音響信号中の遷移フレームおよび/または遷移に後続するフレームでの適応コードブック励振を置き換える遷移モード励振を発生するためのエンコーダデバイスであって、
    コードブック検索の目標信号の発生器と、
    過去の励振から独立した1組のコードベクトルを発生するための遷移モードのコードブックと、
    前記コードブック検索の目標信号に最適に対応する遷移モード励振に対応する前記組の前記コードベクトルを見つけるための前記遷移モードのコードブックの検索器と
    を備え、前記組の前記コードベクトルのそれぞれは、それぞれの遷移モード励振に対応するエンコーダデバイス。
  19. 前記遷移モードのコードブックが、過去の励振から独立した固定コードブックを備える請求項18に記載のエンコーダデバイス。
  20. 前記遷移モードのコードブックが、声門インパルス形状のコードブックを備える請求項18に記載のエンコーダデバイス。
  21. 前記検索器が、前記声門インパルス形状のコードブックのすべての声門インパルス形状に対して所与の基準を適用して、前記基準の最大値に対応する前記組の前記コードベクトルを、前記適応コードブック検索の目標信号に最適に対応する前記コードベクトルとして見つける請求項20に記載のエンコーダデバイス。
  22. 前記検索器が、遷移モードの構成の識別と、声門インパルス形状と、前記見つかったコードベクトル中の前記声門インパルス形状の中心の位置と、遷移モード利得と、前記遷移モード利得の符号と、閉ループピッチ周期とからなるグループから選択された遷移モードパラメータによって前記見つかったコードベクトルを識別する請求項21に記載のエンコーダデバイス。
  23. 前記音響信号が音声信号を含み、前記遷移フレームが、有声オンセットを含むフレームと2つの異なる有声音の間の遷移を含むフレームからなるグループから選択される請求項18に記載のエンコーダデバイス。
  24. 前記遷移フレームおよび/または前記遷移に後続する前記フレームが、いくつかのフレームが後続する遷移フレームを備える請求項18に記載のエンコーダデバイス。
  25. 前記遷移フレームおよび前記遷移フレームに後続する前記いくつかのフレームが、連続したフレームである請求項24に記載のエンコーダデバイス。
  26. 前記遷移フレームおよび/または前記遷移に後続する前記フレームが、前記遷移に後続する少なくとも1つのフレームを備える請求項18に記載のエンコーダデバイス。
  27. 前記遷移フレームおよび/または前記遷移に後続する前記フレームのそれぞれが複数のサブフレームを備え、前記検索器が、前記サブフレームの第1の部分で前記遷移モードのコードブックを検索し、前記サブフレームの第2の部分で前記エンコーダデバイスの予測型コードブックを検索する請求項18に記載のエンコーダデバイス。
  28. 前記遷移モードのコードブックが、前記コードベクトルの特定の位置に配置された声門インパルスの形状で構成されたコードベクトルを含む声門形状のコードブックを備える請求項18に記載のエンコーダデバイス。
  29. 前記声門形状のコードブックが、所定数の声門インパルスの様々な形状を含み、声門インパルスの各形状が、前記コードベクトルの複数の様々な位置に配置されて前記声門形状のコードブックの複数の様々なコードベクトルを形成する請求項28に記載のエンコーダデバイス。
  30. 前記声門形状のコードブックが、非ゼロ要素を1つだけ含むコードベクトルの発生器および非ゼロ要素を1つだけ含む前記コードベクトルを処理するための成形フィルタを備えて、様々な位置に中心がある声門インパルス形状を表すコードベクトルを生成する請求項28に記載のエンコーダデバイス。
  31. 様々な位置に中心がある声門インパルス形状を表す、前記成形フィルタからの前記コードベクトルを処理するための重み付き合成フィルタを備える請求項30に記載のエンコーダデバイス。
  32. 前記遷移フレームおよび/または前記遷移に後続する前記フレームのそれぞれが複数のサブフレームを備え、前記声門形状のコードブックが、1つのサブフレームにつき複数の声門インパルスがあるときピッチ周期が経過した後に前記声門インパルス形状を繰り返すために、前記成形フィルタの下流に配置された反復フィルタをさらに備える請求項30に記載のエンコーダデバイス。
  33. 前記声門形状のインパルスが、最初と最後のサンプルを含み、前記最初と最後のサンプルの所定数が切り詰められる請求項28に記載のエンコーダデバイス。
  34. 様々な位置に中心がある声門インパルス形状を表す前記コードベクトルに利得を適用するための増幅器をさらに備える請求項31に記載のエンコーダデバイス。
  35. 革新コードブック検索の目標信号の発生器と、
    それぞれが、それぞれの革新励振に対応する1組の革新コードベクトルを発生するための革新コードブックと、
    前記革新コードブック検索の目標信号に最適に対応する革新励振に対応する前記組の前記革新コードベクトルを見つけるための前記革新コードブックの検索器と、
    音響信号合成フィルタ向けの全体的な励振を生成するための、前記遷移モード励振と前記革新励振の加算器とをさらに備える請求項18に記載のエンコーダデバイス。
  36. 前記遷移フレームおよび/または前記遷移に後続する前記フレームのそれぞれが複数のサブフレームを備え、1つまたは複数の声門インパルスが前記サブフレーム中のどこに配置されているかに応じて、前記エンコーダデバイスが、前記遷移モードのコードブック、前記適応コードブックおよび前記革新コードブックの少なくとも1つを用いて前記サブフレームを符号化するための手段を備える請求項35に記載のエンコーダデバイス。
  37. 音響信号中の遷移フレームおよび/または遷移に後続するフレームでの適応コードブック励振を置き換える遷移モード励振を発生するためのデコーダデバイスであって、
    コードブックのインデックスを受け取るための入力端と、
    過去の励振から独立した1組のコードベクトルを発生するための遷移モードのコードブックと
    を備え、前記遷移モードのコードブックは、前記遷移フレームおよび/または前記遷移に後続するフレーム中に前記遷移モード励振に対応する前記組の前記コードベクトルのうち1つを発生するための前記インデックスに応答するデコーダデバイス。
  38. 前記遷移モードのコードブックが、過去の励振から独立した固定コードブックを備える請求項37に記載のデコーダデバイス。
  39. 前記遷移フレームおよび/または前記遷移に後続する前記フレームの中で、前記適応コードブック励振を前記遷移モード励振で置き換えることが、フレーム消去の場合に前記デコーダデバイスにおけるエラー伝播を低減し、かつ/または、符号化効率を改善する請求項37に記載のデコーダデバイス。
  40. 前記遷移モードのコードブックが、声門インパルス形状のコードブックを備える請求項37に記載のデコーダデバイス。
  41. 前記音響信号が音声信号を含み、前記遷移フレームが、有声オンセットを含むフレームと2つの異なる有声音の間の遷移を含むフレームからなるグループから選択される請求項37に記載のデコーダデバイス。
  42. 前記遷移フレームおよび/または前記遷移に後続する前記フレームのそれぞれが複数のサブフレームを備え、前記遷移モードのコードブックが前記サブフレームの第1の部分で用いられるデコーダデバイスであって、前記サブフレームの第2の部分で用いられる予測型コードブックを備える請求項37に記載のデコーダデバイス。
  43. 前記遷移モードのコードブックが、前記コードベクトルの特定の位置に配置された声門インパルスの形状で構成されたコードベクトルを含む声門形状のコードブックを備える請求項37に記載のデコーダデバイス。
  44. 前記声門形状のコードブックが、所定数の声門インパルスの様々な形状を含み、声門インパルスの各形状が、前記コードベクトルの複数の様々な位置に配置されて前記声門形状のコードブックの複数の様々なコードベクトルを形成する請求項43に記載のデコーダデバイス。
  45. 前記声門形状のコードブックが、非ゼロ要素を1つだけ含むコードベクトルの発生器および非ゼロ要素を1つだけ含む前記コードベクトルを処理するための成形フィルタを備えて、様々な位置に中心がある声門インパルス形状を表すコードベクトルを生成する請求項43に記載のデコーダデバイス。
  46. 様々な位置に中心がある声門インパルス形状を表す前記コードベクトルに利得を適用するための増幅器をさらに備える請求項45に記載のデコーダデバイス。
  47. 革新コードブックのインデックスを受け取るための入力端と、
    1組の革新コードベクトルを発生するための革新コードブックと、
    音響信号合成フィルタ向けの全体的な励振を生成するための、前記遷移モード励振と前記革新励振の加算器とをさらに備え、
    前記革新コードブックは、前記遷移フレームおよび/または前記遷移に後続するフレーム中に、革新励振に対応する前記組の前記革新コードベクトルのうち1つを発生するための前記革新コードブックのインデックスに応答する請求項37に記載のデコーダデバイス。
  48. 音響信号中の遷移フレームおよび/または遷移に後続するフレームでの適応コードブック励振を置き換える遷移モード励振を生成するための予測型の音響信号コーデックで用いられる遷移モードの方法であって、
    過去の励振から独立した1組のコードベクトルを発生するための遷移モードのコードブックをもたらすステップと、
    前記遷移モードのコードブックにコードブックのインデックスを供給するステップと、
    前記遷移モードのコードブックを用いて、前記コードブックのインデックスに応じて、前記遷移モード励振に対応する前記組の前記コードベクトルのうちの1つを発生するステップとを含む遷移モードの方法。
  49. 前記遷移モードのコードブックが、過去の励振から独立した固定コードブックを備える請求項48に記載の遷移モードの方法。
  50. 前記予測型の音響信号コーデックがデコーダを備え、それによって、作動中、前記遷移フレームおよび/または前記遷移に後続する前記フレームの中で、前記適応コードブック励振を前記遷移モード励振で置き換えることが、フレーム消去の場合に前記デコーダでのエラー伝播を低減し、かつ/または、符号化効率を向上する請求項48に記載の遷移モードの方法。
  51. 前記遷移モードのコードブックが声門インパルス形状のコードブックを備える請求項48に記載の遷移モードの方法。
  52. 前記音響信号が音声信号を含む遷移モードの方法であって、有声オンセットを含むフレームと2つの異なる有声音の間の遷移を含むフレームからなるグループから前記遷移フレームを選択するステップを含む請求項48に記載の遷移モードの方法。
  53. 前記遷移フレームおよび/または前記遷移に後続する前記フレームが、いくつかのフレームが後続する遷移フレームを備える請求項48に記載の遷移モードの方法。
  54. 前記遷移フレームおよび前記遷移フレームに後続する前記いくつかのフレームが、連続したフレームである請求項53に記載の遷移モードの方法。
  55. 前記遷移フレームおよび/または前記遷移に後続する前記フレームが、前記遷移に後続する少なくとも1つのフレームを備える請求項48に記載の遷移モードの方法。
  56. 前記予測型コーデックがCELP型コーデックである遷移モードの方法であって、前記遷移フレームおよび/または前記遷移に後続する前記フレームの中で前記CELP型コーデックの適応コードブックを前記遷移モードのコードブックで置き換えるステップを含む請求項48に記載の遷移モードの方法。
  57. 前記遷移フレームおよび/または前記遷移に後続する前記フレームのそれぞれが複数のサブフレームを備える遷移モードの方法であって、前記サブフレームの第1の部分で前記遷移モードのコードブックを用い、かつ前記サブフレームの第2の部分で前記予測型コーデックの予測型コードブックを用いるステップを含む請求項48に記載の遷移モードの方法。
  58. 遷移モードのコードブックをもたらすステップが、前記コードベクトルの特定の位置に配置された声門インパルスの形状で構成されたコードベクトルを含む声門形状のコードブックをもたらすステップを含む請求項48に記載の遷移モードの方法。
  59. 声門形状のコードブックをもたらすステップが、所定数の声門インパルスの様々な形状を含む声門形状のコードブックをもたらすステップと、前記コードベクトル中の複数の様々な位置に声門インパルスの各形状を配置することにより、前記声門形状のコードブックの中に複数の様々なコードベクトルを形成するステップとを含む請求項58に記載の遷移モードの方法。
  60. 前記声門形状のコードブックの中に、非ゼロ要素を1つだけ含むコードベクトルを発生するステップと、成形フィルタによって非ゼロ要素を1つだけ含む前記コードベクトルを処理して様々な位置に中心がある声門インパルス形状を表すコードベクトルを生成するステップとを含む請求項58に記載の遷移モードの方法。
  61. 前記予測型の音響信号コーデックが重み付き合成フィルタを備えるエンコーダを備え、前記方法が、前記重み付き合成フィルタによって、様々な位置に中心がある声門インパルス形状を表す、前記成形フィルタからの前記コードベクトルを処理するステップをさらに含む請求項60に記載の遷移モードの方法。
  62. 前記遷移フレームおよび/または前記遷移に後続する前記フレームのそれぞれが複数のサブフレームを備え、前記コードベクトルのうちの1つを発生するステップが、1つのサブフレームにつき複数の声門インパルスがあるとき、ピッチ周期が経過した後に前記声門インパルス形状を繰り返すステップを含む請求項60に記載の遷移モードの方法。
  63. 前記声門形状のインパルスが最初と最後のサンプルを含む遷移モードの方法であって、前記最初と最後のサンプルの所定数を切り詰めるステップを含む請求項58に記載の遷移モードの方法。
  64. 様々な位置に中心がある声門インパルス形状を表す前記コードベクトルに利得を適用するステップをさらに含む請求項60に記載の遷移モードの方法。
  65. 音響信号中の遷移フレームおよび/または遷移に後続するフレームでの適応コードブック励振を置き換える遷移モード励振を発生するための符号化の方法であって、
    コードブック検索の目標信号を発生するステップと、
    過去の励振から独立した1組のコードベクトルを発生するための遷移モードのコードブックをもたらすステップと、
    前記コードブック検索の目標信号に最適に対応する遷移モード励振に対応する前記組の前記コードベクトルを見つけるために前記遷移モードのコードブックを検索するステップと
    を含み、前記組の前記コードベクトルは、それぞれの遷移モード励振にそれぞれ対応する符号化の方法。
  66. 遷移モードのコードブックをもたらすステップが、過去の励振から独立した固定コードブックをもたらすステップを含む請求項65に記載の符号化の方法。
  67. 遷移モードのコードブックをもたらすステップが、声門インパルス形状のコードブックをもたらすステップを含む請求項65に記載の符号化の方法。
  68. 前記遷移モードのコードブックを検索するステップが、前記声門インパルス形状のコードブックのすべての声門インパルス形状に対して所与の基準を適用して、前記基準の最大値に対応する前記組の前記コードベクトルを、前記適応コードブック検索の目標信号に最適に対応する前記コードベクトルとして見つけるステップを含む請求項67に記載の符号化の方法。
  69. 前記遷移モードのコードブックを検索するステップが、遷移モードの構成の識別と、声門インパルス形状と、前記見つかったコードベクトル中の前記声門インパルス形状の中心の位置と、遷移モード利得と、前記遷移モード利得の符号と、閉ループピッチ周期とからなるグループから選択された遷移モードパラメータによって前記見つかったコードベクトルを識別するステップを含む請求項68に記載の符号化の方法。
  70. 前記音響信号が音声信号を含む符号化の方法であって、有声オンセットを含むフレームと2つの異なる有声音の間の遷移を含むフレームからなるグループから前記遷移フレームを選択するステップをさらに含む請求項65に記載の符号化の方法。
  71. 前記遷移フレームおよび/または前記遷移に後続する前記フレームが、いくつかのフレームが後続する遷移フレームを備える請求項65に記載の符号化の方法。
  72. 前記遷移フレームおよび前記遷移フレームに後続する前記いくつかのフレームが、連続したフレームである請求項71に記載の符号化の方法。
  73. 前記遷移フレームおよび/または前記遷移に後続する前記フレームが、前記遷移に後続する少なくとも1つのフレームを備える請求項65に記載の符号化の方法。
  74. 前記遷移フレームおよび/または前記遷移に後続する前記フレームのそれぞれが複数のサブフレームを備え、前記遷移モードのコードブックを検索するステップが、前記サブフレームの第1の部分で前記遷移モードのコードブックを検索するステップと、前記サブフレームの第2の部分で前記エンコーダデバイスの予測型コードブックを検索するステップとを含む請求項65に記載の符号化の方法。
  75. 遷移モードのコードブックをもたらすステップが、前記コードベクトルの特定の位置に配置された声門インパルスの形状で構成されたコードベクトルを含む声門形状のコードブックをもたらすステップを含む請求項65に記載の符号化の方法。
  76. 声門形状のコードブックをもたらすステップが、所定数の声門インパルスの様々な形状を含む声門形状のコードブックをもたらすステップと、前記コードベクトル中の複数の様々な位置に声門インパルスの各形状を配置することにより、前記声門形状のコードブックの複数の様々なコードベクトルを形成するステップとを含む請求項75に記載の符号化の方法。
  77. 前記声門形状のコードブックの中に過去の励振から独立した1組のコードベクトルを発生するステップが、非ゼロ要素を1つだけ含むコードベクトルを発生するステップと、成形フィルタによって非ゼロ要素を1つだけ含む前記コードベクトルを処理して様々な位置に中心がある声門インパルス形状を表すコードベクトルを生成するステップとを含む請求項75に記載の符号化の方法。
  78. 重み付き合成フィルタによって、様々な位置に中心がある声門インパルス形状を表す、前記成形フィルタからの前記コードベクトルを処理するステップを含む請求項77に記載の符号化の方法。
  79. 前記遷移フレームおよび/または前記遷移に後続する前記フレームのそれぞれが複数のサブフレームを備える符号化の方法であって、1つのサブフレームにつき複数の声門インパルスがあるとき、ピッチ周期が経過した後に前記声門インパルス形状を繰り返すステップをさらに含む請求項77に記載の符号化の方法。
  80. 前記声門形状のインパルスが最初と最後のサンプルを含む符号化の方法であって、前記最初と最後のサンプルの所定数を切り詰めるステップを含む請求項75に記載の符号化の方法。
  81. 様々な位置に中心がある声門インパルス形状を表す前記コードベクトルに利得を適用するステップをさらに含む請求項78に記載の符号化の方法。
  82. 革新コードブック検索の目標信号を発生するステップと、
    それぞれが、それぞれの革新励振に対応する1組の革新コードベクトルを発生するための革新コードブックをもたらすステップと、
    前記革新コードブック検索の目標信号に最適に対応する革新励振に対応する前記組の前記革新コードベクトルを見つけるために前記革新コードブックを検索するステップと、
    前記遷移モード励振と前記革新励振を加算して音響信号合成フィルタ向けの全体的な励振を生成するステップとをさらに含む請求項65に記載の符号化の方法。
  83. 前記遷移フレームおよび/または前記遷移に後続する前記フレームのそれぞれが複数のサブフレームを備える符号化の方法であって、1つまたは複数の前記声門インパルスが前記サブフレーム中のどこにあるかに応じて、前記遷移モードのコードブック、前記適応コードブックおよび前記革新コードブックの少なくとも1つを用いて前記サブフレームを符号化するステップを含む請求項82に記載の符号化の方法。
  84. 音響信号中の遷移フレームおよび/または遷移に後続するフレームでの適応コードブック励振を置き換える遷移モード励振を発生するための復号化の方法であって、
    コードブックのインデックスを受け取るステップと、
    過去の励振から独立した1組のコードベクトルを発生するための遷移モードのコードブックに対して前記コードブックのインデックスを供給するステップと、
    前記遷移モードのコードブックを用いて、前記コードブックのインデックスに応じて、前記遷移モード励振に対応する前記組の前記コードベクトルのうちの1つを発生するステップとを含む復号化の方法。
  85. 前記遷移モードのコードブックが過去の励振から独立した固定コードブックを備える請求項84に記載の復号化の方法。
  86. 前記遷移フレームおよび/または前記遷移に後続する前記フレームの中で前記適応コードブック励振を前記遷移モード励振で置き換えるステップが、フレーム消去の場合にデコーダデバイスにおけるエラー伝播を低減し、かつ/または、符号化効率を改善する請求項84に記載の復号化の方法。
  87. 前記遷移モードのコードブックとして声門インパルス形状のコードブックをもたらすステップを含む請求項84に記載の復号化の方法。
  88. 前記音響信号が音声信号を含む復号化の方法であって、有声オンセットを含むフレームと2つの異なる有声音の間の遷移を含むフレームからなるグループから前記遷移フレームを選択するステップを含む請求項84に記載の復号化の方法。
  89. 前記遷移フレームおよび/または前記遷移に後続する前記フレームのそれぞれが複数のサブフレームを備える復号化の方法であって、前記サブフレームの第1の部分で前記遷移モードのコードブックを用い、かつ前記サブフレームの第2の部分で予測型コードブックを用いるステップを含む請求項84に記載の復号化の方法。
  90. 前記遷移モードのコードブックとして、前記コードベクトルの特定の位置に配置された声門インパルスの形状で構成されたコードベクトルを含む声門形状のコードブックをもたらすステップを含む請求項84に記載の復号化の方法。
  91. 前記声門形状のコードブックが、所定数の声門インパルスの様々な形状を含む復号化の方法であって、前記コードベクトル中の複数の様々な位置に声門インパルスの各形状を配置することにより、前記声門形状のコードブックの複数の様々なコードベクトルを形成するステップを含む請求項90に記載の復号化の方法。
  92. 前記組のコードベクトルが、前記声門形状のコードブックにより、非ゼロ要素を1つだけ含むコードベクトルを発生するステップと、成形フィルタによって非ゼロ要素を1つだけ含む前記コードベクトルを処理して様々な位置に中心がある声門インパルス形状を表すコードベクトルを生成するステップとによって発生される請求項90に記載の復号化の方法。
  93. 様々な位置に中心がある声門インパルス形状を表す前記コードベクトルに利得を適用するステップをさらに含む請求項92に記載の復号化の方法。
  94. 1組の革新コードベクトルを発生するための革新コードブックをもたらすステップと、
    前記革新コードブックに革新コードブックのインデックスを供給するステップと、
    前記革新コードブックを用いて、前記革新コードブックのインデックスに応じて、革新励振に対応する前記組の前記革新コードベクトルのうちの1つを発生するステップと、
    前記遷移モード励振と前記革新励振を加算して音響信号合成フィルタ向けの全体的な励振を生成するステップとをさらに含む請求項84に記載の復号化の方法。
JP2009533622A 2006-10-24 2007-10-24 音声信号中の遷移フレームの符号化のための方法およびデバイス Active JP5166425B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US85374906P 2006-10-24 2006-10-24
US60/853,749 2006-10-24
PCT/CA2007/001896 WO2008049221A1 (en) 2006-10-24 2007-10-24 Method and device for coding transition frames in speech signals

Publications (2)

Publication Number Publication Date
JP2010507818A true JP2010507818A (ja) 2010-03-11
JP5166425B2 JP5166425B2 (ja) 2013-03-21

Family

ID=39324068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009533622A Active JP5166425B2 (ja) 2006-10-24 2007-10-24 音声信号中の遷移フレームの符号化のための方法およびデバイス

Country Status (16)

Country Link
US (1) US8401843B2 (ja)
EP (1) EP2102619B1 (ja)
JP (1) JP5166425B2 (ja)
KR (1) KR101406113B1 (ja)
CN (1) CN101578508B (ja)
BR (1) BRPI0718300B1 (ja)
CA (1) CA2666546C (ja)
DK (1) DK2102619T3 (ja)
ES (1) ES2624718T3 (ja)
HK (1) HK1132324A1 (ja)
MX (1) MX2009004427A (ja)
MY (1) MY152845A (ja)
NO (1) NO341585B1 (ja)
PT (1) PT2102619T (ja)
RU (1) RU2462769C2 (ja)
WO (1) WO2008049221A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010204391A (ja) * 2009-03-03 2010-09-16 Nippon Telegr & Teleph Corp <Ntt> 音声信号モデル化方法、信号認識装置及び方法、パラメータ学習装置及び方法、特徴量生成装置及び方法並びにプログラム
JP2012507751A (ja) * 2008-10-30 2012-03-29 クゥアルコム・インコーポレイテッド 低ビットレート適用例のための遷移音声フレームのコーディング
JP2012507752A (ja) * 2008-10-30 2012-03-29 クゥアルコム・インコーポレイテッド 低ビットレート適用例のためのコーディングスキーム選択
WO2014077254A1 (ja) 2012-11-15 2014-05-22 株式会社Nttドコモ 音声符号化装置、音声符号化方法、音声符号化プログラム、音声復号装置、音声復号方法及び音声復号プログラム
JP2020534582A (ja) * 2017-09-20 2020-11-26 ヴォイスエイジ・コーポレーション Celpコーデックにおいてサブフレーム間にビット配分を割り振るための方法およびデバイス

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5302190B2 (ja) * 2007-05-24 2013-10-02 パナソニック株式会社 オーディオ復号装置、オーディオ復号方法、プログラム及び集積回路
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
JP5314771B2 (ja) * 2010-01-08 2013-10-16 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラムおよび記録媒体
US9626982B2 (en) * 2011-02-15 2017-04-18 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
NO2669468T3 (ja) * 2011-05-11 2018-06-02
US9972325B2 (en) 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
FR3001593A1 (fr) * 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
TR201910989T4 (tr) * 2013-03-04 2019-08-21 Voiceage Evs Llc Bir zaman-bölgesi kod çözücüsünde nicemleme gürültüsünün azaltılmasına yönelik cihaz ve yöntem.
CN105247614B (zh) * 2013-04-05 2019-04-05 杜比国际公司 音频编码器和解码器
EP4375993A3 (en) 2013-06-21 2024-08-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation
AU2014283389B2 (en) 2013-06-21 2017-10-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse resynchronization
CN108364657B (zh) 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
US10614816B2 (en) * 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
CN104637486B (zh) * 2013-11-07 2017-12-29 华为技术有限公司 一种数据帧的内插方法及装置
CN103680509B (zh) * 2013-12-16 2016-04-06 重庆邮电大学 一种语音信号非连续传输及背景噪声生成方法
RU2677453C2 (ru) * 2014-04-17 2019-01-16 Войсэйдж Корпорейшн Способы, кодер и декодер для линейного прогнозирующего кодирования и декодирования звуковых сигналов после перехода между кадрами, имеющими различные частоты дискретизации
CN110444217B (zh) * 2014-05-01 2022-10-21 日本电信电话株式会社 解码装置、解码方法、记录介质
CN106683681B (zh) * 2014-06-25 2020-09-25 华为技术有限公司 处理丢失帧的方法和装置
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
RU2670377C2 (ru) 2014-08-28 2018-10-22 Нокиа Текнолоджиз Ой Квантование аудиопараметров
US9916835B2 (en) * 2015-01-22 2018-03-13 Sennheiser Electronic Gmbh & Co. Kg Digital wireless audio transmission system
US10157441B2 (en) * 2016-12-27 2018-12-18 Automotive Research & Testing Center Hierarchical system for detecting object with parallel architecture and hierarchical method thereof
JP7178506B2 (ja) * 2019-02-21 2022-11-25 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 位相ecu f0補間スプリットのための方法および関係するコントローラ
CA3136477A1 (en) 2019-05-07 2020-11-12 Voiceage Corporation Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack
CN111123305B (zh) * 2019-12-12 2023-08-22 秦然 一种gnss记录回放测试仪图形化噪声系数优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US20040148162A1 (en) * 2001-05-18 2004-07-29 Tim Fingscheidt Method for encoding and transmitting voice signals

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US549555A (en) * 1895-11-12 white
JP2707564B2 (ja) * 1987-12-14 1998-01-28 株式会社日立製作所 音声符号化方式
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
CA2108623A1 (en) * 1992-11-02 1994-05-03 Yi-Sheng Wang Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop
EP1355298B1 (en) 1993-06-10 2007-02-21 Oki Electric Industry Company, Limited Code Excitation linear prediction encoder and decoder
DE69836624T2 (de) 1997-10-22 2007-04-05 Matsushita Electric Industrial Co., Ltd., Kadoma Audiokodierer und -dekodierer
IL136722A0 (en) * 1997-12-24 2001-06-14 Mitsubishi Electric Corp A method for speech coding, method for speech decoding and their apparatuses
US6385576B2 (en) 1997-12-24 2002-05-07 Kabushiki Kaisha Toshiba Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6192335B1 (en) * 1998-09-01 2001-02-20 Telefonaktieboiaget Lm Ericsson (Publ) Adaptive combining of multi-mode coding for voiced speech and noise-like signals
JP4008607B2 (ja) * 1999-01-22 2007-11-14 株式会社東芝 音声符号化/復号化方法
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
AU2001253752A1 (en) 2000-04-24 2001-11-07 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
DE10114561A1 (de) * 2001-03-24 2002-09-26 Wella Ag Verwendung von Mitteln enthaltend Kreatin, Kreatin und/oder deren Derivaten zur Verstärkung und Strukturverbesserung von keratinischen Fasern
WO2003096324A1 (fr) 2002-05-10 2003-11-20 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance vocale
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP4414705B2 (ja) * 2003-09-17 2010-02-10 パナソニック株式会社 音源信号符号化装置、及び音源信号符号化方法
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
GB0408856D0 (en) 2004-04-21 2004-05-26 Nokia Corp Signal encoding
WO2006009074A1 (ja) * 2004-07-20 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声復号化装置および補償フレーム生成方法
US7752039B2 (en) 2004-11-03 2010-07-06 Nokia Corporation Method and device for low bit rate speech coding

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US20040148162A1 (en) * 2001-05-18 2004-07-29 Tim Fingscheidt Method for encoding and transmitting voice signals

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
JP2012507751A (ja) * 2008-10-30 2012-03-29 クゥアルコム・インコーポレイテッド 低ビットレート適用例のための遷移音声フレームのコーディング
JP2012507752A (ja) * 2008-10-30 2012-03-29 クゥアルコム・インコーポレイテッド 低ビットレート適用例のためのコーディングスキーム選択
JP2010204391A (ja) * 2009-03-03 2010-09-16 Nippon Telegr & Teleph Corp <Ntt> 音声信号モデル化方法、信号認識装置及び方法、パラメータ学習装置及び方法、特徴量生成装置及び方法並びにプログラム
EP3579228A1 (en) 2012-11-15 2019-12-11 NTT DoCoMo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
KR20150056614A (ko) 2012-11-15 2015-05-26 가부시키가이샤 엔.티.티.도코모 음성 복호 장치, 음성 복호 방법, 음성 부호화 장치, 및 음성 부호화 방법
US9564143B2 (en) 2012-11-15 2017-02-07 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
US9881627B2 (en) 2012-11-15 2018-01-30 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
WO2014077254A1 (ja) 2012-11-15 2014-05-22 株式会社Nttドコモ 音声符号化装置、音声符号化方法、音声符号化プログラム、音声復号装置、音声復号方法及び音声復号プログラム
US10553231B2 (en) 2012-11-15 2020-02-04 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
US20200126578A1 (en) 2012-11-15 2020-04-23 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
US11176955B2 (en) 2012-11-15 2021-11-16 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
US11195538B2 (en) 2012-11-15 2021-12-07 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
US11211077B2 (en) 2012-11-15 2021-12-28 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
US11749292B2 (en) 2012-11-15 2023-09-05 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
JP2020534582A (ja) * 2017-09-20 2020-11-26 ヴォイスエイジ・コーポレーション Celpコーデックにおいてサブフレーム間にビット配分を割り振るための方法およびデバイス
JP7285830B2 (ja) 2017-09-20 2023-06-02 ヴォイスエイジ・コーポレーション Celpコーデックにおいてサブフレーム間にビット配分を割り振るための方法およびデバイス

Also Published As

Publication number Publication date
WO2008049221A1 (en) 2008-05-02
DK2102619T3 (en) 2017-05-15
JP5166425B2 (ja) 2013-03-21
RU2462769C2 (ru) 2012-09-27
MY152845A (en) 2014-11-28
PT2102619T (pt) 2017-05-25
KR20090073253A (ko) 2009-07-02
BRPI0718300A2 (pt) 2014-01-07
US20100241425A1 (en) 2010-09-23
MX2009004427A (es) 2009-06-30
EP2102619A1 (en) 2009-09-23
EP2102619B1 (en) 2017-03-22
HK1132324A1 (en) 2010-02-19
CA2666546C (en) 2016-01-19
RU2009119491A (ru) 2010-11-27
BRPI0718300B1 (pt) 2018-08-14
CA2666546A1 (en) 2008-05-02
CN101578508B (zh) 2013-07-17
US8401843B2 (en) 2013-03-19
NO20092017L (no) 2009-05-25
CN101578508A (zh) 2009-11-11
ES2624718T3 (es) 2017-07-17
EP2102619A4 (en) 2012-03-28
KR101406113B1 (ko) 2014-06-11
NO341585B1 (no) 2017-12-11

Similar Documents

Publication Publication Date Title
JP5166425B2 (ja) 音声信号中の遷移フレームの符号化のための方法およびデバイス
US8566106B2 (en) Method and device for fast algebraic codebook search in speech and audio coding
JP2971266B2 (ja) 低遅延celp符号化方法
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
JP4390803B2 (ja) 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置
EP3039676B1 (en) Adaptive bandwidth extension and apparatus for the same
JP5149198B2 (ja) 音声コーデック内の効率的なフレーム消去隠蔽の方法およびデバイス
EP1141946B1 (en) Coded enhancement feature for improved performance in coding communication signals
JP3354138B2 (ja) 音声符号化
JP6356159B2 (ja) 潜在的なフレームの不安定性を軽減するためのシステムおよび方法
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
JP2004163959A (ja) 汎用AbS音声符号化方法及びそのような方法を用いた符号化装置
CN107710324B (zh) 音频编码器和用于对音频信号进行编码的方法
US20220180884A1 (en) Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack
Eksler et al. Glottal-shape codebook to improve robustness of CELP codecs
Miki et al. Pitch synchronous innovation code excited linear prediction (PSI‐CELP)
Bae et al. On a reduction of pitch searching time by preliminary pitch in the CELP vocoder
Stegmann et al. CELP coding based on signal classification using the dyadic wavelet transform

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120627

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121220

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5166425

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250