JP5596189B2 - 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置 - Google Patents

非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置 Download PDF

Info

Publication number
JP5596189B2
JP5596189B2 JP2013022112A JP2013022112A JP5596189B2 JP 5596189 B2 JP5596189 B2 JP 5596189B2 JP 2013022112 A JP2013022112 A JP 2013022112A JP 2013022112 A JP2013022112 A JP 2013022112A JP 5596189 B2 JP5596189 B2 JP 5596189B2
Authority
JP
Japan
Prior art keywords
frame
description
encoded
frequency band
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013022112A
Other languages
English (en)
Other versions
JP2013137557A (ja
Inventor
ビベク・ラジェンドラン
アナンサパドマナブハン・エー.・カンドハダイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2013137557A publication Critical patent/JP2013137557A/ja
Application granted granted Critical
Publication of JP5596189B2 publication Critical patent/JP5596189B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本開示は、音声信号の処理に関するものである。
デジタル技術による音声伝送は、特に長距離電話、ボイスオーバーアイピー(VoIPとも呼ばれ、IPはインターネットプロトコルの略である)などのパケット交換電話、および携帯電話などのデジタル無線電話において広く使用されるようになった。こうして普及したが、再現される音声の知覚品質を維持しつつ、伝送路で音声通信を転送するために使用される情報の量を削減することに対する関心が高まってきた。
人間の音声生成のモデルに関係するパラメータを抽出することにより音声を圧縮するように構成されたデバイスは、「音声コーダ」と呼ばれる。音声コーダは、一般に、符号器と復号器とを含む。符号器は、典型的には、入力音声信号(音声情報を表すデジタル信号)を「フレーム」と呼ばれる複数の時間セグメントに分割し、それぞれのフレームを分析して特定の関連するパラメータを抽出し、それらのパラメータを量子化して1つの符号化フレームにする。これらの符号化フレームは、伝送路(つまり、有線もしくは無線ネットワーク接続)を介して復号器を備える受信機に送信される。復号器は、符号化フレームを受け取って、処理し、それらを逆量子化して、パラメータを生成し、その逆量子化されたパラメータを使用して音声フレームを再形成する。
一般的な会話では、話し手はそれぞれ、会話時間の約60%の間沈黙している。音声符号器は、通常、音声(「アクティブフレーム」)を含む音声信号のフレームと、無音または暗騒音(「非アクティブフレーム」)のみを含む音声信号のフレームとを区別するように構成される。このような符号器は、異なる符号化モードおよび/または符号化レートを使用して、アクティブフレームと非アクティブフレームとを符号化するように構成されうる。例えば、音声符号器は、典型的には、アクティブフレームを符号化する場合と比べて少ないビットで非アクティブフレームを符号化するように構成されている。音声コーダは、非アクティブフレームに対し低いビットレートを使用することで、知覚される品質低下をほとんど、またはまったく引き起こすことなく低い平均ビットレートで音声信号を転送する方式に対応できる。
図1は、アクティブフレームと非アクティブフレームとの間の遷移を含む音声信号の一領域を符号化した結果を例示している。図中のそれぞれのバーは、対応するフレームを示しており、そのバーの高さはフレームが符号化されるときのビットレートを示し、横軸は時間を示す。この場合、アクティブフレームは、高いビットレートrHで符号化され、非アクティブフレームは、低いビットレートrLで符号化される。
ビットレートrHの実施例は、1フレーム当たり171ビット、1フレーム当たり80ビット、1フレーム当たり40ビットを含み、ビットレートrLの実施例は、1フレーム当たり16ビットを含む。携帯電話システム(特に、バージニア州アーリントン所在のTelecommunications Industry Associationにより公表されているInterim Standard(IS)−95、または類似の工業規格に準拠するシステム)の場合、これら4つのビットレートは、それぞれ「フルレート」、「ハーフレート」、「四分の一レート」、および「八分の一レート」とも呼ばれる。図1に示されている結果の特定の一実施例では、ビットレートrHはフルレートであり、ビットレートrLは八分の一レートである。
公衆交換電話網(PSTN)による音声通信は、従来、帯域幅を300〜3400キロヘルツ(kHz)の周波数範囲に制限されていた。携帯電話および/またはVoIPを使用するネットワークなどの音声通信のための最近のネットワークは、同じ帯域幅限界を有しているとは限らず、このようなネットワークを使用する装置は広帯域の周波数範囲を含む音声通信の送受信を行う能力を有していることが望ましいと思われる。例えば、このような装置は、下は50Hzまで、および/または上は7または8kHzまでの音声周波数範囲に対応できることが望ましいであろう。また、このような装置は、従来のPSTNの限界を外れた範囲にある音声コンテンツを含みうる、高品質オーディオまたはオーディオ/ビデオ会議、音楽および/またはテレビなどのマルチメディアサービスの提供などの他の用途にも対応できることが望ましいと考えられる。
音声コーダで対応できる範囲をより高い周波数にまで拡大すると、明瞭度を改善できる。例えば、「s」や「f」などの摩擦音を区別する音声信号中の情報は、もっぱら高い周波数にある。また、高帯域まで拡大できれば、存在感などの復号化された音声信号の他の音声品質も改善できる。例えば、有声母音であっても、PSTN周波数範囲をはるかに超えるスペクトルエネルギーを有する場合がある。
音声コーダが広帯域周波数範囲に対応できることが望ましいであろうが、伝送路で音声通信を転送するために使用される情報の量を制限することも望ましい。音声コーダは、例えば、音声信号の全部ではない非アクティブフレームに対し記述が送信されるように、不連続伝送(DTX)を実行するように構成されうる。
構成に従って音声信号のフレームを符号化する方法は、音声信号の第1のフレームに基づく、pをゼロでない正の整数とするpビットの長さを有する、第1の符号化フレームを生成することと、音声信号の第2のフレームに基づく、qをpと異なるゼロでない正の整数とするqビットの長さを有する、第2の符号化フレームを生成することと、音声信号の第3のフレームに基づく、rをqよりも小さいゼロでない正の整数とするrビットの長さを有する、第3の符号化フレームを生成することとを含む。この方法では、第2のフレームは、音声信号内の第1のフレームの後に続く非アクティブフレームであり、第3のフレームは、音声信号内の第2のフレームの後に続く非アクティブフレームであり、第1のフレームと第3のフレームとの間の音声信号のフレームはすべて、非アクティブである。
他の構成に従って音声信号のフレームを符号化する方法は、音声信号の第1のフレームに基づく、qをゼロでない正の整数とするqビットの長さを有する、第1の符号化フレームを生成することを含む。この方法は、さらに、音声信号の第2のフレームに基づく、rをqよりも小さいゼロでない正の整数とするrビットの長さを有する、第2の符号化フレームを生成することとを含む。この方法において、第1および第2のフレームは、非アクティブフレームである。この方法では、第1の符号化フレームは、(A)第1のフレームを含む音声信号の一部の、第1の周波数帯域上のスペクトル包絡線の記述および(B)第1のフレームを含む音声信号の一部の、第1の周波数帯域と異なる第2の周波数帯域上の、スペクトル包絡線の記述を含み、第2の符号化フレームは(A)第2のフレームを含む音声信号の一部の、第1の周波数帯域上の、スペクトル包絡線の記述を含み、(B)第2の周波数帯域上のスペクトル包絡線の記述を含まない。このような演算を実行するための手段も、明示的に考えられ、本明細書で開示される。少なくとも1つのコンピュータにそのような演算を実行させるコードを格納しているコンピュータ可読媒体を備えるコンピュータプログラム製品も、明示的に考えられ、本明細書で開示される。そのような演算を実行するように構成されている音声活動検出器、符号化方式選択器、および音声符号化器を備える装置も、明示的に考えられ、本明細書で開示されている。
他の構成に従って音声信号のフレームを符号化する装置は、音声信号の第1のフレームに基づき、pをゼロでない正の整数とするpビットの長さを有する、第1の符号化フレームを生成するための手段と、音声信号の第2のフレームに基づき、qをpと異なるゼロでない正の整数とするqビットの長さを有する、第2の符号化フレームを生成するための手段と、音声信号の第3のフレームに基づき、rをqよりも小さいゼロでない正の整数とするrビットの長さを有する、第3の符号化フレームを生成するための手段とを備える。この装置では、第2のフレームは、音声信号内の第1のフレームの後に続く非アクティブフレームであり、第3のフレームは、音声信号内の第2のフレームの後に続く非アクティブフレームであり、第1のフレームと第3のフレームとの間の音声信号のフレームはすべて、非アクティブである。
他の構成によるコンピュータプログラム製品は、コンピュータ可読媒体を備える。このコンピュータ媒体は、音声信号の第1のフレームに基づく、pをゼロでない正の整数とするpビットの長さを有する、第1の符号化フレームを少なくとも1つのコンピュータに生成させるコードと、音声信号の第2のフレームに基づく、qをpと異なるゼロでない正の整数とするqビットの長さを有する、第2の符号化フレームを少なくとも1つのコンピュータに生成させるコードと、音声信号の第3のフレームに基づく、rをqよりも小さいゼロでない正の整数とするrビットの長さを有する、第3の符号化フレームを少なくとも1つのコンピュータに生成させるコードとを格納する。この製品では、第2のフレームは、音声信号内の第1のフレームの後に続く非アクティブフレームであり、第3のフレームは、音声信号内の第2のフレームの後に続く非アクティブフレームであり、第1のフレームと第3のフレームとの間の音声信号のフレームはすべて、非アクティブである。
他の構成による音声信号のフレームを符号化する装置は、音声信号の複数のフレームのそれぞれについて、フレームがアクティブであるか、非アクティブであるかを示すように構成されている音声活動検出器と、符号化方式選択器と、音声符号器とを備える。符号化方式選択器は、(A)音声信号の第1のフレームに対する音声活動検出器の指示に応じて、第1の符号化方式を、(B)音声信号内の第1のフレームの後に続く連続する非アクティブフレーム列のうちの1つである第2のフレームについて、また第2のフレームが非アクティブであることを示す音声活動検出器の指示に応じて、第2の符号化方式を、そして(C)音声信号内の第2のフレームの後に続く、音声信号内の第1のフレームの後に続く連続する非アクティブフレーム列のうちの他の1つである第3のフレームについて、また第3のフレームが非アクティブであることを示す音声活動検出器の指示に応じて、第3の符号化方式を選択するように構成される。音声符号器は、(D)第1の符号化方式に従って、第1のフレームに基づく、pをゼロでない正の整数とするpビットの長さを有する、第1の符号化フレームを、(E)第2の符号化方式に従って、第2のフレームに基づく、qをpと異なるゼロでない正の整数とするqビットの長さを有する、第2の符号化フレームを、そして(F)第3の符号化方式に従って、第3のフレームに基づく、rをqよりも小さいゼロでない正の整数とするrビットの長さを有する、第3の符号化フレームを生成するように構成される。
構成により符号化音声信号を処理する方法は、符号化音声信号の第1の符号化フレームから得られる情報に基づき、(A)第1の周波数帯域および(B)第1の周波数帯域と異なる第2の周波数帯域上で音声信号の第1のフレームのスペクトル包絡線の記述を取得することを含む。この方法は、さらに、符号化音声信号の第2のフレームから得られる情報に基づき、第1の周波数帯域上の音声信号の第2のフレームのスペクトル包絡線の記述を取得することを含む。この方法は、さらに、第1の符号化フレームから得られる情報に基づき、第2の周波数帯域上の第2のフレームのスペクトル包絡線の記述を取得することを含む。
他の構成により符号化音声信号を処理する装置は、符号化音声信号の第1の符号化フレームから得られる情報に基づき、(A)第1の周波数帯域および(B)第1の周波数帯域と異なる第2の周波数帯域上で音声信号の第1のフレームのスペクトル包絡線の記述を取得するための手段を備える。この装置は、さらに、符号化音声信号の第2の符号化フレームから得られる情報に基づき、第1の周波数帯域上の音声信号の第2のフレームのスペクトル包絡線の記述を取得するための手段を備える。この装置は、さらに、第1の符号化フレームから得られる情報に基づき、第2の周波数帯域上の第2のフレームのスペクトル包絡線の記述を取得するための手段を備える。
他の構成によるコンピュータプログラム製品は、コンピュータ可読媒体を備える。媒体は、符号化音声信号の第1の符号化フレームから得られる情報に基づき、(A)第1の周波数帯域および(B)第1の周波数帯域と異なる第2の周波数帯域上で音声信号の第1のフレームのスペクトル包絡線の記述を少なくとも1つのコンピュータに取得させるコードを格納する。この媒体は、さらに、符号化音声信号の第2の符号化フレームから得られる情報に基づき、第1の周波数帯域上の音声信号の第2のフレームのスペクトル包絡線の記述を少なくとも1つのコンピュータに取得させるコードを格納する。この媒体は、さらに、第1の符号化フレームから得られる情報に基づき、第2の周波数帯域上の第2のフレームのスペクトル包絡線の記述を少なくとも1つのコンピュータに取得させるコードを格納する。
他の構成により符号化音声信号を処理する装置は、符号化音声信号の符号化フレームの符号化インデックスに基づく値のシーケンスを備える、シーケンスのそれぞれの値が符号化音声信号の符号化フレームに対応する制御信号を生成するように構成された制御ロジックを備える。この装置は、さらに、第1の状態を有する制御信号の値に応じて、第1の周波数帯域および第2の周波数帯域上のスペクトル包絡線の、対応する符号化フレームから得られる情報に基づく記述に基づき復号化フレームを計算するように構成された音声復号器を備える。音声復号器は、さらに、第1の状態と異なる第2の状態を有する制御信号の値に応じて、(1)第1の周波数帯域上のスペクトル包絡線の、対応する符号化フレームから得られた情報に基づく記述、および(2)第2の周波数帯域上のスペクトル包絡線の、対応する符号化フレームの前に符号化音声信号中に出現する少なくとも1つの符号化フレームから得られた情報に基づく記述に基づき復号化フレームを計算するように構成されている。
アクティブフレームと非アクティブフレームとの間の遷移を含む音声信号の一領域を符号化した結果を例示する図。 音声符号化器または音声符号化の方法でビットレートを選択するために使用できる決定木の一実施例を示す図。 4つのフレームのハングオーバーを含む音声信号の一領域を符号化した結果を例示する図。 利得形状値を計算するために使用されうる台形窓関数のプロットを示す図。 1つのフレームを構成する5つのサブフレームのそれぞれに図4Aの窓関数を適用することを示す図。 広帯域音声成分を符号化するために分割帯域符号器により使用されうる非オーバーラップ周波数帯域方式の一実施例を示す図。 広帯域音声成分を符号化するために分割帯域符号器により使用されうるオーバーラップ周波数帯域方式の一実施例を示す図。 複数の異なるアプローチを使用して音声信号にアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。 複数の異なるアプローチを使用して音声信号にアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。 複数の異なるアプローチを使用して音声信号にアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。 複数の異なるアプローチを使用して音声信号にアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。 複数の異なるアプローチを使用して音声信号にアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。 複数の異なるアプローチを使用して音声信号にアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。 一般的構成により方法M100を使用して音声信号の3つの連続フレームを符号化する演算を示す図。 方法M100の異なる実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。 方法M100の異なる実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。 方法M100の異なる実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。 方法M100の異なる実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。 方法M100の異なる実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。 方法M100の異なる実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。 方法M100の他の実装によりフレームのシーケンスを符号化した結果を示す図。 方法M100のさらに他の実装を使用して非アクティブフレーム列を符号化した結果を示す図。 方法M100の一実装M110の適用を示す図。 方法M110の一実装M120の適用を示す図。 方法M120の一実装M130の適用を示す図。 方法M130の一実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。 方法M130の他の実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。 図17Bに示されているように音声符号器が結果を生成するために使用できる3つの異なる符号化方式一組を示す表。 一般的構成により方法M300を使用して音声信号の2つの連続フレームを符号化する演算を示す図。 方法M300の一実装M310の適用を示す図。 一般的構成による装置100を示すブロック図。 音声符号器130の一実装132を示すブロック図。 スペクトル包絡線記述計算器140の一実装142を示すブロック図。 符号化方式選択器120の一実装により実行されうるテストの流れ図。 符号化方式選択器120の他の実装が動作するように構成される際に用いる状態図。 符号化方式選択器120のさらに他の実装が動作するように構成される際に用いる状態図。 符号化方式選択器120のさらに他の実装が動作するように構成される際に用いる状態図。 符号化方式選択器120のさらに他の実装が動作するように構成される際に用いる状態図。 音声符号器132の一実装134を示すブロック図。 時間情報記述計算器152の一実装154を示すブロック図。 分割帯域符号化方式により広帯域音声信号を符号化するように構成されている装置100の一実装102を示すブロック図。 音声符号器136の一実装138を示すブロック図。 広帯域音声符号器136の一実装139を示すブロック図。 時間記述計算器156の一実装158を示すブロック図。 一般的構成により符号化音声信号を処理する方法M200の流れ図。 方法M200の一実装M210の流れ図。 方法M210の一実装M220の流れ図。 方法M200の適用を示す図。 方法M100とM200との間の関係を示す図。 方法M300とM200との間の関係を示す図。 方法M210の適用を示す図。 方法M220の適用を示す図。 タスクT230の一実装を反復した結果を示す図。 タスクT230の他の実装を反復した結果を示す図。 タスクT230のさらに他の実装を反復した結果を示す図。 方法M200の一実装を実行するように構成された音声復号器の状態図の一部。 一般的構成により符号化音声信号を処理する装置200を示すブロック図。 装置200の一実装202を示すブロック図。 装置200の一実装204を示すブロック図。 第1のモジュール230の一実装232を示すブロック図。 スペクトル包絡線記述復号器270の一実装272を示すブロック図。 第2のモジュール240の一実装242を示すブロック図。 第2のモジュール240の一実装244を示すブロック図。 第2のモジュール242の一実装246を示すブロック図。 制御ロジック210の一実装が動作するように構成される際に用いる状態図。 方法M100をDTXと組み合わせた一実施例の結果を示す図。
本出願は、2006年7月31日に出願した「UPPER BAND DTX SCHEME」という表題の米国仮特許出願第60/834,688号の利益を主張するものである。
図面および随伴する説明において、同じ参照ラベルは、同じまたは類似の要素もしくは信号を指している。
明細書で説明されている構成を、広帯域音声符号化システムに適用することにより、アクティブフレームの場合に比べて低いビットレートを非アクティブフレームに使用することが可能になり、および/または転送音声信号の知覚品質を改善することができる。このような構成は、パケット交換方式のネットワーク(例えば、VoIPなどのプロトコルに従って音声伝送を行うように配列された有線および/または無線ネットワーク)および/または回線交換方式のネットワークで使用するように適合されうることが明示的に考えられ、本明細書で開示される。
文脈上明示的に制限されていない限り、「計算(する)」という用語は、本明細書では、計算、評価、生成、発生、および/または値の集合からの選択などの通常の意味を示すために使用される。文脈上明示的に制限されていない限り、「取得(する)」という用語は、本明細書では、計算、導出、受信または受け取ること(例えば、外部デバイスから)、および/または取り出すこと(例えば、記憶素子のアレイから)などの通常の意味を示すために使用される。「含む、備える」という用語が明細書および請求項の中で使用される場合、他の要素または演算は除外されない。「Aは、Bに基づく」という言いまわしは、(i)「Aは、少なくともBに基づく」という場合および(ii)「AはBに等しい」(特定の文脈において適切であれば)という場合を含む、その通常の意味のどれかを示すために使用される。
断りのない限り、特定の特徴を有する音声符号器の開示は、さらに、類似の特徴を有する音声符号化の方法を開示することを明示的に意図されており(およびその逆も同様)、特定の構成による音声符号器の開示は、さらに、類似の構成による音声符号化の方法を開示することを明示的に意図されている(およびその逆も同様)。断りのない限り、特定の特徴を有する音声復号器の開示は、さらに、類似の特徴を有する音声復号化の方法を開示することを明示的に意図されており(およびその逆も同様)、特定の構成による音声復号器の開示は、さらに、類似の構成による音声復号化の方法を開示することを明示的に意図されている(およびその逆も同様)。
音声信号のフレームは、典型的には、信号のスペクトル包絡線がフレーム上で比較的静止したままであることが予想できるくらいに短い。1つの典型的なフレーム長は、20ミリ秒であるが、特定の用途に適しているとみなされる任意のフレーム長を使用できる。20ミリ秒のフレーム長は、7キロヘルツ(kHz)のサンプリングレートの140サンプル、8kHzのサンプリングレートの160サンプル、16kHzのサンプリングレートの320サンプルに対応するが、特定の用途に適しているとみなされる任意のサンプリングレートを使用できる。音声符号化に使用されうるサンプリングレートの他の実施例は、12.8kHzであり、さらなる実施例は、12.8kHzから38.4kHzまでの範囲内の他のサンプリングレートを含む。
典型的には、すべてのフレームは同じ長さを有し、本明細書で説明されている特定の実施例では一様なフレーム長が仮定される。しかし、非一様なフレーム長を使用できることも本明細書で明示的に考えられ開示されている。例えば、方法M100およびM200の実装は、さらに、アクティブフレームおよび非アクティブフレーム、および/または有声フレームおよび無声フレームに対し異なるフレーム長を使用する用途でも使用されうる。
いくつかの用途では、これらのフレームは、非オーバーラップであり、他の用途では、オーバーラップフレーム方式が使用される。例えば、音声コーダは、符号器側でオーバーラップフレーム方式を使用し、復号器側で非オーバーラップフレーム方式を使用するのがふつうである。また、符号器において、異なるタスクに対し異なるフレーム方式を使用することも可能である。例えば、音声符号器または音声符号化方法で、フレームのスペクトル包絡線の記述を符号化するために一方のオーバーラップフレーム方式を使用し、フレームの時間情報の記述を符号化するために異なるオーバーラップフレーム方式を使用することができる。
上述のように、異なる符号化モードおよび/またはレートを使用して、アクティブフレームと非アクティブフレームとを符号化するように音声符号器を構成することが望ましい場合がある。アクティブフレームと非アクティブフレームとを区別するために、音声符号器は、典型的には、音声活動検出器を備えるか、またはさもなければ音声活動を検出する方法を実行する。このような検出器または方法は、フレームエネルギー、信号対雑音比、周期性、およびゼロ交差率などの1つまたは複数のファクターに基づいてフレームをアクティブまたは非アクティブに分類するように構成される。このような分類は、そのようなファクターの値または大きさを閾値と比較すること、および/またはそのようなファクターの変化の大きさを閾値と比較することを含むことができる。
音声活動検出器または音声活動検出方法は、さらに、有声(例えば、母音を表す)、無声(例えば、摩擦音を表す)、または遷移(例えば、単語の先頭または末尾を表す)などの2つまたはそれ以上の異なるタイプのうちの1つとしてアクティブフレームを分類するように構成されうる。音声符号器側で、異なるビットレートを使用して異なるタイプのアクティブフレームを符号化するのが望ましい場合がある。図1の特定の実施例は、同じビットレートですべて符号化されたアクティブフレーム列を示しているが、当業者であれば、本明細書で説明されている方法および装置は、さらに、異なるビットレートでアクティブフレームを符号化するように構成されている音声符号器および音声符号化方法において使用することもできることを理解するだろう。
図2は、フレームが含む音声のタイプに応じて特定のフレームを符号化する際に使用するビットレートを選択するために音声符号器または音声符号化方法において使用できる決定木の一実施例を示している。他の場合には、特定のフレームについて選択されたビットレートは、さらに、所望の平均ビットレート、フレーム列上の所望のビットレートパターン(所望の平均ビットレートをサポートするために使用されうる)、および/または前のフレームについて選択されたビットレートなどの基準に依存しうる。
異なる符号化モードを使用して異なるタイプの音声フレームを符号化するのが望ましい場合がある。有声のフレームは、長期にわたる(つまり、複数のフレーム周期にわたって続く)、ピッチに関係する周期的構造を有する傾向があり、典型的には、この長期スペクトル特徴の記述を符号化する符号化モードを使用して有声フレーム(または有声フレームのシーケンス)を符号化するのがより効率的である。このような符号化モードの実施例としては、符号励振線形予測(CELP)およびプロトタイプピッチ周期(PPP)が挙げられる。他方、無声フレームと非アクティブフレームは、通常、著しい長期スペクトル特徴を欠いており、また音声符号器は、そのような特徴を記述しようとしない符号化モードを使用してこれらのフレームを符号化するように構成されうる。雑音励振線形予測(NELP)は、このような符号化モードの一実施例である。
音声符号器または音声符号化方法は、ビットレートと符号化モードの様々な組合せ(「符号化方式」とも呼ばれる)のうちから選択するように構成されうる。例えば、方法M100の一実装を実行するように構成されている音声符号器は、有声と遷移フレームを含むフレームにはフルレートCELP方式、無声を含むフレームにはハーフレートNELP方式、および非アクティブフレームには八分の一レートNELP方式を使用することができる。このような音声符号器の他の実施例では、フルレートおよびハーフレートのCELP方式および/またはフルレートおよび四分の一レートPPP方式などの1つまたは複数の符号化方式に対し複数の符号化レートをサポートする。
アクティブ音声(active speech)から非アクティブ音声(inactive speech)への遷移は、典型的には、複数フレームの期間にわたって行われる。その結果、アクティブフレームから非アクティブフレームに遷移した後の音声信号の第1の複数のフレームは、有声化残余要素(voicing remnants)などのアクティブ音声の残余要素を含むことがある。音声符号器が、非アクティブフレームを対象とする符号化方式を使用してそのような残余要素を有するフレームを符号化する場合、符号化された結果は、元のフレームを正確には表さないことがある。したがって、アクティブフレームから非アクティブフレームへの遷移の後に続くフレームの1つまたは複数に対するより高いビットレートおよび/またはアクティブ符号化モードを続けるのが望ましいと思われる。
図3は、アクティブフレームから非アクティブフレームへの遷移の後の複数のフレームにわたってより高いビットレートrHが続けられる音声信号の一領域を符号化した結果を例示している。この継続(「ハングオーバー」とも呼ばれる)の長さは、遷移の予想される長さに従って選択され、また固定でも可変でもよい。例えば、ハングオーバーの長さは、この遷移に先行するアクティブフレームのうちの1つまたは複数の、信号対雑音比などの1つまたは複数の特性に基づきうる。図3は、4つのフレームのハングオーバーを例示している。
符号化フレームは、典型的には、音声信号の対応するフレームを再現する際に使用できる音声パラメータの集合を含む。この音声パラメータの集合は、典型的には、ある周波数スペクトル上のフレーム内のエネルギーの分布の記述などの、スペクトル情報を含む。エネルギーのこのような分布は、フレームの「周波数包絡線」または「スペクトル包絡線」とも呼ばれる。音声符号器は、典型的には、フレームのスペクトル包絡線の記述を値の順序付きシーケンスとして計算するように構成されている。いくつかの場合において、音声符号器は、それぞれの値が対応する周波数で、または対応するスペクトル領域上で、信号の振幅または大きさを示すように順序付きシーケンスを計算する構成をとる。このような記述の一実施例は、フーリエ変換係数の順序付きシーケンスである。
他の場合には、音声符号器は、線形予測符号化(LPC)分析の係数の値の集合など、符号化モデルのパラメータの値の順序付きシーケンスとしてスペクトル包絡線の記述を計算するように構成される。LPC係数値の順序付きシーケンスは、典型的には、1つまたは複数のベクトルとして配列され、音声符号器は、これらの値をフィルタ係数または反射係数として計算するように実装されうる。この集合内の係数値の個数は、LPC分析の「次数」とも呼ばれ、通信デバイス(携帯電話など)の音声符号器により実行されるようなLPC分析の典型的な次数として、4、6、8、10、12、16、20、24、28、および32が挙げられる。
音声コーダは、典型的には、伝送路間のスペクトル包絡線の記述を量子化形式で(例えば、対応するルックアップテーブルまたは「符号帳」への1つまたは複数のインデックスとして)送信するように構成される。したがって、音声符号器が、線スペクトル対(LSP)、線スペクトル周波数(LSF)、イミッタンススペクトル対(ISP)、イミッタンススペクトル周波数(ISF)、ケプストラム係数、または対数面積比の値の集合など、効率よく量子化されうる形式でLPC係数値の集合を計算することが望ましい場合がある。音声符号器は、さらに、変換および/または量子化に先立って値の順序付きシーケンスに対し知覚加重などの他の演算を実行するように構成することもできる。
いくつかの場合において、フレームのスペクトル包絡線の記述は、さらに、フレームの時間情報の記述も含む(例えば、フーリエ変換係数の順序付きシーケンスの場合のように)。他の場合には、符号化フレームの音声パラメータの集合は、さらに、フレームの時間情報の記述を含むこともできる。時間情報の記述の形式は、フレームを符号化するために使用される特定の符号化モードに依存しうる。いくつかの符号化モード(例えば、CELP符号化モード)では、時間情報の記述は、音声復号器によりLPCモデルを励振するために使用される励振信号の記述を含むことができる(例えば、スペクトル包絡線の記述により定義されているように)。励振信号の記述は、典型的には、量子化形式で符号化フレーム内に出現する(例えば、対応する符号帳への1つまたは複数のインデックスとして)。時間情報の記述は、励振信号のピッチ成分に関係する情報を含むこともできる。例えば、PPP符号化モードでは、符号化された時間情報は、励振信号のピッチ成分を再現するために音声復号器により使用されるプロトタイプの記述を含むことができる。ピッチ成分に関係する情報の記述は、典型的には、量子化形式で符号化フレーム内に出現する(例えば、対応する符号帳への1つまたは複数のインデックスとして)。
他の符号化モード(例えば、NELP符号化モード)では、時間情報の記述は、フレームの時間包絡線(フレームの「エネルギー包絡線」または「利得包絡線」とも呼ばれる)の記述を含むことができる。時間包絡線の記述は、フレームの平均エネルギーに基づく値を含むことができる。このような値は、典型的には、復号化の際にフレームに適用される利得値として提示され、「利得フレーム」とも呼ばれる。いくつかの場合において、利得フレームは、(A)元のフレームのエネルギーEorigと(B)符号化フレーム(例えば、スペクトル包絡線の記述を含む)の他のパラメータから合成されたフレームのエネルギーEsynthとの間の比に基づく正規化係数である。例えば、利得フレームは、Eorig/Esynthとして、またはEorig/Esynthの平方根として表すことができる。利得フレーム、および時間包絡線の他の態様は、例えば2006年12月14日に公開された「SYSTEMS,METHODS,AND APPARATUS FOR GAIN FACTOR ATTENUATION」という表題の米国特許出願公開第2006/0282262号(Vosら)でさらに詳しく説明されている。
それとは別に、またはそれに加えて、時間包絡線の記述は、そのフレームを構成する多数のサブフレームのそれぞれに対する相対エネルギー値を含むことができる。このような値は、典型的には、復号化の際にそれぞれのサブフレームに適用される利得値として提示され、「利得プロファイル」または「利得形状」と総称される。いくつかの場合において、利得形状値は、それぞれ(A)元のサブフレームiのエネルギーEorig.iと(B)符号化フレーム(例えば、スペクトル包絡線の記述を含む)の他のパラメータから合成されたフレームの対応するサブフレームiのエネルギーEsynth.iとの間の比に基づく正規化係数である。このような場合、エネルギーEsynth.iは、エネルギーEorig.iを正規化するために使用されうる。例えば、利得形状値は、Eorig.i/Esynth.iとして、またはEorig.i/Esynth.iの平方根として表すことができる。時間包絡線の記述の一実施例は、利得フレームおよび利得形状を含み、利得形状は20ミリ秒フレームを構成する5つの4ミリ秒サブフレームのそれぞれに対する値を含む。利得値は、均等目盛または対数(例えば、デシベル)目盛で表すことができる。このような特徴は、例えば、上記の米国特許出願公開第2006/0282262号においてさらに詳しく説明されている。
利得フレームの値(または利得形状の値)を計算する際に、隣接するフレーム(またはサブフレーム)とオーバーラップする窓関数を適用することが望ましい場合がある。このようにして生成される利得値は、典型的には、音声復号器のところでオーバーラップ加算方式により適用され、そのため、フレームまたはサブフレームの間の不連続を低減または回避するのがしやすくなる場合がある。図4Aは、利得形状値のそれぞれを計算するために使用されうる台形窓関数のプロットを示している。この実施例では、窓は、2つの隣接するサブフレームのそれぞれと1ミリ秒だけオーバーラップする。図4Bは、この窓関数を20ミリ秒フレームの5つのサブフレームのそれぞれに適用する方法を示している。窓関数の他の実施例は、対称的でも、非対称的でもよい異なるオーバーラップ期間および/または異なる窓形状(例えば、矩形またはハミング)を有する関数を含む。また、異なる窓関数を異なるサブフレームに適用することにより、および/または異なる長さのサブフレーム上で利得形状の異なる値を計算することにより利得形状の値を計算することも可能である。
時間包絡線の記述を含む符号化フレームは、典型的には、量子化形式のそのような記述を対応する符号帳への1つまたは複数のインデックスとして含むが、場合によっては、符号帳を使用せずに利得フレームおよび/または利得形状を量子化および/または逆量子化するためのアルゴリズムを使用することができる。時間包絡線の記述の一実施例は、フレームに対し5つの利得形状値を指定する8から12ビットの量子化インデックスを含む(例えば、5つの連続するサブフレームのそれぞれについて1つずつ)。このような記述は、さらに、フレームに対する利得フレーム値を指定する他の量子化インデックスを含むこともできる。
上記のように、300〜3400kHzのPSTN周波数範囲を超える周波数範囲を有する音声信号を送受信することが望ましい場合がある。このような信号を符号化するアプローチの1つは、拡張周波数範囲全体を単一周波数帯域として符号化することである。このようなアプローチは、狭帯域音声符号化技術(例えば、0〜4kHzまたは300〜3400HzなどのPSTN品質周波数範囲を符号化するように構成されたもの)をスケーリングし、0〜8kHzなどの広帯域周波数範囲をカバーすることにより実装されうる。例えば、このようなアプローチは、(A)高いレートで音声信号をサンプリングして高い周波数の成分を含めるようにすることと、(B)この広帯域信号を所望の精度で表現するように狭帯域符号化技術を再構成することとを含むことができる。狭帯域符号化技術を再構成するこのような方法では、高次LPC分析を使用する(つまり、より多くの値を有する係数ベクトルを生成する)。広帯域信号を単一周波数帯域として符号化する広帯域音声コーダは、「全帯域」コーダとも呼ばれる。
符号化された信号のトランスコーディングまたは他の何らかの著しい修正を行わなくても、符号化された信号の少なくとも狭帯域部分が狭帯域チャネル(PSTNチャネルなど)を通して送信されるように広帯域音声コーダを実装することが望ましい場合がある。このような特徴により、狭帯域信号しか認識しないネットワークおよび/または装置との下位互換性が容易になる。また、音声信号の異なる周波数帯域に対し異なる符号化モードおよび/またはレートを使用する広帯域音声コーダを実装することが望ましい場合もある。このような特徴を使用することで、符号化効率および/または知覚品質の向上に対応することができる。広帯域音声信号の異なる周波数帯域を表す部分(例えば、それぞれ広帯域音声信号の異なる周波数帯域を表す音声パラメータの別々の集合)を有する符号化フレームを生成するように構成されている広帯域音声コーダは、「分割帯域」コーダとも呼ばれる。
図5Aは、0Hzから8kHzまでの範囲にわたる広帯域音声成分を符号化するために分割帯域符号器により使用されうる非オーバーラップ周波数帯域方式の一実施例を示している。この方式は、0Hzから4kHzまで広がる第1の周波数帯域(狭帯域範囲とも呼ばれる)および4から8kHzまで広がる第2の周波数帯域(拡張、上側、または高帯域範囲とも呼ばれる)を含む。図5Bは、0Hzから7kHzまでの範囲にわたる広帯域音声成分を符号化するために分割帯域符号器により使用されうるオーバーラップ周波数帯域方式の一実施例を示している。この方式は、0Hzから4kHzまで広がる第1の周波数帯域(狭帯域範囲)および3.5から7kHzまで広がる第2の周波数帯域(拡張、上側、または高帯域範囲)を含む。
分割帯域符号器の特定の一実施例は、狭帯域範囲については10次LPC分析、高帯域範囲については6次LPC分析を実行するように構成される。周波数帯域方式の他の実施例は、狭帯域範囲が300Hz程度にのみ下方に広がるものを含む。このような方式は、さらに、約0または50Hzから上は約300または350Hzまでの低帯域範囲をカバーする他の周波数帯域を含むことができる。
広帯域音声信号を符号化するために使用される平均ビットレートを下げるのが望ましい場合がある。例えば、特定のサービスをサポートするために必要な平均ビットレートを下げることで、ネットワークにおいて一度にサービスを提供できるユーザーの人数を増やすことができる。しかし、対応する復号化された音声信号の知覚品質を過剰に低下させることなく、そのような引き下げを行うことも望ましい。
広帯域音声信号の平均ビットレートを下げるアプローチとして可能な1つは、低ビットレートで全帯域広帯域符号化方式を使用して非アクティブフレームを符号化することである。図6Aは、アクティブフレームが高いビットレートrHで符号化され、非アクティブフレームが低いビットレートrLで符号化されるアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。ラベルFは、全帯域広帯域符号化方式を使用して符号化されたフレームを示している。
平均ビットレートを十分に下げるために、非常に低いビットレートを使用して非アクティブフレームを符号化することが望ましいと思われる。例えば、1フレーム当たり16ビット(「八分の一レート」)などの、狭帯域コーダで非アクティブフレームを符号化するために使用されるレートに匹敵するビットレートを使用するのが望ましい場合がある。しかし残念なことに、このように少ないビットだと、典型的には、広帯域範囲にわたって許容可能な程度の知覚品質で広帯域信号の非アクティブフレームを符号化する場合であっても不十分であり、そのようなレートで非アクティブフレームを符号化する全帯域広帯域コーダは、非アクティブフレームの間に音質の劣る復号化された信号を生成する可能性が高い。そのような信号は、例えば、復号化された信号の知覚された音の大きさおよび/またはスペクトル分布が、一方のフレームから次のフレームへと過剰に変化する可能性があるという点で、非アクティブフレームにおいて滑らかさを欠いている場合がある。滑らかさは、典型的には、復号化された暗雑音に対し知覚的に重要である。
図6Bは、アクティブフレームから非アクティブフレームへの遷移を符号化した他の結果を示す。この場合、分割帯域広帯域符号化方式が、高いビットレートでアクティブフレームを符号化するために使用され、全帯域広帯域符号化方式が、低いビットレートで非アクティブフレームを符号化するために使用される。ラベルHおよびNは、高帯域符号化方式および狭帯域符号化方式をそれぞれ使用して符号化される分割帯域符号化フレームの一部を示している。上記のように、全帯域広帯域符号化方式および低いビットレートを使用して非アクティブフレームを符号化することは、非アクティブフレームにおいて音質が劣る復号化された信号を生成する可能性が高い。分割帯域/全帯域符号化混合方式も、コーダの複雑さを高める可能性があるが、そのような複雑さは、結果として得られる実装の実用性に影響を及ぼす場合も及ぼさない場合もある。それに加えて、過去のフレームからの履歴情報は、ときには、符号化効率を著しく高めるために使用されることもあるが(特に有声フレームを符号化する場合)、全帯域符号化方式の演算実行時に分割帯域符号化方式により生成された履歴情報を適用することは、その逆も、実現可能でない場合がある。
広帯域信号の平均ビットレートを下げるアプローチとして可能なもう1つは、低ビットレートで分割帯域広帯域符号化方式を使用して非アクティブフレームを符号化することである。図7Aは、高いビットレートrHでアクティブフレームを符号化するために全帯域広帯域符号化方式が使用され、低いビットレートrLで非アクティブフレームを符号化するために分割帯域広帯域符号化方式が使用されるアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。図7Bは、アクティブフレームを符号化するために分割帯域広帯域符号化方式が使用される関連する一実施例を示している。図6Aおよび6Bを参照しつつ上で述べられているように、1フレーム当たり16ビット(「八分の一レート」)などの、狭帯域コーダで非アクティブフレームを符号化するために使用されるビットレートに匹敵するビットレートを使用して非アクティブフレームを符号化するのが望ましい場合がある。しかし残念なことに、このように少ないビットだと、典型的には、許容可能な品質の復号化された広帯域信号が得られるように異なる周波数帯域間に分割帯域符号化方式により割り当てを行うのには不十分である。
広帯域信号の平均ビットレートを下げるさらに可能な他のアプローチは、低ビットレートで非アクティブフレームを狭帯域として符号化することである。図8Aおよび8Bは、高いビットレートrHでアクティブフレームを符号化するために広帯域符号化方式が使用され、低いビットレートrLで非アクティブフレームを符号化するために狭帯域符号化方式が使用されるアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。図8Aの実施例では、全帯域広帯域符号化方式が、アクティブフレームを符号化するために使用され、図8Bの実施例では、分割帯域広帯域符号化方式が、アクティブフレームを符号化するために使用される。
高ビットレート広帯域符号化方式を使用してアクティブフレームを符号化することで、典型的には、適切に符号化された広帯域暗雑音を含む符号化フレームが生成される。しかし、図8Aおよび8Bの実施例のように、狭帯域符号化方式のみを使用して非アクティブフレームを符号化した場合、拡張周波数を欠いている符号化フレームを生成する。その結果、復号化された広帯域アクティブフレームから復号化された狭帯域非アクティブフレームへの遷移は、かなり大きくて耳障りである可能性が高く、この第3の可能なアプローチも、次善の結果をもたらす可能性がある。
図9は、一般的構成により方法M100を使用して音声信号の3つの連続フレームを符号化する演算を示している。タスクT110は、第1のビットレートr1(1フレーム当たりpビット)で、アクティブであるか、または非アクティブである、3つのフレームのうちの第1のフレームを符号化する。タスクT120は、r1と異なる第2のビットレートr2(1フレーム当たりqビット)で、第1のフレームの後に続く、非アクティブフレームである、第2のフレームを符号化する。タスクT130は、r2よりも小さい第3のビットレートr3(1フレーム当たりrビット)で、第2のフレームのすぐ後に続く、これもまた非アクティブフレームである、第3のフレームを符号化する。方法M100は、典型的には、音声符号化のより大きな方法の一部として実行され、音声符号器および方法M100を実行するように構成されている音声符号化の方法は、明示的に考えられ、ここで開示される。
対応する音声復号器は、第2の符号化フレームから得られる情報を使用して、第3の符号化フレームからの非アクティブフレームの復号化を補うように構成されうる。この説明の別のところで、1つまたは複数の後続の非アクティブフレームを復号化する際に第2の符号化フレームから得た情報を使用する音声復号器および音声信号のフレームを復号化する方法が開示されている。
図9に示されている特定の実施例では、音声信号において第2のフレームが第1のフレームのすぐ後に続き、音声信号において第3のフレームが第2のフレームのすぐ後に続く。方法M100の他の応用では、第1および第2のフレームは、音声信号内の1つまたは複数の非アクティブフレームにより区切られ、第2および第3のフレームは、音声信号内の1つまたは複数の非アクティブフレームにより区切られる。図9に示されている特定の実施例では、pは、qよりも大きい。方法M100は、さらに、pがqよりも小さくなるように実装することもできる。図10Aから12Bに示されている特定の実施例では、ビットレートrH、rM、およびrLは、それぞれビットレートr1、r2、およびr3に対応する。
図10Aは、上述のように方法M100の一実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。この実施例では、遷移の前の最後のアクティブフレームは、3つの符号化フレームのうちの第1のものを生成するために高いビットレートrHで符号化され、遷移の後の第1の非アクティブフレームは、3つの符号化フレームのうちの第2のものを生成するために中間ビットレートrMで符号化され、次の非アクティブフレームは、3つの符号化フレームのうちの最後のものを生成するために低いビットレートrLで符号化される。この実施例の特定の1つの場合において、ビットレートrH、rM、およびrLは、それぞれ、フルレート、ハーフレート、および八分の一レートである。
上記のように、アクティブ音声から非アクティブ音声への遷移は、典型的には、複数のフレームからなる1つの周期において発生し、アクティブフレームから非アクティブフレームへの遷移の後の第1の複数のフレームは、有声化残余要素などのアクティブ音声の残余要素を含むことができる。音声符号器が、非アクティブフレームを対象とする符号化方式を使用してそのような残余要素を有するフレームを符号化する場合、符号化された結果は、元のフレームを正確には表さないことがある。したがって、第2の符号化フレームのような残余要素を有するフレームを符号化するのを回避するように方法M100を実装することが望ましい場合がある。
図10Bは、ハングオーバーを含む方法M100の一実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。方法M100のこの特定の実施例では、遷移後も第1の3つの非アクティブフレームに対しビットレートrHを使用し続ける。一般に、所望の任意の長さのハングオーバーを使用することができる(例えば、1または2から5または10個のフレームまでの範囲内)。このハングオーバーの長さは、遷移の予想される長さに従って選択され、また固定でも可変でもよい。例えば、ハングオーバーの長さは、信号対雑音比などの、この遷移に先行するアクティブフレームのうちの1つまたは複数のフレーム、および/またはハングオーバー内のフレームのうちの1つまたは複数のフレームの1つまたは複数の特性に基づきうる。一般に、「第1の符号化フレーム」というラベルは、遷移前の最後のアクティブフレーム、またはハングオーバー中の非アクティブフレームに付けることができる。
2つまたはそれ以上の連続する非アクティブフレームの系列上でビットレートr2を使用するように方法M100を実装するのが好ましい場合がある。図11Aは、方法M100のそのような一実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。この実施例では、3つの符号化フレームのうちの第1のフレームおよび最後のフレームは、ビットレートrMを使用して符号化された複数のフレームにより区切られ、第2の符号化フレームは、第1の符号化フレームの直後には続かない。対応する音声復号器は、第2の符号化フレームから得られる情報を使用して、第3の符号化フレームを復号化する(および場合によっては、1つまたは複数の後続の非アクティブフレームを復号化する)ように構成されうる。
音声復号器が、複数の符号化フレームから得られた情報を使用して後続の非アクティブフレームを復号化することが望ましい場合もある。図11Aに示されているような系列を参照すると、例えば、対応する音声復号器は、ビットレートrMで符号化された両方の非アクティブフレームから得られる情報を使用して、第3の符号化フレームを復号化する(および場合によっては、1つまたは複数の後続の非アクティブフレームを復号化する)ように構成されうる。
一般に、第2の符号化フレームが非アクティブフレームを表すことが望ましいと思われる。したがって、方法M100は、音声信号の複数の非アクティブフレームから得られたスペクトル情報に基づき第2の符号化フレームを生成するように実装できる。図11Bは、方法M100のそのような一実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。この実施例では、第2の符号化フレームは、音声信号の2つのフレームからなる窓上で平均された情報を含む。他の場合には、平均化窓は、2から約6または8フレームの範囲内の長さを持つことができる。第2の符号化フレームは、その窓内のフレームのスペクトル包絡線の記述の平均であるスペクトル包絡線の記述を含むことができる(この場合は、音声信号の対応する非アクティブフレームとそれに先行する非アクティブフレーム)。第2の符号化フレームは、音声信号の対応するフレームに主にまたはもっぱら基づく時間情報の記述を含むことができる。それとは別に、方法M100は、第2の符号化フレームがその窓内のフレームの時間情報の記述の平均である時間情報の記述を含むように構成されうる。
図12Aは、方法M100の他の実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。この実施例では、第2の符号化フレームは、3つのフレームからなる窓上で平均された情報を含み、第2の符号化フレームはビットレートrMで符号化され、先行する2つの非アクティブフレームは異なるビットレートrHで符号化される。この特定の実施例では、平均化窓は、3フレーム遷移後ハングオーバーの後に続く。他の実施例では、方法M100は、そのようなハングオーバーなしで、または平均化窓とオーバーラップするハングオーバーを使って実装できる。一般に、「第1の符号化フレーム」というラベルは、遷移前の最後のアクティブフレーム、ハングオーバー中の非アクティブフレーム、または第2の符号化フレームと異なるビットレートで符号化された窓内のフレームに付けることができる。
場合によっては、方法M100の実装において、非アクティブフレームが少なくとも最低長を有する連続するアクティブフレームのシーケンス(「会話区間」とも呼ばれる)の後に続く場合にのみビットレートr2を使用してその非アクティブフレームを符号化することが望ましい場合がある。図12Bは、方法M100のそのような一実装を使用して音声信号の一領域を符号化した結果を示している。この実施例では、方法M100は、先行する会話区間が少なくとも3フレームの長さを有していた場合にのみ、ビットレートrMを使用してアクティブフレームから非アクティブフレームへの遷移の後の第1の非アクティブフレームを符号化するように実装される。このような場合、最低会話区間長は、固定または可変としてよい。例えば、これは、信号対雑音比などの、遷移に先立つ1つまたは複数のアクティブフレームの特性に基づくことができる。方法M100のさらなるそのような実装は、上述のようにハングオーバーおよび/または平均化窓を適用するようにも構成されうる。
図10Aから12Bまでは、第1の符号化フレームを符号化するために使用されるビットレートr1が、第2の符号化フレームを符号化するために使用されるビットレートr2よりも大きい方法M100の実装を適用するのを示している。しかし、方法M100の実装の範囲は、ビットレートr1がビットレートr2よりも小さい方法も含む。場合によっては、例えば、有声フレームなどのアクティブフレームは、前のアクティブフレームと大きく重複する可能性があり、またr2よりも小さいビットレートを使用してそのようなフレームを符号化するのが望ましいと思われる。図13Aは、方法M100のそのような実装によるフレームのシーケンスを符号化した結果を示しており、アクティブフレームは、3つの符号化フレームの集合の第1のものを生成するように低いビットレートで符号化される。
方法M100の潜在的用途は、アクティブフレームから非アクティブフレームへの遷移を含む音声信号の領域に限定されない。いくつかの場合では、ある種の規則正しい間隔に従って方法M100を実行することが望ましいと思われる。例えば、nの典型的な値を8、16、および32として、高いビットレートr2で連続する非アクティブフレームの系列においてnフレーム毎に符号化するのが望ましいと考えられる。他の場合には、方法M100は、イベントに応じて開始されうる。このようなイベントの一実施例は、第1の反射係数の値など、スペクトル傾斜に関係するパラメータの変化により指示されうる、暗雑音の品質の変化である。図13Bは、方法M100のそのような実装を使用して非アクティブフレーム列を符号化した結果を示している。
上記のように、広帯域フレームは、全帯域符号化方式または分割帯域符号化方式を使用して符号化することができる。全帯域として符号化されたフレームは、広帯域周波数範囲全体に広がる単一のスペクトル包絡線の記述を含むが、分割帯域として符号化されたフレームは、広帯域音声信号の異なる周波数帯域(例えば、狭帯域範囲および高帯域範囲)内の情報を表す2つまたはそれ以上の別々の部分を有する。例えば、典型的には、分割帯域符号化フレームのこれらの別々の部分のそれぞれは、対応する周波数帯域上の音声信号のスペクトル包絡線の記述を含む。分割帯域符号化フレームは、広帯域周波数範囲全体についてフレームの時間情報の1つの記述を含むことができるか、または符号化フレームの別々の部分のそれぞれが、対応する周波数帯域に対する音声信号の時間情報の記述を含むことができる。
図14は、方法M100の一実装M110の適用を示している。方法M110は、音声信号の3つのフレームのうちの第1のフレームに基づき第1の符号化フレームを生成するタスクT110の一実装T112を含む。第1のフレームは、アクティブまたは非アクティブであるものとしてよく、第1の符号化フレームはpビットの長さを有する。図14に示されているように、タスクT112は、第1の符号化フレームを生成し第1および第2の周波数帯域上のスペクトル包絡線の記述を格納するように構成される。この記述は、両方の周波数帯域に及ぶ単一の記述であるか、またはそれらの周波数帯域のうちのそれぞれの1つにそれぞれ及ぶ別々の記述を含むことができる。タスクT112は、さらに、第1の符号化フレームを生成し第1および第2の周波数帯域に対する時間情報(例えば、時間包絡線の)の記述を格納するように構成されうる。この記述は、両方の周波数帯域に及ぶ単一の記述であるか、またはそれらの周波数帯域のうちのそれぞれの1つにそれぞれ及ぶ別々の記述を含むことができる。
方法M110は、さらに、3つのフレームのうちの第2のフレームに基づき第2の符号化フレームを生成するタスクT120の一実装T122も含む。第2のフレームは、非アクティブフレームであり、第2の符号化フレームは、qビットの長さを有する(ただし、pおよびqは等しくない)。図14に示されているように、タスクT122は、第2の符号化フレームを生成し第1および第2の周波数帯域上のスペクトル包絡線の記述を格納するように構成される。この記述は、両方の周波数帯域に及ぶ単一の記述であるか、またはそれらの周波数帯域のうちのそれぞれの1つにそれぞれ及ぶ別々の記述を含むことができる。この特定の実施例では、第2の符号化フレーム内に含まれているスペクトル包絡線記述のビット単位の長さは、第1の符号化フレームに含まれるスペクトル包絡線記述のビット単位の長さよりも短い。タスクT122は、さらに、第2の符号化フレームを生成し第1および第2の周波数帯域に対する時間情報(例えば、時間包絡線の)の記述を格納するように構成されうる。この記述は、両方の周波数帯域に及ぶ単一の記述であるか、またはそれらの周波数帯域のうちのそれぞれの1つにそれぞれ及ぶ別々の記述を含むことができる。
方法M110は、さらに、3つのフレームのうちの最後フレームに基づき第3の符号化フレームを生成するタスクT130の一実装T132も含む。第3のフレームは、非アクティブフレームであり、第3の符号化フレームは、rビットの長さを有する(ただし、rはqよりも小さい)。図14に示されているように、タスクT132は、第3の符号化フレームを生成し第1の周波数帯域上のスペクトル包絡線の記述を格納するように構成される。この特定の実施例では、第3の符号化フレーム内に含まれているスペクトル包絡線記述の(ビット単位の)長さは、第2の符号化フレームに含まれるスペクトル包絡線記述の(ビット単位の)長さよりも短い。タスクT132は、さらに、第3の符号化フレームを生成し第1の周波数帯域に対する時間情報(例えば、時間包絡線の)の記述を格納するように構成されうる。
第2の周波数帯域は、第1の周波数帯域と異なるが、方法M110は、2つの周波数帯域がオーバーラップするように構成されうる。第1の周波数帯域に対する下限の例は、0、50、100、300、および500Hzを含み、第1の周波数帯域に対する上限の例は、3、3.5、4、4.5、および5kHzを含む。第2の周波数帯域に対する下限の例は、2.5、3、3.5、4、および4.5kHzを含み、第2の周波数帯域に対する上限の例は、7、7.5、8、および8.5kHzを含む。上記の上下限の500個の可能なすべての組合せは、明示的に考えられ、これにより開示され、M110の実装にこのような組合せを適用することも、明示的に考えられ、これにより開示される。特定の一実施例では、第1の周波数帯域は、約50Hzから約4kHzまでの範囲を含み、第2の周波数帯域は、約4から約7kHzまでの範囲を含む。他の特定の実施例では、第1の周波数帯域は、約100Hzから約4kHzまでの範囲を含み、第2の周波数帯域は、約3.5から約7kHzまでの範囲を含む。さらに他の特定の実施例では、第1の周波数帯域は、約300Hzから約4kHzまでの範囲を含み、第2の周波数帯域は、約3.5から約7kHzまでの範囲を含む。これらの実施例において、「約(about)」という用語はプラスマイナス5パーセントを示し、様々周波数帯域の上下限はそれぞれ3dB点により示される。
上記のように、広帯域用途では、分割帯域符号化方式は、符号化効率の向上および下位互換性のサポートなど、全帯域符号化方式に比べて有利であると考えられる。図15は、第2の符号化フレームを生成するために分割帯域符号化方式を使用する方法M110の一実装M120の適用を示している。方法M120は、2つのサブタスクT126aおよびT126bを有するタスクT122の一実装T124を含む。タスクT126aは、第1の周波数帯域上のスペクトル包絡線の記述を計算するように構成され、タスクT126bは、第2の周波数帯域上のスペクトル包絡線の別の記述を計算するように構成されている。対応する音声復号器(例えば、後述のようなもの)は、タスクT126bおよびT132により計算されたスペクトル包絡線記述から得られる情報に基づき復号化された広帯域フレームを計算するように構成されうる。
タスクT126aおよびT132が、同じ長さを有する第1の周波数帯域上のスペクトル包絡線の記述を計算するように構成されるか、またはタスクT126aおよびT132のうちの一方が、他のタスクにより計算された記述よりも長い記述を計算するように構成されうる。タスクT126aおよびT126bは、さらに、2つの周波数帯域上の時間情報の別の記述を計算するように構成することもできる。
タスクT132は、第3の符号化フレームが第2の周波数帯域上のスペクトル包絡線の記述を含まないように構成されうる。それとは別に、タスクT132は、第3の符号化フレームが第2の周波数帯域上のスペクトル包絡線の簡略記述を含むように構成されうる。例えば、タスクT132は、第1の周波数帯域上の第3のフレームのスペクトル包絡線の記述に比べて実質的にビット数が少ない(例えば、半分以下の)第2の周波数帯域上のスペクトル包絡線の記述を第3の符号化フレームが含むように構成されうる。他の実施例では、タスクT132は、タスク126bにより計算された第2の周波数帯域上のスペクトル包絡線の記述に比べて実質的にビット数が少ない(例えば、半分以下の)第2の周波数帯域上のスペクトル包絡線の記述を第3の符号化フレームが含むように構成されている。このような一実施例では、タスクT132は、第3の符号化フレームを生成しスペクトル傾斜値(例えば、正規化された第1の反射係数)のみを含む第2の周波数帯域上のスペクトル包絡線の記述を格納するように構成される。
全帯域符号化方式ではなく分割帯域符号化方式を使用して第1の符号化フレームを生成するように方法M110を実装するのが望ましい場合がある。図16は、第1の符号化フレームを生成するために分割帯域符号化方式を使用する方法M120の一実装M130の適用を示している。方法M130は、2つのサブタスクT116aおよびT116bを含むタスクT110の一実装T114を含む。タスク116aは、第1の周波数帯域上のスペクトル包絡線の記述を計算するように構成され、タスクT116bは、第2の周波数帯域上のスペクトル包絡線の別の記述を計算するように構成されている。
タスクT116aおよびT126aが、同じ長さを有する第1の周波数帯域上のスペクトル包絡線の記述を計算するように構成されるか、またはタスクT116aおよびT126aのうちの一方が、他のタスクにより計算された記述よりも長い記述を計算するように構成されうる。タスクT116bおよびT126bが、同じ長さを有する第2の周波数帯域上のスペクトル包絡線の記述を計算するように構成されるか、またはタスクT116bおよびT126bのうちの一方が、他のタスクにより計算された記述よりも長い記述を計算するように構成されうる。タスクT116aおよびT116bは、さらに、2つの周波数帯域上の時間情報の別の記述を計算するように構成することもできる。
図17Aは、方法M130の一実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。この特定の実施例は、第2の周波数帯域を表す第1および第2の符号化フレームの部分は、同じ長さを有し、第1の周波数帯域を表す第2および第3の符号化フレームの部分は、同じ長さを有する。
第2の周波数帯域を表す第2の符号化フレームの部分の長さが、第1の符号化フレームの対応する部分よりも長いことが望ましい場合がある。アクティブフレームの低周波および高周波範囲は、暗雑音を含む非アクティブフレームの低周波および高周波範囲に比べて互いの相関性が高い(特にフレームが有声の場合)。したがって、非アクティブフレームの高周波範囲は、アクティブフレームの高周波範囲に比べて伝達するフレームの情報量が比較的多く、非アクティブフレームの高周波範囲を符号化するのにより多くのビットを使用するのが望ましい場合がある。
図17Bは、方法M130の他の実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。この場合、第2の周波数帯域を表す第2の符号化フレームの部分は、第1の符号化フレームの対応する部分よりも長い(すなわち、より多くのビットを有する)。この特定の実施例は、さらに、第1の周波数帯域を表す第2の符号化フレームの部分が第3の符号化フレームの対応する部分よりも長い場合も示しているが、方法M130の他の実装は、これら2つの部分が同じ長さ(例えば、図17Aに示されているように)を有するようにフレームを符号化するように構成されうる。
方法M100の典型的な一実施例は、広帯域NELPモード(図14に示されているような全帯域であるか、または図15および16に示されているような分割帯域であってよい)を使用して第2のフレームを符号化し、狭帯域NELPモードを使用して第3のフレームを符号化するように構成されている。図18の表は、図17Bに示されているように音声符号器が結果を生成するために使用できる3つの異なる符号化方式一組を示している。この実施例では、有声フレームを符号化するためにフルレートの広帯域CELP符号化方式(「符号化方式1」)が使用される。この符号化方式では、153ビットを使用してフレームの狭帯域部分を符号化し、16ビットを使用して高帯域部分を符号化する。狭帯域では、符号化方式1は、28ビットを使用してスペクトル包絡線の記述を符号化し(例えば、1つまたは複数の量子化LSPベクトルとして)、125ビットを使用して励振信号の記述を符号化する。高帯域では、符号化方式1は、8ビットを使用してスペクトル包絡線を符号化し(例えば、1つまたは複数の量子化LSPベクトルとして)、8ビットを使用して時間包絡線の記述を符号化する。
狭帯域励振信号から高帯域励振信号を導出するように符号化方式1を構成することが望ましい場合があり、これにより、高帯域励振信号を伝送するのに符号化フレームのビットが不要になる。また、符号化フレームの他のパラメータ(例えば、第2の周波数帯域上のスペクトル包絡線の記述を含む)から合成されるような高帯域信号の時間包絡線に相対的に高帯域時間包絡線を計算するように符号化方式1を構成することが望ましい場合もある。このような特徴は、例えば、上記の米国特許出願公開第2006/0282262号においてさらに詳しく説明されている。
有声音声信号に比べて、無声音声信号は、典型的には、高帯域における会話に関する理解にとって重要な情報をより多く含む。したがって、有声フレームがより高い全体的ビットレートを使用して符号化される場合であっても、有声フレームの高帯域部分の符号化よりも、無声フレームの高帯域部分の符号化により多くのビット数を使用した方が望ましいと考えられる。図18の表による実施例では、無声フレームを符号化するために、ハーフレート広帯域NELP符号化方式(「符号化方式2」)が使用される。有声フレームの高帯域部分を符号化するために符号化方式1により使用されるような16ビットの代わりに、この符号化方式では、27ビットを使用してフレームの高帯域部分を符号化し、12ビットを使用してスペクトル包絡線の記述を符号化し(例えば、1つまたは複数のLSPベクトルとして)、15ビットを使用して時間包絡線の記述を符号化する(例えば、量子化利得フレームおよび/または利得形状として)。狭帯域部分を符号化するために、符号化方式2は、47ビットを使用し、そのうち28ビットを使用してスペクトル包絡線の記述を符号化し(例えば、1つまたは複数の量子化LSPベクトルとして)、19ビットを使用して時間包絡線の記述を符号化する(例えば、量子化利得フレームおよび/または利得形状として)。
図18で説明されている方式は、八分の一狭帯域NELP符号化方式(「符号化方式3」)を使用して1フレーム当たり16ビットのレートで非アクティブフレームを符号化するが、そのうち10ビットを使用してスペクトル包絡線の記述を符号化し(例えば、1つまたは複数の量子化LSPベクトルとして)、5ビットを使用して時間包絡線の記述を符号化する(例えば、量子化利得フレームおよび/または利得形状として)。符号化方式3の他の実施例は、8ビットを使用してスペクトル包絡線の記述を符号化し、6ビットを使用して時間包絡線の記述を符号化する。
音声符号器または音声符号化方法は、図18に示されているような一組の符号化方式を使用して方法M130の一実装を実行するように構成されうる。例えば、そのような符号器または方法は、符号化方式3ではなく符号化方式2を使用して第2の符号化フレームを生成するように構成されうる。このような符号器または方法の様々な実装は、ビットレートrHが指示されている符号化方式1、ビットレートrMが指示されている符号化方式2、およびビットレートrLが指示されている符号化方式3を使用することにより、図10Aから13Bに示されている形で結果を生成するように構成されうる。
方法M130の一実装を実行するために図18に示されているような一組の符号化方式が使用される場合については、符号器または方法は、同じ符号化方式(方式2)を使用して第2の符号化フレームを生成し、符号化された無声フレームを生成するように構成される。他の場合には、方法M100の一実装を実行するように構成される符号器または方法は、専用符号方式(つまり、符号器または方法がアクティブフレームを符号化するためにも使用することのない符号方式)を使用して第2のフレームを符号化するように構成されうる。
図18に示されているように一組の符号化方式を使用する方法M130の一実装は、同じ符号化モード(つまり、NELP)を使用して第2および第3の符号化フレームを生成するように構成されるが、異なる(例えば、利得を計算する方法に関して)符号化モードのバージョンを使用してこれら2つの符号化フレームを生成することも可能である。第2および第3の符号化フレームが異なる符号化モードを使用して生成される(例えば、代わりにCELPモードを使用して第2の符号化フレームを生成する)方法M100の他の構成も、明示的に考えられ、これにより開示される。第2の符号化フレームが異なる周波数帯域に対し異なる符号化モード(例えば、低い帯域に対してはCELP、高い帯域にはNELP、またはその逆)を使用する分割帯域広帯域モードを使用して生成される方法M100の他の構成も、明示的に考えられ、これにより開示される。方法M100のそのような実装を実行するように構成されている音声符号化の音声符号器および方法も、明示的に考えられ、これにより開示される。
方法M100の一実装の典型的な適用では、ロジック素子のアレイ(例えば、ロジックゲート)は、この方法の様々なタスクのうちの1つ、複数、さらにはすべてを実行するように構成されている。これらのタスクのうちの1つまたは複数のタスク(場合によってはすべてのタスク)は、さらに、ロジック素子(例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)のアレイを含む機械(例えば、コンピュータ)により可読であり、および/または実行可能であるコンピュータプログラム製品(例えば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなどの1つまたは複数のデータ記憶媒体)内に具現化された、コード(例えば、1つまたは複数の命令セット)として実装されうる。方法M100の一実装のタスクは、さらに、複数のそのようなアレイまたは機械により実行することもできる。これら、または他の実装では、タスクは、携帯電話などの無線通信を行うデバイスまたはそのような通信機能を有する他のデバイス内で実行可能である。このようなデバイスは、回線交換方式および/またはパケット交換方式のネットワークと(例えば、VoIPなどの1つまたは複数のプロトコルを使用して)通信するように構成されうる。例えば、このようなデバイスは、符号化フレームを送信するように構成されたRF回路を備えることができる。
図18Bは、本明細書で説明されているようなタスクT120およびT130を含む一般的構成により方法M300を使用して音声信号の2つの連続フレームを符号化する演算を示している。(方法M300のこの実装では2つのフレームのみを処理するが、「第2のフレーム」および「第3のフレーム」というラベルの使用は、便宜上続けられている。)図18Bに示されている特定の実施例において、第3のフレームは第2のフレームの直後に続く。方法M300の他の適用では、第2および第3のフレームは、非アクティブフレームにより、または2つまたはそれ以上の非アクティブフレームの連続系列により音声信号内で区切ることができる。方法M300の他の適用では、第3のフレームは、第2のフレームではない音声信号の非アクティブフレームであってよい。方法M300の他の一般的な適用では、第2のフレームはアクティブでも非アクティブでもよい。方法M300の他の一般的な適用では、第2のフレームはアクティブでも非アクティブでもよく、また第3のフレームもアクティブでも非アクティブでもよい。図18Cは、タスクT120およびT130が、本明細書で説明されているように、それぞれ、タスクT122およびT132として実装される方法M300の一実装M310の適用を示している。方法M300の他の実装では、タスクT120は、本明細書で説明されているようにタスクT124として実装されている。第3の符号化フレームが第2の周波数帯域上のスペクトル包絡線の記述を含まないようにタスクT132を構成するのが望ましい場合がある。
図19Aは、本明細書で説明されているような方法M100の一実装および/または本明細書で説明されているような方法M300の一実装を含む音声符号化方法を実行するように構成された装置100のブロック図を示している。装置100は、音声活動検出器110、符号化方式選択器120、および音声符号器130を含む。音声活動検出器110は、音声信号のフレームを受信し、符号化すべきフレーム毎に、そのフレームがアクティブであるかまたは非アクティブであるかを示すように構成される。符号化方式選択器120は、音声活動検出器110の指示に応じて、符号化すべきフレーム毎に符号化方式を選択するように構成されている。音声符号器130は、選択された符号方式により、音声信号のフレームに基づく符号化フレームを生成するように構成されている。携帯電話などの、装置100を含む通信デバイスは、有線、無線、または光伝送路に送信する前に、誤り訂正および/または冗長符号化などの符号化フレームに対しさらなる処理演算を実行するように構成されうる。
音声活動検出器110は、符号化すべきそれぞれのフレームがアクティブであるか、または非アクティブであるかを示すように構成される。この指示は、二値信号であってよく、信号の一方の状態はフレームがアクティブであることを示し、信号の他の状態はフレームが非アクティブであることを示す。それとは別に、この指示は、アクティブおよび/または非アクティブフレームの複数のタイプを示すことができるように2つよりも多い状態を有する信号であってよい。例えば、アクティブフレームが有声であるか、無声であるかを示し、アクティブフレームを遷移、有声、または無声に分類し、場合によってはさらに、遷移フレームを立ち上がり過渡的または立ち下がり過渡的に分類するように検出器110を構成することが望ましい場合がある。符号化方式選択器120の対応する実装は、これらの指示に応じて、符号化すべきフレーム毎に符号化方式を選択するように構成される。
音声活動検出器110は、エネルギー、信号対雑音比、周期性、ゼロ交差率、スペクトル分布(例えば、1または複数のLSF、LSP、および/または反射係数を使用して評価されるような)などのフレームの1つまたは複数の特性に基づきフレームがアクティブであるか、または非アクティブがあるかを示すように構成されうる。この指示を生成するために、検出器110は、そのような特性の1つまたは複数のそれぞれについて、そのような特性の値または大きさを閾値と比較し、および/またはそのような特性の値または大きさの変化の大きさを閾値と比較するなどの演算を実行するように構成することができ、また閾値は固定でも適応的でもよい。
音声活動検出器110の一実装は、現在のフレームのエネルギーを評価し、エネルギー値が閾値よりも小さい(それとは別に、それ以下である)場合にフレームが非アクティブがあることを示すように構成されうる。そのような検出器は、フレームエネルギーをフレームサンプルの平方和として計算するように構成できる。音声活動検出器110の他の実装は、低周波帯域と高周波帯域のそれぞれにおける現在のフレームのエネルギーを評価し、それぞれの帯域に対するエネルギー値がそれぞれの閾値よりも小さい(それとは別に、それ以下である)場合にフレームが非アクティブがあることを示すように構成される。そのような検出器は、パスバンドフィルタをフレームに適用し、フィルタ処理されたフレームのサンプルの平方和を計算することにより帯域内のフレームエネルギーを計算するように構成されうる。
上記のように、音声活動検出器110の一実装は、1つまたは複数の閾値を使用するように構成できる。これらの値はそれぞれは、固定、または適応的であるものとしてよい。適応的閾値は、フレームまたは帯域の雑音レベル、フレームまたは帯域の信号対雑音比、所望の符号化レートなどの1つまたは複数の係数に基づくことができる。一実施例では、低周波帯域(例えば、300Hzから2kHzまで)および高周波帯域(例えば、2kHzから4kHzまで)のそれぞれについて使用される閾値は、前のフレームに対するその帯域における暗雑音レベルの推定値、前のフレームに対するその帯域における信号対雑音比、および所望の平均データ転送速度に基づく。
符号化方式選択器120は、音声活動検出器110の指示に応じて、符号化すべきフレーム毎に符号化方式を選択するように構成されている。符号化方式選択は、現在のフレームに対する音声活動検出器110からの指示、および/または1つまたは複数の前のフレームのそれぞれに対する音声活動検出器110からの指示に基づくことができる。いくつかの場合において、符号化方式選択は、さらに、1つまたは複数の後続フレームのそれぞれに対する音声活動検出器110からの指示に基づく。
図20Aは、図10Aに示されているような結果を得るために符号化方式選択器120の一実装により実行されうるテストの流れ図である。この実施例では、選択器120は、有声フレームについては高レートの符号化方式1を、非アクティブフレームについては低レートの符号化方式3を、無声フレームおよびアクティブフレームから非アクティブフレームへの遷移の後の第1の非アクティブフレームについては中間レートの符号化方式2を選択するように構成される。このような適用では、符号化方式1〜3は、図18に示されている3つの方式に準拠することができる。
符号化方式選択器120の代替え実装は、同等の結果を得るために図20Bの状態図に従って動作するように構成されうる。この図において、ラベル「A」は、アクティブフレームに応じて生じる状態遷移を示し、ラベル「I」は、非アクティブフレームに応じて生じる状態遷移を示し、様々な状態のラベルは、現在のフレームについて選択された符号化方式を示す。この場合、状態ラベル「方式1/2」は、符号化方式1または符号化方式2のいずれかが、フレームが有声であるか、無声であるかに応じて、現在のアクティブフレームについて選択されていることを示す。当業者であれば、代替えの一実装において、符号化方式選択器がアクティブフレームに対して1つの符号化方式のみ(例えば、符号化方式1)をサポートするようにこの状態が構成されうることを理解するであろう。さらなる代替え実装では、この状態は、符号化方式選択器がアクティブフレームに対し2つよりも多い異なる符号化方式のうちから選択する(例えば、有声、無声、および遷移フレームについて異なる符号化方式を選択する)ように構成できる。
図12Bを参照しつつ上で述べたように、音声符号器は、一番最近のアクティブフレームが少なくとも最低長を有する会話区間の一部である場合に限りより高いビットレートr2で非アクティブフレームを符号化するのが望ましいと考えられる。符号化方式選択器120の一実装は、図12Bに示されているような結果を得るために図21Aの状態図に従って動作するように構成されうる。この特定の実施例では、選択器は、フレームが少なくとも3フレーム分の長さを有する連続するアクティブフレームの列の直後に続く場合にのみ非アクティブフレームについて符号化方式2を選択するように構成される。この場合、状態ラベル「方式1/2」は、符号化方式1または符号化方式2のいずれかが、フレームが有声であるか、無声であるかに応じて、現在のアクティブフレームについて選択されていることを示す。当業者であれば、代替えの一実装において、符号化方式選択器がアクティブフレームに対して1つの符号化方式のみ(例えば、符号化方式1)をサポートするようにこれらの状態が構成されうることを理解するであろう。さらなる代替え実装では、これらの状態は、符号化方式選択器がアクティブフレームに対し2つよりも多い異なる符号化方式のうちから選択する(例えば、有声、無声、および遷移フレームについて異なる方式を選択する)ように構成できる。
図10Bおよび12Aを参照しつつ上で述べたように、音声符号器がハングオーバーを適用するのが望ましい場合がある(つまり、アクティブフレームから非アクティブフレームへの遷移の後に1つまたは複数の非アクティブフレームに対しより高いビットレートを使用することを続けるために)。符号化方式選択器120の一実装は、3フレーム分の長さを有するハングオーバーを適用するために図21Bの状態図に従って動作するように構成されうる。この図では、ハングオーバー状態は、「方式1(2)」とラベル付けされ、符号化方式1または符号化方式2のいずれかが、一番最近のアクティブフレームについて選択されている方式に応じて、現在の非アクティブフレームについて示されていることを表す。当業者であれば、代替えの一実装において、符号化方式選択器がアクティブフレームに対して1つの符号化方式のみ(例えば、符号化方式1)をサポートできることを理解するであろう。さらなる代替え実装では、ハングオーバー状態は、2つよりも多い異なる符号化方式のうちの1つを示し続けるように構成されうる(例えば、有声、無声、および遷移フレームについて、異なる方式がサポートされている場合)。さらなる代替え実装では、異なる方式(例えば、方式2)が一番最近のアクティブフレームについて選択されていた場合であっても、ハングオーバー状態の1つまたは複数が固定された方式(例えば、方式1)を示すように構成されうる。
図11Bおよび12Aを参照しつつ上で述べたように、音声符号器が音声信号の複数の非アクティブフレーム上で平均された情報に基づき第2の符号化フレームを生成することが望ましい場合がある。符号化方式選択器120の一実装は、このような結果をサポートするために図21Cの状態図に従って動作するように構成されうる。この特定の実施例では、選択器は、3つの非アクティブフレーム上で平均された情報に基づく第2の符号化フレームの生成を符号器に指令するように構成される。「方式2(avgを開始する)」というラベルが付いている状態は、現在のフレームが方式2で符号化され、さらに新しい平均(例えば、スペクトル包絡線の記述の平均)を計算するために使用されることを符号器に示す。「方式2(avgについて)」というラベルが付いている状態は、現在のフレームが方式2で符号化され、さらに平均を計算を続けるために使用されることを符号器に示す。「avgを送信、方式2」というラベルの付いている状態は、現在のフレームが、平均を完了するために使用され、次いで方式2を使用して送信されることを符号器に示す。当業者であれば、符号化方式選択器120の代替え実装は、異なる方式割り当てを使用し、および/または異なる数の非アクティブフレーム上で情報の平均をとることを示すように構成されうることを理解するであろう。
図19Bは、スペクトル包絡線記述計算器140、時間情報記述計算器150、およびフォーマッタ160を備える音声符号器130の一実装132のブロック図を示している。スペクトル包絡線記述計算器140は、符号化されるフレーム毎にスペクトル包絡線の記述を計算するように構成される。時間情報記述計算器150は、符号化されるフレーム毎に時間情報の記述を計算するように構成される。フォーマッタ160は、スペクトル包絡線の計算された記述および時間情報の計算された記述を含む符号化フレームを生成するように構成される。フォーマッタ160は、場合によっては異なる符号化方式に対し異なるフォーマットを使用して、所望のパケットフォーマットに従い符号化フレームを生成するように構成されうる。フォーマッタ160は、符号化フレームを生成し、符号化方式を識別する1つまたは複数のビットの集合、またはフレームが符号化される際の符号化レートまたはモード(「符号化インデックス」とも呼ばれる)などの追加の情報を含めるように構成されうる。
スペクトル包絡線記述計算器140は、符号化方式選択器120により示される符号化方式に従って、符号化されるフレーム毎にスペクトル包絡線の記述を計算するように構成される。記述は、現在のフレームに基づいており、また1つまたは複数の他のフレームの少なくとも一部にも基づくことができる。例えば、計算器140は、1つまたは複数の隣接するフレーム内に広がる窓を適用し、および/または2つまたはそれ以上のフレームの記述の平均(例えば、LSPベクトルの平均)を計算するように構成されうる。
計算器140は、LPC分析などのスペクトル分析を実行することによりフレームのスペクトル包絡線の記述を計算するように構成されうる。図19Cは、LPC分析モジュール170、変換ブロック180、および量子化器190を備えるスペクトル包絡線記述計算器140の一実装142のブロック図を示している。分析モジュール170は、フレームのLPC分析を実行し、モデルパラメータの対応する集合を生成するように構成される。例えば、分析モジュール170は、フィルタ係数または反射係数などのLPC係数のベクトルを生成するように構成することができる。分析モジュール170は、1つまたは複数の隣接するフレームの部分を含む窓上で分析を実行するように構成されうる。いくつかの場合には、分析モジュール170は、分析の次数(例えば、係数ベクトル中の要素の個数)が符号化方式選択器120により指示されている符号化方式に従って選択されるように構成される。
変換ブロック180は、モデルパラメータの集合を量子化を行うのにより効率的である形式に変換するように構成される。例えば、変換ブロック180は、LPC係数ベクトルをLSPの集合に変換するように構成されうる。いくつかの場合において、変換ブロック180は、LPC係数の集合を符号化方式選択器120により指示されている符号化方式に従って特定の形式に変換するように構成される。
量子化器190は、変換されたモデルパラメータ集合を量子化することにより量子化形式のスペクトル包絡線の記述を生成するように構成される。量子化器190は、変換された集合の要素を切り詰め、および/または変換された集合を表すように1つまたは複数の量子化テーブルインデックスを選択することにより、変換された集合を量子化するように構成されうる。いくつかの場合において、量子化器190は、変換された集合を符号化方式選択器120により指示されている符号化方式に従って特定の形式および/または長さに量子化するように(例えば、図18を参照にしつつ上で述べたように)構成される。
時間情報記述計算器150は、フレームの時間情報の記述を計算するように構成される。この記述は、同様に1つまたは複数の他のフレームの少なくとも一部の時間情報に基づいていてもよい。例えば、計算器150は、1つまたは複数の隣接するフレーム内に広がる窓上で記述を計算し、および/または2つまたはそれ以上のフレームの記述の平均を計算するように構成されうる。
時間情報記述計算器150は、符号化方式選択器120により示される符号化方式に従って、特定の形式および/または長さを有する時間情報の記述を計算するように構成されうる。例えば、計算器150は、選択された符号化方式に従って、ピッチ成分(例えば、ピッチ遅れ(遅延とも呼ばれる)、ピッチ利得、および/またはプロトタイプの記述)の記述を含みうる、(A)フレームの時間包絡線および(B)フレームの励振信号の一方または両方を含む時間情報の記述を計算するように構成されうる。
計算器150は、フレームの時間包絡線を含む時間情報の記述(例えば、利得フレーム値および/または利得形状値)を計算するように構成されうる。例えば、計算器150は、NELP符号化方式の指示に応じてそのような記述を出力するように構成されうる。本明細書で説明されているように、そのような記述を計算することは、フレームまたはサブフレーム上で信号エネルギーを信号サンプルの平方和として計算すること、他のフレームおよび/またはサブフレームの一部を含む窓上で信号エネルギーを計算すること、および/または計算された時間包絡線を量子化することを含むことができる。
計算器150は、フレームのピッチまたは周期に関係する情報を含むフレームの時間情報の記述を計算するように構成できる。例えば、計算器150は、CELP符号化方式の指示に応じて、ピッチ遅れおよび/またはピッチ利得などのフレームのピッチ情報を含む記述を出力するように構成されうる。それとは別に、またはそれに加えて、計算器150は、PPP符号化方式の指示に応じて、周期波形(「プロトタイプ」とも呼ばれる)を含む記述を出力するように構成されうる。ピッチおよび/またはプロトタイプ情報を計算することは、典型的には、LPC残余成分からそのような情報を抽出することを含み、また現在のフレームからのピッチおよび/またはプロトタイプ情報を1つまたは複数の過去のフレームからのそのような情報と組み合わせることも含むことができる。計算器150は、さらに、時間情報のそのような記述を(例えば、1つまたは複数のテーブルインデックスとして)量子化するように構成されうる。
計算器150は、励振信号を含むフレームの時間情報の記述を計算するように構成できる。例えば、計算器150は、CELP符号化方式の指示に応じて、励振信号を含む記述を出力するように構成されうる。励振信号を計算することは、典型的には、LPC残余成分からそのような信号を導出することを含み、また現在のフレームからの励振情報を1つまたは複数の過去のフレームからのそのような情報と組み合わせることも含むことができる。計算器150は、さらに、時間情報のそのような記述を(例えば、1つまたは複数のテーブルインデックスとして)量子化するように構成されうる。音声符号器132が緩和CELP(RCELP)符号化方式をサポートしている場合については、計算器150は、励振信号を正則化するように構成されうる。
図22Aは、時間情報記述計算器150の一実装152を含む音声符号器132の一実装134のブロック図を示している。計算器152は、スペクトル包絡線記述計算器140により計算されるようなフレームのスペクトル包絡線の記述に基づくフレームの時間情報の記述(例えば、励振信号、ピッチおよび/またはプロトタイプ情報)を計算するように構成されている。
図22Bは、フレームに対するLPC残余成分に基づき時間情報の記述を計算するように構成されている時間情報記述計算器152の一実装154のブロック図を示している。この実施例では、計算器154は、スペクトル包絡線記述計算器142により計算されるようなフレームのスペクトル包絡線の記述を受け取るように配列される。逆量子化器A10は、記述を逆量子化するように構成され、逆変換ブロックA20は、逆変換を逆量子化記述に適用してLPC係数の集合を求めるように構成されている。ホワイトニングフィルタA30は、LPC係数の集合に従って構成され、また音声信号をフィルタ処理してLPC残余成分を生成するように配列される。量子化器A40は、LPC残余成分に基づき、また場合によってはフレームのピッチ情報および/または1つまたは複数の過去のフレームから得られた時間情報にも基づくフレームに対する時間情報の記述を(例えば、1つまたは複数のテーブルインデックスとして)量子化するように構成されている。
音声符号器132の一実装を使用して、分割帯域符号化方式により広帯域音声信号のフレームを符号化するのが望ましい場合がある。そのような場合、スペクトル包絡線記述計算器140は、直列に、および/または並列に、また場合によっては異なる符号化モードおよび/またはレートに従って、それぞれの周波数帯域上でフレームのスペクトル包絡線の様々な記述を計算するように構成されうる。時間情報記述計算器150は、さらに、直列に、および/または並列に、また場合によっては異なる符号化モードおよび/またはレートに従って、様々な周波数帯域上でフレームの時間情報の記述を計算するように構成することもできる。
図23Aは、分割帯域符号化方式により広帯域音声信号を符号化するように構成されている装置100の一実装102のブロック図を示している。装置102は、音声信号をフィルタ処理して、第1の周波数帯域上の音声信号の成分を含むサブバンド信号(例えば、狭帯域信号)および第2の周波数帯域上の音声信号の成分を含むサブバンド信号(例えば、高帯域信号)を生成するように構成されているフィルタバンクA50を備える。このようなフィルタバンクの特定の実施例は、例えば、2007年4月19日に公開された「SYSTEMS,METHODS,AND APPARATUS FOR SPEECH SIGNAL FILTERING」という表題の米国特許出願公開第2007/088558号(Vosら)で説明されている。例えば、フィルタバンクA50は、音声信号をフィルタ処理して狭帯域信号を生成するように構成されたローパスフィルタおよび音声信号をフィルタ処理して高帯域信号を生成するように構成されたハイパスフィルタを備えることができる。フィルタバンクA50は、さらに、例えば、米国特許出願公開第2007/088558号(Vosら)で説明されているように、所望のそれぞれのデシメーション係数に従って、狭帯域信号および/または高帯域信号のサンプリングレートを下げるように構成されたダウンサンプラも備えることができる。装置102は、さらに、例えば、2007年4月19日に公開された「SYSTEMS,METHODS,AND APPARATUS FOR HIGHBAND BURST SUPPRESSION」という表題の米国特許出願公開第2007/088541号(Vosら)で説明されているような高帯域バースト抑制演算などの、雑音抑制演算を少なくとも高帯域信号に対し実行するように構成することもできる。
装置102は、さらに、符号化方式選択器120により選択された符号化方式により別のサブバンド信号を符号化するように構成されている音声符号器130の一実装136も備える。図23Bは、音声符号器136の一実装138のブロック図を示している。符号器138は、フィルタバンドA50により生成された狭帯域信号に基づき、また選択された符号化方式により、それぞれ、スペクトル包絡線および時間情報の記述を計算するように構成されている、スペクトル包絡線計算器140a(例えば、計算器142のインスタンス)および時間情報計算器150a(例えば、計算器152または154のインスタンス)を備える。符号器138は、フィルタバンドA50により生成された高帯域信号に基づき、また選択された符号化方式により、それぞれ、スペクトル包絡線および時間情報の計算された記述を生成するように構成されている、スペクトル包絡線計算器140b(例えば、計算器142のインスタンス)および時間情報計算器150b(例えば、計算器152または154のインスタンス)も備える。符号器138は、さらに、スペクトル包絡線および時間情報の計算された記述を含む符号化フレームを生成するように構成されているフォーマッタ160の一実装162も備える。
上述のように、広帯域音声信号の高帯域部分に対する時間情報の記述は、信号の狭帯域部分に対する時間情報の記述に基づくことができる。図24Aは、広帯域音声符号器136の対応する一実装139のブロック図を示している。上述の音声符号器138のように、符号器139は、スペクトル包絡線のそれぞれの記述を計算するように配列されているスペクトル包絡線記述計算器140aおよび140bを備える。音声符号器139は、さらに、狭帯域信号に対するスペクトル包絡線の計算された記述に基づき時間情報の記述を計算するように配列されている時間情報記述計算器152(例えば、計算器154)のインスタンス152aも備える。音声符号器139は、さらに、時間情報記述計算器150の一実装156も備える。計算器156は、狭帯域信号に対する時間情報の記述に基づく高帯域信号に対する時間情報の記述を計算するように構成される。
図24Bは、時間記述計算器156の一実装158のブロック図を示している。計算器158は、計算器152aにより生成されるような狭帯域励振信号に基づき高帯域励振信号を発生するように構成された高帯域励振信号発生器A60を備える。例えば、発生器A60は、スペクトル拡張、調和拡張、非線形拡張、スペクトル畳み込み、および/またはスペクトル平行移動などの演算を狭帯域励振信号(またはその1つまたは複数の成分)に対し実行して高帯域励振信号を発生させるように構成されうる。それに加えて、またはそれとは別に、発生器A60は、不規則雑音(例えば、擬似ランダムガウス雑音信号)のスペクトルおよび/または振幅整形を実行して、高帯域励振信号を発生させるように構成できる。発生器A60が擬似ランダム雑音信号を使用する場合、符号器および復号器によるこの信号の発生を同期させることが望ましい場合がある。高帯域励振信号を発生するそのような方法および装置は、例えば2007年4月19日に公開された「SYSTEMS,METHODS,AND APPARATUS FOR WIDEBAND SPEECH CODING」という表題の米国特許出願公開第2007/0088542号(Vosら)でさらに詳しく説明されている。図24Bの実施例では、発生器A60は、量子化された狭帯域励振信号を受信するように配列される。他の実施例では、発生器A60は、他の形式で(例えば、事前量子化または逆量子化形式で)狭帯域励振信号を受信するように配列される。
計算器158は、さらに、(計算器140bにより生成されるような)高帯域励振信号および高帯域信号のスペクトル包絡線の記述に基づく合成された高帯域信号を発生するように構成された合成フィルタA70も備える。フィルタA70は、典型的には、高帯域信号のスペクトル包絡線の記述内にある値の集合(例えば、1つまたは複数のLSPまたはLPC係数ベクトル)に従って、高帯域励振信号に応じて合成された高帯域信号を生成するように構成される。図24Bの実施例では、合成フィルタA70は、高帯域信号のスペクトル包絡線の量子化された記述を受け取るように配列され、またそれに応じて、逆量子化器および場合によっては逆変換ブロックを備えるように構成されうる。他の実施例では、フィルタA70は、他の形式で(例えば、事前量子化または逆量子化形式で)高帯域信号のスペクトル包絡線の記述を受け取るように配列される。
計算器158は、さらに、合成された高帯域信号の時間包絡線に基づき高帯域信号の時間包絡線の記述を計算するように構成された高帯域利得係数計算器A80も備える。計算器A80は、この記述を計算することで高帯域信号の時間包絡線と合成された高帯域信号の時間包絡線との間の1つまたは複数の距離を含めるように構成することができる。例えば、計算器A80は、そのような距離を利得フレーム値として(例えば、2つの信号の対応するフレームのエネルギーの大きさの比として、またはそのような比の平方根として)計算するように構成されうる。それに加えて、またはそれとは別に、計算器A80は、多数のそのような距離を利得形状値として(例えば、2つの信号の対応するサブフレームのエネルギーの大きさの比として、またはそのような比の平方根として)計算するように構成されうる。図24Bの実施例では、計算器158は、さらに、時間包絡線の計算された記述を(例えば、1つまたは複数の符号帳インデックスとして)量子化するように構成された量子化器A90も備える。計算器158の要素の様々な特徴および実装は、例えば、上で引用されているような米国特許出願公開第2007/0088542号(Vosら)において説明されている。
装置100の一実装の様々な要素は、対象のアプリケーションに適しているとみなされるハードウェア、ソフトウェア、および/またはファームウェアの任意の組合せで具現化されうる。例えば、そのような要素は、例えば、同じチップ上、またはチップセット内の2つまたはそれ以上のチップ間に置かれる電子および/または光デバイスとして製造できる。このようなデバイスの一実施例は、トランジスタまたはロジックゲートなどの固定された、またはプログラム可能なロジック素子のアレイであり、これらの要素はどれも、1つまたは複数のそのようなアレイとして実装されうる。これらの要素の2つまたはそれ以上、さらにはすべてが、同じ1つまたは複数のアレイ内に実装することができる。このような1つまたは複数のアレイは、1つまたは複数のチップ内に(例えば、2つまたはそれ以上のチップを含むチップセット内に)実装されうる。
本明細書で説明されているような装置100の様々は実装の1つまたは複数の要素は、マイクロプロセッサ、組み込み型プロセッサ、IPコア、デジタルシグナルプロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)などのロジック素子の1つまたは複数の固定もしくはプログラム可能なアレイ上で実行するように配置された1つまたは複数の命令セットとして全体または一部実装されうる。装置100の一実装の様々な要素はどれも、さらに、1つまたは複数のコンピュータ(例えば、「プロセッサ」とも呼ばれる、1つまたは複数の命令セットまたは命令シーケンスを実行するようにプログラムされている1つまたは複数のアレイを備える機械)として具現化することができ、これらの要素のどれか2つまたはそれ以上、さらにはすべてが、同じそのような1つまたは複数のコンピュータ内に実装できる。
装置100の一実装の様々な要素は、携帯電話などの無線通信を行うためのデバイスまたはそのような通信機能を有する他のデバイス内に収めることができる。このようなデバイスは、回線交換方式および/またはパケット交換方式のネットワークと(例えば、VoIPなどの1つまたは複数のプロトコルを使用して)通信するように構成されうる。そのようなデバイスは、インタリービング、パンクチャリング、畳み込み符号化、誤り訂正符号化、ネットワークプロトコル(例えば、Ethernet(登録商標)、TCP/IP、cdma2000)の1つまたは複数の層の符号化、無線周波(RF)変調、および/またはRF伝送などの演算を符号化フレームを伝送する信号に実行するように構成されうる。
装置100の一実装の1つまたは複数の要素を、装置が組み込まれるデバイスまたはシステムの他の動作に関係するタスクなど、装置の動作に直接的には関係しないタスクを実行するか、または他の命令セットを実行するために使用することが可能である。また、装置100の一実装の1つまたは複数の要素は、構造を共通して持つことが可能である(例えば、異なる時刻に異なる要素に対応するコードの部分を実行するために使用されるプロセッサ、異なる時刻に異なる要素に対応するタスクを実行するために実行される命令セット、または異なる時刻に異なる要素に対する演算を実行する電子および/または光デバイスの配列)。このような一実施例では、音声活動検出器110、符号化方式選択器120、および音声符号器130は、同じプロセッサ上で実行するように配列された命令セットとして実装される。他のこのような実施例では、スペクトル包絡線記述計算器140aおよび140bは、異なる時刻に実行する同じ命令セットとして実装される。
図25Aは、一般的構成により符号化音声信号を処理する方法M200の流れ図である。方法M200は、2つの符号化フレームから得られる情報を受け取り、音声信号の2つの対応するフレームのスペクトル包絡線の記述を生成するように構成される。タスクT210は、第1の符号化フレーム(「基準」符号化フレームとも呼ばれる)から得られる情報に基づき、第1および第2の周波数帯域上の音声信号の第1のフレームのスペクトル包絡線の記述を取得する。タスクT220は、第2の符号化フレームから得られる情報に基づき、第1の周波数帯域上の音声信号の第2のフレーム(「ターゲット」フレームとも呼ばれる)のスペクトル包絡線の記述を取得する。タスクT230は、基準符号化フレームから得られる情報に基づき、第2の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得する。
図26は、2つの符号化フレームから得られる情報を受け取り、音声信号の2つの対応する非アクティブフレームのスペクトル包絡線の記述を生成する方法M200の適用を示している。タスクT210は、基準符号化フレームから得られる情報に基づき、第1および第2の周波数帯域上の第1の非アクティブフレームのスペクトル包絡線の記述を取得する。この記述は、両方の周波数帯域に及ぶ単一の記述であるか、またはそれらの周波数帯域のうちのそれぞれの1つにそれぞれ及ぶ別々の記述を含むことができる。タスクT220は、第2の符号化フレームから得られる情報に基づき、第1の周波数帯域上の(例えば、狭帯域範囲上の)ターゲットの非アクティブフレームのスペクトル包絡線の記述を取得する。タスクT230は、基準符号化フレームから得られる情報に基づき、第2の周波数帯域上の(例えば、高帯域範囲上の)ターゲットの非アクティブフレームのスペクトル包絡線の記述を取得する。
図26は、スペクトル包絡線の記述がLPC次数を有し、また第2の周波数帯域上のターゲットフレームのスペクトル包絡線の記述のLPC次数が第1の周波数帯域上のターゲットフレームのスペクトル包絡線の記述のLPC次数よりも小さい一実施例を示している。他の実施例は第2の周波数帯域上のターゲットフレームのスペクトル包絡線の記述のLPC次数が第1の周波数帯域上のターゲットフレームのスペクトル包絡線の記述のLPC次数の少なくとも50パーセントの、少なくとも60パーセントの、75パーセント以下の、80パーセント以下の、等しい、およびそれよりも大きい次数である場合を含む。特定の一実施例では、第1および第2の周波数帯域上のターゲットフレームのスペクトル包絡線の記述のLPC次数は、それぞれ、10および6である。図26は、さらに、第1および第2の周波数帯域上の第1の非アクティブフレームのスペクトル包絡線の記述のLPC次数が、第1および第2の周波数帯域上のターゲットフレームのスペクトル包絡線の記述のLPC次数の総和に等しい一実施例を示している。他の実施例では、第1および第2の周波数帯域上の第1の非アクティブフレームのスペクトル包絡線の記述のLPC次数は、第1および第2の周波数帯域上のターゲットフレームのスペクトル包絡線の記述のLPC次数の総和よりも大きいか、または小さくてもよい。
タスクT210およびT220はそれぞれ、符号化フレームを解析してスペクトル包絡線の量子化された記述を抽出する演算、およびスペクトル包絡線の量子化された記述を逆量子化してそのフレームに対する符号化モデルのパラメータの集合を取得する演算の一方または両方を含むように構成されうる。タスクT210およびT220の典型的な実装は、これらの演算の両方を含み、それぞれのタスクは、それぞれの符号化フレームを処理してスペクトル包絡線の記述をモデルパラメータ集合の形式で生成する(例えば、1つまたは複数のLSF、LSP、ISF、ISP、および/またはLPC係数ベクトル)。特定の一実施例では、基準符号化フレームは、80ビットの長さを有し、第2の符号化フレームは、16ビットの長さを有する。他の実施例では、第2の符号化フレームの長さは、基準符号化フレームの長さの20、25、30、40、50、または60パーセント以下である。
基準符号化フレームは、第1および第2の周波数帯域上のスペクトル包絡線の量子化された記述を含むことができ、第2の符号化フレームは、第1の周波数帯域上のスペクトル包絡線の量子化された記述を含むことができる。特定の一実施例では、基準符号化フレーム内に含まれている第1および第2の周波数帯域上のスペクトル包絡線の量子化された記述は、40ビットの長さを有し、第2の符号化フレーム内に含まれる第1の周波数帯域上のスペクトル包絡線の量子化された記述は、10ビットの長さを有する。他の実施例では、第2の符号化フレーム内に含まれている第1の周波数帯域上のスペクトル包絡線の量子化された記述の長さは、基準符号化フレーム内に含まれる第1および第2の周波数帯域上のスペクトル包絡線の量子化された記述の長さの25、30、40、50、または60パーセント以下である。
タスクT210およびT220は、さらに、それぞれの符号化フレームから得られた情報に基づき時間情報の記述を生成するように実装することも可能である。例えば、これらのタスクの一方または両方は、それぞれの符号化フレームから得られる情報に基づき、時間包絡線の記述、励振信号の記述、および/またはピッチ情報の記述を取得するように構成されうる。スペクトル包絡線の記述を取得する場合と同様に、そのようなタスクは、符号化フレームから得られる時間情報の量子化された記述を解析すること、および/または時間情報の量子化された記述を逆量子化することを含むことができる。方法M200の実装は、さらに、タスクT210および/またはタスクT220が、1つまたは複数の前の符号化フレームから得られる情報などの、1つまたは複数の他の符号化フレームから得られる情報にも基づきスペクトル包絡線の記述および/または時間情報の記述を取得するように構成されうる。例えば、フレームの励振信号および/またはピッチ情報の記述は、典型的には、前のフレームから得られる情報に基づく。
基準符号化フレームは、第1および第2の周波数帯域に対する時間情報の量子化された記述を含むことができ、第2の符号化フレームは、第1の周波数帯域に対する時間情報の量子化された記述を含むことができる。特定の一実施例では、基準符号化フレーム内に含まれている第1および第2の周波数帯域に対する時間情報の量子化された記述は、34ビットの長さを有し、第2の符号化フレーム内に含まれる第1の周波数帯域に対する時間情報の量子化された記述は、5ビットの長さを有する。他の実施例では、第2の符号化フレーム内に含まれている第1の周波数帯域に対する時間情報の量子化された記述の長さは、基準符号化フレーム内に含まれる第1および第2の周波数帯域に対する時間情報の量子化された記述の長さの15、20、25、30、40、50、または60パーセント以下である。
方法M200は、典型的には、音声復号化のより大きな方法の一部として実行され、音声復号器および方法M200を実行するように構成されている音声復号化の方法は、明示的に考えられ、ここで開示される。音声コーダは、符号器のところで方法M100の一実装を実行し、復号器のところで方法M200の一実装を実行するように構成されうる。このような場合、タスクT120により符号化されるような「第2のフレーム」は、タスクT210およびT230により処理された情報を供給する基準符号化フレームに対応し、タスクT130により符号化されるような「第3のフレーム」は、タスクT220により処理された情報を供給する符号化フレームに対応する。図27Aは、方法M100を使用して符号化され、方法M200を使用して復号化される連続するフレームの系列の実施例を使用することで方法M100と方法M200との間のこのような関係を示す。それとは別に、音声コーダは、符号器のところで方法M300の一実装を実行し、復号器のところで方法M200の一実装を実行するように構成されうる。図27Bは、方法M300を使用して符号化され、方法M200を使用して復号化される連続するフレームの対の実施例を使用することで方法M300と方法M200との間のこのような関係を示す。
しかし、方法M200は、さらに、連続していない符号化フレームから得られる情報を処理するためにも適用できることに留意されたい。例えば、方法M200は、タスクT220およびT230が連続していないそれぞれの符号化フレームから得られる情報を処理するように適用されうる。方法M200は、典型的には、タスクT230が基準符号化フレームに関して繰り返し、またタスクT220が基準符号フレームの後に続く連続する符号化された非アクティブフレームの系列で繰り返し、連続するターゲットフレームの対応する系列を生成するように実装される。このような繰り返しは、例えば、新しい基準符号化フレームが受信されるまで、符号化されたアクティブフレームが受信されるまで、および/または最大数のターゲットフレームが生成されるまで、続きうる。
タスクT220は、第2の符号化フレームから得られる情報に少なくとも主に基づき、第1の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得するように構成される。例えば、タスクT220は、第2の符号化フレームから得られる情報に完全に基づき、第1の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得するように構成されうる。それとは別に、タスクT220は、1つまたは複数の前の符号化フレームから得られる情報などの、他の情報にも基づき、第1の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得するように構成されうる。このような場合、タスクT220は、第2の符号化フレームから得られる情報に対し、他の情報に比べて大きな重みを付けるように構成される。例えば、タスクT220のそのような実装は、第1の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を第2の符号化フレームから得られる情報と前の符号化フレームから得られる情報の平均として計算するように構成することができ、第2の符号化フレームから得られる情報は、前の符号化フレームから得られる情報に比べて大きな重みを付けられる。同様に、タスクT220は、第2の符号化フレームから得られる情報に少なくとも主に基づき、第1の周波数帯域に対するターゲットフレームの時間情報の記述を取得するように構成されうる。
タスクT230は、基準符号化フレームから得られる情報(本明細書では「基準スペクトル情報」とも称される)に基づき、第2の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得する。図25Bは、タスクT230の一実装T232を含む方法M200の一実装M210の流れ図を示している。タスクT230の一実装として、タスクT232は、基準スペクトル情報に基づき、第2の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得する。この場合、基準スペクトル情報は、音声信号の第1のフレームのスペクトル包絡線の記述内に含まれる。図28は、2つの符号化フレームから得られる情報を受け取り、音声信号の2つの対応する非アクティブフレームのスペクトル包絡線の記述を生成する方法M210の適用を示している。
タスクT230は、基準スペクトル情報に少なくとも主に基づき、第2の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得するように構成される。例えば、タスクT230は、基準スペクトル情報に完全に基づき、第2の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得するように構成されうる。それとは別に、タスクT230は、(A)基準スペクトル情報に基づく第2の周波数帯域上のスペクトル包絡線の記述、および(B)第2の符号化フレームから得られる情報に基づく第2の周波数帯域上のスペクトル包絡線の記述に基づく第2の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得するように構成されうる。
このような場合、タスクT230は、基準スペクトル情報に基づく記述に、第2の符号化フレームから得られる情報に基づく記述に比べて大きな重みを付けるように構成されうる。例えば、タスクT230のそのような実装は、第2の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を、基準スペクトル情報および第2の符号化フレームから得られる情報に基づく記述の平均として計算するように構成することができ、その際に、基準スペクトル情報に基づく記述は、第2の符号化フレームから得られる情報に基づく記述に比べて大きな重みを付けられる。他の場合には、基準スペクトル情報に基づく記述のLPC次数は、第2の符号化フレームから得られる情報に基づく記述のLPC次数よりも大きくてもよい。例えば、第2の符号化フレームから得られる情報に基づく記述のLPC次数は1としてよい(例えば、スペクトル傾斜値)。同様に、タスクT230は、基準時間情報に少なくとも主に基づき(例えば、基準時間情報に完全に基づくか、または第2の符号化フレームから得られる情報にも、また部分的に基づく)、第2の周波数帯域に対するターゲットフレームの時間情報の記述を取得するように構成されうる。
タスクT210は、基準符号化フレームから、第1および第2の周波数帯域の両方における単一の全帯域表現であるスペクトル包絡線の記述を取得するように実装されうる。しかし、第1の周波数帯域上、また第2の周波数帯域上のスペクトル包絡線の別の記述としてこの記述を取得するようにタスクT210を実装するのがより典型的である。例えば、タスクT210は、本明細書で説明されているように分割帯域符号化方式(例えば、符号化方式2)を使用して符号化されている基準符号化フレームから別の記述を取得するように構成されうる。
図25Cは、タスクT210が2つのタスクT212aおよびT212bとして実装される方法M210の一実装M220の流れ図を示している。タスクT212aは、基準符号化フレームから得られる情報に基づき、第1の周波数帯域上の第1のフレームのスペクトル包絡線の記述を取得する。タスクT212bは、基準符号化フレームから得られる情報に基づき、第2の周波数帯域上の第1のフレームのスペクトル包絡線の記述を取得する。タスクT212aおよびT212bはそれぞれ、それぞれの符号化フレームから得られるスペクトル包絡線の量子化された記述を解析すること、および/またはスペクトル包絡線の量子化された記述を逆量子化することを含むことができる。図29は、2つの符号化フレームから得られる情報を受け取り、音声信号の2つの対応する非アクティブフレームのスペクトル包絡線の記述を生成する方法M220の適用を示している。
方法M220は、さらに、タスクT232の一実装T234も含む。タスクT230の一実装として、タスクT234は、基準スペクトル情報に基づく第2の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得する。タスクT232の場合のように、基準スペクトル情報は、音声信号の第1のフレームのスペクトル包絡線の記述内に含まれる。タスクT234の特定の場合に、基準スペクトル情報は、第2の周波数帯域上の第1のフレームのスペクトル包絡線の記述内に含まれる(また場合によっては同じである)。
図29は、スペクトル包絡線の記述がLPC次数を有し、また第1および第2の周波数帯域上の第1の非アクティブフレームのスペクトル包絡線の記述のLPC次数がそれぞれの周波数帯域上のターゲットの非アクティブフレームのスペクトル包絡線の記述のLPC次数に等しい一実施例を示している。他の実施例は、第1および第2の周波数帯域上の第1の非アクティブフレームのスペクトル包絡線の記述の一方または両方がそれぞれの周波数帯域上のターゲットの非アクティブフレームのスペクトル包絡線の対応する記述に比べて大きい場合を含む。
基準符号化フレームは、第1の周波数帯域上のスペクトル包絡線の記述の量子化された記述および第2の周波数帯域上のスペクトル包絡線の記述の量子化された記述を含むことができる。特定の一実施例では、基準符号化フレーム内に含まれている第1の周波数帯域上のスペクトル包絡線の記述の量子化された記述は、28ビットの長さを有し、基準符号化フレーム内に含まれる第2の周波数帯域上のスペクトル包絡線の記述の量子化された記述は、12ビットの長さを有する。他の実施例では、基準符号化フレーム内に含まれている第2の周波数帯域上のスペクトル包絡線の記述の量子化された記述の長さは、基準符号化フレーム内に含まれる第1の周波数帯域上のスペクトル包絡線の記述の量子化された記述の長さの45、50、60、または70パーセント以下である。
基準符号化フレームは、第1の周波数帯域に対する時間情報の記述の量子化された記述および第2の周波数帯域に対する時間情報の記述の量子化された記述を含むことができる。特定の一実施例では、基準符号化フレーム内に含まれている第2の周波数帯域に対する時間情報の記述の量子化された記述は、15ビットの長さを有し、基準符号化フレーム内に含まれる第1の周波数帯域に対する時間情報の記述の量子化された記述は、19ビットの長さを有する。他の実施例では、基準符号化フレーム内に含まれている第2の周波数帯域に対する時間情報の量子化された記述の長さは、基準符号化フレーム内に含まれる第1の周波数帯域に対する時間情報の記述の量子化された記述の長さの80または90パーセント以下である。
第2の符号化フレームは、第1の周波数帯域上のスペクトル包絡線の量子化された記述および/または第1の周波数帯域に対する時間情報の量子化された記述を含むことができる。特定の一実施例では、第2の符号化フレーム内に含まれる第1の周波数帯域上のスペクトル包絡線の記述の量子化された記述は、10ビットの長さを有する。他の実施例では、第2の符号化フレーム内に含まれている第1の周波数帯域上のスペクトル包絡線の記述の量子化された記述の長さは、基準符号化フレーム内に含まれる第1の周波数帯域上のスペクトル包絡線の記述の量子化された記述の長さの40、50、60、70、または75パーセント以下である。特定の一実施例では、第2の符号化フレーム内に含まれる第1の周波数帯域に対する時間情報の記述の量子化された記述は、5ビットの長さを有する。他の実施例では、第2の符号化フレーム内に含まれている第1の周波数帯域に対する時間情報の記述の量子化された記述の長さは、基準符号化フレーム内に含まれる第1の周波数帯域に対する時間情報の記述の量子化された記述の長さの30、40、50、60、または70パーセント以下である。
方法M200の典型的に一実装では、基準スペクトル情報は、第2の周波数帯域上のスペクトル包絡線の記述である。この記述は、1つまたは複数のLSP、LSF、ISP、ISF、またはLPC係数ベクトルなどのモデルパラメータの集合を含むことができる。一般に、この記述は、タスクT210により基準符号化フレームから得られるような第2の周波数帯域上の第1の非アクティブフレームのスペクトル包絡線の記述である。また、基準スペクトル情報は、第1の周波数帯域上の、および/または他の周波数帯域上のスペクトル包絡線(例えば、第1の非アクティブフレーム)の記述を含むことも可能である。
タスクT230は、典型的には、半導体メモリなどの記憶素子のアレイ(本明細書では「バッファ」とも呼ばれる)から基準スペクトル情報を取り出す演算を含む。基準スペクトル情報が第2の周波数帯域上のスペクトル包絡線の記述を含む場合については、基準スペクトル情報を取り出す動作は、タスクT230を完了させるのに十分なものと考えられる。しかし、そのような場合であっても、単にそれを取り出すのではなく、第2の周波数帯域上のターゲットフレームのスペクトル包絡線の記述(本明細書では「ターゲットスペクトル記述」ともいう)を計算するようにタスクT230を構成することが望ましい場合がある。例えば、タスクT230は、基準スペクトル情報に不規則雑音を加えることによりターゲットスペクトル記述を計算するように構成されうる。それとは別に、またはそれに加えて、タスクT230は、1つまたは複数の追加の符号化フレームから得られるスペクトル情報に基づいて(例えば、複数の基準符号化フレームから得られる情報に基づいて)記述を計算するように構成されうる。例えば、タスクT230は、2つまたはそれ以上の基準符号化フレームから第2の周波数帯域上のスペクトル包絡線の記述の平均としてターゲットスペクトル記述を計算するように構成することができ、そのような計算は、不規則雑音を計算された平均に加えることを含むことができる。
タスクT230は、基準スペクトル情報からの時間に関する外挿または2つまたはそれ以上の基準符号化フレームからの第2の周波数帯域上のスペクトル包絡線の記述間の時間に関する内挿によりターゲットスペクトル記述を計算するように構成されうる。それとは別に、またはそれに加えて、タスクT230は、他の周波数帯域上の(例えば、第1の周波数帯域上の)ターゲットフレームのスペクトル包絡線の記述からの周波数に関する外挿および/または他の周波数帯域上のスペクトル包絡線の記述間の周波数に関する内挿によりターゲットスペクトル記述を計算するように構成されうる。
典型的には、基準スペクトル情報をおよびターゲットスペクトル記述は、スペクトルパラメータ値のベクトルである(または「スペクトルベクトル」)。このような一実施例では、ターゲットおよび基準スペクトルベクトルは両方ともLSPベクトルである。他の実施例では、ターゲットおよび基準スペクトルベクトルは両方ともLPC係数ベクトルである。さらなる他の実施例では、ターゲットおよび基準スペクトルベクトルは両方とも反射係数ベクトルである。タスクT230は、sti=sri ∀i∈{1,2,...,n}などの式により基準スペクトル情報からのターゲットスペクトル記述をコピーするように構成されうるが、ただし、sはターゲットスペクトルベクトルであり、sは、基準スペクトルベクトル(その値は、典型的には−1から+1までの範囲内)であり、iは、ベクトル要素のインデックスであり、nは、ベクトルsの長さである。この演算の一変更形態として、タスクT230は、重み係数(または重み係数のベクトル)を基準スペクトルベクトルに適用するように構成される。この演算の他の変更形態では、タスクT230は、zをランダム値のベクトルとするsti=sri+z ∀i∈{1,2,...,n}などの式により不規則雑音を基準スペクトルベクトルに加えることによりターゲットスペクトルベクトルを計算するように構成される。このような場合、zのそれぞれの要素は、値が所望の範囲にわたって(例えば一様に)分布するランダム変数とすることができる。
ターゲットスペクトル記述の値は有界である(例えば、−1から+1の範囲内である)ことを保証するのが望ましい場合がある。このような場合、タスクT230は、sti=wsri+z ∀i∈{1,2,...,n}などの式によりターゲットスペクトル記述を計算するように構成することができるが、ただし、wは、0と1との間(例えば、0.3から0.9までの間)の値を有し、zのそれぞれの要素の値は(例えば一様に)−(1−w)から+(1−w)までの範囲上に分布する。
他の実施例では、タスクT230は、複数の基準符号化フレームのそれぞれから(例えば、2つの一番最近の基準符号化フレームのそれぞれから)の第2の周波数帯域上のスペクトル包絡線の記述に基づいてターゲットスペクトル記述を計算するように構成されている。このような一実施例では、タスクT230は、
Figure 0005596189
などの式により基準符号化フレームから得られる情報の平均としてターゲットスペクトル記述を計算するように構成されるが、ただし、sr1は、一番最近の基準符号化フレームから得られるスペクトルベクトルを表し、sr2は、二番目に最近の基準符号化フレームから得られるスペクトルベクトルを表す。関連する一実施例では、基準ベクトルは、互いに異なる重みを付けられる(例えば、より最近の基準符号化フレームからのベクトルは、より大きな重みを付けられる)。
さらに他の一実施例では、タスクT230は、2つまたはそれ以上の基準符号化フレームから得られる情報に基づく範囲上のランダム値の集合としてターゲットスペクトル記述を生成するように構成される。例えば、タスクT230は、
Figure 0005596189
などの式により2つの一番最近の基準符号化フレームのそれぞれからのスペクトルベクトルのランダム化された平均としてターゲットスペクトルベクトルsを計算するように構成することができるが、ただし、zのそれぞれの要素の値は、−1から+1までの範囲上に(例えば、一様に)分布する。図30Aは、ランダムベクトルzが繰り返し毎に再評価され、開円が値stiを示している、連続するターゲットフレームの系列のそれぞれに対するタスクT230のそのような一実装を繰り返した結果(iのn個の値のうちの1つについて)を例示している。
タスクT230は、2つの一番最近の基準フレームから得られた第2の周波数帯域上のスペクトル包絡線の記述間の内挿によりターゲットスペクトル記述を計算するように構成されうる。例えば、タスクT230は、pを調節可能なパラメータとしてp個のターゲットフレームの系列上で線形内挿を実行するように構成されうる。このような場合、タスクT230は、
Figure 0005596189
などの式によりこの系列内のj番目のターゲットフレームに対するターゲットスペクトルベクトルを計算するように構成されうる。図30Bは、(iのn個の値のうちの1つについて)連続するターゲットフレームの系列上でタスクT230のそのような一実装を繰り返した結果を例示しているが、ただし、pは、8に等しく、それぞれの開円は、対応するターゲットフレームに対する値stiを示す。pの値の他の実施例は、4、16、および32を含む。不規則雑音を内挿された記述に加えるようにタスクT230のそのような一実装を構成することが望ましいと思われる。
図30Bは、さらに、タスクT230がpよりも長い系列のそれぞれの後続のターゲットフレームについて(例えば、新しい基準符号化フレームまたは次のアクティブフレームが届くまで)基準ベクトルsr1をターゲットベクトルsにコピーするように構成されている一実施例を示している。関連する一実施例では、ターゲットフレームのこの系列は、長さmpを有し、mは1よりも大きい整数(例えば、2もしくは3)であり、p個の計算されたベクトルのそれぞれは、系列内のm個の対応する連続するターゲットフレームのそれぞれに対するターゲットスペクトル記述として使用される。
タスクT230は、2つの一番最近の基準フレームから得られた第2の周波数帯域上のスペクトル包絡線の記述間の内挿を実行するように多くの異なる方法で実装されうる。他の実施例では、タスクT230は、0<j≦qとなるすべての整数jについて
Figure 0005596189
、q<j≦pとなるすべての整数jについて
Figure 0005596189
などの式のペアに従って系列内のj番目のターゲットフレームに対するターゲットベクトルを計算することによりp個のターゲットフレームの系列上で線形内挿を実行するように構成されている。図30Cは、qが値4を有し、pが値8を有する、連続するターゲットフレームの系列のそれぞれに対するタスクT230のそのような一実装を繰り返した結果(iのn個の値のうちの1つについて)を例示している。このような構成をとることで、第1のターゲットフレームへの遷移は図30Bに示されている結果よりも滑らかになりうる。
タスクT230は、qおよびpの正の整数値について類似の方法で実装することで、使用されうる(q,p)の値の特定の例として、(4,8)、(4,12)、(4,16)、(8,16)、(8,24)、(8,32)、および(16,32)がある。上述のように関連する実施例では、p個の計算されたベクトルのそれぞれが、mp個のターゲットフレームの系列内のm個の対応する連続するターゲットフレームのそれぞれに対するターゲットスペクトル記述として使用される。不規則雑音を内挿された記述に加えるようにタスクT230のそのような一実装を構成することが望ましいと思われる。図30Cは、さらに、タスクT230がpよりも長い系列のそれぞれの後続のターゲットフレームについて(例えば、新しい基準符号化フレームまたは次のアクティブフレームが届くまで)基準ベクトルsr1をターゲットベクトルsにコピーするように構成されている一実施例を示している。
タスクT230は、基準スペクトル情報に加えて、他の周波数帯域上の1つまたは複数のフレームのスペクトル包絡線に基づきターゲットスペクトル記述を計算するように実装することもできる。例えば、タスクT230のそのような一実装は、他の周波数帯域上の(例えば、第1の周波数帯域上の)現在のフレームおよび/または1つまたは複数の前のフレームのスペクトル包絡線からの周波数に関する外挿によりターゲットスペクトル記述を計算するように構成されうる。
タスクT230は、さらに、基準符号化フレームから得られる情報(本明細書では「基準時間情報」とも呼ばれる)に基づき、第2の周波数帯域上のターゲットの非アクティブフレームの時間情報の記述を取得するように構成されうる。基準時間情報は、典型的には、第2の周波数帯域上の時間情報の記述である。この記述は、1つまたは複数の利得フレーム値、利得プロファイル値、ピッチパラメータ値、および/または符号帳インデックスを含むことができる。一般に、この記述は、タスクT210により基準符号化フレームから得られるような第2の周波数帯域上の第1の非アクティブフレームの時間情報の記述である。また、基準時間情報は、第1の周波数帯域上の、および/または他の周波数帯域上の時間情報(例えば、第1の非アクティブフレーム)の記述を含むことも可能である。
タスクT230は、基準時間情報をコピーすることにより、第2の周波数帯域上のターゲットのフレームの時間情報の記述(本明細書では「ターゲット時間記述」とも呼ばれる)を取得するように構成されうる。それとは別に、基準時間情報に基づいて計算することによりターゲット時間記述を取得するようにタスクT230を構成することが望ましい場合がある。例えば、タスクT230は、基準時間情報に不規則雑音を加えることによりターゲット時間記述を計算するように構成されうる。タスクT230は、複数の基準符号化フレームから得られる情報に基づきターゲット時間記述を計算するように構成することもできる。例えば、タスクT230は、2つまたはそれ以上の基準符号化フレームから第2の周波数帯域上の時間情報の記述の平均としてターゲット時間記述を計算するように構成することができ、そのような計算は、不規則雑音を計算された平均に加えることを含むことができる。
ターゲット時間記述および基準時間情報はそれぞれ、時間包絡線の記述を含んでもよい。上記のように、時間包絡線の記述は、1つの利得フレーム値および/または利得形状値の集合を含むことができる。それとは別に、またはそれに加えて、ターゲット時間記述および基準時間情報は、励振信号の記述をそれぞれ含んでいてもよい。励振信号の記述は、ピッチ成分の記述(例えば、ピッチ遅れ、ピッチ利得、および/またはプロトタイプの記述)を含むことができる。
タスクT230は、典型的には、ターゲット時間記述の利得形状を平坦な形状に設定するように構成されている。例えば、タスクT230は、ターゲット時間記述の利得形状値を互いに等しい値に設定するように構成されうる。タスクT230のそのような一実装は、すべての利得形状値を係数1(例えば、0dB)に設定するように構成される。タスクT230の他のそのような実装は、nをターゲット時間記述内の利得形状値の個数として、すべての利得形状値を係数1/nに設定するように構成される。
タスクT230は、ターゲットフレームの系列のそれぞれについてターゲット時間記述を計算するように繰り返すことができる。例えば、タスクT230は、一番最近の基準符号化フレームからの利得フレーム値に基づき連続するターゲットフレームの系列のそれぞれについて利得フレーム値を計算するように構成されうる。このような場合、時間包絡線の系列はそうしないと不自然に滑らかなものとして知覚されうるので、それぞれのターゲットフレームについて不規則雑音を利得フレーム値に加える(それとは別に、系列内の第1のフレームの後のそれぞれのターゲットフレームについて不規則雑音を利得フレーム値に加える)ようにタスクT230を構成することが望ましいと場合がある。タスクT230のそのような一実装は、g=zgまたはg=wg+(1−w)zなどの式により系列内のそれぞれのターゲットフレームについて利得フレーム値gを計算するように構成することができるが、ただし、gは、基準符号化フレームから得られる利得フレーム値であり、zは、ターゲットフレームの系列のそれぞれについて再評価されるランダム値であり、wは、重み係数である。zの値に対する典型的な範囲は、0から1まで、および−1から+1までを含む。wの値の典型的な範囲は、0.5(または0.6)から0.9(または1.0)までを含む。
タスクT230は、2つまたは3つの一番最近の基準符号化フレームからの利得フレーム値に基づきターゲットフレームに対する利得フレーム値を計算するように構成されうる。このような一実施例では、タスクT230は、
Figure 0005596189
などの式によりターゲットフレームに対する利得フレーム値を平均として計算するように構成されるが、ただし、gr1は、一番最近の基準符号化フレームから得られる利得フレーム値であり、gr2は、二番目に最近の基準符号化フレームから得られる利得フレーム値である。関連する一実施例では、基準利得フレーム値は、互いに異なる重みを付けられる(例えば、より最近の値は、より大きな重みを付けられる)。そのような平均に基づきターゲットフレームの系列内のそれぞれについて利得フレーム値を計算するようにタスクT230を実装することが望ましい場合がある。例えば、タスクT230のそのような一実装は、異なる不規則雑音値を計算された平均利得フレーム値に加えることにより系列内のそれぞれのターゲットフレームについて(それとは別に、系列内の第1のフレームの後のそれぞれのターゲットフレームについて)利得フレーム値を計算するように構成されうる。
他の実施例では、タスクT230は、ターゲットフレームに対する利得フレーム値を、連続する基準符号化フレームから得られる利得フレーム値の移動平均として計算するように構成される。タスクT230のこのような一実装は、ターゲットの利得フレーム値を、gcur=αgprev+(1−α)gなどの自己回帰(AR)式に従って移動平均利得フレーム値の現在値として計算するように構成することができ、ただし、gcurおよびgprevは、それぞれ、移動平均の現在および前の値である。平滑化係数αについて、0.5または0.75と1(0.8または0.9など)との間の値を使用することが望ましい場合がある。そのような移動平均に基づきターゲットフレームの系列内のそれぞれについて値gを計算するようにタスクT230を実装することが望ましい場合がある。例えば、タスクT230のそのような一実装は、異なる不規則雑音値を移動平均利得フレーム値gcurに加えることにより系列内のそれぞれのターゲットフレームについて(それとは別に、系列内の第1のフレームの後のそれぞれのターゲットフレームについて)値gを計算するように構成されうる。
他の実施例では、タスク230は、減衰係数を基準時間情報からの寄与分に適用するように構成される。例えば、タスクT230は、gcur=αgprev+(1−α)βgなどの式により移動平均利得値を計算するように構成することができるが、ただし、減衰係数βは、0.5から0.9までの範囲内の値(例えば、0.6)など、1よりも小さい値を有する調節可能なパラメータである。そのような移動平均に基づきターゲットフレームの系列内のそれぞれについて値gを計算するようにタスクT230を実装することが望ましい場合がある。例えば、タスクT230のそのような一実装は、異なる不規則雑音値を移動平均利得フレーム値gcurに加えることにより系列内のそれぞれのターゲットフレームについて(それとは別に、系列内の第1のフレームの後のそれぞれのターゲットフレームについて)値gを計算するように構成されうる。
ターゲットフレームの系列のそれぞれについてターゲットスペクトルおよび時間記述を計算するようにタスクT230を繰り返すのが望ましい場合がある。このような場合、タスクT230は、異なるレートでターゲットスペクトルおよび時間記述を更新するように構成されうる。例えば、タスクT230のそのような一実装は、それぞれのはターゲットフレームについて異なるターゲットスペクトル記述を計算するが、複数の連続するターゲットフレームに対し同じターゲット時間記述を使用するように構成することができる。
方法M200(方法M210およびM220を含む)の実装は、典型的には、基準スペクトル情報をバッファに格納する演算を備えるように構成されている。方法M200のそのような一実装は、さらに、基準時間情報をバッファに格納する演算を備えることもできる。それとは別に、方法M200のそのような一実装は、基準スペクトル情報および基準時間情報の両方をバッファに格納する演算を備えることができる。
方法M200の異なる実装は、基準スペクトル情報として符号化フレームに基づき情報を格納するかどうかを決定する際に異なる基準を使用することができる。基準スペクトル情報を格納する決定は、典型的には、符号化フレームの符号化方式に基づいており、また1つまたは複数の前のおよび/または後の符号化フレームの符号化方式に基づくこともできる。方法M200のこのような一実装は、基準時間情報を格納するかどうかを決定する際に同じまたは異なる基準を使用するように構成されうる。
格納されている基準スペクトル情報が一度に複数の基準符号化フレームに利用できるように方法M200を実装することが望ましい場合がある。例えば、タスクT230は、複数の基準フレームから得られる情報に基づくターゲットスペクトル記述を計算するように構成することができる。そのような場合、方法M200は、どの時点においても、一番最近の基準符号化フレームから得られる基準スペクトル情報、二番目に最近の基準符号化フレームから得られる情報、および場合によっては、1つまたは複数のあまり最近のではない基準符号化フレームから得られる情報をも記憶装置内に保持するように構成されうる。このような方法は、さらに、基準時間情報に対する、同じ履歴、または異なる履歴を保持するように構成されうる。例えば、方法M200は、2つの一番最近の基準符号化フレームのそれぞれから得られるスペクトル包絡線の記述および一番最近の基準符号化フレームのみからの時間情報の記述を保持するように構成されうる。
上記のように、符号化フレームはそれぞれ、符号化方式を識別する符号化インデックス、またはフレームが符号化される際に従う符号化レートまたはモードを含むことができる。それとは別に、音声復号器は、符号化フレームから符号化インデックスの少なくとも一部を決定するように構成されうる。例えば、音声復号器は、フレームエネルギーなどの1つまたは複数のパラメータから得られる符号化フレームのビットレートを決定するように構成される。同様に、特定の符号化レートについて複数の符号化モードをサポートするコーダでは、音声復号器は、符号化フレームのフォーマットから適切な符号化モードを決定するように構成されうる。
符号化音声信号中の符号化フレームのすべてが、基準符号化フレームとして適格であるというわけではない。例えば、第2の周波数帯域上のスペクトル包絡線の記述を含まない符号化フレームは、一般に、基準符号化フレームとして使用するのには不適である。いくつかの応用では、第2の周波数帯域上のスペクトル包絡線の記述を含む符号化フレームを基準符号化フレームとみなすのが望ましい場合がある。
方法M200の対応する一実装は、フレームが第2の周波数帯域上のスペクトル包絡線の記述を含む場合に基準スペクトル情報として現在の符号化フレームに基づき情報を格納するように構成されうる。例えば、図18に示されているような一組の符号化方式に関して、方法M200のそのような一実装は、フレームの符号化インデックスが符号化方式1および2(つまり、符号化方式3ではなく)のいずれかを示している場合に基準ベクトル情報を格納するように構成されうる。より一般的には、方法M200のそのような一実装は、フレームの符号化インデックスが、狭帯域符号化方式ではなく広帯域符号化方式を示している場合に、基準スペクトル情報を格納するように構成されうる。
非アクティブであるターゲットフレームについてのみターゲットスペクトル記述を取得するように(つまり、タスクT230を実行するように)方法M200を実装するのは望ましい場合がある。そのような場合、基準スペクトル情報が、符号化された非アクティブフレームにのみ基づき、符号化されたアクティブフレームには基づかないようにするのが望ましいと思われる。アクティブフレームは、暗雑音を含むが、符号化されたアクティブフレームに基づく基準スペクトル情報も、ターゲットスペクトル記述を破損するおそれのある音声成分に関係する情報を含む可能性が高い。
方法M200のそのような一実装は、フレームの符号化インデックスが特定の符号化モード(例えば、NELP)を示す場合に基準スペクトル情報として現在の符号化フレームに基づき情報を格納するように構成されうる。方法M200の他の実装は、フレームの符号化インデックスが特定の符号化レート(例えば、ハーフレート)を示す場合に基準スペクトル情報として現在の符号化フレームに基づき情報を格納するように構成される。方法M200の他の実装は、例えば、フレームが第2の周波数帯域上のスペクトル包絡線の記述を含むことをフレームの符号化インデックスが示し、またこの符号化インデックスがさらに、特定の符号化モードおよび/またはレートを示す場合などの、条件の組合せに従って基準スペクトル情報として現在の符号化フレームに基づき情報を格納するように構成される。方法M200のさらに他の実装は、フレームの符号化インデックスが特定の符号化方式(例えば、図18による一実施例の符号化方式2、または他の実施例において非アクティブフレームとともに使用するように予約されている広帯域符号化方式)を示す場合に基準スペクトル情報として現在の符号化フレームに基づき情報を格納するように構成される。
その符号化インデックスだけから、フレームがアクティブであるか、または非アクティブであるかを判定することは可能でない場合がある。図18に示されている一組の符号化方式では、例えば、符号化方式2は、アクティブフレームと非アクティブフレームの両方に使用される。このような場合、1つまたは複数の後続フレームの符号化インデックスは、符号化フレームが非アクティブかどうかを示すのに役立ちうる。例えば、上記の説明では、符号化方式2を使用して符号化されたフレームは、続くフレームが符号化方式3を使用して符号化されている場合に非アクティブである音声符号化の方法を開示している。方法M200の対応する一実装は、フレームの符号化インデックスが符号化方式2を示し、次の符号化フレームの符号化インデックスが符号化方式3を示している場合に、基準スペクトル情報として現在の符号化フレームに基づき情報を格納するように構成されうる。関連する一実施例では、方法M200の一実装は、フレームがハーフレートで符号化され、次のフレームが八分の一レートで符号化される場合に、基準スペクトル情報として符号化フレームに基づき情報を格納するように構成される。
基準スペクトル情報として符号化フレームに基づき情報を格納する決定が後続の符号化フレームからの情報に依存する場合、方法M200は、基準スペクトル情報を格納する演算を2つの部分に分けて実行するように構成されうる。格納演算の第1の部分は、符号化フレームに基づき情報を仮格納する。方法M200のそのような一実装は、すべてのフレーム、または何らかの所定の条件を満たすすべてのフレーム(例えば、特定の符号化レート、モード、または方式を有するすべてのフレーム)について、情報を仮格納するように構成されうる。このような条件の3つの異なる例は、(1)符号化インデックスがNELP符号化モードを示すフレーム、(2)符号化インデックスがハーフレートを示すフレーム、および(3)符号化インデックスが符号化方式2を示すフレームである(例えば、図18による一組の符号化方式の適用において)。
格納演算の第2の部分では、所定の条件が満たされた場合に基準スペクトル情報として仮格納されている情報を格納する。方法M200のそのような一実装は、1つまたは複数の後続フレームが受信されるまで(例えば、次の符号化フレームの符号化モード、レート、または方式が判明するまで)演算のこの部分の実行を遅らせるように構成されうる。このような条件の3つの異なる例では、(1)次の符号化フレームの符号化インデックスが八分の一レートを示し、(2)次の符号化フレームの符号化インデックスが非アクティブフレームに対してのみ使用される符号化モードを示し、(3)次の符号化フレームの符号化インデックスが符号化方式3を示す(例えば、図18による一組の符号化方式の適用において)。格納演算の第2の部分に対する条件が、満たされていない場合、仮格納されている情報は、破棄されるか、または上書きされうる。
基準スペクトル情報を格納する2部演算の第2の部分は、複数の異なる構成のうちのどれかに従って実装されうる。一実施例では、格納演算の第2の部分は、仮格納されている情報を保持する格納場所に関連付けられたフラグの状態を変更するように構成される(例えば、「仮」を示す状態から「基準」を示す状態へ)。他の実施例では、格納演算の第2の部分は、基準スペクトル情報を格納するために予約されているバッファに仮格納されている情報を転送するように構成される。さらなる他の実施例では、格納演算の第2の部分は、仮格納されている基準スペクトル情報を保持するバッファ(例えば、循環バッファ)を指す1つまたは複数のポインタを更新するように構成される。この場合、これらのポインタは、一番最近の基準符号化フレームからの基準スペクトル情報が置かれている場所を示す読み出しポインタおよび/または仮格納されている情報の格納先となる場所を示す書き込みポインタを含んでいてもよい。
図31は、続く符号化フレームの符号化方式が、基準スペクトル情報として符号化フレームに基づき情報を格納するかどうかを決定するために使用される方法M200の一実装を実行するように構成された音声復号器の状態図の対応する部分を示している。この図では、経路ラベルは、現在のフレーム符号化方式に関連するフレームタイプを示しており、Aは、アクティブフレームにのみ使用される符号化方式を示し、Iは、非アクティブフレームにのみ使用される符号化方式を示し、M(「混合」を意味する)は、アクティブフレームと非アクティブフレームに使用される符号化方式を示す。例えば、そのような復号器は、図18に示されているように一組の符号化方式を使用する符号化システムに備えることが可能であり、符号化方式1、2、および3は、経路ラベルA、M、およびIにそれぞれ対応する。図31に示されているように、情報は、「混合」符号化方式を示す符号化インデックスを有するすべての符号化フレームについて仮格納される。次のフレームの符号化インデックスが、非アクティブのフレームであることを示す場合、基準スペクトル情報としての仮格納されている情報の格納は完了する。そうであることを示していない場合、仮格納されている情報は、破棄されるか、または上書きされうる。
基準スペクトル情報の選択的格納および仮格納に関係する前記の説明、および図31の付随する状態図は、さらに、そのような情報を格納するように構成されている方法M200の実装において基準時間情報の格納に適用可能であることは明示的に示されている。
方法M200の一実装の典型的な適用では、ロジック素子のアレイ(例えば、ロジックゲート)は、この方法の様々なタスクのうちの1つ、複数、さらにはすべてを実行するように構成されている。これらのタスクのうちの1つまたは複数のタスク(場合によってはすべてのタスク)は、さらに、ロジック素子(例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)のアレイを含む機械(例えば、コンピュータ)により可読であり、および/または実行可能であるコンピュータプログラム製品(ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなどの1つまたは複数のデータ記憶媒体など)内に具現化された、コード(例えば、1つまたは複数の命令セット)として実装されうる。方法M200の一実装のタスクは、さらに、複数のそのようなアレイまたは機械により実行することもできる。これら、または他の実装では、タスクは、携帯電話などの無線通信を行うデバイスまたはそのような通信機能を有する他のデバイス内で実行可能である。このようなデバイスは、回線交換方式および/またはパケット交換方式のネットワークと(例えば、VoIPなどの1つまたは複数のプロトコルを使用して)通信するように構成されうる。例えば、このようなデバイスは、符号化フレームを受信するように構成されたRF回路を備えることができる。
図32Aは、一般的構成により符号化音声信号を処理する装置200のブロック図を示している。例えば、装置200は、本明細書で説明されているように方法M200の一実装を含む音声復号化の方法を実行するように構成されうる。装置200は、値のシーケンスを有する制御信号を発生するように構成された制御ロジック210を備える。装置200は、さらに、制御信号の値および符号化音声信号の対応する符号化フレームに基づき音声信号の復号化フレームを計算するように構成された音声復号器220を備える。
携帯電話などの、装置200を含む通信デバイスは、有線、無線、または光伝送路から符号化音声信号を受信するように構成できる。このようなデバイスは、誤り訂正および/または冗長コードの復号化などの、符号化音声信号に対する前処理演算を実行するように構成されうる。このようなデバイスは、さらに、装置100および装置200(例えば、トランシーバ内の)の両方の実装を含んでいてもよい。
制御ロジック210は、符号化音声信号の符号化フレームの符号化インデックスに基づく値のシーケンスを含む制御信号を発生するように構成される。このシーケンスのそれぞれの値は、符号化音声信号の符号化フレームに対応し(後述のように消去されたフレームの場合を除く)、複数の状態のうちの1つを有する。後述のような装置200のいくつかの実装では、このシーケンスは二値形式である(つまり、高い値と低い値のシーケンス)。後述のような装置200の他の実装では、このシーケンスの値は、2つよりも多い状態を取りうる。
制御ロジック210は、それぞれの符号化フレームに対する符号化インデックスを決定するように構成されうる。例えば、制御ロジック210は、符号化フレームから符号化インデックスの少なくとも一部を読み出し、フレームエネルギーなどの1つまたは複数のパラメータから符号化フレームのビットレートを決定し、および/または符号化フレームのフォーマットから適切な符号化モードを決定するように構成することができる。それとは別に、装置200は、それぞれの符号化フレームに対する符号化インデックスを決定し、それを制御ロジック210に送るように構成された他の要素を備えるように実装することができるか、あるいは装置200は、装置200を含むデバイスの他のモジュールから符号化インデックスを受信するように構成することができる。
予期したとおりに受信されないか、または受信しても誤りが多すぎて復元できない符号化フレームは、フレーム消失と呼ばれる。装置200は、第2の周波数帯域に対するスペクトルおよび時間情報を伝送する符号化フレームの一部の不在など、フレーム消失または部分的フレーム消失を示すために符号化インデックスの1つまたは複数の状態が使用されるように構成されうる。例えば、装置200は、符号化方式2を使用して符号化されている符号化フレームに対する符号化インデックスが、フレームの高帯域部分の消失を示すように構成されうる。
音声復号器220は、符号化音声信号の制御信号および対応する符号化フレームの値に基づき復号化フレームを計算するように構成される。制御信号の値が第1の状態を有する場合、復号器220は、第1の周波数帯域および第2の周波数帯域上のスペクトル包絡線の、対応する符号化フレームから得られる情報に基づく記述に基づき復号化フレームを計算する。制御信号の値が第2の状態を有する場合、復号器220は、第2の周波数帯域上のスペクトル包絡線の記述を取り出し、取り出された記述および第1の周波数帯域上のスペクトル包絡線の記述に基づき復号化フレームを計算するが、ただし、第1の周波数帯域上の記述は、対応する符号化フレームから得られる情報に基づく。
図32Bは、装置200の一実装202のブロック図を示す。装置202は、第1のモジュール230および第2のモジュール240を備える音声復号器220の一実装222を備える。モジュール230および240は、復号化フレームのそれぞれのサブバンド部分を計算するように構成されている。特に、第1のモジュール230は、第1の周波数帯域(例えば、狭帯域信号)上のフレームの復号化部分を計算するように構成され、第2のモジュール240は、制御信号の値に基づき、第2の周波数帯域(例えば、高帯域信号)上のフレームの復号化部分を計算するように構成される。
図32Cは、装置200の一実装204のブロック図を示す。解析器250は、符号化フレームのビットを解析して、符号化インデックスを制御ロジック210に送り、スペクトル包絡線の少なくとも1つの記述を音声復号器220に送るように構成される。この実施例では、装置204は、さらに、装置202の一実装でもあり、したがって、解析器250は、それぞれの周波数帯域(利用可能な場合)上のスペクトル包絡線の記述をモジュール230および240に送るように構成されている。解析器250は、さらに、時間情報の少なくとも1つの記述を音声復号器220に送るように構成されうる。例えば、解析器250は、それぞれの周波数帯域(利用可能な場合)に対する時間情報の記述をモジュール230および240に送るように実装されうる。
装置204は、さらに、第1および第2の周波数帯域上のフレームの復号化部分を組み合わせて、広帯域音声信号を生成するように構成されたフィルタバンク260も備える。このようなフィルタバンクの特定の実施例は、例えば、2007年4月19日に公開された「SYSTEMS,METHODS,AND APPARATUS FOR SPEECH SIGNAL FILTERING」という表題の米国特許出願公開第2007/088558号(Vosら)で説明されている。例えば、フィルタバンク260は、狭帯域信号をフィルタ処理して第1のパスバンド信号を生成するように構成されたローパスフィルタおよび高帯域信号をフィルタ処理して第2のパスバンド信号を生成するように構成されたハイパスフィルタを備えることができる。フィルタバンク260は、さらに、例えば、米国特許出願公開第2007/088558号(Vosら)で説明されているように、所望の対応する内挿係数に従って、狭帯域信号および/または高帯域信号のサンプリングレートを上げるように構成されたアップサンプラも備えることができる。
図33Aは、スペクトル包絡線記述復号器270のインスタンス270aおよび時間情報記述復号器280のインスタンス280aを含む第1のモジュール230の一実装232のブロック図を示している。スペクトル包絡線記述復号器270aは、第1の周波数帯域上のスペクトル包絡線の記述を復号化するように構成される(例えば、解析器250から受け取ったときに)。時間情報記述復号器280aは、第1の周波数帯域に対する時間情報の記述を復号化するように構成される(例えば、解析器250から受け取ったときに)。例えば、時間情報記述復号器280aは、第1の周波数帯域に対する励振信号を復号化するように構成されうる。合成フィルタ290のインスタンス290aは、スペクトル包絡線および時間情報の復号化された記述に基づく第1の周波数帯域(例えば、狭帯域信号)上のフレームの復号化部分を生成するように構成される。例えば、合成フィルタ290aは、第1の周波数帯域上のスペクトル包絡線の記述内の値の集合(例えば、1つまたは複数のLSPまたはLPC係数ベクトル)に従って、第1の周波数帯域に対する励振信号に応じて復号化部分を生成するように構成されうる。
図33Bは、スペクトル包絡線記述復号器270の一実装272のブロック図を示している。逆量子化器310は、記述を逆量子化するように構成され、逆変換ブロック320は、逆変換を逆量子化記述に適用してLPC係数の集合を求めるように構成されている。時間情報記述復号器280は、典型的には、逆量子化器を備えるようにも構成される。
図34Aは、第2のモジュール240の一実装242のブロック図を示している。第2のモジュール242は、スペクトル包絡線記述復号器270のインスタンス270b、バッファ300、および選択器340を備える。スペクトル包絡線記述復号器270bは、第2の周波数帯域上のスペクトル包絡線の記述を復号化するように構成される(例えば、解析器250から受け取ったときに)。バッファ300は、基準スペクトル情報として第2の周波数帯域上のスペクトル包絡線の1つまたは複数の記述を格納するように構成され、選択器340は、制御ロジック210により生成された制御信号の対応する値の状態に従って、(A)バッファ300または(B)復号器270bのいずれかからスペクトル包絡線の復号化された記述を選択するように構成される。
第2のモジュール242は、さらに、高帯域励振信号発生器330、および選択器340を介して受信されたスペクトル包絡線の復号化された記述に基づき第2の周波数帯域(例えば、高帯域信号)上のフレームの復号化部分を生成するように構成された合成フィルタ290のインスタンス290bも備える。高帯域励振信号発生器330は、第1の周波数帯域に対する励振信号に基づき、第2の周波数帯域に対する励振信号を発生するように構成される(例えば、時間情報記述復号器280aにより生成されるように)。それに加えて、またはそれとは別に、発生器330は、不規則雑音のスペクトルおよび/または振幅整形を実行して、高帯域励振信号を発生させるように構成できる。発生器330は、上述のように高帯域励振信号発生器A60のインスタンスとして実装されうる。合成フィルタ290bは、第2の周波数帯域上のスペクトル包絡線の記述内の値の集合(例えば、1つまたは複数のLSPまたはLPC係数ベクトル)に従って、高帯域励振信号に応じて第2の周波数帯域上のフレームの復号化部分を生成するように構成される。
第2のモジュール240の一実装242を備える装置202の一実装の一実施例では、制御ロジック210は、二値信号を選択器340に出力するように構成され、これにより、シーケンスのそれぞれの値は状態Aまたは状態Bを有する。この場合、現在のフレームの符号化インデックスが、それが非アクティブであることを示す場合に、制御ロジック210は、状態Aを有する値を生成し、これにより、選択器340はバッファ300の出力を選択する(つまり、選択A)。そうでない場合、制御ロジック210は、状態Bを有する値を生成し、これにより、選択器340は復号器270bの出力を選択する(つまり、選択B)。
装置202は、制御ロジック210がバッファ300の動作を制御するように配列できる。例えば、バッファ300は、状態Bを有する制御信号の値により、バッファ300が復号器270bの対応する出力を格納するように配列されうる。このような制御は、バッファ300の書き込み許可入力に制御信号を適用することにより実装することができ、その入力は、状態Bがそのアクティブ状態に対応するように構成される。それとは別に、制御ロジック210は、符号化音声信号の符号化フレームの符号化インデックスに基づく値のシーケンスも含む第2の制御信号を発生し、バッファ300の動作を制御するように実装されうる。
図34Bは、第2のモジュール240の一実装244のブロック図を示す。第2のモジュール244は、スペクトル包絡線記述復号器270b、および第2の周波数帯域に対する時間情報の記述を復号化するように(例えば、解析器250から受け取ったときに)構成された時間情報記述復号器280のインスタンス280bを備える。第2のモジュール244は、さらに、基準時間情報として第2の周波数帯域上の時間情報の1つまたは複数の記述を格納するようにも構成されているバッファ300の一実装302も備える。
第2のモジュール244は、制御ロジック210により発生する制御信号の対応する値の状態に従って、スペクトル包絡線の復号化された記述および(A)バッファ302または(B)復号器270b、280bのいずれかからの時間情報の復号化された記述を選択するように構成された選択器340の一実装342を備える。合成フィルタ290のインスタンス290bは、選択器342を介して受信されたスペクトル包絡線および時間情報の復号化された記述に基づく第2の周波数帯域(例えば、高帯域信号)上のフレームの復号化部分を生成するように構成される。第2のモジュール244を備える装置202の典型的な一実装では、時間情報記述復号器280bは、第2の周波数帯域に対する励振信号を含む時間情報の復号化された記述を生成するように構成され、合成フィルタ290bは、第2の周波数帯域上のスペクトル包絡線の記述内の値の集合(例えば、1つまたは複数のLSPまたはLPC係数ベクトル)に従って、励振信号に応答して第2の周波数帯域上のフレームの復号化された部分を生成するように構成される。
図34Cは、バッファ302および選択器342を備える第2のモジュール242の一実装246のブロック図を示している。第2のモジュール246は、さらに、第2の周波数帯域に対する時間包絡線の記述を復号化するように構成された時間情報記述復号器280のインスタンス280c、および選択器342を介して受信された時間包絡線の記述を第2の周波数帯域上のフレームの復号化された部分に適用するように構成された利得制御要素350(例えば、乗算器もしくは増幅器)を備える。時間包絡線の復号化された記述が、利得形状値を含む場合について、利得制御要素350は、利得形状値を復号化された部分のそれぞれのサブフレームに適用するように構成されたロジックを備えることができる。
図34A〜34Cは、バッファ300がスペクトル包絡線(および場合によっては、時間情報)の完全復号化された記述を受け取る第2のモジュール240の実装を示している。バッファ300が完全には復号されていない記述を受け取るように、類似の実装を配列することもできる。例えば、量子化形式で(例えば、解析器250から受け取ったとおりに)記述を格納することにより格納に必要な容量を下げることが望ましい場合がある。このような場合、バッファ300から選択器340への信号経路は、逆量子化器および/または逆変換ブロックなどの復号化ロジックを備えるように構成することができる。
図35Aは、制御ロジック210の一実装が動作するように構成される際に用いる状態図を示している。この図では、経路ラベルは、現在のフレームの符号化方式に関連するフレームタイプを示しており、Aは、アクティブフレームにのみ使用される符号化方式を示し、Iは、非アクティブフレームにのみ使用される符号化方式を示し、M(「混合」を意味する)は、アクティブフレームと非アクティブフレームに使用される符号化方式を示す。例えば、そのような復号器は、図18に示されているように一組の符号化方式を使用する符号化システムに備えることが可能であり、符号化方式1、2、および3は、経路ラベルA、M、およびIにそれぞれ対応する。図35Aの状態ラベルは、(複数の)制御信号の(複数の)対応する値の状態を示す。
上記のように、装置202は、制御ロジック210がバッファ300の動作を制御するように配列できる。装置202が、基準スペクトル情報を2つの部分に格納する演算を実行するように構成されている場合、制御ロジック210は、バッファ300を制御し、(1)符号化フレームに基づき情報を仮格納するタスク、(2)基準スペクトルおよび/または時間情報として仮格納されている情報の格納を完了するタスク、および(3)格納されている基準スペクトルおよび/または時間情報出力するタスクの3つの異なるタスクのうちの選択された1つのタスクを実行するように構成することができる。
このような一実施例では、制御ロジック210は、選択器340およびバッファ300の動作を制御する、値が少なくとも4つの可能な状態を有する、それぞれ図35Aに示されている図のそれぞれの状態に対応する制御信号を生成するように実装される。他のこのような実施例では、制御ロジック210は、(1)選択器340の動作を制御する、値が少なくとも2つの可能な状態を有する、制御信号および(2)バッファ300の動作を制御する、符号化音声信号の符号化フレームの符号化インデックスに基づく値のシーケンスを含み、値が少なくとも3つの可能な状態を有する、第2の制御信号を生成するように実装される。
仮格納されている情報の格納を完了する演算が選択されたフレームの処理中に、仮格納された情報はさらに選択器340でそれを選択するのに利用できるようにバッファ300を構成することが望ましい場合がある。このような場合、制御ロジック210は、少し異なる時刻に選択器340およびバッファ300を制御するために信号の現在の値を出力するように構成されうる。例えば、制御ロジック210は、バッファ300を制御して読み出しポインタをフレーム期間内の十分に前の方へ進めてバッファ300が選択器340で選択するのに遅れることなく仮格納されている情報を出力するように構成されうる。
図13Bを参照しつつ上で述べたように、ときには方法M100の一実装を実行する音声符号器がより高いビットレートを使用して、他の非アクティブフレームで囲まれている非アクティブフレームを符号化するのが望ましい場合がある。そのような場合、対応する音声復号器が、基準スペクトルおよび/または時間情報として符号化されたフレームに基づき情報を格納し、情報が系列内の将来の非アクティブフレームを復号化する際に使用されるようにすることが望ましいと思われる。
装置200の一実装の様々な要素は、対象のアプリケーションに適しているとみなされるハードウェア、ソフトウェア、および/またはファームウェアの任意の組合せで具現化されうる。例えば、そのような要素は、例えば、同じチップ上、またはチップセット内の2つまたはそれ以上のチップ間に置かれる電子および/または光デバイスとして製造できる。このようなデバイスの一実施例は、トランジスタまたはロジックゲートなどの固定された、またはプログラム可能なロジック素子のアレイであり、これらの要素はどれも、1つまたは複数のそのようなアレイとして実装されうる。これらの要素の2つまたはそれ以上、さらにはすべてが、同じ1つまたは複数のアレイ内に実装することができる。このような1つまたは複数のアレイは、1つまたは複数のチップ内に(例えば、2つまたはそれ以上のチップを含むチップセット内に)実装されうる。
本明細書で説明されているような装置200の様々は実装の1つまたは複数の要素は、マイクロプロセッサ、組み込み型プロセッサ、IPコア、デジタルシグナルプロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)などのロジック素子の1つまたは複数の固定もしくはプログラム可能なアレイ上で実行するように配置された1つまたは複数の命令セットとして全体または一部実装されうる。装置200の一実装の様々な要素はどれも、さらに、1つまたは複数のコンピュータ(例えば、「プロセッサ」とも呼ばれる、1つまたは複数の命令セットまたは命令シーケンスを実行するようにプログラムされている1つまたは複数のアレイを備える機械)として具現化することができ、これらの要素のどれか2つまたはそれ以上、さらにはすべてが、同じそのような1つまたは複数のコンピュータ内に実装できる。
装置200の一実装の様々な要素は、携帯電話などの無線通信を行うためのデバイスまたはそのような通信機能を有する他のデバイス内に収めることができる。このようなデバイスは、回線交換方式および/またはパケット交換方式のネットワークと(例えば、VoIPなどの1つまたは複数のプロトコルを使用して)通信するように構成されうる。そのようなデバイスは、逆インタリービング、逆パンクチャリング、1つまたは複数の畳み込み符号の復号化、1つまたは複数の誤り訂正符号の復号化、ネットワークプロトコル(例えば、Ethernet、TCP/IP、cdma2000)の1つまたは複数の層の復号化、無線周波(RF)復調、および/またはRF受信などの演算を符号化フレームを伝送する信号に対し実行するように構成されうる。
装置200の一実装の1つまたは複数の要素を、装置が組み込まれるデバイスまたはシステムの他の動作に関係するタスクなど、装置の動作に直接的には関係しないタスクを実行するか、または他の命令セットを実行するために使用することが可能である。また、装置200の一実装の1つまたは複数の要素は、構造を共通して持つことが可能である(例えば、異なる時刻に異なる要素に対応するコードの部分を実行するために使用されるプロセッサ、異なる時刻に異なる要素に対応するタスクを実行するために実行される命令セット、または異なる時刻に異なる要素に対する演算を実行する電子および/または光デバイスの配列)。このような一実施例では、制御ロジック210、第1のモジュール230、および第2のモジュール240は、同じプロセッサ上で実行するように配列された命令セットとして実装される。他のこのような実施例では、スペクトル包絡線記述復号器270aおよび270bは、異なる時刻に実行する同じ命令セットとして実装される。
携帯電話またはそのような通信機能を有する他のデバイスなどの、無線通信を行うためのデバイスは、装置100と装置200の両方の実装を含むように構成されうる。このような場合、装置100および装置200が構造を共通に持つことが可能である。このような一実施例では、装置100および装置200は、同じプロセッサ上で実行するように配列された命令セットを備えるように実装される。
全二重電話通信の任意の時点において、音声符号器の少なくとも1つへの入力が非アクティブフレームとなることが予想されうる。音声符号器が非アクティブフレームの系列内のフレームのすべてに満たない数のフレームについて符号化フレームを送信するように構成することが望ましい場合がある。このような処理は、不連続送信(DTX)とも呼ばれる。一実施例では、音声符号器は、nを32として、n個の連続する非アクティブフレームの各列について1つの符号化フレーム(「無音記述子」またはSIDとも呼ばれる)を送信することによりDTXを実行する。対応する復号器は、SID内の情報を適用して、非アクティブフレームを合成するために快適雑音発生アルゴリズムにより使用される雑音発生モデルを更新する。nの他の典型値は、8および16を含む。SIDを示すために当業で使用される他の名称は、「無音記述への更新」、「無音挿入記述」、「無音挿入記述子」、「快適雑音記述子フレーム」、および「快適雑音パラメータ」を含む。
方法M200の一実装では、基準符号化フレームは、音声信号の高帯域部分の無音記述に対する不定期の更新を行うという点でSIDに似ていることが理解されるであろう。DTXの潜在的利点は、典型的には、回線交換ネットワークよりもパケット交換ネットワークの方が大きいが、方法M100およびM200は、回線交換ネットワークとパケット交換ネットワークの両方に適用可能であることは明確に指摘される。
方法M100の一実装は、DTX(例えば、パケット交換ネットワーク内の)と組み合わせることができ、これにより符号化フレームは、非アクティブフレームのすべてに満たない数のフレームについて送信される。このような方法を実行する音声符号器は、SIDをときおり、ある規則正しい間隔で(例えば、非アクティブフレームの系列内の8フレーム毎に、16フレーム毎に、または32フレーム毎に)、または何らかのイベントが発生したときに送信するように構成されうる。図35Bは、SIDが6フレーム毎に送信される一実施例を示している。この場合、SIDは、第1の周波数帯域上のスペクトル包絡線の記述を含む。
方法M200の対応する一実装は、非アクティブフレームの後の1フレーム期間に符号化フレームを受信できないことに応答して、基準スペクトル情報に基づくフレームを生成するように構成されうる。図35Bに示されているように、方法M200のそのような一実装は、1つまたは複数の受信されたSIDから得られる情報に基づき、それぞれの介在する非アクティブフレームに対する第1の周波数帯域上のスペクトル包絡線の記述を取得するように構成されうる。例えば、このような演算は、図30A〜30Cに示されている実施例のように、2つの一番最近のSIDからのスペクトル包絡線の記述同士の間の内挿を含むことができる。第2の周波数帯域では、この方法は、1つまたは複数の最近の基準符号化フレームから得られる情報に基づき(例えば、本明細書で説明されている実施例により)それぞれの介在する非アクティブフレームに対するスペクトル包絡線の記述(および場合によっては、時間包絡線の記述)を取得するように構成されうる。そのような方法は、さらに、1つまたは複数の最近のSIDからの第1の周波数帯域に対する励振信号に基づく第2の周波数帯域に対する励振信号を生成するように構成されうる。
説明されている構成を前記のように提示したのは、当業者が本明細書で開示されている方法および他の構造を使用し、または構造を製作することができるようにするためである。図に示され、本明細書で説明されている流れ図、ブロック図、状態図、および他の構造は、実施例にすぎず、それらの構造の他の変更形態も、本開示の範囲内にある。これらの構成に対する様々な修正形態も可能であり、本明細書で提示されている一般原理を他の構成にも適用することができる。例えば、音声信号の狭帯域部分の範囲よりも高い周波数は含む音声信号の高帯域部分を処理することについて本明細書で説明されている様々な要素およびタスクは、それとは別に、またはそれに加えて、類似の方法で、音声信号の狭帯域部分の範囲よりも下の周波数を含む音声信号の低帯域部分を処理するために適用されうる。このような場合、狭帯域励振信号から高帯域励振信号を導出するための開示されている技術および構造は、狭帯域励振信号から低帯域励振信号を導出するために使用されうる。そのため、本開示は、上に示されている構成に限定されることを意図されておらず、むしろ、元の開示の一部をなす、出願された付属の請求項に含む、本明細書において何らかの形態で開示されている原理および新規性のある特徴と一致する最も広い範囲を与えられるべきである。
本明細書で説明されているような音声符号器、音声符号化方法、音声復号器、および/または音声復号化方法と併用されうる、または併用するように適合されうるコーデックの実施例は、文書3GPP2 C.S0014−Cバージョン1.0「Enhanced Variable Rate Codec,Speech Service Options 3,68,and 70 for Wideband Spread Spectrum Digital Systems」(Third Generation Partnership Project 2、Arlington、VA、2007年1月)において説明されているようなEnhanced Variable Rate Codec(EVRC)、文書ETSI TS 126 092 V6.0.0(European Telecommunications Standards Institute(ETSI)、Sophia Antipolis Cedex、FR、2004年12月)において説明されているようなAdaptive Multi Rate(AMR)音声コーデック、および文書ETSI TS 126 192 V6.0.0(ETSI、2004年12月)において説明されているようなAMR Wideband音声コーデックを含む。
当業者であれば、情報および信号は、様々な異なる技術および技法を使用して表すことができることを理解するであろう。例えば、上の説明全体を通して参照されていると思われるデータ、命令、コマンド、情報、信号、ビット、および記号は、電圧、電流、電磁波、磁場または磁気粒子、光場または光粒子、これらの組合せにより表すことができる。符号化フレームの導出元の信号は、「音声信号」と呼ばれるが、この信号は、アクティブフレームで音楽または他の非音声情報コンテンツを伝送することができることも考えられ、また本明細書により開示されている。
さらに、当業者であれば、本明細書で開示されている構成に関して説明されている様々な例示的な論理ブロック、モジュール、回路、および演算は、電子ハードウェア、コンピュータソフトウェア、またはその両方の組合せとして実装することができることを理解するであろう。このような論理ブロック、モジュール、回路、および演算は、汎用プロセッサ、デジタルシグナルプロセッサ(DSP)、ASIC、FPGAまたは他のプログラム可能論理デバイス、ディスクリートゲートまたはトランジスタロジック、ディスクリートハードウェアコンポーネント、または本明細書で説明されている機能を実行するように設計されているこれらの任意の組合せにより実装または実行することができる。汎用プロセッサは、マイクロプロセッサであってよいが、代替えとして、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であってよい。プロセッサは、コンピューティングデバイスの組合せ、例えば、DSPとマイクロプロセッサの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、または他のそのような構成として実装することもできる。
本明細書で説明されている方法およびアルゴリズムのタスクは、ハードウェアで直接、プロセッサにより実行されるソフトウェアモジュールにより、またはこれら2つの組合せにより具現化されうる。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、取り外し可能ディスク、CD−ROM、または当業で知られている他の形態の記憶媒体に格納することができる。例示的な記憶媒体は、プロセッサがその記憶媒体から情報を読み込み、その記憶媒体に情報を書き込めるようにプロセッサに結合される。代替え形態では、記憶媒体は、プロセッサに一体化することができる。プロセッサおよび記憶媒体は、ASICに収めることもできる。ASICは、ユーザー端末に収めることができる。代替え実施形態では、プロセッサおよび記憶媒体は、ユーザー端末内のディスクリートコンポーネントとして配置することができる。
本明細書で説明されている構成はそれぞれ、少なくとも一部は、ハード配線回路として、特定用途向け集積回路に組み込まれる回路構成として、または不揮発性記憶装置内にロードされるファームウェアプログラムまたは機械可読コードとしてデータ記憶媒体から、またはデータ記憶媒体にロードされるソフトウェアプログラムとして実装することができ、前記コードは、マイクロプロセッサまたは他のデジタル信号処理ユニットなどのロジック素子のアレイにより実行可能な命令である。データ記憶媒体としては、半導体メモリ(限定することなく、ダイナミックまたはスタティックRAM(ランダムアクセスメモリ)、ROM(読み取り専用メモリ)、および/またはフラッシュRAMを含んでよい)、または強誘電体、磁気抵抗、オボニック、ポリマー、または相変化メモリなどの記憶素子のアレイ、または磁気もしくは光ディスクなどのディスク媒体が考えられる。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、ロジック素子のアレイにより実行可能な命令からなる1つまたは複数の命令セットまたは命令シーケンス、およびそのような実施例の任意の組合せを含むものと理解すべきである。
なお、以下の記載は出願当初の特許請求の範囲の記載に実質的に一致するものである。
[1]
音声信号のフレームを符号化する方法であって、
前記音声信号の第1のフレームに基づく、pをゼロでない正の整数とするpビットの長さを有する、第1の符号化フレームを生成することと、
前記音声信号の第2のフレームに基づく、qをpと異なるゼロでない正の整数とするqビットの長さを有する、第2の符号化フレームを生成することと、
前記音声信号の第3のフレームに基づく、rをqよりも小さいゼロでない正の整数とするrビットの長さを有する、第3の符号化フレームを生成することとを備え、
前記第2のフレームは、前記第1のフレームの後に出現する非アクティブフレームであり、前記第3のフレームは、前記第2のフレームの後に出現する非アクティブフレームであり、前記第1のフレームと前記第3のフレームとの間の前記音声信号の前記フレームはすべて、非アクティブである方法。
[2]
qは、pよりも小さい[1]に記載の方法。
[3]
前記音声信号中で、少なくとも1つのフレームは、前記第1のフレームと前記第2のフレームとの間に出現する[1]に記載の方法。
[4]
前記第2の符号化フレームは、(A)前記第2のフレームを含む前記音声信号の一部の、第1の周波数帯域上のスペクトル包絡線の記述および(B)前記第2のフレームを含む前記音声信号の一部の、前記第1の周波数帯域と異なる第2の周波数帯域上のスペクトル包絡線の記述を含む[1]に記載の方法。
[5]
前記第2の周波数帯域の少なくとも一部は、前記第1の周波数帯域よりも高い[4]に記載の方法。
[6]
前記第1および第2の周波数帯域は、少なくとも200ヘルツオーバーラップする[5]に記載の方法。
[7]
第1の周波数帯域上のスペクトル包絡線の記述と第2の周波数帯域上のスペクトル包絡線の記述のうちの少なくとも1つは、それぞれが前記音声信号の非アクティブフレームを含む前記音声信号の対応する部分のスペクトル包絡線の少なくとも2つの記述の平均に基づく[4]に記載の方法。
[8]
前記第2の符号化フレームは、前記音声信号の少なくとも2つの非アクティブフレームから得られた情報に基づく[1]に記載の方法。
[9]
前記第2の符号化フレームは、前記第2のフレームを含む前記音声信号の一部の、第1の周波数帯域上のスペクトル包絡線の記述を含み、
前記第2の符号化フレームは、前記第2のフレームを含む前記音声信号の一部の、前記第1の周波数帯域と異なる第2の周波数帯域上のスペクトル包絡線の、長さがゼロでない正の整数のuビットである記述を含み、
前記第1の符号化フレームは、前記第1のフレームを含む前記音声信号の一部の、前記第2の周波数帯域上のスペクトル包絡線の、長さがu以下のゼロでない正の整数のvビットである記述を含む[1]に記載の方法。
[10]
vは、uよりも小さい[9]に記載の方法。
[11]
前記第3の符号化フレームは、前記第3のフレームを含む前記音声信号の一部のスペクトル包絡線の記述を含む[1]に記載の方法。
[12]
前記第2の符号化フレームは、(A)前記第2のフレームを含む前記音声信号の一部の、第1の周波数帯域上のスペクトル包絡線の記述および(B)前記第2のフレームを含む前記音声信号の一部の、前記第1の周波数帯域と異なる第2の周波数帯域上のスペクトル包絡線の記述を含み、
前記第3の符号化フレームは、(A)前記第3のフレームを含む前記音声信号の一部の、前記第1の周波数帯域上のスペクトル包絡線の記述を含み、(B)前記第2の周波数帯域上のスペクトル包絡線の記述を含まない[1]に記載の方法。
[13]
前記第2の符号化フレームは、前記第2のフレームを含む前記音声信号の一部の時間包絡線の記述を含み、
前記第3の符号化フレームは、前記第3のフレームを含む前記音声信号の一部の時間包絡線の記述を含む[1]に記載の方法。
[14]
前記第2の符号化フレームは、(A)前記第2のフレームを含む前記音声信号の一部の、第1の周波数帯域に対する時間包絡線の記述および(B)前記第2のフレームを含む前記音声信号の一部の、前記第1の周波数帯域と異なる第2の周波数帯域に対する時間包絡線の記述を含み、
前記第3の符号化フレームは、前記第2の周波数帯域に対する時間包絡線の記述を含まない[1]に記載の方法。
[15]
前記第2のフレームに関する連続するアクティブフレームの一番最近のシーケンスの長さは、少なくとも所定の閾値に等しい[1]に記載の方法。
[16]
qは、pよりも小さく、
前記第1のフレームと前記第2のフレームとの間の前記音声信号の少なくとも1つの非アクティブフレームのそれぞれについて、pビットの長さを有する対応する符号化フレームを生成することを備える[1]に記載の方法。
[17]
音声信号のフレームを符号化する方法であって、
前記音声信号の第1のフレームに基づく、qをゼロでない正の整数とするqビットの長さを有する、第1の符号化フレームを生成することと、
前記音声信号の第2のフレームに基づく、rをqよりも小さいゼロでない正の整数とするrビットの長さを有する、第2の符号化フレームを生成することとを備え、
前記第1の符号化フレームは、(A)前記第1のフレームを含む前記音声信号の一部の、第1の周波数帯域上のスペクトル包絡線の記述および(B)前記第1のフレームを含む前記音声信号の一部の、前記第1の周波数帯域と異なる第2の周波数帯域上のスペクトル包絡線の記述を含み、
前記第2の符号化フレームは、(A)前記第2のフレームを含む前記音声信号の一部の、前記第1の周波数帯域上のスペクトル包絡線の記述を含み、(B)前記第2の周波数帯域上のスペクトル包絡線の記述を含まない方法。
[18]
前記第2のフレームは、前記音声信号中の前記第1のフレームの直後に続く[17]に記載の方法。
[19]
前記第1のフレームと前記第2のフレームとの間の前記音声信号の前記フレームはすべて、非アクティブである[17]に記載の方法。
[20]
前記第2の周波数帯域の少なくとも一部は、前記第1の周波数帯域よりも高い[17]に記載の方法。
[21]
前記第1および第2の周波数帯域は、少なくとも200ヘルツだけオーバーラップする[20]に記載の方法。
[22]
音声信号のフレームを符号化するための装置であって、
前記音声信号の第1のフレームに基づき、pをゼロでない正の整数とするpビットの長さを有する、第1の符号化フレームを生成するための手段と、
前記音声信号の第2のフレームに基づき、qをpと異なるゼロでない正の整数とするqビットの長さを有する、第2の符号化フレームを生成するための手段と、
前記音声信号の第3のフレームに基づき、rをqよりも小さいゼロでない正の整数とするrビットの長さを有する、第3の符号化フレームを生成するための手段とを備え、
前記第2のフレームは、前記第1のフレームの後に出現する非アクティブフレームであり、前記第3のフレームは、前記第2のフレームの後に出現する非アクティブフレームであり、前記第1のフレームと前記第3のフレームとの間の前記音声信号の前記フレームはすべて、非アクティブである装置。
[23]
前記第1および第3のフレーム、および前記第1のフレームと前記第3のフレームとの間のフレームのそれぞれについて、前記フレームがアクティブであるか、または非アクティブであるかを指示するための手段と、
前記第1のフレームについて指示するための手段の指示に応答して、第1の符号化方式を選択するための手段と、
前記第2のフレームについて、前記第2のフレームが非アクティブがあること、および前記第1のフレームと前記第2のフレームとの間の任意の複数のフレームがアクティブであることを指示するための手段の指示に応答して、第2の符号化方式を選択するための手段と、
前記第3のフレームについて、前記第3のフレームが前記第1のフレームの後に出現する非アクティブフレームの連続する系列の1つであることを指示するための手段の指示に応答して、第2の符号化方式を選択するための手段とを備え、
第1の符号化フレームを生成するための前記手段は、前記第1の符号化方式に従って前記第1の符号化フレームを生成するように構成され、
第2の符号化フレームを生成するための前記手段は、前記第2の符号化方式に従って前記第2の符号化フレームを生成するように構成され、
第3の符号化フレームを生成するための前記手段は、前記第3の符号化方式に従って前記第3の符号化フレームを生成するように構成されている[22]に記載の装置。
[24]
前記音声信号中で、少なくとも1つのフレームは、前記第1のフレームと前記第2のフレームとの間に出現する[22]に記載の装置。
[25]
第2の符号化フレームを生成するための前記手段は、(A)前記第2のフレームを含む前記音声信号の一部の、第1の周波数帯域上のスペクトル包絡線の記述および(B)前記第2のフレームを含む前記音声信号の一部の、前記第1の周波数帯域と異なる第2の周波数帯域上のスペクトル包絡線の記述を含む前記第2の符号化フレームを生成するように構成されている[22]に記載の装置。
[26]
第3の符号化フレームを生成するための前記手段は、(A)前記第1の周波数帯域上のスペクトル包絡線の記述を含み、(B)前記第2の周波数帯域上のスペクトル包絡線の記述を含まない前記第3の符号化フレームを生成するように構成されている[25]に記載の装置。
[27]
第3の符号化フレームを生成するための前記手段は、前記第3のフレームを含む前記音声信号の一部のスペクトル包絡線の記述を含む前記第3の符号化フレームを生成するように構成されている[22]に記載の装置。
[28]
コンピュータ可読媒体を備えるコンピュータプログラム製品であって、前記媒体は、
前記音声信号の第1のフレームに基づく、pをゼロでない正の整数とするpビットの長さを有する、第1の符号化フレームを少なくとも1つのコンピュータに生成させるためのコードと、
前記音声信号の第2のフレームに基づく、qをpと異なるゼロでない正の整数とするqビットの長さを有する、第2の符号化フレームを少なくとも1つのコンピュータに生成させるためのコードと、
前記音声信号の第3のフレームに基づく、rをqよりも小さいゼロでない正の整数とするrビットの長さを有する、第3の符号化フレームを少なくとも1つのコンピュータに生成させるためのコードとを備え、
前記第2のフレームは、前記第1のフレームの後に出現する非アクティブフレームであり、前記第3のフレームは、前記第2のフレームの後に出現する非アクティブフレームであり、前記第1のフレームと前記第3のフレームとの間の前記音声信号の前記フレームはすべて、非アクティブであるコンピュータプログラム製品。
[29]
前記音声信号中で、少なくとも1つのフレームは、前記第1のフレームと前記第2のフレームとの間に出現する[28]に記載のコンピュータプログラム製品。
[30]
第2の符号化フレームを少なくとも1つのコンピュータに生成させるための前記コードは、(A)前記第2のフレームを含む前記音声信号の一部の、第1の周波数帯域上のスペクトル包絡線の記述および(B)前記第2のフレームを含む前記音声信号の一部の、前記第1の周波数帯域と異なる第2の周波数帯域上のスペクトル包絡線の記述を含む前記第2の符号化フレームを前記少なくとも1つのコンピュータに生成させるように構成されている[28]に記載のコンピュータプログラム製品。
[31]
第3の符号化フレームを少なくとも1つのコンピュータに生成させるための前記コードは、(A)前記第1の周波数帯域上のスペクトル包絡線の記述を含み、(B)前記第2の周波数帯域上のスペクトル包絡線の記述を含まない前記第3の符号化フレームを前記少なくとも1つのコンピュータに生成させるように構成されている[30]に記載のコンピュータプログラム製品。
[32]
第3の符号化フレームを少なくとも1つのコンピュータに生成させるための前記コードは、前記第3のフレームを含む前記音声信号の一部のスペクトル包絡線の記述を含む前記第3の符号化フレームを前記少なくとも1つのコンピュータに生成させるように構成されている[28]に記載のコンピュータプログラム製品。
[33]
音声信号のフレームを符号化するための装置であって、
前記音声信号の複数のフレームのそれぞれについて、前記フレームがアクティブであるか、または非アクティブであるかを指示するように構成された音声活動検出器と、
(A)前記音声信号の第1のフレームに対する前記音声活動検出器の指示に応答して、第1の符号化方式を、
(B)前記第1のフレームの後に出現する非アクティブフレームの連続する系列の1つである第2のフレームについて、また前記第2のフレームが非アクティブであることを指示する前記音声活動検出器の指示に応答して、第2の符号化方式を、そして
(C)前記音声信号内の前記第2のフレームの後に続く、前記第1のフレームの後に出現する非アクティブフレームの連続する系列の他の1つである第3のフレームについて、また前記第3のフレームが非アクティブであることを指示する前記音声活動検出器の指示に応答して、第3の符号化方式を
選択するように構成された符号化方式選択器と、
(D)前記第1の符号化方式に従って、前記第1のフレームに基づく、pをゼロでない正の整数とするpビットの長さを有する、第1の符号化フレームを、
(E)前記第2の符号化方式に従って、前記第2のフレームに基づく、qをpと異なるゼロでない正の整数とするqビットの長さを有する、第2の符号化フレームを、そして
(F)前記第3の符号化方式に従って、前記第3のフレームに基づく、rをqよりも小さいゼロでない正の整数とするrビットの長さを有する、第3の符号化フレームを
生成するように構成された音声符号器とを備える装置。
[34]
前記音声信号中で、少なくとも1つのフレームは、前記第1のフレームと前記第2のフレームとの間に出現する[33]に記載の装置。
[35]
前記音声符号器は、(A)前記第2のフレームを含む前記音声信号の一部の、第1の周波数帯域上のスペクトル包絡線の記述および(B)前記第2のフレームを含む前記音声信号の一部の、前記第1の周波数帯域と異なる第2の周波数帯域上のスペクトル包絡線の記述を含む前記第2の符号化フレームを生成するように構成されている[33]に記載の装置。
[36]
前記音声符号器は、(A)前記第1の周波数帯域上のスペクトル包絡線の記述を含み、(B)前記第2の周波数帯域上のスペクトル包絡線の記述を含まない前記第3の符号化フレームを生成するように構成されている[35]に記載の装置。
[37]
前記音声符号器は、前記第3のフレームを含む前記音声信号の一部のスペクトル包絡線の記述を含む前記第3の符号化フレームを生成するように構成されている[33]に記載の装置。
[38]
符号化音声信号を処理する方法であって、
前記符号化音声信号の第1の符号化フレームから得られる情報に基づき、(A)第1の周波数帯域および(B)前記第1の周波数帯域と異なる第2の周波数帯域上で音声信号の第1のフレームのスペクトル包絡線の記述を取得することと、
前記符号化音声信号の第2の符号化フレームから得られる情報に基づき、前記第1の周波数帯域上の前記音声信号の第2のフレームのスペクトル包絡線の記述を取得することと、
前記第1の符号化フレームから得られる情報に基づき、前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の記述を取得することとを備える方法。
[39]
前記第1の周波数帯域上の前記音声信号の第2のフレームのスペクトル包絡線の記述を前記取得することは、前記第2の符号化フレームから得られる情報に少なくとも主に基づく[38]に記載の符号化音声信号を処理する方法。
[40]
前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の記述を前記取得することは、前記第1の符号化フレームから得られる情報に少なくとも主に基づく[38]に記載の符号化音声信号を処理する方法。
[41]
第1のフレームのスペクトル包絡線の前記記述は、前記第1の周波数帯域上の前記第1のフレームのスペクトル包絡線の記述および前記第2の周波数帯域上の前記第1のフレームのスペクトル包絡線の記述を含む[38]に記載の符号化音声信号を処理する方法。
[42]
前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の記述を前記取得する際に基づく前記情報は、前記第2の周波数帯域上の前記第1のフレームのスペクトル包絡線の前記記述を含む[35]に記載の符号化音声信号を処理する方法。
[43]
前記第1の符号化フレームは、広帯域符号化方式に従って符号化され、前記第2の符号化フレームは、狭帯域符号化方式に従って符号化される[38]に記載の符号化音声信号を処理する方法。
[44]
前記第1の符号化フレームのビット単位の長さは、前記第2の符号化フレームのビット単位の長さの少なくとも2倍である[38]に記載の符号化音声信号を処理する方法。
[45]
前記第1の周波数帯域上の前記第2のフレームのスペクトル包絡線の前記記述、前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の前記記述、および少なくとも主に不規則雑音信号に基づく励振信号に基づき、前記第2のフレームを計算することを備える[38]に記載の符号化音声信号を処理する方法。
[46]
前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の記述を前記取得することは、前記符号化音声信号の第3の符号化フレームから得られる情報に基づいており、前記第1および第3の符号化フレームは両方とも、前記第2の符号化フレームの前の前記符号化音声信号中に出現する[38]に記載の符号化音声信号を処理する方法。
[47]
第3の符号化フレームから得られる情報は、前記第2の周波数帯域上の前記音声信号の第3のフレームのスペクトル包絡線の記述を含む[46]に記載の符号化音声信号を処理する方法。
[48]
前記第2の周波数帯域上の前記第1のフレームのスペクトル包絡線の前記記述は、スペクトルパラメータ値のベクトルを含み、
前記第2の周波数帯域上の前記第3のフレームのスペクトル包絡線の前記記述は、スペクトルパラメータ値のベクトルを含み、
前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の記述を前記取得することは、前記第1のフレームのスペクトルパラメータ値の前記ベクトルおよび前記第3のフレームのスペクトルパラメータ値の前記ベクトルの関数として前記第2のフレームのスペクトルパラメータ値のベクトルを計算することを含む[46]に記載の符号化音声信号を処理する方法。
[49]
前記第1の符号化フレームの符号化インデックスが少なくとも1つの所定の条件を満たしていることを検出したことに応答して、前記第1の符号化フレームから得られた前記情報を格納し、その後前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の記述を前記取得することと、
前記第3の符号化フレームの符号化インデックスが少なくとも1つの所定の条件を満たしていることを検出したことに応答して、前記第3の符号化フレームから得られた前記情報を格納し、その後前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の記述を前記取得することと、
前記第2の符号化フレームの符号化インデックスが少なくとも1つの所定の条件を満たしていることを検出したことに応答して、前記第1の符号化フレームからの前記格納されている情報と前記第3の符号化フレームからの前記格納されている情報とを取り出すこととを備える[46]に記載の符号化音声信号を処理する方法。
[50]
前記第2のフレームに続く前記音声信号の複数のフレームのそれぞれについて、前記第2の周波数帯域上の前記フレームのスペクトル包絡線の、前記第1の符号化フレームから得られた情報に基づく記述を取得することを備える[38]に記載の符号化音声信号を処理する方法。
[51]
前記第2のフレームに続く前記音声信号の複数のフレームのそれぞれについて、(C)前記第2の周波数帯域上の前記フレームのスペクトル包絡線の、前記第1の符号化フレームから得られた情報に基づく記述を取得することと、(D)前記第1の周波数帯域上の前記フレームのスペクトル包絡線の、前記第2の符号化フレームから得られた情報に基づく記述を取得することとを備える[38]に記載の符号化音声信号を処理する方法。
[52]
前記第1の周波数帯域上の前記第2のフレームの励振信号に基づき、前記第2の周波数帯域上の前記第2のフレームの励振信号を取得することを備える[38]に記載の符号化音声信号を処理する方法。
[53]
前記第1の符号化フレームから得られた情報に基づき、前記第2の周波数帯域に対する前記第2のフレームの時間情報の記述を取得することを備える[38]に記載の符号化音声信号を処理する方法。
[54]
前記第2のフレームの時間情報の前記記述は、前記第2の周波数帯域に対する前記第2のフレームの時間包絡線の記述を含む[38]に記載の符号化音声信号を処理する方法。
[55]
符号化音声信号を処理するための装置であって、
前記符号化音声信号の第1の符号化フレームから得られた情報に基づき、(A)第1の周波数帯域および(B)前記第1の周波数帯域と異なる第2の周波数帯域上の音声信号の第1のフレームのスペクトル包絡線の記述を取得するための手段と、
前記符号化音声信号の第2の符号化フレームから得られた情報に基づき、前記第1の周波数帯域上の前記音声信号の第2のフレームのスペクトル包絡線の記述を取得するための手段と、
前記第1の符号化フレームから得られた情報に基づき、前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の記述を取得するための手段とを備える装置。
[56]
第1のフレームのスペクトル包絡線の前記記述は、前記第1の周波数帯域上の前記第1のフレームのスペクトル包絡線の記述および前記第2の周波数帯域上の前記第1のフレームのスペクトル包絡線の記述を含み、
前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の記述を取得するための前記手段が前記記述を取得するように構成される際に基づく前記情報は、前記第2の周波数帯域上の前記第1のフレームのスペクトル包絡線の前記記述を含む[55]に記載の符号化音声信号を処理するための装置。
[57]
前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の記述を取得するための前記手段は、前記符号化音声信号の第3の符号化フレームから得られた情報に基づき前記記述を取得するように構成され、前記第1および第3の符号化フレームは両方とも、前記第2の符号化フレームの前の前記符号化音声信号中に出現し、
第3の符号化フレームから得られた前記情報は、前記第2の周波数帯域上の前記音声信号の第3のフレームのスペクトル包絡線の記述を含む[55]に記載の符号化音声信号を処理するための装置。
[58]
前記第2のフレームに続く前記音声信号の複数のフレームのそれぞれについて、前記第2の周波数帯域上の前記フレームのスペクトル包絡線の、前記第1の符号化フレームから得られた情報に基づく記述を取得するための手段を備える[55]に記載の符号化音声信号を処理するための装置。
[59]
前記第2のフレームに続く前記音声信号の複数のフレームのそれぞれについて、前記第2の周波数帯域上の前記フレームのスペクトル包絡線の、前記第1の符号化フレームから得られた情報に基づく記述を取得するための手段と、
前記複数のフレームのそれぞれについて、前記第1の周波数帯域上の前記フレームのスペクトル包絡線の、前記第2の符号化フレームから得られた情報に基づく記述を取得するための手段とを備える[55]に記載の符号化音声信号を処理するための装置。
[60]
前記第1の周波数帯域上の前記第2のフレームの励振信号に基づき、前記第2の周波数帯域上の前記第2のフレームの励振信号を取得するための手段を備える[55]に記載の符号化音声信号を処理するための装置。
[61]
前記第1の符号化フレームから得られた情報に基づき、前記第2の周波数帯域に対する前記第2のフレームの時間情報の記述を取得するための手段を備え、
前記第2のフレームの時間情報の前記記述は、前記第2の周波数帯域に対する前記第2のフレームの時間包絡線の記述を含む[55]に記載の符号化音声信号を処理するための装置。
[62]
コンピュータ可読媒体を備えるコンピュータプログラム製品であって、前記媒体は、
前記符号化音声信号の第1の符号化フレームから得られる情報に基づき、(A)第1の周波数帯域および(B)前記第1の周波数帯域と異なる第2の周波数帯域上で音声信号の第1のフレームのスペクトル包絡線の記述を少なくとも1つのコンピュータに取得させるためのコードと、
前記符号化音声信号の第2の符号化フレームから得られる情報に基づき、前記第1の周波数帯域上の前記音声信号の第2のフレームのスペクトル包絡線の記述を少なくとも1つのコンピュータに取得させるためのコードと、
前記第1の符号化フレームから得られる情報に基づき、前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の記述を少なくとも1つのコンピュータに取得させるためのコードとを備えるコンピュータプログラム製品。
[63]
第1のフレームのスペクトル包絡線の前記記述は、前記第1の周波数帯域上の前記第1のフレームのスペクトル包絡線の記述および前記第2の周波数帯域上の前記第1のフレームのスペクトル包絡線の記述を含み、
前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の記述を少なくとも1つのコンピュータに取得させるための前記コードが前記記述を取得するように構成される際に基づく前記情報は、前記第2の周波数帯域上の前記第1のフレームのスペクトル包絡線の前記記述を含む[62]に記載のコンピュータプログラム製品。
[64]
前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の記述を少なくとも1つのコンピュータに取得させるための前記コードは、前記符号化音声信号の第3の符号化フレームから得られた情報に基づき前記記述を取得するように構成され、前記第1および第3の符号化フレームは両方とも、前記第2の符号化フレームの前の前記符号化音声信号中に出現し、
第3の符号化フレームから得られた前記情報は、前記第2の周波数帯域上の前記音声信号の第3のフレームのスペクトル包絡線の記述を含む[62]に記載のコンピュータプログラム製品。
[65]
前記装置は、前記第2のフレームに続く前記音声信号の複数のフレームのそれぞれについて、前記第2の周波数帯域上の前記フレームのスペクトル包絡線の、前記第1の符号化フレームから得られた情報に基づく記述を少なくとも1つのコンピュータに取得させるためのコードを備える[62]に記載のコンピュータプログラム製品。
[66]
前記装置は、
前記第2のフレームに続く前記音声信号の複数のフレームのそれぞれについて、前記第2の周波数帯域上の前記フレームのスペクトル包絡線の、前記第1の符号化フレームから得られた情報に基づく記述を少なくとも1つのコンピュータに取得させるためのコードと、
前記複数のフレームのそれぞれについて、前記第1の周波数帯域上の前記フレームのスペクトル包絡線の、前記第2の符号化フレームから得られた情報に基づく記述を少なくとも1つのコンピュータに取得させるためのコードとを備える[62]に記載のコンピュータプログラム製品。
[67]
前記装置は、前記第1の周波数帯域上の前記第2のフレームの励振信号に基づき、前記第2の周波数帯域上の前記第2のフレームの励振信号を少なくとも1つのコンピュータに取得させるためのコードを備える[62]に記載のコンピュータプログラム製品。
[68]
前記装置は、前記第1の符号化フレームから得られた情報に基づき、前記第2の周波数帯域に対する前記第2のフレームの時間情報の記述を少なくとも1つのコンピュータに取得させるためのコードを備え、
前記第2のフレームの時間情報の前記記述は、前記第2の周波数帯域に対する前記第2のフレームの時間包絡線の記述を含む[62]に記載のコンピュータプログラム製品。
[69]
符号化音声信号を処理するための装置であって、
前記符号化音声信号の符号化フレームの符号化インデックスに基づく値のシーケンスを備える、前記シーケンスのそれぞれの値が前記符号化音声信号の符号化フレームに対応する制御信号を生成するように構成された制御ロジックと、
(A)第1の状態を有する前記制御信号の値に応じて、前記第1および第2の周波数帯域上のスペクトル包絡線の、前記対応する符号化フレームから得られた情報に基づく記述に基づき復号化フレームを計算し、(B)前記第1の状態と異なる第2の状態を有する前記制御信号の値に応じて、(1)前記第1の周波数帯域上のスペクトル包絡線の、前記対応する符号化フレームから得られた情報に基づく記述、および(2)前記第2の周波数帯域上のスペクトル包絡線の、前記対応する符号化フレームの前に前記符号化音声信号中に出現する少なくとも1つの符号化フレームから得られた情報に基づく記述に基づき復号化フレームを計算するように構成されている音声復号器とを備える装置。
[70]
前記音声復号器が前記第2の状態を有する前記制御信号の値に応じて復号化フレームを計算するように構成される際に基づく、前記第2の周波数帯域上のスペクトル包絡線の前記記述は、前記対応する符号化フレームの前の前記符号化音声信号中に出現する少なくとも2つの符号化フレームのそれぞれから得られる情報に基づく[69]に記載の符号化音声信号を処理するための装置。
[71]
前記制御ロジックは、対応するフレーム周期に符号化フレームを受信することに失敗したことに応答して、前記第1および第2の状態と異なる、第3の状態を有する前記制御信号の値を生成するように構成され、
前記音声復号器は、(C)前記第3の状態を有する前記制御信号の値に応じて、(1)前記第1の周波数帯域上の前記フレームのスペクトル包絡線の、前記一番最近に受信された符号化フレームから得られた情報に基づく記述、および(2)前記第2の周波数帯域上の前記フレームのスペクトル包絡線の、前記一番最近に受信された符号化フレームの前に前記符号化音声信号中に出現する符号化フレームから得られた情報に基づく記述に基づき復号化フレームを計算するように構成されている[69]に記載の符号化音声信号を処理するための装置。
[72]
前記音声復号器は、前記第2の状態を有する前記制御信号の値に応じて、また前記第1の周波数帯域上の前記復号化フレームの励振信号に基づき、前記第2の周波数帯域上の前記復号化フレームの励振信号を計算するように構成されている[69]に記載の符号化音声信号を処理するための装置。
[73]
前記音声復号器は、前記第2の状態を有する前記制御信号の値に応じて、前記第2の周波数帯域に対する時間包絡線の、前記対応する符号化フレームの前に前記符号化音声信号中に出現する少なくとも1つの符号化フレームから得られた情報に基づく記述に基づき前記復号化フレームを計算するように構成されている[69]に記載の符号化音声信号を処理するための装置。
[74]
前記音声復号器は、前記第2の状態を有する前記制御信号の値に応じて、少なくとも主に不規則雑音信号に基づく励振信号に基づき前記復号化フレームを計算するように構成されている[69]に記載の符号化音声信号を処理するための装置。

Claims (3)

  1. 符号化音声信号を処理する方法であって、
    前記符号化音声信号の第1の符号化フレームから得られる情報に基づき、(A)第1の周波数帯域および(B)前記第1の周波数帯域と異なる第2の周波数帯域上で音声信号の第1のフレームのスペクトル包絡線の記述を取得することと、
    前記符号化音声信号の第2の符号化フレームから得られる情報に基づき、前記第1の周波数帯域上の前記音声信号の第2のフレームのスペクトル包絡線の記述を取得することと、
    前記第1の符号化フレームから得られる情報に基づき、前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の記述を取得することとを備え、
    前記第1の符号化フレームは、前記第1の周波数帯域及び前記第2の周波数帯域のための広帯域符号化方式に従って符号化され、前記第2の符号化フレームは、前記第1の周波数帯域のための狭帯域符号化方式に従って符号化される方法。
  2. 符号化音声信号を処理するための装置であって、
    前記符号化音声信号の第1の符号化フレームから得られた情報に基づき、(A)第1の周波数帯域および(B)前記第1の周波数帯域と異なる第2の周波数帯域上の音声信号の第1のフレームのスペクトル包絡線の記述を取得するための手段と、
    前記符号化音声信号の第2の符号化フレームから得られた情報に基づき、前記第1の周波数帯域上の前記音声信号の第2のフレームのスペクトル包絡線の記述を取得するための手段と、
    前記第1の符号化フレームから得られた情報に基づき、前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の記述を取得するための手段とを備え、
    前記第1の符号化フレームは、前記第1の周波数帯域及び前記第2の周波数帯域のための広帯域符号化方式に従って符号化され、前記第2の符号化フレームは、前記第1の周波数帯域のための狭帯域符号化方式に従って符号化される装置。
  3. 符号化音声信号を処理するための装置であって、
    前記符号化音声信号の第1の符号化フレームから得られた情報に基づき、(A)第1の周波数帯域および(B)前記第1の周波数帯域と異なる第2の周波数帯域上の音声信号の第1のフレームのスペクトル包絡線の記述を取得する第1のユニットと、
    前記符号化音声信号の第2の符号化フレームから得られた情報に基づき、前記第1の周波数帯域上の前記音声信号の第2のフレームのスペクトル包絡線の記述を取得する第2のユニットと、
    前記第1の符号化フレームから得られた情報に基づき、前記第2の周波数帯域上の前記第2のフレームのスペクトル包絡線の記述を取得する第3のユニットとを備え、
    前記第1の符号化フレームは、前記第1の周波数帯域及び前記第2の周波数帯域のための広帯域符号化方式に従って符号化され、前記第2の符号化フレームは、前記第1の周波数帯域のための狭帯域符号化方式に従って符号化される装置。
JP2013022112A 2006-07-31 2013-02-07 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置 Active JP5596189B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US83468806P 2006-07-31 2006-07-31
US60/834,688 2006-07-31
US11/830,812 US8260609B2 (en) 2006-07-31 2007-07-30 Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US11/830,812 2007-07-30

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2011254083A Division JP5237428B2 (ja) 2006-07-31 2011-11-21 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置

Publications (2)

Publication Number Publication Date
JP2013137557A JP2013137557A (ja) 2013-07-11
JP5596189B2 true JP5596189B2 (ja) 2014-09-24

Family

ID=38692069

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2009523021A Withdrawn JP2009545778A (ja) 2006-07-31 2007-07-31 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置
JP2011254083A Active JP5237428B2 (ja) 2006-07-31 2011-11-21 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置
JP2013022112A Active JP5596189B2 (ja) 2006-07-31 2013-02-07 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2009523021A Withdrawn JP2009545778A (ja) 2006-07-31 2007-07-31 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置
JP2011254083A Active JP5237428B2 (ja) 2006-07-31 2011-11-21 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置

Country Status (11)

Country Link
US (2) US8260609B2 (ja)
EP (1) EP2047465B1 (ja)
JP (3) JP2009545778A (ja)
KR (1) KR101034453B1 (ja)
CN (2) CN101496100B (ja)
BR (1) BRPI0715064B1 (ja)
CA (2) CA2778790C (ja)
ES (1) ES2406681T3 (ja)
HK (1) HK1184589A1 (ja)
RU (1) RU2428747C2 (ja)
WO (1) WO2008016935A2 (ja)

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
US8639500B2 (en) * 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
KR20080059881A (ko) * 2006-12-26 2008-07-01 삼성전자주식회사 음성 신호의 전처리 장치 및 방법
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
US8392198B1 (en) * 2007-04-03 2013-03-05 Arizona Board Of Regents For And On Behalf Of Arizona State University Split-band speech compression based on loudness estimation
US8064390B2 (en) 2007-04-27 2011-11-22 Research In Motion Limited Uplink scheduling and resource allocation with fast indication
PT2186090T (pt) * 2007-08-27 2017-03-07 ERICSSON TELEFON AB L M (publ) Detetor de transitórios e método para suportar codificação de um sinal de áudio
CN100524462C (zh) 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
CN100555414C (zh) * 2007-11-02 2009-10-28 华为技术有限公司 一种dtx判决方法和装置
WO2009066960A1 (en) 2007-11-21 2009-05-28 Lg Electronics Inc. A method and an apparatus for processing a signal
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US20090168673A1 (en) * 2007-12-31 2009-07-02 Lampros Kalampoukas Method and apparatus for detecting and suppressing echo in packet networks
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
DE102008009719A1 (de) 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
DE102008009718A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
DE102008009720A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Dekodierung von Hintergrundrauschinformationen
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
TWI395976B (zh) * 2008-06-13 2013-05-11 Teco Image Sys Co Ltd 掃描模組之光源投射裝置及其光源排列方法
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
WO2010003543A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for calculating bandwidth extension data using a spectral tilt controlling framing
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
CN101751926B (zh) 2008-12-10 2012-07-04 华为技术有限公司 信号编码、解码方法及装置、编解码系统
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
US8428209B2 (en) * 2010-03-02 2013-04-23 Vt Idirect, Inc. System, apparatus, and method of frequency offset estimation and correction for mobile remotes in a communication network
ES2722224T3 (es) * 2010-04-13 2019-08-08 Fraunhofer Ges Forschung Procedimiento y codificador y decodificador para la reproducción sin espacios de una señal de audio
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US9165567B2 (en) 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
ES2665944T3 (es) * 2010-12-24 2018-04-30 Huawei Technologies Co., Ltd. Aparato para realizar una detección de actividad de voz
US8751223B2 (en) 2011-05-24 2014-06-10 Alcatel Lucent Encoded packet selection from a first voice stream to create a second voice stream
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
WO2013085538A1 (en) * 2011-12-09 2013-06-13 Intel Corporation Control of video processing algorithms based on measured perceptual quality characteristics
CN103187065B (zh) 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
US9208798B2 (en) 2012-04-09 2015-12-08 Board Of Regents, The University Of Texas System Dynamic control of voice codec data rate
JP6200034B2 (ja) * 2012-04-27 2017-09-20 株式会社Nttドコモ 音声復号装置
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
CN102723968B (zh) * 2012-05-30 2017-01-18 中兴通讯股份有限公司 一种提升空口容量的方法及装置
WO2014118160A1 (en) * 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands
KR101771828B1 (ko) * 2013-01-29 2017-08-25 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더, 오디오 디코더, 인코딩된 오디오 정보를 제공하기 위한 방법, 디코딩된 오디오 정보를 제공하기 위한 방법, 컴퓨터 프로그램 및 신호 적응적 대역폭 확장을 이용한 인코딩된 표현
US9336789B2 (en) * 2013-02-21 2016-05-10 Qualcomm Incorporated Systems and methods for determining an interpolation factor set for synthesizing a speech signal
EP3550562B1 (en) * 2013-02-22 2020-10-28 Telefonaktiebolaget LM Ericsson (publ) Methods and apparatuses for dtx hangover in audio coding
FR3008533A1 (fr) 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
GB201316575D0 (en) * 2013-09-18 2013-10-30 Hellosoft Inc Voice data transmission with adaptive redundancy
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
JP5981408B2 (ja) * 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
US20150149157A1 (en) * 2013-11-22 2015-05-28 Qualcomm Incorporated Frequency domain gain shape estimation
BR112016014476B1 (pt) 2013-12-27 2021-11-23 Sony Corporation Aparelho e método de decodificação, e, meio de armazenamento legível por computador
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
US9697843B2 (en) 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
EP2950474B1 (en) 2014-05-30 2018-01-31 Alcatel Lucent Method and devices for controlling signal transmission during a change of data rate
CN106409304B (zh) * 2014-06-12 2020-08-25 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
US10304472B2 (en) * 2014-07-28 2019-05-28 Nippon Telegraph And Telephone Corporation Method, device and recording medium for coding based on a selected coding processing
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
JP2017150146A (ja) 2016-02-22 2017-08-31 積水化学工業株式会社 対象物を補強または補修する方法
CN106067847B (zh) * 2016-05-25 2019-10-22 腾讯科技(深圳)有限公司 一种语音数据传输方法及装置
US10573326B2 (en) * 2017-04-05 2020-02-25 Qualcomm Incorporated Inter-channel bandwidth extension
EP3662469A4 (en) * 2018-04-25 2020-08-19 Dolby International AB INTEGRATION OF HIGH FREQUENCY RECONSTRUCTION TECHNIQUES WITH REDUCED POST-PROCESSING DELAY
KR20210005164A (ko) 2018-04-25 2021-01-13 돌비 인터네셔널 에이비 고주파 오디오 재구성 기술의 통합
TWI740655B (zh) * 2020-09-21 2021-09-21 友達光電股份有限公司 顯示裝置的驅動方法
CN118230703A (zh) * 2022-12-21 2024-06-21 北京字跳网络技术有限公司 一种语音处理方法、装置和电子设备

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5511073A (en) 1990-06-25 1996-04-23 Qualcomm Incorporated Method and apparatus for the formatting of data for transmission
BR9206143A (pt) 1991-06-11 1995-01-03 Qualcomm Inc Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados
JP2779886B2 (ja) 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
GB2294614B (en) * 1994-10-28 1999-07-14 Int Maritime Satellite Organiz Communication method and apparatus
US5704003A (en) 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
US6049537A (en) 1997-09-05 2000-04-11 Motorola, Inc. Method and system for controlling speech encoding in a communication system
JP3352406B2 (ja) * 1998-09-17 2002-12-03 松下電器産業株式会社 オーディオ信号の符号化及び復号方法及び装置
AU1524300A (en) 1998-11-13 2000-06-05 Qualcomm Incorporated Closed-loop variable-rate multimode predictive speech coder
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6973140B2 (en) 1999-03-05 2005-12-06 Ipr Licensing, Inc. Maximizing data rate by adjusting codes and code rates in CDMA system
KR100297875B1 (ko) 1999-03-08 2001-09-26 윤종용 가변 속도 보코더를 사용하는 코드 분할 다중 접속 시스템의 음질 향상을 위한 방법
JP4438127B2 (ja) 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
US6330532B1 (en) 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
FI115329B (fi) 2000-05-08 2005-04-15 Nokia Corp Menetelmä ja järjestely lähdesignaalin kaistanleveyden vaihtamiseksi tietoliikenneyhteydessä, jossa on valmiudet useisiin kaistanleveyksiin
EP1290681A1 (en) 2000-05-26 2003-03-12 Cellon France SAS Transmitter for transmitting a signal encoded in a narrow band, and receiver for extending the band of the encoded signal at the receiving end, and corresponding transmission and receiving methods, and system
US6807525B1 (en) * 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
US6879955B2 (en) 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
CN1282156C (zh) * 2001-11-23 2006-10-25 皇家飞利浦电子股份有限公司 音频信号带宽扩展
CA2365203A1 (en) * 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
JP4272897B2 (ja) 2002-01-30 2009-06-03 パナソニック株式会社 符号化装置、復号化装置およびその方法
DE60323331D1 (de) 2002-01-30 2008-10-16 Matsushita Electric Ind Co Ltd Verfahren und vorrichtung zur audio-kodierung und -dekodierung
CA2392640A1 (en) 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
WO2004034379A2 (en) 2002-10-11 2004-04-22 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US20040098255A1 (en) 2002-11-14 2004-05-20 France Telecom Generalized analysis-by-synthesis speech coding method, and coder implementing such method
KR100524065B1 (ko) 2002-12-23 2005-10-26 삼성전자주식회사 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치
US20050091044A1 (en) 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
KR100587953B1 (ko) * 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
FI119533B (fi) 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
TWI246256B (en) 2004-07-02 2005-12-21 Univ Nat Central Apparatus for audio compression using mixed wavelet packets and discrete cosine transformation
CN101010730B (zh) 2004-09-06 2011-07-27 松下电器产业株式会社 可扩展解码装置以及信号丢失补偿方法
CN101048649A (zh) 2004-11-05 2007-10-03 松下电器产业株式会社 可扩展解码装置及可扩展编码装置
KR20070085982A (ko) * 2004-12-10 2007-08-27 마츠시타 덴끼 산교 가부시키가이샤 광대역 부호화 장치, 광대역 lsp 예측 장치, 대역스케일러블 부호화 장치 및 광대역 부호화 방법
US8102872B2 (en) 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
NZ562182A (en) 2005-04-01 2010-03-26 Qualcomm Inc Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal
TWI324336B (en) 2005-04-22 2010-05-01 Qualcomm Inc Method of signal processing and apparatus for gain factor smoothing
US8032369B2 (en) 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
JP4649351B2 (ja) 2006-03-09 2011-03-09 シャープ株式会社 デジタルデータ復号化装置
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames

Also Published As

Publication number Publication date
CN103151048B (zh) 2016-02-24
WO2008016935A2 (en) 2008-02-07
EP2047465A2 (en) 2009-04-15
CA2657412A1 (en) 2008-02-07
ES2406681T3 (es) 2013-06-07
JP2012098735A (ja) 2012-05-24
CN101496100A (zh) 2009-07-29
US8260609B2 (en) 2012-09-04
BRPI0715064B1 (pt) 2019-12-10
WO2008016935A3 (en) 2008-06-12
JP2013137557A (ja) 2013-07-11
CA2778790C (en) 2015-12-15
BRPI0715064A2 (pt) 2013-05-28
CA2657412C (en) 2014-06-10
CN103151048A (zh) 2013-06-12
HK1184589A1 (zh) 2014-01-24
JP2009545778A (ja) 2009-12-24
US20080027717A1 (en) 2008-01-31
KR101034453B1 (ko) 2011-05-17
CN101496100B (zh) 2013-09-04
RU2428747C2 (ru) 2011-09-10
KR20090035719A (ko) 2009-04-10
JP5237428B2 (ja) 2013-07-17
US9324333B2 (en) 2016-04-26
EP2047465B1 (en) 2013-04-10
US20120296641A1 (en) 2012-11-22
RU2009107043A (ru) 2010-09-10
CA2778790A1 (en) 2008-02-07

Similar Documents

Publication Publication Date Title
JP5596189B2 (ja) 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置
US8532984B2 (en) Systems, methods, and apparatus for wideband encoding and decoding of active frames
US9653088B2 (en) Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
JP5129118B2 (ja) 帯域幅拡張音声予測励振信号の反疎性フィルタリングのための方法及び装置
KR101436715B1 (ko) 광대역 스피치 코딩을 위한 시스템들, 방법들, 장치, 및 컴퓨터 프로그램 제품들
KR101058760B1 (ko) 스피치 신호와 연관된 패킷에 식별자를 포함시키는 시스템 및 방법
US10141001B2 (en) Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140708

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140806

R150 Certificate of patent or registration of utility model

Ref document number: 5596189

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250