JP6486962B2

JP6486962B2 - 異なるサンプリングレートを有するフレーム間の移行による音声信号の線形予測符号化および復号のための方法、符号器および復号器

Info

Publication number: JP6486962B2
Application number: JP2016562841A
Authority: JP
Inventors: レドワン・サラミ; ヴァクラヴ・エクスラー
Original assignee: ヴォイスエイジ・コーポレーション
Priority date: 2014-04-17
Filing date: 2014-07-25
Publication date: 2019-03-20
Anticipated expiration: 2034-07-25
Also published as: SI3511935T1; EP3132443A1; EP3511935B1; CN113223540A; WO2015157843A1; JP2019091077A; CA2940657A1; RU2016144150A3; MX362490B; DK3751566T3; ES2717131T3; US20150302861A1; CA2940657C; AU2014391078B2; ES2976438T3; FI3751566T3; LT3751566T; CN113223540B; DK3511935T3; ZA201606016B

Description

本開示は、音声コード化の分野に関する。より詳細には、本開示は、異なるサンプリングレートを有するフレーム間の移行による音声信号の線形予測符号化および復号のための方法、符号器および復号器に関する。

良好な主観的品質/ビットレートのトレードオフを有する効率的なデジタル広帯域スピーチ/オーディオ符号化技法に対する需要が、オーディオ/ビデオテレビ会議、マルチメディア、および無線応用例、ならびにインターネットおよびパケットネットワーク応用例など、多数の応用例について増加している。最近まで、200〜3400Hzの範囲の電話帯域幅が、スピーチコード化の応用例において主に使用されていた。しかしながら、スピーチ信号の了解度および自然らしさを向上させるために、広帯域スピーチ応用例がますます求められている。範囲50〜7000Hzの帯域幅が、対面スピーチ品質を届けるのに十分であることが見いだされた。オーディオ信号については、この範囲は、受容可能なオーディオ品質を与えるが、しかし範囲20〜20000Hzで作動するCD(コンパクトディスク)品質よりも依然として低い。

スピーチ符号器は、スピーチ信号をデジタルビットストリームに変換し、それは、通信チャンネルを通じて伝送される(または記憶媒体に記憶される)。スピーチ信号は、デジタル化され(通常1サンプルあたり16ビットでサンプリングされ、量子化され)、スピーチ符号器は、良好な主観的スピーチ品質を維持しながら、より小数のビットを用いてこれらのデジタルサンプルを表す役割を有する。スピーチ復号器または合成器は、伝送されたまたは記憶されたビットストリームに作用し、それを音声信号に変換して戻す。

良好な品質/ビットレートのトレードオフを達成することができる最良の利用可能な技法の1つは、いわゆるCELP(符号励振線形予測)技法である。この技法によれば、サンプリングされたスピーチ信号は、通常フレームと呼ばれるLサンプルの連続するブロックにおいて処理され、ここでLは、ある所定数(スピーチの10〜30msに対応する)である。CELPでは、LP(線形予測)合成フィルタが、フレームごとに計算され、伝送される。L-サンプルフレームはさらに、Nサンプルのサブフレームと呼ばれるより小さいブロックに分けられ、ここでL=kNであり、kは、フレーム中のサブフレームの数である(Nは通常、スピーチの4〜10msに対応する)。励振信号は、各サブフレームにおいて決定され、それは通常、2つの構成要素、過去の励振(またピッチ寄与または適応コードブックとも呼ばれる)からの1つおよび革新的コードブック(また固定コードブックとも呼ばれる)からのもう1つを備える。この励振信号は、合成スピーチを得るために、LP合成フィルタの入力として伝送され、復号器において使用される。

CELP技法に従ってスピーチを合成するために、Nサンプルの各ブロックは、スピーチ信号のスペクトル特性をモデル化する時変フィルタを通じて革新的コードブックからの適切なコードベクトルをフィルタリングすることによって合成される。これらのフィルタは、ピッチ合成フィルタ(通常過去の励振信号を含有する適応コードブックとして実施される)およびLP合成フィルタを備える。符号器端部において、合成出力が、革新的コードブックからのコードベクトルのすべてまたはサブセットについて計算される(コードブック探索)。保持される革新的コードベクトルは、知覚的に重み付けされた歪み尺度に従って元のスピーチ信号に最も近い合成出力を作成するものである。この知覚的重み付けは、いわゆる知覚的重み付けフィルタを使用して行われ、それは通常、LP合成フィルタから導かれる。

CELPなどのLPベースのコーダでは、LPフィルタは、1フレームに1回計算され、次いで量子化され、伝送される。しかしながら、LP合成フィルタの滑らかな展開を確実にするために、フィルタパラメータは、過去のフレームからのLPパラメータに基づいて、各サブフレームにおいて補間される。LPフィルタパラメータは、フィルタ安定性問題に起因して量子化に適していない。量子化および補間のためにより効率的な別のLP表現が、通常使用される。よく使用されるLPパラメータ表現は、線スペクトル周波数(LSF)ドメインである。

広帯域コード化では、音声信号は、1秒あたり16000サンプルでサンプリングされ、符号化帯域幅は、7kHzに至るまで拡張される。しかしながら、低ビットレート広帯域コード化(16kbit/sを下回る)では、通常、入力信号をわずかにより低いレートにダウンサンプリングし(down-sample)、CELPモデルをより低い帯域幅に適用し、次いで7kHzに至るまでの信号を生成するために復号器において帯域幅拡張を使用することが、より効率的である。これは、CELPが、高エネルギーを有するより低い周波数をより高い周波数よりも良好にモデル化するという事実に起因する。それで、そのモデルを低ビットレートでより低い帯域幅に集中させることが、より効率的である。AMR-WB標準(非特許文献1)は、そのようなコード化の例であり、そこでは入力信号は、1秒あたり12800サンプルにダウンサンプリングされ、CELPは、6.4kHzに至るまでの信号を符号化する。復号器では、帯域幅拡張が、6.4から7kHzの信号を生成するために使用される。しかしながら、16kbit/sよりも高いビットレートでは、全帯域幅を表すのに十分なビットがあるので、7kHzに至るまでの信号を符号化するためにCELPを使用することが、より効率的である。

つい最近のコーダは、異なる応用シナリオでの柔軟性を可能にするために広範囲のビットレートをカバーするマルチレートコーダである。この場合もやはりAMR-WBが、そのような例であり、そこでは符号器は、6.6から23.85kbit/sのビットレートで動作する。マルチレートコーダでは、コーデックは、スイッチングの人為的影響を取り込むことなくフレームベースで異なるビットレート間で切り替えることができるべきである。AMR-WBでは、すべてのレートが、12.8kHz内部サンプリングレートでCELPを使用するので、これは、容易に達成される。しかしながら、16kbit/sを下回るビットレートでは12.8kHzサンプリングを使用し、16kbit/sよりも高いビットレートでは16kHzサンプリングを使用する最近のコーダでは、異なるサンプリングレートを使用するフレーム間でビットレートを切り替えることに関係する問題が、対処される必要がある。主な問題は、LPフィルタ移行、ならびに合成フィルタおよび適応コードブックのメモリにある。

3GPP Technical Specification 26.190、「Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions」、2005年7月、http://www.3gpp.org. ITU-T Recommendation G.729「Coding of speech at 8kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP)」2007年1月

したがって、異なる内部サンプリングレートを有する2つのビットレート間でLPベースのコーデックを切り替えるための効率的な方法の必要性が、依然としてある。

本開示によれば、線形予測(LP)フィルタパラメータを音声信号サンプリングレートS1から音声信号サンプリングレートS2に変換するための音声信号符号器において実施される方法が、提供される。LP合成フィルタのパワースペクトルは、LPフィルタパラメータを使用してサンプリングレートS1において計算される。LP合成フィルタのパワースペクトルは、サンプリングレートS1からサンプリングレートS2に変換するために修正される。LP合成フィルタの修正されたパワースペクトルは、サンプリングレートS2でのLP合成フィルタの自己相関を決定するために逆変換される。自己相関は、サンプリングレートS2でのLPフィルタパラメータを計算するために使用される。

本開示によれば、受け取った線形予測(LP)フィルタパラメータを音声信号サンプリングレートS1から音声信号サンプリングレートS2に変換するための音声信号復号器において実施される方法もまた、提供される。LP合成フィルタのパワースペクトルは、受け取ったLPフィルタパラメータを使用してサンプリングレートS1において計算される。LP合成フィルタのパワースペクトルは、サンプリングレートS1からサンプリングレートS2に変換するために修正される。LP合成フィルタの修正されたパワースペクトルは、サンプリングレートS2でのLP合成フィルタの自己相関を決定するために逆変換される。自己相関は、サンプリングレートS2でのLPフィルタパラメータを計算するために使用される。

本開示によれば、線形予測(LP)フィルタパラメータを音声信号サンプリングレートS1から音声信号サンプリングレートS2に変換するために音声信号符号器において使用するためのデバイスもまた、提供される。本デバイスは、
・LPフィルタパラメータを使用して受け取ったLP合成フィルタのパワースペクトルをサンプリングレートS1において計算し、
・サンプリングレートS1からサンプリングレートS2に変換するためにLP合成フィルタのパワースペクトルを修正し、
・サンプリングレートS2でのLP合成フィルタの自己相関を決定するためにLP合成フィルタの修正されたパワースペクトルを逆変換し、かつ
・サンプリングレートS2でのLPフィルタパラメータを計算するために自己相関を使用するように構成されるプロセッサを備える。

本開示はさらに、受け取った線形予測(LP)フィルタパラメータを音声信号サンプリングレートS1から音声信号サンプリングレートS2に変換するために音声信号復号器において使用するためのデバイスに関する。本デバイスは、
・受け取ったLPフィルタパラメータを使用してLP合成フィルタのパワースペクトルをサンプリングレートS1において計算し、
・サンプリングレートS1からサンプリングレートS2に変換するためにLP合成フィルタのパワースペクトルを修正し、
・サンプリングレートS2でのLP合成フィルタの自己相関を決定するためにLP合成フィルタの修正されたパワースペクトルを逆変換し、かつ
・サンプリングレートS2でのLPフィルタパラメータを計算するために自己相関を使用するように構成されるプロセッサを備える。

本開示の前述の目的、利点および特徴ならびに他の目的、利点および特徴は、付随する図面を参照してほんの一例として与えられる、その例示的実施形態の次の非制限的な記述を読むことでより明らかになるであろう。

音声符号化および復号の使用の例を描写する音声通信システムの概略的ブロック図である。図1の音声通信システムの一部である、CELPベースの符号器および復号器の構造を例示する概略的ブロック図である。 LPパラメータのフレーミングおよび補間の例を示す図である。 LPフィルタパラメータを2つの異なるサンプリングレート間で変換するための実施形態を例示するブロック図である。図1および図2の符号器および/または復号器を形成するハードウェア構成要素の構成例の簡略化したブロック図である。

本開示の非制限的な例示的実施形態は、LPベースのコーデックにおいて、異なる内部サンプリングレートを使用するフレーム間での効率的切り替えのための方法およびデバイスに関する。切り替え方法およびデバイスは、スピーチおよびオーディオ信号を含む、任意の音声信号について使用されてもよい。16kHzと12.8kHzとの内部サンプリングレート間での切り替えが、例として与えられるが、しかしながら、切り替え方法およびデバイスはまた、他のサンプリングレートに適用されてもよい。

図1は、音声符号化および復号の使用の例を描写する音声通信システムの概略的ブロック図である。音声通信システム100は、通信チャンネル101を挟んで音声信号の伝送および再現を支援する。通信チャンネル101は、例えば、電線、光またはファイバリンクを備えてもよい。別法として、通信チャンネル101は、無線周波数リンクを少なくとも部分的に備えてもよい。無線周波数リンクはしばしば、携帯電話について見いだされることもあるなどの共用帯域幅リソースを必要とする多重、同時スピーチ通信を支援する。図示されないけれども、通信チャンネル101は、符号化音声信号をのちの再生のために記録し、記憶する通信システム100の単一デバイス実施形態での記憶デバイスに置き換えられてもよい。

図1をなお参照すると、例えばマイクロホン102が、最初のアナログ音声信号103を作成し、それは、それを最初のデジタル音声信号105に変換するためのアナログ/デジタル(A/D)変換器104に供給される。最初のデジタル音声信号105はまた、記憶デバイス(図示されず)に記録され、それから供給されてもよい。音声符号器106は、最初のデジタル音声信号105を符号化し、それによって一組の符号化パラメータ107を作成し、それは、バイナリ形式にコード化され、任意選択のチャンネル符号器108に送達される。任意選択のチャンネル符号器108は、ある場合、通信チャンネル101を通じてそれらを伝送する前に、コード化パラメータのバイナリ表現に冗長性を加える。受信機側では、任意選択のチャンネル復号器109は、通信チャンネル101を通じての伝送中に起こることもあるチャンネル誤差を検出し、訂正するためにデジタルビットストリーム111中の上述の冗長情報を利用し、受け取った符号化パラメータ112を作成する。音声復号器110は、合成デジタル音声信号113を生成するために受け取った符号化パラメータ112を変換する。音声復号器110において再構築された合成デジタル音声信号113は、デジタル/アナログ(D/A)変換器115において合成アナログ音声信号114に変換され、スピーカユニット116において再生される。別法として、合成デジタル音声信号113はまた、記憶デバイス(図示されず)に供給され、それに記録されてもよい。

図2は、図1の音声通信システムの一部である、CELPベースの符号器および復号器の構造を例示する概略的ブロック図である。図2に例示されるように、音声コーデックは、2つの基本的部分、両方とも図1の前の記述において紹介される音声符号器106および音声復号器110を備える。符号器106は、最初のデジタル音声信号105を供給され、本明細書で以下に述べられる、最初のアナログ音声信号103を表す符号化パラメータ107を決定する。これらのパラメータ107は、デジタルビットストリーム111に符号化され、それは、通信チャンネル、例えば図1の通信チャンネル101を使用して復号器110に伝送される。音声復号器110は、最初のデジタル音声信号105にできる限り似ているように合成デジタル音声信号113を再構築する。

現在、最も広範囲のスピーチコード化技法は、線形予測(LP)、特にCELPに基づいている。LPベースのコード化では、合成デジタル音声信号113は、伝達関数1/A(z)を有するLP合成フィルタ216を通じて励振214をフィルタリングすることによって作成される。CELPでは、励振214は典型的には、2つの部分、適応コードブック218から選択され、適応コードブック利得g_p226によって増幅される第一段階の適応コードブック寄与222および固定コードブック220から選択され、固定コードブック利得g_c228によって増幅される第二段階の固定コードブック寄与224で構成される。一般的に言えば、適応コードブック寄与222は、励振の周期的部分をモデル化し、固定コードブック寄与224は、音声信号の展開をモデル化するために加えられる。

音声信号は、典型的には20msのフレームによって処理され、LPフィルタパラメータは、1フレームに1回伝送される。CELPでは、フレームはさらに、励振を符号化するためにいくつかのサブフレームに分けられる。サブフレーム長は、典型的には5msである。

CELPは、合成による分析(Analysis-by-Synthesis)と呼ばれる原理を使用し、そこでは可能な復号器出力は、符号器106でのコード化プロセス中にすでに試され(合成され)、次いで最初のデジタル音声信号105と比較される。符号器106はそれ故に、復号器110のそれらに似た要素を含む。これらの要素は、重み付けられた合成フィルタH(z)(238を参照)(LP合成フィルタ1/A(z)および知覚的重み付けフィルタW(z)のカスケード)のインパルス応答と畳み込まれる過去の励振信号v(n)を供給する適応コードブック242から選択される適応コードブック寄与250を含み、その結果y₁(n)は、適応コードブック利得g_p240によって増幅される。また重み付けられた合成フィルタH(z)(246を参照)のインパルス応答と畳み込まれる革新的コードベクトルc_k(n)を供給する固定コードブック244から選択される固定コードブック寄与252も、含まれ、その結果y₂(n)は、固定コードブック利得g_c248によって増幅される。

符号器106はまた、知覚的重み付けフィルタW(z)233ならびにLP合成フィルタ1/A(z)および知覚的重み付けフィルタW(z)のカスケード(H(z))のゼロ入力応答のプロバイダ234も備える。減算器236、254および256はそれぞれ、最初のデジタル音声信号105と合成デジタル音声信号113との間の平均二乗誤差232を提供するために、ゼロ入力応答、適応コードブック寄与250および固定コードブック寄与252を知覚的重み付けフィルタ233によってフィルタリングされた最初のデジタル音声信号105から減算する。

コードブック探索は、知覚的に重み付けられたドメインにおいて最初のデジタル音声信号105と合成デジタル音声信号113との間の平均二乗誤差232を最小化し、ここで離散的時間インデックスはn=0、1、・・・、N-1であり、Nは、サブフレームの長さである。知覚的重み付けフィルタW(z)は、周波数マスキング効果を利用し、典型的にはLPフィルタA(z)から導かれる。

WB(広帯域、50〜7000Hzの帯域幅)信号のための知覚的重み付けフィルタW(z)の例は、非特許文献1に見いだすことができる。

LP合成フィルタ1/A(z)および重み付けフィルタW(z)のメモリは、探索されるコードベクトルから独立しているので、このメモリは、固定コードブック探索より前に最初のデジタル音声信号105から差し引かれてもよい。候補のコードベクトルのフィルタリングは次いで、図2においてH(z)によって表される、フィルタ1/A(z)およびW(z)のカスケードのインパルス応答との畳み込みを用いて行われてもよい。

符号器106から復号器110に伝送されるデジタルビットストリーム111は典型的には、次のパラメータ107、LPフィルタA(z)の量子化パラメータ、適応コードブック242および固定コードブック244のインデックス、ならびに適応コードブック242および固定コードブック244の利得g_p240およびg_c248を含有する。

異なるサンプリングレートを有するフレーム境界での切り替え時にLPフィルタパラメータを変換すること
LPベースのコード化では、LPフィルタA(z)は、1フレームに1回決定され、次いで各サブフレームについて補間される。図3は、LPパラメータのフレーミングおよび補間の例を示す。この例では、現在のフレームは、4つのサブフレームSF1、SF2、SF3およびSF4に分けられ、LP分析窓は、最後のサブフレームSF4に中心がある。それ故に、現在のフレームF1でのLP分析から結果として生じるLPパラメータは、最後のサブフレームにあるとして使用され、すなわちSF4=F1である。最初の3つのサブフレームSF1、SF2およびSF3については、LPパラメータは、現在のフレームF1および前のフレームF0でのパラメータを補間することによって得られる。すなわち、
SF1=0.75F0+0.25F1、
SF2=0.5F0+0.5F1、
SF3=0.25F0+0.75F1、
SF4=F1。

他の補間例は、別法としてLP分析窓の形状、長さおよび位置に応じて使用されてもよい。別の実施形態では、コーダは、12.8kHzと16kHzとの内部サンプリングレート間で切り替わり、そこでは1フレームあたり4サブフレームが、12.8kHzで使用され、1フレームあたり5サブフレームが、16kHzで使用され、LPパラメータはまた、現在のフレームの真ん中(Fm)で量子化される。この別の実施形態では、12.8kHzフレームについてのLPパラメータ補間は、
SF1=0.5F0+0.5Fm、
SF2=Fm、
SF3=0.5Fm+0.5F1、
SF4=F1
によって与えられる。

16kHzサンプリングについては、補間は、
SF1=0.55F0+0.45Fm、
SF2=0.15F0+0.85Fm、
SF3=0.75Fm+0.25F1、
SF4=0.35Fm+0.65F1、
SF5=F1
によって与えられる。

LP分析は、

を使用して、LP合成フィルタのパラメータを計算するという結果になり、
ここでa_i、i=1、・・・、M、は、LPフィルタパラメータであり、Mは、フィルタ次数(filter order)である。

LPフィルタパラメータは、量子化および補間目的のために別のドメインに変換される。よく使用される他のLPパラメータ表現は、反射係数(reflection coefficient)、ログエリア比(log-area ratio)、イミタンススペクトル対(AMR-WB;非特許文献1で使用される)、および線スペクトル周波数(LSF)ともまた呼ばれる線スペクトル対である。この例示的実施形態では、線スペクトル周波数表現が、使用される。LPパラメータをLSFパラメータにまた逆も同様に変換するために使用されてもよい方法の例は、非特許文献2に見いだすことができる。前の段落での補間例は、LSFパラメータに適用され、それは、0とFs/2(ここでFsは、サンプリング周波数である)との間の範囲の周波数ドメインに、または0とπとの間の拡大縮小される周波数ドメインに、または余弦ドメイン(拡大縮小される周波数の余弦)にあってもよい。

上で述べられたように、異なる内部サンプリングレートは、マルチレートLPベースのコード化において品質を改善するために異なるビットレートで使用されてもよい。この例示的実施形態では、マルチレートCELP広帯域コーダが、使用され、そこでは12.8kHzの内部サンプリングレートが、より低いビットレートで使用され、16kHzの内部サンプリングレートが、より高いビットレートで使用される。12.8kHzサンプリングレートでは、LSFは、0から6.4kHzの帯域幅をカバーし、一方16kHzサンプリングレートでは、それらは、0から8kHzの範囲をカバーする。内部サンプリングレートが異なる2つのフレーム間でビットレートを切り替えるとき、いくつかの問題が、継ぎ目のない切り替えを確実にするために対処される。これらの問題は、LPフィルタパラメータの補間ならびに合成フィルタおよび適応コードブックのメモリを含み、それらは、異なるサンプリングレートにおいてである。

本開示は、異なる内部サンプリングレートでの2つのフレーム間のLPパラメータの効率的な補間のための方法を紹介する。例として、12.8kHzと16kHzとのサンプリングレート間での切り替えが、考察される。開示される技法はしかしながら、これらの特定のサンプリングレートに限定されず、他の内部サンプリングレートに適用されてもよい。

符号器は、内部サンプリングレートS1を有するフレームF1から内部サンプリングレートS2を有するフレームF2に切り替わると仮定しよう。第1のフレームでのLPパラメータは、LSF1_S1と表され、第2のフレームでのLPパラメータは、LSF2_S2と表される。フレームF2の各サブフレームでのLPパラメータを更新するために、LPパラメータLSF1およびLSF2は、補間される。補間を行うために、フィルタは、同じサンプリングレートに設定されなければならない。これは、フレームF1のLP分析をサンプリングレートS2で行うことを必要とする。フレームF1において2つのサンプリングレートで2回LPフィルタを伝送することを避けるために、サンプリングレートS2でのLP分析は、符号器および復号器の両方で利用できる過去の合成信号について行われてもよい。この手法は、過去の合成信号をレートS1からレートS2に再サンプリングし、完全なLP分析を行うことを伴い、この操作は、復号器において繰り返され、それは通常、計算量が多い。

過去の合成信号を再サンプリングし、完全なLP分析を行う必要なく、LP合成フィルタパラメータLSF1をサンプリングレートS1からサンプリングレートS2に変換するための代替方法およびデバイスが、本明細書で開示される。符号化および/または復号において使用される本方法は、レートS1でのLP合成フィルタのパワースペクトルを計算するステップと、レートS1からレートS2に変換するためにパワースペクトルを修正するステップと、レートS2でのフィルタ自己相関を得るために修正されたパワースペクトルを時間ドメインに変換して戻すステップと、最後にレートS2でのLPフィルタパラメータを計算するために自己相関を使用するステップとを含む。

少なくともいくつかの実施形態では、レートS1からレートS2に変換するためにパワースペクトルを修正するステップは、次の操作を含む。
S1が、S2よりも大きい場合、パワースペクトルを修正するステップは、K-サンプルパワースペクトルをK(S2/S1)個のサンプルに至るまで切り詰めるステップ、すなわちK(S1-S2)/S1サンプルを除去するステップを含む。
他方では、S1が、S2よりも小さい場合には、パワースペクトルを修正するステップは、K-サンプルパワースペクトルをK(S2/S1)個のサンプルに至るまで拡張するステップ、すなわちK(S2-S1)/S1サンプルを加えるステップを含む。

自己相関からレートS2でのLPフィルタを計算するステップは、レビンソン-ダービン(Levinson-Durbin)のアルゴリズム(非特許文献1を参照)を使用して行われてもよい。いったんLPフィルタが、レートS2に変換されると、LPフィルタパラメータは、補間ドメインに変換され、それは、この例示的実施形態ではLSFドメインである。

上で述べられた手順は、図4に要約され、それは、2つの異なるサンプリングレート間でLPフィルタパラメータを変換するための実施形態を例示するブロック図である。

操作のシーケンス300は、LP合成フィルタ1/A(z)のパワースペクトルの計算のための簡単な方法が、0から2πのK周波数におけるフィルタの周波数応答を評価することであるということを示す。

合成フィルタの周波数応答は、

によって与えられ、合成フィルタのパワースペクトルは、合成フィルタの周波数応答のエネルギーとして計算され、

によって与えられる。

最初に、LPフィルタは、S1に等しいレートにある(操作310)。LP合成フィルタのK-サンプル(すなわち、離散的)パワースペクトルは、0から2πの周波数範囲をサンプリングすることによって計算される(操作320)。すなわち、

πから2πのパワースペクトルは、0からπのそれの鏡映であるので、k=0、・・・、K/2についてのみP(k)を計算することによって操作的複雑さを低減することが、可能であることに留意されたい。

試験(操作330)は、次の事例のどれが当てはまるかを決定する。第1の事例では、サンプリングレートS1は、サンプリングレートS2よりも大きく、フレームF1についてのパワースペクトルは、新しいサンプル数がK(S2/S1)であるように切り詰められる(操作340)。

より詳細には、S1が、S2よりも大きいとき、切り詰められたパワースペクトルの長さは、K₂=K(S2/S1)個のサンプルである。パワースペクトルが、切り詰められているので、それは、k=0、・・・、K₂/2から計算される。パワースペクトルは、K₂/2の周りで対称的であるので、その時、
k=1、・・・、K₂/2-1から、P(K₂/2+k)=P(K₂/2-k)
であると仮定される。

信号の自己相関のフーリエ変換は、その信号のパワースペクトルを与える。それ故に、切り詰められたパワースペクトルに逆フーリエ変換を適用することは、サンプリングレートS2での合成フィルタのインパルス応答の自己相関をもたらす。

切り詰められたパワースペクトルの逆離散フーリエ変換(IDFT)は、

によって与えられる。

フィルタ次数は、Mであるので、その時IDFTは、i=0、・・・、Mについてのみ計算されてもよい。さらに、パワースペクトルは、実数でかつ対称的であるので、その時パワースペクトルのIDFTもまた、実数でかつ対称的である。パワースペクトルの対称性を所与とし、M+1相関だけが、必要とされるとすると、パワースペクトルの逆変換は、

として与えられてもよい。

すなわち、

自己相関が、サンプリングレートS2で計算された後、レビンソン-ダービンのアルゴリズム(非特許文献1を参照)が、サンプリングレートS2でのLPフィルタのパラメータを計算するために使用されてもよい。次いで、LPフィルタパラメータは、各サブフレームでのLPパラメータを得るために、フレームF2のLSFを用いた補間のためにLSFドメインに変換される。

コーダが、広帯域信号を符号化し、内部サンプリングレートS1=16kHzを有するフレームから内部サンプリングレートS2=12.8kHzを有するフレームに切り替わる、説明に役立つ例では、K=100と仮定すると、切り詰められたパワースペクトルの長さは、K₂=100(12800/16000)=80サンプルである。パワースペクトルは、方程式(4)を使用して41サンプルについて計算され、次いで自己相関は、K₂=80について方程式(7)を使用して計算される。

第2の事例では、試験(操作330)が、S1がS2よりも小さいと決定するとき、拡張パワースペクトルの長さは、K₂=K(S2/S1)個のサンプルである(操作350)。k=0、・・・、K/2からパワースペクトルを計算した後、パワースペクトルは、K₂/2に拡張される。K/2とK₂/2との間には最初のスペクトル成分はないので、パワースペクトルを拡張することは、非常に低いサンプル値を使用してK₂/2に至るまでのサンプル数を挿入することによって行われてもよい。簡単な手法は、K₂/2に至るまでK/2でのサンプルを繰り返すことである。パワースペクトルは、K₂/2の周りで対称的であるので、その時、
k=1、・・・、K₂/2-1から、P(K₂/2+k)=P(K₂/2-k)
であると仮定される。

どちらの事例でも、逆DFTが次いで、サンプリングレートS2での自己相関を得るために方程式(6)でのように計算され(操作360)、レビンソン-ダービンのアルゴリズム(非特許文献1を参照)が、サンプリングレートS2でのLPフィルタパラメータを計算するために使用される(操作370)。次いで、フィルタパラメータは、各サブフレームでのLPパラメータを得るために、フレームF2のLSFを用いた補間のためにLSFドメインに変換される。

この場合もやはり、コーダが、内部サンプリングレートS1=12.8kHzを有するフレームから内部サンプリングレートS2=16kHzを有するフレームに切り替わる、説明に役立つ例を採用し、K=80であると仮定しよう。拡張パワースペクトルの長さは、K₂=80(16000/12800)=100サンプルである。パワースペクトルは、方程式(4)を使用して51サンプルについて計算され、次いで自己相関は、K₂=100について方程式(7)を使用して計算される。

他の方法が、本開示の趣旨から逸脱することなく、LP合成フィルタのパワースペクトルまたはパワースペクトルの逆DFTを計算するために使用されてもよいことに留意されたい。

この例示的実施形態では、LPフィルタパラメータを異なる内部サンプリングレート間で変換することが、各サブフレームでの補間された合成フィルタパラメータを決定するために、量子化LPパラメータに適用され、これが、復号器において繰り返されることに留意されたい。重み付けフィルタは、非量子化LPフィルタパラメータを使用するが、しかしそれは、各サブフレームでの重み付けフィルタのパラメータを決定するために、新しいフレームF2での非量子化フィルタパラメータと過去のフレームF1からサンプリング変換された量子化LPパラメータとの間で補間するのに十分であることが見いだされたことに留意されたい。これは、LPフィルタサンプリング変換を非量子化LPフィルタパラメータに同様に適用する必要を回避する。

異なるサンプリングレートを有するフレーム境界での切り替え時の他の考察
異なる内部サンプリングレートを有するフレーム間での切り替え時に考察すべき別の問題は、通常過去の励振信号を含有する適応コードブックの内容である。新しいフレームが、内部サンプリングレートS2を有し、前のフレームが、内部サンプリングレートS1を有する場合には、適応コードブックの内容は、レートS1からレートS2に再サンプリングされ、これは、符号器および復号器の両方において行われる。

複雑さを低減するために、この開示では、新しいフレームF2は、過去の励振履歴から独立し、それ故に適応コードブックの履歴を使用しない過渡的符号化モードを使用することを強制される。過渡的符号化モードの例は、PCT特許出願WO2008/049221A1「Method and device for coding transition frames in speech signals」に見いだすことができ、その開示は、参照により本明細書に組み込まれる。

異なる内部サンプリングレートを有するフレーム境界での切り替え時の別の考察は、予測量子化器のメモリである。例として、LPパラメータ量子化器は通常、予測量子化を使用し、それは、パラメータが異なるサンプリングレートにおけるときには適切に機能しないこともある。切り替えの人為的影響を低減するために、LPパラメータ量子化器は、異なるサンプリングレート間での切り替え時に非予測コード化モードを強制されることもある。

さらなる考察は、合成フィルタのメモリであり、それは、異なるサンプリングレートを有するフレーム間での切り替え時に再サンプリングされることもある。

最後に、異なる内部サンプリングレートを有するフレーム間での切り替え時にLPフィルタパラメータを変換することから生じる付加的複雑さは、符号化または復号処理の各部を修正することによって補償されてもよい。例えば、符号器の複雑さを増加させないために、固定コードブック探索は、フレームの最初のサブフレームにおける反復回数を減らすことによって修正されてもよい(固定コードブック探索の例については非特許文献1を参照)。

加えて、復号器の複雑さを増加させないために、ある後処理は、省略されてもよい。例えば、この例示的実施形態では、その開示が参照により本明細書に組み込まれる米国特許第7,529,660号「Method and device for frequency-selective pitch enhancement of synthesized speech」において述べられるような後処理技法が、使用されてもよい。このポストフィルタリングは、異なる内部サンプリングレートへの切り替え後の最初のフレームにおいて省略される(このポストフィルタリングを省略することはまた、ポストフィルタにおいて利用される過去の合成の必要も克服する)。

さらに、サンプリングレートに依存する他のパラメータは、それに応じて拡大縮小されてもよい。例えば、復号器分類子(classifier)およびフレーム消去隠ぺいに使用される過去のピッチ遅延は、係数S2/S1によって拡大縮小されてもよい。

図5は、図1および図2の符号器および/または復号器を形成するハードウェア構成要素の構成例の簡略化したブロック図である。デバイス400は、携帯端末の一部として、携帯型メディアプレーヤ、基地局、インターネット機器の一部としてまたは任意の同様のデバイスにおいて実施されてもよく、符号器106、復号器110、または符号器106および復号器110の両方を組み込んでもよい。デバイス400は、プロセッサ406およびメモリ408を含む。プロセッサ406は、図4の操作を行うためにコード命令を実行するための1つまたは複数の別個のプロセッサを備えてもよい。プロセッサ406は、図1および図2の符号器106および復号器110の様々な要素を具体化してもよい。プロセッサ406はさらに、携帯端末、携帯型メディアプレーヤ、基地局、インターネット機器および同様のもののタスクを実行してもよい。メモリ408は、プロセッサ406に動作的に接続される。非一時的メモリであってもよいメモリ408は、プロセッサ406によって実行されるコード命令を記憶する。

オーディオ入力402は、符号器106として使用されるときデバイス400に存在する。オーディオ入力402は、例えばマイクロホンまたはマイクロホンに接続可能なインターフェースを含んでもよい。オーディオ入力402は、マイクロホン102およびA/D変換器104を含んでもよく、最初のアナログ音声信号103および/または最初のデジタル音声信号105を作成してもよい。別法として、オーディオ入力402は、最初のデジタル音声信号105を受け取ってもよい。同様に、符号化出力404は、デバイス400が符号器106として使用されるときに存在し、LPフィルタパラメータを含む符号化パラメータ107またはパラメータ107を含有するデジタルビットストリーム111を遠隔復号器に通信リンクを介して、例えば通信チャンネル101を介して、または記憶のためのさらなるメモリ(図示されず)に向かって転送するように構成される。符号化出力404の限定されない実施の例は、携帯端末の無線インターフェース、例えば携帯型メディアプレーヤのユニバーサルシリアルバス(USB)ポートなどの物理的インターフェース、および同様のものを備える。

符号化入力403およびオーディオ出力405は、復号器110として使用されるとき両方ともデバイス400に存在する。符号化入力403は、LPフィルタパラメータを含む符号化パラメータ107またはパラメータ107を含有するデジタルビットストリーム111を符号器106の符号化出力404から受け取るように構築されてもよい。デバイス400が、符号器106および復号器110の両方を含むとき、符号化出力404および符号化入力403は、共通通信モジュールを形成してもよい。オーディオ出力405は、D/A変換器115およびスピーカユニット116を備えてもよい。別法として、オーディオ出力405は、オーディオプレーヤ、スピーカ、記録デバイス、および同様のものに接続可能なインターフェースを備えてもよい。

オーディオ入力402または符号化入力403はまた、記憶デバイス(図示されず)から信号を受け取ってもよい。同様に、符号化出力404およびオーディオ出力405は、記録のための記憶デバイス(図示されず)に出力信号を供給してもよい。

オーディオ入力402、符号化入力403、符号化出力404およびオーディオ出力405はすべて、プロセッサ406に動作的に接続される。

当業者は、音声信号の線形予測符号化および復号のための方法、符号器および復号器の記述が、説明に役立つだけであり、いかなる場合でも限定することを意図されていないことに気付くであろう。他の実施形態は、本開示の恩恵を有するそのような当業者の心に容易に浮かぶであろう。さらに、開示される方法、符号器および復号器は、異なるサンプリングレートを有する2つのビットレート間で線形予測ベースのコーデックを切り替えることの既存の必要性および問題に貴重な解決策をもたらすようにカスタマイズされてもよい。

明確にするために、方法、符号器および復号器の実施の通常の特徴のすべてが、図示され、述べられるわけではない。もちろん、方法、符号器および復号器の任意のそのような実際の実施の開発において、多数の実施に特有の決定が、応用関連、システム関連、ネットワーク関連、およびビジネス関連の制約の順守などの、開発者の特定の目標を達成するためになされる必要があることもあり、これらの特定の目標が、実施ごとにかつ開発者ごとに変わることになることは、理解されよう。そのうえ、開発努力が、複雑でかつ時間のかかることもあるが、しかしそれでもなお、本開示の恩恵を有する音声コード化の分野の当業者にとって工学技術の通常の取り組みということになることは、理解されよう。

本開示によれば、本明細書で述べられる構成要素、プロセス操作、および/またはデータ構造は、様々な種類のオペレーティングシステム、計算プラットフォーム、ネットワークデバイス、コンピュータプログラム、および/または汎用機を使用して実施されてもよい。加えて、当業者は、配線で接続された(hardwired)デバイス、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、または同様のものなどの、汎用性のより少ないデバイスがまた、使用されてもよいことを認識するであろう。一連の操作を含む方法が、コンピュータまたは機械によって実施され、それらの操作が、機械によって可読である一連の命令として記憶されてもよい場合、それらは、有形媒体に記憶されてもよい。

本明細書で述べられるシステムおよびモジュールは、本明細書で述べられる目的に適した、ソフトウェア、ファームウェア、ハードウェア、またはソフトウェア、ファームウェア、もしくはハードウェアの任意の組合せを備えてもよい。

本開示は、その非制限的な例示的実施形態を通じて上文に述べられたけれども、これらの実施形態は、本開示の趣旨および本質から逸脱することなく、添付の請求項の範囲内で意のままに修正されてもよい。

100 音声通信システム
101 通信チャンネル
102 マイクロホン
103 最初のアナログ音声信号
104 アナログ/デジタル(A/D)変換器
105 最初のデジタル音声信号
106 音声符号器
107 符号化パラメータ
108 任意選択のチャンネル符号器
109 任意選択のチャンネル復号器
110 音声復号器
111 デジタルビットストリーム
112 符号化パラメータ
113 合成デジタル音声信号
114 合成アナログ音声信号
115 デジタル/アナログ(D/A)変換器
116 スピーカユニット
214 励振
216 LP合成フィルタ
218 適応コードブック
220 固定コードブック
222 適応コードブック寄与
224 固定コードブック寄与
226 適応コードブック利得
228 固定コードブック利得
232 平均二乗誤差
233 知覚的重み付けフィルタ
234 プロバイダ
236 減算器
240 適応コードブック利得
242 適応コードブック
244 固定コードブック
248 固定コードブック利得
250 適応コードブック寄与
252 固定コードブック寄与
254 減算器
256 減算器
400 デバイス
402 オーディオ入力
403 符号化入力
404 符号化出力
405 オーディオ出力
406 プロセッサ
408 メモリ

Claims

線形予測(LP)フィルタパラメータを音声信号符号器の第1の内部サンプリングレートS1から前記符号器の第2の内部サンプリングレートS2に変換するための前記符号器において実施される方法であって、
前記LPフィルタパラメータを使用してLP合成フィルタのパワースペクトルを前記内部サンプリングレートS1において計算するステップと、
前記内部サンプリングレートS1から前記内部サンプリングレートS2に変換するために前記LP合成フィルタの前記パワースペクトルを修正するステップと、
前記内部サンプリングレートS2での前記LP合成フィルタの自己相関を決定するために前記LP合成フィルタの前記修正されたパワースペクトルを逆変換するステップと、
前記内部サンプリングレートS2での前記LPフィルタパラメータを計算するために前記自己相関を使用するステップとを含む、方法。
前記内部サンプリングレートS1から前記内部サンプリングレートS2に変換するために前記LP合成フィルタの前記パワースペクトルを修正するステップは、
S1が、S2よりも小さい場合、S1とS2との間の比に基づいて前記LP合成フィルタの前記パワースペクトルを拡張するステップと、
S1が、S2よりも大きい場合、S1とS2との間の前記比に基づいて前記LP合成フィルタの前記パワースペクトルを切り詰めるステップと
を含む、請求項1に記載の方法。
前記LPフィルタパラメータの前記変換は、符号器が、前記内部サンプリングレートS1を使用する音声信号処理フレームから前記内部サンプリングレートS2を使用する音声信号処理フレームに切り替わるときに行われる、請求項1または2に記載の方法。
前記内部サンプリングレートS1から前記内部サンプリングレートS2に変換された過去の音声信号処理フレームのLPフィルタパラメータを用いて前記内部サンプリングレートS2での現在の音声信号処理フレームのLPフィルタパラメータを補間することによって前記現在の音声信号処理フレームの各サブフレームでのLPフィルタパラメータを計算するステップを含む、請求項3に記載の方法。
前の音声信号処理フレームと前記現在の音声信号処理フレームが異なる内部サンプリングレートを使用する場合、過去の励起から独立した符号化モードを前記現在の音声信号処理フレームに強制するステップを含む、請求項4に記載の方法。
前の音声信号処理フレームと前記現在の音声信号処理フレームが異なる内部サンプリングレートを使用する場合、前記現在の音声信号処理フレームにおいて非予測符号化モードに入ることをLP-パラメータ量子化器に強制するステップを含む、請求項4または5に記載の方法。
前記LP合成フィルタの前記パワースペクトルは、離散的パワースペクトルである、請求項1から6のいずれか一項に記載の方法。
Kサンプルでの前記LP合成フィルタの前記パワースペクトルを計算するステップと、
前記内部サンプリングレートS1が、前記内部サンプリングレートS2よりも小さいとき、前記LP合成フィルタの前記パワースペクトルをK(S2/S1)個のサンプルに拡張するステップと、
前記内部サンプリングレートS1が、前記内部サンプリングレートS2よりも大きいとき、前記LP合成フィルタの前記パワースペクトルをK(S2/S1)個のサンプルに切り詰めるステップと
を含む、請求項1から7のいずれか一項に記載の方法。
前記LP合成フィルタの前記パワースペクトルを前記LP合成フィルタの周波数応答のエネルギーとして計算するステップを含む、請求項1から8のいずれか一項に記載の方法。
逆離散フーリエ変換を使用することによって前記LP合成フィルタの前記修正されたパワースペクトルを逆変換するステップを含む、請求項1から9のいずれか一項に記載の方法。
前の音声信号処理フレームと現在の音声信号処理フレームが異なる内部サンプリングレートを使用する場合、前記現在の音声信号処理フレームにおける、固定コードブックを探索するための反復回数を減らすステップを含む、請求項1から10のいずれか一項に記載の方法。
受け取った線形予測(LP)フィルタパラメータを音声信号復号器の第1の内部サンプリングレートS1から前記復号器の第2の内部サンプリングレートS2に変換するための前記復号器において実施される方法であって、
前記受け取ったLPフィルタパラメータを使用してLP合成フィルタのパワースペクトルを前記内部サンプリングレートS1において計算するステップと、
前記内部サンプリングレートS1から前記内部サンプリングレートS2に変換するために前記LP合成フィルタの前記パワースペクトルを修正するステップと、
前記内部サンプリングレートS2での前記LP合成フィルタの自己相関を決定するために前記LP合成フィルタの前記修正されたパワースペクトルを逆変換するステップと、
前記内部サンプリングレートS2での前記LPフィルタパラメータを計算するために前記自己相関を使用するステップと
を含む、方法。
前記内部サンプリングレートS1から前記内部サンプリングレートS2に変換するために前記LP合成フィルタの前記パワースペクトルを修正するステップは、
S1が、S2よりも小さい場合、S1とS2との間の比に基づいて前記LP合成フィルタの前記パワースペクトルを拡張するステップと、
S1が、S2よりも大きい場合、S1とS2との間の前記比に基づいて前記LP合成フィルタの前記パワースペクトルを切り詰めるステップと
を含む、請求項12に記載の方法。
前記受け取ったLPフィルタパラメータの前記変換は、復号器が、前記内部サンプリングレートS1を使用する音声信号処理フレームから前記内部サンプリングレートS2を使用する音声信号処理フレームに切り替わるときに行われる、請求項12または13に記載の方法。
前記内部サンプリングレートS1から前記内部サンプリングレートS2に変換された過去の音声信号処理フレームのLPフィルタパラメータを用いて前記内部サンプリングレートS2での現在の音声信号処理フレームのLPフィルタパラメータを補間することによって前記現在の音声信号処理フレームの各サブフレームでのLPフィルタパラメータを計算するステップを含む、請求項14に記載の方法。
前記LP合成フィルタの前記パワースペクトルは、離散的パワースペクトルである、請求項12から15のいずれか一項に記載の方法。
Kサンプルでの前記LP合成フィルタの前記パワースペクトルを計算するステップと、
前記内部サンプリングレートS1が、前記内部サンプリングレートS2よりも小さいとき、前記LP合成フィルタの前記パワースペクトルをK(S2/S1)個のサンプルに拡張するステップと、
前記内部サンプリングレートS1が、前記内部サンプリングレートS2よりも大きいとき、前記LP合成フィルタの前記パワースペクトルをK(S2/S1)個のサンプルに切り詰めるステップと
を含む、請求項12から16のいずれか一項に記載の方法。
前記LP合成フィルタの前記パワースペクトルを前記LP合成フィルタの周波数応答のエネルギーとして計算するステップを含む、請求項12から17のいずれか一項に記載の方法。
逆離散フーリエ変換を使用することによって前記LP合成フィルタの前記修正されたパワースペクトルを逆変換するステップを含む、請求項12から18のいずれか一項に記載の方法。
ポストフィルタリングは、復号の複雑さを低減するために省略される、請求項12から19のいずれか一項に記載の方法。
線形予測(LP)フィルタパラメータを音声信号符号器の第1の内部サンプリングレートS1から前記符号器の第2の内部サンプリングレートS2に変換するために前記符号器において使用するためのデバイスであって、前記デバイスは、
少なくとも1つのプロセッサと、
前記プロセッサに結合されたメモリとを含み、前記メモリは、実行されると、前記プロセッサに、
前記LPフィルタパラメータを使用してLP合成フィルタのパワースペクトルを前記内部サンプリングレートS1において計算し、
前記内部サンプリングレートS1から前記内部サンプリングレートS2に変換するために前記LP合成フィルタの前記パワースペクトルを修正し、
前記内部サンプリングレートS2での前記LP合成フィルタの自己相関を決定するために前記LP合成フィルタの前記修正されたパワースペクトルを逆変換し、かつ
前記内部サンプリングレートS2での前記LPフィルタパラメータを計算するために前記自己相関を使用する
ことを行わせる、非一時的命令を含む、デバイス。
前記プロセッサは、
S1が、S2よりも小さい場合、S1とS2との間の比に基づいて前記LP合成フィルタの前記パワースペクトルを拡張し、かつ
S1が、S2よりも大きい場合、S1とS2との間の前記比に基づいて前記LP合成フィルタの前記パワースペクトルを切り詰める
ように構成される、請求項21に記載のデバイス。
前記プロセッサは、前記内部サンプリングレートS1から前記内部サンプリングレートS2に変換された過去の音声信号処理フレームのLPフィルタパラメータを用いて前記内部サンプリングレートS2での現在の音声信号処理フレームのLPフィルタパラメータを補間することによって前記現在の音声信号処理フレームの各サブフレームでのLPフィルタパラメータを計算するように構成される、請求項21または22に記載のデバイス。
前記プロセッサは、
Kサンプルでの前記LP合成フィルタの前記パワースペクトルを計算し、
前記内部サンプリングレートS1が、前記内部サンプリングレートS2よりも小さいとき、前記LP合成フィルタの前記パワースペクトルをK(S2/S1)個のサンプルに拡張し、かつ
前記内部サンプリングレートS1が、前記内部サンプリングレートS2よりも大きいとき、前記LP合成フィルタの前記パワースペクトルをK(S2/S1)個のサンプルに切り詰める
ように構成される、請求項21から23のいずれか一項に記載のデバイス。
前記プロセッサは、前記LP合成フィルタの前記パワースペクトルを前記LP合成フィルタの周波数応答のエネルギーとして計算するように構成される、請求項21から24のいずれか一項に記載のデバイス。
前記プロセッサは、逆離散フーリエ変換を使用することによって前記LP合成フィルタの前記修正されたパワースペクトルを逆変換するように構成される、請求項21から25のいずれか一項に記載のデバイス。
請求項21から26のいずれか一項に記載のプロセッサ上で実行するとき、請求項1から11のいずれか一項に記載の方法を行うためのコード命令を記憶するコンピュータ可読非一時的メモリ。
受け取った線形予測(LP)フィルタパラメータを音声信号復号器の第1の内部サンプリングレートS1から前記復号器の第2の内部サンプリングレートS2に変換するために前記復号器において使用するためのデバイスであって、前記デバイスは、
少なくとも1つのプロセッサと、
前記プロセッサに結合されたメモリとを含み、前記メモリは、実行されると、前記プロセッサに、
前記受け取ったLPフィルタパラメータを使用してLP合成フィルタのパワースペクトルを前記内部サンプリングレートS1において計算し、
前記内部サンプリングレートS1から前記内部サンプリングレートS2に変換するために前記LP合成フィルタの前記パワースペクトルを修正し、
前記内部サンプリングレートS2での前記LP合成フィルタの自己相関を決定するために前記LP合成フィルタの前記修正されたパワースペクトルを逆変換し、かつ
前記内部サンプリングレートS2での前記LPフィルタパラメータを計算するために前記自己相関を使用する
ことを行わせる、非一時的命令を含む、デバイス。
前記プロセッサは、
S1が、S2よりも小さい場合、S1とS2との間の比に基づいて前記LP合成フィルタの前記パワースペクトルを拡張し、かつ
S1が、S2よりも大きい場合、S1とS2との間の前記比に基づいて前記LP合成フィルタの前記パワースペクトルを切り詰める
ように構成される、請求項28に記載のデバイス。
前記プロセッサは、前記内部サンプリングレートS1から前記内部サンプリングレートS2に変換された過去の音声信号処理フレームのLPフィルタパラメータを用いて前記内部サンプリングレートS2での現在の音声信号処理フレームのLPフィルタパラメータを補間することによって前記現在の音声信号処理フレームの各サブフレームでのLPフィルタパラメータを計算するように構成される、請求項28または29に記載のデバイス。
前記プロセッサは、
Kサンプルでの前記LP合成フィルタの前記パワースペクトルを計算し、
前記内部サンプリングレートS1が、前記内部サンプリングレートS2よりも小さいとき、前記LP合成フィルタの前記パワースペクトルをK(S2/S1)個のサンプルに拡張し、かつ
前記内部サンプリングレートS1が、前記内部サンプリングレートS2よりも大きいとき、前記LP合成フィルタの前記パワースペクトルをK(S2/S1)個のサンプルに切り詰める
ように構成される、請求項28から30のいずれか一項に記載のデバイス。
前記プロセッサは、前記LP合成フィルタの前記パワースペクトルを前記LP合成フィルタの周波数応答のエネルギーとして計算するように構成される、請求項28から31のいずれか一項に記載のデバイス。
前記プロセッサは、逆離散フーリエ変換を使用することによって前記LP合成フィルタの前記修正されたパワースペクトルを逆変換するように構成される、請求項28から32のいずれか一項に記載のデバイス。
請求項28から33のいずれか一項に記載のプロセッサ上で実行するとき、請求項12から20のいずれか一項に記載の方法を行うためのコード命令を記憶するコンピュータ可読非一時的メモリ。