JP2009069856A - 音声コーデックにおける擬似高帯域信号の推定方法 - Google Patents

音声コーデックにおける擬似高帯域信号の推定方法 Download PDF

Info

Publication number
JP2009069856A
JP2009069856A JP2008321598A JP2008321598A JP2009069856A JP 2009069856 A JP2009069856 A JP 2009069856A JP 2008321598 A JP2008321598 A JP 2008321598A JP 2008321598 A JP2008321598 A JP 2008321598A JP 2009069856 A JP2009069856 A JP 2009069856A
Authority
JP
Japan
Prior art keywords
speech
signal
period
band
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008321598A
Other languages
English (en)
Inventor
Jani Rotola-Pukkila
ロトラ−プッキラ、ヤニ
Hannu J Mikkola
ミッコラ、ハッヌ、イー.
Janne Vainio
ヴァイニオ、ヤッネ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of JP2009069856A publication Critical patent/JP2009069856A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

【課題】暗雑音を含む入力信号に対して広帯域音声符号化する方法を提供する。
【解決手段】入力信号を符号化し、復号するための方法および装置であって、当該入力信号は、符号化処理および復号処理によって高周波数帯域と低周波数帯域とに分割され、該高周波数帯域の復号が、低周波数帯域から得られた音声パラメータと共に擬似信号を用いて行なわれる。とくに、擬似信号は、低周波数帯域および高周波数帯域に着色されたノイズを含んでいる擬似広帯域信号に変換される前に規格化される。加えて、音声活動性情報は、入力信号の音声期間と非音声期間とを規定するために用いられる。当該音声活動性情報に基づいて、音声期間と非音声期間における擬似信号を規格化するために、異なる重み係数が用いられる。
【選択図】図3

Description

本発明は、合成された音声の符号化および復号分野に関し、より詳しくは、広帯域音声のこのような符号化と復号に関する。
今日、音声を符号化する方法の多くが、線形予測(LP)符号化に基づいているが、これは、音声信号の知覚的に重要な特徴を、この音声信号の周波数スペクトルから抽出する(これは、チャネルボコーダと呼ばれるものまたはフォルマントボコーダと呼ばれるものの方式である)のではなく、時間波形から直接的に抽出するものである。LP符号化では、最初に音声波形が分析されて(LP分析によって)、この音声信号をもたらした声道励振の時間依存性モデルとさらに伝達関数とを決定する。つぎに、デコーダ(コード化された音声信号が電気通信される場合は、受信端末内にある)が、オリジナル音声をシンセサイザ(LP合成を実行する)を用いて再現するが、このシンセサイザは、声道をモデリングするパラメータ化されたシステムに励振を通過させる。声道モデルのパラメータとモデルの励振は双方とも、周期的に更新されて、スピーカが音声信号を生成するにつれてスピーカ中で発生した対応する変化に適合するようにする。しかしながら、ある更新とつぎの更新のあいだ、すなわち、なんらかの指定時間間隔のあいだ、システムの励振とパラメータとは、一定に保持され、したがって、モデルによって実行されるプロセスは、線形の非時間依存性のプロセスである。この符号化と復号(分布)システムは総称してコーデック(codec)と呼ばれる。
LP符号化を用いて音声を発生するコーデックにおいては、デコーダは、コーダが3つの入力、すなわち、励振がボイシングされる場合にはピッチ期間、利得ファクターおよび予測係数を提供することを必要する。(1部のコードでは、励振の性質、すなわち、それがボイシングされているか否かもまた提供されるが、通常は、たとえば代数符号励振線形予測(ACELP)コーデックの場合には必要とされない。)LP符号化は、前方推定プロセスにおいてパラメータが適用される(指定時間間隔中の)音声波形の実際の入力セグメントに基づいて予測パラメータを用いるという点で予測的である。
基本的LP符号化と復号とを用いて、比較的低いデータ転送速度でディジタル式に通信することが可能であるが、それは、それがひじょうに単純な励振システムを用いるため合成サウンディング音声を生成するからである。いわゆる符号励振線形予測(CELP)コーデックは、強化された励振コーデックである。それは、「残差」符号化に基づいている。声道のモデリングは、そのパラメータが符号化されて圧縮音声になっているディジタルフィルタに関して実行される。これらのフィルタは、オリジナルスピーカの声帯の振動を表わす信号によって駆動される、すなわち「励振される」。オーディオ音声信号の残差は、ディジタル式にフィルタリングされたオーディオ音声信号未満の(オリジナル)オーディオ音声信号である。CELPコーデックは公知のものにおいては、残差を符号化して、それを励振の基礎として「補完パルス増幅」として用いられる。しかしながら、残差波形をサンプル毎に符号化する代わりに、CELPは、波形テンプレートから成る所定の集合から選択された波形テンプレートを用い、これで残差サンプルのブロックを表わす。コードワードは、コーダによって決定されて、デコーダに提供され、つぎにこのデコーダが、このコードワードを用いて、残差シーケンスを選択し、これでオリジナル残差サンプルを表わす。
図1に、送信機/エンコーダシステムのエレメントと受信機/デコーダシステムのエレメントを示す。システム全体としては、LPコーデックとして働くが、CELPタイプのコーデックであってもよい。この送信機は、サンプリングされた音声信号s(n)を受け入れ、これを、コーデックのLPパラメータを決定する分析機(逆フィルタと合成フィルタ)に出力する。sq(n)は、逆フィルタにかけられた信号であり、残差x(n)を決定するために用いられる。励振探索モジュールは、送信目的で、定量化されたまたは量子化された誤差xq(n)として残差x(n)を、また、シンセサイザのパラメータを双方とも符号化して、これらを受信機に通じている通信チャネルに入力する。受信機(デコーダシステム)側では、デコーダモジュールが、シンセサイザのパラメータを送信された信号から抽出して、これらをシンセサイザに出力する。デコーダモジュールはまた、定量化された誤差xq(n)を送信された信号から決定する。シンセサイザからの出力は、定量化された誤差xq(n)と組み合わされて、オリジナル音声信号s(n)を表わす定量化された値sq(n)を生成する。
CELPタイプのコーデックを用いる送信機と受信機とは、同じように機能するが、誤差xq(n)が誤差(残差)x(n)を近似するのに適している様々な波形を表わすコードブックに指数として送信される点が例外である。
ナイキスト理論によれば、サンプリングレートFsを持つ音声信号は、0〜0.5 Fsという周波数帯域を表わすことが可能である。今日では、ほとんどの音声コーデック(コーダ−デコーダ)は、8kHzというサンプリングレートを用いている。このサンプリングレートを8kHzから上昇させると、音声信号の自然性が改善されるが、それは、より高い周波数を表わすことが可能となるからである。今日、音声信号のサンプリングレートは、通常は8kHzであるが、16kHzというサンプリングレートを用いるモバイル電話局が開発中である。ナイキスト理論によれば、16kHzというサンプリングレートは、0〜8kHzの周波数帯域の音声を表わすことが可能である。すると、サンプリングされた音声は、送信機によって通信されるように符号化され、つぎに、受信機によって復号される。16kHzというサンプリングレートを用いてサンプリングされた音声信号の音声符号化は、広帯域音声符号化と呼ばれる。
音声のサンプリングレートを増すと、符号化の複雑さも増す。ある種のアルゴリズムでは、サンプリングレートが増すに連れて、符号化の複雑さが指数関数的にさらに増す。したがって、符号化の複雑さはしばしば、広帯域音声符号化のアルゴリズムを決定する際における制限的な要因となる。これは特に、たとえば、電力消費量、利用可能な処理能力およびメモリの要件がアルゴリズムの適用性に重大な影響をおよぼすモバイル電話局の場合に当てはまる。
音声の符号化においては、時々、デシメーションとして公知の手順を用いて、符号化の複雑さを軽減する。デシメーションは、シーケンスのオリジナルサンプリングレートをより低いレートに減少させる。これは、補間として公知の手順とは逆である。デシメーションプロセスは、入力データを低域通過フィルタでフィルタリングして、つぎに、結果として得られる平滑化された信号をより低いレートで再サンプリングする。補間は、シーケンスのオリジナルサンプリングレートをより高いレートに増加させる。補間は、ゼロをオリジナルシーケンス中に挿入して、つぎに、特殊な低域通過フィルタにかけて、このゼロ値を補間された値で置き換える。このようにして、サンプルの数を増す。
別の先行技術による広帯域音声コーデックは、サブ帯域符号化によって複雑さを制限する。このようなサブ帯域符号化方式では、広帯域信号は、符号化する前に、2つの信号、すなわち、低帯域信号と高帯域信号とに分割される。つぎに、これらの信号は双方とも、互いに別々に符号化される。デコーダでは、合成プロセスにおいて、この2つの信号が再結合される。このような方式は、複雑さがサンプリングレートの関数として指数的に増す符号化アルゴリズム(たとえば、革新的コードブックの検索)などの部分では符号化の複雑さを減少させる。しかしながら、複雑さが線形に増す部分では、このような方式は、複雑さを減少させない。
上記のサブ帯域符号化の先行技術ソリューションの符号化複雑さは、図2に示すように、エンコーダ内の高帯域分析を無視し、また、それをデコーダ内におけるフィルタにかけられた白色雑音、すなわちフィルタにかけられた疑似ランダム雑音と置き換えることによってさらに減少させることが可能である。この高帯域の分析は無視可能であり、その理由は、人間の聴覚は、高周波数帯域の位相反応を感知することはなく、振幅反応しか感知しないからである。他方の理由は、雑音のようなボイシングされない音素だけが、高帯域でのエネルギを含んでおり、一方、位相が重要となるボイシングされた信号は、高帯域ではあまりエネルギを有しないからである。この方式では、高帯域のスペクトルは、低帯域LPフィルタから発生したLPフィルタで推測される。したがって、高周波数帯域の内容に関する知識は送信チャネルには送信されず、また、高帯域LP合成フィルタリングパラメータは、低周波数帯域に基づいて発生される。白色雑音、すなわち擬似信号は、低帯域信号の特徴から推測される雑音のエネルギでの高帯域フィルタリングのソースとして用いられる。エンコーダとデコーダは双方ともが、励振と、低帯域の長期予測器(LTP)および固定コードブックの利得とを認識しているので、これらのパラメータから、高帯域のエネルギスケーリングファクターとLP合成フィルタリングパラメータを推定することが可能である。先行技術による方式においては、広帯域白色雑音のエネルギは、低帯域励振のエネルギに等化される。その後で、低帯域合成信号の傾斜が計算される。傾斜ファクターの計算においては、最低周波数が遮断され、等化された広帯域白色雑音をこの傾斜ファクターで乗算する。
前記高帯域エネルギスケーリングは、エネルギスケーラ推定器からの推定された高帯域エネルギスケーリングファクターに基づいてなされ、また、高帯域LP合成フィルタは、LPフィルタ推定器によって提供された高帯域LP合成フィルタパラメータに基づいて行なわれるが、これらは双方とも、入力信号が音声であるか背景雑音であるかとは無関係に実行される。この方式は音声しか含んでいない信号を処理するには適しているが、入力信号が暗雑音を含んでいる場合は、特に非音声期間では適切には機能しない。
したがって、本発明では、暗雑音を含む入力信号に対して広帯域音声符号化する方法であり、どのような特定の符号化アルゴリズムを用いても、完全広帯域音声信号を符号化する際の複雑さと比較して複雑さを減少させ、さらに、音声信号を表わす際に実質的に同じ優れた忠実度を提供することが可能である方法を提供することを目的とする。
本発明は、音声活動性情報の利点を生かして、入力信号の音声期間と非音声期間を区別し、これによって、この入力信号の高周波数帯域のエネルギスケーリングファクターと線形予測(LP)合成フィルタパラメータを推定するときにこの入力信号中の背景雑音の影響が考慮されるようにする。
本発明は、高周波数成分と低周波数成分とを有する合成された音声を提供するために、音声期間と非音声期間とを有する音声信号を示す符号化されたビットストリームを復号化する方法であって、前記方法が、音声信号における低周波数帯域に特有の音声関連パラメータを、合成された音声の高周波数成分を提供するための擬似信号を生成するために使用し、音声期間を示す第1値および非音声期間を示す第2値のうちの1つを有する音声活動性信号が受信され、該方法が、音声活動性信号に基づいて前記音声期間中および非音声期間中に擬似信号をスケーリングする工程を含んでなることを特徴とする。
したがって、音声期間と非音声期間を有する入力信号を符号化および復号して、高周波数成分と低周波数成分を有する合成された音声を提供する第1の態様による音声符号化方法は、符号化プロセスと復号プロセスにおいて、前記入力信号が高周波数帯域と低周波数帯域とに分割され、また、前記低周波数帯域の音声のパラメータ特性を用いて、擬似信号を処理して、前記合成信号の高周波数帯域成分を提供し、また、前記入力信号が、前記音声期間に第1の信号を含み、前記非音声期間に第2の信号を含み、前記方法は、 前記擬似信号を前記音声期間において前記第1の信号を表わす音声のパラメータに基づいてスケーリングして合成フィルタにかけるステップと;
前記擬似信号を前記非音声期間において前記第2の信号を表わす音声関連のパラメータに基づいてスケーリングして合成フィルタにかけるステップと;
を含み、前記第1の信号が音声信号を含み、前記第2の信号がノイズ信号を含む。
好ましくは、音声期間における擬似信号のスケーリングと合成フィルタはまた、合成された音声の低周波数成分から計算されたスペクトル傾斜ファクターに基づいて実行される。
好ましくは、入力信号が背景雑音を含む場合、音声期間中での擬似信号のスケーリングと合成フィルタは、さらに、暗雑音の補正ファクター特性に基づいて実行される。
好ましくは、非音声期間中での擬似信号のスケーリングと合成フィルタは、さらに、暗雑音の補正ファクター特性に基づいて実行される。
好ましくは、音声ないしは音声活動性情報を用いて、第1と第2の信号期間を示す。
本発明によれば、どのような特定の符号化アルゴリズムを用いても、完全広帯域音声信号を符号化する際の複雑さと比較して複雑さを減少させ、さらに、音声信号を表わす際に実質的に同じ優れた忠実度を提供することができる。
本発明はつぎの図3〜6を参照して説明を読むことにより明らかになるであろう。
図3に示すように、高帯域デコーダ10を用いて、図2に示すように、先行技術による高帯域デコーダによる方式と同様に、高帯域エネルギスケーリングファクター140と複数の高帯域線形予測(LP)合成フィルタパラメータ142を低帯域デコーダ2から発生した低帯域パラメータ102に基づいて提供する。図2に示すように、先行技術によるコーデックでは、デシメーションデバイスを用いて、広帯域入力信号を低帯域音声入力信号に変換し、また、低帯域エンコーダを用いて低帯域音声入力信号を分析し、これによって、複数の符号化された音声パラメータを提供する。この符号化されたパラメータは、線形予測符号化(LPC)信号、LPフィルタおよび励振に関する情報を含み、送信チャネルを介して、受信端末に送信されるが、この受信端末は、音声デコーダを用いて、入力音声を再構成する。デコーダでは、低帯域音声信号が低帯域デコーダによって合成される。特に、合成された低帯域音声信号は、LB合成による分析(A−b−S)モジュール(図示せず)によって提供されるように、低帯域励振exc(n)を含む。つぎに、合成され、低帯域だけにエネルギを含む広帯域音声信号を加算デバイスに補間器を用いて提供する。高周波数帯域中の音声信号の再構成に関して、高帯域デコーダは、エネルギスケール推定器、LPフィルタ推定器、スケーリングモジュールおよび高帯域LP合成フィルタモジュールを含む。図示するように、エネルギスケール推定器は、高帯域エネルギスケーリングファクター、すなわち、利得をスケーリングモジュールに提供し、LPフィルタ推定器は、LPフィルタベクトル、すなわち、高帯域LP合成フィルタパラメータの集合を提供する。エネルギスケーリングファクターを用いて、スケーリングモジュールは、白色ノイズ発生器によって提供されるように、擬似信号のエネルギを適切なレベルにスケーリングする。高帯域LP合成フィルタモジュールは、この適切にスケーリングされた白色ノイズを、有色ノイズを低周波数帯域と高周波数帯域の双方に含む擬似広帯域信号に変換する。つぎに、高域フィルタを用いて、加算デバイスに、高帯域だけに有色雑音を含む擬似広帯域信号を提供し、これによって、合成された音声を広帯域全体にわたって生成する。
本発明では、図3に示すように、白色ノイズ、すなわち擬似信号e(n)がまた、白色ノイズ発生器4によって発生される。しかしながら、先行技術によるデコーダでは、図2に示すように、暗雑音信号の高帯域は、高帯域音声信号を推定するのと同じアルゴリズムを用いて推定される。暗雑音のスペクトルは、通常は、音声のスペクトルより平坦であるため、この先行技術による方式は、合成された暗雑音中の高帯域ではほとんどエネルギを生成しない。本発明によれば、2セットのエネルギスケール推定器と2セットのLPフィルタ推定器とを、高帯域デコーダ10内で用いている。図3に示すように、すべて、同じ低帯域デコーダ2によって提供された低帯域パラメータ102に基づいて、エネルギスケール推定器20とLPフィルタ推定器22を音声周期に対して使い、エネルギスケール推定器30とLPフィルタ推定器32を非音声周期に対して用いる。特に、エネルギスケール推定器20は、この信号は音声であると仮定して、高帯域エネルギをそのように推定し、また、LPフィルタ推定器22は、音声信号をモデリングするように設計されている。同様に、エネルギスケール推定器30は、この信号は暗雑音であると仮定して、高帯域エネルギをこの仮定の下に推定し、また、LPフィルタ推定器32は、暗雑音信号をモデリングする用に設計されている。したがって、エネルギスケール推定器20を用いて、音声期間の高帯域エネルギスケーリングファクター120を加重調整モジュール24に提供し、また、エネルギスケール推定器30を用いて、非音声期間の高帯域エネルギスケーリングファクター130を重み調整モジュール34に提供する。LPフィルタリング推定器22を用いて、高帯域LP合成フィルタリングパラメータ122を、重み調整モジュール26に提供し、また、LPフィルタリング推定器32を用いて、非音声期間は高帯域LP合成フィルタリングパラメータ132を加重調整モジュール36に提供する。一般的に、エネルギスケール推定器30とLPフィルタ推定器32は、エネルギスケール推定器20とLPフィルタ推定器30によって仮定されるものより、スペクトルはより平坦であり、また、エネルギスケーリングファクターはより大きいと仮定している。この信号が音声と暗雑音の双方を含んでいる場合、双方の集合の推定器を用いるが、最終的な推定は、高帯域エネルギスケーリングファクター120と130の重み平均値および高帯域LP合成フィルタパラメータ122と132の重み平均に基づいてなされる。
暗雑音モードと音声モード間の高帯域パラメータ推定アルゴリズムの加重を音声と暗雑音が識別可能な特徴を有するという事実に基づいて変更するために、重み計算モジュール18は、音声活動性情報106と復号された低帯域音声信号108をその入力として用い、また、この入力を用いて、暗雑音のレベルを非音声期間で、雑音処理の重みファクターαnと音声処理の重みファクターαsを設定する(ここで、αn+αs=1)ことによって監視する。ここで、音声活動性情報106が、技術上周知なように、音声活動性検出器(VAD、図示せず)によって提供されることに注意すべきである。音声活動性情報106を用いて、復号された音声信号108のどの部分が、音声期間のものであるか非音声期間のものであるか識別する。暗雑音は、音声休止期間、すなわち、非音声期間で監視することが可能である。ここで、音声活動性情報106が送信チャネルを介してデコーダに送られない場合、復号された音声信号108を分析して、非音声期間と音声期間とを識別することが可能であることに注意すべきである。かなりのレベルの暗雑音が検出された場合、図4に示すように、重み補正ファクターαnを増加させ、重み補正ファクターαsを減少させることによって、重みづけが、暗雑音の高帯域発生に向けて印加される。この重みづけは、たとえば、雑音エネルギに対する音声エネルギの実際の比率(SNR)に従って実行することが可能である。したがって、重み計算モジュール18は、音声期間の重み補正ファクター116、すなわち、αsを重み調整モジュール24と26に対して送信し、また、非音声期間の別の重み補正ファクター118、すなわち、αnを重み調整モジュール34と36に対して提供する。背景雑音の出力は、たとえば、非音声期間で信号102に含まれている合成信号の出力を分析することによって分かる。一般的には、この出力は、全く安定しており、したがって、一定であると考えることが可能である。したがって、SNRは、暗雑音の出力に対する合成された音声信号の出力の対数比である。重み補正ファクター116と118によって、重み調整モジュール24は、音声期間に対して高帯域エネルギスケーリングファクター124を提供し、また、重み調整モジュール34は、非音声期間の高帯域エネルギスケーリングファクター134を加算モジュール40に対して提供する。加重モジュール40は、音声期間と非音声期間の双方の高帯域エネルギスケーリングファクター140を提供する。同様に、重み調整モジュール26は、音声期間の高帯域LP合成フィルタリングパラメータ126を提供し、また、重み調整モジュール36は、高帯域LP合成フィルタリングパラメータ136を加算デバイス42に提供する。これらのパラメータに基づいて、加算デバイス42は、音声期間と非音声期間の双方に対する高帯域LP合成フィルタリングパラメータ142を提供する。先行技術による高帯域エンコーダ中のそれと同様に、図2に示すように、スケーリングモジュール50は、白色ノイズ発生器4によって提供された擬似信号104のエネルギを適切にスケーリングし、また、高帯域LP合成フィルタリングモジュール52は、白色ノイズを、低周波数帯域と高周波数帯域の双方で有色ノイズを含む擬似広帯域信号152に変換する。適切にスケーリングされたこの擬似信号は、参照番号150で示される。
本発明を実現する1つの方法は、エネルギスケール推定器20からの高帯域エネルギスケーリングファクター120に基づいて暗雑音の高帯域のエネルギを増すことである。したがって、高帯域エネルギスケーリングファクター130は、単に、高帯域エネルギスケーリングファクター120を一定の補正ファクターccorrで乗算したものであり得る。たとえば、エネルギスケーラ推定器20によって用いられた傾斜ファクターctiltが0.5であり、補正ファクターccorr=2.0であると、加算された高帯域エネルギファクター140、すなわち、αsumは、次式で計算可能である:

αsum=αstilt+αntiltcorr(式1)
重み補正ファクター116、すなわち、αsが音声だけで1.0に等しくなるように設定され、雑音だけで0.0に設定され、低レベルの暗雑音を持つ音声で0.8に設定され、高レベルの暗雑音を持つ音声で0.5に設定されると、加算された高帯域エネルギファクターαsumは次式で与えられる:

αsum=1.0×0.5+0.0×0.5×2.0=0.5 (音声だけ)
αsum=0.0×0.5+1.0×0.5×2.0=1.0 (雑音だけ)
αsum=0.8×0.5+0.2×0.5×2.0=0.6 (低暗雑音をもつ音声)
αsum=0.5×0.5+0.5×0.5×2.0=0.75 (高暗雑音をもつ音声)

この例の実現例を図5に示す。この簡単な手順によれば、高帯域のエネルギを補正することによって、合成された音声の等化性を向上させることが可能である。補正ファクターccorrをここでは用いているが、それは、通常、暗雑音のスペクトルが、音声のスペクトルより平坦であるからである。音声期間では、補正ファクターccorrの影響は、非音声期間中ほど重要ではないが、それは、ctiltの値が小さいからである。この場合、ctiltの値は、先行技術におけるように音声信号用に設計されている。
傾斜ファクターを暗雑音の平坦性に従って適応的に変更することが可能である。音声信号では、傾斜は、周波数ドメインのエネルギの一般的な傾きと定義される。一般的には、傾斜ファクターは、低帯域合成信号から計算され、等化された広帯域擬似信号に乗算される。傾斜ファクターは、次式を用いて第1の自動補正係数、すなわち、rを計算することによって推定される:

r={sT(n)s(n−1)}/{sT(n)s(n)}(式2)

ここで、s(n)は合成された音声信号である。したがって、推定された傾斜ファクターctiltは、ctilt=1.0−rで0.2≦ctilt≦1.0として決定され、上付添え字Tはベクトルの転置を示す。
また、スケーリングファクターを、LPC励振exc(n)とフィルタをかけられた擬似信号e(n)から次式のように推定することが可能である:

scaled=sqrt[{excT(n)exc(n)}/{eT(n)e(n)}]e(n) (式3)
スケーリングファクターsqrt[{excT(n)exc(n)}/{eT(n)e(n)}]は、参照番号140で示され、また、スケーリングされた白色雑音escaledは、参照番号150で示される。LPC励振、フィルタをかけられた擬似信号および傾斜ファクターは、信号102に含むことが可能である。
音声期間におけるLPC励振exc(n)は、非音声期間のそれとは異なっていることに注意すべきである。低帯域信号の特徴と高帯域信号の特徴とのあいだの関係は、音声期間と非音声期間では異なるため、高帯域のエネルギを傾斜ファクターctiltに補正ファクターccorrを乗算することによって増加させるのが望ましい。上記の例(図4)では、ccorrは一定値2.0と選択される。しかしながら、補正ファクターccorrは、0.1≦ctiltcorr≦1.0となるように選択すべきである。エネルギスケール推定器120の出力信号120がctiltである場合、エネルギスケール推定器130の出力信号130はctiltcorrである。
雑音に対するLPフィルタ推定器32の1実現例は、背景雑音が存在しない場合に高帯域のスペクトルを平坦化するものである。これは、発生した広帯域LPフィルタにならって、
Figure 2009069856
を加算することによって達成可能であるが、
Figure 2009069856
は、等化されたLPフィルタであり、1>β1≧β2>0である。たとえば、αsum=αsβ1+αnβ2corrであり、つぎのようになる:

β1=0.5,β2=0.5 (音声だけ)
β1=0.8,β2=0.5 (雑音だけ)
β1=0.56,β2=0.46 (低暗雑音をもつ音声)
β1=0.65,β2=0.40 (高暗雑音をもつ音声)

β1とβ2間の差が大きくなると、スペクトルは平坦になり、また、重みフィルタは、LPフィルタの効果を打ち消す。
図5に、本発明の1例示の実施形態による移動局200のブロック図を示す。この移動局は、マイクロフォン201、キーパッド207、ディスプレイ206、イヤホーン214、送/受信スイッチ208、アンテナ209および制御ユニット205などの、デバイスでは一般的な部品を備えている。加えて、この図には、モバイル局では一般的な送信ブロックと受信ブロック204と211が図示されている。送信ブロック204は、音声信号を符号化するコーダ221を備えている。送信ブロック204はまた、チャネルの符号化、解読および変調に必要とされる動作と無線周波数機能を備えているが、これらを分かりやすいように図5に示されている。受信ブロック211もまた、本発明による復号ブロック220を備えている。復号ブロック220は、図3に示す高帯域デコーダ10のような高帯域デコーダ222を備えている。増幅段202で増幅されA/Dコンバータでディジタル化され、マイクロフォン201から入力された信号は、送信ブロック204、一般的には、送信ブロックから成る音声符号化デバイスに送られる。処理された送信信号は、送信ブロックで変調されて増幅され、送/受信スイッチ208を介してアンテナ209に送られる。受信される信号は、アンテナから送/受信スイッチ208を介して受信ブロック211に送られるが、ここで、受信信号が復調され、解読内容とチャネル符号化内容が復号される。結果として得られる音声信号は、D/Aコンバータ212から増幅器213に、さらには、イヤホーン214に送られる。制御ユニット205は、移動局200の動作を制御し、ユーザがキーパッド207から入力した制御コマンドを読み取り、メッセージをユーザに対してディスプレイ206を用いて与える。
本発明によれば、高帯域デコーダ10もまた、普通の電話網や、たとえばGSMネットワークなどの移動局ネットワークなどの電気通信ネットワーク300で使用可能である。図6に、このような電気通信ネットワークのブロック図の例を示す。たとえば、電気通信ネットワーク300は、電話交換機または対応するスイッチングシステム360を備えることができるが、これに対して、電気通信ネットワークの通常の電話機370、基地局340、基地局コントローラ350および他の中央デバイス355がカップリングされている。移動局330は、電気通信ネットワークに基地局340を介して接続を確立することが可能である。図3に示す高帯域デコーダ10に類似した高帯域デコーダ322を含む復号ブロック320は、たとえば基地局340中に設置すれば特に利点がある。しかしながら、復号ブロック320もまた、基地局コントローラ350または他の中央のデバイスまたは、たとえばスイッチングデバイス355内にも設置可能である。移動局システムが、たとえば基地局と基地局コントローラ間で別のトランスコーダを用いて、無線チャネルから取られた符号化された信号を電気通信システムで転送される一般的な64キロビット/秒信号に変換またはその逆をすれば、復号ブロック320もまた、このようなトランスコーダ内に設置することが可能である。一般に、高帯域デコーダ322を含む復号ブロック320は、符号化されたデータストリームを符号化されていないデータストリームに変換する電気通信ネットワーク300のどのエレメント内にも設置可能である。復号ブロック320は、モバイル局330から入力される符号化された音声信号を復号してフィルタリングし、その後で、音声信号を、圧縮されていない通常の仕方で、電気通信ネットワーク300中に前方転送することが可能である。
本発明は、CELPタイプの音声コーデックに応用可能であり、また、他のタイプの音声コーデックにも適用可能である。さらに、図3に示すように、デコーダ内で1つだけのエネルギスケール推定器を用いて、高帯域エネルギを推定する、または、1つのLPフィルタ推定器を用いて音声信号と暗雑音信号をモデリングすることが可能である。
このように、本発明を好ましい実施形態を参照して説明したが、形態と詳細における前記の様々な他の変更、省略および修正が本発明の精神と範囲から逸脱することなく可能であることが当業者には理解されよう。
線形予測エンコーダ/デコーダを用いる送信機/受信機を示す略図である。 白色雑音を擬似信号として用いて高帯域をフィルタリングする先行技術によるCELP音声エンコーダ/デコーダを示す略図である。 本発明による高帯域デコーダを示す略図である。 入力信号中の雑音レベルに従った重み計算を示すフローチャートである。 本発明による、デコーダを含む移動局を示す略図である。 本発明による、デコーダを用いる電気通信ネットワークを示す略図である。

Claims (8)

  1. 高周波数成分と低周波数成分とを有する合成された音声を提供するために、音声期間と非音声期間とを有する音声信号を示す符号化されたビットストリームを復号化する方法であって、
    前記方法が、
    音声信号における低周波数帯域に特有の音声関連パラメータを、合成された音声の高周波数成分を提供するための擬似信号を生成するために使用し、
    音声期間を示す第1値および非音声期間を示す第2値のうちの1つを有する音声活動性信号が受信され、
    該方法が、
    音声活動性信号に基づいて前記音声期間中および非音声期間中に擬似信号をスケーリングする工程を含んでなる
    ことを特徴とする方法。
  2. 音声信号を示す音声パラメータに基づいて前記音声期間中の擬似信号を合成フィルタにかける工程と、
    ノイズ信号を示す音声パラメータに基づいて非音声期間中の擬似信号を合成フィルタにかける工程
    をさらに含むことを特徴とする請求項1記載の方法。
  3. 前記第1値が音声信号を示し、前記第2値がノイズ信号を示してなることを特徴とする請求項1または2記載の方法。
  4. 前記第1値がノイズ信号をさらに示してなることを特徴とする請求項3記載の方法。
  5. 前記音声関連パラメータが、音声信号を示す線形予測符号化係数を含んでなることを特徴とする請求項1〜4のいずれか1項に記載の方法。
  6. 前記音声期間中の擬似信号のスケーリングが、合成された音声の低周波数成分から計算されたスペクトル傾斜ファクター(tilt factor)にさらに基づいてなることを特徴とする請求項1〜5のいずれか1項に記載の方法。
  7. 前記入力信号が暗雑音を含み、前記音声期間中の擬似信号のスケーリングが該暗雑音の補正ファクター(correction factor)の特性にさらに基づいてなることを特徴とする請求項6記載の方法。
  8. 前記非音声期間中の擬似信号のスケーリングが補正ファクターにさらに基づいてなることを特徴とする請求項7記載の方法。
JP2008321598A 2000-10-18 2008-12-17 音声コーデックにおける擬似高帯域信号の推定方法 Withdrawn JP2009069856A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/691,323 US6691085B1 (en) 2000-10-18 2000-10-18 Method and system for estimating artificial high band signal in speech codec using voice activity information

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002537003A Division JP4302978B2 (ja) 2000-10-18 2001-08-31 音声コーデックにおける擬似高帯域信号の推定システム

Publications (1)

Publication Number Publication Date
JP2009069856A true JP2009069856A (ja) 2009-04-02

Family

ID=24776068

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2002537003A Expired - Lifetime JP4302978B2 (ja) 2000-10-18 2001-08-31 音声コーデックにおける擬似高帯域信号の推定システム
JP2008321598A Withdrawn JP2009069856A (ja) 2000-10-18 2008-12-17 音声コーデックにおける擬似高帯域信号の推定方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2002537003A Expired - Lifetime JP4302978B2 (ja) 2000-10-18 2001-08-31 音声コーデックにおける擬似高帯域信号の推定システム

Country Status (15)

Country Link
US (1) US6691085B1 (ja)
EP (2) EP1772856A1 (ja)
JP (2) JP4302978B2 (ja)
KR (1) KR100544731B1 (ja)
CN (1) CN1295677C (ja)
AT (1) ATE362634T1 (ja)
AU (1) AU2001284327A1 (ja)
BR (1) BRPI0114706B1 (ja)
CA (1) CA2426001C (ja)
DE (1) DE60128479T2 (ja)
DK (1) DK1328927T3 (ja)
ES (1) ES2287150T3 (ja)
PT (1) PT1328927E (ja)
WO (1) WO2002033696A1 (ja)
ZA (1) ZA200302465B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012181561A (ja) * 2012-06-27 2012-09-20 Toshiba Corp 信号処理装置
JPWO2014034697A1 (ja) * 2012-08-29 2016-08-08 日本電信電話株式会社 復号方法、復号装置、プログラム、及びその記録媒体

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1735927B (zh) * 2003-01-09 2011-08-31 爱移通全球有限公司 用于高质量语音编码转换的方法和装置
KR100940531B1 (ko) 2003-07-16 2010-02-10 삼성전자주식회사 광대역 음성 신호 압축 및 복원 장치와 그 방법
KR20050027179A (ko) * 2003-09-13 2005-03-18 삼성전자주식회사 오디오 데이터 복원 방법 및 그 장치
KR20070056081A (ko) * 2004-08-31 2007-05-31 마츠시타 덴끼 산교 가부시키가이샤 스테레오 신호 생성 장치 및 스테레오 신호 생성 방법
KR100707174B1 (ko) 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
JP5046654B2 (ja) * 2005-01-14 2012-10-10 パナソニック株式会社 スケーラブル復号装置及びスケーラブル復号方法
US8086451B2 (en) * 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
KR100653643B1 (ko) * 2006-01-26 2006-12-05 삼성전자주식회사 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치
EP2323131A1 (en) * 2006-04-27 2011-05-18 Panasonic Corporation Audio encoding device, audio decoding device, and their method
JP4967618B2 (ja) * 2006-11-24 2012-07-04 富士通株式会社 復号化装置および復号化方法
US8457953B2 (en) * 2007-03-05 2013-06-04 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for smoothing of stationary background noise
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
CN100555414C (zh) * 2007-11-02 2009-10-28 华为技术有限公司 一种dtx判决方法和装置
KR101444099B1 (ko) * 2007-11-13 2014-09-26 삼성전자주식회사 음성 구간 검출 방법 및 장치
KR101235830B1 (ko) 2007-12-06 2013-02-21 한국전자통신연구원 음성코덱의 품질향상장치 및 그 방법
CN103187065B (zh) * 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
CN105976830B (zh) 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
PT3121813T (pt) * 2013-01-29 2020-06-17 Fraunhofer Ges Forschung Preenchimento de ruído sem informação lateral para codificadores do tipo celp
US10978083B1 (en) * 2019-11-13 2021-04-13 Shure Acquisition Holdings, Inc. Time domain spectral bandwidth replication

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5235669A (en) 1990-06-29 1993-08-10 At&T Laboratories Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
JPH08102687A (ja) * 1994-09-29 1996-04-16 Yamaha Corp 音声送受信方式
JP2638522B2 (ja) * 1994-11-01 1997-08-06 日本電気株式会社 音声符号化装置
FI980132A (fi) 1998-01-21 1999-07-22 Nokia Mobile Phones Ltd Adaptoituva jälkisuodatin
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
JP2000206997A (ja) * 1999-01-13 2000-07-28 Sony Corp 受信装置及び方法、通信装置及び方法
JP2000181494A (ja) * 1998-12-11 2000-06-30 Sony Corp 受信装置及び方法、通信装置及び方法
JP4135242B2 (ja) * 1998-12-18 2008-08-20 ソニー株式会社 受信装置及び方法、通信装置及び方法
JP4135240B2 (ja) * 1998-12-14 2008-08-20 ソニー株式会社 受信装置及び方法、通信装置及び方法
JP2000181495A (ja) * 1998-12-11 2000-06-30 Sony Corp 受信装置及び方法、通信装置及び方法
KR20000047944A (ko) 1998-12-11 2000-07-25 이데이 노부유끼 수신장치 및 방법과 통신장치 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012181561A (ja) * 2012-06-27 2012-09-20 Toshiba Corp 信号処理装置
JPWO2014034697A1 (ja) * 2012-08-29 2016-08-08 日本電信電話株式会社 復号方法、復号装置、プログラム、及びその記録媒体
US9640190B2 (en) 2012-08-29 2017-05-02 Nippon Telegraph And Telephone Corporation Decoding method, decoding apparatus, program, and recording medium therefor

Also Published As

Publication number Publication date
WO2002033696B1 (en) 2002-07-25
ZA200302465B (en) 2004-08-13
PT1328927E (pt) 2007-06-14
KR20040005838A (ko) 2004-01-16
EP1772856A1 (en) 2007-04-11
CA2426001C (en) 2006-04-25
JP2004537739A (ja) 2004-12-16
KR100544731B1 (ko) 2006-01-23
DK1328927T3 (da) 2007-07-16
CN1295677C (zh) 2007-01-17
DE60128479T2 (de) 2008-02-14
CA2426001A1 (en) 2002-04-25
US6691085B1 (en) 2004-02-10
JP4302978B2 (ja) 2009-07-29
CN1484824A (zh) 2004-03-24
EP1328927A1 (en) 2003-07-23
AU2001284327A1 (en) 2002-04-29
DE60128479D1 (de) 2007-06-28
EP1328927B1 (en) 2007-05-16
BRPI0114706B1 (pt) 2016-03-01
BR0114706A (pt) 2005-01-11
ATE362634T1 (de) 2007-06-15
WO2002033696A1 (en) 2002-04-25
ES2287150T3 (es) 2007-12-16

Similar Documents

Publication Publication Date Title
JP4302978B2 (ja) 音声コーデックにおける擬似高帯域信号の推定システム
EP1328928B1 (en) Apparatus for bandwidth expansion of a speech signal
JP5373217B2 (ja) 可変レートスピーチ符号化
US6260009B1 (en) CELP-based to CELP-based vocoder packet translation
EP1273005B1 (en) Wideband speech codec using different sampling rates
KR100574031B1 (ko) 음성합성방법및장치그리고음성대역확장방법및장치
JP4270866B2 (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
TW469421B (en) Sound synthesizing apparatus and method, telephone apparatus, and program service medium
EP2132731B1 (en) Method and arrangement for smoothing of stationary background noise
JP4874464B2 (ja) 遷移音声フレームのマルチパルス補間的符号化
JPH0850500A (ja) 音声エンコーダ及び音声デコーダ、並びに音声符号化方法及び音声復号化方法
JPH10149199A (ja) 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体
WO2003001172A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
JPH08160996A (ja) 音声符号化装置
SHOKEEN IMPLEMENTITION OF SPEECH CODING USING VOICE EXCITED LILNEAR PREDICTIVE VOCODER
JPH11119798A (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090515