JP2004513399A

JP2004513399A - 知覚品質を高める電話スピーチの広帯域拡張

Info

Publication number: JP2004513399A
Application number: JP2002541669A
Authority: JP
Inventors: シェヌーク，サミール; ヘリッツ，アンドレアス　イェー; スレイテル，ローベルト　イェー
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-11-09
Filing date: 2001-11-09
Publication date: 2004-04-30
Also published as: EP1336175A1; US7346499B2; CN1216368C; CN1416563A; KR20020071929A; KR100865860B1; US20020193988A1; WO2002039430A1

Abstract

知覚品質を高める電話スピーチの広帯域拡張方法である。逆フィルタ及び合成フィルタを有する広帯域拡張方法を使用してスピーチ信号の周波数範囲を拡張する方法であって、両方のフィルタは、ＬＰＣ推定器からＬＰＣ係数を受信する。広帯域ＬＰＣ係数は、広帯域ＬＳＦから得られる。広帯域ＬＳＦは、狭帯域ＬＳＦにマトリクスを適用して形成される高域ＬＳＦを、狭帯域ＬＳＦを２で割ることによって形成される低域ＬＳＦに付加することによって得られる。高域ＬＳＦを形成するのに使用されるマトリクスは、所定のマトリクスリストから選択される。選択は、狭帯域スピーチ信号から抽出される広帯域反射係数及び狭帯域反射係数のいずれかに基づいている。

Description

【０００１】
本発明は、ある周波数範囲を有する狭帯域スピーチ信号の線スペクトル周波数を、高域周波数範囲及び狭帯域スピーチ信号の周波数範囲を含む広帯域スピーチ信号の線スペクトル周波数に拡張する方法と、入力におけるスピーチ信号の周波数範囲を拡張するシステムとに関する。本発明のシステムは、出力と、システムの入力に接続されるアップサンプラと、線形予測係数及び反射係数を決定する入力分析手段とを含み、入力分析手段の入力はシステムの入力に接続され、アップサンプラは、第１のフィルタの入力に接続される出力を含み、第１のフィルタは出力を含み、線形予測係数に基づいてフィルタリングを行うよう構成され、第１のフィルタの出力は、出力を含む第２のフィルタの入力に接続される出力を有するスペクトル折り重ね手段の入力に接続され、第２のフィルタは線形予測係数に基づいてフィルタリングを行うよう構成され、第２のフィルタの出力はシステムの出力に接続されてスピーチ信号の周波数範囲を拡張する。
【０００２】
このような方法及びシステムは、ＰｅｔｅｒＪａｘ及びＰｅｔｅｒＶａｒｙによる出版物「ｗｉｄｅｂａｎｄｅｘｔｅｎｓｉｏｎｏｆｔｅｌｅｐｈｏｎｅｓｐｅｅｃｈｕｓｉｎｇａｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ」（ＩＥＥＥＷｏｒｋｓｈｏｐｏｎＳｐｅｅｃｈｃｏｄｉｎｇ，Ｓｅｐｔｅｍｂｅｒ２０００，Ｗｉｓｃｏｎｓｉｎ）から公知である。ここでは、狭帯域入力信号は、有限数のスピーチ音声に分類され、広帯域スペクトル包絡についての情報が、予め訓練された符号帳から得られる。符号帳探索アルゴリズムには、隠れマルコフモデルに基づいた統計学的なアプローチが使用される。隠れマルコムモデルは、帯域幅が制限されたスピーチの異なる特徴を考慮に入れ、平均２乗誤差の基準を小さくする。このアルゴリズムは、１つの広帯域符号帳しか必要でなく、本質的に、狭帯域周波数範囲におけるシステムのトランスペアレンシーを保証する。エンハンスされたスピーチは、入力スピーチよりかなり大きい帯域幅を有する。このアルゴリズムは、符号帳ＬＰＣ係数を、第１のフィルタ、即ち、逆フィルタに適用することによって広帯域信号全体を形成する。第１のフィルタは入力信号に作用し、フィルタリングされ、且つ、次に、スペクトル的に折り重ねられた信号を、第２のフィルタ、即ち、合成フィルタに供給する。この合成フィルタも符号帳ＬＰＣ係数を受信し、広帯域信号を出力に供給する。これらの２つのフィルタの伝達関数は互いに逆なので、狭帯域信号はシステムによってトランスペアレントに処理される。
【０００３】
この広帯域拡張方法は、第１のフィルタによって供給されるフィルタリングされた信号は、スペクトル的に折り重ねられた後で、高域スピーチ信号を形成するよう第２のフィルタに最適な信号を供給するのに十分に平坦ではないという不利点を有する。
【０００４】
本発明は、スペクトル的に折り重ねられた後で、逆フィルタに最適な信号が供給される、狭帯域スピーチ信号を広帯域スピーチ信号に拡張する方法を提供することを目的とする。
【０００５】
本発明は、以下の段階を適用することによって上述した目的を達成する。
【０００６】
狭帯域スピーチ信号の周波数範囲において広帯域スピーチ信号の線スペクトル周波数に向かうよう訓練することによって得られるマトリクスを適用することによって、広帯域スピーチ信号の拡張された周波数範囲の線スペクトル周波数を得る段階と、
狭帯域スピーチ信号の線スペクトル周波数を、狭帯域スピーチ信号の周波数範囲における広帯域スピーチ信号の線スペクトル周波数にマッピングする段階と、
高域周波数範囲の線スペクトル周波数を、狭帯域スピーチ信号の線スペクトル周波数に組み合わせる段階。
【０００７】
このようにすると、狭帯域スピーチ信号のＬＳＦは、処理されることなく、広帯域スピーチ信号の等価の低域ＬＳＦに直接マッピングされ、一方、広帯域信号の高域周波数範囲は、狭帯域スピーチ信号のＬＳＦにマトリクスを適用することによって形成される。高域ＬＳＦのマッピングが低域ＬＳＦに影響を及ぼさないので、最適に平坦な信号が第１のフィルタから得られる。スペクトル的に折り重ねられた後に、折り重ねられた信号のスペクトルは平坦なままであり、合成フィルタに最適な入力信号を供給する。
【０００８】
高域ＬＳＦを得る１つの方法は、狭帯域スピーチ信号の周波数範囲において広帯域スピーチ信号の線スペクトル周波数に向かうよう訓練することによって得られるマトリクスを適用することである。更に、独立した処理によって、高域信号の合成を更に最適化するよう多数のマトリクスを使用することが可能である。
【０００９】
線スペクトル周波数は、ＬＰＣ分析フィルタのインパルス応答を偶関数及び奇関数に分解することによって得られる。この拡張技術では、ＬＳＦは入力された狭帯域信号から推定される。ＬＳＦは、８ｋＨｚでサンプリングされる狭帯域スピーチ信号の４ｋＨｚの帯域幅において０乃至πに配置される。対応する広帯域スピーチが、狭帯域ＬＰＣモデルの２倍のオーダを有するＬＰＣモデルを使用してモデル化されると仮定すると、狭帯域ＬＳＦは、広帯域ＬＳＦの低域範囲０乃至π／２を表す。従って、広帯域スピーチ信号の低域ＬＳＦは、２で除算される狭帯域ＬＳＦとして与えられる。
【００１０】
上述したように狭帯域スピーチから得られる低域ＬＳＦを合成に使用し、高域ＬＳＦは対応する広帯域スピーチから得られる、広帯域スピーチのシミュレーションにおいて、非常に良好な出力品質が得られる。
【００１１】
高域ＬＳＦは、マトリクスを使用して低域ＬＳＦから得ることができる。マトリクスは訓練によって得られ、且つ、１回だけ設定されればよい。幾つかのマトリクスを得ることも可能であり、各マトリクスは、処理される信号のタイプに特定のものである。このようなマトリクスが得られると、広帯域ＬＰＣ係数は以下のように得られる。
【００１２】
まず、狭帯域スピーチ信号の線形予測及び反射係数が推定される。次に、ＬＳＦがこの線形予測から計算される。ＬＳＦは２つに分割され、アレイアペンダ及び高域ＬＳＦ推定器に直接供給される。高域ＬＳＦ推定器は、１組のマトリクスから選択される１つのマトリクスを分割されたＬＳＦに適用する。マトリクスの選択は、処理されている信号のタイプに基づいている。
【００１３】
選択されたマトリクスを分割されたＬＳＦに適用する結果、１組の高域ＬＳＦが得られる。高域ＬＳＦは次に、アレイアペンダに供給される。アレイアペンダは、高域ＬＳＦを低域ＬＳＦに付加して、広帯域ＬＳＦを形成する。広帯域ＬＳＦの結果としてのアレイは、広帯域ＬＰＣを算出することを可能にし、この広帯域ＬＰＣは、Ｊａｘによって開示されるようなシステムにおいて広帯域スピーチ信号の合成に使用される。ＬＳＦ及びＬＰＣ係数は、スピーチ信号の周波数範囲を拡張する様々な方法及びシステムの基礎を形成し、そのスピーチシステムの知覚品質を改善する。従って、本発明に説明するように、狭帯域ＬＳＦ及びＬＰＣ係数の広帯域ＬＳＦ及びＬＰＣ係数への拡張は、スピーチ信号の周波数範囲を拡張する他のシステムにも使用することができる。
【００１４】
スピーチ信号の周波数範囲の拡張は、チャネルリソースが節約されるべきであり、スピーチは狭い帯域幅で送信されるシステムの受信端末に使用される。システムの例としては、移動電話機、ビデオ会議端末、及び、インターネット電話端末が挙げられる。
【００１５】
本発明を、以下の図面に基づいて説明する。
【００１６】
図１は、周波数拡張のためのシステムのセクションを示し、ここで、広帯域ＬＳＦが決定される。このシステムのセクションは、入力分析手段３の入力１９を介し、狭帯域スピーチ信号を受信する。入力分析手段３によって、狭帯域スピーチ信号に基づいて、線形予測及び反射係数が決定される。入力分析手段３は、線形予測係数を、接続２１を介し線スペクトル周波数推定器５に供給する。線スペクトル推定器は、線スペクトル周波数ＬＳＦを乗算器７に供給する。乗算器７では、ＬＳＦは０．５を乗ずることによって２つに分けられる。乗算器７は分割されたＬＳＦを出力に供給する。分割されたＬＳＦは、アレイアペンダ１１及び高域ＬＳＦ推定器９の両方に供給される。高域ＬＳＦ推定器９は、乗算器７から受信した分割されたＬＳＦにマトリクスを適用することによって高域ＬＳＦを推定する。使用するマトリクスを決定するには、マトリクスセレクタ１５は入力２９を介して、受信した狭帯域スピーチ信号に関する情報を受信し、マトリクスリスト１７から１つのマトリクスを選択する。マトリクスセレクタ１５が受信する、受信した狭帯域スピーチ信号に関する情報とは、反射係数ｋ１及びｋ２である。入力分析手段は、これらの反射係数ｋ１及びｋ２を、ＬＰＣ係数を決定するときと同時に得る。従って、反射係数ｋ１及びｋ２は、狭帯域スピーチ信号に基づいている。高域ＬＳＦ推定器９は、推定した高域ＬＳＦをアレイアペンダ１１に供給し、ここでは、高域ＬＳＦは低域ＬＳＦに付加される。狭帯域、即ち、低域ＬＳＦ及び高域ＬＳＦが付加されると、結果として得られるＬＳＦは広帯域ＬＳＦである。この広帯域ＬＳＦは、アレイアペンダ１１によって線形予測決定器１３に供給され、ここでは、広帯域ＬＰＣ係数が、スピーチ符号化の分野では標準的な方法を使用して決定される。広帯域ＬＰＣ係数は次に出力３７に供給されて、図４に説明するように、逆フィルタ、合成フィルタ、及び、スペクトルの折り重ねによって、合成を介し広帯域スピーチ信号を形成するよう一般的な方法で使用される。
【００１７】
入力分析手段３によって供給される全ての反射係数のうち最初の２つの反射係数ｋ１及びｋ２は、スピーチ信号を分類するのに使用される。反射係数ｋ１及びｋ２がどの反射係数のクラスタに関連付けられるか決定することによって分類される。マトリクスセレクタ１５による、例えば、ベイズ探索（ｂａｙｅｓｉａｎｓｅａｒｃｈ）といった探索に基づいて、マトリクスＭが、所定のマトリクスからなるマトリクスリスト１７から選択される。所定のマトリクスは、狭帯域スピーチ信号の周波数範囲において広帯域スピーチ信号の線スペクトル周波数に向かうよう訓練することにより得られる。
【００１８】
マトリクスセレクタ１５は、選択されたマトリクスか、どのマトリクスが選択されたかを指示する情報を、図１に示す高域ＬＳＦ推定器９に供給する。反射係数ｋ１及びｋ２、又は、どのマトリクスが選択されるかに関する情報は、スピーチコーダから得て、スピーチコーダをスピーチデコーダに接続するチャネルを介しスピーチデコーダに送信されることも可能である。この場合、情報は、計算されることなく高域ＬＳＦ推定器に直接供給されうる。正確な実施には、周波数拡張システムが、デコーダの一部であり、スピーチデコーダによって受信される符号化スピーチデータにアクセスすることができるか、又は、狭帯域スピーチ信号を処理するスタンドアロン式のシステムであるか否かに依存する。スタンドアロン式システムである場合、全ての必要なパラメータ、即ち、ＬＰＣ、ＬＳＦ、ｋ１、ｋ２は、システム自体によって決められなければならない。システムがスピーチデコーダの一部である場合、パラメータはデコーダから直接得られるか又は受信した符号化スピーチ信号中に含まれる。
【００１９】
図２は、広帯域ＬＰＣ係数に基づいて反射係数クラスタｋ１及びｋ２を決定するシステムを示す。図１に示す入力分析手段３から得られる狭帯域スピーチＬＰＣ係数は、線スペクトル周波数推定器５１に供給される。結果として得られるＬＳＦは、乗算器５３によってＬＳＦに０．５を乗じることによって２つに分割される。従って、結果として得られるＬＳＦは広帯域ＬＳＦである。これらの分割されたＬＳＦに基づいて、ＬＰＣ推定器５５によって広帯域線形予測係数が計算される。ＬＰＣ係数は、反射係数推定器５７によって使用され、広帯域反射係数が計算される。反射係数推定器５７によって供給される全ての反射係数のうち最初の２つの反射係数ｋ１及びｋ２は、スピーチ信号を分類するのに使用される。マトリクスセレクタ５９による、例えば、ベイズ探索といった探索に基づいて、所定のマトリクスからなるマトリクスリスト６１から１つのマトリクスＭが選択される。所定のマトリクスは、狭帯域スピーチ信号の周波数範囲において広帯域スピーチ信号の線スペクトル周波数に向かうよう訓練することによって得られる。
【００２０】
マトリクスセレクタ５９は選択されたマトリクスか、又は、どのマトリクスが選択されたかを指示する情報のいずれかを、図１に示す高域ＬＳＦ推定器９に供給する。広帯域反射係数ｋ１及びｋ２、又は、どのマトリクスが選択されるべきかについての情報は、スピーチコーダから得て、スピーチコーダとスピーチデコーダを接続するチャネルを介しスピーチデコーダに送信されることも可能である。この場合、情報は、計算されることなく、高域ＬＳＦ推定器に直接供給されうる。正確な実施には、周波数拡張システムが、デコーダの一部であり、スピーチデコーダによって受信される符号化スピーチデータにアクセスすることができるか、又は、狭帯域スピーチ信号を処理するスタンドアロン式のシステムであるか否かに依存する。スタンドアロン式システムである場合、全ての必要なパラメータ、即ち、ＬＰＣ、ＬＳＦ、ｋ１、ｋ２は、システム自体によって決められなければならない。システムがスピーチデコーダの一部である場合、パラメータはデコーダから直接得られるか又は受信した符号化スピーチ信号中に含まれる。
【００２１】
図３は、反射係数クラスタｋ１及びｋ２に対応する振幅スペクトル包絡形状を示す。振幅スペクトル包絡形状の有限の組があり、各形状は互いから異なり、それにより、高域スピーチ信号をモデル化することが可能となる。各形状は、特定のマトリクス（Ｍ１、Ｍ２、Ｍ３、Ｍ４）に対応し、従って、特定の反射係数クラスタｋ１及びｋ２に対応する。マトリクスは、この反射係数ｋ１及びｋ２に基づいて選択される。
【００２２】
図４は、スピーチ信号の周波数範囲を拡張するシステムの全体図である。
【００２３】
図４に示すスピーチ信号の周波数範囲を拡張するシステムは、入力において狭帯域スピーチ信号を受信し、受信した信号をアップサンプラ７１及び入力分析手段６に供給する。入力分析手段６は、図１に示す入力分析手段３及びＬＳＦ決定器５の組合せに相当する。入力分析手段６から広帯域ＬＰＣ推定器１３のセクションは、図１に示すサブシステムに相当する。図４中の高域ＬＳＦ推定器９によって使用されるべきマトリクスの決定は、図１又は図２で説明したのと同様の方法で達成される。図４は、図１の実施例を含む。図１及び図４の対応する構成要素は、同一の参照符号を有する。
【００２４】
アップサンプラ７１は、アップサンプリングされた信号を第１のフィルタに供給する。第１のフィルタは、アップサンプリングされた信号にフィルタリングを施す。第１のフィルタは、線形予測決定器１３によって供給される広帯域ＬＰＣパラメータを使用する。広帯域ＬＰＣパラメータは、図１で説明したのと同様の方法で得られる。
【００２５】
第１のフィルタ、即ち、逆フィルタは、フィルタリングされた信号をスペクトル的に折り重ねる折り重ね（ｓｐｅｃｔｒａｌｆｏｌｄｉｎｇ）手段８５に供給する。スペクトル折り重ね手段では、フィルタリングされた信号の周波数範囲がスペクトル的な折り重ねによって拡張される。フィルタリングされ、且つ、スペクトル的に折り重ねられた信号は合成フィルタ８７に使用され、広帯域ＬＰＣ係数を使用しながら広帯域出力信号を生成するので、逆フィルタの出力におけるフィルタリングされた信号はスペクトル的に平坦であり、スペクトル折り重ねの後、及び、合成フィルタ８７によってフィルタリングされる前に、フィルタリング信号の高域部がスペクトル的に平坦のままであることを保証することが重要である。０．５が乗算された後に、低域ＬＳＦを直接逆フィルタ８１に供給することによって、合成フィルタ８７には最適な信号が供給されることができ、その結果、広帯域信号における最適な高域信号が得られる。合成フィルタ８７は、第１のフィルタと同一のＬＰＣ係数を使用して、フィルタリングされ且つスペクトル的に折り重ねられた信号にフィルタリングを施し、システムの出力に、拡張された周波数範囲を有する出力信号を供給する。
【図面の簡単な説明】
【図１】
本発明のスピーチデコーダを示す図である。
【図２】
広帯域ＬＰＣ係数から得られる反射係数の分類を決定するシステムを示す図である。
【図３】
反射係数クラスタ（ｋ１、ｋ２）に対応する振幅スペクトル包絡形状を示す図である。
【図４】
スピーチ信号の周波数範囲を拡張するシステム全体を示す図である。

Claims

ある周波数範囲を有する狭帯域スピーチ信号の線スペクトル周波数を、高域周波数範囲と上記狭帯域スピーチ信号の上記ある周波数範囲とを含む広帯域スピーチ信号の線スペクトル周波数に拡張する方法であって、
上記狭帯域スピーチ信号の上記ある周波数範囲、即ち、上記狭帯域スピーチ信号の上記線スペクトル周波数において広帯域スピーチ信号の線スペクトル周波数に向かうよう訓練することによって得られるマトリクスを適用することによって、上記広帯域スピーチ信号の上記高域周波数範囲の線スペクトル周波数を得る段階と、
上記狭帯域スピーチ信号の上記線スペクトル周波数を、上記狭帯域スピーチ信号の上記ある周波数範囲における上記広帯域スピーチ信号の線スペクトル周波数にマッピングする段階と、
上記高域周波数範囲の上記線スペクトル周波数を、上記狭帯域スピーチ信号の上記線スペクトル周波数に組み合わせる段階とを含む方法。
上記マトリクスは、上記狭帯域スピーチ信号から得られる反射係数に基づいて、所定のマトリクスからなるリストから選択されることを特徴とする請求項１記載の狭帯域スピーチ信号の線スペクトル周波数を拡張する方法。
上記マトリクスは、広帯域線形予測係数から得られる反射係数に基づいて、所定のマトリクスからなるリストから選択されることを特徴とする請求項１記載の狭帯域スピーチ信号の線スペクトル周波数を拡張する方法。
入力におけるスピーチ信号の周波数範囲を拡張するシステムであって、
出力と、上記システムの上記入力に接続されるアップサンプラと、線形予測係数及び反射係数を決定する入力分析手段とを含み、
上記入力分析手段の入力は、上記システムの上記入力に接続され、
上記アップサンプラは、第１のフィルタの入力に接続される出力を含み、
上記第１のフィルタは出力を含み、線形予測係数に基づいてフィルタリングを行うよう構成され、
上記第１のフィルタの上記出力は、出力を含む第２のフィルタの入力に接続される出力を有するスペクトル折り重ね手段の入力に接続され、
上記第２のフィルタは、上記線形予測係数に基づいてフィルタリングを行うよう構成され、
上記第２のフィルタの上記出力は、上記システムの上記出力に接続されてスピーチ信号の周波数範囲を拡張するシステムであって、
上記入力分析手段の上記入力における上記スピーチ信号の線スペクトル周波数を供給可能な上記入力分析手段の出力は、乗算器の入力に接続され、
上記乗算器は、上記スピーチ信号の上記線スペクトル周波数を２で乗算し、上記２で乗算された線スペクトル周波数を、アレイアペンダ及び高域ＬＳＦ推定器に供給し、
上記アレイアペンダは、上記高域ＬＳＦ推定器によって供給される高域ＬＳＦを、上記２で乗算された上記線スペクトル周波数に付加し、
上記アレイアペンダは、上記第１のフィルタ及び上記第２のフィルタに線形予測係数を供給する出力を含む線形予測係数決定器の入力に接続される出力を有することを特徴とするシステム。
上記高域ＬＳＦ推定器は、上記２で乗算された線スペクトル周波数にマトリクスを適用することによって上記高域ＬＳＦを決定するよう構成されることを特徴とする請求項４記載のスピーチ信号の周波数範囲を拡張するシステム。
上記システムは、所定のマトリクスからなるリストから上記マトリクスを選択できることを特徴とする請求項５記載のスピーチ信号の周波数範囲を拡張する方法。
上記システムは、上記狭帯域スピーチ信号から得られる反射係数に基づいて、上記マトリクスを選択することを特徴とする請求項６記載のスピーチ信号の周波数範囲を拡張するシステム。
上記システムは、広帯域ＬＰＣ係数から得られる反射係数に基づいて、上記マトリクスを選択することを特徴とする請求項７記載のスピーチ信号の周波数範囲を拡張するシステム。
請求項４記載のスピーチ信号の周波数範囲を拡張するシステムを有する移動電話機。