JP2010521012A

JP2010521012A - 音声符号化システム及び方法

Info

Publication number: JP2010521012A
Application number: JP2009553226A
Authority: JP
Inventors: マティアス・ニルソン; ヨナス・リンドブロム; レナート・ヴァフィン; ソーレン・ヴァング・アンデアセン
Original assignee: Skype Ltd Ireland
Current assignee: Skype Ltd Ireland
Priority date: 2007-03-09
Filing date: 2007-12-20
Publication date: 2010-06-17
Anticipated expiration: 2027-12-20
Also published as: US8069049B2; AU2007348901A1; AU2007348901B2; EP2135240A2; US20080221906A1; JP5301471B2; WO2008110870A3; WO2008110870A2; GB0704622D0

Abstract

符号化されたオーディオ信号から再生された信号をエンハンスするシステム。システムは、上記符号化されたオーディオ信号を受信し、復号されたオーディオ信号を発生するように設けられた復号器と、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも１つを受信し、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも１つから少なくとも１つの特徴を抽出するように設けられた特徴抽出手段と、上記特徴をエンハンス信号にマッピングし、上記エンハンス信号を発生しかつ出力するように動作するように設けられることにより、上記エンハンス信号は、上記復号されたオーディオ信号の周波数帯域内である周波数帯域を有するマッピング手段と、上記復号されたオーディオ信号及び上記エンハンス信号を受信し、上記エンハンス信号を上記復号されたオーディオ信号と混合するように設けられた混合手段とを備える。

Description

本発明は、音声符号化システム及び方法に関し、特にボイスオーバーインターネットプロトコル通信システムにおいて利用されることに関するがこれに限定されない。

通信システムでは、端末が呼又は別の通信イベントにおいて互いに情報を送信することができるように、２つの通信端末をリンクすることができる通信ネットワークが提供される。情報は、音声、テキスト、画像、又はビデオを含んでもよい。

現代の通信システムは、デジタル信号の送信に基づいている。音声などのアナログ情報は、端末の送信機でアナログデジタル変換器に入力され、デジタル信号に変換される。その後、デジタル信号は符号化され、宛先端末の受信機へのチャネルを介した送信のためにデータパケットに入れられる。

音声信号の符号化は、音声符号器によって実行される。音声符号器は、デジタル情報として送信するために音声を圧縮し、宛先端末の対応する復号器は、符号化された情報を復号して、復号された音声信号を生成する。それによって、符号器及び復号器の組み合わせは、宛先端末において（宛先端末のユーザの知覚から判断して）元の音声に酷似している復号された音声信号をもたらす。

多くの異なるタイプの音声符号化が既知であり、さまざまなシナリオ及びアプリケーションのために最適化されている。例えば、いくつかの音声符号化技術は、特に、低いビットレートのチャネルを介して送信するために、音声を符号化するために実装されている。低いビットレートの音声符号器は、ボイスオーバーインターネットプロトコル（“ＶｏＩＰ”）システム、及び移動体／無線遠隔通信などの多くのアプリケーションで有用である。

低いレートの音声符号器の例は、元の音声のわずかな(sparse)信号表現を生成するモデルベースの音声符号器である。このようなモデルベースの音声符号器の特定の一例は、正弦波の集合として音声信号を表現する音声符号器である。例えば、低いレートの正弦波音声符号器は、有声として分類された音声フレームの線形予測残差を正弦波のみを用いて符号化することができる。多くの別のタイプの低いレートのわずかな信号表現音声符号器がまた、既知である。これらのタイプの低いレートの符号器は、非常にコンパクトな信号表現を形成する。しかしながら、符号化された信号におけるわずかな表現は、音声の構造を完全に捕捉しない。

正弦波符号器などの低いレートのモデルベースの音声符号器に伴う問題は、信号が低いビットレートで送信されたとき、わずかな表現が金属的な音のアーチファクト(metallic-sounding artifact)をもたらす傾向があることである。金属的なアーチファクト(metallic artifact)は、基礎となるわずかなモデルが限定されたビット割り当てを与えられた音声音のいくつかの構造を捕捉する能力がないことに起因して発生する。

（最終的にはチャネルの帯域幅の能力に関係する）ビット割り当てが増加する場合、元の音声構造の失われた部分を記述するより多くの情報が、送信される情報に追加される。この追加の記述は、アーチファクトを軽減し、最終的にはアーチファクトを除去し、したがって、宛先端末のユーザによって知覚されるように、復号された音声信号の全体の品質及び自然さを改善する。しかしながら、これは明らかに、より高いビットレートをサポートする能力がある場合のみ可能である。

さらに、復号システムは、音声信号を時間内に圧縮する又は展開／伸張することができ、及び／又はジッタを補償するために全体の音声フレームを挿入又はスキップすることができる。ジッタは、受信される信号におけるパケット待ち時間の変動である。復号システムはまた、伝送において損失した又は遅延した１つ又はそれ以上のフレームを置換するために、１つ又はそれ以上の隠蔽フレームを音声信号に挿入することができる。特に、音声信号の伸張、及び音声信号への隠蔽フレームの挿入は、金属的なアーチファクトを引き起こす。一般に、これらの問題はより高いビットレートを利用しても緩和されない。

したがって、低いビットレートの符号器に伴う上述した問題、及び一般に、損失、遅延、及び／又はジッタが伝送において発生し得るときに、宛先において信号の知覚される品質を改善するための符号器に対処する技術が必要である。

本発明の一態様によれば、符号化されたオーディオ信号から再生された信号をエンハンスする(enhance)システムにおいて、上記符号化されたオーディオ信号を受信し、復号されたオーディオ信号を発生するように設けられた復号器と、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも１つを受信し、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも１つから少なくとも１つの特徴を抽出するように設けられた特徴抽出手段と、上記少なくとも１つの特徴をエンハンス信号(enhancement signal)にマッピングし、上記エンハンス信号を発生しかつ出力するように動作するように設けられることにより、上記エンハンス信号は、上記復号されたオーディオ信号の周波数帯域内である周波数帯域を有するマッピング手段と、上記復号されたオーディオ信号及び上記エンハンス信号を受信し、上記エンハンス信号を上記復号されたオーディオ信号と混合するように設けられた混合手段とを備えたシステムを提供する。

一態様では、上記符号化されたオーディオ信号は符号化された音声信号であり、上記復号されたオーディオ信号は復号された音声信号である。

本発明のもう１つの態様によれば、符号化されたオーディオ信号から再生された信号をエンハンスする方法において、端末で上記符号化されたオーディオ信号を受信するステップと、復号されたオーディオ信号を発生するステップと、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも１つから少なくとも１つの特徴を抽出するステップと、上記少なくとも１つの特徴をエンハンス信号にマッピングし、上記エンハンス信号を発生することにより、上記エンハンス信号は、上記復号されたオーディオ信号の周波数帯域内である周波数帯域を有するステップと、上記エンハンス信号と上記復号されたオーディオ信号とを混合するステップとを含む方法を提供する。

本発明のより良い理解のため、及び本発明がどのように実施されるのかを示すために、例を用いて以下の図面への参照が行われる。

通信システムを示す。４５ｍｓの音声セグメントの例のパワースペクトルを示す。低いビットレートのわずかな符号器によって符号化される音声信号の知覚される品質を改善するシステムを示す。図３のシステムの実施形態を示す。

まず、本発明の一実施形態において利用される通信システム１００を示す図１を参照する。（“ユーザＡ”１０２で示される）通信システムの第１のユーザはユーザ端末１０４を操作し、ユーザ端末１０４はインターネットなどのネットワーク１０６に接続されていることが示されている。ユーザ端末１０４は、例えば、パーソナルコンピュータ（“ＰＣ”）、パーソナルデジタルアシスタント（“ＰＤＡ”）、携帯電話、ゲーム用デバイス、又はネットワーク１０６に接続することができる別の組み込みデバイスであってもよい。ユーザデバイスは、ユーザインタフェース手段を有し、デバイスのユーザから情報を受信し、かつデバイスのユーザに情報を出力する。本発明の好ましい一実施形態では、ユーザデバイスのインタフェース手段は、スクリーンなどの表示手段、及びキーボード及び／又はポインティングデバイスを備える。ユーザデバイス１０４は、モデム、アクセスポイント、又は基地局などのネットワークインタフェース１０８を介してネットワーク１０６に接続され、ユーザ端末１０４とネットワークインタフェース１０８との間の接続は、ケーブル（有線）接続又は無線接続を介するものであってもよい。

ユーザ端末１０４は、通信システムのオペレータによって提供されるクライアント１１０を実行している。クライアント１１０は、ユーザ端末１０４内のローカルプロセッサ上で実行されるソフトウェアプログラムである。ユーザ端末１０４はまた、ハンドセット１１２に接続され、ハンドセット１１２は、スピーカ及びマイクロフォンを備えて、従来の固定回線電話と同一の方法で音声通話において聞くこと、及び話すことを可能にする。ハンドセット１１２は、従来の電話のハンドセットの形式である必要はなく、統合されたマイクロフォンを有するヘッドホン又はイヤホンの形式であってもよく、又はユーザ端末１０４に独立に接続された別々のラウドスピーカ及びマイクロフォンであってもよい。クライアント１１０は、ネットワーク１０６を介して送信するために音声を符号化する、及びネットワーク１０６から受信される音声を復号するために利用される音声符号器／復号器を備える。

ネットワーク１０６を介した呼は、発呼者（例えば、ユーザＡ１０２）と被呼ユーザ（すなわち宛先、この場合ではユーザＢ１１４）との間で開始されてもよい。いくつかの実施形態では、呼のセットアップは、独占的なプロトコルを用いて実行され、発呼ユーザと被呼ユーザとの間のネットワーク１０６を介したルートは、中央サーバを使用することなくピアツーピアのパラダイムにしたがって決定される。しかしながら、これは一例にすぎず、ネットワーク１０６を介した通信の別の手段がまた可能である。

発呼者と被呼ユーザとの間の呼が確立した後、ユーザＡ１０２からの音声は、ハンドセット１１２によって受信され、ユーザ端末１０４に入力される。音声符号器を備えるクライアント１１０は音声を符号化し、音声はネットワークインタフェース１０８を介してネットワーク１０６を経由して送信される。符号化された音声信号は、ネットワークインタフェース１１６及びユーザ端末１１８にルーティングされる。ここで、（ユーザ端末１０４のクライアント１１０と同様であってもよい）クライアント１２０は、音声復号器を使用して、信号を復号しかつ音声を再生する。その後、音声はハンドセット１２２を用いてユーザ１１４によって聞かれる。

上述したように、通信ネットワーク１０６はインターネットであってもよく、通信はＶｏＩＰを用いて実行されてもよい。しかしながら、本明細書でより詳細に示され記述される例示的な通信システムは、ＶｏＩＰネットワークの用語を使用するが、本発明の実施形態は、データの転送を容易にする任意の別の適切な通信システムにおいて利用されてもよいことが認識されるべきである。例えば、本発明は、ＴＤＭＡ、ＣＤＭＡ、及びＷＣＤＭＡネットワークなどの移動体通信ネットワークにおいて利用されてもよい。

ある実施例では、ユーザＡ１０２とユーザＢ１１４との間の音声の低いビットレート送信（例えば、１６ｋｂｐｓ未満）のために、高調波の正弦波符号器(harmonic sinusoidal coder)などのモデルベースの音声符号器が利用されてもよい。例えば、図１のクライアント１１０及び１２０における音声符号器及び復号器は、低いビットレートのチャネル上の送信に適した非常にコンパクトな信号表現を形成するわずかな正弦波モデルを生成する正弦波符号器であってもよい。代替の実施例では、別のタイプの低いレートのわずかな表現音声符号器が使用されてもよい。しかしながら、上述したように、いくつかの音声音については、わずかなモデルは完全に適切ではない。図２に示したように、このようなモデリングのミスマッチの例が見られる。

図２は、４５ｍｓの音声セグメントの例のパワースペクトルを示す。破線２０２は元の音声のパワースペクトルを示し、実線２０４は、高調波の正弦波符号器を用いて符号化したときの音声のパワースペクトルを示す。符号化された信号のパワースペクトルは、元のパワースペクトルから著しく逸脱していることが明らかに見られる。このモデルのミスマッチの結果は、復号器から出力される音声が顕著な金属的なアーチファクトを含むことである。

ここで、低いビットレートのわずかな符号器によって符号化される音声信号の知覚される品質を改善するシステム３００を示す図３を参照する。図３に示されるシステムは、復号器で動作する。したがって、図１に示された実施例を参照すると、図３のシステムは、宛先のユーザ端末１１８のクライアント１２０に位置する。

一般に、図３のシステム３００は、すでに符号化された信号及び／又は復号された信号が、復号された信号と混合されるときに金属的なアーチファクトを軽減又は除去する人工信号を生成するために用いられる技術を利用する。したがって、これは知覚される品質を改善する。この解決法は人工混合信号（“ＡＭＳ”）と呼ばれる。受信機で復号された信号のみを用いて人工信号を生成することから、追加のビットを送信する必要はないが、これは追加の（仮想の）符号化レイヤと見なされる。別の実施形態では、ＡＭＳ信号の生成をさらに改善するいくつかの情報を記述する少数の追加のビットがまた、送信されてもよい。

さらに具体的には、図３のシステム３００は、復号器ですでに利用可能な情報に基づいて、復号された信号と同じ周波数帯域に存在する信号成分を人工的に発生する。例えば、低いビットレートの正弦波の符号化された信号の例のシナリオでは、ＡＭＳ方法は、正弦波復号器からの復号された信号を、より雑音のような特徴を有する人工的に発生された信号と混合する。これは、復号される音声信号の自然さを増加させる。

システム３００への入力３０２は、ネットワーク１０６を介して受信された符号化された音声信号である。例えば、音声信号は、元の音声信号のわずかな表現を与える低いレートの正弦波符号器を用いて符号化されてもよい。別の符号化の形式がまた、代替の実施形態で利用されてもよい。符号化された信号３０２は、符号化された信号を復号するように設けられた復号器３０４に入力される。例えば、符号化された信号が正弦波符号器を用いて符号化された場合、復号器３０４は、正弦波復号器である。復号器３０４の出力は、復号された信号３０６である。

符号化された信号３０２及び復号された信号３０６の両方は、特徴抽出ブロック３０８に入力される。特徴抽出ブロック３０８は、復号された信号３０６及び／又は符号化された信号３０２から一定の特徴を抽出するように設けられる。抽出される特徴は、人工信号を合成するように有利に使用される特徴である。抽出される特徴は、復号された信号の時間及び／又は周波数におけるエネルギーの包絡線、フォルマントのロケーション、スペクトルの形状、基本周波数又は正弦波の記述におけるそれぞれの高調波のロケーション、これらの高調波の振幅及び位相、（例えば、予期される雑音成分のフィルタ、又は時間及び／又は周波数包絡線による）雑音モデルを記述するパラメータ、及び時間及び／又は周波数における予期される雑音成分の知覚的な重要性（perceptual importance）の分布を記述するパラメータのうちの少なくとも１つを含むがこれに限定されない。このような特徴を抽出する目的は、復号された信号と混合されるべき人工信号を発生する方法についての情報を提供することである。これらの特徴の１つ又はそれ以上は、特徴抽出ブロック３０８によって抽出されてもよい。

抽出された特徴は特徴抽出ブロック３０８から出力され、特徴−信号マッピングブロック３１０に提供される。特徴−信号マッピングブロック３１０の機能は、抽出された特徴を利用し、復号された信号３０６を補完しかつエンハンスする信号にそれらの特徴をマッピングすることである。特徴−信号マッピングブロック３１０の出力は、人工的に発生された信号３１２と呼ばれる。

多くのタイプのマッピングが、特徴−信号マッピングブロック３１０によって利用されてもよい。例えば、マッピング動作のタイプは、隠れマルコフモデル（ＨＭＭ）、コードブックマッピング、ニューラルネットワーク、ガウス混合モデル、又は実際の音声信号をより良く模倣する洗練された推定量を構築する任意の別の適切に学習された統計的なマッピングのうちの少なくとも１つを含むがこれに限定されない。

さらに、いくつかの実施形態では、マッピング動作は、符号器及び／又は復号器からの設定及び情報によってガイドされてもよい。符号器及び／又は復号器からの設定及び情報は、制御ユニット３１４によって提供される。制御ユニット３１４は、設定及び情報を符号器及び／又は復号器から受信し、これらの設定及び情報は、信号のビットレート、フレームの分類（すなわち有声のフレーム又は過渡的なフレーム）、又は階層符号化方法のどの階層が送信されているのかを含んでもよいがこれに限定されない。これらの設定及び情報は、入力３１６で制御ユニット３１４に提供され、３１８で制御ユニット３１４から特徴−信号マッピングブロックに出力される。符号器及び／又は復号器からの情報及び設定は、特徴−信号マッピングブロック３１０によって使用されるマッピングのタイプを選択するために用いられてもよい。例えば、特徴−信号マッピングブロック３１０は、それぞれが異なるシナリオのために最適化されたいくつかの異なるタイプのマッピング動作を実装してもよい。制御ユニット３１４によって提供される情報は、特徴−信号マッピングブロック３１０が使用に最も適切なマッピング動作を決定することを可能にする。

代替の実施形態では、制御ユニット３１４が特徴抽出ブロック３０８内に統合されてもよく、制御情報が特徴情報とともに特徴−信号マッピングブロック３１０に直接的に提供されてもよい。

特徴−信号マッピングブロック３１０から出力される人工的に発生された信号３１２は、混合機能３２０に提供される。混合機能３２０は、復号された信号３０６を人工的に発生された信号３１２と混合して、元の音声信号により知覚的に類似する出力信号を発生する。

混合機能３２０は、制御ユニット３１４によって制御される。特に、制御ユニットは、（入力３１６から）符号器及び／又は復号器からの符号器の設定及び情報を利用して、例えば（時間及び周波数における）混合重み（混合重み付け係数）などの制御情報を信号３２２において混合機能３２０に提供する。制御ユニット３１４はまた、混合機能３２０のための制御情報を決定するときに、信号３２４において特徴抽出ブロック３０８によって提供される抽出された特徴の情報を利用することができる。

最も簡単な場合、混合機能３２０は、復号された信号３０６と人工的に発生された信号３１２との加重和を実装してもよい。しかしながら、有利な実施形態では、混合機能３２０は、フィルタバンク又は別のフィルタ構造を利用して、時間及び周波数の両方において信号の混合を制御してもよい。

別の有利な実施形態では、混合機能３２０は、元の信号の既知の構造を利用するために、復号された信号又は符号化された信号からの情報を使用するように適合されてもよい。例えば、有声の音声信号及び正弦波の符号化の場合、多数の正弦波がピッチ高調波に置かれ、雑音（すなわち人工的に発生された信号３１２）は、これらの場合、これらの高調波のそれぞれのピークからこれらの高調波の間のスペクトルの谷間に向けて次第に減少する重みスロープ(weight-slopes)又はフィルタを用いて混合されてもよい。それぞれの正弦波についての情報は、図３に示されるように入力として混合機能３２０に提供されてもよい符号化された信号３０２に含まれる。

さらに、符号化された信号又は復号された信号（３０２，３０６）からの情報は、復号された信号３０６がすでに元の信号の正確な表現である場合に、人工的に発生された信号３１２が復号された信号３０６を劣化させることを回避するために使用されてもよい。例えば、復号された信号３０６が、わずかなベースで元の信号の表現として得られた場合、人工的に発生された信号３１２は、主としてわずかなベースに対する直交補空間(orthogonal complement)において混合されてもよい。

代替の実施形態では、高調波のフィルタリング及び／又は直交補空間への投射(projection)は、混合機能３２０ではなく特徴−信号マッピングブロック３１０の一部として実行されてもよい。

混合機能の出力は人工混合信号３２６であり、人工混合信号３２６では、復号された信号３０６よりもより高い知覚される品質を有する信号を発生するように、復号された信号３０６及び人工的に発生された信号３１２が混合される。特に、金属的なアーチファクトが減少する。

図３を参照して上述した、すでに符号化された信号及び／又は復号された信号が、復号された信号と混合される人工信号を発生するために利用される技術は、帯域幅拡大（“ＢＷＥ”）の分野で利用される技術と類似している。帯域幅拡大はまた、スペクトル帯域幅複製（“ＳＢＲ”）として知られている。ＢＷＥにおける目的は、狭帯域の音声（例えば０．３−３．４ｋＨｚの帯域幅）から広帯域の音声（例えば０−８ｋＨｚの帯域幅）を再生成することである。しかしながら、ＢＷＥでは、人工信号は拡大されたより高い又はより低い帯域において発生される。図３の技術の場合では、人工信号は、符号化された／復号された信号と同一の周波数帯域において発生され混合される。

さらに、時間及び周波数成形された雑音モデルが、音声モデリングのコンテキスト及びパラメトリックオーディオ符号化のコンテキストの両方において使用される。しかしながら、これらのアプリケーションは一般に、この雑音の時間ロケーション及び周波数ロケーションの別々の符号化及び送信を利用する。一方、図３に示した技術は、有声の音声の既知の構造を積極的に利用する。これは、上述した技術が、別々の符号化及び送信なしに、符号化された信号及び復号された信号から完全に又はほぼ完全に人工雑音信号を発生する（例えば、雑音成分の時間包絡線及び／又は周波数包絡線を抽出する）ことを可能にする。余分のビットが送信されることなく（又はごくわずかの余分のビットが送信されることで）人工的に発生された信号が得られることは、符号化された信号及び復号された信号からのこの抽出による。例えば、少数の余分のビットが、ＡＭＳ方法の動作をさらにエンハンスするために送信されてもよく、余分のビットは、雑音成分のゲイン又はレベルを示し、雑音成分の概略のスペクトル形状及び／又は時間的形状を提供し、かつ成形のためのファクタ又はパラメータを高調波に提供する。

上述したように、図３はＡＭＳ方法を実装するシステムの一般的な場合を示している。図３の一般的なシステムのより詳細な実施形態を示す図４を参照する。さらに具体的には、図４に示したシステム４００では、特徴は復号された信号の時間上のエネルギーの包絡線の記述を形成し、人工信号は特徴を用いてガウス雑音を変調することによって発生される。

図４に示したシステム４００は、全体システムの宛先端末で動作する。例えば、図１を参照すると、システム４００は、宛先ユーザ端末１１８のクライアント１２０に位置する。システム４００は、通信ネットワーク１０６を介して受信される符号化された信号３０２を入力として受信する。図３のシステムと同様に、符号化された信号３０２は、復号器３０４を用いて復号される。

復号された信号３０４は、復号された信号３０４の絶対値を出力する絶対値関数４０２に提供される。この信号はハン窓関数４０４を用いて畳み込まれる。絶対値を求め、ハン窓を用いて畳み込んだ結果は、復号された信号３０６の滑らかなエネルギー包絡線４０６である。絶対値関数４０２とハン窓４０４との組み合わせは、本明細書で上述した図３の特徴抽出ブロック３０８の機能を実行し、滑らかなエネルギー包絡線４０６が、抽出された特徴である。好ましい例示的な一実施形態では、ハン窓は１０個のサンプルのサイズを有する。

復号された信号の滑らかなエネルギー包絡線４０６は、ガウスランダム雑音と乗算されて、変調された雑音信号４０８を発生する。ガウスランダム雑音は、乗算器４１２に接続されたガウス雑音発生器４１０によって発生される。乗算器４１２はまた、ハン窓４０４から入力を受信する。その後、変調された雑音信号４０８は、ハイパスフィルタ４１４を用いてフィルタリングされて、フィルタリングされた変調された雑音信号４１６を発生する。ガウス雑音発生器４１０、乗算器４１２、及びハイパスフィルタ４１４の組み合わせは、図３を参照して上述された特徴−信号マッピングブロック３１０の機能を実行する。フィルタリングされた変調された雑音信号４１６は、図３の人工的に発生された信号３１２と同等である。

フィルタリングされた変調された雑音信号４１６は、エネルギー整合及び信号混合ブロック４１８に提供される。エネルギー整合及び信号混合ブロック４１８はまた、ハイパスフィルタ４２２が復号された信号３０６をフィルタリングすることによって発生されるハイパスフィルタでフィルタリングされた信号４２０を入力として受信する。ブロック４１８は、フィルタリングされた変調された雑音信号４１６におけるエネルギーとハイパスフィルタでフィルタリングされた信号４２０におけるエネルギーとを整合する。

エネルギー整合及び信号混合ブロック４１８はまた、制御ユニット３１４の制御の下で、フィルタリングされた変調された雑音信号４１６とハイパスフィルタでフィルタリングされた信号４２０とを混合する。特に、混合器に適用される重み付けは、制御ユニット３１４によって制御され、ビットレートに依存する。好ましい実施形態では、制御ユニット３１４は、ビットレートを監視し、フィルタリングされた変調された雑音信号４１６の効果が、レートが上昇するにつれてより小さくなるように混合重みを適合させる。好ましくは、フィルタリングされた変調された雑音信号４１６の効果は主に、レートが上昇するにつれて、混合から消されていく（すなわち、ＡＭＳシステムの全体の効果が最小限である）。

エネルギー整合及び信号混合ブロック４１８の出力４２４は、加算器４２６に提供される。加算器はまた、復号された信号３０６を、ローパスフィルタ４３０を用いてフィルタリングすることによって発生されるローパスフィルタでフィルタリングされた信号４２８を入力として受信する。したがって、加算器４２６の出力信号４３２は、低い周波数の復号された信号４２８と高い周波数の混合された人工的に発生された信号との和である。信号４３２は、復号された音声信号３０６よりもより多くの雑音のような特徴を有し、音声の知覚される自然さ及び品質が向上しているＡＭＳ信号である。

本発明は、復号された信号の知覚される品質が人工的に発生された信号を用いて向上させられる例の実施形態を参照して記述されたが、本発明は、伝送における損失又は遅延を隠蔽するときに結果として生じるような隠蔽信号に同様に適用されることが、当業者には理解されるであろう。例えば、１つ又はそれ以上のデータフレームがチャネルにおいて損失又は遅延したとき、隠蔽信号が復号器によって隣接するフレームから外挿又は内挿によって発生されて、損失したフレームを置換する。隠蔽信号は、金属的なアーチファクトを生じやすいので、特徴が隠蔽信号から抽出され、人工信号が発生され、隠蔽信号と混合されて金属的なアーチファクトを緩和してもよい。

さらに、本発明はまた、ジッタが検出され、その後に伸張される信号、又はジッタを補償するために挿入されたフレームを有する信号に適用される。伸張された信号又は挿入されたフレームは、金属的なアーチファクトを生じやすいので、特徴が伸張された信号又は挿入された信号から抽出され、人工信号が発生され、隠蔽信号と混合されて金属的なアーチファクトの効果を減少させる。

さらに、本発明は特に、好ましい実施形態を参照して示されかつ記述されたが、形式及び詳細におけるさまざまな変更が、付随する特許請求の範囲によって定義される本発明の範囲から逸脱することなく行われてもよいことが当業者には理解されるであろう。

Claims

符号化されたオーディオ信号から再生された信号をエンハンスするシステムにおいて、
上記符号化されたオーディオ信号を受信し、復号されたオーディオ信号を発生するように設けられた復号器と、
上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも１つを受信し、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも１つから少なくとも１つの特徴を抽出するように設けられた特徴抽出手段と、
上記少なくとも１つの特徴をエンハンス信号にマッピングし、上記エンハンス信号を発生しかつ出力するように動作するように設けられることにより、上記エンハンス信号は、上記復号されたオーディオ信号の周波数帯域内である周波数帯域を有するマッピング手段と、
上記復号されたオーディオ信号及び上記エンハンス信号を受信し、上記エンハンス信号を上記復号されたオーディオ信号と混合するように設けられた混合手段とを備えたシステム。
上記符号化されたオーディオ信号は符号化された音声信号であり、上記復号されたオーディオ信号は復号された音声信号である請求項１記載のシステム。
上記符号化されたオーディオ信号は、モデルベースの音声符号器を用いて符号化される請求項１又は２記載のシステム。
上記復号器は、モデルベースの音声復号器である請求項３記載のシステム。
上記モデルベースの音声符号器は、高調波の正弦波音声符号器である請求項３又は４記載のシステム。
上記モデルベースの音声復号器は、高調波の正弦波音声復号器である請求項４又は５記載のシステム。
上記エンハンス信号は、上記復号されたオーディオ信号と比較して雑音のようである請求項１から６のうちのいずれか１つの請求項記載のシステム。
上記特徴抽出手段によって抽出される上記少なくとも１つの特徴は、上記復号されたオーディオ信号のエネルギーの包絡線である請求項１から７のうちのいずれか１つの請求項記載のシステム。
上記特徴抽出手段は、
上記復号されたオーディオ信号の絶対値を決定するように設けられた絶対値機能と、
上記復号されたオーディオ信号の上記絶対値を受信し、上記絶対値を畳み込んで上記復号されたオーディオ信号の上記エネルギーの包絡線を決定するように設けられた畳み込み機能とを備えた請求項８記載のシステム。
上記マッピング手段は、ガウス雑音発生器及び乗算器を備え、
上記乗算器は、上記ガウス雑音発生器からのガウス雑音信号と上記特徴とを乗算して、上記エンハンス信号を発生するように設けられた請求項８又は９記載のシステム。
上記マッピング手段はさらに、上記乗算器の出力をフィルタリングするように設けられたハイパスフィルタを備えた請求項１０記載のシステム。
上記混合手段は、上記復号されたオーディオ信号におけるエネルギーと上記エンハンス信号におけるエネルギーとを整合するように設けられたエネルギー整合手段を備えた請求項１１記載のシステム。
上記混合手段はさらに、混合器を備えた請求項１２記載のシステム。
上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも１つについての情報を受信し、上記情報を使用してマッピングのタイプを選択しかつ上記マッピングのタイプを上記マッピング手段に提供するように設けられた制御手段をさらに備えた請求項１から１３のうちのいずれか１つの請求項記載のシステム。
上記制御手段はさらに、混合器制御情報を生成し、上記混合器制御情報を上記混合手段に提供するように設けられた請求項１４記載のシステム。
上記混合器制御情報は、混合重みを備えた請求項１５記載のシステム。
上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも１つから抽出された上記少なくとも１つの特徴は、フォルマントのロケーション、スペクトルの形状、基本周波数、正弦波の記述におけるそれぞれの高調波のロケーション、高調波の振幅及び位相、雑音モデル、及び時間及び／又は周波数における予期される雑音成分の知覚的な重要性の分布を記述するパラメータのうちの少なくとも１つを含む請求項１から７のうちのいずれか１つの請求項記載のシステム。
上記マッピング手段は、隠れマルコフモデル、コードブックマッピング、ニューラルネットワーク、及びガウス混合モデルのうちの少なくとも１つを用いて、上記少なくとも１つの特徴をエンハンス信号にマッピングするように設けられた請求項１から７のうちのいずれか１つの請求項記載のシステム。
上記混合手段はさらに、
上記符号化されたオーディオ信号を受信し、
上記符号化されたオーディオ信号から少なくとも１つの高調波のロケーションを決定し、
上記少なくとも１つの高調波のロケーションに基づいて、上記エンハンス信号と上記復号されたオーディオ信号との混合を適合させるように設けられた請求項１から１８のうちのいずれか１つの請求項記載のシステム。
上記符号化されたオーディオ信号は、端末において通信ネットワークから受信される請求項１から１９のうちのいずれか１つの請求項記載のシステム。
上記通信ネットワークは、ピアツーピア通信ネットワークである請求項２０記載のシステム。
上記符号化されたオーディオ信号は、ボイスオーバーインターネットプロトコルのデータパケット内で受信される請求項１から２１のうちのいずれか１つの請求項記載のシステム。
上記復号器はさらに、
上記符号化されたオーディオ信号からフレームが損失したことを決定する手段と、
それに応じて、上記符号化されたオーディオ信号の少なくとも１つの別のフレームから上記復号されたオーディオ信号を発生する手段とを備えた請求項１記載のシステム。
上記発生する手段は、上記少なくとも１つの別のフレームから上記復号されたオーディオ信号を内挿する手段を備えた請求項２３記載のシステム。
上記発生する手段は、上記少なくとも１つの別のフレームから上記復号されたオーディオ信号を外挿する手段を備えた請求項２３記載のシステム。
上記復号器はさらに、
上記符号化されたオーディオ信号におけるパケット待ち時間のジッタを検出する手段と、
上記ジッタによる歪みが減少するように上記復号されたオーディオ信号を発生する手段とを備えた請求項１記載のシステム。
上記発生する手段はさらに、上記復号されたオーディオ信号を伸張して、上記歪みを補償する手段を備えた請求項２６記載のシステム。
上記発生する手段はさらに、上記復号されたオーディオ信号にフレームを挿入して、上記歪みを補償する手段を備えた請求項２６記載のシステム。
上記システムは、上記符号化されたオーディオ信号から再生された上記信号の知覚される品質をエンハンスする請求項１から２８のうちのいずれか１つの請求項記載のシステム。
符号化されたオーディオ信号から再生された信号をエンハンスする方法において、
端末で上記符号化されたオーディオ信号を受信するステップと、
復号されたオーディオ信号を発生するステップと、
上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも１つから少なくとも１つの特徴を抽出するステップと、
上記少なくとも１つの特徴をエンハンス信号にマッピングし、上記エンハンス信号を発生することにより、上記エンハンス信号は、上記復号されたオーディオ信号の周波数帯域内である周波数帯域を有するステップと、
上記エンハンス信号と上記復号されたオーディオ信号とを混合するステップとを含む方法。
上記符号化されたオーディオ信号は符号化された音声信号であり、上記復号されたオーディオ信号は復号された音声信号である請求項３０記載の方法。
上記符号化されたオーディオ信号は、モデルベースの音声符号器を用いて符号化される請求項３０又は３１記載の方法。
上記復号されたオーディオ信号を発生するステップは、モデルベースの音声復号器を用いて上記符号化されたオーディオ信号を復号するステップを含む請求項３２記載の方法。
上記モデルベースの音声符号器は、高調波の正弦波音声符号器である請求項３２又は３３記載の方法。
上記モデルベースの音声復号器は、高調波の正弦波音声復号器である請求項３３又は３４記載の方法。
上記エンハンス信号は、上記復号されたオーディオ信号と比較して雑音のようである請求項３０から３５のうちのいずれか１つの請求項記載の方法。
上記特徴抽出手段によって抽出される上記少なくとも１つの特徴は、上記復号されたオーディオ信号のエネルギーの包絡線である請求項３０から３６のうちのいずれか１つの請求項記載の方法。
上記抽出するステップは、
上記復号されたオーディオ信号の絶対値を決定するステップと、
上記復号されたオーディオ信号の上記絶対値を畳み込んで、上記復号されたオーディオ信号の上記エネルギーの包絡線を決定するステップとを含む請求項３７記載の方法。
上記マッピングするステップは、
ガウス雑音信号を発生するステップと、
上記ガウス雑音信号と上記特徴とを乗算して、上記エンハンス信号を発生するステップとを含む請求項３７又は３８記載の方法。
上記マッピングするステップはさらに、上記乗算器の出力をハイパスフィルタでフィルタリングするステップを含む請求項３９記載の方法。
上記混合するステップは、上記復号されたオーディオ信号におけるエネルギーと上記エンハンス信号におけるエネルギーとを整合するステップを含む請求項４０記載の方法。
上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも１つについての情報を制御手段で受信するステップと、
上記情報を使用して、マッピングのタイプを選択するステップと、
上記マッピングするステップにおいて、上記マッピングのタイプを適用するステップとをさらに含む請求項３０から４１のうちのいずれか１つの請求項記載の方法。
上記制御手段で混合器制御情報を生成するステップと、
上記混合するステップにおいて、上記混合器制御情報を利用するステップとをさらに含む請求項４２記載の方法。
上記混合器制御情報は、混合重みを備えた請求項４３記載の方法。
上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも１つから抽出された上記少なくとも１つの特徴は、フォルマントのロケーション、スペクトルの形状、基本周波数、正弦波の記述におけるそれぞれの高調波のロケーション、高調波の振幅及び位相、雑音モデル、及び時間及び／又は周波数における予期される雑音成分の知覚的な重要性の分布を記述するパラメータのうちの少なくとも１つを含む請求項３０から３６のうちのいずれか１つの請求項記載の方法。
上記マッピングするステップは、隠れマルコフモデル、コードブックマッピング、ニューラルネットワーク、及びガウス混合モデルのうちの少なくとも１つを用いて、上記少なくとも１つの特徴をエンハンス信号にマッピングするステップを含む請求項３０から３６のうちのいずれか１つの請求項記載の方法。
上記混合するステップは、
上記符号化されたオーディオ信号を受信するステップと、
上記符号化されたオーディオ信号から少なくとも１つの高調波のロケーションを決定するステップと、
上記少なくとも１つの高調波のロケーションに基づいて、上記エンハンス信号と上記復号されたオーディオ信号との混合を適合させるステップとを含む請求項３０から４６のうちのいずれか１つの請求項記載の方法。
上記符号化されたオーディオ信号は、端末において通信ネットワークから受信される請求項３０から４７のうちのいずれか１つの請求項記載の方法。
上記通信ネットワークは、ピアツーピア通信ネットワークである請求項４８記載の方法。
上記符号化されたオーディオ信号は、ボイスオーバーインターネットプロトコルのデータパケット内で受信される請求項３０から４９のうちのいずれか１つの請求項記載の方法。
上記復号されたオーディオ信号を発生するステップはさらに、
上記符号化されたオーディオ信号からフレームが損失したことを決定するステップと、
それに応じて、上記符号化されたオーディオ信号の少なくとも１つの別のフレームから上記復号されたオーディオ信号を発生するステップとを含む請求項３０記載の方法。
上記発生するステップは、上記少なくとも１つの別のフレームから上記復号されたオーディオ信号を内挿するステップを含む請求項５１記載の方法。
上記発生するステップは、上記少なくとも１つの別のフレームから上記復号されたオーディオ信号を外挿するステップを含む請求項５１記載の方法。
上記復号されたオーディオ信号を発生するステップはさらに、
上記符号化されたオーディオ信号におけるパケット待ち時間のジッタを検出するステップと、
上記ジッタによる歪みが減少するように上記復号されたオーディオ信号を発生するステップとを含む請求項３０記載の方法。
上記発生するステップは、上記復号されたオーディオ信号を伸張して、上記歪みを補償するステップを含む請求項５４記載の方法。
上記発生するステップは、上記復号されたオーディオ信号にフレームを挿入して、上記歪みを補償するステップを含む請求項５４記載の方法。
上記方法は、上記符号化されたオーディオ信号から再生された上記信号の知覚される品質をエンハンスする請求項３０から５６のうちのいずれか１つの請求項記載の方法。