本発明の実施例は、通信帯域幅を節約することができる信号符号化方法及びデバイスを提供する。
第1の態様によれば、信号符号化方法が提供され、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームが静音記述(SID)フレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定するステップであり、現在の入力フレームは静音フレームであるステップと、コンフォートノイズと実際の静音信号との間の逸脱度を決定するステップと、逸脱度に従って現在の入力フレームの符号化方式を決定するステップであり、現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含むステップと、現在の入力フレームの符号化方式に従って現在の入力フレームを符号化するステップとを含む。
第1の態様を参照して、第1の可能な実現方式では、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定するステップは、コンフォートノイズの特徴パラメータを予測し、実際の静音信号の特徴パラメータを決定するステップであり、コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと1対1の対応関係にあるステップを含み、コンフォートノイズと実際の静音信号との間の逸脱度を決定するステップは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定するステップを含む。
第1の態様の第1の可能な実現方式を参照して、第2の可能な実現方式では、逸脱度に従って現在の入力フレームの符号化方式を決定するステップは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定するステップであり、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離は、閾値集合の中の閾値と1対1の対応関係にあるステップと、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定するステップとを含む。
第1の態様の第1の可能な実現方式又は第2の可能な実現方式を参照して、第3の可能な実現方式では、コンフォートノイズの特徴パラメータは、エネルギー情報及びスペクトル情報の情報のうち少なくとも1つを表すために使用される。
第1の態様の第3の可能な実現方式を参照して、第4の可能な実現方式では、エネルギー情報は、符号励振線形予測(CELP)励振エネルギーを含み、スペクトル情報は、線形予測フィルタ係数、高速フーリエ変換(FFT)係数及び修正離散コサイン変換(MDCT)係数のうち少なくとも1つを含み、線形予測フィルタ係数は、線スペクトル周波数(LSF)係数、線スペクトル対(LSP)係数、イミタンススペクトル周波数(ISF)係数、イミタンススペクトル対(ISP)係数、反射係数及び線形予測符号化(LPC)係数のうち少なくとも1つを含む。
第1の態様の第1の可能な実現方式から第4の可能な実現方式のいずれかの実現方式を参照して、第5の可能な実現方式では、コンフォートノイズの特徴パラメータを予測するステップは、現在の入力フレームの前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測するステップ、又は現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測するステップであり、Lは正の整数であるステップを含む。
第1の態様の第1の可能な実現方式から第5の可能な実現方式のいずれかの実現方式を参照して、第6の可能な実現方式では、実際の静音信号の特徴パラメータを決定するステップは、現在の入力フレームの特徴パラメータが実際の静音信号の特徴パラメータであると決定するステップ、又は実際の静音信号の特徴パラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集するステップを含む。
第1の態様の第6の可能な実現方式を参照して、第7の可能な実現方式では、M個の静音フレームは、現在の入力フレームと、現在の入力フレームの前の(M-1)個の静音フレームとを含み、Mは正の整数である。
第1の態様の第2の可能な実現方式を参照して、第8の可能な実現方式では、コンフォートノイズの特徴パラメータは、コンフォートノイズの符号励振線形予測(CELP)励振エネルギー及びコンフォートノイズの線スペクトル周波数(LSF)係数を含み、実際の静音信号の特徴パラメータは、実際の静音信号のCELP励振エネルギー及び実際の静音信号のLSF係数を含み、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定するステップは、コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定するステップを含む。
第1の態様の第8の可能な実現方式を参照して、第9の可能な実現方式では、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定するステップは、距離Deが第1の閾値未満であり、距離Dlsfが第2の閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定するステップを含み、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定するステップは、距離Deが第1の閾値以上であるか、或いは距離Dlsfが第2の閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定するステップを含む。
第1の態様の第9の可能な実現方式を参照して、第10の可能な実現方式では、この方法は、予め設定された第1の閾値及び予め設定された第2の閾値を取得するステップ、又は現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第1の閾値を決定し、N個の静音フレームのLSF係数に従って第2の閾値を決定するステップであり、Nは正の整数であるステップを更に含む。
第1の態様又は第1の態様の第1の可能な実現方式から第10の可能な実現方式のいずれかの実現方式を参照して、第11の可能な実現方式では、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測するステップは、第1の予測方式でコンフォートノイズを予測するステップであり、第1の予測方式は、デコーダがコンフォートノイズを生成する方式と同じであるステップを含む。
第2の態様によれば、信号処理方法が提供され、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離を決定するステップであり、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームと他の(P-1)個の静音フレームとの間の加重スペクトル距離の和であり、Pは正の整数であるステップと、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って第1のスペクトルパラメータを決定するステップであり、第1のスペクトルパラメータは、コンフォートノイズを生成するために使用されるステップとを含む。
第2の態様を参照して、第1の可能な実現方式では、各静音フレームは、重み係数の1つのグループに対応し、重み係数の1つのグループにおいて、サブバンドの第1のグループに対応する重み係数は、サブバンドの第2のグループに対応する重み係数より大きく、サブバンドの第1のグループの知覚重要度は、サブバンドの第2のグループの知覚重要度より大きい。
第2の態様又は第2の態様の第1の可能な実現方式を参照して、第2の可能な実現方式では、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って第1のスペクトルパラメータを決定するステップは、P個の静音フレームの中の第1の静音フレームのグループ加重スペクトル距離が最小になるように、P個の静音フレームから第1の静音フレームを選択するステップと、第1の静音フレームのスペクトルパラメータが第1のスペクトルパラメータであると決定するステップとを含む。
第2の態様又は第2の態様の第1の可能な実現方式を参照して、第3の可能な実現方式では、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って第1のスペクトルパラメータを決定するステップは、P個の静音フレームの中の少なくとも1つの静音フレームのグループ加重スペクトル距離が第3の閾値未満になるように、P個の静音フレームから少なくとも1つの静音フレームを選択するステップと、少なくとも1つの静音フレームのスペクトルパラメータに従って第1のスペクトルパラメータを決定するステップとを含む。
第2の態様又は第2の態様の第1の可能な実現方式から第3の可能な実現方式のいずれかの実現方式を参照して、第4の可能な実現方式では、P個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(P-1)個の静音フレームとを含む。
第2の態様の第4の可能な実現方式を参照して、第5の可能な実現方式では、この方法は、現在の入力静音フレームを静音記述(SID)フレームに符号化するステップであり、SIDフレームは、第1のスペクトルパラメータを含むステップを更に含む。
第3の態様によれば、信号処理方法が提供され、入力信号の周波数帯域をR個のサブバンドに分割するステップであり、Rは正の整数であるステップと、R個のサブバンドの各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離を決定するステップであり、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離は、各サブバンドにおけるS個の静音フレームの中の各静音フレームと他の(S-1)個の静音フレームとの間のスペクトル距離の和であり、Sは正の整数であるステップと、各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従って各サブバンドの第1のスペクトルパラメータを決定するステップであり、各サブバンドの第1のスペクトルパラメータは、コンフォートノイズを生成するために使用されるステップとを含む。
第3の態様を参照して、第1の可能な実現方式では、各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従って各サブバンドの第1のスペクトルパラメータを決定するステップは、各サブバンドにおいてS個の静音フレームの中の第1の静音フレームのサブバンドグループスペクトル距離が最小になるように、各サブバンドにおいて、S個の静音フレームから第1の静音フレームを選択するステップと、各サブバンドにおいて、第1の静音フレームのスペクトルパラメータが各サブバンドの第1のスペクトルパラメータであると決定するステップとを含む。
第3の態様を参照して、第2の可能な実現方式では、各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従って各サブバンドの第1のスペクトルパラメータを決定するステップは、少なくとも1つの静音フレームのサブバンドグループスペクトル距離が第4の閾値未満になるように、各サブバンドにおいて、S個の静音フレームから少なくとも1つの静音フレームを選択するステップと、各サブバンドにおいて、少なくとも1つの静音フレームのスペクトルパラメータに従って各サブバンドの第1のスペクトルパラメータを決定するステップとを含む。
第3の態様、又は第3の態様の第1の可能な実現方式若しくは第2の可能な実現方式を参照して、第3の可能な実現方式では、S個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(S-1)個の静音フレームとを含む。
第3の態様の第3の可能な実現方式を参照して、第4の可能な実現方式では、この方法は、現在の入力静音フレームを静音記述(SID)フレームに符号化するステップであり、SIDフレームは、各サブバンドの第1のスペクトルパラメータを含むステップを更に含む。
第4の態様によれば、信号処理方法が提供され、T個の静音フレームの中の各静音フレームの第1のパラメータを決定するステップであり、第1のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数であるステップと、T個の静音フレームの中の各静音フレームの第1のパラメータに従って第1のスペクトルパラメータを決定するステップであり、第1のスペクトルパラメータは、コンフォートノイズを生成するために使用されるステップとを含む。
第4の態様を参照して、第1の可能な実現方式では、T個の静音フレームの中の各静音フレームの第1のパラメータに従って第1のスペクトルパラメータを決定するステップは、T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ることが決定された場合、静音フレームの第1のグループのスペクトルパラメータに従って第1のスペクトルパラメータを決定するステップであり、静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きいステップと、T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ないことが決定された場合、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行するステップであり、静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きいステップとを含む。
第4の態様の第1の可能な実現方式を参照して、第2の可能な実現方式では、クラスタ化基準は、静音フレームの第1のグループの中の各静音フレームの第1のパラメータと第1の平均値との間の距離が静音フレームの第1のグループの中の各静音フレームの第1のパラメータと第2の平均値との間の距離以下であること、静音フレームの第2のグループの中の各静音フレームの第1のパラメータと第2の平均値との間の距離が静音フレームの第2のグループの中の各静音フレームの第1のパラメータと第1の平均値との間の距離以下であること、第1の平均値と第2の平均値との間の距離が静音フレームの第1のグループの第1のパラメータと第1の平均値との間の平均距離より大きいこと、及び第1の平均値と第2の平均値との間の距離が静音フレームの第2のグループの第1のパラメータと第2の平均値との間の平均距離より大きいことを含み、第1の平均値は、静音フレームの第1のグループの第1のパラメータの平均値であり、第2の平均値は、静音フレームの第2のグループの第1のパラメータの平均値である。
第4の態様を参照して、第3の可能な実現方式では、T個の静音フレームの中の各静音フレームの第1のパラメータに従って第1のスペクトルパラメータを決定するステップは、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行するステップであり、異なる第iの静音フレーム及び第jの静音フレームについて、T個の静音フレームの中で、第iの静音フレームに対応する重み係数は、第jの静音サブフレームに対応する重み係数以上であり、第1のパラメータがスペクトルエントロピーに正相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータより大きく、第1のパラメータがスペクトルエントロピーに負相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータ未満であり、i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tであるステップを含む。
第4の態様又は第4の態様の第1の可能な実現方式から第3の可能な実現方式のいずれかの実現方式を参照して、第4の可能な実現方式では、T個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(T-1)個の静音フレームとを含む。
第4の態様の第4の可能な実現方式を参照して、第5の可能な実現方式では、この方法は、現在の入力静音フレームを静音記述(SID)フレームに符号化するステップであり、SIDフレームは、第1のスペクトルパラメータを含むステップを更に含む。
第5の態様によれば、信号符号化デバイスが提供され、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームが静音記述(SID)フレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定するように構成された第1の決定ユニットであり、現在の入力フレームは静音フレームである第1の決定ユニットと、第1の決定ユニットにより決定されたコンフォートノイズと第1の決定ユニットにより決定された実際の静音信号との間の逸脱度を決定するように構成された第2の決定ユニットと、第2の決定ユニットにより決定された逸脱度に従って現在の入力フレームの符号化方式を決定するように構成された第3の決定ユニットであり、現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含む第3の決定ユニットと、第3の決定ユニットにより決定された現在の入力フレームの符号化方式に従って現在の入力フレームを符号化するように構成された符号化ユニットとを含む。
第5の態様を参照して、第1の可能な実現方式では、第1の決定ユニットは、コンフォートノイズの特徴パラメータを予測し、実際の静音信号の特徴パラメータを決定するように具体的に構成され、コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと1対1の対応関係にあり、第2の決定ユニットは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定するように具体的に構成される。
第5の態様の第1の可能な実現方式を参照して、第2の可能な実現方式では、第3の決定ユニットは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定するように具体的に構成され、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離は、閾値集合の中の閾値と1対1の対応関係にあり、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定するように具体的に構成される。
第5の態様の第1の可能な実現方式又は第2の可能な実現方式を参照して、第3の可能な実現方式では、第1の決定ユニットは、現在の入力フレームの前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測するように、或いは現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測するように具体的に構成され、Lは正の整数である。
第5の態様の第1の可能な実現方式、第2の可能な実現方式又は第3の可能な実現方式を参照して、第4の可能な実現方式では、第1の決定ユニットは、現在の入力フレームの特徴パラメータが実際の静音信号のパラメータであると決定するように、或いは実際の静音信号のパラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集するように具体的に構成される。
第5の態様の第2の可能な実現方式を参照して、第5の可能な実現方式では、コンフォートノイズの特徴パラメータは、コンフォートノイズの符号励振線形予測(CELP)励振エネルギー及びコンフォートノイズの線スペクトル周波数(LSF)係数を含み、実際の静音信号の特徴パラメータは、実際の静音信号のCELP励振エネルギー及び実際の静音信号のLSF係数を含み、第2の決定ユニットは、コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定するように具体的に構成される。
第5の態様の第5の可能な実現方式を参照して、第6の可能な実現方式では、第3の決定ユニットは、距離Deが第1の閾値未満であり、距離Dlsfが第2の閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定するように具体的に構成され、第3の決定ユニットは、距離Deが第1の閾値以上であるか、或いは距離Dlsfが第2の閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定するように具体的に構成される。
第5の態様の第6の可能な実現方式を参照して、第7の可能な実現方式では、このデバイスは、予め設定された第1の閾値及び予め設定された第2の閾値を取得するように、或いは現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第1の閾値を決定し、N個の静音フレームのLSF係数に従って第2の閾値を決定するように構成された第4の決定ユニットを更に含み、Nは正の整数である。
第5の態様又は第5の態様の第1の可能な実現方式から第7の可能な実現方式のいずれかの実現方式を参照して、第8の可能な実現方式では、第1の決定ユニットは、第1の予測方式でコンフォートノイズを予測するように具体的に構成され、第1の予測方式は、デコーダがコンフォートノイズを生成する方式と同じである。
第6の態様によれば、信号処理デバイスが提供され、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離を決定するように構成された第1の決定ユニットであり、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームと他の(P-1)個の静音フレームとの間の加重スペクトル距離の和であり、Pは正の整数である第1の決定ユニットと、P個の静音フレームの中の各静音フレームの、第1の決定ユニットにより決定されたグループ加重スペクトル距離に従って第1のスペクトルパラメータを決定するように構成された第2の決定ユニットであり、第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される第2の決定ユニットとを含む。
第6の態様を参照して、第1の可能な実現方式では、第2の決定ユニットは、P個の静音フレームの中の第1の静音フレームのグループ加重スペクトル距離が最小になるように、P個の静音フレームから第1の静音フレームを選択し、第1の静音フレームのスペクトルパラメータが第1のスペクトルパラメータであると決定するように具体的に構成される。
第6の態様を参照して、第2の可能な実現方式では、第2の決定ユニットは、P個の静音フレームの中の少なくとも1つの静音フレームのグループ加重スペクトル距離が第3の閾値未満になるように、P個の静音フレームから少なくとも1つの静音フレームを選択し、少なくとも1つの静音フレームのスペクトルパラメータに従って第1のスペクトルパラメータを決定するように具体的に構成される。
第6の態様、又は第6の態様の第1の可能な実現方式若しくは第2の可能な実現方式を参照して、第3の可能な実現方式では、P個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(P-1)個の静音フレームとを含み、このデバイスは、現在の入力静音フレームを静音記述(SID)フレームに符号化するように構成された符号化ユニットであり、SIDフレームは、第2の決定ユニットにより決定された第1のスペクトルパラメータを含む符号化ユニットを更に含む。
第7の態様によれば、信号処理デバイスが提供され、入力信号の周波数帯域をR個のサブバンドに分割するように構成された分割ユニットであり、Rは正の整数である分割ユニットと、分割ユニットが分割を実行した後に取得されたR個のサブバンドの各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離を決定するように構成された第1の決定ユニットであり、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離は、各サブバンドにおけるS個の静音フレームの中の各静音フレームと他の(S-1)個の静音フレームとの間のスペクトル距離の和であり、Sは正の整数である第1の決定ユニットと、分割ユニットが分割を実行した後に取得された各サブバンドにおいて、S個の静音フレームの中の各静音フレームの、第1の決定ユニットにより決定されたサブバンドグループスペクトル距離に従って各サブバンドの第1のスペクトルパラメータを決定するように構成された第2の決定ユニットであり、各サブバンドの第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される第2の決定ユニットとを含む。
第7の態様を参照して、第1の可能な実現方式では、第2の決定ユニットは、各サブバンドにおいてS個の静音フレームの中の第1の静音フレームのサブバンドグループスペクトル距離が最小になるように、各サブバンドにおいて、S個の静音フレームから第1の静音フレームを選択し、各サブバンドにおいて、第1の静音フレームのスペクトルパラメータが各サブバンドの第1のスペクトルパラメータであると決定するように具体的に構成される。
第7の態様を参照して、第2の可能な実現方式では、第2の決定ユニットは、少なくとも1つの静音フレームのサブバンドグループスペクトル距離が第4の閾値未満になるように、各サブバンドにおいて、S個の静音フレームから少なくとも1つの静音フレームを選択し、各サブバンドにおいて、少なくとも1つの静音フレームのスペクトルパラメータに従って各サブバンドの第1のスペクトルパラメータを決定するように具体的に構成される。
第7の態様、又は第7の態様の第1の可能な実現方式若しくは第2の可能な実現方式を参照して、第3の可能な実現方式では、S個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(S-1)個の静音フレームとを含み、このデバイスは、現在の入力静音フレームを静音記述(SID)フレームに符号化するように構成された符号化ユニットであり、SIDフレームは、各サブバンドの第1のスペクトルパラメータを含む符号化ユニットを更に含む。
第8の態様によれば、信号処理デバイスが提供され、T個の静音フレームの中の各静音フレームの第1のパラメータを決定するように構成された第1の決定ユニットであり、第1のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数である第1の決定ユニットと、T個の静音フレームの中の各静音フレームの、第1の決定ユニットにより決定された第1のパラメータに従って第1のスペクトルパラメータを決定するように構成された第2の決定ユニットであり、第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される第2の決定ユニットとを含む。
第8の態様を参照して、第1の可能な実現方式では、第2の決定ユニットは、T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ることが決定された場合、静音フレームの第1のグループのスペクトルパラメータに従って第1のスペクトルパラメータを決定するように具体的に構成され、静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きく、T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ないことが決定された場合、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行するように具体的に構成され、静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きい。
第8の態様を参照して、第2の可能な実現方式では、第2の決定ユニットは、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行するように具体的に構成され、異なる第iの静音フレーム及び第jの静音フレームについて、T個の静音フレームの中で、第iの静音フレームに対応する重み係数は、第jの静音サブフレームに対応する重み係数以上であり、第1のパラメータがスペクトルエントロピーに正相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータより大きく、第1のパラメータがスペクトルエントロピーに負相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータ未満であり、i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tである。
第8の態様、又は第8の態様の第1の可能な実現方式若しくは第2の可能な実現方式を参照して、第3の可能な実現方式では、T個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(T-1)個の静音フレームとを含み、このデバイスは、現在の入力静音フレームを静音記述(SID)フレームに符号化するように構成された符号化ユニットであり、SIDフレームは、第1のスペクトルパラメータを含む符号化ユニットを更に含む。
本発明の実施例では、現在の入力フレームが単にアクティブ音声フレームの、統計収集を通じて取得された量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズが予測され、コンフォートノイズと実際の静音信号との間の逸脱度が決定され、逸脱度に従って現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。これにより、通信帯域幅を節約する。
以下に、本発明の実施例の添付図面を参照して、本発明の実施例の技術的対策を明確且つ完全に説明する。明らかに、説明する実施例は、本発明の実施例の全てではなく、一部である。創造的取り組みを行うことなく、本発明の実施例に基づいて当業者により得られる全ての他の実施例は、本発明の保護範囲内に入るものとする。
図1は、本発明の実施例による音声通信システムの概略ブロック図である。
図1のシステム100は、DTXシステムでもよい。システム100は、エンコーダ110とデコーダ120とを含んでもよい。
エンコーダ110は、入力時間ドメインの音声信号を音声フレームに切り詰め、音声フレームを符号化し、符号化された音声フレームをデコーダ120に送信してもよい。デコーダ120は、エンコーダ110から符号化された音声フレームを受信し、符号化された音声フレームを復号化し、復号化された時間ドメインの音声信号を出力してもよい。
エンコーダ110は、音声アクティビティ検出器(Voice Activity Detector、VAD)110aを更に含んでもよい。VAD110aは、現在の入力音声フレームがアクティブ音声フレームであるか静音フレームであるかを検出してもよい。アクティブ音声フレームは、通話音声信号を含むフレームを表してもよく、静音フレームは、通話音声信号を含まないフレームを表してもよい。ここで、静音フレームは、エネルギーが静音閾値未満であるミュートフレームを含んでもよく、また、バックグラウンドノイズフレームを含んでもよい。エンコーダ110は、2つの動作状態、すなわち、連続送信状態及び不連続送信状態を有してもよい。エンコーダ110が連続送信状態で動作する場合、エンコーダ110は、各入力音声フレームを符号化し、符号化されたフレームを送信してもよい。エンコーダ110が不連続送信状態で動作する場合、エンコーダ110は、入力音声フレームを符号化しなくてもよく、音声フレームをSIDフレームに符号化してもよい。一般的に、入力音声フレームが静音フレームである場合にのみ、エンコーダ110は、不連続送信状態で動作する。
現在の入力静音フレームがアクティブ音声帯域の最後の後の最初のフレームであり、アクティブ音声帯域が、存在し得るハングオーバ区間を含む場合、エンコーダ110は、静音フレームをSIDフレームに符号化してもよい。SID_FIRSTは、SIDフレームを表すために使用されてもよい。現在の入力静音フレームが前のSIDフレームの後の第nのフレームであり、nは正の整数であり、現在の入力静音フレームと前のSIDフレームとの間にアクティブ音声フレームが存在しない場合、エンコーダ110は、静音フレームをSIDフレームに符号化してもよい。SID_UPDATEは、SIDフレームを表すために使用されてもよい。
SIDフレームは、静音信号の特徴を記述するいくつかの情報を含んでもよい。デコーダは、特徴情報に従ってコンフォートノイズを生成してもよい。例えば、SIDフレームは、静音信号のエネルギー情報及びスペクトル情報を含んでもよい。更に、例えば、静音信号のエネルギー情報は、符号励振線形予測(Code Excited Linear Prediction、CELP)モデルの励振信号のエネルギー、又は静音信号の時間ドメインのエネルギーを含んでもよい。スペクトル情報は、線スペクトル周波数(Line Spectral Frequency、LSF)係数、線スペクトル対(Line Spectrum Pair、LSP)係数、イミタンススペクトル周波数(Immittance Spectral Frequency、ISF)係数、イミタンススペクトル対(Immittance Spectral Pair、ISP)係数、線形予測符号化(Linear Predictive Coding、LPC)係数、高速フーリエ変換(Fast Fourier Transform、FFT)係数又は修正離散コサイン変換(Modified Discrete Cosine Transform、MDCT)係数等を含んでもよい。
符号化された音声フレームは、3つの種類、すなわち、符号化された音声フレーム、SIDフレーム及びNO_DATAフレームを含んでもよい。符号化された音声フレームは、連続送信状態においてエンコーダ110により符号化されたフレームであり、NO_DATAフレームは、符号化されたビットを有さないフレーム、すなわち、SIDフレームの間にある符号化されない静音フレームのような物理的に存在しないフレームを表してもよい。
デコーダ120は、エンコーダ110から符号化された音声フレームを受信し、符号化された音声フレームを復号化してもよい。符号化された音声フレームが受信された場合、デコーダは、フレームを直接復号化し、時間ドメインの音声フレームを出力してもよい。SIDフレームが受信された場合、デコーダは、SIDフレームを復号化し、SIDフレームにおけるハングオーバ長情報、エネルギー情報及びスペクトル情報を取得してもよい。具体的に、SIDフレームがSID_UPDATEである場合、デコーダは、静音信号のエネルギー情報及びスペクトル情報を取得してもよい。すなわち、CNパラメータに従って時間ドメインのCNフレームを生成するため、現在のSIDフレームの情報に従って、或いは現在のSIDフレームの情報に従って且つ他の情報を参照して、CNパラメータを取得してもよい。SIDフレームがSID_FIRSTである場合、デコーダは、時間ドメインのCNフレームを生成するため、SIDフレームのハングオーバ長情報に従って、フレームの前のm個のフレームのエネルギー及びスペクトルの統計情報を取得し、SIDフレームの中の復号化を通じて取得された情報を参照してCNパラメータを取得する。mは正の整数である。NO_DATAフレームがデコーダに入力された場合、デコーダは、時間ドメインのCNフレームを生成するため、最近受信したSIDフレームに従って且つ他の情報を参照して、CNパラメータを取得する。
図2は、本発明の実施例による信号符号化方法の概略フローチャートである。図2の方法は、エンコーダにより実行され、例えば、図1のエンコーダ110により実行されてもよい。
210:現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定する。現在の入力フレームは静音フレームである。
本発明のこの実施例では、実際の静音信号は、エンコーダに入力される実際の静音信号を示してもよい。
220:コンフォートノイズと実際の静音信号との間の逸脱度を決定する。
230:逸脱度に従って現在の入力フレームの符号化方式を決定する。現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含む。
具体的に、ハングオーバフレーム符号化方式は、連続符号化方式を示してもよい。エンコーダは、連続符号化方式でハングオーバ区間の静音フレームを符号化してもよく、符号化を通じて取得されたフレームは、ハングオーバフレームと呼ばれてもよい。
240:現在の入力フレームの符号化方式に従って現在の入力フレームを符号化する。
ステップ210において、エンコーダは、異なる要因に従って、連続符号化方式で現在の入力フレームの前のフレームを符号化することを決定してもよい。例えば、前のフレームがアクティブ音声帯域にあるとエンコーダのVADが決定した場合、又は前のフレームがハングオーバ区間にあるとエンコーダが決定した場合、エンコーダは、前のフレームを連続符号化方式で符号化してもよい。
入力音声信号が静音帯域に入った後に、エンコーダは、実際の状況に従って連続送信状態で動作するか不連続送信状態で動作するかを決定してもよい。従って、静音フレームとして使用される現在の入力フレームについて、エンコーダは、どのように現在の入力フレームを符号化するかを決定する必要がある。
現在の入力フレームは、入力音声信号が静音帯域に入った後の最初の静音フレームでもよく、また、入力音声信号が静音帯域に入った後の第nのフレームでもよい。nは1より大きい正の整数である。
現在の入力フレームが最初の静音フレームである場合、ステップ230において、エンコーダが現在の入力フレームの符号化方式を決定することは、ハングオーバ区間が設定される必要があるか否かを決定し、ハングオーバ区間が設定される必要がある場合、エンコーダは、現在の入力フレームをハングオーバフレームに符号化してもよく、ハングオーバ区間が設定される必要がない場合、エンコーダは、現在の入力フレームをSIDフレームに符号化してもよい。
現在の入力フレームが第nの静音フレームであり、現在の入力フレームがハングオーバ区間にあることをエンコーダが決定することができる場合、すなわち、現在の入力フレームの前の静音フレームが連続的に符号化されている場合、ステップ230において、エンコーダが現在の入力フレームの符号化方式を決定することは、ハングオーバ区間を終了するか否かを決定し、ハングオーバ区間を終了する必要がある場合、エンコーダは、現在の入力フレームをSIDフレームに符号化してもよく、ハングオーバ区間を延長する必要がある場合、エンコーダは、現在の入力フレームをハングオーバフレームに符号化してもよい。
現在の入力フレームが第nの静音フレームであり、ハングオーバ機構が存在しない場合、ステップ230において、エンコーダは、デコーダが符号化された現在の入力フレームを復号化した後により良いコンフォートノイズ信号を取得することができるように、現在の入力フレームの符号化方式を決定する必要がある。
認識できるように、本発明のこの実施例は、ハングオーバ機構のトリガーシナリオに適用可能であるだけでなく、ハングオーバ機構の実行シナリオにも適用可能であり、また、ハングオーバ機構が存在しないシナリオにも適用可能である。具体的に、本発明のこの実施例では、ハングオーバ機構をトリガーするか否かが決定されてもよく、事前にハンドオーバ機構を終了するか否かも決定されてもよい。或いは、ハングオーバ機構が存在しないシナリオでは、本発明のこの実施例では、より良い符号化効果及び復号化効果を実現するため、静音フレームの符号化方式が決定されてもよい。
具体的に、エンコーダが現在の入力フレームをSIDフレームに符号化することが仮定されてもよい。デコーダがSIDフレームを受信した場合、デコーダは、SIDフレームに従ってコンフォートノイズを生成し、エンコーダは、コンフォートノイズを予測してもよい。次に、エンコーダは、コンフォートノイズと、エンコーダに入力された実際の静音信号との間の逸脱度を推定してもよい。ここで、逸脱度は、類似度として理解されてもよい。予測されたコンフォートノイズが実際の静音信号に十分に近い場合、エンコーダは、ハングオーバ区間が設定される必要がないと考えてもよく、ハングオーバ区間が延長される必要がないと考えてもよい。
従来技術では、固定長のハングオーバ区間を実行するか否かは、単にアクティブ音声フレームの量における統計を収集することにより決定される。すなわち、連続的に符号化されるのに十分なアクティブ音声フレームが存在する場合、固定長のハングオーバ区間が設定される。現在の入力フレームが最初の静音フレームであるか、ハングオーバ区間にある第nの静音フレームであるか否かに拘わらず、現在の入力フレームは、ハングオーバフレームに符号化される。しかし、不要なハングオーバフレームは、通信帯域幅の浪費を生じ得る。しかし、本発明のこの実施例では、現在の入力フレームが単にアクティブ音声フレームの量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームの符号化方式は、予測されたコンフォートノイズと実際の静音信号との間の逸脱度に従って決定される。これにより、通信帯域幅を節約する。
本発明のこの実施例では、現在の入力フレームが単にアクティブ音声フレームの、統計収集を通じて取得された量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズが予測され、コンフォートノイズと実際の静音信号との間の逸脱度が決定され、逸脱度に従って現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。これにより、通信帯域幅を節約する。
任意選択で、実施例として、ステップ210において、エンコーダは、第1の予測方式でコンフォートノイズを予測してもよい。第1の予測方式は、デコーダがコンフォートノイズを生成する方式と同じである。
具体的に、エンコーダ及びデコーダは、同じ方式でコンフォートノイズを決定してもよく、エンコーダ及びデコーダは、異なる方式でコンフォートノイズを決定してもよい。これは本発明のこの実施例では限定されない。
任意選択で、実施例として、ステップ210において、エンコーダは、コンフォートノイズの特徴パラメータを予測し、実際の静音信号の特徴パラメータを決定してもよい。コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと1対1の対応関係にある。ステップ220において、エンコーダは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定してもよい。
具体的に、コンフォートノイズと実際の静音信号との間の逸脱度を決定するため、エンコーダは、特徴パラメータの間の距離を取得するために、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとを比較してもよい。コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと1対1の対応関係にあるべきである。すなわち、コンフォートノイズの特徴パラメータの種類は、実際の静音信号の特徴パラメータの種類と同じである。例えば、エンコーダは、コンフォートノイズのエネルギーパラメータと実際の静音信号のエネルギーパラメータとを比較してもよく、また、コンフォートノイズのスペクトルパラメータと実際の静音信号のスペクトルパラメータとを比較してもよい。
本発明のこの実施例では、特徴パラメータがスカラーである場合、特徴パラメータの間の距離は、特徴パラメータの間の差の絶対値、すなわち、スカラー距離を示してもよい。特徴パラメータがベクトルである場合、特徴パラメータの間の距離は、特徴パラメータの間の対応する要素のスカラー距離の和を示してもよい。
任意選択で、他の実施例として、ステップ230において、エンコーダは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離は、閾値集合の中の閾値と1対1の対応関係にある。エンコーダはまた、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。
具体的に、コンフォートノイズの特徴パラメータ及び実際の静音信号の特徴パラメータは、少なくとも1つのパラメータをそれぞれ含んでもよい。従って、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離はまた、少なくとも1つの種類のパラメータの間の距離を含んでもよい。閾値集合もまた、少なくとも1つの閾値を含んでもよい。各種類のパラメータの間の距離は、1つの閾値に対応してもよい。現在の入力フレームの符号化方式を決定する場合、エンコーダは、少なくとも1つの種類のパラメータと閾値集合の中の対応する閾値との間の距離を別々に比較してもよい。閾値集合の中の少なくとも1つの閾値は、予め設定されてもよく、また、現在の入力フレームの前の複数の静音フレームの特徴パラメータに従ってエンコーダにより決定されてもよい。
コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、エンコーダは、コンフォートノイズが実際の静音信号に十分に近いと考えてもよく、従って、現在の入力フレームをSIDフレームに符号化してもよい。コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、エンコーダは、コンフォートノイズと実際の静音信号との間の逸脱が比較的大きいと考えてもよく、従って、現在の入力フレームをハングオーバフレームに符号化してもよい。
任意選択で、他の実施例として、コンフォートノイズの特徴パラメータは、エネルギー情報及びスペクトル情報の情報のうち少なくとも1つを表すために使用されてもよい。
任意選択で、他の実施例として、エネルギー情報は、CELP励振エネルギーを含んでもよい。スペクトル情報は、線形予測フィルタ係数、FFT係数及びMDCT係数のうち少なくとも1つを含んでもよい。線形予測フィルタ係数は、LSF係数、LSP係数、ISF係数、ISP係数、反射係数及びLPC係数のうち少なくとも1つを含んでもよい。
任意選択で、他の実施例として、ステップ210において、エンコーダは、現在の入力フレームの特徴パラメータが実際の静音信号の特徴パラメータであると決定してもよい。或いは、エンコーダは、実際の静音信号の特徴パラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集してもよい。
任意選択で、他の実施例として、M個の静音フレームは、現在の入力フレームと、現在の入力フレームの前の(M-1)個の静音フレームとを含んでもよい。Mは正の整数である。
例えば、現在の入力フレームが最初の静音フレームである場合、実際の静音信号の特徴パラメータは、現在の入力フレームの特徴パラメータでもよい。現在の入力フレームが第nの静音フレームである場合、実際の静音信号の特徴パラメータは、現在の入力フレームを含むM個の静音フレームの特徴パラメータにおける統計を収集することにより、エンコーダにより取得されてもよい。M個の静音フレームは、連続的でもよく、また、不連続的でもよく、これは本発明の実施例で限定されない。
任意選択で、他の実施例として、ステップ210において、エンコーダは、現在の入力フレームの前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。或いは、エンコーダは、現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。Lは正の整数である。
例えば、現在の入力フレームが最初の静音フレームである場合、エンコーダは、前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。各フレームを符号化する場合、エンコーダは、エンコーダに各フレームのコンフォートノイズパラメータを保存してもよい。通常では、入力フレームが静音フレームである場合にのみ、保存されたコンフォートノイズパラメータは、前のフレームのものに対して変化してもよい。この理由は、エンコーダは、現在の入力静音フレームの特徴パラメータに従って保存されたコンフォートノイズパラメータを更新してもよいからであり、通常では、現在の入力静音フレームがアクティブ音声フレームである場合、コンフォートノイズパラメータを更新しないからである。従って、エンコーダは、エンコーダに記憶された前のフレームのコンフォートノイズパラメータを取得してもよい。例えば、コンフォートノイズパラメータは、静音信号のエネルギーパラメータ及びスペクトルパラメータを含んでもよい。
更に、現在の入力フレームがハングオーバ区間に現在ある場合、エンコーダは、現在の入力フレームの前のL個のハングオーバフレームのパラメータにおける統計を収集し、統計収集を通じて取得された結果及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを取得してもよい。
任意選択で、他の実施例として、コンフォートノイズの特徴パラメータは、コンフォートノイズのCELP励振エネルギー及びコンフォートノイズのLSF係数を含んでもよく、実際の静音信号の特徴パラメータは、実際の静音信号のCELP励振エネルギー及び実際の静音信号のLSF係数を含んでもよい。ステップ220において、エンコーダは、コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定してもよい。
距離De及び距離Dlsfは、1つの変化量を含んでもよく、変化量のグループを含んでもよい点に留意すべきである。例えば、距離Dlsfは2つの変化量を含んでもよく、一方の変化量は、LSF係数の間の平均距離、すなわち、LSF係数の間の距離の平均値でもよく、他方の変化量は、LSF係数の間の最大距離、すなわち、最大距離を有するLSF係数の対の間の距離でもよい。
任意選択で、他の実施例として、ステップ230において、距離Deが第1の閾値未満であり、距離Dlsfが第2の閾値未満である場合、エンコーダは、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。距離Deが第1の閾値以上であるか、或いは距離Dlsfが第2の閾値以上である場合、エンコーダは、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。第1の閾値及び第2の閾値は共に、閾値集合に属する。
任意選択で、他の実施例として、De又はDlsfが変化量のグループを含む場合、エンコーダは、現在の入力フレームを符号化する方式を決定するため、変化量のグループの中の各変化量と対応する閾値とを比較する。
具体的に、エンコーダは、距離De及び距離Dlsfに従って現在の入力フレームの符号化方式を決定してもよい。距離De<第1の閾値、且つ、距離Dlsf<第2の閾値である場合、これは、予測されたコンフォートノイズのCELP励振エネルギー及びLSF係数が実際の静音信号のCELP励振エネルギー及びLSF係数とわずかに異なることを示してもよく、エンコーダは、コンフォートノイズが実際の静音信号に十分に近いと考えてもよく、現在の入力フレームをSIDフレームに符号化してもよい。そうでない場合、エンコーダは、現在の入力フレームをハングオーバフレームに符号化してもよい。
任意選択で、他の実施例として、ステップ230において、エンコーダは、予め設定された第1の閾値及び予め設定された第2の閾値を取得してもよい。或いは、エンコーダは、現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第1の閾値を決定し、N個の静音フレームのLSF係数に従って第2の閾値を決定してもよい。Nは正の整数である。
具体的に、第1の閾値及び第2の閾値の双方は、予め設定された固定値でもよい。或いは、第1の閾値及び第2の閾値の双方は、自己適応の変化量でもよい。例えば、第1の閾値は、現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーにおける統計を収集することにより、エンコーダにより取得されてもよく、第2の閾値は、現在の入力フレームの前のN個の静音フレームのLSF係数における統計を収集することにより、エンコーダにより取得されてもよい。N個の静音フレームは、連続的でもよく、また、不連続的でもよい。
以下に、図2の具体的な処理について、具体的な例を使用することにより詳細に説明する。図3a及び図3bの例では、本発明のこの実施例が適用され得る2つのシナリオが説明のために使用される。これらの例は、本発明のこの実施例の範囲を限定するのではなく、当業者が本発明のこの実施例をより良く理解することに役立てることのみを意図している。
図3aは、本発明の実施例による信号符号化方法の処理の概略フローチャートである。図3aにおいて、現在の入力フレームの前のフレームの符号化方式が連続符号化方式であり、現在の入力フレームが入力音声信号が静音帯域に入った後の最初の静音フレームであることをエンコーダのVADが決定したことが仮定される。この場合、エンコーダは、ハングオーバ区間を設定するか否かを決定する必要がある。すなわち、現在の入力フレームをハングオーバフレームに符号化するかSIDフレームに符号化するかを決定する必要がある。以下に、この処理について詳細に説明する。
301a:実際の静音信号のCELP励振エネルギー及びLSF係数を決定する。
具体的に、エンコーダは、現在の入力フレームのCELP励振エネルギーeを、実際の静音信号のCELP励振エネルギーeSIとして使用してもよく、現在の入力フレームのLSF係数lsf(i)を、現在の入力フレームのLSF係数lsfSI(i)として使用してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。エンコーダは、従来技術を参照して現在の入力フレームのCELP励振エネルギー及びLSF係数を決定してもよい。
302a:現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズのCELP励振エネルギー及びLSF係数を予測する。
エンコーダが現在の入力フレームをSIDフレームに符号化し、デコーダがSIDフレームに従ってコンフォートノイズを生成することが仮定されてもよい。エンコーダは、コンフォートノイズのCELP励振エネルギーeCN及びLSF係数lsfCN(i)を予測してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。エンコーダは、エンコーダに記憶された前のフレームのコンフォートノイズパラメータ及び現在の入力フレームのCELP励振エネルギー及びLSF係数に従ってコンフォートノイズのCELP励振エネルギー及びLSF係数を別々に決定してもよい。
例えば、エンコーダは、以下の式(1)に従ってコンフォートノイズのCELP励振エネルギーeCNを予測してもよい。
ここで、eCN
[-1]は前のフレームのCELP励振エネルギーを表してもよく、eは現在の入力フレームのCELP励振エネルギーを表してもよい。
エンコーダは、以下の式(2)に従ってコンフォートノイズのLSF係数lsfCN(i)を予測してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。
ここで、lsfCN
[-1](i)は前のフレームのLSF係数を表してもよく、lsf(i)は現在の入力フレームの第iのLSF係数を表してもよい。
303a:コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定する。
具体的に、エンコーダは、以下の式(3)に従ってコンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定してもよい。
エンコーダは、以下の式(4)に従ってコンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定してもよい。
304a:距離Deが第1の閾値未満であるか否か、及び距離Dlsfが第2の閾値未満であるか否かを決定する。
具体的に、第1の閾値及び第2の閾値の双方は、予め設定された固定値でもよい。
或いは、第1の閾値及び第2の閾値の双方は、自己適応の変化量でもよい。エンコーダは、現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第1の閾値を決定してもよい。例えば、エンコーダは、以下の式(5)に従って第1の閾値thr1を決定してもよい。
エンコーダは、N個の静音フレームのLSF係数に従って第2の閾値を決定してもよい。例えば、エンコーダは、以下の式(6)に従って第2の閾値thr2を決定してもよい。
式(5)及び式(6)において、[x]は、第xのフレームを表してもよく、xはn、m又はpでもよい。例えば、e[m]は、第mのフレームのCELP励振エネルギーを表してもよく、lsf[n](i)は、第nのフレームの第iのLSF係数を表してもよく、lsf[p](i)は第pのフレームの第iのLSF係数を表してもよい。
305a:距離Deが第1の閾値未満であり、距離Dlsfが第2の閾値未満である場合、ハングオーバ区間を設定しないと決定し、現在の入力フレームをSIDフレームに符号化する。
距離Deが第1の閾値未満であり、距離Dlsfが第2の閾値未満である場合、エンコーダは、デコーダにより生成され得るコンフォートノイズが実際の静音信号に十分に近いと考えてもよく、ハングオーバ区間は設定されなくてもよい。現在の入力フレームは、SIDフレームに符号化される。
306a:距離Deが第1の閾値以上であるか、或いは距離Dlsfが第2の閾値以上である場合、ハングオーバ区間を設定すると決定し、現在の入力フレームをハングオーバフレームに符号化する。
本発明のこの実施例では、現在の入力フレームが単にアクティブ音声フレームの、統計収集を通じて取得された量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズと、実際の静音信号との間の逸脱度に従って、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。これにより、通信帯域幅を節約する。
図3bは、本発明の他の実施例による信号符号化方法の処理の概略フローチャートである。図3bにおいて、現在の入力フレームが既にハングオーバ区間にあることが仮定される。エンコーダは、ハングオーバ区間を終了するか否かを決定する必要がある。すなわち、エンコーダは、現在の入力フレームをハングオーバフレームに符号化し続けるか否か、又は現在の入力フレームをSIDフレームに符号化するか否かを決定する必要がある。以下に、この処理について詳細に説明する。
301b:実際の静音信号のCELP励振エネルギー及びLSF係数を決定する。
任意選択で、ステップ301aと同様に、エンコーダは、現在の入力フレームのCELP励振エネルギー及びLSF係数を、実際の静音信号のCELP励振エネルギー及びLSF係数として使用してもよい。
任意選択で、エンコーダは、実際の静音信号のCELP励振エネルギーを取得するために、現在の入力フレームを含むM個の静音フレームのCELP励振エネルギーについての統計を収集してもよい。M≦ハングオーバ区間内の現在の入力フレームの前のハングオーバフレームの量である。
例えば、エンコーダは、式(7)に従って実際の静音信号のCELP励振エネルギーeSIを決定してもよい。
他の例として、エンコーダは、以下の式(8)に従って実際の静音信号のLSF係数lsfSI(i)を予測してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。
前述の式(7)及び式(8)において、w(j)は重み係数を表してもよく、e[-j]は現在の入力フレームの前の第jの静音フレームのCELP励振エネルギーを表してもよい。
302b:現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズのCELP励振エネルギー及びLSF係数を予測する。
具体的に、エンコーダは、現在の入力フレームの前のL個のハングオーバフレームのCELP励振エネルギー及びLSF係数に従って、コンフォートノイズのCELP励振エネルギーeCN及びLSF係数lsfCN(i)を別々に決定してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。
例えば、エンコーダは、以下の式(9)に従ってコンフォートノイズのCELP励振エネルギーeCNを決定してもよい。
ここで、eHO
[-j]は現在の入力フレームの前の第jのハングオーバフレームの励振エネルギーを表してもよい。
他の例では、エンコーダは、以下の式(10)に従ってコンフォートノイズのLSF係数lsfCN(i)を決定してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。
ここで、lsfHO
[-j]は現在の入力フレームの前の第jのハングオーバフレームの第iのLSF係数を表してもよい。
式(9)及び式(10)において、w(j)は重み係数を表してもよい。
303b:コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定する。
例えば、エンコーダは、式(3)に従ってコンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定してもよい。エンコーダは、式(4)に従ってコンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定してもよい。
304b:距離Deが第1の閾値未満であるか否か、及び距離Dlsfが第2の閾値未満であるか否かを決定する。
具体的に、第1の閾値及び第2の閾値の双方は、予め設定された固定値でもよい。
或いは、第1の閾値及び第2の閾値の双方は、自己適応の変化量でもよい。例えば、エンコーダは、式(5)に従って第1の閾値thr1を決定してもよく、式(6)に従って第2の閾値thr2を決定してもよい。
305b:距離Deが第1の閾値未満であり、距離Dlsfが第2の閾値未満である場合、ハングオーバ区間を終了すると決定し、現在の入力フレームをSIDフレームに符号化する。
306b:距離Deが第1の閾値以上であるか、或いは距離Dlsfが第2の閾値以上である場合、ハングオーバ区間を延長し続けると決定し、現在の入力フレームをハングオーバフレームに符号化する。
本発明のこの実施例では、現在の入力フレームが単にアクティブ音声フレームの、統計収集を通じて取得された量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズと、実際の静音信号との間の逸脱度に従って、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。これにより、通信帯域幅を節約する。
前述から分かるように、不連続送信状態に入った後に、エンコーダは、SIDフレームを間欠的に符号化してもよい。SIDフレームは、一般的に、静音信号のエネルギー及びスペクトルを記述するいくつかの情報を含む。エンコーダからSIDフレームを受信した後に、デコーダは、SIDフレームに含まれる情報に従ってコンフォートノイズを生成してもよい。現在では、SIDフレームは数フレーム毎に1回符号化されて送信されるため、SIDフレームを符号化する場合、エンコーダは、通常では、現在の入力静音フレーム及び現在の入力静音フレームの前の数個の静音フレームにおける統計を収集することにより、SIDフレームの情報を取得する。例えば、連続する静音区間内において、現在の符号化されたSIDフレームの情報は、通常では、現在のSIDフレーム及び現在のSIDフレームと前のSIDフレームとの間の複数の静音フレームについての統計を収集することにより取得される。他の例では、アクティブ音声帯域の後の最初のSIDフレームの情報を符号化することは、通常では、現在の入力静音フレーム及びアクティブ音声帯域の終了のときの数個の隣接するハンドオーバフレームについての統計を収集することにより、エンコーダにより取得される。すなわち、ハングオーバ区間内の静音フレームにおける統計を収集することにより取得される。説明の便宜上で、SIDフレーム符号化パラメータについての統計を収集するために使用される複数の静音フレームは、分析区間と呼ばれる。具体的に、SIDフレームが符号化される場合、SIDフレームのパラメータは、分析区間内の複数の静音フレームのパラメータの平均値又は中央値を取得することにより取得される。しかし、実際のバックグラウンドノイズのスペクトルは、様々な予想できない過渡的なスペクトル成分を含んでもよい。分析区間がこのようなスペクトル成分を含む場合、これらの成分は、平均値を取得する方法でSIDフレームに追加されてもよく、このようなスペクトル成分を含む静音スペクトルは、中央値を取得する方法でSIDフレームに不正確に符号化されてもよく、これは、SIDフレームに従ってデコーダにより生成されるコンフォートノイズの品質が減少することを生じる。
図4は、本発明の実施例による信号処理方法の概略フローチャートである。図4の方法は、エンコーダ又はデコーダにより実行され、例えば、図1のエンコーダ110又はデコーダ120により実行されてもよい。
410:P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離(Group Weighted Spectral Distance)を決定する。P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームと他の(P-1)個の静音フレームとの間の加重スペクトル距離の和であり、Pは正の整数である。
例えば、エンコーダ又はデコーダは、現在の入力静音フレームの前の複数の静音フレームのパラメータをバッファに記憶してもよい。バッファの長さは、固定でもよく、可変でもよい。P個の静音フレームは、バッファからエンコーダ又はデコーダにより選択されてもよい。
420:P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って第1のスペクトルパラメータを決定する。第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される第1のスペクトルパラメータは、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って決定される。これにより、コンフォートノイズの品質を改善する。
任意選択で、実施例として、ステップ410において、各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームのスペクトルパラメータに従って決定されてもよい。例えば、P個の静音フレームの中の第xのフレームのグループ加重スペクトル距離swd
[x]は、以下の式(11)に従って決定されてもよい。
ここで、U
[x](i)は第xのフレームの第iのスペクトルパラメータを表してもよく、U
[j](i)は第jのフレームの第iのスペクトルパラメータを表してもよく、w(i)は重み係数でもよく、Kはスペクトルパラメータの係数の量である。
例えば、各静音フレームのスペクトルパラメータは、LSF係数、LSP係数、ISF係数、ISP係数、LCP係数、反射係数、FFT係数、MDCT係数等を含んでもよい。従って、対応して、ステップ420において、第1のスペクトルパラメータは、LSF係数、LSP係数、ISF係数、ISP係数、LPC係数、反射係数、FFT係数、MDCT係数等を含んでもよい。
以下に、スペクトルパラメータがLSF係数である例を使用することにより、ステップ420の処理について説明する。例えば、各静音フレームのLSF係数と他の(P-1)個の静音フレームのLSF係数との間の加重スペクトル距離の和、すなわち、各静音フレームのLSF係数のグループ加重スペクトル距離swdが決定されてもよい。例えば、P個の静音フレームの中の第xのフレームのLSF係数のグループ加重スペクトル距離swd’
[x]は、以下の式(12)に従って決定されてもよい。x=0,1,2,...,P-1である。
ここで、w’(i)は重み係数であり、K’はフィルタ次数である。
任意選択で、実施例として、各静音フレームは、重み係数の1つのグループに対応してもよい。重み係数の1つのグループにおいて、サブバンドの第1のグループに対応する重み係数は、サブバンドの第2のグループに対応する重み係数より大きく、サブバンドの第1のグループの知覚重要度は、サブバンドの第2のグループの知覚重要度より大きい。
サブバンドは、スペクトル係数を分割することにより取得されてもよい。具体的な処理について、従来技術に参照が行われてもよい。サブバンドの知覚重要度は、従来技術に従って決定されてもよい。通常では、低周波数サブバンドの知覚重要度は、高周波数サブバンドの知覚重要度より高い。従って、簡単な実施例では、低周波数サブバンドの重み係数は、高周波数サブバンドの重み係数より大きくてもよい。
例えば、式(12)において、w’(i)は重み係数であり、i=0,1,...,K’-1である。各静音フレームは、重み係数の1つのグループ、すなわち、w’(0)〜w’(K’-1)に対応する。重み係数の1つのグループでは、低周波数サブバンドのLSF係数の重み係数は、高周波数サブバンドのLSF係数の重み係数より大きい。バックグラウンドノイズのエネルギーは、ほとんど低周波数帯域に集中するため、デコーダにより生成されるコンフォートノイズの品質は、主に低周波数帯域の信号の品質により決定され、最終的な加重スペクトル距離において高周波数帯域のLSF係数のスペクトル距離により課される影響は、適切に減少するべきである。
任意選択で、他の実施例として、ステップ420において、第1の静音フレームは、P個の静音フレームの中の第1の静音フレームのグループ加重スペクトル距離が最小になるように、P個の静音フレームから選択されてもよく、第1の静音フレームのスペクトルパラメータが第1のスペクトルパラメータであると決定されてもよい。
具体的に、グループ加重スペクトル距離が最小になることは、第1の静音フレームのスペクトルパラメータがP個の静音フレームのスペクトルパラメータの間の一般性を最も良く表すことができることを示してもよい。従って、第1の静音フレームのスペクトルパラメータは、SIDフレームに符号化されてもよい。例えば、各静音フレームのLSF係数のグループ加重スペクトル距離について、第1の静音フレームのLSF係数のグループ加重スペクトル距離は最小である。この場合、これは、第1の静音フレームのLSFスペクトルがP個の静音フレームのLSFスペクトルの間の一般性を最も良く表すことができることを示してもよい。
任意選択で、他の実施例として、ステップ420において、少なくとも1つの静音フレームは、P個の静音フレームの中の少なくとも1つの静音フレームのグループ加重スペクトル距離が第3の閾値未満になるように、P個の静音フレームから選択されてもよく、第1のスペクトルパラメータは、少なくとも1つの静音フレームのスペクトルパラメータに従って決定されてもよい。
例えば、実施例では、少なくとも1つの静音フレームのスペクトルパラメータの平均値が第1のスペクトルパラメータであると決定されてもよい。他の実施例では、少なくとも1つの静音フレームのスペクトルパラメータの中央値が第1のスペクトルパラメータであると決定されてもよい。他の例では、第1のスペクトルパラメータはまた、本発明のこの実施例の他の方法を使用することにより、少なくとも1つの静音フレームのスペクトルパラメータに従って決定されてもよい。
以下に、依然としてスペクトルパラメータがLSF係数である例を使用することにより、説明を行う。この場合、第1のスペクトルパラメータは、第1のLSF係数でもよい。例えば、P個の静音フレームの中の各静音フレームのLSF係数のグループ加重スペクトル距離は、式(12)に従って取得されてもよい。LSF係数のグループ加重スペクトル距離が第3の閾値未満である少なくとも1つの静音フレームは、P個の静音フレームから選択される。次に、少なくとも1つの静音フレームのLSF係数の平均値が、第1のLSF係数として使用されてもよい。例えば、第1のLSF係数lsfSID(i)は、以下の式(13)に従って決定されてもよい。i=0,1,...,K’-1であり、K’はフィルタ次数である。
ここで、{A}は少なくとも1つの静音フレームを除くP個の静音フレームの中の静音フレームを表してもよく、lsf
[j](i)は第jのフレームの第iのLSF係数を表してもよい。
更に、第3の閾値は、予め設定されてもよい。
任意選択で、他の実施例として、図4の方法がエンコーダにより実行される場合、P個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(P-1)個の静音フレームとを含んでもよい。
図4の方法がデコーダにより実行される場合、P個の静音フレームは、P個のハングオーバフレームでもよい。
任意選択で、他の実施例として、図4の方法がエンコーダにより実行される場合、エンコーダは、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第1のスペクトルパラメータを含む。
本発明のこの実施例では、SIDフレームのスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、エンコーダは、SIDフレームが第1のスペクトルパラメータを含むように、現在の入力フレームをSIDフレームに符号化してもよい。これにより、SIDフレームに従ってデコーダにより生成されるコンフォートノイズの品質を改善する。
図5は、本発明の他の実施例による信号処理方法の概略フローチャートである。図5の方法は、エンコーダ又はデコーダにより実行され、例えば、図1のエンコーダ110又はデコーダ120により実行されてもよい。
510:入力信号の周波数帯域をR個のサブバンドに分割する。Rは正の整数である。
520:R個のサブバンドの各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離を決定する。S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離は、各サブバンドにおけるS個の静音フレームの中の各静音フレームと他の(S-1)個の静音フレームとの間のスペクトル距離の和であり、Sは正の整数である。
530:各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従って各サブバンドの第1のスペクトルパラメータを決定する。各サブバンドの第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を使用することにより取得されるのではなく、コンフォートノイズを生成するために使用される各サブバンドの第1のスペクトルパラメータは、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従ってR個のサブバンドの各サブバンドにおいて決定される。これにより、コンフォートノイズの品質を改善する。
ステップ530において、各サブバンドについて各静音フレームのサブバンドグループスペクトル距離は、S個の静音フレームの中の各静音フレームのスペクトルパラメータに従って決定されてもよい。任意選択で、実施例として、第kのサブバンドにおける第yの静音フレームのサブバンドグループスペクトル距離ssd
k [y]は、以下の式(14)に従って決定されてもよい。k=1,2,...,Rであり、y=0,1,...,S-1である。
ただし、L(k)は第kのサブバンドに含まれるスペクトルパラメータの係数の量を表してもよく、U
k [y](i)は第kのサブバンドにおける第yの静音フレームのスペクトルパラメータの第iの係数を表してもよく、U
k [j](i)は第kのサブバンドにおける第jの静音フレームのスペクトルパラメータの第iの係数を表してもよい。
例えば、各静音フレームのスペクトルパラメータは、LSF係数、LSP係数、ISF係数、ISP係数、LCP係数、反射係数、FFT係数、MDCT係数等を含んでもよい。
以下に、スペクトルパラメータがLSF係数である例を使用することにより、説明を行う。例えば、各静音フレームのLSF係数のサブバンドグループスペクトル距離が決定されてもよい。各サブバンドは、1つのLSF係数を含んでもよく、また、複数のLSF係数を含んでもよい。例えば、第kのサブバンドにおける第yの静音フレームのLSF係数のサブバンドグループスペクトル距離ssd
k [y]は、以下の式(15)に従って決定されてもよい。k=1,2,...,Rであり、y=0,1,...,S-1である。
ここで、L(k)は第kのサブバンドに含まれるLSF係数の量を表してもよく、lsf
k [y](i)は第kのサブバンドにおける第yの静音フレームの第iのLSF係数を表してもよく、lsf
k [j](i)は第kのサブバンドにおける第jの静音フレームの第iのLSF係数を表してもよい。
対応して、各サブバンドの第1のスペクトルパラメータは、LSF係数、LSP係数、ISF係数、ISP係数、LPC係数、反射係数、FFT係数、MDCT係数等を含んでもよい。
任意選択で、他の実施例として、ステップ530において、第1の静音フレームは、各サブバンドにおいてS個の静音フレームの中の第1の静音フレームのサブバンドグループスペクトル距離が最小になるように、各サブバンドにおいてS個の静音フレームから選択されてもよい。次に、各サブバンドの第1の静音フレームのスペクトルパラメータは、各サブバンドの第1のスペクトルパラメータとして使用されてもよい。
具体的に、エンコーダは、各サブバンドにおいて第1の静音フレームを決定し、第1の静音フレームのスペクトルパラメータを、サブバンドの第1のスペクトルパラメータとして使用してもよい。
以下に、依然としてスペクトルパラメータがLSF係数である例を使用することにより、説明を行う。対応して、各サブバンドの第1のスペクトルパラメータは、各サブバンドの第1のLSF係数である。例えば、各サブバンドにおける各静音フレームのLSF係数のサブバンドグループスペクトル距離は、式(15)に従って決定されてもよい。各サブバンドについて、最小のサブバンドグループスペクトル距離を有するフレームのLSF係数は、サブバンドの第1のLSF係数として選択されてもよい。
任意選択で、他の実施例として、ステップ530において、少なくとも1つの静音フレームは、少なくとも1つの静音フレームのサブバンドグループスペクトル距離が第4の閾値未満になるように、各サブバンドにおいてS個の静音フレームから選択されてもよい。次に、各サブバンドの第1のスペクトルパラメータは、少なくとも1つの静音フレームのスペクトルパラメータに従って各サブバンドにおいて決定されてもよい。
例えば、実施例では、各サブバンドにおけるS個の静音フレームの中の少なくとも1つの静音フレームのスペクトルパラメータの平均値が各サブバンドの第1のスペクトルパラメータであると決定されてもよい。他の実施例では、各サブバンドにおけるS個の静音フレームの中の少なくとも1つの静音フレームのスペクトルパラメータの中央値が各サブバンドの第1のスペクトルパラメータであると決定されてもよい。他の実施例では、各サブバンドの第1のスペクトルパラメータはまた、本発明の他の方法を使用することにより、少なくとも1つの静音フレームのスペクトルパラメータに従って決定されてもよい。
LSF係数を例として使用すると、各サブバンドにおける各静音フレームのLSF係数のサブバンドグループスペクトル距離は、式(15)に従って決定されてもよい。各サブバンドについて、サブバンドグループスペクトル距離が第4の閾値未満である少なくとも1つの静音フレームが選択されてもよく、少なくとも1つの静音フレームのLSF係数の平均値がサブバンドの第1のLSF係数であると決定される。第4の閾値は、予め設定されてもよい。
任意選択で、他の実施例として、図5の方法がエンコーダにより実行される場合、S個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(S-1)個の静音フレームとを含んでもよい。
図5の方法がデコーダにより実行される場合、S個の静音フレームは、S個のハングオーバフレームでもよい。
任意選択で、他の実施例として、図5の方法がエンコーダにより実行される場合、エンコーダは、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、各サブバンドの第1のスペクトルパラメータを含む。
本発明のこの実施例では、SIDフレームを符号化する場合、SIDフレームのスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、エンコーダは、SIDフレームが各サブバンドの第1のスペクトルパラメータを含むことを可能にしてもよい。これにより、SIDフレームに従ってデコーダにより生成されるコンフォートノイズの品質を改善する。
図6は、本発明の他の実施例による信号処理方法の概略フローチャートである。図6の方法は、エンコーダ又はデコーダにより実行され、例えば、図1のエンコーダ110又はデコーダ120により実行されてもよい。
610:T個の静音フレームの中の各静音フレームの第1のパラメータを決定する。第1のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数である。
例えば、静音フレームのスペクトルエントロピーが直接決定され得る場合、第1のパラメータは、スペクトルエントロピーでもよい。或る場合には、厳密な定義に適合したスペクトルエントロピーは直接決定されなくてもよい。この場合、第1のパラメータは、スペクトルエントロピーを表すことができる他のパラメータ、例えば、スペクトルの構成上の強度を反映することができるパラメータ等でもよい。
例えば、各静音フレームの第1のパラメータは、各静音フレームのLSF係数に従って決定されてもよい。例えば、第zの静音フレームの第1のパラメータは、以下の式(16)に従って決定されてもよい。z=1,2,...,Tである。
ここで、Kはフィルタ次数である。
ここで、Cはスペクトルの構成上の強度を反映することができるパラメータであり、厳密にスペクトルエントロピーの定義に適合するとは限らない。より大きいCは、より小さいスペクトルエントロピーを示してもよい。
620:T個の静音フレームの中の各静音フレームの第1のパラメータに従って第1のスペクトルパラメータを決定する。第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される第1のスペクトルパラメータは、スペクトルエントロピーを表すために使用されるT個の静音フレームの第1のパラメータに従って決定される。これにより、コンフォートノイズの品質を改善する。
任意選択で、実施例として、T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ることが決定された場合、第1のスペクトルパラメータは、静音フレームの第1のグループのスペクトルパラメータに従って決定されてもよい。静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きい。T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ないことが決定された場合、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均が実行されてもよい。静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きい。
一般的に、普通のノイズのスペクトルは、比較的悪い構成上の強度を有するが、ノイズでない信号スペクトル又は過渡的な成分を含むノイズのスペクトルは、比較的強い構成上の強度を有する。スペクトルの構成上の強度は、スペクトルエントロピーのサイズに直接対応する。相対的に、普通のノイズのスペクトルエントロピーは比較的大きくてもよく、ノイズでない信号又は過渡的な成分を含むノイズのスペクトルエントロピーは比較的小さくてもよい。従って、T個の静音フレームが静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得る場合、エンコーダは、第1のスペクトルパラメータを決定するために、静音フレームのスペクトルエントロピーに従って、過渡的な成分を含まない静音フレームの第1のグループのスペクトルパラメータを選択してもよい。
例えば、実施例では、静音フレームの第1のグループのスペクトルパラメータの平均値が第1のスペクトルパラメータであると決定されてもよい。他の実施例では、静音フレームの第1のグループのスペクトルパラメータの中央値が第1のスペクトルパラメータであると決定されてもよい。他の実施例では、第1のスペクトルパラメータはまた、本発明の他の方法を使用することにより、静音フレームの第1のグループのスペクトルパラメータに従って決定されてもよい。
T個の静音フレームが静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ない場合、第1のスペクトルパラメータを取得するために、T個の静音フレームのスペクトルパラメータにおいて加重平均が実行されてもよい。任意選択で、他の実施例として、クラスタ化基準は、静音フレームの第1のグループの中の各静音フレームの第1のパラメータと第1の平均値との間の距離が静音フレームの第1のグループの中の各静音フレームの第1のパラメータと第2の平均値との間の距離以下であること、静音フレームの第2のグループの中の各静音フレームの第1のパラメータと第2の平均値との間の距離が静音フレームの第2のグループの中の各静音フレームの第1のパラメータと第1の平均値との間の距離以下であること、第1の平均値と第2の平均値との間の距離が静音フレームの第1のグループの第1のパラメータと第1の平均値との間の平均距離より大きいこと、及び第1の平均値と第2の平均値との間の距離が静音フレームの第2のグループの第1のパラメータと第2の平均値との間の平均距離より大きいことを含んでもよい。第1の平均値は、静音フレームの第1のグループの第1のパラメータの平均値であり、第2の平均値は、静音フレームの第2のグループの第1のパラメータの平均値である。
任意選択で、他の実施例として、エンコーダは、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。異なる第iの静音フレーム及び第jの静音フレームについて、T個の静音フレームの中で、第iの静音フレームに対応する重み係数は、第jの静音サブフレームに対応する重み係数以上である。第1のパラメータがスペクトルエントロピーに正相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータより大きい。第1のパラメータがスペクトルエントロピーに負相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータ未満である。i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tである。
具体的に、エンコーダは、第1のスペクトルパラメータを取得するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。前述のように、普通のノイズのスペクトルエントロピーは比較的大きくてもよく、ノイズではない信号又は過渡的な成分を含むノイズのスペクトルエントロピーは比較的小さくてもよい。従って、T個の静音フレームの中で、比較的大きいスペクトルエントロピーを有する静音フレームに対応する重み係数は、比較的小さいスペクトルエントロピーを有する静音フレームに対応する重み係数以上でもよい。
任意選択で、他の実施例として、図6の方法がエンコーダにより実行される場合、T個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(T-1)個の静音フレームとを含んでもよい。
図6の方法がデコーダにより実行される場合、T個の静音フレームは、T個のハングオーバフレームでもよい。
任意選択で、他の実施例として、図6の方法がエンコーダにより実行される場合、エンコーダは、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第1のスペクトルパラメータを含む。
本発明のこの実施例では、SIDフレームを符号化する場合、SIDフレームのスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、エンコーダは、SIDフレームが各サブバンドの第1のスペクトルパラメータを含むことを可能にしてもよい。これにより、SIDフレームに従ってデコーダにより生成されるコンフォートノイズの品質を改善する。
図7は、本発明の実施例による信号符号化デバイスの概略ブロック図である。図7のデバイス700の例は、エンコーダであり、例えば、図1に示すエンコーダ110である。デバイス700は、第1の決定ユニット710と、第2の決定ユニット720と、第3の決定ユニット730と、符号化ユニット740とを含む。
第1の決定ユニット710は、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定する。現在の入力フレームは静音フレームである。第2の決定ユニット720は、第1の決定ユニット710により決定されたコンフォートノイズと第1の決定ユニット710により決定された実際の静音信号との間の逸脱度を決定する。第3の決定ユニット730は、第2の決定ユニットにより決定された逸脱度に従って現在の入力フレームの符号化方式を決定する。現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含む。符号化ユニット740は、第3の決定ユニット730により決定された現在の入力フレームの符号化方式に従って現在の入力フレームを符号化する。
本発明のこの実施例では、現在の入力フレームが単にアクティブ音声フレームの、統計収集を通じて取得された量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズが予測され、コンフォートノイズと実際の静音信号との間の逸脱度が決定され、逸脱度に従って現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。これにより、通信帯域幅を節約する。
任意選択で、実施例として、第1の決定ユニット710は、コンフォートノイズの特徴パラメータを予測し、実際の静音信号の特徴パラメータを決定してもよい。コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと1対1の対応関係にある。第2の決定ユニット720は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定してもよい。
任意選択で、他の実施例として、第3の決定ユニット730は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離は、閾値集合の中の閾値と1対1の対応関係にある。第3の決定ユニット730は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。
任意選択で、他の実施例として、コンフォートノイズの特徴パラメータは、エネルギー情報及びスペクトル情報の情報のうち少なくとも1つを表すために使用されてもよい。
任意選択で、他の実施例として、エネルギー情報は、CELP励振エネルギーを含んでもよい。スペクトル情報は、線形予測フィルタ係数、FFT係数及びMDCT係数のうち少なくとも1つを含んでもよい。
線形予測フィルタ係数は、LSF係数、LSP係数、ISF係数、ISP係数、反射係数及びLPC係数のうち少なくとも1つを含んでもよい。
任意選択で、他の実施例として、第1の決定ユニット710は、現在の入力フレームの前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。或いは、第1の決定ユニット710は、現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。Lは正の整数である。
任意選択で、他の実施例として、第1の決定ユニット710は、現在の入力フレームの特徴パラメータが実際の静音信号の特徴パラメータであると決定してもよい。或いは、第1の決定ユニット710は、実際の静音信号の特徴パラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集してもよい。
任意選択で、他の実施例として、M個の静音フレームは、現在の入力フレームと、現在の入力フレームの前の(M-1)個の静音フレームとを含んでもよい。Mは正の整数である。
任意選択で、他の実施例として、コンフォートノイズの特徴パラメータは、コンフォートノイズの符号励振線形予測(CELP)励振エネルギー及びコンフォートノイズの線スペクトル周波数(LSF)係数を含んでもよい。実際の静音信号の特徴パラメータは、実際の静音信号のCELP励振エネルギー及び実際の静音信号のLSF係数を含んでもよい。第2の決定ユニット720は、コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定してもよい。
任意選択で、他の実施例として、距離Deが第1の閾値未満であり、距離Dlsfが第2の閾値未満である場合、第3の決定ユニット730は、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。距離Deが第1の閾値以上であるか、或いは距離Dlsfが第2の閾値以上である場合、第3の決定ユニット730は、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。
任意選択で、他の実施例として、デバイス700は、第4の決定ユニット750を更に含んでもよい。第4の決定ユニット750は、予め設定された第1の閾値及び予め設定された第2の閾値を取得してもよい。或いは、第4の決定ユニット750は、現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第1の閾値を決定し、N個の静音フレームのLSF係数に従って第2の閾値を決定してもよい。Nは正の整数である。
任意選択で、他の実施例として、第1の決定ユニット710は、第1の予測方式でコンフォートノイズを予測してもよい。第1の予測方式は、デコーダがコンフォートノイズを生成する方式と同じである。
デバイス700の他の機能及び動作については、前述の図1〜図3bの方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。
図8は、本発明の他の実施例による信号処理デバイスの概略ブロック図である。図8のデバイス800の例は、エンコーダ又はデコーダであり、例えば、図1に示すエンコーダ110又はデコーダ120である。デバイス800は、第1の決定ユニット810と、第2の決定ユニット820とを含む。
第1の決定ユニット810は、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離を決定する。P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームと他の(P-1)個の静音フレームとの間の加重スペクトル距離の和であり、Pは正の整数である。第2の決定ユニット820は、P個の静音フレームの中の各静音フレームの、第1の決定ユニット810により決定されたグループ加重スペクトル距離に従って第1のスペクトルパラメータを決定する。第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される第1のスペクトルパラメータは、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って決定される。これにより、コンフォートノイズの品質を改善する。
任意選択で、実施例として、各静音フレームは、重み係数の1つのグループに対応してもよい。重み係数の1つのグループにおいて、サブバンドの第1のグループに対応する重み係数は、サブバンドの第2のグループに対応する重み係数より大きく、サブバンドの第1のグループの知覚重要度は、サブバンドの第2のグループの知覚重要度より大きい。
任意選択で、他の実施例として、第2の決定ユニット820は、P個の静音フレームの中の第1の静音フレームのグループ加重スペクトル距離が最小になるように、P個の静音フレームから第1の静音フレームを選択してもよく、第1の静音フレームのスペクトルパラメータが第1のスペクトルパラメータであると決定してもよい。
任意選択で、他の実施例として、第2の決定ユニット820は、P個の静音フレームの中の少なくとも1つの静音フレームのグループ加重スペクトル距離が第3の閾値未満になるように、P個の静音フレームから少なくとも1つの静音フレームを選択し、少なくとも1つの静音フレームのスペクトルパラメータに従って第1のスペクトルパラメータを決定してもよい。
任意選択で、他の実施例として、デバイス800がエンコーダである場合、デバイス800は、符号化ユニット830を更に含んでもよい。
P個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(P-1)個の静音フレームとを含んでもよい。符号化ユニット830は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第2の決定ユニット820により決定された第1のスペクトルパラメータを含む。
デバイス800の他の機能及び動作については、前述の図4の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。
図9は、本発明の他の実施例による信号処理デバイスの概略ブロック図である。図9のデバイス900の例は、エンコーダ又はデコーダであり、例えば、図1に示すエンコーダ110又はデコーダ120である。デバイス900は、分割ユニット910と、第1の決定ユニット920と、第2の決定ユニット930とを含む。
分割ユニット910は、入力信号の周波数帯域をR個のサブバンドに分割する。Rは正の整数である。第1の決定ユニット920は、分割ユニット910が分割を実行した後に取得されたR個のサブバンドの各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離を決定する。S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離は、各サブバンドにおけるS個の静音フレームの中の各静音フレームと他の(S-1)個の静音フレームとの間のスペクトル距離の和であり、Sは正の整数である。第2の決定ユニット930は、各サブバンドにおいて、S個の静音フレームの中の各静音フレームの、第1の決定ユニット920により決定されたスペクトル距離に従って各サブバンドの第1のスペクトルパラメータを決定する。各サブバンドの第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される各サブバンドのスペクトルパラメータは、S個の静音フレームの中の各静音フレームのスペクトル距離に従ってR個のサブバンドの各サブバンドにおいて決定される。これにより、コンフォートノイズの品質を改善する。
任意選択で、実施例として、第2の決定ユニット930は、各サブバンドにおいてS個の静音フレームの中の第1の静音フレームのサブバンドグループスペクトル距離が最小になるように、各サブバンドにおいて、S個の静音フレームから第1の静音フレームを選択し、各サブバンドにおいて、第1の静音フレームのスペクトルパラメータが各サブバンドの第1のスペクトルパラメータであると決定してもよい。
任意選択で、他の実施例として、第2の決定ユニット930は、少なくとも1つの静音フレームのサブバンドグループスペクトル距離が第4の閾値未満になるように、各サブバンドにおいて、S個の静音フレームから少なくとも1つの静音フレームを選択し、各サブバンドにおいて、少なくとも1つの静音フレームのスペクトルパラメータに従って各サブバンドの第1のスペクトルパラメータを決定してもよい。
任意選択で、他の実施例として、デバイス900がエンコーダである場合、デバイス900は、符号化ユニット940を更に含んでもよい。
S個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(S-1)個の静音フレームとを含んでもよい。符号化ユニット940は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、各サブバンドの第1のスペクトルパラメータを含む。
デバイス900の他の機能及び動作については、前述の図5の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。
図10は、本発明の他の実施例による信号処理デバイスの概略ブロック図である。図10のデバイス1000の例は、エンコーダ又はデコーダであり、例えば、図1に示すエンコーダ110又はデコーダ120である。デバイス1000は、第1の決定ユニット1010と、第2の決定ユニット1020とを含む。
第1の決定ユニット1010は、T個の静音フレームの中の各静音フレームの第1のパラメータを決定する。第1のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数である。第2の決定ユニット1020は、T個の静音フレームの中の各静音フレームの、第1の決定ユニット1010により決定された第1のパラメータに従って第1のスペクトルパラメータを決定する。第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される第1のスペクトルパラメータは、スペクトルエントロピーを表すために使用されるT個の静音フレームの第1のパラメータに従って決定される。これにより、コンフォートノイズの品質を改善する。
任意選択で、実施例として、第2の決定ユニット1020は、T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ることが決定された場合、静音フレームの第1のグループのスペクトルパラメータに従って第1のスペクトルパラメータを決定してもよい。静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きい。T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ないことが決定された場合、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きい。
任意選択で、他の実施例として、クラスタ化基準は、静音フレームの第1のグループの中の各静音フレームの第1のパラメータと第1の平均値との間の距離が静音フレームの第1のグループの中の各静音フレームの第1のパラメータと第2の平均値との間の距離以下であること、静音フレームの第2のグループの中の各静音フレームの第1のパラメータと第2の平均値との間の距離が静音フレームの第2のグループの中の各静音フレームの第1のパラメータと第1の平均値との間の距離以下であること、第1の平均値と第2の平均値との間の距離が静音フレームの第1のグループの第1のパラメータと第1の平均値との間の平均距離より大きいこと、及び第1の平均値と第2の平均値との間の距離が静音フレームの第2のグループの第1のパラメータと第2の平均値との間の平均距離より大きいことを含んでもよい。第1の平均値は、静音フレームの第1のグループの第1のパラメータの平均値であり、第2の平均値は、静音フレームの第2のグループの第1のパラメータの平均値である。
任意選択で、他の実施例として、第2の決定ユニット1020は、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。異なる第iの静音フレーム及び第jの静音フレームについて、T個の静音フレームの中で、第iの静音フレームに対応する重み係数は、第jの静音サブフレームに対応する重み係数以上である。第1のパラメータがスペクトルエントロピーに正相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータより大きい。第1のパラメータがスペクトルエントロピーに負相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータ未満である。i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tである。
任意選択で、他の実施例として、デバイス1000がエンコーダである場合、デバイス1000は、符号化ユニット1030を更に含んでもよい。
T個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(T-1)個の静音フレームとを含んでもよい。符号化ユニット1030は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第1のスペクトルパラメータを含む。
デバイス1000の他の機能及び動作については、前述の図6の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。
図11は、本発明の他の実施例による信号符号化デバイスの概略ブロック図である。図11のデバイス1100の例は、エンコーダである。デバイス1100は、メモリ1110と、プロセッサ1120とを含む。
メモリ1110は、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラム可能読み取り専用メモリ、不揮発性メモリ、又はレジスタを含んでもよい。プロセッサ1120は、中央処理装置(Central Processing Unit、CPU)でもよい。
メモリ1110は、実行可能命令を記憶するように構成される。プロセッサ1120は、メモリ1110に記憶された実行可能命令を実行し、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定し、現在の入力フレームは静音フレームであり、コンフォートノイズと実際の静音信号との間の逸脱度を決定し、逸脱度に従って現在の入力フレームの符号化方式を決定し、現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含み、現在の入力フレームの符号化方式に従って現在の入力フレームを符号化してもよい。
本発明のこの実施例では、現在の入力フレームが単にアクティブ音声フレームの、統計収集を通じて取得された量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズが予測され、コンフォートノイズと実際の静音信号との間の逸脱度が決定され、逸脱度に従って現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。これにより、通信帯域幅を節約する。
任意選択で、実施例として、プロセッサ1120は、コンフォートノイズの特徴パラメータを予測し、実際の静音信号の特徴パラメータを決定してもよい。コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと1対1の対応関係にある。プロセッサ1120は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定してもよい。
任意選択で、他の実施例として、プロセッサ1120は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離は、閾値集合の中の閾値と1対1の対応関係にある。プロセッサ1120は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。
任意選択で、他の実施例として、コンフォートノイズの特徴パラメータは、エネルギー情報及びスペクトル情報の情報のうち少なくとも1つを表すために使用されてもよい。
任意選択で、他の実施例として、エネルギー情報は、CELP励振エネルギーを含んでもよい。スペクトル情報は、線形予測フィルタ係数、FFT係数及びMDCT係数のうち少なくとも1つを含んでもよい。線形予測フィルタ係数は、LSF係数、LSP係数、ISF係数、ISP係数、反射係数及びLPC係数のうち少なくとも1つを含んでもよい。
任意選択で、他の実施例として、プロセッサ1120は、現在の入力フレームの前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。或いは、プロセッサ1120は、現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。Lは正の整数である。
任意選択で、他の実施例として、プロセッサ1120は、現在の入力フレームの特徴パラメータが実際の静音信号のパラメータであると決定してもよい。或いは、プロセッサ1120は、実際の静音信号のパラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集してもよい。
任意選択で、他の実施例として、M個の静音フレームは、現在の入力フレームと、現在の入力フレームの前の(M-1)個の静音フレームとを含んでもよい。Mは正の整数である。
任意選択で、他の実施例として、コンフォートノイズの特徴パラメータは、コンフォートノイズの符号励振線形予測(CELP)励振エネルギー及びコンフォートノイズの線スペクトル周波数(LSF)係数を含んでもよい。実際の静音信号の特徴パラメータは、実際の静音信号のCELP励振エネルギー及び実際の静音信号のLSF係数を含んでもよい。プロセッサ1120は、コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定してもよい。
任意選択で、他の実施例として、距離Deが第1の閾値未満であり、距離Dlsfが第2の閾値未満である場合、プロセッサ1120は、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。距離Deが第1の閾値以上であるか、或いは距離Dlsfが第2の閾値以上である場合、プロセッサ1120は、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。
任意選択で、他の実施例として、プロセッサ1120は、予め設定された第1の閾値及び予め設定された第2の閾値を更に取得してもよい。或いは、プロセッサ1120は、現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第1の閾値を決定し、N個の静音フレームのLSF係数に従って第2の閾値を更に決定してもよい。Nは正の整数である。
任意選択で、他の実施例として、プロセッサ1120は、第1の予測方式でコンフォートノイズを予測してもよい。第1の予測方式は、デコーダがコンフォートノイズを生成する方式と同じである。
デバイス1100の他の機能及び動作については、前述の図1〜図3bの方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。
図12は、本発明の他の実施例による信号符号化デバイスの概略ブロック図である。図12のデバイス1200の例は、エンコーダ又はデコーダであり、例えば、図1に示すエンコーダ110又はデコーダ120である。デバイス1200は、メモリ1210と、プロセッサ1220とを含む。
メモリ1210は、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラム可能読み取り専用メモリ、不揮発性メモリ、又はレジスタを含んでもよい。プロセッサ1220は、CPUでもよい。
メモリ1210は、実行可能命令を記憶するように構成される。プロセッサ1220は、メモリ1210に記憶された実行可能命令を実行し、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離を決定し、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームと他の(P-1)個の静音フレームとの間の加重スペクトル距離の和であり、Pは正の整数であり、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って第1のスペクトルパラメータを決定してもよく、第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される第1のスペクトルパラメータは、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って決定される。これにより、コンフォートノイズの品質を改善する。
任意選択で、実施例として、各静音フレームは、重み係数の1つのグループに対応してもよい。重み係数の1つのグループにおいて、サブバンドの第1のグループに対応する重み係数は、サブバンドの第2のグループに対応する重み係数より大きく、サブバンドの第1のグループの知覚重要度は、サブバンドの第2のグループの知覚重要度より大きい。
任意選択で、他の実施例として、プロセッサ1220は、P個の静音フレームの中の第1の静音フレームのグループ加重スペクトル距離が最小になるように、P個の静音フレームから第1の静音フレームを選択してもよく、第1の静音フレームのスペクトルパラメータが第1のスペクトルパラメータであると決定してもよい。
任意選択で、他の実施例として、プロセッサ1220は、P個の静音フレームの中の少なくとも1つの静音フレームのグループ加重スペクトル距離が第3の閾値未満になるように、P個の静音フレームから少なくとも1つの静音フレームを選択し、少なくとも1つの静音フレームのスペクトルパラメータに従って第1のスペクトルパラメータを決定してもよい。
任意選択で、他の実施例として、デバイス1200がエンコーダである場合、P個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(P-1)個の静音フレームとを含んでもよい。プロセッサ1220は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第1のスペクトルパラメータを含む。
デバイス1200の他の機能及び動作については、前述の図4の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。
図13は、本発明の他の実施例による信号処理デバイスの概略ブロック図である。図13のデバイス1300の例は、エンコーダ又はデコーダであり、例えば、図1に示すエンコーダ110又はデコーダ120である。デバイス1300は、メモリ1310と、プロセッサ1320とを含む。
メモリ1310は、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラム可能読み取り専用メモリ、不揮発性メモリ、又はレジスタを含んでもよい。プロセッサ1320は、CPUでもよい。
メモリ1310は、実行可能命令を記憶するように構成される。プロセッサ1320は、メモリ1310に記憶された実行可能命令を実行し、入力信号の周波数帯域をR個のサブバンドに分割し、Rは正の整数であり、R個のサブバンドの各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離を決定し、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離は、各サブバンドにおけるS個の静音フレームの中の各静音フレームと他の(S-1)個の静音フレームとの間のスペクトル距離の和であり、Sは正の整数であり、各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従って各サブバンドの第1のスペクトルパラメータを決定してもよく、各サブバンドの第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される各サブバンドのスペクトルパラメータは、S個の静音フレームの中の各静音フレームのスペクトル距離に従ってR個のサブバンドの各サブバンドにおいて決定される。これにより、コンフォートノイズの品質を改善する。
任意選択で、実施例として、プロセッサ1320は、各サブバンドにおいてS個の静音フレームの中の第1の静音フレームのサブバンドグループスペクトル距離が最小になるように、各サブバンドにおいて、S個の静音フレームから第1の静音フレームを選択し、各サブバンドにおいて、第1の静音フレームのスペクトルパラメータが各サブバンドの第1のスペクトルパラメータであると決定してもよい。
任意選択で、他の実施例として、プロセッサ1320は、少なくとも1つの静音フレームのサブバンドグループスペクトル距離が第4の閾値未満になるように、各サブバンドにおいて、S個の静音フレームから少なくとも1つの静音フレームを選択し、各サブバンドにおいて、少なくとも1つの静音フレームのスペクトルパラメータに従って各サブバンドの第1のスペクトルパラメータを決定してもよい。
任意選択で、他の実施例として、デバイス1300がエンコーダである場合、S個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(S-1)個の静音フレームとを含んでもよい。プロセッサ1320は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、各サブバンドの第1のスペクトルパラメータを含む。
デバイス1300の他の機能及び動作については、前述の図5の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。
図14は、本発明の他の実施例による信号処理デバイスの概略ブロック図である。図14のデバイス1400の例は、エンコーダ又はデコーダであり、例えば、図1に示すエンコーダ110又はデコーダ120である。デバイス1400は、メモリ1410と、プロセッサ1420とを含む。
メモリ1410は、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラム可能読み取り専用メモリ、不揮発性メモリ、又はレジスタを含んでもよい。プロセッサ1420は、CPUでもよい。
メモリ1410は、実行可能命令を記憶するように構成される。プロセッサ1420は、メモリ1410に記憶された実行可能命令を実行し、T個の静音フレームの中の各静音フレームの第1のパラメータを決定し、第1のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数であり、T個の静音フレームの中の各静音フレームの第1のパラメータに従って第1のスペクトルパラメータを決定してもよく、第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される第1のスペクトルパラメータは、スペクトルエントロピーを表すために使用されるT個の静音フレームの第1のパラメータに従って決定される。これにより、コンフォートノイズの品質を改善する。
任意選択で、実施例として、プロセッサ1420は、T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ることが決定された場合、静音フレームの第1のグループのスペクトルパラメータに従って第1のスペクトルパラメータを決定してもよい。静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きい。T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ないことが決定された場合、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きい。
任意選択で、他の実施例として、クラスタ化基準は、静音フレームの第1のグループの中の各静音フレームの第1のパラメータと第1の平均値との間の距離が静音フレームの第1のグループの中の各静音フレームの第1のパラメータと第2の平均値との間の距離以下であること、静音フレームの第2のグループの中の各静音フレームの第1のパラメータと第2の平均値との間の距離が静音フレームの第2のグループの中の各静音フレームの第1のパラメータと第1の平均値との間の距離以下であること、第1の平均値と第2の平均値との間の距離が静音フレームの第1のグループの第1のパラメータと第1の平均値との間の平均距離より大きいこと、及び第1の平均値と第2の平均値との間の距離が静音フレームの第2のグループの第1のパラメータと第2の平均値との間の平均距離より大きいことを含んでもよい。第1の平均値は、静音フレームの第1のグループの第1のパラメータの平均値であり、第2の平均値は、静音フレームの第2のグループの第1のパラメータの平均値である。
任意選択で、他の実施例として、プロセッサ1420は、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。異なる第iの静音フレーム及び第jの静音フレームについて、T個の静音フレームの中で、第iの静音フレームに対応する重み係数は、第jの静音サブフレームに対応する重み係数以上である。第1のパラメータがスペクトルエントロピーに正相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータより大きい。第1のパラメータがスペクトルエントロピーに負相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータ未満である。i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tである。
任意選択で、他の実施例として、デバイス1400がエンコーダである場合、T個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(T-1)個の静音フレームとを含んでもよい。プロセッサ1420は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第1のスペクトルパラメータを含む。
デバイス1400の他の機能及び動作については、前述の図6の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。
当業者は、この明細書に開示された実施例に記載の例と組み合わせて、ユニット及びアルゴリズムのステップが、電子ハードウェア又はコンピュータソフトウェアと電子ハードウェアとの組み合わせにより実現されてもよいことを認識し得る。機能がハードウェアにより実行されるかソフトウェアにより実行されるかは、技術的対策の特定の用途及び設計上の制約条件に依存する。当業者は、特定の用途毎に記載の機能を実現するために異なる方法を使用してもよいが、この実現が本発明の範囲を超えるものとして考えられるべきではない。
便宜上且つ簡潔な説明の目的で、前述のシステム、装置及びユニットの詳細な動作処理について、前述の方法の実施例の対応する処理に参照が行われてもよく、詳細はここでは再び説明しないことが、当業者により明確に認識され得る。
この出願で提供される複数の実施例では、開示のシステム、装置及び方法は他の方式で実現されてもよいことが認識されるべきである。例えば、記載の装置の実施例は、単なる例示である。例えば、ユニットの分割は、単に論理的な機能分割であり、実際の実現では他の分割でもよい。例えば、複数のユニット又はコンポーネントは結合されてもよく、他のシステムに統合されてもよく、いくつかの機能が無視されてもよく実行されなくてもよい。更に、表示又は説明した相互結合若しくは直接結合又は通信接続は、いくつかのインタフェースを使用することにより実現されてもよい。装置又はユニットの間の間接結合又は通信接続は、電気的、機械的又は他の形式で実現されてもよい。
別々の部分として記載したユニットは、物理的に別々でもよく別々でなくてもよい。ユニットとして表示された部分は、物理的なユニットでもよく物理的なユニットでなくてもよく、1つの位置に存在してもよく、複数のネットワークユニットに分散されてもよい。ユニットの一部又は全部は、実施例の対策の目的を達成するために、実際のニーズに従って選択されてもよい。
更に、本発明の実施例における機能ユニットは、1つの処理ユニットに統合されてもよく、ユニットのそれぞれが物理的に単独で存在してもよく、2つ以上のユニットが1つのユニットに統合されてもよい。
機能がソフトウェア機能ユニットの形式で実現され、独立したプロダクトとして販売又は使用される場合、機能は、コンピュータ読み取り可能記憶媒体に記憶されてもよい。このような理解に基づいて、基本的に本発明の技術的対策若しくは従来技術に寄与する部分、又は技術的対策のいくつかは、ソフトウェアプロダクトの形式で実現されてもよい。コンピュータソフトウェアプロダクトは、記憶媒体に記憶され、コンピュータデバイス(パーソナルコンピュータ、サーバ又はネットワークデバイスでもよい)に対して本発明の実施例に記載の方法のステップの一部又は全部を実行するように命令する複数の命令を含む。前述の記憶媒体は、USBフラッシュドライブ、取り外し可能ハードディスク、読み取り専用メモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスク又は光ディスクのようなプログラムコードを記憶し得るいずれかの媒体を含む。
前述の説明は本発明の単に特定の実現方式に過ぎず、本発明の保護範囲を限定することを意図するものではない。本発明に開示された技術的範囲内で当業者により容易に認識される如何なる変更又は置換も、本発明の保護範囲内に入るものとする。従って、本発明の保護範囲は、特許請求の範囲の保護範囲に従うものとする。