JP2017199025A

JP2017199025A - 信号符号化方法及びデバイス

Info

Publication number: JP2017199025A
Application number: JP2017130240A
Authority: JP
Inventors: ▲哲▼ 王; Zhe Wang
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-05-30
Filing date: 2017-07-03
Publication date: 2017-11-02
Anticipated expiration: 2033-09-25
Also published as: PH12015502663A1; RU2665236C1; EP3745396A1; CA2911439C; CN105225668A; JP6291038B2; BR112015029310B1; RU2015155951A; JP6517276B2; US9886960B2; JP6680816B2; PH12018501871A1; AU2017204235B2; SG10201607798VA; KR102099752B1; PH12015502663B1; AU2013391207B2; WO2014190641A1; KR20160003192A; JP2016526188A

Abstract

【課題】通信帯域を節約することができる信号符号化方法及びデバイスを提供する。
【解決手段】現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定する。コンフォートノイズと実際の静音信号との間の逸脱度を決定する。逸脱度に従って現在の入力フレームの符号化方式を決定する。現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含む。現在の入力フレームの符号化方式に従って現在の入力フレームを符号化する。コンフォートノイズと実際の静音信号との間の逸脱度に従って、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。
【選択図】図２

Description

本発明は、信号処理の分野に関し、特に信号符号化方法及びデバイスに関する。

不連続送信（Discontinuous Transmission、DTX）システムは、広く適用された音声通信システムであり、音声通信の静音期間において、チャネル帯域幅の占有を低減するために、音声フレームを不連続に符号化及び送信する方式が使用され、その一方で十分な主観的通話品質が依然として確保され得る。

音声信号は、通常では２つの種類、すなわち、アクティブ音声信号及び静音信号に分類され得る。アクティブ音声信号は、通話音声を含む信号を示し、静音信号は、通話音声を含まない信号を示す。DTXシステムでは、アクティブ音声信号は、連続送信方法を使用することにより送信され、静音信号は、不連続送信方法を使用することにより送信される。静音信号の不連続送信は、以下の方式で実現される。エンコーダは、特別な符号化フレーム、すなわち、静音記述（Silence Descriptor、SID）フレームを間欠的に符号化して送信する。DTXシステムでは、２つの隣接するSIDフレームの間に他の信号フレームは符号化されない。デコーダは、不連続受信したSIDフレームに従って、ユーザの快適な主観的聴取を可能にするノイズを任意に生成する。コンフォートノイズ（Comfort Noise、CN）は、元の静音信号を正確に復元することを目的としておらず、主観的聴覚品質におけるデコーダのユーザの要件を満たすことを目的としており、ユーザが不快に感じないことを可能にする。

デコーダにおいてより良い主観的聴覚品質を得るために、アクティブ音声帯域からCN帯域への遷移の品質は重要である。より円滑な遷移を得るために、１つの効果的な方法は、アクティブ音声帯域から静音帯域への遷移中に、エンコーダは、直ちに不連続送信状態に遷移せず、ある期間だけ更に遅延する。この期間に、静音帯域の始めのいくつかの静音フレームは、依然としてアクティブ音声フレームとして考えられ、連続的に符号化されて送信される。すなわち、連続送信のハングオーバ区間が設定される。この手段の利点は、デコーダがより良いCNを生成するため、静音信号の特徴をより良く推定及び抽出するためにハングオーバ区間内の静音信号を十分に使用することができる点にある。

しかし、従来技術では、ハングオーバ機構は、効果的に制御されていない。ハングオーバ機構をトリガーする条件は比較的簡単である。すなわち、ハングオーバ機構をトリガーするか否かは、音声アクティビティの終わりに連続的に符号化されて送信されるのに十分なアクティブ音声フレームが存在するか否かを単に検査することにより決定される。ハングオーバ機構がトリガーされた後に、固定長のハングオーバ区間が強制的に実施され得る。しかし、連続的に符号化されて送信されるのに十分なアクティブ音声フレームが存在する場合、固定長のハングオーバ区間が実施されなければならないことは不要である。例えば、通信環境のバックグラウンドノイズが安定している場合、ハングオーバ区間が設定されていなくても、或いは短いハングオーバ区間が設定されていても、デコーダは、より良い品質を有するCNを得ることができる。従って、ハングオーバ機構を簡単に制御するこのモードは、通信帯域幅の浪費を生じる。

本発明の実施例は、通信帯域幅を節約することができる信号符号化方法及びデバイスを提供する。

第１の態様によれば、信号符号化方法が提供され、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームが静音記述（SID）フレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定するステップであり、現在の入力フレームは静音フレームであるステップと、コンフォートノイズと実際の静音信号との間の逸脱度を決定するステップと、逸脱度に従って現在の入力フレームの符号化方式を決定するステップであり、現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含むステップと、現在の入力フレームの符号化方式に従って現在の入力フレームを符号化するステップとを含む。

第１の態様を参照して、第１の可能な実現方式では、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定するステップは、コンフォートノイズの特徴パラメータを予測し、実際の静音信号の特徴パラメータを決定するステップであり、コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと１対１の対応関係にあるステップを含み、コンフォートノイズと実際の静音信号との間の逸脱度を決定するステップは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定するステップを含む。

第１の態様の第１の可能な実現方式を参照して、第２の可能な実現方式では、逸脱度に従って現在の入力フレームの符号化方式を決定するステップは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定するステップであり、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離は、閾値集合の中の閾値と１対１の対応関係にあるステップと、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定するステップとを含む。

第１の態様の第１の可能な実現方式又は第２の可能な実現方式を参照して、第３の可能な実現方式では、コンフォートノイズの特徴パラメータは、エネルギー情報及びスペクトル情報の情報のうち少なくとも１つを表すために使用される。

第１の態様の第３の可能な実現方式を参照して、第４の可能な実現方式では、エネルギー情報は、符号励振線形予測（CELP）励振エネルギーを含み、スペクトル情報は、線形予測フィルタ係数、高速フーリエ変換（FFT）係数及び修正離散コサイン変換（MDCT）係数のうち少なくとも１つを含み、線形予測フィルタ係数は、線スペクトル周波数（LSF）係数、線スペクトル対（LSP）係数、イミタンススペクトル周波数（ISF）係数、イミタンススペクトル対（ISP）係数、反射係数及び線形予測符号化（LPC）係数のうち少なくとも１つを含む。

第１の態様の第１の可能な実現方式から第４の可能な実現方式のいずれかの実現方式を参照して、第５の可能な実現方式では、コンフォートノイズの特徴パラメータを予測するステップは、現在の入力フレームの前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測するステップ、又は現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測するステップであり、Lは正の整数であるステップを含む。

第１の態様の第１の可能な実現方式から第５の可能な実現方式のいずれかの実現方式を参照して、第６の可能な実現方式では、実際の静音信号の特徴パラメータを決定するステップは、現在の入力フレームの特徴パラメータが実際の静音信号の特徴パラメータであると決定するステップ、又は実際の静音信号の特徴パラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集するステップを含む。

第１の態様の第６の可能な実現方式を参照して、第７の可能な実現方式では、M個の静音フレームは、現在の入力フレームと、現在の入力フレームの前の(M-1)個の静音フレームとを含み、Mは正の整数である。

第１の態様の第２の可能な実現方式を参照して、第８の可能な実現方式では、コンフォートノイズの特徴パラメータは、コンフォートノイズの符号励振線形予測（CELP）励振エネルギー及びコンフォートノイズの線スペクトル周波数（LSF）係数を含み、実際の静音信号の特徴パラメータは、実際の静音信号のCELP励振エネルギー及び実際の静音信号のLSF係数を含み、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定するステップは、コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定するステップを含む。

第１の態様の第８の可能な実現方式を参照して、第９の可能な実現方式では、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定するステップは、距離Deが第１の閾値未満であり、距離Dlsfが第２の閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定するステップを含み、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定するステップは、距離Deが第１の閾値以上であるか、或いは距離Dlsfが第２の閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定するステップを含む。

第１の態様の第９の可能な実現方式を参照して、第１０の可能な実現方式では、この方法は、予め設定された第１の閾値及び予め設定された第２の閾値を取得するステップ、又は現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第１の閾値を決定し、N個の静音フレームのLSF係数に従って第２の閾値を決定するステップであり、Nは正の整数であるステップを更に含む。

第１の態様又は第１の態様の第１の可能な実現方式から第１０の可能な実現方式のいずれかの実現方式を参照して、第１１の可能な実現方式では、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測するステップは、第１の予測方式でコンフォートノイズを予測するステップであり、第１の予測方式は、デコーダがコンフォートノイズを生成する方式と同じであるステップを含む。

第２の態様によれば、信号処理方法が提供され、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離を決定するステップであり、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームと他の(P-1)個の静音フレームとの間の加重スペクトル距離の和であり、Pは正の整数であるステップと、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って第１のスペクトルパラメータを決定するステップであり、第１のスペクトルパラメータは、コンフォートノイズを生成するために使用されるステップとを含む。

第２の態様を参照して、第１の可能な実現方式では、各静音フレームは、重み係数の１つのグループに対応し、重み係数の１つのグループにおいて、サブバンドの第１のグループに対応する重み係数は、サブバンドの第２のグループに対応する重み係数より大きく、サブバンドの第１のグループの知覚重要度は、サブバンドの第２のグループの知覚重要度より大きい。

第２の態様又は第２の態様の第１の可能な実現方式を参照して、第２の可能な実現方式では、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って第１のスペクトルパラメータを決定するステップは、P個の静音フレームの中の第１の静音フレームのグループ加重スペクトル距離が最小になるように、P個の静音フレームから第１の静音フレームを選択するステップと、第１の静音フレームのスペクトルパラメータが第１のスペクトルパラメータであると決定するステップとを含む。

第２の態様又は第２の態様の第１の可能な実現方式を参照して、第３の可能な実現方式では、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って第１のスペクトルパラメータを決定するステップは、P個の静音フレームの中の少なくとも１つの静音フレームのグループ加重スペクトル距離が第３の閾値未満になるように、P個の静音フレームから少なくとも１つの静音フレームを選択するステップと、少なくとも１つの静音フレームのスペクトルパラメータに従って第１のスペクトルパラメータを決定するステップとを含む。

第２の態様又は第２の態様の第１の可能な実現方式から第３の可能な実現方式のいずれかの実現方式を参照して、第４の可能な実現方式では、P個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(P-1)個の静音フレームとを含む。

第２の態様の第４の可能な実現方式を参照して、第５の可能な実現方式では、この方法は、現在の入力静音フレームを静音記述（SID）フレームに符号化するステップであり、SIDフレームは、第１のスペクトルパラメータを含むステップを更に含む。

第３の態様によれば、信号処理方法が提供され、入力信号の周波数帯域をR個のサブバンドに分割するステップであり、Rは正の整数であるステップと、R個のサブバンドの各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離を決定するステップであり、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離は、各サブバンドにおけるS個の静音フレームの中の各静音フレームと他の(S-1)個の静音フレームとの間のスペクトル距離の和であり、Sは正の整数であるステップと、各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従って各サブバンドの第１のスペクトルパラメータを決定するステップであり、各サブバンドの第１のスペクトルパラメータは、コンフォートノイズを生成するために使用されるステップとを含む。

第３の態様を参照して、第１の可能な実現方式では、各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従って各サブバンドの第１のスペクトルパラメータを決定するステップは、各サブバンドにおいてS個の静音フレームの中の第１の静音フレームのサブバンドグループスペクトル距離が最小になるように、各サブバンドにおいて、S個の静音フレームから第１の静音フレームを選択するステップと、各サブバンドにおいて、第１の静音フレームのスペクトルパラメータが各サブバンドの第１のスペクトルパラメータであると決定するステップとを含む。

第３の態様を参照して、第２の可能な実現方式では、各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従って各サブバンドの第１のスペクトルパラメータを決定するステップは、少なくとも１つの静音フレームのサブバンドグループスペクトル距離が第４の閾値未満になるように、各サブバンドにおいて、S個の静音フレームから少なくとも１つの静音フレームを選択するステップと、各サブバンドにおいて、少なくとも１つの静音フレームのスペクトルパラメータに従って各サブバンドの第１のスペクトルパラメータを決定するステップとを含む。

第３の態様、又は第３の態様の第１の可能な実現方式若しくは第２の可能な実現方式を参照して、第３の可能な実現方式では、S個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(S-1)個の静音フレームとを含む。

第３の態様の第３の可能な実現方式を参照して、第４の可能な実現方式では、この方法は、現在の入力静音フレームを静音記述（SID）フレームに符号化するステップであり、SIDフレームは、各サブバンドの第１のスペクトルパラメータを含むステップを更に含む。

第４の態様によれば、信号処理方法が提供され、T個の静音フレームの中の各静音フレームの第１のパラメータを決定するステップであり、第１のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数であるステップと、T個の静音フレームの中の各静音フレームの第１のパラメータに従って第１のスペクトルパラメータを決定するステップであり、第１のスペクトルパラメータは、コンフォートノイズを生成するために使用されるステップとを含む。

第４の態様を参照して、第１の可能な実現方式では、T個の静音フレームの中の各静音フレームの第１のパラメータに従って第１のスペクトルパラメータを決定するステップは、T個の静音フレームがクラスタ化基準に従って静音フレームの第１のグループ及び静音フレームの第２のグループに分類され得ることが決定された場合、静音フレームの第１のグループのスペクトルパラメータに従って第１のスペクトルパラメータを決定するステップであり、静音フレームの第１のグループの第１のパラメータにより表されるスペクトルエントロピーは、静音フレームの第２のグループの第１のパラメータにより表されるスペクトルエントロピーより大きいステップと、T個の静音フレームがクラスタ化基準に従って静音フレームの第１のグループ及び静音フレームの第２のグループに分類され得ないことが決定された場合、第１のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行するステップであり、静音フレームの第１のグループの第１のパラメータにより表されるスペクトルエントロピーは、静音フレームの第２のグループの第１のパラメータにより表されるスペクトルエントロピーより大きいステップとを含む。

第４の態様の第１の可能な実現方式を参照して、第２の可能な実現方式では、クラスタ化基準は、静音フレームの第１のグループの中の各静音フレームの第１のパラメータと第１の平均値との間の距離が静音フレームの第１のグループの中の各静音フレームの第１のパラメータと第２の平均値との間の距離以下であること、静音フレームの第２のグループの中の各静音フレームの第１のパラメータと第２の平均値との間の距離が静音フレームの第２のグループの中の各静音フレームの第１のパラメータと第１の平均値との間の距離以下であること、第１の平均値と第２の平均値との間の距離が静音フレームの第１のグループの第１のパラメータと第１の平均値との間の平均距離より大きいこと、及び第１の平均値と第２の平均値との間の距離が静音フレームの第２のグループの第１のパラメータと第２の平均値との間の平均距離より大きいことを含み、第１の平均値は、静音フレームの第１のグループの第１のパラメータの平均値であり、第２の平均値は、静音フレームの第２のグループの第１のパラメータの平均値である。

第４の態様を参照して、第３の可能な実現方式では、T個の静音フレームの中の各静音フレームの第１のパラメータに従って第１のスペクトルパラメータを決定するステップは、第１のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行するステップであり、異なる第iの静音フレーム及び第jの静音フレームについて、T個の静音フレームの中で、第iの静音フレームに対応する重み係数は、第jの静音サブフレームに対応する重み係数以上であり、第１のパラメータがスペクトルエントロピーに正相関している場合、第iの静音フレームの第１のパラメータは、第jの静音フレームの第１のパラメータより大きく、第１のパラメータがスペクトルエントロピーに負相関している場合、第iの静音フレームの第１のパラメータは、第jの静音フレームの第１のパラメータ未満であり、i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tであるステップを含む。

第４の態様又は第４の態様の第１の可能な実現方式から第３の可能な実現方式のいずれかの実現方式を参照して、第４の可能な実現方式では、T個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(T-1)個の静音フレームとを含む。

第４の態様の第４の可能な実現方式を参照して、第５の可能な実現方式では、この方法は、現在の入力静音フレームを静音記述（SID）フレームに符号化するステップであり、SIDフレームは、第１のスペクトルパラメータを含むステップを更に含む。

第５の態様によれば、信号符号化デバイスが提供され、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームが静音記述（SID）フレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定するように構成された第１の決定ユニットであり、現在の入力フレームは静音フレームである第１の決定ユニットと、第１の決定ユニットにより決定されたコンフォートノイズと第１の決定ユニットにより決定された実際の静音信号との間の逸脱度を決定するように構成された第２の決定ユニットと、第２の決定ユニットにより決定された逸脱度に従って現在の入力フレームの符号化方式を決定するように構成された第３の決定ユニットであり、現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含む第３の決定ユニットと、第３の決定ユニットにより決定された現在の入力フレームの符号化方式に従って現在の入力フレームを符号化するように構成された符号化ユニットとを含む。

第５の態様を参照して、第１の可能な実現方式では、第１の決定ユニットは、コンフォートノイズの特徴パラメータを予測し、実際の静音信号の特徴パラメータを決定するように具体的に構成され、コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと１対１の対応関係にあり、第２の決定ユニットは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定するように具体的に構成される。

第５の態様の第１の可能な実現方式を参照して、第２の可能な実現方式では、第３の決定ユニットは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定するように具体的に構成され、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離は、閾値集合の中の閾値と１対１の対応関係にあり、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定するように具体的に構成される。

第５の態様の第１の可能な実現方式又は第２の可能な実現方式を参照して、第３の可能な実現方式では、第１の決定ユニットは、現在の入力フレームの前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測するように、或いは現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測するように具体的に構成され、Lは正の整数である。

第５の態様の第１の可能な実現方式、第２の可能な実現方式又は第３の可能な実現方式を参照して、第４の可能な実現方式では、第１の決定ユニットは、現在の入力フレームの特徴パラメータが実際の静音信号のパラメータであると決定するように、或いは実際の静音信号のパラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集するように具体的に構成される。

第５の態様の第２の可能な実現方式を参照して、第５の可能な実現方式では、コンフォートノイズの特徴パラメータは、コンフォートノイズの符号励振線形予測（CELP）励振エネルギー及びコンフォートノイズの線スペクトル周波数（LSF）係数を含み、実際の静音信号の特徴パラメータは、実際の静音信号のCELP励振エネルギー及び実際の静音信号のLSF係数を含み、第２の決定ユニットは、コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定するように具体的に構成される。

第５の態様の第５の可能な実現方式を参照して、第６の可能な実現方式では、第３の決定ユニットは、距離Deが第１の閾値未満であり、距離Dlsfが第２の閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定するように具体的に構成され、第３の決定ユニットは、距離Deが第１の閾値以上であるか、或いは距離Dlsfが第２の閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定するように具体的に構成される。

第５の態様の第６の可能な実現方式を参照して、第７の可能な実現方式では、このデバイスは、予め設定された第１の閾値及び予め設定された第２の閾値を取得するように、或いは現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第１の閾値を決定し、N個の静音フレームのLSF係数に従って第２の閾値を決定するように構成された第４の決定ユニットを更に含み、Nは正の整数である。

第５の態様又は第５の態様の第１の可能な実現方式から第７の可能な実現方式のいずれかの実現方式を参照して、第８の可能な実現方式では、第１の決定ユニットは、第１の予測方式でコンフォートノイズを予測するように具体的に構成され、第１の予測方式は、デコーダがコンフォートノイズを生成する方式と同じである。

第６の態様によれば、信号処理デバイスが提供され、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離を決定するように構成された第１の決定ユニットであり、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームと他の(P-1)個の静音フレームとの間の加重スペクトル距離の和であり、Pは正の整数である第１の決定ユニットと、P個の静音フレームの中の各静音フレームの、第１の決定ユニットにより決定されたグループ加重スペクトル距離に従って第１のスペクトルパラメータを決定するように構成された第２の決定ユニットであり、第１のスペクトルパラメータは、コンフォートノイズを生成するために使用される第２の決定ユニットとを含む。

第６の態様を参照して、第１の可能な実現方式では、第２の決定ユニットは、P個の静音フレームの中の第１の静音フレームのグループ加重スペクトル距離が最小になるように、P個の静音フレームから第１の静音フレームを選択し、第１の静音フレームのスペクトルパラメータが第１のスペクトルパラメータであると決定するように具体的に構成される。

第６の態様を参照して、第２の可能な実現方式では、第２の決定ユニットは、P個の静音フレームの中の少なくとも１つの静音フレームのグループ加重スペクトル距離が第３の閾値未満になるように、P個の静音フレームから少なくとも１つの静音フレームを選択し、少なくとも１つの静音フレームのスペクトルパラメータに従って第１のスペクトルパラメータを決定するように具体的に構成される。

第６の態様、又は第６の態様の第１の可能な実現方式若しくは第２の可能な実現方式を参照して、第３の可能な実現方式では、P個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(P-1)個の静音フレームとを含み、このデバイスは、現在の入力静音フレームを静音記述（SID）フレームに符号化するように構成された符号化ユニットであり、SIDフレームは、第２の決定ユニットにより決定された第１のスペクトルパラメータを含む符号化ユニットを更に含む。

第７の態様によれば、信号処理デバイスが提供され、入力信号の周波数帯域をR個のサブバンドに分割するように構成された分割ユニットであり、Rは正の整数である分割ユニットと、分割ユニットが分割を実行した後に取得されたR個のサブバンドの各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離を決定するように構成された第１の決定ユニットであり、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離は、各サブバンドにおけるS個の静音フレームの中の各静音フレームと他の(S-1)個の静音フレームとの間のスペクトル距離の和であり、Sは正の整数である第１の決定ユニットと、分割ユニットが分割を実行した後に取得された各サブバンドにおいて、S個の静音フレームの中の各静音フレームの、第１の決定ユニットにより決定されたサブバンドグループスペクトル距離に従って各サブバンドの第１のスペクトルパラメータを決定するように構成された第２の決定ユニットであり、各サブバンドの第１のスペクトルパラメータは、コンフォートノイズを生成するために使用される第２の決定ユニットとを含む。

第７の態様を参照して、第１の可能な実現方式では、第２の決定ユニットは、各サブバンドにおいてS個の静音フレームの中の第１の静音フレームのサブバンドグループスペクトル距離が最小になるように、各サブバンドにおいて、S個の静音フレームから第１の静音フレームを選択し、各サブバンドにおいて、第１の静音フレームのスペクトルパラメータが各サブバンドの第１のスペクトルパラメータであると決定するように具体的に構成される。

第７の態様を参照して、第２の可能な実現方式では、第２の決定ユニットは、少なくとも１つの静音フレームのサブバンドグループスペクトル距離が第４の閾値未満になるように、各サブバンドにおいて、S個の静音フレームから少なくとも１つの静音フレームを選択し、各サブバンドにおいて、少なくとも１つの静音フレームのスペクトルパラメータに従って各サブバンドの第１のスペクトルパラメータを決定するように具体的に構成される。

第７の態様、又は第７の態様の第１の可能な実現方式若しくは第２の可能な実現方式を参照して、第３の可能な実現方式では、S個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(S-1)個の静音フレームとを含み、このデバイスは、現在の入力静音フレームを静音記述（SID）フレームに符号化するように構成された符号化ユニットであり、SIDフレームは、各サブバンドの第１のスペクトルパラメータを含む符号化ユニットを更に含む。

第８の態様によれば、信号処理デバイスが提供され、T個の静音フレームの中の各静音フレームの第１のパラメータを決定するように構成された第１の決定ユニットであり、第１のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数である第１の決定ユニットと、T個の静音フレームの中の各静音フレームの、第１の決定ユニットにより決定された第１のパラメータに従って第１のスペクトルパラメータを決定するように構成された第２の決定ユニットであり、第１のスペクトルパラメータは、コンフォートノイズを生成するために使用される第２の決定ユニットとを含む。

第８の態様を参照して、第１の可能な実現方式では、第２の決定ユニットは、T個の静音フレームがクラスタ化基準に従って静音フレームの第１のグループ及び静音フレームの第２のグループに分類され得ることが決定された場合、静音フレームの第１のグループのスペクトルパラメータに従って第１のスペクトルパラメータを決定するように具体的に構成され、静音フレームの第１のグループの第１のパラメータにより表されるスペクトルエントロピーは、静音フレームの第２のグループの第１のパラメータにより表されるスペクトルエントロピーより大きく、T個の静音フレームがクラスタ化基準に従って静音フレームの第１のグループ及び静音フレームの第２のグループに分類され得ないことが決定された場合、第１のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行するように具体的に構成され、静音フレームの第１のグループの第１のパラメータにより表されるスペクトルエントロピーは、静音フレームの第２のグループの第１のパラメータにより表されるスペクトルエントロピーより大きい。

第８の態様を参照して、第２の可能な実現方式では、第２の決定ユニットは、第１のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行するように具体的に構成され、異なる第iの静音フレーム及び第jの静音フレームについて、T個の静音フレームの中で、第iの静音フレームに対応する重み係数は、第jの静音サブフレームに対応する重み係数以上であり、第１のパラメータがスペクトルエントロピーに正相関している場合、第iの静音フレームの第１のパラメータは、第jの静音フレームの第１のパラメータより大きく、第１のパラメータがスペクトルエントロピーに負相関している場合、第iの静音フレームの第１のパラメータは、第jの静音フレームの第１のパラメータ未満であり、i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tである。

第８の態様、又は第８の態様の第１の可能な実現方式若しくは第２の可能な実現方式を参照して、第３の可能な実現方式では、T個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(T-1)個の静音フレームとを含み、このデバイスは、現在の入力静音フレームを静音記述（SID）フレームに符号化するように構成された符号化ユニットであり、SIDフレームは、第１のスペクトルパラメータを含む符号化ユニットを更に含む。

本発明の実施例では、現在の入力フレームが単にアクティブ音声フレームの、統計収集を通じて取得された量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズが予測され、コンフォートノイズと実際の静音信号との間の逸脱度が決定され、逸脱度に従って現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。これにより、通信帯域幅を節約する。

本発明の実施例の技術的対策を明確に説明するために、以下に、本発明の実施例を説明するために必要な添付図面を簡単に紹介する。明らかに、以下の説明において添付図面は、本発明の単に幾つかの実施例を示しているに過ぎず、当業者は、創造的取り組みを行うことなく、これらの添付図面から依然として他の図面を導き得る。
本発明の実施例による音声通信システムの概略ブロック図本発明の実施例による信号符号化方法の概略フローチャート本発明の実施例による信号符号化方法の処理の概略フローチャート本発明の他の実施例による信号符号化方法の処理の概略フローチャート本発明の実施例による信号処理方法の概略フローチャート本発明の他の実施例による信号処理方法の概略フローチャート本発明の他の実施例による信号処理方法の概略フローチャート本発明の実施例による信号符号化デバイスの概略ブロック図本発明の他の実施例による信号処理デバイスの概略ブロック図本発明の他の実施例による信号処理デバイスの概略ブロック図本発明の他の実施例による信号処理デバイスの概略ブロック図本発明の他の実施例による信号符号化デバイスの概略ブロック図本発明の他の実施例による信号処理デバイスの概略ブロック図本発明の他の実施例による信号処理デバイスの概略ブロック図本発明の他の実施例による信号処理デバイスの概略ブロック図

以下に、本発明の実施例の添付図面を参照して、本発明の実施例の技術的対策を明確且つ完全に説明する。明らかに、説明する実施例は、本発明の実施例の全てではなく、一部である。創造的取り組みを行うことなく、本発明の実施例に基づいて当業者により得られる全ての他の実施例は、本発明の保護範囲内に入るものとする。

図１は、本発明の実施例による音声通信システムの概略ブロック図である。

図１のシステム100は、DTXシステムでもよい。システム100は、エンコーダ110とデコーダ120とを含んでもよい。

エンコーダ110は、入力時間ドメインの音声信号を音声フレームに切り詰め、音声フレームを符号化し、符号化された音声フレームをデコーダ120に送信してもよい。デコーダ120は、エンコーダ110から符号化された音声フレームを受信し、符号化された音声フレームを復号化し、復号化された時間ドメインの音声信号を出力してもよい。

エンコーダ110は、音声アクティビティ検出器（Voice Activity Detector、VAD）110aを更に含んでもよい。VAD110aは、現在の入力音声フレームがアクティブ音声フレームであるか静音フレームであるかを検出してもよい。アクティブ音声フレームは、通話音声信号を含むフレームを表してもよく、静音フレームは、通話音声信号を含まないフレームを表してもよい。ここで、静音フレームは、エネルギーが静音閾値未満であるミュートフレームを含んでもよく、また、バックグラウンドノイズフレームを含んでもよい。エンコーダ110は、２つの動作状態、すなわち、連続送信状態及び不連続送信状態を有してもよい。エンコーダ110が連続送信状態で動作する場合、エンコーダ110は、各入力音声フレームを符号化し、符号化されたフレームを送信してもよい。エンコーダ110が不連続送信状態で動作する場合、エンコーダ110は、入力音声フレームを符号化しなくてもよく、音声フレームをSIDフレームに符号化してもよい。一般的に、入力音声フレームが静音フレームである場合にのみ、エンコーダ110は、不連続送信状態で動作する。

現在の入力静音フレームがアクティブ音声帯域の最後の後の最初のフレームであり、アクティブ音声帯域が、存在し得るハングオーバ区間を含む場合、エンコーダ110は、静音フレームをSIDフレームに符号化してもよい。SID_FIRSTは、SIDフレームを表すために使用されてもよい。現在の入力静音フレームが前のSIDフレームの後の第nのフレームであり、nは正の整数であり、現在の入力静音フレームと前のSIDフレームとの間にアクティブ音声フレームが存在しない場合、エンコーダ110は、静音フレームをSIDフレームに符号化してもよい。SID_UPDATEは、SIDフレームを表すために使用されてもよい。

SIDフレームは、静音信号の特徴を記述するいくつかの情報を含んでもよい。デコーダは、特徴情報に従ってコンフォートノイズを生成してもよい。例えば、SIDフレームは、静音信号のエネルギー情報及びスペクトル情報を含んでもよい。更に、例えば、静音信号のエネルギー情報は、符号励振線形予測（Code Excited Linear Prediction、CELP）モデルの励振信号のエネルギー、又は静音信号の時間ドメインのエネルギーを含んでもよい。スペクトル情報は、線スペクトル周波数（Line Spectral Frequency、LSF）係数、線スペクトル対（Line Spectrum Pair、LSP）係数、イミタンススペクトル周波数（Immittance Spectral Frequency、ISF）係数、イミタンススペクトル対（Immittance Spectral Pair、ISP）係数、線形予測符号化（Linear Predictive Coding、LPC）係数、高速フーリエ変換（Fast Fourier Transform、FFT）係数又は修正離散コサイン変換（Modified Discrete Cosine Transform、MDCT）係数等を含んでもよい。

符号化された音声フレームは、３つの種類、すなわち、符号化された音声フレーム、SIDフレーム及びNO_DATAフレームを含んでもよい。符号化された音声フレームは、連続送信状態においてエンコーダ110により符号化されたフレームであり、NO_DATAフレームは、符号化されたビットを有さないフレーム、すなわち、SIDフレームの間にある符号化されない静音フレームのような物理的に存在しないフレームを表してもよい。

デコーダ120は、エンコーダ110から符号化された音声フレームを受信し、符号化された音声フレームを復号化してもよい。符号化された音声フレームが受信された場合、デコーダは、フレームを直接復号化し、時間ドメインの音声フレームを出力してもよい。SIDフレームが受信された場合、デコーダは、SIDフレームを復号化し、SIDフレームにおけるハングオーバ長情報、エネルギー情報及びスペクトル情報を取得してもよい。具体的に、SIDフレームがSID_UPDATEである場合、デコーダは、静音信号のエネルギー情報及びスペクトル情報を取得してもよい。すなわち、CNパラメータに従って時間ドメインのCNフレームを生成するため、現在のSIDフレームの情報に従って、或いは現在のSIDフレームの情報に従って且つ他の情報を参照して、CNパラメータを取得してもよい。SIDフレームがSID_FIRSTである場合、デコーダは、時間ドメインのCNフレームを生成するため、SIDフレームのハングオーバ長情報に従って、フレームの前のm個のフレームのエネルギー及びスペクトルの統計情報を取得し、SIDフレームの中の復号化を通じて取得された情報を参照してCNパラメータを取得する。mは正の整数である。NO_DATAフレームがデコーダに入力された場合、デコーダは、時間ドメインのCNフレームを生成するため、最近受信したSIDフレームに従って且つ他の情報を参照して、CNパラメータを取得する。

図２は、本発明の実施例による信号符号化方法の概略フローチャートである。図２の方法は、エンコーダにより実行され、例えば、図１のエンコーダ110により実行されてもよい。

210：現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定する。現在の入力フレームは静音フレームである。

本発明のこの実施例では、実際の静音信号は、エンコーダに入力される実際の静音信号を示してもよい。

220：コンフォートノイズと実際の静音信号との間の逸脱度を決定する。

230：逸脱度に従って現在の入力フレームの符号化方式を決定する。現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含む。

具体的に、ハングオーバフレーム符号化方式は、連続符号化方式を示してもよい。エンコーダは、連続符号化方式でハングオーバ区間の静音フレームを符号化してもよく、符号化を通じて取得されたフレームは、ハングオーバフレームと呼ばれてもよい。

240：現在の入力フレームの符号化方式に従って現在の入力フレームを符号化する。

ステップ210において、エンコーダは、異なる要因に従って、連続符号化方式で現在の入力フレームの前のフレームを符号化することを決定してもよい。例えば、前のフレームがアクティブ音声帯域にあるとエンコーダのVADが決定した場合、又は前のフレームがハングオーバ区間にあるとエンコーダが決定した場合、エンコーダは、前のフレームを連続符号化方式で符号化してもよい。

入力音声信号が静音帯域に入った後に、エンコーダは、実際の状況に従って連続送信状態で動作するか不連続送信状態で動作するかを決定してもよい。従って、静音フレームとして使用される現在の入力フレームについて、エンコーダは、どのように現在の入力フレームを符号化するかを決定する必要がある。

現在の入力フレームは、入力音声信号が静音帯域に入った後の最初の静音フレームでもよく、また、入力音声信号が静音帯域に入った後の第nのフレームでもよい。nは1より大きい正の整数である。

現在の入力フレームが最初の静音フレームである場合、ステップ230において、エンコーダが現在の入力フレームの符号化方式を決定することは、ハングオーバ区間が設定される必要があるか否かを決定し、ハングオーバ区間が設定される必要がある場合、エンコーダは、現在の入力フレームをハングオーバフレームに符号化してもよく、ハングオーバ区間が設定される必要がない場合、エンコーダは、現在の入力フレームをSIDフレームに符号化してもよい。

現在の入力フレームが第nの静音フレームであり、現在の入力フレームがハングオーバ区間にあることをエンコーダが決定することができる場合、すなわち、現在の入力フレームの前の静音フレームが連続的に符号化されている場合、ステップ230において、エンコーダが現在の入力フレームの符号化方式を決定することは、ハングオーバ区間を終了するか否かを決定し、ハングオーバ区間を終了する必要がある場合、エンコーダは、現在の入力フレームをSIDフレームに符号化してもよく、ハングオーバ区間を延長する必要がある場合、エンコーダは、現在の入力フレームをハングオーバフレームに符号化してもよい。

現在の入力フレームが第nの静音フレームであり、ハングオーバ機構が存在しない場合、ステップ230において、エンコーダは、デコーダが符号化された現在の入力フレームを復号化した後により良いコンフォートノイズ信号を取得することができるように、現在の入力フレームの符号化方式を決定する必要がある。

認識できるように、本発明のこの実施例は、ハングオーバ機構のトリガーシナリオに適用可能であるだけでなく、ハングオーバ機構の実行シナリオにも適用可能であり、また、ハングオーバ機構が存在しないシナリオにも適用可能である。具体的に、本発明のこの実施例では、ハングオーバ機構をトリガーするか否かが決定されてもよく、事前にハンドオーバ機構を終了するか否かも決定されてもよい。或いは、ハングオーバ機構が存在しないシナリオでは、本発明のこの実施例では、より良い符号化効果及び復号化効果を実現するため、静音フレームの符号化方式が決定されてもよい。

具体的に、エンコーダが現在の入力フレームをSIDフレームに符号化することが仮定されてもよい。デコーダがSIDフレームを受信した場合、デコーダは、SIDフレームに従ってコンフォートノイズを生成し、エンコーダは、コンフォートノイズを予測してもよい。次に、エンコーダは、コンフォートノイズと、エンコーダに入力された実際の静音信号との間の逸脱度を推定してもよい。ここで、逸脱度は、類似度として理解されてもよい。予測されたコンフォートノイズが実際の静音信号に十分に近い場合、エンコーダは、ハングオーバ区間が設定される必要がないと考えてもよく、ハングオーバ区間が延長される必要がないと考えてもよい。

従来技術では、固定長のハングオーバ区間を実行するか否かは、単にアクティブ音声フレームの量における統計を収集することにより決定される。すなわち、連続的に符号化されるのに十分なアクティブ音声フレームが存在する場合、固定長のハングオーバ区間が設定される。現在の入力フレームが最初の静音フレームであるか、ハングオーバ区間にある第nの静音フレームであるか否かに拘わらず、現在の入力フレームは、ハングオーバフレームに符号化される。しかし、不要なハングオーバフレームは、通信帯域幅の浪費を生じ得る。しかし、本発明のこの実施例では、現在の入力フレームが単にアクティブ音声フレームの量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームの符号化方式は、予測されたコンフォートノイズと実際の静音信号との間の逸脱度に従って決定される。これにより、通信帯域幅を節約する。

本発明のこの実施例では、現在の入力フレームが単にアクティブ音声フレームの、統計収集を通じて取得された量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズが予測され、コンフォートノイズと実際の静音信号との間の逸脱度が決定され、逸脱度に従って現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。これにより、通信帯域幅を節約する。

任意選択で、実施例として、ステップ210において、エンコーダは、第１の予測方式でコンフォートノイズを予測してもよい。第１の予測方式は、デコーダがコンフォートノイズを生成する方式と同じである。

具体的に、エンコーダ及びデコーダは、同じ方式でコンフォートノイズを決定してもよく、エンコーダ及びデコーダは、異なる方式でコンフォートノイズを決定してもよい。これは本発明のこの実施例では限定されない。

任意選択で、実施例として、ステップ210において、エンコーダは、コンフォートノイズの特徴パラメータを予測し、実際の静音信号の特徴パラメータを決定してもよい。コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと１対１の対応関係にある。ステップ220において、エンコーダは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定してもよい。

具体的に、コンフォートノイズと実際の静音信号との間の逸脱度を決定するため、エンコーダは、特徴パラメータの間の距離を取得するために、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとを比較してもよい。コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと１対１の対応関係にあるべきである。すなわち、コンフォートノイズの特徴パラメータの種類は、実際の静音信号の特徴パラメータの種類と同じである。例えば、エンコーダは、コンフォートノイズのエネルギーパラメータと実際の静音信号のエネルギーパラメータとを比較してもよく、また、コンフォートノイズのスペクトルパラメータと実際の静音信号のスペクトルパラメータとを比較してもよい。

本発明のこの実施例では、特徴パラメータがスカラーである場合、特徴パラメータの間の距離は、特徴パラメータの間の差の絶対値、すなわち、スカラー距離を示してもよい。特徴パラメータがベクトルである場合、特徴パラメータの間の距離は、特徴パラメータの間の対応する要素のスカラー距離の和を示してもよい。

任意選択で、他の実施例として、ステップ230において、エンコーダは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離は、閾値集合の中の閾値と１対１の対応関係にある。エンコーダはまた、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。

具体的に、コンフォートノイズの特徴パラメータ及び実際の静音信号の特徴パラメータは、少なくとも１つのパラメータをそれぞれ含んでもよい。従って、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離はまた、少なくとも１つの種類のパラメータの間の距離を含んでもよい。閾値集合もまた、少なくとも１つの閾値を含んでもよい。各種類のパラメータの間の距離は、１つの閾値に対応してもよい。現在の入力フレームの符号化方式を決定する場合、エンコーダは、少なくとも１つの種類のパラメータと閾値集合の中の対応する閾値との間の距離を別々に比較してもよい。閾値集合の中の少なくとも１つの閾値は、予め設定されてもよく、また、現在の入力フレームの前の複数の静音フレームの特徴パラメータに従ってエンコーダにより決定されてもよい。

コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、エンコーダは、コンフォートノイズが実際の静音信号に十分に近いと考えてもよく、従って、現在の入力フレームをSIDフレームに符号化してもよい。コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、エンコーダは、コンフォートノイズと実際の静音信号との間の逸脱が比較的大きいと考えてもよく、従って、現在の入力フレームをハングオーバフレームに符号化してもよい。

任意選択で、他の実施例として、コンフォートノイズの特徴パラメータは、エネルギー情報及びスペクトル情報の情報のうち少なくとも１つを表すために使用されてもよい。

任意選択で、他の実施例として、エネルギー情報は、CELP励振エネルギーを含んでもよい。スペクトル情報は、線形予測フィルタ係数、FFT係数及びMDCT係数のうち少なくとも１つを含んでもよい。線形予測フィルタ係数は、LSF係数、LSP係数、ISF係数、ISP係数、反射係数及びLPC係数のうち少なくとも１つを含んでもよい。

任意選択で、他の実施例として、ステップ210において、エンコーダは、現在の入力フレームの特徴パラメータが実際の静音信号の特徴パラメータであると決定してもよい。或いは、エンコーダは、実際の静音信号の特徴パラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集してもよい。

任意選択で、他の実施例として、M個の静音フレームは、現在の入力フレームと、現在の入力フレームの前の(M-1)個の静音フレームとを含んでもよい。Mは正の整数である。

例えば、現在の入力フレームが最初の静音フレームである場合、実際の静音信号の特徴パラメータは、現在の入力フレームの特徴パラメータでもよい。現在の入力フレームが第nの静音フレームである場合、実際の静音信号の特徴パラメータは、現在の入力フレームを含むM個の静音フレームの特徴パラメータにおける統計を収集することにより、エンコーダにより取得されてもよい。M個の静音フレームは、連続的でもよく、また、不連続的でもよく、これは本発明の実施例で限定されない。

任意選択で、他の実施例として、ステップ210において、エンコーダは、現在の入力フレームの前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。或いは、エンコーダは、現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。Lは正の整数である。

例えば、現在の入力フレームが最初の静音フレームである場合、エンコーダは、前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。各フレームを符号化する場合、エンコーダは、エンコーダに各フレームのコンフォートノイズパラメータを保存してもよい。通常では、入力フレームが静音フレームである場合にのみ、保存されたコンフォートノイズパラメータは、前のフレームのものに対して変化してもよい。この理由は、エンコーダは、現在の入力静音フレームの特徴パラメータに従って保存されたコンフォートノイズパラメータを更新してもよいからであり、通常では、現在の入力静音フレームがアクティブ音声フレームである場合、コンフォートノイズパラメータを更新しないからである。従って、エンコーダは、エンコーダに記憶された前のフレームのコンフォートノイズパラメータを取得してもよい。例えば、コンフォートノイズパラメータは、静音信号のエネルギーパラメータ及びスペクトルパラメータを含んでもよい。

更に、現在の入力フレームがハングオーバ区間に現在ある場合、エンコーダは、現在の入力フレームの前のL個のハングオーバフレームのパラメータにおける統計を収集し、統計収集を通じて取得された結果及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを取得してもよい。

任意選択で、他の実施例として、コンフォートノイズの特徴パラメータは、コンフォートノイズのCELP励振エネルギー及びコンフォートノイズのLSF係数を含んでもよく、実際の静音信号の特徴パラメータは、実際の静音信号のCELP励振エネルギー及び実際の静音信号のLSF係数を含んでもよい。ステップ220において、エンコーダは、コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定してもよい。

距離De及び距離Dlsfは、１つの変化量を含んでもよく、変化量のグループを含んでもよい点に留意すべきである。例えば、距離Dlsfは２つの変化量を含んでもよく、一方の変化量は、LSF係数の間の平均距離、すなわち、LSF係数の間の距離の平均値でもよく、他方の変化量は、LSF係数の間の最大距離、すなわち、最大距離を有するLSF係数の対の間の距離でもよい。

任意選択で、他の実施例として、ステップ230において、距離Deが第１の閾値未満であり、距離Dlsfが第２の閾値未満である場合、エンコーダは、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。距離Deが第１の閾値以上であるか、或いは距離Dlsfが第２の閾値以上である場合、エンコーダは、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。第１の閾値及び第２の閾値は共に、閾値集合に属する。

任意選択で、他の実施例として、De又はDlsfが変化量のグループを含む場合、エンコーダは、現在の入力フレームを符号化する方式を決定するため、変化量のグループの中の各変化量と対応する閾値とを比較する。

具体的に、エンコーダは、距離De及び距離Dlsfに従って現在の入力フレームの符号化方式を決定してもよい。距離De<第１の閾値、且つ、距離Dlsf<第２の閾値である場合、これは、予測されたコンフォートノイズのCELP励振エネルギー及びLSF係数が実際の静音信号のCELP励振エネルギー及びLSF係数とわずかに異なることを示してもよく、エンコーダは、コンフォートノイズが実際の静音信号に十分に近いと考えてもよく、現在の入力フレームをSIDフレームに符号化してもよい。そうでない場合、エンコーダは、現在の入力フレームをハングオーバフレームに符号化してもよい。

任意選択で、他の実施例として、ステップ230において、エンコーダは、予め設定された第１の閾値及び予め設定された第２の閾値を取得してもよい。或いは、エンコーダは、現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第１の閾値を決定し、N個の静音フレームのLSF係数に従って第２の閾値を決定してもよい。Nは正の整数である。

具体的に、第１の閾値及び第２の閾値の双方は、予め設定された固定値でもよい。或いは、第１の閾値及び第２の閾値の双方は、自己適応の変化量でもよい。例えば、第１の閾値は、現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーにおける統計を収集することにより、エンコーダにより取得されてもよく、第２の閾値は、現在の入力フレームの前のN個の静音フレームのLSF係数における統計を収集することにより、エンコーダにより取得されてもよい。N個の静音フレームは、連続的でもよく、また、不連続的でもよい。

以下に、図２の具体的な処理について、具体的な例を使用することにより詳細に説明する。図３ａ及び図３ｂの例では、本発明のこの実施例が適用され得る２つのシナリオが説明のために使用される。これらの例は、本発明のこの実施例の範囲を限定するのではなく、当業者が本発明のこの実施例をより良く理解することに役立てることのみを意図している。

図３ａは、本発明の実施例による信号符号化方法の処理の概略フローチャートである。図３ａにおいて、現在の入力フレームの前のフレームの符号化方式が連続符号化方式であり、現在の入力フレームが入力音声信号が静音帯域に入った後の最初の静音フレームであることをエンコーダのVADが決定したことが仮定される。この場合、エンコーダは、ハングオーバ区間を設定するか否かを決定する必要がある。すなわち、現在の入力フレームをハングオーバフレームに符号化するかSIDフレームに符号化するかを決定する必要がある。以下に、この処理について詳細に説明する。

301a：実際の静音信号のCELP励振エネルギー及びLSF係数を決定する。

具体的に、エンコーダは、現在の入力フレームのCELP励振エネルギーeを、実際の静音信号のCELP励振エネルギーeSIとして使用してもよく、現在の入力フレームのLSF係数lsf(i)を、現在の入力フレームのLSF係数lsfSI(i)として使用してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。エンコーダは、従来技術を参照して現在の入力フレームのCELP励振エネルギー及びLSF係数を決定してもよい。

302a：現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズのCELP励振エネルギー及びLSF係数を予測する。

エンコーダが現在の入力フレームをSIDフレームに符号化し、デコーダがSIDフレームに従ってコンフォートノイズを生成することが仮定されてもよい。エンコーダは、コンフォートノイズのCELP励振エネルギーeCN及びLSF係数lsfCN(i)を予測してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。エンコーダは、エンコーダに記憶された前のフレームのコンフォートノイズパラメータ及び現在の入力フレームのCELP励振エネルギー及びLSF係数に従ってコンフォートノイズのCELP励振エネルギー及びLSF係数を別々に決定してもよい。

例えば、エンコーダは、以下の式(1)に従ってコンフォートノイズのCELP励振エネルギーeCNを予測してもよい。

ここで、eCN^[-1]は前のフレームのCELP励振エネルギーを表してもよく、eは現在の入力フレームのCELP励振エネルギーを表してもよい。

エンコーダは、以下の式(2)に従ってコンフォートノイズのLSF係数lsfCN(i)を予測してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。

ここで、lsfCN^[-1](i)は前のフレームのLSF係数を表してもよく、lsf(i)は現在の入力フレームの第iのLSF係数を表してもよい。

303a：コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定する。

具体的に、エンコーダは、以下の式(3)に従ってコンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定してもよい。

エンコーダは、以下の式(4)に従ってコンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定してもよい。

304a：距離Deが第１の閾値未満であるか否か、及び距離Dlsfが第２の閾値未満であるか否かを決定する。

具体的に、第１の閾値及び第２の閾値の双方は、予め設定された固定値でもよい。

或いは、第１の閾値及び第２の閾値の双方は、自己適応の変化量でもよい。エンコーダは、現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第１の閾値を決定してもよい。例えば、エンコーダは、以下の式(5)に従って第１の閾値thr1を決定してもよい。

エンコーダは、N個の静音フレームのLSF係数に従って第２の閾値を決定してもよい。例えば、エンコーダは、以下の式(6)に従って第２の閾値thr2を決定してもよい。

式(5)及び式(6)において、[x]は、第xのフレームを表してもよく、xはn、m又はpでもよい。例えば、e^[m]は、第mのフレームのCELP励振エネルギーを表してもよく、lsf^[n](i)は、第nのフレームの第iのLSF係数を表してもよく、lsf^[p](i)は第pのフレームの第iのLSF係数を表してもよい。

305a：距離Deが第１の閾値未満であり、距離Dlsfが第２の閾値未満である場合、ハングオーバ区間を設定しないと決定し、現在の入力フレームをSIDフレームに符号化する。

距離Deが第１の閾値未満であり、距離Dlsfが第２の閾値未満である場合、エンコーダは、デコーダにより生成され得るコンフォートノイズが実際の静音信号に十分に近いと考えてもよく、ハングオーバ区間は設定されなくてもよい。現在の入力フレームは、SIDフレームに符号化される。

306a：距離Deが第１の閾値以上であるか、或いは距離Dlsfが第２の閾値以上である場合、ハングオーバ区間を設定すると決定し、現在の入力フレームをハングオーバフレームに符号化する。

本発明のこの実施例では、現在の入力フレームが単にアクティブ音声フレームの、統計収集を通じて取得された量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズと、実際の静音信号との間の逸脱度に従って、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。これにより、通信帯域幅を節約する。

図３ｂは、本発明の他の実施例による信号符号化方法の処理の概略フローチャートである。図３ｂにおいて、現在の入力フレームが既にハングオーバ区間にあることが仮定される。エンコーダは、ハングオーバ区間を終了するか否かを決定する必要がある。すなわち、エンコーダは、現在の入力フレームをハングオーバフレームに符号化し続けるか否か、又は現在の入力フレームをSIDフレームに符号化するか否かを決定する必要がある。以下に、この処理について詳細に説明する。

301b：実際の静音信号のCELP励振エネルギー及びLSF係数を決定する。

任意選択で、ステップ301aと同様に、エンコーダは、現在の入力フレームのCELP励振エネルギー及びLSF係数を、実際の静音信号のCELP励振エネルギー及びLSF係数として使用してもよい。

任意選択で、エンコーダは、実際の静音信号のCELP励振エネルギーを取得するために、現在の入力フレームを含むM個の静音フレームのCELP励振エネルギーについての統計を収集してもよい。M≦ハングオーバ区間内の現在の入力フレームの前のハングオーバフレームの量である。

例えば、エンコーダは、式(7)に従って実際の静音信号のCELP励振エネルギーeSIを決定してもよい。

他の例として、エンコーダは、以下の式(8)に従って実際の静音信号のLSF係数lsfSI(i)を予測してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。

前述の式(7)及び式(8)において、w(j)は重み係数を表してもよく、e^[-j]は現在の入力フレームの前の第jの静音フレームのCELP励振エネルギーを表してもよい。

302b：現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズのCELP励振エネルギー及びLSF係数を予測する。

具体的に、エンコーダは、現在の入力フレームの前のL個のハングオーバフレームのCELP励振エネルギー及びLSF係数に従って、コンフォートノイズのCELP励振エネルギーeCN及びLSF係数lsfCN(i)を別々に決定してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。

例えば、エンコーダは、以下の式(9)に従ってコンフォートノイズのCELP励振エネルギーeCNを決定してもよい。

ここで、eHO^[-j]は現在の入力フレームの前の第jのハングオーバフレームの励振エネルギーを表してもよい。

他の例では、エンコーダは、以下の式(10)に従ってコンフォートノイズのLSF係数lsfCN(i)を決定してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。

ここで、lsfHO^[-j]は現在の入力フレームの前の第jのハングオーバフレームの第iのLSF係数を表してもよい。

式(9)及び式(10)において、w(j)は重み係数を表してもよい。

303b：コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定する。

例えば、エンコーダは、式(3)に従ってコンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定してもよい。エンコーダは、式(4)に従ってコンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定してもよい。

304b：距離Deが第１の閾値未満であるか否か、及び距離Dlsfが第２の閾値未満であるか否かを決定する。

或いは、第１の閾値及び第２の閾値の双方は、自己適応の変化量でもよい。例えば、エンコーダは、式(5)に従って第１の閾値thr1を決定してもよく、式(6)に従って第２の閾値thr2を決定してもよい。

305b：距離Deが第１の閾値未満であり、距離Dlsfが第２の閾値未満である場合、ハングオーバ区間を終了すると決定し、現在の入力フレームをSIDフレームに符号化する。

306b：距離Deが第１の閾値以上であるか、或いは距離Dlsfが第２の閾値以上である場合、ハングオーバ区間を延長し続けると決定し、現在の入力フレームをハングオーバフレームに符号化する。

前述から分かるように、不連続送信状態に入った後に、エンコーダは、SIDフレームを間欠的に符号化してもよい。SIDフレームは、一般的に、静音信号のエネルギー及びスペクトルを記述するいくつかの情報を含む。エンコーダからSIDフレームを受信した後に、デコーダは、SIDフレームに含まれる情報に従ってコンフォートノイズを生成してもよい。現在では、SIDフレームは数フレーム毎に１回符号化されて送信されるため、SIDフレームを符号化する場合、エンコーダは、通常では、現在の入力静音フレーム及び現在の入力静音フレームの前の数個の静音フレームにおける統計を収集することにより、SIDフレームの情報を取得する。例えば、連続する静音区間内において、現在の符号化されたSIDフレームの情報は、通常では、現在のSIDフレーム及び現在のSIDフレームと前のSIDフレームとの間の複数の静音フレームについての統計を収集することにより取得される。他の例では、アクティブ音声帯域の後の最初のSIDフレームの情報を符号化することは、通常では、現在の入力静音フレーム及びアクティブ音声帯域の終了のときの数個の隣接するハンドオーバフレームについての統計を収集することにより、エンコーダにより取得される。すなわち、ハングオーバ区間内の静音フレームにおける統計を収集することにより取得される。説明の便宜上で、SIDフレーム符号化パラメータについての統計を収集するために使用される複数の静音フレームは、分析区間と呼ばれる。具体的に、SIDフレームが符号化される場合、SIDフレームのパラメータは、分析区間内の複数の静音フレームのパラメータの平均値又は中央値を取得することにより取得される。しかし、実際のバックグラウンドノイズのスペクトルは、様々な予想できない過渡的なスペクトル成分を含んでもよい。分析区間がこのようなスペクトル成分を含む場合、これらの成分は、平均値を取得する方法でSIDフレームに追加されてもよく、このようなスペクトル成分を含む静音スペクトルは、中央値を取得する方法でSIDフレームに不正確に符号化されてもよく、これは、SIDフレームに従ってデコーダにより生成されるコンフォートノイズの品質が減少することを生じる。

図４は、本発明の実施例による信号処理方法の概略フローチャートである。図４の方法は、エンコーダ又はデコーダにより実行され、例えば、図１のエンコーダ110又はデコーダ120により実行されてもよい。

410：P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離（Group Weighted Spectral Distance）を決定する。P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームと他の(P-1)個の静音フレームとの間の加重スペクトル距離の和であり、Pは正の整数である。

例えば、エンコーダ又はデコーダは、現在の入力静音フレームの前の複数の静音フレームのパラメータをバッファに記憶してもよい。バッファの長さは、固定でもよく、可変でもよい。P個の静音フレームは、バッファからエンコーダ又はデコーダにより選択されてもよい。

420：P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って第１のスペクトルパラメータを決定する。第１のスペクトルパラメータは、コンフォートノイズを生成するために使用される。

本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される第１のスペクトルパラメータは、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って決定される。これにより、コンフォートノイズの品質を改善する。

任意選択で、実施例として、ステップ410において、各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームのスペクトルパラメータに従って決定されてもよい。例えば、P個の静音フレームの中の第xのフレームのグループ加重スペクトル距離swd^[x]は、以下の式(11)に従って決定されてもよい。

ここで、U^[x](i)は第xのフレームの第iのスペクトルパラメータを表してもよく、U^[j](i)は第jのフレームの第iのスペクトルパラメータを表してもよく、w(i)は重み係数でもよく、Kはスペクトルパラメータの係数の量である。

例えば、各静音フレームのスペクトルパラメータは、LSF係数、LSP係数、ISF係数、ISP係数、LCP係数、反射係数、FFT係数、MDCT係数等を含んでもよい。従って、対応して、ステップ420において、第１のスペクトルパラメータは、LSF係数、LSP係数、ISF係数、ISP係数、LPC係数、反射係数、FFT係数、MDCT係数等を含んでもよい。

以下に、スペクトルパラメータがLSF係数である例を使用することにより、ステップ420の処理について説明する。例えば、各静音フレームのLSF係数と他の(P-1)個の静音フレームのLSF係数との間の加重スペクトル距離の和、すなわち、各静音フレームのLSF係数のグループ加重スペクトル距離swdが決定されてもよい。例えば、P個の静音フレームの中の第xのフレームのLSF係数のグループ加重スペクトル距離swd’^[x]は、以下の式(12)に従って決定されてもよい。x=0,1,2,...,P-1である。

ここで、w’(i)は重み係数であり、K’はフィルタ次数である。

任意選択で、実施例として、各静音フレームは、重み係数の１つのグループに対応してもよい。重み係数の１つのグループにおいて、サブバンドの第１のグループに対応する重み係数は、サブバンドの第２のグループに対応する重み係数より大きく、サブバンドの第１のグループの知覚重要度は、サブバンドの第２のグループの知覚重要度より大きい。

サブバンドは、スペクトル係数を分割することにより取得されてもよい。具体的な処理について、従来技術に参照が行われてもよい。サブバンドの知覚重要度は、従来技術に従って決定されてもよい。通常では、低周波数サブバンドの知覚重要度は、高周波数サブバンドの知覚重要度より高い。従って、簡単な実施例では、低周波数サブバンドの重み係数は、高周波数サブバンドの重み係数より大きくてもよい。

例えば、式(12)において、w’(i)は重み係数であり、i=0,1,...,K’-1である。各静音フレームは、重み係数の１つのグループ、すなわち、w’(0)〜w’(K’-1)に対応する。重み係数の１つのグループでは、低周波数サブバンドのLSF係数の重み係数は、高周波数サブバンドのLSF係数の重み係数より大きい。バックグラウンドノイズのエネルギーは、ほとんど低周波数帯域に集中するため、デコーダにより生成されるコンフォートノイズの品質は、主に低周波数帯域の信号の品質により決定され、最終的な加重スペクトル距離において高周波数帯域のLSF係数のスペクトル距離により課される影響は、適切に減少するべきである。

任意選択で、他の実施例として、ステップ420において、第１の静音フレームは、P個の静音フレームの中の第１の静音フレームのグループ加重スペクトル距離が最小になるように、P個の静音フレームから選択されてもよく、第１の静音フレームのスペクトルパラメータが第１のスペクトルパラメータであると決定されてもよい。

具体的に、グループ加重スペクトル距離が最小になることは、第１の静音フレームのスペクトルパラメータがP個の静音フレームのスペクトルパラメータの間の一般性を最も良く表すことができることを示してもよい。従って、第１の静音フレームのスペクトルパラメータは、SIDフレームに符号化されてもよい。例えば、各静音フレームのLSF係数のグループ加重スペクトル距離について、第１の静音フレームのLSF係数のグループ加重スペクトル距離は最小である。この場合、これは、第１の静音フレームのLSFスペクトルがP個の静音フレームのLSFスペクトルの間の一般性を最も良く表すことができることを示してもよい。

任意選択で、他の実施例として、ステップ420において、少なくとも１つの静音フレームは、P個の静音フレームの中の少なくとも１つの静音フレームのグループ加重スペクトル距離が第３の閾値未満になるように、P個の静音フレームから選択されてもよく、第１のスペクトルパラメータは、少なくとも１つの静音フレームのスペクトルパラメータに従って決定されてもよい。

例えば、実施例では、少なくとも１つの静音フレームのスペクトルパラメータの平均値が第１のスペクトルパラメータであると決定されてもよい。他の実施例では、少なくとも１つの静音フレームのスペクトルパラメータの中央値が第１のスペクトルパラメータであると決定されてもよい。他の例では、第１のスペクトルパラメータはまた、本発明のこの実施例の他の方法を使用することにより、少なくとも１つの静音フレームのスペクトルパラメータに従って決定されてもよい。

以下に、依然としてスペクトルパラメータがLSF係数である例を使用することにより、説明を行う。この場合、第１のスペクトルパラメータは、第１のLSF係数でもよい。例えば、P個の静音フレームの中の各静音フレームのLSF係数のグループ加重スペクトル距離は、式(12)に従って取得されてもよい。LSF係数のグループ加重スペクトル距離が第３の閾値未満である少なくとも１つの静音フレームは、P個の静音フレームから選択される。次に、少なくとも１つの静音フレームのLSF係数の平均値が、第１のLSF係数として使用されてもよい。例えば、第１のLSF係数lsfSID(i)は、以下の式(13)に従って決定されてもよい。i=0,1,...,K’-1であり、K’はフィルタ次数である。

ここで、{A}は少なくとも１つの静音フレームを除くP個の静音フレームの中の静音フレームを表してもよく、lsf^[j](i)は第jのフレームの第iのLSF係数を表してもよい。

更に、第３の閾値は、予め設定されてもよい。

任意選択で、他の実施例として、図４の方法がエンコーダにより実行される場合、P個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(P-1)個の静音フレームとを含んでもよい。

図４の方法がデコーダにより実行される場合、P個の静音フレームは、P個のハングオーバフレームでもよい。

任意選択で、他の実施例として、図４の方法がエンコーダにより実行される場合、エンコーダは、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第１のスペクトルパラメータを含む。

本発明のこの実施例では、SIDフレームのスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、エンコーダは、SIDフレームが第１のスペクトルパラメータを含むように、現在の入力フレームをSIDフレームに符号化してもよい。これにより、SIDフレームに従ってデコーダにより生成されるコンフォートノイズの品質を改善する。

図５は、本発明の他の実施例による信号処理方法の概略フローチャートである。図５の方法は、エンコーダ又はデコーダにより実行され、例えば、図１のエンコーダ110又はデコーダ120により実行されてもよい。

510：入力信号の周波数帯域をR個のサブバンドに分割する。Rは正の整数である。

520：R個のサブバンドの各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離を決定する。S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離は、各サブバンドにおけるS個の静音フレームの中の各静音フレームと他の(S-1)個の静音フレームとの間のスペクトル距離の和であり、Sは正の整数である。

530：各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従って各サブバンドの第１のスペクトルパラメータを決定する。各サブバンドの第１のスペクトルパラメータは、コンフォートノイズを生成するために使用される。

本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を使用することにより取得されるのではなく、コンフォートノイズを生成するために使用される各サブバンドの第１のスペクトルパラメータは、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従ってR個のサブバンドの各サブバンドにおいて決定される。これにより、コンフォートノイズの品質を改善する。

ステップ530において、各サブバンドについて各静音フレームのサブバンドグループスペクトル距離は、S個の静音フレームの中の各静音フレームのスペクトルパラメータに従って決定されてもよい。任意選択で、実施例として、第kのサブバンドにおける第yの静音フレームのサブバンドグループスペクトル距離ssd_k ^[y]は、以下の式(14)に従って決定されてもよい。k=1,2,...,Rであり、y=0,1,...,S-1である。

ただし、L(k)は第kのサブバンドに含まれるスペクトルパラメータの係数の量を表してもよく、U_k ^[y](i)は第kのサブバンドにおける第yの静音フレームのスペクトルパラメータの第iの係数を表してもよく、U_k ^[j](i)は第kのサブバンドにおける第jの静音フレームのスペクトルパラメータの第iの係数を表してもよい。

例えば、各静音フレームのスペクトルパラメータは、LSF係数、LSP係数、ISF係数、ISP係数、LCP係数、反射係数、FFT係数、MDCT係数等を含んでもよい。

以下に、スペクトルパラメータがLSF係数である例を使用することにより、説明を行う。例えば、各静音フレームのLSF係数のサブバンドグループスペクトル距離が決定されてもよい。各サブバンドは、１つのLSF係数を含んでもよく、また、複数のLSF係数を含んでもよい。例えば、第kのサブバンドにおける第yの静音フレームのLSF係数のサブバンドグループスペクトル距離ssd_k ^[y]は、以下の式(15)に従って決定されてもよい。k=1,2,...,Rであり、y=0,1,...,S-1である。

ここで、L(k)は第kのサブバンドに含まれるLSF係数の量を表してもよく、lsf_k ^[y](i)は第kのサブバンドにおける第yの静音フレームの第iのLSF係数を表してもよく、lsf_k ^[j](i)は第kのサブバンドにおける第jの静音フレームの第iのLSF係数を表してもよい。

対応して、各サブバンドの第１のスペクトルパラメータは、LSF係数、LSP係数、ISF係数、ISP係数、LPC係数、反射係数、FFT係数、MDCT係数等を含んでもよい。

任意選択で、他の実施例として、ステップ530において、第１の静音フレームは、各サブバンドにおいてS個の静音フレームの中の第１の静音フレームのサブバンドグループスペクトル距離が最小になるように、各サブバンドにおいてS個の静音フレームから選択されてもよい。次に、各サブバンドの第１の静音フレームのスペクトルパラメータは、各サブバンドの第１のスペクトルパラメータとして使用されてもよい。

具体的に、エンコーダは、各サブバンドにおいて第１の静音フレームを決定し、第１の静音フレームのスペクトルパラメータを、サブバンドの第１のスペクトルパラメータとして使用してもよい。

以下に、依然としてスペクトルパラメータがLSF係数である例を使用することにより、説明を行う。対応して、各サブバンドの第１のスペクトルパラメータは、各サブバンドの第１のLSF係数である。例えば、各サブバンドにおける各静音フレームのLSF係数のサブバンドグループスペクトル距離は、式(15)に従って決定されてもよい。各サブバンドについて、最小のサブバンドグループスペクトル距離を有するフレームのLSF係数は、サブバンドの第１のLSF係数として選択されてもよい。

任意選択で、他の実施例として、ステップ530において、少なくとも１つの静音フレームは、少なくとも１つの静音フレームのサブバンドグループスペクトル距離が第４の閾値未満になるように、各サブバンドにおいてS個の静音フレームから選択されてもよい。次に、各サブバンドの第１のスペクトルパラメータは、少なくとも１つの静音フレームのスペクトルパラメータに従って各サブバンドにおいて決定されてもよい。

例えば、実施例では、各サブバンドにおけるS個の静音フレームの中の少なくとも１つの静音フレームのスペクトルパラメータの平均値が各サブバンドの第１のスペクトルパラメータであると決定されてもよい。他の実施例では、各サブバンドにおけるS個の静音フレームの中の少なくとも１つの静音フレームのスペクトルパラメータの中央値が各サブバンドの第１のスペクトルパラメータであると決定されてもよい。他の実施例では、各サブバンドの第１のスペクトルパラメータはまた、本発明の他の方法を使用することにより、少なくとも１つの静音フレームのスペクトルパラメータに従って決定されてもよい。

LSF係数を例として使用すると、各サブバンドにおける各静音フレームのLSF係数のサブバンドグループスペクトル距離は、式(15)に従って決定されてもよい。各サブバンドについて、サブバンドグループスペクトル距離が第４の閾値未満である少なくとも１つの静音フレームが選択されてもよく、少なくとも１つの静音フレームのLSF係数の平均値がサブバンドの第１のLSF係数であると決定される。第４の閾値は、予め設定されてもよい。

任意選択で、他の実施例として、図５の方法がエンコーダにより実行される場合、S個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(S-1)個の静音フレームとを含んでもよい。

図５の方法がデコーダにより実行される場合、S個の静音フレームは、S個のハングオーバフレームでもよい。

任意選択で、他の実施例として、図５の方法がエンコーダにより実行される場合、エンコーダは、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、各サブバンドの第１のスペクトルパラメータを含む。

本発明のこの実施例では、SIDフレームを符号化する場合、SIDフレームのスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、エンコーダは、SIDフレームが各サブバンドの第１のスペクトルパラメータを含むことを可能にしてもよい。これにより、SIDフレームに従ってデコーダにより生成されるコンフォートノイズの品質を改善する。

図６は、本発明の他の実施例による信号処理方法の概略フローチャートである。図６の方法は、エンコーダ又はデコーダにより実行され、例えば、図１のエンコーダ110又はデコーダ120により実行されてもよい。

610：T個の静音フレームの中の各静音フレームの第１のパラメータを決定する。第１のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数である。

例えば、静音フレームのスペクトルエントロピーが直接決定され得る場合、第１のパラメータは、スペクトルエントロピーでもよい。或る場合には、厳密な定義に適合したスペクトルエントロピーは直接決定されなくてもよい。この場合、第１のパラメータは、スペクトルエントロピーを表すことができる他のパラメータ、例えば、スペクトルの構成上の強度を反映することができるパラメータ等でもよい。

例えば、各静音フレームの第１のパラメータは、各静音フレームのLSF係数に従って決定されてもよい。例えば、第zの静音フレームの第１のパラメータは、以下の式(16)に従って決定されてもよい。z=1,2,...,Tである。

ここで、Kはフィルタ次数である。

ここで、Cはスペクトルの構成上の強度を反映することができるパラメータであり、厳密にスペクトルエントロピーの定義に適合するとは限らない。より大きいCは、より小さいスペクトルエントロピーを示してもよい。

620：T個の静音フレームの中の各静音フレームの第１のパラメータに従って第１のスペクトルパラメータを決定する。第１のスペクトルパラメータは、コンフォートノイズを生成するために使用される。

本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される第１のスペクトルパラメータは、スペクトルエントロピーを表すために使用されるT個の静音フレームの第１のパラメータに従って決定される。これにより、コンフォートノイズの品質を改善する。

任意選択で、実施例として、T個の静音フレームがクラスタ化基準に従って静音フレームの第１のグループ及び静音フレームの第２のグループに分類され得ることが決定された場合、第１のスペクトルパラメータは、静音フレームの第１のグループのスペクトルパラメータに従って決定されてもよい。静音フレームの第１のグループの第１のパラメータにより表されるスペクトルエントロピーは、静音フレームの第２のグループの第１のパラメータにより表されるスペクトルエントロピーより大きい。T個の静音フレームがクラスタ化基準に従って静音フレームの第１のグループ及び静音フレームの第２のグループに分類され得ないことが決定された場合、第１のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均が実行されてもよい。静音フレームの第１のグループの第１のパラメータにより表されるスペクトルエントロピーは、静音フレームの第２のグループの第１のパラメータにより表されるスペクトルエントロピーより大きい。

一般的に、普通のノイズのスペクトルは、比較的悪い構成上の強度を有するが、ノイズでない信号スペクトル又は過渡的な成分を含むノイズのスペクトルは、比較的強い構成上の強度を有する。スペクトルの構成上の強度は、スペクトルエントロピーのサイズに直接対応する。相対的に、普通のノイズのスペクトルエントロピーは比較的大きくてもよく、ノイズでない信号又は過渡的な成分を含むノイズのスペクトルエントロピーは比較的小さくてもよい。従って、T個の静音フレームが静音フレームの第１のグループ及び静音フレームの第２のグループに分類され得る場合、エンコーダは、第１のスペクトルパラメータを決定するために、静音フレームのスペクトルエントロピーに従って、過渡的な成分を含まない静音フレームの第１のグループのスペクトルパラメータを選択してもよい。

例えば、実施例では、静音フレームの第１のグループのスペクトルパラメータの平均値が第１のスペクトルパラメータであると決定されてもよい。他の実施例では、静音フレームの第１のグループのスペクトルパラメータの中央値が第１のスペクトルパラメータであると決定されてもよい。他の実施例では、第１のスペクトルパラメータはまた、本発明の他の方法を使用することにより、静音フレームの第１のグループのスペクトルパラメータに従って決定されてもよい。

T個の静音フレームが静音フレームの第１のグループ及び静音フレームの第２のグループに分類され得ない場合、第１のスペクトルパラメータを取得するために、T個の静音フレームのスペクトルパラメータにおいて加重平均が実行されてもよい。任意選択で、他の実施例として、クラスタ化基準は、静音フレームの第１のグループの中の各静音フレームの第１のパラメータと第１の平均値との間の距離が静音フレームの第１のグループの中の各静音フレームの第１のパラメータと第２の平均値との間の距離以下であること、静音フレームの第２のグループの中の各静音フレームの第１のパラメータと第２の平均値との間の距離が静音フレームの第２のグループの中の各静音フレームの第１のパラメータと第１の平均値との間の距離以下であること、第１の平均値と第２の平均値との間の距離が静音フレームの第１のグループの第１のパラメータと第１の平均値との間の平均距離より大きいこと、及び第１の平均値と第２の平均値との間の距離が静音フレームの第２のグループの第１のパラメータと第２の平均値との間の平均距離より大きいことを含んでもよい。第１の平均値は、静音フレームの第１のグループの第１のパラメータの平均値であり、第２の平均値は、静音フレームの第２のグループの第１のパラメータの平均値である。

任意選択で、他の実施例として、エンコーダは、第１のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。異なる第iの静音フレーム及び第jの静音フレームについて、T個の静音フレームの中で、第iの静音フレームに対応する重み係数は、第jの静音サブフレームに対応する重み係数以上である。第１のパラメータがスペクトルエントロピーに正相関している場合、第iの静音フレームの第１のパラメータは、第jの静音フレームの第１のパラメータより大きい。第１のパラメータがスペクトルエントロピーに負相関している場合、第iの静音フレームの第１のパラメータは、第jの静音フレームの第１のパラメータ未満である。i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tである。

具体的に、エンコーダは、第１のスペクトルパラメータを取得するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。前述のように、普通のノイズのスペクトルエントロピーは比較的大きくてもよく、ノイズではない信号又は過渡的な成分を含むノイズのスペクトルエントロピーは比較的小さくてもよい。従って、T個の静音フレームの中で、比較的大きいスペクトルエントロピーを有する静音フレームに対応する重み係数は、比較的小さいスペクトルエントロピーを有する静音フレームに対応する重み係数以上でもよい。

任意選択で、他の実施例として、図６の方法がエンコーダにより実行される場合、T個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(T-1)個の静音フレームとを含んでもよい。

図６の方法がデコーダにより実行される場合、T個の静音フレームは、T個のハングオーバフレームでもよい。

任意選択で、他の実施例として、図６の方法がエンコーダにより実行される場合、エンコーダは、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第１のスペクトルパラメータを含む。

図７は、本発明の実施例による信号符号化デバイスの概略ブロック図である。図７のデバイス700の例は、エンコーダであり、例えば、図１に示すエンコーダ110である。デバイス700は、第１の決定ユニット710と、第２の決定ユニット720と、第３の決定ユニット730と、符号化ユニット740とを含む。

第１の決定ユニット710は、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定する。現在の入力フレームは静音フレームである。第２の決定ユニット720は、第１の決定ユニット710により決定されたコンフォートノイズと第１の決定ユニット710により決定された実際の静音信号との間の逸脱度を決定する。第３の決定ユニット730は、第２の決定ユニットにより決定された逸脱度に従って現在の入力フレームの符号化方式を決定する。現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含む。符号化ユニット740は、第３の決定ユニット730により決定された現在の入力フレームの符号化方式に従って現在の入力フレームを符号化する。

任意選択で、実施例として、第１の決定ユニット710は、コンフォートノイズの特徴パラメータを予測し、実際の静音信号の特徴パラメータを決定してもよい。コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと１対１の対応関係にある。第２の決定ユニット720は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定してもよい。

任意選択で、他の実施例として、第３の決定ユニット730は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離は、閾値集合の中の閾値と１対１の対応関係にある。第３の決定ユニット730は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。

任意選択で、他の実施例として、エネルギー情報は、CELP励振エネルギーを含んでもよい。スペクトル情報は、線形予測フィルタ係数、FFT係数及びMDCT係数のうち少なくとも１つを含んでもよい。

線形予測フィルタ係数は、LSF係数、LSP係数、ISF係数、ISP係数、反射係数及びLPC係数のうち少なくとも１つを含んでもよい。

任意選択で、他の実施例として、第１の決定ユニット710は、現在の入力フレームの前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。或いは、第１の決定ユニット710は、現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。Lは正の整数である。

任意選択で、他の実施例として、第１の決定ユニット710は、現在の入力フレームの特徴パラメータが実際の静音信号の特徴パラメータであると決定してもよい。或いは、第１の決定ユニット710は、実際の静音信号の特徴パラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集してもよい。

任意選択で、他の実施例として、コンフォートノイズの特徴パラメータは、コンフォートノイズの符号励振線形予測（CELP）励振エネルギー及びコンフォートノイズの線スペクトル周波数（LSF）係数を含んでもよい。実際の静音信号の特徴パラメータは、実際の静音信号のCELP励振エネルギー及び実際の静音信号のLSF係数を含んでもよい。第２の決定ユニット720は、コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定してもよい。

任意選択で、他の実施例として、距離Deが第１の閾値未満であり、距離Dlsfが第２の閾値未満である場合、第３の決定ユニット730は、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。距離Deが第１の閾値以上であるか、或いは距離Dlsfが第２の閾値以上である場合、第３の決定ユニット730は、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。

任意選択で、他の実施例として、デバイス700は、第４の決定ユニット750を更に含んでもよい。第４の決定ユニット750は、予め設定された第１の閾値及び予め設定された第２の閾値を取得してもよい。或いは、第４の決定ユニット750は、現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第１の閾値を決定し、N個の静音フレームのLSF係数に従って第２の閾値を決定してもよい。Nは正の整数である。

任意選択で、他の実施例として、第１の決定ユニット710は、第１の予測方式でコンフォートノイズを予測してもよい。第１の予測方式は、デコーダがコンフォートノイズを生成する方式と同じである。

デバイス700の他の機能及び動作については、前述の図１〜図３ｂの方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。

図８は、本発明の他の実施例による信号処理デバイスの概略ブロック図である。図８のデバイス800の例は、エンコーダ又はデコーダであり、例えば、図１に示すエンコーダ110又はデコーダ120である。デバイス800は、第１の決定ユニット810と、第２の決定ユニット820とを含む。

第１の決定ユニット810は、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離を決定する。P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームと他の(P-1)個の静音フレームとの間の加重スペクトル距離の和であり、Pは正の整数である。第２の決定ユニット820は、P個の静音フレームの中の各静音フレームの、第１の決定ユニット810により決定されたグループ加重スペクトル距離に従って第１のスペクトルパラメータを決定する。第１のスペクトルパラメータは、コンフォートノイズを生成するために使用される。

任意選択で、他の実施例として、第２の決定ユニット820は、P個の静音フレームの中の第１の静音フレームのグループ加重スペクトル距離が最小になるように、P個の静音フレームから第１の静音フレームを選択してもよく、第１の静音フレームのスペクトルパラメータが第１のスペクトルパラメータであると決定してもよい。

任意選択で、他の実施例として、第２の決定ユニット820は、P個の静音フレームの中の少なくとも１つの静音フレームのグループ加重スペクトル距離が第３の閾値未満になるように、P個の静音フレームから少なくとも１つの静音フレームを選択し、少なくとも１つの静音フレームのスペクトルパラメータに従って第１のスペクトルパラメータを決定してもよい。

任意選択で、他の実施例として、デバイス800がエンコーダである場合、デバイス800は、符号化ユニット830を更に含んでもよい。

P個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(P-1)個の静音フレームとを含んでもよい。符号化ユニット830は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第２の決定ユニット820により決定された第１のスペクトルパラメータを含む。

デバイス800の他の機能及び動作については、前述の図４の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。

図９は、本発明の他の実施例による信号処理デバイスの概略ブロック図である。図９のデバイス900の例は、エンコーダ又はデコーダであり、例えば、図１に示すエンコーダ110又はデコーダ120である。デバイス900は、分割ユニット910と、第１の決定ユニット920と、第２の決定ユニット930とを含む。

分割ユニット910は、入力信号の周波数帯域をR個のサブバンドに分割する。Rは正の整数である。第１の決定ユニット920は、分割ユニット910が分割を実行した後に取得されたR個のサブバンドの各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離を決定する。S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離は、各サブバンドにおけるS個の静音フレームの中の各静音フレームと他の(S-1)個の静音フレームとの間のスペクトル距離の和であり、Sは正の整数である。第２の決定ユニット930は、各サブバンドにおいて、S個の静音フレームの中の各静音フレームの、第１の決定ユニット920により決定されたスペクトル距離に従って各サブバンドの第１のスペクトルパラメータを決定する。各サブバンドの第１のスペクトルパラメータは、コンフォートノイズを生成するために使用される。

本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される各サブバンドのスペクトルパラメータは、S個の静音フレームの中の各静音フレームのスペクトル距離に従ってR個のサブバンドの各サブバンドにおいて決定される。これにより、コンフォートノイズの品質を改善する。

任意選択で、実施例として、第２の決定ユニット930は、各サブバンドにおいてS個の静音フレームの中の第１の静音フレームのサブバンドグループスペクトル距離が最小になるように、各サブバンドにおいて、S個の静音フレームから第１の静音フレームを選択し、各サブバンドにおいて、第１の静音フレームのスペクトルパラメータが各サブバンドの第１のスペクトルパラメータであると決定してもよい。

任意選択で、他の実施例として、第２の決定ユニット930は、少なくとも１つの静音フレームのサブバンドグループスペクトル距離が第４の閾値未満になるように、各サブバンドにおいて、S個の静音フレームから少なくとも１つの静音フレームを選択し、各サブバンドにおいて、少なくとも１つの静音フレームのスペクトルパラメータに従って各サブバンドの第１のスペクトルパラメータを決定してもよい。

任意選択で、他の実施例として、デバイス900がエンコーダである場合、デバイス900は、符号化ユニット940を更に含んでもよい。

S個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(S-1)個の静音フレームとを含んでもよい。符号化ユニット940は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、各サブバンドの第１のスペクトルパラメータを含む。

デバイス900の他の機能及び動作については、前述の図５の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。

図１０は、本発明の他の実施例による信号処理デバイスの概略ブロック図である。図１０のデバイス1000の例は、エンコーダ又はデコーダであり、例えば、図１に示すエンコーダ110又はデコーダ120である。デバイス1000は、第１の決定ユニット1010と、第２の決定ユニット1020とを含む。

第１の決定ユニット1010は、T個の静音フレームの中の各静音フレームの第１のパラメータを決定する。第１のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数である。第２の決定ユニット1020は、T個の静音フレームの中の各静音フレームの、第１の決定ユニット1010により決定された第１のパラメータに従って第１のスペクトルパラメータを決定する。第１のスペクトルパラメータは、コンフォートノイズを生成するために使用される。

任意選択で、実施例として、第２の決定ユニット1020は、T個の静音フレームがクラスタ化基準に従って静音フレームの第１のグループ及び静音フレームの第２のグループに分類され得ることが決定された場合、静音フレームの第１のグループのスペクトルパラメータに従って第１のスペクトルパラメータを決定してもよい。静音フレームの第１のグループの第１のパラメータにより表されるスペクトルエントロピーは、静音フレームの第２のグループの第１のパラメータにより表されるスペクトルエントロピーより大きい。T個の静音フレームがクラスタ化基準に従って静音フレームの第１のグループ及び静音フレームの第２のグループに分類され得ないことが決定された場合、第１のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。静音フレームの第１のグループの第１のパラメータにより表されるスペクトルエントロピーは、静音フレームの第２のグループの第１のパラメータにより表されるスペクトルエントロピーより大きい。

任意選択で、他の実施例として、クラスタ化基準は、静音フレームの第１のグループの中の各静音フレームの第１のパラメータと第１の平均値との間の距離が静音フレームの第１のグループの中の各静音フレームの第１のパラメータと第２の平均値との間の距離以下であること、静音フレームの第２のグループの中の各静音フレームの第１のパラメータと第２の平均値との間の距離が静音フレームの第２のグループの中の各静音フレームの第１のパラメータと第１の平均値との間の距離以下であること、第１の平均値と第２の平均値との間の距離が静音フレームの第１のグループの第１のパラメータと第１の平均値との間の平均距離より大きいこと、及び第１の平均値と第２の平均値との間の距離が静音フレームの第２のグループの第１のパラメータと第２の平均値との間の平均距離より大きいことを含んでもよい。第１の平均値は、静音フレームの第１のグループの第１のパラメータの平均値であり、第２の平均値は、静音フレームの第２のグループの第１のパラメータの平均値である。

任意選択で、他の実施例として、第２の決定ユニット1020は、第１のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。異なる第iの静音フレーム及び第jの静音フレームについて、T個の静音フレームの中で、第iの静音フレームに対応する重み係数は、第jの静音サブフレームに対応する重み係数以上である。第１のパラメータがスペクトルエントロピーに正相関している場合、第iの静音フレームの第１のパラメータは、第jの静音フレームの第１のパラメータより大きい。第１のパラメータがスペクトルエントロピーに負相関している場合、第iの静音フレームの第１のパラメータは、第jの静音フレームの第１のパラメータ未満である。i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tである。

任意選択で、他の実施例として、デバイス1000がエンコーダである場合、デバイス1000は、符号化ユニット1030を更に含んでもよい。

T個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(T-1)個の静音フレームとを含んでもよい。符号化ユニット1030は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第１のスペクトルパラメータを含む。

デバイス1000の他の機能及び動作については、前述の図６の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。

図１１は、本発明の他の実施例による信号符号化デバイスの概略ブロック図である。図１１のデバイス1100の例は、エンコーダである。デバイス1100は、メモリ1110と、プロセッサ1120とを含む。

メモリ1110は、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラム可能読み取り専用メモリ、不揮発性メモリ、又はレジスタを含んでもよい。プロセッサ1120は、中央処理装置（Central Processing Unit、CPU）でもよい。

メモリ1110は、実行可能命令を記憶するように構成される。プロセッサ1120は、メモリ1110に記憶された実行可能命令を実行し、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定し、現在の入力フレームは静音フレームであり、コンフォートノイズと実際の静音信号との間の逸脱度を決定し、逸脱度に従って現在の入力フレームの符号化方式を決定し、現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含み、現在の入力フレームの符号化方式に従って現在の入力フレームを符号化してもよい。

任意選択で、実施例として、プロセッサ1120は、コンフォートノイズの特徴パラメータを予測し、実際の静音信号の特徴パラメータを決定してもよい。コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと１対１の対応関係にある。プロセッサ1120は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定してもよい。

任意選択で、他の実施例として、プロセッサ1120は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離は、閾値集合の中の閾値と１対１の対応関係にある。プロセッサ1120は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。

任意選択で、他の実施例として、プロセッサ1120は、現在の入力フレームの前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。或いは、プロセッサ1120は、現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。Lは正の整数である。

任意選択で、他の実施例として、プロセッサ1120は、現在の入力フレームの特徴パラメータが実際の静音信号のパラメータであると決定してもよい。或いは、プロセッサ1120は、実際の静音信号のパラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集してもよい。

任意選択で、他の実施例として、コンフォートノイズの特徴パラメータは、コンフォートノイズの符号励振線形予測（CELP）励振エネルギー及びコンフォートノイズの線スペクトル周波数（LSF）係数を含んでもよい。実際の静音信号の特徴パラメータは、実際の静音信号のCELP励振エネルギー及び実際の静音信号のLSF係数を含んでもよい。プロセッサ1120は、コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定してもよい。

任意選択で、他の実施例として、距離Deが第１の閾値未満であり、距離Dlsfが第２の閾値未満である場合、プロセッサ1120は、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。距離Deが第１の閾値以上であるか、或いは距離Dlsfが第２の閾値以上である場合、プロセッサ1120は、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。

任意選択で、他の実施例として、プロセッサ1120は、予め設定された第１の閾値及び予め設定された第２の閾値を更に取得してもよい。或いは、プロセッサ1120は、現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第１の閾値を決定し、N個の静音フレームのLSF係数に従って第２の閾値を更に決定してもよい。Nは正の整数である。

任意選択で、他の実施例として、プロセッサ1120は、第１の予測方式でコンフォートノイズを予測してもよい。第１の予測方式は、デコーダがコンフォートノイズを生成する方式と同じである。

デバイス1100の他の機能及び動作については、前述の図１〜図３ｂの方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。

図１２は、本発明の他の実施例による信号符号化デバイスの概略ブロック図である。図１２のデバイス1200の例は、エンコーダ又はデコーダであり、例えば、図１に示すエンコーダ110又はデコーダ120である。デバイス1200は、メモリ1210と、プロセッサ1220とを含む。

メモリ1210は、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラム可能読み取り専用メモリ、不揮発性メモリ、又はレジスタを含んでもよい。プロセッサ1220は、CPUでもよい。

メモリ1210は、実行可能命令を記憶するように構成される。プロセッサ1220は、メモリ1210に記憶された実行可能命令を実行し、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離を決定し、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームと他の(P-1)個の静音フレームとの間の加重スペクトル距離の和であり、Pは正の整数であり、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って第１のスペクトルパラメータを決定してもよく、第１のスペクトルパラメータは、コンフォートノイズを生成するために使用される。

任意選択で、他の実施例として、プロセッサ1220は、P個の静音フレームの中の第１の静音フレームのグループ加重スペクトル距離が最小になるように、P個の静音フレームから第１の静音フレームを選択してもよく、第１の静音フレームのスペクトルパラメータが第１のスペクトルパラメータであると決定してもよい。

任意選択で、他の実施例として、プロセッサ1220は、P個の静音フレームの中の少なくとも１つの静音フレームのグループ加重スペクトル距離が第３の閾値未満になるように、P個の静音フレームから少なくとも１つの静音フレームを選択し、少なくとも１つの静音フレームのスペクトルパラメータに従って第１のスペクトルパラメータを決定してもよい。

任意選択で、他の実施例として、デバイス1200がエンコーダである場合、P個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(P-1)個の静音フレームとを含んでもよい。プロセッサ1220は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第１のスペクトルパラメータを含む。

デバイス1200の他の機能及び動作については、前述の図４の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。

図１３は、本発明の他の実施例による信号処理デバイスの概略ブロック図である。図１３のデバイス1300の例は、エンコーダ又はデコーダであり、例えば、図１に示すエンコーダ110又はデコーダ120である。デバイス1300は、メモリ1310と、プロセッサ1320とを含む。

メモリ1310は、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラム可能読み取り専用メモリ、不揮発性メモリ、又はレジスタを含んでもよい。プロセッサ1320は、CPUでもよい。

メモリ1310は、実行可能命令を記憶するように構成される。プロセッサ1320は、メモリ1310に記憶された実行可能命令を実行し、入力信号の周波数帯域をR個のサブバンドに分割し、Rは正の整数であり、R個のサブバンドの各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離を決定し、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離は、各サブバンドにおけるS個の静音フレームの中の各静音フレームと他の(S-1)個の静音フレームとの間のスペクトル距離の和であり、Sは正の整数であり、各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従って各サブバンドの第１のスペクトルパラメータを決定してもよく、各サブバンドの第１のスペクトルパラメータは、コンフォートノイズを生成するために使用される。

任意選択で、実施例として、プロセッサ1320は、各サブバンドにおいてS個の静音フレームの中の第１の静音フレームのサブバンドグループスペクトル距離が最小になるように、各サブバンドにおいて、S個の静音フレームから第１の静音フレームを選択し、各サブバンドにおいて、第１の静音フレームのスペクトルパラメータが各サブバンドの第１のスペクトルパラメータであると決定してもよい。

任意選択で、他の実施例として、プロセッサ1320は、少なくとも１つの静音フレームのサブバンドグループスペクトル距離が第４の閾値未満になるように、各サブバンドにおいて、S個の静音フレームから少なくとも１つの静音フレームを選択し、各サブバンドにおいて、少なくとも１つの静音フレームのスペクトルパラメータに従って各サブバンドの第１のスペクトルパラメータを決定してもよい。

任意選択で、他の実施例として、デバイス1300がエンコーダである場合、S個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(S-1)個の静音フレームとを含んでもよい。プロセッサ1320は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、各サブバンドの第１のスペクトルパラメータを含む。

デバイス1300の他の機能及び動作については、前述の図５の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。

図１４は、本発明の他の実施例による信号処理デバイスの概略ブロック図である。図１４のデバイス1400の例は、エンコーダ又はデコーダであり、例えば、図１に示すエンコーダ110又はデコーダ120である。デバイス1400は、メモリ1410と、プロセッサ1420とを含む。

メモリ1410は、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラム可能読み取り専用メモリ、不揮発性メモリ、又はレジスタを含んでもよい。プロセッサ1420は、CPUでもよい。

メモリ1410は、実行可能命令を記憶するように構成される。プロセッサ1420は、メモリ1410に記憶された実行可能命令を実行し、T個の静音フレームの中の各静音フレームの第１のパラメータを決定し、第１のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数であり、T個の静音フレームの中の各静音フレームの第１のパラメータに従って第１のスペクトルパラメータを決定してもよく、第１のスペクトルパラメータは、コンフォートノイズを生成するために使用される。

任意選択で、実施例として、プロセッサ1420は、T個の静音フレームがクラスタ化基準に従って静音フレームの第１のグループ及び静音フレームの第２のグループに分類され得ることが決定された場合、静音フレームの第１のグループのスペクトルパラメータに従って第１のスペクトルパラメータを決定してもよい。静音フレームの第１のグループの第１のパラメータにより表されるスペクトルエントロピーは、静音フレームの第２のグループの第１のパラメータにより表されるスペクトルエントロピーより大きい。T個の静音フレームがクラスタ化基準に従って静音フレームの第１のグループ及び静音フレームの第２のグループに分類され得ないことが決定された場合、第１のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。静音フレームの第１のグループの第１のパラメータにより表されるスペクトルエントロピーは、静音フレームの第２のグループの第１のパラメータにより表されるスペクトルエントロピーより大きい。

任意選択で、他の実施例として、プロセッサ1420は、第１のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。異なる第iの静音フレーム及び第jの静音フレームについて、T個の静音フレームの中で、第iの静音フレームに対応する重み係数は、第jの静音サブフレームに対応する重み係数以上である。第１のパラメータがスペクトルエントロピーに正相関している場合、第iの静音フレームの第１のパラメータは、第jの静音フレームの第１のパラメータより大きい。第１のパラメータがスペクトルエントロピーに負相関している場合、第iの静音フレームの第１のパラメータは、第jの静音フレームの第１のパラメータ未満である。i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tである。

任意選択で、他の実施例として、デバイス1400がエンコーダである場合、T個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(T-1)個の静音フレームとを含んでもよい。プロセッサ1420は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第１のスペクトルパラメータを含む。

デバイス1400の他の機能及び動作については、前述の図６の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。

当業者は、この明細書に開示された実施例に記載の例と組み合わせて、ユニット及びアルゴリズムのステップが、電子ハードウェア又はコンピュータソフトウェアと電子ハードウェアとの組み合わせにより実現されてもよいことを認識し得る。機能がハードウェアにより実行されるかソフトウェアにより実行されるかは、技術的対策の特定の用途及び設計上の制約条件に依存する。当業者は、特定の用途毎に記載の機能を実現するために異なる方法を使用してもよいが、この実現が本発明の範囲を超えるものとして考えられるべきではない。

便宜上且つ簡潔な説明の目的で、前述のシステム、装置及びユニットの詳細な動作処理について、前述の方法の実施例の対応する処理に参照が行われてもよく、詳細はここでは再び説明しないことが、当業者により明確に認識され得る。

この出願で提供される複数の実施例では、開示のシステム、装置及び方法は他の方式で実現されてもよいことが認識されるべきである。例えば、記載の装置の実施例は、単なる例示である。例えば、ユニットの分割は、単に論理的な機能分割であり、実際の実現では他の分割でもよい。例えば、複数のユニット又はコンポーネントは結合されてもよく、他のシステムに統合されてもよく、いくつかの機能が無視されてもよく実行されなくてもよい。更に、表示又は説明した相互結合若しくは直接結合又は通信接続は、いくつかのインタフェースを使用することにより実現されてもよい。装置又はユニットの間の間接結合又は通信接続は、電気的、機械的又は他の形式で実現されてもよい。

別々の部分として記載したユニットは、物理的に別々でもよく別々でなくてもよい。ユニットとして表示された部分は、物理的なユニットでもよく物理的なユニットでなくてもよく、１つの位置に存在してもよく、複数のネットワークユニットに分散されてもよい。ユニットの一部又は全部は、実施例の対策の目的を達成するために、実際のニーズに従って選択されてもよい。

更に、本発明の実施例における機能ユニットは、１つの処理ユニットに統合されてもよく、ユニットのそれぞれが物理的に単独で存在してもよく、２つ以上のユニットが１つのユニットに統合されてもよい。

機能がソフトウェア機能ユニットの形式で実現され、独立したプロダクトとして販売又は使用される場合、機能は、コンピュータ読み取り可能記憶媒体に記憶されてもよい。このような理解に基づいて、基本的に本発明の技術的対策若しくは従来技術に寄与する部分、又は技術的対策のいくつかは、ソフトウェアプロダクトの形式で実現されてもよい。コンピュータソフトウェアプロダクトは、記憶媒体に記憶され、コンピュータデバイス（パーソナルコンピュータ、サーバ又はネットワークデバイスでもよい）に対して本発明の実施例に記載の方法のステップの一部又は全部を実行するように命令する複数の命令を含む。前述の記憶媒体は、USBフラッシュドライブ、取り外し可能ハードディスク、読み取り専用メモリ（ROM、Read-Only Memory）、ランダムアクセスメモリ（RAM、Random Access Memory）、磁気ディスク又は光ディスクのようなプログラムコードを記憶し得るいずれかの媒体を含む。

前述の説明は本発明の単に特定の実現方式に過ぎず、本発明の保護範囲を限定することを意図するものではない。本発明に開示された技術的範囲内で当業者により容易に認識される如何なる変更又は置換も、本発明の保護範囲内に入るものとする。従って、本発明の保護範囲は、特許請求の範囲の保護範囲に従うものとする。

Claims

現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、前記現在の入力フレームが静音記述（SID）フレームに符号化される場合に前記現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定するステップであり、前記現在の入力フレームは静音フレームであるステップと、
前記コンフォートノイズと前記実際の静音信号との間の逸脱度を決定するステップと、
前記逸脱度に従って前記現在の入力フレームの符号化方式を決定するステップであり、前記現在の入力フレームの前記符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を有するステップと、
前記現在の入力フレームの前記符号化方式に従って前記現在の入力フレームを符号化するステップと
を有する信号符号化方法。
前記現在の入力フレームがSIDフレームに符号化される場合に前記現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、前記実際の静音信号を決定するステップは、
前記コンフォートノイズの特徴パラメータを予測し、前記実際の静音信号の特徴パラメータを決定するステップであり、前記コンフォートノイズの前記特徴パラメータは、前記実際の静音信号の前記特徴パラメータと１対１の対応関係にあるステップを有し、
前記コンフォートノイズと前記実際の静音信号との間の逸脱度を決定するステップは、
前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の距離を決定するステップを有する、請求項１に記載の方法。
前記逸脱度に従って前記現在の入力フレームの符号化方式を決定するステップは、
前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の前記距離が閾値集合の中の対応する閾値未満である場合、前記現在の入力フレームの前記符号化方式が前記SIDフレーム符号化方式であると決定するステップであり、前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の前記距離は、前記閾値集合の中の前記閾値と１対１の対応関係にあるステップと、
前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の前記距離が前記閾値集合の中の前記対応する閾値以上である場合、前記現在の入力フレームの前記符号化方式が前記ハングオーバフレーム符号化方式であると決定するステップと
を有する、請求項２に記載の方法。
前記コンフォートノイズの前記特徴パラメータは、エネルギー情報及びスペクトル情報の情報のうち少なくとも１つを表すために使用される、請求項２又は３に記載の方法。
前記エネルギー情報は、符号励振線形予測（CELP）励振エネルギーを有し、
前記スペクトル情報は、線形予測フィルタ係数、高速フーリエ変換（FFT）係数及び修正離散コサイン変換（MDCT）係数のうち少なくとも１つを有し、
前記線形予測フィルタ係数は、線スペクトル周波数（LSF）係数、線スペクトル対（LSP）係数、イミタンススペクトル周波数（ISF）係数、イミタンススペクトル対（ISP）係数、反射係数及び線形予測符号化（LPC）係数のうち少なくとも１つを有する、請求項４に記載の方法。
前記コンフォートノイズの特徴パラメータを予測するステップは、
前記現在の入力フレームの前記前のフレームのコンフォートノイズパラメータ及び前記現在の入力フレームの特徴パラメータに従って前記コンフォートノイズの前記特徴パラメータを予測するステップ、又は
前記現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び前記現在の入力フレームの特徴パラメータに従って前記コンフォートノイズの前記特徴パラメータを予測するステップであり、Lは正の整数であるステップ
を有する、請求項２ないし５のうちいずれか１項に記載の方法。
前記実際の静音信号の特徴パラメータを決定するステップは、
前記現在の入力フレームの前記特徴パラメータを前記実際の静音信号の前記特徴パラメータとして使用するステップ、又は
前記実際の静音信号の前記特徴パラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集するステップ
を有する、請求項２ないし６のうちいずれか１項に記載の方法。
前記M個の静音フレームは、前記現在の入力フレームと、前記現在の入力フレームの前の(M-1)個の静音フレームとを有し、Mは正の整数である、請求項７に記載の方法。
前記コンフォートノイズの前記特徴パラメータは、前記コンフォートノイズの符号励振線形予測（CELP）励振エネルギー及び前記コンフォートノイズの線スペクトル周波数（LSF）係数を有し、前記実際の静音信号の前記特徴パラメータは、前記実際の静音信号のCELP励振エネルギー及び前記実際の静音信号のLSF係数を有し、
前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の距離を決定するステップは、
前記コンフォートノイズの前記CELP励振エネルギーと前記実際の静音信号の前記CELP励振エネルギーとの間の距離Deを決定し、前記コンフォートノイズの前記LSF係数と前記実際の静音信号の前記LSF係数との間の距離Dlsfを決定するステップを有する、請求項３に記載の方法。
前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の前記距離が閾値集合の中の対応する閾値未満である場合、前記現在の入力フレームの前記符号化方式が前記SIDフレーム符号化方式であると決定するステップは、
前記距離Deが第１の閾値未満であり、前記距離Dlsfが第２の閾値未満である場合、前記現在の入力フレームの前記符号化方式が前記SIDフレーム符号化方式であると決定するステップを有し、
前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の前記距離が前記閾値集合の中の前記対応する閾値以上である場合、前記現在の入力フレームの前記符号化方式が前記ハングオーバフレーム符号化方式であると決定するステップは、
前記距離Deが前記第１の閾値以上であるか、或いは前記距離Dlsfが前記第２の閾値以上である場合、前記現在の入力フレームの前記符号化方式が前記ハングオーバフレーム符号化方式であると決定するステップを有する、請求項９に記載の方法。
予め設定された前記第１の閾値及び予め設定された前記第２の閾値を取得するステップ、又は
前記現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って前記第１の閾値を決定し、前記N個の静音フレームのLSF係数に従って前記第２の閾値を決定するステップであり、Nは正の整数であるステップ
を更に有する、請求項１０に記載の方法。
前記現在の入力フレームがSIDフレームに符号化される場合に前記現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測するステップは、
第１の予測方式で前記コンフォートノイズを予測するステップであり、前記第１の予測方式は、前記デコーダが前記コンフォートノイズを生成する方式と同じであるステップを有する、請求項１ないし１１のうちいずれか１項に記載の方法。
T個の静音フレームの中の各静音フレームの第１のパラメータを決定するステップであり、前記第１のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数であるステップと、
前記T個の静音フレームの中の各静音フレームの前記第１のパラメータに従って第１のスペクトルパラメータを決定するステップであり、前記第１のスペクトルパラメータは、コンフォートノイズを生成するために使用されるステップと
を有する信号処理方法。
前記T個の静音フレームの中の各静音フレームの前記第１のパラメータに従って第１のスペクトルパラメータを決定するステップは、
前記第１のスペクトルパラメータを決定するために、前記T個の静音フレームのスペクトルパラメータにおいて加重平均を実行するステップであり、
異なる第iの静音フレーム及び第jの静音フレームについて、前記T個の静音フレームの中で、前記第iの静音フレームに対応する重み係数は、前記第jの静音サブフレームに対応する重み係数以上であり、
前記第１のパラメータが前記スペクトルエントロピーに正相関している場合、前記第iの静音フレームの第１のパラメータは、前記第jの静音フレームの第１のパラメータより大きく、前記第１のパラメータが前記スペクトルエントロピーに負相関している場合、前記第iの静音フレームの前記第１のパラメータは、前記第jの静音フレームの前記第１のパラメータ未満であり、i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tであるステップ
を有する、請求項１３に記載の方法。
前記T個の静音フレームは、現在の入力静音フレームと、前記現在の入力静音フレームの前の(T-1)個の静音フレームとを有する、請求項１３又は１４に記載の方法。
前記現在の入力静音フレームを静音記述（SID）フレームに符号化するステップであり、前記SIDフレームは、前記第１のスペクトルパラメータを有するステップを更に有する、請求項１５に記載の方法。
現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、前記現在の入力フレームが静音記述（SID）フレームに符号化される場合に前記現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定するように構成された第１の決定ユニットであり、前記現在の入力フレームは静音フレームである第１の決定ユニットと、
前記第１の決定ユニットにより決定された前記コンフォートノイズと前記第１の決定ユニットにより決定された前記実際の静音信号との間の逸脱度を決定するように構成された第２の決定ユニットと、
前記第２の決定ユニットにより決定された前記逸脱度に従って前記現在の入力フレームの符号化方式を決定するように構成された第３の決定ユニットであり、前記現在の入力フレームの前記符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を有する第３の決定ユニットと、
前記第３の決定ユニットにより決定された前記現在の入力フレームの前記符号化方式に従って前記現在の入力フレームを符号化するように構成された符号化ユニットと
を有する信号符号化デバイス。
前記第１の決定ユニットは、前記コンフォートノイズの特徴パラメータを予測し、前記実際の静音信号の特徴パラメータを決定するように具体的に構成され、前記コンフォートノイズの前記特徴パラメータは、前記実際の静音信号の前記特徴パラメータと１対１の対応関係にあり、
前記第２の決定ユニットは、前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の距離を決定するように具体的に構成される、請求項１７に記載のデバイス。
前記第３の決定ユニットは、前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の前記距離が閾値集合の中の対応する閾値未満である場合、前記現在の入力フレームの前記符号化方式が前記SIDフレーム符号化方式であると決定するように具体的に構成され、前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の前記距離は、前記閾値集合の中の前記閾値と１対１の対応関係にあり、前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の前記距離が前記閾値集合の中の前記対応する閾値以上である場合、前記現在の入力フレームの前記符号化方式が前記ハングオーバフレーム符号化方式であると決定するように具体的に構成される、請求項１８に記載のデバイス。
前記第１の決定ユニットは、前記現在の入力フレームの前記前のフレームのコンフォートノイズパラメータ及び前記現在の入力フレームの特徴パラメータに従って前記コンフォートノイズの前記特徴パラメータを予測するように、或いは前記現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び前記現在の入力フレームの特徴パラメータに従って前記コンフォートノイズの前記特徴パラメータを予測するように具体的に構成され、Lは正の整数である、請求項１８又は１９に記載のデバイス。
前記第１の決定ユニットは、前記現在の入力フレームの前記特徴パラメータが前記実際の静音信号の前記特徴パラメータであると決定するように、或いは前記実際の静音信号の前記特徴パラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集するように具体的に構成される、請求項１８ないし２０のうちいずれか１項に記載のデバイス。
前記コンフォートノイズの前記特徴パラメータは、前記コンフォートノイズの符号励振線形予測（CELP）励振エネルギー及び前記コンフォートノイズの線スペクトル周波数（LSF）係数を有し、前記実際の静音信号の前記特徴パラメータは、前記実際の静音信号のCELP励振エネルギー及び前記実際の静音信号のLSF係数を有し、
前記第２の決定ユニットは、前記コンフォートノイズの前記CELP励振エネルギーと前記実際の静音信号の前記CELP励振エネルギーとの間の距離Deを決定し、前記コンフォートノイズの前記LSF係数と前記実際の静音信号の前記LSF係数との間の距離Dlsfを決定するように具体的に構成される、請求項１９に記載のデバイス。
前記第３の決定ユニットは、前記距離Deが第１の閾値未満であり、前記距離Dlsfが第２の閾値未満である場合、前記現在の入力フレームの前記符号化方式が前記SIDフレーム符号化方式であると決定するように具体的に構成され、
前記第３の決定ユニットは、前記距離Deが前記第１の閾値以上であるか、或いは前記距離Dlsfが前記第２の閾値以上である場合、前記現在の入力フレームの前記符号化方式が前記ハングオーバフレーム符号化方式であると決定するように具体的に構成される、請求項２２に記載のデバイス。
予め設定された前記第１の閾値及び予め設定された前記第２の閾値を取得するように、或いは前記現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って前記第１の閾値を決定し、前記N個の静音フレームのLSF係数に従って前記第２の閾値を決定するように構成された第４の決定ユニットを更に有し、Nは正の整数である、請求項２３に記載のデバイス。
前記第１の決定ユニットは、第１の予測方式で前記コンフォートノイズを予測するように具体的に構成され、前記第１の予測方式は、前記デコーダが前記コンフォートノイズを生成する方式と同じである、請求項１７ないし２４のうちいずれか１項に記載のデバイス。
T個の静音フレームの中の各静音フレームの第１のパラメータを決定するように構成された第１の決定ユニットであり、前記第１のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数である第１の決定ユニットと、
前記T個の静音フレームの中の各静音フレームの、前記第１の決定ユニットにより決定された前記第１のパラメータに従って第１のスペクトルパラメータを決定するように構成された第２の決定ユニットであり、前記第１のスペクトルパラメータは、コンフォートノイズを生成するために使用される第２の決定ユニットと
を有する信号処理デバイス。
前記第２の決定ユニットは、前記第１のスペクトルパラメータを決定するために、前記T個の静音フレームのスペクトルパラメータにおいて加重平均を実行するように具体的に構成され、
異なる第iの静音フレーム及び第jの静音フレームについて、前記T個の静音フレームの中で、前記第iの静音フレームに対応する重み係数は、前記第jの静音サブフレームに対応する重み係数以上であり、前記第１のパラメータが前記スペクトルエントロピーに正相関している場合、前記第iの静音フレームの第１のパラメータは、前記第jの静音フレームの第１のパラメータより大きく、前記第１のパラメータが前記スペクトルエントロピーに負相関している場合、前記第iの静音フレームの前記第１のパラメータは、前記第jの静音フレームの前記第１のパラメータ未満であり、i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tである、請求項２６に記載のデバイス。
前記T個の静音フレームは、現在の入力静音フレームと、前記現在の入力静音フレームの前の(T-1)個の静音フレームとを有し、
前記現在の入力静音フレームを静音記述（SID）フレームに符号化するように構成された符号化ユニットであり、前記SIDフレームは、前記第１のスペクトルパラメータを有する符号化ユニットを更に有する、請求項２６又は２７に記載のデバイス。