JP6859379B2

JP6859379B2 - 快適雑音生成モード選択のための装置および方法

Info

Publication number: JP6859379B2
Application number: JP2019039146A
Authority: JP
Inventors: エマニュエル・ラベーリ; マーティン・ディエッツ; ヴォルフガング・ヤエゲルス; クリスティアン・ノイカム; ステファン・ロイシェル
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2014-07-28
Filing date: 2019-03-05
Publication date: 2021-04-14
Anticipated expiration: 2035-07-16
Also published as: AR101342A1; EP3706120A1; PL3175447T3; US11250864B2; SG11201700688RA; CN106663436B; CN113140224A; WO2016016013A1; JP7258936B2; EP3175447A1; KR20170037649A; US20170140765A1; CA2955757C; MY181456A; JP6494740B2; JP2017524157A; PT3175447T; TW201606752A; CN106663436A; KR102008488B1

Description

本発明は、オーディオ信号符号化、処理および復号に関し、特に、快適雑音生成モード選択のための装置および方法に関する。

通信音声およびオーディオコーデック（たとえば、ＡＭＲ−ＷＢ、Ｇ．７１８）は、一般的に不連続送信（ＤＴＸ）方式および快適雑音生成（ＣＮＧ）アルゴリズムを含む。ＤＴＸ／ＣＮＧ動作は、非アクティブ信号期間の間に背景雑音をシミュレートすることによって、伝送速度を低減するために使用される。

ＣＮＧは、たとえば、いくつかの方法で実施することができる。

ＡＭＲ−ＷＢ（ＩＴＵ−ＴＧ．７２２．２ＡｎｎｅｘＡ）およびＧ．７１８（ＩＴＵ−ＴＧ．７１８Ｓｅｃ．６．１２および７．１２）のようなコーデックにおいて最も使用される方法は、励振＋線形予測（ＬＰ）モデルに基づくものである。不規則励振信号が最初に生成され、その後、利得によってスケーリングされ、最後にＬＰ逆フィルタを使用して合成されることで時間領域ＣＮＧ信号が生成される。送信される２つの主なパラメータが、励振エネルギーおよびＬＰ係数である（一般的にＬＳＦまたはＩＳＦ表現を使用する）。この方法は、ここではＬＰ−ＣＮＧとして参照される。

近年提案されており、たとえば、「Ｇｅｎｅｒａｔｉｏｎｏｆａｃｏｍｆｏｒｔｎｏｉｓｅｗｉｔｈｈｉｇｈｓｐｅｃｔｒｏ−ｔｅｍｐｏｒａｌｒｅｓｏｌｕｔｉｏｎｉｎｄｉｓｃｏｎｔｉｎｕｏｕｓｔｒａｎｓｍｉｓｓｉｏｎｏｆａｕｄｉｏｓｉｇｎａｌｓ」と題する国際公開第２０１４／０９６２７９号パンフレットに記載されている別の方法は、背景雑音の周波数領域（ＦＤ）表現に基づく。不規則雑音が周波数領域において生成され（たとえば、ＦＦＴ、ＭＤＣＴ、ＱＭＦ）、その後、背景雑音のＦＤ表現を使用して整形され、最後に、周波数から時間領域へと変換されて、時間領域ＣＮＧ信号が作り出される。送信される２つの主なパラメータは、グローバル利得、および、帯域雑音レベルのセットである。この方法は、ここではＦＤ−ＣＮＧとして参照される。

国際公開第２０１４／０９６２７９号パンフレット

本発明の目的は、快適雑音生成における改善された概念を提供することである。本発明の目的は、請求項１に記載の装置、請求項１０に記載の装置、請求項１３に記載のシステム、請求項１４に記載の方法、請求項１５に記載の方法、および、請求項１６に記載のコンピュータプログラムによって達成される。

オーディオ情報を符号化するための装置が提供される。オーディオ情報を符号化するための装置は、オーディオ入力信号の背景雑音特性に応じて２つ以上の快適雑音生成モードから快適雑音生成モードを選択するための選択器と、オーディオ情報が、選択されている快適雑音生成モードを示すモード情報を含む、オーディオ情報を符号化するための符号化ユニットとを備える。

とりわけ、実施形態は、ＦＤ−ＣＮＧが、たとえば、自動車の雑音のような高傾斜背景雑音信号に対してより良好な品質を与え、一方で、ＬＰ−ＣＮＧが、たとえば、オフィスの雑音のような、スペクトル的により平坦な背景雑音信号に対してより良好な品質を与えるという知見に基づく。

ＤＴＸ／ＣＮＧシステムから最良の品質を得るためには、実施形態によれば、両方のＣＮＧ手法が使用され、背景雑音特性に応じて、それらのうちの一方が選択される。

実施形態は、たとえば、ＬＰ−ＣＮＧまたはＦＤ−ＣＮＧのいずれのＣＮＧモードが使用されるべきかを判断する選択器を提供する。

一実施形態によれば、選択器は、たとえば、背景雑音特性として、オーディオ入力信号の背景雑音の傾斜を判定するように構成することができる。選択器は、たとえば、判定された傾斜に応じて、２つ以上の快適雑音生成モードから上記快適雑音生成モードを選択するように構成することができる。

一実施形態において、装置は、たとえば、複数の周波数帯域の各々について、背景雑音の帯域ごとの推定値を推定するための雑音推定器をさらに備えることができる。選択器は、たとえば、複数の周波数帯域の推定された背景雑音に応じて傾斜を判定するように構成することができる。

一実施形態によれば、雑音推定器は、たとえば、複数の周波数帯域の各々の背景雑音のエネルギーを推定することによって、背景雑音の帯域ごとの推定値を推定するように構成することができる。

一実施形態において、雑音推定器は、たとえば、複数の周波数帯域のうちの第１のグループの各周波数帯域の背景雑音の帯域ごとの推定値に応じて、複数の周波数帯域のうちの第１のグループの第１の背景雑音エネルギーを示す低周波数背景雑音値を判定するように構成することができる。

その上、そのような実施形態において、雑音推定器は、たとえば、複数の周波数帯域のうちの第２のグループの各周波数帯域の背景雑音の帯域ごとの推定値に応じて、複数の周波数帯域のうちの第２のグループの第２の背景雑音エネルギーを示す高周波数背景雑音値を判定するように構成することができる。第１のグループの少なくとも１つの周波数帯域は、たとえば、第２のグループの少なくとも１つの周波数帯域の中心周波数よりも低い中心周波数を有し得る。特定の実施形態において、第１のグループの各周波数帯域は、たとえば、第２のグループの各周波数帯域の中心周波数よりも低い中心周波数を有し得る。

さらに、選択器は、たとえば、低周波数背景雑音値および高周波数背景雑音値に応じて傾斜を判定するように構成することができる。

一実施形態によれば、雑音推定器は、たとえば、以下の式に従って低周波数背景雑音値Ｌを判定するように構成することができ、

式中、ｉは第１の周波数帯域グループのｉ番目の周波数帯域を示し、Ｉ_１は複数の周波数帯域のうちの第１の周波数帯域を示し、Ｉ_２は複数の周波数帯域のうちの第２の周波数帯域を示し、Ｎ［ｉ］はｉ番目の周波数帯域の背景雑音エネルギーのエネルギー推定値を示す。

一実施形態において、雑音推定器は、たとえば、以下の式に従って高周波数背景雑音値Ｈを判定するように構成することができ、

式中、ｉは第２の周波数帯域グループのｉ番目の周波数帯域を示し、Ｉ_３は複数の周波数帯域のうちの第３の周波数帯域を示し、Ｉ_４は複数の周波数帯域のうちの第４の周波数帯域を示し、Ｎ［ｉ］はｉ番目の周波数帯域の背景雑音エネルギーのエネルギー推定値を示す。

一実施形態によれば、選択器は、たとえば、低周波数背景雑音値Ｌおよび高周波数背景雑音値Ｈに応じて傾斜Ｔを、式
Ｔ＝Ｌ／Ｈ
に従って、または、式
Ｔ＝Ｈ／Ｌ
に従って、または、式
Ｔ＝Ｌ−Ｈ
に従って、または、式
Ｔ＝Ｈ−Ｌ
に従って判定するように構成することができる。

一実施形態において、選択器は、たとえば、傾斜を、現在の短期傾斜値として判定するように構成することができる。その上、選択器は、たとえば、現在の短期傾斜値および以前の長期傾斜値に応じて現在の長期傾斜値を判定するように構成することができる。さらに、選択器は、たとえば、現在の長期傾斜値に応じて、２つ以上の快適雑音生成モードのうちの１つを選択するように構成することができる。

一実施形態によれば、選択器は、たとえば、以下の式に従って現在の長期傾斜値Ｔ_ｃＬＴを判定するように構成することができる。
Ｔ_ｃＬＴ＝αＴ_ｐＬＴ＋（１−α）Ｔ
式中、Ｔは現在の短期傾斜値であり、Ｔ_ｐＬＴは上記以前の長期傾斜値であり、αは０＜α＜１の実数である。

一実施形態において、２つ以上の快適雑音生成モードのうちの第１の快適雑音生成モードは、たとえば、周波数領域快適雑音生成モードであってもよい。その上、２つ以上の快適雑音生成モードのうちの第２の快適雑音生成モードは、たとえば、線形予測領域快適雑音生成モードであってもよい。さらに、選択器は、たとえば、選択器によって以前に選択された生成モードが線形予測領域快適雑音生成モードであり、かつ、現在の長期傾斜値が第１の閾値よりも大きい場合、周波数領域快適雑音生成モードを選択するように構成することができる。その上、選択器は、たとえば、選択器によって以前に選択された生成モードが周波数領域快適雑音生成モードであり、かつ、現在の長期傾斜値が第２の閾値よりも小さい場合、線形予測領域快適雑音生成モードを選択するように構成することができる。

その上、受信符号化オーディオ情報に基づいてオーディオ出力信号を生成するための装置が提供される。装置は、符号化オーディオ情報内に符号化されているモード情報を得るために符号化オーディオ情報を復号するための復号ユニットを備え、モード情報は、２つ以上の快適雑音生成モードのうちの指示されている快適雑音生成モードを示す。その上、装置は、指示されている快適雑音生成モードに応じて、快適雑音を生成することによって、オーディオ出力信号を生成するための信号プロセッサを備える。

一実施形態によれば、２つ以上の快適雑音生成モードのうちの第１の快適雑音生成モードは、たとえば、周波数領域快適雑音生成モードであってもよい。信号プロセッサは、たとえば、指示されている快適雑音生成モードが周波数領域快適雑音生成モードである場合に、周波数領域において生成されている快適雑音の周波数−時間変換を実施することによって、周波数領域において快適雑音を生成するように構成することができる。たとえば、特定の実施形態において、信号プロセッサは、たとえば、指示されている快適雑音生成モードが周波数領域快適雑音生成モードである場合に、周波数領域において不規則雑音を生成すること、周波数領域における不規則雑音を整形して整形済み雑音を得ること、および、整形済み雑音を周波数領域から時間領域へと変換することによって、快適雑音を生成するように構成することができる。

一実施形態において、２つ以上の快適雑音生成モードのうちの第２の快適雑音生成モードは、たとえば、線形予測領域快適雑音生成モードであってもよい。信号プロセッサは、たとえば、指示されている快適雑音生成モードが線形予測領域快適雑音生成モードである場合に、線形予測フィルタを利用することによって、快適雑音を生成するように構成することができる。たとえば、特定の実施形態において、信号プロセッサは、たとえば、指示されている快適雑音生成モードが線形予測領域快適雑音生成モードである場合に、不規則励振信号を生成すること、不規則励振信号をスケーリングしてスケーリング済み励振信号を得ること、および、ＬＰ逆フィルタを使用してスケーリング済み励振信号を合成することによって、快適雑音を生成するように構成することができる。

さらに、システムが提供される。システムは、上述した実施形態のうちの１つによる、オーディオ情報を符号化するための装置と、上述した実施形態のうちの１つによる、受信符号化オーディオ情報に基づいてオーディオ出力信号を生成するための装置とを備える。オーディオ情報を符号化するための装置の選択器は、オーディオ入力信号の背景雑音特性に応じて２つ以上の快適雑音生成モードから快適雑音生成モードを選択するように構成されている。オーディオ情報を符号化するための装置の符号化ユニットは、選択されている快適雑音生成モードを、指示されている快適雑音生成モードとして示すモード情報を含むオーディオ情報を符号化して、符号化オーディオ情報を得るように構成されている。その上、オーディオ出力信号を生成するための装置の復号ユニットは、符号化オーディオ情報を受信するように構成されており、符号化オーディオ情報内に符号化されているモード情報を得るために、符号化オーディオ情報を復号するようにさらに構成されている。オーディオ出力信号を生成するための装置の信号プロセッサは、指示されている快適雑音生成モードに応じて、快適雑音を生成することによって、オーディオ出力信号を生成するように構成されている。

その上、オーディオ情報を符号化するための方法が提供される。方法は、以下のステップを含む。
− オーディオ入力信号の背景雑音特性に応じて２つ以上の快適雑音生成モードから快適雑音生成モードを選択するステップ。および
− オーディオ情報を符号化するステップであって、オーディオ情報は、選択されている快適雑音生成モードを示すモード情報を含む、符号化するステップ。

さらに、受信符号化オーディオ情報に基づいてオーディオ出力信号を生成するための方法が提供される。方法は、以下のステップを含む。
− 符号化オーディオ情報内に符号化されているモード情報を得るために符号化オーディオ情報を復号するステップであって、モード情報は、２つ以上の快適雑音生成モードのうちの指示されている快適雑音生成モードを示す、復号するステップ。および
− 指示されている快適雑音生成モードに応じて、快適雑音を生成することによって、オーディオ出力信号を生成するステップ。

その上、コンピュータまたは信号プロセッサ上で実行されると、上述した方法を実施するためのコンピュータプログラムが提供される。

そのため、いくつかの実施形態において、提案されている選択器は、たとえば、主に、背景雑音の傾斜に基づくことができる。たとえば、背景雑音の傾斜が高い場合、ＦＤ−ＣＮＧが選択され、そうでない場合、ＬＰ−ＣＮＧが選択される。

背景雑音傾斜を平滑化したもの、および、ヒステリシスが、たとえば、１つのモードから別のモードへの頻繁な切り替わりを回避するために使用され得る。

背景雑音の傾斜は、たとえば、低周波数における背景雑音エネルギーと、高周波数における背景雑音エネルギーとの比を使用して推定することができる。

背景雑音エネルギーは、たとえば、雑音推定器を使用して周波数領域において推定することができる。

以下において、本発明の実施形態を、図面を参照しながらより詳細に説明する。

一実施形態によるオーディオ情報を符号化するための装置を示す図である。別の実施形態によるオーディオ情報を符号化するための装置を示す図である。一実施形態による快適雑音生成モードを選択するための段階的な手法を示す図である。一実施形態による、受信符号化オーディオ情報に基づいてオーディオ出力信号を生成するための装置を示す図である。一実施形態によるシステムを示す図である。

図１は、一実施形態によるオーディオ情報を符号化するための装置を示す。

オーディオ情報を符号化するための装置は、オーディオ入力信号の背景雑音特性に応じて２つ以上の快適雑音生成モードから快適雑音生成モードを選択するための選択器１１０を備える。

その上、装置は、オーディオ情報を符号化するための符号化ユニット１２０を備え、オーディオ情報は、選択されている快適雑音生成モードを示すモード情報を含む。

たとえば、２つ以上の快適雑音生成モードのうちの第１の快適雑音生成モードは、たとえば、周波数領域快適雑音生成モードであってもよい。かつ／または、たとえば、２つ以上の生成モードのうちの第２の快適雑音生成モードは、たとえば、線形予測領域快適雑音生成モードであってもよい。

たとえば、復号器側において、符号化オーディオ情報が受信され、符号化オーディオ情報内に符号化されているモード情報が、選択されている快適雑音生成モードが周波数領域快適雑音生成モードであることを示す場合、復号器側の信号プロセッサは、たとえば、周波数領域において不規則雑音を生成すること、周波数領域における不規則雑音を整形して整形済み雑音を得ること、および、整形済み雑音を周波数領域から時間領域へと変換することによって、快適雑音を生成することができる。

一方、たとえば、符号化オーディオ情報内に符号化されているモード情報が、選択されている快適雑音生成モードが線形予測領域快適雑音生成モードであることを示す場合、復号器側の信号プロセッサは、たとえば、不規則励振信号を生成し、不規則励振信号をスケーリングしてスケーリング済み励振信号を得、ＬＰ逆フィルタを使用してスケーリング済み励振信号を合成することによって、快適雑音を生成することができる。

符号化オーディオ情報内には、快適雑音生成モードに関する情報だけでなく、追加の情報も符号化され得る。たとえば、周波数帯域特有の利得係数も、たとえば、周波数帯域ごとに１つの利得係数で符号化することができる。または、たとえば、１つ以上のＬＰフィルタ係数、またはＬＳＦ係数もしくはＩＳＦ係数が、たとえば、符号化オーディオ情報内に符号化され得る。符号化オーディオ情報内に符号化されている、選択されている快適雑音生成モードに関する情報および追加の情報はその後、たとえば、ＳＩＤフレーム内で復号器側に送信され得る（ＳＩＤ＝無音挿入記述子）。

選択されている快適雑音生成モードに関する情報は、明示的または黙示的に符号化されてもよい。

選択されている快適雑音生成モードを明示的に符号化するとき、１つ以上のビットがたとえば、選択されている快適雑音生成モードが、２つ以上の快適雑音生成モードのうちのいずれであるかを示すために利用され得る。そのような実施形態において、上記１つ以上のビットはこのとき、符号化モード情報である。

一方で、他の実施形態において、選択されている快適雑音生成モードは、オーディオ情報内に黙示的に符号化される。たとえば、上述した例において、周波数帯域特有の利得係数および１つ以上のＬＰ（またはＬＳＦもしくはＩＳＦ）係数は、たとえば、異なるデータフォーマットを有し得、または、たとえば、異なるビット長を有し得る。たとえば、周波数帯域特有の利得係数がオーディオ情報内に符号化されている場合、これは、たとえば、周波数領域快適雑音生成モードが選択されている快適雑音生成モードであることを示し得る。一方、１つ以上のＬＰ（またはＬＳＦもしくはＩＳＦ）係数がオーディ情報内に符号化されている場合、これは、たとえば、線形予測領域快適雑音生成モードが選択されている快適雑音生成モードであることを示し得る。そのような黙示的符号化が使用されるとき、周波数帯域特有の利得係数または１つ以上のＬＰ（またはＬＳＦもしくはＩＳＦ）係数が、符号化オーディオ信号内に符号化されているモード情報を表し、このモード情報が、選択されている快適雑音生成モードを示す。

一実施形態によれば、選択器１１０は、たとえば、背景雑音特性として、オーディオ入力信号の背景雑音の傾斜を判定するように構成することができる。選択器１１０は、たとえば、判定された傾斜に応じて、２つ以上の快適雑音生成モードから上記快適雑音生成モードを選択するように構成することができる。

たとえば、低周波数背景雑音値および高周波数背景雑音値を利用することができ、背景雑音の傾斜は、たとえば、低周波数背景雑音値および高周波数背景雑音値に応じて計算することができる。

図２は、さらなる実施形態によるオーディオ情報を符号化するための装置を示す。図２の装置は、たとえば、複数の周波数帯域の各々について、背景雑音の帯域ごとの推定値を推定するための雑音推定器１０５をさらに備える。選択器１１０は、たとえば、複数の周波数帯域の推定された背景雑音に応じて傾斜を判定するように構成することができる。

一実施形態によれば、雑音推定器１０５は、たとえば、複数の周波数帯域の各々の背景雑音のエネルギーを推定することによって、背景雑音の帯域ごとの推定値を推定するように構成することができる。

一実施形態において、雑音推定器１０５は、たとえば、複数の周波数帯域のうちの第１のグループの各周波数帯域の背景雑音の帯域ごとの推定値に応じて、複数の周波数帯域のうちの第１のグループの第１の背景雑音エネルギーを示す低周波数背景雑音値を判定するように構成することができる。

その上、雑音推定器１０５は、たとえば、複数の周波数帯域のうちの第２のグループの各周波数帯域の背景雑音の帯域ごとの推定値に応じて、複数の周波数帯域のうちの第２のグループの第２の背景雑音エネルギーを示す高周波数背景雑音値を判定するように構成することができる。第１のグループの少なくとも１つの周波数帯域は、たとえば、第２のグループの少なくとも１つの周波数帯域の中心周波数よりも低い中心周波数を有し得る。特定の実施形態において、第１のグループの各周波数帯域は、たとえば、第２のグループの各周波数帯域の中心周波数よりも低い中心周波数を有し得る。

さらに、選択器１１０は、たとえば、低周波数背景雑音値および高周波数背景雑音値に応じて傾斜を判定するように構成することができる。

一実施形態によれば、雑音推定器１０５は、たとえば、以下の式に従って低周波数背景雑音値Ｌを判定するように構成することができ、

同様に、一実施形態において、雑音推定器１０５は、たとえば、以下の式に従って高周波数背景雑音値Ｈを判定するように構成することができ、

一実施形態によれば、選択器１１０は、たとえば、低周波数背景雑音値Ｌおよび高周波数背景雑音値Ｈに応じて傾斜Ｔを、式
Ｔ＝Ｌ／Ｈ
に従って、または、式
Ｔ＝Ｈ／Ｌ
に従って、または、式
Ｔ＝Ｌ−Ｈ
に従って、または、式
Ｔ＝Ｈ−Ｌ
に従って判定するように構成することができる。

たとえば、ＬおよびＨが対数領域において表されるとき、上記減算式のうちの一方（たとえば、Ｔ＝Ｌ−ＨまたはＴ＝Ｈ−Ｌ）が利用され得る。

一実施形態において、選択器１１０は、たとえば、傾斜を、現在の短期傾斜値として判定するように構成することができる。その上、選択器１１０は、たとえば、現在の短期傾斜値および以前の長期傾斜値に応じて現在の長期傾斜値を判定するように構成することができる。さらに、選択器１１０は、たとえば、現在の長期傾斜値に応じて、２つ以上の快適雑音生成モードのうちの１つを選択するように構成することができる。

一実施形態によれば、選択器１１０は、たとえば、以下の式に従って現在の長期傾斜値Ｔ_ｃＬＴを判定するように構成することができる。
Ｔ_ｃＬＴ＝αＴ_ｐＬＴ＋（１−α）Ｔ
式中、Ｔは現在の短期傾斜値であり、Ｔ_ｐＬＴは上記以前の長期傾斜値であり、αは０＜α＜１の実数である。

一実施形態において、２つ以上の快適雑音生成モードのうちの第１の快適雑音生成モードは、たとえば、周波数領域快適雑音生成モードＦＤ＿ＣＮＧであってもよい。その上、２つ以上の快適雑音生成モードのうちの第２の快適雑音生成モードは、たとえば、線形予測領域快適雑音生成モードＬＰ＿ＣＮＧであってもよい。選択器１１０は、たとえば、選択器１１０によって以前に選択された生成モードｃｎｇ＿ｍｏｄｅ＿ｐｒｅｖが線形予測領域快適雑音生成モードＬＰ＿ＣＮＧであり、かつ、現在の長期傾斜値が第１の閾値ｔｈｒ_１よりも大きい場合、周波数領域快適雑音生成モードＦＤ＿ＣＮＧを選択するように構成することができる。その上、選択器１１０は、たとえば、選択器１１０によって以前に選択された生成モードｃｎｇ＿ｍｏｄｅ＿ｐｒｅｖが周波数領域快適雑音生成モードＦＤ＿ＣＮＧであり、かつ、現在の長期傾斜値が第２の閾値ｔｈｒ_２よりも小さい場合、線形予測領域快適雑音生成モードＬＰ＿ＣＮＧを選択するように構成することができる。

いくつかの実施形態において、第１の閾値は第２の閾値に等しい。一方、他のいくつかの実施形態において、第１の閾値は第２の閾値とは異なる。

図４は、一実施形態による、受信符号化オーディオ情報に基づいてオーディオ出力信号を生成するための装置を示す。

装置は、符号化オーディオ情報内に符号化されているモード情報を得るために、符号化オーディオ情報を復号するための復号ユニット２１０を備える。モード情報は、２つ以上の快適雑音生成モードのうちの指示されている快適雑音生成モードを示す。

その上、装置は、指示されている快適雑音生成モードに応じて、快適雑音を生成することによって、オーディオ出力信号を生成するための信号プロセッサ２２０を備える。

一実施形態によれば、２つ以上の快適雑音生成モードのうちの第１の快適雑音生成モードは、たとえば、周波数領域快適雑音生成モードであってもよい。信号プロセッサ２２０は、たとえば、指示されている快適雑音生成モードが周波数領域快適雑音生成モードである場合に、周波数領域において生成されている快適雑音の周波数−時間変換を実施することによって、周波数領域において快適雑音を生成するように構成することができる。たとえば、特定の実施形態において、信号プロセッサは、たとえば、指示されている快適雑音生成モードが周波数領域快適雑音生成モードである場合に、周波数領域において不規則雑音を生成すること、周波数領域における不規則雑音を整形して整形済み雑音を得ること、および、整形済み雑音を周波数領域から時間領域へと変換することによって、快適雑音を生成するように構成することができる。

たとえば、国際公開第２０１４／０９６２７９号パンフレットに記載されている概念を利用することができる。

たとえば、１つ以上の不規則系列を生成することによって、ＦＦＴ領域および／またはＱＭＦ領域内の各個々のスペクトル帯域を励振するために、不規則生成器が適用され得る（ＦＦＴ＝高速フーリエ変換、ＱＭＦ＝直交ミラーフィルタ）。たとえば、生成される快適雑音のスペクトルが、たとえば、例としてオーディオ入力信号を含むビットストリーム内に存在する実際の背景雑音のスペクトルに類似するように、各帯域内の不規則系列の振幅を個々に計算することによって、不規則雑音の整形を行うことができる。したがって、たとえば、不規則系列を、各周波数帯域内の計算された振幅と乗算することによって、計算された振幅を、たとえば、不規則系列に適用することができる。このように、整形済み雑音の、周波数領域から時間領域への変換を利用することができる。

一実施形態において、２つ以上の快適雑音生成モードのうちの第２の快適雑音生成モードは、たとえば、線形予測領域快適雑音生成モードであってもよい。信号プロセッサ２２０は、たとえば、指示されている快適雑音生成モードが線形予測領域快適雑音生成モードである場合に、線形予測フィルタを利用することによって、快適雑音を生成するように構成することができる。たとえば、特定の実施形態において、信号プロセッサは、たとえば、指示されている快適雑音生成モードが線形予測領域快適雑音生成モードである場合に、不規則励振信号を生成すること、不規則励振信号をスケーリングしてスケーリング済み励振信号を得ること、および、ＬＰ逆フィルタを使用してスケーリング済み励振信号を合成することによって、快適雑音を生成するように構成することができる。

たとえば、Ｇ．７２２．２（ＩＴＵ−ＴＧ．７２２．２ＡｎｎｅｘＡ参照）および／またはＧ．７１８（ＩＴＵ−ＴＧ．７１８Ｓｅｃ．６．１２および７．１２参照）に記載されているような快適雑音生成が利用されてもよい。不規則励振信号をスケーリングしてスケーリング済み励振信号を得ること、および、ＬＰ逆フィルタを使用してスケーリング済み励振信号を合成することによる、不規則励振領域におけるそのような快適雑音生成は、当該技術分野において既知である。

図５は、一実施形態によるシステムを示す。システムは、上述した実施形態のうちの１つに従ってオーディオ情報を符号化するための装置１００と、上述した実施形態のうちの１つに従って受信符号化オーディオ情報に基づいてオーディオ出力信号を生成するための装置２００とを備える。

オーディオ情報を符号化するための装置１００の選択器１１０は、オーディオ入力信号の背景雑音特性に応じて２つ以上の快適雑音生成モードから快適雑音生成モードを選択するように構成されている。オーディオ情報を符号化するための装置１００の符号化ユニット１２０は、選択されている快適雑音生成モードを、指示されている快適雑音生成モードとして示すモード情報を含むオーディオ情報を符号化して、符号化オーディオ情報を得るように構成されている。

その上、オーディオ出力信号を生成するための装置２００の復号ユニット２１０は、符号化オーディオ情報を受信するように構成されており、符号化オーディオ情報内に符号化されているモード情報を得るために、符号化オーディオ情報を復号するようにさらに構成されている。オーディオ出力信号を生成するための装置２００の信号プロセッサ２２０は、指示されている快適雑音生成モードに応じて、快適雑音を生成することによって、オーディオ出力信号を生成するように構成されている。

図３は、一実施形態による快適雑音生成モードを選択するための段階的な手法を示す。

ステップ３１０において、周波数領域における背景雑音エネルギーを推定するために雑音推定器が使用される。これは一般的に、帯域ごとに実施され、帯域ごとに１つのエネルギー推定値が作り出される。
Ｎ[ｉ]、ただし０≦ｉ＜Ｎ、Ｎは帯域の数（たとえば、Ｎ＝２０）

背景雑音エネルギーの帯域ごとの推定値を作り出す任意の雑音推定器が使用されてもよい。一例は、Ｇ．７１８（ＩＴＵ−ＴＧ．７１８Ｓｅｃ．６．７）において使用されている雑音推定器である。

ステップ３２０において、以下の式を使用して、低周波数における背景雑音エネルギーが計算される。

ここで、Ｉ_１およびＩ_２は信号帯域幅に依存し得、たとえば、ＮＢについては、Ｉ_１＝１、Ｉ_２＝９であり、ＷＢについては、Ｉ_１＝０、Ｉ_２＝１０である。

Ｌは、上述したような低周波数背景雑音値として考えることができる。

ステップ３３０において、以下の式を使用して高周波数における背景雑音エネルギーが計算される。

ここで、Ｉ_３およびＩ_４は信号帯域幅に依存し得、たとえば、ＮＢについてはＩ_３＝１６、Ｉ_４＝１７であり、ＷＢについてはＩ_３＝１９、Ｉ_４＝２０である。

Ｈは、上述したような高周波数背景雑音値として考えることができる。

ステップ３２０および３３０は、たとえば、連続してまたは互いに独立して行われてもよい。

ステップ３４０において、以下の式を使用して背景雑音傾斜が計算される。
Ｔ＝Ｌ／Ｈ

いくつかの実施形態は、たとえば、ステップ３５０に従って進行してもよい。ステップ３５０において、背景雑音傾斜が平滑化され、背景雑音傾斜の長期バージョンが作り出される。
Ｔ_ＬＴ＝αＴ_ＬＴ＋（１−α）Ｔ
ここで、αは、たとえば、０．９である。この再帰方程式において、等号の左側のＴ_ＬＴは、上記で言及した現在の長期傾斜値Ｔ_ｃＬＴであり、等号の右側のＴ_ＬＴは、上記で言及した上記以前の長期傾斜値Ｔ_ｐＬＴである。

ステップ３６０において、ヒステリシスを用いる以下の分類子を使用してＣＮＧモードが最終的に選択される。
If(cng_mode_prev==LP_CNG and T_LT>thr₁)then cng_mode=FD_CNG
If(cng_mode_prev==FD_CNG and T_LT<thr₂)then cng_mode=LP_CNG
ここで、thr₁及びthr₂は帯域幅に依存し得、たとえば、ＮＢについては、
thr₁=9,thr₂=2
であり、ＷＢについては、
thr₁=45,thr₂=10
である。

ｃｎｇ＿ｍｏｄｅは、選択器１１０によって（現在）選択されている快適雑音生成モードである。

ｃｎｇ＿ｍｏｄｅ＿ｐｒｅｖは、選択器１１０によって以前に選択された（快適雑音）生成モードである。

ステップ３６０の上記の条件がいずれも満たされないときに何が起こるかは、実施態様に依存する。一実施形態において、たとえば、ステップ３６０の両方の条件のいずれもが満たされない場合、ＣＮＧモードは何も変わらず、それによって、以下のようになる。
ｃｎｇ＿ｍｏｄｅ＝ｃｎｇ＿ｍｏｄｅ＿ｐｒｅｖ

他の実施形態は、他の選択戦略を実装してもよい。

図３の実施形態においては、ｔｈｒ_１はｔｈｒ_２と異なるが、一方、他のいくつかの実施形態においては、ｔｈｒ_１はｔｈｒ_２に等しい。

いくつかの態様が装置の文脈において説明されているが、これらの態様はまた、対応する方法の説明をも表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈において説明されている態様はまた、対応するブロックまたは対応する装置の項目もしくは特徴の説明をも表す。

本発明の分解された信号は、デジタル記憶媒体上に記憶することができ、または、インターネットのような、無線伝送媒体もしくは有線伝送媒体のような伝送媒体上で伝送することができる。

特定の実施要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアにおいて実装することができる。実装は、それぞれの方法が実施されるようにプログラム可能コンピュータシステムと協働する（または協働することが可能である）、電子可読制御信号を記憶しているデジタル記憶媒体、たとえば、フロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実施することができる。

本発明によるいくつかの実施形態は、本明細書において記載されている方法のうちの１つが実施されるように、プログラム可能コンピュータシステムと協働することが可能である、電子可読制御信号を有する非一時的データキャリアを含む。

一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で作動するときに、本方法のうちの１つを実施するように動作可能である。
プログラムコードは、たとえば、機械可読キャリア上に記憶されてもよい。

他の実施形態は、機械可読キャリア上に記憶されている、本明細書において記載されている方法のうちの１つを実施するためのコンピュータプログラムを含む。

すなわち、それゆえ、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で作動するときに、本明細書において記載されている方法のうちの１つを実施するためのプログラムコードを有するコンピュータプログラムである。

それゆえ、本発明の方法のさらなる実施形態は、本明細書において記載されている方法のうちの１つを実施するためのコンピュータプログラムを記録されて含む、データキャリア（またはデジタル記憶媒体、もしくはコンピュータ可読媒体）である。

それゆえ、本発明の方法のさらなる実施形態は、本明細書において記載されている方法のうちの１つを実施するためのコンピュータプログラムを表すデータストリームまたは信号系列である。データストリームまたは信号系列は、たとえば、データ通信接続、たとえば、インターネットを介して転送されるように構成することができる。

さらなる実施形態は、本明細書において記載されている方法のうちの１つを実施するように構成または適合されている処理手段、たとえば、コンピュータ、または、プログラム可能な論理装置を含む。

さらなる実施形態は、本明細書において記載されている方法のうちの１つを実施するためのコンピュータプログラムをインストールされているコンピュータを含む。

いくつかの実施形態において、プログラム可能な論理装置（たとえば、フィールドプログラマブルゲートアレイＦＰＧＡ）が、本明細書において説明されている方法の機能の一部またはすべてを実施するために使用されてもよい。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書において説明されている方法のうちの１つを実施するために、マイクロプロセッサと協働することができる。一般的に、方法は、任意のハードウェア装置によって実施されることが好ましい。

上述した実施形態は、本発明の原理の例示にすぎない。本明細書において記載されている構成および詳細の修正および変形は、当該技術分野においては明らかであると理解されたい。それゆえ、迫る特許請求の範囲によってのみ限定されることが意図され、本明細書において実施形態の記述および説明によって示される特定の詳細によっては限定されない。

Claims

オーディオ情報を符号化するための装置であって、
オーディオ入力信号の背景雑音特性に応じて２つ以上の快適雑音生成モードから快適雑音生成モードを選択するための選択器（１１０）と、
前記オーディオ情報を符号化するための符号化ユニット（１２０）であって、前記オーディオ情報は、選択されている前記快適雑音生成モードを示すモード情報を含む、符号化ユニット（１２０）と、を備えており、
前記２つ以上の快適雑音生成モードのうちの第１の快適雑音生成モードは快適雑音が周波数領域において生成されるべきことを示す、装置。
前記選択器（１１０）は、前記背景雑音特性として、前記オーディオ入力信号の背景雑音の傾斜を判定するように構成されており、
前記選択器（１１０）は、前記判定された傾斜に応じて、２つ以上の快適雑音生成モードから前記快適雑音生成モードを選択するように構成されている、請求項１に記載の装置。
前記装置は、複数の周波数帯域の各々について、前記背景雑音の帯域ごとの推定値を推定するための雑音推定器（１０５）をさらに備え、
前記選択器（１１０）は、前記複数の周波数帯域の前記推定された背景雑音に応じて前記傾斜を判定するように構成されている、請求項２に記載の装置。
前記雑音推定器（１０５）は、前記複数の周波数帯域のうちの第１のグループの各周波数帯域の前記背景雑音の前記帯域ごとの推定値に応じて、前記複数の周波数帯域のうちの前記第１のグループの第１の背景雑音エネルギーを示す低周波数背景雑音値を判定するように構成されており、
前記雑音推定器（１０５）は、前記複数の周波数帯域のうちの第２のグループの各周波数帯域の前記背景雑音の前記帯域ごとの推定値に応じて、前記複数の周波数帯域のうちの前記第２のグループの第２の背景雑音エネルギーを示す高周波数背景雑音値を判定するように構成されており、前記第１のグループの少なくとも１つの周波数帯域は、前記第２のグループの少なくとも１つの周波数帯域の中心周波数よりも低い中心周波数を有し、
前記選択器１１０は、前記低周波数背景雑音値および前記高周波数背景雑音値に応じて前記傾斜を判定するように構成されている、請求項３に記載の装置。
前記雑音推定器（１０５）は、以下の式に従って前記低周波数背景雑音値Ｌを判定するように構成されており、

式中、ｉは前記第１の周波数帯域グループのｉ番目の周波数帯域を示し、Ｉ_１は前記複数の周波数帯域のうちの第１の周波数帯域を示し、Ｉ_２は前記複数の周波数帯域のうちの第２の周波数帯域を示し、Ｎ［ｉ］は前記ｉ番目の周波数帯域の背景雑音エネルギーのエネルギー推定値を示し、
前記雑音推定器（１０５）は、以下の式に従って前記高周波数背景雑音値Ｈを判定するように構成されており、

式中、ｉは前記第２の周波数帯域グループのｉ番目の周波数帯域を示し、Ｉ_３は前記複数の周波数帯域のうちの第３の周波数帯域を示し、Ｉ_４は前記複数の周波数帯域のうちの第４の周波数帯域を示し、Ｎ［ｉ］は前記ｉ番目の周波数帯域の背景雑音エネルギーのエネルギー推定値を示す、請求項４に記載の装置。
前記選択器（１１０）は、前記低周波数背景雑音値Ｌおよび前記高周波数背景雑音値Ｈに応じて前記傾斜Ｔを、式
Ｔ＝Ｌ／Ｈ
に従って、または、式
Ｔ＝Ｈ／Ｌ
に従って、または、式
Ｔ＝Ｌ−Ｈ
に従って、または、式
Ｔ＝Ｈ−Ｌ
に従って判定するように構成されている、請求項４または５に記載の装置。
前記選択器（１１０）は、前記傾斜を、現在の短期傾斜値（Ｔ）として判定するように構成されており、
前記選択器（１１０）は、たとえば、前記現在の短期傾斜値および以前の長期傾斜値に応じて現在の長期傾斜値を判定するように構成されており、
前記選択器（１１０）は、前記現在の長期傾斜値に応じて、２つ以上の快適雑音生成モードのうちの１つを選択するように構成されている、請求項２〜６のいずれか一項に記載の装置。
前記選択器（１１０）は、以下の式に従って前記現在の長期傾斜値Ｔ_ｃＬＴを判定するように構成されており、
Ｔ_ｃＬＴ＝αＴ_ｐＬＴ＋（１−α）Ｔ
式中、Ｔは前記現在の短期傾斜値であり、
Ｔ_ｐＬＴは前記以前の長期傾斜値であり、
αは０＜α＜１の実数である、請求項７に記載の装置。
前記２つ以上の快適雑音生成モードのうちの第１の快適雑音生成モードは、周波数領域快適雑音生成モードであり、
前記２つ以上の快適雑音生成モードのうちの第２の快適雑音生成モードは、線形予測領域快適雑音生成モードであり、
前記選択器（１１０）は、前記選択器（１１０）によって以前に選択されている、以前に選択された生成モードが前記線形予測領域快適雑音生成モードであり、かつ、前記現在の長期傾斜値が第１の閾値よりも大きい場合、前記周波数領域快適雑音生成モードを選択するように構成されており、
前記選択器（１１０）は、前記選択器（１１０）によって以前に選択されている、前記以前に選択された生成モードが前記周波数領域快適雑音生成モードであり、かつ、前記現在の長期傾斜値が第２の閾値よりも小さい場合、前記線形予測領域快適雑音生成モードを選択するように構成されている、請求項７または８に記載の装置。
受信符号化オーディオ情報に基づいてオーディオ出力信号を生成するための装置であって、
前記符号化オーディオ情報内に符号化されているモード情報を得るために前記符号化オーディオ情報を復号する復号ユニット（２１０）であって、前記モード情報は、２つ以上の快適雑音生成モードのうちの指示されている快適雑音生成モードを示す、復号ユニット（２１０）と、
前記指示されている快適雑音生成モードに応じて、快適雑音を生成することによって、前記オーディオ出力信号を生成するための信号プロセッサ（２２０）と、を備えており、
前記２つ以上の快適雑音生成モードのうちの第１の快適雑音生成モードは快適雑音が周波数領域において生成されるべきことを示し、
前記指示されている快適雑音生成モードが前記２つ以上の快適雑音生成モードのうちの前記第１の快適雑音生成モードである場合に、前記信号プロセッサは前記快適雑音を前記周波数領域において生成するように構成されている、装置。
前記２つ以上の快適雑音生成モードのうちの第１の快適雑音生成モードは、周波数領域快適雑音生成モードであり、
前記信号プロセッサは、前記指示されている快適雑音生成モードが前記周波数領域快適雑音生成モードである場合に、周波数領域において生成されている前記快適雑音の周波数−時間変換を実施することによって、前記周波数領域において前記快適雑音を生成するように構成されている、請求項１０に記載の装置。
前記２つ以上の快適雑音生成モードのうちの第２の快適雑音生成モードは、線形予測領域快適雑音生成モードであり、
前記信号プロセッサ（２２０）は、前記指示されている快適雑音生成モードが前記線形予測領域快適雑音生成モードである場合に、線形予測フィルタを利用することによって、前記快適雑音を生成するように構成されている、請求項１０または１１に記載の装置。
システムであって、
請求項１〜９のいずれか一項に記載の、オーディオ情報を符号化するための装置（１００）と、
請求項１０〜１２のいずれか一項に記載の、受信符号化オーディオ情報に基づいてオーディオ出力信号を生成するための装置（２００）と、を備え、
請求項１〜９のいずれか一項に記載の前記装置（１００）の前記選択器（１１０）は、オーディオ入力信号の背景雑音特性に応じて２つ以上の快適雑音生成モードから快適雑音生成モードを選択するように構成されており、
請求項１〜９のいずれか一項に記載の前記装置（１００）の前記符号化ユニット（１２０）は、前記選択されている快適雑音生成モードを、指示されている快適雑音生成モードとして示すモード情報を含む前記オーディオ情報を符号化して、符号化オーディオ情報を得るように構成されており、
請求項１０〜１２のいずれか一項に記載の前記装置（２００）の前記復号ユニット（２１０）は、前記符号化オーディオ情報を受信するように構成されており、前記符号化オーディオ情報内に符号化されている前記モード情報を得るために、前記符号化オーディオ情報を復号するようにさらに構成されており、
請求項１０〜１２のいずれか一項に記載の前記装置（２００）の前記信号プロセッサ（２２０）は、前記指示されている快適雑音生成モードに応じて、快適雑音を生成することによって、前記オーディオ出力信号を生成するように構成されている、システム。
オーディオ情報を符号化するための方法であって、
オーディオ入力信号の背景雑音特性に応じて２つ以上の快適雑音生成モードから快適雑音生成モードを選択するステップと、
前記オーディオ情報を符号化するステップであって、前記オーディオ情報は、前記選択されている快適雑音生成モードを示すモード情報を含む、符号化するステップと、を含み、
前記２つ以上の快適雑音生成モードのうちの第１の快適雑音生成モードは快適雑音が周波数領域において生成されるべきことを示す、方法。
受信符号化オーディオ情報に基づいてオーディオ出力信号を生成するため方法であって、
符号化オーディオ情報内に符号化されているモード情報を得るために前記符号化オーディオ情報を復号するステップであって、前記モード情報は、２つ以上の快適雑音生成モードのうちの指示されている快適雑音生成モードを示す、復号するステップと、
前記指示されている快適雑音生成モードに応じて、快適雑音を生成することによって、前記オーディオ出力信号を生成するステップと、を含み、
前記２つ以上の快適雑音生成モードのうちの第１の快適雑音生成モードは快適雑音が周波数領域において生成されるべきことを示し、
前記指示されている快適雑音生成モードが前記２つ以上の快適雑音生成モードのうちの前記第１の快適雑音生成モードである場合に、前記快適雑音が前記周波数領域において生成される、方法。
コンピュータまたは信号プロセッサ上で実行されると、請求項１４に記載の方法を実施するためのコンピュータプログラム。
コンピュータまたは信号プロセッサ上で実行されると、請求項１５に記載の方法を実施するためのコンピュータプログラム。