JP2019023742A

JP2019023742A - オーディオ信号内の雑音を推定するための方法、雑音推定器、オーディオ符号化器、オーディオ復号器、およびオーディオ信号を送信するためのシステム

Info

Publication number: JP2019023742A
Application number: JP2018174338A
Authority: JP
Inventors: ベンジャミン・シューベルト; schubert Benjamin; マヌエル・ヤンダー; Jander Manuel; アンソニー・ロムバート; Lombard Anthony; マーティン・ディエッツ; Dietz Martin; マルクス・ムルトゥルス; Multrus Markus
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2014-07-28
Filing date: 2018-09-19
Publication date: 2019-02-14
Anticipated expiration: 2035-07-21
Also published as: EP3614384B1; BR112017001520A2; BR112017001520B1; AR101320A1; CN106716528A; WO2016016051A1; MX2017001241A; SG11201700701TA; US11335355B2; CN106716528B; CN112309422B; JP2020170190A; AU2015295624B2; ZA201700532B; KR20170039226A; CA2956019C; MX363349B; RU2017106161A3; PT3175457T; RU2017106161A

Abstract

【課題】固定小数点プロセッサを使用してオーディオ信号内の雑音を効率的に推定する手法を提供する。
【解決手段】オーディオ信号１０２内の雑音を推定するため、オーディオ信号１０２のエネルギー値１７４を判定しＳ１００、判定したエネルギー値を対数領域へと変換するＳ１０２。変換したエネルギー値１７８に基づいて、オーディオ信号１０２の雑音レベルを推定するＳ１０４。
【選択図】図３

Description

本発明は、オーディオ信号の処理の分野に関し、より詳細には、オーディオ信号、たとえば、符号化されるオーディオ信号、または、復号されたオーディオ信号内の雑音を推定する手法に関する。実施形態は、オーディオ信号内の雑音を推定する方法、雑音推定器、オーディオ符号化器、オーディオ復号器、およびオーディオ信号を送信するためのシステムを説明する。

オーディオ信号の処理の分野、たとえば、オーディオ信号の符号化または復号されたオーディオ信号の処理において、雑音を推定することが所望される状況がある。たとえば、参照により本明細書に組み込まれる国際出願ＥＰ２０１３／０７７５２５号明細書および国際出願ＥＰ２０１３／０７７５２７号明細書には、周波数領域において背景雑音のスペクトルを推定するために、雑音推定器、たとえば、最小値統計雑音推定器を使用することが記載されている。このアルゴリズムへと供給される信号は、たとえば、高速フーリエ変換（ＦＦＴ）または任意の他の適切なフィルタバンクによって、ブロックごとに周波数領域へと変換されている。この枠組みは通常、コーデックの枠組みと同一である。すなわち、コーデック内にすでに存在する変換を再使用することができ、たとえば、ＥＶＳ（拡張音声サービス）符号化器において、前処理のためにＦＦＴが使用される。雑音推定を目的として、ＦＦＴのパワースペクトルが計算される。スペクトルは、心理音響的に動機付けられた帯域にグループ化され、帯域内のパワースペクトルビンは、帯域ごとのエネルギー値を形成するように蓄積される。最終的に、オーディオ信号の心理音響的処理に使用されることも多いこの手法によって、エネルギー値のセットが獲得される。各帯域は、それ自体の雑音推定アルゴリズムを有する。すなわち、各フレームにおいて、経時的な信号を分析し、任意の所与のフレームにおける各帯域の推定雑音レベルを与える雑音推定アルゴリズムを使用して、そのフレームのエネルギー値が処理される。

高品質発話およびオーディオ信号に使用されるサンプル分解能は１６ビットであり得、すなわち、信号は、９６ｄＢの信号対雑音比（ＳＮＲ）を有する。パワースペクトルを計算するということは、信号を周波数領域へと変換し、各周波数ビンの２乗を計算することを意味する。２乗関数に起因して、これは３２ビットのダイナミックレンジを必要とする。複数のパワースペクトルビンをまとめて帯域にするには、帯域内のエネルギー分布が実際には分からないため、ダイナミックレンジのためにさらなるヘッドルームが必要である。結果として、プロセッサ上で雑音推定器を作動させるためには、３２ビットを超える、一般的には約４０ビットのダイナミックレンジがサポートされる必要がある。

バッテリのようなエネルギー貯蔵ユニットから受け取られるエネルギーに基づいて動作する、オーディオ信号を処理するデバイス、たとえば、携帯電話のような携帯機器においては、エネルギーを維持するために、オーディオ信号の電力効率のよい処理が、バッテリ寿命のために必須である。既知の手法によれば、オーディオ信号の処理は、一般的に、１６または３２ビット固定小数点フォーマットのデータの処理をサポートする固定小数点プロセッサによって実施される。１６ビットデータを処理することによって処理の最低の複雑度が達成され、一方、３２ビットデータの処理は、すでにいくらかのオーバーヘッドを必要とする。４０ビットのダイナミックレンジによるデータの処理は、データを２つ、すなわち、仮数および指数に分割することを必要とし、これらの両方が、データを修正するときに対処されなければならず、その結果として、計算がさらにより複雑になり、ストレージ要求がさらにより高くなる。

国際出願ＥＰ２０１３／０７７５２５号明細書国際出願ＥＰ２０１３／０７７５２７号明細書

Ｒ．Ｍａｒｔｉｎ「ＮｏｉｓｅＰｏｗｅｒＳｐｅｃｔｒａｌＤｅｎｓｉｔｙＥｓｔｉｍａｔｉｏｎＢａｓｅｄｏｎＯｐｔｉｍａｌＳｍｏｏｔｈｉｎｇａｎｄＭｉｎｉｍｕｍＳｔａｔｉｓｔｉｃｓ」（２００１）Ｔ．ＧｅｒｋｍａｎｎおよびＲ．Ｃ．Ｈｅｎｄｒｉｋｓ「ＵｎｂｉａｓｅｄＭＭＳＥ−ｂａｓｅｄｎｏｉｓｅｐｏｗｅｒｅｓｔｉｍａｔｉｏｎｗｉｔｈｌｏｗｃｏｍｐｌｅｘｉｔｙａｎｄｌｏｗｔｒａｃｋｉｎｇｄｅｌａｙ」（２０１２）Ｌ．Ｌｉｎ、Ｗ．Ｈｏｌｍｅｓ、およびＥ．Ａｍｂｉｋａｉｒａｊａｈ「Ａｄａｐｔｉｖｅｎｏｉｓｅｅｓｔｉｍａｔｉｏｎａｌｇｏｒｉｔｈｍｆｏｒｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ」（２００３）

上述した従来技術から開始して、本発明の目的は、不要な計算オーバーヘッドを回避するために固定小数点プロセッサを使用してオーディオ信号内の雑音を効率的に推定するための手法を提供することである。

この目的は、独立請求項において定義されているものとしての主題によって達成される。

本発明は、オーディオ信号内の雑音を推定するための方法であって、オーディオ信号のエネルギー値を判定することと、エネルギー値を対数領域へと変換することと、変換したエネルギー値に基づいてオーディオ信号の雑音レベルを推定することとを含む、方法を提供する。

本発明は、雑音推定器であって、オーディオ信号のエネルギー値を判定するように構成されている検出器と、エネルギー値を対数領域へと変換するように構成されている変換器と、変換したエネルギー値に基づいてオーディオ信号の雑音レベルを推定するように構成されている推定器とを備える、雑音推定器を提供する。

本発明は、本発明の方法に従って動作するように構成されている雑音推定器を提供する。

実施形態によれば、対数領域は、ｌｏｇ２領域を含む。

実施形態によれば、雑音レベルを推定することは、対数領域において直接的に、変換しれたエネルギー値に基づいて所定の雑音推定アルゴリズムを実施することを含む。雑音推定は、Ｒ．Ｍａｒｔｉｎ「ＮｏｉｓｅＰｏｗｅｒＳｐｅｃｔｒａｌＤｅｎｓｉｔｙＥｓｔｉｍａｔｉｏｎＢａｓｅｄｏｎＯｐｔｉｍａｌＳｍｏｏｔｈｉｎｇａｎｄＭｉｎｉｍｕｍＳｔａｔｉｓｔｉｃｓ」（２００１）によって記載されている最小値統計アルゴリズムに基づいて実行することができる。他の実施形態において、Ｔ．ＧｅｒｋｍａｎｎおよびＲ．Ｃ．Ｈｅｎｄｒｉｋｓ「ＵｎｂｉａｓｅｄＭＭＳＥ−ｂａｓｅｄｎｏｉｓｅｐｏｗｅｒｅｓｔｉｍａｔｉｏｎｗｉｔｈｌｏｗｃｏｍｐｌｅｘｉｔｙａｎｄｌｏｗｔｒａｃｋｉｎｇｄｅｌａｙ」（２０１２）によって記載されているＭＭＳＥベースの雑音推定器、または、Ｌ．Ｌｉｎ、Ｗ．Ｈｏｌｍｅｓ、およびＥ．Ａｍｂｉｋａｉｒａｊａｈ「Ａｄａｐｔｉｖｅｎｏｉｓｅｅｓｔｉｍａｔｉｏｎａｌｇｏｒｉｔｈｍｆｏｒｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ」（２００３）によって記載されているアルゴリズムのような、代替的な雑音推定アルゴリズムが使用されてもよい。

実施形態によれば、エネルギー値を判定することは、オーディオ信号を周波数領域へと変換することによってオーディオ信号のパワースペクトルを得ることと、パワースペクトルを心理音響的に動機付けられた帯域にグループ化することと、各帯域のエネルギー値を形成するためにパワースペクトルビンを帯域内に累積することとを含み、各帯域のエネルギー値は対数領域へと変換され、対応する変換されたエネルギー値に基づいて、各帯域の雑音レベルは推定される。

実施形態によれば、オーディオ信号は複数のフレームを含み、各フレームについて、エネルギー値が判定されて対数領域へと変換され、変換されたエネルギー値に基づいて各帯域の雑音レベルは推定される。

実施形態によれば、エネルギー値は以下のように対数領域へと変換される。

はｆｌｏｏｒ（ｘ）であり、Ｅ_{ｎ＿ｌｏｇ}はｌｏｇ２領域における帯域ｎのエネルギー値であり、Ｅ_{ｎ＿ｌｉｎ}は線形領域における帯域ｎのエネルギー値であり、Ｎは分解能／精度である。

実施形態によれば、変換されたエネルギー値に基づいて雑音レベルを推定することは、対数データをもたらし、方法は、さらなる処理のために対数データを直接使用すること、または、さらなる処理のために対数データを線形領域に変換し戻すことをさらに含む。

実施形態によれば、対数データは、送信が対数領域で行われる場合には送信データに直接変換され、対数データを送信データへと直接的に変換するには、ルックアップテーブルまたは近似とともにシフト関数、たとえば、

を使用する。

本発明は、コンピュータ上で実行されると、本発明の方法を実行する命令を記憶しているコンピュータ可読媒体を備える非一時的コンピュータプログラム製品を提供する。

本発明は、本発明の雑音推定器を備えるオーディオ符号化器を提供する。

本発明は、本発明の雑音推定器を備えるオーディオ復号器を提供する。

本発明は、オーディオ信号を送信するためのシステムであって、受信オーディオ信号に基づいてコード化オーディオ信号を生成するように構成されているオーディオ符号化器と、コード化オーディオ信号を受信し、コード化オーディオ信号を復号し、復号オーディオ信号を出力するように構成されているオーディオ復号器とを備え、オーディオ符号化器およびオーディオ復号器のうちの少なくとも一方は、本発明の雑音推定器を備える、システムを提供する。

本発明は、雑音推定アルゴリズムが線形エネルギーデータに対して作動する従来の手法とは対照的に、オーディオ／発話材料内の雑音レベルを推定することを目的として、対数入力データに基づいてもアルゴリズムを作動させることが可能であるという本発明者らの知見に基づく。雑音推定に対して、データ精度に対する要求はそれほど高くなく、たとえば、両方とも参照により本明細書に組み込まれる国際出願ＥＰ２０１３／０７７５２５号明細書または国際出願ＥＰ２０１３／０７７５２７号明細書に記載されているような快適雑音生成のための推定値を使用するとき、帯域ごとのほぼ正確な雑音レベルを推定すれば十分であり、すなわち、雑音レベルが、たとえば、０．１ｄＢだけより高いと推定されるか否かは、最終的な信号において注目されるものではないことが分かっている。したがって、データのダイナミックレンジをカバーするためには４０ビットが必要とされ得るが、従来の手法において、中／高レベル信号のためのデータ精度は、実際に必要であるよりもはるかに高い。これらの知見に基づいて、実施形態によれば、本発明の重要な要素は、帯域ごとのエネルギー値を対数領域、好ましくはｌｏｇ２領域へと変換し、たとえば、最小値統計アルゴリズムまたは任意の他の適切なアルゴリズムに基づいて、対数領域において直接的に雑音推定を実行することであり、それによって、たとえば、１６ビットにおいてエネルギー値を表現するこがを可能になり、その結果として、たとえば、固定小数点プロセッサを使用して、より効率的な処理が可能になる。

以下において、本発明の実施形態を、添付の図面を参照しながら説明する。

符号化されるべきオーディオ信号または復号オーディオ信号内の雑音を推定するための本発明の手法を実施する、オーディオ信号を送信するためのシステムの単純化したブロック図である。オーディオ信号符号化器および／またはオーディオ信号復号器において使用することができる一実施形態による雑音推定器の単純化したブロック図である。一実施形態によるオーディオ信号内の雑音を推定するための本発明の手法を示す流れ図である。

以下において、本発明の手法の実施形態をさらに詳細に説明する。添付の図面において、同一または類似の機能を有する要素は、同じ参照符号によって示されることに留意されたい。

図１は、符号化器側および／または復号器側において本発明の手法を実施する、オーディオ信号を送信するためのシステムの単純化したブロック図を示す。図１のシステムは、入力１０２においてオーディオ信号１０４を受信する符号化器１００を備える。符号化器は、オーディオ信号１０４を受信し、符号化器の出力１０８において提供される符号化オーディオ信号を生成する符号化プロセッサ１０６を含む。符号化プロセッサは、オーディオ信号の連続的なオーディオフレームを処理し、符号化されるべきオーディオ信号１０４内の雑音を推定するための本発明の手法を実施するようにプログラムまたは構築することができる。しかしながら、他の実施形態において、符号化器は、送信システムの一部分である必要はなく、符号化器は、符号化オーディオ信号を生成する独立型デバイスであってもよく、または、オーディオ信号送信機の一部分であってもよい。一実施形態によれば、符号化器１００は、１１２において示されているように、オーディオ信号の無線送信を可能にするためのアンテナ１１０を備えることができる。他の実施形態において、符号化器１００は、たとえば、参照符号１１４において示されているように、有線接続回線を使用して、出力１０８において提供される符号化オーディオ信号を出力してもよい。

図１のシステムは、復号器１５０をさらに備え、復号器１５０は、たとえば、有線回線１１４またはアンテナ１５４を介して、復号器１５０によって処理されるべき符号化オーディオ信号を受信する入力１５２を有する。復号器１５０は、符号化信号に対して動作し、出力１６０において復号オーディオ信号１５８を提供する復号プロセッサ１５６を備える。復号プロセッサは、復号オーディオ信号１０４内の雑音を推定するための本発明の手法を実施するための処理のためにプログラムまたは構築することができる。他の実施形態においては、復号器は、送信システムの一部分である必要はなく、むしろ、復号器は、符号化オーディオ信号を復号するための独立型デバイスであってもよく、または、オーディオ信号受信機の一部分であってもよい。

図２は、一実施形態による雑音推定器１７０の単純化したブロック図を示す。雑音推定器１７０は、図１に示すオーディオ信号符号化器および／またはオーディオ信号復号器において使用することができる。雑音推定器１７０は、オーディオ信号１０２のエネルギー値１７４を判定するための検出器１７２と、エネルギー値１７４を対数領域（変換したエネルギー値１７８参照）へと変換するための変換器１７６と、変換したエネルギー値１７８に基づいてオーディオ信号１０２の雑音レベル１８２を推定するための推定器１８０とを含む。推定器１７０は、共通のプロセッサによって実装されてもよく、または、検出器１７２、変換器１７６および推定器１８０の機能を実施するようにプログラムまたは構築されている複数のプロセッサによって実装されてもよい。

以下において、図１の符号化プロセッサ１０６および復号プロセッサ１５６のうちの少なくとも一方において、または、図２の推定器１７０によって実施することができる本発明の手法の実施形態をさらに詳細に説明する。

図３は、オーディオ信号内の雑音を推定するための本発明の手法の流れ図を示す。オーディオ信号が受信され、第１のステップＳ１００において、オーディオ信号のエネルギー値１７４が判定される。判定されたエネルギー値はその後、ステップＳ１０２において、対数領域へと変換される。変換されたエネルギー値１７８に基づいて、ステップＳ１０４において、雑音が推定される。実施形態によれば、ステップＳ１０６において、対数データ１８２によって表される推定雑音データのさらなる処理が行われるのは、対数領域であるべきか否かについて判定される。対数領域におけるさらなる処理が所望される（ステップＳ１０６において、はい）場合、推定雑音を表す対数データがステップＳ１０８において処理され、たとえば、送信が対数領域においても行われる場合に、対数データが送信パラメータへと変換される。そうでない場合（ステップＳ１０６において、いいえ）ステップ１１０において対数データ１８２が線形データへと変換し戻され、線形データは、ステップＳ１１２において処理される。

実施形態によれば、ステップＳ１００において、オーディオ信号のエネルギー値を判定することは、従来の手法におけるように行われてもよい。オーディオ信号に適用されているＦＦＴのパワースペクトルが計算され、心理音響的に動機付けられた帯域へとグループ化される。帯域内のパワースペクトルビンは、エネルギー値のセットが得られるように帯域ごとのエネルギー値を形成するように蓄積される。他の実施形態において、パワースペクトルを、ＭＤＣＴ（修正離散コサイン変換）、ＣＬＤＦＢ（複素低遅延フィルタバンク）、または、スペクトルの種々の部分をカバーするいくつかの変換の組み合わせのような、任意の適切なスペクトル変換に基づいて計算してもよい。ステップＳ１００において、各帯域のエネルギー値１７４が判定され、ステップＳ１０２において、各帯域のエネルギー値１７４はステップＳ１０２において対数領域へと変換され、実施形態によれば、ｌｏｇ２領域へと変換される。帯域エネルギーは、以下のようにｌｏｇ２領域へと変換することができる。

はｆｌｏｏｒ（ｘ）であり、Ｅ_{ｎ＿ｌｏｇ}はｌｏｇ２領域における帯域ｎのエネルギー値であり、Ｒ_{ｎ＿ｌｉｎ}は線形領域における帯域ｎのエネルギー値であり、Ｎは分解能／精度である。

実施形態によれば、（ｉｎｔ）ｌｏｇ２関数が通常、固定小数点数における先行ゼロの数を判定する「ｎｏｒｍ」関数を使用する固定小数点プロセッサ上で、非常に迅速に、たとえば、１サイクルで計算することができるという点において有利である、ｌｏｇ２領域への変換が実施される。時折、上記の式において定数Ｎによって表現される、（ｉｎｔ）ｌｏｇ２領域よりも高い精度が必要とされる。このわずかにより高い精度は、ｎｏｒｍ命令または近似の後に最上位ビットを有する単純なルックアップテーブルによって達成することができる。これは、より低い精度が許容可能であるときに低複雑度対数計算を達成するための一般的な手法である。上記の式において、変換されたエネルギーが正のままであることを保証するために、ｌｏｇ２関数の内部に定数「１」が追加されている。実施形態によれば、これは、雑音推定器が雑音エネルギーの統計モデルに依拠する場合に重要であり得る。それは、負の値に対して雑音推定を実施することはそのようなモデルに違反することになり、結果として、推定器の予期せぬ挙動をもたらすことになるためである。

一実施形態によれば、上記の式においてＮは６に設定され、これは、２^６＝６４ビットのダイナミックレンジと等価である。これは、上述した４０ビットのダイナミックレンジよりも大きく、それゆえ、十分である。このデータを処理するために、目標は１６ビットデータを使用することであり、９ビットが仮数のために残され、１ビットが符号のために残される。そのようなフォーマットは、一般的に「６Ｑ９」フォーマットとして示される。代替的に、正の値しか考慮されなくてもよいため、符号ビットを回避して仮数に使用することができ、合計１０ビットが仮数のために残される。これは「６Ｑ１０」フォーマットとして参照される。

最小値統計アルゴリズムの詳細な記載は、Ｒ．Ｍａｒｔｉｎ「ＮｏｉｓｅＰｏｗｅｒＳｐｅｃｔｒａｌＤｅｎｓｉｔｙＥｓｔｉｍａｔｉｏｎＢａｓｅｄｏｎＯｐｔｉｍａｌＳｍｏｏｔｈｉｎｇａｎｄＭｉｎｉｍｕｍＳｔａｔｉｓｔｉｃｓ」（２００１）に見出すことができる。このアルゴリズムは基本的に、一般的に数秒にわたる、各スペクトル帯域の所与の長さのスライドする時間窓にわたって、平滑化パワースペクトルの最小値を追跡することに存する。アルゴリズムはまた、雑音推定の精度を改善するためのバイアス補償をも含む。その上、時間変動雑音の追跡を改善するために、もたらされる推定雑音エネルギーの増大が穏やかであることを条件として、元の最小値の代わりに、はるかにより短い時間窓にわたって計算する局所的最小値の追跡を使用することができる。増大の許容量はＲ．Ｍａｒｔｉｎ「ＮｏｉｓｅＰｏｗｅｒＳｐｅｃｔｒａｌＤｅｎｓｉｔｙＥｓｔｉｍａｔｉｏｎＢａｓｅｄｏｎＯｐｔｉｍａｌＳｍｏｏｔｈｉｎｇａｎｄＭｉｎｉｍｕｍＳｔａｔｉｓｔｉｃｓ（２００１）において、パラメータｎｏｉｓｅ＿ｓｌｏｐｅ＿ｍａｘによって決定される。一実施形態によれば、従来どおり、線形エネルギーデータに対して作動する最小値統計雑音推定アルゴリズムが使用される。しかしながら、本発明者らの知見によれば、オーディオ材料または発話材料内の雑音レベルを推定する目的で、アルゴリズムには代わりに対数入力データを供給することができる。信号処理自体は修正されないままであるが、最小限の再調整のみが必要とされる。この再調整は、線形データと比較した対数データのダイナミックレンジの低減に対処するためにパラメータｎｏｉｓｅ＿ｓｌｏｐｅ＿ｍａｘを低減することに存する。これまでのところ、最小値統計アルゴリズム、または、他の適切な雑音推定技法は、線形データに対して作動される必要があるがあると仮定されていた。すなわち、実際には対数表現であるデータは適切でないと仮定されていた。この従来の仮定とは対照的に、本発明者らは、ほとんどの演算は１６ビットで行うことができ、依然として３２ビットを必要とするのはアルゴリズムのいくらかの部分のみであるため、雑音推定は実際には、１６ビットでしか表されない入力データを使用することを可能にし、結果として、固定小数点実施態様において複雑度をはるかにより低くすることを可能にする対数データに基づいて作動され得ることを見出した。最小値統計アルゴリズムにおいて、たとえば、バイアス補償は、入力パワーの分散、したがって、一般的に依然として３２ビット表現を必要とする４次統計に基づく。

図３に関連して上述したように、雑音推定プロセスの結果は、種々の様式でさらに処理され得る。実施形態によれば、第１の様式は、たとえば、送信パラメータが、しばしばそうであるように対数領域においても送信される場合に、対数データ１８２を送信パラメータへと直接的に変換することによって、ステップＳ１０８に示すように、対数データ１８２を直接的に使用することである。第２の様式は、たとえば、表引きとともに、または、近似を使用することによって、通常、非常に高速で、一般的にプロセッサ上で１サイクルしか必要としない、たとえば、以下のようなシフト関数を使用して、対数データがさらなる処理のために線形領域へと変換し戻されるように、対数データ１８２を処理することである。

以下において、対数データに基づいて雑音を推定するための本発明の手法を実施するための詳細な例は、符号化器を参照しながら説明するが、上記で概説したように、本発明の手法は、たとえば、両方とも参照により本明細書に組み込まれる、国際出願ＥＰ２０１２／０７７５２５号明細書または国際出願ＥＰ２０１２／０７７５２７号明細書に記載されているように、復号器において復号されている信号に適用することもできる。以下の実施形態は、図１の符号化器１００のような、オーディオ符号化器においてオーディオ信号内の雑音を推定するための本発明の手法の実施態様を説明する。より詳細には、拡張音声サービスコーダ（ＥＶＳコーダ）において受信するオーディオ信号内の雑音を推定するための本発明の手法を実施するための、ＥＶＳ符号化器の信号処理アルゴリズムの説明がなされる。

１６ビット等速ＰＣＭ（パルスコード変調）フォーマットにおける、２０ｍｓ長のオーディオサンプルの入力ブロックを仮定する。４つのサンプリングレート、たとえば、８０００、１６０００、３２０００および４８０００サンプル／ｓ、および、可能性として５．９、７．２、８．０、９．６、１３．２、１６．４、２４．４、３２．０、４８．０、６４．０または１２８．０ｋｂｉｔ／ｓの、符号化ビットストリームのビットレートを仮定する。６．６、８．８５、１２．６５、１４．８５、１５．８５、１８．２５、１９．８５、２３．０５または２３．８５ｋｂｉｔ／ｓの、符号化ビットストリームのビットレートにおいて動作するＡＭＲ−ＷＢ（適応的マルチレート広帯域（コーデック））相互運用モードも提供され得る。

以下の説明の目的で、以下の慣習を、数式に適用する。

は、ｘ以下の最大の整数を示す。すなわち、

である。Σは、総和を示す。

別途指定しない限り、ｌｏｇ（ｘ）は、以下の説明全体を通じて、１０を底とする対数を示す。

符号化器は、４８、３２、１６または８ｋＨｚにおいてサンプリングされる全帯域（ＦＢ）、超広帯域（ＳＷＢ）、広帯域（ＷＢ）または狭帯域（ＮＢ）信号を許容する。同様に、復号器出力は、４８、３２、１６または８ｋＨｚのＦＢ、ＳＷＢ、ＷＢまたはＮＢであり得る。パラメータＲ（８、１６、３２または４８）を、符号化器における入力サンプリングレートまたは復号器における出力サンプリングレートを示すために使用する。

入力信号は、２０ｍｓフレームを使用して処理される。コーデック遅延は、入力および出力のサンプリングレートに依存する。ＷＢ入力およびＷＢ出力について、全体的なアルゴリズム遅延は４２．８７５ｍｓである。これは、１つの２０ｍｓフレーム、入力および出力リサンプリングフィルタの１．８７５ｍｓの遅延、符号化器先読みの１０ｍｓ、１ｍｓのポストフィルタリング遅延、および、復号器における、上位層変換コーディングの重畳加算演算を可能にするための１０ｍｓから構成される。ＮＢ入力およびＮＢ出力について、上位層は使用されず、１０ｍｓの復号器遅延は、フレーム消去の存在下でのコーデック性能の改善および音楽信号に使用される。ＮＢ入力およびＮＢ出力の全体的なアルゴリズム遅延は、１つの２０ｍｓフレーム、入力リサンプリングフィルタの２ｍｓ、符号化器先読みの１０ｍｓ、出力リサンプリングフィルタの１．８７５ｍｓ、および符号化器における１０ｍｓの遅延の、４３．８７５ｍｓである。出力がレイヤ２に限定される場合、コーデック遅延は１０ｍｓだけ低減することができる。

符号化器の全体的な機能は、以下の処理セクション、すなわち、一般的な処理、ＣＥＬＰ（符号励振線形予測）コード化モード、ＭＤＣＴ（修正離散コサイン変換）コード化モード、切り替えコード化モード、フレーム消去隠蔽サイド情報、ＤＴＸ／ＣＮＧ（不連続送信／快適雑音生成器）動作、ＡＭＲ−ＷＢ相互運用オプション、およびチャネルアウェア符号化を含む。

本発明の実施形態によれば、本発明の手法は、ＤＴＸ／ＣＮＧ動作セクションにおいて実施される。コーデックは各入力フレームをアクティブまたは非アクティブとして分類するための信号アクティビティ検出（ＳＡＤ）アルゴリズムを備える。これは、可変ビットレートにおいて背景雑音の統計を近似および更新するために周波数領域快適雑音生成（ＦＤ−ＣＮＧ）モジュールが使用される、不連続送信（ＤＴＸ）動作をサポートする。したがって、非アクティブ信号期間の間の伝送速度は可変であり、背景雑音の推定レベルに依存する。しかしながら、ＣＮＧ更新速度はまた、コマンドラインパラメータによって固定することもできる。

スペクトル−時間特性に関して実際の入力背景雑音を模倣する人工雑音を作り出すことを可能にするために、ＦＤ−ＣＮＧは、雑音推定アルゴリズムを利用して、符号化器入力に存在する背景雑音のエネルギーを追跡する。雑音推定値はその後、非アクティブ段階の間に復号器側で各周波数帯域において生成されるランダム系列の大きさを更新するために、ＳＩＤ（無音挿入記述子）フレームの形態のパラメータとして送信される。

ＦＤ−ＣＮＧ雑音推定器は、ハイブリッドスペクトル分析手法に依拠する。コア帯域幅に対応する低周波数は、高分解能ＦＦＴ分析によってカバーされ、一方で、残りのより高い周波数は、４００Ｈｚの大幅により低いスペクトル分解能を呈するＣＬＤＦＢによって捕捉される。ＣＬＤＦＢは、入力信号をコアサンプリングレートにダウンサンプリングするためのリサンプリングツールとしても使用されることに留意されたい。

しかしながら、ＳＩＤフレームのサイズは、実際には限定される。背景雑音を記述するパラメータの数を低減するために、入力エネルギーは結局、パーティションと呼ばれるスペクトル帯域のグループの間で平均される。

１．スペクトルパーティションエネルギー
パーティションエネルギーは、ＦＦＴおよびＣＬＤＦＢ帯域について別個に計算される。その後、ＦＦＴパーティションに対応するＬ^[ＦＥＴ] _ＳＩＤエネルギー、および、ＣＬＤＦＢパーティションに対応するＬ^{[ＣＬＤＦＢ]} _ＳＩＤエネルギーが、サイズＬ_ＳＩＤ＝Ｌ^[ＦＥＴ] _ＳＩＤ＋Ｌ^{[ＣＬＤＦＢ]} _ＳＩＤの単一アレイＥ_{ＦＤ−ＣＮＧ}へと連結される。これは、後述する雑音推定器に対する入力としての役割を果たすことになる（「２．ＦＤ−ＣＮＧ雑音推定」参照）。

１．１ＦＦＴパーティションエネルギーの計算
コア帯域幅をカバーする周波数のパーティションエネルギーは、以下のように得られる。

式中、Ｅ^[０] _ＣＢ（ｉ）及びＥ^[１] _ＣＢ（ｉ）はそれぞれ、第１の分析窓および第２の分析窓の臨界帯域ｉにおける平均エネルギーである。コア帯域幅を捕捉するＦＦＴパーティションの数Ｌ^[ＦＥＴ] _ＳＩＤは、使用される構成に従って、１７から２１の間に及ぶ（「１．３ＦＤ−ＣＮＧ符号化器構成」参照）。ディエンファシススペクトル重みＨ_{ｄｅ−ｅｍｐｈ}（ｉ）は、ハイパスフィルタを補償するために使用され、以下のように定義される。

１．２ＣＬＤＦＢパーティションエネルギーの計算
コア帯域幅を上回る周波数のパーティションエネルギーは、以下のように計算される。

式中、ｊ_ｍｉｎ（ｉ）及びｊ_ｍａｘ（ｉ）はそれぞれ、ｉ番目のパーティション内の第１のＣＬＤＦＢ帯域および最後のＣＬＤＦＢ帯域のインデックスであり、Ｅ_{ＣＬＤＦＢ}（ｊ）はｊ番目のＣＬＤＦＢ帯域の総エネルギーであり、Ａ_{ＣＬＤＦＢ}はスケーリング係数である。定数１６は、ＣＬＤＦＢ内の時間スロットの数を指す。ＣＬＤＦＢパーティションの数Ｌ_{ＣＬＤＦＢ}は、後述するように、使用される構成に依存する。

１．３ＦＤ−ＣＮＧ符号化器構成
以下の表は、符号化器における種々のＦＤ−ＣＮＧ構成についてのパーティションの数およびそれらの上方境界をリストしている。

各パーティションｉ＝０，…，Ｌ_ＳＩＤ−１について、

は、ｉ番目のパーティション内の最後の帯域の周波数に対応する。各スペクトルパーティション内の第１の帯域および最後の帯域のインデックスｊ_ｍｉｎ（ｉ）及びｊ_ｍａｘ（ｉ）は、以下のように、コアの構成の関数として導出され得る。

式中、

は、第１のスペクトルパーティション内の第１の帯域の周波数である。したがって、ＦＤ−ＣＮＧは、５０Ｈｚよりも上でのみ、何らかの快適雑音を生成する。

２．ＦＤ−ＣＮＧ雑音推定
ＦＤ−ＣＮＧは、入力スペクトル内に存在する背景雑音のエネルギーを追跡するために、雑音推定器に依拠する。これは主に、Ｒ．Ｍａｒｔｉｎ「ＮｏｉｓｅＰｏｗｅｒＳｐｅｃｔｒａｌＤｅｎｓｉｔｙＥｓｔｉｍａｔｉｏｎＢａｓｅｄｏｎＯｐｔｉｍａｌＳｍｏｏｔｈｉｎｇａｎｄＭｉｎｉｍｕｍＳｔａｔｉｓｔｉｃｓ」（２００１）によって記載されている最小値統計アルゴリズムに基づく。しかしながら、入力エネルギーのダイナミックレンジ

を低減し、したがって、雑音推定アルゴリズムの固定小数点実施態様を促進するために、雑音推定の前に非線形変換が適用される（「２．１入力エネルギーに対するダイナミックレンジ圧縮」参照）。その後、結果もたらされる雑音推定値に対して逆変換を使用して、元のダイナミックレンジを復元する（「２．３推定雑音エネルギーのダイナミックレンジ拡張」参照）。

２．１入力エネルギーに対するダイナミックレンジ圧縮
入力エネルギーを非線形関数によって処理し、以下のように、９ビット分解能で量子化する。

２．２雑音追跡
最小値統計アルゴリズムの詳細な記載は、Ｒ．Ｍａｒｔｉｎ「ＮｏｉｓｅＰｏｗｅｒＳｐｅｃｔｒａｌＤｅｎｓｉｔｙＥｓｔｉｍａｔｉｏｎＢａｓｅｄｏｎＯｐｔｉｍａｌＳｍｏｏｔｈｉｎｇａｎｄＭｉｎｉｍｕｍＳｔａｔｉｓｔｉｃｓ」（２００１）に見出すことができる。このアルゴリズムは基本的に、一般的に数秒にわたる、各スペクトル帯域の所与の長さのスライドする時間窓にわたって、平滑化パワースペクトルの最小値を追跡することに存する。アルゴリズムはまた、雑音推定の精度を改善するためのバイアス補償をも含む。その上、時間変動雑音の追跡を改善するために、もたらされる推定雑音エネルギーの増大が穏やかであることを条件として、元の最小値の代わりに、はるかにより短い時間窓にわたって計算される局所的最小値の追跡を使用することができる。増大の許容量はＲ．Ｍａｒｔｉｎ「ＮｏｉｓｅＰｏｗｅｒＳｐｅｃｔｒａｌＤｅｎｓｉｔｙＥｓｔｉｍａｔｉｏｎＢａｓｅｄｏｎＯｐｔｉｍａｌＳｍｏｏｔｈｉｎｇａｎｄＭｉｎｉｍｕｍＳｔａｔｉｓｔｉｃｓ」（２００１）において、パラメータｎｏｉｓｅ＿ｓｌｏｐｅ＿ｍａｘによって決定する。

雑音追跡器の主な出力は、雑音推定値

である。快適雑音においてより平滑な推移を得るために、１次再帰フィルタ、すなわち、

を適用することができる。

さらに、入力エネルギーＥ_ＭＳ（ｉ）が最後の５フレームにわたって平均化される。これは、各スペクトルパーティション内の

に対して上限を適用するために使用される。

２．３推定雑音エネルギーのダイナミックレンジ拡張
推定雑音エネルギーは、上述したダイナミックレンジ圧縮を補償するために非線形関数によって処理される。

本発明によれば、特に、固定小数点計算を使用するプロセッサ上で処理されるオーディオ／発話信号について、雑音推定器の複雑度を低減することを可能にする、オーディオ信号内の雑音を推定するための改善された手法を説明する。本発明の手法は、たとえば、高スペクトル−時間分解能での快適雑音の生成について参照する国際出願ＥＰ２０１２／０７７５２７号明細書、または、低ビットレートにおける背景雑音のモデル化のための快適雑音付加について参照する国際出願ＥＰ２０１２／０７７５２７号明細書において記載されている環境における、オーディオ／発話信号処理のための雑音推定器に使用されるダイナミックレンジを低減することを可能にする。説明されているシナリオにおいて、雑音の多い発話信号、たとえば、電話通話において非常に一般的な状況である、背景雑音の存在下での発話、および、ＥＶＳコーデックの試験されるカテゴリのうちの１つについて、背景雑音の品質を増強するために、または、快適雑音生成のために、最小値統計アルゴリズムに基づいて動作する雑音推定器を使用する。ＥＶＳコーデックは、標準化によれば、固定演算を用いるプロセッサを使用することになり、本発明の手法は、もはや線形領域ではなく、対数領域においてオーディオ信号のエネルギー値を処理することによって、最小値統計雑音推定器に使用される信号のダイナミックレンジを低減することによって、処理複雑度を低減することを可能にする。

説明されている概念のいくつかの態様は、装置の文脈において説明されているが、これらの態様が、対応する方法の説明をも表すことは明らかであり、ブロックまたはデバイスは方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈において説明されている態様は、対応するブロックもしくは項目または対応する装置の特徴の説明をも表す。

特定の実施要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアにおいて実装することができる。実施態様は、それぞれの方法が実施されるようにプログラム可能コンピュータシステムと協働する（または協働することが可能である）、電子可読制御信号を記憶しているデジタル記憶媒体、たとえば、フロッピーディスク、ＤＶＤ、Ｂｌｕｅ−Ｒａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実施することができる。それゆえ、デジタル記憶媒体は、コンピュータ可読であり得る。

本発明によるいくつかの実施形態は、本明細書において説明されている方法のうちの１つが実施されるように、プログラム可能コンピュータシステムと協働することが可能である、電子可読制御信号を有するデータキャリアを含む。

一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で作動するときに、本方法の１つを実施するように動作可能である。プログラムコードを、たとえば、機械可読キャリア上に記憶してもよい。

他の実施形態は、機械可読キャリア上に記憶している、本明細書において説明されている方法の１つを実施するためのコンピュータプログラムを含む。

すなわち、それゆえ、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で作動すると、本明細書において説明されている方法の１つを実施するためのプログラムコードを有するコンピュータプログラムである。

それゆえ、本発明の方法のさらなる実施形態は、本明細書において説明されている方法の１つを実施するためのコンピュータプログラムを記録して含む、データキャリア（またはデジタル記憶媒体もしくはコンピュータ可読媒体）である。

それゆえ、本発明の方法のさらなる実施形態は、本明細書において記載されている方法のうちの１つを実施するためのコンピュータプログラムを表すデータストリームまたは信号系列である。データストリームまたは信号系列は、たとえば、データ通信接続、たとえばインターネットを介して転送されるように構成することができる。

さらなる実施形態は、本明細書において記載されている方法のうちの１つを実施するように構成または適合されている処理手段、たとえば、コンピュータまたはプログラム可能な論理装置を含む。

さらなる実施形態は、本明細書において説明されている方法の１つを実施するためのコンピュータプログラムをインストールされているコンピュータを含む。

いくつかの実施形態において、プログラム可能な論理装置（たとえば、フィールドプログラマブルゲートアレイＦＰＧＡ）が、本明細書において説明されている方法の機能の一部またはすべてを実施するために使用されてもよい。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書において説明されている方法のうちの１つを実施するために、マイクロプロセッサと協働することができる。一般的に、方法は、任意のハードウェア装置によって実施されることが好ましい。

上述した実施形態は、本発明の原理の例示に過ぎない。本明細書において記載されている構成および詳細の修正および変形は、当該技術分野においては明らかであると理解されたい。それゆえ、添付の特許請求の範囲によってのみ限定されることが意図され、本明細書において実施形態の記述および説明によって示される特定の詳細によっては限定されない。

Claims

オーディオ信号（１０２）内の雑音を推定するための方法であって、
前記オーディオ信号（１０２）のエネルギー値（１７４）を判定すること（Ｓ１００）と、
前記エネルギー値（１７４）をｌｏｇ２領域へと変換すること（Ｓ１０２）と、
前記ｌｏｇ２領域において直接的に、前記変換したエネルギー値（１７８）に基づいて前記オーディオ信号（１０２）の雑音レベル（１８２）を推定すること（Ｓ１０４）と、を含む方法。
前記雑音レベルを推定すること（Ｓ１０４）は、最小値統計アルゴリズムのような、所定の雑音推定アルゴリズムを実施することを含む、請求項１に記載の方法。
前記エネルギー値（１７４）を判定すること（Ｓ１００）は、前記オーディオ信号（１０２）を周波数領域へと変換することによって前記オーディオ信号（１０２）のパワースペクトルを得ることと、前記パワースペクトルを心理音響的に動機付けられた帯域にグループ化することと、各帯域のエネルギー値（１７４）を形成するためにパワースペクトルビンを帯域内に累積することとを含み、各帯域の前記エネルギー値（１７４）を対数領域へと変換し、対応する前記変換したエネルギー値（１７４）に基づいて、各帯域の雑音レベルを推定する、請求項１または２に記載の方法。
前記オーディオ信号（１０２）は複数のフレームを含み、各フレームについて、前記エネルギー値（１７４）を判定して前記対数領域へと変換し、前記変換したエネルギー値（１７４）に基づいてフレームの各帯域の前記雑音レベルを推定する、請求項１〜３のいずれか一項に記載の方法。
前記エネルギー値（１７４）を、以下の式に従って前記対数領域へと変換し（Ｓ１０２）、

はｆｌｏｏｒ（ｘ）であり、Ｅ_{ｎ＿ｌｏｇ}は前記ｌｏｇ２領域における帯域ｎのエネルギー値であり、Ｅ_{ｎ＿ｌｉｎ}は線形領域における帯域ｎのエネルギー値であり、Ｎは量子化分解能である、請求項１〜４のいずれか一項に記載の方法。
前記変換したエネルギー値（１７８）に基づいて前記雑音レベルを推定すること（Ｓ１０４）は、対数データをもたらし、前記方法は、
さらなる処理のために前記対数データを直接的に使用すること（Ｓ１０８）、または
さらなる処理のために前記対数データを前記線形領域へと変換し戻すこと（Ｓ１１０、Ｓ１１２）
をさらに含む、請求項１〜５のいずれか一項に記載の方法。
前記ｌｏｇ２領域において送信が行われる場合に、前記対数データを送信データへと直接的に変換し（Ｓ１０８）、
前記対数データを送信データへと直接的に変換すること（Ｓ１１０）は、ルックアップテーブルまたは近似とともに、シフト関数、たとえば、

を使用する、請求項６に記載の方法。
コンピュータ上で実行されると、請求項１〜７のいずれか一項に記載の方法を実行する命令を記憶しているコンピュータ可読媒体を備える、非一時的コンピュータプログラム製品。
雑音推定器（１７０）であって、
オーディオ信号（１０２）のエネルギー値（１７４）を判定するように構成されている検出器（１７２）と、
前記エネルギー値（１７４）をｌｏｇ２領域へと変換するように構成されている変換器（１７６）と、
前記ｌｏｇ２領域において直接的に、前記変換したエネルギー値（１７８）に基づいて前記オーディオ信号（１０２）の雑音レベル（１８２）を推定するように構成されている推定器（１８０）プロセッサと、を備える、雑音推定器（１７０）。
請求項９に記載の雑音推定器を備える、オーディオ符号化器（１００）。
請求項９に記載の雑音推定器（１７０）を備える、オーディオ復号器（１５０）。
オーディオ信号を送信するためのシステム（１０２）であって、
受信オーディオ信号（１０２）に基づいてコード化オーディオ信号（１０２）を生成するように構成されているオーディオ符号化器（１００）と、
前記コード化オーディオ信号（１０２）を受信し、前記コード化オーディオ信号（１０２）を復号し、前記復号オーディオ信号（１０２）を出力するように構成されているオーディオ復号器（１５０）と、を備え、
前記オーディオ符号化器および前記オーディオ復号器のうちの少なくとも一方は、請求項９に記載の雑音推定器（１７０）を備える、システム。