JP7383725B2

JP7383725B2 - オーディオデコーダ、フィルタの特性を定義する値のセットを決定するための装置、復号されたオーディオ表現を提供するための方法、フィルタの特性を定義する値のセットを決定するための方法、およびコンピュータプログラム

Info

Publication number: JP7383725B2
Application number: JP2021559874A
Authority: JP
Inventors: ギヨーム・フックス; スリカンス・コルセ; エマニュエル・ラヴェリ
Original assignee: フラウンホファーゲセルシャフトツールフェールデルンクダーアンゲヴァンテンフォルシュンクエー．ファオ．
Priority date: 2019-04-11
Filing date: 2020-04-09
Publication date: 2023-11-20
Anticipated expiration: 2040-04-09
Also published as: CN114245919A; TW202105367A; KR20210151931A; JP2022528720A; US20220223161A1; WO2020208137A1; ZA202108890B; TWI797441B; WO2020207593A1; AU2020271965A1; CA3136520C; SG11202111138XA; BR112021020330A2; CA3136520A1; AU2020271965A2; MX2021012302A; EP3953932A1

Description

本発明による実施形態は、オーディオデコーダに関する。

本発明によるさらなる実施形態は、フィルタの特性を定義する値のセットを決定するための装置に関する。

本発明によるさらなる実施形態は、復号されたオーディオ表現を提供するための方法に関する。

本発明によるさらなる実施形態は、フィルタの特性を定義する値のセットを決定するための方法に関する。

本発明によるさらなる実施形態は、それぞれのコンピュータプログラムに関する。

本発明による実施形態は、コーディングされた発話の品質を強化するための実数値マスクベースのポストフィルタに関する。

本発明による実施形態は全般に、オーディオデコーダの復号されたオーディオを強化し、復号されたオーディオ表現に基づいてフィルタ特性を定義する値のセットを決定するためのポストフィルタに関する。

以下では、いくつかの従来の解決法が紹介される。

この状況に鑑みて、オーディオコンテンツを復号するときの、ビットレートと、オーディオ品質と、複雑さとの間でより良い妥協点をもたらす概念が望まれる。

本発明によるある実施形態は、符号化されたオーディオ表現を基礎として復号されたオーディオ表現を提供するための、オーディオデコーダ(たとえば、発話デコーダ、または一般オーディオデコーダ、または発話復号モード、たとえば線形予測ベースの復号モードと、一般オーディオ復号モード、たとえば復号されたスペクトル値をスケーリングするためのスケーリングファクタを使用するスペクトル領域表現ベースのコーディングモードとを切り替えるオーディオデコーダ)を生み出す。

オーディオデコーダは、復号されたオーディオ表現(たとえば、

)
の強化されたオーディオ表現(たとえば、

)を提供するためのフィルタ(または「ポストフィルタ」)を備え、フィルタによって使用される入力オーディオ表現は、たとえばオーディオデコーダのデコーダコアによって提供され得る。

フィルタ(またはポストフィルタ)は、複数のスケーリング値(たとえばマスク値、たとえばM(k,n))を取得するように構成され、これらは、たとえば実数値であってもよく、たとえば非負であってもよく、たとえば所定の範囲に制限されてもよく、異なる周波数ビンまたは周波数範囲(たとえば、周波数ビンインデックスまたは周波数範囲インデックスkを有する)と関連付けられる復号されたオーディオ表現のスペクトル値を基礎として、異なる周波数ビンまたは周波数範囲(たとえば、周波数ビンインデックスまたは周波数範囲インデックスkを有する)と関連付けられる。

フィルタ(またはポストフィルタ)は、復号されたオーディオ信号表現(たとえば、

)のスペクトル値、またはその前処理されたバージョンを、スケーリング値(たとえば、M(k,n))を使用してスケーリングし、強化されたオーディオ表現(たとえば、

)を取得するように構成される。

本実施形態は、復号されたオーディオ信号表現のスペクトル値のスケーリングを使用してオーディオ品質が効率的に改善され得るという考えに基づいており、スケーリング値は復号されたオーディオ表現のスペクトル値を基礎として導出される。スペクトル値のスケーリングによって果たされるフィルタリングは、復号されたオーディオ表現のスペクトル値を基礎として信号特性へ効率的に適合されることが可能であり、復号されたオーディオ表現の品質を強化することができることが分かっている。たとえば、復号されたオーディオ表現のスペクトル値を基礎として、量子化ノイズの影響を減らすように、フィルタ設定(スケーリング値によって定義され得る)が調整され得る。たとえば、復号されたオーディオ表現のスペクトル値を基礎としたスケーリング値の調整は、機械学習構造またはニューラルネットワークを使用してもよく、これは、計算効率的にスケーリング値を提供することができる。

具体的には、量子化ノイズが一般に信号と相関する場合であっても、復号されたオーディオ表現のスペクトル値からスケーリング値を導出することがそれでも有利かつ可能であり、良好な結果を伴うことが分かっている。したがって、この状況では、この概念は特に良い結果を伴って適用され得る。

結論として、上で説明されたオーディオエンコーダは、フィルタを使用して達成可能なオーディオ品質の強化を可能にし、その特性は、復号されたオーディオ表現のスペクトル値を基礎として調整され、フィルタリング動作は、たとえば、スケーリング値を使用してスペクトル値をスケーリングすることによって効率的に実行され得る。したがって、聞いたときの印象を改善することができ、フィルタの調整を制御するためにどのような追加の副次的な情報にも頼る必要がない。むしろ、フィルタの調整は、オーディオ信号の符号化および復号された表現を生成するために使用されるコーディング方式とは無関係に、現在の処理されているフレームの復号されたスペクトル値に、ならびに、1つまたは複数の以前に復号されたフレームおよび/または1つまたは複数の後で復号されるフレームの復号される可能性のあるスペクトル値にのみ基づき得る。

オーディオデコーダの好ましい実施形態において、フィルタは構成可能な処理構造(たとえば、ニューラルネットのような「機械学習」構造)を使用するように適合され、その構造の構成は、スケーリング値を提供するために、機械学習アルゴリズムに基づく。

機械学習構造またはニューラルネットワークのような構成可能な処理構造を使用することによって、フィルタの特性は、構成可能な処理構造の機能を定義する係数を基礎として容易に調整され得る。したがって、復号されたオーディオ表現のスペクトル値に依存する広い範囲にわたってフィルタの特性を調整することが通常は可能である。その結果、多くの異なる状況のもとで改善されたオーディオ品質を得ることが可能である。

オーディオデコーダの好ましい実施形態では、フィルタは、複数の周波数ビンまたは周波数範囲において、復号されたオーディオ表現のスペクトル値のみを基礎として(たとえば、スペクトル値からスケーリング値を導出するときにどのような追加のシグナリング情報も使用することなく)スケーリング値を決定するように構成される。

そのような概念を使用して、副次的な情報の存在とは独立にオーディオ品質を改善することが可能である。

計算上のおよび構造上の複雑さを適度に低く保つことができ、それは、復号されたオーディオ信号の一貫した汎用的な表現(復号されたオーディオ表現のスペクトル値)が使用されるからであり、これは、符号化および復号される表現を得るために使用されるコーディング技法に依存しない。この場合、特定の副次的情報値に対する複雑な固有の演算は避けられる。加えて、汎用的な処理構造(ニューラルネットワークなど)を使用して復号されたオーディオ表現のスペクトル値に基づいてスケーリング値を導出することが一般に可能であり、これは、限られた数の異なる計算機能(スケーリングされた加算および活性化関数の評価など)を使用する。

オーディオデコーダの好ましい実施形態では、フィルタは、

に従って、強化されたオーディオ表現の大きさ値

(これは、たとえば、絶対値または振幅またはノルムを表し得る)を取得するように構成され、M(k,n)はスケーリング値であり、kは周波数インデックス(たとえば、異なる周波数ビンまたは周波数範囲を指定する)であり、nは時間インデックス(たとえば、異なる重複するフレームまたは重複しないフレームを指定する)であり、

は復号されたオーディオ表現のスペクトル値の大きさの値である。大きさ値

は、STFT(短時間フーリエ変換)、FFT、またはMDCTのような時間周波数変換を復号されたオーディオ信号に適用することによって得られる、スペクトル値の大きさ、絶対値、または任意のノルムであり得る。

代替的に、フィルタは、

に従って、強化されたオーディオ表現の値

を取得するように構成されてもよく、M(k,n)はスケーリング値であり、kは周波数インデックス(たとえば、異なる周波数ビンまたは周波数範囲を指定する)であり、nは時間インデックス(たとえば、異なる重複するまたは重複しないフレームを指定する)であり、

は復号されたオーディオ表現のスペクトル値である。

強化されたオーディオ表現の大きさ値、または強化されたオーディオ表現の(通常は複素数値の)大きさ値のそのような簡単な導出は、高い効率で実行することができ、それでもオーディオ品質に顕著な改善をもたらすことが分かっている。

オーディオデコーダの好ましい実施形態では、フィルタは、復号されたオーディオ信号表現の1つまたは複数のスペクトル値のスケーリング、または、復号されたオーディオ信号表現のスペクトル値に基づく1つまたは複数の前処理されたスペクトル値のスケーリング(またはいくつかの場合、増幅)をスケーリング値が引き起こすように、スケーリング値を取得するように構成される。

少なくとも1つのスペクトル値の増幅または減衰を好ましくは引き起こし得るが必ずしも引き起こさないことがある(および通常は少なくとも1つのスペクトル値の減衰ももたらし得る)そのようなスケーリングを実行することによって、復号されたオーディオ表現のスペクトルは効率的に成形され得る。たとえば、スケーリングによる増幅と減衰の両方を可能にすることによって、数字表現の精度が限られていることにより引き起こされ得るアーティファクトも、場合によっては減らすことができる。さらに、スケーリング値の調整は、任意選択で、スケーリング値を1より小さい値へと制約するのを避けることによって、さらなる自由度を備える。したがって、オーディオ品質の良好な強化を達成することができる。

オーディオデコーダの好ましい実施形態では、フィルタは、復号されたオーディオ表現を記述する(たとえば、復号されたオーディオ表現の変換された表現の大きさを記述する)複数のスペクトル値を基礎としてスケーリング値を提供するように構成される、ニューラルネットワークまたは機械学習構造を備え、スペクトル値は異なる周波数ビンまたは周波数範囲と関連付けられる。

そのようなフィルタにおいてニューラルネットワークまたは機械学習構造を使用することは、比較的高い効率性をもたらすことが分かっている。ニューラルネットワークまたは機械学習構造は、ニューラルネットワークまたは機械学習構造に入力されるスペクトル値の数が比較的多い場合に、入力量の復号されたオーディオ表現のスペクトル値を容易に扱うことができることも分かっている。ニューラルネットワークまたは機械学習構造は、そのような多数の入力信号または入力量を良く扱うことができ、多数の異なるスケーリング値を出力量として提供することもできることが分かっている。言い換えると、ニューラルネットワークまたは機械学習構造は、過剰な計算リソースを必要とすることなく、比較的多数のスペクトル値を基礎として比較的多数のスケーリング値を導出するのに良く適していることが分かっている。したがって、過度な計算負荷なしで、スケーリング値を復号されたオーディオ表現のスペクトル値へと非常に正確に調整することができ、フィルタリング特性を調整するときに復号されたオーディオ表現のスペクトルの詳細が考慮され得る。また、スケーリング値を提供するニューラルネットワークの係数または機械学習構造の係数を適度な労力で決定することができ、ニューラルネットワークまたは機械学習構造がスケーリング値の正確な決定を達成するために十分な自由度を提供することが分かっている。

オーディオデコーダの好ましい実施形態では、ニューラルネットワークの入力信号または機械学習構造の入力信号は、復号されたオーディオ表現のスペクトル値の対数の大きさ、振幅、またはノルムを表し、スペクトル値は異なる周波数ビンまたは周波数範囲と関連付けられる。

スペクトル値の対数の大きさ、スペクトル値の振幅、またはスペクトル値のノルムを、ニューラルネットワークの入力信号または機械学習構造の入力信号として提供することが有利であることが分かっている。スペクトル値の符号または位相は、フィルタの調整、すなわちスケーリング値の決定に対する重要度が低いことが分かっている。具体的には、ダイナミックレンジを減らすことができるので、復号されたオーディオ表現のスペクトル値の大きさを対数化することは特に有利であることが分かっている。スペクトル値は通常は高いダイナミックレンジを有するので、ニューラルネットワークまたは機械学習構造は通常、スペクトル値自体と比較すると、スペクトル値の対数化された大きさをより良く扱うことができることが分かっている。対数化された値を使用することによって、(人工的な)ニューラルネットワークまたは機械学習構造における簡略化された数字表現を使用することも可能であり、それは、浮動小数点数表現を使用することは必要ではないことが多いからである。むしろ、固定小数点数表現を使用してニューラルネットワークまたは機械学習構造を設計することが可能であり、これは実装の労力を大きく減らす。

オーディオデコーダの好ましい実施形態では、ニューラルネットワークまたは機械学習構造の出力信号は、スケーリング値(たとえば、マスク値)を表す。

ニューラルネットワークまたは機械学習構造の出力信号(または出力量)としてスケーリング値を提供することによって、実装の労力を適度に低く保つことができる。たとえば、比較的多数のスケーリング値を提供するニューラルネットワークまたは機械学習構造は実装が容易である。たとえば、一様な構造を使用することができ、これは実装の労力を減らす。

オーディオデコーダの好ましい実施形態では、ニューラルネットワークまたは機械学習構造は、複数の目標スケーリング値(たとえば、IRM(k,n))とニューラルネットワークを使用してまたは機械学習構造を使用して得られる複数のスケーリング値(たとえば、M(k,n))との間の偏差(たとえば、二乗平均誤差、たとえばMSE_MA)を制限し、低減し、または最小化するように訓練される。

このようにしてニューラルネットワークまたは機械学習構造を訓練することによって、スケーリング値を使用して復号されたオーディオ信号表現のスペクトル値(またはそのされたバージョン)をスケーリングすることによって得られる強化されたオーディオ表現が、聞いたときに良い印象をもたらすことを達成することができる。たとえば、目標スケーリング値は、たとえば、エンコーダ側の有損失処理の知識を基礎として容易に決定され得る。したがって、どのスケーリング値が復号されたオーディオ表現のスペクトル値を理想的な強化されたオーディオ表現(たとえば、オーディオエンコーダの入力オーディオ表現に等しいことがある)へと最も近づけるかを、少ない労力で決定することができる。言い換えると、たとえば、複数の異なるオーディオコンテンツまたは複数のタイプのオーディオコンテンツのために、複数の目標スケーリング値と、ニューラルネットワークを使用してまたは機械学習構造を使用して得られる複数のスケーリング値との偏差を制限し、減らし、または最小化するように、ニューラルネットワークまたは機械学習構造を訓練することによって、ニューラルネットワークまたは機械学習構造が、異なるオーディオコンテンツまたは異なるタイプのオーディオコンテンツのためにも適切なスケーリング値を提供することが達成され得る。さらに、目標スケーリング値とニューラルネットワークまたは機械学習構造を使用して得られるスケーリング値との偏差を最適化量として使用することによって、訓練プロセスの複雑さを低く保つことができ、数値問題を避けることができる。

オーディオデコーダの好ましい実施形態では、ニューラルネットワークまたは機械学習構造は、目標大きさスペクトル、目標振幅スペクトル、目標絶対スペクトル、または目標ノルムスペクトル(たとえば｜X(k,n)｜、たとえば訓練オーディオ信号の元のスペクトル)と、ニューラルネットまたは機械学習構造によって提供されるスケーリング値を使用する処理された(たとえば復号された、たとえば量子化され、符号化され、復号された)スペクトル(たとえば、目標大きさスペクトルおよび/または訓練オーディオ信号に基づく)のスケーリング(たとえば、周波数依存のスケーリング)を使用して得られる、(強化された)大きさスペクトル、振幅スペクトル、絶対スペクトル、またはノルムスペクトルとの偏差(たとえば、MSE_SA)を制限し、減らし、または最小化するように訓練される(ニューラルネットの入力信号は、たとえば復号されたスペクトルに基づく)。

そのような訓練手法を使用することによって、強化されたオーディオ表現の良い品質を通常は確保することができる。具体的には、訓練のために使用されるオーディオコンテンツと比較して、復号されたオーディオ表現が異なるオーディオコンテンツを表現する場合、ニューラルネットワークまたは機械学習構造は適切なスケーリングファクタも提供することが分かっている。さらに、大きさスペクトルまたは振幅スペクトルまたは絶対スペクトルまたはノルムスペクトルが、所望の(目標)大きさスペクトルまたは(目標)振幅スペクトルまたは(目標)絶対スペクトルまたは(目標)ノルムスペクトルと十分に良く一致する場合、強化されたオーディオ表現は良い品質であると知覚されることが分かっている。

オーディオの好ましい実施形態では、ニューラルネットワークまたは機械学習構造は、復号されたオーディオ信号表現のスペクトル分解の1つまたは複数のスペクトル値のスケーリング、または、復号されたオーディオ信号表現のスペクトル分解のスペクトル値に基づく1つまたは複数の前処理されたスペクトル値のスケーリングが0と所定の最大値との間の範囲にあるように訓練される。

スケーリング(またはスケーリング値)の制限は、スペクトル値の過剰な増幅を避けるのに役立つことが分かっている。1つまたは複数のスペクトル値の非常に大きな増幅(またはスケーリング)が、可聴のアーティファクトをもたらし得ることが分かっている。また、たとえば、復号されたオーディオ表現のスペクトル値が非常に小さく、または0に等しい場合、訓練の間に過剰に大きなスケーリング値に到達し得ることが分かっている。したがって、強化されたオーディオ表現の品質は、そのような限定手法を使用することによって改善され得る。

オーディオデコーダの好ましい実施形態では、最大値は1より大きい(たとえば、2、5、または10であり得る)。

スケーリング(またはスケーリング値)のそのような制限は特に良好な結果をもたらすことが分かっている。たとえば、増幅を許容することによって(たとえば、1より大きいスケーリングまたはスケーリング値を許容することによって)、「スペクトルホール」によって引き起こされるアーティファクトも部分的に補償され得る。同時に、過剰なノイズは減衰によって(たとえば、1より小さいスケーリングまたはスケーリング値を使用して)制限され得る。結果として、非常にフレキシブルな信号改善をスケーリングによって得ることができる。

オーディオデコーダの好ましい実施形態では、ニューラルネットワークまたは機械学習構造は、復号されたオーディオ信号表現のスペクトル分解の1つまたは複数のスペクトル値の、または、復号されたオーディオ信号表現のスペクトル分解のスペクトル値に基づく1つまたは複数の前処理されたスペクトル値のスケーリング(またはスケーリング値)が2に制限され、または5に制限され、または10に制限され、または1より大きい所定の値に制限されるように、訓練される。

そのような手法を使用することによって、増幅を許容しながら(これは、たとえば「スペクトルホール」を避けるのに役立ち得る)、アーティファクトを適度に小さく保つことができる。したがって、聞いたときに良い印象を得ることができる。

オーディオデコーダの好ましい実施形態では、ニューラルネットワークまたは機械学習構造は、スケーリング値が2に制限されるように、または5に制限されるように、または10に制限されるように、または1より大きい所定の値に制限されるように訓練される。

スケーリング値をそのような範囲に制限することによって、特に、強化されたオーディオ表現の良好な品質を達成することができる。

オーディオデコーダの好ましい実施形態では、ニューラルネットワークまたは機械学習構造の入力特徴量の数(たとえば、516または903)は、ニューラルネットワークまたは機械学習構造の出力値の数(たとえば、129)より、少なくとも2倍以上大きい。

ニューラルネットワークまたは機械学習構造のために、ニューラルネットワークまたは機械学習構造の出力値(または出力信号)の数より多い、比較的多数の入力特徴量を使用することは、特に信頼性のあるスケーリング値をもたらすことが分かっている。具体的には、ニューラルネットワークの比較的多数の入力特徴量を選ぶことによって、以前のフレームおよび/または後続のフレームからの情報を考慮することが可能であり、そのような追加の入力特徴量の考慮は通常、スケーリング値の品質、したがって強化されたオーディオ表現の品質を改善することが分かっている。

オーディオデコーダの好ましい実施形態では、フィルタは、ニューラルネットワークまたは機械学習構造の入力特徴量(たとえば、入力信号によって表される)(たとえば、短時間フーリエ変換を使用して得られるスペクトル値の大きさ)を所定の平均値(たとえば、0という平均値)および/または所定の分散(たとえば、単位分散)もしくは標準偏差に正規化するように構成される。

ニューラルネットワークまたは機械学習構造の入力特徴量の正規化は、復号されたオーディオ表現の音量またはラウドネスまたは強度とは無関係なスケーリング値を提供することが分かっている。したがって、ニューラルネットワークまたは機械学習構造は、復号されたオーディオ表現のスペクトルの構造的な特性に「注目」することができ、音量の変化によって影響されない(または大きく影響されない)。さらに、そのような正規化を実行することによって、ニューラルネットワークのノードが過剰に飽和することを避けることができる。さらに、ダイナミックレンジが減り、これは、ニューラルネットワークまたは機械学習構造内で使用される数値表現を効率的に保つのに役立つ。

オーディオデコーダの好ましい実施形態では、ニューラルネットは、入力層、1つまたは複数の隠れ層、および出力層を備える。

ニューラルネットワークのそのような構造は、本出願にとって有利であることが証明されている。

オーディオデコーダの好ましい実施形態では、1つまたは複数の隠れ層は、正規化線形ユニットを活性化関数として使用する。

正規化線形ユニットを活性化関数として使用することは、復号されたオーディオ表現のスペクトル値を基礎として高い信頼性でスケーリングベクトルを提供することを可能にすることが分かっている。

オーディオデコーダの好ましい実施形態では、出力層は、(有界ではない)正規化線形ユニットまたは有界の正規化線形ユニットまたはシグモイド関数(たとえば、スケーリングされたシグモイド関数)を活性化関数として使用する。

正規化線形ユニットまたは有界の正規化線形ユニットまたはシグモイド関数を出力層において活性化関数として使用することによって、スケーリング値を信頼性のあるように取得することができる。具体的には、上で論じられたように有界の正規化線形ユニットまたはシグモイド関数の使用は、所望の範囲へのスケーリング値の制限を可能にする。したがって、スケーリング値を、効率的にかつ信頼性のあるように取得することができる。

オーディオデコーダの好ましい実施形態では、フィルタは、復号されたオーディオ表現のスペクトル値を表す短時間フーリエ変換係数(たとえば、

)を取得するように構成され、それらは、異なる周波数ビンまたは周波数範囲と関連付けられる。

短時間フーリエ変換係数は、復号されたオーディオ表現の特に意味のある表現を構成することが分かっている。たとえば、短時間フーリエ変換係数は、いくつかの場合には、MDCT係数よりもニューラルネットワークまたは機械学習構造によってより良く使用可能である(MDCT係数が復号されたスペクトル表現の再構築のためにオーディオデコーダによって使用され得るとしても)ことが認識される。

オーディオデコーダの好ましい実施形態では、フィルタは、対数の大きさ、振幅、絶対値、またはノルム値を(たとえば、短時間フーリエ変換係数を基礎として)導出し、対数の大きさ、振幅、絶対値、またはノルム値を基礎としてスケーリング値を決定するように構成される。

対数の大きさ値、振幅値、絶対値、またはノルム値のような非負の値を基礎としてスケーリング値を導出することが効率的であることが分かっており、それは、位相の考慮は、スケーリング値の実質的な改善をもたらすことなく計算需要を大幅に増やすからである。したがって、(たとえば、短時間フーリエ変換によって取得される)スペクトル値の符号の除去は、および通常はスペクトル値の位相の除去も、複雑さとオーディオ品質との間で良好なトレードオフをもたらす。

オーディオデコーダの好ましい実施形態では、フィルタは、現在のフレームの、異なる周波数ビンまたは周波数範囲と関連付けられる復号されたオーディオ表現のスペクトル値を基礎として、および、現在のフレームに先行する1つまたは複数のフレーム(たとえば、過去のコンテキストフレーム)の、異なる周波数ビンまたは周波数範囲と関連付けられる復号されたオーディオ表現のスペクトル値を基礎として、現在のフレーム(たとえば、復号されたオーディオ表現の現在のフレーム、または短時間フーリエ変換の現在のフレーム)と関連付けられる複数のスケーリング値を決定するように構成される。

しかしながら、現在のフレームに先行する1つまたは複数のフレームのスペクトル値を考慮することは、スケーリングベクトルを改善するのに役立つことが分かっている。これは、多くのタイプのオーディオコンテンツが後続のフレーム間の時間的な相関を備えるという事実によるものである。したがって、ニューラルネットワークまたは機械学習構造は、たとえば、スケーリング値を決定するときにスペクトル値の時間的な変遷を考慮し得る。たとえば、ニューラルネットワークまたは機械学習構造は、スケーリングされたスペクトル値(たとえば、強化されたオーディオ表現における)の経時的な過剰な変化を避ける(または打ち消す)ために、スケーリング値を調整し得る。

オーディオデコーダの好ましい実施形態では、フィルタは、現在のフレームの後の1つまたは複数のフレーム(たとえば、未来のコンテキストフレーム)の、異なる周波数ビンまたは周波数範囲と関連付けられる復号されたオーディオ表現のスペクトル値を基礎として、現在のフレーム(たとえば、復号されたオーディオ表現の現在のフレーム、または短時間フーリエ変換の現在のフレーム)と関連付けられる複数のスケーリング値を決定するように構成される。

現在のフレームの後の1つまたは複数のフレームの復号されたオーディオ表現のスペクトル値を考慮することによって、後続のフレーム間の相関も利用することができ、通常はスケーリング値の品質を改善することができる。

本発明による実施形態は、復号されたオーディオ表現(これは、たとえばオーディオ復号によって提供され得る)を基礎として強化されたオーディオ表現(たとえば、

)を提供するためのフィルタ(たとえば、ニューラルネットベースのフィルタ、または別の機械学習構造に基づくフィルタ)の特性を定義する値(たとえば、係数もしくはニューラルネットワーク、または別の機械学習構造の係数)のセットを決定するための装置を生み出す。

装置は、異なる周波数ビンまたは周波数範囲と関連付けられる、復号されたオーディオ表現のスペクトル値(たとえば、大きさの値、たとえば

によって表される、大きさまたは位相またはMDCT係数)を取得するように構成される。

異なる周波数ビンまたは周波数範囲と関連付けられる、復号されたオーディオ表現のスペクトル値を基礎としてフィルタによって提供されるスケーリング値が、目標スケーリング値(これは、所望の強化されたオーディオ表現と復号されたオーディオ表現の比較に基づいて計算され得る)に近づくように、装置がフィルタの特性を定義する値のセットを決定するように構成される。

代替的に、装置は、異なる周波数ビンまたは周波数範囲と関連付けられる、復号されたオーディオ表現のスペクトル値を基礎として、および、復号されたオーディオ表現を基礎として得られるスケーリング値を使用して、フィルタによって得られるスペクトルが目標スペクトル(これは、望ましい強化されたオーディオ表現に対応してもよく、フィルタを含むオーディオエンコーダおよびオーディオデコーダを備える処理チェーンにおけるオーディオエンコーダの入力信号に等しくてもよい)に近づくように、フィルタの特性を定義する値のセットを決定するように構成される。

そのような装置を使用すると、上で言及されたオーディオデコーダにおいて使用されるフィルタの特性を定義する値のセットを、妥当な労力で得ることができる。具体的には、フィルタの特性を定義する、ニューラルネットワークの係数、または別の機械学習構造の係数であり得る値のセットは、良好なオーディオ品質をもたらすような、かつ復号されたオーディオ表現を超える強化されたオーディオ表現の改善につながるようなスケーリング値をフィルタが使用するように、決定され得る。たとえば、フィルタの特性を定義する値のセットの決定は、複数の訓練オーディオコンテンツまたは参照オーディオコンテンツを基礎として実行されてもよく、目標スケーリング値または目標スペクトルは参照オーディオコンテンツから導出されてもよい。しかしながら、参照オーディオコンテンツが、上で言及されたオーディオデコーダによって復号されるべきオーディオコンテンツを少なくともある程度表す限り、フィルタの特性を定義する値のセットは通常、参照オーディオコンテンツとは異なるオーディオコンテンツにも良く適していることが分かっている。さらに、フィルタによって提供されるスケーリング値を使用すること、またはフィルタによって得られるスペクトルを最適化量として使用することは、フィルタの特性を定義する値の信頼性のあるセットをもたらすことが分かっている。

装置の好ましい実施形態では、装置は機械学習構造(たとえば、ニューラルネット)を訓練するように構成され、これは、フィルタの一部であり、複数の目標スケーリング値(たとえば、IRM(k,n))と、異なる周波数ビンまたは周波数範囲と関連付けられる、復号されたオーディオ表現のスペクトル値を基礎としてニューラルネットワークを使用して得られる複数のスケーリング値(たとえば、M(k,n))との偏差(たとえば、二乗平均誤差、たとえばMSE_MA)を低減または最小化するために、復号されたオーディオ信号の大きさ値または復号されたオーディオ信号のスペクトル値をスケーリングするためのスケーリング値を提供する。

たとえば、オーディオデコーダ(これは復号されたオーディオ表現を導出する)を備える処理チェーンにおいて符号化され復号される元のオーディオコンテンツを基礎として導出され得る、目標スケーリング値を使用して機械学習構造を訓練することによって、機械学習構造は、処理チェーンにおける信号劣化を少なくとも部分的に補償するように設計(または構成)され得る。たとえば、目標スケーリング値は、復号されたオーディオ表現が処理チェーンへの(元の)オーディオ表現入力(たとえば、オーディオエンコーダへの入力)に近づくように、目標スケーリング値が復号されたオーディオ表現をスケーリングするように、決定され得る。したがって、機械学習構造によって提供されるスケーリング値は、高度な信頼性を有することが可能であり、処理チェーンを通過するオーディオコンテンツの再構築を改善するように適合されることが可能である。

好ましい実施形態では、装置は、機械学習構造(たとえば、ニューラルネット)によって提供されるスケーリング値を使用する処理された(たとえば、復号された、たとえば量子化され、符号化され、復号された)スペクトル(これはたとえば、目標大きさスペクトルおよび/または訓練オーディオ信号に基づく)のスケーリング(たとえば、周波数依存のスケーリング)を使用して得られる、目標(大きさ)スペクトル(たとえば｜X(k,n)｜、たとえば訓練オーディオ信号の元のスペクトル)と(強化された)スペクトル(または大きさスペクトル)との間の偏差(たとえば、MSE_SA)を低減または最小化するように、機械学習構造(たとえば、ニューラルネット)を訓練するように構成される。たとえば、機械学習構造またはニューラルネットの入力信号は、復号されたスペクトルに基づく。

機械学習構造のそのような訓練は、信号処理チェーン(これはオーディオ符号化およびオーディオ復号を備え得る)における信号劣化の補償を可能にするスケーリング値ももたらすことが分かっている。たとえば、目標スペクトルは、復号されたオーディオ表現を提供する(有損失)オーディオエンコーダおよびオーディオデコーダを備える処理チェーンにおける入力である、参照オーディオコンテンツまたは訓練オーディオコンテンツのスペクトルであり得る。したがって、機械学習構造は、スケーリング値が復号されたオーディオ表現をスケーリングしてオーディオエンコーダへの参照オーディオコンテンツ入力に近づくように訓練され得る。その結果、機械学習構造は、(有損失)処理チェーン内での劣化を克復するのに役立つスケーリング値を提供するように訓練され得る。

好ましい実施形態では、装置は、復号されたオーディオ信号表現のスペクトル値に基づく、復号されたオーディオ信号表現のスペクトル値または1つまたは複数の前処理されたスペクトル値のスケーリング(またはスケーリング値)が、0と2の間の範囲内にあり、または0と5の間の範囲内にあり、または0と10の間の範囲内にあり、または0と最大値(これは、たとえば1より大きいことがある)との間の範囲内にあるように、機械学習構造(たとえば、ニューラルネットワーク)を訓練するように構成される。

所定の範囲(たとえば、0と通常は1より大きいことがある所定の値との間の)へとスケーリングを制限することによって、たとえば過剰に大きいスケーリング値によって引き起こされ得るアーティファクトを避けることが可能である。また、スケーリング値(これはニューラルネットワークまたは機械学習構造の出力信号として提供され得る)の制限は、ニューラルネットワークまたは機械学習構造の出力段(たとえば、出力ノード)の比較的簡単な実装形態を可能にすることに留意されたい。

装置の好ましい実施形態では、装置は、復号されたオーディオ信号表現のスペクトル値の、または復号されたオーディオ信号表現のスペクトル値に基づく1つまたは複数の前処理されたスペクトル値の大きさのスケーリング(またはスケーリング値)が0と所定の最大値との間の範囲内にあるように制限されるように、機械学習構造(たとえば、ニューラルネットワーク)を訓練するように構成される。

0と所定の最大値との間の範囲にあるように大きさのスケーリング(またはスケーリング値)を制限することによって、過剰に強い大きさのスケーリングにより引き起こされる劣化が避けられる。

オーディオデコーダの好ましい実施形態では、最大値は1より大きい(たとえば2、5、または10であり得る)。

大きさスケーリングの最大値が1より大きいことを許容することによって、減衰と増幅の両方が、スケーリング値を使用したスケーリングにより達成され得る。そのような概念は特にフレキシブルであり、特に聞いたときに良い印象をもたらすことが分かっている。

本発明の実施形態は、符号化されたオーディオ表現を基礎として復号されたオーディオ表現を提供するための方法を生み出す。

方法は、復号されたオーディオ表現(たとえば、

)の強化されたオーディオ表現(たとえば、

)を提供するステップを備え、強化されたオーディオ表現を提供するフィルタによって使用される入力オーディオ表現は、たとえばオーディオデコーダのデコーダコアによって提供され得る。

方法は、複数のスケーリング値(たとえばマスク値、たとえばM(k,n))を取得するステップを備え、これらは、たとえば実数値であってもよく、たとえば非負であってもよく、たとえば所定の範囲に制限されてもよく、異なる周波数ビンまたは周波数範囲(たとえば、周波数ビンインデックスまたは周波数範囲インデックスkを有する)と関連付けられる復号されたオーディオ表現のスペクトル値を基礎として異なる周波数ビンまたは周波数範囲(たとえば、周波数ビンインデックスまたは周波数範囲インデックスkを有する)と関連付けられる。

方法は、復号されたオーディオ信号表現(たとえば、

)のスペクトル値またはその前処理されたバージョンを、スケーリング値(たとえば、M(k,n))を使用してスケーリングし、強化されたオーディオ表現(たとえば、

)を得るステップを備える。

この方法は、上で説明された装置と同じ考慮に基づく。また、この方法は、本明細書において説明される特徴、機能、および詳細のいずれかにより、また装置に関しても補足され得ることに留意されたい。さらに、方法は、これらの特徴、機能、および詳細のいずれかが、個別に、および組合せでの両方で検討されることにより補足され得ることに留意されたい。

ある実施形態は、復号されたオーディオ表現(これはたとえばオーディオ復号によって提供され得る)を基礎として強化されたオーディオ表現(たとえば、

)を提供するためのフィルタ(たとえば、ニューラルネットベースのフィルタ、または別の機械学習構造に基づくフィルタ)の特性を定義する値のセット(たとえば、ニューラルネットワークの係数、または別の機械学習構造の係数)を決定するための方法を生み出す。

方法は、異なる周波数ビンまたは周波数範囲と関連付けられる、復号されたオーディオ表現のスペクトル値(たとえば、大きさの値、たとえば

によって表される、大きさまたは位相またはMDCT係数)を取得するステップを備える。

方法は、異なる周波数ビンまたは周波数範囲と関連付けられる、復号されたオーディオ表現のスペクトル値を基礎としてフィルタによって提供されるスケーリング値が、目標スケーリング値(所望の強化されたオーディオ表現と復号されたオーディオ表現の比較を基礎として計算され得る)に近づくように、フィルタの特性を定義する値のセットを決定するステップを備える。

代替的に、方法は、異なる周波数ビンまたは周波数範囲と関連付けられる、復号されたオーディオ表現のスペクトル値を基礎として、および、復号されたオーディオ表現を基礎として得られるスケーリング値を使用して、フィルタによって得られるスペクトルが目標スペクトル(これは、望ましい強化されたオーディオ表現に対応してもよく、フィルタを含むオーディオエンコーダおよびオーディオデコーダを備える処理チェーンにおけるオーディオエンコーダの入力信号に等しくてもよい)に近づくように、フィルタの特性を定義する値のセットを決定するステップを備える。

この方法は、上で説明された装置と同じ考慮に基づく。しかしながら、方法は、本明細書において説明される特徴、機能、および詳細のいずれかにより、また装置に関しても補足され得ることに留意されたい。さらに、方法は、これらの特徴、機能、および詳細が、個別に、および組合せでの両方で検討されることにより補足され得る。

本発明による実施形態は、コンピュータ上で実行されたとき、本明細書において説明される方法を実行するためのコンピュータプログラムを生み出す。

本発明による実施形態が、同封の図面を参照して後で説明される。

本発明のある実施形態による、オーディオデコーダのブロック概略図である。本発明のある実施形態による、フィルタの特性を定義する値のセットを決定するための装置のブロック概略図である。本発明のある実施形態による、オーディオデコーダのブロック概略図である。本発明のある実施形態による、フィルタの特性を定義する値のセットを決定するための装置のブロック概略図である。本発明のある実施形態による、フィルタの特性を定義する値のセットを決定するための装置のブロック概略図である。対数の大きさを実数値マスクにマッピングする全結合ニューラルネットワーク(FCNN)の概略的な表現を示す図である。 6.65kbpsでのマスクの様々な制限を用いたOracle実験を評価する平均のPESQおよびPOLQAスコアのグラフィック表現を示す図である。提案される方法とEVSポストプロセッサの性能を評価する平均のPESQおよびPOLQAスコアのグラフィック表現を示す図である。本発明のある実施形態による方法のフローチャートを示す図である。本発明のある実施形態による方法のフローチャートを示す図である。

表1は、異なる信号対雑音比(SNR)に対する、間隔(0,1)内にあるマスク値の百分率を表す。

表2は、AMR-WBの低い方の3つのビットレートで測定される異なる閾値領域におけるマスク値の百分率を表す。

1)図1によるオーディオデコーダ
図1は、本発明のある実施形態による、オーディオデコーダ100のブロック概略図を示す。オーディオデコーダ100は、符号化されたオーディオ表現110を受信し、それを基礎として強化されたオーディオ表現112を提供するように構成され、これは復号されたオーディオ表現の強化された形式であり得る。

オーディオデコーダ100は任意選択でデコーダコア120を備え、これは、符号化されたオーディオ表現110を受信し、それを基礎として復号されたオーディオ表現122を提供し得る。オーディオデコーダはさらにフィルタ130を備え、これは、復号されたオーディオ表現122を基礎として強化されたオーディオ表現112を提供するように構成される。ポストフィルタと見なされ得るフィルタ130は複数のスケーリング値136を取得するように構成され、これらのスケーリング値は、復号されたオーディオ表現のスペクトル値132を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられ、復号されたオーディオ表現も異なる周波数ビンまたは周波数範囲と関連付けられる。たとえば、フィルタ130は、スケーリング値決定またはスケーリング値決定器134を備えてもよく、これは、復号されたオーディオ表現のスペクトル値132を受信し、スケーリング値136を提供する。フィルタ130はさらに、スケーリング値136を使用して、復号されたオーディオ信号表現のスペクトル値またはその前処理されたバージョンをスケーリングし、強化されたオーディオ表現112を取得するように構成される。

スケーリング値を取得するために使用される復号されたオーディオ表現のスペクトル値は、(たとえば、スケーリングまたはスケーラ138によって)実際にスケーリングされるスペクトル値と同一であってもよく、または実際にスケーリングされるスペクトル値と異なっていてもよいことに留意されたい。たとえば、復号されたオーディオ表現のスペクトル値の第1のサブセットは、スケーリング値の決定のために使用されてもよく、スペクトルのスペクトル値または振幅スペクトルまたは絶対スペクトルまたはノルムスペクトルの第2のサブセットは、実際にスケーリングされてもよい。第1のサブセットおよび第2のサブセットは等しくてもよく、または部分的に重複してもよく、または完全に異なっていてもよい(どのような共通のスペクトル値も伴わない)。

オーディオデコーダ100の機能に関して、オーディオデコーダ100は、符号化されたオーディオ表現を基礎として復号されたオーディオ表現122を提供すると言うことができる。符号化(すなわち、符号化されたオーディオ表現の提供)は通常は有損失であるので、復号されたオーディオ表現122は、たとえば、元のオーディオコンテンツ(これは、符号化されたオーディオ表現110を提供するオーディオエンコーダへと供給され得る)と比較してある程度劣化していることがある。たとえばデコーダコアによって提供される復号されたオーディオ表現122は、どのような形式であってもよく、たとえば、時間領域表現の形式で、またはスペクトル領域表現の形式でデコーダコアによって提供されてもよいことに留意されたい。スペクトル領域表現は、たとえば、(離散)フーリエ変換係数または(離散)MDCT係数などを備え得る。

フィルタ130は、たとえば、復号されたオーディオ表現を表すスペクトル値を取得(または受信)し得る。しかしながら、フィルタ130によって使用されるスペクトル値は、たとえば、デコーダコアによって提供されるスペクトル値と比較して異なるタイプであり得る。たとえば、フィルタ130はスペクトル値としてフーリエ係数を使用し得るが、デコーダコア120は、最初はMDCTのみを提供する。また、フィルタ130は、任意選択で、たとえばフーリエ変換またはMDCT変換など(たとえば、短時間フーリエ変換STFT)によって、復号されたオーディオ表現120の時間領域表現からスペクトル値を導出し得る。

スケーリング値決定134は、復号されたオーディオ表現の複数のスペクトル値(たとえば、復号されたオーディオ表現から導出される)からスケーリング値136を導出する。たとえば、スケーリング値決定134は、ニューラルネットワークまたは機械学習構造を備えてもよく、これはスペクトル値132を受信してスケーリング値136を導出する。さらに、強化されたオーディオ表現112のスペクトル値は、スケーリング値136に従って、復号されたオーディオ表現のスペクトル値(これは、スケーリング値決定134によって使用されるスペクトル値に等しくてもよく、またはそれと異なっていてもよい)をスケーリングすることによって取得され得る。たとえば、スケーリング値136は、異なる周波数ビンまたは周波数範囲におけるスペクトル値のスケーリングを定義し得る。さらに、スケーリング136は、複素数値のスペクトル値、または実数値のスペクトル値(たとえば、振幅値または大きさ値またはノルム値)に対して作用し得ることに留意されたい。

したがって、復号されたオーディオ表現のスペクトル値132を基礎としてスケーリング値136の適切な決定を使用するとき、スケーリング138は、符号化されたオーディオ表現110を提供するために使用される有損失符号化によって引き起こされるオーディオ品質の劣化に対抗し得る。

たとえば、スケーリング138は、たとえば高い量子化ノイズを備えるスペクトルビンまたはスペクトル範囲を選択的に減衰することによって、量子化ノイズを減らし得る。代わりに、または加えて、スケーリング138はまた、時間および/または周波数にわたるスペクトルの平滑化ももたらすことがあり、これは、量子化ノイズを減らすのに、および/または知覚される印象を改善するのに役立ち得る。

しかしながら、図1によるオーディオデコーダ100は任意選択で、本明細書において開示される特徴、機能、および詳細のいずれかにより、個別に、および組合せでの両方で補足され得ることに留意されたい。

2)図2による装置
図2は、フィルタ(たとえば、ニューラルネットワークベースのフィルタ、または別の機械学習構造に基づくフィルタ)の特性を定義する値(たとえば、ニューラルネットワークの係数、または別の機械学習構造の係数)のセットを決定するための装置200のブロック概略図を示す。

図2による装置200は、復号されたオーディオ表現210を受信し、それを基礎としてフィルタを定義する値のセット212を提供するように構成され、フィルタを定義する値のセット212は、たとえば、ニューラルネットワークの係数または別の機械学習構造の係数を備え得る。任意選択で、装置200は目標スケーリング値214および/または目標スペクトル情報216を受信し得る。しかしながら、装置200は、任意選択で、目標スケーリング値および/または目標スペクトル情報216を自分で生成してもよい。

目標スケーリング値は、たとえば、復号されたオーディオ表現210を理想的な(歪んでいない)状態に近づける(またはより近づける)スケーリング値を記述し得ることに留意されたい。たとえば、目標スケーリング値は、参照オーディオ表現の知識を基礎として決定されてもよく、それから、復号されたオーディオ表現210が符号化および復号によって導出される。たとえば、参照オーディオ表現のスペクトル値の知識から、および、復号されたオーディオ表現のスペクトル値の知識から、どのスケーリングが、強化されたオーディオ表現(これはスケーリングを使用して復号されたオーディオ表現のスペクトル値を基礎として得られる)を参照オーディオ表現に近づけるかを導くことができる。

さらに、目標スペクトル情報216は、たとえば、参照オーディオ表現の知識に基づいてもよく、これから、復号されたオーディオ表現が符号化および復号により導出される。たとえば、目標スペクトル情報は、参照オーディオ表現のスペクトル値の形式をとり得る。

図2に見られるように、装置200は任意選択でスペクトル値決定を備えてもよく、復号されたオーディオ表現210のスペクトル値は復号されたオーディオ表現210から導出される。スペクトル値決定は220で指定され、復号されたオーディオ表現のスペクトル値は222で指定される。しかしながら、復号されたオーディオ表現210はスペクトル値の形式で直接提供され得るので、スペクトル値決定220は任意選択であるものとして考えられるべきであることに留意されたい。

装置200はまた、フィルタを定義する値のセットの決定230を備える。決定230は、復号されたオーディオ表現のスペクトル値222を受信または取得し、それを基礎として、フィルタを定義する値のセット212を提供し得る。決定230は任意選択で、目標スケーリング値214および/または目標スペクトル情報216を使用し得る。

装置200の機能に関して、装置200は復号されたオーディオ表現のスペクトル値222を取得するように構成され、これらは異なる周波数ビンまたは周波数範囲と関連付けられることに留意されたい。さらに、異なる周波数ビンまたは周波数範囲と関連付けられる、復号されたオーディオ表現のスペクトル値222を基礎としてフィルタによって提供されるスケーリング値が、目標スケーリング値(たとえば、目標スケーリング値214)に近づくように、決定230はフィルタの特性を定義する値のセット212を決定するように構成され得る。言及されたように、目標スケーリング値は、所望の強化されたオーディオ表現と復号されたオーディオ表現との比較を基礎として計算されてもよく、所望の強化されたオーディオ表現は、前に言及された参照オーディオ表現に対応してもよい。言い換えると、決定230は、フィルタ(たとえば、ニューラルネットワークベースフィルタ、または別の機械学習構造に基づくフィルタ)の特性を定義する値のセット(たとえば、ニューラルネットワークの係数のセット、または別の機械学習構造の係数のセット)を、このフィルタが目標スケーリング値214に近い復号されたオーディオ表現のスペクトル値を基礎としてスケーリング値を提供するように、決定および/または最適化し得る。フィルタを定義する値のセット214の決定は、シングルパス前向き計算を使用して行われ得るが、通常は反復的な最適化を使用して実行され得る。しかしながら、ニューラルネットワークまたはコンピュータ学習構造のための任意の既知の訓練手順が使用され得る。

代替的に、フィルタを定義する値のセット212の決定230は、復号されたオーディオ表現(異なる周波数ビンまたは周波数範囲と関連付けられる)のスペクトル値を基礎として、かつ復号されたオーディオ表現を基礎として得られるスケーリング値を使用して、フィルタによって得られるスペクトルが、目標スペクトル(これは、たとえば目標スペクトル情報216によって記述され得る)に近づくように、フィルタの特性を定義する値のセット212を決定するように構成され得る。言い換えると、決定230は、復号されたオーディオ表現210のスペクトル値のフィルタリングされたバージョンが目標スペクトル情報216によって記述されるスペクトル値に近づくように、フィルタを定義する値のセット212を選択し得る。結論として、装置200は、フィルタが復号されたオーディオ表現のスペクトル値を「理想」または「参照」または「目標」スペクトル値へ少なくとも部分的に近づけるように、フィルタを定義する値のセット212を決定し得る。この目的で、装置は通常、異なるオーディオコンテンツを表す復号されたオーディオ表現を使用する。異なるオーディオコンテンツ(または異なるタイプのオーディオコンテンツ)を基礎としてフィルタを定義する値のセット212を決定することによって、フィルタを定義する値のセット212は、フィルタを定義する値のセット212の訓練のために使用される参照オーディオコンテンツとは異なるオーディオコンテンツについてフィルタが適度に良好に働くように、選ばれ得る。

したがって、フィルタを定義する値のセット212が、オーディオデコーダにおいて、たとえば図1によるオーディオデコーダ100において取得される復号されたオーディオ表現を強化するのに良く適したものになることを達成することができる。言い換えると、フィルタを定義する値のセット212は、たとえば、スケーリング値決定134の動作を定義するために(および、結果として、フィルタ130の動作を定義するために)オーディオデコーダ100において使用され得る。

しかしながら、図2による装置200は任意選択で、本明細書で説明される特徴、機能、および詳細のいずれかが、個別に、および組合せでの両方で検討されることにより補足され得ることに留意されたい。

3)図3によるオーディオデコーダ300
図3は、本発明の別の実施形態による、オーディオデコーダ300のブロック概略図を示す。オーディオデコーダ300は、符号化されたオーディオ表現110に対応し得る符号化されたオーディオ表現310を受信し、それを基礎として、強化されたオーディオ表現112に対応し得る強化されたオーディオ表現312を提供するように構成される。オーディオデコーダ300は、デコーダコア120に対応し得るデコーダコア320を備える。デコーダコア320は、符号化されたオーディオ表現310を基礎として、復号されたオーディオ表現322(これは、復号されたオーディオ表現122に対応し得る)を提供する。復号されたオーディオ表現は、時間領域表現であり得るが、スペクトル領域表現であってもよい。

任意選択で、オーディオデコーダ300は変換324を備えてもよく、これは、復号されたオーディオ表現322を受信し、復号されたオーディオ表現322を基礎としてスペクトル領域表現326を提供し得る。この変換324は、たとえば、復号されたオーディオ表現が異なる周波数ビンまたは周波数範囲と関連付けられるスペクトル値の形式をとらない場合、有用であり得る。たとえば、変換324は、復号されたオーディオ表現322が時間領域表現である場合、復号されたオーディオ表現322を複数のスペクトル値へと変換し得る。しかしながら、変換324は、後続の処理段階により使用可能なスペクトル値をデコーダコア320が提供しない場合、第1のタイプのスペクトル領域表現から第2のタイプのスペクトル領域表現への変換も実行し得る。スペクトル領域表現326は、たとえば、図1のオーディオデコーダ100に示されるようなスペクトル値132を備え得る。

さらに、オーディオデコーダ300はスケーリング値決定334を備え、これはたとえば、絶対値決定360、対数計算370、およびニューラルネットまたは機械学習構造380を備える。スケーリング値決定334は、スペクトル値326を基礎としてスケーリング値336を提供し、これはスペクトル値132に対応し得る。

オーディオデコーダ300はスケーリング338も備え、これはスケーリング138に対応し得る。スケーリングにおいて、復号されたオーディオ表現のスペクトル値、またはその前処理されたバージョンは、ニューラルネット/機械学習構造380によって提供されるスケーリング値336に応じてスケーリングされる。したがって、スケーリング338は強化されたオーディオ表現を提供する。

スケーリング値決定334およびスケーリング338は、フィルタまたは「ポストフィルタ」と見なされ得る。

以下では、いくつかのさらなる詳細が説明される。

スケーリング値決定334は絶対値決定360を備える。絶対値決定360は、復号されたオーディオ表現のスペクトル領域表現326、たとえば

を受信し得る。絶対値決定360は次いで、復号されたオーディオ表現のスペクトル領域表現326の絶対値362を提供し得る。絶対値362は、たとえば

で指定され得る。

スケーリング値決定は対数計算370も備え、これは、復号されたオーディオ表現のスペクトル領域表現の絶対値362(たとえば、スペクトル値の複数の絶対値)を受信し、それを基礎として復号されたオーディオ表現のスペクトル領域表現の対数化された絶対値372を提供する。たとえば、対数化された絶対値372は

で指定され得る。

絶対値決定360は、たとえば、スペクトル領域表現326の複数のスペクトル値の絶対値または大きさ値またはノルム値を、たとえばスペクトル値の符号または位相が取り除かれるように決定し得ることに留意されたい。対数計算は、たとえば、常用対数(10を底とする)もしくは自然対数、または適切であり得る任意の他の対数を計算する。また、対数計算は任意選択で、スペクトル値362のダイナミックレンジを減らすあらゆる他の計算により置き換えられ得ることに留意されたい。さらに、対数計算370は、対数化された絶対値372が妥当な値の範囲に制限され得るような、負および/または正の値の制限を備え得ることを理解されたい。

スケーリング値決定334はまた、ニューラルネットワークまたは機械学習構造380を備え、これらは、対数化された絶対値372を受信し、それを基礎として、スケーリング値332を提供する。ニューラルネットまたは機械学習構造380は、たとえば、フィルタの特性を定義する値のセット382によってパラメータ化され得る。値のセットは、たとえば、機械学習構造の係数またはニューラルネットワークの係数を備え得る。たとえば、値382のセットは、ニューラルネットワークの枝の重みと、任意選択で活性化関数のパラメータも備え得る。値382のセットは、たとえば装置200によって決定されてもよく、値382のセットは、たとえば値212のセットに対応してもよい。

さらに、ニューラルネットまたは機械学習構造380は任意選択で、現在のフレームに先行する1つまたは複数のフレームのための、および/または現在のフレームに後続する1つまたは複数のフレームのための復号されたオーディオ表現のスペクトル領域表現の対数化された絶対値も備え得る。言い換えると、ニューラルネットまたは機械学習構造380は、(スケーリング値が適用される)現在処理されているフレームと関連付けられるスペクトル値の対数化された絶対値を使用し得るだけではなく、1つまたは複数の先行のフレームおよび/または1つまたは複数の後続のフレームのスペクトル値の対数化された絶対値も考慮し得る。したがって、所与の(現在処理されている)フレームと関連付けられるスケーリング値は、所与の(現在処理されている)フレームのスペクトル値に基づき、1つまたは複数の先行のフレームおよび/または1つまたは複数の後続のフレームのスペクトル値にも基づき得る。

たとえば、復号されたオーディオ表現(372で指定される)のスペクトル領域表現の対数化された絶対値は、ニューラルネットまたは機械学習構造380の入力(たとえば、入力ニューロン)に適用され得る。スケーリング値336は、ニューラルネットまたは機械学習構造380の出力(たとえば、出力ニューロンによる)によって提供され得る。さらに、ニューラルネットまたは機械学習構造は、フィルタの特性を定義する値382のセットに従って処理を実行し得る。

スケーリング338はスケーリング336を受信してもよく、これは、「マスキング値」として指定されてもよく、たとえば、M(k,n)で、またスペクトル値としても指定されてもよく、または、復号されたオーディオ表現のスペクトル領域表現の前処理されたスペクトル値として指定されてもよい。たとえば、スケーリング338に入力されスケーリング値336に従ってスケーリングされるスペクトル値は、スペクトル領域表現326に基づいてもよく、または絶対値362に基づいてもよく、任意選択で、前処理はスケーリング338が実行される前に適用されてもよい。たとえば、前処理は、たとえば固定されたスケーリングの形式の、または符号化されたオーディオ情報の副次的情報によって決定されるスケーリングの形式のフィルタリングを備え得る。しかしながら、前処理は固定されていてもよく、符号化されたオーディオ表現の副次的情報とは独立であってもよい。さらに、スケーリング338への入力であり、スケーリング値336を使用してスケーリングされるスペクトル値は、スケーリング値336の導出のために使用されるスペクトル値とは必ずしも同一である必要はないことに留意されたい。

したがって、スケーリング338は、たとえば、スケーリング338への入力であるスペクトル値をスケーリング値と乗算してもよく、異なるスケーリング値は異なる周波数ビンまたは周波数範囲と関連付けられる。したがって、強化されたオーディオ表現312が取得され、強化されたオーディオ表現は、たとえば、スケーリングされたスペクトル領域表現(たとえば、

)またはそのようなスペクトル領域表現(たとえば、

)のスケーリングされた絶対値を備え得る。したがって、スケーリング338は、たとえば、復号されたオーディオ表現322と関連付けられるスペクトル値と、ニューラルネットワークまたは機械学習構造380によって提供される関連するスケーリング値との、単純な乗算を使用して実行され得る。

結論として、装置300は、符号化されたオーディオ表現310を基礎として強化されたオーディオ表現312を提供し、スケーリング338は、デコーダコア320によって提供される復号されたオーディオ表現322に基づくスペクトル値に適用される。スケーリング338において使用されるスケーリング値336は、ニューラルネットまたは機械学習構造によって提供され、ニューラルネットワークまたは機械学習構造380の入力信号は、好ましくは、復号されたオーディオ表現322に基づくスペクトル値の絶対値を対数化することによって得られる。しかしながら、フィルタの特性を定義する値382のセットを適切に選ぶことで、ニューラルネットワークまたは機械学習構造は、復号されたオーディオ表現と比較して強化されたオーディオ表現の聞いたときの印象がスケーリング338により改善するように、スケーリング値を提供することができる。

さらに、オーディオデコーダ300は任意選択で、本明細書において説明される特徴、機能、および詳細のいずれかによって補足され得ることに留意されたい。

4)図4による装置
図4は、フィルタの特性を定義する値のセット(たとえば、ニューラルネットワークの係数または別の機械学習構造の係数)を決定するための装置400のブロック概略図を示す。装置400は、訓練オーディオ表現410を受信し、それを基礎として、フィルタの特性を定義する値のセット412を提供するように構成される。訓練オーディオ表現410は、たとえば、値のセット412の決定のために使用される異なるオーディオコンテンツを備え得ることに留意されたい。

装置400はオーディオエンコーダ420を備え、これは、訓練オーディオ表現410を符号化し、それにより符号化された訓練オーディオ表現422を取得するように構成される。装置400はデコーダコア430も備え、これは、符号化された訓練オーディオ表現422を受信し、それを基礎として、復号されたオーディオ表現432を提供する。デコーダコア420は、たとえば、デコーダコア320およびデコーダコア120と同一であり得ることに留意されたい。復号されたオーディオ表現432は、復号されたオーディオ表現210にも対応し得る。

装置400はまた、任意選択で、訓練オーディオ表現410に基づく復号されたオーディオ表現432をスペクトル領域表現446へと変換する変換442を備える。変換442は、たとえば変換324に対応してもよく、スペクトル領域表現446は、たとえばスペクトル領域表現326に対応してもよい。装置400は絶対値決定460も備え、これは、スペクトル領域表現446を受信し、それを基礎として、スペクトル領域表現の絶対値462を提供する。絶対値決定460は、たとえば絶対値決定360に対応し得る。装置400は対数計算470も備え、これは、スペクトル領域表現の絶対値462を受信し、それを基礎として、復号されたオーディオ表現のスペクトル領域表現の対数化された絶対値472を提供する。対数計算470は対数計算370に対応し得る。

さらに、装置400はニューラルネットまたは機械学習構造480も備え、これはニューラルネットまたは機械学習構造380に対応する。しかしながら、482で指定される機械学習構造またはニューラルネット480の係数は、ニューラルネット訓練/機械学習訓練490によって提供される。ここで、ニューラルネットワーク/機械学習構造480は、このニューラルネット/機械学習構造が対数化された絶対値372を基礎として導出するスケーリング値を、ニューラルネット訓練/機械学習訓練490に提供することに留意されたい。

装置400は目標スケーリング値計算492も備え、これは「比マスク計算」としても指定される。たとえば、目標スケーリング値計算492は、訓練オーディオ表現410と、復号されたオーディオ表現432のスペクトル領域表現の絶対値462とを受信する。したがって、目標スケーリング値計算492は目標スケーリング値情報494を提供し、これは、ニューラルネット/機械学習構造480によって提供されるべき所望のスケーリング値を記述する。したがって、ニューラルネット訓練/機械学習訓練490は、ニューラルネット/機械学習構造480によって提供されるスケーリング値484を目標スケーリング値計算492によって提供される目標スケーリング値494と比較して、値482(すなわち、機械学習構造またはニューラルネットワークの係数)を調整してスケーリング値484と目標スケーリング値494との偏差を減らす(または最小化する)。

以下では、装置400の機能の概要が提供される。訓練オーディオ表現(これは、たとえば異なるオーディオコンテンツを備え得る)をオーディオエンコーダ420およびオーディオデコーダ430において符号化して復号することによって、復号されたオーディオ表現432が取得され、これは通常、有損失符号化における損失により、訓練オーディオ表現と比較してある程度劣化している。目標スケーリング値計算492は、復号されたオーディオ表現432のスケーリングされたスペクトル値が訓練オーディオ表現のスペクトル値に十分近づくように、復号されたオーディオ表現432のスペクトル値にどのスケーリング(たとえば、どのスケーリング値)が適用されるべきかを決定する。有損失符号化によりもたらされるアーティファクトは、復号されたオーディオ表現432のスペクトル値にスケーリングを適用することによって少なくとも部分的に補償され得ると仮定される。その結果、ニューラルネットまたは機械学習構造480は、復号されたオーディオ表現432を基礎としてニューラルネット/機械学習構造480によって提供されるスケーリング値482が目標スケーリング値494に近づくように、ニューラルネット訓練/機械学習訓練によって訓練される。任意選択の変換442、絶対値決定460、および対数計算470は、ニューラルネットワークまたは機械学習構造480のための入力値472(これらは復号されたオーディオ表現のスペクトル値の対数化された絶対値である)を導出するために、(任意選択の)前処理ステップを構成するだけである。

ニューラルネット訓練/機械学習訓練490は、スケーリング値484と目標スケーリング値494との差分(たとえば、重み付けられた差分)が最小になるように、または閾値より低くなるように、または少なくとも減るように、機械学習構造またはニューラルネットワークの係数482を調整するために、適切な学習機構(たとえば、最適化手順)を使用し得る。

したがって、機械学習構造またはニューラルネットワーク(または一般的には、フィルタの特性を定義する値のセット)の係数482が装置400によって提供される。これらの値は、フィルタ130において(スケーリング値決定134を調整するために)、または装置300において(ニューラルネット/機械学習構造380を調整するために)使用され得る。

しかしながら、装置400は任意選択で、本明細書において説明される特徴、機能、および詳細のいずれかによって補足され得ることに留意されたい。

5. 図5による装置
図5は、フィルタを定義する値のセット512を決定するための装置500のブロック概略図を示し、値512は、たとえば、機械学習構造またはニューラルネットワークの係数であり得る。

装置500は装置400と類似しているので、同一の特徴、機能、および詳細は再び概説されないことに留意されたい。むしろ、上記の説明への参照が行われる。

装置500は訓練オーディオ表現510を受信し、これは、たとえば訓練オーディオ表現410に対応し得る。装置500はオーディオエンコーダ520を備え、これはオーディオエンコーダ420に対応し、符号化された訓練オーディオ表現422に対応する符号化された訓練オーディオ表現522を提供する。装置500はデコーダコア530も備え、これはデコーダコア430に対応し、復号されたオーディオ表現532を提供する。

装置500は任意選択で変換542を備え、これは変換442に対応し、復号されたオーディオ表現552のスペクトル領域表現(たとえば、スペクトル値の形式の)を提供する。スペクトル領域表現は、546で指定され、スペクトル領域表現446に対応する。さらに、装置500は、絶対値決定460に対応する絶対値決定560を備える。装置500は対数計算570も備え、これは対数計算470に対応する。さらに、装置500は、機械学習構造480に対応するニューラルネットまたは機械学習構造580を備える。しかしながら、装置500はスケーリング590も備え、これは、符号化されたオーディオ表現のスペクトル値546または復号されたオーディオ表現のスペクトル値の絶対値562を受信するように構成される。スケーリングは、ニューラルネット580によって提供されるスケーリング値584も受信する。したがって、スケーリング590は、復号されたオーディオ表現のスペクトル値またはオーディオ表現のスペクトル値の絶対値をスケーリングして、それにより強化されたオーディオ表現592を得る。強化されたオーディオ表現592は、たとえば、スケーリングされたスペクトル値(たとえば、

)またはスペクトル値のスケーリングされた絶対値(たとえば、

)を備え得る。原則として、強化されたオーディオ表現592は、装置100によって提供される強化されたオーディオ表現112および装置300によって提供される強化されたオーディオ表現312に対応し得る。これまでのところ、594で指定されるニューラルネットまたは機械学習構造580の係数がニューラルネット訓練/機械学習訓練596によって調整されるという事実を除き、装置500の機能は装置100の機能および/または装置300の機能に対応し得る。たとえば、ニューラルネット訓練/機械学習訓練596は、訓練オーディオ表現510を、また強化されたオーディオ表現592も受信してもよく、強化されたオーディオ表現592が訓練オーディオ表現に近づけるように係数594を調整してもよい。

強化されたオーディオ表現592が正確に訓練オーディオ表現510を近似する場合、有損失符号化により引き起こされる信号劣化は、スケーリング590により少なくとも部分的に補償されることに留意されたい。さらに言い換えると、ニューラルネット訓練596は、たとえば、訓練オーディオ表現510と強化されたオーディオ表現592との(重み付けられた)差分を決定し、この差分を低減または最小化するために、機械学習構造またはニューラルネットワーク580の係数594を調整し得る。係数594の調整は、たとえば反復的な手順において実行され得る。

したがって、普通の動作において、決定された係数594を使用する機械学習構造またはニューラルネット380が、高品質の強化されたオーディオ表現312をもたらすスケーリング値336を提供できるように、ニューラルネットまたは機械学習構造580の係数594が適合されるようになり得る。

言い換えると、ニューラルネットもしくは機械学習構造480の、またはニューラルネットもしくは機械学習構造580の係数482、594を、装置300のニューラルネット380において使用することができ、この状況において装置300は高品質の強化されたオーディオ表現312を提供することが予想され得る。当然、この機能は、ニューラルネット/機械学習構造380がニューラルネット/機械学習構造480またはニューラルネット/機械学習構造580に類似している、もしくは同一ですらあるという仮定に基づく。

さらに、係数482、412または係数594、512は、オーディオデコーダ100のスケーリング値決定134においても使用され得ることに留意されたい。

さらに、装置500は任意選択で、本明細書において説明される特徴、機能、および詳細のいずれかが、個別に、および組合せでの両方で検討されることにより補足され得ることに留意されたい。

6. 詳細および実施形態
以下では、本発明の背後にあるいくらかの考察について論じ、いくらかの解決策を説明する。具体的には、本明細書において開示される実施形態のいずれにも任意選択で導入され得る、いくつかの詳細が開示される。

6.1 問題の制定
6.1.1 理想比マスク(IRM)
非常に簡単な数学的な観点から、コーディングされた発話

、たとえばデコーダコア(たとえば、デコーダコア120またはデコーダコア320またはデコーダコア430またはデコーダコア530)によって提供される復号された発話を

として記述することができ、x(n)はエンコーダに(たとえば、オーディオエンコーダ410、510)への入力であり、δ(n)は量子化ノイズである。量子化ノイズδ(n)は入力の発話と相関しており、それはACELPが量子化プロセスの間に知覚モデルを使用するからである。量子化ノイズのこの相関の性質は、我々のポストフィルタリングの問題を、相関しないものとしてノイズを想定する発話強化問題に固有のものにする。量子化ノイズを減らすために、時間-周波数ビンごとに実数値マスクを推定し、このマスクを、その時間-周波数ビンのためのコーディングされた発話の大きさのマスクと乗じる。

ここでM(k,n)は実数値マスクであり、

はコーディングされた発話の大きさであり、

は強化された発話の大きさであり、kは周波数インデックスであり、nは時間インデックスである。マスクが理想的である場合(たとえば、スケーリング値M(k,n)が理想的である場合)、コーディングされた発話からクリーンスピーチを再構築することができる。

ここで｜X(k,n)｜はクリーンスピーチの大きさである。

式2と式3を比較すると、理想比マスク(IRM)(たとえば、スケーリング値M(k,n)の理想値)が得られ、これは

により与えられ、ここでγは0による除算を防ぐために非常に小さい定数の係数である。大きさの値は範囲[0,∞]にあるので、IRMの値も範囲[0,∞]にある。

さらに言い換えると、たとえば、強化されたオーディオ表現

は、スケーリングを使用して復号されたオーディオ

を基礎として導出されてもよく、スケーリングファクタはM(k,n)によって記述され得る。また、たとえば、スケーリングファクタM(k,n)を、復号されたオーディオ表現から導出することができ、それは、ノイズ(スケーリングファクタM(k,n)を使用するスケーリングによって少なくとも部分的に補償される)ノイズと復号されたオーディオ表現

との間に通常は相関があるからである。たとえば、式(2)において与えられるようなスケーリングはスケーリング138によって実行されてもよく、スケーリング値決定134は、たとえばスケーリング値M(k,n)を提供してもよく、これは、たとえば式(4)によって記述されるように、理想的なスケーリングベクトルIRM(k,n)に近い。

したがって、スケーリング値決定134が、IRM(k,n)に近いスケーリング値を決定することが望ましい。

これは、たとえば、スケーリング値決定134またはスケーリング値決定334の適切な設計によって達成することができ、たとえば、ブロック380を実施するために使用される機械学習構造またはニューラルネットワークの係数は、以下において概説されるように決定され得る。

6.1.2 MMSE最適化
たとえば、マスク近似(MA)(たとえば、図4に示されるような)および信号近似(SA)[10](たとえば、図5に示されるような)という、2つの異なるタイプの最小平均二乗誤差(MMSE)最適化が、ニューラルネットワーク(たとえば、ニューラルネットワーク380)を訓練するために使用され得る。MA最適化手法は、目標マスク(たとえば、目標スケーリング値)と推定マスク(たとえば、ニューラルネットワークによって提供されるスケーリング値484)との間の平均二乗誤差(MSE)を最小化することを試みる。

ここでIRM(k,n)は目標マスクであり、M(k,n)は推定マスクである。

SA最適化手法は、目標大きさスペクトル｜X(k,n)｜(たとえば、訓練オーディオ表現510の大きさスペクトル)と強化された大きさスペクトル

(たとえば、強化されたオーディオ表現592の大きさスペクトル)との平均二乗誤差(MSE)を最小化することを試みる。

ここで、強化された大きさスペクトルは式2により与えられる。

さらに言い換えると、スケーリング値決定134またはスケーリング値決定334において使用されるニューラルネットワークは、たとえば図4および図5に示されるように訓練され得る。図4から分かるように、ニューラルネット訓練/機械学習訓練490は、式(5)において定義される基準に従って、ニューラルネット係数または機械学習構造係数482を最適化する。

図5に示されるように、ニューラルネット訓練/機械学習訓練596は、式(6)に示される基準に従って、ニューラルネットワーク係数/機械学習構造係数594を最適化する。

6.1.3 マスク値の分析
発話の強化と残響除去のための提案されるマスクベースの手法の大半において、マスク値は1に制限される[9][10]。これは、従来は、マスク値が1に制限されなければ、推定誤差が雑音または楽音の増幅を引き起こし得るからである[15]。したがって、これらの手法は、マスク値を1に制限するために出力活性化としてシグモイドを使用する。

表1は、異なる信号対雑音比(SNR)に対する、間隔(0,1)にあるマスク値の百分率を示す。これらのマスク値は、異なるSNRのホワイトノイズをクリーンスピーチに追加することによって計算された。表1から、マスク値の大半が間隔[0,1]にあり、したがって1をマスク値に制限することは、ニューラルネットワークベースの発話強化システムに悪影響がないと推測することができる。

次いで、AMR-WBの低い方の3つのビットレート(6.65kbps、8.85kbps、または12.65kbps)におけるマスク値の分布を計算した。表2は計算された分布を示す。表1との1つの大きな違いは、範囲[0,1]にあるマスク値の百分率である。6.65kbpsでは値のうちの39%がこの範囲にあるが、12.65kbpsではこの値は44%に増大する。マスク値のほぼ30～36%が[1,2]の範囲にある。マスク値のほぼ95%が範囲[0,5]にある。したがって、ポストフィルタリング問題のために、マスク値を単純に1に制限することはできない。これは、出力層においてシグモイド活性化(または簡単なスケーリングされないシグモイド活性化)を使用するのを妨げる。

言い換えると、本発明による実施形態において、1より大きいマスク値(スケーリング値としても指定される)を使用するのが有利であることが分かっている。また、マスク値またはスケーリング値を、1より大きくなければならない所定の値に制限することが有利であることが分かっており、この所定の値は、たとえば1と10の間の領域、または1.5と10の間の領域にあってもよい。マスク値またはスケーリング値を制限することによって、アーティファクトをもたらし得る過剰なスケーリングを避けることができる。たとえば、ニューラルネットワークの出力層におけるスケーリングされたシグモイド活性化を使用することによって、またはニューラルネットワークの出力層として(たとえば、正規化された)有界の線形活性化関数を使用することによって、スケール値の適切な範囲を達成することができる。

6.2 実験のセットアップ
以下では、実験のセットアップに関するいくつかの詳細が説明される。しかしながら、本明細書において説明される特徴の機能および詳細は任意選択で、本明細書において開示される実施形態のいずれにも引き継がれ得ることに留意されたい。

提案されるポストフィルタは、16kHzのサンプリングレートで50%の重複(8ms)を伴う長さ16msのフレームの短時間フーリエ変換(STFT)を計算する(たとえば、ブロック324において)。この時間フレームは、長さ256の高速フーリエ変換(FFT)が計算されて129個の周波数ビンをもたらす前に、ハン窓を用いて窓関数を掛けられる(たとえば、空間領域表現326)。FFTから、大きさ値の非常に大きいダイナミックレンジを抑制するために、対数の大きさ値が計算される(たとえば、対数化された絶対値372)。発話は時間的な依存性を有するので、(たとえば、373で指定される)処理された時間フレームの周囲でコンテキストフレームを使用した。a)過去のコンテキストフレームのみが使用される、およびb)過去と未来の両方のコンテキストフレームが使用されるという2つの条件で、提案されるモデルをテストした。これは、未来のコンテキストフレームが提案されたポストフィルタの遅延に加わり、未来のコンテキストフレームを使用することの利益についてテストしたかったので行われた。我々の実験では3というコンテキストウィンドウが選ばれ、過去のコンテキストフレームのみが考慮されたとき、1フレーム(16ms)だけの遅延につながった。過去と未来のコンテキストフレームの両方が考慮されたとき、提案されるポストフィルタの遅延は4フレーム(64ms)であった。

過去の3つのコンテキストフレームおよび現在の処理されるフレームだけでテストされたときの、我々の提案されるニューラルネットワークへの(たとえば、値372および373の)入力特徴量次元は、516(4*129)であった。過去と未来の両方のコンテキストフレームでテストされたとき、入力特徴量次元は903(7*129)であった。入力特徴量(たとえば、値372および373)は、平均0および単位分散に正規化された。しかしながら、目標である、実数値マスク(たとえば、値494)またはコーディングされていない発話の大きさスペクトル(たとえば、値の大きさ410)のいずれかが正規化されなかった。

図6は、対数の大きさと実数値マスクとの間のマッピング関数f_θを学習するように訓練されるFCNN600を示す。

FCNNは、入力層610、1つまたは複数の隠れ層612aから612d、および出力層614を有する単純なニューラルネットワークである。Keras[16]を用いてpythonでFCNNを実装し、バックエンドとしてTensorflow[17]を使用した。我々の実験では、2048ユニットを伴う4つの隠れ層を使用した。すべての4つの隠れ層が、正規化線形ユニット(ReLU)を活性化関数[18]として使用した。隠れ層の出力は、バッチ正規化[19]を使用して正規化された。過剰適合を防ぐために、ドロップアウト[20]を0.2に設定した。FCNNを訓練するために、学習率0.01のAdamオプティマイザ[21]を使用し、使用されたバッチサイズは32であった。

出力層614の次元は129であった。我々のFCNNは実数値(rel valued)(または実数値(real valued))マスクを推定し、これらのマスクは[0,∞]の範囲の任意の値をとることができるので、マスク値が有界である場合と、有界ではない場合の両方でテストした。マスク値が有界ではなかったとき、出力層においてReLU活性化を使用した。マスク値が有界であったとき、有界のReLU活性化またはシグモイド関数のいずれかを使用し、あるスケーリングファクタNによってシグモイド活性化の出力をスケーリングした。

FCNNを訓練するために、6.1.2章において定義されたような2つの損失関数(MSE_MAおよびMSE_SA)を使用し、有界のReLUまたは有界ではないReLUが出力層活性化のために使用されたときにモデルの収束を確実にするために、Clipノルムが使用された。

有界のReLUまたは有界ではないReLUが使用されるときの出力層における勾配は

であり、ここでtarは大きさスペクトル(たとえば、オーディオ表現510の大きさ)またはIRM(たとえば、値494)のいずれかであり、outは強化された大きさ(たとえば、値542)または推定マスク(たとえば、値484)のいずれかであり、これは、0と閾値との間の任意の値をとり、hは、出力ユニットへの入力として与えられる隠れユニットの出力である。有界のReLUが使用されるとき、式8は制限された値を超えない。

スケーリングされたシグモイドが使用されるときの出力層における勾配は

であり、tarは大きさスペクトルまたはIRM(たとえば、値494)のいずれかであり、outは強化された大きさまたは推定マスクM_estのいずれかであり、これは0と1の間の任意の値をとりhは出力ユニットへの入力として与えられる隠れユニットの出力である。

訓練、評価、およびテストのために、NTTデータベース[22]を使用した。訓練データベースに対するモデルの独立性を確認するために、TIMITデータベース[23]上でのクロスデータベーステストも実行した。NTTデータベースとTIMITデータベースはともに、クリーンスピーチデータベースである。TIMITデータベースは、16kHzのサンプリングレートの単一の発話ファイルからなる。NTTデータベースは、48kHzでサンプリングされるステレオ発話ファイルからなる。16kHzの単一の発話ファイルを得るために、NTTデータベース上で受動的なダウンミックスと再サンプリングを実行した。NTTデータベースは3960個のファイルからなり、それらのうちの3612個のファイルが訓練に使用され、198個のファイルが評価に使用され、150個のファイルがテストに使用された。NTデータベースは、男性と女性の両方の話者からなり、また、アメリカ英語、イギリス英語、ドイツ語、中国語、フランス語、および日本語などの言語からなる。

時間領域強化された発話が、逆短時間フーリエ変換(iSTFT)を使用して得られた。iSTFTは、どのような処理も伴わずに、コーディングされた発話の位相を利用した。

結論として、図6に示されるような全結合ニューラルネットワーク600が、スケーリング値決定134またはニューラルネット380を実装するために、本発明による実施形態において使用される。また、ニューラルネット600は、装置200によって、または装置400によって、または装置500によって訓練され得る。

理解され得るように、ニューラルネット600は、対数化された大きさ値(たとえば、スペクトル値132、372、472、572の対数化された絶対値)を、その入力層610において受信する。たとえば、現在処理されているフレームおよび1つまたは複数の先行するフレームおよび1つまたは複数の後続のフレームのスペクトル値の対数化された絶対値が、入力層610において受信され得る。入力層は、たとえば、スペクトル値の対数化された絶対値を受信し得る。入力層によって受信される値は次いで、スケーリングされるように、第1の隠れ層612aの人工ニューロンに転送され得る。入力層612の入力値のスケーリングは、たとえば、フィルタの特性を定義する値のセットによって定義され得る。続いて、非線形関数を使用して実装され得る第1の隠れ層612の人工ニューロンは、第1の隠れ層612aの出力値を提供する。次いで、第1の隠れ層612aの出力値が、スケーリングされるように、後続の(第2の)隠れ層612bの人工ニューロンの入力に提供される。再び、スケーリングは、フィルタの特性を定義する値のセットによって定義される。同様の機能を備える追加の隠れ層が含まれ得る。最後に、最後の隠れ層(たとえば、第4の隠れ層612d)の出力信号が、スケーリングされるように、出力層614の人工ニューロンの入力に提供される。出力層614の人工ニューロンの機能は、たとえば、出力層活性化関数によって定義され得る。したがって、ニューラルネットの出力値は、出力層活性化関数の評価を使用して決定され得る。

さらに、ニューラルネットワークが「全結合」され得るとは、たとえば、ニューラルネットワークのすべての入力信号が第1の隠れ層のすべての人工ニューロンの入力信号に寄与し得ることと、所与の隠れ層のすべての人工ニューロンの出力信号が後続の隠れ層のすべての人工ニューロンの入力信号に寄与し得ることとを意味することに留意されたい。しかしながら、実際の寄与は、フィルタの特性を定義する値のセットによって決定されてもよく、これは通常、ニューラルネットワーク訓練490、596によって決定される。

さらに、ニューラルネットワーク訓練490、596は、たとえば、ニューラルネットワークの係数を決定するときに式(8)および(9)において提供されるような勾配を使用し得ることに留意されたい。

この章において説明される特徴、機能、および詳細のいずれもが任意選択で、個別に、および組合せでの両方で、本明細書において開示される実施形態のいずれにも導入され得ることに留意されたい。

6.3 実験および結果
マスク値の限界を推定するために、oracle実験を実施した。これにおいて、IRMを推定し、図7に示されるような異なる閾値でIRMを制限した。評価には、発話品質の知覚評価(PESQ)[24][25][26]および知覚客観受聴品質評価(POLQA)[27]などの、客観的な尺度を使用した。図7から、閾値を1に設定すると、閾値を2、4、または10に設定した場合ほど性能が良くないことが推測され得る。閾値2、4、10の間の差は非常に小さい。したがって、さらなる実験において、マスク値を2に制限することを選んだ。

さらに、図8は、提案された方法およびEVSポストプロセッサの性能を評価する平均PESQスコアおよびPOLQAスコアを示す。本明細書において説明される概念の適用は、人工ニューラルネットワークの訓練のために信号近似が使用される(たとえば、図5に示されるように)場合とマスクされた近似が使用される(たとえば、図4に示されるように)場合の両方において、発話品質の改善をもたらすことが分かる。

7. 結論
コーディングされた発話の品質は、大きな量子化ノイズにより、より低いビットレートでは大きく影響を受けることが分かっている。量子化ノイズの影響を軽減するために、低ビットレートにおいては、通常はポストフィルタが利用される。本開示では、より低いビットレートにおいて復号される発話の品質を強化するために、実数値マスクベースのポストフィルタを提案する。この実数値マスクを推定するために、たとえば、正規化された対数の大きさに対して作用する全結合ニューラルネットワークを利用する。より低い3つのモード(6.65kbps、8.85kbps、および12.65kbps)において、適応マルチレートワイドバンド(AMR-WB)コーデックに対する我々の提案をテストした。我々の実験は、PESQ、POLQA、および主観受聴テストにおいて改善を示している。

言い換えると、本発明による実施形態は、発話コーディングおよび/または発話復号の文脈において全結合ネットワークを使用する概念に関する。本発明による実施形態は、コーディングされた発話の強化に関する。本発明による実施形態は、ポストフィルタリングに関する。本発明による実施形態は、量子化ノイズ(またはより正確には、量子化ノイズの低減)を扱う概念に関する。

本発明による実施形態では、CNN(畳み込みニューラルネットワーク)が、ケプストラム領域におけるマッピング関数として使用される。文献[14]は、対数大きさ領域における統計的なコンテキストベースのポストフィルタを提案している。

この寄書において、我々は、コーディングされた発話を回帰問題として強化するという問題について述べる。全結合ニューラルネットワーク(FCNN)は、入力(対数の大きさ)と出力(実数値マスク)との間のマッピング関数f_θを学習するように訓練される。次いで、コーディングされた発話を強化するために、推定される実数値マスクは次いで、入力の大きさと乗じられる。ビットレート6.65kbps、8.85kbps、および12.65kbpsにおいて、AMR-WBコーデックで我々の寄書を評価した。実施形態では、EVS[4][3]において、ポストフィルタが参照ポストフィルタとして使用され得る。さらなる詳細については、6.1章および6.2章を参照されたい。理解され得るように、口頭の受聴テスト結果が与えられている。たとえば、本発明による実施形態を使用して、好ましいPESQおよびPOLQAスコアが達成され得る。

以下では、いくつかの追加の重要な点が説明される。

第1の態様によれば、コーディングされた発話の品質を強化するためのマスクベースのポストフィルタが、本発明による実施形態において使用される。
a. マスクは実数値である(またはスケーリング値は実数値である)。これは、入力特徴量から機械学習アルゴリズムによって(またはニューラルネットワークによって)各周波数ビンに対して推定される。
b.

c. M_est(k,n)が推定マスクである場合、

はコーディングされた発話の大きさ値であり、

は周波数ビンkおよび時間インデックスnにおける後処理された発話である。
d. 現在使用されている入力特徴量は、対数大きさスペクトルであるが、大きさスペクトルの任意の派生物であってもよい。

第2の態様によれば、任意選択で、マスク値またはスケーリング値の制限があり得る。

推定マスク値は、たとえば範囲[0,∞]にある。そのような大きな範囲を防ぐために、任意選択で閾値を設定することができる。従来の発話強化アルゴリズムでは、マスクは1に制限される。対照的に、我々はこれを1より大きい閾値に制限する。この閾値は、マスク分布を分析することによって決定される。有用な閾値は、たとえば2から10のどこかにあり得る。
a. 推定マスク値は、たとえば閾値に制限されるので、および、閾値は1より大きいので、出力層は、有界の正規化線形ユニットReLUまたはスケーリングされたシグモイドのいずれかであり得る。
b. 機械学習アルゴリズムがマスク近似MMSE(最小平均二乗推定最適化)方法を使用して最適化されるとき、目標マスク(たとえば、目標スケーリング値)は任意選択で、目標マスクにおいて閾値より高くマスク値(たとえば、目標スケーリング値)を1に設定することによって修正されてもよく、または閾値に設定されてもよい。

第3の態様によれば、機械学習アルゴリズムは、全結合ニューラルネットワークとして使用され得る。長・短期記憶(LSTM)も代替として使用され得る。
a. 全結合ニューラルネットワークは、たとえば4つの隠れ層からなる。各隠れ層は、たとえば2048個または2500個の正規化線形ユニット(ReLU)の活性化からなる。
b. 全結合ニューラルネットワークの入力次元は、コンテキストフレームおよびFFTのサイズに依存する。システムの遅延も、コンテキストフレームおよびフレームサイズに依存する。
c. コンテキストフレームのサイズは、たとえば3と5の間のどこかであり得る。我々の実験では、たとえば、フレームサイズおよびFFTサイズとして256(16ms@16kHz)を使用した。コンテキストフレームのサイズは3に設定され、それは、3より大きくしたときの利益が非常に小さかったからである。また、未来と過去の両方のコンテキストフレーム、および過去のみのコンテキストフレームを用いてテストした。

第4の態様によれば、全結合ニューラルネットワークは、以下のMMSE(最小平均二乗推定最適化):マスク近似および信号近似を用いて訓練された。
a. マスク近似において、目標マスク(たとえば、目標スケーリング値)と推定マスク(たとえば、ニューラルネットを使用して決定されるスケーリング値)との平均二乗誤差が最小化される。目標マスクは、たとえば(2.b)(たとえば、態様2、サブセクションbにおける)のように修正される。
b. 信号近似において、強化された大きさ(たとえば、強化された大きさスペクトル592)と目標の大きさ(たとえば、オーディオ表現510の大きさスペクトル)との間の平均二乗誤差が最小化される。強化された大きさは、DNNからの(たとえば、ニューラルネットワークからの)推定マスクをコーディングされた大きさの推定マスクと乗じることによって得られる。目標の大きさは、コーディングされていない発話の大きさである。

結論として、本明細書において説明される実施形態は任意選択で、ここで説明される重要な点または態様のいずれかによって補足され得る。しかしながら、ここで説明される重要な点および態様は、個別に使用され得るか、または組合せで使用され得るかのいずれかであり、本明細書において説明される実施形態のいずれにも、個別に、および組合せでの両方で導入され得ることに留意されたい。

8. 図9による方法
図9は、本発明のある実施形態による、符号化されたオーディオ表現を基礎として強化されたオーディオ表現を提供するための方法900のブロック概略図を示す。

方法は、復号されたオーディオ表現

を提供するステップ(910)を備える。

さらに、方法は、異なる周波数ビンまたは周波数範囲と関連付けられる復号されたオーディオ表現のスペクトル値を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値(M(k,n))を取得するステップ(920)を備え、方法は、復号されたオーディオ信号表現(

)のスペクトル値またはその前処理されたバージョンを、スケーリング値(M(k,n))を使用してスケーリングし、強化されたオーディオ表現(

)を得るステップ(930)を備える。

方法900は任意選択で、本明細書において説明される特徴、機能、および詳細のいずれかにより、個別に、および組合せの両方で補足され得る。

9. 図10による方法
図10は、本発明のある実施形態による、復号されたオーディオ表現を基礎として、強化されたオーディオ表現(

)を提供するためのフィルタの特性を定義する値のセットを決定するための方法1000のブロック概略図を示す。

方法は、異なる周波数ビンまたは周波数範囲と関連付けられる、復号されたオーディオ表現のスペクトル値(

)を取得するステップ(1010)を備える。

方法はまた、異なる周波数ビンまたは周波数範囲と関連付けられる、復号されたオーディオ表現のスペクトル値を基礎としてフィルタによって提供されるスケーリング値が目標スケーリング値に近づくように、フィルタの特性を定義する値のセットを決定するステップ(1020)を備える。

代替的に、方法は、異なる周波数ビンまたは周波数範囲と関連付けられる復号されたオーディオ表現のスペクトル値を基礎として、および復号されたオーディオ表現を基礎として得られるスケーリング値を使用してフィルタによって得られるスペクトルが、目標スペクトルに近づくように、フィルタの特性を定義する値のセットを決定するステップ(1030)を備える。

10. 実装形態の代替例
いくつかの態様は装置の文脈で説明されたが、これらの態様は、対応する方法の説明も表すことが明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様は、対応するブロックまたは対応する装置の項目もしくは特徴の説明も表す。方法ステップの一部またはすべてが、たとえばマイクロプロセッサ、プログラマブルコンピュータ、または電子回路のような、ハードウェア装置によって(またはそれを使用して)実行され得る。いくつかの実施形態では、最も重要な方法ステップのうちの1つまたは複数がそのような装置によって実行され得る。

本発明の符号化されるオーディオ信号は、デジタル記憶媒体に記憶されてもよく、または、インターネットなどの、ワイヤレス送信媒体もしくは有線送信媒体などの送信媒体上で送信されてもよい。

何らかの実装の要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装され得る。実装形態は、それぞれの方法が実行されるようにプログラム可能コンピュータシステムと協働する(または協働することが可能である)、電子的に可読の制御信号が記憶された、デジタル記憶媒体、たとえば、フロッピーディスク、DVD、Blu-ray(登録商標)、CD、ROM、PROM、EPROM、EEPROM、またはフラッシュメモリを使用して、実行され得る。したがって、デジタル記憶媒体はコンピュータ可読であり得る。

本発明によるいくつかの実施形態は、電子的に可読の制御信号を有するデータ担体を備え、これは、本明細書において説明された方法のうちの1つが実行されるように、プログラマブルコンピュータシステムと協働することが可能である。

一般に、本発明の実施形態は、プログラムコードを伴うコンピュータプログラム製品として実装されてもよく、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されたとき、方法のうちの1つを実行するように動作可能である。プログラムコードは、たとえば、機械可読担体に記憶され得る。

他の実施形態は、機械可読担体に記憶される、本明細書において説明される方法のうちの1つを実行するためのコンピュータプログラムを備える。

言い換えると、本発明の方法の実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されたときに、本明細書において説明される方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本明細書において説明される方法のうちの1つを実行するためのコンピュータプログラムが記憶されているデータ担体(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データ担体、デジタル記憶媒体、または記録された媒体は、通常は有形であり、かつ/または非一時的である。

したがって、本発明の方法のさらなる実施形態は、本明細書において説明される方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。たとえば、データストリームまたは信号のシーケンスは、たとえばインターネットを介して、データ通信接続を介して転送されるように構成され得る。

さらなる実施形態は、本明細書において説明される方法のうちの1つを実行するように構成または適合される処理手段、たとえば、コンピュータまたはプログラマブル論理デバイスを備える。

さらなる実施形態は、本明細書において説明される方法のうちの1つを実行するためのコンピュータプログラムがインストールされたコンピュータを備える。

本発明によるさらなる実施形態は、本明細書において説明される方法のうちの1つを実行するためのコンピュータプログラムを受信機に転送する(たとえば、電気的にまたは光学的に)ように構成される装置またはシステムを備える。受信機は、たとえば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、たとえば、コンピュータプログラムを受信機に転送するためのファイルサーバを備え得る。

いくつかの実施形態では、プログラマブル論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)が、本明細書において説明される方法の機能の一部またはすべてを実行するために使用され得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書において説明される方法のうちの1つを実行するために、マイクロプロセッサと協働し得る。一般に、方法は好ましくは、任意のハードウェア装置によって実行される。

本明細書において説明される装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組合せを使用して実装され得る。

本明細書において説明される装置、または本明細書において説明される装置の任意の構成要素は、ハードウェアおよび/またはソフトウェアで少なくとも部分的に実装され得る。

本明細書において説明される方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組合せを使用して実行され得る。

本明細書において説明される方法、または本明細書において説明される装置の任意の構成要素は、ハードウェアおよび/またはソフトウェアによって少なくとも部分的に実行され得る。

上で説明された実施形態は、本発明の原理の例示するものにすぎない。本明細書において説明される構成および詳細の修正と変形が、当業者には明らかであることが理解される。したがって、係属中の特許の請求項の範囲によってのみ限定され、本明細書の実施形態の記述と説明として提示された具体的な詳細により限定されないことが意図される。

11. 参考文献
[1] 3GPP, “Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions,” 3rd Generation Partnership Project (3GPP), TS 26.190, 12 2009. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26190.htm
[2] M. Dietz, M. Multrus, V. Eksler, V. Malenovsky, E. Norvell,
H. Pobloth, L. Miao, Z. Wang, L. Laaksonen, A. Vasilache, Y. Ka-mamoto, K. Kikuiri, S. Ragot, J. Faure, H. Ehara, V. Rajendran,
V. Atti, H. Sung, E. Oh, H. Yuan, and C. Zhu, “Overview of the EVS codec architecture.” IEEE, 2015, pp. 5698-5702.
[3] 3GPP, “TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12),” 3rd Generation Partnership Project (3GPP), TS 26.445, 12 2014. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26445.htm
[4] T. Vaillancourt, R. Salami, and M. Jelnek, “New post-processing techniques for low bit rate celp codecs,” in ICASSP, 2015.
[5] J.-H. Chen and A. Gersho, “Adaptive postfiltering for quality en-hancement of coded speech,” vol. 3, no. 1, pp. 59-71, 1995.
[6] T. Backstrom, Speech Coding with Code-Excited Liniear Prediction. Springer, 2017. [Online]. Available: http://www.springer.com/gp/book/9783319502021
[7] K. Han, Y. Wang, D. Wang, W. S. Woods, I. Merks, and T. Zhang, “Learning spectral mapping for speech dereverberation and de-noising.”
[8] Y. Zhao, D. Wang, I. Merks, and T. Zhang, “Dnn-based enhance-ment of noisy and reverberant speech,” in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016.
[9] Y. Wang, A. Narayanan, and D. Wang, “On training targets for supervised speech separation,” IEEE/ACM Transactions on Au-dio, Speech, and Language Processing, vol. 22, pp. 1849-1858, 2014.
[10] F. Weninger, J. R. Hershey, J. L. Roux, and B. Schuller, “Dis-criminatively trained recurrent neural networks for single-channel speech separation,” in IEEE Global Conference on Signal and Information Processing (GlobalSIP), 2014.
[11] D. S. Williamson and D. Wang, “Time-frequency masking in the complex domain for speech dereverberation and denoising.”
[12] Z. Zhao, S. Elshamy, H. Liu, and T. Fingscheidt, “A cnn postpro-cessor to enhance coded speech,” in 16th International Workshop on Acoustic Signal Enhancement (IWAENC), 2018.
[13] Z. Zhao, H. Liu, and T. Fingscheidt, “Convolutional neural net-works to enhance coded speech,” IEEE/ACM Transactions on Au-dio, Speech, and Language Processing, vol. 27, no. 4, pp. 663-678, April 2019.
[14] S. Das and T. Backstrom, “Postfiltering using log-magnitude spectrum for speech and audio coding,” in Proc. Inter-speech 2018, 2018, pp. 3543-3547. [Online]. Available: http://dx.doi.org/10.21437/Interspeech.2018-1027
[15] W. Mack, S. Chakrabarty, F.-R. Stoter, S. Braun, B. Edler, and E. Habets, “Single-channel dereverberation using direct mmse optimization and bidirectional lstm networks,” in Proc. Interspeech 2018, 2018, pp. 1314-1318. [Online]. Available: http://dx.doi.org/10.21437/Interspeech.2018-1296
[16] F. Chollet et al., “Keras,” https://keras.io, 2015.
[17] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, S. Ghemawat, I. Goodfellow, A. Harp, G. Irving, M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Mane´, R. Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner, I. Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V. Vasudevan, F. Vie´gas, O. Vinyals, P. Warden, M. Wattenberg, M. Wicke, Y. Yu, and X. Zheng, “TensorFlow: Large-scale machine learning on heterogeneous systems,” 2015, software available from tensorflow.org. [Online]. Available: http://tensorflow.org/
[18] X. Glorot, A. Bordes, and Y. Bengio, “Deep sparse rectifier neural networks,” International Conference on Artificial Intelligence and Statistics, 2011, p. 315323.
[19] S. Ioffe and C. Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” in International Conference on Machine Learning, vol. 37, 2015, pp. 448-456.
[20] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, “Dropout: A simple way to prevent neural networks from overfitting,” J. Mach. Learn. Res., vol. 15, no. 1, pp. 1929-1958, Jan. 2014. [Online]. Available: http://dl.acm.org/citation.cfm?id=2627435.2670313
[21] D. Kingma and J. Ba, “Adam: A method for stochastic optimiza-tion,” in arXiv preprint arXiv:1412.6980, 2014.
[22] NTT-AT, “Super wideband stereo speech database,”
http://www.ntt-at.com/product/widebandspeech, accessed:
09.09.2014. [Online]. Available: http://www.ntt-at.com/product/widebandspeech
[23] J. S. Garofolo, L. D. Consortium et al., TIMIT: acoustic-phonetic continuous speech corpus. Linguistic Data Consortium, 1993.
[24] A. Rix, J. Beerends, M. Hollier, and A. Hekstra, “Perceptual eval-uation of speech quality (pesq) - a new method for speech quality assessment of telephone networks and codecs,” in 2001 IEEE International Conference on Acoustics, Speech and Signal Process-ing (ICASSP), 2001.
[25] ITU-T, “P.862.1: Mapping Function for Transforming P.862 Raw Result Scores to MOS-LQO,” (International Telecommunication Union), Tech. Rep. P.862.1, Nov. 2003.
[26] “P.862.2: Wideband Extension to Recommendation P.862 for the Assessment of Wideband Telephone Networks and Speech Codecs,” (International Telecommunication Union), Tech. Rep. P.862.2, Nov. 2005.
[27] Perceptual objective listening quality assessment (POLQA), ITU-T Recommendation P.863, 2011. [Online]. Available: http://www.itu.int/rec/T-REC-P.863/en
[28] Recommendation BS.1534, Method for the subjective assessment of intermediate quality levels of coding systems, ITU-R, 2003.

100 オーディオデコーダ
120 デコーダコア
130 フィルタ
134 決定器
138 スケーラ
200 装置
220 スペクトル値決定
300 オーディオデコーダ
320 デコーダコア
360 絶対値決定
338 スケーリング
370 対数計算
380 ニューラルネット/機械学習構造
420 オーディオエンコーダ
460 絶対値決定
470 対数計算
480 ニューラルネット/機械学習構造
490 ニューラルネット訓練/機械学習訓練
492 目標スケーリング値/比マスク計算
494 目標スケーリング値/理想比マスク
520 オーディオエンコーダ
530 デコーダコア
560 絶対値決定
570 対数計算
580 ニューラルネット/機械学習構造
596 ニューラルネット訓練/機械学習訓練
610 入力層
612 隠れ層
614 出力層

Claims

符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(112;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが複数のスケーリング値(136;336)を取得するように構成され、前記複数のスケーリング値が、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられ、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記フィルタ(130;360,370,380,338)が、前記スケーリング値(136;336)を提供するために、構成可能な処理構造を使用するように適合され、前記構成可能な処理構造の構成が機械学習アルゴリズムに基づく、オーディオデコーダ。
前記フィルタ(130;360,370,380,338)が、複数の周波数ビンまたは周波数範囲における前記復号されたオーディオ表現(122;322)の前記スペクトル値(132;326)のみを基礎として、前記スケーリング値(136;336)を決定するように構成される、請求項1に記載のオーディオデコーダ(100;300)。
前記フィルタ(130;360,370,380,338)が、
に従って前記強化されたオーディオ表現の大きさ値
を取得するように構成され、
M(k,n)がスケーリング値であり、
kが周波数インデックスであり、
nが時間インデックスであり、
が復号されたオーディオ表現のスペクトル値の大きさ値であり、または、
前記フィルタが、
に従って前記強化されたオーディオ表現の値
を取得するように構成され、
M(k,n)がスケーリング値であり、
kが周波数インデックスであり、
nが時間インデックスであり、
が前記復号されたオーディオ表現のスペクトル値である、請求項1または2のいずれか一項に記載のオーディオデコーダ(100;300)。
前記フィルタ(130;360,370,380,338)が、前記復号されたオーディオ信号表現(122;322)の1つまたは複数のスペクトル値(132;326)のための、または復号されたオーディオ信号表現(122;322)の前記スペクトル値(132;326)に基づく1つまたは複数の前処理されたスペクトル値のための、スケーリングもしくは増幅を前記スケーリング値(136;336)が引き起こすように、前記スケーリング値を取得するように構成される、請求項1から3のいずれか一項に記載のオーディオデコーダ(100;300)。
前記フィルタ(130;360,370,380,338)が、前記復号されたオーディオ表現(122;322)を記述する複数のスペクトル値(132;326)を基礎として、前記スケーリング値(136;336)を提供するように構成されるニューラルネットワーク(380;600)または機械学習構造を備え、前記スペクトル値が異なる周波数ビンまたは周波数範囲と関連付けられる、請求項1から4のいずれか一項に記載のオーディオデコーダ(100;300)。
前記ニューラルネットワーク(380;600)の、または前記機械学習構造の入力信号(372)が、前記復号されたオーディオ表現のスペクトル値の対数の大きさ、振幅、またはノルムを表し、前記スペクトル値が異なる周波数ビンまたは周波数範囲と関連付けられる、請求項5に記載のオーディオデコーダ(100;300)。
前記ニューラルネットワーク(380;600)または前記機械学習構造の出力信号(336)が、前記スケーリング値(136;336)を表す、請求項5または6のいずれか一項に記載のオーディオデコーダ(100;300)。
前記ニューラルネットワーク(380;600)または前記機械学習構造が、複数の目標スケーリング値(494)と、前記ニューラルネットワーク(380;580;600)または前記機械学習構造を使用して得られる複数のスケーリング値(484)との間の偏差(MSE_MA)を制限し、低減し、または最小化するように訓練される、請求項5から7のいずれか一項に記載のオーディオデコーダ(100;300)。
前記ニューラルネットワーク(380;600)または前記機械学習構造が、目標大きさスペクトル(510)、目標振幅スペクトル、目標絶対スペクトル、または目標ノルムスペクトルと、前記ニューラルネットワーク(380;580;600)または前記機械学習構造によって提供されるスケーリング値(584)を使用する処理されたスペクトルのスケーリングを使用して得られる、大きさスペクトル(592)、振幅スペクトル、絶対スペクトル、またはノルムスペクトルとの偏差(MSE_SA)を制限し、低減し、または最小化するように訓練される、請求項5から8のいずれか一項に記載のオーディオデコーダ(100;300)。
前記ニューラルネットワーク(380;600)または前記機械学習構造が、前記復号されたオーディオ信号表現(122;322)のスペクトル分解の1つまたは複数のスペクトル値(132;326)のスケーリング、または、前記復号されたオーディオ信号表現の前記スペクトル分解の前記スペクトル値に基づく1つまたは複数の前処理されたスペクトル値のスケーリングが0と所定の最大値との間の範囲にあるように訓練される、請求項5から9のいずれか一項に記載のオーディオデコーダ(100;300)。
前記最大値が1より大きい、請求項10に記載のオーディオデコーダ(100;300)。
前記ニューラルネットワーク(380;600)または前記機械学習構造が、前記復号されたオーディオ信号表現のスペクトル分解の1つまたは複数のスペクトル値の前記スケーリング、または、前記復号されたオーディオ信号表現の前記スペクトル分解の前記スペクトル値に基づく1つまたは複数の前処理されたスペクトル値の前記スケーリングが、2に制限される、または5に制限される、または10に制限される、または1より大きい所定の値に制限されるように訓練される、請求項5から11のいずれか一項に記載のオーディオデコーダ(100;300)。
前記ニューラルネットワーク(380;600)または前記機械学習構造が、前記スケーリング値が2に制限され、または5に制限され、または10に制限され、または1より大きい所定の値に制限されるように訓練される、請求項5から12のいずれか一項に記載のオーディオデコーダ(100;300)。
前記ニューラルネットワーク(380;600)または前記機械学習構造の入力特徴量の数が、前記ニューラルネットワークまたは前記機械学習構造の出力値の数より少なくとも2倍大きい、請求項5から13のいずれか一項に記載のオーディオデコーダ(100;300)。
前記フィルタ(130;360,370,380,338)が、前記ニューラルネットワークまたは前記機械学習構造の入力特徴量を、所定の平均値および/または所定の分散もしくは標準偏差へと正規化するように構成される、請求項5から14のいずれか一項に記載のオーディオデコーダ(100;300)。
ニューラルネットワーク(380;600)が、入力層(610)、1つまたは複数の隠れ層(612a-612d)、および出力層(614)を備える、請求項1から15のいずれか一項に記載のオーディオデコーダ(100;300)。
前記1つまたは複数の隠れ層(612a-612d)が正規化線形ユニットを活性化関数として使用する、請求項16に記載のオーディオデコーダ(100;300)。
前記出力層(614)が、正規化線形ユニットまたは有界正規化線形ユニットまたはシグモイド関数を活性化関数として使用する、請求項16または17のいずれか一項に記載のオーディオデコーダ(100;300)。
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現の前記スペクトル値を表す短時間フーリエ変換係数(132;326)を取得するように構成される、請求項1から18のいずれか一項に記載のオーディオデコーダ(100;300)。
前記フィルタ(130;360,370,380,338)が、前記復号されたオーディオ表現のスペクトル値の対数大きさ値、振幅値、絶対値、またはノルム値(372)を導出し、前記対数大きさ値、振幅値、絶対値、またはノルム値を基礎として前記スケーリング値(136;336)を決定するように構成される、請求項1から18のいずれか一項に記載のオーディオデコーダ(100;300)。
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、現在のフレームの前記復号されたオーディオ表現(122;322)のスペクトル値(132;326)を基礎として、および、異なる周波数ビンまたは周波数範囲と関連付けられる、前記現在のフレームに先行する1つまたは複数のフレームの前記復号されたオーディオ表現(122;322)のスペクトル値(132;326)を基礎として、前記現在のフレームと関連付けられる複数のスケーリング値(136;336)を決定するように構成される、請求項1から19のいずれか一項に記載のオーディオデコーダ(100;300)。
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、現在のフレームに後続する1つまたは複数のフレームの前記復号されたオーディオ表現(122;322)のスペクトル値(132;326)を基礎として、前記現在のフレームと関連付けられる複数のスケーリング値を決定するように構成される、請求項1から21のいずれか一項に記載のオーディオデコーダ(100;300)。
復号されたオーディオ表現(122;322)を基礎として強化されたオーディオ表現(112;312)を提供するためのフィルタ(130;360,370,380,338)の特性を定義する値のセットを決定するための装置(200;400;500)であって、
異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)のスペクトル値(132;326)を取得するように構成され、
異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現の前記スペクトル値を基礎として前記フィルタによって提供されるスケーリング値(136;336;484;584)が目標スケーリング値(494)に近づくように、前記フィルタ(130;360,370,380,338)の前記特性を定義する値の前記セット(382;412;512)を決定するように構成され、または、
異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)の前記スペクトル値(132;326)を基礎として、および、前記復号されたオーディオ表現(122;322)を基礎として得られるスケーリング値(136;336;484;584)を使用して前記フィルタによって得られるスペクトルが目標スペクトル(510)に近づくように、前記フィルタ(130;360,370,380,338)の前記特性を定義する値の前記セット(382;412;512)を決定するように構成される、装置。
複数の目標スケーリング値(494)と、異なる周波数ビンまたは周波数範囲と関連付けられる復号されたオーディオ表現のスペクトル値(326;446;546)を基礎としてニューラルネットワークを使用して得られる複数のスケーリング値(136;336;484;584)との間の偏差(MSE_MA)を低減または最小化するために、前記フィルタ(130;360,370,380,338)の一部であり、前記復号されたオーディオ信号(122;322;432;532)の大きさ値(362,372;462,472;562)または前記復号されたオーディオ信号のスペクトル値(326;446;546)をスケーリングするためのスケーリング値(136;336;484;584)を提供する、機械学習構造(380;480;580)を訓練するように構成される、請求項23に記載の装置(200;400)。
目標スペクトル(510)と、処理されたスペクトル(532;546)のスケーリングを使用して得られるスペクトル(592)との間の偏差(MSE_SA)を低減または最小化するために、機械学習構造(380;480;580)を訓練するように構成され、
前記処理されたスペクトルは、前記目標スペクトルに基づき、
前記スケーリングは、機械学習構造によって提供されるスケーリング値(584)を使用する、請求項23に記載の装置(200;500)。
前記復号されたオーディオ信号表現のスペクトル値のスケーリング、または復号されたオーディオ信号表現の前記スペクトル値に基づく1つまたは複数の前処理されたスペクトル値のスケーリングが、0と2の間の範囲にあるように、または0と5の間の範囲にあるように、または0と10の間の範囲にあるように、機械学習構造(380;480;580)を訓練するように構成される、請求項23から25のいずれか一項に記載の装置(200;400;500)。
前記復号されたオーディオ信号表現のスペクトル値のための、または復号されたオーディオ信号表現の前記スペクトル値に基づく1つまたは複数の前処理されたスペクトル値のための大きさのスケーリングが、0と所定の最大値との間の範囲内にあるように制限されるように、機械学習構造(380;480;580)を訓練するように構成される、請求項23から26のいずれか一項に記載の装置(200;400;500)。
前記最大値が1より大きい、請求項27に記載のオーディオデコーダ(200;400;500)。
符号化されたオーディオ表現を基礎として強化されたオーディオ表現を提供するための方法(900)であって、
前記符号化されたオーディオ表現の復号されたオーディオ表現を提供するステップ(910)を備え、
異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値を取得するステップ(920)を備え、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値を使用してスケーリングし、前記強化されたオーディオ表現を取得するステップ(930)を備え、
前記スケーリング値を提供するために、構成可能な処理構造が使用され、前記構成可能な処理構造の構成が機械学習アルゴリズムに基づく、方法(900)。
復号されたオーディオ表現を基礎として強化されたオーディオ表現を提供するためのフィルタの特性を定義する値のセットを決定するための方法(1000)であって、
異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現のスペクトル値を取得するステップ(1010)を備え、
異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現の前記スペクトル値を基礎として前記フィルタによって提供されるスケーリング値が目標スケーリング値に近づくように、前記フィルタの前記特性を定義する値の前記セットを決定するステップ(1020)を備え、または、
異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現の前記スペクトル値を基礎として、および前記復号されたオーディオ表現を基礎として得られるスケーリング値を使用して、前記フィルタによって得られるスペクトルが目標スペクトルに近づくように、前記フィルタの前記特性を定義する値の前記セットを決定するステップ(1030)を備える、方法。
コンピュータプログラムがコンピュータ上で実行されたとき、請求項29または30に記載の方法を実行するためのコンピュータプログラム。
符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(112;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが複数のスケーリング値(136;336)を取得するように構成され、前記複数のスケーリング値が、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられ、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
ニューラルネットワーク(380;600)の、または機械学習構造の入力信号(372)が、前記復号されたオーディオ表現のスペクトル値の対数の大きさ、振幅、またはノルムを表し、前記スペクトル値が異なる周波数ビンまたは周波数範囲と関連付けられる、オーディオデコーダ。
符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(112;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値(136;336)を取得するように構成され、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)を記述する複数のスペクトル値(132;326)を基礎として、前記スケーリング値(136;336)を提供するように構成される、ニューラルネットワーク(380;600)または機械学習構造を備え、
前記ニューラルネットワーク(380;600)または前記機械学習構造が、前記復号されたオーディオ信号表現(122;322)のスペクトル分解の1つまたは複数のスペクトル値(132;326)のスケーリング、または前記復号されたオーディオ信号表現の前記スペクトル分解の前記スペクトル値に基づく1つまたは複数の前処理されたスペクトル値のスケーリングが、0と所定の最大値との間の範囲内にあるように訓練され、
前記最大値が1より大きい、オーディオデコーダ。
符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(112;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値(136;336)を取得するように構成され、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)を記述する複数のスペクトル値(132;326)を基礎として、前記スケーリング値(136;336)を提供するように構成される、ニューラルネットワーク(380;600)または機械学習構造を備え、
前記ニューラルネットワーク(380;600)または前記機械学習構造が、前記復号されたオーディオ信号表現のスペクトル分解の1つまたは複数のスペクトル値の前記スケーリング、または前記復号されたオーディオ信号表現の前記スペクトル分解の前記スペクトル値に基づく1つまたは複数の前処理されたスペクトル値の前記スケーリングが2に制限されるように、または5に制限されるように、または10に制限されるように、または1より大きい所定の値に制限されるように訓練される、オーディオデコーダ。
符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(112;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値(136;336)を取得するように構成され、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)を記述する複数のスペクトル値(132;326)を基礎として前記スケーリング値(136;336)を提供するように構成される、ニューラルネットワーク(380;600)または機械学習構造を備え、
前記ニューラルネットワーク(380;600)または前記機械学習構造が、前記スケーリング値が2に制限されるように、または5に制限されるように、または10に制限されるように、または1より大きい所定の値に制限されるように訓練される、オーディオデコーダ。
符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(122;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値(136;336)を取得するように構成され、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)を記述する複数のスペクトル値(132;326)を基礎として前記スケーリング値(136;336)を提供するように構成される、ニューラルネットワーク(380;600)または機械学習構造を備え、
前記フィルタ(130;360,370,380,338)が、前記ニューラルネットワークまたは前記機械学習構造の入力特徴量を、所定の平均値および/または所定の分散もしくは標準偏差へと正規化するように構成される、オーディオデコーダ。
符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(122;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値(136;336)を取得するように構成され、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)を記述する複数のスペクトル値(132;326)を基礎として前記スケーリング値(136;336)を提供するように構成される、ニューラルネットワーク(380;600)または機械学習構造を備え、
前記ニューラルネットワーク(380;600)または前記機械学習構造の入力信号(372)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現のスペクトル値の対数の大きさを表す、オーディオデコーダ。
符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(122;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値(136;336)を取得するように構成され、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)を記述する複数のスペクトル値(132;326)を基礎として前記スケーリング値(136;336)を提供するように構成される、ニューラルネットワーク(380;600)または機械学習構造を備え、
前記ニューラルネットワーク(380;600)が、入力層(610)、1つまたは複数の隠れ層(612a-612d)、および出力層(614)を備え、
前記1つまたは複数の隠れ層(612a-612d)が正規化線形ユニットを活性化関数として使用する、オーディオデコーダ。
符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(122;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値(136;336)を取得するように構成され、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)を記述する複数のスペクトル値(132;326)を基礎として前記スケーリング値(136;336)を提供するように構成される、ニューラルネットワーク(380;600)または機械学習構造を備え、
前記ニューラルネットワーク(380;600)が、入力層(610)、1つまたは複数の隠れ層(612a-612d)、および出力層(614)を備え、
前記出力層(614)が、正規化線形ユニットまたは有界正規化線形ユニットまたはシグモイド関数を活性化関数として使用する、オーディオデコーダ。
復号されたオーディオ表現(122;322)を基礎として強化されたオーディオ表現(112;312)を提供するためのフィルタ(130;360,370,380,338)の特性を定義する値のセットを決定するための装置(200;400;500)であって、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記装置が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)のスペクトル値(132;326)を取得するように構成され、
異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現の前記スペクトル値を基礎として前記フィルタによって提供され、かつ異なる周波数ビンまたは周波数範囲と関連付けられる、スケーリング値(136;336;484;584)が目標スケーリング値(494)に近づくように、前記フィルタ(130;360,370,380,338)の前記特性を定義する値の前記セット(382;412;512)を決定するように構成され、または、
異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)の前記スペクトル値(132;326)を基礎として、および前記復号されたオーディオ表現(122;322)を基礎として得られるスケーリング値(136;336;484;584)を使用して、前記フィルタによって得られるスペクトルが目標スペクトル(510)に近づくように、前記フィルタ(130;360,370,380,338)の前記特性を定義する値の前記セット(382;412;512)を決定するように構成される、装置。