JP2021502588A

JP2021502588A - ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム

Info

Publication number: JP2021502588A
Application number: JP2020523777A
Authority: JP
Inventors: コンスタンティンシュミット; クリスティアンウーレ; ベルントエドラー
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2017-10-27
Filing date: 2018-04-13
Publication date: 2021-01-28
Anticipated expiration: 2038-04-13
Also published as: WO2019081070A1; JP7214726B2; BR112020008216A2; RU2745298C1; US11562764B2; CN111386568B; EP3701527B1; CN111386568A; EP3701527C0; EP3701527A1; US20200243102A1

Abstract

【課題】ニューラルネットワークプロセッサを用いて帯域幅の拡張されたオーディオ信号を生成する装置、方法またはコンピュータープログラムを提供する。【解決手段】入力オーディオ信号の周波数範囲を持つ入力オーディオ信号（５０）から帯域幅拡張されたオーディオ信号を生成するための装置は、以下から構成される。拡張周波数範囲を有する生信号（６０）を生成するように構成された生信号生成器（１０）と、拡張周波数範囲が入力オーディオ信号の周波数範囲に含まれていない生信号（６０）を生成するように構成された生信号生成器（１０）と、入力オーディオ信号の入力オーディオ周波数範囲と訓練されたニューラルネットワーク（３１）を使用して拡張周波数範囲のパラメトリック表現（７０）を生成するように構成されたニューラルネットワークプロセッサ（３０）と、拡張周波数範囲のパラメトリック表現（７０）を使用して生信号（６０）を処理して、拡張周波数範囲の周波数成分を有する処理済み生信号（８０）を得るための生信号プロセッサ（２０）であって、ここで、処理済み生信号（８０）または処理済み生信号と、入力オーディオ信号の入力オーディオ信号周波数範囲とが、帯域幅拡張されたオーディオ信号を表す、生信号プロセッサ（２０）。【選択図】図１

Description

本願発明は、音声処理及び、特に、帯域の拡張又はインテリジェントギャップ充填のようなオーディオ信号ための帯域幅拡張技術に関する。

モバイルスピーチコミュケーションのために今日最も使用されているコーデックは、いまだ２００〜３４００Ｈｚ（通常狭帯域（ＮＢ）と称される）の周波数のみをエンコードするＡＭＲ−ＮＢである。人間の音声信号は非常により広い帯域幅を持っているけれども、特に摩擦音には４ｋＨｚを越えるエネルギーがしばしばある。会話の周波数範囲を制限することはより楽しく聞こないばかりか、よりわかりやすくもない[１,２]。

ＥＶＳ[３]のような最先端のオーディオコーデックは、信号のより広範な周波数範囲の符号化を可能にするが、しかしこれらのコーデックの使用は、受信デバイスを含んだ全体のコミュニケーションデバイスの変化を要求するであろう。これは大きな努力で、数年前から知られている。ブラインド周波数拡張（ＢＢＷＥ−人工の帯域幅拡張またはブラインド帯域幅拡張としても知られている）は付加的なビットの必要なく信号の周波数幅を拡張できる。これらはデコードされた信号にのみ適用されネットワーク又は送信デバイスのいずれの適応も必要ではない。狭帯域コーデック帯域幅が限られているという問題の魅力的な解決策である一方、多くのシステムではオーディオシグナルの品質を改善することができない。最新の帯域幅機能拡張の共同の評価において、すべてのテストされた言語で知覚品質を顕著に改善することができたのは１２のシステム中わずか４つだけであった[４]。

音声生成のソースフィルタモデルに従うと、ほとんどの周波数幅拡張（ブラインド又はノンブラインド）は、２つの主要な構成要素を有する−それは刺激信号の生成と声道形状の評価である。これはまた、これは、提示されたシステムが従うアプローチでもある。励起信号を生成するために一般的に用いられる技術は、スペクトルのフォールディング、変換または非線形処理である。声道形状は、混合ガウスモデル（ＧＭＭ）、隠れマルコフモデル（ＨＭＭ）、ニューラルネットワークまたはディープニューラルネットワーク（ＤＮＮ）によって発生することができる。これらのモデルは、スピーチ信号に基づいて計算される特徴から、声道形状を予測する。

[５]及び[６]において、励起信号は、スペクトルフォールディングによって発生し、そして、ＨＭＭによって時間領域における全極フィルタとして、声道フィルタは実現される。まず、音声信号の上側帯域を含むフレームに関して計算された線形予測係数(ＬＰＣ)のコードブックは、ベクトル量子化によって作成される。デコーダ−側で、特徴量はデコードされた音声信号に関して計算され、そして、ＨＭＭは特徴量を与えられるコードブック入力の条件付き確率をモデル化するのに使用される。最終的なエンベロープは、すべてのコードブック入力の加重和であり、確率は重みである。[６]では、摩擦で生じる音は、ニューラルネットワークによってさらに強調される。

[７]において、励起信号はスペクトルフォールディングによっても生成され、そして、声道はニューラルネットワークによってモデル化され、メルフィルタバンク領域でフォールドされた信号に適用されるゲインを出力する。

[８]において、ＤＮＮは、スペクトルフォールディングされた励起信号(ここではイメージ位相と呼ぶ)のスペクトルエンベロープを予測するのに用いられる。[９]のシステムも、スペクトルフォールドされた励起信号を使って、ＬＳＴＭ層から成っているＤＮＮによって、エンベロープを形成する。ＤＮＮの入力としていくつかのフレームを用いるこれらの２つのシステムは、リアルタイム通信のためにはアルゴリズムの遅延があまりに大きすぎる。

最近のアプローチでは、WaveNet[１１]に類似したアーキテクチャで、０〜３２ｍｓのアルゴリズムの遅延で、時間−領域[１０]における欠落信号を直接モデル化する。

音声が送信されるとき、通常その周波数範囲は例えば帯域制限やダウンサンプリングによって制限される。この帯域制限が信号から帯域幅を除去しすぎている場合、音声の知覚品質はかなり低下する。これを克服する１つの方法は、より多くの帯域幅を送ることによってコーデックを変更する必要がある。これは、非常にコストを要し、数年を要するネットワークインフラ全体の変更が含まれる。

周波数を広げるもう一つの方法は、帯域幅拡張によって人工的に周波数レンジを広げることによってである。帯域幅拡張がブラインドの場合に備えて、エンコーダからデコーダへのサイド情報の送信は行われない。変化は、送信インフラ構造に変更を加える必要は無い。

本願発明の目的は、帯域幅が拡張されたオーディオ信号を生成するための改善された概念を提供することにある。

この目的は、請求項１の帯域幅が拡張されたオーディオ信号、請求項２６または請求項２７のオーディオ信号、請求項２９の帯域幅が拡張されたオーディオ信号を生成する方法または請求項３０または請求項３１のオーディオ信号を処理する方法、または請求項３２のコンピュータプログラムにより、達成される。

本願発明は、ニューラルネットワークが帯域幅拡張したオーディオ信号を生成するために有利に使用できるという発見に基づく。しかしながら、ニューラルネットワークを実装しているニューラルネットワークプロセッサが、完全な拡張周波数範囲、すなわち、拡張周波数範囲の個々のスペクトル線を生成するために使用されない。その代わりに、ニューラルネットワークプロセッサは、入力として、入力されたオーディオ信号周波数範囲を受けて、拡張周波数範囲のためにパラメトリック表現を出力する。このパラメトリック表現が、別々の生信号発生器で発生した生信号の生信号処理を実行するために使用される。生信号発生器は、スペクトル帯域複製手順のような帯域幅拡張から、または、インテリジェントギャップ充填手順からわかるように、パッチャのような拡張周波数範囲のための任意の種類の信号シンセサイザであってもよい。それから、パッチングされた信号はその後スペクトル的に白色化することができ、または、あるいは、信号はパッチングされる前にスペクトル的に白色化することができる。そして、それから、スペクトル的に白色化されたパッチングされた信号であるこの生信号は、拡張周波数範囲に周波数構成要素を持っている処理された生信号を得るためにニューラルネットワークから提供されるパラメータ表現を用いて、生信号プロセッサでさらに処理される。拡張周波数範囲は、入力された音声信号が狭帯域または低帯域信号であるストレートな帯域幅拡張のアプリケーションシナリオの高い帯域である。あるいは、拡張周波数範囲は、インテリジェントギャップ充填手順によって充填される最大周波数と特定の最小周波数の間の特定のスぺクルホールを指す。

あるいは、生信号生成器は、どんな種類の非線形性処理または雑音処理または雑音生成を使用してでも拡張周波数帯域信号を生成するために、実装されることもできる。

ニューラルネットワークは、完全な高帯域または完全な拡張周波数範囲ではなく、高帯域のパラメトリック表現を提供するためにのみ使用されるので、ニューラルネットワークは、完全な高帯域信号を生成するためにニューラルネットワークが使用される他の手順と比較して、より複雑でなく、したがって効率的にすることができる。一方、ニューラルネットワークは、低帯域信号を供給され、したがって、ニューラルネットワーク制御帯域幅拡張手順からも知られているような、低帯域信号からの追加の特徴抽出は必要とされない。さらに、拡張周波数範囲のための生信号の生成は、ニューラルネットワーク処理なしで、簡単な方法で、従って、非常に効率的に行うことができ、この生信号の後続のスケーリング、または一般的には、後続の生信号処理も、特定のニューラルネットワークの支援なしで行うことができることがわかっている。代わりに、ニューラルネットワークのサポートは、拡張周波数範囲の信号のためのパラメトリック表現を生成するためにのみ必要であり、従って、拡張周波数範囲のための生信号を生成するための一方での従来の信号処理と、生信号のシェーピングまたは処理と、さらに、最終的には、生信号プロセッサによって使用されるパラメトリック表現を生成する従来のものでないニューラルネットワーク処理との間で最適な妥協点が見出される。

従来の処理とニューラルネットワーク処理との間のこの分布は、音声品質に関する最適の妥協とどんな帯域幅拡張プロセッサででも実行されなければならないニューラルネットワークトレーニングならびにニューラルネットワークアプリケーションに関するニューラルネットワークの複雑さに関する最適の妥協を提供する。

好ましい実施形態では、白色化された生信号を生成するために、異なる時間分解能、すなわち、かなり低い時間分解能、好ましくはかなり高い周波数分解能に依存している。一方、ニューラルネットワークプロセッサおよび生信号プロセッサは、高い時間分解能、したがって、好ましくは低い周波数分解能に基づいて動作する。しかしながら、低時間分解能が高周波数分解能または高時間分解能を伴う場合もあり得る。従って、ニューラルネットワークが、例えば周波数に関して、全振幅表現よりも粗いパラメトリック分解能を有するという事実との間で、最適な妥協点が再び見出される。さらに、ニューラルネットワークプロセッサは、より高い時間分解能で動作することで、時間履歴を最適に利用することができる。つまり、オーディオ処理、特に帯域幅の拡張または帯域幅の拡張手順に特に有用なパラメトリック表現のパラメータの時間変化に高い効率で依存することができる。

本願発明のさらなる好ましい態様は、すべてのタップが１のみに設定される３タップ、４タップまたは５タップのローパスフィルタのような非常に簡単なローパスフィルタを用いてパワースペクトルをローパスまたは一般的にＦＩＲフィルタリングすることによって生成されたスペクトルエンベロープによって元々生成された生信号を分割する、ある種の有用な白色化手順に依存している。この手順には２つの目的がある。第１の目的は、元の生信号からフォルマント構造が除去されることであり、第２の目的は、ノイズに対する高調波のエネルギーの比率が低下することである。このようにして、このような白色化された信号は、例えば、ＬＰＣ残差信号よりもはるかに自然に聞こえ、そのような信号は、ニューラルネットワークプロセッサによって生成されたパラメトリック表現を用いたパラメトリック処理に特に適する。

本願発明の更なる態様は、有利な実施形態に依存しており、この実施形態では、ニューラルネットワークプロセッサは、振幅スペクトルを供給するのではなく、入力オーディオ信号のパワースペクトルを供給する。さらに、この実施形態では、ニューラルネットワークプロセッサは、パラメトリック表現、および例えば、対数領域、平方根領域、または()^1/3領域のような圧縮領域でのスペクトルエンベロープパラメータを出力する。人間の知覚は線形領域ではなく圧縮領域で動作するので、ニューラルネットワークプロセッサの訓練は人間の知覚とより関連している。一方、このようにして生成されたパラメータは、生信号プロセッサによって線形領域に変換されるので、ニューラルネットワークは、パワースペクトルまたはラウドネススペクトル（振幅は３のべき乗に引き上げられる）で動作し、パラメトリック表現パラメータまたはパラメトリック表現パラメータの少なくとも一部は、対数領域または()^1/3領域のような圧縮領域で出力されるが、最終的には、拡張周波数範囲信号の処理された線形スペクトル表現が得られる。

本願発明のさらなる有利な態様は、ニューラルネットワーク自体の実施形態に関する。一実施形態では、ニューラルネットワークの入力層は、振幅スペクトル、好ましくはパワーまたはラウドネススペクトルの二次元時間／周波数表現を受信する。従って、ニューラルネットワークへの入力層は、入力されたオーディオ信号の全周波数範囲を有し、さらに、一定数の先行フレームも有する二次元層である。この入力は、好ましくは、１つ以上の畳込みカーネルを有する畳込み層として実装され、この畳込みカーネルは、しかしながら、例えば、５個以下の周波数ビンと５個以下の時間フレーム、すなわち、５個以下の時間フレームのみからの５個以下の周波数ビンのみを畳込む、かなり小さな畳込みカーネルである。この畳込み入力層は、好ましくは、残差結合によって拡張され得るかまたは拡張され得ない更なる畳込み層または更なる遅延された畳込み層に続く。一実施形態では、例えば、特定の値範囲の値でパラメトリック表現のためのパラメータを出力するニューラルネットワークの出力層は、任意の回帰層がニューラルネットワークで使用されないように、畳込み層または畳込み層に接続された完全に接続された層であることができる。このようなニューラルネットワークは、例えば、S. by Baiらによる "An empiric evaluation of generic convolutional and recurrent networks for sequence modeling"、2018年3月4日、arXiv: 1803.0127 lvl [cs. LG]に記載されている。この出版物に記載されているそのようなネットワークは、回帰層に全く依存しておらず、特定の畳込み層にのみ依存している。

しかしながら、さらなる実施形態では、１つ以上の畳込み層に加えて、ＬＳＴＭ-層（またはＧＲＵ−層）などの回帰層が使用される。ネットワークの最後の層または出力層は、線形出力関数を有する完全に結合された層であってもよいし、そうでなくてもよい。この線形出力関数により、ネットワークは無制限の連続値を出力することができる。しかしながら、そのような完全結合層は必ずしも必要ではなく、２次元（大）入力層の時間指数あたりの１次元出力パラメータ層への低減は、２つ以上のより高い畳込み層を仕立てることによって、またはＬＳＴＭ層またはＧＲＵ層のような２つ以上の回帰層を特異的に仕立てることによっても行うことができるので、そのような完全結合層は、必ずしも必要ではない。

本願発明のさらなる態様は、隠蔽のためだけのブラインド帯域幅拡張、すなわちフレーム損失が発生した場合のような本願発明の帯域幅拡張装置の具体的な適用に関する。ここで、オーディオコーデックは、非ブラインド帯域幅拡張を有していてもよいし、全く帯域幅拡張を有していなくてもよく、本願発明の概念は、フレーム損失により欠落した信号の一部を予測するか、または欠落した信号全体を予測する。

あるいは、ニューラルネットワークプロセッサを使用する本願発明の処理は、完全なブラインド帯域幅拡張として使用されるだけでなく、非ブラインド帯域幅拡張またはインテリジェントギャップ充填の一部として使用され、ここで、ニューラルネットワークプロセッサによって生成されたパラメトリック表現は、例えば、スペクトルエンベロープパラメータのような選択されたパラメータごとに１ビットのような追加のサイド情報として送信される非常に少ないビット数によって制御される何らかのデータ量子化によって、パラメータ領域において改良された第１の近似として使用される。このようにして、極低ビットレートのガイド付き拡張が得られるが、それは、しかしながら、追加の低ビットレートサイド情報を生成するためにエンコーダ内のニューラルネットワーク処理に依存し、同時に、入力オーディオ信号からパラメトリック表現を提供するためにデコーダ内で動作し、その後、このパラメトリック表現は、追加の極低ビットレートサイド情報によって改良される。

さらなる実施形態では、しばしば０．２〜３．４ｋＨｚに制限される電話音声の帯域幅を拡張するブラインド帯域幅拡張（ＢＢＷＥ）が提供される。その利点は、知覚される品質の向上だけでなく、明瞭度の向上である。ある実施形態では、インテリジェントギャップ充填や帯域幅拡張、スペクトル帯域複製のような最先端の帯域幅拡張に似たブラインド拡張が提示されているが、余分なビットを送信する必要がなく、すべての処理がデコーダで行われるという違いがある。スペクトルエンベロープパラメータのようなパラメータは、長期短期記憶（ＬＳＴＭ）を持つ回帰畳込みディープニューラルネットワーク（ＣＮＮ）によって推定される。実施形態では、この手順は、アルゴリズムの追加の遅延なしに２０ミリ秒のフレーム上で動作し、最先端の音声および音声コーデックに適用することができる。これらの実施形態は、畳込みネットワークおよび回帰ネットワークの性能を利用して、音声信号のスペクトルエンベロープをモデル化する。

本願発明の好ましい実施形態は、添付の図面とともに以下に示す。

本願発明によれば、帯域幅が強化されたオーディオ信号を生成するための改善された概念を提供することができる。

図１は、入力された音声信号に対して帯域幅強調された音声信号を生成するための装置の一実施形態のブロック図である。図２ａは、図１の生信号生成装置の好ましい機能を示す図である。図２ｂは、図１の装置の好ましい実施形態であって、一方では生信号発生器、他方ではニューラルネットワークプロセッサおよび生信号プロセッサに異なる時間分解能が適用されている状態を示す図である。図２ｃは、周波数以上のローパスフィルタを使用して生信号発生器内でスペクトル白色化動作を実行するための好ましい実施形態を示す図である。図２ｄは、好ましい２回のコピーアップ動作のスペクトル状況を示すスケッチを示す図である。図２ｅは、生信号生成の目的で使用され、ニューラルネットワークプロセッサによって出力されるパラメトリック表現を使用して生信号処理の目的で使用されるスペクトルベクトルを示す図である。図３は、生信号発生器の好ましい実施形態を示す図である。図４は、本願発明に従った帯域幅拡張オーディオ信号を生成するための装置の好ましい実施形態を示す図である。図５は、ニューラルネットワークプロセッサの好ましい実施形態を示す図である。図６は、生信号プロセッサの好ましい実施形態を示す図である。図７は、ニューラルネットワークの好ましいレイアウトを示す図である。図８ａは、異なるＤＮＮ構成の性能を比較するスケッチを示す図である。図８ｂは、データ量に依存する訓練集合と試験集合の誤差を示す説明図である。図８ｃは、ＭＯＳ値として表示されたＡＣＲリスニングテストの結果を示す図である。図９ａは、畳込み層の原理を説明するための図である。図９ｂは、複数の畳込み層とＬＳＴＭ層とを用いたニューラルネットワークを示す図である。図１０は、畳込み層のみを用いたニューラルネットワークを、係数ｉの削除を用いて説明する図である。図１１は、畳込み層の上に適用された２つのＬＳＴＭ層の適用を説明する図である。図１２は、畳込み層と少なくとも１つのＬＳＴＭ層とを用いた更なる好ましいニューラルネットワークを示し、最後に、次元削減のための完全結合層がニューラルネットワークの出力層であるニューラルネットワークを示す図である。図１３は、３つのフィルタカーネルを持つ畳込み層の応用例を示す図である。図１０ｃは、直進音ぼやけを説明するための繰り返し直進音の遅延時間関数を示すグラフである。図１４は、エラー隠蔽を目的とした図１の実施形態の応用のための応用システムを説明するための図である。図１５ａは、非常に低いビットレートのパラメトリックサイド情報を有する誘導帯域幅拡張における図１のシステムの適用例を示す図である。図１５ｂは、図１５ａのシステムの文脈における生信号プロセッサの好ましい実施形態を示す図である。

図１は、入力されたオーディオ信号周波数範囲がある入力されたオーディオ信号５０から帯域幅拡張されたオーディオ信号を生成する装置のために、好ましい実施例を例示している。入力されたオーディオ信号周波数範囲は、低い周波数範囲または全周波数範囲であってもよいが、より小さいかより大きなスペクトルホールを有する。

本装置は、拡張周波数範囲を有する生信号６０を生成するための生信号生成器１０からなり、拡張周波数範囲は入力オーディオ信号の周波数範囲に含まれない。本装置は、さらに、入力オーディオ信号の入力オーディオ信号周波数範囲を使用して、訓練されたニューラルネットワークを使用して、拡張周波数範囲のパラメトリック表現７０を生成するように構成されたニューラルネットワークプロセッサ３０を含む。本装置はさらに、拡張周波数範囲のパラメトリック表現７０を用いて生信号６０を処理し、拡張周波数範囲の周波数成分を有する処理済み生信号８０を得るための生信号プロセッサ２０を含む。さらに、本装置は、ある実施形態では、入力オーディオ信号５０と比較して、低帯域および高帯域を有する信号、またはスペクトルホールのない全帯域信号、または以前よりもスペクトルホールが少ない信号などの帯域幅拡張されたオーディオ信号を出力するオプションの結合器４０を含む。

処理された生信号８０は、処理された生信号と入力されたオーディオ信号の周波数範囲との組合せが、例えば図４に関して議論されているように、例えばスペクトル−時間コンバータ内で実行される場合、生信号プロセッサの処理に応じて、帯域幅拡張信号であることが既に可能である。そうすると、この組合せは、このスペクトル−時間コンバータによって既に実行されており、図１の結合器４０は、このスペクトル−時間コンバータの一部である。あるいは、処理された生信号は、次に２つの時間領域信号のサンプルごとの加算を実行するであろう別個の結合器によって時間領域入力オーディオ信号と結合される時間領域拡張信号であってもよい。拡張信号と元の入力信号とを結合するための他の手順は、当業者にとって周知である。

さらに、生信号発生器１０につながる点線５０で例示されるように、生信号発生器は生信号を生成するために入力された音声信号を使用することが好ましい。入力されたオーディオ信号を使用して操作する手順は、活動、例えばコピーアップ操作、高調波パッチ操作、コピーアップ操作と高調波パッチ操作の混合などのパッチ操作、または、同時にスペクトルのミラーリングを行う他のパッチ操作である。

あるいは、生信号発生器は、入力された音声信号を参照することなく動作することができる。そうすると、生信号生成器１０によって生成された生信号は、ノイズ様の信号であってもよく、生信号生成器は、ある種のノイズ発生器またはある種のランダム関数がノイズを発生するように構成されるであろう。代替的に、入力オーディオ信号５０を使用することができ、ｓｇｎ（ｘ）のｘ²倍、ここでｓｇｎ（）はｘの符号であるような、時間領域における何らかの非線形処理によって処理されるであろう。代替的に、他の非線形処理は、クリッピング手順または他の時間領域の手順であろう。さらなる処理は、コピーアップ、スペクトル領域でのミラーリングなどのように、帯域制限された入力信号の周波数シフトされたバージョンを実行する好ましい周波数領域の処理であろう。しかしながら、スペクトル領域でのミラーリングは、ゼロがサンプル間に挿入され、例えば、２つのサンプル間に１つのゼロが挿入されると、スペクトルのミラーリングが得られる時間領域処理操作によっても実行され得る。２つのサンプル間に２つのゼロが挿入された場合には、より高いスペクトル領域等での非ミラーリングコピーアップ演算を構成することになる。したがって、生信号生成器は、図２ａに関して図示されているように、好ましくは白色化された信号であるエンハンスメント周波数範囲内の生信号を生成するために、時間領域またはスペクトル領域で動作することができることが明らかになる。しかしながら、この白色化は、必ずしもスペクトル領域で実行される必要はなく、ＬＰＣフィルタリングのような時間領域で実行されてもよく、その場合、ＬＰＣ残留信号は、白色化された時間領域信号となるであろう。しかし、後述するように、本願発明の目的のためには、特定のスペクトル領域の白色化動作が好ましい。

好ましい実施形態では、ニューラルネットワークプロセッサは、入力として、オーディオ信号、特にオーディオ信号のスペクトル値のフレームのシーケンスを受信し、ここで、スペクトル値は、振幅値であるが、より好ましくは、パワー値、すなわち、あるパワーまで引上げられたスペクトル値または振幅であり、パワーは、例えば、２（パワー領域）または３（ラウドネス領域）であるが、一般的には、１．５〜４．５の間のパワーを、ニューラルネットワークに供給する前に、スペクトル値を処理するために使用することができる。これは、例えば、低帯域振幅スペクトルフレームの系列をスペクトルフレームの時間系列に変換するためのパワースペクトルコンバータを図５の項目３２に例示し、次いで、スペクトルフレームの時間シーケンスが線形振幅であるかパワー振幅であるかラウドネス振幅であるかを問わず、好ましくは圧縮領域でパラメトリックデータを出力する訓練されたニューラルネットワーク３１に入力される。これらのパラメトリックデータは、調性パラメータ、時間エンベロープパラメータ、スケーリング係数帯域エネルギー、分布量子化器値、エネルギー値または傾斜値などのスペクトルエンベロープパラメータのような、欠落または帯域幅拡張信号を記述する任意のパラメトリックデータであってもよい。例えば、スペクトル帯域複製処理から知られている他のパラメータは、逆フィルタリングパラメータ、ノイズ付加パラメータまたは欠落高調波パラメータであり、スペクトルエンベロープパラメータに加えて使用することもできる。好ましいスペクトルエンベロープパラメータまたは一種の「ベースライン」パラメトリック表現は、スペクトルエンベロープパラメータであり、好ましくは、いくつかの帯域の絶対エネルギーまたはパワーである。入力オーディオ信号が狭帯域信号のみである真の帯域幅拡張の文脈では、拡張範囲は、例えば、４つまたは５つの帯域のみ、またはせいぜい１０個の拡張帯域を有することができ、その場合、パラメトリック表現は、帯域ごとに単一のエネルギーまたはパワーまたは振幅に関連する値、すなわち、例示的な１０個の帯域のための１０個のパラメータのみで構成されることになるであろう。

一実施の形態では、帯域幅拡張が、例えば３ＧＰＰの拡張された音声サービス（ＥＶＳ）またはＭＰＥＧ・ＡＣＣの任意のスピーチと音声コーデックの拡張として使用することができる。図１に図示される帯域幅拡張処理への入力は、復号され、かつ、例示的に帯域制限されたオーディオ信号である。出力は、欠落した信号の推定である。推定は、波形としての信号または例えばＦＦＴまたは修正離散コサイン変換（ＭＤＣＴ）等の変換の係数でありえた。ニューラルネットワークプロセッサ３０で生成されるパラメータは、以前例示的に議論されたパラメトリック表現７０のパラメータである。

信号が若干の粗いパラメータによって記述されている場合、人工的な信号が発生し、それから、ニューラルネットワークプロセッサ３０によって推定されるパラメータによって修正される。

図２ａは、生信号発生器１０で実行される好ましい手順を例示している。ステップ１１ａにおいて、生信号発生器は最初の調性で信号を生成し、そして、更なるステップ１１ｂにおいて、生信号発生器は第２の低い調性で信号を得るために最初の調性で信号をスペクトル的に白色化する。換言すると、第２の信号の調性は、第１の信号の調性より低く、および／またはステップ１１ｂによって得られる信号は、ステップ１１ａによって生成される信号よりより白いかより白くなる。

さらに、図２ｂは、一方では生信号発生器１０と、他方ではニューラルネットワークプロセッサ３０と生信号プロセッサ２０との間の協働のある好ましい実施形態を図示している。図１２で概説されているように、生信号生成器は、第１の（低い）時間分解能を有する生信号を生成し、図３２で概説されているように、ニューラルネットワークプロセッサ３０は、第２の（高い）時間分解能を有するパラメトリックデータを生成し、生信号プロセッサ２０は、次に、パラメトリック表現の時間分解能に応じて、第２のまたは高い時間分解能を有する生信号をスケーリングするかまたは処理する。好ましくは、ブロック３２および２２の時間分解能は同じであるが、代替的に、これらのブロックは、ブロック３２の時間分解能がステップ１２で使用されるスペクトル白色化時間分解能よりも高い限り、および生信号をスケーリング／処理するために使用される時間分解能が図２ｂのブロック１２で図示される生信号の生成の時間分解能よりも高い限り、異なる時間分解能に依存することさえ可能である。従って、一般的には、生信号が低い時間分解能で生成され、処理およびニューラルネットワークが高い時間分解能で行われる、または生信号が高い周波数分解能で生成され、処理およびニューラルネットワークが低い周波数分解能で行われる、という２つの実施形態が存在する。

図２ｄは、入力信号が例えば２００Ｈｚから３．４ｋＨｚの間の狭帯域入力信号であり、帯域幅拡張動作が真の帯域幅拡張である実施形態におけるスペクトルの状況を示している。ここで、入力された音声信号は、図３に図示した時間−周波数コンバータ１７に入力される。そして、パッチャ１８によるパッチングが行われ、その後、白色化ステップ１１ｂが行われ、その結果が周波数−時間コンバータによって時間領域に変換される。図３のブロック１９の出力は、時間領域の生信号のみであってもよいし、時間領域の生信号と入力音声信号とであってもよい。さらに、白色化器１１ｂとパッチャ１８との間の動作順序を交換することができること、すなわち、時間−周波数コンバータによって出力された信号、すなわち低帯域信号または入力オーディオ信号であり、その後、既に白色化された信号は、１回、または図２ｄに図示されているように２回、すなわち第１のコピーアップ動作と第２のコピーアップ動作によって、完全な拡張周波数範囲が第１のコピーアップ動作と第２のコピーアップ動作の周波数範囲によって構成されるように、パッチされる。当然のことながら、図３のパッチャ１８は、必ずしもコピーアップ動作を行わなくてもよいが、スペクトルミラーリング動作、または生成前または生成後に白色化された拡張周波数範囲の信号を生成するための他の任意の動作を行ってもよい。

好ましい実施形態では、図２ｂの１１ｂで図示された、または図３の１１ｂで図示されたスペクトル白色化操作は、図２ｃで図示された手順からなる。時間領域表現をスペクトル表現に変換するためのＦＦＴプロセッサ、ＭＤＣＴプロセッサ、または他の任意のプロセッサであり得る図３の時間−周波数コンバータ１７によって生成されたような線形スペクトルフレームは、リニア−パワーコンバータ１３に入力される。リニア−パワーコンバータ１３の出力は、パワースペクトルである。ブロック１３は、ブロック１３の出力でパワースペクトルを得るためには、２の値が好ましいが、一般的には１．５から４．５の間の値、例えば２の値、３の値など、任意のパワー演算を適用することができる。次いで、パワーフレームをローパスフィルタで周波数にわたってローパスフィルタリングして、パワースペクトルエンベロープ推定値を得る。

次いで、ブロック１５において、パワー−リニアコンバータ１５を用いて、パワースペクトルエンベロープ推定値を線形領域に戻して変換し、リニアスペクトルエンベロープ推定値は、好ましい実施形態において、生信号または生信号のスペクトルフレームに対応する白色化されたスペクトルフレームを出力するために、線形スペクトルフレームも受信する白色化計算機１６に入力される。特に、リニアスペクトルエンベロープ推定値は、リニアスペクトルフレームの各スペクトル値に対して所定の線形係数であり、したがって、リニアスペクトルフレームの各スペクトル値は、ブロック１５によって出力されるリニアスペクトルエンベロープ推定値に含まれる対応する重み付け係数で除算される。

好ましくは、ローパスフィルタ１４は、たとえば、３つ、４つまたは、５つのタップだけを備えているＦＩＲフィルタで、または、最高でも、８つのタップを有し、そして、好ましくは、少なくとも３つのタップは同じ値を持って、１に等しいか、または５個の全てのフィルタタップ、または、通常、すべてのフィルタ・タップはローパスフィルタ動作を得るために１と等しい。

図２ｅは、図４の中でシステムの動作の文脈で実行される処理を示す。

人間の音声生成プロセスの基本的な音響モデルは、喉頭上声道の形状によって決定される伝達フィルタによって変調された周期的なパルス状の励起信号（喉頭信号）を組み合わせたものである。さらに、声道や口唇の収縮による乱流空気の流れに起因するノイズ様信号も存在する。このモデルに基づいて、スペクトル的に平坦な励起信号を拡張し、声道フィルタの推定値を用いて整形することで、欠落している周波数範囲を拡張する。図１に提案されたシステムを示す。デコードされた時間領域の信号から、２０ｍｓのブロックがＤＦＴによって周波数領域に変換される。隣接するフレームのフレーム増分（ホップサイズ）は１０ｍｓである。周波数領域では、信号はゼロパディングによって１６ｋＨｚにアップサンプリングされ、３．４ｋＨｚ以上の欠落した周波数コンテンツは、インテリジェントギャップ充填（ＩＧＦ）やＳＢＲ [１２，１３]のような帯域幅拡張と同じ方法で生成される：低いビンは欠落信号を生成するためにコピーアップされる。ＡＭＲ−ＮＢのようなコーデックは２００〜３４００Ｈｚの間の周波数のみを符号化するので、この信号は８０００〜３２００＝４８００Ｈｚの欠落した範囲を埋めるのに十分ではない。そのため、この操作は２回行わなければならない。１回目は３４００〜６６００Ｈｚの範囲を埋めるためであり、もう１回目は６６００〜８０００Ｈｚの範囲を埋めるためである。

この人工的に生成された信号は、元の励起信号と比較して非常に階性が高い。ＩＧＦで使われる低い複雑な方法は、調性[１４]を減らすのに使用される。パワースペクトルにＦＩＲフィルタリングを実行することによって生成されたそのスペクトルエンベローブによって信号を分割するためのアイデアがここに存在する。これには２つの目的がある−第１に、フォルマント構造はコピーされた信号（これは残りのＬＰＣを用いて達成されることもできる）から除去され、第２には、雑音への高調波のエネルギーの比率は下げられる。従って、この信号は、より自然に聞こえる。

初期のＤＦＴの２倍の大きさの逆ＤＦＴを行った後、５０％オーバーラップのオーバーラップ加算ブロックにより、サンプリング周波数１６ｋＨｚの時間領域信号を生成する。この３４００Ｈｚ以上の平坦な励起信号を有する時間領域信号は、今度は、元の信号のフォルマント構造に似た形状になる。これは、１０ｍｓのブロックで動作するより高い時間分解能を有するＤＦＴの周波数領域で行われる。ここでは、３４００Ｈｚから８０００Ｈｚの範囲の信号は、約１バーク幅の５つの帯域に分割され[１５]、帯域ｂ内の各ＤＦＴ−ｂｉｎＸｉは、スケーリング係数ｆ_bによってスケーリングされている。

スケーリング係数ｆ_bは、対数関数的エネルギー推定Ｌ_bと帯域ｂにおけるビンｉの合計又は平均エネルギーとの比率であり：

ここで、Ｊは帯域ｂ内ですべてのビンを繰り返す。Ｌ_bは次節で説明されるＤＮＮによって計算され、真の広帯域エネルギーＬ_bの推定である：

従って、図４に示されるように、狭帯域入力オーディオ信号５０は、スペクトルベクトルがサンプリングレートの半分までの周波数、すなわち８ｋＨｚまでの周波数のみを有することを意味する「短い」変換または変換を実行する第１の時間−周波数コンバータに入力される。時間窓の長さは２０ミリ秒、または一般的には一定の値である。有用なスペクトルは３．４ｋＨｚまでしか到達しないので、３．４ｋＨｚと４ｋＨｚの間のスペクトルベクトルの上位部分は、７０で図示されているように未使用である。次に、スペクトルベクトル７１を得るために、このスペクトルベクトル７０に対してゼロパディングが行われる。次いで、スペクトルベクトル７１のゼロパディング部のゼロは、コピーアップ手順によって有用な値で埋められ、さらに、コピーアップ部のスペクトル値は、図４のブロック１１ｂによってスペクトル的に白色化される。その後、スペクトルベクトル７２を用いて逆ＦＦＴを行う。変換アルゴリズムに入力される値の数は、スペクトルベクトル７０によって図示される図４のブロック１７によって実行される時間−周波数変換によって生成されるスペクトル値の数の２倍であるので、変換アルゴリズムは長い変換アルゴリズムである。

そして、重要なことに、例えば、ブロック５０への入力での信号が８ｋＨｚのサンプリングレートを持っている点に注意すべきであり、そして、ブロック１９による信号出力は、現在倍のサンプリングに、すなわち、１６ｋＨｚを有するが、現在、スペクトル範囲は、８ｋＨｚまで上昇する。

さて、生信号プロセッサ２０は、さらなる時間−周波数変換を実行するが、再び短いアルゴリズムカーネルを使用する。好ましくは、ウィンドウ長は１０ｍｓであるので、スペクトルベクトル７２に関して、図４のブロック２２によって得られた現在生成されたスペクトルベクトル７３は、より短いウィンドウ長のためにスペクトル値の数が少なく、スペクトル値の数は、３．４〜４ｋＨｚの間の範囲を離れて、スペクトルベクトル７０に関して議論されたものと再び等しい。

このように、スペクトルベクトル７３に関して、低帯域のスペクトル値の数はブロック７２の低帯域のスペクトル値の数に関して半分であり、そして、ブロック７３の高帯域値の数は、より高い時間分解能以外の低い周波数分解能を例示しているブロック７２の高帯域値の数に関する半分でもある。

それから、スペクトルベクトル７４で例示されるように、コピーアップ範囲はニューラルネットワークプロセッサ３０からパラメータ表現を用いて計測され、そして、特に、スケーリングブロック２３内のディープニューラルネットワーク３１から、ブロック７４は最終的に広帯域音声が得られるように、短いカーネルで再び時間領域に変換する。

すべての変換動作で、ＦＦＴ動作またはＭＤＣＴ動作、５０％の重複部分が実行される。このように、スペクトルベクトル７３と７４と一致している２つの１０ｍｓの時間フレームは、低いサンプリングレートの一つのスペクトルベクトル７０または高いサンプリングレートのスペクトルベクトル７１および７２と同じ時間範囲を構成する。

変換アルゴリズム２２または２４によって処理されるブロックの時間長は、図４のプロセッサ１７または１９によって処理されるブロックの時間長の１／２であることが好ましく、または、その代わりに、１／３、１／４、１／５などの関係であってもよい。このように、時間フレームは、必ずしも生信号生成器における手順が２０ｍｓ、生信号プロセッサ２０における手順が１０ｍｓである必要はない。その代わりに、例えば、生信号プロセッサ１０が１０ｍｓを使用する場合には、生信号プロセッサ２０が５ｍｓを使用するか、または、生信号生成器１０が４０ｍｓを使用する場合には、生信号プロセッサ２０が２０ｍｓ、１０ｍｓ、または５ｍｓを使用することができる。

さらに、図４に関して留意すべきことは、コンバータ２２の出力の低帯域がニューラルネットワーク３１に入力され、高帯域がスケーラ２３に転送され、逆周波数−時間コンバータ２４は、それにもかかわらず、図２ｅに図示されているように、ブロック３１にも入力された低帯域とスケーラ２３の出力での高帯域とを結合するであろうということである。当然のことながら、ＤＮＮプロセッサ３１のための低帯域もまた、ブロック１７の出力から到来することができ、または入力５０から直接到来することができる。一般に、生信号発生器に入力されるような特定の入力オーディオ信号がニューラルネットワークプロセッサに入力されるのではなく、低サンプリングレートにあるか高サンプリングレートにあるかにかかわらず、入力オーディオ信号の周波数範囲がニューラルネットワークプロセッサに入力される必要があるが、図４の実施形態では、高サンプリングレートの入力オーディオ信号の周波数範囲が、図４に図示された「ローバンド」としてニューラルネットワークプロセッサ３１に入力されることが好ましい。

図６は、生信号プロセッサ２０の好ましい実施形態を示す。生信号プロセッサは、生信号生成器１０から生信号を受信する生信号パワー推定器２５を構成する。次に、生信号パワー推定器は、生信号のパワーを推定し、この推定値をスケーリング係数計算機２７に転送する。スケーリング係数計算機２７には、ニューラルネットワークプロセッサから供給された広帯域信号の特定帯域のエネルギーの推定値などのパラメトリックデータを、対数または（）^1/3領域からパワー領域に変換するための領域コンバータ２６がさらに接続されている。次いで、スケーリング係数計算機２７は、各帯域についてスケーリング係数ｆ_bを計算し、この値をリニアコンバータ２８によって線形領域に変換し、次いで、生信号６０の実数または複素数値の振幅を、スケーリング係数を用いてブロック２９で図示されているようにスペクトル領域で動作する生信号スケーラによってスケーリングする。したがって、例えば、帯域内に５つの実数または複素数の振幅がある場合、それら５つの振幅はすべて、ブロック２８によって生成された同じ線形スケーリング係数によってスケーリングされ、このスケーリングは、ブロック２９において行われ、ブロック２９の出力においてスケーリングされた生信号を得るために行われる。このように、ある実施形態では、スケーリング係数計算機２７は、式（２）の計算を行い、生信号スケーラ２９は、ある実施形態では、式（１）の演算を行う。領域コンバータ２６の演算は、上記式（２）の分子内の指数関数によって行われ、ブロック２５によって行われる生信号パワー推定は、上記式（２）の分母内で行われる。

図６が概略スケッチを例示するだけである点に注意すべきであり、そして、それが式（２）に関してすでに討議したように当業者にとって明白である。、ブロック２５、２６、２７の機能は、式（２）で例示される一回の計算動作の範囲内で実行することができる。同時に、ブロック２８と２９の機能は、上記の式（１）に関して例示されるように、一回の計算の範囲内で実行されることができる。

図７は、図１のニューラルネットワークプロセッサ３０で使用されるような、特に図５のブロック３１で使用されるようなニューラルネットワークの好ましい実施形態を示す。好ましくは、ニューラルネットワークは、入力層３２と出力層３４と、特定の実施形態では、１つ以上の中間層３３とからなる。特に、ニューラルネットワークプロセッサ３０は、入力層３２において、入力オーディオ信号から導出されたスペクトログラムを受信するように構成されており、このスペクトログラムは、スペクトルフレームの時系列を含み、ここで、スペクトルフレームは、スペクトル値の数を有し、ニューラルネットワークは、出力層において、パラメトリック表現７０の個々のパラメータを出力する。特に、入力層３２に入力されるスペクトル値は、リニアスペクトル値、または、好ましくは、１．５と４．５の間のパワーを用いて処理されたパワースペクトル値、さらに好ましくは、２のパワー（パワー領域）または３のパワー（ラウドネス領域）を用いて処理されたパワースペクトル値、または、最も好ましくは、１．５と４．５の間のパワーを用いて処理されたパワースペクトル値、好ましくは２（パワー領域）または３（ラウドネス領域）のパワーを使用して処理されたパワースペクトル値であり、または最も好ましくは１．５と４．５の間のパワーを使用して処理されたパワースペクトル値を、対数関数のような圧縮関数、または()^1/3関数、または一般的に１．０よりも低いパワーを有する関数を使用して、ラウドネス領域または圧縮領域の値を有するように処理される。線形スペクトル値が実数／虚数（実数＋j 虚数）表現で与えられる場合、処理されたパワースペクトル値を得るための好ましい処理は、ｌｏｇ(ｒｅａｌ²＋ｉｍａｇ²)または(ｒｅａｌ²＋ｉｍａｇ²)^1/3であろう。

ある実施形態では、例えば図９ａまたは図９ｂに図示されているように、入力層のみ、または入力層と１つ以上の中間層は、畳込み層を構成し、畳込み層は、１つ以上の畳込みフィルタカーネルを構成し、ここで、２つは図９ａに図示されている。特に、図９ａでは、オーディオ信号のスペクトログラムは、時間が左から右に行き、周波数が上から下に行く２次元の形態で図示されている。

フレームｉのためのフィルタカーネルは、基本的な正方形として例示され、フィルタとしてフレームｉ＋１のためのカーネルが右側の正方形で例示され、そして、周波数ｆ＋１のためのフィルタカーネルが上側の小さい四角形で例示されることを示した。

基本層のための個々の畳込み層は第１の層であり、第２の層３３ａ，３３ｂも同様に図示されており、この実施形態では、畳込み層は、ＬＳＴＭ層３４のような少なくとも１つの回帰層に続いている。この層は、この態様では、既に出力層３４を表している。

さらに、図９ｂは、本実施形態では目標エンベロープ、または一般的にはスペクトル表現が８０で図示されている訓練状況を示しており、目標エンベロープと出力層３４によって行われるエンベロープ推定値との間の誤差は、この誤差を最小化することによって訓練成功率を高めるために使用される。

図１０は、更なるニューラルネットワークを例示する。出力層３４が畳込み層と、図１０の実施例において、第２の畳込み層であるという点で、図１０におけるニューラルネットワークは図９ｂにおけるニューラルネットワークと異なる。

さらに、入力層３２は、図９ｂに関して既に議論されているように、スペクトログラムを受信する層であり、入力層データは、第１の畳込み層３３の出力結果を生成するために動作する１つ以上の畳込みカーネルによって処理される。図１０の出力層３４である第２の畳込み層３４は、同時に、係数ｉの削除を実行する。これは、例えば、第２の畳込み層３４における時間指数ｉ＋１のデータが、第１の畳込み層３２のｉ＋１のデータと、ｉ−１およびｉ−３のデータとを用いて計算されることを意味する。

これに対応して、第２の畳込み層３４の時間指数ｉのデータは、第１の畳込み層の時間指数ｉのデータ、第１の畳込み層の時間指数ｉ−１のデータ、および第１の畳込み層の時間インデックスｉ−４のデータから計算される。このように、第１の畳込み層の特定の結果は、第２の畳込み層を計算する際にダウンサンプリングされるが、典型的には、第１の畳込み層からのすべてのデータは、図１０で議論され、図示されたインターリーブ処理により、最終的に第２の畳込み層の特定のデータを計算するために使用される。

図１０は、時間指数のみを図示しているが、周波数指数または周波数次元は、図１０には図示されていないことに留意されたい。周波数次元は、図１０の平面内に入るか、または図１０の平面外に出る。周波数処理に関して、層から層への次元の縮小もまた、最終的に、すなわち、最も高い畳込み層または出力層に関して、学習のための目標エンベロープを例示する層８０において、図１０の上部に図示されているように、または一般的に、学習のための目標スペクトル表現を例示する層８０において、誤差を最小化するために、目標パラメータと比較されるパラメータのセットのみが発生するように、実行されてもよい。

図１１は、２つの異なるＬＳＴＭセルで最も高いか「最後の」畳込み層３３ａと以降のＬＳＴＭ層との間での組合せを例示する。このように、図１１は、２つのＬＳＴＭセル、ＬＳＴＭ１, ＬＳＴＭ２が使われるときにＬＳＴＭ層はどのように見えるかという状況を例示する。このように、ＬＳＴＭセルを１つだけ持つ場合に比べて、ＬＳＴＭ層の次元が大きくなることがわかる。

実施形態では、回帰層内で動作する回帰層プロセッサは、ＩＩＲフィルタとして実装される。ＩＩＲフィルタのフィルタ係数は、ニューラルネットワークの訓練によって決定され、入力音声信号の過去の状況は、ＩＩＲフィルタの記憶状態によって反映される。このように、回帰プロセッサのＩＩＲ（無限インパルス応答）の性質により、過去に深くまで及ぶ情報、すなわち、現在のフレームよりも例えば３０秒または１分前のスペクトルフレームからの情報は、それにもかかわらず、現在の状況に影響を与える。

図１２は、入力層３２、２つの畳込み層３３ａ、３３ｂ、および上位ＬＳＴＭ層３３ｄからなるニューラルネットワークのさらなる実施形態を示す。しかしながら、先に説明したニューラルネットワークとは対照的に、出力層は、次元削減を実行するための、すなわち、入力層３２からの２次元の高次元を低次元、すなわち、時間フレームあたりのパラメトリック表現のパラメータ数が少ないものに削減するための、完全に結合された層である。さらに、図１３は、畳込み層の２次元入力または出力が、例えば３つの畳込みフィルタカーネルによって処理される場合を例示している。この場合、一方は、各層について、最終的に、加算器９０によって一緒に加算された複数の行列を受取り、その後、その結果は、再び、加算器９０のサンプルごとの加算操作によって単一の行列に圧縮された層出力を示す９３に示された単一の出力行列を生成するために、ＲＥＬＵ関数９２のような関数に入力され、各操作または追加の結果について、関数演算子９２による後続の関数処理が行われる。当然のことながら、関数演算子９２は、ニューラルネットワーク処理の技術分野で知られているように、ＲＥＬＵとは異なる任意の他の演算子であってもよい。

ＣＮＮは、目の中の受容野の組織に着想を得た多層パーセプトロンのバリエーションである。ＣＮＮ層は、訓練中に学習されたカーネル係数を持つフィルタカーネルの層である[１６]。ＣＮＮは完全に接続された層よりも局所的な依存性をより良く、より少ない学習可能な係数で利用することができる。フィルタカーネルの次元は原則として任意であるが，入力データの次元を超えてはならない。ここでは、２次元のフィルタカーネルが時間および周波数次元の入力スペクトログラムに畳込まれている。これらのフィルタは、スペクトルセントロイドやメル周波数ケプストラム係数のような特徴に似た信号の抽象的なパターンを検出することができる。

畳込み層の後に回帰層が続く。回帰層は、より長い時間依存性を学習するのに適する。回帰層にはさまざまなタイプがあり、ここではＬＳＴＭ層が最も優れた性能を示した。ＬＳＴＭは長い時間構造だけでなく短い時間構造も利用できる[１７]。ゲートリカレントユニット(ＧＲＵ)の層を使用しても、同様の性能を達成することができるが、わずかに性能が低下する[１８]。

ネットワークの最後の層は、線形出力機能を持つ完全に結合された層である。線形出力関数により、ネットワークは無制限の連続値を出力することができる。

ＤＮＮは、真の広帯域スペクトルのエネルギーと反復推定値との差を最小化することで、教師付きの方法で訓練される。このために、Ａｄａｇｒａｄ[１９]と呼ばれるミニバッチ確率的勾配降下アルゴリズム(ＳＧＤ)の変形版が使用された。標準的なＳＧＤと同様に、ネットワークパラメータは、定義済みの損失関数のローカル最小値に達するまで反復的に更新されるが、学習率を手動で調整する必要はない。

重要な点は、損失関数の定義である。システムは最終的に人間のリスナーによって判断されるので、知覚的に動機づけられた損失は有益である。さらに、学習はＫｅｒａｓ[２０]のようなディープラーニングライブラリを用いて行われ、そのため、損失とその導関数はＣＰＵやＧＰＵ上で効率的に計算できなければならない。この著作では、式３の対数は粗いラウドネスモデルを実装している。その利点は、誤差関数がユークリッド距離まで小さくなることである。式３の対数を()^1/3に置換えることも試みたが、非公式のリスニングでは効果が見られなかった。

提示されたシステムは、リアルタイムアプリケーションで使用されるべきであるので、もう一つの重要な側面として、ＤＮＮのアルゴリズム遅延がある。ＤＮＮは１フレームのフレーム増分で連結されたフレームで動作するため、遅延の主な原因は最初の畳込み層から来ている。遅延を可能な限り低く抑えるために、カーネルの時間次元を３に設定した。ＤＮＮは２のアップサンプリングと励起生成よりも短いフレームで動作するので、畳込み層はアルゴリズムの遅延を増さない。周波数方向では、カーネルは２５０Ｈｚをカバーする。他のカーネルサイズもテストしたが、性能は向上しなかった。

ＤＮＮのトレーニングの重要な側面の１つは、トレーニングセットの汎用性である。声道の非常に非線形な特性をモデル化するのに十分な大きさのモデルを構築するためには、トレーニングセットを大きくし、膨大な種類のデータ、すなわち、異なる言語の異なる話者が、異なる部屋で異なる録音機材を使って録音されたデータを含む必要がある。４００分に及ぶトレーニングセットは、一般に公開されている複数の音声コーパス[２１]と社内録音から編集されている。トレーニングセットには、以下の言語を含むネイティブの話し言葉が含まれている：ネイティブのアメリカ英語、アラビア語、中国語（北京語）、オランダ語、英語（イギリス）、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、イタリア語、日本語、韓国語、ポーランド語、ポルトガル語（ブラジル）、ロシア語、スペイン語（カスティーリャ語）、スウェーデン語。評価セットには、トレーニングセットの話者も、トレーニングセットで使用された録音セットアップも含まれておらず、長さは８分である。

さらに、ニューラルネットワーク処理のさらなる説明は、後述する。

最初の畳込み層の入力は、ｔが時間インデックス、ｆが周波数インデックスであるスペクトログラム行列Ｓ[ｔ，ｆ]である。Ｓは，あらかじめ定義されたカーネルサイズ（例えば，３×２）のフィルタカーネルｋで畳込まれる。Ｓを単一のフィルタカーネルで畳込むと，新しい行列Ｃが生成される。Ｃの１つのエントリは、以下のベクトル積の結果である。

ここで，シグマはある種の非線形関数，例えばＲＥＬＵである。パディングが使用されないので、行列Ｃの次元は、フィルタカーネルの大きさに応じて縮小される。

第２の畳込み層およびそれに続く畳込み層は、畳込み演算が遅延畳込みであるという違いをもって、第１の畳込み層と同様に動作する。遅延畳込みの入力は、前の層のダウンサンプリングされたバージョンである。数学的には：

ここでｎ，ｍが２，３．．．.のような正の整数値である。ｎ，ｍが１の場合、畳込み演算は単純な畳込み演算となる。

図１０は、１次元信号を用いた遅延畳込み処理の一例を示す図である。重要なのは、後続の２つのオーディオフレームｉ、ｉ＋１の処理である。この処理により、リアルタイムオーディオ動作に必要な低遅延処理が保証される。

前節で説明した畳込みは、Ｓの変換Ｆと見なすことができる。

残りの結合を追加すると、入力のバイパスを追加するだけで式(４)が変化する。

バイパスの利点は、Kaiming He：Deep Residual Learning for Image Recognition, 2015に記載されているように、訓練後のネットワークのパフォーマンスがはるかに優れていることである。

ＬＴＳＭ／ＧＲＵ層の動作は非常に単純で，単一フレームの畳込み層の出力ベクトルを入力とし、同じ次元の出力ベクトルを生成する：

その後、実施例における一つの音声フレームの処理が、記述される。

１つの音声フレームは以下の方法で処理される。
−現在のフレームと前のフレームのスペクトログラムに基づいて、第１の層の畳込み演算を実行する。
−前の層の出力に基づいて、次の層の遅延畳込み演算を行う。
−最後の畳込み層のフレームあたりの出力は，回帰（ＬＳＴＭ，ＧＲＵ）層に入力される１次元ベクトルである。
ＬＳＴＭ／ＧＲＵ層の出力は、欠落した信号のエンベロープの推定値であるか、または代替的に、最終的に欠落した信号のエンベロープを出力する１つ以上の完全に接続された層に入力される。

そのように、全部の構造のアルゴリズム的な遅れは、一つの音声フレームだけである。

単純な完全に接続された層のような他のＤＮＮ構造は、同様のことを行うために訓練されるかもしれないが、提示されたシステムほどの複雑さではないことを強調しなければならない。

信号の予測に使用されるＤＮＮには、２つのバリエーションがある。最初のものは上記の論文には記載されておらず、S. Bai et. Al.：An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling.に記載されている時間畳み込みネットワーク（ＴＮＣ）である。このネットワークは、削除と残りの結合を有する畳込みネットワークである。

第２の変形版は、ＬＴＳＭやＧＲＵのような１つまたは複数の回帰層に続く１つまたは複数の畳込み層で構成されるＤＮＮである。第１の層は、任意で１つ以上の畳込み層である。出力層（最後の層）の活性化関数は、推定されたパラメータの値範囲を表すことができる（例えば、無制限の範囲の値を推定するための線形関数、または正の値のためのＲＥＬＵ関数）。ＤＮＮはバックプロパゲーションまたは何らかの変形版（ADA grad ADAMなど）を用いて訓練され、誤差は元の信号への反復あたりの距離である。

その後、別のシステムについて評価を行う。このために、図８ａは、異なるＤＮＮ構成の性能を比較したものである。システムＯＰＴ（テストしたシステムの中で最適なシステム）は、２つの畳込み層（４つのカーネル）に続いて２つのＬＳＴＭ層（各１６ユニット）を持つ。システムＡは単一のＣＮＮ層(４カーネル)と単一のＬＳＴＭ層(１６ユニット)を持つ。システムＢはＣＮＮ層を持たず、２つのＬＳＴＭ層（３２と１６ユニット）を持つ。システムＣは２つのＣＮＮ層（各４カーネル）を持っている。

図８ｂは、データ量に依存する訓練集合（破線）と試験集合（実線）の誤差を示したものである。学習データが少ない（１００分以下）と、強いオーバーフィットが発生する。訓練データが４００分以上の場合には、オーバーフィットは解消される。

図８ｃは、９４％の信頼区間を持つＭＯＳ値として表示されたＡＣＲリスニングテストの結果を示している。テスト対象のコーデックは、左から順に、1) ダイレクトホワイトバンド、2) ダイレクトナローバンド、3-5) ＭＮＲＵ１０−３０ｄＢノイズ、6）ＡＭＲ−ＮＢ７．４ｋｂｐｓ、7）拡張を有するブラインド帯域を有するＡＭＲ−ＮＢ７．４ｋｂｐｓ、8）オラクルＢＷＥによるＡＭＲ−ＮＢ７．４ｋｂｐｓ、9）ＡＭＲ−ＮＢ１２．２ｋｂｐｓ、10）ＢＢＷＥによるＡＭＲ−ＮＢ１２．２ｋｂｐｓ、10）オラクルＢＷＥによるＡＭＲ−ＮＢ１２．２ｋｂｐｓである。

提示されたシステムは、客観的および主観的な試験によって評価された。まず、対数スペクトル歪（ＬＳＤ）を最大化することで、ネットワークの構造を最適化した。ＬＳＤは、線形予測係数の量子化に関して多くの出版物で使用されているよく知られた尺度であり、主観的知覚とよい相関がある。

ここで、は元の信号の上側帯域スペクトル、Ｘは予測された信号の上側帯域スペクトル、Ｎは上側帯域ビン数である。Ｍは評価に用いたフレーム数である。

図８ａは、異なるＤＮＮ構成の性能を比較したものである。最も性能の良いシステム（Ｏｐｔ）は、１層あたり４個のフィルタを持つ２つの畳込み層を持ち、続いて、各層に１６個のユニットを持つ２つのＬＳＴＭ層を持つ。システムＡは、４つのカーネルを持つ単一のＣＮＮ層と１６ユニットの単一のＬＳＴＭ層を持っている。システムＢはＣＮＮ層を全く持たず、２つのＬＳＴＭ層（３２，１６ユニット）を持つ。システムＣは２つのＣＮＮ層（１層あたり４つのフィルタカーネル）を持ち、ＬＳＴＭ層はない。ここでは、ＬＳＴＭ層が性能に最も大きな影響を与えることがわかる。ＬＳＴＭ層を持たないシステムは、ＬＳＴＭ層を持つシステムよりも性能が非常に悪い。畳込みレイヤの性能への影響は小さく、畳込みレイヤを持たないシステムでは、最高のシステムよりも０．５ｄＢだけ性能が低下する。

図８ｂは、訓練データの量が性能に与える影響を示している。小さな訓練セットは、訓練セットでは非常に良好な性能を発揮するが、未知のデータでは性能を発揮しないモデルにつながることがある。ここでは、４００分以上の訓練セットで、オーバーフィットがほとんどないモデルを作成するのに十分であることを示している。もちろん、これははるかに高い容量のモデルには一般化されないかもしれない。

表１は、ＡＭＲ−ＮＢで符号化された音声と符号化されていない音声のミスマッチの訓練セットとテストセットの性能を評価したものである。左の列はＡＭＲ−ＮＢでコード化された音声で訓練されたＤＮＮの性能を示し、右の列はコード化されていない音声で訓練されたＤＮＮの性能を示す。上段はＡＭＲ−ＮＢでコード化されたテストセット、下段はコード化されていないテストセットである。明らかに、ＡＭＲ−ＮＢでコード化された音声に対して訓練されたＤＮＮは、その逆よりも、コード化されていない音声に対してシステムが適用されるような状況では、より良い性能を発揮することがわかる。さらに、ＡＭＲ−ＮＢはほぼ半分のｄＢ性能を低下させる。

上記の表は、ＡＭＲ−ＮＢで符号化された音声（左列）と符号化されていない音声（右列）を用いて学習したＤＮＮの性能を、ＡＭＲ−ＮＢで符号化された音声（上段）と符号化されていない音声（下段）を用いて学習したテストセットで評価したものである。性能は対数スペクトル歪(log spectral distortion：ＬＳＤ)として示されている。

図８ｃは、ＡＣＲリスニングテストの結果を９５％信頼区間のＭＯＳ値で表示したものである。試験対象のコーデックは、左から順に、１) ダイレクトワイドバンド２) ダイレクトナローバンド３−５) ＭＮＲＵ１０−３０ｄＢノイズ６) ＡＭＲ−ＮＢ７．４ｋｂｐｓ７) ブラインド帯域幅拡張８による７．４ｋｂｐｓＡＭＲ−ＮＢ８) オラクルＢＷＥ９によるＡＭＲ−ＮＢ７．４ｋｂｐｓ９) ＡＭＲ−ＮＢ１２．２ｋｂｐｓ１０) ＢＢＷＥによるＡＭＲ−ＮＢ１２．２ｋｂｐｓ１０) オラクルＢＷＥによるＡＭＲ−ＮＢ１２．２ｋｂｐｓ

最後に、[４]と同様のテスト方法でリスニングテストを行い、提示されたシステムを評価した。このテストはAbsolute Category Rating (ＡＣＲ) テスト [２２]であり、ここでは何の参考もなしに刺激がリスナーに提示される。リスナーはその刺激を１から５までの尺度で評価する（平均意見スコア、ＭＯＳ）。２９名の未経験の聞き手がテストに参加し、テスト材料はバックグラウンドノイズのない女性と男性の発話を３０回録音したものを使用した。各録音は１つの文のペアを含み、長さは８秒であった。各条件は、女性３人と男性３人の話者の６つの異なる音声ファイルを用いてテストを行った。本試験が始まる前に、参加者が試験で体験する質の範囲に慣れるために、処理条件と話者が異なる６つの音声ファイルが提示された。

その結果、ＡＭＲ−ＮＢの品質を０．８ＭＯＳ(７ｋｂｐｓ)から０．９ＭＯＳ(１２．２ｋｂｐｓ)へと０．８ＭＯＳ向上させることで、提示された帯域拡張が効果を発揮することがわかった。また、１２．２ｋｂｐｓでのＢＢＷＥは、直接ＮＢ条件よりも有意に改善されている。とはいえ、オラクルＢＷＥの結果が示すように、まだまだ改善の余地がある。

ＡＭＲ−ＮＢの品質を０．８〜０．９ＭＯＳ向上させることができるブラインド帯域幅拡張が提示された。ＡＭＲ−ＮＢにアルゴリズムの遅延を追加することはない。また、複雑さも適度なので、モバイル機器にも実装可能である。異なるコアコーデックへの採用や、異なる帯域幅設定への再構成が容易に行える。

提案されたシステムの特定の実施形態の利点は以下の通りである。
−コアコーダが１０ミリ秒以上のフレームで動作する場合、追加のアルゴリズム遅延がない。
−ＤＮＮ構造が低複雑である
畳込み層と回帰層またはＴＮＣ層の組み合わせは、欠落信号の良い予測因子である。従って、システムの知覚された品質は、最新の状態のブラインド帯域幅拡張と比較して増加する。単純な完全結合層のような他のＤＮＮ構造は、同様のことを行うために訓練されるかもしれないが、提示されたシステムほどの複雑さではないことを強調しなければならない。

本願発明は、音声データ、音楽データ、または一般的なオーディオデータのようなあらゆる種類のオーディオデータのための完全にブラインド帯域幅拡張として適用することができるが、他の使用例が存在し、それは特に有用である。

有用なアプリケーションの１つは、図１４に図示されているようなオーディオ信号を処理するためのシステムである。図１４のシステムは、フレームで編成されたコアオーディオ信号をデコードするためのコアオーディオデコーダ１４０で構成されており、コアオーディオデコーダは、フレームの損失または誤ったフレームを示すエラー状況を検出するように構成されている。

さらに、コアオーディオデコーダは、エラー状況の代替フレームを得るためのエラー隠蔽動作を実行するように構成されている。さらに、図１４のシステムは、例えば、参照番号１００で示された図１に関して図示されているように、帯域幅エンハンサを構成する。次いで、帯域幅エンハンサは、典型的なローバンドフレームまたはコアオーディオデコーダ１４０から代替フレームとして提供された特定のホールを有するフレームから、帯域幅エンハンサされた代替フレームを生成する。このように、図１４に図示されたシステムは、ブラインド帯域幅拡張が隠蔽状況、すなわちフレームロスまたは誤りフレームが発生した場合にのみ実行される状況でのオーディオデコーダへの拡張である。ここで、オーディオコーデックは、非ブラインド帯域幅拡張または帯域幅拡張処理が全く行われず、提示されたシステムは、フレームロスのために欠落した信号の一部または欠落した信号全体を拡張または予測することができる。従って、コアオーディオデコーダは、例えば、代替フレームであるコア帯域のみのフレームを実行するように構成され、その後、ブラインド帯域拡張器は、フレーム損失状況のために生成された代替フレームを拡張するように構成されるであろう。

本願発明のさらなる実施形態が、図１５ａおよび図１５ｂに示されている。この使用例では、帯域幅拡張器１００は、完全なブラインド帯域幅拡張動作だけでなく、非ブラインド帯域幅拡張動作の構成要素にも使用される。この状況では、パラメトリック表現の粗い記述が第１の近似として使用され、この第１の近似は、後に何らかの種類のデルタ量子化によって改良される。このように、図１５ａに図示されたオーディオ信号を処理するためのシステムは、入力オーディオ信号と拡張周波数範囲のパラメトリックサイド情報を受信するための入力インターフェース１５０から構成される。さらに、帯域幅拡張器１００は、特に図１の生信号プロセッサ２０に関して、帯域幅増強されたオーディオ信号を生成するために、図１のニューラルネットワークプロセッサ３０によって提供されるパラメトリック表現に加えて、入力インターフェース１５０によって出力されるパラメトリックサイド情報を使用するように受信するように構成されている。

好ましい実施形態は、生信号プロセッサ２０が、そのパラメータ入力において、パラメトリック表現またはパラメータ７０を受信する様子を示す図１５ｂに示されている。生信号プロセッサ２０に関して以前に議論されたことに加えて、生信号プロセッサは、この実施形態では、追加的に、パラメータ増分器／減分器１６０を構成する。このパラメータ増分器／減分器１６０は、その入力として、例えば、パラメータ毎に１ビットのみからなる非常に低いビットレートのサイド情報などのパラメトリックサイド情報を受信する。次いで、パラメータ増分器／減分器１６０は、更新されたパラメータ、例えばＬｂ´を生成するために、パラメトリック表現１７のパラメータに対応するビットを適用し、この更新されたパラメータは、ニューラルネットワークプロセッサ３０から受信した「元の」パラメータの代わりに、図６に図示された要素２５〜２９のような生信号処理要素内で使用される。実施形態に応じて、各パラメータについて受信したビットは、パラメータ増分器／減分器１６０によって次のように解釈される。ビットが第１の値を有する場合には、ニューラルネットワークプロセッサから受信したパラメータが一定量だけインクリメントされ、ビットが他の値を有する場合には、インクリメントは適用されない。代替的な実施形態では、ブロック１６０は、ビットが第１の値を有するときに、所定のデクリメントによるパラメータのデクリメント動作を実行し、ビットが第２の値を有するときには、パラメータの変更を実行しない。代替的な実施形態では、ビットの第１の値は、ビットが他の状態を有するときに、所定のインクリメント値によるインクリメント動作を実行し、所定の所定のデクリメント値によるデクリメント動作を実行するように解釈される。

他の手順は、例えば、追加のインクリメントまたは特定のインクリメント値を信号化することができるように、各パラメータごとに２ビット以上のサイド情報を使用して実行することができる。しかしながら、この実施形態では、パラメータ表現におけるパラメータの特定のグループまたはパラメータ表現におけるすべてのパラメータに対して１ビットのみを使用するか、またはビットレートを低く保つために、パラメータごとにせいぜい２ビットのみのそのようなビットを使用することが好ましい。

ビットを計算するために、エンコーダ側でも同じように訓練されたニューラルネットワークが動作しており、エンコーダ側では、デコーダ側で行われるのと同じようにニューラルネットワークからパラメトリック表現を計算し、エンコーダ側では、パラメトリック表現のインクリメントかデクリメントか変更なしかを決定し、パラメトリック表現のインクリメントかデクリメントか変更なしかが、結果的に元の信号に対して復号化された信号の誤差が低いパラメータ値になるかどうかを決定している。

本願発明は、いくつかの実施形態で記載されてきたが、本願発明の範囲内に入る変更、置換、および均等物が存在する。また、本発明の方法および組成物を実施するための多くの代替方法が存在することにも留意すべきである。したがって、以下の添付の請求項は、本発明の真の精神および範囲内に収まるそのようなすべての変更、置換および均等物を含むものと解釈されることが意図される。

いくつかの態様が装置の文脈で記述されてきたが、これらの側面はまた、ブロックまたは装置が方法ステップまたは方法ステップの特徴に対応する、対応する方法の記述を表していることは明らかである。同様に、方法ステップの文脈で記述された側面はまた、対応するブロックまたはアイテムまたは対応する器具の特徴の記述を表す。方法ステップの一部または全部は、例えば、マイクロプロセッサ、プログラマブルコンピュータ、または電子回路のようなハードウェア装置によって（またはそれを使用して）実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのうちのいくつかの１つ以上は、そのような装置によって実行されてもよい。

本願発明の符号化画像信号は、デジタル記憶媒体に記憶されてもよいし、あるいは、無線伝送媒体やインターネットなどの有線伝送媒体などの伝送媒体で伝送されてもよい。

特定の実施要件に応じて、本願発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。実施形態は、そこに記憶された電子的に読取可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）デジタル記憶媒体、例えばフロッピーディスク（フロッピーは登録商標）、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＥＰＲＯＭまたはＦＬＡＳＨメモリを使用して実施することができる。従って、デジタル記憶媒体は、コンピュータ読取可能であってもよい。

本願発明に従ういくつかの実施形態は、本明細書に記載された方法のうちの１つが実行されるように、プログラマブルコンピュータシステムと協働することが可能な、電子的に読取可能な制御信号を有するデータ担体を構成する。

一般に、本願発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、方法のうちの１つを実行するために作動可能である。プログラムコードは、例えば、機械読取可能な担体に格納されていてもよい。

他の実施形態は、機械読取可能な担体に格納された、本明細書に記載された方法のうちの１つを実行するためのコンピュータプログラムからなる。

換言すれば、本願発明の方法の一実施形態は、従って、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載された方法のいずれかを実行するためのプログラムコードを有するコンピュータプログラムである。

従って、本願発明の方法のさらなる実施形態は、本明細書に記載された方法のうちの１つを実行するためのコンピュータプログラムが記録された、データ担体（またはデジタル記憶媒体、またはコンピュータ読取可能な媒体）からなる。データ担体、デジタル記憶媒体、または記録媒体は、典型的には有形および／または非移行性である。

従って、本願発明の方法の更なる実施形態は、本明細書に記載された方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続、例えばインターネット、を介して転送されるように構成されてもよい。

更なる実施形態は、本明細書に記載されている方法のうちの１つを実行するように構成されているか、または適合されている処理手段、例えばコンピュータまたはプログラマブルロジックデバイスからなる。

更なる実施形態では、本明細書に記載されている方法の一つを実行するためのコンピュータプログラムがインストールされているコンピュータから構成されている。

本願発明に従ったさらなる実施形態は、本明細書に記載された方法の１つを実行するためのコンピュータプログラムを（例えば、電子的または光学的に）レシーバに転送するように構成された装置またはシステムからなる。レシーバは、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えば、コンピュータプログラムをレシーバに転送するためのファイルサーバを構成してもよい。

いくつかの実施形態では、プログラム可能な論理デバイス（例えば、フィールドプログラマブルゲートアレイ）が、本明細書に記載された方法の機能の一部または全部を実行するために使用されてもよい。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法のうちの１つを実行するためにマイクロプロセッサと協働してもよい。一般に、方法は、好ましくは、任意のハードウェア装置によって実行される。

本明細書に記載された装置は、ハードウェア装置を用いて実施してもよいし、コンピュータを用いて実施してもよいし、ハードウェア装置とコンピュータの組み合わせを用いて実施してもよい。

本明細書に記載された方法は、ハードウェア装置を使用するか、コンピュータを使用するか、ハードウェア装置とコンピュータとの組合せを使用して実行することができる。

参考文献
[1] Patrick Bauer, Rosa-Linde Fischer, Martina Bellanova, Henning Puder, and Tim Fingscheidt, "On improving telephone speech intelligibility for hearing impaired persons," in Proceedings of the 10. ITG Conference on Speech Communication, Braunschweig, Germany, September 26-28, 2012, 2012, pp. 1-4
[2] Patrick Bauer, Jennifer Jones, and Tim Fingscheidt, "Impact of hearing impairment on fricative intelligibility for artificially bandwidth-extended telephone speech in noise," in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2013, Vancouver, BC, Canada, May 26-31, 2013, pp. 7039-7043.
[3] Stefan Bruhn, Harald Pobloth, Markus Schnell, Bernhard Grill, Jon Gibbs, Lei Miao, Kari Jaervinen, Lasse Laaksonen, Noboru Harada, N. Naka, Stephane Ragot, Stephane Proust, T. Sanda, Imre Varga, C. Greer, Milan Jelinek, M. Xie, and Paolo Usai, "Standardization of the new 3GPP EVS codec," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 5703-5707
[4] Johannes Abel, Magdalena Kaniewska, Cyril Guillaume, Wouter Tirry, Hannu Pulakka, Ville Myllylae, Jari Sjoberg, Paavo Alku, Itai Katsir, David Malah, Israel Cohen, M. A. Tugtekin Turan, Engin Erzin, Thomas Schlien, Peter Vary, Amr H. Nour-Eldin, Peter Kabal, and Tim Fingscheidt, "A subjective listening test of six different artificial bandwidth extension approaches in English, Chinese, German, and Korean," in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2016, Shanghai, China, March 20-25, 2016, 2016, pp. 5915-5919.
[5] Peter Jax and Peter Vary, "Wideband extension of telephone speech using a hidden markov model," in 2000 IEEE Workshop on Speech Coding. Proceedings., 2000, pp. 133-135.
[6] Patrick Bauer, Johannes Abel, and Tim Fingscheidt, "Hmm-based artificial bandwidth extension supported by neural networks," in 14th International Workshop on Acoustic Signal Enhancement, IWAENC 2014, Juan-les-Pins, France, September 8-11, 2014, 2014, pp. 1-5.
[7] Hannu Pulakka and Paavo Alku, "Bandwidth extension of telephone speech using a neural network and a filter bank implementation for highband mel spectrum," IEEE Trans. Audio, Speech & Language Processing, vol. 19, no. 7, pp. 2170-2183, 2011.
[8] Kehuang Li and Chin-Hui Lee, "A deep neural network approach to speech bandwidth expansion," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 4395-4399.
[9] Yu Gu, Zhen-Hua Ling, and Li-Rong Dai, "Speech bandwidth extension using bottleneck features and deep recurrent neural networks," in Interspeech 2016, 17th Annual Conference of the International Speech Communication Association, San Francisco, CA, USA, September 8-12, 2016, 2016, pp. 297-301.
[10] Yu Gu and Zhen-Hua Ling, "Waveform modeling using stacked dilated convolutional neural networks for speech bandwidth extension," in Interspeech 2017, 18th Annual Conference of the International Speech Communication Association, Stockholm, Sweden, August 20-24, 2017, 2017, pp. 1123-1127.
[11] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew W. Senior, and Koray Kavukcuoglu, "Wavenet: A generative model for raw audio," in The 9th ISCA Speech Synthesis Workshop, Sunnyvale, CA, USA, 13-15 September 2016, 2016, p. 125.
[12] Sascha Disch, Andreas Niedermeier, Christian R. Helmrich, Christian Neukam, Konstantin Schmidt, Ralf Geiger, Jeremie Lecomte, Florin Ghido, Frederik Nagel, and Bernd Edler, "Intelligent gap filling in perceptual transform coding of audio," in Audio Engineering Society Convention 141, Los Angeles, Sep 2016.
[13] Martin Dietz, Lars Liljeryd, Kristofer Kjorling, and Oliver Kunz, "Spectral band replication, a novel approach in audio coding," in Audio Engineering Society Convention 112, Apr 2002.
[14] Konstantin Schmidt and Christian Neukam, "Low complexity tonality control in the intelligent gap filling tool," in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2016, Shanghai, China, March 20-25, 2016, 2016, pp. 644-648.
[15] Hugo Fastl and Eberhard Zwicker, Psychoacoustics: Facts and Models, Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.
[16] Yann Lecun, Leon Bottou, Yoshua Bengio, and Patrick Haffner, "Gradient-based learning applied to document recognition," Proceedings of the IEEE, vol. 86, no. 11, pp. 2278- 2324, Nov 1998.
[17] Sepp Hochreiter and Juergen Schmidhuber, "Long short-term memory," Neural Computation, vol. 9, no. 8, pp. 1735-1780, 1997.
[18] Junyoung Chung, Caglar Guelcehre, KyungHyun Cho, and Yoshua Bengio, "Empirical evaluation of gated recurrent neural networks on sequence modeling," NIPS Deep Learning workshop, Montreal, Canada, 2014.
[19] John C. Duchi, Elad Hazan, and Yoram Singer, "Adaptive subgradient methods for online learning and stochastic optimization," in COLT 2010 - The 23rd Conference on Learning Theory, Haifa, Israel, June 27-29, 2010, 2010, pp. 257-269.
[20] Francois Chollet et al., "Keras 1.2.2," https://github. com/fchollet/keras, 2015.
[21] Vassil Panayotov, Guoguo Chen, Daniel Povey, and Sanjeev Khudanpur, "Librispeech: An ASR corpus based on public domain audio books," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 5206-5210.
[22] ITU-T, "ITU-T recommendation P.800. methods for objective and subjective assessment of quality," 1996.
[23] ITU-T, "ITU-T recommendation P.810. modulated noise reference unit (MNRU)," 1996.

この発明は、音声処理及び、特に、帯域の拡張又はインテリジェントギャップ充填のようなオーディオ信号のための帯域幅拡張技術として利用できる。

Claims

入力オーディオ信号周波数範囲を有する入力オーディオ信号（５０）から帯域幅拡張オーディオ信号を生成するための装置であって、
拡張周波数範囲を有する生信号（６０）を生成するように構成された生信号生成器（１０）であって、前記拡張周波数範囲は前記入力オーディオ信号周波数範囲に含まれない、生信号生成器（１０）と、
前記入力オーディオ信号の前記入力オーディオ周波数範囲及び学習済みのニューラルネットワーク（３１）を用いて前記拡張周波数範囲のためのパラメトリック表現（７０）を生成するように構成されたニューラルネットワークプロセッサ（３０）と、
前記拡張周波数領域のための前記パラメトリック表現（７０）を用いて前記生信号（６０）を処理して、前記拡張周波数範囲に周波数コンポーネントを有する処理済生信号（８０）を得るための生信号プロセッサ（２０）とを備え、
前記処理済生信号（８０）または前記処理済生信号及び前記入力オーディオ信号の前記入力オーディオ信号周波数範囲は、前記帯域幅拡張オーディオ信号を表す、装置。
前記生信号生成器（１０）は、
第１の調性を有する初期生信号を生成し（１１ａ）、
前記初期生信号をスペクトル白色化処理して（１１ｂ）、前記初期生信号、前記第１の調性よりも低い第２の調性を有する前記生信号を得るように構成される、請求項１に記載の装置。
前記生信号生成器（１０）は、第１の時間分解能（１２）を用いて前記初期生信号のスペクトル白色化処理を実行する、または第１の時間分解能を用いて前記生信号（６０）を生成するように構成される、あるいは前記生信号生成器（１０）は、第１の周波数分解能（１２）を用いて初期生信号のスペクトル白色化処理を実行する、または第１の周波数分解能を用いて前記生信号（６０）を生成するように構成され、
前記ニューラルネットワークプロセッサ(３０)は前記第１の時間分解能より高い第２の時間分解能で前記パラメトリック表現を生成する（３２）ように構成される、または、前記ニューラルネットワークプロセッサ（３０）は、前記第１の周波数分解能より低い第２の周波数分解能で前記パラメトリック表現を生成する（３２）ように構成され、
前記生信号プロセッサ（２０）は、前記処理済生信号（８０）を得るために、前記第２の時間分解能または周波数分解能を有する前記パラメトリック表現を使用して（２２）前記生信号を処理するように構成される、請求項１または請求項２に記載の装置。
前記生信号生成器（１０）は、前記入力オーディオ信号のスペクトル部分を前記拡張周波数範囲にパッチ処理するためのパッチャ（１８）を備え、前記パッチ処理は１回のパッチ処理動作または複数のパッチ処理動作を含み、前記複数のパッチ処理動作において、前記入力オーディオ信号の特定のスペクトル部分が、前記拡張周波数範囲の２つ以上のスペクトル部分にパッチされる、請求項１〜３のいずれか１項に記載の装置。
前記生信号プロセッサ（２０）は、入力信号をスペクトル表現に変換するための時間−周波数コンバータ（１７）であって、前記スペクトル表現はスペクトルフレームの時系列を含み、スペクトルフレームはスペクトル値を有する、時間−周波数コンバータ（１７）を具備し、
前ニューラルネットワークプロセッサ（３０）は、前記スペクトルフレームを前記学習済みニューラルネットワーク（３１）に供給する、または前記スペクトルフレームを処理して（３２）、前記スペクトル値が１．５と４．５の間の出力を有し、好ましくは２または３の出力を有する出力領域に変換される処理済みスペクトルフレームが得られるように構成され、
前記ニューラルネットワーク（３１）は前記出力領域に関するパラメトリック表現を出力するように構成され、
前記生信号プロセッサ（２０）は、前記パラメトリック表現を線形領域に変換し（２６）、前記線形領域のパラメトリック表現をスペクトルフレームの前記時系列に適用する（２７）ように構成される、
請求項１〜４のいずれか１項に記載の装置。
前記ニューラルネットワークロセッサ（３０）は前記パラメトリック表現（７０）を、０．９未満の出力を関連付けた対数表現または圧縮表現で出力するように構成され、
前記生信号プロセッサ（２０）は、前記対数表現または前記圧縮表現からの前記パラメトリック表現を線形表現に変換する（２６）ように構成される、
請求項１〜５のいずれか１項に記載の装置。
前記生信号生成器（１０）は、
前記入力オーディオ信号をスペクトルフレームの系列に変換するための時間−周波数コンバータ（１７）であって、スペクトルフレームの系列は値の系列を有する、時間−周波数コンバータ（１７）と、
前記時間−周波数コンバータ（１７）の出力を用いてそれぞれのスペクトルフレームのためのパッチ処理済信号を生成するためのパッチャ（１８）と、
それぞれのスペクトルフレームのための前記パッチ処理済信号をスペクトルに白色化処理するため、または前記パッチャによるパッチ処理動作を実行する前に、前記時間−周波数コンバータ（１７）からの対応する信号を白色化処理するための白色化処理ステージ（１１ｂ）と、
パッチ処理済みかつスペクトル白色化処理済みのフレームを含むフレームの系列を時間領域に変換して、前記生信号（６０）を得るための周波数−時間コンバータ（１９）であって、前記周波数−時間コンバータは前記増強周波数範囲に適応させるように構成される、周波数−時間コンバータ（１９）とを備えた、請求項１〜６のいずれか１項に記載の装置。
前記原生号プロセッサ内の白色化処理ステージ（１１ｂ）は、
スペクトルフレーム又はスペクトルフレームの出力表現（１３）をローパスフィルタ処理して、前記スペクトルフレームのためのエンベロープ推定を得るためローパスフィルタと、
前記エンベロープ推定によって前記スペクトルフレームを除算して、白色化処理済み信号を計算する（１６）ための計算機であって、前記エンベローブが前記出力表現から導出される場合、分割器はスペクトル値（１５）のための線形加重係数を計算して前記スペクトル値を前記線形加重係数によって除算する、計算機とを備えた、請求項１〜７のいずれか１項に記載の装置。
前記生信号プロセッサ（２０）は、前記入力信号または前記入力信号から導出した信号および前記生信号（６０）をスペクトル表現に変換するための時間−周波数コンバータ（２４）を備え、
前記ニューラルネットワークプロセッサ（３０）は、前記入力オーディオ信号周波数範囲のスペクトル表現を受信するように構成され、
前記生信号プロセッサ（２０）は、前記入力オーディオ信号周波数範囲のスペクトル表現に応答して前記ニューラルネットワークプロセッサ（３０）が提供する前記パラメータ表現（７０）を前記生信号（６０）の前記スペクトル表現に適用するためのスペクトルプロセッサ（２３）を備え、
前記生信号プロセッサ（２０）はさらに、前記生信号の処理済みのスペクトル表現を前記時間領域に変換するための周波数−時間コンバータ（２４）をさらに備え、
前記装置は、前記入力オーディオ信号周波数範囲の前記処理済みのスペクトル表現と前記スペクトル表現を供給することによって、または前記時間領域において、前記入力オーディオ信号周波数範囲の時間表現と前記処理済の生信号（８０）の時間表現とを結合することによって、前記処理済み生信号と前記入力オーディオ信号周波数範囲の結合を実行するように構成される、請求項１〜８のいずれか１項に記載の装置。
前記ニューラルネットワークプロセッサ（３０）は、入力層（３２）と出力層（３４）とを備えるニューラルネットワーク（３１）を備え、前記ニューラルネットワークプロセッサは、前記入力層において、前記入力オーディオ信号から導出されたスペクトログラムを受信するように構成され、前記スペクトログラムはスペクトルフレームの時系列を含み、スペクトルフレームは多数のスペクトル値を有し、また出力層では、前記パラメトリック表現（７０）の個々のパラメータを出力するように構成され、
前記スペクトル値は、一次スペクトル値、または１．５〜４．５の間の出力を用いて処理された出力スペクトル値、または処理済みの出力値であって、前記処理は対数係数または出力１未満の出力係数を使用した圧縮を含む、請求項１〜９のいずれか１項に記載の装置。
前記入力層（３２）または１つ以上の中間層（３３）は、１つ以上の畳込みカーネルを含む畳込み層として形成され、畳込みカーネルは前記スペクトルフレームの時系列内の少なくとも２つの異なるフレームから多数のスペクトル値の畳込み処理を実行するように構成される、請求項１０に記載の装置。
前記畳込みカーネルは、フレームごとにつき第１の数のスペクトル値と前記フレームの時系列内のフレームの第２の数を伴う二次元の畳込み処理を実行するように構成され、前記第１の数と前記第２の数とは２以上１０未満である、請求項１１に記載の装置。
前記入力層（３２）または第１の前記中間層（３３）は周波数において隣接しかつ時間において隣接する少なくとも１つのカーネル処理スペクトル値を含み、
前記ニューラルネットワーク（３１）はさらに、時間指数に関して、層のスタックの中の前の層の１つおきの結果すべてまたは２つおきの結果すべてのみが前記畳込み層によって入力として受信されるように、削除関数に基づいて動作する中間畳込み層（３３ｂ）を含む、
請求項１１または１２に記載の装置。
前記ニューラルネットワークは、前記出力層（３４）として、または前記出力層（３４）に加えて、回帰層を含み、前記回帰層は、時間指数のために畳込み層の出力ベクトルを受信し、メモリを有する回帰層機能を用いて出力ベクトルを受信する、請求項１０〜１３のいずれか１項に記載の装置。
前記回帰層は、長／短期記憶（ＬＳＴＭ）機能を含む、またはゲート付き回帰型ユニット（ＧＲＵ）機能を含む、またはＩＩＲフィルタ機能である、
請求項１４に記載の装置。
前記入力層（３２）または１つ以上の中間層（３３）は、計算するために、それぞれの入力について、回帰層の回帰機能を用いる出力を含み、前記回帰層は、少なくとも一群の出力は前記回帰機能の出力と前記回帰機能への入力との線形結合であるような残差結合を含む、請求項１０〜１５のいずれか１項に記載の装置。
前記出力層は、１つ以上の全結合層を含み、前記全結合層又は最も高い全結合層は、出力において、前記生信号の現在の時間フレームのための前記パラメトリック表現のパラメータを供給し、また前記全結合層は、その入力において、前記現在の時間フレームのための入力層又は中間層の出力値を受信するように構成される、請求項１０〜１６のいずれか１項に記載の装置。
前記入力層（３２）または中間層（３３）は、整数の時間指数のそれぞれについて出力データベクトルを有する回帰層であり、
前記ニューラルネットワーク（３１）はさらに、消去された回帰処理のための１つ以上のカーネルを有する追加の回帰層を含み、
前記追加の回帰層のための１つ以上のカーネルは、時間指数のための出力ベクトルを計算するために、時間指数のための前記入力層または前記中間層から、１つ以上の整数値分互いに異なる少なくとも２つのデータベクトルを受信し、
次の時間指数のための出力ベクトルを計算するために、前記１つ以上のカーネルは、前記時間指数からインターリーブされている別の時間指数のための前記入力層または前記中間層から、少なくとも２つのデータベクトルを受信する、
請求項１０〜１７のいずれか１項に記載の装置。
前記ニューラルネットワークは、
現在の時間指数に相当する、前記入力オーディオ信号の前記入力オーディオ信号周波数範囲を含む現在のフレームを受信するための入力層としての第１の回帰層であって、前記第１の回帰層は１つ以上の前のフレームをさらに使用するように構成される第１の回帰層と、
前記第１の回帰層の出力を受信するための少なくとも１つの第２の回帰層であって、前記少なくとも１つの第２の回帰層は拡張回帰動作を実行して現在の時間指数のためのベクトルを得るように構成される、少なくとも１つの第２の回帰層と、
前記現在の時間指数に先行する少なくとも５個の時間指数をカバーするメモリ機能をもたらす回帰機能を使用して、前記現在の時間指数のための前記ベクトルを処理するための、少なくとも１つの回帰層とを含み、
前記回帰層は前記出力層（３４）を形成する、または前記出力層（３４）は回帰層の出力を受信し、前記パラメトリック表現（７０）のパラメータを出力する全結合層である、
請求項１０〜１８のいずれか１項に記載の装置。
前記パラメトリック表現（７０）は、複数の拡張周波数範囲帯域のそれぞれの帯域のためのスペクトルエンベローブ値を有し、前記複数の拡張周波数範囲帯域は全体で前記拡張周波数範囲を形成し、
各々の拡張周波数帯域は少なくとも２つのスペクトル値を含み、
前記生信号プロセッサは、拡張周波数範囲帯域のためスペクトルエンベローブ値を使用して、前記拡張周波数範囲帯域において、前記生信号の少なくとも２つのスペクトル値をスケーリングする（２７、２３）ように構成される、請求項１〜１９のいずれか１項に記載の装置。
前記スペクトルエンベローブ値は、前記スペクトルエンベローブ値が関連付けられている前記拡張周波数帯域の絶対エネルギーの大きさを示し、
前記生信号プロセッサ（２０）は、前記拡張周波数範囲帯域内の前記生信号のエネルギーの大きさを計算する（２５）ように構成され、
前記生信号プロセッサ（２０）は、前記絶対エネルギーの大きさを使用して振幅値をスケーリングして（２７）、前記拡張周波数帯域内のスケーリングされた前記スペクトル値が前記絶対エネルギーの大きさによって示されるエネルギーを有するように構成される、請求項２０に記載の装置。
前記生信号プロセッサ（２０）は、前記拡張周波数帯域の信号のエネルギーの大きさから、および、前記パラメトリック表現（７０）から導出された前記拡張周波数範囲帯域の絶対エネルギーの大きさからスケーリング係数を計算する（２７）ように構成される、請求項２１に記載の装置。
前記オーディオ信号周波数範囲は狭帯域周波数範囲であり、
前記拡張周波数範囲は、前記狭帯域周波数範囲における最大周波数より大きい周波数を有する、請求項１〜２３のいずれか１項に記載の装置。
前記ニューラルネットワークプロセッサ（３０）は、調性パラメータ、時間エンベローブパラメータ、スペクトルエンベローブパラメータ、スケーリング係数帯域エネルギーのセット、分布量子化値のセットまたはエネルギーおよび傾斜パラメータを含むパラメータ群のうちの少なくとも１つのパラメータをパラメータとして提供するように構成され、
前記生信号プロセッサ（２０）は、前記パラメータを前記生信号（６０）に適応して前記処理済み生信号（８０）を得るように構成される、請求項１〜２４のいずれか１項に記載の装置。
オーディオ信号を処理するためのシステムであって、
フレームに編成されたコアオーディオ信号を復号化するためのコアオーディオデコーダ（１４０）であって、前記コアオーディオデコーダ（１４０）はフレーム損失又はエラーフレームを伴うエラー状況を検出するように構成され、
前記コアオーディオデコーダ（１４０）はエラー隠蔽動作を実行して前記エラー状況のために代替フレームを得るように構成される、コアオーディオデコーダ（１４０）と、
請求項１〜２５のいずれか１項に記載の装置（１００）であって、前記装置（１００）は前記代替フレームを、前記入力信号として、かつ前記エラー状況のための帯域幅拡張オーディオ信号を生成するために使用するように構成される、システム。
オーディオ信号を処理するためのシステムであって、
入力オーディオ信号と拡張周波数範囲のためのパラメトリックサイド情報を受信するための入力インターフェース（１５０）と、
請求項１〜２５のいずれか１項に記載の帯域幅拡張オーディオ信号を生成するための装置（１００）と、を備え、
前記生信号プロセッサ（２０）は、前記帯域幅拡張オーディオ信号を生成するために、前記ニューラルネットワークプロセッサ（３０）が提供する前記パラメトリック表現（７０）に加えて、前記パラメトリックサイド情報を使用するように構成される、システム。
前記パラメトリックサイド情報は、前記ニューラルネットワークプロセッサ（３０）が提供するパラメータに関連付けられた１つのビットを含み、
前記生信号プロセッサ（２０）は、特定のパラメータのための前記ビットの値に従った増加によって、前記ニューラルネットワークプロセッサ（３０）が提供するパラメータを修正する（１６０）ように構成される、請求項２７に記載のシステム。
入力オーディオ信号周波数範囲を有する入力オーディオ信号（５０）から帯域幅拡張オーディオ信号を生成する方法であって、前記方法は、
拡張周波数範囲を有する生信号（６０）を生成するステップ（１０）であって、前記拡張周波数範囲は前記入力オーディオ信号周波数範囲に含まれない、生成するステップと、
前記入力オーディオ信号の前記入力オーディオ周波数範囲と学習済みニューラルネットワーク（３１）を使用して、前記拡張周波数範囲のためのパラメトリック表現（７０）を生成するステップ（３０）と、
前記拡張周波数範囲のための前記パラメトリック表現（７０）を使用して前記生信号（６）を処理して、前記拡張周波数範囲に周波数成分を有する処理済みの生信号（８０）を得るステップと、を含み、
前記処理済みの生信号（８０）または前記処理済みの生信号と前記入力オーディオ信号の前記入力オーディオ信号周波数範囲は、前記帯域幅拡張オーディオ信号を表す、方法。
オーディオ信号を処理するための方法であって、
フレームに編成されたコアオーディオ信号を復号化するステップ（１４０）であって、前記コアオーディオデコーダ（１４０）はフレームロスまたはエラーフレームを伴うエラー状況を検出するように構成され、
前記復号化するステップ（１４０）は、エラー隠蔽動作を実行してエラー状況のための代替フレームを取得する、復号化するステップ（１４０）と、
請求項２９に記載の方法（１００）であって、前記方法（１００）は前記代替フレームを入力された音声信号として使用して、前記エラー状況のための前記帯域幅拡張オーディオ信号を生成する、請求項２９記載の方法（１００）を含む、方法。
オーディオ信号を処理する方法であって、
入力オーディオ信号と拡張周波数範囲のためのパラメトリックサイド情報を受信するステップ（１５０）と、
請求項２９に記載の方法に従って帯域幅拡張オーディオ信号を生成するステップ（１００）とを含み、
前記生信号を処理するステップ（２０）は、前記ニューラルネットワーク（３１）が提供するパラメトリック表現（７０）に加えてパラメトリックサイド情報を使用して、前記帯域幅拡張オーディオ信号を生成するステップ、を含む、方法。
コンピュータまたはプロセッサ上で動作するときに、請求項２９〜３１のいずれか１項に記載の方法を実行するためのコンピュータプログラム。