JP2023009622A

JP2023009622A - １つ以上の畳み込みネットワークおよび／またはリカレントネットワークを使用したエンドツーエンドの敵対的ブラインド帯域幅拡張のための装置および方法

Info

Publication number: JP2023009622A
Application number: JP2021113056A
Authority: JP
Inventors: シュミット，コンスタンティン; Schmid Konstantin; ムスタファマフムートアフマド，アフマド; Mustafa Mahmut Ahmad Ahmad; フックス，ギヨーム; Fuchs Guillaume; エドラー，ベルント; Edler Bernt
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2023-01-20
Also published as: JP2023175767A

Abstract

【課題】狭帯域音声入力信号の帯域拡張を実行することによって狭帯域音声入力信号を処理して広帯域音声出力信号を得る装置を提供する。【解決手段】狭帯域音声入力信号を処理して広帯域音声出力信号を得るための装置は、狭帯域音声入力信号の信号包絡線の複数のサンプルを入力とし、複数の外挿された信号包絡線のサンプルを出力とする第１のニューラルネットワーク（１２５）を含む信号包絡線外挿器（１２０）と、狭帯域音声入力信号の励起信号の複数のサンプルを入力とし、複数の外挿された励起信号サンプルを出力する励起信号外挿部器（１３０）と、広帯域音声出力信号が、複数の外挿された信号包絡線のサンプルおよび複数の外挿された励起信号サンプルに依存して、狭帯域音声入力信号に対して帯域幅を拡張するように、広帯域音声出力信号を生成するコンバイナ（１４０）とを含む。【選択図】図１

Description

特許法第３０条第２項適用申請有りウェブサイトの掲載日：令和２年１２月１８日ウェブサイトのアドレス：ｈｔｔｐｓ：／／ｉｅｅｅｘｐｌｏｒｅ．ｉｅｅｅ．ｏｒｇ／ｄｏｃｕｍｅｎｔ／９２８７４６５

明細書
本発明は、１つ以上の畳み込みネットワークおよび／またはリカレントネットワークを使用したエンドツーエンドの敵対的ブラインド帯域幅拡張のための装置および方法に関する。

音声コミュニケーションは、ほとんどの人が毎日使用している技術であり、ＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）や携帯電話、公衆交換電話のネットワークを介して送信する必要のある膨大な量のデータを作成している。２０１７年のＯＦＣＯＭの調査によると、１契約あたり毎月平均１５６．７５分の携帯電話への発信が行われている（https://www.ofcom.org.uk/research-and-data/multi-sector-research/cmr/cmr-2018/interactiveを参照）。

転送されるデータ量は少なくても、音声の質は高いことが望まれる。この目標を達成するために、音声圧縮技術は過去数十年にわたって、単純なパルス符号変調［１］による帯域制限音声の圧縮から、全帯域音声をコーディングできる音声生成および人間の知覚モデルに従ったコーディングスキーム［２］、［３］に進化してきた。そのような標準化された音声コーデックの存在にもかかわらず、携帯電話または公衆交換電話網でのそれらの採用は、数十年ではないにしても数年かかる。このような理由から、ＡＭＲ－ＮＢ［４］は、２００Ｈｚから３４００Ｈｚの周波数（通常、ナローバンド、ＮＢと呼ばれる）をエンコードするだけの携帯電話の音声通信用コーデックとして、最も頻繁に使用されている。しかしながら、帯域制限された音声を送信すると、音響品質だけでなく、明瞭度も損なわれる［５］、［６］、［７］。ブラインド帯域拡張（ＢＢＷＥ）は、人工的な帯域拡張やオーディオスーパーレゾリューションとも呼ばれ、エンコーダからの追加情報を送信することなく、欠落した周波数成分を人工的に再生する。ＢＢＷＥは、送信ネットワークを変更することなく、デコーダのツールチェーンに追加することができるため、より優れたコーデックがネットワークに導入されるまでの間、知覚されるオーディオ品質と明瞭度を向上させるための中間的なソリューションとして機能する［５］、［６］、［８］。送信帯域幅の節約または品質向上のために、堅牢なＢＢＷＥは、現代の音声送信の実行可能なソリューションである可能性がある。さらに、帯域制限された音声が保存またはアーカイブされるオーディオ復元などの他のタイプのアプリケーションでは、ＢＢＷＥがオーディオ帯域幅を拡張するための唯一の可能なソリューションである。

ＢＢＷＥは音声オーディオ信号処理の分野で長い伝統を持っているが［９］、［１０］、ディープニューラルネットワーク（ＤＮＮ）に基づくソリューションが検討されるようになったのは、音声信号処理ではなく、人工知能（ＡＩ）や画像処理のバックグラウンドを持つ研究者によるものである場合がほとんどである。このようなＤＮＮベースのシステムは、一般に音声超解像（ｓｐｅｅｃｈｓｕｐｅｒｒｅｓｏｌｕｔｉｏｎ：ＳＳＲ）と呼ばれる。画像処理では、１つ以上の低解像度の観測から高解像度の画像を推定するタスクは超解像と呼ばれ、コンピュータビジョンコミュニティ内で大きな注目を集めている。最近では、ディープな畳み込みニューラルネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）が従来の手法よりも優れた結果を出しており［１１］、超解像生成逆問題ネットワークが最先端とされている［１２］。

優れたＢＢＷＥは、音声の知覚品質を向上させるだけでなく、自動音声認識システムの単語誤り率を改善することもできる［１３］。

敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ；ＧＡＮ）は、より現実的な再現のために、より細かい構造をより適切に復元できる。しかしながら、これらのシステムの中には、音声コミュニケーションのシナリオに直接適用できないものもある。ＢＢＷＥの設計では、基礎となる信号の性質が異なる（次元が異なるなど）ことに加えて、次のような点を考慮する必要がある。まず、アルゴリズムの遅延（復号化された音声がオリジナルの音声から遅れる時間）が大きくなりすぎないことが必要である。さらに、計算の複雑さとメモリ消費量は、携帯電話などの組み込みシステムでのリアルタイム処理の要件を満たすことができなければならない。

リカレントニューラルネットワークは、音声のような時系列の分析や予測に適している。実際、音声は２０～２５ｍｓ程度の持続時間では広義の定常または準周期的であると考えられ、その時間相関を比較的小さなモデルを持つＲＮＮで利用することができる。一方、ＣＮＮはパターン認識や、画像の超解像のようなアップスケーリングのタスクで性能を発揮する。また、それらは、処理を高度に並列化できるという利点もある。したがって、音声処理、特にＢＢＷＥでは、両方のアーキテクチャを考慮する必要がある。

前述のように、最先端技術では、ＢＢＷＥの原理は、１９３３年にＫａｒｌ－ＯｔｔｏＳｃｈｍｉｄｔによって最初に提示され［９］、アナログ非線形デバイスを使用して送信音声の帯域幅を拡張した。音声コーデックの励起信号に対して（非ブラインド）帯域幅拡張を行うというアイデアは、少なくとも１９５９年にまでさかのぼる［１０］。その後、人間の音声生成のソースフィルタモデルに基づいて、音声信号を励振とスペクトル包絡線に分離することを利用した、いわゆるパラメトリックＢＷＥがいくつか発表された。これらのシステムは、統計モデルを適用して、スペクトルフォールディング［１４］、スペクトル変換［８］、または非線形性［１５］によって励起信号を生成しながら、スペクトル包絡線を外挿する。包絡線の外挿のための統計モデルは、単純なコードブック・マッピング［１６］、隠れマルコフ・モデル［１４］、（浅い）ニューラルネットワーク［１７］、あるいは最近ではＤＮＮ［１８］などがある。

ＤＮＮを使用する前は、統計モデルへの入力は、多くの場合、手作業で調整された機能であった［１４］、［１７］、［１９］、［２０］。ＤＮＮの導入により、このアプローチは、対数の短時間フーリエ変換（ＳＴＦＴ）エネルギー［１８］、［２１］、［２２］または時間領域の音声信号［２３］、［２４］、［２５］を直接使用するように単純化することができる。同じことが、統計モデルの出力にも言える。サブバンドのエネルギー［８］やその他の包絡線の表現［２１］をモデル化する代わりに、ＤＮＮは、時間領域の音声信号全体や、時間領域と周波数領域の組み合わせ［２６］とまではいかなくても、ビンごとのスペクトルの大きさ［１５］をモデル化するのに十分な力を持っている。しかしながら、スペクトルの大きさがモデル化されている場合、スペクトルの折り返し（ｓｐｅｃｔｒａｌｆｏｌｄｉｎｇ）や変換によって位相を再構成する必要がある［１８］、［２１］、［１５］、［２７］。

学習目的に関しては、効率的なＤＮＮベースのソリューションを設計するには、適切なアーキテクチャを選択する必要があり、主に学習損失関数とネットワークタイプとを慎重に選択する必要がある。代表的な損失関数としては、平均二乗誤差［２１］、カテゴリークロスエントロピー（ＣＥ）損失［２８］、敵対的損失［２９］、［３０］、［２５］、または損失の混合［３１］などがある。損失関数は、データ表現を決定することもできる。

平均二乗誤差とクロスエントロピーに関しては、平均二乗誤差（ＭＳＥ）損失を、対数のサブバンドまたはビン・エネルギーと組み合わせることで、音響心理学的に動機づけられた損失を実現することができる［８］。クロスエントロピー（ＸＥ）から導出された損失関数は、サンプルビット（またはサンプルの大きさ）をクラスとして予測するため、モデル化する信号は、ＤＮＮで処理するには高すぎない解像度で量子化する必要がある。１６ビットで定量化された音声信号の２¹⁶クラスを予測することは、現在までＤＮＮで処理するには非常にコストがかかる。幸いなことに、３．４ｋＨｚ以上の音声信号の内容を８ビットで定量化しても、品質が著しく低下することはない［３２］。クロスエントロピー損失を用いて学習するデータの分布は、音声信号のラプラシアン分布などではなく、ガウス分布であることが望まれるため［３４］、通常は非線形関数によって整形される。驚くべきことに、［３５］、［３２］、［２３］、［２４］で音声データｘをよりガウス的にするために使われているμ－ｌａｗ関数は、世界で初めて標準化されたデジタル音声コーデック［１］と全く同じものである

敵対的損失に関しては、今日の強力なネットワークを使用しても、時間領域の音声の分布は非常に複雑でモデル化が困難である。この複雑な分布に一致するようにＭＳＥまたはＣＥ損失で学習された生成モデルは、その平滑化された近似のみを生成する。ＢＢＷＥに適用すると、これは、結果として得られる音声信号が鮮明さとエネルギーを欠くことを意味する［３０］。

敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）［３６］は、一種の拡張損失関数とみなすことができる。ここでは、ジェネレーターとディスクリミネーターの２つのネットワークが競い合っている。図２は、敵対的生成ネットワークを示している。ジェネレーターは現実的なデータの生成を試み、ディスクリミネーターは生成されたデータと学習データベースからのデータを区別する。学習が成功した後は、ディスクリミネーターはもはや必要ではなく、その目的はジェネレーターの損失を改善することだけである。敵対的学習がＢＢＷＥのような生成モデルの学習に適している理由は、すべてのモードに対して平滑化や平均化を行うことなく、分布の一部のモードをモデル化できることにある。

ネットワークのクラスに関して、ＤＮＮの設計におけるもう１つの重要な側面は、使用するネットワークのクラスの選択であることに注意されたい。一般的には、完全連結層［１８］、［２１］、畳み込みニューラルネットワーク（ＣＮＮ）［１１］、［３７］、またはリカレントニューラルネットワーク（ＲＮＮ）と、それらのサブタイプである長短期記憶（ＬＳＴＭ）ユニット［３８］、［３９］、［８］、またはゲーテッドリカレントユニット（ＧＲＵ）［４０］、［３９］がよく知られている。完全連結層は、フレーム［１８］、［２１］で動作するシステムでのみ使用されるが、ＲＮＮとＣＮＮはストリーミング方式で時間領域データの処理を可能にする［２３］、［２４］。

ＢＢＷＥにもＷａｖｅＮｅｔ（登録商標）が採用されている。［４２］では、符号化されたＮＢ音声のビットストリームパラメータで条件付けられた、クリーンな音声で学習されている。ここでは、ネットワークはデコーダとして機能し、暗黙的に帯域幅の拡張を行う。これを受けて、［２４］では、ＷａｖｅＮｅｔ（登録商標）にＮＢ信号で計算された特徴量を付与している。学習が成功すると、特徴量のみがネットワークに与えられ、ＮＢの音声信号は無視される。

ＷａｖｅＮｅｔ（登録商標）ベースのモデルは非常に高い知覚品質を主張するが、学習が難しく、評価時の計算の複雑さが非常に高くなる。これにより、いくつかの最適化や代替モデルが生まれた（例えば［４３］）。１つの特定の代替手段は、オリジナルの音声合成［３２］または音声コーディング［４４］のいずれかのために設計されたＬＰＣＮｅｔである。ＬＰＣＮｅｔでは、ＷａｖｅＮｅｔ（登録商標）の畳み込み層をリカレント層に置き換えている。

本発明の目的は、ブラインド帯域幅拡張のための改善された概念を提供することである。

本発明の目的は、請求項１に記載の装置によって、請求項１９に記載の方法によって、請求項２０に記載の方法によって、請求項２３に記載の方法によって、請求項２５に記載のコンピュータ・プログラムによって解決される。

一実施の形態による、狭帯域音声入力信号の帯域幅拡張を実行することによって狭帯域音声入力信号を処理して広帯域音声出力信号を得るための装置が提供される。装置は、第１のニューラルネットワークを含む信号包絡線外挿器を備え、第１のニューラルネットワークは第１ニューラルネットワークの入力値として狭帯域音声入力信号の信号包絡線の複数のサンプルを受信するように構成され、前記第１ニューラルネットワークの出力値として、複数の外挿された信号包絡線のサンプルを決定するように構成される。さらに、本装置は、狭帯域音声入力信号の励起信号の複数のサンプルを受信するように構成され、複数の外挿された励起信号サンプルを決定するように構成される励起信号外挿器１３０を備える。さらに、本装置は、複数の外挿された信号包絡線のサンプルに依存して、また、複数の外挿された励起信号サンプルに依存して、広帯域音声出力信号が、狭帯域音声入力信号に対して帯域幅を拡張するように、広帯域音声出力信号を生成するように構成されるコンバイナ１４０を備える。

さらに、一実施の形態による、狭帯域音声入力信号の帯域幅拡張を実行することによって狭帯域音声入力信号を処理して広帯域音声出力信号を得るための方法が提供される。その方法は以下を含む：

－第１のニューラルネットワークの入力値として、前記狭帯域音声入力信号の信号包絡線の複数のサンプルを受信し、前記第１のニューラルネットワークの出力値として、複数の外挿された信号包絡線のサンプルを決定するステップ、

－狭帯域音声入力信号の励起信号の複数のサンプルを受信し、複数の外挿された励起信号サンプルを決定するステップ、そして、

－広帯域音声入力信号が、複数の外挿された信号包絡線のサンプルおよび前記複数の外挿励起信号サンプルに依存して、狭帯域音声入力信号に対して帯域幅を拡張するように前記広帯域音声出力信号を生成するステップ。

さらに、一実施の形態によるニューラルネットワークを学習させる方法を提供する。

－ニューラルネットワークは、ニューラルネットワークの入力値として、狭帯域音声入力信号の第１の複数の線スペクトル周波数を受信する。

－ニューラルネットワークは、第１のニューラルネットワークの出力値として、広帯域音声出力信号の第２の複数の線スペクトル周波数を決定し、１つ以上の第２の複数の線スペクトル周波数のそれぞれは、第１の複数の線スペクトル周波数のいずれかに関連付けられるどの周波数よりも大きい周波数に関連付けられる。

－広帯域音声出力信号の第２の複数の線スペクトル周波数は、線スペクトル周波数領域から線形予測符号化領域に変換され、広帯域音声出力信号の第２の複数の線形予測符号化係数を得る。

－有限インパルス応答フィルタは、広帯域音声出力信号の第２の複数の線形予測符号化係数を線形予測符号化領域から有限インパルス応答フィルタ領域に変換して、複数の有限インパルスフィルターで変換された線形予測符号化係数を得るように用いられる。

－方法は、複数の有限インパルスフィルターで変換された線形予測符号化係数に依存して、前記第１のニューラルネットワークを学習させるステップを含む。

実施の形態において、第１のニューラルネットワークを学習させると、複数の有限インパルスフィルターで変換された線形予測符号化係数、または複数の有限インパルスフィルターで変換された線形予測符号化係数から導出された値が、例えば、ニューラルネットワークにフィードバックされうる。

実施の形態によれば、第１のニューラルネットワークを学習させると、複数の有限インパルスフィルターで変換された線形予測符号化係数および複数の外挿された励起信号サンプルに依存して、例えば、複数の広帯域音声出力信号のサンプルが生成され、複数の広帯域音声出力信号または前記複数の広帯域音声出力信号のサンプルから導出された値が、例えば、ニューラルネットワークにフィードバックされる。

さらに、実施の形態による第１および／または第２のニューラルネットワークを学習させるための方法が提供される。

－第１のニューラルネットワークは、第１のニューラルネットワークの入力値として、狭帯域音声入力信号の信号包絡線の複数のサンプルを受信し、第１のニューラルネットワークの出力値として、複数の外挿された信号包絡線のサンプルを決定する、および／または、第２のニューラルネットワークは第２のニューラルネットワークの入力値として、狭帯域音声入力信号の励起信号の複数のサンプルを受信し、第２のニューラルネットワークの出力値として、複数の外挿された励起信号サンプルを決定する。

－第１および／または第２のニューラルネットワークは、ディスクリミネーターニューラルネットワークを使用して学習し、第１および／または第２のニューラルネットワークが学習すると、第１および／または第２のニューラルネットワークとディスクリミネーターニューラルネットワークとは、敵対的生成ネットワークとして動作する。

－第１および／または第２のニューラルネットワークの学習中は、ディスクリミネーターニューラルネットワークは、ディスクリミネーターニューラルネットワークの入力値として、第１および／または第２のニューラルネットワークの出力値を受信する、またはディスクリミネーターネットワークの入力値として、第１および／または第２のニューラルネットワークの出力値から導出される導出値を受信する。

－ディスクリミネーターニューラルネットワークの入力値を受信する際、ディスクリミネーターニューラルネットワークは、ディスクリミネーターニューラルネットワークの出力として、ディスクリミネーターニューラルネットワークの入力値の品質表示を決定し、そして、第１および／または第２のニューラルネットワークは、品質表示に依存して学習する。

実施の形態によれば、ディスクリミネーターニューラルネットワークは、例えば、第１のディスクリミネーターニューラルネットワークである。第１のニューラルネットワークは、例えば、第１のディスクリミネーターニューラルネットワークを使用して学習し、第１のニューラルネットワークは、第１の品質表示である品質表示に依存して学習する。第２のニューラルネットワークは、例えば、第２のディスクリミネーターニューラルネットワークを使用して学習し、第２のニューラルネットワークの学習中は、第２のニューラルネットワークと第２のディスクリミネーターニューラルネットワークとは、第２の敵対的生成ネットワークとして動作する。第２のニューラルネットワークの学習中は、第２のディスクリミネーターニューラルネットワークは、例えば、第２のディスクリミネーターニューラルネットワークの入力値として、第２のニューラルネットワークの出力値を受信する、または、例えば、第２のディスクリミネーターネットワークの入力値として、第２のニューラルネットワークの出力値から導出される導出値を受信しうる。第２のディスクリミネーターニューラルネットワークの入力値を受信すると、第２のディスクリミネーターニューラルネットワークは、第２のディスクリミネーターニューラルネットワークの出力として、第２のディスクリミネーターニューラルネットワークの入力値の第２の品質表示を決定し、ここで、第２のニューラルネットワークは、第２の品質表示に依存して学習するように構成される。

さらに、コンピュータ・プログラムが提供され、コンピュータ・プログラムの各々は、コンピュータまたは信号処理装置上で実行されるときに上述の方法の１つを実施するように構成される。

すでに説明したように、ブラインド帯域拡張は、音声コーデックで符号化されずに送信される欠落した周波数コンテンツを人工的に再生することで、電話品質の音声の知覚的品質と明瞭度を向上させる。実施の形態は、この問題を解決するためのディープニューラルネットワークに基づく新しいアプローチを提供する。これらの実施の形態は、畳み込みアーキテクチャまたは反復アーキテクチャに基づいている。すべてが時間領域で動作する。人間の音声生成のソースフィルタモデルによって動機付けられて、提供されたシステムの２つは、音声信号をスペクトル包絡線と励起信号に分解する；それらのそれぞれは、専用のＤＮＮで個別に拡張された帯域幅である。すべてのシステムは、敵対的損失と知覚的損失が混在するように学習する。モードの崩壊およびより安定した敵対的学習を回避するために、スペクトルの正規化は、例えば、ディスクリミネーターにおいて採用され得る。

実施の形態では、音声符号化シナリオを対象とした、敵対的学習を用いたディープニューラルネットワークに基づく２つのＢＢＷＥを提供する。

実施の形態によれば、ブラインド帯域幅拡張を目的とした２つの新規ディープネットワーク構造が提供され、１つはコンボリューショナルカーネルに基づくもので、もう１つはリカレントカーネルに基づくものである。

どちらのネットワークも、例えば、敵対的損失とスペクトル損失の混合で学習することができる。

この２つのシステムは、敵対的に学習されたＢＢＷＥで、「エンドツーエンド」、つまり入力が時間領域の音声であり、出力も時間領域の音声であることを意味する。

実施の形態では、ＧＡＮの性能を向上させるために、例えば、ヒンジロスやスペクトルの正規化を適用することができる。

実施の形態では、音声信号の帯域拡張に用いられる生成モデルに基づくＢＢＷＥの新しいアプローチを提供する。

提示された２つのシステムでは、音声符号化の世界で確立されたパラダイムが採用されている、すなわち、包絡線およびソースフィルタモデルとして知られる音声信号への分解は、例えば、ＧＡＮモデルに適用され得る。結果として、計算の複雑さは、例えば、約３分の１に、例えば、低下する可能性がある。このアプローチは、ＢＢＷＥのアプリケーション内でテスト・評価されたが、それに限定されるものではない。実施の形態によるシステムは、ＮＢ音声の音声認識エラー率を大幅に改善する。

いくつかの実施の形態では、符号化された音声、帯域制限された音声、または破損した音声から、強化された音声を生成するための生成モデルを提供する。

実施の形態によれば、学習のためのターゲット音声は、例えば、包絡線および励起に分解され得る。包絡線は、例えば、ＬＰＣ係数であり得る。励起は、例えば、ＬＰＣ残差であり得る。

いくつかの実施の形態では、包絡線および励起は、例えば、別々に学習され得る。包絡線と励起のそれぞれは、例えば、敵対的損失（敵対的生成ネットワーク（ＧＡＮ）から知られている）とＬ１損失の混合で学習することができる。励磁信号の学習には、特徴的な損失も加えられる。

実施の形態によれば、包絡線は、例えば、入力としての符号化されたおよび／または帯域制限されたおよび／または破損した包絡線の表現およびターゲットとしてのオリジナルの包絡線で学習され得る。可能な包絡線の表現は、例えば、ＬＰＣ係数であり得る。

実施の形態では、励起信号を学習するための入力は、例えば、符号化および／または帯域制限および／または破損した時間領域音声および／または圧縮された特徴表現であり得る。ターゲットとなるのは、例えば、もとのクリーンな音声である。

実施の形態によれば、励起信号を学習するために、損失は、例えば、包絡線を通して伝播され得る。これは、例えば、包絡線を、損失を伝播するＤＮＮ層と見なすことによって実行できる。包絡線がＬＰＣフィルタで表される場合、このフィルタは、例えば、純粋なＩＩＲフィルタであり得る。この場合、損失は、例えば、伝播が遅いか、まったく伝播しない可能性がある（勾配消失問題としても知られている）。実施の形態では、ＩＩＲフィルタは、例えば、インパルス応答を切り捨てることによってＦＩＲフィルタによって近似することができる。結果として、包絡線は、例えば、ネットワーク内の畳み込み層（ＣＮＮ層）として実装され得る。

いくつかの実施の形態は、音声コーデック［２］、［４］と同様に、音声信号の励起信号および包絡線への分解に基づいている。これは、線形予測符号化（ＬＰＣ）を使用して実現される。リカレント層は、単に励起信号をモデル化するだけなので、予測が容易である。いくつかの実施の形態では、ＬＰＣＮｅｔはＢＢＷＥにも採用されている［３３］。

以下では、本発明の実施の形態を、図を参照してより詳細に説明する。

図１は、実施の形態による狭帯域音声入力信号の帯域拡張を実行することによって狭帯域音声入力信号を処理して広帯域音声出力信号を得るための装置を示す。図２は、敵対的生成ネットワークを示す。図３は、ソフトマックスゲートアクティベーションＣＮＮ－ＧＡＮの単層を示す。図４は、音声信号の励起信号およびＬＰＣ包絡線への分解に基づく提案されたシステムを示す。図５は、次数１２のＩＩＲＬＰＣフィルタと切り捨てられたインパルス応答から生じるＦＩＲフィルタの伝達関数を示す。図６は、励起信号を外挿するＤＮＮの構造を示す。図７は、スパース化後のＧＲＵからのマトリックスの１つを示す。図８は、６つの畳み込み層で構成されるＧＡＮディスクリミネーターネットワークを示す。各層のカーネルは３２サンプルで、ストライドは２である。図９は、９５％信頼区間でのさまざまなＢＢＷＥの知覚客観的リスニング品質分析を示す。図１０は、さまざまなＢＢＷＥのフレッチェディープスピーチ距離（ＦＤＳＤ）を示す。図１１は、さまざまなＢＢＷＥの単語誤り率と文字誤り率を示す。図１２は、提示されたシステムの短時間客観的了解度測定（ＳＴＯＩ）を示す。図１３は、さまざまなＢＢＷＥを評価したリスニングテストの結果を、項目ごとに９５％信頼区間を設定したボックスプロットで示す。図１４は、さまざまなＢＢＷＥを評価したリスニングテストの結果を、すべての項目で平均した９５％信頼区間を持つ棒グラフで示す。図１５は、さまざまなＢＢＷＥを評価したリスニングテストの結果を、各ユーザーからの評価をウォームプロットで示す。図１６は、正規化された客観的尺度と主観的尺度を示す。

図１は、実施の形態による狭帯域音声入力信号の帯域拡張を実行することによって狭帯域音声入力信号を処理して広帯域音声出力信号を得るための装置を示す。

本装置は、第１のニューラルネットワーク１２５を含む信号包絡線外挿器１２０を備え、第１のニューラルネットワーク１２５は、第１のニューラルネットワーク１２５の入力値として、狭帯域音声入力信号の信号包絡線の複数のサンプルを受信するように構成され、第１のニューラルネットワーク１２５の出力値として、複数の外挿された信号包絡線のサンプルを決定するように構成される。

さらに、本装置は、狭帯域音声入力信号の励起信号の複数のサンプルを受信するように構成され、複数の外挿された励起信号サンプルを決定するように構成される励起信号外挿器１３０を備える。

さらに、本装置は、複数の外挿された信号包絡線のサンプルに依存して、また、複数の外挿された励起信号サンプルに依存して、広帯域音声出力信号が、狭帯域音声入力信号に対して帯域幅を拡張するように、広帯域音声出力信号を生成するように構成されるコンバイナ１４０を備える。

実施の形態によれば、第１のニューラルネットワーク１２５の入力値は、狭帯域音声入力信号の第１の複数の線スペクトル周波数であり、前記第１のニューラルネットワーク１２５が、例えば、第１のニューラルネットワーク１２５の出力値として、広帯域音声出力信号の第２の複数の線スペクトル周波数を決定するように構成されえ、１つ以上の第２の複数の線スペクトル周波数のそれぞれは、第１の複数の線スペクトル周波数のいずれかに関連付けられるどの周波数よりも大きい周波数に関連付けられる。

実施の形態において、第１のニューラルネットワーク１２５が学習すると、信号包絡線外挿器１２０は、例えば、インパルス応答を計算し、インパルス応答を切り捨てることによって、オリジナルの音声信号から導出される複数の広帯域線形予測符号化係数を、有限インパルス応答フィルタ係数に変換するように構成されうる。

例えば、広帯域のＬＰＣフィルタ係数は、例えばＩＩＲフィルタ係数であっても、インパルス応答を計算して切り捨てることにより、有限インパルス応答フィルタ係数に変換される。これは学習中に行われるため、有限インパルス応答フィルタ係数への変換に使用される広帯域ＬＰＣフィルタ係数は、例えば、オリジナルの広帯域音声から導出されうる。

実施の形態によれば、第１のニューラルネットワーク１２５を学習させると、信号包絡線外挿器１２０は、広帯域音声出力信号とオリジナルの広帯域音声信号との間の誤差または誤差の勾配をフィードバックするように、例えば、構成される。

上で概説したように、実施の形態では、誤差の勾配を逆伝播させる。誤差とは、ここでは、生成された広帯域音声と真の広帯域音声との間の差である。

一般に、狭帯域音声から励起が生成され、そこから包絡線が生成される。最後に、広帯域音声が導出される。

適用中、励起信号外挿器１３０の出力は、例えば、信号包絡線外挿器１２０に供給され得る。

実施の形態では、逆伝播を伴う学習中に、誤差の勾配は、最初に信号包絡線外挿器１２０に逆方向に渡され、次に励起信号外挿器１３０に渡される。

信号包絡線がＩＩＲ構造またはフィルタである場合、勾配を通過させることはできない。このため、信号包絡線は有限インパルス応答ファイラーに変換される。

実施の形態によれば、第１のニューラルネットワーク１２５は、例えば、第１のディスクリミネーターニューラルネットワークを用いて学習し、第１のニューラルネットワーク１２５を、例えば、学習させると、第１のニューラルネットワーク１２５および第１のディスクリミネーターニューラルネットワークは、敵対的生成ネットワークとして動作するように構成される。第１のニューラルネットワーク１２５の学習中は、第１のディスクリミネーターニューラルネットワークは、例えば、第１のディスクリミネーターニューラルネットワークの入力値として第１のニューラルネットワーク１２５の出力値を受信するように構成される、または第１のディスクリミネーターネットワークの入力値として、第１のニューラルネットワーク１２５の出力値から導出される導出値を受信するように構成される。第１のディスクリミネーターニューラルネットワークの入力値を受信する際には、第１のディスクリミネーターニューラルネットワークは、例えば、第１のディスクリミネーターニューラルネットワークの出力として、前記第１のディスクリミネーターニューラルネットワークの入力値の第１の品質表示を決定するように構成される。そして、第１のニューラルネットワーク１２５は、例えば、第１の品質表示に依存して学習するように構成される。

実施の形態において、第１のディスクリミネーターニューラルネットワークの入力値を受信する際には、第１のディスクリミネーターニューラルネットワークは、第１のディスクリミネーターニューラルネットワークの入力値が、人工的に生成された音声信号ではなく記録音声信号に関係する確率を品質表示が示す、または第１のディスクリミネーターニューラルネットワークの出力値が記録信号と関係しているのか人工的に生成された信号に関係しているのかを推定する値を前記品質表示が示すように、例えば、品質表示を決定するように構成される。

実施の形態によれば、第１のニューラルネットワーク１２５または第２のニューラルネットワーク１３５は、例えば、第１のディスクリミネーターニューラルネットワークによって決定された品質表示に依存する損失関数を使用し学習する。

実施の形態において、損失関数は、例えば、ヒンジ損失、またはワッサースタイン距離、またはエントロピーベースの損失に依存する。

実施の形態において、損失関数は、（追加）Ｌｐ損失に依存する。

実施の形態において、第１のディスクリミネーターニューラルネットワークは、例えば、記録音声を使用して学習しうる。

実施の形態によれば、励起信号外挿部器１３０は、第２のニューラルネットワーク１３５を含み、第２のニューラルネットワーク１３５は、例えば、第２のニューラルネットワーク１３５の入力値として、狭帯域音声入力信号の励起信号の複数のサンプルを受信するように構成される、および／または、狭帯域音声入力信号である、および／または、前記狭帯域音声入力信号の整形バージョンである。第２のニューラルネットワーク１３５は、第２のニューラルネットワーク１３５の出力値として、複数の外挿された励起信号サンプルを決定するように、例えば、構成される。

実施の形態において、第２のニューラルネットワーク１３５の入力値は、例えば、狭帯域音声入力信号の励起信号の第１の複数の時間領域信号サンプルである、および／または、例えば、狭帯域音声入力信号である、および／または、例えば、狭帯域音声入力信号の整形バージョンでありうる。ここで、第２のニューラルネットワーク１３５は、複数の外挿された励起信号のサンプルが、狭帯域音声入力信号の励起信号に対して、帯域幅が拡張された拡張時間領域励起信号の第２の複数の時間領域信号のサンプルであるように第２のニューラルネットワーク１３５の出力値を決定するように、例えば、構成される。

実施の形態によれば、第２のニューラルネットワーク１３５は、第２のディスクリミネーターニューラルネットワークを使用して、例えば、学習し、第２のニューラルネットワーク１３５の学習中は、第２のニューラルネットワーク１３５と第２のディスクリミネーターニューラルネットワークとは、第２の敵対的生成ネットワークとして動作するように構成される。第２のニューラルネットワーク１３５の学習中は、第２のディスクリミネーターニューラルネットワークは、第２のディスクリミネーターニューラルネットワークの入力値として、第２ニューラルネットワーク１３５の出力値を受信されるように、例えば、構成される、または、第２のディスクリミネーターネットワークの入力値として、第２のニューラルネットワーク１３５の出力値から導出される導出値を受信するように、例えば、構成される。および／または、第２のディスクリミネーターニューラルネットワークは、第２のディスクリミネーターニューラルネットワークの入力値として、コンバイナ１４０の出力値を受信するように、例えば、構成される。

第２のディスクリミネーターニューラルネットワークの入力値を受信すると、第２のディスクリミネーターニューラルネットワークは、第２のディスクリミネーターニューラルネットワークの出力として、第２のディスクリミネーターニューラルネットワークの入力値の第２の品質表示を決定するように、例えば、構成される；ここで、第２のニューラルネットワーク１３５は、第２の品質表示に依存して学習するように、例えば、構成される。

実施の形態において、装置は、狭帯域音声入力信号の信号包絡線の複数のサンプルおよび狭帯域音声入力信号の励起信号の複数のサンプルを狭帯域音声入力信号から生成するように構成される信号分析器１１０を、例えば、含む。

実施の形態によれば、第１のニューラルネットワーク１２５は、１つ以上の畳み込みニューラルネットワークを、例えば、含む。

実施の形態において、第１のニューラルネットワーク１２５は、１つ以上のディープニューラルネットワークを、例えば、含む。

次に、具体的な実施の形態について説明する。

以下では、実施の形態によるＤＮＮに基づく３つのＢＢＷＥについて説明する：２つは畳み込みアーキテクチャに基づいており、もう１つは畳み込みアーキテクチャと反復アーキテクチャの混合に基づいている。すべては、例えば、同じディスクリミネーター、同じ知覚損失、および同じ最適化アルゴリズムを使用して敵対的に学習することができる。第１のＢＢＷＥのアーキテクチャはＷａｖｅＮｅｔ（登録商標）を参考にし、その他のアーキテクチャはＬＰＣＮｅｔを参考にしている。まず、すべての生成ネットワークが提示され、すべてのシステムが同じディスクリミネーターを共有しているので、以下にそれを説明する。

最初に、実施の形態に記載される畳み込みＢＢＷＥが説明される。

このタスクのための第１のアーキテクチャ案は、畳み込みニューラルネットワーク（ＣＮＮ）のスタックで、これは現在、ＧＡＮの標準的な構成要素である。ＣＮＮを使うことで、特にＧＰＵでの高速処理が可能になる。

畳み込み生成モデルには、ＷａｖｅＮｅｔ（登録商標）のような構造を採用した。具体的には、２０の層からなるスタックで、すべての層で、各層は３３のカーネルサイズの因果的な畳み込み、およびソフトマックスゲートアクティベーション［４５］を使用する。バイアスは省略している。これらの層の一つを図３に示す。

図３は、ソフトマックスゲートアクティベーション（ｓｏｆｔｍａｘ－ｇａｔｅｄａｃｔｉｖａｔｉｏｎｓ）のＣＮＮ－ＧＡＮの単層を示す。ＣＮＮ層は、３２個の入力チャネルと６４個の出力チャネルを持つ１次元カーネルを有する。出力チャネルの半分はｔａｎｈアクティベーションに供給され、残りの半分はソフトマックスアクティベーションに供給される。残留接続は、勾配消滅を回避し、安定した効果的な学習を維持する。

概説したように、各ＣＮＮ層には３２個の入力チャネルと６４個の出力チャネルを有する。出力チャネルの半分はｔａｎｈアクティベーションに供給され、残りの半分はソフトマックスアクティベーションに供給される。各レイヤーの３２個のチャネル出力を形成するために、両方のアクティベーションがチャネル次元で乗算される。このタイプのアクティベーションは、ＲｅＬＵとシグモイドゲートアクティベーションの両方よりも、再構成アーティファクトに対してより堅牢である。

追加の入力層は、１次元の入力信号を３２次元の信号にマッピングし、追加の出力層は、３２次元の信号を１次元の出力信号にマッピングする。

畳み込みカーネルの重みは、安定した学習動作を可能にするために、重みの正規化［４６］を使用して正規化される。また、学習プロセスを高速化するために、ＣＮＮ層からの出力機能にバッチ正規化を適用する。

したがって、完全な畳み込み層は、バッチ正規化により続く因果的畳み込み、および最後にソフトマックスゲートアクティベーションで構成され、最終的な出力を取得する。勾配消失を回避し、安定した効果的な学習を維持するために、入力から出力への接続またはショートカットが存在する［４７］。

この畳み込みＢＢＷＥでは、モデルは時間領域の生の音声波形で実行される。入力信号は、最初に単純なＳｉｎｃ補間を使用してＮＢからＷＢにリサンプリングされ、次にジェネレーターモデルに供給される。ジェネレーターは、このアップサンプリングされた信号のオリジナルの帯域幅を確実に拡張して、明らかに高い知覚品質を備えた完全なＷＢ構造を取得する。

このシステムはＣＮＮ－ＧＡＮと呼ばれる。

ここで、実施の形態によるＬＰＣ－ＧＡＮについて説明する。

特に、実施の形態による２つのシステムが提供されており、２つの面で畳み込みのものとは異なる：第１に、ＤＮＮのアーキテクチャが異なる。第２に、音声信号が励起信号と包絡線に分解される。これは、ＬＰＣＮｅｔ［３３］に基づくＢＢＷＥにヒントを得たものであるが、いくつかの実施の形態では、これを応用している。信号を励起と包絡線に分解する動機は、ＬＰＣｎｅｔに基づくＢＢＷＥ［３３］と同じで、システム全体の計算量を削減することにある。

図４はシステムのブロック図を示し、図６は励起信号を拡張するＤＮＮ帯域幅の１つを詳細に示す。特に、図４は、音声信号を励振信号とＬＰＣ包絡線に分解することに基づく提案システムを示す。実線のパスはすべてサンプルで動作し、破線のパスはすべて１５ｍｓのフレームで動作する。

図４では、入力されたＮＢ音声信号を、スペクトル包絡線を表すＬＰＣと励起信号（別名：残差）に分離している。励起信号と入力信号は、ＷＢ励起信号への外挿のために最初のＤＮＮに供給される。このパスは、ここでは実線で示されているサンプルで動作する。ＬＰＣは、上部のパスで第２のＤＮＮを使ってＷＢ包絡線に外挿される。このパスは１５ｍｓのフレームで動作し、ここでは破線で示される。ＬＰＣ係数はＩＩＲフィルタ係数であり、外挿などの操作によってフィルタが不安定になる可能性があるため、ＬＳＦドメインで外挿される［４８］。ＬＳＦは、いくつかの利点があるＬＰＣの全単射変換（ｂｉｊｅｃｔｉｖｅｔｒａｎｓｆｏｒｍａｔｉｏｎ）である：第１に、ノイズの乱れに対する感度が低く、係数間の距離が最小のＬＳＦの順序セットにより、常に安定したＬＰＣフィルタが保証される。第２に、特定の周波数でのスペクトル包絡線は、ＬＳＦの１つにのみ依存するため、単一のＬＳＦ係数の誤った外挿は、主に限られた周波数範囲でのスペクトル包絡線に影響する。これらの特性は、ＷＢ包絡線を表すセットに外挿するのに適している。外挿されたＬＳＦ係数は、外挿された励起信号を形成するためにＬＰＣドメインに変換され、出力信号を形成する。これは、学習と評価のためにさまざまな方法で実現される。

ＬＰＣ包絡線によって形成された外挿された励起信号は、出力ＷＢ信号を形成する。励振信号を外挿するＤＮＮを学習する際には、ＬＰＣフィルタを介して勾配を伝搬させる必要があるが、これはＬＰＣフィルタリングを追加のＤＮＮ層で行うことで実現できる。ＬＰＣフィルタは純粋なＩＩＲフィルタなので、このＤＮＮ層はリカレントユニットを持つ層でなければならない。残念ながら、リカレント層を介して勾配を逆伝播すると、勾配が消失し（勾配消失問題［３８］とも呼ばれる）、学習が不十分になる。この問題の解決策として、ＩＩＲフィルタからの切り捨てられたインパルス応答を計算することにより、ＩＩＲフィルタ係数がＦＩＲフィルタ係数に変換される。信号処理から、無限インパルス応答を切り捨てることにより、任意のＩＩＲフィルタをＦＩＲフィルタで近似できることが知られている［３４］。そして、ＬＰＣシェーピングを畳み込み層で実現することができる。図５は、６４サンプルに切り捨てた場合の効果を示す。

図５は、１２次のＩＩＲＬＰＣフィルタと切り捨てられたインパルス応答から結果として生じるＦＩＲフィルタの伝達関数を示す。

ＩＩＲＬＰＣ包絡線は滑らかであるが、切り捨てられたＦＩＲ包絡線には多くのリップルがあり、高周波ではＩＩＲ包絡線にうまく追従しない。このため、切り捨てられたインパルス応答を計算する前に、ＬＰＣ係数に指数関数が乗算される：

図５では、インパルス応答は６４サンプルに切り捨てられている。緑のフィルタはＩＩＲのＬＰＣ係数を式（４）で処理したもの、赤のフィルタは何も処理していないものである。

初期の実験では、ＦＩＲ形状の信号にアーティファクトが含まれていることが示されており、アーティファクトはディスクリミネーターによって簡単に識別できる。その結果、敵対的な損失のバランスが取れておらず、ジェネレーターの学習訓練が不十分であった。これは、実際の生成された整形されていない励起信号の敵対的損失を計算することで解決できる。

ＦＩＲフィルタによるＬＰＣシェーピングは、学習時間中のみ行われる。評価時間中、勾配を逆伝播する必要がないため、ＬＰＣ係数はＩＩＲフィルタとして適用される。

励起信号の外挿には２つの異なるＤＮＮが使用される。第１としては畳み込み層とリカレント層の混合に基づいており、第２としては畳み込みアーキテクチャのみに基づいている。第１については、図６に詳細を示す。

図６は、ＤＮＮが励起信号を外挿する構造を示したものである。括弧内の信号の形状は、バッチ次元を省略して与えられている。Ｔは入力信号の長さである。

最初のＣＮＮ層の目的は、１次元の時間領域の信号に特徴的な次元を追加することである。この特徴的な次元はＧＲＵ層で必要とされるもので、そうでなければＧＲＵの行列は単純なベクトルに崩れてしまう。ＣＮＮは、通常チャンネルと呼ばれるカーネルを並行して動作させることで、特徴的な次元を追加する。その結果、ＣＮＮ層とＧＲＵ層の互換性を保つために２５６個のチャンネルが必要となる。

これにより、計算が非常に複雑になる。これは、チャネルを各１６個のチャネルの１６個のグループに分割することで防ぐことができる。これは、１６チャネルごとに１６層を並列に配置するのと同じである。ＣＮＮ層の構造（カーネルサイズ、ゲートアクティベーションなど）は、例えば、上記の畳み込みＢＢＷＥに関して説明したものと同じであり得る。第２のＧＲＵ層の出力にはまだ特徴的な次元があるため、カーネルサイズ１の単一の畳み込みカーネルで１次元信号に圧縮される。

計算の複雑さの主な要因は、第１のＧＲＵの行列にある。複雑さをさらに軽減するために、学習中にこれらの行列をスパースにすることができる［４９］。

緻密な行列で初期の学習を繰り返した後、大きさの小さいブロックが特定され、強制的にゼロにされる。ブール行列は、これらのブロックのインデックスを格納する。学習を進めると、望ましいスパースネスが得られるまで、より多くのブロックをゼロにすることができる。［３２］と同様に、１６ｘ１ブロックが使用されるが、すべての対角項も含まれる。行列に保存されている要素の最終的な割合は次のとおりである：

インデックス作成のための計算オーバーヘッドを無視して、このスパース化スキームは、ＧＲＵの計算量を９０％削減する。図７は、学習後のスパース行列の１つを示す。このシステムはＬＰＣ－ＲＮＮ－ＧＡＮと呼ばれる。

特に、図７は、スパース化後のＧＲＵからの行列の１つを示す。

畳み込みアーキテクチャに基づくＤＮＮは、Ｓｃで説明したものと同じ構造を持っているだけである。ＩＩＩ－Ａは３つの構造上の違いがある。第１に、ＣＮＮカーネルのサイズが１７だけであること、第２に、結果として小さくなった受容野（ｒｅｃｅｐｔｉｖｅｆｉｅｌｄ）を補うために、このシステムではレイヤーごとに２の拡張係数を持つ拡張畳み込みを使用していることである。第３に、複雑さを軽減するために、このシステムでは、チャネル次元を４つのグループに分割することによって、上述のグループ化を利用する。さらに以下では、これにより、計算の複雑さを約３分の１に減らすことができることを示す。このシステムはＬＰＣ－ＣＮＮ－ＧＡＮと呼ばれる。

ＬＰＣ包絡線を外挿するＤＮＮも、ＣＮＮ層と、それに続くＧＲＵ層および最終的なＣＮＮ層の組み合わせである。ＣＮＮ層には、カーネルサイズ３の２次元カーネルがあり、現在、過去、および将来のフレームで動作し、システム全体のアルゴリズム遅延の主な原因となる。

以下では、実施の形態によるディスクリミネーターについて説明する。

ディスクリミネーターは、入力信号の潜在的な表現を抽出する畳み込みエンコーダとして機能し、敵対的な損失を評価する。ＣＮＮ－ＧＡＮ、ＬＰＣ－ＣＮＮ－ＧＡＮ、ＬＰＣ－ＲＮＮ－ＧＡＮでは、敵対的な学習のために、畳み込み層で構成された同じディスクリミネーターのアーキテクチャを使用する。安定した敵対的学習は、ディスクリミネーター層（ｄｉｓｃｒｉｍｉｎａｔｏｒｌａｙｅｒｓ）の畳み込みカーネルにスペクトル正規化を適用することによって達成される［５０］。この種の正規化は、リプシッツ条件をディスクリミネーターによって学習された関数に強制する。これは、効果的で安定した敵対的学習手法にとって重要であることがわかった。ディスクリミネーターは条件付き設定［５１］で動作するため、入力信号には、チャネル次元に沿ってアップサンプリングされたＮＢ音声波形と連結された実／偽のＷＢ音声波形が含まれる。図８にそのディスクリミネーターを示す。６つの畳み込み層からなり、カーネルサイズは３２、ストライドは２ステップである。バイアスは省略されている。アクティベーションには、０：２の負の傾きを持つＬｅａｋｙＲｅＬＵを使用する。

特に、図８は、各層には２のストライドで動作する３２個のサンプルのカーネルを有する６つの畳み込み層で構成されるＧＡＮディスクリミネーターネットワークを示す。層の中の数字は、各層の入力チャンネルと出力チャンネルの次元を表す。

条件付け入力は時間領域ＮＢ音声であるため、ディスクリミネーターは、オリジナルの波形とは異なる波形で生成された音声を拒否する。ＢＢＷＥに基づくＬＰＣＮｅｔでは、後述するように、生成される波形に対する制約が少ない。生成された波形に対する制約が少ないＧＡＮを実現するために、入力として低次元の特徴表現を取得する第２のディスクリミネーターが評価される。特徴は、ＮＢ音声で計算されたメル周波数ケプストラム係数（ＭＦＣＣ）［５２］である。このディスクリミネーターは、Ｌｐ損失がないことと相まって、オリジナルの波形とは異なる波形で生成されていない音声にペナルティを課す傾向がある。

ここで、学習の目的に関する考察が示される。

この作業で使用される敵対的なメトリックは、ヒンジ損失［５３］である：

ここで、Ｄ（）はディスクリミネーターの生の出力である。Ｌｉｍｅｔ．ａｌ．［５３］は、最初のＧＡＮ論文［３６］で用いられた損失やワッサースタイン距離（Ｗａｓｓｅｒｓｔｅｉｎｄｉｓｔａｎｃｅ）［５４］と比較して、ヒンジ損失はモード崩壊が少なく、より安定した学習挙動を示すことを示した。

提案されたシステムを使用した最初の実験では、ヒンジ損失が機能マッチングと同様に機能することが示されている。［３０］、［２５］ですでに観察されているように、敵対的損失は、サンプルと特徴で計算されたＬｐノルムによって修正できる。ここでは、時間領域のサンプルで計算されたＬ１ノルムと、特徴損失Ｌ_melとして、対数のＭｅｌエネルギーで計算されたＬ２ノルムを使用する。ジェネレーターの総損失学習は次のとおりである：

以下では、実験のセットアップについて説明される。

学習素材として、公開されているいくつかの音声データベース［５５］、［５６］、［５７］や、他の言語の音声アイテムを使用した。合計で１３時間の学習素材が使用され、そのすべてがサンプリング周波数１６ｋＨｚにリサンプリングされた。学習データの無音部分は、音声活性検出（ｖｏｉｃｅ－ａｃｔｉｖａｔｉｉｏｎ－ｄｅｔｅｃｔｉｏｎ）［５８］を用いて除去した。ＮＢの入力信号はＡＭＲ－ＮＢで１０．２ｋｂｐｓで符号化された。目標とするクリーンな音声信号は、以下に示す一次フィルタＥであらかじめ強調された。

逆（デエンファシス）フィルタＤである

が、生成された音声に適用された。この理由は、生成された音声の中で高周波数があまり強調されなくなる可能性のある音声のスペクトルの傾きを補正するためである。１２次のＬＰＣ包絡線は、ハニング窓でウィンドウ化された１２８サンプルのフレームに対して、時間領域の自己相関を計算した後、レビンソン再帰を用いて抽出される。その後、上記のＬＰＣ－ＧＡＮに関して説明したように、例えばＦＩＲフィルタに変換される。ＤＮＮは、８項目のバッチで学習され、各項目には１秒の音声が含まれる。

ジェネレーターとディスクリミネーターの両方の最適化アルゴリズムはＡｄａｍ［５９］で、ジェネレーターの学習率は０．０００１、ディスクリミネーターの学習率は０．０００４である。より安定した敵対的損失のために、勾配とその二乗の移動平均を計算するために使用される係数（ベータパラメーター）は、それぞれ０．５と０．９９に設定される。ＬＰＣ－ＲＮＮ－ＧＡＮのＲＮＮ（上記のＬＰＣ－ＧＡＮに関する説明を参照）は通常、ＣＮＮよりも学習が遅いため、ジェネレーターとディスクリミネーターの学習率は０．０００１に設定される。ジェネレーターを学習するためのベータパラメーターは、０．７と０．９９に設定される。式（１０）の敵対的損失の量を制御する係数λは０．００１５に設定される。ＧＲＵ層のスパース化は１６０回目のバッチから始まり、１００００回目のバッチで最終的なスパース化が達成される。すべてのＣＮＮ層は、学習を高速化し、ネットワークがモード崩壊に陥るのを防ぐために、バッチ正規化で学習される。

ＬＳＦドメインのＬＰＣ係数を外挿する追加のフレームレートネットワークには、１０個のＣＮＮ層があり、その後に単一のＧＲＵと最後のＣＮＮ層が続く。初期のＣＮＮ層は、カーネルサイズ３ｘ３、１６チャネル、ｔａｎｈアクティベーション関数、および残余接続を使用した２次元畳み込みである。ＧＲＵの行列サイズは１６ｘ１６で、最終的な畳み込み層は５チャネルで、欠落しているＬＳＦ係数の数がＮＢＬＳＦ係数に連結されてＷＢＬＳＦ係数を形成する。

以下では、提示されたシステムを［３３］のＢＢＷＥに基づくＬＣＰＮｅｔと比較する。公開されているシステムとは対照的に、ＬＰＣ包絡線の外挿に使用されるＤＮＮは、ここでは敵対的に学習されている。このために、入力次元を適応させるだけで、同じディスクリミネーターのアーキテクチャが使用されている。

すべてのＤＮＮは、パイトーチ（ＰｙＴｏｒｃｈ）［６０］を用いて実装され、学習された。

以下では、評価の観点から検討する。実施の形態に基づいて提供されるシステムは、客観的な尺度とリスニングテストによる主観的な尺度によって、以前に発表されたシステムと比較される。計算の複雑さの推定値が与えられ、最先端の音声コーディング技術と比較される。客観的および主観的なテストは、提案されたシステムが以前の技術よりも実質的に優れた品質を提供することを示す。実施の形態によるシステムは、音声認識システムの単語誤り率（ＷｏｒｄＥｒｒｏｒＲａｔｅ）を低減することが示される。

提示されたＢＢＷＥの知覚的品質は、これまでスピーチの品質にアクセスするために使用されてきた客観的尺度と、リスニングテストによる主観的尺度によって評価される。さらに、アルゴリズムの遅延と計算の複雑さは、ＢＢＷＥごとに与えられる。客観的な結果と主観的な結果の相関関係は、主観的な評価を予測するのに十分な力があるかどうかを調べる。

計算の複雑さに関して、提案されたＢＢＷＥの計算の複雑さは、音声サンプルごとの１秒あたりのＷＭＯＰＳ（ＷｅｉｇｈｔｅｄＭｉｌｌｉｏｎＯｐｅｒａｔｉｏｎｓｐｅｒＳｅｃｏｎｄ）の推定値である。ＷＭＯＰＳは、標準化された音声処理ツールの計算の複雑さ［６１］を計算するためのＩＴＵユニットである。加算（ＡＤＤ）、乗算（ＭＵＬ）、および積和（ＭＡＣ）演算は、それぞれ１つの演算としてカウントされるが、ｔａｎｈ、シグモイド、またはソフトマックス演算などの複雑な演算は、それぞれ２５の演算としてカウントされる。以下では、音声サンプルごとに数値が計算される。この数値にサンプリング頻度を乗じて、ＷＭＯＰＳの推定値を計算する。これは、今日の並列処理アーキテクチャの利点を考慮していない大まかな概算と見なす必要がある。結果は、最先端の標準化された音声コーデックであるＥＶＳ［２］、［６２］の計算の複雑さとともに表１に要約される。

特に、表１は、いくつかの実施の形態、ＬＰＣＮｅｔ－ＢＢＷＥ［３３］およびＥＶＳ［２］、［６２］による提供されたシステムの計算の複雑さおよびアルゴリズムの遅延を示す（ＥＶＳは、最先端の標準化された音声コーデックである。）。ＷＭＯＰＳは、計算の複雑さを計算するためのＩＴＵ標準［６１］であり、１６ｋＨｚのサンプリング周波数で計算される。

表１

ＬＰＣ－ＲＮＮ－ＧＡＮおよびＬＰＣ－ＣＮＮ－ＧＡＮの計算の複雑さについて：上記のＬＰＣ－ＧＡＮに関して述べたように、このシステムには、１次元信号を２５６チャネルに分割する初期ＣＮＮ層がある。これらの層は上記と同じＣＮＮ層であるが、チャネルが上記のＬＰＣ－ＧＡＮに関して説明したブロックにグループ化されている点が異なる。ここでは、合計２５６チャネルが各１６チャネルの１６ブロックにグループ化されている。これは、１６個のチャネルを並列に持つ１６個のＣＮＮ層を持つことと同じである。

単一の音声サンプルに対する１つのＲＮＮ層の動作は、式（５）で示される。ここでは、Ｍ_iを入力次元、Ｍ_hを出力（または隠れ）次元とする。そして、リセットゲートとアップデートゲート（式の最初の２行）の計算には、それぞれＭ_i＊Ｍ_h＊２のＭＡＣ演算とＭ_hのシグモイド演算が必要である。新しいゲート（式の３行目）には、Ｍ_i＊Ｍ_h＊２＋Ｍ_hのＭＡＣ演算とＭ_hタンジェント双曲線演算（ｔａｎｇｅｎｔｓｈｙｐｅｒｂｏｌｉｃｕｓｏｐｅｒａｔｉｏｎｓ）が必要である。最後に、出力（最後の行）には、Ｍ_h＊２のＭＡＣ演算が必要である。最初の大きなＧＲＵ層では、スパース化された行列を使用するため（上記のＬＰＣ－ＧＡＮに関する説明を参照）、演算は縮小された行列サイズで計算される。追加のアドレス指定演算（ａｄｄｒｅｓｓｉｎｇ－ｏｐｅｒａｔｉｏｎｓ）によるオーバーヘッドは無視される。第１のＧＲＵでは、すべての行列はＭ_i＝Ｍ_h＝２５６の正方であり、第２のＧＲＵではＭ_i＝２５６およびＭ_h＝３２である。

最後のＣＮＮ層は、出力次元を合計するだけで、３２回のＡＤＤ演算が必要である。ＬＰＣ－ＣＮＮ－ＧＡＮの計算上の複雑さは、上記のように、並列に、チャネル次元がわずか８のこのようなネットワークを４つ持つものとして計算される。

評価時には、ＬＰＣフィルタは１２タップのＩＩＲフィルタとして適用され、１サンプルあたり１２回のＭＡＣ演算が必要となる。ＬＰＣからＬＳＦ係数への変換、およびその逆の変換はここでは無視される。なぜなら、これらの変換はフレームベースで行われ、全体的な複雑さへの寄与は小さいと予想されるためである。上記の表１は、使用されたパラメーター化を使用した演算の数をまとめたものである。

アルゴリズム遅延に関して、アルゴリズム遅延は、音声サンプルのブロック処理によって引き起こされる、入力音声と処理された出力音声との間のミリ秒単位の理論上の遅延である。ＣＰＵまたはＧＰＵの時間は考慮されない。数値は上記の表１に要約される。

ＬＰＣ－ＲＮＮ－ＧＡＮとＬＰＣ－ＣＮＮ－ＧＡＮに関して、これらのシステムのアルゴリズム遅延の原因は、初期畳み込み層とＬＰＣ処理である。ＧＲＵ層は、いかなるアルゴリズム遅延を発生させない。４つの畳み込み層のカーネルサイズは１６タブで、将来のサンプルで１６タブが計算されるため、４ミリ秒の遅延が発生する。したがって、ウィンドウ化された自己相関関数に起因するＬＰＣ処理のアルゴリズム遅延は１５ミリ秒である。このブロック処理は畳み込み層から独立しているため、システム全体のアルゴリズム遅延の合計は１５ミリ秒である。ＬＰＣ－ＣＮＮ－ＧＡＮは、ＣＮＮ－ＧＡＮの半分のサイズで拡張が２のカーネルを使用するため、ＣＮＮ－ＧＡＮと同じアルゴリズム遅延がある。

人間の聴取者によるリスニングテストは、（たとえば、客観的な）知覚品質を評価するための究極の基盤であるが、実施するにはかなりの努力を必要とする。客観的な指標は、簡単に使える代替手段である。ここでは、知覚客観的リスニング品質分析（ＰｅｒｃｅｐｔｕａｌＯｂｊｅｃｔｉｖｅＬｉｓｔｅｎｉｎｇＱｕａｌｉｔｙＡｎａｌｙｓｉｓ）、フレシェディープスピーチ距離（Ｆｒ´ｅｃｈｅｔＤｅｅｐＳｐｅｅｃｈＤｉｓｔａｎｃｅ）、単語誤り率（ＷｏｒｄＥｒｒｏｒＲａｔｅ）、および短時間客観的了解度測定（Ｓｈｏｒｔ－ＴｉｍｅＯｂｊｅｃｔｉｖｅＩｎｔｅｌｌｉｇｉｂｉｌｉｔｙｍｅａｓｕｒｅ）の４つの異なる測定が使用される。単語誤り率を除くすべての測定値は、学習セットの一部ではない、約１時間の多言語の複数話者データベースで計算される。

知覚客観的リスニング品質分析（ＰＯＬＱＡ）は、リスニングテストで使用されるのと同じ平均オピニオンスケール（ＭＯＳ）で符号化された音声信号の知覚品質を予測することを目的とした標準化された方法である［６３］。推定結果は図９にまとめられており、ＬＰＣ－ＲＮＮ－ＧＡＮが最高の評価を達成し、次にＣＮＮ－ＧＡＮが続くことを示す。

特に、図９は、９５％信頼区間でのさまざまなＢＢＷＥの知覚客観的リスニング品質分析（ＰＯＬＱＡ）を示す。値が大きいほど品質が良いことを意味する。

ＧＡＮによって生成された音声や画像の品質を評価することは、難しい課題である。典型的な使用例では、ＧＡＮはノイズからアイテムを生成するので、比較する基準がないため、Ｌｐノルムに基づくメトリクスは使用できない。

フレシェディープスピーチ距離（ＦＤＳＤ）が、例えば、考慮されうる。ＧＡＮによって作成された画像の品質を評価するための一般的な客観的尺度は、フレシェ開始距離（ＦＩＤ）である［６４］。このメトリックは、画像または音声を分類するように学習された異なるＤＮＮの出力に基づいて計算される。生成的モデリングとは対照的に、画像や音声の分類（認識）はすでにかなり精巧に作られており、生成されたデータを分類するＤＮＮの出力のエントロピーから品質の推定値を与える可能性がある。他のすべてのクラスよりも１つのクラスとして強く分類されるアイテムは、品質が高いことを示し、生成されたアイテムの条件付き確率は低いエントロピーを持つ必要がある。さらに、ＧＡＮは多種多様なアイテムを生成する（モード崩壊を起こさない）必要があるため、分類出力の限界確率分布の積分値は高いエントロピーを持つことが好ましい。［６５］の開始距離（ＩＤ）は、これを数学的に定式化する。Ｈｅｕｓｅｌｅｔ．ａｌ．［６５］は、フレシェ距離に基づく実際のデータの分類結果の分布も使用することにより、これを改善した。

図１０は、さまざまなＢＢＷＥのフレシェディープスピーチ距離（ＦＤＳＤ）を示す。値が小さいほど品質が高くなる。

単語誤り率に関しては、ＢＢＷＥは知覚品質を改善するだけでなく、音声の明瞭度［５］、［６］、さらには自動音声認識（ＡＳＲ）システムのパフォーマンスも改善できる。最先端のＡＳＲシステムは、固定サンプリング周波数（主に１６ｋＨｚ）の音声で学習されたＤＮＮに基づく。その結果、音声がＮＢコーデックでコーディングされている場合、このようなシステムのパフォーマンスは大幅に低下する。最先端のＡＳＲシステムの単語誤り率（ＷＥＲ）に対するＡＭＲ－ＮＢを使用した音声コーディングの影響と、ＢＢＷＥがこの影響をどのように軽減できるかを評価する。ここで使用されているＡＳＲシステムは、一般的な音声多言語音声コーパス［７０］で学習されたコネクショニスト時分類（ＣＴＣ）損失［６９］を備えたディープスピーチシステム［６８］に基づくＲＮＮのＭｏｚｉｌｌａのオープン実装である。評価は、このデータベースの評価セットに対して行われる。ＷＥＲメトリックは、文字起こしされた音声の単語レベルで評価され、次のように計算される：

ここで、Ｓは置換数、Ｄは削除数、Ｉは挿入数、Ｃは転写の正しい単語の数である。

図１１は、さまざまなＢＢＷＥの単語誤り率（ＷＥＲ）と文字誤り率（ＣＥＲ）を示す。値が小さいほどパフォーマンスが高いことを意味する。特に、図１１は、ＡＭＲ－ＮＢとさまざまなＢＢＷＥのＡＳＲパフォーマンスを、ＷＥＲと同様に計算されるが、単語レベルではなく文字レベルで計算される文字誤り率（ＣＥＲ）とともに示す。

表２は、最もパフォーマンスの低いアイテムの１つの例を示す。興味深いことに、コード化されていないアイテムの方が平均して良い結果を出しているが、データベースからＡＭＲ－ＮＢコード化されたアイテムを使った場合、０：６よりも悪い結果を出す異常値はない。ＢＢＷＥで処理されたアイテムは、平均ＷＥＲを改善するが、ＷＥＲが８：０以上の異常値も生成する。

短時間客観的了解度測定（ＳＴＯＩ）に関して、短時間客観的了解度測定（ＳＴＯＩ）は、クリーンな時間エネルギー包絡線とＢＢＷＥ処理された音声サブバンドとの間の線形相関係数の推定値として定義される。これらのサブバンドは、音声信号を５０％オーバーラップした２５６サンプルの長さのハニング窓付きフレームに分割から得られ、各フレームを５１２サンプルまでゼロパディングしてフーリエ変換した時間－周波数表現に基づいて計算される。１５の１／３オクターブバンドは、ＤＦＴビンを平均することによって計算される。

もともと、この測定値は、１０ｋＨｚのサンプリング周波数でサンプリングされた音声で計算される。ＷＢ音声の品質を評価しているため、この測定値は１６ｋＨｚに拡張される。

図１２は、提示されたシステムの結果を示す。

特に、図１２は、提示されたシステムの短時間客観的了解度測定（ＳＴＯＩ）を示す。値が小さいほど、品質が低くなることを意味する。

この測定値によると、ＬＰＣ－ＲＮＮ－ＧＡＮが最も優れた性能を発揮し、次いでＬＰＣ－ＣＮＮ－ＧＡＮとなる。

以下では、主観的な知覚品質について検討する。

提案されたシステムの知覚的品質を最終的に判断するために、ＭＵＳＨＲＡリスニングテスト［７１］が実施された。ＭＵＳＨＲＡの方法論によれば、テストアイテムには、そのようにマークされた参照、非表示の参照、およびアンカーとして機能するＡＭＲ－ＮＢコード化信号が含まれる。１２人の経験豊富なリスナーがテストに参加した。テストで使用されるスピーチ項目は約１０秒の長さであり、学習の一部でもテストセットでもない。アイテムは、中国語、英語、フランス語、ドイツ語、スペイン語のネイティブスピーカーによる音声を収録している。その結果を、アイテムごとに図１３に、全アイテムを平均して図１４に、平均値と９５％信頼区間を示した箱ひげ図で示した。図１５に結果を棒グラフで示す。

特に、図１３は、アイテムごとに９５％の信頼区間を持つ箱ひげ図としてさまざまなＢＢＷＥを評価するリスニングテストの結果を示す。

図１４は、さまざまなＢＢＷＥを評価したリスニングテストの結果を、すべてのアイテムで平均した９５％信頼区間を持つ棒グラフで示す。

図１５は、さまざまなＢＢＷＥを評価したリスニングテストの結果を、各ユーザーからの評価をウォームプロットで示す。

ＣＮＮ－ｆｅａｔ－ｃｏｎｄとしてマークされたシステムは、ディスクリミネーターに関して上記で説明した機能に基づいた条件付き入力を持つディスクリミネーターで学習されたＣＮＮ－ＧＡＮである。Ｌ１損失も学習目標から削除される。

結果は、提示されたすべてのシステムが、すべてのアイテムのＡＭＲ－ＮＢ音声の品質を大幅に向上させることを示す。ＣＮＮ－ｆｅａｔ－ｃｏｎｄを除いて、提示されたシステムはどれも他のシステムよりも大幅に優れているものはない。傾向的に最良のシステムはＬＰＣ－ＣＮＮ－ＧＡＮであり、これもＣＮＮ－ｆｅａｔ－ｃｏｎｄシステムよりも大幅に優れている。

単一のアイテムの結果を調べると、品質はアイテムにかなり依存していることがわかる。ＬＰＣ－ＣＮＮ－ＧＡＮは、常に最高のパフォーマンスを発揮するシステムとは限らない。スペインの女性、ドイツの女性、男性の２つのアイテムの場合、ＬＰＣＮｅｔベースのシステムが最高のパフォーマンスを発揮する。中国の男性アイテムの場合、ＬＰＣ－ＲＮＮ－ＧＡＮが最高のパフォーマンスを発揮し、スペインの男性アイテムの場合、ＣＮＮ－ＧＡＮが最高のパフォーマンスを発揮する。ＣＮＮ－ＧＡＮは、ノイズの多いアーティファクトが最も少ないことがよくあるが、摩擦音をうまく再構築できないことがよくある。

ＬＰＣＮｅｔベースのシステムでは、品質のばらつきが特に大きくなる。このシステムでは、非常に高い品質が得られる一方で、クリック感やピッチの不安定さなどの深刻なアーティファクトが発生することがある。一方、ＧＡＮベースのシステムは、このような深刻なアーティファクトの影響を受けないが、広帯域のクラックリングノイズの影響を受ける。ＬＰＣＮｅｔベースのシステム、および場合によっては機能調整ベースのシステムは、両方のシステムが生成された波形に課す制約が少ないため、音声の特性を変更する。ＭＵＳＨＲＡテストでは、参照が与えられていない絶対カテゴリー評価（ＡＣＲ）テストなどのさまざまなテスト方法のように、これによりスコアが低くなる可能性がある。

客観的尺度が主観的評価をどの程度反映しているかを確認するために、リスニングテストのＭＯＳ値との相関を調べる。公正な比較のために、すべての測定値はゼロ平均と標準偏差に正規化される。ＦＤＳＤ、ＷＥＲ、ＣＥＲは、より良い品質の推定値に対して低い値を与えるため、これらの値は最初に否定される。

図１６に正規化された値を示し、表３に相関値を示す。

特に、図１６は正規化された客観的測定値と主観的測定値を示す。

ＳＴＯＩがＭＯＳ値と最も高い相関を示し、次にＰＯＬＱＡ、ＷＥＲ、ＣＥＲ．ＷＥＲが続くが、リスニングテストの結果と同じ次数を持つ唯一の測定値であることがわかる。ＷＥＲ値とＦＤＳＤ値の違いは奇妙である。なぜなら、どちらの測定値も、同様のネットワーク（ＤｅｅｐＳｐｅｅｃｈとＤｅｅｐＳｐｅｅｃｈ２）の出力に基づいているためである。

ＢＢＷＥを実行するための２つの基本的な異なるアプローチ、つまりＧＡＮモデルと自己回帰モデルが比較された。どちらのアプローチも、時間領域の音声の分布など、複雑なデータ分布をモデル化できる生成モデルに依存しており、どちらのアプローチも平滑化の問題に悩まされることはない。

どちらのアプローチも、ＷａｖｅＮｅｔ（登録商標）［３５］のような最先端のモデルと比較して、計算の複雑さが中程度である。

ＬＰＣＮｅｔに基づくＢＢＷＥは、計算の複雑さが最も低いモデルである。複雑さが軽減された主な理由は、このモデルが生成された波形に与える制約が少ないことである。ＬＰＣＮｅｔによって生成される波形は、オリジナルの波形とは大きく異なる可能性があるが、ＧＡＮに基づくＢＢＷＥは、条件付けと敵対的損失およびＬ１損失との混合により、オリジナルの波形を維持する。残念ながら、条件付けを機能条件付けに変更し、Ｌ１損失を削除しても、生成される音声の品質は向上しなかった。

ＬＰＣ－ＲＮＮ－ＧＡＮとＬＰＣ－ＣＮＮ－ＧＡＮは、励起信号の外挿に使用されるＤＮＮが異なる。前者はＣＮＮとＲＮＮの混合に基づいており、後者はＣＮＮのみを使用する。

両方のＤＮＮの計算の複雑さはほぼ同じである。パフォーマンスに大きな違いはないが、ＬＰＣ－ＣＮＮ－ＧＡＮのパフォーマンスは傾向的に優れている。さらに、ＣＮＮの学習時間は短く、ハイパーパラメータの調整にはそれほど影響を受けない。ＬＰＣ－ＲＮＮ－ＧＡＮは、ＧＡＮ学習のコンテキストで初めてスパース化を正常に適用する。

リスニングテストの結果を客観的な測定値と相関させると、あいまいな結果が得られる。［６６］の著者は、ＦＤＳＤ測定が敵対的に生成された音声の品質を推定するのにうまく機能していることを示したが、ここでは提示されたシステム間の小さな違いにアクセスできない。主観的な結果と最もよく相関する尺度は、ＳＴＯＩおよびＷＥＲの尺度である。

これまでいくつかの側面を装置の文脈で説明してきたが、これらの側面は対応する方法の説明でもあり、ブロックまたは装置が方法のステップまたは方法のステップの特徴に対応していることは明らかである。同様に、方法ステップの文脈で記述された側面は、対応する装置の対応するブロックまたはアイテムまたは機能の記述でもある。方法ステップのいくつかまたはすべては、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって（または使用して）実行され得る。いくつかの実施の形態では、１つまたは複数の最も重要な方法ステップは、そのような装置によって実行され得る。

特定の実装要件に応じて、本発明の実施の形態は、ハードウェアまたはソフトウェアで、あるいは少なくとも部分的にハードウェアで、または少なくとも部分的にソフトウェアで実装することができる。実装は、例えば、フロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＦＬＡＳＨメモリなどのデジタル記憶媒体であって、その上に格納された電子的に読み取り可能な制御信号を有し、それぞれの方法が実行されるようなプログラム可能なコンピュータシステムと協働する（または協働可能な）デジタル記憶媒体を用いて行うことができる。したがって、デジタル記憶媒体は、コンピュータで読み取り可能であり得る。

本発明によるいくつかの実施の形態は、電子的に読み取り可能な制御信号を有するデータキャリアであって、本明細書に記載されている方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができるデータキャリアを含む。

一般に、本発明の実施の形態は、プログラムコードを備えたコンピュータ・プログラム製品として実施することができ、プログラムコードは、コンピュータ・プログラム製品がコンピュータ上で実行されるときに、方法の１つを実行するために動作可能である。プログラムコードは、例えば、機械読み取り可能なキャリアに格納することができる。

他の実施の形態は、本明細書に記載された方法の１つを実行するためのコンピュータ・プログラムを、機械読み取り可能なキャリアに格納したものである。

言い換えれば、本発明の方法の実施の形態は、したがって、本明細書に記載された方法の１つを実行するためのプログラムコードを有するコンピュータ・プログラムであって、そのコンピュータ・プログラムがコンピュータ上で実行される場合のものである。

したがって、本発明の方法のさらなる実施の形態は、本明細書に記載された方法の１つを実行するためのコンピュータ・プログラムをその上に記録したデータキャリア（またはデジタル記憶媒体、またはコンピュータ読み取り可能な媒体）である。データキャリア、デジタル記憶媒体、または記録媒体は、通常、有形および／または非一時的なものである。

したがって、本発明の方法のさらなる実施の形態は、本明細書に記載された方法の１つを実行するためのコンピュータ・プログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネットなどのデータ通信接続を介して伝送されるように構成され得る。

さらなる実施の形態は、本明細書に記載された方法の１つを実行するように構成された、または適応された、例えばコンピュータ、またはプログラム可能な論理装置などの処理手段を備える。

さらなる実施の形態は、本明細書に記載された方法の１つを実行するためのコンピュータ・プログラムをその上にインストールしたコンピュータを備える。

本発明によるさらなる実施の形態は、本明細書に記載された方法の１つを実行するためのコンピュータ・プログラムを受信機に伝送（例えば、電子的または光学的に）するように構成された装置またはシステムを備える。受信機は、例えば、コンピュータ、モバイル機器、記憶装置などである。本装置またはシステムは、例えば、コンピュータ・プログラムを受信機に伝送するためのファイルサーバを構成し得る。

いくつかの実施の形態では、本明細書に記載されている方法の一部またはすべての機能性を実行するために、プログラム可能な論理デバイス（例えば、フィールドプログラマブルゲートアレイ）を使用することができる。いくつかの実施の形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の１つを実行するために、マイクロプロセッサと協働することができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。

本明細書に記載されている装置は、ハードウェア装置を使用しても、コンピュータを使用しても、あるいはハードウェア装置とコンピュータの組み合わせを使用しても実装することができる。

本明細書に記載されている方法は、ハードウェア装置を使用しても、コンピュータを使用しても、またはハードウェア装置とコンピュータの組み合わせを使用しても実行できる。

上述した実施の形態は、本発明の原理を例示したものに過ぎない。本明細書に記載の配置および詳細の改良および変形は、当業者には明らかであることが理解される。したがって、本明細書では、差し迫った特許請求の範囲によってのみ制限され、本実施の形態の説明と解説によって提示された特定の詳細によっては制限されないことを意図する。

参照文献
[1] International Telecommunication Union, "Pulse code modulation (pcm) of voice frequencies," ITU-T Recommendation G.711, November 1988.

[2] S. Bruhn, H. Pobloth, M. Schnell, B. Grill, J. Gibbs, L. Miao, K. Jaervinen, L. Laaksonen, N. Harada, N. Naka, S. Ragot, S. Proust, T. Sanda, I. Varga, C. Greer, M. Jelinek, M. Xie, and P. Usai, "Standardization of the new 3GPP EVS codec," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 5703-5707. [Online]. Available: https://doi.org/10.1109/ICASSP.2015.7179064

[3] S. Disch, A. Niedermeier, C. R. Helmrich, C. Neukam, K. Schmidt, R. Geiger, J. Lecomte, F. Ghido, F. Nagel, and B. Edler, "Intelligent gap filling in perceptual transform coding of audio," in Audio Engineering Society Convention 141, Los Angeles, Sep 2016. [Online]. Available: http://www.aes.org/e-lib/browse.cfm?elib=18465

[4] 3GPP, "TS 26.090, Mandatory Speech Codec speech processing functions; Adaptive Multi-Rate (AMR) speech codec; Transcoding functions," 1999.

[5] P. Bauer, R. Fischer, M. Bellanova, H. Puder, and T. Fingscheidt, "On improving telephone speech intelligibility for hearing impaired persons," in Proceedings of the 10. ITG Conference on Speech Communication, Braunschweig, Germany, September 26-28, 2012, 2012, pp. 1-4. [Online]. Available: http://ieeexplore.ieee.org/document/6309632/

[6] P. Bauer, J. Jones, and T. Fingscheidt, "Impact of hearing impairment on fricative intelligibility for artificially bandwidth-extended telephone speech in noise," in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2013, Vancouver, BC, Canada, May 26-31, 2013, 2013, pp. 7039-7043. [Online]. Available: https://doi.org/10.1109/ICASSP.2013.6639027

[7] J. Abel, M. Kaniewska, C. Guillaume, W. Tirry, H. Pulakka, V. Myllylae, J. Sjoberg, P. Alku, I. Katsir, D. Malah, I. Cohen, M. A. T. Turan, E. Erzin, T. Schlien, P. Vary, A. H. Nour-Eldin, P. Kabal, and T. Fingscheidt, "A subjective listening test of six different artificial bandwidth extension approaches in english, chinese, german, and korean," in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2016, Shanghai, China, March 20-25, 2016, 2016, pp. 5915-5919. [Online]. Available: https://doi.org/10.1109/ICASSP.2016.7472812

[8] K. Schmidt and B. Edler, "Blind bandwidth extension based on convolutional and recurrent deep neural networks," in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, pp. 5444-5448.

[9] K. Schmidt, "Neubildung von unterdrueckten Sprachfrequenzen durch ein nichtlinear verzerrendes Glied," Dissertation, Techn. Hochsch. Berlin, 1933.

[10] M. Schroeder, "Recent progress in speech coding at bell telephone laboratories," in Proceedings of the third international congress on acoustics, Stuttgart, 1959.

[11] Y. Lecun, L. Bottou, Y. Bengio, and P. Haffner, "Gradient-based learning applied to document recognition," Proceedings of the IEEE, vol. 86, no. 11, pp. 2278-2324, Nov 1998.

[12] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. P. Aitken, A. Tejani, J. Totz, Z. Wang, and W. Shi, "Photo-realistic single image super-resolution using a generative adversarial network," CoRR, vol. abs/1609.04802, 2016. [Online]. Available: http://arxiv.org/abs/1609.04802

[13] X. Li, V. Chebiyyam, and K. Kirchhoff, "Speech audio super-resolution for speech recognition," in Interspeech 2019, 20th Annual Conference of the International Speech Communication Association, Graz, Austria, September 15-19, 2019, 09 2019.

[14] P. Jax and P. Vary, "Wideband extension of telephone speech using a hidden markov model," in 2000 IEEE Workshop on Speech Coding. Proceedings., 2000, pp. 133-135.

[15] K. Schmidt and B. Edler, "Deep neural network based guided speech bandwidth extension," in Audio Engineering Society Convention 147, Oct 2019. [Online]. Available: http://www.aes.org/e-lib/browse.cfm? elib=20627

[16] H. Carl and U. Heute, "Bandwidth enhancement of narrow-band speech signals," in Signal Processing VII: Theories and Applications: Proceedings of EUSIPCO-94 Seventh European Signal Processing Conference, September 1994, pp. 1178-1181.

[17] H. Pulakka and P. Alku, "Bandwidth extension of telephone speech using a neural network and a filter bank implementation for highband mel spectrum," IEEE Trans. Audio, Speech & Language Processing, vol. 19, no. 7, pp. 2170-2183, 2011. [Online]. Available: https://doi.org/10.1109/TASL.2011.2118206

[18] K. Li and C. Lee, "A deep neural network approach to speech bandwidth expansion," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 4395-4399. [Online]. Available: https://doi.org/10.1109/ICASSP.2015.7178801

[19] P. Bauer, J. Abel, and T. Fingscheidt, "Hmm-based artificial bandwidth extension supported by neural networks," in 14th International Workshop on Acoustic Signal Enhancement, IWAENC 2014, Juan-les-Pins, France, September 8-11, 2014, 2014, pp. 1-5. [Online]. Available: https://doi.org/10.1109/IWAENC.2014.6953304

[20] J. Sautter, F. Faubel, M. Buck, and G. Schmidt, "Artificial bandwidth extension using a conditional generative adversarial network with discriminative training," in ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 2019, pp. 7005-7009.

[21] J. Abel, M. Strake, and T. Fingscheidt, "A simple cepstral domain dnn approach to artificial speech bandwidth extension," in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, pp. 5469-5473.

[22] J. Abel and T. Fingscheidt, "Artificial speech bandwidth extension using deep neural networks for wideband spectral envelope estimation," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 1, pp. 71-83, 2018.

[23] Z. Ling, Y. Ai, Y. Gu, and L. Dai, "Waveform modeling and generation using hierarchical recurrent neural networks for speech bandwidth extension," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 5, pp. 883-894, May 2018.

[24] A. Gupta, B. Shillingford, Y. M. Assael, and T. C. Walters, "Speech bandwidth extension with wavenet," ArXiv, vol. abs/1907.04927, 2019.

[25] S. Kim and V. Sathe, "Bandwidth extension on raw audio via generative adversarial networks," 2019.

[26] Y. Dong, Y. Li, X. Li, S. Xu, D. Wang, Z. Zhang, and S. Xiong, "A time-frequency network with channel attention and non-local modules for artificial bandwidth extension," in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 6954-6958.

[27] J. Makhoul and M. Berouti, "High-frequency regeneration in speech coding systems," in ICASSP '79. IEEE International Conference on Acoustics, Speech, and Signal Processing, April 1979, pp. 428-431.

[28] N. Kalchbrenner, E. Elsen, K. Simonyan, S. Noury, N. Casagrande, E. Lockhart, F. Stimberg, A. van den Oord, S. Dieleman, and K. Kavukcuoglu, "Efficient neural audio synthesis," CoRR, vol. abs/1802.08435, 2018. [Online]. Available: http://arxiv.org/abs/1802. 08435

[29] S. Li, S. Villette, P. Ramadas, and D. J. Sinder, "Speech bandwidth extension using generative adversarial networks," in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, pp. 5029-5033.

[30] S. E. Eskimez, K. Koishida, and Z. Duan, "Adversarial training for speech super-resolution," IEEE Journal of Selected Topics in Signal Processing, vol. 13, no. 2, pp. 347-358, 2019.

[31] X. Hao, C. Xu, N. Hou, L. Xie, E. S. Chng, and H. Li, "Time-domain neural network approach for speech bandwidth extension," in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 866-870.

[32] J. Valin and J. Skoglund, "Lpcnet: Improving neural speech synthesis through linear prediction," in ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 2019, pp. 5891-5895.

[33] K. Schmidt and B. Edler, "Blind bandwidth extension of speech based on lpcnet," in 2020 28th European Signal Processing Conference (EUSIPCO).

[34] L. Rabiner and R. Schafer, Digital Processing of Speech Signals. Englewood Cliffs: Prentice Hall, 1978.

[35] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, and K. Kavukcuoglu, "Wavenet: A generative model for raw audio," in The 9th ISCA Speech Synthesis Workshop, Sunnyvale, CA, USA, 13-15 September 2016, 2016, p. 125.

[36] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, "Generative adversarial networks," 2014.

[37] Y. Gu and Z. Ling, "Waveform modeling using stacked dilated convolutional neural networks for speech bandwidth extension," in Interspeech 2017, 18th Annual Conference of the International Speech Communication Association, Stockholm, Sweden, August 20-24, 2017, 2017, pp. 1123-1127. [Online]. Available: http: //www.isca-speech.org/archive/Interspeech 2017/abstracts/0336.html

[38] S. Hochreiter and J. Schmidhuber, "Long short-term memory," Neural Computation, vol. 9, no. 8, pp. 1735-1780, 1997. [Online]. Available: https://doi.org/10.1162/neco.1997.9.8.1735

[39] Y. Gu, Z. Ling, and L. Dai, "Speech bandwidth extension using bottleneck features and deep recurrent neural networks," in Interspeech 2016, 17th Annual Conference of the International Speech Communication Association, San Francisco, CA, USA, September 8-12, 2016, 2016, pp. 297-301. [Online]. Available: https://doi.org/10.21437/ Interspeech.2016-678

[40] J. Chung, C. Guelcehre, K. Cho, and Y. Bengio, "Empirical evaluation of gated recurrent neural networks on sequence modeling," NIPS Deep Learning workshop, Montreal, Canada, 2014. [Online]. Available: http://arxiv.org/abs/1412.3555

[41] A. van den Oord, N. Kalchbrenner, O. Vinyals, L. Espeholt, A. Graves, and K. Kavukcuoglu, "Conditional image generation with pixelcnn decoders," CoRR, vol. abs/1606.05328, 2016. [Online]. Available: http://arxiv.org/abs/1606.05328

[42] W. B. Kleijn, F. S. C. Lim, A. Luebs, J. Skoglund, F. Stimberg, Q. Wang, and T. C. Walters, "Wavenet based low rate speech coding," in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, pp. 676-680.

[43] Z. Jin, A. Finkelstein, G. J. Mysore, and J. Lu, "Fftnet: A real-time speaker-dependent neural vocoder," in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, pp. 2251-2255.

[44] J.-M. Valin and J. Skoglund, "A real-time wideband neural vocoder at 1.6 kb/s using lpcnet," ArXiv, vol. abs/1903.12087, 2019.

[45] A. Mustafa, A. Biswas, C. Bergler, J. Schottenhamml, and A. Maier, "Analysis by Adversarial Synthesis - A Novel Approach for Speech Vocoding," in Proc. Interspeech, 2019, pp. 191-195. [Online]. Available: http://dx.doi.org/10.21437/Interspeech.2019-1195

[46] T. Salimans and D. P. Kingma, "Weight normalization: A simple reparameterization to accelerate training of deep neural networks," in Advances in NeurIPS, 2016, pp. 901-909.

[47] K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770-778.

[48] Yao Tianren, Xiang Juanjuan, and Lu Wei, "The computation of line spectral frequency using the second chebyshev polynomials," in 6th International Conference on Signal Processing, 2002., vol. 1, Aug 2002, pp. 190-192 vol.1.

[49] N. Kalchbrenner, E. Elsen, K. Simonyan, S. Noury, N. Casagrande, E. Lockhart, F. Stimberg, A. van den Oord, S. Dieleman, and K. Kavukcuoglu, "Efficient neural audio synthesis," 2018.

[50] T. Miyato, T. Kataoka, M. Koyama, and Y. Yoshida, "Spectral normalization for generative adversarial networks," 2018.

[51] M. Mirza and S. Osindero, "Conditional generative adversarial nets," ArXiv, vol. abs/1411.1784, 2014.

[52] A. Salman, E. Muhammad, and K. Khurshid, "Speaker verification using boosted cepstral features with gaussian distributions," in 2007 IEEE International Multitopic Conference, 2007, pp. 1-5. [53] J. H. Lim and J. C. Ye, "Geometric gan," 2017.

[54] M. Arjovsky, S. Chintala, and L. Bottou, "Wasserstein gan," 2017.

[55] C. Veaux, J. Yamagishi, and K. Macdonald, "Cstr vctk corpus: English multi-speaker corpus for cstr voice cloning toolkit," 2017.

[56] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, "Librispeech: An ASR corpus based on public domain audio books," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 5206-5210. [Online]. Available: https://doi.org/10.1109/ICASSP.2015.7178964

[57] M. Soloducha, A. Raake, F. Kettler, and P. Voigt, "Lombard speech database for german language," in Proc. DAGA 2016 Aachen, 03 2016.

[58] "Webrtc vad v2.0.10," https://webrtc.org.

[59] D. P. Kingma and J. Ba, "Adam: A method for stochastic optimization," CoRR, vol. abs/1412.6980, 2014.

[60] A. Paszke, S. Gross, F. Massa, A. Lerer, J. Bradbury, G. Chanan, T. Killeen, Z. Lin, N. Gimelshein, L. Antiga, A. Desmaison, A. Kopf, E. Yang, Z. DeVito, M. Raison, A. Tejani, S. Chilamkurthy, B. Steiner, L. Fang, J. Bai, and S. Chintala, "Pytorch: An imperative style, high-performance deep learning library," in Advances in Neural Information Processing Systems 32, H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alche-Buc, E. Fox, and R. Garnett, Eds. Curran Associates, Inc., 2019, pp. 8024-8035. [Online]. Available: http://papers.neurips.cc/paper/9015-pytorch-an-imperative-style-high-performance-deep-learning-library.pdf

[61] ITU-T Study Group 12, Software tools for speech and audio coding standardization, Geneva, 2005.

[62] G. T. 26.445, "EVS codec; detailed algorithmic description; technical specification, release 12," Sep. 2014.

[63] ITU-T Study Group 12, P.863 : Perceptual objective listening quality prediction, Geneva, 2018.

[64] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, G. Klambauer, and S. Hochreiter, "Gans trained by a two time-scale update rule converge to a nash equilibrium," CoRR, vol. abs/1706.08500, 2017. [Online]. Available: http://arxiv.org/abs/1706.08500

[65] T. Salimans, I. Goodfellow, W. Zaremba, V. Cheung, A. Radford,X. Chen, and X. Chen, "Improved techniques for training gans," in Advances in Neural Information Processing Systems, D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, and R. Garnett, Eds., vol. 29. Curran Associates, Inc., 2016, pp. 2234-2242. [Online]. Available: https://proceedings.neurips.cc/paper/2016/file/8a3363abe792db2d8761d6403605aeb7-Paper.pdf

[66] M. Binkowski, J. Donahue, S. Dieleman, A. Clark, E. Elsen, N. Casagrande, L. C. Cobo, and K. Simonyan, "High fidelity speech synthesis with adversarial networks," CoRR, vol. abs/1909.11646, 2019. [Online]. Available: http://arxiv.org/abs/1909.11646

[67] D. Amodei, R. Anubhai, E. Battenberg, C. Case, J. Casper, B. Catanzaro, J. Chen, M. Chrzanowski, A. Coates, G. Diamos, E. Elsen, J. H. Engel, L. Fan, C. Fougner, T. Han, A. Y. Hannun, B. Jun, P. LeGresley, L. Lin, S. Narang, A. Y. Ng, S. Ozair, R. Prenger, J. Raiman, S. Satheesh, D. Seetapun, S. Sengupta, Y. Wang, Z. Wang, C. Wang, B. Xiao, D. Yogatama, J. Zhan, and Z. Zhu, "Deep speech 2: End-to-end speech recognition in english and mandarin," CoRR, vol. abs/1512.02595, 2015. [Online]. Available: http://arxiv.org/abs/1512.02595

[68] A. Y. Hannun, C. Case, J. Casper, B. Catanzaro, G. Diamos, E. Elsen, R. Prenger, S. Satheesh, S. Sengupta, A. Coates, and A. Y. Ng, "Deep speech: Scaling up end-to-end speech recognition," CoRR, vol. abs/1412.5567, 2014. [Online]. Available: http://arxiv.org/abs/1412.5567

[69] A. Graves, S. Fernandez, and F. Gomez, "Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks," in In Proceedings of the International Conference on Machine Learning, ICML 2006, 2006, pp. 369-376.

[70] R. Ardila, M. Branson, K. Davis, M. Henretty, M. Kohler, J. Meyer, R. Morais, L. Saunders, F. M. Tyers, and G. Weber, "Common voice: A massively-multilingual speech corpus," CoRR, vol. abs/1912.06670, 2019. [Online]. Available: http://arxiv.org/abs/1912.06670

[71] ITU-R, Recommendation BS.1534-1 Method for subjective assessment of intermediate sound quality (MUSHRA), Geneva, 2003.

Claims

狭帯域音声入力信号の帯域幅拡張を実行することによって前記狭帯域音声入力信号を処理して広帯域音声出力信号を得るための装置であって、前記装置は、
第１のニューラルネットワーク（１２５）を含む信号包絡線外挿器（１２０）であって、前記第１のニューラルネットワーク（１２５）は前記第１ニューラルネットワーク（１２５）の入力値として前記狭帯域音声入力信号の信号包絡線の複数のサンプルを受信し、前記第１ニューラルネットワーク（１２５）の出力値として、複数の外挿された信号包絡線のサンプルを決定するように構成される、前記信号包絡線外挿器（１２０）と、
前記狭帯域音声入力信号の励起信号の複数のサンプルを受信し、複数の外挿された励起信号サンプルを決定するように構成される、励起信号外挿器（１３０）と、
前記広帯域音声出力信号が、前記複数の外挿された信号サンプルおよび前記複数の外挿された励起信号サンプルに依存して、前記狭帯域音声入力信号に対して帯域幅を拡張するように、前記広帯域音声出力信号を生成するように構成されるコンバイナ（１４０）と、
を含む、装置。
前記第１のニューラルネットワーク（１２５）の前記入力値は、前記狭帯域音声入力信号の第１の複数の線スペクトル周波数であり、前記第１のニューラルネットワーク（１２５）は、前記第１のニューラルネットワーク（１２５）の前記出力値として、前記広帯域音声出力信号の第２の複数の線スペクトル周波数を決定するように構成され、１つ以上の前記第２の複数の線スペクトル周波数のそれぞれは、前記第１の複数の線スペクトル周波数のいずれかに関連付けられるどの周波数よりも大きい周波数と関連付けられる、請求項１に記載の装置。
前記第１のニューラルネットワーク（１２５）を学習させると、前記信号包絡線外挿器（１２０）は、インパルス応答を計算し、前記インパルス応答を切り捨てることによって、オリジナルの広帯域音声信号から導出される複数の広帯域線形予測符号化係数を有限インパルス応答フィルタ係数に変換するように構成される、請求項２に記載の装置。
前記第１のニューラルネットワーク（１２５）を学習させると、前記信号包絡線外挿器（１２０）が、前記広帯域音声出力信号と前記オリジナルの広帯域音声信号間の誤差または前記誤差の勾配をフィードバックするように構成される、請求項３に記載の装置。
前記第１のニューラルネットワーク（１２５）は、第１のディスクリミネーターニューラルネットワークを使用して学習し、前記第１のニューラルネットワーク（１２５）を学習させると、前記第１のニューラルネットワーク（１２５）と前記第１のディスクリミネーターニューラルネットワークは、敵対的生成ネットワークとして動作するように構成され、
前記第１のニューラルネットワーク（１２５）の学習中は、前記第１のディスクリミネーターニューラルネットワークは、前記第１のディスクリミネーターニューラルネットワークの入力値として前記第１のニューラルネットワーク（１２５）の前記出力値を受信するように構成される、または前記第１のディスクリミネーターネットワークの前記入力値として、前記第１のニューラルネットワーク（１２５）の前記出力値から導出される導出値を受信するように構成され、
ここで、前記第１のディスクリミネーターニューラルネットワークの前記入力値を受信する際には、前記第１のディスクリミネーターニューラルネットワークは、前記第１のディスクリミネーターニューラルネットワークの出力として、前記第１のディスクリミネーターニューラルネットワークの前記入力値の第１の品質表示を決定するように構成され、前記第１のニューラルネットワーク（１２５）は、前記第１の品質表示に依存して学習するように構成される、請求項１ないし請求項４のいずれかに記載の装置。
前記第１のディスクリミネーターニューラルネットワークの前記入力値を受信する際には、前記第１のディスクリミネーターニューラルネットワークは、前記第１のディスクリミネーターニューラルネットワークの前記入力値が、人工的に生成された音声信号ではなく記録音声信号に関係する確率を前記品質表示が示す、または前記第１のディスクリミネーターニューラルネットワークの前記出力値が記録信号と関係しているのか、人工的に生成された信号に関係しているのかを推定する値を前記品質表示が示すように、前記品質表示を決定するように構成される、請求項５に記載の装置。
前記第１のニューラルネットワーク（１２５）または前記第２のニューラルネットワーク（１３５）は、前記第１のディスクリミネーターニューラルネットワークによって決定された前記品質表示に依存する損失関数を使用して学習する、請求項５または請求項６に記載の装置。
前記損失関数は、ヒンジ損失、またはワッサースタイン距離、またはエントロピーベースの損失に依存する、請求項７に記載の装置。
前記損失関数は、追加Ｌｐ－ｌｏｓｓに依存する、請求項７ないし請求項９のいずれかに記載の装置。
前記第１のディスクリミネーターニューラルネットワークは、記録音声を使用して学習する、請求項４ないし請求項１１のいずれかに記載の装置。
前記励起信号外挿器（１３０）は第２のニューラルネットワーク（１３５）を含み、前記第２のニューラルネットワーク（１３５）は、前記第２のニューラルネットワーク（１３５）の入力値として、前記狭帯域音声入力信号の前記励起信号の複数のサンプルを受信するように構成される、および／または、前記狭帯域音声入力信号である、および／または、前記狭帯域音声入力信号の整形バージョンであり、前記第２のニューラルネットワーク（１３５）の出力値として、前記複数の外挿された励起信号サンプルを決定するように構成される、請求項１ないし請求項１２のいずれかに記載の装置。
前記第２のニューラルネットワーク（１３５）の前記入力値は、前記狭帯域音声入力信号の前記励起信号の第１の複数の時間領域信号サンプルである、および／または前記狭帯域音声入力信号である、および／または、前記狭帯域音声入力信号の整形バージョンであり、ここで、前記第２のニューラルネットワーク（１３５）は、前記複数の外挿された励起信号のサンプルが、前記狭帯域音声入力信号の前記励起信号に対して、帯域幅が拡張された拡張時間領域励起信号の第２の複数の時間領域信号のサンプルであるように前記第２のニューラルネットワーク（１３５）の前記出力値を決定するように構成される、請求項１３に記載の装置。
前記第２のニューラルネットワーク（１３５）は、第２のディスクリミネーターニューラルネットワークを使用して学習し、前記第２のニューラルネットワーク（１３５）の学習中は、前記第２のニューラルネットワーク（１３５）と前記第２のディスクリミネーターニューラルネットワークとは、第２の敵対的生成ネットワークとして動作するように構成され、
前記第２のニューラルネットワーク（１３５）の学習中は、前記第２のディスクリミネーターニューラルネットワークは、前記第２のディスクリミネーターニューラルネットワークの入力値として、
前記第２のニューラルネットワーク（１３５）の前記出力値を受信するように構成される、または前記第２のディスクリミネーターネットワークの前記入力値として、前記第２のニューラルネットワーク（１３５）の前記出力値から導出される導出値、および／または、
前記コンバイナ（１４０）の出力
を受信するように構成され、
前記第２のディスクリミネーターニューラルネットワークの前記入力値を受信すると、前記第２のディスクリミネーターニューラルネットワークは、前記第２のディスクリミネーターニューラルネットワークの出力として、前記第２のディスクリミネーターニューラルネットワークの前記入力値の第２の品質表示を決定するように構成され、ここで、前記第２のニューラルネットワーク（１３５）は前記第２の品質表示に依存して学習するように構成される、請求項１３または請求項１４に記載の装置。
前記装置は、前記狭帯域音声入力信号の前記信号包絡線の前記複数のサンプルおよび前記狭帯域音声入力信号の前記励起信号の前記複数のサンプルを前記狭帯域音声入力信号から生成するように構成される信号分析器（１１０）を含む、請求項１ないし請求項１５のいずれかに記載の装置。
前記第１のニューラルネットワーク（１２５）は、１つ以上の畳み込みニューラルネットワークを含む、請求項１ないし請求項１６のいずれかに記載の装置。
前記第１のニューラルネットワーク（１２５）は、１つ以上のディープニューラルネットワークを含む、請求項１ないし請求項１７のいずれかに記載の装置。
狭帯域音声入力信号の帯域幅拡張を実行することによって前記狭帯域音声入力信号を処理して広帯域音声出力信号を得るための方法であって、前記方法は、
第１のニューラルネットワークの入力値として、前記狭帯域音声入力信号の信号包絡線の複数のサンプルを受信し、前記第１のニューラルネットワークの出力値として、複数の外挿された信号包絡線のサンプルを決定するステップと、
前記狭帯域音声入力信号の励起信号の複数のサンプルを受信し、複数の外挿された励起信号サンプルを決定するステップと、
前記広帯域音声入力信号が、前記複数の外挿された信号包絡線のサンプルおよび前記複数の外挿励起信号サンプルに依存して、前記狭帯域音声入力信号に対して帯域幅を拡張するように前記広帯域音声出力信号を生成するステップと、
を含む、方法。
ニューラルネットワークを学習させるための方法であって、
前記ニューラルネットワークは前記ニューラルネットワークの入力値として、狭帯域音声入力信号の第１の複数の線スペクトル周波数を受信し、
前記ニューラルネットワークは、前記第１のニューラルネットワークの出力値として、前記広帯域音声出力信号の第２の複数の線スペクトル周波数を決定し、１つ以上の前記第２の複数の線スペクトル周波数のそれぞれは、前記第１の複数の線スペクトル周波数のいずれかに関連付けられるどの周波数よりも大きい周波数に関連付けられ、
前記広帯域音声出力信号の前記第２の複数の線スペクトル周波数は、前記広帯域音声出力信号の第２の複数の前記線形予測符号化係数を得るために、線スペクトル周波数領域から線形予測符号化領域に変換され、
前記広帯域音声出力信号の前記第２の複数の線形予測符号化係数を前記線形予測符号化領域から有限インパルス応答フィルタ領域に変換して、複数の有限インパルスフィルターで変換された線形予測符号化係数を得るために有限インパルス応答フィルタが用いられ、
前記方法は、前記複数の有限インパルスフィルターで変換された線形予測符号化係数に依存して、前記第１のニューラルネットワークを学習させるステップを含む、方法。
前記第１のニューラルネットワークが学習させると、前記複数の有限インパルスフィルターで変換された線形予測符号化係数、または前記複数の有限インパルスフィルターで変換された線形予測符号化係数から導出された値が、前記ニューラルネットワークにフィードバックされる、請求項２０に記載の方法。
前記第１のニューラルネットワークが学習させると、前記複数の有限インパルスフィルターで変換された線形予測符号化係数および複数の外挿された励起信号サンプルに依存して、複数の前記広帯域音声出力信号のサンプルが生成され、前記複数の広帯域音声出力信号または前記複数の広帯域音声出力信号のサンプルから導出された値が前記ニューラルネットワークにフィードバックされる、請求項２０に記載の方法。
第１および／または第２のニューラルネットワークを学習させるための方法であって、
前記第１のニューラルネットワークは、前記第１のニューラルネットワークの入力値として、前記狭帯域音声入力信号の信号包絡線の複数のサンプルを受信し、前記第１のニューラルネットワークの出力値として、複数の外挿された信号包絡線のサンプルを決定する、および／または、前記第２のニューラルネットワークは前記第２のニューラルネットワークの入力値として、前記狭帯域音声入力信号の前記励起信号の複数のサンプルを受信し、前記第２のニューラルネットワークの出力値として、前記複数の外挿された励起信号サンプルを決定し、
前記第１および／または前記第２のニューラルネットワークは、ディスクリミネーターニューラルネットワークを使用して学習し、前記第１および／または前記第２のニューラルネットワークが学習すると、前記第１および／または前記第２のニューラルネットワークと前記ディスクリミネーターニューラルネットワークとは、敵対的生成ネットワークとして動作し、
前記第１および／または前記第２のニューラルネットワークの学習中は、前記ディスクリミネーターニューラルネットワークは、前記ディスクリミネーターニューラルネットワークの入力値として、前記第１および／または前記第２のニューラルネットワークの前記出力値を受信する、または、前記ディスクリミネーターネットワークの前記入力値として、前記第１および／または前記第２のニューラルネットワークの前記出力値から導出される導出値を受信し、
前記ディスクリミネーターニューラルネットワークの前記入力値を受信すると、前記ディスクリミネーターニューラルネットワークは、前記ディスクリミネーターニューラルネットワークの出力として、前記ディスクリミネーターニューラルネットワークの前記入力値の品質表示を決定し、そして前記第１および／または前記第２のニューラルネットワークは、前記品質表示に依存して学習する、方法。
前記ディスクリミネーターニューラルネットワークは、第１のディスクリミネーターニューラルネットワークであり、
前記第１のニューラルネットワークは、前記第１のディスクリミネーターニューラルネットワークを使用して学習し、前記第１のニューラルネットワークは、第１の品質表示である前記品質表示に依存して学習し、
前記第２のニューラルネットワークは第２のディスクリミネーターニューラルネットワークを使用して学習し、前記第２のニューラルネットワークの学習中は、前記第２のニューラルネットワークと前記第２のディスクリミネーターニューラルネットワークとは、第２の敵対的生成ネットワークとして動作し、
前記第２のニューラルネットワークの学習中は、前記第２のディスクリミネーターニューラルネットワークは、前記第２のディスクリミネーターニューラルネットワークの入力値として、前記第２のニューラルネットワークの前記出力値を受信する、または、前記第２のディスクリミネーターネットワークの前記入力値として、前記第２のニューラルネットワークの前記出力値から導出される導出値を受信し、
前記第２のディスクリミネーターニューラルネットワークの前記入力値を受信する際、前記第２のディスクリミネーターニューラルネットワークは、前記第２のディスクリミネーターニューラルネットワークの出力として、前記第２のディスクリミネーターニューラルネットワークの前記入力値の第２の品質表示を決定し、前記第２のニューラルネットワークは、前記第２の品質表示に依存して学習するように構成される、
請求項２３に記載の方法。
コンピュータ・プログラムがコンピュータ上またはシグナルプロセッサーで動作しているときに、請求項１９ないし請求項２４のいずれかに記載の前記方法を実行するためのコンピュータ・プログラム。