JP2022505888A

JP2022505888A - 生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置

Info

Publication number: JP2022505888A
Application number: JP2021522972A
Authority: JP
Inventors: クレイサ，ヤヌシュ; ヘデリン，ペル
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2018-10-29
Filing date: 2019-10-29
Publication date: 2022-01-14
Anticipated expiration: 2039-10-29
Also published as: JP7167335B2; EP3874495B1; EP3874495A1; US20220044694A1; WO2020089215A1; US11621011B2; CN112970063A

Abstract

本願明細書において記載されているオーディオ又はスピーチ信号をデコードする方法は、（ａ）デコーダによって、オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するステップと、（ｂ）ビットストリームデコーダによって、第１ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を提供するステップと、（ｃ）デコードされた条件付け情報を、第１ビットレートに関連付けられたフォーマットから第２ビットレートに関連付けられたフォーマットに変換するステップと、（ｄ）生成ニューラルネットワークによって、第２ビットレートに関連付けられたフォーマットで条件付け情報によって条件付けられる確率モデルに従って、オーディオ又はスピーチ信号の再構成を提供するステップと、を含む。オーディオ又はスピーチ信号をデコードするための装置、それぞれのエンコーダ、エンコーダ及びオーディオ又はスピーチ信号をデコードするための装置のシステム、ならびに、それぞれのコンピュータプログラム製品がさらに記載されている。

Description

関連出願の相互参照
この出願は、以下の優先権出願の優先権を主張し、これは本願明細書に引用されたものとする。２０１８年１０月２９日に出願された米国仮出願第６２／７５２，０３１号（参照：Ｄ１８１１８ＵＳＰ１）。

本開示は、概してオーディオ又はスピーチ信号をデコードする方法に関するものであり、より詳しくは、生成モデルを用いたレート品質スケーラブル符号化を提供する方法に関するものである。本開示は、前記方法の実施のための装置及びコンピュータプログラム製品ならびにそれぞれのエンコーダ及びシステムにさらに関するものである。

本願明細書では、いくつかの実施形態がその開示を特に参照して記載されるが、本開示がこの種の使用分野に限定されるものではなく、より幅広い文脈において適用できることを認識されたい。

開示の全体にわたる背景技術に関するいかなる議論も、この種の技術が広く知られており、又は、この分野で共通の一般的な知識の一部を成すという承認としてみなされるべきではない。

近年、ディープニューラルネットワーク（例えばＷａｖｅＮｅｔ及びＳａｍｐｌｅＲＮＮ）に基づくオーディオ用の生成モデリングは、自然に聞こえるスピーチ合成における大きな進歩を提供してきた。主な適用は、モデルがボコーディングコンポーネントを置換する、テキストを音声に変換する分野にあった。

生成モデルは、グローバル及びローカルの潜在的な表現によって条件付け可能である。ボイス変換の文脈において、これは、静的話者識別子及び動的言語情報への条件付けの自然な分離を容易にする。しかしながら、進歩してきたにもかかわらず、特に低ビットレートで生成モデルを用いたオーディオ又はスピーチ符号化を提供する既存の必要が依然として存在する。

生成モデルの使用は、特に低ビットレートで符号化性能を改善しうるが、（ビットレートと品質との間の複数のトレードオフポイントを考慮に入れて）コーデックが複数のビットレートでの動作を容易にすると期待される場合、この種のモデルの適用は、依然として困難である。

本開示の第１態様に従って、オーディオ又はスピーチ信号をデコードする方法が提供される。方法は、（ａ）レシーバによって、オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するステップを含んでもよい。方法は、（ｂ）ビットストリームデコーダによって、第１ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を提供するステップをさらに含んでもよい。方法は、（ｃ）コンバータによって、デコードされた条件付け情報を、第１ビットレートに関連付けられたフォーマットから第２ビットレートに関連付けられたフォーマットに変換するステップをさらに含んでもよい。そして、方法は、（ｄ）生成ニューラルネットワークによって、第２ビットレートに関連付けられたフォーマットで条件付け情報によって条件付けられる確率モデルに従って、オーディオ又はスピーチ信号の再構成を提供するステップを含んでもよい。

いくつかの実施形態において、第１ビットレートは、ターゲットビットレートでもよく、第２ビットレートは、デフォルトビットレートでもよい。

いくつかの実施形態において、条件付け情報は、埋め込み部分及び非埋め込み部分を含んでもよい。

いくつかの実施形態において、条件付け情報は、１つ又は複数の条件付けパラメータを含んでもよい。

いくつかの実施形態において、１つ又は複数の条件付けパラメータは、ボコーダパラメータでもよい。

いくつかの実施形態において、１つ又は複数の条件付けパラメータは、埋め込み部分及び非埋め込み部分に一意的に割り当てられてもよい。

いくつかの実施形態において、埋め込み部分の条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までのサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの１つ又は複数を含んでもよい。

いくつかの実施形態において、第１ビットレートに関連付けられた条件付け情報の埋め込み部分の次元は、条件付けパラメータの数として定義されてもよく、第２ビットレートに関連付けられた条件付け情報の埋め込み部分の次元以下でもよく、第１ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元は、第２ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元と同一でもよい。

いくつかの実施形態において、ステップ（ｃ）は、（ｉ）ゼロパディングによって、第１ビットレートに関連付けられた条件付け情報の埋め込み部分の次元を、第２ビットレートに関連付けられた条件付け情報の埋め込み部分の次元に拡張するステップ、又は、（ｉｉ）第１ビットレートに関連付けられた条件付け情報の利用できる条件付けパラメータに基づいて、任意の失った条件付けパラメータを予測することによって、第１ビットレートに関連付けられた条件付け情報の埋め込み部分の次元を、第２ビットレートに関連付けられた条件付け情報の埋め込み部分の次元に拡張するステップをさらに含んでもよい。

いくつかの実施形態において、ステップ（ｃ）は、コンバータによって、第１ビットレートに関連付けられた条件付け情報からの条件付けパラメータの値を、第２ビットレートに関連付けられた条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、条件付け情報の非埋め込み部分を変換するステップをさらに含んでもよい。

いくつかの実施形態において、第１ビットレートに関連付けられた条件付け情報の非埋め込み部分の条件付けパラメータは、第２ビットレートに関連付けられた条件付け情報の非埋め込み部分のそれぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化されてもよい。

いくつかの実施形態において、生成ニューラルネットワークは、第２ビットレートに関連付けられたフォーマットで条件付け情報に基づいて訓練されてもよい。

いくつかの実施形態において、生成ニューラルネットワークは、第２ビットレートに関連付けられたフォーマットで条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成してもよい。

いくつかの実施形態において、生成ニューラルネットワークは、ＳａｍｐｌｅＲＮＮニューラルネットワークでもよい。

いくつかの実施形態において、ＳａｍｐｌｅＲＮＮニューラルネットワークは、４段のＳａｍｐｌｅＲＮＮニューラルネットワークでもよい。

本開示の第２態様に従って、オーディオ又はスピーチ信号をデコードするための装置が提供される。装置は、（ａ）オーディオ及びスピーチ信号ならびに条件付け情報を含む符号化ビットストリームを受信するためのレシーバを含んでもよい。装置は、（ｂ）符号化ビットストリームをデコードして、第１ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を取得するためのビットストリームデコーダをさらに含んでもよい。装置は、（ｃ）デコードされた条件付け情報を、第１ビットレートに関連付けられたフォーマットから第２ビットレートに関連付けられたフォーマットに変換するためのコンバータをさらに含んでもよい。そして、装置は、（ｄ）第２ビットレートに関連付けられたフォーマットで条件付け情報によって条件付けられる確率モデルに従って、オーディオ又はスピーチ信号の再構成を提供するための生成ニューラルネットワークを含んでもよい。

いくつかの実施形態において、第１ビットレートに関連付けられた条件付け情報の埋め込み部分の次元は、条件付けパラメータの数として定義され、第２ビットレートに関連付けられた条件付け情報の埋め込み部分の次元以下でもよく、第１ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元は、第２ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元と同一でもよい。

いくつかの実施形態において、コンバータは、（ｉ）ゼロパディングによって、第１ビットレートに関連付けられた条件付け情報の埋め込み部分の次元を、第２ビットレートに関連付けられた条件付け情報の埋め込み部分の次元に拡張する、又は、（ｉｉ）第１ビットレートに関連付けられた条件付け情報の利用できる条件付けパラメータに基づいて、任意の失った条件付けパラメータを予測することによって、第１ビットレートに関連付けられた条件付け情報の埋め込み部分の次元を、第２ビットレートに関連付けられた条件付け情報の埋め込み部分の次元に拡張する、ようにさらに構成されてもよい。

いくつかの実施形態において、コンバータは、第１ビットレートに関連付けられた条件付け情報からの条件付けパラメータの値を、第２ビットレートに関連付けられた条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、条件付け情報の非埋め込み部分を変換するようにさらに構成されてもよい。

いくつかの実施形態において、生成ニューラルネットワークは、第２ビットレートに関連付けられたフォーマットで条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって信号を再構成してもよい。

本開示の第３態様に従って、信号解析器及びビットストリームエンコーダを含むエンコーダが提供され、エンコーダは、第１ビットレート及び第２ビットレートを含む少なくとも２つの動作ビットレートを提供するように構成されてもよく、第１ビットレートは、第２ビットレートより低いレベルの再構成の品質に関連付けられ、第１ビットレートは、第２ビットレートより低い。

いくつかの実施形態において、エンコーダは、条件付け情報の埋め込み部分及び非埋め込み部分に一意的に割り当てられる１つ又は複数の条件付けパラメータを含む、第１ビットレートに関連付けられた条件付け情報を提供するようにさらに構成されてもよい。

いくつかの実施形態において、条件付け情報の埋め込み部分及び条件付け情報の非埋め込み部分の次元は、条件付けパラメータの数として定義されてもよく、第１ビットレートに基づいてもよい。

いくつかの実施形態において、第１ビットレートは、複数の動作ビットレートのセットに属してもよい。

本開示の第４態様に従って、エンコーダ及びオーディオ又はスピーチ信号をデコードするための装置のシステムが提供される。

本開示の第５態様に従って、命令を有するコンピュータ可読記憶媒体を備えているコンピュータプログラム製品が提供され、命令は、処理能力を有するデバイスによって実行されるとき、デバイスにオーディオ又はスピーチ信号をデコードする方法を実行させるように構成される。

以下、開示の実施形態は、添付の図面を参照して、単に例として記載されている。

生成ニューラルネットワークを用いてオーディオ又はスピーチ信号をデコードする方法の一例のフロー図を示す。生成ニューラルネットワークを用いてオーディオ又はスピーチ信号をデコードするための装置の一例のブロック図を示す。パディングを用いて、埋め込みパラメータ及び非埋め込みパラメータを比較することによって、条件付け情報を、ターゲットレートフォーマットからデフォルトレートフォーマットに変換するコンバータの一例のブロック図を示す。条件付け情報の次元変換を用いたコンバータのアクションの一例のブロック図を示す。デフォルトフォーマットを比較することによって、ターゲットレートフォーマットから条件付け情報を変換するコンバータの一例のブロック図を示す。細かい量子化の代わりに粗い量子化を用いたコンバータのアクションの一例のブロック図を示す。予測による次元変換を用いたコンバータのアクションの一例のブロック図を示す。条件付け情報の埋め込み部分を示すコンバータのパディングアクションの一例のブロック図を示す。ターゲットレートフォーマットで条件付け情報を提供するように構成されるエンコーダの一例のブロック図を示す。リスニング試験の結果を示す。

生成モデルを用いたレート品質スケーラブル符号化
特定のビットレートで動作するように訓練されるコーディング構造が提供される。これは、デコーダを所定のビットレートのセットのために訓練することが必要でないという利点を提供し（おそらく下にある生成モデルの複雑さを増加させる必要がある）、さらに、各デコーダが訓練されなければならず、生成モデルの複雑さも著しく増加させる特定の動作ビットレートに関連付けられなければならないデコーダのセットを用いることも必要ではない。換言すれば、コーデックが複数のレート、例えばＲ１＜Ｒ２＜Ｒ３で動作することが期待される場合、各ビットレートのための一まとまりの生成モデル（Ｒ１、Ｒ２及びＲ３のための生成モデル）を必要とするか、又は、複数のビットレートで動作の複雑さをキャプチャする１つのより大きいモデルを必要とする。

したがって、本願明細書において記載されているように、生成モデルが再訓練されない（又は、限られた部分しか再訓練されない）という点で、生成モデルの複雑さは増加せず、品質対ビットレートのトレードオフに関連した複数のビットレートで動作を容易にする。換言すれば、本開示は、単一のモデルを用いて訓練されなかったビットレートで符号化方式の動作を提供する。

記載されているコーディング構造の効果は、例えば、図６に由来してもよい。図６の例に示すように、コーディング構造は、有意なレートと品質のトレードオフを容易にする埋め込み技術を含む。具体的には、提供されている例では、埋め込み技術は、８ｋｂｐｓでの条件付けで動作するように訓練された生成ニューラルネットワークを用いて、複数の品質対レートのトレードオフ点（５．６ｋｂｐｓ及び６．４ｋｂｐｓ）を達成するのを容易にする。

オーディオ又はスピーチ信号をデコードするための方法及び装置
図１ａの例を参照すると、オーディオ又はスピーチ信号をデコードする方法のフロー図が示される。ステップＳ１０１において、オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームは、レシーバによって受信される。次に、受信された符号化ビットストリームは、ビットストリームデコーダによってデコードされる。したがって、ビットストリームデコーダは、ステップＳ１０２において、第１ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を提供する。一実施形態において、第１ビットレートは、ターゲットビットレートでもよい。さらに、ステップＳ１０３において、条件付け情報は、次に、コンバータによって、第１ビットレートに関連付けられたフォーマットから第２ビットレートに関連付けられたフォーマットに変換される。一実施形態において、第２ビットレートは、デフォルトビットレートでもよい。ステップＳ１０４において、オーディオ又はスピーチ信号の再構成は、生成ニューラルネットワークによって、第２ビットレートに関連付けられたフォーマットで条件付け情報によって条件付けられる確率モデルに従って提供される。

上述した方法は、命令を有するコンピュータ可読記憶媒体を備えているコンピュータプログラム製品として実施されてもよく、命令は、処理能力を有するデバイスによって実行されるとき、デバイスに方法を実行させるように構成される。

代替的に又は追加的に、上述した方法は、オーディオ又はスピーチ信号をデコードするための装置によって実施されてもよい。図１ｂの例を次に参照すると、生成ニューラルネットワークを用いてオーディオ又はスピーチ信号をデコードするための装置が示される。装置は、動作ビットレートの範囲で動作を容易にするデコーダ１００でもよい。装置１００は、オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するためのレシーバ１０１を含む。装置１００は、受信した符号化ビットストリームをデコードして、第１ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を取得するためのビットストリームデコーダ１０２をさらに含む。一実施形態において、第１ビットレートは、ターゲットビットレートでもよい。ビットストリームデコーダ１０２は、第１ビットレートで条件付け情報の再構成を提供すると言うこともできる。ビットストリームデコーダ１０２は、動作ビットレートの範囲で装置（デコーダ）１００の動作を容易にするように構成されてもよい。装置１００は、コンバータ１０３をさらに含む。コンバータ１０３は、デコードされた条件付け情報を、第１ビットレートに関連付けられたフォーマットから第２ビットレートに関連付けられたフォーマットに変換するように構成される。一実施形態において、第２ビットレートは、デフォルトビットレートでもよい。したがって、コンバータ１０３は、デコードされた条件付け情報を処理し、ターゲットビットレートに関連付けられたフォーマットからデフォルトビットレートに関連付けられたフォーマットに変換するように構成されてもよい。そして、装置１００は、生成ニューラルネットワーク１０４を含む。生成ニューラルネットワーク１０４は、第２ビットレートに関連付けられたフォーマットで条件付け情報によって条件付けられる確率モデルに従って、オーディオ又はスピーチ信号の再構成を提供するように構成される。したがって、生成ニューラルネットワーク１０４は、条件付け情報のデフォルトフォーマットで動作してもよい。

条件付け情報
図１ｂの例に示され、上述されるように、装置１００は、条件付け情報を変換するように構成されるコンバータ１０３を含む。この開示に記載されている装置１００は、２つの部分を有してもよい条件付け情報の特別な構造を利用してもよい。一実施形態において、条件付け情報は、埋め込み部分及び非埋め込み部分を含んでもよい。代替的に又は追加的に、条件付け情報は、１つ又は複数の条件付けパラメータを含んでもよい。一実施形態において、１つ又は複数の条件付けパラメータは、ボコーダパラメータでもよい。一実施形態において、１つ又は複数の条件付けパラメータは、埋め込み部分及び非埋め込み部分に一意的に割り当てられてもよい。埋め込み部分に割り当てられるか又は埋め込み部分内に含まれる条件付けパラメータは、埋め込みパラメータを意味してもよいし、同時に、非埋め込み部分に割り当てられるか又は非埋め込み部分内に含まれる条件付けパラメータは、非埋め込みパラメータを意味してもよい。

符号化方式の動作は、例えばフレームベースでもよく、信号のフレームは、条件付け情報に関連付けられてもよい。条件付け情報は、条件付けパラメータの順序集合又は条件付けパラメータを表すｎ次元ベクトルを含んでもよい。条件付け情報の埋め込み部分内の条件付けパラメータは、それらの重要性に従う（例えば減少する重要性に従う）順序でもよい。非埋め込み部分は、固定の次元を有してもよく、次元は、それぞれの部分の条件付けパラメータの数として定義されてもよい。

一実施形態において、第１ビットレートに関連付けられた条件付け情報の埋め込み部分の次元は、第２ビットレートに関連付けられた条件付け情報の埋め込み部分の次元以下でもよく、第１ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元は、第２ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元と同一でもよい。

第２ビットレートに関連付けられた条件付け情報の埋め込み部分から、１つ又は複数の条件付けパラメータは、最も重要でないものから開始して最も重要なものの方へのそれらの重要性に従って、さらに落とされてもよい。これは、例えば、第１ビットレートに関連付けられた条件付け情報の埋め込み部分の近似の再構成（デコーディング）が、依然として特定の利用できる識別された最も重要な条件付けパラメータに基づいて可能な方法で行われてもよい。上述したように、埋め込み部分の１つの利点は、品質対ビットレートのトレードオフを容易にするということである。（このトレードオフは条件付けの埋め込み部分の設計によって有効になってもよい。この種の設計の例は、説明の追加の実施形態において提供される）。例えば、埋め込み部分で最も重要でない条件付けパラメータを落とすことは、条件付け情報のこの部分をコード化するのに必要なビットレートを減少するが、符号化方式の再構成（デコーディング）品質も減少させる。それゆえ、条件付けパラメータが、例えばエンコーダ側で、条件付け情報の埋め込み部分から除去されるにつれて、再構成品質は大きく低下する。

一実施形態において、条件付け情報の埋め込み部分の条件付けパラメータは、（ｉ）符号化信号を表す線形予測（フィルタ）モデルに由来した反射係数、（ｉｉ）低周波から高周波までの順のサブバンドエネルギーのベクトル、（ｉｉｉ）カルーネン・レベー変換の係数（例えば、固有値の降順で配置される）、又は、（ｉｖ）周波数変換（例えば、ＭＤＣＴ、ＤＣＴ）の係数の１つ又は複数を含んでもよい。

図２ａの例を次に参照すると、パディングを用いて、埋め込みパラメータ及び非埋め込みパラメータを比較することによって、条件付け情報を、ターゲットレートフォーマットからデフォルトレートフォーマットに変換するコンバータの一例のブロック図が示される。特に、コンバータは、条件付け情報を、ターゲットビットレートに関連付けられたフォーマットから、生成ニューラルネットワークが訓練されたデフォルトフォーマットに変換するように構成されてもよい。図示するように、図２ａの例では、ターゲットビットレートは、デフォルトビットレートより低くてもよい。この場合、条件付け情報の埋め込み部分２０１は、パディング２０４によって、所定のデフォルト次元２０３に拡張されてもよい。非埋め込み部分２０２、２０５の次元は変化しない。一実施形態において、コンバータは、第１ビットレートに関連付けられた条件付け情報からの条件付けパラメータの値を、第２ビットレートに関連付けられた条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、条件付け情報の非埋め込み部分を変換するように構成される。

図２ｂの例において、デフォルトビットレート（第２ビットレート）に関連付けられた条件付け情報の埋め込み部分２０３の条件付けパラメータの次元を生成する、ターゲット（第１）ビットレートに関連付けられた次元を有する条件付け情報の埋め込み部分２０１の条件付けパラメータにおけるパディング動作２０４の結果がさらに概略的に示される。

図３ａの例において、デフォルトフォーマットを比較することによって、ターゲットレートフォーマットから条件付け情報を変換するコンバータの一例のブロック図が示される。図３ａの例において、ターゲットビットレートは、デフォルトビットレートに等しい。この場合、コンバータは、通過するように構成されてもよく、すなわち、埋め込み部分３０１、３０２及び非埋め込み部分３０３、３０４での条件付けパラメータは一致する。

図３ｂの例を次に参照すると、細かい量子化の代わりに粗い量子化を用いたコンバータのアクションの一例のブロック図が示される。条件付け情報の第２非埋め込み部分は、量子化器の粗さを調整することによって、ビットレートと品質のトレードオフを達成してもよい。一実施形態において、第１ビットレートに関連付けられた条件付け情報の非埋め込み部分３０５の条件付けパラメータは、第２ビットレートに関連付けられた条件付け情報の非埋め込み部分３０６のそれぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化されてもよい。ターゲットビットレート（第１ビットレート）がデフォルトビットレート（第２ビットレート）より低い場合、コンバータは、それぞれの位置の条件付け情報の非埋め込み部分内で条件付けパラメータの粗い再構成（変換）を提供してもよい（さもないと細かい量子化された値が条件付け情報のデフォルトフォーマットで期待される）。

図３ｃの例を次に参照すると、予測による次元変換を用いたコンバータのアクションの一例のブロック図が示される。一実施形態において、コンバータは、第１ビットレート（ターゲットビットレート）に関連付けられた条件付け情報の利用できる条件付けパラメータに基づいて、任意の失った条件付けパラメータ３０８を例えば予測手段により予測すること３０７によって、第１ビットレートに関連付けられた条件付け情報の埋め込み部分３０１の次元を、第２ビットレートに関連付けられた条件付け情報の埋め込み部分３０２の次元に拡張するように構成されてもよい。

図４の例をさらに参照すると、条件付け情報の埋め込み部分を示すコンバータのパディングアクションの一例のブロック図が示される。再構成（変換）のパディング動作は、条件付け情報の埋め込み部分の構造に応じて異なってふるまうように構成されてもよい。パディングは、ゼロを有する変数のシーケンスをデフォルト次元に追加することを含んでもよい。埋め込み部分が反射係数を備える場合には（図４）、これを用いてもよい。パディング動作は、条件付け情報の欠如を示すゼロ記号を挿入することを含んでもよい。条件付け情報の埋め込み部分が、（ｉ）低周波から高周波までの順のサブバンドエネルギーのベクトル、（ｉｉ）カルーネン・レベー変換の係数、又は、（ｉｖ）周波数変換（例えば、ＭＤＣＴ、ＤＣＴ）の係数を含む場合、この種のゼロ記号が用いられてもよい。したがって、一実施形態において、コンバータは、ゼロパディング４０３によって、第１ビットレートに関連付けられた条件付け情報の埋め込み部分４０１の次元を、第２ビットレートに関連付けられた条件付け情報の埋め込み部分４０２の次元に拡張するように構成されてもよい。

生成ニューラルネットワーク
一実施形態において、生成ニューラルネットワークは、第２ビットレートに関連付けられたフォーマットで条件付け情報に基づいて訓練されてもよい。一実施形態において、生成ニューラルネットワークは、第２ビットレートに関連付けられたフォーマットで条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成してもよい。一実施形態において、生成ニューラルネットワークは、ＳａｍｐｌｅＲＮＮニューラルネットワークでもよい。

例えば、ＳａｍｐｌｅＲＮＮは、生のオーディオ信号を生成するために使用可能なディープニューラル生成モデルである。それは、一連のマルチレート回帰層から成り、これらは、異なる時間スケールでシーケンスのダイナミクスをモデル化することができる。ＳａｍｐｌｅＲＮＮは、すべての以前のサンプルで条件付けした個々のオーディオサンプル分布の製品に結合分布を分解することを介して、オーディオサンプルのシーケンスの確率をモデル化する。波形サンプルのシーケンスの結合確率分布Ｘ＝｛ｘ_１，・・・，ｘ_Ｔ｝は、以下のように書くことができる。

推論時間では、モデルは、ｐ（ｘ_１｜ｘ_１，・・・，ｘ_ｉ－１）から、ランダムにサンプリングすることによって一度に１つのサンプルを予測する。次に、再帰的な条件付けは、以前に再構成されたサンプルを用いて実行される。

条件付け情報なしでは、ＳａｍｐｌｅＲＮＮは、「バブリング」（すなわち、信号のランダムな合成）しかできない。一実施形態において、１つ又は複数の条件付けパラメータは、ボコーダパラメータでもよい。デコードされたボコーダパラメータｈ_ｆは、生成モデルに対する条件付け情報として提供されてもよい。したがって、上述した式（１）は、以下のようになる。

ここで、ｈ_ｆは、時間ｉでのオーディオサンプルに対応するボコーダパラメータを表す。ｈ_ｆの使用のため、モデルがデコーディングを容易にすることが分かる。

Ｋ段の条件付きのＳａｍｐｌｅＲＮＮにおいて、ｋ番目の段（１つの＜ｋ≦Ｋ）は、一度に長さＦＳ^（ｋ）のサンプルのオーバーラップしないフレーム上で動作し、最も低い段（ｋ＝１）は、一度に１つのサンプルを予測する。波形サンプルｘ_ｉ－ＦＳ ^（ｋ），・・・，ｘ_ｉ－１及びそれぞれの１×１畳み込み層によって処理されるデコードされた条件付きベクトルｈ_ｆは、ｋ番目の段への入力である。ｋ＜Ｋとき、（ｋ＋１）番目の段からの出力は、追加の入力である。ｋ番目の段へのすべての入力は、線形に加算される。ｋ番目のＲＮＮ段（１＜ｋ≦Ｋ）は、１つのゲート付き回帰型ユニット（ＧＲＵ）層及び段の間の時間分解能配列を実行する１つの学習済みアップサンプリング層から成る。最も低い（ｋ＝１）段は、２つの隠れた完全に接続された層を有する多層パーセプトロン（ＭＬＰ）から成る。

一実施形態において、ＳａｍｐｌｅＲＮＮニューラルネットワークは、４段のＳａｍｐｌｅＲＮＮニューラルネットワークでもよい。４段の構成（Ｋ＝４）において、ｋ番目の段のためのフレームサイズは、ＦＳ^（ｋ）である。以下のフレームサイズを用いることができる。ＦＳ^（１）＝ＦＳ^（２）＝２、ＦＳ^（３）＝１６及びＦＳ^（４）＝１６０。最上段は、ボコーダパラメータ条件付けシーケンスと同一の時間分解能を共有してもよい。学習済みアップサンプリング層は、転置畳み込み層を通して実施されてもよく、アップサンプリング率は、２段、３段及び４段においてそれぞれ２、８及び１０でもよい。回帰層及び完全に接続された層は、各々１０２４の隠れユニットを含んでもよい。

エンコーダ
図５の例を次に参照すると、ターゲットレートフォーマットで条件付け情報を提供するように構成されるエンコーダの一例のブロック図が示される。エンコーダ５００は、信号解析器５０１及びビットストリームエンコーダ５０２を含んでもよい。

エンコーダ５００は、第１ビットレート及び第２ビットレートを含む少なくとも２つの動作ビットレートを提供するように構成され、第１ビットレートは、第２ビットレートより低いレベルの再構成の品質に関連付けられ、第１ビットレートは、第２ビットレートより低い。一実施形態において、第１ビットレートは、複数の動作ビットレートのセット、すなわちｎ動作ビットレートに属してもよい。エンコーダ５００は、条件付け情報の埋め込み部分及び非埋め込み部分に一意的に割り当てられる１つ又は複数の条件付けパラメータを含む、第１ビットレートに関連付けられた条件付け情報を提供するようにさらに構成されてもよい。１つ又は複数の条件付けパラメータは、ボコーダパラメータでもよい。一実施形態において、条件付け情報の埋め込み部分及び条件付け情報の非埋め込み部分の次元は、条件付けパラメータの数として定義され、第１ビットレートに基づいてもよい。さらに、一実施形態において、埋め込み部分の条件付けパラメータは、線形予測フィルタからの反射係数、低周波から高周波までの順のサブバンドエネルギーのベクトル、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの１つ又は複数を含んでもよい。

本願明細書において記載されている方法が、上述したエンコーダ及びオーディオ又はスピーチ信号をデコードするための装置のシステムによって実施されてもよいことに留意されたい。

以下、エンコーダは、一例として記載され、限定することを意図しない。エンコーダ方式は、線形予測符号（ＬＰＣ）ボコーダの広帯域バージョンに基づいてもよい。信号解析は、フレーム当たりをベースに実行されてもよく、それは結果として以下のパラメータを生ずる。
ｉ）Ｍ次のＬＰＣフィルタ
ｉｉ）ＬＰＣ残留ＲＭＳレベルｓ
ｉｉｉ）ピッチｆ_０
ｉｖ）ｋ－バンドボイシングベクトルｖ

バンドボイシングコンポーネントｖ（ｉ），ｉ＝１，・・・，ｋは、バンド内で周期的エネルギーの一片を与える。すべてのこれらのパラメータは、上述したようにＳａｍｐｌｅＲＮＮの条件付けのために用いられてもよい。エンコーダにより用いられる信号モデルは、クリーンスピーチ（背景と同時に活動中の話し手なし）のみを記載することを意図する。

表１：エンコーダの動作点（ｋ＝６）

解析方式は、１６ｋＨｚでサンプリングされる信号の１０ｍｓのフレーム上で動作してもよい。エンコーダ設計の記載された例において、ＬＰＣモデルＭの順序は、動作ビットレートに依存する。ソース符号化技術の標準的な組み合わせを利用して、ベクトル量子化（ＶＱ）、予測符号化及びエントロピー符号化を含む適切な知覚的な考慮を有する符号化効率を達成してもよい。この例において、すべての実験のために、エンコーダの動作点は、表１のように定義される。さらに、標準的なチューニング実行が用いられる。例えば、再構成されたＬＰＣ係数のためのスペクトル歪みは、１ｄＢの近くに保たれる。

ＬＰＣモデルは、予測及びエントロピー符号化を利用する線スペクトル対（ＬＳＰ）ドメインにおいて符号化されてもよい。ＬＰＣ次数Ｍごとに、混合ガウスモデル（ＧＭＭ）は、ＷＳＪ０訓練セットにおいて訓練され、量子セルのための確率を提供した。各ＧＭＭコンポーネントは、Ｚ格子の集合の原則に従うＺ格子を有する。量子セルの最終選択は、レート歪みの加重基準に従う。

残留レベルｓは、ハイブリッドアプローチを用いてｄＢドメインで量子化されてもよい。小さいレベルのフレーム間変化は、検出され、１ビットで信号送信され、細かい均一量子化を用いて予測方式によって符号化される。他の場合には、符号化は、より大きいが均一な、広範囲のレベルをカバーするステップサイズで無記憶でもよい。

レベルと同様に、ピッチは、予測及び無記憶の符号化のハイブリッドアプローチを用いて量子化されてもよい。均一量子化は、使用されるが、歪んだピッチドメインにおいて実行される。ピッチは、ｆ_ｗ＝ｃｆ_０／（ｃ＋ｆ_０）で歪められ、ｃ＝５００Ｈｚであり、ｆ_ｗは、１０ビット／フレームを用いて量子化及び符号化される。

ボイシングは、歪んだドメインの無記憶ＶＱによって符号化されてもよい。各ボイシングコンポーネントは、

によって歪められる。９ビットのＶＱは、ＷＳＪ０訓練セット上の歪んだドメインにおいて訓練された。

ＳａｍｐｌｅＲＮＮを条件付けるための特徴ベクトルｈ_ｆは、以下のように構成されてもよい。量子化ＬＰＣ係数は、反射係数に変換されてもよい。反射係数のベクトルは、他の量子化パラメータ、すなわちｆ_０、ｓ及びｖによって連結されてもよい。条件付けベクトルの２つの構造のどちらかを用いてもよい。第１構造は、上述した直接的な連結でもよい。例えば、Ｍ＝１６のために、ベクトルｈ_ｆの全次元は２４であり、Ｍ＝２２のためには３０である。第２構造は、低レートの条件付けを高レートのフォーマットに埋め込むことでもよい。例えば、Ｍ＝１６のために、反射係数の２２次元ベクトルは、６ゼロで１６係数をパディングすることによって構成される。残りのパラメータは、それらの粗く量子化された（低ビットレート）バージョンで置換されてもよく、これは、ｈ_ｆ内のそれらの位置が現在固定されているから可能である。

解釈
一般的に言えば、本開示に記載されるようなさまざまな例の実施形態は、ハードウェア又は専用回路、ソフトウェア、ロジック又は任意のそれらの組み合わせにおいて実施されてもよい。いくつかの態様は、ハードウェアにおいて実施されてもよいが、他の態様は、コントローラ、マイクロプロセッサ又は他のコンピューティングデバイスによって実行されてもよいファームウェア又はソフトウェアにおいて実施されてもよい。本開示の例の実施形態のさまざまな態様は、ブロック図、フローチャートとして、又はいくつかの他の図面表現を用いて記載されるが、本願明細書において記載されているブロック、装置、システム、技術又は方法が、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくはロジック、汎用ハードウェアもしくはコントローラ又は他のコンピューティングデバイス又はそれらのいくつかの組み合わせにおいて実施されてもよいことを認識されたい。

追加的に、フローチャートに示されるさまざまなブロックは、方法ステップとして、及び／又は、コンピュータプログラムコードの動作から生ずる動作として、及び／又は、関連する機能を実行するように構成された複数の結合されたロジック回路素子として見られてもよい。例えば、実施形態は、機械可読媒体上で有形で実施されるコンピュータプログラムを備えているコンピュータプログラム製品を含み、コンピュータプログラムは、上述した方法を実行するように構成されるプログラムコードを含む。

開示の文脈において、機械可読媒体は、任意の有形の媒体でもよく、又は命令実行システム、装置又はデバイスによって使用されるプログラム、又は、これらに関連したプログラムを含むことができる、又は、記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体でもよい。機械可読媒体は、電子、磁気、光学、電磁気、赤外線又は半導体システム、装置又はデバイス、又は、上述の任意の好適な組み合わせを含んでもよいが、これらに限定されるものではない。機械可読記憶媒体のより具体的な例は、１つ又は複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はＦｌａｓｈメモリ）、光ファイバ、ポータブルＣＤ－ＲＯＭ（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス又は任意の上述の好適な組み合わせを含むものである。

本願明細書において記載されている方法を実行するためのコンピュータプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせにおいて記述されてもよい。これらのコンピュータプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサに提供されてもよく、プログラムコードは、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサによって実行されるとき、フローチャート及び／又はブロック図で特定される機能／動作を実施させる。プログラムコードは、完全にコンピュータ上で、部分的にコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にコンピュータ上でかつ部分的にリモートコンピュータ上で、又は、完全にリモートコンピュータ又はサーバ上で実行されてもよい。プログラムコードは、本願明細書において、「モジュール」と概して称されてもよい特別にプログラムされたデバイス上で分散されてもよい。モジュールのソフトウェアコンポーネント部分は、任意のコンピュータ言語で記述されてもよく、モノリシックコードベースの一部でもよく、又は、例えば、オブジェクト指向コンピュータ言語において典型的なディスクリートコード部分において開発されてもよい。加えて、モジュールは、複数のコンピュータプラットフォーム、サーバ、端末、モバイルデバイスなどにわたり分散してもよい。所定のモジュールは、記載されている機能が別々のプロセッサ及び／又はコンピューティングハードウェアプラットフォームによって実行されるように実施されてもよい。

本願明細書で用いられる「回路」は、以下のすべてを意味する。（ａ）ハードウェアのみの回路実施（例えば、アナログ及び／又はデジタル回路のみにおける実施）、（ｂ）回路及びソフトウェア（及び／又はファームウェア）の組み合わせ、例えば（適用できる場合）、（ｉ）プロセッサの組み合わせ、又は、（ｉｉ）装置、例えば携帯電話又はサーバにさまざまな機能を実行させるために協働する（デジタル信号プロセッサを含む）プロセッサ／ソフトウェアの部分、ソフトウェア及びメモリ（単複）、及び、（ｃ）回路、例えば、ソフトウェア又はファームウェアが物理的に存在しない場合であっても、動作のためにソフトウェア又はファームウェアを必要とするマイクロプロセッサ又はマイクロプロセッサの一部。さらに、通信媒体が、典型的には、コンピュータ可読命令、データ構造、プログラムモジュール、又は、搬送波又は他の搬送機構のような変調データ信号の他のデータを具現化し、任意の情報配信媒体も含むことは、当業者に周知である。

さらに、動作は、特定の順序で示されるが、所望の結果を達成するために、この種の動作が示される特定の順序ですなわち順番に実行されること又はすべての示される動作が実行されることを要求するものとして理解されるべきではない。特定の状況では、マルチタスキング及び並列処理は有利になりうる。同様に、いくつかの特定の実施の詳細は、上述した説明に含まれるが、これらは、請求項の範囲を制限するものとして解釈されるべきではなく、特定の実施形態に特有になりうる特徴の説明として解釈されるべきである。この明細書において別々の実施形態の文脈で記載されている特定の特徴はまた、単一の実施形態において組み合わせて実施可能である。反対に、単一の実施形態の文脈で記載されているさまざまな特徴はまた、別に複数の実施形態において別々に又は任意の適切な小さな組み合わせで実施可能である。

上述の例の実施形態に対するさまざまな変形及び適合は、当業者が上述した説明を考慮して、添付の図面とともに読むと、明らかになりうる。任意の及びすべての変形は、依然として、非限定的かつ例示的な実施形態の範囲内にある。さらに、他の実施形態は、上述した説明及び図面に示される教示の利点を有するこれらの実施形態が関係する当業者にとって思い浮かぶものである。

Claims

オーディオ又はスピーチ信号をデコードする方法であって、前記方法は、
（ａ）レシーバによって、前記オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するステップと、
（ｂ）ビットストリームデコーダによって、第１ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を提供するステップと、
（ｃ）コンバータによって、前記デコードされた条件付け情報を、前記第１ビットレートに関連付けられた前記フォーマットから第２ビットレートに関連付けられたフォーマットに変換するステップと、
（ｄ）生成ニューラルネットワークによって、前記第２ビットレートに関連付けられた前記フォーマットで前記条件付け情報によって条件付けられる確率モデルに従って、前記オーディオ又はスピーチ信号の再構成を提供するステップと、
を含む方法。
前記第１ビットレートは、ターゲットビットレートであり、前記第２ビットレートは、デフォルトビットレートである、
請求項１に記載の方法。
前記条件付け情報は、埋め込み部分及び非埋め込み部分を含む、
請求項１又は２に記載の方法。
前記条件付け情報は、１つ又は複数の条件付けパラメータを含む、
請求項１乃至３のいずれか１項に記載の方法。
前記１つ又は複数の条件付けパラメータは、ボコーダパラメータである、
請求項４に記載の方法。
前記１つ又は複数の条件付けパラメータは、前記埋め込み部分及び前記非埋め込み部分に一意的に割り当てられる、
請求項４又は５に記載の方法。
前記埋め込み部分の前記条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までの順のサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの１つ又は複数を含む、
請求項６に記載の方法。
前記第１ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元は、前記条件付けパラメータの数として定義され、前記第２ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元以下であり、
前記第１ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元は、前記第２ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元と同一である、
請求項６又は７に記載の方法。
ステップ（ｃ）は、
（ｉ）ゼロパディングによって、前記第１ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第２ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張するステップ、又は、
（ｉｉ）前記第１ビットレートに関連付けられた前記条件付け情報の利用できる前記条件付けパラメータに基づいて、任意の失った条件付けパラメータを予測することによって、前記第１ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第２ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張するステップ、
をさらに含む、
請求項６乃至８のいずれか１項に記載の方法。
ステップ（ｃ）は、前記コンバータによって、前記第１ビットレートに関連付けられた前記条件付け情報からの前記条件付けパラメータの値を、前記第２ビットレートに関連付けられた前記条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、前記条件付け情報の前記非埋め込み部分を変換するステップをさらに含む、
請求項６乃至９のいずれか１項に記載の方法。
前記第１ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記条件付けパラメータは、前記第２ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記それぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化される、
請求項１０に記載の方法。
前記生成ニューラルネットワークは、前記第２ビットレートに関連付けられた前記フォーマットで条件付け情報に基づいて訓練される、
請求項１乃至１１のいずれか１項に記載の方法。
前記生成ニューラルネットワークは、前記第２ビットレートに関連付けられた前記フォーマットで前記条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成してもよい、
請求項１乃至１２のいずれか１項に記載の方法。
前記生成ニューラルネットワークは、ＳａｍｐｌｅＲＮＮニューラルネットワークである、
請求項１２又は１３に記載の方法。
前記ＳａｍｐｌｅＲＮＮニューラルネットワークは、４段のＳａｍｐｌｅＲＮＮニューラルネットワークである、
請求項１４に記載の方法。
オーディオ又はスピーチ信号をデコードするための装置であって、前記装置は、
（ａ）前記オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するためのレシーバと、
（ｂ）前記符号化ビットストリームをデコードして、第１ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を取得するためのビットストリームデコーダと、
（ｃ）前記デコードされた条件付け情報を、前記第１ビットレートに関連付けられたフォーマットから第２ビットレートに関連付けられたフォーマットに変換するためのコンバータと、
（ｄ）前記第２ビットレートに関連付けられた前記フォーマットで前記条件付け情報によって条件付けられる確率モデルに従って、前記オーディオ又はスピーチ信号の再構成を提供するための生成ニューラルネットワークと、
を含む装置。
前記第１ビットレートは、ターゲットビットレートであり、前記第２ビットレートは、デフォルトビットレートである、
請求項１６に記載の装置。
前記条件付け情報は、埋め込み部分及び非埋め込み部分を含む、
請求項１６又は１７に記載の装置。
前記条件付け情報は、１つ又は複数の条件付けパラメータを含む、
請求項１６乃至１８のいずれか１項に記載の装置。
前記１つ又は複数の条件付けパラメータは、ボコーダパラメータである、
請求項１９に記載の装置。
前記１つ又は複数の条件付けパラメータは、前記埋め込み部分及び前記非埋め込み部分に一意的に割り当てられる、
請求項１９又は２０に記載の装置。
前記埋め込み部分の前記条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までの順のサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの１つ又は複数を含む、
請求項２１に記載の装置。
前記第１ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元は、前記条件付けパラメータの数として定義され、前記第２ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元以下であり、
前記第１ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元は、前記第２ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元と同一である、
請求項２１又は２２に記載の装置。
前記コンバータは、
（ｉ）ゼロパディングによって、前記第１ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第２ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張する、又は、
（ｉｉ）前記第１ビットレートに関連付けられた前記条件付け情報の利用できる前記条件付けパラメータに基づいて、任意の失った条件付けパラメータを予測することによって、前記第１ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第２ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張する、
ようにさらに構成される、
請求項２１乃至２３のいずれか１項に記載の装置。
前記コンバータは、前記第１ビットレートに関連付けられた前記条件付け情報からの前記条件付けパラメータの値を、前記第２ビットレートに関連付けられた前記条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、前記条件付け情報の前記非埋め込み部分を変換するようにさらに構成される、
請求項２１乃至２４のいずれか１項に記載の装置。
前記第１ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記条件付けパラメータは、前記第２ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記それぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化される、
請求項２５に記載の装置。
前記生成ニューラルネットワークは、前記第２ビットレートに関連付けられた前記フォーマットで条件付け情報に基づいて訓練される、
請求項１６乃至２６のいずれか１項に記載の装置。
前記生成ニューラルネットワークは、前記第２ビットレートに関連付けられた前記フォーマットで前記条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成してもよい、
請求項１６乃至２７のいずれか１項に記載の装置。
前記生成ニューラルネットワークは、ＳａｍｐｌｅＲＮＮニューラルネットワークである、
請求項２７又は２８に記載の装置。
前記ＳａｍｐｌｅＲＮＮニューラルネットワークは、４段のＳａｍｐｌｅＲＮＮニューラルネットワークである、
請求項２９に記載の装置。
信号解析器及びビットストリームエンコーダを含むエンコーダであって、
前記エンコーダは、第１ビットレート及び第２ビットレートを含む少なくとも２つの動作ビットレートを提供するように構成され、前記第１ビットレートは、前記第２ビットレートより低いレベルの再構成の品質に関連付けられ、前記第１ビットレートは、前記第２ビットレートより低い、
エンコーダ。
前記エンコーダは、前記条件付け情報の埋め込み部分及び非埋め込み部分に一意的に割り当てられる１つ又は複数の条件付けパラメータを含む、前記第１ビットレートに関連付けられた条件付け情報を提供するようにさらに構成される、
請求項３１に記載のエンコーダ。
前記条件付け情報の前記埋め込み部分及び前記条件付け情報の前記非埋め込み部分の次元は、前記条件付けパラメータの数として定義され、前記第１ビットレートに基づく、
請求項３２に記載のエンコーダ。
前記埋め込み部分の前記条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までの順のサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの１つ又は複数を含む、
請求項３３に記載のエンコーダ。
前記第１ビットレートは、複数の動作ビットレートのセットに属する、
請求項３１乃至３４のいずれか１項に記載のエンコーダ。
請求項３１乃至３５のいずれか１項に記載のエンコーダ及び請求項１６乃至３０のいずれか１項に記載のオーディオ又はスピーチ信号をデコードする装置のシステム。
命令を有するコンピュータ可読記憶媒体を備えているコンピュータプログラム製品であって、前記命令は、処理能力を有するデバイスによって実行されるとき、前記デバイスに請求項１乃至１５のいずれか１項に記載の方法を実行させるように構成される、
コンピュータプログラム製品。