JP2022505888A - 生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置 - Google Patents

生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置 Download PDF

Info

Publication number
JP2022505888A
JP2022505888A JP2021522972A JP2021522972A JP2022505888A JP 2022505888 A JP2022505888 A JP 2022505888A JP 2021522972 A JP2021522972 A JP 2021522972A JP 2021522972 A JP2021522972 A JP 2021522972A JP 2022505888 A JP2022505888 A JP 2022505888A
Authority
JP
Japan
Prior art keywords
bit rate
conditioning
conditioning information
embedded portion
information associated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021522972A
Other languages
English (en)
Other versions
JP7167335B2 (ja
Inventor
クレイサ,ヤヌシュ
ヘデリン,ペル
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2022505888A publication Critical patent/JP2022505888A/ja
Application granted granted Critical
Publication of JP7167335B2 publication Critical patent/JP7167335B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Figure 2022505888000001
本願明細書において記載されているオーディオ又はスピーチ信号をデコードする方法は、(a)デコーダによって、オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するステップと、(b)ビットストリームデコーダによって、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を提供するステップと、(c)デコードされた条件付け情報を、第1ビットレートに関連付けられたフォーマットから第2ビットレートに関連付けられたフォーマットに変換するステップと、(d)生成ニューラルネットワークによって、第2ビットレートに関連付けられたフォーマットで条件付け情報によって条件付けられる確率モデルに従って、オーディオ又はスピーチ信号の再構成を提供するステップと、を含む。オーディオ又はスピーチ信号をデコードするための装置、それぞれのエンコーダ、エンコーダ及びオーディオ又はスピーチ信号をデコードするための装置のシステム、ならびに、それぞれのコンピュータプログラム製品がさらに記載されている。

Description

関連出願の相互参照
この出願は、以下の優先権出願の優先権を主張し、これは本願明細書に引用されたものとする。2018年10月29日に出願された米国仮出願第62/752,031号(参照:D18118USP1)。
本開示は、概してオーディオ又はスピーチ信号をデコードする方法に関するものであり、より詳しくは、生成モデルを用いたレート品質スケーラブル符号化を提供する方法に関するものである。本開示は、前記方法の実施のための装置及びコンピュータプログラム製品ならびにそれぞれのエンコーダ及びシステムにさらに関するものである。
本願明細書では、いくつかの実施形態がその開示を特に参照して記載されるが、本開示がこの種の使用分野に限定されるものではなく、より幅広い文脈において適用できることを認識されたい。
開示の全体にわたる背景技術に関するいかなる議論も、この種の技術が広く知られており、又は、この分野で共通の一般的な知識の一部を成すという承認としてみなされるべきではない。
近年、ディープニューラルネットワーク(例えばWaveNet及びSampleRNN)に基づくオーディオ用の生成モデリングは、自然に聞こえるスピーチ合成における大きな進歩を提供してきた。主な適用は、モデルがボコーディングコンポーネントを置換する、テキストを音声に変換する分野にあった。
生成モデルは、グローバル及びローカルの潜在的な表現によって条件付け可能である。ボイス変換の文脈において、これは、静的話者識別子及び動的言語情報への条件付けの自然な分離を容易にする。しかしながら、進歩してきたにもかかわらず、特に低ビットレートで生成モデルを用いたオーディオ又はスピーチ符号化を提供する既存の必要が依然として存在する。
生成モデルの使用は、特に低ビットレートで符号化性能を改善しうるが、(ビットレートと品質との間の複数のトレードオフポイントを考慮に入れて)コーデックが複数のビットレートでの動作を容易にすると期待される場合、この種のモデルの適用は、依然として困難である。
本開示の第1態様に従って、オーディオ又はスピーチ信号をデコードする方法が提供される。方法は、(a)レシーバによって、オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するステップを含んでもよい。方法は、(b)ビットストリームデコーダによって、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を提供するステップをさらに含んでもよい。方法は、(c)コンバータによって、デコードされた条件付け情報を、第1ビットレートに関連付けられたフォーマットから第2ビットレートに関連付けられたフォーマットに変換するステップをさらに含んでもよい。そして、方法は、(d)生成ニューラルネットワークによって、第2ビットレートに関連付けられたフォーマットで条件付け情報によって条件付けられる確率モデルに従って、オーディオ又はスピーチ信号の再構成を提供するステップを含んでもよい。
いくつかの実施形態において、第1ビットレートは、ターゲットビットレートでもよく、第2ビットレートは、デフォルトビットレートでもよい。
いくつかの実施形態において、条件付け情報は、埋め込み部分及び非埋め込み部分を含んでもよい。
いくつかの実施形態において、条件付け情報は、1つ又は複数の条件付けパラメータを含んでもよい。
いくつかの実施形態において、1つ又は複数の条件付けパラメータは、ボコーダパラメータでもよい。
いくつかの実施形態において、1つ又は複数の条件付けパラメータは、埋め込み部分及び非埋め込み部分に一意的に割り当てられてもよい。
いくつかの実施形態において、埋め込み部分の条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までのサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含んでもよい。
いくつかの実施形態において、第1ビットレートに関連付けられた条件付け情報の埋め込み部分の次元は、条件付けパラメータの数として定義されてもよく、第2ビットレートに関連付けられた条件付け情報の埋め込み部分の次元以下でもよく、第1ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元は、第2ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元と同一でもよい。
いくつかの実施形態において、ステップ(c)は、(i)ゼロパディングによって、第1ビットレートに関連付けられた条件付け情報の埋め込み部分の次元を、第2ビットレートに関連付けられた条件付け情報の埋め込み部分の次元に拡張するステップ、又は、(ii)第1ビットレートに関連付けられた条件付け情報の利用できる条件付けパラメータに基づいて、任意の失った条件付けパラメータを予測することによって、第1ビットレートに関連付けられた条件付け情報の埋め込み部分の次元を、第2ビットレートに関連付けられた条件付け情報の埋め込み部分の次元に拡張するステップをさらに含んでもよい。
いくつかの実施形態において、ステップ(c)は、コンバータによって、第1ビットレートに関連付けられた条件付け情報からの条件付けパラメータの値を、第2ビットレートに関連付けられた条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、条件付け情報の非埋め込み部分を変換するステップをさらに含んでもよい。
いくつかの実施形態において、第1ビットレートに関連付けられた条件付け情報の非埋め込み部分の条件付けパラメータは、第2ビットレートに関連付けられた条件付け情報の非埋め込み部分のそれぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化されてもよい。
いくつかの実施形態において、生成ニューラルネットワークは、第2ビットレートに関連付けられたフォーマットで条件付け情報に基づいて訓練されてもよい。
いくつかの実施形態において、生成ニューラルネットワークは、第2ビットレートに関連付けられたフォーマットで条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成してもよい。
いくつかの実施形態において、生成ニューラルネットワークは、SampleRNNニューラルネットワークでもよい。
いくつかの実施形態において、SampleRNNニューラルネットワークは、4段のSampleRNNニューラルネットワークでもよい。
本開示の第2態様に従って、オーディオ又はスピーチ信号をデコードするための装置が提供される。装置は、(a)オーディオ及びスピーチ信号ならびに条件付け情報を含む符号化ビットストリームを受信するためのレシーバを含んでもよい。装置は、(b)符号化ビットストリームをデコードして、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を取得するためのビットストリームデコーダをさらに含んでもよい。装置は、(c)デコードされた条件付け情報を、第1ビットレートに関連付けられたフォーマットから第2ビットレートに関連付けられたフォーマットに変換するためのコンバータをさらに含んでもよい。そして、装置は、(d)第2ビットレートに関連付けられたフォーマットで条件付け情報によって条件付けられる確率モデルに従って、オーディオ又はスピーチ信号の再構成を提供するための生成ニューラルネットワークを含んでもよい。
いくつかの実施形態において、第1ビットレートは、ターゲットビットレートでもよく、第2ビットレートは、デフォルトビットレートでもよい。
いくつかの実施形態において、条件付け情報は、埋め込み部分及び非埋め込み部分を含んでもよい。
いくつかの実施形態において、条件付け情報は、1つ又は複数の条件付けパラメータを含んでもよい。
いくつかの実施形態において、1つ又は複数の条件付けパラメータは、ボコーダパラメータでもよい。
いくつかの実施形態において、1つ又は複数の条件付けパラメータは、埋め込み部分及び非埋め込み部分に一意的に割り当てられてもよい。
いくつかの実施形態において、埋め込み部分の条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までのサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含んでもよい。
いくつかの実施形態において、第1ビットレートに関連付けられた条件付け情報の埋め込み部分の次元は、条件付けパラメータの数として定義され、第2ビットレートに関連付けられた条件付け情報の埋め込み部分の次元以下でもよく、第1ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元は、第2ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元と同一でもよい。
いくつかの実施形態において、コンバータは、(i)ゼロパディングによって、第1ビットレートに関連付けられた条件付け情報の埋め込み部分の次元を、第2ビットレートに関連付けられた条件付け情報の埋め込み部分の次元に拡張する、又は、(ii)第1ビットレートに関連付けられた条件付け情報の利用できる条件付けパラメータに基づいて、任意の失った条件付けパラメータを予測することによって、第1ビットレートに関連付けられた条件付け情報の埋め込み部分の次元を、第2ビットレートに関連付けられた条件付け情報の埋め込み部分の次元に拡張する、ようにさらに構成されてもよい。
いくつかの実施形態において、コンバータは、第1ビットレートに関連付けられた条件付け情報からの条件付けパラメータの値を、第2ビットレートに関連付けられた条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、条件付け情報の非埋め込み部分を変換するようにさらに構成されてもよい。
いくつかの実施形態において、第1ビットレートに関連付けられた条件付け情報の非埋め込み部分の条件付けパラメータは、第2ビットレートに関連付けられた条件付け情報の非埋め込み部分のそれぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化されてもよい。
いくつかの実施形態において、生成ニューラルネットワークは、第2ビットレートに関連付けられたフォーマットで条件付け情報に基づいて訓練されてもよい。
いくつかの実施形態において、生成ニューラルネットワークは、第2ビットレートに関連付けられたフォーマットで条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって信号を再構成してもよい。
いくつかの実施形態において、生成ニューラルネットワークは、SampleRNNニューラルネットワークでもよい。
いくつかの実施形態において、SampleRNNニューラルネットワークは、4段のSampleRNNニューラルネットワークでもよい。
本開示の第3態様に従って、信号解析器及びビットストリームエンコーダを含むエンコーダが提供され、エンコーダは、第1ビットレート及び第2ビットレートを含む少なくとも2つの動作ビットレートを提供するように構成されてもよく、第1ビットレートは、第2ビットレートより低いレベルの再構成の品質に関連付けられ、第1ビットレートは、第2ビットレートより低い。
いくつかの実施形態において、エンコーダは、条件付け情報の埋め込み部分及び非埋め込み部分に一意的に割り当てられる1つ又は複数の条件付けパラメータを含む、第1ビットレートに関連付けられた条件付け情報を提供するようにさらに構成されてもよい。
いくつかの実施形態において、条件付け情報の埋め込み部分及び条件付け情報の非埋め込み部分の次元は、条件付けパラメータの数として定義されてもよく、第1ビットレートに基づいてもよい。
いくつかの実施形態において、埋め込み部分の条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までのサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含んでもよい。
いくつかの実施形態において、第1ビットレートは、複数の動作ビットレートのセットに属してもよい。
本開示の第4態様に従って、エンコーダ及びオーディオ又はスピーチ信号をデコードするための装置のシステムが提供される。
本開示の第5態様に従って、命令を有するコンピュータ可読記憶媒体を備えているコンピュータプログラム製品が提供され、命令は、処理能力を有するデバイスによって実行されるとき、デバイスにオーディオ又はスピーチ信号をデコードする方法を実行させるように構成される。
以下、開示の実施形態は、添付の図面を参照して、単に例として記載されている。
生成ニューラルネットワークを用いてオーディオ又はスピーチ信号をデコードする方法の一例のフロー図を示す。 生成ニューラルネットワークを用いてオーディオ又はスピーチ信号をデコードするための装置の一例のブロック図を示す。 パディングを用いて、埋め込みパラメータ及び非埋め込みパラメータを比較することによって、条件付け情報を、ターゲットレートフォーマットからデフォルトレートフォーマットに変換するコンバータの一例のブロック図を示す。 条件付け情報の次元変換を用いたコンバータのアクションの一例のブロック図を示す。 デフォルトフォーマットを比較することによって、ターゲットレートフォーマットから条件付け情報を変換するコンバータの一例のブロック図を示す。 細かい量子化の代わりに粗い量子化を用いたコンバータのアクションの一例のブロック図を示す。 予測による次元変換を用いたコンバータのアクションの一例のブロック図を示す。 条件付け情報の埋め込み部分を示すコンバータのパディングアクションの一例のブロック図を示す。 ターゲットレートフォーマットで条件付け情報を提供するように構成されるエンコーダの一例のブロック図を示す。 リスニング試験の結果を示す。
生成モデルを用いたレート品質スケーラブル符号化
特定のビットレートで動作するように訓練されるコーディング構造が提供される。これは、デコーダを所定のビットレートのセットのために訓練することが必要でないという利点を提供し(おそらく下にある生成モデルの複雑さを増加させる必要がある)、さらに、各デコーダが訓練されなければならず、生成モデルの複雑さも著しく増加させる特定の動作ビットレートに関連付けられなければならないデコーダのセットを用いることも必要ではない。換言すれば、コーデックが複数のレート、例えばR1<R2<R3で動作することが期待される場合、各ビットレートのための一まとまりの生成モデル(R1、R2及びR3のための生成モデル)を必要とするか、又は、複数のビットレートで動作の複雑さをキャプチャする1つのより大きいモデルを必要とする。
したがって、本願明細書において記載されているように、生成モデルが再訓練されない(又は、限られた部分しか再訓練されない)という点で、生成モデルの複雑さは増加せず、品質対ビットレートのトレードオフに関連した複数のビットレートで動作を容易にする。換言すれば、本開示は、単一のモデルを用いて訓練されなかったビットレートで符号化方式の動作を提供する。
記載されているコーディング構造の効果は、例えば、図6に由来してもよい。図6の例に示すように、コーディング構造は、有意なレートと品質のトレードオフを容易にする埋め込み技術を含む。具体的には、提供されている例では、埋め込み技術は、8kbpsでの条件付けで動作するように訓練された生成ニューラルネットワークを用いて、複数の品質対レートのトレードオフ点(5.6kbps及び6.4kbps)を達成するのを容易にする。
オーディオ又はスピーチ信号をデコードするための方法及び装置
図1aの例を参照すると、オーディオ又はスピーチ信号をデコードする方法のフロー図が示される。ステップS101において、オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームは、レシーバによって受信される。次に、受信された符号化ビットストリームは、ビットストリームデコーダによってデコードされる。したがって、ビットストリームデコーダは、ステップS102において、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を提供する。一実施形態において、第1ビットレートは、ターゲットビットレートでもよい。さらに、ステップS103において、条件付け情報は、次に、コンバータによって、第1ビットレートに関連付けられたフォーマットから第2ビットレートに関連付けられたフォーマットに変換される。一実施形態において、第2ビットレートは、デフォルトビットレートでもよい。ステップS104において、オーディオ又はスピーチ信号の再構成は、生成ニューラルネットワークによって、第2ビットレートに関連付けられたフォーマットで条件付け情報によって条件付けられる確率モデルに従って提供される。
上述した方法は、命令を有するコンピュータ可読記憶媒体を備えているコンピュータプログラム製品として実施されてもよく、命令は、処理能力を有するデバイスによって実行されるとき、デバイスに方法を実行させるように構成される。
代替的に又は追加的に、上述した方法は、オーディオ又はスピーチ信号をデコードするための装置によって実施されてもよい。図1bの例を次に参照すると、生成ニューラルネットワークを用いてオーディオ又はスピーチ信号をデコードするための装置が示される。装置は、動作ビットレートの範囲で動作を容易にするデコーダ100でもよい。装置100は、オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するためのレシーバ101を含む。装置100は、受信した符号化ビットストリームをデコードして、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を取得するためのビットストリームデコーダ102をさらに含む。一実施形態において、第1ビットレートは、ターゲットビットレートでもよい。ビットストリームデコーダ102は、第1ビットレートで条件付け情報の再構成を提供すると言うこともできる。ビットストリームデコーダ102は、動作ビットレートの範囲で装置(デコーダ)100の動作を容易にするように構成されてもよい。装置100は、コンバータ103をさらに含む。コンバータ103は、デコードされた条件付け情報を、第1ビットレートに関連付けられたフォーマットから第2ビットレートに関連付けられたフォーマットに変換するように構成される。一実施形態において、第2ビットレートは、デフォルトビットレートでもよい。したがって、コンバータ103は、デコードされた条件付け情報を処理し、ターゲットビットレートに関連付けられたフォーマットからデフォルトビットレートに関連付けられたフォーマットに変換するように構成されてもよい。そして、装置100は、生成ニューラルネットワーク104を含む。生成ニューラルネットワーク104は、第2ビットレートに関連付けられたフォーマットで条件付け情報によって条件付けられる確率モデルに従って、オーディオ又はスピーチ信号の再構成を提供するように構成される。したがって、生成ニューラルネットワーク104は、条件付け情報のデフォルトフォーマットで動作してもよい。
条件付け情報
図1bの例に示され、上述されるように、装置100は、条件付け情報を変換するように構成されるコンバータ103を含む。この開示に記載されている装置100は、2つの部分を有してもよい条件付け情報の特別な構造を利用してもよい。一実施形態において、条件付け情報は、埋め込み部分及び非埋め込み部分を含んでもよい。代替的に又は追加的に、条件付け情報は、1つ又は複数の条件付けパラメータを含んでもよい。一実施形態において、1つ又は複数の条件付けパラメータは、ボコーダパラメータでもよい。一実施形態において、1つ又は複数の条件付けパラメータは、埋め込み部分及び非埋め込み部分に一意的に割り当てられてもよい。埋め込み部分に割り当てられるか又は埋め込み部分内に含まれる条件付けパラメータは、埋め込みパラメータを意味してもよいし、同時に、非埋め込み部分に割り当てられるか又は非埋め込み部分内に含まれる条件付けパラメータは、非埋め込みパラメータを意味してもよい。
符号化方式の動作は、例えばフレームベースでもよく、信号のフレームは、条件付け情報に関連付けられてもよい。条件付け情報は、条件付けパラメータの順序集合又は条件付けパラメータを表すn次元ベクトルを含んでもよい。条件付け情報の埋め込み部分内の条件付けパラメータは、それらの重要性に従う(例えば減少する重要性に従う)順序でもよい。非埋め込み部分は、固定の次元を有してもよく、次元は、それぞれの部分の条件付けパラメータの数として定義されてもよい。
一実施形態において、第1ビットレートに関連付けられた条件付け情報の埋め込み部分の次元は、第2ビットレートに関連付けられた条件付け情報の埋め込み部分の次元以下でもよく、第1ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元は、第2ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元と同一でもよい。
第2ビットレートに関連付けられた条件付け情報の埋め込み部分から、1つ又は複数の条件付けパラメータは、最も重要でないものから開始して最も重要なものの方へのそれらの重要性に従って、さらに落とされてもよい。これは、例えば、第1ビットレートに関連付けられた条件付け情報の埋め込み部分の近似の再構成(デコーディング)が、依然として特定の利用できる識別された最も重要な条件付けパラメータに基づいて可能な方法で行われてもよい。上述したように、埋め込み部分の1つの利点は、品質対ビットレートのトレードオフを容易にするということである。(このトレードオフは条件付けの埋め込み部分の設計によって有効になってもよい。この種の設計の例は、説明の追加の実施形態において提供される)。例えば、埋め込み部分で最も重要でない条件付けパラメータを落とすことは、条件付け情報のこの部分をコード化するのに必要なビットレートを減少するが、符号化方式の再構成(デコーディング)品質も減少させる。それゆえ、条件付けパラメータが、例えばエンコーダ側で、条件付け情報の埋め込み部分から除去されるにつれて、再構成品質は大きく低下する。
一実施形態において、条件付け情報の埋め込み部分の条件付けパラメータは、(i)符号化信号を表す線形予測(フィルタ)モデルに由来した反射係数、(ii)低周波から高周波までの順のサブバンドエネルギーのベクトル、(iii)カルーネン・レベー変換の係数(例えば、固有値の降順で配置される)、又は、(iv)周波数変換(例えば、MDCT、DCT)の係数の1つ又は複数を含んでもよい。
図2aの例を次に参照すると、パディングを用いて、埋め込みパラメータ及び非埋め込みパラメータを比較することによって、条件付け情報を、ターゲットレートフォーマットからデフォルトレートフォーマットに変換するコンバータの一例のブロック図が示される。特に、コンバータは、条件付け情報を、ターゲットビットレートに関連付けられたフォーマットから、生成ニューラルネットワークが訓練されたデフォルトフォーマットに変換するように構成されてもよい。図示するように、図2aの例では、ターゲットビットレートは、デフォルトビットレートより低くてもよい。この場合、条件付け情報の埋め込み部分201は、パディング204によって、所定のデフォルト次元203に拡張されてもよい。非埋め込み部分202、205の次元は変化しない。一実施形態において、コンバータは、第1ビットレートに関連付けられた条件付け情報からの条件付けパラメータの値を、第2ビットレートに関連付けられた条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、条件付け情報の非埋め込み部分を変換するように構成される。
図2bの例において、デフォルトビットレート(第2ビットレート)に関連付けられた条件付け情報の埋め込み部分203の条件付けパラメータの次元を生成する、ターゲット(第1)ビットレートに関連付けられた次元を有する条件付け情報の埋め込み部分201の条件付けパラメータにおけるパディング動作204の結果がさらに概略的に示される。
図3aの例において、デフォルトフォーマットを比較することによって、ターゲットレートフォーマットから条件付け情報を変換するコンバータの一例のブロック図が示される。図3aの例において、ターゲットビットレートは、デフォルトビットレートに等しい。この場合、コンバータは、通過するように構成されてもよく、すなわち、埋め込み部分301、302及び非埋め込み部分303、304での条件付けパラメータは一致する。
図3bの例を次に参照すると、細かい量子化の代わりに粗い量子化を用いたコンバータのアクションの一例のブロック図が示される。条件付け情報の第2非埋め込み部分は、量子化器の粗さを調整することによって、ビットレートと品質のトレードオフを達成してもよい。一実施形態において、第1ビットレートに関連付けられた条件付け情報の非埋め込み部分305の条件付けパラメータは、第2ビットレートに関連付けられた条件付け情報の非埋め込み部分306のそれぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化されてもよい。ターゲットビットレート(第1ビットレート)がデフォルトビットレート(第2ビットレート)より低い場合、コンバータは、それぞれの位置の条件付け情報の非埋め込み部分内で条件付けパラメータの粗い再構成(変換)を提供してもよい(さもないと細かい量子化された値が条件付け情報のデフォルトフォーマットで期待される)。
図3cの例を次に参照すると、予測による次元変換を用いたコンバータのアクションの一例のブロック図が示される。一実施形態において、コンバータは、第1ビットレート(ターゲットビットレート)に関連付けられた条件付け情報の利用できる条件付けパラメータに基づいて、任意の失った条件付けパラメータ308を例えば予測手段により予測すること307によって、第1ビットレートに関連付けられた条件付け情報の埋め込み部分301の次元を、第2ビットレートに関連付けられた条件付け情報の埋め込み部分302の次元に拡張するように構成されてもよい。
図4の例をさらに参照すると、条件付け情報の埋め込み部分を示すコンバータのパディングアクションの一例のブロック図が示される。再構成(変換)のパディング動作は、条件付け情報の埋め込み部分の構造に応じて異なってふるまうように構成されてもよい。パディングは、ゼロを有する変数のシーケンスをデフォルト次元に追加することを含んでもよい。埋め込み部分が反射係数を備える場合には(図4)、これを用いてもよい。パディング動作は、条件付け情報の欠如を示すゼロ記号を挿入することを含んでもよい。条件付け情報の埋め込み部分が、(i)低周波から高周波までの順のサブバンドエネルギーのベクトル、(ii)カルーネン・レベー変換の係数、又は、(iv)周波数変換(例えば、MDCT、DCT)の係数を含む場合、この種のゼロ記号が用いられてもよい。したがって、一実施形態において、コンバータは、ゼロパディング403によって、第1ビットレートに関連付けられた条件付け情報の埋め込み部分401の次元を、第2ビットレートに関連付けられた条件付け情報の埋め込み部分402の次元に拡張するように構成されてもよい。
生成ニューラルネットワーク
一実施形態において、生成ニューラルネットワークは、第2ビットレートに関連付けられたフォーマットで条件付け情報に基づいて訓練されてもよい。一実施形態において、生成ニューラルネットワークは、第2ビットレートに関連付けられたフォーマットで条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成してもよい。一実施形態において、生成ニューラルネットワークは、SampleRNNニューラルネットワークでもよい。
例えば、SampleRNNは、生のオーディオ信号を生成するために使用可能なディープニューラル生成モデルである。それは、一連のマルチレート回帰層から成り、これらは、異なる時間スケールでシーケンスのダイナミクスをモデル化することができる。SampleRNNは、すべての以前のサンプルで条件付けした個々のオーディオサンプル分布の製品に結合分布を分解することを介して、オーディオサンプルのシーケンスの確率をモデル化する。波形サンプルのシーケンスの結合確率分布X={x,・・・,x}は、以下のように書くことができる。
Figure 2022505888000002
推論時間では、モデルは、p(x|x,・・・,xi-1)から、ランダムにサンプリングすることによって一度に1つのサンプルを予測する。次に、再帰的な条件付けは、以前に再構成されたサンプルを用いて実行される。
条件付け情報なしでは、SampleRNNは、「バブリング」(すなわち、信号のランダムな合成)しかできない。一実施形態において、1つ又は複数の条件付けパラメータは、ボコーダパラメータでもよい。デコードされたボコーダパラメータhは、生成モデルに対する条件付け情報として提供されてもよい。したがって、上述した式(1)は、以下のようになる。
Figure 2022505888000003
ここで、hは、時間iでのオーディオサンプルに対応するボコーダパラメータを表す。hの使用のため、モデルがデコーディングを容易にすることが分かる。
K段の条件付きのSampleRNNにおいて、k番目の段(1つの<k≦K)は、一度に長さFS(k)のサンプルのオーバーラップしないフレーム上で動作し、最も低い段(k=1)は、一度に1つのサンプルを予測する。波形サンプルxi-FS (k),・・・,xi-1及びそれぞれの1×1畳み込み層によって処理されるデコードされた条件付きベクトルhは、k番目の段への入力である。k<Kとき、(k+1)番目の段からの出力は、追加の入力である。k番目の段へのすべての入力は、線形に加算される。k番目のRNN段(1<k≦K)は、1つのゲート付き回帰型ユニット(GRU)層及び段の間の時間分解能配列を実行する1つの学習済みアップサンプリング層から成る。最も低い(k=1)段は、2つの隠れた完全に接続された層を有する多層パーセプトロン(MLP)から成る。
一実施形態において、SampleRNNニューラルネットワークは、4段のSampleRNNニューラルネットワークでもよい。4段の構成(K=4)において、k番目の段のためのフレームサイズは、FS(k)である。以下のフレームサイズを用いることができる。FS(1)=FS(2)=2、FS(3)=16及びFS(4)=160。最上段は、ボコーダパラメータ条件付けシーケンスと同一の時間分解能を共有してもよい。学習済みアップサンプリング層は、転置畳み込み層を通して実施されてもよく、アップサンプリング率は、2段、3段及び4段においてそれぞれ2、8及び10でもよい。回帰層及び完全に接続された層は、各々1024の隠れユニットを含んでもよい。
エンコーダ
図5の例を次に参照すると、ターゲットレートフォーマットで条件付け情報を提供するように構成されるエンコーダの一例のブロック図が示される。エンコーダ500は、信号解析器501及びビットストリームエンコーダ502を含んでもよい。
エンコーダ500は、第1ビットレート及び第2ビットレートを含む少なくとも2つの動作ビットレートを提供するように構成され、第1ビットレートは、第2ビットレートより低いレベルの再構成の品質に関連付けられ、第1ビットレートは、第2ビットレートより低い。一実施形態において、第1ビットレートは、複数の動作ビットレートのセット、すなわちn動作ビットレートに属してもよい。エンコーダ500は、条件付け情報の埋め込み部分及び非埋め込み部分に一意的に割り当てられる1つ又は複数の条件付けパラメータを含む、第1ビットレートに関連付けられた条件付け情報を提供するようにさらに構成されてもよい。1つ又は複数の条件付けパラメータは、ボコーダパラメータでもよい。一実施形態において、条件付け情報の埋め込み部分及び条件付け情報の非埋め込み部分の次元は、条件付けパラメータの数として定義され、第1ビットレートに基づいてもよい。さらに、一実施形態において、埋め込み部分の条件付けパラメータは、線形予測フィルタからの反射係数、低周波から高周波までの順のサブバンドエネルギーのベクトル、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含んでもよい。
本願明細書において記載されている方法が、上述したエンコーダ及びオーディオ又はスピーチ信号をデコードするための装置のシステムによって実施されてもよいことに留意されたい。
以下、エンコーダは、一例として記載され、限定することを意図しない。エンコーダ方式は、線形予測符号(LPC)ボコーダの広帯域バージョンに基づいてもよい。信号解析は、フレーム当たりをベースに実行されてもよく、それは結果として以下のパラメータを生ずる。
i)M次のLPCフィルタ
ii)LPC残留RMSレベルs
iii)ピッチf
iv)k-バンドボイシングベクトルv
バンドボイシングコンポーネントv(i),i=1,・・・,kは、バンド内で周期的エネルギーの一片を与える。すべてのこれらのパラメータは、上述したようにSampleRNNの条件付けのために用いられてもよい。エンコーダにより用いられる信号モデルは、クリーンスピーチ(背景と同時に活動中の話し手なし)のみを記載することを意図する。
Figure 2022505888000004
表1:エンコーダの動作点(k=6)
解析方式は、16kHzでサンプリングされる信号の10msのフレーム上で動作してもよい。エンコーダ設計の記載された例において、LPCモデルMの順序は、動作ビットレートに依存する。ソース符号化技術の標準的な組み合わせを利用して、ベクトル量子化(VQ)、予測符号化及びエントロピー符号化を含む適切な知覚的な考慮を有する符号化効率を達成してもよい。この例において、すべての実験のために、エンコーダの動作点は、表1のように定義される。さらに、標準的なチューニング実行が用いられる。例えば、再構成されたLPC係数のためのスペクトル歪みは、1dBの近くに保たれる。
LPCモデルは、予測及びエントロピー符号化を利用する線スペクトル対(LSP)ドメインにおいて符号化されてもよい。LPC次数Mごとに、混合ガウスモデル(GMM)は、WSJ0訓練セットにおいて訓練され、量子セルのための確率を提供した。各GMMコンポーネントは、Z格子の集合の原則に従うZ格子を有する。量子セルの最終選択は、レート歪みの加重基準に従う。
残留レベルsは、ハイブリッドアプローチを用いてdBドメインで量子化されてもよい。小さいレベルのフレーム間変化は、検出され、1ビットで信号送信され、細かい均一量子化を用いて予測方式によって符号化される。他の場合には、符号化は、より大きいが均一な、広範囲のレベルをカバーするステップサイズで無記憶でもよい。
レベルと同様に、ピッチは、予測及び無記憶の符号化のハイブリッドアプローチを用いて量子化されてもよい。均一量子化は、使用されるが、歪んだピッチドメインにおいて実行される。ピッチは、f=cf/(c+f)で歪められ、c=500Hzであり、fは、10ビット/フレームを用いて量子化及び符号化される。
ボイシングは、歪んだドメインの無記憶VQによって符号化されてもよい。各ボイシングコンポーネントは、
Figure 2022505888000005
によって歪められる。9ビットのVQは、WSJ0訓練セット上の歪んだドメインにおいて訓練された。
SampleRNNを条件付けるための特徴ベクトルhは、以下のように構成されてもよい。量子化LPC係数は、反射係数に変換されてもよい。反射係数のベクトルは、他の量子化パラメータ、すなわちf、s及びvによって連結されてもよい。条件付けベクトルの2つの構造のどちらかを用いてもよい。第1構造は、上述した直接的な連結でもよい。例えば、M=16のために、ベクトルhの全次元は24であり、M=22のためには30である。第2構造は、低レートの条件付けを高レートのフォーマットに埋め込むことでもよい。例えば、M=16のために、反射係数の22次元ベクトルは、6ゼロで16係数をパディングすることによって構成される。残りのパラメータは、それらの粗く量子化された(低ビットレート)バージョンで置換されてもよく、これは、h内のそれらの位置が現在固定されているから可能である。
解釈
一般的に言えば、本開示に記載されるようなさまざまな例の実施形態は、ハードウェア又は専用回路、ソフトウェア、ロジック又は任意のそれらの組み合わせにおいて実施されてもよい。いくつかの態様は、ハードウェアにおいて実施されてもよいが、他の態様は、コントローラ、マイクロプロセッサ又は他のコンピューティングデバイスによって実行されてもよいファームウェア又はソフトウェアにおいて実施されてもよい。本開示の例の実施形態のさまざまな態様は、ブロック図、フローチャートとして、又はいくつかの他の図面表現を用いて記載されるが、本願明細書において記載されているブロック、装置、システム、技術又は方法が、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくはロジック、汎用ハードウェアもしくはコントローラ又は他のコンピューティングデバイス又はそれらのいくつかの組み合わせにおいて実施されてもよいことを認識されたい。
追加的に、フローチャートに示されるさまざまなブロックは、方法ステップとして、及び/又は、コンピュータプログラムコードの動作から生ずる動作として、及び/又は、関連する機能を実行するように構成された複数の結合されたロジック回路素子として見られてもよい。例えば、実施形態は、機械可読媒体上で有形で実施されるコンピュータプログラムを備えているコンピュータプログラム製品を含み、コンピュータプログラムは、上述した方法を実行するように構成されるプログラムコードを含む。
開示の文脈において、機械可読媒体は、任意の有形の媒体でもよく、又は命令実行システム、装置又はデバイスによって使用されるプログラム、又は、これらに関連したプログラムを含むことができる、又は、記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体でもよい。機械可読媒体は、電子、磁気、光学、電磁気、赤外線又は半導体システム、装置又はデバイス、又は、上述の任意の好適な組み合わせを含んでもよいが、これらに限定されるものではない。機械可読記憶媒体のより具体的な例は、1つ又は複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROM又はFlashメモリ)、光ファイバ、ポータブルCD-ROM(CD-ROM)、光記憶デバイス、磁気記憶デバイス又は任意の上述の好適な組み合わせを含むものである。
本願明細書において記載されている方法を実行するためのコンピュータプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせにおいて記述されてもよい。これらのコンピュータプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサに提供されてもよく、プログラムコードは、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサによって実行されるとき、フローチャート及び/又はブロック図で特定される機能/動作を実施させる。プログラムコードは、完全にコンピュータ上で、部分的にコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にコンピュータ上でかつ部分的にリモートコンピュータ上で、又は、完全にリモートコンピュータ又はサーバ上で実行されてもよい。プログラムコードは、本願明細書において、「モジュール」と概して称されてもよい特別にプログラムされたデバイス上で分散されてもよい。モジュールのソフトウェアコンポーネント部分は、任意のコンピュータ言語で記述されてもよく、モノリシックコードベースの一部でもよく、又は、例えば、オブジェクト指向コンピュータ言語において典型的なディスクリートコード部分において開発されてもよい。加えて、モジュールは、複数のコンピュータプラットフォーム、サーバ、端末、モバイルデバイスなどにわたり分散してもよい。所定のモジュールは、記載されている機能が別々のプロセッサ及び/又はコンピューティングハードウェアプラットフォームによって実行されるように実施されてもよい。
本願明細書で用いられる「回路」は、以下のすべてを意味する。(a)ハードウェアのみの回路実施(例えば、アナログ及び/又はデジタル回路のみにおける実施)、(b)回路及びソフトウェア(及び/又はファームウェア)の組み合わせ、例えば(適用できる場合)、(i)プロセッサの組み合わせ、又は、(ii)装置、例えば携帯電話又はサーバにさまざまな機能を実行させるために協働する(デジタル信号プロセッサを含む)プロセッサ/ソフトウェアの部分、ソフトウェア及びメモリ(単複)、及び、(c)回路、例えば、ソフトウェア又はファームウェアが物理的に存在しない場合であっても、動作のためにソフトウェア又はファームウェアを必要とするマイクロプロセッサ又はマイクロプロセッサの一部。さらに、通信媒体が、典型的には、コンピュータ可読命令、データ構造、プログラムモジュール、又は、搬送波又は他の搬送機構のような変調データ信号の他のデータを具現化し、任意の情報配信媒体も含むことは、当業者に周知である。
さらに、動作は、特定の順序で示されるが、所望の結果を達成するために、この種の動作が示される特定の順序ですなわち順番に実行されること又はすべての示される動作が実行されることを要求するものとして理解されるべきではない。特定の状況では、マルチタスキング及び並列処理は有利になりうる。同様に、いくつかの特定の実施の詳細は、上述した説明に含まれるが、これらは、請求項の範囲を制限するものとして解釈されるべきではなく、特定の実施形態に特有になりうる特徴の説明として解釈されるべきである。この明細書において別々の実施形態の文脈で記載されている特定の特徴はまた、単一の実施形態において組み合わせて実施可能である。反対に、単一の実施形態の文脈で記載されているさまざまな特徴はまた、別に複数の実施形態において別々に又は任意の適切な小さな組み合わせで実施可能である。
上述の例の実施形態に対するさまざまな変形及び適合は、当業者が上述した説明を考慮して、添付の図面とともに読むと、明らかになりうる。任意の及びすべての変形は、依然として、非限定的かつ例示的な実施形態の範囲内にある。さらに、他の実施形態は、上述した説明及び図面に示される教示の利点を有するこれらの実施形態が関係する当業者にとって思い浮かぶものである。

Claims (37)

  1. オーディオ又はスピーチ信号をデコードする方法であって、前記方法は、
    (a)レシーバによって、前記オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するステップと、
    (b)ビットストリームデコーダによって、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を提供するステップと、
    (c)コンバータによって、前記デコードされた条件付け情報を、前記第1ビットレートに関連付けられた前記フォーマットから第2ビットレートに関連付けられたフォーマットに変換するステップと、
    (d)生成ニューラルネットワークによって、前記第2ビットレートに関連付けられた前記フォーマットで前記条件付け情報によって条件付けられる確率モデルに従って、前記オーディオ又はスピーチ信号の再構成を提供するステップと、
    を含む方法。
  2. 前記第1ビットレートは、ターゲットビットレートであり、前記第2ビットレートは、デフォルトビットレートである、
    請求項1に記載の方法。
  3. 前記条件付け情報は、埋め込み部分及び非埋め込み部分を含む、
    請求項1又は2に記載の方法。
  4. 前記条件付け情報は、1つ又は複数の条件付けパラメータを含む、
    請求項1乃至3のいずれか1項に記載の方法。
  5. 前記1つ又は複数の条件付けパラメータは、ボコーダパラメータである、
    請求項4に記載の方法。
  6. 前記1つ又は複数の条件付けパラメータは、前記埋め込み部分及び前記非埋め込み部分に一意的に割り当てられる、
    請求項4又は5に記載の方法。
  7. 前記埋め込み部分の前記条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までの順のサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含む、
    請求項6に記載の方法。
  8. 前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元は、前記条件付けパラメータの数として定義され、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元以下であり、
    前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元は、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元と同一である、
    請求項6又は7に記載の方法。
  9. ステップ(c)は、
    (i)ゼロパディングによって、前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張するステップ、又は、
    (ii)前記第1ビットレートに関連付けられた前記条件付け情報の利用できる前記条件付けパラメータに基づいて、任意の失った条件付けパラメータを予測することによって、前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張するステップ、
    をさらに含む、
    請求項6乃至8のいずれか1項に記載の方法。
  10. ステップ(c)は、前記コンバータによって、前記第1ビットレートに関連付けられた前記条件付け情報からの前記条件付けパラメータの値を、前記第2ビットレートに関連付けられた前記条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、前記条件付け情報の前記非埋め込み部分を変換するステップをさらに含む、
    請求項6乃至9のいずれか1項に記載の方法。
  11. 前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記条件付けパラメータは、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記それぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化される、
    請求項10に記載の方法。
  12. 前記生成ニューラルネットワークは、前記第2ビットレートに関連付けられた前記フォーマットで条件付け情報に基づいて訓練される、
    請求項1乃至11のいずれか1項に記載の方法。
  13. 前記生成ニューラルネットワークは、前記第2ビットレートに関連付けられた前記フォーマットで前記条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成してもよい、
    請求項1乃至12のいずれか1項に記載の方法。
  14. 前記生成ニューラルネットワークは、SampleRNNニューラルネットワークである、
    請求項12又は13に記載の方法。
  15. 前記SampleRNNニューラルネットワークは、4段のSampleRNNニューラルネットワークである、
    請求項14に記載の方法。
  16. オーディオ又はスピーチ信号をデコードするための装置であって、前記装置は、
    (a)前記オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するためのレシーバと、
    (b)前記符号化ビットストリームをデコードして、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を取得するためのビットストリームデコーダと、
    (c)前記デコードされた条件付け情報を、前記第1ビットレートに関連付けられたフォーマットから第2ビットレートに関連付けられたフォーマットに変換するためのコンバータと、
    (d)前記第2ビットレートに関連付けられた前記フォーマットで前記条件付け情報によって条件付けられる確率モデルに従って、前記オーディオ又はスピーチ信号の再構成を提供するための生成ニューラルネットワークと、
    を含む装置。
  17. 前記第1ビットレートは、ターゲットビットレートであり、前記第2ビットレートは、デフォルトビットレートである、
    請求項16に記載の装置。
  18. 前記条件付け情報は、埋め込み部分及び非埋め込み部分を含む、
    請求項16又は17に記載の装置。
  19. 前記条件付け情報は、1つ又は複数の条件付けパラメータを含む、
    請求項16乃至18のいずれか1項に記載の装置。
  20. 前記1つ又は複数の条件付けパラメータは、ボコーダパラメータである、
    請求項19に記載の装置。
  21. 前記1つ又は複数の条件付けパラメータは、前記埋め込み部分及び前記非埋め込み部分に一意的に割り当てられる、
    請求項19又は20に記載の装置。
  22. 前記埋め込み部分の前記条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までの順のサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含む、
    請求項21に記載の装置。
  23. 前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元は、前記条件付けパラメータの数として定義され、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元以下であり、
    前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元は、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元と同一である、
    請求項21又は22に記載の装置。
  24. 前記コンバータは、
    (i)ゼロパディングによって、前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張する、又は、
    (ii)前記第1ビットレートに関連付けられた前記条件付け情報の利用できる前記条件付けパラメータに基づいて、任意の失った条件付けパラメータを予測することによって、前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張する、
    ようにさらに構成される、
    請求項21乃至23のいずれか1項に記載の装置。
  25. 前記コンバータは、前記第1ビットレートに関連付けられた前記条件付け情報からの前記条件付けパラメータの値を、前記第2ビットレートに関連付けられた前記条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、前記条件付け情報の前記非埋め込み部分を変換するようにさらに構成される、
    請求項21乃至24のいずれか1項に記載の装置。
  26. 前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記条件付けパラメータは、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記それぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化される、
    請求項25に記載の装置。
  27. 前記生成ニューラルネットワークは、前記第2ビットレートに関連付けられた前記フォーマットで条件付け情報に基づいて訓練される、
    請求項16乃至26のいずれか1項に記載の装置。
  28. 前記生成ニューラルネットワークは、前記第2ビットレートに関連付けられた前記フォーマットで前記条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成してもよい、
    請求項16乃至27のいずれか1項に記載の装置。
  29. 前記生成ニューラルネットワークは、SampleRNNニューラルネットワークである、
    請求項27又は28に記載の装置。
  30. 前記SampleRNNニューラルネットワークは、4段のSampleRNNニューラルネットワークである、
    請求項29に記載の装置。
  31. 信号解析器及びビットストリームエンコーダを含むエンコーダであって、
    前記エンコーダは、第1ビットレート及び第2ビットレートを含む少なくとも2つの動作ビットレートを提供するように構成され、前記第1ビットレートは、前記第2ビットレートより低いレベルの再構成の品質に関連付けられ、前記第1ビットレートは、前記第2ビットレートより低い、
    エンコーダ。
  32. 前記エンコーダは、前記条件付け情報の埋め込み部分及び非埋め込み部分に一意的に割り当てられる1つ又は複数の条件付けパラメータを含む、前記第1ビットレートに関連付けられた条件付け情報を提供するようにさらに構成される、
    請求項31に記載のエンコーダ。
  33. 前記条件付け情報の前記埋め込み部分及び前記条件付け情報の前記非埋め込み部分の次元は、前記条件付けパラメータの数として定義され、前記第1ビットレートに基づく、
    請求項32に記載のエンコーダ。
  34. 前記埋め込み部分の前記条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までの順のサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含む、
    請求項33に記載のエンコーダ。
  35. 前記第1ビットレートは、複数の動作ビットレートのセットに属する、
    請求項31乃至34のいずれか1項に記載のエンコーダ。
  36. 請求項31乃至35のいずれか1項に記載のエンコーダ及び請求項16乃至30のいずれか1項に記載のオーディオ又はスピーチ信号をデコードする装置のシステム。
  37. 命令を有するコンピュータ可読記憶媒体を備えているコンピュータプログラム製品であって、前記命令は、処理能力を有するデバイスによって実行されるとき、前記デバイスに請求項1乃至15のいずれか1項に記載の方法を実行させるように構成される、
    コンピュータプログラム製品。
JP2021522972A 2018-10-29 2019-10-29 生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置 Active JP7167335B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862752031P 2018-10-29 2018-10-29
US62/752,031 2018-10-29
PCT/EP2019/079508 WO2020089215A1 (en) 2018-10-29 2019-10-29 Methods and apparatus for rate quality scalable coding with generative models

Publications (2)

Publication Number Publication Date
JP2022505888A true JP2022505888A (ja) 2022-01-14
JP7167335B2 JP7167335B2 (ja) 2022-11-08

Family

ID=68654431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021522972A Active JP7167335B2 (ja) 2018-10-29 2019-10-29 生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置

Country Status (5)

Country Link
US (1) US11621011B2 (ja)
EP (1) EP3874495B1 (ja)
JP (1) JP7167335B2 (ja)
CN (1) CN112970063A (ja)
WO (1) WO2020089215A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023546082A (ja) * 2020-10-16 2023-11-01 ドルビー ラボラトリーズ ライセンシング コーポレイション 一般的なメディアのためのニューラルネットワーク予測器及びそのような予測器を含む生成モデル
CN112735451B (zh) * 2020-12-23 2022-04-15 广州智讯通信系统有限公司 一种基于循环神经网络的调度音频码率切换方法、电子设备、存储介质
WO2023175198A1 (en) * 2022-03-18 2023-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vocoder techniques

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01276200A (ja) * 1988-04-28 1989-11-06 Hitachi Ltd 音声合成装置
JP2001519551A (ja) * 1997-10-02 2001-10-23 ノキア モービル フォーンズ リミティド 音声符号化
JP2003512639A (ja) * 1999-10-15 2003-04-02 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 可変ビットレートを採用したシステムにおけるロバストフレームタイプ保護の方法及びシステム
US20180075343A1 (en) * 2016-09-06 2018-03-15 Google Inc. Processing sequences using convolutional neural networks

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6092039A (en) 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder
WO2004090864A2 (en) * 2003-03-12 2004-10-21 The Indian Institute Of Technology, Bombay Method and apparatus for the encoding and decoding of speech
US7596491B1 (en) * 2005-04-19 2009-09-29 Texas Instruments Incorporated Layered CELP system and method
US20080004883A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Scalable audio coding
EP1981170A1 (en) * 2007-04-13 2008-10-15 Global IP Solutions (GIPS) AB Adaptive, scalable packet loss recovery
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
CN101159136A (zh) * 2007-11-13 2008-04-09 中国传媒大学 一种低比特率音乐信号编码方法
ATE518224T1 (de) * 2008-01-04 2011-08-15 Dolby Int Ab Audiokodierer und -dekodierer
JP5400876B2 (ja) * 2008-06-16 2014-01-29 ドルビー ラボラトリーズ ライセンシング コーポレイション ビデオ符号化のための、スライス依存性に基づくレート制御モデル適合化
US8588296B2 (en) * 2009-07-02 2013-11-19 Dialogic Corporation Bitrate control algorithm for video transcoding systems
MY160265A (en) * 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Apparatus and Method for Encoding and Decoding an Audio Signal Using an Aligned Look-Ahead Portion
US9378748B2 (en) * 2012-11-07 2016-06-28 Dolby Laboratories Licensing Corp. Reduced complexity converter SNR calculation
US9240184B1 (en) 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
WO2014108738A1 (en) * 2013-01-08 2014-07-17 Nokia Corporation Audio signal multi-channel parameter encoder
US9621902B2 (en) * 2013-02-28 2017-04-11 Google Inc. Multi-stream optimization
US9454958B2 (en) 2013-03-07 2016-09-27 Microsoft Technology Licensing, Llc Exploiting heterogeneous data in deep neural network-based speech recognition systems
US9508347B2 (en) 2013-07-10 2016-11-29 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
US9858919B2 (en) 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US9400955B2 (en) 2013-12-13 2016-07-26 Amazon Technologies, Inc. Reducing dynamic range of low-rank decomposition matrices
US9390712B2 (en) 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
US9520128B2 (en) 2014-09-23 2016-12-13 Intel Corporation Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition
US10319374B2 (en) 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01276200A (ja) * 1988-04-28 1989-11-06 Hitachi Ltd 音声合成装置
JP2001519551A (ja) * 1997-10-02 2001-10-23 ノキア モービル フォーンズ リミティド 音声符号化
JP2003512639A (ja) * 1999-10-15 2003-04-02 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 可変ビットレートを採用したシステムにおけるロバストフレームタイプ保護の方法及びシステム
US20180075343A1 (en) * 2016-09-06 2018-03-15 Google Inc. Processing sequences using convolutional neural networks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANG AI 他: "SAMPLERNN-BASED NEURAL VOCODER FOR STATISTICAL PARAMETRIC SPEECH SYNTHESIS", 2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, JPN6022018464, 20 April 2018 (2018-04-20), pages 5659 - 5663, XP033401201, ISSN: 0004774661, DOI: 10.1109/ICASSP.2018.8461878 *

Also Published As

Publication number Publication date
JP7167335B2 (ja) 2022-11-08
EP3874495B1 (en) 2022-11-30
EP3874495A1 (en) 2021-09-08
US20220044694A1 (en) 2022-02-10
WO2020089215A1 (en) 2020-05-07
US11621011B2 (en) 2023-04-04
CN112970063A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
US8364495B2 (en) Voice encoding device, voice decoding device, and methods therefor
US8515767B2 (en) Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
Klejsa et al. High-quality speech coding with sample RNN
RU2455709C2 (ru) Способ и устройство для обработки аудиосигнала
RU2509379C2 (ru) Устройство и способ квантования и обратного квантования lpc-фильтров в суперкадре
JP5241701B2 (ja) 符号化装置および符号化方法
JP7167335B2 (ja) 生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置
JP5190445B2 (ja) 符号化装置および符号化方法
JP2020204784A (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
Zhen et al. Psychoacoustic calibration of loss functions for efficient end-to-end neural audio coding
CN112767954A (zh) 音频编解码方法、装置、介质及电子设备
JP6148342B2 (ja) 低または中ビットレートに対する知覚品質に基づくオーディオ分類
US9240192B2 (en) Device and method for efficiently encoding quantization parameters of spectral coefficient coding
US20110135007A1 (en) Entropy-Coded Lattice Vector Quantization
US20100280830A1 (en) Decoder
US8924202B2 (en) Audio signal coding system and method using speech signal rotation prior to lattice vector quantization
Farouk et al. Speech Coding, Synthesis, and Compression
KR20080092823A (ko) 부호화/복호화 장치 및 방법
CN116631418A (zh) 语音编码、解码方法、装置、计算机设备和存储介质
KR101348888B1 (ko) Klt 기반 도메인 스위치 스플릿 벡터 양자화 방법 및 장치
Movassagh New approaches to fine-grain scalable audio coding
JPH08137494A (ja) 音響信号符号化装置、音響信号復号装置および音響信号処理装置

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20210426

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220815

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221026

R150 Certificate of patent or registration of utility model

Ref document number: 7167335

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150