JP2022505888A - 生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置 - Google Patents
生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置 Download PDFInfo
- Publication number
- JP2022505888A JP2022505888A JP2021522972A JP2021522972A JP2022505888A JP 2022505888 A JP2022505888 A JP 2022505888A JP 2021522972 A JP2021522972 A JP 2021522972A JP 2021522972 A JP2021522972 A JP 2021522972A JP 2022505888 A JP2022505888 A JP 2022505888A
- Authority
- JP
- Japan
- Prior art keywords
- bit rate
- conditioning
- conditioning information
- embedded portion
- information associated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000003750 conditioning effect Effects 0.000 claims abstract description 239
- 238000013528 artificial neural network Methods 0.000 claims abstract description 46
- 230000001143 conditioned effect Effects 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims abstract description 12
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 18
- 230000009471 action Effects 0.000 description 10
- 238000013139 quantization Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000005587 bubbling Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
この出願は、以下の優先権出願の優先権を主張し、これは本願明細書に引用されたものとする。2018年10月29日に出願された米国仮出願第62/752,031号(参照:D18118USP1)。
特定のビットレートで動作するように訓練されるコーディング構造が提供される。これは、デコーダを所定のビットレートのセットのために訓練することが必要でないという利点を提供し(おそらく下にある生成モデルの複雑さを増加させる必要がある)、さらに、各デコーダが訓練されなければならず、生成モデルの複雑さも著しく増加させる特定の動作ビットレートに関連付けられなければならないデコーダのセットを用いることも必要ではない。換言すれば、コーデックが複数のレート、例えばR1<R2<R3で動作することが期待される場合、各ビットレートのための一まとまりの生成モデル(R1、R2及びR3のための生成モデル)を必要とするか、又は、複数のビットレートで動作の複雑さをキャプチャする1つのより大きいモデルを必要とする。
図1aの例を参照すると、オーディオ又はスピーチ信号をデコードする方法のフロー図が示される。ステップS101において、オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームは、レシーバによって受信される。次に、受信された符号化ビットストリームは、ビットストリームデコーダによってデコードされる。したがって、ビットストリームデコーダは、ステップS102において、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を提供する。一実施形態において、第1ビットレートは、ターゲットビットレートでもよい。さらに、ステップS103において、条件付け情報は、次に、コンバータによって、第1ビットレートに関連付けられたフォーマットから第2ビットレートに関連付けられたフォーマットに変換される。一実施形態において、第2ビットレートは、デフォルトビットレートでもよい。ステップS104において、オーディオ又はスピーチ信号の再構成は、生成ニューラルネットワークによって、第2ビットレートに関連付けられたフォーマットで条件付け情報によって条件付けられる確率モデルに従って提供される。
図1bの例に示され、上述されるように、装置100は、条件付け情報を変換するように構成されるコンバータ103を含む。この開示に記載されている装置100は、2つの部分を有してもよい条件付け情報の特別な構造を利用してもよい。一実施形態において、条件付け情報は、埋め込み部分及び非埋め込み部分を含んでもよい。代替的に又は追加的に、条件付け情報は、1つ又は複数の条件付けパラメータを含んでもよい。一実施形態において、1つ又は複数の条件付けパラメータは、ボコーダパラメータでもよい。一実施形態において、1つ又は複数の条件付けパラメータは、埋め込み部分及び非埋め込み部分に一意的に割り当てられてもよい。埋め込み部分に割り当てられるか又は埋め込み部分内に含まれる条件付けパラメータは、埋め込みパラメータを意味してもよいし、同時に、非埋め込み部分に割り当てられるか又は非埋め込み部分内に含まれる条件付けパラメータは、非埋め込みパラメータを意味してもよい。
一実施形態において、生成ニューラルネットワークは、第2ビットレートに関連付けられたフォーマットで条件付け情報に基づいて訓練されてもよい。一実施形態において、生成ニューラルネットワークは、第2ビットレートに関連付けられたフォーマットで条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成してもよい。一実施形態において、生成ニューラルネットワークは、SampleRNNニューラルネットワークでもよい。
図5の例を次に参照すると、ターゲットレートフォーマットで条件付け情報を提供するように構成されるエンコーダの一例のブロック図が示される。エンコーダ500は、信号解析器501及びビットストリームエンコーダ502を含んでもよい。
i)M次のLPCフィルタ
ii)LPC残留RMSレベルs
iii)ピッチf0
iv)k-バンドボイシングベクトルv
一般的に言えば、本開示に記載されるようなさまざまな例の実施形態は、ハードウェア又は専用回路、ソフトウェア、ロジック又は任意のそれらの組み合わせにおいて実施されてもよい。いくつかの態様は、ハードウェアにおいて実施されてもよいが、他の態様は、コントローラ、マイクロプロセッサ又は他のコンピューティングデバイスによって実行されてもよいファームウェア又はソフトウェアにおいて実施されてもよい。本開示の例の実施形態のさまざまな態様は、ブロック図、フローチャートとして、又はいくつかの他の図面表現を用いて記載されるが、本願明細書において記載されているブロック、装置、システム、技術又は方法が、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくはロジック、汎用ハードウェアもしくはコントローラ又は他のコンピューティングデバイス又はそれらのいくつかの組み合わせにおいて実施されてもよいことを認識されたい。
Claims (37)
- オーディオ又はスピーチ信号をデコードする方法であって、前記方法は、
(a)レシーバによって、前記オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するステップと、
(b)ビットストリームデコーダによって、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を提供するステップと、
(c)コンバータによって、前記デコードされた条件付け情報を、前記第1ビットレートに関連付けられた前記フォーマットから第2ビットレートに関連付けられたフォーマットに変換するステップと、
(d)生成ニューラルネットワークによって、前記第2ビットレートに関連付けられた前記フォーマットで前記条件付け情報によって条件付けられる確率モデルに従って、前記オーディオ又はスピーチ信号の再構成を提供するステップと、
を含む方法。 - 前記第1ビットレートは、ターゲットビットレートであり、前記第2ビットレートは、デフォルトビットレートである、
請求項1に記載の方法。 - 前記条件付け情報は、埋め込み部分及び非埋め込み部分を含む、
請求項1又は2に記載の方法。 - 前記条件付け情報は、1つ又は複数の条件付けパラメータを含む、
請求項1乃至3のいずれか1項に記載の方法。 - 前記1つ又は複数の条件付けパラメータは、ボコーダパラメータである、
請求項4に記載の方法。 - 前記1つ又は複数の条件付けパラメータは、前記埋め込み部分及び前記非埋め込み部分に一意的に割り当てられる、
請求項4又は5に記載の方法。 - 前記埋め込み部分の前記条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までの順のサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含む、
請求項6に記載の方法。 - 前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元は、前記条件付けパラメータの数として定義され、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元以下であり、
前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元は、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元と同一である、
請求項6又は7に記載の方法。 - ステップ(c)は、
(i)ゼロパディングによって、前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張するステップ、又は、
(ii)前記第1ビットレートに関連付けられた前記条件付け情報の利用できる前記条件付けパラメータに基づいて、任意の失った条件付けパラメータを予測することによって、前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張するステップ、
をさらに含む、
請求項6乃至8のいずれか1項に記載の方法。 - ステップ(c)は、前記コンバータによって、前記第1ビットレートに関連付けられた前記条件付け情報からの前記条件付けパラメータの値を、前記第2ビットレートに関連付けられた前記条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、前記条件付け情報の前記非埋め込み部分を変換するステップをさらに含む、
請求項6乃至9のいずれか1項に記載の方法。 - 前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記条件付けパラメータは、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記それぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化される、
請求項10に記載の方法。 - 前記生成ニューラルネットワークは、前記第2ビットレートに関連付けられた前記フォーマットで条件付け情報に基づいて訓練される、
請求項1乃至11のいずれか1項に記載の方法。 - 前記生成ニューラルネットワークは、前記第2ビットレートに関連付けられた前記フォーマットで前記条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成してもよい、
請求項1乃至12のいずれか1項に記載の方法。 - 前記生成ニューラルネットワークは、SampleRNNニューラルネットワークである、
請求項12又は13に記載の方法。 - 前記SampleRNNニューラルネットワークは、4段のSampleRNNニューラルネットワークである、
請求項14に記載の方法。 - オーディオ又はスピーチ信号をデコードするための装置であって、前記装置は、
(a)前記オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するためのレシーバと、
(b)前記符号化ビットストリームをデコードして、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を取得するためのビットストリームデコーダと、
(c)前記デコードされた条件付け情報を、前記第1ビットレートに関連付けられたフォーマットから第2ビットレートに関連付けられたフォーマットに変換するためのコンバータと、
(d)前記第2ビットレートに関連付けられた前記フォーマットで前記条件付け情報によって条件付けられる確率モデルに従って、前記オーディオ又はスピーチ信号の再構成を提供するための生成ニューラルネットワークと、
を含む装置。 - 前記第1ビットレートは、ターゲットビットレートであり、前記第2ビットレートは、デフォルトビットレートである、
請求項16に記載の装置。 - 前記条件付け情報は、埋め込み部分及び非埋め込み部分を含む、
請求項16又は17に記載の装置。 - 前記条件付け情報は、1つ又は複数の条件付けパラメータを含む、
請求項16乃至18のいずれか1項に記載の装置。 - 前記1つ又は複数の条件付けパラメータは、ボコーダパラメータである、
請求項19に記載の装置。 - 前記1つ又は複数の条件付けパラメータは、前記埋め込み部分及び前記非埋め込み部分に一意的に割り当てられる、
請求項19又は20に記載の装置。 - 前記埋め込み部分の前記条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までの順のサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含む、
請求項21に記載の装置。 - 前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元は、前記条件付けパラメータの数として定義され、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元以下であり、
前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元は、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元と同一である、
請求項21又は22に記載の装置。 - 前記コンバータは、
(i)ゼロパディングによって、前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張する、又は、
(ii)前記第1ビットレートに関連付けられた前記条件付け情報の利用できる前記条件付けパラメータに基づいて、任意の失った条件付けパラメータを予測することによって、前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張する、
ようにさらに構成される、
請求項21乃至23のいずれか1項に記載の装置。 - 前記コンバータは、前記第1ビットレートに関連付けられた前記条件付け情報からの前記条件付けパラメータの値を、前記第2ビットレートに関連付けられた前記条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、前記条件付け情報の前記非埋め込み部分を変換するようにさらに構成される、
請求項21乃至24のいずれか1項に記載の装置。 - 前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記条件付けパラメータは、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記それぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化される、
請求項25に記載の装置。 - 前記生成ニューラルネットワークは、前記第2ビットレートに関連付けられた前記フォーマットで条件付け情報に基づいて訓練される、
請求項16乃至26のいずれか1項に記載の装置。 - 前記生成ニューラルネットワークは、前記第2ビットレートに関連付けられた前記フォーマットで前記条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成してもよい、
請求項16乃至27のいずれか1項に記載の装置。 - 前記生成ニューラルネットワークは、SampleRNNニューラルネットワークである、
請求項27又は28に記載の装置。 - 前記SampleRNNニューラルネットワークは、4段のSampleRNNニューラルネットワークである、
請求項29に記載の装置。 - 信号解析器及びビットストリームエンコーダを含むエンコーダであって、
前記エンコーダは、第1ビットレート及び第2ビットレートを含む少なくとも2つの動作ビットレートを提供するように構成され、前記第1ビットレートは、前記第2ビットレートより低いレベルの再構成の品質に関連付けられ、前記第1ビットレートは、前記第2ビットレートより低い、
エンコーダ。 - 前記エンコーダは、前記条件付け情報の埋め込み部分及び非埋め込み部分に一意的に割り当てられる1つ又は複数の条件付けパラメータを含む、前記第1ビットレートに関連付けられた条件付け情報を提供するようにさらに構成される、
請求項31に記載のエンコーダ。 - 前記条件付け情報の前記埋め込み部分及び前記条件付け情報の前記非埋め込み部分の次元は、前記条件付けパラメータの数として定義され、前記第1ビットレートに基づく、
請求項32に記載のエンコーダ。 - 前記埋め込み部分の前記条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までの順のサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含む、
請求項33に記載のエンコーダ。 - 前記第1ビットレートは、複数の動作ビットレートのセットに属する、
請求項31乃至34のいずれか1項に記載のエンコーダ。 - 請求項31乃至35のいずれか1項に記載のエンコーダ及び請求項16乃至30のいずれか1項に記載のオーディオ又はスピーチ信号をデコードする装置のシステム。
- 命令を有するコンピュータ可読記憶媒体を備えているコンピュータプログラム製品であって、前記命令は、処理能力を有するデバイスによって実行されるとき、前記デバイスに請求項1乃至15のいずれか1項に記載の方法を実行させるように構成される、
コンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862752031P | 2018-10-29 | 2018-10-29 | |
US62/752,031 | 2018-10-29 | ||
PCT/EP2019/079508 WO2020089215A1 (en) | 2018-10-29 | 2019-10-29 | Methods and apparatus for rate quality scalable coding with generative models |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022505888A true JP2022505888A (ja) | 2022-01-14 |
JP7167335B2 JP7167335B2 (ja) | 2022-11-08 |
Family
ID=68654431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021522972A Active JP7167335B2 (ja) | 2018-10-29 | 2019-10-29 | 生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11621011B2 (ja) |
EP (1) | EP3874495B1 (ja) |
JP (1) | JP7167335B2 (ja) |
CN (1) | CN112970063A (ja) |
WO (1) | WO2020089215A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023546082A (ja) * | 2020-10-16 | 2023-11-01 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 一般的なメディアのためのニューラルネットワーク予測器及びそのような予測器を含む生成モデル |
CN112735451B (zh) * | 2020-12-23 | 2022-04-15 | 广州智讯通信系统有限公司 | 一种基于循环神经网络的调度音频码率切换方法、电子设备、存储介质 |
WO2023175198A1 (en) * | 2022-03-18 | 2023-09-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vocoder techniques |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01276200A (ja) * | 1988-04-28 | 1989-11-06 | Hitachi Ltd | 音声合成装置 |
JP2001519551A (ja) * | 1997-10-02 | 2001-10-23 | ノキア モービル フォーンズ リミティド | 音声符号化 |
JP2003512639A (ja) * | 1999-10-15 | 2003-04-02 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 可変ビットレートを採用したシステムにおけるロバストフレームタイプ保護の方法及びシステム |
US20180075343A1 (en) * | 2016-09-06 | 2018-03-15 | Google Inc. | Processing sequences using convolutional neural networks |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6092039A (en) | 1997-10-31 | 2000-07-18 | International Business Machines Corporation | Symbiotic automatic speech recognition and vocoder |
WO2004090864A2 (en) * | 2003-03-12 | 2004-10-21 | The Indian Institute Of Technology, Bombay | Method and apparatus for the encoding and decoding of speech |
US7596491B1 (en) * | 2005-04-19 | 2009-09-29 | Texas Instruments Incorporated | Layered CELP system and method |
US20080004883A1 (en) * | 2006-06-30 | 2008-01-03 | Nokia Corporation | Scalable audio coding |
EP1981170A1 (en) * | 2007-04-13 | 2008-10-15 | Global IP Solutions (GIPS) AB | Adaptive, scalable packet loss recovery |
US8209190B2 (en) * | 2007-10-25 | 2012-06-26 | Motorola Mobility, Inc. | Method and apparatus for generating an enhancement layer within an audio coding system |
CN101159136A (zh) * | 2007-11-13 | 2008-04-09 | 中国传媒大学 | 一种低比特率音乐信号编码方法 |
ATE518224T1 (de) * | 2008-01-04 | 2011-08-15 | Dolby Int Ab | Audiokodierer und -dekodierer |
JP5400876B2 (ja) * | 2008-06-16 | 2014-01-29 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ビデオ符号化のための、スライス依存性に基づくレート制御モデル適合化 |
US8588296B2 (en) * | 2009-07-02 | 2013-11-19 | Dialogic Corporation | Bitrate control algorithm for video transcoding systems |
MY160265A (en) * | 2011-02-14 | 2017-02-28 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Apparatus and Method for Encoding and Decoding an Audio Signal Using an Aligned Look-Ahead Portion |
US9378748B2 (en) * | 2012-11-07 | 2016-06-28 | Dolby Laboratories Licensing Corp. | Reduced complexity converter SNR calculation |
US9240184B1 (en) | 2012-11-15 | 2016-01-19 | Google Inc. | Frame-level combination of deep neural network and gaussian mixture models |
WO2014108738A1 (en) * | 2013-01-08 | 2014-07-17 | Nokia Corporation | Audio signal multi-channel parameter encoder |
US9621902B2 (en) * | 2013-02-28 | 2017-04-11 | Google Inc. | Multi-stream optimization |
US9454958B2 (en) | 2013-03-07 | 2016-09-27 | Microsoft Technology Licensing, Llc | Exploiting heterogeneous data in deep neural network-based speech recognition systems |
US9508347B2 (en) | 2013-07-10 | 2016-11-29 | Tencent Technology (Shenzhen) Company Limited | Method and device for parallel processing in model training |
US9858919B2 (en) | 2013-11-27 | 2018-01-02 | International Business Machines Corporation | Speaker adaptation of neural network acoustic models using I-vectors |
US9400955B2 (en) | 2013-12-13 | 2016-07-26 | Amazon Technologies, Inc. | Reducing dynamic range of low-rank decomposition matrices |
US9390712B2 (en) | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
US9520128B2 (en) | 2014-09-23 | 2016-12-13 | Intel Corporation | Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition |
US10319374B2 (en) | 2015-11-25 | 2019-06-11 | Baidu USA, LLC | Deployed end-to-end speech recognition |
-
2019
- 2019-10-29 US US17/290,193 patent/US11621011B2/en active Active
- 2019-10-29 EP EP19808693.6A patent/EP3874495B1/en active Active
- 2019-10-29 JP JP2021522972A patent/JP7167335B2/ja active Active
- 2019-10-29 CN CN201980071838.0A patent/CN112970063A/zh active Pending
- 2019-10-29 WO PCT/EP2019/079508 patent/WO2020089215A1/en unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01276200A (ja) * | 1988-04-28 | 1989-11-06 | Hitachi Ltd | 音声合成装置 |
JP2001519551A (ja) * | 1997-10-02 | 2001-10-23 | ノキア モービル フォーンズ リミティド | 音声符号化 |
JP2003512639A (ja) * | 1999-10-15 | 2003-04-02 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 可変ビットレートを採用したシステムにおけるロバストフレームタイプ保護の方法及びシステム |
US20180075343A1 (en) * | 2016-09-06 | 2018-03-15 | Google Inc. | Processing sequences using convolutional neural networks |
Non-Patent Citations (1)
Title |
---|
YANG AI 他: "SAMPLERNN-BASED NEURAL VOCODER FOR STATISTICAL PARAMETRIC SPEECH SYNTHESIS", 2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, JPN6022018464, 20 April 2018 (2018-04-20), pages 5659 - 5663, XP033401201, ISSN: 0004774661, DOI: 10.1109/ICASSP.2018.8461878 * |
Also Published As
Publication number | Publication date |
---|---|
JP7167335B2 (ja) | 2022-11-08 |
EP3874495B1 (en) | 2022-11-30 |
EP3874495A1 (en) | 2021-09-08 |
US20220044694A1 (en) | 2022-02-10 |
WO2020089215A1 (en) | 2020-05-07 |
US11621011B2 (en) | 2023-04-04 |
CN112970063A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8364495B2 (en) | Voice encoding device, voice decoding device, and methods therefor | |
US8515767B2 (en) | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs | |
Klejsa et al. | High-quality speech coding with sample RNN | |
RU2455709C2 (ru) | Способ и устройство для обработки аудиосигнала | |
RU2509379C2 (ru) | Устройство и способ квантования и обратного квантования lpc-фильтров в суперкадре | |
JP5241701B2 (ja) | 符号化装置および符号化方法 | |
JP7167335B2 (ja) | 生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置 | |
JP5190445B2 (ja) | 符号化装置および符号化方法 | |
JP2020204784A (ja) | 信号符号化方法及びその装置、並びに信号復号方法及びその装置 | |
Zhen et al. | Psychoacoustic calibration of loss functions for efficient end-to-end neural audio coding | |
CN112767954A (zh) | 音频编解码方法、装置、介质及电子设备 | |
JP6148342B2 (ja) | 低または中ビットレートに対する知覚品質に基づくオーディオ分類 | |
US9240192B2 (en) | Device and method for efficiently encoding quantization parameters of spectral coefficient coding | |
US20110135007A1 (en) | Entropy-Coded Lattice Vector Quantization | |
US20100280830A1 (en) | Decoder | |
US8924202B2 (en) | Audio signal coding system and method using speech signal rotation prior to lattice vector quantization | |
Farouk et al. | Speech Coding, Synthesis, and Compression | |
KR20080092823A (ko) | 부호화/복호화 장치 및 방법 | |
CN116631418A (zh) | 语音编码、解码方法、装置、计算机设备和存储介质 | |
KR101348888B1 (ko) | Klt 기반 도메인 스위치 스플릿 벡터 양자화 방법 및 장치 | |
Movassagh | New approaches to fine-grain scalable audio coding | |
JPH08137494A (ja) | 音響信号符号化装置、音響信号復号装置および音響信号処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20210426 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210426 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220815 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221011 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221026 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7167335 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |