JP7487414B2 - ディープニューラルネットワークを用いた適応ブロックスイッチング - Google Patents
ディープニューラルネットワークを用いた適応ブロックスイッチング Download PDFInfo
- Publication number
- JP7487414B2 JP7487414B2 JP2023522982A JP2023522982A JP7487414B2 JP 7487414 B2 JP7487414 B2 JP 7487414B2 JP 2023522982 A JP2023522982 A JP 2023522982A JP 2023522982 A JP2023522982 A JP 2023522982A JP 7487414 B2 JP7487414 B2 JP 7487414B2
- Authority
- JP
- Japan
- Prior art keywords
- block
- neural network
- transform coefficients
- blocks
- conditioning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 199
- 230000003044 adaptive effect Effects 0.000 title claims description 38
- 230000003750 conditioning effect Effects 0.000 claims description 77
- 238000000034 method Methods 0.000 claims description 76
- 238000012549 training Methods 0.000 claims description 49
- 230000006870 function Effects 0.000 claims description 35
- 230000001131 transforming effect Effects 0.000 claims description 32
- 230000009466 transformation Effects 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 16
- 230000001052 transient effect Effects 0.000 description 15
- 230000015654 memory Effects 0.000 description 10
- 230000003068 static effect Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000001143 conditioned effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005291 magnetic effect Effects 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 241001270131 Agaricus moelleri Species 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Neurology (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本出願は、2020年10月16日に出願された米国仮特許出願第63/092,685号及び2020年11月9日に出願された欧州特許出願第20206462.2号の優先権の利益を主張し、これらは参照により本明細書に組み込まれる。
本発明は、生成モデルを、メディア信号のための既存の高効率コーディング方式と組み合わせることに関する。具体的には、本発明は、トレーニングされたニューラルネットワークを用いて適応ブロック長メディア信号の変換係数を予測するための方法に関する。
フレームのブロックを受信するステップであって、フレームの各ブロックは、上記メディア信号の部分的な時間セグメントを表す量子化された変換係数のセットを含む、ステップと、
フレームの各ブロックについての量子化された変換係数の数を示すブロック長情報を受信するステップであって、量子化された変換係数の数は、第1の数又は第2の数のうちの1つであり、上記第1の数は、上記第2の数より大きい、ステップと、
フレームの少なくとも第1のブロックが上記第2の数の量子化された変換係数をもつと決定するステップと、
少なくとも上記第1のブロックを、上記第1の数の量子化された変換係数をもつ変換済みブロックに変換するステップと、
少なくとも1つの条件付け変数が与えられると、少なくとも1つの出力変数を予測するようにトレーニングされたメインニューラルネットワークを条件付けするステップであって、少なくとも1つの条件付け変数は、条件付け情報に基づき、上記条件付け情報は、上記変換済みブロックの表現と、上記第1のブロックについてのブロック長情報の表現とを含む、ステップと、
上記少なくとも1つの出力変数から少なくとも1つの予測された変換係数を提供するように構成された出力段に、上記少なくとも1つの出力変数を提供するステップと
を含む方法。
を更に含む、EEE1の方法。
を更に含む、EEE1の方法。
上記予測された変換係数を時間領域信号に変換するステップと
を更に含む、先行するEEEのいずれかの方法。
フレームのN個の連続したブロックが上記第2の数の量子化された変換係数をもつと決定するステップ
を含む、EEE8の方法。
フレームの各ブロックについて、それぞれの時間領域窓関数の表現を受信するステップであって、上記第1のブロック及び第2のブロックの窓関数は部分的に重複する、ステップ
を含む、EEE8の方法。
量子化された変換係数を、第1のブロック及び第2のブロックの窓化された時間領域表現に逆変換するステップと、
第1のブロック及び第2のブロックの窓化された時間領域表現を重複加算するステップと、
第1のブロック及び第2のブロックの重複加算された時間領域表現を、上記第1の数の量子化された変換係数をもつ変換済みブロックに変換するステップと
を含む、EEE13の方法。
メディア信号の周波数コンテンツを表すいくつかの数の変換係数を各々が含む変換ブロックのセットを取得するステップであって、各ブロック中の変換係数の数は、第1の数又は第2の数であり、第1の数は、第2の数より大きい、ステップと、
第1のブロックが第2の数の変換係数を含むと決定するステップと、
第1のブロックを、第1の数の変換係数をもつ変換済みブロックに変換するステップと、
変換済みブロックからターゲット予測ブロックを取得するステップと、
変換済みブロックを量子化するステップと、
量子化された変換済みブロックからトレーニングブロックを取得するステップと
を含む方法。
メディア信号の部分的な時間セグメントを表す量子化された変換係数のセットを含むフレームを受信することと、
上記フレーム中の各ブロックについての量子化された変換係数の数を示すブロック長情報を受信することとであって、量子化された変換係数の数は、第1の数又は第2の数のうちの1つであり、上記第1の数は、上記第2の数より大きい、受信することと、
少なくとも第1のブロックが上記第2の数の変換係数をもつと決定することと、
少なくとも上記第1のブロックを、上記第1の数の量子化された変換係数をもつ変換済みブロックに変換することと
を行うように構成された適応ブロック前処理ユニットと、
メインニューラルネットワークであって、上記メインニューラルネットワークは、条件付け情報に基づいて少なくとも1つの条件付け変数が与えられると、少なくとも1つの出力変数を予測するようにトレーニングされ、上記条件付け情報は、上記変換済みブロックの表現と、上記第1のブロックについてのブロック長情報の表現とを含む、メインニューラルネットワークと、
上記少なくとも1つの出力変数から少なくとも1つの予測された変換係数を提供するように構成された出力段と
を備えるニューラルネットワークシステム。
上記逆変換ユニットは、
上記少なくとも1つの予測された変換係数及びブロック長情報を受信することと、
上記少なくとも1つの予測された変換係数を時間領域信号に変換することと
を行わせるように構成される、EEE17のニューラルネットワークデコーダ。
ターゲット予測ブロックのセットを提供することと、
上記第1の数の変換係数をもつ少なくとも1つのトレーニングブロックと上記第2の数の変換係数をもつ少なくとも1つのトレーニングブロックとを含むトレーニングブロックのセットを上記適応ブロック前処理ユニットに提供することであって、トレーニングブロックのセットは、上記ターゲット予測ブロックのセットの損なわれた表現である、提供することと、
上記トレーニングブロックのセットからの予測ブロックのセットを上記出力段から取得することと、
上記ターゲット予測ブロックのセットに対する予測ブロックのセットの尺度を計算することと、
尺度を減少させるように上記ニューラルネットワークシステムの重みを修正することと
を行うことによってトレーニングされている、EEE16のニューラルネットワークシステム。
Claims (20)
- コンピュータ実装ニューラルネットワークシステムを用いて、適応ブロック長メディア信号の周波数コンテンツを表す少なくとも1つの変換係数を予測するための方法であって、
1つ又は複数のブロックを含むフレームを受信するステップであって、前記フレームの各ブロックは、前記メディア信号の部分的な時間セグメントを表す量子化された変換係数のセットを含む、ステップと、
前記フレームの各ブロックについての量子化された変換係数の数を示すブロック長情報を受信するステップであって、前記量子化された変換係数の数は、第1の数又は第2の数のうちの1つであり、前記第1の数は、前記第2の数より大きい、ステップと、
前記フレームの少なくとも第1のブロックが前記第2の数の量子化された変換係数をもつと決定するステップと、
少なくとも前記第1のブロックを、前記第1の数の量子化された変換係数をもつ変換済みブロックに変換するステップと、
少なくとも1つの条件付け変数が与えられると、少なくとも1つの出力変数を予測するようにトレーニングされたメインニューラルネットワークを条件付けするステップであって、前記少なくとも1つの条件付け変数は、条件付け情報に基づき、前記条件付け情報は、前記変換済みブロックの表現と、前記第1のブロックについてのブロック長情報の表現とを含む、ステップと、
前記少なくとも1つの出力変数から少なくとも1つの予測された変換係数を提供するように構成された出力段に、前記少なくとも1つの出力変数を提供するステップと
を含む方法。 - 前記フレームの各ブロックについての知覚モデル係数のセットを受信するステップを更に含み、前記条件付け情報が前記知覚モデル係数のセットを更に含む、請求項1記載の方法。
- 前記フレームの各ブロックについてのスペクトル包絡線を受信するステップを更に含み、前記条件付け情報が前記スペクトル包絡線を更に含む、請求項1又は2に記載の方法。
- 前記第1のブロックについての前記ブロック長情報の前記表現を用いて、ブロック長ニューラルネットワークを条件付けするステップであって、前記ブロック長ニューラルネットワークは、ブロック長情報が与えられると、前記第1のブロックについての前記ブロック長情報の前記表現を出力するようにトレーニングされる、ステップ
を更に含む、請求項1から3のいずれか一項に記載の方法。 - 前記ブロック長情報を用いて前記ブロック長ニューラルネットワークを条件付けするステップは、前記ブロック長情報をワンホットベクトルとして符号化するステップと、前記ワンホットベクトルを用いて前記ブロック長ニューラルネットワークを条件付けするステップとを含む、請求項4に記載の方法。
- 前記変換済みブロックの前記量子化された変換係数を用いて条件付けニューラルネットワークを条件付けするステップであって、前記条件付けニューラルネットワークは、量子化された変換係数が与えられると、前記変換済みブロックの前記表現を出力するようにトレーニングされる、ステップ
を更に含む、請求項1から5のいずれか一項に記載の方法。 - 少なくとも前記第1のブロックを前記変換済みブロックに変換するステップは、前記第1のブロックをアップサンプリングするステップを含む、請求項1から6のいずれか一項に記載の方法。
- 周波数コンテンツを表す前記量子化された変換係数は、離散コサイン変換(DCT)係数である、請求項1から7のいずれか一項に記載の方法。
- 逆変換ユニットが、前記予測された変換係数及び前記ブロック長情報を受信するステップと、
前記予測された変換係数を時間領域信号に変換するステップと
を更に含む、請求項1から8のいずれか一項に記載の方法。 - 少なくとも前記第1のブロック及び後続の第2のブロックが前記第2の数の変換係数をもつと決定するステップを更に含み、少なくとも前記第1のブロックを前記変換済みブロックに変換するステップは、少なくとも前記第1のブロック及び第2のブロックを変換済みブロックに変換するステップを含む、請求項1から9のいずれか一項に記載の方法。
- 前記第1の数は前記第2の数の倍数Nであり、少なくとも前記第1のブロック及び前記後続の第2のブロックが前記第2の数の量子化された変換係数をもつと決定するステップは、
前記フレームのN個の連続したブロックが前記第2の数の量子化された変換係数をもつと決定するステップ
を含む、請求項10に記載の方法。 - 少なくとも前記第1のブロック及び第2のブロックを前記変換済みブロックに変換するステップは、少なくとも前記第1のブロック及び第2のブロックを連結して変換済みブロックにするステップを含む、請求項10又は11に記載の方法。
- 前記ブロック長情報を受信するステップは、
前記フレームの各ブロックについて、それぞれの時間領域窓関数の表現を受信するステップであって、前記第1のブロック及び第2のブロックの前記窓関数は部分的に重複する、ステップ
を含む、請求項10から12のいずれか一項に記載の方法。 - 少なくとも前記第1のブロック及び第2のブロックを前記変換済みブロックに変換するステップは、
前記量子化された変換係数を、前記第1のブロック及び第2のブロックの窓化された時間領域表現に逆変換するステップと、
前記第1のブロック及び第2のブロックの前記窓化された時間領域表現を重複加算するステップと、
前記第1のブロック及び第2のブロックの前記重複加算された時間領域表現を、前記第1の数の量子化された変換係数をもつ変換済みブロックに変換するステップと
を含む、請求項13に記載の方法。 - 適応ブロック長メディア信号の周波数コンテンツを表す変換係数を予測するためのコンピュータ実装ニューラルネットワークシステムであって、
1つ又は複数のブロックを含むフレームを受信することであって、前記フレームの各ブロックは、メディア信号の部分的な時間セグメントを表す量子化された変換係数のセットを含む、受信することと、
前記フレーム中の各ブロックについての量子化された変換係数の数を示すブロック長情報を受信することであって、前記量子化された変換係数の数は、第1の数又は第2の数のうちの1つであり、前記第1の数は、前記第2の数より大きい、受信することと、
少なくとも第1のブロックが前記第2の数の変換係数をもつと決定することと、
少なくとも前記第1のブロックを、前記第1の数の量子化された変換係数をもつ変換済みブロックに変換することと
を行うように構成された適応ブロック前処理ユニットと、
メインニューラルネットワークであって、前記メインニューラルネットワークは、条件付け情報に基づいて少なくとも1つの条件付け変数が与えられると、少なくとも1つの出力変数を予測するようにトレーニングされ、前記条件付け情報は、前記変換済みブロックの表現と、前記第1のブロックについてのブロック長情報の表現とを含む、メインニューラルネットワークと、
前記少なくとも1つの出力変数から少なくとも1つの予測された変換係数を提供するように構成された出力段と
を備えるニューラルネットワークシステム。 - 前記ニューラルネットワークシステムは、
ターゲット予測ブロックのセットを提供することと、
前記第1の数の変換係数をもつ少なくとも1つのトレーニングブロックと前記第2の数の変換係数をもつ少なくとも1つのトレーニングブロックとを含むトレーニングブロックのセットを前記適応ブロック前処理ユニットに提供することであって、前記トレーニングブロックのセットは、前記ターゲット予測ブロックのセットの損なわれた表現である、提供することと、
前記トレーニングブロックのセットからの予測ブロックのセットを前記出力段から取得することと、
前記ターゲット予測ブロックのセットに対する前記予測ブロックのセットの尺度を計算することと、
前記尺度を減少させるように前記ニューラルネットワークシステムにおける各ニューラルネットワークの重みを修正することと
を行うことによってトレーニングされている、請求項15に記載のニューラルネットワークシステム。 - 前記尺度は、負の尤度、平均二乗誤差、又は絶対誤差のうちの1つである、請求項16に記載のニューラルネットワークシステム。
- 請求項15から17のいずれか一項に記載のコンピュータ実装ニューラルネットワークシステムを備えるニューラルネットワークデコーダ。
- 請求項15から18のいずれか一項に記載のコンピュータ実装ニューラルネットワークシステムを備えるニューラルネットワークデコーダ。
- 逆変換ユニットを更に備え、
前記逆変換ユニットは、
前記少なくとも1つの予測された変換係数及びブロック長情報を受信することと、
前記少なくとも1つの予測された変換係数を時間領域信号に変換することと
を行うように構成される、請求項19に記載のニューラルネットワークデコーダ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024075696A JP2024129002A (ja) | 2020-10-16 | 2024-05-08 | ディープニューラルネットワークを用いた適応ブロックスイッチング |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063092685P | 2020-10-16 | 2020-10-16 | |
US63/092,685 | 2020-10-16 | ||
EP20206462 | 2020-11-09 | ||
EP20206462.2 | 2020-11-09 | ||
PCT/US2021/055248 WO2022082021A1 (en) | 2020-10-16 | 2021-10-15 | Adaptive block switching with deep neural networks |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024075696A Division JP2024129002A (ja) | 2020-10-16 | 2024-05-08 | ディープニューラルネットワークを用いた適応ブロックスイッチング |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023542747A JP2023542747A (ja) | 2023-10-11 |
JP7487414B2 true JP7487414B2 (ja) | 2024-05-20 |
Family
ID=78333316
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023522982A Active JP7487414B2 (ja) | 2020-10-16 | 2021-10-15 | ディープニューラルネットワークを用いた適応ブロックスイッチング |
JP2024075696A Pending JP2024129002A (ja) | 2020-10-16 | 2024-05-08 | ディープニューラルネットワークを用いた適応ブロックスイッチング |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024075696A Pending JP2024129002A (ja) | 2020-10-16 | 2024-05-08 | ディープニューラルネットワークを用いた適応ブロックスイッチング |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230386486A1 (ja) |
EP (1) | EP4229633A1 (ja) |
JP (2) | JP7487414B2 (ja) |
CN (1) | CN116368497A (ja) |
WO (1) | WO2022082021A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002536681A (ja) | 1999-01-28 | 2002-10-29 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | 適応性のあるブロック長符号化システムのためのデータ構成 |
US20200111501A1 (en) | 2018-10-05 | 2020-04-09 | Electronics And Telecommunications Research Institute | Audio signal encoding method and device, and audio signal decoding method and device |
WO2020207593A1 (en) | 2019-04-11 | 2020-10-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10629213B2 (en) * | 2017-10-25 | 2020-04-21 | The Nielsen Company (Us), Llc | Methods and apparatus to perform windowed sliding transforms |
KR102708715B1 (ko) * | 2018-11-16 | 2024-09-24 | 삼성전자주식회사 | 영상 처리 장치 및 그 동작방법 |
-
2021
- 2021-10-15 US US18/248,294 patent/US20230386486A1/en active Pending
- 2021-10-15 WO PCT/US2021/055248 patent/WO2022082021A1/en active Application Filing
- 2021-10-15 CN CN202180070787.7A patent/CN116368497A/zh active Pending
- 2021-10-15 JP JP2023522982A patent/JP7487414B2/ja active Active
- 2021-10-15 EP EP21798240.4A patent/EP4229633A1/en active Pending
-
2024
- 2024-05-08 JP JP2024075696A patent/JP2024129002A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002536681A (ja) | 1999-01-28 | 2002-10-29 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | 適応性のあるブロック長符号化システムのためのデータ構成 |
US20200111501A1 (en) | 2018-10-05 | 2020-04-09 | Electronics And Telecommunications Research Institute | Audio signal encoding method and device, and audio signal decoding method and device |
WO2020207593A1 (en) | 2019-04-11 | 2020-10-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program |
Also Published As
Publication number | Publication date |
---|---|
JP2023542747A (ja) | 2023-10-11 |
CN116368497A (zh) | 2023-06-30 |
JP2024129002A (ja) | 2024-09-26 |
EP4229633A1 (en) | 2023-08-23 |
US20230386486A1 (en) | 2023-11-30 |
WO2022082021A1 (en) | 2022-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3667663B1 (en) | Audio reconstruction method and device which use machine learning | |
JP2003044097A (ja) | 音声信号および音楽信号を符号化する方法 | |
US20230229892A1 (en) | Method and apparatus for determining parameters of a generative neural network | |
CN113287167B (zh) | 用于混合语音合成的方法、设备及系统 | |
CN116368563B (zh) | 使用深度生成网络的实时数据包丢失隐藏 | |
US20230178084A1 (en) | Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain | |
JP2019079069A (ja) | 線形予測復号装置、方法、プログラム及び記録媒体 | |
JP2024527536A (ja) | ニューラルネットワークおよびベクトル量子化器を使用したオーディオ波形の圧縮 | |
Mohamed et al. | On deep speech packet loss concealment: A mini-survey | |
JP7487414B2 (ja) | ディープニューラルネットワークを用いた適応ブロックスイッチング | |
CN116391190A (zh) | 使用生成式模型和潜在域量化的信号编解码 | |
JP2023546082A (ja) | 一般的なメディアのためのニューラルネットワーク予測器及びそのような予測器を含む生成モデル | |
US20220392458A1 (en) | Methods and system for waveform coding of audio signals with a generative model | |
CN117313656B (zh) | 文本生成方法、训练方法、模型、装置、设备及存储介质 | |
CN117935840A (zh) | 由终端设备执行的方法和设备 | |
WO2023240472A1 (en) | Signal encoding using latent feature prediction | |
JPH05232995A (ja) | 一般化された合成による分析音声符号化方法と装置 | |
KR20220050924A (ko) | 오디오 코딩을 위한 다중 래그 형식 | |
KR20220151997A (ko) | 오디오 신호의 코딩을 수행하는 신경망 모델의 훈련을 위한 손실 결정 방법 및 장치 | |
CN117616498A (zh) | 使用神经网络和向量量化器压缩音频波形 | |
TW202427458A (zh) | 用於音訊編碼/解碼的錯誤恢復工具 | |
JPH02287500A (ja) | ベクトル量子化方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230726 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230726 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240409 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240508 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7487414 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |