JP2022522685A - ニューラルネットワークを更新するための方法および装置 - Google Patents
ニューラルネットワークを更新するための方法および装置 Download PDFInfo
- Publication number
- JP2022522685A JP2022522685A JP2021549873A JP2021549873A JP2022522685A JP 2022522685 A JP2022522685 A JP 2022522685A JP 2021549873 A JP2021549873 A JP 2021549873A JP 2021549873 A JP2021549873 A JP 2021549873A JP 2022522685 A JP2022522685 A JP 2022522685A
- Authority
- JP
- Japan
- Prior art keywords
- parameters
- neural network
- updating
- media data
- media
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 193
- 238000000034 method Methods 0.000 title claims abstract description 119
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000004590 computer program Methods 0.000 claims abstract description 9
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 description 11
- 238000001994 activation Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本願は、以下の優先権出願の優先権を主張する:すなわち、2019年3月15日に出願された米国仮出願第62/818,879号(参照番号:D19009USP1)および2019年5月15日に出願された欧州特許出願第19174542.1号(参照番号:D19009EP)であり、これらはここに参照により組み込まれる。
本開示は、概括的には、デコーダ内のニューラルネットワークを更新するためのパラメータを伝送するためのメディアビットストリームを生成すること、およびデコーダによって前記ニューラルネットワークを更新することのための方法および装置に関する。
第2の例では、メディアデータ側層および/または出力層の重みを更新するためのパラメータのみが決定される。すなわち、他の層についてはパラメータが決定されない。
本開示の文脈において、深層ニューラルネットワークは、オーディオおよび/またはビデオメディアデータを処理するために使用されうる。オーディオについては、ニューラルネットワークの可能な応用は、メディア解析、メディア向上(たとえば、符号化オーディオ向上)、メディア分類(発話、映画、音楽、拍手など)、メディア生成(たとえば、欠けているメディアデータを、または完全に新しいメディアデータを生成する深層生成モデル(deep generative model))、またはダイアログ向上を含む。ビデオについては、ニューラルネットワークの可能な応用は、ブロック化解除または動き向上(たとえば、スポーツ番組の場合)を含む。
いくつかの実施形態において、パラメータの前記少なくとも1つの集合は、構文要素の集合に基づいてエンコードされてもよい。構文要素は、生成されたメディアビットストリーム内のパラメータの前記少なくとも1つの集合を伝送(転送)することを許容でき、さらに、デコーダがニューラルネットワークを更新することを許容できる。いくつかの実施形態では、構文要素の集合は、デコーダによって受領され、デコーダによってパラメータの前記少なくとも1つの集合を用いてニューラルネットワークを更新することは、受領された構文要素の集合に基づいていてもよい。
neural_network_idは、更新されなければならないデコーダ内のニューラルネットワークを識別するために使用されてもよい。
nn_update_byteは、特定のフォーマットで、ニューラルネットワークを更新するためのパラメータの前記少なくとも1つの集合を担持するために使用されてもよい。
upd_typeは、パラメータの前記少なくとも1つの集合を用いて実行される更新のタイプを識別するために使用されてもよく、これは、たとえば、以下の可能性がある:
0‐相対更新(伝送された値が、勾配を含み、もとの重みから加算または減算される)
1‐絶対更新(伝送された値がもとの重みを置き換えてもよい)
注意すべきことに、相対更新および絶対更新に対する0および1の割り当ては、限定しない例であり、実装によっては、割り当ては逆でもよい。現在のコンテキストで重要なのは、upd_typeが何らかの仕方で相対的な更新と絶対的な更新を示しうることである。
update_idは、実行される更新のためのパラメータの集合を識別するために、すなわち、更新パラメータの異なる集合の間の区別をするために使用されてもよい。これにより、更新パラメータの異なる集合からのパラメータの混同を避けることができる。一般に、これらの構文要素は、実行されるべきニューラルネットワークのそれぞれの更新のためのパラメータのそれぞれの集合を識別する一つまたは複数の構文要素を含んでいてもよい。
number_of_upd_packagesは、関連するneural_network_idについての更新パッケージの総数を信号伝達する。パラメータの前記少なくとも1つの集合を用いた更新は、デコーダ(クライアント)がその更新のための関連するすべてのパッケージを受領した場合にのみ適用されうる。
upd_sequence_counterは、関連する更新のための特定のパッケージを識別するために使用されてもよい。
nn_update_byteは、パラメータ(たとえば、重みの更新)の前記少なくとも1つの集合を担持するために使用されてもよい。これらのバイトのフォーマットはneural_network_idと、upd_typeのような他の値とに依存してもよい。
layer_idは、重みが更新されなければならない層を識別するために使用されてもよい。
weight_num_in_layerは、層内のどの重みが更新される必要があるかを識別するために使用されてもよい。
weight_valueは、更新されなければならない重みの値を担持するために使用されてもよい。それは、upd_typeの値、すなわち、相対更新か絶対更新かに依存して解釈されてもよい。
upd_type=0であれば、符号付バイト
upd_type=1であれば、符号なしバイト
ここでもまた、0および1の割り当ては、限定しない例であると理解される。
拡張機構を定義していることが活用されてもよい。以下の例に示されるように、充填要素(Fill Element)ID_FIL内に含まれる最上位の構文(シンタックス)要素extension_payloadがある。
ニューラルネットワークの構造は限定されないが、ニューラルネットワークは層構造(多層構造)を有してもよい。そのような層構造は、以下の限定しない例に基づいて説明される。
1/入力:生のオーディオデータ
3/エンコーダ層L=1:フィルタ数N=16、フィルタサイズ=31、活性化=PreLU
4/エンコーダ層L=2:フィルタ数N=32、フィルタサイズ=31、活性化=PreLU
.
.
.
5/エンコーダ層L=11:フィルタ数N=512、フィルタサイズ=31
6/エンコーダ層L=12:フィルタ数N=1024、フィルタサイズ=31
12/符号化されたオーディオ特徴空間
7/デコーダ層L=1:フィルタ数N=512、フィルタサイズ=31
.
.
.
8/デコーダ層L=10:フィルタ数N=32、フィルタサイズ=31、活性化PreLU
9/デコーダ層L=11:フィルタ数N=16、フィルタサイズ=31、活性化PreLU
10/出力層:フィルタ数N=1、フィルタサイズ=31、活性化tanh
11/出力:向上されたオーディオデータ
2/スキップ接続
。
特に断りのない限り、以下の議論から明らかなように、本開示を通じて、「処理」、「コンピューティング」、「計算」、「決定」、「解析」などの用語を使用する議論は、コンピュータまたは計算システム、または同様の電子計算装置のアクションおよび/またはプロセスであって、電子的な量のような物理的な量として表わされるデータを操作および/または変換して、物理的な量として同様に表わされる他のデータにするものを指すことが理解される。
デコーダにおいて実装されたニューラルネットワークを更新するためのパラメータを伝送するためのメディアビットストリームを生成する方法であって、当該方法は:
(a)前記ニューラルネットワークを更新するためのパラメータの少なくとも1つの集合を決定するステップと;
(b)パラメータの前記少なくとも1つの集合およびメディアデータをエンコードして前記メディアビットストリームを生成するステップと;
(c)前記ニューラルネットワークをパラメータの前記少なくとも1つの集合を用いて更新するために、前記デコーダに前記メディアビットストリームを伝送するステップとを含む、
方法。
〔EEE2〕
前記メディアデータは、オーディオデータおよび/またはビデオデータの一つまたは複数を含む、EEE1に記載の方法。
〔EEE3〕
パラメータの前記少なくとも1つの集合は、構文要素の集合に基づいてエンコードされる、EEE1またはEEE2に記載の方法。
〔EEE4〕
ステップ(a)において、前記ニューラルネットワークを更新するためのパラメータの2つ以上の集合が決定され、構文要素の前記集合は、実行される前記ニューラルネットワークのそれぞれの更新のためのパラメータのそれぞれの集合を同定する一つまたは複数の構文要素を含む、EEE3に記載の方法。
〔EEE5〕
前記デコーダにおいて実装される前記ニューラルネットワークは、メディアデータの処理のために使用され、前記メディアビットストリームにおいて、前記ニューラルネットワークを更新するためのパラメータの前記少なくとも1つの集合は、前記ニューラルネットワークによって処理される前記メディアデータと時間整列される、EEE1ないし4のうちいずれか一項に記載の方法。
〔EEE6〕
パラメータの前記少なくとも1つの集合は、コーデック・モード、前記メディアデータの内容、およびエンコード制約条件のうちの一つまたは複数に基づいて決定される、EEE5に記載の方法。
〔EEE7〕
前記コーデック・モードは、ビットレート、ビデオおよび/またはオーディオ・フレームレート、および使用されるコア・コーデックのうちの一つまたは複数を含む、EEE6に記載の方法。
〔EEE8〕
メディアデータの内容は、発話、音楽、および拍手のうちの一つまたは複数を含む、EEE6またはEEE7に記載の方法。
〔EEE9〕
前記エンコード制約条件は、パフォーマンス・スケーラビリティについての制約条件および適応処理についての制約条件のうちの一つまたは複数を含む、EEE6ないし8のうちいずれか一項に記載の方法。
〔EEE10〕
前記メディアデータはMPEG-HオーディオまたはMPEG-Iオーディオ・フォーマットであり、前記メディアビットストリームはMHASフォーマットのパケット化されたメディアビットストリームである、EEE1ないし9のうちいずれか一項に記載の方法。
〔EEE11〕
パラメータの前記少なくとも1つの集合は、パラメータの前記少なくとも1つの集合を、新規のMHASパケットタイプの一つまたは複数のMHASパケットにカプセル化することによってエンコードされる、EEE10に記載の方法。
〔EEE12〕
前記メディアデータが、AC-4、AC-3またはEAC-3フォーマットである、EEE1ないし11のうちいずれか一項に記載の方法。
〔EEE13〕
パラメータの前記少なくとも1つの集合は、一つまたは複数のペイロード要素として前記メディアビットストリームにおいてエンコードされる、EEE12に記載の方法。
〔EEE14〕
前記メディアデータは、MPEG-4またはMPEG-D USACフォーマットである、EEE1ないし13のうちいずれか一項に記載の方法。
〔EEE15〕
パラメータの前記少なくとも1つの集合は、一つまたは複数のペイロード要素として、または一つまたは複数のデータストリーム要素として、前記メディアビットストリームにおいてエンコードされる、EEE14に記載の方法。
〔EEE16〕
前記ニューラルネットワークは層構造を有しており、パラメータの前記少なくとも1つの集合は、前記ニューラルネットワークの、少なくともメディアデータ側層および/または出力層の重みを更新するためのパラメータを含む、EEE1ないし15のうちいずれか一項に記載の方法。
〔EEE17〕
デコーダにおいて実装されるニューラルネットワークを更新する方法であって、当該方法は:
(a)メディアデータと、前記ニューラルネットワークを更新するためのパラメータの少なくとも1つの集合とを含む符号化メディアビットストリームを受領するステップと;
(b)受領されたメディアビットストリームをデコードして、デコードされたメディアデータと、前記ニューラルネットワークを更新するためのパラメータの前記少なくとも1つの集合とを取得するステップと;
(c)前記デコーダによって、パラメータの前記少なくとも1つの集合を用いて前記ニューラルネットワークを更新するステップとを含む、
方法。
〔EEE18〕
前記メディアデータは、オーディオデータおよび/またはビデオデータの一つまたは複数を含む、EEE17に記載の方法。
〔EEE19〕
当該方法は、さらに、構文要素の集合を受領し、前記デコーダによって、パラメータの前記少なくとも1つの集合を用いて前記ニューラルネットワークを更新することを含み、前記デコーダによって、パラメータの前記少なくとも1つの集合を用いて前記ニューラルネットワークを更新することは、受領された構文要素の集合に基づく、EEE17またはEEE18に記載の方法。
〔EEE20〕
ステップ(a)において、前記ニューラルネットワークを更新するためのパラメータの2つ以上の集合が、受領された符号化メディアビットストリームに含まれ、受領された構文要素の集合は、実行される前記ニューラルネットワークのそれぞれの更新のためのパラメータのそれぞれの集合を識別する一つまたは複数の構文要素を含む、EEE19に記載の方法。
〔EEE21〕
前記ニューラルネットワークは、メディアデータの処理のために使用され、受領された符号化メディアビットストリームにおいて、パラメータの前記少なくとも1つの集合は、前記ニューラルネットワークによって処理されるメディアデータと時間整列される、EEE17ないし20のうちいずれか一項に記載の方法。
〔EEE22〕
前記ニューラルネットワークは、層構造を有しており、前記ニューラルネットワークの、少なくともメディアデータ側層および/または出力層の重みは、前記デコーダによって、パラメータの前記少なくとも1つの集合を用いて更新される、EEE17ないし21のうちいずれか一項に記載の方法。
〔EEE23〕
デコーダにおいて実装されるニューラルネットワークを更新するためのパラメータを伝送するためのメディアビットストリームを生成するための装置であって、当該装置は:
(a)前記ニューラルネットワークを更新するためのパラメータの少なくとも1つの集合を決定するステップと;
(b)パラメータの前記少なくとも1つの集合およびメディアデータをエンコードして、前記メディアビットストリームを生成するステップと;
(c)パラメータの前記少なくとも1つの集合を用いて前記ニューラルネットワークを更新するために、前記メディアビットストリームを前記デコーダに伝送するステップを含む方法を実行するように構成されたプロセッサを含む、
装置。
〔EEE24〕
デコーダにおいて実装されるニューラルネットワークを更新するための装置であって、当該装置は、
(a)メディアデータと、前記ニューラルネットワークを更新するためのパラメータの少なくとも1つの集合とを含む符号化メディアビットストリームを受領するための受領器と;
(b)受領されたメディアビットストリームをデコードして、デコードされたメディアデータと、前記ニューラルネットワークを更新するためのパラメータの前記少なくとも1つの集合とを得るためのデコーダと;
(c)パラメータの前記少なくとも1つの集合を用いて前記ニューラルネットワークを更新するための更新器とを含む、
装置。
〔EEE25〕
前記受領器は、さらに、構文要素の集合を受領し、前記更新器は、前記構文要素の集合に基づいて、パラメータの前記少なくとも1つの集合を用いて前記ニューラルネットワークを更新する、EEE24に記載の装置。
〔EEE26〕
前記ニューラルネットワークを更新するためのパラメータの2つ以上の集合が、前記受領器によって受領される前記符号化メディアビットストリームに含まれており、前記受領された構文要素の集合は、実行される前記ニューラルネットワークのそれぞれの更新のためのパラメータのそれぞれの集合を識別する一つまたは複数の構文要素を含む、EEE25に記載の装置。
〔EEE27〕
処理能力を有する装置によって実行されたときに、該装置に、EEE1ないし16のうちいずれか一項に記載の方法を実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を有するコンピュータ・プログラム・プロダクト。
〔EEE28〕
処理能力を有する装置によって実行されたときに、該装置に、EEE17ないし22のうちいずれか一項に記載の方法を実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を有するコンピュータ・プログラム・プロダクト。
Claims (19)
- デコーダにおいて実装されたニューラルネットワークを更新するためのパラメータを伝送するためのメディアビットストリームを生成する方法であって、前記ニューラルネットワークは複数の層を有し、前記複数の層のうちの最初の層としてメディアデータ側層をもち、前記複数の層のうちの最後の層として出力層をもち、当該方法は:
(a)前記メディアデータ側層および/または前記出力層の重みを更新するためのパラメータを含む、前記ニューラルネットワークの前記複数の層の重みを更新するためのパラメータの少なくとも1つの集合を決定するステップと;
(b)前記ニューラルネットワークの前記複数の層の重みを更新するためのパラメータの前記少なくとも1つの集合のうち、前記メディアデータ側層および/または前記出力層の重みを更新するためのパラメータのみと、オーディオデータおよび/またはビデオデータの一つまたは複数を含むメディアデータとをエンコードすることによって前記メディアビットストリームを生成するステップと;
(c)前記メディアデータ側層および/または前記出力層の重みを更新するためのパラメータを用いて前記ニューラルネットワークを更新するために、前記デコーダに前記メディアビットストリームを伝送するステップとを含む、
方法。 - パラメータの前記少なくとも1つの集合は、構文要素の集合に基づいてエンコードされる、請求項1に記載の方法。
- ステップ(a)において、前記ニューラルネットワークを更新するためのパラメータの2つ以上の集合が決定され、構文要素の前記集合は、実行される前記ニューラルネットワークのそれぞれの更新のためのパラメータのそれぞれの集合を同定する一つまたは複数の構文要素を含む、請求項2に記載の方法。
- 前記デコーダにおいて実装される前記ニューラルネットワークは、メディアデータの処理のために使用され、前記メディアビットストリームにおいて、前記ニューラルネットワークを更新するためのパラメータの前記少なくとも1つの集合は、前記ニューラルネットワークによって処理されるメディアデータと時間整列される、請求項1ないし3のうちいずれか一項に記載の方法。
- パラメータの前記少なくとも1つの集合は、コーデック・モード、前記メディアデータの内容、およびエンコード制約条件のうちの一つまたは複数に基づいて決定される、請求項4に記載の方法。
- 前記コーデック・モードは、ビットレート、ビデオおよび/またはオーディオ・フレームレート、および使用されるコア・コーデックのうちの一つまたは複数を含む、請求項5に記載の方法。
- メディアデータの内容は、発話、音楽、および拍手のうちの一つまたは複数を含む、請求項5または請求項6に記載の方法。
- 前記エンコード制約条件は、パフォーマンス・スケーラビリティについての制約条件および適応処理についての制約条件のうちの一つまたは複数を含む、請求項5ないし7のうちいずれか一項に記載の方法。
- パラメータの前記少なくとも1つの集合は、前記メディアビットストリームにおいて、それぞれの更新されたニューラルネットワークによって処理されるべきメディアデータより前に含められる、請求項5ないし8のうちいずれか一項に記載の方法。
- 前記メディアデータはMPEG-HオーディオまたはMPEG-Iオーディオ・フォーマットであり、前記メディアビットストリームはMHASフォーマットのパケット化されたメディアビットストリームである、請求項1ないし9のうちいずれか一項に記載の方法。
- パラメータの前記少なくとも1つの集合は、パラメータの前記少なくとも1つの集合を、新規のMHASパケットタイプの一つまたは複数のMHASパケットにカプセル化することによってエンコードされる、請求項10に記載の方法。
- 前記メディアデータが、AC-4、AC-3、EAC-3フォーマット、MPEG-4またはMPEG-D USACフォーマットである、請求項1ないし11のうちいずれか一項に記載の方法。
- パラメータの前記少なくとも1つの集合は、一つまたは複数のペイロード要素として前記メディアビットストリームにおいてエンコードされる、請求項12に記載の方法。
- パラメータの前記少なくとも1つの集合は、一つまたは複数のペイロード要素または一つまたは複数のデータストリーム要素として、前記メディアビットストリームにおいてエンコードされる、請求項13に記載の方法。
- パラメータの前記少なくとも1つの集合は、重みを更新するための前記パラメータが相対値を表すか絶対値を表すかを識別する識別子を含む、請求項1ないし14のうちいずれか一項に記載の方法。
- デコーダにおいて実装されるニューラルネットワークを更新する方法であって、前記ニューラルネットワークは複数の層を有し、前記複数の層のうちの最初の層としてメディアデータ側層をもち、前記複数の層のうちの最後の層として出力層をもち、当該方法は:
(a)メディアデータと、前記ニューラルネットワークの前記メディアデータ側層および前記出力層の重みを更新するためのパラメータとを含む符号化メディアビットストリームを受領するステップと;
(b)受領されたメディアビットストリームをデコードして、デコードされたメディアデータと、前記ニューラルネットワークの前記メディアデータ側層および前記出力層の重みを更新するためのパラメータとを取得するステップと;
(c)前記デコーダによって、前記ニューラルネットワークの前記メディアデータ側層および前記出力層の重みを更新するための受領されたパラメータを用いて前記メディアデータ側層および前記出力層を更新するステップとを含む、
方法。 - デコーダにおいて実装されるニューラルネットワークを更新するためのパラメータを伝送するためのメディアビットストリームを生成するための装置であって、前記ニューラルネットワークは複数の層を有し、前記複数の層のうちの最初の層としてメディアデータ側層をもち、前記複数の層のうちの最後の層として出力層をもち、当該装置は:
(a)前記メディアデータ側層および/または前記出力層の重みを更新するためのパラメータを含む、前記ニューラルネットワークの前記複数の層の重みを更新するためのパラメータの少なくとも1つの集合を決定するステップと;
(b)前記ニューラルネットワークの前記複数の層の重みを更新するためのパラメータの前記少なくとも1つの集合のうち、前記メディアデータ側層および/または前記出力層の重みを更新するためのパラメータのみと、オーディオデータおよび/またはビデオデータの一つまたは複数を含むメディアデータとをエンコードすることによって前記メディアビットストリームを生成するステップと;
(c)前記メディアデータ側層および/または前記出力層の重みを更新するためのパラメータを用いて前記ニューラルネットワークを更新するために、前記デコーダに前記メディアビットストリームを伝送するステップとを含む方法を実行するように構成されたプロセッサを含む、
装置。 - デコーダにおいて実装されるニューラルネットワークを更新する方ための装置であって、前記ニューラルネットワークは複数の層を有し、前記複数の層のうちの最初の層としてメディアデータ側層をもち、前記複数の層のうちの最後の層として出力層をもち、当該装置は:
(a)メディアデータと、前記ニューラルネットワークの前記メディアデータ側層および前記出力層の重みを更新するためのパラメータとを含む符号化メディアビットストリームを受領するように構成された受領器と;
(b)受領されたメディアビットストリームをデコードして、デコードされたメディアデータと、前記ニューラルネットワークの前記メディアデータ側層および前記出力層の重みを更新するためのパラメータとを取得するように構成されたデコーダと;
(c)前記ニューラルネットワークの前記メディアデータ側層および前記出力層の重みを更新するための受領されたパラメータを用いて前記メディアデータ側層および前記出力層を更新するように構成された更新器とを含む、
装置。 - 処理能力を有する装置によって実行されたときに、該装置に、請求項1ないし15のうちいずれか一項に記載の方法を実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を有するコンピュータ・プログラム・プロダクト。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962818879P | 2019-03-15 | 2019-03-15 | |
US62/818,879 | 2019-03-15 | ||
EP19174542 | 2019-05-15 | ||
EP19174542.1 | 2019-05-15 | ||
PCT/EP2020/055869 WO2020187587A1 (en) | 2019-03-15 | 2020-03-05 | Method and apparatus for updating a neural network |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022522685A true JP2022522685A (ja) | 2022-04-20 |
JP7196331B2 JP7196331B2 (ja) | 2022-12-26 |
Family
ID=69699916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021549873A Active JP7196331B2 (ja) | 2019-03-15 | 2020-03-05 | ニューラルネットワークを更新するための方法および装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220156584A1 (ja) |
EP (1) | EP3938962A1 (ja) |
JP (1) | JP7196331B2 (ja) |
CN (1) | CN113508399A (ja) |
WO (1) | WO2020187587A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220256227A1 (en) * | 2021-02-03 | 2022-08-11 | Nokia Technologies Oy | High-level syntax for signaling neural networks within a media bitstream |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0232679A (ja) * | 1988-07-22 | 1990-02-02 | Hitachi Ltd | ニューラルネットによるデータ通信方法および装置 |
WO2016199330A1 (ja) * | 2015-06-12 | 2016-12-15 | パナソニックIpマネジメント株式会社 | 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置 |
WO2018150083A1 (en) * | 2017-02-16 | 2018-08-23 | Nokia Technologies Oy | A method and technical equipment for video processing |
WO2018163011A1 (ja) * | 2017-03-09 | 2018-09-13 | 株式会社半導体エネルギー研究所 | 半導体装置および放送システム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5907822A (en) * | 1997-04-04 | 1999-05-25 | Lincom Corporation | Loss tolerant speech decoder for telecommunications |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
JP4472347B2 (ja) * | 2002-01-30 | 2010-06-02 | エヌエックスピー ビー ヴィ | 可変の帯域を有するネットワーク上でのマルチメディアデータのストリーミング |
US7400588B2 (en) * | 2003-08-01 | 2008-07-15 | Thomson Licensing | Dynamic rate adaptation using neural networks for transmitting video data |
US20110274162A1 (en) * | 2010-05-04 | 2011-11-10 | Minhua Zhou | Coding Unit Quantization Parameters in Video Coding |
PL3522554T3 (pl) * | 2014-05-28 | 2021-06-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Procesor danych i transport danych kontrolnych użytkownika do dekoderów audio i modułów renderowania |
US11080587B2 (en) * | 2015-02-06 | 2021-08-03 | Deepmind Technologies Limited | Recurrent neural networks for data item generation |
CN105142096B (zh) * | 2015-08-14 | 2018-10-19 | 湘潭大学 | 物联网中基于神经网络的跨媒体数据融合方法 |
US10014002B2 (en) * | 2016-02-16 | 2018-07-03 | Red Pill VR, Inc. | Real-time audio source separation using deep neural networks |
-
2020
- 2020-03-05 US US17/438,908 patent/US20220156584A1/en active Pending
- 2020-03-05 JP JP2021549873A patent/JP7196331B2/ja active Active
- 2020-03-05 CN CN202080016829.4A patent/CN113508399A/zh active Pending
- 2020-03-05 EP EP20707146.5A patent/EP3938962A1/en active Pending
- 2020-03-05 WO PCT/EP2020/055869 patent/WO2020187587A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0232679A (ja) * | 1988-07-22 | 1990-02-02 | Hitachi Ltd | ニューラルネットによるデータ通信方法および装置 |
WO2016199330A1 (ja) * | 2015-06-12 | 2016-12-15 | パナソニックIpマネジメント株式会社 | 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置 |
WO2018150083A1 (en) * | 2017-02-16 | 2018-08-23 | Nokia Technologies Oy | A method and technical equipment for video processing |
WO2018163011A1 (ja) * | 2017-03-09 | 2018-09-13 | 株式会社半導体エネルギー研究所 | 半導体装置および放送システム |
Also Published As
Publication number | Publication date |
---|---|
CN113508399A (zh) | 2021-10-15 |
WO2020187587A1 (en) | 2020-09-24 |
JP7196331B2 (ja) | 2022-12-26 |
US20220156584A1 (en) | 2022-05-19 |
EP3938962A1 (en) | 2022-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI405187B (zh) | 可縮放語音及音訊編碼解碼器、包括可縮放語音及音訊編碼解碼器之處理器、及用於可縮放語音及音訊編碼解碼器之方法及機器可讀媒體 | |
US8509931B2 (en) | Progressive encoding of audio | |
JP5849106B2 (ja) | 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法 | |
TWI610295B (zh) | 解壓縮及壓縮用於語音辨識之轉換器資料的電腦實施方法及電腦實施之語音辨識系統 | |
JP7019096B2 (ja) | 低ビットレート符号化オーディオの増強を制御する方法及び機器 | |
WO2020148435A1 (en) | Speech coding using discrete latent representations | |
JP2010170142A (ja) | ビットレートスケーラブルなオーディオデータストリームを生成する方法および装置 | |
US20230377584A1 (en) | Real-time packet loss concealment using deep generative networks | |
CN112751820B (zh) | 使用深度学习实现数字语音丢包隐藏 | |
JP2019194711A (ja) | スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム | |
JP2022522685A (ja) | ニューラルネットワークを更新するための方法および装置 | |
JP2023523763A (ja) | ダイナミックレンジ低減領域においてマルチチャネルオーディオを強調するための方法、装置、及びシステム | |
CN110800047B (zh) | 用于对数据进行处理的方法和系统 | |
CN114187892A (zh) | 一种风格迁移合成方法、装置及电子设备 | |
US20230394287A1 (en) | General media neural network predictor and a generative model including such a predictor | |
US20240055006A1 (en) | Method and apparatus for processing of audio data using a pre-configured generator | |
WO2022087025A1 (en) | Method and apparatus for audio processing using a nested convolutional neural network architecture | |
WO2023237640A1 (en) | Loss conditional training and use of a neural network for processing of audio using said neural network | |
Benamirouche et al. | A Dynamic FEC for Improved Robustness of CELP-Based Codec | |
CN117616498A (zh) | 使用神经网络和向量量化器压缩音频波形 | |
CN116368495A (zh) | 使用嵌套卷积神经网络架构进行音频处理的方法和装置 | |
WO2021045738A1 (en) | Audio session classification | |
Zhao et al. | Phonemic Restoration Based on the Movement Continuity of Articulation | |
Eryurtlu et al. | Integrated speech and video coding for mobile audiovisual communications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210825 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7196331 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |