JP7019096B2 - 低ビットレート符号化オーディオの増強を制御する方法及び機器 - Google Patents
低ビットレート符号化オーディオの増強を制御する方法及び機器 Download PDFInfo
- Publication number
- JP7019096B2 JP7019096B2 JP2021510118A JP2021510118A JP7019096B2 JP 7019096 B2 JP7019096 B2 JP 7019096B2 JP 2021510118 A JP2021510118 A JP 2021510118A JP 2021510118 A JP2021510118 A JP 2021510118A JP 7019096 B2 JP7019096 B2 JP 7019096B2
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- audio
- augmented
- metadata
- augmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 133
- 230000003190 augmentative effect Effects 0.000 claims description 201
- 230000003416 augmentation Effects 0.000 claims description 128
- 238000012549 training Methods 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 19
- 230000008859 change Effects 0.000 claims description 7
- 230000001143 conditioned effect Effects 0.000 claims description 6
- 239000003623 enhancer Substances 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 230000006835 compression Effects 0.000 description 53
- 238000007906 compression Methods 0.000 description 53
- 230000004913 activation Effects 0.000 description 37
- 238000013139 quantization Methods 0.000 description 24
- 230000005236 sound signal Effects 0.000 description 20
- 238000013459 approach Methods 0.000 description 16
- 230000003595 spectral effect Effects 0.000 description 16
- 230000009467 reduction Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 9
- 230000001276 controlling effect Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 8
- 230000001052 transient effect Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000002708 enhancing effect Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000012804 iterative process Methods 0.000 description 5
- 238000007493 shaping process Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000006837 decompression Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001902 propagating effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本願は、PCT出願番号PCT/CN2018/103317号、2018年8月30日出願、米国仮特許出願番号第62/733,409号、2018年9月19日出願、及び米国仮特許出願番号第62/850,117号、2019年5月20日出願、の優先権を主張する。これらの出願の各々は、参照によりそれらの全体がここに組み込まれる。
本開示は、概して、オーディオデータの低ビットレート符号化、及びデコーダ側における低ビットレート符号化オーディオデータのオーディオ増強を制御するための増強メタデータの生成の方法に関し、より詳細には、符号化オーディオデータをコア復号した後にデコーダ側でオーディオ増強種類及び/又は量を制御するために使用されるべき増強メタデータを生成することに関する。本開示は、更に、それぞれのエンコーダ、増強メタデータに基づき低ビットレート符号化オーディオデータから増強オーディオデータを生成する方法、並びにそれぞれのデコーダ、に関する。
(i)前記符号化オーディオデータをコア復号して、コア復号生オーディオデータを取得するステップと、
(ii)オーディオ増強部に入力されるオーディオデータの前記オーディオ増強種類及び/又は量を制御するための候補増強メタデータに基づき、前記コア復号生オーディオデータを処理するために、前記オーディオ増強部に前記コア復号生オーディオデータを入力するステップと、
(iii)前記オーディオ増強部からの出力として、増強オーディオデータを取得するステップと、
(iv)前記増強オーディオデータに基づき、前記候補増強メタデータの適合性を決定するステップと、
(v)前記決定の結果に基づき、増強メタデータを生成するステップと、
を含み得る。
ステップ(v)において前記増強メタデータを生成するステップは、前記第1入力に基づいてよい。
デコーダ側で低ビットレート符号化オーディオビットストリームから増強オーディオデータを生成することは、例えば、以下に与えられ、及び参照により本願明細書に全体が組み込まれる米国仮特許出願番号第62/733,409号に記載されるように、実行されてよい。損失オーディオ圧縮、例えばAAC(Advanced Audio Coding)、Dolby-AC3、HE-AAC、USAC、又はDolby-AC4で使用される任意のコーデックの低ビットレート符号化オーディオビットストリームが受信されてよい。受信され復号された低ビットレート符号化オーディオビットストリームから取得された復号生オーディオデータは、生オーディオデータを増強する生成ネットワーク(Generator)に入力されてよい。生オーディオデータは、次に、生成ネットワークにより増強されてよい。一般的に増強処理は、符号化アーチファクトを低減することにより、生オーディオデータの品質を向上することを意図している。生成ネットワークによる生オーディオデータの増強は、従って、プリエコーノイズ、量子化ノイズの低減、スペクトルギャップを満たすこと、及び1つ以上の損失フレームの調整を計算すること、のうちの1つ以上を含んでよい。用語「スペクトルギャップ」は、スペクトルホール及び損失している高周波数帯域幅の両方を含んでよい。1つ以上の損失フレームの調整は、ユーザにより生成されたパラメータを使用して計算されてよい。次に、生成ネットワークからの出力として、増強オーディオデータが取得されてよい。
上述のように、生成ネットワークは、復号側で、生オーディオデータを増強して低ビットレート符号化により導入される符号化アーチファクトを低減するために、及び従って、元の未符号化オーディオデータと比べて生オーディオデータの品質を向上するために、使用されてよい。
生成ネットワークのアーキテクチャは、通常、制限されないが、生成ネットワークは、例えば、エンコーダ段及びデコーダ段を含んでよい。生成ネットワークのエンコーダ段及びデコーダ段は、完全に畳み込みであってよい。デコーダ段は、エンコーダ段をミラーリング(mirror)してよく、エンコーダ段及びデコーダ段は、それぞれ、各層L内にN個のフィルタを有するL個の層を含んでよい。Lは、自然数≧1であってよく、Nは自然数≧1であってよい。N個のフィルタのサイズ(カーネルサイズとしても知られている)は、制限されず、生成ネットワークにより生オーディオデータの品質の増強の要件に従い選択されてよい。しかしながら、フィルタサイズは、L個の層の各々で同じであってよい。
エンコーダ層L=1:フィルタ数N=16、フィルタサイズ=31、活性化=PreLU
エンコーダ層L=2:フィルタ数N=32、フィルタサイズ=31、活性化=PreLU
エンコーダ層L=11:フィルタ数N=512、フィルタサイズ=31
エンコーダ層L=12:フィルタ数N=1024、フィルタサイズ=31
符号化オーディオ特徴空間
デコーダ層L=1:フィルタ数N=512、フィルタサイズ=31
デコーダ層L=10:フィルタ数N=32、フィルタサイズ=31、活性化=PreLU
デコーダ層L=11:フィルタ数N=16、フィルタサイズ=31、活性化=PreLU
出力層:フィルタ数N=1、フィルタサイズ=31、活性化=tanh
出力:増強オーディオデータ
用途に依存して、生成ネットワークのエンコーダ段内の及びデコーダ段内の層の数は、しかしながら、それぞれ縮小され又は拡大されてよい。
識別ネットワークのアーキテクチャは、以上に例として記載した生成ネットワークのエンコーダ段のような1次元畳み込み構造に従ってよい。識別ネットワークアーキテクチャは、従って、生成ネットワークのデコーダ段をミラーリングしてよい。識別ネットワークは、従ってL個の層を含んでよく、各層はN個のフィルタを含んでよい。Lは、自然数≧1であってよく、Nは自然数≧1であってよい。N個のフィルタのサイズは限定されず、識別ネットワークの要件に従い選択されてもよい。しかしながら、フィルタサイズは、L個の層の各々で同じであってよい。識別ネットワークのエンコーダ段のうちの少なくとも1つにおいて実行される非線形動作は、LeakyReLUを含んでよい。
エンコーダ層L=1:フィルタ数N=16、フィルタサイズ=31、活性化=LeakyReLU
エンコーダ層L=2:フィルタ数N=32、フィルタサイズ=31、活性化=LeakyReLU
エンコーダ層L=11:フィルタ数N=1024、フィルタサイズ=31、活性化=LeakyReLU
出力層:フィルタ数N=1、フィルタサイズ=1、任意的に活性化=sigmoid
出力(示されない):元のデータ及び生成ネットワークにより生成された増強オーディオデータに関連して、真/偽としての入力に対する判断
用途に依存して、識別ネットワークのエンコーダ段内の層の数は、例えば、それぞれ縮小され又は拡大されてよい。
圧伸(Companding)技術は、参照により全体がここに組み込まれる米国特許第9,947,335B2号に記載のように、QMF(quadrature mirror filter)ドメインにおいて実施される圧伸アルゴリズムの使用を通じて、オーディオコーデック内で量子化ノイズの時間的ノイズ成形を達成し、量子化ノイズの時間的成形を達成する。通常、圧伸は、量子化ノイズ(例えば、MDCT(modified discrete cosine transform)ドメインに導入される量子化ノイズ)の時間的分散を制御するために使用され得るQMFドメインにおいて動作するパラメータ符号化ツールである。このように、圧伸技術は、QMF分析ステップ、その後に続く実際の圧伸動作/アルゴリズムの適用、及びQMF合成ステップを含んでよい。
生成ネットワークは、縮小されたダイナミックレンジドメインにおけるダイナミックレンジの縮小された生オーディオデータを増強してもよい。増強により、低ビットレート符号化により導入される符号化アーチファクトは低減され、従って、ダイナミックレンジの縮小された生オーディオデータの品質は、元の符号化されていないダイナミックレンジの縮小されたオーディオデータと比べて、ダイナミックレンジの伸張の前に既に増強されている。
生成ネットワークは、例えば、エンコーダ段及びデコーダ段を含んでよい。生成ネットワークのエンコーダ段及びデコーダ段は、完全に畳み込みであってよい。デコーダ段は、エンコーダ段をミラーリング(mirror)してよく、エンコーダ段及びデコーダ段は、それぞれ、各層L内にN個のフィルタを有するL個の層を含んでよい。Lは、自然数≧1であってよく、Nは自然数≧1であってよい。N個のフィルタのサイズ(カーネルサイズとしても知られている)は、制限されず、生成ネットワークによりダイナミックレンジの縮小された生オーディオデータの品質の増強の要件に従い選択されてよい。しかしながら、フィルタサイズは、L個の層の各々で同じであってよい。
エンコーダ層L=1:フィルタ数N=16、フィルタサイズ=31、活性化=PreLU
エンコーダ層L=2:フィルタ数N=32、フィルタサイズ=31、活性化=PreLU
エンコーダ層L=11:フィルタ数N=512、フィルタサイズ=31
エンコーダ層L=12:フィルタ数N=1024、フィルタサイズ=31
ダイナミックレンジの縮小された符号化オーディオ特徴空間
デコーダ層L=1:フィルタ数N=512、フィルタサイズ=31
デコーダ層L=10:フィルタ数N=32、フィルタサイズ=31、活性化=PreLU
デコーダ層L=11:フィルタ数N=16、フィルタサイズ=31、活性化=PreLU
出力層:フィルタ数N=1、フィルタサイズ=31、活性化=tanh
出力:増強オーディオデータ
用途に依存して、生成ネットワークのエンコーダ段内の及びデコーダ段内の層の数は、例えば、それぞれ縮小され又は拡大されてよい。通常、上述の生成ネットワークアーキテクチャは、Wavenet又はsampleRNNにおけるような複雑な動作が実行される必要がないので、ワンショットアーチファクト低減の可能性を提供する。
識別ネットワークのアーキテクチャは限定されないが、識別ネットワークのアーキテクチャは、上述の生成ネットワークのエンコーダ段と同じ1次元畳み込み構造に従ってよい。識別ネットワークアーキテクチャは、従って、生成ネットワークのエンコーダ段をミラーリングしてよい。識別ネットワークは、従ってL個の層を含んでよく、各層はN個のフィルタを含んでよい。Lは、自然数≧1であってよく、Nは自然数≧1であってよい。N個のフィルタのサイズは限定されず、識別ネットワークの要件に従い選択されてもよい。しかしながら、フィルタサイズは、L個の層の各々で同じであってよい。識別ネットワークのエンコーダ段のうちの少なくとも1つにおいて実行される非線形動作は、LeakyReLUを含んでよい。
エンコーダ層L=1:フィルタ数N=16、フィルタサイズ=31、活性化=LeakyReLU
エンコーダ層L=2:フィルタ数N=32、フィルタサイズ=31、活性化=LeakyReLU
エンコーダ層L=11:フィルタ数N=1024、フィルタサイズ=31、活性化=LeakyReLU
出力層:フィルタ数N=1、フィルタサイズ=1、任意的に活性化=sigmoid
出力(示されない):元のダイナミックレンジの縮小されたデータ及び生成ネットワークにより生成された増強されたダイナミックレンジの縮小されたオーディオデータに関連して、真/偽としての入力に対する判断
用途に依存して、識別ネットワークのエンコーダ段内の層の数は、例えば、それぞれ縮小され又は拡大されてよい。
オーディオ符号化及びオーディオ増強は、今日それらがそうであるよりも更に関連するようになり得る。何故なら、将来、例えば、上述のような深層学習に基づくアプローチを実装しているデコーダは、元のオーディオ信号の増強バージョンのように聞こえ可能性のある元のオーディオ信号を推測する場合があるからである。例えば、帯域幅の拡張、又は復号された会話を強制的に後処理させる若しくは明確な会話として復号することを含み得る。同時に、結果は、「明らかに符号化された」誤って聞こえるものでない可能性があり、人間の話者ではなくシステムが誤りを生成したことを明確にすることなく、復号された会話信号の中で音素誤りが生じる可能性がある。これは、「より自然に聞こえるが、元と異なる」オーディオとして参照されてよい。
図1を参照すると、オーディオデータを低ビットレート符号化し、及びデコーダ側における低ビットレート符号化オーディオデータのオーディオ増強を制御するための増強メタデータを生成する方法の一例のフロー図が示される。ステップS101で、符号化オーディオデータを取得するために、元のオーディオデータがコア符号化される。元のオーディオデータは、低ビットレートで符号化されてよい。元のオーディオデータを符号化するために使用されるコーデックは限定されず、任意のコーデック、例えばOPUSコーデックが使用されてよい。
図6の例を参照すると、増強メタデータに基づき、低ビットレート符号化オーディオデータから増強オーディオデータを生成する方法の一例が示される。ステップS301で、低ビットレートで符号化されたオーディオデータ及び増強メタデータが受信される。符号化オーディオデータ及び増強メタデータは、例えば、低ビットレートオーディオビットストリームとして受信されてよい。
特に断りのない限り、以下の議論から明らかなように、本開示を通じて、「処理する(processing)」、「計算する(computing、calculating)」、「決定する(determining)」、「分析する(analyzing)」等のような用語を用いる議論は、コンピュータ又はコンピューティングシステム、又は物理的、例えば電子的な量として提示されるデータを操作し及び/又は物理的量として同様に提示される他のデータに変換する同様の電子コンピューティング装置の動作及び/又は処理を表す。
Claims (26)
- オーディオデータの低ビットレート符号化、及びデコーダ側でデコーダにおいて低ビットレート符号化オーディオデータのオーディオ増強を制御するための増強メタデータの生成のための方法であって、
(a)元のオーディオデータを低ビットレートでコア符号化して、符号化オーディオデータを取得するステップと、
(b)エンコーダにおいて、前記符号化オーディオデータをコア復号した後に、前記デコーダにおいてオーディオ増強種類及び/又は量を制御するために前記デコーダへ送信されるべき増強メタデータを生成するステップと、
(c)前記符号化オーディオデータ及び前記増強メタデータを前記デコーダへ出力するステップと、
を含み、
ステップ(b)において増強メタデータを生成するステップは、
(i)前記符号化オーディオデータをコア復号して、コア復号生オーディオデータを取得するステップと、
(ii)オーディオ増強部に入力されるオーディオデータの前記オーディオ増強種類及び/又は量を制御するための候補増強メタデータに基づき、前記コア復号生オーディオデータを処理するために、前記オーディオ増強部に前記コア復号生オーディオデータを入力するステップと、
(iii)前記オーディオ増強部からの出力として、増強オーディオデータを取得するステップと、
(iv)前記増強オーディオデータに基づき、前記候補増強メタデータの適合性を決定するステップと、
(v)前記決定の結果に基づき、増強メタデータを生成するステップと、
を含む、方法。 - ステップ(iv)において前記候補増強メタデータの前記適合性を決定するステップは、ユーザに前記増強オーディオデータを提示し、該提示に応答して前記ユーザから第1入力を受信するステップを含み、
ステップ(v)において前記増強メタデータを生成するステップは、前記第1入力に基づく、請求項1に記載の方法。 - 前記ユーザからの前記第1入力は、前記候補増強メタデータが前記ユーザにより受け入れられるか又は拒否されるかの指示を含む、請求項2に記載の方法。
- 前記ユーザが前記候補増強メタデータを拒否する場合、前記候補増強メタデータの変更を示す第2入力が前記ユーザから受信され、ステップ(v)における前記増強メタデータを生成するステップは、前記第2入力に基づく、請求項3に記載の方法。
- 前記ユーザが前記候補増強メタデータを拒否する場合、ステップ(ii)~(v)が繰り返される、請求項3又は4に記載の方法。
- 前記増強メタデータは、増強制御データの1つ以上のアイテムを含む、請求項1~5のいずれか一項に記載の方法。
- 前記増強制御データは、1つ以上のオーディオ増強種類に関する情報を含み、前記1つ以上のオーディオ増強種類は、会話増強、音楽増強、及び拍手増強、のうちの1つ以上を含む、請求項6に記載の方法。
- 前記増強制御データは、前記1つ以上のオーディオ増強種類のそれぞれの許容性に関する情報を更に含む、請求項7に記載の方法。
- 前記増強制御データは、オーディオ増強量に関する情報を更に含む、請求項6~8のいずれか一項に記載の方法。
- 前記増強制御データは、前記デコーダ側において自動的に更新されたオーディオ増強部によりオーディオ増強が実行されるべきか否かについての許容性に関する情報を更に含む、請求項6~9のいずれか一項に記載の方法。
- ステップ(ii)における前記候補増強メタデータに基づき、前記コア復号生オーディオデータを処理するステップは、1つ以上の所定のオーディオ増強モジュールを適用することにより実行され、前記増強制御データは、同じ又は実質的に同じ種類の増強を達成する、デコーダ側にある1つ以上の異なる増強モジュールを使用することの許容性に関する情報を更に含む、請求項6~10のいずれか一項に記載の方法。
- 前記オーディオ増強部は敵対的生成ネットワーク設定においてトレーニングされた生成ネットワークである、請求項1~11のいずれか一項に記載の方法。
- 敵対的生成ネットワークにおけるトレーニングの間、前記生成ネットワークの出力として前記増強オーディオデータを取得するステップは、前記増強メタデータに基づき条件付けされる、請求項12に記載の方法。
- 前記増強メタデータは、少なくとも前記元のオーディオデータの符号化品質の指示を含む、請求項12又は13のいずれか一項に記載の方法。
- 前記増強メタデータは、1つ以上のビットストリームパラメータを含む、請求項12~14のいずれか一項に記載の方法。
- 前記1つ以上のビットストリームパラメータは、ビットレート、AACに基づくコーデック及びDolby AC-4コーデックに関連するスケーリング係数値、及びAACに基づくコーデックのブローバル利得、のうちの1つ以上を含む、請求項15に記載の方法。
- 前記ビットストリームパラメータは、前記生成ネットワークにおける元のオーディオデータの増強をガイドするために使用され、及び/又は前記ビットストリームパラメータは、前記コア復号生オーディオデータを前記生成ネットワークにより増強するか否かに関する指示を含む、請求項15又は16に記載の方法。
- 低ビットレート符号化オーディオデータの増強を制御する増強メタデータを生成するエンコーダであって、前記エンコーダは、請求項1~17のいずれか一項に記載の方法を実行するよう構成される1つ以上のプロセッサを含む、エンコーダ。
- デコーダにおいて、増強メタデータに基づき低ビットレート符号化オーディオデータから増強オーディオデータを生成する方法であって、前記方法は、
(a)エンコーダから、低ビットレートで符号化されたオーディオデータと増強メタデータとを受信するステップと、
(b)前記符号化オーディオデータをコア復号して、コア復号生オーディオデータを取得するステップと、
(c)増強メタデータに基づき前記コア復号生オーディオデータを処理するために、前記コア復号生オーディオデータをオーディオ増強部に入力するステップと、
(d)前記オーディオ増強部からの出力として、増強オーディオデータを取得するステップと、
(e)前記増強オーディオデータを出力するステップであって、前記オーディオ増強部は、敵対的生成ネットワーク(GAN)設定においてトレーニングされた生成ネットワークである、ステップと、
を含む方法。 - 前記増強メタデータに基づき、前記コア復号生オーディオデータを処理するステップは、前記増強メタデータに従い1つ以上のオーディオ増強モジュールを適用することにより実行される、請求項19に記載の方法。
- 前記敵対的生成ネットワークにおいてトレーニングする間、前記生成ネットワークの出力として前記増強オーディオデータを取得するステップは、前記増強メタデータに基づき条件付けされる、請求項19又は20に記載の方法。
- 前記増強メタデータは、少なくとも前記元のオーディオデータの符号化品質の指示を含む、請求項19~21のいずれか一項に記載の方法。
- 前記増強メタデータは、1つ以上のビットストリームパラメータを含む、請求項19~22のいずれか一項に記載の方法。
- 前記1つ以上のビットストリームパラメータは、ビットレート、AACに基づくコーデック及びDolby AC-4コーデックに関連するスケーリング係数値、及びAACに基づくコーデックに関連するグローバル利得、のうちの1つ以上を含む、請求項23に記載の方法。
- 増強メタデータに基づき低ビットレート符号化オーディオデータから増強オーディオデータを生成するデコーダであって、前記デコーダは、請求項19~24のいずれか一項に記載の方法を実行するよう構成される1つ以上のプロセッサを含む、デコーダ。
- 処理能力を有する装置で実行されると、装置に請求項1~17又は19~24のいずれか一項に記載の方法を実行させるよう適応されるプログラムを有するコンピュータ可読記憶媒体。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNPCT/CN2018/103317 | 2018-08-30 | ||
CN2018103317 | 2018-08-30 | ||
US201862733409P | 2018-09-19 | 2018-09-19 | |
US62/733,409 | 2018-09-19 | ||
US201962850117P | 2019-05-20 | 2019-05-20 | |
US62/850,117 | 2019-05-20 | ||
PCT/US2019/048876 WO2020047298A1 (en) | 2018-08-30 | 2019-08-29 | Method and apparatus for controlling enhancement of low-bitrate coded audio |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021525905A JP2021525905A (ja) | 2021-09-27 |
JP7019096B2 true JP7019096B2 (ja) | 2022-02-14 |
Family
ID=67928936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021510118A Active JP7019096B2 (ja) | 2018-08-30 | 2019-08-29 | 低ビットレート符号化オーディオの増強を制御する方法及び機器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11929085B2 (ja) |
EP (1) | EP3844749B1 (ja) |
JP (1) | JP7019096B2 (ja) |
CN (1) | CN112639968B (ja) |
WO (1) | WO2020047298A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021245015A1 (en) * | 2020-06-01 | 2021-12-09 | Dolby International Ab | Method and apparatus for determining parameters of a generative neural network |
CN111985643B (zh) * | 2020-08-21 | 2023-12-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种生成网络的训练方法、音频数据增强方法及相关装置 |
EP4196981A1 (en) * | 2021-01-22 | 2023-06-21 | Google LLC | Trained generative model speech coding |
EP4207192A4 (en) * | 2021-02-18 | 2024-05-15 | Samsung Electronics Co., Ltd. | ELECTRONIC DEVICE AND ITS CONTROL METHOD |
US11900902B2 (en) * | 2021-04-12 | 2024-02-13 | Adobe Inc. | Deep encoder for performing audio processing |
CN113380270B (zh) * | 2021-05-07 | 2024-03-29 | 普联国际有限公司 | 一种音频音源分离方法、装置、存储介质及电子设备 |
CN113823296A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN113823298B (zh) * | 2021-06-15 | 2024-04-16 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN114495958B (zh) * | 2022-04-14 | 2022-07-05 | 齐鲁工业大学 | 一种基于时间建模生成对抗网络的语音增强系统 |
EP4375999A1 (en) * | 2022-11-28 | 2024-05-29 | GN Audio A/S | Audio device with signal parameter-based processing, related methods and systems |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008505586A (ja) | 2004-07-01 | 2008-02-21 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | オーディオ情報の再生音量とダイナミックレンジに影響を与えるメタデータを修正する方法 |
Family Cites Families (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2776848B2 (ja) | 1988-12-14 | 1998-07-16 | 株式会社日立製作所 | 雑音除去方法、それに用いるニューラルネットワークの学習方法 |
IT1281001B1 (it) * | 1995-10-27 | 1998-02-11 | Cselt Centro Studi Lab Telecom | Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio. |
WO1999041844A1 (en) | 1998-02-12 | 1999-08-19 | Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd. | A neural network based method for exponent coding in a transform coder for high quality audio |
US6408275B1 (en) * | 1999-06-18 | 2002-06-18 | Zarlink Semiconductor, Inc. | Method of compressing and decompressing audio data using masking and shifting of audio sample bits |
DE19957220A1 (de) | 1999-11-27 | 2001-06-21 | Alcatel Sa | An den aktuellen Geräuschpegel adaptierte Geräuschunterdrückung |
DE10030926A1 (de) | 2000-06-24 | 2002-01-03 | Alcatel Sa | Störsignalabhängige adaptive Echounterdrückung |
FI109393B (fi) * | 2000-07-14 | 2002-07-15 | Nokia Corp | Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite |
US6876966B1 (en) | 2000-10-16 | 2005-04-05 | Microsoft Corporation | Pattern recognition training method and apparatus using inserted noise followed by noise reduction |
US7225135B2 (en) * | 2002-04-05 | 2007-05-29 | Lectrosonics, Inc. | Signal-predictive audio transmission system |
US7787640B2 (en) * | 2003-04-24 | 2010-08-31 | Massachusetts Institute Of Technology | System and method for spectral enhancement employing compression and expansion |
WO2007014228A2 (en) * | 2005-07-26 | 2007-02-01 | Nms Communications Corporation | Methods and apparatus for enhancing ringback tone quality during telephone communications |
US7672842B2 (en) * | 2006-07-26 | 2010-03-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for FFT-based companding for automatic speech recognition |
GB0704622D0 (en) | 2007-03-09 | 2007-04-18 | Skype Ltd | Speech coding system and method |
US8639519B2 (en) * | 2008-04-09 | 2014-01-28 | Motorola Mobility Llc | Method and apparatus for selective signal coding based on core encoder performance |
US8892428B2 (en) | 2010-01-14 | 2014-11-18 | Panasonic Intellectual Property Corporation Of America | Encoding apparatus, decoding apparatus, encoding method, and decoding method for adjusting a spectrum amplitude |
US9112989B2 (en) * | 2010-04-08 | 2015-08-18 | Qualcomm Incorporated | System and method of smart audio logging for mobile devices |
US8793557B2 (en) | 2011-05-19 | 2014-07-29 | Cambrige Silicon Radio Limited | Method and apparatus for real-time multidimensional adaptation of an audio coding system |
KR102003191B1 (ko) | 2011-07-01 | 2019-07-24 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법 |
US9164724B2 (en) * | 2011-08-26 | 2015-10-20 | Dts Llc | Audio adjustment system |
US20130178961A1 (en) * | 2012-01-05 | 2013-07-11 | Microsoft Corporation | Facilitating personal audio productions |
JP6174129B2 (ja) * | 2012-05-18 | 2017-08-02 | ドルビー ラボラトリーズ ライセンシング コーポレイション | パラメトリックオーディオコーダに関連するリバーシブルダイナミックレンジ制御情報を維持するシステム |
US9263060B2 (en) | 2012-08-21 | 2016-02-16 | Marian Mason Publishing Company, Llc | Artificial neural network based system for classification of the emotional content of digital music |
RU2676242C1 (ru) | 2013-01-29 | 2018-12-26 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора |
WO2014148844A1 (ko) | 2013-03-21 | 2014-09-25 | 인텔렉추얼디스커버리 주식회사 | 단말 장치 및 그의 오디오 신호 출력 방법 |
MY197063A (en) | 2013-04-05 | 2023-05-23 | Dolby Int Ab | Companding system and method to reduce quantization noise using advanced spectral extension |
US9241044B2 (en) * | 2013-08-28 | 2016-01-19 | Hola Networks, Ltd. | System and method for improving internet communication by using intermediate nodes |
EP3503095A1 (en) * | 2013-08-28 | 2019-06-26 | Dolby Laboratories Licensing Corp. | Hybrid waveform-coded and parametric-coded speech enhancement |
US9317745B2 (en) * | 2013-10-29 | 2016-04-19 | Bank Of America Corporation | Data lifting for exception processing |
US20160191594A1 (en) | 2014-12-24 | 2016-06-30 | Intel Corporation | Context aware streaming media technologies, devices, systems, and methods utilizing the same |
CN105023580B (zh) | 2015-06-25 | 2018-11-13 | 中国人民解放军理工大学 | 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法 |
US9837086B2 (en) * | 2015-07-31 | 2017-12-05 | Apple Inc. | Encoded audio extended metadata-based dynamic range control |
US10339921B2 (en) | 2015-09-24 | 2019-07-02 | Google Llc | Multichannel raw-waveform neural networks |
CN105426439B (zh) * | 2015-11-05 | 2022-07-05 | 腾讯科技(深圳)有限公司 | 一种元数据的处理方法和装置 |
BR112017024480A2 (pt) * | 2016-02-17 | 2018-07-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. | pós-processador, pré-processador, codificador de áudio, decodificador de áudio e métodos relacionados para aprimoramento do processamento transiente |
US10235994B2 (en) | 2016-03-04 | 2019-03-19 | Microsoft Technology Licensing, Llc | Modular deep learning model |
US9886949B2 (en) | 2016-03-23 | 2018-02-06 | Google Inc. | Adaptive audio enhancement for multichannel speech recognition |
US11080591B2 (en) | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
US20180082679A1 (en) | 2016-09-18 | 2018-03-22 | Newvoicemedia, Ltd. | Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning |
US10714118B2 (en) | 2016-12-30 | 2020-07-14 | Facebook, Inc. | Audio compression using an artificial neural network |
US10872598B2 (en) | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10587880B2 (en) | 2017-03-30 | 2020-03-10 | Qualcomm Incorporated | Zero block detection using adaptive rate model |
KR20180111271A (ko) | 2017-03-31 | 2018-10-11 | 삼성전자주식회사 | 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치 |
WO2018199987A1 (en) | 2017-04-28 | 2018-11-01 | Hewlett-Packard Development Company, L.P. | Audio tuning presets selection |
US10127918B1 (en) | 2017-05-03 | 2018-11-13 | Amazon Technologies, Inc. | Methods for reconstructing an audio signal |
US10381020B2 (en) | 2017-06-16 | 2019-08-13 | Apple Inc. | Speech model-based neural network-assisted signal enhancement |
EP3637272A4 (en) * | 2017-06-26 | 2020-09-02 | Shanghai Cambricon Information Technology Co., Ltd | DATA-SHARING SYSTEM AND RELATED DATA-SHARING PROCESS |
KR102002681B1 (ko) * | 2017-06-27 | 2019-07-23 | 한양대학교 산학협력단 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
US11270198B2 (en) | 2017-07-31 | 2022-03-08 | Syntiant | Microcontroller interface for audio signal processing |
US20190057694A1 (en) | 2017-08-17 | 2019-02-21 | Dolby International Ab | Speech/Dialog Enhancement Controlled by Pupillometry |
US10068557B1 (en) | 2017-08-23 | 2018-09-04 | Google Llc | Generating music with deep neural networks |
US10334357B2 (en) | 2017-09-29 | 2019-06-25 | Apple Inc. | Machine learning based sound field analysis |
US10854209B2 (en) * | 2017-10-03 | 2020-12-01 | Qualcomm Incorporated | Multi-stream audio coding |
US10839809B1 (en) * | 2017-12-12 | 2020-11-17 | Amazon Technologies, Inc. | Online training with delayed feedback |
AU2018100318A4 (en) | 2018-03-14 | 2018-04-26 | Li, Shuhan Mr | A method of generating raw music audio based on dilated causal convolution network |
EP3794473B1 (en) * | 2018-08-06 | 2024-10-16 | Google LLC | Captcha automated assistant |
-
2019
- 2019-08-29 US US17/270,053 patent/US11929085B2/en active Active
- 2019-08-29 JP JP2021510118A patent/JP7019096B2/ja active Active
- 2019-08-29 CN CN201980055735.5A patent/CN112639968B/zh active Active
- 2019-08-29 WO PCT/US2019/048876 patent/WO2020047298A1/en active Search and Examination
- 2019-08-29 EP EP19766442.8A patent/EP3844749B1/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008505586A (ja) | 2004-07-01 | 2008-02-21 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | オーディオ情報の再生音量とダイナミックレンジに影響を与えるメタデータを修正する方法 |
Also Published As
Publication number | Publication date |
---|---|
US11929085B2 (en) | 2024-03-12 |
EP3844749B1 (en) | 2023-12-27 |
CN112639968B (zh) | 2024-10-01 |
WO2020047298A1 (en) | 2020-03-05 |
JP2021525905A (ja) | 2021-09-27 |
US20210327445A1 (en) | 2021-10-21 |
CN112639968A (zh) | 2021-04-09 |
EP3844749A1 (en) | 2021-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7019096B2 (ja) | 低ビットレート符号化オーディオの増強を制御する方法及び機器 | |
CA2705968C (en) | A method and an apparatus for processing a signal | |
TWI480856B (zh) | 音訊編解碼器中之雜訊產生技術 | |
RU2439718C1 (ru) | Способ и устройство для обработки звукового сигнала | |
JP6439296B2 (ja) | 復号装置および方法、並びにプログラム | |
CN110890101B (zh) | 用于基于语音增强元数据进行解码的方法和设备 | |
KR101657916B1 (ko) | 멀티채널 다운믹스/업믹스의 경우에 대한 일반화된 공간적 오디오 객체 코딩 파라미터 개념을 위한 디코더 및 방법 | |
CA2865651C (en) | Phase coherence control for harmonic signals in perceptual audio codecs | |
CN115867966A (zh) | 用于确定生成神经网络的参数的方法和装置 | |
JP5519230B2 (ja) | オーディオエンコーダ及び音信号処理システム | |
US20230178084A1 (en) | Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain | |
Zhan et al. | Bandwidth extension for China AVS-M standard | |
EP2526546A1 (en) | Method and device for determining a number of bits for encoding an audio signal | |
Herre et al. | Perceptual audio coding | |
RU2823081C1 (ru) | Способы и система для кодирования на основе формы сигналов аудиосигналов с помощью порождающей модели | |
Beack et al. | An Efficient Time‐Frequency Representation for Parametric‐Based Audio Object Coding | |
CA3157876A1 (en) | Methods and system for waveform coding of audio signals with a generative model | |
JP2023545197A (ja) | オーディオ帯域幅検出およびオーディオコーデックにおけるオーディオ帯域幅切り替えのための方法およびデバイス | |
Herre et al. | Perceptual audio coding of speech signals | |
van Schijndel | ARDOR Final Report |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20210222 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210222 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210810 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7019096 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |