JP7383725B2 - オーディオデコーダ、フィルタの特性を定義する値のセットを決定するための装置、復号されたオーディオ表現を提供するための方法、フィルタの特性を定義する値のセットを決定するための方法、およびコンピュータプログラム - Google Patents
オーディオデコーダ、フィルタの特性を定義する値のセットを決定するための装置、復号されたオーディオ表現を提供するための方法、フィルタの特性を定義する値のセットを決定するための方法、およびコンピュータプログラム Download PDFInfo
- Publication number
- JP7383725B2 JP7383725B2 JP2021559874A JP2021559874A JP7383725B2 JP 7383725 B2 JP7383725 B2 JP 7383725B2 JP 2021559874 A JP2021559874 A JP 2021559874A JP 2021559874 A JP2021559874 A JP 2021559874A JP 7383725 B2 JP7383725 B2 JP 7383725B2
- Authority
- JP
- Japan
- Prior art keywords
- representation
- scaling
- values
- filter
- spectral values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 80
- 238000004590 computer program Methods 0.000 title claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 298
- 238000010801 machine learning Methods 0.000 claims description 159
- 238000013528 artificial neural network Methods 0.000 claims description 141
- 238000001228 spectrum Methods 0.000 claims description 72
- 230000005236 sound signal Effects 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 27
- 230000004913 activation Effects 0.000 claims description 23
- 238000013459 approach Methods 0.000 claims description 15
- 238000000354 decomposition reaction Methods 0.000 claims description 12
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 10
- 230000003321 amplification Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 description 58
- 230000001537 neural effect Effects 0.000 description 50
- 238000004364 calculation method Methods 0.000 description 23
- 238000001994 activation Methods 0.000 description 19
- 238000013139 quantization Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000005457 optimization Methods 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 8
- 210000002569 neuron Anatomy 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 241000473391 Archosargus rhomboidalis Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006735 deficit Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Description
の強化されたオーディオ表現(たとえば、
図1は、本発明のある実施形態による、オーディオデコーダ100のブロック概略図を示す。オーディオデコーダ100は、符号化されたオーディオ表現110を受信し、それを基礎として強化されたオーディオ表現112を提供するように構成され、これは復号されたオーディオ表現の強化された形式であり得る。
図2は、フィルタ(たとえば、ニューラルネットワークベースのフィルタ、または別の機械学習構造に基づくフィルタ)の特性を定義する値(たとえば、ニューラルネットワークの係数、または別の機械学習構造の係数)のセットを決定するための装置200のブロック概略図を示す。
図3は、本発明の別の実施形態による、オーディオデコーダ300のブロック概略図を示す。オーディオデコーダ300は、符号化されたオーディオ表現110に対応し得る符号化されたオーディオ表現310を受信し、それを基礎として、強化されたオーディオ表現112に対応し得る強化されたオーディオ表現312を提供するように構成される。オーディオデコーダ300は、デコーダコア120に対応し得るデコーダコア320を備える。デコーダコア320は、符号化されたオーディオ表現310を基礎として、復号されたオーディオ表現322(これは、復号されたオーディオ表現122に対応し得る)を提供する。復号されたオーディオ表現は、時間領域表現であり得るが、スペクトル領域表現であってもよい。
図4は、フィルタの特性を定義する値のセット(たとえば、ニューラルネットワークの係数または別の機械学習構造の係数)を決定するための装置400のブロック概略図を示す。装置400は、訓練オーディオ表現410を受信し、それを基礎として、フィルタの特性を定義する値のセット412を提供するように構成される。訓練オーディオ表現410は、たとえば、値のセット412の決定のために使用される異なるオーディオコンテンツを備え得ることに留意されたい。
図5は、フィルタを定義する値のセット512を決定するための装置500のブロック概略図を示し、値512は、たとえば、機械学習構造またはニューラルネットワークの係数であり得る。
以下では、本発明の背後にあるいくらかの考察について論じ、いくらかの解決策を説明する。具体的には、本明細書において開示される実施形態のいずれにも任意選択で導入され得る、いくつかの詳細が開示される。
6.1.1 理想比マスク(IRM)
非常に簡単な数学的な観点から、コーディングされた発話
たとえば、マスク近似(MA)(たとえば、図4に示されるような)および信号近似(SA)[10](たとえば、図5に示されるような)という、2つの異なるタイプの最小平均二乗誤差(MMSE)最適化が、ニューラルネットワーク(たとえば、ニューラルネットワーク380)を訓練するために使用され得る。MA最適化手法は、目標マスク(たとえば、目標スケーリング値)と推定マスク(たとえば、ニューラルネットワークによって提供されるスケーリング値484)との間の平均二乗誤差(MSE)を最小化することを試みる。
発話の強化と残響除去のための提案されるマスクベースの手法の大半において、マスク値は1に制限される[9][10]。これは、従来は、マスク値が1に制限されなければ、推定誤差が雑音または楽音の増幅を引き起こし得るからである[15]。したがって、これらの手法は、マスク値を1に制限するために出力活性化としてシグモイドを使用する。
以下では、実験のセットアップに関するいくつかの詳細が説明される。しかしながら、本明細書において説明される特徴の機能および詳細は任意選択で、本明細書において開示される実施形態のいずれにも引き継がれ得ることに留意されたい。
マスク値の限界を推定するために、oracle実験を実施した。これにおいて、IRMを推定し、図7に示されるような異なる閾値でIRMを制限した。評価には、発話品質の知覚評価(PESQ)[24][25][26]および知覚客観受聴品質評価(POLQA)[27]などの、客観的な尺度を使用した。図7から、閾値を1に設定すると、閾値を2、4、または10に設定した場合ほど性能が良くないことが推測され得る。閾値2、4、10の間の差は非常に小さい。したがって、さらなる実験において、マスク値を2に制限することを選んだ。
コーディングされた発話の品質は、大きな量子化ノイズにより、より低いビットレートでは大きく影響を受けることが分かっている。量子化ノイズの影響を軽減するために、低ビットレートにおいては、通常はポストフィルタが利用される。本開示では、より低いビットレートにおいて復号される発話の品質を強化するために、実数値マスクベースのポストフィルタを提案する。この実数値マスクを推定するために、たとえば、正規化された対数の大きさに対して作用する全結合ニューラルネットワークを利用する。より低い3つのモード(6.65kbps、8.85kbps、および12.65kbps)において、適応マルチレートワイドバンド(AMR-WB)コーデックに対する我々の提案をテストした。我々の実験は、PESQ、POLQA、および主観受聴テストにおいて改善を示している。
a. マスクは実数値である(またはスケーリング値は実数値である)。これは、入力特徴量から機械学習アルゴリズムによって(またはニューラルネットワークによって)各周波数ビンに対して推定される。
b.
d. 現在使用されている入力特徴量は、対数大きさスペクトルであるが、大きさスペクトルの任意の派生物であってもよい。
a. 推定マスク値は、たとえば閾値に制限されるので、および、閾値は1より大きいので、出力層は、有界の正規化線形ユニットReLUまたはスケーリングされたシグモイドのいずれかであり得る。
b. 機械学習アルゴリズムがマスク近似MMSE(最小平均二乗推定最適化)方法を使用して最適化されるとき、目標マスク(たとえば、目標スケーリング値)は任意選択で、目標マスクにおいて閾値より高くマスク値(たとえば、目標スケーリング値)を1に設定することによって修正されてもよく、または閾値に設定されてもよい。
a. 全結合ニューラルネットワークは、たとえば4つの隠れ層からなる。各隠れ層は、たとえば2048個または2500個の正規化線形ユニット(ReLU)の活性化からなる。
b. 全結合ニューラルネットワークの入力次元は、コンテキストフレームおよびFFTのサイズに依存する。システムの遅延も、コンテキストフレームおよびフレームサイズに依存する。
c. コンテキストフレームのサイズは、たとえば3と5の間のどこかであり得る。我々の実験では、たとえば、フレームサイズおよびFFTサイズとして256(16ms@16kHz)を使用した。コンテキストフレームのサイズは3に設定され、それは、3より大きくしたときの利益が非常に小さかったからである。また、未来と過去の両方のコンテキストフレーム、および過去のみのコンテキストフレームを用いてテストした。
a. マスク近似において、目標マスク(たとえば、目標スケーリング値)と推定マスク(たとえば、ニューラルネットを使用して決定されるスケーリング値)との平均二乗誤差が最小化される。目標マスクは、たとえば(2.b)(たとえば、態様2、サブセクションbにおける)のように修正される。
b. 信号近似において、強化された大きさ(たとえば、強化された大きさスペクトル592)と目標の大きさ(たとえば、オーディオ表現510の大きさスペクトル)との間の平均二乗誤差が最小化される。強化された大きさは、DNNからの(たとえば、ニューラルネットワークからの)推定マスクをコーディングされた大きさの推定マスクと乗じることによって得られる。目標の大きさは、コーディングされていない発話の大きさである。
図9は、本発明のある実施形態による、符号化されたオーディオ表現を基礎として強化されたオーディオ表現を提供するための方法900のブロック概略図を示す。
図10は、本発明のある実施形態による、復号されたオーディオ表現を基礎として、強化されたオーディオ表現(
いくつかの態様は装置の文脈で説明されたが、これらの態様は、対応する方法の説明も表すことが明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様は、対応するブロックまたは対応する装置の項目もしくは特徴の説明も表す。方法ステップの一部またはすべてが、たとえばマイクロプロセッサ、プログラマブルコンピュータ、または電子回路のような、ハードウェア装置によって(またはそれを使用して)実行され得る。いくつかの実施形態では、最も重要な方法ステップのうちの1つまたは複数がそのような装置によって実行され得る。
[1] 3GPP, “Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions,” 3rd Generation Partnership Project (3GPP), TS 26.190, 12 2009. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26190.htm
[2] M. Dietz, M. Multrus, V. Eksler, V. Malenovsky, E. Norvell,
H. Pobloth, L. Miao, Z. Wang, L. Laaksonen, A. Vasilache, Y. Ka-mamoto, K. Kikuiri, S. Ragot, J. Faure, H. Ehara, V. Rajendran,
V. Atti, H. Sung, E. Oh, H. Yuan, and C. Zhu, “Overview of the EVS codec architecture.” IEEE, 2015, pp. 5698-5702.
[3] 3GPP, “TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12),” 3rd Generation Partnership Project (3GPP), TS 26.445, 12 2014. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26445.htm
[4] T. Vaillancourt, R. Salami, and M. Jelnek, “New post-processing techniques for low bit rate celp codecs,” in ICASSP, 2015.
[5] J.-H. Chen and A. Gersho, “Adaptive postfiltering for quality en-hancement of coded speech,” vol. 3, no. 1, pp. 59-71, 1995.
[6] T. Backstrom, Speech Coding with Code-Excited Liniear Prediction. Springer, 2017. [Online]. Available: http://www.springer.com/gp/book/9783319502021
[7] K. Han, Y. Wang, D. Wang, W. S. Woods, I. Merks, and T. Zhang, “Learning spectral mapping for speech dereverberation and de-noising.”
[8] Y. Zhao, D. Wang, I. Merks, and T. Zhang, “Dnn-based enhance-ment of noisy and reverberant speech,” in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016.
[9] Y. Wang, A. Narayanan, and D. Wang, “On training targets for supervised speech separation,” IEEE/ACM Transactions on Au-dio, Speech, and Language Processing, vol. 22, pp. 1849-1858, 2014.
[10] F. Weninger, J. R. Hershey, J. L. Roux, and B. Schuller, “Dis-criminatively trained recurrent neural networks for single-channel speech separation,” in IEEE Global Conference on Signal and Information Processing (GlobalSIP), 2014.
[11] D. S. Williamson and D. Wang, “Time-frequency masking in the complex domain for speech dereverberation and denoising.”
[12] Z. Zhao, S. Elshamy, H. Liu, and T. Fingscheidt, “A cnn postpro-cessor to enhance coded speech,” in 16th International Workshop on Acoustic Signal Enhancement (IWAENC), 2018.
[13] Z. Zhao, H. Liu, and T. Fingscheidt, “Convolutional neural net-works to enhance coded speech,” IEEE/ACM Transactions on Au-dio, Speech, and Language Processing, vol. 27, no. 4, pp. 663-678, April 2019.
[14] S. Das and T. Backstrom, “Postfiltering using log-magnitude spectrum for speech and audio coding,” in Proc. Inter-speech 2018, 2018, pp. 3543-3547. [Online]. Available: http://dx.doi.org/10.21437/Interspeech.2018-1027
[15] W. Mack, S. Chakrabarty, F.-R. Stoter, S. Braun, B. Edler, and E. Habets, “Single-channel dereverberation using direct mmse optimization and bidirectional lstm networks,” in Proc. Interspeech 2018, 2018, pp. 1314-1318. [Online]. Available: http://dx.doi.org/10.21437/Interspeech.2018-1296
[16] F. Chollet et al., “Keras,” https://keras.io, 2015.
[17] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, S. Ghemawat, I. Goodfellow, A. Harp, G. Irving, M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Mane´, R. Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner, I. Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V. Vasudevan, F. Vie´gas, O. Vinyals, P. Warden, M. Wattenberg, M. Wicke, Y. Yu, and X. Zheng, “TensorFlow: Large-scale machine learning on heterogeneous systems,” 2015, software available from tensorflow.org. [Online]. Available: http://tensorflow.org/
[18] X. Glorot, A. Bordes, and Y. Bengio, “Deep sparse rectifier neural networks,” International Conference on Artificial Intelligence and Statistics, 2011, p. 315323.
[19] S. Ioffe and C. Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” in International Conference on Machine Learning, vol. 37, 2015, pp. 448-456.
[20] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, “Dropout: A simple way to prevent neural networks from overfitting,” J. Mach. Learn. Res., vol. 15, no. 1, pp. 1929-1958, Jan. 2014. [Online]. Available: http://dl.acm.org/citation.cfm?id=2627435.2670313
[21] D. Kingma and J. Ba, “Adam: A method for stochastic optimiza-tion,” in arXiv preprint arXiv:1412.6980, 2014.
[22] NTT-AT, “Super wideband stereo speech database,”
http://www.ntt-at.com/product/widebandspeech, accessed:
09.09.2014. [Online]. Available: http://www.ntt-at.com/product/widebandspeech
[23] J. S. Garofolo, L. D. Consortium et al., TIMIT: acoustic-phonetic continuous speech corpus. Linguistic Data Consortium, 1993.
[24] A. Rix, J. Beerends, M. Hollier, and A. Hekstra, “Perceptual eval-uation of speech quality (pesq) - a new method for speech quality assessment of telephone networks and codecs,” in 2001 IEEE International Conference on Acoustics, Speech and Signal Process-ing (ICASSP), 2001.
[25] ITU-T, “P.862.1: Mapping Function for Transforming P.862 Raw Result Scores to MOS-LQO,” (International Telecommunication Union), Tech. Rep. P.862.1, Nov. 2003.
[26] “P.862.2: Wideband Extension to Recommendation P.862 for the Assessment of Wideband Telephone Networks and Speech Codecs,” (International Telecommunication Union), Tech. Rep. P.862.2, Nov. 2005.
[27] Perceptual objective listening quality assessment (POLQA), ITU-T Recommendation P.863, 2011. [Online]. Available: http://www.itu.int/rec/T-REC-P.863/en
[28] Recommendation BS.1534, Method for the subjective assessment of intermediate quality levels of coding systems, ITU-R, 2003.
120 デコーダコア
130 フィルタ
134 決定器
138 スケーラ
200 装置
220 スペクトル値決定
300 オーディオデコーダ
320 デコーダコア
360 絶対値決定
338 スケーリング
370 対数計算
380 ニューラルネット/機械学習構造
420 オーディオエンコーダ
460 絶対値決定
470 対数計算
480 ニューラルネット/機械学習構造
490 ニューラルネット訓練/機械学習訓練
492 目標スケーリング値/比マスク計算
494 目標スケーリング値/理想比マスク
520 オーディオエンコーダ
530 デコーダコア
560 絶対値決定
570 対数計算
580 ニューラルネット/機械学習構造
596 ニューラルネット訓練/機械学習訓練
610 入力層
612 隠れ層
614 出力層
Claims (40)
- 符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(112;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが複数のスケーリング値(136;336)を取得するように構成され、前記複数のスケーリング値が、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられ、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記フィルタ(130;360,370,380,338)が、前記スケーリング値(136;336)を提供するために、構成可能な処理構造を使用するように適合され、前記構成可能な処理構造の構成が機械学習アルゴリズムに基づく、オーディオデコーダ。 - 前記フィルタ(130;360,370,380,338)が、複数の周波数ビンまたは周波数範囲における前記復号されたオーディオ表現(122;322)の前記スペクトル値(132;326)のみを基礎として、前記スケーリング値(136;336)を決定するように構成される、請求項1に記載のオーディオデコーダ(100;300)。
- 前記フィルタ(130;360,370,380,338)が、
M(k,n)がスケーリング値であり、
kが周波数インデックスであり、
nが時間インデックスであり、
前記フィルタが、
M(k,n)がスケーリング値であり、
kが周波数インデックスであり、
nが時間インデックスであり、
- 前記フィルタ(130;360,370,380,338)が、前記復号されたオーディオ信号表現(122;322)の1つまたは複数のスペクトル値(132;326)のための、または復号されたオーディオ信号表現(122;322)の前記スペクトル値(132;326)に基づく1つまたは複数の前処理されたスペクトル値のための、スケーリングもしくは増幅を前記スケーリング値(136;336)が引き起こすように、前記スケーリング値を取得するように構成される、請求項1から3のいずれか一項に記載のオーディオデコーダ(100;300)。
- 前記フィルタ(130;360,370,380,338)が、前記復号されたオーディオ表現(122;322)を記述する複数のスペクトル値(132;326)を基礎として、前記スケーリング値(136;336)を提供するように構成されるニューラルネットワーク(380;600)または機械学習構造を備え、前記スペクトル値が異なる周波数ビンまたは周波数範囲と関連付けられる、請求項1から4のいずれか一項に記載のオーディオデコーダ(100;300)。
- 前記ニューラルネットワーク(380;600)の、または前記機械学習構造の入力信号(372)が、前記復号されたオーディオ表現のスペクトル値の対数の大きさ、振幅、またはノルムを表し、前記スペクトル値が異なる周波数ビンまたは周波数範囲と関連付けられる、請求項5に記載のオーディオデコーダ(100;300)。
- 前記ニューラルネットワーク(380;600)または前記機械学習構造の出力信号(336)が、前記スケーリング値(136;336)を表す、請求項5または6のいずれか一項に記載のオーディオデコーダ(100;300)。
- 前記ニューラルネットワーク(380;600)または前記機械学習構造が、複数の目標スケーリング値(494)と、前記ニューラルネットワーク(380;580;600)または前記機械学習構造を使用して得られる複数のスケーリング値(484)との間の偏差(MSEMA)を制限し、低減し、または最小化するように訓練される、請求項5から7のいずれか一項に記載のオーディオデコーダ(100;300)。
- 前記ニューラルネットワーク(380;600)または前記機械学習構造が、目標大きさスペクトル(510)、目標振幅スペクトル、目標絶対スペクトル、または目標ノルムスペクトルと、前記ニューラルネットワーク(380;580;600)または前記機械学習構造によって提供されるスケーリング値(584)を使用する処理されたスペクトルのスケーリングを使用して得られる、大きさスペクトル(592)、振幅スペクトル、絶対スペクトル、またはノルムスペクトルとの偏差(MSESA)を制限し、低減し、または最小化するように訓練される、請求項5から8のいずれか一項に記載のオーディオデコーダ(100;300)。
- 前記ニューラルネットワーク(380;600)または前記機械学習構造が、前記復号されたオーディオ信号表現(122;322)のスペクトル分解の1つまたは複数のスペクトル値(132;326)のスケーリング、または、前記復号されたオーディオ信号表現の前記スペクトル分解の前記スペクトル値に基づく1つまたは複数の前処理されたスペクトル値のスケーリングが0と所定の最大値との間の範囲にあるように訓練される、請求項5から9のいずれか一項に記載のオーディオデコーダ(100;300)。
- 前記最大値が1より大きい、請求項10に記載のオーディオデコーダ(100;300)。
- 前記ニューラルネットワーク(380;600)または前記機械学習構造が、前記復号されたオーディオ信号表現のスペクトル分解の1つまたは複数のスペクトル値の前記スケーリング、または、前記復号されたオーディオ信号表現の前記スペクトル分解の前記スペクトル値に基づく1つまたは複数の前処理されたスペクトル値の前記スケーリングが、2に制限される、または5に制限される、または10に制限される、または1より大きい所定の値に制限されるように訓練される、請求項5から11のいずれか一項に記載のオーディオデコーダ(100;300)。
- 前記ニューラルネットワーク(380;600)または前記機械学習構造が、前記スケーリング値が2に制限され、または5に制限され、または10に制限され、または1より大きい所定の値に制限されるように訓練される、請求項5から12のいずれか一項に記載のオーディオデコーダ(100;300)。
- 前記ニューラルネットワーク(380;600)または前記機械学習構造の入力特徴量の数が、前記ニューラルネットワークまたは前記機械学習構造の出力値の数より少なくとも2倍大きい、請求項5から13のいずれか一項に記載のオーディオデコーダ(100;300)。
- 前記フィルタ(130;360,370,380,338)が、前記ニューラルネットワークまたは前記機械学習構造の入力特徴量を、所定の平均値および/または所定の分散もしくは標準偏差へと正規化するように構成される、請求項5から14のいずれか一項に記載のオーディオデコーダ(100;300)。
- ニューラルネットワーク(380;600)が、入力層(610)、1つまたは複数の隠れ層(612a-612d)、および出力層(614)を備える、請求項1から15のいずれか一項に記載のオーディオデコーダ(100;300)。
- 前記1つまたは複数の隠れ層(612a-612d)が正規化線形ユニットを活性化関数として使用する、請求項16に記載のオーディオデコーダ(100;300)。
- 前記出力層(614)が、正規化線形ユニットまたは有界正規化線形ユニットまたはシグモイド関数を活性化関数として使用する、請求項16または17のいずれか一項に記載のオーディオデコーダ(100;300)。
- 前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現の前記スペクトル値を表す短時間フーリエ変換係数(132;326)を取得するように構成される、請求項1から18のいずれか一項に記載のオーディオデコーダ(100;300)。
- 前記フィルタ(130;360,370,380,338)が、前記復号されたオーディオ表現のスペクトル値の対数大きさ値、振幅値、絶対値、またはノルム値(372)を導出し、前記対数大きさ値、振幅値、絶対値、またはノルム値を基礎として前記スケーリング値(136;336)を決定するように構成される、請求項1から18のいずれか一項に記載のオーディオデコーダ(100;300)。
- 前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、現在のフレームの前記復号されたオーディオ表現(122;322)のスペクトル値(132;326)を基礎として、および、異なる周波数ビンまたは周波数範囲と関連付けられる、前記現在のフレームに先行する1つまたは複数のフレームの前記復号されたオーディオ表現(122;322)のスペクトル値(132;326)を基礎として、前記現在のフレームと関連付けられる複数のスケーリング値(136;336)を決定するように構成される、請求項1から19のいずれか一項に記載のオーディオデコーダ(100;300)。
- 前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、現在のフレームに後続する1つまたは複数のフレームの前記復号されたオーディオ表現(122;322)のスペクトル値(132;326)を基礎として、前記現在のフレームと関連付けられる複数のスケーリング値を決定するように構成される、請求項1から21のいずれか一項に記載のオーディオデコーダ(100;300)。
- 復号されたオーディオ表現(122;322)を基礎として強化されたオーディオ表現(112;312)を提供するためのフィルタ(130;360,370,380,338)の特性を定義する値のセットを決定するための装置(200;400;500)であって、
異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)のスペクトル値(132;326)を取得するように構成され、
異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現の前記スペクトル値を基礎として前記フィルタによって提供されるスケーリング値(136;336;484;584)が目標スケーリング値(494)に近づくように、前記フィルタ(130;360,370,380,338)の前記特性を定義する値の前記セット(382;412;512)を決定するように構成され、または、
異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)の前記スペクトル値(132;326)を基礎として、および、前記復号されたオーディオ表現(122;322)を基礎として得られるスケーリング値(136;336;484;584)を使用して前記フィルタによって得られるスペクトルが目標スペクトル(510)に近づくように、前記フィルタ(130;360,370,380,338)の前記特性を定義する値の前記セット(382;412;512)を決定するように構成される、装置。 - 複数の目標スケーリング値(494)と、異なる周波数ビンまたは周波数範囲と関連付けられる復号されたオーディオ表現のスペクトル値(326;446;546)を基礎としてニューラルネットワークを使用して得られる複数のスケーリング値(136;336;484;584)との間の偏差(MSEMA)を低減または最小化するために、前記フィルタ(130;360,370,380,338)の一部であり、前記復号されたオーディオ信号(122;322;432;532)の大きさ値(362,372;462,472;562)または前記復号されたオーディオ信号のスペクトル値(326;446;546)をスケーリングするためのスケーリング値(136;336;484;584)を提供する、機械学習構造(380;480;580)を訓練するように構成される、請求項23に記載の装置(200;400)。
- 目標スペクトル(510)と、処理されたスペクトル(532;546)のスケーリングを使用して得られるスペクトル(592)との間の偏差(MSESA)を低減または最小化するために、機械学習構造(380;480;580)を訓練するように構成され、
前記処理されたスペクトルは、前記目標スペクトルに基づき、
前記スケーリングは、機械学習構造によって提供されるスケーリング値(584)を使用する、請求項23に記載の装置(200;500)。 - 前記復号されたオーディオ信号表現のスペクトル値のスケーリング、または復号されたオーディオ信号表現の前記スペクトル値に基づく1つまたは複数の前処理されたスペクトル値のスケーリングが、0と2の間の範囲にあるように、または0と5の間の範囲にあるように、または0と10の間の範囲にあるように、機械学習構造(380;480;580)を訓練するように構成される、請求項23から25のいずれか一項に記載の装置(200;400;500)。
- 前記復号されたオーディオ信号表現のスペクトル値のための、または復号されたオーディオ信号表現の前記スペクトル値に基づく1つまたは複数の前処理されたスペクトル値のための大きさのスケーリングが、0と所定の最大値との間の範囲内にあるように制限されるように、機械学習構造(380;480;580)を訓練するように構成される、請求項23から26のいずれか一項に記載の装置(200;400;500)。
- 前記最大値が1より大きい、請求項27に記載のオーディオデコーダ(200;400;500)。
- 符号化されたオーディオ表現を基礎として強化されたオーディオ表現を提供するための方法(900)であって、
前記符号化されたオーディオ表現の復号されたオーディオ表現を提供するステップ(910)を備え、
異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値を取得するステップ(920)を備え、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値を使用してスケーリングし、前記強化されたオーディオ表現を取得するステップ(930)を備え、
前記スケーリング値を提供するために、構成可能な処理構造が使用され、前記構成可能な処理構造の構成が機械学習アルゴリズムに基づく、方法(900)。 - 復号されたオーディオ表現を基礎として強化されたオーディオ表現を提供するためのフィルタの特性を定義する値のセットを決定するための方法(1000)であって、
異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現のスペクトル値を取得するステップ(1010)を備え、
異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現の前記スペクトル値を基礎として前記フィルタによって提供されるスケーリング値が目標スケーリング値に近づくように、前記フィルタの前記特性を定義する値の前記セットを決定するステップ(1020)を備え、または、
異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現の前記スペクトル値を基礎として、および前記復号されたオーディオ表現を基礎として得られるスケーリング値を使用して、前記フィルタによって得られるスペクトルが目標スペクトルに近づくように、前記フィルタの前記特性を定義する値の前記セットを決定するステップ(1030)を備える、方法。 - コンピュータプログラムがコンピュータ上で実行されたとき、請求項29または30に記載の方法を実行するためのコンピュータプログラム。
- 符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(112;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが複数のスケーリング値(136;336)を取得するように構成され、前記複数のスケーリング値が、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられ、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
ニューラルネットワーク(380;600)の、または機械学習構造の入力信号(372)が、前記復号されたオーディオ表現のスペクトル値の対数の大きさ、振幅、またはノルムを表し、前記スペクトル値が異なる周波数ビンまたは周波数範囲と関連付けられる、オーディオデコーダ。 - 符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(112;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値(136;336)を取得するように構成され、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)を記述する複数のスペクトル値(132;326)を基礎として、前記スケーリング値(136;336)を提供するように構成される、ニューラルネットワーク(380;600)または機械学習構造を備え、
前記ニューラルネットワーク(380;600)または前記機械学習構造が、前記復号されたオーディオ信号表現(122;322)のスペクトル分解の1つまたは複数のスペクトル値(132;326)のスケーリング、または前記復号されたオーディオ信号表現の前記スペクトル分解の前記スペクトル値に基づく1つまたは複数の前処理されたスペクトル値のスケーリングが、0と所定の最大値との間の範囲内にあるように訓練され、
前記最大値が1より大きい、オーディオデコーダ。 - 符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(112;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値(136;336)を取得するように構成され、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)を記述する複数のスペクトル値(132;326)を基礎として、前記スケーリング値(136;336)を提供するように構成される、ニューラルネットワーク(380;600)または機械学習構造を備え、
前記ニューラルネットワーク(380;600)または前記機械学習構造が、前記復号されたオーディオ信号表現のスペクトル分解の1つまたは複数のスペクトル値の前記スケーリング、または前記復号されたオーディオ信号表現の前記スペクトル分解の前記スペクトル値に基づく1つまたは複数の前処理されたスペクトル値の前記スケーリングが2に制限されるように、または5に制限されるように、または10に制限されるように、または1より大きい所定の値に制限されるように訓練される、オーディオデコーダ。 - 符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(112;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値(136;336)を取得するように構成され、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)を記述する複数のスペクトル値(132;326)を基礎として前記スケーリング値(136;336)を提供するように構成される、ニューラルネットワーク(380;600)または機械学習構造を備え、
前記ニューラルネットワーク(380;600)または前記機械学習構造が、前記スケーリング値が2に制限されるように、または5に制限されるように、または10に制限されるように、または1より大きい所定の値に制限されるように訓練される、オーディオデコーダ。 - 符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(122;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値(136;336)を取得するように構成され、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)を記述する複数のスペクトル値(132;326)を基礎として前記スケーリング値(136;336)を提供するように構成される、ニューラルネットワーク(380;600)または機械学習構造を備え、
前記フィルタ(130;360,370,380,338)が、前記ニューラルネットワークまたは前記機械学習構造の入力特徴量を、所定の平均値および/または所定の分散もしくは標準偏差へと正規化するように構成される、オーディオデコーダ。 - 符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(122;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値(136;336)を取得するように構成され、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)を記述する複数のスペクトル値(132;326)を基礎として前記スケーリング値(136;336)を提供するように構成される、ニューラルネットワーク(380;600)または機械学習構造を備え、
前記ニューラルネットワーク(380;600)または前記機械学習構造の入力信号(372)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現のスペクトル値の対数の大きさを表す、オーディオデコーダ。 - 符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(122;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値(136;336)を取得するように構成され、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)を記述する複数のスペクトル値(132;326)を基礎として前記スケーリング値(136;336)を提供するように構成される、ニューラルネットワーク(380;600)または機械学習構造を備え、
前記ニューラルネットワーク(380;600)が、入力層(610)、1つまたは複数の隠れ層(612a-612d)、および出力層(614)を備え、
前記1つまたは複数の隠れ層(612a-612d)が正規化線形ユニットを活性化関数として使用する、オーディオデコーダ。 - 符号化されたオーディオ表現(110;310)を基礎として復号されたオーディオ表現(122;322)を提供するためのオーディオデコーダ(100;300)であって、
前記復号されたオーディオ表現(122;322)の強化されたオーディオ表現(122;312)を提供するためのフィルタ(130;360,370,380,338)を備え、
前記フィルタが、異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現のスペクトル値(132;326)を基礎として、異なる周波数ビンまたは周波数範囲と関連付けられる複数のスケーリング値(136;336)を取得するように構成され、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、前記スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記フィルタ(130;360,370,380,338)が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)を記述する複数のスペクトル値(132;326)を基礎として前記スケーリング値(136;336)を提供するように構成される、ニューラルネットワーク(380;600)または機械学習構造を備え、
前記ニューラルネットワーク(380;600)が、入力層(610)、1つまたは複数の隠れ層(612a-612d)、および出力層(614)を備え、
前記出力層(614)が、正規化線形ユニットまたは有界正規化線形ユニットまたはシグモイド関数を活性化関数として使用する、オーディオデコーダ。 - 復号されたオーディオ表現(122;322)を基礎として強化されたオーディオ表現(112;312)を提供するためのフィルタ(130;360,370,380,338)の特性を定義する値のセットを決定するための装置(200;400;500)であって、
前記フィルタが、前記復号されたオーディオ信号表現のスペクトル値、または前記スペクトル値の前処理されたバージョンを、スケーリング値(136;336)を使用してスケーリングし、前記強化されたオーディオ表現(122;312)を取得するように構成され、
前記装置が、異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)のスペクトル値(132;326)を取得するように構成され、
異なる周波数ビンまたは周波数範囲と関連付けられる前記復号されたオーディオ表現の前記スペクトル値を基礎として前記フィルタによって提供され、かつ異なる周波数ビンまたは周波数範囲と関連付けられる、スケーリング値(136;336;484;584)が目標スケーリング値(494)に近づくように、前記フィルタ(130;360,370,380,338)の前記特性を定義する値の前記セット(382;412;512)を決定するように構成され、または、
異なる周波数ビンまたは周波数範囲と関連付けられる、前記復号されたオーディオ表現(122;322)の前記スペクトル値(132;326)を基礎として、および前記復号されたオーディオ表現(122;322)を基礎として得られるスケーリング値(136;336;484;584)を使用して、前記フィルタによって得られるスペクトルが目標スペクトル(510)に近づくように、前記フィルタ(130;360,370,380,338)の前記特性を定義する値の前記セット(382;412;512)を決定するように構成される、装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2019/059355 WO2020207593A1 (en) | 2019-04-11 | 2019-04-11 | Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program |
EPPCT/EP2019/059355 | 2019-04-11 | ||
PCT/EP2020/060148 WO2020208137A1 (en) | 2019-04-11 | 2020-04-09 | Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022528720A JP2022528720A (ja) | 2022-06-15 |
JP7383725B2 true JP7383725B2 (ja) | 2023-11-20 |
Family
ID=66165982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021559874A Active JP7383725B2 (ja) | 2019-04-11 | 2020-04-09 | オーディオデコーダ、フィルタの特性を定義する値のセットを決定するための装置、復号されたオーディオ表現を提供するための方法、フィルタの特性を定義する値のセットを決定するための方法、およびコンピュータプログラム |
Country Status (13)
Country | Link |
---|---|
US (1) | US20220223161A1 (ja) |
EP (1) | EP3953932A1 (ja) |
JP (1) | JP7383725B2 (ja) |
KR (1) | KR20210151931A (ja) |
CN (1) | CN114245919A (ja) |
AU (1) | AU2020271965A1 (ja) |
BR (1) | BR112021020330A2 (ja) |
CA (1) | CA3136520C (ja) |
MX (1) | MX2021012302A (ja) |
SG (1) | SG11202111138XA (ja) |
TW (1) | TWI797441B (ja) |
WO (2) | WO2020207593A1 (ja) |
ZA (1) | ZA202108890B (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7487414B2 (ja) | 2020-10-16 | 2024-05-20 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ディープニューラルネットワークを用いた適応ブロックスイッチング |
CN113035211B (zh) * | 2021-03-11 | 2021-11-16 | 马上消费金融股份有限公司 | 音频压缩方法、音频解压缩方法及装置 |
KR20240088788A (ko) * | 2021-10-14 | 2024-06-20 | 퀄컴 인코포레이티드 | 머신 러닝 기반 시변 필터와 선형 예측 코딩 필터의 조합을 이용한 오디오 코딩 |
US11849286B1 (en) | 2021-10-25 | 2023-12-19 | Chromatic Inc. | Ear-worn device configured for over-the-counter and prescription use |
US11832061B2 (en) * | 2022-01-14 | 2023-11-28 | Chromatic Inc. | Method, apparatus and system for neural network hearing aid |
US11950056B2 (en) | 2022-01-14 | 2024-04-02 | Chromatic Inc. | Method, apparatus and system for neural network hearing aid |
US20230306982A1 (en) | 2022-01-14 | 2023-09-28 | Chromatic Inc. | System and method for enhancing speech of target speaker from audio signal in an ear-worn device using voice signatures |
US11818547B2 (en) * | 2022-01-14 | 2023-11-14 | Chromatic Inc. | Method, apparatus and system for neural network hearing aid |
US11902747B1 (en) | 2022-08-09 | 2024-02-13 | Chromatic Inc. | Hearing loss amplification that amplifies speech and noise subsignals differently |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011514557A (ja) | 2008-03-05 | 2011-05-06 | ヴォイスエイジ・コーポレーション | 復号化音調音響信号を増強するためのシステムおよび方法 |
JP2017520803A (ja) | 2014-10-21 | 2017-07-27 | 三菱電機株式会社 | ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 |
WO2019017403A1 (ja) | 2017-07-19 | 2019-01-24 | 日本電信電話株式会社 | マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 |
JP2019035862A (ja) | 2017-08-17 | 2019-03-07 | 日本電信電話株式会社 | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2776848B2 (ja) * | 1988-12-14 | 1998-07-16 | 株式会社日立製作所 | 雑音除去方法、それに用いるニューラルネットワークの学習方法 |
US20040013272A1 (en) * | 2001-09-07 | 2004-01-22 | Reams Robert W | System and method for processing audio data |
CN101548316B (zh) * | 2006-12-13 | 2012-05-23 | 松下电器产业株式会社 | 编码装置、解码装置以及其方法 |
AU2009256551B2 (en) * | 2008-06-13 | 2015-08-13 | Nokia Technologies Oy | Method and apparatus for error concealment of encoded audio data |
EP3246918B1 (en) * | 2008-07-11 | 2023-06-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method for decoding an audio signal and computer program |
WO2010003663A1 (en) * | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding frames of sampled audio signals |
TWI430263B (zh) * | 2009-10-20 | 2014-03-11 | Fraunhofer Ges Forschung | 音訊信號編碼器、音訊信號解碼器、使用混疊抵消來將音訊信號編碼或解碼之方法 |
TWI484473B (zh) * | 2009-10-30 | 2015-05-11 | Dolby Int Ab | 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統 |
AP3301A (en) * | 2009-12-07 | 2015-06-30 | Dolby Lab Licensing Corp | Decoding of multichannel audio encoded bit streamsusing adaptive hybrid transformation |
JP5625076B2 (ja) * | 2010-03-10 | 2014-11-12 | フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | コーディングコンテキストのピッチ依存適合を用いた、オーディオ信号復号器、オーディオ信号符号化器、オーディオ信号を復号するための方法、オーディオ信号を符号化するための方法、およびコンピュータプログラム |
MY164164A (en) * | 2011-05-13 | 2017-11-30 | Samsung Electronics Co Ltd | Bit allocating, audio encoding and decoding |
JP6305694B2 (ja) * | 2013-05-31 | 2018-04-04 | クラリオン株式会社 | 信号処理装置及び信号処理方法 |
RU2638734C2 (ru) * | 2013-10-18 | 2017-12-15 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Кодирование спектральных коэффициентов спектра аудиосигнала |
PT3285255T (pt) * | 2013-10-31 | 2019-08-02 | Fraunhofer Ges Forschung | Descodificador de áudio e método para fornecer uma informação de áudio descodificada utilizando uma ocultação de erro baseada num sinal de excitação no domínio de tempo |
WO2019083130A1 (ko) * | 2017-10-25 | 2019-05-02 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11605371B2 (en) * | 2018-06-19 | 2023-03-14 | Georgetown University | Method and system for parametric speech synthesis |
-
2019
- 2019-04-11 WO PCT/EP2019/059355 patent/WO2020207593A1/en active Application Filing
-
2020
- 2020-04-09 CA CA3136520A patent/CA3136520C/en active Active
- 2020-04-09 WO PCT/EP2020/060148 patent/WO2020208137A1/en active Search and Examination
- 2020-04-09 MX MX2021012302A patent/MX2021012302A/es unknown
- 2020-04-09 SG SG11202111138XA patent/SG11202111138XA/en unknown
- 2020-04-09 JP JP2021559874A patent/JP7383725B2/ja active Active
- 2020-04-09 KR KR1020217036989A patent/KR20210151931A/ko unknown
- 2020-04-09 AU AU2020271965A patent/AU2020271965A1/en active Pending
- 2020-04-09 EP EP20717660.3A patent/EP3953932A1/en active Pending
- 2020-04-09 BR BR112021020330A patent/BR112021020330A2/pt unknown
- 2020-04-09 CN CN202080035307.9A patent/CN114245919A/zh active Pending
- 2020-04-10 TW TW109112229A patent/TWI797441B/zh active
-
2021
- 2021-10-07 US US17/496,560 patent/US20220223161A1/en active Pending
- 2021-11-10 ZA ZA2021/08890A patent/ZA202108890B/en unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011514557A (ja) | 2008-03-05 | 2011-05-06 | ヴォイスエイジ・コーポレーション | 復号化音調音響信号を増強するためのシステムおよび方法 |
JP2017520803A (ja) | 2014-10-21 | 2017-07-27 | 三菱電機株式会社 | ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 |
WO2019017403A1 (ja) | 2017-07-19 | 2019-01-24 | 日本電信電話株式会社 | マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 |
JP2019035862A (ja) | 2017-08-17 | 2019-03-07 | 日本電信電話株式会社 | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム |
Non-Patent Citations (4)
Title |
---|
Seyedmahdad MIRSAMADI et. al,Causal Speech Enhancement Combining Data-Driven Learning and Suppression Rule Estimation,INTERSPEECH 2016,2016年,第2870-2874ページ,[2022年12月26日検索], <URL: https://www.isca-speech.org/archive_v0/Interspeech_2016/abstracts/0437.html> |
Yan ZHAO et. al,A two-stage algorithm for noisy and reverberant speech enhancement,2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),2017年03月,第5580-5584ページ,[2022年12月26日検索], <URL: https://www.ieeexplore.ieee.org/document/7953224> |
Ziyue ZHAO et. al,Enhancement of G.711-Coded Speech Providing Quality Higher Than Uncoded,Speech Communication 13th ITG-Symposium,2018年10月,第211-215ページ,[2022年12月26日検索], <URL: https://www.ieeexplore.ieee.org/document/8578025> |
小泉 悠馬, 外3名,聴感評価を向上させるためのDNN音源強調関数のブラックボックス最適化,日本音響学会2017年秋季研究発表会講演論文集CD-ROM,2017年09月,第511-514ページ,3-12-11 |
Also Published As
Publication number | Publication date |
---|---|
CN114245919A (zh) | 2022-03-25 |
TW202105367A (zh) | 2021-02-01 |
KR20210151931A (ko) | 2021-12-14 |
JP2022528720A (ja) | 2022-06-15 |
US20220223161A1 (en) | 2022-07-14 |
WO2020208137A1 (en) | 2020-10-15 |
ZA202108890B (en) | 2024-04-24 |
TWI797441B (zh) | 2023-04-01 |
WO2020207593A1 (en) | 2020-10-15 |
AU2020271965A1 (en) | 2021-11-04 |
CA3136520C (en) | 2024-03-12 |
SG11202111138XA (en) | 2021-11-29 |
BR112021020330A2 (pt) | 2021-12-14 |
CA3136520A1 (en) | 2020-10-15 |
AU2020271965A2 (en) | 2022-12-22 |
MX2021012302A (es) | 2021-12-15 |
EP3953932A1 (en) | 2022-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7383725B2 (ja) | オーディオデコーダ、フィルタの特性を定義する値のセットを決定するための装置、復号されたオーディオ表現を提供するための方法、フィルタの特性を定義する値のセットを決定するための方法、およびコンピュータプログラム | |
Pulakka et al. | Bandwidth extension of telephone speech using a neural network and a filter bank implementation for highband mel spectrum | |
CN109545236B (zh) | 改进时域编码与频域编码之间的分类 | |
RU2712125C2 (ru) | Кодер и способ кодирования аудиосигнала с уменьшенным фоновым шумом с использованием кодирования с линейным предсказанием | |
CN107293311B (zh) | 非常短的基音周期检测和编码 | |
KR20160125984A (ko) | 화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들 | |
JP7123134B2 (ja) | デコーダにおけるノイズ減衰 | |
Korse et al. | Enhancement of coded speech using a mask-based post-filter | |
Braun et al. | Effect of noise suppression losses on speech distortion and ASR performance | |
Pulakka et al. | Bandwidth extension of telephone speech to low frequencies using sinusoidal synthesis and a Gaussian mixture model | |
Lim et al. | Robust low rate speech coding based on cloned networks and wavenet | |
US10672411B2 (en) | Method for adaptively encoding an audio signal in dependence on noise information for higher encoding accuracy | |
Zhao et al. | A CNN postprocessor to enhance coded speech | |
Grancharov et al. | Generalized postfilter for speech quality enhancement | |
Lim et al. | End-to-end neural audio coding in the mdct domain | |
RU2803449C2 (ru) | Аудиодекодер, устройство для определения набора значений, задающих характеристики фильтра, способы для обеспечения декодированного аудиопредставления, способы для определения набора значений, задающих характеристики фильтра, и компьютерная программа | |
Shahhoud et al. | PESQ enhancement for decoded speech audio signals using complex convolutional recurrent neural network | |
Li et al. | Mimo speech compression and enhancement based on convolutional denoising autoencoder | |
Nagaraja et al. | Advancements in encoded speech data by background noise suppression under uncontrolled environment | |
Kim et al. | A preprocessor for low-bit-rate speech coding | |
Mars et al. | On the Use of Absolute Threshold of Hearing-based Loss for Full-band Speech Enhancement | |
Jokinen et al. | Utilization of the Lombard effect in post-filtering for intelligibility enhancement of telephone speech. | |
Hennix | Decoder based noise suppression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20211207 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230110 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230328 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230710 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7383725 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |