JP2021502588A - ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム - Google Patents
ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム Download PDFInfo
- Publication number
- JP2021502588A JP2021502588A JP2020523777A JP2020523777A JP2021502588A JP 2021502588 A JP2021502588 A JP 2021502588A JP 2020523777 A JP2020523777 A JP 2020523777A JP 2020523777 A JP2020523777 A JP 2020523777A JP 2021502588 A JP2021502588 A JP 2021502588A
- Authority
- JP
- Japan
- Prior art keywords
- spectral
- layer
- signal
- raw signal
- frequency range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 112
- 230000005236 sound signal Effects 0.000 title claims abstract description 109
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000004590 computer program Methods 0.000 title claims abstract description 14
- 230000003595 spectral effect Effects 0.000 claims description 133
- 238000012545 processing Methods 0.000 claims description 63
- 238000001228 spectrum Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 14
- 230000002087 whitening effect Effects 0.000 claims description 14
- 238000013139 quantization Methods 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims description 2
- 238000010168 coupling process Methods 0.000 claims description 2
- 238000005859 coupling reaction Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims 1
- 230000001256 tonic effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 23
- 238000012549 training Methods 0.000 description 23
- 238000012360 testing method Methods 0.000 description 18
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000005284 excitation Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 9
- 230000001755 vocal effect Effects 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 6
- 238000011049 filling Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000003111 delayed effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 239000003623 enhancer Substances 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001456108 Castilla Species 0.000 description 1
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- YUZILKLGVPUFOT-YHPRVSEPSA-L disodium;5-[(6-anilino-4-oxo-1h-1,3,5-triazin-2-yl)amino]-2-[(e)-2-[4-[(6-anilino-4-oxo-1h-1,3,5-triazin-2-yl)amino]-2-sulfonatophenyl]ethenyl]benzenesulfonate Chemical compound [Na+].[Na+].C=1C=C(\C=C\C=2C(=CC(NC=3NC(NC=4C=CC=CC=4)=NC(=O)N=3)=CC=2)S([O-])(=O)=O)C(S(=O)(=O)[O-])=CC=1NC(N1)=NC(=O)N=C1NC1=CC=CC=C1 YUZILKLGVPUFOT-YHPRVSEPSA-L 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001617 migratory effect Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Neurology (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
−現在のフレームと前のフレームのスペクトログラムに基づいて、第1の層の畳込み演算を実行する。
−前の層の出力に基づいて、次の層の遅延畳込み演算を行う。
−最後の畳込み層のフレームあたりの出力は,回帰(LSTM,GRU)層に入力される1次元ベクトルである。
LSTM/GRU層の出力は、欠落した信号のエンベロープの推定値であるか、または代替的に、最終的に欠落した信号のエンベロープを出力する1つ以上の完全に接続された層に入力される。
−コアコーダが10ミリ秒以上のフレームで動作する場合、追加のアルゴリズム遅延がない。
−DNN構造が低複雑である
畳込み層と回帰層またはTNC層の組み合わせは、欠落信号の良い予測因子である。従って、システムの知覚された品質は、最新の状態のブラインド帯域幅拡張と比較して増加する。単純な完全結合層のような他のDNN構造は、同様のことを行うために訓練されるかもしれないが、提示されたシステムほどの複雑さではないことを強調しなければならない。
[1] Patrick Bauer, Rosa-Linde Fischer, Martina Bellanova, Henning Puder, and Tim Fingscheidt, "On improving telephone speech intelligibility for hearing impaired persons," in Proceedings of the 10. ITG Conference on Speech Communication, Braunschweig, Germany, September 26-28, 2012, 2012, pp. 1-4
[2] Patrick Bauer, Jennifer Jones, and Tim Fingscheidt, "Impact of hearing impairment on fricative intelligibility for artificially bandwidth-extended telephone speech in noise," in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2013, Vancouver, BC, Canada, May 26-31, 2013, pp. 7039-7043.
[3] Stefan Bruhn, Harald Pobloth, Markus Schnell, Bernhard Grill, Jon Gibbs, Lei Miao, Kari Jaervinen, Lasse Laaksonen, Noboru Harada, N. Naka, Stephane Ragot, Stephane Proust, T. Sanda, Imre Varga, C. Greer, Milan Jelinek, M. Xie, and Paolo Usai, "Standardization of the new 3GPP EVS codec," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 5703-5707
[4] Johannes Abel, Magdalena Kaniewska, Cyril Guillaume, Wouter Tirry, Hannu Pulakka, Ville Myllylae, Jari Sjoberg, Paavo Alku, Itai Katsir, David Malah, Israel Cohen, M. A. Tugtekin Turan, Engin Erzin, Thomas Schlien, Peter Vary, Amr H. Nour-Eldin, Peter Kabal, and Tim Fingscheidt, "A subjective listening test of six different artificial bandwidth extension approaches in English, Chinese, German, and Korean," in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2016, Shanghai, China, March 20-25, 2016, 2016, pp. 5915-5919.
[5] Peter Jax and Peter Vary, "Wideband extension of telephone speech using a hidden markov model," in 2000 IEEE Workshop on Speech Coding. Proceedings., 2000, pp. 133-135.
[6] Patrick Bauer, Johannes Abel, and Tim Fingscheidt, "Hmm-based artificial bandwidth extension supported by neural networks," in 14th International Workshop on Acoustic Signal Enhancement, IWAENC 2014, Juan-les-Pins, France, September 8-11, 2014, 2014, pp. 1-5.
[7] Hannu Pulakka and Paavo Alku, "Bandwidth extension of telephone speech using a neural network and a filter bank implementation for highband mel spectrum," IEEE Trans. Audio, Speech & Language Processing, vol. 19, no. 7, pp. 2170-2183, 2011.
[8] Kehuang Li and Chin-Hui Lee, "A deep neural network approach to speech bandwidth expansion," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 4395-4399.
[9] Yu Gu, Zhen-Hua Ling, and Li-Rong Dai, "Speech bandwidth extension using bottleneck features and deep recurrent neural networks," in Interspeech 2016, 17th Annual Conference of the International Speech Communication Association, San Francisco, CA, USA, September 8-12, 2016, 2016, pp. 297-301.
[10] Yu Gu and Zhen-Hua Ling, "Waveform modeling using stacked dilated convolutional neural networks for speech bandwidth extension," in Interspeech 2017, 18th Annual Conference of the International Speech Communication Association, Stockholm, Sweden, August 20-24, 2017, 2017, pp. 1123-1127.
[11] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew W. Senior, and Koray Kavukcuoglu, "Wavenet: A generative model for raw audio," in The 9th ISCA Speech Synthesis Workshop, Sunnyvale, CA, USA, 13-15 September 2016, 2016, p. 125.
[12] Sascha Disch, Andreas Niedermeier, Christian R. Helmrich, Christian Neukam, Konstantin Schmidt, Ralf Geiger, Jeremie Lecomte, Florin Ghido, Frederik Nagel, and Bernd Edler, "Intelligent gap filling in perceptual transform coding of audio," in Audio Engineering Society Convention 141, Los Angeles, Sep 2016.
[13] Martin Dietz, Lars Liljeryd, Kristofer Kjorling, and Oliver Kunz, "Spectral band replication, a novel approach in audio coding," in Audio Engineering Society Convention 112, Apr 2002.
[14] Konstantin Schmidt and Christian Neukam, "Low complexity tonality control in the intelligent gap filling tool," in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2016, Shanghai, China, March 20-25, 2016, 2016, pp. 644-648.
[15] Hugo Fastl and Eberhard Zwicker, Psychoacoustics: Facts and Models, Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.
[16] Yann Lecun, Leon Bottou, Yoshua Bengio, and Patrick Haffner, "Gradient-based learning applied to document recognition," Proceedings of the IEEE, vol. 86, no. 11, pp. 2278- 2324, Nov 1998.
[17] Sepp Hochreiter and Juergen Schmidhuber, "Long short-term memory," Neural Computation, vol. 9, no. 8, pp. 1735-1780, 1997.
[18] Junyoung Chung, Caglar Guelcehre, KyungHyun Cho, and Yoshua Bengio, "Empirical evaluation of gated recurrent neural networks on sequence modeling," NIPS Deep Learning workshop, Montreal, Canada, 2014.
[19] John C. Duchi, Elad Hazan, and Yoram Singer, "Adaptive subgradient methods for online learning and stochastic optimization," in COLT 2010 - The 23rd Conference on Learning Theory, Haifa, Israel, June 27-29, 2010, 2010, pp. 257-269.
[20] Francois Chollet et al., "Keras 1.2.2," https://github. com/fchollet/keras, 2015.
[21] Vassil Panayotov, Guoguo Chen, Daniel Povey, and Sanjeev Khudanpur, "Librispeech: An ASR corpus based on public domain audio books," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 5206-5210.
[22] ITU-T, "ITU-T recommendation P.800. methods for objective and subjective assessment of quality," 1996.
[23] ITU-T, "ITU-T recommendation P.810. modulated noise reference unit (MNRU)," 1996.
Claims (32)
- 入力オーディオ信号周波数範囲を有する入力オーディオ信号(50)から帯域幅拡張オーディオ信号を生成するための装置であって、
拡張周波数範囲を有する生信号(60)を生成するように構成された生信号生成器(10)であって、前記拡張周波数範囲は前記入力オーディオ信号周波数範囲に含まれない、生信号生成器(10)と、
前記入力オーディオ信号の前記入力オーディオ周波数範囲及び学習済みのニューラルネットワーク(31)を用いて前記拡張周波数範囲のためのパラメトリック表現(70)を生成するように構成されたニューラルネットワークプロセッサ(30)と、
前記拡張周波数領域のための前記パラメトリック表現(70)を用いて前記生信号(60)を処理して、前記拡張周波数範囲に周波数コンポーネントを有する処理済生信号(80)を得るための生信号プロセッサ(20)とを備え、
前記処理済生信号(80)または前記処理済生信号及び前記入力オーディオ信号の前記入力オーディオ信号周波数範囲は、前記帯域幅拡張オーディオ信号を表す、装置。 - 前記生信号生成器(10)は、
第1の調性を有する初期生信号を生成し(11a)、
前記初期生信号をスペクトル白色化処理して(11b)、前記初期生信号、前記第1の調性よりも低い第2の調性を有する前記生信号を得るように構成される、請求項1に記載の装置。 - 前記生信号生成器(10)は、第1の時間分解能(12)を用いて前記初期生信号のスペクトル白色化処理を実行する、または第1の時間分解能を用いて前記生信号(60)を生成するように構成される、あるいは前記生信号生成器(10)は、第1の周波数分解能(12)を用いて初期生信号のスペクトル白色化処理を実行する、または第1の周波数分解能を用いて前記生信号(60)を生成するように構成され、
前記ニューラルネットワークプロセッサ(30)は前記第1の時間分解能より高い第2の時間分解能で前記パラメトリック表現を生成する(32)ように構成される、または、前記ニューラルネットワークプロセッサ(30)は、前記第1の周波数分解能より低い第2の周波数分解能で前記パラメトリック表現を生成する(32)ように構成され、
前記生信号プロセッサ(20)は、前記処理済生信号(80)を得るために、前記第2の時間分解能または周波数分解能を有する前記パラメトリック表現を使用して(22)前記生信号を処理するように構成される、請求項1または請求項2に記載の装置。 - 前記生信号生成器(10)は、前記入力オーディオ信号のスペクトル部分を前記拡張周波数範囲にパッチ処理するためのパッチャ(18)を備え、前記パッチ処理は1回のパッチ処理動作または複数のパッチ処理動作を含み、前記複数のパッチ処理動作において、前記入力オーディオ信号の特定のスペクトル部分が、前記拡張周波数範囲の2つ以上のスペクトル部分にパッチされる、請求項1〜3のいずれか1項に記載の装置。
- 前記生信号プロセッサ(20)は、入力信号をスペクトル表現に変換するための時間−周波数コンバータ(17)であって、前記スペクトル表現はスペクトルフレームの時系列を含み、スペクトルフレームはスペクトル値を有する、時間−周波数コンバータ(17)を具備し、
前ニューラルネットワークプロセッサ(30)は、前記スペクトルフレームを前記学習済みニューラルネットワーク(31)に供給する、または前記スペクトルフレームを処理して(32)、前記スペクトル値が1.5と4.5の間の出力を有し、好ましくは2または3の出力を有する出力領域に変換される処理済みスペクトルフレームが得られるように構成され、
前記ニューラルネットワーク(31)は前記出力領域に関するパラメトリック表現を出力するように構成され、
前記生信号プロセッサ(20)は、前記パラメトリック表現を線形領域に変換し(26)、前記線形領域のパラメトリック表現をスペクトルフレームの前記時系列に適用する(27)ように構成される、
請求項1〜4のいずれか1項に記載の装置。 - 前記ニューラルネットワークロセッサ(30)は前記パラメトリック表現(70)を、0.9未満の出力を関連付けた対数表現または圧縮表現で出力するように構成され、
前記生信号プロセッサ(20)は、前記対数表現または前記圧縮表現からの前記パラメトリック表現を線形表現に変換する(26)ように構成される、
請求項1〜5のいずれか1項に記載の装置。 - 前記生信号生成器(10)は、
前記入力オーディオ信号をスペクトルフレームの系列に変換するための時間−周波数コンバータ(17)であって、スペクトルフレームの系列は値の系列を有する、時間−周波数コンバータ(17)と、
前記時間−周波数コンバータ(17)の出力を用いてそれぞれのスペクトルフレームのためのパッチ処理済信号を生成するためのパッチャ(18)と、
それぞれのスペクトルフレームのための前記パッチ処理済信号をスペクトルに白色化処理するため、または前記パッチャによるパッチ処理動作を実行する前に、前記時間−周波数コンバータ(17)からの対応する信号を白色化処理するための白色化処理ステージ(11b)と、
パッチ処理済みかつスペクトル白色化処理済みのフレームを含むフレームの系列を時間領域に変換して、前記生信号(60)を得るための周波数−時間コンバータ(19)であって、前記周波数−時間コンバータは前記増強周波数範囲に適応させるように構成される、周波数−時間コンバータ(19)とを備えた、請求項1〜6のいずれか1項に記載の装置。 - 前記原生号プロセッサ内の白色化処理ステージ(11b)は、
スペクトルフレーム又はスペクトルフレームの出力表現(13)をローパスフィルタ処理して、前記スペクトルフレームのためのエンベロープ推定を得るためローパスフィルタと、
前記エンベロープ推定によって前記スペクトルフレームを除算して、白色化処理済み信号を計算する(16)ための計算機であって、前記エンベローブが前記出力表現から導出される場合、分割器はスペクトル値(15)のための線形加重係数を計算して前記スペクトル値を前記線形加重係数によって除算する、計算機とを備えた、請求項1〜7のいずれか1項に記載の装置。 - 前記生信号プロセッサ(20)は、前記入力信号または前記入力信号から導出した信号および前記生信号(60)をスペクトル表現に変換するための時間−周波数コンバータ(24)を備え、
前記ニューラルネットワークプロセッサ(30)は、前記入力オーディオ信号周波数範囲のスペクトル表現を受信するように構成され、
前記生信号プロセッサ(20)は、前記入力オーディオ信号周波数範囲のスペクトル表現に応答して前記ニューラルネットワークプロセッサ(30)が提供する前記パラメータ表現(70)を前記生信号(60)の前記スペクトル表現に適用するためのスペクトルプロセッサ(23)を備え、
前記生信号プロセッサ(20)はさらに、前記生信号の処理済みのスペクトル表現を前記時間領域に変換するための周波数−時間コンバータ(24)をさらに備え、
前記装置は、前記入力オーディオ信号周波数範囲の前記処理済みのスペクトル表現と前記スペクトル表現を供給することによって、または前記時間領域において、前記入力オーディオ信号周波数範囲の時間表現と前記処理済の生信号(80)の時間表現とを結合することによって、前記処理済み生信号と前記入力オーディオ信号周波数範囲の結合を実行するように構成される、請求項1〜8のいずれか1項に記載の装置。 - 前記ニューラルネットワークプロセッサ(30)は、入力層(32)と出力層(34)とを備えるニューラルネットワーク(31)を備え、前記ニューラルネットワークプロセッサは、前記入力層において、前記入力オーディオ信号から導出されたスペクトログラムを受信するように構成され、前記スペクトログラムはスペクトルフレームの時系列を含み、スペクトルフレームは多数のスペクトル値を有し、また出力層では、前記パラメトリック表現(70)の個々のパラメータを出力するように構成され、
前記スペクトル値は、一次スペクトル値、または1.5〜4.5の間の出力を用いて処理された出力スペクトル値、または処理済みの出力値であって、前記処理は対数係数または出力1未満の出力係数を使用した圧縮を含む、請求項1〜9のいずれか1項に記載の装置。 - 前記入力層(32)または1つ以上の中間層(33)は、1つ以上の畳込みカーネルを含む畳込み層として形成され、畳込みカーネルは前記スペクトルフレームの時系列内の少なくとも2つの異なるフレームから多数のスペクトル値の畳込み処理を実行するように構成される、請求項10に記載の装置。
- 前記畳込みカーネルは、フレームごとにつき第1の数のスペクトル値と前記フレームの時系列内のフレームの第2の数を伴う二次元の畳込み処理を実行するように構成され、前記第1の数と前記第2の数とは2以上10未満である、請求項11に記載の装置。
- 前記入力層(32)または第1の前記中間層(33)は周波数において隣接しかつ時間において隣接する少なくとも1つのカーネル処理スペクトル値を含み、
前記ニューラルネットワーク(31)はさらに、時間指数に関して、層のスタックの中の前の層の1つおきの結果すべてまたは2つおきの結果すべてのみが前記畳込み層によって入力として受信されるように、削除関数に基づいて動作する中間畳込み層(33b)を含む、
請求項11または12に記載の装置。 - 前記ニューラルネットワークは、前記出力層(34)として、または前記出力層(34)に加えて、回帰層を含み、前記回帰層は、時間指数のために畳込み層の出力ベクトルを受信し、メモリを有する回帰層機能を用いて出力ベクトルを受信する、請求項10〜13のいずれか1項に記載の装置。
- 前記回帰層は、長/短期記憶(LSTM)機能を含む、またはゲート付き回帰型ユニット(GRU)機能を含む、またはIIRフィルタ機能である、
請求項14に記載の装置。 - 前記入力層(32)または1つ以上の中間層(33)は、計算するために、それぞれの入力について、回帰層の回帰機能を用いる出力を含み、前記回帰層は、少なくとも一群の出力は前記回帰機能の出力と前記回帰機能への入力との線形結合であるような残差結合を含む、請求項10〜15のいずれか1項に記載の装置。
- 前記出力層は、1つ以上の全結合層を含み、前記全結合層又は最も高い全結合層は、出力において、前記生信号の現在の時間フレームのための前記パラメトリック表現のパラメータを供給し、また前記全結合層は、その入力において、前記現在の時間フレームのための入力層又は中間層の出力値を受信するように構成される、請求項10〜16のいずれか1項に記載の装置。
- 前記入力層(32)または中間層(33)は、整数の時間指数のそれぞれについて出力データベクトルを有する回帰層であり、
前記ニューラルネットワーク(31)はさらに、消去された回帰処理のための1つ以上のカーネルを有する追加の回帰層を含み、
前記追加の回帰層のための1つ以上のカーネルは、時間指数のための出力ベクトルを計算するために、時間指数のための前記入力層または前記中間層から、1つ以上の整数値分互いに異なる少なくとも2つのデータベクトルを受信し、
次の時間指数のための出力ベクトルを計算するために、前記1つ以上のカーネルは、前記時間指数からインターリーブされている別の時間指数のための前記入力層または前記中間層から、少なくとも2つのデータベクトルを受信する、
請求項10〜17のいずれか1項に記載の装置。 - 前記ニューラルネットワークは、
現在の時間指数に相当する、前記入力オーディオ信号の前記入力オーディオ信号周波数範囲を含む現在のフレームを受信するための入力層としての第1の回帰層であって、前記第1の回帰層は1つ以上の前のフレームをさらに使用するように構成される第1の回帰層と、
前記第1の回帰層の出力を受信するための少なくとも1つの第2の回帰層であって、前記少なくとも1つの第2の回帰層は拡張回帰動作を実行して現在の時間指数のためのベクトルを得るように構成される、少なくとも1つの第2の回帰層と、
前記現在の時間指数に先行する少なくとも5個の時間指数をカバーするメモリ機能をもたらす回帰機能を使用して、前記現在の時間指数のための前記ベクトルを処理するための、少なくとも1つの回帰層とを含み、
前記回帰層は前記出力層(34)を形成する、または前記出力層(34)は回帰層の出力を受信し、前記パラメトリック表現(70)のパラメータを出力する全結合層である、
請求項10〜18のいずれか1項に記載の装置。 - 前記パラメトリック表現(70)は、複数の拡張周波数範囲帯域のそれぞれの帯域のためのスペクトルエンベローブ値を有し、前記複数の拡張周波数範囲帯域は全体で前記拡張周波数範囲を形成し、
各々の拡張周波数帯域は少なくとも2つのスペクトル値を含み、
前記生信号プロセッサは、拡張周波数範囲帯域のためスペクトルエンベローブ値を使用して、前記拡張周波数範囲帯域において、前記生信号の少なくとも2つのスペクトル値をスケーリングする(27、23)ように構成される、請求項1〜19のいずれか1項に記載の装置。 - 前記スペクトルエンベローブ値は、前記スペクトルエンベローブ値が関連付けられている前記拡張周波数帯域の絶対エネルギーの大きさを示し、
前記生信号プロセッサ(20)は、前記拡張周波数範囲帯域内の前記生信号のエネルギーの大きさを計算する(25)ように構成され、
前記生信号プロセッサ(20)は、前記絶対エネルギーの大きさを使用して振幅値をスケーリングして(27)、前記拡張周波数帯域内のスケーリングされた前記スペクトル値が前記絶対エネルギーの大きさによって示されるエネルギーを有するように構成される、請求項20に記載の装置。 - 前記生信号プロセッサ(20)は、前記拡張周波数帯域の信号のエネルギーの大きさから、および、前記パラメトリック表現(70)から導出された前記拡張周波数範囲帯域の絶対エネルギーの大きさからスケーリング係数を計算する(27)ように構成される、請求項21に記載の装置。
- 前記オーディオ信号周波数範囲は狭帯域周波数範囲であり、
前記拡張周波数範囲は、前記狭帯域周波数範囲における最大周波数より大きい周波数を有する、請求項1〜23のいずれか1項に記載の装置。 - 前記ニューラルネットワークプロセッサ(30)は、調性パラメータ、時間エンベローブパラメータ、スペクトルエンベローブパラメータ、スケーリング係数帯域エネルギーのセット、分布量子化値のセットまたはエネルギーおよび傾斜パラメータを含むパラメータ群のうちの少なくとも1つのパラメータをパラメータとして提供するように構成され、
前記生信号プロセッサ(20)は、前記パラメータを前記生信号(60)に適応して前記処理済み生信号(80)を得るように構成される、請求項1〜24のいずれか1項に記載の装置。 - オーディオ信号を処理するためのシステムであって、
フレームに編成されたコアオーディオ信号を復号化するためのコアオーディオデコーダ(140)であって、前記コアオーディオデコーダ(140)はフレーム損失又はエラーフレームを伴うエラー状況を検出するように構成され、
前記コアオーディオデコーダ(140)はエラー隠蔽動作を実行して前記エラー状況のために代替フレームを得るように構成される、コアオーディオデコーダ(140)と、
請求項1〜25のいずれか1項に記載の装置(100)であって、前記装置(100)は前記代替フレームを、前記入力信号として、かつ前記エラー状況のための帯域幅拡張オーディオ信号を生成するために使用するように構成される、システム。 - オーディオ信号を処理するためのシステムであって、
入力オーディオ信号と拡張周波数範囲のためのパラメトリックサイド情報を受信するための入力インターフェース(150)と、
請求項1〜25のいずれか1項に記載の帯域幅拡張オーディオ信号を生成するための装置(100)と、を備え、
前記生信号プロセッサ(20)は、前記帯域幅拡張オーディオ信号を生成するために、前記ニューラルネットワークプロセッサ(30)が提供する前記パラメトリック表現(70)に加えて、前記パラメトリックサイド情報を使用するように構成される、システム。 - 前記パラメトリックサイド情報は、前記ニューラルネットワークプロセッサ(30)が提供するパラメータに関連付けられた1つのビットを含み、
前記生信号プロセッサ(20)は、特定のパラメータのための前記ビットの値に従った増加によって、前記ニューラルネットワークプロセッサ(30)が提供するパラメータを修正する(160)ように構成される、請求項27に記載のシステム。 - 入力オーディオ信号周波数範囲を有する入力オーディオ信号(50)から帯域幅拡張オーディオ信号を生成する方法であって、前記方法は、
拡張周波数範囲を有する生信号(60)を生成するステップ(10)であって、前記拡張周波数範囲は前記入力オーディオ信号周波数範囲に含まれない、生成するステップと、
前記入力オーディオ信号の前記入力オーディオ周波数範囲と学習済みニューラルネットワーク(31)を使用して、前記拡張周波数範囲のためのパラメトリック表現(70)を生成するステップ(30)と、
前記拡張周波数範囲のための前記パラメトリック表現(70)を使用して前記生信号(6)を処理して、前記拡張周波数範囲に周波数成分を有する処理済みの生信号(80)を得るステップと、を含み、
前記処理済みの生信号(80)または前記処理済みの生信号と前記入力オーディオ信号の前記入力オーディオ信号周波数範囲は、前記帯域幅拡張オーディオ信号を表す、方法。 - オーディオ信号を処理するための方法であって、
フレームに編成されたコアオーディオ信号を復号化するステップ(140)であって、前記コアオーディオデコーダ(140)はフレームロスまたはエラーフレームを伴うエラー状況を検出するように構成され、
前記復号化するステップ(140)は、エラー隠蔽動作を実行してエラー状況のための代替フレームを取得する、復号化するステップ(140)と、
請求項29に記載の方法(100)であって、前記方法(100)は前記代替フレームを入力された音声信号として使用して、前記エラー状況のための前記帯域幅拡張オーディオ信号を生成する、請求項29記載の方法(100)を含む、方法。 - オーディオ信号を処理する方法であって、
入力オーディオ信号と拡張周波数範囲のためのパラメトリックサイド情報を受信するステップ(150)と、
請求項29に記載の方法に従って帯域幅拡張オーディオ信号を生成するステップ(100)とを含み、
前記生信号を処理するステップ(20)は、前記ニューラルネットワーク(31)が提供するパラメトリック表現(70)に加えてパラメトリックサイド情報を使用して、前記帯域幅拡張オーディオ信号を生成するステップ、を含む、方法。 - コンピュータまたはプロセッサ上で動作するときに、請求項29〜31のいずれか1項に記載の方法を実行するためのコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17198997.3 | 2017-10-27 | ||
EP17198997 | 2017-10-27 | ||
PCT/EP2018/059593 WO2019081070A1 (en) | 2017-10-27 | 2018-04-13 | APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021502588A true JP2021502588A (ja) | 2021-01-28 |
JP7214726B2 JP7214726B2 (ja) | 2023-01-30 |
Family
ID=60268209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020523777A Active JP7214726B2 (ja) | 2017-10-27 | 2018-04-13 | ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム |
Country Status (7)
Country | Link |
---|---|
US (1) | US11562764B2 (ja) |
EP (1) | EP3701527B1 (ja) |
JP (1) | JP7214726B2 (ja) |
CN (1) | CN111386568B (ja) |
BR (1) | BR112020008216A2 (ja) |
RU (1) | RU2745298C1 (ja) |
WO (1) | WO2019081070A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12002479B2 (en) | 2019-09-18 | 2024-06-04 | Tencent Technology (Shenzhen) Company Limited | Bandwidth extension method and apparatus, electronic device, and computer-readable storage medium |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11037581B2 (en) * | 2016-06-24 | 2021-06-15 | Samsung Electronics Co., Ltd. | Signal processing method and device adaptive to noise environment and terminal device employing same |
US10432240B1 (en) | 2018-05-22 | 2019-10-01 | Micron Technology, Inc. | Wireless devices and systems including examples of compensating power amplifier noise |
JP7024687B2 (ja) * | 2018-11-07 | 2022-02-24 | 日本電信電話株式会社 | データ分析システム、学習装置、方法、及びプログラム |
CN110223680B (zh) * | 2019-05-21 | 2021-06-29 | 腾讯科技(深圳)有限公司 | 语音处理方法、识别方法及其装置、系统、电子设备 |
US10763905B1 (en) | 2019-06-07 | 2020-09-01 | Micron Technology, Inc. | Wireless devices and systems including examples of mismatch correction scheme |
CN110265053B (zh) * | 2019-06-29 | 2022-04-19 | 联想(北京)有限公司 | 信号降噪控制方法、装置及电子设备 |
KR20210003514A (ko) * | 2019-07-02 | 2021-01-12 | 한국전자통신연구원 | 오디오의 고대역 부호화 방법 및 고대역 복호화 방법, 그리고 상기 방법을 수하는 부호화기 및 복호화기 |
KR20210003507A (ko) * | 2019-07-02 | 2021-01-12 | 한국전자통신연구원 | 오디오 코딩을 위한 잔차 신호 처리 방법 및 오디오 처리 장치 |
CN110322891B (zh) * | 2019-07-03 | 2021-12-10 | 南方科技大学 | 一种语音信号的处理方法、装置、终端及存储介质 |
US11005689B2 (en) * | 2019-07-11 | 2021-05-11 | Wangsu Science & Technology Co., Ltd. | Method and apparatus for bandwidth filtering based on deep learning, server and storage medium |
CN110491407B (zh) * | 2019-08-15 | 2021-09-21 | 广州方硅信息技术有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
CN117975976A (zh) * | 2019-09-18 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556122B (zh) * | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN112530446B (zh) * | 2019-09-18 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
WO2021088569A1 (en) * | 2019-11-05 | 2021-05-14 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Convolution method and device, electronic device |
CN110991619A (zh) * | 2019-12-09 | 2020-04-10 | Oppo广东移动通信有限公司 | 神经网络处理器、芯片和电子设备 |
EP3992964B1 (en) * | 2020-01-20 | 2024-04-17 | Tencent Technology (Shenzhen) Company Limited | Voice signal processing method and apparatus, and electronic device and storage medium |
US20210241776A1 (en) * | 2020-02-03 | 2021-08-05 | Pindrop Security, Inc. | Cross-channel enrollment and authentication of voice biometrics |
US10972139B1 (en) | 2020-04-15 | 2021-04-06 | Micron Technology, Inc. | Wireless devices and systems including examples of compensating power amplifier noise with neural networks or recurrent neural networks |
CN111554309A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、设备及存储介质 |
CN111554322A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、设备及存储介质 |
AU2021291010A1 (en) * | 2020-06-19 | 2023-01-19 | Rtx A/S | Low latency audio packet loss concealment |
US11496341B2 (en) | 2020-08-13 | 2022-11-08 | Micron Technology, Inc. | Wireless devices and systems including examples of compensating I/Q imbalance with neural networks or recurrent neural networks |
EP4229629A2 (en) | 2020-10-15 | 2023-08-23 | Dolby International AB | Real-time packet loss concealment using deep generative networks |
KR102492212B1 (ko) * | 2020-10-19 | 2023-01-27 | 주식회사 딥히어링 | 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치 |
US11985179B1 (en) * | 2020-11-23 | 2024-05-14 | Amazon Technologies, Inc. | Speech signal bandwidth extension using cascaded neural networks |
CN112562702B (zh) * | 2020-11-30 | 2022-12-13 | 哈尔滨工程大学 | 基于循环帧序列门控循环单元网络的语音超分辨率方法 |
CN113808607A (zh) * | 2021-03-05 | 2021-12-17 | 北京沃东天骏信息技术有限公司 | 基于神经网络的语音增强方法、装置及电子设备 |
CN113035211B (zh) * | 2021-03-11 | 2021-11-16 | 马上消费金融股份有限公司 | 音频压缩方法、音频解压缩方法及装置 |
KR20220151953A (ko) * | 2021-05-07 | 2022-11-15 | 한국전자통신연구원 | 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기 |
CN113423005B (zh) * | 2021-05-18 | 2022-05-03 | 电子科技大学 | 一种基于改进神经网络的智能音乐生成方法及系统 |
US11978466B2 (en) * | 2021-06-02 | 2024-05-07 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems, methods, and apparatuses for restoring degraded speech via a modified diffusion model |
CN115472171A (zh) * | 2021-06-11 | 2022-12-13 | 华为技术有限公司 | 编解码方法、装置、设备、存储介质及计算机程序 |
CN113744751B (zh) * | 2021-08-16 | 2024-05-17 | 清华大学苏州汽车研究院(相城) | 一种应用于麦克风阵列的多通道语音信号增强方法 |
US20230076431A1 (en) * | 2021-09-09 | 2023-03-09 | Nvidia Corporation | Audio upsampling using one or more neural networks |
US20230162725A1 (en) * | 2021-11-23 | 2023-05-25 | Adobe Inc. | High fidelity audio super resolution |
CN114283829B (zh) * | 2021-12-13 | 2023-06-16 | 电子科技大学 | 一种基于动态门控卷积循环网络的语音增强方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027255A (ja) * | 2010-07-23 | 2012-02-09 | Oki Electric Ind Co Ltd | 帯域拡張装置及びプログラム、並びに、音声通信装置 |
WO2013098885A1 (ja) * | 2011-12-27 | 2013-07-04 | 三菱電機株式会社 | 音声信号復元装置および音声信号復元方法 |
JP2016530548A (ja) * | 2013-06-21 | 2016-09-29 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | エネルギー調整モジュールを備えた帯域幅拡大モジュールを有するオーディオ復号器 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7742927B2 (en) * | 2000-04-18 | 2010-06-22 | France Telecom | Spectral enhancing method and device |
FR2807897B1 (fr) * | 2000-04-18 | 2003-07-18 | France Telecom | Methode et dispositif d'enrichissement spectral |
SE0004163D0 (sv) * | 2000-11-14 | 2000-11-14 | Coding Technologies Sweden Ab | Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering |
WO2003019534A1 (en) * | 2001-08-31 | 2003-03-06 | Koninklijke Philips Electronics N.V. | Bandwidth extension of a sound signal |
US20050267739A1 (en) * | 2004-05-25 | 2005-12-01 | Nokia Corporation | Neuroevolution based artificial bandwidth expansion of telephone band speech |
US7584097B2 (en) * | 2005-08-03 | 2009-09-01 | Texas Instruments Incorporated | System and method for noisy automatic speech recognition employing joint compensation of additive and convolutive distortions |
DE102008015702B4 (de) * | 2008-01-31 | 2010-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals |
US8433582B2 (en) * | 2008-02-01 | 2013-04-30 | Motorola Mobility Llc | Method and apparatus for estimating high-band energy in a bandwidth extension system |
MX2011000382A (es) * | 2008-07-11 | 2011-02-25 | Fraunhofer Ges Forschung | Codificador de audio, decodificador de audio, metodos para la codificacion y decodificacion de audio; transmision de audio y programa de computacion. |
EP2151822B8 (en) * | 2008-08-05 | 2018-10-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction |
JP4818335B2 (ja) * | 2008-08-29 | 2011-11-16 | 株式会社東芝 | 信号帯域拡張装置 |
JP5310494B2 (ja) * | 2009-11-09 | 2013-10-09 | 日本電気株式会社 | 信号処理方法、情報処理装置、及び信号処理プログラム |
WO2011097903A1 (zh) * | 2010-02-11 | 2011-08-18 | 华为技术有限公司 | 多声道信号编码、解码方法、装置及编解码系统 |
CN102237959B (zh) * | 2010-04-30 | 2015-08-12 | 中兴通讯股份有限公司 | 系统消息的更新方法及无线通信系统 |
MY172752A (en) * | 2013-01-29 | 2019-12-11 | Fraunhofer Ges Forschung | Decoder for generating a frequency enhanced audio signal, method of decoding encoder for generating an encoded signal and method of encoding using compact selection side information |
RU2612589C2 (ru) * | 2013-01-29 | 2017-03-09 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Низкочастотное акцентирование для основанного на lpc кодирования в частотной области |
CN105229735B (zh) * | 2013-01-29 | 2019-11-01 | 弗劳恩霍夫应用研究促进协会 | 用于编码模式切换补偿的技术 |
CN105408957B (zh) * | 2013-06-11 | 2020-02-21 | 弗朗霍弗应用研究促进协会 | 进行语音信号的频带扩展的装置及方法 |
EP2830061A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
CN103778920B (zh) * | 2014-02-12 | 2016-03-09 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
US10540961B2 (en) * | 2017-03-13 | 2020-01-21 | Baidu Usa Llc | Convolutional recurrent neural networks for small-footprint keyword spotting |
-
2018
- 2018-04-13 JP JP2020523777A patent/JP7214726B2/ja active Active
- 2018-04-13 CN CN201880070135.1A patent/CN111386568B/zh active Active
- 2018-04-13 BR BR112020008216-3A patent/BR112020008216A2/pt unknown
- 2018-04-13 RU RU2020117200A patent/RU2745298C1/ru active
- 2018-04-13 EP EP18716314.2A patent/EP3701527B1/en active Active
- 2018-04-13 WO PCT/EP2018/059593 patent/WO2019081070A1/en active Search and Examination
-
2020
- 2020-04-17 US US16/851,680 patent/US11562764B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027255A (ja) * | 2010-07-23 | 2012-02-09 | Oki Electric Ind Co Ltd | 帯域拡張装置及びプログラム、並びに、音声通信装置 |
WO2013098885A1 (ja) * | 2011-12-27 | 2013-07-04 | 三菱電機株式会社 | 音声信号復元装置および音声信号復元方法 |
JP2016530548A (ja) * | 2013-06-21 | 2016-09-29 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | エネルギー調整モジュールを備えた帯域幅拡大モジュールを有するオーディオ復号器 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12002479B2 (en) | 2019-09-18 | 2024-06-04 | Tencent Technology (Shenzhen) Company Limited | Bandwidth extension method and apparatus, electronic device, and computer-readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
WO2019081070A1 (en) | 2019-05-02 |
JP7214726B2 (ja) | 2023-01-30 |
BR112020008216A2 (pt) | 2020-10-27 |
RU2745298C1 (ru) | 2021-03-23 |
US11562764B2 (en) | 2023-01-24 |
CN111386568B (zh) | 2023-10-13 |
EP3701527B1 (en) | 2023-08-30 |
CN111386568A (zh) | 2020-07-07 |
EP3701527C0 (en) | 2023-08-30 |
EP3701527A1 (en) | 2020-09-02 |
US20200243102A1 (en) | 2020-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7214726B2 (ja) | ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム | |
AU2018217299B2 (en) | Improving classification between time-domain coding and frequency domain coding | |
KR101871644B1 (ko) | 적응적 대역폭 확장 및 그것을 위한 장치 | |
US10062390B2 (en) | Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information | |
Schmidt et al. | Blind bandwidth extension based on convolutional and recurrent deep neural networks | |
Motlicek et al. | Wide-band audio coding based on frequency-domain linear prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210601 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210827 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211201 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220802 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220802 |
|
C11 | Written invitation by the commissioner to file amendments |
Free format text: JAPANESE INTERMEDIATE CODE: C11 Effective date: 20220816 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220920 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7214726 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |