CN111386568A - 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机程序 - Google Patents
使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机程序 Download PDFInfo
- Publication number
- CN111386568A CN111386568A CN201880070135.1A CN201880070135A CN111386568A CN 111386568 A CN111386568 A CN 111386568A CN 201880070135 A CN201880070135 A CN 201880070135A CN 111386568 A CN111386568 A CN 111386568A
- Authority
- CN
- China
- Prior art keywords
- signal
- spectral
- audio signal
- layer
- frequency range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 115
- 230000005236 sound signal Effects 0.000 title claims abstract description 109
- 238000000034 method Methods 0.000 title claims description 77
- 238000004590 computer program Methods 0.000 title claims description 14
- 238000012545 processing Methods 0.000 claims abstract description 51
- 230000003595 spectral effect Effects 0.000 claims description 146
- 230000006870 function Effects 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 29
- 230000002123 temporal effect Effects 0.000 claims description 21
- 230000002087 whitening effect Effects 0.000 claims description 16
- 230000002708 enhancing effect Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 6
- 230000010339 dilation Effects 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims 1
- 230000006386 memory function Effects 0.000 claims 1
- 230000003287 optical effect Effects 0.000 claims 1
- 238000012549 training Methods 0.000 description 27
- 238000001228 spectrum Methods 0.000 description 24
- 238000012360 testing method Methods 0.000 description 24
- 230000005284 excitation Effects 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 10
- 238000005070 sampling Methods 0.000 description 10
- 230000001755 vocal effect Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 239000003623 enhancer Substances 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000010076 replication Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005429 filling process Methods 0.000 description 2
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 description 2
- 210000000867 larynx Anatomy 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000555866 Casselia Species 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 241000288105 Grus Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- YUZILKLGVPUFOT-YHPRVSEPSA-L disodium;5-[(6-anilino-4-oxo-1h-1,3,5-triazin-2-yl)amino]-2-[(e)-2-[4-[(6-anilino-4-oxo-1h-1,3,5-triazin-2-yl)amino]-2-sulfonatophenyl]ethenyl]benzenesulfonate Chemical compound [Na+].[Na+].C=1C=C(\C=C\C=2C(=CC(NC=3NC(NC=4C=CC=CC=4)=NC(=O)N=3)=CC=2)S([O-])(=O)=O)C(S(=O)(=O)[O-])=CC=1NC(N1)=NC(=O)N=C1NC1=CC=CC=C1 YUZILKLGVPUFOT-YHPRVSEPSA-L 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- GVVPGTZRZFNKDS-JXMROGBWSA-N geranyl diphosphate Chemical compound CC(C)=CCC\C(C)=C\CO[P@](O)(=O)OP(O)(O)=O GVVPGTZRZFNKDS-JXMROGBWSA-N 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Neurology (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种用于从具有输入音频信号频率范围的输入音频信号(50)生成带宽增强的音频信号的装置,包括:原始信号发生器(10),被配置用于生成具有增强频率范围的原始信号(60),其中增强频率范围不包括在输入音频信号频率范围中;神经网络处理器(30),被配置用于使用输入音频信号的输入音频信号频率范围和经训练的神经网络(31)生成增强频率范围的参数表示(70);以及原始信号处理器(20),用于使用增强频率范围的参数表示(70)处理原始信号(60),以获得具有增强频率范围中的频率分量的经处理的原始信号(80),其中经处理的原始信号(80)或经处理的原始信号和输入音频信号的输入音频信号频率范围表示带宽增强的音频信号。
Description
技术领域
本发明涉及音频处理,以及特别地,涉及用于音频信号的带宽增强技术,诸如带宽扩展或智能间隙填充。
背景技术
当今最常用的用于移动语音通信的编解码器仍然是AMR-NB,其仅对从200到3400Hz的频率(通常称为窄频带(NB))进行编码。然而,人类语音信号具有宽得多的带宽,尤其是摩擦音通常具有其大部分能量在4kHz以上。限制语音的频率范围不仅听起来不太舒适,而且也不太容易理解[1,2]。
像EVS[3]的现有技术音频编解码器能够对更宽的信号频率范围进行编码,但是使用这些编解码器将需要改变包括接收设备的整个通信网络。这是巨大的努力并且已知持续了若干年。盲带宽扩展(BBWE-也称为人工带宽扩展或盲带宽扩张)能够扩展信号的频率范围而无需额外的位。它们仅被应用于解码信号,并且不需要网络或发送设备的任何适配。虽然是窄频带编解码器的有限带宽问题的吸引人的解决方案,但是许多系统未能改善语音信号的质量。在对最新带宽扩展的联合评估中,12个系统中只有四个被管理显著地改善对于所有测试的语言的感知的质量[4]。
遵循语音产生的源滤波器模型,大多数带宽扩展(盲目式或非盲目式)具有两个主要构造块-激励信号的生成和声道形状的估计。这也是提出的系统遵循的方法。用于生成激励信号的常用技术是频谱折叠、平移或非线性处理。声道形状可由高斯混合模型(GMM)、隐马尔可夫模型(HMM)、神经网络或深度神经网络(DNN)生成。这些模型根据对语音信号计算的特征预测声道形状。
在[5]和[6]中,通过频谱折叠生成激励信号,以及声道滤波器由HMM实现为时域中的全极点滤波器。首先,通过矢量量化创建包括上频带语音信号的帧上计算的线性预测系数(LPC)的码本。在解码器侧,对解码的语音信号计算特征,以及给定特征,使用HMM对码本条目的条件概率进行建模。最终的包络是所有码本条目的加权和,概率是权重。在[6]中,神经网络额外地强调摩擦声。
在[7]中,激励信号也通过频谱折叠生成,以及声道通过神经网络建模,神经网络输出在Mel滤波器组域中应用于折叠的信号的增益。
在[8]中,DNN用于预测频谱折叠的激励信号的频谱包络(在此称为成像的相位)。[9]中的系统还使用频谱折叠的激励信号,并且通过包括LSTM层的DNN整形包络。使用音频的若干帧作为用于DNN的输入,这两个系统具有对于实时电信来说过高的算法延迟。
最近的方法使用类似于WaveNet[11]的体系结构,以0到32ms的算法延迟直接对时域中丢失的信号进行建模[10]。
当语音被发送用于电信时,其频率范围通常受到例如频带限制和下采样的限制。如果这种频带限制是从信号中去除太多带宽,则语音的感知的质量显著降低。克服这个问题的一种方法是通过发送更多的带宽暗示编解码器的变化。这通常涉及整个网络基础设施的改变,这是非常昂贵的并且可以持续若干年。
扩展频率的另一方式是通过带宽扩展人为地扩展频率范围。在带宽扩展为盲目的情况下,没有边信息从编码器传送到解码器。不必对发送基础设施进行改变。
发明内容
本发明的目的是提供一种用于生成带宽增强的音频信号的改进的概念。
该目的通过如权利要求1所述的用于生成带宽增强的音频信号的装置、如权利要求26或权利要求27所述的用于处理音频信号的系统、如权利要求29所述的生成带宽增强的音频信号的方法,或如权利要求30或权利要求31所述的处理音频信号的方法、或如权利要求32所述的计算机程序实现。
本发明基于这样的发现:神经网络可以有利地用于生成带宽扩展的音频信号。然而,实现神经网络的神经网络处理器不用于生成完整的增强频率范围,即增强频率范围中的单独的频谱线。相反,神经网络处理器接收输入音频信号频率范围作为输入,并且输出用于增强频率范围的参数表示。这个参数表示用于对已经由分离的原始信号发生器生成的原始信号执行原始信号处理。原始信号发生器可以是用于增强频率范围的任何类型的信号合成器,例如从诸如频谱带复制过程的带宽扩展或从智能间隙填充过程已知的修补器。然后,可以对修补的信号进行频谱白化,或者可替换地,可以在修补之前对信号进行频谱白化。以及然后,由原始信号处理器使用从神经网络提供的参数表示进一步处理作为频谱白化的修补的信号的原始信号,以获得具有增强频率范围中的频率分量的经处理的原始信号。在输入音频信号是窄频带或低频带信号的直接带宽扩展的应用场景中,增强频率范围是高频带。可替换地,增强频率范围是指由智能间隙填充过程填充的最大频率与一定最小频率之间的一定频谱空洞。
可替换地,原始信号发生器也可以被实现为使用任何种类的非线性处理或噪声处理或噪声生成来生成增强频率范围信号。
由于神经网络仅用于提供高频带的参数表示而不是全高频带或完整增强频率范围,因此神经网络可以被制造得不太复杂,并且因此与其中神经网络用于生成全高频带信号的其他过程相比是高效的。另一方面,向神经网络馈送低频带信号,以及因此不需要从低频带信号中进行额外的特征提取(如从神经网络控制的带宽扩展过程已知的)。另外,已经发现,可以以直接的方式并且因此非常有效地在没有神经网络处理的情况下进行用于增强频率范围的原始信号的生成,以及还可以在没有任何特殊的神经网络支持的情况下进行原始信号的后续缩放或者通常地后续原始信号处理。相反,仅需要神经网络支持用于生成增强频率范围信号的参数表示,并且因此,在一方面用于生成增强频率范围的原始信号和原始信号的整形或处理的常规信号处理与额外地最后生成由原始信号处理器使用的参数表示的非常规神经网络处理之间找到最优折衷。
传统处理和神经网络处理之间的这种分布提供了关于音频质量,以及关于神经网络训练以及必须在任一带宽增强处理器中执行的神经网络应用的神经网络复杂度的最优折衷。
优选实施例依赖于不同的时间分辨率,即,相当低的时间分辨率,并且优选地,相当高的频率分辨率,用于生成经白化的原始信号。另一方面,神经网络处理器和原始信号处理器基于高时间分辨率操作,因此优选地基于低频率分辨率操作。然而,也可以存在低时间分辨率伴随有高频率分辨率或高时间分辨率的情况,因此,再次在神经网络具有例如关于频率比全幅度表示更粗糙的参数分辨率的事实之间找到最优折衷。另外,通过以较高时间分辨率操作,神经网络处理器可以最优地利用时间历史,即,可以高效地依赖于用于参数表示的参数的时间改变,参数的时间改变对于音频处理特别有用,并且特别地,对于带宽扩展或带宽增强过程特别有用。
本发明的另外的优选方面依赖于某些有用的白化过程,白化过程将初始生成的原始信号除以其频谱包络,频谱包络是通过利用非常简单的低通滤波器对功率谱进行低通滤波或一般的FIR滤波生成的,低通滤波器诸如三、四或五个抽头的低通滤波器,其中所有抽头都被设置为仅为1。该过程用于两个目的。第一个目的是从初始原始信号中去除共振峰结构,第二个目的是降低谐波的能量与噪声的能量的比率。因此,这种白化信号听起来比例如LPC残差信号自然得多,并且这种信号特别适合于使用由神经网络处理器生成的参数表示的参数处理。
本发明的另外的方面依赖于有利的实施例,其中不向神经网络处理器馈送幅度谱,而是向其馈送输入音频信号的功率谱。另外,在实施例中,神经网络处理器输出参数表示,以及例如输出压缩域中的频谱包络参数,压缩域诸如对数域、平方根域或()1/3域。然后,神经网络处理器的训练与人类感知更有关,因为人类感知在压缩域中而不是线性域中操作。另一方面,这样生成的参数由原始信号处理器转换到线性域,使得最终获得增强频率范围信号的经处理的线性频谱表示,尽管神经网络以功率谱或甚至响度谱(幅度被提高到三次幂)操作,并且参数表示参数或至少参数表示参数中的部分在压缩域(诸如对数域或()1/3域)中输出。
本发明的另外的有利方面涉及神经网络本身的实施方式。在一个实施例中,神经网络的输入层接收幅度谱的二维时间/频率表示,或者优选地,功率或响度谱的二维时间/频率表示。因此,神经网络的输入层是具有输入音频信号的整个频率范围并且,额外地还具有一定数量的先前帧的二维层。该输入优选地被实现为具有一个或多个卷积核的卷积层,然而,卷积核是卷积例如,仅小于或等于五个频率仓并且小于或等于5个时间帧,即,来自仅五个或更少时间帧的五个或更少的频率仓的非常小的卷积核。卷积输入层优选地被另外的卷积层或另外的经扩张的卷积层跟随,另外的卷积层或另外的经扩张的卷积层可以或可以不通过剩余连接增强。在实施例中,以例如一定值范围中的值输出用于参数表示的参数的神经网络的输出层可以是卷积层或连接到卷积层的全连接层,使得在神经网络中不使用任何递归层。例如,S.Bai等人于2018年3月4日,预印本文献库:1803.0127lvl[cs.LG]中发表的“An empiric evaluation of generic convolutional and recurrent networks forsequence modeling”中描述了这种神经网络。在此公开中描述的这种网络根本不依赖于递归层,而是仅依赖于某些卷积层。
然而,在另外的实施例中,除了一个或多个卷积层之外,还使用诸如LSTM层(或GRU层)的递归层。网络的最后一层或输出层可以是或可以不是具有线性输出函数的全连接层。线性输出函数允许网络输出无限的连续值。然而,这种全连接层不是必需的,因为将二维(大)输入层减少到每时间索引一维输出参数层也可以通过定制两个或更多个更高的卷积层或通过特别地定制两个或更多个递归层(诸如LSTM或GRU层)执行。
本发明的其它方面涉及本发明的带宽增强装置的具体应用,诸如用于仅用于隐藏的盲带宽扩展,即当发生帧丢失时。这里,音频编解码器可以具有非盲带宽扩展或根本没有带宽扩展,以及本发明构思预测由于帧丢失而丢失的信号的部分或预测整个丢失的信号。
可替换地,使用神经网络处理器的本发明处理不仅用作全盲带宽扩展,而且用作非盲带宽扩展或智能间隙填充的部分,其中由神经网络处理器生成的参数表示用作第一近似,第一近似例如在参数域中通过由作为额外的边信息发送的非常少量的位(诸如每个选择的参数的单个位,诸如频谱包络参数)控制的某种数据量化而被细化。因此,获得了极低位率引导的扩展,然而,极低位率引导的扩展依赖于编码器内用于生成额外的低位率边信息的神经网络处理,并且同时在解码器中操作以从输入音频信号提供参数表示,以及然后,参数表示由额外的极低位率边信息细化。
另外的实施例提供了盲带宽扩展(BBWE),其扩展了电话语音的带宽(通常被限制为0.2到3.4kHz)。优点是增加的感知质量以及增加的可懂度。实施例提供了一种类似于现有技术水平的带宽增强的盲扩展,例如在智能间隙填充或带宽扩展或频谱带复制中,不同之处在于所有处理都在解码器中完成,而不需要发送额外的位。通过具有长短期记忆(LSTM)的回归卷积深度神经网络(CNN)估计诸如频谱包络参数的参数。在实施例中,该过程在20ms的帧上操作而没有额外的算法延迟,并且可以应用于现有技术的语音和音频编解码器中。这些实施例利用卷积和递归网络的性能对语音信号的频谱包络进行建模。
附图说明
随后将参照附图讨论本发明的优选实施例,其中:
图1是用于为输入音频信号生成带宽增强的音频信号的装置的框图;
图2a是图1的原始信号发生器的优选功能;
图2b是图1的装置的优选实施方式,其中一方面在原始信号发生器中以及另一方面在神经网络处理器和原始信号处理器中应用不同的时间分辨率;
图2c是使用频率上的低通滤波器在原始信号发生器内执行频谱白化操作的优选实施方式;
图2d是示出优选的两次复制操作的频谱情况的略图;
图2e示出用于原始信号生成的目的和用于使用由神经网络处理器输出的参数表示进行原始信号处理目的的频谱矢量;
图3是原始信号发生器的优选实施方式;
图4是根据本发明的用于生成带宽增强的音频信号的装置的优选实施方式;
图5是神经网络处理器的优选实施例;
图6是原始信号处理器的优选实施例;
图7是神经网络的优选布局;
图8a是比较不同的DNN配置的性能的略图;
图8b是示出取决于数据量的训练集和测试集的错误的图示;
图8c示出来自ACR收听测试的结果,显示为MOS值;
图9a示出卷积层的原理;
图9b示出使用若干卷积层和LSTM层的神经网络;
图10示出仅使用具有因子i的扩张的卷积层的神经网络;
图11示出应用于卷积层之上的两个LSTM层的应用;
图12示出使用卷积层和至少一个LSTM层,以及最后用于降维的全连接层的另外的优选神经网络,用于降维的全连接层是神经网络的输出层;
图13示出具有三个滤波器核的卷积层的应用;
图14示出用于错误隐藏的目的的图1的实施例的应用的应用系统;
图15a示出图1的系统在具有极低位率参数边信息的引导的带宽扩展中的应用;以及
图15b示出在图15a的系统的上下文中原始信号处理器的优选实施方式。
具体实施方式
图1示出用于从具有输入音频信号频率范围的输入音频信号50生成带宽增强的音频信号的装置的优选实施例。输入音频信号频率范围可以是低频带范围,或全频带范围,但具有较小或较大的频谱空洞。
装置包括原始信号发生器10,原始信号发生器10用于生成具有增强频率范围的原始信号60,其中增强频率范围不包括在输入音频信号频率范围内。装置还包括神经网络处理器30,神经网络处理器30被配置用于使用输入音频信号的输入音频信号频率范围并且使用经训练的神经网络生成用于增强频率范围的参数表示70。装置还包括原始信号处理器20,原始信号处理器20用于使用用于增强频率范围的参数表示70处理原始信号60,以获得具有增强频率范围中的频率分量的经处理的原始信号80。另外,在某些实施方式中,装置包括可选的组合器40,组合器40输出带宽增强的音频信号,诸如具有低频带和高频带的信号或不具有频谱空洞或具有比以前(即与输入音频信号50相比)更少的频谱空洞的全频带信号。
当经处理的原始信号与输入音频信号频率范围的组合例如在例如关于图4讨论的频谱-时间转换内执行时,经处理的原始信号80可以已经是带宽扩展的信号,这取决于原始信号处理器的处理。然后,组合已经由频谱-时间转换器执行,以及图1中的组合器40是频谱-时间转换器的部分。可替换地,经处理的原始信号可以是时域增强信号,通过分离的组合器与时域输入音频信号组合,组合器将执行两个时域信号的逐采样相加。用于组合增强信号和原始输入信号的其它过程对于本领域技术人员是公知的。
另外,优选地,原始信号发生器使用输入音频信号用于生成原始信号,如由引入原始信号发生器10的虚线50所示。使用输入音频信号进行操作的过程是修补操作,诸如复制操作、谐波修补操作、复制操作和谐波修补操作的混合,或者同时实现频谱的镜像的其它修补操作。
可替换地,原始信号发生器可以在不参考输入音频信号的情况下操作。然后,由原始信号发生器10生成的原始信号可以是类似噪声的信号,以及原始信号发生器将包括某种噪声发生器或某种生成噪声的随机函数。可替换地,可以使用输入音频信号50,并且可以通过时域中的某种非线性处理,例如sgn(x)乘以x2,其中sgn()是x的符号。可替换地,其它非线性处理可以是限幅过程或其它时域过程。另外的过程将是执行带限输入信号的频移版本的优选频域过程,诸如复制、频谱域中的镜像或类似的任何过程。然而,还可以通过时域处理操作执行频谱域中的镜像,其中在样本之间插入零,并且例如当在两个样本之间插入一个零时,获得频谱的镜像。当在两个样本之间插入两个零时,则这将构成在较高频谱范围内的非镜像的复制操作等。因此,清楚的是,原始信号发生器可以在时域中或在频域中操作,以生成增强频率范围内的原始信号,原始信号优选地是白化信号,如关于图2a所示。然而,此白化未必必须在频谱域中执行,而是也可诸如通过LPC滤波在时域中执行,以及然后,LPC残差信号将为经白化的时域信号。然而,如稍后将概述的,为了本发明的目的,特定频谱域白化操作是优选的。
在优选实施方式中,神经网络处理器接收音频信号或,特别地,音频信号的频谱值的帧的序列作为输入,其中频谱值是幅度值,但是更优选地是功率值,即,频谱值或幅度升高到一定幂,其中幂是例如2(功率域)或3(响度域),但是,通常在将频谱值馈送到神经网络之前,可以使用1.5和4.5之间的幂用于处理频谱值。例如,这在图5中的条目32示出,其示出用于将低频带幅度谱帧的序列转换为频谱帧的时间序列的功率谱转换器,然后,将线性幅度或功率幅度或响度幅度的频谱帧的时间序列输入到经训练的神经网络31,神经网络31优选地在压缩域中输出参数数据。这些参数数据可以是描述丢失的信号或带宽增强信号的任何参数数据,如音调参数、时间包络参数、诸如缩放因子频带能量的频谱包络参数、分布量化器值、能量或倾斜值。例如从频谱带复制处理已知的其他参数是除频谱包络参数之外也可以使用的逆滤波参数、噪声添加参数或丢失谐波参数。优选的频谱包络参数或一种“基线”参数表示是频谱包络参数,并且优选地是用于多个频带的绝对能量或功率。在输入音频信号仅是窄频带信号的真实的带宽扩展的情况下,增强范围可以例如仅具有四个或五个频带,或者至多十个增强频带,以及然后,参数表示将仅由每频带的单个能量或功率或幅度有关值组成,即,用于示例性十个频带的十个参数。
在实施例中,带宽扩展可以用作任何种类的语音和音频编解码器的扩展,诸如3GPP的增强型语音服务(EVS)或MPEG AAC。图1中所示的带宽扩展处理的输入是解码的并且示例性地是频带受限的音频信号。输出是丢失信号的估计。估计可以是作为波形的信号或诸如FFT或修改的离散余弦变换(MDCT)等的变换的系数。由神经网络处理器30生成的参数是之前已经示例性讨论的参数表示70的参数。
在信号由一些粗糙参数描述的情况下,生成人工信号,然后通过神经网络处理器30估计的参数修改人工信号。
图2a示出由原始信号发生器10执行的优选过程。在步骤11a中,原始信号发生器生成具有第一音调的信号,以及在进一步的步骤11b中,原始信号发生器频谱白化具有第一音调的信号,以获得具有第二低音调的信号。换句话说,第二信号的音调低于第一信号的音调,和/或通过步骤11b获得的信号比通过步骤11a生成的信号更白或更白化。
另外,图2b示出在一方面的原始信号发生器10与另一方面的神经网络处理器30和原始信号处理器20之间的协作的某个优选实施方式。如12处所概述的,原始信号发生器以第一(低)时间分辨率生成原始信号,以及如32处所概述的,神经网络处理器30以第二(高)时间分辨率生成参数数据,以及然后原始信号处理器20根据参数表示的时间分辨率以第二或高时间分辨率缩放或处理原始信号。优选地,框32和22中的时间分辨率相同,但是,可替换地,这些框甚至可以依赖于不同的时间分辨率,只要框32的时间分辨率高于步骤12中使用的频谱白化时间分辨率,并且只要用于缩放/处理原始信号的时间分辨率高于图2b中框12处所示的原始信号的生成的时间分辨率。因此,通常存在两个实施例,即,以低时间分辨率生成原始信号并且以高时间分辨率完成处理和神经网络,或者以高频率分辨率生成原始信号并且以低频率分辨率完成处理和神经网络。
图2d示出实施方式中的频谱的情况,其中输入信号是例如在200Hz和3.4kHz之间的窄频带输入信号,以及带宽增强操作是真实的带宽扩展。这里,输入音频信号被输入到图3所示的时间-频率转换器17中。然后,由修补器18执行修补,并且在修补之后,执行白化步骤11b,然后,由频率-时间转换器将结果转换到时域。图3的框19的输出可以是仅时域原始信号或时域原始信号和输入音频信号。另外,应当注意的是,白化器11b和修补器18之间的操作的顺序可以交换,即,白化器可以对由时间-频率转换器输出的信号即低频带信号或者输入音频信号进行操作,并且随后,已经白化的信号或者被修补一次,或者如图2d所示被修补两次,即,通过第一复制和第二复制,使得全增强频率范围由第一复制操作和第二复制操作的频率范围构成。自然地,图3中的修补器18不必必须执行复制操作,而是也可以执行频谱镜像操作或任何其他操作,用于生成在生成之前或之后被白化的增强频率范围中的信号。
在优选实施例中,图2b中的11b处所示或图3中的11b处所示的频谱白化操作包括图2c中所示的过程。例如由图3的时间-频率转换器17生成的线性频谱帧被输入到线性-功率转换器13,时间-频率转换器17可以是FFT处理器、MDCT处理器或用于将时域表示转换为频谱表示的任何其它处理器。线性-功率转换器13的输出是功率谱。框13可以应用任何功率操作,诸如具有2或3的幂的操作,或者通常在1.5和4.5之间的值,尽管值2对于在框13的输出处获得功率谱是优选的。然后,功率帧由低通滤波器在频率上进行低通滤波以获得功率谱包络估计。
然后,在框15中,使用功率-线性转换器15将功率谱包络估计转换回到线性域,并且然后将线性频谱包络估计输入到白化计算器16中,白化计算器16还接收线性频谱帧以输出与原始信号或在优选实施方式中的原始信号频谱帧对应的白化频谱帧。特别地,线性频谱包络估计是针对线性频谱帧的每个频谱值的某个线性因子,以及因此,线性频谱帧的每个频谱值除以包括在由框15输出的线性频谱包络估计中的其对应的加权因子。
优选地,低通滤波器14是FIR滤波器,其具有例如仅3、4或5个抽头,或者至多8个抽头,并且优选地,至少3个抽头具有相同的值,并且优选地等于1,或者甚至全部5个抽头,或者通常所有滤波器抽头等于1,以获得低通滤波器操作。
图2e示出在图4中的系统的操作的上下文中执行的处理。
人类语音产生过程的基本声学模型组合了由转移滤波器调制的周期性脉冲状激励信号(喉信号),转移滤波器由喉上声道的形状确定。另外,存在从由声道或嘴唇的收缩引起的湍流气流产生的类似噪声的信号。基于此模型,通过扩展频谱平坦的激励信号并随后用声道滤波器的估计对其进行整形而扩展丢失的频率范围。图1描述了提出的系统。20ms的解码时域信号块通过DFT被变换到频域。相邻帧的帧增量(跳大小)是10ms。在频域中,通过零填充将信号上采样到16kHz,并且以与带宽扩展(如智能间隙填充(IGF)或SBR[12,13])中相同的方式生成3.4kHz以上的丢失频率内容:复制较低的仓以创建丢失信号。由于像AMR-NB这样的编解码器仅对200和3400Hz之间的频率进行编码,所以信号不足以填充8000-3200=4800Hz的丢失范围。因此,这种操作必须进行两次,第一次填充3400到6600Hz的范围,而另一次填充6600到8000Hz的范围。
这种人工生成的信号与原始激励信号相比太过音调。IGF中使用的低复杂度方法被用于降低音调[14]。这里的思想是将信号除以其通过对功率谱进行FIR滤波而生成的频谱包络。这服务于两个目的-首先,从复制的信号中去除共振峰结构(这也可以通过使用LPC残差实现),其次,降低谐波与噪声的能量比。因此,信号听起来将更加自然。
在初始DFT的大小的两倍的逆DFT之后,通过以50%的重叠而重叠相加块来生成具有16kHz采样频率的时域信号。具有3400Hz以上的平坦激励信号的时域信号现在将被整形以类似于原始信号的共振峰结构。这是在具有更高时间分辨率的DFT的频域中对10ms的数据块进行操作而完成的。这里,3400到8000Hz范围内的信号被分成5个频带,每个频带大约1个bark宽度[15],并且频带b内的每个DFT仓Xi由缩放因子fb进行缩放:
缩放因子fb是对数能量估计Lb和频带b中的仓i的能量之和或者平均值的比率:
因此,如图4所示,窄频带输入音频信号50被输入到执行“短”转换或变换的第一时间-频率转换器,这意味着频谱矢量仅具有高达采样率一半的频率,即高达8kHz。时间窗口长度是20ms,或者通常是特定值。由于有用频谱仅到达3.4kHz,因此如70处所示,3.4kHz和4kHz之间的频谱矢量的上部未被使用。然后,对频谱矢量70执行零填充,以获得频谱矢量71。然后,通过复制过程,使用有用值填充频谱矢量71的零填充部分中的零,以及额外地,通过图4中的框11b,将复制部分中的频谱值频谱白化。然后,使用频谱矢量72执行逆FFT。由于输入到转换算法的值的数量是频谱矢量70所示的图4的框17执行的时间-频率转换生成的频谱值的数量的两倍,因此转换算法是长转换算法。
以及,重要的是,应当注意,在框50的输入处的信号具有例如8kHz的采样率,并且例如由框19输出的信号现在具有双倍的采样率,即16kHz,但是现在,频谱范围上升到8kHz。
现在,原始信号处理器20执行进一步的时间-频率的转换,但是再次使用短算法核。优选地,窗口长度为10ms,使得关于频谱矢量72,由于较短的窗口长度,现在由图4的框22获得的生成的频谱矢量73具有较低数量的频谱值,以及除了3.4至4kHz之间的范围外,频谱值的数量再次等于已关于频谱矢量70讨论的频谱值的数量。
因此,关于频谱矢量73,低频带频谱值的数量是关于框72中低频带频谱值的数量的一半,以及框73中高频带频谱值的数量也是关于框72中高频带频谱值的数量的一半,这示出较低的频率分辨率但较高的时间分辨率。
然后,如在频谱矢量74处所示,在缩放框23内使用来自神经网络处理器30并且特别是来自深度神经网络31的参数表示缩放复制范围,以及然后,框74再次使用短核被转换回时域,使得最终获得宽频带语音。
在所有的FFT操作或MDCT操作的转换操作中,执行50%的重叠。因此,对应于频谱矢量73和74的两个10ms时间帧构成与低采样速率的单个频谱矢量70或高采样速率的71和72相同的时间范围。
优选地,由转换算法22或24处理的块的时间长度是由图4的处理器17或19处理的块的长度的一半,或者可替换地,关系可以是1/3、1/4、1/5等。因此,对于原始信号发生器中的过程,时间帧不必必须为20ms,而对于原始信号处理器20中的过程,不必必须为10ms。相反,例如,当原始信号处理器10使用10ms时,原始信号处理器20使用5ms,或者,例如,当原始信号发生器10使用40ms时,原始信号处理器20使用20ms、10ms或5ms。
另外,关于图4应当注意的是,转换器22的输出的低频带被输入到神经网络31中,并且高频带被转发到缩放器23,以及逆频率-时间转换器24仍然将组合也已经被输入到框31中的低频带和缩放器23的输出处的高频带,如图2e中所示。自然地,DNN处理器31的低频带也可以来自框17的输出,或者可以直接来自输入50。通常,尽管在图4的实施例中优选的是,高采样率输入音频信号频率范围作为图4所示的“低频带”被输入到神经网络处理器31,但是,不必将作为输入到原始信号发生器的特殊的输入音频信号输入到神经网络处理器,而是仅需要将输入音频信号的输入音频信号频率范围输入到神经网络处理器,而不管其是低采样率还是高采样率。
图6示出原始信号处理器20的优选实施方式。原始信号处理器包括从原始信号发生器10接收原始信号的原始信号功率估计器25。然后,原始信号功率估计器估计原始信号的功率,并将此估计转发到缩放因子计算器27。额外地,缩放因子27连接到域转换器26,域转换器26用于将参数数据(诸如由神经网络处理器提供的宽频带信号的特定频带中的能量的估计)从对数域或()1/3域转换到幂域中。然后,缩放因子计算器27为每个频带计算缩放因子fb,并且该值被线性转换器28转换到线性域,然后,原始信号60的实值或复值的幅度被在频谱域中操作的原始信号缩放器使用缩放因子缩放,如在框29所示。因此,例如,当频带中有五个实或复幅度时,则所有这五个幅度由框28生成的相同线性缩放因子缩放,以及在框29中进行该缩放以在框29的输出处获得经缩放的原始信号。因此,在某些实施例中,缩放因子计算器27执行等式(2)的计算,以及在某些实施例中,原始信号缩放器29执行等式(1)中的操作。域转换器26的操作由以上等式(2)中分子的指数函数执行,并且由框25执行的原始信号功率估计在以上等式(2)的分母中完成。
应当注意的是,图6仅示出示意性略图,并且本领域技术人员清楚的是,如已经关于等式(2)所讨论的,框25、26、27的功能可以在由等式(2)示出的单个计算操作内执行。同时,如以上关于等式(1)所示,可以在单个计算内执行框28和29的功能。
图7示出如图1的神经网络处理器30中使用的,以及特别地如图5的框31中使用的神经网络的优选实施方式。优选地,神经网络包括输入层32和输出层34,以及在某些实施例中,包括一个或多个中间层33。特别地,神经网络处理器30被配置为在输入层32处接收从输入音频信号得出的频谱图,频谱图包括频谱帧的时间序列,其中频谱帧具有多个频谱值,以及神经网络在输出层处输出参数表示70的各个参数。特别地,输入到输入层32的频谱值是线性频谱值,或者优选地,使用1.5至4.5的幂(优选地,2的幂(功率域)或3的幂(响度域))处理的功率谱值,或者最优选地,使用1.5至4.5的幂(优选地,2的幂(功率域)或3的幂(响度域))处理,然后使用压缩函数(诸如对数函数、或()1/3函数、或通常具有低于1.0的幂的函数)处理以具有响度或压缩域中的值的经处理的功率谱值。如果以实/虚(实+j虚)表示给出线性频谱值,则用于获得经处理的功率谱值的优选处理将是log(实2+虚2)或(实2+虚2)1/3。
在例如图9A或9B中所示的某些实施例中,仅输入层或输入层和一个或多个中间层包括卷积层,以及卷积层包括一个或多个卷积滤波器核,其中图9a中示出两个卷积滤波器核。特别地,在图9a中,以时间从左到右并且频率从上到下的二维形式示出音频信号的频谱图。
用于帧i的滤波器核被示为基本正方形,用于帧i+1的滤波器核被示为右手正方形,用于频率f+1的滤波器核被示为上方小正方形。
用于基本层的各个卷积层是也被示为33a、33b的第一层和第二层,以及在此实施例中,卷积层之后是至少一个递归层,诸如LSTM层34。在这种情况下,该层已经表示输出层34。
另外,图9b示出训练情况,其中在该实施方式中,目标包络,或一般地,频谱表示在80处示出,以及目标包络与由输出层34完成的包络估计之间的误差被用于通过最小化该误差来增强训练成功。
图10示出另外的神经网络。图10中的神经网络与图9b中的神经网络的不同之处在于,输出层34是卷积层,以及在图10的实施例中是第二卷积层。
另外,如已经关于图9b所讨论的,输入层32是接收频谱图的层,并且输入层数据由操作用于产生第一卷积层33的输出结果的一个或多个卷积核处理。在图10中同时为输出层34的第二卷积层34执行因子i的扩张(delation)。这意味着,例如,使用第一卷积层32的用于i+1的数据以及用于i-1和i-3的数据计算第二卷积层34中的用于时间索引i+1的数据。
对应地,根据用于第一卷积层的针对时间索引i的数据、用于第一卷积层的针对时间索引i-1的数据和用于第一卷积层的针对i-4的数据计算用于第二卷积层34的针对时间索引i的数据。因此,当计算第二卷积层时,对第一卷积层的某些结果进行下采样,但是,通常,由于图10中讨论和示出的交织处理,来自第一卷积层的所有数据最终被用于计算第二卷积层中的特定数据。
应当注意的是,图10仅示出时间索引,但是在图10中未示出频率索引或频率维度。频率维度进入图10的平面或离开图10的平面。关于频率处理,也可执行从层到层的维度的减小,使得最终,即对于最高卷积层或输出层,仅出现与目标参数进行比较的参数的集合,以最小化误差,如在图10的顶部在层80处示出的,其示出用于训练的目标包络,或者一般地示出用于训练目的目标频谱表示。
图11示出最高或“最后”的卷积层33a与具有两个不同的LSTM单元的后续LSTM层之间的组合。因此,图11示出当使用两个LSTM单元LSTM1、LSTM2时,LSTM层看起来如何的情况。因此,变得清楚的是,与仅具有单个LSTM单元相比,LSTM层的维度变得更大。
在一个实施例中,在递归层内操作的递归层处理器被实现为IIR滤波器。IIR滤波器的滤波器系数由神经网络的训练确定,以及输入音频信号的过去情况由IIR滤波器的记忆状态反映。因此,由于递归处理器的IIR(无限脉冲响应)性质,范围深入到过去的信息,即来自例如当前帧之前三十秒或甚至一分钟的频谱帧的信息仍然影响当前情况。
图12示出神经网络的另外的实施例,神经网络包括输入层32、两个卷积层33a、33b和更高的LSTM层33d。然而,与先前描述的神经网络相比,输出层是用于执行降维的全连接层,即用于将来自输入层32的二维高维降低到低维,即每个时间帧的参数表示的参数的低数量。另外,图13示出通过例如三个卷积滤波器核处理卷积层的二维输入或输出的情况。在这种情况下,对于每层,一个核接收若干矩阵,最后,通过加法器90将这些矩阵相加在一起,随后,将结果输入到诸如RELU功能92的功能中,以再次生成在93处示出的单个输出矩阵,单个输出矩阵示出通过加法器90的逐采样相加操作,以及对于每个操作或相加结果,由功能运算器92执行的随后功能过程而被压缩为单个矩阵的层输出。自然地,功能运算器92可以是神经网络处理领域中已知的与RELU不同的任何其它运算。
部分2中的等式2中的目标能量估计Lb对合成的信号的频谱进行缩放,以近似原始信号的能量。该值由DNN计算。DNN的输入是较低频带功率谱的级联帧。这不同于现有技术方法,在现有技术方法中,输入是如Mel频率倒频谱系数的特征。相反,第一DNN层是卷积层(CNN),随后是LSTM层和具有线性激活函数的最终全连接层。
CNN是由眼睛中接受域的组织所激发的多层感知器的变型。CNN层是具有在训练期间学习的核系数的滤波器核的层[16]。CNN比全连接层更好地利用局部依赖性并且具有更少的可训练系数。滤波器核的维度原则上是任意的,但不应超过输入数据的维度。这里,二维滤波器核在时间和频率维度上与输入频谱图卷积。这些滤波器能够检测信号中的抽象模式,其类似于如频谱质心或Mel频率倒频谱系数的特征。
卷积层之后是递归层。递归层适于学习更长的时间依赖性。存在不同类型的递归层,并且这里LSTM层显示出最优性能。LSTM能够利用短时以及长时结构[17]。使用门控循环单元(GRU)的层可以实现类似的但稍差的性能[18]。
网络的最后的层是具有线性输出函数的全连接层。线性输出函数允许网络输出无限的连续值。
通过最小化真实宽频带频谱的能量和每迭代估计Lb之间的差,以监督的方式训练DNN。为此,使用了被称为Adagrad[19]的小批量随机梯度下降算法(SGD)的变型。如在标准SGD中,网络参数被迭代地更新,直到达到预定的损失函数的局部最小值,但是不必手动调整学习速率。
一个重要的方面是损失函数的定义。由于系统最终将由人类听众判断,因此感知激励的损失是有益的。另外,训练将使用深度学习库如Keras[20]完成,并且由于这个原因,必须能够在CPU或GPU上高效地计算损失及其导数。在这个工作中,等式3中的取对数实现了粗糙的响度模型。其优点是误差函数减小到欧几里德距离。也已经尝试了用()1/3代替等式3中的取对数,但是试听并未显示出任何益处。
另一重要方面是DNN的算法延迟,因为提出的系统应该用于实时应用。因为DNN使用一帧的帧增量对级联帧进行操作,所以延迟的主要来源来自第一卷积层。为了有利于保持延迟尽可能低,核的时间维度被设置为三,这意味着核覆盖三个帧。由于DNN对比2中的上采样和激励生成以更短的帧进行操作,因此卷积层不增加额外的算法延迟。在频率方向上,核覆盖250Hz。已经测试了其它核大小,但是没有改进性能。
训练DNN的一个重要方面是训练集的多功能性。为了建立足够大的模型以模拟声道的高度非线性特性,训练集需要很大并包括种类繁多的数据,即具有不同的语言的不同说话者,所有这些都在不同的房间中用不同的记录装置记录。已经从若干公共可访问语音语料库[21]以及内部录音编译了400分钟长的训练集。训练集包括母语语音,包括以下语言:本土美式英语、阿拉伯语、汉语(普通话)、荷兰语、英语(英国)、芬兰语、法语、德语、希腊语、匈牙利语、意大利语、日语、韩语、波兰语、葡萄牙语(巴西)、俄语、西班牙语(卡斯蒂利亚人)、瑞典语。评估集既不包括来自训练集的说话者,也不包括在训练集中使用的记录设置,并且是8分钟长。
另外,随后给出神经网络处理的额外的描述。
第一卷积层输入是频谱图矩阵S[t,f],其中t是时间索引,f是频率指数。S与具有预定的核大小(例如3×2)的滤波器核k进行卷积。S与单个滤波器核的卷积创建新的矩阵C。C的一个条目是以下的矢量积的结果:
其中σ是某种非线性函数,例如RELU。由于不使用填充,因此矩阵C的维度取决于滤波器核的大小而减小。
第二卷积层和随后的卷积层如第一卷积层进行操作,不同之处在于,卷积操作是扩张卷积(delated convolution)。扩张卷积的输入是先前层的下采样版本。在数学术语中:
其中n、m是正整数值,如2、3…等。在n、m为1的情况下,卷积运算是简单的卷积操作。
图10示出使用一维信号的扩张卷积操作的示例。重要的是处理两个随后的音频帧i和i+1。该处理确保实时音频操作所需的低延迟处理。
在先前部分中描述的卷积可以被看作S的变换F:
out=σ{F(input)}。 (6)
通过仅添加输入的旁路,添加剩余连接改变等式(4):
out=σ{input+F(input)}。 (7)
旁路的优点是,在如Kaiming He于2015年所著的Deep Residual Learning forImage Recognition中所述的训练之后,网络执行得更好。
LTSM/GRU层以非常简单的方式操作,将用于单个帧的卷积层的输出矢量作为输入,同时创建相同的维度的输出矢量:
Outt=LSTM{Ct}, (8)
Outt+1=LSTM{Ct+1}。 (9)
随后,将描述实施例中的单个音频帧的处理。
单个音频帧通过以下步骤处理:
·基于当前帧和先前帧的频谱图执行第一层的卷积操作,
·基于先前层的输出执行接下来的层的扩张卷积操作,
·最后的卷积层的每帧输出是输入到递归(LSTM,GRU)层的一维矢量,
·LSTM/GRU层的输出是丢失信号的包络的估计,或者可替换地,是一个或多个全连接层的输入,一个或多个全连接层最终输出丢失信号的包络。
这样,整个结构的算法延迟只是单个音频帧。
应当强调的是,可以训练诸如简单的全连接层的其它DNN结构以执行类似的功能,但是不具有与提出的系统一样低的复杂度。
存在用于预测信号的DNN的两种变型。第一种在上述文章中没有描述,并且是如S.Bai等人在An Empirical Evaluation of Generic Convolutional and RecurrentNetworks for Sequence Modeling中描述的时间卷积网络(TNC)。这个网络是具有扩张和剩余连接的卷积网络。
第二种变型是包括一个或多个卷积层后的一个或多个递归层(如LTSM或GRU)的DNN。第一层可选地是一个或多个卷积层。输出层(最后层)的激活函数能够表示估计的参数的值范围(例如,用于估计无限范围的值的线性函数或用于正值的RELU函数)。DNN用反向传播或一些变体(ADA grad ADAM等)训练,误差是到原始信号的每次迭代距离。
随后,将对不同的系统给出评估。为此,图8a比较不同的DNN配置的性能。系统OPT(测试系统中的最优系统)具有2个卷积层(4个核),随后是2个LSTM层(每个层16个单元)。系统A具有单个CNN层(4个核)和单个LSTM层(16个单元)。系统B没有CNN层,但是有2个LSTM层(32和16个单元)。系统C具有2个CNN层(每个层4个核)。
图8b示出训练集(虚线)和测试集(实线)上取决于数据量的误差。在训练数据很少(100分钟或更少)的情况下,发生强的过拟合。对于超过400分钟的训练集,消除了过拟合。
图8c示出来自ACR收听测试的结果,其显示为具有94%置信区间的MOS值。测试中的编解码器从左到右为:1)直接白频带,2)直接窄频带,3-5)MNRU10-30 dB噪声,6)AMR-NB7.4kbps,7)具有盲带宽扩展的AMR-NB 7.4kbps,8)具有Oracle BWE的AMR-NB7.4kbps,9)AMR-NB 12.2kbps,10)具有BBWE的AMR-NB 12.2kbps,10)具有Oracle BWE的AMR-NB12.2kbps。
通过客观和主观测试评估提出的系统。首先,通过使对数频谱失真或LSD最大化来优化网络的结构。LSD是在大多数出版物中使用的关于线性预测系数的量化的公知测量并且与主观感知密切相关:
图8a比较不同的DNN配置的性能。最优执行系统(opt)具有两个卷积层,每层4个滤波器,接着是两个LSTM层,每层16个单元。系统A具有4个核的单个CNN层和16个单元的单个LSTM层。系统B根本没有CNN层,但是具有两个LSTM层(32和16个单元)。系统C具有两个CNN层(每层4个过滤器核)并且没有LSTM层。这里,它示出LSTM层对性能具有最大的影响。没有LSTM层的系统比具有LSTM层的系统的性能差得多。卷积层对性能的影响较小-没有卷积层的系统仍然比最优系统执行得仅差0.5dB。
图8b示出训练数据的量对性能的影响。小的训练集可以导致对训练集而不是对未知数据执行得非常好的模型。这里,它示出400分钟和更多分钟的训练集足以创建几乎没有过拟合的模型。当然,这可能不能推广到具有更高容量的模型。
表1评估训练和测试集失配的性能-一个是使用AMR-NB编码的,另一个是未编码的。左列示出在使用AMR-NB编码的语音上训练的DNN的性能,右列示出在未编码的语音上训练的DNN的性能。在上行中,测试集使用AMR-NB编码,在下行中,测试集未被编码。显然,在系统将应用于未编码语音的情况下,对使用AMRNB编码的语音训练的DNN比反过来的情况执行得更好。另外,AMR-NB降低性能几乎一半dB。
上表示出DNN的性能,DNN是使用AMR-NB编码的语音(左列)或使用未编码的语音(右列)训练的,性能是在使用AMR-NB编码的测试集(上行)或未编码的测试集(下行)上评估的。性能表示为对数频谱失真(LSD)。
图8c示出来自ACR收听测试的结果,其显示为具有95%置信区间的MOS值。测试中的编解码器从左到右为:1)直接宽频带,2)直接窄频带,3-5)MNRU10-30 dB噪声,6)AMR-NB7.4kbps,7)具有盲带宽扩展的AMR-NB 7.4kbps,8)具有Oracle BWE的AMR-NB7.4kbps,9)AMR-NB12.2 kbps,10)具有BBWE的AMR-NB 12.2kbps,11)具有Oracle BWE的AMR-NB12.2kbps。
最后,使用与[4]中相同的测试方法,通过收听测试评估提出的系统。测试是绝对种类定级(ACR)测试[22],其中刺激被呈现给收听者而没有任何参考。收听者在从1到5的标度上对刺激进行评级(平均意见得分,MOS)。29名参加测试的无经验听众,测试材料是没有背景噪声的女性和男性语音的30个录音。每个录音包括句子对,并且长8s。用来自3名女性和3名男性说话者的6个不同的语音文件测试每种条件。在主测试开始之前,将不同处理条件和说话者的六个语音文件呈现给参与者,以使他们习惯于测试中要体验的质量范围。
图4中呈现测试结果,显示为具有95%置信区间的平均MOS值。直接WB条件实现4.8MOS的最高评级,而直接NB条件实现2.8MOS。接下来是调制噪声参考单元(MNRU)[23],其是由调制噪声(以16kHz采样)劣化的语音。它们用作质量锚,并使测试可与其它测试相比。最后,在两个不同的位率-7.4kbps和12.2kbps处示出AMR-NB、具有提出的盲带宽扩展的AMR-NB和具有Oracle带宽扩展的AMRNB的结果。Oracle系统与提出的系统的不同之处在于,缩放频谱以达到原始的能量。这是通过用在原始WB频谱上计算的值代替等式2中的DNN估计值Lb实现的。此系统是带宽扩展可以达到的质量的上限。
结果表明,通过将AMR-NB的质量提高0.8MOS(7kbps)到0.9MOS(12.2kbps),提出的带宽扩展工作良好。BBWE在12.2kbps也明显优于直接NB条件。然而,如Oracle BWE的结果所示,仍然有很大的改进空间。
提出了一种盲带宽扩展,能够将AMR-NB的质量提高0.8-0.9MOS。它不向AMR-NB添加额外的算法延迟。复杂度也是中等的,因此它可以在移动设备上实现。系统可以容易地适用于不同的核心编解码器并且可以被重新配置为不同的带宽设置。
提出的系统的某些实施例的优点是:
·如果核心编码器对10ms或更长的帧进行操作,则没有额外的算法延迟,
·DNN结构具有低复杂度,
·卷积层和递归层或TNC层的组合是丢失信号的良好预测器。因此,与现有技术的盲带宽扩展相比,系统的感知质量得到提高。应当强调的是,可以训练诸如简单的全连接层的其它DNN结构以执行类似的功能,但是不具有与提出的系统一样低的复杂度。
尽管本发明可以作为全盲带宽扩展应用于所有类型的音频数据,诸如语音数据、音乐数据或一般音频数据,但是存在其它使用情况,这是特别有用的。
一个有用的应用是如图14所示的用于处理音频信号的系统。图14的系统包括用于对以帧组织的核心音频信号进行解码的核心音频解码器140,其中核心音频解码器被配置用于检测指示帧丢失或错误帧的错误情况。
另外,核心音频解码器被配置为执行错误隐藏操作以获得错误情况的替代帧。另外,图14中的系统包括带宽增强器,例如,如参考图1所示的,以附图标记100表示。然后,带宽增强器从典型的低频带帧或作为来自核心音频解码器140的替代帧提供的具有某些空洞的帧中生成带宽增强的替代帧。因此,图14中所示的系统是在仅针对隐藏情况执行盲带宽扩展的情况下,即,当发生帧丢失或错误帧时,对音频解码器的扩展。这里,音频编解码器可以具有非盲带宽扩展或没有带宽扩展或根本没有带宽增强处理,并且提出的系统扩展或预测由于帧丢失而丢失的信号的一部分或整个丢失的信号。因此,核心音频解码器例如将被配置为仅针对作为替代帧的用于核心带宽的帧执行,以及然后,盲带宽增强器增强针对帧丢失情况生成的替代帧。
图15a和15b示出本发明的另外的实施例。在此使用情况下,带宽增强器100不仅用于全盲带宽增强操作,而且用于非盲带宽增强操作的组成元件。在这种情况下,参数表示的粗糙描述被用作第一近似,并且此第一近似稍后通过某种增量量化被细化。因此,图15a中所示的用于处理音频信号的系统包括用于接收输入音频信号和用于增强频率范围的参数边信息的输入接口150。另外,带宽增强器100被配置为接收,特别是关于图1的原始信号处理器20接受,以除了由图1的神经网络处理器30提供的参数表示之外还使用由输入接口150输出的参数边信息,以生成带宽增强的音频信号。
图15b中示出优选实施方式,其示出原始信号处理器20在其参数输入处接收参数表示或参数70。除了之前关于原始信号处理器20所讨论的之外,在该实现中,原始信号处理器还包括参数增量器/减量器160。参数增量器/减量器160接收参数边信息作为其输入,参数边信息诸如仅由例如每参数单个位组成的极低位率边信息。然后,参数增量器/减量器160将对应的位应用于参数表示17的参数,以生成更新的参数,例如Lb’,以及然后,更新的参数在诸如图6中所示的元件25至29的原始信号处理元件内使用,而不是使用从神经网络处理器30接收的“原始”参数。取决于实施方式,参数增量器/减量器160以如下方式解释针对每个参数接收的位。当位具有第一值时,则将从神经网络处理器接收的参数增加特定量,以及当位具有其他值时,不应用增加。可替换地,当位具有第一值时,框160执行预定的减量的参数减量操作,而当位具有第二值时,不执行任何参数改变。在可替换实施例中,位的第一值被解释为执行以预定的增量值的增量操作,并且当位具有其他状态时,执行以特定预定的减量的减量操作。
可以使用例如每每个参数的边信息的两个或更多个位执行其他过程,使得例如可以用信号通知额外的增量或特定增量值。然而,在此实施例中,优选地,对于参数表示中的特定参数组或参数表示中的所有参数仅使用单个位,或者对于每参数至多仅使用两个这样的位,以保持位率低。
为了计算位,在编码器侧也操作相同的经训练的神经网络,以及在编码器侧,以与在解码器侧中进行的相同的方式从神经网络计算参数表示,以及然后,在编码器中确定参数表示的增量或减量或无改变是否导致最终具有解码信号相对于原始信号的较低误差的参数值。
尽管已经根据若干实施例描述了本发明,但是存在落入本发明范围内的变更、置换和等同。还应注意的是,存在许多实施本发明的方法和组合物的替代方式。因此,所附权利要求书应被解释为包括所有这些落入本发明的真实精神和范围内的变更、置换和等同。
虽然已经在装置的上下文中描述了所述概念的一些方面,但是显然,这些方面也表示对应方法的描述,其中框或设备与方法步骤或方法步骤的特征对应。类似地,在方法步骤的上下文中描述的方面也表示对对应装置的对应框或项目或特征的描述。方法步骤中的一些或全部可以由(或使用)硬件装置执行,例如微处理器、可编程计算机或电子电路。在一些实施例中,最重要的方法步骤中的一些或多个可以由这样的装置执行。
本发明的编码图像信号可以存储在数字存储介质上,或者可以在诸如无线传输介质或诸如因特网的有线传输介质的传输介质上发送。
根据特定实现要求,本发明的实施例可以用硬件或软件实现。实现可以使用其上存储有电可读控制信号的数字存储介质执行,例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器,这些电可读控制信号与可编程计算机系统协作(或能够协作),使得执行相应的方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作,使得执行本文所述的方法中的一个。
一般而言,本发明的实施例可以被实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,该程序代码可操作以用于执行方法中的一个。程序代码可以例如被存储在机器可读载体上。
其它实施例包括存储在机器可读载体上的用于执行本文所述的方法中的一个的计算机程序。
换句话说,因此,本发明性方法的实施例是一种计算机程序,该计算机程序具有当计算机程序在计算机上运行时用于执行本文所述的方法中的一个的程序代码。
因此,本发明性方法的另外的实施例是一种数据载体(或数字存储介质,或计算机可读介质),其包括记录在其上的用于执行本文所述方法中的一个的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非过渡性的。
因此,本发明方法的另外的实施例是表示用于执行本文所述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列例如可以被配置为经由数据通信连接(例如经由因特网)传送。
另外的实施例包括处理装置,例如计算机或可编程逻辑器件,其被配置为或适于执行本文所述的方法中的一个。
另外的实施例包括一种计算机,其上安装有用于执行本文所述的方法中的一个的计算机程序。
根据本发明的另外的实施例包括一种设备或系统,其被配置为将用于执行本文所述方法中的一个的计算机程序传送(例如,电子地或光学地)到接收器。例如,接收器可以是计算机、移动设备、存储器设备等。所述设备或系统例如可以包括用于将计算机程序传送到接收器的文件服务器。
在一些实施例中,可编程逻辑器件(例如现场可编程门阵列)可以用于执行本文所述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法中的一个。通常,优选地,由任何硬件装置执行所述方法。
本文所述的装置可以使用硬件装置、或使用计算机、或使用硬件装置和计算机的组合实现。
可以使用硬件装置、或使用计算机、或使用硬件装置和计算机的组合执行本文所述的方法。
参考文献
[1]Patrick Bauer,Rosa-Linde Fischer,Martina Bellanova,Henning Puder,and Tim Fingscheidt,“On improving telephone speech intelligibility forhearing impaired persons,”in Proceedings of the 10.ITG Conference on SpeechCommunication,Braunschweig,Germany,2012年9月26-28日,2012年,页1–4
[2]Patrick Bauer,Jennifer Jones,and Tim Fingscheidt,“Impact ofhearing impairment on fricative intelligibility for artificially bandwidth-extended telephone speech in noise,”in IEEE International Conference onAcoustics,Speech and Signal Processing,ICASSP 2013,Vancouver,BC,Canada,2013年5月26-31日,页7039–7043.
[3]Stefan Bruhn,Harald Pobloth,Markus Schnell,Bernhard Grill,JonGibbs,Lei Miao,Kari Jaervinen,Lasse Laaksonen,Noboru Harada,N.Naka,StephaneRagot,Stephane Proust,T.Sanda,Imre Varga,C.Greer,Milan Jelinek,M.Xie,andPaolo Usai,“Standardization of the new3GPP EVS codec,”in 2015IEEEInternational Conference on Acoustics,Speech and Signal Processing,ICASSP2015,South Brisbane,Queensland,Australia,2015年4月19-24日,2015年,页5703–5707.
[4]Johannes Abel,Magdalena Kaniewska,Cyril Guillaume,Wouter Tirry,Hannu Pulakka,Ville Myllylae,Jari Sjoberg,Paavo Alku,Itai Katsir,David Malah,Israel Cohen,M.A.Tugtekin Turan,Engin Erzin,Thomas Schlien,Peter Vary,AmrH.Nour-Eldin,Peter Kabal,and Tim Fingscheidt,“A subjective listening test ofsix different artificial bandwidth extension approaches in English,Chinese,German,and Korean,”in 2016IEEE International Conference on Acoustics,Speechand Signal Processing,ICASSP 2016,Shanghai,China,2016年3月20-25,日,2016年,页5915–5919.
[5]Peter Jax and Peter Vary,“Wideband extension of telephone speechusing a hidden markov model,”in 2000IEEE Workshop on SpeechCoding.Proceedings.,2000年,页133–135.
[6]Patrick Bauer,Johannes Abel,and Tim Fingscheidt,“Hmm-basedartificial bandwidth extension supported by neural networks,”in 14thInternational Workshop on Acoustic Signal Enhancement,IWAENC 2014,Juan-les-Pins,France,2014年9月8-11日,2014年,页1–5.
[7]Hannu Pulakka and Paavo Alku,“Bandwidth extension of telephonespeech using a neural network and a filter bank implementation for highbandmel spectrum,”IEEE Trans.Audio,Speech&Language Processing,卷19,编号7,页2170–2183,2011年.
[8]Kehuang Li and Chin-Hui Lee,“A deep neural network approach tospeech bandwidth expansion,”in 2015IEEE International Conference onAcoustics,Speech and Signal Processing,ICASSP 2015,South Brisbane,Queensland,Australia,2015年4月19-24日,2015年,页4395–4399.
[9]Yu Gu,Zhen-Hua Ling,and Li-Rong Dai,“Speech bandwidth extensionusing bottleneck features and deep recurrent neural networks,”in Interspeech2016,17th Annual Conference of the International Speech CommunicationAssociation,San Francisco,CA,USA,2016年9月8-12日,2016年,页297–301.
[10]Yu Gu and Zhen-Hua Ling,“Waveform modeling using stacked dilatedconvolutional neural networks for speech bandwidth extension,”in Interspeech2017,18th Annual Conference of the International Speech CommunicationAssociation,Stockholm,Sweden,2017年8月20-24日,2017年,页1123–1127.
[11]Aaron van den Oord,Sander Dieleman,Heiga Zen,Karen Simonyan,OriolVinyals,Alex Graves,Nal Kalchbrenner,Andrew W.Senior,and Koray Kavukcuoglu,“Wavenet:A generative model for raw audio,”in The 9th ISCA Speech SynthesisWorkshop,Sunnyvale,CA,USA,2016年9月13-15日,2016年,页125.
[12]Sascha Disch,Andreas Niedermeier,Christian R.Helmrich,ChristianNeukam,Konstantin Schmidt,Ralf Geiger,Jeremie Lecomte,Florin Ghido,FrederikNagel,and Bernd Edler,“Intelligent gap filling in perceptual transform codingof audio,”in Audio Engineering Society Convention 141,Los Angeles,2016年9月.
[13]Martin Dietz,Lars Liljeryd,Kristofer Kjorling,and Oliver Kunz,“Spectral band replication,a novel approach in audio coding,”in AudioEngineering Society Convention 112,2002年4月.
[14]Konstantin Schmidt and Christian Neukam,“Low complexity tonalitycontrol in the intelligent gap filling tool,”in 2016IEEE InternationalConference on Acoustics,Speech and Signal Processing,ICASSP 2016,Shanghai,China,2016年3月20-25日,2016年,页644–648.
[15]Hugo Fastl and Eberhard Zwicker,Psychoacoustics:Facts and Models,Springer-Verlag New York,Inc.,Secaucus,NJ,USA,2006年.
[16]Yann Lecun,Leon Bottou,Yoshua Bengio,and Patrick Haffner,“Gradient-based learning applied to document recognition,”Proceedings of theIEEE,卷86,编号11,页2278–2324,1998年11月.
[17]Sepp Hochreiter and Juergen Schmidhuber,“Long short-term memory,”Neural Computation,卷9,编号8,页1735–1780,1997年.
[18]Junyoung Chung,Caglar Guelcehre,KyungHyun Cho,and Yoshua Bengio,“Empirical evaluation of gated recurrent neural networks on sequencemodeling,”NIPS Deep Learning workshop,Montreal,Canada,2014年.
[19]John C.Duchi,Elad Hazan,and Yoram Singer,“Adaptive subgradientmethods for online learning and stochastic optimization,”in COLT 2010-The23rd Conference on Learning Theory,Haifa,Israel,2010年6月27-29日,2010年,页257–269.
[20]Francois Chollet et al.,“Keras 1.2.2,”https://github.com/fchollet/keras,2015年.
[21]Vassil Panayotov,Guoguo Chen,Daniel Povey,and Sanjeev Khudanpur,“Librispeech:An ASR corpus based on public domain audio books,”in 2015IEEEInternational Conference on Acoustics,Speech and Signal Processing,ICASSP2015,South Brisbane,Queensland,Australia,2015年4月19-24日,2015年,页5206–5210.
[22]ITU-T,“ITU-T recommendation P.800.methods for objective andsubjective assessment of quality,”1996年.
[23]ITU-T,“ITU-T recommendation P.810.modulated noise reference unit(MNRU),”1996年.
Claims (32)
1.一种用于从具有输入音频信号频率范围的输入音频信号(50)生成带宽增强的音频信号的装置,包括:
原始信号发生器(10),被配置用于生成具有增强频率范围的原始信号(60),其中所述增强频率范围不包括在所述输入音频信号频率范围中;
神经网络处理器(30),被配置用于使用所述输入音频信号的所述输入音频信号频率范围和经训练的神经网络(31)生成所述增强频率范围的参数表示(70);以及
原始信号处理器(20),用于使用所述增强频率范围的所述参数表示(70)处理所述原始信号(60),以获得具有所述增强频率范围中的频率分量的经处理的原始信号(80),
其中所述经处理的原始信号(80)或所述经处理的原始信号和所述输入音频信号的所述输入音频信号频率范围表示所述带宽增强的音频信号。
2.如权利要求1所述的装置,其中所述原始信号发生器(10)被配置用于
生成(11a)具有第一音调的初始原始信号;以及
对所述初始原始信号进行频谱白化(11b)以获得所述原始信号,所述原始信号具有第二音调,所述第二音调低于所述第一音调。
3.如权利要求1或2所述的装置,
其中,所述原始信号发生器(10)被配置为使用第一时间分辨率(12)执行所述初始原始信号的频谱白化或者使用第一时间分辨率生成所述原始信号(60),或者其中所述原始信号发生器(10)被配置为使用第一频率分辨率(12)执行所述初始原始信号的频谱白化或者使用第一频率分辨率生成所述原始信号(60),以及
其中所述神经网络处理器(30)被配置为以第二时间分辨率生成(32)所述参数表示,所述第二时间分辨率高于所述第一时间分辨率,或者其中所述神经网络处理器(30)被配置为以第二频率分辨率生成(32)所述参数表示,所述第二频率分辨率低于所述第一频率分辨率,以及
其中所述原始信号处理器(20)被配置为使用(22)具有所述第二时间分辨率或第二频率分辨率的所述参数表示处理所述原始信号,以获得所述经处理的原始信号(80)。
4.如前述权利要求中一项所述的装置,
其中所述原始信号发生器(10)包括修补器(18),所述修补器(18)用于将所述输入音频信号的频谱部分修补到所述增强频率范围中,所述修补包括单个修补操作或多个修补操作,其中,在所述多个修补操作中,所述输入音频信号的特定频谱部分被修补到所述增强频率范围的两个或更多个频谱部分。
5.如前述权利要求中一项所述的装置,
其中所述原始信号处理器(20)包括时间-频率转换器(17),所述时间-频率转换器(17)用于将输入信号转换为频谱表示,所述频谱表示包括频谱帧的时间序列,频谱帧具有频谱值,
其中所述神经网络处理器(30)被配置为将所述频谱帧馈送到所述经训练的神经网络(31)中,或者处理(32)所述频谱帧以获得经处理的频谱帧,其中所述频谱值被转换到具有1.5与4.5之间的幂、优选地具有2或3的幂的幂域中,以及
其中所述神经网络(31)被配置为输出关于所述幂域的所述参数表示,以及
其中所述原始信号处理器(20)被配置为将所述参数表示转换(26)为线性域,以及将线性域参数表示应用(27)到所述频谱帧的时间序列。
6.如前述权利要求中一项所述的装置,
其中所述神经网络处理器(30)被配置为以具有低于0.9的相关的幂的对数表示或压缩表示输出所述参数表示(70),以及
其中所述原始信号处理器(20)被配置为将所述参数表示从所述对数表示或所述压缩表示转换(26)为线性表示。
7.如前述权利要求中一项所述的装置,其中所述原始信号发生器(10)包括:
时间-频率转换器(17),用于将输入音频信号转换为频谱帧序列,频谱帧具有值序列;
修补器(18),用于使用所述时间-频率转换器(17)的输出为每个频谱帧生成修补的信号;
白化级(11b),用于在由所述修补器执行修补操作之前,为每个频谱帧而频谱白化修补的信号,或者用于白化来自所述时间-频率转换器(17)的对应的信号;以及
频率-时间转换器(19),用于将包括修补的且频谱白化的帧的帧序列转换到时域中以获得所述原始信号(60),其中频率-时间转换器被配置为覆盖所述增强频率范围。
8.如前述权利要求中任一项所述的装置,其中所述原始信号处理器内的白化级(11b)包括:
低通滤波器,用于对频谱帧或所述频谱帧的功率表示(13)进行低通滤波(14),以获得用于所述频谱帧的包络估计;以及
计算器,用于通过将所述频谱帧除以所述包络估计而计算(16)白化信号,其中,当从所述功率表示得出所述包络时,所述除法器计算频谱值(15)的线性加权因子,并将所述频谱值除以所述线性加权因子。
9.如前述权利要求中一项所述的装置,
其中所述原始信号处理器(20)包括时间-频率转换器(22),所述时间-频率转换器(22)用于将所述输入音频信号或从所述输入音频信号和所述原始信号(60)得出的信号转换为频谱表示,
其中所述神经网络处理器(30)被配置为接收所述输入音频信号频率范围的频谱表示,
其中所述原始信号处理器(20)包括频谱处理器(23),所述频谱处理器(23)用于将由所述神经网络处理器(30)响应于所述输入音频信号频率范围的所述频谱表示而提供的所述参数表示(70)应用于所述原始信号(60)的所述频谱表示;以及
其中所述原始信号处理器(20)还包括频率-时间转换器(24),所述频率-时间转换器(24)用于将所述原始信号的经处理的频谱表示转换到时域,
其中所述装置被配置为通过将所述经处理的频谱表示以及所述输入音频信号频率范围的所述频谱表示馈送到所述频率-时间转换器(24)或通过在所述时域中组合所述输入音频信号频率范围的时间表示以及所述经处理的原始信号(80)的时间表示,执行所述经处理的原始信号以及所述输入音频信号频率范围的组合。
10.如前述权利要求中一项所述的装置,
其中所述神经网络处理器(30)包括具有输入层(32)和输出层(34)的神经网络(31),其中所述神经网络处理器被配置为在所述输入层处接收从所述输入音频信号得出的频谱图,所述频谱图包括频谱帧的时间序列,频谱帧具有多个频谱值,以及所述神经网络处理器被配置为在所述输出层(34)处输出所述参数表示(70)的各个参数,
其中所述频谱值是线性频谱值或使用1.5和4.5之间的幂处理的功率频谱值或经处理的功率值,其中所述处理包括使用对数函数或具有小于1的幂的幂函数的压缩。
11.如权利要求10所述的装置,其中所述输入层(32)或一个或多个中间层(33)被形成为包括一个或多个卷积核的卷积层,其中卷积核被配置为执行来自所述频谱帧的时间序列中的至少两个不同的帧的多个频谱值的卷积处理。
12.如权利要求11所述的装置,
其中所述卷积核被配置为执行二维卷积处理,所述二维卷积处理涉及帧的所述时间序列中的每帧的第一数量的频谱值和第二数量的帧,其中所述第一数量和所述第二数量至少为二并且小于十。
13.如权利要求11或12所述的装置,
其中所述输入层(32)或所述第一中间层(33)包括处理在频率上相邻且在时间上相邻的频谱值的至少一个核,
以及其中所述神经网络(31)还包括基于扩张因子进行操作的中间卷积层(33b),使得相对于时间索引,仅层堆叠中的先前层的每第二个或每第三个结果被所述卷积层接收作为输入。
14.如前述权利要求10至13中一项所述的装置,
其中所述神经网络包括作为所述输出层(34)的递归层,或者除了所述输出层(34)之外还包括递归层,其中所述递归层接收针对时间索引的卷积层的输出矢量,以及使用具有记忆的递归层函数输出输出矢量。
15.如权利要求14所述的装置,其中所述递归层包括长期/短期记忆(LSTM)功能,或者包括门控循环单元(GRU)功能,或者IIR滤波器功能。
16.如权利要求10至15中一项所述的装置,
其中所述输入层(32)或一个或多个中间层(33)包括用于针对每个输入使用卷积层的卷积函数计算输出,其中所述卷积层包括剩余连接,使得至少一组输出是所述卷积函数的输出与所述卷积函数的输入的线性组合。
17.如权利要求10至16中一项所述的装置,
其中,所述输出层包括一个或多个全连接层,其中所述全连接层或最高全连接层在输出处提供针对所述原始信号的当前时间帧的所述参数表示的参数,以及其中一个全连接层被配置为在其输入处接收针对所述当前时间帧的输入层或中间层的输出值。
18.如权利要求10至17中一项所述的装置,
其中所述输入层(32)或中间层(33)是具有针对每个整数时间索引的输出数据矢量的卷积层,
其中所述神经网络(31)还包括具有用于扩张卷积处理的一个或多个核的额外卷积层,
其中用于所述额外卷积层的所述一个或多个核针对彼此相差多于一个整数值的时间索引从所述输入层或中间层接收至少两个数据矢量,以针对时间索引计算输出矢量,
以及其中,为了计算针对下一时间索引的输出矢量,所述一个或多个核从所述输入层或中间层接收针对另外的时间索引被交织到所述时间索引的至少两个数据矢量。
19.如权利要求10至18中一项所述的装置,其中所述神经网络包括:
第一卷积层,作为输入层,用于接收包括与当前时间索引对应的所述输入音频信号的所述输入音频信号频率范围的当前帧,其中所述第一卷积层被配置为进一步使用一个或更多个先前帧;
至少一个第二卷积层,用于接收所述第一卷积层的输出,其中所述至少一个第二卷积层被配置用于执行扩张卷积操作以获得用于当前时间索引的矢量;
至少一个递归层,用于使用递归函数处理用于所述当前时间索引的所述矢量,所述递归函数带来覆盖所述当前时间索引之前的至少五个时间索引的记忆功能;
其中递归层形成所述输出层(34),或者其中所述输出层(34)是接收递归层的输出并输出所述参数表示(70)的所述参数的全连接层。
20.如前述权利要求中一项所述的装置,
其中所述参数表示(70)包括用于多个增强频率范围频带中的每个频带的频谱包络值,其中所述多个增强频率范围频带一起形成所述增强频率范围,以及
其中每个增强频带包括至少两个频谱值,以及
其中所述原始信号处理器被配置为使用用于增强频率范围频带的频谱包络值缩放(27,23)所述增强频率范围频带中的所述原始信号的所述至少两个频谱值。
21.如权利要求20所述的装置,
其中所述频谱包络值指示与所述频谱包络值相关联的所述增强频带的绝对能量的测量,
其中所述原始信号处理器(20)被配置为计算(25)所述增强频率范围频带中的所述原始信号的能量的测量,
其中所述原始信号处理器(20)被配置为使用所述绝对能量的测量缩放(27)所述幅度值,使得所述增强频带中的经缩放的频谱值具有所述绝对能量的测量所指示的能量。
22.如权利要求21所述的装置,
其中所述原始信号处理器(20)被配置用于根据所述增强频带中的信号的能量的测量以及根据从所述参数表示(70)得出的所述增强频带的绝对能量的测量计算(27)缩放因子。
24.如前述权利要求中一项所述的装置,
其中所述音频信号频率范围是窄频带频率范围,以及
其中所述增强频率范围包括大于所述窄频带频率范围中的最大频率的频率。
25.如前述权利要求中一项所述的装置,
其中所述神经网络处理器(30)被配置为提供包括音调参数、时间包络参数、频谱包络参数、缩放因子频带能量的集合、分布量化器值或能量和倾斜参数的集合的参数组中的至少一个参数作为参数,以及
其中所述原始信号处理器(20)被配置为将参数应用于所述原始信号(60)以获得所述经处理的原始信号(80)。
26.一种用于处理音频信号的系统,包括:
核心音频解码器(140),用于对以帧组织的核心音频信号进行解码,其中所述核心音频解码器(140)被配置用于检测涉及帧丢失或错误帧的错误情况,以及
其中所述核心音频解码器(140)被配置为执行错误隐藏操作以获得用于所述错误情况的替代帧,以及
如权利要求1至25中任一项所述的装置(100),其中所述装置(100)被配置用于使用所述替代帧作为所述输入音频信号,以及用于针对所述错误情况生成所述带宽增强的音频信号。
27.一种用于处理音频信号的系统,包括:
输入接口(150),用于接收输入音频信号和用于增强频率范围的参数边信息;
如权利要求1至25中任一项所述的用于生成带宽增强的音频信号的装置(100),
其中所述原始信号处理器(20)被配置为,除了由所述神经网络处理器(30)提供的所述参数表示(70)之外,还使用所述参数边信息以生成所述带宽增强的音频信号。
28.如权利要求27所述的系统,
其中所述参数边信息包括与由所述神经网络处理器(30)提供的参数相关联的一个位,以及
其中所述原始信号处理器(20)被配置为根据针对特定参数的所述位的值,以增量修改(160)由所述神经网络处理器(30)提供的所述参数。
29.一种从具有输入音频信号频率范围的输入音频信号(50)生成带宽增强的音频信号的方法,所述方法包括:
生成(10)具有增强频率范围的原始信号(60),其中所述增强频率范围不包括在所述输入音频信号频率范围中;
使用所述输入音频信号的所述输入音频信号频率范围和经训练的神经网络(31)生成(30)所述增强频率范围的参数表示(70);以及
使用所述增强频率范围的所述参数表示(70)处理(20)所述原始信号(60),以获得具有所述增强频率范围中的频率分量的经处理的原始信号(80),
其中所述经处理的原始信号(80)或所述经处理的原始信号和所述输入音频信号的所述输入音频信号频率范围表示所述带宽增强的音频信号。
30.一种处理音频信号的方法,包括:
解码(140)以帧组织的核心音频信号,其中所述核心音频解码器(140)被配置用于检测涉及帧丢失或错误帧的错误情况,以及
其中所述解码(140)执行错误隐藏操作以获得用于所述错误情况的替代帧,以及
如权利要求29所述的方法(100),其中所述方法(100)使用所述替代帧作为所述输入音频信号,以及针对所述错误情况生成所述带宽增强的音频信号。
31.一种处理音频信号的方法,包括:
接收(150)输入音频信号和用于增强频率范围的参数边信息;
根据如权利要求29所述的方法生成(100)带宽增强的音频信号,
其中处理(20)所述原始信号包括除了由所述神经网络(31)提供的所述参数表示(70)之外,还使用参数边信息以生成所述带宽增强的音频信号。
32.一种计算机程序,当在计算机或处理器上运行时,用于执行如权利要求29至31中一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17198997.3 | 2017-10-27 | ||
EP17198997 | 2017-10-27 | ||
PCT/EP2018/059593 WO2019081070A1 (en) | 2017-10-27 | 2018-04-13 | APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111386568A true CN111386568A (zh) | 2020-07-07 |
CN111386568B CN111386568B (zh) | 2023-10-13 |
Family
ID=60268209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880070135.1A Active CN111386568B (zh) | 2017-10-27 | 2018-04-13 | 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机可读存储介质 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11562764B2 (zh) |
EP (1) | EP3701527B1 (zh) |
JP (1) | JP7214726B2 (zh) |
CN (1) | CN111386568B (zh) |
BR (1) | BR112020008216A2 (zh) |
RU (1) | RU2745298C1 (zh) |
WO (1) | WO2019081070A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112562702A (zh) * | 2020-11-30 | 2021-03-26 | 哈尔滨工程大学 | 基于循环帧序列门控循环单元网络的语音超分辨率方法 |
CN113035211A (zh) * | 2021-03-11 | 2021-06-25 | 马上消费金融股份有限公司 | 音频压缩方法、音频解压缩方法及装置 |
CN113423005A (zh) * | 2021-05-18 | 2021-09-21 | 电子科技大学 | 一种运动驱动的智能音乐生成方法及系统 |
CN114283829A (zh) * | 2021-12-13 | 2022-04-05 | 电子科技大学 | 一种基于动态门控卷积循环网络的语音增强方法 |
CN115472171A (zh) * | 2021-06-11 | 2022-12-13 | 华为技术有限公司 | 编解码方法、装置、设备、存储介质及计算机程序 |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3457402B1 (en) * | 2016-06-24 | 2021-09-15 | Samsung Electronics Co., Ltd. | Noise-adaptive voice signal processing method and terminal device employing said method |
US10432240B1 (en) | 2018-05-22 | 2019-10-01 | Micron Technology, Inc. | Wireless devices and systems including examples of compensating power amplifier noise |
JP7024687B2 (ja) * | 2018-11-07 | 2022-02-24 | 日本電信電話株式会社 | データ分析システム、学習装置、方法、及びプログラム |
CN110415686B (zh) * | 2019-05-21 | 2021-08-17 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、介质、电子设备 |
US10763905B1 (en) | 2019-06-07 | 2020-09-01 | Micron Technology, Inc. | Wireless devices and systems including examples of mismatch correction scheme |
CN110265053B (zh) * | 2019-06-29 | 2022-04-19 | 联想(北京)有限公司 | 信号降噪控制方法、装置及电子设备 |
KR20210003507A (ko) * | 2019-07-02 | 2021-01-12 | 한국전자통신연구원 | 오디오 코딩을 위한 잔차 신호 처리 방법 및 오디오 처리 장치 |
KR20210003514A (ko) * | 2019-07-02 | 2021-01-12 | 한국전자통신연구원 | 오디오의 고대역 부호화 방법 및 고대역 복호화 방법, 그리고 상기 방법을 수하는 부호화기 및 복호화기 |
CN110322891B (zh) * | 2019-07-03 | 2021-12-10 | 南方科技大学 | 一种语音信号的处理方法、装置、终端及存储介质 |
US11005689B2 (en) * | 2019-07-11 | 2021-05-11 | Wangsu Science & Technology Co., Ltd. | Method and apparatus for bandwidth filtering based on deep learning, server and storage medium |
EP4002358A4 (en) * | 2019-07-19 | 2023-03-22 | Intellectual Discovery Co., Ltd. | ADAPTIVE AUDIO PROCESSING METHOD, DEVICE, COMPUTER PROGRAM AND ASSOCIATED RECORDING MEDIA IN A WIRELESS COMMUNICATION SYSTEM |
CN110491407B (zh) * | 2019-08-15 | 2021-09-21 | 广州方硅信息技术有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
CN110556123B (zh) | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556122B (zh) * | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556121B (zh) * | 2019-09-18 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN112530446B (zh) * | 2019-09-18 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
WO2021088569A1 (en) * | 2019-11-05 | 2021-05-14 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Convolution method and device, electronic device |
CN110991619A (zh) * | 2019-12-09 | 2020-04-10 | Oppo广东移动通信有限公司 | 神经网络处理器、芯片和电子设备 |
CN113140225B (zh) * | 2020-01-20 | 2024-07-02 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
WO2021158531A1 (en) * | 2020-02-03 | 2021-08-12 | Pindrop Security, Inc. | Cross-channel enrollment and authentication of voice biometrics |
US10972139B1 (en) * | 2020-04-15 | 2021-04-06 | Micron Technology, Inc. | Wireless devices and systems including examples of compensating power amplifier noise with neural networks or recurrent neural networks |
KR102592708B1 (ko) * | 2020-04-24 | 2023-10-24 | 한국전자통신연구원 | 로그 영역의 연산을 수행하도록 구성된 신경망 가속기 |
CN111554309A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、设备及存储介质 |
CN111554322A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、设备及存储介质 |
WO2021255153A1 (en) * | 2020-06-19 | 2021-12-23 | Rtx A/S | Low latency audio packet loss concealment |
US11496341B2 (en) | 2020-08-13 | 2022-11-08 | Micron Technology, Inc. | Wireless devices and systems including examples of compensating I/Q imbalance with neural networks or recurrent neural networks |
CN112133319B (zh) * | 2020-08-31 | 2024-09-06 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频生成的方法、装置、设备及存储介质 |
WO2022079164A2 (en) * | 2020-10-15 | 2022-04-21 | Dolby International Ab | Real-time packet loss concealment using deep generative networks |
KR102492212B1 (ko) * | 2020-10-19 | 2023-01-27 | 주식회사 딥히어링 | 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치 |
US11985179B1 (en) * | 2020-11-23 | 2024-05-14 | Amazon Technologies, Inc. | Speech signal bandwidth extension using cascaded neural networks |
CN113808607B (zh) * | 2021-03-05 | 2024-07-16 | 北京沃东天骏信息技术有限公司 | 基于神经网络的语音增强方法、装置及电子设备 |
KR20220151953A (ko) * | 2021-05-07 | 2022-11-15 | 한국전자통신연구원 | 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기 |
US11978466B2 (en) * | 2021-06-02 | 2024-05-07 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems, methods, and apparatuses for restoring degraded speech via a modified diffusion model |
CN113744751B (zh) * | 2021-08-16 | 2024-05-17 | 清华大学苏州汽车研究院(相城) | 一种应用于麦克风阵列的多通道语音信号增强方法 |
JP7539088B2 (ja) | 2021-08-19 | 2024-08-23 | 日本電信電話株式会社 | 特徴抽出装置、特徴抽出方法及びプログラム |
US20230076431A1 (en) * | 2021-09-09 | 2023-03-09 | Nvidia Corporation | Audio upsampling using one or more neural networks |
US20230162725A1 (en) * | 2021-11-23 | 2023-05-25 | Adobe Inc. | High fidelity audio super resolution |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102089808A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、用于编码及解码音频信号的方法、音频流与计算机程序 |
CN102124518A (zh) * | 2008-08-05 | 2011-07-13 | 弗朗霍夫应用科学研究促进协会 | 采用特征提取处理音频信号用于语音增强的方法和装置 |
CN102157153A (zh) * | 2010-02-11 | 2011-08-17 | 华为技术有限公司 | 多声道信号编码、解码方法、装置及编解码系统 |
CN102237959A (zh) * | 2010-04-30 | 2011-11-09 | 中兴通讯股份有限公司 | 系统消息的更新方法及无线通信系统 |
CN102612711A (zh) * | 2009-11-09 | 2012-07-25 | 日本电气株式会社 | 信号处理方法、信息处理装置和用于存储信号处理程序的存储介质 |
CN103778920A (zh) * | 2014-02-12 | 2014-05-07 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
CN104769671A (zh) * | 2013-07-22 | 2015-07-08 | 弗兰霍菲尔运输应用研究公司 | 用于使用时域噪声/修补整形对编码音频信号进行编码和解码的设备及方法 |
CN105103229A (zh) * | 2013-01-29 | 2015-11-25 | 弗劳恩霍夫应用研究促进协会 | 用于产生频率增强音频信号的译码器、译码方法、用于产生编码信号的编码器以及使用紧密选择边信息的编码方法 |
CN105122357A (zh) * | 2013-01-29 | 2015-12-02 | 弗劳恩霍夫应用研究促进协会 | 频域中基于cpl进行编码的低频增强 |
CN105431898A (zh) * | 2013-06-21 | 2016-03-23 | 弗朗霍夫应用科学研究促进协会 | 具有带有能量调整模块的频宽扩展模块的音频解码器 |
CN106796800A (zh) * | 2014-07-28 | 2017-05-31 | 弗劳恩霍夫应用研究促进协会 | 使用频域处理器、时域处理器和用于连续初始化的交叉处理器的音频编码器和解码器 |
CN107077858A (zh) * | 2014-07-28 | 2017-08-18 | 弗劳恩霍夫应用研究促进协会 | 使用具有全带隙填充的频域处理器以及时域处理器的音频编码器和解码器 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2807897B1 (fr) * | 2000-04-18 | 2003-07-18 | France Telecom | Methode et dispositif d'enrichissement spectral |
US7742927B2 (en) * | 2000-04-18 | 2010-06-22 | France Telecom | Spectral enhancing method and device |
SE0004163D0 (sv) * | 2000-11-14 | 2000-11-14 | Coding Technologies Sweden Ab | Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering |
CN1550002A (zh) * | 2001-08-31 | 2004-11-24 | 皇家飞利浦电子股份有限公司 | 声音信号的带宽扩展 |
US20050267739A1 (en) * | 2004-05-25 | 2005-12-01 | Nokia Corporation | Neuroevolution based artificial bandwidth expansion of telephone band speech |
US7584097B2 (en) * | 2005-08-03 | 2009-09-01 | Texas Instruments Incorporated | System and method for noisy automatic speech recognition employing joint compensation of additive and convolutive distortions |
DE102008015702B4 (de) * | 2008-01-31 | 2010-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals |
US8433582B2 (en) * | 2008-02-01 | 2013-04-30 | Motorola Mobility Llc | Method and apparatus for estimating high-band energy in a bandwidth extension system |
JP4818335B2 (ja) * | 2008-08-29 | 2011-11-16 | 株式会社東芝 | 信号帯域拡張装置 |
JP5777041B2 (ja) | 2010-07-23 | 2015-09-09 | 沖電気工業株式会社 | 帯域拡張装置及びプログラム、並びに、音声通信装置 |
CN103827967B (zh) | 2011-12-27 | 2016-08-17 | 三菱电机株式会社 | 语音信号复原装置以及语音信号复原方法 |
RU2625561C2 (ru) * | 2013-01-29 | 2017-07-14 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Принцип для компенсации переключения режима кодирования |
PT3010018T (pt) | 2013-06-11 | 2020-11-13 | Fraunhofer Ges Forschung | Dispositivo e método para extensão de largura de banda para sinais acústicos |
US10540961B2 (en) * | 2017-03-13 | 2020-01-21 | Baidu Usa Llc | Convolutional recurrent neural networks for small-footprint keyword spotting |
-
2018
- 2018-04-13 WO PCT/EP2018/059593 patent/WO2019081070A1/en active Search and Examination
- 2018-04-13 JP JP2020523777A patent/JP7214726B2/ja active Active
- 2018-04-13 CN CN201880070135.1A patent/CN111386568B/zh active Active
- 2018-04-13 EP EP18716314.2A patent/EP3701527B1/en active Active
- 2018-04-13 RU RU2020117200A patent/RU2745298C1/ru active
- 2018-04-13 BR BR112020008216-3A patent/BR112020008216A2/pt unknown
-
2020
- 2020-04-17 US US16/851,680 patent/US11562764B2/en active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102089808A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、用于编码及解码音频信号的方法、音频流与计算机程序 |
CN102124518A (zh) * | 2008-08-05 | 2011-07-13 | 弗朗霍夫应用科学研究促进协会 | 采用特征提取处理音频信号用于语音增强的方法和装置 |
CN102612711A (zh) * | 2009-11-09 | 2012-07-25 | 日本电气株式会社 | 信号处理方法、信息处理装置和用于存储信号处理程序的存储介质 |
CN102157153A (zh) * | 2010-02-11 | 2011-08-17 | 华为技术有限公司 | 多声道信号编码、解码方法、装置及编解码系统 |
CN102237959A (zh) * | 2010-04-30 | 2011-11-09 | 中兴通讯股份有限公司 | 系统消息的更新方法及无线通信系统 |
CN105103229A (zh) * | 2013-01-29 | 2015-11-25 | 弗劳恩霍夫应用研究促进协会 | 用于产生频率增强音频信号的译码器、译码方法、用于产生编码信号的编码器以及使用紧密选择边信息的编码方法 |
CN105122357A (zh) * | 2013-01-29 | 2015-12-02 | 弗劳恩霍夫应用研究促进协会 | 频域中基于cpl进行编码的低频增强 |
CN105431898A (zh) * | 2013-06-21 | 2016-03-23 | 弗朗霍夫应用科学研究促进协会 | 具有带有能量调整模块的频宽扩展模块的音频解码器 |
CN104769671A (zh) * | 2013-07-22 | 2015-07-08 | 弗兰霍菲尔运输应用研究公司 | 用于使用时域噪声/修补整形对编码音频信号进行编码和解码的设备及方法 |
CN103778920A (zh) * | 2014-02-12 | 2014-05-07 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
CN106796800A (zh) * | 2014-07-28 | 2017-05-31 | 弗劳恩霍夫应用研究促进协会 | 使用频域处理器、时域处理器和用于连续初始化的交叉处理器的音频编码器和解码器 |
CN107077858A (zh) * | 2014-07-28 | 2017-08-18 | 弗劳恩霍夫应用研究促进协会 | 使用具有全带隙填充的频域处理器以及时域处理器的音频编码器和解码器 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112562702A (zh) * | 2020-11-30 | 2021-03-26 | 哈尔滨工程大学 | 基于循环帧序列门控循环单元网络的语音超分辨率方法 |
CN112562702B (zh) * | 2020-11-30 | 2022-12-13 | 哈尔滨工程大学 | 基于循环帧序列门控循环单元网络的语音超分辨率方法 |
CN113035211A (zh) * | 2021-03-11 | 2021-06-25 | 马上消费金融股份有限公司 | 音频压缩方法、音频解压缩方法及装置 |
CN113423005A (zh) * | 2021-05-18 | 2021-09-21 | 电子科技大学 | 一种运动驱动的智能音乐生成方法及系统 |
CN115472171A (zh) * | 2021-06-11 | 2022-12-13 | 华为技术有限公司 | 编解码方法、装置、设备、存储介质及计算机程序 |
WO2022258036A1 (zh) * | 2021-06-11 | 2022-12-15 | 华为技术有限公司 | 编解码方法、装置、设备、存储介质及计算机程序 |
CN114283829A (zh) * | 2021-12-13 | 2022-04-05 | 电子科技大学 | 一种基于动态门控卷积循环网络的语音增强方法 |
CN114283829B (zh) * | 2021-12-13 | 2023-06-16 | 电子科技大学 | 一种基于动态门控卷积循环网络的语音增强方法 |
Also Published As
Publication number | Publication date |
---|---|
RU2745298C1 (ru) | 2021-03-23 |
WO2019081070A1 (en) | 2019-05-02 |
EP3701527A1 (en) | 2020-09-02 |
EP3701527B1 (en) | 2023-08-30 |
US11562764B2 (en) | 2023-01-24 |
JP2021502588A (ja) | 2021-01-28 |
JP7214726B2 (ja) | 2023-01-30 |
BR112020008216A2 (pt) | 2020-10-27 |
CN111386568B (zh) | 2023-10-13 |
US20200243102A1 (en) | 2020-07-30 |
EP3701527C0 (en) | 2023-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11562764B2 (en) | Apparatus, method or computer program for generating a bandwidth-enhanced audio signal using a neural network processor | |
KR101785885B1 (ko) | 적응적 대역폭 확장 및 그것을 위한 장치 | |
EP3152755B1 (en) | Improving classification between time-domain coding and frequency domain coding | |
US8069040B2 (en) | Systems, methods, and apparatus for quantization of spectral envelope representation | |
JP5357055B2 (ja) | 改良形デジタルオーディオ信号符号化/復号化方法 | |
US8718804B2 (en) | System and method for correcting for lost data in a digital audio signal | |
US9454974B2 (en) | Systems, methods, and apparatus for gain factor limiting | |
RU2483364C2 (ru) | Схема аудиокодирования/декодирования с переключением байпас | |
US8463603B2 (en) | Spectral envelope coding of energy attack signal | |
CN109346101B (zh) | 产生频率增强音频信号的译码器和产生编码信号的编码器 | |
Schmidt et al. | Blind bandwidth extension based on convolutional and recurrent deep neural networks | |
EP3352169A1 (en) | Unvoiced/voiced decision for speech processing | |
Nurminen | A Parametric Approach for Efficient Speech Storage, Flexible Synthesis and Voice Conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |