CN114063965A - 高解析音频生成方法、电子设备及其训练方法 - Google Patents
高解析音频生成方法、电子设备及其训练方法 Download PDFInfo
- Publication number
- CN114063965A CN114063965A CN202111293914.8A CN202111293914A CN114063965A CN 114063965 A CN114063965 A CN 114063965A CN 202111293914 A CN202111293914 A CN 202111293914A CN 114063965 A CN114063965 A CN 114063965A
- Authority
- CN
- China
- Prior art keywords
- network
- band
- frequency
- logarithm
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 116
- 238000012549 training Methods 0.000 title claims abstract description 71
- 238000001228 spectrum Methods 0.000 claims abstract description 101
- 239000011159 matrix material Substances 0.000 claims description 151
- 230000000694 effects Effects 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 17
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 abstract description 31
- 238000010586 diagram Methods 0.000 description 15
- 238000010801 machine learning Methods 0.000 description 13
- 230000007704 transition Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000010606 normalization Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 206010037660 Pyrexia Diseases 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 235000019615 sensations Nutrition 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开一种高解析音频生成模型的训练方法,所述训练方法包括:提取全频带上采样音频数据的频谱对数特征;截取低频带频谱对数特征;将低频带频谱对数特征输入到第一高解析音频生成模型生成输出信息;将输出信息和频谱对数特征输入到第一判别器网络中,利用损失函数计算损失值,根据所述损失值更新所述第一高解析音频生成模型和所述第一判别器网络中的模型参数,循环训练直至所述损失值小于损失阈值,将所述第一高解析音频生成模型作为所述高解析音频生成模型。本申请的方案能有效充分低频细节,训练充分,所生成的高解析音频生成模型能够有效预测高频部分,使得输出的特征生成音频数据时,细节丰富,更加逼真。
Description
技术领域
本申请涉及音频数据处理的技术领域,具体地涉及一种高解析音频生成方法、一种高解析音频生成模型的训练方法和一种音效切换方法。另外,本申请还涉及相关的电子设备。
背景技术
衡量数字信号记录的图像有分辨率一说,分辨率越高,图像越清晰。同样,数字音频同样有它的“分辨率”,因为数字信号不能像模拟信号一样记录线性音频,只能让音频曲线更接近线性。而高解析音频(High-resolution audio,Hi-Res)则是对线性还原程度的一个量化体现的定义,高解析音频音频文件的采样频率为96kHz/24bit,用来衡量“声音很好”。Hi-Res高解析音频是一种无损音频,它在录音上力求最大程度还原源声,其音质表现高于CD音频源。Hi-Res音源得益于自身极高的信息量和对音乐最真实全面的还原能力,目前Hi-Res概念已经逐渐在发烧友群体中普及,无论是台式系统还是随身播放器,Hi-Res级别音源的播放能力已经逐渐成为标配。但是Hi-Res音源一般比较少,而制作成本高,且内存大小比较大不利于网络便捷传输。而且曲库现有Hi-Res音源极少,大多是44.1kHz无损音频(最高频谱高度为22.05K),普通用户很难体验到Hi-Res效果。因此市场中存在需要将44.1kHz无损音频转换到Hi-Res音频的需求。
本背景技术描述的内容仅为了便于了解本领域的相关技术,不视作对现有技术的承认。
发明内容
因此,本发明实施例意图提供一种高解析音频生成模型训练方法、高解析音频生成方法、音效切换方法以及相关电子设备和计算机可读存储介质。这些方案生成的高解析音频数据,失真少,音质更接近原声,训练出的模型量级小,能够在移动客户端上运行,便于在手机客户端上部署。
在本发明实施例中,提供一种高解析音频生成模型的训练方法,所述训练方法包括:
S110、提取全频带上采样音频数据的频谱对数特征;
S120、截取所述频谱对数特征中对应的频率小于第一频率阈值的特征作为低频带频谱对数特征;
S130、将所述低频带频谱对数特征输入到第一高解析音频生成模型生成输出信息,所述第一高解析音频生成模型的输出信息包括高频带频谱对数特征的信息,所述高频带频谱对数特征对应的频率大于第二频率阈值,其中,第二频率阈值小于所述第一频率阈值;
S140、将所述第一高解析音频生成模型的输出信息和所述频谱对数特征输入到第一判别器网络中,利用损失函数计算损失值,根据所述损失值更新所述第一高解析音频生成模型和所述第一判别器网络中的模型参数,获得第二高解析音频生成模型和第二判别器网络;
S150、将所述第二高解析音频生成模型替换所述步骤S130中的第一高解析音频生成模型,将所述第二判别器网络替换所述步骤S140中的第一判别器网络,循环执行步骤S130和步骤S140,直至所述损失值小于损失阈值,将所述第一高解析音频生成模型作为所述高解析音频生成模型。
在本发明的一些实施例中,所述将所述低频带频谱对数特征输入到第一高解析音频生成模型生成输出信息,包括:
所述第一高解析音频生成模型根据所述低频带频谱对数特征生成所述高频带频谱对数特征,并将所述低频带频谱对数特征和所述高频带频谱对数特征做拼接处理,生成所述输出信息。
在本发明的一些实施例中,所述提取全频带上采样音频数据的频谱对数特征包括:
提取所述全频带上采样音频数据的初始谱对数特征;
计算所述初始谱对数特征的方差和均值;
利用所述方差、均值对所述初始谱对数特征进行标准化处理,生成所述频谱对数特征。
在本发明的一些实施例中,所述第一高解析音频生成模型采用端到端encoder-decoder架构。
在本发明的一些实施例中,所述第一高解析音频生成模型包括前级网络、后级网络和输出网络,所述前级网络、后级网络和输出网络中设有轻量级深度可分离卷积网络DWconv2D,所述后级网络中设有子像素卷积网络SubPixel2D。
在本发明的一些实施例中,所述前级网络包括第一前级网络、第二前级网络、第三前级网络和第四前级网络,所述后级网络包括第一后级网络、第二后级网络、第三后级网络、第四后级网络;
所述将所述低频带频谱对数特征输入到所述第一高解析音频生成模型,包括:
所述低频带频谱对数特征输入到所述第一前级网络;
所述第一前级网络的输出输入到所述第二前级网络,所述第一前级网络的输出还与所述第三后级网络的输出叠加后输入到所述第四后级网络;
所述第二前级网络的输出输入到第三前级网络,所述第二前级网络的输出还与第二后级网络的输出叠加后输入到第三后级网络;
所述第三前级网络的输出输入到第四前级网络,所述第三前级网络的输出还与第一后级网络的输出叠加后输入到第二后级网络;
所述第四前级网络的输出输入到所述第一后级网络;
所述第四后级网络的输出输入到所述输出网络。
在本发明的一些实施例中,所述损失函数采用如下公式表达:
在本发明的一些实施例中,所述提取所述全频带上采样音频数据的初始谱对数特征,包括:
对所述全频带上采样音频数据进行短时傅里叶变换,生成全频带短时傅里叶矩阵特征;
对所述全频带短时傅里叶矩阵特征中每一元素取模,并取对数,获取所述初始谱对数特征,其中,所述初始谱对数特征中的元素为频点数。
在本发明的一些实施例中,所述截取所述频谱对数特征中对应小于第一频率阈值的特征作为低频带频谱对数特征,包括:
依据第一频率阈值对应的频点数,对所述全频带频谱对数特征进行切分,生成所述低频带频谱对数特征。在本发明实施例中,提供一种高解析音频生成方法,包括如下步骤:
提取上采样音频数据的短时傅里叶模对数矩阵特征和相位矩阵特征;
截取所述短时傅里叶模对数矩阵特征中对应小于第一阈值频率的特征作为低频带短时傅里叶模对数矩阵特征;
将所述低频带短时傅里叶模对数矩阵特征输入到预先训练的生成器网络模型中,获取全频带模矩阵特征;
根据所述全频带模矩阵特征和所述相位矩阵特征,生成全频带短时傅里叶矩阵特征;
对所述全频带短时傅里叶矩阵特征做逆短时傅里叶变换,生成高解析音频数据。
在本发明的一些实施例中,所述预先训练的生成器网络模型采用上述任一训练方法所生成的高解析音频生成模型。
在本发明的一些实施例中,所述提取上采样音频数据的短时傅里叶模对数矩阵特征,包括:
提取所述上采样音频数据的初始模对数矩阵特征;
计算所述初始模对数矩阵特征的方差和均值;
利用所述方差、均值对所述初始模对数矩阵特征进行标准化处理,生成所述短时傅里叶模对数矩阵特征。
在本发明的一些实施例中,所述根据所述全频带模矩阵特征和所述相位矩阵特征,生成全频带短时傅里叶矩阵特征,包括:
根据所述方差、均值对所述全频带模矩阵特征做逆标准化处理;
根据逆标准化处理后的全频带模矩阵特征和所述相位矩阵特征,生成全频带短时傅里叶矩阵特征。
在本发明的一些实施例中,所述提取上采样音频数据的短时傅里叶模对数矩阵特征和相位矩阵特征,包括:
对上采样音频数据进行短时傅里叶变换,生成短时傅里叶矩阵特征;
对所述短时傅里叶矩阵特征中每一元素取模,并取对数,获取所述短时傅里叶模对数矩阵特征,其中,所述短时傅里叶模对数矩阵特征中的元素为频点数;
对所述短时傅里叶模对数矩阵特征中的每一元素求均值方差,生成所述相位矩阵特征。
在本发明的一些实施例中,所述生成全频带短时傅里叶矩阵特征,包括:
根据欧拉公式将所述全频带模矩阵特征和所述相位矩阵特征转换为全频带短时傅里叶矩阵特征。
本发明实施例提供了一种音效切换方法,运行于客户端,包括如下步骤:
响应于用户对目标音频数据的音效切换操作,将所述目标音频数据作为初始音效音频数据,执行上述高解析音频生成方法,生成高解析音频数据;
播放所述高解析音频数据。
在本发明实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现任一本发明实施例的高解析音频生成模型的训练方法,实现任一本发明实施例的高解析音频生成方法,实现任一本发明实施例的音效切换方法。
在本发明实施例中,提供一种电子设备,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时执行任一本发明实施例的高解析音频生成模型的训练方法,任一本发明实施例的高解析音频生成方法,任一本发明实施例的音效切换方法。
本发明实施例提出一种高解析音频生成方案、切换方案及相关的训练方案。利用低频音频特征生成高频音频特征,生成,实现了全频段的输出,提升了音频质量,接近原声,采用轻量级卷积网络DWconv2D,使得,网络模型量级降低,能够在手机端部署运行,便于用户在手机端及时切换音效,避免了传回后台服务器处理造成耗时长、体验差的问题。
本发明实施例的其他可选特征和技术效果一部分在下文描述,一部分可通过阅读本文而明白。
附图说明
以下,结合附图来详细说明本发明的实施例,所示出的元件不受附图所显示的比例限制,附图中相同或相似的附图标记表示相同或类似的元件,其中:
图1示出了根据本发明实施例的训练方法的示例性流程图;
图2a、图2b示出了根据本发明实施例的训练方法中的高解析音频生成模型的网络模型结构示意图;
图3示出了根据本发明实施例的高解析音频生成方法的示例性流程图;
图4示出了根据本发明实施例的音效切换方法的示例性流程图;
图5示出了实施根据本发明实例的音效切换方法在客户端设置界面示意图;
图6示出了实施根据本发明实例的高解析音频生成方法的实践示意图;
图7示出了实施根据本发明实例的generator生成器网络的结构示意图;
图8示出了实施根据本发明实例的高频带、低频带分布示意图;
图9示出了根据本发明实施例的Depthwise Convolution的处理过程示意图;
图10示出了根据本发明实施例的Pointwise Convolution的处理过程示意图;
图11示出了根据本发明实施例的sub-pixel consvolution的处理过程示意图;
图12示出了根据本发明实施例的Hi-Res超分GAN训练框架的示意图;
图13示出了根据本发明实施例的生成超分音频方法的流程示意图;
图14示出了根据本发明实施例的训练装置的结构示意图;
图15示出了根据本发明实施例的高解析音频生成装置的结构示意图;
图16示出了根据本发明实施例的音效切换装置的结构示意图;
图17示出了能实施根据本发明实施例的方法的电子设备的示例性结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合具体实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在本发明实施例中,“网络”具有机器学习领域中的常规含义,例如神经网络(NN)、深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)、其他的机器学习或深度学习网络或它们的组合或修改。
在本发明实施例中,“模型”具有机器学习领域中的常规含义,例如模型可以是机器学习或深度学习模型,例如为包括上述网络或者由上述网络构成的机器学习或深度学习模型。
在本发明实施例中,“损失函数”和“损失值”具有机器学习领域中的常规含义。
本发明实施例提供一种高解析音频生成模型的训练方法和系统、高解析音频生成方法或装置/模型、音效切换方法或装置、电子设备和存储介质。所述方法、系统、装置/模型可以借助于一个或多个计算机实施。在一些实施例中,所述系统、装置/模型可以由软件、硬件或软硬件结合实现。在一些实施例中,该电子设备或计算机可以由本文所记载的计算机或其他可实现相应功能的电子设备实现。
高解析音频(High-resolution audio,Hi-Res)的音频文件的采样频率为96kHz/24bit,明显高于cd的44.1kHz/16bit采样频率。Hi-Res高解析音频是一种无损音频,它在录音上力求最大程度还原源声,其音质表现高于CD音频源。根据奈奎斯特定理可知,96kHz采样率的最高频谱高度可达48kHz;44.1kHz采样率的最高频谱高度可达22.05kHz。
在发明人已知的一些技术方案中,为了高效生成高解析音频,引入了频带扩展技术,使用DNN技术进行时域插值,引入高频细节。但是在时域处理音频超分,简单粗暴,输入低分辨率的音频时间序列,训练模型,输出高分辨率的音频时间序列,就是在低分辨率音频信号中插入高分辨细节,会导致数据集内效果OK,数据集外泛化能力差;实际生成样本,听感有失真存在。且通常这种方式网络权重大,一般部署到服务器端,生成速度慢并且需要大量的计算资源,不利于手机端部署。
本发明的一些实施例,提出了一种端到端Hi-Res(高解析音频)生成方案,主要用于频域音频超分方案。首先将常用44.1kHz无损音频通过上采样到Hi-Res音源96kHz,这种时域采样点的增多的升采样方式并未带来高频细节的增加,然后使用端到端Encoder-Decoder网络架构,学习低频到高频的映射关系,学习更多的高频细节,补充高频能量,最后使用ISTFT技术还原为时域波形。Encoder-Decoder网络架构内部结构使用DWconv轻量级卷积运算单元,方便手机端部署,并且使用主流GAN训练使得网络充分训练学习。这种端到端的Hi-Res超分方法作为一种Hi-Res超分音效部署到手机端供用户使用。
上述Encoder-Decoder网络架构经过训练生成。Encoder-Decoder网络架构能够输出全频特征。
如图1所示,在一个示例性实施例中,提供了一种高解析音频生成模型的训练方法。通过训练第一高解析音频生成模型,得到所述高解析音频生成模型。
如图2a所示,所述第一高解析音频生成模型w100采用端到端encoder-decoder架构,所述第一高解析音频生成模型w100包括前级网络w110、后级网络w120和输出网络w130,所述前级网络w110、后级网络w120和输出网络w130中设有轻量级深度可分离卷积网络DWconv2D,所述后级网络w120中设有子像素卷积网络SubPixel2D。所述训练方法包括如下步骤。
S110、提取全频带上采样音频数据的频谱对数特征。以高解析音频采样率对训练音频数据进行上采样,生成全频带上采样音频数据。所述高解析音频采样率可以为96KHz。这种时域采样点的增多的升采样方式并未带来高频细节的增加,但是为后续的处理做好了基础。对所述全频带上采样音频数据进行短时傅里叶变换、标准化等步骤之后生成频谱对数特征。具体地,所述提取全频带上采样音频数据的频谱对数特征包括:
提取所述全频带上采样音频数据的初始谱对数特征;
计算所述初始谱对数特征的方差和均值;
利用所述方差、均值对所述初始谱对数特征进行标准化处理,生成所述频谱对数特征。
利用标准化的频谱对数特征进行训练,能够将散列的数据集中到局部范围内,训练更容易收敛,在有效减少训练时长的同时,也能保证训练数据的特征不丢失,使得训练出的模型具有相同的品质。
本发明的一些实施例中,可以通过如下步骤进行标准化,例如初始谱对数特征F的方差为σ,均值为e,则标准化过程为:频谱对数特征T=(F-e)/σ。
本发明的一些实施例中,通过短时傅里叶变换等步骤生成初始谱对数特征。所述提取所述全频带上采样音频数据的初始谱对数特征,包括:
对所述全频带上采样音频数据进行短时傅里叶变换,生成全频带短时傅里叶矩阵特征;
对所述全频带短时傅里叶矩阵特征中每一元素取模,并取对数,获取所述初始谱对数特征,其中,所述初始谱对数特征中的元素为频点数。
在本发明的一些实施例中,以N帧长度为单位对所述全频带短时傅里叶模对数矩阵特征进行均分处理,更新所述全频带短时傅里叶模对数矩阵特征,N为大于等于16的整数,例如可以为64。
实践中,提取上采样音频的STFT(短时傅里叶变换)特征,并取模,然后取对数保存,得到模对数,其中采样点数fft_length=2048,窗口移动数hop_length=256。这样一段音频的模对数形状(shape)大小为[T,1024],T为特征序列长度,跟音频时长有关。本发明实施例将[T,1024]模对数转换为固定为64帧的大小,分成64组,每组包括T/64帧,即大小为[T/64,64,1024]。
S120、截取所述频谱对数特征中对应的频率小于第一频率阈值的特征作为低频带频谱对数特征;依据第一频率阈值对应的频点数,对所述频谱对数特征进行切分,生成所述低频带频谱对数特征。所述第一频率阈值可以为18K,对应的频点数为384。具体的数值和取对数的单位有关,本领域的技术人员可以根据需要进行设定。在实践中,所述第一高解析音频生成模型的输入输出维度有限制,例如,所述第一高解析音频生成模型的输入输出为4维向量,这时需要将所述低频带频谱对数特征转换为4维向量。
S130、将所述低频带频谱对数特征输入到第一高解析音频生成模型生成输出信息,所述第一高解析音频生成模型输出信息包括高频带频谱对数特征的信息,所述高频带频谱对数特征对应的频率大于第二频率阈值。
在本发明的一些实施例中,所述将所述低频带频谱对数特征输入到第一高解析音频生成模型生成输出信息,包括:
所述第一高解析音频生成模型根据所述低频带频谱对数特征生成所述高频带频谱对数特征,并将所述低频带频谱对数特征和所述高频带频谱对数特征做拼接处理,生成所述输出信息。使得输出信息具有全面的频谱对数特征信息,输出更加全面,避免了信息丢失,造成失真。
在本发明的一些实施例中,所述第一高解析音频生成模型,采用encoder-decoder架构,后级网络的输入不仅包括临近网络的输出,还包括前级网络的输出,生成高频部分时,避免了信息的丢失,增加了生成高频的细节。
如图2b所示,所述第一高解析音频生成模型的具体结构如下,所述前级网络w110包括第一前级网络w111、第二前级网络w112、第三前级网络w113和第四前级网络w114,所述后级网络w120包括第一后级网络w121、第二后级网络w122、第三后级网络w123、第四后级网络w124;所述第一前级网络w111的输出与所述第二前级网络w112的输入连接,所述第一前级网络w111的输出还通过与所述第三后级网络w123的输出叠加后输入到所述第四后级网络w124;所述第二前级网络w112的输出与第三前级网络w113连接,所述第二前级网络w112的输出还通过与第二后级网络w122的输出叠加后输入到第三后级网络w123;所述第三前级网络w113的输出与第四前级网络w114连接,所述第三前级网络w113的输出还通过与第一后级网络w121的输出叠加后输入到第二后级网络w122;所述第四前级网络w114的输出与所述第一后级网络w121的输入连接;所述第四后级网络w124的输出与输出网络w130连接。前级网络w110中各个子网络、后级网络w120中的各个自网络、输出网络w130设有轻量级深度可分离卷积网络DWconv2D,所述后级网络w120中各个自网络还设有子像素卷积网络SubPixel2D。
在本发明的一些实施例中,所述将所述低频带频频对数特征输入到所述第一高解析音频生成模型,包括:
所述低频带频谱对数特征输入到所述第一前级网络w111;
所述第一前级网络w111的输出输入到所述第二前级网络w112,所述第一前级网络w111的输出还与所述第三后级网络w123的输出叠加后输入到所述第四后级网络w124;
所述第二前级网络w112的输出输入到第三前级网络w123,所述第二前级网络w112的输出还与第二后级网络w122的输出叠加后输入到第三后级网络w123;
所述第三前级网络w113的输出输入到第四前级网络w114,所述第三前级网络w113的输出还与第一后级网络w121的输出叠加后输入到第二后级网络w122;
所述第四前级网络w114的输出输入到所述第一后级网络w121;
所述第四后级网络w124的输出输入到所述输出网络w130,所述输出网络w130的输出作为所述第一高解析音频生成模型的输出。
所述深度可分离卷积网络DWconv2D包括串连的Depthwise(DW)卷积和Pointwise(DW)卷积,Depthwise(DW)卷积不同于常规卷积操作,,一个卷积核负责一个通道,一个通道只被一个卷积核卷积。Pointwise(DW)卷积的卷积核尺寸为1*1*M,M为上一层的depth,卷积运算会将上异步的map在深度方向上进行加权求和,生成feature map。子像素卷积网络SubPixel2D是结合上升采样upsample和卷积操作的一种方法,用于将低分辨率转换为高分辨率特征,采用上升采样之后,利用CNN对feature map进行放大。
所述第一高解析音频生成模型输出包括高频带高频带频谱对数特征的信息,所述高频带频谱对数特征对应的频率大于第二频率阈值。所述第一频率阈值减去过渡频率等于所述第二频率阈值,生成的高频特征对应的频率起始点(第二频率阈值)要相对低一些,保证高频和低频过渡平稳,避免信息缺失。具体地,全频段最高频率对应的频点数为1024时,所述第一频率阈值对应的频点数为384,所述第二频率阈值对应的频点数为348,过渡频率范围对应的频点数长度为36。将低频中的部分划归到高频,使得生成的数据既包含高频部分(对应频点数大于384的部分),又有低频高频过渡段的部分(对应频点数在348和384之间的部分),过渡平稳。
S140、将所述第一高解析音频生成模型的输出信息和所述频谱对数特征输入到第一判别器网络Discriminator中,利用损失函数计算损失值,根据所述损失值更新所述第一高解析音频生成模型和所述第一判别器网络中的模型参数,获得第二高解析音频生成模型和第二判别器网络;
S150、将所述第二高解析音频生成模型替换所述步骤S130中的第一高解析音频生成模型,将所述第二判别器网络替换所述步骤S140中的第一判别器网络,循环执行步骤S130和步骤S140,直至所述损失值小于损失阈值,将所述第一高解析音频生成模型作为所述高解析音频生成模型。
本发明的实施例通过循环迭代,根据损失值是否收敛或者是否收敛到一定范围,判断网络参数是否达标。
本发明的实施例采用GAN的方式进行训练,并不直接使用一般的生成模型训练方式,能够达到充分训练模型,学习更多细节,是的高频带生成得到更多高频细节,更加逼真的还原真实高频特征。所述判别器网络使用VGG-like二分网络模型结构。
本发明实施例中的训练方法,通过GAN训练,训练充分,细节学习丰富,预测出的高频部分更加逼真,采用轻量级的DWconv2D网络核,训练得到的模型能够部署到手机端运行,运行负载低,能够在端层实现音频音效转换。
如图3所示,本发明另一个实施例提供了一种高解析音频生成方法,包括如下步骤:
S210、以高解析音频采样率对初始音效音频数据进行上采样,生成上采样音频数据;与训练方法实施例中的上采样步骤类似,本发明的实施例中,所述高解析音频采样率可以为96KHz。这种时域采样点的增多的升采样方式并未带来高频细节的增加,但是为后续的处理做好了基础。
S220、提取所述上采样音频数据的短时傅里叶模对数矩阵特征和相位矩阵特征;在一些实施例中,对所述上采样音频数据进行短时傅里叶变换,生成短时傅里叶矩阵特征;
对所述短时傅里叶矩阵特征中每一元素取模,并取对数,获取所述短时傅里叶模对数矩阵特征,其中,所述短时傅里叶模对数矩阵特征中的元素为频点数;取对数的基可以是e也可以是10,采用频点数表示的方式,能够将数据进行缩小,便于后续的计算,同时,不失细节。
在一些实施例中,可以通过标准化的方法,生成所述短时傅里叶模对数矩阵特征和相位矩阵特征,缩减了计算的容量,提升了训练效率。
在一些实施例中,所述提取上采样音频数据的短时傅里叶模对数矩阵特征,包括:
提取所述上采样音频数据的初始模对数矩阵特征;
计算所述初始模对数矩阵特征的方差和均值;
利用所述方差、均值对所述初始模对数矩阵特征进行标准化处理,生成所述短时傅里叶模对数矩阵特征。
在一些实施例中,以N帧长度为单位对所述短时傅里叶模对数矩阵特征进行均分处理,更新所述短时傅里叶模对数矩阵特征;所述N值为大于等于16的整数,例如可以采用64,每组数据包含64帧音频频点数数据。
在一些实施例中,对所述短时傅里叶矩阵特征中每一元素取模,并取对数,获取短时傅里叶模对数矩阵特征,对所述短时傅里叶模对数矩阵特征中的每一元素求均值方差,生成所述相位矩阵特征,矩阵中元素代表相位差。
实践中,提取上采样音频的STFT(短时傅里叶变换)特征,并取模,然后取对数保存,得到模对数,其中采样点数fft_length=2048,窗口移动数hop_length=256。这样一段音频的模对数shape大小为[T,1024],T为特征序列长度,跟音频时长有关,表达为具有T个1024维的列向量组成的数据。本发明实施例将[T,1024]模对数转换为固定为64帧的大小,分成64组,每组包括T/64帧,即为[T/64,64,1024]。
为了获取相位信息,计算所有模对数的均值方差,保存为global-cmvn,其特征shape均为[1,1024]。
S230、截取所述短时傅里叶模对数矩阵特征中对应小于第一阈值频率的特征作为低频带短时傅里叶模对数矩阵特征;依据第一阈值频率对应的频点数,对所述短时傅里叶模对数矩阵特征进行切分,生成所述低频带短时傅里叶模对数矩阵特征。所述第一阈值频率可以为18K,对应的频点数为384。具体的数值和取对数的单位有关,本领域的技术人员可以根据需要进行设定。在实践中,所述高解析音频生成模型的输入输出维度有限制,例如,所述高解析音频生成模型的输入输出为4维向量,这时需要将所述低频带短时傅里叶模对数矩阵特征转换为4维向量。
S240、将所述低频带短时傅里叶模对数矩阵特征输入到预先训练的生成器网络模型中,获取全频带模矩阵特征;所述全频带模矩阵特征包括高频特征信息,所述高频特征信息对应的频率大于第二阈值频率;所述生成器模型,可采用encoder-decoder架构,后级网络的输入不仅包括临近网络的输出,还包括前级网络的输出,生成高频部分时,避免了信息的丢失,增加了生成高频的细节。
所述高解特征信息对应的频率大于第二阈值频率。所述第一阈值频率减去过渡频率等于所述第二阈值频率,生成的高频特征对应的频率起始点(第二阈值频率)要相对低一些,保证高频和低频过渡平稳,避免信息缺失。具体地,全频段最高频率对应的频点数为1024时,所述第一阈值频率对应的频点数为384,所述第二阈值频率对应的频点数为348,过渡频率范围对应的频点数长度为36。将低频中的部分划归到高频,使得生成的数据既包含高频部分(对应频点数大于384的部分),又有低频高频过渡段的部分(对应频点数在348和384之间的部分),过渡平稳。
S250、根据所述全频带模矩阵特征和所述相位矩阵特征,生成全频带短时傅里叶矩阵特征;具体的,根据欧拉公式将所述全频带模矩阵特征和所述相位矩阵特征转换为全频带短时傅里叶矩阵特征。将两个矩阵上对应位置上的元素采用欧拉公式进行变换,生成复数。
在一些实施例中,为了适应标准化处理方式,在生成特征之后,需要进行逆标准化处理。具体地,所述根据所述全频带模矩阵特征和所述相位矩阵特征,生成全频带短时傅里叶矩阵特征,包括:
根据所述方差、均值对所述全频带模矩阵特征做逆标准化处理;
根据逆标准化处理后的全频带模矩阵特征和所述相位矩阵特征,生成全频带短时傅里叶矩阵特征。
在本发明的一些实施例中,可以通过如下方式进行逆标准化,方差为σ,均值为e,全频带模矩阵特征为T,全频带短时傅里叶矩阵特征F=T*σ+e。
S260、对所述全频带短时傅里叶矩阵特征做逆短时傅里叶变换,生成高解析音频数据。所述高解析音频数据为时域波形数据,既包括低频时域波形,也包括高频时域波形。
在本发明的一些实施例中,所述预先训练的生成器网络模型上述训练方法所生成的高解析音频生成模型。也可以采用其他方式生成的模型。
本发明实施例中的高解析音频生成方法,可以在服务器端运行,也可以在客户端运行,本发明实施例中的模型为轻量级模型,能够部署在客户端运行,本发明实施例中的方法在客户端上运行时具有时延小,运行通畅的优点。
本发明实施例中生成的高解析度音频,包含了声音的许多信息量,例如"声音的厚度、细腻度、深度、声压级"等。这种高解析度音频的音质更接近原音,可以感受到歌手的气息和现场的音乐感等以往CD中无法聆听到的细节及氛围,仿佛置身于录音棚和现场音乐会,身临其境,聆听最喜爱的音乐,发现此前从未听到的微妙细节和艺术上的细微差异。
如图4所示,本发明的另一些实施例中,还提供了一种音效切换方法,运行于客户端,包括如下步骤:
S310、响应于用户对目标音频数据的音效切换操作,将所述目标音频数据作为初始音效音频数据,执行上述任一实施例中的高解析音频生成方法,生成高解析音频数据;所述预先训练的生成器网络模型可以部署在所述客户端上。用户在音乐app上点击目标歌曲时,客户端与后台服务器进行访问,将目标歌曲的音频数据下载到本地缓存,当用户选择音效切换的操作时,调用本发明上述实施例中的高解析音频生成方案,生成高解析音频数据缓存。
S320、播放所述高解析音频数据。客户端中播放器将正在播放或者待播放的目标音频数据切换成所述高解析音频数据。使得用户能够不用下载Hi-Res音频数据,即可享受高解析音频的效果。
Hi-Res的应用前景广泛,通过近乎毫无损失地数字化捕捉原始模拟音频源,从而详实的还原各种声音,带给听者原汁原味的享受,可以尽情享受高质量的原声,犹如身临其境。对于爱听歌或者初烧的用户,喜欢追求Hi-Res音源,本发明的实施例通过手机端部署Hi-Res超分音效,为普通用户提供一种Hi-Res音源提供方案,辅以发烧级别的设备(耳机或音像)就能提供这种原汁原味高音质还原体验。如图5所示,用户可以进行在客户端选择音效切换。
下面,从实践的角度,对本发明的方案进行描述。
本发明的方案提出的一种端到端Hi-Res超分音效生成方案。首先将常用44.1kHz无损音频通过上采样到Hi-Res音源96kHz,这种时域采样点的增多的升采样方式并未带来高频细节的增加,然后使用端到端Encoder-Decoder网络架构,学习低频到高频的映射关系,学习更多的高频细节,补充高频能量,最后使用ISTFT技术还原为时域波形。Encoder-Decoder网络架构内部结构使用DWconv轻量级卷积运算单元,方便手机端部署,并且使用主流GAN训练使得网络充分训练学习。这种端到端的Hi-Res超分方法作为一种Hi-Res超分音效部署到手机端供用户使用。
如图6所示,主要流程和步骤如下:
S410,提取上采样音频的STFT(短时傅里叶变换)特征,并取模,然后取对数保存,得到模对数,其中采样点数fft_length=2048,窗口移动数hop_length=256。这样一段音频的模对数shape大小为[T,1024],T为特征序列长度,跟音频时长有关。本发明实施例将[T,1024]模对数转换为固定为64帧的大小,分成64组,每组包括T/64帧,即为[T/64,64,1024]。
S420、为了获取相位信息,计算所有模对数的均值方差,保存为global-cmvn,其特征shape均为[1,1024]。
S430、构建Hi-Res超分生成模型,由于本发明实施例的模型是从低频带通过模型学习得到高频带的映射关系,所以采用encoder-decoder架构。输入shape为[-1,1,64,384],分别表述为[批大小,固定为1,帧长,低频带频点数],这里我们使用轻量级DWconv2D作为卷积运算单元,其是一个四维的输入输出,所以第二维默认扩展为1。低频带和高频带分布如图8所示,高频带频点数对应图8中高频带和Overlap过渡段部分,低频带频点对应低频带部分。具体地,低频带频点数384对应于18K频谱高度,计算方式如下:384=2048*18K(频谱高度)/96K(采样率)。输出shape为[-1,1,64,676],分别表述为[批大小,固定为1,帧长,高频带频点数],其中676为高频带频点数,计算方式为:676=(1024-384)+36=640(高频带部分频点数)+36(重叠(overlap)部分频点数),overlap,对应过渡频率段,1024对应于96K采样率全频带48K频谱高度。模型内部构造如图7所示。
以下对说明DWconv2D和SubPixel2D两个网络的计算过程进行解释。
DWconv2D网络包括:Depthwise(DW)卷积与Pointwise(PW)卷积,合起来被称作Depthwise Separable Convolution。
Depthwise Convolution,不同于常规卷积操作,Depthwise Convolution的一个卷积核负责一个通道,一个通道只被一个卷积核卷积。上面所提到的常规卷积每个卷积核是同时操作输入图片的每个通道。同样是对于一张5×5像素、三通道彩色输入图片(shape为5×5×3),Depthwise Convolution首先经过第一次卷积运算,不同于上面的常规卷积,DW完全是在二维平面内进行。卷积核的数量与上一层的通道数相同(通道和卷积核一一对应)。所以一个三通道的图像经过运算后生成了3个Feature map(如果有same padding则尺寸与输入层相同为5×5),如图9所示。
Pointwise Convolution的运算与常规卷积运算类似,不同之处在于卷积核的尺寸为1×1×M,M为上一层的depth。所以这里的卷积运算会将上一步的map在深度方向上进行加权组合,生成新的Feature map。有几个Filter就有几个Feature map,filter的数量和feature map的数量一致,如图10所示。
SubPixel2D称为sub-pixel consvolution layer。SubPixel2D是结合上升采样upsample和卷积consvolution操作的一种方法,这种方法作用于低分率特征然后通过其操作得到高分辨率特征,进行上升采样,采用CNN对feature map进行放大的方法。本发明的实施例在设计步骤时,做如下考量。
1、如果直接用deconvolution作为upscale手段的话,通常会带入过多人工因素进来。而sub-pixel consvolution会降低这个风险。sub-pixel的处理方式如图11所示。
2、首先,如果想对原图放大2倍,那么需要生成出2^2=4个same size的特征图。将4个same size的特征图拼成一个X2的大图,即sub-pixel convolution的操作。
3、将每个像素的单个通道重新排列成一个r x r的区域,对应于高分辨率图像中的一个r x r大小的子块,从而大小为1x H x W的特征图像被重新排列成1x rH x rW大小的高分辨率图像。这个变换虽然被称作sub-pixel convolution,但实际上并没有卷积操作,类似4D向量重组特征大小([B,H,W,r*r*C]->[B,rH,rW,C])。
S440、第四步,训练生成模型,训练模型并不直接使用一般的生成模型(autoencoder)训练方式,如图12所示,而是采用GAN训练,充分训练模型,学习更多细节,使得高频带生成得到更多高频细节,更加逼真的还原真实高频特征。其中生成器Generator使用S430中提到的轻量级Encoder-Decoder架构,判别器Discriminator使用VGG-like二分类网络模型结构。
GAN中Generator和Discriminator的损失函数分别为:
其中,除了使用上述中的损失函数外还特别额外引入两个损失函数来加强低频带特征到高频带特征的预测,如下所示,总的LG损失函数为:
S450、使用训练好的模型进行预测生成。如图13所示,送入44.1K采样率音频,首先升采样到96K采样率,然后计算STFT特征,计算模和相位,对模取对数得到对数模,将对数模截取到频谱高度18K,送入训练好的生成器,得到一个全频带模,将生成的全频带模和原始全频带相位,利用欧拉公式转换为复数形式的短时傅里叶特征,使用ISTFT转换,得到96K采样率时域波形,即可得到Hi-res超分音频。
S460、将generator模型转换为tflite格式供手机端进行部署,同时手机端还部署有STFT、ISTFT计算模块,这样在手机端即可实现高解析超分音频。
需要说明的时,上述采用图像处理的描述过程进行解释,是为了更加直观说明方案,实践中,是对音频数据进行处理。
本发明实践中的方案,提出的一种端到端Hi-Res超分音效方法,聚焦高采样率(96kHz),同时使用全新轻量级神经网络,可以直接部署到手机端,提供一种Hi-Res超分音效,可以将一般普通的非Hi-Res音频转换为Hi-Res音频,给用户带来高音质体验。
在本发明实施例中,如图14所示,示出一种高解析音频生成模型训练装置900,所述训练装置900包括:
上采样模块910,配置为以高解析音频采样率对训练音频数据进行上采样,生成全频带上采样音频数据;
频谱对数特征提取模块920,配置为提取全频带上采样音频数据的频谱对数特征;
截取模块930,配置为截取所述频谱对数特征中对应小于第一频率阈值的特征作为低频频谱对数特征;
训练输出模块940,所述网络训练模块940包括生成器计算模块941、判别器计算模块942和循环训练模块943。
生成器计算模块941,配置为将所述低频带频谱对数特征输入到第一高解析音频生成模型生成输出信息,所述第一高解析音频生成模型的输出信息包括高频带频谱对数特征的信息,所述高频带频谱对数特征对应的频率大于第二频率阈值,其中,第二频率阈值小于所述第一频率阈值;
判别器计算模块942,配置为将所述第一高解析音频生成模型的输出信息和所述频谱对数特征输入到第一判别器网络中,利用损失函数计算损失值。
循环训练模块943,配置为根据所述损失值更新所述第一高解析音频生成模型和所述第一判别器网络中的模型参数,获得第二高解析音频生成模型和第二判别器网络;将所述第二高解析音频生成模型生成器计算模块941中的第一高解析音频生成模型,将所述第二判别器网络替换所述判别器计算模块942中的第一判别器网络,循环促使生成器计算模块941和判别器计算模块942工作,每次工作时进行网络更新替换,直至所述损失值小于损失阈值,将所述第一高解析音频生成模型作为所述高解析音频生成模型。
在一些实施例中,所述生成器计算模块941,具体配置为:
所述第一高解析音频生成模型根据所述低频带频谱对数特征生成所述高频带频谱对数特征,并将所述低频带频谱对数特征和所述高频带频谱对数特征做拼接处理,生成所述输出信息。
在一些实施例中,所述频谱对数特征提取模块920,具体配置为:
提取所述全频带上采样音频数据的初始谱对数特征;
计算所述初始谱对数特征的方差和均值;
利用所述方差、均值对所述初始谱对数特征进行标准化处理,生成所述频谱对数特征。
在一些实施例中,所述第一高解析音频生成模型采用端到端encoder-decoder架构。
在一些实施例中,所述第一高解析音频生成模型包括前级网络、后级网络和输出网络,所述前级网络、后级网络和输出网络中设有轻量级深度可分离卷积网络DWconv2D,所述后级网络中设有子像素卷积网络SubPixel2D。
在一些实施例中,所述前级网络包括第一前级网络、第二前级网络、第三前级网络和第四前级网络,所述后级网络包括第一后级网络、第二后级网络、第三后级网络、第四后级网络;所述第一前级网络的输出与所述第二前级网络的输入连接,所述第一前级网络的输出还通过与所述第三后级网络的输出叠加后输入到所述第四后级网络;所述第二前级网络的输出与第三前级网络连接,所述第二前级网络的输出还通过与第二后级网络的输出叠加后输入到第三后级网络;所述第三前级网络的输出与第四前级网络连接,所述第三前级网络的输出还通过与第一后级网络的输出叠加后输入到第二后级网络;所述第四前级网络的输出与所述第一前级网络的输入连接;所述第四后级网络的输出与输出网络连接。
在一些实施例中,所述频谱对数特征提取模块920,还被配置为:
对所述全频带上采样音频数据进行短时傅里叶变换,生成全频带短时傅里叶矩阵特征;
对所述全频带短时傅里叶矩阵特征中每一元素取模,并取对数,获取所述初始频谱对数特征,其中,所述初始频谱对数特征中的元素为频点数;
在一些实施例中,以N帧长度为单位对所述频谱对数特征进行均分处理,更新所述频谱对数特征。
在一些实施例中,所述截取模块930,还被配置为:
依据第一频率阈值对应的频点数,对所述频谱对数特征进行切分,生成所述低频带频谱对数特征。
如图15所示,本发明的另一些实施例还提供了一种高解析音频生成装置800,包括:
上采样模块810,配置为以高解析音频采样率对初始音效音频数据进行上采样,生成上采样音频数据;
短时傅里叶处理模块820,配置为提取所述上采样音频数据的短时傅里叶模对数矩阵特征和相位矩阵特征;
截取模块830,配置为截取所述短时傅里叶模对数矩阵特征中对应小于第一阈值频率的特征作为低频带短时傅里叶模对数矩阵特征;
全频带模生成模块840,配置为将所述低频带短时傅里叶模对数矩阵特征输入到预先训练的生成器网络模型中,获取全频带模矩阵特征;
复变处理模块850,配置为根据所述全频带模矩阵特征和所述相位矩阵特征,生成全频带短时傅里叶矩阵特征;
逆短时傅里叶处理模块860,配置为对所述全频带短时傅里叶矩阵特征做逆短时傅里叶变换,生成高解析音频数据。
在一些实施例中,所述预先训练的生成器网络模型采用上述高解析音频生成模型的训练方法实施例中生成的高解析音频生成模型或者上述高解析音频生成模型训练装置900的实施例中生成的高解析音频生成模型。
在一些实施例中,所述短时傅里叶处理模块820,还被配置为:
提取所述上采样音频数据的初始模对数矩阵特征;
计算所述初始模对数矩阵特征的方差和均值;
利用所述方差、均值对所述初始模对数矩阵特征进行标准化处理,生成所述短时傅里叶模对数矩阵特征。
在一些实施例中,所述短时傅里叶处理模块820,还被配置为:
对所述上采样音频数据进行短时傅里叶变换,生成短时傅里叶矩阵特征;
对所述短时傅里叶矩阵特征中每一元素取模,并取对数,获取所述短时傅里叶模对数矩阵特征,其中,所述短时傅里叶模对数矩阵特征中的元素为频点数;
在一些实施例中,被配置为以N帧长度为单位对所述短时傅里叶模对数矩阵特征进行均分处理,更新所述短时傅里叶模对数矩阵特征;
对所述短时傅里叶模对数矩阵特征中的每一元素求均值方差,生成所述相位矩阵特征。
在一些实施例中,所述复变处理模块850还被配置为:
根据所述方差、均值对所述全频带模矩阵特征做逆标准化处理;
根据逆标准化处理后的全频带模矩阵特征和所述相位矩阵特征,生成全频带短时傅里叶矩阵特征。
在一些实施例中,所述复变处理模块850还被配置为:
根据欧拉公式将所述全频带模矩阵特征和所述相位矩阵特征转换为全频带短时傅里叶矩阵特征。
如图16所示,在本发明的另一些实施例中,提供了一种音效切换装置700,运行于客户端,包括:
生成模块710,配置为响应于用户对目标音频数据的音效切换操作,将所述目标音频数据作为初始音效音频数据,调用的任一高解析音频生成方法的实施例中的方案或者任一高解析生成装置800的实施例中的方案,生成高解析音频数据;
播放模块720,配置为播放所述高解析音频数据。
在一些实施例中,所述预先训练的生成器网络模型部署在所述客户端上。
在一些实施例中,所述训练装置可以结合任一实施例的训练方法的特征,反之亦然,在此不赘述。
在一些实施例中,所述生成装置可以结合任一实施例的生成方法的特征,反之亦然,在此不赘述。
在一些实施例中,所述切换装置可以结合任一实施例的切换方法的特征,反之亦然,在此不赘述。
在一些实施例中,所述训练装置可以部分或全部地由各种机器学习平台/框架提供或实现。类似地,在一些实施例中,训练方法可以部分或全部地由各种机器学习平台实现。
在一些实施例中,所述机器学习平台/框架包括但不限于PyTorch、TensorFlow、Caffe、Keras、Amazon Machine Learning、Azure Machine Learning Studio等。
在本发明实施例中,提供一种电子设备,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时执行任一本发明实施例的高解析音频生成模型的训练方法。
在本发明实施例中,提供一种电子设备,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时执行任一本发明实施例的高解析音频生成方法。
在本发明实施例中,提供一种电子设备,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时执行任一本发明实施例的音效切换方法。
图17示出了一种可以实施本发明实施例的方法或实现本发明实施例的电子设备1100的示意图,在一些实施例中可以包括比图示更多或更少的电子设备。在一些实施例中,可以利用单个或多个电子设备实施。在一些实施例中,可以利用云端或分布式的电子设备实施。
如图17所示,电子设备1100包括中央处理器(CPU)1101,其可以根据存储在只读存储器(ROM)1102中的程序和/或数据或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序和/或数据而执行各种适当的操作和处理。CPU 1101可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,CPU 1101可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、神经网络处理器(NPU)、数字信号处理器(DSP)等等。在RAM 1103中,还存储有电子设备1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
上述处理器与存储器共同用于执行存储在存储器中的程序,所述程序被计算机执行时能够实现上述各实施例描述的高解析音频生成模型的训练方法、高解析音频生成方法、音效切换方法的步骤或功能。
以下部件连接至I/O接口1105:包括键盘、鼠标、触摸屏等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。图17中仅示意性示出部分组件,并不意味着计算机系统1100只包括图17所示组件。
在一些实施例中所述电子设备1100指代的时移动终端,包括手机,车载终端,智能电视等,以手机为例,所述电子设备1100中还包括带触摸功能的显示屏,外放音响,陀螺仪,摄像头,4G/5G天线等装置模块。
上述实施例阐明的系统、装置、模块或单元,可以由计算机或其关联部件实现。计算机例如可以为移动终端、智能电话、个人计算机、膝上型计算机、车载人机交互设备、个人数字助理、媒体播放器、导航设备、游戏控制台、平板电脑、可穿戴设备、智能电视、物联网系统、智能家居、工业计算机、服务器或者其组合。
在优选的实施例中,所述训练系统和方法可以至少部分或全部在云端的机器学习平台或者部分或全部地在自搭建的机器学习系统、如GPU阵列中实施或实现。
在优选的实施例中,所述评估装置和方法可以在服务器、例如云端或分布式服务器中实施或实现。在优选实施例中,还可以借助服务器,基于评估结果向中断推送或发送数据或内容。
尽管未示出,在本发明实施例中,提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序配置成被运行时执行任一本发明实施例的高解析音频生成模型的训练方法。
尽管未示出,在本发明实施例中,提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序配置成被运行时执行任一本发明实施例的高解析音频生成方法。
尽管未示出,在本发明实施例中,提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序配置成被运行时执行任一本发明实施例的音效切换方法。
在本发明的实施例的存储介质包括永久性和非永久性、可移动和非可移动的可以由任何方法或技术来实现信息存储的物品。存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
在本发明的实施例的方法、程序、系统、装置等,可以在单个或多个连网的计算机中执行或实现,也可以在分布式计算环境中实践。在本说明书实施例中,在这些分布式计算环境中,可以由通过通信网络而被连接的远程处理设备来执行任务。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本领域技术人员可想到,上述实施例阐明的功能模块/单元或控制器以及相关方法步骤的实现,可以用软件、硬件和软/硬件结合的方式实现。
除非明确指出,根据本发明实施例记载的方法、程序的动作或步骤并不必须按照特定的顺序来执行并且仍然可以实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本文中,针对本发明的多个实施例进行了描述,但为简明起见,各实施例的描述并不是详尽的,各个实施例之间相同或相似的特征或部分可能会被省略。在本文中,“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”意指适用于根据本发明的至少一个实施例或示例中,而非所有实施例。上述术语并不必然意味着指代相同的实施例或示例。在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
已参考上述实施例具体示出并描述了本发明的示例性系统及方法,其仅为实施本系统及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本系统及/或方法时对这里描述的系统及方法的实施例做各种改变而不脱离界定在所附权利要求中的本发明的精神及范围。
Claims (20)
1.一种高解析音频生成模型的训练方法,其特征在于,所述训练方法包括:
S110、提取全频带上采样音频数据的频谱对数特征;
S120、截取所述频谱对数特征中对应的频率小于第一频率阈值的特征作为低频带频谱对数特征;
S130、将所述低频带频谱对数特征输入到第一高解析音频生成模型生成输出信息,所述第一高解析音频生成模型的输出信息包括高频带频谱对数特征的信息,所述高频带频谱对数特征对应的频率大于第二频率阈值,其中,第二频率阈值小于所述第一频率阈值;
S140、将所述第一高解析音频生成模型的输出信息和所述频谱对数特征输入到第一判别器网络中,利用损失函数计算损失值,根据所述损失值更新所述第一高解析音频生成模型和所述第一判别器网络中的模型参数,获得第二高解析音频生成模型和第二判别器网络;
S150、将所述第二高解析音频生成模型替换所述步骤S130中的第一高解析音频生成模型,将所述第二判别器网络替换所述步骤S140中的第一判别器网络,循环执行步骤S130和步骤S140,直至所述损失值小于损失阈值,将所述第一高解析音频生成模型作为所述高解析音频生成模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述低频带频谱对数特征输入到第一高解析音频生成模型生成输出信息,包括:
所述第一高解析音频生成模型根据所述低频带频谱对数特征生成所述高频带频谱对数特征,并将所述低频带频谱对数特征和所述高频带频谱对数特征做拼接处理,生成所述输出信息。
3.根据权利要求1或2所述的训练方法,其特征在于,所述提取全频带上采样音频数据的频谱对数特征包括:
提取所述全频带上采样音频数据的初始谱对数特征;
计算所述初始谱对数特征的方差和均值;
利用所述方差、均值对所述初始谱对数特征进行标准化处理,生成所述频谱对数特征。
4.根据权利要求1或2所述的训练方法,其特征在于,所述第一高解析音频生成模型采用端到端encoder-decoder架构。
5.根据权利要求4所述的训练方法,其特征在于,所述第一高解析音频生成模型包括前级网络、后级网络和输出网络,所述前级网络、后级网络和输出网络中设有轻量级深度可分离卷积网络DWconv2D,所述后级网络中设有子像素卷积网络SubPixel2D。
6.根据权利要求5所述的训练方法,其特征在于,所述前级网络包括第一前级网络、第二前级网络、第三前级网络和第四前级网络,所述后级网络包括第一后级网络、第二后级网络、第三后级网络、第四后级网络;
所述将所述低频带频谱对数特征输入到所述第一高解析音频生成模型,包括:
所述低频带频谱对数特征输入到所述第一前级网络;
所述第一前级网络的输出输入到所述第二前级网络,所述第一前级网络的输出还与所述第三后级网络的输出叠加后输入到所述第四后级网络;
所述第二前级网络的输出输入到第三前级网络,所述第二前级网络的输出还与第二后级网络的输出叠加后输入到第三后级网络;
所述第三前级网络的输出输入到第四前级网络,所述第三前级网络的输出还与第一后级网络的输出叠加后输入到第二后级网络;
所述第四前级网络的输出输入到所述第一后级网络;
所述第四后级网络的输出输入到所述输出网络。
9.根据权利要求3所述的训练方法,其特征在于,所述提取所述全频带上采样音频数据的初始谱对数特征,包括:
对所述全频带上采样音频数据进行短时傅里叶变换,生成全频带短时傅里叶矩阵特征;
对所述全频带短时傅里叶矩阵特征中每一元素取模,并取对数,获取所述初始谱对数特征,其中,所述初始谱对数特征中的元素为频点数。
10.根据权利要求9所述的训练方法,其特征在于,所述截取所述频谱对数特征中对应小于第一频率阈值的特征作为低频带频谱对数特征,包括:
依据第一频率阈值对应的频点数,对所述全频带频谱对数特征进行切分,生成所述低频带频谱对数特征。
11.一种高解析音频生成方法,其特征在于,包括如下步骤:
提取上采样音频数据的短时傅里叶模对数矩阵特征和相位矩阵特征;
截取所述短时傅里叶模对数矩阵特征中对应小于第一阈值频率的特征作为低频带短时傅里叶模对数矩阵特征;
将所述低频带短时傅里叶模对数矩阵特征输入到预先训练的生成器网络模型中,获取全频带模矩阵特征;
根据所述全频带模矩阵特征和所述相位矩阵特征,生成全频带短时傅里叶矩阵特征;
对所述全频带短时傅里叶矩阵特征做逆短时傅里叶变换,生成高解析音频数据。
12.根据权利要求11所述的高解析音频生成方法,其特征在于,所述预先训练的生成器网络模型采用权利要求1~10中任一训练方法所生成的高解析音频生成模型。
13.根据权利要求11或12所述的高解析音频生成方法,其特征在于,所述提取上采样音频数据的短时傅里叶模对数矩阵特征,包括:
提取所述上采样音频数据的初始模对数矩阵特征;
计算所述初始模对数矩阵特征的方差和均值;
利用所述方差、均值对所述初始模对数矩阵特征进行标准化处理,生成所述短时傅里叶模对数矩阵特征。
14.根据权利要求13所述的高解析音频生成方法,其特征在于,所述根据所述全频带模矩阵特征和所述相位矩阵特征,生成全频带短时傅里叶矩阵特征,包括:
根据所述方差、均值对所述全频带模矩阵特征做逆标准化处理;
根据逆标准化处理后的全频带模矩阵特征和所述相位矩阵特征,生成全频带短时傅里叶矩阵特征。
15.根据权利要求11或12所述的高解析音频生成方法,其特征在于,所述提取上采样音频数据的短时傅里叶模对数矩阵特征和相位矩阵特征,包括:
对上采样音频数据进行短时傅里叶变换,生成短时傅里叶矩阵特征;
对所述短时傅里叶矩阵特征中每一元素取模,并取对数,获取所述短时傅里叶模对数矩阵特征,其中,所述短时傅里叶模对数矩阵特征中的元素为频点数;
对所述短时傅里叶模对数矩阵特征中的每一元素求均值方差,生成所述相位矩阵特征。
16.根据权利要求11或12所述的高解析音频生成方法,其特征在于,所述生成全频带短时傅里叶矩阵特征,包括:
根据欧拉公式将所述全频带模矩阵特征和所述相位矩阵特征转换为全频带短时傅里叶矩阵特征。
17.一种音效切换方法,运行于客户端,其特征在于,包括如下步骤:
响应于用户对目标音频数据的音效切换操作,将所述目标音频数据作为初始音效音频数据,执行权利要求11~16中的任一高解析音频生成方法,生成高解析音频数据;
播放所述高解析音频数据。
18.根据权利要求17所述的音效切换方法,其特征在于,所述预先训练的生成器网络模型部署在所述客户端上。
19.一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-18中任一所述的方法。
20.一种电子设备,其特征在于,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时执行权利要求1-18中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111293914.8A CN114063965A (zh) | 2021-11-03 | 2021-11-03 | 高解析音频生成方法、电子设备及其训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111293914.8A CN114063965A (zh) | 2021-11-03 | 2021-11-03 | 高解析音频生成方法、电子设备及其训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114063965A true CN114063965A (zh) | 2022-02-18 |
Family
ID=80273668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111293914.8A Pending CN114063965A (zh) | 2021-11-03 | 2021-11-03 | 高解析音频生成方法、电子设备及其训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114063965A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117935826A (zh) * | 2024-03-22 | 2024-04-26 | 深圳市东微智能科技股份有限公司 | 音频升采样方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170330586A1 (en) * | 2016-05-10 | 2017-11-16 | Google Inc. | Frequency based audio analysis using neural networks |
CN111461976A (zh) * | 2020-03-19 | 2020-07-28 | 南京理工大学 | 基于高效轻量级坐标神经网络的图像超分辨率方法 |
CN111508508A (zh) * | 2020-04-15 | 2020-08-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种超分辨率音频生成方法及设备 |
-
2021
- 2021-11-03 CN CN202111293914.8A patent/CN114063965A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170330586A1 (en) * | 2016-05-10 | 2017-11-16 | Google Inc. | Frequency based audio analysis using neural networks |
CN111461976A (zh) * | 2020-03-19 | 2020-07-28 | 南京理工大学 | 基于高效轻量级坐标神经网络的图像超分辨率方法 |
CN111508508A (zh) * | 2020-04-15 | 2020-08-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种超分辨率音频生成方法及设备 |
Non-Patent Citations (1)
Title |
---|
朱频频主编: "《智能客户服务技术与应用》", 31 January 2019, 北京:中国铁道出版社, pages: 122 - 124 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117935826A (zh) * | 2024-03-22 | 2024-04-26 | 深圳市东微智能科技股份有限公司 | 音频升采样方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210089967A1 (en) | Data training in multi-sensor setups | |
CN110085244B (zh) | 直播互动方法、装置、电子设备及可读存储介质 | |
Kronlachner et al. | Spatial transformations for the enhancement of Ambisonic recordings | |
WO2020064990A1 (en) | Committed information rate variational autoencoders | |
US6369822B1 (en) | Audio-driven visual representations | |
CN110797038B (zh) | 音频处理方法、装置、计算机设备及存储介质 | |
WO2020131645A1 (en) | Method and apparatus for providing a rendering engine model comprising a description of a neural network embedded in a media item | |
US9431987B2 (en) | Sound synthesis with fixed partition size convolution of audio signals | |
WO2022179264A1 (zh) | 一种音频生成方法及设备 | |
CN111737516A (zh) | 一种互动音乐生成方法、装置、智能音箱及存储介质 | |
CN114747232A (zh) | 音频场景变化信令 | |
CN111369475B (zh) | 用于处理视频的方法和装置 | |
WO2019127940A1 (zh) | 视频分类模型训练方法、装置、存储介质及电子设备 | |
CN114063965A (zh) | 高解析音频生成方法、电子设备及其训练方法 | |
CN114155852A (zh) | 语音处理方法、装置、电子设备及存储介质 | |
CN112599147B (zh) | 音频降噪传输方法、装置、电子设备和计算机可读介质 | |
CN113923378A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN117496990A (zh) | 语音去噪方法、装置、计算机设备及存储介质 | |
CN117079623A (zh) | 音频降噪模型训练方法、歌唱作品处理方法、设备和介质 | |
CN113707163B (zh) | 语音处理方法及其装置和模型训练方法及其装置 | |
CN110097618A (zh) | 一种音乐动画的控制方法、装置、车辆及存储介质 | |
US20140140519A1 (en) | Sound processing device, sound processing method, and program | |
CN113921032A (zh) | 音频处理模型的训练方法及装置、音频处理方法及装置 | |
CN115762546A (zh) | 音频数据处理方法、装置、设备以及介质 | |
CN114419661A (zh) | 直播间的人手运动捕捉方法、装置、介质以及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |