CN118155592A - 基于深度学习的伴奏提取方法、系统、存储介质及设备 - Google Patents
基于深度学习的伴奏提取方法、系统、存储介质及设备 Download PDFInfo
- Publication number
- CN118155592A CN118155592A CN202410314883.7A CN202410314883A CN118155592A CN 118155592 A CN118155592 A CN 118155592A CN 202410314883 A CN202410314883 A CN 202410314883A CN 118155592 A CN118155592 A CN 118155592A
- Authority
- CN
- China
- Prior art keywords
- accompaniment
- signal
- mdft
- training
- music signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 51
- 238000013135 deep learning Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 78
- 238000001228 spectrum Methods 0.000 claims abstract description 75
- 230000003595 spectral effect Effects 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000008569 process Effects 0.000 claims abstract description 31
- 238000007667 floating Methods 0.000 claims abstract description 26
- 238000003062 neural network model Methods 0.000 claims abstract description 21
- 230000009466 transformation Effects 0.000 claims abstract description 13
- 238000009432 framing Methods 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 5
- 238000007493 shaping process Methods 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 7
- 239000000284 extract Substances 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Abstract
本申请公开了一种基于深度学习的伴奏提取方法、系统、存储介质及设备,属于短距离无线通信技术领域,该方法包括在无线发射端对歌曲PCM信号进行分帧,并按帧执行加窗,得到加窗信号;使用改进型离散余弦变换对加窗信号进行时频变换,得到MDCT谱系数;对加窗信号进行特征提取,得到加窗信号对应的MDFT幅度谱;将MDFT幅度谱输入预训练神经网络模型中,得到浮值掩膜;将MDCT谱系数与浮值掩膜进行点乘,得到伴奏信号的谱系数;根据伴奏信号的谱系数,继续执行编码过程,输出伴奏信号的压缩码流;在无线接收端对伴奏信号的压缩码流进行解码,得到伴奏音乐。本申请通过深度学习与音频编码相结合,在音频编码过程中提取伴奏,能够提高伴奏音乐音质,降低系统时延。
Description
技术领域
本申请属于短距离无线通信技术领域,特别是涉及一种基于深度学习的伴奏提取方法、系统、存储介质及设备。
背景技术
在短距离无线通信领域,为了给消费者提供更好的高清音频体验,由中国电子音响行业协会(CAIA)和中国电子技术标准化研究院联合国内近四十家单位制定的L2HC标准,是全球首个统一架构、全码率无线音频编解码标准,在传输速率、抗干扰、兼容性等多个方面全球领先。L2HC将音频传输码率扩展至64k~1920kbps,支持96kHz/24bit高清音频传输。
无线K歌已成为一种流行的娱乐方式,是短距离无线通信的一个典型应用。现有技术中,获取无线K歌的伴奏的一种方法是,在发射端(譬如手机、平板等设备)的K歌软件库里面搜索相应的伴奏音乐并通过无线通信发送到接收端麦克风。
由于历史原因,部分歌曲没有独立的伴奏音乐。对于这部分歌曲,现有技术获取伴奏的方法有两种:一种是传统的方法,使用左右声道相减或使用主成分分析(PCA),前者音效一般后者复杂度太高且音质也有局限;二是基于深度学习的方法,其中,基于频域幅度谱特征的方法复杂度较低,可以部署在嵌入式系统中,但其重建的信号是基于原始信号的相位,因此限制了音质,而基于端到端的时域方法音质较好,但神经网络结构十分复杂且每次处理的音频长度过长,既不能在嵌入式系统部署,也无法满足实时应用的要求。
发明内容
针对现有技术中存在的上述技术问题,本申请提供了一种基于深度学习的伴奏提取方法、系统、存储介质及设备,通过采用深度学习与音频编码相结合的方法,使用既兼顾幅度又兼顾相位的MDFT特征提取歌曲中的伴奏音乐,能够提高伴奏音乐的音质,并降低系统时延。
为了实现上述目的,本申请采用的第一个技术方案是:提供一种基于深度学习的伴奏提取方法,包括:在无线发射端,对歌曲PCM信号进行分帧,并按帧执行加窗,得到加窗信号;使用改进型离散余弦变换对加窗信号进行时频变换,得到MDCT谱系数;对加窗信号进行特征提取,得到加窗信号对应的MDFT幅度谱;将MDFT幅度谱输入预训练神经网络模型中,得到浮值掩膜;将MDCT谱系数与浮值掩膜进行点乘,得到伴奏信号的谱系数;根据伴奏信号的谱系数,继续执行编码过程,输出伴奏信号的压缩码流;以及在无线接收端,对伴奏信号的压缩码流进行解码,得到伴奏音乐。
本申请采用的第二个技术方案是:提供一种基于深度学习的伴奏提取系统,包括:用于在无线发射端,对歌曲PCM信号进行分帧,并按帧执行加窗,得到加窗信号的模块;用于使用改进型离散余弦变换对加窗信号进行时频变换,得到MDCT谱系数的模块;用于对加窗信号进行特征提取,得到加窗信号对应的MDFT幅度谱的模块;用于将MDFT幅度谱输入预训练神经网络模型中,得到浮值掩膜的模块;用于将MDCT谱系数与浮值掩膜进行点乘,得到伴奏信号的谱系数的模块;用于根据伴奏信号的谱系数,继续执行编码过程,输出伴奏信号的压缩码流的模块;以及用于在无线接收端,对伴奏信号的压缩码流进行解码,得到伴奏音乐的模块。
本申请采用的第三个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行方案一中的基于深度学习的伴奏提取方法。
本申请采用的第四个技术方案是:提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中处理器操作计算机指令以执行方案一中的基于深度学习的伴奏提取方法。
本申请技术方案可以达到的有益效果是:本申请的技术方案可以应用于短距离无线K歌,通过采用深度学习与音频编码相结合的方法,在音频编码的同时,使用既兼顾幅度又兼顾相位的MDFT特征提取歌曲中的伴奏音乐,能够提高伴奏音乐的音质,并降低系统时延。
附图说明
图1是本申请基于深度学习的伴奏提取方法的一个具体实施方式的流程示意图;
图2是本申请预训练神经网络模型的离线训练及在线推理的一个具体实例的示意图;
图3是本申请在编码过程中提取伴奏并将伴奏编码为码流的一个具体实例的示意图;
图4是本申请基于深度学习的伴奏提取系统的一个具体实施方式的示意图。
具体实施方式
下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
深度学习在语音降噪中已得到广泛应用,其思想也可以用于伴奏音乐的提取。在语音降噪中其数学模型如下,将带噪语音抽象为纯净语音和噪声的和。降噪的目标就是将噪声从带噪语音中去除。
xnoisy=xvoice+xnoise
歌曲也可以抽象为类似的模型,将其视为纯净人声和音乐的和。伴奏提取的目标就是将人声从歌曲中去除。
xmix=xvoice+xmusic
本申请的控制流程(以无线麦克风应用场景为例)如下:
1、无线发射端输入音频(歌曲):包含人声和伴奏音乐的混合;
2、对音频进行编码,在编码过程中提取伴奏,并将伴奏音乐编码为码流;
3、将编码后的伴奏码流发送到无线接收端;
4、无线接收端解码得到伴奏音乐,并与麦克风输入的人声混音输出。
图1是本申请基于深度学习的伴奏提取方法的一个具体实施方式的流程示意图。
在图1所示的一个具体实施方式中,本申请的基于深度学习的伴奏提取方法包括过程S101,在无线发射端,对歌曲PCM信号进行分帧,并按帧执行加窗,得到加窗信号。
在本申请的一个具体实施例中,歌曲PCM信号包括纯净人声信号和伴奏音乐信号。
在本申请的一个具体实例中,以采样率48kHz,帧长5ms的配置为例,则每帧包含240个采样点。
在图1所示的一个具体实施方式中,本申请的基于深度学习的伴奏提取方法包括过程S102,使用改进型离散余弦变换对加窗信号进行时频变换,得到MDCT谱系数。
在该具体实施方式中,使用改进型离散余弦变换对加窗信号进行时频变换,输出MDCT谱系数,记为Xmdct(k)。
在图1所示的一个具体实施方式中,本申请的基于深度学习的伴奏提取方法包括过程S103,对加窗信号进行特征提取,得到加窗信号对应的MDFT幅度谱。
在本申请的一个具体实施例中,对加窗信号进行特征提取,得到加窗信号对应的MDFT幅度谱,包括:对加窗信号执行改进型离散正弦变换,得到MDST谱系数;根据MDCT谱系数和MDST谱系数,得到MDFT幅度谱。
在该具体实施例中,对加窗信号执行改进型离散正弦变换,得到MDST谱系数,记为Xmdst(k),然后根据公式:Xmdft(k)=Xmdct(k)+jXmdst(k),得到改进型离散傅里叶变换MDFT谱系数,记为Xmdft(k),然后得到MDFT幅度谱,记为|Xmdf(k)|。
在图1所示的一个具体实施方式中,本申请的基于深度学习的伴奏提取方法包括过程S104,将MDFT幅度谱输入预训练神经网络模型中,得到浮值掩膜。
在该具体实施方式中,将MDFT幅度谱|Xmdft(k)|输入预训练的神经网络模型中,预训练神经网络模型输出浮值掩膜,记为RMnn,mdft(k)。其中,RM为Ratio Mask的简写,代表浮值掩膜,nn为neural network的简写,代表此浮值掩膜是神经网络输出的。
在本申请的一个具体实施例中,预训练神经网络模型的训练过程,包括:获取训练用伴奏音乐信号和训练用混合音乐信号;分别对训练用伴奏音乐信号和训练用混合音乐信号进行特征提取,得到伴奏音乐信号MDFT幅度谱和混合音乐信号MDFT幅度谱;将伴奏音乐信号MDFT幅度谱和混合音乐信号MDFT幅度谱输入神经网络中进行训练,输出估计的浮值掩膜;根据伴奏音乐信号MDFT幅度谱和混合音乐信号MDFT幅度谱,得到理想浮值掩膜;根据估计的浮值掩膜和理想浮值掩膜,计算神经网络的损失;以及当损失达到预设范围时,停止训练,得到预训练神经网络模型。
具体的,首先,获取训练用伴奏音乐信号和训练用混合音乐信号。
在本申请的一个具体实施例中,获取训练用伴奏音乐信号和训练用混合音乐信号,包括:获取训练用纯净人声信号;将训练用伴奏音乐信号与训练用纯净人声信号按帧相加,得到训练用混合音乐信号。
在本申请的一个具体实例中,训练用伴奏音乐信号为xmusic(m),训练用纯净人声信号为xvoice(m),将训练用伴奏音乐信号和训练用纯净人声信号按帧相加,得到训练用混合音乐信号xmix(m)。即:
xmix(m)=xmusic(m)+xvoice(m),m=0,1,...,NF-1
其中,NF是每帧采样点的数量。
然后,对训练用伴奏音乐信号和训练用混合音乐信号进行特征提取,得到伴奏音乐信号MDFT幅度谱和混合音乐信号MDFT幅度谱。具体的:
(1)使用改进型离散余弦变换MDCT和改进型离散正弦变换MDST计算谱系数t(n)=xmusic(Z-NF+n),for n=0...2·NF-1-Z
t(2NF-Z+n)=0,for n=0...Z-1
for k=0...NF-1
其中,xmusic(n)是训练用伴奏音乐信号,w(n)是分析窗,Xmdct(k)是训练用伴奏音乐信号对应的MDCT谱系数,Xmdst(k)是训练用伴奏音乐信号对应的MDST谱系数。
同样的方法,可以计算得到训练用混合音乐信号xmix对应的谱系数,分别记为Ymdct(k)和Ymdst(k)。
(2)构建MDFT信号及MDFT幅度谱
分别构建训练用伴奏音乐信号和训练用混合音乐信号对应的MDFT信号:
Xmdft(k)=Xmdct(k)+jXmdst(k)
Ymdft(k)=Ymdct(k)+jYmdst(k)
分别计算伴奏音乐信号MDFT幅度谱和混合音乐信号MDFT幅度谱:
在现有技术中,在基于深度学习的语音降噪中,为了降低复杂度,通常基于FFT并以幅度谱为主要学习目标(忽略相位的影响),在重建信号时以降噪前的信号相位代替实际的相位,这导致信号的音质受到影响,为了兼顾相位,近年来,也有以复数谱为学习目标,可以兼顾幅度和相位,取得了较好的音质,其缺点是特征数量增加了一倍,导致复杂度上升。上述构建的MDFT信号,既有实部也有虚部,以MDFT域的浮值掩膜为学习目标,不仅能同时兼顾幅度和相位,而且特征数量与FFT的实数谱和复数谱相比都大大减少。
然后,将伴奏音乐信号MDFT幅度谱和混合音乐信号MDFT幅度谱输入神经网络中进行训练,输出估计的浮值掩膜,具体的:
首先,根据伴奏音乐信号MDFT幅度谱和混合音乐信号MDFT幅度谱,得到理想浮值掩膜。
在本申请的一个具体实施例中,根据伴奏音乐信号MDFT幅度谱和混合音乐信号MDFT幅度谱,得到理想浮值掩膜,包括:分别根据伴奏音乐信号MDFT幅度谱和混合音乐信号MDFT幅度谱,得到伴奏音乐信号的子带能量和混合音乐信号的子带能量;根据伴奏音乐信号的子带能量和混合音乐信号的子带能量,得到理想浮值掩膜。
具体的,(1)计算伴奏音乐信号的子带能量和混合音乐信号的子带能量。
为了降低神经网络的复杂度,伴奏的提取基于子带进行,以48kHz/5ms配置为例,如果基于谱系数(Frequency bin),则此配置共有240个,而基于子带可以划分为32个子带,较大的降低特征的数量,从而降低神经网络的复杂度。
在本申请的一个具体实例中,以5ms配置时,共有240个谱系数,根据码率的高低划分子带,以高码率为例划分方式为:0,2,4,6,8,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,52,56,60,64,68,74,80,240。
在本申请的一个具体实例中,以10ms配置时,共有480个谱系数,同样以高码率为例,一种划分方式为:0,1,2,3,4,5,6,7,8,10,12,14,16,19,22,26,30,35,40,45,50,57,64,73,82,92,102,112,124,136,148,160,480。
然后,分别计算伴奏音乐信号的子带能量和混合音乐信号的子带能量,如下:
Energymusic(b)=∑k|Xmdft(k)|2
Energymix(b)=∑k|Ymdft(k)|2
(2)计算理想浮值掩膜,理想浮值掩膜为训练神经网络时的学习目标。
本申请对神经网络的选择不做限制,考虑到语音帧的前后相关特性,优先选取循环神经网络(Recurrent Neural Network,RNN)进行训练。
本申请在训练神经网络过程中,神经网络的输入为上述信号的MDFT幅度谱,输出为估计的浮值掩膜RMnn,mdft(k)。在进行反向传播时,使用如下损失函数计算损失:
当损失水平达到预设范围时,冻结神经网络,得到预训练神经网络模型和参数。
在图1所示的一个具体实施方式中,本申请的基于深度学习的伴奏提取方法包括过程S105,将MDCT谱系数与浮值掩膜进行点乘,得到伴奏信号的谱系数。
在该具体实施方式中,(1)如果期望提取伴奏音乐,则:
Xmdct,music(k)=Xmdct(k)·RMnn,mdft(k)
(2)本申请以提取伴奏音乐为目的,但也可以提取人声:
Xmdct,voice(k)=Xmdc(k)·(1-RMnn,mdft(k))
虽然本申请输入的特征也为幅度谱,但本申请的神经网络在训练时,以MDFT幅度谱计算的理想浮值掩膜为目标,MDFT幅度谱既包括幅度,又包括相位,能够避免现有技术中使用分离前的相位来进行合成的不足。
在图1所示的一个具体实施方式中,本申请的基于深度学习的伴奏提取方法包括过程S106,根据伴奏信号的谱系数,继续执行编码过程,输出伴奏信号的压缩码流。
在本申请的一个具体实施例中,继续执行编码过程,包括:执行信号自适应分析、子带包络获取与编码、频域噪声整形参数获取、MDCT系数量化、熵编码、残余编码和位流复用的过程。
图2是本申请预训练神经网络模型的离线训练及在线推理的一个具体实例的示意图。
如图2所示的虚线以上部分为预训练神经网络模型的离线训练过程,通常在PC或服务器上基于大量的伴奏音乐和纯净人声训练神经网络,首先将伴奏音乐与纯净人声按帧相加,得到混合音乐,然后基于伴奏音乐和混合音乐进行特征提取,使用提取的特征训练神经网络,从而得到预训练神经网络模型和参数,然后再进行量化以部署到嵌入式平台上。如图2所示的虚线以下部分为预训练神经网络模型的在线推理过程,通常应用在算力和存储资源有限的嵌入式设备,例如,具有无线收发功能的设备(手机、电脑、平板、基于蓝牙或WIFI的发射器及收发一体设备等)。首先按帧输入歌曲信号,并对歌曲信号进行特征提取,将提取的特征输入预训练神经网络模型中,输出浮值掩膜,对谱系数应用浮值掩膜,得到伴奏信号的谱系数,然后再继续执行其余编码模块,从而得到伴奏的压缩码流,将压缩码流通过无线发射器发射出去,在无线接收器解码得到伴奏音乐,可与本地输入的人声混音输出。
图3是本申请在编码过程中提取伴奏并将伴奏编码为码流的一个具体实例的示意图。
如图3所示,在对歌曲PCM信号编码过程中,首先对歌曲PCM信号执行时频变换,然后进行特征提取,并将提取的特征输入到神经网络中,从而生成伴奏信号的谱系数,然后根据伴奏信号的谱系数,继续执行其余编码过程:信号自适应分析、子带包络获取与编码、频域噪声整形参数获取、MDCT系数量化、熵编码、残余编码和位流复用,最后输出伴奏信号的压缩码流。通过采用深度学习与音频编码的结合的方法,利用现有的时频变换和重叠相加,避免了增加算法延时;以MDFT特征输入神经网络,从而在音频编码的同时提取伴奏音乐,能够达到提高伴奏音质效果。
在图1所示的一个具体实施方式中,本申请的基于深度学习的伴奏提取方法包括过程S107,在无线接收端,对伴奏信号的压缩码流进行解码,得到伴奏音乐。
在本申请的一个具体实例中,无线发射端将伴奏信号的压缩码流通过短距离无线方式传输给无线接收端,当无线接收端接收到伴奏信号的压缩码流后,进行解码,即可得到伴奏音乐。
在本申请的一个具体实例中,以无线麦克风的应用场景为例,则当在无线接收端解码得到伴奏音乐后,可以将伴奏音乐与从麦克风输入的人声进行混音输出。
在本申请的基于深度学习的伴奏提取方法中,通过采用深度学习与音频编码相结合的方法,在音频编码的同时,使用既兼顾幅度又兼顾相位的MDFT特征提取歌曲中的伴奏音乐,能够提高伴奏音乐的音质,并降低系统时延。
图4是本申请基于深度学习的伴奏提取系统的一个具体实施方式的示意图。
在图4所示的一个具体实施方式中,本申请的基于深度学习的伴奏提取系统包括:用于在无线发射端,对歌曲PCM信号进行分帧,并按帧执行加窗,得到加窗信号的模块401;用于使用改进型离散余弦变换对加窗信号进行时频变换,得到MDCT谱系数的模块402;用于对加窗信号进行特征提取,得到加窗信号对应的MDFT幅度谱的模块403;用于将MDFT幅度谱输入预训练神经网络模型中,得到浮值掩膜的模块404;用于将MDCT谱系数与浮值掩膜进行点乘,得到伴奏信号的谱系数的模块405;用于根据伴奏信号的谱系数,继续执行编码过程,输出伴奏信号的压缩码流的模块406;以及用于在无线接收端,对伴奏信号的压缩码流进行解码,得到伴奏音乐的模块407。
在本申请的一个具体实施例中,歌曲PCM信号包括纯净人声信号和伴奏音乐信号。
在本申请的一个具体实施例中,对加窗信号进行特征提取,得到加窗信号对应的MDFT幅度谱,包括:对加窗信号执行改进型离散正弦变换,得到MDST谱系数;根据MDCT谱系数和MDST谱系数,得到MDFT幅度谱。
在本申请的一个具体实施例中,预训练神经网络模型的训练过程,包括:获取训练用伴奏音乐信号和训练用混合音乐信号;分别对训练用伴奏音乐信号和训练用混合音乐信号进行特征提取,得到伴奏音乐信号MDFT幅度谱和混合音乐信号MDFT幅度谱;将伴奏音乐信号MDFT幅度谱和混合音乐信号MDFT幅度谱输入神经网络中进行训练,输出估计的浮值掩膜;根据伴奏音乐信号MDFT幅度谱和混合音乐信号MDFT幅度谱,得到理想浮值掩膜;根据估计的浮值掩膜和理想浮值掩膜,计算神经网络的损失;以及当损失达到预设范围时,停止训练,得到预训练神经网络模型。
在本申请的一个具体实施例中,获取训练用伴奏音乐信号和训练用混合音乐信号,包括:获取训练用纯净人声信号;将训练用伴奏音乐信号与训练用纯净人声信号按帧相加,得到训练用混合音乐信号。
在本申请的一个具体实施例中,根据伴奏音乐信号MDFT幅度谱和混合音乐信号MDFT幅度谱,得到理想浮值掩膜,包括:分别根据伴奏音乐信号MDFT幅度谱和混合音乐信号MDFT幅度谱,得到伴奏音乐信号的子带能量和混合音乐信号的子带能量;根据伴奏音乐信号的子带能量和混合音乐信号的子带能量,得到理想浮值掩膜。
在本申请的一个具体实施例中,继续执行编码过程,包括:执行信号自适应分析、子带包络获取与编码、频域噪声整形参数获取、MDCT系数量化、熵编码、残余编码和位流复用的过程。
在本申请的基于深度学习的伴奏提取系统中,通过采用深度学习与音频编码相结合的方法,在音频编码的同时,使用既兼顾幅度又兼顾相位的MDFT特征提取歌曲中的伴奏音乐,能够提高伴奏音乐的音质,并降低系统时延。
在本申请的一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,计算机指令被操作以执行任一实施例描述的基于深度学习的伴奏提取方法。其中,该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中,处理器操作计算机指令以执行任一实施例描述的基于深度学习的伴奏提取方法。
在本申请所提供的实施方式中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于深度学习的伴奏提取方法,其特征在于,包括:
在无线发射端,对歌曲PCM信号进行分帧,并按帧执行加窗,得到加窗信号;
使用改进型离散余弦变换对所述加窗信号进行时频变换,得到MDCT谱系数;
对所述加窗信号进行特征提取,得到所述加窗信号对应的MDFT幅度谱;
将所述MDFT幅度谱输入预训练神经网络模型中,得到浮值掩膜;
将所述MDCT谱系数与所述浮值掩膜进行点乘,得到伴奏信号的谱系数;
根据所述伴奏信号的谱系数,继续执行编码过程,输出伴奏信号的压缩码流;以及
在无线接收端,对所述伴奏信号的压缩码流进行解码,得到伴奏音乐。
2.如权利要求1所述的基于深度学习的伴奏提取方法,其特征在于,对所述加窗信号进行特征提取,得到所述加窗信号对应的MDFT幅度谱,包括:
对所述加窗信号执行改进型离散正弦变换,得到MDST谱系数;
根据所述MDCT谱系数和所述MDST谱系数,得到所述MDFT幅度谱。
3.如权利要求1所述的基于深度学习的伴奏提取方法,其特征在于,所述预训练神经网络模型的训练过程,包括:
获取训练用伴奏音乐信号和训练用混合音乐信号;
分别对所述训练用伴奏音乐信号和所述训练用混合音乐信号进行特征提取,得到伴奏音乐信号MDFT幅度谱和混合音乐信号MDFT幅度谱;
将所述伴奏音乐信号MDFT幅度谱和所述混合音乐信号MDFT幅度谱输入神经网络中进行训练,输出估计的浮值掩膜;
根据所述伴奏音乐信号MDFT幅度谱和所述混合音乐信号MDFT幅度谱,得到理想浮值掩膜;
根据所述估计的浮值掩膜和所述理想浮值掩膜,计算所述神经网络的损失;以及
当所述损失达到预设范围时,停止训练,得到所述预训练神经网络模型。
4.如权利要求3所述的基于深度学习的伴奏提取方法,其特征在于,所述获取训练用伴奏音乐信号和训练用混合音乐信号,包括:
获取训练用纯净人声信号;
将所述训练用伴奏音乐信号与所述训练用纯净人声信号按帧相加,得到所述训练用混合音乐信号。
5.如权利要求3所述的基于深度学习的伴奏提取方法,其特征在于,所述根据所述伴奏音乐信号MDFT幅度谱和所述混合音乐信号MDFT幅度谱,得到理想浮值掩膜,包括:
分别根据所述伴奏音乐信号MDFT幅度谱和所述混合音乐信号MDFT幅度谱,得到伴奏音乐信号的子带能量和混合音乐信号的子带能量;
根据所述伴奏音乐信号的子带能量和所述混合音乐信号的子带能量,得到所述理想浮值掩膜。
6.如权利要求1所述的基于深度学习的伴奏提取方法,其特征在于,所述歌曲PCM信号包括纯净人声信号和伴奏音乐信号。
7.如权利要求1所述的基于深度学习的伴奏提取方法,其特征在于,所述继续执行编码过程,包括:
执行信号自适应分析、子带包络获取与编码、频域噪声整形参数获取、MDCT系数量化、熵编码、残余编码和位流复用的过程。
8.一种基于深度学习的伴奏提取系统,其特征在于,包括:
用于在无线发射端,对歌曲PCM信号进行分帧,并按帧执行加窗,得到加窗信号的模块;
用于使用改进型离散余弦变换对所述加窗信号进行时频变换,得到MDCT谱系数的模块;
用于对所述加窗信号进行特征提取,得到所述加窗信号对应的MDFT幅度谱的模块;
用于将所述MDFT幅度谱输入预训练神经网络模型中,得到浮值掩膜的模块;
用于将所述MDCT谱系数与所述浮值掩膜进行点乘,得到伴奏信号的谱系数的模块;
用于根据所述伴奏信号的谱系数,继续执行编码过程,输出伴奏信号的压缩码流的模块;以及
用于在无线接收端,对所述伴奏信号的压缩码流进行解码,得到伴奏音乐的模块。
9.一种计算机可读存储介质,其存储有计算机指令,其中所述计算机指令被操作以执行权利要求1-7任一项所述的基于深度学习的伴奏提取方法。
10.一种计算机设备,其包括处理器和存储器,所述存储器存储有计算机指令,其中所述处理器操作所述计算机指令以执行权利要求1-7任一项所述的基于深度学习的伴奏提取方法。
Publications (1)
Publication Number | Publication Date |
---|---|
CN118155592A true CN118155592A (zh) | 2024-06-07 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103534754B (zh) | 在不活动阶段期间利用噪声合成的音频编解码器 | |
CN101183527B (zh) | 用于对高频信号进行编码和解码的方法和设备 | |
JP5302980B2 (ja) | 複数の入力データストリームのミキシングのための装置 | |
TWI618049B (zh) | 高階保真立體音響訊號表象之壓縮方法和裝置以及解壓縮方法和裝置 | |
US8634577B2 (en) | Audio decoder | |
WO2021258940A1 (zh) | 音频编解码方法、装置、介质及电子设备 | |
EP3992964B1 (en) | Voice signal processing method and apparatus, and electronic device and storage medium | |
CN103187065B (zh) | 音频数据的处理方法、装置和系统 | |
CN107610710B (zh) | 一种面向多音频对象的音频编码及解码方法 | |
WO2023197809A1 (zh) | 一种高频音频信号的编解码方法和相关装置 | |
Wu et al. | Audiodec: An open-source streaming high-fidelity neural audio codec | |
CN102522092A (zh) | 一种基于g.711.1的语音带宽扩展的装置和方法 | |
EP1672619A2 (en) | Speech coding apparatus and method therefor | |
CN101960514A (zh) | 信号分析控制系统及其方法、信号控制装置及其方法和程序 | |
CN115966218A (zh) | 一种骨导辅助的气导语音处理方法、装置、介质及设备 | |
CN118155592A (zh) | 基于深度学习的伴奏提取方法、系统、存储介质及设备 | |
CN112995425B (zh) | 一种等响度混音方法及装置 | |
CN113314132A (zh) | 一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置 | |
Zheng et al. | Bandwidth extension WaveNet for bone-conducted speech enhancement | |
CN117594057A (zh) | 一种伴奏与人声分离方法、系统、编码器、介质及设备 | |
Fourer et al. | Informed spectral analysis: audio signal parameter estimation using side information | |
CN114863942B (zh) | 音质转换的模型训练方法、提升语音音质的方法及装置 | |
CN116110424A (zh) | 一种语音带宽扩展方法及相关装置 | |
CN115527545A (zh) | 一种音频带宽扩展方法、装置、编码方法及介质 | |
CN115346549A (zh) | 一种基于深度学习的音频带宽扩展方法、系统及编码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication |