CN111261186A - 基于改进自注意力机制与跨频带特征的音频音源分离方法 - Google Patents
基于改进自注意力机制与跨频带特征的音频音源分离方法 Download PDFInfo
- Publication number
- CN111261186A CN111261186A CN202010048185.9A CN202010048185A CN111261186A CN 111261186 A CN111261186 A CN 111261186A CN 202010048185 A CN202010048185 A CN 202010048185A CN 111261186 A CN111261186 A CN 111261186A
- Authority
- CN
- China
- Prior art keywords
- time
- band
- neural network
- frequency
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 34
- 230000007246 mechanism Effects 0.000 title claims abstract description 14
- 238000001228 spectrum Methods 0.000 claims abstract description 73
- 238000013528 artificial neural network Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000005236 sound signal Effects 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 19
- 230000001537 neural effect Effects 0.000 claims description 15
- 238000000638 solvent extraction Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000013136 deep learning model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种基于改进自注意力机制与跨频带特征的音频音源分离方法,包括以下步骤:训练集数据准备,包括混合音频数据以及混合音频数据中待分离的目标音源音频数据;将音频数据均转换为音频的时频谱,记为全频带时频谱;构建若干个满足跨频带特征约束的划分策略;基于每个划分策略分别对全频带时频谱的频带进行划分,获得该划分策略对应的若干子频带;基于每个划分策略构建深度神经网络;训练深度神经网络和最小方差滤波器;利用训练后的深度神经网络和最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号。本发明方法具有很好的性能和进度,泛化性好,更适用于音频音源分离任务,且分离出的目标音源音频质量更好。
Description
技术领域
本发明属于数字信号处理领域,特别涉及一种基于改进自注意力机制与跨频带特征的音频音源分离方法。
背景技术
音频音源分离可以被描述为:从现有的混合音频信号中分离出一个或者多个音源各自的音频信号。音频音源分离任务的主要难点在于,在实际应用场景中,处理系统所能够直接利用到的输入数据仅仅只有单独的混合音频信号;因此,对于音频音源分离任务而言,需要研究者设计并使用一种智能化的手段来完成该任务。
音频音源分离有着广泛的应用场景,对于语音识别而言,通过音频音源分离来将人声从复杂的背景噪声中分离,能够更加准确地进行人声内容的识别与提取,提高语音转录等任务的效率;对于音频强化而言,通过音频音源分离智能化地将目标音频信号从混合信号中分离,能够更好地辅助人们完成音频消噪、监听等工作;此外,在音乐编辑、创作工作中,音频音源分离能够在没有分轨音频数据的情况下,单独提取出某一轨乐器的音频数据,从而能够方便音乐制作人员对音频进行重混音或者乐谱转录等工作。综上所述,对于涉及到音频处理的相关领域而言,一个良好的、健壮的音源分离系统是必需且必备的工具。
国外早在上世纪50年代就提出了该问题并进行了长期的研究工作。为了解决这个问题,有许多相关方法被提出,这些方法大致分为监督式方法和非监督式方法。监督式方法主要是通过对模型进行训练以获得音源的相关信息,这些方法主要是基于贝叶斯估计、非负矩阵分解(Nonnegative Matrix Factorization,NMF)理论来设计的,而非监督式学习的方法则是让模型从混合音频信号中自行寻找数据特征,这类方法主要是基于稀疏向量理论来设计的。尽管经过数十年的研究和优化,这些方法对于解决音频音源分离问题的进程产生了巨大的推动作用,但是由于这些方法有的严重依赖于手工设计的先验知识,而有的又基于一些很强的假设来简化问题,因此长期以来并不能得到令人满意的效果,阻碍了相关应用在现实需求下的落地。
近年来,由于深度神经网络(Deep Neural Networks,DNN)在解决复杂问题方面展示了出很好的性能,人们也逐渐开始在音频音源分离任务中引入深度神经网络的模型来解决相关问题,相关方法主要分为基于卷积神经网络(Convolutional Neural Networks,CNN)的模型方法和基于循环神经网络(Recurrent Neural Networks,RNN)的模型方法。这些方法相对于传统方法而言,尽管在性能和泛化能力上都获得了长足的进步,但是仍然存在一些缺陷。例如基于卷积神经网络的模型方法受制于卷积的局部感受域特性,因此对长距离的相关依赖不敏感,容易在特征计算中丢失全局信息;而基于循环神经网络的模型方法受制于模型本身的天生的缺点,对于较长的时序数据会产生遗忘问题;两者的缺陷都限制了模型效果的进一步提升。
发明内容
本发明的目的在于提供一种具有泛化性好、分离出的目标音源音频质量更好等特点的音频音源分离方法。
实现本发明目的的技术解决方案为:一种基于改进自注意力机制与跨频带特征的音频音源分离方法,包括以下步骤:
步骤1,训练集数据准备,所述训练集数据包括混合音频数据以及混合音频数据中待分离的目标音源音频数据;
步骤2,将训练集中的音频数据均转换为音频的时频谱,记为全频带时频谱;
步骤3,构建若干个满足跨频带特征约束的划分策略;
步骤4,基于每个所述划分策略分别对全频带时频谱的频带进行划分,获得该划分策略对应的若干子频带;
步骤5,基于每个所述划分策略构建深度神经网络;
步骤6,训练所述深度神经网络;
步骤7,训练最小方差滤波器;
步骤8,利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号。
进一步地,步骤3中所述构建若干个满足跨频带特征约束的划分策略,具体包括:
假设全频带时频谱为S∈Rn×m,其中n为所述短时傅里叶变换操作中频率方向的采样数,m为时间方向的帧数,定义符号G表示对应于全频带时频谱S的频带离散区间;采用λ个划分策略,将S划分为复数个子频带时频谱,λ>0;所述跨频带特征的定义包括:
定义第l个划分策略对应的子频带时频谱集合Cl:
式中,Cl为一个有序集合,且以LEFT(Gli)升序排序,LEFT(x)表示区间x的左端点值,Gli为表示Cl集合中的第i个子频带区间元素,ml表示Cl集合中元素的个数;
定义频带边界集合Dl:
Dl={bli|bli=RIGHT(Fli),i=1,2...,ml-1}
式中,RIGHT(x)表示区间x的右端点值;
定义最小边界重叠大小z∈N,N表示自然数集合;
基于上述定义构建服从以下跨频带特征约束的划分策略:
有bpi∈Gqj
其中,1≤p≤λ,1≤i≤mp-1,q≠p,1≤q≤λ,1≤j≤mq,i′≠i,1≤i′≤mp-1。
进一步地,步骤5基于每个所述划分策略构建深度神经网络,具体包括:
(1)对于每一个划分策略,构建相应的卷积神经子网络为:
式中,NETl表示第l个划分策略对应的子卷积神经网络集合,表示第l个划分策略中的第i个子卷积神经网络,i=1,2,…,ml,c表示构建卷积神经网络所采用到的金字塔形式的下采样或上采样的次数,即尺度;其中,的结构定义为:
式中,Upsample(·)表示上采样层,Concat(·)表示连接操作,Qk(I)=Downsample(DenseBlockk1(I)),k=1,2...c,k表示第k个尺度,Downsample(·)表示下采样层,I表示子卷积神经网络的输入,Wk表示1x1卷积层,Attentionk(X)表示以平坦化特征图X为输入的改进的自注意力层,X={x1,x2,…,xN}∈RC×N,N=W×H,C、W、H分别表示在平坦化之前特征图X在不同维度上的尺寸大小,αk为一个可训练的标量,其初始值为0,DenseBlock(·)表示DenseNet中的Dense Block;
其中,
Attention(X)=Res(β1s+β2cT+X)∈RC×W×H
式中,Res(·)表示重塑操作,也即是维度变换操作,β1和β2均为可训练的标量变量,初始值为0,用于指示注意力特征的可信度;s表示空间注意力特征图,s∈RC×N={s1,s2,...,sN},c表示通道注意力特征图,c∈RN×C={c1,c2,...,cC},其中si、ci′分别为:
进一步地,步骤6训练所述深度神经网络,具体包括:
将步骤2获得的混合音频数据对应的时频谱作为深度神经网络的输入,将步骤2获得的待分离的目标音源音频数据对应的时频谱作为深度神经网络的输出目标,对深度神经网络进行训练。
进一步地,步骤7所述训练最小方差滤波器,具体包括:
步骤7-1,提取训练集中所述混合音频数据对应的时频谱中的相位信号;
步骤7-2,将每个划分策略对应的若干子频带作为该划分策略对应的卷积神经子网络的输入,并合并所有卷积神经子网络的输出特征:
式中,Os表示所有卷积神经子网络输出s特征的合并结果,Merge(·)表示特征融合操作,γt为可训练的标量,初始值为0,t=2...λ,γ1也为可训练的标量,其初始值为1,Ol为每一个卷积神经子网络的输出:
式中,Slr表示子频带区间Glr对应的子频带时频谱,Concatfrequency(·)表示在频率维度上进行特征连接;
步骤7-4,根据所述Os和Of获取跨频带特征O:
O=Concatchannel(Of,Os)
式中,Concatchannel(·)表示在通道维度上进行特征连接;
步骤7-5,利用Dense Block和卷积层将所述跨频带特征O转换为预测时频谱;
步骤7-6,通过短时傅里叶逆变换将所述预测时频谱转换为音频信号,在转换过程中时频谱的相位部分采用步骤7-1提取的相位信号;
步骤7-7,将步骤7-6获得的音频信号作为最小方差滤波器的输入,将训练集中待分离的目标音源音频数据作为期望信号,对最小方差滤波器进行训练。
进一步地,步骤8所述利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号,具体过程包括:
步骤8-1,通过短时傅里叶变换将待进行音源分离的混合音频转换为时频谱,并提取该时频谱中的相位信号;
步骤8-2,将步骤8-1获得的时频谱输入至步骤6训练后的深度神经网络,输出目标音源信号的时频谱;
步骤8-3,通过短时傅里叶逆变换将所述目标音源信号的时频谱转换为音频信号,转换过程中时频谱的相位部分采用步骤8-1提取的相位信号;
步骤8-4,将步骤8-3获得的音频信号输入至步骤7训练后的最小方差滤波器中,输出最终的目标音频信号。
本发明与现有技术相比,其显著优点为:1)采用深度学习模型进行目标音频音源信号的估计,相较于传统方法,只需要数据训练,无需引入假设以及借助辅助信息,具有更好的泛化性;2)采用一种带改进的自注意力机制的深度学习模型,使得用于音频音源分离的深度学习模型在特征计算中能够更好地计算全局信息;3)采用一种跨声带特征,使得用于音频音源分离的深度学习模型能够更好地计算频带划分过后频带附近的特征信息;4)综合了改进的自注意力机制和跨声带特征,模型具有更好的性能,所分离出的目标音源音频质量更好。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于改进自注意力机制与跨频带特征的音频音源分离方法的流程图。
图2为本发明中频带划分策略的结构示意图。
图3为本发明中改进的自注意力机制的结构示意图。
图4为本发明基于改进的自注意力机制与跨频带特征方法的模型结构示意图。
具体实施方式
结合图1,本发明提出了一种基于改进自注意力机制与跨频带特征的音频音源分离方法,包括以下步骤:
步骤1,训练集数据准备,训练集数据包括混合音频数据以及混合音频数据中待分离的目标音源音频数据。
步骤2,利用短时傅里叶变换将训练集中的音频数据均转换为音频的时频谱,记为全频带时频谱。
步骤3,构建若干个满足跨频带特征约束的划分策略,具体包括:
假设全频带时频谱为S∈Rn×m,其中n为短时傅里叶变换操作中频率方向的采样数,m为时间方向的帧数,定义符号G表示对应于全频带时频谱S的频带离散区间;采用λ个划分策略,将S划分为复数个子频带时频谱,λ>0;跨频带特征的定义包括:
定义第l个划分策略对应的子频带时频谱集合Cl:
式中,Cl为一个有序集合,且以LEFT(Gli)升序排序,LEFT(x)表示区间x的左端点值,Gli为表示Cl集合中的第i个子频带区间元素,ml表示Cl集合中元素的个数;
定义频带边界集合Dl:
Dl={bli|bli=RIGHT(Fli),i=1,2...,ml-1}
式中,RIGHT(x)表示区间x的右端点值;
定义最小边界重叠大小z∈N,N表示自然数集合;
基于上述定义构建服从以下跨频带特征约束的划分策略:
有bpi∈Gqj
其中,1≤p≤λ,1≤i≤mp-1,q≠p,1≤q≤λ,1≤j≤mq,i′≠i,1≤i′≤mp-1。
步骤4,结合图3,基于每个划分策略分别对全频带时频谱的频带进行划分,获得该划分策略对应的若干子频带。
步骤5,基于每个划分策略构建深度神经网络,结合图4,该步具体包括:
(1)对于每一个划分策略,构建相应的卷积神经子网络为:
式中,NETl表示第l个划分策略对应的子卷积神经网络集合,表示第l个划分策略中的第i个子卷积神经网络,i=1,2,…,ml,c表示构建卷积神经网络所采用到的金字塔形式的下采样或上采样的次数,即尺度;其中,的结构定义为:
式中,Upsample(·)表示上采样层,Concat(·)表示连接操作,Qk(I)=Downsample(DenseBlockk1(I)),k=1,2...c,k表示第k个尺度,Downsample(·)表示下采样层,I表示子卷积神经网络的输入,Wk表示1x1卷积层,Attentionk(X)表示以平坦化特征图X为输入的改进的自注意力层,X={x1,x2,…,xN}∈RC×N,N=W×H,C、W、H分别表示在平坦化之前特征图X在不同维度上的尺寸大小,αk为一个可训练的标量,其初始值为0,DenseBlock(·)表示DenseNet中的Dense Block;上采样层的网络结构为插值上采样层与1x1卷积层的组合。
结合图2,其中,
Attention(X)=Res(β1s+β2cT+X)∈RC×W×H
式中,Res(·)表示重塑操作,也即是维度变换操作,β1和β2均为可训练的标量变量,初始值为0,用于指示注意力特征的可信度;s表示空间注意力特征图,s∈RC×N={s1,s2,...,sN},c表示通道注意力特征图,c∈RN×C={c1,c2,...,cC},其中si、ci′分别为:
步骤6,训练深度神经网络,具体包括:
将步骤2获得的混合音频数据对应的时频谱作为深度神经网络的输入,将步骤2获得的待分离的目标音源音频数据对应的时频谱作为深度神经网络的输出目标,对深度神经网络进行训练。
步骤7,训练最小方差滤波器,具体包括:
步骤7-1,提取训练集中混合音频数据对应的时频谱中的相位信号;
步骤7-2,将每个划分策略对应的若干子频带作为该划分策略对应的卷积神经子网络的输入,并合并所有卷积神经子网络的输出特征:
式中,Os表示所有卷积神经子网络输出s特征的合并结果,Merge(·)表示特征融合操作,γt为可训练的标量,初始值为0,t=2...λ,γ1也为可训练的标量,其初始值为1,Ol为每一个卷积神经子网络的输出:
式中,Slr表示子频带区间Glr对应的子频带时频谱,Concatfrequency(·)表示在频率维度上进行特征连接;
步骤7-3,将全频带时频谱作为卷积神经网络Ufc的输入,该卷积神经网络的输出特征记为Of;
步骤7-4,根据Os和Of获取跨频带特征O:
O=Concatchannel(Of,Os)
式中,Concatchannel(·)表示在通道维度上进行特征连接;
步骤7-5,利用Dense Block和卷积层将跨频带特征O转换为预测时频谱;
步骤7-6,通过短时傅里叶逆变换将预测时频谱转换为音频信号,在转换过程中时频谱的相位部分采用步骤7-1提取的相位信号;
步骤7-7,将步骤7-6获得的音频信号作为最小方差滤波器的输入,将训练集中待分离的目标音源音频数据作为期望信号,对最小方差滤波器进行训练。
步骤8,利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号。该步具体过程包括:
步骤8-1,通过短时傅里叶变换将待进行音源分离的混合音频转换为时频谱,并提取该时频谱中的相位信号;
步骤8-2,将步骤8-1获得的时频谱输入至步骤6训练后的深度神经网络,输出目标音源信号的时频谱;
步骤8-3,通过短时傅里叶逆变换将目标音源信号的时频谱转换为音频信号,转换过程中时频谱的相位部分采用步骤8-1提取的相位信号;
步骤8-4,将步骤8-3获得的音频信号输入至步骤7训练后的最小方差滤波器中,输出最终的目标音频信号。
下面结合实施例对本发明作进一步详细的描述。
实施例
本实施例对本发明的方法进行验证,具体条件包括:
(1)划分策略数量λ=2;
(3)每一个划分策略的子频带为:
(4)每一个子卷积神经网络所拥有的尺度c=3;
(5)短时傅里叶变换采用2048点采样,采样率为44.1kHz;
(6)采用DSD100公开数据集作为本实施例的数据集。
本实施例分别对DSD100公开数据集中人声、贝斯、鼓和其他乐器的音源各自单独训练了一个模型以完成对应音源的分离工作。所验证的指标为:分别计算模型在验证集中所分离出的人声、鼓、贝斯和其他这四个音源信号的SDR的中位数。表1展示了本发明所提出的方法在DSD100公开数据集上经过训练后,在验证集上与其他现有方法的性能对比。
表1音源分离方法的性能对比
由上述实施例可知,本发明提出的基于改进的自注意力机制和跨声带特征的音频音源分离方法具有很好的性能和进度,泛化性好,更适用于音频音源分离任务,且分离出的目标音源音频质量更好。
Claims (8)
1.一种基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,包括以下步骤:
步骤1,训练集数据准备,所述训练集数据包括混合音频数据以及混合音频数据中待分离的目标音源音频数据;
步骤2,将训练集中的音频数据均转换为音频的时频谱,记为全频带时频谱;
步骤3,构建若干个满足跨频带特征约束的划分策略;
步骤4,基于每个所述划分策略分别对全频带时频谱的频带进行划分,获得该划分策略对应的若干子频带;
步骤5,基于每个所述划分策略构建深度神经网络;
步骤6,训练所述深度神经网络;
步骤7,训练最小方差滤波器;
步骤8,利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号。
2.根据权利要求1所述的基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,步骤2具体利用短时傅里叶变换将训练集中的音频数据均转换为音频的时频谱。
3.根据权利要求1或2所述的基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,步骤3中所述构建若干个满足跨频带特征约束的划分策略,具体包括:
假设全频带时频谱为S∈Rn×m,其中n为所述短时傅里叶变换操作中频率方向的采样数,m为时间方向的帧数,定义符号G表示对应于全频带时频谱S的频带离散区间;采用λ个划分策略,将S划分为复数个子频带时频谱,λ>0;所述跨频带特征的定义包括:
定义第l个划分策略对应的子频带时频谱集合Cl:
式中,Cl为一个有序集合,且以LEFT(Gli)升序排序,LEFT(x)表示区间x的左端点值,Gli为表示Cl集合中的第i个子频带区间元素,ml表示Cl集合中元素的个数;
定义频带边界集合Dl:
Dl={bli|bli=RIGHT(Fli),i=1,2...,ml-1}
式中,RIGHT(x)表示区间x的右端点值;
定义最小边界重叠大小z∈N,N表示自然数集合;
基于上述定义构建服从以下跨频带特征约束的划分策略:
有bpi∈Gqj
其中,1≤p≤λ,1≤i≤mp-1,q≠p,1≤q≤λ,1≤j≤mq,i′≠i,1≤i′≤mp-1。
4.根据权利要求3所述的基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,步骤5基于每个所述划分策略构建深度神经网络,具体包括:
(1)对于每一个划分策略,构建相应的卷积神经子网络为:
式中,NETl表示第l个划分策略对应的子卷积神经网络集合,表示第l个划分策略中的第i个子卷积神经网络,i=1,2,…,ml,c表示构建卷积神经网络所采用到的金字塔形式的下采样或上采样的次数,即尺度;其中,的结构定义为:
式中,Upsample(·)表示上采样层,Concat(·)表示连接操作,Qk(I)=Downsample(DenseBlockk1(I)),k=1,2...c,k表示第k个尺度,Downsample(·)表示下采样层,I表示子卷积神经网络的输入,Wk表示1x1卷积层,Attentionk(X)表示以平坦化特征图X为输入的改进的自注意力层,X={x1,x2,…,xN}∈RC×N,N=W×H,C、W、H分别表示在平坦化之前特征图X在不同维度上的尺寸大小,αk为一个可训练的标量,其初始值为0,DenseBlock(·)表示DenseNet中的Dense Block;
其中,
Attention(X)=Res(β1s+β2cT+X)∈RC×W×H
式中,Res(·)表示重塑操作,也即是维度变换操作,β1和β2均为可训练的标量变量,初始值为0,用于指示注意力特征的可信度;s表示空间注意力特征图,s∈RC×N={s1,s2,...,sN},c表示通道注意力特征图,c∈RN×C={c1,c2,...,cC},其中si、ci′分别为:
5.根据权利要求4所述的基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,所述上采样层的网络结构为插值上采样层与1x1卷积层的组合。
6.根据权利要求5所述的基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,步骤6训练所述深度神经网络,具体包括:
将步骤2获得的混合音频数据对应的时频谱作为深度神经网络的输入,将步骤2获得的待分离的目标音源音频数据对应的时频谱作为深度神经网络的输出目标,对深度神经网络进行训练。
7.根据权利要求6所述的基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,步骤7所述训练最小方差滤波器,具体包括:
步骤7-1,提取训练集中所述混合音频数据对应的时频谱中的相位信号;
步骤7-2,将每个划分策略对应的若干子频带作为该划分策略对应的卷积神经子网络的输入,并合并所有卷积神经子网络的输出特征:
式中,Os表示所有卷积神经子网络输出s特征的合并结果,Merge(·)表示特征融合操作,γt为可训练的标量,初始值为0,t=2...λ,γ1也为可训练的标量,其初始值为1,Ol为每一个卷积神经子网络的输出:
式中,Slr表示子频带区间Glr对应的子频带时频谱,Concatfrequency(·)表示在频率维度上进行特征连接;
步骤7-4,根据所述Os和Of获取跨频带特征O:
O=Concatchannel(Of,Os)
式中,Concatchannel(·)表示在通道维度上进行特征连接;
步骤7-5,利用Dense Block和卷积层将所述跨频带特征O转换为预测时频谱;
步骤7-6,通过短时傅里叶逆变换将所述预测时频谱转换为音频信号,在转换过程中时频谱的相位部分采用步骤7-1提取的相位信号;
步骤7-7,将步骤7-6获得的音频信号作为最小方差滤波器的输入,将训练集中待分离的目标音源音频数据作为期望信号,对最小方差滤波器进行训练。
8.根据权利要求7所述的基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,步骤8所述利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号,具体过程包括:
步骤8-1,通过短时傅里叶变换将待进行音源分离的混合音频转换为时频谱,并提取该时频谱中的相位信号;
步骤8-2,将步骤8-1获得的时频谱输入至步骤6训练后的深度神经网络,输出目标音源信号的时频谱;
步骤8-3,通过短时傅里叶逆变换将所述目标音源信号的时频谱转换为音频信号,转换过程中时频谱的相位部分采用步骤8-1提取的相位信号;
步骤8-4,将步骤8-3获得的音频信号输入至步骤7训练后的最小方差滤波器中,输出最终的目标音频信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010048185.9A CN111261186B (zh) | 2020-01-16 | 2020-01-16 | 基于改进自注意力机制与跨频带特征的音频音源分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010048185.9A CN111261186B (zh) | 2020-01-16 | 2020-01-16 | 基于改进自注意力机制与跨频带特征的音频音源分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111261186A true CN111261186A (zh) | 2020-06-09 |
CN111261186B CN111261186B (zh) | 2023-05-30 |
Family
ID=70952174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010048185.9A Active CN111261186B (zh) | 2020-01-16 | 2020-01-16 | 基于改进自注意力机制与跨频带特征的音频音源分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111261186B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634882A (zh) * | 2021-03-11 | 2021-04-09 | 南京硅基智能科技有限公司 | 端到端实时语音端点检测神经网络模型、训练方法 |
CN112687276A (zh) * | 2021-03-11 | 2021-04-20 | 北京世纪好未来教育科技有限公司 | 一种音频信号处理方法、装置及存储介质 |
CN112992172A (zh) * | 2021-01-28 | 2021-06-18 | 广州大学 | 一种基于注意力机制的单通道时域鸟鸣声分离方法 |
CN113113040A (zh) * | 2021-03-22 | 2021-07-13 | 北京小米移动软件有限公司 | 音频处理方法及装置、终端及存储介质 |
CN113241092A (zh) * | 2021-06-15 | 2021-08-10 | 新疆大学 | 基于双注意力机制和多阶段混合卷积网络声源分离方法 |
CN113380262A (zh) * | 2021-05-13 | 2021-09-10 | 重庆邮电大学 | 一种基于注意力机制与扰动感知的声音分离方法 |
CN113470688A (zh) * | 2021-07-23 | 2021-10-01 | 平安科技(深圳)有限公司 | 语音数据的分离方法、装置、设备及存储介质 |
CN114596879A (zh) * | 2022-03-25 | 2022-06-07 | 北京远鉴信息技术有限公司 | 一种虚假语音的检测方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102522093A (zh) * | 2012-01-09 | 2012-06-27 | 武汉大学 | 一种基于三维空间音频感知的音源分离方法 |
CN108735227A (zh) * | 2018-06-22 | 2018-11-02 | 北京三听科技有限公司 | 一种用于对麦克风阵列拾取的语音信号进行声源分离的方法及系统 |
CN110111773A (zh) * | 2019-04-01 | 2019-08-09 | 华南理工大学 | 基于卷积神经网络的音乐信号多乐器识别方法 |
US20190318725A1 (en) * | 2018-04-13 | 2019-10-17 | Mitsubishi Electric Research Laboratories, Inc. | Methods and Systems for Recognizing Simultaneous Speech by Multiple Speakers |
CN110444223A (zh) * | 2019-06-26 | 2019-11-12 | 平安科技(深圳)有限公司 | 基于循环神经网络和声学特征的说话人分离方法及装置 |
CN110491409A (zh) * | 2019-08-09 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 混合语音信号的分离方法、装置、存储介质及电子装置 |
CN110634501A (zh) * | 2018-06-25 | 2019-12-31 | 卡西欧计算机株式会社 | 音频提取装置、机器训练装置、卡拉ok装置 |
-
2020
- 2020-01-16 CN CN202010048185.9A patent/CN111261186B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102522093A (zh) * | 2012-01-09 | 2012-06-27 | 武汉大学 | 一种基于三维空间音频感知的音源分离方法 |
US20190318725A1 (en) * | 2018-04-13 | 2019-10-17 | Mitsubishi Electric Research Laboratories, Inc. | Methods and Systems for Recognizing Simultaneous Speech by Multiple Speakers |
CN108735227A (zh) * | 2018-06-22 | 2018-11-02 | 北京三听科技有限公司 | 一种用于对麦克风阵列拾取的语音信号进行声源分离的方法及系统 |
CN110634501A (zh) * | 2018-06-25 | 2019-12-31 | 卡西欧计算机株式会社 | 音频提取装置、机器训练装置、卡拉ok装置 |
CN110111773A (zh) * | 2019-04-01 | 2019-08-09 | 华南理工大学 | 基于卷积神经网络的音乐信号多乐器识别方法 |
CN110444223A (zh) * | 2019-06-26 | 2019-11-12 | 平安科技(深圳)有限公司 | 基于循环神经网络和声学特征的说话人分离方法及装置 |
CN110491409A (zh) * | 2019-08-09 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 混合语音信号的分离方法、装置、存储介质及电子装置 |
Non-Patent Citations (1)
Title |
---|
YI HUANG: "《Non-local MMDenseNet with Cross-Band Features for Audio Source Separation》" * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112992172A (zh) * | 2021-01-28 | 2021-06-18 | 广州大学 | 一种基于注意力机制的单通道时域鸟鸣声分离方法 |
CN112992172B (zh) * | 2021-01-28 | 2023-09-15 | 广州大学 | 一种基于注意力机制的单通道时域鸟鸣声分离方法 |
CN112687276A (zh) * | 2021-03-11 | 2021-04-20 | 北京世纪好未来教育科技有限公司 | 一种音频信号处理方法、装置及存储介质 |
CN112634882B (zh) * | 2021-03-11 | 2021-06-04 | 南京硅基智能科技有限公司 | 端到端实时语音端点检测神经网络模型、训练方法 |
CN112687276B (zh) * | 2021-03-11 | 2021-06-15 | 北京世纪好未来教育科技有限公司 | 一种音频信号处理方法、装置及存储介质 |
CN112634882A (zh) * | 2021-03-11 | 2021-04-09 | 南京硅基智能科技有限公司 | 端到端实时语音端点检测神经网络模型、训练方法 |
CN113113040A (zh) * | 2021-03-22 | 2021-07-13 | 北京小米移动软件有限公司 | 音频处理方法及装置、终端及存储介质 |
CN113380262B (zh) * | 2021-05-13 | 2022-10-18 | 重庆邮电大学 | 一种基于注意力机制与扰动感知的声音分离方法 |
CN113380262A (zh) * | 2021-05-13 | 2021-09-10 | 重庆邮电大学 | 一种基于注意力机制与扰动感知的声音分离方法 |
CN113241092A (zh) * | 2021-06-15 | 2021-08-10 | 新疆大学 | 基于双注意力机制和多阶段混合卷积网络声源分离方法 |
CN113470688A (zh) * | 2021-07-23 | 2021-10-01 | 平安科技(深圳)有限公司 | 语音数据的分离方法、装置、设备及存储介质 |
CN113470688B (zh) * | 2021-07-23 | 2024-01-23 | 平安科技(深圳)有限公司 | 语音数据的分离方法、装置、设备及存储介质 |
CN114596879A (zh) * | 2022-03-25 | 2022-06-07 | 北京远鉴信息技术有限公司 | 一种虚假语音的检测方法、装置、电子设备及存储介质 |
CN114596879B (zh) * | 2022-03-25 | 2022-12-30 | 北京远鉴信息技术有限公司 | 一种虚假语音的检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111261186B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111261186B (zh) | 基于改进自注意力机制与跨频带特征的音频音源分离方法 | |
Vasquez et al. | Melnet: A generative model for audio in the frequency domain | |
Pandey et al. | Densely connected neural network with dilated convolutions for real-time speech enhancement in the time domain | |
Liu et al. | Divide and conquer: A deep CASA approach to talker-independent monaural speaker separation | |
Takahashi et al. | Multi-scale multi-band densenets for audio source separation | |
CN109949824B (zh) | 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法 | |
JP5666021B2 (ja) | 復号後オーディオ信号をスペクトル領域で処理する装置及び方法 | |
CN101471072B (zh) | 高频重建方法、编码装置和解码装置 | |
CN109378010A (zh) | 神经网络模型的训练方法、语音去噪方法及装置 | |
CN103262164B (zh) | 叉积增强的基于子带块的谐波换位 | |
JP5340261B2 (ja) | ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法 | |
CN112989107B (zh) | 音频分类和分离方法、装置、电子设备以及存储介质 | |
CN110544482B (zh) | 一种单通道语音分离系统 | |
CN113380262B (zh) | 一种基于注意力机制与扰动感知的声音分离方法 | |
Grais et al. | Multi-resolution fully convolutional neural networks for monaural audio source separation | |
CN112259119B (zh) | 基于堆叠沙漏网络的音乐源分离方法 | |
CN113850246A (zh) | 基于对偶一致网络的声源定位与声源分离的方法和系统 | |
Hao et al. | Time-domain neural network approach for speech bandwidth extension | |
Luo et al. | Tiny-sepformer: A tiny time-domain transformer network for speech separation | |
CN116994564A (zh) | 一种语音数据的处理方法及处理装置 | |
Hu et al. | Unifying speech enhancement and separation with gradient modulation for end-to-end noise-robust speech separation | |
CN103886859B (zh) | 基于一对多码书映射的语音转换方法 | |
Raj et al. | Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients | |
CN117854473A (zh) | 基于局部关联信息的零样本语音合成方法 | |
Ghosal et al. | Speech/music classification using empirical mode decomposition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |