CN111261186B - 基于改进自注意力机制与跨频带特征的音频音源分离方法 - Google Patents

基于改进自注意力机制与跨频带特征的音频音源分离方法 Download PDF

Info

Publication number
CN111261186B
CN111261186B CN202010048185.9A CN202010048185A CN111261186B CN 111261186 B CN111261186 B CN 111261186B CN 202010048185 A CN202010048185 A CN 202010048185A CN 111261186 B CN111261186 B CN 111261186B
Authority
CN
China
Prior art keywords
band
audio
time spectrum
neural network
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010048185.9A
Other languages
English (en)
Other versions
CN111261186A (zh
Inventor
李泽超
唐金辉
黄毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202010048185.9A priority Critical patent/CN111261186B/zh
Publication of CN111261186A publication Critical patent/CN111261186A/zh
Application granted granted Critical
Publication of CN111261186B publication Critical patent/CN111261186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Auxiliary Devices For Music (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于改进自注意力机制与跨频带特征的音频音源分离方法,包括以下步骤:训练集数据准备,包括混合音频数据以及混合音频数据中待分离的目标音源音频数据;将音频数据均转换为音频的时频谱,记为全频带时频谱;构建若干个满足跨频带特征约束的划分策略;基于每个划分策略分别对全频带时频谱的频带进行划分,获得该划分策略对应的若干子频带;基于每个划分策略构建深度神经网络;训练深度神经网络和最小方差滤波器;利用训练后的深度神经网络和最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号。本发明方法具有很好的性能和进度,泛化性好,更适用于音频音源分离任务,且分离出的目标音源音频质量更好。

Description

基于改进自注意力机制与跨频带特征的音频音源分离方法
技术领域
本发明属于数字信号处理领域,特别涉及一种基于改进自注意力机制与跨频带特征的音频音源分离方法。
背景技术
音频音源分离可以被描述为:从现有的混合音频信号中分离出一个或者多个音源各自的音频信号。音频音源分离任务的主要难点在于,在实际应用场景中,处理系统所能够直接利用到的输入数据仅仅只有单独的混合音频信号;因此,对于音频音源分离任务而言,需要研究者设计并使用一种智能化的手段来完成该任务。
音频音源分离有着广泛的应用场景,对于语音识别而言,通过音频音源分离来将人声从复杂的背景噪声中分离,能够更加准确地进行人声内容的识别与提取,提高语音转录等任务的效率;对于音频强化而言,通过音频音源分离智能化地将目标音频信号从混合信号中分离,能够更好地辅助人们完成音频消噪、监听等工作;此外,在音乐编辑、创作工作中,音频音源分离能够在没有分轨音频数据的情况下,单独提取出某一轨乐器的音频数据,从而能够方便音乐制作人员对音频进行重混音或者乐谱转录等工作。综上所述,对于涉及到音频处理的相关领域而言,一个良好的、健壮的音源分离系统是必需且必备的工具。
国外早在上世纪50年代就提出了该问题并进行了长期的研究工作。为了解决这个问题,有许多相关方法被提出,这些方法大致分为监督式方法和非监督式方法。监督式方法主要是通过对模型进行训练以获得音源的相关信息,这些方法主要是基于贝叶斯估计、非负矩阵分解(Nonnegative Matrix Factorization,NMF)理论来设计的,而非监督式学习的方法则是让模型从混合音频信号中自行寻找数据特征,这类方法主要是基于稀疏向量理论来设计的。尽管经过数十年的研究和优化,这些方法对于解决音频音源分离问题的进程产生了巨大的推动作用,但是由于这些方法有的严重依赖于手工设计的先验知识,而有的又基于一些很强的假设来简化问题,因此长期以来并不能得到令人满意的效果,阻碍了相关应用在现实需求下的落地。
近年来,由于深度神经网络(Deep Neural Networks,DNN)在解决复杂问题方面展示了出很好的性能,人们也逐渐开始在音频音源分离任务中引入深度神经网络的模型来解决相关问题,相关方法主要分为基于卷积神经网络(Convolutional Neural Networks,CNN)的模型方法和基于循环神经网络(Recurrent Neural Networks,RNN)的模型方法。这些方法相对于传统方法而言,尽管在性能和泛化能力上都获得了长足的进步,但是仍然存在一些缺陷。例如基于卷积神经网络的模型方法受制于卷积的局部感受域特性,因此对长距离的相关依赖不敏感,容易在特征计算中丢失全局信息;而基于循环神经网络的模型方法受制于模型本身的天生的缺点,对于较长的时序数据会产生遗忘问题;两者的缺陷都限制了模型效果的进一步提升。
发明内容
本发明的目的在于提供一种具有泛化性好、分离出的目标音源音频质量更好等特点的音频音源分离方法。
实现本发明目的的技术解决方案为:一种基于改进自注意力机制与跨频带特征的音频音源分离方法,包括以下步骤:
步骤1,训练集数据准备,所述训练集数据包括混合音频数据以及混合音频数据中待分离的目标音源音频数据;
步骤2,将训练集中的音频数据均转换为音频的时频谱,记为全频带时频谱;
步骤3,构建若干个满足跨频带特征约束的划分策略;
步骤4,基于每个所述划分策略分别对全频带时频谱的频带进行划分,获得该划分策略对应的若干子频带;
步骤5,基于每个所述划分策略构建深度神经网络;
步骤6,训练所述深度神经网络;
步骤7,训练最小方差滤波器;
步骤8,利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号。
进一步地,步骤3中所述构建若干个满足跨频带特征约束的划分策略,具体包括:
假设全频带时频谱为S∈Rn×m,其中n为所述短时傅里叶变换操作中频率方向的采样数,m为时间方向的帧数,定义符号G表示对应于全频带时频谱S的频带离散区间;采用λ个划分策略,将S划分为复数个子频带时频谱,λ>0;所述跨频带特征的定义包括:
定义第l个划分策略对应的子频带时频谱集合Cl
Figure BDA0002370171830000021
式中,Cl为一个有序集合,且以LEFT(Gli)升序排序,LEFT(x)表示区间x的左端点值,Gli为表示Cl集合中的第i个子频带区间元素,ml表示Cl集合中元素的个数;
定义频带边界集合Dl
Dl={bli|bli=RIGHT(Fli),i=1,2...,ml-1}
式中,RIGHT(x)表示区间x的右端点值;
定义最小边界重叠大小z∈N,N表示自然数集合;
基于上述定义构建服从以下跨频带特征约束的划分策略:
对于
Figure BDA0002370171830000031
有bpi∈Gqj
同时对于
Figure BDA0002370171830000032
都有
Figure BDA0002370171830000033
且bpi-LEFT(Gqj)≥z,RIGHT(Gqj)-bpi≥z
其中,1≤p≤λ,1≤i≤mp-1,q≠p,1≤q≤λ,1≤j≤mq,i′≠i,1≤i′≤mp-1。
进一步地,步骤5基于每个所述划分策略构建深度神经网络,具体包括:
(1)对于每一个划分策略,构建相应的卷积神经子网络为:
Figure BDA0002370171830000034
/>
式中,NETl表示第l个划分策略对应的子卷积神经网络集合,
Figure BDA0002370171830000035
表示第l个划分策略中的第i个子卷积神经网络,i=1,2,…,ml,c表示构建卷积神经网络所采用到的金字塔形式的下采样或上采样的次数,即尺度;其中,/>
Figure BDA0002370171830000036
的结构定义为:
Figure BDA0002370171830000037
式中,Upsample(·)表示上采样层,Concat(·)表示连接操作,Qk(I)=Downsample(DenseBlockk1(I)),k=1,2...c,k表示第k个尺度,Downsample(·)表示下采样层,I表示子卷积神经网络的输入,Wk表示1x1卷积层,Attentionk(X)表示以平坦化特征图X为输入的改进的自注意力层,X={x1,x2,…,xN}∈RC×N,N=W×H,C、W、H分别表示在平坦化之前特征图X在不同维度上的尺寸大小,αk为一个可训练的标量,其初始值为0,DenseBlock(·)表示DenseNet中的Dense Block;
其中,
Attention(X)=Res(β1s+β2cT+X)∈RC×W×H
式中,Res(·)表示重塑操作,也即是维度变换操作,β1和β2均为可训练的标量变量,初始值为0,用于指示注意力特征的可信度;s表示空间注意力特征图,s∈RC×N={s1,s2,...,sN},c表示通道注意力特征图,c∈RN×C={c1,c2,...,cC},其中si、ci′分别为:
Figure BDA0002370171830000041
Figure BDA0002370171830000042
式中,
Figure BDA0002370171830000043
以及/>
Figure BDA0002370171830000044
均表示1x1卷积层,/>
Figure BDA0002370171830000045
(2)构建处理全频带时频谱的卷积神经网络
Figure BDA0002370171830000046
该网络的结构与上述/>
Figure BDA0002370171830000047
的结构相同,但该网络的输入为全频带时频谱。
进一步地,步骤6训练所述深度神经网络,具体包括:
将步骤2获得的混合音频数据对应的时频谱作为深度神经网络的输入,将步骤2获得的待分离的目标音源音频数据对应的时频谱作为深度神经网络的输出目标,对深度神经网络进行训练。
进一步地,步骤7所述训练最小方差滤波器,具体包括:
步骤7-1,提取训练集中所述混合音频数据对应的时频谱中的相位信号;
步骤7-2,将每个划分策略对应的若干子频带作为该划分策略对应的卷积神经子网络的输入,并合并所有卷积神经子网络的输出特征:
Figure BDA0002370171830000048
/>
式中,Os表示所有卷积神经子网络输出s特征的合并结果,Merge(·)表示特征融合操作,γt为可训练的标量,初始值为0,t=2...λ,γ1也为可训练的标量,其初始值为1,Ol为每一个卷积神经子网络的输出:
Figure BDA0002370171830000051
式中,Slr表示子频带区间Glr对应的子频带时频谱,Concatfrequency(·)表示在频率维度上进行特征连接;
步骤7-3,将所述全频带时频谱作为所述卷积神经网络
Figure BDA0002370171830000052
的输入,该卷积神经网络的输出特征记为Of
步骤7-4,根据所述Os和Of获取跨频带特征O:
O=Concatchannel(Of,Os)
式中,Concatchannel(·)表示在通道维度上进行特征连接;
步骤7-5,利用Dense Block和卷积层将所述跨频带特征O转换为预测时频谱;
步骤7-6,通过短时傅里叶逆变换将所述预测时频谱转换为音频信号,在转换过程中时频谱的相位部分采用步骤7-1提取的相位信号;
步骤7-7,将步骤7-6获得的音频信号作为最小方差滤波器的输入,将训练集中待分离的目标音源音频数据作为期望信号,对最小方差滤波器进行训练。
进一步地,步骤8所述利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号,具体过程包括:
步骤8-1,通过短时傅里叶变换将待进行音源分离的混合音频转换为时频谱,并提取该时频谱中的相位信号;
步骤8-2,将步骤8-1获得的时频谱输入至步骤6训练后的深度神经网络,输出目标音源信号的时频谱;
步骤8-3,通过短时傅里叶逆变换将所述目标音源信号的时频谱转换为音频信号,转换过程中时频谱的相位部分采用步骤8-1提取的相位信号;
步骤8-4,将步骤8-3获得的音频信号输入至步骤7训练后的最小方差滤波器中,输出最终的目标音频信号。
本发明与现有技术相比,其显著优点为:1)采用深度学习模型进行目标音频音源信号的估计,相较于传统方法,只需要数据训练,无需引入假设以及借助辅助信息,具有更好的泛化性;2)采用一种带改进的自注意力机制的深度学习模型,使得用于音频音源分离的深度学习模型在特征计算中能够更好地计算全局信息;3)采用一种跨声带特征,使得用于音频音源分离的深度学习模型能够更好地计算频带划分过后频带附近的特征信息;4)综合了改进的自注意力机制和跨声带特征,模型具有更好的性能,所分离出的目标音源音频质量更好。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于改进自注意力机制与跨频带特征的音频音源分离方法的流程图。
图2为本发明中频带划分策略的结构示意图。
图3为本发明中改进的自注意力机制的结构示意图。
图4为本发明基于改进的自注意力机制与跨频带特征方法的模型结构示意图。
具体实施方式
结合图1,本发明提出了一种基于改进自注意力机制与跨频带特征的音频音源分离方法,包括以下步骤:
步骤1,训练集数据准备,训练集数据包括混合音频数据以及混合音频数据中待分离的目标音源音频数据。
步骤2,利用短时傅里叶变换将训练集中的音频数据均转换为音频的时频谱,记为全频带时频谱。
步骤3,构建若干个满足跨频带特征约束的划分策略,具体包括:
假设全频带时频谱为S∈Rn×m,其中n为短时傅里叶变换操作中频率方向的采样数,m为时间方向的帧数,定义符号G表示对应于全频带时频谱S的频带离散区间;采用λ个划分策略,将S划分为复数个子频带时频谱,λ>0;跨频带特征的定义包括:
定义第l个划分策略对应的子频带时频谱集合Cl
Figure BDA0002370171830000061
式中,Cl为一个有序集合,且以LEFT(Gli)升序排序,LEFT(x)表示区间x的左端点值,Gli为表示Cl集合中的第i个子频带区间元素,ml表示Cl集合中元素的个数;
定义频带边界集合Dl
Dl={bli|bli=RIGHT(Fli),i=1,2...,ml-1}
式中,RIGHT(x)表示区间x的右端点值;
定义最小边界重叠大小z∈N,N表示自然数集合;
基于上述定义构建服从以下跨频带特征约束的划分策略:
对于
Figure BDA0002370171830000071
有bpi∈Gqj
同时对于
Figure BDA0002370171830000072
都有
Figure BDA0002370171830000073
且bpi-LEFT(Gqj)≥z,RIGHT(Gqj)-bpi≥z
其中,1≤p≤λ,1≤i≤mp-1,q≠p,1≤q≤λ,1≤j≤mq,i′≠i,1≤i′≤mp-1。
步骤4,结合图3,基于每个划分策略分别对全频带时频谱的频带进行划分,获得该划分策略对应的若干子频带。
步骤5,基于每个划分策略构建深度神经网络,结合图4,该步具体包括:
(1)对于每一个划分策略,构建相应的卷积神经子网络为:
Figure BDA0002370171830000074
式中,NETl表示第l个划分策略对应的子卷积神经网络集合,
Figure BDA0002370171830000075
表示第l个划分策略中的第i个子卷积神经网络,i=1,2,…,ml,c表示构建卷积神经网络所采用到的金字塔形式的下采样或上采样的次数,即尺度;其中,/>
Figure BDA0002370171830000076
的结构定义为:
Figure BDA0002370171830000077
式中,Upsample(·)表示上采样层,Concat(·)表示连接操作,Qk(I)=Downsample(DenseBlockk1(I)),k=1,2...c,k表示第k个尺度,Downsample(·)表示下采样层,I表示子卷积神经网络的输入,Wk表示1x1卷积层,Attentionk(X)表示以平坦化特征图X为输入的改进的自注意力层,X={x1,x2,…,xN}∈RC×N,N=W×H,C、W、H分别表示在平坦化之前特征图X在不同维度上的尺寸大小,αk为一个可训练的标量,其初始值为0,DenseBlock(·)表示DenseNet中的Dense Block;上采样层的网络结构为插值上采样层与1x1卷积层的组合。
结合图2,其中,
Attention(X)=Res(β1s+β2cT+X)∈RC×W×H
式中,Res(·)表示重塑操作,也即是维度变换操作,β1和β2均为可训练的标量变量,初始值为0,用于指示注意力特征的可信度;s表示空间注意力特征图,s∈RC×N={s1,s2,...,sN},c表示通道注意力特征图,c∈RN×C={c1,c2,...,cC},其中si、ci′分别为:
Figure BDA0002370171830000081
Figure BDA0002370171830000082
式中,
Figure BDA0002370171830000083
以及/>
Figure BDA0002370171830000084
均表示1x1卷积层,/>
Figure BDA0002370171830000085
(2)构建处理全频带时频谱的卷积神经网络
Figure BDA0002370171830000086
该网络的结构与上述/>
Figure BDA0002370171830000087
的结构相同,但该网络的输入为全频带时频谱。
步骤6,训练深度神经网络,具体包括:
将步骤2获得的混合音频数据对应的时频谱作为深度神经网络的输入,将步骤2获得的待分离的目标音源音频数据对应的时频谱作为深度神经网络的输出目标,对深度神经网络进行训练。
步骤7,训练最小方差滤波器,具体包括:
步骤7-1,提取训练集中混合音频数据对应的时频谱中的相位信号;
步骤7-2,将每个划分策略对应的若干子频带作为该划分策略对应的卷积神经子网络的输入,并合并所有卷积神经子网络的输出特征:
Figure BDA0002370171830000088
式中,Os表示所有卷积神经子网络输出s特征的合并结果,Merge(·)表示特征融合操作,γt为可训练的标量,初始值为0,t=2...λ,γ1也为可训练的标量,其初始值为1,Ol为每一个卷积神经子网络的输出:
Figure BDA0002370171830000091
式中,Slr表示子频带区间Glr对应的子频带时频谱,Concatfrequency(·)表示在频率维度上进行特征连接;
步骤7-3,将全频带时频谱作为卷积神经网络Ufc的输入,该卷积神经网络的输出特征记为Of
步骤7-4,根据Os和Of获取跨频带特征O:
O=Concatchannel(Of,Os)
式中,Concatchannel(·)表示在通道维度上进行特征连接;
步骤7-5,利用Dense Block和卷积层将跨频带特征O转换为预测时频谱;
步骤7-6,通过短时傅里叶逆变换将预测时频谱转换为音频信号,在转换过程中时频谱的相位部分采用步骤7-1提取的相位信号;
步骤7-7,将步骤7-6获得的音频信号作为最小方差滤波器的输入,将训练集中待分离的目标音源音频数据作为期望信号,对最小方差滤波器进行训练。
步骤8,利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号。该步具体过程包括:
步骤8-1,通过短时傅里叶变换将待进行音源分离的混合音频转换为时频谱,并提取该时频谱中的相位信号;
步骤8-2,将步骤8-1获得的时频谱输入至步骤6训练后的深度神经网络,输出目标音源信号的时频谱;
步骤8-3,通过短时傅里叶逆变换将目标音源信号的时频谱转换为音频信号,转换过程中时频谱的相位部分采用步骤8-1提取的相位信号;
步骤8-4,将步骤8-3获得的音频信号输入至步骤7训练后的最小方差滤波器中,输出最终的目标音频信号。
下面结合实施例对本发明作进一步详细的描述。
实施例
本实施例对本发明的方法进行验证,具体条件包括:
(1)划分策略数量λ=2;
(2)最小边界重叠大小
Figure BDA0002370171830000101
(3)每一个划分策略的子频带为:
Figure BDA0002370171830000102
Figure BDA0002370171830000103
(4)每一个子卷积神经网络所拥有的尺度c=3;
(5)短时傅里叶变换采用2048点采样,采样率为44.1kHz;
(6)采用DSD100公开数据集作为本实施例的数据集。
本实施例分别对DSD100公开数据集中人声、贝斯、鼓和其他乐器的音源各自单独训练了一个模型以完成对应音源的分离工作。所验证的指标为:分别计算模型在验证集中所分离出的人声、鼓、贝斯和其他这四个音源信号的SDR的中位数。表1展示了本发明所提出的方法在DSD100公开数据集上经过训练后,在验证集上与其他现有方法的性能对比。
表1音源分离方法的性能对比
Figure BDA0002370171830000104
由上述实施例可知,本发明提出的基于改进的自注意力机制和跨声带特征的音频音源分离方法具有很好的性能和进度,泛化性好,更适用于音频音源分离任务,且分离出的目标音源音频质量更好。

Claims (3)

1.一种基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,包括以下步骤:
步骤1,训练集数据准备,所述训练集数据包括混合音频数据以及混合音频数据中待分离的目标音源音频数据;
步骤2,将训练集中的音频数据均转换为音频的时频谱,记为全频带时频谱;
步骤3,构建若干个满足跨频带特征约束的划分策略;具体包括:
假设全频带时频谱为S∈Rn×m,其中n为所述短时傅里叶变换操作中频率方向的采样数,m为时间方向的帧数,定义符号G表示对应于全频带时频谱S的频带离散区间;采用λ个划分策略,将S划分为复数个子频带时频谱,λ>0;所述跨频带特征的定义包括:
定义第l个划分策略对应的子频带时频谱集合Cl
Figure FDA0004164926840000011
式中,Cl为一个有序集合,且以LEFT(Gli)升序排序,LEFT(x)表示区间x的左端点值,Gli为表示Cl集合中的第i个子频带区间元素,ml表示Cl集合中元素的个数;
定义频带边界集合Dl
Dl={bli|bli=RIGHT(Gli),i=1,2...,ml-1}
式中,RIGHT(x)表示区间x的右端点值;
定义最小边界重叠大小z∈N,N表示自然数集合;
基于上述定义构建服从以下跨频带特征约束的划分策略:
对于
Figure FDA0004164926840000012
有bpi∈Gqj
同时对于
Figure FDA0004164926840000013
都有
Figure FDA0004164926840000014
且bpi-LEFT(Gqj)≥z,RIGHT(Gqj)-bpi≥z
其中,1≤p≤λ,1≤i≤mp-1,q≠p,1≤q≤λ,1≤j≤mq,i′≠i,1≤i′≤mp-1;
步骤4,基于每个所述划分策略分别对全频带时频谱的频带进行划分,获得该划分策略对应的若干子频带;
步骤5,基于每个所述划分策略构建深度神经网络;具体包括:
(1)对于每一个划分策略,构建相应的卷积神经子网络为:
Figure FDA0004164926840000021
式中,NETl表示第l个划分策略对应的子卷积神经网络集合,
Figure FDA0004164926840000022
表示第l个划分策略中的第i个子卷积神经网络,i=1,2,…,ml,c表示构建卷积神经网络所采用到的金字塔形式的下采样或上采样的次数,即尺度;其中,/>
Figure FDA0004164926840000023
的结构定义为:
Figure FDA0004164926840000024
式中,Upsample(·)表示上采样层,Concat(·)表示连接操作,Qk(I)=Downsample(DenseBlockk1(I)),k=1,2...c,k表示第k个尺度,Downsample(·)表示下采样层,I表示子卷积神经网络的输入,Wk表示1x1卷积层,Attention(X)表示以平坦化特征图X为输入的改进的自注意力层,X={x1,x2,...,xN}∈RC×N,N=W×H,C、W、H分别表示在平坦化之前特征图X在不同维度上的尺寸大小,α为一个可训练的标量,其初始值为0,DenseBlock*(·)表示DenseNet中的Dense Block,其中“*”为0或k1;
其中,
Attention(X)=Res(β1s+β2cT+X)∈RC×W×H
式中,Res(·)表示重塑操作,也即是维度变换操作,β1和β2均为可训练的标量变量,初始值为0,用于指示注意力特征的可信度;s表示空间注意力特征图,s∈RC×N={s1,s2,...,sN},c表示通道注意力特征图,c∈RN×C={c1,c2,...,cC},其中si、ci′分别为:
Figure FDA0004164926840000025
Figure FDA0004164926840000026
式中,
Figure FDA0004164926840000031
以及/>
Figure FDA0004164926840000032
均表示1x1卷积层,/>
Figure FDA0004164926840000033
(2)构建处理全频带时频谱的卷积神经网络
Figure FDA0004164926840000034
该网络的结构与上述/>
Figure FDA0004164926840000035
的结构相同,但该网络的输入为全频带时频谱;
步骤6,训练所述深度神经网络;具体包括:
将步骤2获得的混合音频数据对应的时频谱作为深度神经网络的输入,将步骤2获得的待分离的目标音源音频数据对应的时频谱作为深度神经网络的输出目标,对深度神经网络进行训练;
步骤7,训练最小方差滤波器;具体包括:
步骤7-1,提取训练集中所述混合音频数据对应的时频谱中的相位信号;
步骤7-2,将每个划分策略对应的若干子频带作为该划分策略对应的卷积神经子网络的输入,并合并所有卷积神经子网络的输出特征:
Figure FDA0004164926840000036
式中,Os表示所有卷积神经子网络输出s特征的合并结果,Merge(·)表示特征融合操作,γt为可训练的标量,初始值为0,t=2...λ,γ1也为可训练的标量,其初始值为1,Ol为每一个卷积神经子网络的输出:
Figure FDA0004164926840000037
式中,Slr表示子频带区间Glr对应的子频带时频谱,Concatfrequency(·)表示在频率维度上进行特征连接;
步骤7-3,将所述全频带时频谱作为所述卷积神经网络
Figure FDA0004164926840000038
的输入,该卷积神经网络的输出特征记为Of
步骤7-4,根据所述Os和Of获取跨频带特征O:
O=Concatchannel(Of,Os)
式中,Concatchannel(·)表示在通道维度上进行特征连接;
步骤7-5,利用Dense Block和卷积层将所述跨频带特征O转换为预测时频谱;
步骤7-6,通过短时傅里叶逆变换将所述预测时频谱转换为音频信号,在转换过程中时频谱的相位部分采用步骤7-1提取的相位信号;
步骤7-7,将步骤7-6获得的音频信号作为最小方差滤波器的输入,将训练集中待分离的目标音源音频数据作为期望信号,对最小方差滤波器进行训练;
步骤8,利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号;具体过程包括:
步骤8-1,通过短时傅里叶变换将待进行音源分离的混合音频转换为时频谱,并提取该时频谱中的相位信号;
步骤8-2,将步骤8-1获得的时频谱输入至步骤6训练后的深度神经网络,输出目标音源信号的时频谱;
步骤8-3,通过短时傅里叶逆变换将所述目标音源信号的时频谱转换为音频信号,转换过程中时频谱的相位部分采用步骤8-1提取的相位信号;
步骤8-4,将步骤8-3获得的音频信号输入至步骤7训练后的最小方差滤波器中,输出最终的目标音频信号。
2.根据权利要求1所述的基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,步骤2具体利用短时傅里叶变换将训练集中的音频数据均转换为音频的时频谱。
3.根据权利要求1所述的基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,所述上采样层的网络结构为插值上采样层与1x1卷积层的组合。
CN202010048185.9A 2020-01-16 2020-01-16 基于改进自注意力机制与跨频带特征的音频音源分离方法 Active CN111261186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010048185.9A CN111261186B (zh) 2020-01-16 2020-01-16 基于改进自注意力机制与跨频带特征的音频音源分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010048185.9A CN111261186B (zh) 2020-01-16 2020-01-16 基于改进自注意力机制与跨频带特征的音频音源分离方法

Publications (2)

Publication Number Publication Date
CN111261186A CN111261186A (zh) 2020-06-09
CN111261186B true CN111261186B (zh) 2023-05-30

Family

ID=70952174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010048185.9A Active CN111261186B (zh) 2020-01-16 2020-01-16 基于改进自注意力机制与跨频带特征的音频音源分离方法

Country Status (1)

Country Link
CN (1) CN111261186B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992172B (zh) * 2021-01-28 2023-09-15 广州大学 一种基于注意力机制的单通道时域鸟鸣声分离方法
CN112687276B (zh) * 2021-03-11 2021-06-15 北京世纪好未来教育科技有限公司 一种音频信号处理方法、装置及存储介质
CN112634882B (zh) * 2021-03-11 2021-06-04 南京硅基智能科技有限公司 端到端实时语音端点检测神经网络模型、训练方法
CN113113040B (zh) * 2021-03-22 2023-05-09 北京小米移动软件有限公司 音频处理方法及装置、终端及存储介质
CN113380262B (zh) * 2021-05-13 2022-10-18 重庆邮电大学 一种基于注意力机制与扰动感知的声音分离方法
CN113241092A (zh) * 2021-06-15 2021-08-10 新疆大学 基于双注意力机制和多阶段混合卷积网络声源分离方法
CN113470688B (zh) * 2021-07-23 2024-01-23 平安科技(深圳)有限公司 语音数据的分离方法、装置、设备及存储介质
CN114596879B (zh) * 2022-03-25 2022-12-30 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102522093A (zh) * 2012-01-09 2012-06-27 武汉大学 一种基于三维空间音频感知的音源分离方法
US10811000B2 (en) * 2018-04-13 2020-10-20 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for recognizing simultaneous speech by multiple speakers
CN108735227B (zh) * 2018-06-22 2020-05-19 北京三听科技有限公司 对麦克风阵列拾取的语音信号进行声源分离的方法及系统
JP7243052B2 (ja) * 2018-06-25 2023-03-22 カシオ計算機株式会社 オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム
CN110111773B (zh) * 2019-04-01 2021-03-30 华南理工大学 基于卷积神经网络的音乐信号多乐器识别方法
CN110444223B (zh) * 2019-06-26 2023-05-23 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置
CN110491409B (zh) * 2019-08-09 2021-09-24 腾讯科技(深圳)有限公司 混合语音信号的分离方法、装置、存储介质及电子装置

Also Published As

Publication number Publication date
CN111261186A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111261186B (zh) 基于改进自注意力机制与跨频带特征的音频音源分离方法
Vasquez et al. Melnet: A generative model for audio in the frequency domain
TW546630B (en) Optimized local feature extraction for automatic speech recognition
CN101540171B (zh) 音频信号编码或解码
CN102150203B (zh) 一种音频信号转换、修改以及合成的装置和方法
CN103262164B (zh) 叉积增强的基于子带块的谐波换位
CN103959375B (zh) 增强的从音频编解码器的色度提取
CN109378010A (zh) 神经网络模型的训练方法、语音去噪方法及装置
JP2009524101A (ja) 符号化/復号化装置及び方法
CN101894560B (zh) 一种无参考源的mp3音频清晰度客观评价方法
CN102272831A (zh) 基于峰值检测的选择性缩放掩码计算
KR20230109630A (ko) 오디오 신호 생성 및 오디오 생성기 훈련을 위한 방법 및 오디오 생성기
Rixen et al. Sfsrnet: Super-resolution for single-channel audio source separation
Nguyen et al. Tunet: A block-online bandwidth extension model based on transformers and self-supervised pretraining
Hao et al. Time-domain neural network approach for speech bandwidth extension
CN113380262B (zh) 一种基于注意力机制与扰动感知的声音分离方法
CN102460574A (zh) 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备
WO2022079263A1 (en) A generative neural network model for processing audio samples in a filter-bank domain
Ghosal et al. Speech/music classification using empirical mode decomposition
CN115116469B (zh) 特征表示的提取方法、装置、设备、介质及程序产品
CN116612779A (zh) 一种基于深度学习的单通道语音分离的方法
Vinitha George et al. A novel U-Net with dense block for drum signal separation from polyphonic music signal mixture
CN106935243A (zh) 一种基于melp的低比特数字语音矢量量化方法和系统
BR112021007516A2 (pt) codificador de áudio, processador de áudio e método para processar um sinal de áudio
CN111312215A (zh) 一种基于卷积神经网络和双耳表征的自然语音情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant