CN111261186A - 基于改进自注意力机制与跨频带特征的音频音源分离方法 - Google Patents

基于改进自注意力机制与跨频带特征的音频音源分离方法 Download PDF

Info

Publication number
CN111261186A
CN111261186A CN202010048185.9A CN202010048185A CN111261186A CN 111261186 A CN111261186 A CN 111261186A CN 202010048185 A CN202010048185 A CN 202010048185A CN 111261186 A CN111261186 A CN 111261186A
Authority
CN
China
Prior art keywords
time
band
neural network
frequency
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010048185.9A
Other languages
English (en)
Other versions
CN111261186B (zh
Inventor
李泽超
唐金辉
黄毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202010048185.9A priority Critical patent/CN111261186B/zh
Publication of CN111261186A publication Critical patent/CN111261186A/zh
Application granted granted Critical
Publication of CN111261186B publication Critical patent/CN111261186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种基于改进自注意力机制与跨频带特征的音频音源分离方法,包括以下步骤:训练集数据准备,包括混合音频数据以及混合音频数据中待分离的目标音源音频数据;将音频数据均转换为音频的时频谱,记为全频带时频谱;构建若干个满足跨频带特征约束的划分策略;基于每个划分策略分别对全频带时频谱的频带进行划分,获得该划分策略对应的若干子频带;基于每个划分策略构建深度神经网络;训练深度神经网络和最小方差滤波器;利用训练后的深度神经网络和最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号。本发明方法具有很好的性能和进度,泛化性好,更适用于音频音源分离任务,且分离出的目标音源音频质量更好。

Description

基于改进自注意力机制与跨频带特征的音频音源分离方法
技术领域
本发明属于数字信号处理领域,特别涉及一种基于改进自注意力机制与跨频带特征的音频音源分离方法。
背景技术
音频音源分离可以被描述为:从现有的混合音频信号中分离出一个或者多个音源各自的音频信号。音频音源分离任务的主要难点在于,在实际应用场景中,处理系统所能够直接利用到的输入数据仅仅只有单独的混合音频信号;因此,对于音频音源分离任务而言,需要研究者设计并使用一种智能化的手段来完成该任务。
音频音源分离有着广泛的应用场景,对于语音识别而言,通过音频音源分离来将人声从复杂的背景噪声中分离,能够更加准确地进行人声内容的识别与提取,提高语音转录等任务的效率;对于音频强化而言,通过音频音源分离智能化地将目标音频信号从混合信号中分离,能够更好地辅助人们完成音频消噪、监听等工作;此外,在音乐编辑、创作工作中,音频音源分离能够在没有分轨音频数据的情况下,单独提取出某一轨乐器的音频数据,从而能够方便音乐制作人员对音频进行重混音或者乐谱转录等工作。综上所述,对于涉及到音频处理的相关领域而言,一个良好的、健壮的音源分离系统是必需且必备的工具。
国外早在上世纪50年代就提出了该问题并进行了长期的研究工作。为了解决这个问题,有许多相关方法被提出,这些方法大致分为监督式方法和非监督式方法。监督式方法主要是通过对模型进行训练以获得音源的相关信息,这些方法主要是基于贝叶斯估计、非负矩阵分解(Nonnegative Matrix Factorization,NMF)理论来设计的,而非监督式学习的方法则是让模型从混合音频信号中自行寻找数据特征,这类方法主要是基于稀疏向量理论来设计的。尽管经过数十年的研究和优化,这些方法对于解决音频音源分离问题的进程产生了巨大的推动作用,但是由于这些方法有的严重依赖于手工设计的先验知识,而有的又基于一些很强的假设来简化问题,因此长期以来并不能得到令人满意的效果,阻碍了相关应用在现实需求下的落地。
近年来,由于深度神经网络(Deep Neural Networks,DNN)在解决复杂问题方面展示了出很好的性能,人们也逐渐开始在音频音源分离任务中引入深度神经网络的模型来解决相关问题,相关方法主要分为基于卷积神经网络(Convolutional Neural Networks,CNN)的模型方法和基于循环神经网络(Recurrent Neural Networks,RNN)的模型方法。这些方法相对于传统方法而言,尽管在性能和泛化能力上都获得了长足的进步,但是仍然存在一些缺陷。例如基于卷积神经网络的模型方法受制于卷积的局部感受域特性,因此对长距离的相关依赖不敏感,容易在特征计算中丢失全局信息;而基于循环神经网络的模型方法受制于模型本身的天生的缺点,对于较长的时序数据会产生遗忘问题;两者的缺陷都限制了模型效果的进一步提升。
发明内容
本发明的目的在于提供一种具有泛化性好、分离出的目标音源音频质量更好等特点的音频音源分离方法。
实现本发明目的的技术解决方案为:一种基于改进自注意力机制与跨频带特征的音频音源分离方法,包括以下步骤:
步骤1,训练集数据准备,所述训练集数据包括混合音频数据以及混合音频数据中待分离的目标音源音频数据;
步骤2,将训练集中的音频数据均转换为音频的时频谱,记为全频带时频谱;
步骤3,构建若干个满足跨频带特征约束的划分策略;
步骤4,基于每个所述划分策略分别对全频带时频谱的频带进行划分,获得该划分策略对应的若干子频带;
步骤5,基于每个所述划分策略构建深度神经网络;
步骤6,训练所述深度神经网络;
步骤7,训练最小方差滤波器;
步骤8,利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号。
进一步地,步骤3中所述构建若干个满足跨频带特征约束的划分策略,具体包括:
假设全频带时频谱为S∈Rn×m,其中n为所述短时傅里叶变换操作中频率方向的采样数,m为时间方向的帧数,定义符号G表示对应于全频带时频谱S的频带离散区间;采用λ个划分策略,将S划分为复数个子频带时频谱,λ>0;所述跨频带特征的定义包括:
定义第l个划分策略对应的子频带时频谱集合Cl
Figure BDA0002370171830000021
式中,Cl为一个有序集合,且以LEFT(Gli)升序排序,LEFT(x)表示区间x的左端点值,Gli为表示Cl集合中的第i个子频带区间元素,ml表示Cl集合中元素的个数;
定义频带边界集合Dl
Dl={bli|bli=RIGHT(Fli),i=1,2...,ml-1}
式中,RIGHT(x)表示区间x的右端点值;
定义最小边界重叠大小z∈N,N表示自然数集合;
基于上述定义构建服从以下跨频带特征约束的划分策略:
对于
Figure BDA0002370171830000031
有bpi∈Gqj
同时对于
Figure BDA0002370171830000032
都有
Figure BDA0002370171830000033
且bpi-LEFT(Gqj)≥z,RIGHT(Gqj)-bpi≥z
其中,1≤p≤λ,1≤i≤mp-1,q≠p,1≤q≤λ,1≤j≤mq,i′≠i,1≤i′≤mp-1。
进一步地,步骤5基于每个所述划分策略构建深度神经网络,具体包括:
(1)对于每一个划分策略,构建相应的卷积神经子网络为:
Figure BDA0002370171830000034
式中,NETl表示第l个划分策略对应的子卷积神经网络集合,
Figure BDA0002370171830000035
表示第l个划分策略中的第i个子卷积神经网络,i=1,2,…,ml,c表示构建卷积神经网络所采用到的金字塔形式的下采样或上采样的次数,即尺度;其中,
Figure BDA0002370171830000036
的结构定义为:
Figure BDA0002370171830000037
式中,Upsample(·)表示上采样层,Concat(·)表示连接操作,Qk(I)=Downsample(DenseBlockk1(I)),k=1,2...c,k表示第k个尺度,Downsample(·)表示下采样层,I表示子卷积神经网络的输入,Wk表示1x1卷积层,Attentionk(X)表示以平坦化特征图X为输入的改进的自注意力层,X={x1,x2,…,xN}∈RC×N,N=W×H,C、W、H分别表示在平坦化之前特征图X在不同维度上的尺寸大小,αk为一个可训练的标量,其初始值为0,DenseBlock(·)表示DenseNet中的Dense Block;
其中,
Attention(X)=Res(β1s+β2cT+X)∈RC×W×H
式中,Res(·)表示重塑操作,也即是维度变换操作,β1和β2均为可训练的标量变量,初始值为0,用于指示注意力特征的可信度;s表示空间注意力特征图,s∈RC×N={s1,s2,...,sN},c表示通道注意力特征图,c∈RN×C={c1,c2,...,cC},其中si、ci′分别为:
Figure BDA0002370171830000041
Figure BDA0002370171830000042
式中,
Figure BDA0002370171830000043
以及
Figure BDA0002370171830000044
均表示1x1卷积层,
Figure BDA0002370171830000045
(2)构建处理全频带时频谱的卷积神经网络
Figure BDA0002370171830000046
该网络的结构与上述
Figure BDA0002370171830000047
的结构相同,但该网络的输入为全频带时频谱。
进一步地,步骤6训练所述深度神经网络,具体包括:
将步骤2获得的混合音频数据对应的时频谱作为深度神经网络的输入,将步骤2获得的待分离的目标音源音频数据对应的时频谱作为深度神经网络的输出目标,对深度神经网络进行训练。
进一步地,步骤7所述训练最小方差滤波器,具体包括:
步骤7-1,提取训练集中所述混合音频数据对应的时频谱中的相位信号;
步骤7-2,将每个划分策略对应的若干子频带作为该划分策略对应的卷积神经子网络的输入,并合并所有卷积神经子网络的输出特征:
Figure BDA0002370171830000048
式中,Os表示所有卷积神经子网络输出s特征的合并结果,Merge(·)表示特征融合操作,γt为可训练的标量,初始值为0,t=2...λ,γ1也为可训练的标量,其初始值为1,Ol为每一个卷积神经子网络的输出:
Figure BDA0002370171830000051
式中,Slr表示子频带区间Glr对应的子频带时频谱,Concatfrequency(·)表示在频率维度上进行特征连接;
步骤7-3,将所述全频带时频谱作为所述卷积神经网络
Figure BDA0002370171830000052
的输入,该卷积神经网络的输出特征记为Of
步骤7-4,根据所述Os和Of获取跨频带特征O:
O=Concatchannel(Of,Os)
式中,Concatchannel(·)表示在通道维度上进行特征连接;
步骤7-5,利用Dense Block和卷积层将所述跨频带特征O转换为预测时频谱;
步骤7-6,通过短时傅里叶逆变换将所述预测时频谱转换为音频信号,在转换过程中时频谱的相位部分采用步骤7-1提取的相位信号;
步骤7-7,将步骤7-6获得的音频信号作为最小方差滤波器的输入,将训练集中待分离的目标音源音频数据作为期望信号,对最小方差滤波器进行训练。
进一步地,步骤8所述利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号,具体过程包括:
步骤8-1,通过短时傅里叶变换将待进行音源分离的混合音频转换为时频谱,并提取该时频谱中的相位信号;
步骤8-2,将步骤8-1获得的时频谱输入至步骤6训练后的深度神经网络,输出目标音源信号的时频谱;
步骤8-3,通过短时傅里叶逆变换将所述目标音源信号的时频谱转换为音频信号,转换过程中时频谱的相位部分采用步骤8-1提取的相位信号;
步骤8-4,将步骤8-3获得的音频信号输入至步骤7训练后的最小方差滤波器中,输出最终的目标音频信号。
本发明与现有技术相比,其显著优点为:1)采用深度学习模型进行目标音频音源信号的估计,相较于传统方法,只需要数据训练,无需引入假设以及借助辅助信息,具有更好的泛化性;2)采用一种带改进的自注意力机制的深度学习模型,使得用于音频音源分离的深度学习模型在特征计算中能够更好地计算全局信息;3)采用一种跨声带特征,使得用于音频音源分离的深度学习模型能够更好地计算频带划分过后频带附近的特征信息;4)综合了改进的自注意力机制和跨声带特征,模型具有更好的性能,所分离出的目标音源音频质量更好。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于改进自注意力机制与跨频带特征的音频音源分离方法的流程图。
图2为本发明中频带划分策略的结构示意图。
图3为本发明中改进的自注意力机制的结构示意图。
图4为本发明基于改进的自注意力机制与跨频带特征方法的模型结构示意图。
具体实施方式
结合图1,本发明提出了一种基于改进自注意力机制与跨频带特征的音频音源分离方法,包括以下步骤:
步骤1,训练集数据准备,训练集数据包括混合音频数据以及混合音频数据中待分离的目标音源音频数据。
步骤2,利用短时傅里叶变换将训练集中的音频数据均转换为音频的时频谱,记为全频带时频谱。
步骤3,构建若干个满足跨频带特征约束的划分策略,具体包括:
假设全频带时频谱为S∈Rn×m,其中n为短时傅里叶变换操作中频率方向的采样数,m为时间方向的帧数,定义符号G表示对应于全频带时频谱S的频带离散区间;采用λ个划分策略,将S划分为复数个子频带时频谱,λ>0;跨频带特征的定义包括:
定义第l个划分策略对应的子频带时频谱集合Cl
Figure BDA0002370171830000061
式中,Cl为一个有序集合,且以LEFT(Gli)升序排序,LEFT(x)表示区间x的左端点值,Gli为表示Cl集合中的第i个子频带区间元素,ml表示Cl集合中元素的个数;
定义频带边界集合Dl
Dl={bli|bli=RIGHT(Fli),i=1,2...,ml-1}
式中,RIGHT(x)表示区间x的右端点值;
定义最小边界重叠大小z∈N,N表示自然数集合;
基于上述定义构建服从以下跨频带特征约束的划分策略:
对于
Figure BDA0002370171830000071
有bpi∈Gqj
同时对于
Figure BDA0002370171830000072
都有
Figure BDA0002370171830000073
且bpi-LEFT(Gqj)≥z,RIGHT(Gqj)-bpi≥z
其中,1≤p≤λ,1≤i≤mp-1,q≠p,1≤q≤λ,1≤j≤mq,i′≠i,1≤i′≤mp-1。
步骤4,结合图3,基于每个划分策略分别对全频带时频谱的频带进行划分,获得该划分策略对应的若干子频带。
步骤5,基于每个划分策略构建深度神经网络,结合图4,该步具体包括:
(1)对于每一个划分策略,构建相应的卷积神经子网络为:
Figure BDA0002370171830000074
式中,NETl表示第l个划分策略对应的子卷积神经网络集合,
Figure BDA0002370171830000075
表示第l个划分策略中的第i个子卷积神经网络,i=1,2,…,ml,c表示构建卷积神经网络所采用到的金字塔形式的下采样或上采样的次数,即尺度;其中,
Figure BDA0002370171830000076
的结构定义为:
Figure BDA0002370171830000077
式中,Upsample(·)表示上采样层,Concat(·)表示连接操作,Qk(I)=Downsample(DenseBlockk1(I)),k=1,2...c,k表示第k个尺度,Downsample(·)表示下采样层,I表示子卷积神经网络的输入,Wk表示1x1卷积层,Attentionk(X)表示以平坦化特征图X为输入的改进的自注意力层,X={x1,x2,…,xN}∈RC×N,N=W×H,C、W、H分别表示在平坦化之前特征图X在不同维度上的尺寸大小,αk为一个可训练的标量,其初始值为0,DenseBlock(·)表示DenseNet中的Dense Block;上采样层的网络结构为插值上采样层与1x1卷积层的组合。
结合图2,其中,
Attention(X)=Res(β1s+β2cT+X)∈RC×W×H
式中,Res(·)表示重塑操作,也即是维度变换操作,β1和β2均为可训练的标量变量,初始值为0,用于指示注意力特征的可信度;s表示空间注意力特征图,s∈RC×N={s1,s2,...,sN},c表示通道注意力特征图,c∈RN×C={c1,c2,...,cC},其中si、ci′分别为:
Figure BDA0002370171830000081
Figure BDA0002370171830000082
式中,
Figure BDA0002370171830000083
以及
Figure BDA0002370171830000084
均表示1x1卷积层,
Figure BDA0002370171830000085
(2)构建处理全频带时频谱的卷积神经网络
Figure BDA0002370171830000086
该网络的结构与上述
Figure BDA0002370171830000087
的结构相同,但该网络的输入为全频带时频谱。
步骤6,训练深度神经网络,具体包括:
将步骤2获得的混合音频数据对应的时频谱作为深度神经网络的输入,将步骤2获得的待分离的目标音源音频数据对应的时频谱作为深度神经网络的输出目标,对深度神经网络进行训练。
步骤7,训练最小方差滤波器,具体包括:
步骤7-1,提取训练集中混合音频数据对应的时频谱中的相位信号;
步骤7-2,将每个划分策略对应的若干子频带作为该划分策略对应的卷积神经子网络的输入,并合并所有卷积神经子网络的输出特征:
Figure BDA0002370171830000088
式中,Os表示所有卷积神经子网络输出s特征的合并结果,Merge(·)表示特征融合操作,γt为可训练的标量,初始值为0,t=2...λ,γ1也为可训练的标量,其初始值为1,Ol为每一个卷积神经子网络的输出:
Figure BDA0002370171830000091
式中,Slr表示子频带区间Glr对应的子频带时频谱,Concatfrequency(·)表示在频率维度上进行特征连接;
步骤7-3,将全频带时频谱作为卷积神经网络Ufc的输入,该卷积神经网络的输出特征记为Of
步骤7-4,根据Os和Of获取跨频带特征O:
O=Concatchannel(Of,Os)
式中,Concatchannel(·)表示在通道维度上进行特征连接;
步骤7-5,利用Dense Block和卷积层将跨频带特征O转换为预测时频谱;
步骤7-6,通过短时傅里叶逆变换将预测时频谱转换为音频信号,在转换过程中时频谱的相位部分采用步骤7-1提取的相位信号;
步骤7-7,将步骤7-6获得的音频信号作为最小方差滤波器的输入,将训练集中待分离的目标音源音频数据作为期望信号,对最小方差滤波器进行训练。
步骤8,利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号。该步具体过程包括:
步骤8-1,通过短时傅里叶变换将待进行音源分离的混合音频转换为时频谱,并提取该时频谱中的相位信号;
步骤8-2,将步骤8-1获得的时频谱输入至步骤6训练后的深度神经网络,输出目标音源信号的时频谱;
步骤8-3,通过短时傅里叶逆变换将目标音源信号的时频谱转换为音频信号,转换过程中时频谱的相位部分采用步骤8-1提取的相位信号;
步骤8-4,将步骤8-3获得的音频信号输入至步骤7训练后的最小方差滤波器中,输出最终的目标音频信号。
下面结合实施例对本发明作进一步详细的描述。
实施例
本实施例对本发明的方法进行验证,具体条件包括:
(1)划分策略数量λ=2;
(2)最小边界重叠大小
Figure BDA0002370171830000101
(3)每一个划分策略的子频带为:
Figure BDA0002370171830000102
Figure BDA0002370171830000103
(4)每一个子卷积神经网络所拥有的尺度c=3;
(5)短时傅里叶变换采用2048点采样,采样率为44.1kHz;
(6)采用DSD100公开数据集作为本实施例的数据集。
本实施例分别对DSD100公开数据集中人声、贝斯、鼓和其他乐器的音源各自单独训练了一个模型以完成对应音源的分离工作。所验证的指标为:分别计算模型在验证集中所分离出的人声、鼓、贝斯和其他这四个音源信号的SDR的中位数。表1展示了本发明所提出的方法在DSD100公开数据集上经过训练后,在验证集上与其他现有方法的性能对比。
表1音源分离方法的性能对比
Figure BDA0002370171830000104
由上述实施例可知,本发明提出的基于改进的自注意力机制和跨声带特征的音频音源分离方法具有很好的性能和进度,泛化性好,更适用于音频音源分离任务,且分离出的目标音源音频质量更好。

Claims (8)

1.一种基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,包括以下步骤:
步骤1,训练集数据准备,所述训练集数据包括混合音频数据以及混合音频数据中待分离的目标音源音频数据;
步骤2,将训练集中的音频数据均转换为音频的时频谱,记为全频带时频谱;
步骤3,构建若干个满足跨频带特征约束的划分策略;
步骤4,基于每个所述划分策略分别对全频带时频谱的频带进行划分,获得该划分策略对应的若干子频带;
步骤5,基于每个所述划分策略构建深度神经网络;
步骤6,训练所述深度神经网络;
步骤7,训练最小方差滤波器;
步骤8,利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号。
2.根据权利要求1所述的基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,步骤2具体利用短时傅里叶变换将训练集中的音频数据均转换为音频的时频谱。
3.根据权利要求1或2所述的基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,步骤3中所述构建若干个满足跨频带特征约束的划分策略,具体包括:
假设全频带时频谱为S∈Rn×m,其中n为所述短时傅里叶变换操作中频率方向的采样数,m为时间方向的帧数,定义符号G表示对应于全频带时频谱S的频带离散区间;采用λ个划分策略,将S划分为复数个子频带时频谱,λ>0;所述跨频带特征的定义包括:
定义第l个划分策略对应的子频带时频谱集合Cl
Figure FDA0002370171820000011
式中,Cl为一个有序集合,且以LEFT(Gli)升序排序,LEFT(x)表示区间x的左端点值,Gli为表示Cl集合中的第i个子频带区间元素,ml表示Cl集合中元素的个数;
定义频带边界集合Dl
Dl={bli|bli=RIGHT(Fli),i=1,2...,ml-1}
式中,RIGHT(x)表示区间x的右端点值;
定义最小边界重叠大小z∈N,N表示自然数集合;
基于上述定义构建服从以下跨频带特征约束的划分策略:
对于
Figure FDA0002370171820000021
有bpi∈Gqj
同时对于
Figure FDA0002370171820000022
都有
Figure FDA0002370171820000023
且bpi-LEFT(Gqj)≥z,RIGHT(Gqj)-bpi≥z
其中,1≤p≤λ,1≤i≤mp-1,q≠p,1≤q≤λ,1≤j≤mq,i′≠i,1≤i′≤mp-1。
4.根据权利要求3所述的基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,步骤5基于每个所述划分策略构建深度神经网络,具体包括:
(1)对于每一个划分策略,构建相应的卷积神经子网络为:
Figure FDA0002370171820000024
式中,NETl表示第l个划分策略对应的子卷积神经网络集合,
Figure FDA0002370171820000025
表示第l个划分策略中的第i个子卷积神经网络,i=1,2,…,ml,c表示构建卷积神经网络所采用到的金字塔形式的下采样或上采样的次数,即尺度;其中,
Figure FDA0002370171820000026
的结构定义为:
Figure FDA0002370171820000027
式中,Upsample(·)表示上采样层,Concat(·)表示连接操作,Qk(I)=Downsample(DenseBlockk1(I)),k=1,2...c,k表示第k个尺度,Downsample(·)表示下采样层,I表示子卷积神经网络的输入,Wk表示1x1卷积层,Attentionk(X)表示以平坦化特征图X为输入的改进的自注意力层,X={x1,x2,…,xN}∈RC×N,N=W×H,C、W、H分别表示在平坦化之前特征图X在不同维度上的尺寸大小,αk为一个可训练的标量,其初始值为0,DenseBlock(·)表示DenseNet中的Dense Block;
其中,
Attention(X)=Res(β1s+β2cT+X)∈RC×W×H
式中,Res(·)表示重塑操作,也即是维度变换操作,β1和β2均为可训练的标量变量,初始值为0,用于指示注意力特征的可信度;s表示空间注意力特征图,s∈RC×N={s1,s2,...,sN},c表示通道注意力特征图,c∈RN×C={c1,c2,...,cC},其中si、ci′分别为:
Figure FDA0002370171820000031
Figure FDA0002370171820000032
式中,
Figure FDA0002370171820000033
以及
Figure FDA0002370171820000034
均表示1x1卷积层,
Figure FDA0002370171820000035
(2)构建处理全频带时频谱的卷积神经网络
Figure FDA0002370171820000036
该网络的结构与上述
Figure FDA0002370171820000037
的结构相同,但该网络的输入为全频带时频谱。
5.根据权利要求4所述的基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,所述上采样层的网络结构为插值上采样层与1x1卷积层的组合。
6.根据权利要求5所述的基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,步骤6训练所述深度神经网络,具体包括:
将步骤2获得的混合音频数据对应的时频谱作为深度神经网络的输入,将步骤2获得的待分离的目标音源音频数据对应的时频谱作为深度神经网络的输出目标,对深度神经网络进行训练。
7.根据权利要求6所述的基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,步骤7所述训练最小方差滤波器,具体包括:
步骤7-1,提取训练集中所述混合音频数据对应的时频谱中的相位信号;
步骤7-2,将每个划分策略对应的若干子频带作为该划分策略对应的卷积神经子网络的输入,并合并所有卷积神经子网络的输出特征:
Figure FDA0002370171820000038
式中,Os表示所有卷积神经子网络输出s特征的合并结果,Merge(·)表示特征融合操作,γt为可训练的标量,初始值为0,t=2...λ,γ1也为可训练的标量,其初始值为1,Ol为每一个卷积神经子网络的输出:
Figure FDA0002370171820000041
式中,Slr表示子频带区间Glr对应的子频带时频谱,Concatfrequency(·)表示在频率维度上进行特征连接;
步骤7-3,将所述全频带时频谱作为所述卷积神经网络
Figure FDA0002370171820000042
的输入,该卷积神经网络的输出特征记为Of
步骤7-4,根据所述Os和Of获取跨频带特征O:
O=Concatchannel(Of,Os)
式中,Concatchannel(·)表示在通道维度上进行特征连接;
步骤7-5,利用Dense Block和卷积层将所述跨频带特征O转换为预测时频谱;
步骤7-6,通过短时傅里叶逆变换将所述预测时频谱转换为音频信号,在转换过程中时频谱的相位部分采用步骤7-1提取的相位信号;
步骤7-7,将步骤7-6获得的音频信号作为最小方差滤波器的输入,将训练集中待分离的目标音源音频数据作为期望信号,对最小方差滤波器进行训练。
8.根据权利要求7所述的基于改进自注意力机制与跨频带特征的音频音源分离方法,其特征在于,步骤8所述利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频,输出预测的目标音频信号,具体过程包括:
步骤8-1,通过短时傅里叶变换将待进行音源分离的混合音频转换为时频谱,并提取该时频谱中的相位信号;
步骤8-2,将步骤8-1获得的时频谱输入至步骤6训练后的深度神经网络,输出目标音源信号的时频谱;
步骤8-3,通过短时傅里叶逆变换将所述目标音源信号的时频谱转换为音频信号,转换过程中时频谱的相位部分采用步骤8-1提取的相位信号;
步骤8-4,将步骤8-3获得的音频信号输入至步骤7训练后的最小方差滤波器中,输出最终的目标音频信号。
CN202010048185.9A 2020-01-16 2020-01-16 基于改进自注意力机制与跨频带特征的音频音源分离方法 Active CN111261186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010048185.9A CN111261186B (zh) 2020-01-16 2020-01-16 基于改进自注意力机制与跨频带特征的音频音源分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010048185.9A CN111261186B (zh) 2020-01-16 2020-01-16 基于改进自注意力机制与跨频带特征的音频音源分离方法

Publications (2)

Publication Number Publication Date
CN111261186A true CN111261186A (zh) 2020-06-09
CN111261186B CN111261186B (zh) 2023-05-30

Family

ID=70952174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010048185.9A Active CN111261186B (zh) 2020-01-16 2020-01-16 基于改进自注意力机制与跨频带特征的音频音源分离方法

Country Status (1)

Country Link
CN (1) CN111261186B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634882A (zh) * 2021-03-11 2021-04-09 南京硅基智能科技有限公司 端到端实时语音端点检测神经网络模型、训练方法
CN112687276A (zh) * 2021-03-11 2021-04-20 北京世纪好未来教育科技有限公司 一种音频信号处理方法、装置及存储介质
CN112992172A (zh) * 2021-01-28 2021-06-18 广州大学 一种基于注意力机制的单通道时域鸟鸣声分离方法
CN113113040A (zh) * 2021-03-22 2021-07-13 北京小米移动软件有限公司 音频处理方法及装置、终端及存储介质
CN113241092A (zh) * 2021-06-15 2021-08-10 新疆大学 基于双注意力机制和多阶段混合卷积网络声源分离方法
CN113380262A (zh) * 2021-05-13 2021-09-10 重庆邮电大学 一种基于注意力机制与扰动感知的声音分离方法
CN113470688A (zh) * 2021-07-23 2021-10-01 平安科技(深圳)有限公司 语音数据的分离方法、装置、设备及存储介质
CN114596879A (zh) * 2022-03-25 2022-06-07 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102522093A (zh) * 2012-01-09 2012-06-27 武汉大学 一种基于三维空间音频感知的音源分离方法
CN108735227A (zh) * 2018-06-22 2018-11-02 北京三听科技有限公司 一种用于对麦克风阵列拾取的语音信号进行声源分离的方法及系统
CN110111773A (zh) * 2019-04-01 2019-08-09 华南理工大学 基于卷积神经网络的音乐信号多乐器识别方法
US20190318725A1 (en) * 2018-04-13 2019-10-17 Mitsubishi Electric Research Laboratories, Inc. Methods and Systems for Recognizing Simultaneous Speech by Multiple Speakers
CN110444223A (zh) * 2019-06-26 2019-11-12 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置
CN110491409A (zh) * 2019-08-09 2019-11-22 腾讯科技(深圳)有限公司 混合语音信号的分离方法、装置、存储介质及电子装置
CN110634501A (zh) * 2018-06-25 2019-12-31 卡西欧计算机株式会社 音频提取装置、机器训练装置、卡拉ok装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102522093A (zh) * 2012-01-09 2012-06-27 武汉大学 一种基于三维空间音频感知的音源分离方法
US20190318725A1 (en) * 2018-04-13 2019-10-17 Mitsubishi Electric Research Laboratories, Inc. Methods and Systems for Recognizing Simultaneous Speech by Multiple Speakers
CN108735227A (zh) * 2018-06-22 2018-11-02 北京三听科技有限公司 一种用于对麦克风阵列拾取的语音信号进行声源分离的方法及系统
CN110634501A (zh) * 2018-06-25 2019-12-31 卡西欧计算机株式会社 音频提取装置、机器训练装置、卡拉ok装置
CN110111773A (zh) * 2019-04-01 2019-08-09 华南理工大学 基于卷积神经网络的音乐信号多乐器识别方法
CN110444223A (zh) * 2019-06-26 2019-11-12 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置
CN110491409A (zh) * 2019-08-09 2019-11-22 腾讯科技(深圳)有限公司 混合语音信号的分离方法、装置、存储介质及电子装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YI HUANG: "《Non-local MMDenseNet with Cross-Band Features for Audio Source Separation》" *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992172A (zh) * 2021-01-28 2021-06-18 广州大学 一种基于注意力机制的单通道时域鸟鸣声分离方法
CN112992172B (zh) * 2021-01-28 2023-09-15 广州大学 一种基于注意力机制的单通道时域鸟鸣声分离方法
CN112687276A (zh) * 2021-03-11 2021-04-20 北京世纪好未来教育科技有限公司 一种音频信号处理方法、装置及存储介质
CN112634882B (zh) * 2021-03-11 2021-06-04 南京硅基智能科技有限公司 端到端实时语音端点检测神经网络模型、训练方法
CN112687276B (zh) * 2021-03-11 2021-06-15 北京世纪好未来教育科技有限公司 一种音频信号处理方法、装置及存储介质
CN112634882A (zh) * 2021-03-11 2021-04-09 南京硅基智能科技有限公司 端到端实时语音端点检测神经网络模型、训练方法
CN113113040A (zh) * 2021-03-22 2021-07-13 北京小米移动软件有限公司 音频处理方法及装置、终端及存储介质
CN113380262B (zh) * 2021-05-13 2022-10-18 重庆邮电大学 一种基于注意力机制与扰动感知的声音分离方法
CN113380262A (zh) * 2021-05-13 2021-09-10 重庆邮电大学 一种基于注意力机制与扰动感知的声音分离方法
CN113241092A (zh) * 2021-06-15 2021-08-10 新疆大学 基于双注意力机制和多阶段混合卷积网络声源分离方法
CN113470688A (zh) * 2021-07-23 2021-10-01 平安科技(深圳)有限公司 语音数据的分离方法、装置、设备及存储介质
CN113470688B (zh) * 2021-07-23 2024-01-23 平安科技(深圳)有限公司 语音数据的分离方法、装置、设备及存储介质
CN114596879A (zh) * 2022-03-25 2022-06-07 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质
CN114596879B (zh) * 2022-03-25 2022-12-30 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111261186B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN111261186B (zh) 基于改进自注意力机制与跨频带特征的音频音源分离方法
Vasquez et al. Melnet: A generative model for audio in the frequency domain
Pandey et al. Densely connected neural network with dilated convolutions for real-time speech enhancement in the time domain
Liu et al. Divide and conquer: A deep CASA approach to talker-independent monaural speaker separation
Takahashi et al. Multi-scale multi-band densenets for audio source separation
CN109949824B (zh) 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法
JP5666021B2 (ja) 復号後オーディオ信号をスペクトル領域で処理する装置及び方法
CN101471072B (zh) 高频重建方法、编码装置和解码装置
CN109378010A (zh) 神经网络模型的训练方法、语音去噪方法及装置
CN103262164B (zh) 叉积增强的基于子带块的谐波换位
JP5340261B2 (ja) ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
CN112989107B (zh) 音频分类和分离方法、装置、电子设备以及存储介质
CN110544482B (zh) 一种单通道语音分离系统
CN113380262B (zh) 一种基于注意力机制与扰动感知的声音分离方法
Grais et al. Multi-resolution fully convolutional neural networks for monaural audio source separation
CN112259119B (zh) 基于堆叠沙漏网络的音乐源分离方法
CN113850246A (zh) 基于对偶一致网络的声源定位与声源分离的方法和系统
Hao et al. Time-domain neural network approach for speech bandwidth extension
Luo et al. Tiny-sepformer: A tiny time-domain transformer network for speech separation
CN116994564A (zh) 一种语音数据的处理方法及处理装置
Hu et al. Unifying speech enhancement and separation with gradient modulation for end-to-end noise-robust speech separation
CN103886859B (zh) 基于一对多码书映射的语音转换方法
Raj et al. Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients
CN117854473A (zh) 基于局部关联信息的零样本语音合成方法
Ghosal et al. Speech/music classification using empirical mode decomposition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant