CN110782915A - 一种基于深度学习的波形音乐成分分离方法 - Google Patents
一种基于深度学习的波形音乐成分分离方法 Download PDFInfo
- Publication number
- CN110782915A CN110782915A CN201911055168.1A CN201911055168A CN110782915A CN 110782915 A CN110782915 A CN 110782915A CN 201911055168 A CN201911055168 A CN 201911055168A CN 110782915 A CN110782915 A CN 110782915A
- Authority
- CN
- China
- Prior art keywords
- music
- waveform
- target
- waveform music
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 53
- 238000013135 deep learning Methods 0.000 title claims abstract description 21
- 238000001228 spectrum Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims description 24
- 238000010606 normalization Methods 0.000 claims description 13
- 238000009432 framing Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000009527 percussion Methods 0.000 claims description 5
- 238000013499 data model Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000005284 excitation Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/066—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/081—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明属于音频处理技术领域,公开了一种基于深度学习的波形音乐成分分离方法。本发明包括以下步骤:获取多个原始波形音乐后进行分类处理及预处理,得到多个不同成分的时频谱样本;依次使用每个原始波形音乐及对应的时频谱样本分别对神经网络进行训练,得到分离模型;将目标波形音乐依次进行分类处理及预处理后,得到目标时频谱并输入分离模型中,得到独立成分的目标波形音乐。本发明能够有效提高波形音乐中独立成分分离的准确性,同时本发明可对任意风格歌曲进行独立成分分离,且通过不断将新分离出的独立成分加入训练集中,分离模型自身能够得到优化,适于推广使用。
Description
技术领域
本发明属于音频处理技术领域,具体涉及一种基于深度学习的波形音乐成分分离方法。
背景技术
音频分离技术是从多个混合语音信号中,分别提取出每一个特定种类的信号,该技术对音频检测、音频识别等具有重要意义。
具体的,在音乐成分分离领域,由于音乐音频信号的复杂性和不稳定性,传统的分离方法达不到很好的分离效果,并且以往的分离中只对目标音乐的频谱幅度进行估计。目前基于深度学习算法在波形音乐成分分离方面处于研究阶段,
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:
a.部分分离算法仅可对特定歌曲进行成分分离,不具备普适性;
b.不同风格的歌曲中相同独立成分的数据表现也有所不同,由于数据杂乱,单独使用深度学习算法无法高效准确地分离独立成分;
c.目前单独使用深度学习进行独立成分分离,无法保证分离出的独立成分的纯净度,容易混杂入其他成分的数据,影响分离效果。
发明内容
本发明旨在于至少在一定程度上解决上述技术问题之一。
为此,本发明目的在于提供一种基于深度学习的波形音乐成分分离方法,能够有效提高波形音乐中独立成分分离的准确性,同时本发明可对任意风格歌曲进行独立成分分离,且通过不断将新分离出的独立成分加入训练集中,分离模型自身能够得到优化。
本发明所采用的技术方案为:
一种基于深度学习的波形音乐成分分离方法,包括以下步骤:
获取多个原始波形音乐,然后对多个原始波形音乐分别依次进行分类处理及预处理,得到多个不同成分的时频谱样本,其中,每个成分对应多个原始波形音乐,每个原始波形音乐对应一时频谱样本;
依次使用每个成分对应的多个原始波形音乐及每个原始波形音乐对应的时频谱样本分别对神经网络进行训练,得到分离模型;
将目标波形音乐依次进行分类处理及预处理后,得到目标时频谱;
将目标时频谱输入分离模型中,得到独立成分的目标波形音乐。
作为优选,所述的神经网络为使用Pytorch深度学习框架搭建的3层deepLSTM深层神经网络。
作为优选,得到分离模型时,每个成分对应的多个原始波形音乐及每个原始波形音乐对应的时频谱样本,逐一通过神经网络对任一成分进行训练后,分别得到神经网络训练模型、每个成分单独的数据模型及每个成分单独的提取模型。
作为优选,对原始波形音乐进行分类处理时,具体步骤如下:
对原始波形音乐进行音乐风格分类,然后将每种音乐风格的原始波形音乐进行成分分类,其中,成分分类时包括人声、打击乐、贝斯、弦乐及其他;
获取成分分类后每个成分的原始波形音乐,形成每个成分对应的原始波形音乐样本集,然后对每个原始波形音乐样本集中的每个原始音乐波形样本进行预处理。
作为优选,对原始波形音乐样本或目标波形音乐进行预处理时,对原始波形音乐样本或目标波形音乐依次进行归一化操作、分帧操作、加窗操作及短时傅里叶变换操作。
作为优选,对原始波形音乐样本或目标波形音乐进行归一化操作时,将原始波形音乐样本或目标波形音乐的采样频率设置为16kHz,并设置每个原始波形音乐样本或目标波形音乐的时长为30s,且将每个原始波形音乐样本或目标波形音乐的幅值范围设置为-1至1。
作为优选,对经过了归一化处理的原始波形音乐样本或目标波形音乐进行分帧操作、加窗操作及短时傅里叶变换操作时,具体步骤如下:
取每32ms采样点为一帧信号,则采样频率为16kHz时对应为512个采样点,若任一采样点长度不足32ms则先将采样点补零到512个;
对每一帧信号进行加窗操作,得到波形信号,其中,加窗操作时采用的加窗函数为汉明窗或汉宁窗;
对波形信号进行短时傅里叶变换操作,将波形信号转换为时频谱。
作为优选,将目标时频谱输入分离模型中,得到独立成分的目标波形音乐时,具体步骤如下:
将目标时频谱输入分离模型中,然后通过Pytorch深度学习框架预测目标独立成分时频谱;
将目标独立成分时频谱进行维纳滤波转换为时域波形,然后将时域波形通过逆短时傅里叶变换转换为波形音乐,由此即可得到独立成分的目标波形音乐。
本发明的有益效果为:
本发明基于深度神经网络,能够有效提高波形音乐中独立成分分离的准确性,同时本发明可对任意风格歌曲进行独立成分分离,且通过不断将新分离出的独立成分加入训练集中,分离模型自身能够得到优化;本发明具有较强的可扩展性和普适性,可针对任一风格的歌曲进行独立成分提取,适于推广使用。
本发明的其他有益效果将在具体实施方式中详细说明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是实施例1的流程框图。
图2是将目标时频谱输入分离模型后得到目标独立成分时频谱的流程框图。
具体实施方式
下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是,对于这些实施例方式的说明虽然是用于帮助理解本发明,但并不构成对本发明的限定。本发明公开的功能细节仅用于描述本发明的示例实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本发明阐述的实施例中。
应当理解,本发明使用的术语仅用于描述特定实施例,并不意在限制本发明的示例实施例。若术语“包括”、“包括了”、“包含”和/或“包含了”在本发明中被使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。
应当理解,还应当注意到在一些备选实施例中,所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。
应当理解,在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统,以避免用不必要的细节来使得示例不清楚。在其他实例中,可以不以不必要的细节来示出众所周知的过程、结构和技术,以避免使得示例实施例不清楚。
实施例1:
如图1所示,本实施例提供一种基于深度学习的波形音乐成分分离方法,包括以下步骤:
获取多个原始波形音乐,然后对多个原始波形音乐分别依次进行分类处理及预处理,得到多个不同成分的时频谱样本,其中,每个成分对应多个原始波形音乐,每个原始波形音乐对应一时频谱样本;多个原始波形音乐即为原始训练样本集;通过对原始波形音乐进行分类处理及预处理,保证了训练样本集的高质量;由于在神经网络训练中拟合的对象是时-频域的时频谱(spectrogram),因此需要将位于时域的波形进行预处理得到时频谱。
依次使用每个成分对应的多个原始波形音乐及每个原始波形音乐对应的时频谱样本分别对神经网络进行训练,得到分离模型;应用深度学习算法进行波形音乐成分分离,提高了数据分类准确性,避免原始数据基础参数一致性等因素影响成分分离的准确性;其中,得到分离模型时,每个成分对应的多个原始波形音乐及每个原始波形音乐对应的时频谱样本,逐一通过神经网络对任一成分进行训练后,分别得到神经网络训练模型、每个成分单独的数据模型及每个成分单独的提取模型。
将目标波形音乐依次进行分类处理及预处理后,得到目标时频谱;
将目标时频谱输入分离模型中,得到独立成分的目标波形音乐。
实施例2
本实施例提供的技术方案是在实施例1的技术方案基础上作出的进一步改进,本实施例与实施例1的区别技术特征在于:
本实施例中,神经网络为使用Pytorch深度学习框架搭建的3层deep LSTM(长短期记忆网络模型)深层神经网络,由于其具有递归性,用来训练和评估任意时间长度的音频信号相比较其它类型的神经网络更加合适。举例说明,首先输入混合时频谱,混合时频谱的维度信息是帧序列、每帧采样序列、音频频道数及频率序列,其中,帧序列和频率序列是由之前对时域波形进行短时傅里叶变换得到;对于位于每一帧的每一个离散频率,采用全局平均和标准差进行输入数据的标准化,这样可以减少冗余信息,加快模型的收敛,减少训练的时间。并且在神经网络的多层直接,多次采用批量归一化(batch normalization),增强训练的鲁棒性。
如图2所示,首先输入待分离的波形音乐的时频谱(即混合时频谱),对其每一帧的每一个离散频率利用均值与标准差映射到同一正态分布中,得到线性模型1,接近对采样频率、时长以及增幅进行归一化处理,接着通过激励函数tanh对线性模型1加入非线性因素,提高模型健壮性,得到的线性模型进入某一目标独立成分的LSTM模型中进行训练,得到线性模型2,再对线性模型2进行两次归一化操作与两次ReLu激励函数的计算,得到目标独立成分的时频谱(即目标时频谱)。
使用基于LSTM深层神经网络和PyTorch深度学习框架对多个原始波形音乐及其对应的时频谱样本进行训练提升了提取原始单独成分特征的准确性,使得分离模型提取目标波形音乐的准确性更高,同时大大提高了分离出的独立成分的目标波形音乐质量。
从原始波形音乐样本中选取原始混合波形音乐及其五种独立成分波形音乐对应的时频谱,使用Pytorch框架搭建LSTM深层神经网络,逐一通过LSTM深层神经网络对某一特定独立成分进行训练后分别得到M(target1)、M(target2)、M(target3)等模型,即每种独立成分波形音乐的时频谱各自通过LSTM深层神经网络进行训练得到各自的模型,如:bass独立成分进行训练后得到M(Bass)模型,这些模型用于与训练提取出的目标波形文件对应。
实施例3
本实施例提供的技术方案是在实施例1或2的技术方案基础上作出的进一步改进,本实施例与实施例1或2的区别技术特征在于:
本实施例中,对原始波形音乐进行分类处理时,具体步骤如下:
对原始波形音乐进行音乐风格分类,然后将每种音乐风格的原始波形音乐进行成分分类,其中,成分分类时包括人声、打击乐、贝斯、弦乐及其他;其中,其他为不属于前四种成分的所有音乐;由此可以基于LSTM深层神经网络,从原始波形音乐文件中分离出人声(vocals)、打击乐(drums)、贝斯(bass)、弦乐(strings)以及其他(others)单独成分中一种或多种成分。
获取成分分类后每个成分的原始波形音乐,形成每个成分对应的原始波形音乐样本集,然后对每个原始波形音乐样本集中的每个原始音乐波形样本进行预处理。
实施例4
本实施例提供的技术方案是在实施例3的技术方案基础上作出的进一步改进,本实施例与实施例3的区别技术特征在于:
本实施例中,对原始波形音乐样本或目标波形音乐进行预处理时,对原始波形音乐样本或目标波形音乐依次进行归一化操作、分帧操作、加窗操作及短时傅里叶变换操作;其中,对原始波形音乐样本或目标波形音乐进行归一化处理,可以保证信号的完整性,提高了深度学习的训练质量。
需要说明的是,分帧操作的意义在于可以得到尽可能平稳的波形信号;加窗操作可以减少波形信号中的干扰、噪声和抖动,减少频谱泄露。
实施例5
本实施例提供的技术方案是在实施例4的技术方案基础上作出的进一步改进,本实施例与实施例4的区别技术特征在于:
本实施例中,对原始波形音乐样本或目标波形音乐进行归一化操作时,将原始波形音乐样本或目标波形音乐的采样频率设置为16kHz,并设置每个原始波形音乐样本或目标波形音乐的时长为30s,且将每个原始波形音乐样本或目标波形音乐的幅值范围设置为-1至1。,由此可以降低因数据波动造成训练误差较多的情况。
实施例6
本实施例提供的技术方案是在实施例4或5的技术方案基础上作出的进一步改进,本实施例与实施例4或5的区别技术特征在于:
本实施例中,对经过了归一化处理的原始波形音乐样本或目标波形音乐进行分帧操作、加窗操作及短时傅里叶变换操作时,具体步骤如下:
取每32ms采样点为一帧信号,则采样频率为16kHz时对应为512个采样点,若任一采样点长度不足32ms则先将采样点补零到512个;
对每一帧信号进行加窗操作,得到波形信号,其中,加窗操作时采用的加窗函数为汉明窗或汉宁窗;
对波形信号进行短时傅里叶变换操作,将波形信号转换为时频谱。
实施例7
本实施例提供的技术方案是在实施例2至6任一的技术方案基础上作出的进一步改进,本实施例与实施例2至6任一的区别技术特征在于:
本实施例中,将目标时频谱输入分离模型中,得到独立成分的目标波形音乐时,具体步骤如下:
将目标时频谱输入分离模型中,然后通过Pytorch深度学习框架预测目标独立成分时频谱;
将目标独立成分时频谱进行维纳滤波转换为时域波形,然后将时域波形通过逆短时傅里叶变换转换为波形音乐,由此即可得到独立成分的目标波形音乐。
具体应用中,首先从网络中筛选大量波形文件进行实验,得到原始混合波形音乐后对其按照人声(vocals)、打击乐(drums)、贝斯(bass)、弦乐(strings)以及其他(others)这五个成分进行分离得到每个成分对应的原始训练集,进而建立每个成分的单独成分数据模型;然后选择入参,即输入目标独立成分,这里的目标独立成分可以为多个,根据选择的独立成分从原始训练集中取出所有混合波形音乐及其对应的独立成分;接着将取出的原始波形音乐通过分帧操作、加窗操作及短时傅里叶变换操作后得到时频谱,使用PyTorch深度学习框架搭建LSTM深层神经网络训练模型,针对各独立成分分别训练得到各成分的单独成分提取模型;接着将待分离的目标波形音乐通过分帧、加窗、短时傅里,逆短时傅里叶变换得到目标独立成分波形音乐;其中,在实验过程中,发明人采用的实验数据超过150个混合波形音乐及700个独立成分波形音乐,其中140个为训练集,10个为测试集,通过构建分离模型,该10个测试集中分离成分的准确率达到96%以上,存在极少量因噪点干扰而出现的某一小段波形的多提取或缺提取,整体上基本提取成功。
以上所描述的实施例仅仅是示意性的,若涉及到作为分离部件说明的单元,其可以是或者也可以不是物理上分开的;若涉及到作为单元显示的部件,其可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。
Claims (8)
1.一种基于深度学习的波形音乐成分分离方法,其特征在于:包括以下步骤:
获取多个原始波形音乐,然后对多个原始波形音乐分别依次进行分类处理及预处理,得到多个不同成分的时频谱样本,其中,每个成分对应多个原始波形音乐,每个原始波形音乐对应一时频谱样本;
依次使用每个成分对应的多个原始波形音乐及每个原始波形音乐对应的时频谱样本分别对神经网络进行训练,得到分离模型;
将目标波形音乐依次进行分类处理及预处理后,得到目标时频谱;
将目标时频谱输入分离模型中,得到独立成分的目标波形音乐。
2.根据权利要求1所述的分离方法,其特征在于:所述的神经网络为使用Pytorch深度学习框架搭建的3层deep LSTM深层神经网络。
3.根据权利要求2所述的分离方法,其特征在于:得到分离模型时,每个成分对应的多个原始波形音乐及每个原始波形音乐对应的时频谱样本,逐一通过神经网络对任一成分进行训练后,分别得到神经网络训练模型、每个成分单独的数据模型及每个成分单独的提取模型。
4.根据权利要求3所述的分离方法,其特征在于:对原始波形音乐进行分类处理时,具体步骤如下:
对原始波形音乐进行音乐风格分类,然后将每种音乐风格的原始波形音乐进行成分分类,其中,成分分类时包括人声、打击乐、贝斯、弦乐及其他;
获取成分分类后每个成分的原始波形音乐,形成每个成分对应的原始波形音乐样本集,然后对每个原始波形音乐样本集中的每个原始音乐波形样本进行预处理。
5.根据权利要求4所述的分离方法,其特征在于:对原始波形音乐样本或目标波形音乐进行预处理时,对原始波形音乐样本或目标波形音乐依次进行归一化操作、分帧操作、加窗操作及短时傅里叶变换操作。
6.根据权利要求5所述的分离方法,其特征在于:对原始波形音乐样本或目标波形音乐进行归一化操作时,将原始波形音乐样本或目标波形音乐的采样频率设置为16kHz,并设置每个原始波形音乐样本或目标波形音乐的时长为30s,且将每个原始波形音乐样本或目标波形音乐的幅值范围设置为-1至1。
7.根据权利要求6所述的分离方法,其特征在于:对经过了归一化处理的原始波形音乐样本或目标波形音乐进行分帧操作、加窗操作及短时傅里叶变换操作时,具体步骤如下:
取每32ms采样点为一帧信号,则采样频率为16kHz时对应为512个采样点,若任一采样点长度不足32ms则先将采样点补零到512个;
对每一帧信号进行加窗操作,得到波形信号,其中,加窗操作时采用的加窗函数为汉明窗或汉宁窗;
对波形信号进行短时傅里叶变换操作,将波形信号转换为时频谱。
8.根据权利要求2-7任一所述的分离方法,其特征在于:将目标时频谱输入分离模型中,得到独立成分的目标波形音乐时,具体步骤如下:
将目标时频谱输入分离模型中,然后通过Pytorch深度学习框架预测目标独立成分时频谱;
将目标独立成分时频谱进行维纳滤波转换为时域波形,然后将时域波形通过逆短时傅里叶变换转换为波形音乐,由此即可得到独立成分的目标波形音乐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911055168.1A CN110782915A (zh) | 2019-10-31 | 2019-10-31 | 一种基于深度学习的波形音乐成分分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911055168.1A CN110782915A (zh) | 2019-10-31 | 2019-10-31 | 一种基于深度学习的波形音乐成分分离方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110782915A true CN110782915A (zh) | 2020-02-11 |
Family
ID=69388253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911055168.1A Pending CN110782915A (zh) | 2019-10-31 | 2019-10-31 | 一种基于深度学习的波形音乐成分分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110782915A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339865A (zh) * | 2020-02-17 | 2020-06-26 | 杭州慧川智能科技有限公司 | 一种基于自监督学习的音乐合成视频mv的方法 |
CN111724807A (zh) * | 2020-08-05 | 2020-09-29 | 字节跳动有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN112397044A (zh) * | 2020-11-06 | 2021-02-23 | 四川省人工智能研究院(宜宾) | 一种基于深度学习的自动音乐转录方法 |
CN112817049A (zh) * | 2020-12-28 | 2021-05-18 | 中海油田服务股份有限公司 | 一种声波时差的计算方法 |
CN113113040A (zh) * | 2021-03-22 | 2021-07-13 | 北京小米移动软件有限公司 | 音频处理方法及装置、终端及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070083365A1 (en) * | 2005-10-06 | 2007-04-12 | Dts, Inc. | Neural network classifier for separating audio sources from a monophonic audio signal |
JP2012078412A (ja) * | 2010-09-30 | 2012-04-19 | Brother Ind Ltd | プログラム、及び編集装置 |
CN103151039A (zh) * | 2013-02-07 | 2013-06-12 | 中国科学院自动化研究所 | 一种基于向量机svm的说话者年龄段识别方法 |
CN103186527A (zh) * | 2011-12-27 | 2013-07-03 | 北京百度网讯科技有限公司 | 建立音乐分类模型的系统、推荐音乐的系统及相应方法 |
CN106328121A (zh) * | 2016-08-30 | 2017-01-11 | 南京理工大学 | 基于深度置信网络的中国传统乐器分类方法 |
CN109165727A (zh) * | 2018-09-04 | 2019-01-08 | 成都品果科技有限公司 | 一种基于循环神经网络的数据预测方法 |
US20190206417A1 (en) * | 2017-12-28 | 2019-07-04 | Knowles Electronics, Llc | Content-based audio stream separation |
-
2019
- 2019-10-31 CN CN201911055168.1A patent/CN110782915A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070083365A1 (en) * | 2005-10-06 | 2007-04-12 | Dts, Inc. | Neural network classifier for separating audio sources from a monophonic audio signal |
JP2012078412A (ja) * | 2010-09-30 | 2012-04-19 | Brother Ind Ltd | プログラム、及び編集装置 |
CN103186527A (zh) * | 2011-12-27 | 2013-07-03 | 北京百度网讯科技有限公司 | 建立音乐分类模型的系统、推荐音乐的系统及相应方法 |
CN103151039A (zh) * | 2013-02-07 | 2013-06-12 | 中国科学院自动化研究所 | 一种基于向量机svm的说话者年龄段识别方法 |
CN106328121A (zh) * | 2016-08-30 | 2017-01-11 | 南京理工大学 | 基于深度置信网络的中国传统乐器分类方法 |
US20190206417A1 (en) * | 2017-12-28 | 2019-07-04 | Knowles Electronics, Llc | Content-based audio stream separation |
CN109165727A (zh) * | 2018-09-04 | 2019-01-08 | 成都品果科技有限公司 | 一种基于循环神经网络的数据预测方法 |
Non-Patent Citations (1)
Title |
---|
高彦琳等: "《基于CNN-LSTM模型的情感分析研究》", 《辽宁科技大学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339865A (zh) * | 2020-02-17 | 2020-06-26 | 杭州慧川智能科技有限公司 | 一种基于自监督学习的音乐合成视频mv的方法 |
CN111724807A (zh) * | 2020-08-05 | 2020-09-29 | 字节跳动有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN111724807B (zh) * | 2020-08-05 | 2023-08-11 | 字节跳动有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN112397044A (zh) * | 2020-11-06 | 2021-02-23 | 四川省人工智能研究院(宜宾) | 一种基于深度学习的自动音乐转录方法 |
CN112397044B (zh) * | 2020-11-06 | 2022-07-01 | 四川省人工智能研究院(宜宾) | 一种基于深度学习的自动音乐转录方法 |
CN112817049A (zh) * | 2020-12-28 | 2021-05-18 | 中海油田服务股份有限公司 | 一种声波时差的计算方法 |
CN112817049B (zh) * | 2020-12-28 | 2022-08-02 | 中海油田服务股份有限公司 | 一种声波时差的计算方法 |
CN113113040A (zh) * | 2021-03-22 | 2021-07-13 | 北京小米移动软件有限公司 | 音频处理方法及装置、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Deep extractor network for target speaker recovery from single channel speech mixtures | |
Cano et al. | Musical source separation: An introduction | |
CN110782915A (zh) | 一种基于深度学习的波形音乐成分分离方法 | |
Lluís et al. | End-to-end music source separation: Is it possible in the waveform domain? | |
Xu et al. | An experimental study on speech enhancement based on deep neural networks | |
WO2019191556A1 (en) | Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition | |
CN111369982A (zh) | 音频分类模型的训练方法、音频分类方法、装置及设备 | |
Cyrta et al. | Speaker diarization using deep recurrent convolutional neural networks for speaker embeddings | |
Carabias-Orti et al. | An Audio to Score Alignment Framework Using Spectral Factorization and Dynamic Time Warping. | |
Liu et al. | Deep CASA for talker-independent monaural speech separation | |
Han et al. | DPCCN: Densely-connected pyramid complex convolutional network for robust speech separation and extraction | |
Li et al. | Sams-net: A sliced attention-based neural network for music source separation | |
Hou et al. | Domain adversarial training for speech enhancement | |
Labied et al. | An overview of automatic speech recognition preprocessing techniques | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
Wu et al. | Self-supervised speech denoising using only noisy audio signals | |
Huang et al. | Dccrgan: Deep complex convolution recurrent generator adversarial network for speech enhancement | |
Sahai et al. | Spectrogram feature losses for music source separation | |
Nakajima et al. | Monaural source enhancement maximizing source-to-distortion ratio via automatic differentiation | |
Pons et al. | Gass: Generalizing audio source separation with large-scale data | |
Rice et al. | General Purpose Audio Effect Removal | |
CN114302301B (zh) | 频响校正方法及相关产品 | |
Kaspersen et al. | Hydranet: A real-time waveform separation network | |
Zhou et al. | A speech enhancement neural network architecture with SNR-progressive multi-target learning for robust speech recognition | |
Zhao et al. | Speaker-aware mixture of mixtures training for weakly supervised speaker extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200211 |