CN104464727B - 一种基于深度信念网络的单通道音乐的歌声分离方法 - Google Patents

一种基于深度信念网络的单通道音乐的歌声分离方法 Download PDF

Info

Publication number
CN104464727B
CN104464727B CN201410755098.1A CN201410755098A CN104464727B CN 104464727 B CN104464727 B CN 104464727B CN 201410755098 A CN201410755098 A CN 201410755098A CN 104464727 B CN104464727 B CN 104464727B
Authority
CN
China
Prior art keywords
dbn
music
song
single channel
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410755098.1A
Other languages
English (en)
Other versions
CN104464727A (zh
Inventor
余春艳
林明安
滕保强
张栋
刘灵辉
叶东毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201410755098.1A priority Critical patent/CN104464727B/zh
Publication of CN104464727A publication Critical patent/CN104464727A/zh
Application granted granted Critical
Publication of CN104464727B publication Critical patent/CN104464727B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

本发明涉及一种基于深度信念网络的单通道音乐的歌声分离方法:先利用深度信念网络(DBN)抽取出有利于伴奏声和歌声的分离的高层抽象特征,紧接着利用Back‑Propagation神经网络分离出伴奏声和歌声的特征,最后利用重叠相加法得到时域的伴奏声和歌声信号。该方法将待分离的混合音乐分成很短的片段,从而弥补DBN在处理不同时间尺度音乐信号上的缺陷,同时利用了DBN的快速抽取高层抽象特征能力抽取出有利于分离出人声和伴奏声的高层抽象特征。最后考虑到由于单通道音乐信号是属于高维数据,在处理高维输入和高维输出问题上神经网络有着其特有的处理能力,所以选择使用BP神经网络作为最后的人声和伴奏声的分离器。该方法简单灵活,具有较强的实用性。

Description

一种基于深度信念网络的单通道音乐的歌声分离方法
技术领域
本发明涉及单通道音乐的伴奏声和人声分离领域,特别是一种基于深度信念网络的单通道音乐的歌声分离方法。
背景技术
随着计算机信号处理技术和互联网技术的不断发展,单通道音乐的歌声分离越来越受人们重视。单通道音乐人声分离技术在很多系统都会用到,如KTV系统中音乐伴奏的获得;音乐检索系统中根据音乐内容来检索的系统特别是根据歌唱者的声音特质检索音乐、音乐推荐系统中利用歌唱者声音特质来推荐音乐等等。不管是KTV系统中的伴奏获得、还是基于歌唱者声音的音乐检索系统、抑或是基于歌唱者声音的音乐推荐系统;为了保证这些系统有较好的性能,必须得到较为纯净的伴奏声或者歌声。而现实中人们能够获得的音乐信号大部分是单通道音乐信号,所以单通道音乐人声分离技术在这些系统中能够得到广泛的应用。然而,现在针对单通道音乐的歌声分离技术还远远不能达到人耳系统的性能,因此对于该领域的研究还有很大的步伐要走。
由于单通道音乐信号是极度欠定的,所以在对其进行歌声分离时可用的信息非常少,这使得针对单通道音乐的歌声分离具有很大的挑战性。尽管,针对单通道语音的分离已经有很大的成功,但由于歌声的特殊性,很多单通道语音分离技术并不能很好的应用到单通道音乐歌声分离中。直到2007年Y.Li才首次提出利用人声的音高周期进行单通道音乐的歌声分离。此后,基于谱分解的方法也相继被提出,如基于非负矩阵分解、稀疏矩阵分解等等。这些方法都取得了一定的成功,但都不能取得如愿的效果。如基于音高周期的方法,其本身音高周期检测就是一个学术难题;而基于谱分解的方法又有太多的假设前提。
2006年由Hinton等人提出的针对深度信念网络(DBN)的快速学习方法,使得深度神经网络重新引起科研工作者的关注。由于深度神经网络以其特有的强大特征抽取能力,使得其在并在图像处理和语音处理这两个领域率先得到应用,并且取得了很好的效果。但由于DBN并不是专门用来解决时间序列问题的,所以本专利同时提出了针对该问题的DBN输入数据构造方法。本专利基于对单通道音乐信号和深度学习的认识,提出了一种新的单通道音乐歌声分离方法,特别是一种基于深度信念网络的单通道音乐的歌声分离方法。
发明内容
有鉴于此,本发明的目的是在于提供一种基于深度信念网络的单通道音乐的歌声分离方法,以实现针对单通道音乐特性的歌声分离问题。
本发明采用以下方案实现:一种基于深度信念网络的单通道音乐的歌声分离方法,利用深度信念网络(DBN)抽取出有利于伴奏声和歌声的分离的高层抽象特征,紧接着利用Back-Propagation神经网络(BP神经网络)分离出伴奏声和歌声特征,最后利用重叠相加法得到伴奏声和歌声。具体包括以下步骤:
S1:利用傅里叶变换从待分离的单通道音乐片段获得特征;
S2:将从步骤S1得到的特征作为已经训练得到的DBN特征抽取模型的输入,利用所述DBN特征抽取模型抽取出有利于分离伴奏声和歌声的高层抽象特征;其中所述DBN为深度信念网络;
S3:利用已训练得到的BP神经网络分离模型分离出伴奏声和歌声特征;由BP神经网络分离模型输出的伴奏声和歌声的特征得到伴奏声和歌声;其中BP神经网络为Back-Propagation神经网络。
进一步地,所述步骤S1中的特征为通过傅里叶变换得到的长度为l的单通道音乐片段归一化后的幅度谱;其中设输入为x,则x是大小为l*Fs的行向量,其中Fs是所述音乐片段的采样频率。
进一步地,所述的l可取16ms至512ms。
进一步地,所述DBN由若干个RBM堆叠而成,其中每个RBM的输入为上一个RBM的输出;所述的RBM为受限玻尔兹曼机。特别的,具体节点数设置为:所述的RBM由一层可见层v和一层隐藏层h构成;其中所述的可见层为每个RBM的输入层,第一个RBM的可见层节点数为l*Fs,其余的RBM可见层节点数均为l*Fs*2;所述的隐藏层为每个RBM的输出,每个RBM的输出作为下一个RBM的输入,所有RBM的隐藏层节点数均为l*Fs*2。
具体的,所述步骤S2中已经训练得到的DBN特征抽取模型的训练过程包括以下步骤:
步骤S21:构建训练样本(X,Y),其中X表示所有的训练样本的输入特征,Y表示纯净的伴奏声和纯净的歌声归一化后的振幅谱;
步骤S22:无监督贪心逐层训练DBN;设所述的DBN由m个受限玻尔兹曼机RBM堆叠而成,则整个DBN共有m+1层;其中对第i(i≠1)层训练过程为:由第i-1层和第i层构成的RBM通过Contractive Divergence算法训练;其中第1层为输入层;
步骤S23:对DBN进行有监督微调;将步骤S22中通过无监督贪心训练的DBN翻折,得到层数为2m+1的自动编码机;利用BP算法对该编码机进行训练,用以微调DBN。
具体地,所述的步骤S21具体包括以下步骤:
步骤S211:构建X;给定单通道音乐混合信号mix_si,i=1,2...n,其中n为所述给定单通道音乐混合信号的个数,其中每个信号的长度可以不一样;使用长度为l,偏移量为l/2的窗函数,对每个信号进行分割,得到个长度为l*Fs的小片段1,其中Ni=ti*Fs为所述给定单通道音乐混合信号mix_si的长度,ti为所述给定单通道音乐混合信号mix_si的时长;对所述小片段1进行傅里叶变换得到振幅谱,将振幅谱归一化,构建出大小为r*c的X,其中c=l*Fs;
步骤S212:构建Y;给定伴奏信号music_si和歌声信号singing_si,i=1,2...n,其中n为信号的个数,所述给定伴奏信号music_si和歌声信号singing_si的长度均与所述给定单通道音乐混合信号mix_si一样;使用长度为l,偏移量为l/2的窗函数将所述伴奏信号music_si和歌声信号singing_si额分别分割成个长度为l*Fs的小片段2;其中Ni=ti*Fs为所述给定单通道音乐混合信号mix_si的长度,ti为所述给定单通道音乐混合信号mix_si的时长;对所述小片段2进行傅里叶变换得到振幅谱,将振幅谱归一化;将同一个窗口分割出来的伴奏信号和歌声信号归一化后的振幅谱连接成大小为1×(2*l*Fs)的Yj,其中前l*Fs大小的Yj为所述伴奏信号的归一化振幅谱,后l*Fs大小的Yj为所述歌声信号的归一化振幅谱,进而得到大小为r×(2*c)的Y,其中
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:获得训练样本(X',Y)。将所述的训练样本(X,Y)中的X通过已经训练好的DBN进行处理,得到大小为r×(2*c)的X',其中获得训练样本(X',Y),其中所述Y与所述的训练样本(X,Y)中的Y相同;
步骤S32:有监督训练BP神经网络;将步骤S31中所述的X'作为BP神经网络的输入数据,将步骤S31中所述的Y作为监督标签数据;
步骤S33:利用训练好的BP神经网络进行人声分离;将步骤S2中得到的高层抽象特征作为BP神经网络的输入,由BP神经网络得到人声和伴奏声的特征,并将所述的人声和伴奏声的特征作为BP神经网络的输出。
较佳地,由于BP神经网络输出的伴奏声和歌声的特征为归一化后的振幅谱,本发明先对该振幅谱去归一化,然后使用重叠相加法得到时域伴奏声和歌声。
相较于现有技术,本发明具有以下有益效果:本发明提出了一种基于深度信念网络的单通道音乐的歌声分离方法,利用深度神经网络以其特有的强大特征抽取能力,本发明基于对单通道音乐信号和深度学习的认识,提出针对DBN用于解决单通道音乐歌声分离的输入数据构造方法,最后得到一种新的针对单通道音乐的歌声分离方法,特别是一种基于深度信念网络的单通道音乐的歌声分离方法。该方法简单,实现灵活,实用性较强。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,本实施提供一种基于深度信念网络的单通道音乐的歌声分离方法,利用深度信念网络(DBN)抽取出有利于伴奏声和歌声的分离的高层抽象特征,紧接着利用Back-Propagation神经网络(BP神经网络)分离出伴奏声和歌声特征,最后利用重叠相加法得到伴奏声和歌声。具体包括以下步骤:
S1:利用傅里叶变换从待分离的单通道音乐片段获得特征;
S2:将从步骤S1得到的特征作为已经训练得到的DBN特征抽取模型的输入,利用所述DBN特征抽取模型抽取出有利于分离伴奏声和歌声的高层抽象特征;其中所述DBN为深度信念网络;
S3:利用已训练得到的BP神经网络分离模型分离出伴奏声和歌声特征;由BP神经网络分离模型输出的伴奏声和歌声的特征得到伴奏声和歌声;其中BP神经网络为Back-Propagation神经网络。
在本实施例中,所述步骤S1中的特征为通过傅里叶变换得到的长度为l的单通道音乐片段归一化后的幅度谱;其中设输入为x,则x是大小为l*Fs的行向量,其中Fs是所述音乐片段的采样频率。
在本实施例中,所述的l可取16ms至512ms。
在本实施例中,所述DBN由若干个RBM堆叠而成,其中每个RBM的输入为上一个RBM的输出;其中所述的RBM为受限玻尔兹曼机。特别的,具体节点数设置为:所述的RBM由一层可见层v和一层隐藏层h构成;其中所述的可见层为每个RBM的输入层,第一个RBM的可见层节点数为l*Fs,其余的RBM可见层节点数均为l*Fs*2;所述的隐藏层为每个RBM的输出,每个RBM的输出作为下一个RBM的输入,所有RBM的隐藏层节点数均为l*Fs*2。
具体的,在本实施例中,所述步骤S2中已经训练得到的DBN特征抽取模型的训练过程包括以下步骤:
步骤S21:构建训练样本(X,Y),其中X表示所有的训练样本的输入特征,Y表示纯净的伴奏声和纯净的歌声归一化后的振幅谱;
步骤S22:无监督贪心逐层训练DBN;设所述的DBN由m个受限玻尔兹曼机RBM堆叠而成,则整个DBN共有m+1层;其中对第i(i≠1)层训练过程为:由第i-1层和第i层构成的RBM通过Contractive Divergence算法训练;其中第1层为输入层;
步骤S23:对DBN进行有监督微调;将步骤S22中通过无监督贪心训练的DBN翻折,得到层数为2m+1的自动编码机;利用BP算法对该编码机进行训练,用以微调DBN。
具体地,在本实施例中,所述的步骤S21具体包括以下步骤:
步骤S211:构建X;给定单通道音乐混合信号mix_si,i=1,2...n,其中n为所述给定单通道音乐混合信号的个数,其中每个信号的长度可以不一样;使用长度为l,偏移量为l/2的窗函数,对每个信号进行分割,得到个长度为l*Fs的小片段1,其中Ni=ti*Fs为所述给定单通道音乐混合信号mix_si的长度,ti为所述给定单通道音乐混合信号mix_si的时长;对所述小片段1进行傅里叶变换得到振幅谱,将振幅谱归一化,构建出大小为r*c的X,其中
步骤S212:构建Y;给定伴奏信号music_si和歌声信号singing_si,i=1,2...n,其中n为信号的个数,所述给定伴奏信号music_si和歌声信号singing_si的长度均与所述给定单通道音乐混合信号mix_si一样;使用长度为l,偏移量为l/2的窗函数将所述伴奏信号music_si和歌声信号singing_si额分别分割成个长度为l*Fs的小片段2;其中Ni=ti*Fs为所述给定单通道音乐混合信号mix_si的长度,ti为所述给定单通道音乐混合信号mix_si的时长;对所述小片段2进行傅里叶变换得到振幅谱,将振幅谱归一化;将同一个窗口分割出来的伴奏信号和歌声信号归一化后的振幅谱连接成大小为1×(2*l*Fs)的Yj,其中前l*Fs大小的Yj为所述伴奏信号的归一化振幅谱,后l*Fs大小的Yj为所述歌声信号的归一化振幅谱,进而得到大小为r×(2*c)的Y,其中
在本实施例中,所述步骤S3具体包括以下步骤:
步骤S31:获得训练样本(X',Y)。将所述的训练样本(X,Y)中的X通过已经训练好的DBN进行处理,得到大小为r×(2*c)的X',其中获得训练样本(X',Y),其中所述Y与所述的的训练样本(X,Y)中的Y相同;
步骤S32:有监督训练BP神经网络;将步骤S31中所述的X'作为BP神经网络的输入数据,将步骤S31中所述的Y作为监督标签数据;
步骤S33:利用训练好的BP神经网络进行人声分离;将步骤S2中得到的高层抽象特征作为BP神经网络的输入,由BP神经网络得到人声和伴奏声的特征,并将所述的人声和伴奏声的特征作为BP神经网络的输出。
较佳地,在本实施例中,由于BP神经网络输出的伴奏声和歌声的特征为归一化后的振幅谱,本发明先对该振幅谱去归一化,然后使用重叠相加法得到时域伴奏声和歌声。
综上所述,本发明将待分离的混合音乐分成很短的片段,从而弥补DBN在处理不同时间尺度音乐信号上的缺陷,同时利用了DBN的快速抽取高层抽象特征能力抽取出有利于分离出人声和伴奏声的高层抽象特征。最后考虑到由于单通道音乐信号是属于高维数据,在处理高维输入和高维输出问题上神经网络有着其特有的处理能力,所以选择使用BP神经网络作为最后的人声和伴奏声的分离器。本发明方法简单灵活,具有较强的实用性。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (4)

1.一种基于深度信念网络的单通道音乐的歌声分离方法,其特征在于包括以下步骤:
S1:利用傅里叶变换从待分离的单通道音乐片段获得特征;
S2:将从步骤S1得到的特征作为已经训练得到的DBN特征抽取模型的输入,利用所述DBN特征抽取模型抽取出有利于分离伴奏声和歌声的高层抽象特征;其中所述DBN为深度信念网络;
S3:将步骤S2中得到的有利于分离伴奏声和歌声的高层抽象特征作为已训练得到的BP神经网络分离模型的输入,利用所述已训练得到的BP神经网络分离模型分离出伴奏声和歌声特征;由BP神经网络分离模型输出的伴奏声和歌声的特征得到伴奏声和歌声;其中BP神经网络为Back-Propagation神经网络;
其中,所述步骤S2中已经训练得到的DBN特征抽取模型的训练过程包括以下步骤:
步骤S21:构建训练样本(X,Y),其中X表示所有的训练样本的输入特征,Y表示纯净的伴奏声和纯净的歌声归一化后的振幅谱;
步骤S22:无监督贪心逐层训练DBN;设所述的DBN由m个受限玻尔兹曼机RBM堆叠而成,则整个DBN共有m+1层;其中对第i(i≠1)层训练过程为:由第i-1层和第i层构成的RBM通过Contractive Divergence算法训练;其中第1层为输入层;
步骤S23:对DBN进行有监督微调;将步骤S22中通过无监督贪心训练的DBN翻折,得到层数为2m+1的自动编码机;利用BP算法对该编码机进行训练,用以微调DBN;
其中,所述的步骤S21具体包括以下步骤:
步骤S211:构建X;给定单通道音乐混合信号mix_si,i=1,2...n,其中n为所述给定单通道音乐混合信号的个数;使用长度为l,偏移量为l/2的窗函数,对每个信号进行分割,得到个长度为l*Fs的小片段1,其中Ni=ti*Fs为所述给定单通道音乐混合信号mix_si的长度,ti为所述给定单通道音乐混合信号mix_si的时长;对所述小片段1进行傅里叶变换得到振幅谱,将振幅谱归一化,构建出大小为r*c的X,其中c=l*Fs;
步骤S212:构建Y;给定伴奏信号music_si和歌声信号singing_si,i=1,2...n,其中n为信号的个数,所述给定伴奏信号music_si和歌声信号singing_si的长度均与所述给定单通道音乐混合信号mix_si一样;使用长度为l,偏移量为l/2的窗函数将所述伴奏信号music_si和歌声信号singing_si额分别分割成个长度为l*Fs的小片段2;其中Ni=ti*Fs为所述给定单通道音乐混合信号mix_si的长度,ti为所述给定单通道音乐混合信号mix_si的时长;对所述小片段2进行傅里叶变换得到振幅谱,将振幅谱归一化;将同一个窗口分割出来的伴奏信号和歌声信号归一化后的振幅谱连接成大小为1×(2*l*Fs)的Yj,其中前l*Fs大小的Yj为所述伴奏信号的归一化振幅谱,后l*Fs大小的Yj为所述歌声信号的归一化振幅谱,进而得到大小为r×(2*c)的Y,其中c=l*Fs。
2.根据权利要求1所述的一种基于深度信念网络的单通道音乐的歌声分离方法,其特征在于:所述步骤S1中的特征为通过傅里叶变换得到的长度为l的单通道音乐片段归一化后的幅度谱,其中l取值范围为32ms-512ms;其中设输入为x,则x是大小为l*Fs的行向量,其中Fs是所述音乐片段的采样频率。
3.根据权利要求1所述的一种基于深度信念网络的单通道音乐的歌声分离方法,所述DBN由若干个RBM堆叠而成,其中每个RBM的输入为上一个RBM的输出,所述的RBM为受限玻尔兹曼机;其特征在于:具体节点数设置为:所述的RBM由一层可见层v和一层隐藏层h构成;其中所述的可见层为每个RBM的输入层,第一个RBM的可见层节点数为l*Fs,其余的RBM可见层节点数均为l*Fs*2;所述的隐藏层为每个RBM的输出,每个RBM的输出作为下一个RBM的输入,所有RBM的隐藏层节点数均为l*Fs*2。
4.根据权利要求1所述的一种基于深度信念网络的单通道音乐的歌声分离方法,其特征在于:所述步骤S3具体包括以下步骤:
步骤S31:获得训练样本(X',Y);将所述训练样本(X,Y)中的X通过已经训练好的DBN进行处理,得到大小为r×(2*c)的X',其中c=l*Fs;获得训练样本(X',Y),其中所述Y与所述的训练样本(X,Y)中的Y相同;
步骤S32:有监督训练BP神经网络;将步骤S31中所述的X'作为BP神经网络的输入数据,将步骤S31中所述的Y作为监督标签数据;
步骤S33:利用训练好的BP神经网络进行人声分离;将步骤S2中得到的高层抽象特征作为BP神经网络的输入,由BP神经网络得到人声和伴奏声的特征,并将所述的人声和伴奏声的特征作为BP神经网络的输出。
CN201410755098.1A 2014-12-11 2014-12-11 一种基于深度信念网络的单通道音乐的歌声分离方法 Expired - Fee Related CN104464727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410755098.1A CN104464727B (zh) 2014-12-11 2014-12-11 一种基于深度信念网络的单通道音乐的歌声分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410755098.1A CN104464727B (zh) 2014-12-11 2014-12-11 一种基于深度信念网络的单通道音乐的歌声分离方法

Publications (2)

Publication Number Publication Date
CN104464727A CN104464727A (zh) 2015-03-25
CN104464727B true CN104464727B (zh) 2018-02-09

Family

ID=52910678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410755098.1A Expired - Fee Related CN104464727B (zh) 2014-12-11 2014-12-11 一种基于深度信念网络的单通道音乐的歌声分离方法

Country Status (1)

Country Link
CN (1) CN104464727B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105070301B (zh) * 2015-07-14 2018-11-27 福州大学 单通道音乐人声分离中的多种特定乐器强化分离方法
CN105551036B (zh) * 2015-12-10 2019-10-08 中国科学院深圳先进技术研究院 一种深度学习网络的训练方法和装置
CN105703841B (zh) * 2016-03-09 2018-01-30 东南大学 一种多路径传播宽带主动声信号的分离方法
CN106847302B (zh) * 2017-02-17 2020-04-14 大连理工大学 基于卷积神经网络的单通道混合语音时域分离方法
CN107039036B (zh) * 2017-02-17 2020-06-16 南京邮电大学 一种基于自动编码深度置信网络的高质量说话人识别方法
CN106952193A (zh) * 2017-03-23 2017-07-14 北京华宇信息技术有限公司 一种基于模糊深度信念网络的刑事案件辅助决策方法
CN107238847A (zh) * 2017-04-21 2017-10-10 中国科学院光电研究院 一种卫星导航干扰信号检测方法及系统
CN107169051B (zh) * 2017-04-26 2019-09-24 山东师范大学 基于本体间语义相关的三维模型检索方法及系统
CN107680611B (zh) * 2017-09-13 2020-06-16 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN110853631A (zh) * 2018-08-02 2020-02-28 珠海格力电器股份有限公司 智能家居的语音识别方法及装置
CN109166593B (zh) * 2018-08-17 2021-03-16 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及存储介质
CN109239527A (zh) * 2018-09-07 2019-01-18 福州大学 基于深度置信网络的配电网故障识别方法
CN109308901A (zh) * 2018-09-29 2019-02-05 百度在线网络技术(北京)有限公司 歌唱者识别方法和装置
CN109300485B (zh) * 2018-11-19 2022-06-10 北京达佳互联信息技术有限公司 音频信号的评分方法、装置、电子设备及计算机存储介质
CN110324702B (zh) * 2019-07-04 2022-06-07 三星电子(中国)研发中心 视频播放过程中的信息推送方法和装置
CN110853618B (zh) * 2019-11-19 2022-08-19 腾讯科技(深圳)有限公司 一种语种识别的方法、模型训练的方法、装置及设备
CN110931046A (zh) * 2019-11-29 2020-03-27 福州大学 一种面向重叠声音事件检测的音频高层语义特征提取方法及系统
CN111192594B (zh) * 2020-01-10 2022-12-09 腾讯音乐娱乐科技(深圳)有限公司 人声和伴奏分离方法及相关产品
CN112259119B (zh) * 2020-10-19 2021-11-16 深圳市策慧科技有限公司 基于堆叠沙漏网络的音乐源分离方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
CN103871423A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于nmf非负矩阵分解的音频分离方法
CN103325382A (zh) * 2013-06-07 2013-09-25 大连民族学院 一种自动识别中国少数民族传统乐器音频数据的方法
CN103531199B (zh) * 2013-10-11 2016-03-09 福州大学 基于快速稀疏分解和深度学习的生态声音识别方法

Also Published As

Publication number Publication date
CN104464727A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104464727B (zh) 一种基于深度信念网络的单通道音乐的歌声分离方法
Nanni et al. An ensemble of convolutional neural networks for audio classification
Piczak Environmental sound classification with convolutional neural networks
Pati et al. Assessment of student music performances using deep neural networks
CN103765506B (zh) 使用听觉注意线索进行音调/语调识别的方法
CN106847309A (zh) 一种语音情感识别方法
CN106228977A (zh) 基于深度学习的多模态融合的歌曲情感识别方法
Garland et al. Improved versions of the Levenshtein distance method for comparing sequence information in animals’ vocalisations: tests using humpback whale song
CN106295717B (zh) 一种基于稀疏表示和机器学习的西洋乐器分类方法
Nag et al. On the application of deep learning and multifractal techniques to classify emotions and instruments using Indian Classical Music
Tang et al. Improved convolutional neural networks for acoustic event classification
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
Shen et al. Learning how to listen: A temporal-frequential attention model for sound event detection
Janney et al. Temporal regularity increases with repertoire complexity in the Australian pied butcherbird's song
Utebayeva et al. Practical study of recurrent neural networks for efficient real-time drone sound detection: A review
Lee et al. Combining Multi-Scale Features Using Sample-Level Deep Convolutional Neural Networks for Weakly Supervised Sound Event Detection.
Xie et al. KD-CLDNN: Lightweight automatic recognition model based on bird vocalization
Xie et al. Multi-view features fusion for birdsong classification
Noumida et al. Stacked Res2Net-CBAM with Grouped Channel Attention for Multi-Label Bird Species Classification
Ghani et al. Classification of group-specific variations in songs within House Wren species using machine learning models
Calık et al. An ensemble-based framework for mispronunciation detection of Arabic phonemes
Aslam et al. Acoustic classification using deep learning
CN105070301B (zh) 单通道音乐人声分离中的多种特定乐器强化分离方法
Mansour et al. Classification of age and gender using ResNet-deep learning
Mansour et al. Age and gender classification using deep learning-vgg16

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180209

Termination date: 20201211