CN104464727A - 一种基于深度信念网络的单通道音乐的歌声分离方法 - Google Patents
一种基于深度信念网络的单通道音乐的歌声分离方法 Download PDFInfo
- Publication number
- CN104464727A CN104464727A CN201410755098.1A CN201410755098A CN104464727A CN 104464727 A CN104464727 A CN 104464727A CN 201410755098 A CN201410755098 A CN 201410755098A CN 104464727 A CN104464727 A CN 104464727A
- Authority
- CN
- China
- Prior art keywords
- dbn
- single channel
- rbm
- neural network
- song
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
本发明涉及一种基于深度信念网络的单通道音乐的歌声分离方法:先利用深度信念网络(DBN)抽取出有利于伴奏声和歌声的分离的高层抽象特征,紧接着利用Back-Propagation 神经网络分离出伴奏声和歌声的特征,最后利用重叠相加法得到时域的伴奏声和歌声信号。该方法将待分离的混合音乐分成很短的片段,从而弥补DBN在处理不同时间尺度音乐信号上的缺陷,同时利用了DBN的快速抽取高层抽象特征能力抽取出有利于分离出人声和伴奏声的高层抽象特征。最后考虑到由于单通道音乐信号是属于高维数据,在处理高维输入和高维输出问题上神经网络有着其特有的处理能力,所以选择使用BP神经网络作为最后的人声和伴奏声的分离器。该方法简单灵活,具有较强的实用性。
Description
技术领域
本发明涉及单通道音乐的伴奏声和人声分离领域,特别是一种基于深度信念网络的单通道音乐的歌声分离方法。
背景技术
随着计算机信号处理技术和互联网技术的不断发展,单通道音乐的歌声分离越来越受人们重视。单通道音乐人声分离技术在很多系统都会用到,如KTV系统中音乐伴奏的获得;音乐检索系统中根据音乐内容来检索的系统特别是根据歌唱者的声音特质检索音乐、音乐推荐系统中利用歌唱者声音特质来推荐音乐等等。不管是KTV系统中的伴奏获得、还是基于歌唱者声音的音乐检索系统、抑或是基于歌唱者声音的音乐推荐系统;为了保证这些系统有较好的性能,必须得到较为纯净的伴奏声或者歌声。而现实中人们能够获得的音乐信号大部分是单通道音乐信号,所以单通道音乐人声分离技术在这些系统中能够得到广泛的应用。然而,现在针对单通道音乐的歌声分离技术还远远不能达到人耳系统的性能,因此对于该领域的研究还有很大的步伐要走。
由于单通道音乐信号是极度欠定的,所以在对其进行歌声分离时可用的信息非常少,这使得针对单通道音乐的歌声分离具有很大的挑战性。尽管,针对单通道语音的分离已经有很大的成功,但由于歌声的特殊性,很多单通道语音分离技术并不能很好的应用到单通道音乐歌声分离中。直到2007年Y.Li才首次提出利用人声的音高周期进行单通道音乐的歌声分离。此后,基于谱分解的方法也相继被提出,如基于非负矩阵分解、稀疏矩阵分解等等。这些方法都取得了一定的成功,但都不能取得如愿的效果。如基于音高周期的方法,其本身音高周期检测就是一个学术难题;而基于谱分解的方法又有太多的假设前提。
2006年由Hinton等人提出的针对深度信念网络(DBN)的快速学习方法,使得深度神经网络重新引起科研工作者的关注。由于深度神经网络以其特有的强大特征抽取能力,使得其在并在图像处理和语音处理这两个领域率先得到应用,并且取得了很好的效果。但由于DBN并不是专门用来解决时间序列问题的,所以本专利同时提出了针对该问题的DBN输入数据构造方法。本专利基于对单通道音乐信号和深度学习的认识,提出了一种新的单通道音乐歌声分离方法,特别是一种基于深度信念网络的单通道音乐的歌声分离方法。
发明内容
有鉴于此,本发明的目的是在于提供一种基于深度信念网络的单通道音乐的歌声分离方法,以实现针对单通道音乐特性的歌声分离问题。
本发明采用以下方案实现:一种基于深度信念网络的单通道音乐的歌声分离方法,利用深度信念网络(DBN)抽取出有利于伴奏声和歌声的分离的高层抽象特征,紧接着利用Back-Propagation 神经网络(BP神经网络)分离出伴奏声和歌声特征,最后利用重叠相加法得到伴奏声和歌声。具体包括以下步骤:
S1:利用傅里叶变换从待分离的单通道音乐片段获得特征;
S2:将从步骤S1得到的特征作为已经训练得到的DBN特征抽取模型的输入,利用所述DBN特征抽取模型抽取出有利于分离伴奏声和歌声的高层抽象特征;其中所述DBN为深度信念网络;
S3:利用已训练得到的BP神经网络分离模型分离出伴奏声和歌声特征;由BP神经网络分离模型输出的伴奏声和歌声的特征得到伴奏声和歌声;其中BP神经网络为Back-Propagation神经网络。
进一步地,所述步骤S1中的特征为通过傅里叶变换得到的长度为 的单通道音乐片段归一化后的幅度谱;其中设输入为,则是大小为的行向量,其中Fs是所述音乐片段的采样频率。
进一步地,所述的可取16ms至512ms。
进一步地,所述DBN由若干个RBM堆叠而成,其中每个RBM的输入为上一个RBM的输出;所述的RBM为受限玻尔兹曼机。特别的,具体节点数设置为:所述的RBM由一层可见层和一层隐藏层构成;其中所述的可见层为每个RBM的输入层,第一个RBM的可见层节点数为,其余的RBM可见层节点数均为;所述的隐藏层为每个RBM的输出,每个RBM的输出作为下一个RBM的输入,所有RBM的隐藏层节点数均为。
具体的,所述步骤S2中已经训练得到的DBN特征抽取模型的训练过程包括以下步骤:
步骤S21:构建训练样本,其中表示所有的训练样本的输入特征,表示纯净的伴奏声和纯净的歌声归一化后的振幅谱;
步骤S22:无监督贪心逐层训练DBN;设所述的DBN由个受限玻尔兹曼机RBM堆叠而成,则整个DBN共有层;其中对第()层训练过程为:由第层和第层构成的RBM通过Contractive Divergence算法训练;其中第1层为输入层;
步骤S23:对DBN进行有监督微调;将步骤S22中通过无监督贪心训练的DBN翻折,得到层数为的自动编码机;利用BP算法对该编码机进行训练,用以微调DBN。
具体地,所述的步骤S21具体包括以下步骤:
步骤S211:构建;给定单通道音乐混合信号其中为所述给定单通道音乐混合信号的个数,其中每个信号的长度可以不一样;使用长度为,偏移量为的窗函数,对每个信号进行分割,得到个长度为的小片段1,其中为所述给定单通道音乐混合信号的长度,为所述给定单通道音乐混合信号的时长;对所述小片段1进行傅里叶变换得到振幅谱,将振幅谱归一化,构建出大小为的,其中,;
步骤S212:构建;给定伴奏信号和歌声信号,其中为信号的个数,所述给定伴奏信号和歌声信号的长度均与所述给定单通道音乐混合信号一样;使用长度为,偏移量为的窗函数将所述伴奏信号和歌声信号额分别分割成个长度为的小片段2;其中为所述给定单通道音乐混合信号的长度,为所述给定单通道音乐混合信号的时长;对所述小片段2进行傅里叶变换得到振幅谱,将振幅谱归一化;将同一个窗口分割出来的伴奏信号和歌声信号归一化后的振幅谱连接成大小为的,其中前大小的为所述伴奏信号的归一化振幅谱,后大小的为所述歌声信号的归一化振幅谱,进而得到大小为的,其中,。
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:获得训练样本。将所述的训练样本中的通过已经训练好的DBN进行处理,得到大小为的,其中,;获得训练样本,其中所述与所述的训练样本中的相同;
步骤S32:有监督训练BP神经网络;将步骤S31中所述的作为BP神经网络的输入数据,将步骤S31中所述的作为监督标签数据;
步骤S23:利用训练好的BP神经网络进行人声分离;将步骤S2中得到的高层抽象特征作为BP神经网络的输入,由BP神经网络得到人声和伴奏声的特征,并将所述的人声和伴奏声的特征作为BP神经网络的输出。
较佳地,由于BP神经网络输出的伴奏声和歌声的特征为归一化后的振幅谱,本发明先对该振幅谱去归一化,然后使用重叠相加法得到时域伴奏声和歌声。
相较于现有技术,本发明具有以下有益效果:本发明提出了一种基于深度信念网络的单通道音乐的歌声分离方法,利用深度神经网络以其特有的强大特征抽取能力,本发明基于对单通道音乐信号和深度学习的认识,提出针对DBN用于解决单通道音乐歌声分离的输入数据构造方法,最后得到一种新的针对单通道音乐的歌声分离方法,特别是一种基于深度信念网络的单通道音乐的歌声分离方法。该方法简单,实现灵活,实用性较强。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,本实施提供一种基于深度信念网络的单通道音乐的歌声分离方法,利用深度信念网络(DBN)抽取出有利于伴奏声和歌声的分离的高层抽象特征,紧接着利用Back-Propagation 神经网络(BP神经网络)分离出伴奏声和歌声特征,最后利用重叠相加法得到伴奏声和歌声。具体包括以下步骤:
S1:利用傅里叶变换从待分离的单通道音乐片段获得特征;
S2:将从步骤S1得到的特征作为已经训练得到的DBN特征抽取模型的输入,利用所述DBN特征抽取模型抽取出有利于分离伴奏声和歌声的高层抽象特征;其中所述DBN为深度信念网络;
S3:利用已训练得到的BP神经网络分离模型分离出伴奏声和歌声特征;由BP神经网络分离模型输出的伴奏声和歌声的特征得到伴奏声和歌声;其中BP神经网络为Back-Propagation神经网络。
在本实施例中,所述步骤S1中的特征为通过傅里叶变换得到的长度为的单通道音乐片段归一化后的幅度谱;其中设输入为,则是大小为的行向量,其中Fs是所述音乐片段的采样频率。
在本实施例中,所述的可取16ms至512ms。
在本实施例中,所述DBN由若干个RBM堆叠而成,其中每个RBM的输入为上一个RBM的输出;其中所述的RBM为受限玻尔兹曼机。特别的,具体节点数设置为:所述的RBM由一层可见层和一层隐藏层构成;其中所述的可见层为每个RBM的输入层,第一个RBM的可见层节点数为,其余的RBM可见层节点数均为;所述的隐藏层为每个RBM的输出,每个RBM的输出作为下一个RBM的输入,所有RBM的隐藏层节点数均为。
具体的,在本实施例中,所述步骤S2中已经训练得到的DBN特征抽取模型的训练过程包括以下步骤:
步骤S21:构建训练样本,其中表示所有的训练样本的输入特征,表示纯净的伴奏声和纯净的歌声归一化后的振幅谱;
步骤S22:无监督贪心逐层训练DBN;设所述的DBN由个受限玻尔兹曼机RBM堆叠而成,则整个DBN共有层;其中对第()层训练过程为:由第层和第层构成的RBM通过Contractive Divergence算法训练;其中第1层为输入层;
步骤S23:对DBN进行有监督微调;将步骤S22中通过无监督贪心训练的DBN翻折,得到层数为的自动编码机;利用BP算法对该编码机进行训练,用以微调DBN。
具体地,在本实施例中,所述的步骤S21具体包括以下步骤:
步骤S211:构建;给定单通道音乐混合信号其中为所述给定单通道音乐混合信号的个数,其中每个信号的长度可以不一样;使用长度为,偏移量为的窗函数,对每个信号进行分割,得到个长度为的小片段1,其中为所述给定单通道音乐混合信号的长度,为所述给定单通道音乐混合信号的时长;对所述小片段1进行傅里叶变换得到振幅谱,将振幅谱归一化,构建出大小为的,其中,;
步骤S212:构建;给定伴奏信号和歌声信号,其中为信号的个数,所述给定伴奏信号和歌声信号的长度均与所述给定单通道音乐混合信号一样;使用长度为,偏移量为的窗函数将所述伴奏信号和歌声信号额分别分割成个长度为的小片段2;其中为所述给定单通道音乐混合信号的长度,为所述给定单通道音乐混合信号的时长;对所述小片段2进行傅里叶变换得到振幅谱,将振幅谱归一化;将同一个窗口分割出来的伴奏信号和歌声信号归一化后的振幅谱连接成大小为的,其中前大小的为所述伴奏信号的归一化振幅谱,后大小的为所述歌声信号的归一化振幅谱,进而得到大小为的,其中,。
在本实施例中,所述步骤S3具体包括以下步骤:
步骤S31:获得训练样本。将所述的训练样本中的通过已经训练好的DBN进行处理,得到大小为的,其中,;获得训练样本,其中所述与所述的的训练样本中的相同;
步骤S32:有监督训练BP神经网络;将步骤S31中所述的作为BP神经网络的输入数据,将步骤S31中所述的作为监督标签数据;
步骤S23:利用训练好的BP神经网络进行人声分离;将步骤S2中得到的高层抽象特征作为BP神经网络的输入,由BP神经网络得到人声和伴奏声的特征,并将所述的人声和伴奏声的特征作为BP神经网络的输出。
较佳地,在本实施例中,由于BP神经网络输出的伴奏声和歌声的特征为归一化后的振幅谱,本发明先对该振幅谱去归一化,然后使用重叠相加法得到时域伴奏声和歌声。
综上所述,本发明将待分离的混合音乐分成很短的片段,从而弥补DBN在处理不同时间尺度音乐信号上的缺陷,同时利用了DBN的快速抽取高层抽象特征能力抽取出有利于分离出人声和伴奏声的高层抽象特征。最后考虑到由于单通道音乐信号是属于高维数据,在处理高维输入和高维输出问题上神经网络有着其特有的处理能力,所以选择使用BP神经网络作为最后的人声和伴奏声的分离器。本发明方法简单灵活,具有较强的实用性。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (6)
1.一种基于深度信念网络的单通道音乐的歌声分离方法,其特征在于包括以下步骤:
S1:利用傅里叶变换从待分离的单通道音乐片段获得特征;
S2:将从步骤S1得到的特征作为已经训练得到的DBN特征抽取模型的输入,利用所述DBN特征抽取模型抽取出有利于分离伴奏声和歌声的高层抽象特征;其中所述DBN为深度信念网络;
S3:将步骤S2中得到的有利于分离伴奏声和歌声的高层抽象特征作为已训练得到的BP神经网络分离模型的输入,利用所述已训练得到的BP神经网络分离模型分离出伴奏声和歌声特征;由BP神经网络分离模型输出的伴奏声和歌声的特征得到伴奏声和歌声;其中BP神经网络为Back-Propagation神经网络。
2.根据权利要求1所述的一种基于深度信念网络的单通道音乐的歌声分离方法,其特征在于:所述步骤S1中的特征为通过傅里叶变换得到的长度为 的单通道音乐片段归一化后的幅度谱,其中取值范围为32ms-512ms;其中设输入为,则是大小为的行向量,其中Fs是所述音乐片段的采样频率。
3.根据权利要求1所述的一种基于深度信念网络的单通道音乐的歌声分离方法,所述DBN由若干个RBM堆叠而成,其中每个RBM的输入为上一个RBM的输出,所述的RBM为受限玻尔兹曼机;其特征在于:具体节点数设置为:所述的RBM由一层可见层和一层隐藏层构成;其中所述的可见层为每个RBM的输入层,第一个RBM的可见层节点数为,其余的RBM可见层节点数均为;所述的隐藏层为每个RBM的输出,每个RBM的输出作为下一个RBM的输入,所有RBM的隐藏层节点数均为。
4.根据权利要求1所述的一种基于深度信念网络的单通道音乐的歌声分离方法,其特在于:所述步骤S2中已经训练得到的DBN特征抽取模型的训练过程包括以下步骤:
步骤S21:构建训练样本,其中表示所有的训练样本的输入特征,表示纯净的伴奏声和纯净的歌声归一化后的振幅谱;
步骤S22:无监督贪心逐层训练DBN;设所述的DBN由个受限玻尔兹曼机RBM堆叠而成,则整个DBN共有层;其中对第()层训练过程为:由第层和第层构成的RBM通过Contractive Divergence算法训练;其中第1层为输入层;
步骤S23:对DBN进行有监督微调;将步骤S22中通过无监督贪心训练的DBN翻折,得到层数为的自动编码机;利用BP算法对该编码机进行训练,用以微调DBN。
5.根据权利要求4所述的一种基于深度信念网络的单通道音乐的歌声分离方法,其特征在于:所述的步骤S21具体包括以下步骤:
步骤S211:构建;给定单通道音乐混合信号其中为所述给定单通道音乐混合信号的个数;使用长度为,偏移量为的窗函数,对每个信号进行分割,得到个长度为的小片段1,其中为所述给定单通道音乐混合信号的长度,为所述给定单通道音乐混合信号的时长;对所述小片段1进行傅里叶变换得到振幅谱,将振幅谱归一化,构建出大小为的,其中,;
步骤S212:构建;给定伴奏信号和歌声信号,其中为信号的个数,所述给定伴奏信号和歌声信号的长度均与所述给定单通道音乐混合信号一样;使用长度为,偏移量为的窗函数将所述伴奏信号和歌声信号额分别分割成个长度为的小片段2;其中为所述给定单通道音乐混合信号的长度,为所述给定单通道音乐混合信号的时长;对所述小片段2进行傅里叶变换得到振幅谱,将振幅谱归一化;将同一个窗口分割出来的伴奏信号和歌声信号归一化后的振幅谱连接成大小为的,其中前大小的为所述伴奏信号的归一化振幅谱,后大小的为所述歌声信号的归一化振幅谱,进而得到大小为的,其中,。
6.根据权利要求4所述的一种基于深度信念网络的单通道音乐的歌声分离方法,其特征在于:所述步骤S3具体包括以下步骤:
步骤S31:获得训练样本;将所述训练样本中的通过已经训练好的DBN进行处理,得到大小为的,其中,;获得训练样本,其中所述与所述的训练样本中的相同;
步骤S32:有监督训练BP神经网络;将步骤S31中所述的作为BP神经网络的输入数据,将步骤S31中所述的作为监督标签数据;
步骤S23:利用训练好的BP神经网络进行人声分离;将步骤S2中得到的高层抽象特征作为BP神经网络的输入,由BP神经网络得到人声和伴奏声的特征,并将所述的人声和伴奏声的特征作为BP神经网络的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410755098.1A CN104464727B (zh) | 2014-12-11 | 2014-12-11 | 一种基于深度信念网络的单通道音乐的歌声分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410755098.1A CN104464727B (zh) | 2014-12-11 | 2014-12-11 | 一种基于深度信念网络的单通道音乐的歌声分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104464727A true CN104464727A (zh) | 2015-03-25 |
CN104464727B CN104464727B (zh) | 2018-02-09 |
Family
ID=52910678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410755098.1A Expired - Fee Related CN104464727B (zh) | 2014-12-11 | 2014-12-11 | 一种基于深度信念网络的单通道音乐的歌声分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104464727B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105070301A (zh) * | 2015-07-14 | 2015-11-18 | 福州大学 | 单通道音乐人声分离中的多种特定乐器强化分离方法 |
CN105551036A (zh) * | 2015-12-10 | 2016-05-04 | 中国科学院深圳先进技术研究院 | 一种深度学习网络的训练方法和装置 |
CN105703841A (zh) * | 2016-03-09 | 2016-06-22 | 东南大学 | 一种多路径传播宽带主动声信号的分离方法 |
CN106847302A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
CN106952193A (zh) * | 2017-03-23 | 2017-07-14 | 北京华宇信息技术有限公司 | 一种基于模糊深度信念网络的刑事案件辅助决策方法 |
CN107039036A (zh) * | 2017-02-17 | 2017-08-11 | 南京邮电大学 | 一种基于自动编码深度置信网络的高质量说话人识别方法 |
CN107169051A (zh) * | 2017-04-26 | 2017-09-15 | 山东师范大学 | 基于本体间语义相关的三维模型检索方法及系统 |
CN107238847A (zh) * | 2017-04-21 | 2017-10-10 | 中国科学院光电研究院 | 一种卫星导航干扰信号检测方法及系统 |
CN107680611A (zh) * | 2017-09-13 | 2018-02-09 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
CN109166593A (zh) * | 2018-08-17 | 2019-01-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据处理方法、装置及存储介质 |
CN109239527A (zh) * | 2018-09-07 | 2019-01-18 | 福州大学 | 基于深度置信网络的配电网故障识别方法 |
CN109300485A (zh) * | 2018-11-19 | 2019-02-01 | 北京达佳互联信息技术有限公司 | 音频信号的评分方法、装置、电子设备及计算机存储介质 |
CN109308901A (zh) * | 2018-09-29 | 2019-02-05 | 百度在线网络技术(北京)有限公司 | 歌唱者识别方法和装置 |
CN110324702A (zh) * | 2019-07-04 | 2019-10-11 | 三星电子(中国)研发中心 | 视频播放过程中的信息推送方法和装置 |
CN110853618A (zh) * | 2019-11-19 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种语种识别的方法、模型训练的方法、装置及设备 |
CN110853631A (zh) * | 2018-08-02 | 2020-02-28 | 珠海格力电器股份有限公司 | 智能家居的语音识别方法及装置 |
CN110931046A (zh) * | 2019-11-29 | 2020-03-27 | 福州大学 | 一种面向重叠声音事件检测的音频高层语义特征提取方法及系统 |
CN111192594A (zh) * | 2020-01-10 | 2020-05-22 | 腾讯音乐娱乐科技(深圳)有限公司 | 人声和伴奏分离方法及相关产品 |
CN112259119A (zh) * | 2020-10-19 | 2021-01-22 | 成都明杰科技有限公司 | 基于堆叠沙漏网络的音乐源分离方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101366078A (zh) * | 2005-10-06 | 2009-02-11 | Dts公司 | 从单音音频信号分离音频信源的神经网络分类器 |
CN103325382A (zh) * | 2013-06-07 | 2013-09-25 | 大连民族学院 | 一种自动识别中国少数民族传统乐器音频数据的方法 |
CN103531199A (zh) * | 2013-10-11 | 2014-01-22 | 福州大学 | 基于快速稀疏分解和深度学习的生态声音识别方法 |
CN103871423A (zh) * | 2012-12-13 | 2014-06-18 | 上海八方视界网络科技有限公司 | 一种基于nmf非负矩阵分解的音频分离方法 |
-
2014
- 2014-12-11 CN CN201410755098.1A patent/CN104464727B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101366078A (zh) * | 2005-10-06 | 2009-02-11 | Dts公司 | 从单音音频信号分离音频信源的神经网络分类器 |
CN103871423A (zh) * | 2012-12-13 | 2014-06-18 | 上海八方视界网络科技有限公司 | 一种基于nmf非负矩阵分解的音频分离方法 |
CN103325382A (zh) * | 2013-06-07 | 2013-09-25 | 大连民族学院 | 一种自动识别中国少数民族传统乐器音频数据的方法 |
CN103531199A (zh) * | 2013-10-11 | 2014-01-22 | 福州大学 | 基于快速稀疏分解和深度学习的生态声音识别方法 |
Non-Patent Citations (3)
Title |
---|
HINTON G E ETC: "A Fast Learning Algorithm for Deep Belief Nets", <NEURAL COMP> * |
张晖: "《内蒙古大学硕士学位论文》", 30 September 2014 * |
陈硕: "《华南理工大学硕士学位论文》", 31 January 2014 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105070301B (zh) * | 2015-07-14 | 2018-11-27 | 福州大学 | 单通道音乐人声分离中的多种特定乐器强化分离方法 |
CN105070301A (zh) * | 2015-07-14 | 2015-11-18 | 福州大学 | 单通道音乐人声分离中的多种特定乐器强化分离方法 |
CN105551036A (zh) * | 2015-12-10 | 2016-05-04 | 中国科学院深圳先进技术研究院 | 一种深度学习网络的训练方法和装置 |
CN105703841A (zh) * | 2016-03-09 | 2016-06-22 | 东南大学 | 一种多路径传播宽带主动声信号的分离方法 |
CN106847302A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
CN107039036A (zh) * | 2017-02-17 | 2017-08-11 | 南京邮电大学 | 一种基于自动编码深度置信网络的高质量说话人识别方法 |
CN106847302B (zh) * | 2017-02-17 | 2020-04-14 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
CN106952193A (zh) * | 2017-03-23 | 2017-07-14 | 北京华宇信息技术有限公司 | 一种基于模糊深度信念网络的刑事案件辅助决策方法 |
CN107238847A (zh) * | 2017-04-21 | 2017-10-10 | 中国科学院光电研究院 | 一种卫星导航干扰信号检测方法及系统 |
CN107169051B (zh) * | 2017-04-26 | 2019-09-24 | 山东师范大学 | 基于本体间语义相关的三维模型检索方法及系统 |
CN107169051A (zh) * | 2017-04-26 | 2017-09-15 | 山东师范大学 | 基于本体间语义相关的三维模型检索方法及系统 |
CN107680611B (zh) * | 2017-09-13 | 2020-06-16 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
CN107680611A (zh) * | 2017-09-13 | 2018-02-09 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
CN110853631A (zh) * | 2018-08-02 | 2020-02-28 | 珠海格力电器股份有限公司 | 智能家居的语音识别方法及装置 |
CN109166593A (zh) * | 2018-08-17 | 2019-01-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据处理方法、装置及存储介质 |
CN109239527A (zh) * | 2018-09-07 | 2019-01-18 | 福州大学 | 基于深度置信网络的配电网故障识别方法 |
CN109308901A (zh) * | 2018-09-29 | 2019-02-05 | 百度在线网络技术(北京)有限公司 | 歌唱者识别方法和装置 |
CN109300485B (zh) * | 2018-11-19 | 2022-06-10 | 北京达佳互联信息技术有限公司 | 音频信号的评分方法、装置、电子设备及计算机存储介质 |
CN109300485A (zh) * | 2018-11-19 | 2019-02-01 | 北京达佳互联信息技术有限公司 | 音频信号的评分方法、装置、电子设备及计算机存储介质 |
WO2020103550A1 (zh) * | 2018-11-19 | 2020-05-28 | 北京达佳互联信息技术有限公司 | 音频信号的评分方法、装置、终端设备及计算机存储介质 |
CN110324702B (zh) * | 2019-07-04 | 2022-06-07 | 三星电子(中国)研发中心 | 视频播放过程中的信息推送方法和装置 |
CN110324702A (zh) * | 2019-07-04 | 2019-10-11 | 三星电子(中国)研发中心 | 视频播放过程中的信息推送方法和装置 |
CN110853618A (zh) * | 2019-11-19 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种语种识别的方法、模型训练的方法、装置及设备 |
CN110853618B (zh) * | 2019-11-19 | 2022-08-19 | 腾讯科技(深圳)有限公司 | 一种语种识别的方法、模型训练的方法、装置及设备 |
CN110931046A (zh) * | 2019-11-29 | 2020-03-27 | 福州大学 | 一种面向重叠声音事件检测的音频高层语义特征提取方法及系统 |
CN111192594A (zh) * | 2020-01-10 | 2020-05-22 | 腾讯音乐娱乐科技(深圳)有限公司 | 人声和伴奏分离方法及相关产品 |
CN111192594B (zh) * | 2020-01-10 | 2022-12-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 人声和伴奏分离方法及相关产品 |
CN112259119A (zh) * | 2020-10-19 | 2021-01-22 | 成都明杰科技有限公司 | 基于堆叠沙漏网络的音乐源分离方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104464727B (zh) | 2018-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104464727A (zh) | 一种基于深度信念网络的单通道音乐的歌声分离方法 | |
CN107679224B (zh) | 一种面向无结构文本智能问答的方法和系统 | |
CN104700828A (zh) | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 | |
CN105488466B (zh) | 一种深层神经网络和水声目标声纹特征提取方法 | |
CN106952649A (zh) | 基于卷积神经网络和频谱图的说话人识别方法 | |
CN107220235A (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN106782511A (zh) | 修正线性深度自编码网络语音识别方法 | |
CN104269169B (zh) | 一种混叠音频事件分类方法 | |
Mao et al. | Deep Learning of Segment-Level Feature Representation with Multiple Instance Learning for Utterance-Level Speech Emotion Recognition. | |
CN105702250A (zh) | 语音识别方法和装置 | |
CN110544482B (zh) | 一种单通道语音分离系统 | |
CN108090038A (zh) | 文本断句方法及系统 | |
Tang et al. | Improved convolutional neural networks for acoustic event classification | |
CN105931635A (zh) | 一种音频分割方法及装置 | |
CN110176250B (zh) | 一种基于局部学习的鲁棒声学场景识别方法 | |
Chen et al. | Distilled binary neural network for monaural speech separation | |
CN110334243A (zh) | 基于多层时序池化的音频表示学习方法 | |
Qin et al. | Source cell-phone identification in the presence of additive noise from CQT domain | |
CN109919295A (zh) | 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法 | |
CN102496366B (zh) | 一种与文本无关的说话人识别方法 | |
Almekhlafi et al. | A classification benchmark for Arabic alphabet phonemes with diacritics in deep neural networks | |
CN105006231A (zh) | 基于模糊聚类决策树的分布式大型人口语者识别方法 | |
CN103295573B (zh) | 基于费舍比率最优小波包分解的语音情感特征提取方法 | |
CN113111786A (zh) | 基于小样本训练图卷积网络的水下目标识别方法 | |
CN105070301B (zh) | 单通道音乐人声分离中的多种特定乐器强化分离方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180209 Termination date: 20201211 |