CN103871423A - 一种基于nmf非负矩阵分解的音频分离方法 - Google Patents

一种基于nmf非负矩阵分解的音频分离方法 Download PDF

Info

Publication number
CN103871423A
CN103871423A CN201210541700.2A CN201210541700A CN103871423A CN 103871423 A CN103871423 A CN 103871423A CN 201210541700 A CN201210541700 A CN 201210541700A CN 103871423 A CN103871423 A CN 103871423A
Authority
CN
China
Prior art keywords
matrix
audio
music
nmf
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210541700.2A
Other languages
English (en)
Inventor
王雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI 8D WORLD NETWORK SCIENCE & TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI 8D WORLD NETWORK SCIENCE & TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI 8D WORLD NETWORK SCIENCE & TECHNOLOGY Co Ltd filed Critical SHANGHAI 8D WORLD NETWORK SCIENCE & TECHNOLOGY Co Ltd
Priority to CN201210541700.2A priority Critical patent/CN103871423A/zh
Publication of CN103871423A publication Critical patent/CN103871423A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明属于语音信号分解领域,具体涉及一种基于NMF非负矩阵分解的音频分离方法,包括辅助音乐语音区分模块和NMF非负矩阵分解模块,该方法通过引入NMF这一新的数学研究成果,结合语音音频与音乐音频的音频特征差异,可以较好地将混合的音频当中语音音频与音乐音频进行分离,从而得到较为清晰地音乐音频与语音音频,结合NMF方法与机器学习算法,可以非常高效的完成这一音频的分离工作。

Description

一种基于NMF非负矩阵分解的音频分离方法
技术领域
本发明涉及语音信号分解领域,具体涉及一种基于NMF非负矩阵分解的音频分离方法。
背景技术
当一段音频当中既混杂有背景的音乐音频,也有语音音频时,为了获取单一的语音音频或者音乐音频以便进行相应的编码、信息检索等工作,便需要利用相应的算法将混杂的音频分离为单纯的语音音频与音乐音频。这样的一种音频处理方式,一般会利用信号分离的相关技术来解决。随着音频处理领域的技术发展,对于这样技术的需要也催生了相应的研究成果。
在面对这类语音和音乐混叠信号的分离的问题时,现在主要是基于基频分析和频谱分解算法来进行的。例如,Klapuri等人提出了一种基于音乐频谱的谐波特性和平滑特性的迭代算法来检测音乐频谱中的多个基频并计算出各基频对应的谐波分量;Li 通过检测歌曲音频信号的主要基频轮廓,用聚类学习的方法从混叠信号中分离出歌声信号等等,都取得了不错的音频分离效果。
目前,NMF即非负矩阵分解法是很多研究者关注的重点。NMF 的基本原理是将信号分解为基本矩阵和相应的系数矩阵,根据代价函数来计算各个信源成分所对应的基本矩阵和系数矩阵,从而实现信号的分离。根据一直音频信号的先验知识获得的多少,可以将NMF分为盲信号模型,监督模型,和半盲模型,即完全不知道先验信号成分基本矩阵,知道所有混叠信号成分的基本矩阵,与只知道部分混叠信号成分的基本矩阵。而代价函数的选取主要包括分离前后信号的相似度与根据所处理信号的特性而加入的一些限制条件两类。因此,目前并没有非负矩阵分解的音频分离方法
本发明所需要处理的问题即属于盲信号模型的NMF信号分离问题;它需要利用分离前后信号的相似度作为代价函数,并辅之以语音音频与音乐音频在音频特征的差异度作为另外的递归终止条件。
发明内容
为克服现有技术上的不足,本发明目的是在于提供了一种基于NMF非负矩阵分解的音频分离方法,其通过利用NMF进行非负矩阵分解,从而将音乐与语音的混杂音频文件分解成为单纯的音乐音频文件和语音音频文件,通过对于每次分解后的音频文件进行特征提取与判别,从而判断每一次分解的结果是否为音乐文件或者语音文件。
为解决上述问题,本发明采用如下技术方案:一种基于NMF非负矩阵分解的音频分离方法,包括辅助音乐语音区分模块和NMF非负矩阵分解模块,
所述的辅助音乐语音区分模块主要利用了机器学习的方法,通过提取大量的语音音乐音频的相关音频特征作为训练样本,通过SVM算法进行训练得到识别模型;
所述的NMF非负矩阵分解模块利用NMF非负矩阵分解方法,通过对原音频信号矩阵进行迭代分解,直到分解结果达到代价函数与辅助区分模块的要求则停止。
进一步地,所述的辅助音乐语音区分模块利用机器学习的方法步骤:
a、需要采集大量的语音、音乐以及既非语音也非音乐的音频文件作为训练样本,从而得到相应的区分模型。其中反面样本的选取可以更好的保证;
b、提取音频特征中的静音帧率、高过零率帧比率、低能量帧率、谱通量以及和谐度五个音频量化特征构成每个音频的特征向量,作为及其学习训练的输入向量集。之所以提取这五个特征,是因为语音音频与音乐音频在这五个特征当中有较大的差异,因此利用这五个特征可以有较好的特征提取效果;
c、利用SVM算法对于b中所得到的向量集进行建模,得到所需要的用以识别语音与音乐视频的识别模型。
进一步地,所述的NMF非负矩阵分解模块主要有以下几个方面:
a、首先,我们会得到下面NMF非负矩阵分解的基本依据公式;
b、而后,我们会依据在盲状态模型构建出符合本发明要求的欧几里得距离代价函数,即判断分解结束的主要条件;
c、依据此代价函数与基本函数,我们会得到用以分解原信号矩阵的迭代公式,并依据迭代公式进行迭代分解;
d、当每次迭代完成之后,将利用预先设定的JEuc1门限进行判别,如果达到门限则提取两个矩阵的相应特征向量,利用之前得到的语音音乐模型进行是否为语音或者音乐的判断。如果判断失败,则继续利用c中所述方法进行迭代分解,如果判断成功则在判断其是否达到门限JEuc2,直到达到该门限时,停止迭代过程。
进一步地,所述的NMF非负矩阵分解的基本依据公式为:
Y=Ys+Ym+V=AsXs+AmXm+V
其中Y ∈RN×T 为观察信号的幅度谱,A∈ RN×B,X ∈RB×T,V ∈ RN×T 分别表示Y的基本矩阵、系数矩阵和误差残留矩阵。上标N,T,B 分别表示频率点数、帧数和基本矩阵所含向量的维数。A,X 均为非负矩阵,其各元素都大等于0。下表s与m则代表该矩阵属于语音音频的矩阵和音乐音频的矩阵。
进一步地,所述的欧几里得距离代价函数定义为:
JEuc=0.5||Y-AsXs+AmXm||F 2
进一步地,所述的分解原信号矩阵的迭代公式定义为:
h = max j ∈ [ j f 1 , j f 2 ] [ R ( j ) ]
h = Average j ∈ [ j f 1 , j f 2 ] [ R ( j ) ]
Figure BDA0000258184563
Figure BDA0000258184564
其中,
Figure BDA0000258184565
Figure BDA0000258184566
Figure BDA0000258184567
, 这些表示梯度下降学习的速率。在第一次迭代的时候,本发明会利用某音乐音频的信号矩阵Am与某语音音频的信号矩阵As以及单位矩阵作为AsXs以及AmXm的初始矩阵。
本发明基于NMF非负矩阵分解的音频分离方法的有益效果是:通过引入NMF这一新的数学研究成果,结合语音音频与音乐音频的音频特征差异,可以较好地将混合的音频当中语音音频与音乐音频进行分离,从而得到较为清晰地音乐音频与语音音频,结合NMF方法与机器学习算法,可以非常高效的完成这一音频的分离工作。
附图说明
为了易于说明,本发明由下述的具体实施例及附图作以详细描述。
图1为本发明的基于NMF非负矩阵分解的音频分离方法的整体系统模块架构图;
图2为本发明的基于NMF非负矩阵分解的音频分离方法的机器学习训练流程图;
图3为本发明的基于NMF非负矩阵分解的音频分离方法的NMF矩阵分解及判别流程图。
具体实施方式
如图1、图2和图3所示,本发明的一种基于NMF非负矩阵分解的音频分离方法,包括辅助音乐语音区分模块和NMF非负矩阵分解模块,辅助音乐语音区分模块主要利用了机器学习的方法,通过提取大量的语音音乐音频的相关音频特征作为训练样本,通过SVM算法进行训练得到识别模型;
所述的NMF非负矩阵分解模块利用NMF非负矩阵分解方法,通过对原音频信号矩阵进行迭代分解,直到分解结果达到代价函数与辅助区分模块的要求则停止。
所述的辅助音乐语音区分模块主要有以下几个方面:
a、需要采集大量的语音、音乐以及既非语音也非音乐的音频文件作为训练样本,从而得到相应的区分模型。其中反面样本的选取可以更好的保证;
b、提取音频特征中的静音帧率、高过零率帧比率、低能量帧率、谱通量以及和谐度五个音频量化特征构成每个音频的特征向量,作为及其学习训练的输入向量集。之所以提取这五个特征,是因为语音音频与音乐音频在这五个特征当中有较大的差异,因此利用这五个特征可以有较好的特征提取效果;
c、利用SVM算法对于b中所得到的向量集进行建模,得到所需要的用以识别语音与音乐视频的识别模型。
所述的NMF非负矩阵分解模块主要有以下几个方面:
a、首先,我们会得到下面NMF非负矩阵分解的基本依据公式;
b、而后,我们会依据在盲状态模型构建出符合本发明要求的欧几里得距离代价函数,即判断分解结束的主要条件;
c、依据此代价函数与基本函数,我们会得到用以分解原信号矩阵的迭代公式,并依据迭代公式进行迭代分解;
d、当每次迭代完成之后,将利用预先设定的JEuc1门限进行判别,如果达到门限则提取两个矩阵的相应特征向量,利用之前得到的语音音乐模型进行是否为语音或者音乐的判断。如果判断失败,则继续利用c中所述方法进行迭代分解,如果判断成功则在判断其是否达到门限JEuc2,直到达到该门限时,停止迭代过程。
所述的NMF非负矩阵分解的基本依据公式为:
Y=Ys+Ym+V=AsXs+AmXm+V
其中Y ∈RN×T 为观察信号的幅度谱,A∈ RN×B,X ∈RB×T,V ∈ RN×T 分别表示Y的基本矩阵、系数矩阵和误差残留矩阵。上标N,T,B 分别表示频率点数、帧数和基本矩阵所含向量的维数。A,X 均为非负矩阵,其各元素都大等于0。下表s与m则代表该矩阵属于语音音频的矩阵和音乐音频的矩阵。
所述的欧几里得距离代价函数定义为:
JEuc=0.5||Y-AsXs+AmXm||F 2
所述的分解原信号矩阵的迭代公式定义为:
Figure BDA0000258184569
Figure BDA00002581845611
Figure BDA00002581845612
其中,
Figure BDA00002581845613
Figure BDA00002581845614
Figure BDA00002581845616
, 这些表示梯度下降学习的速率。在第一次迭代的时候,本发明会利用某音乐音频的信号矩阵Am与某语音音频的信号矩阵As以及单位矩阵作为AsXs以及AmXm的初始矩阵。
本发明分为两个部分,即用以作为语音音乐判别的机器学习判别模块与用以对于原始信号矩阵进行非负矩阵分解的NMF模块,因此我们首先要简述机器学习判别模块的部署过程。
与传统的音频识别方法类似,一般情况下第一步都会收集大量的音频作为训练样本,而在这里,除了大量的音乐音频和语音音频作为样本之外,也需要采集许多即非音乐也非语音的其他音频作为反面样本,从而提升模型的准确度。
当收集到音频之后,便进入了提取音频特征的部分。这里因为主要训练目标是分别出语音音频与音乐音频,因此所选择的音频特征也是基于其语音与音乐音频在该特征当中有较大的差别。本发明所采用的特征为:
a、静音帧率,定义如下
Figure BDA00002581845617
其中,静音帧的判断是利用频域能量值来确定的,即当频域能量小于一定的阈值时,则将其定义为静音帧。
b、高过零率帧比率定义如下:
Figure BDA00002581845618
其中,ZCRavg是片段中所有帧的过零率均值,ZCR(n)是第n帧的过零率,N是片段中的帧总数,sgn()是符号函数,即判断参数是否为正。
c、低能量帧率定义为
Figure BDA00002581845619
其中,N是片段中帧总数,E(n)是第n帧的能量,Eavg是片段中各帧能量的均值。
d、谱通量定义为:
Figure BDA00002581845620
其中,A(n,k)是片段中第N帧的傅里叶变换的第k个系数值;K是傅里叶变换的阶数;N是片段中帧的总数;δ是为避免A(n,k)的值为0时导致计算值溢出所引入的一个小常数。
e、和谐度的计算方式为:
首先采用频域的归一化自相关方法估计每个频率是基频的可能性。
其中,是采样信号频谱X(i)零均值化后的值,K是傅里叶变换的阶数,fs是音频信号的采样率,R(j)的值反映了频率j·fs/K是基频的可能性。
将一帧信号的和谐度定义为
h = max j ∈ [ j f 1 , j f 2 ] [ R ( j ) ]
或者
h = Average j ∈ [ j f 1 , j f 2 ] [ R ( j ) ]
其中,[jf1,jf2]和考察的频率范围相对应。
当对于每个音频样本的特征采集完成之后,就可以形成每个样本音频的特征向量作为机器学习算法训练的输入。在这里,我们会利用svm算法以及这些样本音频的特征值向量得到可以区分是否为音乐或者语音音频的区分模型。至此,我们的机器学习模块,即辅助NMF进行语音音频区分的识别模块已经得到。
接下来,当我们得到一段音乐与语音混合的音频信号时,我们将开始利用NMF进行迭代的信号矩阵分解。
首先,依据之前提到的公式,我们需要设置两个JEuc门限值,即当达到第一JEuc门限,即JEuc1时,我们将把分解完成之后的两个矩阵Am与As进行特征提取,并输入由之前机器学习算法得到的区分模型,进行区分。
然后,还有第二个门限值即JEuc2作为当模型已经成功判别所分离的矩阵为语音音频与音乐音频时,NMF算法的终止门限。这里的门限值会根据用户的需要进行设置,其最小值为0,即最后的拆分结果没有任何的误差存在,当然,门限值设置的越小其相应的收敛时间也会越长。
在开始迭代的时候,本发明会用某音乐音频矩阵作为Am的初始值,某语音音频矩阵作为As的初始值,这样就可以最大程度的减少收敛的次数,从而提升算法的效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims (6)

1.一种基于NMF非负矩阵分解的音频分离方法,其包括辅助音乐语音区分模块和NMF非负矩阵分解模块,其特征在于:其方法为:
所述的辅助音乐语音区分模块利用机器学习的方法通过提取大量的语音音乐音频的相关音频特征作为训练样本,通过SVM算法进行训练得到识别模型;
所述的NMF非负矩阵分解模块利用NMF非负矩阵分解方法,通过对原音频信号矩阵进行迭代分解,直到分解结果达到代价函数与辅助区分模块的要求则停止。
2.根据权利要求1所述的基于NMF非负矩阵分解的音频分离方法,其特征在于:所述的辅助音乐语音区分模块利用机器学习的方法步骤如下:
(a)、需要采集大量的语音、音乐以及既非语音也非音乐的音频文件作为训练样本,从而得到相应的区分模型;
(b)、提取音频特征中的静音帧率、高过零率帧比率、低能量帧率、谱通量以及和谐度五个音频量化特征构成每个音频的特征向量,作为及其学习训练的输入向量集;
(c)、利用SVM算法对于步骤(b)中所得到的向量集进行建模,得到所需要的用以识别语音与音乐视频的识别模型。
3.根据权利要求1所述的基于NMF非负矩阵分解的音频分离方法,其特征在于:所述的NMF非负矩阵分解模块利用NMF非负矩阵分解方法的步骤如下:
(1)、首先,建立NMF非负矩阵分解的基本依据公式;
(2)、而后,依据在盲状态模型构建出符合要求的欧几里得距离代价函数,即判断分解结束的主要条件;
(3)、依据此代价函数与基本函数,会得到用以分解原信号矩阵的迭代公式,并依据迭代公式进行迭代分解;
(4)、当每次迭代完成之后,将利用预先设定的JEcu1门限进行判别,若达到门限则提取两个矩阵的相应特征向量,利用之前得到的语音音乐模型进行是否为语音或者音乐的判断;若判断失败,则继续利用c中所述方法进行迭代分解;若判断成功则在判断其是否达到门限JEcu2,直到达到该门限时,停止迭代过程。
4.根据权利3所述的基于NMF非负矩阵分解的音频分离方法,其特征在于:所述步骤(1)中,NMF非负矩阵分解的基本依据公式为:
Y=Ys+Ym+V=AsXs+AmXm+V
其中,Y ∈RN×T 为观察信号的幅度谱,A∈ RN×B,X ∈RB×T,V ∈ RN×T 分别表示Y的基本矩阵、系数矩阵和误差残留矩阵;
上标N,T,B 分别表示频率点数、帧数和基本矩阵所含向量的维数;
A,X 均为非负矩阵,其各元素都大等于0;
下表s与m则代表该矩阵属于语音音频的矩阵和音乐音频的矩阵。
5.根据权利3所述的基于NMF非负矩阵分解的音频分离方法,其特征在于:所述步骤(2)中,欧几里得距离代价函数定义为:
JEcu=0.5||Y-AsXs+AmXm||F 2
6.根据权利3所述的基于NMF非负矩阵分解的音频分离方法,其特征在于:所述步骤(3)中,分解原信号矩阵的迭代公式定义为:
Figure FDA0000258184552
Figure FDA0000258184553
Figure FDA0000258184554
其中,
Figure FDA0000258184555
Figure FDA0000258184557
Figure FDA0000258184558
表示梯度下降学习的速率;
在第一次迭代的时,利用某音乐音频的信号矩阵Am与某语音音频的信号矩阵As以及单位矩阵作为AsXs以及AmXm的初始矩阵。
CN201210541700.2A 2012-12-13 2012-12-13 一种基于nmf非负矩阵分解的音频分离方法 Pending CN103871423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210541700.2A CN103871423A (zh) 2012-12-13 2012-12-13 一种基于nmf非负矩阵分解的音频分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210541700.2A CN103871423A (zh) 2012-12-13 2012-12-13 一种基于nmf非负矩阵分解的音频分离方法

Publications (1)

Publication Number Publication Date
CN103871423A true CN103871423A (zh) 2014-06-18

Family

ID=50909886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210541700.2A Pending CN103871423A (zh) 2012-12-13 2012-12-13 一种基于nmf非负矩阵分解的音频分离方法

Country Status (1)

Country Link
CN (1) CN103871423A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104183245A (zh) * 2014-09-04 2014-12-03 福建星网视易信息系统有限公司 一种演唱者音色相似的歌星推荐方法与装置
CN104464727A (zh) * 2014-12-11 2015-03-25 福州大学 一种基于深度信念网络的单通道音乐的歌声分离方法
CN104751855A (zh) * 2014-11-25 2015-07-01 北京理工大学 基于非负矩阵分解的音乐背景下语音增强方法
CN105989851A (zh) * 2015-02-15 2016-10-05 杜比实验室特许公司 音频源分离
CN106847267A (zh) * 2015-12-04 2017-06-13 中国科学院声学研究所 一种连续语音流中的叠音检测方法
CN107295399A (zh) * 2017-07-29 2017-10-24 安徽博威康信息技术有限公司 一种基于用户的视频历史观看记录的音乐获取系统
CN108091345A (zh) * 2017-12-27 2018-05-29 东南大学 一种基于支持向量机的双耳语音分离方法
CN109545240A (zh) * 2018-11-19 2019-03-29 清华大学 一种人机交互的声音分离的方法
CN109644304A (zh) * 2016-08-31 2019-04-16 杜比实验室特许公司 混响环境的源分离
CN109658944A (zh) * 2018-12-14 2019-04-19 中国电子科技集团公司第三研究所 直升机声信号增强方法及装置
CN110060699A (zh) * 2019-05-21 2019-07-26 哈尔滨工程大学 一种基于深度稀疏展开的单信道语音分离方法
CN111837185A (zh) * 2018-12-07 2020-10-27 广东省智能制造研究所 基于约束半非负矩阵分解的声音分类方法、装置及介质
CN111863014A (zh) * 2019-04-26 2020-10-30 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
CN106796803B (zh) * 2014-10-14 2023-09-19 交互数字麦迪逊专利控股公司 用于在音频通信中将语音数据与背景数据分离的方法和装置

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104183245A (zh) * 2014-09-04 2014-12-03 福建星网视易信息系统有限公司 一种演唱者音色相似的歌星推荐方法与装置
CN106796803B (zh) * 2014-10-14 2023-09-19 交互数字麦迪逊专利控股公司 用于在音频通信中将语音数据与背景数据分离的方法和装置
CN104751855A (zh) * 2014-11-25 2015-07-01 北京理工大学 基于非负矩阵分解的音乐背景下语音增强方法
CN104464727A (zh) * 2014-12-11 2015-03-25 福州大学 一种基于深度信念网络的单通道音乐的歌声分离方法
CN105989851A (zh) * 2015-02-15 2016-10-05 杜比实验室特许公司 音频源分离
CN105989851B (zh) * 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
CN106847267B (zh) * 2015-12-04 2020-04-14 中国科学院声学研究所 一种连续语音流中的叠音检测方法
CN106847267A (zh) * 2015-12-04 2017-06-13 中国科学院声学研究所 一种连续语音流中的叠音检测方法
CN109644304A (zh) * 2016-08-31 2019-04-16 杜比实验室特许公司 混响环境的源分离
CN107295399A (zh) * 2017-07-29 2017-10-24 安徽博威康信息技术有限公司 一种基于用户的视频历史观看记录的音乐获取系统
CN108091345B (zh) * 2017-12-27 2020-11-20 东南大学 一种基于支持向量机的双耳语音分离方法
CN108091345A (zh) * 2017-12-27 2018-05-29 东南大学 一种基于支持向量机的双耳语音分离方法
CN109545240A (zh) * 2018-11-19 2019-03-29 清华大学 一种人机交互的声音分离的方法
CN109545240B (zh) * 2018-11-19 2022-12-09 清华大学 一种人机交互的声音分离的方法
CN111837185A (zh) * 2018-12-07 2020-10-27 广东省智能制造研究所 基于约束半非负矩阵分解的声音分类方法、装置及介质
CN111837185B (zh) * 2018-12-07 2024-03-12 广东省智能制造研究所 基于约束半非负矩阵分解的声音分类方法、装置及介质
CN109658944B (zh) * 2018-12-14 2020-08-07 中国电子科技集团公司第三研究所 直升机声信号增强方法及装置
CN109658944A (zh) * 2018-12-14 2019-04-19 中国电子科技集团公司第三研究所 直升机声信号增强方法及装置
CN111863014A (zh) * 2019-04-26 2020-10-30 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
CN110060699A (zh) * 2019-05-21 2019-07-26 哈尔滨工程大学 一种基于深度稀疏展开的单信道语音分离方法

Similar Documents

Publication Publication Date Title
CN103871423A (zh) 一种基于nmf非负矩阵分解的音频分离方法
US20220343898A1 (en) Speech recognition method and apparatus, and computer-readable storage medium
CN102664011B (zh) 一种快速说话人识别方法
CN102799892B (zh) 一种mfcc水下目标特征提取和识别方法
CN103871426A (zh) 对比用户音频与原唱音频相似度的方法及其系统
WO2016155047A1 (zh) 低信噪比声场景下声音事件的识别方法
CN101226743A (zh) 基于中性和情感声纹模型转换的说话人识别方法
CN104978507A (zh) 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN102789779A (zh) 一种语音识别系统及其识别方法
CN109256139A (zh) 一种基于Triplet-Loss的说话人识别方法
CN102708861A (zh) 基于支持向量机的不良语音识别方法
CN117116290B (zh) 基于多维特征的数控机床部件缺陷定位方法和相关设备
CN107369451B (zh) 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法
CN103730129A (zh) 一种用于数据库信息查询的语音查询系统
CN105916090A (zh) 一种基于智能化语音识别技术的助听器系统
CN103021421A (zh) 用于枪声的多级筛选检测识别方法
CN112735443B (zh) 一种具有自动分类的海洋空间资源管理系统及其自动分类方法
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
CN103505189A (zh) 基于小波包变换和隐马尔科夫模型的脉搏信号分类方法
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
CN107993666B (zh) 语音识别方法、装置、计算机设备及可读存储介质
CN110379438A (zh) 一种语音信号基频检测与提取方法及系统
Kim et al. Light-Weight Speaker Verification with Global Context Information.
CN111862991A (zh) 一种婴儿哭声的识别方法及系统
CN104240699A (zh) 一种简单有效的短语语音识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140618