CN105825871B - 一种无前导静音段语音的端点检测方法 - Google Patents
一种无前导静音段语音的端点检测方法 Download PDFInfo
- Publication number
- CN105825871B CN105825871B CN201610149314.7A CN201610149314A CN105825871B CN 105825871 B CN105825871 B CN 105825871B CN 201610149314 A CN201610149314 A CN 201610149314A CN 105825871 B CN105825871 B CN 105825871B
- Authority
- CN
- China
- Prior art keywords
- frame
- signal
- mfcc
- voice
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000001228 spectrum Methods 0.000 claims abstract description 34
- 238000012935 Averaging Methods 0.000 claims abstract description 10
- 230000003044 adaptive effect Effects 0.000 claims abstract description 5
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000009432 framing Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 16
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Complex Calculations (AREA)
Abstract
本发明属于语音信号处理技术领域,一种无前导静音段语音的端点检测方法,包括以下步骤:步骤1、采用LMS自适应算法对带噪语音滤波,步骤2、将去噪后的语音从时域变换到频域,步骤3、计算每一帧的MFCC参数,步骤4、分别计算每一帧的谱熵,步骤5、采用FCM对语音信号进行分类,步骤6、计算步骤5中每类的平均谱熵,并标记出语音信号和噪声信号。本发明方法无需设置阈值,因此不会出现因设置阈值错误而造成端点检测错误;与神经网络等有监督的聚类方法相比,本方法无需训练样本,计算简单,快速,有利于后续的实时语音识别系统的设计。
Description
技术领域
本发明涉及一种无前导静音段语音的端点检测方法,属于语音信号处理技术领域。
背景技术
随着人机信息交互技术的发展,语音识别技术显示出其重要性。在语音识别系统中,语音端点检测是语音识别中的关键技术之一。语音端点检测是指在有噪声的连续声音信号中找出语音部分的起始点和终止点。端点检测的准确与否,会直接影响到语音识别系统的性能。一种有效的端点检测方法不仅能够正确的检测出语音端点,而且能够减少数据处理时间、节省存储空间和提高效率。
由于需求的不同,比如计算精确性、算法复杂度、鲁棒性、响应时间等,不同的应用会选择不同的端点检测算法。传统的基于阈值的端点检测算法,首先需要设定一个阈值,然后提取每一帧语音信号的语音特征(比如短时能量、短时过零率等)与预先设定的阈值比较。如果该语音帧的语音特征值大于阈值,就认为该帧是语音帧,否则该帧是噪声帧。通常来说正常的语音信号中包含一些静音部分,一次双方通话中静音部分能够达到60%,在这种静音比较多的情况下,基于阈值的双门限算法有很好的性能。然而,当语音信号没有前导静音段时,双门限算法的性能下降地很快,因为基于阈值的方法,需先确定阈值,并假设开始几帧信号是不包含语音的噪声信号。由于在语音端点检测的过程中,可能会有一段语音没有前导静音段或者前导静音段比较短,那么语音阈值就会设置错误,所以如果语音信号不满足这个假设,预先定义的阈值将是不可用的,端点检测就会出错。
发明内容
为了克服现有技术中存在的不足,本发明目的是提供一种无前导静音段语音的端点检测方法。该方法首先采用LMS(Least Mean Square)自适应滤波法对语音信号进行降噪处理,然后将语音信号分帧,计算每一帧信号的MFCC(Mel Frequency CepstrumCoefficient)参数和谱熵,Mel是音高的单位,再用MFCC作为FCM(fuzzy C-means)聚类算法的输入参数进行分类,最后计算每一类的平均谱熵,来标记出语音类和噪声类,从而检测出语音端点。
为了实现上述发明目的,解决已有技术中所存在的问题,本发明采取的技术方案是:一种无前导静音段语音的端点检测方法,包括以下步骤:
步骤1、采用LMS自适应算法对带噪语音滤波,具体包括以下子步骤:
(a)、设有语音信号s(n)及噪声信号源v0(n),可以认为噪声信号源v0(n)在传播到人耳过程中,经过了一个传递函数为H的滤波器,输出为v1(n)的信号叠加在语音信号上,得到带噪语音d(n),
d(n)=s(n)+v1(n) (1)
(b)、设有LMS自适应滤波器从另一个接近噪声信号源v0(n)处对其滤波,得到滤波后的信号y(n),该LMS自适应滤波器用于模拟子步骤(a)中的传递函数为H的滤波器;
(c)、去噪后的语音信号记为x(n),则
x(n)=d(n)-y(n) (2)
步骤2、将去噪后的语音从时域变换到频域,具体包括以下子步骤:
(a)、设置帧长和帧重叠长度,帧长的设置,由于语音信号是一个准平稳的信号,通过把它分成较短的帧,每帧可看作平稳信号,这样就可以用处理平稳信号的方法来处理,同时为了使一帧与另一帧信号之间的参数能较平稳的过度,在相邻两帧之间互相有部分重叠,还需设置帧重叠长度;
(b)、加窗处理,分帧,加窗函数的目的是减少频域中的泄漏,对每一帧的语音信号乘以汉明窗,去噪后的语音信号x(n)经过分帧和加窗处理后为xi(m),xi(m)表示第i帧信号中的第m个分量值;
c)、采用FFT将语音信号的每一帧从时域变换到频域,对每一帧信号进行FFT变换,从时域变换为频域,其表达式为
X(i,k)=FFT[xi(m)] (3)
式中,X(i,k)表示第i帧信号中的第k条谱线;
步骤3、计算每一帧的MFCC参数,具体包括以下子步骤:
(a)、计算谱线能量,对每一帧FFT后的数据计算谱线的能量,其表达式为
E(i,k)=[X(i,k)]2 (4)
式中,E(i,k)表示第i帧信号中第k条谱线的能量;
(b)、计算通过Mel滤波器的能量,把求得的每帧谱线能量谱通过Mel滤波器,并乘以在该Mel滤波器中的能量,在频域中相当于把每帧的能量谱E(i,k)与Mel滤波器的频率响应Hm(k)相乘并相加,其表达式为
式中,S(i,m)表示第i帧中第m个Mel滤波器的谱线能量,M表示Mel滤波器的个数,N表示每一帧序列长度;
(c)、计算MFCC参数,把Mel滤波器的能量取对数后计算DCT,其表达式为,
式中,mfcc(i,n)表示第i帧MFCC参数中的第n个分量;
步骤4、分别计算每一帧的谱熵,具体包括以下子步骤:
(a)、计算频谱分量的归一化概率密度,由步骤3子步骤(a)中可知,E(i,k)为第i帧信号第k条谱线的能量,则归一化概率密度为,
式中,pi(k)为第i帧信号第k条谱线对应的概率密度,E(i,l)为第i帧信号第l条谱线的能量,0≤l≤N/2,N为FFT长度;
(b)、计算每一帧的谱熵,表达式为,
式中,hi为第i帧的谱熵;
步骤5、采用FCM对语音信号进行分类,具体包括以下子步骤:
(a)、由步骤3子步骤(c)中,可设mfcck为第k帧信号的MFCC特征参数,以该参数作为FCM的输入参数,使目标函数
在条件下具有最小值,
式中,mfcck=[mfcc1k,mfcc2k,…,mfccsk]T表示目标数,mfccjk表示第k帧MFCC特征mfcck的第j个分量值,s表示每一帧特征的维数,V=[vji]=[v1,v2,…,vc]òRs×c表示包含聚类中心的矩阵,U=[uik]∈Rc×n表示隶属度矩阵,m表示模糊系数,m∈(1,∞),表示模糊程度,||·||2表示欧式范数;由拉格朗日乘数法,得如下更新方程,
式中,i=1,2,…,c
式中,
(b)、选择模糊系数m,m∈(1,∞),聚类数c,2≤c≤s和ε,ε为很小的正常数;
(c)、设l为迭代次数,由公式U(l-1)可以得到V(l),其中U(l-1)为U的第l-1次迭代值,V(l)为V的第l次迭代值;
(d)、采用式(11)、(12)和V(l)更新隶属度矩阵U(l);
(e)、如果停止更新,否则设置l=l+1并返回子步骤(c),其中为uik的第l次迭代值;
步骤6、计算步骤5中每类的平均谱熵,并标记出语音信号和噪声信号,谱熵较大的是噪声,较小的是语音。
本发明有益效果是:一种无前导静音段语音的端点检测方法,包括以下步骤:步骤1、采用LMS自适应算法对带噪语音滤波,步骤2、将去噪后的语音从时域变换到频域,步骤3、计算每一帧的MFCC参数,步骤4、分别计算每一帧的谱熵,步骤5、采用FCM对语音信号进行分类,步骤6、计算步骤5中每类的平均谱熵,并标记出语音信号和噪声信号。与已有技术相比,本方法无需设置阈值,因此不会出现因设置阈值错误而造成端点检测错误;与神经网络等有监督的聚类方法相比,本方法无需训练样本,计算简单,快速,有利于后续的实时语音识别系统的设计。
附图说明
图1是本发明方法步骤流程图。
图2是采用本发明方法检测无前导静音段语音字母“A”端点的结果图。
图中:(a)是语音字母“A”的语音波形,(b)是本发明的端点检测结果,方形实点和圆形空点表示检测出来的两类,方形实点表示语音类,圆形空点表示非语音类;(a)和(b)中的实竖线是检测到的语音起始点,虚竖线是检测到的语音结束点。
图3为传统双门限法用不同的参数检测无前导静音段字母“F”端点与用本发明方法检测的结果对比图。
图中:(a)是语音字母“F”的语音波形,(b)是用能量作为双门限法的参数检测到的端点,(c)是用方差作为双门限法的参数检测到的端点,(d)是用谱熵作为双门限法的参数检测到的端点,(e)是本发明的端点检测结果,(b)、(c)、(d)、(e)中实竖线为检测到的起始点,虚竖线为检测到的结束点。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种无前导静音段语音的端点检测方法,包括以下步骤:
步骤1、采用LMS自适应算法对带噪语音滤波,具体包括以下子步骤:
(a)、设有语音信号s(n)及噪声信号源v0(n),可以认为噪声源v0(n)在传播到人耳过程中,经过了一个传递函数为H的滤波器,输出为v1(n)的信号叠加在语音信号上,得到带噪语音d(n),
d(n)=s(n)+v1(n) (1)
(b)、设有LMS自适应滤波器从另一个接近噪声信号源v0(n)处对其滤波,得到滤波后的信号为y(n),该LMS自适应滤波器用于模拟子步骤(a)中的传递函数为H的滤波器,LMS自适应滤波器的滤波阶数M=32,收敛因子μ=0.001;
(c)、去噪后的语音信号记为x(n),则
x(n)=d(n)-y(n) (2)
步骤2、将去噪后的语音从时域变换到频域,具体包括以下子步骤:
(a)、设置帧长和帧重叠长度,帧长的设置,由于语音信号是一个准平稳的信号,通过把它分成较短的帧,每帧可看作平稳信号,这样就可以用处理平稳信号的方法来处理,同时为了使一帧与另一帧信号之间的参数能较平稳的过度,在相邻两帧之间互相有部分重叠,还需设置帧重叠长度;设置分帧的参数,信号采样率fs=16000Hz,设置帧长为12.5ms,即每帧有200个采样点,设置帧移为10ms,即帧移位160个采样点,帧重合部分为40个采样点。
(b)、加窗处理,分帧,加窗函数的目的是减少频域中的泄漏,对每一帧的语音信号乘以汉明窗,去噪后的语音信号x(n)经过分帧和加窗处理后为xi(m),xi(m)表示第i帧信号中的第m个分量;用汉明窗加窗,窗长与帧长相同,对去噪后的语音信号x(n)进行分帧,分帧后的语音X∈R200×54,此段语音有54帧,帧长为200。
(c)、采用FFT将语音信号的每一帧从时域变换到频域,对每一帧信号进行FFT变换,从时域变换为频域,其表达式为
X(i,k)=FFT[xi(m)] (3)
式中,X(i,k)表示第i帧信号中的第k条谱线。
步骤3、计算每一帧的MFCC参数,具体包括以下子步骤:
(a)、计算谱线能量,对每一帧FFT后的数据计算谱线的能量,其表达式为
E(i,k)=[X(i,k)]2 (4)
式中,E(i,k)表示第i帧信号的第k条谱线的能量。
(b)、计算通过Mel滤波器的能量,把求得的每帧谱线能量谱通过Mel滤波器,并乘以在该Mel滤波器中的能量,在频域中相当于把每帧的能量谱E(i,k)与Mel滤波器的频率响应Hm(k)相乘并相加,其表达式为,
式中,S(i,m)表示第i帧中第m个Mel滤波器的谱线能量,M表示Mel滤波器的个数,N表示每一帧序列长度。
(c)、计算MFCC参数,把Mel滤波器的能量取对数后计算DCT,其表达式为,
式中,mfcc(i,n)表示第i帧MFCC参数中的第n个分量,得到MFCC=[mfccin]∈R50×24特征参数,(MFCC原有54帧语音特征,去掉首尾各两帧后,为50帧语音信号特征),取MFCC的前16个分量得到MFCC特征,即MFCC∈R50×16,如表1所示,求得的每一行是相应语音帧的特征向量。
表1
步骤4、分别计算每一帧的谱熵,具体包括以下子步骤:
(a)、计算频谱分量的归一化概率密度,由步骤3子步骤(a)中可知,E(i,k)为第i帧信号第k条谱线的能量,则归一化概率密度为,
式中,pi(k)为第i帧信号第k条谱线对应的概率密度,N为FFT长度;
(b)、计算每一帧的谱熵,表达式为,
式中,hi为第i帧的谱熵,得到谱熵H=[hi]∈R1×50,如表2所示。
表2
i | 1 | 2 | 3 | 4 | 5 | ...... | 46 | 47 | 48 | 49 | 50 |
h<sub>i</sub> | 3.4707 | 2.9917 | 3.2804 | 3.027 | 3.0165 | ...... | 4.3249 | 4.1845 | 4.1625 | 4.1833 | 4.0619 |
步骤5、采用FCM对语音信号进行分类,具体包括以下子步骤:
(a)、由步骤3子步骤(c)中,可设mfcck为第k帧信号的MFCC特征参数,以该参数作为FCM的输入参数,使目标函数
在条件下具有最小值,
式中,mfcck=[mfcc1k,mfcc2k,…,mfccsk]T表示目标数,mfccjk表示第k帧MFCC特征mfcck的第j个分量,s表示每一帧特征的维数,V=[vji]=[v1,v2,…,vc]òRs×c表示包含聚类中心的矩阵,U=[uik]∈Rc×n表示隶属度矩阵,表示模糊系数,m∈(1,∞),表示模糊程度,||·||2表示欧式范数;由拉格朗日乘数法,得如下更新方程,
式中,i=1,2,…,c
式中,
(b)、选择模糊系数m,m∈(1,∞),聚类数c,2≤c≤s和ε,ε为很小的正常数,这里选择模糊系数m=2,聚类数c=2和ε=10-6;
(c)、设l为迭代次数,由公式U(l-1)可以得到V(l);
(d)、采用式(11)、(12)和V(l)更新隶属度矩阵U(l);
(e)、如果停止更新,否则设置l=l+1并返回子步骤(c);最后得到的隶属度矩阵U=[uik]∈R2×50,uik表示第k帧隶属于第i类的概率,1≤i≤2,1≤k≤50,如表3所示,分类的结果如表4所示。
表3
u<sub>ik</sub> | 1 | 2 | 3 | 4 | 5 | ...... | 46 | 47 | 48 | 49 | 50 |
1 | 0.57226 | 0.66763 | 0.65264 | 0.52537 | 0.71013 | ...... | 0.31159 | 0.25405 | 0.35762 | 0.3147 | 0.31641 |
2 | 0.42774 | 0.33237 | 0.34736 | 0.47463 | 0.28987 | ...... | 0.68841 | 0.74595 | 0.64238 | 0.6853 | 0.68359 |
表4
帧数 | 1 | 2 | 3 | ...... | 38 | 39 | 40 | ...... | 48 | 49 | 50 |
类别 | 1 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 2 | 2 | 2 |
步骤6、计算步骤5中每类的平均谱熵,并标记出语音信号和噪声信号,谱熵较大的是噪声,较小的是语音。通过计算得到类别1、类别2的平均谱熵分别为2.5776及3.5649,由于2.5776<3.5649,所以类别1是语音,类别2是噪声。为了进一步体现本发明方法检测无前导静音段语音端点方面的优势,做了更多的对比试验。图3为分别用能量、方差和谱熵作为双门限法的参数检测无前导静音段语音“F”所得的结果与本方法的结果的对比图,很明显,本发明方法更好。同时表5是对150个单词检测的结果,显然,传统的双门限端点检测方法在检测此类语音时已经失效,而本发明方法有很好的检测效果。
表5
本发明优点在于:一种无前导静音段语音的端点检测方法,无需设置阈值,避免了传统双门限端点检测方法因为阈值设置错误,而导致端点检测的错误,同时相对于神经网络方法中,需先训练样本,本方法为无监督的方法,无需训练样本,计算简单,快速,实时性好,为后续的实时语音识别系统的设计奠定了基础。
Claims (1)
1.一种无前导静音段语音的端点检测方法,其特征在于包括以下步骤:
步骤1、采用LMS自适应算法对带噪语音滤波,具体包括以下子步骤:
(a)、设有语音信号s(n)及噪声信号源v0(n),可以认为噪声信号源v0(n)在传播到人耳过程中,经过了一个传递函数为H的滤波器,输出为v1(n)的信号叠加在语音信号上,得到带噪语音d(n),
d(n)=s(n)+v1(n) (1)
(b)、设有LMS自适应滤波器从另一个接近噪声信号源v0(n)处对其滤波,得到滤波后的信号y(n),该LMS自适应滤波器用于模拟子步骤(a)中的传递函数为H的滤波器;
(c)、去噪后的语音信号记为x(n),则
x(n)=d(n)-y(n) (2)
步骤2、将去噪后的语音从时域变换到频域,具体包括以下子步骤:
(a)、设置帧长和帧重叠长度;
(b)、加窗处理,分帧、加窗函数的目的是减少频域中的泄漏,对每一帧的语音信号乘以汉明窗,去噪后的语音信号x(n)经过分帧和加窗处理后为xi(m),xi(m)表示第i帧信号中的第m个分量;
c)、采用FFT将语音信号的每一帧从时域变换到频域,对每一帧信号进行FFT变换,从时域变换为频域,其表达式为
X(i,k)=FFT[xi(m)] (3)
式中,X(i,k)表示第i帧频谱中的第k条谱线;
步骤3、计算每一帧的MFCC参数,具体包括以下子步骤:
(a)、计算谱线能量,对每一帧FFT后的数据计算谱线的能量,其表达式为
E(i,k)=[X(i,k)]2 (4)
式中,E(i,k)表示第i帧信号的第k条谱线的能量;
(b)、计算通过Mel滤波器的能量,把求得的每帧谱线能量谱通过Mel滤波器,并乘以在该Mel滤波器中的能量,在频域中相当于把每帧的能量谱E(i,k)与Mel滤波器的频率响应Hm(k)相乘并相加,其表达式为
式中,S(i,m)表示第i帧中第m个Mel滤波器的谱线能量,M表示Mel滤波器的个数,N表示每一帧序列长度;
(c)、计算MFCC参数,把Mel滤波器的能量取对数后计算DCT,其表达式为,
式中,mfcc(i,n)表示第i帧MFCC参数中的第n个分量;
步骤4、分别计算每一帧的谱熵,具体包括以下子步骤:
(a)、计算频谱分量的归一化概率密度,由步骤3子步骤(a)中可知,E(i,k)为第i帧信号第k条谱线的能量,则归一化概率密度为,
式中,pi(k)为第i帧信号第k条谱线对应的概率密度,E(i,l)为第i帧信号第l条谱线的能量,0≤l≤N/2,N为FFT长度;
(b)、计算每一帧的谱熵,表达式为,
式中,hi为第i帧的谱熵;
步骤5、采用FCM对语音信号进行分类,具体包括以下子步骤:
(a)、由步骤3子步骤(c)中,可设mfcck为第k帧信号的MFCC特征参数,以该参数作为FCM的输入参数,使目标函数
在for k=1,2,…,n条件下具有最小值,
式中,mfcck=[mfcc1k,mfcc2k,…,mfccsk]T,mfccjk表示第k帧MFCC特征mfcck的第j个分量,s表示每一帧特征的维数,V=[vji]=[v1,v2,…,vc]òRs×c表示包含聚类中心的矩阵,U=[uik]∈Rc×n表示隶属度矩阵,m表示模糊系数,m∈(1,∞),表示模糊程度,||·||2表示欧式范数;由拉格朗日乘数法,得如下更新方程,
式中,i=1,2,…,c
式中,
(b)、选择模糊系数m,m∈(1,∞),聚类数c,2≤c≤s和ε,ε为很小的正常数;
(c)、设l为迭代次数,由公式U(l-1)可以得到V(l),其中U(l-1)为U的第l-1次迭代值,V(l)为V的第l次迭代值;
(d)、采用式(11)、(12)和V(l)更新隶属度矩阵U(l);
(e)、如果停止更新,否则设置l=l+1并返回子步骤(c),其中为uik的第l次迭代值;
步骤6、计算步骤5中每类的平均谱熵,并标记出语音信号和噪声信号,谱熵较大的是噪声,较小的是语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610149314.7A CN105825871B (zh) | 2016-03-16 | 2016-03-16 | 一种无前导静音段语音的端点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610149314.7A CN105825871B (zh) | 2016-03-16 | 2016-03-16 | 一种无前导静音段语音的端点检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105825871A CN105825871A (zh) | 2016-08-03 |
CN105825871B true CN105825871B (zh) | 2019-07-30 |
Family
ID=56987811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610149314.7A Active CN105825871B (zh) | 2016-03-16 | 2016-03-16 | 一种无前导静音段语音的端点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105825871B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831506A (zh) * | 2018-06-25 | 2018-11-16 | 华中师范大学 | 基于gmm-bic的数字音频篡改点检测方法及系统 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650576A (zh) * | 2016-09-22 | 2017-05-10 | 中国矿业大学 | 一种基于噪声特征统计量的矿山设备健康状态判决方法 |
CN107331393B (zh) * | 2017-08-15 | 2020-05-12 | 成都启英泰伦科技有限公司 | 一种自适应语音活动检测方法 |
CN107910017A (zh) * | 2017-12-19 | 2018-04-13 | 河海大学 | 一种带噪语音端点检测中阈值设定的方法 |
CN108364637B (zh) * | 2018-02-01 | 2021-07-13 | 福州大学 | 一种音频句子边界检测方法 |
CN108648763B (zh) * | 2018-04-04 | 2019-11-29 | 深圳大学 | 基于声学信道的个人计算机使用行为监测方法及系统 |
CN108877775B (zh) * | 2018-06-04 | 2023-03-31 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN108877779B (zh) * | 2018-08-22 | 2020-03-20 | 百度在线网络技术(北京)有限公司 | 用于检测语音尾点的方法和装置 |
CN109357749B (zh) * | 2018-09-04 | 2020-12-04 | 南京理工大学 | 一种基于dnn算法的电力设备音频信号分析方法 |
CN112955951A (zh) * | 2018-11-15 | 2021-06-11 | 深圳市欢太科技有限公司 | 语音端点检测方法、装置、存储介质及电子设备 |
CN110211596B (zh) * | 2019-05-29 | 2021-04-06 | 哈尔滨工程大学 | 一种基于Mel子带谱熵鲸目动物哨声信号检测方法 |
CN110415729B (zh) * | 2019-07-30 | 2022-05-06 | 安谋科技(中国)有限公司 | 语音活动检测方法、装置、介质和系统 |
CN112447166A (zh) * | 2019-08-16 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 一种针对目标频谱矩阵的处理方法及装置 |
CN112837704A (zh) * | 2021-01-08 | 2021-05-25 | 昆明理工大学 | 一种基于端点检测的语音背景噪声识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7746473B2 (en) * | 2007-05-24 | 2010-06-29 | Applied Materials, Inc. | Full spectrum adaptive filtering (FSAF) for low open area endpoint detection |
CN102648847A (zh) * | 2011-02-28 | 2012-08-29 | 精工爱普生株式会社 | 搏动检测装置 |
CN103489454A (zh) * | 2013-09-22 | 2014-01-01 | 浙江大学 | 基于波形形态特征聚类的语音端点检测方法 |
CN103854662A (zh) * | 2014-03-04 | 2014-06-11 | 中国人民解放军总参谋部第六十三研究所 | 基于多域联合估计的自适应语音检测方法 |
CN104810018A (zh) * | 2015-04-30 | 2015-07-29 | 安徽大学 | 基于动态累积量估计的语音信号端点检测方法 |
-
2016
- 2016-03-16 CN CN201610149314.7A patent/CN105825871B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7746473B2 (en) * | 2007-05-24 | 2010-06-29 | Applied Materials, Inc. | Full spectrum adaptive filtering (FSAF) for low open area endpoint detection |
CN102648847A (zh) * | 2011-02-28 | 2012-08-29 | 精工爱普生株式会社 | 搏动检测装置 |
CN103489454A (zh) * | 2013-09-22 | 2014-01-01 | 浙江大学 | 基于波形形态特征聚类的语音端点检测方法 |
CN103854662A (zh) * | 2014-03-04 | 2014-06-11 | 中国人民解放军总参谋部第六十三研究所 | 基于多域联合估计的自适应语音检测方法 |
CN104810018A (zh) * | 2015-04-30 | 2015-07-29 | 安徽大学 | 基于动态累积量估计的语音信号端点检测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831506A (zh) * | 2018-06-25 | 2018-11-16 | 华中师范大学 | 基于gmm-bic的数字音频篡改点检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105825871A (zh) | 2016-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105825871B (zh) | 一种无前导静音段语音的端点检测方法 | |
DE112015004785B4 (de) | Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal | |
CN106340292B (zh) | 一种基于连续噪声估计的语音增强方法 | |
Jin et al. | A supervised learning approach to monaural segregation of reverberant speech | |
Pfeifenberger et al. | DNN-based speech mask estimation for eigenvector beamforming | |
CN102968990B (zh) | 说话人识别方法和系统 | |
CN104978507B (zh) | 一种基于声纹识别的智能测井评价专家系统身份认证方法 | |
CN107305774A (zh) | 语音检测方法和装置 | |
CN105679312B (zh) | 一种噪声环境下声纹识别的语音特征处理方法 | |
CN103474066A (zh) | 基于多频带信号重构的生态声音识别方法 | |
KR101305373B1 (ko) | 관심음원 제거방법 및 그에 따른 음성인식방법 | |
CN106023986B (zh) | 一种基于声效模式检测的语音识别方法 | |
Lv et al. | A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation | |
CN110189746A (zh) | 一种应用于地空通信的话音识别方法 | |
CN110265035A (zh) | 一种基于深度学习的说话人识别方法 | |
Togami | Multi-channel Itakura Saito distance minimization with deep neural network | |
Hassan et al. | Pattern classification in recognizing Qalqalah Kubra pronuncation using multilayer perceptrons | |
Martín-Doñas et al. | Dual-channel DNN-based speech enhancement for smartphones | |
Boeddeker et al. | An initialization scheme for meeting separation with spatial mixture models | |
CN104392719B (zh) | 一种用于语音识别系统的中心子带模型自适应方法 | |
Fan et al. | Deep attention fusion feature for speech separation with end-to-end post-filter method | |
Nakatani et al. | Logmax observation model with MFCC-based spectral prior for reduction of highly nonstationary ambient noise | |
Hioka et al. | Voice activity detection with array signal processing in the wavelet domain | |
CN104361892B (zh) | 一种干扰信号与语音调制信号混叠的窄带干扰识别方法 | |
Tang et al. | Speech Recognition in High Noise Environment. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |