CN108830232A - 一种基于多尺度非线性能量算子的语音信号周期分割方法 - Google Patents

一种基于多尺度非线性能量算子的语音信号周期分割方法 Download PDF

Info

Publication number
CN108830232A
CN108830232A CN201810640530.0A CN201810640530A CN108830232A CN 108830232 A CN108830232 A CN 108830232A CN 201810640530 A CN201810640530 A CN 201810640530A CN 108830232 A CN108830232 A CN 108830232A
Authority
CN
China
Prior art keywords
operator
fusion
voice signal
region
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810640530.0A
Other languages
English (en)
Other versions
CN108830232B (zh
Inventor
朱成华
卢光明
武克斌
张大鹏
钟德才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Midpoint Artificial Intelligence Technology Co Ltd
Original Assignee
Zhejiang Midpoint Artificial Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Midpoint Artificial Intelligence Technology Co Ltd filed Critical Zhejiang Midpoint Artificial Intelligence Technology Co Ltd
Priority to CN201810640530.0A priority Critical patent/CN108830232B/zh
Publication of CN108830232A publication Critical patent/CN108830232A/zh
Application granted granted Critical
Publication of CN108830232B publication Critical patent/CN108830232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及一种基于多尺度非线性能量算子TKEO(Teager‑Kaiser energy operator)的语音信号周期分割算法,首先在TKEO算子的基础上定义aTKEO算子,再将aTKEO算子扩展至带尺度参数L的算子,通过最大值融合、乘积融合和均值融合策略实现融合,最后根据三种融合策略对应的GCI提取算法实现语音信号周期分割;本算法无须预知基频信息,无短时平稳假设和线性假设,对多种声音类型鲁棒,同时运算复杂度低,速度快、运算精度高。

Description

一种基于多尺度非线性能量算子的语音信号周期分割方法
技术领域
本发明属于语音信号周期分割技术领域,特别涉及一种基于多尺度非线性能量算子的语音信号周期分割方法。
背景技术
人的声音中包括丰富的生物医学信息,由于其具有直接性、非侵入式、自动化等优点,使其在语义理解,健康分析等方面引起广泛关注,尤其在情感分析方面拥有广阔的应用前景。
声音的产生伴随着声带的振动,与情感相关的声音特征中,基频、语速、流畅度等特征的提取,依赖于准确的周期分割。利用声门闭合时刻进行周期分割是比较常用的周期分割方法。
声门闭合时刻(Glottal closure instant, GCI)是指每次声带振动中声门闭合的时刻,GCI 是每个周期的关键特征点,相邻 GCI 之间的语音波形即构成一个完整周期。因此提取 GCI 可用来将语音信号分割为多个单周期信号,即进行周期分割。
传统的GCI提取算法假设声音信号具有平稳特点,以线性模型来模拟发声过程,然而真实的声音具有局部突变、非线性的特点。而且传统的GCI提取算法需预先获知基频信息,故不具有独立性。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于多尺度非线性能量算子TKEO(Teager-Kaiser energy operator)的语音信号周期分割算法,本发明的算法不仅准确率较高,对多种声音类型鲁棒,而且还具有较低的计算复杂度。
其技术方案如下:
S1、多尺度非线性能量算子TKEO表示为:
Y[x(n)]= x(n)2-x(n-1)x(n+1)
其中x(n)为离散语音信号,n代表采样点;
S2、定义绝对TKEO算子aTKEO(absolute TKEO):
|Y[x(n)]|= |x(n)2-x(n-1)x(n+1)|
S3、将 aTKEO 扩展至带尺度参数 L 的算子RaTKEO,定义如下:
|YL[x(n)]|=| x(n)2-x(n-L)x(n+ L)|
其中,参数L为正整数;
S4、分别采用最大值融合、乘积融合和均值融合三种融合策略得到以下三个融合值:
p1(n)=max(|Y1[x(n)]|,|Y2[x(n)]|,…,|YM[x(n)]|)
p2(n)=(|Yk[x(n)]| /k)
p3(n)=|Yk[x(n)]|
其中,M为尺度数,k为尺度,p1(n)表示采用最大值融合时的融合值,最大融合策略对应的声门闭合时刻(GCI) 提取算法为 GMATmax; p2(n)表示采用乘积融合时的融合值,乘积整合策略对应的GCI提取算法为GMATprod; p3(n)表示采用均值融合时的融合值;均值融合策略对应的GCI提取算法为GMATmean;
S5、采用下述高通滤波器检测幅度陡增时刻:
其中j为循环变量, 代表计算平均幅度时的窗口大小,q1 (n)、q2 (n)、q3 (n)分别表示采用GMATmax、GMATprod 和GMATmean方法时,幅度陡增后与陡增前的平均幅度差值,分别利用 q1(n)、q2(n)、q3(n) 中的过零点切割出幅度为正的区域,将信号分割成多个区域,且每个区域内包含一个 GCI真值,这个区域则为我们分割出来的一个周期;
S6、根据GMATmax、GMATprod 和GMATmean方法测出的周期Tmax、Tprod、Tmean,从检测率、漏检率、误检率、检测准确度、检测偏差五个方面评估三种尺度算法的可靠性与准确性,根据对性能要求的不同选择合适的尺度进行周期分割。
本发明与现有技术相比,有以下优点:
1、本发明的语音信号周期分割算法无须预知基频信息,具有独立性,无短时平稳假设和线性假设,使其更适用于情绪语音的 GCI 提取;
2、对多种声音类型鲁棒,同时运算复杂度低,速度快、运算精度高;
3、另外,该算法还可用于一般的 GCI 应用中,如语音合成和语音压缩等。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于多尺度非线性能量算子TKEO(Teager-Kaiser energyoperator)的语音信号周期分割算法的流程图。
图2为本发明TEKO算子与二阶导数算子、局部均值加权的二阶导数算子的幅度变化曲线对比图。
具体实施方式
下面对本发明的实施例进行详细说明。为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
如图1所示,本发明基于多尺度非线性能量算子TKEO(Teager-Kaiser energyoperator)的语音信号周期分割算法的流程图。
多尺度非线性能量算子TKEO表示为:
Y[x(n)]= x(n)2-x(n-1)x(n+1)
其中x(n)为离散语音信号,n代表采样点。
GCI时间往往对应于奇异点,其对其对应幅度应和前后相邻点有较大差异;根据TKEO表达式可以得知,与非GCI时刻相比,GCI时刻对应的TKEO绝对值相对较大。在此基础上,我们定义绝对绝对TKEO算子如下,并在后文中称之为aTKEO(absolute TKEO)算子:
|Y[x(n)]|= |x(n)2-x(n-1)x(n+1)|
在上述计算过程中,每个时刻的 TKEO 绝对值仅利用了样本点三个时刻的幅度进行计算;当直接用于 GCI 检测时,其鲁棒性还有待进一步增强。基于下述两个原因,可以采用多尺度策略来解决这一问题。一方面,多尺度分析方法扩大了局部分析的范围,使得算法结果与多个点的幅值相关,其鲁棒性得以增强。另一方面,奇异点的属性常在多个尺度中均有体现,因此采用多尺度分析时更能凸显奇异点的特征。
将 aTKEO 扩展至带尺度参数 L 的算子,简称为RaTKEO,定义如下:
|YL[x(n)]|=| x(n)2-x(n-L)x(n+ L)|
这里参数L为正整数。显然,样本点 x(n - L) (或 x(n +L) )与 x(n) 的时间距离等于尺度参数 L。
特别地,aTKEO 的尺度参数等于 1。
假设多尺度分析中共最采用 M个尺度,则还需将这M个RaTKEO 的结果进行融合。可以采用用最大值融合、乘积融合和均值融合等融合策略;其中最大值融合是指逐点进行大值滤波,并将滤波结果作为融合的输出;乘积融合则是将 M个RaTKEO逐点相乘的结果作为输出,为了避免下溢出现象,可将其中的相乘转换到对数域的相加来实现;均值融合则对每个时刻点均进行均值滤波,并输出滤波结果。这三种融合方法可分别表示如下:
p1(n)=max(|Y1[x(n)]|, |Y2[x(n)]|,…,|YM[x(n)]|)
p2(n)=(|Yk[x(n)]| /k)
p3(n)=|Yk[x(n)]|
上述式子中,尺度为 k 的 RaTKEO 算子被赋予权重 1/k,从而使得越靠近 GCI 的时刻点权重越高。若p2(n)的计算公式中经对数计算后存在负无穷大幅值时,则用 p2(n) 的均值对该点重新赋值。这里将这三种策略所对应的 GCI 提取算法分别称为 GMATmax、GMATprod 和 GMATmean。除去融合策略的不同,这三种算法的其他步骤完全一致。这里以GMATprod 为例说明提取 GCI 的后续步骤。
由于 p2 (n) 包络的波动性,若与其他周期内的点相比时,GCI 时刻附近的 p2(n) 幅值则不一定高。因此,对 p2 (n) 采用全局阈值的方法并不能准确提取 GCI。
为解决该问题,采用了下述高通滤波器:
其中j为循环变量,代表计算平均幅度时的窗口大小,q1 (n)、q2 (n)、q3 (n)分别表示采用GMATmax、GMATprod 和GMATmean方法时,幅度陡增后与陡增前的平均幅度差值,分别利用 q1(n)、q2(n)、q3(n) 中的过零点切割出幅度为正的区域,将信号分割成多个区域,且每个区域内包含一个 GCI真值,这个区域则为我们分割出来的一个周期。
S51、采用GMATmax方法时,对分割中的每个区域,检测 q1 (n)幅度最高时的时刻,并记为 n11,同时检测该区域内 p1 (n) 中幅度最高的三个点,并将这三个点中与 n11 时间距离最近的点记为 n12;将 n11 与 n12 的平均值作为该区域内的 GCI 值。
S52、采用GMATprod方法时,对分割中的每个区域,检测 q2 (n)幅度最高时的时刻,并记为 n21,同时检测该区域内 p2 (n) 中幅度最高的三个点,并将这三个点中与 n21时间距离最近的点记为 n22;将 n21 与 n22 的平均值作为该区域内的 GCI 值。
S53、采用GMATmean方法时,对分割中的每个区域,检测 q3 (n)幅度最高时的时刻,并记为 n31,同时检测该区域内 p3 (n) 中幅度最高的三个点,并将这三个点中与 n31时间距离最近的点记为 n32;将 n31 与 n32 的平均值作为该区域内的 GCI 值。
S6、由GCI真值分别求出使用GMATmax、GMATprod 和GMATmean方法测出的周期Tmax、Tprod、Tmean,从检测率、漏检率、误检率、检测准确度、检测偏差五个方面评估三种尺度算法的可靠性与准确性,根据对性能要求的不同选择合适的尺度进行周期分割。
图2为为本发明TEKO算子与二阶导数算子,局部均值加权的二阶导数算的幅度变化曲线图。
图2中分别描述了二阶导数算子,局部均值加权的二阶导数算子,以及本发明中TKEO算子的幅度变化曲线图。
从曲线图中可以看出,相比于局部均值加权的二阶导数算子,本发明中TKEO算子曲线仅仅只有GCI真值附近有较大的峰值,但在其他处的幅值都相对较低,同时,相比二阶导数算子,局部均值加权的二阶导数算子,在同一时刻,TKEO算子的结果具有更大的峰值,具有很高的运算精度。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变换或改进,这些都属于本发明的保护范围。

Claims (8)

1.一种基于多尺度非线性能量算子的语音信号周期分割方法,其特征在于,包括以下步骤:
S1、多尺度非线性能量算子TKEO表示为:
Y[x(n)]= x(n)2-x(n-1)x(n+1)
其中x(n)为离散语音信号,n代表采样点;
S2、定义绝对TKEO算子aTKEO(absolute TKEO):
|Y[x(n)]|=|x(n)2-x(n-1)x(n+1)|
S3、将 aTKEO 扩展至带尺度参数 L 的算子RaTKEO,定义如下:
|YL[x(n)]|=| x(n)2-x(n-L)x(n+ L)|
其中,参数L为正整数;
S4、分别采用最大值融合、乘积融合和均值融合三种融合策略得到以下三个融合值:
p1(n)=max(|Y1[x(n)]|,|Y2[x(n)]|,…,|YM[x(n)]|)
p2(n)=(|Yk[x(n)]| /k)
p3(n)=|Yk[x(n)]|
其中,M为尺度数,k为尺度,p1(n)表示采用最大值融合时的融合值,最大融合策略对应的声门闭合时刻(GCI) 提取算法为 GMATmax; p2(n)表示采用乘积融合时的融合值,乘积整合策略对应的GCI提取算法为GMATprod; p3(n)表示采用均值融合时的融合值;均值融合策略对应的GCI提取算法为GMATmean;
S5、采用下述高通滤波器检测幅度陡增时刻:
其中j为循环变量,代表计算平均幅度时的窗口大小,q1 (n)、q2 (n)、q3 (n)分别表示采用GMATmax、GMATprod 和GMATmean方法时,幅度陡增后与陡增前的平均幅度差值,分别利用 q1(n)、q2(n)、q3(n) 中的过零点切割出幅度为正的区域,将信号分割成多个区域,且每个区域内包含一个 GCI真值,这个区域则为我们分割出来的一个周期;
S6、根据GMATmax、GMATprod 和GMATmean方法测出的周期Tmax、Tprod、Tmean,从检测率、漏检率、误检率、检测准确度、检测偏差五个方面评估三种尺度算法的可靠性与准确性,根据对性能要求的不同选择合适的尺度进行周期分割。
2.根据权利要求1所述的基于多尺度非线性能量算子的语音信号周期分割方法,其特征在于:样本点 x(n - L) 或 x(n +L) 与 x(n) 的时间距离等于尺度参数 L。
3.根据权利要求1所述的基于多尺度非线性能量算子的语音信号周期分割方法,其特征在于:步骤S5中,采用GMATmax方法时,对分割中的每个区域,检测 q1 (n)幅度最高时的时刻,并记为 n11,同时检测该区域内 p1 (n) 中幅度最高的三个点,并将这三个点中与n11 时间距离最近的点记为 n12。
4.根据权利要求3所述的基于多尺度非线性能量算子的语音信号周期分割方法,其特征在于:将 n11 与 n12 的平均值作为该区域内的 GCI 值。
5.根据权利要求1所述的基于多尺度非线性能量算子的语音信号周期分割方法,其特征在于:步骤S5中,采用GMATprod方法时,对分割中的每个区域,检测 q2 (n) 幅度最高时的时刻,并记为 n21,同时检测该区域内 p2 (n) 中幅度最高的三个点,并将这三个点中与n21 时间距离最近的点记为 n22。
6.根据权利要求5所述的基于多尺度非线性能量算子的语音信号周期分割方法,其特征在于:将 n21 与 n22 的平均值作为该区域内的 GCI 值。
7.根据权利要求1所述的基于多尺度非线性能量算子的语音信号周期分割方法,其特征在于:步骤S5中,采用GMATmean方法时,对分割中的每个区域,检测 q3 (n)幅度最高时的时刻,并记为 n31,同时检测该区域内 p3 (n) 中幅度最高的三个点,并将这三个点中与n31 时间距离最近的点记为 n32。
8.根据权利要求7所述的基于多尺度非线性能量算子的语音信号周期分割方法,其特征在于:将 n31 与 n32 的平均值作为该区域内的 GCI 值。
CN201810640530.0A 2018-06-21 2018-06-21 一种基于多尺度非线性能量算子的语音信号周期分割方法 Active CN108830232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810640530.0A CN108830232B (zh) 2018-06-21 2018-06-21 一种基于多尺度非线性能量算子的语音信号周期分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810640530.0A CN108830232B (zh) 2018-06-21 2018-06-21 一种基于多尺度非线性能量算子的语音信号周期分割方法

Publications (2)

Publication Number Publication Date
CN108830232A true CN108830232A (zh) 2018-11-16
CN108830232B CN108830232B (zh) 2021-06-15

Family

ID=64143108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810640530.0A Active CN108830232B (zh) 2018-06-21 2018-06-21 一种基于多尺度非线性能量算子的语音信号周期分割方法

Country Status (1)

Country Link
CN (1) CN108830232B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725394A (zh) * 2024-02-18 2024-03-19 浙江浙能技术研究院有限公司 基于分层内嵌模态分解的风电场宽频振荡辨识方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020143526A1 (en) * 2000-09-15 2002-10-03 Geert Coorman Fast waveform synchronization for concentration and time-scale modification of speech
US20030088417A1 (en) * 2001-09-19 2003-05-08 Takahiro Kamai Speech analysis method and speech synthesis system
US20050190199A1 (en) * 2001-12-21 2005-09-01 Hartwell Brown Apparatus and method for identifying and simultaneously displaying images of musical notes in music and producing the music
CN101499276A (zh) * 2008-12-25 2009-08-05 爱唱数码科技(上海)有限公司 语音基周标记方法
CN103474074A (zh) * 2013-09-09 2013-12-25 深圳广晟信源技术有限公司 语音基音周期估计方法和装置
US8719030B2 (en) * 2012-09-24 2014-05-06 Chengjun Julian Chen System and method for speech synthesis
CN104282300A (zh) * 2013-07-05 2015-01-14 中国移动通信集团公司 一种非周期成分音节模型建立、及语音合成的方法和设备
CN104934029A (zh) * 2014-03-17 2015-09-23 陈成钧 基于基音同步频谱参数的语音识别系统和方法
CN108133713A (zh) * 2017-11-27 2018-06-08 苏州大学 一种在声门闭相下估计声道面积的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020143526A1 (en) * 2000-09-15 2002-10-03 Geert Coorman Fast waveform synchronization for concentration and time-scale modification of speech
US20030088417A1 (en) * 2001-09-19 2003-05-08 Takahiro Kamai Speech analysis method and speech synthesis system
US20050190199A1 (en) * 2001-12-21 2005-09-01 Hartwell Brown Apparatus and method for identifying and simultaneously displaying images of musical notes in music and producing the music
CN101499276A (zh) * 2008-12-25 2009-08-05 爱唱数码科技(上海)有限公司 语音基周标记方法
US8719030B2 (en) * 2012-09-24 2014-05-06 Chengjun Julian Chen System and method for speech synthesis
CN104282300A (zh) * 2013-07-05 2015-01-14 中国移动通信集团公司 一种非周期成分音节模型建立、及语音合成的方法和设备
CN103474074A (zh) * 2013-09-09 2013-12-25 深圳广晟信源技术有限公司 语音基音周期估计方法和装置
CN104934029A (zh) * 2014-03-17 2015-09-23 陈成钧 基于基音同步频谱参数的语音识别系统和方法
CN108133713A (zh) * 2017-11-27 2018-06-08 苏州大学 一种在声门闭相下估计声道面积的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHANGXUE MA, ET AL.: "A Frobenius norm approach to glottal closure detection from the speech signal", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING ( VOLUME: 2, ISSUE: 2, APR 1994)》 *
Y.M. CHENG, ET AL.: "Automatic and reliable estimation of glottal closure instant and period", 《IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING ( VOLUME: 37, ISSUE: 12, DEC 1989)》 *
刘维巍: "语音信号基音周期检测算法研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *
王长富等.: "基于小波变换的语音基音周期检测", 《中国科学技术大学学报》 *
罗雪松: "小波分析应用于语音信号的基音周期检测", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725394A (zh) * 2024-02-18 2024-03-19 浙江浙能技术研究院有限公司 基于分层内嵌模态分解的风电场宽频振荡辨识方法
CN117725394B (zh) * 2024-02-18 2024-05-07 浙江浙能技术研究院有限公司 基于分层内嵌模态分解的风电场宽频振荡辨识方法

Also Published As

Publication number Publication date
CN108830232B (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
Vuppala et al. Vowel onset point detection for low bit rate coded speech
Kadiri et al. Epoch extraction from emotional speech using single frequency filtering approach
CN104934029B (zh) 基于基音同步频谱参数的语音识别系统和方法
Bayya et al. Spectro-temporal analysis of speech signals using zero-time windowing and group delay function
CN111044814B (zh) 一种对变压器直流偏磁异常进行辨识的方法及系统
Xu et al. A pitch detector based on a generalized correlation function
Georgogiannis et al. Speech emotion recognition using non-linear teager energy based features in noisy environments
Zhang et al. An overview of speech endpoint detection algorithms
Kadiri et al. Breathy to Tense Voice Discrimination using Zero-Time Windowing Cepstral Coefficients (ZTWCCs).
CN105336344B (zh) 杂音检测方法和装置
Narendra et al. Estimation of the glottal source from coded telephone speech using deep neural networks
Jie et al. Speech emotion recognition of teachers in classroom teaching
Jyothish Lal et al. Glottal activity detection from the speech signal using multifractal analysis
Prasad et al. Determination of glottal open regions by exploiting changes in the vocal tract system characteristics
CN108830232A (zh) 一种基于多尺度非线性能量算子的语音信号周期分割方法
Dahmani et al. Glottal signal parameters as features set for neurological voice disorders diagnosis using K-Nearest Neighbors (KNN)
Bouzid et al. Voice source parameter measurement based on multi-scale analysis of electroglottographic signal
Kadiri et al. Determination of glottal closure instants from clean and telephone quality speech signals using single frequency filtering
Yadav et al. Epoch detection from emotional speech signal using zero time windowing
Saratxaga et al. Use of harmonic phase information for polarity detection in speech signals.
Chowdhury et al. Formant estimation from speech signal using the magnitude spectrum modified with group delay spectrum
Upadhya Pitch detection in time and frequency domain
Kelly et al. A comparison of mel-frequency cepstral coefficient (MFCC) calculation techniques
Beet Automatic speech recognition using a reduced auditory representation and position-tolerant discrimination
Coyle et al. Onset detection using comb filters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant