CN113488074A - 一种音频信号的长时变q时频转换算法及其应用 - Google Patents

一种音频信号的长时变q时频转换算法及其应用 Download PDF

Info

Publication number
CN113488074A
CN113488074A CN202110961351.9A CN202110961351A CN113488074A CN 113488074 A CN113488074 A CN 113488074A CN 202110961351 A CN202110961351 A CN 202110961351A CN 113488074 A CN113488074 A CN 113488074A
Authority
CN
China
Prior art keywords
frequency
time
window
audio signal
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110961351.9A
Other languages
English (en)
Other versions
CN113488074B (zh
Inventor
何沛松
李佳龙
王宏霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110961351.9A priority Critical patent/CN113488074B/zh
Publication of CN113488074A publication Critical patent/CN113488074A/zh
Application granted granted Critical
Publication of CN113488074B publication Critical patent/CN113488074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种音频信号的长时变Q时频转换算法(L‑VQT)及其应用。L‑VQT包括步骤:设置呈幂函数变化的频率分布;预设最大时域窗口长度,得到最小频带宽度;如果存在一个以上频带宽度小于最小频带宽度,则重新设置频率分布并计算幂函数的系数、每个频率的频带宽度和Q因子;计算每个频率对应的时域窗口长度;计算每个频率对应的频域信号。L‑VQT在低频通过长时窗口来捕获音频时域信号的长时依赖关系,通过设置不同的幂函数指数获取充分高频信息。应用于合成语音检测时,在低频通过长时窗口来捕获合成语音痕迹,并通过设置不同的幂函数指数得到具有充分高频信息的对数频谱特征来提取合成语音在高频的共性痕迹,为合成语音检测提供了有效的方法。

Description

一种音频信号的长时变Q时频转换算法及其应用
技术领域
本发明涉及音频信号处理技术领域,特别是一种音频信号的长时变Q时频转换算法及其应用。
背景技术
音频信号能表示和传达丰富的信息,对音频信号进行分析需要通过时频转换算法转换为频域信号,从频域信号中得到各种频谱幅度及相位特征。传统的时频转换算法包括傅里叶变换(DFT)和恒Q变换(CQT)。DFT通常采用短时窗口,无法捕获音频信号在时域的长时依赖关系,同时恒定的频带宽度和线性变化的频率分布无法准确表示某些音频信号特性,例如音乐信号等。另一方面,CQT的频率呈指数分布,符合西方音阶频率变化,但是指数分布的频率导致频域信息中高频部分信息占比很少,无法充分满足对高频信息的需要,例如合成语音检测等。
语音信号被广泛使用在身份认证,例如自动说话人识别系统。随着语音转换(Voice Conversion,VC)和文本语音转换(Text-To-Speech,TTS)技术的发展,合成语音的质量越来越高,很容易欺骗现有的说话人识别系统。因此,合成语音检测成为信息安全领域多媒体取证技术的一个急需解决的问题。合成语音算法可以分为拼接合成语音和统计参数合成语音,拼接合成语音会在语音拼接处留下特有痕迹,这种痕迹需要捕获语音的长时依赖关系来提取,同时统计参数合成语音会在语音的高频部分留下特有痕迹。现有的合成语音检测特征包括基于DFT和基于CQT的频谱相位以及倒谱特征,然而DFT采用短时窗口,无法捕获合成语音在时域留下的长时依赖痕迹;CQT的频率呈指数分布,高频占比很少,无法充分捕获合成语音在高频的特有痕迹。因此,现有的时频转换算法无法充分提取合成语音的共性痕迹来进行通用检测。
发明内容
本发明的目的是提供一种音频信号的长时变Q时频转换算法(Long-termvariable Qtransform,L-VQT)及其应用。
实现本发明目的的技术方案如下:
一种音频信号的长时变Q时频转换算法,包括:
步骤1,预设音频信号的频率总个数K和幂函数的指数β,设置呈幂函数变化的频率分布:
fk=αkβ,k=0,1,…,K-1;
其中,fk表示第k个频率;
计算幂函数的系数:
Figure BDA0003222160100000021
FNq是奈奎斯特频率;
计算每个频率的频带宽度:
Figure BDA0003222160100000022
计算每个频率的Q因子:
Figure BDA0003222160100000023
步骤2,预设最大时域窗口长度Nmax,得到最小频带宽度
Figure BDA0003222160100000024
其中,fs表示音频信号的采样频率;
如果存在一个以上频带宽度小于最小频带宽度
Figure BDA0003222160100000025
则重新设置频率分布并计算幂函数的系数、每个频率的频带宽度和每个频率的Q因子:
Figure BDA0003222160100000026
Figure BDA0003222160100000027
Figure BDA0003222160100000028
Figure BDA0003222160100000029
步骤3,计算每个频率对应的时域窗口长度:
Figure BDA00032221601000000210
其中,
Figure BDA00032221601000000215
表示向上取整;
步骤4,计算每个频率对应的频域信号:
Figure BDA00032221601000000211
其中,x(n)表示所述音频信号的时域信号;w(n,k)表示窗函数,其长度等于N(k);[·]表示四舍五入取整。
进一步的技术方案,所述幂函数的指数β设为1.15、1.25、1.5、2、3、4或5。
进一步的技术方案,所述窗函数为汉宁窗、海明窗或blackman窗。
一种音频信号的长时变Q时频转换算法的应用,包括步骤:
将合成语音分帧得到L帧;
将每帧信号通过所述音频信号的长时变Q时频转换算法,得到K个频域信号X(k);
对每个频域信号进行取模平方得到频谱,再进行对数运算,提取一维对数频谱特征
Figure BDA00032221601000000212
Figure BDA00032221601000000213
将所有帧的一维对数频谱特征拼接,得到二维时频特征
Figure BDA00032221601000000214
用于检测合成语音。
相对于现有技术,本发明的有益效果在于,
1.L-VQT在低频通过长时窗口来捕获音频时域信号的长时依赖关系,通过设置不同的幂函数指数获取充分高频信息。
2.L-VQT应用于合成语音检测时,在低频通过长时窗口来捕获合成语音痕迹,并通过设置不同的幂函数指数得到具有充分高频信息的对数频谱特征来提取合成语音在高频的共性痕迹,为合成语音检测提供了有效的方法。
附图说明
图1是L-VQT的流程图。
图2是L-VQT设置不同幂函数得到的频率分布对比图。
图3是L-VQT设置不同幂函数得到的频带宽度对比图。
图4是L-VQT设置不同幂函数得到的Q因子对比图。
图5是L-VQT设置不同幂函数得到的时域窗口长度对比图。
图6是L-VQT应用于合成语音检测的流程图。
具体实施方式
下面结合附图和具体实施例,对本发明进一步说明。
如图1所示,本发明L-VQT具体包括如下步骤:
S1:设置呈幂函数变化的频率分布,具体表示为:fk=αkβ,k=0,1,...,K-1,其中fk表示第k个频率,k表示频率的索引,K表示频率总个数,α是幂函数的系数,β表示幂函数的指数,通过设置不同的幂函数指数可以得到不同的频率分布。
S2:预先设置K,β值,根据已知的音频信号采样频率计算出奈奎斯特频率FNq,奈奎斯特频率为音频信号采样频率的一半。当k=K时,频率分布中fk所能表示的最大频率即为奈奎斯特频率,具体表示为:fK=αKβ=FNq。计算系数
Figure BDA0003222160100000031
计算S1设置的频率分布:fk=αkβ,k=0,1,…,K-1;计算频带宽度:
Figure BDA0003222160100000032
Q因子:
Figure BDA0003222160100000033
S3:如果存在一个或多个频带宽度小于设置的最小频带宽度
Figure BDA0003222160100000038
需要重新计算频率分布。其中
Figure BDA0003222160100000034
fs表示音频信号采样频率,Nmax表示已知的最大时域窗口长度;新的频率分布表示为
Figure BDA0003222160100000035
重新计算幂函数系数α:
Figure BDA0003222160100000036
Figure BDA0003222160100000037
重新计算频带宽度和Q因子过程如S2所述。
S4:根据得到的频率值、频带宽度、Q因子计算出每个频率对应的时域窗口长度:
Figure BDA0003222160100000041
Figure BDA0003222160100000042
其中fs表示音频信号采样频率,
Figure BDA0003222160100000049
表示向上取整操作。
S5:进一步得到频域信号,具体表示为:
Figure BDA0003222160100000043
其中;x(n)表示语音的时域信号,w(n,k)表示窗函数,其长度等于N(k),[·]表示四舍五入取整操作。
上述L-VQT的实施例,如图2-图5所示,图中还对比了DFT和CQT。
K设为256,β分别设为1.15、1.25、1.5、2、3、4和5,对应的L-VQT分别表示为:L-VQT-1.15、L-VQT-1.25、L-VQT-1.5、Typical-L-VQT(β=2)、L-VQT-3、L-VQT-4和L-VQT-5。音频信号采样频率为16KHz,奈奎斯特频率为采样频率的一半8KHz,从而计算出对应的系数α、频率分布、频带宽度和Q因子。
设置最大的时域窗口长度为8000个采样点,即采样频率为16KHz的半秒语音数据,从而计算得到最小的频带宽度为2Hz。当幂函数指数为2、3、4、5时,根据S2得到的频带宽度
Figure BDA0003222160100000044
Figure BDA0003222160100000045
远小于最小频带宽度
Figure BDA0003222160100000046
因此根据S3所述公式重新计算系数、频率分布、频带宽度和Q因子。
实施例中采用的窗函数为汉宁窗(hanning),也可以采用其它窗函数。例如海明窗(hamming),blackman窗等等。因为每个频域信号对应的窗口大小不一致,所以对频谱信号用窗口长度进行归一化来消除这种差异。
将L-VQT应用于合成语音检测,如图6所示。
将语音分帧,设为L帧,每帧信号即为待分析语音的时域信号x(n)。通过L-VQT得到频域信号,再对得到的频域信号分别进行取模平方得到频谱,再进行对数运算,提取得到一维的对数频谱信号
Figure BDA0003222160100000047
将所有帧的对数频谱特征在频率方向保持一致(均为K维),沿语音帧序号增大的方向(L维)拼接得到二维的时频特征
Figure BDA0003222160100000048
用于检测合成语音。
合成语音检测的实施例为:采样频率为16KHz的语音时长为4秒,即包含64000个采样点。帧长为计算出的最大时域窗口,帧移设为256个采样点。每条语音包含251帧,每帧信号和所有窗口N(k)中心保持一致。每帧经过长时变Q时频转换算法,得到一维对数频谱特征,包含256个频谱信号。所有帧拼接得到二维时频特征,维度为256x251,将其作为分类器Densely Connected Convolutional Network(DenseNet)的输入进行训练测试。也可以采用其他分类器,例如ResNet、VGG等等。
本实施例采用Automatic Speaker Verification Spoofing andCountermeasures Challenge(ASVspoof2019)竞赛公开数据集logical access(LA)部分进行训练测试。LA包含训练集,开发集和验证集三部分,分别包括25380、24844、71237条语音,其中验证集中包含13种合成语音方法来验证本实施例的检测泛化性。
采用等错率(Equal Error Rate,EER,%)作为评价指标,7种幂函数取值的L-VQT和DFT、CQT对应的检测结果如下表所示:
Figure BDA0003222160100000051
从表中可以看到,相比于DFT和CQT,L-VQT可以获得更良好的检测结果,即更低的等错率。当幂函数指数为2,由于充分考虑了长时窗口和高频信息两项因素,显著提升了合成语音的检测性能。
除此之外,L-VQT还可以用于检测语音重放攻击等信息安全领域的多媒体取证应用。

Claims (4)

1.一种音频信号的长时变Q时频转换算法,其特征在于,包括:
步骤1,预设音频信号的频率总个数K和幂函数的指数β,设置呈幂函数变化的频率分布:
fk=αkβ,k=0,1,…,K-1;
其中,fk表示第k个频率;
计算幂函数的系数:
Figure FDA0003222160090000011
FNq是奈奎斯特频率;
计算每个频率的频带宽度:
Figure FDA0003222160090000019
计算每个频率的Q因子:
Figure FDA0003222160090000012
步骤2,预设最大时域窗口长度Nmax,得到最小频带宽度
Figure FDA0003222160090000013
其中,fs表示音频信号的采样频率;
如果存在一个以上频带宽度小于最小频带宽度
Figure FDA00032221600900000111
则重新设置频率分布并计算幂函数的系数、每个频率的频带宽度和每个频率的Q因子:
Figure FDA00032221600900000110
Figure FDA0003222160090000014
Figure FDA00032221600900000112
Figure FDA0003222160090000015
步骤3,计算每个频率对应的时域窗口长度:
Figure FDA0003222160090000016
其中,
Figure FDA0003222160090000017
表示向上取整;
步骤4,计算每个频率对应的频域信号:
Figure FDA0003222160090000018
其中,x(n)表示所述音频信号的时域信号;w(n,k)表示窗函数,其长度等于N(k);[·]表示四舍五入取整。
2.如权利要求1所述的一种音频信号的长时变Q时频转换算法,其特征在于,所述幂函数的指数β设为1.15、1.25、1.5、2、3、4或5。
3.如权利要求1所述的一种音频信号的长时变Q时频转换算法,其特征在于,所述窗函数为汉宁窗、海明窗或blackman窗。
4.如权利要求1所述的一种音频信号的长时变Q时频转换算法的应用,其特征在于,包括步骤:
将合成语音分帧得到L帧;
将每帧信号通过所述音频信号的长时变Q时频转换算法,得到K个频域信号X(k);
对每个频域信号进行取模平方得到频谱,再进行对数运算,提取一维对数频谱特征
Figure FDA0003222160090000021
将所有帧的一维对数频谱特征拼接,得到二维时频特征
Figure FDA0003222160090000022
用于检测合成语音。
CN202110961351.9A 2021-08-20 2021-08-20 一种用于检测合成语音的二维时频特征生成方法 Active CN113488074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110961351.9A CN113488074B (zh) 2021-08-20 2021-08-20 一种用于检测合成语音的二维时频特征生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110961351.9A CN113488074B (zh) 2021-08-20 2021-08-20 一种用于检测合成语音的二维时频特征生成方法

Publications (2)

Publication Number Publication Date
CN113488074A true CN113488074A (zh) 2021-10-08
CN113488074B CN113488074B (zh) 2023-06-23

Family

ID=77945879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110961351.9A Active CN113488074B (zh) 2021-08-20 2021-08-20 一种用于检测合成语音的二维时频特征生成方法

Country Status (1)

Country Link
CN (1) CN113488074B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4063030A (en) * 1975-11-25 1977-12-13 Zurcher Jean Frederic Detection circuit for significant peaks of speech signals
FR2835125A1 (fr) * 2002-01-24 2003-07-25 Telediffusion De France Tdf Procede d'evaluation d'un signal audio numerique
US9299364B1 (en) * 2008-06-18 2016-03-29 Gracenote, Inc. Audio content fingerprinting based on two-dimensional constant Q-factor transform representation and robust audio identification for time-aligned applications
WO2017143334A1 (en) * 2016-02-19 2017-08-24 New York University Method and system for multi-talker babble noise reduction using q-factor based signal decomposition
CN107978323A (zh) * 2017-12-01 2018-05-01 腾讯科技(深圳)有限公司 音频识别方法、装置及存储介质
CN108986824A (zh) * 2018-07-09 2018-12-11 宁波大学 一种回放语音检测方法
CN109256127A (zh) * 2018-11-15 2019-01-22 江南大学 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
CN109285538A (zh) * 2018-09-19 2019-01-29 宁波大学 一种基于常q变换域的加性噪声环境下手机来源识别方法
US20190043528A1 (en) * 2017-08-03 2019-02-07 Spotify Ab Extracting signals from paired recordings
CN111653289A (zh) * 2020-05-29 2020-09-11 宁波大学 一种回放语音检测方法
CN111816203A (zh) * 2020-06-22 2020-10-23 天津大学 基于音素级分析抑制音素影响的合成语音检测方法
WO2021058858A1 (en) * 2019-09-24 2021-04-01 Nokia Technologies Oy Audio processing
CN112927694A (zh) * 2021-03-08 2021-06-08 中国地质大学(武汉) 一种基于融合声纹特征的语音指令合法性判别方法
CN112967712A (zh) * 2021-02-25 2021-06-15 中山大学 一种基于自回归模型系数的合成语音检测方法
CN113012684A (zh) * 2021-03-04 2021-06-22 电子科技大学 一种基于语音分割的合成语音检测方法
US11410685B1 (en) * 2021-09-23 2022-08-09 Institute Of Automation, Chinese Academy Of Sciences Method for detecting voice splicing points and storage medium

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4063030A (en) * 1975-11-25 1977-12-13 Zurcher Jean Frederic Detection circuit for significant peaks of speech signals
FR2835125A1 (fr) * 2002-01-24 2003-07-25 Telediffusion De France Tdf Procede d'evaluation d'un signal audio numerique
US9299364B1 (en) * 2008-06-18 2016-03-29 Gracenote, Inc. Audio content fingerprinting based on two-dimensional constant Q-factor transform representation and robust audio identification for time-aligned applications
WO2017143334A1 (en) * 2016-02-19 2017-08-24 New York University Method and system for multi-talker babble noise reduction using q-factor based signal decomposition
US20190043528A1 (en) * 2017-08-03 2019-02-07 Spotify Ab Extracting signals from paired recordings
CN107978323A (zh) * 2017-12-01 2018-05-01 腾讯科技(深圳)有限公司 音频识别方法、装置及存储介质
CN108986824A (zh) * 2018-07-09 2018-12-11 宁波大学 一种回放语音检测方法
CN109285538A (zh) * 2018-09-19 2019-01-29 宁波大学 一种基于常q变换域的加性噪声环境下手机来源识别方法
CN109256127A (zh) * 2018-11-15 2019-01-22 江南大学 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
WO2021058858A1 (en) * 2019-09-24 2021-04-01 Nokia Technologies Oy Audio processing
CN111653289A (zh) * 2020-05-29 2020-09-11 宁波大学 一种回放语音检测方法
CN111816203A (zh) * 2020-06-22 2020-10-23 天津大学 基于音素级分析抑制音素影响的合成语音检测方法
CN112967712A (zh) * 2021-02-25 2021-06-15 中山大学 一种基于自回归模型系数的合成语音检测方法
CN113012684A (zh) * 2021-03-04 2021-06-22 电子科技大学 一种基于语音分割的合成语音检测方法
CN112927694A (zh) * 2021-03-08 2021-06-08 中国地质大学(武汉) 一种基于融合声纹特征的语音指令合法性判别方法
US11410685B1 (en) * 2021-09-23 2022-08-09 Institute Of Automation, Chinese Academy Of Sciences Method for detecting voice splicing points and storage medium

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CANGHONG SHI: "Learned Dictionaries-Based Watermarking for Speech Authentication", 《2020 IEEE 5TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTING AND BIG DATA ANALYTICS (ICCCBDA)》, no. 1 *
尚雯: "基于指纹的5G通信说话人身份追踪方案", 《信息网络安全》, vol. 21, no. 3 *

Also Published As

Publication number Publication date
CN113488074B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN107610715B (zh) 一种基于多种声音特征的相似度计算方法
US8428949B2 (en) Apparatus and method for classification and segmentation of audio content, based on the audio signal
US8140331B2 (en) Feature extraction for identification and classification of audio signals
KR101269296B1 (ko) 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기
CN109147796B (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
CN113327626B (zh) 语音降噪方法、装置、设备及存储介质
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
CN104021791B (zh) 数字音频波形突变的检测方法
Chu et al. A noise-robust FFT-based auditory spectrum with application in audio classification
CN112863517A (zh) 基于感知谱收敛率的语音识别方法
CN113488074B (zh) 一种用于检测合成语音的二维时频特征生成方法
KR20210033853A (ko) 유넷 기반의 음원 대역 변환장치 및 방법
Huizen et al. Feature extraction with mel scale separation method on noise audio recordings
CN112233693B (zh) 一种音质评估方法、装置和设备
Marković et al. Reverberation-based feature extraction for acoustic scene classification
Prasasti et al. Identification of baby cry with discrete wavelet transform, mel frequency cepstral coefficient and principal component analysis
Uhle et al. Speech enhancement of movie sound
Ganapathy et al. Temporal resolution analysis in frequency domain linear prediction
Shiran et al. Enhanced PESQ algorithm for objective assessment of speech quality at a continuous varying delay
Andrews et al. Robust pitch determination via SVD based cepstral methods
CN110634473A (zh) 一种基于mfcc的语音数字识别方法
Adiloglu et al. An uncertainty estimation approach for the extraction of source features in multisource recordings
Pop et al. On forensic speaker recognition case pre-assessment
Ponraj et al. Extraction of speech signal based on power normalized cepstral coefficient and mel frequency cepstral coefficient: A comparison
Nosan et al. Descend-Delta-Mean Algorithm for Feature Extraction of Isolated THAI Digit Speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant