CN105825857A - 基于声纹识别帮助失聪患者判断声音类别的方法 - Google Patents

基于声纹识别帮助失聪患者判断声音类别的方法 Download PDF

Info

Publication number
CN105825857A
CN105825857A CN201610141941.6A CN201610141941A CN105825857A CN 105825857 A CN105825857 A CN 105825857A CN 201610141941 A CN201610141941 A CN 201610141941A CN 105825857 A CN105825857 A CN 105825857A
Authority
CN
China
Prior art keywords
sound
template
feature vector
comparison
carried out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610141941.6A
Other languages
English (en)
Inventor
钦赛勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Wuxin Internet Technology Co Ltd
Original Assignee
Wuxi Wuxin Internet Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Wuxin Internet Technology Co Ltd filed Critical Wuxi Wuxin Internet Technology Co Ltd
Priority to CN201610141941.6A priority Critical patent/CN105825857A/zh
Publication of CN105825857A publication Critical patent/CN105825857A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明涉及一种基于声纹识别帮助失聪患者判断声音类别的方法,其包括如下步骤:步骤1、对每个模板声音进行特征矢量提取,以得到每个模板声音对应的模板声音特征矢量;步骤2、对环境声音进行特征矢量提取,以得到环境声音的环境声音特征矢量;步骤3、将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢量通过DTW动态时间规整方法进行一一比对,以得到若干声音比对欧式距离;步骤4、确定上述声音比对欧式距离中的最小声音比对欧式距离以及与最小声音比对欧式距离对应的模板声音,则环境声音的类别为与最小声音比对欧式距离对应的模板声音。本发明能有效识别声音的类别,有助于失聪患者对语音识别的能力,适应范围广,安全可靠。

Description

基于声纹识别帮助失聪患者判断声音类别的方法
技术领域
本发明涉及一种方法,尤其是一种基于声纹识别帮助失聪患者判断声音类别的方法,属于声纹识别的技术领域。
背景技术
声纹识别(VoicePrintRecognition,VR),即说话人识别(SpeakerRecognitionSR),属于生物特征识别技术的一种,是一项根据语音波形中反映声纹生理和行为的特征的语音参数,自动识别声纹身份的技术。声纹识别是具有较好鲁棒性和自适应的声纹识别算法的研究。与语音识别不同的是,声纹识别利用语音信号中的声纹声音本身的特征,而不考虑语音中的字词意思,它强调声纹的个性;而语音识别的目的是识别出语音信号的内容,并不考虑声纹是谁,强调声纹的共性。
对有听力障碍的患者来说,提高听力能力的传统方法是通过助听器来帮助患者听清声音,具体方法是通过拾音器获得外部声音,再通过声音放大器把获得的声音放大,进而让患者听到声音。由于失聪患者对声音大小已经不再敏感,失去了判断声音大小的能力,因此通过助听器等传统方法放大声音已经不适用了,对这类患者来说不能通过传统意义上的方法进行治疗。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种基于声纹识别帮助失聪患者判断声音类别的方法,其操作方便,能有效识别声音的类别,有助于失聪患者对语音识别的能力,适应范围广,安全可靠。
按照本发明提供的技术方案,一种基于声纹识别帮助失聪患者判断声音类别的方法,所述判断声音类别的方法包括如下步骤:
步骤1、提供若干所需的模板声音,并对每个模板声音进行特征矢量提取,以得到每个模板声音对应的模板声音特征矢量,所有模板声音的模板声音特征矢量构成模板声音特征矢量库;
步骤2、采集环境声音,并对所述环境声音进行特征矢量提取,以得到环境声音的环境声音特征矢量;
步骤3、将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢量通过DTW动态时间规整方法进行一一比对,以得到若干声音比对欧式距离;
步骤4、确定上述声音比对欧式距离中的最小声音比对欧式距离以及与最小声音比对欧式距离对应的模板声音,则环境声音的类别为与最小声音比对欧式距离对应的模板声音。
所述模板声音包括室内声音以及室外声音,所述室内声音包括哭声、嘟嘟声、扫帚扫地声、吱吱作响的门声、关门声、门铃声、脚步声、吹风声、敲门声、铃声、水声或哨声;
所述室外声音包括飞机声、掌声、鸟声、汽车喇叭声、拥挤声、狗或猫叫声、发动机启动声、尖叫声、雷声、火车的运动声或风吹声。
所述步骤1中,对每个模板声音进行特征矢量提取,以得到每个模板声音对应模板声音特征矢量的过程包括如下步骤:
步骤1.1、对模板声音进行分帧,并对分帧后的模板声音进行预加重处理;
步骤1.2、对上述预加重的模板声音进行加窗,并对加窗后的模板声音进行端点检测;
步骤1.3、对上述端点检测后的模板声音进行傅立叶变换,以得到模板声音的线性频谱;
步骤1.4、对得到的线性频谱通过Mel频率滤波器组,以得到Mel频谱,对所述Mel频谱通过对数能量处理,以得到对数频谱;
步骤1.5、将得到的对数频谱经过DCT变换到倒频谱域,以得到MFCC特征参数,并将MFCC特征参数以及所述MFCC特征参数的一阶差分作为特征参数,以提取得到模板声音的模板声音特征矢量。
对模板声音进行分帧时,使用的分帧帧长为30ms,帧移为10ms。
对模板声音采用Hamming窗进行加窗处理,采用双门限比较法进行端点检测。
本发明优点:对模板声音进行特征矢量提取,以得到每个模板声音对应的模板声音特征矢量,对环境声音进行特征矢量提取,以得到环境声音的环境声音特征矢量;将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢量通过DTW动态时间规整方法进行一一比对,以得到若干声音比对欧式距离,确定上述声音比对欧式距离中的最小声音比对欧式距离以及与最小声音比对欧式距离对应的模板声音,则环境声音的类别为与最小声音比对欧式距离对应的模板声音,能有效识别声音的类别,有助于失聪患者对语音识别的能力,适应范围广,安全可靠。
附图说明
图1为本发明的数据流图。
图2为本发明得到MFCC特征参数的流程图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
如图1所示:为了能有效识别声音的类别,有助于失聪患者对语音识别的能力,本发明判断声音类别的方法包括如下步骤:
步骤1、提供若干所需的模板声音,并对每个模板声音进行特征矢量提取,以得到每个模板声音对应的模板声音特征矢量,所有模板声音的模板声音特征矢量构成模板声音特征矢量库;
具体地,所述模板声音包括室内声音以及室外声音,所述室内声音包括哭声、嘟嘟声、扫帚扫地声、吱吱作响的门声、关门声、门铃声、脚步声、吹风声、敲门声、铃声、水声或哨声;所述室外声音包括飞机声、掌声、鸟声、汽车喇叭声、拥挤声、狗或猫叫声、发动机启动声、尖叫声、雷声、火车的运动声或风吹声。具体实施时,模板声音还可以为其他形式的声音类型,具体为本技术领域人员所熟知,此处不再赘述。
如图2所示,对每个模板声音进行特征矢量提取时,先对模板声音进行预处理,并对预处理后进行特征矢量的提取,以得到每个模板声音对应模板声音特征矢量,具体过程包括如下步骤:
步骤1.1、对模板声音进行分帧,并对分帧后的模板声音进行预加重处理;
本发明实施例中,分帧的目的是将连续语音信号划分为段,以便于进行后续的处理;由于人耳所听到的声音在20~30ms内是稳定的,即在20~30ms的时间内,声音的变化不大且比较有规律,故设定帧的长度为20ms左右。同时,帧与帧之间需保证一定的重叠(即帧移),以减小由于强行划分导致信息损失的可能。本发明实施例中,使用的分帧帧长为30ms,帧移为10ms。
本发明实施例中,经过预加重处理以提高信号的高频部分的幅度,采用一阶数字滤波器进行预加重,预加重系数为0.97。
步骤1.2、对上述预加重的模板声音进行加窗,并对加窗后的模板声音进行端点检测;
为了平滑信号以减少每帧信号两端的预检测误差,避免频谱出现“破碎”的现象,采用加窗处理。每帧用窗函数相乘以减少帧起始和结束处的信号的不连续性。在语音信号的时域分析来说,窗函数很重要,虽然矩形窗平滑比较好,但容易使波形细节丢失,并且产生泄露现象,本发明实施例中,采用Hamming窗函数,具体地
其中,N为对模板声音进行采样量化的采样点数,n为关于采样点数N的变量,W(n)为窗函数。
端点检测是声纹识别中的一个重要环节,有效的端点检测方法不仅可以减少数据的存储量和处理时间,而且可以排除无声段的噪声干扰,从而使得声纹识别更加准确,本发明实施例中,采用基于短时能量和短时过零率的检测算法,即双门限比较法进行端点检测。
步骤1.3、对上述端点检测后的模板声音进行傅立叶变换,以得到模板声音的线性频谱;
本发明实施例中,在经过上述的端点检测后,得到每个声音模板的时域信号x(n),将时域信号x(n)后补若干个0已形成长为B(一般取B为512)的序列,经过DFT(DiscreteFourierTransform、离散傅里叶变换)后得到线性频谱X(k),变换公式为:
X ( k ) = Σ n = 0 B - 1 x ( n ) e - j 2 π n k / B ( 0 ≤ n , k ≤ B - 1 )
在具体实施时,也可以采用快速傅立叶变换进行处理,以得到所需的线性频谱X(k),采用快速傅立叶变换的过程为本技术领域人员所熟知,此处不再赘述。
步骤1.4、对得到的线性频谱通过Mel频率滤波器组,以得到Mel频谱,对所述Mel频谱通过对数能量处理,以得到对数频谱;
本发明实施例中,Mel频率滤波器组是一组三角带通滤波器,0≤m≤M,M为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值小时相邻f(m)之间的间隔也小,随着m的增加相邻f(m)的间隔逐渐变大。每个带通滤波器的传递函数如下:
H m ( k ) = 0 , ( k < f ( m - 1 ) ) k - f ( m - 1 ) f ( m ) - f ( m - 1 ) , ( f ( m - 1 ) &le; k &le; f ( m ) ) f ( m + 1 ) - k f ( m + 1 ) - f ( m ) , ( f ( m ) < k &le; f ( m + 1 ) ) 0 , ( k > f ( m + 1 ) ) , ( 0 &le; m < M )
则由线性频谱X(k)到对数频谱S(m)的总传递函数为:
S ( m ) = l n ( &Sigma; k = 0 B - 1 | X ( k ) | 2 H m ( k ) ) , ( 0 &le; m < M ) .
步骤1.5、将得到的对数频谱经过DCT变换到倒频谱域,以得到MFCC特征参数,并将MFCC特征参数以及所述MFCC特征参数的一阶差分作为特征参数,以提取得到模板声音的模板声音特征矢量。
本发明实施例中,将上述对数频谱S(m)经过DCT变换到倒频谱域即可得到MFCC特征参数C(n):
C ( n ) = &Sigma; m = 1 M - 1 S ( m ) c o s ( &pi; n ( m + 0.5 ) M ) , ( 0 &le; m < M )
由于人耳对动态特性更为敏感,为更好地拟合人声和人耳听觉的动态特性,本发明实施例中,对得到MFCC特征参数进行一阶差分,以得到ΔMFCC,并把MFCC+ΔMFCC作为特征参数的提取,得到模板声音的模板声音特征矢量。
在具体实施时,将所有模板声音的模板声音特征矢量集合后得到模板声音特征矢量库。
步骤2、采集环境声音,并对所述环境声音进行特征矢量提取,以得到环境声音的环境声音特征矢量;
通过录音设备或传感设备能采集得到所需的环境声音,本发明实施例中,环境声音是指失聪患者所在环境中的声音。对环境声音提取特征矢量得到环境声音特征矢量的过程可以参考上述模板声音特征矢量的提取过程,具体不再赘述。
步骤3、将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢量通过DTW动态时间规整方法进行一一比对,以得到若干声音比对欧式距离;
本发明实施例中,模板声音特征矢量库作为参考模板,环境声音特征矢量作为测试模板,利用DTW动态时间规整方法将环境声音特征矢量与模板声音特征矢量库中的所有模板声音特征矢量进行一一比对,比对后得到相应的声音比对欧式距离,具体的比对过程为本技术领域人员所熟知,此处不再赘述。
步骤4、确定上述声音比对欧式距离中的最小声音比对欧式距离以及与最小声音比对欧式距离对应的模板声音,则环境声音的类别为与最小声音比对欧式距离对应的模板声音。
本发明实施例中,得到声音比对欧式距离的数量与模板声音特征矢量库中的模板声音特征矢量的数量相一致。在所有的声音比对欧式距离中存在最小声音比对欧式距离,在确定最小声音比对欧式距离后,能确定与最小声音比对欧式距离对应的模板声音,则环境声音可以认为与最小声音比对欧式距离对应的模板声音相同的声音类别。具体使用时,在判别环境声音的类别后,将所述判别结果显示在移动设备上,所述移动设备包括智能手机等失聪患者能使用的终端。
本发明对模板声音进行特征矢量提取,以得到每个模板声音对应的模板声音特征矢量,对环境声音进行特征矢量提取,以得到环境声音的环境声音特征矢量;将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢量通过DTW动态时间规整方法进行一一比对,以得到若干声音比对欧式距离,确定上述声音比对欧式距离中的最小声音比对欧式距离以及与最小声音比对欧式距离对应的模板声音,则环境声音的类别为与最小声音比对欧式距离对应的模板声音,能有效识别声音的类别,有助于失聪患者对语音识别的能力,适应范围广,安全可靠。

Claims (5)

1.一种基于声纹识别帮助失聪患者判断声音类别的方法,其特征是,所述判断声音类别的方法包括如下步骤:
步骤1、提供若干所需的模板声音,并对每个模板声音进行特征矢量提取,以得到每个模板声音对应的模板声音特征矢量,所有模板声音的模板声音特征矢量构成模板声音特征矢量库;
步骤2、采集环境声音,并对所述环境声音进行特征矢量提取,以得到环境声音的环境声音特征矢量;
步骤3、将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢量通过DTW动态时间规整方法进行一一比对,以得到若干声音比对欧式距离;
步骤4、确定上述声音比对欧式距离中的最小声音比对欧式距离以及与最小声音比对欧式距离对应的模板声音,则环境声音的类别为与最小声音比对欧式距离对应的模板声音。
2.根据权利要求1所述的基于声纹识别帮助失聪患者判断声音类别的方法,其特征是:所述模板声音包括室内声音以及室外声音,所述室内声音包括哭声、嘟嘟声、扫帚扫地声、吱吱作响的门声、关门声、门铃声、脚步声、吹风声、敲门声、铃声、水声或哨声;
所述室外声音包括飞机声、掌声、鸟声、汽车喇叭声、拥挤声、狗或猫叫声、发动机启动声、尖叫声、雷声、火车的运动声或风吹声。
3.根据权利要求1所述的基于声纹识别帮助失聪患者判断声音类别的方法,其特征是:所述步骤1中,对每个模板声音进行特征矢量提取,以得到每个模板声音对应模板声音特征矢量的过程包括如下步骤:
步骤1.1、对模板声音进行分帧,并对分帧后的模板声音进行预加重处理;
步骤1.2、对上述预加重的模板声音进行加窗,并对加窗后的模板声音进行端点检测;
步骤1.3、对上述端点检测后的模板声音进行傅立叶变换,以得到模板声音的线性频谱;
步骤1.4、对得到的线性频谱通过Mel频率滤波器组,以得到Mel频谱,对所述Mel频谱通过对数能量处理,以得到对数频谱;
步骤1.5、将得到的对数频谱经过DCT变换到倒频谱域,以得到MFCC特征参数,并将MFCC特征参数以及所述MFCC特征参数的一阶差分作为特征参数,以提取得到模板声音的模板声音特征矢量。
4.根据权利要求3所述的基于声纹识别帮助失聪患者判断声音类别的方法,其特征是:对模板声音进行分帧时,使用的分帧帧长为30ms,帧移为10ms。
5.根据权利要求3所述的基于声纹识别帮助失聪患者判断声音类别的方法,其特征是:对模板声音采用Hamming窗进行加窗处理,采用双门限比较法进行端点检测。
CN201610141941.6A 2016-03-11 2016-03-11 基于声纹识别帮助失聪患者判断声音类别的方法 Pending CN105825857A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610141941.6A CN105825857A (zh) 2016-03-11 2016-03-11 基于声纹识别帮助失聪患者判断声音类别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610141941.6A CN105825857A (zh) 2016-03-11 2016-03-11 基于声纹识别帮助失聪患者判断声音类别的方法

Publications (1)

Publication Number Publication Date
CN105825857A true CN105825857A (zh) 2016-08-03

Family

ID=56987951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610141941.6A Pending CN105825857A (zh) 2016-03-11 2016-03-11 基于声纹识别帮助失聪患者判断声音类别的方法

Country Status (1)

Country Link
CN (1) CN105825857A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106264839A (zh) * 2016-08-05 2017-01-04 南通海联助眠科技产品有限公司 智能止鼾枕
CN108335699A (zh) * 2018-01-18 2018-07-27 浙江大学 一种基于动态时间规整和语音活动检测的声纹识别方法
CN108564967A (zh) * 2018-03-14 2018-09-21 南京邮电大学 面向哭声检测系统的Mel能量声纹特征提取方法
CN110135283A (zh) * 2019-04-25 2019-08-16 上海大学 基于FastDTW算法的光纤周界防卫系统的信号识别方法
CN110208022A (zh) * 2019-06-12 2019-09-06 济南雷森科技有限公司 基于机器学习的电力设备多特征音频指纹故障诊断方法及系统
CN112329819A (zh) * 2020-10-20 2021-02-05 中国海洋大学 基于多网络融合的水下目标识别方法
CN114387976A (zh) * 2021-12-24 2022-04-22 西北工业大学 一种基于声纹特征及语义压缩的水声语音数字通信方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104103280A (zh) * 2014-07-15 2014-10-15 无锡中星微电子有限公司 基于动态时间归整算法的离线语音端点检测的方法和装置
CN104103272A (zh) * 2014-07-15 2014-10-15 无锡中星微电子有限公司 语音识别方法、装置和蓝牙耳机

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104103280A (zh) * 2014-07-15 2014-10-15 无锡中星微电子有限公司 基于动态时间归整算法的离线语音端点检测的方法和装置
CN104103272A (zh) * 2014-07-15 2014-10-15 无锡中星微电子有限公司 语音识别方法、装置和蓝牙耳机

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
尹永等: "采用Mel倒谱参数的咳嗽声识别方法", 《信息技术》 *
朱健晨等: "孤立词识别系统的算法改进及优化", 《计算机仿真》 *
王娜等: "基于DTW的孤立词语音识别系统的研究与实现", 《九江学院学报(自然科学版)》 *
郭武等: "基于基音周期与请浊音信息的梅尔倒谱参数", 《数据采集与处理》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106264839A (zh) * 2016-08-05 2017-01-04 南通海联助眠科技产品有限公司 智能止鼾枕
CN108335699A (zh) * 2018-01-18 2018-07-27 浙江大学 一种基于动态时间规整和语音活动检测的声纹识别方法
CN108564967A (zh) * 2018-03-14 2018-09-21 南京邮电大学 面向哭声检测系统的Mel能量声纹特征提取方法
CN108564967B (zh) * 2018-03-14 2021-05-18 南京邮电大学 面向哭声检测系统的Mel能量声纹特征提取方法
CN110135283A (zh) * 2019-04-25 2019-08-16 上海大学 基于FastDTW算法的光纤周界防卫系统的信号识别方法
CN110208022A (zh) * 2019-06-12 2019-09-06 济南雷森科技有限公司 基于机器学习的电力设备多特征音频指纹故障诊断方法及系统
CN112329819A (zh) * 2020-10-20 2021-02-05 中国海洋大学 基于多网络融合的水下目标识别方法
CN114387976A (zh) * 2021-12-24 2022-04-22 西北工业大学 一种基于声纹特征及语义压缩的水声语音数字通信方法
CN114387976B (zh) * 2021-12-24 2024-05-14 西北工业大学 一种基于声纹特征及语义压缩的水声语音数字通信方法

Similar Documents

Publication Publication Date Title
CN105825857A (zh) 基于声纹识别帮助失聪患者判断声音类别的方法
CN106935248B (zh) 一种语音相似度检测方法及装置
US11386916B2 (en) Segmentation-based feature extraction for acoustic scene classification
CN102163427B (zh) 一种基于环境模型的音频异常事件检测方法
CN109036382B (zh) 一种基于kl散度的音频特征提取方法
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN106531159B (zh) 一种基于设备本底噪声频谱特征的手机来源识别方法
Venter et al. Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings
CN103280220A (zh) 一种实时的婴儿啼哭声识别方法
CN104916289A (zh) 行车噪声环境下快速声学事件的检测方法
CN107507626B (zh) 一种基于语音频谱融合特征的手机来源识别方法
Jaafar et al. Automatic syllables segmentation for frog identification system
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
CN106548786A (zh) 一种音频数据的检测方法及系统
CN102655003A (zh) 基于声道调制信号mfcc的汉语语音情感点识别方法
CN107945793A (zh) 一种语音激活检测方法及装置
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
CN111883181A (zh) 音频检测方法、装置、存储介质及电子装置
Hassan et al. Pattern classification in recognizing Qalqalah Kubra pronuncation using multilayer perceptrons
Manurung et al. Speaker recognition for digital forensic audio analysis using learning vector quantization method
Pramanik et al. Automatic Speech Recognition using correlation analysis
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
KR101382356B1 (ko) 오디오파일의 위변조 검출장치
Xie et al. Acoustic feature extraction using perceptual wavelet packet decomposition for frog call classification
Chaiwongyen et al. Replay attack detection in automatic speaker verification using gammatone cepstral coefficients and resnet-based model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160803