CN106205638B - 一种面向音频事件检测的双层基音特征提取方法 - Google Patents
一种面向音频事件检测的双层基音特征提取方法 Download PDFInfo
- Publication number
- CN106205638B CN106205638B CN201610430195.2A CN201610430195A CN106205638B CN 106205638 B CN106205638 B CN 106205638B CN 201610430195 A CN201610430195 A CN 201610430195A CN 106205638 B CN106205638 B CN 106205638B
- Authority
- CN
- China
- Prior art keywords
- pitch
- frequency
- period
- frame
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 9
- 230000005236 sound signal Effects 0.000 claims abstract description 20
- 230000000737 periodic effect Effects 0.000 claims abstract description 8
- 238000012805 post-processing Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims abstract description 3
- 238000000605 extraction Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 12
- 238000012935 Averaging Methods 0.000 claims description 11
- 238000005311 autocorrelation function Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 5
- 230000007774 longterm Effects 0.000 description 3
- 206010039740 Screaming Diseases 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了属于音频事件检测技术领域的一种面向音频事件检测的双层基音特征提取方法。包括采集音频信号,将音频信号格式标准化:声音信号预处理和PITCH特征后处理,对只保留形状特征的PITCH,进行离散傅里叶变换DFT,得到长时域信号PITCH特征的频域特征,并取前面数个有效频域值;目前,通过对该双层基音特征的处理,可以有效提升对长时域周期性音频事件的检测。
Description
技术领域
本发明属于音频事件检测技术领域,特别涉及一种面向音频事件检测的双层基音特征提取方法。
背景技术
当前对于长时域特征的音频事件,运用在网络危险音视频检测,公共区域事故检测、医疗器械心率检测等技术的研究工作开始兴起。长时域特征是相对于短时域特征提出的,短时域特征主要针对在短时变化较大的音频事件,长时域特征则忽略短时内次要的特征,重点关注长时间主要特征的变化规律。对于可以进行长时域特征提取的音频事件往往在短时和长时都具有明显的连贯性。为处理在短时域和长时域都体现出较为明显的周期性的音频信号检测问题,提出了一种新型特征的提取方法。这种新型特征可以运用在尖叫声、警笛声、心跳声等长时域周期特征的音频事件检测。该技术可以运用到网络危险音视频检测,公共区域事故检测、医疗器械心率检测等技术中。
发明内容
本发明的目的是提供一种面向音频事件检测的双层基音特征提取方法,其特征在于,包括如下步骤:
步骤A1,通过网络搜集音视频文件、麦克风收集公共场所声音信息等途径获得音频信号,将音频信号格式标准化:
将音频信号调整为采样率8kHz、通道为单声道、分辨率采用16位;
步骤A2,声音信号预处理;
步骤A3,双层基音(double-deck-pitch,DDP)特征提取;包括
A31零均值化,对每帧信号减去均值;
A32对每帧信号进行离散傅里叶变换(DFT),转化为频域信号,
其中,ωk代表频率,k代表频率标号,Nd是DFT变换点数,这里Nd=4000,每点的分辨率为2Hz;
A33对每帧音频提取候选基频,计算候选基频出现概率;
A34计算帧间候选基频转移概率;
A35利用Viterbi算法计算出最优路径,其中每一条路径的损失函数记为
其中,
ε为调节因子,权衡帧内候选基频的度量与帧间距离之间的权重;_
A36进行平滑滤波处理得到该信号的PITCH(基音)特征;
步骤A4,PITCH特征后处理:
A41对PITCH特征进行周期延拓;
A42计算PITCH的自相关函数
其中Np为PITCH特征的长度标号;P(n)表示第n个PITCH特征点的频率;t表示平移距离;
A43根据自相关函数得到单周期特征,包括是否具有周期性、PITCH周期长度、PITCH中心频率、PITCH频带宽度和PITCH标准化离散傅里叶变换系数;
A44对以上特征进行整合得到完整的DDP特征。
所述步骤A2,声音信号预处理,包括步骤:
A21,静音处理:
A211计算信号的能量E,以及能量的均值M和方差V;
A212对能量E进行标准化,
A213保留能量大于静音阈值0.1的信号;
A22零均值化和方差归一化,零均值化即对整段音频减去其均值,方差归一化即对整段音频除以标准差;
A23进行分帧加窗处理,
每段帧长根据音频基频先验知识决定,其中采用10-25ms,即80-200点,帧移系数采用0.3,即24-60点,窗型采用汉明窗,
;其中Nh为汉明窗总点数,n为样点序号。
所述A33对每帧音频提取候选基频,计算候选基频出现概率,包括:
A331对每帧频域信号提取所有峰值频率;
A332滤除峰值频率中较低频率;
A333对峰值频率按照能量从大到小排序,得到每帧中能量最大的20个点作为候选基频;
A334对候选基频序列进行方差归一化;
A335并根据候选基频谱能量计算其所占概率:
其中,为第n帧的第j个候选基频概率,为第n帧的第j个候选基频能量。
所述A34计算帧间候选基频转移概率的步骤:,
A341计算帧间候选基频的距离,进行方差归一化;
其中,表示第n层的第i个候选基频的频率,表示第n层的第i个频点和第n+1层第j个频点之间的距离;A表示归一化,常数K设置为0.01;
A342并根据候选基频间距离计算其所占概率:
所述A43根据自相关函数得到单周期特征具体包括:
A431分析R(t)的谷值,判断音频信号的PITCH特征是否具有周期性分为三种情况讨论:
1)R没有谷值≥PITCH没有周期性,周期长度PITCH周期长度为音频PITCH原长度;进入A434
2)R有且只有1个谷值≥PITCH有周期性,且时间长度范围内只有一个周期,进入A433;
3)R有且有大于1个谷值≥PITCH有周期性,且时间长度范围内有多个周期,进入A432;
A432周期有效性检测,
a计算多个周期的差值,并取平均;
b差值平均乘以周期数,判断是否小于原PITCH长度的1/k;k=3;
若是,该多周期无效,取第一个谷值点的值作为周期长度;进入A433;
若否,取原PITCH特征第二个周期的起点作为周期起点,取第一个谷值点的值作为周期长度;进入A433;
A433周期微调,获得最为合适的周期长度:
a以得到的周期为中值,上下各取1/4作为待选周期的上下限。若无法取到,则以最接近1/4的值作为上下限;
b计算每个周的末尾值与起始值得欧式距离,选取距离最小的值所代表的周期作为该信号最终的周期;
A434提取单周期长度的信号,得到统一维度的单周期PITCH:
a按照已经选定的起始点,和已经得到的周期值,截取一段单周期PITCH;
b对该段PITCH进行缩放,得到长度为Lt(Lt=1000)的单周期PITCH;
c去均值化。单周期PITCH减去均值。并提取住均值作为单周期PITCH中心频率;
d对单周期PITCH的大小进行缩放,其中P_old为缩放前的单周期PITCH,max-min为PITCH的频带宽度,P_new为缩放后的PITCH;
A435得到最后对只保留形状特征的PITCH,进行离散傅里叶变换DFT,得到长时域信号PITCH特征的频域特征,并取前12个有效频域值。
本发明方法有效提升了对长时域周期性音频事件检测的准确率。
附图说明
图1为面向音频事件检测的双层基音特征提取流程图。
具体实施方式
本发明提供一种面向音频事件检测的双层基音特征提取方法,下面结合附图予以说明。
图1所示为面向音频事件检测的双层基音特征提取流程图。该双层基音特征提取流程包括如下步骤:
步骤A1,通过网络搜集音视频文件、麦克风收集公共场所声音信息等途径获得音频信号,将音频信号格式标准化:
将音频信号调整为采样率8kHz、通道为单声道、分辨率采用16位;
步骤A2,声音信号预处理,包括步骤:
A21,静音处理,
A211计算信号的能量E,以及能量的均值M和方差V;
A212对能量E进行标准化,
A213保留能量大于静音阈值(0.1)的信号;
A22零均值化和方差归一化,零均值化即对整段音频减去其均值,方差归一化即对整段音频除以标准差;
A23进行分帧加窗处理,
每段帧长根据音频基频先验知识决定,本系统中采用10-25ms,即80-200点,帧移系数采用0.3,即24-60点,窗型采用汉明窗,汉明窗的标准公式为其中α取0.46。
其中Nh为汉明窗总点数,n为样点序号。
步骤A3,双层基音(double-deck-pitch,DDP)特征提取;
A31零均值化,对每帧信号减去均值;
A32对每帧信号进行离散傅里叶变换(DFT),转化为频域信号,
其中,ωk代表频率,k代表频率标号,Nd是DEF变换点数,这里Nd=4000,每点的分辨率为2Hz;
A33对每帧音频提取候选基频,计算候选基频出现概率;
A331对每帧频域信号提取所有峰值频率;
A332滤除峰值频率中较低频率;
A333对峰值频率按照能量从大到小排序,得到每帧中能量最大的20个点作为候选基频;
A334对候选基频序列进行方差归一化;
A335并根据候选基频谱能量计算其所占概率:
其中,为第n帧的第j个候选基频概率,为第n帧的第j个候选基频能量。
A34计算帧间候选基频转移概率
A341计算帧间候选基频的距离,进行方差归一化;
其中,表示第n层的第i个候选基频的频率,表示第n层的第i个频点和第n+1层第j个频点之间的距离;Δ表示归一化,常数K设置为0.01;
A342并根据候选基频间距离计算其所占概率:
A35利用Viterbi算法计算出最优路径,其中每一条路径的损失函数记为
其中,
ε为调节因子,权衡帧内候选基频的度量与帧间距离之间的权重。
A36进行平滑滤波处理得到该信号的PITCH(基音)特征;
步骤A4,PITCH特征后处理
A41对PITCH特征进行周期延拓
A42计算PITCH的自相关函数
其中Np为PITCH特征的长度标号,P(n)表示第n个PITCH特征点的频率,t表示平移距离。
A43根据自相关函数得到单周期特征,包括是否具有周期性、PITCH周期长度、PITCH中心频率、PITCH频带宽度和PITCH标准化离散傅里叶变换系数。
A431分析R(t)的谷值,判断音频信号的PITCH特征是否具有周期性分为三种情况讨论:
1)R没有谷值≥PITCH没有周期性,周期长度PITCH周期长度为音频PITCH原长度;进入A434
2)R有且只有1个谷值≥PITCH有周期性,且时间长度范围内只有一个周期,进入A433;
3)R有且有大于1个谷值≥PITCH有周期性,且时间长度范围内有多个周期,进入A432;
A432周期有效性检测,
a计算多个周期的差值,并取平均;
b差值平均乘以周期数,判断是否小于原PITCH长度的1/k;k=3;
若是,该多周期无效,取第一个谷值点的值作为周期长度;进入A433;
若否,取原PITCH特征第二个周期的起点作为周期起点,取第一个谷值点的值作为周期长度;进入A433;
A433周期微调,获得最为合适的周期长度:
a以得到的周期为中值,上下各取1/4作为待选周期的上下限。若无法取到,则以最接近1/4的值作为上下限;
b计算每个周的末尾值与起始值得欧式距离,选取距离最小的值所代表的周期作为该信号最终的周期;
A434提取单周期长度的信号,得到统一维度的单周期PITCH:
a按照已经选定的起始点,和已经得到的周期值,截取一段单周期PITCH;
b对该段PITCH进行缩放,得到长度为Lt(Lt=1000)的单周期PITCH;
c去均值化。单周期PITCH减去均值。并提取住均值作为单周期PITCH中心频率;
d对单周期PITCH的大小进行缩放,其中P_old为缩放前的单周期PITCH,max-min为PITCH的频带宽度,P_new为缩放后的PITCH;
A435得到最后对只保留形状特征的PITCH,进行离散傅里叶变换DFT,得到长时域信号PITCH特征的频域特征,并取前12个有效频域值;
A44对以上特征进行整合得到完整的DDP特征。
该技术可以运用到网络危险音视频检测,公共区域事故检测、医疗器械心率检测等技术中。
Claims (3)
1.一种面向音频事件检测的双层基音特征提取方法,其特征在于,包括如下步骤:
步骤A1,通过网络下载或麦克风设备采集获得音频信号,将音频信号格式标准化:将音频信号调整为采样率8kHz、通道为单声道、分辨率采用16位;
步骤A2,声音信号预处理;
步骤A3,双层基音DDP特征提取;包括:
A31 零均值化,对每帧信号减去均值;
A32 对每帧信号进行离散傅里叶变换DFT转化为频域信号,
其中,ωk代表频率,k代表频率标号,Nd是DFT变换点数,这里Nd=4000,每点的分辨率为2Hz;
A33 对每帧音频提取候选基频,计算候选基频出现概率;
A34 计算帧间候选基频转移概率;包括步骤:
A341 计算帧间候选基频的距离,进行方差归一化;
其中,表示第n帧的第i个候选基频的频率,表示第n帧的第i个频点和第n+1帧第j个频点之间的距离;Δ表示归一化,常数K设置为0.01;
A342 并根据候选基频间距离计算其所占概率:
A35 利用Viterbi算法计算出最优路径,其中每一条路径的损失函数记为其中,
表示第n帧的第i个候选基频的频率;
表示第n+1帧的第j个候选基频的频率;
ε为调节因子,权衡帧内候选基频的度量与帧间距离之间的权重;
表示第n帧的第i个候选基频概率;
A36 进行平滑滤波处理得到该信号的基音PITCH特征;
步骤A4,PITCH特征后处理:
A41 对PITCH特征进行周期延拓;
A42 计算PITCH的自相关函数
其中Np为PITCH特征的长度标号;P(n)表示第n个PITCH特征点的频率;t表示平移距离;
A43 根据自相关函数得到单周期特征,包括:
A431 分析R(t)的谷值,判断音频信号的PITCH特征是否具有周期性分为三种情况讨论:
1)R(t)没有谷值,=>PITCH没有周期性,PITCH周期长度为音频PITCH原长度;进入A434;
2)R(t)有且只有1个谷值,=>PITCH有周期性,且时间长度范围内只有一个周期,进入A433;
3)R(t)有且有大于1个谷值,=>PITCH有周期性,且时间长度范围内有多个周期,进入A432;
A432 周期有效性检测,包括:
a 计算多个周期的差值,并取平均;
b 差值平均乘以周期个数,判断是否小于原PITCH长度的1/k;k=3;
若是,该多个周期无效,取第一个谷值点的值作为周期长度;进入A433;
若否,取原PITCH特征第二个周期的起点作为周期起点,取第一个谷值点的值作为周期长度;进入A433;
A433 周期微调,获得最为合适的周期长度,包括:
a 以得到的周期为中值,上下各取1/4作为待选周期的上下限;若无法取到,则以最接近1/4的值作为上下限;
b 计算每个周期的末尾值与起始值的欧式距离,选取距离最小的值所代表的周期作为该信号最终的周期;
A434 提取单周期长度的信号,得到统一维度的单周期PITCH:
a 按照已经选定的起始点,和已经得到的周期值,截取一段单周期PITCH;
b 对该段PITCH进行缩放,得到长度为Lt=1000的单周期PITCH;
c 去均值化,单周期PITCH减去均值;并提取均值作为单周期PITCH中心频率;
d 对单周期PITCH的大小进行缩放,其中P_old为缩放前的单周期PITCH,max-min为PITCH的频带宽度,P_new为缩放后的PITCH;
A435 最后对只保留形状特征的PITCH,进行离散傅里叶变换DFT,得到长时域信号PITCH特征的频域特征,并取前12个有效频域值;
A44 对以上特征进行整合得到完整的DDP特征。
2.根据权利要求1所述面向音频事件检测的双层基音特征提取方法,其特征在于,所述步骤A2,声音信号预处理,包括步骤:
A21 静音处理:
A211 计算信号的能量E,以及能量的均值M和方差V;
A212 对能量E进行标准化,
A213 保留能量大于静音阈值0.1的信号;
A22 零均值化和方差归一化,零均值化即对整段音频减去其均值,方差归一化即对整段音频除以标准差;
A23 进行分帧加窗处理,
每段帧长根据音频基频先验知识决定,其中采用10-25ms,帧移系数采用0.3,窗型采用汉明窗,
其中取Nh为汉明窗总点数,n为样点序号。
3.根据权利要求1所述面向音频事件检测的双层基音特征提取方法,其特征在于,所述A33对每帧音频提取候选基频,计算候选基频出现概率,包括:
A331 对每帧频域信号提取所有峰值频率;
A332 滤除峰值频率中较低频率;
A333 对峰值频率按照能量从大到小排序,得到每帧中能量最大的20个点作为候选基频;
A334 对候选基频序列进行方差归一化;
A335 并根据候选基频谱能量计算其所占概率:
其中,为第n帧的第j个候选基频概率,为第n帧的第j个候选基频能量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610430195.2A CN106205638B (zh) | 2016-06-16 | 2016-06-16 | 一种面向音频事件检测的双层基音特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610430195.2A CN106205638B (zh) | 2016-06-16 | 2016-06-16 | 一种面向音频事件检测的双层基音特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106205638A CN106205638A (zh) | 2016-12-07 |
CN106205638B true CN106205638B (zh) | 2019-11-08 |
Family
ID=57460696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610430195.2A Active CN106205638B (zh) | 2016-06-16 | 2016-06-16 | 一种面向音频事件检测的双层基音特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106205638B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301858B (zh) * | 2017-05-31 | 2020-09-22 | 华南理工大学 | 基于音频特征空间分层描述的音频分类方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1342968A (zh) * | 2000-09-13 | 2002-04-03 | 中国科学院自动化研究所 | 用于语音识别的高精度高分辨率基频提取方法 |
CN101256768A (zh) * | 2008-04-03 | 2008-09-03 | 清华大学 | 用于语种识别的时频二维倒谱特征提取方法 |
JP2009237589A (ja) * | 2003-12-25 | 2009-10-15 | Casio Comput Co Ltd | 音声分析合成装置、及びプログラム |
CN102737645A (zh) * | 2012-06-15 | 2012-10-17 | 武汉天喻信息产业股份有限公司 | 一种语音信号的基音周期估计算法 |
CN103474074A (zh) * | 2013-09-09 | 2013-12-25 | 深圳广晟信源技术有限公司 | 语音基音周期估计方法和装置 |
CN103794222A (zh) * | 2012-10-31 | 2014-05-14 | 展讯通信(上海)有限公司 | 语音基音频率检测方法和装置 |
CN103824555A (zh) * | 2012-11-19 | 2014-05-28 | 腾讯科技(深圳)有限公司 | 音频段提取方法及提取装置 |
CN104599682A (zh) * | 2015-01-13 | 2015-05-06 | 清华大学 | 电话线质量语音的基音周期提取方法 |
CN105469807A (zh) * | 2015-12-30 | 2016-04-06 | 中国科学院自动化研究所 | 一种多基频提取方法及装置 |
CN105679312A (zh) * | 2016-03-04 | 2016-06-15 | 重庆邮电大学 | 一种噪声环境下声纹识别的语音特征处理方法 |
-
2016
- 2016-06-16 CN CN201610430195.2A patent/CN106205638B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1342968A (zh) * | 2000-09-13 | 2002-04-03 | 中国科学院自动化研究所 | 用于语音识别的高精度高分辨率基频提取方法 |
JP2009237589A (ja) * | 2003-12-25 | 2009-10-15 | Casio Comput Co Ltd | 音声分析合成装置、及びプログラム |
CN101256768A (zh) * | 2008-04-03 | 2008-09-03 | 清华大学 | 用于语种识别的时频二维倒谱特征提取方法 |
CN102737645A (zh) * | 2012-06-15 | 2012-10-17 | 武汉天喻信息产业股份有限公司 | 一种语音信号的基音周期估计算法 |
CN103794222A (zh) * | 2012-10-31 | 2014-05-14 | 展讯通信(上海)有限公司 | 语音基音频率检测方法和装置 |
CN103824555A (zh) * | 2012-11-19 | 2014-05-28 | 腾讯科技(深圳)有限公司 | 音频段提取方法及提取装置 |
CN103474074A (zh) * | 2013-09-09 | 2013-12-25 | 深圳广晟信源技术有限公司 | 语音基音周期估计方法和装置 |
CN104599682A (zh) * | 2015-01-13 | 2015-05-06 | 清华大学 | 电话线质量语音的基音周期提取方法 |
CN105469807A (zh) * | 2015-12-30 | 2016-04-06 | 中国科学院自动化研究所 | 一种多基频提取方法及装置 |
CN105679312A (zh) * | 2016-03-04 | 2016-06-15 | 重庆邮电大学 | 一种噪声环境下声纹识别的语音特征处理方法 |
Non-Patent Citations (4)
Title |
---|
BaNa: A Hybrid Approach for Noise Resilient Pitch Detection;HeBa et al.;《IEEE Statistical Signal Processing Workshop》;20121231;第369-372页 * |
G.729与AMR级联语音可懂度提高技术研究;罗钧;《中国优秀硕士学位论文数据库 信息科技辑》;20110315(第03期);T136-157 * |
一种改进的基音周期提取算法;赵祎等;《数据采集与处理》;20140331;第29卷(第2期);第304-308页 * |
带噪音语音信号基音检测技术研究;何姣;《中国优秀硕士学位论文数据库 信息科技辑》;20120115(第01期);I136-174 * |
Also Published As
Publication number | Publication date |
---|---|
CN106205638A (zh) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107610715B (zh) | 一种基于多种声音特征的相似度计算方法 | |
CN110570880B (zh) | 一种鼾声信号识别方法 | |
US9390727B2 (en) | Detecting distorted audio signals based on audio fingerprinting | |
EP1569422A2 (en) | Method and apparatus for multi-sensory speech enhancement on a mobile device | |
Joshi et al. | MATLAB based feature extraction using Mel frequency cepstrum coefficients for automatic speech recognition | |
CN111696575B (zh) | 基于混合神经网络模型的低通气和呼吸暂停检测识别系统 | |
CN106935248A (zh) | 一种语音相似度检测方法及装置 | |
WO2014153800A1 (zh) | 语音识别系统 | |
US10548534B2 (en) | System and method for anhedonia measurement using acoustic and contextual cues | |
CN110942784A (zh) | 基于支持向量机的鼾声分类系统 | |
CN106024010A (zh) | 一种基于共振峰曲线的语音信号动态特征提取方法 | |
KR101250668B1 (ko) | Gmm을 이용한 응급 단어 인식 방법 | |
Kapoor et al. | Parkinson’s disease diagnosis using Mel-frequency cepstral coefficients and vector quantization | |
CN117762372A (zh) | 一种多模态人机交互系统 | |
Costa et al. | Speech and phoneme segmentation under noisy environment through spectrogram image analysis | |
CN109377982A (zh) | 一种有效语音获取方法 | |
CN106205638B (zh) | 一种面向音频事件检测的双层基音特征提取方法 | |
Sarkar et al. | Automatic speech segmentation using average level crossing rate information | |
CN115452378A (zh) | 基于功率正则化倒谱系数的滚动轴承故障声纹识别方法 | |
Fraile et al. | Mfcc-based remote pathology detection on speech transmitted through the telephone channel-impact of linear distortions: Band limitation, frequency response and noise | |
CN110379438B (zh) | 一种语音信号基频检测与提取方法及系统 | |
WO2021064467A1 (en) | Apparatus and method for snoring sound detection based on sound analysis | |
Sundaram et al. | Usable Speech Detection Using Linear Predictive Analysis–A Model-Based Approach | |
Vieira et al. | Comparative assessment of electroglottographic and acoustic measures of jitter in pathological voices | |
Yue et al. | Speaker age recognition based on isolated words by using SVM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |