CN112735386A - 一种基于声门波信息的语音识别方法 - Google Patents

一种基于声门波信息的语音识别方法 Download PDF

Info

Publication number
CN112735386A
CN112735386A CN202110063110.2A CN202110063110A CN112735386A CN 112735386 A CN112735386 A CN 112735386A CN 202110063110 A CN202110063110 A CN 202110063110A CN 112735386 A CN112735386 A CN 112735386A
Authority
CN
China
Prior art keywords
glottal
feature
signal
features
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110063110.2A
Other languages
English (en)
Other versions
CN112735386B (zh
Inventor
陶智
伍远博
孙宝印
张晓俊
周长伟
范子琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202110063110.2A priority Critical patent/CN112735386B/zh
Publication of CN112735386A publication Critical patent/CN112735386A/zh
Application granted granted Critical
Publication of CN112735386B publication Critical patent/CN112735386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于声门波信息的语音识别方法,包括源信号预处理、特征提取和分类识别三个步骤,源信号预处理提取原始语音信号的声门波信号作为特征提取的源信号;特征提取采用动态图像专家组标准MPEG‑7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为声门波信号识别的特征集;分类识别基于随机森林分类器采用十倍交叉验证方法进行语音识别的预测分类。本发明以声门波作为源信号,充分表征声门激励与声带振动机理在语音识别中的作用,并且提出了动态图像专家组标准MPEG‑7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为识别特征集,解决了帧间重复与过拟合的问题同时不依赖于基音频率估计结果。

Description

一种基于声门波信息的语音识别方法
技术领域
本发明涉及语音识别领域,具体涉及一张基于声门波信息的语音识别方法。
背景技术
语音识别技术一般可分解为信号预处理、特征提取和分类识别等阶段。语音识别技术所提取的特征类别可根据其原理分为:以基音频率、信号幅值为基础的测量扰动类、频谱倒谱计算获取的倒谱类、非线性动力学分析计算的非线性类以及逆滤波算法估计的声门类等。其中扰动类特征与非线性特征受制于基音频率的估计精确度,其表现不如倒谱类特征,声门类特征多作为补充性特征使用,在语音识别中的价值未得到充分开发。动态图像专家组标准MPEG-7特征在说话人识别,情感语音分析上均取得优异的表现,但这些方案仅使用了其低阶描述符,不可避免的存在帧间重复的过拟合问题。
语音信号的发声过程可以被分解为:声门激励→声道谐振→口唇辐射→原始语音信号。大多数技术方案对语音识别性能提升的考虑仅局限于何种特征的表现更佳,何种分类算法的性能更优,这些方案以原始语音信号作为其源信号进行分析、特征提取,未能消除口唇辐射、声道谐振的影响,难以突出声带振动产生的声门激励在发声过程中的重要特性。部分技术方案在语音识别中应用了声门类特征,作为补充性特征完善特征集描述语音信号特点的完整性,然而其主体仍多为倒谱类、非线性或者测量扰动类特征,声门激励对语音识别性能提升的作用仍未能体现,综上所述,现有技术中语音识别方法存在以下缺陷:
(1)现有语音识别方法提取的特征受限于基音频率的准确估计,且未能充分利用声门波信息在语音识别中的价值,对提升语音识别的准确率贡献有限。
(2)现有语音识别方法以经过声道谐振、口唇辐射后的原始语音信号作为源信号处理,未能消除声道谐振和口唇辐射的影响,不能充分描述声带振动的机理和特性。
(3)部分语音识别方法采用以帧为分析单元的特征提取方法,其不可避免存在帧移部分特征提取的重复和过拟合,降低识别结果的鲁棒性和可信度。
发明内容
本发明要解决的技术问题是提供一种基于声门波信息的语音识别方法,以声门逆滤波获取声门波作为源信号,充分表征声门激励与声带振动机理在语音识别中的作用,并且提出了动态图像专家组标准MPEG-7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为识别特征集,解决了帧间重复与过拟合的问题同时不依赖于基音频率估计结果。
为了解决上述技术问题,本发明提供了一种基于声门波信息的语音识别方法,包括源信号预处理、特征提取和分类识别三个步骤,所述源信号预处理提取原始语音信号的声门波信号作为特征提取的源信号;所述特征提取采用动态图像专家组标准MPEG-7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为声门波信号识别的特征集;所述分类识别基于随机森林分类器采用十倍交叉验证方法进行语音识别的预测分类。
本发明一个较佳实施例中,进一步包括所述源信号预处理采用迭代自适应声门逆滤波算法IAIF推导目标语音信号的声门波信号,去除声道谐振、口唇辐射的干扰并突出声门激励在语音识别中的作用,具体包括以下步骤:
步骤1-1:统一语音信号的采样频率,并预加重去除其高频噪声,得到目标信号s(n);
步骤1-2:通过迭代自适应声门逆滤波算法IAIF推导目标语音信号s(n)的声门波信号g(n);
步骤1-3:获取声门波信号g(n)与其导数
Figure BDA0002903086600000036
作为特征提取步骤的源信号,其方程如下:
Figure BDA0002903086600000031
Figure BDA0002903086600000032
其中,φ(n)表征声门波时域导数直到声门激励峰值前的部分,tqc表征声带碰撞的瞬间,T表示一个声门波脉冲周期的时间,而
Figure BDA0002903086600000033
表征表示最大激发瞬间后的间隔称为返回相。
φ(n)可由下式获取:
Figure BDA0002903086600000034
其中,Ad表示声门波时域导数的幅值,tmax表示最大气流出现的瞬间,而α为生成系数,可由连续状态方程计算获取:
Figure BDA0002903086600000035
本发明一个较佳实施例中,进一步包括所述迭代自适应声门逆滤波算法IAIF包括两次迭代;第一次迭代采用一阶线性预测分析LPA计算声门波的激励模型,并将声门波的影响随激励模型通过逆滤波被去除,采用高阶线性预测分析LPA计算声道谐振的第一次预测模型,将声道谐振的影响随第一次预测模型通过逆滤波被去除,再去除口唇辐射的影响,得到第一次迭代获取的声门波模型;将声门波模型的时域信号作为第二次迭代的初始信号,重复第一次迭代的方法,去除声门波的影响、声道谐振的影响以及口唇辐射的影响得到声门波信号g(n)。
本发明一个较佳实施例中,进一步包括所述特征提取包括openSMILE特征提取,采用openSMILE工具提取eGeMAPS特征集,eGeMAPS特征集包括两部分:最小特征集和扩展特征集。
本发明一个较佳实施例中,进一步包括所述特征提取包括经典声门特征提取,所述经典声门特征包括时域特征和频域特征。
本发明一个较佳实施例中,进一步包括所述特征提取包括MPEG-7音频标准描述符高阶统计量特征提取,采用动态图像专家组MPEG-7标准从声门源信号中提取低阶音频描述符,计算每一条语音信号MPEG-7低阶描述符特征的均值、方差、最小值、最大值、中位数等高阶统计量作为MPEG-7音频标准高阶统计量特征。
本发明一个较佳实施例中,进一步包括所述分类识别采用十倍交叉验证法提升语音识别方法的鲁棒性,将输入样本分为等额若干份,其中1份用于分类器的测试,其余用于随机森林分类器的训练分类,最终取多次分类结果的均值来作为语音识别的最终精度。
本发明一个较佳实施例中,进一步包括特征优化,所述特征优化包括初步筛选和进阶优化两个步骤,所述初步筛选对各独立特征集计算其Fisher判别比,初步去除对语音识别贡献很低甚至产生负面影响的特征,所述进阶优化采用wrapper算法进行特征优化获取筛选后的组合特征集。
本发明一个较佳实施例中,进一步包括所述初步筛选采用Fisher判别比,Fisher判别准则原理如下:
Figure BDA0002903086600000041
其中,k表示特征编号,μn,k和μp,k表示目标特征分布的均值,σn,k和σp,k表示目标特征分布的方差,对某一指定特征,若其在两类别语音的特征分布均值的距离大且其方差分布的距离小,则其具有较高的FDR值,同时意味着这个特征对两不同类别语音具有较高的区分度,根据FDR排名,将排名靠后的即对语音识别贡献率低的特征初步剔除。
本发明一个较佳实施例中,进一步包括所述进阶优化通过执行贪心后向搜索策略遍历特征空间执行wrapper特征选择,通过十倍交叉验证计算优化特征集对语音识别的平均准确率,选择识别率最佳的子集作为最终的组合特征集。
本发明的有益效果:
本发明主要针对源信号预处理和特征提取进行研究。
在源信号预处理方面,现有语音识别方法着眼于对原始语音信号进行分析,忽略了声道谐振和口唇辐射对识别结果的影响以及声门激励对识别结果的贡献,本发明通过迭代自适应声门逆滤波算法IAIF提取原始语音信号的声门波信号作为特征提取的源信号,去除声道谐振、口唇辐射的干扰并突出声门激励在语音识别中的作用。
在特征提取方面,本发明通过动态图像专家组标准MPEG-7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为识别特征集,该特征集与现有方法所用特征相比,不依赖基音频率的精确估计且避免了帧间特征重复和过拟合的非鲁棒问题,获得了比现有方法更好的识别结果。
附图说明
图1是本发明的基于声门波信息的语音识别方法的一实施例的结构框图;
图2是本发明的基于声门波信息的语音识别方法的另一实施例的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1所示,本发明的基于声门波信息的语音识别方法的一实施例,包括源信号预处理、特征提取和分类识别三个步骤,所述源信号预处理提取原始语音信号的声门波信号作为特征提取的源信号;所述特征提取采用动态图像专家组标准MPEG-7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为声门波信号识别的特征集;所述分类识别基于随机森林分类器采用十倍交叉验证方法进行语音识别的预测分类。
所述源信号预处理采用迭代自适应声门逆滤波算法IAIF推导目标语音信号的声门波信号,去除声道谐振、口唇辐射的干扰并突出声门激励在语音识别中的作用,具体包括以下步骤:
步骤1-1:统一语音信号的采样频率,并预加重去除其高频噪声,得到目标信号s(n);
步骤1-2:通过迭代自适应声门逆滤波算法IAIF推导目标语音信号s(n)的声门波信号g(n);
具体地,迭代自适应声门逆滤波算法IAIF的原理及迭代步骤如下:
(1)声门波信号在Z平面中表述如下:
Figure BDA0002903086600000061
其中,G(z)、V(z)和L(z)分别为Z平面中声门波、声道谐振和口唇辐射的系统函数,β则为口唇辐射的系数,取值范围在0到1之间。
(2)第一次迭代中,一阶线性预测分析LPA用于计算声门脉冲对语音信号的影响。这一估计的声门激励模型随之通过逆滤波被去除。这一步骤的目的是将声门波预先从原始语音中拿出以与声道谐振函数分离,如此可以更加精确地估计声道谐振的系统方程。
(3)高阶线性预测分析LPA用于计算声道谐振的第一次预测模型V1(z):
Figure BDA0002903086600000071
其中,αk表示声道谐振系统V1(z)的LPC系数,而Mv1表示LPA的阶数。声道谐振的影响随之通过逆滤波被去除。
(4)去除口唇辐射L(z)的影响,得到第一次迭代获取的声门波模型G1(z):
Figure BDA0002903086600000072
(5)将G1(z)的时域信号g1(n)作为第二次迭代的初始信号,重复步骤(2)、(3)、(4),获取更加精确的声道谐振函数V2(z),去除其与口唇辐射的影响得到二次迭代的声门波G2(z),即最终的声门波信号g(n)。
步骤1-3:获取声门波信号g(n)与其导数
Figure BDA0002903086600000076
作为特征提取步骤的源信号,其方程如下:
Figure BDA0002903086600000073
Figure BDA0002903086600000074
其中,φ(n)表征声门波时域导数直到声门激励峰值前的部分,tqc表征声带碰撞的瞬间,T表示一个声门波脉冲周期的时间,而
Figure BDA0002903086600000075
表征表示最大激发瞬间后的间隔称为返回相。
φ(n)可由下式获取:
Figure BDA0002903086600000081
其中,Ad表示声门波时域导数的幅值,tmax表示最大气流出现的瞬间,而α为生成系数,可由连续状态方程计算获取:
Figure BDA0002903086600000082
具体地,所述特征提取包括openSMILE特征提取,采用openSMILE工具提取eGeMAPS特征集,eGeMAPS特征集包括两部分:最小特征集和扩展特征集,其中最小特征集包含18个低阶描述符,共62维特征参数;扩展特征集包含7个低阶描述符,共26维额外特征参数。具体见表1:
Figure BDA0002903086600000083
表1
具体地,所述特征提取包括经典声门特征提取,所述经典声门特征包括时域特征和频域特征,其中时域特征可通过使用不同的相,如开启相、闭合相,以及瞬间,如闭合瞬间、开启瞬间和声门波最大最小瞬间来描述,此外,不同相的声门波幅度用于计算基于幅度的声门特征;与时域特征不同,频域特征从声门波频谱中计算。具体特征描述见表2:
特征 描述 特征 描述
OQ1 开启商,计算于声门开启第一阶段 QOQ 准开启商
OQ2 开启商,计算于声门开启第二阶段 SQ1 速度商,计算于声门开启第一阶段
AQ 幅度商 SQ2 速度商,计算于声门开启第二阶段
NAQ 标准化幅度商 H1H2 第一第二谐波差异度
ClQ 闭合商 PSP 抛物线谱参数
OQa 开启商,衍生于LF声门模型 HRF 谐波丰富度因子
表2
具体地,所述特征提取包括MPEG-7音频标准描述符高阶统计量特征提取,采用动态图像专家组MPEG-7标准从声门源信号中提取低阶音频描述符,计算每一条语音信号MPEG-7低阶描述符特征的均值、方差、最小值、最大值、中位数等高阶统计量作为MPEG-7音频标准高阶统计量特征。
具体地,MPEG-7低阶描述符共17例,可分为两类:标量描述符和向量描述符。MPEG-7音频标准高阶统计量特征维度为45×5=225维,特征描述见表3:
Figure BDA0002903086600000091
Figure BDA0002903086600000101
表3
具体地,所述分类识别采用十倍交叉验证法提升语音识别方法的鲁棒性,本实施例中,将输入样本分为等额10份,9份用于随机森林分类器的训练,1份用于分类器的测试,分类实验共进行10次。最终取10次分类结果的均值来作为语音识别的最终精度,以解决样本选取对语音识别结果的人为影响。
参照图2所示,本发明的基于声门波信息的语音识别方法的另一实施例,包括源信号预处理、特征提取、特征优化和分类识别四个步骤,所述源信号预处理提取原始语音信号的声门波信号作为特征提取的源信号;所述特征提取采用动态图像专家组标准MPEG-7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为声门波信号识别的特征集;所述特征优化包括初步筛选和进阶优化两个步骤,所述初步筛选对各独立特征集计算其Fisher判别比,初步去除对语音识别贡献很低甚至产生负面影响的特征,所述进阶优化采用wrapper算法进行特征优化获取筛选后的组合特征集;所述分类识别基于随机森林分类器采用十倍交叉验证方法进行语音识别的预测分类。
具体地,源信号预处理、特征提取、分类识别与实施例一的处理步骤相同,所述特征优化中的初步筛选步骤采用Fisher判别比,Fisher判别准则原理如下:
Figure BDA0002903086600000102
其中,k表示特征编号,μn,k和μp,k表示目标特征分布的均值,σn,k和σp,k表示目标特征分布的方差,对某一指定特征,若其在两类别语音的特征分布均值的距离大且其方差分布的距离小,则其具有较高的FDR值,同时意味着这个特征对两不同类别语音具有较高的区分度,根据FDR排名,将排名靠后的即对语音识别贡献率低的特征初步剔除。
具体地,所述特征优化中进阶优化步骤通过执行贪心后向搜索策略遍历特征空间执行wrapper特征选择,通过十倍交叉验证计算优化特征集对语音识别的平均准确率,选择识别率最佳的子集作为最终的组合特征集。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (10)

1.一种基于声门波信息的语音识别方法,包括源信号预处理、特征提取和分类识别三个步骤,其特征在于,所述源信号预处理提取原始语音信号的声门波信号作为特征提取的源信号;所述特征提取采用动态图像专家组标准MPEG-7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为声门波信号识别的特征集;所述分类识别基于随机森林分类器采用十倍交叉验证方法进行语音识别的预测分类。
2.如权利要求1所述的基于声门波信息的语音识别方法,其特征在于,所述源信号预处理采用迭代自适应声门逆滤波算法IAIF推导目标语音信号的声门波信号,去除声道谐振、口唇辐射的干扰并突出声门激励在语音识别中的作用,具体包括以下步骤:
步骤1-1:统一语音信号的采样频率,并预加重去除其高频噪声,得到目标信号s(n);
步骤1-2:通过迭代自适应声门逆滤波算法IAIF推导目标语音信号s(n)的声门波信号g(n);
步骤1-3:获取声门波信号g(n)与其导数
Figure FDA0002903086590000013
作为特征提取步骤的源信号,其方程如下:
Figure FDA0002903086590000011
Figure FDA0002903086590000012
其中,φ(n)表征声门波时域导数直到声门激励峰值前的部分,tqc表征声带碰撞的瞬间,T表示一个声门波脉冲周期的时间,而
Figure FDA0002903086590000023
表征表示最大激发瞬间后的间隔称为返回相。
φ(n)可由下式获取:
Figure FDA0002903086590000021
其中,Ad表示声门波时域导数的幅值,tmax表示最大气流出现的瞬间,而α为生成系数,可由连续状态方程计算获取:
Figure FDA0002903086590000022
3.如权利要求2所述的基于声门波信息的语音识别方法,其特征在于,所述迭代自适应声门逆滤波算法IAIF包括两次迭代;第一次迭代采用一阶线性预测分析LPA计算声门波的激励模型,并将声门波的影响随激励模型通过逆滤波被去除,采用高阶线性预测分析LPA计算声道谐振的第一次预测模型,将声道谐振的影响随第一次预测模型通过逆滤波被去除,再去除口唇辐射的影响,得到第一次迭代获取的声门波模型;将声门波模型的时域信号作为第二次迭代的初始信号,重复第一次迭代的方法,去除声门波的影响、声道谐振的影响以及口唇辐射的影响得到声门波信号g(n)。
4.如权利要求1所述的基于声门波信息的语音识别方法,其特征在于,所述特征提取包括openSMILE特征提取,采用openSMILE工具提取eGeMAPS特征集,eGeMAPS特征集包括两部分:最小特征集和扩展特征集。
5.如权利要求1所述的基于声门波信息的语音识别方法,其特征在于,所述特征提取包括经典声门特征提取,所述经典声门特征包括时域特征和频域特征。
6.如权利要求1所述的基于声门波信息的语音识别方法,其特征在于,所述特征提取包括MPEG-7音频标准描述符高阶统计量特征提取,采用动态图像专家组MPEG-7标准从声门源信号中提取低阶音频描述符,计算每一条语音信号MPEG-7低阶描述符特征的均值、方差、最小值、最大值、中位数高阶统计量作为MPEG-7音频标准高阶统计量特征。
7.如权利要求1所述的基于声门波信息的语音识别方法,其特征在于,所述分类识别采用十倍交叉验证法提升语音识别方法的鲁棒性,将输入样本分为等额若干份,其中1份用于分类器的测试,其余用于随机森林分类器的训练分类,最终取多次分类结果的均值来作为语音识别的最终精度。
8.如权利要求1所述的基于声门波信息的语音识别方法,其特征在于,还包括特征优化,所述特征优化包括初步筛选和进阶优化两个步骤,所述初步筛选对各独立特征集计算其Fisher判别比,初步去除对语音识别贡献很低甚至产生负面影响的特征,所述进阶优化采用wrapper算法进行特征优化获取筛选后的组合特征集。
9.如权利要求8所述的基于声门波信息的语音识别方法,其特征在于,所述初步筛选采用Fisher判别比,Fisher判别准则原理如下:
Figure FDA0002903086590000031
其中,k表示特征编号,μn,k和μp,k表示目标特征分布的均值,σn,k和σp,k表示目标特征分布的方差,对某一指定特征,若其在两类别语音的特征分布均值的距离大且其方差分布的距离小,则其具有较高的FDR值,同时意味着这个特征对两不同类别语音具有较高的区分度,根据FDR排名,将排名靠后的即对语音识别贡献率低的特征初步剔除。
10.如权利要求8所述的基于声门波信息的语音识别方法,其特征在于,所述进阶优化通过执行贪心后向搜索策略遍历特征空间执行wrapper特征选择,通过十倍交叉验证计算优化特征集对语音识别的平均准确率,选择识别率最佳的子集作为最终的组合特征集。
CN202110063110.2A 2021-01-18 2021-01-18 一种基于声门波信息的语音识别方法 Active CN112735386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110063110.2A CN112735386B (zh) 2021-01-18 2021-01-18 一种基于声门波信息的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110063110.2A CN112735386B (zh) 2021-01-18 2021-01-18 一种基于声门波信息的语音识别方法

Publications (2)

Publication Number Publication Date
CN112735386A true CN112735386A (zh) 2021-04-30
CN112735386B CN112735386B (zh) 2023-03-24

Family

ID=75592149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110063110.2A Active CN112735386B (zh) 2021-01-18 2021-01-18 一种基于声门波信息的语音识别方法

Country Status (1)

Country Link
CN (1) CN112735386B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130166291A1 (en) * 2010-07-06 2013-06-27 Rmit University Emotional and/or psychiatric state detection
CN103730130A (zh) * 2013-12-20 2014-04-16 中国科学院深圳先进技术研究院 一种病理嗓音的检测方法和系统
US20170206915A1 (en) * 2016-01-19 2017-07-20 Xerox Corporation Method and system for detecting sentiment by analyzing human speech
CN108074585A (zh) * 2018-02-08 2018-05-25 河海大学常州校区 一种基于声源特征的语音异常检测方法
CN108122562A (zh) * 2018-01-16 2018-06-05 四川大学 一种基于卷积神经网络和随机森林的音频分类方法
CN111081273A (zh) * 2019-12-31 2020-04-28 湖南景程电子科技有限公司 一种基于声门波信号特征提取的语音情感识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130166291A1 (en) * 2010-07-06 2013-06-27 Rmit University Emotional and/or psychiatric state detection
CN103730130A (zh) * 2013-12-20 2014-04-16 中国科学院深圳先进技术研究院 一种病理嗓音的检测方法和系统
US20170206915A1 (en) * 2016-01-19 2017-07-20 Xerox Corporation Method and system for detecting sentiment by analyzing human speech
CN108122562A (zh) * 2018-01-16 2018-06-05 四川大学 一种基于卷积神经网络和随机森林的音频分类方法
CN108074585A (zh) * 2018-02-08 2018-05-25 河海大学常州校区 一种基于声源特征的语音异常检测方法
CN111081273A (zh) * 2019-12-31 2020-04-28 湖南景程电子科技有限公司 一种基于声门波信号特征提取的语音情感识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡耀文: "音频信号特征提取及其分类研究", 《中国优秀硕士学位论文全文数据库》 *

Also Published As

Publication number Publication date
CN112735386B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN109034046B (zh) 一种基于声学检测的电能表内异物自动识别方法
US8831942B1 (en) System and method for pitch based gender identification with suspicious speaker detection
Kumar et al. Analysis of MFCC and BFCC in a speaker identification system
Deshmukh et al. Speech based emotion recognition using machine learning
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN109767756A (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
CN113327626A (zh) 语音降噪方法、装置、设备及存储介质
Gómez-García et al. On the design of automatic voice condition analysis systems. Part III: Review of acoustic modelling strategies
Diment et al. Semi-supervised learning for musical instrument recognition
Khadem-Hosseini et al. Error correction in pitch detection using a deep learning based classification
Yan et al. Exposing speech transsplicing forgery with noise level inconsistency
CN114694640A (zh) 基于音频频谱图的异常声音提取识别方法及装置
Prasad et al. Estimation of the invariant and variant characteristics in speech articulation and its application to speaker identification
CN112735386B (zh) 一种基于声门波信息的语音识别方法
CN110379438A (zh) 一种语音信号基频检测与提取方法及系统
CN110265049A (zh) 一种语音识别方法及语音识别系统
Demirel et al. Automatic makam recognition using chroma features
CN111091816B (zh) 一种基于语音评测的数据处理系统及方法
Patil et al. Content-based audio classification and retrieval: A novel approach
CN117312548A (zh) 一种多源异构灾情数据融合理解方法
Therese et al. A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system
D'haes et al. Discrete cepstrum coefficients as perceptual features
Nosan et al. Descend-Delta-Mean Algorithm for Feature Extraction of Isolated THAI Digit Speech
KR102300599B1 (ko) 가중치를 이용한 음성 신호의 스트레스 판별 방법 및 그를 위한 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant