CN111261192A - 一种基于lstm网络的音频检测方法、电子设备及存储介质 - Google Patents
一种基于lstm网络的音频检测方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111261192A CN111261192A CN202010040841.0A CN202010040841A CN111261192A CN 111261192 A CN111261192 A CN 111261192A CN 202010040841 A CN202010040841 A CN 202010040841A CN 111261192 A CN111261192 A CN 111261192A
- Authority
- CN
- China
- Prior art keywords
- audio data
- audio
- lstm network
- detection method
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000013145 classification model Methods 0.000 claims abstract description 31
- 238000012360 testing method Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 8
- 238000012795 verification Methods 0.000 abstract description 2
- 238000001228 spectrum Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于LSTM网络的音频检测方法、电子设备及存储介质,所述方法包括一种基于LSTM网络的音频检测方法,其特征在于,所述方法包括如下:采集一定数量条的音频数据,对每条音频数据进行分类标记;构建一二分类的分类模型;利用LSTM网络对所述分类模型进行训练;将一段待测音频数据进行截取成多段子音频数据;将待测音频数据的多段子音频数据分别输入到训练好的分类模型进行分类判断;将保留的有效的子音频数据拼接形成有效音频。本发明对音频段按照时间维度来进行自动的检测,当检测到是无效的音频,自动去除,具备更加人性化的设置,验证准确高,应用便捷高效等特点。
Description
技术领域
本发明涉及餐饮领域,涉及一种基于LSTM网络的音频检测方法,以及相关的电子设备及存储介质。
背景技术
在语音识别和声纹识别等等的语音相关的技术中,一直存在无效音频的干扰。例如音频中可能存在的过大的噪音,汽车的滴滴声,电话的铃声以及空白的音频段等等。这些无效的音频段的出现,大大的影响了我们整体的语音识别或者声纹识别的效果。因此,检测并且除去它们是十分有必要的。
发明内容
本发明的目的在于解决现有技术问题,提出能够对音频段按照时间维度来进行自动的检测。
本发明提供了一种基于LSTM网络的音频检测方法,包括如下步骤:
步骤一,采集一定数量条的音频数据,对每条音频数据进行分类标记,每条音频数据标记为有效音频或无效音频;所述一定数量条的音频数据包括第一数量的无效音频数据和第二数量的有效音频数据,
所述无效音频包含以下噪音、电话铃声、汽车声的一种或多种;
步骤二,构建一二分类的分类模型;
所述分类模型可依据无效音频特征和有效音频特征之间的特征差异对音频数据进行分类;
步骤三,利用LSTM网络对所述分类模型进行训练;
步骤四,将一段待测音频数据进行截取成多段子音频数据,每条子音频数据的音频长度为T秒;
步骤五,将待测音频数据的多段子音频数据分别输入到训练好的分类模型进行分类判断;
若某段子音频数据识别为无效,则删除该段无效的子音频数据,若某段子音频数据识别为有效,则保留该段有效的子音频数据。
进一步的,上述方法中,所述利用LSTM网络对所述分类模型进行训练,具体包括:
将所述一定数量条的音频数据进行划分,一部分音频数据划分为训练集,剩余部分音频数据划分为测试集;其中训练集的音频数据数量大于测试集的音频数据数量;
提取所述训练集的音频数据的声学特征,并提取组合特征;
将组合特征输入到LSTM网络中进行分类模型训练;
采用Adam算法进行LSTM网络参数的更新,通过若干次迭代得到训练好的分类模型。
进一步的,所述测试集的无效音频的数量与所述测试集的有效音频的数量比为0.8~1.2,在本发明实施例中,优选的,所述测试集的无效音频的数量与所述测试集的有效音频的数量比为1;
进一步的,所述训练集的无效音频的数量与所述训练集的有效音频的数量比为0.8~1.2,在本发明实施例中,优选的,所述训练集的无效音频的数量与所述训练集的有效音频的数量比1;
每条音频长度为T秒,0.1≤T≤1;在本发明实施例中,优选的,每条音频长度为0.5秒。
进一步的,在本发明实施例中,所述LSTM网络包含三层结构的LSTM网络、一全连接层和输出分类层;所述LSTM网络采用的损失函数为交叉熵损失函数。
进一步的,在本发明实施例中,所述分类模型为softmax二分类器。
进一步的,所述分类模型中加入dropout操作。
进一步的,在本发明实施例中,所述组合特征包括39维特征,具体为13维的MFCC特征、13维的MFCC特征一阶导数,13维MFCC特征二阶导数,共计39维特征。
进一步的,上述所述音频检测方法,所述步骤五中还包括,将保留的有效的子音频数据拼接形成有效音频。
与上述的基于LSTM网络的音频检测方法,相应的,本发明提供了一种电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述基于LSTM网络的音频检测方法。
与上述的基于LSTM网络的音频检测方法,相应的,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于LSTM网络的音频检测方法步骤。
与本发明基于LSTM网络的音频检测方法、电子设备、介质,本发明对音频段按照时间维度来进行自动的检测,当检测到是无效的音频,自动去除,具备更加人性化的设置,验证准确高,应用便捷高效等特点。
附图说明
此处所说明的附图用来提供对发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例1的一种基于LSTM网络的音频检测方法的流程步骤图;
图2为本发明实施例1的提取组合特征的流程步骤图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明提供了一种基于LSTM网络的音频检测方法,所述方法包括如下步骤,如附图1所示,包括如下步骤:
步骤S1,采集一定数量条的音频数据,对每条音频数据进行分类标记,
将无效音频数据标记为A,在本发明实施例中,优选的,A为1,将有效音频数据标记为B,在本发明实施例中,优选的,B为0;所述一定数量条的音频数据包括第一数量的无效音频数据和第二数量的有效音频数据,
每条音频长度为T秒;其中,0.1≤T≤1,在本发明实施例中,优选为0.5s。
所述无效音频包含以下噪音、电话铃声、汽车声的一种或多种;
步骤二,构建一二分类的分类模型;
所述分类模型可依据无效音频特征和有效音频特征之间的特征差异对音频数据进行分类;
步骤三,利用LSTM网络对所述分类模型进行训练;
步骤四,将一段待测音频数据进行截取成多段子音频数据,每条子音频数据的音频长度为T秒;
步骤五,将待测音频数据的多段子音频数据分别输入到训练好的分类模型进行分类判断;
若某段子音频数据识别为无效,则删除该段无效的子音频数据,若某段子音频数据识别为有效,则保留该段有效的子音频数据;
步骤五,将保留的有效的子音频数据拼接形成有效音频。
进一步的,所述利用LSTM网络对所述分类模型进行训练,具体包括:
将所述一定数量条的音频数据进行划分,一部分音频数据划分为训练集,剩余部分音频数据划分为测试集;其中训练集的音频数据数量大于测试集的音频数据数量,本发明实施例,优选的,所述训练集的音频数量为80%的一定数量条的音频数据,所述测试集的音频数量为20%的一定数量条的音频数据;
提取所述训练集的音频数据的声学特征,并提取组合特征;
将组合特征输入到LSTM网络中进行分类模型训练;通过相应的方法提取训练集的声学特征,由于有效和无效之间的声音的特征会有些许不同,比如在某一个频率段声音的能量,基频等,所以,可以采用不用声音特征的组合作为LSMT网络的输入,并训练出分类模型,进一步的,所述组合特征包括39维特征,具体为13维的MFCC特征、13维的MFCC特征一阶导数,13维MFCC特征二阶导数,共计39维特征。
梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性。
采用Adam算法进行LSTM网络参数的更新,通过若干次迭代得到训练好的分类模型。
进一步的,所述测试集的无效音频的数量与所述测试集的有效音频的数量比为0.8~1.2,所述测试集的无效音频的数量与所述测试集的有效音频的数量比大约为1:1,最为较佳实施例,本发明所述测试集的无效音频的数量与所述测试集的有效音频的数量比为1:1;
进一步的,所述训练集的无效音频的数量与所述训练集的有效音频的数量比为0.8~1.2,在本发明实施例中,优选的,所述训练集的无效音频的数量与所述训练集的有效音频的数量比大约为1:1。最为较佳实施例,本发明所述训练集的无效音频的数量与所述训练集的有效音频的数量比1。
进一步的,所述LSTM网络包含三层结构的LSTM网络、一全连接层和输出分类层;所述LSTM网络采用的损失函数为交叉熵损失函数。
进一步的,所述分类模型为softmax分类器。
进一步的,防止分类模型过拟合,所述分类模型中加入dropout操作,。
进一步的,提取组合特征的流程步骤图如附图2所示,具体包括如下步骤:
音频数据获取步骤,具体包括通过预滤波,CODEC前端带宽为300-3400Hz的抗混叠滤波器,并经过A/D变换,本发明实施例中,具体采用8kHz的采样频率,12bit的线性量化精度。
预加重步骤,具体而言通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。
分帧步骤,根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧叠为16ms。
加窗步骤,采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响。
快速傅立叶变换步骤,快速傅立叶变换(Fast Fourier Transformation,FFT):将时域信号变换成为信号的功率谱。
三角窗滤波步骤,用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应。
求对数步骤,三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。
离散余弦变换步骤,离散余弦变换(Discrete Cosine Transformation,DCT),去除各维信号之间的相关性,将信号映射到低维空间。
谱加权步骤,由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数。
倒谱均值减步骤,倒谱均值减(Cepstrum Mean Subtraction,CMS),CMS可以有效地减小语音输入信道对特征参数的影响。
差分参数步骤,差分参数,大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能。在本发明用到了MFCC参数的一阶差分参数和二阶差分参数。
短时能量步骤,语音的短时能量也是重要的特征参数,本系统中我们采用了语音的短时归一化对数能量及其一阶差分、二阶差分参数。
测试时输入一段音频进行测试,提取该音频的组合特征,将特征输入训练好的网络,最后通过softmax层输出预测有效还是无效结果的概率值p。根据softmax输出结果的到预测的结果属于有效还是无效。
实施例2
本发明实施例中提供了一种电子设备,所述电子设备包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行基于LSTM网络的音频检测方法步骤。本实施例的所述基于LSTM网络的音频检测方法步骤与实施例1的相同,在本实施例,不再赘述。
实施例3
本发明实施例中提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现基于LSTM网络的音频检测方法步骤。本实施例的所述基于LSTM网络的音频检测方法步骤与实施例1的相同,在本实施例,不再赘述。
需要说明的是,本发明提供了一种基于LSTM网络的音频检测方法如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得电子设备(可以是个人计算机、云电子设备、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。所述计算机可读存储介质包括但不限于U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。本发明实施例不限制于任何特定的硬件和软件结合。
以上各实施例仅用以说明本发明的技术方案,但应当理解本发明并非局限于上述实施例,通过本发明的启示,本领域技术人员结合公知或现有技术、知识所进行的修改,或者对其中部分或者全部技术特征进行等同替换也应视为在本发明的保护范围内。
Claims (9)
1.一种基于LSTM网络的音频检测方法,其特征在于,所述方法包括如下步骤:
步骤一,采集一定数量条的音频数据,对每条音频数据进行分类标记,每条音频数据标记为有效音频或无效音频;所述一定数量条的音频数据包括第一数量的无效音频数据和第二数量的有效音频数据,
所述无效音频包含以下噪音、电话铃声、汽车声的一种或多种;
步骤二,构建一二分类的分类模型;
所述分类模型可依据无效音频特征和有效音频特征之间的特征差异对音频数据进行分类;
步骤三,利用LSTM网络对所述分类模型进行训练;
步骤四,将一段待测音频数据进行截取成多段子音频数据,每条子音频数据的音频长度为T秒;
步骤五,将待测音频数据的多段子音频数据分别输入到训练好的分类模型进行分类判断;
若某段子音频数据识别为无效,则删除该段无效的子音频数据,若某段子音频数据识别为有效,则保留该段有效的子音频数据。
2.根据权利要求1所述的基于LSTM网络的音频检测方法,其特征在于,
所述利用LSTM网络对所述分类模型进行训练,具体包括:
将所述一定数量条的音频数据进行划分,一部分音频数据划分为训练集,剩余部分音频数据划分为测试集;其中训练集的音频数据数量大于测试集的音频数据数量;
提取所述训练集的音频数据的声学特征,并提取组合特征;
将组合特征输入到LSTM网络中进行分类模型训练;
采用Adam算法进行LSTM网络参数的更新,通过若干次迭代得到训练好的分类模型。
3.根据权利要求2所述的基于LSTM网络的音频检测方法,其特征在于,
所述测试集的无效音频的数量与所述测试集的有效音频的数量比为0.8~1.2,
所述训练集的无效音频的数量与所述训练集的有效音频的数量比为0.8~1.2,
每条音频长度为T秒,0.1≤T≤1;
所述LSTM网络包含三层结构的LSTM网络、一全连接层和输出分类层;
所述LSTM网络采用的损失函数为交叉熵损失函数。
4.根据权利要求2所述的基于LSTM网络的音频检测方法,其特征在于,
所述音频检测方法,所述步骤五中还包括,将保留的有效的子音频数据拼接形成有效音频。
5.根据权利要求2所述的基于LSTM网络的音频检测方法,其特征在于,
所述分类模型为softmax二分类器。
6.根据权利要求5所述的基于LSTM网络的音频检测方法,其特征在于,
所述分类模型中加入dropout操作。
7.根据权利要求2所述的基于LSTM网络的音频检测方法,其特征在于,
所述组合特征包括39维特征,具体为13维的MFCC特征、13维的MFCC特征一阶导数,13维MFCC特征二阶导数,共计39维特征。
8.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1至8任一项所述基于LSTM网络的音频检测方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,
所述计算机程序被处理器执行时实现如权利要求1至8任一项所述基于LSTM网络的音频检测方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010040841.0A CN111261192A (zh) | 2020-01-15 | 2020-01-15 | 一种基于lstm网络的音频检测方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010040841.0A CN111261192A (zh) | 2020-01-15 | 2020-01-15 | 一种基于lstm网络的音频检测方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111261192A true CN111261192A (zh) | 2020-06-09 |
Family
ID=70955283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010040841.0A Pending CN111261192A (zh) | 2020-01-15 | 2020-01-15 | 一种基于lstm网络的音频检测方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111261192A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933148A (zh) * | 2020-06-29 | 2020-11-13 | 厦门快商通科技股份有限公司 | 基于卷神经网络的年龄识别方法、装置及终端 |
CN112562738A (zh) * | 2020-11-13 | 2021-03-26 | 江苏汉德天坤数字技术有限公司 | 一种语音情绪识别算法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3180785A1 (en) * | 2014-12-15 | 2017-06-21 | Baidu USA LLC | Systems and methods for speech transcription |
US20180233127A1 (en) * | 2017-02-13 | 2018-08-16 | Qualcomm Incorporated | Enhanced speech generation |
CN108648748A (zh) * | 2018-03-30 | 2018-10-12 | 沈阳工业大学 | 医院噪声环境下的声学事件检测方法 |
CN108648769A (zh) * | 2018-04-20 | 2018-10-12 | 百度在线网络技术(北京)有限公司 | 语音活性检测方法、装置及设备 |
CN109961017A (zh) * | 2019-02-26 | 2019-07-02 | 杭州电子科技大学 | 一种基于卷积循环神经网络的心音信号分类方法 |
CN110349588A (zh) * | 2019-07-16 | 2019-10-18 | 重庆理工大学 | 一种基于词嵌入的lstm网络声纹识别方法 |
CN110349564A (zh) * | 2019-07-22 | 2019-10-18 | 苏州思必驰信息科技有限公司 | 一种跨语言语音识别方法和装置 |
-
2020
- 2020-01-15 CN CN202010040841.0A patent/CN111261192A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3180785A1 (en) * | 2014-12-15 | 2017-06-21 | Baidu USA LLC | Systems and methods for speech transcription |
US20180233127A1 (en) * | 2017-02-13 | 2018-08-16 | Qualcomm Incorporated | Enhanced speech generation |
CN108648748A (zh) * | 2018-03-30 | 2018-10-12 | 沈阳工业大学 | 医院噪声环境下的声学事件检测方法 |
CN108648769A (zh) * | 2018-04-20 | 2018-10-12 | 百度在线网络技术(北京)有限公司 | 语音活性检测方法、装置及设备 |
CN109961017A (zh) * | 2019-02-26 | 2019-07-02 | 杭州电子科技大学 | 一种基于卷积循环神经网络的心音信号分类方法 |
CN110349588A (zh) * | 2019-07-16 | 2019-10-18 | 重庆理工大学 | 一种基于词嵌入的lstm网络声纹识别方法 |
CN110349564A (zh) * | 2019-07-22 | 2019-10-18 | 苏州思必驰信息科技有限公司 | 一种跨语言语音识别方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933148A (zh) * | 2020-06-29 | 2020-11-13 | 厦门快商通科技股份有限公司 | 基于卷神经网络的年龄识别方法、装置及终端 |
CN112562738A (zh) * | 2020-11-13 | 2021-03-26 | 江苏汉德天坤数字技术有限公司 | 一种语音情绪识别算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2984649B1 (en) | Extraction of acoustic relative excitation features | |
CN109256138B (zh) | 身份验证方法、终端设备及计算机可读存储介质 | |
CN110459241B (zh) | 一种用于语音特征的提取方法和系统 | |
CN111261189B (zh) | 一种车辆声音信号特征提取方法 | |
CN108564956B (zh) | 一种声纹识别方法和装置、服务器、存储介质 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
Dua et al. | Performance evaluation of Hindi speech recognition system using optimized filterbanks | |
CN108922514B (zh) | 一种基于低频对数谱的鲁棒特征提取方法 | |
CN111261192A (zh) | 一种基于lstm网络的音频检测方法、电子设备及存储介质 | |
Maganti et al. | Auditory processing-based features for improving speech recognition in adverse acoustic conditions | |
Kaur et al. | Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition | |
Upadhyay et al. | Robust recognition of English speech in noisy environments using frequency warped signal processing | |
Abka et al. | Speech recognition features: Comparison studies on robustness against environmental distortions | |
CN112233693B (zh) | 一种音质评估方法、装置和设备 | |
Singh et al. | A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters | |
Mehta et al. | Robust front-end and back-end processing for feature extraction for Hindi speech recognition | |
Dai et al. | An improved model of masking effects for robust speech recognition system | |
Sadeghi et al. | The effect of different acoustic noise on speech signal formant frequency location | |
Upadhyay et al. | Bark scaled oversampled WPT based speech recognition enhancement in noisy environments | |
Dutta et al. | Robust language identification using power normalized cepstral coefficients | |
Boyko et al. | Using recurrent neural network to noise absorption from audio files. | |
Singh et al. | A novel algorithm using MFCC and ERB gammatone filters in speech recognition | |
Upadhyay et al. | Auditory driven subband speech enhancement for automatic recognition of noisy speech | |
Fan et al. | Power-normalized PLP (PNPLP) feature for robust speech recognition | |
Kaur et al. | Correlative consideration concerning feature extraction techniques for speech recognition—a review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200609 |
|
RJ01 | Rejection of invention patent application after publication |