CN113724696A - 一种语音关键词的识别方法及系统 - Google Patents
一种语音关键词的识别方法及系统 Download PDFInfo
- Publication number
- CN113724696A CN113724696A CN202110909326.6A CN202110909326A CN113724696A CN 113724696 A CN113724696 A CN 113724696A CN 202110909326 A CN202110909326 A CN 202110909326A CN 113724696 A CN113724696 A CN 113724696A
- Authority
- CN
- China
- Prior art keywords
- model
- preset
- training
- voice
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 70
- 238000010606 normalization Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000001914 filtration Methods 0.000 claims description 21
- 238000009432 framing Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 4
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种语音关键词的识别方法及系统,所述方法可以获取预设的语音数据集,从所述预设的语音数据集中提取fbank特征,并对所述fbank特征进行归一化处理得到归一化特征,然后采用预设的seq2seq+attention对所述归一化特征进行不定长序列的模型训练,得到语音识别模型,接着再采用所述预设的asr模型对所述语音识别模型进行端对端的模型训练调整得到训练模型,最后通过所述训练模型进行语音识别。本发明可以充分利用开源的数据集进行网络预训练,既可以避免因数据集中包含大量垃圾词而降低正确识别率的问题,又可以避免因原有训练模型的框架过大而导致关键词调整难的问题,从而有效提高识别准确率和效率,增加识别的灵活性和实用性。
Description
技术领域
本发明涉及语音识别的技术领域,尤其涉及一种语音关键词的识别方法及系统。
背景技术
随着物联网的快速发展,物联网设备的越发普及,为了提高用户使用物联网设备与用户的交互效率,通常会在设备中加入语音识别模型,通过语音识别模型识别用户的意图并执行相应的操作。
目前常用的语音识别模型的语音识别方法可以细分为大词汇量的asr识别、小词汇量识别以及关键词识别。具体是采用用户输入的训练数据集,对数据集信息上述识别方法进行神经网络训练,从而生成对应语音识别模型进行语音识别。
但目前常用的语音识别模型有如下技术问题:识别训练所需的数据集要求很高,若数据集的关键词数量小,数据集内会包含大量无关紧要的词汇,降低识别的准确率,若数据集包含大量特定关键词进行训练,则用户需要在前期花费大量时间进行词语采集,既增加训练难度,也降低训练效率;而且由于训练后的语音识别模型是采用单一数据集训练,使得语音识别模型难调整,进一步降低模型的灵活性和实用性。
发明内容
本发明提出一种语音关键词的识别方法及系统,所述方法可以降低训练难度,增加训练效率,提高识别准确率。
本发明实施例的第一方面提供了一种语音关键词的识别方法,所述方法包括:
获取预设的语音数据集;
从所述预设的语音数据集中提取fbank特征,并对所述fbank特征进行归一化处理得到归一化特征;
采用预设的seq2seq+attention对所述归一化特征进行不定长序列的模型训练,得到语音识别模型;
获取预设的asr模型,并采用所述预设的asr模型对所述语音识别模型进行端对端的模型训练调整得到训练模型;
采用所述训练模型进行语音识别。
在第一方面的一种可能的实现方式中,所述从所述预设的语音数据集中提取fbank特征,包括:
获取所述语音数据集的语音波形;
对所述语音波形分别进行预操作得到预操作波形,其中所述预操作包括:预加重、分帧和加窗操作;
对所述预操作波形进行快速傅立叶变换得到波形绝对值;
采用预设的梅尔滤波器组过滤所述波形绝对值得到fbank特征。
在第一方面的一种可能的实现方式中,所述对所述fbank特征进行归一化处理得到归一化特征,包括:
采用预设的IIR低通滤波器对所述fbank特征进行低通滤波得到低通滤波特征;
对所述低通滤波特征进行自动增益控制和非线性压缩,得到归一化特征。
在第一方面的一种可能的实现方式中,所述采用预设的seq2seq+attention模型对所述fbank特征进行不定长序列的模型训练,得到语音识别模型,包括:
将所述归一化特征转换生成特征序列;
将所述特征序列输入至所述预设的seq2seq+attention模型进行不定长序列的模型训练,得到语音识别模型。
在第一方面的一种可能的实现方式中,所述预设的asr模型具体为用户预先训练且包含关于音素级别的声学特征的模型。
在第一方面的一种可能的实现方式中,所述预设的语音数据集为开源的数据集,具体包括:若干数量的asr语音数据集和若干数量的关键词数据集。
本发明实施例的第二方面提供了一种语音关键词的识别系统,所述系统包括:
获取模块,用于获取预设的语音数据集;
归一化模块,用于从所述预设的语音数据集中提取fbank特征,并对所述fbank特征进行归一化处理得到归一化特征;
训练模块,用于采用预设的seq2seq+attention对所述归一化特征进行不定长序列的模型训练,得到语音识别模型;
调整模块,用于获取预设的asr模型,并采用所述预设的asr模型对所述语音识别模型进行端对端的模型训练调整得到训练模型;
识别模块,用于采用所述训练模型进行语音识别。
在第二方面的一种可能的实现方式中,所述归一化模块还用于:
获取所述语音数据集的语音波形;
对所述语音波形分别进行预操作,预操作波形,其中所述预操作包括:预加重、分帧和加窗操作;
对所述预操作波形进行快速傅立叶变换得到波形绝对值;
采用预设的梅尔滤波器组过滤所述波形绝对值得到fbank特征。
在第二方面的一种可能的实现方式中,所述归一化模块还用于:
采用预设的IIR低通滤波器对所述fbank特征进行低通滤波得到低通滤波特征;
对所述低通滤波特征进行自动增益控制和非线性压缩,得到归一化特征。
在第二方面的一种可能的实现方式中,所述训练模块还用于:
将所述归一化特征转换生成特征序列;
将所述特征序列输入至所述预设的seq2seq+attention模型进行不定长序列的模型训练,得到语音识别模型。
在第二方面的一种可能的实现方式中,所述预设的asr模型具体为用户预先训练且包含关于音素级别的声学特征的模型。
在第二方面的一种可能的实现方式中,所述预设的语音数据集为开源的数据集,具体包括:若干数量的asr语音数据集和若干数量的关键词数据集。
相比于现有技术,本发明实施例提供的语音关键词的识别方法及系统,其有益效果在于:本发明可以充分利用开源的数据集进行网络预训练,并通过模型训练对识别的关键词进行微调,以确保了识别率同时也可以降低误识别,从而避免了因分类思想的训练方法要设计大量垃圾词汇而导致的误识别的问题,大大提高了识别的准确率,并且本申请使用端对端的训练方式,可以大大缩小训练模型的体积,减少模型的占用空间,进一步提高识别的灵活性和实用性。
附图说明
图1是本发明一实施例提供的一种语音关键词的识别方法的流程示意图;
图2是本发明一实施例提供的一种语音关键词的识别系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前常用的语音识别模型有如下技术问题:识别训练所需的数据集要求很高,若数据集的关键词数量小,数据集内会包含大量无关紧要的词汇,降低识别的准确率,若数据集包含大量特定关键词进行训练,则用户需要在前期花费大量时间进行词语采集,既增加训练难度,也降低训练效率;而且由于训练后的语音识别模型是采用单一数据集训练,使得语音识别模型难调整,进一步降低模型的灵活性和实用性。
为了解决上述问题,下面将通过以下具体的实施例对本申请实施例提供的一种语音关键词的识别方法进行详细介绍和说明。
参照图1,示出了本发明一实施例提供的一种语音关键词的识别方法的流程示意图。
其中,作为示例的,所述语音关键词的识别方法,可以包括:
S11、获取预设的语音数据集。
在本实施例中,所述预设的语音数据集为开源的数据集。具体地,开源的数据集具体可以包括:若干数量的asr语音数据集和若干数量的关键词数据集。
在实际操作中,可以是用于基于特定的使用场景或使用需求来采集。
例如,使用对象是银行客户,可以采集大量银行交易或用户业务所需的关键词数据集;又例如,使用对象是网购交易,可以采集大量网购所需的关键词数据集。
S12、从所述预设的语音数据集中提取fbank特征,并对所述fbank特征进行归一化处理得到归一化特征。
fbank(Filter bank)特征,由于fbank特征更加的符合人类的听觉原理,可以通过fbank特征确定用户的语音数据对应的内容。
由于fbank特征包含多个数据内容,为了方便后续的训练处理,可以在获取fbank特征后对fbank特征进行归一化处理,以统一fbank特征。
为了准确获取fbank特征,其中,作为示例的,步骤S12可以包括以下子步骤:
子步骤S121、获取所述语音数据集的语音波形。
在实际操作中,可以对语音数据集的语音数据进行波形转换,得到语音波形。
子步骤S122、对所述语音波形分别进行预操作得到预操作波形,其中所述预操作包括:预加重、分帧和加窗操作。
预加重是将语音波形通过一个高通滤波器,来增强语音信号中的高频部分,并保持在低频到高频的整个频段中,能够使用同样的信噪比求频谱。
对语音波形进行预加重有以下几点好处:可以平衡频谱,因为高频通常与较低频率相比具有较小的幅度;可以避免在傅里叶变换操作操作过程中出现数值问题;也可以改善信号-噪声比(SNR);可以消除发声过程中声带和嘴唇的效应,来补偿语音中受到发音系统所抑制的高频部分,也突出高频的共振峰。
分帧是指在语音波形中,按照某一个固定的时间长度分割,分割后的每一片样本,称之为一帧。分割后的一帧是分析提取Fbank的样本。
加窗是对语音波形分割成帧后,对每一帧乘以一个窗函数,以增加帧左端和右端的连续性,抵消FFT(假设数据是无限的)并减少频谱泄漏。在其中一种可选的实施例中,所述窗函数可以是Hamming窗。
子步骤S123、对所述预操作波形进行快速傅立叶变换得到波形绝对值。
子步骤S124、采用预设的梅尔滤波器组过滤所述波形绝对值得到fbank特征。
在获取fbank特征后,需要对fbank特征进行归一化处理,以方便后续的模型训练。其中,作为示例的,步骤S12可以包括以下子步骤:
子步骤S125、采用预设的IIR低通滤波器对所述fbank特征进行低通滤波得到低通滤波特征。
子步骤S126、对所述低通滤波特征进行自动增益控制和非线性压缩,得到归一化特征。
对fbank特征进行归一化后,可以在寻求最优解的过程变得平缓,更容易正确的收敛到最优解,提高数据的处理效率和准确率。
S13、采用预设的seq2seq+attention对所述归一化特征进行不定长序列的模型训练,得到语音识别模型。
所述预设的seq2seq+attention为一个Encoder–Decoder结构的网络,其中Encoder中将一个可变长度的信号序列变为固定长度的向量表达,Decoder将这个固定长度的向量变成可变长度的目标的信号序列。
由于预设的seq2seq+attention网络的输入是序列,其输出也是序列,为了让归一化特征满足预设的seq2seq+attention网络的处理要求,其中,作为示例的,步骤S13可以包括以下子步骤:
子步骤S131、将所述归一化特征转换生成特征序列。
子步骤S132、将所述特征序列输入至所述预设的seq2seq+attention模型进行不定长序列的模型训练,得到语音识别模型。
S14、获取预设的asr模型,并采用所述预设的asr模型对所述语音识别模型进行端对端的模型训练调整得到训练模型。
可选地,所述预设的asr模型具体为用户预先训练且包含关于音素级别的声学特征的模型。
预设的asr模型可以是已经学到了很多关于音素级别的声学特征的模型。该预设的asr模型可以通过多次使用关键词训练,其目的是为了让模型更加专注于关键词的那部分声学特征,从而提高了识别率。
而通过asr模型对语音识别模型进行对端对端模型训练,可以让语音识别模型自动去调整之前学习到的网络参数,进一步提高识别的准确率,并且端对端的训练可以方便进行关键词识别微调,同时相比其他算法模型占用空间小,减少训练所需的空间占用率。
S15、采用所述训练模型进行语音识别。
在完成训练后,可以采用训练模型进行语音识别,以方便用户操作。
在本实施例中,本发明实施例提供了一种语音关键词的识别方法,其有益效果在于:本发明可以充分利用开源的数据集进行网络预训练,并通过模型训练对识别的关键词进行微调,以确保了识别率同时也可以降低误识别,从而避免了因分类思想的训练方法要设计大量垃圾词汇而导致的误识别的问题,大大提高了识别的准确率,并且本申请使用端对端的训练方式,可以大大缩小训练模型的体积,减少模型的占用空间,进一步提高识别的灵活性和实用性。
本发明实施例还提供了一种语音关键词的识别系统,参见图2,示出了本发明一实施例提供的一种语音关键词的识别系统的结构示意图。
其中,作为示例的,所述语音关键词的识别系统可以包括:
获取模块201,用于获取预设的语音数据集;
归一化模块202,用于从所述预设的语音数据集中提取fbank特征,并对所述fbank特征进行归一化处理得到归一化特征;
训练模块203,用于采用预设的seq2seq+attention对所述归一化特征进行不定长序列的模型训练,得到语音识别模型;
调整模块204,用于获取预设的asr模型,并采用所述预设的asr模型对所述语音识别模型进行端对端的模型训练调整得到训练模型;
识别模块205,用于采用所述训练模型进行语音识别。
可选地,所述归一化模块还用于:
获取所述语音数据集的语音波形;
对所述语音波形分别进行预操作,预操作波形,其中所述预操作包括:预加重、分帧和加窗操作;
对所述预操作波形进行快速傅立叶变换得到波形绝对值;
采用预设的梅尔滤波器组过滤所述波形绝对值得到fbank特征。
可选地,所述归一化模块还用于:
采用预设的IIR低通滤波器对所述fbank特征进行低通滤波得到低通滤波特征;
对所述低通滤波特征进行自动增益控制和非线性压缩,得到归一化特征。
可选地,所述训练模块还用于:
将所述归一化特征转换生成特征序列;
将所述特征序列输入至所述预设的seq2seq+attention模型进行不定长序列的模型训练,得到语音识别模型。
可选地,所述预设的asr模型具体为用户预先训练且包含关于音素级别的声学特征的模型。
可选地,所述预设的语音数据集为开源的数据集,具体包括:若干数量的asr语音数据集和若干数量的关键词数据集。
进一步的,本申请实施例还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例所述的语音关键词的识别方法。
进一步的,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述实施例所述的语音关键词的识别方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种语音关键词的识别方法,其特征在于,所述方法包括:
获取预设的语音数据集;
从所述预设的语音数据集中提取fbank特征,并对所述fbank特征进行归一化处理得到归一化特征;
采用预设的seq2seq+attention对所述归一化特征进行不定长序列的模型训练,得到语音识别模型;
获取预设的asr模型,并采用所述预设的asr模型对所述语音识别模型进行端对端的模型训练调整得到训练模型;
采用所述训练模型进行语音识别。
2.根据权利要求1所述的语音关键词的识别方法,其特征在于,所述从所述预设的语音数据集中提取fbank特征,包括:
获取所述语音数据集的语音波形;
对所述语音波形分别进行预操作得到预操作波形,其中所述预操作包括:预加重、分帧和加窗操作;
对所述预操作波形进行快速傅立叶变换得到波形绝对值;
采用预设的梅尔滤波器组过滤所述波形绝对值得到fbank特征。
3.根据权利要求1或2所述的语音关键词的识别方法,其特征在于,所述对所述fbank特征进行归一化处理得到归一化特征,包括:
采用预设的IIR低通滤波器对所述fbank特征进行低通滤波得到低通滤波特征;
对所述低通滤波特征进行自动增益控制和非线性压缩,得到归一化特征。
4.根据权利要求1所述的语音关键词的识别方法,其特征在于,所述采用预设的seq2seq+attention模型对所述fbank特征进行不定长序列的模型训练,得到语音识别模型,包括:
将所述归一化特征转换生成特征序列;
将所述特征序列输入至所述预设的seq2seq+attention模型进行不定长序列的模型训练,得到语音识别模型。
5.根据权利要求1所述的语音关键词的识别方法,其特征在于,所述预设的asr模型具体为用户预先训练且包含关于音素级别的声学特征的模型。
6.根据权利要求1所述的语音关键词的识别方法,其特征在于,所述预设的语音数据集为开源的数据集,具体包括:若干数量的asr语音数据集和若干数量的关键词数据集。
7.一种语音关键词的识别系统,其特征在于,所述系统包括:
获取模块,用于获取预设的语音数据集;
归一化模块,用于从所述预设的语音数据集中提取fbank特征,并对所述fbank特征进行归一化处理得到归一化特征;
训练模块,用于采用预设的seq2seq+attention对所述归一化特征进行不定长序列的模型训练,得到语音识别模型;
调整模块,用于获取预设的asr模型,并采用所述预设的asr模型对所述语音识别模型进行端对端的模型训练调整得到训练模型;
识别模块,用于采用所述训练模型进行语音识别。
8.根据权利要求7所述的语音关键词的识别系统,其特征在于,所述归一化模块还用于:
获取所述语音数据集的语音波形;
对所述语音波形分别进行预操作,预操作波形,其中所述预操作包括:预加重、分帧和加窗操作;
对所述预操作波形进行快速傅立叶变换得到波形绝对值;
采用预设的梅尔滤波器组过滤所述波形绝对值得到fbank特征。
9.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任意一项所述的语音关键词的识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1-6任意一项所述的语音关键词的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110909326.6A CN113724696A (zh) | 2021-08-09 | 2021-08-09 | 一种语音关键词的识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110909326.6A CN113724696A (zh) | 2021-08-09 | 2021-08-09 | 一种语音关键词的识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113724696A true CN113724696A (zh) | 2021-11-30 |
Family
ID=78675258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110909326.6A Pending CN113724696A (zh) | 2021-08-09 | 2021-08-09 | 一种语音关键词的识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113724696A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
CN109599093A (zh) * | 2018-10-26 | 2019-04-09 | 北京中关村科金技术有限公司 | 智能质检的关键词检测方法、装置、设备及可读存储介质 |
US20190221206A1 (en) * | 2019-03-27 | 2019-07-18 | Intel Corporation | Spoken keyword detection based utterance-level wake on intent system |
CN112017644A (zh) * | 2020-10-21 | 2020-12-01 | 南京硅基智能科技有限公司 | 一种声音变换系统、方法及应用 |
-
2021
- 2021-08-09 CN CN202110909326.6A patent/CN113724696A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109599093A (zh) * | 2018-10-26 | 2019-04-09 | 北京中关村科金技术有限公司 | 智能质检的关键词检测方法、装置、设备及可读存储介质 |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
US20190221206A1 (en) * | 2019-03-27 | 2019-07-18 | Intel Corporation | Spoken keyword detection based utterance-level wake on intent system |
CN112017644A (zh) * | 2020-10-21 | 2020-12-01 | 南京硅基智能科技有限公司 | 一种声音变换系统、方法及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
TW201935464A (zh) | 基於記憶性瓶頸特徵的聲紋識別的方法及裝置 | |
CN111816218A (zh) | 语音端点检测方法、装置、设备及存储介质 | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN110827801A (zh) | 一种基于人工智能的自动语音识别方法及系统 | |
CN108682432B (zh) | 语音情感识别装置 | |
CN109036470B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN113327626A (zh) | 语音降噪方法、装置、设备及存储介质 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
WO2019232867A1 (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN115602165A (zh) | 基于金融系统的数字员工智能系统 | |
CN111489763A (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
Zheng et al. | Effects of skip connections in CNN-based architectures for speech enhancement | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
WO2024055752A1 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
CN110379438B (zh) | 一种语音信号基频检测与提取方法及系统 | |
Liu et al. | Learnable nonlinear compression for robust speaker verification | |
Матиченко et al. | The structural tuning of the convolutional neural network for speaker identification in mel frequency cepstrum coefficients space | |
US20230186943A1 (en) | Voice activity detection method and apparatus, and storage medium | |
CN113658596A (zh) | 语意辨识方法与语意辨识装置 | |
CN113724696A (zh) | 一种语音关键词的识别方法及系统 | |
CN113782005B (zh) | 语音识别方法及装置、存储介质及电子设备 | |
CN112309404B (zh) | 机器语音的鉴别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |