CN111429922A - 一种基于自适应语音增强的说话人识别方法及装置 - Google Patents
一种基于自适应语音增强的说话人识别方法及装置 Download PDFInfo
- Publication number
- CN111429922A CN111429922A CN202010228147.1A CN202010228147A CN111429922A CN 111429922 A CN111429922 A CN 111429922A CN 202010228147 A CN202010228147 A CN 202010228147A CN 111429922 A CN111429922 A CN 111429922A
- Authority
- CN
- China
- Prior art keywords
- signal
- voice
- recognized
- recognition
- gaussian mixture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 16
- 239000000203 mixture Substances 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000005070 sampling Methods 0.000 claims abstract description 22
- 238000005457 optimization Methods 0.000 claims abstract description 19
- 238000006243 chemical reaction Methods 0.000 claims abstract description 13
- 230000000694 effects Effects 0.000 claims abstract description 12
- 230000009467 reduction Effects 0.000 claims abstract description 10
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 238000001914 filtration Methods 0.000 claims abstract description 8
- 238000009432 framing Methods 0.000 claims abstract description 7
- 230000003321 amplification Effects 0.000 claims abstract description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 5
- 238000003672 processing method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及语音识别技术领域,具体涉及一种基于自适应语音增强的说话人识别方法及装置,首先对待识别的语音信号进行前级放大、滤波,得到输入信号;并对输入信号进行A/D变换采样,得到输入信号的数字信号;接着对所述数字信号进行分帧,对分帧后的数字信号依次进行加窗处理、FFT变换和降噪处理,得到增强信号;进而对增强信号进行语音活动检测,提取增强信号中的语音段作为待识别语音;最后采用高斯混合优化模型对待识别语音信号进行匹配识别,得出说话人识别结果,本发明提高了说话人识别在对语音信号采样时设备距离较远时的识别性能。
Description
技术领域
本发明涉及语音识别技术领域,具体涉及一种基于自适应语音增强的说话人识别方法及装置。
背景技术
语音信号的质量在一定程度上影响到听话人对说话人的识别和语音内容识别的准确率,在嘈杂的环境中,我们不容易听清周围人的说话内容,也很难根据其声音识别说话人是谁。根据我们日常生活的经验就可知道,当我们听到的语音信号有足够好的信噪比时(也就是信号足够大又不失真),就能较准确地识别说话对象和说话内容;同样的道理,计算机模仿人类的方式进行声纹识别,也存在同样的现象。声纹识别应用在不同条件下,比如有的在同一环境的现场语音拾取,有的是通过电话传输得到的语音,有的是在空旷的露天环境下的语音拾取,有的是在混响严重的室内拾取的,有的是近场拾音(说话者距离麦克风50cm之内),有的是远场拾音(说话者距离麦克风1米开外)。在现实环境中,硬件设备、传送媒介以及环境噪音、以及自身语音在密闭环境中产生的混响等都会影响到语音信号的质量。
在说话人识别的技术领域,拾取到的声音质量严重地影响了声纹特征,导致对身份辨识(声纹识别的识别率)的结果影响巨大。例如,在普通会议室内(混响较小的房间,通常混响时间指标T60在800ms左右),由于混响和环境噪声的影响,现有声纹识别技术只能对近场拾音信号进行识别,对距离麦克风超出50cm以外的拾音信号很难得到可信的识别结果。而声纹识别(包括语音识别)是一种非接触式特征提取手段,其优点应该体现在较远距离时仍然能够得到较高的可信度,但现有技术却只能识别近距离拾音,无法体现其应有的优势。
因此,如何提高语音识别性能和抗噪能力,提高远距离拾音的识别能力,成为亟待解决的问题。
发明内容
从上述背景技术可知,在远场拾音条件下,目前的声纹识别技术效果不佳,究其原因根结在于当说话者的语音传递到麦克风的信号随距离增加而衰减,而环境噪声和混响保持不变,造成拾音信号的信噪比下降,影响了声纹识别的识别率。
为解决上述问题,本发明提供一种基于自适应语音增强的说话人识别方法及装置,可以提高语音识别性能和抗噪能力。通过实验,本发明方法在2米距离拾音时,仍然可以与其他方法在50cm距离拾音时类似的识别率。
为了实现上述目的,本发明提供以下技术方案:
根据本发明实施例提供的一种基于自适应语音增强的说话人识别方法,包括:
对待识别的语音信号进行前级放大、滤波,得到输入信号;滤除不需要的低频和高频信号。
对输入信号进行A/D变换采样,得到输入信号的数字信号;
对所述数字信号进行分帧,对分帧后的数字信号依次进行加窗处理、FFT变换和降噪处理,得到增强信号;从而实现了语音增强处理。
对增强信号进行语音活动检测(Voice Activity Detection,简称VAD),去除无语音部分,提取增强信号中的语音段作为待识别语音;
采用高斯混合优化模型对待识别语音信号进行匹配识别,得出说话人识别结果。
进一步,所述对输入信号进行A/D变换采样,得到输入信号的数字信号,具体为:
对输入信号进行均匀时间间隔采样,设采样点一共为N个,编号为n的语音采样值为x(n),通过高频预加重处理得到数字信号为y(n)=x(n)-ax(n-1),其中,a表示为权值,用于对采样得到的数字信号进行高频预加重处理。
进一步,所述加窗处理具体为:
将分得的每一帧都乘上海明窗函数,海明窗函数表达式为:
W(n,α)=(1-α)-αcos(2*π*n/(N-1)),0≤n≤N-1,α=0.46。
进一步,所述对增强信号进行语音活动检测,具体为:
采用双门限法检测出增强信号的语音端点。
进一步,所述采用高斯混合优化模型对待识别语音信号进行匹配识别,得出说话人识别结果,包括:
提取待识别语音信号的基音周期;
提取待识别语音中每一帧的梅尔倒谱系数,采用高斯混合优化模型分别计算语音声纹库中各个识别对象的后验概率(相似度),将最大后验概率的识别对象作为说话人识别结果。
进一步,所述提取待识别语音信号的基音周期,具体为:
采用时域估计法提取待识别语音信号的基音周期,所述时域估计法为:自相关法、并行处理法、平均幅度差法、数据减少法中任一种。
进一步,所述高斯混合优化模型具体通过以下方式训练得到:
获取识别对象的样本语音;
将样本语音的特征矢量作为输入,采用EM算法计算学习高斯混合模型,建立识别对象的语音声纹库;
当高斯混合模型的参数收敛于设定的阈值时,则迭代终止,得到最终的模型参数;
使用最终的模型参数对高斯混合模型进行更新,得到高斯混合优化模型。
根据本发明提供的一种基于自适应语音增强的说话人识别装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现上述的基于自适应语音增强的说话人识别方法的步骤。
本发明的有益效果是:本发明公开一种基于自适应语音增强的说话人识别方法及装置,首先对待识别的语音信号进行前级放大、滤波,得到输入信号;并对输入信号进行A/D变换采样,得到输入信号的数字信号;接着对所述数字信号进行分帧,对分帧后的数字信号依次进行加窗处理、FFT变换和降噪处理,得到增强信号;进而对增强信号进行语音活动检测,提取增强信号中的语音段作为待识别语音;最后采用高斯混合优化模型对待识别语音信号进行匹配识别,得出说话人识别结果。本发明可以达到当说话者的语音传递到麦克风的信号随距离增加而衰减时,在环境噪声和混响保持不变的条件下,提升拾音信号的信噪比,从而提高声纹识别的识别率。本发明提高了说话人识别在对语音信号采样时设备距离较远时的识别性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一种基于自适应语音增强的说话人识别方法的流程示意图;
图2是本发明实施例的说话人识别方法的另一流程框图。
具体实施方式
以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本公开的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
参考图1和图2,如图1所示为一种基于自适应语音增强说话人识别的身份辨识方法,包括以下步骤:
步骤S100、对待识别的语音信号进行前级放大、滤波,得到输入信号;
步骤S200、对输入信号进行A/D变换采样,得到输入信号的数字信号;
步骤S300、对所述数字信号进行分帧,对分帧后的数字信号依次进行加窗处理、FFT变换和降噪处理,得到增强信号;
步骤S400、对增强信号进行语音活动检测,提取增强信号中的语音段作为待识别语音;
步骤S500、采用高斯混合优化模型对待识别语音信号进行匹配识别,得出说话人识别结果。
在一个示例性的实施例中,采用麦克风对50cm以外的说话人进行语音采样,保持使用同样的密闭环境。采用自适应滤波器对采集的语音进行滤波处理,用原信号减去估计的语音信号达到语音增强处理。对语音增强后的语音信号进行预处理,包括采样、量化、高频信号的预加重处理、进行对增强后的语音进行分帧,帧长取10~30ms,在乘上海明窗进行加窗处理。接着采用短时能量谱和短时过零率检测语音端点,以短时能量为主,以短时过零率为辅,去掉语音段中无声部分。本实施例采用时域估计法提取待识别语音信号的基音周期,所述时域估计法为:自相关法、并行处理法、平均幅度差法、数据减少法中任一种。
本实施例通过语音增强技术对说话人的识别语音信号进行一个初始处理,对要识别的语音信号进行增强,使要识别的语音能够有相对更好的质量,在复杂的环境中,也能够通过信号的增强提高对说话人身份的识别度,具有良好识别性能和抗噪能力。
在一个优选的实施例中,所述对输入信号进行A/D变换采样,得到输入信号的数字信号,具体为:
对输入信号进行均匀时间间隔采样,设采样点一共为N个,编号为n的语音采样值为x(n),通过高频预加重处理得到数字信号为y(n)=x(n)-ax(n-1),其中,a表示为权值,用于对采样得到的数字信号进行高频预加重处理。
在一个优选的实施例中,所述加窗处理具体为:
将分得的每一帧都乘上海明窗函数,海明窗函数表达式为:
W(n,α)=(1-α)-αcos(2*π*n/(N-1)),0≤n≤N-1,α=0.46。
所述对增强信号进行语音活动检测,具体为:
采用双门限法检测出增强信号的语音端点。
在一个优选的实施例中,所述采用高斯混合优化模型对待识别语音信号进行匹配识别,得出说话人识别结果,包括:
提取待识别语音信号的基音周期;
提取待识别语音中每一帧的梅尔倒谱系数,采用高斯混合优化模型分别计算语音声纹库中各个识别对象的后验概率(相似度),将最大后验概率的识别对象作为说话人识别结果。
在一个优选的实施例中,所述提取待识别语音信号的基音周期,具体为:
采用时域估计法提取待识别语音信号的基音周期,所述时域估计法为:自相关法、并行处理法、平均幅度差法、数据减少法中任一种。
在一个优选的实施例中,所述高斯混合优化模型具体通过以下方式训练得到:
获取识别对象的样本语音;
将样本语音的特征矢量作为输入,采用EM算法计算学习高斯混合模型,建立识别对象的语音声纹库;
当高斯混合模型的参数收敛于设定的阈值(本实施例取10-4)时,则迭代终止,得到最终的模型参数;
使用最终的模型参数对高斯混合模型进行更新,得到高斯混合优化模型。
在一个实施例中,所述高斯混合优化模型的训练步骤包括:
先获取样本语音集,对每一个说话人进行建模,每一个说话人的概率密度函数形式相同,不同的是函数中的参数,说话人模型则是在特定(高斯分布)概率密度函数形式下的一组参数,然后用高斯分布加权和逼近得到GMM模型。通过高斯混合优化模型的识别结果得出说话人识别结果。
梅尔倒谱系数的具体提取方法如下:
(1)将对语音前级放大、滤波、A/D变换、降噪处理、语音活动检测、分帧及加窗处理,得到用于提取特征参数的语音向量,对已经经过预处理的语音向量分别进行离散傅里叶变换(DFT),计算功率谱的周期图估计;
(2)将功率谱通过梅尔滤波器组,将每个滤波器的能量求和;
(3)对所有滤波器组能量取对数;
(4)对对数滤波器组能量作离散余弦变换(dis-crete cosine transform,DCT);
(5)保持DCT系数2-24,其余部分丢弃。
本实施例提供的技术方案可以在采样设备距离较远时对采集的语音有更好的信噪比,最终达到识别语音信号的增强与声纹识别进行结合,提高的识别度,具有良好识别性能和抗噪能力。
本发明实施例还提供一种基于自适应语音增强的说话人识别装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现上述的基于自适应语音增强的说话人识别方法的步骤。
可见,上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求,考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本公开的预定范围。此外,上文以发明人可预见的实施例对本公开进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。
Claims (8)
1.一种基于自适应语音增强的说话人识别方法,其特征在于,包括:
对待识别的语音信号进行前级放大、滤波,得到输入信号;
对输入信号进行A/D变换采样,得到输入信号的数字信号;
对所述数字信号进行分帧,对分帧后的数字信号依次进行加窗处理、FFT变换和降噪处理,得到增强信号;
对增强信号进行语音活动检测,提取增强信号中的语音段作为待识别语音;
采用高斯混合优化模型对待识别语音信号进行匹配识别,得出说话人识别结果。
2.根据权利要求1所述的一种基于自适应语音增强的说话人识别方法,其特征在于,所述对输入信号进行A/D变换采样,得到输入信号的数字信号,具体为:
对输入信号进行均匀时间间隔采样,设采样点一共为N个,编号为n的语音采样值为x(n),通过高频预加重处理得到数字信号为y(n)=x(n)-ax(n-1),其中,a表示为权值。
3.根据权利要求2所述的一种基于自适应语音增强的说话人识别方法,其特征在于,所述加窗处理具体为:
将分得的每一帧都乘上海明窗函数,海明窗函数表达式为:
W(n,α)=(1-α)-αcos(2*π*n/(N-1)),0≤n≤N-1,α=0.46。
4.根据权利要求1所述的一种基于自适应语音增强的说话人识别方法,其特征在于,所述对增强信号进行语音活动检测,具体为:
采用双门限法检测出增强信号的语音端点。
5.根据权利要求1所述的一种基于自适应语音增强的说话人识别方法,其特征在于,所述采用高斯混合优化模型对待识别语音信号进行匹配识别,得出说话人识别结果,包括:
提取待识别语音信号的基音周期;
提取待识别语音中每一帧的梅尔倒谱系数,采用高斯混合优化模型分别计算语音声纹库中各个识别对象的后验概率,将最大后验概率的识别对象作为说话人识别结果。
6.根据权利要求5所述的一种基于自适应语音增强的说话人识别方法,其特征在于,所述提取待识别语音信号的基音周期,具体为:
采用时域估计法提取待识别语音信号的基音周期,所述时域估计法为:自相关法、并行处理法、平均幅度差法、数据减少法中任一种。
7.根据权利要求1所述的一种基于自适应语音增强的说话人识别方法,其特征在于,所述高斯混合优化模型具体通过以下方式训练得到:
获取识别对象的样本语音;
将样本语音的特征矢量作为输入,采用EM算法计算学习高斯混合模型,建立识别对象的语音声纹库;
当高斯混合模型的参数收敛于设定的阈值时,则迭代终止,得到最终的模型参数;
使用最终的模型参数对高斯混合模型进行更新,得到高斯混合优化模型。
8.一种基于自适应语音增强的说话人识别装置,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于自适应语音增强的说话人识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010228147.1A CN111429922A (zh) | 2020-03-27 | 2020-03-27 | 一种基于自适应语音增强的说话人识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010228147.1A CN111429922A (zh) | 2020-03-27 | 2020-03-27 | 一种基于自适应语音增强的说话人识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111429922A true CN111429922A (zh) | 2020-07-17 |
Family
ID=71548981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010228147.1A Pending CN111429922A (zh) | 2020-03-27 | 2020-03-27 | 一种基于自适应语音增强的说话人识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429922A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN107705792A (zh) * | 2017-11-29 | 2018-02-16 | 宁波高新区锦众信息科技有限公司 | 一种基于声纹模型训练的机器人语音识别控制方法 |
CN108922541A (zh) * | 2018-05-25 | 2018-11-30 | 南京邮电大学 | 基于dtw和gmm模型的多维特征参数声纹识别方法 |
CN109961794A (zh) * | 2019-01-14 | 2019-07-02 | 湘潭大学 | 一种基于模型聚类的分层说话人识别方法 |
-
2020
- 2020-03-27 CN CN202010228147.1A patent/CN111429922A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN107705792A (zh) * | 2017-11-29 | 2018-02-16 | 宁波高新区锦众信息科技有限公司 | 一种基于声纹模型训练的机器人语音识别控制方法 |
CN108922541A (zh) * | 2018-05-25 | 2018-11-30 | 南京邮电大学 | 基于dtw和gmm模型的多维特征参数声纹识别方法 |
CN109961794A (zh) * | 2019-01-14 | 2019-07-02 | 湘潭大学 | 一种基于模型聚类的分层说话人识别方法 |
Non-Patent Citations (1)
Title |
---|
赵力: "《语音信号处理》", 31 May 2009, 北京:机械工业出版社,第288-289页 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103236260B (zh) | 语音识别系统 | |
CN105513605B (zh) | 手机麦克风的语音增强系统和语音增强方法 | |
JP5666444B2 (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
US20190172480A1 (en) | Voice activity detection systems and methods | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN109256127B (zh) | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 | |
CN112004177B (zh) | 一种啸叫检测方法、麦克风音量调节方法及存储介质 | |
Algabri et al. | Automatic speaker recognition for mobile forensic applications | |
CN112786059A (zh) | 一种基于人工智能的声纹特征提取方法及装置 | |
WO2019232833A1 (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
Al-Karawi et al. | Early reflection detection using autocorrelation to improve robustness of speaker verification in reverberant conditions | |
CN112951259A (zh) | 音频降噪方法、装置、电子设备及计算机可读存储介质 | |
Shabani et al. | Speech recognition using principal components analysis and neural networks | |
CN111899750A (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
Lim et al. | Classification of underwater transient signals using MFCC feature vector | |
Alam et al. | Robust feature extraction for speech recognition by enhancing auditory spectrum | |
CN112466276A (zh) | 一种语音合成系统训练方法、装置以及可读存储介质 | |
CN112233657A (zh) | 一种基于低频音节识别的语音增强方法 | |
CN116312561A (zh) | 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置 | |
Nijhawan et al. | A new design approach for speaker recognition using MFCC and VAD | |
Kamble et al. | Teager energy subband filtered features for near and far-field automatic speech recognition | |
CN111429922A (zh) | 一种基于自适应语音增强的说话人识别方法及装置 | |
Nataraj et al. | Single channel speech enhancement using adaptive filtering and best correlating noise identification | |
CN112908340A (zh) | 一种基于全局-局部加窗的声音特征快速提取方法 | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200717 |