CN111524520A - 一种基于误差逆向传播神经网络的声纹识别方法 - Google Patents

一种基于误差逆向传播神经网络的声纹识别方法 Download PDF

Info

Publication number
CN111524520A
CN111524520A CN202010321963.7A CN202010321963A CN111524520A CN 111524520 A CN111524520 A CN 111524520A CN 202010321963 A CN202010321963 A CN 202010321963A CN 111524520 A CN111524520 A CN 111524520A
Authority
CN
China
Prior art keywords
neural network
voice signal
mel
voice
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010321963.7A
Other languages
English (en)
Inventor
宋永端
陈里蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Star Institute of Intelligent Systems
Original Assignee
Star Institute of Intelligent Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Star Institute of Intelligent Systems filed Critical Star Institute of Intelligent Systems
Priority to CN202010321963.7A priority Critical patent/CN111524520A/zh
Publication of CN111524520A publication Critical patent/CN111524520A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于误差逆向传播神经网络的声纹识别方法,其包括如下步骤:步骤1:采集已知说话人的语音信号,得到语音频谱图后对语音信号进行预处理,所述语音信号的预处理包括采样和量化、预加重、分帧加窗和端点检测;步骤2:采用美尔频率倒谱系数作为语音信号的特征参数,对预处理后的语音信号进行美尔频率倒谱系数提取;步骤3:建立BP神经网络,用步骤1所提取的美尔频率倒谱系数中的一部分训练BP神经网络;步骤4:采集待识别语音信号,根据步骤1的方法获得待识别语音信号的美尔频率倒谱系数,并将其输入步骤2训练好的BP神经网络进行识别,得出识别结果。本发明能有效的提升声纹识别的准确性和效率。

Description

一种基于误差逆向传播神经网络的声纹识别方法
技术领域
本发明涉及深度学习、模式识别、语音信号处理技术领域,特别涉及一种声纹识别方法。
背景技术
如今,我们的生活被人工智能技术所包围,信息量冗杂庞大,个人信息披露问题成为人们关注的焦点,如账号、密码、个人关键信息等。信息安全管理问题如果不能得到有效的保障会造成个人信息的走漏,进而会给企业甚至国家造成严重的经济损失,验证身份信息虚实的有效性是首要考虑的因素。随着信息技术的飞速发展,由字母和数字组成的密码不足以保护个人隐私,声纹识别对保护信息的隐私具有重要意义。语音是每个人特有的生物特征,相对于传统的验证方式有着方便、高效的特点,使用声音认证和识别,只允许被识别的人访问需要保护的信息系统或设施,以防止未经授权的人入侵。随着电子产品数据处理能力的日益提高和语音识别领域的长足进展,利用计算机通过语音识别话者身份的技术逐渐成熟,即声纹识别技术。
声纹识别技术作为语音信号处理学科一个重要的组成部分,完成好坏与否关乎着模式识别领域的成就。目前常用的用于声纹识别或者语音识别的声学特征为美尔频率倒谱系数(MelFrequencyCepstrum Cocfficicnt,MFCC),通常会选择采用Hamming窗来对已分帧信号加窗处理阻止频谱泄露现象,但这会导致方差变大稳定性变差。并且用于声纹识别训练的传统BP神经网络存在收敛速度慢、容易陷入局部极小值等缺陷。这些缺陷导致因此现有声纹识别技术在识别准确性和效率方面还存在不足。
发明内容
有鉴于此,本发明的目的一种基于误差逆向传播神经网络的声纹识别方法,以解决现有声纹识别的准确性和效率还有待提高的技术问题。
本发明基于误差逆向传播神经网络的声纹识别方法,其包括如下步骤:
步骤1:采集已知说话人的语音信号,得到语音频谱图后对语音信号进行预处理,所述语音信号的预处理包括采样和量化、预加重、分帧加窗和端点检测;
所述语音信号的预加重包括:
将经过采样与量化转换后的数字语音信号输入一阶高通滤波器,凸显语音信号的高频部分,所述一阶高通滤波器的传递函数为:
H(Z)=1-0.975Z-1
其中,Z为语音信号的频率;
所述语音信号的分帧加窗包括:
将连续语音信号拆分为多帧语音信号;
采用多正弦窗作为窗函数对已分帧信号进行加窗处理,所述多正弦窗为:
Figure BDA0002461759730000021
其中,N为语音信号的帧数,n=1,2,...,N,j表示窗的个数;
所述语音信号的端点检测包括:
采用短时能量方法和短时过零率方法将语音信号中的清浊音分开;
步骤2:采用美尔频率倒谱系数作为语音信号的特征参数,对预处理后的语音信号进行美尔频率倒谱系数提取,其包括如下步骤:
S1:将经过预处理的语音信号进行短时傅里叶变换,变换为频域,取模的平方得到离散功率谱:
Figure BDA0002461759730000022
其中,N为采样点数,j表示窗的个数;
S2:将线性频率f映射到美尔频率fmel上,
Figure BDA0002461759730000031
S3:通过美尔尺度滤波器组得到美尔功率频谱,
滤波器的频率响应为:
Figure BDA0002461759730000032
其中,f(m)为在Mel频率轴上的中心频率,M表示滤波器个数,
Figure BDA0002461759730000033
S4:通过对美尔功率频谱取对数的信号进行离散余弦变换获得美尔频率倒谱系数,
Figure BDA0002461759730000034
Figure BDA0002461759730000035
其中M为滤波器个数,L为美尔频率倒谱系数的阶数;
步骤3:建立BP神经网络,用步骤1所提取的美尔频率倒谱系数中的一部分训练BP神经网络;
步骤4:采集待识别语音信号,根据步骤1的方法获得待识别语音信号的美尔频率倒谱系数,并将其输入步骤2训练好的BP神经网络进行识别,得出识别结果。
进一步,所述步骤3中的BP神经网络,其权重变化算法为:
Figure BDA0002461759730000036
Δw()为权重变化,η为学习率,为α动量因子。
所述步骤1和4中还包括对采集到的待识别语音信号增加噪声进行数据增强,公式如下:
Figure BDA0002461759730000041
其中,SNR为信噪比,Psignal为信号功率,Pnoise为噪声功率。
本发明的有益效果:
1、目前常用的用于声纹识别或者语音识别的声学特征为美尔频率倒谱系数(MelFrequencyCepstrum Cocfficicnt,MFCC),通常会选择采用Hamming窗来对已分帧信号加窗处理阻止频谱泄露现象,但这会导致方差变大稳定性变差。考虑到这点,本发明基于误差逆向传播神经网络的声纹识别方法,其采用多正弦窗(Sinusoidal Window CepstralEstimator,SWCE)进行加窗处理得到多个频谱后求加权平均值,既可以减小噪声影响又降低了方差。
2、传统误差逆向传播(error BackPropagation,BP)神经网络存在收敛速度慢、容易陷入局部极小值等缺陷。本发明基于误差逆向传播神经网络的声纹识别方法,通过向BP神经网络引入动量因子,同时使用增加高斯噪声的方法进行数据增强达到防止过拟合目的,更大程度上改善了BP神经网络的劣势。
3、本发明基于误差逆向传播神经网络的声纹识别方法,通过对现有提取美尔频率倒谱系数的方法进行改进传统,对传统BP神经网络进行改进和对待识别声纹信号进行数据增强等措施,有效的提升了声纹识别的准确性和效率。
附图说明
图1为基于误差逆向传播神经网络的声纹识别分析框架示意图;
图2为完整的基于误差逆向传播神经网络的声纹识别算法流程图;
图3为提取MFCC特征参数的流程图;
图4为误差逆向传播神经网络算法流程图;
图5为识别模型总体结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步描述,以令本领域技术人员参照说明书文字能够据以实施。
本实施例基于误差逆向传播神经网络的声纹识别方法,其包括如下步骤:
步骤1:采集已知说话人的语音信号,得到语音频谱图后对语音信号进行预处理,所述语音信号的预处理包括采样和量化、预加重、分帧加窗和端点检测。
为了平衡声音获取过程产生的衰减对语音信号的影响,本实施例通过预加重对除噪声以外的信号中容易损失的高频部分进行加强,这样可以适当补足后续传输中的衰减,使声音频谱光滑缓和,提高信噪比。所述语音信号的预加重包括:
将经过采样与量化转换后的数字语音信号输入一阶高通滤波器,凸显语音信号的高频部分,所述一阶高通滤波器的传递函数为:
H(Z)=1-0.975Z-1
其中,Z为语音信号的频率。
本实施例中,语音信号的采样频率为44.1kHz,采样位数为16位,提取美尔频率倒谱系数(MFCC)参数时相应地取语音帧的帧长25ms,将连续语音信号以25ms的帧长拆分为多帧语音信号;为减少在信号两端处的预测误差,避免频谱中出现泄漏现象,采用多正弦窗作为窗函数对已分帧信号进行加窗处理,所述多正弦窗为:
Figure BDA0002461759730000051
其中,N为语音信号的帧数,n=1,2,...,N,j表示窗的个数。
说话人的语音中除了包括有效的语音片段外,往往还包括静音片段和浊音片段,会导致声纹识别准确率和效率的降低。利用端点检测准确的判断出语音信号的开始和终点,筛掉无效信号,能保证目标信号不受干扰,还可以大大缓解数据存储的压力和处理的强度,节约实际时间成本、提高识别率。
所述语音信号的端点检测包括:
采用短时能量方法和短时过零率方法将语音信号中的清浊音分开。
步骤2:采用美尔频率倒谱系数作为语音信号的特征参数,对预处理后的语音信号进行美尔频率倒谱系数提取,其包括如下步骤:
S1:将经过预处理的语音信号进行短时傅里叶变换(STFT,short-time Fouriertransform,或short-term Fourier transform),变换为频域,取模的平方得到离散功率谱(表示频率与能量的关系):
Figure BDA0002461759730000061
其中,N为采样点数,j表示窗的个数;
S2:将线性频率f映射到美尔频率fmel上,
Figure BDA0002461759730000062
S3:通过美尔尺度滤波器组得到美尔功率频谱,
滤波器的频率响应为:
Figure BDA0002461759730000063
其中,f(m)为在Mel频率轴上的中心频率,M表示滤波器个数,
Figure BDA0002461759730000064
S4:通过对美尔功率频谱取对数的信号进行离散余弦变换获得美尔频率倒谱系数,
Figure BDA0002461759730000065
Figure BDA0002461759730000066
其中M为滤波器个数,L为美尔频率倒谱系数的阶数。
步骤3:建立BP神经网络,本实施例中BP神经网络为3层网络结构,其包括输入层、隐含层和输出层,隐含层节点数目从[6,15]中获得,初始权值的选取范围在(-1,1),学习率通常设定在0.01到0.8之间,动量因子系数期望误差设定为0.01。用步骤1所提取的美尔频率倒谱系数中的一部分训练BP神经网络,具体过程如下所述:
对输入层与隐含层之间、隐含层与输出层之间的每个连接权值分别初始化为(-1,1)内的随机数,同时设定学习速率η为0.05。
随机选取一组输入和输出作为样本对,此时的输出即为网络的期望输出值。
根据式
Figure BDA0002461759730000071
可以计算隐含层数输入向量和输出向量。
其中θj为阈值,wij为权值,xi为网络输入,sj为神经元输入,bj为神经元输出,f()为激活函数。
使用上述中获得的隐藏层输出,然后通过与输出层之间的连接权值和阈值计算输出层中每个神经元的输入,再通过变换函数得到实际的的输出向量。
计算全局误差,计算输出层、隐含层误差。
更新网络节点的权值和阈值。
再从数据库中随机选取样本对作为网络的下一次输入数据,依次循环训练遍历所有样本。
反复对BP神经网络声纹识别系统训练,直到任意选取样本中的任意一个样本误差值满足要求时训练结束。此时系统已可以精确的识别说话人身份。
传统的BP算法中往往只看重最新梯度变化方向而忽略上一时刻梯度的方向,可能会导致在两个时刻之间重复训练来回震荡的现象发生,为解决这一问题,本实施例中建立的BP神经网络通过增加动量因子α来实时调整敏感度,加入动量因子后的公式为:
Figure BDA0002461759730000072
η为学习率,Δw()为权重变化。
步骤4:采集待识别语音信号,根据步骤1的方法获得待识别语音信号的美尔频率倒谱系数,并将其输入步骤2训练好的BP神经网络进行识别,当识别所述待测语音信号的实际输出等于期望输出时,判定发出该未知语音信号的人是对应的已知说话人,否则不是已知的说话人。
如果只为满足损失函数对最小化的盲目追求,则所建立的BP神经网络将面临过度拟合的问题,这类问题会出现在最后发生的高频特征中。为减小高频特征带来的影响,本实施例采用给原始数据增加噪声的手段进行数据增强,提高系统的泛化性和鲁棒性。公式如下:
Figure BDA0002461759730000081
其中,SNR为信噪比,Psignal为信号功率,Pnoise为噪声功率。
本实施例中基于误差逆向传播神经网络的声纹识别方法,提取了语音信号的特征参数,并通过改进的BP神经网络训练、识别,能够正确的识别说话人的身份,能有效的提升声纹识别的准确性和效率。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.一种基于误差逆向传播神经网络的声纹识别方法,其特征在于:包括如下步骤:
步骤1:采集已知说话人的语音信号,得到语音频谱图后对语音信号进行预处理,所述语音信号的预处理包括采样和量化、预加重、分帧加窗和端点检测;
所述语音信号的预加重包括:
将经过采样与量化转换后的数字语音信号输入一阶高通滤波器,凸显语音信号的高频部分,所述一阶高通滤波器的传递函数为:
H(Z)=1-0.975Z-1
其中,Z为语音信号的频率;
所述语音信号的分帧加窗包括:
将连续语音信号拆分为多帧语音信号;
采用多正弦窗作为窗函数对已分帧信号进行加窗处理,所述多正弦窗为:
Figure FDA0002461759720000011
其中,N为语音信号的帧数,n=1,2,...,N,j表示窗的个数;
所述语音信号的端点检测包括:
采用短时能量方法和短时过零率方法将语音信号中的清浊音分开.
步骤2:采用美尔频率倒谱系数作为语音信号的特征参数,对预处理后的语音信号进行美尔频率倒谱系数提取,其包括如下步骤:
S1:将经过预处理的语音信号进行短时傅里叶变换,变换为频域,取模的平方得到离散功率谱:
Figure FDA0002461759720000012
其中,N为采样点数,j表示窗的个数;
S2:将线性频率f映射到美尔频率fmel上,
Figure FDA0002461759720000021
S3:通过美尔尺度滤波器组得到美尔功率频谱,
滤波器的频率响应为:
Figure FDA0002461759720000022
其中,f(m)为在Mel频率轴上的中心频率,M表示滤波器个数,
Figure FDA0002461759720000023
S4:通过对美尔功率频谱取对数的信号进行离散余弦变换获得美尔频率倒谱系数,
Figure FDA0002461759720000024
Figure FDA0002461759720000025
其中M为滤波器个数,L为美尔频率倒谱系数的阶数;
步骤3:建立BP神经网络,用步骤1所提取的美尔频率倒谱系数中的一部分训练BP神经网络;
步骤4:采集待识别语音信号,根据步骤1的方法获得待识别语音信号的美尔频率倒谱系数,并将其输入步骤2训练好的BP神经网络进行识别,得出识别结果。
2.根据权利要求1所述的基于误差逆向传播神经网络的声纹识别方法,其特征在于:所述步骤3中的BP神经网络,其权重变化算法为:
Figure FDA0002461759720000026
Δw()为权重变化,η为学习率,为α动量因子。
所述步骤1和4中还包括对采集到的待识别语音信号增加噪声进行数据增强,公式如下:
Figure FDA0002461759720000031
其中,SNR为信噪比,Psignal为信号功率,Pnoise为噪声功率。
CN202010321963.7A 2020-04-22 2020-04-22 一种基于误差逆向传播神经网络的声纹识别方法 Pending CN111524520A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010321963.7A CN111524520A (zh) 2020-04-22 2020-04-22 一种基于误差逆向传播神经网络的声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010321963.7A CN111524520A (zh) 2020-04-22 2020-04-22 一种基于误差逆向传播神经网络的声纹识别方法

Publications (1)

Publication Number Publication Date
CN111524520A true CN111524520A (zh) 2020-08-11

Family

ID=71903835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010321963.7A Pending CN111524520A (zh) 2020-04-22 2020-04-22 一种基于误差逆向传播神经网络的声纹识别方法

Country Status (1)

Country Link
CN (1) CN111524520A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611291A (zh) * 2020-08-12 2021-11-05 广东电网有限责任公司 一种电力专业的语音识别算法
CN116573508A (zh) * 2023-07-13 2023-08-11 深圳市万物云科技有限公司 一种高分辨率电梯故障识别方法、装置及相关介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008751A (zh) * 2014-06-18 2014-08-27 周婷婷 一种基于bp神经网络的说话人识别方法
CN105160249A (zh) * 2015-07-02 2015-12-16 哈尔滨工程大学 一种基于改进的神经网络集成的病毒检测方法
CN105740761A (zh) * 2016-01-13 2016-07-06 许芳 一种弱信号目标检测的优化方法
CN107528649A (zh) * 2017-08-30 2017-12-29 华南师范大学 一种基于Bagging的认知无线电网络频谱的预测方法
CN108847244A (zh) * 2018-08-22 2018-11-20 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于mfcc和改进bp神经网络的声纹识别方法及系统
CN110718232A (zh) * 2019-09-23 2020-01-21 东南大学 一种基于二维语谱图和条件生成对抗网络的语音增强方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008751A (zh) * 2014-06-18 2014-08-27 周婷婷 一种基于bp神经网络的说话人识别方法
CN105160249A (zh) * 2015-07-02 2015-12-16 哈尔滨工程大学 一种基于改进的神经网络集成的病毒检测方法
CN105740761A (zh) * 2016-01-13 2016-07-06 许芳 一种弱信号目标检测的优化方法
CN107528649A (zh) * 2017-08-30 2017-12-29 华南师范大学 一种基于Bagging的认知无线电网络频谱的预测方法
CN108847244A (zh) * 2018-08-22 2018-11-20 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于mfcc和改进bp神经网络的声纹识别方法及系统
CN110718232A (zh) * 2019-09-23 2020-01-21 东南大学 一种基于二维语谱图和条件生成对抗网络的语音增强方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611291A (zh) * 2020-08-12 2021-11-05 广东电网有限责任公司 一种电力专业的语音识别算法
CN116573508A (zh) * 2023-07-13 2023-08-11 深圳市万物云科技有限公司 一种高分辨率电梯故障识别方法、装置及相关介质
CN116573508B (zh) * 2023-07-13 2023-10-10 深圳市万物云科技有限公司 一种高分辨率电梯故障识别方法、装置及相关介质

Similar Documents

Publication Publication Date Title
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN104978507B (zh) 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN102968990B (zh) 说话人识别方法和系统
CN108597505B (zh) 语音识别方法、装置及终端设备
CN1170239C (zh) 掌上声纹验证方法
WO1998038632A1 (en) Method and system for establishing handset-dependent normalizing models for speaker recognition
CA2492204A1 (en) Similar speaking recognition method and system using linear and nonlinear feature extraction
CN111261147A (zh) 一种面向语音识别系统的音乐嵌入攻击防御方法
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
Wickramasinghe et al. Frequency Domain Linear Prediction Features for Replay Spoofing Attack Detection.
CN105679312A (zh) 一种噪声环境下声纹识别的语音特征处理方法
CN112735435A (zh) 具备未知类别内部划分能力的声纹开集识别方法
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN111524520A (zh) 一种基于误差逆向传播神经网络的声纹识别方法
KR100779242B1 (ko) 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법
Goh et al. Robust computer voice recognition using improved MFCC algorithm
Singh et al. Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition
CN116386664A (zh) 一种语音伪造检测方法、装置、系统及存储介质
Chandra et al. Spectral-subtraction based features for speaker identification
Wang et al. Robust Text-independent Speaker Identification in a Time-varying Noisy Environment.
Piotrowski et al. Subscriber authentication using GMM and TMS320C6713DSP
Huang et al. Robust Speech Perception Hashing Authentication Algorithm Based on Spectral Subtraction and Multi-feature Tensor.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200811

RJ01 Rejection of invention patent application after publication