CN111312259A - 声纹识别方法、系统、移动终端及存储介质 - Google Patents

声纹识别方法、系统、移动终端及存储介质 Download PDF

Info

Publication number
CN111312259A
CN111312259A CN202010097502.6A CN202010097502A CN111312259A CN 111312259 A CN111312259 A CN 111312259A CN 202010097502 A CN202010097502 A CN 202010097502A CN 111312259 A CN111312259 A CN 111312259A
Authority
CN
China
Prior art keywords
voiceprint
voice
wavelet
model
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010097502.6A
Other languages
English (en)
Other versions
CN111312259B (zh
Inventor
叶林勇
肖龙源
李稀敏
蔡振华
刘晓葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202010097502.6A priority Critical patent/CN111312259B/zh
Publication of CN111312259A publication Critical patent/CN111312259A/zh
Application granted granted Critical
Publication of CN111312259B publication Critical patent/CN111312259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Abstract

本发明提供了一种声纹识别方法、系统、移动终端及存储介质,该方法包括:获取训练集,对训练集进行小波去噪处理,并将去噪后的训练集输入模型训练池,以求解得到模型参数;根据模型参数对声纹模型进行模型训练;获取待测语音,对待测语音进行小波去噪处理,并对去噪后的待测语音进行特征提取,以得到语音特征;将语音特征输入声纹模型,并控制声纹模型对所述语音特征进行声纹匹配,以得到声纹识别结果。本发明通过对训练集和待识别语音进行小波去噪处理的设计,能有效的提升训练后的声纹模型的准确度,降低了背景环境噪声对声纹识别的影响,且有效的提高了同一语音或者不同语音片段在不同环境噪声下的识别准确率。

Description

声纹识别方法、系统、移动终端及存储介质
技术领域
本发明属于声纹识别技术领域,尤其涉及一种声纹识别方法、系统、移动终端及存储介质。
背景技术
每个人的声音都蕴涵着特有的生物特征,声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性,可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比,声纹识别的优势在于,声纹提取过程简单,成本低,且具有唯一性,不易伪造和假冒。
现有声纹识别方案是提前采集至少一个用户的语音数据,并对语音数据进行特征值提取,将提取到的特征值输入声纹模型得到N维声纹向量。后面在做确认或者识别的时候,先获取任意一个用户的语音数据,然后对语音数据提取特征值,将特征值输入声纹模型,得到N维声纹向量,再与声纹库里原有的声纹向量做相似度匹配,每匹配一个用户会得到一个分值,分值最高并且大于阈值的声纹为待测语音所对应的用户。但现有技术中,待测语音的背景环境噪声对声纹识别的准确率影响较大,进而导致现有的声纹识别准确率低下。
发明内容
本发明实施例的目的在于提供一种声纹识别方法、系统、移动终端及存储介质,旨在解决现有的声纹识别方法识别准确率低的问题。
本发明实施例是这样实现的,一种声纹识别方法,所述方法包括:
获取训练集,对所述训练集进行小波去噪处理,并将去噪后的所述训练集输入模型训练池进行计算,以求解得到模型参数;
根据所述模型参数对声纹模型进行模型训练;
获取待测语音,对所述待测语音进行所述小波去噪处理,并对去噪后的所述待测语音进行特征提取,以得到语音特征;
将所述语音特征输入所述声纹模型,并控制所述声纹模型对所述语音特征进行声纹匹配,以得到声纹识别结果。
更进一步的,所述对所述训练集进行小波去噪处理的步骤包括:
对所述训练集中的每个子集分别进行小波分解,以得到多个小波信号;
根据多个不同的预设频段对所述小波信号进行分类;
分别查询每个所述预设频段对应的去噪方式,并根据所述去噪方式对对应所述预设频段内的所述小波信号进行自适应去噪;
在每个所述预设频段中对自适应去噪后所述小波信号进行小波重构,并根据重构结果输出每个所述预设音频的小波重构信号;
将所述小波重构信号输入预设滤波器,以得到样本声纹特征。
更进一步的,所述在每个所述预设频段中对自适应去噪后所述小波信号进行小波重构的步骤之前,所述方法还包括:
对各个所述预设频段中所述小波信号的小波系数进行加权处理。
更进一步的,所述控制所述声纹模型对所述语音特征进行声纹匹配的步骤包括:
对所述语音特征进行向量转换,以得到特征向量;
将所述特征向量与本地预存储的声纹库中的样本向量依序进行比对,以得到多个比对值;
获取所述对比值中的最大值,并判断所述最大值是否大于或等于比对阈值;
当判断到所述最大值大于或等于所述比对阈值时,获取所述最大值对应的所述样本向量的用户标识,并将所述用户标识进行输出;
当判断到所述最大值小于所述对比阈值时,发出声纹识别错误提示。
更进一步的,所述特征向量与所述样本向量之间所采用的比对公式为欧式距离公式,所述欧式距离公式为:
Figure BDA0002385632070000031
更进一步的,所述小波分解所采用的实部分量计算公式为:
Figure BDA0002385632070000032
Figure BDA0002385632070000033
所述小波分解所采用的虚部分量计算公式为:
Figure BDA0002385632070000034
Figure BDA0002385632070000035
更进一步的,所述小波重构所采用的递推公式为:
Figure BDA0002385632070000036
本发明实施例的另一目的在于提供一种声纹识别系统,所述系统包括:
模型参数求解模块,用于获取训练集,对所述训练集进行小波去噪处理,并将去噪后的所述训练集输入模型训练池进行计算,以求解得到模型参数;
模型训练模块,用于根据所述模型参数对声纹模型进行模型训练;
特征提取模块,用于获取待测语音,对所述待测语音进行所述小波去噪处理,并对去噪后的所述待测语音进行特征提取,以得到语音特征;
声纹匹配模块,用于将所述语音特征输入所述声纹模型,并控制所述声纹模型对所述语音特征进行声纹匹配,以得到声纹识别结果。
本发明实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的声纹识别方法。
本发明实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的声纹识别方法的步骤。
本发明实施例,通过对训练集和待识别语音进行小波去噪处理的设计,能有效的提升训练后的声纹模型的准确度,降低了背景环境噪声对声纹识别的影响,且有效的提高了同一语音或者不同语音片段在不同环境噪声下的识别准确率。
附图说明
图1是本发明第一实施例提供的声纹识别方法的流程图;
图2是本发明第二实施例提供的声纹识别方法的流程图;
图3是本发明第三实施例提供的声纹识别系统的结构示意图;
图4是本发明第四实施例提供的移动终端的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,是本发明第一实施例提供的声纹识别方法的流程图,包括步骤:
步骤S10,获取训练集,对所述训练集进行小波去噪处理,并将去噪后的所述训练集输入模型训练池进行计算,以求解得到模型参数;
其中,该训练集中至少设有一个子集,该子集的数量和数据可以根据需求进行设置,该小波去噪处理用于对该训练集中的噪声数据进行降噪,具体的,该小波去噪处理所采用的去噪方式可以为:小波分解与重构法去噪、非线性小波变换阈值法去噪、平移不变量小波去噪或小波变换模极大值法去噪;
优选的,本实施例中,该模型训练池可以根据需求进行选择,该步骤中采用的是高斯混合(GMM)模型训练池,优选的,该步骤可以采用最大期望算法(EM)算法以进行该模型参数的求解,因此,该步骤中求解得到的是GMM模型参数,该GMM模型参数用于进行模型参数的设置;
步骤S20,根据所述模型参数对声纹模型进行模型训练;
步骤S30,获取待测语音,对所述待测语音进行所述小波去噪处理,并对去噪后的所述待测语音进行特征提取,以得到语音特征;
其中,对该待测语音的小波去噪处理与训练集的相同,且该步骤中可以通过采用MFCC算法的方式以提取该语音特征,以得到梅尔倒谱系数(Mel-scaleFrequency CepstralCoefficients);
具体的,该梅尔倒谱系数的提取方式包括:预加重-分帧-加窗-FFT处理-滤波器处理-对数运算-离散余弦变换,优选的,该步骤中可以通过将该去噪后的所述待测语音输入梅尔滤波器组,以得到该MFCC特征;
步骤S40,将所述语音特征输入所述声纹模型,并控制所述声纹模型对所述语音特征进行声纹匹配,以得到声纹识别结果;
其中,将MFCC特征输入GMM声纹模型,并通过控制该GMM声纹模型将该MFCC特征与本地的样本特征进行声纹匹配,以判断针对该MFCC特征在本地是否对应存在样本特征;
具体的,该步骤中,当判断到MFCC特征与样本特征声纹匹配成功时,则判定发出该待识别语音的用户与该样本特征对应的用户为同一用户;
本实施例,通过对训练集和待识别语音进行小波去噪处理的设计,能有效的提升训练后的声纹模型的准确度,降低了背景环境噪声对声纹识别的影响,且有效的提高了同一语音或者不同语音片段在不同环境噪声下的识别准确率。
实施例二
请参阅图2,是本发明第二实施例提供的声纹识别方法的流程图,包括步骤:
步骤S11,获取训练集,对所述训练集中的每个子集分别进行小波分解,以得到多个小波信号,并根据多个不同的预设频段对所述小波信号进行分类;
其中,小波的多分辨分析特性能将信号在不同尺度下进行多分辨率的分解,并将交织在一起的各种不同频率组成的混合信号分解成不同频段的子信号,因而对信号具有按频带处理的能力,因此,该步骤中能通过将训练集中的有效音频和噪声进行小波分解,并基于分解结果有效的方便了针对性的进行降噪,进而有效的对信号和噪声得到了简化,提高了收敛时间和去噪效果;
优选的,该步骤中,该预设频段的数量和频段范围的参数可以根据需求进行选择,且通过根据多个不同的预设频段对所述小波信号进行分类的设计,有效的方便了后续在各个频段分别进行数据的自适应去噪;
具体的,本实施例中,所述小波分解所采用的实部分量计算公式为:
Figure BDA0002385632070000061
Figure BDA0002385632070000062
所述小波分解所采用的虚部分量计算公式为:
Figure BDA0002385632070000063
Figure BDA0002385632070000064
此外,该步骤中可以根据需求进行小波和小波分解层数的选择,例如选择的是Symmlet8小波,小波分别层数为4层;
步骤S21,分别查询每个所述预设频段对应的去噪方式,并根据所述去噪方式对对应所述预设频段内的所述小波信号进行自适应去噪;
其中,本地设有去噪查询表,该去噪查询表中存储有多组不同预设频段与对应去噪方式之间的对应关系,该去噪方式可以采用函数或参数的方式进行滤波器的设置,以使针对性的对各个不同频段的音频数据进行去噪;
步骤S31,在每个所述预设频段中对自适应去噪后所述小波信号进行小波重构,并根据重构结果输出每个所述预设音频的小波重构信号;
其中,所述小波重构所采用的递推公式为:
Figure BDA0002385632070000071
具体的,该步骤中,所述在每个所述预设频段中对自适应去噪后所述小波信号进行小波重构的步骤之前,所述方法还包括:
对各个所述预设频段中所述小波信号的小波系数进行加权处理;
具体的,加权公式为:
akk
加权系数为a1,a2,a3...ak,k为预设频段数,a为可调系数,取值范围为0到1;
步骤S41,将所述小波重构信号输入预设滤波器,以得到样本声纹特征,并将所述样本声纹特征输入模型训练池,以求解得到模型参数;
其中,该预设滤波器可以为梅尔滤波器组,以使能得到对应的MFCC特征,并基于该MFCC特征采用EM算法以进行该模型参数的求解;
步骤S51,根据所述模型参数对声纹模型进行模型训练;
其中,该声纹识别模型可以根据需求进行选择,例如GMM声纹模型或UBM声纹模型等,当该步骤所采用的为UBM声纹模型时,则步骤S10中的模型训练池为UBM模型训练池,求解得到的为UBM模型参数;
具体的,该步骤中,GMM声纹模型的概率分布的形式为:
Figure BDA0002385632070000072
其中,α是系数,αk≥0,
Figure BDA0002385632070000081
φ(y|θk)φ(y|θk)是高斯分布;
θk=(μk,σ2k)θk=(μk,σk2),
Figure BDA0002385632070000082
为第k个高斯分布;
步骤S61,获取待测语音,对所述待测语音进行所述小波去噪处理,并对去噪后的所述待测语音进行特征提取,以得到语音特征;
其中,对所述待测语音进行所述小波去噪处理所采用的方式与训练集相同,以使将该待测语音中的有效语音和噪声进行频段分类,并基于频段分类结果对应进行自适应去噪处理;
步骤S71,将所述语音特征输入所述声纹模型,并控制所述声纹模型对所述语音特征进行声纹匹配,以得到声纹识别结果;
具体的,该步骤中,所述控制所述声纹模型对所述语音特征进行声纹匹配的步骤包括:
步骤S711,对所述语音特征进行向量转换,以得到特征向量;
其中,通对MFCC特征进行向量转换的设计,以输出得到256维的一阶向量;
步骤S712,将所述特征向量与本地预存储的声纹库中的样本向量依序进行比对,以得到多个比对值;
其中,所述特征向量与所述样本向量之间所采用的比对公式为欧式距离公式,所述欧式距离公式为:
Figure BDA0002385632070000083
其中,通过使用欧式距离公式将当前特征值(一阶向量)和声纹库已存在的特征值(样本向量)做1:N检索打分,以得到该比对值;
步骤S713,获取所述对比值中的最大值,并判断所述最大值是否大于或等于比对阈值;
其中,该比对阈值可以根据需求进行参数设置,例如该比对阈值可以为0.8、0.9或0.95等,该比对阈值用于判断该语音特征与本地预存储的样本特征是否一致;
步骤S714,当判断到所述最大值大于或等于所述比对阈值时,获取所述最大值对应的所述样本向量的用户标识,并将所述用户标识进行输出;
其中,该用户标识可以采用文字、数字、编号、图像或生物特征的方式进行存储,该用户标识用于指向对应用户,例如当采用文字的方式进行该用户标识的存储时,该用户标识可以为用户姓名,例如“张三”、“李四”等;
当采用编号的方式进行该用户标识的存储时,该用户标识可以为用户工号,当采用图像的方式进行该用户标识的存储时,该用户标识为用户的头像图片;
步骤S715,当判断到所述最大值小于所述对比阈值时,发出声纹识别错误提示;
本实施例中,通过对训练集和待识别语音进行小波去噪处理的设计,能有效的提升训练后的声纹模型的准确度,降低了背景环境噪声对声纹识别的影响,且有效的提高了同一语音或者不同语音片段在不同环境噪声下的识别准确率。
实施例三
请参阅图3,是本发明第三实施例提供的声纹识别系统100的结构示意图,包括:模型参数求解模块10、模型训练模块11、特征提取模块12和声纹匹配模块13,其中:
模型参数求解模块10,用于获取训练集,对所述训练集进行小波去噪处理,并将去噪后的所述训练集输入模型训练池进行计算,以求解得到模型参数。
其中,所述模型参数求解模块10还用于:对所述训练集中的每个子集分别进行小波分解,以得到多个小波信号;
根据多个不同的预设频段对所述小波信号进行分类;
分别查询每个所述预设频段对应的去噪方式,并根据所述去噪方式对对应所述预设频段内的所述小波信号进行自适应去噪;
在每个所述预设频段中对自适应去噪后所述小波信号进行小波重构,并根据重构结果输出每个所述预设音频的小波重构信号;
将所述小波重构信号输入预设滤波器,以得到样本声纹特征。
具体的,所述模型参数求解模块10中,所述小波分解所采用的实部分量计算公式为:
Figure BDA0002385632070000101
Figure BDA0002385632070000102
所述小波分解所采用的虚部分量计算公式为:
Figure BDA0002385632070000103
Figure BDA0002385632070000104
所述小波重构所采用的递推公式为:
Figure BDA0002385632070000105
优选的,所述模型参数求解模块10还用于:对各个所述预设频段中所述小波信号的小波系数进行加权处理。
模型训练模块11,用于根据所述模型参数对声纹模型进行模型训练。
特征提取模块12,用于获取待测语音,对所述待测语音进行所述小波去噪处理,并对去噪后的所述待测语音进行特征提取,以得到语音特征。
其中,对该待测语音的小波去噪处理与训练集的相同,且该模块中可以通过采用MFCC算法的方式以提取该语音特征,以得到梅尔倒谱系数;具体的,该梅尔倒谱系数的提取方式包括:预加重-分帧-加窗-FFT处理-滤波器处理-对数运算-离散余弦变换,优选的,该模块中可以通过将该去噪后的所述待测语音输入梅尔滤波器组,以得到该MFCC特征。
声纹匹配模块13,用于将所述语音特征输入所述声纹模型,并控制所述声纹模型对所述语音特征进行声纹匹配,以得到声纹识别结果,其中,将MFCC特征输入GMM声纹模型,并通过控制该GMM声纹模型将该MFCC特征与本地的样本特征进行声纹匹配,以判断针对该MFCC特征在本地是否对应存在样本特征;
具体的,该模块中,当判断到MFCC特征与样本特征声纹匹配成功时,则判定发出该待识别语音的用户与该样本特征对应的用户为同一用户。
本实施例中,所述声纹匹配模块13还用于:对所述语音特征进行向量转换,以得到特征向量;
将所述特征向量与本地预存储的声纹库中的样本向量依序进行比对,以得到多个比对值;
获取所述对比值中的最大值,并判断所述最大值是否大于或等于比对阈值;
当判断到所述最大值大于或等于所述比对阈值时,获取所述最大值对应的所述样本向量的用户标识,并将所述用户标识进行输出;
当判断到所述最大值小于所述对比阈值时,发出声纹识别错误提示。
优选的,所述声纹匹配模块13中,所述特征向量与所述样本向量之间所采用的比对公式为欧式距离公式,所述欧式距离公式为:
Figure BDA0002385632070000111
本实施例,通过对训练集和待识别语音进行小波去噪处理的设计,能有效的提升训练后的声纹模型的准确度,降低了背景环境噪声对声纹识别的影响,且有效的提高了同一语音或者不同语音片段在不同环境噪声下的识别准确率。
实施例四
请参阅图4,是本发明第四实施例提供的移动终端101,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端101执行上述的声纹识别方法。
本实施例还提供了一种存储介质,其上存储有上述移动终端101中所使用的计算机程序,该程序在执行时,包括如下步骤:
获取训练集,对所述训练集进行小波去噪处理,并将去噪后的所述训练集输入模型训练池进行计算,以求解得到模型参数;
根据所述模型参数对声纹模型进行模型训练;
获取待测语音,对所述待测语音进行所述小波去噪处理,并对去噪后的所述待测语音进行特征提取,以得到语音特征;
将所述语音特征输入所述声纹模型,并控制所述声纹模型对所述语音特征进行声纹匹配,以得到声纹识别结果。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,图3中示出的组成结构并不构成对本发明的声纹识别系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-2中的声纹识别方法亦采用图3中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标声纹识别系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序,其均可存储于所述目标声纹识别系统的存储设备(图未示)内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种声纹识别方法,其特征在于,所述方法包括:
获取训练集,对所述训练集进行小波去噪处理,并将去噪后的所述训练集输入模型训练池进行计算,以求解得到模型参数;
根据所述模型参数对声纹模型进行模型训练;
获取待测语音,对所述待测语音进行所述小波去噪处理,并对去噪后的所述待测语音进行特征提取,以得到语音特征;
将所述语音特征输入所述声纹模型,并控制所述声纹模型对所述语音特征进行声纹匹配,以得到声纹识别结果。
2.如权利要求1所述的声纹识别方法,其特征在于,所述对所述训练集进行小波去噪处理的步骤包括:
对所述训练集中的每个子集分别进行小波分解,以得到多个小波信号;
根据多个不同的预设频段对所述小波信号进行分类;
分别查询每个所述预设频段对应的去噪方式,并根据所述去噪方式对对应所述预设频段内的所述小波信号进行自适应去噪;
在每个所述预设频段中对自适应去噪后所述小波信号进行小波重构,并根据重构结果输出每个所述预设音频的小波重构信号;
将所述小波重构信号输入预设滤波器,以得到样本声纹特征。
3.如权利要求2所述的声纹识别方法,其特征在于,所述在每个所述预设频段中对自适应去噪后所述小波信号进行小波重构的步骤之前,所述方法还包括:
对各个所述预设频段中所述小波信号的小波系数进行加权处理。
4.如权利要求1所述的声纹识别方法,其特征在于,所述控制所述声纹模型对所述语音特征进行声纹匹配的步骤包括:
对所述语音特征进行向量转换,以得到特征向量;
将所述特征向量与本地预存储的声纹库中的样本向量依序进行比对,以得到多个比对值;
获取所述对比值中的最大值,并判断所述最大值是否大于或等于比对阈值;
当判断到所述最大值大于或等于所述比对阈值时,获取所述最大值对应的所述样本向量的用户标识,并将所述用户标识进行输出;
当判断到所述最大值小于所述对比阈值时,发出声纹识别错误提示。
5.如权利要求4所述的声纹识别方法,其特征在于,所述特征向量与所述样本向量之间所采用的比对公式为欧式距离公式,所述欧式距离公式为:
Figure FDA0002385632060000021
6.如权利要求2所述的声纹识别方法,其特征在于,所述小波分解所采用的实部分量计算公式为:
Figure FDA0002385632060000022
Figure FDA0002385632060000023
所述小波分解所采用的虚部分量计算公式为:
Figure FDA0002385632060000024
Figure FDA0002385632060000025
7.如权利要求2所述的声纹识别方法,其特征在于,所述小波重构所采用的递推公式为:
Figure FDA0002385632060000026
8.一种声纹识别系统,其特征在于,所述系统包括:
模型参数求解模块,用于获取训练集,对所述训练集进行小波去噪处理,并将去噪后的所述训练集输入模型训练池进行计算,以求解得到模型参数;
模型训练模块,用于根据所述模型参数对声纹模型进行模型训练;
特征提取模块,用于获取待测语音,对所述待测语音进行所述小波去噪处理,并对去噪后的所述待测语音进行特征提取,以得到语音特征;
声纹匹配模块,用于将所述语音特征输入所述声纹模型,并控制所述声纹模型对所述语音特征进行声纹匹配,以得到声纹识别结果。
9.一种移动终端,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至7任一项所述的声纹识别方法。
10.一种存储介质,其特征在于,其存储有权利要求9所述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现权利要求1至7任一项所述的声纹识别方法的步骤。
CN202010097502.6A 2020-02-17 2020-02-17 声纹识别方法、系统、移动终端及存储介质 Active CN111312259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010097502.6A CN111312259B (zh) 2020-02-17 2020-02-17 声纹识别方法、系统、移动终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010097502.6A CN111312259B (zh) 2020-02-17 2020-02-17 声纹识别方法、系统、移动终端及存储介质

Publications (2)

Publication Number Publication Date
CN111312259A true CN111312259A (zh) 2020-06-19
CN111312259B CN111312259B (zh) 2022-12-30

Family

ID=71161703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010097502.6A Active CN111312259B (zh) 2020-02-17 2020-02-17 声纹识别方法、系统、移动终端及存储介质

Country Status (1)

Country Link
CN (1) CN111312259B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259104A (zh) * 2020-10-10 2021-01-22 西南政法大学 一种声纹识别模型的训练装置
CN112767908A (zh) * 2020-12-29 2021-05-07 安克创新科技股份有限公司 基于关键声音识别的主动降噪方法、电子设备及存储介质
CN112908356A (zh) * 2021-01-19 2021-06-04 昆明理工大学 一种基于bse和gmm-hmm的埋地排水管道声纹识别方法
CN113077795A (zh) * 2021-04-06 2021-07-06 重庆邮电大学 一种通道注意力传播与聚合下的声纹识别方法
CN115662444A (zh) * 2022-12-14 2023-01-31 北京惠朗时代科技有限公司 基于人工智能的电子印章语音交互式应用方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936967A (zh) * 2005-09-20 2007-03-28 吴田平 声纹考勤机
WO2018149077A1 (zh) * 2017-02-16 2018-08-23 平安科技(深圳)有限公司 声纹识别方法、装置、存储介质和后台服务器
CN109256139A (zh) * 2018-07-26 2019-01-22 广东工业大学 一种基于Triplet-Loss的说话人识别方法
US20190066695A1 (en) * 2017-08-23 2019-02-28 Baidu Online Network Technology (Beijing) Co., Ltd Voiceprint registration method, server and storage medium
CN110335611A (zh) * 2019-07-15 2019-10-15 易诚高科(大连)科技有限公司 一种基于质量维度的声纹识别算法评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936967A (zh) * 2005-09-20 2007-03-28 吴田平 声纹考勤机
WO2018149077A1 (zh) * 2017-02-16 2018-08-23 平安科技(深圳)有限公司 声纹识别方法、装置、存储介质和后台服务器
US20190066695A1 (en) * 2017-08-23 2019-02-28 Baidu Online Network Technology (Beijing) Co., Ltd Voiceprint registration method, server and storage medium
CN109256139A (zh) * 2018-07-26 2019-01-22 广东工业大学 一种基于Triplet-Loss的说话人识别方法
CN110335611A (zh) * 2019-07-15 2019-10-15 易诚高科(大连)科技有限公司 一种基于质量维度的声纹识别算法评估方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259104A (zh) * 2020-10-10 2021-01-22 西南政法大学 一种声纹识别模型的训练装置
CN112259104B (zh) * 2020-10-10 2022-11-01 西南政法大学 一种声纹识别模型的训练装置
CN112767908A (zh) * 2020-12-29 2021-05-07 安克创新科技股份有限公司 基于关键声音识别的主动降噪方法、电子设备及存储介质
CN112908356A (zh) * 2021-01-19 2021-06-04 昆明理工大学 一种基于bse和gmm-hmm的埋地排水管道声纹识别方法
CN112908356B (zh) * 2021-01-19 2022-08-05 昆明理工大学 一种基于bse和gmm-hmm的埋地排水管道声纹识别方法
CN113077795A (zh) * 2021-04-06 2021-07-06 重庆邮电大学 一种通道注意力传播与聚合下的声纹识别方法
CN113077795B (zh) * 2021-04-06 2022-07-15 重庆邮电大学 一种通道注意力传播与聚合下的声纹识别方法
CN115662444A (zh) * 2022-12-14 2023-01-31 北京惠朗时代科技有限公司 基于人工智能的电子印章语音交互式应用方法及系统

Also Published As

Publication number Publication date
CN111312259B (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN111312259B (zh) 声纹识别方法、系统、移动终端及存储介质
Luo et al. A capsule network based approach for detection of audio spoofing attacks
Novoselov et al. STC anti-spoofing systems for the ASVspoof 2015 challenge
Fallah et al. A new online signature verification system based on combining Mellin transform, MFCC and neural network
US6038528A (en) Robust speech processing with affine transform replicated data
US6772119B2 (en) Computationally efficient method and apparatus for speaker recognition
CN109378002B (zh) 声纹验证的方法、装置、计算机设备和存储介质
WO2006024117A1 (en) Method for automatic speaker recognition
Zhang et al. X-tasnet: Robust and accurate time-domain speaker extraction network
CN1650349A (zh) 用于抗噪声语音识别的在线参数直方图正态化
CN111243603B (zh) 声纹识别方法、系统、移动终端及存储介质
CN110931022A (zh) 基于高低频动静特征的声纹识别方法
CN111816203A (zh) 基于音素级分析抑制音素影响的合成语音检测方法
CN111783939A (zh) 声纹识别模型训练方法、装置、移动终端及存储介质
CN113436646B (zh) 一种采用联合特征与随机森林的伪装语音检测方法
Wayman Digital signal processing in biometric identification: a review
CN111370000A (zh) 声纹识别算法评估方法、系统、移动终端及存储介质
Ghezaiel et al. Nonlinear multi-scale decomposition by EMD for Co-Channel speaker identification
Lin et al. A robust method for speech replay attack detection
CN111933147B (zh) 声纹识别方法、系统、移动终端及存储介质
Eshwarappa et al. Bimodal biometric person authentication system using speech and signature features
Thomsen et al. Speaker-Dependent Dictionary-Based Speech Enhancement for Text-Dependent Speaker Verification.
Kounoudes et al. POLYBIO: multimodal biometric data acquisition platform and security system
CN113571054B (zh) 语音识别信号预处理方法、装置、设备及计算机存储介质
Prabha et al. A Cutting-Edge Feature Extraction Approach for Speaker Recognition Leveraging Optimized Variance Spectral Flux and Daubechies Wavelet.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant