CN115862634A - 一种声纹识别方法及嵌入式装置 - Google Patents

一种声纹识别方法及嵌入式装置 Download PDF

Info

Publication number
CN115862634A
CN115862634A CN202211666089.6A CN202211666089A CN115862634A CN 115862634 A CN115862634 A CN 115862634A CN 202211666089 A CN202211666089 A CN 202211666089A CN 115862634 A CN115862634 A CN 115862634A
Authority
CN
China
Prior art keywords
voiceprint
voiceprint recognition
voice data
data set
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211666089.6A
Other languages
English (en)
Inventor
李广明
张红良
陈倩
陈毅轩
陈林豪
余晨晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dianrui Intelligent Dongguan Technology Co ltd
Dongguan University of Technology
Original Assignee
Dianrui Intelligent Dongguan Technology Co ltd
Dongguan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dianrui Intelligent Dongguan Technology Co ltd, Dongguan University of Technology filed Critical Dianrui Intelligent Dongguan Technology Co ltd
Priority to CN202211666089.6A priority Critical patent/CN115862634A/zh
Publication of CN115862634A publication Critical patent/CN115862634A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种声纹识别方法及嵌入式装置,方法包括以下步骤:S1:获取语音数据集并提取特征矩阵,划分为训练数据集和测试数据集;S2:随机抽取若干语音数据生成子数据集;S3:优化声纹识别模型,得到优化后的声纹识别模型;S4:训练优化后的声纹识别模型,得到训练好的声纹识别模型;S5:对训练好的声纹识别模型进行测试,得到最佳声纹识别阈值;提取声纹特征,计算声纹特征和对比声纹特征之间的余弦相似度;S6:根据余弦相似度和最佳声纹识别阈值得到声纹识别结果。本发明提供一种声纹识别方法及嵌入式装置,解决了目前用于嵌入式设备的深度神经网络难以在资源受限的嵌入式设备取得较高的识别准确度的问题。

Description

一种声纹识别方法及嵌入式装置
技术领域
本发明涉及声纹识别技术领域,更具体的,涉及一种声纹识别方法及嵌入式装置。
背景技术
声纹识别技术是一种借助于声音完成对用户身份信息确认的技术,是语音识别领域的重点研究方向之一。伴随着科学技术的不断进步及人工智能领域的蓬勃发展,声纹识别近年来得到了很大的发展,又由于通过声纹识别技术进行身份验证,对比于人脸识别和指纹识别,在准确性和安全性上都有所提升,且方便快捷,使其已然成为一种高效的身份识别方法,广泛应用于公安、银行、智能家居行业。
嵌入式人工智能,是一种将人工智能算法应用于终端设备上的技术概念,使各种设备能够在不联网的情况下完成环境感知、人机交互等功能。采用深度神经网络模型提取声纹特征逐渐成为当前声纹识别的主流技术。随着声纹识别技术的广泛应用,在嵌入式设备上进行声纹识别正成为声纹识别技术的主流趋势,嵌入式设备逐渐成为声纹识别技术的主要载体。
但目前用于嵌入式设备的声纹识别技术对计算能力和资源都有非常高的要求,使用成本极高,难以在资源受限的嵌入式设备取得较高的识别准确度。
发明内容
本发明为克服目前用于嵌入式设备的深度神经网络难以在资源受限的嵌入式设备取得较高的识别准确度的技术缺陷,提供一种声纹识别方法及嵌入式装置。
为解决上述技术问题,本发明的技术方案如下:
一种声纹识别方法,包括以下步骤:
S1:获取带人物标签的语音数据集,并提取其中语音数据的特征矩阵,根据人物标签划分为训练数据集和测试数据集;
S2:从训练数据集中随机抽取若干语音数据,生成子数据集;
S3:通过群体智能优化算法利用子数据集优化预构建的声纹识别模型,得到优化后的声纹识别模型;
S4:利用训练数据集训练优化后的声纹识别模型,得到训练好的声纹识别模型;
S5:利用测试数据集对训练好的声纹识别模型进行测试,得到最佳声纹识别阈值;
利用训练好的声纹识别模型提取待识别语音数据的声纹特征,计算待识别语音数据的声纹特征和预获取的对比声纹特征之间的余弦相似度;
S6:根据余弦相似度和最佳声纹识别阈值得到声纹识别结果。
上述方案中,通过群体智能优化算法优化的声纹识别模型可根据训练数据集的不同及时对模型参数进行调整,以得到适应于当前数据的最佳模型,即可以根据嵌入式设备采集的数据重新训练出更加合适的模型,降低资源需求,在资源受限的嵌入式设备中实现声纹识别;同时通过测试数据集测试出训练好的声纹识别模型的最佳声纹识别阈值,根据余弦相似度和最佳声纹识别阈值得到声纹识别结果,模拟真实场景,进一步提高了在未知场景下的识别准确性。
优选的,测试数据集中的人物标签与训练数据集中的人物标签不同。
上述方案中,通过根据人物标签对语音数据集进行划分,避免训练数据集中出现测试数据集中的人物语音特征,降低无关数据对声纹识别模型的影响,提高在真实环境中对未知声纹识别的准确性。
优选的,提取语音数据的特征矩阵包括以下步骤:
S1.1:通过语音活性检测去除语音数据中的静默音;
S1.2:通过梅尔倒谱系数的提取方法提取语音数据的特征矩阵。
优选的,在步骤S1中,还包括在训练数据集的各语音数据中分别添加背景噪声、电子干扰声、混响中的任意一种或多种。
优选的,所述群体智能优化算法为粒子群优化算法。
优选的,采用余弦退火算法训练优化后的声纹识别模型;采用加性角度间隔损失函数作为训练优化后的声纹识别模型的损失函数。
优选的,通过以下步骤得到最佳声纹识别阈值:
利用训练好的声纹识别模型提取测试数据集中各语音数据的声纹特征,设置声纹识别阈值从0到1,且以步长s进行以下迭代:
计算测试数据集中两两声纹特征之间的余弦相似度,并与当前的声纹识别阈值进行比较;
若两个声纹特征间的余弦相似度大于当前的声纹识别阈值,则识别对应的两个语音数据属于同一人物,即为正样本,在正样本中,若两个语音数据的人物标签相同则表示识别正确,否则识别错误;
若两个声纹特征间的余弦相似度小于或等于当前的声纹识别阈值,则识别对应的两个语音数据属于不同人物,即为负样本,在负样本中,若两个语音数据的人物标签相同则表示识别错误,否则识别正确;
得到当前的声纹识别阈值下正负样本的识别准确率;
判断当前的声纹识别阈值是否为1,若是,迭代结束,若否,令当前的声纹识别阈值增加一个步长后继续迭代;
迭代结束后,将正负样本的识别准确率取得最大值时对应的声纹识别阈值作为最佳声纹识别阈值。
优选的,所述声纹识别为声纹对比;
若余弦相似度大于最佳声纹识别阈值,则得到声纹识别结果为同一人物;若余弦相似度小于或等于最佳声纹识别阈值,则得到声纹识别结果为不同人物。
优选的,所述声纹识别为声纹辨认;
将与待识别语音数据的声纹特征的余弦相似度最高的对比声纹特征的人物标签作为声纹识别结果。
本发明基于所述的一种声纹识别方法,还提出了一种声纹识别嵌入式装置,包括:
采集模块,用于采集待识别语音数据;
处理模块,用于加载训练好的声纹识别模型来提取待识别语音数据的声纹特征,从声纹库获取对比声纹特征,计算待识别语音数据的声纹特征和对比声纹特征之间的余弦相似度,根据余弦相似度和最佳声纹识别阈值得到声纹识别结果;
声纹库,用于存储对比声纹特征及其人物标签。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供了一种声纹识别方法及嵌入式装置,通过群体智能优化算法优化的声纹识别模型可根据训练数据集的不同及时对模型参数进行调整,以得到适应于当前数据的最佳模型,即可以根据嵌入式设备采集的数据重新训练出更加合适的模型,降低资源需求,在资源受限的嵌入式设备中实现声纹识别;同时通过测试数据集测试出训练好的声纹识别模型的最佳声纹识别阈值,根据余弦相似度和最佳声纹识别阈值得到声纹识别结果,模拟真实场景,进一步提高了在未知场景下的识别准确性。
附图说明
图1为本发明的技术方案实施步骤流程图;
图2为本发明中声纹识别嵌入式装置的工作流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种声纹识别方法,包括以下步骤:
S1:获取带人物标签的语音数据集,并提取其中语音数据的特征矩阵,根据人物标签划分为训练数据集和测试数据集;
S2:从训练数据集中随机抽取若干语音数据,生成子数据集;
S3:通过群体智能优化算法利用子数据集优化预构建的声纹识别模型,得到优化后的声纹识别模型;
S4:利用训练数据集训练优化后的声纹识别模型,得到训练好的声纹识别模型;
S5:利用测试数据集对训练好的声纹识别模型进行测试,得到最佳声纹识别阈值;
利用训练好的声纹识别模型提取待识别语音数据的声纹特征,计算待识别语音数据的声纹特征和预获取的对比声纹特征之间的余弦相似度;
S6:根据余弦相似度和最佳声纹识别阈值得到声纹识别结果。
在具体实施过程中,通过群体智能优化算法优化的声纹识别模型可根据训练数据集的不同及时对模型参数进行调整,以得到适应于当前数据的最佳模型,即可以根据嵌入式设备采集的数据重新训练出更加合适的模型,降低资源需求,在资源受限的嵌入式设备中实现声纹识别;同时通过测试数据集测试出训练好的声纹识别模型的最佳声纹识别阈值,根据余弦相似度和最佳声纹识别阈值得到声纹识别结果,模拟真实场景,进一步提高了在未知场景下的识别准确性。
实施例2
一种声纹识别方法,包括以下步骤:
S1:获取带人物标签的语音数据集,并提取其中语音数据的特征矩阵,根据人物标签划分为训练数据集和测试数据集;
更具体的,提取语音数据的特征矩阵包括以下步骤:
S1.1:通过语音活性检测去除语音数据中的静默音;
S1.2:通过梅尔倒谱系数的提取方法提取语音数据的特征矩阵。
在具体实施过程中,采用梅尔倒谱系数的提取方法,提取语音数据的特征矩阵,所提取的特征矩阵维度设为N,其中N是正整数。梅尔倒谱系数是组成梅尔频率倒谱的系数,它衍生自音讯片段的倒频谱,是一种在自动语音和说话人识别中广泛使用的特征。
更具体的,测试数据集中的人物标签与训练数据集中的人物标签不同。
在具体实施过程中,通过根据人物标签对语音数据集进行划分,避免训练数据集中出现测试数据集中的人物语音特征,降低无关数据对声纹识别模型的影响,提高在真实环境中对未知声纹识别的准确性。语音数据集,又称声纹识别语音数据集,是全量声纹识别语音数据集,现有的有ZhVoice、CN-Celeb、VoxCeleb等数据集,本实施例采用ZhVoice数据集。按照8:2的比例进行分割,训练数据集占80%,测试数据集占20%。
更具体的,在步骤S1中,还包括在训练数据集的各语音数据中分别添加背景噪声、电子干扰声、混响中的任意一种或多种。
S2:从训练数据集中随机抽取若干语音数据,生成子数据集;
S3:通过群体智能优化算法利用子数据集优化预构建的声纹识别模型,得到优化后的声纹识别模型;
在具体实施过程中,群体智能优化算法(Swarm Intelligence OptimizationAlgorithm)是计算智能中的一种常用算法,其基本理论是模拟自然界中鱼群、鸟群、蜂群、狼群和细菌群等动物群体的行为,利用群体间的信息交流与合作,通过简单有限的个体间互动来达到优化的目的。群体系统往往并没有复杂精细的内部设计,但基于简单的个体与规则,它们具有更强的鲁棒性、稳定性和适应性。群体智能方法处理的最典型问题就是优化问题。其寻优速度更快,能更有效地搜索复杂优化问题的全局最优解。
声纹识别模型部署于嵌入式设备中,需要轻量级模型和较快的响应速度。本实施例中优选MobileNet模型作为声纹特征提取的主干网络。MobileNet网络中的深度可分离卷积能够极大的降低计算的参数量,同时可以通过MobileNet内部的两个超参数α和ρ来进一步对模型进行瘦身,其中α表示按照比例减少深度可分离卷积通道数,其取值范围为(0,1],ρ表示按照比例降低特征图的大小,其取值范围为(0,1],在嵌入式设备中,可以通过对α,ρ两个参数取值的控制实现模型参数与结构的改变。
更具体的,所述群体智能优化算法为粒子群优化算法。
在具体实施过程中,使用粒子群优化算法优化的参数包括:α表示调整模型中卷积操作的通道数,ρ表示调整模型的特征图大小,r表示模型初始学习率,I表示模型初始输入的特征图大小。由于α,ρ,I的变换会导致模型整体结构的变换,因此本实施例中采用粒子群优化算法进迭代时,操作步骤包括以下步骤:
首先,将α,ρ,I进行固定,在第一训练数据集上对r进行迭代,其中r∈[0.25,0.005],获得最佳初始学习率r;
然后,固定最佳学习率r,迭代模型输入维度I,其中I表示输入模型的特征矩阵的维度,I∈[256,512];将通过梅尔倒谱系数方法所提取的语音数据的特征矩阵作为声纹识别模型的输入,使用随机裁剪的方法将特征矩阵的维度裁剪为I;
最后,固定最佳学习率r和模型输入维度I,对调整模型结构的参数α,ρ进行迭代优化,在迭代过程中设置每N轮训练调整一次α,ρ,其中N为正整数。
S4:利用训练数据集训练优化后的声纹识别模型,得到训练好的声纹识别模型;
更具体的,采用余弦退火算法训练优化后的声纹识别模型;采用加性角度间隔损失函数(ArcFace loss)作为训练优化后的声纹识别模型的损失函数。
在具体实施过程中,采用余弦退火算法周期性调整学习率,能够避免陷入局部最优,增强模型的拟合性能。
S5:利用测试数据集对训练好的声纹识别模型进行测试,得到最佳声纹识别阈值;
更具体的,通过以下步骤得到最佳声纹识别阈值:
利用训练好的声纹识别模型提取测试数据集中各语音数据的声纹特征,设置声纹识别阈值从0到1,且以步长s(本实施例中s=0.01)进行以下迭代:
计算测试数据集中两两声纹特征之间的余弦相似度,并与当前的声纹识别阈值进行比较;
若两个声纹特征间的余弦相似度大于当前的声纹识别阈值,则识别对应的两个语音数据属于同一人物,即为正样本,在正样本中,若两个语音数据的人物标签相同则表示识别正确,否则识别错误;
若两个声纹特征间的余弦相似度小于或等于当前的声纹识别阈值,则识别对应的两个语音数据属于不同人物,即为负样本,在负样本中,若两个语音数据的人物标签相同则表示识别错误,否则识别正确;
得到当前的声纹识别阈值下正负样本的识别准确率;
判断当前的声纹识别阈值是否为1,若是,迭代结束,若否,令当前的声纹识别阈值增加一个步长后继续迭代;
迭代结束后,将正负样本的识别准确率取得最大值时对应的声纹识别阈值作为最佳声纹识别阈值。
利用训练好的声纹识别模型提取待识别语音数据的声纹特征,计算待识别语音数据的声纹特征和预获取的对比声纹特征之间的余弦相似度;
S6:根据余弦相似度和最佳声纹识别阈值得到声纹识别结果。
更具体的,所述声纹识别为声纹对比;
若余弦相似度大于最佳声纹识别阈值,则得到声纹识别结果为同一人物;若余弦相似度小于或等于最佳声纹识别阈值,则得到声纹识别结果为不同人物。
实施例3
一种声纹识别方法,包括以下步骤:
S1:获取带人物标签的语音数据集,并提取其中语音数据的特征矩阵,根据人物标签划分为训练数据集和测试数据集;
更具体的,提取语音数据的特征矩阵包括以下步骤:
S1.1:通过语音活性检测去除语音数据中的静默音;
S1.2:通过梅尔倒谱系数的提取方法提取语音数据的特征矩阵。
更具体的,测试数据集中的人物标签与训练数据集中的人物标签不同。
在具体实施过程中,通过根据人物标签对语音数据集进行划分,避免训练数据集中出现测试数据集中的人物语音特征,降低无关数据对声纹识别模型的影响,提高在真实环境中对未知声纹识别的准确性。
更具体的,在步骤S1中,还包括在训练数据集的各语音数据中分别添加背景噪声、电子干扰声、混响中的任意一种或多种。
S2:从训练数据集中随机抽取若干语音数据,生成子数据集;
S3:通过群体智能优化算法利用子数据集优化预构建的声纹识别模型,得到优化后的声纹识别模型;
更具体的,所述群体智能优化算法为粒子群优化算法。
S4:利用训练数据集训练优化后的声纹识别模型,得到训练好的声纹识别模型;
更具体的,采用余弦退火算法训练优化后的声纹识别模型;采用加性角度间隔损失函数作为训练优化后的声纹识别模型的损失函数。
S5:利用测试数据集对训练好的声纹识别模型进行测试,得到最佳声纹识别阈值;
更具体的,通过以下步骤得到最佳声纹识别阈值:
利用训练好的声纹识别模型提取测试数据集中各语音数据的声纹特征,设置声纹识别阈值从0到1,且以步长s(本实施例中s=0.01)进行以下迭代:
计算测试数据集中两两声纹特征之间的余弦相似度,并与当前的声纹识别阈值进行比较;
若两个声纹特征间的余弦相似度大于当前的声纹识别阈值,则识别对应的两个语音数据属于同一人物,即为正样本,在正样本中,若两个语音数据的人物标签相同则表示识别正确,否则识别错误;
若两个声纹特征间的余弦相似度小于或等于当前的声纹识别阈值,则识别对应的两个语音数据属于不同人物,即为负样本,在负样本中,若两个语音数据的人物标签相同则表示识别错误,否则识别正确;
得到当前的声纹识别阈值下正负样本的识别准确率;
判断当前的声纹识别阈值是否为1,若是,迭代结束,若否,令当前的声纹识别阈值增加一个步长后继续迭代;
迭代结束后,将正负样本的识别准确率取得最大值时对应的声纹识别阈值作为最佳声纹识别阈值。
利用训练好的声纹识别模型提取待识别语音数据的声纹特征,计算待识别语音数据的声纹特征和预获取的对比声纹特征之间的余弦相似度;
S6:根据余弦相似度和最佳声纹识别阈值得到声纹识别结果。
更具体的,所述声纹识别为声纹辨认;
将与待识别语音数据的声纹特征的余弦相似度最高的对比声纹特征的人物标签作为声纹识别结果。
实施例4
本发明基于所述的一种声纹识别方法,还提出了一种声纹识别嵌入式装置,包括:
采集模块,用于采集待识别语音数据;
处理模块,用于加载训练好的声纹识别模型来提取待识别语音数据的声纹特征,从声纹库获取对比声纹特征,计算待识别语音数据的声纹特征和对比声纹特征之间的余弦相似度,根据余弦相似度和预设的最佳声纹识别阈值得到声纹识别结果;
声纹库,用于存储对比声纹特征及其人物标签。
在具体实施过程中,预先收集注册语音数据,通过梅尔倒谱系数方法提取特征矩阵,利用训练好的声纹识别模型获取所有注册语音数据的声纹特征,注册语音数据对应的人物标签是已知的。以声纹识别模型倒数第二个全连接层的输出向量作为声纹特征。最后,将声纹特征注册,作为对比声纹特征存储在声纹库中,并标记人物标签。
如图2所示,通过采集模块(如麦克风)接收待识别语音信息,由处理模块通过声纹识别模型提取待识别语音的声纹特征,然后计算待识别语音的声纹特征与声纹库中声纹特征的相似度;
判断相似度是否大于预设的最佳声纹识别阈值,
若相似度大于预设的最佳声纹识别阈值,则通过一输出模块输出对应的用户名称,结束本次流程;
若相似度小于或等于预设的最佳声纹识别阈值时,通过用户选择是否将当前声纹特征作为对比声纹特征存储在声纹库中,若加入,则在声纹库中添加该声纹特征信息及其对应的用户标签,并通过一输出模块输出新加入的用户名称,结束本次流程;若不加入,直接结束本次流程。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种声纹识别方法,其特征在于,包括以下步骤:
S1:获取带人物标签的语音数据集,并提取其中语音数据的特征矩阵,根据人物标签划分为训练数据集和测试数据集;
S2:从训练数据集中随机抽取若干语音数据,生成子数据集;
S3:通过群体智能优化算法利用子数据集优化预构建的声纹识别模型,得到优化后的声纹识别模型;
S4:利用训练数据集训练优化后的声纹识别模型,得到训练好的声纹识别模型;
S5:利用测试数据集对训练好的声纹识别模型进行测试,得到最佳声纹识别阈值;
利用训练好的声纹识别模型提取待识别语音数据的声纹特征,计算待识别语音数据的声纹特征和预获取的对比声纹特征之间的余弦相似度;
S6:根据余弦相似度和最佳声纹识别阈值得到声纹识别结果。
2.根据权利要求1所述的一种声纹识别方法,其特征在于,测试数据集中的人物标签与训练数据集中的人物标签不同。
3.根据权利要求1所述的一种声纹识别方法,其特征在于,提取语音数据的特征矩阵包括以下步骤:
S1.1:通过语音活性检测去除语音数据中的静默音;
S1.2:通过梅尔倒谱系数的提取方法提取语音数据的特征矩阵。
4.根据权利要求1所述的一种声纹识别方法,其特征在于,在步骤S1中,还包括在训练数据集的各语音数据中分别添加背景噪声、电子干扰声、混响中的任意一种或多种。
5.根据权利要求1所述的一种声纹识别方法,其特征在于,所述群体智能优化算法为粒子群优化算法。
6.根据权利要求1所述的一种声纹识别方法,其特征在于,采用余弦退火算法训练优化后的声纹识别模型;采用加性角度间隔损失函数作为训练优化后的声纹识别模型的损失函数。
7.根据权利要求1所述的一种声纹识别方法,其特征在于,通过以下步骤得到最佳声纹识别阈值:
利用训练好的声纹识别模型提取测试数据集中各语音数据的声纹特征,设置声纹识别阈值从0到1,且以步长s进行以下迭代:
计算测试数据集中两两声纹特征之间的余弦相似度,并与当前的声纹识别阈值进行比较;
若两个声纹特征间的余弦相似度大于当前的声纹识别阈值,则识别对应的两个语音数据属于同一人物,即为正样本,在正样本中,若两个语音数据的人物标签相同则表示识别正确,否则识别错误;
若两个声纹特征间的余弦相似度小于或等于当前的声纹识别阈值,则识别对应的两个语音数据属于不同人物,即为负样本,在负样本中,若两个语音数据的人物标签相同则表示识别错误,否则识别正确;
得到当前的声纹识别阈值下正负样本的识别准确率;
判断当前的声纹识别阈值是否为1,若是,迭代结束,若否,令当前的声纹识别阈值增加一个步长后继续迭代;
迭代结束后,将正负样本的识别准确率取得最大值时对应的声纹识别阈值作为最佳声纹识别阈值。
8.根据权利要求1所述的一种声纹识别方法,其特征在于,所述声纹识别为声纹对比;
若余弦相似度大于最佳声纹识别阈值,则得到声纹识别结果为同一人物;若余弦相似度小于或等于最佳声纹识别阈值,则得到声纹识别结果为不同人物。
9.根据权利要求1所述的一种声纹识别方法,其特征在于,所述声纹识别为声纹辨认;
将与待识别语音数据的声纹特征的余弦相似度最高的对比声纹特征的人物标签作为声纹识别结果。
10.一种声纹识别嵌入式装置,其特征在于,包括:
采集模块,用于采集待识别语音数据;
处理模块,用于加载训练好的声纹识别模型来提取待识别语音数据的声纹特征,从声纹库获取对比声纹特征,计算待识别语音数据的声纹特征和对比声纹特征之间的余弦相似度,根据余弦相似度和最佳声纹识别阈值得到声纹识别结果;
声纹库,用于存储对比声纹特征及其人物标签。
CN202211666089.6A 2022-12-23 2022-12-23 一种声纹识别方法及嵌入式装置 Pending CN115862634A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211666089.6A CN115862634A (zh) 2022-12-23 2022-12-23 一种声纹识别方法及嵌入式装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211666089.6A CN115862634A (zh) 2022-12-23 2022-12-23 一种声纹识别方法及嵌入式装置

Publications (1)

Publication Number Publication Date
CN115862634A true CN115862634A (zh) 2023-03-28

Family

ID=85654386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211666089.6A Pending CN115862634A (zh) 2022-12-23 2022-12-23 一种声纹识别方法及嵌入式装置

Country Status (1)

Country Link
CN (1) CN115862634A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758936A (zh) * 2023-08-18 2023-09-15 腾讯科技(深圳)有限公司 音频指纹特征提取模型的处理方法、装置和计算机设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758936A (zh) * 2023-08-18 2023-09-15 腾讯科技(深圳)有限公司 音频指纹特征提取模型的处理方法、装置和计算机设备
CN116758936B (zh) * 2023-08-18 2023-11-07 腾讯科技(深圳)有限公司 音频指纹特征提取模型的处理方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN107464568B (zh) 基于三维卷积神经网络文本无关的说话人识别方法及系统
WO2017162017A1 (zh) 语音数据处理方法、装置和存储介质
CN107731233B (zh) 一种基于rnn的声纹识别方法
CN108564940A (zh) 语音识别方法、服务器及计算机可读存储介质
CN111524527B (zh) 话者分离方法、装置、电子设备和存储介质
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN107886957A (zh) 一种结合声纹识别的语音唤醒方法及装置
CN110610709A (zh) 基于声纹识别的身份辨别方法
CN106683661A (zh) 基于语音的角色分离方法及装置
CN106898355B (zh) 一种基于二次建模的说话人识别方法
CN108399395A (zh) 基于端到端深度神经网络的语音和人脸复合身份认证方法
CN110310647A (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
CN106991312B (zh) 基于声纹识别的互联网反欺诈认证方法
CN110910891B (zh) 基于长短时记忆深度神经网络的说话人分段标注方法
CN108877812B (zh) 一种声纹识别方法、装置及存储介质
CN107993664B (zh) 一种基于竞争神经网络的鲁棒说话人识别方法
CN113488060B (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
CN109410956A (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
CN111816185A (zh) 一种对混合语音中说话人的识别方法及装置
CN113628612A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
CN110111798A (zh) 一种识别说话人的方法及终端
CN115862634A (zh) 一种声纹识别方法及嵌入式装置
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
CN111179941B (zh) 智能设备唤醒方法、注册方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination