CN109903774A - 一种基于角度间隔损失函数的声纹识别方法 - Google Patents

一种基于角度间隔损失函数的声纹识别方法 Download PDF

Info

Publication number
CN109903774A
CN109903774A CN201910293479.5A CN201910293479A CN109903774A CN 109903774 A CN109903774 A CN 109903774A CN 201910293479 A CN201910293479 A CN 201910293479A CN 109903774 A CN109903774 A CN 109903774A
Authority
CN
China
Prior art keywords
neural network
loss function
deep neural
network model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910293479.5A
Other languages
English (en)
Inventor
李武军
樊磊
余亚奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201910293479.5A priority Critical patent/CN109903774A/zh
Publication of CN109903774A publication Critical patent/CN109903774A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于角度间隔损失函数(简称AM‑Softmax)的声纹识别方法,包括使用AM‑Softmax损失函数训练模型的步骤,以及对说话人身份进行识别和验证的步骤:首先利用已标注过说话人身份的语音数据,以AM‑Softmax损失函数为训练准则,训练深度神经网络模型;最后在识别和验证系统中,通过训练得到的深度神经网络模型提取表示说话人身份的特征向量,并和数据库中注册的人的特征向量进行比对,识别或验证说话人的身份。

Description

一种基于角度间隔损失函数的声纹识别方法
技术领域
本发明涉及一种基于角度间隔损失函数(简称AM-Softmax)的声纹识别方法,涉及使用AM-Softmax损失函数的深度神经网络算法,特别适用于说话人声音接近,普通方法难以区分的情形。
背景技术
声纹识别用于判断给定语音属于哪个身份,声纹验证用于判断给定语音是否和目标身份相匹配。目前,安全领域中声纹识别和声纹验证的需求正在快速增长。声纹数据采集方便,是最为经济、可靠、简便和安全的身份识别方式。声纹识别和声纹验证使用场景广泛,例如在银行、证券等金融领域的辅助身份验证环节;智能手机,智能门锁,智能音箱等智能设备的身份验证环节。
主流的声纹识别算法,在过去的十年中由基于高斯混合模型-通用背景模型GMM-UBM提取的有效语音身份向量i-vector+PLDA(Probabilistic Linear DiscriminantAnalysis,概率线性判别分析)逐渐演化为深度神经网络模型。I-vector是语音信号在低维全变量空间中说话人信息向量,后端使用PLDA来补偿信道。普通的深度神经网络模型通常使用交叉熵损失函数Softmax或者三元组损失函数Triplet Loss。
I-vector模型在长语音情况下保持着足够精度,但是在短语音的情况下,深度神经网络模型更加准确。基于交叉熵损失函数的神经网络在说话人声音很接近的情况下难以区分细微的差别,基于三元组损失函数的神经网络的训练时长与训练集规模成正比。随着声纹识别用户数的增加,越来越多声音接近的说话人的出现,交叉熵损失函数和三元组损失函数难以快速训练高精度深度神经网络模型,越来越多的短语音识别也使得i-vector效果难以达标。
发明内容
发明目的:目前的主流声纹验证方法包括基于高斯混合模型-通用背景模型GMM-UBM提取所述有效语音身份向量i-vector和通过深度神经网络模型提取的声纹特征向量。I-vector在短语音中效果不如深度神经网络,交叉熵损失函数和三元组损失函数难以快速训练高精度神经网络模型。针对上述问题,本发明提供了一种基于角度间隔损失函数(简称AM-Softmax)的声纹识别方法,采用增大角度间隔损失函数(简称AM-Softmax)来提升深度神经网络模型训练精度,同时深度神经网络提取的特征向量可以用于声纹识别和声纹验证的任务中。
技术方案:一种基于角度间隔损失函数的声纹识别方法:首先初始化深度神经网络模型,使用AM-Softmax损失函数训练深度神经网络模型,再用训练好的深度神经网络模型提取代表说话人身份的声纹特征向量,和数据库中注册的声纹特征向量进行比对。包括使用AM-Softmax损失函数的深度神经网络模型训练方法,以及使用提取的特征向量进行声纹识别和声纹验证的流程。
所述使用AM-Softmax损失函数的深度神经网络模型训练方法的具体步骤为:
步骤100,利用已标记说话人的语音数据集,提取快速傅里叶变换得到的语音特征,作为深度神经网络模型的输入,对应说话人的身份作为训练的标签;
步骤101,搭建深度神经网络模型,同时初始化深度神经网络模型各层的参数;
步骤102,随机采集训练样本进行前向运算,归一化最后全连接层的权重和输入,使用AM-Softmax损失函数计算目标函数;
步骤103,通过误差反向传播算法计算要训练模型参数的梯度,对参数进行更新;
步骤104,保存训练后的深度神经网络模型的参数;
基于训练完的深度神经网络模型进行声纹识别的具体步骤为:
步骤200,使用目标语音作为深度神经网络模型的输入,进行前向运算;
步骤201,判断目标说话人是否在训练数据集中。若是,则执行步骤202,若否,则执行步骤203,204;
步骤202,使用深度神经网络模型最后一层的输出向量,取最大元素所在的位置对应的身份作为识别结果;
步骤203,收集所需要识别的每个身份至少一条语音作为输入,通过神经网络前向运算,获得特定表示层(常用倒数第二层)的输出向量,作为声纹特征向量存于数据库中以备后续比对。同一身份的多条语音的多条声纹特征向量平均后存储;
步骤204,使用神经网络特定表示层(常用倒数第二层)的特征向量,与数据库中已注册的声纹特征向量计算余弦距离,余弦距离最大的数据库声纹特征向量对应的身份作为识别结果;
基于训练完的深度神经网络模型进行声纹验证的具体步骤为:
步骤301,收集所需要验证的每个身份至少一条语音作为输入,通过神经网络前向运算,获得特定表示层(常用倒数第二层)的输出向量,作为声纹特征向量存于数据库中以备后续比对。同一身份的多条语音的多条声纹特征向量平均后存储;
步骤302,使用神经网络特定表示层(常用倒数第二层)的输出向量,与数据库中已注册的对应身份的声纹特征向量计算余弦距离,余弦距离大于阈值表示验证成功,低于阈值表示验证失败;
所述模型训练的具体流程为:首先搭建深度神经网络模型框架,然后随机初始化所要训练的模型参数,进入训练过程:先进行前向运算,计算基于AM-Softmax损失函数的目标函数,通过误差反向传播算法计算要训练模型参数的梯度,对参数进行更新;
定义模型的目标函数如下:
其中,L为损失函数,N为语音训练样本数,s为余弦距离的放缩因子超参数,yi为第i个样本的标签,为第i个样本和第i个标签分类角度,θj,i为第i个样本和第j个标签分类角度,c为训练样本中说话人总数,m为增加的角度间隔。
将训练样本输入深度神经网络,进行前向运算,归一化深度神经网络模型最后全连接层权重,归一化最后一层输入,计算损失函数L,利用误差反向传播算法计算深度神经网络模型各层的梯度,并对参数进行更新;不断迭代本过程,直到训练完毕。
本发明方法提供的声纹识别方法,可适用于各类设备的声纹识别系统,各类系统均可训练声纹模型和提取声纹特征向量,并配置在终端中,包括但不限于移动通信终端,个人计算机终端,便携式终端和其他语音交互的终端。
附图说明
图1为本发明实施的声纹模型训练工作流程图;
图2为本发明实施的声纹识别工作流程图;
图3为本发明实施的声纹验证工作流程图;
图4为传统交叉熵损失函数的分类效果;
图5为AM-Softmax损失函数的分类效果。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于角度间隔损失函数(简称AM-Softmax)的声纹识别方法,训练工作流程如图1所示。首先整理有标记说话人的语音数据集,为每个说话人分配训练标签(步骤10)。接着搭建深度神经网络模型,初始化深度神经网络模型各层的参数(步骤11)。对有标记说话人的数据集进行采样,采样的数据通过快速傅里叶变换变换作为深度神经网络模型的输入(步骤12),进行前向运算,归一化最后全连接层的输入和权重(步骤13)。然后基于AM-Softmax损失函数计算深度神经网络模型的目标函数(步骤14),再利用误差反向传播算法计算各层的梯度并对参数进行更新(步骤15)。从步骤12开始迭代,每迭代一轮,通过模型在验证集上的表现判断模型是否训练完成(步骤16),若训练未完成则继续迭代,否则输出训练结果并保存模型(步骤17)。
AM-Softmax损失函数首先在人脸识别任务中提出。AM-Softmax损失函数修改Softmax损失函数,使用超参数m对学习到的表示角度间隔构成约束,增加类间角度间隔,减小类内角度间隔。如图4,图5所示,AM-Softmax损失函数相比传统Softmax损失函数有效增加了分类角度间隔。
基于AM-Softmax损失函数的目标函数如下:
其中,L为损失函数,N为训练样本数,s为余弦距离的放缩因子超参数,yi为第i个样本的标签,为第i个样本和第i个标签分类角度,θj,i为第i个样本和第j个标签分类角度,c为训练样本中说话人总数,m为增加的角度间隔;
使用训练得到的深度神经网络模型进行声纹识别的工作流程如图2所示。首先读取训练得到的深度神经网络模型(步骤21),判断所需注册的说话人是否在训练数据集外(步骤22),如果是,则读取需要注册的语音,通过前向运算,提取神经网络特定表示层(常用倒数第二层)的输出向量,作为声纹特征向量存入注册数据库中(步骤23),读取本次询问任务的语音文件,提取快速傅里叶变换得到的特征(步骤24),将得到的特征输入深度神经网络模型中进行前向计算(步骤25)。接着判断所需要识别的身份是否在训练集的范围内(步骤26),如果是,则提取深度神经网络模型最后一层的输出向量,将最大的元素位置对应的身份作为识别结果(步骤27a),否则提取深度神经网络模型特定表示层(常用倒数第二层)的输出向量,与注册数据库中的声纹特征向量做余弦距离,将最大值对应的身份作为识别结果(27b),最后输出识别结果(步骤28)。
使用训练得到的深度神经网络模型进行声纹验证的工作流程图如图3所示。首先读取训练得到的深度神经网络模型(步骤31),读取每个人的一条或多条注册语音,通过快速傅里叶变换作为深度神经网络模型的输入,然后进行前向运算(步骤32)。提取深度神经网络模型特定表示层(常用倒数第二层)的输出向量,作为声纹特征向量存入注册数据库中(同一人的多条输出向量平均后存入)(步骤33)。读取本次验证任务的询问语音,提取快速傅里叶变换得到的特征(步骤34),将得到的特征输入神经网络模型中进行前向运算,并提取深度神经网络模型特定表示层(常用倒数第二层)的输出,作为询问语音的声纹特征向量(步骤35)。将提取的声纹特征向量与数据库中对应的说话人的声纹特征向量做余弦距离(步骤36),判断余弦距离和阈值的关系(步骤37),如果高于阈值,则验证通过(步骤38a),否则验证失败(步骤38b),输出结果(步骤39)。

Claims (6)

1.一种基于角度间隔损失函数的声纹识别方法,其特征在于:首先初始化深度神经网络模型,使用AM-Softmax损失函数训练深度神经网络模型,再用训练好的深度神经网络模型提取代表说话人身份的声纹特征向量,和数据库中注册的声纹特征向量进行比对;包括使用AM-Softmax损失函数的深度神经网络模型训练方法,以及使用提取的特征向量进行声纹识别和声纹验证的流程。
2.如权利要求1所述的基于角度间隔损失函数的声纹识别方法,其特征在于:所述使用AM-Softmax损失函数的深度神经网络模型训练方法的具体步骤为:
步骤100,利用已标记说话人的语音数据集,提取快速傅里叶变换得到的语音特征,作为深度神经网络模型的输入,对应说话人的身份作为训练的标签;
步骤101,搭建深度神经网络模型,同时初始化深度神经网络模型各层的参数;
步骤102,随机采集训练样本进行前向运算,归一化最后全连接层的权重和输入,使用AM-Softmax损失函数计算目标函数;
步骤103,通过误差反向传播算法计算要训练模型参数的梯度,对参数进行更新;
步骤104,保存训练后的深度神经网络模型的参数。
3.如权利要求1所述的基于角度间隔损失函数的声纹识别方法,其特征在于:基于训练完的深度神经网络模型进行声纹识别的具体步骤为:
步骤200,使用目标语音作为深度神经网络模型的输入,进行前向运算;
步骤201,判断目标说话人是否在训练数据集中。若是,则执行步骤202,若否,则执行步骤203,204;
步骤202,使用深度神经网络模型最后一层的输出向量,取最大元素所在的位置对应的身份作为识别结果;
步骤203,收集所需要识别的每个身份至少一条语音作为输入,通过神经网络前向运算,获得特定表示层的输出向量,作为声纹特征向量存于数据库中以备后续比对。同一身份的多条语音的多条声纹特征向量平均后存储;
步骤204,使用神经网络特定表示层的特征向量,与数据库中已注册的声纹特征向量计算余弦距离,余弦距离最大的数据库声纹特征向量对应的身份作为识别结果。
4.如权利要求1所述的基于角度间隔损失函数的声纹识别方法,其特征在于:基于训练完的深度神经网络模型进行声纹验证的具体步骤为:
步骤301,收集所需要验证的每个身份至少一条语音作为输入,通过神经网络前向运算,获得特定表示层的输出向量,作为声纹特征向量存于数据库中以备后续比对;同一身份的多条语音的多条声纹特征向量平均后存储;
步骤302,使用神经网络特定表示层的输出向量,与数据库中已注册的对应身份的声纹特征向量计算余弦距离,余弦距离大于阈值表示验证成功,低于阈值表示验证失败。
5.如权利要求1所述的基于角度间隔损失函数的声纹识别方法,其特征在于:基于AM-Softmax损失函数的目标函数的定义如下:
其中,L为损失函数,N为语音训练样本数,s为余弦距离的放缩因子超参数,yi为第i个样本的标签,为第i个样本和第i个标签分类角度,θj,i为第i个样本和第j个标签分类角度,c为训练样本中说话人总数,m为增加的角度间隔;将训练样本输入深度神经网络,进行前向运算,归一化深度神经网络模型最后全连接层权重,归一化最后一层输入,计算损失函数L,利用误差反向传播算法计算深度神经网络模型各层的梯度,并对参数进行更新;直到训练完毕。
6.如权利要求1所述的基于角度间隔损失函数的声纹识别方法,其特征在于:所述声纹识别方法,适用于各类设备的声纹识别系统,各类系统均可训练声纹模型和提取声纹特征向量,并配置在终端中,包括但不限于移动通信终端,个人计算机终端,便携式终端和其他语音交互的终端。
CN201910293479.5A 2019-04-12 2019-04-12 一种基于角度间隔损失函数的声纹识别方法 Pending CN109903774A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910293479.5A CN109903774A (zh) 2019-04-12 2019-04-12 一种基于角度间隔损失函数的声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910293479.5A CN109903774A (zh) 2019-04-12 2019-04-12 一种基于角度间隔损失函数的声纹识别方法

Publications (1)

Publication Number Publication Date
CN109903774A true CN109903774A (zh) 2019-06-18

Family

ID=66955735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910293479.5A Pending CN109903774A (zh) 2019-04-12 2019-04-12 一种基于角度间隔损失函数的声纹识别方法

Country Status (1)

Country Link
CN (1) CN109903774A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610709A (zh) * 2019-09-26 2019-12-24 浙江百应科技有限公司 基于声纹识别的身份辨别方法
CN110738985A (zh) * 2019-10-16 2020-01-31 江苏网进科技股份有限公司 基于语音信号的跨模态生物特征识别方法及系统
CN110750770A (zh) * 2019-08-18 2020-02-04 浙江好络维医疗技术有限公司 一种基于心电图的对电子设备进行解锁的方法
CN110942777A (zh) * 2019-12-05 2020-03-31 出门问问信息科技有限公司 一种声纹神经网络模型的训练方法、装置及存储介质
CN111179941A (zh) * 2020-01-06 2020-05-19 科大讯飞股份有限公司 智能设备唤醒方法、注册方法及装置
CN111222399A (zh) * 2019-10-30 2020-06-02 腾讯科技(深圳)有限公司 一种图像中的对象标识信息识别方法、装置及存储介质
CN111312283A (zh) * 2020-02-24 2020-06-19 中国工商银行股份有限公司 跨信道声纹处理方法及装置
CN111370003A (zh) * 2020-02-27 2020-07-03 杭州雄迈集成电路技术股份有限公司 一种基于孪生神经网络的声纹比对方法
CN111418009A (zh) * 2019-10-31 2020-07-14 支付宝(杭州)信息技术有限公司 个性化说话者验证系统和方法
CN111524521A (zh) * 2020-04-22 2020-08-11 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN111626340A (zh) * 2020-05-11 2020-09-04 Oppo广东移动通信有限公司 一种分类方法、装置、终端及计算机存储介质
CN111724794A (zh) * 2020-06-17 2020-09-29 哈尔滨理工大学 一种说话人识别方法
CN111951791A (zh) * 2020-08-26 2020-11-17 上海依图网络科技有限公司 声纹识别模型训练方法、识别方法、电子设备及存储介质
CN112071322A (zh) * 2020-10-30 2020-12-11 北京快鱼电子股份公司 一种端到端的声纹识别方法、装置、存储介质及设备
CN112466311A (zh) * 2020-12-22 2021-03-09 深圳壹账通智能科技有限公司 声纹识别方法、装置、存储介质及计算机设备
CN112800927A (zh) * 2021-01-25 2021-05-14 北京工业大学 一种基于AM-Softmax损失的蝴蝶图像细粒度识别方法
CN112906810A (zh) * 2021-03-08 2021-06-04 共达地创新技术(深圳)有限公司 目标检测方法、电子设备和存储介质
CN113052261A (zh) * 2021-04-22 2021-06-29 东南大学 一种基于余弦空间优化的图像分类损失函数的设计方法
WO2021137754A1 (en) * 2019-12-31 2021-07-08 National University Of Singapore Feedback-controlled voice conversion
CN113241081A (zh) * 2021-04-25 2021-08-10 华南理工大学 一种基于梯度反转层的远场说话人认证方法及系统
CN113327621A (zh) * 2021-06-09 2021-08-31 携程旅游信息技术(上海)有限公司 模型训练方法、用户识别方法、系统、设备及介质
CN113409795A (zh) * 2021-08-19 2021-09-17 北京世纪好未来教育科技有限公司 训练方法、声纹识别方法、装置和电子设备
CN113052261B (zh) * 2021-04-22 2024-05-31 东南大学 一种基于余弦空间优化的图像分类损失函数的设计方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN107731233A (zh) * 2017-11-03 2018-02-23 王华锋 一种基于rnn的声纹识别方法
CN108564954A (zh) * 2018-03-19 2018-09-21 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
CN108766445A (zh) * 2018-05-30 2018-11-06 苏州思必驰信息科技有限公司 声纹识别方法及系统
CN109559736A (zh) * 2018-12-05 2019-04-02 中国计量大学 一种基于对抗网络的电影演员自动配音方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN107731233A (zh) * 2017-11-03 2018-02-23 王华锋 一种基于rnn的声纹识别方法
CN108564954A (zh) * 2018-03-19 2018-09-21 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
CN108766445A (zh) * 2018-05-30 2018-11-06 苏州思必驰信息科技有限公司 声纹识别方法及系统
CN109559736A (zh) * 2018-12-05 2019-04-02 中国计量大学 一种基于对抗网络的电影演员自动配音方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FENG WANG ET AL: "Additive Margin Softmax for Face Verification", 《IEEE SIGNAL PROCESSING LETTERS》 *
JOAO ANTONIO CHAGAS NUNES ET AL: "Additive Margin SincNet for Speaker Recognition", 《ARXIV》 *
MAHDI HAJIBABAEI ET AL: "Unified Hypersphere Embedding For Speaker Recognition", 《ARXIV》 *
YI LIU ET AL: "Large Margin Softmax Loss for Speaker Verification", 《ARXIV》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750770A (zh) * 2019-08-18 2020-02-04 浙江好络维医疗技术有限公司 一种基于心电图的对电子设备进行解锁的方法
CN110750770B (zh) * 2019-08-18 2023-10-03 浙江好络维医疗技术有限公司 一种基于心电图的对电子设备进行解锁的方法
CN110610709A (zh) * 2019-09-26 2019-12-24 浙江百应科技有限公司 基于声纹识别的身份辨别方法
CN110738985A (zh) * 2019-10-16 2020-01-31 江苏网进科技股份有限公司 基于语音信号的跨模态生物特征识别方法及系统
CN111222399B (zh) * 2019-10-30 2022-02-18 腾讯科技(深圳)有限公司 一种图像中的对象标识信息识别方法、装置及存储介质
CN111222399A (zh) * 2019-10-30 2020-06-02 腾讯科技(深圳)有限公司 一种图像中的对象标识信息识别方法、装置及存储介质
CN111418009A (zh) * 2019-10-31 2020-07-14 支付宝(杭州)信息技术有限公司 个性化说话者验证系统和方法
CN111418009B (zh) * 2019-10-31 2023-09-05 支付宝(杭州)信息技术有限公司 个性化说话者验证系统和方法
CN110942777B (zh) * 2019-12-05 2022-03-08 出门问问信息科技有限公司 一种声纹神经网络模型的训练方法、装置及存储介质
CN110942777A (zh) * 2019-12-05 2020-03-31 出门问问信息科技有限公司 一种声纹神经网络模型的训练方法、装置及存储介质
WO2021137754A1 (en) * 2019-12-31 2021-07-08 National University Of Singapore Feedback-controlled voice conversion
CN111179941A (zh) * 2020-01-06 2020-05-19 科大讯飞股份有限公司 智能设备唤醒方法、注册方法及装置
CN111179941B (zh) * 2020-01-06 2022-10-04 科大讯飞股份有限公司 智能设备唤醒方法、注册方法及装置
CN111312283A (zh) * 2020-02-24 2020-06-19 中国工商银行股份有限公司 跨信道声纹处理方法及装置
CN111370003A (zh) * 2020-02-27 2020-07-03 杭州雄迈集成电路技术股份有限公司 一种基于孪生神经网络的声纹比对方法
CN111524521A (zh) * 2020-04-22 2020-08-11 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN111524521B (zh) * 2020-04-22 2023-08-08 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN111626340A (zh) * 2020-05-11 2020-09-04 Oppo广东移动通信有限公司 一种分类方法、装置、终端及计算机存储介质
CN111626340B (zh) * 2020-05-11 2024-05-28 Oppo广东移动通信有限公司 一种分类方法、装置、终端及计算机存储介质
CN111724794A (zh) * 2020-06-17 2020-09-29 哈尔滨理工大学 一种说话人识别方法
CN111951791B (zh) * 2020-08-26 2024-05-17 上海依图网络科技有限公司 声纹识别模型训练方法、识别方法、电子设备及存储介质
CN111951791A (zh) * 2020-08-26 2020-11-17 上海依图网络科技有限公司 声纹识别模型训练方法、识别方法、电子设备及存储介质
CN112071322A (zh) * 2020-10-30 2020-12-11 北京快鱼电子股份公司 一种端到端的声纹识别方法、装置、存储介质及设备
WO2022134587A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 声纹识别方法、装置、存储介质及计算机设备
CN112466311A (zh) * 2020-12-22 2021-03-09 深圳壹账通智能科技有限公司 声纹识别方法、装置、存储介质及计算机设备
CN112800927B (zh) * 2021-01-25 2024-03-29 北京工业大学 一种基于AM-Softmax损失的蝴蝶图像细粒度识别方法
CN112800927A (zh) * 2021-01-25 2021-05-14 北京工业大学 一种基于AM-Softmax损失的蝴蝶图像细粒度识别方法
CN112906810A (zh) * 2021-03-08 2021-06-04 共达地创新技术(深圳)有限公司 目标检测方法、电子设备和存储介质
CN112906810B (zh) * 2021-03-08 2024-04-16 共达地创新技术(深圳)有限公司 目标检测方法、电子设备和存储介质
CN113052261A (zh) * 2021-04-22 2021-06-29 东南大学 一种基于余弦空间优化的图像分类损失函数的设计方法
CN113052261B (zh) * 2021-04-22 2024-05-31 东南大学 一种基于余弦空间优化的图像分类损失函数的设计方法
CN113241081B (zh) * 2021-04-25 2023-06-16 华南理工大学 一种基于梯度反转层的远场说话人认证方法及系统
CN113241081A (zh) * 2021-04-25 2021-08-10 华南理工大学 一种基于梯度反转层的远场说话人认证方法及系统
CN113327621A (zh) * 2021-06-09 2021-08-31 携程旅游信息技术(上海)有限公司 模型训练方法、用户识别方法、系统、设备及介质
CN113409795A (zh) * 2021-08-19 2021-09-17 北京世纪好未来教育科技有限公司 训练方法、声纹识别方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN109903774A (zh) 一种基于角度间隔损失函数的声纹识别方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
Soltane et al. Face and speech based multi-modal biometric authentication
Cai et al. Analysis of length normalization in end-to-end speaker verification system
CN106448684A (zh) 基于深度置信网络特征矢量的信道鲁棒声纹识别系统
CN104167208A (zh) 一种说话人识别方法和装置
CN103730114A (zh) 一种基于联合因子分析模型的移动设备声纹识别方法
CN102201236A (zh) 一种高斯混合模型和量子神经网络联合的说话人识别方法
Lai et al. SynSig2Vec: Learning representations from synthetic dynamic signatures for real-world verification
CN106991312B (zh) 基于声纹识别的互联网反欺诈认证方法
CN110309343A (zh) 一种基于深度哈希的声纹检索方法
CN108520752A (zh) 一种声纹识别方法和装置
CN103198833A (zh) 一种高精度说话人确认方法
CN108564040A (zh) 一种基于深度卷积特征的指纹活性检测方法
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
CN115101077A (zh) 一种声纹检测模型训练方法及声纹识别方法
Schlapbach et al. Off-line writer identification and verification using Gaussian mixture models
Shen et al. Multi-scale residual based siamese neural network for writer-independent online signature verification
Beigi et al. A hierarchical approach to large-scale speaker recognition.
Vasuhi et al. An efficient multi-modal biometric person authentication system using fuzzy logic
CN117408699A (zh) 一种基于银行卡数据的电信诈骗识别方法
CN110085236B (zh) 一种基于自适应语音帧加权的说话人识别方法
CN111950333B (zh) 一种基于神经网络电子手写签名识别的方法
CN113470655A (zh) 一种基于音素对数似然比的时延神经网络的声纹识别方法
CN112967726A (zh) 基于t分布概率线性判别的深度神经网络模型短语音说话人确认方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190618

RJ01 Rejection of invention patent application after publication