CN104732978A - 基于联合深度学习的文本相关的说话人识别方法 - Google Patents

基于联合深度学习的文本相关的说话人识别方法 Download PDF

Info

Publication number
CN104732978A
CN104732978A CN201510107647.9A CN201510107647A CN104732978A CN 104732978 A CN104732978 A CN 104732978A CN 201510107647 A CN201510107647 A CN 201510107647A CN 104732978 A CN104732978 A CN 104732978A
Authority
CN
China
Prior art keywords
speaker
neural network
vector
text
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510107647.9A
Other languages
English (en)
Other versions
CN104732978B (zh
Inventor
陈楠昕
葛凌廷
顾昊
常烜恺
钱彦旻
俞凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Shanghai Jiaotong University
Suzhou Speech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, Suzhou Speech Information Technology Co Ltd filed Critical Shanghai Jiaotong University
Priority to CN201510107647.9A priority Critical patent/CN104732978B/zh
Publication of CN104732978A publication Critical patent/CN104732978A/zh
Application granted granted Critical
Publication of CN104732978B publication Critical patent/CN104732978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

一种智能语音领域的基于联合深度学习的文本相关的说话人识别方法,首先从待检测音频中提出得到FBANK系数,经帧扩展后输入神经网络进行计算,得到待测音频的j‐vector;再训练LDA模型并得到预测阈值,最后将待测试的说话人的注册音频的j‐vector和待测试的说话人的测试音频的j‐vector归一化后输入带有预测阈值的LDA模型,并得到预测结果。本发明能够极大地提高文本相关的说话人识别的精确度。

Description

基于联合深度学习的文本相关的说话人识别方法
技术领域
本发明涉及的是一种智能语音领域的技术,具体是一种基于联合深度学习的文本相关的说话人识别方法。
背景技术
说话人识别,是指在给定声音信息时,接受或拒绝某个说话人的身份认证。说话人识别技术目前已在诸多领域得到了广泛的应用,例如:身份验证、互联网安全、人机交互、银行证券系统、军事刑侦等。说话人识别技术分为文本相关的说话人识别和文本无关的说话人识别。前者要求训练模型的语料与测试语料一致,后者则无此要求。文本相关的说话人识别主要分为特征提取、模型训练和分类识别三大模块。研究表明,传统的文本相关的说话人识别的主要问题存在于说话人的特征提取上,现有的特征提取方法在说话人个性特征的表现力上以及鲁棒性方面有着诸多不足。
近年来现有的技术中,说话人识别在特征提取部分经常采用的特征参数主要有线性预测系数、梅尔倒谱系数和基音及共振峰系数,这些特征提取的方法在表征说话人个性的特征方面尚有不足,从而影响识别精度。此外,这些方法都利用了语音信号的短时平稳性,丢失了语音信号的动态特征,鲁棒性较差,识别效果不理想。
在识别模型部分,主流的方法主要为高斯混合模型‐通用背景模型(GMM‐UBM)和隐马尔可夫模型(HMM)。这两种方法适合处理连续信号,受极大似然准则的限制,在区分类别上能力较弱,其处理结果只能反映同类样本的相似性,却不能较好地区分不同类样本之间的区别,因此,其识别效果较差。
经过对现有技术的检索发现,中国专利文献号CN103700370A公开(公告)日2014.04.02,公开了一种广播电视语音识别方法及系统,包括:根据广播电视数据提取出音频数据;对音频数据进行预处理,得到特征文本数据;将特征文本数据发送给云服务器进行识别处理,得到男女声识别、说话人识别以及语音识别结果;对数据预处理、男女声识别、说话人识别以及语音识别结果进行融合以及结构化文本标识,生成结构化的语音识别结果。该方法对现有语音识别方法进行改进,融合各种广播电视数据预处理技术以及广播电视语音识别方法,对语音数据针对广播电视行业的数据处理要求进行识别处理,对各识别结果进行融合并生成结构化的语音识别结果,能够为后续广播电视节目的其他业务的智能化处理提供基础数据,且处理速度加快并提高准确度。但该技术为文本不相关,在同等条件下与文本相关说话人识别技术的识别准确率有较大差距;并且该技术针对广播电视行业的数据进行了适应性训练,在广播电视的语言环境中较有优势,但不适应其他情况,如签到系统等。
中国专利文献号CN103971690A公开(公告)日2014.08.06,公开了一种声纹识别方法和装置。方法包括:基于无标注语音数据建立深层神经网络初级模型,并且基于有标注语音数据对该深层神经网络初级模型进行训练,以获取深层神经网络二级模型;利用该深层神经网络二级模型注册说话人高层声纹特征与说话人标识;接收测试语音数据,基于该深层神经网络二级模型从测试语音数据中提取测试语音高层声纹特征,并且基于该测试语音高层声纹特征确定说话人标识。通过深层神经网络自动学习语音信号当中包含能够抵御噪声干扰的高层次说话人信息,可以有效抵御噪声干扰。但该技术在训练神经网络时需要在初级模型的基础上使用有标定的语音数据以获取深层网络二级模型,这个过程耗费时间和计算资源较多;并且该技术只考虑了语音信号的声音特性,而没有考虑文本特性。
发明内容
本发明针对现有传统的说话人识别的方法具有特征提取不能准确表征说话人的个性特征以及丢失语音信号的动态特征、鲁棒性较差等局限性以及识别效果不佳的缺点,提出一种基于联合深度学习的文本相关的说话人识别方法,在特征提取阶段,利用联合深度学习提取j‐vector(joint vector,联合特征向量),且在识别验证阶段采用线性差分分析作为分类器。本发明能够极大地提高文本相关的说话人识别的精确度。
本发明是通过以下技术方案实现的:
本发明包括以下步骤:
步骤1)从待检测音频中提出得到FBANK(对数谱特征)系数,具体为:
1.1建立一系列带通滤波器,优选采用三角窗滤波器;
1.2将频域上的声音信号输入这些滤波器,每一个带通滤波器输出一位FBank系数,它等于此带通滤波器内的信号之和;
1.3计算后得到Mel域上的FBank系数。
步骤2)建立神经网络;
所述的神经网络具有4个隐层,每层1024个结点。
所述的神经网络优选采用具有多个隐层且每层多个结点的深度神经网络,该深度神经网络中的Background和development集的数据被用来训练特征提取神经网络。在这个深度神经网络的训练中,194个类被使用了(bkg和dev共194个说话人)。
对比度散度算法(Contrastive Divergence)用于受限波尔兹曼机(RBM)的训练得到网络参数初始值,基于SGD(随机梯度下降算法)的后向传播算法用于深度神经网络的参数调整。
所述的后向传播算法的后向传播过程中,学习率由模拟退火和尽早停止策略确定。
所述的深度神经网络的损失函数是交叉熵,且有一个系数为10‐62的欧氏距离(L2‐norm)权重衰减项,因此在训练深度神经网络时将文本信息和说话人同时考虑在内,直接将说话人和文本信息的损失函数相加得到新的损失函数。由于梯度的线性特性,每项系数的梯度可以被独立地计算,然后每个非输出层的系数可以被新的损失函数(两个损失函数的和)的梯度所更新,即将文本信息的交叉熵和说话人信息的交叉熵线性相加。当两个网络的性能不能被提升时,学习率就开始下降。
步骤3)对步骤1得到的FBANK系数进行帧扩展后输入步骤2中建立的神经网络进行计算,得到待测音频的j‐vector,具体为:
3.1将输入的语音信号数字化,并分离为说话人特征和文本特征两部分;
3.2将说话人特征和文本特征分别输入神经网络,并计算在输出层得到输出;
3.3将输出层的说话人特征和文本特征线性叠加,得到待测音频的j‐vector。
所述的帧扩展是指:扩展至39维的FBank系数。
步骤4)训练LDA(线性差分分析)模型并得到预测阈值,具体为:
4.1将LDA模型的训练样本采用步骤1~3方式处理,得到Background和development集中数据的j‐vector后,分别对其进行归一化处理,作为训练集;
4.2通过训练集对LDA模型的训练标定,得到预测阈值。
所述的LDA模型为:每个类密度可以由多维高斯分布建模:其中:∑k和μk分别是第k个类的协方差、均值矩阵,该LDA模型假定:Σk=Σ,且后验概率由贝叶斯公式给出:其中:πk是第k个类的先验概率。
所述的预测阈值是指:经训练后,使得在该预测阈值下,错误地识别出冒认者比率等于错误地未识别出冒认者比率,即LDA模型错误地将同一说话人的注册音频和测试音频认为不是同一说话人的比率等于LDA错误地将不同说话人的注册音频和测试音频认为是同一说话人的比率。
步骤5)将待测试的说话人的注册音频的j‐vector和待测试的说话人的测试音频的j‐vector归一化后输入带有预测阈值的LDA模型,并得到预测结果。
本发明涉及一种实现上述方法的系统,包括:对数谱特征提取模块、深度神经网络模块、以及特征空间分裂模块,其中:对数谱特征提取模块与深度神经网络模块相连并传输对数谱特征信息,深度神经网络模块与特征空间分裂模块相连并传输语音高层声纹特征信息。
技术效果
与现有技术相比,本发明中提出的利用联合深度学习提取的j‐vector特征向量能够更准确地表征说话人的个性特征;而在分类识别部分将初级模型与训练模型分开,在初级模型的基础上使用lda模型计算注册数据与测试数据的矢量距离,加速了计算的同时缩小同类之间的差异,扩大不同类之间的差距,识别效果好,鲁棒性强;此外,本发明所使用的深度特征(即步骤3中深度神经网络输出的特征),将说话人特征和文本信息特征纳入统一的特征向量中,精度较现有的方法有了很大的提升。
附图说明
图1为本发明j‐vector提取示意图。
图2为本发明流程示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
本实施例在深度神经网络的训练时,同时将文本信息和说话人考虑在内,为了实现的简单,直接将说话人和文本信息的损失函数相加得到新的损失函数。由于梯度的线性特性,每项系数的梯度可以被独立地计算,然后每个非输出层的系数可以被新的损失函数(两个损失函数的和)的梯度所更新。当两个网络的性能不能被提升时,学习率就开始下降。
本实施例的联合学习避免了任何一项任务的过拟合,并且使网络变得更有效。一旦网络训练(开发阶段)完成,的网络的最后一层上可以提取出j‐vector特征,如图1所示。这种特征可以用于各种注册和评估模型。
分别选取了余弦距离、线性差分分析(LDA)、概率线性差分分析(PLDA),经过测试,线性差分模型在本实施例的j‐vector上得到了更好的性能。
所述的LDA模型是指:每个类密度可以由多维高斯分布建模:其中:∑k和μk分别是第k个类的协方差、均值矩阵,该LDA模型假定:Σk=Σ,且后验概率由贝叶斯公式给出:其中:πk是第k个类的先验概率。
当使用本实施例的同时考虑文本信息和说话人信息的j‐vector作为LDA的输入特征时,LDA的每个类也应该同时包含了文本信息和说话人信息。
在实验中,采用I2R发布的RSR2015数据集进行了测试,并与其它方法进行了对比,结果如表1所示。可以看到,本实施例所提出的j‐vector的方法,不论使用哪一种分类器,其结果(相等错误率EER)均是最低,而采用LDA分类器则可以大幅提高识别精度。
表1
为了进一步说明j‐vector和LDA分类器的组合的准确性,又测试了一部分冒认者不在注册数据中的情况:表2中分别是1/5和1/3的冒认测试者不在测试数据中出现过。从图中可以发现,使用j‐vector和LDA进行组合确实可以极大地提高识别的准确性。
表2
综上所述,本实施例与现有技术相比,其主要技术效果包括:1)识别精度较现有的方法大幅提高;2)提取的特征能够更准确地表征说话人的个性特征;3)联合学习避免了任何一项任务的过拟合;4)联合学习使神经网络变得更加有效;5)在不同信道和环境下鲁棒性更强。

Claims (10)

1.一种基于联合深度学习的文本相关的说话人识别方法,其特征在于,包括以下步骤:
步骤1)从待检测音频中提出得到FBANK系数;
步骤2)建立神经网络;
步骤3)对步骤1得到的FBANK系数进行帧扩展后输入步骤2中建立的神经网络进行计算,得到待测音频的j‐vector;
步骤4)训练LDA模型并得到预测阈值;
步骤5)将待测试的说话人的注册音频的j‐vector和待测试的说话人的测试音频的j‐vector归一化后输入带有预测阈值的LDA模型,并得到预测结果。
2.根据权利要求1所述的方法,其特征是,所述的步骤1具体包括:
1.1)建立一系列带通滤波器;
1.2)将频域上的声音信号输入上述滤波器,每一个带通滤波器输出一位FBank系数;
1.3)计算后得到Mel域上的FBank系数。
3.根据权利要求2所述的方法,其特征是,带通滤波器具有31帧窗且每边15帧。
4.根据权利要求1所述的方法,其特征是,所述的神经网络具有4个隐层,每层1024个结点。
5.根据权利要求1所述的方法,其特征是,所述的步骤3具体包括:
3.1)将输入的语音信号数字化,并分离为说话人特征和文本特征两部分;
3.2)将说话人特征和文本特征分别输入神经网络,并计算在输出层得到输出;
3.3)将输出层的说话人特征和文本特征线性叠加,得到待测音频的j‐vector。
6.根据权利要求1所述的方法,其特征是,所述的帧扩展是指:扩展至39维的FBank系数。
7.根据权利要求1所述的方法,其特征是,所述的步骤4具体包括:
4.1)将LDA模型的训练样本采用步骤1~3方式处理,得到Background和development集中数据的j‐vector后,分别对其进行归一化处理,作为训练集;
4.2)通过训练集对LDA模型的训练标定,得到预测阈值。
8.根据权利要求1所述的方法,其特征是,所述的LDA模型为:每个类密度可以由多维高斯分布建模:其中:∑k和μk分别是第k个类的协方差、均值矩阵,该LDA模型假定:且后验概率由贝叶斯公式给出:Pr(G=k|X=x)= 其中:πk是第k个类的先验概率。
9.根据权利要求1所述的方法,其特征是,所述的预测阈值是指:经训练后,使得在该预测阈值下,错误地识别出冒认者比率等于错误地未识别出冒认者比率,即LDA模型错误地将同一说话人的注册音频和测试音频认为不是同一说话人的比率等于LDA错误地将不同说话人的注册音频和测试音频认为是同一说话人的比率。
10.一种实现上述任一权利要求所述方法的系统,其特征在于,包括:对数谱特征提取模块、深度神经网络模块、以及特征空间分裂模块,其中:对数谱特征提取模块与深度神经网络模块相连并传输对数谱特征信息,深度神经网络模块与特征空间分裂模块相连并传输语音高层声纹特征信息。
CN201510107647.9A 2015-03-12 2015-03-12 基于联合深度学习的文本相关的说话人识别方法 Active CN104732978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510107647.9A CN104732978B (zh) 2015-03-12 2015-03-12 基于联合深度学习的文本相关的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510107647.9A CN104732978B (zh) 2015-03-12 2015-03-12 基于联合深度学习的文本相关的说话人识别方法

Publications (2)

Publication Number Publication Date
CN104732978A true CN104732978A (zh) 2015-06-24
CN104732978B CN104732978B (zh) 2018-05-08

Family

ID=53456817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510107647.9A Active CN104732978B (zh) 2015-03-12 2015-03-12 基于联合深度学习的文本相关的说话人识别方法

Country Status (1)

Country Link
CN (1) CN104732978B (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160229A (zh) * 2015-09-01 2015-12-16 武汉同迅智能科技有限公司 一种具有语音和指纹双重鉴权的单兵系统
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN105869644A (zh) * 2016-05-25 2016-08-17 百度在线网络技术(北京)有限公司 基于深度学习的声纹认证方法和装置
CN106019230A (zh) * 2016-05-27 2016-10-12 南京邮电大学 一种基于i-vector说话人识别的声源定位方法
CN106024011A (zh) * 2016-05-19 2016-10-12 仲恺农业工程学院 一种基于moas的深层特征提取方法
CN106098059A (zh) * 2016-06-23 2016-11-09 上海交通大学 可定制语音唤醒方法及系统
CN106095733A (zh) * 2016-06-23 2016-11-09 闽江学院 一种改进的基于深度学习的自然语言特征精确提取方法
CN106601238A (zh) * 2015-10-14 2017-04-26 阿里巴巴集团控股有限公司 一种应用操作的处理方法和装置
WO2017076211A1 (zh) * 2015-11-05 2017-05-11 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN106683680A (zh) * 2017-03-10 2017-05-17 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
CN106960185A (zh) * 2017-03-10 2017-07-18 陕西师范大学 线性判别深度信念网络的多姿态人脸识别方法
CN107146624A (zh) * 2017-04-01 2017-09-08 清华大学 一种说话人确认方法及装置
CN107452403A (zh) * 2017-09-12 2017-12-08 清华大学 一种说话人标记方法
CN107492382A (zh) * 2016-06-13 2017-12-19 阿里巴巴集团控股有限公司 基于神经网络的声纹信息提取方法及装置
CN108140386A (zh) * 2016-07-15 2018-06-08 谷歌有限责任公司 说话者验证
CN108417217A (zh) * 2018-01-11 2018-08-17 苏州思必驰信息科技有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN109155132A (zh) * 2016-03-21 2019-01-04 亚马逊技术公司 说话者验证方法和系统
CN109377984A (zh) * 2018-11-22 2019-02-22 北京中科智加科技有限公司 一种基于ArcFace的语音识别方法及装置
CN109545227A (zh) * 2018-04-28 2019-03-29 华中师范大学 基于深度自编码网络的说话人性别自动识别方法及系统
CN109903774A (zh) * 2019-04-12 2019-06-18 南京大学 一种基于角度间隔损失函数的声纹识别方法
CN110033757A (zh) * 2019-04-04 2019-07-19 行知技术有限公司 一种人声识别算法
CN110047468A (zh) * 2019-05-20 2019-07-23 北京达佳互联信息技术有限公司 语音识别方法、装置及存储介质
CN110164452A (zh) * 2018-10-10 2019-08-23 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN110598840A (zh) * 2018-06-13 2019-12-20 富士通株式会社 知识迁移方法、信息处理设备以及存储介质
CN110719158A (zh) * 2019-09-11 2020-01-21 南京航空航天大学 基于联合学习的边缘计算隐私保护系统及保护方法
CN111081255A (zh) * 2019-12-31 2020-04-28 苏州思必驰信息科技有限公司 说话人确认方法和装置
CN111462762A (zh) * 2020-03-25 2020-07-28 清华大学 一种说话人向量正则化方法、装置、电子设备和存储介质
CN111667836A (zh) * 2020-06-19 2020-09-15 南京大学 基于深度学习的文本无关多标号说话人识别方法
CN111933155A (zh) * 2020-09-18 2020-11-13 北京爱数智慧科技有限公司 声纹识别模型训练方法、装置和计算机系统
CN112071301A (zh) * 2020-09-17 2020-12-11 北京嘀嘀无限科技发展有限公司 语音合成的处理方法、装置、设备及存储介质
CN113241081A (zh) * 2021-04-25 2021-08-10 华南理工大学 一种基于梯度反转层的远场说话人认证方法及系统
CN113705671A (zh) * 2021-08-27 2021-11-26 厦门大学 一种基于文本相关信息感知的说话人识别方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0369485A2 (en) * 1988-11-17 1990-05-23 Sekisui Kagaku Kogyo Kabushiki Kaisha Speaker recognition system
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN104008751A (zh) * 2014-06-18 2014-08-27 周婷婷 一种基于bp神经网络的说话人识别方法
CN104143327A (zh) * 2013-07-10 2014-11-12 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
US9530417B2 (en) * 2013-01-04 2016-12-27 Stmicroelectronics Asia Pacific Pte Ltd. Methods, systems, and circuits for text independent speaker recognition with automatic learning features

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0369485A2 (en) * 1988-11-17 1990-05-23 Sekisui Kagaku Kogyo Kabushiki Kaisha Speaker recognition system
US9530417B2 (en) * 2013-01-04 2016-12-27 Stmicroelectronics Asia Pacific Pte Ltd. Methods, systems, and circuits for text independent speaker recognition with automatic learning features
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN104143327A (zh) * 2013-07-10 2014-11-12 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
CN104008751A (zh) * 2014-06-18 2014-08-27 周婷婷 一种基于bp神经网络的说话人识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GEOFFREY HINTON等: ""Deep Neural Networks for Acoustic Modeling in Speech Recognition The Shared Views of Four Research Groups"", 《IEEE SIGNAL PROCESSING MAGAZINE》 *

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160229A (zh) * 2015-09-01 2015-12-16 武汉同迅智能科技有限公司 一种具有语音和指纹双重鉴权的单兵系统
CN106601238A (zh) * 2015-10-14 2017-04-26 阿里巴巴集团控股有限公司 一种应用操作的处理方法和装置
WO2017076211A1 (zh) * 2015-11-05 2017-05-11 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN106683661A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN109155132A (zh) * 2016-03-21 2019-01-04 亚马逊技术公司 说话者验证方法和系统
CN109155132B (zh) * 2016-03-21 2023-05-30 亚马逊技术公司 说话者验证方法和系统
CN106024011A (zh) * 2016-05-19 2016-10-12 仲恺农业工程学院 一种基于moas的深层特征提取方法
WO2017201912A1 (zh) * 2016-05-25 2017-11-30 百度在线网络技术(北京)有限公司 基于深度学习的声纹认证方法和装置
CN105869644A (zh) * 2016-05-25 2016-08-17 百度在线网络技术(北京)有限公司 基于深度学习的声纹认证方法和装置
CN106019230A (zh) * 2016-05-27 2016-10-12 南京邮电大学 一种基于i-vector说话人识别的声源定位方法
CN107492382A (zh) * 2016-06-13 2017-12-19 阿里巴巴集团控股有限公司 基于神经网络的声纹信息提取方法及装置
CN106095733A (zh) * 2016-06-23 2016-11-09 闽江学院 一种改进的基于深度学习的自然语言特征精确提取方法
CN106098059B (zh) * 2016-06-23 2019-06-18 上海交通大学 可定制语音唤醒方法及系统
CN106098059A (zh) * 2016-06-23 2016-11-09 上海交通大学 可定制语音唤醒方法及系统
CN106095733B (zh) * 2016-06-23 2019-01-25 闽江学院 一种改进的基于深度学习的自然语言特征精确提取方法
CN108140386A (zh) * 2016-07-15 2018-06-08 谷歌有限责任公司 说话者验证
CN108140386B (zh) * 2016-07-15 2021-11-23 谷歌有限责任公司 说话者验证
CN106683680A (zh) * 2017-03-10 2017-05-17 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
CN106960185B (zh) * 2017-03-10 2019-10-25 陕西师范大学 线性判别深度信念网络的多姿态人脸识别方法
CN106960185A (zh) * 2017-03-10 2017-07-18 陕西师范大学 线性判别深度信念网络的多姿态人脸识别方法
US10957339B2 (en) 2017-03-10 2021-03-23 Baidu Online Network Technology (Beijing) Co., Ltd. Speaker recognition method and apparatus, computer device and computer-readable medium
CN107146624A (zh) * 2017-04-01 2017-09-08 清华大学 一种说话人确认方法及装置
CN107146624B (zh) * 2017-04-01 2019-11-22 清华大学 一种说话人确认方法及装置
CN107452403A (zh) * 2017-09-12 2017-12-08 清华大学 一种说话人标记方法
CN107452403B (zh) * 2017-09-12 2020-07-07 清华大学 一种说话人标记方法
CN108417217B (zh) * 2018-01-11 2021-07-13 思必驰科技股份有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN108417217A (zh) * 2018-01-11 2018-08-17 苏州思必驰信息科技有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN109545227A (zh) * 2018-04-28 2019-03-29 华中师范大学 基于深度自编码网络的说话人性别自动识别方法及系统
CN109545227B (zh) * 2018-04-28 2023-05-09 华中师范大学 基于深度自编码网络的说话人性别自动识别方法及系统
CN110598840B (zh) * 2018-06-13 2023-04-18 富士通株式会社 知识迁移方法、信息处理设备以及存储介质
CN110598840A (zh) * 2018-06-13 2019-12-20 富士通株式会社 知识迁移方法、信息处理设备以及存储介质
CN110289003B (zh) * 2018-10-10 2021-10-29 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
US11508381B2 (en) 2018-10-10 2022-11-22 Tencent Technology (Shenzhen) Company Limited Voiceprint recognition method, model training method, and server
CN110164452A (zh) * 2018-10-10 2019-08-23 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN110164452B (zh) * 2018-10-10 2023-03-10 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN110289003A (zh) * 2018-10-10 2019-09-27 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN109377984A (zh) * 2018-11-22 2019-02-22 北京中科智加科技有限公司 一种基于ArcFace的语音识别方法及装置
CN109377984B (zh) * 2018-11-22 2022-05-03 北京中科智加科技有限公司 一种基于ArcFace的语音识别方法及装置
CN110033757A (zh) * 2019-04-04 2019-07-19 行知技术有限公司 一种人声识别算法
CN109903774A (zh) * 2019-04-12 2019-06-18 南京大学 一种基于角度间隔损失函数的声纹识别方法
CN110047468A (zh) * 2019-05-20 2019-07-23 北京达佳互联信息技术有限公司 语音识别方法、装置及存储介质
CN110719158A (zh) * 2019-09-11 2020-01-21 南京航空航天大学 基于联合学习的边缘计算隐私保护系统及保护方法
CN111081255A (zh) * 2019-12-31 2020-04-28 苏州思必驰信息科技有限公司 说话人确认方法和装置
CN111462762B (zh) * 2020-03-25 2023-02-24 清华大学 一种说话人向量正则化方法、装置、电子设备和存储介质
CN111462762A (zh) * 2020-03-25 2020-07-28 清华大学 一种说话人向量正则化方法、装置、电子设备和存储介质
CN111667836A (zh) * 2020-06-19 2020-09-15 南京大学 基于深度学习的文本无关多标号说话人识别方法
CN112071301B (zh) * 2020-09-17 2022-04-08 北京嘀嘀无限科技发展有限公司 语音合成的处理方法、装置、设备及存储介质
CN112071301A (zh) * 2020-09-17 2020-12-11 北京嘀嘀无限科技发展有限公司 语音合成的处理方法、装置、设备及存储介质
CN111933155B (zh) * 2020-09-18 2020-12-25 北京爱数智慧科技有限公司 声纹识别模型训练方法、装置和计算机系统
CN111933155A (zh) * 2020-09-18 2020-11-13 北京爱数智慧科技有限公司 声纹识别模型训练方法、装置和计算机系统
CN113241081A (zh) * 2021-04-25 2021-08-10 华南理工大学 一种基于梯度反转层的远场说话人认证方法及系统
CN113241081B (zh) * 2021-04-25 2023-06-16 华南理工大学 一种基于梯度反转层的远场说话人认证方法及系统
CN113705671A (zh) * 2021-08-27 2021-11-26 厦门大学 一种基于文本相关信息感知的说话人识别方法与系统
CN113705671B (zh) * 2021-08-27 2023-08-29 厦门大学 一种基于文本相关信息感知的说话人识别方法与系统

Also Published As

Publication number Publication date
CN104732978B (zh) 2018-05-08

Similar Documents

Publication Publication Date Title
CN104732978A (zh) 基于联合深度学习的文本相关的说话人识别方法
CN105938716B (zh) 一种基于多精度拟合的样本复制语音自动检测方法
KR20180104595A (ko) 성문 식별 방법, 장치, 저장 매체 및 백스테이지 서버
CN105869630A (zh) 基于深度学习的说话人语音欺骗攻击检测方法及系统
US20170154640A1 (en) Method and electronic device for voice recognition based on dynamic voice model selection
CN106448684A (zh) 基于深度置信网络特征矢量的信道鲁棒声纹识别系统
CN102968990B (zh) 说话人识别方法和系统
CN105261367B (zh) 一种说话人识别方法
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN109920435B (zh) 一种声纹识别方法及声纹识别装置
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN108899033B (zh) 一种确定说话人特征的方法及装置
CN107784215B (zh) 基于智能终端的声音装置进行唇读的用户认证方法及系统
CN104221079A (zh) 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
CN108198561A (zh) 一种基于卷积神经网络的翻录语音检测方法
CN111081223B (zh) 一种语音识别方法、装置、设备和存储介质
CN109378014A (zh) 一种基于卷积神经网络的移动设备源识别方法及系统
CN110265035A (zh) 一种基于深度学习的说话人识别方法
CN108831506A (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
CN107358947A (zh) 说话人重识别方法及系统
CN111816185A (zh) 一种对混合语音中说话人的识别方法及装置
CN105679323B (zh) 一种号码发现方法及系统
Ramgire et al. A survey on speaker recognition with various feature extraction and classification techniques
Sekkate et al. Speaker identification for OFDM-based aeronautical communication system
Lei et al. Speaker Recognition Using Wavelet Packet Entropy, I‐Vector, and Cosine Distance Scoring

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200624

Address after: Room 105G, 199 GuoShoujing Road, Pudong New Area, Shanghai, 200120

Co-patentee after: AI SPEECH Co.,Ltd.

Patentee after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 200240 Dongchuan Road, Shanghai, No. 800, No.

Co-patentee before: AI SPEECH Co.,Ltd.

Patentee before: SHANGHAI JIAO TONG University

TR01 Transfer of patent right

Effective date of registration: 20201102

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: AI SPEECH Co.,Ltd.

Address before: Room 105G, 199 GuoShoujing Road, Pudong New Area, Shanghai, 200120

Patentee before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Patentee before: AI SPEECH Co.,Ltd.

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee before: AI SPEECH Co.,Ltd.

CP01 Change in the name or title of a patent holder
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Text dependent speaker recognition method based on joint deep learning

Effective date of registration: 20230726

Granted publication date: 20180508

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433

PE01 Entry into force of the registration of the contract for pledge of patent right