CN105869644A - 基于深度学习的声纹认证方法和装置 - Google Patents

基于深度学习的声纹认证方法和装置 Download PDF

Info

Publication number
CN105869644A
CN105869644A CN201610353878.2A CN201610353878A CN105869644A CN 105869644 A CN105869644 A CN 105869644A CN 201610353878 A CN201610353878 A CN 201610353878A CN 105869644 A CN105869644 A CN 105869644A
Authority
CN
China
Prior art keywords
vector
feature
speaker
voice
vector feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610353878.2A
Other languages
English (en)
Inventor
吴本谷
李超
关勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610353878.2A priority Critical patent/CN105869644A/zh
Publication of CN105869644A publication Critical patent/CN105869644A/zh
Priority to US16/096,049 priority patent/US20190130918A1/en
Priority to PCT/CN2016/098127 priority patent/WO2017201912A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明提出一种基于深度学习的声纹认证方法和装置,该基于深度学习的声纹认证方法包括:接收说话人的语音;提取所述语音的d‑vector特征;获取所述说话人在注册阶段确定的d‑vector特征;计算上述两个d‑vector特征之间的匹配值;如果所述匹配值大于或等于阈值,则确定所述说话人通过认证。该方法能够提高声纹认证的效果。

Description

基于深度学习的声纹认证方法和装置
技术领域
本发明涉及语音处理技术领域,尤其涉及一种基于深度学习的声纹认证方法和装置。
背景技术
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。声纹认证是指根据说话人发出的语音中的声纹特征,对说话人进行身份认证。
相关技术中,通常基于梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)或感知加权线性预测(Perceptual Linear Predictive,PLP)特征,以及高斯混合模型(Gaussian Mixture Model,GMM)进行声纹认证。相关技术中的声纹认证效果有待提高。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于深度学习的声纹认证方法,该方法可以提高声纹认证的效果。
本发明的另一个目的在于提出一种基于深度学习的声纹认证装置。
为达到上述目的,本发明第一方面实施例提出的基于深度学习的声纹认证方法,包括:接收说话人的语音;提取所述语音的d-vector特征;获取所述说话人在注册阶段确定的d-vector特征;计算上述两个d-vector特征之间的匹配值;如果所述匹配值大于或等于阈值,则确定所述说话人通过认证。
本发明第一方面实施例提出的基于深度学习的声纹认证方法,基于d-vector特征进行声纹认证,由于d-vector特征是通过DNN网络得到的,相对于GMM模型可以得到更有效的声纹特征,因此,可以提高声纹认证的效果。
为达到上述目的,本发明第二方面实施例提出的基于深度学习的声纹认证装置,包括:接收模块,用于接收说话人的语音;第一提取模块,用于提取所述语音的d-vector特征;第一获取模块,用于获取所述说话人在注册阶段确定的d-vector特征;第一计算模块,用于计算上述两个d-vector特征之间的匹配值;认证模块,用于如果所述匹配值大于或等于阈值,则确定所述说话人通过认证。
本发明第二方面实施例提出的基于深度学习的声纹认证装置,基于d-vector特征进行声纹认证,由于d-vector特征是通过DNN网络得到的,相对于GMM模型可以得到更有效的声纹特征,因此,可以提高声纹认证的效果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例提出的基于深度学习的声纹认证方法的流程示意图;
图2是本发明实施例中采用的DNN的示意图;
图3是本发明实施例中注册阶段的流程示意图;
图4是本发明一个实施例提出的基于深度学习声纹认证装置的结构示意图;
图5是本发明一个实施例提出的基于深度学习声纹认证装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一个实施例提出的基于深度学习的声纹认证方法的流程示意图。
参见图1,本实施例的方法包括:
S11:接收说话人的语音。
其中,认证可以分为文本有关或文本无关,文本有关时,说话人可以根据提示或固定内容发出相应的语音,文本无关时可以不限制的发出语音。
S12:提取所述语音的d-vector特征。
其中,d-vector特征是通过深度神经网络(Deep Neural Network,DNN)提取的一种特征,具体是DNN中最后一层隐层的输出。
DNN的示意图可以参见图2。如图2所示,DNN可以分为输入层21、隐层22和输出层23。
其中,输入层用于接收从语音中提取的输入特征,如大小为41*40的FBANK特征,输出层的节点个数与说话人个数相同,每个节点对应一个说话人。隐层的层数可以设置。DNN可以具体采用全连接方式。
其中,FBANK特征是对数域的Mel滤波器的输出为声学特征,即Filter-bank特征。
如图2所示,在需要提取语音的d-vector特征时,可以先提取该语音的FBANK特征,再将FBANK特征输入到DNN输入层,经过参数已确定(通过模型训练确定)的DNN,可以得到最后一个隐层的输出24,将该输出确定为d-vector特征。从该流程可以看出,在确定语音的d-vector特征时,不需要使用DNN的输出层。而在训练模型时会用到输出层,当然还会用到输入层和隐层等。
S13:获取所述说话人在注册阶段确定的d-vector特征。
其中,在认证阶段,还可以获取说话人的身份标识,而在注册阶段,可以对应保存身份标识和d-vector特征,从而可以根据身份标识获取到注册阶段确定的d-vector特征。
其中,在认证阶段之前可以先进行注册。
参见图3,说话人的注册流程可以包括:
S31:获取所述说话人在注册阶段发出的多条语音。
例如,在注册阶段,每个说话人可以发出多条语音,客户端接收到语音后可以发送给服务端进行处理。
S32:对应每条语音提取d-vector特征,得到多个d-vector特征。
其中,服务端在接收到每条语音后,可以提取该语音的d-vector特征,从而当语音为多条时,d-vector特征也为多个。
服务端在提取语音的d-vector特征时,可以采用图2所示的DNN(具体不使用最后的输出层)进行提取,具体内容可以参见上述相关描述,在此不再详细说明。
S33:将多个d-vector特征求平均,确定为所述说话人在注册阶段确定的d-vector特征。
进一步的,注册流程还可以包括:
S34:获取所述说话人的身份标识。
例如,说话人在注册时可以输入账号等身份标识。
S35:存储所述身份标识和所述注册阶段确定的d-vector特征,并建立身份标识和d-vector之间的对应关系。
例如,说话人的身份标识是ID1,经过上述计算得到的d-vector的均值是d-vector-avg,则可以存储ID1和d-vector-avg,且建立ID1与d-vector-avg的对应关系。
S14:计算上述两个d-vector特征之间的匹配值。
例如,在认证阶段提取出的d-vector特征用d-vector1表示,注册阶段确定的d-vector特征,如上述的均值用d-vector2表示,则可以计算d-vector1与d-vector2之间的匹配值。
由于d-vector1和d-vector2都是向量,因此可以采用向量间匹配度的计算方式,例如,采用余弦距离、线性鉴别分析(Linear Discriminant Analysis,LDA)等。
S15:如果所述匹配值大于或等于阈值,则确定所述说话人通过认证。
另一方面,如果所述匹配值小于阈值,则确定所述说话人未通过认证。
本实施例中,基于d-vector特征进行声纹认证,由于d-vector特征是通过DNN网络得到的,相对于GMM模型可以得到更有效的声纹特征,因此,可以提高声纹认证的效果。
图4是本发明一个实施例提出的基于深度学习的声纹认证装置的结构示意图。
参见图4,本实施例的装置40包括:接收模块401、第一提取模块402、第一获取模块403、第一计算模块404和认证模块405。
接收模块401,用于接收说话人的语音;
第一提取模块402,用于提取所述语音的d-vector特征;
第一获取模块403,用于获取所述说话人在注册阶段确定的d-vector特征;
第一计算模块404,用于计算上述两个d-vector特征之间的匹配值;
认证模块405,用于如果所述匹配值大于或等于阈值,则确定所述说话人通过认证。
一些实施例中,参见图5,该装置40还包括:
第二获取模块406,用于获取所述说话人在注册阶段发出的多条语音;
第二提取模块407,用于对应每条语音提取d-vector特征,得到多个d-vector特征;
第二计算模块408,用于将多个d-vector特征求平均,确定为所述说话人在注册阶段确定的d-vector特征。
一些实施例中,参见图5,该装置40还包括:
第三获取模块409,用于在注册阶段,获取所述说话人的身份标识;
存储模块410,用于存储所述身份标识和所述注册阶段确定的d-vector特征,并建立身份标识和d-vector之间的对应关系。
一些实施例中,所述第一获取模块403具体用于:
接收说话人的语音后,获取所述说话人的身份标识;
根据所述对应关系,获取与所述身份标识对应的d-vector特征。
一些实施例中,所述第一提取模块402具体用于:
提取语音的输入特征;
采用预先确定的DNN和所述输入特征,得到DNN的最后一层隐层的输出,将所述输出确定为所述d-vector特征。
一些实施例中,所述输入特征包括:
FBANK特征。
可以理解的是,本实施例的装置与上述方法实施例对应,具体内容可以参见相关描述,在此不再详细说明。
本实施例中,基于d-vector特征进行声纹认证,由于d-vector特征是通过DNN网络得到的,相对于GMM模型可以得到更有效的声纹特征,因此,可以提高声纹认证的效果。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种基于深度学习的声纹认证方法,其特征在于,包括:
接收说话人的语音;
提取所述语音的d-vector特征;
获取所述说话人在注册阶段确定的d-vector特征;
计算上述两个d-vector特征之间的匹配值;
如果所述匹配值大于或等于阈值,则确定所述说话人通过认证。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取所述说话人在注册阶段发出的多条语音;
对应每条语音提取d-vector特征,得到多个d-vector特征;
将多个d-vector特征求平均,确定为所述说话人在注册阶段确定的d-vector特征。
3.根据权利要求2所述的方法,其特征在于,还包括:
在注册阶段,获取所述说话人的身份标识;
存储所述身份标识和所述注册阶段确定的d-vector特征,并建立身份标识和d-vector之间的对应关系。
4.根据权利要求3所述的方法,其特征在于,所述获取所述说话人在注册阶段确定的d-vector特征,包括:
接收说话人的语音后,获取所述说话人的身份标识;
根据所述对应关系,获取与所述身份标识对应的d-vector特征。
5.根据权利要求1-4任一项所述的方法,其特征在于,提取语音的d-vector特征包括:
提取语音的输入特征;
采用预先确定的DNN和所述输入特征,得到DNN的最后一层隐层的输出,将所述输出确定为所述d-vector特征。
6.根据权利要求5所述的方法,其特征在于,所述输入特征包括:
FBANK特征。
7.一种基于深度学习的声纹认证装置,其特征在于,包括:
接收模块,用于接收说话人的语音;
第一提取模块,用于提取所述语音的d-vector特征;
第一获取模块,用于获取所述说话人在注册阶段确定的d-vector特征;
第一计算模块,用于计算上述两个d-vector特征之间的匹配值;
认证模块,用于如果所述匹配值大于或等于阈值,则确定所述说话人通过认证。
8.根据权利要求7所述的装置,其特征在于,还包括:
第二获取模块,用于获取所述说话人在注册阶段发出的多条语音;
第二提取模块,用于对应每条语音提取d-vector特征,得到多个d-vector特征;
第二计算模块,用于将多个d-vector特征求平均,确定为所述说话人在注册阶段确定的d-vector特征。
9.根据权利要求8所述的装置,其特征在于,还包括:
第三获取模块,用于在注册阶段,获取所述说话人的身份标识;
存储模块,用于存储所述身份标识和所述注册阶段确定的d-vector特征,并建立身份标识和d-vector之间的对应关系。
10.根据权利要求9所述的装置,其特征在于,所述第一获取模块具体用于:
接收说话人的语音后,获取所述说话人的身份标识;
根据所述对应关系,获取与所述身份标识对应的d-vector特征。
11.根据权利要求7-10任一项所述的装置,其特征在于,所述第一提取模块具体用于:
提取语音的输入特征;
采用预先确定的DNN和所述输入特征,得到DNN的最后一层隐层的输出,将所述输出确定为所述d-vector特征。
12.根据权利要求11所述的装置,其特征在于,所述输入特征包括:
FBANK特征。
CN201610353878.2A 2016-05-25 2016-05-25 基于深度学习的声纹认证方法和装置 Pending CN105869644A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610353878.2A CN105869644A (zh) 2016-05-25 2016-05-25 基于深度学习的声纹认证方法和装置
US16/096,049 US20190130918A1 (en) 2016-05-25 2016-09-05 Voiceprint authentication method based on deep learning and terminal
PCT/CN2016/098127 WO2017201912A1 (zh) 2016-05-25 2016-09-05 基于深度学习的声纹认证方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610353878.2A CN105869644A (zh) 2016-05-25 2016-05-25 基于深度学习的声纹认证方法和装置

Publications (1)

Publication Number Publication Date
CN105869644A true CN105869644A (zh) 2016-08-17

Family

ID=56635995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610353878.2A Pending CN105869644A (zh) 2016-05-25 2016-05-25 基于深度学习的声纹认证方法和装置

Country Status (3)

Country Link
US (1) US20190130918A1 (zh)
CN (1) CN105869644A (zh)
WO (1) WO2017201912A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017201912A1 (zh) * 2016-05-25 2017-11-30 百度在线网络技术(北京)有限公司 基于深度学习的声纹认证方法和装置
CN107527620A (zh) * 2017-07-25 2017-12-29 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN108447489A (zh) * 2018-04-17 2018-08-24 清华大学 一种带反馈的连续声纹认证方法及系统
CN108766442A (zh) * 2018-06-15 2018-11-06 清华大学 一种基于声纹图形标识的身份认证方法及装置
CN109215643A (zh) * 2017-07-05 2019-01-15 阿里巴巴集团控股有限公司 一种交互方法、电子设备及服务器
CN109473105A (zh) * 2018-10-26 2019-03-15 平安科技(深圳)有限公司 与文本无关的声纹验证方法、装置和计算机设备
CN109801636A (zh) * 2019-01-29 2019-05-24 北京猎户星空科技有限公司 声纹识别模型的训练方法、装置、电子设备及存储介质
CN110010133A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 基于短文本的声纹检测方法、装置、设备及存储介质
CN110827453A (zh) * 2019-11-18 2020-02-21 成都启英泰伦科技有限公司 一种指纹声纹双重认证方法及认证系统
CN111048097A (zh) * 2019-12-19 2020-04-21 中国人民解放军空军研究院通信与导航研究所 一种基于3d卷积的孪生网络声纹识别方法
CN111933153A (zh) * 2020-07-07 2020-11-13 北京捷通华声科技股份有限公司 一种语音分割点的确定方法和装置
CN113393847A (zh) * 2021-05-27 2021-09-14 杭州电子科技大学 基于Fbank特征和MFCC特征融合的声纹识别方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111630934B (zh) * 2018-01-22 2023-10-13 诺基亚技术有限公司 隐私保护的声纹认证装置和方法
KR20210073975A (ko) 2019-12-11 2021-06-21 삼성전자주식회사 화자를 인식하는 방법 및 장치
US11899765B2 (en) 2019-12-23 2024-02-13 Dts Inc. Dual-factor identification system and method with adaptive enrollment
US11700250B2 (en) * 2020-10-14 2023-07-11 Paypal, Inc. Voice vector framework for authenticating user interactions
CN112738344B (zh) * 2020-12-28 2022-12-09 北京三快在线科技有限公司 一种识别用户身份的方法、装置、存储介质及电子设备
US11798562B2 (en) * 2021-05-16 2023-10-24 Google Llc Attentive scoring function for speaker identification
CN116610062B (zh) * 2023-07-20 2023-11-03 钛玛科(北京)工业科技有限公司 一种传感器自动对中的语音控制系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103247197A (zh) * 2013-03-29 2013-08-14 上海众实科技发展有限公司 一种基于声纹识别的用户在线学习监测方法
CN104036780A (zh) * 2013-03-05 2014-09-10 阿里巴巴集团控股有限公司 一种人机识别方法及系统
CN104598796A (zh) * 2015-01-30 2015-05-06 科大讯飞股份有限公司 身份识别方法及系统
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN105244031A (zh) * 2015-10-26 2016-01-13 北京锐安科技有限公司 说话人识别方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542948B2 (en) * 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN105869644A (zh) * 2016-05-25 2016-08-17 百度在线网络技术(北京)有限公司 基于深度学习的声纹认证方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036780A (zh) * 2013-03-05 2014-09-10 阿里巴巴集团控股有限公司 一种人机识别方法及系统
CN103247197A (zh) * 2013-03-29 2013-08-14 上海众实科技发展有限公司 一种基于声纹识别的用户在线学习监测方法
CN104598796A (zh) * 2015-01-30 2015-05-06 科大讯飞股份有限公司 身份识别方法及系统
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN105244031A (zh) * 2015-10-26 2016-01-13 北京锐安科技有限公司 说话人识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EHSAN VARIANI ET AL.: "《Deep neural networks for small footprint text-dependent speaker verification》", 《2014 ICASSP》 *
LANTIAN LI ET AL.: "《Improved deep speaker feature learning for text-dependent speaker recognition》", 《PROCEEDINGS OF APSIPA ANNUAL SUMMIT AND CONFERENCE 2015》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017201912A1 (zh) * 2016-05-25 2017-11-30 百度在线网络技术(北京)有限公司 基于深度学习的声纹认证方法和装置
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN109215643A (zh) * 2017-07-05 2019-01-15 阿里巴巴集团控股有限公司 一种交互方法、电子设备及服务器
CN109215643B (zh) * 2017-07-05 2023-10-24 阿里巴巴集团控股有限公司 一种交互方法、电子设备及服务器
CN107527620A (zh) * 2017-07-25 2017-12-29 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
CN107527620B (zh) * 2017-07-25 2019-03-26 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
CN108447489B (zh) * 2018-04-17 2020-05-22 清华大学 一种带反馈的连续声纹认证方法及系统
CN108447489A (zh) * 2018-04-17 2018-08-24 清华大学 一种带反馈的连续声纹认证方法及系统
CN108766442A (zh) * 2018-06-15 2018-11-06 清华大学 一种基于声纹图形标识的身份认证方法及装置
CN108766442B (zh) * 2018-06-15 2020-11-06 清华大学 一种基于声纹图形标识的身份认证方法及装置
CN109473105A (zh) * 2018-10-26 2019-03-15 平安科技(深圳)有限公司 与文本无关的声纹验证方法、装置和计算机设备
CN109801636A (zh) * 2019-01-29 2019-05-24 北京猎户星空科技有限公司 声纹识别模型的训练方法、装置、电子设备及存储介质
CN110010133A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 基于短文本的声纹检测方法、装置、设备及存储介质
CN110827453A (zh) * 2019-11-18 2020-02-21 成都启英泰伦科技有限公司 一种指纹声纹双重认证方法及认证系统
CN111048097A (zh) * 2019-12-19 2020-04-21 中国人民解放军空军研究院通信与导航研究所 一种基于3d卷积的孪生网络声纹识别方法
CN111933153A (zh) * 2020-07-07 2020-11-13 北京捷通华声科技股份有限公司 一种语音分割点的确定方法和装置
CN111933153B (zh) * 2020-07-07 2024-03-08 北京捷通华声科技股份有限公司 一种语音分割点的确定方法和装置
CN113393847A (zh) * 2021-05-27 2021-09-14 杭州电子科技大学 基于Fbank特征和MFCC特征融合的声纹识别方法
CN113393847B (zh) * 2021-05-27 2022-11-15 杭州电子科技大学 基于Fbank特征和MFCC特征融合的声纹识别方法

Also Published As

Publication number Publication date
US20190130918A1 (en) 2019-05-02
WO2017201912A1 (zh) 2017-11-30

Similar Documents

Publication Publication Date Title
CN105869644A (zh) 基于深度学习的声纹认证方法和装置
EP3469582B1 (en) Neural network-based voiceprint information extraction method and apparatus
CN105118498B (zh) 语音合成模型的训练方法及装置
CN108766445A (zh) 声纹识别方法及系统
US11862176B2 (en) Reverberation compensation for far-field speaker recognition
CN110473566A (zh) 音频分离方法、装置、电子设备及计算机可读存储介质
CN107680582A (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN107610707A (zh) 一种声纹识别方法及装置
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN106782501A (zh) 基于人工智能的语音特征提取方法和装置
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN106710599A (zh) 一种基于深度神经网络的特定声源检测方法与系统
Yang et al. Modified magnitude-phase spectrum information for spoofing detection
CN104765996B (zh) 声纹密码认证方法及系统
Stastny et al. Automatic bird species recognition based on birds vocalization
CN106504768A (zh) 基于人工智能的电话拨测音频分类方法及装置
Fontes et al. Classification system of pathological voices using correntropy
CN108364662A (zh) 基于成对鉴别任务的语音情感识别方法与系统
CN110473571A (zh) 基于短视频语音的情感识别方法和装置
El-Moneim et al. Text-dependent and text-independent speaker recognition of reverberant speech based on CNN
CN116778967A (zh) 基于预训练模型的多模态情感识别方法及装置
Sekkate et al. A statistical feature extraction for deep speech emotion recognition in a bilingual scenario
Qais et al. Deepfake audio detection with neural networks using audio features
Hu et al. Speaker recognition based on short utterance compensation method of generative adversarial networks
CN106128464B (zh) Ubm分字模型的建立方法、声纹特征生成方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160817