CN105933323B - 声纹注册、认证方法及装置 - Google Patents

声纹注册、认证方法及装置 Download PDF

Info

Publication number
CN105933323B
CN105933323B CN201610384014.7A CN201610384014A CN105933323B CN 105933323 B CN105933323 B CN 105933323B CN 201610384014 A CN201610384014 A CN 201610384014A CN 105933323 B CN105933323 B CN 105933323B
Authority
CN
China
Prior art keywords
character
user
model
sound
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610384014.7A
Other languages
English (en)
Other versions
CN105933323A (zh
Inventor
李超
吴本谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610384014.7A priority Critical patent/CN105933323B/zh
Priority to PCT/CN2016/096479 priority patent/WO2017206375A1/zh
Priority to US16/094,859 priority patent/US11348590B2/en
Publication of CN105933323A publication Critical patent/CN105933323A/zh
Application granted granted Critical
Publication of CN105933323B publication Critical patent/CN105933323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0815Network architectures or network communication protocols for network security for authentication of entities providing single-sign-on or federations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1073Registration or de-registration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3231Biological data, e.g. fingerprint, voice or retina
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)
  • Collating Specific Patterns (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种声纹注册、认证方法及装置,其中注册方法包括:对用户语音输入的注册字符串进行帧对齐,提取每个字符的声学特征;将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计;通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征;将所有字符的矢量特征进行顺序拼接,获取用户的注册声纹模型。通过该发明实施例,分别对注册字符串中的各字符进行特征处理,提高声纹注册模型的准确性。

Description

声纹注册、认证方法及装置
技术领域
本发明涉及语音处理技术领域,尤其涉及一种声纹注册、认证方法及装置。
背景技术
目前,通过声纹作为密码以进行登录验证网站登录系统越来越多,具体地,注册时系统会提示一定长度的字符串,用户需要朗诵字符串若干遍来完成注册;登陆的时候,系统会提示系统的字符串,用户朗诵一遍,如果声纹验证一致,则认为是用户本人,予以通过,否则不通过。
然而,在注册声纹模型建立的时候,如果用户使用过程中有大量的噪声或者停顿,会影响声纹注册模型的准确性,声纹系统的性能将下降明显。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种声纹注册方法,该方法分别对注册字符串中的各字符进行特征处理,提高声纹注册模型的准确性。
本发明的第二个目的在于提出了一种声纹认证方法。
本发明的第三个目的在于提出了一种声纹注册装置。
本发明的第四个目的在于提出了一种声纹认证装置。
为达上述目的,根据本发明第一方面实施例提出的一种声纹注册方法,包括以下步骤:对用户语音输入的注册字符串进行帧对齐,提取每个字符的声学特征;将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW(Baum-Welch)统计;通过预设的多个字符的矢量特征(identity-vector,i-vector)提取器分别提取每个字符的矢量特征;将所有字符的矢量特征进行顺序拼接,获取所述用户的注册声纹模型。
本发明实施例的声纹注册方法,首先提取每个字符的声学特征,接着将每个字符的声学特征进行BW统计,再通过预设每个字符的矢量特征提取器提取每个字符的矢量特征后将所有字符的矢量特征进行顺序拼接,获取用户的注册声纹模型。该方法分别对注册字符串中的各字符进行特征处理,提高声纹注册模型的准确性。
为达上述目的,根据本发明的第二方面实施例提出的一种声纹认证方法,包括:对用户语音输入的认证字符串进行帧对齐,提取每个字符的声学特征;将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计;通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征;将所有字符的矢量特征进行顺序拼接,获取所述用户的认证声纹模型;将预存的所述用户的注册声纹模型与所述认证声纹模型进行匹配,根据匹配结果确定所述用户是否合法。
本发明实施例的声纹认证方法,首先提取每个字符的声学特征,接着将每个字符的声学特征进行BW统计,再通过预设每个字符的矢量特征提取器提取每个字符的矢量特征后将所有字符的矢量特征进行顺序拼接,获取用户的认证声纹模型,进而与注册声纹模型匹配确定用户是否合法。该方法提高了系统性能进而减少声纹认证的时间,进一步提高用户使用声纹登录服务的体验。
为达上述目的,根据本发明的第三方面实施例提出的声纹注册装置,包括:
第一处理模块,用于对用户语音输入的注册字符串进行帧对齐,提取每个字符的声学特征;第一统计模块,用于将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计;第一提取模块,用于通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征;第一获取模块,用于将所有字符的矢量特征进行顺序拼接,获取所述用户的注册声纹模型。
本发明实施例的声纹注册装置,首先第一处理模块提取每个字符的声学特征,接着第一统计模块将每个字符的声学特征进行BW统计,第一提取模块再通过预设每个字符的矢量特征提取器提取每个字符的矢量特征后,第一获取模块将所有字符的矢量特征进行顺序拼接,获取用户的注册声纹模型。该装置分别对注册字符串中的各字符进行特征处理,提高声纹注册模型的准确性。
为达上述目的,根据本发明的第四方面实施例提出的声纹认证装置,包括:第四处理模块,用于对用户语音输入的认证字符串进行帧对齐,提取每个字符的声学特征;第二统计模块,用于将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计;第二提取模块,用于通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征;第二获取模块,用于将所有字符的矢量特征进行顺序拼接,获取所述用户的认证声纹模型;确定模块,用于将预存的所述用户的注册声纹模型与所述认证声纹模型进行匹配,根据匹配结果确定所述用户是否合法。
本发明实施例的声纹认证装置,首先第四处理模块提取每个字符的声学特征,接着第二统计模块将每个字符的声学特征进行BW统计,第二提取模块再通过预设每个字符的矢量特征提取器提取每个字符的矢量特征后,第二获取模块将所有字符的矢量特征进行顺序拼接,获取用户的认证声纹模型,进而确定模块将认证声纹模型与注册声纹模型匹配确定用户是否合法。该装置提高了系统性能进而减少声纹认证的时间,进一步提高用户使用声纹登录服务的体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的声纹注册方法的流程图;
图2是根据本发明一个实施例的离线训练阶段的流程图;
图3是根据本发明一个具体实施例的声纹注册方法的流程图;
图4是根据本发明一个实施例的声纹认证方法的流程图;
图5是根据本发明一个实施例的声纹注册装置的结构示意图;
图6是根据本发明一个实施例的离线训练阶段的结构示意图;以及
图7根据本发明一个实施例的声纹认证装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的声纹注册、认证方法及装置。
图1是根据本发明一个实施例的声纹注册方法的流程图。
如图1所示,本发明实施例的声纹注册方法包括以下步骤:
步骤101,对用户语音输入的注册字符串进行帧对齐,提取每个字符的声学特征。
具体地,用户通过声纹作为密码以进行验证登录网站或者设备的登录系统,需要声纹注册,为了避免注册场景干扰,生成精确的声纹模型,因此提出一种能够得到精确的声纹模型的声纹注册方法。
首先,对用户语音输入的注册字符串进行帧对齐,提取每个字符的声学特征。需要说明的是,注册字符串有很多,例如包括:文字字符串、和/或、数字字符串。即用户朗读输入一段文字“登录百度钱包”、一段数字“567765”或者“登录567”后,利用语音识别模块进行帧对齐,每一帧对应一个文字或数字,即“登”对应一帧,“5”对应一帧等。
其中,声学特征可以根据实际应用需要进行选择,例如,可以是提取每个字符语音的梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征,也可以是每个字符语音的感知线性预测系数(Perceptual Linear Predictive,PLP)特征,或线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)等。需要注意的是,也可以是两种或以上的声学特征的融合。
步骤102,将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计。
步骤103,通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征。
具体地,获取与每种注册字符串对应的声学特征,并将每个字符的声学特征在全局GMM模型中计算后验概率进行BW(Baum-Welch)统计,进而通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征。
为了更加清楚的说明上述全局GMM模型和预设的多个字符的矢量特征提取器的建立过程,下面结合图2详细说明:
步骤201,对用户语音输入的训练字符串进行帧对齐,提取每个字符的声学特征。
步骤202,根据所有训练字符串中每个字符的声学特征训练全局GMM模型。
步骤203,将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计,进而利用联合因子分析方法,训练每个字符的矢量特征提取器。
具体地,预先获取与每种训练字符串对应的声学特征,并根据每个字符的声学特征训练全局GMM模型作为普通背景模型UBM(Universal Background Model),再将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计,进而利用联合因子分析方法,训练每个字符的矢量特征提取器。
需要说明的是,训练字符串有很多,例如包括:文字字符串、和/或、数字字符串。以及所有训练字符串的声学特征一起训练一个全局的GMM模型,其中,所有训练字符串是不区分文字的。例如“567765”,将6个字符的声学特征一起训练一个全局的GMM模型。
另外,模型不限于是基于全局GMM模型的普通背景模型UBM(UniversalBackground Model),也可以是隐马尔可夫模型(Hidden Markov Model,HMM),或支持向量机(Support Vector Machine,SVM)等。
举例而言,提取用户输入训练字符串的语音信息“登录百度钱包”,将输入训练字符串的语音信息中的每个字符(“登”、“录”、“百”、“度”、“钱”和“包”)的语音的声学特征在高斯混合模型GMM(Gaussian Mixture Model)条件下进行BW(Baum-Welch)统计,从而得到每句话中的每个字符(“登”、“录”、“百”、“度”、“钱”和“包”)的BW统计量,再利用联合因子分析方法训练每个字符(“登”、“录”、“百”、“度”、“钱”和“包”)的语音的矢量特征,进而,得到预设的“登录百度钱包”中每个字符的矢量特征提取器。
其中,将同一文字标签的每一帧的声学特征(例如MFCC)在普通背景模型UBM(Universal Background Model)条件下进行Baum-Welch统计,以计算其后验概率,该后验概率服从高斯分布,该后验概率的期望便是矢量特征(identity-vector,ivector)。
需要注意的是,进行Baum-Welch统计时,是区分文字的,将同一文字或者数字标签的每一帧的声学特征在高斯混合模型GMM中计算后验概率。例如,“567765”,将同一数字的“5”、“6”和“7”的每一帧的声学特征在高斯混合模型GMM中计算后验概率。
步骤104,将所有字符的矢量特征进行顺序拼接,获取用户的注册声纹模型。
从而,根据预设的多个字符的矢量特征提取器提取注册字符串中的每个字符的矢量特征后进行顺序拼接得到用户的注册声纹模型。
例如,所有字符全是数字的时候,可以采用0123456789的顺序拼接在一起,作为用户的注册声纹模型。
为了更加清楚的了解本发明实施例的声纹注册方法,下面结合图3对该声纹注册方法进行举例说明,具体说明如下:
结合图3中的m1为例详细说明,具体如下:
首先获取用户输入一段注册字符串的语音信息,接着将其进行切分排序后,对用户输入注册字符串中的每个字符语音信息进行帧对齐(每一帧对应的具体文字或者数字)提取以得到用户的声学特征MFCC,然后根据每个字符的声学特征训练全局GMM模型作为全局普通背景模型UBM(Universal Background Model)条件下进行Baum-Welch统计,最后通过预设的字符的矢量特征提取器分别提取字符的矢量特征。
与上述实施例中的m1得到的字符的矢量特征的过程相同,可以得到1至N个字符的矢量特征,并进行顺序拼接,获取用户的注册声纹模型M={m1,m2,…,mN}。即完成建立且保存该用户的用户信息与声纹的对应关系。由此,用户完成语音注册。
综上所述,本发明实施例的声纹注册方法,首先提取每个字符的声学特征,接着将每个字符的声学特征进行BW统计,再通过预设每个字符的矢量特征提取器提取每个字符的矢量特征后将所有字符的矢量特征进行顺序拼接,获取用户的注册声纹模型。该方法分别对注册字符串中的各字符进行特征处理,提高声纹注册模型的准确性。
图4是根据本发明一个实施例的声纹认证方法的流程图。
如图4所示,本发明实施例的声纹认证方法包括以下步骤:
步骤401,对用户语音输入的认证字符串进行帧对齐,提取每个字符的声学特征。
步骤402,将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计。
步骤403,通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征。
步骤404,将所有字符的矢量特征进行顺序拼接,获取用户的认证声纹模型。
步骤405,将预存的用户的注册声纹模型与认证声纹模型进行匹配,根据匹配结果确定用户是否合法。
具体地,首先,对用户语音输入的认证字符串进行帧对齐,提取每个字符的声学特征。需要说明的是,注册字符串有很多,例如包括:文字字符串、和/或、数字字符串。
例如,登录字符串为一串文字,则用户朗读该字符串时一般会用一句话读完该字符串,例如“登录百度钱包”,即输入的语音信息中该语音应为一段语音“登录百度钱包”,以这一段语音为例,在本发明的实施例中,对声纹认证的具体实现过程可如下:
例如,获取用户输入一段语音“登录百度钱包”,接着将其进行切分排序后,对用户输入“登录百度钱包”中的每个字符语音信息进行帧对齐(每一帧分别对应“登”、“录”、“百”、“度”、“钱”和“包”)提取以得到用户的声学特征MFCC,然后在全局普通背景模型UBM(Universal Background Model)条件下进行Baum-Welch统计,再通过预设每个字符的矢量特征提取器提取每个字符的矢量特征后将所有字符的矢量特征进行顺序拼接,获取用户的认证声纹模型,将认证声纹模型与注册声纹模型进行比对以判断声纹是否匹配从而确定用户是否合法。
具体地,声纹模型匹配是将登陆过程产生的认证声纹模型和用户注册时生成的注册声纹模型进行比对打分,如果注册声纹模型与认证声纹模型的匹配度大于等于预设阈值,则确定用户合法,认证成功,接收该用户登录;如果注册声纹模型与认证声纹模型的匹配度小于预设阈值,则确定用户非法,认证失败,拒绝该用户登录。
其中,可以采用余弦距离、支持向量机(SVM)、贝叶斯分类器、以及GPLDA(高斯概率线性判别分析)等方法来实现。
综上所述,本发明实施例的声纹认证方法,首先提取每个字符的声学特征,接着将每个字符的声学特征进行BW统计,再通过预设每个字符的矢量特征提取器提取每个字符的矢量特征后将所有字符的矢量特征进行顺序拼接,获取用户的认证声纹模型,进而与注册声纹模型匹配确定用户是否合法。该方法提高了系统性能进而减少声纹认证的时间,进一步提高用户使用声纹登录服务的体验。
本发明实施例提出的一种声纹注册、认证方法可以应用于终端设备中需要登录的软件或者网页中,例如手机百度、百度贴吧和百度钱包等手机APP登录,终端设备的类型很多,可以是个人电脑、手机、多媒体电视等终端设备。
为了实现上述实施例,本发明还提出了一种声纹注册装置,图5是根据本发明一个实施例的声纹注册装置的结构示意图,如图5所示,该声纹注册装置包括:第一处理模块110,第一统计模块120、第一提取模块130和第一获取模块140。
其中,第一处理模块110用于对用户语音输入的注册字符串进行帧对齐,提取每个字符的声学特征。
具体地,第一处理模块110对用户语音输入的注册字符串进行帧对齐,提取每个字符的声学特征。需要说明的是,注册字符串有很多,例如包括:文字字符串、和/或、数字字符串。即用户朗读输入一段文字“登录百度钱包”、一段数字“567765”或者“登录567”后,利用语音识别模块进行帧对齐,每一帧对应一个文字或数字,即“登”对应一帧,“5”对应一帧等。
其中,声学特征可以根据实际应用需要进行选择,例如,可以是提取每个字符语音的梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征,也可以是每个字符语音的感知线性预测系数(Perceptual Linear Predictive,PLP)特征,或线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)等。需要注意的是,也可以是两种或以上的声学特征的融合。
第一统计模块120用于将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计。
第一提取模块130用于通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征。
具体地,获取与每种注册字符串对应的声学特征,并将每个字符的声学特征在全局GMM模型中计算后验概率进行BW(Baum-Welch)统计,进而通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征。
为了更加清楚的说明上述全局GMM模型和预设的多个字符的矢量特征提取器的建立过程,下面结合图6详细说明:
第二处理模块150用于对用户语音输入的训练字符串进行帧对齐,提取每个字符的声学特征。
训练模块160用于根据所有训练字符串中每个字符的声学特征训练全局GMM模型。
第三处理模块170用于将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计,进而利用联合因子分析方法,训练每个字符的矢量特征提取器。
需要说明的是,前述声纹注册方法实施例的解释说明全局GMM模型和预设的多个字符的矢量特征提取器的建立过程,此处不再赘述。
第一获取模块140用于将所有字符的矢量特征进行顺序拼接,获取用户的注册声纹模型。
从而,根据预设的多个字符的矢量特征提取器提取注册字符串中的每个字符的矢量特征后进行顺序拼接得到用户的注册声纹模型。
需要说明的是,前述对声纹注册方法实施例的解释说明也适用于该实施例的声纹注册装置,其实现原理类似,此处不再赘述。
本发明实施例的声纹注册装置,首先第一处理模块提取每个字符的声学特征,接着第一统计模块将每个字符的声学特征进行BW统计,第一提取模块再通过预设每个字符的矢量特征提取器提取每个字符的矢量特征后,第一获取模块将所有字符的矢量特征进行顺序拼接,获取用户的注册声纹模型。该装置分别对注册字符串中的各字符进行特征处理,提高声纹注册模型的准确性。
图7根据本发明一个实施例的声纹认证装置的结构示意图。
图7是根据本发明一个实施例的声纹认证装置的结构示意图,如图7所示,该声纹认证装置包括:第四处理模块210、第二统计模块220、第二提取模块230、第二获取模块240和确定模块250。
其中,第四处理模块210用于对用户语音输入的认证字符串进行帧对齐,提取每个字符的声学特征。
第二统计模块220用于将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计。
第二提取模块230用于通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征。
第二获取模块240用于将所有字符的矢量特征进行顺序拼接,获取用户的认证声纹模型。
确定模块250用于将预存的用户的注册声纹模型与认证声纹模型进行匹配,根据匹配结果确定所述用户是否合法。
具体地,首先,对用户语音输入的认证字符串进行帧对齐,提取每个字符的声学特征。需要说明的是,注册字符串有很多,例如包括:文字字符串、和/或、数字字符串。
进而,声纹模型匹配是将登陆过程产生的认证声纹模型和用户注册时生成的注册声纹模型进行比对打分,如果注册声纹模型与认证声纹模型的匹配度大于等于预设阈值,则确定用户合法,认证成功,接收该用户登录;如果注册声纹模型与认证声纹模型的匹配度小于预设阈值,则确定用户非法,认证失败,拒绝该用户登录。
需要说明的是,前述对声纹认证方法实施例的解释说明也适用于该实施例的声纹认证装置,其实现原理类似,此处不再赘述。
本发明实施例的声纹认证装置,首先第四处理模块提取每个字符的声学特征,接着第二统计模块将每个字符的声学特征进行BW统计,第二提取模块再通过预设每个字符的矢量特征提取器提取每个字符的矢量特征后,第二获取模块将所有字符的矢量特征进行顺序拼接,获取用户的认证声纹模型,进而确定模块将认证声纹模型与注册声纹模型匹配确定用户是否合法。该装置提高了系统性能进而减少声纹认证的时间,进一步提高用户使用声纹登录服务的体验。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种声纹注册方法,其特征在于,包括以下步骤:
对用户语音输入的注册字符串进行帧对齐,提取每个字符的声学特征;其中,每一帧对应一个注册字符串;
将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计;
通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征;其中,每个字符对应一个矢量特征提取器;
将所有字符的矢量特征进行顺序拼接,获取所述用户的注册声纹模型。
2.如权利要求1所述的方法,其特征在于,所述注册字符串的类型包括:
文字字符串,和/或,数字字符串。
3.如权利要求1所述的方法,其特征在于,还包括:
对用户语音输入的训练字符串进行帧对齐,提取每个字符的声学特征;
根据所有训练字符串中每个字符的声学特征训练全局GMM模型;
将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计,进而利用联合因子分析方法,训练每个字符的矢量特征提取器。
4.一种声纹认证方法,其特征在于,包括以下步骤:
对用户语音输入的认证字符串进行帧对齐,提取每个字符的声学特征;其中,每一帧对应一个注册字符串;
将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计;
通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征;其中,每个字符对应一个矢量特征提取器;
将所有字符的矢量特征进行顺序拼接,获取所述用户的认证声纹模型;
将预存的所述用户的注册声纹模型与所述认证声纹模型进行匹配,根据匹配结果确定所述用户是否合法。
5.如权利要求4所述的方法,其特征在于,所述将预存的所述用户的注册声纹模型与所述认证声纹模型进行匹配,根据匹配结果确定所述用户是否合法,包括:
如果所述注册声纹模型与所述认证声纹模型的匹配度大于等于预设阈值,则确定所述用户合法;
如果所述注册声纹模型与所述认证声纹模型的匹配度小于预设阈值,则确定所述用户非法。
6.一种声纹注册装置,其特征在于,包括:
第一处理模块,用于对用户语音输入的注册字符串进行帧对齐,提取每个字符的声学特征;其中,每一帧对应一个注册字符串;
第一统计模块,用于将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计;
第一提取模块,用于通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征;其中,每个字符对应一个矢量特征提取器;
第一获取模块,用于将所有字符的矢量特征进行顺序拼接,获取所述用户的注册声纹模型。
7.如权利要求6所述的装置,其特征在于,所述注册字符串的类型包括:
文字字符串,和/或,数字字符串。
8.如权利要求6所述的装置,其特征在于,还包括:
第二处理模块,用于对用户语音输入的训练字符串进行帧对齐,提取每个字符的声学特征;
训练模块,用于根据所有训练字符串中每个字符的声学特征训练全局GMM模型;
第三处理模块,用于将每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计,进而利用联合因子分析方法,训练每个字符的矢量特征提取器。
9.一种声纹认证装置,其特征在于,包括:
第四处理模块,用于对用户语音输入的认证字符串进行帧对齐,提取每个字符的声学特征;其中,每一帧对应一个注册字符串;
第二统计模块,用于将所述每个字符的声学特征在全局GMM模型中计算后验概率进行BW统计;
第二提取模块,用于通过预设的多个字符的矢量特征提取器分别提取每个字符的矢量特征;其中,每个字符对应一个矢量特征提取器;
第二获取模块,用于将所有字符的矢量特征进行顺序拼接,获取所述用户的认证声纹模型;
确定模块,用于将预存的所述用户的注册声纹模型与所述认证声纹模型进行匹配,根据匹配结果确定所述用户是否合法。
10.如权利要求9所述的装置,其特征在于,所述确定模块具体用于:
如果所述注册声纹模型与所述认证声纹模型的匹配度大于等于预设阈值,则确定所述用户合法;
如果所述注册声纹模型与所述认证声纹模型的匹配度小于预设阈值,则确定所述用户非法。
CN201610384014.7A 2016-06-01 2016-06-01 声纹注册、认证方法及装置 Active CN105933323B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610384014.7A CN105933323B (zh) 2016-06-01 2016-06-01 声纹注册、认证方法及装置
PCT/CN2016/096479 WO2017206375A1 (zh) 2016-06-01 2016-08-24 声纹注册、认证方法及装置
US16/094,859 US11348590B2 (en) 2016-06-01 2016-08-24 Methods and devices for registering voiceprint and for authenticating voiceprint

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610384014.7A CN105933323B (zh) 2016-06-01 2016-06-01 声纹注册、认证方法及装置

Publications (2)

Publication Number Publication Date
CN105933323A CN105933323A (zh) 2016-09-07
CN105933323B true CN105933323B (zh) 2019-05-31

Family

ID=56833332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610384014.7A Active CN105933323B (zh) 2016-06-01 2016-06-01 声纹注册、认证方法及装置

Country Status (3)

Country Link
US (1) US11348590B2 (zh)
CN (1) CN105933323B (zh)
WO (1) WO2017206375A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3033675C (en) * 2016-07-11 2022-11-15 FTR Labs Pty Ltd Method and system for automatically diarising a sound recording
CN107180628A (zh) * 2017-05-19 2017-09-19 百度在线网络技术(北京)有限公司 建立声学特征提取模型的方法、提取声学特征的方法、装置
CN108389578B (zh) * 2018-02-09 2020-10-02 深圳市鹰硕技术有限公司 智能教室语音控制系统
CN108768977A (zh) * 2018-05-17 2018-11-06 东莞市华睿电子科技有限公司 一种基于语音验证的终端系统登录方法
CN109065022B (zh) * 2018-06-06 2022-08-09 平安科技(深圳)有限公司 i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN110176243B (zh) * 2018-08-10 2023-10-31 腾讯科技(深圳)有限公司 语音增强方法、模型训练方法、装置和计算机设备
CN109920435B (zh) * 2019-04-09 2021-04-06 厦门快商通信息咨询有限公司 一种声纹识别方法及声纹识别装置
CN110379433B (zh) * 2019-08-02 2021-10-08 清华大学 身份验证的方法、装置、计算机设备及存储介质
CN110600029A (zh) * 2019-09-17 2019-12-20 苏州思必驰信息科技有限公司 用于智能语音设备的自定义唤醒方法和装置
CN110838294B (zh) * 2019-11-11 2022-03-04 效生软件科技(上海)有限公司 一种语音验证方法、装置、计算机设备及存储介质
IL274741A (en) * 2020-05-18 2021-12-01 Verint Systems Ltd A system and method for obtaining voiceprints for large populations
WO2024018429A1 (en) * 2022-07-22 2024-01-25 Samsung Electronics Co., Ltd. Audio signal processing method, audio signal processing apparatus, computer device and storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197131A (zh) * 2006-12-07 2008-06-11 积体数位股份有限公司 随机式声纹密码验证系统、随机式声纹密码锁及其产生方法
US8345932B2 (en) * 2008-11-24 2013-01-01 International Business Machines Corporation Support vector machine for biometric data processing
CN104821934A (zh) * 2015-03-20 2015-08-05 百度在线网络技术(北京)有限公司 基于人工智能的声纹登录方法和装置
CN105096121A (zh) * 2015-06-25 2015-11-25 百度在线网络技术(北京)有限公司 声纹认证方法和装置
CN105185379A (zh) * 2015-06-17 2015-12-23 百度在线网络技术(北京)有限公司 声纹认证方法和装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
KR100406307B1 (ko) * 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
GB2387008A (en) * 2002-03-28 2003-10-01 Qinetiq Ltd Signal Processing System
US7516071B2 (en) * 2003-06-30 2009-04-07 International Business Machines Corporation Method of modeling single-enrollment classes in verification and identification tasks
EP2058797B1 (en) * 2007-11-12 2011-05-04 Harman Becker Automotive Systems GmbH Discrimination between foreground speech and background noise
US8140340B2 (en) * 2008-01-18 2012-03-20 International Business Machines Corporation Using voice biometrics across virtual environments in association with an avatar's movements
US8190437B2 (en) * 2008-10-24 2012-05-29 Nuance Communications, Inc. Speaker verification methods and apparatus
WO2012075641A1 (en) * 2010-12-10 2012-06-14 Panasonic Corporation Device and method for pass-phrase modeling for speaker verification, and verification system
US8897500B2 (en) * 2011-05-05 2014-11-25 At&T Intellectual Property I, L.P. System and method for dynamic facial features for speaker recognition
US9042867B2 (en) * 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
US9336781B2 (en) * 2013-10-17 2016-05-10 Sri International Content-aware speaker recognition
US9418342B2 (en) * 2013-12-06 2016-08-16 At&T Intellectual Property I, L.P. Method and apparatus for detecting mode of motion with principal component analysis and hidden markov model
US8843369B1 (en) * 2013-12-27 2014-09-23 Google Inc. Speech endpointing based on voice profile
US8812320B1 (en) * 2014-04-01 2014-08-19 Google Inc. Segment-based speaker verification using dynamically generated phrases
US9875743B2 (en) * 2015-01-26 2018-01-23 Verint Systems Ltd. Acoustic signature building for a speaker from multiple sessions
US9978374B2 (en) * 2015-09-04 2018-05-22 Google Llc Neural networks for speaker verification
CN106683677B (zh) * 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
CN106128464B (zh) * 2016-06-12 2019-05-31 百度在线网络技术(北京)有限公司 Ubm分字模型的建立方法、声纹特征生成方法及装置
US10347244B2 (en) * 2017-04-21 2019-07-09 Go-Vivace Inc. Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
US11979398B2 (en) * 2018-01-22 2024-05-07 Nokia Technologies Oy Privacy-preserving voiceprint authentication apparatus and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197131A (zh) * 2006-12-07 2008-06-11 积体数位股份有限公司 随机式声纹密码验证系统、随机式声纹密码锁及其产生方法
US8345932B2 (en) * 2008-11-24 2013-01-01 International Business Machines Corporation Support vector machine for biometric data processing
CN104821934A (zh) * 2015-03-20 2015-08-05 百度在线网络技术(北京)有限公司 基于人工智能的声纹登录方法和装置
CN105185379A (zh) * 2015-06-17 2015-12-23 百度在线网络技术(北京)有限公司 声纹认证方法和装置
CN105096121A (zh) * 2015-06-25 2015-11-25 百度在线网络技术(北京)有限公司 声纹认证方法和装置

Also Published As

Publication number Publication date
CN105933323A (zh) 2016-09-07
WO2017206375A1 (zh) 2017-12-07
US20190122669A1 (en) 2019-04-25
US11348590B2 (en) 2022-05-31

Similar Documents

Publication Publication Date Title
CN105933323B (zh) 声纹注册、认证方法及装置
Zhang et al. Voicelive: A phoneme localization based liveness detection for voice authentication on smartphones
Wu et al. Anti-spoofing for text-independent speaker verification: An initial database, comparison of countermeasures, and human performance
Wu et al. A study on spoofing attack in state-of-the-art speaker verification: the telephone speech case
Singh et al. Applications of speaker recognition
Wu et al. Voice conversion versus speaker verification: an overview
US9424837B2 (en) Voice authentication and speech recognition system and method
Hébert Text-dependent speaker recognition
Das et al. Development of multi-level speech based person authentication system
Saquib et al. A survey on automatic speaker recognition systems
CN105913850B (zh) 文本相关声纹密码验证方法
CN105933272A (zh) 能够防止录音攻击的声纹认证方法、服务器、终端及系统
CN101051463B (zh) 说话人认证的验证方法及装置
Reynolds Automatic speaker recognition: Current approaches and future trends
Justin et al. Speaker de-identification using diphone recognition and speech synthesis
CN107346568A (zh) 一种门禁系统的认证方法和装置
Zhong et al. DNN i-Vector Speaker Verification with Short, Text-Constrained Test Utterances.
Paul et al. Countermeasure to handle replay attacks in practical speaker verification systems
CN110459226A (zh) 一种通过声纹引擎检测人声或机器音进行身份核验的方法
Safavi et al. Fraud detection in voice-based identity authentication applications and services
Saquib et al. Voiceprint recognition systems for remote authentication-a survey
Orken et al. Development of security systems using DNN and i & x-vector classifiers
CN106100846B (zh) 声纹注册、认证方法及装置
CN104901807A (zh) 一种可用于低端芯片的声纹密码方法
Mandalapu et al. Multilingual voice impersonation dataset and evaluation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant