CN106847292B - 声纹识别方法及装置 - Google Patents
声纹识别方法及装置 Download PDFInfo
- Publication number
- CN106847292B CN106847292B CN201710083629.0A CN201710083629A CN106847292B CN 106847292 B CN106847292 B CN 106847292B CN 201710083629 A CN201710083629 A CN 201710083629A CN 106847292 B CN106847292 B CN 106847292B
- Authority
- CN
- China
- Prior art keywords
- vocal print
- print feature
- speech recognition
- user
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000001755 vocal effect Effects 0.000 claims abstract description 230
- 238000012360 testing method Methods 0.000 claims abstract description 100
- 230000000694 effects Effects 0.000 claims abstract description 31
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 230000009467 reduction Effects 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 35
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 239000000203 mixture Substances 0.000 description 6
- 230000009466 transformation Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 208000037656 Respiratory Sounds Diseases 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 210000003484 anatomy Anatomy 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000005538 encapsulation Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/39—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using genetic algorithms
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Telephonic Communication Services (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种声纹识别方法及装置。该声纹识别方法包括:客户端采集用户的测试语音,并向后台服务器发送语音识别请求,语音识别请求包括用户ID和所述测试语音;后台服务器接收语音识别请求,采用消息队列和异步机制确定待处理语音识别请求;后台服务器获取与待处理语音识别请求的用户ID相对应的目标声纹特征,并获取与待处理语音识别请求的测试语音相对应的测试声纹特征;后台服务器根据述目标声纹特征和测试声纹特征判断是否对应同一用户,并向客户端输出判断结果;客户端接收并显示判断结果。本发明所提供的声纹识别方法及装置,可达到快速语音识别效果,提高语音识别效率。
Description
技术领域
本发明涉及生物特征的身份识别技术领域,尤其涉及一种声纹识别方法及装置。
背景技术
声纹识别(Voiceprint Recognition)是指根据声音所蕴涵的说话人的生物特征,识别说话人的一种身份识别技术。由于声纹识别具有安全可靠性,使其可在几乎所有需求进行身份识别的安全性保护领域和个性化应用场合中使用。如在银行、证券、保险等金融机构的业务量持续扩大,产生大量的身份识别需求。与传统身份识别技术相比,声纹识别的优势在于,声纹提取过程简单且成本低、且每个人的声纹特征与其他人的声纹特征不相同,具有唯一性,不易伪造和假冒。由于声纹识别具有安全、可靠、方便等特性,使其在需进行身份识别的场合得到广泛的应用。但现有声纹识别过程耗时较长,在对大量语音识别请求进行处理时,容易因处理时间过久而导致部分语音识别请求丢失,影响声纹识别技术的应用。
发明内容
本发明要解决的技术问题在于,针对现有技术的缺陷,提供一种声纹识别方法及装置,可提高大量语音识别请求的处理效率,缩短处理时间。
本发明解决其技术问题所采用的技术方案是:一种声纹识别方法,包括:
客户端采集用户的测试语音,并向后台服务器发送语音识别请求,所述语音识别请求包括用户ID和所述测试语音;
后台服务器接收所述语音识别请求,采用消息队列和异步机制确定待处理语音识别请求;
后台服务器获取与所述待处理语音识别请求的用户ID相对应的目标声纹特征,并获取与所述待处理语音识别请求的测试语音相对应的测试声纹特征;
后台服务器根据所述目标声纹特征和所述测试声纹特征判断是否对应同一用户,并向所述客户端输出判断结果;
客户端接收并显示判断结果。
优选地,所述后台服务器获取与所述待处理语音识别请求的用户ID相对应的目标声纹特征,并获取与所述待处理语音识别请求的测试语音相对应的测试声纹特征,包括:
根据所述待处理语音识别请求的用户ID查询声纹特征库,以获取与所述待处理语音识别请求的用户ID相对应的目标声纹特征;
采用高斯混合模型-通用背景模型对所述待处理语音识别请求的测试声纹特征进行处理,以获取与所述待处理语音识别请求的测试语音相对应的测试声纹特征。
优选地,还包括:
对训练语音进行MFCC特征提取,以获取MFCC声学特征;
对所述MFCC声学特征进行语音活动检测,获取高斯混合模型参数;
利用所述高斯混合模型参数对通用背景模型进行训练,获取所述高斯混合模型-通用背景模型;
接收声纹注册请求,所述声纹注册请求包括用户ID和目标训练语音;
采用所述高斯混合模型-通用背景模型对所述目标训练语音进行训练,获取目标声纹特征;
将所述用户ID和所述目标声纹特征存储在所述声纹特征库。
优选地,所述根据所述目标声纹特征和所述测试声纹特征判断是否对应同一用户,包括:
采用PLDA算法分别对所述目标声纹特征和所述测试声纹特征进行降维,获取目标降维值和测试降维值;
采用余弦测度函数对所述目标降维值和所述测试降维值进行余弦测度,获取余弦测度值;
判断所述余弦测度值是否大于相似阈值;若是,则为同一用户;若否,则不为同一用户。
优选地,所述PLDA算法包括:
初始化μ和W;
采用计算w;
采用重新W,并返回采用计算w的步骤,直至w小于指定阈值;
其中,μ为均值声纹向量;W为类间距离;w为声纹特征;i为迭代次数;
所述余弦测度函数包括:
其中,wtrain为目标声纹特征,wtest为测试声纹特征,t为时间。
本发明还提供一种声纹识别装置,包括:
客户端,用于采集用户的测试语音,并向后台服务器发送语音识别请求,所述语音识别请求包括用户ID和所述测试语音;
后台服务器,用于接收所述语音识别请求,采用消息队列和异步机制确定待处理语音识别请求;
后台服务器,用于获取与所述待处理语音识别请求的用户ID相对应的目标声纹特征,并获取与所述待处理语音识别请求的测试语音相对应的测试声纹特征;
后台服务器,用于根据所述目标声纹特征和所述测试声纹特征判断是否对应同一用户,并向所述客户端输出判断结果;
客户端,用于接收并显示所述判断结果。
优选地,所述后台服务器包括:
特征查询单元,用于根据所述待处理语音识别请求的用户ID查询声纹特征库,以获取与所述待处理语音识别请求的用户ID相对应的目标声纹特征;
特征处理单元,用于采用高斯混合模型-通用背景模型对所述待处理语音识别请求的测试声纹特征进行处理,以获取与所述待处理语音识别请求的测试语音相对应的测试声纹特征。
优选地,后台服务器还包括:
声学特征提取单元,用于对训练语音进行MFCC特征提取,以获取MFCC声学特征;
语音活动检测单元,用于对所述MFCC声学特征进行语音活动检测,估计高斯混合模型参数;
模型训练单元,用于利用所述高斯混合模型参数对通用背景模型进行训练,获取所述高斯混合模型-通用背景模型;
注册语音接收单元,用于接收声纹注册请求,所述声纹注册请求包括用户ID和目标训练语音;
目标声纹特征获取单元,用于采用所述高斯混合模型-通用背景模型对所述目标训练语音进行训练,获取目标声纹特征;
目标声纹特征存储单元,用于将所述用户ID和所述目标声纹特征存储在所述声纹特征库。
优选地,所述后台服务器包括:
特征降维单元,用于采用PLDA算法分别对所述目标声纹特征和所述测试声纹特征进行降维,获取目标降维值和测试降维值;
余弦测度处理单元,用于采用余弦测度函数对所述目标降维值和所述测试降维值进行余弦测度,获取余弦测度值;
用户识别判断单元,用于判断所述余弦测度值是否大于相似阈值;若是,则为同一用户;若否,则不为同一用户。
优选地,所述PLDA算法包括:
初始化μ和W;
采用计算w;
采用重新W,并返回采用计算w的步骤,直至w小于指定阈值;
其中,μ为均值声纹向量;W为类间距离;w为声纹特征;i为迭代次数;
所述余弦测度函数包括:
其中,wtrain为目标声纹特征,wtest为测试声纹特征,t为时间。
本发明与现有技术相比具有如下优点:本发明所提供的声纹识别方法及装置中,后台服务器基于待处理语音识别请求中的用户ID获取对应的目标声纹特征,并基于待处理语音识别请求中的测试语音获取测试声纹特征,并将目标声纹特征与测试声纹特征进行对比,以确定目标声纹特征与测试声纹特征的说话人是否为同一用户,可达到快速语音识别效果,提高语音识别效率。另外,后台服务器采用消息队列和异步机制确定待处理语音识别请求,以提高对大量语音识别请求的处理效率,避免因处理时间过长导致部分语音识别请求丢失。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例1中声纹识别方法的一流程图。
图2是本发明实施例2中声纹识别装置的一原理框图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
实施例1
图1示出本实施例中声纹识别方法的一流程图。该声纹识别方法可在客户端和后台服务器上应用,以实现对客户端采集的测试语音进行身份识别。如图1所示,该声纹识别方法包括如下步骤:
S10:客户端采集用户的测试语音,并向后台服务器发送语音识别请求,语音识别请求包括用户ID和测试语音。
其中,客户端包括智能手机、笔记本、台式计算机等可与后台服务器通信相连的终端,客户端上设有用于采集测试语音的麦克风或设有外置麦克风接口。用户ID用于唯一识别用户身份,本实施例中测试语音与用户ID相关联,用于确定测试语音对应的用户。客户端对用户进行采样录音,获取wav音频格式的测试语音,根据测试语音与用户ID形成语音识别请求,并将语音识别请求发送给后台服务器。
进一步地,当客户端为手机端时,采用多线程方式采集测试语音;当客户端为网页端时,采用Ajax异步刷新方式采集测试语音,以实现与后台服务器通信时,不打断用户操作,以提高测试请求的采集速度。Ajax(Asynchronous JavaScript and XML),异步JavaScript与XML,是使用客户端脚本与Web服务器交换数据的Web应用开发方法。
S20:后台服务器接收语音识别请求,采用消息队列和异步机制确定待处理语音识别请求。
其中,后台服务器接收至少一个客户端发送的语音识别请求,并将至少一个语音识别请求放入消息队列等待。后台服务器采用异步机制对消息队列中的至少一个语音识别请求进行调度,使得后台服务器在处理消息队列中的每一消息时,发送方和接收方相互独立,无需等待对方回应。采用消息队列和异步机制对至少一个语音识别请求进行调度以获取待处理语音识别请求,可使后台服务器可同时接收大量的语音识别请求,并避免任一待处理语音识别请求的处理时间过长导致其他大量语音识别请求丢失。另一方面,采用消息队列和异步机制还可在后台服务器搭建分布式系统,可提高对语音识别请求的峰值处理能力和灵活性,降低进程间的耦合程度,保证每一语音识别请求均能被处理。
S30:后台服务器获取与待处理语音识别请求的用户ID相对应的目标声纹特征,并获取与待处理语音识别请求的测试语音相对应的测试声纹特征。
具体地,目标声纹特征是预先存储在后台服务器中与用户ID相对应的用户的声纹特征。测试声纹特征是语音请求中测试语音相对应的声纹特征。其中,声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。相应地,声纹特征包括但不限于与人类的发音机制的解剖学结构有关的声学特征,如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等。
本实施例中,目标声纹特征和测试声纹特征优选为I-vector(即identifyingvector,辨识矢量)特征。相应地,任一I-vector特征均可采用I-vector算法进行获取,i-vertor算法是一种估计隐变量的方法,用一固定长度的低维向量表示一段语音,在I-vector特征提取过程中没有把类内和类间的方差分开考虑,而是将其放在一个子空间,即总变量空间(total variablity space)中考虑,使其可采用无监督的方法进行训练,并可去除总变量空间中与语种无关的信息,在降维去噪的同时,最大限度保留了与语种相关的声学信息。
进一步地,步骤S30具体包括如下步骤:
S31:根据待处理语音识别请求的用户ID查询声纹特征库,以获取与待处理语音识别请求的用户ID相对应的目标声纹特征。
具体地,在声纹特征库中预先存储有至少一组用户ID和与用户ID相关联的目标声纹特征,以便于基于待处理语音识别请求中的用户ID查找相对应的目标声纹特征。
S32:采用高斯混合模型-通用背景模型对待处理语音识别请求的测试声纹特征进行处理,以获取与待处理语音识别请求的测试语音相对应的测试声纹特征。
其中,高斯混合模型-通用背景模型(即Gaussian Mixture Model-UniversalBackground Model,简称GMM-UBM)是一个与说话人无关、高阶的GMM,它是根据说话人训练语音自适应训练,即语音模型通过说话人用自己的语音反映出模型中未包含的发音情况,用与说话人无关的语音特征分布近似描述,具有识别率高的特点。
具体地,后台服务器将接收到的语音识别请求放入消息队列等待,当有进程空闲时,从消息队列取出待处理语音识别请求交给后台Servlet容器处理,Servlet容器创建一个HttpRequest对象,将发送过来的信息封装到这个对象中,同时创建一个HttpResponse对象,把HttpRequest与HttpResponse作为参数传给HttpServlet对象,调用HttpServlet对象的service方法,service方法里调用高斯混合模型-通用背景模型对测试语音进行处理,以获取测试声纹特征。
S40:后台服务器根据目标声纹特征和测试声纹特征判断是否对应同一用户,并向客户端输出判断结果。
由于目标声纹特征是预先存储在声纹特征库中与用户ID相关联的声纹特征,而测试声纹特征是客户端采集到的与用户ID相关联的测试语音对应的声纹特征,若两个相同或者近似度达到预设的相似阈值时,可认定两者为同一用户,以向客户端输出两者为同一用户或不为同一用户的判断结果。
进一步地,步骤S40具体包括如下步骤:
S41:采用PLDA算法分别对目标声纹特征和测试声纹特征进行降维,获取目标降维值和测试降维值。
其中,PLDA(Probabilistic Linear Discriminant Analysis)算法是一种信道补偿算法。PLDA基于I-vector特征,因为I-vector特征既包含说话人差异信息又包含信道差异信息,而我们只关心说话人信息,所以才需要信道补偿。PLDA算法的信道补偿能力比LDA算法更好。
其中,PLDA算法具体包括如下步骤:
(1)初始化μ和W;
(2)采用计算w;
(3)采用重新W,并返回采用计算w的步骤,直至w小于指定阈值;
其中,μ为均值声纹向量;W为类间距离;w为声纹特征;i为迭代次数。
S42:采用余弦测度函数对目标降维值和测试降维值进行余弦测度,获取余弦测度值。
具体地,余弦测度函数包括:其中,wtrain为目标声纹特征,wtest为测试声纹特征,t为时间。采用余弦测度函数可简单衡量目标声纹特征与测试声纹特征之间距离的远近,当目标声纹特征与测试声纹特征在指定有限维度空间内可以展开时,该余弦测度函数计算较简便且效果较直接有效。
S43:判断余弦测度值是否大于相似阈值;若是,则为同一用户;若否,则不为同一用户。
具体地,若score(wtrain,wtest)>K,则目标声纹特征对应的说话人和测试声纹特征对应的说话人为同一用户;反之,若score(wtrain,wtest)≤K,则目标声纹特征对应的说话人和测试声纹特征对应的说话人不为同一用户;其中K为相似阈值,可以为大于50%的常数。
S50:客户端接收并显示判断结果。
该判断结果可以是认定测试语音对应的测试声纹特征与声纹特征库中保存的目标声纹特征的说话人为同一用户的判断结果,或者不为同一用户的判断结果。
本发明所提供的声纹识别方法中,后台服务器基于待处理语音识别请求中的用户ID获取对应的目标声纹特征,并基于待处理语音识别请求中的测试语音获取测试声纹特征,并将目标声纹特征与测试声纹特征进行对比,以确定目标声纹特征与测试声纹特征的说话人是否为同一用户,可达到快速语音识别效果,提高语音识别效率。另外,后台服务器采用消息队列和异步机制确定待处理语音识别请求,以提高对大量语音识别请求的处理效率,避免因处理时间过长导致部分语音识别请求丢失。
在一具体实施方式中,该声纹识别方法还包括如下步骤:
S51:对训练语音进行MFCC特征提取,以获取MFCC声学特征。
其中,MFCC(Mel Frequency Cepstrum Coefficients,梅尔频率倒谱系数)。对训练语音进行MFCC特征提取的过程包括:对训练语音进行预加重、分帧和加窗;再对每一短时分析窗,通过FFT(Fast Fourier Transform,快速傅里叶变换)获得对应的频谱;再将上述频谱通过Mel滤波器组得到Mel频率;在Mel频谱上面进行倒谱分析(取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数),获得Mel频率倒谱系数MFCC,从而获取MFCC声学特征。
S52:对MFCC声学特征进行语音活动检测,估计高斯混合模型参数。
其中,语音活动检测是采用语音活动检测(Voice Activity detection,VAD)算法对语音和噪音的不同特性进行语音和噪音判断,以从连续采样得到的数字信号中检测出语音信号段和噪声信号段,并将语音信号段的MFCC声学特征估计高斯混合模型(GaussianMixture Model模型,简称为GMM模型)的参数组。具体地,采用语音活动检测算法计算短时能量、短时过零率、短时自相关等语音特征参数,从而去除静音信号和非语音信号,将非静音语音信号保留估计高斯混合模型参数。本实施例中,将MFCC声学特征的零阶、一阶、二阶量用来估计高斯混合模型的参数。
S53:利用高斯混合模型参数对通用背景模型进行训练,获取高斯混合模型-通用背景模型。
本实施例中,对高斯混合模型参数通过通用背景模型进行因子分析,以获取高斯混合模型-通用背景模型。具体地,通用背景模型的因子分析算法包括:s=m+Tw,其中,m为平均声,即为均值向量;T为声纹空间映射矩阵;w为声纹差异向量,即I-vector特征。采用因子分析算法对用高斯混合模型表示的声学特征进行因子分析,把声学特征的均值向量(均值)与声纹差异向量分离(余量),以获取I-vector特征。该因子分析算法可分离出不同语音间的声纹差异向量,更容易提取不同语音间的声纹特异性。
S54:接收声纹注册请求,声纹注册请求包括用户ID和目标训练语音。
本实施例中,客户端接收用户输入的声纹注册请求,并将该声纹注册请求发送给发送给服务器,服务器接收该声纹注册请求。
S55:采用高斯混合模型-通用背景模型对目标训练语音进行特征提取,获取目标声纹特征。
具体地,服务器采用训练好的高斯混合模型-通用背景模型对目标训练语音进行特征提取,以获取目标声纹特征。即先对目标训练语音进行MFCC特征提取,以获取对应的目标MFCC声学特征,然后对目标MFCC声学特征进行语音活动检测,再把活动语音检测后的MFCC声学特征放入训练好的高斯混合模型-通用背景模型进行特征提取,以获取目标声纹特征。
S56:将用户ID和目标声纹特征存储在声纹特征库。
本实施例中,将声纹注册请求中的用户ID和基于目标训练语音获取到的目标声纹特征存储在声纹特征库中,以便于在需进行用户身份识别时,可基于用户ID调用相应的目标声纹特征。
该具体实施方式中,通过对训练语音进行MFCC特征提取和语音活动检测,估计高斯混合模型参数,并利用高斯混合模型参数对通用背景模型进行训练,以获取训练好的高斯混合模型-通用背景模型,该高斯混合模型-通用背景模型具有识别率高的优点。再接收声纹注册请求,将声纹注册请求中的目标训练语音通过训练好的高斯混合模型-通用背景模型进行特征提取,以获取目标声纹特征,并将目标声纹特征与用户ID保存在声纹特征库中,以便于在语音识别过程中,基于待处理语音识别请求中的用户ID获取对应的目标声纹特征,并与测试声纹特征进行比较,以确定目标声纹特征与测试声纹特征的说话人是否为同一用户,以达到语音识别效果。
实施例2
图2示出本实施例中声纹识别方法的一流程图。该声纹识别装置包括客户端和后台服务器,可实现对客户端采集的测试语音进行身份识别。如图2所示,该声纹识别装置包括客户端10和后台服务器20。
客户端10,用于采集用户的测试语音,并向后台服务器发送语音识别请求,语音识别请求包括用户ID和测试语音。
其中,客户端10包括智能手机、笔记本、台式计算机等可与后台服务器通信相连的终端,客户端上设有用于采集测试语音的麦克风或设有外置麦克风接口。用户ID用于唯一识别用户身份,本实施例中测试语音与用户ID相关联,用于确定测试语音对应的用户。客户端对用户进行采样录音,获取wav音频格式的测试语音,根据测试语音与用户ID形成语音识别请求,并将语音识别请求发送给后台服务器。
进一步地,当客户端为手机端时,采用多线程方式采集测试语音;当客户端为网页端时,采用Ajax异步刷新方式采集测试语音,以实现与后台服务器通信时,不打断用户操作,以提高测试请求的采集速度。Ajax(Asynchronous JavaScript and XML),异步JavaScript与XML,是使用客户端脚本与Web服务器交换数据的Web应用开发方法。
后台服务器20,用于接收语音识别请求,采用消息队列和异步机制确定待处理语音识别请求。
其中,后台服务器20接收至少一个客户端发送的语音识别请求,并将至少一个语音识别请求放入消息队列等待。后台服务器采用异步机制对消息队列中的至少一个语音识别请求进行调度,使得后台服务器在处理消息队列中的每一消息时,发送方和接收方相互独立,无需等待对方回应。采用消息队列和异步机制对至少一个语音识别请求进行调度以获取待处理语音识别请求,可使后台服务器可同时接收大量的语音识别请求,并避免任一待处理语音识别请求的处理时间过长导致其他大量语音识别请求丢失。另一方面,采用消息队列和异步机制还可在后台服务器搭建分布式系统,可提高对语音识别请求的峰值处理能力和灵活性,降低进程间的耦合程度,保证每一语音识别请求均能被处理。
后台服务器20,用于获取与待处理语音识别请求的用户ID相对应的目标声纹特征,并获取与待处理语音识别请求的测试语音相对应的测试声纹特征。
具体地,目标声纹特征是预先存储在后台服务器中与用户ID相对应的用户的声纹特征。测试声纹特征是语音请求中测试语音相对应的声纹特征。其中,声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。相应地,声纹特征包括但不限于与人类的发音机制的解剖学结构有关的声学特征,如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等。
本实施例中,目标声纹特征和测试声纹特征优选为I-vector(即identifyingvector,辨识矢量)特征。相应地,任一I-vector特征均可采用I-vector算法进行获取,i-vertor算法是一种估计隐变量的方法,用一固定长度的低维向量表示一段语音,在I-vector特征提取过程中没有把类内和类间的方差分开考虑,而是将其放在一个子空间,即总变量空间(total variablity space)中考虑,使其可采用无监督的方法进行训练,并可去除总变量空间中与语种无关的信息,在降维去噪的同时,最大限度保留了与语种相关的声学信息。
进一步地,后台服务器20包括特征查询单元211和特征处理单元212。
特征查询单元211,用于根据待处理语音识别请求的用户ID查询声纹特征库,以获取与待处理语音识别请求的用户ID相对应的目标声纹特征。
具体地,在声纹特征库中预先存储有至少一组用户ID和与用户ID相关联的目标声纹特征,以便于基于待处理语音识别请求中的用户ID查找相对应的目标声纹特征。
特征处理单元212,用于采用高斯混合模型-通用背景模型对待处理语音识别请求的测试声纹特征进行处理,以获取与待处理语音识别请求的测试语音相对应的测试声纹特征。
其中,高斯混合模型-通用背景模型(即Gaussian Mixture Model-UniversalBackground Model,简称GMM-UBM)是一个与说话人无关、高阶的GMM,它是根据说话人训练语音自适应训练,即语音模型通过说话人用自己的语音反映出模型中未包含的发音情况,用与说话人无关的语音特征分布近似描述,具有识别率高的特点。
具体地,后台服务器20将接收到的语音识别请求放入消息队列等待,当有进程空闲时,从消息队列取出待处理语音识别请求交给后台Servlet容器处理,Servlet容器创建一个HttpRequest对象,将发送过来的信息封装到这个对象中,同时创建一个HttpResponse对象,把HttpRequest与HttpResponse作为参数传给HttpServlet对象,调用HttpServlet对象的service方法,service方法里调用高斯混合模型-通用背景模型对测试语音进行处理,以获取测试声纹特征。
后台服务器20,根据目标声纹特征和测试声纹特征判断是否对应同一用户,并向客户端输出判断结果。
由于目标声纹特征是预先存储在声纹特征库中与用户ID相关联的声纹特征,而测试声纹特征是客户端采集到的与用户ID相关联的测试语音对应的声纹特征,若两个相同或者近似度达到预设的相似阈值时,可认定两者为同一用户,以向客户端输出两者为同一用户或不为同一用户的判断结果。
进一步地,后台服务器20具体包括特征降维单元221、余弦测度处理单元222和用户识别判断单元223。
特征降维单元221,用于采用PLDA算法分别对目标声纹特征和测试声纹特征进行降维,获取目标降维值和测试降维值。
其中,PLDA(Probabilistic Linear Discriminant Analysis)算法是一种信道补偿算法。PLDA基于I-vector特征,因为I-vector特征即包含说话人差异信息又包含信道差异信息,而我们只关心说话人信息,所以才需要信道补偿。PLDA算法的信道补偿能力比LDA算法更好。
其中,PLDA算法具体包括如下步骤:
(1)初始化μ和W;
(2)采用计算w;
(3)采用重新W,并返回采用计算w的步骤,直至w小于指定阈值;
其中,μ为均值声纹向量;W为类间距离;w为声纹特征;i为迭代次数。
余弦测度处理单元222,用于采用余弦测度函数对目标降维值和测试降维值进行余弦测度,获取余弦测度值。
具体地,余弦测度函数包括:其中,wtrain为目标声纹特征,wtest为测试声纹特征,t为时间。采用余弦测度函数可简单衡量目标声纹特征与测试声纹特征之间距离的远近,当目标声纹特征与测试声纹特征在指定有限维度空间内可以展开时,该余弦测度函数计算较简便且效果较直接有效。
用户识别判断单元223,用于判断余弦测度值是否大于相似阈值;若是,则为同一用户;若否,则不为同一用户。
具体地,若score(wtrain,wtest)>K,则目标声纹特征对应的说话人和测试声纹特征对应的说话人为同一用户;反之,若score(wtrain,wtest)≤K,则目标声纹特征对应的说话人和测试声纹特征对应的说话人不为同一用户;其中K为相似阈值,可以为大于50%的常数。
客户端10,用于接收并显示判断结果。
该判断结果可以是认定测试语音对应的测试声纹特征与声纹特征库中保存的目标声纹特征的说话人为同一用户的判断结果,或者不为同一用户的判断结果。
本发明所提供的声纹识别装置中,后台服务器基于待处理语音识别请求中的用户ID获取对应的目标声纹特征,并基于待处理语音识别请求中的测试语音获取测试声纹特征,并将目标声纹特征与测试声纹特征进行对比,以确定目标声纹特征与测试声纹特征的说话人是否为同一用户,可达到快速语音识别效果,提高语音识别效率。另外,后台服务器采用消息队列和异步机制确定待处理语音识别请求,以提高对大量语音识别请求的处理效率,避免因处理时间过长导致部分语音识别请求丢失。
在一具体实施方式中,该声纹识别装置还包括声学特征提取单元231、语音活动检测单元232、模型训练单元233、注册语音接收单元234、目标声纹特征获取单元235和目标声纹特征存储单元236。
声学特征提取单元231,用于对训练语音进行MFCC特征提取,以获取MFCC声学特征。
其中,MFCC(Mel Frequency Cepstrum Coefficients,梅尔频率倒谱系数)。对训练语音进行MFCC特征提取的过程包括:对训练语音进行预加重、分帧和加窗;再对每一短时分析窗,通过FFT(Fast Fourier Transform,快速傅里叶变换)获得对应的频谱;再将上述频谱通过Mel滤波器组得到Mel频率;在Mel频谱上面进行倒谱分析(取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数),获得Mel频率倒谱系数MFCC,从而获取MFCC声学特征。
语音活动检测单元232,用于对MFCC声学特征进行语音活动检测,估计高斯混合模型参数。
其中,语音活动检测是采用语音活动检测(Voice Activity detection,VAD)算法对语音和噪音的不同特性进行语音和噪音判断,以从连续采样得到的数字信号中检测出语音信号段和噪声信号段,并将语音信号段的MFCC声学特征作为高斯混合模型(GaussianMixture Model模型,简称为GMM模型)的参数组。具体地,采用语音活动检测算法计算短时能量、短时过零率、短时自相关等语音特征参数,从而去除静音信号和非语音信号,将非静音语音信号保留用来估计高斯混合模型参数。本实施例中,用非静音语音信号MFCC声学特征的零阶、一阶、二阶量估计高斯混合模型的参数。
模型训练单元233,用于利用高斯混合模型参数对通用背景模型进行训练,获取高斯混合模型-通用背景模型。
本实施例中,对高斯混合模型参数通过通用背景模型进行因子分析,以获取高斯混合模型-通用背景模型。具体地,通用背景模型的因子分析算法包括:s=m+Tw,其中,m为平均声,即为均值向量;T为声纹空间映射矩阵;w为声纹差异向量,即I-vector特征。采用因子分析算法对用高斯混合模型表示的声学特征进行因子分析,把声学特征的均值向量(均值)与声纹差异向量分离(余量),以获取I-vector特征。该因子分析算法可分离出不同语音间的声纹差异向量,更容易提取不同语音间的声纹特异性。
注册语音接收单元234,用于接收声纹注册请求,声纹注册请求包括用户ID和目标训练语音。本实施例中,客户端接收用户输入的声纹注册请求,并将该声纹注册请求发送给发送给服务器,服务器接收该声纹注册请求。
目标声纹特征获取单元235,用于采用高斯混合模型-通用背景模型对目标训练语音进行特征提取,获取目标声纹特征。具体地,服务器采用训练好的高斯混合模型-通用背景模型对目标训练语音进行特征提取,以获取目标声纹特征。即先对目标训练语音进行MFCC特征提取,以获取对应的目标MFCC声学特征,然后对目标MFCC声学特征进行语音活动检测,再把活动语音检测后的MFCC声学特征放入训练好的高斯混合模型-通用背景模型进行特征提取,以获取目标声纹特征。
目标声纹特征存储单元236,用于将用户ID和目标声纹特征存储在声纹特征库。本实施例中,将声纹注册请求中的用户ID和基于目标训练语音获取到的目标声纹特征存储在声纹特征库中,以便于在需进行用户身份识别时,可基于用户ID调用相应的目标声纹特征。
该具体实施方式所提供的声纹识别装置中,通过对训练语音进行MFCC特征提取和语音活动检测后,估计高斯混合模型参数,并利用高斯混合模型参数对通用背景模型进行训练,以获取训练好的高斯混合模型-通用背景模型,该高斯混合模型-通用背景模型具有识别率高的优点。再接收声纹注册请求,将声纹注册请求中的目标训练语音通过训练好的高斯混合模型-通用背景模型进行特征提取,以获取目标声纹特征,并将目标声纹特征与用户ID保存在声纹特征库中,以便于在语音识别过程中,基于待处理语音识别请求中的用户ID获取对应的目标声纹特征,并与测试声纹特征进行比较,以确定目标声纹特征与测试声纹特征的说话人是否为同一用户,以达到语音识别效果。
本发明是通过几个具体实施例进行说明的,本领域技术人员应当明白,在不脱离本发明范围的情况下,还可以对本发明进行各种变换和等同替代。另外,针对特定情形或具体情况,可以对本发明做各种修改,而不脱离本发明的范围。因此,本发明不局限于所公开的具体实施例,而应当包括落入本发明权利要求范围内的全部实施方式。
Claims (8)
1.一种声纹识别方法,其特征在于,包括:
客户端采集用户的测试语音,并向后台服务器发送语音识别请求,所述语音识别请求包括用户ID和所述测试语音;
后台服务器接收所述语音识别请求,采用消息队列和异步机制确定待处理语音识别请求;
后台服务器获取与所述待处理语音识别请求的用户ID相对应的目标声纹特征,并获取与所述待处理语音识别请求的测试语音相对应的测试声纹特征;
后台服务器根据所述目标声纹特征和所述测试声纹特征判断是否对应同一用户,并向所述客户端输出判断结果;
客户端接收并显示所述判断结果;
其中,所述根据所述目标声纹特征和所述测试声纹特征判断是否对应同一用户,包括:
采用PLDA算法分别对所述目标声纹特征和所述测试声纹特征进行降维,获取目标降维值和测试降维值;
采用余弦测度函数对所述目标降维值和所述测试降维值进行余弦测度,获取余弦测度值;
判断所述余弦测度值是否大于相似阈值;若是,则为同一用户;若否,则不为同一用户。
2.根据权利要求1所述的声纹识别方法,其特征在于,所述后台 服务器获取与所述待处理语音识别请求的用户ID相对应的目标声纹特征,并获取与所述待处理语音识别请求的测试语音相对应的测试声纹特征,包括:
根据所述待处理语音识别请求的用户ID查询声纹特征库,以获取与所述待处理语音识别请求的用户ID相对应的目标声纹特征;
采用高斯混合模型-通用背景模型对所述待处理语音识别请求的测试声纹特征进行处理,以获取与所述待处理语音识别请求的测试语音相对应的测试声纹特征。
3.根据权利要求2所述的声纹识别方法,其特征在于,还包括:
对训练语音进行MFCC特征提取,以获取MFCC声学特征;
对所述MFCC声学特征进行语音活动检测,估计高斯混合模型参数;
利用所述高斯混合模型参数对通用背景模型进行训练,获取所述高斯混合模型-通用背景模型;
接收声纹注册请求,所述声纹注册请求包括用户ID和目标训练语音;
采用所述高斯混合模型-通用背景模型对所述目标训练语音进行训练,获取目标声纹特征;
将所述用户ID和所述目标声纹特征存储在所述声纹特征库。
4.根据权利要求1所述的声纹识别方法,其特征在于,所述PLDA算法包括:
初始化μ和W;
采用计算w;
采用重新计算W,并返回采用 计算w的步骤,直至w小于指定阈值;
其中,μ为均值声纹向量;W为类间距离;w为声纹特征;i为迭代次数;
所述余弦测度函数包括:
其中,wtrain为目标声纹特征,wtest为测试声纹特征,t为时间。
5.一种声纹识别装置,其特征在于,包括:
客户端,用于采集用户的测试语音,并向后台服务器发送语音识别请求,所述语音识别请求包括用户ID和所述测试语音;
后台服务器,用于接收所述语音识别请求,采用消息队列和异步机制确定待处理语音识别请求;
后台服务器,用于获取与所述待处理语音识别请求的用户ID相对应的目标声纹特征,并获取与所述待处理语音识别请求的测试语音相对应的测试声纹特征;
后台服务器,用于根据所述目标声纹特征和所述测试声纹特征判断是否对应同一用户,并向所述客户端输出判断结果;
客户端,用于接收并显示所述判断结果;
所述后台服务器包括:
特征降维单元,用于采用PLDA算法分别对所述目标声纹特征和所述测试声纹特征进行降维,获取目标降维值和测试降维值;
余弦测度处理单元,用于采用余弦测度函数对所述目标降维值和所述测试降维值进行余弦测度,获取余弦测度值;
用户识别判断单元,用于判断所述余弦测度值是否大于相似阈值;若是,则为同一用户;若否,则不为同一用户。
6.根据权利要求5所述的声纹识别装置,其特征在于,所述后台服务器包括:
特征查询单元,用于根据所述待处理语音识别请求的用户ID查询声纹特征库,以获取与所述待处理语音识别请求的用户ID相对应的目标声纹特征;
特征处理单元,用于采用高斯混合模型-通用背景模型对所述待处理语音识别请求的测试声纹特征进行处理,以获取与所述待处理语音识别请求的测试语音相对应的测试声纹特征。
7.根据权利要求6所述的声纹识别装置,其特征在于,后台服务器还包括:
声学特征提取单元,用于对训练语音进行MFCC特征提取,以获取MFCC声学特征;
语音活动检测单元,用于对所述MFCC声学特征进行语音活动检测,估计高斯混合模型参数;
模型训练单元,用于利用所述高斯混合模型参数对通用背景模型进行训练,获取所述高斯混合模型-通用背景模型;
注册语音接收单元,用于接收声纹注册请求,所述声纹注册请求包括用户ID和目标训练语音;
目标声纹特征获取单元,用于采用所述高斯混合模型-通用背景模型对所述目标训练语音进行训练,获取目标声纹特征;
目标声纹特征存储单元,用于将所述用户ID和所述目标声纹特征存储在所述声纹特征库。
8.根据权利要求5所述的声纹识别装置,其特征在于,所述PLDA算法包括:
初始化μ和W;
采用计算w;
采用重新计算W,并返回采用 计算w的步骤,直至w小于指定阈值;
其中,μ为均值声纹向量;W为类间距离;w为声纹特征;i为迭代次数;
所述余弦测度函数包括:
其中,wtrain为目标声纹特征,wtest为测试声纹特征,t为时间。
Priority Applications (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710083629.0A CN106847292B (zh) | 2017-02-16 | 2017-02-16 | 声纹识别方法及装置 |
SG11201803895RA SG11201803895RA (en) | 2017-02-16 | 2017-06-26 | Voiceprint recognition method, device, storage medium and background server |
EP17857669.0A EP3584790A4 (en) | 2017-02-16 | 2017-06-26 | VOICEPRINT RECOGNITION METHOD, DEVICE, STORAGE MEDIUM AND BACKGROUND SERVER |
PCT/CN2017/090046 WO2018149077A1 (zh) | 2017-02-16 | 2017-06-26 | 声纹识别方法、装置、存储介质和后台服务器 |
JP2018514332A JP6649474B2 (ja) | 2017-02-16 | 2017-06-26 | 声紋識別方法、装置及びバックグラウンドサーバ |
US15/772,801 US10629209B2 (en) | 2017-02-16 | 2017-06-26 | Voiceprint recognition method, device, storage medium and background server |
AU2017101877A AU2017101877A4 (en) | 2017-02-16 | 2017-06-26 | Voiceprint recognition method, device, storage medium and background server |
AU2017341161A AU2017341161A1 (en) | 2017-02-16 | 2017-06-26 | Voiceprint recognition method, device, storage medium and background server |
KR1020187015547A KR20180104595A (ko) | 2017-02-16 | 2017-06-26 | 성문 식별 방법, 장치, 저장 매체 및 백스테이지 서버 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710083629.0A CN106847292B (zh) | 2017-02-16 | 2017-02-16 | 声纹识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106847292A CN106847292A (zh) | 2017-06-13 |
CN106847292B true CN106847292B (zh) | 2018-06-19 |
Family
ID=59128377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710083629.0A Active CN106847292B (zh) | 2017-02-16 | 2017-02-16 | 声纹识别方法及装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US10629209B2 (zh) |
EP (1) | EP3584790A4 (zh) |
JP (1) | JP6649474B2 (zh) |
KR (1) | KR20180104595A (zh) |
CN (1) | CN106847292B (zh) |
AU (2) | AU2017341161A1 (zh) |
SG (1) | SG11201803895RA (zh) |
WO (1) | WO2018149077A1 (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847292B (zh) | 2017-02-16 | 2018-06-19 | 平安科技(深圳)有限公司 | 声纹识别方法及装置 |
US10170112B2 (en) * | 2017-05-11 | 2019-01-01 | Google Llc | Detecting and suppressing voice queries |
CN107492379B (zh) * | 2017-06-30 | 2021-09-21 | 百度在线网络技术(北京)有限公司 | 一种声纹创建与注册方法及装置 |
CN109215643B (zh) * | 2017-07-05 | 2023-10-24 | 阿里巴巴集团控股有限公司 | 一种交互方法、电子设备及服务器 |
CN107527620B (zh) * | 2017-07-25 | 2019-03-26 | 平安科技(深圳)有限公司 | 电子装置、身份验证的方法及计算机可读存储介质 |
CN107623614B (zh) * | 2017-09-19 | 2020-12-08 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN109584884B (zh) * | 2017-09-29 | 2022-09-13 | 腾讯科技(深圳)有限公司 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
CN107978311B (zh) * | 2017-11-24 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置以及语音交互设备 |
CN108806696B (zh) * | 2018-05-08 | 2020-06-05 | 平安科技(深圳)有限公司 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
US11893999B1 (en) * | 2018-05-13 | 2024-02-06 | Amazon Technologies, Inc. | Speech based user recognition |
CN108777146A (zh) * | 2018-05-31 | 2018-11-09 | 平安科技(深圳)有限公司 | 语音模型训练方法、说话人识别方法、装置、设备及介质 |
CN108899032A (zh) * | 2018-06-06 | 2018-11-27 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、计算机设备及存储介质 |
CN108986792B (zh) * | 2018-09-11 | 2021-02-12 | 苏州思必驰信息科技有限公司 | 用于语音对话平台的语音识别模型的训练调度方法及系统 |
KR20190067135A (ko) | 2019-05-27 | 2019-06-14 | 박경훈 | 묶을 수 있는 끈이 일체형으로 직조 된 망사 자루 연속 자동화 제조방법 및 그로써 직조 된 망사 자루 |
CN110491370A (zh) * | 2019-07-15 | 2019-11-22 | 北京大米科技有限公司 | 一种语音流识别方法、装置、存储介质及服务器 |
CN110364182B (zh) * | 2019-08-01 | 2022-06-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种声音信号处理方法及装置 |
CN110610709A (zh) * | 2019-09-26 | 2019-12-24 | 浙江百应科技有限公司 | 基于声纹识别的身份辨别方法 |
CN111048100B (zh) * | 2019-11-21 | 2023-09-08 | 深圳市东进银通电子有限公司 | 一种大数据并行化声纹辨认系统和方法 |
CN111081261B (zh) * | 2019-12-25 | 2023-04-21 | 华南理工大学 | 一种基于lda的文本无关声纹识别方法 |
CN111370000A (zh) * | 2020-02-10 | 2020-07-03 | 厦门快商通科技股份有限公司 | 声纹识别算法评估方法、系统、移动终端及存储介质 |
CN111312259B (zh) * | 2020-02-17 | 2022-12-30 | 厦门快商通科技股份有限公司 | 声纹识别方法、系统、移动终端及存储介质 |
CN111554303B (zh) * | 2020-05-09 | 2023-06-02 | 福建星网视易信息系统有限公司 | 一种歌曲演唱过程中的用户身份识别方法及存储介质 |
CN112000570A (zh) * | 2020-07-29 | 2020-11-27 | 北京达佳互联信息技术有限公司 | 应用测试方法、装置、服务器及存储介质 |
CN111951791B (zh) * | 2020-08-26 | 2024-05-17 | 上海依图网络科技有限公司 | 声纹识别模型训练方法、识别方法、电子设备及存储介质 |
CN112185395B (zh) * | 2020-09-04 | 2021-04-27 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于差分隐私的联邦声纹识别方法 |
CN112185362A (zh) * | 2020-09-24 | 2021-01-05 | 苏州思必驰信息科技有限公司 | 针对用户个性化服务的语音处理方法及装置 |
CN112214298B (zh) * | 2020-09-30 | 2023-09-22 | 国网江苏省电力有限公司信息通信分公司 | 基于声纹识别的动态优先级调度方法及系统 |
US11522994B2 (en) | 2020-11-23 | 2022-12-06 | Bank Of America Corporation | Voice analysis platform for voiceprint tracking and anomaly detection |
CN112669820B (zh) * | 2020-12-16 | 2023-08-04 | 平安科技(深圳)有限公司 | 基于语音识别的考试作弊识别方法、装置及计算机设备 |
CN114780787A (zh) * | 2022-04-01 | 2022-07-22 | 杭州半云科技有限公司 | 声纹检索方法、身份验证方法、身份注册方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6853716B1 (en) * | 2001-04-16 | 2005-02-08 | Cisco Technology, Inc. | System and method for identifying a participant during a conference call |
CN103035245A (zh) * | 2012-12-08 | 2013-04-10 | 大连创达技术交易市场有限公司 | 以太网声纹识别系统 |
CN103915096A (zh) * | 2014-04-15 | 2014-07-09 | 胡上杰 | 警务声纹识别方法 |
CN105845140A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 应用于短语音条件下的说话人确认方法和装置 |
CN106297806A (zh) * | 2016-08-22 | 2017-01-04 | 安徽工程大学机电学院 | 基于声纹的智能传声系统 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU670379B2 (en) | 1993-08-10 | 1996-07-11 | International Standard Electric Corp. | System and method for passive voice verification in a telephone network |
US7047196B2 (en) | 2000-06-08 | 2006-05-16 | Agiletv Corporation | System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery |
JP2002304379A (ja) | 2001-04-05 | 2002-10-18 | Sharp Corp | 個人認証方法および個人認証システム |
JP2003114617A (ja) * | 2001-10-03 | 2003-04-18 | Systemfrontier Co Ltd | 音声による認証システム及び音声による認証方法 |
US7240007B2 (en) * | 2001-12-13 | 2007-07-03 | Matsushita Electric Industrial Co., Ltd. | Speaker authentication by fusion of voiceprint match attempt results with additional information |
JP2005115921A (ja) * | 2003-09-17 | 2005-04-28 | Moss Institute Co Ltd | 音声情報管理方法,音声情報管理システム,音声情報管理プログラム及び音声データ管理装置 |
US20060015335A1 (en) * | 2004-07-13 | 2006-01-19 | Ravigopal Vennelakanti | Framework to enable multimodal access to applications |
CN1936967A (zh) | 2005-09-20 | 2007-03-28 | 吴田平 | 声纹考勤机 |
CN101197131B (zh) * | 2006-12-07 | 2011-03-30 | 积体数位股份有限公司 | 随机式声纹密码验证系统、随机式声纹密码锁及其产生方法 |
JP2009230267A (ja) * | 2008-03-19 | 2009-10-08 | Future Vision:Kk | 会議室設備及び会議室設備を用いた会議記録システム |
JP2009237774A (ja) * | 2008-03-26 | 2009-10-15 | Advanced Media Inc | 認証サーバ、サービス提供サーバ、認証方法、通信端末、およびログイン方法 |
US8442824B2 (en) * | 2008-11-26 | 2013-05-14 | Nuance Communications, Inc. | Device, system, and method of liveness detection utilizing voice biometrics |
JP2010182076A (ja) * | 2009-02-05 | 2010-08-19 | Nec Corp | 認証システム、認証サーバ、証明方法およびプログラム |
CN101923855A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 文本无关的声纹识别系统 |
CN102402985A (zh) * | 2010-09-14 | 2012-04-04 | 盛乐信息技术(上海)有限公司 | 提高声纹识别安全性的声纹认证系统及其实现方法 |
CN102324232A (zh) | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN102509547B (zh) | 2011-12-29 | 2013-06-19 | 辽宁工业大学 | 基于矢量量化的声纹识别方法及系统 |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
AU2013315343B2 (en) * | 2012-09-11 | 2019-05-30 | Auraya Pty Ltd | Voice authentication system and method |
JP6276523B2 (ja) | 2013-06-28 | 2018-02-07 | 株式会社フジクラ | 酸化物超電導導体及び酸化物超電導導体の製造方法 |
WO2015011867A1 (ja) * | 2013-07-26 | 2015-01-29 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報管理方法 |
JP6360484B2 (ja) * | 2013-09-03 | 2018-07-18 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声対話制御方法 |
GB2517952B (en) * | 2013-09-05 | 2017-05-31 | Barclays Bank Plc | Biometric verification using predicted signatures |
CN103730114A (zh) * | 2013-12-31 | 2014-04-16 | 上海交通大学无锡研究院 | 一种基于联合因子分析模型的移动设备声纹识别方法 |
EP2897076B8 (en) * | 2014-01-17 | 2018-02-07 | Cirrus Logic International Semiconductor Ltd. | Tamper-resistant element for use in speaker recognition |
KR102346634B1 (ko) | 2015-02-27 | 2022-01-03 | 삼성전자주식회사 | 사용자 인식을 위한 특징 벡터를 변환하는 방법 및 디바이스 |
CN104835498B (zh) | 2015-05-25 | 2018-12-18 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN107492382B (zh) * | 2016-06-13 | 2020-12-18 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
CN106847292B (zh) | 2017-02-16 | 2018-06-19 | 平安科技(深圳)有限公司 | 声纹识别方法及装置 |
-
2017
- 2017-02-16 CN CN201710083629.0A patent/CN106847292B/zh active Active
- 2017-06-26 AU AU2017341161A patent/AU2017341161A1/en active Pending
- 2017-06-26 US US15/772,801 patent/US10629209B2/en active Active
- 2017-06-26 AU AU2017101877A patent/AU2017101877A4/en active Active
- 2017-06-26 JP JP2018514332A patent/JP6649474B2/ja active Active
- 2017-06-26 EP EP17857669.0A patent/EP3584790A4/en not_active Ceased
- 2017-06-26 KR KR1020187015547A patent/KR20180104595A/ko not_active Application Discontinuation
- 2017-06-26 SG SG11201803895RA patent/SG11201803895RA/en unknown
- 2017-06-26 WO PCT/CN2017/090046 patent/WO2018149077A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6853716B1 (en) * | 2001-04-16 | 2005-02-08 | Cisco Technology, Inc. | System and method for identifying a participant during a conference call |
CN103035245A (zh) * | 2012-12-08 | 2013-04-10 | 大连创达技术交易市场有限公司 | 以太网声纹识别系统 |
CN103915096A (zh) * | 2014-04-15 | 2014-07-09 | 胡上杰 | 警务声纹识别方法 |
CN105845140A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 应用于短语音条件下的说话人确认方法和装置 |
CN106297806A (zh) * | 2016-08-22 | 2017-01-04 | 安徽工程大学机电学院 | 基于声纹的智能传声系统 |
Also Published As
Publication number | Publication date |
---|---|
AU2017341161A1 (en) | 2018-08-30 |
AU2017101877A4 (en) | 2020-04-23 |
KR20180104595A (ko) | 2018-09-21 |
US20190272829A1 (en) | 2019-09-05 |
JP2019510248A (ja) | 2019-04-11 |
JP6649474B2 (ja) | 2020-02-19 |
US10629209B2 (en) | 2020-04-21 |
WO2018149077A1 (zh) | 2018-08-23 |
SG11201803895RA (en) | 2018-09-27 |
EP3584790A4 (en) | 2021-01-13 |
EP3584790A1 (en) | 2019-12-25 |
CN106847292A (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106847292B (zh) | 声纹识别方法及装置 | |
JP6906067B2 (ja) | 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体 | |
CN112259106B (zh) | 声纹识别方法、装置、存储介质及计算机设备 | |
TWI527023B (zh) | A voiceprint recognition method and apparatus | |
CN112562691B (zh) | 一种声纹识别的方法、装置、计算机设备及存储介质 | |
CN108986824B (zh) | 一种回放语音检测方法 | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及系统 | |
CN108694954A (zh) | 一种性别年龄识别方法、装置、设备及可读存储介质 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
Patel et al. | Speech recognition and verification using MFCC & VQ | |
CN110457432A (zh) | 面试评分方法、装置、设备及存储介质 | |
CN110265037A (zh) | 身份验证方法、装置、电子设备及计算机可读存储介质 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN102324232A (zh) | 基于高斯混合模型的声纹识别方法及系统 | |
CN105679312B (zh) | 一种噪声环境下声纹识别的语音特征处理方法 | |
CN108597505A (zh) | 语音识别方法、装置及终端设备 | |
CN109036437A (zh) | 口音识别方法、装置、计算机装置及计算机可读存储介质 | |
Zhang et al. | Voice biometric identity authentication system based on android smart phone | |
CN108269573A (zh) | 基于矢量量化和高斯混合模型的说话人识别系统 | |
CN112466276A (zh) | 一种语音合成系统训练方法、装置以及可读存储介质 | |
CN104464738A (zh) | 一种面向智能移动设备的声纹识别方法 | |
KR100779242B1 (ko) | 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법 | |
Abbas et al. | Heart‐ID: human identity recognition using heart sounds based on modifying mel‐frequency cepstral features | |
Balpande et al. | Speaker recognition based on mel-frequency cepstral coefficients and vector quantization | |
Sekkate et al. | A multiresolution-based fusion strategy for improving speech emotion recognition efficiency |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |