CN111128198A - 一种声纹识别方法、装置、存储介质、服务器及系统 - Google Patents
一种声纹识别方法、装置、存储介质、服务器及系统 Download PDFInfo
- Publication number
- CN111128198A CN111128198A CN201911360737.3A CN201911360737A CN111128198A CN 111128198 A CN111128198 A CN 111128198A CN 201911360737 A CN201911360737 A CN 201911360737A CN 111128198 A CN111128198 A CN 111128198A
- Authority
- CN
- China
- Prior art keywords
- voiceprint recognition
- voice data
- voiceprint
- preset
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000007613 environmental effect Effects 0.000 claims abstract description 11
- 238000001914 filtration Methods 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 17
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 abstract description 19
- 238000001514 detection method Methods 0.000 abstract description 3
- 230000004044 response Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 102100024607 DNA topoisomerase 1 Human genes 0.000 description 2
- 101000830681 Homo sapiens DNA topoisomerase 1 Proteins 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种声纹识别方法,该方法包括:接收交换机通过MRCP协议发送的声纹识别请求,该请求中包含待识别的原始语音数据;利用预设语音去噪算法对原始语音数据进行去噪处理;提取去噪后的语音数据当中的声学特征,并将声学特征输入到训练好的声纹识别模型当中,得到目标声学特征值;将目标声学特征值在预设声纹数据库当中进行匹配,当存在匹配率高于阈值的匹配结果时,判定声纹识别成功。本发明通过MRCP协议来推送原始语音数据,相比于抓包方式,可以减少语音信号的丢包概率,缩短声纹识别时间,提升声纹识别的处理效率,此外还对原始语音数据进行去噪处理,以去除原始语音中的环境噪音,降低声纹识别的误检概率,整体提高声纹识别的可靠性。
Description
技术领域
本发明属于声纹技术领域,尤其涉及一种声纹识别方法、装置、存储介质、服务器及系统。
背景技术
每个人的声音都蕴涵着特有的生物特征,声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性,可以应用在所有需要做身份识别的场合。如在银行、证券、保险等金融领域。
声纹识别的前提是需要预先录入用户语音,服务器通过对录入的用户语音进行声学特征提取,以注册该用户的声学特征值,形成声纹数据库,实际在进行声纹识别时,通过前端声音采集设备采集用户的现场语音,服务器对现场语音进行声学特征提取,并将提取的实际声学特征与声纹数据库进行匹配,匹配成功则声纹识别成功。
现有技术当中,目前声纹识别方案中的前端声音采集设备大多为电话或者手机,银行交换机采用抓包方式根据某个用户的手机号码获取语音数据再推送到服务器做声纹识别,环境比较嘈杂,声音直接送入服务器做声纹识别存在误检的概率比较高,且采用抓包的方式提取语音信息,容易丢包且效率低,导致目前声纹识别方案整体可靠性较差。
发明内容
本发明实施例的目的在于提供一种声纹识别方法、装置、存储介质、服务器及系统,旨在解决现有技术当中声纹识别方案可靠性差的技术问题。
本发明实施例是这样实现的,一种声纹识别方法,所述方法包括:
接收交换机通过MRCP协议发送的声纹识别请求,所述声纹识别请求当中包含待识别的原始语音数据;
利用预设语音去噪算法对所述原始语音数据进行去噪处理;
提取去噪后的语音数据当中的声学特征,并将所述声学特征输入到训练好的声纹识别模型当中,得到目标声学特征值;
将所述目标声学特征值在预设声纹数据库当中进行匹配,当存在匹配率高于阈值的匹配结果时,判定声纹识别成功。
更进一步的,所述将所述目标声学特征值在预设声纹数据库当中进行匹配的步骤包括:
根据预设匹配算法,将所述目标声学特征值与所述预设声纹数据库当中的每一预设声学特征值进行匹配打分;
从所有打分值当中提取最高打分值;
判断所述最高打分值是否大于所述阈值;
若是,则判定存在所述匹配率高于阈值的匹配结果。
更进一步的,所述预设匹配算法为欧拉距离公式。
更进一步的,在所述判定声纹识别成功的步骤之后,还包括:
通过所述MRCP协议向所述交换机反馈声纹识别结果。
更进一步的,所述利用预设语音去噪算法对所述原始语音数据进行去噪处理的步骤包括:
利用改进的LMS自适应滤波算法去除所述原始语音数据当中的环境噪声。
更进一步的,所述提取去噪后的语音数据当中的声学特征的步骤包括:
利用MFCC算法提取所述去噪后的语音数据当中的声学特征;
其中,所述目标声学特征值和预设声学特征值均为256维的一阶向量。
此外,本发明实施例还提出一种声纹识别装置,所述系统包括:
请求接收模块,用于接收交换机通过预设协议发送的声纹识别请求,所述声纹识别请求当中包含待识别的原始语音数据;
语音去噪模块,用于利用预设语音去噪算法对所述原始语音数据进行去噪处理;
特征提取模块,用于提取去噪后的语音数据当中的声学特征,并将所述声学特征输入到训练好的声纹识别模型当中,得到目标声学特征值;
声纹识别模块,用于将所述目标声学特征值在预设声纹数据库当中进行匹配,当存在匹配率高于阈值的匹配结果时,判定声纹识别成功。
此外,本发明实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的声纹识别方法。
此外,本发明实施例还提出一种服务器,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述的声纹识别方法。
此外,本发明实施例还提出一种声纹识别系统,所述系统包括:
如上述的服务器;
采用MRCP协议与所述服务器通讯连接的交换机;以及
与所述交换机通讯连接并用于采集原始语音数据的终端。
与现有技术相比:通过MRCP协议来推送原始语音数据,相比于抓包方式,可以减少语音信号的丢包概率,缩短声纹识别时间,提升声纹识别的处理效率,此外服务器在进行声纹识别之前,采用预设语音去噪算法对原始语音数据进行去噪处理,以去除原始语音中的环境噪音,降低声纹识别的误检概率,整体提高声纹识别的可靠性。
附图说明
图1是本发明实施例当中提供的声纹识别系统的结构图;
图2是本发明实施例当中提供的声纹识别系统的通讯架构图;
图3是本发明实施例一提供的声纹识别方法的流程示意图;
图4是本发明实施例二提供的声纹识别方法的流程示意图;
图5是本发明实施例三提供的声纹识别装置的模块示意图;
图6是本发明实施例四提供的服务器的模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明针对现有声纹识别方案存在丢包及误检概率高、导致整体方案不可靠的技术问题,提出一种声纹识别方法、装置、存储介质、服务器及系统,以通过MRCP协议以及环境去噪技术来降低丢包及误检概率,提高声纹识别的可靠性。
以下各实施例均可应用到图1和图2所示的声纹识别系统当中,请参阅图1,图1是本申请实施例提供的一种声纹识别系统的结构示意图。该系统包括:位于局域网侧(LocalArea Network,LAN)的交换机101、前端声音采集设备102以及位于广域网(Wide AreaNetwork,WAN)侧的服务端103。交换机101、前端声音采集设备102以及服务端103通过有线和/或无线网络进行通信,无线网络可以为但不限于Wi-Fi网络、蓝牙、Zigbee、移动通信网络,全球导航卫星系统(global navigation satellite system,GNSS)、调频(frequencymodulation,FM)、近距离无线通信技术(near field communication,NFC)、红外技术(infrared,IR)等。
具体地,前端声音采集设备102可以为手机/固定电话,用于采集用户的原始语音数据流,当前端声音采集设备102采用局域网络(如Wi-Fi、蓝牙等)与交换机101通讯时,交换机101可以为前端声音采集设备102附近的交换机,如银行交换机,当前端声音采集设备102采用广域网(如移动通信网络、射频等)与交换机101通讯时,交换机101可以为广域网中的交换机,如移动4G网络交换机,交换机101主要负责获取前端声音采集设备102采集的用户的原始语音数据流,并将该原始语音数据流推送给服务器103,同时接收服务器103反馈的声纹识别结果(识别成功或失败)并推送给前端声音采集设备102。
需要指出的是,图1示出的结构并不构成对声纹识别系统的限定,在其它实施例当中,该系统可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
具体地,请参阅图2,图2是本申请实施例提供的一种声纹识别系统的通讯架构图,前端声音采集设备102具体可以通过RTP(Real-time Transport Protocol,实时传输协议)协议来与交换机101通讯连接,以将采集的原始语音数据流实时发送给交换机101,交换机101则具体可以通过MRCP(Media Resource Control Protocol,媒体资源控制协议)协议来与服务器103通讯连接,以通过MRCP协议将采集的原始语音数据流推送给交换机101,并通过MRCP协议接收来接收交换机101反馈的声纹识别结果。
需要指出的是,图2示出的通讯架构并不构成对声纹识别系统的限定,在其它实施例当中,该系统还可以采用其它通讯架构来进行通讯,例如交换机101与前端声音采集设备102和服务器103均可以采用MRCP协议来进行通讯。
实施例一
请参阅图3,是本发明实施例一提供的声纹识别方法的流程示意图,可应用于服务器当中,所述服务器可由软件和/或硬件来实现,所述方法具体包括步骤S01至步骤S05:
步骤S01,接收交换机通过MRCP协议发送的声纹识别请求,所述声纹识别请求当中包含待识别的原始语音数据。
其中,MRCP协议定义了控制媒体处理资源所必需的请求(Request)、应答(Response)和事件(Event)等消息。MRCP协议也为每一种资源定义了状态机,为每一个请求和服务器事件定义了所需的状态转换。MRCP消息使用类似于HTTP等许多Internet协议一样的文本格式,每个消息包括三部分:首行,消息头,消息体。这种方式相比于抓包方式,大大降低了数据的丢包概率。
在具体实施时,前端声音采集设备将采集的用户的原始语音数据通过RTP协议实时发送给交互机,交互机通过MRCP协议向服务器发送声纹识别请求,以将接收到的原始语音数据携带于声纹识别请求当中推送给服务器,此时交互机进入等待服务器响应的状态,直到接收到服务器反馈的声纹识别结构。
在本发明一些可选实施例当中,为了数据传输的安全,可以采用加密算法对原始语音数据进行加密后再推送给服务器,服务器接收到数据后采用对应的解密算法对数据解密后再进行声纹识别。具体地,对原始语音数据的加密算法可以为但不限于三重keeloq算法、DES算法、3DES算法等当中的一种,为了降低运算量,加密算法优选为对称加密算法,使得加密秘钥与解密秘钥相同,相比非对称加密算法,降低了运算量,且适用于微控制器平台。
步骤S02,利用预设语音去噪算法对所述原始语音数据进行去噪处理。
需要说明的是,在前端声音采集设备采集用户的原始语音数据时,会将周围的环境噪声一同采集到原始语音数据当中,若环境噪声过强将影响声纹识别,导致误识别。为了避免这种现象,本实施例在对声纹识别之前,先利用预设语音去噪算法对原始语音数据进行去噪处理,以去除原始语音数据中的环境噪声,只保留有用的语音数据。
在具体实施时,预设语音去噪算法可以为最小均方(LMS)自适应滤波算法、递推最小二乘(RLS)滤波算法、格型滤波算法和无限冲激响应(IIR)滤波算法等当中的任一种。即,原始语音数据可以通过最小均方(LMS)自适应滤波器、递推最小二乘(RLS)滤波器、格型滤波器和无限冲激响应(IIR)滤波器等当中的任一种进行滤波去噪处理。自适应滤波的主要原理为:利用前一时刻已获得的滤波器参数的结果,自动的调节现时刻的滤波器参数,以适应信号和噪声未知的或随时间变化的统计特性,从而实现最优滤波。
除此之外,在本发明一些可选实施例当中,除对原始语音数据进行滤波去噪处理之外,还可以截取原始语音数据当中信号最强的一段(可预设长度)语音数据进行声纹识别,一方面避免信号较弱部分的语音数据影响声纹识别,另一方面降低数据大小,加快声纹识别速率,从而提高声纹识别响应的效率。
步骤S03,提取去噪后的语音数据当中的声学特征,并将所述声学特征输入到训练好的声纹识别模型当中,得到目标声学特征值。
在具体实施时,可以通过mel频率倒谱系数(MFCC)算法、线性预测系数(LPC)算法、线性预测倒谱系数(LPCC)算法、线谱频率(LSF)算法、离散小波变换(DWT)算法、感知线性预测(PLP)算法等当中的任一种来提取去噪后的语音数据当中的声学特征。
另外,所述训练好的声纹识别模型可以是通过PLDA算法训练得到的声纹识别模型,目标声学特征值为256维的一阶向量,即将提取的声学特征输入所述训练好的声纹识别模型当中,模型输出该声学特征对应的256维的一阶向量。
步骤S04,将所述目标声学特征值在预设声纹数据库当中进行匹配,当存在匹配率高于阈值的匹配结果时,判定声纹识别成功。
需要指出的是,预设声纹数据库当中包括所有用户语音的声学特征值,且预设声纹数据库当中的各个声学特征值同样是通过所述训练好的声纹识别模型输出的256维的一阶向量,这样目标声学特征值就可以直接和预设声纹数据库当中的声学特征值进行一对一或一对N的匹配,若存在匹配率高于阈值(如98%)的匹配结果,则代表预设声纹数据库当中的某一声学特征值与该目标声学特征值完全或接近完全匹配,则声纹识别成功,否则声纹识别失败。
步骤S05,通过所述MRCP协议向所述交换机反馈声纹识别结果。
综上,本实施例当中的声纹识别方法,通过MRCP协议来推送原始语音数据,相比于抓包方式,可以减少语音信号的丢包概率,缩短声纹识别时间,提升声纹识别的处理效率,此外服务器在进行声纹识别之前,采用预设语音去噪算法对原始语音数据进行去噪处理,以去除原始语音中的环境噪音,降低声纹识别的误检概率,整体提高声纹识别的可靠性。
实施例二
请参阅图4,是本发明实施例二提供的一种声纹识别方法的流程示意图,可应用于服务器当中,所述服务器可由软件和/或硬件来实现,所述方法包括步骤S11至步骤S18。
步骤S11,接收交换机通过MRCP协议发送的声纹识别请求,所述声纹识别请求当中包含待识别的原始语音数据。
步骤S12,利用改进的LMS自适应滤波算法去除所述原始语音数据当中的环境噪声。
其中,改进的LMS自适应滤波算法具体如下:
J=min||wTx-βd||2+α
利用梯度下降:
1)给定W(0),且1<μ<1/λmax;
2)计算输出的值:y(k)=w(k)Tx(k);
3)计算估计误差:e(k)=βd(k)-y(k);
4)权重更新:w(k+1)=w(k)+μe(k)x(k),β(k+1)=β(k)+μe(k)d(k),
α(k+1)=β(k)*a(k);
步骤S13,利用MFCC算法提取去噪后的语音数据当中的声学特征。
步骤S14,将所述声学特征输入到训练好的声纹识别模型当中,得到目标声学特征值。
其中,所述训练好的声纹识别模型由PLDA算法训练得到,所述目标声学特征值为256维的一阶向量。
步骤S15,根据欧拉距离公式,将所述目标声学特征值与所述预设声纹数据库当中的每一预设声学特征值进行匹配打分。
其中,欧拉距离公式具体如下:
步骤S16,从所有打分值当中提取最高打分值。
步骤S17,判断所述最高打分值是否大于阈值。
其中,当判断到所述最高打分值大于所述阈值,则代表存在匹配率高于阈值的匹配结果,则执行步骤S18,当判断到所述最高打分值不大于所述阈值,则代表不存在匹配率高于阈值的匹配结果,则执行步骤S19。
在具体实施时,可以使用欧式距离公式将目标声学特征值和数据库已存在的预设声学特征值做1:N检索打分,得出分数最高的top1对应的ID,当TOP1比较的分数大于阈值时,则匹配。
步骤S18,判定声纹识别成功,并通过所述MRCP协议向所述交换机反馈声纹识别结果。
步骤S19,判定声纹识别失败,并通过所述MRCP协议向所述交换机反馈声纹识别结果。
本实施例相比于第一实施例,通过欧拉距离公式对特征值检索打分,可以提高打分的准确性,提高声纹识别的准确率,从而进一步提高声纹识别的可靠性。
实施例三
本发明另一方面还提出一种声纹识别装置,请参阅图5,是本发明实施例三提供的一种声纹识别装置的模块示意图,所述声纹识别装置包括:
请求接收模块11,用于接收交换机通过预设协议发送的声纹识别请求,所述声纹识别请求当中包含待识别的原始语音数据;
语音去噪模块12,用于利用预设语音去噪算法对所述原始语音数据进行去噪处理;
特征提取模块13,用于提取去噪后的语音数据当中的声学特征,并将所述声学特征输入到训练好的声纹识别模型当中,得到目标声学特征值;
声纹识别模块14,用于将所述目标声学特征值在预设声纹数据库当中进行匹配,当存在匹配率高于阈值的匹配结果时,判定声纹识别成功。
其中,MRCP协议定义了控制媒体处理资源所必需的请求(Request)、应答(Response)和事件(Event)等消息。MRCP协议也为每一种资源定义了状态机,为每一个请求和服务器事件定义了所需的状态转换。MRCP消息使用类似于HTTP等许多Internet协议一样的文本格式,每个消息包括三部分:首行,消息头,消息体。这种方式相比于抓包方式,大大降低了数据的丢包概率。
在具体实施时,前端声音采集设备将采集的用户的原始语音数据通过RTP协议实时发送给交互机,交互机通过MRCP协议向服务器发送声纹识别请求,以将接收到的原始语音数据携带于声纹识别请求当中推送给服务器,此时交互机进入等待服务器响应的状态,直到接收到服务器反馈的声纹识别结构。
在本发明一些可选实施例当中,为了数据传输的安全,可以采用加密算法对原始语音数据进行加密后再推送给服务器,服务器接收到数据后采用对应的解密算法对数据解密后再进行声纹识别。具体地,对原始语音数据的加密算法可以为但不限于三重keeloq算法、DES算法、3DES算法等当中的一种,为了降低运算量,加密算法优选为对称加密算法,使得加密秘钥与解密秘钥相同,相比非对称加密算法,降低了运算量,且适用于微控制器平台。
需要说明的是,在前端声音采集设备采集用户的原始语音数据时,会将周围的环境噪声一同采集到原始语音数据当中,若环境噪声过强将影响声纹识别,导致误识别。为了避免这种现象,本实施例在对声纹识别之前,先利用预设语音去噪算法对原始语音数据进行去噪处理,以去除原始语音数据中的环境噪声,只保留有用的语音数据。
在具体实施时,预设语音去噪算法可以为最小均方(LMS)自适应滤波算法、递推最小二乘(RLS)滤波算法、格型滤波算法和无限冲激响应(IIR)滤波算法等当中的任一种。即,原始语音数据可以通过最小均方(LMS)自适应滤波器、递推最小二乘(RLS)滤波器、格型滤波器和无限冲激响应(IIR)滤波器等当中的任一种进行滤波去噪处理。自适应滤波的主要原理为:利用前一时刻已获得的滤波器参数的结果,自动的调节现时刻的滤波器参数,以适应信号和噪声未知的或随时间变化的统计特性,从而实现最优滤波。
除此之外,在本发明一些可选实施例当中,除对原始语音数据进行滤波去噪处理之外,还可以截取原始语音数据当中信号最强的一段(可预设长度)语音数据进行声纹识别,一方面避免信号较弱部分的语音数据影响声纹识别,另一方面降低数据大小,加快声纹识别速率,从而提高声纹识别响应的效率。
在具体实施时,可以通过mel频率倒谱系数(MFCC)算法、线性预测系数(LPC)算法、线性预测倒谱系数(LPCC)算法、线谱频率(LSF)算法、离散小波变换(DWT)算法、感知线性预测(PLP)算法等当中的任一种来提取去噪后的语音数据当中的声学特征。
另外,所述训练好的声纹识别模型可以是通过PLDA算法训练得到的声纹识别模型,目标声学特征值为256维的一阶向量,即将提取的声学特征输入所述训练好的声纹识别模型当中,模型输出该声学特征对应的256维的一阶向量。
需要指出的是,预设声纹数据库当中包括所有用户语音的声学特征值,且预设声纹数据库当中的各个声学特征值同样是通过所述训练好的声纹识别模型输出的256维的一阶向量,这样目标声学特征值就可以直接和预设声纹数据库当中的声学特征值进行一对一或一对N的匹配,若存在匹配率高于阈值(如98%)的匹配结果,则代表预设声纹数据库当中的某一声学特征值与该目标声学特征值完全或接近完全匹配,则声纹识别成功,否则声纹识别失败。
综上,本实施例当中的声纹识别装置,通过MRCP协议来推送原始语音数据,相比于抓包方式,可以减少语音信号的丢包概率,缩短声纹识别时间,提升声纹识别的处理效率,此外服务器在进行声纹识别之前,采用预设语音去噪算法对原始语音数据进行去噪处理,以去除原始语音中的环境噪音,降低声纹识别的误检概率,整体提高声纹识别的可靠性。
进一步,在本发明一些可选实施例当中,所述声纹识别模块14可以包括:
匹配打分单元,用于根据预设匹配算法,将所述目标声学特征值与所述预设声纹数据库当中的每一预设声学特征值进行匹配打分;
最高分提取模块,用于从所有打分值当中提取最高打分值;
阈值判断模块,用于判断所述最高打分值是否大于所述阈值;
声纹识别单元,用于当判断到所述最高打分值是大于所述阈值时,判定存在所述匹配率高于阈值的匹配结果。
其中,所述预设匹配算法为欧拉距离公式。
进一步,在本发明一些可选实施例当中,所述声纹识别装置还可以包括:
结果反馈模块,用于通过所述MRCP协议向所述交换机反馈声纹识别结果。
进一步,在本发明一些可选实施例当中,所述语音去噪模块12还可以包括:
语音去噪单元,用于利用改进的LMS自适应滤波算法去除所述原始语音数据当中的环境噪声。
进一步,在本发明一些可选实施例当中,所述特征提取模块13可以包括:
特征提取单元,用于利用MFCC算法提取所述去噪后的语音数据当中的声学特征;
其中,所述目标声学特征值和预设声学特征值均为256维的一阶向量。
上述各模块、单元被执行时所实现的功能或操作步骤与上述方法实施例大体相同,在此不再赘述。
实施例四
本发明另一方面还提出一种服务器,请参阅图6,所示为本发明第四实施例当中的服务器的模块结构图,包括存储器20、处理器10以及存储在存储器上并可在处理器上运行的计算机程序30,所述处理器执行所述程序时实现如上述的声纹识别方法。
具体地,所述处理器10在一些实施例中可以是一中央处理器(CentralProcessing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器20中存储的程序代码或处理数据。
其中,存储器20至少包括一种类别的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器20在一些实施例中可以是装置的内部存储单元,例如该装置的硬盘。存储器20在另一些实施例中也可以是装置的外部存储设备,例如装置上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器20还可以既包括装置的内部存储单元也包括外部存储设备。存储器20不仅可以用于存储安装于装置的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
可选地,该服务器还可以包括用户接口、网络接口、通信总线等,用户接口可以包括显示器(Display)、输入单元比如遥控器、实体按键等,可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在装置中处理的信息以及用于显示可视化的用户界面。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置与其他电子设备之间建立通信连接。通信总线用于实现这些组件之间的连接通信。
需要指出的是,图6示出的结构并不构成对装置的限定,在其它实施例当中,该装置可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
综上,本实施例当中的服务器,通过MRCP协议来推送原始语音数据,相比于抓包方式,可以减少语音信号的丢包概率,缩短声纹识别时间,提升声纹识别的处理效率,此外服务器在进行声纹识别之前,采用预设语音去噪算法对原始语音数据进行去噪处理,以去除原始语音中的环境噪音,降低声纹识别的误检概率,另外还通过欧拉距离公式对特征值检索打分,可以提高打分的准确性,提高声纹识别的准确率,整体提高声纹识别的可靠性。
本实施例还提供了一种计算机可读存储介质,其上存储有上述服务器中所使用的计算机程序30,该程序在被处理器执行时实现上述的声纹识别方法。
其中,所述的存储介质可以为但不限于ROM/RAM、磁碟、光盘等。
本发明实施例另一方面还提出一种声纹识别系统,所述系统包括:
上述任一实施例当中的服务器;
采用MRCP协议与所述服务器通讯连接的交换机;以及
与所述交换机通讯连接并用于采集原始语音数据的终端。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种声纹识别方法,其特征在于,所述方法包括:
接收交换机通过MRCP协议发送的声纹识别请求,所述声纹识别请求当中包含待识别的原始语音数据;
利用预设语音去噪算法对所述原始语音数据进行去噪处理;
提取去噪后的语音数据当中的声学特征,并将所述声学特征输入到训练好的声纹识别模型当中,得到目标声学特征值;
将所述目标声学特征值在预设声纹数据库当中进行匹配,当存在匹配率高于阈值的匹配结果时,判定声纹识别成功。
2.如权利要求1所述的声纹识别方法,其特征在于,所述将所述目标声学特征值在预设声纹数据库当中进行匹配的步骤包括:
根据预设匹配算法,将所述目标声学特征值与所述预设声纹数据库当中的每一预设声学特征值进行匹配打分;
从所有打分值当中提取最高打分值;
判断所述最高打分值是否大于所述阈值;
若是,则判定存在所述匹配率高于阈值的匹配结果。
3.如权利要求2所述的声纹识别方法,其特征在于,所述预设匹配算法为欧拉距离公式。
4.如权利要求1所述的声纹识别方法,其特征在于,在所述判定声纹识别成功的步骤之后,还包括:
通过所述MRCP协议向所述交换机反馈声纹识别结果。
5.如权利要求1所述的声纹识别方法,其特征在于,所述利用预设语音去噪算法对所述原始语音数据进行去噪处理的步骤包括:
利用改进的LMS自适应滤波算法去除所述原始语音数据当中的环境噪声。
6.如权利要求1所述的声纹识别方法,其特征在于,所述提取去噪后的语音数据当中的声学特征的步骤包括:
利用MFCC算法提取所述去噪后的语音数据当中的声学特征;
其中,所述目标声学特征值和预设声学特征值均为256维的一阶向量。
7.一种声纹识别装置,其特征在于,所述系统包括:
请求接收模块,用于接收交换机通过预设协议发送的声纹识别请求,所述声纹识别请求当中包含待识别的原始语音数据;
语音去噪模块,用于利用预设语音去噪算法对所述原始语音数据进行去噪处理;
特征提取模块,用于提取去噪后的语音数据当中的声学特征,并将所述声学特征输入到训练好的声纹识别模型当中,得到目标声学特征值;
声纹识别模块,用于将所述目标声学特征值在预设声纹数据库当中进行匹配,当存在匹配率高于阈值的匹配结果时,判定声纹识别成功。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6任一所述的声纹识别方法。
9.一种服务器,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一所述的声纹识别方法。
10.一种声纹识别系统,其特征在于,所述系统包括:
如权利要求9所述的服务器;
采用MRCP协议与所述服务器通讯连接的交换机;以及
与所述交换机通讯连接并用于采集原始语音数据的终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911360737.3A CN111128198B (zh) | 2019-12-25 | 2019-12-25 | 一种声纹识别方法、装置、存储介质、服务器及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911360737.3A CN111128198B (zh) | 2019-12-25 | 2019-12-25 | 一种声纹识别方法、装置、存储介质、服务器及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111128198A true CN111128198A (zh) | 2020-05-08 |
CN111128198B CN111128198B (zh) | 2022-10-28 |
Family
ID=70502556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911360737.3A Active CN111128198B (zh) | 2019-12-25 | 2019-12-25 | 一种声纹识别方法、装置、存储介质、服务器及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111128198B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113488059A (zh) * | 2021-08-13 | 2021-10-08 | 广州市迪声音响有限公司 | 一种声纹识别方法及系统 |
CN114466105A (zh) * | 2022-01-20 | 2022-05-10 | 微位(深圳)网络科技有限公司 | 固定电话号码的绑定方法、装置、电子设备及介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101051464A (zh) * | 2006-04-06 | 2007-10-10 | 株式会社东芝 | 说话人认证的注册和验证方法及装置 |
CN101894561A (zh) * | 2010-07-01 | 2010-11-24 | 西北工业大学 | 一种基于小波变换和变步长最小均方算法的语音降噪方法 |
CN102509547A (zh) * | 2011-12-29 | 2012-06-20 | 辽宁工业大学 | 基于矢量量化的声纹识别方法及系统 |
GB201211136D0 (en) * | 2012-05-31 | 2012-08-08 | Continental Automotive Systems | A method and apparatus for a frequency domain echo suppression filter |
CN104185866A (zh) * | 2012-03-30 | 2014-12-03 | 苹果公司 | 用于有源噪声消除自适应滤波器的预成形串联滤波器 |
CN104616667A (zh) * | 2014-12-02 | 2015-05-13 | 清华大学 | 一种用于汽车内的主动降噪方法 |
CN105206273A (zh) * | 2015-09-06 | 2015-12-30 | 上海智臻智能网络科技股份有限公司 | 语音传输控制方法及系统 |
CN105261354A (zh) * | 2015-09-09 | 2016-01-20 | 东南大学 | 一种有源降噪自适应主动噪声控制系统及其控制方法 |
CN106101351A (zh) * | 2016-07-26 | 2016-11-09 | 哈尔滨理工大学 | 一种用于移动终端的多mic降噪方法 |
CN106782593A (zh) * | 2017-02-27 | 2017-05-31 | 重庆邮电大学 | 一种用于声学回声消除的多带结构自适应滤波器切换方法 |
CN108011961A (zh) * | 2017-12-07 | 2018-05-08 | 携程旅游信息技术(上海)有限公司 | 基于混合云服务的语音交互系统 |
CN108460081A (zh) * | 2018-01-12 | 2018-08-28 | 平安科技(深圳)有限公司 | 语音数据库创建方法、声纹注册方法、装置、设备及介质 |
CN108510996A (zh) * | 2017-02-27 | 2018-09-07 | 上海闻通信息科技有限公司 | 一种快速迭代自适应滤波方法 |
CN108766446A (zh) * | 2018-04-18 | 2018-11-06 | 上海问之信息科技有限公司 | 声纹识别方法、装置、存储介质及音箱 |
CN108833590A (zh) * | 2018-07-11 | 2018-11-16 | 北京百度网讯科技有限公司 | 一种语音识别服务代理服务器及代理方法 |
CN108877829A (zh) * | 2018-04-03 | 2018-11-23 | 中国航天科工集团第四研究院指挥自动化技术研发与应用中心 | 一种信号处理的方法和装置 |
-
2019
- 2019-12-25 CN CN201911360737.3A patent/CN111128198B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101051464A (zh) * | 2006-04-06 | 2007-10-10 | 株式会社东芝 | 说话人认证的注册和验证方法及装置 |
CN101894561A (zh) * | 2010-07-01 | 2010-11-24 | 西北工业大学 | 一种基于小波变换和变步长最小均方算法的语音降噪方法 |
CN102509547A (zh) * | 2011-12-29 | 2012-06-20 | 辽宁工业大学 | 基于矢量量化的声纹识别方法及系统 |
CN104185866A (zh) * | 2012-03-30 | 2014-12-03 | 苹果公司 | 用于有源噪声消除自适应滤波器的预成形串联滤波器 |
GB201211136D0 (en) * | 2012-05-31 | 2012-08-08 | Continental Automotive Systems | A method and apparatus for a frequency domain echo suppression filter |
CN104616667A (zh) * | 2014-12-02 | 2015-05-13 | 清华大学 | 一种用于汽车内的主动降噪方法 |
CN105206273A (zh) * | 2015-09-06 | 2015-12-30 | 上海智臻智能网络科技股份有限公司 | 语音传输控制方法及系统 |
CN105261354A (zh) * | 2015-09-09 | 2016-01-20 | 东南大学 | 一种有源降噪自适应主动噪声控制系统及其控制方法 |
CN106101351A (zh) * | 2016-07-26 | 2016-11-09 | 哈尔滨理工大学 | 一种用于移动终端的多mic降噪方法 |
CN106782593A (zh) * | 2017-02-27 | 2017-05-31 | 重庆邮电大学 | 一种用于声学回声消除的多带结构自适应滤波器切换方法 |
CN108510996A (zh) * | 2017-02-27 | 2018-09-07 | 上海闻通信息科技有限公司 | 一种快速迭代自适应滤波方法 |
CN108011961A (zh) * | 2017-12-07 | 2018-05-08 | 携程旅游信息技术(上海)有限公司 | 基于混合云服务的语音交互系统 |
CN108460081A (zh) * | 2018-01-12 | 2018-08-28 | 平安科技(深圳)有限公司 | 语音数据库创建方法、声纹注册方法、装置、设备及介质 |
CN108877829A (zh) * | 2018-04-03 | 2018-11-23 | 中国航天科工集团第四研究院指挥自动化技术研发与应用中心 | 一种信号处理的方法和装置 |
CN108766446A (zh) * | 2018-04-18 | 2018-11-06 | 上海问之信息科技有限公司 | 声纹识别方法、装置、存储介质及音箱 |
CN108833590A (zh) * | 2018-07-11 | 2018-11-16 | 北京百度网讯科技有限公司 | 一种语音识别服务代理服务器及代理方法 |
Non-Patent Citations (2)
Title |
---|
ALI O. ABID NOOR ET AL.: "《Convergence improvement of the LMS adaptive noise canceller using low distortion filter banks》", 《2009 IEEE INTERNATIONAL CONFERENCE ON SIGNAL AND IMAGE PROCESSING APPLICATIONS》 * |
尹立言等: "《改进的变步长变换域最小均方算法》", 《信号处理》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113488059A (zh) * | 2021-08-13 | 2021-10-08 | 广州市迪声音响有限公司 | 一种声纹识别方法及系统 |
CN114466105A (zh) * | 2022-01-20 | 2022-05-10 | 微位(深圳)网络科技有限公司 | 固定电话号码的绑定方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111128198B (zh) | 2022-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10460735B2 (en) | Speaker verification using co-location information | |
CN105723450B (zh) | 用于话语检测的包络比较的方法和系统 | |
US10733986B2 (en) | Apparatus, method for voice recognition, and non-transitory computer-readable storage medium | |
US6772119B2 (en) | Computationally efficient method and apparatus for speaker recognition | |
CN106961418A (zh) | 身份认证方法和身份认证系统 | |
CN111243603B (zh) | 声纹识别方法、系统、移动终端及存储介质 | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
KR20160011709A (ko) | 지불 확인을 위한 방법, 장치 및 시스템 | |
CN102142254A (zh) | 基于声纹识别和语音识别的防录音假冒的身份确认方法 | |
CN111128198B (zh) | 一种声纹识别方法、装置、存储介质、服务器及系统 | |
CN110265037A (zh) | 身份验证方法、装置、电子设备及计算机可读存储介质 | |
KR101618512B1 (ko) | 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법 | |
CN109766496B (zh) | 一种内容风险识别方法、系统、设备及介质 | |
CN110364178B (zh) | 一种语音处理方法、装置、存储介质和电子设备 | |
CN112328994A (zh) | 声纹数据处理方法、装置、电子设备和存储介质 | |
WO2014173325A1 (zh) | 喉音识别方法及装置 | |
CN113948090B (zh) | 语音检测方法、会话记录产品及计算机存储介质 | |
CN111081256A (zh) | 数字串声纹密码验证方法及系统 | |
CN110728993A (zh) | 一种变声识别方法及电子设备 | |
CN104901807A (zh) | 一种可用于低端芯片的声纹密码方法 | |
CN111400463A (zh) | 对话响应方法、装置、设备和介质 | |
CN113889091A (zh) | 语音识别方法、装置、计算机可读存储介质及电子设备 | |
KR101444411B1 (ko) | 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법 | |
CN111145761A (zh) | 模型训练的方法、声纹确认的方法、系统、设备及介质 | |
CN116312559A (zh) | 跨信道声纹识别模型的训练方法、声纹识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |