CN108877809B - 一种说话人语音识别方法及装置 - Google Patents

一种说话人语音识别方法及装置 Download PDF

Info

Publication number
CN108877809B
CN108877809B CN201810700238.3A CN201810700238A CN108877809B CN 108877809 B CN108877809 B CN 108877809B CN 201810700238 A CN201810700238 A CN 201810700238A CN 108877809 B CN108877809 B CN 108877809B
Authority
CN
China
Prior art keywords
speaker
level
identity
voice
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810700238.3A
Other languages
English (en)
Other versions
CN108877809A (zh
Inventor
李鹏
吉瑞芳
蔡新元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Iplus Teck Co ltd
Original Assignee
Beijing Iplus Teck Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Iplus Teck Co ltd filed Critical Beijing Iplus Teck Co ltd
Priority to CN201810700238.3A priority Critical patent/CN108877809B/zh
Publication of CN108877809A publication Critical patent/CN108877809A/zh
Application granted granted Critical
Publication of CN108877809B publication Critical patent/CN108877809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches

Abstract

本发明实施例公开一种说话人语音识别方法及装置,其中,方法包括:采集待识别的不同信道的说话人语音;从待识别的不同信道的说话人语音中提取待识别的高层语音级特征;根据待识别的高层语音级特征,获取待识别的身份特征向量;从预先建立的说话人语音检索库中查找与待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。本发明实施例将不同信道的高层语音级特征变换到一个与通道无关的身份空间中,从而去除通道因素的影响,并在身份空间中,完成对说话人的识别,可以有效地利用有限的语音数据进行说话人的身份确认与识别,较好的适应各种场景应用,识别结果准确性高。

Description

一种说话人语音识别方法及装置
技术领域
本发明实施例涉及计算机模式识别技术领域,具体涉及一种说话人语音识别方法及装置。
背景技术
说话人识别在人机交互、身份认证以及信息检索等方面有着广阔的应用前景,它可以用于声控产业、门禁控制、身份验证、电话语音的侦控、语音数据流中的说话人检测等。另外,随着来自于互联网的数字音频数据的爆炸式增长,说话人识别在语音检索和信息获取中的应用也逐渐受到越来越多的关注。近年来,随着说话人识别技术的发展,基于实验室的,在特定条件下的说话人识别已经取得了较好的效果,但是离实际应用还有一定的差距。说话人识别技术还有一些问题趋待解决,如跨信道问题、背景噪声问题、短语音问题等。其中,相对于跨信道、背景噪声等问题,短语音说话人识别因为无法通过工程技术的手段和现有的语音信号处理方法进行弥补,所以解决的难度更大,成为制约说话人识别实用化的一个瓶颈。
目前,在说话人识别中应用最为广泛的说话人识别i-vector系统,其基于的GMM-UBM(混合高斯模型-背景模型模型)和GSV-SVM(高斯均值超向量-支持向量机模型)都是建立在统计模型理论上的,因此要求训练和测试语音必须达到一定的长度,否则,系统性能将大幅度下降。已有很多研究论证了语音长度对识别性能的影响,同时也指出了相对于测试语音长度,训练语音长度对性能的影响更大。并且,目前语音识别领域最新的研究成果,在长语音说话人识别的应用中都取得了不错的效果,但是受语音长度的制约,这些方法都无法在短语音说话人识别中直接应用。语音的高层信息,包括音调、韵律和音长,这些描述说话人讲话方式的特征以及能反映说话人习惯特性的词汇、句法等,都需要大量的训练数据来获取,而在短语音的情况下,由于可获取的这些特征太少无法构成统计特性,所以也不能用于说话人识别。
与众多机器学习、模式识别的应用相似,说话人识别系统的性能很容易受到测试数据(即识别语音)的影响,研究表明:测试数据越长,说话人的识别效果越好。在实际的应用场景中,当识别语音长度在2分钟以上时,识别正确率接近99%。但是,语音作为一种日趋流行的人机交互手段,考虑到人机交五的友好性,在很多实际应用场合中都无法保证足够长度的语音信息。
鉴于此,如何有效地利用有限的语音数据进行说话人的身份确认与识别,以较好的适应各种场景应用成为目前需要解决的技术问题。
发明内容
由于现有方法存在上述问题,本发明实施例提出一种说话人语音识别方法及装置。
第一方面,本发明实施例提出一种说话人语音识别方法,包括:
采集待识别的不同信道的说话人语音;
从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征;
根据所述待识别的高层语音级特征,获取待识别的身份特征向量;
从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。
可选地,在从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果之前,所述方法还包括:
针对注册集中的每个样本说话人,采集不同信道的说话人语音样本;
从所采集的不同信道的说话人语音样本中提取样本说话人的高层语音级特征;
根据所述样本说话人的高层语音级特征,获取样本说话人的身份特征向量;
将注册集中的所有样本说话人的身份特征向量和注册集中的所有样本说话人的身份信息对应加入预先建立的说话人语音检索库中。
可选地,所述从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征,包括:
从所采集的待识别的不同信道的说话人语音中提取待识别的低层帧级特征;
利用门控循环单元GRU模型,从所述待识别的低层帧级特征中提取待识别的高层语音级特征;
相应地,所述从所采集的不同信道的说话人语音样本中提取样本说话人的高层语音级特征,包括:
从所采集的不同信道的说话人语音样本中提取样本说话人的低层帧级特征;
利用GRU模型,从所述样本说话人的低层帧级特征中提取样本说话人的高层语音级特征。
可选地,所述低层帧级特征为fbank特征。
可选地,所述根据所述待识别的高层语音级特征,获取待识别的身份特征向量,包括:
利用变换函数,将所述待识别的高层语音级特征转换为待识别的身份特征向量;
其中,所述变换函数是通过深度残差网络结构的深度残差网络ResCNN模型学习并采用说话人身份子空间损失函数监督训练优化后得到的;所述变换函数用于将高层语音级特征变换到与通道无关的身份空间,所述身份特征向量为高层语音级特征对应的语音在身份空间中的唯一身份标识;
相应地,所述根据所述样本说话人的高层语音级特征,获取样本说话人的身份特征向量,包括:
利用变换函数,将所述样本说话人的高层语音级特征转换为样本说话人的身份特征向量。
可选地,所述从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,包括:
利用余弦相似度度量方法,从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量。
第二方面,本发明实施例还提出一种说话人语音识别装置,包括:
第一采集模块,用于采集待识别的不同信道的说话人语音;
第一提取模块,用于从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征;
第一获取模块,用于根据所述待识别的高层语音级特征,获取待识别的身份特征向量;
查找模块,用于从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。
可选地,所述装置还包括:
第二采集模块,用于针对注册集中的每个样本说话人,采集不同信道的说话人语音样本;
第二提取模块,用于从所采集的不同信道的说话人语音样本中提取样本说话人的高层语音级特征;
第二获取模块,用于根据所述样本说话人的高层语音级特征,获取样本说话人的身份特征向量;
加入模块,用于将注册集中的所有样本说话人的身份特征向量和注册集中的所有样本说话人的身份信息对应加入预先建立的说话人语音检索库中。
第三方面,本发明实施例还提出一种电子设备,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器,存储器通过所述总线完成相互间的通信;
所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。
由上述技术方案可知,本发明实施例提供的一种说话人语音识别方法及装置,通过从采集的待识别的不同信道的说话人语音中提取待识别的高层语音级特征,根据待识别的高层语音级特征,获取待识别的身份特征向量,从预先建立的说话人语音检索库中查找与待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果,由此,能够将不同信道的高层语音级特征变换到一个与通道无关的身份空间中,从而去除通道因素的影响,并在身份空间中,完成对说话人的识别,可以有效地利用有限的语音数据进行说话人的身份确认与识别,较好的适应各种场景应用,识别结果准确性高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明一实施例提供的一种说话人语音识别方法的流程示意图;
图2为本发明一实施例提供的一种说话人语音识别装置的结构示意图;
图3为本发明一实施例提供的电子设备的实体结构示意图。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
图1示出了本发明一实施例提供的一种说话人语音识别方法的流程示意图,如图1所示,本实施例的说话人语音识别方法,包括:
S1、采集待识别的不同信道的说话人语音。
在具体应用中,举例来说,可以通过安装有动圈式麦克风、电容式麦克风和微机电麦克风三种型号的麦克风,采集同一说话人不同信道的语音,模拟实际语音环境。
S2、从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征。
S3、根据所述待识别的高层语音级特征,获取待识别的身份特征向量。
S4、从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。
本实施例的说话人语音识别方法,通过从采集的待识别的不同信道的说话人语音中提取待识别的高层语音级特征,根据待识别的高层语音级特征,获取待识别的身份特征向量,从预先建立的说话人语音检索库中查找与待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果,由此,能够将不同信道的高层语音级特征变换到一个与通道无关的身份空间中,从而去除通道因素的影响,并在身份空间中,完成对说话人的识别,可以有效地利用有限的语音数据进行说话人的身份确认与识别,较好的适应各种场景应用,识别结果准确性高。本实施例在识别过程中,只需进行简单的代数运算,因此计算过程简单,时间复杂度很低,并且对识别的语音类别数没有限制,具有很强的通用性和大规模扩展性。
进一步地,在上述实施例的基础上,在所述步骤S4之前,所述方法还可以包括图中未示出的步骤P1-P4:
P1、针对注册集中的每个样本说话人,采集不同信道的说话人语音样本。
P2、从所采集的不同信道的说话人语音样本中提取样本说话人的高层语音级特征。
P3、根据所述样本说话人的高层语音级特征,获取样本说话人的身份特征向量。
P4、将注册集中的所有样本说话人的身份特征向量和注册集中的所有样本说话人的身份信息对应加入预先建立的说话人语音检索库中。
由此,能够得到所述步骤S4中使用的预先建立的说话人语音检索库。
进一步地,在上述实施例的基础上,本实施例所述步骤S2,可以包括图中未示出的步骤S21-S22:
S21、从所采集的待识别的不同信道的说话人语音中提取待识别的低层帧级特征;
在具体应用中,可以根据预设帧长(例如25ms的帧长等)和预设帧移(例如10ms的帧移等),从所采集的待识别的不同信道的说话人语音中提取帧级特征,并采用VAD(语音激活检测)对提取的帧级特征进行静音操作,获得待识别的低层帧级特征。
在具体应用中,本实施例中的低层帧级特征可以为fbank特征。
S22、利用GRU(门控循环单元)模型,从所述待识别的低层帧级特征中提取待识别的高层语音级特征;
可以理解的是,单向GRU是LSTM(长短期记忆网络)的一个变体,GRU主要包含更新门和重置门这两个门,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,重置门用于控制忽略前一时刻的状态信息的程度。为了保持说话人的说话风格,本实施例可以只取GRU最后一个输出作为高层语音级特征,而非将所有输出作平均。在具体应用中,举例来说,本实施例利用的GRU模型参数可以参考如下表1。
表1
Figure BDA0001714545210000081
其中卷积层用来降低频域和时域的维度,数字归一化用来降低类内方差的飘移。
相应地,所述步骤P2,可以包括:
P21、从所采集的不同信道的说话人语音样本中提取样本说话人的低层帧级特征;
同上,在具体应用中,可以根据预设帧长和预设帧移,从所采集的不同信道的说话人语音样本中提取样本说话人的帧级特征,并采用VAD对提取的样本说话人的帧级特征进行静音操作,获得样本说话人的低层帧级特征。
P22、利用GRU模型,从所述样本说话人的低层帧级特征中提取样本说话人的高层语音级特征。
可以理解的是,单向GRU作为学习时序特征的模型,它在保持LSTM能很好地处理远距离依赖优点的同时,结构更加简单,计算更加高效。
进一步地,在上述实施例的基础上,本实施例所述步骤S3,可以包括:
利用变换函数,将所述待识别的高层语音级特征转换为待识别的身份特征向量;
其中,所述变换函数是通过ResCNN(深度残差网络结构的深度残差网络)模型学习并采用说话人身份子空间损失函数监督训练优化后得到的;所述变换函数用于将高层语音级特征变换到与通道无关的身份空间,所述身份特征向量为高层语音级特征对应的语音在身份空间中的唯一身份标识;
相应地,本实施例所述步骤P3,可以包括:
利用变换函数,将所述样本说话人的高层语音级特征转换为样本说话人的身份特征向量。
可以理解的是,ResCNN模型是ResNet(深度残差网络)网络和CNN(卷积神经网络)模型的结合。卷积神经网络CNN是一种部分连接的网络,并且通过结构中的降采样操作能够大幅度减少参数量。相比全连接神经网络,CNN具有更好的局部特性。一个卷积层和一个池化层构成了一个基本组合对,卷积神经网络通常包含一个或者多个这样的组合对。卷积层通过部分连接,使得卷积层的输入只有一小部分同输出节点相连。池化层在指定的窗口内通过一定规则选择某些值进行输出,这样的操作增加了对特征位置移动的容忍度,获得信号的平移不变性。CNN在局部特征建模方面表现出优异的性能。由于随着网络加深,模型变得越来越难训练。为了减轻网络的训练,ResNet网络的思想应运而生。本实施例将ResNet结构引入到CNN模型中,构成ResCNN模型来减轻模型的训练。
可以理解的是,说话人识别方法的训练一般是缩小同一说话人语音向量间的距离,拉大不同说话人语音间的距离。本实施例采用说话人身份子空间损失函数监督模型的训练优化,假设同一说话人采集自不同信道的语音,可以看做是从身份空间中一个点的变换而来的,而这个点在身份空间中独一无二。这种变换函数可以表示成:
hi=Γ(θ,xij)+ζij
其中,hi表示第i个说话人的身份特征向量,即人在通道无关的身份空间中的唯一身份标识,Γ表示变换函数,θ表示变换函数的参数,xij表示第i个说话人的第j条语音,ζij表示背景噪音项。在本实施例中,Γ是指ResCNN模型,θ表示ResCNN模型的参数,hi正交初始化并随着网络一起更新。
由于背景噪音项ζij的存在,只能获取估计的身份特征向量
Figure BDA0001714545210000101
Figure BDA0001714545210000102
在本实施例中
Figure BDA0001714545210000103
表示ResCNN模型的输出。训练的目标是寻找最优的hi和θ,使得估计的身份特征向量
Figure BDA0001714545210000104
和理想的身份特征向量hi尽可能的接近。目标函数可以如下表示:
Figure BDA0001714545210000105
Figure BDA0001714545210000106
其中,N表示语音条数,M表示说话人数,ni表示第i个说话人的的语音条数。由于以上方法经常容易过饱和,泛化能力较差,所以我们加入了局部一致性约束,即说话人身份特征向量的距离关系和采集空间中的语音距离一致。通过最小化以下的能量函数Caccordance来实现此目标:
Figure BDA0001714545210000111
其中,hp表示说话人p的身份特征向量,hq表示说话人q的身份特征向量,Rpq表示说话人p和q的位置关系,其表达式如下:
Figure BDA0001714545210000112
其中,xp表示第p个说话人的语音,xq表示第q个说话人的语音,Ns(xp)表示xp的s个最近邻,Ns(xq)表示xq的s个最近邻,dp表示xp到其第r个最近邻的距离,dq表示xq到其第r个最近邻的距离,s和r均表示最近邻数。
总体来看,说话人子空间损失的目标函数可以看做是Lbasic和Caccordance的加权和,表达式如下:
Figure BDA0001714545210000113
Figure BDA0001714545210000114
其中,λ表示Caccordance的权重系数。
在具体应用中,所述变换函数的训练可以离线操作,利用所述变换函数可将高层语音级特征转换为身份特征向量。
进一步地,在上述实施例的基础上,本实施例所述步骤S4中的“从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量”,可以包括:
利用余弦相似度度量方法,从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量。
具体地,可以利用余弦相似度度量方法,通过下述公式,计算预先建立的说话人语音检索库中身份特征向量与待识别的身份特征向量的相似度(即余弦相似度):
cos(hi,hj)=hi Thj/(‖hi2×||hj||2)
其中,hi表示第i个说话人的身份特征向量,hj表示预先建立的说话人语音检索库中第j个说话人的身份特征向量。
相比于目前流行的端到端说话人识别方法,本实施例所述方法能够基于深度度量学习进行短语音说话人的识别,性能更加优秀,并且具有良好的通道鲁棒性。通过实验在短语料数据库上测试了本实施例所述方法的性能。短语料数据库中包含一共968个说话人,3个语音通道,35,984条语音,每条语音时长在2s-5s间。本实验随意选取100个说话人的语音作评测集,其余的作训练集,并分别测试了2s、3s、5s、8s四种语音长度下方法的性能。实验结果情况如下表2,表2为短语音说话人识别方法在不同时长下的识别性能,其中,sof表示传统的损失函数方法softmax,sis表示本实施例中提出的新损失方法——说话人子空间损失,sof+sis表示以上两个损失函数sof和sis结合使用,Ave表示目前流行的端到端方法(将帧级特征平均获得语音级特征),GRU表示本实施例提出的方法。
表2
Figure BDA0001714545210000121
实验显示,本实施例所述方法较当前流行的识别方法在性能上有明显提升,新的损失函数能监督模型学习到更具区分性的身份特征向量,而且,对于短语音模型训练来说,5s的时长相对足够了。虽然随着长度增长,识别性能也提高,但是计算量也大幅增加。
本实施例的说话人语音识别方法,通过将不同信道的高层语音级特征变换到一个与通道无关的身份空间中,从而去除通道因素的影响,并在身份空间中,完成对说话人的识别,可以有效地利用有限的语音数据进行说话人的身份确认与识别,较好的适应各种场景应用,识别结果准确性高。
图2示出了本发明一实施例提供的一种说话人语音识别装置的结构示意图,如图2所示,本实施例的说话人语音识别装置,包括:第一采集模块21、第一提取模块22、第一获取模块23和查找模块24;其中:
所述第一采集模块21,用于采集待识别的不同信道的说话人语音;
所述第一提取模块22,用于从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征;
所述第一获取模块23,用于根据所述待识别的高层语音级特征,获取待识别的身份特征向量;
所述查找模块24,用于从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。
具体地,所述第一采集模块21采集待识别的不同信道的说话人语音;所述第一提取模块22从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征;所述第一获取模块23根据所述待识别的高层语音级特征,获取待识别的身份特征向量;所述查找模块24从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。
在具体应用中,举例来说,可以通过安装有动圈式麦克风、电容式麦克风和微机电麦克风三种型号的麦克风,采集同一说话人不同信道的语音,模拟实际语音环境。
本实施例的说话人语音识别装置,通过将不同信道的高层语音级特征变换到一个与通道无关的身份空间中,从而去除通道因素的影响,并在身份空间中,完成对说话人的识别,可以有效地利用有限的语音数据进行说话人的身份确认与识别,较好的适应各种场景应用,识别结果准确性高。本实施例在识别过程中,只需进行简单的代数运算,因此计算过程简单,时间复杂度很低,并且对识别的语音类别数没有限制,具有很强的通用性和大规模扩展性。
进一步地,在上述实施例的基础上,本实施例所述装置还可以包括图中未示出的:
第二采集模块,用于针对注册集中的每个样本说话人,采集不同信道的说话人语音样本;
第二提取模块,用于从所采集的不同信道的说话人语音样本中提取样本说话人的高层语音级特征;
第二获取模块,用于根据所述样本说话人的高层语音级特征,获取样本说话人的身份特征向量;
加入模块,用于将注册集中的所有样本说话人的身份特征向量和注册集中的所有样本说话人的身份信息对应加入预先建立的说话人语音检索库中。
由此,能够得到所述查找模块24中使用的预先建立的说话人语音检索库。
进一步地,在上述实施例的基础上,本实施例所述第一提取模块22,可具体用于
从所采集的待识别的不同信道的说话人语音中提取待识别的低层帧级特征;
利用GRU模型,从所述待识别的低层帧级特征中提取待识别的高层语音级特征;
相应地,所述第二提取模块,可具体用于
从所采集的不同信道的说话人语音样本中提取样本说话人的低层帧级特征;
利用GRU模型,从所述样本说话人的低层帧级特征中提取样本说话人的高层语音级特征。
可以理解的是,单向GRU作为学习时序特征的模型,它在保持LSTM能很好地处理远距离依赖优点的同时,结构更加简单,计算更加高效。
进一步地,在上述实施例的基础上,本实施例所述第一获取模块23,可具体用于
利用变换函数,将所述待识别的高层语音级特征转换为待识别的身份特征向量;
其中,所述变换函数是通过ResCNN(深度残差网络结构的深度残差网络)模型学习并采用说话人身份子空间损失函数监督训练优化后得到的;所述变换函数用于将高层语音级特征变换到与通道无关的身份空间,所述身份特征向量为高层语音级特征对应的语音在身份空间中的唯一身份标识;
相应地,所述第二获取模块,可具体用于
利用变换函数,将所述样本说话人的高层语音级特征转换为样本说话人的身份特征向量。
可以理解的是,本实施例将ResNet结构引入到CNN模型中,构成ResCNN模型来减轻模型的训练。
在具体应用中,所述的训练可以离线操作,利用所述变换函数可将高层语音级特征转换为身份特征向量。
进一步地,在上述实施例的基础上,本实施例所述查找模块24可以利用余弦相似度度量方法,从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量。
本实施例的说话人语音识别装置,通过将不同信道的高层语音级特征变换到一个与通道无关的身份空间中,从而去除通道因素的影响,并在身份空间中,完成对说话人的识别,可以有效地利用有限的语音数据进行说话人的身份确认与识别,较好的适应各种场景应用,识别结果准确性高。
本实施例的说话人语音识别装置,可以用于执行前述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图3示出了本发明实施例提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器31、存储器32、总线33及存储在存储器32上并可在处理器31上运行的计算机程序;
其中,所述处理器31,存储器32通过所述总线33完成相互间的通信;
所述处理器31执行所述计算机程序时实现上述各方法实施例所提供的方法,例如包括:采集待识别的不同信道的说话人语音;从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征;根据所述待识别的高层语音级特征,获取待识别的身份特征向量;从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例所提供的方法,例如包括:采集待识别的不同信道的说话人语音;从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征;根据所述待识别的高层语音级特征,获取待识别的身份特征向量;从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置/系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种说话人语音识别方法,其特征在于,包括:
采集待识别的不同信道的说话人语音;
从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征;
根据所述待识别的高层语音级特征,获取待识别的身份特征向量,包括:利用变换函数,将所述待识别的高层语音级特征转换为待识别的身份特征向量;其中,所述变换函数是通过深度残差网络结构的深度残差网络ResCNN模型学习并采用说话人身份子空间损失函数监督训练优化后得到的;所述变换函数用于将高层语音级特征变换到与通道无关的身份空间,所述身份特征向量为高层语音级特征对应的语音在身份空间中的唯一身份标识;
从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。
2.根据权利要求1所述的方法,其特征在于,在从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果之前,所述方法还包括:
针对注册集中的每个样本说话人,采集不同信道的说话人语音样本;
从所采集的不同信道的说话人语音样本中提取样本说话人的高层语音级特征;
根据所述样本说话人的高层语音级特征,获取样本说话人的身份特征向量;
将注册集中的所有样本说话人的身份特征向量和注册集中的所有样本说话人的身份信息对应加入预先建立的说话人语音检索库中。
3.根据权利要求2所述的方法,其特征在于,所述从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征,包括:
从所采集的待识别的不同信道的说话人语音中提取待识别的低层帧级特征;
利用门控循环单元GRU模型,从所述待识别的低层帧级特征中提取待识别的高层语音级特征;
相应地,所述从所采集的不同信道的说话人语音样本中提取样本说话人的高层语音级特征,包括:
从所采集的不同信道的说话人语音样本中提取样本说话人的低层帧级特征;
利用GRU模型,从所述样本说话人的低层帧级特征中提取样本说话人的高层语音级特征。
4.根据权利要求3所述的方法,其特征在于,所述低层帧级特征为fbank特征。
5.根据权利要求2所述的方法,其特征在于,所述根据所述样本说话人的高层语音级特征,获取样本说话人的身份特征向量,包括:
利用变换函数,将所述样本说话人的高层语音级特征转换为样本说话人的身份特征向量。
6.根据权利要求1所述的方法,其特征在于,所述从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,包括:
利用余弦相似度度量方法,从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量。
7.一种说话人语音识别装置,其特征在于,包括:
第一采集模块,用于采集待识别的不同信道的说话人语音;
第一提取模块,用于从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征;
第一获取模块,用于根据所述待识别的高层语音级特征,获取待识别的身份特征向量,包括:利用变换函数,将所述待识别的高层语音级特征转换为待识别的身份特征向量;其中,所述变换函数是通过深度残差网络结构的深度残差网络ResCNN模型学习并采用说话人身份子空间损失函数监督训练优化后得到的;所述变换函数用于将高层语音级特征变换到与通道无关的身份空间,所述身份特征向量为高层语音级特征对应的语音在身份空间中的唯一身份标识;
查找模块,用于从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二采集模块,用于针对注册集中的每个样本说话人,采集不同信道的说话人语音样本;
第二提取模块,用于从所采集的不同信道的说话人语音样本中提取样本说话人的高层语音级特征;
第二获取模块,用于根据所述样本说话人的高层语音级特征,获取样本说话人的身份特征向量;
加入模块,用于将注册集中的所有样本说话人的身份特征向量和注册集中的所有样本说话人的身份信息对应加入预先建立的说话人语音检索库中。
9.一种电子设备,其特征在于,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器,存储器通过所述总线完成相互间的通信;
所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
CN201810700238.3A 2018-06-29 2018-06-29 一种说话人语音识别方法及装置 Active CN108877809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810700238.3A CN108877809B (zh) 2018-06-29 2018-06-29 一种说话人语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810700238.3A CN108877809B (zh) 2018-06-29 2018-06-29 一种说话人语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN108877809A CN108877809A (zh) 2018-11-23
CN108877809B true CN108877809B (zh) 2020-09-22

Family

ID=64297310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810700238.3A Active CN108877809B (zh) 2018-06-29 2018-06-29 一种说话人语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN108877809B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109686377B (zh) * 2018-12-24 2019-11-05 龙马智芯(珠海横琴)科技有限公司 音频识别方法及装置、计算机可读存储介质
CN110136727B (zh) * 2019-04-16 2024-04-16 平安科技(深圳)有限公司 基于说话内容的说话者身份识别方法、装置及存储介质
CN110197657B (zh) * 2019-05-22 2022-03-11 大连海事大学 一种基于余弦相似度的动态音声特征提取方法
CN110390937B (zh) * 2019-06-10 2021-12-24 南京硅基智能科技有限公司 一种基于ArcFace loss算法的跨信道声纹识别方法
CN111524524B (zh) * 2020-04-28 2021-10-22 平安科技(深圳)有限公司 声纹识别方法、装置、设备及存储介质
CN111739517B (zh) * 2020-07-01 2024-01-30 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及介质
CN113077796A (zh) * 2021-03-17 2021-07-06 山东师范大学 说话人辨认方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN107180628A (zh) * 2017-05-19 2017-09-19 百度在线网络技术(北京)有限公司 建立声学特征提取模型的方法、提取声学特征的方法、装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04163600A (ja) * 1990-10-29 1992-06-09 Sekisui Chem Co Ltd 話者認識方法
WO2002103680A2 (en) * 2001-06-19 2002-12-27 Securivox Ltd Speaker recognition system ____________________________________
CN101321387A (zh) * 2008-07-10 2008-12-10 中国移动通信集团广东有限公司 基于通信系统的声纹识别方法及系统
CN102270451B (zh) * 2011-08-18 2013-05-29 安徽科大讯飞信息科技股份有限公司 说话人识别方法及系统
US11024009B2 (en) * 2016-09-15 2021-06-01 Twitter, Inc. Super resolution using a generative adversarial network
CN107221320A (zh) * 2017-05-19 2017-09-29 百度在线网络技术(北京)有限公司 训练声学特征提取模型的方法、装置、设备和计算机存储介质
CN108111860B (zh) * 2018-01-11 2020-04-14 安徽优思天成智能科技有限公司 基于深度残差网络的视频序列丢失帧预测恢复方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN107180628A (zh) * 2017-05-19 2017-09-19 百度在线网络技术(北京)有限公司 建立声学特征提取模型的方法、提取声学特征的方法、装置

Also Published As

Publication number Publication date
CN108877809A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108877809B (zh) 一种说话人语音识别方法及装置
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
Xu et al. Convolutional gated recurrent neural network incorporating spatial features for audio tagging
US8275616B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
CN107767861B (zh) 语音唤醒方法、系统及智能终端
Swamy et al. An efficient speech recognition system
CN110349597B (zh) 一种语音检测方法及装置
CN104036774A (zh) 藏语方言识别方法及系统
CN108711421A (zh) 一种语音识别声学模型建立方法及装置和电子设备
CN105788592A (zh) 一种音频分类方法及装置
CN102280106A (zh) 用于移动通信终端的语音网络搜索方法及其装置
CN107403619A (zh) 一种应用于自行车环境的语音控制方法及系统
CN102945673A (zh) 一种语音指令范围动态变化的连续语音识别方法
Ting Yuan et al. Frog sound identification system for frog species recognition
Liu et al. Multilingual graphemic hybrid ASR with massive data augmentation
Bacchiani et al. Context dependent state tying for speech recognition using deep neural network acoustic models
Jati et al. Multi-Task Discriminative Training of Hybrid DNN-TVM Model for Speaker Verification with Noisy and Far-Field Speech.
US8140334B2 (en) Apparatus and method for recognizing voice
Gupta et al. Automatic speech recognition technique for voice command
CN113823265A (zh) 一种语音识别方法、装置和计算机设备
WO2018001125A1 (zh) 一种音频识别方法和装置
CN102237082B (zh) 语音识别系统的自适应方法
CN107123420A (zh) 一种语音识别系统及其交互方法
Meirong et al. Query-by-example on-device keyword spotting using convolutional recurrent neural network and connectionist temporal classification
Uplenchwar Modern Speech Identification Model using Acoustic Neural approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant