CN108648760A

CN108648760A - 实时声纹辨识系统与方法

Info

Publication number: CN108648760A
Application number: CN201810343033.4A
Authority: CN
Inventors: 吴郢; 展华益; 刘明华; 伍强; 许亮
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2018-10-12
Anticipated expiration: 2038-04-17
Also published as: CN108648760B

Abstract

本发明公开了一种实时声纹辨识系统与方法，包括：语音采集和存储模块，用于采集和存储语音数据；音素检测模块，用于检测所述语音数据中存在的音素类别和音素位置；说话人辨识模块，用于根据所述音素类别和音素位置确认说话人身份信息。本发明可以实现对与文本无关的说话人的别，提高了用户的体验度；采用音素作为语言中最基本的组成单元，具有更高可辨识性，同时将与文本无关的内容转化为文本相关，降低了对说话人识别的难度。

Description

实时声纹辨识系统与方法

技术领域

本发明涉及语音信号处理技术领域，具体涉及一种与文本无关的实时声纹辨识系统与方法。

背景技术

近几年来，随着人工智能技术的快速发展，越来越多的带有人工智能技术的产品出现在人们的日常生活中，特别是近年的智能音箱异军突起。其中声纹识别技术几乎是所有的智能音箱的标配，用户使用自己的声音就可以完成账户登录、购物支付等。

现有说话人识别技术存在以下问题，1)搭载在这些智能产品上的声纹识别技术都在云端完成的，即产品只是作为语音收集的入口，而云端完成声纹识别的过程，而真正实现本地化运行声纹识别技术的产品还非常少,或者精度无法满足实际需求；2)现有的说话人识别技术方案大都采用文本相关的方式，严重影响用户的体验度。

发明内容

本发明克服了现有技术的不足，提供一种实时声纹辨识系统与方法，用于实现对与文本无关的说话人的识别，提高用户的体验度。

考虑到现有技术的上述问题，根据本发明公开的一个方面，本发明采用以下技术方案：

一种实时声纹辨识系统，包括：

语音采集和存储模块，用于采集和存储语音数据；

音素检测模块，用于检测所述语音数据中存在的音素类别和音素位置；

说话人辨识模块，用于根据所述音素类别和音素位置确认说话人身份信息。

为了更好地实现本发明，进一步的技术方案是：

根据本发明的一个实施方案，所述说话人辨识模块，包括：

单音素的说话人辨识模块，用于识别单个音素的身份信息，将一个音素和所有注册人的此音素比较相似度，判断此音素的身份信息。

多音素融合的说话人辨识模块，用于将单音素识别的结果进行融合，将语音中音素识别为最多的人作为此段语音的身份信息。

根据本发明的另一个实施方案，通过距离判断两个音素之间的相似度。

本发明还可以是：

一种实时声纹辨识方法，包括：

步骤S1：采集和存储语音数据；

步骤S2：检测所述语音数据中存在的音素类别和音素位置；

步骤S3：根据所述音素类别和音素位置确认说话人身份信息。

根据本发明的另一个实施方案，所述步骤S2，包括：

先进行语音特征提取；

再将提取的所述语音特征进行滑窗处理；

然后进行音素分类和音素位置映射。

根据本发明的另一个实施方案，提取所述语音特征的方法，包括：

提取梅尔频率倒谱系数特征，记录该特征中每一帧特征对应于原始语音数据上的起始位置和终止位置。

根据本发明的另一个实施方案，进行所述音素分类的方法，包括：

首先训练一个音素分类器，然后用所述分类器对每一个语音滑动窗口进行分类。

根据本发明的另一个实施方案，训练所述音素分类器的方法，包括：

音素样本的准备：采用标定音素的真实窗口大小做前后随机滑窗，把与真实的窗口之间的交集大于80％的滑动窗口作为标定的音素类的正样本；

特征提取：将正样本归一化到同样的长度L，提取梅尔频率倒谱系数特征，假设帧长为A毫秒，步长为B毫秒，每个帧长内就会得到一个C维的特征向量，假设音素数据有N帧，这样得到CxN的二维矩阵X，将此X矩阵转换为一个一维特征向量,长度为NxC；

训练分类器：根据以上提取的特征对分类器进行训练。

根据本发明的另一个实施方案，映射所述音素位置的方法，包括：

1)计算权利要求7中每个窗口中的起始帧和终止帧对应于语音数据的起始位置和终止位置；

2)将窗口的起始帧对应的数据起始位置和终止帧对应的数据终止位置作为此窗口在重采样语音数据上对应的位置。

根据本发明的另一个实施方案，在语音特征提取之前进行语音数据重采样，进行所述语音数据重采样的方法包括：

设定M个采样尺度系数，对大于1的系数采用上采样，对于小1的系数采用下采样，使得一条语音数据便可以得到M条语音数据。

根据本发明的一个实施方案，。

根据本发明的另一个实施方案，所述。

与现有技术相比，本发明的有益效果之一是：

本发明的一种实时声纹辨识系统与方法，可以实现对与文本无关的说话人的别，提高了用户的体验度；采用音素作为语言中最基本的组成单元，具有更高可辨识性，同时将与文本无关的内容转化为文本相关，降低了对说话人识别的难度。

附图说明

为了更清楚的说明本申请文件实施例或现有技术中的技术方案，下面将对实施例或现有技术的描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅是对本申请文件中一些实施例的参考，对于本领域技术人员来讲，在不付出创造性劳动的情况下，还可以根据这些附图得到其它的附图。

图1为根据本发明一个实施例的语音采集和存储模块示意图。

图2为根据本发明一个实施例的音素检测模块示意图。

图3为根据本发明一个实施例的基于单音素的说话人辨识模块示意图。

图4为根据本发明一个实施例的基于多音素的说话人辨识模块示意图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

一种与文本无关的实时声纹辨识系统，其能够高效且准确地识别说话人的身份。为了达到本发明的目的，使技术方案和优点更加清楚，下面结合附图1～4对本发明做如下详细描述：

一种实时声纹辨识系统，包括语音采集和存储模块、音素检测模块、说话人辨识模块，具体地：

如图1所示，语音采集和存储模块，其用于获取语音数据并存储在本地端。

如图2所示，音素检测模块，其音素检测流程包括如下：

语音数据重采样，语音数据重采样的目的是为了能检测到不同长度的音素。数据重采样的方法为：设定M个采样尺度系数，对大于1的系数采用上采样，对于小1的系数采用下采样，这样一条语音数据便可以得到M条语音数据。

特征提取，方法为：对M条语音数据提取梅尔频率倒谱系数特征，同时保存特征中每一帧特征对应在语音数据上的起始位置和终止位置坐标。

语音特征滑窗处理，方法为：设定一个固定窗口大小和一个固定的步长，对3-2)中语音特征做滑窗，并记录每个窗口的起始帧和终止帧的位置信息。

音素分类，方法为：分类器对每一个滑窗进行分类，给出每一类的得分。

音素位置映射，方法为：首先计算3-3)每个窗口中的起始帧和终止帧对应于3-2)中的语音数据起始位置和终止位置，然后将窗口的起始帧对应的起始位置和终止帧对应的终止位置作为此窗口在对应的语音数据上对应的位置，最后将此窗口的起始位置和终止位置分别除以对应的3-1)中的采样尺度系数，就可以得到在原始数据上面的位置信息。

音素去重,方法为:采用非极大抑制(NMS)方法滤掉得分低、位置重复的音素，得到最终的检测结果，即音素的类别和对应的位置信息。

如图3所示，基于单音素的说话人辨识模块，其通过比较两个音素的相似度来确定这个两个音素是否是属于同一个人。

如图4所示，基于多音素融合的说话人辨识模块，其将单音素识别的结果进行融合，以及将语音中音素识别为最多的人作为此段语音的身份信息。

一实施例，对识别10个说话人的具体步骤，可包括：

S1、训练阶段

S11、数据收集

收集语音数据库，标定音素的类别和位置，根据中文的声母和韵母的发音规则，将音素分为a,aa,ai,an,ang,ao,b,c,ch,d,e,ee,ei,en,eng,er,f,g,h,i,ia,ian,iang,iao,ie,ii,in,ing,iong,iu,ix,iy,iz,j,k,l,m,n,o,ong,oo,ou,p,q,r,s,sh,t,u,ua,uai,uan,uang,ueng,ui,un,uo,uu,v,van,ve,vn,vv,x,z,zh，66类。

S12、训练音素svm分类器

S121、对于标定的音素，采用此音素的真实窗口大小做前后随机滑窗，把与真实的窗口之间的交集大于80％的滑动后的窗口作为与此音素类别的正样本；

S122、特征提取，提取梅尔频率倒谱系数特征，将所有的样本归一化到1500维，假设帧长为25ms，步长为10ms，因此每个帧长内就会得到一个39维的特征向量，这样得到39x8的二维mfcc特征矩阵，将此矩阵转换为一个一维特征向量，长度为312。

S123、训练svm，采用一对多的方式训练一个线性分类器，即66个二分类器。训练方式为，训练某一类音素的二分类器，将此音素作为正样本，其它所有65类音素作为负样本。

S2、识别阶段

S20、获取数据

采集所需识别的10个说话人的训练语音数据

S21、音素检测

对10人的所有数据采用如下S211-S216步骤做音素检测。

S211、语音数据重采样，语音数据重采样的目的是为了能检测到不同长度的音素。数据重采样的方法为：设定5个采样尺度系数，分别为1.4，1.2，1.0，0.8，0.6，对大于1的系数采用上采样，对于小1的系数采用下采样，这样一条语音数据便可以得到5条语音数据。

S212、特征提取，方法为：对5条语音数据提取梅尔频率倒谱系数特征，同时保存特征中每一帧特征对应在语音数据上的起始位置和终止位置坐标。

S213、语音特征滑窗处理，方法为：设定一个固定窗口大小为8和一个固定的步长为2，对S212中语音特征做滑窗，并记录每个窗口的起始帧和终止帧的位置信息。

S214、音素分类，方法为：采用svm分类器对每一个滑窗进行分类，给出每一类的得分，即每个窗口有66个等分。

S215、音素位置映射，方法为：首先计算S213每个窗口中的起始帧和终止帧对应于S212中的语音数据起始位置和终止位置，然后将窗口的起始帧对应的起始位置和终止帧对应的终止位置作为此窗口在对应的语音数据上对应的位置，最后将此窗口的起始位置和终止位置分别除以对应的S211中的采样尺度系数，就可以得到在原始数据上面的位置信息。

S216、音素去重,方法为:设置一个得分阈值为0.8和IOU阈值0.3，采用非极大抑制(NMS)方法滤掉得分低、位置重复的音素，得到最终的检测结果，即音素的类别和对应的位置信息。

S22、音素身份鉴别

S221、假如一条语音数据里面有20个音素，分别计算这20个音素的mfcc特征；

S222、将20个音素的特征分别和注册库里面的所有人的这个20音素分别计算距离，采用动态时间归整(DTW)，每个音素得到10个距离，将每个音素的10个距离中最小值所对应的那个人为此音素的身份类别。

S223、采用投票的方式决定这个这条语音的身份归属，如这20个音素中有8个音素属于说话人A，有5个音素属于说话人B,有4个音素属于说话人C,有2个音素属于说话人D,有1个音素属于说话人E,则这条语音的就属于说话人A。

综上所述，本发明通过语音采集和存储模块、音素检测模块和说话人辨识模块实现了一种文本无关的实时声纹辨识系统。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程是可以通各种算法程序实现的，所述的程序可以存储于计算机可读取存储介质中，该程序在执行时，可包括如上各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

本说明书中各个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同相似部分相互参见即可。在本说明书中所谈到的“一个实施例”、“另一个实施例”、“实施例”等，指的是结合该实施例描述的具体特征、结构或者特点包括在本申请概括性描述的至少一个实施例中。在说明书中多个地方出现同种表述不是一定指的是同一个实施例。进一步来说，结合任一实施例描述一个具体特征、结构或者特点时，所要主张的是结合其他实施例来实现这种特征、结构或者特点也落在本发明的范围内。

尽管这里参照本发明的多个解释性实施例对本发明进行了描述，但是，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说，在本申请公开和权利要求的范围内，可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件和/或布局进行的变型和改进外，对于本领域技术人员来说，其他的用途也将是明显的。

Claims

1.一种实时声纹辨识系统，其特征在于包括：

语音采集和存储模块，用于采集和存储语音数据；

2.根据权利要求1所述的实时声纹辨识系统，其特征在于所述说话人辨识模块，包括：

3.根据权利要求1所述的实时声纹辨识系统，其特征在于通过距离判断两个音素之间的相似度。

4.一种实时声纹辨识方法，其特征在于包括：

步骤S1：采集和存储语音数据；

步骤S2：检测所述语音数据中存在的音素类别和音素位置；

5.根据权利要求4所述的实时声纹辨识方法，其特征在于所述步骤S2，包括：

先进行语音特征提取；

再将提取的所述语音特征进行滑窗处理；

然后进行音素分类和音素位置映射。

6.根据权利要求5所述的实时声纹辨识方法，其特征在于提取所述语音特征的方法，包括：

7.根据权利要求5所述的实时声纹辨识方法，其特征在于进行所述音素分类的方法，包括：

8.根据权利要求7所述的实时声纹辨识方法，其特征在于训练所述音素分类器的方法，包括：

训练分类器：根据以上提取的特征对分类器进行训练。

9.根据权利要求7所述的实时声纹辨识方法，其特征在于映射所述音素位置的方法，包括：

10.根据权利要求5所述的实时声纹辨识方法，其特征在于在语音特征提取之前进行语音数据重采样，进行所述语音数据重采样的方法包括：