CN107464568A

CN107464568A - 基于三维卷积神经网络文本无关的说话人识别方法及系统

Info

Publication number: CN107464568A
Application number: CN201710876391.7A
Authority: CN
Inventors: 伍强
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2017-12-12
Anticipated expiration: 2037-09-25
Also published as: CN107464568B

Abstract

本发明公开了一种基于三维卷积神经网络文本无关的说话人识别系统，包括：模块一：语音采集模块，用于语音数据的采集；模块二：语音预处理模块，用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据，等到最终的训练数据；模块三：说话人识别模型训练模块，用于训练说话人识别的离线模型；模块四：说话人识别模块，用于实时识别说话人的身份。本发明还公开了一种基于三维卷积神经网络文本无关的说话人识别方法。本发明提出的基于三维卷积神经网络的文本无关的说话人识别方法及系统，可以达到用户的注册和识别的文本无关，提高用户的体验度。

Description

基于三维卷积神经网络文本无关的说话人识别方法及系统

技术领域

本发明涉及一种说话人识别方法和系统，具体涉及一种基于三维卷积神经网络的文本无关的说话人识别方法及系统，属于智能识别技术领域。

背景技术

随着人工智能的发展，智能家居语音控制系统的前景开始凸显出来。不过，即使当前的语音识别技术已经基本上达到了人们所需要的标准，在智能家居语音控制系统之中，仍然有一些瑕疵的存在，例如如何准确辨认发出命令的用户的身份，说话人识别(也即声纹识别)是有效解决方式之一。智能家居系统辨别出用户的身份，便可以根据对应用户的个人喜好推送相关内容。以此，借助说话人识别能让用户体验进一步的提升，同时提高了家庭应用环境的安全系数。

因此，随着语音识别热潮的过去，说话人识别又成为了新的热门，被称为智能家居未来发展的关键，或是语音交互的下一个风口。说话人识别将改变未来的智能家居领域的操作习惯，解放用户的双手，双脚，无需走来走去或者拿着移动终端拼命按键。也让老人小孩等不方便用物理形式操控产品系统的用户人群享受智能家居生活，更有助于智能家居在大众家庭的普及落地。

现有的说话人识别技术存在的问题：(1)说话人识别算法基本都是基于文本相关的，即注册和识别的语句必须一致，大大降低了用户的体验度；(2)一些基于文本无关的说话人识别算法，都是人工设计特征，步骤繁琐，工作量大；(3)用户注册阶段，将用户的多个声纹特征求均值之后最为注册模型，这样忽略了同一个词语即使由同一人说出来也会有很大差别这一个特性。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种基于三维卷积神经网络的文本无关的说话人识别方法及系统。

本发明是这样实现的：

一种基于三维卷积神经网络文本无关的说话人识别系统，包括：

模块一：语音采集模块，用于语音数据的采集；

模块二：语音预处理模块，用于提取语音原始数据的梅尔频率倒谱系数特征剔除这些特征中的非音频数据，等到最终的训练数据；

模块三：说话人识别模型训练模块，用于训练说话人识别的离线模型；

模块四：说话人识别模块，用于实时识别说话人的身份。

更进一步的方案是：

语音采集是采用录音的方式收集的。

更进一步的方案是：

剔除特征中的非音频数据采用能量比对的方法，首先设定一个能量阈值E，对MFCC的特征中每一帧的能量小于E则认为是噪音剔除，否则是音频数据保留。

更进一步的方案是：

语音预处理模块进一步包括以下步骤：

S0：对每一个原始语音数据，提取梅尔频率倒谱系数特征，假设帧长为A毫秒，步长为B毫秒，因此每个帧长内就会得到一个C维的特征向量，假设原始语音数据有N个帧，这样得到NxC的二维矩阵X；

S1：将步骤一种的特征采用语音激活检测剔除其中的非音频数据，每个原始语音等到MxC的二维矩阵Y，其中M小于等于N；

S2：构建三维训练样本，所有数据以hd5的格式保存，假设每个三维训练数据的格式为h*n*C，其中h为数据的深度，n为数据的行，C为数据的列；

S3：假设每类别的有T(T>h)个语音数据样本，通过S0和S1可以得到每个样本的最终特征为M(M>n)个C维的二维矩阵Y；

S4：从每个类别的T个样本中随机选择h个样本，再从每个样本的特征矩阵Y中随机选择n行，这样就得到这个人的一个三维训练样本h*n*C；

S5：重复S4，就可以得到所有类别的训练样本。

更进一步的方案是：

说话人识别模型训练模块中，网络模型采用残差卷积神经网络，分类器采用softmax，这样经过训练之后得到一个离线模型。

更进一步的方案是：

说话人识别模块进一步包括以下步骤：

S0：说话人注册，收集n说话人的语音样本，没人h个样本，采用训练的离线模型提取特征作为注册模型，保存在数据库中；

S1：由于待测试的说话人只有一个样本，因此需要复制此样本为h个样本，同样采用训练的离线模型提取特征；

S2：计算S0和S1中待识别说话人特征和数据库中的所有人的特征的余弦值sim，如果sim大于某个阈值sim_，则接受，否则拒绝。

本发明还公开了一种基于三维卷积神经网络文本无关的说话人识别方法，主要是使用了本发明公开的的基于三维卷积神经网络文本无关的说话人识别系统。

本发明提出的基于三维卷积神经网络的文本无关的说话人识别方法及系统，可以达到用户的注册和识别的文本无关，提高用户的体验度；不需要人工设计特征，利用深度学习算法实现端到端识别；直接将用户注册的多个样本在空间域和时间域同时提取特征，而不是求均值，提高注册模型的区分性，同时可以得到说话人自身的变化性。

附图说明

图1是语音预处理流程图；

图2是说话人识别模型训练流程图；

图3是说话人注册流程图；

图4是说话人识别流程图。

具体实施方式

下面结合附图及实施例详细描述本发明的技术方案。

本发明实现了一种基于三维卷积神经网络的文本无关的说话人识别方法及系统，能够高效且准确地识别说话人的身份。为了使本发明的目的、技术方案和优点更加清楚，以下对本发明实施步骤进行了进一步的详细说明。

如附图1至4所示，一种基于三维卷积神经网络文本无关的说话人识别系统，包括：

模块一：语音采集模块，用于语音数据的采集；

模块四：说话人识别模块，用于实时识别说话人的身份。

语音采集是采用录音的方式收集的。

如附图1所示，语音预处理模块进一步包括以下步骤：

S5：重复S4，就可以得到所有类别的训练样本。

说话人识别模块进一步包括以下步骤：

根据系统的需要建建立说话人识别方法及系统的所有模块，下面根据系统的工作模式来阐述此系统的工作流程。

训练模式

训练模式流程如图2所示。

(1)语音样本采集

采用录音的方式收集训练样本。

(2)语音预处理

采用训练阶段生成的离线模型对预处理后的语音提取特征，生成训练数据。

(3)模型训练

采用残差神经网络结构和softmax分类训练说话人识别模型。

实施例1

以训练一个包含1000个说话人的模型为例具体说明说话人识别模型训练过程。

(1)采集每个说话人的样本，指标：样本数每人3000个样本；

(2)语音预处理模块处理所有语音数据，得到三维训练数据；

(3)将所有训练数据，并将所有的样本随机分为4：1，分别作为训练集和验证集；

(4)采用残差网络训练模型，当模型在验证集上面的识别精度基本保持不变的时候终止模型训练，得到说话人识别离线模型。

注册模式

(1)语音样本采集

采用录音的方式收集训练样本；

(2)语音预处理

采用语音预处理模块对语音进行预处理，生成注册数据；

(3)特征提取

采用训练阶段生成的离线模型对预处理后的语音提取特征，存放在数据库中。

实施例2

以注册一个包含10个说话人的数据集为例具体说明说话人注册的过程。

(1)采集10个人说话人的语音数据，每人20个语音数据样本；

(2)语音预处理模块处理所有语音数据，得到每个说话人的三维数据；

(3)采用训练阶段生成的离线模型提取特征，将每个人的特征保存在数据库中，speaker0，speaker1，...，speaker9；

识别模式

(1)语音样本采集

采用录音的方式收集训练样本。

(2)语音预处理

采用训练阶段生成的离线模型对预处理后的语音提取特征，生成测试数据。

(3)提取特征

采用训练阶段生成的离线模型对预处理后的语音提取特征。

(4)特征比对

将测试样本的特征与数据库里面注册的说话人的特征求余弦距离，如果此距离大于阈值sim_则接受，否则拒绝。

实施例3

以识别一个说话人为例具体说明说话人识别的过程。

(1)采集此说话人的语音数据一条；

(2)语音预处理模块处理所有语音数据，根据训练数据采用的三维数据的深度重复复制此测试样本，得到此样本的三维数据；

(3)采用训练阶段生成的离线模型提取特征；

(4)将此特征和数据库中注册的特征有余弦距离得到sim0，sim1，...,sim9，找到这10个相似度中的最大值sim_max和对应说话人的编号speaker_x，如果这个最大值大于阈值sim，则接受此样本为speaker_x，否者识别为未注册说话人。

综上所述，本发明通过语音采集、语音预处理、说话人模型训练、说话人注册、说话人别实现了一种基于三维卷积神经网络的文本无关的说话人识别方法及系统。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程是可以通各种算法程序实现的，所述的程序可以存储于计算机可读取存储介质中，该程序在执行时，可包括如上各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种基于三维卷积神经网络文本无关的说话人识别系统，其特征在于包括：

模块一：语音采集模块，用于语音数据的采集；

模块四：说话人识别模块，用于实时识别说话人的身份。

2.根据权利要求1所述基于三维卷积神经网络文本无关的说话人识别系统，其特征在于：

语音采集是采用录音的方式收集的。

3.根据权利要求1所述基于三维卷积神经网络文本无关的说话人识别系统，其特征在于：

4.根据权利要求3所述基于三维卷积神经网络文本无关的说话人识别系统，其特征在于：

语音预处理模块进一步包括以下步骤：

S5：重复S4，就可以得到所有类别的训练样本。

5.根据权利要求1所述基于三维卷积神经网络文本无关的说话人识别系统，其特征在于：

6.根据权利要求5所述基于三维卷积神经网络文本无关的说话人识别系统，其特征在于：

说话人识别模块进一步包括以下步骤：

7.一种基于三维卷积神经网络文本无关的说话人识别方法，其特征在于：使用了权利要求1至6任一权利要求所述的基于三维卷积神经网络文本无关的说话人识别系统。