CN111508524B

CN111508524B - 语音来源设备的识别方法和系统

Info

Publication number: CN111508524B
Application number: CN202010148882.1A
Authority: CN
Inventors: 苏兆品; 吴张倩; 张国富; 岳峰; 武钦芳; 沈朝勇; 肖锐
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2023-02-21
Anticipated expiration: 2040-03-05
Also published as: CN111508524A

Abstract

本发明提供一种语音来源设备的识别方法和系统，涉及语音信息处理技术领域。本发明通过获取包含自然噪声的语音数据库；提取语音数据库中的语音样本的LMFB特征；基于改进的TCN网络学习深度语音特征，并利用LDA对其进行优化；最后基于深度语音特征LMFB‑TCN‑LDA对SVM分类器进行训练和测试，得到语音来源设备识别模型。本发明通过用包含自然噪声的语音样本的深度语音特征LMFB‑TCN‑LDA训练和测试SVM分类器，得到的语音来源设备识别模型能准确识别出包含自然噪声的语音的来源设备的语音来源设备识别模型，同时，本发明基于改进的TCN网络和LDA对LMFB特征进行深度语音特征学习，使得提取的LMFB‑TCN‑LDA特征更加反应设备本身特性，从而进一步提高语音来源设备识别模型的识别准确率。

Description

语音来源设备的识别方法和系统

技术领域

本发明涉及语音信息处理技术领域，具体涉及一种语音来源设备的识别方法和系统。

背景技术

随着网络技术的发展，智能设备拥有了更多的功能与实用性，已经成为人们日常生活中不可或缺的一部分。越来越多的人喜欢使用智能手机和网络社交软件来记录日常活动的场景和声音。其中，语音是微信等网络社交软件最为常见的通信方式之一，基于语音信号的手机来源识别已经成为多媒体取证领域的一个热点课题，对于验证音频来源的真实性和原始性具有重要的现实意义，近年来受到公安和司法部门的高度重视。

现有的语音来源设备的识别方法的框架通常包含两个步骤，即训练和识别。首先从训练集中提取不同型号手机的传统的关键语音特征(如MFCC)，然后利用这些关键语音特征进行训练和分类，以创建不同的手机来源模板，最后将从测试集中提取的关键语音特征送入到手机来源模板库中进行匹配，以识别出特定的手机型号。

然而，本申请的发明人发现，现有的语音来源设备的识别方法在识别理想数据库中能取得不错的识别结果，但是当音频包换自然噪声时，其识别结果将会明显受到影响，导致识别结果的准确度较低，即现有的语音来源设备的识别方法在识别含有自然噪声的音频时准确度较低。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种语音来源设备的识别方法和系统，解决了现有的语音来源设备的识别方法在识别含有自然噪声的音频时准确度较低的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明提供一种语音来源设备的识别方法，所述方法由计算机执行，包括：

获取包含自然噪声的语音数据库；

提取所述语音数据库中的语音样本的LMFB特征；

基于改进的TCN网络和所述语音样本的LMFB特征获取LMFB-TCN特征；

基于LDA技术对所述LMFB-TCN特征进行优化，获取深度语音特征LMFB-TCN-LDA；

基于所述深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试，得到语音来源设备识别模型，所述语音来源设备识别模型用于识别语音来源设备的品牌和型号。

优选的，所述获取包含自然噪声的语音数据库，包括：

S101、获取自然噪声的语音数据；

S102、将所述语音数据裁剪成语音样本；

S103、将所述语音样本分为训练集和测试集，所述训练集和所述测试集构成所述语音数据库。

优选的，所述基于改进的TCN网络和所述语音样本的LMFB特征获取LMFB-TCN特征，包括：

S301、把LMFB特征作为TCN网络的输入，对于T帧的LMFB特征，x_t是从语音第t帧中提取的特征，x_t∈R^D，其中D为每一帧特征的维数，输入X是所有帧特征的串联，即X∈R^T×D，输入特征经过一维卷积过滤，计算公式表达如下：

Y₁＝σ₁(W₁*X₀) (1)

式(1)中：

X₀是网络最初的输入特征；

W₁是第一层网络需要学习的参数；

σ₁是非线性激活函数Tanh；

S302、步骤S301的输出经过TCN网络中的残差模块，残差模块深层网络被分解成若干个残差学习单元Res_unit，每一个Res_unit中的卷积核个数是128，在残差模块中，全部采用扩张卷积，其中参数dilation rate(d)在连续Res_unit中以2的指数形式增加，即d＝2n，n＝0,1,2,3,4，在TCN中，每个Res_unit的输出通过添加到下一个Res_unit的输入而合并，令Y_l代表第l层Res_unit的输出，则：

Y_l＝Y_l-1+F(W_l,Y_l-1) (2)

式(2)中：

W_l是第l层Res_unit需要学习的参数，F是在Res_unit中经历的非线性变换；

其中，在每个Res_unit中，将输入信号进行卷积之后分别利用Sigmoid激活函数和Tanh激活函数进行线性变换，并将结果相乘，再次经过一维卷积和Tanh激活函数之后输出，计算公式表达如下：

式(3)中：

σ₁是非线性激活函数Tanh；

σ₂是非线性激活函数Sigmoid；

和

分别代表在第l层Res_unit中第一层conv和第二层conv的参数，

S303、在经过N个Res_unit的学习后，累加不同输出，经过残差模块之后并经过Relu函数非线性变换后得Y_N，计算公式表达如下：

式(4)中：

σ₃是非线性激活函数Relu；

第一个Res_unit的输出是Y₂，TCN中对所有后续Res_unit进行累加；

在残差模块之后又添加两层卷积层，具体计算见公式(5)和(6)：

Y_N+1＝σ₃(W_N+1*Y_N) (5)

Y_N+2＝W_N+2*Y_N+1 (6)

式(5)(6)中：

W_N+1是第N+1层Res_unit需要学习的参数；

W_N+2是第N+2层Res_unit需要学习的参数；

S304、步骤S303的输出Y_N+2经过全局池化后再经过TCN网络中的softmax层，计算表述式如下：

式(7)中：

Y_N+3＝GlobalMaxPooling1d(Y_N+2) (8)

经过改进的TCN网络的学习，以及不同网络层对数据的处理，最终取Y_N+2为的LMFB-TCN特征，其中Y_N+2∈R^128×147，为了将高维冗余特征映射到低维有效特征同时去除冗余信息，将LMFB-TCN特征重塑成一维Y_N+2∈R⁶⁰¹⁶。

优选的，所述基于LDA技术和LMFB-TCN特征提取深度语音特征LMFB-TCN-LDA过程主要包括：

S401、计算6016维LMFB-TCN特征的均值向量得到μ_i，计算所有样本的均值向量μ；

S402、构造类间散布矩阵S_B以及类内散布矩阵S_W:

式(9)、(10)中

m_i是为第i类的样本数目；

y_i∈{C₁,C₂......C_N}，C_i是类别，N是类别数，其中任意样本x_i∈R⁶⁰¹⁶，X是全部特征样本集；

S403、计算矩阵S_W ^-1S_B；

S404、对S_W ^-1S_B进行奇异值分解，得到奇异值λ_i及其对应的特征向量w_i，i＝1,2,....,N；

S405、取前k大的奇异值对应的特征向量组成投影矩阵W，k是输出特征的维数，最大为特征类别的个数减1，将k设置为n；

S406、计算样本集中每个样本x_i在新的低维空间的投影z_i＝W^Tx_i。

S407、得到深度语音特征LMFB-TCN-LDA的输出样本集，

其中任意样本z_i∈Rⁿ为n维深度语音特征LMFB-TCN-LDA。

优选的，所述基于所述深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试，得到语音来源设备识别模型，包括：

通过语音数据库中训练集中提取的深度语音特征LMFB-TCN-LDA对SVM分类器进行训练，通过语音数据库中测试集中的提取的深度语音特征LMFB-TCN-LDA对SVM分类器进行测试，得到语音来源设备识别模型。

本发明实施例一种语音来源设备的识别系统，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，所述至少一个存储单元中存储有至少一条指令，所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤：

获取包含自然噪声的语音数据库；

提取所述语音数据库中的语音样本的LMFB特征；

基于LDA技术对LMFB-TCN特征进行优化，获取深度语音特征LMFB-TCN-LDA；

优选的，所述获取包含自然噪声的语音数据库，包括：

S101、获取自然噪声的语音数据；

S102、将所述语音数据裁剪成语音样本；

Y₁＝σ₁(W₁*X₀) (1)

式(1)中：

X₀是网络最初的输入特征；

W₁是第一层网络需要学习的参数；

σ₁是非线性激活函数Tanh；

Y_l＝Y_l-1+F(W_l,Y_l-1) (2)

式(2)中：

式(3)中：

σ₁是非线性激活函数Tanh；

σ₂是非线性激活函数Sigmoid；

和

分别代表在第l层Res_unit中第一层conv和第二层conv的参数，

式(4)中：

σ₃是非线性激活函数Relu；

Y_N+1＝σ₃(W_N+1*Y_N) (5)

Y_N+2＝W_N+2*Y_N+1 (6)

式(5)(6)中：

W_N+1是第N+1层Res_unit需要学习的参数；

W_N+2是第N+2层Res_unit需要学习的参数；

式(7)中：

Y_N+3＝GlobalMaxPooling1d(Y_N+2) (8)

经过改进的TCN网络的学习，以及不同网络层对数据的处理，最终取Y_N+2为的LMFB-TCN特征，其中Y_N+2∈R^128×147，为了将高维冗余特征映射到低维有效特征并去除冗余信息，将LMFB-TCN特征重塑成一维Y_N+2∈R⁶⁰¹⁶。

(三)有益效果

本发明提供了一种语音来源设备的识别方法和系统。与现有技术相比，具备以下有益效果：

本发明通过获取包含自然噪声的语音数据库；提取所述语音数据库中的语音样本的LMFB特征；基于改进的TCN网络和所述语音样本的LMFB特征获取深度语音特征LMFB-TCN；基于LDA技术将LMFB-TCN高维特征映射到低维有效特征得到LMFB-TCN-LDA；基于所述深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试，得到用于识别语音来源设备的品牌和型号到语音来源设备识别模型。本发明通过用包含自然噪声的语音样本的深度语音特征LMFB-TCN-LDA训练和测试SVM分类器，得到的语音来源设备识别模型能准确识别出包含自然噪声的语音的来源设备的语音来源设备识别模型，同时，本发明基于改进的TCN网络和LDA对LMFB特征进行深度语音特征学习和优化，使得提取的LMFB-TCN-LDA特征更加反应设备本身特性，从而进一步语音来源设备识别模型的识别准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种语音来源设备的识别方法的框图；

图2为本发明实施例中改进的TCN网络的框架图，图2包括图2(a)、图2(b)和图2(c)；

图3为验证试验中的不同特征的平均识别率；

图4为验证试验中的不同特征对应不同ID的recall；

图5为验证试验中的不同特征对应不同ID的precision；

图6为验证试验中的不同特征对应不同ID的f1-score；

图7为验证试验中的不同特征在不同大小数据集下训练模型结果。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种语音来源设备的识别方法，解决了现有的语音来源设备的识别方法在识别含有自然噪声的音频时准确度较低的技术问题，实现提高语音来源设备识别模型的识别准确率。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例通过用包含自然噪声的语音样本的深度语音特征LMFB-TCN-LDA训练和测试SVM分类器，得到的语音来源设备识别模型能准确识别出包含自然噪声的语音的来源设备的语音来源设备识别模型。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供一种语音来源设备的识别方法，如图1所示，该方法由计算机执行，包括步骤S1～S5：

S1、获取包含自然噪声的语音数据库；

S2、提取语音数据库中的语音样本的LMFB特征；

S3、基于改进的TCN网络和语音样本的LMFB特征获取深度语音特征LMFB-TCN；

S4、基于LDA技术对LMFB-TCN特征进行优化，获取深度语音特征LMFB-TCN-LDA；

S5、基于深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试，得到语音来源设备识别模型，语音来源设备识别模型用于识别语音来源设备的品牌和型号。

本发明实施例通过用包含自然噪声的语音样本的深度语音特征LMFB-TCN-LDA训练和测试SVM分类器，得到的语音来源设备识别模型能准确识别出包含自然噪声的语音的来源设备的语音来源设备识别模型，同时，本发明实施例基于改进的TCN网络对LMFB特征进行深度语音特征学习，并利用LDA技术进行低维有效特征提取，使得提取的LMFB-TCN-LDA特征更加反应设备本身特性，从而进一步语音来源设备识别模型的识别准确率。为后续验证音频来源的真实性和原始性提供重要的数据支撑。

下面对各个步骤进行详细说明。

在步骤S1中，获取包含自然噪声的语音数据库。具体为：

S101、获取自然噪声的语音数据。在本发明实施例中，获取包含十种常见的手机品牌的47种型号的手机语音信号，语音带自然噪声的场景主要包括：生活中的对话，电影对白，广播对白等。语音格式是MP3。手机的品牌和型号如表1所示。

表1手机的品牌和型号

S102、将语音数据裁剪成语音样本。在本发明实施例中，将手机语音信号裁剪成3s的语音片段，即裁剪成3s的语音样本。

S103、将所述语音样本分为训练集和测试集，所述训练集和所述测试集构成所述语音数据库。在本发明实施例中，每种型号的手机最终有700个语音样本。其中600条用作训练，100条用作测试。47种型号的手机的语音样本构成训练集、测试集以及语音数据库，语音数据库中包含32900个语音样本。

在步骤S2中，提取语音数据库中的语音样本的LMFB特征。具体为：

S201、分帧:将语音样本的N个采样点集合成一个观测单位，称为帧。发明实施例中N的值设置为2048，为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，本发明实施例中M设置为512。

S202、加窗：将每一帧乘以汉明窗，以增加帧左端和右端的连续性。

S203、傅里叶变换：对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱，并对语音信号的频谱取模平方得到语音信号的能量谱。

S204、梅尔滤波：将能量谱通过一组Mel尺度的三角形滤波器组，得到得到每帧信号的Mel子带谱。

S205、对数运算：采用对数函数对Mel子带谱进行非线性变换，得到语音样本的对数谱，即语音样本的LMFB特征。

LMFB特征相对于MFCC特征，其提取步骤少了离散余弦变化，因而保留了更多的有效语音信息，为下一步TCN网络的进一步处理创造了更好的前提。

在步骤S3中，基于改进的TCN网络和语音样本的LMFB特征获取LMFB-TCN特征。具体为：

在本发明实施例中，改进的TCN网络的框架图如图2所示。

S301、TCN网络整体结构如图2(a)所示，把LMFB特征作为TCN网络的输入，对于T帧的LMFB特征，x_t是从语音第t帧中提取的特征，x_t∈R^D，其中D为每一帧特征的维数，在本发明实施例中D＝44，输入X是所有帧特征的串联，即X∈R^T×D，输入特征经过一维卷积过滤，计算公式表达如下：

Y₁＝σ₁(W₁*X₀) (1)

式(1)中：

X₀是网络最初的输入特征；

W₁是第一层网络需要学习的参数；

σ₁是非线性激活函数Tanh；

S302、步骤S301的输出经过TCN网络中的残差模块，残差模块的结构如图2(b)所示。残差模块深层网络被分解成若干个残差学习单元Res_unit，每一个Res_unit中的卷积核个数是128，在残差模块中，全部采用扩张卷积，其中最关键的参数dilationrate(d)在连续Res_unit中以2的指数形式增加，即d＝2n，n＝0,1,2,3,4，能够在不显著增加参数数量的情况下，可在很大程度上增加感受野。在TCN中，每个Res_unit的输出通过添加到下一个Res_unit的输入而简单的合并，令Y_l代表第l层Res_unit的输出，则：

Y_l＝Y_l-1+F(W_l,Y_l-1) (2)

式(2)中：

其中，每个Res_unit的具体结构如图2(c)所示。与普通网络连接方式不同的是，在每个残差学习单元Res_unit中，将输入信号进行卷积之后分别利用Sigmoid激活函数和Tanh激活函数进行线性变换，并将结果相乘，再次经过一维卷积和Tanh激活函数之后输出，计算公式表达如下：

式(3)中：

σ₁是非线性激活函数Tanh；

σ₂是非线性激活函数Sigmoid；

和

分别代表在第l层Res_unit中第一层conv和第二层conv的参数，

式(4)中：

σ₃是非线性激活函数Relu；

第一个Res_unit的输出是Y₂，TCN中对所有后续Res_unit进行累加；利用网络学习不同语音信号中有区别的语音特征，在图2(a)中，在残差模块之后又添加两层卷积层，具体计算见公式(5)和(6)：

Y_N+1＝σ₃(W_N+1*Y_N) (5)

Y_N+2＝W_N+2*Y_N+1 (6)

式(5)(6)中：

W_N+1是第N+1层Res_unit需要学习的参数；

W_N+2是第N+2层Res_unit需要学习的参数；

S304、步骤S303的输出Y_N+2经过全局池化后再TCN网络中的softmax层，计算表述式如下：

式(7)中：

Y_N+3＝GlobalMaxPooling1d(Y_N+2) (8)

此外，在本发明实施例中，在整体网络中还多次利用了加速神经网络训练的BatchNorm算法，以提高收敛速度和稳定性。经过TCN网络的学习处理，以及不同网络层对数据的处理，最终取Y_N+2为本发明实施例的LMFB-TCN特征，其中Y_N+2∈R^128×147，而为了进行低维有效特征提取，将特征重塑成一维Y_N+2∈R⁶⁰¹⁶。

在步骤S4中，基于LDA技术对LMFB-TCN特征进行优化，获取深度语音特征LMFB-TCN-LDA。具体为：

S402、构造类间散布矩阵S_B以及类内散布矩阵S_W:

式(9)、(10)中

m_i是为第i类的样本数目；

y_i∈{C₁,C₂......C_N}，C_i是不同类别的手机，N是类别数，其中任意样本x_i∈R⁶⁰¹⁶为6016维LMFB-TCN特征向量，X是全部特征样本集；

S403、计算矩阵S_W ^-1S_B；

S405、取前k大的奇异值对应的特征向量组成投影矩阵W，k是输出特征的维数，最大为特征类别的个数减1，将k设置为n，在本发明实施例中，n为46；

S406、计算样本集中每个样本x_i在新的低维空间的投影z_i＝W^Tx_i；

S407、得到深度语音特征LMFB-TCN-LDA的输出样本集，

其中任意样本z_i∈R⁴⁶。

在步骤S5中，基于深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试，得到语音来源设备识别模型，语音来源设备识别模型用于识别语音来源设备的品牌和型号。具体为：

通过语音数据库中训练集中提取的深度语音特征LMFB-TCN-LDA对SVM分类器进行训练，通过语音数据库中测试集中的提取的深度语音特征LMFB-TCN-LDA对SVM分类器进行测试，得到用于识别语音来源设备的品牌和型号的语音来源设备识别模型。

为了验证本发明实施例提供的方法的有效性，下面使用以下四种常见的评价标准去评价所提出方法的性能：Accuracy，Precision，Recall以及F1-score，其中TP是正阳性，FP为假阳性TN为正阴性，FN为假阴性。以上标准定义如公式(a)(b)(c)(d)所示。总的来说，这四个评价标准的值越高，性能就越好。

实验结果:

对于不同的评价标准，分别将现有技术中的特征BED和CQT以及常见的语音特征MFCC和本发明实施例提出的深度语音特征LMFB-TCN-LDA输入到分类器SVM进行识别对比。实验结果如图3～图6所示。附图中，本发明实施例提出的深度语音特征LMFB-TCN-LDA为Theproposedfeature。

图3显示了不同特征的平均识别率，从图中可以看出本发明实施例提出的深度语音特征LMFB-TCN-LDA的平均识别率最高，达到99.98％。

图4、图5、图6分别表示了不同特征在不同型号设备下的recall、precision、f1-score。其中红线代表本文所提出的特征，从图中可以明显看出，在各个方面，本发明实施例提出的深度语音特征LMFB-TCN-LDA性能更加优秀。

而为了测试发明实施例提出的深度语音特征LMFB-TCN-LDA在不同大小数据集下的性能，并与其余特征进行对比。对于每一型号的设备，分别采用100、200、400、600条数据对模型进行训练，并对模型进行测试，实验对比结果如图7所示。

由图7可以看出，随着训练数据的减少，BED、CQT、MFCC的性能都有明显降低，但是对于发明实施例提出的深度语音特征LMFB-TCN-LDA，其性能降低不明显，也进一步说明了发明实施例提出的深度语音特征LMFB-TCN-LDA的有效性。

混合矩阵能给予一个模型更全面的认识，画出发明实施例提出的深度语音特征LMFB-TCN-LDA的混合矩阵，如表2所示。

表2发明实施例提出的深度语音特征LMFB-TCN-LDA的混合矩阵结果

从表2中可以看出，除了ID15，其余设备都可以较准确的预测出对应ID。

本发明实施例还提供一种语音来源设备的识别系统，上述系统包括计算机，上述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，上述至少一个存储单元中存储有至少一条指令，上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤：

S1、获取包含自然噪声的语音数据库；

S2、提取语音数据库中的语音样本的LMFB特征；

S3、基于改进的TCN网络和语音样本的LMFB特征获取LMFB-TCN特征；

S4、基于LDA技术对LMFB-TCN特征进行优化，获取低维语音有效特征LMFB-TCN-LDA；

可理解的是，本发明实施例提供的上述语音来源设备的识别系统与上述语音来源设备的识别方法相对应，其有关内容的解释、举例、有益效果等部分可以参考语音来源设备的识别方法中的相应内容，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例通过用包含自然噪声的语音样本的深度语音特征LMFB-TCN-LDA训练和测试SVM分类器，得到的语音来源设备识别模型能准确识别出包含自然噪声的语音的来源设备的语音来源设备识别模型。

2、本发明实施例基于改进的TCN网络和LDA对LMFB特征进行深度语音特征学习，使得提取的LMFB-TCN-LDA特征更加反应设备本身特性，从而进一步语音来源设备识别模型的识别准确率。为后续验证音频来源的真实性和原始性提供重要的数据支撑。

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音来源设备的识别方法，其特征在于，所述方法由计算机执行，包括：

获取包含自然噪声的语音数据库；

提取所述语音数据库中的语音样本的LMFB特征；

基于所述深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试，得到语音来源设备识别模型，所述语音来源设备识别模型用于识别语音来源设备的品牌和型号；

其中，基于改进的TCN网络和所述语音样本的LMFB特征获取LMFB-TCN特征，包括：

Y₁＝σ₁(W₁*X₀) (1)

式(1)中：

X₀是网络最初的输入特征；

W₁是第一层网络需要学习的参数；

σ₁是非线性激活函数Tanh；

S302、步骤S301的输出经过TCN网络中的残差模块，残差模块深层网络被分解成若干个残差学习单元Res_unit，每一个Res_unit中的卷积核个数是128，在残差模块中，全部采用扩张卷积，其中参数dilation rate(d)在连续Res_unit中以2的指数形式增加，即d＝2ⁿ，n＝0,1,2,3,4，在TCN网络中，每个Res_unit的输出通过添加到下一个Res_unit的输入而合并，令Y_l代表第l层Res_unit的输出，则：

Y_l＝Y_l-1+F(W_l,Y_l-1) (2)

式(2)中：

其中，在每个残差学习单元Res_unit中，将输入信号进行卷积之后分别利用Sigmoid激活函数和Tanh激活函数进行线性变换，并将结果相乘，再次经过一维卷积和Tanh激活函数之后输出，计算公式表达如下：

式(3)中：

σ₁是非线性激活函数Tanh；

σ₂是非线性激活函数Sigmoid；

和

分别代表在第l层Res_unit中第一层conv和第二层conv的参数，

式(4)中：

σ₃是非线性激活函数Relu；

Y_N+1＝σ₃(W_N+1*Y_N) (5)

Y_N+2＝W_N+2*Y_N+1 (6)

式(5)(6)中：

W_N+1是第N+1层Res_unit需要学习的参数；

W_N+2是第N+2层Res_unit需要学习的参数；

式(7)中：

Y_N+3＝GlobalMaxPooling1d(Y_N+2) (8)

2.如权利要求1所述的语音来源设备的识别方法，其特征在于，所述获取包含自然噪声的语音数据库，包括：

S101、获取自然噪声的语音数据；

S102、将所述语音数据裁剪成语音样本；

3.如权利要求1所述的语音来源设备的识别方法，其特征在于，所述基于LDA技术和所述LMFB-TCN特征获取深度语音特征LMFB-TCN-LDA，包括：

S402、构造类间散布矩阵S_B以及类内散布矩阵S_W:

式(9)、(10)中

m_i是为第i类的样本数目；

S403、计算矩阵S_W ^-1S_B；

S407、得到深度语音特征LMFB-TCN-LDA的输出样本集，

其中任意样本z_i∈Rⁿ为n维深度语音特征LMFB-TCN-LDA。

4.如权利要求1所述的语音来源设备的识别方法，其特征在于，所述基于所述深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试，得到语音来源设备识别模型，包括：

5.一种语音来源设备的识别系统，其特征在于，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

获取包含自然噪声的语音数据库；

提取所述语音数据库中的语音样本的LMFB特征；

其中，所述基于改进的TCN网络和所述语音样本的LMFB特征获取LMFB-TCN特征，包括：

Y₁＝σ₁(W₁*X₀) (1)

式(1)中：

X₀是网络最初的输入特征；

W₁是第一层网络需要学习的参数；

σ₁是非线性激活函数Tanh；

S302、步骤S301的输出经过TCN网络中的残差模块，残差模块深层网络被分解成若干个残差学习单元Res_unit，每一个Res_unit中的卷积核个数是128，在残差模块中，全部采用扩张卷积，其中参数dilation rate(d)在连续Res_unit中以2的指数形式增加，即d＝2ⁿ，n＝0,1,2,3,4，在TCN中，每个Res_unit的输出通过添加到下一个Res_unit的输入而合并，令Y_l代表第l层Res_unit的输出，则：

Y_l＝Y_l-1+F(W_l,Y_l-1) (2)

式(2)中：