CN110534101A

CN110534101A - 一种基于多模融合深度特征的移动设备源识别方法及系统

Info

Publication number: CN110534101A
Application number: CN201910797827.2A
Authority: CN
Inventors: 王志锋; 湛健; 刘清堂; 魏艳涛; 叶俊民; 闵秋莎; 邓伟; 田元; 夏丹
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University; Central China Normal University
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-12-03
Anticipated expiration: 2039-08-27
Also published as: CN110534101B

Abstract

本发明属于语音取证技术领域，公开了一种基于多模融合深度特征的移动设备源识别方法及系统，首先提取测试数据MFCCs和GSV特征，将特征对应分割为多路，然后分别训练CNN并融合得到融合深度特征，随后使用训练好的深度残差网络进行判决，最后将各路短样本的判决结果采用投票法联合决策。本发明在训练GMM‑UBM模型时，根据语音数据音素和音调的特点对数据进行筛选，挑选出具有代表性的少量数据，即保证了模型的表征泛化性也降低了数据运算量，提高了建模了效率；本发明使用深度神经网络做有监督的训练提取深度特征，剔除特征数据中的冗余和干扰信息，精简了特征数据，提高了数据的表征性，也降低了数据的维度简化了计算量。

Description

一种基于多模融合深度特征的移动设备源识别方法及系统

技术领域

本发明属于语音取证技术领域，尤其涉及一种基于多模融合深度特征的移动设备源识别方法及系统。

背景技术

目前，最接近的现有技术：

随着数字媒体技术的飞速发展，各类电子产品如计算机、数码相机、手机、打印机、扫描仪等也逐渐成为人们日常生活中不可或缺的设备，由此也产生了大量的媒体文件。与此同时，各种专业的数字媒体编辑软件在人们的诉求下也逐步走向便捷化。这些编辑软件在给人们的生活带来便捷与欢乐的同时，也引入了许多具有挑战性的问题。一些不法份子通过各种录音设备和编辑软件，偷录、伪造出大量的语音数据，由此引发的一系列问题严重影响了司法公正和社会秩序，对社会造成了非常恶劣的影响。因此对数字媒体文件做出完整性、真实性的判断显得尤为重要。

目前大多数技术先对语音信号进行预处理去噪、加窗、分帧、提取静音段，随后在静音段中提取出能够反映出设备信道指纹信息的特征，然后使用单一的特征数据构建各种机器学习模型或者深度神经网络，最后使用构建好的模型做出最终的决策。

随着深度学习一系列的算法被提出，深度学习也日益成为人们心目中做分类识别的利器，而且在数据处理能力和计算量上也大大优于传统方法。但是，深度神经网络的构建需要大量的数据，对一些实际问题有了很大的约束性。另外，单一的特征并不能完整的反应出设备的机器指纹信息，而且提取到的原始特征数据里会有大量的冗余信息和干扰信息，如果可以使用算法模型剔除冗余、干扰信息，将极大程度的精简特征数据。同时采用多步判决的方式将极大的提高判决精度，提高了算法的鲁棒性。

综上所述，现有技术存在的问题是：

(1)传统的移动设备源识别方法的特征的表征性进一步挖掘、提高效率差；而且传统的判决模型相对直观，无法通过特征信息对移动设备进行充分的表征建模；传统的测试判决方式是基于单一判决的，识别精度低。

(2)前大多数的方法直接将原始的特征数据用于构建算法模型，由于原始的特征数据存在大量的冗余和干扰信息，因此使得在构建算法模型时加大了计算量，也使得最终的算法模型不够精确。

(3)目前大多数的方法使用单一的特征数据对设备源特征进行建模。单一特征存在很大的局限性，因此模型的构建不够准确，多特征的融合将克服单一特征的局限性。

(4)目前大多数的方法使用单一的决策模型对设备源特征进行建模然后进行单一决策。单一决策存在很大的不稳定性，因此模型的构建不够准确，多步判决的方式极大的提高了算法的鲁棒性。

解决上述技术问题的难度：

如何在尽量少的损失有用信息的情况下剔除原始特征数据的冗余信息和干扰数据，实现特征数据的精简；使用哪几种特征数据进行融合可以提高特征的表征性；如何将多种特征数据进行融合使得最终的特征数据表征性增强；如何将多路判决的方式运用到决策上面；如何在尽量小的损失样本信息的前提下对不等长样本数据进行决策识别。

解决上述技术问题的意义：

随着科技的发展，语音数据的来源越来越方便，给人们的生活带来了便利，但同时也给一些分子提供了可乘之机。在司法方面，语音数据作为证据显得越来越重要，但一些伪造、篡改语音数据隐瞒了真相，因此给语音识别带来很多的麻烦。本发明为解决语音数据来源取证问题提供了可执行高效的方案。

发明内容

针对现有技术存在的问题，本发明提供了一种基于多模融合深度特征的移动设备源识别方法及系统。

本发明是这样实现的，一种基于多模融合深度特征的移动设备源识别方法提出了新的特征提取方式拟提高特征的表征性：传统的移动设备源识别方法的特征的表征性可以进一步挖掘、提高，基于此本方法提出了基于MFCCs和GSV的多模融合深度特征。

本发明提出使用深度残差网的方法作为设备特征的表征建模方法拟提高模型判决决策的精度：传统的判决模型相对直观，无法通过特征信息对移动设备进行充分的表征建模，因此本方法提出了基于残差网的模型判决方法。

本发明针对测试验证的方法提出了多路联合判决的方式拟提高判决的精度：测试首先提取测试数据MFCCs和GSV特征，将特征对应分割为多路，然后分别训练CNN并融合得到融合深度特征，随后使用训练好的深度残差网络进行判决，最后将各路短样本的判决结果采用投票法联合决策。

进一步，基于多模融合深度特征的移动设备源识别方法通过构建深度神经网络提取深度特征，剔除冗余和干扰信息，然后将深度特征进行融合，提高特征数据表征性，克服单一特征数据在表征上的局限性。然后将不等长的测试数据分割为多个短样本数据分别进行决策，最后进行融合判决。

具体包括以下步骤：

步骤一：对大量无关设备的语音信号预处理提取特征信息；

步骤1.1：对训练语音信号进行筛选；

步骤1.2：对训练的语音信号进行短时傅里叶变换；

步骤1.3：对步骤1.2中频域信号提取MFCCs特征；

步骤二：利用训练的语音信号训练GMM-UBM模型；

步骤2.1：用步骤1.3中得到的MFCCs特征训练GMM-UBM模型；

步骤三：对目标语音训练信号预处理提取MFCCs特征信息；

步骤3.1：将目标语音单个类别的多个训练样本融合为一个长样本；

步骤3.2：计算目标语音长样本的短时傅里叶变换值；

步骤3.3：对步骤3.1中频域信号提取MFCCs特征；

步骤四：将目标语音训练信号的MFCCs特征数据分割为n个短样本；

步骤4.1：将步骤3.3中得到的MFCCs特征分割为多个合适长度的短MFCCs特征作为单个类别的训练样本数据；

步骤五：计算各个短样本信号特定的GMM模型；

步骤5.1：将步骤4.1中得到的短MFCCs特征通过步骤2.1所训练好的GMM模型和MAP算法调整GMM模型参数；

步骤六：提取高斯超矢量；

步骤6.1：将步骤5.1中训练好的每一个GMM模型的均值参数提取出来作为特征信号；

步骤6.2：将步骤6.1中提取得到的特性信号做归一化处理；

步骤七：使用高斯超矢量构建基于GSV特征的卷积神经网络；

步骤7.1：将步骤6.2中特征数据分为训练数据和测试数据两类；

步骤7.2：将特征数据分进行标注分类，标注使用one-hot编码；

步骤7.3：将GSV特征的训练数据用来训练构建基于GSV特征的卷积神经网络；

步骤八：使用基于GSV特征的卷积神经网络提取深度GSV特征；

步骤8.1：使用步骤6.2中的GSV特征和步骤7.3中的卷积神经网络提取深度 GSV特征；

步骤九：使用短样本MFCCs特征构建基于MFCCs特征的卷积神经网络；

步骤9.1：将步骤4.1中MFCCs特征数据做归一化处理；

步骤9.2：将步骤9.1中的特征数据分为训练数据和测试数据两类；

步骤9.3：将特征数据分别进行标注分类，标注使用one-hot编码；

步骤9.4：将MFCCs特征的训练数据用来训练构建基于MFCCs特征的卷积神经网络；

步骤十：使用基于MFCCs特征的卷积神经网络提取深度MFCCs特征；

步骤10.1：使用步骤9.1中归一化处理后的特征数据和步骤9.4中的卷积神经网络提取深度MFCCs特征；

步骤十一：将深度GSV特征和深度MFCCs特征进行融合得到多模态融合深度特征，构建为训练数据集；

步骤11.1：将步骤8.1中的深度GSV特征和步骤10.1中的深度MFCCs特征进行融合得到n个融合深度特征；

步骤十二：使用训练数据集构建深度残差网络。

步骤12.1：使用步骤11.1中的融合深度特征训练构建深度残差网络；

步骤十三：提取测试语音信号的MFCCs特征并将测试语音信号的单个MFCCs特征分割为m个短数据样本。

步骤13.1：提取测试信号的MFCCs特征；

步骤13.2：将测试信号的MFCCs特征按照步骤4.1中MFCCs特征长度分割为m 个短MFCCs特征样本数据；

步骤十四：使用短样本MFCCs特征和基于MFCCs特征的卷积神经网络提取深度MFCCs特征。

步骤14.1：将步骤13.2得到的m个短MFCCs特征样本数据做归一化处理；

步骤14.2：将步骤14.1归一化处理后的m个MFCCs特征样本数据输入到步骤 9.4训练得到的基于MFCCs特征的卷积神经网络中提取深度MFCCs特征；

步骤十五：使用短样本MFCCs特征和GMM-UBM模型训练GMM模型并提取GSV特征。

步骤15.1：将步骤13.2得到的m个短MFCCs特征样本数据输入到步骤2.1中的GMM-UBM模型中训练GMM模型；

步骤15.2：将步骤15.1中得到的GMM模型的均值参数提取出来作为GSV特征；

步骤十六：使用GSV特征和训练得到的基于GSV特征的卷积神经网络提取深度GSV特征。

步骤16.1：将步骤15.2中得到的GSV特征做归一化处理；

步骤16.2：将步骤16.1中归一化处理后的GSV特征输入到步骤7.3中得到的基于GSV特征的卷积神经网络中提取深度GSV特征；

步骤十七：将深度MFCCs特征和深度GSV特征进行融合得到多模态融合深度特征。

步骤17.1：将步骤14.2中得到的深度MFCCs特征和步骤16.2中得到的深度GSV 特征进行融合得到测试数据的m个融合深度特征短样本；

步骤17.2：对步骤17.1得到的m个融合深度特征短样本数据做归一化处理；

步骤十八：使用训练好的深度残差网络对深度融合特征进行判决，得到m 个判决结果。

步骤18.1：将步骤17.2中归一化处理后的m个融合深度特征短样本数据输入到步骤12.1中得到的深度残差网络中进行判决得到m个判决结果。

步骤十九：对m个融合深度特征的m个判决结果采用投票判决方式得到最终结果。

步骤19.1：将步骤18.1中得到的m个判决结果采用投票法进行融合判决。

本发明的另一目的在于提供一种实施所述基于多模融合深度特征的移动设备源识别方法的基于多模融合深度特征的移动设备源识别系统。

本发明的另一目的在于提供一种终端，所述终端搭载实现所述基于多模融合深度特征的移动设备源识别方法的处理器。

本发明的另一目的在于提供一种计算机可读存储介质，包括计算机程序，当其在计算机上运行时，使得计算机执行所述的基于多模融合深度特征的移动设备源识别方法。

综上所述，本发明的优点及积极效果为：

本发明解决了以下问题，首先传统的移动设备源识别方法的特征的表征性可以进一步挖掘、提高，基于此本方法提出了基于MFCCs和GSV的多模融合深度特征；其次传统的判决模型相对直观，无法通过特征信息对移动设备进行充分的表征建模，因此本方法提出了基于残差网的模型判决方法；最后，传统的测试判决方式是基于单一判决的，本方法提出将测试数据的特征分为多路进行联合判决，极大的提高了识别精度。

本发明的方法分为三个阶段，第一阶段，融合深度特征提取，基于大量无关设备的语音信号提取MFCCs特征训练GMM-UBM模型，然后提取测试语音数据的 MFCCs特征，将该特征分割为多个短特征数据用于调整GMM-UBM模型的参数得到 GSV特征。最后分别使用短MFCCs特征和GSV特征构建两个CNN模型，分别提取MFCCs 深度特征和GSV深度特征并进行融合。第二阶段深度残差网络构建，基于已有的融合深度特征的特点设计相应的深度残差网络模型，然后将融合后的深度特征用于训练深度残差网络。第三阶段多路联合判决，首先提取测试数据MFCCs和GSV，将特征对应分割为多路，然后分别训练CNN并融合得到融合深度特征，随后使用训练好的深度残差网络进行判决，最后将各路短样本的判决结果采用投票法联合决策。

本发明的优点进一步包括：

(1)本发明在训练GMM-UBM模型时，根据语音数据音素和音调的特点对数据进行筛选，挑选出具有代表性的少量数据，即保证了模型的表征泛化性也降低了数据运算量，提高了建模了效率。

(2)本发明使用深度神经网络做有监督的训练提取深度特征，剔除特征数据中的冗余和干扰信息，精简了特征数据，提高了数据的表征性，也降低了数据的维度简化了计算量。

(3)本发明将两种深度特征进行融合得到最终的特征数据用于训练构建识别的算法模型，并采用多路决策的形式进行融合判决，极大的提高了精确度。融合的特征数据克服了单一特征数据所存在的局限性，提高了特征的表征性，增加了算法识别的准确率。融合判决也提高了算法的鲁棒性。在20个设备源的闭集实验里，本文中的方法达到了94.7％的识别精度，表1提供了一系列的对比实验，通过对比实验可以发现深度特征比原始的特征的效果更好，而经过融合后的特征是最好的。另外，将MFCC特征分割为不同维度的短样本将影响到样本的个数，虽然维度更大的MFCC特征表征性更强，但是由于样本数量少所以影响最终联合判决时的决策。表2为与传统方法识别效果对比的表格。

表1实验过程对比实验

表2传统方法效果对比

(4)目前很多技术方法为了提高精确度，使用语音的非语音段(没有说话的语音段)提取特征信息然后进行分类识别，非语音段没有其它声音的干扰，只保留了设备噪声，所以对设备源的表征性更高，但是在实际的运用过程，并没有很多的非语音段可以使用。在本方案中使用整个语音段提取特征，提高了泛化性。

(5)目前很多技术方法在做实验过程中使用的是等长的语音数据，因为在提取某些特征过程需要是原始数据是等长，而在实际过程中很多情况下测试数据样本不等长，若将数据截断必将损失很多的特征信息。而本方法中克服了不等长样本提取某些特征时的困难。

附图说明

图1是本发明实施例提供的基于多模融合深度特征的移动设备源识别方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

传统的移动设备源识别方法的特征的表征性进一步挖掘、提高效率差；传统的判决模型相对直观，无法通过特征信息对移动设备进行充分的表征建模；传统的测试判决方式是基于单一判决的，识别精度低。

针对现有技术存在的问题，本发明提供了一种基于多模融合深度特征的移动设备源识别方法及系统，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的基于多模融合深度特征的移动设备源识别方法分为三阶段，第一阶段，融合深度特征提取，基于大量无关设备的语音信号提取MFCCs特征训练GMM-UBM模型，然后提取测试语音数据的MFCCs特征，将该特征分割为多个短特征数据用于调整GMM-UBM模型的参数得到GSV特征。最后分别使用短MFCCs特征和GSV特征构建两个CNN模型，分别提取MFCCs深度特征和 GSV深度特征并进行融合。

第二阶段深度残差网络构建，基于已有的融合深度特征的特点设计相应的深度残差网络模型，然后将融合后的深度特征用于训练深度残差网络。

第三阶段多路联合判决，首先提取测试数据MFCCs和GSV，将特征对应分割为多路，然后分别训练CNN并融合得到融合深度特征，随后使用训练好的深度残差网络进行判决，最后将各路短样本的判决结果采用投票法联合决策。

在本发明实施例中，本发明提供的基于深度多模融合的移动设备源识别方法，具体包括以下步骤：

步骤1：对大量无关设备的语音信号预处理提取特征信息。

步骤2：利用训练的语音信号训练GMM-UBM模型。

步骤3：对目标语音训练信号预处理提取MFCCs特征信息。

步骤4：将目标语音训练信号的MFCCs特征数据分割为n个短样本。

步骤5：计算目标手机语音信号特定的GMM模型。

步骤6：提取高斯分量。

步骤7：使用高斯超矢量构建基于GSV特征的卷积神经网络。

步骤8：使用基于GSV特征的卷积神经网络提取深度GSV特征。

步骤9：使用MFCCs特征构建基于MFCCs特征的卷积神经网络。

步骤10：使用基于MFCCs特征的卷积神经网络提取深度MFCCs特征。

步骤11：将深度GSV特征和深度MFCCs特征进行融合得到多模态融合的深度特征作为训练数据集。

步骤12：使用训练数据集构建深度残差网络。

步骤13：提取测试语音信号的MFCCs特征并将测试语音信号的单个MFCCs特征分割为m个短数据样本。

步骤14：使用短样本MFCCs特征和基于MFCCs特征的卷积神经网络提取深度 MFCC特征。

步骤15：使用短样本MFCCs特征和GMM-UBM模型训练GMM模型并提取GSV特征。

步骤16：使用GSV特征和训练得到的基于GSV特征的卷积神经网络提取深度 GSV特征。

步骤17：将深度MFCCs特征和深度GSV特征进行融合得到多模态深度融合特征。

步骤18：将训练好的深度残差网络对深度融合特征进行判决，得到m个判决结果。

步骤19：对m多模态深度融合特征的m个判决结果采用投票判决方式得到最终结果。

在本发明实施例中，步骤1具体包括：

步骤1.1：对大量无关设备的语音信号加窗分帧进行预处理，然后进行短时傅里叶变换。为了控制数据量，加窗的窗长设为256，帧移为128，窗函数选择下式的汉明窗，然后进行傅里叶变换。

步骤1.2：根据下式对步骤1.1中频域信号提取MFCCs特征，首先提取语音信号的MFCCs特征，选择12个系数再加上F0的能量，同时保留一阶和二阶的系数，所以总共39维数据。

在本发明实施例中，步骤2具体包括：

步骤2.1：利用步骤1.2中的MFCCs特征训练一个包含64个高斯模型的GMM模型作为通用背景模型。高斯混合模型(GMM)是通过多个加权后的高斯模型进行组合的一个概率分布模型。在自然情况下，数据的分布通常是按照高斯模型分布的，但是，一个高斯模型往往无法拟合一个多维的数据，因此可以使用多个高斯进行加权的方式来表示一个数据样本的概率分布，当数据类型相同时，概率模型的样式也会大致相同，整体反应在模型的均值、方差和权值的参数上。因此使用GMM模型可以反应某一类数据的概率分布，进而用来进行特征的识别分类，当特征提取的适当既可以用来进行录音的设备源识别。但是训练一个GMM模型需要大量的数据，在现实情况下无法直接获取大量的数据，所以可以先训练一个最基本的录音GMM模型作为通用背景模型(UBM)。一个具有M个高斯，特征数据为D维的GMM模型可以表示为如下形式：

式中x为输入的N*D维的特征矢量。λ＝{w_i,u_i,∑_i}，w_i为高斯混合模型的权重，且满足最终得到的参数大小为D*1维。u_i为每个高斯分量的均值，大小为M*D维。Σ_i为每个高斯分量的方差，大小为M*D维。p_i(x)为每个高斯模型的概率密度，且满足

(x-u_i)^-1为(x-u_i)的转置，|Σ_i|和(Σ_i)^-1为Σ_i的行列式和逆矩阵。在实际的运算过程中，为了减少参数量，提高训练的速率，通常将Σ_i使用对角化的协方差矩阵，通过实验证明，对角化后的协方差矩阵就足以近似表示了。

训练过程使用EM算法，详细步骤为：

1.初始化w_i,u_i,Σ_i，并且初始化对数似然函数。

2.使用当前参数估计概率

3.更新当前的参数

4.计算对数似然函数

比较对数似然函数或者限定条件，如果不满足条件，跳转到步骤2继续循环直到满足条件为止。

在本发明实施例中，步骤3具体包括：

步骤3.1：单个设备源的训练样本有多个，为了在后面尽可能多的得到训练样本，首先将多个短语音样本合并为一个长的语音样本。

步骤3.2：将步骤3.1中的长语音信号加窗、分帧，进行预处理，然后进行短时傅里叶变换。窗长设为256，帧移为32。然后进行短时傅里叶变换。

步骤3.3：对步骤3.2中频域信号提取MFCCs特征，参数选取同步骤1.2。

在本发明实施例中，步骤4具体包括：

步骤4.1：由于将短语音数据合并为了一个长语音样本数据，因此在提取 MFCCs特征时得到的数据维度会更大，将此特征数据按照156*39的维度分割为n 个MFCCs特征(从中间截取)，每一个短的MFCCs特征作为一个训练样本，因此每个设备源得到n个训练样本，由于训练样本时长不定，所以每个设备的训练样本数量也不定。

在本发明实施例中，步骤5具体包括：

步骤5.1：GMM-UBM训练好后只需要在原来的通用模型的基础上进行微调整，因为通用背景模型已经反应了录音设备的最基本的语音信息，对于目标设备，只需要使用少量的特征进行训练一个可以反映出每个模型之间的独特的相对差距就可以了。在这个过程中需要用到MAP(maximum a posteriori)最大后验概率的算法进行调整。

但是在研究中发现，权值和方差矩阵对混合高斯模型的影响并不是很大，最关键的是混合高斯模型的均值矩阵，因此为了提高训练的效率，在应用过程中只考虑对均值矩阵的调整。

E_i(x)＝u_i

上式中γ用来调整参数满足而是用来调整参数的自适应系数，且其中τ也为自适应系数。

在本发明实施例中，步骤6具体包括：

步骤6.1：将经过MAP自适应调整后的混合高斯模型的均值参数提取出来作为语音信号的特征数据。经过MAP自适应训练后得到的GMM模型有三个，均值、方差和权值，而均值矩阵的大小D*L，D为高斯数量，L为帧数，最终需要将均值矩阵转换为{N1,N2,N3……}的一位矩阵。

步骤6.2：均值参数提取出来后还不可以直接使用，需要对数据进行归一化，本系统采用标准差标准化，如下式所示，其中u为所有样本数据的均值，σ为所有样本数据的标准差。

在本发明实施例中，步骤7具体包括：

步骤7.1：将特征数据分为训练数据和测试数据两类，训练数据又分为训练样本和验证样本，训练样本用来训练卷积神经网络模型，然后用验证数据检验模型的好坏，同时调整网络模型的参数，最后的测试数据集就用来测试最终深度自编码模型的好坏。

步骤7.2：将特征数据集进行one-hot编码分类，在分类模型中，最后做预测时使用的是交叉熵的方式，因此计算的是概率，使用每一个编码方式来表示一个类别将很方便的进行自动识别达到分类的目的，而one-hot编码对于每一个类别热编码只有一位是1其它为都使用0进行标注。

步骤7.3：将GSV特征的训练数据用来训练构建基于GSV特征的卷积神经网络。卷积神经网络是一个基于卷积的深度学习神经网络，相较于全连接神经网络在参数数量上大大降低，使得神经网络在运行的速率上大大提高，不管是训练还是检验都更有效率。但是，神经网络从输入层到输出层的每一层传播中，都是通过对原数据特征进行数据的高层提取(特征的深度提取)得到的结果，卷积层相对于上一层数据而言，虽然减小了数据的大小，却增加了通道数量，是对输入数据特征的深层次提取，他通过对原数据的每一小块进行更加深入的分析从而得到了抽象层度更高的特征。

在卷积神经网络中包含1.输入层。2.卷积层。3.池化层。4.全连接层。5.输出层。

(1)输入层(或池化层)到卷积层

不管输入层还是池化层，在传向卷积层的过程中，都是一个对特征局部区域进行高度采样，增加通道数的过程。设通过过滤器将一个大小为m*n*k(其中k为通道数，n*m也为二维卷积核大小)的特征数据传递到卷积层形成一个节点：

其中i表示卷积层第i个通道，k′表示在输入层(或池化层)k个通道中与该层卷积层相关的k′个通道(k′≤k),表示卷积层第i层的卷积核，它有k′个卷积核矩阵每个卷积核矩阵的大小为n*m。输入层(或池化层)的第j个输入(取决于输入层或池化层的值以及步长)。g(i,j)表示第i个通道的第j个值得具体值。

(2)卷积层到池化层

池化层是为了减少参数的量而进行的相关采样操作。例如在一个下采样的例子中，满足如下关系：

其中表示对l-1层池化后的第j层特征映射，而在LeNet-5模型中，池化层相关参数得到了特殊化，是系数为1的线性函数，所以池化过程就变得相对简单只有这样的池化操作。

(3)全连接到输出层

该层主要实现将输出结果进行分类或者归并的过程，在LeNet-5模型中为一个十分类问题，该层是经过一层softmax层形成一个和为1的分布列，通过反向传播调参形成长度为10的one-hot向量由此来判断分类情况。

在本发明实施例中，步骤8具体包括：

步骤8.1：在步骤7.3中，使用GSV特征构建好了基于GSV特征的卷积神经网络。且已知卷积神经网络在进行卷积运算时可以对原始的输入特征做深度特征提取，剔除特征的冗余信息和干扰信息，精简特征数据。因此，通过有监督的训练构建好基于GSV特征的卷积神经网络后，将步骤6.2归一化后的GSV特征在此输入到训练好的基于GSV特征的卷积神经网络，提取出softmax前的中间层信息作为深度GSV特征。

在本发明实施例中，步骤9具体包括：

步骤9.1：将步骤4.1中MFCCs特征数据使用步骤6.2的归一化方式做同样的处理。

步骤9.2：将步骤9.1中的特征数据使用步骤7.1的方式将数据分为训练数据和测试数据两类。

步骤9.3：使用步骤7.2的方式将特征数据分别进行标注分类。

步骤9.4：使用步骤9.2中的训练数据同样构建基于MFCCs特征的卷积神经网络。

在本发明实施例中，步骤10具体包括：

步骤10.1：使用步骤9.1中归一化处理后的特征数据和步骤9.4中的卷积神经网络提取深度MFCCs特征，将卷积神经网络最后一层softmax的输入值作为深度MFCCs特征。

在本发明实施例中，步骤11具体包括：

步骤11.1：在步骤8.1和步骤10.1中通过使用卷积神经网络分别获得了深度GSV特征N₁(n₁,n₂,...n_i),N₂(n₁,n₂,...n_i)...N_n(n₁,n₂,...n_i)和深度MFCCs特征 M₁(m₁,m₂,...m_j),M₂(m₁,m₂,...m_j)...M_n(m₁,m₂,...m_j)。将深度GSV特征和深度MFCCs特征进行融合得到多模态融合的深度特征 D(D₁(n₁,...n_i,m₁,...m_j),D₂(n₁,...n_i,m₁,...m_j)...D_n(n₁,...n_i,m₁,...m_j))。然后使用步骤5.2中归一化的方式对多模态融合的深度特征D做归一化处理，最终每个设备得到n个训练数据集，在融合过程注意将每个MFCCs特征和对应的GSV特征进行融合。

在本发明实施例中，步骤12具体包括：

步骤12.1：残差网络是经卷积神经网络叠加深化后产生的深度卷积神经网络，但不同与卷积神经网络的是，残差网络是通过每一个单独的学习模块叠加而形成的。另外，相较于卷积神经网络残差网络学习的机制也有很大的区别，卷积神经网络通过提取输入数据的深度特征进而学习特征的规律训练出模型然后进行分类或者预测。而残差网旨在找出网络学习过程误差产生的规律，即拟合出误差的变化规律。

残差网络的正向学习迭代过程为：F＝W₂σ(W₁x)，其中σ为激活函数，常使用Relu函数。

x_l+1＝x_l+F(x_l,W₁)

x_l+2＝x_l+1+F(x_l+1,W_l+1)＝x_l+F(x_l,W_l)+F(x_l+1,W_l+1)

残差网的递推关系式为：

在本发明实施例中，步骤13具体包括：

步骤13.1：测试信号为不等长的语音数据，先对整个样本数据提取MFCCs特征。窗口大小选取256，帧移为32，取12维一阶特征、二阶特征和F0特征，最终得到39维信号。

步骤13.2：将测试信号的MFCCs特征按照步骤4.1中MFCCs特征维度大小分割为m个短MFCCs特征样本数据，因此原始的一个测试数据样本将被分割得到m个短样本。

在本发明实施例中，步骤14具体包括：

步骤14.1：将步骤13.2得到的m个短MFCCs特征样本数据使用步骤6.2的方式做归一化处理。

步骤14.2：将步骤14.1归一化处理后的m个MFCCs特征样本数据输入到步骤 9.4训练得到的基于MFCCs特征的卷积神经网络中提取深度MFCCs特征。

在本发明实施例中，步骤15具体包括：

步骤15.1：将步骤13.2得到的m个短MFCCs特征样本数据输入到步骤2.1中的GMM-UBM模型中使用步骤5.1的方式训练特定的GMM模型。

步骤15.2：将步骤15.1中得到的GMM模型的均值参数提取出来作为GSV特征，方法同步骤6.1。

在本发明实施例中，步骤16具体包括：

步骤16.1：将步骤15.2中得到的GSV特征使用步骤6.2的方式做归一化处理。

步骤16.2：将步骤16.1中归一化处理后的GSV特征输入到步骤7.3中得到的基于GSV特征的卷积神经网络中提取深度GSV特征，提取方式同步骤8.1。

在本发明实施例中，步骤17具体包括：

步骤17.1：将步骤14.2中得到的深度MFCCs特征和步骤16.2中得到的深度 GSV特征进行融合得到测试数据的m个深度融合特征短样本，融合方式同步骤 11.1。

步骤17.2：对步骤17.1得到的m个深度融合特征短样本数据使用步骤6.2 的方式做归一化处理。

在本发明实施例中，步骤18具体包括：

步骤18.1：将步骤17.2中归一化处理后的m个深度融合特征短样本数据输入到步骤12.1中得到的深度残差网络中进行判决得到m个判决结果，因此每一个测试样本将得到m个判决结果r＝{r₁,r₂...r_m}。

在本发明实施例中，步骤19具体包括：

步骤19.1：将步骤18.1中得到的m个判决结果采用投票法进行融合判决，选取每个样本出现最多的判决结果作为最终的分类结果，函数f表示取数量最多的值。

R＝f(r₁,r₂...r_m)。

下面结合实验对本发明作进一步描述。

训练阶段：

该实验将本发明所述方法在UBM训练阶段，选取大量的无关设备源语音信号作为训练数据提取MFCCs特征训练GMM模型，以256为帧长、帧移128提取12 阶MFCCs参数加上一阶、二阶和零点参数，归一化之后训练含64个高斯分量的通用背景模型UBM。

GMM模型调整阶段，选取MOBIPHONE数据库训练集的20个(原始有21 个设备，剔除了一个设备集)设备的数据集。首先分别将各个设备集样本的训练数据和测试数据的语音段拼接到一起构建一个长语音数据样本。然后以256 为帧长、帧移32提取12阶MFCCs参数加上一阶、二阶和零点参数。由于语音样本的长度不相等，所以首先将各个设备集的训练样本合并为一个长样本提取到的MFCCs特征，然后以156*39的维度大小将MFCCs特征分割(从中间截取，将两边多余的帧舍弃)为n个短样本，每个短样本作为设备的一个训练数据。然后将该MFCCs特征分别用于训练GMM-UBM模型，得到64个GMM模型，将64个GMM模型的均值提取出来即得到训练集的高斯超矢量，最后对特征数据做归一化处理，将数据归一化在-1～1之间。

训练阶段深度GSV特征提取过程，MOBIPHONE训练集得到的所有的高斯超矢量作为训练集，同时采用one-hot编码形式对20类数据进行编码打标，然后训练基于GSV特征的CNN网络。本实验中基于GSV特征的CNN网络包含6层(3 个卷积层、2个池化层和1个全连接层)。原始数据采用0填充方式变化为50*50，第一隐层5*5卷积核步长为1通道数变为6，维度为46*46*6。第二隐层2*2池化核，池化后维度为23*23*6。第三隐层5*5卷积核步长为1通道数由6变为 16，维度为19*19*16。第四隐层2*2池化核，池化后维度为10*10*16。第五隐层5*5卷积核步长为1通道数由16变为40，维度为6*6*40。第六隐层全连接层，将原始的6*6*40维数据变为了600*1维的数据，最后通过softmax输出20 个分类结果做有监督的训练。网络训练好后，将原始的GSV训练数据和测试数据分别输入到CNN网络中，提取softmax前的600*1维的数据作为深度GSV特征。

训练阶段深度MFCCs特征提取阶段，将MOBIPHONE训练集得到的所有的 MFCCs特征用于构建基于MFCCs特征的CNN网络，同时对数据集采用one-hot编码形式对20类数据进行编码打标。本实验中基于MFCCs特征的CNN网络包含7层 (3个卷积层、3个池化层和1个全连接层)。原始数据样本156*39的维度变化为78*78维度，第一隐层5*5卷积核步长为1通道数变为6，维度为74*74*6。第二隐层2*2池化核，池化后维度为37*37*6。第三隐层5*5卷积核步长为1通道数由6变为16，维度为33*33*16。第四隐层2*2池化核，池化后维度为 17*17*16。第五隐层5*5卷积核步长为1通道数由16变为40，维度为13*13*40。第六隐层2*2池化核，池化后维度为7*7*40。第七隐层全连接层，将原始的 7*7*40维数据变为了600*1维的数据，最后通过softmax输出20个分类结果做有监督的训练。网络训练好后，将原始的MFCCs训练数据和测试数据分别输入到 CNN网络中，提取softmax前的600*1维的数据作为深度MFCCs特征。

深度残差网络训练阶段，首先将深度GSV特征和深度MFCCs特征融合得到深度融合特征。将深度融合特征做归一化处理到-1～1之间。最后将训练特征数据用于构建深度残差网络。本实验中残差网络设计为122层，第一个Block里包含3 个3层残差块，第二个Block里包含34个3层残差块，第三个Block里包含3 个3层残差块。

测试阶段：

首先对测试信号源提取MFCCs特征，按照与训练数据MFCCs特征156*39的维度大小将测试信号的MFCCs特征分割为m份(从中间截取，将两边多余的帧舍弃)，分别将m份MFCCs特征用于训练GMM模型并提取GSV特征。将训练阶段得到的基于 MFCCs特征的卷积神经网络和基于GSV特征的卷积神经网络用于提取测试数据的深度MFCCs特征和深度GSV特征，并将两种特征融合得到m个深度融合特征样本集。然后使用训练阶段得到的深度残差网络对m个样本做判决，最后采用投票法则选取出现频率最高的类别作为最终的判决结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模融合深度特征的移动设备源识别方法，其特征在于，所述基于多模融合深度特征的移动设备源识别方法通过提取测试数据MFCCs和GSV特征，并将所述测试数据MFCCs和GSV特征对应分割为多路；

然后分别训练CNN并融合得到融合深度特征，随后使用训练好的深度残差网络进行判决；

最后将各路短样本的判决结果采用投票法进行联合决策。

2.如权利要求1所述的基于多模融合深度特征的移动设备源识别方法，其特征在于，所述基于多模融合深度特征的移动设备源识别方法具体包括以下步骤：

步骤1：对大量无关设备的语音信号预处理提取特征信息；

步骤2：利用训练的语音信号训练GMM-UBM模型；

步骤3：对目标语音训练信号预处理提取MFCCs特征信息；

步骤4：将目标语音训练信号的MFCCs特征数据分割为n个短样本；

步骤5：计算目标手机语音信号特定的GMM模型；

步骤6：提取高斯分量；

步骤7：使用高斯超矢量构建基于GSV特征的卷积神经网络；

步骤8：使用基于GSV特征的卷积神经网络提取深度GSV特征；

步骤9：使用MFCCs特征构建基于MFCCs特征的卷积神经网络；

步骤10：使用基于MFCCs特征的卷积神经网络提取深度MFCCs特征；

步骤11：将深度GSV特征和深度MFCCs特征进行融合得到多模态融合的深度特征作为训练数据集；

步骤12：使用训练数据集构建深度残差网络；

步骤13：提取测试语音信号的MFCCs特征并将测试语音信号的单个MFCCs特征分割为m个短数据样本；

步骤14：使用短样本MFCCs特征和基于MFCCs特征的卷积神经网络提取深度MFCC特征；

步骤15：使用短样本MFCCs特征和GMM-UBM模型训练GMM模型并提取GSV特征；

步骤16：使用GSV特征和训练得到的基于GSV特征的卷积神经网络提取深度GSV特征；

步骤17：将深度MFCCs特征和深度GSV特征进行融合得到多模态深度融合特征；

步骤18：将训练好的深度残差网络对深度融合特征进行判决，得到m个判决结果；

3.如权利要求2所述的基于多模融合深度特征的移动设备源识别方法，其特征在于，步骤1具体包括：

步骤1.1：对大量无关设备的语音信号加窗分帧进行预处理，然后进行短时傅里叶变换。为了控制数据量，加窗的窗长设为256，帧移为128，窗函数选择下式的汉明窗，然后进行傅里叶变换；

步骤1.2：根据下式对步骤1.1中频域信号提取MFCCs特征，首先提取语音信号的MFCCs特征，选择12个系数再加上F0的能量，同时保留一阶和二阶的系数，所以总共39维数据；

步骤2具体包括：

步骤2.1：利用步骤1.2中的MFCCs特征训练一个包含64个高斯模型的GMM模型作为通用背景模型；高斯混合模型是通过多个加权后的高斯模型进行组合的一个概率分布模型；先训练一个最基本的录音GMM模型作为通用背景模型；一个具有M个高斯，特征数据为D维的GMM模型表示为如下形式：

式中x为输入的N*D维的特征矢量。λ＝{w_i,u_i,∑_i}，w_i为高斯混合模型的权重，且满足最终得到的参数大小为D*1维；u_i为每个高斯分量的均值，大小为M*D维；Σ_i为每个高斯分量的方差，大小为M*D维；p_i(x)为每个高斯模型的概率密度，且满足

(x-u_i)^-1为(x-u_i)的转置，|Σ_i|和(Σ_i)^-1为Σ_i的行列式和逆矩阵。

4.如权利要求3所述的基于多模融合深度特征的移动设备源识别方法，其特征在于，步骤2中，训练过程使用EM算法，具体包括：

1)初始化w_i,u_i,Σ_i，并且初始化对数似然函数；

2)使用当前参数估计概率

3)更新当前的参数

4)计算对数似然函数

比较对数似然函数或者限定条件，不满足条件，跳转到步骤2继续循环直到满足条件为止。

5.如权利要求2～4任意一项所述的基于多模融合深度特征的移动设备源识别方法，其特征在于，步骤3具体包括：

步骤3.1：单个设备源的训练样本有多个，为了在后面尽可能多的得到训练样本，首先将多个短语音样本合并为一个长的语音样本；

步骤3.2：将步骤3.1中的长语音信号加窗、分帧，进行预处理，然后进行短时傅里叶变换；窗长设为256，帧移为32；然后进行短时傅里叶变换；

步骤3.3：对步骤3.2中频域信号提取MFCCs特征，参数选取同步骤1.2；

步骤4具体包括：

步骤4.1：由于将短语音数据合并为了一个长语音样本数据，因此在提取MFCCs特征时得到的数据维度会更大，将此特征数据按照156*39的维度分割为n个MFCCs特征，每一个短的MFCCs特征作为一个训练样本，每个设备源得到n个训练样本；

步骤5具体包括对均值矩阵的调整：

E_i(x)＝u_i；

上式中γ用来调整参数满足而用来调整参数的自适应系数，且其中τ也为自适应系数；

步骤6具体包括：

步骤6.1：将经过MAP自适应调整后的混合高斯模型的均值参数提取出来作为语音信号的特征数据；经过MAP自适应训练后得到的GMM模型有三个，均值、方差和权值，均值矩阵的大小D*L，D为高斯数量，L为帧数，最终需要将均值矩阵转换为{N1,N2,N3……}的一位矩阵；

步骤6.2：均值参数提取出来后，采用标准差标准化对数据进行归一化，如下式所示，其中u为所有样本数据的均值，σ为所有样本数据的标准差；

步骤7具体包括：

步骤7.1：将特征数据分为训练数据和测试数据两类，训练数据又分为训练样本和验证样本，训练样本用来训练卷积神经网络模型，然后用验证数据检验模型的好坏，同时调整网络模型的参数，最后的测试数据集就用来测试最终深度自编码模型的好坏；

步骤7.2：将特征数据集进行one-hot编码分类；

步骤8具体包括：

步骤8.1：在步骤7.3中，使用GSV特征构建好了基于GSV特征的卷积神经网络；通过有监督的训练构建好基于GSV特征的卷积神经网络后，将步骤6.2归一化后的GSV特征在此输入到训练好的基于GSV特征的卷积神经网络，提取出softmax前的中间层信息作为深度GSV特征；

步骤9具体包括：

步骤9.1：将步骤4.1中MFCCs特征数据使用步骤6.2的归一化方式做同样的处理；

步骤9.2：将步骤9.1中的特征数据使用步骤7.1的方式将数据分为训练数据和测试数据两类；

步骤9.3：使用步骤7.2的方式将特征数据分别进行标注分类；

6.如权利要求2～5任意一项所述的基于多模融合深度特征的移动设备源识别方法，其特征在于，步骤10具体包括：

使用步骤9.1中归一化处理后的特征数据和步骤9.4中的卷积神经网络提取深度MFCCs特征，将卷积神经网络最后一层softmax的输入值作为深度MFCCs特征。

7.如权利要求2～6任意一项所述的基于多模融合深度特征的移动设备源识别方法，其特征在于，步骤11具体包括：

步骤11.1：在步骤8.1和步骤10.1中通过使用卷积神经网络分别获得了深度GSV特征N₁(n₁,n₂,...n_i),N₂(n₁,n₂,...n_i)...N_n(n₁,n₂,...n_i)和深度MFCCs特征M₁(m₁,m₂,...m_j),M₂(m₁,m₂,...m_j)...M_n(m₁,m₂,...m_j)；将深度GSV特征和深度MFCCs特征进行融合得到多模态融合的深度特征D(D₁(n₁,...n_i,m₁,...m_j),D₂(n₁,...n_i,m₁,...m_j)...D_n(n₁,...n_i,m₁,...m_j))；

然后使用步骤5.2中归一化的方式对多模态融合的深度特征D做归一化处理，最终每个设备得到n个训练数据集，在融合过程注意将每个MFCCs特征和对应的GSV特征进行融合；

步骤12具体包括：

步骤12.1：残差网络的正向学习迭代过程为：F＝W₂σ(W₁x)，其中σ为激活函数，常使用Relu函数；

x_l+1＝x_l+F(x_l,W₁)；

x_l+2＝x_l+1+F(x_l+1,W_l+1)＝x_l+F(x_l,W_l)+F(x_l+1,W_l+1)；

残差网的递推关系式为：

步骤13具体包括：

步骤13.1：测试信号为不等长的语音数据，先对整个样本数据提取MFCCs特征。窗口大小选取256，帧移为32，取12维一阶特征、二阶特征和F0特征，最终得到39维信号；

步骤13.2：将测试信号的MFCCs特征按照步骤4.1中MFCCs特征维度大小分割为m个短MFCCs特征样本数据，因此原始的一个测试数据样本将被分割得到m个短样本；

步骤14具体包括：

步骤14.1：将步骤13.2得到的m个短MFCCs特征样本数据使用步骤6.2的方式做归一化处理；

步骤14.2：将步骤14.1归一化处理后的m个MFCCs特征样本数据输入到步骤9.4训练得到的基于MFCCs特征的卷积神经网络中提取深度MFCCs特征；

步骤15具体包括：

步骤15.1：将步骤13.2得到的m个短MFCCs特征样本数据输入到步骤2.1中的GMM-UBM模型中使用步骤5.1的方式训练特定的GMM模型；

步骤15.2：将步骤15.1中得到的GMM模型的均值参数提取出来作为GSV特征，方法同步骤6.1；

步骤16具体包括：

步骤16.1：将步骤15.2中得到的GSV特征使用步骤6.2的方式做归一化处理；

步骤16.2：将步骤16.1中归一化处理后的GSV特征输入到步骤7.3中得到的基于GSV特征的卷积神经网络中提取深度GSV特征，提取方式同步骤8.1；

步骤17具体包括：

步骤17.1：将步骤14.2中得到的深度MFCCs特征和步骤16.2中得到的深度GSV特征进行融合得到测试数据的m个深度融合特征短样本，融合方式同步骤11.1；

步骤17.2：对步骤17.1得到的m个深度融合特征短样本数据使用步骤6.2的方式做归一化处理；

步骤18具体包括：

步骤18.1：将步骤17.2中归一化处理后的m个深度融合特征短样本数据输入到步骤12.1中得到的深度残差网络中进行判决得到m个判决结果，因此每一个测试样本将得到m个判决结果r＝{r₁,r₂...r_m}；

步骤19具体包括：

步骤19.1：将步骤18.1中得到的m个判决结果采用投票法进行融合判决，选取每个样本出现最多的判决结果作为最终的分类结果，函数f表示取数量最多的值；

R＝f(r₁,r₂...r_m)。

8.一种实施权利要求1～7任意一项所述基于多模融合深度特征的移动设备源识别方法的基于多模融合深度特征的移动设备源识别系统。

9.一种终端，其特征在于，所述终端搭载实现权利要求1～7任意一项所述基于多模融合深度特征的移动设备源识别方法的处理器。

10.一种计算机可读存储介质，包括计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1-7任意一项所述的基于多模融合深度特征的移动设备源识别方法。