CN109378014A - 一种基于卷积神经网络的移动设备源识别方法及系统 - Google Patents

一种基于卷积神经网络的移动设备源识别方法及系统 Download PDF

Info

Publication number
CN109378014A
CN109378014A CN201811229837.8A CN201811229837A CN109378014A CN 109378014 A CN109378014 A CN 109378014A CN 201811229837 A CN201811229837 A CN 201811229837A CN 109378014 A CN109378014 A CN 109378014A
Authority
CN
China
Prior art keywords
training
model
gmm
convolutional neural
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811229837.8A
Other languages
English (en)
Inventor
王志锋
湛健
刘清堂
赵刚
田元
魏艳涛
姚璜
邓伟
夏丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Normal University
Central China Normal University
Original Assignee
Huazhong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Normal University filed Critical Huazhong Normal University
Priority to CN201811229837.8A priority Critical patent/CN109378014A/zh
Publication of CN109378014A publication Critical patent/CN109378014A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明属于语音取证技术领域,公开了一种基于卷积神经网络的移动设备源识别方法及系统,先提取训练语音片段的MFCC特征训练一个GMM‑UBM模型,然后再基于特定的带噪声的语音片段提取MFCC特征,进而调整GMM的参数,最后将提取到的特征用来训练卷积神经网络,达到自动识别分类的要求。本发明在训练GMM‑UBM模型时,根据语音数据音素和音调的特点对数据进行筛选,挑选出具有代表性的少量数据,即保证了模型的表征泛化性也降低了数据运算量,提高了建模了效率;首先训练一个GMM‑UBM模型,然后再用MAP自适应算法来调整GMM的参数,克服了样本量少,无法训练GMM模型的问题,同时加快了运算速度。

Description

一种基于卷积神经网络的移动设备源识别方法及系统
技术领域
本发明属于语音取证技术领域,尤其涉及一种基于卷积神经网络的移动设备源识别方法及系统。
背景技术
目前,业内常用的现有技术是这样的:
设备源识别是基于对录音设备信道估计的检测方法,近年来,随着信息技术发展,数字音频数据的来源变得十分方便,数字音频取证技术也日益受到广泛的关注,特别是在司法领域有着重要的应用需求。对设备信道的检测主要是基于设备源的噪声特征,噪声有加性噪声和乘积噪声即卷积噪声的区分,在语音产生过程中,信道中会伴随着产生卷积噪声,因此,卷积噪声可以作为对信道信息估计得依据,进而可以用来判断录音信息的来源。
而目前大多数技术都是先对语音信号进行预处理去噪、加窗、分帧、提取静音段,然后提取语音信号的深层特征,通常使用的是MFCC特征、LPCC特征等,这类特征需要能够很好的反应出设备的信道特征,再经过一系列的运算,例如求平均对数谱、RASTA滤波,最后输入到分类器训练模型、测试数据。常用的是分类器是SVM。
随着机器学习一系列的算法被提出,机器学习也日益成为人们心目中做分类识别的利器,从识别精度上来分析,已经远远超过了认为识别的效果,而且在数据处理能力和计算量上也大大优于传统方法。
综上所述,现有技术存在的问题是:
(1)目前对于特征信息的判决,常用的机器学习判决器是SVM,SVM判决器基于距离向量寻找到合适的超平面,然后对分布在不同空间的数据进行分类判决。在寻找这类超平面的过程中,需要到更高的维度去寻找超平面,因此给运算带来了很多的不便,降低了运算的速度,同时也降低了识别的精确度。
(2)目前对于移动设备源识别研究的数据集设备个数相对比较少,而在本方案中使用的设备源个数为21类,增加了本方案的技术难度。
(3)本方案中使用的特征是高斯超矢量,高斯超矢量是通过一系列的高斯模型提取到的特征数据,因此它对样本的表征性会更强,相较于传统的梅尔倒谱稀疏,线性预测倒谱系数的特征,其适用范围更广泛,精度更高。
解决上述技术问题的难度和意义:
难度在于,现有技术中,不能克服训练多元GMM模型需要大量数据的弊端。
卷积网络属于机器学习范畴里面的深度学习。近几年随着深度学习的发展,各种优良的激活函数被提出,网络结构的进一步优化也使得深度学习网络的性能进一步得到了提高,深度学习的神经网络更细致的提取到了特征的隐含表征信息,对数据的分类识别提供了一个很好的方法。相较于传统的机器学习算法如SVM,决策树等,卷积神经网络的性能将会更加优良,但是随之而来的数据运算量也会相对增加。
解决现有技术问题后,带来的意义为:
随着科技的发展,语音数据的来源越来越方便,给人们的生活带来了便利,但同时也给一些分子提供了可乘之机。在司法方面,语音数据作为证据显得越来越重要,但一些不法分子为了逃脱法律的惩罚,伪造、篡改语音数据以隐瞒真相,因此给办案人员带来很多的麻烦。本方案为解决语音数据来源取证问题提供了可执行高效的方案。
发明内容
针对现有技术存在的问题,本发明提供了一种基于卷积神经网络的移动设备源识别方法及系统。随着深度学习,神经网络的发展,神经网络模型能够在有限数据样本的情况下取得更好的效果,运算的速度也得到了有利的保证。
本发明是基于设备信息的高斯超矢量特征来对设备源进行识别分类,提取平高斯矢量过程中首先使用的是MFCC特征。其次,使用UBM-GMM模型作为基准对录音设备信道进行建模,然后用MAP算法作自适应调整,即加快了特征提取的速度,也提高了特征的表征特性,同时也降低了数据量,克服了训练多元GMM模型需要大量数据的弊端。
本发明是这样实现的,一种基于卷积神经网络的移动设备源识别方法,所述基于卷积神经网络的移动设备源识别方法包括:
提取训练语音片段的MFCC特征训练一个GMM-UBM模型;
再基于特定的带噪声的语音片段提取MFCC特征,进而调整GMM的参数;
将提取到的特征训练卷积神经网络,进行自动识别分类。
进一步,所述基于卷积神经网络的移动设备源识别方法具体包括:
步骤一:对训练语音信号预处理提取特征信息;
步骤二:利用训练的语音训练GMM-UBM模型;
步骤三:对目标语音信号预处理提取特征信息;
步骤四:计算目标手机语音信号特定的GMM模型;
步骤五:提取高斯分量;
步骤六:训练卷积神经网络并测试模型。
进一步,步骤一具体包括:
步骤1.1:对训练语音信号进行筛选;
步骤1.2:对训练的语音信号进行短时傅里叶变换;
步骤1.3:对步骤1.2中频域信号提取MFCCs特征;
步骤二具体包括;
步骤2.1:用步骤1.3中得到的MFCCs特征训练GMM-UBM模型;
步骤三具体包括:
步骤3.1:对目标语音进行短时傅里叶变换;
步骤3.2:对步骤3.1中频域信号提取MFCCs特征;
步骤四具体包括:
步骤4.1:将步骤3.2中得到的MFCCs特征通过步骤1.3所训练好的GMM模型和MAP算法调整GMM模型参数;
步骤五具体包括:
步骤5.1:把步骤4.1中训练好的每一个GMM模型的均值参数提取出来作为特征信号;
步骤六具体包括:
步骤6.1:将特征数据分为训练数据和测试数据两类;
步骤6.2:将特征数据分进行标注分类,标注使用one-hot编码;
步骤6.3:将特征数据进行预处理;
步骤6.4:将训练数据用来训练构建好的卷积神经网络;
步骤6.5:使用测试数据对已训练好的网络进行测试评估。
进一步,步骤一进一步包括:
对训练的语音信号加窗分帧进行预处理,然后进行短时傅里叶变换;加窗的窗长设为256,帧移为128,然后进行傅里叶变换;
对中频域信号提取MFCCs特征,首先提取语音信号的MFCC特征,选择12个系数再加上F0的能量,同时保留一阶和二阶的系数,总共39维数据;
步骤二进一步包括:先训练最基本的录音GMM模型作为通用背景模型UBM;一个具有M个高斯,特征数据为D维的GMM模型表示为如下形式:
式中x为输入的N*D维的特征矢量。λ={wi,ui,∑i},wi为高斯混合模型的权重,且满足最终得到的参数大小为D*1维。ui为每个高斯分量的均值,大小为M*D维;Σi为每个高斯分量的方差,大小为M*D维;pi(x)为每个高斯模型的概率密度,且满足
(x-ui)-1为(x-ui)的转置,|Σi|和(Σi)-1为Σi的行列式和逆矩阵,使用EM算法训练GMM-UBM模型。
进一步,步骤四进一步包括:混合高斯模型的均值矩阵的调整,具体有:
Ei(x)=ui
上式中γ用来调整参数满足是用来调整参数的自适应系数,且其中τ也为自适应系数。
步骤五进一步包括:提取高斯分量;
将经过MAP自适应调整后的混合高斯模型的均值参数提取出来作为语音信号的特征数据。经过MAP自适应训练后得到的GMM模型有三个,均值、方差和权值,而均值矩阵的大小D*L,D为高斯数量,L为帧数,最终需要将均值矩阵转换为{N1,N2,N3……}的一位矩阵;
均值参数提取出来后,需要对数据进行归一化,采用标准差标准化,如下式所示,其中u为所有样本数据的均值,σ为所有样本数据的标准差。
本发明的另一目的在提供一种基于卷积神经网络的移动设备源识别方法。
本发明的另一目的在提供一种终端,所述终端至少搭载实现所述基于卷积神经网络的移动设备源识别方法的控制器。
本发明的另一目的在提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于卷积神经网络的移动设备源识别方法。
本发明的另一目的在提供一种基于卷积神经网络的移动设备源识别控制系统包括:
特征信息提取模块,用于对训练语音信号预处理提取特征信息;
GMM-UBM模型训练模块,用于利用训练的语音训练GMM-UBM模型;
目标语音信号特征信息提取模块,用于对目标语音信号预处理提取特征信息;
GMM模型计算模块,用于计算目标手机语音信号特定的GMM模型;
高斯分量提取模块,用于提取高斯分量;
卷积神经网络训练模块,用于训练卷积神经网络并测试模型。
本发明的另一目的在提供一种语音取证设备,所述语音取证设备至少搭载所述的基于卷积神经网络的移动设备源识别控制系统。
综上所述,本发明的优点及积极效果为:
(1)本发明在训练GMM-UBM模型时,根据语音数据音素和音调的特点对数据进行筛选,挑选出具有代表性的少量数据,即保证了模型的表征泛化性也降低了数据运算量,提高了建模了效率。
(2)本发明首先训练一个GMM-UBM模型,然后再用MAP自适应算法来调整GMM的参数,克服了样本量少,无法训练GMM模型的问题,同时加快了运算速度。
(3)本发明通过卷积神经网络实现识别的效果,提高了其识别的准确率,在21个设备源的闭集实验里,最终测试取得了89.1%的识别精度,而基于SVM移动设备源识别的精度只有79%。
(4)目前很多技术方法为了提高精确度,使用语音的非语音段(没有说话的语音段)提取特征信息然后进行分类识别,非语音段没有其它声音的干扰,只保留了设备噪声,所以对设备源的表征性更高,但是在实际的运用过程,并没有很多的非语音段可以使用。在本方案中使用整个语音段提取特征,提高了泛化性。
附图说明
图1是本发明实施例提供的基于卷积神经网络的移动设备源识别方法流程图。
图2是本发明实施例提供的基于卷积神经网络的移动设备源识别控制系统示意图。
图中:1、特征信息提取模块;2、GMM-UBM模型训练模块;3、目标语音信号特征信息提取模块;4、GMM模型计算模块;5、高斯分量提取模块;6、卷积神经网络训练模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明是基于GMM-UBM通用背景模型和卷积神经网络的识别方法。先提取训练语音片段的MFCC特征训练一个GMM-UBM模型,然后再基于特定的带噪声的语音片段提取MFCC特征,进而调整GMM的参数。最后将提取到的特征用来训练卷积神经网络,达到自动识别分类的要求。
如图1,本发明实施例提供的基于卷积神经网络的移动设备源识别方法,具体包括:
S101:对训练语音信号预处理提取特征信息;
S102:利用训练的语音训练GMM-UBM模型;
S103:对目标语音信号预处理提取特征信息;
S104:计算目标手机语音信号特定的GMM模型;
S105:提取高斯分量;
S106:训练卷积神经网络并测试模型。
本发明实施例提供的基于卷积神经网络的移动设备源识别方法,具体包括:
步骤1:对训练语音信号预处理提取特征信息;
步骤1.1:对训练的语音信号加窗分帧进行预处理,然后进行短时傅里叶变换。为了控制数据量,加窗的窗长设为256,帧移为128,然后进行傅里叶变换;
步骤1.2:对步骤1.1中频域信号提取MFCCs特征,首先提取语音信号的MFCC特征,选择12个系数再加上F0的能量,同时保留一阶和二阶的系数,所以总共39维数据。
步骤2:利用训练的语音训练GMM-UBM模型;
步骤2.1:在上文中已说明6min的语音数据只能用于训练少于64个高斯的GMM模型,而在本发明中使用的是128个高斯树,所以样本量远远不够,因此要先训练一个通用背景模型。高斯混合模型(GMM)是通过多个加权后的高斯模型进行组合的一个概率分布模型。在自然情况下,数据的分布通常是按照高斯模型分布的,但是,一个高斯模型往往无法拟合一个多维的数据,因此可以使用多个高斯进行加权的方式来表示一个数据样本的概率分布,当数据类型相同时,概率模型的样式也会大致相同,整体反应在模型的均值、方差和权值的参数上。因此使用GMM模型可以反应某一类数据的概率分布,进而用来进行特征的识别分类,当特征提取的适当既可以用来进行录音的设备源识别。但是训练一个GMM模型需要大量的数据,在现实情况下无法直接获取大量的数据,所以可以先训练一个最基本的录音GMM模型作为通用背景模型(UBM)。一个具有M个高斯,特征数据为D维的GMM模型可以表示为如下形式:
式中x为输入的N*D维的特征矢量。λ={wi,ui,∑i},wi为高斯混合模型的权重,且满足最终得到的参数大小为D*1维。ui为每个高斯分量的均值,大小为M*D维。Σi为每个高斯分量的方差,大小为M*D维。pi(x)为每个高斯模型的概率密度,且满足
(x-ui)-1为(x-ui)的转置,|Σi|和(Σi)-1为Σi的行列式和逆矩阵。在实际的运算过程中,为了减少参数量,提高训练的速率,通常将Σi使用对角化的协方差矩阵,通过实验证明,对角化后的协方差矩阵就足以近似表示了。
训练过程使用EM算法,详细步骤为:
1.初始化wi,uii,并且初始化对数似然函数。
2.使用当前参数估计概率
3.更新当前的参数
4.计算对数似然函数
比较对数似然函数或者限定条件,如果不满足条件,跳转到步骤2继续循环直到满足条件为止。
步骤3:对目标语音信号预处理提取特征信息;
步骤3.1:对手机语音信号加窗、分帧,进行预处理,然后进行短时傅里叶变换。预处理方式和步骤1的同步,窗长设为256,帧移为128。然后进行短时傅里叶变换;
步骤3.2:对步骤3.1中频域信号提取MFCCs特征,参数选取同步骤1.2;
步骤4:计算目标手机语音信号特定的GMM模型;
步骤4.1:GMM-UBM训练好后只需要在原来的通用模型的基础上进行微调整,因为通用背景模型已经反应了录音设备的最基本的语音信息,对于目标设备,只需要使用少量的特征进行训练一个可以反映出每个模型之间的独特的相对差距就可以了。在这个过程中需要用到MAP(maximum a posteriori)最大后验概率的算法进行调整。
但是在研究中发现,权值和方差矩阵对混合高斯模型的影响并不是很大,最关键的是混合高斯模型的均值矩阵,因此为了提高训练的效率,在应用过程中只考虑对均值矩阵的调整。
Ei(x)=ui
上式中γ用来调整参数满足是用来调整参数的自适应系数,且其中τ也为自适应系数。
步骤5:提取高斯分量;
步骤5.1:将经过MAP自适应调整后的混合高斯模型的均值参数提取出来作为语音信号的特征数据。经过MAP自适应训练后得到的GMM模型有三个,均值、方差和权值,而均值矩阵的大小D*L,D为高斯数量,L为帧数,最终需要将均值矩阵转换为{N1,N2,N3……}的一位矩阵。
步骤5.2:均值参数提取出来后还不可以直接使用,需要对数据进行归一化,本系统采用标准差标准化,如下式所示,其中u为所有样本数据的均值,σ为所有样本数据的标准差。
步骤6:训练卷积神经网络并测试模型;
步骤6.1:将特征数据分为训练数据和测试数据两类,训练数据又分为训练样本和验证样本,训练样本用来训练卷积神经网络模型,然后用验证数据检验模型的好坏,同时调整网络模型的参数,最后的测试数据集就用来测试最终深度自编码模型的好坏;
步骤6.2:将特征数据集进行one-hot编码分类,在分类模型中,最后做预测时使用的是交叉熵的方式,因此计算的是概率,使用每一个编码方式来表示一个类别将很方便的进行自动识别达到分类的目的,而one-hot编码对于每一个类别热编码只有一位是1其它为都使用0进行标注;
步骤6.3:对训练数据预处理,使用0填充的方式将特征数据构建成符合CNN模型的方形数据大小,原始数据为128*39=4992填充为5041然后变为71*71的方阵。
步骤6.4:将训练数据用来训练构建好的卷积神经网络;
卷积神经网络是一个基于卷积的深度学习神经网络。相较于全连接神经网络在参数数量上大大降低,使得神经网络在运行的速率上大大提高,不管是训练还是检验都更有效率。但是,神经网络从输入层到输出层的每一层传播中,都是通过对原数据特征进行数据的高层提取(特征的深度提取)得到的结果,卷积层相对于上一层数据而言,虽然减小了数据的大小,却增加了通道数量,是对输入数据特征的深层次提取,他通过对原数据的每一小块进行更加深入的分析从而得到了抽象层度更高的特征。
在卷积神经网络中包含输入层;卷积层;池化层;全连接层;输出层。
(一)输入层(或池化层)到卷积层
不管输入层还是池化层,在传向卷积层的过程中,都是一个对特征局部区域进行高度采样,增加通道数的过程。设通过过滤器将一个大小为m*n*k(其中k为通道数,n*m也为二维卷积核大小)的特征数据传递到卷积层形成一个节点:
其中i表示卷积层第i个通道,k′表示在输入层(或池化层)k个通道中与该层卷积层相关的k′个通道(k′≤k),表示卷积层第i所需的卷积核,它有k′个卷积核矩阵每个卷积核矩阵的大小为n*m。输入层(或池化层)的第j个输入(取决于输入层或池化层的值以及步长)。g(i,j)表示第i个通道的第j个值得具体值。
(二)卷积层到池化层
池化层是为了减少参数的量而进行的相关采样操作。例如在一个下采样的例子中,满足如下关系:
其中表示对l-1层池化后的第j层特征映射,而在LeNet-5模型中,池化层相关参数得到了特殊化,是系数为1的线性函数,所以池化过程就变得相对简单只有这样的池化操作。
(三)全连接到输出层
该层主要实现将输出结果进行分类或者归并的过程,在LeNet-5模型中为一个分类问题,该层是经过一层Softmax层形成一个和为1的分布列,通过反向传播调参形成长度为10的one-hot向量由此来判断分类情况。
在本系统中,特征数据大小为71*71,构建的网络为8层,首先对71*71的数据取5*5的卷积核进行卷积变为67*67*6的大小,第二步取2*2的池化核进行池化变为34*34*6的大小,第三步取5*5的卷积核进行卷积变为30*30*18,第四步取2*2的池化核池化变为15*15*18,第五步取5*5的卷积核进行卷积变为11*11*54,第六步取2*2的池化核池化变为6*6*54,第七步取6*6的卷积核进行卷积变为540个结点的全连接层,最后经过Softmax输出为21维的概率数据。
步骤6.5:使用测试数据对已训练好的网络进行测试评估。
在模型训练好后,希望能够知道模型的好坏,因此需要对这个模型做测试。为了避免因参与网络结构训练而对模型最终的精度有影响,所以使用未参与训练的额外的数据对模型进行测试。
如图2所示,本发明实施例提供的基于卷积神经网络的移动设备源识别控制系统包括:
特征信息提取模块1,用于对训练语音信号预处理提取特征信息;
GMM-UBM模型训练模块2,用于利用训练的语音训练GMM-UBM模型;
目标语音信号特征信息提取模块3,用于对目标语音信号预处理提取特征信息;
GMM模型计算模块4,用于计算目标手机语音信号特定的GMM模型;
高斯分量提取模块5,用于提取高斯分量;
卷积神经网络训练模块6,用于训练卷积神经网络并测试模型。
下面结合实验对本发明作进一步描述。
该实验将本发明所述方法使用TIMIT和MOBIPHONE数据库,UBM训练阶段,选取TIMIT数据库的所有训练数据提取MFCC特征训练GMM模型,以256为帧长、帧移128提取12阶MFCC参数加上一阶、二阶和零点参数,归一化之后训练含128个高斯分量的通用背景模型UBM。
GMM模型调整阶段,选取MOBIPHONE数据库训练集的21个设备(每个设备选取96个语音样本)的数据集,同样以256为帧长、帧移128提取12阶MFCC参数加上一阶、二阶和零点参数,将该MFCC特征分别用于训练GMM-UBM模型,得到21个GMM模型,将21个GMM模型的均值提取出来即得到训练集的高斯超矢量。测试集以同样方式操作。
神经网络训练阶段,MOBIPHONE训练集得到的21*96个高斯超矢量作为训练集,同时采用one-hot编码形式对21类数据进行编码打标,训练CNN神经网络,然后将测试集数据用于检测评估。
本实验中分别构建了八层网络(四个卷积层、三个池化层和一个全连接层)。原始数据0填充为71*71,第一隐层5*5卷积核步长为1通道数变为6,维度为67*67*6;第二隐层2*2池化核,池化后维度为34*34*6;第三隐层5*5卷积核步长为1通道数由6变为18,维度为30*30*18;第四隐层2*2池化核,池化后维度为15*15*18;第五隐层5*5卷积核步长为1通道数由18变为54,维度为11*11*54;第六隐层2*2池化核,池化后维度为6*6*54;第七隐层6*6卷积核步长为1通道数由54变为540;第八层通过softmax输出21个分类结果。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于卷积神经网络的移动设备源识别方法,其特征在于,所述基于卷积神经网络的移动设备源识别方法包括:
提取训练语音片段的MFCC特征训练GMM-UBM模型;
再基于特定的带噪声的语音片段提取MFCC特征,调整GMM的参数;
将提取到的特征训练卷积神经网络,进行自动识别分类。
2.如权利要求1所述的基于卷积神经网络的移动设备源识别方法,其特征在于,所述基于卷积神经网络的移动设备源识别方法具体包括:
步骤一:对训练语音信号预处理提取特征信息;
步骤二:利用训练的语音训练GMM-UBM模型;
步骤三:对目标语音信号预处理提取特征信息;
步骤四:计算目标手机语音信号特定的GMM模型;
步骤五:提取高斯分量;
步骤六:训练卷积神经网络并测试模型。
3.如权利要求2所述的基于卷积神经网络的移动设备源识别方法,其特征在于,步骤一具体包括:
步骤1.1:对训练语音信号进行筛选;
步骤1.2:对训练的语音信号进行短时傅里叶变换;
步骤1.3:对步骤1.2中频域信号提取MFCCs特征;
步骤二具体包括;
步骤2.1:用步骤1.3中得到的MFCCs特征训练GMM-UBM模型;
步骤三具体包括:
步骤3.1:对目标语音进行短时傅里叶变换;
步骤3.2:对步骤3.1中频域信号提取MFCCs特征;
步骤四具体包括:
步骤4.1:将步骤3.2中得到的MFCCs特征通过步骤1.3所训练好的GMM模型和MAP算法调整GMM模型参数;
步骤五具体包括:
步骤5.1:把步骤4.1中训练好的每一个GMM模型的均值参数提取出来作为特征信号;
步骤六具体包括:
步骤6.1:将特征数据分为训练数据和测试数据两类;
步骤6.2:将特征数据分进行标注分类,标注使用one-hot编码;
步骤6.3:将特征数据进行预处理;
步骤6.4:将训练数据用来训练构建好的卷积神经网络;
步骤6.5:使用测试数据对已训练好的网络进行测试评估。
4.如权利要求3所述的基于卷积神经网络的移动设备源识别方法,其特征在于,步骤一进一步包括:
对训练的语音信号加窗分帧进行预处理,然后进行短时傅里叶变换;加窗的窗长设为256,帧移为128,然后进行傅里叶变换;
对中频域信号提取MFCCs特征,首先提取语音信号的MFCC特征,选择12个系数再加上F0的能量,同时保留一阶和二阶的系数,总共39维数据;
步骤二进一步包括:先训练最基本的录音GMM模型作为通用背景模型UBM;一个具有M个高斯,特征数据为D维的GMM模型表示为如下形式:
式中x为输入的N*D维的特征矢量。λ={wi,ui,∑i},wi为高斯混合模型的权重,且满足最终得到的参数大小为D*1维。ui为每个高斯分量的均值,大小为M*D维;Σi为每个高斯分量的方差,大小为M*D维;Pi(x)为每个高斯模型的概率密度,且满足
(x-ui)-1为(x-ui)的转置,|Σi|和(Σi)-1为Σi的行列式和逆矩阵,使用EM算法训练GMM-UBM模型。
5.如权利要求3所述的基于卷积神经网络的移动设备源识别方法,其特征在于,步骤四进一步包括:混合高斯模型的均值矩阵的调整,具体有:
Ei(x)=ui
上式中γ用来调整参数满足是用来调整参数的自适应系数,且其中τ也为自适应系数;
步骤五进一步包括:提取高斯分量;
将经过MAP自适应调整后的混合高斯模型的均值参数提取出来作为语音信号的特征数据。经过MAP自适应训练后得到的GMM模型有三个,均值、方差和权值,而均值矩阵的大小D*L,D为高斯数量,L为帧数,最终需要将均值矩阵转换为{N1,N2,N3……}的一位矩阵;
均值参数提取出来后,需要对数据进行归一化,采用标准差标准化,如下式所示,其中u为所有样本数据的均值,σ为所有样本数据的标准差;
6.一种基于卷积神经网络的移动设备源识别计算机程序,其特征在于,所述基于卷积神经网络的移动设备源识别计算机程序实现权利要求1~5任意一项所述的基于卷积神经网络的移动设备源识别方法。
7.一种终端,其特征在于,所述终端至少搭载实现权利要求1~5任意一项所述基于卷积神经网络的移动设备源识别方法的控制器。
8.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-5任意一项所述的基于卷积神经网络的移动设备源识别方法。
9.一种实现权利要求1所述的基于卷积神经网络的移动设备源识别方法的基于卷积神经网络的移动设备源识别控制系统,其特征在于,所述基于卷积神经网络的移动设备源识别控制系统包括:
特征信息提取模块,用于对训练语音信号预处理提取特征信息;
GMM-UBM模型训练模块,用于利用训练的语音训练GMM-UBM模型;
目标语音信号特征信息提取模块,用于对目标语音信号预处理提取特征信息;
GMM模型计算模块,用于计算目标手机语音信号特定的GMM模型;
高斯分量提取模块,用于提取高斯分量;
卷积神经网络训练模块,用于训练卷积神经网络并测试模型。
10.一种语音取证设备,其特征在于,所述语音取证设备至少搭载权利要求9所述的基于卷积神经网络的移动设备源识别控制系统。
CN201811229837.8A 2018-10-22 2018-10-22 一种基于卷积神经网络的移动设备源识别方法及系统 Pending CN109378014A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811229837.8A CN109378014A (zh) 2018-10-22 2018-10-22 一种基于卷积神经网络的移动设备源识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811229837.8A CN109378014A (zh) 2018-10-22 2018-10-22 一种基于卷积神经网络的移动设备源识别方法及系统

Publications (1)

Publication Number Publication Date
CN109378014A true CN109378014A (zh) 2019-02-22

Family

ID=65400739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811229837.8A Pending CN109378014A (zh) 2018-10-22 2018-10-22 一种基于卷积神经网络的移动设备源识别方法及系统

Country Status (1)

Country Link
CN (1) CN109378014A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047512A (zh) * 2019-04-25 2019-07-23 广东工业大学 一种环境声音分类方法、系统及相关装置
CN110046708A (zh) * 2019-04-22 2019-07-23 武汉众邦银行股份有限公司 一种基于无监督深度学习算法的信用评分方法
CN110136746A (zh) * 2019-03-26 2019-08-16 宁波大学 一种基于融合特征的加性噪声环境下手机来源识别方法
CN110534101A (zh) * 2019-08-27 2019-12-03 华中师范大学 一种基于多模融合深度特征的移动设备源识别方法及系统
CN111508524A (zh) * 2020-03-05 2020-08-07 合肥工业大学 语音来源设备的识别方法和系统
CN112599135A (zh) * 2020-12-15 2021-04-02 华中师范大学 一种教学模式分析方法及系统
CN112820318A (zh) * 2020-12-31 2021-05-18 西安合谱声学科技有限公司 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833951A (zh) * 2010-03-04 2010-09-15 清华大学 用于说话人识别的多背景模型建立方法
CN102664011A (zh) * 2012-05-17 2012-09-12 吉林大学 一种快速说话人识别方法
US20160034811A1 (en) * 2014-07-31 2016-02-04 Apple Inc. Efficient generation of complementary acoustic models for performing automatic speech recognition system combination
CN108305619A (zh) * 2017-03-10 2018-07-20 腾讯科技(深圳)有限公司 语音数据集训练方法和装置
CN108417207A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 一种深度混合生成网络自适应方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833951A (zh) * 2010-03-04 2010-09-15 清华大学 用于说话人识别的多背景模型建立方法
CN102664011A (zh) * 2012-05-17 2012-09-12 吉林大学 一种快速说话人识别方法
US20160034811A1 (en) * 2014-07-31 2016-02-04 Apple Inc. Efficient generation of complementary acoustic models for performing automatic speech recognition system combination
CN108305619A (zh) * 2017-03-10 2018-07-20 腾讯科技(深圳)有限公司 语音数据集训练方法和装置
CN108417207A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 一种深度混合生成网络自适应方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李慧慧: "基于深度学习的短语音说话人识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李敬阳,吴明辉,王莉,王晓迪: "一种基于GMM-DNN的说话人确认方法", 《计算机应用与软件》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136746A (zh) * 2019-03-26 2019-08-16 宁波大学 一种基于融合特征的加性噪声环境下手机来源识别方法
CN110136746B (zh) * 2019-03-26 2021-11-09 宁波大学 一种基于融合特征的加性噪声环境下手机来源识别方法
CN110046708A (zh) * 2019-04-22 2019-07-23 武汉众邦银行股份有限公司 一种基于无监督深度学习算法的信用评分方法
CN110047512A (zh) * 2019-04-25 2019-07-23 广东工业大学 一种环境声音分类方法、系统及相关装置
CN110534101A (zh) * 2019-08-27 2019-12-03 华中师范大学 一种基于多模融合深度特征的移动设备源识别方法及系统
CN110534101B (zh) * 2019-08-27 2022-02-22 华中师范大学 一种基于多模融合深度特征的移动设备源识别方法及系统
CN111508524A (zh) * 2020-03-05 2020-08-07 合肥工业大学 语音来源设备的识别方法和系统
CN111508524B (zh) * 2020-03-05 2023-02-21 合肥工业大学 语音来源设备的识别方法和系统
CN112599135A (zh) * 2020-12-15 2021-04-02 华中师范大学 一种教学模式分析方法及系统
CN112820318A (zh) * 2020-12-31 2021-05-18 西安合谱声学科技有限公司 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统

Similar Documents

Publication Publication Date Title
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN109378014A (zh) 一种基于卷积神经网络的移动设备源识别方法及系统
CN107610707B (zh) 一种声纹识别方法及装置
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
CN108831443B (zh) 一种基于堆叠自编码网络的移动录音设备源识别方法
CN107564513A (zh) 语音识别方法及装置
CN109147817B (zh) 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法
CN110310647A (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
CN113327626A (zh) 语音降噪方法、装置、设备及存储介质
CN110534101A (zh) 一种基于多模融合深度特征的移动设备源识别方法及系统
CN109243429B (zh) 一种语音建模方法及装置
CN108198561A (zh) 一种基于卷积神经网络的翻录语音检测方法
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN106991312B (zh) 基于声纹识别的互联网反欺诈认证方法
Helén et al. Query by example of audio signals using Euclidean distance between Gaussian mixture models
CN111048097B (zh) 一种基于3d卷积的孪生网络声纹识别方法
CN110728991B (zh) 一种改进的录音设备识别算法
CN115083422B (zh) 语音溯源取证方法及装置、设备及存储介质
CN114613387A (zh) 语音分离方法、装置、电子设备与存储介质
CN116153337B (zh) 合成语音溯源取证方法及装置、电子设备及存储介质
CN117976006A (zh) 音频处理方法、装置、计算机设备和存储介质
CN108694950B (zh) 一种基于深度混合模型的说话人确认方法
Herrera-Camacho et al. Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE
Reshma et al. A survey on speech emotion recognition
CN114937454A (zh) 一种声纹识别防语音合成攻击的方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190222