CN110534101A - 一种基于多模融合深度特征的移动设备源识别方法及系统 - Google Patents
一种基于多模融合深度特征的移动设备源识别方法及系统 Download PDFInfo
- Publication number
- CN110534101A CN110534101A CN201910797827.2A CN201910797827A CN110534101A CN 110534101 A CN110534101 A CN 110534101A CN 201910797827 A CN201910797827 A CN 201910797827A CN 110534101 A CN110534101 A CN 110534101A
- Authority
- CN
- China
- Prior art keywords
- feature
- depth
- mfccs
- characteristic
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 111
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000012360 testing method Methods 0.000 claims abstract description 43
- 239000000284 extract Substances 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000010354 integration Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 10
- 238000005267 amalgamation Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 238000003709 image segmentation Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 241001269238 Data Species 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000006978 adaptation Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims description 2
- 230000001351 cycling effect Effects 0.000 claims description 2
- 238000012804 iterative process Methods 0.000 claims description 2
- 238000012797 qualification Methods 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 230000001360 synchronised effect Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000012512 characterization method Methods 0.000 abstract description 7
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000002474 experimental method Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 description 2
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 210000000299 nuclear matrix Anatomy 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明属于语音取证技术领域,公开了一种基于多模融合深度特征的移动设备源识别方法及系统,首先提取测试数据MFCCs和GSV特征,将特征对应分割为多路,然后分别训练CNN并融合得到融合深度特征,随后使用训练好的深度残差网络进行判决,最后将各路短样本的判决结果采用投票法联合决策。本发明在训练GMM‑UBM模型时,根据语音数据音素和音调的特点对数据进行筛选,挑选出具有代表性的少量数据,即保证了模型的表征泛化性也降低了数据运算量,提高了建模了效率;本发明使用深度神经网络做有监督的训练提取深度特征,剔除特征数据中的冗余和干扰信息,精简了特征数据,提高了数据的表征性,也降低了数据的维度简化了计算量。
Description
技术领域
本发明属于语音取证技术领域,尤其涉及一种基于多模融合深度特征的移 动设备源识别方法及系统。
背景技术
目前,最接近的现有技术:
随着数字媒体技术的飞速发展,各类电子产品如计算机、数码相机、手机、 打印机、扫描仪等也逐渐成为人们日常生活中不可或缺的设备,由此也产生了 大量的媒体文件。与此同时,各种专业的数字媒体编辑软件在人们的诉求下也 逐步走向便捷化。这些编辑软件在给人们的生活带来便捷与欢乐的同时,也引 入了许多具有挑战性的问题。一些不法份子通过各种录音设备和编辑软件,偷 录、伪造出大量的语音数据,由此引发的一系列问题严重影响了司法公正和社 会秩序,对社会造成了非常恶劣的影响。因此对数字媒体文件做出完整性、真 实性的判断显得尤为重要。
目前大多数技术先对语音信号进行预处理去噪、加窗、分帧、提取静音段, 随后在静音段中提取出能够反映出设备信道指纹信息的特征,然后使用单一的 特征数据构建各种机器学习模型或者深度神经网络,最后使用构建好的模型做 出最终的决策。
随着深度学习一系列的算法被提出,深度学习也日益成为人们心目中做分 类识别的利器,而且在数据处理能力和计算量上也大大优于传统方法。但是, 深度神经网络的构建需要大量的数据,对一些实际问题有了很大的约束性。另 外,单一的特征并不能完整的反应出设备的机器指纹信息,而且提取到的原始 特征数据里会有大量的冗余信息和干扰信息,如果可以使用算法模型剔除冗余、 干扰信息,将极大程度的精简特征数据。同时采用多步判决的方式将极大的提 高判决精度,提高了算法的鲁棒性。
综上所述,现有技术存在的问题是:
(1)传统的移动设备源识别方法的特征的表征性进一步挖掘、提高效率差; 而且传统的判决模型相对直观,无法通过特征信息对移动设备进行充分的表征 建模;传统的测试判决方式是基于单一判决的,识别精度低。
(2)前大多数的方法直接将原始的特征数据用于构建算法模型,由于原始 的特征数据存在大量的冗余和干扰信息,因此使得在构建算法模型时加大了计 算量,也使得最终的算法模型不够精确。
(3)目前大多数的方法使用单一的特征数据对设备源特征进行建模。单一特 征存在很大的局限性,因此模型的构建不够准确,多特征的融合将克服单一特 征的局限性。
(4)目前大多数的方法使用单一的决策模型对设备源特征进行建模然后进行 单一决策。单一决策存在很大的不稳定性,因此模型的构建不够准确,多步判 决的方式极大的提高了算法的鲁棒性。
解决上述技术问题的难度:
如何在尽量少的损失有用信息的情况下剔除原始特征数据的冗余信息和干 扰数据,实现特征数据的精简;使用哪几种特征数据进行融合可以提高特征的 表征性;如何将多种特征数据进行融合使得最终的特征数据表征性增强;如何 将多路判决的方式运用到决策上面;如何在尽量小的损失样本信息的前提下对 不等长样本数据进行决策识别。
解决上述技术问题的意义:
随着科技的发展,语音数据的来源越来越方便,给人们的生活带来了便利, 但同时也给一些分子提供了可乘之机。在司法方面,语音数据作为证据显得越 来越重要,但一些伪造、篡改语音数据隐瞒了真相,因此给语音识别带来很多 的麻烦。本发明为解决语音数据来源取证问题提供了可执行高效的方案。
发明内容
针对现有技术存在的问题,本发明提供了一种基于多模融合深度特征的移 动设备源识别方法及系统。
本发明是这样实现的,一种基于多模融合深度特征的移动设备源识别方法 提出了新的特征提取方式拟提高特征的表征性:传统的移动设备源识别方法的 特征的表征性可以进一步挖掘、提高,基于此本方法提出了基于MFCCs和GSV的多 模融合深度特征。
本发明提出使用深度残差网的方法作为设备特征的表征建模方法拟提高模 型判决决策的精度:传统的判决模型相对直观,无法通过特征信息对移动设备 进行充分的表征建模,因此本方法提出了基于残差网的模型判决方法。
本发明针对测试验证的方法提出了多路联合判决的方式拟提高判决的精 度:测试首先提取测试数据MFCCs和GSV特征,将特征对应分割为多路,然后分别 训练CNN并融合得到融合深度特征,随后使用训练好的深度残差网络进行判决, 最后将各路短样本的判决结果采用投票法联合决策。
进一步,基于多模融合深度特征的移动设备源识别方法通过构建深度神经 网络提取深度特征,剔除冗余和干扰信息,然后将深度特征进行融合,提高特 征数据表征性,克服单一特征数据在表征上的局限性。然后将不等长的测试数 据分割为多个短样本数据分别进行决策,最后进行融合判决。
具体包括以下步骤:
步骤一:对大量无关设备的语音信号预处理提取特征信息;
步骤1.1:对训练语音信号进行筛选;
步骤1.2:对训练的语音信号进行短时傅里叶变换;
步骤1.3:对步骤1.2中频域信号提取MFCCs特征;
步骤二:利用训练的语音信号训练GMM-UBM模型;
步骤2.1:用步骤1.3中得到的MFCCs特征训练GMM-UBM模型;
步骤三:对目标语音训练信号预处理提取MFCCs特征信息;
步骤3.1:将目标语音单个类别的多个训练样本融合为一个长样本;
步骤3.2:计算目标语音长样本的短时傅里叶变换值;
步骤3.3:对步骤3.1中频域信号提取MFCCs特征;
步骤四:将目标语音训练信号的MFCCs特征数据分割为n个短样本;
步骤4.1:将步骤3.3中得到的MFCCs特征分割为多个合适长度的短MFCCs特征 作为单个类别的训练样本数据;
步骤五:计算各个短样本信号特定的GMM模型;
步骤5.1:将步骤4.1中得到的短MFCCs特征通过步骤2.1所训练好的GMM模型 和MAP算法调整GMM模型参数;
步骤六:提取高斯超矢量;
步骤6.1:将步骤5.1中训练好的每一个GMM模型的均值参数提取出来作为特 征信号;
步骤6.2:将步骤6.1中提取得到的特性信号做归一化处理;
步骤七:使用高斯超矢量构建基于GSV特征的卷积神经网络;
步骤7.1:将步骤6.2中特征数据分为训练数据和测试数据两类;
步骤7.2:将特征数据分进行标注分类,标注使用one-hot编码;
步骤7.3:将GSV特征的训练数据用来训练构建基于GSV特征的卷积神经网 络;
步骤八:使用基于GSV特征的卷积神经网络提取深度GSV特征;
步骤8.1:使用步骤6.2中的GSV特征和步骤7.3中的卷积神经网络提取深度 GSV特征;
步骤九:使用短样本MFCCs特征构建基于MFCCs特征的卷积神经网络;
步骤9.1:将步骤4.1中MFCCs特征数据做归一化处理;
步骤9.2:将步骤9.1中的特征数据分为训练数据和测试数据两类;
步骤9.3:将特征数据分别进行标注分类,标注使用one-hot编码;
步骤9.4:将MFCCs特征的训练数据用来训练构建基于MFCCs特征的卷积神经 网络;
步骤十:使用基于MFCCs特征的卷积神经网络提取深度MFCCs特征;
步骤10.1:使用步骤9.1中归一化处理后的特征数据和步骤9.4中的卷积神 经网络提取深度MFCCs特征;
步骤十一:将深度GSV特征和深度MFCCs特征进行融合得到多模态融合深度特 征,构建为训练数据集;
步骤11.1:将步骤8.1中的深度GSV特征和步骤10.1中的深度MFCCs特征进行 融合得到n个融合深度特征;
步骤十二:使用训练数据集构建深度残差网络。
步骤12.1:使用步骤11.1中的融合深度特征训练构建深度残差网络;
步骤十三:提取测试语音信号的MFCCs特征并将测试语音信号的单个MFCCs特 征分割为m个短数据样本。
步骤13.1:提取测试信号的MFCCs特征;
步骤13.2:将测试信号的MFCCs特征按照步骤4.1中MFCCs特征长度分割为m 个短MFCCs特征样本数据;
步骤十四:使用短样本MFCCs特征和基于MFCCs特征的卷积神经网络提取深度MFCCs特征。
步骤14.1:将步骤13.2得到的m个短MFCCs特征样本数据做归一化处理;
步骤14.2:将步骤14.1归一化处理后的m个MFCCs特征样本数据输入到步骤 9.4训练得到的基于MFCCs特征的卷积神经网络中提取深度MFCCs特征;
步骤十五:使用短样本MFCCs特征和GMM-UBM模型训练GMM模型并提取GSV特 征。
步骤15.1:将步骤13.2得到的m个短MFCCs特征样本数据输入到步骤2.1中 的GMM-UBM模型中训练GMM模型;
步骤15.2:将步骤15.1中得到的GMM模型的均值参数提取出来作为GSV特征;
步骤十六:使用GSV特征和训练得到的基于GSV特征的卷积神经网络提取深 度GSV特征。
步骤16.1:将步骤15.2中得到的GSV特征做归一化处理;
步骤16.2:将步骤16.1中归一化处理后的GSV特征输入到步骤7.3中得到的 基于GSV特征的卷积神经网络中提取深度GSV特征;
步骤十七:将深度MFCCs特征和深度GSV特征进行融合得到多模态融合深度特 征。
步骤17.1:将步骤14.2中得到的深度MFCCs特征和步骤16.2中得到的深度GSV 特征进行融合得到测试数据的m个融合深度特征短样本;
步骤17.2:对步骤17.1得到的m个融合深度特征短样本数据做归一化处理;
步骤十八:使用训练好的深度残差网络对深度融合特征进行判决,得到m 个判决结果。
步骤18.1:将步骤17.2中归一化处理后的m个融合深度特征短样本数据输 入到步骤12.1中得到的深度残差网络中进行判决得到m个判决结果。
步骤十九:对m个融合深度特征的m个判决结果采用投票判决方式得到最 终结果。
步骤19.1:将步骤18.1中得到的m个判决结果采用投票法进行融合判决。
本发明的另一目的在于提供一种实施所述基于多模融合深度特征的移动设 备源识别方法的基于多模融合深度特征的移动设备源识别系统。
本发明的另一目的在于提供一种终端,所述终端搭载实现所述基于多模融 合深度特征的移动设备源识别方法的处理器。
本发明的另一目的在于提供一种计算机可读存储介质,包括计算机程序, 当其在计算机上运行时,使得计算机执行所述的基于多模融合深度特征的移动 设备源识别方法。
综上所述,本发明的优点及积极效果为:
本发明解决了以下问题,首先传统的移动设备源识别方法的特征的表征性 可以进一步挖掘、提高,基于此本方法提出了基于MFCCs和GSV的多模融合深度特 征;其次传统的判决模型相对直观,无法通过特征信息对移动设备进行充分的 表征建模,因此本方法提出了基于残差网的模型判决方法;最后,传统的测试 判决方式是基于单一判决的,本方法提出将测试数据的特征分为多路进行联合 判决,极大的提高了识别精度。
本发明的方法分为三个阶段,第一阶段,融合深度特征提取,基于大量无 关设备的语音信号提取MFCCs特征训练GMM-UBM模型,然后提取测试语音数据的 MFCCs特征,将该特征分割为多个短特征数据用于调整GMM-UBM模型的参数得到 GSV特征。最后分别使用短MFCCs特征和GSV特征构建两个CNN模型,分别提取MFCCs 深度特征和GSV深度特征并进行融合。第二阶段深度残差网络构建,基于已有的 融合深度特征的特点设计相应的深度残差网络模型,然后将融合后的深度特征 用于训练深度残差网络。第三阶段多路联合判决,首先提取测试数据MFCCs和GSV, 将特征对应分割为多路,然后分别训练CNN并融合得到融合深度特征,随后使用 训练好的深度残差网络进行判决,最后将各路短样本的判决结果采用投票法联 合决策。
本发明的优点进一步包括:
(1)本发明在训练GMM-UBM模型时,根据语音数据音素和音调的特点对数据 进行筛选,挑选出具有代表性的少量数据,即保证了模型的表征泛化性也降低 了数据运算量,提高了建模了效率。
(2)本发明使用深度神经网络做有监督的训练提取深度特征,剔除特征数据 中的冗余和干扰信息,精简了特征数据,提高了数据的表征性,也降低了数据 的维度简化了计算量。
(3)本发明将两种深度特征进行融合得到最终的特征数据用于训练构建识别 的算法模型,并采用多路决策的形式进行融合判决,极大的提高了精确度。融 合的特征数据克服了单一特征数据所存在的局限性,提高了特征的表征性,增 加了算法识别的准确率。融合判决也提高了算法的鲁棒性。在20个设备源的闭 集实验里,本文中的方法达到了94.7%的识别精度,表1提供了一系列的对比实 验,通过对比实验可以发现深度特征比原始的特征的效果更好,而经过融合后 的特征是最好的。另外,将MFCC特征分割为不同维度的短样本将影响到样本 的个数,虽然维度更大的MFCC特征表征性更强,但是由于样本数量少所以影 响最终联合判决时的决策。表2为与传统方法识别效果对比的表格。
表1实验过程对比实验
表2传统方法效果对比
(4)目前很多技术方法为了提高精确度,使用语音的非语音段(没有说话的 语音段)提取特征信息然后进行分类识别,非语音段没有其它声音的干扰,只 保留了设备噪声,所以对设备源的表征性更高,但是在实际的运用过程,并没 有很多的非语音段可以使用。在本方案中使用整个语音段提取特征,提高了泛 化性。
(5)目前很多技术方法在做实验过程中使用的是等长的语音数据,因为在提 取某些特征过程需要是原始数据是等长,而在实际过程中很多情况下测试数据 样本不等长,若将数据截断必将损失很多的特征信息。而本方法中克服了不等 长样本提取某些特征时的困难。
附图说明
图1是本发明实施例提供的基于多模融合深度特征的移动设备源识别方法 流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例, 对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以 解释本发明,并不用于限定本发明。
传统的移动设备源识别方法的特征的表征性进一步挖掘、提高效率差;传 统的判决模型相对直观,无法通过特征信息对移动设备进行充分的表征建模; 传统的测试判决方式是基于单一判决的,识别精度低。
针对现有技术存在的问题,本发明提供了一种基于多模融合深度特征的移 动设备源识别方法及系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于多模融合深度特征的移动设备源识 别方法分为三阶段,第一阶段,融合深度特征提取,基于大量无关设备的语音 信号提取MFCCs特征训练GMM-UBM模型,然后提取测试语音数据的MFCCs特征,将 该特征分割为多个短特征数据用于调整GMM-UBM模型的参数得到GSV特征。最后 分别使用短MFCCs特征和GSV特征构建两个CNN模型,分别提取MFCCs深度特征和 GSV深度特征并进行融合。
第二阶段深度残差网络构建,基于已有的融合深度特征的特点设计相应的 深度残差网络模型,然后将融合后的深度特征用于训练深度残差网络。
第三阶段多路联合判决,首先提取测试数据MFCCs和GSV,将特征对应分割为 多路,然后分别训练CNN并融合得到融合深度特征,随后使用训练好的深度残差 网络进行判决,最后将各路短样本的判决结果采用投票法联合决策。
在本发明实施例中,本发明提供的基于深度多模融合的移动设备源识别方 法,具体包括以下步骤:
步骤1:对大量无关设备的语音信号预处理提取特征信息。
步骤2:利用训练的语音信号训练GMM-UBM模型。
步骤3:对目标语音训练信号预处理提取MFCCs特征信息。
步骤4:将目标语音训练信号的MFCCs特征数据分割为n个短样本。
步骤5:计算目标手机语音信号特定的GMM模型。
步骤6:提取高斯分量。
步骤7:使用高斯超矢量构建基于GSV特征的卷积神经网络。
步骤8:使用基于GSV特征的卷积神经网络提取深度GSV特征。
步骤9:使用MFCCs特征构建基于MFCCs特征的卷积神经网络。
步骤10:使用基于MFCCs特征的卷积神经网络提取深度MFCCs特征。
步骤11:将深度GSV特征和深度MFCCs特征进行融合得到多模态融合的深度 特征作为训练数据集。
步骤12:使用训练数据集构建深度残差网络。
步骤13:提取测试语音信号的MFCCs特征并将测试语音信号的单个MFCCs特征 分割为m个短数据样本。
步骤14:使用短样本MFCCs特征和基于MFCCs特征的卷积神经网络提取深度 MFCC特征。
步骤15:使用短样本MFCCs特征和GMM-UBM模型训练GMM模型并提取GSV特 征。
步骤16:使用GSV特征和训练得到的基于GSV特征的卷积神经网络提取深度 GSV特征。
步骤17:将深度MFCCs特征和深度GSV特征进行融合得到多模态深度融合特 征。
步骤18:将训练好的深度残差网络对深度融合特征进行判决,得到m个判 决结果。
步骤19:对m多模态深度融合特征的m个判决结果采用投票判决方式得到 最终结果。
在本发明实施例中,步骤1具体包括:
步骤1.1:对大量无关设备的语音信号加窗分帧进行预处理,然后进行短时 傅里叶变换。为了控制数据量,加窗的窗长设为256,帧移为128,窗函数选择 下式的汉明窗,然后进行傅里叶变换。
步骤1.2:根据下式对步骤1.1中频域信号提取MFCCs特征,首先提取语音信 号的MFCCs特征,选择12个系数再加上F0的能量,同时保留一阶和二阶的系数, 所以总共39维数据。
在本发明实施例中,步骤2具体包括:
步骤2.1:利用步骤1.2中的MFCCs特征训练一个包含64个高斯模型的GMM模 型作为通用背景模型。高斯混合模型(GMM)是通过多个加权后的高斯模型进行 组合的一个概率分布模型。在自然情况下,数据的分布通常是按照高斯模型分 布的,但是,一个高斯模型往往无法拟合一个多维的数据,因此可以使用多个 高斯进行加权的方式来表示一个数据样本的概率分布,当数据类型相同时,概 率模型的样式也会大致相同,整体反应在模型的均值、方差和权值的参数上。 因此使用GMM模型可以反应某一类数据的概率分布,进而用来进行特征的识别分 类,当特征提取的适当既可以用来进行录音的设备源识别。但是训练一个GMM模 型需要大量的数据,在现实情况下无法直接获取大量的数据,所以可以先训练 一个最基本的录音GMM模型作为通用背景模型(UBM)。一个具有M个高斯,特 征数据为D维的GMM模型可以表示为如下形式:
式中x为输入的N*D维的特征矢量。λ={wi,ui,∑i},wi为高斯混合模型的 权重,且满足最终得到的参数大小为D*1维。ui为每个高斯分量的均 值,大小为M*D维。Σi为每个高斯分量的方差,大小为M*D维。pi(x)为每个高 斯模型的概率密度,且满足
(x-ui)-1为(x-ui)的转置,|Σi|和(Σi)-1为Σi的行列式和逆矩阵。在实际的运 算过程中,为了减少参数量,提高训练的速率,通常将Σi使用对角化的协方差 矩阵,通过实验证明,对角化后的协方差矩阵就足以近似表示了。
训练过程使用EM算法,详细步骤为:
1.初始化wi,ui,Σi,并且初始化对数似然函数。
2.使用当前参数估计概率
3.更新当前的参数
4.计算对数似然函数
比较对数似然函数或者限定条件,如果不满足条件,跳转到步骤2继 续循环直到满足条件为止。
在本发明实施例中,步骤3具体包括:
步骤3.1:单个设备源的训练样本有多个,为了在后面尽可能多的得到训练 样本,首先将多个短语音样本合并为一个长的语音样本。
步骤3.2:将步骤3.1中的长语音信号加窗、分帧,进行预处理,然后进行 短时傅里叶变换。窗长设为256,帧移为32。然后进行短时傅里叶变换。
步骤3.3:对步骤3.2中频域信号提取MFCCs特征,参数选取同步骤1.2。
在本发明实施例中,步骤4具体包括:
步骤4.1:由于将短语音数据合并为了一个长语音样本数据,因此在提取 MFCCs特征时得到的数据维度会更大,将此特征数据按照156*39的维度分割为n 个MFCCs特征(从中间截取),每一个短的MFCCs特征作为一个训练样本,因此每 个设备源得到n个训练样本,由于训练样本时长不定,所以每个设备的训练样 本数量也不定。
在本发明实施例中,步骤5具体包括:
步骤5.1:GMM-UBM训练好后只需要在原来的通用模型的基础上进行微调整, 因为通用背景模型已经反应了录音设备的最基本的语音信息,对于目标设备, 只需要使用少量的特征进行训练一个可以反映出每个模型之间的独特的相对差 距就可以了。在这个过程中需要用到MAP(maximum a posteriori)最大后验概 率的算法进行调整。
但是在研究中发现,权值和方差矩阵对混合高斯模型的影响并不是很 大,最关键的是混合高斯模型的均值矩阵,因此为了提高训练的效率,在 应用过程中只考虑对均值矩阵的调整。
Ei(x)=ui
上式中γ用来调整参数满足而是用来调整参数的自适应系数,且其中τ也为自适应系数。
在本发明实施例中,步骤6具体包括:
步骤6.1:将经过MAP自适应调整后的混合高斯模型的均值参数提取出来 作为语音信号的特征数据。经过MAP自适应训练后得到的GMM模型有三个,均 值、方差和权值,而均值矩阵的大小D*L,D为高斯数量,L为帧数,最终需要 将均值矩阵转换为{N1,N2,N3……}的一位矩阵。
步骤6.2:均值参数提取出来后还不可以直接使用,需要对数据进行归一化, 本系统采用标准差标准化,如下式所示,其中u为所有样本数据的均值,σ为所 有样本数据的标准差。
在本发明实施例中,步骤7具体包括:
步骤7.1:将特征数据分为训练数据和测试数据两类,训练数据又分为训练 样本和验证样本,训练样本用来训练卷积神经网络模型,然后用验证数据检验 模型的好坏,同时调整网络模型的参数,最后的测试数据集就用来测试最终深 度自编码模型的好坏。
步骤7.2:将特征数据集进行one-hot编码分类,在分类模型中,最后做预 测时使用的是交叉熵的方式,因此计算的是概率,使用每一个编码方式来表示 一个类别将很方便的进行自动识别达到分类的目的,而one-hot编码对于每一个 类别热编码只有一位是1其它为都使用0进行标注。
步骤7.3:将GSV特征的训练数据用来训练构建基于GSV特征的卷积神经网 络。卷积神经网络是一个基于卷积的深度学习神经网络,相较于全连接神经网 络在参数数量上大大降低,使得神经网络在运行的速率上大大提高,不管是训 练还是检验都更有效率。但是,神经网络从输入层到输出层的每一层传播中, 都是通过对原数据特征进行数据的高层提取(特征的深度提取)得到的结果, 卷积层相对于上一层数据而言,虽然减小了数据的大小,却增加了通道数量, 是对输入数据特征的深层次提取,他通过对原数据的每一小块进行更加深入的 分析从而得到了抽象层度更高的特征。
在卷积神经网络中包含1.输入层。2.卷积层。3.池化层。4.全连接层。5.输 出层。
(1)输入层(或池化层)到卷积层
不管输入层还是池化层,在传向卷积层的过程中,都是一个对特征局部区 域进行高度采样,增加通道数的过程。设通过过滤器将一个大小为m*n*k(其 中k为通道数,n*m也为二维卷积核大小)的特征数据传递到卷积层形成一个 节点:
其中i表示卷积层第i个通道,k′表示在输入层(或池化层)k个通道中与该 层卷积层相关的k′个通道(k′≤k),表示卷积层第i层的卷积核,它有k′个 卷积核矩阵每个卷积核矩阵的大小为n*m。输入层(或池化层)的第j个 输入(取决于输入层或池化层的值以及步长)。g(i,j)表示第i个通道的第j个值 得具体值。
(2)卷积层到池化层
池化层是为了减少参数的量而进行的相关采样操作。例如在一个下采样的 例子中,满足如下关系:
其中表示对l-1层池化后的第j层特征映射,而在LeNet-5模型中, 池化层相关参数得到了特殊化,是系数为1的线性函数,所以池 化过程就变得相对简单只有这样的池化操作。
(3)全连接到输出层
该层主要实现将输出结果进行分类或者归并的过程,在LeNet-5模型中为一 个十分类问题,该层是经过一层softmax层形成一个和为1的分布列,通过反向 传播调参形成长度为10的one-hot向量由此来判断分类情况。
在本发明实施例中,步骤8具体包括:
步骤8.1:在步骤7.3中,使用GSV特征构建好了基于GSV特征的卷积神经网 络。且已知卷积神经网络在进行卷积运算时可以对原始的输入特征做深度特征 提取,剔除特征的冗余信息和干扰信息,精简特征数据。因此,通过有监督的 训练构建好基于GSV特征的卷积神经网络后,将步骤6.2归一化后的GSV特征在此 输入到训练好的基于GSV特征的卷积神经网络,提取出softmax前的中间层信息 作为深度GSV特征。
在本发明实施例中,步骤9具体包括:
步骤9.1:将步骤4.1中MFCCs特征数据使用步骤6.2的归一化方式做同样的 处理。
步骤9.2:将步骤9.1中的特征数据使用步骤7.1的方式将数据分为训练数 据和测试数据两类。
步骤9.3:使用步骤7.2的方式将特征数据分别进行标注分类。
步骤9.4:使用步骤9.2中的训练数据同样构建基于MFCCs特征的卷积神经网 络。
在本发明实施例中,步骤10具体包括:
步骤10.1:使用步骤9.1中归一化处理后的特征数据和步骤9.4中的卷积神 经网络提取深度MFCCs特征,将卷积神经网络最后一层softmax的输入值作为深 度MFCCs特征。
在本发明实施例中,步骤11具体包括:
步骤11.1:在步骤8.1和步骤10.1中通过使用卷积神经网络分别获得了深 度GSV特征N1(n1,n2,...ni),N2(n1,n2,...ni)...Nn(n1,n2,...ni)和深度MFCCs特征 M1(m1,m2,...mj),M2(m1,m2,...mj)...Mn(m1,m2,...mj)。将深度GSV特征和深度MFCCs特征进 行融合得到多模态融合的深度特征 D(D1(n1,...ni,m1,...mj),D2(n1,...ni,m1,...mj)...Dn(n1,...ni,m1,...mj))。然后使用步骤5.2中归一 化的方式对多模态融合的深度特征D做归一化处理,最终每个设备得到n个训 练数据集,在融合过程注意将每个MFCCs特征和对应的GSV特征进行融合。
在本发明实施例中,步骤12具体包括:
步骤12.1:残差网络是经卷积神经网络叠加深化后产生的深度卷积神经网 络,但不同与卷积神经网络的是,残差网络是通过每一个单独的学习模块叠加 而形成的。另外,相较于卷积神经网络残差网络学习的机制也有很大的区别, 卷积神经网络通过提取输入数据的深度特征进而学习特征的规律训练出模型然 后进行分类或者预测。而残差网旨在找出网络学习过程误差产生的规律,即拟 合出误差的变化规律。
残差网络的正向学习迭代过程为:F=W2σ(W1x),其中σ为激活函数,常使 用Relu函数。
xl+1=xl+F(xl,W1)
xl+2=xl+1+F(xl+1,Wl+1)=xl+F(xl,Wl)+F(xl+1,Wl+1)
残差网的递推关系式为:
在本发明实施例中,步骤13具体包括:
步骤13.1:测试信号为不等长的语音数据,先对整个样本数据提取MFCCs特 征。窗口大小选取256,帧移为32,取12维一阶特征、二阶特征和F0特征, 最终得到39维信号。
步骤13.2:将测试信号的MFCCs特征按照步骤4.1中MFCCs特征维度大小分割 为m个短MFCCs特征样本数据,因此原始的一个测试数据样本将被分割得到m个 短样本。
在本发明实施例中,步骤14具体包括:
步骤14.1:将步骤13.2得到的m个短MFCCs特征样本数据使用步骤6.2的方 式做归一化处理。
步骤14.2:将步骤14.1归一化处理后的m个MFCCs特征样本数据输入到步骤 9.4训练得到的基于MFCCs特征的卷积神经网络中提取深度MFCCs特征。
在本发明实施例中,步骤15具体包括:
步骤15.1:将步骤13.2得到的m个短MFCCs特征样本数据输入到步骤2.1中 的GMM-UBM模型中使用步骤5.1的方式训练特定的GMM模型。
步骤15.2:将步骤15.1中得到的GMM模型的均值参数提取出来作为GSV特征, 方法同步骤6.1。
在本发明实施例中,步骤16具体包括:
步骤16.1:将步骤15.2中得到的GSV特征使用步骤6.2的方式做归一化处理。
步骤16.2:将步骤16.1中归一化处理后的GSV特征输入到步骤7.3中得到的 基于GSV特征的卷积神经网络中提取深度GSV特征,提取方式同步骤8.1。
在本发明实施例中,步骤17具体包括:
步骤17.1:将步骤14.2中得到的深度MFCCs特征和步骤16.2中得到的深度 GSV特征进行融合得到测试数据的m个深度融合特征短样本,融合方式同步骤 11.1。
步骤17.2:对步骤17.1得到的m个深度融合特征短样本数据使用步骤6.2 的方式做归一化处理。
在本发明实施例中,步骤18具体包括:
步骤18.1:将步骤17.2中归一化处理后的m个深度融合特征短样本数据输 入到步骤12.1中得到的深度残差网络中进行判决得到m个判决结果,因此每一 个测试样本将得到m个判决结果r={r1,r2...rm}。
在本发明实施例中,步骤19具体包括:
步骤19.1:将步骤18.1中得到的m个判决结果采用投票法进行融合判决, 选取每个样本出现最多的判决结果作为最终的分类结果,函数f表示取数量最多 的值。
R=f(r1,r2...rm)。
下面结合实验对本发明作进一步描述。
训练阶段:
该实验将本发明所述方法在UBM训练阶段,选取大量的无关设备源语音信 号作为训练数据提取MFCCs特征训练GMM模型,以256为帧长、帧移128提取12 阶MFCCs参数加上一阶、二阶和零点参数,归一化之后训练含64个高斯分量的通 用背景模型UBM。
GMM模型调整阶段,选取MOBIPHONE数据库训练集的20个(原始有21 个设备,剔除了一个设备集)设备的数据集。首先分别将各个设备集样本的训 练数据和测试数据的语音段拼接到一起构建一个长语音数据样本。然后以256 为帧长、帧移32提取12阶MFCCs参数加上一阶、二阶和零点参数。由于语音样 本的长度不相等,所以首先将各个设备集的训练样本合并为一个长样本提取到 的MFCCs特征,然后以156*39的维度大小将MFCCs特征分割(从中间截取,将两 边多余的帧舍弃)为n个短样本,每个短样本作为设备的一个训练数据。然后 将该MFCCs特征分别用于训练GMM-UBM模型,得到64个GMM模型,将64个GMM模 型的均值提取出来即得到训练集的高斯超矢量,最后对特征数据做归一化处理, 将数据归一化在-1~1之间。
训练阶段深度GSV特征提取过程,MOBIPHONE训练集得到的所有的高斯超 矢量作为训练集,同时采用one-hot编码形式对20类数据进行编码打标,然后 训练基于GSV特征的CNN网络。本实验中基于GSV特征的CNN网络包含6层(3 个卷积层、2个池化层和1个全连接层)。原始数据采用0填充方式变化为50*50, 第一隐层5*5卷积核步长为1通道数变为6,维度为46*46*6。第二隐层2*2池 化核,池化后维度为23*23*6。第三隐层5*5卷积核步长为1通道数由6变为 16,维度为19*19*16。第四隐层2*2池化核,池化后维度为10*10*16。第五隐层5*5卷积核步长为1通道数由16变为40,维度为6*6*40。第六隐层全连接 层,将原始的6*6*40维数据变为了600*1维的数据,最后通过softmax输出20 个分类结果做有监督的训练。网络训练好后,将原始的GSV训练数据和测试数据 分别输入到CNN网络中,提取softmax前的600*1维的数据作为深度GSV特征。
训练阶段深度MFCCs特征提取阶段,将MOBIPHONE训练集得到的所有的 MFCCs特征用于构建基于MFCCs特征的CNN网络,同时对数据集采用one-hot编码 形式对20类数据进行编码打标。本实验中基于MFCCs特征的CNN网络包含7层 (3个卷积层、3个池化层和1个全连接层)。原始数据样本156*39的维度变化 为78*78维度,第一隐层5*5卷积核步长为1通道数变为6,维度为74*74*6。 第二隐层2*2池化核,池化后维度为37*37*6。第三隐层5*5卷积核步长为1通 道数由6变为16,维度为33*33*16。第四隐层2*2池化核,池化后维度为 17*17*16。第五隐层5*5卷积核步长为1通道数由16变为40,维度为13*13*40。 第六隐层2*2池化核,池化后维度为7*7*40。第七隐层全连接层,将原始的 7*7*40维数据变为了600*1维的数据,最后通过softmax输出20个分类结果做 有监督的训练。网络训练好后,将原始的MFCCs训练数据和测试数据分别输入到 CNN网络中,提取softmax前的600*1维的数据作为深度MFCCs特征。
深度残差网络训练阶段,首先将深度GSV特征和深度MFCCs特征融合得到深度 融合特征。将深度融合特征做归一化处理到-1~1之间。最后将训练特征数据用 于构建深度残差网络。本实验中残差网络设计为122层,第一个Block里包含3 个3层残差块,第二个Block里包含34个3层残差块,第三个Block里包含3 个3层残差块。
测试阶段:
首先对测试信号源提取MFCCs特征,按照与训练数据MFCCs特征156*39的维 度大小将测试信号的MFCCs特征分割为m份(从中间截取,将两边多余的帧舍弃), 分别将m份MFCCs特征用于训练GMM模型并提取GSV特征。将训练阶段得到的基于 MFCCs特征的卷积神经网络和基于GSV特征的卷积神经网络用于提取测试数据的 深度MFCCs特征和深度GSV特征,并将两种特征融合得到m个深度融合特征样本 集。然后使用训练阶段得到的深度残差网络对m个样本做判决,最后采用投票 法则选取出现频率最高的类别作为最终的判决结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。
Claims (10)
1.一种基于多模融合深度特征的移动设备源识别方法,其特征在于,所述基于多模融合深度特征的移动设备源识别方法通过提取测试数据MFCCs和GSV特征,并将所述测试数据MFCCs和GSV特征对应分割为多路;
然后分别训练CNN并融合得到融合深度特征,随后使用训练好的深度残差网络进行判决;
最后将各路短样本的判决结果采用投票法进行联合决策。
2.如权利要求1所述的基于多模融合深度特征的移动设备源识别方法,其特征在于,所述基于多模融合深度特征的移动设备源识别方法具体包括以下步骤:
步骤1:对大量无关设备的语音信号预处理提取特征信息;
步骤2:利用训练的语音信号训练GMM-UBM模型;
步骤3:对目标语音训练信号预处理提取MFCCs特征信息;
步骤4:将目标语音训练信号的MFCCs特征数据分割为n个短样本;
步骤5:计算目标手机语音信号特定的GMM模型;
步骤6:提取高斯分量;
步骤7:使用高斯超矢量构建基于GSV特征的卷积神经网络;
步骤8:使用基于GSV特征的卷积神经网络提取深度GSV特征;
步骤9:使用MFCCs特征构建基于MFCCs特征的卷积神经网络;
步骤10:使用基于MFCCs特征的卷积神经网络提取深度MFCCs特征;
步骤11:将深度GSV特征和深度MFCCs特征进行融合得到多模态融合的深度特征作为训练数据集;
步骤12:使用训练数据集构建深度残差网络;
步骤13:提取测试语音信号的MFCCs特征并将测试语音信号的单个MFCCs特征分割为m个短数据样本;
步骤14:使用短样本MFCCs特征和基于MFCCs特征的卷积神经网络提取深度MFCC特征;
步骤15:使用短样本MFCCs特征和GMM-UBM模型训练GMM模型并提取GSV特征;
步骤16:使用GSV特征和训练得到的基于GSV特征的卷积神经网络提取深度GSV特征;
步骤17:将深度MFCCs特征和深度GSV特征进行融合得到多模态深度融合特征;
步骤18:将训练好的深度残差网络对深度融合特征进行判决,得到m个判决结果;
步骤19:对m多模态深度融合特征的m个判决结果采用投票判决方式得到最终结果。
3.如权利要求2所述的基于多模融合深度特征的移动设备源识别方法,其特征在于,步骤1具体包括:
步骤1.1:对大量无关设备的语音信号加窗分帧进行预处理,然后进行短时傅里叶变换。为了控制数据量,加窗的窗长设为256,帧移为128,窗函数选择下式的汉明窗,然后进行傅里叶变换;
步骤1.2:根据下式对步骤1.1中频域信号提取MFCCs特征,首先提取语音信号的MFCCs特征,选择12个系数再加上F0的能量,同时保留一阶和二阶的系数,所以总共39维数据;
步骤2具体包括:
步骤2.1:利用步骤1.2中的MFCCs特征训练一个包含64个高斯模型的GMM模型作为通用背景模型;高斯混合模型是通过多个加权后的高斯模型进行组合的一个概率分布模型;先训练一个最基本的录音GMM模型作为通用背景模型;一个具有M个高斯,特征数据为D维的GMM模型表示为如下形式:
式中x为输入的N*D维的特征矢量。λ={wi,ui,∑i},wi为高斯混合模型的权重,且满足最终得到的参数大小为D*1维;ui为每个高斯分量的均值,大小为M*D维;Σi为每个高斯分量的方差,大小为M*D维;pi(x)为每个高斯模型的概率密度,且满足
(x-ui)-1为(x-ui)的转置,|Σi|和(Σi)-1为Σi的行列式和逆矩阵。
4.如权利要求3所述的基于多模融合深度特征的移动设备源识别方法,其特征在于,步骤2中,训练过程使用EM算法,具体包括:
1)初始化wi,ui,Σi,并且初始化对数似然函数;
2)使用当前参数估计概率
3)更新当前的参数
4)计算对数似然函数
比较对数似然函数或者限定条件,不满足条件,跳转到步骤2继续循环直到满足条件为止。
5.如权利要求2~4任意一项所述的基于多模融合深度特征的移动设备源识别方法,其特征在于,步骤3具体包括:
步骤3.1:单个设备源的训练样本有多个,为了在后面尽可能多的得到训练样本,首先将多个短语音样本合并为一个长的语音样本;
步骤3.2:将步骤3.1中的长语音信号加窗、分帧,进行预处理,然后进行短时傅里叶变换;窗长设为256,帧移为32;然后进行短时傅里叶变换;
步骤3.3:对步骤3.2中频域信号提取MFCCs特征,参数选取同步骤1.2;
步骤4具体包括:
步骤4.1:由于将短语音数据合并为了一个长语音样本数据,因此在提取MFCCs特征时得到的数据维度会更大,将此特征数据按照156*39的维度分割为n个MFCCs特征,每一个短的MFCCs特征作为一个训练样本,每个设备源得到n个训练样本;
步骤5具体包括对均值矩阵的调整:
Ei(x)=ui;
上式中γ用来调整参数满足而用来调整参数的自适应系数,且其中τ也为自适应系数;
步骤6具体包括:
步骤6.1:将经过MAP自适应调整后的混合高斯模型的均值参数提取出来作为语音信号的特征数据;经过MAP自适应训练后得到的GMM模型有三个,均值、方差和权值,均值矩阵的大小D*L,D为高斯数量,L为帧数,最终需要将均值矩阵转换为{N1,N2,N3……}的一位矩阵;
步骤6.2:均值参数提取出来后,采用标准差标准化对数据进行归一化,如下式所示,其中u为所有样本数据的均值,σ为所有样本数据的标准差;
步骤7具体包括:
步骤7.1:将特征数据分为训练数据和测试数据两类,训练数据又分为训练样本和验证样本,训练样本用来训练卷积神经网络模型,然后用验证数据检验模型的好坏,同时调整网络模型的参数,最后的测试数据集就用来测试最终深度自编码模型的好坏;
步骤7.2:将特征数据集进行one-hot编码分类;
步骤7.3:将GSV特征的训练数据用来训练构建基于GSV特征的卷积神经网络;
步骤8具体包括:
步骤8.1:在步骤7.3中,使用GSV特征构建好了基于GSV特征的卷积神经网络;通过有监督的训练构建好基于GSV特征的卷积神经网络后,将步骤6.2归一化后的GSV特征在此输入到训练好的基于GSV特征的卷积神经网络,提取出softmax前的中间层信息作为深度GSV特征;
步骤9具体包括:
步骤9.1:将步骤4.1中MFCCs特征数据使用步骤6.2的归一化方式做同样的处理;
步骤9.2:将步骤9.1中的特征数据使用步骤7.1的方式将数据分为训练数据和测试数据两类;
步骤9.3:使用步骤7.2的方式将特征数据分别进行标注分类;
步骤9.4:使用步骤9.2中的训练数据同样构建基于MFCCs特征的卷积神经网络。
6.如权利要求2~5任意一项所述的基于多模融合深度特征的移动设备源识别方法,其特征在于,步骤10具体包括:
使用步骤9.1中归一化处理后的特征数据和步骤9.4中的卷积神经网络提取深度MFCCs特征,将卷积神经网络最后一层softmax的输入值作为深度MFCCs特征。
7.如权利要求2~6任意一项所述的基于多模融合深度特征的移动设备源识别方法,其特征在于,步骤11具体包括:
步骤11.1:在步骤8.1和步骤10.1中通过使用卷积神经网络分别获得了深度GSV特征N1(n1,n2,...ni),N2(n1,n2,...ni)...Nn(n1,n2,...ni)和深度MFCCs特征M1(m1,m2,...mj),M2(m1,m2,...mj)...Mn(m1,m2,...mj);将深度GSV特征和深度MFCCs特征进行融合得到多模态融合的深度特征D(D1(n1,...ni,m1,...mj),D2(n1,...ni,m1,...mj)...Dn(n1,...ni,m1,...mj));
然后使用步骤5.2中归一化的方式对多模态融合的深度特征D做归一化处理,最终每个设备得到n个训练数据集,在融合过程注意将每个MFCCs特征和对应的GSV特征进行融合;
步骤12具体包括:
步骤12.1:残差网络的正向学习迭代过程为:F=W2σ(W1x),其中σ为激活函数,常使用Relu函数;
xl+1=xl+F(xl,W1);
xl+2=xl+1+F(xl+1,Wl+1)=xl+F(xl,Wl)+F(xl+1,Wl+1);
残差网的递推关系式为:
步骤13具体包括:
步骤13.1:测试信号为不等长的语音数据,先对整个样本数据提取MFCCs特征。窗口大小选取256,帧移为32,取12维一阶特征、二阶特征和F0特征,最终得到39维信号;
步骤13.2:将测试信号的MFCCs特征按照步骤4.1中MFCCs特征维度大小分割为m个短MFCCs特征样本数据,因此原始的一个测试数据样本将被分割得到m个短样本;
步骤14具体包括:
步骤14.1:将步骤13.2得到的m个短MFCCs特征样本数据使用步骤6.2的方式做归一化处理;
步骤14.2:将步骤14.1归一化处理后的m个MFCCs特征样本数据输入到步骤9.4训练得到的基于MFCCs特征的卷积神经网络中提取深度MFCCs特征;
步骤15具体包括:
步骤15.1:将步骤13.2得到的m个短MFCCs特征样本数据输入到步骤2.1中的GMM-UBM模型中使用步骤5.1的方式训练特定的GMM模型;
步骤15.2:将步骤15.1中得到的GMM模型的均值参数提取出来作为GSV特征,方法同步骤6.1;
步骤16具体包括:
步骤16.1:将步骤15.2中得到的GSV特征使用步骤6.2的方式做归一化处理;
步骤16.2:将步骤16.1中归一化处理后的GSV特征输入到步骤7.3中得到的基于GSV特征的卷积神经网络中提取深度GSV特征,提取方式同步骤8.1;
步骤17具体包括:
步骤17.1:将步骤14.2中得到的深度MFCCs特征和步骤16.2中得到的深度GSV特征进行融合得到测试数据的m个深度融合特征短样本,融合方式同步骤11.1;
步骤17.2:对步骤17.1得到的m个深度融合特征短样本数据使用步骤6.2的方式做归一化处理;
步骤18具体包括:
步骤18.1:将步骤17.2中归一化处理后的m个深度融合特征短样本数据输入到步骤12.1中得到的深度残差网络中进行判决得到m个判决结果,因此每一个测试样本将得到m个判决结果r={r1,r2...rm};
步骤19具体包括:
步骤19.1:将步骤18.1中得到的m个判决结果采用投票法进行融合判决,选取每个样本出现最多的判决结果作为最终的分类结果,函数f表示取数量最多的值;
R=f(r1,r2...rm)。
8.一种实施权利要求1~7任意一项所述基于多模融合深度特征的移动设备源识别方法的基于多模融合深度特征的移动设备源识别系统。
9.一种终端,其特征在于,所述终端搭载实现权利要求1~7任意一项所述基于多模融合深度特征的移动设备源识别方法的处理器。
10.一种计算机可读存储介质,包括计算机程序,当其在计算机上运行时,使得计算机执行如权利要求1-7任意一项所述的基于多模融合深度特征的移动设备源识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910797827.2A CN110534101B (zh) | 2019-08-27 | 2019-08-27 | 一种基于多模融合深度特征的移动设备源识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910797827.2A CN110534101B (zh) | 2019-08-27 | 2019-08-27 | 一种基于多模融合深度特征的移动设备源识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110534101A true CN110534101A (zh) | 2019-12-03 |
CN110534101B CN110534101B (zh) | 2022-02-22 |
Family
ID=68664749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910797827.2A Active CN110534101B (zh) | 2019-08-27 | 2019-08-27 | 一种基于多模融合深度特征的移动设备源识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110534101B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666996A (zh) * | 2020-05-29 | 2020-09-15 | 湖北工业大学 | 一种基于attention机制的高精度设备源识别方法 |
CN111755012A (zh) * | 2020-06-24 | 2020-10-09 | 湖北工业大学 | 一种基于深浅层特征融合的鲁棒性说话人识别方法 |
CN111917715A (zh) * | 2020-06-23 | 2020-11-10 | 国网江苏省电力有限公司信息通信分公司 | 一种基于802.11ac MAC层指纹的设备识别方法 |
CN112599135A (zh) * | 2020-12-15 | 2021-04-02 | 华中师范大学 | 一种教学模式分析方法及系统 |
CN113657687A (zh) * | 2021-08-30 | 2021-11-16 | 国家电网有限公司 | 基于特征工程和多路深度学习的电力负荷预测方法 |
CN113687610A (zh) * | 2021-07-28 | 2021-11-23 | 国网江苏省电力有限公司南京供电分公司 | 一种gan-cnn电力监测系统终端信息防护法方法 |
CN113827243A (zh) * | 2021-11-29 | 2021-12-24 | 江苏瑞脑启智医疗科技有限公司 | 注意力评估方法及系统 |
CN114783417A (zh) * | 2022-04-29 | 2022-07-22 | 北京远鉴信息技术有限公司 | 一种语音检测方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050036301A (ko) * | 2003-10-15 | 2005-04-20 | 한국전자통신연구원 | 피치와 엠.에프.씨.씨를 이용한 성별식별 장치 및 방법 |
CN102394062A (zh) * | 2011-10-26 | 2012-03-28 | 华南理工大学 | 一种自动录音设备源识别的方法和系统 |
CN106062871A (zh) * | 2014-03-28 | 2016-10-26 | 英特尔公司 | 使用所选择的群组样本子集来训练分类器 |
CN106952643A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
CN107507626A (zh) * | 2017-07-07 | 2017-12-22 | 宁波大学 | 一种基于语音频谱融合特征的手机来源识别方法 |
CN108831443A (zh) * | 2018-06-25 | 2018-11-16 | 华中师范大学 | 一种基于堆叠自编码网络的移动录音设备源识别方法 |
CN109285538A (zh) * | 2018-09-19 | 2019-01-29 | 宁波大学 | 一种基于常q变换域的加性噪声环境下手机来源识别方法 |
CN109378014A (zh) * | 2018-10-22 | 2019-02-22 | 华中师范大学 | 一种基于卷积神经网络的移动设备源识别方法及系统 |
CN110047468A (zh) * | 2019-05-20 | 2019-07-23 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置及存储介质 |
-
2019
- 2019-08-27 CN CN201910797827.2A patent/CN110534101B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050036301A (ko) * | 2003-10-15 | 2005-04-20 | 한국전자통신연구원 | 피치와 엠.에프.씨.씨를 이용한 성별식별 장치 및 방법 |
CN102394062A (zh) * | 2011-10-26 | 2012-03-28 | 华南理工大学 | 一种自动录音设备源识别的方法和系统 |
CN106062871A (zh) * | 2014-03-28 | 2016-10-26 | 英特尔公司 | 使用所选择的群组样本子集来训练分类器 |
CN106952643A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
CN107507626A (zh) * | 2017-07-07 | 2017-12-22 | 宁波大学 | 一种基于语音频谱融合特征的手机来源识别方法 |
CN108831443A (zh) * | 2018-06-25 | 2018-11-16 | 华中师范大学 | 一种基于堆叠自编码网络的移动录音设备源识别方法 |
CN109285538A (zh) * | 2018-09-19 | 2019-01-29 | 宁波大学 | 一种基于常q变换域的加性噪声环境下手机来源识别方法 |
CN109378014A (zh) * | 2018-10-22 | 2019-02-22 | 华中师范大学 | 一种基于卷积神经网络的移动设备源识别方法及系统 |
CN110047468A (zh) * | 2019-05-20 | 2019-07-23 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置及存储介质 |
Non-Patent Citations (4)
Title |
---|
YANXIONG LI ET AL.: "《Mobile phone clustering from acquired speech recordings using deep Gaussian supervector and spectral clustering》", 《2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
YANXIONG LI ET AL.: "《Mobile Phone Clustering From Speech Recordings Using Deep Representation and Spectral Clustering》", 《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY ( VOLUME: 13, ISSUE: 4, APRIL 2018)》 * |
李慧慧: "《基于深度学习的短语音说话人识别研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
李敬阳等: "《一种基于GMM-DNN的说话人确认方法》", 《计算机应用与软件》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666996A (zh) * | 2020-05-29 | 2020-09-15 | 湖北工业大学 | 一种基于attention机制的高精度设备源识别方法 |
CN111666996B (zh) * | 2020-05-29 | 2023-09-19 | 湖北工业大学 | 一种基于attention机制的高精度设备源识别方法 |
CN111917715A (zh) * | 2020-06-23 | 2020-11-10 | 国网江苏省电力有限公司信息通信分公司 | 一种基于802.11ac MAC层指纹的设备识别方法 |
CN111917715B (zh) * | 2020-06-23 | 2023-06-16 | 国网江苏省电力有限公司信息通信分公司 | 一种基于802.11ac MAC层指纹的设备识别方法 |
CN111755012A (zh) * | 2020-06-24 | 2020-10-09 | 湖北工业大学 | 一种基于深浅层特征融合的鲁棒性说话人识别方法 |
CN112599135A (zh) * | 2020-12-15 | 2021-04-02 | 华中师范大学 | 一种教学模式分析方法及系统 |
CN113687610A (zh) * | 2021-07-28 | 2021-11-23 | 国网江苏省电力有限公司南京供电分公司 | 一种gan-cnn电力监测系统终端信息防护法方法 |
CN113687610B (zh) * | 2021-07-28 | 2023-03-24 | 国网江苏省电力有限公司南京供电分公司 | 一种gan-cnn电力监测系统终端信息防护法方法 |
CN113657687A (zh) * | 2021-08-30 | 2021-11-16 | 国家电网有限公司 | 基于特征工程和多路深度学习的电力负荷预测方法 |
CN113657687B (zh) * | 2021-08-30 | 2023-09-29 | 国家电网有限公司 | 基于特征工程和多路深度学习的电力负荷预测方法 |
CN113827243A (zh) * | 2021-11-29 | 2021-12-24 | 江苏瑞脑启智医疗科技有限公司 | 注意力评估方法及系统 |
CN114783417A (zh) * | 2022-04-29 | 2022-07-22 | 北京远鉴信息技术有限公司 | 一种语音检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110534101B (zh) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110534101A (zh) | 一种基于多模融合深度特征的移动设备源识别方法及系统 | |
CN111476294B (zh) | 一种基于生成对抗网络的零样本图像识别方法及系统 | |
CN107331384B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN107633842B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN113255755B (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
CN114694076A (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
CN112259105B (zh) | 一种声纹识别模型的训练方法、存储介质和计算机设备 | |
CN111243602A (zh) | 基于性别、国籍和情感信息的声纹识别方法 | |
CN112259104B (zh) | 一种声纹识别模型的训练装置 | |
CN109378014A (zh) | 一种基于卷积神经网络的移动设备源识别方法及系统 | |
CN111428071A (zh) | 一种基于多模态特征合成的零样本跨模态检索方法 | |
CN113361636B (zh) | 一种图像分类方法、系统、介质及电子设备 | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
CN111899766B (zh) | 基于深度特征与声学特征寻优融合的语音情感识别方法 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN113837229B (zh) | 一种知识驱动型的文本到图像生成方法 | |
CN111666996A (zh) | 一种基于attention机制的高精度设备源识别方法 | |
CN113537322B (zh) | 一种跨模态语义增强生成对抗网络的零样本视觉分类方法 | |
CN116955699B (zh) | 一种视频跨模态搜索模型训练方法、搜索方法及装置 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN109934248B (zh) | 一种针对迁移学习的多模型随机生成与动态自适应组合方法 | |
CN116863965A (zh) | 一种改进型病理嗓音生成模型及其构建方法 | |
CN112101470B (zh) | 一种基于多通道高斯gan的引导零样本识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |