CN111508524B - 语音来源设备的识别方法和系统 - Google Patents
语音来源设备的识别方法和系统 Download PDFInfo
- Publication number
- CN111508524B CN111508524B CN202010148882.1A CN202010148882A CN111508524B CN 111508524 B CN111508524 B CN 111508524B CN 202010148882 A CN202010148882 A CN 202010148882A CN 111508524 B CN111508524 B CN 111508524B
- Authority
- CN
- China
- Prior art keywords
- voice
- tcn
- lmfb
- feature
- res
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000012360 testing method Methods 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims description 42
- 230000004913 activation Effects 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000009466 transformation Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 2
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000001228 spectrum Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000012418 validation experiment Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种语音来源设备的识别方法和系统,涉及语音信息处理技术领域。本发明通过获取包含自然噪声的语音数据库;提取语音数据库中的语音样本的LMFB特征;基于改进的TCN网络学习深度语音特征,并利用LDA对其进行优化;最后基于深度语音特征LMFB‑TCN‑LDA对SVM分类器进行训练和测试,得到语音来源设备识别模型。本发明通过用包含自然噪声的语音样本的深度语音特征LMFB‑TCN‑LDA训练和测试SVM分类器,得到的语音来源设备识别模型能准确识别出包含自然噪声的语音的来源设备的语音来源设备识别模型,同时,本发明基于改进的TCN网络和LDA对LMFB特征进行深度语音特征学习,使得提取的LMFB‑TCN‑LDA特征更加反应设备本身特性,从而进一步提高语音来源设备识别模型的识别准确率。
Description
技术领域
本发明涉及语音信息处理技术领域,具体涉及一种语音来源设备的识别方法和系统。
背景技术
随着网络技术的发展,智能设备拥有了更多的功能与实用性,已经成为人们日常生活中不可或缺的一部分。越来越多的人喜欢使用智能手机和网络社交软件来记录日常活动的场景和声音。其中,语音是微信等网络社交软件最为常见的通信方式之一,基于语音信号的手机来源识别已经成为多媒体取证领域的一个热点课题,对于验证音频来源的真实性和原始性具有重要的现实意义,近年来受到公安和司法部门的高度重视。
现有的语音来源设备的识别方法的框架通常包含两个步骤,即训练和识别。首先从训练集中提取不同型号手机的传统的关键语音特征(如MFCC),然后利用这些关键语音特征进行训练和分类,以创建不同的手机来源模板,最后将从测试集中提取的关键语音特征送入到手机来源模板库中进行匹配,以识别出特定的手机型号。
然而,本申请的发明人发现,现有的语音来源设备的识别方法在识别理想数据库中能取得不错的识别结果,但是当音频包换自然噪声时,其识别结果将会明显受到影响,导致识别结果的准确度较低,即现有的语音来源设备的识别方法在识别含有自然噪声的音频时准确度较低。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种语音来源设备的识别方法和系统,解决了现有的语音来源设备的识别方法在识别含有自然噪声的音频时准确度较低的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种语音来源设备的识别方法,所述方法由计算机执行,包括:
获取包含自然噪声的语音数据库;
提取所述语音数据库中的语音样本的LMFB特征;
基于改进的TCN网络和所述语音样本的LMFB特征获取LMFB-TCN特征;
基于LDA技术对所述LMFB-TCN特征进行优化,获取深度语音特征LMFB-TCN-LDA;
基于所述深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试,得到语音来源设备识别模型,所述语音来源设备识别模型用于识别语音来源设备的品牌和型号。
优选的,所述获取包含自然噪声的语音数据库,包括:
S101、获取自然噪声的语音数据;
S102、将所述语音数据裁剪成语音样本;
S103、将所述语音样本分为训练集和测试集,所述训练集和所述测试集构成所述语音数据库。
优选的,所述基于改进的TCN网络和所述语音样本的LMFB特征获取LMFB-TCN特征,包括:
S301、把LMFB特征作为TCN网络的输入,对于T帧的LMFB特征,xt是从语音第t帧中提取的特征,xt∈RD,其中D为每一帧特征的维数,输入X是所有帧特征的串联,即X∈RT×D,输入特征经过一维卷积过滤,计算公式表达如下:
Y1=σ1(W1*X0) (1)
式(1)中:
X0是网络最初的输入特征;
W1是第一层网络需要学习的参数;
σ1是非线性激活函数Tanh;
S302、步骤S301的输出经过TCN网络中的残差模块,残差模块深层网络被分解成若干个残差学习单元Res_unit,每一个Res_unit中的卷积核个数是128,在残差模块中,全部采用扩张卷积,其中参数dilation rate(d)在连续Res_unit中以2的指数形式增加,即d=2n,n=0,1,2,3,4,在TCN中,每个Res_unit的输出通过添加到下一个Res_unit的输入而合并,令Yl代表第l层Res_unit的输出,则:
Yl=Yl-1+F(Wl,Yl-1) (2)
式(2)中:
Wl是第l层Res_unit需要学习的参数,F是在Res_unit中经历的非线性变换;
其中,在每个Res_unit中,将输入信号进行卷积之后分别利用Sigmoid激活函数和Tanh激活函数进行线性变换,并将结果相乘,再次经过一维卷积和Tanh激活函数之后输出,计算公式表达如下:
式(3)中:
σ1是非线性激活函数Tanh;
σ2是非线性激活函数Sigmoid;
S303、在经过N个Res_unit的学习后,累加不同输出,经过残差模块之后并经过Relu函数非线性变换后得YN,计算公式表达如下:
式(4)中:
σ3是非线性激活函数Relu;
第一个Res_unit的输出是Y2,TCN中对所有后续Res_unit进行累加;
在残差模块之后又添加两层卷积层,具体计算见公式(5)和(6):
YN+1=σ3(WN+1*YN) (5)
YN+2=WN+2*YN+1 (6)
式(5)(6)中:
WN+1是第N+1层Res_unit需要学习的参数;
WN+2是第N+2层Res_unit需要学习的参数;
S304、步骤S303的输出YN+2经过全局池化后再经过TCN网络中的softmax层,计算表述式如下:
式(7)中:
YN+3=GlobalMaxPooling1d(YN+2) (8)
经过改进的TCN网络的学习,以及不同网络层对数据的处理,最终取YN+2为的LMFB-TCN特征,其中YN+2∈R128×147,为了将高维冗余特征映射到低维有效特征同时去除冗余信息,将LMFB-TCN特征重塑成一维YN+2∈R6016。
优选的,所述基于LDA技术和LMFB-TCN特征提取深度语音特征LMFB-TCN-LDA过程主要包括:
S401、计算6016维LMFB-TCN特征的均值向量得到μi,计算所有样本的均值向量μ;
S402、构造类间散布矩阵SB以及类内散布矩阵SW:
式(9)、(10)中
mi是为第i类的样本数目;
S403、计算矩阵SW -1SB;
S404、对SW -1SB进行奇异值分解,得到奇异值λi及其对应的特征向量wi,i=1,2,....,N;
S405、取前k大的奇异值对应的特征向量组成投影矩阵W,k是输出特征的维数,最大为特征类别的个数减1,将k设置为n;
S406、计算样本集中每个样本xi在新的低维空间的投影zi=WTxi。
优选的,所述基于所述深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试,得到语音来源设备识别模型,包括:
通过语音数据库中训练集中提取的深度语音特征LMFB-TCN-LDA对SVM分类器进行训练,通过语音数据库中测试集中的提取的深度语音特征LMFB-TCN-LDA对SVM分类器进行测试,得到语音来源设备识别模型。
本发明实施例一种语音来源设备的识别系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
获取包含自然噪声的语音数据库;
提取所述语音数据库中的语音样本的LMFB特征;
基于改进的TCN网络和所述语音样本的LMFB特征获取LMFB-TCN特征;
基于LDA技术对LMFB-TCN特征进行优化,获取深度语音特征LMFB-TCN-LDA;
基于所述深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试,得到语音来源设备识别模型,所述语音来源设备识别模型用于识别语音来源设备的品牌和型号。
优选的,所述获取包含自然噪声的语音数据库,包括:
S101、获取自然噪声的语音数据;
S102、将所述语音数据裁剪成语音样本;
S103、将所述语音样本分为训练集和测试集,所述训练集和所述测试集构成所述语音数据库。
优选的,所述基于改进的TCN网络和所述语音样本的LMFB特征获取LMFB-TCN特征,包括:
S301、把LMFB特征作为TCN网络的输入,对于T帧的LMFB特征,xt是从语音第t帧中提取的特征,xt∈RD,其中D为每一帧特征的维数,输入X是所有帧特征的串联,即X∈RT×D,输入特征经过一维卷积过滤,计算公式表达如下:
Y1=σ1(W1*X0) (1)
式(1)中:
X0是网络最初的输入特征;
W1是第一层网络需要学习的参数;
σ1是非线性激活函数Tanh;
S302、步骤S301的输出经过TCN网络中的残差模块,残差模块深层网络被分解成若干个残差学习单元Res_unit,每一个Res_unit中的卷积核个数是128,在残差模块中,全部采用扩张卷积,其中参数dilation rate(d)在连续Res_unit中以2的指数形式增加,即d=2n,n=0,1,2,3,4,在TCN中,每个Res_unit的输出通过添加到下一个Res_unit的输入而合并,令Yl代表第l层Res_unit的输出,则:
Yl=Yl-1+F(Wl,Yl-1) (2)
式(2)中:
Wl是第l层Res_unit需要学习的参数,F是在Res_unit中经历的非线性变换;
其中,在每个Res_unit中,将输入信号进行卷积之后分别利用Sigmoid激活函数和Tanh激活函数进行线性变换,并将结果相乘,再次经过一维卷积和Tanh激活函数之后输出,计算公式表达如下:
式(3)中:
σ1是非线性激活函数Tanh;
σ2是非线性激活函数Sigmoid;
S303、在经过N个Res_unit的学习后,累加不同输出,经过残差模块之后并经过Relu函数非线性变换后得YN,计算公式表达如下:
式(4)中:
σ3是非线性激活函数Relu;
第一个Res_unit的输出是Y2,TCN中对所有后续Res_unit进行累加;
在残差模块之后又添加两层卷积层,具体计算见公式(5)和(6):
YN+1=σ3(WN+1*YN) (5)
YN+2=WN+2*YN+1 (6)
式(5)(6)中:
WN+1是第N+1层Res_unit需要学习的参数;
WN+2是第N+2层Res_unit需要学习的参数;
S304、步骤S303的输出YN+2经过全局池化后再经过TCN网络中的softmax层,计算表述式如下:
式(7)中:
YN+3=GlobalMaxPooling1d(YN+2) (8)
经过改进的TCN网络的学习,以及不同网络层对数据的处理,最终取YN+2为的LMFB-TCN特征,其中YN+2∈R128×147,为了将高维冗余特征映射到低维有效特征并去除冗余信息,将LMFB-TCN特征重塑成一维YN+2∈R6016。
(三)有益效果
本发明提供了一种语音来源设备的识别方法和系统。与现有技术相比,具备以下有益效果:
本发明通过获取包含自然噪声的语音数据库;提取所述语音数据库中的语音样本的LMFB特征;基于改进的TCN网络和所述语音样本的LMFB特征获取深度语音特征LMFB-TCN;基于LDA技术将LMFB-TCN高维特征映射到低维有效特征得到LMFB-TCN-LDA;基于所述深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试,得到用于识别语音来源设备的品牌和型号到语音来源设备识别模型。本发明通过用包含自然噪声的语音样本的深度语音特征LMFB-TCN-LDA训练和测试SVM分类器,得到的语音来源设备识别模型能准确识别出包含自然噪声的语音的来源设备的语音来源设备识别模型,同时,本发明基于改进的TCN网络和LDA对LMFB特征进行深度语音特征学习和优化,使得提取的LMFB-TCN-LDA特征更加反应设备本身特性,从而进一步语音来源设备识别模型的识别准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种语音来源设备的识别方法的框图;
图2为本发明实施例中改进的TCN网络的框架图,图2包括图2(a)、图2(b)和图2(c);
图3为验证试验中的不同特征的平均识别率;
图4为验证试验中的不同特征对应不同ID的recall;
图5为验证试验中的不同特征对应不同ID的precision;
图6为验证试验中的不同特征对应不同ID的f1-score;
图7为验证试验中的不同特征在不同大小数据集下训练模型结果。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种语音来源设备的识别方法,解决了现有的语音来源设备的识别方法在识别含有自然噪声的音频时准确度较低的技术问题,实现提高语音来源设备识别模型的识别准确率。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例通过用包含自然噪声的语音样本的深度语音特征LMFB-TCN-LDA训练和测试SVM分类器,得到的语音来源设备识别模型能准确识别出包含自然噪声的语音的来源设备的语音来源设备识别模型。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供一种语音来源设备的识别方法,如图1所示,该方法由计算机执行,包括步骤S1~S5:
S1、获取包含自然噪声的语音数据库;
S2、提取语音数据库中的语音样本的LMFB特征;
S3、基于改进的TCN网络和语音样本的LMFB特征获取深度语音特征LMFB-TCN;
S4、基于LDA技术对LMFB-TCN特征进行优化,获取深度语音特征LMFB-TCN-LDA;
S5、基于深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试,得到语音来源设备识别模型,语音来源设备识别模型用于识别语音来源设备的品牌和型号。
本发明实施例通过用包含自然噪声的语音样本的深度语音特征LMFB-TCN-LDA训练和测试SVM分类器,得到的语音来源设备识别模型能准确识别出包含自然噪声的语音的来源设备的语音来源设备识别模型,同时,本发明实施例基于改进的TCN网络对LMFB特征进行深度语音特征学习,并利用LDA技术进行低维有效特征提取,使得提取的LMFB-TCN-LDA特征更加反应设备本身特性,从而进一步语音来源设备识别模型的识别准确率。为后续验证音频来源的真实性和原始性提供重要的数据支撑。
下面对各个步骤进行详细说明。
在步骤S1中,获取包含自然噪声的语音数据库。具体为:
S101、获取自然噪声的语音数据。在本发明实施例中,获取包含十种常见的手机品牌的47种型号的手机语音信号,语音带自然噪声的场景主要包括:生活中的对话,电影对白,广播对白等。语音格式是MP3。手机的品牌和型号如表1所示。
表1手机的品牌和型号
S102、将语音数据裁剪成语音样本。在本发明实施例中,将手机语音信号裁剪成3s的语音片段,即裁剪成3s的语音样本。
S103、将所述语音样本分为训练集和测试集,所述训练集和所述测试集构成所述语音数据库。在本发明实施例中,每种型号的手机最终有700个语音样本。其中600条用作训练,100条用作测试。47种型号的手机的语音样本构成训练集、测试集以及语音数据库,语音数据库中包含32900个语音样本。
在步骤S2中,提取语音数据库中的语音样本的LMFB特征。具体为:
S201、分帧:将语音样本的N个采样点集合成一个观测单位,称为帧。发明实施例中N的值设置为2048,为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,本发明实施例中M设置为512。
S202、加窗:将每一帧乘以汉明窗,以增加帧左端和右端的连续性。
S203、傅里叶变换:对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的能量谱。
S204、梅尔滤波:将能量谱通过一组Mel尺度的三角形滤波器组,得到得到每帧信号的Mel子带谱。
S205、对数运算:采用对数函数对Mel子带谱进行非线性变换,得到语音样本的对数谱,即语音样本的LMFB特征。
LMFB特征相对于MFCC特征,其提取步骤少了离散余弦变化,因而保留了更多的有效语音信息,为下一步TCN网络的进一步处理创造了更好的前提。
在步骤S3中,基于改进的TCN网络和语音样本的LMFB特征获取LMFB-TCN特征。具体为:
在本发明实施例中,改进的TCN网络的框架图如图2所示。
S301、TCN网络整体结构如图2(a)所示,把LMFB特征作为TCN网络的输入,对于T帧的LMFB特征,xt是从语音第t帧中提取的特征,xt∈RD,其中D为每一帧特征的维数,在本发明实施例中D=44,输入X是所有帧特征的串联,即X∈RT×D,输入特征经过一维卷积过滤,计算公式表达如下:
Y1=σ1(W1*X0) (1)
式(1)中:
X0是网络最初的输入特征;
W1是第一层网络需要学习的参数;
σ1是非线性激活函数Tanh;
S302、步骤S301的输出经过TCN网络中的残差模块,残差模块的结构如图2(b)所示。残差模块深层网络被分解成若干个残差学习单元Res_unit,每一个Res_unit中的卷积核个数是128,在残差模块中,全部采用扩张卷积,其中最关键的参数dilationrate(d)在连续Res_unit中以2的指数形式增加,即d=2n,n=0,1,2,3,4,能够在不显著增加参数数量的情况下,可在很大程度上增加感受野。在TCN中,每个Res_unit的输出通过添加到下一个Res_unit的输入而简单的合并,令Yl代表第l层Res_unit的输出,则:
Yl=Yl-1+F(Wl,Yl-1) (2)
式(2)中:
Wl是第l层Res_unit需要学习的参数,F是在Res_unit中经历的非线性变换;
其中,每个Res_unit的具体结构如图2(c)所示。与普通网络连接方式不同的是,在每个残差学习单元Res_unit中,将输入信号进行卷积之后分别利用Sigmoid激活函数和Tanh激活函数进行线性变换,并将结果相乘,再次经过一维卷积和Tanh激活函数之后输出,计算公式表达如下:
式(3)中:
σ1是非线性激活函数Tanh;
σ2是非线性激活函数Sigmoid;
S303、在经过N个Res_unit的学习后,累加不同输出,经过残差模块之后并经过Relu函数非线性变换后得YN,计算公式表达如下:
式(4)中:
σ3是非线性激活函数Relu;
第一个Res_unit的输出是Y2,TCN中对所有后续Res_unit进行累加;利用网络学习不同语音信号中有区别的语音特征,在图2(a)中,在残差模块之后又添加两层卷积层,具体计算见公式(5)和(6):
YN+1=σ3(WN+1*YN) (5)
YN+2=WN+2*YN+1 (6)
式(5)(6)中:
WN+1是第N+1层Res_unit需要学习的参数;
WN+2是第N+2层Res_unit需要学习的参数;
S304、步骤S303的输出YN+2经过全局池化后再TCN网络中的softmax层,计算表述式如下:
式(7)中:
YN+3=GlobalMaxPooling1d(YN+2) (8)
此外,在本发明实施例中,在整体网络中还多次利用了加速神经网络训练的BatchNorm算法,以提高收敛速度和稳定性。经过TCN网络的学习处理,以及不同网络层对数据的处理,最终取YN+2为本发明实施例的LMFB-TCN特征,其中YN+2∈R128×147,而为了进行低维有效特征提取,将特征重塑成一维YN+2∈R6016。
在步骤S4中,基于LDA技术对LMFB-TCN特征进行优化,获取深度语音特征LMFB-TCN-LDA。具体为:
S401、计算6016维LMFB-TCN特征的均值向量得到μi,计算所有样本的均值向量μ;
S402、构造类间散布矩阵SB以及类内散布矩阵SW:
式(9)、(10)中
mi是为第i类的样本数目;
S403、计算矩阵SW -1SB;
S404、对SW -1SB进行奇异值分解,得到奇异值λi及其对应的特征向量wi,i=1,2,....,N;
S405、取前k大的奇异值对应的特征向量组成投影矩阵W,k是输出特征的维数,最大为特征类别的个数减1,将k设置为n,在本发明实施例中,n为46;
S406、计算样本集中每个样本xi在新的低维空间的投影zi=WTxi;
在步骤S5中,基于深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试,得到语音来源设备识别模型,语音来源设备识别模型用于识别语音来源设备的品牌和型号。具体为:
通过语音数据库中训练集中提取的深度语音特征LMFB-TCN-LDA对SVM分类器进行训练,通过语音数据库中测试集中的提取的深度语音特征LMFB-TCN-LDA对SVM分类器进行测试,得到用于识别语音来源设备的品牌和型号的语音来源设备识别模型。
为了验证本发明实施例提供的方法的有效性,下面使用以下四种常见的评价标准去评价所提出方法的性能:Accuracy,Precision,Recall以及F1-score,其中TP是正阳性,FP为假阳性TN为正阴性,FN为假阴性。以上标准定义如公式(a)(b)(c)(d)所示。总的来说,这四个评价标准的值越高,性能就越好。
实验结果:
对于不同的评价标准,分别将现有技术中的特征BED和CQT以及常见的语音特征MFCC和本发明实施例提出的深度语音特征LMFB-TCN-LDA输入到分类器SVM进行识别对比。实验结果如图3~图6所示。附图中,本发明实施例提出的深度语音特征LMFB-TCN-LDA为Theproposedfeature。
图3显示了不同特征的平均识别率,从图中可以看出本发明实施例提出的深度语音特征LMFB-TCN-LDA的平均识别率最高,达到99.98%。
图4、图5、图6分别表示了不同特征在不同型号设备下的recall、precision、f1-score。其中红线代表本文所提出的特征,从图中可以明显看出,在各个方面,本发明实施例提出的深度语音特征LMFB-TCN-LDA性能更加优秀。
而为了测试发明实施例提出的深度语音特征LMFB-TCN-LDA在不同大小数据集下的性能,并与其余特征进行对比。对于每一型号的设备,分别采用100、200、400、600条数据对模型进行训练,并对模型进行测试,实验对比结果如图7所示。
由图7可以看出,随着训练数据的减少,BED、CQT、MFCC的性能都有明显降低,但是对于发明实施例提出的深度语音特征LMFB-TCN-LDA,其性能降低不明显,也进一步说明了发明实施例提出的深度语音特征LMFB-TCN-LDA的有效性。
混合矩阵能给予一个模型更全面的认识,画出发明实施例提出的深度语音特征LMFB-TCN-LDA的混合矩阵,如表2所示。
表2发明实施例提出的深度语音特征LMFB-TCN-LDA的混合矩阵结果
从表2中可以看出,除了ID15,其余设备都可以较准确的预测出对应ID。
本发明实施例还提供一种语音来源设备的识别系统,上述系统包括计算机,上述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,上述至少一个存储单元中存储有至少一条指令,上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤:
S1、获取包含自然噪声的语音数据库;
S2、提取语音数据库中的语音样本的LMFB特征;
S3、基于改进的TCN网络和语音样本的LMFB特征获取LMFB-TCN特征;
S4、基于LDA技术对LMFB-TCN特征进行优化,获取低维语音有效特征LMFB-TCN-LDA;
S5、基于深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试,得到语音来源设备识别模型,语音来源设备识别模型用于识别语音来源设备的品牌和型号。
可理解的是,本发明实施例提供的上述语音来源设备的识别系统与上述语音来源设备的识别方法相对应,其有关内容的解释、举例、有益效果等部分可以参考语音来源设备的识别方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例通过用包含自然噪声的语音样本的深度语音特征LMFB-TCN-LDA训练和测试SVM分类器,得到的语音来源设备识别模型能准确识别出包含自然噪声的语音的来源设备的语音来源设备识别模型。
2、本发明实施例基于改进的TCN网络和LDA对LMFB特征进行深度语音特征学习,使得提取的LMFB-TCN-LDA特征更加反应设备本身特性,从而进一步语音来源设备识别模型的识别准确率。为后续验证音频来源的真实性和原始性提供重要的数据支撑。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种语音来源设备的识别方法,其特征在于,所述方法由计算机执行,包括:
获取包含自然噪声的语音数据库;
提取所述语音数据库中的语音样本的LMFB特征;
基于改进的TCN网络和所述语音样本的LMFB特征获取LMFB-TCN特征;
基于LDA技术对所述LMFB-TCN特征进行优化,获取深度语音特征LMFB-TCN-LDA;
基于所述深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试,得到语音来源设备识别模型,所述语音来源设备识别模型用于识别语音来源设备的品牌和型号;
其中,基于改进的TCN网络和所述语音样本的LMFB特征获取LMFB-TCN特征,包括:
S301、把LMFB特征作为TCN网络的输入,对于T帧的LMFB特征,xt是从语音第t帧中提取的特征,xt∈RD,其中D为每一帧特征的维数,输入X是所有帧特征的串联,即X∈RT×D,输入特征经过一维卷积过滤,计算公式表达如下:
Y1=σ1(W1*X0) (1)
式(1)中:
X0是网络最初的输入特征;
W1是第一层网络需要学习的参数;
σ1是非线性激活函数Tanh;
S302、步骤S301的输出经过TCN网络中的残差模块,残差模块深层网络被分解成若干个残差学习单元Res_unit,每一个Res_unit中的卷积核个数是128,在残差模块中,全部采用扩张卷积,其中参数dilation rate(d)在连续Res_unit中以2的指数形式增加,即d=2n,n=0,1,2,3,4,在TCN网络中,每个Res_unit的输出通过添加到下一个Res_unit的输入而合并,令Yl代表第l层Res_unit的输出,则:
Yl=Yl-1+F(Wl,Yl-1) (2)
式(2)中:
Wl是第l层Res_unit需要学习的参数,F是在Res_unit中经历的非线性变换;
其中,在每个残差学习单元Res_unit中,将输入信号进行卷积之后分别利用Sigmoid激活函数和Tanh激活函数进行线性变换,并将结果相乘,再次经过一维卷积和Tanh激活函数之后输出,计算公式表达如下:
式(3)中:
σ1是非线性激活函数Tanh;
σ2是非线性激活函数Sigmoid;
S303、在经过N个Res_unit的学习后,累加不同输出,经过残差模块之后并经过Relu函数非线性变换后得YN,计算公式表达如下:
式(4)中:
σ3是非线性激活函数Relu;
第一个Res_unit的输出是Y2,TCN中对所有后续Res_unit进行累加;
在残差模块之后又添加两层卷积层,具体计算见公式(5)和(6):
YN+1=σ3(WN+1*YN) (5)
YN+2=WN+2*YN+1 (6)
式(5)(6)中:
WN+1是第N+1层Res_unit需要学习的参数;
WN+2是第N+2层Res_unit需要学习的参数;
S304、步骤S303的输出YN+2经过全局池化后再经过TCN网络中的softmax层,计算表述式如下:
式(7)中:
YN+3=GlobalMaxPooling1d(YN+2) (8)
经过改进的TCN网络的学习,以及不同网络层对数据的处理,最终取YN+2为的LMFB-TCN特征,其中YN+2∈R128×147,为了将高维冗余特征映射到低维有效特征同时去除冗余信息,将LMFB-TCN特征重塑成一维YN+2∈R6016。
2.如权利要求1所述的语音来源设备的识别方法,其特征在于,所述获取包含自然噪声的语音数据库,包括:
S101、获取自然噪声的语音数据;
S102、将所述语音数据裁剪成语音样本;
S103、将所述语音样本分为训练集和测试集,所述训练集和所述测试集构成所述语音数据库。
3.如权利要求1所述的语音来源设备的识别方法,其特征在于,所述基于LDA技术和所述LMFB-TCN特征获取深度语音特征LMFB-TCN-LDA,包括:
S401、计算6016维LMFB-TCN特征的均值向量得到μi,计算所有样本的均值向量μ;
S402、构造类间散布矩阵SB以及类内散布矩阵SW:
式(9)、(10)中
mi是为第i类的样本数目;
S403、计算矩阵SW -1SB;
S404、对SW -1SB进行奇异值分解,得到奇异值λi及其对应的特征向量wi,i=1,2,....,N;
S405、取前k大的奇异值对应的特征向量组成投影矩阵W,k是输出特征的维数,最大为特征类别的个数减1,将k设置为n;
S406、计算样本集中每个样本xi在新的低维空间的投影zi=WTxi;
4.如权利要求1所述的语音来源设备的识别方法,其特征在于,所述基于所述深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试,得到语音来源设备识别模型,包括:
通过语音数据库中训练集中提取的深度语音特征LMFB-TCN-LDA对SVM分类器进行训练,通过语音数据库中测试集中的提取的深度语音特征LMFB-TCN-LDA对SVM分类器进行测试,得到语音来源设备识别模型。
5.一种语音来源设备的识别系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
获取包含自然噪声的语音数据库;
提取所述语音数据库中的语音样本的LMFB特征;
基于改进的TCN网络和所述语音样本的LMFB特征获取LMFB-TCN特征;
基于LDA技术对LMFB-TCN特征进行优化,获取深度语音特征LMFB-TCN-LDA;
基于所述深度语音特征LMFB-TCN-LDA对SVM分类器进行训练和测试,得到语音来源设备识别模型,所述语音来源设备识别模型用于识别语音来源设备的品牌和型号;
其中,所述基于改进的TCN网络和所述语音样本的LMFB特征获取LMFB-TCN特征,包括:
S301、把LMFB特征作为TCN网络的输入,对于T帧的LMFB特征,xt是从语音第t帧中提取的特征,xt∈RD,其中D为每一帧特征的维数,输入X是所有帧特征的串联,即X∈RT×D,输入特征经过一维卷积过滤,计算公式表达如下:
Y1=σ1(W1*X0) (1)
式(1)中:
X0是网络最初的输入特征;
W1是第一层网络需要学习的参数;
σ1是非线性激活函数Tanh;
S302、步骤S301的输出经过TCN网络中的残差模块,残差模块深层网络被分解成若干个残差学习单元Res_unit,每一个Res_unit中的卷积核个数是128,在残差模块中,全部采用扩张卷积,其中参数dilation rate(d)在连续Res_unit中以2的指数形式增加,即d=2n,n=0,1,2,3,4,在TCN中,每个Res_unit的输出通过添加到下一个Res_unit的输入而合并,令Yl代表第l层Res_unit的输出,则:
Yl=Yl-1+F(Wl,Yl-1) (2)
式(2)中:
Wl是第l层Res_unit需要学习的参数,F是在Res_unit中经历的非线性变换;
其中,在每个Res_unit中,将输入信号进行卷积之后分别利用Sigmoid激活函数和Tanh激活函数进行线性变换,并将结果相乘,再次经过一维卷积和Tanh激活函数之后输出,计算公式表达如下:
式(3)中:
σ1是非线性激活函数Tanh;
σ2是非线性激活函数Sigmoid;
S303、在经过N个Res_unit的学习后,累加不同输出,经过残差模块之后并经过Relu函数非线性变换后得YN,计算公式表达如下:
式(4)中:
σ3是Relu函数;
第一个Res_unit的输出是Y2,TCN中对所有后续Res_unit进行累加;
在残差模块之后又添加两层卷积层,具体计算见公式(5)和(6):
YN+1=σ3(WN+1*YN) (5)
YN+2=WN+2*YN+1 (6)
式(5)(6)中:
WN+1是第N+1层Res_unit需要学习的参数;
WN+2是第N+2层Res_unit需要学习的参数;
S304、步骤S303的输出YN+2经过全局池化后再经过TCN网络中的softmax层,计算表述式如下:
式(7)中:
YN+3=GlobalMaxPooling1d(YN+2) (8)
经过改进的TCN网络的学习,以及不同网络层对数据的处理,最终取YN+2为的LMFB-TCN特征,其中YN+2∈R128×147,为了将高维冗余特征映射到低维有效特征同时去除冗余信息,将LMFB-TCN特征重塑成一维YN+2∈R6016。
6.如权利要求5所述的语音来源设备的识别系统,其特征在于,所述获取包含自然噪声的语音数据库,包括:
S101、获取自然噪声的语音数据;
S102、将所述语音数据裁剪成语音样本;
S103、将所述语音样本分为训练集和测试集,所述训练集和所述测试集构成所述语音数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010148882.1A CN111508524B (zh) | 2020-03-05 | 2020-03-05 | 语音来源设备的识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010148882.1A CN111508524B (zh) | 2020-03-05 | 2020-03-05 | 语音来源设备的识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111508524A CN111508524A (zh) | 2020-08-07 |
CN111508524B true CN111508524B (zh) | 2023-02-21 |
Family
ID=71863930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010148882.1A Active CN111508524B (zh) | 2020-03-05 | 2020-03-05 | 语音来源设备的识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111508524B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11495216B2 (en) | 2020-09-09 | 2022-11-08 | International Business Machines Corporation | Speech recognition using data analysis and dilation of interlaced audio input |
US11538464B2 (en) | 2020-09-09 | 2022-12-27 | International Business Machines Corporation . | Speech recognition using data analysis and dilation of speech content from separated audio input |
US20210012767A1 (en) * | 2020-09-25 | 2021-01-14 | Intel Corporation | Real-time dynamic noise reduction using convolutional networks |
CN113096672B (zh) * | 2021-03-24 | 2022-06-14 | 武汉大学 | 一种应用于低码率下的多音频对象编解码方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109285538A (zh) * | 2018-09-19 | 2019-01-29 | 宁波大学 | 一种基于常q变换域的加性噪声环境下手机来源识别方法 |
CN109378014A (zh) * | 2018-10-22 | 2019-02-22 | 华中师范大学 | 一种基于卷积神经网络的移动设备源识别方法及系统 |
CN110277099A (zh) * | 2019-06-13 | 2019-09-24 | 北京百度网讯科技有限公司 | 基于语音的嘴型生成方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11373672B2 (en) * | 2016-06-14 | 2022-06-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
-
2020
- 2020-03-05 CN CN202010148882.1A patent/CN111508524B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109285538A (zh) * | 2018-09-19 | 2019-01-29 | 宁波大学 | 一种基于常q变换域的加性噪声环境下手机来源识别方法 |
CN109378014A (zh) * | 2018-10-22 | 2019-02-22 | 华中师范大学 | 一种基于卷积神经网络的移动设备源识别方法及系统 |
CN110277099A (zh) * | 2019-06-13 | 2019-09-24 | 北京百度网讯科技有限公司 | 基于语音的嘴型生成方法和装置 |
Non-Patent Citations (4)
Title |
---|
Mobile Phone Clustering From Speech Recordings Using Deep Representation and Spectral Clustering.;Yanxiong Li,等;《IEEE Trans. Information Forensics and Security》;20181231;全文 * |
Smartphones Identification Through the Built-In Microphones With Convolutional Neural Network.;Gianmarco Baldini,Irene Amerini.;《IEEE Access 》;20191231;全文 * |
基于时域建模的自动语音识别;王海坤等;《计算机工程与应用》;20171015(第20期);全文 * |
基于语音静音段特征的手机来源识别方法;裴安山等;《电信科学》;20170720(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111508524A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111508524B (zh) | 语音来源设备的识别方法和系统 | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
WO2021159902A1 (zh) | 年龄识别方法、装置、设备及计算机可读存储介质 | |
CN113823323B (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
CN102664010A (zh) | 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法 | |
CN115101076B (zh) | 一种基于多尺度通道分离卷积特征提取的说话人聚类方法 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
CN112420079B (zh) | 语音端点检测方法和装置、存储介质及电子设备 | |
CN110246509A (zh) | 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构 | |
CN112735466A (zh) | 一种音频检测方法及装置 | |
CN110808067A (zh) | 基于二值多频带能量分布的低信噪比声音事件检测方法 | |
CN110415708A (zh) | 基于神经网络的说话人确认方法、装置、设备及存储介质 | |
CN113707172B (zh) | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 | |
CN113113048B (zh) | 语音情绪识别方法、装置、计算机设备及介质 | |
CN111326161B (zh) | 一种声纹确定方法及装置 | |
CN113889098A (zh) | 命令词识别方法、装置、移动终端和可读存储介质 | |
CN115116469A (zh) | 特征表示的提取方法、装置、设备、介质及程序产品 | |
CN110782901B (zh) | 一种识别网络电话语音的方法、存储介质及装置 | |
CN114495911A (zh) | 说话人聚类方法、装置及设备 | |
CN113593525A (zh) | 口音分类模型训练和口音分类方法、装置和存储介质 | |
CN114664325A (zh) | 一种异常声音识别方法、系统、终端设备及计算机可读存储介质 | |
CN112712792A (zh) | 一种方言识别模型的训练方法、可读存储介质及终端设备 | |
Bao et al. | A Novel System for Recognizing Recording Devices from Recorded Speech Signals. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |