CN115376550A - 一种语音设备源确认方法 - Google Patents
一种语音设备源确认方法 Download PDFInfo
- Publication number
- CN115376550A CN115376550A CN202210990253.2A CN202210990253A CN115376550A CN 115376550 A CN115376550 A CN 115376550A CN 202210990253 A CN202210990253 A CN 202210990253A CN 115376550 A CN115376550 A CN 115376550A
- Authority
- CN
- China
- Prior art keywords
- voice
- recording
- neural network
- feature
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012790 confirmation Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 31
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 238000009432 framing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims 4
- 238000005516 engineering process Methods 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
技术领域
本发明涉及数字音频取证领域的数字语音盲取证,具体涉及一种语音设备源确认方法,特别是一种基于带有注意力机制的深度残差网络的数字语音设备源确认方法。
背景技术
数字语音作为一类重要的音频数据跟人们的生活息息相关。而且,数字语音录音还经常作为司法证据出现在法庭上和案件侦破中。由于通过使用诸如Audition等音频编辑软件就可以很方便地对录音文件进行各种编辑和篡改,因此在一段语音录音可以被接纳为法庭或相关司法机构的证据之前,从多媒体内容安全角度出发,必须对其真实性进行鉴定。
数字语音设备源取证技术就是数字语音盲取证技术的一种,该类技术尝试从语音录音中直接提取到录音设备指纹,然后根据获取到的录音设备指纹的一致性和连贯性等来进行数字语音的真实性鉴定。可以应用于伪造多媒体信息的鉴别和溯源。
目前深度学习技术在很多领域得到了应用并改善了之前的性能,并且已经应用到了数字语音设备源取证领域。但是现有的基于深度学习的设备源取证技术大都是基于常规的卷积神经网络(Convolutional Neural Network, CNN)技术,或者是常规的深度残差网络(Residual Network, ResNet)技术,没有考虑注意力机制等新的深度学习技术。此外,现有的技术一般针对的是一个闭集的设备源识别问题,也就是说给定一个语音录音以及N个已知的闭集的录音设备,判断该语音录音是来自于该N个设备中的哪一个设备,而现实生活中更常见的是开集的设备源确认问题,也就是给定两段语音录音,判断这两段语音录音是否来自同一语音设备;或者说给定一段语音录音和一个录音设备,判断这段语音录音是否来自于该录音设备,目前几乎没有基于深度学习的专门针对解决开集的设备源确认问题的技术。
发明内容
针对现有技术的缺陷,本发明提供了一种语音设备源确认方法。
一种语音设备源确认方法,包括以下步骤:
S2:对于训练集语料中的所有语音录音,都按照步骤S1转换成一个二维数组,并配合其对应的录音设备标注一起构成训练集,构建训练集的同时也设定好进行神经网络训练的时候所采用的batch的大小,然后送入含有注意力机制的深度残差神经网络中进行模型训练;
S3:利用已训练好的模型对待测语音进行确认检测。
可选的,所述步骤S3包括:分别将两段待测试的语音录音按照步骤S1进行转换之
后送入已训练好的深度神经网络,分别得到神经网络输出的录音设备特征表示(recorder
embedding,re),然后计算这两个特征表示的距离尺度,并将该距离尺度与门限值相比较
以判定这两段语音是否来自于同一录音设备源。
或者,将待测试的语音录音按照步骤S1进行转换之后送入训练好的深度神经网
络,得到该待测试录音的神经网络输出的录音设备特征表示,同时也对该录音设备的已知
录音同样提取其设备特征表示,然后取算术平均值以作为该录音设备的特征表示,计算这
两个特征表示的距离,并将该距离与门限值相比较以判定这段语音是否来自于该录音设
备。
进一步的,所述步骤S2中所述的含有注意力机制的深度残差神经网络的结构,首先是一个二维卷积层,然后紧跟多个含有注意力机制的残差网络模块,接着是一个编码层(Encoding)将前面网络输出的帧层特征图压缩成一个单独的句子层的特征向量,最后是一个全连接层转换成指定维度的设备特征表示。
本发明针对开集的录音设备源确认问题提供一种基于含有注意力机制的深度残差神经网络的数字语音设备源确认方法,该方法基于含有注意力机制的深度残差网络,能够从语音录音中精确的提取录音设备特征表示,从而在开集的设备源确认问题中匹配精确度高。
与其他针对闭集设备源识别的相关技术不同,本发明主要针对开集的数字语音设备源确认问题,提供了一种基于含有注意力机制的深度残差网络的数字语音设备源确认方法。第一步,先以句子为单位,对每句语音录音提取一个二维的特征参数数组;第二步,将提取到的数据送入含有注意力机制的深度残差网络;第三步,输入数据经过深度神经网络输出的帧层特征图,接着再经过编码层进行编码输出一个句子层的特征向量;第四步,编码层的输出向量经过一个全连接层得到该句语音录音的设备特征表示;第五步,基于所提取到的设备特征表示计算一个距离尺度来判断两段语音录音是否来自同一录音设备或者某段语音录音是否由某个录音设备所录制。本发明的方法利用到了先进的深度学习技术,能提取精确的录音设备指纹,进行设备源确认的准确度高。
附图说明
图1是本发明基于含有注意力机制的深度残差网络的设备源确认方法的流程图。
图2是本发明提供的实施例中所采用的注意力模块的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明,使本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按比例绘制附图,重点在于示出本发明的主旨。
图1为本发明提供的方法的流程图。本实施例的训练过程需要一个设备录音库,本实施例选择了一个含有14个录音设备(具体为手机)的录音库作为训练音库,该音库中每一个手机含有240句录音,每一句长约3秒。每个设备取其一半的语料(也就是120句录音)作为训练集语料。
本实施例的实施步骤如下:
S1:对训练集语料中的每一个语音录音,对其语音信号进行加窗分帧,窗函数选择汉明(hamming)窗,帧长取25ms,帧移取10ms,对每一帧信号进行FFT转换到频域,然后提取40维的梅尔滤波器组(Mel filterbank)系数,对每一句语音录音提取200帧,这样就将每一句语音录音转换成一个40×200的二维数组作为输入。
S2:对于训练语料中的所有语音录音,都按照步骤S1转换成一个二维数组,并配合其对应的录音设备来源标注一起构成训练集,训练集中设定好的训练batch的大小为训练集种的录音设备的种类数(本实施例中为14)。然后将训练集送入含有注意力机制的深度残差神经网络中进行模型训练,神经网络训练采用Adam算法,损失函数可采用softmax函数。
带有注意力机制的深度残差网络的结构和配置如表2所示。第一个卷积层的卷积
核的大小为,输出的特征图为16个,紧跟4组带有注意力机制的残差模块,这里所有的
残差模块所采用的卷积核大小都是,每一组残差模块的输出特征图的大小分别为16,
32,64,128。且输出特征图大小为16的残差模块组一共有3个构成一组,输出特征图大小为
32的残差模块一共有4个构成一组,输出特征图大小为64的残差模块一共有6个构成一组,
输出特征图大小为128的残差模块一共有3个构成一组。编码层采用SAP的编码方法,接着再
通过一个全连接层输出最终的特征表示,这里全连接层的输出维度设置为512。此外,在这
个网络结构中,默认在每一个2维卷积操作之后都要进行一次组归一化(Batch
Normalization)操作,且网络中采用的激活函数均为Relu函数。
表2 本实施例的带有注意力机制的深度残差网络结构和配置
然后是全连接层和sigmoid激活函数,对1×1×通道数的特征图进行调整,变成每一个特征图的权重:
从而,整个句子的特征表示e就可以表示为对帧层所有特征的一个加权求和:
对于训练语料中的每一句语音录音,都按照步骤S1转换成一个二维数据,并配合其对应的录音设备源标注一起构成训练集,然后送入如表1所示的含有注意力机制的深度残差神经网络中进行模型训练。神经网络训练采用Adam算法,损失函数采用softmax损失。学习率设置为0.001,且每迭代10次学习率衰减0.05,模型训练总的迭代次数设置为200。基于经过神经网络输出的录音设备特征表示的softmax损失函数的定义如下:
这里的C表示训练集中的录音设备种类(本实施例中为14),N表示每个batch所包
含的录音句子数(默认batch中的每一个录音句子都来自不同的录音设备,所有本实施例中)。这样的话,训练集中的一个batch,某一个语音录音句子经神经网络转换后得
到的设备特征表示为,同时,其相应的类别标注为。
S3:设备源确认场景1:给定两段语音录音T1和T2,判断其是否来自同一录音设备。
分别将两段待测试的语音录音T1和T2按照步骤S1进行转换之后送入训练好的深度神经网
络,分别得到其对应的深度残差神经网络输出的设备特征表示re1和re2,然后计算re1和
re2的平方欧式距离,并将该距离与门限值相比较,如果小于门限值,则判定为这两段语
音录音是否来自于同一录音设备源,否则判定为不是来自同一录音设备源。
设备源确认场景2:给定一段测试录音T1及一个录音设备D1(以及该录音设备所录
制的m句语料),判定该测试录音是否来自与该录音设备。将D1设备的N句预料按照步骤S1进
行转换之后送入训练好的深度神经网络,分别得到m个特征表示:
然后对这m个特征表示取算术平均值来作为该录音设备的特征表示:
同样,将待测试录音T1按照步骤S1进行转换之后送入训练好的深度神经网络得到
其对应的深度残差神经网络输出的特征表示。接着计算和的平方欧式距离,
并将该距离与门限值相比较,如果小于门限值,则判定为测试语音确实来自于该录音设
备,否则判定为不是来自该录音设备。
在以上的描述中阐述了很多具体细节以便于充分理解本发明。但是以上描述仅是本发明的较佳实施例而已,本发明能够以很多不同于在此描述的其它方式来实施,因此本发明不受上面公开的具体实施的限制。同时任何熟悉本领域技术人员在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (10)
2.根据权利要求1所述的确认方法,其特征在于,所述步骤S3包括:分别将两段待测试的语音录音按照步骤S1进行转换之后送入已训练好的深度神经网络,分别得到神经网络输出的录音设备特征表示,然后计算这两个特征表示的距离尺度,并将该距离尺度与门限值相比较以判定这两段语音是否来自于同一录音设备源。
4.根据权利要求1所述的确认方法,其特征在于,所述步骤S2中所述的含有注意力机制的深度残差神经网络的结构,首先是一个二维卷积层,然后紧跟多个含有注意力机制的残差网络模块,接着是一个编码层将前面网络输出的帧层特征图压缩成一个单独的句子层的特征向量,最后是一个全连接层转换成指定维度的设备特征表示。
6.根据权利要求1所述的确认方法,其特征在于,所述神经网络训练采用Adam算法,损失函数采用softmax函数。
10.根据权利要求9所述的确认方法,其特征在于,在网络结构中,在每一个2维卷积操作之后都要进行一次组归一化操作,且网络中采用的激活函数均为Relu函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210990253.2A CN115376550A (zh) | 2022-08-18 | 2022-08-18 | 一种语音设备源确认方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210990253.2A CN115376550A (zh) | 2022-08-18 | 2022-08-18 | 一种语音设备源确认方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115376550A true CN115376550A (zh) | 2022-11-22 |
Family
ID=84065315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210990253.2A Pending CN115376550A (zh) | 2022-08-18 | 2022-08-18 | 一种语音设备源确认方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115376550A (zh) |
-
2022
- 2022-08-18 CN CN202210990253.2A patent/CN115376550A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199548B (zh) | 一种基于卷积循环神经网络的音乐音频分类方法 | |
CN108198561A (zh) | 一种基于卷积神经网络的翻录语音检测方法 | |
CN113488058A (zh) | 一种基于短语音的声纹识别方法 | |
Xu et al. | Deep multi-metric learning for text-independent speaker verification | |
CN116153337B (zh) | 合成语音溯源取证方法及装置、电子设备及存储介质 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN118351881A (zh) | 一种基于降噪水声信号的融合特征分类识别方法 | |
Du et al. | Noise-robust voice conversion with domain adversarial training | |
CN116705063B (zh) | 一种基于流形测度的多模型融合的语音鉴伪识别方法 | |
CN111477248B (zh) | 一种音频噪声检测方法及装置 | |
CN117976006A (zh) | 音频处理方法、装置、计算机设备和存储介质 | |
CN112035700A (zh) | 一种基于cnn的语音深度哈希学习方法及系统 | |
CN110444225B (zh) | 基于特征融合网络的声源目标识别方法 | |
CN112767951A (zh) | 一种基于深度稠密网络的语音转换可视化检测方法 | |
CN116052725B (zh) | 一种基于深度神经网络的细粒度肠鸣音识别方法及装置 | |
CN117253490A (zh) | 一种基于Conformer的说话人验证方法与系统 | |
CN112735466A (zh) | 一种音频检测方法及装置 | |
CN110580915B (zh) | 基于可穿戴式设备的声源目标识别系统 | |
Naini et al. | Dual Attention Pooling Network for Recording Device Classification Using Neutral and Whispered Speech | |
CN114302301B (zh) | 频响校正方法及相关产品 | |
CN115376550A (zh) | 一种语音设备源确认方法 | |
CN111326161B (zh) | 一种声纹确定方法及装置 | |
CN114023343A (zh) | 基于半监督特征学习的语音转换方法 | |
Shirali-Shahreza et al. | Fast and scalable system for automatic artist identification | |
CN101853262A (zh) | 基于交叉熵的音频指纹快速搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |