CN115376550A

CN115376550A - 一种语音设备源确认方法

Info

Publication number: CN115376550A
Application number: CN202210990253.2A
Authority: CN
Inventors: 邹领; 刘鑫波; 陈义明
Original assignee: Hunan Agricultural University
Current assignee: Hunan Agricultural University
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-11-22

Abstract

本发明公开了一种语音设备源确认方法，包括以下步骤：S1：将训练集语料中的每一句语音录音中的语音信号进行加窗分帧，得到一个

的二维数组将其作为输入；S2：对于训练集语料中的所有语音录音，都按照步骤S1转换成一个二维数组，并配合其对应的录音设备标注一起构成训练集，构建训练集的同时也设定好进行神经网络训练的时候所采用的batch的大小，然后送入含有注意力机制的深度残差神经网络中进行模型训练；S3：利用已训练好的模型对待测语音进行确认检测。本发明能够从语音录音中精确的提取录音设备特征表示，从而在开集的设备源确认问题中匹配精确度高。

Description

一种语音设备源确认方法

技术领域

本发明涉及数字音频取证领域的数字语音盲取证，具体涉及一种语音设备源确认方法，特别是一种基于带有注意力机制的深度残差网络的数字语音设备源确认方法。

背景技术

数字语音作为一类重要的音频数据跟人们的生活息息相关。而且，数字语音录音还经常作为司法证据出现在法庭上和案件侦破中。由于通过使用诸如Audition等音频编辑软件就可以很方便地对录音文件进行各种编辑和篡改，因此在一段语音录音可以被接纳为法庭或相关司法机构的证据之前，从多媒体内容安全角度出发，必须对其真实性进行鉴定。

数字语音设备源取证技术就是数字语音盲取证技术的一种，该类技术尝试从语音录音中直接提取到录音设备指纹，然后根据获取到的录音设备指纹的一致性和连贯性等来进行数字语音的真实性鉴定。可以应用于伪造多媒体信息的鉴别和溯源。

目前深度学习技术在很多领域得到了应用并改善了之前的性能，并且已经应用到了数字语音设备源取证领域。但是现有的基于深度学习的设备源取证技术大都是基于常规的卷积神经网络（Convolutional Neural Network, CNN）技术，或者是常规的深度残差网络（Residual Network, ResNet）技术，没有考虑注意力机制等新的深度学习技术。此外，现有的技术一般针对的是一个闭集的设备源识别问题，也就是说给定一个语音录音以及N个已知的闭集的录音设备，判断该语音录音是来自于该N个设备中的哪一个设备，而现实生活中更常见的是开集的设备源确认问题，也就是给定两段语音录音，判断这两段语音录音是否来自同一语音设备；或者说给定一段语音录音和一个录音设备，判断这段语音录音是否来自于该录音设备，目前几乎没有基于深度学习的专门针对解决开集的设备源确认问题的技术。

发明内容

针对现有技术的缺陷，本发明提供了一种语音设备源确认方法。

一种语音设备源确认方法，包括以下步骤：

S1：将训练集语料中的每一句语音录音中的语音信号进行加窗分帧，然后进行快速傅里叶变换（FFT）转换到频域，之后提取N维的频域特征参数，对每一句语音录音提取M 帧，得到一个

的二维数组将其作为输入；

S2：对于训练集语料中的所有语音录音，都按照步骤S1转换成一个二维数组，并配合其对应的录音设备标注一起构成训练集，构建训练集的同时也设定好进行神经网络训练的时候所采用的batch的大小，然后送入含有注意力机制的深度残差神经网络中进行模型训练；

S3：利用已训练好的模型对待测语音进行确认检测。

可选的，所述步骤S3包括：分别将两段待测试的语音录音按照步骤S1进行转换之后送入已训练好的深度神经网络，分别得到神经网络输出的录音设备特征表示（recorder embedding，re），然后计算这两个特征表示的距离尺度，并将该距离尺度与门限值

相比较以判定这两段语音是否来自于同一录音设备源。

或者，将待测试的语音录音按照步骤S1进行转换之后送入训练好的深度神经网络，得到该待测试录音的神经网络输出的录音设备特征表示，同时也对该录音设备的已知录音同样提取其设备特征表示，然后取算术平均值以作为该录音设备的特征表示，计算这两个特征表示的距离，并将该距离与门限值

相比较以判定这段语音是否来自于该录音设备。

进一步的，所述步骤S2中所述的含有注意力机制的深度残差神经网络的结构，首先是一个二维卷积层，然后紧跟多个含有注意力机制的残差网络模块，接着是一个编码层（Encoding）将前面网络输出的帧层特征图压缩成一个单独的句子层的特征向量，最后是一个全连接层转换成指定维度的设备特征表示。

本发明针对开集的录音设备源确认问题提供一种基于含有注意力机制的深度残差神经网络的数字语音设备源确认方法，该方法基于含有注意力机制的深度残差网络，能够从语音录音中精确的提取录音设备特征表示，从而在开集的设备源确认问题中匹配精确度高。

与其他针对闭集设备源识别的相关技术不同，本发明主要针对开集的数字语音设备源确认问题，提供了一种基于含有注意力机制的深度残差网络的数字语音设备源确认方法。第一步，先以句子为单位，对每句语音录音提取一个二维的特征参数数组；第二步，将提取到的数据送入含有注意力机制的深度残差网络；第三步，输入数据经过深度神经网络输出的帧层特征图，接着再经过编码层进行编码输出一个句子层的特征向量；第四步，编码层的输出向量经过一个全连接层得到该句语音录音的设备特征表示；第五步，基于所提取到的设备特征表示计算一个距离尺度来判断两段语音录音是否来自同一录音设备或者某段语音录音是否由某个录音设备所录制。本发明的方法利用到了先进的深度学习技术，能提取精确的录音设备指纹，进行设备源确认的准确度高。

附图说明

图1是本发明基于含有注意力机制的深度残差网络的设备源确认方法的流程图。

图2是本发明提供的实施例中所采用的注意力模块的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明，使本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按比例绘制附图，重点在于示出本发明的主旨。

图1为本发明提供的方法的流程图。本实施例的训练过程需要一个设备录音库，本实施例选择了一个含有14个录音设备（具体为手机）的录音库作为训练音库，该音库中每一个手机含有240句录音，每一句长约3秒。每个设备取其一半的语料（也就是120句录音）作为训练集语料。

本实施例的实施步骤如下：

S1：对训练集语料中的每一个语音录音，对其语音信号进行加窗分帧，窗函数选择汉明（hamming）窗，帧长取25ms，帧移取10ms，对每一帧信号进行FFT转换到频域，然后提取40维的梅尔滤波器组（Mel filterbank）系数，对每一句语音录音提取200帧，这样就将每一句语音录音转换成一个40×200的二维数组作为输入。

S2：对于训练语料中的所有语音录音，都按照步骤S1转换成一个二维数组，并配合其对应的录音设备来源标注一起构成训练集，训练集中设定好的训练batch的大小为训练集种的录音设备的种类数（本实施例中为14）。然后将训练集送入含有注意力机制的深度残差神经网络中进行模型训练，神经网络训练采用Adam算法，损失函数可采用softmax函数。

带有注意力机制的深度残差网络的结构和配置如表2所示。第一个卷积层的卷积核的大小为

，输出的特征图为16个，紧跟4组带有注意力机制的残差模块，这里所有的残差模块所采用的卷积核大小都是

，每一组残差模块的输出特征图的大小分别为16， 32，64，128。且输出特征图大小为16的残差模块组一共有3个构成一组，输出特征图大小为 32的残差模块一共有4个构成一组，输出特征图大小为64的残差模块一共有6个构成一组，输出特征图大小为128的残差模块一共有3个构成一组。编码层采用SAP的编码方法，接着再通过一个全连接层输出最终的特征表示，这里全连接层的输出维度设置为512。此外，在这个网络结构中，默认在每一个2维卷积操作之后都要进行一次组归一化（Batch Normalization）操作，且网络中采用的激活函数均为Relu函数。

表2 本实施例的带有注意力机制的深度残差网络结构和配置

残差模块种采用的注意力机制模块采用的是

，过程示意图如图2所示。具体的实现是，先对输入的特征图进行全局平均值池化，将特征图变成1×1×通道数：

（1）

然后是全连接层和sigmoid激活函数，对1×1×通道数的特征图进行调整，变成每一个特征图的权重：

（2）

这里

表示Relu函数，

表示sigmoid函数。然后将得到的权重与原输入的特征图进行相乘得到新的特征图：

（3）

Encoding编码层采用的SAP方法的具体的实现是：将特征图序列

送入一个全连接层得到一个对应的隐表示序列

，该全连接层采用tanh激活函数，也就是如下式所示：

（4）

然后引入一个可学习的参数

，具体通过如下的softmax函数来衡量某一帧的重要性，得到重要性权重：

（5）

从而，整个句子的特征表示e就可以表示为对帧层所有特征的一个加权求和：

（6）

对于训练语料中的每一句语音录音，都按照步骤S1转换成一个二维数据，并配合其对应的录音设备源标注一起构成训练集，然后送入如表1所示的含有注意力机制的深度残差神经网络中进行模型训练。神经网络训练采用Adam算法，损失函数采用softmax损失。学习率设置为0.001，且每迭代10次学习率衰减0.05，模型训练总的迭代次数设置为200。基于经过神经网络输出的录音设备特征表示的softmax损失函数的定义如下：

（7）

这里的C表示训练集中的录音设备种类（本实施例中为14），N表示每个batch所包含的录音句子数（默认batch中的每一个录音句子都来自不同的录音设备，所有本实施例中

）。这样的话，训练集中的一个batch，某一个语音录音句子经神经网络转换后得到的设备特征表示为

，同时，其相应的类别标注为

。

S3：设备源确认场景1：给定两段语音录音T1和T2，判断其是否来自同一录音设备。分别将两段待测试的语音录音T1和T2按照步骤S1进行转换之后送入训练好的深度神经网络，分别得到其对应的深度残差神经网络输出的设备特征表示re1和re2，然后计算re1和 re2的平方欧式距离，并将该距离与门限值

相比较，如果小于门限值，则判定为这两段语音录音是否来自于同一录音设备源，否则判定为不是来自同一录音设备源。

设备源确认场景2：给定一段测试录音T1及一个录音设备D1（以及该录音设备所录制的m句语料），判定该测试录音是否来自与该录音设备。将D1设备的N句预料按照步骤S1进行转换之后送入训练好的深度神经网络，分别得到m个特征表示：

然后对这m个特征表示取算术平均值来作为该录音设备的特征表示：

（8）

同样，将待测试录音T1按照步骤S1进行转换之后送入训练好的深度神经网络得到其对应的深度残差神经网络输出的特征表示

。接着计算

和

的平方欧式距离，并将该距离与门限值

相比较，如果小于门限值，则判定为测试语音确实来自于该录音设备，否则判定为不是来自该录音设备。

在以上的描述中阐述了很多具体细节以便于充分理解本发明。但是以上描述仅是本发明的较佳实施例而已，本发明能够以很多不同于在此描述的其它方式来实施，因此本发明不受上面公开的具体实施的限制。同时任何熟悉本领域技术人员在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种语音设备源确认方法，其特征在于，包括以下步骤：

S1：将训练集语料中的每一句语音录音中的语音信号进行加窗分帧，然后进行快速傅里叶变换（FFT）转换到频域，之后提取N维的频域特征参数，对每一句语音录音提取M帧，得到一个

的二维数组将其作为输入；

S3：利用已训练好的模型对待测语音进行确认检测。

2.根据权利要求1所述的确认方法，其特征在于，所述步骤S3包括：分别将两段待测试的语音录音按照步骤S1进行转换之后送入已训练好的深度神经网络，分别得到神经网络输出的录音设备特征表示，然后计算这两个特征表示的距离尺度，并将该距离尺度与门限值相比较以判定这两段语音是否来自于同一录音设备源。

3.根据权利要求1所述的确认方法，其特征在于，所述步骤S3包括：将待测试的语音录音按照步骤S1进行转换之后送入训练好的深度神经网络，得到该待测试录音的神经网络输出的录音设备特征表示，同时也对该录音设备的已知录音同样提取其设备特征表示，然后取算术平均值以作为该录音设备的特征表示，计算这两个特征表示的距离，并将该距离与门限值