CN109935234A

CN109935234A - 一种对录音鉴定来源设备的方法

Info

Publication number: CN109935234A
Application number: CN201910139288.3A
Authority: CN
Inventors: 罗达; 张剑; 袁华强
Original assignee: Dongguan University of Technology
Current assignee: Dongguan University of Technology
Priority date: 2019-02-22
Filing date: 2019-02-22
Publication date: 2019-06-25
Anticipated expiration: 2039-02-22
Also published as: CN109935234B

Abstract

本发明公开了一种对录音鉴定来源设备的方法，包括以下步骤：S1：将待鉴定的设备分为两类，一类定义为目标设备，另一类是非目标设备；S2：将上述的两类设备分别进行声音的采集，然后进行预处理，使其满足堆叠自编码器的要求；S3：两类设备的音频样本通过预处理之后得到的输出结果，用于训练堆叠自编码器，得到堆叠自编码器的相关参数；S4：目标设备的音频样本的预处理的输出结果用作堆叠自编码器的输入，将堆叠自编码器的内源性优化特征用于训练LPDD单分类模块；所述的堆叠自编码网络的输出定义为内源性优化特征；S5：通过训练后的堆叠自编码器及训练后的LPDD单分类模块，对待鉴定设备的录音样本进行判别。

Description

一种对录音鉴定来源设备的方法

技术领域

本发明涉及多媒体信号处理领域，更具体地，涉及一种对录音鉴定来源设备的方法。

背景技术

录音材料作为证据若要被法庭采信，需要证实其来源、完整性及真实性。其中，证明录音来源于某一个声称的设备，是一项重要的取证任务。近年来，智能手机的快速发展，使得用户可以很方便地用手机获取录音。因此对手机的录音来源进行鉴定，也成了一项重要的取证任务。

手机录音来源的设备鉴定任务，具体是指给定某一段待测录音以及一个手机设备，要求鉴定此段录音是否真的由该手机录制得到。这是在没有任何先验知识的情况下，要对“待测录音”进行分析判断和鉴定。

录音设备来源的辨识技术发展得较慢，最近十年才开始有学者开展相关的研究工作。国外学者Kraetzer和Dittmann在麦克风鉴定工作方面最开始进行研究，他们在“Digital audio forensics:a first practical evaluation on microphone andenvironment classification(Proceedings of the 9th workshop on Multimedia andSecurity，2007:63-74)”第一次提出了估计麦克风的型号以及环境的位置(提取了隐写分析技术中常用的7个音频时域统计量及基于梅尔倒谱的56维系数特征)。其次，他们在“Acontext model for microphone forensics and its application in evaluations(IS&T/SPIE Electronic Imaging.International Society for Optics and Photonics，2011，78800P-78800P-15)”详细地分析了大量分类器及分类特征在麦克风分类问题上的性能。Espy-Wilson等在“Automatic acquisition device identification from speechrecordings(In Proceedings of International Conference onAcoustics Speech andSignal Processing,，2010:1806-1809)”早期也提出了一种基于不同的内在统计特性的方法用于分类8个电话语音及8个麦克风的语音，准确率达到90％以上。Hanilci等在“Sourcecell-phone recognition from recorded speech using non-speech segments(DigitalSignal Processing.2014(35):75–85)”2014年提出了在非语音段使用GMM的手机设备表征方法。Cuccovillo等在“Open-set microphone classification viablind channelanalysis(Proceedings of IEEE International Conference Acoustic SpeechSignalProcessing,2016,2074–2078)”2016年提出基于信道盲分析的分类方法。最近几年来的研究工作主要包括Jiang等“Mobile phone identification from speechrecordings using Weighted Support Vector Machine(Proceedings of Conference ofIEEE Industrial Electronics Society.2016.963-968)”提出的基于加权调整支持向量的方法来对手机设备进行分类，及Zou等在“Source cell phone verification fromspeech recordings using sparse representation(Digital Signal Processing,2017(62):125-136)”MFCC系数的基础上建立了高斯超向量(GSV)的稀疏表示来分类手机录音设备。

目前，由于多数研究采用抽象特征，此类工作暂未能指明所提取特征的物理意义，因此也难以深入研究特征对于音频来源辨识问题的确切作用。另外，以上所提及的文献中，实验中使用的设备数量最多只有22个，更大规模的实验有待测试，无法满足现实中的需求。

发明内容

本发明克服了现有的技术缺陷，提供了一种新的一种对录音鉴定来源设备的方法。本发明依据录音设备的频率域特性，使用深度学习中的堆叠自编码器的特征提取特征，对手机设备的特征进行内源性优化，使之能够更有效地表征“目标手机设备”的特征。然后对所提取的特征，使用单分类技术进行分类，从而可以有效地鉴定录音的来源手机。

为解决上述技术问题，本发明的技术方案如下：

一种对录音鉴定来源设备的方法，其特征在于，包括以下步骤：

S1：将待鉴定的设备分为两类，一类定义为目标设备，另一类是非目标设备；

S2：将上述的两类设备分别进行声音的采集，然后进行预处理，使其满足堆叠自编码器的要求；

S3：两类设备的音频样本通过预处理之后得到的输出结果，用于训练堆叠自编码器，得到堆叠自编码器的相关参数；

S4：目标设备的音频样本的预处理的输出结果用作堆叠自编码器的输入，将堆叠自编码器的内源性优化特征用于训练LPDD单分类模块；所述的堆叠自编码网络的输出定义为内源性优化特征；

S5：通过训练后的堆叠自编码器及训练后的LPDD单分类模块，对待鉴定设备的录音样本进行判别。

在一种优选的方案中，所述的S2包括以下流程：

S2.1：通过上述两类设备分别进行声音的采集，并将采集的语音信号分为若干段音频样本；

S2.2：将S2.1中的每段音频样本分为若干帧语音数据，并对每帧语音数据进行傅里叶变换，得到每帧语音数据的二值化向量；

S2.3：循环执行S2.2，直至得到S2.1中的一段音频样本所有帧语音数据的二值化向量，求取一段音频样本的二值化向量平均值，将一段音频样本的二值化向量平均值定义为一段音频样本的频带差分统计特性；将一段音频样本的频带差分统计特征定义为对一段音频样本预处理的结果；

S2.4：循环执行S2.3，直到得到S2.1中的所有音频样本的预处理结果。

在一种优选的方案中，所述的S2.2包括以下内容：

S2.2.1：对每帧语音数据加汉明窗进行处理，然后再通过傅里叶变换得到傅里叶窄带频谱系数(因傅里叶变换具对称性，只保留一半谱系数)；

S2.2.2：对每帧语音数据的傅里叶窄带频谱系数按照频率顺序进行排序，得到每帧语音数据的傅里叶窄带频谱系数序列；

S2.2.3：求取每帧语音数据的傅里叶窄带频谱系数序列中相邻系数的差值(差分信号)，再进行二值化处理：

若差值大于等于零，记为1；

若差值小于零，记为0；

S2.2.4：定义每帧语音数据的二值化处理后的差值为每帧语音数据的二值化向量。

在一种优选的方案中，所述的S3包括以下内容：

S3.1：对堆叠自编码器进行训练，堆叠自编码的网络首层的输入是音频样本的预处理的输出结果；

S3.2：以无监督学习方式逐层训练堆叠自编码器，训练结束之后为堆叠自编码器的网络添加最后一层2个结点，所述的2个节点分别代表目标设备的音频样本及非目标设备的音频样本，然后通过有监督学习的方式进行堆叠自编码器的调优阶段；

S3.3：调优阶段结束之后将堆叠自编码器的网络的最后一层的2个结点的输出层丢弃，将堆叠自编码器组成的神经网络的最后一个隐藏层的输出结果定义为堆叠自编码器的输出结果。

本优选方案中，堆叠自编码器的调优阶段使用“目标设备”及“非目标设备”两类样本进行有监督学习，其目标是最大化两类样本的距离，以优化获得的“目标设备”内源性特征。

在一种优选的方案中，所述的S4包括以下内容：

对目标设备获得的音频样本进行预处理，预处理的输出结果作为堆叠自编码器的输入，通过堆叠自编码器求取内源性优化特征，再通过音频样本的内源性优化特征训练LPDD单分类器模块。

在一种优选的方案中，所述的S5包括以下流程：

S5.1：将待鉴定设备的录音样本进行预处理，使其满足堆叠自编码器的要求；

S5.2：将待鉴定设备的录音样本的预处理的输出结果作为训练后的堆叠自编码器的输入，得到待鉴定设备的录音样本的内源性优化特征；

S5.3：训练后的LPDD单分类模块对S5.2中的内源性优化特征进行判别，判断待鉴定的录音样本是否属于目标设备。

在一种优选的方案中，为便于观察特征，可以通过t-SNE可视化技术进行检视，内置一个将数据进行无监督降维到2维尺度的聚类器。使用t-SNE，实现对“目标设备”与“非目标设备”样本的内源性优化特征的可视化。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过堆叠自编码器和LPDD单分类技术，实现了在大型数据集上对声音设备的溯源鉴别功能，而且鉴别的准确率很高，速度很快。本发明大大降低了司法取证的难度，提高了司法取证的效率，为司法审判提供了重要的技术支持。

附图说明

图1为实施例1的方法框架图。

图2为实施例1的是堆叠自编码器的训练过程示意图。

图3为实施例1中通过t-SNE技术实现的示意图。

图4为实施例2中为五种不同的堆叠编码器及不同训练迭代次数下的平均检测率对比示意图。

图5为实施例2中不同单分类器及其拒绝率阈值参数情况下的平均准确率示意图。

图6为实施例2中不同的调优迭代次数对平均准确率的影响示意图。

图7为实施例2中对CC数据集31部手机的正检率及虚警率示意图。

图8为实施例3中对UC数据集3种训练集下“目标类”及“非目标类”准确率示意图。

图9为实施例3中对UC数据集中不同品牌的手机的平均检测准确率示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种对录音鉴定来源设备的方法，包括以下步骤：

S2.1：通过上述两类设备分别进行声音的采集，存储为无压缩WAV格式文件，并将采集的语音信号分为若干段2秒长度的音频样本；

S2.2.1：对每帧语音数据加汉明窗进行处理，然后再通过傅里叶变换得到傅里叶窄带频谱系数；

S2.2.3：求取每帧语音数据的傅里叶窄带频谱系数序列中相邻系数的差值，再进行二值化处理：

若差值大于等于零，记为1；

若差值小于零，记为0；

S2.2.4：定义每帧语音数据的二值化处理后的差值为每帧语音数据的二值化向量；

S2.4：循环执行S2.3，直到得到S2.1中的所有音频样本的预处理结果；

S3.2：以无监督学习方式逐层训练堆叠自编码器，堆叠自编码器具有3个隐层，第1隐层具有200个节点，第2隐层具有100个节点，进行50次迭代；训练结束之后为堆叠自编码器的网络添加最后一层2个结点，所述的2个节点分别代表目标设备的音频样本及非目标设备的音频样本，然后通过有监督学习的方式进行堆叠自编码器的调优阶段；

S3.3：调优阶段结束之后将堆叠自编码器的网络的最后一层的2个结点的输出层丢弃，将堆叠自编码器组成的神经网络的最后一个隐藏层的输出结果定义为堆叠自编码器的输出结果，如图2所示；

S4：对目标设备获得的音频样本进行预处理，预处理的输出结果作为堆叠自编码器的输入，通过堆叠自编码器求取内源性优化特征，再通过音频样本的内源性优化特征训练LPDD单分类器模块，LPDD单分类器模块的单分类拒绝率＝0.02；

S5：通过训练后的堆叠自编码器及训练后的LPDD单分类模块，对待鉴定设备的录音样本进行判别；

实施例还可以进行以下优化：

通过t-SNE可视化技术进行检视，它内置一个将数据进行无监督降维到2维尺度的聚类器。使用t-SNE可视化技术，我们对“目标设备”与“非目标设备”样本的内源性优化特征进行可视化动作。如图3所示。图中圆形代表“目标设备”的样本点，而十字星代表“非目标设备”的样本点。绝大部分十字星样本点与圆形样本点已经隔离，只有少数(测算约占4％)圆形十字星样本点处于分类边界。这也反映了所提取的优化特征，可以很好地分辨目标设备及非目标设备的样本。

实施例2

实施例2是基于实施例1和受控数据集(controlled-conditions dataset，简称CC数据集)进行的实验。本次CC数据集使用了31台手机。为了保证CC数据集中的语音来源一致，该数据集由固定的几位录音者在固定的地点进行录音。录制了一段8分钟语音，其中包含2男2女的语音各2分钟，并在4个固定地点进行播放，31台手机分为几组同时录音，目的是保持录音内容及录音环境的一致性。CC数据集对于每部手机，都在4个固定地点采集8分钟录音，31部手机共采集992分钟(16.5小时)的录音。

CC数据集中选定其中的1部手机，将它列为“目标手机设备”，则其他的30部手机均为“非目标手机设备”。在实验中，训练堆叠自编码器时，从这30部设备中随机(统计结果时重复实验取均值)选取10部的录音样本，作为“非目标手机设备”的训练样本。另外20部手机的样本不参与训练。它们的样本视作堆叠自编码器模型无法预见的情况。该采样方法目的是测试模型的健壮性，因为现实情况中训练数据不可能取自所有手机的样本。

对于每一部手机获取的录音样本，实验随机使用其中约20％的录音样本用作训练，而剩下的录音样本则作为测试数据。在堆叠自编码器和单分类装置训练结束后。测试及算法评估方法如下：

(1)将所有“目标手机”的测试数据作为待测样本，求取特征后使用单分类器装置进行鉴定。计算“目标类别”的准确率如下：

目标类准确率＝鉴定为目标类的数量÷样本总数×100％

(2)将所有“非目标手机”测试数据作为待测样本，求取特征后使用但单类器装置进行鉴定。计算“非目标类别”的准确率如下：

非目标类准确率＝鉴定为非目标类的数量÷样本总数×100％

(3)对于某一部手机设备的“个体设备准确率”计算如下：

个体设备准确率＝(目标类准确率+非目标类准确率)÷2。

对于数据集内的每一部手机设备，都将为它建立一个单分类装置，测试它的个体设备准确率。对于CC数据集上的31部手机，将会获得31组结果。然后将所有手机的个体设备准确率取均值，将得到的平均准确率。平均准确率是本次算法的主要衡量标准。在CC数据集上，我们进行了若干组实验。

实验结果如下：

(1)评估不同的堆叠自编码器网络架构及参数对实验结果的影响，堆叠自编码器网络的隐藏层结构使用一个向量进行表示，向量中每个元素代表“隐层”的结点数量。例如向量[200 100 50]所代表的网络，具有3个隐层，第1隐层具有200个节点，第2隐层具有100个节点，以此类推。通过选取了五组不同的网络架构进行实验，实验结果如图4所示，不同的网络架构得到的平均准确率差异不大，说明堆叠自编码器具有较好的鲁棒性，多种网络架构都可以输出较好的内源性优化特征。

(2)评估以下5种单分类方法：LPDD(线性规划数据表示)、KMeans-DD、PCA-DD、SOM-DD(自组织映射)、MPM-DD(极值概率机)对实验结果的影响。单分类器的重要参数是“单分类拒绝率”，体现的物理意义是把该类“样本”中处于分类边缘上的“边界数据”当作“异类”的比率。实验结果如图5所示，LPDD单分类器模块的效果比其他4中单分类方法都好，LPDD单分类器模块取0.01-0.03都可以达到很好的分类效果。

(3)堆叠自编码器调优阶段不同的迭代次数对实验结果的影响。如图6所示，不同的调优迭代次数的平均准确率箱盒图，它代表着若干次实验的结果的范围。从图6中可发现，迭代次数过少时性能较差，迭代次数提高到200代以后，性能达到最佳水平，平均可以达到96.50％的准确率。

(4)如图7所示，CC数据集中正检率均值约为95.95％且分布均匀；虚警率均值为3.0％，其分布方面，大部分手机设备虚警率很低，但极个别设备稍高。

(5)表1展示了不同训练集大小情况下，所训练得到的模型对目标类及非目标类的检测情况以及平均准确率。

表1不同训练集大小对性能的影响

实施例3

实施例3是基于实施例1、实施例2和非受控数据集(uncontrolled-conditionsdataset，简称UC数据集)进行的实验。UC数据集由130多位录音者在不同地点进行录音，目的是测试本专利所述方法的扩展性。UC数据集使用了141部手机，大部分手机至少有2个录音者参与了录制；每个手机采集了10分钟录音，因此该数据集总共有1410分钟(23.5小时)的录音。

(1)评估训练数据中非目标手机的数目的影响。每一次实验，要在141部手机中选取1部目标手机以及多部非目标手机，考虑随机选取5部、10部、20部手机来构建“非目标类”的训练数据。相应地，在141部手机中，除去目标手机及用于训练的非目标手机，余下的135部、130部、120部手机的数据将用于测试。对每一部手机，重复进行5批次实验，最终求平均准确率。图8展示了3种数据集选取方式下“目标类准确率”及“非目标类准确率”。训练中使用更多“非目标类”手机，则此类的识别率会更高。结果表明，采用10个设备作为“非目标类”训练集的情况下，两个类别的平均可达到96.53％准确率。实验表明本技术方案对大规模数据也可获得相似性能，具有较高拓展性。

(2)评估不同品牌手机的实验准确率，主要集中评估苹果、华为、小米这三个品牌的手机。UC数据集141部手机中苹果手机有44部；华为、小米这两个品牌各有25部。将每一个品牌的手机分为一组。图9展示了这三组品牌的手机的检测平均准确率范围，它们的平均准确率也都集中在96-97％。实验结果可见，本技术方案对同类品牌手机录音来源的鉴定，也可取得很好的结果。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种对录音鉴定来源设备的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的对录音鉴定来源设备的方法，其特征在于，所述的S2包括以下流程：

3.根据权利要求2所述的对录音鉴定来源设备的方法，其特征在于，所述的S2.2包括以下内容：

若差值大于等于零，记为1；

若差值小于零，记为0；

4.根据权利要求1至3中任一权利要求所述的对录音鉴定来源设备的方法，其特征在于，所述的S3包括以下内容：

5.根据权利要求4所述的对录音鉴定来源设备的方法，其特征在于，所述的S4包括以下内容：

6.根据权利要求1至3中任一权利要求所述的对录音鉴定来源设备的方法，其特征在于，所述的S4包括以下内容：

7.根据权利要求1、2、3或5所述的对录音鉴定来源设备的方法，其特征在于，所述的S5包括以下流程：

8.根据权利要求4所述的对录音鉴定来源设备的方法，其特征在于，所述的S5包括以下流程：

9.根据权利要求6所述的对录音鉴定来源设备的方法，其特征在于，所述的S5包括以下流程：