CN107274912B

CN107274912B - 一种手机录音的设备来源辨识方法

Info

Publication number: CN107274912B
Application number: CN201710570824.6A
Authority: CN
Inventors: 罗达; 黄继武
Original assignee: Shenzhen University; Dongguan University of Technology
Current assignee: Shenzhen University; Dongguan University of Technology
Priority date: 2017-07-13
Filing date: 2017-07-13
Publication date: 2020-06-19
Anticipated expiration: 2037-07-13
Also published as: CN107274912A

Abstract

本发明提供的手机录音的设备来源辨识方法通过频带能量差特征来进行设备来源辨识，由于频带能量差特征能够表征设备相邻频带响应的平均强弱程度，因此可以利用分类器技术来对手机录音的设备来源进行辨识。

Description

一种手机录音的设备来源辨识方法

技术领域

本发明涉及多媒体信号处理技术领域，更具体地，涉及一种手机录音的设备来源辨识方法。

背景技术

在司法取证过程中，一个很重要的取证环节是鉴定信息来源。通常每一件物证都需要做来源的鉴定。对于多媒体信息而言，其来源通常是获取信息的设备。譬如对于图像来说，其来源于摄像机或者数码相机，音频来源于录音机或录音笔等。近年来，智能手机的快速发展，使得用户可以很方便地用手机进行录影或者录音。因此对手机的录音来源进行认证，也成了一项重要的取证任务。

手机源辨识，主要包含两种典型任务，识别任务及鉴定任务：

(1)来源识别任务：识别任务是具有先验知识的辨识问题，已知某段录音的录制设备属于一组已知的手机中的某一个，任务是识别出哪一个手机是该段录音的录制设备。

(2)来源鉴定任务：鉴定任务是没有先验知识的辨识问题，给定某一段录音以及一个手机设备，要求鉴定此段录音是否真的来源于此手机。

音频设备辨识技术发展得较慢，最近几年才开始有学者开展相关的研究工作。国外学者Kraetzer和Dittmann在麦克风鉴定工作方面有着较为深入的研究，他们在文献^[1]中第一次提出了估计麦克风的型号以及环境的位置(提取了隐写分析技术中常用的7个音频时域统计量及基于梅尔倒谱的56维系数特征)，对于几款麦克风设备的识别任务准确率为75％左右；随后，他们又提出一种频谱系数统计方法^[2]，首先从音频的“近静音帧”中提取其频谱系数作为特征，然后使用SVM分类器进行分类，对七款麦克风的识别任务可达93.5％的准确率；在他们的另一个文献^[3]中，详细地分析了大量分类器及分类特征在麦克风分类问题上的性能。Espy-Wilson等^[4]也提出了一种基于不同的内在统计特性的方法用于分类8个电话语音及8个麦克风的语音，准确率达到90％以上。最近的工作是文献^[5]在MFCC系数的基础上建立了高斯超向量(GSV)，并利用它的稀疏特性来分类手机录音设备的指纹。

目前，由于对音频的理解还比较抽象，此类工作暂时未能指明所提取的特征的物理意义。因此也难以深入研究所提出的特征对于研究音频来源辨识问题的确切作用。另外，以上所提及的文献中，实验中使用的设备数量最多只有22个，更大规模的实验有待测试。

参考文献：

[1]Kraetzer C,Oermann A,Dittmann J,et al.Digital audio forensics:afirst practical evaluation on microphone and environment classification[C].Proceedings of the 9th workshop on Multimedia and Security,2007:63-74.

[2]Buchholz R,Kraetzer C,Dittmann J.Microphone classification usingfourier coefficients[C].In Proceedings of the 11th Workshop on InformationHiding,2009:235-246.

[3]Kraetzer C,Qian K,Schott M,Dittmann J.A context model formicrophone forensics and its application in evaluations[C].IS&T/SPIEElectronic Imaging.International Society for Optics and Photonics,2011,78800P-78800P-15.

[4]Garcia-Romero D,Espy-Wilson C Y.Automatic acquisition deviceidentification from speech recordings[C].In Proceedings of InternationalConference on Acoustics Speech and Signal Processing,2010:1806-1809.

[5]Zou L,He Q,Wu J.Source cell phone verification from speechrecordings using sparse representation[J].Digital Signal Processing,2017(62):125-136.

发明内容

本发明提供的方法对录音的波形信号进行分析，提出“频带能量差特征”，它是能够有效刻画“录音设备频率响应特性”的指纹特征，然后利用分类器进行分类，可以有效地进行手机录音设备辨识(包括识别任务及鉴定任务)。本发明可协助音频取证司法部门的取证过程，提高取证的效率。

为实现以上发明目的，采用的技术方案是：

一种手机录音的设备来源辨识方法，包括以下步骤：

S1.对若干训练样本按照(1)～(5)的方式进行特征的提取，然后基于提取的特征对分类器进行训练；

S2.对测试样本按照(1)～(5)的方式进行特征的提取，然后将测试样本提取的特征输入至训练好的分类器内，分类器输出分类结果，实现对测试样本的设备来源辨识；

(1)对于一段训练样本/测试样本，将其平均分为T帧音频帧，并为每一帧音频帧加汉明窗；

(2)对音频帧求取其傅里叶窄带频谱，得到音频帧的傅里叶频域系数；

(3)对于音频帧的傅里叶频域系数，求取其相邻的两个系数之间的差值；

(4)令(3)中得到的相邻的两个系数之间的差值进行二值化，得到音频帧的二值化信号；

(5)对训练样本/测试样本中的每一帧音频帧执行步(2)～(4)的操作，得到每一帧音频帧的二值化信号，将训练样本/测试样本中的所有音频帧的二值化信号在“帧”的维度上求均值，得到训练样本/测试样本的特征。

与现有技术相比，本发明的有益效果是：

本发明提供的方法通过频带能量差特征来进行设备来源辨识，由于频带能量差特征能够表征设备相邻频带响应的平均强弱程度，因此可以利用分类器技术来对手机录音的设备来源进行辨识。

附图说明

图1为频带能量差特征的示意图。

图2为特征识别分类的t-SNE示意图。

图3为用于识别任务的SVM检测框架示意图。

图4为用于鉴定任务的SVM检测框架示意图。

图5为识别任务的平均检测准确率的示意图。

图6在CC数据集上识别任务的检测准确率及比较结果的示意图。

图7为在CC数据集上识别31部手机的准确率的示意图。

图8为在UC数据集上识别141部手机的准确率分布图。

图9为在CC数据集上鉴定任务的正检率(TPR)及误报率(FPR)的示意图。

图10为在CC数据集上鉴定任务的ROC曲线的比较图。

图11为在UC数据集上鉴定任务的实验结果图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

本发明提供的方法无论是对测试样本，抑或是对训练样本，均是通过同样的方式来进行特征提取的。其中所述测试样本或训练样本是通过不同手机采集录音所获得的录音文件，其被存储为无压缩的WAV格式文件，经过裁剪后形成若干2秒钟长度的录音片段。

其中对测试样本或对训练样本进行特征提取的具体过程如下：

a)测试样本/训练样本首先被分帧，得到若干帧音频帧，然后为每一帧音频帧加汉明窗。记测试样本/训练样本为s，帧长度为N＝256，将测试样本/训练样本分成为T帧音频帧，每帧音频帧记为s^(t),其中t＝1,2,...,T是帧编号。设H是窗口大小为N个元素的汉明窗系数。加窗后的信号记为

x^(t)＝Hs^(t)。

b)对于所有加窗后的音频帧，求取傅里叶窄带频谱(由于傅里叶变换具有对称性，求取后只保留一半的谱系数)。设

表示上述x^(t)第n个样本点的值，ABS表示求模运算。第t帧音频帧的第k个傅里叶频谱系数的绝对值的计算公式为：

c)对于每一帧音频帧得到的傅里叶频域系数(可视为频带能量)，求相邻系数的差值(相邻频带能量值的差分信号)，即

d)对上述获得的相邻频带的差分信号，做二值化处理。若差值大于等于零，记为1；否则记为0。此操作得到二值化信号(表征相邻频带的强弱关系)。第t帧第k个频带差指纹记为

其中，k＝1,2,...,N/2-1。

e)求取设备指纹：对于训练样本/测试样本中的每一帧音频帧重复上述的步骤(b-d)，获取所有音频帧的二值化信号之后，可以求取代表训练样本/测试样本来源手机的“频带能量差特征”。其方法是：将所有音频帧的二值化信号在“帧”的维度上求均值，计算公式如下：

特征向量D具有k个元素，代表设备相邻频带响应的平均强弱程度，可认为是表征录音设备的指纹。

利用LibSVM分类器对上述步骤e)中得到的特征进行训练，得到一个能鉴定录音设备来源的分类器模型Model。分为“识别任务”与“鉴定任务”两类模型。

a)识别任务：具有部分先验知识，已知录音的来源手机在一个设备列表中，要求分析并找出该设备。它属于机器学习中的“多分类”问题。模型训练数据应包含设备列表中的每一部手机的录音样本，并将每一部手机的录音样本标记为一个类别的数据。对“多个类别”的录音样本进行特征提取，用于训练一个“多分类”的SVM分类器模型。

b)鉴定任务：没有任何先验知识，对于给定的一个录音以及一个手机，要求鉴定这个录音是否来源于该手机。它属于机器学习中的“二分类”问题，判定结果有两种情况：第一种判定结果是，该录音属于这部手机(目标手机)；第二种判定结果是，该录音不属于这部手机(非目标手机)。对应地，模型训练数据应包括目标手机的录音数据，以及非目标手机的录音数据。对这两类录音样本进行特征提取，用于训练一个SVM分类器模型。

2)利用分类器对录音来源进行判别:

首先按上述方法过程进行特征提取，然后使用分类器Model进行判别。

实施例2

不同设备间具备不同的频率响应方式，通常其性质会反映在音频的频率谱上。分析发现，对于不同设备，其相邻窄带的频率能量具有一定差异，而且这种差异是稳定存在的。通过这种“频带能量差”可以构建频率响应曲线(设备指纹)。图1是十一部手机设备“频带能量差特征”的示意图。使用11部设备采集的音频中，包含4个人的语音(2男2女,图中标注M1/M2/F1/F2)以及在两个地点的录音(图中标注为地点@A和@C)。从图中可以看出，每一部设备在不同条件下的特征曲线形状相似且在相同位置出现波峰波谷，而不同的设备却具有不同的形状(频率响应模式)。

为了展示“频带能量差特征”在手机设备识别任务上的区分能力，本实施例使用t-SNE可视化技术对31部手机的录音进行分类(如图2所示)。即使仅使用2维的映射关系，依然可以看出31部手机的录音样本，被很好地划分在不同区域，展示出“频带能量差特征”在识别任务上所具有的强大分辨能力。

本发明采用支持向量机(SVM)进行分类。在识别任务及鉴定任务这两种问题中，SVM的使用方式略有不同。

图3展示了用于识别任务的SVM检测框架示意图。识别任务属于机器学习中的“多分类”问题，需要在相似的环境采集多个手机设备的录音样本，对它们提取特征之后用于训练一个“多类多标号”的SVM模型。对待测定的样本进行识别时，首先从样本提取特征，然后使用SVM模型进行鉴定，模型将会给出对应的手机设备编号。

图4展示了用于鉴定任务的SVM检测框架示意图。鉴定任务属于机器学习中的“二分类”问题，对于目标手机及非目标手机，都需要在相似的环境采集录音样本，并提取特征。注意到“非目标手机”的数据应从多部手机获取才能更精确地建立模型。所提取的特征将用于建立一个“两类”分类的SVM模型，用于区分“目标手机类”及“非目标手机类”的数据。对待测定的样本进行鉴定时，首先从样本提取特征，然后使用SVM模型进行鉴定，模型将会判定录音是否属于目标手机。

下面给出本发明方法的一些实验结果。

本实施例录制了2个手机录音数据集用于实验。

第一个数据集是受控数据集(controlled-conditions dataset)，以下简称CC数据集。CC数据集的语音来源一致，由固定的几位录音者在固定的地点进行录音，测试本专利所述方法的有效性。该数据集使用了31部手机，录制了一段8分钟语音(其中包含2男2女的语音各2分钟)，并在4个固定地点进行播放，31部手机分为几组同时录音，目的是保持录音内容及录音环境的一致性。该数据集对于每部手机，都在4个固定地点采集8分钟录音，31部手机共采集992分钟(16.5小时)的录音。

第二个数据集是非受控数据集(uncontrolled-conditions dataset)，以下简称UC数据集。UC数据集的录音内容不一致，由130多位录音者在不同地点进行录音，目的是测试本专利所述方法的扩展性。该数据集使用了141部手机，大部分手机至少有2个录音者参与了录制；每个手机采集了10分钟录音,因此该数据集总共有1410分钟(23.5小时)的录音。

对识别任务以及鉴定任务两个问题进行实验，本实施例分别给出实验结果。

第一部分：识别任务

实验一：为了验证本专利的算法有效性，首先考虑在受控的CC数据集上训练SVM模型(31类分类器)用于分类31部手机。同时，实验中考虑“跨场景”的情况。所谓场景是指某一个人在某个具体点所进行的录音，一个场景可以使用一个【录音者、地点】组合来描述。实验中，训练数据来源于某一个场景(一个【录音者、地点】组合)，而测试的时候，使用另一个场景的数据进行测试。每一类手机对应的数据将随机选择50％用于训练，而剩余50％数据用于测试。实验重复20次，并获得平均检测准确率。实验结果见图5，图中每行每列均为一个场景(2位男性及2位女性录音者分别标记为M1/M2/F1/F2，四个固定地点分别标记为A/B/C/D)。图中对角线的数值代表着训练与测试在相同环境下的检测识别率，平均准确率达到99％以上。而对于跨场景(训练/测试)的情况，虽然识别准确率明显降低了，但值得注意的是，若地点相同(但录音者不同)，平均检测率依然达到80％以上。

实验二：本实验考虑“跨录音者”的相关实验。对于一位“录音者S”，本实施例使用其他3个人的录音数据训练一个SVM模型，而将该模型用于测试“录音者S”的录音数据。对于每个固定地点的数据，分别重复上述实验20次，并获得检测准确率的均值及标准差，结果展示于图6。图中还将本专利的实验结果与基于MFCC特征的结果以及目前该领域最先进的Kraetzer AFF特征做比较。可见本专利的技术在不同地点的准确率达到95.8％到98.1％，明显优于现有的最先进技术。在上述实验中可统计得到对每一部手机单独的识别准确率，结果(混淆矩阵，confusion matrix)展示于图7。其中，对角线数据显示对大部分手机识别准确率超过97％。

实验三：在大规模的非受控UC数据集上进行实验，训练一个模型用于同时区分141部手机(即建立一个区分141类的SVM分类器)。141部手机的检测准确率分布图如图8所示。此箱盒图中，长方形上下沿分别代表75％分位及25％分位，而横线是中位数。在UC数据集上，本专利的技术可以获得99.1％的平均分类准确率。作为比较，使用MFCC特征以及Kraetzer AFF特征的平均分类准确率分别为93.8％以及98.0％。

第二部分：鉴定任务

实验四：在受控的CC数据集上进行鉴定任务的实验，对于每一部目标手机，重复了20次如下实验。

在剩余的30部手机中随机选择10部作为“非目标手机”的训练集。另外20部手机则作为模型的测试集(它们不参与训练过程)。模型训练时，使用目标手机中随机挑选的50％数据及非目标手机的数据进行SVM训练。模型测试使用目标手机的剩余50％数据以及另外20部手机的数据。图9展示了本专利的频带能量差特征在CC数据集上鉴定任务的实验结果。图中的31列代表31个设备20次实验的正检率(图中的上半部分)及误报率(图中的下半部分)的分布。实验结果表明，专利所述方法可以获得高达99.8％的正检率及6.8％的误报率。通过SVM的输出概率对正检率及误报率进行控制，绘制了ROC曲线，如图10所示。本专利的特征在误报率为1％的情况下，依然可以获得89％的正检率。作为对比，相同条件下，使用MFCC特征以及Kraetzer AFF特征将会得到很低的正检率(低于60％)。

实验五：在大规模的非受控UC数据集上进行实验，本实验集中于以下两方面：(1)用于训练的非目标手机的数目的影响；(2)相同品牌手机的影响。实验结果展示于图11中。对于前一个问题，考虑随机选取5部、10部、20部手机来构建“非目标手机类”的训练数据。相应地，在141部手机中，除去目标手机，剩余的135部、130部、120部手机的数据将用于测试。对于每一部目标手机，实验均被重复20次，图中左部两个子图分别展示了3种情况下的正检率及误检率。可见随着非目标类手机数目的增多，误检率随着降低，这在实际应用中具有重要意义。对于后一个问题，实验测试了苹果、华为、小米这三个品牌的手机(注：数据集141部手机中苹果手机有45部；华为、小米这两个品牌各有25部)。每一品牌的所有手机分别进行一组实验，实验中，随机选择10部与目标手机相同品牌的手机构成“非目标手机类”的训练数据；而其他的相同品牌的手机则作为测试数据。图中右部两个子图分别展示了3组品牌手机的正检率及误检率。从实验结果可见，本专利的技术在鉴定相同品牌手机时也可以取得较好的结果。

综上，本发明的技术可以很好地对录音的手机设备进行识别及鉴定。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种手机录音的设备来源辨识方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的手机录音的设备来源辨识方法，其特征在于：所述音频帧加汉明窗的过程具体如下所示：

x^(t)＝Hs^(t)

其中H表示汉明窗系数，s^(t)表示第t帧音频帧，x^(t)表示加汉明窗后的第t帧音频帧。

3.根据权利要求2所述的手机录音的设备来源辨识方法，其特征在于：所述音频帧的傅里叶频域系数的计算过程如下：

其中

表示第t帧音频帧的第k个傅里叶频域系数，N表示训练样本/测试样本的帧长度；

表示加汉明窗后的第t帧音频帧的第n个样本点的值；ABS表示求模运算。

4.根据权利要求1～3任一项所述的手机录音的设备来源辨识方法，其特征在于：所述分类器为支持向量机。