CN105845132A

CN105845132A - 一种基于编码参数统计特性的aac录音文件来源识别方法

Info

Publication number: CN105845132A
Application number: CN201610163722.8A
Authority: CN
Inventors: 王让定; 金超; 严迪群
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2016-03-22
Filing date: 2016-03-22
Publication date: 2016-08-10

Abstract

本发明公开了一种基于编码参数统计特性的AAC录音文件来源识别方法，其设计思路是通过分析智能手机的AAC录音文件若干编码参数的使用特点及统计特性，从中找出不同型号手机在生成AAC录音文件时使用这些编码参数的倾向和特点，并构建区分各手机型号的特征，从而实现对AAC录音文件来源较为准确的识别，即提出了一种AAC录音文件来源识别的方法，这种识别方法具有识别准确度高、便于操作等优点。

Description

一种基于编码参数统计特性的AAC录音文件来源识别方法

技术领域

本发明涉及AAC录音文件来源的识别方法，具体是指一种基于编码参数统计特性的AAC录音文件来源识别方法。

背景技术

随着大数据时代的来临，数字多媒体呈现爆炸式地增长。但同时，多媒体数据量级和使用频率的增长也促使多媒体编辑软件得到了飞速发展，这就使得多媒体数据的伪造和篡改变得越来越容易。因此，多媒体数据规模的增长和编辑软件的发展使得我们的生活中充斥着大量的不真实、不可信的多媒体数据。为了验证多媒体数据的原始性、真实性和完整性，多媒体取证技术应运而生。目前，国内外对数字多媒体取证的研究主要集中在图像领域，而针对数字音频取证技术的研究起步相对较晚，但数字音频取证技术作为多媒体取证的重要组成部分，其实际需求仍在不断增长，也正在受到越来越多的关注。

音频来源辨识是音频取证的第一步工作，其目的是对音频的原始性进行验证，由于智能手机的快速普及，录音行为的发生变得越来越方便。在日常生活中，人们更愿意用手机这种时刻随身携带的设备去记录声音；因此，鉴别一个录音文件来自于哪款品牌型号的手机是目前音频来源取证领域里的一个热点问题，而且近些年来也已有少量学者和研究团队在这方面作了一些研究工作。例如C. Hanilci等人使用美尔倒谱系数（MFCC）作为特征对14个不同型号手机的录音文件进行区分，该方法的检测准确率达到了96.42%。在此基础上，他们对比了包括MFCC在内的4种声学特征（另外3种分别为线性倒谱系数LFCC、巴克倒谱系数BFCC和线性预测倒谱系数LPCC）在设备来源识别方面的性能。根据对比结果，他们仍然认为MFCC是最好的特征。C. L. Kotropoulos通过使用稀疏表示对2049维的对数语谱特征和2816维的高斯超向量特征成功进行了降维，并使用对应降维后的850维和120维特征对21种不同型号的手机进行了分类，在使用3种不同分类器的情况下，前者检测准确率均超过了94.84%，后者则为98.41%-100%。

这些方法虽然在音频来源设备识别方面都取得了较好的识别效果，但据我们所知，利用录音文件的码流结构以及编码参数特性实现手机来源辨识还未见报道。而目前绝大多数智能手机默认的录音格式均为压缩格式，且压缩标准主要是MP3和AAC；另外，不同厂家、甚至相同厂家生产的不同型号的设备，其音频模块的硬件和软件部分均有所差别，压缩算法的具体实现以及与硬件的配合也有各自的特点，这就导致不同品牌型号手机对拾取的声音信号进行压缩编码时，对各种编码参数的选择和使用存在着差异；因此，基于编码参数统计特性来识别AAC录音文件来源无疑是一种非常可靠的识别方法。

发明内容

本发明所要解决的技术问题在于克服现有技术的缺陷而提供一种识别准确度高、便于操作的一种基于编码参数统计特性的AAC录音文件来源识别方法。

本发明的技术问题通过以下技术方案实现：

一种基于编码参数统计特性的AAC录音文件来源识别方法，其特征在于该识别方法包括如下步骤：

步骤一、选择华为品牌手机、苹果品牌手机、三星品牌手机和宏达电品牌手机作为录音设备分别录制AAC录音文件，华为品牌手机、苹果品牌手机和三星品牌手机录制的AAC录音文件扩展名为.m4a，宏达电品牌手机录制的AAC录音文件扩展名为.aac，将华为品牌手机、苹果品牌手机、三星品牌手机和宏达电品牌手机录制的AAC录音文件作为训练样本，并使用解码器FAAD2-2.7提取训练样本的独立声道流信息中的参数，该参数包含窗形选择参数、比例因子带数、短窗块分组数，以及比例因子、分区信息和码表索引，该分区信息是指分区数量和长度；根据窗形选择参数、比例因子带数、短窗块分组数的使用情况分别建立华为品牌手机、苹果品牌手机和三星品牌手机的对照表；根据比例因子、分区信息和码表索引的某些统计量对华为品牌手机、苹果品牌手机、三星品牌手机和宏达电品牌手机分别构建1个分类模型，共4个分类模型；

步骤二、根据待测AAC录音文件的扩展名，初步确定该AAC录音文件是来自于宏达电品牌手机还是华为品牌手机、苹果品牌手机和三星品牌手机；若是宏达电品牌手机，直接执行步骤三，若是华为品牌手机、苹果品牌手机和三星品牌手机，则依次执行步骤四、步骤五；

步骤三、使用解码器FAAD2-2.7提取待测AAC录音文件独立声道流信息中的比例因子、分区信息和码表索引，并对其构建相应的统计量，该统计量与步骤一中针对训练样本提取的统计量相同，然后通过使用LibSVM分类器选择步骤一中针对宏达电品牌手机构建的分类模型，最终确定待测AAC录音文件来自该宏达电品牌手机的哪个具体型号；

步骤四、使用解码器FAAD2-2.7提取待测AAC录音文件的独立声道流信息中的窗形选择参数、比例因子带数和短窗块分组数，将其使用情况与步骤一建立的对照表进行比对，确定待测AAC录音文件来源于华为品牌手机、苹果品牌手机和三星品牌手机中的哪一个品牌；

步骤五、使用解码器FAAD2-2.7提取待测AAC录音文件独立声道流信息中的比例因子、分区信息和码表索引，并对其构建相应的统计量，该统计量与步骤一中针对训练样本提取的统计量相同，然后通过使用LibSVM分类器，在步骤四中确定了来源品牌手机的基础上，选择步骤一中针对该来源品牌手机构建的模型，最终确定待测AAC录音文件来自该品牌手机下的哪个具体型号。

所述的华为品牌手机下的具体型号为Honor6、Honor7、Mate7，苹果品牌手机下的具体型号为4s、5、5s、6、6Plus、6s，三星品牌手机下的具体型号为Galaxy Note2、GalaxyS5、Galaxy Win，宏达电品牌手机下的具体型号为D610t、D820t、M7。

所述的扩展名.aac音频格式录音文件的帧格式均为音频数据传输流格式AusioData Transport Stream，ADTS，扩展名.m4a音频格式录音文件就是Movie Box只包含音频track的MP4文件，其Media Data Box中也只含有音频数据。

所述的独立声道流信息即individual_channel_stream，窗形选择参数即window_shape、比例因子带数即max_sfb、短窗块分组数即num_window_groups。

与现有技术相比，本发明的设计思路是通过分析智能手机的AAC录音文件若干编码参数的使用特点及统计特性，从中找出不同型号手机在生成AAC录音文件时使用这些编码参数的倾向和特点，并构建区分各手机型号的特征，从而实现对AAC录音文件来源较为准确的识别，即提出了一种AAC录音文件来源识别的方法，这种识别方法具有识别准确度高、便于操作等优点。

附图说明

图1为AAC标准的对象类型及其使用的技术。

图2为ADIF、 ADTS的结构示意图。

图3为MPEG-4文件的通用结构示意图。

图4为raw_data_block的结构和组成示意图。

图5为AAC中4种不同的块类型（正弦窗函数情况）示意图。

图6为正弦窗和KBD窗的幅频响应示意图。

图7为各品牌手机AAC录音文件的比例因子分布示意图。

图8为各品牌手机AAC录音文件的比例因子均值示意图。

图9为各品牌不同型号手机特征的分布示意图。

图10为长窗块的分区示意图。

图11为各品牌不同型号手机分区数量的分布示意图。

图12为各品牌不同型号手机分区长度的分布示意图。

图13为各品牌不同型号手机的码表索引分布示意图。

图14为各品牌不同型号手机的码表索引OTP特征分布示意图。

图15为各品牌不同型号手机的分布示意图。

具体实施方式

下面将按上述附图对本发明实施例再作详细说明。

一种基于编码参数统计特性的AAC录音文件来源识别方法，涉及的是通过研究AAC录音文件编码参数的使用特点和统计特性，从而判断一个AAC录音文件是哪个品牌下哪个型号的手机所录制。

在该识别方法中涉及了关于AAC录音文件的概念说明，具体为：

AAC编码标准概述

高级音频编码（Advanced Audio Coding，AAC）是新一代的音频编码标准，它是ISO/IECMPEG-2和MPEG-4标准的重要组成部分。MPEG-2 AAC于1997年发布，作为MP3的继任者，在相同码率，尤其是低码率的情况下，有着比MP3音频更好的音质。MPEG-2 AAC定义了3种规格（Profile），即主规格（Main）、低复杂度规格（Low Complexity, LC）、可变抽样率规格（Scalable Sampling Rate, SSR）。1999年，MPEG-4标准出台，其音频部分的标准较之前的MPEG音频标准最大的不同就是：它不再仅仅定义一种音频压缩编码方法，而是提出了一种框架（容器），让用户可以自由地选择音频数据编码算法，如AAC、CELP、HVXC、TwinVQ等等。当然MPEG-4也对MPEG-2 AAC进行了改进，如图1所示，其中重要一项是引入了感知噪声替换（Perceptual Noise Substitution，PNS）技术。该技术融合到MPEG-2 AAC定义的3种规格中，产生并重新定义了4种MPEG-4 AAC的规格，也被成为对象类型（Object Type）：主框架（Main）、可扩展（Scalable）、语音（Speech），以及低码率合成（Low Rate Synthesis）。在MPEG-4音频标准的第二版中，又定义了如低延迟AAC（Low Delay AAC，AAC-LD）等若干个新的对象类型。随后标准又分别将谱带复制技术（Spectral Band Replication，SBR）和参数化立体声技术（Parametric Stereo，PS）应用于AAC-LC对象类型，产生了高效AAC编码（HighEfficiency AAC，AAC-HE）。

目前国际上主流的智能手机厂商几乎都选择MPEG-2/4的音频标准作为默认的音频编码算法。虽然MPEG-4可以兼容多种格式的音频对象，但AAC因其音质好、容量小的优势，仍然是目前最为流行的音频数据编码标准，其主要音频格式有以下几种：

（1）.aac：使用MPEG-2 Audio Data Transport Stream (ADTS) 或Audio DataInterchange Forma (ADIF)封装码流，属于传统的AAC编码格式；

（2）.mp4：使用了MPEG-4标准封装的AAC码流；

（3）.m4a：为了区别仅包含音频和同时包含音视频的MPEG-4文件，由苹果(Apple Inc.)公司开发和推广的扩展名。M4A文件本质上是只包含音频的MP4文件，故将M4A文件的扩展名改成MP4也可正常解码。

需要注意的是，AAC的规格虽然种类较多，但AAC编码技术是向后兼容的。例如，MPEG-4 AAC-LC 解码器可以正常播放MPEG-2 AAC-LC文件， MPEG-4 AAC-HE解码器可以成功解码MPEG-2 AAC-LC或MPEG-4 AAC-LC压缩的比特流等。

AAC码流结构解析

本发明涉及到.aac和.m4a两种扩展名的AAC音频，分别简称为AAC和M4A。下面针对这两种音频文件的码流结构作详细介绍。

AAC文件解析

AAC文件是以帧为单位组织码流的，其帧的格式有两种：一是音频数据交换格式（AudioData Interchange Format，ADIF），如图2所示，这种格式主要由帧头（header）和主数据（raw_data_stream：由raw_data_block序列组成）组成，其特点是必须从文件的开始位置进行解码；二是如图2所示的音频数据传输流格式（Audio Data Transport Stream，ADTS），这种格式因为有同步信息，可以从文件的任意位置开始解码，同时可以解码任意长度的音频数据，因此适用于要求能够进行实时音频传输和编解码的应用。本发明中涉及到的AAC格式的录音文件，其帧格式均为ADTS。

M4A文件解析

M4A是MPEG-4 Audio的简称，因此M4A文件的码流组织形式遵循MPEG-4的封装规则。图3所示是MPEG-4（MP4）文件的通用结构，MP4文件中的所有数据都装在box（QuickTime中为atom）中，一个MP4文件通常包含3种box：一个“ftyp”类型的box（File Type Box），作为MP4格式的标志并包含该文件的一些信息；一个“moov”类型的box（Movie Box），该box包含了主数据部分的相关信息，如对应数据块在Media Data Box中的位置、长度等；而实际的主数据（raw_data_block）则被包含在“mdat”类型的box（Media Data Box）中。一个MP4文件中，File Type Box和Movie Box有且只有一个，而Media Data Box可以有多个，甚至还可以没有。一个Movie Box可以由多个tracks组成，每个track就是指向一个随时间变化的媒体序列，如音视频帧序列。M4A文件就是Movie Box只包含音频track的MP4文件，其Media DataBox中也只含有音频数据，而且这些音频数据的格式可以是表1中所示的6种。

表1参数window_shape和num_window_groups的值

raw_data_block解析

AAC文件和M4A文件的主数据部分均由raw_data_block组成，其结构如图4所示。raw_data_block的构成元素有7种语义元素（主数据类型）可选，每次只能选择其中一种语义元素，但可同时包含该语义元素的若干个实例。本发明仅涉及single_channel_element和channel_pair_element两种语义元素，故此处仅介绍这两种语义元素。single_channel_element表示单个声道的音频数据，通常包含一个individual_channel_stream；channel_pair_element表示双声道的音频数据，由两个individual_channel_stream和联合声道编码信息组成，这两个声道可能共享相同的边信息。其中individual_channel_stream是用于解码每个声道的必要信息，包括边信息ics_info、分区信息section_data、比例因子信息scale_factor_data和频域数据spectral_data，以及可能包含可选的时域噪声整形数据tns_data、增益控制信息gain_control_data等其他信息。本发明主要研究不同设备编码参数的统计特性，因此下面对ics_info、section_data和scale_factor_data中的参数进行详细地说明。

window_sequence：表示MDCT时变换窗类型，也称块类型，共有如图5所示的4种，分别为长块、短块、开始块和结束块。

window_shape：AAC在MDCT之前均需对样本信号进行加窗操作，window_shape即表示窗形，分为正弦（Sine）窗和KBD（Kaiser-Bessel derived）窗，其幅频响应如图6所示。从图6中可见，与正弦窗相比，KBD窗虽然旁瓣的衰减速度较慢，但其拥有比正弦窗更窄的主瓣，其频率分辨率更高。

num_window_groups：表示每块频率系数的组数。因为分组操作仅发生在短窗的块，因此长窗块的组数均为1，短窗块的组数可为1及以上的整数值。不同品牌或者不同型号录音设备的此参数的统计特性都有各自特点，详情见表1.

max_sfb：表示当前块比例因子带的个数。第一个比例因子带的下标从0开始，即sfb0，最后一个比例因子带为sfbmax_sfb-1。

section_cb：每块频率系数在经过分区操作后，每个分区的频率系数使用同一个码表进行哈夫曼编码，section_cb即表示每个分区的码表索引值。

sfb_cb：与section_cb类似，sfb_cb表示每个比例因子带的码表索引值，分区操作后，属同一分区的比例因子带的码表索引值都相等。

section_len：因为分区的边界都是与比例因子带的边界重合，因此secetion_len等于每个分区包含的比例因子带的个数。

section_num：每块（长窗块）或每组（短窗块）分区的个数。

根据上述涉及AAC录音文件的概念描述，本发明的设计思路是通过分析AAC录音文件若干编码参数的使用特点及统计特性，找出不同型号手机在生成录音文件时使用这些参数的倾向或特点，从而实现对AAC录音文件来源的辨识，即识别给定的AAC录音文件是哪种型号的手机录制。

识别方法的具体操作步骤如下：

步骤一、选择华为品牌手机、苹果品牌手机、三星品牌手机和宏达电品牌手机作为录音设备分别录制AAC录音文件，华为品牌手机、苹果品牌手机和三星品牌手机录制的AAC录音文件扩展名为.m4a，宏达电品牌手机录制的AAC录音文件扩展名为.aac，将华为品牌手机、苹果品牌手机、三星品牌手机和宏达电品牌手机录制的AAC录音文件作为训练样本，并使用解码器FAAD2-2.7提取训练样本的独立声道流信息即individual_channel_stream中的参数，该参数包含窗形选择参数即window_shape、比例因子带数即max_sfb、短窗块分组数即num_window_groups，以及比例因子、分区信息和码表索引，该分区信息是指分区数量和长度；根据窗形选择参数、比例因子带数、短窗块分组数的使用情况分别建立华为品牌手机、苹果品牌手机和三星品牌手机的对照表；根据比例因子、分区信息和码表索引的某些统计量对华为品牌手机、苹果品牌手机、三星品牌手机和宏达电品牌手机分别构建1个分类模型，共4个分类模型；

上述识别方法中涉及的录音设备包括华为品牌手机下的具体型号为Honor6、Honor7、Mate7，苹果品牌手机下的具体型号为4s、5、5s、6、6Plus、6s，三星品牌手机下的具体型号为Galaxy Note2、Galaxy S5、Galaxy Win，宏达电品牌手机下的具体型号为D610t、D820t、M7，一共是4个品牌15款手机。

表1所示是华为品牌手机、苹果品牌手机和三星品牌手机的12种AAC录音文件独立声道流individual_channel_stream信息中参数window_shape、max_sfb和num_window_groups分别在不同window_sequence值下的使用情况。本发明将使用长窗进行时频变换后1024个系数称为长窗块，同理使用短窗的情况称为短窗块。根据表1中window_shape参数的值可以推断，除了Huawei品牌手机在长窗和停止窗、也即window_sequence=0和window_sequence=3的情况下使用KBD窗外，其他品牌的手机全部使用的是正弦窗。另外，表1的第3列、第4列的值也表明不同品牌手机在使用参数max_sfb方面都有着各自的特点：非短窗情况下、也即window_sequence=0、window_sequence=1和window_sequence=3，Huawei品牌手机的max_sfb值等于43，iPhone品牌手机的max_sfb值为42（iPhone 4s约有4.7%的max_sfb值等于43，剩下95.3%为42），Samsung品牌手机的绝大多数max_sfb值为49（其中Samsung GalaxyNote2型号max_sfb出现了13个不同的值，76.93%等于49，17.65%等于48，等于47-37的值占剩下的5.41%；Samsung Galaxy S5型号max_sfb出现了40-49 10个值，但等于49的值占了99%以上；Samsung Galaxy Win型号max_sfb的值中等于49和48的占99.62%，其中约93%的为49）。短窗情况下（window_sequence=2），Huawei品牌手机的max_sfb值等于15，iPhone品牌手机的max_sfb值为12（iPhone 4s有12.27%的max_sfb值等于15），Samsung品牌手机的max_sfb值为14（Samsung Galaxy S5型号max_sfb有其他值出现，但占比极小，此处忽略不计）。最后，对于num_window_groups值，各品牌手机仅在短窗情况下呈现出了不同的规律，Huawei品牌对短窗频线的分组只选择4作为组数，iPhone品牌分1-6组的情况均有出现，而Samsung品牌则不分组。故综上所述，我们便可根据独立声道流信息中这三个参数的使用情况来区分一个待测AAC录音文件是来自于Huawei手机、iPhone手机，还是Samsung手机。

综上所述，表1揭示了不同品牌手机录制的AAC录音文件在窗形选择（window_shape）、（比例因子带数（max_sfb）和短窗块分组数（num_window_groups）使用方面，均有着各自的倾向。因此本发明的识别方法通过使用它们特点之间的差异性，可以初步判断一个录音文件来源设备的品牌。接下来再根据各型号手机在比例因子取值、编码子区分割，以及码表选用三个方面的特点，构建基于统计特性的区分性特征，从而实现对具体手机型号的有效辨识。需要注意的是，本发明的识别方法后续构建的统计特征均是针对长窗块的相关参数，主要因为：通常一首音频中长窗块的占比都在95%以上；基于长窗块构建的特征较短窗块更不受内容影响，鲁棒性更强。

基于比例因子的特征

为了减小量化噪声，AAC标准将1024个频域系数分成若干个连续的组分别进行量化，这样的组就叫做比例因子带（Scalefactor Band）。比例因子带是依据人耳听觉系统（HumanAuditory System, HAS）的临界带划分的，其个数和长度取决于当前块类型和原始音频的采样率。表2是ISO/IEC 13818-7标准中针对非短窗块、且原始采样率为44.1KHz或48KHz情况下的比例因子带划分规则，表2第一列代表的是比例因子带的索引号，第二列则表示对应比例因子带的开始位置。每个比例因子带对应一个比例因子（Scalefactor），也即属于同一比例因子带的频率系数共用一个比例因子，而比例因子表示的就是量化过程中对系数幅值的缩放程度。

表2长窗、开始窗和停止窗的比例因子带划分规则

图7所示是各设备对比例因子参数的使用情况：对于所有设备，比例因子的值都主要落在110-170的区间内；但针对不同品牌的设备，比例因子值的分布还是有较大区别的。其中，Samsung品牌3款设备的对比例因子使用的差异性最大；Huawei品牌Honor系列2款手机（Honor 6和Honor 7）的比例因子分布接近，但Mate 7手机比例因子的分布较为特别，在116-126的区间上，Mate7对应的值要明显高于Honor系列，而Honor系列更倾向于使用128-136和141-163区间的比例因子；HTC品牌3款设备的比例因子分布曲线也较为相似；但相似度最高的还是iPhone品牌的6款设备。本发明依据图7中的比例因子分布图，针对每个品牌均选取了若干个特征，且对应特征集分别定义为，具体选择的特征如表3所示。同时考察了相同比例因子带的比例因子在时域方向上的均值，如图8所示，随着比例因子带由低频往高频推移，比例因子的均值也呈现出逐渐减小的规律，且在最后一个比例因子带的位置大幅减小。但反映出的各设备之间的差异还是与比例因子的分布特征相一致，HTC品牌中D610t和D820t、Huawei品牌中Honor6和Honor7的均值均较为接近，iPhone品牌几款设备在低频去和高频区的特征有一些区分度，而Samsung品牌3款手机的区分度依然最好。因此本发明的识别方法也就此均值特征为各品牌各选取了若干特征，分别为，如表3所示。

表3各品牌比例因子特征集的具体特征列表

尽管同一品牌的几款设备的比例因子分布特征区分度并不明显，但实验证明不同型号设备比例因子的二阶统计特征，也即相邻比例因子的单步转移概率（One-step TransitionProbability，OTP），能够更有效地对相同品牌不同型号的录音设备进行分类。单步转移概率表征了时域方向和频域方向相邻比例因子之间的相关性，该特征增加了一个维度去描述比例因子的统计特性，更加精确地反映了各型号设备对比例因子参数的使用特点。时域方向的特征和频域方向的特征分别由以下两个公式计算得到。

其中，，代表比例因子值，表示长窗块数，为比例因子带数。另外，综合考虑图7所示各设备比例因子的主要取值范围，再结合保持特征维数和计算复杂度平衡的原则，此处设定，则和均由784（28×28=784）维特征组成。图9给出了15款型号手机的特征的具体分布，由图9可知，不同品牌手机的特征有着明显的不同，而且即使针对同一品牌不同型号的手机，其区别较图7中比例因子直方图的分布也更为明显。因此，本发明在784个值中为各品牌均选取了若干维区分度相对较好的特征，分别为，具体如表3所示。另外，特征的计算方法和分布与类似，此处就不再赘述，最终选择的特征集也由表3给出。

基于分区信息的特征

AAC标准编码的基本单位是区（Section），同一个区使用一个哈弗曼码表（HuffmanCodebook）进行编码。考虑到编码效率，如图10所示，分区的边界必须和比例因子带的边界统一，每一个分区至少包含一个比例因子带，因此属于同一分区的若干个比例因子带共用一个码表编码。

分区是一个动态尝试的过程，而且每一个变换块的分区情况也可能不同。该过程采用贪心算法（Greedy Merge Algorithm）进行Huffman编码分区，以保证Huffman编码所需比特数最少。具体做法如下：首先，首次分区的划分尽可能得多，即每一个比例因子带划分为一个分区，而且每一个分区所用Huffman码书的序号尽可能小；其次，对每一个分区进行两两合并，若合并后采用新的Huffman码书编码所需比特数更少，则接受分区合并，否则分区保持不变。这个过程一直持续到不能合并分区为止，最终所有的比例因子带会形成若干个分区。但对于短窗块，它比长窗块多经历了一个分组和交叉的过程，因此各分区与比例因子带的关系较图10要更为复杂。因本发明不涉及短窗块的比例因子，故这里不做详细介绍。

不同品牌设备的长窗块的分区数量和每个分区包含的比例因子带个数都有所不同。如图11所示，HTC品牌和Samsung品牌设备的分区数量主要集中在15-30之间，而iPhone品牌和Huawei品牌设备的分区数量基本都在15以下。本发明的识别方法针对分区数量参数对各品牌均选取了若干维特征，分别为和，具体如表4所示。

表4各品牌分区信息特征集的具体特征列表

在各分区的长度方面，如图12所示，HTC品牌和Samsung品牌的统计规律也最为相似，有60%左右的分区长度为1个比例因子带，分区长度等于2和3的占比分别约为18%和8%；Huawei品牌使用长度为1的分区要相对少一些，约为33%左右，长度等于2和3的分区分别占15%和10%；而iPhone品牌的分布长度分布相对更加均匀，长度为1-8的分区出现概率几乎都在8%-14%之间。由图可知该特征仅对iPhone品牌设备有一定区分度，因此本方法针对iPhone品牌选择了分区数量等于1-6的6维特征。为了进一步区分相同品牌不同型号的设备，本发明也针对分区长度特征构建了OTP统计量，根据以下公式计算得到。

OTP特征的区分度明显好于直方图特征，但区分性能好的特征数量较少，本发明的识别方法相应选取了如表4给出的若干维特征，分别定义为，和。

其中，是分区的长度，表示长窗块数，为当前块分区的个数；另外。

基于码表索引的特征

AAC标准中有12个哈夫曼码表（Huffman Codebook），如表5所示，数据个数n表示对应码表每次对n个量化MDCT系数编码，最大绝对值表示该码表能够编码的系数的最大幅值。12个码表中0号和11号码表较为特殊，0号码表对应一个分区内的所有量化后MDCT系数均为零的情况，因为该情况下实际编码过程中不需要为该分区传输任何码字，故采用0号码表。而11号码表在一个分区内的量化MDCT系数有大于16的情况时采用，同时对于这种情况，AAC标准定义了一个溢出编码机制来表示这些值。

表5 Huffman码表及其相关信息

码表索引	编码个数m	最大绝对值	有符号值
				0	/^*	0	/^*
1	4	1	是
				2	4	1	是
3	4	2	否
				4	4	2	否
5	2	4	是
				6	2	4	是
7	2	7	否
				8	2	7	否
9	2	12	否
				10	2	12	否
11	2	16（ESC）^*	否

频率系数在分区后，属于同一个区的比例因子带共用一个码表进行编码，因此每块使用的码表个数是不定的，但与分区的数量相等。图13所示分别是HTC品牌、Huawei品牌、iPhone品牌和Samsung品牌各设备的码表分布。由图可知，除了对1号和11号码表，所有手机对其他奇数号码表的使用概率都非常小；另外Huawei品牌设备使用大号码表的概率要明显高于其他3个品牌的设备。对于几个偶数号码表的使用，相同品牌不同型号设备的使用倾向也略有差别，因此本方法针对各品牌主要选择偶数码表出现的概率作为特征，分别为，具体如表6所示。

表6 各品牌比例因子特征集的具体特征列表

为了进一步挖掘同一品牌不同设备在使用码表方面的差异性，我们针对码表构建了OTP特征，其计算方法分别参照以下两个公式：

其中是码表索引值，代表每块的分区数（sec_num），则表示的是每块的比例因子带数，。这里使用的原因是：相邻块间分区的数目和各分区的长度都不尽相同，因此在计算时域方向上的OTP特征时我们选择属于同一比例因子带的码表索引。

图14是各品牌不同设备的特征的具体分布。由图14可知，不同品牌设备之间的差异较大，相同品牌不同型号之间的差别就相对小得多。但OTP特征能够较直方图特征更加全面地反映不同设备使用码表的特点，因此本方法在和中各选取若干维特征用于对各品牌设备进行区分，具体特征如表6所示。

另外，为了表征连续3个码表索引之间的相关性，我们引入了广泛用于数字图像处理领域的纹理特征LBP（Local Binary Pattern）。根据该特征的构建思想，我们对其进行了变换并利用以下公式计算出基于码表的LBP特征。

其中表示当前块当前分区的码表索引值，代表从每个块的第2个分区开始以1为步长滑动到倒数第2个分区，即针对每个长窗块可以得到个值。由上述公式可知，的取值仅为0, 1, 2, 3四个值，对于各品牌的不同手机，其分布如图15所示。由图15可知，的分布特征对HTC品牌设备的区分性较差，特别是对D610t和D820t，两者分布几乎重合；该特征对其他3个品牌设备的均有一定区分度，尤其对Samsung品牌几款手机，区分效果最为明显。另外，本文也构建了基于的OTP特征，该特征在设备间的区分度被进一步扩大，但对HTC仍未表现出明显的区分性特征，故最终仅针对Huawei、iPhone和Samsung设备选取了与相关的若干维特征，如表6所示。

本发明的试验结果及分析

实验设置

本实验的语音样本库是由表7中所示的15款手机录制的录音文件构成。录制环境为较安静的办公室；参与录制人员为10男10女，共20个人；人均录制时长15分钟左右，样本库时长共约5小时。录制时尽量保持同时开启和关闭15部手机的录音功能，且手机位置均固定在距离说话人1-1.2米的位置。

表7 15款手机的相关信息

我们选择LibSVM作为区分HTC品牌的3款手机（D610t、D820t、M7）、Huawei系列的3款手机（Honor 6、Honor 7、Mate 7）、iPhone品牌的6款手机（4s、5、5s、6、6P、6s），以及Samsung品牌的3款手机（Note2、S5、I8558）的分类器。样本库被分为两个集合，其中一个集合作为训练集，由5男5女录制的录音文件组成；另一个集合作为测试集，由剩下的5男5女录制的录音文件组成。每个集合都被切分成时长约为3秒的小样本，这样针对每种设备形成的训练集和测试集各包含2800个样本。另外，在使用LibSVM对特征进行训练和测试之前，对所有样本的每一维特征都进行归一化处理，以降低不同特征值变化范围不一致对分类器性能的不利影响。

实验结果

依据上述对本发明识别方法的详细描述可知，通过一首AAC录音文件独立声道流信息中参数window_shape、max_sfb和num_window_groups的使用情况，便可初步判断待测AAC录音文件来源设备的品牌。在确定录音设备的品牌后，就需要提取待测AAC录音文件的特征，并利用训练好的模型最终确定其归属设备的具体型号。所以本实验的目的就是测试本发明的识别方法构建的特征集对同品牌不同型号设备的分类准确性。另外，为了分析各3个特征集对整体检测准确率的贡献，实验给出了每个特征集单独训练和测试的结果。

表8 ~11是3个特征集及其合集对各品牌不同型号手机的分类准确率。需要注意的是，各表格的第二列均为混淆矩阵，表示的是每类2800个测试样本具体的分类情况。该矩阵的第一列表示的是实际标签，第一行表示的是预测标签，例如表8中第一个混淆矩阵的第一行数字即表示2800个D610t样本被分类为D610t样本、D820t样本和M7样本的数量分别为2079、706和15个。

表8 各特征集及其合集对HTC品牌手机的分类准确率

由表8可知，对HTC品牌3款手机的分类，比例因子特征集的性能最为突出，分类准确率达到了97.76%。码表索引特征集的性能虽与前者差距较大，但也基本令人满意，主要在区分D610t和D820t时出现了较多误判，将近四分之一的样本识别成了对方设备的样本。而分类效果最差的是分区信息特征集，通过混淆矩阵也能看到其辨识能力仅稍好于随机分类。表5的最后一行是三类特征合集的辨识准确率，达到了98.19%。

根据表9我们可以看到，Huawei品牌3类特征的分类效果较为均衡，都在70%-80%之间。通过对各特征集混淆矩阵的进一步观察发现，3类特征都是因为无法对Honor6样本准确分类的缘故导致整体分类性能的下降。这种现象在码表索引特征和比例因子特征中的表现尤为明显，这两个特征集对Honor7和Mate7样本的区分准确性均可达到95%左右，却将超过一半的Honor6样本识别错误，且其中绝大部分预测成了Honor7样本。3个特征集结合后，其合集的分类准确率有了较大幅度的提高，超过了10个百分点，达到了88.93%。特征合集虽在对Honor6样本正确分类的方面有所改善，但也还是差强人意，分类准确率不足70%。

表9各特征集及其合集对Huawei品牌手机的分类准确率

表10所示是不同特征集对6款iPhone品牌设备的分类性能。与表8类似，3类特征集分类准确率从高到低排列依次是：比例因子特征集、码表索引特征集、分区信息特征集。3个特征集均对iPhone 5s样本的分类效果较差，在28%-56%之间；而对iPhone 5和iPhone 6s的识别效果最好，平均能达到93%以上。另外，虽然iPhone品牌对应特征合集的分类准确率在4个品牌中是最低的，但该88.14%是针对6款设备的分类准确率，更为难得。根据混淆矩阵也能看出，除了对iPhone 5s的识别准确率不够理想（55.35%）之外，对其他5款手机的辨识成功率均令人满意，其分类准确率依次为87.43%、99.68%、89.21%、97.31%和99.86%。

表10各特征集及其合集对iPhone品牌手机的分类准确率

Samsung品牌3款手机对各种编码参数的使用特点更为鲜明，且相互之间的区别明显，因此其码表索引、比例因子、分区信息等特征集的分类性能都十分优秀。如表11所示，前两者的分类准确率均超过了94%，后者虽只有86.14%，但也远高于其他品牌对应的特征集。特征合集的分类准确率也接近完美，达到了99.71%。

表11各特征集及其合集对Samsung品牌手机的分类准确率

本方法最终均选择特征合集用于各品牌设备的训练和测试，因此本方法针对全部15种手机录制的录音文件的综合分类准确率为92.62%，计算公式如下：

。

Claims

1.一种基于编码参数统计特性的AAC录音文件来源识别方法，其特征在于该识别方法包括如下步骤：

2.根据权利要求1所述的一种基于编码参数统计特性的AAC录音文件来源识别方法，其特征在于所述的华为品牌手机下的具体型号为Honor6、Honor7、Mate7，苹果品牌手机下的具体型号为4s、5、5s、6、6Plus、6s，三星品牌手机下的具体型号为Galaxy Note2、GalaxyS5、Galaxy Win，宏达电品牌手机下的具体型号为D610t、D820t、M7。

3.根据权利要求1所述的一种基于编码参数统计特性的AAC录音文件来源识别方法，其特征在于所述的扩展名.aac音频格式录音文件的帧格式均为音频数据传输流格式AusioData Transport Stream，ADTS，扩展名.m4a音频格式录音文件就是Movie Box只包含音频track的MP4文件，其Media Data Box中也只含有音频数据。

4.根据权利要求1所述的一种基于编码参数统计特性的AAC录音文件来源识别方法，其特征在于所述的独立声道流信息即individual_channel_stream，窗形选择参数即window_shape、比例因子带数即max_sfb、短窗块分组数即num_window_groups。