CN110189767B

CN110189767B - 一种基于双声道音频的录制移动设备检测方法

Info

Publication number: CN110189767B
Application number: CN201910360975.8A
Authority: CN
Inventors: 朱梦尧; 段伟博
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2022-05-03
Anticipated expiration: 2039-04-30
Also published as: CN110189767A

Abstract

本发明公开了一种基于双声道音频的录制移动设备检测方法及装置，其中方法，包括以下步骤：获取双声道语料，对双声道语料进行傅里叶变换，提取频谱参数，计算得到幅度谱参数；根据幅度谱参数构造特征向量；根据特征向量，使用分类器对特征向量进行学习和分类。本发明的一种基于双声道音频的录制移动设备检测方法，利用一个含有大量手机录制音频的数据库，提取双声道音频的频谱特征并进行构造适用于双声道的特征向量，选择分类器学习，最终实现双声道设备的分类。

Description

一种基于双声道音频的录制移动设备检测方法

技术领域

本发明涉及音频识别领域，尤其涉及一种基于双声道音频的录制移动设备检测方法。

背景技术

多媒体取证是检测多媒体数据原始性、真实性和完整性的技术。它是信息安全领域的一个重要研究课题，包括法庭上可接受录音作为犯罪证据的取证、分析和评价。音频取证包括录制音频来源设备的识别。

基于设备的技术可以从三个不同的方向进行研究：(1)原始音频记录文件中的录制设备电路生成的音频；(2)手机扬声器和麦克风的来源记录的音频；(3)信号在空气中传输过程的失真。目前现有的手机扬声器和麦克风的来源记录的音频数据处理过程没有考虑到双声道音频，无法准确地识别音频录制设备。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是目前现有的手机扬声器和麦克风的来源记录的音频数据处理过程没有考虑到双声道音频，无法准确地识别音频录制设备，因此本发明提供了一种基于双声道音频的录制移动设备检测方法，利用一个含有大量手机录制音频的数据库，提取双声道音频的频谱特征并进行构造适用于双声道的特征向量，选择分类器学习，最终实现双声道设备的分类。

为实现上述目的，本发明提供了一种基于双声道音频的录制移动设备检测方法，包括以下步骤：

获取双声道语料，对双声道语料进行傅里叶变换，提取频谱参数，计算得到幅度谱参数；

根据幅度谱参数构造特征向量；

根据特征向量，使用分类器对特征向量进行学习和分类。

进一步地，根据幅度谱参数构造特征向量，具体包括：

根据幅度谱参数计算录制设备激励函数的能量谱特征；

根据幅度谱参数计算录制设备左右声道在激励函数的差异；

根据幅度谱参数计算录制设备左右声道响应的相关性；

根据频谱特征、录制设备左右声道在激励函数的差异和录制设备左右声道响应的相关性，构造特征向量。

进一步地，构造特征向量之后，还包括，根据特征向量，计算相邻频段间的差分矩阵，并组合成第二特征向量。

进一步地，组合成第二特征向量之后，还包括：将第二特征向量打上标签，将带有标签的第二特征向量，使用分类器对特征向量进行学习和分类。

本发明一实施例提供了一种基于双声道音频的录制移动设备检测装置，包括：

提取装置，用于获取双声道语料，对双声道语料进行傅里叶变换，提取频谱参数，计算得到幅度谱参数；

构造装置，用于根据幅度谱参数构造特征向量；

分类装置，用于根据特征向量，使用分类器对特征向量进行学习和分类。

进一步地，构造装置包括：

第一计算单元，用于根据幅度谱参数计算录制设备激励函数的能量谱特征；

第二计算单元，用于根据幅度谱参数计算录制设备左右声道在激励函数的差异；

第三计算单元，用于根据幅度谱参数计算录制设备左右声道响应的相关性；

构造单元，用于根据频谱特征、两个麦克风在激励函数的差异和麦克风激励的相关性，构造特征向量。

进一步地，构造装置还包括：

第四计算单元，用于根据特征向量，计算相邻频段间的差分矩阵，并组合成第二特征向量。

进一步地，构造装置还包括：

标签单元，用于将第二特征向量打上标签，将带有标签的第二特征向量，使用分类器对特征向量进行学习和分类。

本发明一实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，处理器执行程序时，实现如上述任一项的方法。

本发明一实施例提供了一种存储有计算机程序的计算机可读存储介质，其特征在于，计算机程序使计算机执行时实现如上述中任一项的一种基于双声道音频的录制移动设备检测方法。

技术效果

本发明的一种基于双声道音频的录制移动设备检测方法，是使用分类器对带有标签的特征向量进行学习和分类。考虑到录制音频包含有录制设备的麦克风信息，而双声道音频的差异可以反映双麦克风的差异以及两个麦克风在空间分布的信息，本发明充分利用音频的两个声道信息，可以更准确地识别录制设备。由于这种方法只使用简单的分类器即可，如SVM，并且适用于有噪声的实际环境，增加了此方法的实际利用价值。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一个较佳实施例的

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下描述中，为了说明而不是为了限定，提出了诸如特定内部程序、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

实施例一

如图1所示，本发明的一较佳实施例提供了一种基于双声道音频的录制移动设备检测方法，包括以下步骤：

步骤100，获取双声道语料，对双声道语料进行傅里叶变换，提取频谱参数，计算得到幅度谱参数；

步骤200，根据幅度谱参数构造特征向量；

步骤300，根据特征向量，使用分类器对特征向量进行学习和分类。

其中，根据幅度谱参数构造特征向量，具体包括：

步骤201，根据幅度谱参数计算频谱特征，计算这段语音内各频段能量相对总频谱能量的比值代表频谱特征，用于构造特征向量；

在构造特征向量时，并不直接使用频谱参数，而是计算一段时间中频谱能量比率，以此作为分类的基本单元。这种方法使用统计平均值的方式避免引入音频在各个频段的分布存在差异的问题，其特征可以表示各个录制设备内电路的激励函数的不同，表示如下，

其中y(k)是一段时间内第k频段的总能量，Y为一段时间内音频的总能量。

步骤202，根据幅度谱参数计算录制设备左右声道在激励函数的差异，计算这段语音内左右声道对数域频谱的差值代表录制设备左右声道在激励函数的差异，用于构造特征向量；

本发明针对双声道系统，根据录制设备左右声道的激励函数在对数频域上以加法的形式存在，双声道音频的对数频谱的差值表现录制设备左右声道的差异。其差值本身也用单位时间内各段频谱能量比率来表示，其对应函数如下，

ΔE_i(k)＝log(y_{left_i}(k))-log(y_{right_i}(k))

其中y(k)是单位时间内单声道第k频段的能量，T为单位内选取的帧的数量，N为总频段数量。

步骤203，根据幅度谱参数计算麦克风激励的相关性，计算这段语音内双声道语音互相关函数，用互相关系数表示代表麦克风激励的相关性，用于构造特征向量；

双声道语音互相关系数可以表示单个声道的语音相对另一个声道的语音的相关性，其相关性代表录制设备左右声道响应的相关性。互相关函数这可以表示录制设备的左右声道对应的麦克风的空间分布造成的响应的差异，其对应函数如下，

步骤204，根据频谱特征、录制设备左右声道在激励函数的差异和响应的相关性，构造特征向量。

进一步地，构造特征向量之后，还包括，根据特征向量，计算相邻频段间的差分向量，并组合成第二特征向量。

使用相邻频段间的差分向量，为了更好地捕捉录制设备响应在不同频率分布的差异，特别是捕捉移动设备响应的高频区域的差异，其对应函数如下，

dL(k)＝L(k)-L(k-1)

其中L(k)为第k频段的特征向量，由V(k),ΔV(k),ΔR(k,0)特征组成。

分类器对带有标签的特征向量进行学习和分类，特征向量很大，可以使用带有主成分分析识别各个的语音单元来源的录制设备。

本发明考虑到音频本身可能遭到切分，部分片段招到替换的情况，因此以一段时间内的语音片段作为分类的单元，可以分别判断一段音频中各个时段内的来源设备，辨别音频的真伪，是否发生篡改。

以下将通过实施方式对上述过程进行详细说明。

本发明方法使用了一个含有大量手机录制音频的数据库，数据库中的语料来自TIMIT库，采样频率44100Hz，语料播放并被各个移动设备录制。只提取其中的双声道音频，根据双声道音频的特征参数构造适用于双声道的频谱特征向量，选择分类器学习，最终实现双声道设备的分类。构造特征向量包括以下步骤：

步骤(1)设系统获取某一录制设备一段长达300s的音频，首先选取其中一个声道的音频进行特征选取，原音频包含13230000采样点，系统将其切分为每段包含32256采样点的语音片段，每段语音时长大约为0.7s，由此得到410段语音片段。

将每段语音的时域信号转为频域信号，其进行512点的傅里叶变换，获得512×N矩阵，N＝32256/512＝63，代表每段语音有63帧。每段语音可获得512×63频谱矩阵，对512×63频谱矩阵取模得到512×63幅度谱矩阵，步骤(1)得到的幅度谱参数矩阵表示为：

在步骤(2)中，由步骤(1)得到的512×63幅度谱参数矩阵后，矩阵所有行向量的平方求和，物理意义为语音片段内的所有63帧的各个频段内的谱能量相加，

形成512×1的特征向量，计算每个频段占总能量的比值，用统计平均值的方式避免引入音频在各个频段的分布存在差异的问题。所求的特征物理上表示录制设备内电路的激励的特征，计算过程如下，

Y＝A+B+...+W＝y(1)+y(2)+...+y(512)

其中y(k)是0.7s时间内第k频段的总能量，Y为0.7s内音频的总能量。最终在步骤(2)求得每段语音各频段能量相对总频谱能量的比值，其矩阵形式为512×1，这是单声道信号求得的矩阵，另一个声道也按此方法求矩阵，组成1024×1的特征向量，

[V(1)^(l) V(2)^(l) ... V(512)^(l) V(1)^(r) V(2)^(r) ... V(512)^(r)]^T

求得向量将会作为特征向量的一部分。

在步骤(3)中，将根据步骤(1)得到的幅度谱参数，系统获取双声道特征。录制的双声道音频信号在对数域频谱可表示为，

log(Y_l(ω))＝log(X(ω))+log(H_l(ω))

log(Y_r(ω))＝log(X(ω))+log(H_r(ω))

双麦克风的激励函数在对数频域上以加法的形式存在，双声道音频的对数频谱的差值表现为双麦克风的差异。其差值本身也用0.7s时间内各段频谱能量比率来表示，其对应函数如下，

ΔE_i(k)＝log(y_left__i(k))-log(y_right__i(k))

其中y(k)是单位时间内单声道第k频段的能量；T为单位内选取的帧的数量，取值63；N为总频段数量，取值512。由步骤(1)获取的幅度谱特征向量，按照上述2个公式的操作如下：

其中ΔY＝ΔA+ΔB+...+ΔW，步骤(3)得到的向量将作为特征向量的一部分。

在步骤(4)中，将根据步骤(1)得到的幅度谱参数，系统将获取双声道信号的互相关系数，互相关函数表示的是两个时间序列之间的相关程度，双声道语音互相关系数可以表示单个声道的语音相对另一个声道的语音的相关性，其相关性代表麦克风激励的相关性。互相关函数这可以表示空间分布造成的响应的差异，其对应函数如下，

其中y(k,t)是此段音频第t帧单声道第k频段的能量，Y是这段音频的总能量，T等于63，为单位内选取的帧的数量。如果两个麦克风距离越近或者激励一致，互相关系数的最大值越接近n原点的位置。这些参数最终构成分类器所需的特征向量,矩阵只选取n＝0的值。频谱矩阵按照互相关函数的操作如下，

其中Y＝A+B+...+W＝y(1)+y(2)+...+y(512)，步骤(4)得到的向量将作为特征向量的一部分。

在步骤(5)中，根据步骤(2)(3)(4)获得的特征向量，计算相邻频段间的差分矩阵，目的是更好地捕捉录制设备响应在不同频率分布的差异，特别是捕捉移动设备响应的高频区域的差异，其对应函数如下，

dL(k)＝L(k)-L(k-1)

其中L(k)为第k频段的特征向量，由V(k),ΔV(k),ΔR(k,0)特征组成，k的取值为2到512。矩阵按照差分公式的操作流程为：

最终步骤(5)得到我们所需的特征向量，每段语音的特征向量为4092×1。步骤(1)中某一录制设备中300秒语音分为410段，每段作为一个训练样本，最终求得410个4092维特征向量。现实中，特征向量维度很大，因此录制设备获取的语音应长达数小时，得到数万个特征向量。

此方法属于闭集的分类问题，选择分类器对带有标签的特征向量进行学习和分类，设label为标签，设有20个录制设备，则label取值为1到20，特征向量最终表示为：

分类器可以选择简单的分类器，如核函数为曲线函数的SVM和单隐层神经网络，识别各个的语音单元来源的录制设备。如果认为维度过大，可以使用带有主成分分析(PCA)的分类器，对特征向量降维处理。

以下是用不同移动设备录制语音数据库TIMIT，实验分别使用SVM和单隐层神经网络进行分类的结果。结果显示，本发明实施例的一种基于双声道音频的录制移动设备检测方法可以对录制的语音片段进行有效分类。

本实施例主要基于设备的技术的第二个分支——手机扬声器和麦克风的来源记录的音频，通过麦克风识别响应的差异判断移动设备。考虑到现有的数据处理过程没有考虑到双声道音频，本实施例围绕音频指纹识别机制来识别双声道设备。对于双声道系统，由于记录麦克风的距离和自身激励函数的不一致性，两个信号是不同的，双声道的信息包含由更多设备信息，可以更准确地识别音频录制设备。本实施例的方法利用一个含有大量手机录制音频的数据库，提取双声道音频的频谱特征并进行构造适用于双声道的特征向量，选择分类器学习，最终实现双声道设备的分类。

实施例二

构造装置，用于根据幅度谱参数构造特征向量；

进一步地，构造装置包括：

进一步地，构造装置还包括：

本实施例的装置用于实现实施例中的一种基于双声道音频的录制移动设备检测方法，其实现过程同实施例一，此处将不再赘述。

实施例三

本发明实施例三提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现上述任一项的方法。

该实施例的计算机设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，例如资源发放程序。所述处理器执行所述计算机程序时实现上述各个人体行为相似度计算方法实施例中的步骤。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述计算机设备中的执行过程。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可包括，但不仅限于，处理器、存储器。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可以是所述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。所述存储器也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器还可以既包括所述计算机设备的内部存储单元也包括外部存储设备。所述存储器用于存储所述计算机程序以及所述计算机设备所需的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

本发明实施例还提供了一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序使计算机执行时实现上述任一项所述的一种基于双声道音频的录制移动设备检测方法。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于双声道音频的录制移动设备检测方法，其特征在于，包括以下步骤：

获取双声道语料，对所述双声道语料进行傅里叶变换，提取频谱参数，计算得到幅度谱参数；其中，所述双声道语料为双声道音频，选取其中一个声道的音频进行特征选取，将其切分为语音片段，将每段语音的时域信号转为频域信号，进行傅里叶变换，获得频谱矩阵，对所述频谱矩阵取模得到幅度谱矩阵；

根据所述幅度谱参数构造特征向量；具体包括：

根据幅度谱参数计算频谱特征，计算语音内各频段能量相对总频谱能量的比值代表频谱特征，在构造特征向量时，不直接使用频谱参数，而是计算一段时间中频谱能量比率，以此作为分类的基本单元，其特征可以表示各个录制设备内电路的激励函数的不同，表示如下，

其中y(k)是单位时间内第k频段的总能量，Y为一段时间内音频的总能量；

根据所述幅度谱参数计算录制设备左右声道在激励函数的差异，其差值本身也用单位时间内各段频谱能量比率来表示，其对应函数如下，

ΔE_i(k)＝log(y_{left_i}(k))-log(y_{right_i}(k))

其中y(k)是单位时间内单声道第k频段的能量，T为单位内选取的帧的数量，N为总频段数量；

根据所述幅度谱参数计算录制设备左右声道响应的相关性，互相关函数表示录制设备的左右声道对应的麦克风的空间分布造成的响应的差异，其对应函数如下，

根据所述频谱特征、所述两个麦克风在激励函数的差异和所述麦克风激励的相关性，构造特征向量，计算相邻频段间的差分矩阵，并组合成第二特征向量，使用相邻频段间的差分向量，为了更好地捕捉录制设备响应在不同频率分布的差异，捕捉移动设备响应的高频区域的差异，其对应函数如下，

dL(k)＝L(k)-L(k-1)

其中L(k)为第k频段的特征向量；

根据所述特征向量，使用分类器对所述特征向量进行学习和分类。

2.如权利要求1所述的一种基于双声道音频的录制移动设备检测方法，其特征在于，组合成第二特征向量之后，还包括：将所述第二特征向量打上标签，将带有标签的所述第二特征向量，使用分类器对所述特征向量进行学习和分类。

3.一种应用于如权利要求1或2所述基于双声道音频的录制移动设备检测方法的装置，其特征在于，包括：

提取装置，用于获取双声道语料，对所述双声道语料进行傅里叶变换，提取频谱参数，计算得到幅度谱参数；

构造装置，用于根据所述幅度谱参数构造特征向量；

分类装置，用于根据所述特征向量，使用分类器对所述特征向量进行学习和分类。

4.如权利要求3所述的一种基于双声道音频的录制移动设备检测装置，其特征在于，所述构造装置包括：

第一计算单元，用于根据所述幅度谱参数计算录制设备激励函数的能量谱特征；

第二计算单元，用于根据所述幅度谱参数计算录制设备左右声道在激励函数的差异；

第三计算单元，用于根据所述幅度谱参数计算录制设备左右声道响应的相关性；

构造单元，用于根据所述频谱特征、所述两个麦克风在激励函数的差异和所述麦克风激励的相关性，构造特征向量。

5.如权利要求4所述的一种基于双声道音频的录制移动设备检测装置，其特征在于，所述构造装置还包括：

第四计算单元，用于根据所述特征向量，计算相邻频段间的差分矩阵，并组合成第二特征向量。

6.如权利要求5所述的一种基于双声道音频的录制移动设备检测装置，其特征在于，所述构造装置还包括：

标签单元，用于将所述第二特征向量打上标签，将带有标签的所述第二特征向量，使用分类器对所述特征向量进行学习和分类。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如权利要求1-2中任一项所述的方法。

8.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序使计算机执行时实现如权利要求1-2中任一项所述的一种基于双声道音频的录制移动设备检测方法。