CN104102834A

CN104102834A - 录音地点的识别方法

Info

Publication number: CN104102834A
Application number: CN201410329137.1A
Authority: CN
Inventors: 王学强; 吉建梅
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2014-07-10
Filing date: 2014-07-10
Publication date: 2014-10-15

Abstract

本发明提供一种录音地点的识别方法，包含以下几个部分：电网频率数据降维、音频中电网频率提取、BP神经网络识别模型的建立、模拟退火搜索识别结果、将识别结果转换为具体地点。该方法解决了传统音频取证方法无法识别录音地点的问题；采用BP神经网络作为主要识别方法，效率高；采用KDA降维算法，使识别速度加快；模拟退火搜索识别结果，迅速确定录音地点；本发明基于BP神经网络，利用电网频率作为识别依据，解决了传统方法无法识别录音地点的难题。

Description

录音地点的识别方法

技术领域

本发明涉及一种录音地点的识别方法。

背景技术

如今，随着信息领域的数字技术向人类生活各个领域全面推进，音频数字化的存储方式几乎取代了传统的存储方式。同时计算机技术的飞速发展使得数字音频编辑越来越容易，篡改也越来越专业。

根据有关部门调查统计：基于数字音频的犯罪率正逐年递增。根据最高人民法院《关于民事诉讼证据的若干规定》第69条规定：存有疑点的视听资料不能单独作为认定案件事实的依据。当数字音频文件作为法庭证据时，其原始性和完整性往往是需要注意的地方。然而，在不能确定录音时间和录音地点的前提下，即使音频文件具有原始性和完整性，也很难确定其有效性。

音频资料作为技术含量成分比较高的证据类型，其原始性和完整性在目前的技术下能表现出来。然而在不同的时间不同的地点录制一段音频，它的原始性和完整性是满足的，但是音频的录制时间和地点是否和案件有关很难考证。

现有的数字音频取证技术很难做到录音地点的识别，因此司法机关就不易对音频证据的有效性做出判断。

发明内容

本发明的目的是提供一种录音地点的识别方法，采用BP神经网络作为主要识别方法，效率高，解决现有的数字音频取证技术很难做到录音地点的识别的问题。

为了解决以上问题，本发明通过以下技术方案实现：

一种录音地点的识别方法，

S1、构建BP神经网络；

S2、将各地的电网频率数据作KDA降维处理，以满足BP神经网络的输入要求；

S3、将处理后的电网频率数据作为训练样本训练BP神经网络，并采用模拟退火算法进行权值更新；

S4、提取录音中的电网频率数据，具体为：将需要识别的录音先进行300Hz低通滤波，然后加重信号，接着进行窄带滤波，最后经过测频算法；

S5、将录音中的电网频率数据作KDA降维处理；

S6、将S5中处理好的数据输入到已经完成训练的BP神经网络进行识别；

S7、用模拟退火算法搜索识别结果，并转换为具体地点。

进一步地，电网频率数据为x₁,x₂,x₃…x_n，通过一个映射F，将数据从n维空间映射到N(N>n)维空间中；

KDA降维算法公式如下：K(x_i,x_j)＝F(x_i)^TF(x_j)；

其中，径向基核函数为：K(x_i,x_j)＝exp(-||x_i-x_j||²/2σ²)。

进一步地，所述步骤S4中，录音中电网频率提取是先经过300Hz低通滤波，然后对信号作加重处理，接着经过49Hz～51Hz的窄带滤波，最后经过测频算法测频。

进一步地，所述低通滤波采用的是巴特沃兹滤波器，所述窄带滤波采用的是椭圆滤波器。

进一步地，所述步骤S7中，对n个地点，BP输出结果分别为S(n)，采用模拟退火算法，搜索其中的max(S(n))，以确定录音的地点。

进一步地，模拟退火算法搜索识别结果步骤如下：

S71、初始化：初始温度T，初始解状态X，每个T值的迭代次数L；

S72、对n＝1,……,L做S73至S76；

S73、产生新解X'；

S74、计算增量Δt'＝S(X')-S(X)，其中S(X)为评价函数；

S75、若Δt'＜0则接受X'作为新的当前解，否则以概率exp(-Δt'/T)接受X′作为新的当前解；

S76、如果满足终止条件则输出当前解作为最优解，结束程序，终止条件通常取为连续若干个新解都没有被接受时终止算法；

S77、T逐渐减少，且T-＞0，然后转S72。

本发明的有益效果是：

相比于现有技术，本发明的优点在于：

一、本发明基于BP神经网络，利用电网频率作为识别依据，解决了传统方法无法识别录音地点的难题；

二、采用BP神经网络作为主要识别方法，效率高；

三、采用KDA降维算法，使识别速度加快；

四、采用模拟退火算法，能够快速搜索出识别结果。

附图说明

图1是实施例的说明示意图。

图2是电力线电网频率采集的说明示意图。

图3是音频信号电网频率提取的说明示意图。

图4是电网频率信号部分未滤波的时域波形图。

图5是电网频率信号已滤波频域图。

图6是原始语音信号时域波形图。

图7是语音信号滤波后频域图。

图8是BP神经网络识别模型。

具体实施方式

下面结合说明书附图和具体的实施例，对本发明作详细描述。

实施例

实施例公开了一种录音地点识别方法，该方法是基于BP神经网络的一种识别方法。BP神经网络是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP神经网络有较高的识别效率，但是其也有明显的弊端，为此本发明采用KDA降维算法，提高了识别速度，同时采用模拟退火算法搜索识别结果，能够迅速准确地识别出录音地点。

结合图1，该种录音地点识别方法包含以下几个部分：电网频率数据降维、音频中电网频率提取、BP神经网络识别模型的建立、搜索识别结果、将识别结果转换为具体地点。

电网频率采集系统设计，由于国内没有可用的电网频率数据库，因此需要设计一个电力线上电网频率采集系统。另外，要实现基于电网频率的音频取证，还需要提取音频中的电网频率。

电力线上和音频中电网频率采集系统设计，电网频率是直接从电力线上降压偏置然后ADC，最后经过49Hz～51Hz窄带滤波后测频得到。如图2所示。

由于音频中的电网频率信号较弱，因此先经过300Hz的低通滤波，然后加重低频信号，然后经过49Hz～51Hz窄带滤波，最后测频得到。如图3所示：

ENF测频算法，用以下步骤得到最终得到电网频率。

1、接收到窄带滤波后N点的电压值x(n)；

2、对x(n)求其自相关函数即对x(n)求微分；

x'(n)＝x(n)-x(n-1) (1)

3、分别对x(n)和x'(n)加汉明窗得x₁(n)和x₁'(n)以减小频谱泄露；

x₁(n)＝x(n)*hanming(n)

x₁'(n)＝x'(n)*hanming(n) (2)

4、分别对x(n)和x'(n)求N点DFT得X(K)和X'(K)；

X(K)＝DFT(x₁(n))

X'(K)＝DFT(x₁'(n)) (3)

5、求X(K)和X'(K)最大模值|X(K_max)|和|X'(K_max)|；

|X(K_max)|＞|X(K_other)|

|X'(K_max)|＞|X'(K_other)| (4)

6、根据K_max求得采样因子f_a；

f_{a} = \frac{PI * K_{\max}}{N * \sin (\frac{PI * K_{\max}}{N})} - - - (5)

7、得测得频率f_r

f_{r} = \frac{f_{m} * f_{a} | X^{'} (K_{\max}) |}{2 * PI | X (K_{\max}) |} - - - (6)

其中，PI：3.1415926，f_m：采样频率。

数据处理过程中的“维数灾难”

实验中发现，采集到的数据是一个高维数组。一个小时的数据高达30000多维，直接将这些数据输入到BP神经网络，会使BP网络的训练时间相当长。因此需要对采集到的数据作降维处理。

采用KDA降维算法，即基于核函数的非线性降维算法。具体如下：

假设电网频率数据为x₁,x₂,x₃…x_n，通过一个映射F，将数据从n维空间映射到N(N>n)维空间中。

首先将降维问题转换为两个向量内积的问题；

K(x_i,x_j)＝F(x_i)^TF(x_j) (7)

K(x_i,x_j)是核函数，作用是接受两个低维向量，可以计算出经过某种变换后，在高维空间里的向量内积。

径向基核函数为：

K(x_i,x_j)＝exp(-||x_i-x_j||²/2σ²) (8)

通过以上算法可以对电网频率数据作降维处理。

原始数据分析

由图4可以看到，从时域上根本不能看到波形的变化，仅仅是波峰波谷处出现略微变形，但是从图4可以看出，电网频率频域波动比较明显。

图6是原始语音波形，常规的音频取证手段很难识别出其录音地点。图5电网频率信号频域图(已滤波)，图7为语音信号滤波后经过测频的音频频域图，将图7和图5对比可以发现，利用图形的变化规律可以找出两个波形最相似的地方，从而识别出录音的地点。

BP神经网络识别系统设计，BP神经网络一种按误差逆传播算法训练的多层前馈网络该网络，主要特点是信号前向传递，误差反向传递。在前向传递过程中，输入信号从输入层经隐含层逐层处理，直至输出层。每一层的神经元状态只影响下一层神经元状态。如果输出层得不到期望输出，则转入反向传播，根据预测误差调整网络权值和阈值，从何使BP神经网络预测输出不断逼近期望输出。

基于BP神经网络录音地点识别

实施例共选取了四个地点同一天中三个时间段的电网频率数据，分别是A地、B地、C地、D地9点～10点、14点～15点、19点～20点的数据。将每个地点每个时间段的数据转换为500组30维电网频率数据。并提取四个地点3个时间段采集的语音中的特征电网频率，将之同样转换为500组30维语音中电网频率数据。并在语音中电网频率的第一维插入地点标示类，其中A地标示类为1，B地标示类为2，C地标示类为3，D地标示类为4。因此，将BP神经网络的期望输出向量定为

\overset{&RightArrow;}{M} = (\begin{matrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{matrix})

BP神经网络识别模型建立

基于BP神经网络的语音地点识别算法建模包括BP神经网络构建、BP神经网络训练和BP神经网络识别。BP神经网络识别模型的建立如图8。

模拟退火算法

实施例采集了四个地点，而实际系统中有成千上万个地点。在BP神经网络的输出结果中找到匹配结果需要用到模拟退火算法。

假设有n个地点，BP输出结果为S(n)，现采用模拟退火算法，搜索其中的max(S(n))，以确定录音的地点。具体步骤如下：

1)初始化：初始温度T，初始解状态X，每个T值的迭代次数L；

2)对n＝1,……,L做第(3)至第6步；

3)产生新解X'；

4)计算增量Δt'＝S(X')-S(X)，其中S(X)为评价函数；

5)若Δt'＜0则接受X'作为新的当前解，否则以概率exp(-Δt'/T)接受X′作为新的当前解；

6)如果满足终止条件则输出当前解作为最优解，结束程序。终止条件通常取为连续若干个新解都没有被接受时终止算法；

7)T逐渐减少，且T-＞0，然后转第2步。

BP神经网络录音地点识别算法设计

根据输入输出数据特点确定BP神经网络的结构，由于电网中电网频率有30维，待识别的地点有四个，因此，BP神经网络的输入层有30个节点，隐含层有25个节点，输出层有4个节点。

算法设计：

1.将三个时间段四个地点的电网频率数据合并为一个数组。作为训练数据；

2.将同一地点三个时间段的音频中提取的电网频率数据合并为一个数组，作为测试数据；

3.将输入数据作归一化处理；

4.初始化BP神经网络；

5.训练BP神经网络，设定训练次数为1000次；

6.将三个时间段的测试数据归一化处理并输入到已训练好的BP神经网络，并根据地点标示类统计识别正确率；

7.输出网络误差和BP神经网络识别率；

8.用模拟退火算法搜索识别率里的最大值，确定识别结果。

实验结果

表1 9点～10点的录音地点识别率

表1中，列为输入A、B、C、D地点音频电网频率数据，识别成A、B、C、D四个地点的百分比。表1中输入数据为一天中9点～10点录音中提取的电网频率的数据，每个地点都有500组。

表2 14点～15点的录音地点识别率

表2中，列为输入A、B、C、D地点音频电网频率数据，识别成A、B、C、D四个地点的百分比。表2中输入数据为一天中14点～15点录音中提取的电网频率的数据，每个地点都有500组。

表3 19点～20点的录音地点识别率

表3中，列为输入A、B、C、D地点音频电网频率数据，识别成A、B、C、D四个地点的百分比。表3中输入数据为一天中19点～20点录音中提取的电网频率的数据，每个地点都有500组。

从表1、2、3中可以看出，BP神经网络存在较低的识别误差，最大识别误差为9.4％，即500个样本中有47个样本识别错误，但这并不影响得出识别录音地点的最终结论。因此基于BP网络的录音地点识别算法具有较高的准确性，能够准确识别出录音的地点。

以上示意性地对本发明创造及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明创造的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本专利的保护范围。

Claims

1.一种录音地点的识别方法，其特征在于，

S1、构建BP神经网络；

S3、将处理后的电网频率数据作为训练样本训练BP神经网络；

S5、将录音中的电网频率数据作KDA降维处理；

S7、用模拟退火算法搜索识别结果，并转换为具体地点。

2.如权利要求1所述录音地点的识别方法，其特征在于：电网频率数据为x₁,x₂,x₃…x_n，通过一个映射F，将数据从n维空间映射到N(N>n)维空间中；

KDA降维算法公式如下：K(x_i,x_j)＝F(x_i)^TF(x_j)；

其中，径向基核函数为：K(x_i,x_j)＝exp(-||x_i-x_j||²/2σ²)。

3.如权利要求1所述录音地点的识别方法，其特征在于：所述步骤S4中，录音中电网频率提取是先经过300Hz低通滤波，然后对信号作加重处理，接着经过49Hz～51Hz的窄带滤波，最后经过测频算法测频。

4.如权利要求3所述录音地点的识别方法，其特征在于：所述低通滤波采用的是巴特沃兹滤波器，所述窄带滤波采用的是椭圆滤波器。

5.如权利要求1-4任一项所述录音地点的识别方法，其特征在于：所述步骤S7中，对n个地点，BP输出结果分别为S(n)，采用模拟退火算法，搜索其中的max(S(n))，以确定录音的地点。

6.如权利要求5所述录音地点的识别方法，其特征在于，模拟退火算法搜索识别结果步骤如下：

S72、对n＝1,……,L做S73至S76；

S73、产生新解X'；

S74、计算增量Δt'＝S(X')-S(X)，其中S(X)为评价函数；

S77、T逐渐减少，且T-＞0，然后转S72。