CN102394062A

CN102394062A - 一种自动录音设备源识别的方法和系统

Info

Publication number: CN102394062A
Application number: CN2011103305277A
Authority: CN
Inventors: 贺前华; 王志锋; 罗海宇; 沈秉乾
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2011-10-26
Filing date: 2011-10-26
Publication date: 2012-03-28
Anticipated expiration: 2031-10-26
Also published as: CN102394062B

Abstract

本发明涉及智能语音信号处理、模式识别与人工智能技术领域，特别是涉及一种自动录音设备源识别的方法和系统。该方法步骤如下：a.提取语音信号中录音设备的特征；b.利用GMM-UBM建立录音设备的统计模型；c.利用归一化的似然度作为最终得分进行分类判决。不同的录音设备中包含有不同的设备噪声，本发明利用静音段来提取录音设备特征，然后建立录音设备的统计模型来进行设备的分类识别。本发明实施例中的技术方案充分表明本发明所提取的特征维数低，计算复杂度低，错误识别率低。

Description

一种自动录音设备源识别的方法和系统

技术领域

本发明涉及智能语音信号处理、模式识别与人工智能技术领域，特别是涉及一种自动录音设备源识别的方法和系统。

背景技术

随着计算机技术的不断发展，功能强大的数字多媒体编辑软件使得修改编辑数字音频、图像和视频数据变得越来越容易。尽管一般人对数字多媒体的修改和编辑只是为了增强其表现效果，但也不乏某些人出于各种目的，故意甚至恶意地传播一些经过精心篡改伪造的多媒体数据。篡改的多媒体数据一旦被大量地用于正式媒体、科学发现、保险和法庭证物等，无疑将会对社会、政治和军事等各个方面产生严重影响。因此，需要一种客观、公正、能够澄清事实真相的多媒体验证技术，而数字多媒体取证技术正是为这一目的而提出的。

设备源识别是数字多媒体取证技术中非常重要的组成部分。设备源识别可对多媒体的来源、真实性和可靠性进行验证。现有的设备源识别技术主要集中在数字图像的设备源识别领域，例如相机、打印机和扫描仪等的源识别已经取得很多重要的成果。对录音设备源的识别研究却非常少，然而录音设备源识别却是数字多媒体取证技术中非常重要的部分。录音设备源识别的目标是直接由已获取的语音信号找到其中所隐含的录音设备信息，从而进行录音设备源的识别，这种技术属于音频盲取证技术。大多数情况下，不可能在产生数字音频的同时就在数字音频中嵌入水印等隐秘信息，因此盲录音设备源取证更符合实际情况，并具有更好的实用价值。录音设备源识别有多个方面的应用，例如：司法取证方面，录音设备源识别可以验证数字音频证据来源的可靠性和真实性；知识产权保护方面，录音设备源识别可以协助打击盗版保护知识产权；录音设备源识别也可以验证数字音频的真实性，如果一段音频中包含多个录音设备的信息或者所包含的录音设备信息出现不连续性，那么说明这段音频是经过后期加工和编辑，并不是真实的音频信号；说话人识别和语音识别技术中一个非常重要的问题就是训练和识别时的信道不匹配问题，录音设备源识别可以用来检测训练和识别时的信道设备信息，建立不同录音设备之间的映射函数，进而可以进行设备参数的自适应以提高最后的识别率。录音设备源识别包含几个不同的层面：录音设备类型的识别、录音设备品牌的识别、录音设备型号以及录音设备个体的识别，其中录音设备类型可以是手机、录音笔、PDA、mp3和mp4等，录音设备个体指某一台特定录音设备。

在数字录音设备源识别这个领域，C.Kraetzer在其论文《Digital Audio Forensics：A First PracticalEvaluation on Microphone and Environment Classification》中提出了一种从语音中识别四种麦克风设备的方法，他把短时特征和美尔倒谱拼接到一起形成了特征矢量，并使用了朴素贝叶斯分类器。对于四种麦克风设备，该方法的识别率在60％-75％之间。这样的方法是有效的，但在某些方面也存在着不足。C.Kraetzer的方法中使用的特征是直接从输入语音中提取，而直接输入的语音中往往包含了扩音器信息、文本信息、录音设备信息以及背景噪声。在这样的情况下，用所提取的特征代表录音设备信息显得比较模糊。而且，朴素贝叶斯分类器不能用于数量较多的录音设备的识别。

发明内容

本发明的目的在与克服现有技术的缺点和不足，利用语音信号中录音设备的“机器指纹”进行录音设备源识别，提供了一种专门针对录音设备的源识别的方法。

本发明的另一目的还在于提供实现上述方法的系统。

本发明的通过如下技术方案实现：

一种自动录音设备源识别方法，其步骤如下：

(1)提取语音信号中录音设备的特征；

(2)利用GMM-UBM建立录音设备的统计模型；

(3)利用归一化的似然度作为最终得分进行分类判决。

所述步骤(1)的录音设备特征的提取步骤如下：

(11)提取语音信号中的静音段；

(12)去除所提取静音段的背景噪声；

(13)将步骤(12)处理后的信号进行预处理；

(14)将步骤(13)处理后的信号提取Mel倒谱系数录音设备的特征。

所述步骤(2)的录音设备统计模型的建立步骤如下：

(21)用多种录音设备的数据训练设备通用背景模型DEV-UBM，作为录音设备的反对模型；DEV代表录音设备(device)，UBM代表通用背景模型(universal background model)；

(22)利用特定录音设备的语音数据将步骤(21)中提取的DEV-UBM采用MAP(Maximum aposteriori，最大后验概率)算法进行自适应，从而获得特定录音设备的统计模型DEV-GMM(GMM代表混合高斯模型Gaussian mixture model)；

所述步骤(3)中归一化似然度得分的计算方法如下：

\hat{Λ} (X) = \frac{1}{T} Σ_{t = 1}^{T} \log p (x_{i} / λ_{d}) - \frac{1}{T} Σ_{t = 1}^{T} \log p (x_{i} / λ_{\overset{&OverBar;}{d}})

= \frac{1}{T} Σ_{t = 1}^{T} \log p (x_{i} / λ_{d}) - \frac{1}{T} Σ_{t = 1}^{T} \log p (x_{i} / λ_{dev - ubm})

其中，T为语音样本的帧数，λ_d表示特定录音设备的统计模型，

表示λd的反对模型(本发明采用录音设备通用背景模型λ_dev-ubm来描述反对模型

)，p(X/λ_d)表示X是来自于录音设备D的特征矢量空间的条件概率，表示X来自于其它候选录音设备(除D以外)的条件概率。

所述步骤(11)中若提取的静音数据不足3秒，则将该静音数据与相邻的拼接起来构成时长大于3秒的静音样本；提取静音时帧长取20ms，帧移取10ms。

所述步骤(12)采用信号级的滤波方法谱减法去除信号中的背景噪声，保留其中的录音设备信息。

所述步骤(13)中的预处理包括预加重、分帧、加窗。

所述步骤(21)中的通用背景模型DEV-UBM是用两组分布平衡的音频数据子集分别训练两个子通用背景模型SUB-UBM，然后将这两个子通用背景模型合并而成，使所获得的通用背景模型不偏向于某一类设备，同时也可降低计算复杂度，减少训练DEV-UBM时所用时间。

实现上述方法的系统，包括：

——静音提取模块(100)，用于提取训练和识别过程中语音数据中的静音段；

——预处理模块(200)，用于去除静音中的背景噪声，保留其中的设备信道信息，并且对去噪处理后的语音信号进行预加重、分帧、加窗处理；

——录音设备特征提取模块(300)，用于提取训练和识别过程中语音数据的录音设备特征；

——设备通用背景模型DEV-UBM模块(400)，用于构建录音设备的通用背景模型，作为反对设备模型；

——MAP自适应模块(500)，用于自适应调节设备通用背景模型DEV-UBM中的参数，以获得特定录音设备的统计模型；

——录音设备模型DEV-GMM模块(600)，用于构建特定录音设备的统计模型；

——识别判决模块(700)，通过归一化的似然度得分判断待识别语音是来自于哪一个录音设备。

本发明的基本原理是：进行录音设备源识别的前提假设是，数字音频在产生的同时，录音设备也会在数字音频中留下设备的“机器指纹”。对于这个前提假设，一个非常重要的支持是在说话人识别领域，由于录音设备产生的这些设备信道信息对最后的识别结果产生非常大的影响，因此现在大部分的说话人识别技术都想方设法来去除这方面的影响。这些“机器指纹”可以采用现代的统计学方法和模式识别技术进行提取和识别。另外一方面，语音中包含了丰富的信息，例如说话人信息、文本信息、设备信息、背景噪声等，这些文本信息、说话人信息和背景噪声等同时也会为设备信息的提取和识别造成影响，因此避免这些因素对录音设备源识别的影响是一个难题。

对于一段语音，不同的传感器和信号采集电路都会引入自身不同的设备信道信息(麦克风、抖动电路、前置放大器、输入滤波器、A\D、取样保持电路等都会引入相应的设备电路噪声)。由于不同录音设备中所采用传感器和信号采集电路的差异，不同的录音设备中包含有不同的设备噪声，将这些设备噪声作为录音设备在语音信号中留下的“机器指纹”，那么提取了这种“机器指纹”就可以进行录音设备源识别。然而，在语音中如果不做特殊处理，设备信息很容易被说话人信息和文本信息所掩盖，要单独从语音中提取出设备信道信息是非常困难的，目前还没有成熟的技术能够做到这一点。静音中包含了完整的设备信息，并且不受说话人信息和文本信息的影响，所以本发明利用静音段来提取录音设备特征，然后建立录音设备的统计模型来进行设备的分类识别。

本发明具有以下的优点和有益效果：

(1)本发明能有效检测多个录音设备的类型。

(2)本发明的核心方法复杂度低，效率高，易于在可移动设备上实现，也可在PC机上建立相应的系统平台。

(3)本发明为司法取证、新闻报道的真实性等的验证提供了有力的科学方法。

(4)本发明填补了国内在录音设备源识别方面的空缺，具有独创性。

(5)本发明可用于知识产权的保护，有力地打击盗版。

(6)本发明亦可用来验证数字音频的真实性，如果一段音频中包含多个录音设备的信息或者所包含的录音设备信息出现不连续性，那么说明这段音频是经过后期加工和编辑，并不是真实的音频信号。

(7)说话人识别和语音识别技术中一个非常重要的问题就是训练和识别时的信道不匹配问题，录音设备源识别可以用来检测训练和识别时的信道设备信息，建立不同录音设备之间的映射函数，进而可以进行设备参数的自适应以提高最后的识别率。

附图说明

图1是本发明的系统结构图。

图2是录音设备通用背景模型DEV-UBM的训练过程。

图3是不同高斯情况下九种录音设备的识别结果。

图4是不同训练样本时长对9种录音设备源识别平均识别率。

具体实施方式

下面结合实施例及附图对本发明作进一步的详细描述，但本发明的实施方式不限于此。

实施本发明的识别设备可以是嵌入式系统设备平台，也可采用C语言编制各类语音信号处理程序。

如图1所示，为本发明一种自动录音设备源识别系统的流程图，本发明的自动录音设备源识别方法和系统可在数字继承芯片中按以下步骤实现：

步骤(1)，提取训练和识别过程中语音数字的静音段：静音中包含了完整的录音设备信息，并且不受说话人信息和文本信息的影响，因此本发明利用静音来提取录音设备特征。静音的提取方法采用双门限法，若提取的静音数据不足3秒，则将该静音数据与相邻的拼接起来构成时长大于3秒的静音样本。提取静音时帧长取20ms，帧移取10ms。检测静音时帧数连续少于6帧的音频段，认为是语音段，不将其归为静音段。

步骤(2)，对上述步骤(1)中提取的静音信号进行去噪滤波处理。静音中除了包含设备信道信息，还带有环境噪声，由于静音幅度小，其中的设备信息很容易被环境噪声干扰，因此需要对提取的静音进行去噪处理。这里需要去除静音中的背景噪声，而保留其中的设备信道信息，因此本发明采用信号级的滤波方法谱减法去噪。

步骤(3)，通过上述步骤(2)中处理过的静音信号来提取录音设备特征。可分为以下步骤：

步骤S31，对输入语音信号进行预处理：预处理包括对语音信号进行预加重，分帧，加窗等处理。预加重是对语音信号进行高通滤波，滤波器的传输函数为H(z)＝1-az^-1，其中a＝0.975。对语音信号的分帧，其中帧长为512个点，帧移为256个点。对语音信号所加的窗为汉明窗，其中汉明窗的函数为：

ω_{H} (n) = \{\begin{matrix} 0.54 - 0.46 \cos (\frac{2 πn}{N - 1}), & 0 \leq n \leq N - 1 \\ 1 & others \end{matrix}

步骤S32，录音设备特征提取：提取步骤S31预处理后信号的Mel倒谱系数作为录音设备的特征。提取特征时，帧长为32ms，帧移为16ms，预加重系数为0.975，采用汉明窗，12维Mel系数和1维的对数能量构成13维特征。此外，还加入了能够描述语音动态特性的一阶差分和二阶差分，共39维特征参数。

步骤(4)，构建录音设备通用背景模型。本发明采用录音设备通用背景模型DEV-UBM描述反对模型

如图2所示，构建录音设备通用背景模型分为以下几个步骤：

用两组分布平衡的音频数据子集分别训练两个子通用背景模型，然后将这子两个通用背景模型合并成一个通用背景模型。这两个子集可以是两种性别，也可以是两种不同类型的录音设备。本发明采用了后一种方案训练针对不同类型设备的通用背景DEV-UBM，分别用两种常用麦克风获得的数据训练子设备通用背景模型(动圈式麦克风和电容式麦克风)。这样分开训练的DEV-UBM，可以使得两类数据训练出来的DEV-UBM能够保持平衡，使所获得的通用背景模型不偏向于某一类设备，同时也可以降低计算复杂度，减少训练DEV-UBM时所用时间，并且也能获得比较理想的识别效果。

合并模型时，新模型λ_ubm＝{w_u，μ_u，∑_u}中各个参数的取值如下：

w_u＝0.5*[w₁，w₂]

μ_u＝[μ₁，μ₂]

Σ_{u} = (\begin{matrix} diag (Σ_{1}) & 0 \\ 0 & diag (Σ_{2}) \end{matrix})

步骤(5)，在录音设备通用背景模型的基础上，利用特定录音设备语音提取的信道特征，通过MAP算法自适应获得特定录音设备的统计模型DEV-GMM。实际情况下从录音中获取的静音样本量非常有限，很难直接用大量的数据训练GMM，6分钟的数据只能用于训练少于64个高斯的GMM。训练模型时，每个高斯下必须包含有足够的特征数据，否则就不能很好地描述特定设备的特征空间分布。高斯数很少的情况下就难以描述多个录音设备的特征空间分布，特别是录音设备非常多的情况下，各个不同设备之间的空间距离会变小，此时GMM难以直接建立具有区分性的录音设备模型。因此，本发明录音设备的概率密度函数并不是直接采用GMM获得，而是通过DEV-UBM进行自适应获得特定录音设备的DEV-GMM。具体模型建立步骤如下：

步骤S51，计算每一帧的特征数据在第i个高斯下的占有率(0＜i≤M)：

\Pr (i / x_{t}) = \frac{w_{i} p_{i} (x_{t} / λ)}{Σ_{j = 1}^{M} w_{j} p_{j} (x_{t} / λ)}

其中，

p (x / λ) = Σ_{i = 1}^{M} w_{i} p_{i} (x / λ)

= Σ_{i = 1}^{M} w_{i} \frac{\exp {- \frac{1}{2} {(x - μ_{i})}^{T} {(Σ_{i})}^{- 1} (x - μ_{i})}}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}}

步骤S52，利用上述S51得到Pr(i/x_t)计算统计量n_i，E_i(x)，E_i(x²)。如下所示：

n_{i} = Σ_{t = 1}^{T} \Pr (i / x_{t})

E_{i} (x) = \frac{1}{n_{i}} Σ_{t = 1}^{T} \Pr (i / x_{t}) x_{t}

E_{i} (x^{2}) = \frac{1}{n_{i}} Σ_{t = 1}^{T} \Pr (i / x_{t}) x_{t}^{2}

步骤S53，利用步骤S52中得到的统计量来自适应调节设备模型参数：

{\hat{μ}}_{i} = a_{i}^{m} E_{i} (x) + (1 - a_{i}^{m}) μ_{i}

{\hat{w}}_{i} = [a_{i}^{w} n_{i} / T + (1 - a_{i}^{w}) w_{i}] γ

{\hat{δ}}_{i}^{2} = a_{i}^{v} E_{i} (x^{2}) + (1 - a_{i}^{v}) (δ_{i}^{2} + μ_{i}^{2}) - {\hat{μ}}_{i}^{2}

其中γ是用来调整

使得

而是用来调节先验模型和输入录音设备数据的自适应系数。在训练DEV-GMM过程中，采用6分钟左右的静音数据获得的特征来自适应并获得每个设备的统计模型。本发明中的三个模型参数采用相同的自适应系数来进行调整，即

其中τ是自适应时非常重要的参数，它描述了当前DEV-UBM和特定设备的DEV-GMM之间的关联性。调整参数时，不能调整得太远，必须考虑原有的UBM。通常情况下，语音长度较长时τ的取值相对大一些，当τ的取值趋近于无穷大时，MAP参数估计就变成了最大似然估计。研究表明自适应语音在1～6分钟时，τ取值在8～20之间。本发明通过实验验证对于6分钟训练数据τ＝16能获得比较好的识别结果。

步骤(6)，录音设备的判决打分：将需要判决录音设备的语音通过步骤1，2，3处理后得到的特征参数，分别输入到通用背景模型中和设备模型中进行识别，两者输出的结构分别输入到判决模块中打分，打分过程如下：

步骤S61，识别时采用对数似然函数来计算输入语音的得分，对于T帧的测试数据对数似然度计算如下：

Λ (X) = Σ_{t = 1}^{T} \log p (x_{i} / λ_{d}) - Σ_{t = 1}^{T} \log p (x_{i} / λ_{dev - ubm});

其中p(x_i/λ_d)表示X是来自设备D的特征矢量空间的条件概率，p(x_i/λ_dev-ubm)表示X是来自其他候选录音设备(除D以外)的条件概率。

步骤S62，将实际得分除以帧数得到最后得分。

\hat{Λ} (x) = \frac{Λ (X)}{T};

Λ(X)是实际得分，T为帧数，

为最后得分。这样处理的好处有两方面，第一，由于输入的测试语音时长会存在差异，除以帧数后可以对最后的得分进行归一化处理，便于进行不同录音设备得分之间的比较；第二，上面式子中前提假设是各帧之间的数据是独立的，但实际语音的各镇数据之间存在相关性，除以帧数也是对这个假设进行平均补偿。

步骤S63，计算各候选设备模型的得分，得分最高的候选设备模型即识别为语音设备源。根据本发明提出的方法，在录音与回放语音数据库(Authentic and Playback Speech Database，APSD)进行对比实验。

本发明实施例采用RASC863数据库时长约为18小时的语音数据训练DEV-UBM。RASC863数据库包含200个说话人(男女各100人)，配置有两套录音设备，其中左声道采用德国的森海塞尔(Sennheiser)麦克风录制，右声道采用797厂生产的CR722电容传声器(20-20kHz)录制。上述步骤(4)中给出了合并两个DEV-UNM模型后新模型的参数计算方法，训练录音设备的DEV-UBM时，将左右声道的信号分别训练一个高斯数为512的子DEV-UBM，再将这两个子DEV-UBM合并成一个1024高斯的DEV-UBM。通过这种方法训练可以涵盖两类主要的麦克风：动圈式麦克风和电容式麦克风。分开训练使得这两类设备的特征空间分布平衡，获得一个鲁棒性更好的设备通用背景模型，同时还可降低计算的复杂度，减少训练DEV-UBM的时间。从不同录音设备的录音中提取静音，进行去噪处理后提取MFCC特征，然后利用MAP算法在DEV-UBM的基础上自适应得到每一个录音设备的模型DEV-GMM。识别时通过以下函数获得每个特定设备输入语音样本的得分，得分最高的录音设备模型为最终识别的录音设备，即

λ_{d}^{*} = \underset{λ_{d}}{\arg \max} (\hat{Λ} (X))

= \underset{λ_{d}}{\arg \max} [\frac{1}{T} (Σ_{t = 1}^{T} \log p (x_{i} / λ_{d}) - Σ_{t = 1}^{T} \log p (x_{i} / λ_{dev - ubm}))]

为了评估本发明的有效性，选取了TIMIT、ISLE语音数据库、863汉语普通话连续语音库、CADCC四个数据库中的数据进行录音设备源识别。这四个数据库在录制时采用了不同的录音设备，那么可以将各个数据库中每种录音设备作为一个设备源进行识别测试，这四个数据库中所包含的录音设备信息以及从中提取的静音样本数如表1：

表1各个数据库所包含的录音设备信息和选取的实验样本

选取的数据库	所用录音设备	数据集编号	提取静音样本数
				863语音库	Sennheiser麦克风	D-863	1607
CADCC	CREATIVE声卡+CR722电容麦克风	D-CADCC	1209
				TIMIT	Pressure-sensitive麦克风	D-TIMIT	1210
ISLE	Knowles VR3565麦克风	D-ISLE	1266

在采用上述四个数据库的同时，也建立了一个多录音设备数据库(MRDSD，Multi-RecordingDevice Speech Database)。数据库的语料设计包括以下六个部分：

●20个孤立词短语；

●10个连续数字串，每个数字串包含10个数字；

●60个音素和音节分布均匀的句子，其中15句选自863连续语音库；15句选自863四大方言库；

15句选自《人民日报》；15句选自“新华网”(每句5～16个字)；

●两篇音素和音节分布均匀的短文，共223个字，以正常的语速朗读；

●将前面第三部分和第四部分分别以慢速和快速朗读一遍；

●从5个话题中选取一个进行即兴演讲，长度约为两分钟。

有34人参与了数据库的录制(10女，24男)，录制时也采用了多个录音设备的组合，各个设备的组合以及从中提取的静音样本数如表2所示：

表2MRDSD所采用的录音设备以及选取的实验样本

从选取的每一类设备组合的数据集中随机抽取200个样本作为训练数据(训练的语音样本为6分钟左右)用于自适应高斯数为1024的DEV-UBM从而获得特定设备的DEV-GMM，而其余的数据则作为测试数据(测试集的每个样本为3秒钟左右)，选取的样本如表1、表2所示。

基于选取的数据集设计了以下三组实施例：

(1)从表1的四个数据库中选取数据集(D-863、D-CADCC、D-TIMIT、D-ISLE)，并从MRDSD数据库中选取5组录音设备的数据集(D-CRE05、D-REA02、D-SAM02、D-SON02、D-OLY02)进行测试，考察本发明能否有效地进行录音设备源的识别。

(2)从MRDSD数据库中选取两种类型的数据集进行测试：同种麦克风不同数据采集设备的数据集(D-CRE05、D-REA01、D-SAM01、D-SON01、D-OLY01)；同种数据采集设备不同种麦克风的数据集(D-CRE01～D-CRE05)。考察麦克风、数据采集设备对录音设备信息的影响，以及对录音设备源识别结果的影响。

(3)考察不同因素对本发明的影响，为所提出的录音设备源识别系统的在实际应用提供指导。所考察的不同因素有：不同数据库所建立的通用背景对识别结果的影响；DEV-GMM不同高斯个数对识别结果的影响；不同特征的选择对识别结果的影响；不同训练样本时长对识别结果的影响。

实施例1选取的9组录音设备数据集的源识别实验；

本发明对实施例1选取的9种设备数据集的识别结果如表3所示：

表3实施例1选取的9种不同录音设备数据集的识别结果(％)

Model\Test	D-863	D-CADCC	D-TIMIT	D-ISLE	D-CRE05	D-REA02	D-SAM02	D-SON02	D-OLY02
										D-863	91.33	0.31	0	0	3.14	0	0	0	0
D-CADCC	1.66	97.33	0.34	0	0	0	0	0	0
										D-TIMIT	1.92	0	99.54	0	0	0	0	0	0
D-ISLE	0.26	0.21	0	100	0	0	0	0	0
										D-CRE05	2.75	1.33	0	0	96.86	0	0	0	0
D-REA02	0.42	0	0.12	0	0	100	0	0	0.02
										D-SAM02	0	0.10	0	0	0	0	100	0	0
D-SON02	0.36	0	0	0	0	0	0	100	0
										D-OLY02	1.30	0.72	0	0	0	0	0	0	99.98

上述录音设备源识别矩阵的对角线表示每类设备的正确识别率，其它的则是错误识别的结果，对这9种录音设备的平均正确识别率为98.34％，说明本发明对录音设备源识别是有效的。本实施例采用的DEV-GMM可以比较好地拟合多个录音设备的特征空间分布，因此能够获得较好的结果。

D-863、D-CADCC、D-CRE05这三个数据集代表的录音设备的识别率是这9种录音设备中最低的三种。原因是它们之间存在着有设备的重叠，D-863和D-CRE05录音时都采用了Sennheiser麦克风，D-863有2.75％的测试样本被识别为了D-CRE05(这也是D-863测试集发生错误率最大)，而D-CRE05也有3.14％的样本被识别为了D-863；D-CADCC与D-CRE05都采用了Creative声卡，D-CADCC有1.33％的样本被错误识别成了D-CRE05(这也是D-CADCC分类识别时发生的错误率最大)。以上结果表明麦克风和数字采集设备是录音设备信息的两个重要组成部分，它们决定了录音设备是否属于同种设备。在实施例2中则分别对麦克风和数字采集设备对于录音设备信息的影响进行了测试。

实施例2同种麦克风不同种数据采集设备、同种数据采集设备不同种麦克风两类数据集源识别实验

本发明对实施例2选取的9种设备数据集的识别结果如表5所示：

表4两类数据集的录音设备源识别实验(％)

表4中的阴影部分是错误率产生的最主要地方，上半部分刚好是同种采集设备的识别结果，下半部分刚好是同种麦克风的识别结果，说明它们类内的错误率大于它们两类之间的错误率。另一方面，相同采集设备不同麦克风识别的错误率略高于相同麦克风不同采集设备的错误率，说明数据采集设备能够提供更具区分性的设备信息。

实施例3考察不同因素对录音设备源识别系统的影响

进行这部分测试时，每次只变动其中的一个因素，而其它的参数则和实施例1和实施例2中的保持一致。下面测试如无特殊说明则采用实施例1部分的9种设备的数据集。

(1)不同数据库所建立的通用背景对识别结果的影响

为了验证本发明建立设备通用背景模型(DEV-UBM)的方法在不同数据库上的可行性和有效性。从上述四个数据库中选择两组重新训练通用背景模型，选取的思路是动圈式麦克风和电容式麦克相组合，使得通用背景能够涵盖这两大类常用的麦克风类型，将两类设备分别训练子UBM，然后合并成1024个高斯的DEV-UBM。训练和识别时，使用了实施例2部分的9个设备的数据集。

表5不同数据库训练DEV-UBM对识别的影响(％)

不同数据训练的DEV-UBM	9种录音设备平均正确识别率
		RASC863	98.77
TIMIT+CADCC	98.42
		ISLE+863语音库	98.36

从表5中，采用不同的数据库训练DEV-UBM能获得与实验2中相同水平的实验结果，说明本发明建立设备通用背景模型的方法对于录音设备源识别是有效的，对于其它的数据库也具有通用性。

(2)DEV-GMM中不同高斯个数对识别结果的影响

本实施例考察DEV-UBM中不同高斯个数对最终识别结果的影响，以确定最优的高斯个数。

图3显示随着DEV-GMM高斯数的增加，9种录音设备的平均正确识别率是呈现不断增加的趋势。当高斯数增加到1024，平均识别率则变化不大(2048个高斯的平均识别率比1024个高斯只增加了约0.1％)，因此本发明的录音设备源识别系统的DEV-GMM高斯数选择了1024。

(3)不同特征的选择对识别结果的影响

本实施例分别考察了常用的倒谱系数(MFCC、LPCC)和线性预测系数(LPC)等特征的选择对于录音设备源识别的影响，通过测试找到能够有效描述设备信息的特征。

表6不同特征对录音设备平均正确识别率的影响(％)

不同特征	9种录音设备平均正确识别率
		MFCC	98.34
LPCC	94.13
		LPC	89.75

在进行不同特征测试时，分别采用这些特征重新训练DEV-UBM(高斯数为1024)，然后自适应获得每个特定设备的DEV-GMM。从表6中可以看出，MFCC获得最好的平均正确识别率，而LPCC的正确识别率比MFCC少4％，而LPC的正确识别率最低，因此本发明中的录音源设备识别系统采用MFCC作为特征。

(4)不同训练样本时长的影响

此测试中的训练样本的时长变化从0.5min到10min。如图4，测试结果表明训练样本时长为6min左右时平均正确识别率达到一个局部最优值，训练样本时长再往上增加时，平均正确识别率只会出现微小的波动，不再有明显的变化。因此，本发明中的录音设备源识别系统的训练样本时长选定为6min左右。

根据本发明提出的方法和系统，在多录音设备数据库(MRDSD，Multi-Recording DeviceSpeech Database)进行测试，测试结果如图3所示。当DEV-UBM的高斯数为1024对这9种录音设备的平均正确识别率为98.34％，说明本方法对录音设备源识别是有效的。图3显示随着DEV-GMM高斯数的增加，9种录音设备的平均正确识别率是呈现不断增加的趋势。当高斯数增加到1024，平均识别率则变化不大(2048个高斯的平均识别率比1024个高斯只增加了约0.1％)，因此本发明的录音设备源识别系统的DEV-GMM高斯数选择了1024。测试表明，本发明所提出的方法不仅简单易实现，效率高，并且在错误率低，用在嵌入式识别及其它智能设备上将有更高的效率。

Claims

1.一种自动录音设备源识别方法，其特征在于，该方法步骤如下：

（1）提取语音信号中录音设备的特征；

（2）利用GMM-UBM建立录音设备的统计模型；

（3）利用归一化的似然度作为最终得分进行分类判决。

2.根据权利要求1所述的一种自动录音设备源识别方法，其特征在于，所述步骤（1）中的录音设备特征的提取步骤如下：

（11）提取语音信号中的静音段；

（12）去除所提取静音段的背景噪声；

（13）将步骤（12）处理后的信号进行预处理；

（14）将步骤（13）处理后的信号提取Mel倒谱系数录音设备的特征。

3.根据权利要求1所述的一种自动录音设备源识别方法，其特征在于，所述步骤（2）的录音设备统计模型的建立步骤如下：

(21) 用多种录音设备的数据训练设备通用背景模型DEV-UBM，作为录音设备的反对模型；

(22) 利用特定录音设备的语音数据将步骤（21）中提取的DEV-UBM采用MAP算法进行自适应，获得特定录音设备的统计模型DEV-GMM。

4.根据权利要求2所述的一种自动录音设备源识别方法，其特征在于，所述步骤（11）中的静音数据若小于3秒，则将该静音数据与相邻的拼接起来构成时长大于3秒的静音样本；提取静音时帧长取20ms，帧移取10ms。

5.根据权利要求2所述的一种自动录音设备源识别方法，其特征在于，所述步骤（12）采用信号级的滤波方法谱减法去除信号中的背景噪声，保留其中的录音设备信息。

6.根据权利要求2所述的一种自动录音设备源识别方法，其特征在于，所述步骤（13）中的预处理包括预加重、分帧、加窗。

7.根据权利要求3所述的一种自动录音设备源识别方法，其特征在于，所述步骤（21）中的通用背景模型DEV-UBM是用两组分布平衡的音频数据子集分别训练两个子通用背景模型SUB-UBM，然后将这两个子通用背景模型合并而成。

8.一种自动录音设备源识别系统，其特征在于包括：

-——静音提取模块（100），用于提取训练和识别过程中语音数据中的静音段；

——预处理模块（200），用于去除静音中的背景噪声，保留其中的设备信道信息，并且对去噪处理后的语音信号进行预加重、分帧、加窗处理；

——录音设备特征提取模块（300），用于提取训练和识别过程中语音数据的录音设备特征；

——设备通用背景模型DEV-UBM模块（400），用于构建录音设备的通用背景模型，作为反对设备模型；

——MAP自适应模块（500），用于自适应调节设备通用背景模型DEV-UBM中的参数，以获得特定录音设备的统计模型；

——录音设备模型DEV-GMM模块（600），用于构建特定录音设备的统计模型；

——识别判决模块（700），通过归一化的似然度得分判断待识别语音是来自于哪一个录音设备。