CN106209786A

CN106209786A - 一种大数据并行化声纹认证方法

Info

Publication number: CN106209786A
Application number: CN201610490536.5A
Authority: CN
Inventors: 彭倍; 李有福; 刘静
Original assignee: SICHUAN ARTIGENT ROBOTICS EQUIPMENT Co Ltd
Current assignee: SICHUAN ARTIGENT ROBOTICS EQUIPMENT Co Ltd
Priority date: 2016-06-27
Filing date: 2016-06-27
Publication date: 2016-12-07

Abstract

本发明公开了一种大数据并行化声纹认证方法，包括以下步骤：收集语音文件，并对收集的语音文件进行分片，存储在分布式计算集群的节点中；对收集的语音文件并行化声纹特征提取，并将提取的声纹特征进行哈希运行，将声纹特征存储到相应的计算集群的节点中，形成声纹特征库；当接收到声纹认证请求时，提取声纹特征，计算待认证声音的声纹与声纹特征库中的声纹之间的距离，建立全局距离模型，根据各个节点中的声纹特征数据，计算待认证声纹特征与声纹特征库中声纹特征的相似度；整理相似度结果，并反馈。本发明可以实现对声纹库的动态、批量加载与特征提取，同时基于大数据框架实现声纹相似度计算与认证的并行化。

Description

一种大数据并行化声纹认证方法

技术领域

本发明属于生物识别技术领域，具体涉及一种大数据并行化声纹认证方法。

背景技术

声纹识别(Voiceprint Recognize)是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。声纹识别的应用范围较为广泛，涉及生活中的各个方面，如信息领域，银行、证券，公安司法，军队和国防以及，保安和证件防伪。在音频信号处理与语音处理中，线性预测编码(LPC)可以根据线性预测模型的信息用压缩形式表示数字语音信号，能够提供非常精确的语音参数预测。传统的声纹认证技术在处理少量声纹信息时可以保证认证过程的效率，然后面向海量声纹信息以及声纹库时，缺乏高效、可扩展的并行化支持，存在认证效率低、响应时间长、可扩展性差等不足。

发明内容

本发明针对海量声纹库情况下声纹信息加载时间过长、无法实时响应声纹认证请求问题，公开了一种大数据并行化声纹认证方法。通过本发明可以实现对声纹库的动态、批量加载与特征提取，同时基于大数据框架实现声纹相似度计算与认证的并行化。

为了实现上述目的，本发明采用的技术方案为：

一种大数据并行化声纹认证方法，包括以下步骤：

S1.收集语音文件，并对收集的语音文件进行分片，存储在分布式计算集群的节点中；

S2.对收集的语音文件并行化声纹特征提取，并将提取的声纹特征进行哈希运行，将声纹特征存储到相应的计算集群的节点中，形成声纹特征库；

S3.当接收到声纹认证请求时，提取待认证声音的声纹特征，计算待认证声音的声纹与声纹特征库中的声纹之间的距离，建立全局距离模型，根据各个节点中的声纹特征数据，计算待认证声纹特征与声纹特征库中声纹特征的相似度；

S4.整理相似度结果，汇聚成相似度结果列表，进行结构筛选并反馈。

优选地，步骤S1中，首先建立语音文件存储模块和声纹特征存储模块，然后收集语音文件，并将收集的语音文件进行分片，存储在分布式计算集群的节点中。

优选地，步骤S2中，在进行声纹特征提取前，对收集的语音文件进行分帧处理，每个语音文件分帧处理后形成多个短时的分析帧；

在进行声纹特征提取前，首先对分析帧进行加窗处理，Hamming Window函数定义为(N为窗口大小)：

H W (n) = α - β c o s (\frac{2 π n}{N - 1}), α - 0.54, β = 1 - α = 0.46;

设V为单个语音文件声纹数组，Vi为单个语音分析帧声纹数组，则V_i-HW表示加窗后的语音分析帧，针对每个加窗后分析帧运用并行化线性预测编码算法，提取描述声音分析帧特征的二维数组，两个维度分别为LPC系数和误差系数，该二维数组包含描述声音样本特征的关键参数；针对单个语言分析帧的声纹特征提取公式为：

[LC_i,EC_i]＝LPC(V_i-HW)；

LC_i与EC_i分别是维度为d的特征系数和误差系数，整个声音文件V，声纹特征Feature的维度为d，则

F e a t u r e [j] = Σ_{i = 1}^{n} {LC}_{i} [j];

将计算过程广播到集群中的包含数据分片的计算节点，设N_i为计算集群中的节点，则针对每个计算节点的声纹特征提取计算过程可以表示为：

Result＝Feature[V,N_i]；

通过对提取的声纹特征进行哈希运算，将声纹特征存储到相应的节点，设M为集群中计算节点个数，则计算声纹特征存储节点的公式为：

N＝Hash(Result)％M+1。

优选地，步骤S3中，提取待认证声音的声纹特征后，将提取的声纹特征和认证配置参数进行封装和序列化，然后广播到集群中存储有声纹特征库的各个计算节点中；

在各个节点中，计算待认证声纹与声纹特征库中声纹之间的欧几里得距离，设待认证声纹特征为feature(x₁,x₂,x₃,...)，声纹库中声纹特征为feature(y₁,y₂,y₃,...)，则欧几里得距离计算公式为：

D (X, Y) = \sqrt{{(x_{2} - y_{2})}^{2} + {(x_{2} - y_{2})}^{2} + ... + {(x_{n} - y_{n})}^{2}} = \sqrt{Σ_{i = 1}^{n} {(x_{i} - y_{i})}^{2}} .

优选地，步骤S3中，全局距离模型C(c₁,c₂,c₃,...)的建立，针对数据分片N_j中的声纹特征库，C的计算公式为：c_i＝avg(y_i)，y_i为每条声纹特征向量的第i条特征值；

针对各个节点中的声纹特征数据，计算待认证声纹特征与声纹中声纹特征的相似度，计算公式为：

根据认证配置参数，返回声纹认证相似度列表。

优选地，在步骤S4中，根据用户配置参数，以及各个节点的相似度结果，并行化的进行计算结果的剪枝和整理，设用户剪枝函数为prune，则各个节点的相似度剪枝结果为p_list(likelihood)；

汇聚各个节点整理后的相似度结果列表，进一步的进行结果的筛选；

根据用户设置结果精度进行结果的反馈。

由于采用了上述技术方案，本发明的有益效果是：

本发明的一种大数据并行化声纹认证方法，基于分布式内存计算框架并行化规范，通过的对数据的分片、哈希、映射与规约等操作，实现海量声纹数据的并行化处理与认证。基于本发明提出的大数据声纹认证框架和并行化声纹认证方法，可以有效保证声纹认证框架的可扩展性，提高声纹认证效率，实现快速响应的精确、并行化声纹认证。

附图说明

图1是本发明的大数据并行化声纹认证方法的流程图。

图2是本发明的声纹加载性能测试结果图。

具体实施方式

参照图1，本发明的大数据并行化声纹认证方法，包括以下步骤：

S1：海量语音信息的动态、批量加载；

S11：建立语音文件存储模块和声纹特征存储模块；

S12：将海量语音文件进行分片，存储在分布式计算集群的节点中，在分片过程中，保证每一个声音文件及其备份的完整性，即不对单个声音文件进行数据分片；

S13：对声音文件进行分布式存储过程中，保证文件存储的负载均衡；

系统运行环境有4台Dell PowerEdge R720机架式服务器组成，如表1进行配置。

表1服务器配置表

基于上述4台服务器，通过虚拟化技术可以构建含有32个计算以及存储节点的计算集群，每个计算节点的配置相同，如表2所示。

表2计算节点配置表

CPU	内存	硬盘	操作系统
				2 cores	2GB	100GB	Ubuntu-14.04-x86_64服务器版

初始语音库中含有41000个语音文件，单个语音文件大小为300KB左右，总大小12.3GB。系统默认的文件块大小为64MB，即每个分块存储213个语音文件，共需要193个文件块，为了方便数据的呈现，本实施用例中的集群规模为8个计算、存储节点，上述文件块及其备份文件分布在8个计算、存储节点中。

S2：海量语音信息并行化声纹特征提取。

S21：对语音文件进行分帧处理，每个语音文件在分帧处理后由多个短时的分析帧组成，默认每个语音分析帧为24毫秒的语音片段，对这些分析帧的连续并行化处理可以等价于对原语音文件的处理。

S22：在对每个分析帧进行处理时，为了能够使每个语音分析帧首位之间具有连续性，首先对分析帧进行加窗处理，本发明中使用Hamming Window函数作为加窗函数来消除由分帧引起的信号边缘锐变；Hamming Window函数具有平滑的低通特性，能够在较高程度上反映短时信号的频谱特性，Hamming Window函数定义为(N为窗口大小)：

H W (n) = α - β c o s (\frac{2 π n}{N - 1}), α - 0.54, β = 1 - α = 0.46;

设V为单个语音文件声纹数组，Vi为单个语音分析帧声纹数组，V的长度为109956，Vi的长度为8192，即N＝8192；当i＝1时，运用加窗函数后V_i-HW如表3所示。

表3

运用加窗函数前V₁片段	运用加窗函数后V₁片段
		0＝-0.00170961045304677	0＝-1.3676883624374163E-4
1＝-0.0016180241787764073	1＝-1.2944215327921605E-4
		2＝-7.632189522530224E-4	2＝-6.10579293445271E-5
3＝9.158627427036269E-5	3＝7.327013495958702E-6
		4＝7.021614360727805E-4	4＝5.6174435329497745E-5
5＝6.105751618024178E-4	5＝4.8848078763492755E-5
		6＝0.0	6＝0.0
7＝-6.105751618024178E-4	7＝-4.8850061945255045E-5
		8＝-7.632189522530224E-4	8＝-6.106412678935771E-5
9＝-2.7475882281108804E-4	9＝-2.198371778115474E-5
		…	…

S23：针对每个加窗后分析帧运用并行化线性预测编码算法，提取描述声音分析帧特征的二维数组，两个维度分别为LPC系数和误差系数，该二维数组包含描述声音样本特征的关键参数。针对单个语音分析帧的声纹特征提取公式为：

[LC_i,EC_i]＝LPC(V_i-HW)；

LC_i与EC_i分别是维度为d的特征系数和误差系数，则针对整个声音文件V，声纹特征值Feature的维度为d，则

F e a t u r e [j] = Σ_{i = 1}^{n} {LC}_{i} [j]

对声音文件V1进行声纹特征提取，当声纹特征维度d＝20时(可根据声音文件大小和特性等进行配置)，得到二维声纹特征数组[LC_i,EC₁]如表4所示。

表4二维声纹特征数组[LC_i,EC₁]

LPC Coefficients	Error Coefficients
		0＝0.0	0＝0.007489946310225958
1＝2.099327281794539	1＝2.1915979828942514E-4
		2＝-1.071609308143989	2＝9.834920566927087E-5
3＝-0.6060212800711283	3＝4.399501981617268E-5
		4＝0.3734985552933938	4＝4.380724051651822E-5
5＝0.4600769207210337	5＝3.527640485487951E-5
		6＝0.052800367499645305	6＝3.374210369882827E-5
7＝-0.3282659172931964	7＝3.282829437689585E-5
		8＝-0.20547597609364465	8＝3.135264524357004E-5
9＝0.04681918517326982	9＝3.131447623092286E-5
		10＝0.25774322927926596	10＝3.0343207188622308E-5
11＝0.13601455634979412	11＝3.003624900549218E-5
		12＝-0.19076480884828528	12＝2.9773859180441458E-5
13＝-0.21585958123853574	13＝2.852196954585206E-5
		14＝0.0883834331401776	14＝2.816540928371142E-5
15＝0.13901295444773432	15＝2.8016649817261636E-5
		16＝0.04073207224792849	16＝2.780279654731137E-5
17＝-0.04597069770583005	17＝2.779488510316301E-5
		18＝-0.14722143945183552	18＝2.758359442752587E-5
19＝0.11114634845566665	19＝2.7242840196551413E-5

则针对整个语音文件V，声纹特征Feature如表5所示。

表5声纹特征Feature

S24：由于海量语音信息并行化声纹特征提取针对S11中的数据分片，我们将作业(Job)分配给含有数据块的计算节点来处理，每个数据块对应于一个计算任务(Task)，可以并行的进行声纹特征的提取。

S25：考虑到网络流量和计算效率，我们将计算过程广播到集群中的包含数据分片的计算节点，这样可以保证计算的数据本地性特征。设Ni为计算集群中的节点，则针对每个计算节点的声纹特征提取计算过程可以表示为：

Result＝Feature[V,N_i]；

S26：通过对提取的声纹特征进行哈希运算，将声纹特征存储到相应的节点，保证声纹特征存储的负载均衡。设M为集群中计算节点个数，则计算声纹特征存储节点的公式为：

N＝Hash(Result)％M+1；

经过计算后，集群中8个节点中包含文件块数量以及声纹特征存储情况如表6所示。

表6集群中8个节点中包含文件块数量以及声纹特征存储情况

节点	声音文件块数量	声纹特征条数
			1	24	4924
2	24	5023
			3	24	5189
4	24	5142
			5	24	5039
6	25	5560
			7	24	5106
8	24	5017

S3：高度并行、可扩展的声纹认证算法

S31：当接受到声纹认证请求是，首先由计算主节点进行待认证声音声纹特征的提取，运用S22和S23中的声纹特征计算公式提取声纹特征；

S32：将提取后的声纹特征和认证配置参数进行封装和序列化，然后广播到集群中存储有声纹特征库的各个计算节点中；

S32：在各个节点中，计算待认证声纹与声纹特征库中声纹之间的欧几里得距离，设待认证声纹特征为feature(x₁,x₂,x₃,...)，声纹库中声纹特征为feature(y₁,y₂,y₃,...)，则欧几里得距离计算公式为：

D (X, Y) = \sqrt{{(x_{2} - y_{2})}^{2} + {(x_{2} - y_{2})}^{2} + ... + {(x_{n} - y_{n})}^{2}} = \sqrt{Σ_{i = 1}^{n} {(x_{i} - y_{i})}^{2}}

S33：在计算相似度时，引入全局距离模型C(c₁,c₂,c₃,...)，针对数据分片Nj中的声纹特征库，C的计算公式为：c_i＝avg(y_i)，yi为每条声纹特征向量的第i条特征值

S34：将各个节点的全局距离模型进行广播，这样可以计算整个集群中的全局距离模型C，公式为随着新的语音文件加入到语音库中，只需重新计算更新的数据分片的中的全局距离模型，然后更新整个集群的全局距离模型。

当d＝20时，针对41000个语音库文件计算得到全局距离模型C(c₁,c₂,c₃,...,c₂₀)如表6所示。

表7全景距离模型

S35：针对各个节点中的声纹特征数据，计算待认证声纹特征与声纹中声纹特征的相似度，计算公式为：

S36：根据S33中的认证配置参数，返回声纹认证相似度列表。

S4：高效的声纹认证结果统计与反馈

S41：根据用户配置参数，以及各个节点的相似度结果，并行化的进行计算结果的剪枝和整理，设用户剪枝函数为prune，则各个节点的相似度剪枝结果为p_list(likelihood)

S42：汇聚各个节点整理后的相似度结果列表，进一步的进行结果的筛选

S43：根据用户设置结果精度进行结果的反馈

当设置相似度列表长度length＝10时，从各个节点返回相应长度相似度结果列表，节点1中返回的结果如表8所示。

表8节点1中返回结果

进行结果的汇总后，得到最终的相似度列表如表9所示。

表9相似度列表

编号	语音文件编号	相似度	节点
				1	1054	100.00％	1
2	4692	99.76％	2
				3	22894	99.24％	1
4	8724	97.12％	4
				5	19370	95.23％	5
6	6244	94.99％	8
				7	31953	94.00％	2
8	16208	92.15％	7
				9	552	90.48％	3
10	40116	89.27％	6

S5：性能验证

为了进一步验证本发明所提出的一种大数据并行化声纹认证方法的有效性，我们设计了两组试验对比大数据声纹认证框架与单节点声纹认证程序在声纹加载性能和声纹认证性能方面的差异。实验中的节点配置如表2所示。

在声纹加载性能测试中，测试加载41000个语音样本的耗时，测试结果如图2所示，首先使用与集群节点配置相同的单个节点加载声纹，加载时间为6396s，如图2中三角形节点折线所示，然后使用本发明中的大数据声纹认证框架进行声纹信息加载，加载时间随着集群规模的指数级增长呈指数级递减趋势，如图2中圆形节点折线所示。

在声纹认证性能测试中，当基于41000个语音样本构建声纹库时，声纹特征都被一次性加载到内存中的HashMap中，进行声纹验证的过程主要是HashMap的寻址和结果整理，本发明中提出的大数据声纹认证方法与单节点声纹认证程序时间开销都在100ms以内。而当设置Java虚拟机内存大小为500MB，声纹数量超过1000000时，单节点声纹认证程序会抛出内存不足异常，无法进行声纹认证，而本发明提出的大数据并行化声纹认证方法依然能够实时返回声纹认证结果(集群中节点数大于2)，大数据并行化声纹认证方法能够处理的数据规模随着集群大小线性增长。

Claims

1.一种大数据并行化声纹认证方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的大数据并行化声纹认证方法，其特征在于，步骤S1中，首先建立语音文件存储模块和声纹特征存储模块，然后收集语音文件，并将收集的语音文件进行分片，存储在分布式计算集群的节点中。

3.根据权利安全1所述的大数据并行化声纹认证方法，其特征在于，步骤S2中，在进行声纹特征提取前，对收集的语音文件进行分帧处理，每个语音文件分帧处理后形成多个短时的分析帧；

H W (n) = α - β c o s (\frac{2 π n}{N - 1}), α - 0.54, β = 1 - α = 0.46;

[LC_i,EC_i]＝LPC(V_i-HW)；

F e a t u r e [j] = Σ_{i = 1}^{n} {LC}_{i} [j];

Result＝Feature[V,N_i]；

N＝Hash(Result)％M+1。

4.根据权利要求1所述的大数据并行化声纹认证方法，其特征在于，步骤S3中，提取待认证声音的声纹特征后，将提取的声纹特征和认证配置参数进行封装和序列化，然后广播到集群中存储有声纹特征库的各个计算节点中；

D (X, Y) = \sqrt{{(x_{2} - y_{2})}^{2} + {(x_{2} - y_{2})}^{2} + ... + {(x_{n} - y_{n})}^{2}} = \sqrt{Σ_{i = 1}^{n} {(x_{i} - y_{i})}^{2}} .

5.根据权利要求1所述的大数据并行化声纹认证方法，其特征在于，步骤S3中，全局距离模型C(c₁,c₂,c₃,...)的建立，针对数据分片N_j中的声纹特征库，C的计算公式为：c_i＝avg(y_i)，y_i为每条声纹特征向量的第i条特征值；

根据认证配置参数，返回声纹认证相似度列表。

6.根据权利要求1所述的大数据并行化声纹认证方法，其特征在于，在步骤S4中，根据用户配置参数，以及各个节点的相似度结果，并行化的进行计算结果的剪枝和整理，设用户剪枝函数为prune，则各个节点的相似度剪枝结果为p_list(likelihood)；

根据用户设置结果精度进行结果的反馈。