CN106209786A - 一种大数据并行化声纹认证方法 - Google Patents
一种大数据并行化声纹认证方法 Download PDFInfo
- Publication number
- CN106209786A CN106209786A CN201610490536.5A CN201610490536A CN106209786A CN 106209786 A CN106209786 A CN 106209786A CN 201610490536 A CN201610490536 A CN 201610490536A CN 106209786 A CN106209786 A CN 106209786A
- Authority
- CN
- China
- Prior art keywords
- vocal print
- node
- print feature
- feature
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000001755 vocal effect Effects 0.000 claims abstract description 139
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000004458 analytical method Methods 0.000 claims description 24
- 238000013467 fragmentation Methods 0.000 claims description 9
- 238000006062 fragmentation reaction Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000013138 pruning Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 208000031481 Pathologic Constriction Diseases 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 210000001215 vagina Anatomy 0.000 claims description 3
- 238000011524 similarity measure Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 4
- 238000011056 performance test Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004138 cluster model Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 244000144992 flock Species 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大数据并行化声纹认证方法,包括以下步骤:收集语音文件,并对收集的语音文件进行分片,存储在分布式计算集群的节点中;对收集的语音文件并行化声纹特征提取,并将提取的声纹特征进行哈希运行,将声纹特征存储到相应的计算集群的节点中,形成声纹特征库;当接收到声纹认证请求时,提取声纹特征,计算待认证声音的声纹与声纹特征库中的声纹之间的距离,建立全局距离模型,根据各个节点中的声纹特征数据,计算待认证声纹特征与声纹特征库中声纹特征的相似度;整理相似度结果,并反馈。本发明可以实现对声纹库的动态、批量加载与特征提取,同时基于大数据框架实现声纹相似度计算与认证的并行化。
Description
技术领域
本发明属于生物识别技术领域,具体涉及一种大数据并行化声纹认证方法。
背景技术
声纹识别(Voiceprint Recognize)是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。声纹识别的应用范围较为广泛,涉及生活中的各个方面,如信息领域,银行、证券,公安司法,军队和国防以及,保安和证件防伪。在音频信号处理与语音处理中,线性预测编码(LPC)可以根据线性预测模型的信息用压缩形式表示数字语音信号,能够提供非常精确的语音参数预测。传统的声纹认证技术在处理少量声纹信息时可以保证认证过程的效率,然后面向海量声纹信息以及声纹库时,缺乏高效、可扩展的并行化支持,存在认证效率低、响应时间长、可扩展性差等不足。
发明内容
本发明针对海量声纹库情况下声纹信息加载时间过长、无法实时响应声纹认证请求问题,公开了一种大数据并行化声纹认证方法。通过本发明可以实现对声纹库的动态、批量加载与特征提取,同时基于大数据框架实现声纹相似度计算与认证的并行化。
为了实现上述目的,本发明采用的技术方案为:
一种大数据并行化声纹认证方法,包括以下步骤:
S1.收集语音文件,并对收集的语音文件进行分片,存储在分布式计算集群的节点中;
S2.对收集的语音文件并行化声纹特征提取,并将提取的声纹特征进行哈希运行,将声纹特征存储到相应的计算集群的节点中,形成声纹特征库;
S3.当接收到声纹认证请求时,提取待认证声音的声纹特征,计算待认证声音的声纹与声纹特征库中的声纹之间的距离,建立全局距离模型,根据各个节点中的声纹特征数据,计算待认证声纹特征与声纹特征库中声纹特征的相似度;
S4.整理相似度结果,汇聚成相似度结果列表,进行结构筛选并反馈。
优选地,步骤S1中,首先建立语音文件存储模块和声纹特征存储模块,然后收集语音文件,并将收集的语音文件进行分片,存储在分布式计算集群的节点中。
优选地,步骤S2中,在进行声纹特征提取前,对收集的语音文件进行分帧处理,每个语音文件分帧处理后形成多个短时的分析帧;
在进行声纹特征提取前,首先对分析帧进行加窗处理,Hamming Window函数定义为(N为窗口大小):
设V为单个语音文件声纹数组,Vi为单个语音分析帧声纹数组,则Vi-HW表示加窗后的语音分析帧,针对每个加窗后分析帧运用并行化线性预测编码算法,提取描述声音分析帧特征的二维数组,两个维度分别为LPC系数和误差系数,该二维数组包含描述声音样本特征的关键参数;针对单个语言分析帧的声纹特征提取公式为:
[LCi,ECi]=LPC(Vi-HW);
LCi与ECi分别是维度为d的特征系数和误差系数,整个声音文件V,声纹特征Feature的维度为d,则
将计算过程广播到集群中的包含数据分片的计算节点,设Ni为计算集群中的节点,则针对每个计算节点的声纹特征提取计算过程可以表示为:
Result=Feature[V,Ni];
通过对提取的声纹特征进行哈希运算,将声纹特征存储到相应的节点,设M为集群中计算节点个数,则计算声纹特征存储节点的公式为:
N=Hash(Result)%M+1。
优选地,步骤S3中,提取待认证声音的声纹特征后,将提取的声纹特征和认证配置参数进行封装和序列化,然后广播到集群中存储有声纹特征库的各个计算节点中;
在各个节点中,计算待认证声纹与声纹特征库中声纹之间的欧几里得距离,设待认证声纹特征为feature(x1,x2,x3,...),声纹库中声纹特征为feature(y1,y2,y3,...),则欧几里得距离计算公式为:
优选地,步骤S3中,全局距离模型C(c1,c2,c3,...)的建立,针对数据分片Nj中的声纹特征库,C的计算公式为:ci=avg(yi),yi为每条声纹特征向量的第i条特征值;
针对各个节点中的声纹特征数据,计算待认证声纹特征与声纹中声纹特征的相似度,计算公式为:
根据认证配置参数,返回声纹认证相似度列表。
优选地,在步骤S4中,根据用户配置参数,以及各个节点的相似度结果,并行化的进行计算结果的剪枝和整理,设用户剪枝函数为prune,则各个节点的相似度剪枝结果为p_list(likelihood);
汇聚各个节点整理后的相似度结果列表,进一步的进行结果的筛选;
根据用户设置结果精度进行结果的反馈。
由于采用了上述技术方案,本发明的有益效果是:
本发明的一种大数据并行化声纹认证方法,基于分布式内存计算框架并行化规范,通过的对数据的分片、哈希、映射与规约等操作,实现海量声纹数据的并行化处理与认证。基于本发明提出的大数据声纹认证框架和并行化声纹认证方法,可以有效保证声纹认证框架的可扩展性,提高声纹认证效率,实现快速响应的精确、并行化声纹认证。
附图说明
图1是本发明的大数据并行化声纹认证方法的流程图。
图2是本发明的声纹加载性能测试结果图。
具体实施方式
参照图1,本发明的大数据并行化声纹认证方法,包括以下步骤:
S1:海量语音信息的动态、批量加载;
S11:建立语音文件存储模块和声纹特征存储模块;
S12:将海量语音文件进行分片,存储在分布式计算集群的节点中,在分片过程中,保证每一个声音文件及其备份的完整性,即不对单个声音文件进行数据分片;
S13:对声音文件进行分布式存储过程中,保证文件存储的负载均衡;
系统运行环境有4台Dell PowerEdge R720机架式服务器组成,如表1进行配置。
表1服务器配置表
基于上述4台服务器,通过虚拟化技术可以构建含有32个计算以及存储节点的计算集群,每个计算节点的配置相同,如表2所示。
表2计算节点配置表
CPU | 内存 | 硬盘 | 操作系统 |
2 cores | 2GB | 100GB | Ubuntu-14.04-x86_64服务器版 |
初始语音库中含有41000个语音文件,单个语音文件大小为300KB左右,总大小12.3GB。系统默认的文件块大小为64MB,即每个分块存储213个语音文件,共需要193个文件块,为了方便数据的呈现,本实施用例中的集群规模为8个计算、存储节点,上述文件块及其备份文件分布在8个计算、存储节点中。
S2:海量语音信息并行化声纹特征提取。
S21:对语音文件进行分帧处理,每个语音文件在分帧处理后由多个短时的分析帧组成,默认每个语音分析帧为24毫秒的语音片段,对这些分析帧的连续并行化处理可以等价于对原语音文件的处理。
S22:在对每个分析帧进行处理时,为了能够使每个语音分析帧首位之间具有连续性,首先对分析帧进行加窗处理,本发明中使用Hamming Window函数作为加窗函数来消除由分帧引起的信号边缘锐变;Hamming Window函数具有平滑的低通特性,能够在较高程度上反映短时信号的频谱特性,Hamming Window函数定义为(N为窗口大小):
设V为单个语音文件声纹数组,Vi为单个语音分析帧声纹数组,V的长度为109956,Vi的长度为8192,即N=8192;当i=1时,运用加窗函数后Vi-HW如表3所示。
表3
运用加窗函数前V1片段 | 运用加窗函数后V1片段 |
0=-0.00170961045304677 | 0=-1.3676883624374163E-4 |
1=-0.0016180241787764073 | 1=-1.2944215327921605E-4 |
2=-7.632189522530224E-4 | 2=-6.10579293445271E-5 |
3=9.158627427036269E-5 | 3=7.327013495958702E-6 |
4=7.021614360727805E-4 | 4=5.6174435329497745E-5 |
5=6.105751618024178E-4 | 5=4.8848078763492755E-5 |
6=0.0 | 6=0.0 |
7=-6.105751618024178E-4 | 7=-4.8850061945255045E-5 |
8=-7.632189522530224E-4 | 8=-6.106412678935771E-5 |
9=-2.7475882281108804E-4 | 9=-2.198371778115474E-5 |
… | … |
S23:针对每个加窗后分析帧运用并行化线性预测编码算法,提取描述声音分析帧特征的二维数组,两个维度分别为LPC系数和误差系数,该二维数组包含描述声音样本特征的关键参数。针对单个语音分析帧的声纹特征提取公式为:
[LCi,ECi]=LPC(Vi-HW);
LCi与ECi分别是维度为d的特征系数和误差系数,则针对整个声音文件V,声纹特征值Feature的维度为d,则
对声音文件V1进行声纹特征提取,当声纹特征维度d=20时(可根据声音文件大小和特性等进行配置),得到二维声纹特征数组[LCi,EC1]如表4所示。
表4二维声纹特征数组[LCi,EC1]
LPC Coefficients | Error Coefficients |
0=0.0 | 0=0.007489946310225958 |
1=2.099327281794539 | 1=2.1915979828942514E-4 |
2=-1.071609308143989 | 2=9.834920566927087E-5 |
3=-0.6060212800711283 | 3=4.399501981617268E-5 |
4=0.3734985552933938 | 4=4.380724051651822E-5 |
5=0.4600769207210337 | 5=3.527640485487951E-5 |
6=0.052800367499645305 | 6=3.374210369882827E-5 |
7=-0.3282659172931964 | 7=3.282829437689585E-5 |
8=-0.20547597609364465 | 8=3.135264524357004E-5 |
9=0.04681918517326982 | 9=3.131447623092286E-5 |
10=0.25774322927926596 | 10=3.0343207188622308E-5 |
11=0.13601455634979412 | 11=3.003624900549218E-5 |
12=-0.19076480884828528 | 12=2.9773859180441458E-5 |
13=-0.21585958123853574 | 13=2.852196954585206E-5 |
14=0.0883834331401776 | 14=2.816540928371142E-5 |
15=0.13901295444773432 | 15=2.8016649817261636E-5 |
16=0.04073207224792849 | 16=2.780279654731137E-5 |
17=-0.04597069770583005 | 17=2.779488510316301E-5 |
18=-0.14722143945183552 | 18=2.758359442752587E-5 |
19=0.11114634845566665 | 19=2.7242840196551413E-5 |
则针对整个语音文件V,声纹特征Feature如表5所示。
表5声纹特征Feature
S24:由于海量语音信息并行化声纹特征提取针对S11中的数据分片,我们将作业(Job)分配给含有数据块的计算节点来处理,每个数据块对应于一个计算任务(Task),可以并行的进行声纹特征的提取。
S25:考虑到网络流量和计算效率,我们将计算过程广播到集群中的包含数据分片的计算节点,这样可以保证计算的数据本地性特征。设Ni为计算集群中的节点,则针对每个计算节点的声纹特征提取计算过程可以表示为:
Result=Feature[V,Ni];
S26:通过对提取的声纹特征进行哈希运算,将声纹特征存储到相应的节点,保证声纹特征存储的负载均衡。设M为集群中计算节点个数,则计算声纹特征存储节点的公式为:
N=Hash(Result)%M+1;
经过计算后,集群中8个节点中包含文件块数量以及声纹特征存储情况如表6所示。
表6集群中8个节点中包含文件块数量以及声纹特征存储情况
节点 | 声音文件块数量 | 声纹特征条数 |
1 | 24 | 4924 |
2 | 24 | 5023 |
3 | 24 | 5189 |
4 | 24 | 5142 |
5 | 24 | 5039 |
6 | 25 | 5560 |
7 | 24 | 5106 |
8 | 24 | 5017 |
S3:高度并行、可扩展的声纹认证算法
S31:当接受到声纹认证请求是,首先由计算主节点进行待认证声音声纹特征的提取,运用S22和S23中的声纹特征计算公式提取声纹特征;
S32:将提取后的声纹特征和认证配置参数进行封装和序列化,然后广播到集群中存储有声纹特征库的各个计算节点中;
S32:在各个节点中,计算待认证声纹与声纹特征库中声纹之间的欧几里得距离,设待认证声纹特征为feature(x1,x2,x3,...),声纹库中声纹特征为feature(y1,y2,y3,...),则欧几里得距离计算公式为:
S33:在计算相似度时,引入全局距离模型C(c1,c2,c3,...),针对数据分片Nj中的声纹特征库,C的计算公式为:ci=avg(yi),yi为每条声纹特征向量的第i条特征值
S34:将各个节点的全局距离模型进行广播,这样可以计算整个集群中的全局距离模型C,公式为随着新的语音文件加入到语音库中,只需重新计算更新的数据分片的中的全局距离模型,然后更新整个集群的全局距离模型。
当d=20时,针对41000个语音库文件计算得到全局距离模型C(c1,c2,c3,...,c20)如表6所示。
表7全景距离模型
S35:针对各个节点中的声纹特征数据,计算待认证声纹特征与声纹中声纹特征的相似度,计算公式为:
S36:根据S33中的认证配置参数,返回声纹认证相似度列表。
S4:高效的声纹认证结果统计与反馈
S41:根据用户配置参数,以及各个节点的相似度结果,并行化的进行计算结果的剪枝和整理,设用户剪枝函数为prune,则各个节点的相似度剪枝结果为p_list(likelihood)
S42:汇聚各个节点整理后的相似度结果列表,进一步的进行结果的筛选
S43:根据用户设置结果精度进行结果的反馈
当设置相似度列表长度length=10时,从各个节点返回相应长度相似度结果列表,节点1中返回的结果如表8所示。
表8节点1中返回结果
进行结果的汇总后,得到最终的相似度列表如表9所示。
表9相似度列表
编号 | 语音文件编号 | 相似度 | 节点 |
1 | 1054 | 100.00% | 1 |
2 | 4692 | 99.76% | 2 |
3 | 22894 | 99.24% | 1 |
4 | 8724 | 97.12% | 4 |
5 | 19370 | 95.23% | 5 |
6 | 6244 | 94.99% | 8 |
7 | 31953 | 94.00% | 2 |
8 | 16208 | 92.15% | 7 |
9 | 552 | 90.48% | 3 |
10 | 40116 | 89.27% | 6 |
S5:性能验证
为了进一步验证本发明所提出的一种大数据并行化声纹认证方法的有效性,我们设计了两组试验对比大数据声纹认证框架与单节点声纹认证程序在声纹加载性能和声纹认证性能方面的差异。实验中的节点配置如表2所示。
在声纹加载性能测试中,测试加载41000个语音样本的耗时,测试结果如图2所示,首先使用与集群节点配置相同的单个节点加载声纹,加载时间为6396s,如图2中三角形节点折线所示,然后使用本发明中的大数据声纹认证框架进行声纹信息加载,加载时间随着集群规模的指数级增长呈指数级递减趋势,如图2中圆形节点折线所示。
在声纹认证性能测试中,当基于41000个语音样本构建声纹库时,声纹特征都被一次性加载到内存中的HashMap中,进行声纹验证的过程主要是HashMap的寻址和结果整理,本发明中提出的大数据声纹认证方法与单节点声纹认证程序时间开销都在100ms以内。而当设置Java虚拟机内存大小为500MB,声纹数量超过1000000时,单节点声纹认证程序会抛出内存不足异常,无法进行声纹认证,而本发明提出的大数据并行化声纹认证方法依然能够实时返回声纹认证结果(集群中节点数大于2),大数据并行化声纹认证方法能够处理的数据规模随着集群大小线性增长。
Claims (6)
1.一种大数据并行化声纹认证方法,其特征在于,包括以下步骤:
S1.收集语音文件,并对收集的语音文件进行分片,存储在分布式计算集群的节点中;
S2.对收集的语音文件并行化声纹特征提取,并将提取的声纹特征进行哈希运行,将声纹特征存储到相应的计算集群的节点中,形成声纹特征库;
S3.当接收到声纹认证请求时,提取待认证声音的声纹特征,计算待认证声音的声纹与声纹特征库中的声纹之间的距离,建立全局距离模型,根据各个节点中的声纹特征数据,计算待认证声纹特征与声纹特征库中声纹特征的相似度;
S4.整理相似度结果,汇聚成相似度结果列表,进行结构筛选并反馈。
2.根据权利要求1所述的大数据并行化声纹认证方法,其特征在于,步骤S1中,首先建立语音文件存储模块和声纹特征存储模块,然后收集语音文件,并将收集的语音文件进行分片,存储在分布式计算集群的节点中。
3.根据权利安全1所述的大数据并行化声纹认证方法,其特征在于,步骤S2中,在进行声纹特征提取前,对收集的语音文件进行分帧处理,每个语音文件分帧处理后形成多个短时的分析帧;
在进行声纹特征提取前,首先对分析帧进行加窗处理,Hamming Window函数定义为(N为窗口大小):
设V为单个语音文件声纹数组,Vi为单个语音分析帧声纹数组,则Vi-HW表示加窗后的语音分析帧,针对每个加窗后分析帧运用并行化线性预测编码算法,提取描述声音分析帧特征的二维数组,两个维度分别为LPC系数和误差系数,该二维数组包含描述声音样本特征的关键参数;针对单个语言分析帧的声纹特征提取公式为:
[LCi,ECi]=LPC(Vi-HW);
LCi与ECi分别是维度为d的特征系数和误差系数,整个声音文件V,声纹特征Feature的维度为d,则
将计算过程广播到集群中的包含数据分片的计算节点,设Ni为计算集群中的节点,则针对每个计算节点的声纹特征提取计算过程可以表示为:
Result=Feature[V,Ni];
通过对提取的声纹特征进行哈希运算,将声纹特征存储到相应的节点,设M为集群中计算节点个数,则计算声纹特征存储节点的公式为:
N=Hash(Result)%M+1。
4.根据权利要求1所述的大数据并行化声纹认证方法,其特征在于,步骤S3中,提取待认证声音的声纹特征后,将提取的声纹特征和认证配置参数进行封装和序列化,然后广播到集群中存储有声纹特征库的各个计算节点中;
在各个节点中,计算待认证声纹与声纹特征库中声纹之间的欧几里得距离,设待认证声纹特征为feature(x1,x2,x3,...),声纹库中声纹特征为feature(y1,y2,y3,...),则欧几里得距离计算公式为:
5.根据权利要求1所述的大数据并行化声纹认证方法,其特征在于,步骤S3中,全局距离模型C(c1,c2,c3,...)的建立,针对数据分片Nj中的声纹特征库,C的计算公式为:ci=avg(yi),yi为每条声纹特征向量的第i条特征值;
针对各个节点中的声纹特征数据,计算待认证声纹特征与声纹中声纹特征的相似度,计算公式为:
根据认证配置参数,返回声纹认证相似度列表。
6.根据权利要求1所述的大数据并行化声纹认证方法,其特征在于,在步骤S4中,根据用户配置参数,以及各个节点的相似度结果,并行化的进行计算结果的剪枝和整理,设用户剪枝函数为prune,则各个节点的相似度剪枝结果为p_list(likelihood);
汇聚各个节点整理后的相似度结果列表,进一步的进行结果的筛选;
根据用户设置结果精度进行结果的反馈。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610490536.5A CN106209786A (zh) | 2016-06-27 | 2016-06-27 | 一种大数据并行化声纹认证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610490536.5A CN106209786A (zh) | 2016-06-27 | 2016-06-27 | 一种大数据并行化声纹认证方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106209786A true CN106209786A (zh) | 2016-12-07 |
Family
ID=57462355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610490536.5A Pending CN106209786A (zh) | 2016-06-27 | 2016-06-27 | 一种大数据并行化声纹认证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106209786A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108447489A (zh) * | 2018-04-17 | 2018-08-24 | 清华大学 | 一种带反馈的连续声纹认证方法及系统 |
CN111048100A (zh) * | 2019-11-21 | 2020-04-21 | 深圳市东进银通电子有限公司 | 一种大数据并行化声纹辨认系统和方法 |
CN111081258A (zh) * | 2019-11-07 | 2020-04-28 | 厦门快商通科技股份有限公司 | 一种声纹模型管理方法、系统、存储介质及装置 |
CN111261170A (zh) * | 2020-01-10 | 2020-06-09 | 深圳市声扬科技有限公司 | 基于声纹库的声纹识别方法、主控节点及计算节点 |
CN111326163A (zh) * | 2020-04-15 | 2020-06-23 | 厦门快商通科技股份有限公司 | 一种声纹识别方法和装置以及设备 |
CN111506763A (zh) * | 2020-04-15 | 2020-08-07 | 厦门快商通科技股份有限公司 | 一种声纹数据库建立方法和装置以及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1556522A (zh) * | 2004-01-06 | 2004-12-22 | 中国人民解放军保密委员会技术安全研 | 电话信道说话人声纹识别系统 |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN104538033A (zh) * | 2014-12-29 | 2015-04-22 | 江苏科技大学 | 基于嵌入式gpu系统的并行化语音识别系统及方法 |
-
2016
- 2016-06-27 CN CN201610490536.5A patent/CN106209786A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1556522A (zh) * | 2004-01-06 | 2004-12-22 | 中国人民解放军保密委员会技术安全研 | 电话信道说话人声纹识别系统 |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN104538033A (zh) * | 2014-12-29 | 2015-04-22 | 江苏科技大学 | 基于嵌入式gpu系统的并行化语音识别系统及方法 |
Non-Patent Citations (1)
Title |
---|
潘松松: "支持虚拟机并发的声纹识别技术研究与实现", 《电子科技大学硕士毕业论文》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108447489A (zh) * | 2018-04-17 | 2018-08-24 | 清华大学 | 一种带反馈的连续声纹认证方法及系统 |
CN108447489B (zh) * | 2018-04-17 | 2020-05-22 | 清华大学 | 一种带反馈的连续声纹认证方法及系统 |
CN111081258A (zh) * | 2019-11-07 | 2020-04-28 | 厦门快商通科技股份有限公司 | 一种声纹模型管理方法、系统、存储介质及装置 |
CN111081258B (zh) * | 2019-11-07 | 2022-12-06 | 厦门快商通科技股份有限公司 | 一种声纹模型管理方法、系统、存储介质及装置 |
CN111048100A (zh) * | 2019-11-21 | 2020-04-21 | 深圳市东进银通电子有限公司 | 一种大数据并行化声纹辨认系统和方法 |
CN111048100B (zh) * | 2019-11-21 | 2023-09-08 | 深圳市东进银通电子有限公司 | 一种大数据并行化声纹辨认系统和方法 |
CN111261170A (zh) * | 2020-01-10 | 2020-06-09 | 深圳市声扬科技有限公司 | 基于声纹库的声纹识别方法、主控节点及计算节点 |
WO2021139211A1 (zh) * | 2020-01-10 | 2021-07-15 | 深圳市声扬科技有限公司 | 基于声纹库的声纹识别方法、主控节点及计算节点 |
CN111326163A (zh) * | 2020-04-15 | 2020-06-23 | 厦门快商通科技股份有限公司 | 一种声纹识别方法和装置以及设备 |
CN111506763A (zh) * | 2020-04-15 | 2020-08-07 | 厦门快商通科技股份有限公司 | 一种声纹数据库建立方法和装置以及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106209786A (zh) | 一种大数据并行化声纹认证方法 | |
WO2020177380A1 (zh) | 基于短文本的声纹检测方法、装置、设备及存储介质 | |
CN103827899B (zh) | 数据中心资源分配 | |
CN110033756B (zh) | 语种识别方法、装置、电子设备及存储介质 | |
CN110134787A (zh) | 一种新闻话题检测方法 | |
DE112013000440T5 (de) | Zonenorientierte Anwesenheitskontrolle durch Lokalisieren von Stimmprofilen | |
Li et al. | Acoustic scene classification using deep audio feature and BLSTM network | |
CN111508524B (zh) | 语音来源设备的识别方法和系统 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
WO2022143431A1 (zh) | 一种反洗钱模型的训练方法及装置 | |
JP2018198045A (ja) | 自然言語処理イベントの生成のための装置および方法 | |
CN110428835A (zh) | 一种语音设备的调节方法、装置、存储介质及语音设备 | |
CN114254867A (zh) | 一种电信诈骗受害人风险评估系统及方法 | |
CN109754810A (zh) | 一种语音控制方法、装置、存储介质及空调 | |
CN109545226A (zh) | 一种语音识别方法、设备及计算机可读存储介质 | |
CN110751942A (zh) | 一种识别特征声音的方法和装置 | |
CN105845143A (zh) | 基于支持向量机的说话人确认方法及其系统 | |
Zheng et al. | MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios | |
CN104167211B (zh) | 基于分层事件检测和上下文模型的多源场景声音摘要方法 | |
CN107273493A (zh) | 一种大数据环境下的数据优化及快速抽样方法 | |
Yang et al. | Acoustic scene classification using CNN ensembles and primary ambient extraction | |
CN110782877A (zh) | 基于Fisher混合特征和神经网络的语音鉴别方法和系统 | |
Lei et al. | Robust scream sound detection via sound event partitioning | |
CN115242927A (zh) | 客服对象分配方法、装置、计算机设备及存储介质 | |
Liu et al. | Birdcall identification using mel-spectrum based on ResNeSt50 model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161207 |
|
RJ01 | Rejection of invention patent application after publication |