CN111524524A - 声纹识别方法、装置、设备及存储介质 - Google Patents
声纹识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111524524A CN111524524A CN202010350084.7A CN202010350084A CN111524524A CN 111524524 A CN111524524 A CN 111524524A CN 202010350084 A CN202010350084 A CN 202010350084A CN 111524524 A CN111524524 A CN 111524524A
- Authority
- CN
- China
- Prior art keywords
- voiceprint recognition
- target
- information
- voice
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 239000013598 vector Substances 0.000 claims abstract description 87
- 230000006870 function Effects 0.000 claims description 44
- 238000012545 processing Methods 0.000 claims description 41
- 239000011159 matrix material Substances 0.000 claims description 34
- 238000005457 optimization Methods 0.000 claims description 31
- 230000004927 fusion Effects 0.000 claims description 25
- 238000013507 mapping Methods 0.000 claims description 23
- 238000001914 filtration Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 19
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000009432 framing Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/10—Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及人工智能领域,公开了声纹识别方法,用于解决在声纹识别过程中识别准确度低下的问题。包括:获取待识别的目标语音信息集合,包括至少一个对象所对应的语音信息;利用预置算法在目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化目标特征信息,得到第一声纹识别结果;获取目标语音信道的目标语音信道信息,目标语音信道信息包括信道噪声信息,目标语音信道用于传输目标语音信息集合;抽取信道噪声信息中的目标特征向量,并根据第二损失函数优化目标特征向量,得到第二声纹识别结果;将第一声纹识别结果与第二声纹识别结果融合,确定最终的声纹识别结果。本发明还涉及区块链技术,所述目标语音信息集合存储于区块链中。
Description
技术领域
本发明涉及人工智能的声纹识别领域,尤其涉及一种声纹识别方法、装置、设备及存储介质。
背景技术
声纹识别是生物识别技术的一种,也称为说话人识别,分为说话对象识别和说话对象辨认。目前常用的声纹识别系统包括传统的基于特征工程的i-vector浅层网络系统和x-vector深度网络系统,以及近年来主流的的端到端d-vector深度网络系统等。这些系统基本上都是通过捕捉说话对象声音的长时特征,将其编码到低维向量表示来有效解决识别问题。具体来说,将说话随想的语音信息通过网络的逐层嵌入最终获得具有固定维度的向量(如512维),然后计算不同说话对象的向量表示间的余弦相似度,进而完成说话对象的辨认和确认等操作。
目前端到端的声纹识别系统,诸如google的GE2E系统,虽然可以完美实现端到端的声纹任务的训练和推理,但是这些系统的损失函数并没有对声音对声音的信道信息中的噪声进行处理,导致深度网络在训练过程中无法感知到信道的相关信息,进而深度网络在训练过后识别到声纹信息的准确度低下。
发明内容
本发明的主要目的在于解决在声纹识别过程中识别准确度低下的问题。
本发明第一方面提供了一种声纹识别方法,包括:获取待识别的目标语音信息集合,所述目标语音信息集合包括至少一个对象所对应的语音信息,所述语音信息是经过预处理过后得到的;利用预置算法在所述目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化所述目标特征信息,得到第一声纹识别结果;获取目标语音信道的目标语音信道信息,所述目标语音信道信息包括信道噪声信息,所述目标语音信道用于传输所述目标语音信息集合;抽取所述信道噪声信息中的目标特征向量,并根据第二损失函数优化所述目标特征向量,得到第二声纹识别结果;将所述第一声纹识别结果与所述第二声纹识别结果融合,确定最终的声纹识别结果。
可选的,在本发明第一方面的第一种实现方式中,所述目标语音信息集合存储于区块链中,所述利用预置算法在所述目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化所述目标特征信息,得到第一声纹识别结果包括:利用预置算法在所述目标语音信息集合中抽取目标特征信息;根据预置公式计算所述目标特征信息的相似度矩阵,得到所述目标特征信息的映射信息;基于所述映射信息与第一损失函数优化所述目标语音信息集合的损失,得到第一声纹识别结果。
可选的,在本发明第一方面的第二种实现方式中,所述利用预置算法在所述目标语音信息集合中抽取目标特征信息包括:利用预置算法采集所述目标语音信息集合中的语音序列,并获取所述语音序列的幅度谱;通过滤波器对所述语音序列的幅度谱进行滤波,得到语音序列的滤波输出结果;对所述语音序列的滤波输出结果进行离散余弦变换,得到目标特征信息。
可选的,在本发明第一方面的第三种实现方式中,所述根据预置公式计算所述目标特征信息的相似度矩阵,得到所述目标特征信息的映射信息包括:将目标特征信息转化为低维向量,所述低维向量为采用低维度表示所述目标特征信息的向量;基于所述低维向量与预置公式计算所述目标特征信息的相似度矩阵,得到所述目标特征信息的映射信息。
可选的,在本发明第一方面的第四种实现方式中,所述抽取所述信道噪声信息中的目标特征向量,并根据第二损失函数优化所述目标特征向量,得到第二声纹识别结果包括:抽取所述信道噪声信息中的目标特征向量,并计算所述目标特征向量的均值;根据所述目标特征向量的均值与第二损失函数计算信道噪声信息的最小均方误差矩阵,得到第二声纹识别结果。
可选的,在本发明第一方面的第五种实现方式中,所述抽取所述目标语音信道信息中的目标特征向量,并根据第二损失函数优化所述目标特征向量,得到第二声纹识别结果包括:获取所述第一声纹识别结果以及所述第二声纹识别结果;利用融合公式将所述第一声纹识别结果与所述第二声纹识别结果融合,确定最终的声纹识别结果,融合公式为:
在式中,L表示融合后的最终的声纹识别结果,L1表示第一声纹识别结果,L2表示第二声纹识别结果,k表示声纹识别对象,N表示每个声纹识别对象的语音信息条数,γ表示调节因子。
可选的,在本发明第一方面的第六种实现方式中,所述获取待识别的目标语音信息集合,所述目标语音信息集合包括至少一个对象所对应的语音信息,所述语音信息是经过预处理过后得到的包括:获取待处理的语音信息,并利用预置处理公式对所述待处理的语音信息s(n)进行预加重,得到处理后的语音信息s'(n),所述预置处理公式为s'(n)=s(n)-as(n-1),其中a为预加重系数,s(n-1)为待处理的语音信息的上一条语音信息;将所述处理后的语音信息进行分帧处理,并对每帧所述处理后的语音信息进行加窗处理,得到目标语音信息集合,所述目标语音信息集合包括至少一个对象所对应的语音信息。
本发明第二方面提供了一种声纹识别装置,包括:第一获取模块,用于获取待识别的目标语音信息集合,所述目标语音信息集合包括至少一个对象所对应的语音信息,所述语音信息是经过预处理过后得到的;第一优化模块,用于利用预置算法在所述目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化所述目标特征信息,得到第一声纹识别结果;第二获取模块,用于获取目标语音信道的目标语音信道信息,所述目标语音信道信息包括信道噪声信息,所述目标语音信道用于传输所述目标语音信息集合;第二优化模块,用于抽取所述信道噪声信息中的目标特征向量,并根据第二损失函数优化所述目标特征向量,得到第二声纹识别结果;融合模块,用于将所述第一声纹识别结果与所述第二声纹识别结果融合,确定最终的声纹识别结果。
可选的,在本发明第二方面的第一种实现方式中,所述第一优化模块包括:抽取单元,用于利用预置算法在所述目标语音信息集合中抽取目标特征信息;计算单元,用于根据预置公式计算所述目标特征信息的相似度矩阵,得到所述目标特征信息的映射信息;优化单元,用于基于所述映射信息与第一损失函数优化所述目标语音信息集合的损失,得到第一声纹识别结果。
可选的,在本发明第二方面的第二种实现方式中,所述抽取单元具体用于:利用预置算法采集所述目标语音信息集合中的语音序列,并获取所述语音序列的幅度谱;通过滤波器对所述语音序列的幅度谱进行滤波,得到语音序列的滤波输出结果;对所述语音序列的滤波输出结果进行离散余弦变换,得到目标特征信息。
可选的,在本发明第二方面的第三种实现方式中,计算单元具体用于:将目标特征信息转化为低维向量,所述低维向量为采用低维度表示所述目标特征信息的向量;基于所述低维向量与预置公式计算所述目标特征信息的相似度矩阵,得到所述目标特征信息的映射信息。
可选的,在本发明第二方面的第四种实现方式中,第二优化模块具体用于:抽取所述信道噪声信息中的目标特征向量,并计算所述目标特征向量的均值;根据所述目标特征向量的均值与第二损失函数计算信道噪声信息的最小均方误差矩阵,得到第二声纹识别结果。
可选的,在本发明第二方面的第五种实现方式中,融合模块具体用于:获取所述第一声纹识别结果以及所述第二声纹识别结果;利用融合公式将所述第一声纹识别结果与所述第二声纹识别结果融合,确定最终的声纹识别结果,融合公式为:
在式中,L表示融合后的最终的声纹识别结果,L1表示第一声纹识别结果,L2表示第二声纹识别结果,k表示声纹识别对象,N表示每个声纹识别对象的语音信息条数,γ表示调节因子。
可选的,在本发明第二方面的第六种实现方式中,第一获取模块具体用于:获取待处理的语音信息,并利用预置处理公式对所述待处理的语音信息s(n)进行预加重,得到处理后的语音信息s'(n),所述预置处理公式为s'(n)=s(n)-as(n-1),其中a为预加重系数,s(n-1)为待处理的语音信息的上一条语音信息;将所述处理后的语音信息进行分帧处理,并对每帧所述处理后的语音信息进行加窗处理,得到目标语音信息集合,所述目标语音信息集合包括至少一个对象所对应的语音信息。
本发明第三方面提供了一种声纹识别设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述声纹识别设备执行上述的声纹识别方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的声纹识别方法。
本发明提供的技术方案中,获取待识别的目标语音信息集合,所述目标语音信息集合包括至少一个对象所对应的语音信息,所述语音信息是经过预处理过后得到的;
利用预置算法在所述目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化所述目标特征信息,得到第一声纹识别结果;获取目标语音信道的目标语音信道信息,所述目标语音信道信息包括信道噪声信息,所述目标语音信道用于传输所述目标语音信息集合;抽取所述信道噪声信息中的目标特征向量,并根据第二损失函数优化所述目标特征向量,得到第二声纹识别结果;将所述第一声纹识别结果与所述第二声纹识别结果融合,确定最终的声纹识别结果。本发明实施例中,服务器分别对目标语音信息集合和目标语音信道信息进行损失优化处理,再将损失优化处理后的第一声纹识别结果以及第二声纹识别结果融合在一起,使得深度网络学习到语音信道噪声消除的方法,提高声纹识别准确度。
附图说明
图1为本发明实施例中声纹识别方法的一个实施例示意图;
图2为本发明实施例中声纹识别方法的另一个实施例示意图;
图3为本发明实施例中声纹识别装置的一个实施例示意图;
图4为本发明实施例中声纹识别装置的另一个实施例示意图;
图5为本发明实施例中声纹识别设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种声纹识别方法、装置、设备及存储介质,通过分别对目标语音信息集合和目标语音信道信息进行损失优化处理,再将损失优化处理后的第一声纹识别结果以及第二声纹识别结果融合在一起,使得深度网络学习到语音信道噪声消除的方法,提高声纹识别准确度。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中声纹识别方法的一个实施例包括:
101、获取待识别的目标语音信息集合,目标语音信息集合包括至少一个对象所对应的语音信息,语音信息是经过预处理过后得到的;
可以理解的是,本发明的执行主体可以为声纹识别装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
服务器获取待识别的目标语音信息集合,这里的目标语音信息集合中包括至少一个对象所对应的语音信息,一个对象的语音信息可以为一条或多条,这里并不对目标对象的数量以及目标对象的语音信息数量进行限定。此外这里的语音信息是经过预处理之后得到的。需要强调的是,为进一步保证上述目标语音信息集合的私密和安全性,上述目标语音信息集合还可以存储于一区块链的节点中。
需要说明的是,服务器在接收到一个对象的语音信号后需要对该语音信号进行预处理,经过预处理后的信号才能够被更好的分析,令服务器最终识别到更精准的信息。这里的预处理指的是预加重、分帧以及加窗。这些操作的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素,对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量。
102、利用预置算法在目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化目标特征信息,得到第一声纹识别结果;
服务器在获取到预处理过后的目标语音信息集合后,利用预置算法在目标语音信息集合中抽取语音信息的目标特征信息,并根据第一损失函数优化抽取到的目标特征信息,从而得到第一声纹识别结果。
可以理解的是,在语音信号中,包含着非常丰富的特征参数,不同的特征向量表征着不同的物理和声学意义。服务器抽取的特征参数对声纹识别系统的成败意义重大,如果选择了适合的特征参数,将有助于提高识别率。抽取目标特征信息就是要尽量取出或削减语音信号中与识别无关的信息的影响,减少后续识别阶段需处理的数据量,生成表征语音信号中携带的声纹识别对象信息的特征参数。根据语音特征的不同用途,需要提取不同的特征参数,从而保证识别的准确率。待抽取目标特征信息之后,服务器需要对该目标特征信息进行相似度矩阵的计算,得到相应的映射信息,令声纹识别更加的精确,最后服务器利用映射信息与第一损失函数对损失进行优化,得到第一声纹识别结果。
103、获取目标语音信道的目标语音信道信息,目标语音信道信息包括信道噪声信息,目标语音信道用于传输目标语音信息集合;
服务器获取目标语音信道的目标语音信道信息,这里的目标语音信道是传输目标语音信息集合的通道,在传输的过程中信道中会产生一定的目标语音信道信息,也就是噪声信息。
可以理解的是,声纹识别对象的语音信息在信道中传输的过程中会有一定的噪声影响,也就是信道噪声,信道噪声能够干扰通信的效果,降低通信的可靠性,对声纹识别结果造成重大的影响。因此在本申请中,在进行声纹识别过程中对传输语音信息的通道进行处理,以减少噪声的干扰。
104、抽取信道噪声信息中的目标特征向量,并根据第二损失函数优化目标特征向量,得到第二声纹识别结果;
服务器在获取到目标语音信道中的目标语音信道信息后,也就是在目标语音信道的信道噪声信息中抽取目标特征向量,并根据第二损失函数优化目标特征向量,从而得到第二声纹识别结果。
需要说明的是,在进行优化目标语音信道信息时,大多数信号处理理论中将目标语音信道信息中的信道噪声信息归结为高斯白噪声,这是语音信道的先验信息,因此,这里利用的第二损失函数是最小均方误差(minimum mean squared error,MMSE),MMSE是将预测值和真值的误差的平方的期望(均值)最小化,以使得预测值尽量逼近真值,和真值差距尽可能小,这种算法可以使预测模型在含噪数据中有好的精度(概率最大模型),达到f(x)=y。本申请中通过对目标语音信道信息中的信道噪声进行优化,使得深度网络学习到语音噪声消除的方法,获得更加精确的声纹识别信息,即第二声纹识别结果。
105、将第一声纹识别结果与第二声纹识别结果融合,确定最终的声纹识别结果。
服务器将得到的第一声纹识别结果与第二声纹识别结果融合在一起,确定最终的声纹识别结果。服务器将经过两次优化的声纹信息进行融合,得到更加精确的声纹识别结果。
服务器在优化目标信道语音信息以及声纹识别对象的语音信息后,基本上消除了识别声纹信息时所产生的噪声,服务器可以清晰的识别声纹识别对象的语音信息,将两者融合到一起,便可以得到最终的声纹识别结果。
本发明实施例中,服务器分别对目标语音信息集合和目标语音信道信息进行损失优化处理,再将损失优化处理后的第一声纹识别结果以及第二声纹识别结果融合在一起,使得深度网络学习到语音信道噪声消除的方法,提高声纹识别准确度。
请参阅图2,本发明实施例中声纹识别方法的另一个实施例包括:
201、获取待识别的目标语音信息集合,目标语音信息集合包括至少一个对象所对应的语音信息,语音信息是经过预处理过后得到的;
服务器获取待识别的目标语音信息集合,这里的目标语音信息集合中包括至少一个对象所对应的语音信息,一个对象的语音信息可以为一条或多条,这里并不对目标对象的数量以及目标对象的语音信息数量进行限定。此外这里的语音信息是经过预处理之后得到的。具体的:
首先,服务器获取待处理的语音信息,并利用预置处理公式对待处理的语音信息s(n)进行预加重,得到处理后的语音信息s'(n),预置处理公式为s'(n)=s(n)-as(n-1),其中a为预加重系数,s(n-1)为待处理的语音信息的上一条语音信息;然后服务器对处理后的语音信息进行分帧处理,最后服务器对每帧处理后的语音信息进行加窗处理,最终得到目标语音信息集合,这里的目标语音信息集合中包括至少一个对象所对应的语音信息,一个对象的语音信息可以为一条或多条。
需要说明的是,服务器在接收到一个对象的语音信号后需要对该语音信号进行预处理,经过预处理后的信号才能够被更好的分析,令服务器最终识别到更精准的信息。这里的预处理指的是预加重、分帧以及加窗。这些操作的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素,对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量。
进一步说明的是,这里的预加重指的是,当语音信号s(n)的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB/oct(倍频程)衰减,频率越高相应的成分越小,为此要在对语音信号s(n)进行分析之前对其高频部分加以提升。通常的措施是用数字滤波器实现预加重,预加重网络的输出和输入的语音信号可以利用预置处理公式进行表示:s'(n)=s(n)-as(n-1),其中a为预加重系数,一般取0.9,s(n-1)为待处理的语音信息的上一条语音信息,s'(n)为处理后的语音信息。当语音信号经过加重处理后,由于语音信号具有时变特性,但是在一个短时间范围内,其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”,将语音信号分段来分析其特征参数,其中每一段称为一“帧”,帧长一般取为10-30ms。这样,对于整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。服务器在进行分帧处理过后,还需要对语音信号进行加窗处理,加窗的目的是对抽样n附近的语音波形加以强调而对波形的其余部分加以减弱。对语音信号的各个短段进行处理,实际上就是对各个短段进行某种变换或施以某种运算。用得最多的三种窗函数是矩形窗、汉明窗和汉宁窗,在本申请中,并不对所采用的窗函数进行限定,可以根据实际情况对窗函数进行选择。
202、利用预置算法在目标语音信息集合中抽取目标特征信息;
服务器在获取到目标语音信息集合后,在目标语音信息集合中抽取目标特征信息。具体的:
首先,服务器采用预置算法采集目标语音信息集合中的语音序列,同时获取到语音序列的幅度谱;然后,服务器通过滤波器对语音序列的幅度谱进行滤波,得到语音序列的滤波输出结果;最后,服务器对语音序列的滤波输出结果进行离散余弦变换,最终得到目标特征信息。
这里服务器利用到的是频率倒谱系数(mel frequency cepstrum coefficient,MFCC)提取特征信息,依据Mel频率倒谱系数模拟人耳对不同频率语音的感知,将语音信号中的目标特征信息提取出来。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系,人耳分辨声音频率的过程就像一种取对数的操作,例如:在Mel频域内,人对音调的感知能力为线性关系,如果两段语音的Mel频率差两倍,则人在感知上也差两倍。MFCC则是利用这种关系,计算得到的Hz频谱特征。MFCC参数是基于人的听觉特性利用人听觉的临界带效应,在Mel标度频率域提取出来的倒谱特征参数。
举例来说,服务器首先利用预置算法采集目标语音信息集合中的语音序列x[n](n=1,2,…,N-1),并对语音序列作快速傅里叶变换:
其中N为帧长,j为虚数,X[k]为N点的复数系列,之后服务器再对X[k]取模得到语音序列的幅度谱;然后服务器配置一个三角形滤波器组,并计算每一个三角形滤波器对信号幅度谱滤波后的输出,得到语音序列的滤波输出结果:
wl(k)为对应的滤波器的滤波系数,o(l)、c(l)、h(l)为实际频率坐标轴上对应滤波器的下限频率、中心频率和上限频率,fo(l)、fc(l)、fh(l)分别为下限频率滤波值、中心频率滤波值和上限频率滤波值,fs为采样率,L为滤波器总数,l为滤波器的编号,N为帧长;最后,服务器对所有滤波器输出作对数运算,再进一步做离散余弦变换,得到目标特征信息:
其中,Q为目标特征信息的阶数,一般取13,L为滤波器总数,l为滤波器的编号,N为帧长,F(L)为语音序列的滤波输出结果,这样就得到了目标特征信息。
203、根据预置公式计算目标特征信息的相似度矩阵,得到目标特征信息的映射信息;
服务器待获取到目标语音信息集合中抽取目标特征信息之后,根据预置公式计算目标特征信息的相似度矩阵,从而得到目标特征信息的映射信息。
具体的:
服务器将获取到的目标特征信息转化为低维向量,低维向量为采用低维度表示目标特征信息的向量,服务器根据转化的低维向量与预置公式计算目标特征信息的相似度矩阵,这里的相似度矩阵有多个,且计算相似度矩阵的对象可以相同也可不同,最终得到目标特征信息的映射信息。
服务器待提取完目标特征信息之后,会通过LSTM或者其他神经网络将目标特征信息转化为低维向量,利用低维向量表示对应的目标特征信息,这样将目标特征信息转化为低维向量的方式,有利于相似度矩阵的计算。这里服务器计算的目标特征信息的相似度矩阵为对同一个声纹识别对象不同语音信息之间的相似度矩阵,以及不同声纹识别对象之间的相似度矩阵,服务器进行多个相似度矩阵的计算后就可以通过每个声纹识别对象的相似度矩阵进行损失的优化。
204、基于映射信息与第一损失函数优化目标语音信息集合的损失,得到第一声纹识别结果;
服务器根据目标特征信息的映射信息以及第一损失函数对目标语音信息集合进行损失优化,从而得到第一声纹识别结果。
举例来说,服务器获取到三个不同声纹识别对象,每个声纹识别对象均有三条不同的语音信息,分别对语音信息进行预处理,得到目标语音信息集合,然后服务器利用预置公式计算目标特征信息的相似度矩阵,得到目标特征信息的映射信息,其中预置公式如下:
在式中,Sji,k表示声纹识别对象k的第j个声纹识别对象的第i条语音信息的目标特征信息相似度矩阵,k表示声纹识别对象,eji表示第j个声纹识别对象的第i条语音信息,也就是目标特征信息转化的低维向量,ω以及b是通过大量训练得到的变量,M表示声纹识别对象的数量,cj表示第j个声纹识别对象除去第i条语音信息之后,其余语音信息的质心(平均值),其计算公式为:
在式中,M表示声纹识别对象的数量,ejm表示第j个声纹识别对象的第m条语音信息,最后服务器将第一损失函数与映射信息优化损失进行计算,这里的第一损失函数为:
在式中,Sji,j是声纹识别对象的第i条语音信息与该声纹识别对象其他语音信息之间的相似度矩阵,Sji,k表示声纹识别对象的语音信息与其他声纹识别对象的语音信息之间的相似度矩阵,N表示每个声纹识别对象的语音信息条数,这样服务器就计算得到了第一声纹识别结果。
205、获取目标语音信道的目标语音信道信息,目标语音信道信息包括信道噪声信息,目标语音信道用于传输目标语音信息集合;
服务器获取目标语音信道的目标语音信道信息,这里的目标语音信道是传输目标语音信息集合的通道,在传输的过程中信道中会产生一定的目标语音信道信息,也就是噪声信息。
可以理解的是,声纹识别对象的语音信息在信道中传输的过程中会有一定的噪声影响,也就是信道噪声,信道噪声能够干扰通信的效果,降低通信的可靠性,对声纹识别结果造成重大的影响。因此在本申请中,在进行声纹识别过程中对传输语音信息的通道进行处理,以减少噪声的干扰。
206、抽取信道噪声信息中的目标特征向量,并根据第二损失函数优化目标特征向量,得到第二声纹识别结果;
服务器在获取到目标语音信道中的目标语音信道信息后,也就是在目标语音信道信息的信道噪声信息中抽取目标特征向量,并根据第二损失函数优化目标特征向量,从而得到第二声纹识别结果。具体的:
服务器抽取目标语音信道信息中的目标特征向量,并计算多个目标特征向量的均值;然后服务器根据目标特征向量的均值与第二损失函数计算目标语音信道信息的最小均方误差矩阵,进而得到第二声纹识别结果。
需要说明的是,优化目标信道语音信息的步骤是在优化目标语音信息集合之后,因在开始进行优化目标语音信息集合的步骤时,网络训练的均值随机性较强,优化目标信道语音信息的均值项无法被捕捉到,因此需要训练多个优化目标语音信息集合的步骤之后再进行优化目标信道语音信息的步骤,这时的训练网络才会稳定下来,可以更好的进行信道噪声的捕捉,具体进行多少步优化目标语音信息集合的步骤,需要根据具体情况进行分析。例如:当进行声纹识别过程中,所有的训练数据需要10W个训练步骤完成时,可以在进行6W个训练步骤后再开始进行目标信道语音信息的优化。
举例说明,服务器在抽取目标语音信道信息中的目标特征向量之后,利用目标特征向量计算目标特征向量的均值,计算目标特征向量的均值公式为:
在式中,LCj,t为t步骤时的目标特征向量的均值,eji表示第j个声纹识别对象的第i条语音信息,也就是目标特征向量,β表示加权系数,M表示每个声纹识别对象的语音信息的条数,LCj,t-1为t-1步骤时的目标特征向量的均值;服务器在计算目标特征向量的均值后,再计算目标语音信道信息的最小均方误差矩阵,计算最小均方误差矩阵的公式如下:
在式中,MMSEj表示最小均方差矩阵,LCj,t为t步骤时的目标特征向量的均值,M表示每个声纹识别对象的语音信息的条数,eji表示第j个声纹识别对象的第i条语音信息,μ表示缩放系数,θ表示偏置系数,两者均是通过训练得到的,一般的μ的初始值为1,θ的初始值为0,得到第二声纹识别结果。
207、将第一声纹识别结果与第二声纹识别结果融合,确定最终的声纹识别结果。
服务器将得到的第一声纹识别结果与第二声纹识别结果融合在一起,确定最终的声纹识别结果。服务器将经过两次优化的声纹信息进行融合,得到更加精确的声纹识别结果。具体的:
服务器分别获取第一声纹识别结果以及第二声纹识别结果;然后服务器利用融合公式将第一声纹识别结果与第二声纹识别结果融合,确定最终的声纹识别结果,融合公式为:
在式中,L表示声纹识别融合后的结果,L1表示第一声纹识别结果,L2表示第二声纹识别结果,k表示声纹识别对象,N表示每个声纹识别对象的语音信息条数。
服务器在优化目标信道语音信息以及声纹识别对象的语音信息后,基本上消除了识别声纹信息时所产生的噪声,服务器可以清晰的识别声纹识别对象的语音信息,将两者融合到一起,便可以得到最终的声纹识别结果。
举例说明,待服务器得到第一声纹识别结果与第二声纹识别结果之后,通过融合公式将两者融合在一起,融合公式为:
在式中,L表示融合后的最终的声纹识别结果,L1表示第一声纹识别结果,L2表示第二声纹识别结果,k表示声纹识别对象,N表示每个声纹识别对象的语音信息条数,γ表示调节因子。根据步骤204与步骤206分别得知,第一声纹识别结果L1与第二声纹识别结果L2的表达式,将两者带入融合公式中可得到:
在式中,L(eji)表示第j个声纹识别对象的第i条语音信息的声纹识别结果,Sji,j表示声纹识别对象的第i条语音信息与该声纹识别对象其他语音信息的之间相似度矩阵,Sji,k表示声纹识别对象的语音信息与其他声纹识别对象的语音信息之间的相似度矩阵,其中:
在式中,k表示声纹识别对象,eji表示第j个声纹识别对象的第i条语音信息,也就是目标特征信息转化的低维向量,ω以及b是通过大量训练得到的变量,cj表示第j个声纹识别对象除去第i条语音信息之后,其余语音信息的质心(平均值),其计算公式为:
在式中,M表示声纹识别对象的数量,ejm表示第j个声纹识别对象的第m条语音信息,N表示每个声纹识别对象的语音信息条数;γ表示调节因子,用来调节整体MMSEj损失函数部分的大小;MMSEj表示最小均方误差矩阵,且MMSEj的表达式如下:
在式中,μ表示缩放系数,θ表示偏置系数,M表示每个声纹识别对象的语音信息的条数,eji表示第j个声纹识别对象的第i条语音信息,LCj,t为t步骤时的目标特征向量的均值,其中LCj,t的表达式如下:
在式中,eji表示第j个声纹识别对象的第i条语音信息,也就是目标特征向量,β表示加权系数,M表示每个声纹识别对象的语音信息的条数,LCj,t-1为t步骤时的目标特征向量的均值,这样就得到了最终的声纹识别结果,进一步的优化了语音信息,从而识别到更精确的语音信息。
本发明实施例中,服务器分别对目标语音信息集合和目标语音信道信息进行损失优化处理,再将损失优化处理后的第一声纹识别结果以及第二声纹识别结果融合在一起,使得深度网络学习到语音信道噪声消除的方法,提高声纹识别准确度。
上面对本发明实施例中声纹识别方法进行了描述,下面对本发明实施例中声纹识别装置进行描述,请参阅图3,本发明实施例中声纹识别装置一个实施例包括:
第一获取模块301,用于获取待识别的目标语音信息集合,目标语音信息集合包括至少一个对象所对应的语音信息,语音信息是经过预处理过后得到的;
第一优化模块302,用于利用预置算法在目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化目标特征信息,得到第一声纹识别结果;
第二获取模块303,用于获取目标语音信道的目标语音信道信息,目标语音信道信息包括信道噪声信息,目标语音信道用于传输目标语音信息集合;
第二优化模块304,用于抽取信道噪声信息中的目标特征向量,并根据第二损失函数优化目标特征向量,得到第二声纹识别结果;
融合模块305,用于将第一声纹识别结果与第二声纹识别结果融合,确定最终的声纹识别结果。
本发明实施例中,服务器分别对目标语音信息集合和目标语音信道信息进行损失优化处理,再将损失优化处理后的第一声纹识别结果以及第二声纹识别结果融合在一起,使得深度网络学习到语音信道噪声消除的方法,提高声纹识别准确度。需要强调的是,为进一步保证上述目标语音信息集合的私密和安全性,上述目标语音信息集合还可以存储于一区块链的节点中。
请参阅图4,本发明实施例中声纹识别装置的另一个实施例包括:
第一获取模块301,用于获取待识别的目标语音信息集合,目标语音信息集合包括至少一个对象所对应的语音信息,语音信息是经过预处理过后得到的;
第一优化模块302,用于利用预置算法在目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化目标特征信息,得到第一声纹识别结果;
第二获取模块303,用于获取目标语音信道的目标语音信道信息,目标语音信道信息包括信道噪声信息,目标语音信道用于传输目标语音信息集合;
第二优化模块304,用于抽取信道噪声信息中的目标特征向量,并根据第二损失函数优化目标特征向量,得到第二声纹识别结果;
融合模块305,用于将第一声纹识别结果与第二声纹识别结果融合,确定最终的声纹识别结果。
可选的,第一优化模块302包括:
抽取单元3021,用于利用预置算法在目标语音信息集合中抽取目标特征信息;
计算单元3022,用于根据预置公式计算目标特征信息的相似度矩阵,得到目标特征信息的映射信息;
优化单元3023,用于基于映射信息与第一损失函数优化目标语音信息集合的损失,得到第一声纹识别结果。
可选的,抽取单元3021还可以具体用于:
利用预置算法采集目标语音信息集合中的语音序列,并获取语音序列的幅度谱;
通过滤波器对语音序列的幅度谱进行滤波,得到语音序列的滤波输出结果;
对语音序列的滤波输出结果进行离散余弦变换,得到目标特征信息。
可选的,计算单元3022还可以具体用于:
将目标特征信息转化为低维向量,低维向量为采用低维度表示目标特征信息的向量;
基于低维向量与预置公式计算目标特征信息的相似度矩阵,得到目标特征信息的映射信息。
可选的,第二优化模块304还可以具体用于:
抽取信道噪声信息中的目标特征向量,并计算目标特征向量的均值;
根据目标特征向量的均值与第二损失函数计算信道噪声信息的最小均方误差矩阵,得到第二声纹识别结果。
可选的,融合模块305还可以具体用于:
获取第一声纹识别结果以及第二声纹识别结果;
利用融合公式将第一声纹识别结果与第二声纹识别结果融合,确定最终的声纹识别结果,融合公式为:
在式中,L表示融合后的最终的声纹识别结果,L1表示第一声纹识别结果,L2表示第二声纹识别结果,k表示声纹识别对象,N表示每个声纹识别对象的语音信息条数,γ表示调节因子。
可选的,第一获取模块301还可以具体用于:
获取待处理的语音信息,并利用预置处理公式对待处理的语音信息s(n)进行预加重,得到处理后的语音信息s'(n),预置处理公式为s'(n)=s(n)-as(n-1),其中a为预加重系数,s(n-1)为待处理的语音信息的上一条语音信息;
将处理后的语音信息进行分帧处理,并对每帧处理后的语音信息进行加窗处理,得到目标语音信息集合,目标语音信息集合包括至少一个对象所对应的语音信息。
本发明实施例中,服务器分别对目标语音信息集合和目标语音信道信息进行损失优化处理,再将损失优化处理后的第一声纹识别结果以及第二声纹识别结果融合在一起,使得深度网络学习到语音信道噪声消除的方法,提高声纹识别准确度。
上面图3和图4从模块化功能实体的角度对本发明实施例中的声纹识别装置进行详细描述,下面从硬件处理的角度对本发明实施例中声纹识别设备进行详细描述。
图5是本发明实施例提供的一种声纹识别设备的结构示意图,该声纹识别设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对声纹识别设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在声纹识别设备500上执行存储介质530中的一系列指令操作。
声纹识别设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的声纹识别设备结构并不构成对声纹识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述声纹识别方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种声纹识别方法,其特征在于,所述声纹识别方法包括:
获取待识别的目标语音信息集合,所述目标语音信息集合包括至少一个对象所对应的语音信息,所述语音信息是经过预处理过后得到的;
利用预置算法在所述目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化所述目标特征信息,得到第一声纹识别结果;
获取目标语音信道的目标语音信道信息,所述目标语音信道信息包括信道噪声信息,所述目标语音信道用于传输所述目标语音信息集合;
抽取所述信道噪声信息中的目标特征向量,并根据第二损失函数优化所述目标特征向量,得到第二声纹识别结果;
将所述第一声纹识别结果与所述第二声纹识别结果融合,确定最终的声纹识别结果。
2.根据权利要求1所述的声纹识别方法,其特征在于,所述目标语音信息集合存储于区块链中,所述利用预置算法在所述目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化所述目标特征信息,得到第一声纹识别结果包括:
利用预置算法在所述目标语音信息集合中抽取目标特征信息;
根据预置公式计算所述目标特征信息的相似度矩阵,得到所述目标特征信息的映射信息;
基于所述映射信息与第一损失函数优化所述目标语音信息集合的损失,得到第一声纹识别结果。
3.根据权利要求2所述的声纹识别方法,其特征在于,所述利用预置算法在所述目标语音信息集合中抽取目标特征信息包括:
利用预置算法采集所述目标语音信息集合中的语音序列,并获取所述语音序列的幅度谱;
通过滤波器对所述语音序列的幅度谱进行滤波,得到语音序列的滤波输出结果;
对所述语音序列的滤波输出结果进行离散余弦变换,得到目标特征信息。
4.根据权利要求2所述的声纹识别方法,其特征在于,所述根据预置公式计算所述目标特征信息的相似度矩阵,得到所述目标特征信息的映射信息包括:
将目标特征信息转化为低维向量,所述低维向量为采用低维度表示所述目标特征信息的向量;
基于所述低维向量与预置公式计算所述目标特征信息的相似度矩阵,得到所述目标特征信息的映射信息。
5.根据权利要求1所述的声纹识别方法,其特征在于,所述抽取所述信道噪声信息中的目标特征向量,并根据第二损失函数优化所述目标特征向量,得到第二声纹识别结果包括:
抽取所述信道噪声信息中的目标特征向量,并计算所述目标特征向量的均值;
根据所述目标特征向量的均值与第二损失函数计算信道噪声信息的最小均方误差矩阵,得到第二声纹识别结果。
7.根据权利要求1-5中任一项所述的声纹识别方法,其特征在于,所述获取待识别的目标语音信息集合,所述目标语音信息集合包括至少一个对象所对应的语音信息,所述语音信息是经过预处理过后得到的包括:
获取待处理的语音信息,并利用预置处理公式对所述待处理的语音信息s(n)进行预加重,得到处理后的语音信息s'(n),所述预置处理公式为s'(n)=s(n)-as(n-1),其中a为预加重系数,s(n-1)为待处理的语音信息的上一条语音信息;
将所述处理后的语音信息进行分帧处理,并对每帧所述处理后的语音信息进行加窗处理,得到目标语音信息集合,所述目标语音信息集合包括至少一个对象所对应的语音信息。
8.一种声纹识别装置,其特征在于,所述声纹识别装置包括:
第一获取模块,用于获取待识别的目标语音信息集合,所述目标语音信息集合包括至少一个对象所对应的语音信息,所述语音信息是经过预处理过后得到的;
第一优化模块,用于利用预置算法在所述目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化所述目标特征信息,得到第一声纹识别结果;
第二获取模块,用于获取目标语音信道的目标语音信道信息,所述目标语音信道信息包括信道噪声信息,所述目标语音信道用于传输所述目标语音信息集合;
第二优化模块,用于抽取所述信道噪声信息中的目标特征向量,并根据第二损失函数优化所述目标特征向量,得到第二声纹识别结果;
融合模块,用于将所述第一声纹识别结果与所述第二声纹识别结果融合,确定最终的声纹识别结果。
9.一种声纹识别设备,其特征在于,所述声纹识别设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述声纹识别设备执行如权利要求1-7中任意一项所述的声纹识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述声纹识别方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010350084.7A CN111524524B (zh) | 2020-04-28 | 2020-04-28 | 声纹识别方法、装置、设备及存储介质 |
PCT/CN2020/111464 WO2021217979A1 (zh) | 2020-04-28 | 2020-12-24 | 声纹识别方法、装置、设备及存储介质 |
US17/617,314 US20220254349A1 (en) | 2020-04-28 | 2020-12-24 | Voiceprint recognition method, apparatus and device, and storage medium |
JP2021574348A JP7184236B2 (ja) | 2020-04-28 | 2020-12-24 | 声紋を認識する方法、装置、設備、および記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010350084.7A CN111524524B (zh) | 2020-04-28 | 2020-04-28 | 声纹识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111524524A true CN111524524A (zh) | 2020-08-11 |
CN111524524B CN111524524B (zh) | 2021-10-22 |
Family
ID=71902950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010350084.7A Active CN111524524B (zh) | 2020-04-28 | 2020-04-28 | 声纹识别方法、装置、设备及存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220254349A1 (zh) |
JP (1) | JP7184236B2 (zh) |
CN (1) | CN111524524B (zh) |
WO (1) | WO2021217979A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021217979A1 (zh) * | 2020-04-28 | 2021-11-04 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106448684A (zh) * | 2016-11-16 | 2017-02-22 | 北京大学深圳研究生院 | 基于深度置信网络特征矢量的信道鲁棒声纹识别系统 |
CN108877809A (zh) * | 2018-06-29 | 2018-11-23 | 北京中科智加科技有限公司 | 一种说话人语音识别方法及装置 |
CN109215665A (zh) * | 2018-07-20 | 2019-01-15 | 广东工业大学 | 一种基于3d卷积神经网络的声纹识别方法 |
CN109559749A (zh) * | 2018-12-24 | 2019-04-02 | 苏州思必驰信息科技有限公司 | 用于语音识别系统的联合解码方法及系统 |
CN109767783A (zh) * | 2019-02-15 | 2019-05-17 | 深圳市汇顶科技股份有限公司 | 语音增强方法、装置、设备及存储介质 |
CN110992974A (zh) * | 2019-11-25 | 2020-04-10 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7181017B1 (en) * | 2001-03-23 | 2007-02-20 | David Felsher | System and method for secure three-party communications |
KR100776803B1 (ko) * | 2006-09-26 | 2007-11-19 | 한국전자통신연구원 | 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법 |
WO2017212206A1 (en) * | 2016-06-06 | 2017-12-14 | Cirrus Logic International Semiconductor Limited | Voice user interface |
JP7028345B2 (ja) * | 2018-06-29 | 2022-03-02 | 日本電気株式会社 | パタン認識装置、パタン認識方法、及びプログラム |
CN109285538B (zh) * | 2018-09-19 | 2022-12-27 | 宁波大学 | 一种基于常q变换域的加性噪声环境下手机来源识别方法 |
CN109378002B (zh) * | 2018-10-11 | 2024-05-07 | 平安科技(深圳)有限公司 | 声纹验证的方法、装置、计算机设备和存储介质 |
CN109326302B (zh) * | 2018-11-14 | 2022-11-08 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
CN110232928B (zh) * | 2019-06-13 | 2021-05-25 | 思必驰科技股份有限公司 | 文本无关说话人验证方法和装置 |
CN111312283B (zh) * | 2020-02-24 | 2023-03-21 | 中国工商银行股份有限公司 | 跨信道声纹处理方法及装置 |
CN111524525B (zh) * | 2020-04-28 | 2023-06-16 | 平安科技(深圳)有限公司 | 原始语音的声纹识别方法、装置、设备及存储介质 |
CN111524524B (zh) * | 2020-04-28 | 2021-10-22 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
-
2020
- 2020-04-28 CN CN202010350084.7A patent/CN111524524B/zh active Active
- 2020-12-24 JP JP2021574348A patent/JP7184236B2/ja active Active
- 2020-12-24 US US17/617,314 patent/US20220254349A1/en active Pending
- 2020-12-24 WO PCT/CN2020/111464 patent/WO2021217979A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106448684A (zh) * | 2016-11-16 | 2017-02-22 | 北京大学深圳研究生院 | 基于深度置信网络特征矢量的信道鲁棒声纹识别系统 |
CN108877809A (zh) * | 2018-06-29 | 2018-11-23 | 北京中科智加科技有限公司 | 一种说话人语音识别方法及装置 |
CN109215665A (zh) * | 2018-07-20 | 2019-01-15 | 广东工业大学 | 一种基于3d卷积神经网络的声纹识别方法 |
CN109559749A (zh) * | 2018-12-24 | 2019-04-02 | 苏州思必驰信息科技有限公司 | 用于语音识别系统的联合解码方法及系统 |
CN109767783A (zh) * | 2019-02-15 | 2019-05-17 | 深圳市汇顶科技股份有限公司 | 语音增强方法、装置、设备及存储介质 |
CN110992974A (zh) * | 2019-11-25 | 2020-04-10 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021217979A1 (zh) * | 2020-04-28 | 2021-11-04 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111524524B (zh) | 2021-10-22 |
JP2022536190A (ja) | 2022-08-12 |
JP7184236B2 (ja) | 2022-12-06 |
WO2021217979A1 (zh) | 2021-11-04 |
US20220254349A1 (en) | 2022-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108281146B (zh) | 一种短语音说话人识别方法和装置 | |
WO2019232829A1 (zh) | 声纹识别方法、装置、计算机设备及存储介质 | |
Tiwari | MFCC and its applications in speaker recognition | |
US5522012A (en) | Speaker identification and verification system | |
US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
CN109215665A (zh) | 一种基于3d卷积神经网络的声纹识别方法 | |
CN112053695A (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
CN111785285A (zh) | 面向家居多特征参数融合的声纹识别方法 | |
CN103794207A (zh) | 一种双模语音身份识别方法 | |
CN112382300A (zh) | 声纹鉴定方法、模型训练方法、装置、设备及存储介质 | |
Sharma et al. | Study of robust feature extraction techniques for speech recognition system | |
CN110570870A (zh) | 一种文本无关的声纹识别方法、装置及设备 | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN113160852A (zh) | 语音情绪识别方法、装置、设备及存储介质 | |
CN113823293A (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN111524524B (zh) | 声纹识别方法、装置、设备及存储介质 | |
CN117275129B (zh) | 一种基于物联网的语音结合人脸识别的门禁系统 | |
Singh et al. | Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition | |
CN114038469B (zh) | 一种基于多类谱图特征注意力融合网络的说话人识别方法 | |
Alkhatib et al. | Voice identification using MFCC and vector quantization | |
CN112309404A (zh) | 机器语音的鉴别方法、装置、设备及存储介质 | |
Aliyu et al. | Development of a text-dependent speaker recognition system | |
Moreno-Rodriguez et al. | Bimodal biometrics using EEG-voice fusion at score level based on hidden Markov models | |
Alkhatib et al. | ASR Features Extraction Using MFCC And LPC: A Comparative Study | |
Hosain et al. | Development of a tangent based robust speech feature extraction model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40030815 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |