CN107610707B - 一种声纹识别方法及装置 - Google Patents
一种声纹识别方法及装置 Download PDFInfo
- Publication number
- CN107610707B CN107610707B CN201611158891.9A CN201611158891A CN107610707B CN 107610707 B CN107610707 B CN 107610707B CN 201611158891 A CN201611158891 A CN 201611158891A CN 107610707 B CN107610707 B CN 107610707B
- Authority
- CN
- China
- Prior art keywords
- voice
- feature
- speaker
- trained
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000011159 matrix material Substances 0.000 claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 55
- 238000003062 neural network model Methods 0.000 claims abstract description 46
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000009432 framing Methods 0.000 claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 230000000306 recurrent effect Effects 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 238000001228 spectrum Methods 0.000 claims description 18
- 238000005259 measurement Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 230000007774 longterm Effects 0.000 claims description 5
- 230000000452 restraining effect Effects 0.000 claims description 3
- 108010001267 Protein Subunits Proteins 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000001755 vocal effect Effects 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 12
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000032696 parturition Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000005654 stationary process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Image Analysis (AREA)
Abstract
本发明适用于身份认证技术领域,提供了一种声纹识别方法及装置,包括:对输入的语音进行预处理,获取语音中的有效语音;提取语音的MFCC声学特征,输出包含MFCC维度及语音分帧数的第一和第二特征矩阵;构建长短时递归神经网络模型,并将第一特征矩阵作为输入;利用神经网络模型的训练参数及语音的说话人特征训练特征提取矩阵,每个特征提取矩阵对应一个说话人模型;选取出匹配第二特征矩阵的说话人模型,所述匹配的说话人模型对应的说话人输出为声纹识别结果。本发明采用监督学习的方式来训练声纹背景模型,能够从训练语音中挖掘出更合适的声学特征,从而能够更准确地辨别说话人的差异性特征,学习到鲁棒性更强的说话人模型,获取更好的声纹识别效果。
Description
技术领域
本发明属于身份认证技术领域,尤其涉及一种声纹识别方法及装置。
背景技术
声纹识别也称为说话人识别,用于判断某段语音是若干人中的哪一个所说的或者用于确认某段语音是否是指定的某个人所说的,是一项根据语音波形反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。目前,声纹识别广泛应用于互联网、银行系统、公安司法等领域。声纹,是用电声学仪器显示的携带言语信息的声波频谱。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。
业界主流的声纹识别方法一般需要先对说话人的声纹进行建模,通常是对全局背景模型预先进行训练。现有的声纹模型中,主要采用混合高斯模型来训练通用的背景模型。由于基于无监督训练的混合高斯背景模型中并没有样本数据的类别信息,仅用以代表说话人空间中所有说话人的特征,是一个单一的说话人无关的背景模型,因此难以准确地辨别说话人的差异性特征,最终导致对说话人的声纹进行识别时,识别准确率低。
发明内容
有鉴于此,本发明实施例提供了一种声纹识别方法及装置,以解决现有技术难以准确地辨别说话人的差异性特征,从而导致声纹识别准确率较低的问题。
第一方面,提供了一种声纹识别方法,包括:
分别对输入的K条语音进行预处理,所述语音包括训练语音及待识别语音,以获取所述K条语音中每条语音的有效语音;
提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵;
构建长短时递归神经网络模型,并将所述第一特征矩阵输入所述神经网络模型,以获取所述神经网络模型的输出参数;
利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征,分别训练得出N条训练语音的N个特征提取矩阵,所述每个特征提取矩阵对应一个所述训练语音的说话人模型;
提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵;
在所述N个说话人模型中,根据预设的相似性度量算法,选取出与所述第二特征矩阵相匹配的说话人模型,所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果;
其中,所述K和N为大于零的整数,且K大于N。
第二方面,提供了一种声纹识别装置,包括:
预处理单元,用于分别对输入的K条语音进行预处理,所述语音包括训练语音及待识别语音,以获取所述K条语音中每条语音的有效语音;
第一提取单元,用于提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵;
构建单元,用于构建长短时递归神经网络模型,并将所述第一特征矩阵输入所述神经网络模型,以获取所述神经网络模型的输出参数;
训练单元,用于利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征,分别训练得出N条训练语音的N个特征提取矩阵,所述每个特征提取矩阵对应一个所述训练语音的说话人模型;
第二提取单元,用于提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵;
识别单元,用于在所述N个说话人模型中,根据预设的相似性度量算法,选取出与所述第二特征矩阵相匹配的说话人模型,所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果;
其中,所述K和N为大于零的整数,且K大于N。
在本发明实施例中,采用监督学习的方式来训练声纹背景模型,通过结合说话人的特征,能够从原始训练语音数据中挖掘出更合适的声学特征集,从而能够更准确地辨别说话人的差异性特征,在语音交叠的场景下能获取更好的声纹识别效果。由于识别的主要过程是基于深度神经网络模型来实现,因此能够学习到鲁棒性更强的说话人模型,解决现有声纹识别方法识别准确率低的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的声纹识别方法的实现流程图;
图2是本发明实施例提供的声纹识别方法中步骤S101的具体实现流程图;
图3是本发明实施例提供的声纹识别方法中步骤S102的具体的实现流程图;
图4是本发明实施例提供的声纹识别方法中步骤S103的具体的实现流程图;
图5是本发明实施例提供的声纹识别方法中步骤S104的具体的实现流程图;
图6是本发明实施例提供的声纹识别装置的结构框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
本发明实施例基于时间递归深度神经网络来实现,对说话人模型的训练依靠训练语音的声学特征来对模型的参数进行估计及优化调整,以不同的说话人模型表示不同的说话人个性特征,获得待识别语音的特征提取矩阵后,依次与多个说话人模型进行匹配对比,将不符合匹配条件的说话人模型淘汰,最终,接收符合匹配条件的说话人模型对应的说话人作为声纹识别的结果。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的声纹识别方法的实现流程,详述如下:
在S101中,分别对输入的K条语音进行预处理,所述语音包括训练语音及待识别语音,以获取所述K条语音中每条语音的有效语音。
在本实施例中,通过输入数量足够多的训练语音来建立不同的说话人模型,该训练语音为已知说话人身份的标记语音样本,用于调整说话人模型的参数,使该模型能够基于监督学习,在实际应用中达到所要求的识别性能。
当需要判断某段语音是若干人中的哪一个所说的或者用于确认某段语音是否是指定的某个人所说的时,该段语音即为待识别语音。训练语音与待识别语音的作用不同,可以是不同或相同的语音数据。当二者相同时,所述待识别语音可用以检验最终得出的说话人模型的性能,测试其是否能够准确地识别出待识别语音的说话人身份。
对所述语音进行预处理,以降低每段连续语音信号中的背景噪声水平,输出含有实际分析意义的有效语音,为后续说话人模型训练提供高信噪比的训练集,提高了模型训练的速度,达到更为准确的模型训练效果。
作为本发明的另一个实施例,图2示出了本发明实施例提供的声纹识别方法S101的具体实现流程,详述如下:
S201,分别对输入的K条语音进行预加重处理,以提升所述每条语音中的高频信号频段。
在本实施例中,为了降低口唇辐射的影响,突出高频的共振峰,分别将每条语音信号通过一个高通滤波器来对语音中的高频部分进行加重,使语音信号的频谱变得更平滑。
S202,采用分帧加窗算法,分别将所述预加重处理后的每条语音转化为短时平稳信号。
选择适当数量的采样点,对所述预加重处理后的每条语音进行分帧,以使每条语音转化为多帧短时语音信号。其中,每一帧信号可视为一个平稳过程,即统计特性平稳。
在本实施例中,所述加窗过程表示将原来的短时语音信号作为被积函数,并使其与特定的窗函数做积。窗函数是一种除在给定区间之外取值均为零的实函数,包含但不限于矩形窗、三角窗、汉宁窗和海明窗等窗函数。
优选地,在本实施例中该窗函数为汉宁窗。
S203,基于端点检测算法区分所述短时平稳信号中的噪声与语音,并将所述短时平稳信号中的语音输出为所述每条语音的有效语音。
首先,在短时语音信号对应的短时功率谱轮廓中选取一个较高的短时能量判决门限值,并进行第一次粗判。有效语音信号的起止点位于所述门限值与短时能量包络交点所对应的时间间隔之外。
根据背景噪声的平均能量,选取一个较低的短时能量判决门限值,语音短时能量包络与该门限相交的两个点作为有效语音信号的起止点,可将上述有效语音提取并输出。
本发明实施例通过对输入的多条语音进行预加重处理,避免高频段的输出信噪比明显下降,通过提取语音信号中的有效语音,过滤所述短时平稳信号中的噪声,能够减少说话人模型训练过程中的计算量和缩短后续多个步骤的语音处理时间,能够排除无声段的噪声干扰,提高语音识别的正确率。
在S102中,提取所述每条训练语音中有效语音的梅尔频率倒谱系数(MFCC)声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵。
基于人耳听觉特性提出来的梅尔Mel频率与Hz频率成非线性对应关系,利用所述非线性的关系,计算得到Hz频谱特征。
Hz频率与Mel频率的转换公式为:Fmel=2595*lg(1+fHZ/700)
作为本发明的另一个实施例,图3示出了本发明实施例提供的声纹识别方法S102的具体实现流程,如下所述:
在S301中,通过快速傅利叶变换分析所述每条训练语音中的有效语音,获取所述有效语音的功率谱。
从上述实施例中提取出的有效语音经过快速傅里叶变换后,得到各帧有效语音的频谱,对所述频谱取模后,再进行平方计算,得到各帧有效语音的功率谱。功率谱上表征出来的不同能量分布,代表语音的不同特性。
在S302中,采用梅尔尺度的滤波器组对所述功率谱进行滤波处理,所述滤波器组包含M个三角滤波器,并获取所述每个三角滤波器输出的对数能量。
所述M个三角滤波器的中心频率分别为f(m),m=1,2,……,k,其中,k优选取值为22至26。
在S303中,将所述对数能量进行离散余弦变换后,输出所述有效语音的梅尔频率倒谱系数声学特征。
在S304中,根据所述梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵。
每帧有效语音信号的能量加上所述对数能量,构建了二维的MFCC声学特征。在此过程中加入多种声学特征,例如音高、过零率以及共振峰等,使得输出的第一特征矩阵能以“MFCC维度×分帧数”来表示,所述分帧数为原始输入的每条语音信号在分帧加窗处理过程中的分帧数目。
本发明实施例将有效语音的功率谱经过三角滤波器过滤,实现了每帧有效语音频谱的平滑化,消除了谐波的作用,突显出每帧有效语音对应的原始语音信号的共振峰。以包含MFCC声学特征维度的第一特征矩阵作为神经网络模型的输入,能够使得神经网络模型的训练不会受到输入语音的音调影响,降低了运算量。
在S103中,构建长短时递归神经网络模型,并将所述第一特征矩阵输入所述神经网络模型,以获取所述神经网络模型的输出参数。
作为本发明的另一个实施例,图4示出了本发明实施例提供的声纹识别方法S103的具体实现流程,详述如下:
在S401中,初始化一个长短时递归神经网络模型,所述神经网络模型包含输入层、含有长短期记忆单元的递归层以及输出层。
在本实施例中,神经网络模型包含多个层次,不同层的作用有差异。在此,以五层网络为例,对长短时递归神经网络的网络结构进行阐述,可以理解的是,在实际应用的网络结构中,神经网络的层数不局限于五层。
本实施例使用开源深度学习工具CNTK初始化一个五层长短时递归神经网络模型,该神经网络模型(DNN)的网络结构为:一个输入层,三个含有长短期记忆单元(LSTM)的递归层和一个输出层。其中,每个递归层包含有1024个节点,且包含有两级层次结构,其中一级为具有512个节点的映射层。
LSTM递归层输入的参数是83维的语音特征向量,基于当前帧、前五帧以及后五帧有效语音的前后信息,每次只移动一帧有效语音进行迭代计算,故总共有913维(11帧×83维)的特征向量作为LSTM的输入,该913维特征向量进入LSTM递归层后,依次通过1024个隐含层记忆单元。因此,LSTM递归层的输入与输出特征向量维度相同。
对于该神经网络结构的训练可以使用随机梯度下降的优化方法。
在S402中,将所述第一特征矩阵输入所述神经网络模型。
在S403中,采用Softmax分类器对所述第一特征矩阵中的帧特征向量进行分类,并根据分类结果进行状态聚类,得到多类帧特征向量。
在S404中,分别计算所述各类帧特征向量的后验概率,所述各类帧特征向量的后验概率为所述神经网络模型的输出参数。
DNN输出参数为:其中,所述i表示第i帧有效语音;所述θ表示语音对应的文本信息;所述fi表示深度神经网络输入的第一特征矩阵;所述k表示输出的第k个类,对应于传统混合高斯模型中混合高斯的数量。
在S104中,利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征,分别训练得出N条训练语音的N个特征提取矩阵,所述每个特征提取矩阵对应一个所述训练语音的说话人模型。
作为本发明的另一个实施例,图5示出了本发明实施例提供的声纹识别方法S104的具体实现流程,详述如下:
在501中,获取所述神经网络模型的训练参数,所述训练参数为所述输出参数的混合权重、均值及方差。
基于上述实施例中的DNN输出参数,所述三个训练参数的计算公式分别为:
混合权重:
均值:
方差:
在502中,根据所述训练参数及所述训练语音对应的说话人特征,利用前向-后向算法计算所述每条训练语音对应说话人的特征向量。
在本实施例中,训练语音对应的说话人特征表示训练语音的说话人身份标记信息,根据上述DNN输出参数的混合权重、均值、方差以及训练语音的标记信息,使用基于前向-后向算法原理的Baum-Welch算法,迭代估计每条训练语音所对应说话人的特征向量。
在503中,将所述神经网络模型的训练参数及所述每条训练语音对应说话人的特征向量迭代至收敛,得出所述每条训练语音的特征提取矩阵。
在S105中,提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵。
对于本文中S102所述具体实施例中的内容,在S105中也同样适用,区别在于本步骤中处理的原始语音信号为待识别语音,S102中处理的原始语音信号为训练语音,其余实现原理均相同,在此不一一赘述。
在S106中,在所述N个说话人模型中,根据预设的相似性度量算法,选取出与所述第二特征矩阵相匹配的说话人模型,所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果。
相似性度量算法包含但不限于距离测度、相似测度和匹配测度等算法,用以衡量所述第二特征矩阵与所述说话人模型在特征客观表征形式上的相近程度。
作为本发明的另一个实施例,通过相似测度算法中的余弦测度法来获取与所述第二特征矩阵相匹配的说话人模型。
在本实施例中,用向量空间中两个向量夹角的余弦值来衡量第二特征矩阵与N个说话人模型个体间差异的大小。通过比较输入的两个i-vector低维向量的余弦距离并设定一定的阈值,进行两个向量(代表待识别语音的第二特征矩阵与说话人模型)的相似度判断。其中,连接代表特征点与原点的直线相交于原点,夹角越小代表两个特征越相似,夹角越大代表两个特征的相似度越小。
在所述N个说话人模型中,选取相似度最大的一个说话人模型,该说话人模型的原始说话人即为待识别语音的说话人,从而得到待识别语音的声纹识别结果。
在本发明实施例中,采用监督学习的方式来训练声纹背景模型,通过结合说话人的特征,能够从原始训练语音数据中挖掘出更合适的声学特征集,从而能够更准确地辨别说话人的差异性特征,在语音交叠的场景下能获取更好的声纹识别效果。由于识别的主要过程是基于深度神经网络模型来实现,因此能够学习到鲁棒性更强的说话人模型,解决现有声纹识别方法识别准确率低的问题。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的声纹识别方法,图6示出了本发明实施例提供的声纹识别装置的结构框图,所述声纹识别装置可以是软件单元、硬件单元或者是软硬结合的单元。为了便于说明,仅示出了与本实施例相关的部分。
参照图6,该装置包括:
预处理单元61,用于分别对输入的K条语音进行预处理,所述语音包括训练语音及待识别语音,以获取所述K条语音中每条语音的有效语音。
第一提取单元62,用于提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵。
构建单元63,用于构建长短时递归神经网络模型,并将所述第一特征矩阵输入所述神经网络模型,以获取所述神经网络模型的输出参数。
训练单元64,用于利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征,分别训练得出N条训练语音的N个特征提取矩阵,所述每个特征提取矩阵对应一个所述训练语音的说话人模型。
第二提取单元65,用于提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵。
识别单元66,用于在所述N个说话人模型中,根据预设的相似性度量算法,选取出与所述第二特征矩阵相匹配的说话人模型,所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果。
其中,所述K和N为大于零的整数,且K大于N。
可选地,所述预处理单元61包括:
预加重子单元,用于分别对输入的K条语音进行预加重处理,以提升所述每条语音中的高频信号频段;
转化子单元,用于采用分帧加窗算法,分别将所述预加重处理后的每条语音转化为短时平稳信号;
检测子单元,用于基于端点检测算法区分所述短时平稳信号中的噪声与语音,并将所述短时平稳信号中的语音输出为所述每条语音的有效语音。
可选地,所述第一提取单元62包括:
获取子单元,用于通过快速傅利叶变换分析所述每条训练语音中的有效语音,获取所述有效语音的功率谱;
滤波子单元,用于采用梅尔尺度的滤波器组对所述功率谱进行滤波处理,所述滤波器组包含M个三角滤波器,并获取所述每个三角滤波器输出的对数能量,所述M为大于零的整数;
变换子单元,用于将所述对数能量进行离散余弦变换后,输出所述有效语音的梅尔频率倒谱系数声学特征;
输出子单元,用于根据所述梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵。
可选地,所述构建单元63包括:
初始化子单元,用于初始化一个长短时递归神经网络模型,所述神经网络模型包含输入层、含有长短期记忆单元的递归层以及输出层;
输入子单元,用于将所述第一特征矩阵输入所述神经网络模型;
分类子单元,用于采用Softmax分类器对所述第一特征矩阵中的帧特征向量进行分类,并根据分类结果进行状态聚类,得到多类帧特征向量;
计算子单元,用于分别计算所述各类帧特征向量的后验概率,所述各类帧特征向量的后验概率为所述神经网络模型的输出参数。
可选地,所述训练单元64包括:
参数获取子单元,用于获取所述神经网络模型的训练参数,所述训练参数为所述输出参数的混合权重、均值及方差;
特征获取子单元,用于根据所述训练参数及所述训练语音对应的说话人特征,利用前向-后向算法计算所述每条训练语音对应说话人的特征向量;
迭代子单元,用于将所述神经网络模型的训练参数及所述每条训练语音对应说话人的特征向量迭代至收敛,得出所述每条训练语音的特征提取矩阵
在本发明实施例中,采用监督学习的方式来训练声纹背景模型,通过结合说话人的特征,能够从原始训练语音数据中挖掘出更合适的声学特征集,从而能够更准确地辨别说话人的差异性特征,在语音交叠的场景下能获取更好的声纹识别效果。由于识别的主要过程是基于深度神经网络模型来实现,因此能够学习到鲁棒性更强的说话人模型,解决现有声纹识别方法识别准确率低的问题。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种声纹识别方法,其特征在于,包括:
分别对输入的K条语音进行预处理,所述语音包括训练语音及待识别语音,以获取所述K条语音中每条语音的有效语音;
提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵;
构建长短时递归神经网络模型,并将所述第一特征矩阵输入所述神经网络模型,以获取所述神经网络模型的输出参数;
利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征,分别训练得出N条训练语音的N个特征提取矩阵,所述每个特征提取矩阵对应一个所述训练语音的说话人模型;
提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵;
在N个说话人模型中,根据预设的相似性度量算法,选取出与所述第二特征矩阵相匹配的说话人模型,所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果;
其中,所述K和N为大于零的整数,且K大于N。
2.如权利要求1所述的方法,其特征在于,所述分别对输入的K条语音进行预处理,所述语音包括训练语音及待识别语音,以获取所述K条语音中每条语音的有效语音,包括:
分别对输入的K条语音进行预加重处理,以提升所述每条语音中的高频信号频段;
采用分帧加窗算法,分别将所述预加重处理后的每条语音转化为短时平稳信号;
基于端点检测算法区分所述短时平稳信号中的噪声与语音,并将所述短时平稳信号中的语音输出为所述每条语音的有效语音。
3.如权利要求2所述的方法,其特征在于,所述提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵包括:
通过快速傅利叶变换分析所述每条训练语音中的有效语音,获取所述有效语音的功率谱;
采用梅尔尺度的滤波器组对所述功率谱进行滤波处理,所述滤波器组包含M个三角滤波器,并获取所述每个三角滤波器输出的对数能量,所述M为大于零的整数;
将所述对数能量进行离散余弦变换后,输出所述有效语音的梅尔频率倒谱系数声学特征;
根据所述梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵。
4.如权利要求1所述的方法,其特征在于,所述构建长短时递归神经网络模型,并将所述第一特征矩阵输入所述神经网络模型,以获取所述神经网络模型的输出参数包括:
初始化一个长短时递归神经网络模型,所述神经网络模型包含输入层、含有长短期记忆单元的递归层以及输出层;
将所述第一特征矩阵输入所述神经网络模型;
采用Softmax分类器对所述第一特征矩阵中的帧特征向量进行分类,并根据分类结果进行状态聚类,得到多类帧特征向量;
分别计算所述各类帧特征向量的后验概率,所述各类帧特征向量的后验概率为所述神经网络模型的输出参数。
5.如权利要求1所述的方法,其特征在于,所述利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征,分别训练得出N条训练语音的N个特征提取矩阵包括:
获取所述神经网络模型的训练参数,所述训练参数为所述输出参数的混合权重、均值及方差;
根据所述训练参数及所述训练语音对应的说话人特征,利用前向-后向算法计算所述每条训练语音对应说话人的特征向量;
将所述神经网络模型的训练参数及所述每条训练语音对应说话人的特征向量迭代至收敛,得出所述每条训练语音的特征提取矩阵。
6.一种声纹识别装置,其特征在于,包括:
预处理单元,用于分别对输入的K条语音进行预处理,所述语音包括训练语音及待识别语音,以获取所述K条语音中每条语音的有效语音;
第一提取单元,用于提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵;
构建单元,用于构建长短时递归神经网络模型,并将所述第一特征矩阵输入所述神经网络模型,以获取所述神经网络模型的输出参数;
训练单元,用于利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征,分别训练得出N条训练语音的N个特征提取矩阵,所述每个特征提取矩阵对应一个所述训练语音的说话人模型;
第二提取单元,用于提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵;
识别单元,用于在N个说话人模型中,根据预设的相似性度量算法,选取出与所述第二特征矩阵相匹配的说话人模型,所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果;
其中,所述K和N为大于零的整数,且K大于N。
7.如权利要求6所述的装置,其特征在于,所述预处理单元包括:
预加重子单元,用于分别对输入的K条语音进行预加重处理,以提升所述每条语音中的高频信号频段;
转化子单元,用于采用分帧加窗算法,分别将所述预加重处理后的每条语音转化为短时平稳信号;
检测子单元,用于基于端点检测算法区分所述短时平稳信号中的噪声与语音,并将所述短时平稳信号中的语音输出为所述每条语音的有效语音。
8.如权利要求7所述的装置,其特征在于,所述第一提取单元包括:
获取子单元,用于通过快速傅利叶变换分析所述每条训练语音中的有效语音,获取所述有效语音的功率谱;
滤波子单元,用于采用梅尔尺度的滤波器组对所述功率谱进行滤波处理,所述滤波器组包含M个三角滤波器,并获取所述每个三角滤波器输出的对数能量,所述M为大于零的整数;
变换子单元,用于将所述对数能量进行离散余弦变换后,输出所述有效语音的梅尔频率倒谱系数声学特征;
输出子单元,用于根据所述梅尔频率倒谱系数声学特征,输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵。
9.如权利要求6所述的装置,其特征在于,所述构建单元包括:
初始化子单元,用于初始化一个长短时递归神经网络模型,所述神经网络模型包含输入层、含有长短期记忆单元的递归层以及输出层;
输入子单元,用于将所述第一特征矩阵输入所述神经网络模型;
分类子单元,用于采用Softmax分类器对所述第一特征矩阵中的帧特征向量进行分类,并根据分类结果进行状态聚类,得到多类帧特征向量;
计算子单元,用于分别计算所述各类帧特征向量的后验概率,所述各类帧特征向量的后验概率为所述神经网络模型的输出参数。
10.如权利要求6所述的装置,其特征在于,所述训练单元包括:
参数获取子单元,用于获取所述神经网络模型的训练参数,所述训练参数为所述输出参数的混合权重、均值及方差;
特征获取子单元,用于根据所述训练参数及所述训练语音对应的说话人特征,利用前向-后向算法计算所述每条训练语音对应说话人的特征向量;
迭代子单元,用于将所述神经网络模型的训练参数及所述每条训练语音对应说话人的特征向量迭代至收敛,得出所述每条训练语音的特征提取矩阵。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611158891.9A CN107610707B (zh) | 2016-12-15 | 2016-12-15 | 一种声纹识别方法及装置 |
PCT/CN2017/099707 WO2018107810A1 (zh) | 2016-12-15 | 2017-08-30 | 声纹识别方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611158891.9A CN107610707B (zh) | 2016-12-15 | 2016-12-15 | 一种声纹识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107610707A CN107610707A (zh) | 2018-01-19 |
CN107610707B true CN107610707B (zh) | 2018-08-31 |
Family
ID=61055561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611158891.9A Active CN107610707B (zh) | 2016-12-15 | 2016-12-15 | 一种声纹识别方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107610707B (zh) |
WO (1) | WO2018107810A1 (zh) |
Families Citing this family (106)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107527620B (zh) * | 2017-07-25 | 2019-03-26 | 平安科技(深圳)有限公司 | 电子装置、身份验证的方法及计算机可读存储介质 |
CN110310647B (zh) * | 2017-09-29 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
CN108447490B (zh) * | 2018-02-12 | 2020-08-18 | 阿里巴巴集团控股有限公司 | 基于记忆性瓶颈特征的声纹识别的方法及装置 |
CN108564955B (zh) * | 2018-03-19 | 2019-09-03 | 平安科技(深圳)有限公司 | 电子装置、身份验证方法和计算机可读存储介质 |
CN108564954B (zh) * | 2018-03-19 | 2020-01-10 | 平安科技(深圳)有限公司 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
CN110349585B (zh) * | 2018-04-04 | 2023-05-05 | 富士通株式会社 | 语音认证方法和信息处理设备 |
CN108650266B (zh) * | 2018-05-14 | 2020-02-18 | 平安科技(深圳)有限公司 | 服务器、声纹验证的方法及存储介质 |
CN108877814B (zh) * | 2018-05-23 | 2020-12-29 | 中南林业科技大学 | 窨井盖盗损检测方法、智能终端及计算机可读存储介质 |
CN108831484A (zh) * | 2018-05-29 | 2018-11-16 | 广东声将军科技有限公司 | 一种离线的且与语言种类无关的声纹识别方法及装置 |
CN108766445A (zh) * | 2018-05-30 | 2018-11-06 | 苏州思必驰信息科技有限公司 | 声纹识别方法及系统 |
CN108777146A (zh) * | 2018-05-31 | 2018-11-09 | 平安科技(深圳)有限公司 | 语音模型训练方法、说话人识别方法、装置、设备及介质 |
CN108899032A (zh) * | 2018-06-06 | 2018-11-27 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、计算机设备及存储介质 |
CN108806716A (zh) * | 2018-06-15 | 2018-11-13 | 想象科技(北京)有限公司 | 用于基于情感框架的计算机化匹配的方法与装置 |
CN108776795A (zh) * | 2018-06-20 | 2018-11-09 | 邯郸学院 | 用户身份识别方法、装置及终端设备 |
CN108847234B (zh) * | 2018-06-28 | 2020-10-30 | 广州华多网络科技有限公司 | 唇语合成方法、装置、电子设备及存储介质 |
CN108899037B (zh) * | 2018-07-05 | 2024-01-26 | 平安科技(深圳)有限公司 | 动物声纹特征提取方法、装置及电子设备 |
CN110797008B (zh) * | 2018-07-16 | 2024-03-29 | 阿里巴巴集团控股有限公司 | 一种远场语音识别方法、语音识别模型训练方法和服务器 |
CN109308903B (zh) * | 2018-08-02 | 2023-04-25 | 平安科技(深圳)有限公司 | 语音模仿方法、终端设备及计算机可读存储介质 |
CN109166586B (zh) * | 2018-08-02 | 2023-07-07 | 平安科技(深圳)有限公司 | 一种识别说话人的方法及终端 |
CN108847245B (zh) * | 2018-08-06 | 2020-06-23 | 北京海天瑞声科技股份有限公司 | 语音检测方法和装置 |
CN109036437A (zh) * | 2018-08-14 | 2018-12-18 | 平安科技(深圳)有限公司 | 口音识别方法、装置、计算机装置及计算机可读存储介质 |
CN109102799B (zh) * | 2018-08-17 | 2023-01-24 | 信阳师范学院 | 一种基于频域系数对数和的语音端点检测方法 |
CN109147146B (zh) * | 2018-08-21 | 2022-04-12 | 平安科技(深圳)有限公司 | 语音取号的方法及终端设备 |
CN110858290B (zh) * | 2018-08-24 | 2023-10-17 | 比亚迪股份有限公司 | 驾驶员异常行为识别方法、装置、设备及存储介质 |
CN108847253B (zh) * | 2018-09-05 | 2023-06-13 | 平安科技(深圳)有限公司 | 车辆型号识别方法、装置、计算机设备及存储介质 |
CN110895935B (zh) * | 2018-09-13 | 2023-10-27 | 阿里巴巴集团控股有限公司 | 语音识别方法、系统、设备和介质 |
CN109285551B (zh) * | 2018-09-18 | 2023-05-12 | 上海海事大学 | 基于wmfcc和dnn的帕金森患者声纹识别方法 |
CN109065069B (zh) | 2018-10-10 | 2020-09-04 | 广州市百果园信息技术有限公司 | 一种音频检测方法、装置、设备及存储介质 |
CN109346107B (zh) * | 2018-10-10 | 2022-09-30 | 中山大学 | 一种基于lstm的独立说话人语音发音逆求解的方法 |
CN109257362A (zh) * | 2018-10-11 | 2019-01-22 | 平安科技(深圳)有限公司 | 声纹验证的方法、装置、计算机设备以及存储介质 |
CN109256147B (zh) * | 2018-10-30 | 2022-06-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频节拍检测方法、装置及存储介质 |
CN109545228A (zh) * | 2018-12-14 | 2019-03-29 | 厦门快商通信息技术有限公司 | 一种端到端说话人分割方法及系统 |
CN111354367B (zh) * | 2018-12-24 | 2023-06-23 | 中国移动通信有限公司研究院 | 一种语音处理方法、装置及计算机存储介质 |
CN111415654B (zh) * | 2019-01-07 | 2023-12-08 | 北京嘀嘀无限科技发展有限公司 | 一种音频识别方法和装置、以及声学模型训练方法和装置 |
CN111613231A (zh) * | 2019-02-26 | 2020-09-01 | 广州慧睿思通信息科技有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
CN110010133A (zh) * | 2019-03-06 | 2019-07-12 | 平安科技(深圳)有限公司 | 基于短文本的声纹检测方法、装置、设备及存储介质 |
CN111768761B (zh) * | 2019-03-14 | 2024-03-01 | 京东科技控股股份有限公司 | 一种语音识别模型的训练方法和装置 |
CN110059059B (zh) * | 2019-03-15 | 2024-04-16 | 平安科技(深圳)有限公司 | 语音信息的批量筛选方法、装置、计算机设备及存储介质 |
CN110060677A (zh) * | 2019-04-04 | 2019-07-26 | 平安科技(深圳)有限公司 | 语音遥控器控制方法、装置及计算机可读存储介质 |
CN109903774A (zh) * | 2019-04-12 | 2019-06-18 | 南京大学 | 一种基于角度间隔损失函数的声纹识别方法 |
CN110265035B (zh) * | 2019-04-25 | 2021-08-06 | 武汉大晟极科技有限公司 | 一种基于深度学习的说话人识别方法 |
CN111862985B (zh) * | 2019-05-17 | 2024-05-31 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别装置、方法、电子设备及存储介质 |
CN110276189B (zh) * | 2019-06-27 | 2022-02-11 | 电子科技大学 | 一种基于步态信息的用户身份认证方法 |
CN112420070A (zh) * | 2019-08-22 | 2021-02-26 | 北京峰趣互联网信息服务有限公司 | 自动标注方法、装置、电子设备及计算机可读存储介质 |
CN110767239A (zh) * | 2019-09-20 | 2020-02-07 | 平安科技(深圳)有限公司 | 一种基于深度学习的声纹识别方法、装置及设备 |
CN110570870A (zh) * | 2019-09-20 | 2019-12-13 | 平安科技(深圳)有限公司 | 一种文本无关的声纹识别方法、装置及设备 |
CN110875043B (zh) * | 2019-11-11 | 2022-06-17 | 广州国音智能科技有限公司 | 声纹识别方法、装置、移动终端及计算机可读存储介质 |
CN110660399A (zh) * | 2019-11-11 | 2020-01-07 | 广州国音智能科技有限公司 | 声纹识别的训练方法、装置、终端及计算机存储介质 |
CN110853654B (zh) * | 2019-11-17 | 2021-12-21 | 西北工业大学 | 一种模型生成方法、声纹识别方法及对应装置 |
CN111048072A (zh) * | 2019-11-21 | 2020-04-21 | 中国南方电网有限责任公司 | 一种应用于电力企业的声纹识别方法 |
CN111862953B (zh) * | 2019-12-05 | 2023-08-22 | 北京嘀嘀无限科技发展有限公司 | 语音识别模型的训练方法、语音识别方法及装置 |
CN111161744B (zh) * | 2019-12-06 | 2023-04-28 | 华南理工大学 | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 |
CN111145736B (zh) * | 2019-12-09 | 2022-10-04 | 华为技术有限公司 | 语音识别方法及相关设备 |
CN111210840A (zh) * | 2020-01-02 | 2020-05-29 | 厦门快商通科技股份有限公司 | 一种年龄预测方法和装置以及设备 |
CN111312293A (zh) * | 2020-02-17 | 2020-06-19 | 杭州电子科技大学 | 一种基于深度学习对呼吸暂停症患者的识别方法及系统 |
CN111341327A (zh) * | 2020-02-28 | 2020-06-26 | 广州国音智能科技有限公司 | 一种基于粒子群算法的说话人语音识别方法、装置和设备 |
CN111312208A (zh) * | 2020-03-09 | 2020-06-19 | 广州深声科技有限公司 | 一种说话人不相干的神经网络声码器系统 |
CN111341307A (zh) * | 2020-03-13 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN111462762B (zh) * | 2020-03-25 | 2023-02-24 | 清华大学 | 一种说话人向量正则化方法、装置、电子设备和存储介质 |
CN111414511B (zh) * | 2020-03-25 | 2023-08-22 | 合肥讯飞数码科技有限公司 | 自动声纹建模入库方法、装置以及设备 |
CN111508498B (zh) * | 2020-04-09 | 2024-01-30 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
CN111524522B (zh) * | 2020-04-23 | 2023-04-07 | 上海依图网络科技有限公司 | 一种基于多种语音特征融合的声纹识别方法及系统 |
CN111354364B (zh) * | 2020-04-23 | 2023-05-02 | 上海依图网络科技有限公司 | 一种基于rnn聚合方式的声纹识别方法与系统 |
CN111564163B (zh) * | 2020-05-08 | 2023-12-15 | 宁波大学 | 一种基于rnn的多种伪造操作语音检测方法 |
CN111681669A (zh) * | 2020-05-14 | 2020-09-18 | 上海眼控科技股份有限公司 | 一种基于神经网络的语音数据的识别方法与设备 |
CN111583938B (zh) * | 2020-05-19 | 2023-02-03 | 威盛电子股份有限公司 | 电子装置与语音识别方法 |
CN111768801A (zh) * | 2020-06-12 | 2020-10-13 | 瑞声科技(新加坡)有限公司 | 气流杂音消除方法、装置、计算机设备及存储介质 |
CN113948089B (zh) * | 2020-06-30 | 2024-06-14 | 北京猎户星空科技有限公司 | 声纹模型训练和声纹识别方法、装置、设备及介质 |
CN111816205B (zh) * | 2020-07-09 | 2023-06-20 | 中国人民解放军战略支援部队航天工程大学 | 一种基于飞机音频的机型智能识别方法 |
CN111798840B (zh) * | 2020-07-16 | 2023-08-08 | 中移在线服务有限公司 | 语音关键词识别方法和装置 |
CN111883106B (zh) * | 2020-07-27 | 2024-04-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法及装置 |
CN114067834A (zh) * | 2020-07-30 | 2022-02-18 | 中国移动通信集团有限公司 | 一种不良前导音识别方法、装置、存储介质和计算机设备 |
CN111816218B (zh) * | 2020-07-31 | 2024-05-28 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、设备及存储介质 |
CN111951791B (zh) * | 2020-08-26 | 2024-05-17 | 上海依图网络科技有限公司 | 声纹识别模型训练方法、识别方法、电子设备及存储介质 |
CN112163457A (zh) * | 2020-09-03 | 2021-01-01 | 中国联合网络通信集团有限公司 | 一种通信电台识别方法及装置 |
CN112259106B (zh) * | 2020-10-20 | 2024-06-11 | 网易(杭州)网络有限公司 | 声纹识别方法、装置、存储介质及计算机设备 |
CN112259114A (zh) * | 2020-10-20 | 2021-01-22 | 网易(杭州)网络有限公司 | 语音处理方法及装置、计算机存储介质、电子设备 |
CN112347788A (zh) * | 2020-11-06 | 2021-02-09 | 平安消费金融有限公司 | 语料处理方法、装置及存储介质 |
CN112270933B (zh) * | 2020-11-12 | 2024-03-12 | 北京猿力未来科技有限公司 | 一种音频识别方法和装置 |
CN112489677B (zh) * | 2020-11-20 | 2023-09-22 | 平安科技(深圳)有限公司 | 基于神经网络的语音端点检测方法、装置、设备及介质 |
CN112562653B (zh) * | 2020-11-26 | 2023-05-26 | 睿云联(厦门)网络通讯技术有限公司 | 一种基于人类行为经验的离线语音识别学习方法 |
CN112382300A (zh) * | 2020-12-14 | 2021-02-19 | 北京远鉴信息技术有限公司 | 声纹鉴定方法、模型训练方法、装置、设备及存储介质 |
CN112669820B (zh) * | 2020-12-16 | 2023-08-04 | 平安科技(深圳)有限公司 | 基于语音识别的考试作弊识别方法、装置及计算机设备 |
CN112637428A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 无效通话判断方法、装置、计算机设备及存储介质 |
CN112750446B (zh) * | 2020-12-30 | 2024-05-24 | 标贝(青岛)科技有限公司 | 语音转换方法、装置和系统及存储介质 |
CN112822186B (zh) * | 2020-12-31 | 2023-04-28 | 国网江苏省电力有限公司信息通信分公司 | 基于语音认证的电力系统ip调度台通知广播方法及系统 |
CN112883812B (zh) * | 2021-01-22 | 2024-05-03 | 广东白云学院 | 一种基于深度学习的肺音分类方法、系统及存储介质 |
CN112951245B (zh) * | 2021-03-09 | 2023-06-16 | 江苏开放大学(江苏城市职业学院) | 一种融入静态分量的动态声纹特征提取方法 |
CN112786059A (zh) * | 2021-03-11 | 2021-05-11 | 合肥市清大创新研究院有限公司 | 一种基于人工智能的声纹特征提取方法及装置 |
CN113178196B (zh) * | 2021-04-20 | 2023-02-07 | 平安国际融资租赁有限公司 | 音频数据提取方法、装置、计算机设备和存储介质 |
CN113299295B (zh) * | 2021-05-11 | 2022-12-30 | 支付宝(杭州)信息技术有限公司 | 声纹编码网络的训练方法及装置 |
CN113271430B (zh) * | 2021-05-13 | 2022-11-18 | 中国联合网络通信集团有限公司 | 网络视频会议中防干扰方法、系统、设备及存储介质 |
CN113269084B (zh) * | 2021-05-19 | 2022-11-01 | 上海外国语大学 | 基于观众群体情感神经相似性的影视剧市场预测方法及系统 |
CN113393832B (zh) * | 2021-06-03 | 2023-10-10 | 清华大学深圳国际研究生院 | 一种基于全局情感编码的虚拟人动画合成方法及系统 |
CN113421573B (zh) * | 2021-06-18 | 2024-03-19 | 马上消费金融股份有限公司 | 身份识别模型训练方法、身份识别方法及装置 |
CN113593581B (zh) * | 2021-07-12 | 2024-04-19 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
CN113611314A (zh) * | 2021-08-03 | 2021-11-05 | 成都理工大学 | 一种说话人识别方法及系统 |
CN113488059A (zh) * | 2021-08-13 | 2021-10-08 | 广州市迪声音响有限公司 | 一种声纹识别方法及系统 |
CN113804767B (zh) * | 2021-08-16 | 2022-11-04 | 东南大学 | 一种螺栓失效检测方法 |
CN113838469A (zh) * | 2021-09-09 | 2021-12-24 | 竹间智能科技(上海)有限公司 | 一种身份识别方法、系统及存储介质 |
CN114495948B (zh) * | 2022-04-18 | 2022-09-09 | 北京快联科技有限公司 | 一种声纹识别方法及装置 |
CN114894285A (zh) * | 2022-04-29 | 2022-08-12 | 广东科达计量科技有限公司 | 一种具有全方位立体识别功能的无人值守地磅称重系统 |
CN115171700B (zh) * | 2022-06-13 | 2024-04-26 | 武汉大学 | 一种基于脉冲神经网络的声纹识别语音助手方法 |
CN115472168B (zh) * | 2022-08-24 | 2024-04-19 | 武汉理工大学 | 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备 |
CN117475360B (zh) * | 2023-12-27 | 2024-03-26 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法 |
CN117577137B (zh) * | 2024-01-15 | 2024-05-28 | 宁德时代新能源科技股份有限公司 | 切刀健康评估方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105139864A (zh) * | 2015-08-17 | 2015-12-09 | 北京天诚盛业科技有限公司 | 语音识别方法和装置 |
WO2016042295A1 (en) * | 2014-09-16 | 2016-03-24 | The University Of Hull | Speech synthesis from detected speech articulator movement |
CN105810193A (zh) * | 2015-01-19 | 2016-07-27 | 三星电子株式会社 | 训练语言模型的方法和设备及识别语言的方法和设备 |
WO2016172871A1 (zh) * | 2015-04-29 | 2016-11-03 | 华侃如 | 基于循环神经网络的语音合成方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8345962B2 (en) * | 2007-11-29 | 2013-01-01 | Nec Laboratories America, Inc. | Transfer learning methods and systems for feed-forward visual recognition systems |
US8504361B2 (en) * | 2008-02-07 | 2013-08-06 | Nec Laboratories America, Inc. | Deep neural networks and methods for using same |
CN102446505A (zh) * | 2010-10-15 | 2012-05-09 | 盛乐信息技术(上海)有限公司 | 联合因子分析方法及联合因子分析声纹认证方法 |
CN102479511A (zh) * | 2010-11-23 | 2012-05-30 | 盛乐信息技术(上海)有限公司 | 一种大规模声纹认证方法及其系统 |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN102820033B (zh) * | 2012-08-17 | 2013-12-04 | 南京大学 | 一种声纹识别方法 |
CN103971690A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
US9858919B2 (en) * | 2013-11-27 | 2018-01-02 | International Business Machines Corporation | Speaker adaptation of neural network acoustic models using I-vectors |
US9721561B2 (en) * | 2013-12-05 | 2017-08-01 | Nuance Communications, Inc. | Method and apparatus for speech recognition using neural networks with speaker adaptation |
CN103873254B (zh) * | 2014-03-03 | 2017-01-25 | 杭州电子科技大学 | 一种人类声纹生物密钥生成方法 |
CN104008751A (zh) * | 2014-06-18 | 2014-08-27 | 周婷婷 | 一种基于bp神经网络的说话人识别方法 |
JP6453681B2 (ja) * | 2015-03-18 | 2019-01-16 | 株式会社東芝 | 演算装置、演算方法およびプログラム |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
CN105513597B (zh) * | 2015-12-30 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
CN105869644A (zh) * | 2016-05-25 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 基于深度学习的声纹认证方法和装置 |
CN106228045A (zh) * | 2016-07-06 | 2016-12-14 | 吴本刚 | 一种身份识别系统 |
-
2016
- 2016-12-15 CN CN201611158891.9A patent/CN107610707B/zh active Active
-
2017
- 2017-08-30 WO PCT/CN2017/099707 patent/WO2018107810A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016042295A1 (en) * | 2014-09-16 | 2016-03-24 | The University Of Hull | Speech synthesis from detected speech articulator movement |
CN105810193A (zh) * | 2015-01-19 | 2016-07-27 | 三星电子株式会社 | 训练语言模型的方法和设备及识别语言的方法和设备 |
WO2016172871A1 (zh) * | 2015-04-29 | 2016-11-03 | 华侃如 | 基于循环神经网络的语音合成方法 |
CN105139864A (zh) * | 2015-08-17 | 2015-12-09 | 北京天诚盛业科技有限公司 | 语音识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107610707A (zh) | 2018-01-19 |
WO2018107810A1 (zh) | 2018-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107610707B (zh) | 一种声纹识别方法及装置 | |
CN111276131B (zh) | 一种基于深度神经网络的多类声学特征整合方法和系统 | |
CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
Tirumala et al. | Speaker identification features extraction methods: A systematic review | |
US9685155B2 (en) | Method for distinguishing components of signal of environment | |
Hansen et al. | Speaker recognition by machines and humans: A tutorial review | |
CN107731233B (zh) | 一种基于rnn的声纹识别方法 | |
CN104900235B (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
CN110289003A (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
CN107221320A (zh) | 训练声学特征提取模型的方法、装置、设备和计算机存储介质 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN101923855A (zh) | 文本无关的声纹识别系统 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
Ganchev | Speaker recognition | |
CN111666996A (zh) | 一种基于attention机制的高精度设备源识别方法 | |
Karthikeyan | Adaptive boosted random forest-support vector machine based classification scheme for speaker identification | |
CN116153337B (zh) | 合成语音溯源取证方法及装置、电子设备及存储介质 | |
CN112992155A (zh) | 一种基于残差神经网络的远场语音说话人识别方法及装置 | |
Khetri et al. | Automatic speech recognition for marathi isolated words | |
Zailan et al. | Comparative analysis of LPC and MFCC for male speaker recognition in text-independent context | |
Al-Rawahy et al. | Text-independent speaker identification system based on the histogram of DCT-cepstrum coefficients | |
Gade et al. | Hybrid Deep Convolutional Neural Network based Speaker Recognition for Noisy Speech Environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1242040 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |