CN111149154B - 一种声纹识别方法、装置、设备和储存介质 - Google Patents
一种声纹识别方法、装置、设备和储存介质 Download PDFInfo
- Publication number
- CN111149154B CN111149154B CN201980003324.1A CN201980003324A CN111149154B CN 111149154 B CN111149154 B CN 111149154B CN 201980003324 A CN201980003324 A CN 201980003324A CN 111149154 B CN111149154 B CN 111149154B
- Authority
- CN
- China
- Prior art keywords
- boltzmann machine
- bias
- spectrogram
- data set
- svm classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims description 53
- 238000005457 optimization Methods 0.000 claims description 31
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种声纹识别方法、装置、设备和储存介质,其中方法包括:获取待识别语音;提取待识别语音的第一语谱图;将第一语谱图输入到预置受限玻尔兹曼机中进行特征提取;将提取的特征输入到预置SVM分类器中,得到待识别语音的识别结果。本申请通过预置受限玻尔兹曼机对提取的样本语音的第一语谱图进行特征提取,将提取的特征输入到预置SVM分类器中进行分类识别,解决了现有的声纹识别方法通过人工比对频谱图进行识别,存在的识别效率低和准确率低的技术问题。
Description
技术领域
本申请涉及声纹识别技术领域,尤其涉及一种声纹识别方法、装置、设备和储存介质。
背景技术
声纹识别是指通过未知说话人或不确定说话人的语音声学特征与已知说话人的语音声学特征进行综合分析比对,做出两者是否同一的结论的过程。现有的声纹识别方法通常是将样本语音的频谱图与检材语音的频谱图进行人工比对,得到声纹识别结果,该方法存在效率低和识别准确率低的问题。
发明内容
本申请提供了一种声纹识别方法、装置、设备和储存介质,用于解决现有的声纹识别方法通过人工比对频谱图进行识别,存在的识别效率低和准确率低的技术问题。
有鉴于此,本申请第一方面提供了一种声纹识别方法,包括:
获取待识别语音;
提取所述待识别语音的第一语谱图;
将所述第一语谱图输入到预置受限玻尔兹曼机中进行特征提取;
将提取的特征输入到预置SVM分类器中,得到所述待识别语音的识别结果。
优选地,所述将所述第一语谱图输入到预置受限玻尔兹曼机中进行特征提取,之前还包括:
获取训练样本语音数据集;
提取所述训练样本语音数据集中的训练样本语音的第二语谱图;
将所述第二语谱图输入到受限玻尔兹曼机,对所述受限玻尔兹曼机进行优化训练,得到目标参数,所述目标参数包括权重参数、可视单元的偏置和隐藏单元的偏置;
基于多目标优化算法对所述隐藏单元的偏置进行优化,得到优化后的所述受限玻尔兹曼机;
将所述第二语谱图输入到优化后的所述受限玻尔兹曼机进行特征提取,使得优化后的所述受限玻尔兹曼机输出声纹特征;
将所述声纹特征输入到SVM分类器中,对所述SVM分类器进行训练;
计算所述SVM分类器对训练样本语音数据集的识别率;
当所述识别率小于阈值时,返回所述将所述第二语谱图输入到受限玻尔兹曼机,对所述受限玻尔兹曼机进行优化训练,得到目标参数的步骤;
当所述识别率大于或等于所述阈值时,得到训练好的所述受限玻尔兹曼机和训练好的所述SVM分类器,将训练好的所述受限玻尔兹曼机作为所述预置受限玻尔兹曼机,将训练好的所述SVM分类器作为所述预置SVM分类器。
优选地,所述基于多目标优化算法对所述隐藏单元的偏置进行优化,得到优化后的所述受限玻尔兹曼机,包括:
在所述隐藏单元的偏置中随机选取若干个偏置参数,生成第一偏置数据集;
基于多目标优化算法对所述第一偏置数据集进行优化,得到第二偏置数据集;
基于所述第二偏置数据集对所述第一偏置数据集中的偏置参数进行更新,得到优化后的所述受限玻尔兹曼机。
优选地,所述提取所述待识别语音的第一语谱图,之前还包括:
对所述待识别语音进行预处理。
本申请第二方面提供了一种声纹识别装置,包括:
第一获取模块,用于获取待识别语音;
第一提取模块,用于提取所述待识别语音的第一语谱图;
第二提取模块,用于将所述第一语谱图输入到预置受限玻尔兹曼机中进行特征提取;
识别模块,用于将提取的特征输入到预置SVM分类器中,得到所述待识别语音的识别结果。
优选地,还包括:
第二获取模块,用于获取训练样本语音数据集;
第三提取模块,用于提取所述训练样本语音数据集中的训练样本语音的第二语谱图;
第一训练模块,用于将所述第二语谱图输入到受限玻尔兹曼机,对所述受限玻尔兹曼机进行优化训练,得到目标参数,所述目标参数包括权重参数、可视单元的偏置和隐藏单元的偏置;
优化模块,用于基于多目标优化算法对所述隐藏单元的偏置进行优化,得到优化后的所述受限玻尔兹曼机;
第四提取模块,用于将所述第二语谱图输入到优化后的所述受限玻尔兹曼机进行特征提取,使得优化后的所述受限玻尔兹曼机输出声纹特征;
第二训练模块,用于将所述声纹特征输入到SVM分类器中,对所述SVM分类器进行训练;
计算模块,用于计算所述SVM分类器对训练样本语音数据集的识别率;
触发模块,用于当所述识别率小于阈值时,触发所述第一训练模块;
输出模块,用于当所述识别率大于或等于所述阈值时,得到训练好的所述受限玻尔兹曼机和训练好的所述SVM分类器,将训练好的所述受限玻尔兹曼机作为所述预置受限玻尔兹曼机,将训练好的所述SVM分类器作为所述预置SVM分类器。
优选地,所述优化模块具体用于:
在所述隐藏单元的偏置中随机选取若干个偏置参数,生成第一偏置数据集;
基于多目标优化算法对所述第一偏置数据集进行优化,得到第二偏置数据集;
基于所述第二偏置数据集对所述第一偏置数据集中的偏置参数进行更新,得到优化后的所述受限玻尔兹曼机。
优选地,还包括:
预处理模块,用于对所述待识别语音进行预处理。
本申请第三方面提供了一种声纹识别设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令第一方面任一种所述的声纹识别方法。
本申请第四方面提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面任一种所述的声纹识别方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种声纹识别方法,包括:获取待识别语音;提取待识别语音的第一语谱图;将第一语谱图输入到预置受限玻尔兹曼机中进行特征提取;将提取的特征输入到预置SVM分类器中,得到待识别语音的识别结果。本申请通过预置受限玻尔兹曼机对提取的样本语音的第一语谱图进行特征提取,将提取的特征输入到预置SVM分类器中进行分类识别,不需要通过人工比对频谱图的识别方式进行声纹识别,解决了现有的声纹识别方法通过人工比对频谱图进行识别,存在的识别效率低和准确率低的技术问题。
附图说明
图1为本申请实施例中提供的一种声纹识别方法的一个流程示意图;
图2为本申请实施例中提供的一种声纹识别方法的另一个流程示意图;
图3为本申请实施例中提供的一种声纹识别装置的一个结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种声纹识别方法的一个实施例,包括:
步骤101、获取样本语音。
需要说明的是,可以通过语音录制设备获得样本语音。
步骤102、提取待识别语音的第一语谱图。
需要说明的是,可以通过语谱图仪获取待识别语音的第一语谱图。
步骤103、将第一语谱图输入到预置受限玻尔兹曼机中进行特征提取。
需要说明的是,其中,预置受限玻尔兹曼机可以是训练好的受限玻尔兹曼机。
步骤104、将提取的特征输入到预置SVM分类器中,得到待识别语音的识别结果。
需要说明的是,预置SVM分类器可以是训练好的SVM分类器。
本申请实施例中的声纹识别方法,通过预置受限玻尔兹曼机对提取的样本语音的第一语谱图进行特征提取,将提取的特征输入到预置SVM分类器中进行分类识别,解决了现有的声纹识别方法通过人工比对频谱图进行识别,存在的识别效率低和准确率低的技术问题。
为了便于理解,请参阅图2,本申请提供的一种声纹识别方法的另一个实施例,包括:
步骤201、获取训练样本语音数据集。
需要说明的是,可以在声纹识别数据库中获取训练样本语音数据集。
步骤202、提取训练样本语音数据集中的训练样本语音的第二语谱图。
需要说明的是,可以通过语谱图仪获取训练样本语音的第二语谱图,在提取第二语谱图之前,可以对训练样本语音数据集中的训练样本语音进行去噪预处理,降低环境噪声或通道噪声对识别结果的影响。
步骤203、将第二语谱图输入到受限玻尔兹曼机,对受限玻尔兹曼机进行优化训练,得到目标参数。
需要说明的是,目标参数包括权重参数、可视单元的偏置和隐藏单元的偏置。
步骤204、基于多目标优化算法对隐藏单元的偏置进行优化,得到优化后的受限玻尔兹曼机。
需要说明的是,在隐藏单元的偏置中随机选取若干个偏置参数,生成第一偏置数据集;基于多目标优化算法对第一偏置数据集进行优化,得到第二偏置数据集,其中,采用多目标优化算法对数据集进行优化属于现有技术,在此,不再对优化的具体过程进行赘述;基于第二偏置数据集对第一偏置数据集中的偏置参数进行更新,具体是将第二偏置数据集的配置参数替换第一偏置数据集中的偏置参数,得到优化后的受限玻尔兹曼机。
步骤205、将第二语谱图输入到优化后的受限玻尔兹曼机进行特征提取,使得优化后的受限玻尔兹曼机输出声纹特征。
需要说明的是,采用优化后的受限玻尔兹曼机进行特征提取,提取的特征有利于提高识别率。
步骤206、将声纹特征输入到SVM分类器中,对SVM分类器进行训练。
步骤207、计算SVM分类器对训练样本语音数据集的识别率。
需要说明的是,识别率为正确识别的训练样本语音数量与训练样本语音数据集的数量的比值。
步骤208、当识别率小于阈值时,返回步骤203,当识别率大于或等于阈值时,得到训练好的受限玻尔兹曼机和训练好的SVM分类器,将训练好的受限玻尔兹曼机作为预置受限玻尔兹曼机,将训练好的SVM分类器作为预置SVM分类器。
需要说明的是,需要说明的是,当识别率小于阈值时,说明受限玻尔兹曼机和SVM分类器均未训练好,返回步骤203,继续迭代训练;当识别率大于或等于阈值时,得到训练好的受限玻尔兹曼机和训练好的SVM分类器,训练好的受限玻尔兹曼机和训练好的SVM分类器可以用于声纹识别。
步骤209、获取样本语音。
需要说明的是,可以通过语音录制设备获得样本语音。
步骤210、提取待识别语音的第一语谱图。
需要说明的是,可以通过语谱图仪获取待识别语音的第一语谱图,在提取待识别语音的第一语谱图前可以对待识别语音进行去噪预处理,以降低噪声对识别结果的影响。
步骤211、将第一语谱图输入到预置受限玻尔兹曼机中进行特征提取。
步骤212、将提取的特征输入到预置SVM分类器中,得到待识别语音的识别结果。
需要说明的是,步骤211和步骤212与步骤103和步骤104一致,在此不再进行赘述。
为了便于理解,请参阅图3,本申请提供的一种声纹识别装置的一个实施例,包括:
第一获取模块301,用于获取待识别语音。
第一提取模块302,用于提取待识别语音的第一语谱图。
第二提取模块303,用于将第一语谱图输入到预置受限玻尔兹曼机中进行特征提取。
识别模块304,用于将提取的特征输入到预置SVM分类器中,得到待识别语音的识别结果。
进一步地,还包括:
第二获取模块305,用于获取训练样本语音数据集。
第三提取模块306,用于提取训练样本语音数据集中的训练样本语音的第二语谱图。
第一训练模块307,用于将第二语谱图输入到受限玻尔兹曼机,对受限玻尔兹曼机进行优化训练,得到目标参数,目标参数包括权重参数、可视单元的偏置和隐藏单元的偏置。
优化模块308,用于基于多目标优化算法对隐藏单元的偏置进行优化,得到优化后的所述受限玻尔兹曼机。
第四提取模块309,用于将第二语谱图输入到优化后的受限玻尔兹曼机进行特征提取,使得优化后的受限玻尔兹曼机输出声纹特征。
第二训练模块310,用于将声纹特征输入到SVM分类器中,对SVM分类器进行训练。
计算模块311,用于计算SVM分类器对训练样本语音数据集的识别率。
触发模块312,用于当识别率小于阈值时,触发第一训练模块。
输出模块313,用于当识别率大于或等于阈值时,得到训练好的受限玻尔兹曼机和训练好的SVM分类器,将训练好的受限玻尔兹曼机作为预置受限玻尔兹曼机,将训练好的SVM分类器作为预置SVM分类器。
进一步地,优化模块308具体用于:
在隐藏单元的偏置中随机选取若干个偏置参数,生成第一偏置数据集;
基于多目标优化算法对第一偏置数据集进行优化,得到第二偏置数据集;
基于第二偏置数据集对第一偏置数据集中的偏置参数进行更新,得到优化后的受限玻尔兹曼机。
进一步地,还包括:
预处理模块314,用于对待识别语音进行预处理。
本申请提供了一种声纹识别设备的一个实施例,设备包括处理器以及存储器;
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行前述声纹识别方法实施例中的声纹识别方法。
本申请提供了一种计算机可读存储介质的一个实施例,计算机可读存储介质用于存储程序代码,程序代码用于执行前述声纹识别方法实施例中的声纹识别方法
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (6)
1.一种声纹识别方法,其特征在于,包括:
获取待识别语音;
提取所述待识别语音的第一语谱图;
将所述第一语谱图输入到预置受限玻尔兹曼机中进行特征提取;
将提取的特征输入到预置SVM分类器中,得到所述待识别语音的识别结果;
所述将所述第一语谱图输入到预置受限玻尔兹曼机中进行特征提取,之前还包括:
获取训练样本语音数据集;
提取所述训练样本语音数据集中的训练样本语音的第二语谱图;
将所述第二语谱图输入到受限玻尔兹曼机,对所述受限玻尔兹曼机进行优化训练,得到目标参数,所述目标参数包括权重参数、可视单元的偏置和隐藏单元的偏置;
基于多目标优化算法对所述隐藏单元的偏置进行优化,得到优化后的所述受限玻尔兹曼机;
将所述第二语谱图输入到优化后的所述受限玻尔兹曼机进行特征提取,使得优化后的所述受限玻尔兹曼机输出声纹特征;
将所述声纹特征输入到SVM分类器中,对所述SVM分类器进行训练;
计算所述SVM分类器对训练样本语音数据集的识别率;
当所述识别率小于阈值时,返回所述将所述第二语谱图输入到受限玻尔兹曼机,对所述受限玻尔兹曼机进行优化训练,得到目标参数的步骤;
当所述识别率大于或等于所述阈值时,得到训练好的所述受限玻尔兹曼机和训练好的所述SVM分类器,将训练好的所述受限玻尔兹曼机作为所述预置受限玻尔兹曼机,将训练好的所述SVM分类器作为所述预置SVM分类器;
所述基于多目标优化算法对所述隐藏单元的偏置进行优化,得到优化后的所述受限玻尔兹曼机,包括:
在所述隐藏单元的偏置中随机选取若干个偏置参数,生成第一偏置数据集;
基于多目标优化算法对所述第一偏置数据集进行优化,得到第二偏置数据集;
基于所述第二偏置数据集对所述第一偏置数据集中的偏置参数进行更新,得到优化后的所述受限玻尔兹曼机。
2.根据权利要求1所述的声纹识别方法,其特征在于,所述提取所述待识别语音的第一语谱图,之前还包括:
对所述待识别语音进行预处理。
3.一种声纹识别装置,其特征在于,包括:
第一获取模块,用于获取待识别语音;
第一提取模块,用于提取所述待识别语音的第一语谱图;
第二提取模块,用于将所述第一语谱图输入到预置受限玻尔兹曼机中进行特征提取;
识别模块,用于将提取的特征输入到预置SVM分类器中,得到所述待识别语音的识别结果;
第二获取模块,用于获取训练样本语音数据集;
第三提取模块,用于提取所述训练样本语音数据集中的训练样本语音的第二语谱图;
第一训练模块,用于将所述第二语谱图输入到受限玻尔兹曼机,对所述受限玻尔兹曼机进行优化训练,得到目标参数,所述目标参数包括权重参数、可视单元的偏置和隐藏单元的偏置;
优化模块,用于基于多目标优化算法对所述隐藏单元的偏置进行优化,得到优化后的所述受限玻尔兹曼机;
第四提取模块,用于将所述第二语谱图输入到优化后的所述受限玻尔兹曼机进行特征提取,使得优化后的所述受限玻尔兹曼机输出声纹特征;
第二训练模块,用于将所述声纹特征输入到SVM分类器中,对所述SVM分类器进行训练;
计算模块,用于计算所述SVM分类器对训练样本语音数据集的识别率;
触发模块,用于当所述识别率小于阈值时,触发所述第一训练模块;
输出模块,用于当所述识别率大于或等于所述阈值时,得到训练好的所述受限玻尔兹曼机和训练好的所述SVM分类器,将训练好的所述受限玻尔兹曼机作为所述预置受限玻尔兹曼机,将训练好的所述SVM分类器作为所述预置SVM分类器;
所述优化模块具体用于:
在所述隐藏单元的偏置中随机选取若干个偏置参数,生成第一偏置数据集;
基于多目标优化算法对所述第一偏置数据集进行优化,得到第二偏置数据集;
基于所述第二偏置数据集对所述第一偏置数据集中的偏置参数进行更新,得到优化后的所述受限玻尔兹曼机。
4.根据权利要求3所述的声纹识别装置,其特征在于,还包括:
预处理模块,用于对所述待识别语音进行预处理。
5.一种声纹识别设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-2任一项所述的声纹识别方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-2任一项所述的声纹识别方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2019/127967 WO2021127994A1 (zh) | 2019-12-24 | 2019-12-24 | 一种声纹识别方法、装置、设备和储存介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111149154A CN111149154A (zh) | 2020-05-12 |
CN111149154B true CN111149154B (zh) | 2021-08-24 |
Family
ID=70525106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980003324.1A Active CN111149154B (zh) | 2019-12-24 | 2019-12-24 | 一种声纹识别方法、装置、设备和储存介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111149154B (zh) |
WO (1) | WO2021127994A1 (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510979A (zh) * | 2017-02-27 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种混合频率声学识别模型的训练方法及语音识别方法 |
CN108831486A (zh) * | 2018-05-25 | 2018-11-16 | 南京邮电大学 | 基于dnn与gmm模型的说话人识别方法 |
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9378733B1 (en) * | 2012-12-19 | 2016-06-28 | Google Inc. | Keyword detection without decoding |
-
2019
- 2019-12-24 CN CN201980003324.1A patent/CN111149154B/zh active Active
- 2019-12-24 WO PCT/CN2019/127967 patent/WO2021127994A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510979A (zh) * | 2017-02-27 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种混合频率声学识别模型的训练方法及语音识别方法 |
CN108831486A (zh) * | 2018-05-25 | 2018-11-16 | 南京邮电大学 | 基于dnn与gmm模型的说话人识别方法 |
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
Non-Patent Citations (4)
Title |
---|
SVM Based Speaker Verification using a GMM Supervector Kernel and NAP Variability Compensation;W.M. Campbell等;《2006 IEEE International Conference on Acoustics Speech and Signal Processing Proceedings》;20060724;第I97-I100页 * |
一种基于受限玻尔兹曼机的说话人特征提取算法;酆勇 等;《仪器仪表学报》;20160229;第37卷(第2期);第256-262页 * |
基于深度学习的说话人识别技术研究;郭万鹏;《中国优秀硕士学位论文全文数据库信息科技辑》;20190915(第9期);第I138-858页 * |
基于特征语谱图和自适应聚类SOM的快速说话人识别;贾艳洁 等;《科学技术与工程》;20190531(第15期);第211-218页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111149154A (zh) | 2020-05-12 |
WO2021127994A1 (zh) | 2021-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN107492382B (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
CN111243602B (zh) | 基于性别、国籍和情感信息的声纹识别方法 | |
JP6303971B2 (ja) | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム | |
CN107229627B (zh) | 一种文本处理方法、装置及计算设备 | |
CN107305774A (zh) | 语音检测方法和装置 | |
CN112712809B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN111445898B (zh) | 语种识别方法、装置、电子设备和存储介质 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN110164454B (zh) | 一种基于共振峰偏差的音频同一性判别方法及装置 | |
CN106991312B (zh) | 基于声纹识别的互联网反欺诈认证方法 | |
CN108520752A (zh) | 一种声纹识别方法和装置 | |
CN111816185A (zh) | 一种对混合语音中说话人的识别方法及装置 | |
CN111108552A (zh) | 一种声纹同一性鉴定方法和相关装置 | |
CN110689885B (zh) | 机器合成语音识别方法、装置、存储介质及电子设备 | |
Meyer et al. | Anonymizing speech with generative adversarial networks to preserve speaker privacy | |
CN111108551B (zh) | 一种声纹鉴定方法和相关装置 | |
CN111108554A (zh) | 一种基于语音降噪的声纹识别方法和相关装置 | |
CN106710588B (zh) | 语音数据句类识别方法和装置及系统 | |
Shivakumar et al. | Simplified and supervised i-vector modeling for speaker age regression | |
CN111133508A (zh) | 一种可供比对音素选取方法和装置 | |
CN108665901B (zh) | 一种音素/音节提取方法及装置 | |
CN111149154B (zh) | 一种声纹识别方法、装置、设备和储存介质 | |
CN113112992B (zh) | 一种语音识别方法、装置、存储介质和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |