CN109961794B - 一种基于模型聚类的提高说话人识别效率的方法 - Google Patents
一种基于模型聚类的提高说话人识别效率的方法 Download PDFInfo
- Publication number
- CN109961794B CN109961794B CN201910031907.7A CN201910031907A CN109961794B CN 109961794 B CN109961794 B CN 109961794B CN 201910031907 A CN201910031907 A CN 201910031907A CN 109961794 B CN109961794 B CN 109961794B
- Authority
- CN
- China
- Prior art keywords
- model
- subset
- voice
- clustering
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 238000001514 detection method Methods 0.000 claims abstract description 7
- 239000000203 mixture Substances 0.000 claims abstract description 7
- 238000009432 framing Methods 0.000 claims abstract description 5
- 230000001186 cumulative effect Effects 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 abstract description 5
- 238000009825 accumulation Methods 0.000 abstract 1
- 108090000623 proteins and genes Proteins 0.000 abstract 1
- 238000011002 quantification Methods 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提出一种基于模型聚类的提高说话人识别效率方法。在训练阶段首先构建一个语音训练集,对输入的语音数据样本进行预处理,预处理过程包括采样和量化、预加重、分帧、加窗以及端点检测,然后基于不同性别的基因频率累计分布函数,将语音训练集划分为男性子集和女性子集。采用基于融合梅尔频率倒谱系数和共振峰频率特征参数的方法,为子集中的每个语音数据样本建立一个高斯混合模型,然后采用聚类算法分别将两个子集中的模型进行基于地区口音的聚类。识别阶段首先判别所属的性别子集,再根据似然度最大原则判断所属的类别,最后与类别中所有模型进行匹配,识别说话人身份。本发明实现了一种分层的说话人识别方法,能够满足某些环境下对识别系统实时性的要求。
Description
技术领域
本发明属于语音识别技术领域,具体涉及一种基于模型聚类的提高说话人识别效率的方法。
背景技术
生物特征识别技术是利用人的固有生理特征来进行身份认证的一项技术,例如常见的指纹识别、人脸识别等。语音识别作为生物特征识别技术的一种,以语音作为识别特征,不仅具有非接触性、自然性等优点,而且识别设备成本低。语音识别技术还可以进行远程认证,例如语音通过网络或者电话进行传输识别认证。
说话人识别是分析语音中包含的说话人信息来识别说话人身份的技术。因其便捷安全的优点,在各种安全领域得到快速发展,例如声纹密码、司法鉴定和军事监控等领域。传统的说话人识别技术以研究识别系统的正确率以及鲁棒性为重点,但随着说话人识别系统中注册人数的增加,我们需要考虑如何提高说话人识别系统的效率,尤其是在某些特定环境下对说话人身份的实时识别。传统识别方法需要将待识别语音信号与样本库中所有模型进行一一匹配,随着样本库的模型增多,匹配时耗费的时间变长,从而导致系统的识别速率慢,实时性难以得到保证。因此,亟需在复杂环境下实现一种有效的说话人实时识别方法。基于此,设计了一种基于模型聚类的提高说话人识别效率的方法。
发明内容
本发明为解决上述问题,提出了一种基于模型聚类的提高说话人识别效率的方法。具体步骤如下:
步骤一、在训练阶段构建一个语音训练集,对输入的语音数据样本进行预处理后提取特征参数,将语音数据样本进行基于性别分类,得到男性样本子集和女性样本子集。
1、收集多个说话人的语音数据样本,对每个语音数据样本进行预处理。预处理过程包括采样和量化、预加重、分帧、加窗以及端点检测。
2、根据不同性别的基音频率累积密度函数,选取基音累积密度函数不同性别概率相差最大的频率点fT作为阈值频率。对预处理后的每个语音数据样本,计算频率为fT处的累积密度函数值,与阈值进行比较,高于则划分为男性子集,低于则划分为女性子集。
1)利用正态窗函数对语音信号基音频率的概率密度进行估计,然后再对概率密度函数积分,得到不同性别的基音频率累积密度函数。男性的基音累积分布函数Pm(f)和女性的基音累积分布函数Pf(f)有较大的差异。
3)对预处理后的每个语音数据样本,计算频率为fT处的累积密度函数值,再与阈值进行比较,高于则划分为男性子集,低于则划分为女性子集。
步骤二、提取每个子集中的语音数据样本的特征参数,为每个语音数据样本建立一个高斯混合模型(GMM),采用聚类算法将语音训练集中的模型进行基于地区口音的聚类。
1、提取梅尔频率倒谱系数(MFCC):对样本集中的语音信号进行预处理后,首先对每一帧语音信号X(n)进行快速傅里叶变换,然后取模的平方得到能量谱,再通过梅尔频率滤波器将能量转换为梅尔频谱。求得梅尔频谱的对数,得到一组系数,将系数做离散余弦变换(DCT),最终获得梅尔频率倒谱系数的参数。
2、提取共振峰频率特征:采用基于线性预测(LPC)的共振峰频率求取方法,利用求根法计算每帧的共振峰值。首先对输入的语音信号进行预处理,然后求取每帧的LPC系数和功率谱曲线,接着进行求根得到共振峰频率,若满足设定的条件则输出,并提取每帧语音信号前三个共振峰的特征参数。
3、将两个特征参数梅尔频率倒谱系数和共振峰频率进行特征融合,串联组成融合特征,作为混合高斯模型的输入,得到每个语音数据样本的高斯混合模型。高斯混合模型(GMM)是一种状态数为1的连续分布隐马尔科夫模型,它将所描述的事物分成N个高斯子分布,并将它们加权求和得到混合度为N的高斯模型的概率密度函数。该模型训练的本质是根据输入的语音信号的特征参数,采用最大似然估计来确定模型的参数。假设得到的每个GMM模型由均值向量、协方差矩阵、混合权重三个参数表示为:
λ={μi,∑i,ωi},i=1,2…M
4、采用聚类算法对每个子集中的高斯混合模型(GMM)进行聚类。
1)首先确定聚类数目K,提取每个语音数据样本的特征参数,构成n×m的矩阵,采用奇异值分解方法,求得奇异值,取前r个大的奇异值σ,其中r远远小于n和m的值,比较每个样本的奇异值,如果样本间奇异值的差值的绝对值小于一个设定的阈值则归为一个类别,最后产生的类别数目即为初始化聚类数目K。
2)在上述K个分类中为每个类别随机选取一个GMM模型,初始化为类中心和类代表,{C1,C2,…,Ck}。
3)计算所有模型到类代表的距离,根据距离最小原则,将每个样本模型分配到不同类别中。
4)计算类中心并重新选取类代表,将聚类后每个聚类中样本模型的均值作为新的聚类中心,选取聚类后与聚类中心最近的模型为类代表。
5)计算每个类别中聚类前后两次类中心相对距离改变的差值为δ,设定停止的阈值为ε,0<ε<1。如果δ<ε或者每类成员不再改变时保存聚类结果,否则重复步骤(3)和(4)。最后得到K个类别,每个聚类的类代表分别为{K1,K2,…,Kk}。
步骤三、识别阶段将输入的待识别的语音数据样本与训练阶段构建的语音训练集中的模型进行基于分层的匹配,识别说话人身份,识别结束。
1)收集待识别说话人的语音信号。
2)对待识别语音信号进行预处理,计算频率为fT处的基音频率累积密度函数值,与阈值PT进行比较,确定待识别语音信号所属的子集。
3)提取语音信号的特征参数并建立GMM模型,方法与训练阶段建立语音数据样本的模型相同。
4)计算待识别语音信号的GMM模型到相应性别子集中各类类代表的似然度,根据似然度最大原则确定待识别语音信号所属的类别,然后计算与所选择类别中所有的GMM模型的似然度,根据似然度最大原则进行模型匹配。
5)识别说话人的身份,识别结束。
综上所述,本发明的优点如下:
本发明在训练阶段首先对语音训练集中训练样本进行基于性别的分类,在性别分类的基础上进行基于地区口音的模型聚类,识别时将待识别语音信号与语音训练集中的模型进行匹配,先确定待识别语音信号所属的性别子集,然后选择对应子集中似然度最大的类别,只需要计算与该类别中的所有模型的似然度,即可进行说话人识别。采用该方法使得识别时不需要与语音训练集中的所有模型一一进行匹配,实现了一种分层的说话人识别方法,能够提高系统识别速率,满足某些环境下对识别系统实时性的要求。
附图说明
图1是本发明的流程图;
图2是本发明的聚类算法流程图;
具体实施方式
本发明设计了一种基于模型聚类的提高说话人识别效率的方法,结合图1,本发明技术方案的具体步骤如下:
步骤一、在训练阶段构建一个语音训练集,对输入的语音数据样本进行预处理后提取特征参数,将语音数据样本进行基于性别分类,得到男性样本子集和女性样本子集。
1、收集多个说话人的语音数据样本,对每个语音数据样本进行预处理。预处理过程包括采样和量化、预加重、分帧、加窗以及端点检测。
1)采样和量化:利用A/D模块将声音的模拟信号转换为数字信号,信号的采样频率通常在8KHz~16KHz之间。根据奈奎斯特采样定律,采样频率必须在信号最高频率的两倍以上。
2)预加重:传输函数为:H(z)=1-μz-1其中μ是滤波器系数,通常设为0.97。预加重的目的是为了减少声门脉冲的影响,补偿高频分量的损失,提升高频分量。
3)分帧和加窗:将语音信号按照10ms~30ms的间隔进行分段,每一段称为一帧。然后采用汉明窗加窗。其窗函数为:
将每一帧语音信号乘以汉明窗,分帧加窗处理后得到第i帧语音信号为Xi(n),
Xi(n)=w(n)X(i+n),0≤n≤N-1,i=0,1T,2T…
其中N为帧长,T为帧移长度。
4)端点检测:采用双门限检测法,利用短时能量和短时平均过零率,分别设定高低两个门限,只有当信号幅值同时超过两个信号的门限,才认为是信号开端。端点检测可以检测语音信号的起始点和结束点,找出信号中有效语音片段。
2、根据不同性别的基音频率累积密度函数,选取基音累积密度函数不同性别概率相差最大的频率点fT作为阈值频率。对预处理后的每个语音数据样本,计算频率为fT处的累积密度函数值,与阈值进行比较,高于则划分为男性子集,低于则划分为女性子集。
1)利用正态窗函数对语音信号基音频率的概率密度进行估计,然后再对概率密度函数积分,得到不同性别的基音频率累积密度函数。男性的基音累积分布函数Pm(f)和女性的基音累积分布函数Pf(f)有较大的差异。
3)对预处理后的每个语音数据样本,计算频率为fT处的累积密度函数值,再与阈值进行比较,高于则划分为男性子集,低于则划分为女性子集。
步骤二、提取每个子集中的语音数据样本的特征参数,为每个语音数据样本建立一个高斯混合模型(GMM),采用聚类算法将语音训练集中的模型进行基于地区口音的聚类。
1、提取梅尔频率倒谱系数(MFCC):对样本集中的语音信号进行预处理后,首先对每一帧语音信号X(n)进行快速傅里叶变换,然后取模的平方得到能量谱,再通过梅尔频率滤波器将能量转换为梅尔频谱。求得梅尔频谱的对数,得到一组系数,将系数做离散余弦变换(DCT),最终获得梅尔频率倒谱系数参数。
2、提取共振峰频率特征:采用基于线性预测(LPC)的共振峰求取方法,利用求根法计算每帧的共振峰值。首先对输入的语音信号进行预处理,然后求取每帧的LPC系数和功率谱曲线,接着进行求根得到共振峰频率,若满足设定的条件则输出。选择提取每帧语音信号前三个共振峰的特征参数。
3、将两个特征参数梅尔频率倒谱系数和共振峰频率特征进行特征融合,串联组成融合特征,作为混合高斯模型的输入,得到每个语音数据样本的高斯混合模型。高斯混合模型(GMM)是一种状态数为1的连续分布隐马尔科夫模型,它将所描述的事物分成N个高斯子分布,并将它们加权求和得到混合度为N的高斯模型的概率密度函数。该模型训练的本质是根据输入的语音信号的特征参数,采用最大似然估计来确定模型的参数。假设得到的每个GMM模型由均值向量、协方差矩阵、混合权重三个参数表示为:
λ={μi,∑i,ωi},i=1,2…M
4、采用聚类算法对每个子集中的GMM模型进行聚类。
1)首先确定聚类数目K,提取每个说话人语音信号的特征参数,构成n×m的矩阵,采用奇异值分解方法,求得奇异值,取前r个大的奇异值σ,其中r远远小于n和m的值,比较每个样本的奇异值,如果样本间奇异值的差值的绝对值小于一个设定的阈值则归为一个类别,最后产生的类别数目即为初始化聚类数目K。
2)在上述K个分类中为每个类别随机选取一个GMM模型,初始化为类中心和类代表,{C1,C2,…,Ck}。
3)计算所有模型到类代表的距离,根据距离最小原则,将每个样本模型分配到不同类别中。
4)计算类中心并重新选取类代表,将聚类后每个聚类中样本模型的均值作为新的聚类中心,选取聚类后与聚类中心最近的模型为类代表。
5)计算每个类别中聚类前后两次类中心相对距离改变的差值为δ,设定停止的阈值为ε,0<ε<1。如果δ<ε或者每类成员不再改变时保存聚类结果,否则重复步骤(3)和(4)。最后得到K个类别,每个聚类的类代表分别为{K1,K2,…,Kk}。
步骤三、识别阶段将输入的待识别的语音数据样本与训练阶段构建的语音训练集中的模型进行匹配,先进行性别判别,再进行类别判别,最后与所选类别中的模型进行匹配,确认说话人身份,识别结束。
1)收集待识别说话人的语音信号。
2)对待识别语音信号进行预处理,计算频率为fT处的基音频率累积密度函数值,与阈值PT进行比较,确定待识别语音信号所属的子集。
3)提取语音信号的特征参数并建立GMM模型,方法与训练阶段建立语音数据样本的模型相同。
4)计算待识别语音信号的GMM模型到相应性别子集中各类类代表的似然度,根据似然度最大原则确定待识别语音信号所属的类别,然后计算与所选择类别中所有的GMM模型的似然度,根据似然度最大原则进行模型匹配。
5)识别说话人的身份,识别结束。
Claims (3)
1.一种基于模型聚类的提高说话人识别效率的方法,其特征在于训练阶段构建一个语音训练集,对语音数据样本模型进行基于性别的分类,在性别分类的基础上进行基于地区口音的模型聚类,实现了一种分层的快速说话人识别方法,至少还包括以下步骤:
步骤一、在训练阶段构建一个语音训练集,对输入的语音数据样本进行预处理后提取特征参数,将语音数据样本进行基于性别的分类,得到男性样本子集和女性样本子集;
1)收集多个说话人的语音数据样本,对每个语音数据样本进行预处理;预处理过程包括采样和量化、预加重、分帧、加窗以及端点检测;
2)根据不同性别的基音频率累积密度函数,选取基音累积密度函数不同性别概率相差最大的频率点fT作为阈值频率;对预处理后的每个语音数据样本,计算频率为fT处的累积密度函数值,与阈值进行比较,高于则划分为男性子集,低于则划分为女性子集;
步骤二、提取每个子集中的语音数据样本的特征参数,为每个语音数据样本建立一个高斯混合模型(GMM),采用聚类算法将语音训练集中的模型进行基于地区口音的聚类;
1)提取梅尔频率倒谱系数;
2)提取共振峰频率特征;
3)将两个特征参数梅尔频率倒谱系数和共振峰频率特征进行特征融合,串联组成融合特征,作为混合高斯模型的输入,得到每个语音数据样本的GMM模型;
4)采用聚类算法对每个子集中的GMM模型进行聚类;
步骤三、识别阶段将输入的待识别的语音数据样本与训练阶段构建的语音训练集中的模型进行基于分层的匹配,识别说话人身份,识别结束;
1)收集待识别说话人的语音信号;
2)对待识别语音信号进行预处理,计算频率为fT处的基音频率累积密度函数值,与阈值PT进行比较,确定待识别语音信号所属的子集;
3)提取语音信号的特征参数并建立GMM模型,方法与步骤二中建立语音数据样本的模型相同;
4)计算待识别语音信号的GMM模型到相应性别子集中各类类代表的似然度,根据似然度最大原则确定待识别语音信号所属的类别,然后计算与所选择类别中所有的GMM模型的似然度,根据似然度最大原则进行模型匹配;
5)识别说话人的身份,识别结束。
2.根据权利要求1所述的基于模型聚类的提高说话人识别效率的方法,其特征在于训练阶段采用基于融合梅尔频率倒谱系数和共振峰频率特征参数的方法,分别对男性子集和女性子集中的每个语音数据样本都建立一个GMM模型,至少还包括以下步骤:
1)提取梅尔频率倒谱系数;
2)提取共振峰频率特征;
3)将两个特征参数梅尔频率倒谱系数和共振峰频率特征进行特征融合,串联组成融合特征,作为混合高斯模型的输入,得到每个语音数据样本的GMM模型。
3.根据权利要求1所述的基于模型聚类的提高说话人识别效率的方法,其特征在于将GMM模型进行模型聚类时,首先通过奇异值分解方法确定聚类数目,至少还包括以下步骤:
步骤一、首先确定聚类初始数目K,提取每个说话人语音信号的特征参数,构成n×m的矩阵,采用奇异值分解方法,求得奇异值,取前r个大的奇异值σ,比较每个样本的奇异值,如果样本间奇异值的差值的绝对值小于一个设定的阈值则归为一个类别,最后产生的类别数目即为初始化聚类初始数目K;
步骤二、采用聚类算法将子集中的说话人模型进行分类,得到K个类别,每个聚类的类代表分别为{K1,K2…Kk}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910031907.7A CN109961794B (zh) | 2019-01-14 | 2019-01-14 | 一种基于模型聚类的提高说话人识别效率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910031907.7A CN109961794B (zh) | 2019-01-14 | 2019-01-14 | 一种基于模型聚类的提高说话人识别效率的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109961794A CN109961794A (zh) | 2019-07-02 |
CN109961794B true CN109961794B (zh) | 2021-07-06 |
Family
ID=67023523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910031907.7A Active CN109961794B (zh) | 2019-01-14 | 2019-01-14 | 一种基于模型聚类的提高说话人识别效率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109961794B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738998A (zh) * | 2019-09-11 | 2020-01-31 | 深圳壹账通智能科技有限公司 | 基于语音的个人信用评估方法、装置、终端及存储介质 |
CN111462755A (zh) * | 2020-03-03 | 2020-07-28 | 深圳壹账通智能科技有限公司 | 信息提示方法、装置、电子设备及介质 |
CN111429922A (zh) * | 2020-03-27 | 2020-07-17 | 佛山科学技术学院 | 一种基于自适应语音增强的说话人识别方法及装置 |
CN111755012A (zh) * | 2020-06-24 | 2020-10-09 | 湖北工业大学 | 一种基于深浅层特征融合的鲁棒性说话人识别方法 |
CN112201227B (zh) * | 2020-09-28 | 2024-06-28 | 海尔优家智能科技(北京)有限公司 | 语音样本生成方法及装置、存储介质、电子装置 |
CN112562693B (zh) * | 2021-02-24 | 2021-05-28 | 北京远鉴信息技术有限公司 | 一种基于聚类的说话人确定方法、确定装置及电子设备 |
CN113409763B (zh) * | 2021-07-20 | 2022-10-25 | 北京声智科技有限公司 | 语音纠正方法、装置及电子设备 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2793137B2 (ja) * | 1994-12-14 | 1998-09-03 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 連続音声認識のためのアクセント句境界検出装置 |
US20080147404A1 (en) * | 2000-05-15 | 2008-06-19 | Nusuara Technologies Sdn Bhd | System and methods for accent classification and adaptation |
CN101123648B (zh) * | 2006-08-11 | 2010-05-12 | 中国科学院声学研究所 | 电话语音识别中的自适应方法 |
US9418662B2 (en) * | 2009-01-21 | 2016-08-16 | Nokia Technologies Oy | Method, apparatus and computer program product for providing compound models for speech recognition adaptation |
CN103310788B (zh) * | 2013-05-23 | 2016-03-16 | 北京云知声信息技术有限公司 | 一种语音信息识别方法及系统 |
US9412395B1 (en) * | 2014-09-30 | 2016-08-09 | Audible, Inc. | Narrator selection by comparison to preferred recording features |
CN104464724A (zh) * | 2014-12-08 | 2015-03-25 | 南京邮电大学 | 一种针对刻意伪装语音的说话人识别方法 |
CN105096955B (zh) * | 2015-09-06 | 2019-02-01 | 广东外语外贸大学 | 一种基于模型生长聚类的说话人快速识别方法及系统 |
CN105654954A (zh) * | 2016-04-06 | 2016-06-08 | 普强信息技术(北京)有限公司 | 一种云端语音识别系统及方法 |
CN108628841A (zh) * | 2017-03-22 | 2018-10-09 | 湖南本来文化发展有限公司 | 基于birch聚类算法翻译粤语口音和英语的app |
US10637898B2 (en) * | 2017-05-24 | 2020-04-28 | AffectLayer, Inc. | Automatic speaker identification in calls |
CN107301386A (zh) * | 2017-06-14 | 2017-10-27 | 哈尔滨理工大学 | 一种自适应K_means聚类奇异值分解降噪有效秩阶次确定法 |
CN109065028B (zh) * | 2018-06-11 | 2022-12-30 | 平安科技(深圳)有限公司 | 说话人聚类方法、装置、计算机设备及存储介质 |
CN108877784B (zh) * | 2018-09-05 | 2022-12-06 | 河海大学 | 一种基于口音识别的鲁棒语音识别方法 |
-
2019
- 2019-01-14 CN CN201910031907.7A patent/CN109961794B/zh active Active
Non-Patent Citations (1)
Title |
---|
说话人转变检测的研究与实现;高娅;《中国优秀硕士论文全文数据库》;20130630(第6期);I136-229 * |
Also Published As
Publication number | Publication date |
---|---|
CN109961794A (zh) | 2019-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109961794B (zh) | 一种基于模型聚类的提高说话人识别效率的方法 | |
Tiwari | MFCC and its applications in speaker recognition | |
CN108281146B (zh) | 一种短语音说话人识别方法和装置 | |
Dhanalakshmi et al. | Classification of audio signals using AANN and GMM | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
Bharti et al. | Real time speaker recognition system using MFCC and vector quantization technique | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
Sumithra et al. | A study on feature extraction techniques for text independent speaker identification | |
CN112735435A (zh) | 具备未知类别内部划分能力的声纹开集识别方法 | |
AboElenein et al. | Improved text-independent speaker identification system for real time applications | |
Bagul et al. | Text independent speaker recognition system using GMM | |
Mohammed et al. | Advantages and disadvantages of automatic speaker recognition systems | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Mallikarjunan et al. | Text-independent speaker recognition in clean and noisy backgrounds using modified VQ-LBG algorithm | |
Kekre et al. | Speaker identification using row mean vector of spectrogram | |
Omer | Joint MFCC-and-vector quantization based text-independent speaker recognition system | |
Abushariah et al. | Voice based automatic person identification system using vector quantization | |
Chauhan et al. | A review of automatic speaker recognition system | |
CN115064175A (zh) | 一种说话人识别方法 | |
Jian et al. | An embedded voiceprint recognition system based on GMM | |
Kanrar | Robust threshold selection for environment specific voice in speaker recognition | |
Chelali et al. | MFCC and vector quantization for Arabic fricatives speech/speaker recognition | |
Sas et al. | Gender recognition using neural networks and ASR techniques | |
Bora et al. | Speaker identification for biometric access control using hybrid features | |
Manor et al. | Voice trigger system using fuzzy logic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |