CN109961794A - 一种基于模型聚类的分层说话人识别方法 - Google Patents

一种基于模型聚类的分层说话人识别方法 Download PDF

Info

Publication number
CN109961794A
CN109961794A CN201910031907.7A CN201910031907A CN109961794A CN 109961794 A CN109961794 A CN 109961794A CN 201910031907 A CN201910031907 A CN 201910031907A CN 109961794 A CN109961794 A CN 109961794A
Authority
CN
China
Prior art keywords
model
data sample
voice data
frequency
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910031907.7A
Other languages
English (en)
Other versions
CN109961794B (zh
Inventor
邓清勇
欧阳艳
阳柳
林琦
邓霜意
徐雁冰
刘昊霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN201910031907.7A priority Critical patent/CN109961794B/zh
Publication of CN109961794A publication Critical patent/CN109961794A/zh
Application granted granted Critical
Publication of CN109961794B publication Critical patent/CN109961794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Abstract

本发明提出一种基于模型聚类的分层说话人识别方法。在训练阶段首先构建一个语音训练集,对输入的语音数据样本进行预处理,预处理过程包括采样和量化、预加重、分帧、加窗以及端点检测,然后基于不同性别的基因频率累计分布函数,将语音训练集划分为男性子集和女性子集。采用基于融合梅尔频率倒谱系数和共振峰频率特征参数的方法,为子集中的每个语音数据样本建立一个高斯混合模型,然后采用聚类算法分别将两个子集中的模型进行基于地区口音的聚类。识别阶段首先判别所属的性别子集,再根据似然度最大原则判断所属的类别,最后与类别中所有模型进行匹配,识别说话人身份。本发明实现了一种分层的说话人识别方法,能够满足某些环境下对识别系统实时性的要求。

Description

一种基于模型聚类的分层说话人识别方法
技术领域
本发明属于语音识别技术领域,具体涉及一种基于模型聚类的分层说话人识别方法。
背景技术
生物特征识别技术是利用人的固有生理特征来进行身份认证的一项技术,例如常见的指纹识别、人脸识别等。语音识别作为生物特征识别技术的一种,以语音作为识别特征,不仅具有非接触性、自然性等优点,而且识别设备成本低。语音识别技术还可以进行远程认证,例如语音通过网络或者电话进行传输识别认证。
说话人识别是分析语音中包含的说话人信息来识别说话人身份的技术。因其便捷安全的优点,在各种安全领域得到快速发展,例如声纹密码、司法鉴定和军事监控等领域。传统的说话人识别技术以研究识别系统的正确率以及鲁棒性为重点,但随着说话人识别系统中注册人数的增加,我们需要考虑如何提高说话人识别系统的效率,尤其是在某些特定环境下对说话人身份的实时识别。传统识别方法需要将待识别语音信号与样本库中所有模型进行一一匹配,随着样本库的模型增多,匹配时耗费的时间变长,从而导致系统的识别速率慢,实时性难以得到保证。因此,亟需在复杂环境下实现一种有效的说话人实时识别方法。基于此,设计了一种基于模型聚类的分层说话人识别方法。
发明内容
本发明为解决上述问题,提出了一种基于模型聚类的分层说话人识别方法。具体步骤如下:
步骤一、在训练阶段构建一个语音训练集,对输入的语音数据样本进行预处理后提取特征参数,将语音数据样本进行基于性别分类,得到男性样本子集和女性样本子集。
1、收集多个说话人的语音数据样本,对每个语音数据样本进行预处理。预处理过程包括采样和量化、预加重、分帧、加窗以及端点检测。
2、根据不同性别的基音频率累积密度函数,选取基音累积密度函数不同性别概率相差最大的频率点fT作为阈值频率。对预处理后的每个语音数据样本,计算频率为fT处的累积密度函数值,与阈值进行比较,高于则划分为男性子集,低于则划分为女性子集。
1)利用正态窗函数对语音信号基音频率的概率密度进行估计,然后再对概率密度函数积分,得到不同性别的基音频率累积密度函数。男性的基音累积分布函数Pm(f)和女性的基音累积分布函数Pf(f)有较大的差异。
2)选取不同性别基音累积密度函数概率相差最大的频率点fT,将该频率所对应的Pm(fT)与Pf(fT)取平均值,结果设为阈值PT
3)对预处理后的每个语音数据样本,计算频率为fT处的累积密度函数值,再与阈值进行比较,高于则划分为男性子集,低于则划分为女性子集。
步骤二、提取每个子集中的语音数据样本的特征参数,为每个语音数据样本建立一个高斯混合模型(GMM),采用聚类算法将语音训练集中的模型进行基于地区口音的聚类。
1、提取梅尔频率倒谱系数(MFCC):对样本集中的语音信号进行预处理后,首先对每一帧语音信号X(n)进行快速傅里叶变换,然后取模的平方得到能量谱,再通过梅尔频率滤波器将能量转换为梅尔频谱。求得梅尔频谱的对数,得到一组系数,将系数做离散余弦变换(DCT),最终获得梅尔频率倒谱系数的参数。
2、提取共振峰频率特征:采用基于线性预测(LPC)的共振峰频率求取方法,利用求根法计算每帧的共振峰值。首先对输入的语音信号进行预处理,然后求取每帧的LPC系数和功率谱曲线,接着进行求根得到共振峰频率,若满足设定的条件则输出,并提取每帧语音信号前三个共振峰的特征参数。
3、将两个特征参数梅尔频率倒谱系数和共振峰频率进行特征融合,串联组成融合特征,作为混合高斯模型的输入,得到每个语音数据样本的高斯混合模型。高斯混合模型(GMM)是一种状态数为1的连续分布隐马尔科夫模型,它将所描述的事物分成N个高斯子分布,并将它们加权求和得到混合度为N的高斯模型的概率密度函数。该模型训练的本质是根据输入的语音信号的特征参数,采用最大似然估计来确定模型的参数。假设得到的每个GMM模型由均值向量、协方差矩阵、混合权重三个参数表示为:
λ={μi,∑ii},i=1,2…M
4、采用聚类算法对每个子集中的高斯混合模型(GMM)进行基于地区口音的聚类。
1)首先确定聚类数目K,提取每个语音数据样本的特征参数,构成n×m的矩阵,采用奇异值分解方法,求得奇异值,取前r个大的奇异值σ,其中r远远小于n和m的值,比较每个样本的奇异值,如果样本间奇异值的差值的绝对值小于一个设定的阈值则归为一个类别,最后产生的类别数目即为初始化聚类数目K。
2)在上述K个分类中为每个类别随机选取一个GMM模型,初始化为类中心和类代表,{C1,C2,…,Ck}。
3)计算所有模型到类代表的距离,根据距离最小原则,将每个样本模型分配到不同类别中。
4)计算类中心并重新选取类代表,将聚类后每个聚类中样本模型的均值作为新的聚类中心,选取聚类后与聚类中心最近的模型为类代表。
5)计算每个类别中聚类前后两次类中心相对距离改变的差值为δ,设定停止的阈值为ε,0<ε<1。如果δ<ε或者每类成员不再改变时保存聚类结果,否则重复步骤(3)和(4)。最后得到K个类别,每个聚类的类代表分别为{K1,K2,…,Kk}。
步骤三、识别阶段将输入的待识别的语音数据样本与训练阶段构建的语音训练集中的模型进行基于分层的匹配,识别说话人身份,识别结束。
1)收集待识别说话人的语音信号。
2)对待识别语音信号进行预处理,计算频率为fT处的基音频率累积密度函数值,与阈值PT进行比较,确定待识别语音信号所属的子集。
3)提取语音信号的特征参数并建立GMM模型,方法与训练阶段建立语音数据样本的模型相同。
4)计算待识别语音信号的GMM模型到相应性别子集中各类类代表的似然度,根据似然度最大原则确定待识别语音信号所属的类别,然后计算与所选择类别中所有的GMM模型的似然度,根据似然度最大原则进行模型匹配。
5)识别说话人的身份,识别结束。
综上所述,本发明的优点如下:
本发明在训练阶段对语音训练集中的GMM模型首先进行基于性别的分类,在性别分类的基础上进行基于地区口音的模型聚类,识别时将待识别语音信号与语音训练集中的模型进行匹配,先确定待识别语音信号所属的性别子集,然后选择对应子集中似然度最大的类别,只需要计算与该类别中的所有模型的似然度,即可进行说话人识别。采用该方法使得识别时不需要与语音训练集中的所有模型一一进行匹配,实现了一种分层的说话人识别方法,能够提高系统识别速率,满足某些环境下对识别系统实时性的要求。
附图说明
图1是本发明的流程图;
图2是本发明的聚类算法流程图;
具体实施方式
本发明设计了一种基于模型聚类的分层说话人识别方法,结合图1,本发明技术方案的具体步骤如下:
步骤一、在训练阶段构建一个语音训练集,对输入的语音数据样本进行预处理后提取特征参数,将语音数据样本进行基于性别分类,得到男性样本子集和女性样本子集。
1、收集多个说话人的语音数据样本,对每个语音数据样本进行预处理。预处理过程包括采样和量化、预加重、分帧、加窗以及端点检测。
1)采样和量化:利用A/D模块将声音的模拟信号转换为数字信号,信号的采样频率通常在8KHz~16KHz之间。根据奈奎斯特采样定律,采样频率必须在信号最高频率的两倍以上。
2)预加重:传输函数为:H(z)=1-μz-1其中μ是滤波器系数,通常设为0.97。预加重的目的是为了减少声门脉冲的影响,补偿高频分量的损失,提升高频分量。
3)分帧和加窗:将语音信号按照10ms~30ms的间隔进行分段,每一段称为一帧。然后采用汉明窗加窗。其窗函数为:
将每一帧语音信号乘以汉明窗,分帧加窗处理后得到第i帧语音信号为Xi(n),
Xi(n)=w(n)X(i+n),0≤n≤N-1,i=0,1T,2T…
其中N为帧长,T为帧移长度。
4)端点检测:采用双门限检测法,利用短时能量和短时平均过零率,分别设定高低两个门限,只有当信号幅值同时超过两个信号的门限,才认为是信号开端。端点检测可以检测语音信号的起始点和结束点,找出信号中有效语音片段。
2、根据不同性别的基音频率累积密度函数,选取基音累积密度函数不同性别概率相差最大的频率点fT作为阈值频率。对预处理后的每个语音数据样本,计算频率为fT处的累积密度函数值,与阈值进行比较,高于则划分为男性子集,低于则划分为女性子集。
1)利用正态窗函数对语音信号基音频率的概率密度进行估计,然后再对概率密度函数积分,得到不同性别的基音频率累积密度函数。男性的基音累积分布函数Pm(f)和女性的基音累积分布函数Pf(f)有较大的差异。
2)选取不同性别基音累积密度函数概率相差最大的频率点fT,将该频率所对应的Pm(fT)与Pf(fT)取平均值,结果设为阈值PT
3)对预处理后的每个语音数据样本,计算频率为fT处的累积密度函数值,再与阈值进行比较,高于则划分为男性子集,低于则划分为女性子集。
步骤二、提取每个子集中的语音数据样本的特征参数,为每个语音数据样本建立一个高斯混合模型(GMM),采用聚类算法将语音训练集中的模型进行基于地区口音的聚类。
1、提取梅尔频率倒谱系数(MFCC):对样本集中的语音信号进行预处理后,首先对每一帧语音信号X(n)进行快速傅里叶变换,然后取模的平方得到能量谱,再通过梅尔频率滤波器将能量转换为梅尔频谱。求得梅尔频谱的对数,得到一组系数,将系数做离散余弦变换(DCT),最终获得梅尔频率倒谱系数参数。
2、提取共振峰频率特征:采用基于线性预测(LPC)的共振峰求取方法,利用求根法计算每帧的共振峰值。首先对输入的语音信号进行预处理,然后求取每帧的LPC系数和功率谱曲线,接着进行求根得到共振峰频率,若满足设定的条件则输出。选择提取每帧语音信号前三个共振峰的特征参数。
3、将两个特征参数梅尔频率倒谱系数和共振峰频率特征进行特征融合,串联组成融合特征,作为混合高斯模型的输入,得到每个语音数据样本的高斯混合模型。高斯混合模型(GMM)是一种状态数为1的连续分布隐马尔科夫模型,它将所描述的事物分成N个高斯子分布,并将它们加权求和得到混合度为N的高斯模型的概率密度函数。该模型训练的本质是根据输入的语音信号的特征参数,采用最大似然估计来确定模型的参数。假设得到的每个GMM模型由均值向量、协方差矩阵、混合权重三个参数表示为:
λ={μi,∑ii},i=1,2…M
4、采用聚类算法对每个子集中的GMM模型进行基于地区口音的聚类。
1)首先确定聚类数目K,提取每个说话人语音信号的特征参数,构成n×m的矩阵,采用奇异值分解方法,求得奇异值,取前r个大的奇异值σ,其中r远远小于n和m的值,比较每个样本的奇异值,如果样本间奇异值的差值的绝对值小于一个设定的阈值则归为一个类别,最后产生的类别数目即为初始化聚类数目K。
2)在上述K个分类中为每个类别随机选取一个GMM模型,初始化为类中心和类代表,{C1,C2,…,Ck}。
3)计算所有模型到类代表的距离,根据距离最小原则,将每个样本模型分配到不同类别中。
4)计算类中心并重新选取类代表,将聚类后每个聚类中样本模型的均值作为新的聚类中心,选取聚类后与聚类中心最近的模型为类代表。
5)计算每个类别中聚类前后两次类中心相对距离改变的差值为δ,设定停止的阈值为ε,0<ε<1。如果δ<ε或者每类成员不再改变时保存聚类结果,否则重复步骤(3)和(4)。最后得到K个类别,每个聚类的类代表分别为{K1,K2,…,Kk}。
步骤三、识别阶段将输入的待识别的语音数据样本与训练阶段构建的语音训练集中的模型进行匹配,先进行性别判别,再进行类别判别,最后与所选类别中的模型进行匹配,确认说话人身份,识别结束。
1)收集待识别说话人的语音信号。
2)对待识别语音信号进行预处理,计算频率为fT处的基音频率累积密度函数值,与阈值PT进行比较,确定待识别语音信号所属的子集。
3)提取语音信号的特征参数并建立GMM模型,方法与训练阶段建立语音数据样本的模型相同。
4)计算待识别语音信号的GMM模型到相应性别子集中各类类代表的似然度,根据似然度最大原则确定待识别语音信号所属的类别,然后计算与所选择类别中所有的GMM模型的似然度,根据似然度最大原则进行模型匹配。
5)识别说话人的身份,识别结束。

Claims (3)

1.一种基于模型聚类的分层说话人识别方法,其特征在于训练阶段构建一个语音训练集,对语音数据样本模型进行基于性别的分类,在性别分类的基础上进行基于地区口音的模型聚类,实现了一种分层的说话人识别方法,至少还包括以下步骤:
步骤一、在训练阶段构建一个语音训练集,对输入的语音数据样本进行预处理后提取特征参数,将语音数据样本进行基于性别的分类,得到男性样本子集和女性样本子集;
1)收集多个说话人的语音数据样本,对每个语音数据样本进行预处理。预处理过程包括采样和量化、预加重、分帧、加窗以及端点检测;
2)根据不同性别的基音频率累积密度函数,选取基音累积密度函数不同性别概率相差最大的频率点fT作为阈值频率。对预处理后的每个语音数据样本,计算频率为fT处的累积密度函数值,与阈值进行比较,高于则划分为男性子集,低于则划分为女性子集;
步骤二、提取每个子集中的语音数据样本的特征参数,为每个语音数据样本建立一个高斯混合模型(GMM),采用聚类算法将语音训练集中的模型进行基于地区口音的聚类;
1)提取梅尔频率倒谱系数;
2)提取共振峰频率特征;
3)将两个特征参数梅尔频率倒谱系数和共振峰频率特征进行特征融合,串联组成融合特征,作为混合高斯模型的输入,得到每个语音数据样本的GMM模型;
4)采用聚类算法对每个子集中的GMM模型进行基于地区口音的聚类;
步骤三、识别阶段将输入的待识别的语音数据样本与训练阶段构建的语音训练集中的模型进行基于分层的匹配,识别说话人身份,识别结束;
1)收集待识别说话人的语音信号;
2)对待识别语音信号进行预处理,计算频率为fT处的基音频率累积密度函数值,与阈值PT进行比较,确定待识别语音信号所属的子集;
3)提取语音信号的特征参数并建立GMM模型,方法与步骤二中建立语音数据样本的模型相同;
4)计算待识别语音信号的GMM模型到相应性别子集中各类类代表的似然度,根据似然度最大原则确定待识别语音信号所属的类别,然后计算与所选择类别中所有的GMM模型的似然度,根据似然度最大原则进行模型匹配;
5)识别说话人的身份,识别结束。
2.根据权利要求1所述的基于模型聚类的分层说话人识别方法,其特征在于训练阶段采用基于融合梅尔频率倒谱系数和共振峰频率特征参数的方法,分别对男性子集和女性子集中的每个语音数据样本都建立一个GMM模型,至少还包括以下步骤:
1)提取梅尔频率倒谱系数;
2)提取共振峰频率特征;
3)将两个特征参数梅尔频率倒谱系数和共振峰频率特征进行特征融合,串联组成融合特征,作为混合高斯模型的输入,得到每个语音数据样本的GMM模型。
3.根据权利要求1所述的基于模型聚类的分层说话人识别方法,其特征在于将GMM模型进行模型聚类时,首先通过奇异值分解方法确定聚类数目,至少还包括以下步骤:
步骤一、首先确定聚类初始数目K,提取每个说话人语音信号的特征参数,构成n×m的矩阵,采用奇异值分解方法,求得奇异值,取前r个大的奇异值σ,比较每个样本的奇异值,如果样本间奇异值的差值的绝对值小于一个设定的阈值则归为一个类别,最后产生的类别数目即为初始化聚类初始数目K;
步骤二、采用聚类算法将子集中的说话人模型进行分类,得到K个类别,每个聚类的类代表分别为{K1,K2…Kk}。
CN201910031907.7A 2019-01-14 2019-01-14 一种基于模型聚类的提高说话人识别效率的方法 Active CN109961794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910031907.7A CN109961794B (zh) 2019-01-14 2019-01-14 一种基于模型聚类的提高说话人识别效率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910031907.7A CN109961794B (zh) 2019-01-14 2019-01-14 一种基于模型聚类的提高说话人识别效率的方法

Publications (2)

Publication Number Publication Date
CN109961794A true CN109961794A (zh) 2019-07-02
CN109961794B CN109961794B (zh) 2021-07-06

Family

ID=67023523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910031907.7A Active CN109961794B (zh) 2019-01-14 2019-01-14 一种基于模型聚类的提高说话人识别效率的方法

Country Status (1)

Country Link
CN (1) CN109961794B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429922A (zh) * 2020-03-27 2020-07-17 佛山科学技术学院 一种基于自适应语音增强的说话人识别方法及装置
CN111755012A (zh) * 2020-06-24 2020-10-09 湖北工业大学 一种基于深浅层特征融合的鲁棒性说话人识别方法
WO2021047319A1 (zh) * 2019-09-11 2021-03-18 深圳壹账通智能科技有限公司 基于语音的个人信用评估方法、装置、终端及存储介质
CN112562693A (zh) * 2021-02-24 2021-03-26 北京远鉴信息技术有限公司 一种基于聚类的说话人确定方法、确定装置及电子设备
WO2021175031A1 (zh) * 2020-03-03 2021-09-10 深圳壹账通智能科技有限公司 信息提示方法、装置、电子设备及介质
CN113409763A (zh) * 2021-07-20 2021-09-17 北京声智科技有限公司 语音纠正方法、装置及电子设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08166796A (ja) * 1994-12-14 1996-06-25 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 連続音声認識のためのアクセント句境界検出装置
CN101123648A (zh) * 2006-08-11 2008-02-13 中国科学院声学研究所 电话语音识别中的自适应方法
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
US20100185444A1 (en) * 2009-01-21 2010-07-22 Jesper Olsen Method, apparatus and computer program product for providing compound models for speech recognition adaptation
CN103310788A (zh) * 2013-05-23 2013-09-18 北京云知声信息技术有限公司 一种语音信息识别方法及系统
CN104464724A (zh) * 2014-12-08 2015-03-25 南京邮电大学 一种针对刻意伪装语音的说话人识别方法
CN105096955A (zh) * 2015-09-06 2015-11-25 广东外语外贸大学 一种基于模型生长聚类的说话人快速识别方法及系统
CN105654954A (zh) * 2016-04-06 2016-06-08 普强信息技术(北京)有限公司 一种云端语音识别系统及方法
US9412395B1 (en) * 2014-09-30 2016-08-09 Audible, Inc. Narrator selection by comparison to preferred recording features
CN107301386A (zh) * 2017-06-14 2017-10-27 哈尔滨理工大学 一种自适应K_means聚类奇异值分解降噪有效秩阶次确定法
CN108628841A (zh) * 2017-03-22 2018-10-09 湖南本来文化发展有限公司 基于birch聚类算法翻译粤语口音和英语的app
CN108877784A (zh) * 2018-09-05 2018-11-23 河海大学 一种基于口音识别的鲁棒语音识别方法
US20180342250A1 (en) * 2017-05-24 2018-11-29 AffectLayer, Inc. Automatic speaker identification in calls
CN109065028A (zh) * 2018-06-11 2018-12-21 平安科技(深圳)有限公司 说话人聚类方法、装置、计算机设备及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08166796A (ja) * 1994-12-14 1996-06-25 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 連続音声認識のためのアクセント句境界検出装置
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
CN101123648A (zh) * 2006-08-11 2008-02-13 中国科学院声学研究所 电话语音识别中的自适应方法
US20100185444A1 (en) * 2009-01-21 2010-07-22 Jesper Olsen Method, apparatus and computer program product for providing compound models for speech recognition adaptation
CN103310788A (zh) * 2013-05-23 2013-09-18 北京云知声信息技术有限公司 一种语音信息识别方法及系统
US9412395B1 (en) * 2014-09-30 2016-08-09 Audible, Inc. Narrator selection by comparison to preferred recording features
CN104464724A (zh) * 2014-12-08 2015-03-25 南京邮电大学 一种针对刻意伪装语音的说话人识别方法
CN105096955A (zh) * 2015-09-06 2015-11-25 广东外语外贸大学 一种基于模型生长聚类的说话人快速识别方法及系统
CN105654954A (zh) * 2016-04-06 2016-06-08 普强信息技术(北京)有限公司 一种云端语音识别系统及方法
CN108628841A (zh) * 2017-03-22 2018-10-09 湖南本来文化发展有限公司 基于birch聚类算法翻译粤语口音和英语的app
US20180342250A1 (en) * 2017-05-24 2018-11-29 AffectLayer, Inc. Automatic speaker identification in calls
CN107301386A (zh) * 2017-06-14 2017-10-27 哈尔滨理工大学 一种自适应K_means聚类奇异值分解降噪有效秩阶次确定法
CN109065028A (zh) * 2018-06-11 2018-12-21 平安科技(深圳)有限公司 说话人聚类方法、装置、计算机设备及存储介质
CN108877784A (zh) * 2018-09-05 2018-11-23 河海大学 一种基于口音识别的鲁棒语音识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
SHILEI ZHANG: "Modeling Syllable-Based Pronunciation Variation for Accented Mandarin Speech Recognition", 《2010 20TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》 *
丁鹏: "综合非语境因素的语音数据分类与声学建模研究", 《声学学报》 *
徐文颖: "基于神经网络的多口音普通话语音识别研究与实现", 《中国优秀硕士论文全文数据库》 *
戴红霞: "文本无关说话人识别系统的研究", 《语音、通信及信号处理》 *
郝雪: "基于SVD和稀疏子空间聚类的视频摘要", 《计算机辅助设计与图形学学报》 *
高娅: "说话人转变检测的研究与实现", 《中国优秀硕士论文全文数据库》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021047319A1 (zh) * 2019-09-11 2021-03-18 深圳壹账通智能科技有限公司 基于语音的个人信用评估方法、装置、终端及存储介质
WO2021175031A1 (zh) * 2020-03-03 2021-09-10 深圳壹账通智能科技有限公司 信息提示方法、装置、电子设备及介质
CN111429922A (zh) * 2020-03-27 2020-07-17 佛山科学技术学院 一种基于自适应语音增强的说话人识别方法及装置
CN111755012A (zh) * 2020-06-24 2020-10-09 湖北工业大学 一种基于深浅层特征融合的鲁棒性说话人识别方法
CN112562693A (zh) * 2021-02-24 2021-03-26 北京远鉴信息技术有限公司 一种基于聚类的说话人确定方法、确定装置及电子设备
CN113409763A (zh) * 2021-07-20 2021-09-17 北京声智科技有限公司 语音纠正方法、装置及电子设备
CN113409763B (zh) * 2021-07-20 2022-10-25 北京声智科技有限公司 语音纠正方法、装置及电子设备

Also Published As

Publication number Publication date
CN109961794B (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN109961794A (zh) 一种基于模型聚类的分层说话人识别方法
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
US7904295B2 (en) Method for automatic speaker recognition with hurst parameter based features and method for speaker classification based on fractional brownian motion classifiers
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
CN102324232A (zh) 基于高斯混合模型的声纹识别方法及系统
CN108281146A (zh) 一种短语音说话人识别方法和装置
CN102968990A (zh) 说话人识别方法和系统
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN107731233A (zh) 一种基于rnn的声纹识别方法
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN102194455A (zh) 一种与说话内容无关的声纹鉴别认证方法
CN109243492A (zh) 一种语音情感识别系统及识别方法
CN103456302A (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN108269573A (zh) 基于矢量量化和高斯混合模型的说话人识别系统
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
CN110415707B (zh) 一种基于语音特征融合和gmm的说话人识别方法
CN115101076B (zh) 一种基于多尺度通道分离卷积特征提取的说话人聚类方法
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Abushariah et al. Voice based automatic person identification system using vector quantization
CN115064175A (zh) 一种说话人识别方法
Dutta Text dependent speaker identification based on spectrograms
Zailan et al. Comparative analysis of LPC and MFCC for male speaker recognition in text-independent context
CN108242239A (zh) 一种声纹识别方法
Komlen et al. Text independent speaker recognition using LBG vector quantization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant