CN105006231A - 基于模糊聚类决策树的分布式大型人口语者识别方法 - Google Patents

基于模糊聚类决策树的分布式大型人口语者识别方法 Download PDF

Info

Publication number
CN105006231A
CN105006231A CN201510234252.5A CN201510234252A CN105006231A CN 105006231 A CN105006231 A CN 105006231A CN 201510234252 A CN201510234252 A CN 201510234252A CN 105006231 A CN105006231 A CN 105006231A
Authority
CN
China
Prior art keywords
node
language person
language
algorithm
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510234252.5A
Other languages
English (en)
Inventor
陈志�
芮路
岳文静
黄继鹏
顾振兴
崔鸣浩
吴向忠
黄本轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201510234252.5A priority Critical patent/CN105006231A/zh
Publication of CN105006231A publication Critical patent/CN105006231A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

基于模糊聚类决策树的分布式大型人口语者识别方法首先将训练数据等分成几个部分,再对着几个部分分别使用基于模糊聚类的决策树分类;然后决定测试语者属于哪棵树的哪个叶节点;再对该选定的叶节点使用梅尔频率倒谱系数和高斯混合模型识别方法识别该语者身份。在本发明中,对训练数据模糊聚类的过程主要包括以下几个步骤:一是根据相应的层提取特征数据;二是计算特征数据的均值和标准差得到信任间距集合D;三是对集合D使用Lloyd算法得到分隔向量;四是以分隔向量为基础进行聚类分组得到下一层的节点。本发明可以显著提高分类准确率,具有更高的准确识别率和更低的计算复杂性,极大地提高了分类的效率,对加性噪声有良好的抗干扰力。

Description

基于模糊聚类决策树的分布式大型人口语者识别方法
技术领域
本发明涉及一种基于模糊聚类的决策树分类方法,主要用于解决大型人口语者识别问题,属于生物识别和数据挖掘的交叉技术应用领域。
背景技术
语者身份识别是一个有许多应用的生物识别系统的例子。在语者身份识别中,给出一个输入语音,任务是通过从注册在系统中的整体语者选择一个来决定未知语者的身份。语者识别的主要技术是基于梅尔频率倒谱系数和高斯混合模型的。一些以梅尔频率倒谱系数为基础的重要方法包括通用背景模型方法已被提出。另一种新兴变得很受欢迎的技术是i矢量方法。i矢量的方法已经广泛用于语者确认。但是,它没有直接被应用到语者识别。i矢量方法通常需要大量的表现良好的数据,并且当把i矢量应用于语者识别特别是大型人口的案例时,计算复杂度可能会很高。
数据挖掘是大量的数据中搜寻具有潜在价值的新信息的过程,是一种决策支持的过程,它主要基于机器学习、模式识别、统计学、数据库等,分析大量的数据,从其中找出潜在的模式帮助决策者做出正确的决定。数据挖掘主要有分类、估计、预测、聚类等分析方法。数据挖掘已经由计算机科学和统计学的一个主题发展为独立领域,广泛应用于电信、制造、医疗、保险等行业。
分类算法是解决分类问题的方法,是数据挖掘和机器学习中的一个研究领域。分类算法对已知类别的数据集进行分析,从而发现其中的分类规则,然后以此分类规则预测新的数据集中数据的类别。分类的应用很广泛,主要有性能预测、医疗诊断、欺诈检测等。
决策树主要描述的是划分数据为不同的组的规则,第一条规则先将数据集划分为不同大小的子集,然后将另外的规则应用在子数据集中,不同的数据集对应不同的划分规则,一个子集或者被继续划分或者单独作为一个分组成为一个叶子节点。本质上,决策树是用一系列规则对数据分类的过程。
模糊聚类是涉及事物之间的模糊界限时对事物按照一定标准分类的数学方法。聚类分析是数理统计中的一种多元分析方法,它是用数学方法定量地确定样本的亲疏关系,从而客观地划分类型。事物之间的界限,有些是确切的,有些则是模糊的。例人群中的面貌相像程度之间的界限是模糊的,天气阴、晴之间的界限也是模糊的。当聚类涉及事物之间的 模糊界限时,需运用模糊聚类分析方法。模糊聚类分析广泛应用在气象预报、地质、农业、林业等方面。
发明内容
技术问题:本发明的目的是提供一种基于模糊聚类决策树分类的分布式大型人口语者识别的方法,该方法在决策树建立的过程中使用了模糊聚类和分布式,以解决识别系统中数据高效分类,提高语者数量较大时分类精确性,降低计算复杂性的问题。
技术方案:本发明所述的基于模糊聚类决策树的分布式大型人口语者识别的方法,先将人口数据等分成几个部分,再分别使用一棵决策树分层地将整个人口数据分成组,然后决定一个测试下的语者属于哪个叶节点上的语者组,再在选定的语者组上应用梅尔频率倒谱系数和高斯混合模型方法来识别该语者身份。
基于模糊聚类的大型人口语者识别的决策树分类方法包括以下步骤:
步骤1)将语音样本数据等分成三个部分;分别将等分后的语音样本数据作为一棵决策树的根节点C1进行建树;每一个语音样本都来自不同的语者,Cn1,n2,...,nL,nL+1表示L层的第nL+1个节点;同时对三个语音样本数据执行同样的操作进行分类建树和语音识别;对根节点进行分组,得到的子节点执行相同的步骤继续进行分组直到建成决策树。
步骤2)判断当前节点中的样本数量是否大于预设值,若不大于则该节点为叶节点,已经不需要再进行分组。
步骤3)对节点上的样本进行特征提取,每一层只提取一种特征,依次提取音调,语音信号正脉冲的均值,语音信号正脉冲的偏斜,语音信号负脉冲的均值,语音信号负脉冲的偏斜和语音信号正脉冲的宽度,具体步骤如下:
步骤3.1)音调特征提取,具体步骤如下:
步骤3.1.1)将连续的语音输入到音调提取模块;
步骤3.1.2)音调提取模块使用YIN算法将语音分解成NF帧,一帧的长度是25ms,帧移位长度是10ms;所述的YIN算法是一种基于自相关方法的检测语音和音乐的基本频率的算法;
步骤3.1.3)获得第i帧(i=0,1,2,...,NF)的音调值Pi和有声概率Pri
步骤3.1.4)去掉50Hz到550Hz范围之外的音调值,同时去掉从有声概率低于0.8的帧中提取的音调值;最后得到可靠的音调值的集合;
步骤3.2)五个声源特征提取,具体步骤如下:
步骤3.2.1)将连续的语音分解成步骤3.1.2)中描述的帧; 
步骤3.2.2)计算每一帧的能量Ei和过零率Zi,并判断该帧是否有声,若不是有声则不进行操作,若是有声则用Levinson-Durbin算法来计算线性预测系数,通过使用线性预测系数得到线性预测剩余信号,然后从LP剩余信号中提取五个声源特征;提取的特征表示为Fi,j,i是当前节点上的语者索引,j(j=1,2,...,Ni)是特征索引,Ni表示语者i的特征值的总数;所述的Levinson-Durbin算法是一种利用自相关矩阵中特殊的对称性来求解正则方程组中的预测系数的算法。
步骤4)计算每个语者特征数据的平均值和标准差,计算公式为:  μ i = Σ j = 1 N i F i , j N i , δ i = Σ j = 1 N i ( F i , j - μ i ) N i - 1 , 其中μi为语者i的特征数据的平均值,σi为语者i的特征数据的标准差,Fi,j为提取出的特征,i是当前节点上的语者索引,j(j=1,2,...,Ni)是特征索引,Ni表示语者i的特征值的总数;然后构建一个可信任的间距[μi-λδii+λδi],λ是一个预定的系数;得到所有语者两个统计数据μi±λδi的集合D={μi-λδii+λδi}。
步骤5)对集合D使用Lloyd的算法得到分隔向量[P0,P1,...,PM],M为Lloyd的算法采用的语者组的总数;所述Lloyd算法是计算机科学领域中的k-平均算法,用于把观测按照距离分配到最近的聚类。
步骤6)对每个语者i(i∈C1)进行分组,判断其属于C1,m(m=1,2,...,M)中的哪一个,具体步骤如下:
步骤6.1)首先令m=1;
步骤6.2)然后判断[μi-λδii+λδi]∩[Pm-1Pm]是否大于0,若是则语者i属于C1,m然后进行下一步,若不是则直接进行下一步;
步骤6.3)判断m是否等于M,若是则结束,若不是则令m=m+1然后重复步骤6.2直到将所有的语者都分组完毕,所得的C1,m即是决策树的下一层;
步骤7)对一个测试下的语者进行身份识别,具体步骤如下:
步骤7.1)输入测试语者的语音;
步骤7.2)对已建好的三棵决策树,分别同时从决策树的根节点开始,对测试语者进行分类,直到其中一棵树分类完成,即识别出该语者身份,具体步骤如下:
步骤7.3)从树的根节点开始,对测试语者进行分类直到结束或找到测试语者属于的叶节点,对树的每个节点分别执行步骤7.4)和步骤7.5)的分类步骤;所述树的每个节点是非叶子节点或者叶子节点,所述根节点是非叶子节点或者叶子节点;
步骤7.4)判断该节点是否为叶节点,若是叶节点则对该节点使用梅尔频率倒谱系数和高斯混合模型进行身份识别;对测试语者的语音进行特征提取和异常值去除,提取方法同步骤3相同,且相应的层只提取相应的特征,得到特征集合{Fk},k=1,2,...,K,K为特征值总数;计算特征值的平均值
步骤7.5)通过比较平均值和从模糊聚类中的Lloyd算法得到的分隔向量[P0,P1,...,PM]来做分类决定,具体步骤如下:
步骤7.5.1)首先令m=1;
步骤7.5.2)然后判断是否有Pm-1≤μ≤Pm,若不是则令m=m+1重复此步骤继续判断直到m=M,若是则该测试语者被分类到子节点且此层分类结束。
有益效果:本发明在解决大型人口语者识别问题的时候,使用了数据挖掘中分类算法的决策树算法,并引入了模糊聚类方法和分布式思想以解决决策树分类中数据高效分类,以及在分类时的精确性问题。具体来说,本发明所述的基于模糊聚类的大型人口语者识别的决策树方法具有如下的有益效果:
(1)仅把MFCC+GMM应用于叶节点上的人口规模很小的语者组替代了把它应用于原始的大型人口;
(2)本发明使用的语音特征独立于MFCC且是相互独立的,因此在叶节点上使用MFCC+GMM方法识别有很好的性能,具有更高的准确识别率和更低的计算复杂性;
(3)分布式建树和测试,极大地提高了分类效率和识别效率;
(4)本发明对加性噪声的抗干扰能力强,具有良好的健壮性。
附图说明
图1是基于模糊聚类决策树的分布式的大型人口语者识别方法流程图,
图2是一个节点的模糊聚类分类过程图。
具体实施方式
本发明使用结合模糊聚类的决策树算法,解决大型人口语者识别问题,提高识别准确率和计算复杂性。下面根据实施例对本发明作更详细的描述。
本发明根据有声读物的语音样例进行具体描述使用Hadoop分布式平台,语音样本数据的语者有3800个,每个语音的时长为30s,加性噪声的信噪比为25dB。
1、将语音样本数据等分成三个部分部署到Hadoop的三个从结点上;分别将等分后的语音样本数据作为一棵决策树的根节点C1进行建树;每一个语音样本都来自不同的语者, 表示L层的第nL+1个节点;同时对三个语音样本数据执行同样的操作进行分类建树和语音识别,具体步骤如下;
对根节点进行分组,得到的子节点执行相同的步骤继续进行分组直到建成决策树,具体步骤如下:
2、判断当前节点中的样本数量是否大于预设20,若不大于则该节点为叶节点,已经不需要再进行分组;
3、对节点上的样本进行特征提取,每一层只提取一种特征,依次提取音调,语音信号正脉冲的均值,语音信号正脉冲的偏斜,语音信号负脉冲的均值,语音信号负脉冲的偏斜和语音信号正脉冲的宽度,具体步骤如下:
3.1、音调特征提取,具体步骤如下:
3.1.1、将连续的语音输入到音调提取模块;
3.1.2、音调提取模块使用YIN算法将语音分解成NF帧,一帧的长度是25ms,帧移位长度是10ms;所述的YIN算法是一种基于自相关方法的检测语音和音乐的基本频率的算法;
3.1.3、获得第i帧(i=0,1,2,...,NF)的音调值Pi和有声概率Pri
3.1.4、去掉50Hz到550Hz范围之外的音调值,同时去掉从有声概率低于0.8的帧中提取的音调值;最后得到可靠的音调值的集合;
3.2、五个声源特征提取,具体步骤如下:
3.2.1、将连续的语音分解成3.1.2中描述的帧; 
3.2.2、计算每一帧的能量Ei和过零率Zi,并判断该帧是否有声,若不是有声则不进行操作,若是有声则用Levinson-Durbin算法来计算线性预测系数,通过使用线性预测系数 得到线性预测剩余信号,然后从LP剩余信号中提取五个声源特征;提取的特征表示为Fi,j,i是当前节点上的语者索引,j(j=1,2,...,Ni)是特征索引,Ni表示语者i的特征值的总数;所述的Levinson-Durbin算法是一种利用自相关矩阵中特殊的对称性来求解正则方程组中的预测系数的算法;
4、计算每个语者特征数据的平均值和标准差,计算公式为: 其中μi为语者i的特征数据的平均值,σi为语者i的特征数据的标准差Fi,j为提取出的特征,i是当前节点上的语者索引,j(j=1,2,...,Ni)是特征索引,Ni表示语者i的特征值的总数;然后构建一个可信任的间距[μi-λδii+λδi],λ是一个预定的系数对于六个特征取值依次为0.8、1.1、0.55、0.8、0.85、0.7;得到所有语者两个统计数据μi±λδi的集合D={μi-λδii+λδi};
5、对集合D使用Lloyd的算法得到分隔向量[P0,P1,...,PM],M为Lloyd的算法采用的语者组的总数;
6、对每个语者i(i∈C1)进行分组,判断其属于C1,m(m=1,2,...,M)中的哪一个,具体步骤如下:
6.1、首先令m=1;
6.2、然后判断[μi-λδii+λδi]∩[Pm-1Pm]是否大于0,若是则语者i属于C1,m然后进行下一步,若不是则直接进行下一步;
6.3、判断m是否等于M,若是则结束,若不是则令m=m+1然后重复步骤6.2直到将所有的语者都分组完毕,所得的C1,m即是决策树的下一层;
7、对一个测试下的语者进行身份识别,具体步骤如下:
7.1、输入测试语者的语音;
7.2、对已建好的三棵决策树,分别同时从决策树的根节点开始,对测试语者进行分类,直到其中一棵树分类完成,即识别出该语者身份,具体步骤如下:
7.3、从树的根节点开始,对测试语者进行分类直到结束或找到测试语者属于的叶节点,每个节点上执行的分类步骤相同,具体步骤如下:
7.4、判断该节点是否为叶节点,若是叶节点则对该节点使用梅尔频率倒谱系数和高斯混合模型进行身份识别;对测试语者的语音进行特征提取和异常值去除,提取方法同3相同,且相应的层只提取相应的特征,得到特征集合{Fk},k=1,2,...,K,K为特征值总数;计算特征值的平均值
7.5、通过比较平均值和从模糊聚类中的Lloyd算法得到的分隔向量[P0,P1,...,PM]来做分类决定,具体步骤如下:
7.5.1、首先令m=1;
7.5.2、然后判断是否有Pm-1≤μ≤Pm,若不是则令m=m+1重复此步骤继续判断直到m=M,若是则该测试语者被分类到子节点且此层分类结束。

Claims (2)

1.一种基于模糊聚类决策树的分布式大型人口语者识别方法,其特征在于该方法包括以下步骤:
步骤1)将语音样本数据等分成三个部分;分别将等分后的语音样本数据作为一棵决策树的根节点C1进行建树;每一个语音样本都来自不同的语者, 表示L层的第nL+1个节点;同时对三个语音样本数据执行同样的操作进行分类建树和语音识别;对根节点进行分组,得到的子节点执行相同的步骤继续进行分组直到建成决策树;
步骤2)判断当前节点中的样本数量是否大于预设值,当前节点中的样本数量不大于预设值,该节点为叶节点,不要再进行分组;
步骤3)对节点上的样本进行特征提取,每一层只提取一种特征,依次提取音调、语音信号正脉冲的均值、语音信号正脉冲的偏斜、语音信号负脉冲的均值、语音信号负脉冲的偏斜和语音信号正脉冲的宽度;
步骤4)计算每个语者特征数据的平均值和标准差,计算公式为: 所述μi为语者i的特征数据的平均值,σi为语者i的特征数据的标准差Fi,j为提取出的特征,i是当前节点上的语者索引,j=1,2,...,Ni是特征索引,Ni表示语者i的特征值的总数;然后构建一个可信任的间距[μi-λδii+λδi],λ是一个预定的系数;得到所有语者两个统计数据μi±λδi的集合D={μi-λδii+λδi};
步骤5)对集合D使用Lloyd算法得到分隔向量[P0,P1,...,PM],M为Lloyd的算法采用的语者组的总数;所述Lloyd算法是计算机科学领域中的k-平均算法,用于把观测按照距离分配到最近的聚类;
步骤6)对每个语者i进行分组,i∈C1,判断其属于C1,m中的哪一个,m=1,2,...,M,具体步骤如下:
步骤6.1)首先令m=1;
步骤6.2)然后判断[μi-λδii+λδi]∩[Pm-1Pm]是否大于0,若是则语者i属于C1,m然后进行下一步,若不是则直接进行下一步;
步骤6.3)判断m是否等于M,若是则结束,若不是则令m=m+1然后重复步骤6.2直到将所有的语者都分组完毕,所得的C1,m即是决策树的下一层;
步骤7)对一个测试下的语者进行身份识别,具体步骤如下:
步骤7.1)输入测试语者的语音;
步骤7.2)对已建好的三棵决策树,分别同时从决策树的根节点开始,对测试语者进行分类,直到其中一棵树分类完成,即识别出该语者身份;
步骤7.3)从树的根节点开始,对测试语者进行分类直到结束或找到测试语者属于的叶节点,对树的每个节点分别执行步骤7.4)和步骤7.5)的分类步骤;所述树的每个节点是非叶子节点或者叶子节点,所述根节点是非叶子节点或者叶子节点;
步骤7.4)判断该节点是否为叶节点,若是叶节点则对该节点使用梅尔频率倒谱系数和高斯混合模型进行身份识别;对测试语者的语音进行特征提取和异常值去除,提取方法同步骤3)相同,且相应的层只提取相应的特征,得到特征集合{Fk},k=1,2,...,K,K为特征值总数;计算特征值的平均值
步骤7.5)通过比较平均值和从模糊聚类中的Lloyd算法得到的分隔向量[P0,P1,...,PM]来做分类决定,具体步骤如下:
步骤7.5.1)首先令m=1;
步骤7.5.2)判断是否有Pm-1≤μ≤Pm,若不是则令m=m+1重复此步骤继续判断直到m=M,若是则该测试语者被分类到子节点且此层分类结束。
2.根据权利要求1所述的基于模糊聚类决策树的分布式大型人口语者识别方法,其特征在于步骤3)对节点上的样本进行特征提取的具体步骤如下:
步骤3.1)音调特征提取,具体步骤如下:
步骤3.1.1)将连续的语音输入到音调提取模块;
步骤3.1.2)音调提取模块使用YIN算法将语音分解成NF帧,一帧的长度是25ms,帧移位长度是10ms;所述的YIN算法是一种基于自相关方法的检测语音和音乐的基本频率的算法;
步骤3.1.3)获得第i帧的音调值Pi和有声概率Pri,i=0,1,2,...,NF
步骤3.1.4)去掉50Hz到550Hz范围之外的音调值,同时去掉从有声概率低于0.8的帧 中提取的音调值;最后得到可靠的音调值的集合;
步骤3.2)五个声源特征提取,具体步骤如下:
步骤3.2.1)将连续的语音分解成步骤3.1.2)中描述的帧;
步骤3.2.2)计算每一帧的能量Ei和过零率Zi,并判断该帧是否有声,若不是有声则不进行操作,若是有声则用Levinson-Durbin算法来计算线性预测系数,通过使用线性预测系数得到线性预测剩余信号,然后从LP剩余信号中提取五个声源特征;提取的特征表示为Fi,j,i是当前节点上的语者索引,j是特征索引,j=1,2,...,Ni,Ni表示语者i的特征值的总数;所述的Levinson-Durbin算法是一种利用自相关矩阵中特殊的对称性来求解正则方程组中的预测系数的算法。
CN201510234252.5A 2015-05-08 2015-05-08 基于模糊聚类决策树的分布式大型人口语者识别方法 Pending CN105006231A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510234252.5A CN105006231A (zh) 2015-05-08 2015-05-08 基于模糊聚类决策树的分布式大型人口语者识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510234252.5A CN105006231A (zh) 2015-05-08 2015-05-08 基于模糊聚类决策树的分布式大型人口语者识别方法

Publications (1)

Publication Number Publication Date
CN105006231A true CN105006231A (zh) 2015-10-28

Family

ID=54378878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510234252.5A Pending CN105006231A (zh) 2015-05-08 2015-05-08 基于模糊聚类决策树的分布式大型人口语者识别方法

Country Status (1)

Country Link
CN (1) CN105006231A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391674A (zh) * 2017-07-21 2017-11-24 北京神州泰岳软件股份有限公司 一种新类挖掘方法及装置
CN107886955A (zh) * 2016-09-29 2018-04-06 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN108922543A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质
CN110827808A (zh) * 2019-12-06 2020-02-21 北京明略软件系统有限公司 语音识别方法、装置、电子设备和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2720666C2 (zh) * 1977-05-07 1987-01-29 Philips Patentverwaltung Gmbh, 2000 Hamburg, De
US20030125940A1 (en) * 2002-01-02 2003-07-03 International Business Machines Corporation Method and apparatus for transcribing speech when a plurality of speakers are participating
CN1751924A (zh) * 2004-09-20 2006-03-29 丰田自动车株式会社 车辆的制动力控制装置
CN102567507A (zh) * 2011-12-26 2012-07-11 深圳市万兴软件有限公司 一种在mac下创建树的方法及系统
CN103426428A (zh) * 2012-05-18 2013-12-04 华硕电脑股份有限公司 语音识别方法及系统
CN103730111A (zh) * 2013-08-15 2014-04-16 中华电信股份有限公司 利用语者识别的切割音视讯片段的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2720666C2 (zh) * 1977-05-07 1987-01-29 Philips Patentverwaltung Gmbh, 2000 Hamburg, De
US20030125940A1 (en) * 2002-01-02 2003-07-03 International Business Machines Corporation Method and apparatus for transcribing speech when a plurality of speakers are participating
CN1751924A (zh) * 2004-09-20 2006-03-29 丰田自动车株式会社 车辆的制动力控制装置
CN102567507A (zh) * 2011-12-26 2012-07-11 深圳市万兴软件有限公司 一种在mac下创建树的方法及系统
CN103426428A (zh) * 2012-05-18 2013-12-04 华硕电脑股份有限公司 语音识别方法及系统
CN103730111A (zh) * 2013-08-15 2014-04-16 中华电信股份有限公司 利用语者识别的切割音视讯片段的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YAKUN HU ET AL.: "《Fuzzy-Clustering-Based Decision Tree Approach for Large Population Speaker Identification》", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886955A (zh) * 2016-09-29 2018-04-06 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN107886955B (zh) * 2016-09-29 2021-10-26 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN107391674A (zh) * 2017-07-21 2017-11-24 北京神州泰岳软件股份有限公司 一种新类挖掘方法及装置
CN107391674B (zh) * 2017-07-21 2020-04-10 中科鼎富(北京)科技发展有限公司 一种新类挖掘方法及装置
CN108922543A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质
CN108922543B (zh) * 2018-06-11 2022-08-16 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质
CN110827808A (zh) * 2019-12-06 2020-02-21 北京明略软件系统有限公司 语音识别方法、装置、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
Barchiesi et al. Acoustic scene classification: Classifying environments from the sounds they produce
West et al. Features and classifiers for the automatic classification of musical audio signals.
CN110120218B (zh) 基于gmm-hmm的高速公路大型车辆识别方法
Cakir et al. Multi-label vs. combined single-label sound event detection with deep neural networks
Jancovic et al. Bird species recognition using unsupervised modeling of individual vocalization elements
CN110211594B (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
CN112861984B (zh) 一种基于特征融合与集成学习的语音情感分类方法
CN112289326B (zh) 一种利用具有噪音去除的鸟类识别综合管理系统的噪音去除方法
CN112750442B (zh) 一种具有小波变换的朱鹮种群生态体系监测系统及其方法
CN111462761A (zh) 声纹数据生成方法、装置、计算机装置及存储介质
CN102592593A (zh) 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
CN115101076B (zh) 一种基于多尺度通道分离卷积特征提取的说话人聚类方法
Iqbal et al. Mfcc and machine learning based speech emotion recognition over tess and iemocap datasets
CN116524960A (zh) 一种基于混合熵下采样和集成分类器的语音情感识别系统
Hou et al. Transfer learning for improving singing-voice detection in polyphonic instrumental music
Trabelsi et al. Improved frame level features and SVM supervectors approach for the recogniton of emotional states from speech: Application to categorical and dimensional states
CN107909090A (zh) 基于测度学习半监督的钢琴乐谱难度识别方法
Chaves et al. Katydids acoustic classification on verification approach based on MFCC and HMM
Prakash et al. Analysis of emotion recognition system through speech signal using KNN & GMM classifier
Damer et al. Automatically determining correct application of basic quranic recitation rules
CN112735442B (zh) 一种具有音频分离声纹识别的湿地生态监测系统及其音频分离方法
Li et al. Feature extraction with convolutional restricted boltzmann machine for audio classification
Barreira et al. Unsupervised music genre classification with a model-based approach
Gade et al. Hybrid Deep Convolutional Neural Network based Speaker Recognition for Noisy Speech Environments

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151028