CN107705792A - 一种基于声纹模型训练的机器人语音识别控制方法 - Google Patents
一种基于声纹模型训练的机器人语音识别控制方法 Download PDFInfo
- Publication number
- CN107705792A CN107705792A CN201711227504.7A CN201711227504A CN107705792A CN 107705792 A CN107705792 A CN 107705792A CN 201711227504 A CN201711227504 A CN 201711227504A CN 107705792 A CN107705792 A CN 107705792A
- Authority
- CN
- China
- Prior art keywords
- speech
- speech recognition
- user
- sound
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000001419 dependent effect Effects 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 12
- 238000000556 factor analysis Methods 0.000 claims description 8
- 230000001755 vocal effect Effects 0.000 claims description 8
- 239000004568 cement Substances 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 5
- 241001269238 Data Species 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000003321 amplification Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于声纹模型训练的机器人语音识别控制方法,其特征在于,所述方法包括:接收用户的语音数据;判断机器人当前语音识别模式为特定人语音识别模式或非特定人语音识别模式;当判断机器人当前语音识别模式为特定人语音识别模式时,对所述语音数据进行声纹认证和语音识别;当判断机器人当前语音识别模式为非特定人语音识别模式时,对所述语音数据进行语音识别。上述技术方案的有益效果:可通过声纹认证对用户进行身份认证,同时也提供了针对非特定人的语音识别方法,用户可自主选择不同的语音识别模式以满足不同的需求。
Description
技术领域
本发明涉及语音识别技术,尤其涉及一种基于声纹模型训练的机器人语音识别控制方法。
背景技术
目前,现有的很多机器人虽然具备语音识别的功能,但是在进行语音识别之前并没有对用户进行身份认证,这对用户的隐私安全造成极大的隐患。
发明内容
针对现有的技术存在的上述问题,现提供一种基于声纹模型训练的机器人语音识别控制方法的技术方案,具体如下:
一种基于声纹模型训练的机器人语音识别控制方法,其中,所述方法包括:
接收用户的语音数据;
判断机器人当前语音识别模式为特定人语音识别模式或非特定人语音识别模式;
当判断机器人当前语音识别模式为特定人语音识别模式时,对所述语音数据进行声纹认证和语音识别;
当判断机器人当前语音识别模式为非特定人语音识别模式时,对所述语音数据进行语音识别。
优选的,接收用户的语音数据之前,需要建立背景模型库和用户声纹模型,还包括:
采用联合因子分析模型构建说话人空间、信道空间和残差空间三个子空间;所述联合因子分析模型的高斯均值向量表征为:
Mki=mk+Ukxi+Vkys(i)+Dkzks(i)
其中,k代表第k个高斯模型,i代表某一个语音段,s(i)表示说话人s的某一语音段,mk表示独立于说话人和会话内容的均值向量,Uk表示特征信道矩阵,Vk表示特征说话人矩阵,Dk表示残差空间矩阵;xi表示信道因子向量,ys(i)表示依赖于说话人的声纹因子向量,zks(i)表示依赖于说话人和单个高斯模型的残差因子向量。
优选的,建立背景模型库包括:
采集语音信号作为训练数据;
对采集的所述语音信号进行平衡性分析和处理,保持语音的长度相似,保证信道易变性和会话易变性的平衡;
对处理后的所述语音信号进行前端预处理;
针对所述语音信号中某个固定说话人的语音信号求统计量,构建特征信道矩阵Uk;
构建残差空间矩阵Dk,完善用于声纹识别的背景模型库。
优选的,对处理后的语音信号进行前端预处理包括:
将所述语音信号分段加窗并计算得到梅尔频率倒谱系数的特征参数流数据;
通过所述特征参数流数据训练通用背景模型;
将所有所述语音信号根据最大后验准则将其自适应到说话人模型上,并通过构建特征音空间的方法对表征特定所述说话人模型的参数进行降维处理;
通过稀疏数据的em算法最大化所有训练数据中的整体似然度,针对所有说话人的语音信号求统计量,构建特征说话人矩阵Vk。
优选的,建立用户声纹模型包括:
接受用户的训练语音;
根据所述训练语音建立用户声纹模型;
接受用户的测试语音;
对所述测试语音进行测试归一化和零归一化分数规整,放大用户和其他人的分数区别,以此设定门限值。
优选的,根据所述训练语音建立用户声纹模型包括:
对所述训练语音对应的声纹模型进行训练和识别,通过最大似然法训练模型对信道因子向量xi、依赖于用户的声纹因子向量ys(i)、依赖于用户和单个高斯模型的残差因子向量zks(i)进行最大后验概率估计,其中,ys(i)用以表征用户的特征向量,xi和zks(i)用以补偿信道易变性和会话易变性的干扰;
建立用户声纹模型。
优选的,当判断机器人当前语音识别模式为特定人语音识别模式时,对所述语音数据进行声纹认证和语音识别,所述声纹认证包括:
对所述语音数据进行前端处理,前端处理包括端点检测和语音增强;
采用所述通用背景模型作为说话人的特征向量,根据所述语音数据对残差因子向量zks(i)和信道因子向量xi进行估计,将估计后的参数与机器人记录的用户的特征向量ys(i)进行结合,计算所述语音数据对应的分数;
比较所述语音数据对应的分数与所述门限值的大小:
当所述语音数据对应的分数大于或等于所述门限值,则声纹认证成功,通过机器人的语音识别器对所述语音数据进行识别;
当所述语音数据对应的分数小于所述门限值,则拒绝进行语音识别。
优选的,当判断机器人当前语音识别模式为非特定人语音识别模式时,对所述语音数据进行语音识别,所述语音识别包括:
对所述语音数据进行前端处理,前端处理包括端点检测和语音增强;
通过机器人的语音识别器对所述语音数据进行识别。
上述技术方案的有益效果:提供一种基于声纹模型训练的机器人语音识别控制方法,可通过声纹认证对用户进行身份认证,同时也提供了针对非特定人的语音识别方法,用户可自主选择不同的语音识别模式以满足不同的需求。
附图说明
图1为本发明的较佳的实施例中,一种基于声纹模型训练的机器人语音识别控制方法流程示意图;
图2-7为本发明的较佳的实施例中,于图1的基础上,一种基于声纹模型训练的机器人语音识别控制方法的分步骤流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
一种基于声纹模型训练的机器人语音识别控制方法,其流程如图1,所述方法包括:
步骤S1,接收用户的语音数据;
步骤S2,判断机器人当前语音识别模式为特定人语音识别模式或非特定人语音识别模式;
步骤S3,当判断机器人当前语音识别模式为特定人语音识别模式时,对所述语音数据进行声纹认证和语音识别;
步骤S4,当判断机器人当前语音识别模式为非特定人语音识别模式时,对所述语音数据进行语音识别。
本发明的较佳的实施例中,接收用户的语音数据之前,需要建立背景模型库和用户声纹模型,还包括:
采用联合因子分析模型构建说话人空间、信道空间和残差空间三个子空间;所述联合因子分析模型的高斯均值向量表征为:
Mki=mk+Ukxi+Vkys(i)+Dkzks(i)
其中,k代表第k个高斯模型,i代表某一个语音段,s(i)表示说话人s的某一语音段,mk表示独立于说话人和会话内容的均值向量,Uk表示特征信道矩阵,Vk表示特征说话人矩阵,Dk表示残差空间矩阵;xi表示信道因子向量,ys(i)表示依赖于说话人的声纹因子向量,zks(i)表示依赖于说话人和单个高斯模型的残差因子向量。
本发明的较佳的实施例中,如图2所示,建立背景模型库包括:
步骤S51,采集语音信号作为训练数据;使用机器人,让前期测试人员在不同时间地点采集自己的声音作为训练语料,语料需要进行人工标注,包括录音地点、传输方式和说话人的身份(ID)。
步骤S52,对采集的所述语音信号进行平衡性分析和处理,保持语音的长度相似,保证信道易变性和会话易变性的平衡;信道易变性是指在室内,语音不可避免地会携带背景环境的信息,对声纹模型会有不同程度的影响;会话易变性是指同一用户,说话时的语气、感情、说话的内容和语种的不同会对声纹模型带来影响。
步骤S53,对处理后的所述语音信号进行前端预处理;
步骤S54,针对所述语音信号中某个固定说话人的语音信号求统计量,构建特征信道矩阵Uk;
步骤S55,构建残差空间矩阵Dk,完善用于声纹识别的背景模型库。将背景模型库存储在机器人的存储设备中。
为了降低和消除步骤S52中所提到的干扰对声纹识别系统性能的影响,PatrickKenny等研究者提出了一种在传统的GMM-UBM(高斯混合模型-通用背景噪声模型)声纹识别系统基础上的改进模型算法,称为联合因子分析(Joint Factor Analysis,JFA),该方法在NIST2008说话人识别评比中取得了最优的成绩,并且能够有效处理易变性对声纹模型带来的干扰。
JFA模型是一种两层模型,基于经典的GMM-UBM框架。传统的GMM-UBM模型已经验证,不同声纹模型的差异只在于每个高斯的均值向量,而每个高斯模型的权重和方差都可以直接来源于UBM的取值。传统的UBM-GMM模型抛弃了训练语音中大量的信道信息和会话信息。而JFA模型构建了三个子空间:说话人空间、信道空间和残差空间,最终的高斯均值向量表征为:
Mki=mk+Ukxi+Vkys(i)+Dkzks(i) (I)
下标的含义如下,k代表第k个高斯模型,i代表某一个语音段(会话),s(i)表示说话人s的某一语音段i。上述公式中:mk表示独立于说话人和会话内容的均值向量,一般是取UBM中的相应高斯的均值向量;Uk表示信道因子负载方阵;Vk表示说话人因子负载方阵;Dk表示说话人残差计量方阵,为对角矩阵;
以上矩阵都需要大量的背景数据进行训练,取得相应的最大似然的模型。这些训练过程都不需要用户参与。而隐藏的用户参数和会话参数需要机器人采集用户的声音进行训练和最大似然。这些隐藏的用户参数和会话参数为:xi代表依赖于会话的信道因子向量;ys(i)代表依赖于说话人的声纹因子向量;zks(i)表示依赖于说话人和单个高斯模型的残差因子向量;通常认为xi,ys(i)和zks(i)都是符合(0,1)分布的标准高斯分布。JFA通过引入的两个新的子空间(信道空间和残差空间)的参数估计,将信道易变性和会话易变性的影响考量进最终的声纹模型中,从而是最终的高斯均值向量(这个向量表征了每个特定的说话人的声纹特征)。
JFA模型使得声纹识别系统能够很好地抑制和消除语音接收设备带来的种种易变性干扰。
本发明的较佳的实施例中,如图3所示,对处理后的语音信号进行前端预处理包括:
步骤S531,将所述语音信号分段加窗并计算得到梅尔频率倒谱系数的特征参数流数据;
步骤S532,通过所述特征参数流数据训练通用背景模型;
步骤S533,将所有所述语音信号根据最大后验准则将其自适应到说话人模型上,并通过构建特征音空间的方法对表征特定所述说话人模型的参数进行降维处理;
步骤S534,通过稀疏数据的em算法最大化所有训练数据中的整体似然度,针对所有说话人的语音信号求统计量,构建特征说话人矩阵Vk。em算法包括E步骤和M步骤,重复两个步骤进行迭代,直至收敛到一个很小的范围为止。
本发明的较佳的实施例中,如图4所示,建立用户声纹模型包括:
步骤S61,接受用户的训练语音;机器人通过专门的语音接收设备接收用户录入的各种语音。
步骤S62,根据所述训练语音建立用户声纹模型;
步骤S63,接受用户的测试语音;
步骤S64,对所述测试语音进行测试归一化和零归一化分数规整,放大用户和其他人的分数区别,以此设定门限值。
本发明的较佳的实施例中,如图5所示,根据所述训练语音建立用户声纹模型包括:
步骤S621,对所述训练语音对应的声纹模型进行训练和识别,通过最大似然法训练模型对信道因子向量xi、依赖于用户的声纹因子向量ys(i)、依赖于用户和单个高斯模型的残差因子向量zks(i)进行最大后验概率估计,其中,ys(i)用以表征用户的特征向量,xi和zks(i)用以补偿信道易变性和会话易变性的干扰;
步骤S622,建立用户声纹模型。
本发明的较佳的实施例中,如图6所示,当判断机器人当前语音识别模式为特定人语音识别模式时,对所述语音数据进行声纹认证和语音识别,所述声纹认证包括:
步骤S31,对所述语音数据进行前端处理,前端处理包括端点检测和语音增强;
步骤S32,采用所述通用背景模型作为说话人的特征向量,根据所述语音数据对残差因子向量zks(i)和信道因子向量xi进行估计,将估计后的参数与机器人记录的用户的特征向量ys(i)进行结合,计算所述语音数据对应的分数;
步骤S33,比较所述语音数据对应的分数与所述门限值的大小:
当所述语音数据对应的分数大于或等于所述门限值,则声纹认证成功,通过机器人的语音识别器对所述语音数据进行识别;
当所述语音数据对应的分数小于所述门限值,则拒绝进行语音识别。
本发明的较佳的实施例中,如图7所示,当判断机器人当前语音识别模式为非特定人语音识别模式时,对所述语音数据进行语音识别,所述语音识别包括:
步骤S41,对所述语音数据进行前端处理,前端处理包括端点检测和语音增强;
步骤S42,通过机器人的语音识别器对所述语音数据进行识别。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
Claims (8)
1.一种基于声纹模型训练的机器人语音识别控制方法,其特征在于,所述方法包括:
接收用户的语音数据;
判断机器人当前语音识别模式为特定人语音识别模式或非特定人语音识别模式;
当判断机器人当前语音识别模式为特定人语音识别模式时,对所述语音数据进行声纹认证和语音识别;
当判断机器人当前语音识别模式为非特定人语音识别模式时,对所述语音数据进行语音识别。
2.如权利要求1所述的方法,其特征在于,接收用户的语音数据之前,需要建立背景模型库和用户声纹模型,还包括:
采用联合因子分析模型构建说话人空间、信道空间和残差空间三个子空间;所述联合因子分析模型的高斯均值向量表征为:
Mki=mk+Ukxi+Vkys(i)+Dkzks(i)
其中,k代表第k个高斯模型,i代表某一个语音段,s(i)表示说话人s的某一语音段,mk表示独立于说话人和会话内容的均值向量,Uk表示特征信道矩阵,Vk表示特征说话人矩阵,Dk表示残差空间矩阵;xi表示信道因子向量,ys(i)表示依赖于说话人的声纹因子向量,zks(i)表示依赖于说话人和单个高斯模型的残差因子向量。
3.如权利要求2所述的方法,其特征在于,建立背景模型库包括:
采集语音信号作为训练数据;
对采集的所述语音信号进行平衡性分析和处理,保持语音的长度相似,保证信道易变性和会话易变性的平衡;
对处理后的所述语音信号进行前端预处理;
针对所述语音信号中某个固定说话人的语音信号求统计量,构建特征信道矩阵Uk;
构建残差空间矩阵Dk,完善用于声纹识别的背景模型库。
4.如权利要求3所述的方法,其特征在于,对处理后的语音信号进行前端预处理包括:
将所述语音信号分段加窗并计算得到梅尔频率倒谱系数的特征参数流数据;
通过所述特征参数流数据训练通用背景模型;
将所有所述语音信号根据最大后验准则将其自适应到说话人模型上,并通过构建特征音空间的方法对表征特定所述说话人模型的参数进行降维处理;
通过稀疏数据的em算法最大化所有训练数据中的整体似然度,针对所有说话人的语音信号求统计量,构建特征说话人矩阵Vk。
5.如权利要求2所述的方法,其特征在于,建立用户声纹模型包括:
接受用户的训练语音;
根据所述训练语音建立用户声纹模型;
接受用户的测试语音;
对所述测试语音进行测试归一化和零归一化分数规整,放大用户和其他人的分数区别,以此设定门限值。
6.如权利要求5所述的方法,其特征在于,根据所述训练语音建立用户声纹模型包括:
对所述训练语音对应的声纹模型进行训练和识别,通过最大似然法训练模型对信道因子向量xi、依赖于用户的声纹因子向量ys(i)、依赖于用户和单个高斯模型的残差因子向量zks(i)进行最大后验概率估计,其中,ys(i)用以表征用户的特征向量,xi和zks(i)用以补偿信道易变性和会话易变性的干扰;
建立用户声纹模型。
7.如权利要求1所述的方法,其特征在于,当判断机器人当前语音识别模式为特定人语音识别模式时,对所述语音数据进行声纹认证和语音识别,所述声纹认证包括:
对所述语音数据进行前端处理,前端处理包括端点检测和语音增强;
采用所述通用背景模型作为说话人的特征向量,根据所述语音数据对残差因子向量zks(i)和信道因子向量xi进行估计,将估计后的参数与机器人记录的用户的特征向量ys(i)进行结合,计算所述语音数据对应的分数;
比较所述语音数据对应的分数与所述门限值的大小:
当所述语音数据对应的分数大于或等于所述门限值,则声纹认证成功,通过机器人的语音识别器对所述语音数据进行识别;
当所述语音数据对应的分数小于所述门限值,则拒绝进行语音识别。
8.如权利要求1所述的方法,其特征在于,当判断机器人当前语音识别模式为非特定人语音识别模式时,对所述语音数据进行语音识别,所述语音识别包括:
对所述语音数据进行前端处理,前端处理包括端点检测和语音增强;
通过机器人的语音识别器对所述语音数据进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711227504.7A CN107705792A (zh) | 2017-11-29 | 2017-11-29 | 一种基于声纹模型训练的机器人语音识别控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711227504.7A CN107705792A (zh) | 2017-11-29 | 2017-11-29 | 一种基于声纹模型训练的机器人语音识别控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107705792A true CN107705792A (zh) | 2018-02-16 |
Family
ID=61181150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711227504.7A Pending CN107705792A (zh) | 2017-11-29 | 2017-11-29 | 一种基于声纹模型训练的机器人语音识别控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107705792A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108492830A (zh) * | 2018-03-28 | 2018-09-04 | 深圳市声扬科技有限公司 | 声纹识别方法、装置、计算机设备和存储介质 |
CN109994116A (zh) * | 2019-03-11 | 2019-07-09 | 南京邮电大学 | 一种基于会议场景小样本条件下的声纹准确识别方法 |
CN110364168A (zh) * | 2019-07-22 | 2019-10-22 | 南京拓灵智能科技有限公司 | 一种基于环境感知的声纹识别方法及系统 |
CN110516426A (zh) * | 2019-08-21 | 2019-11-29 | 广州国音智能科技有限公司 | 身份认证方法、认证终端、装置及可读存储介质 |
CN111429922A (zh) * | 2020-03-27 | 2020-07-17 | 佛山科学技术学院 | 一种基于自适应语音增强的说话人识别方法及装置 |
CN111862983A (zh) * | 2019-04-22 | 2020-10-30 | 北京达佳互联信息技术有限公司 | 协作编辑方法、装置、电子设备及介质 |
-
2017
- 2017-11-29 CN CN201711227504.7A patent/CN107705792A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108492830A (zh) * | 2018-03-28 | 2018-09-04 | 深圳市声扬科技有限公司 | 声纹识别方法、装置、计算机设备和存储介质 |
CN109994116A (zh) * | 2019-03-11 | 2019-07-09 | 南京邮电大学 | 一种基于会议场景小样本条件下的声纹准确识别方法 |
CN109994116B (zh) * | 2019-03-11 | 2021-01-19 | 南京邮电大学 | 一种基于会议场景小样本条件下的声纹准确识别方法 |
CN111862983A (zh) * | 2019-04-22 | 2020-10-30 | 北京达佳互联信息技术有限公司 | 协作编辑方法、装置、电子设备及介质 |
CN110364168A (zh) * | 2019-07-22 | 2019-10-22 | 南京拓灵智能科技有限公司 | 一种基于环境感知的声纹识别方法及系统 |
CN110364168B (zh) * | 2019-07-22 | 2021-09-14 | 北京拓灵新声科技有限公司 | 一种基于环境感知的声纹识别方法及系统 |
CN110516426A (zh) * | 2019-08-21 | 2019-11-29 | 广州国音智能科技有限公司 | 身份认证方法、认证终端、装置及可读存储介质 |
CN111429922A (zh) * | 2020-03-27 | 2020-07-17 | 佛山科学技术学院 | 一种基于自适应语音增强的说话人识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107705792A (zh) | 一种基于声纹模型训练的机器人语音识别控制方法 | |
CN110491391B (zh) | 一种基于深度神经网络的欺骗语音检测方法 | |
US5950157A (en) | Method for establishing handset-dependent normalizing models for speaker recognition | |
CN105513605B (zh) | 手机麦克风的语音增强系统和语音增强方法 | |
CN105765650B (zh) | 带有多向解码的语音辨识器 | |
US6205424B1 (en) | Two-staged cohort selection for speaker verification system | |
CN107492382A (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
Bhattacharya et al. | Deep speaker recognition: Modular or monolithic? | |
CN108831440A (zh) | 一种基于机器学习及深度学习的声纹降噪方法及系统 | |
CN107146601A (zh) | 一种用于说话人识别系统的后端i‑vector增强方法 | |
McLaren et al. | Source-normalised-and-weighted LDA for robust speaker recognition using i-vectors | |
TW201419270A (zh) | 詞語驗證的方法及裝置 | |
CN110189746A (zh) | 一种应用于地空通信的话音识别方法 | |
CN109448755A (zh) | 人工耳蜗听觉场景识别方法 | |
Scherer et al. | Multimodal laughter detection in natural discourses | |
Zheng et al. | Text-independent speaker identification using GMM-UBM and frame level likelihood normalization | |
Schwartz et al. | USSS-MITLL 2010 human assisted speaker recognition | |
Lee et al. | An efferent-inspired auditory model front-end for speech recognition | |
CN110858484A (zh) | 一种基于声纹识别技术的语音识别方法 | |
CN109727600A (zh) | 一种基于文本无关的短语音说话人确认方法 | |
Ezzaidi et al. | Pitch and MFCC dependent GMM models for speaker identification systems | |
JP2001265387A (ja) | 話者照合装置及び方法 | |
Gu et al. | Gaussian speaker embedding learning for text-independent speaker verification | |
Liang et al. | Perceptual MVDR-based cepstral coefficients (PMCCs) for speaker recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180216 |