CN111028847B - 一种基于后端模型的声纹识别优化方法和相关装置 - Google Patents

一种基于后端模型的声纹识别优化方法和相关装置 Download PDF

Info

Publication number
CN111028847B
CN111028847B CN201911303022.4A CN201911303022A CN111028847B CN 111028847 B CN111028847 B CN 111028847B CN 201911303022 A CN201911303022 A CN 201911303022A CN 111028847 B CN111028847 B CN 111028847B
Authority
CN
China
Prior art keywords
voiceprint recognition
voice data
model
plda
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911303022.4A
Other languages
English (en)
Other versions
CN111028847A (zh
Inventor
郑颖龙
赖蔚蔚
吴广财
郑杰生
高尚
林嘉鑫
周昉昉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Guangdong Electric Power Information Technology Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Guangdong Electric Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Guangdong Electric Power Information Technology Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN201911303022.4A priority Critical patent/CN111028847B/zh
Publication of CN111028847A publication Critical patent/CN111028847A/zh
Application granted granted Critical
Publication of CN111028847B publication Critical patent/CN111028847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • G06F18/21322Rendering the within-class scatter matrix non-singular
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于后端模型的声纹识别优化方法和相关装置,包括:构建声纹识别PLDA模型,声纹识别PLDA模型的目标函数为
Figure DDA0002322337620000011
Figure DDA0002322337620000012
Figure DDA0002322337620000013
分别为方差矩阵Φb和方差矩阵Φw的逆矩阵,λ和β为超级参数;将对目标语音数据进行特征向量提取后得到的高维特征向量输入到声纹识别模型中进行声纹识别。解决了现有的声纹识别系统中,由于数据噪声和数据样本不足,导致基于PLDA的后端模型的两个方差矩阵不准确,使得PLDA模型不能反映实际数据,降低了声纹识别的准确率的技术问题。

Description

一种基于后端模型的声纹识别优化方法和相关装置
技术领域
本申请涉及声纹识别技术领域,尤其涉及一种基于后端模型的声纹识别优化方法和相关装置。
背景技术
声纹识别技术能够从语音中识别出说话人的身份,在用户登录、用户认证和公共安全等领域得到广泛应用。声纹识别主要包含声纹模型训练与声纹识别两个阶段,在声纹模型训练阶段,系统学习如何从一段语音信号中提取有差异性的高维特征向量(称为声纹向量),根据学习到的高维特征向量继续学习判断两段声音的相似性(后端模型识别),因此,实际上在声纹模型训练阶段,会训练两个模型:声纹向量提取模型和后端模型,在声纹识别阶段,系统利用在训练阶段已经训练好的“声纹向量提取模型”和“后端模型”,首先利用声纹向量提取模型对输入的语音信号提取高维特征,然后利用后端模型继续评判两个高维特征向量的相似性。在后端模型中,常使用PLDA模型,假设x是服从高斯分布,并且高斯分布的均值y是另一个均值为m、方差为Φb的高斯分布,方差为Φw,其PLDA模型的数学表示为:P(x|y)=N(x|y,Φw),p(y)=N(y|m,Φb),PLDA模型的参数可以通过EM算法从训练数据中得到。但是由于在实际应用中,数据噪声和数据样本不够等原因导致训练出来的两个方差矩阵Φb和Φw并不准确,导致PLDA模型不能反映实际数据的情况,降低了声纹识别的准确率。
发明内容
本申请提供了一种基于后端模型的声纹识别优化方法和相关装置,用于解决现有的声纹识别系统中,由于数据噪声和数据样本不足,导致基于PLDA的后端模型的两个方差矩阵不准确,使得PLDA模型不能反映实际数据,降低了声纹识别的准确率的技术问题。
有鉴于此,本申请第一方面提供了一种基于后端模型的声纹识别优化方法,包括:
构建声纹识别PLDA模型,所述声纹识别PLDA模型的目标函数为
Figure GDA0003688095620000021
Figure GDA0003688095620000022
分别为方差矩阵Φb和方差矩阵Φw的逆矩阵,λ和β为超级参数;
将对目标语音数据进行特征向量提取后得到的高维特征向量输入到所述声纹识别模型中进行声纹识别。
可选地,所述将对目标语音数据进行特征向量提取后得到的高维特征向量输入到所述声纹识别模型中进行声纹识别,之前还包括:
提取所述目标语音数据中的梅尔频率倒谱系数特征;
基于高维向量提取模型从所述梅尔频率倒谱系数特征中提取预置长度的高维特征向量。
可选地,所述提取所述目标语音数据中的梅尔频率倒谱系数特征,之前还包括:
对所述目标语音数据进行预处理,剔除无效语音数据。
可选地,所述对所述目标语音数据进行预处理,剔除无效语音数据,包括:
基于时频分析的方法对所述目标语音数据进行分段;
基于高斯混合模型判断每一段语音数据是否属于无效语音数据,若是,则将无效语音数据剔除。
本申请第二方面提供了一种基于后端模型的声纹识别优化装置,包括:
建模模块,用于构建声纹识别PLDA模型,所述声纹识别PLDA模型的目标函数为
Figure GDA0003688095620000023
Figure GDA0003688095620000024
分别为方差矩阵Φb和方差矩阵Φw的逆矩阵,λ和β为超级参数;
识别模块,用于将对目标语音数据进行特征向量提取后得到的高维特征向量输入到所述声纹识别模型中进行声纹识别。
可选地,还包括特征提取模块;
所述特征提取模块,用于:
提取所述目标语音数据中的梅尔频率倒谱系数特征;
基于高维向量提取模型从所述梅尔频率倒谱系数特征中提取预置长度的高维特征向量。
可选地,还包括:
预处理模块,用于对所述目标语音数据进行预处理,剔除无效语音数据。
可选地,所述预处理模块具体用于:
基于时频分析的方法对所述目标语音数据进行分段;
基于高斯混合模型判断每一段语音数据是否属于无效语音数据,若是,则将无效语音数据剔除。
本申请第三方面提供了一种基于后端模型的声纹识别优化设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的基于后端模型的声纹识别优化方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面任一种所述的基于后端模型的声纹识别优化方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中提供了一种基于后端模型的声纹识别优化方法,包括:构建声纹识别PLDA模型,声纹识别PLDA模型的目标函数为
Figure GDA0003688095620000031
Figure GDA0003688095620000032
分别为方差矩阵Φb和方差矩阵Φw的逆矩阵,λ和β为超级参数;将对目标语音数据进行特征向量提取后得到的高维特征向量输入到声纹识别模型中进行声纹识别。本申请提供的基于后端模型的声纹识别优化方法,对声纹识别PLDA模型的目标函数进行了改进,限制了方差矩阵Φb和方差矩阵Φw的逆矩阵的L1范数,对方差矩阵Φb和方差矩阵Φw进行了规范,使得在数据噪声和数据样本不足的情况下,能够准确估计方差矩阵Φb和方差矩阵Φw,提升了声纹识别PLDA模型的准确性,从而提升了声纹识别的识别准确率,解决了现有的声纹识别系统中,由于数据噪声和数据样本不足,导致基于PLDA的后端模型的两个方差矩阵不准确,使得PLDA模型不能反映实际数据,降低了声纹识别的准确率的技术问题。
附图说明
图1为本申请实施例中提供的一种基于后端模型的声纹识别优化方法的流程示意图;
图2为本申请实施例中提供的一种基于后端模型的声纹识别优化方法的另一流程示意图;
图3为本申请实施例中提供的一种基于后端模型的声纹识别优化装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供了一种基于后端模型的声纹识别优化方法的一个实施例,包括:
步骤101、构建声纹识别PLDA模型,声纹识别PLDA模型的目标函数为
Figure GDA0003688095620000041
Figure GDA0003688095620000042
分别为方差矩阵Φb和方差矩阵Φw的逆矩阵,λ和β为超级参数。
步骤102、将对目标语音数据进行特征向量提取后得到的高维特征向量输入到声纹识别模型中进行声纹识别。
需要说明的是,PLDA(Probabilistic Linear Discriminant Analysis,概率线性鉴别分析)模型参数简记为Θ,
Figure GDA0003688095620000043
传统的PLDA训练方式是解决Θ*=arg max{log P(X|Θ)}的数学问题,即找到使得观测数据X概率最大的参数,求解方法可以通过EM算法来进行迭代解决。本申请实施例中,为了提升参数估计的准确性,在传统的目标函数Θ*=arg max{log P(X|Θ)}的基础上增加对方差矩阵Φb和方差矩阵Φw的规范,限制其逆矩阵的L1范数,使得PLDA模型的鲁棒性更好。将声纹识别PLDA模型的目标函数目标函数设定为:
Figure GDA0003688095620000051
其中,
Figure GDA0003688095620000052
Figure GDA0003688095620000053
分别是方差矩阵Φb和方差矩阵Φw的逆矩阵,λ和β为两个超级参数,可以在一个开发数据集上进行调优,
Figure GDA0003688095620000054
表示逆矩阵
Figure GDA0003688095620000055
的一阶范数。目标函数
Figure GDA0003688095620000056
可以通过EM算法进行求解。
在求解过程中,可以将目标函数转化为求解
Figure GDA0003688095620000057
对于
Figure GDA0003688095620000058
问题的求解已有现有技术公开求解方式,在此不再进行赘述。
构建完优化的声纹识别PLDA模型之后,将对目标语音数据进行特征向量提取后得到的高维特征向量输入到声纹识别模型中进行声纹识别,根据学习到的高维特征向量判断目标语音数据与标准语音数据两端声音的相似性,从而实现声纹识别。
本申请实施例提供的基于后端模型的声纹识别优化方法,对声纹识别PLDA模型的目标函数进行了改进,限制了方差矩阵Φb和方差矩阵Φw的逆矩阵的L1范数,对方差矩阵Φb和方差矩阵Φw进行了规范,使得在数据噪声和数据样本不足的情况下,能够准确估计方差矩阵Φb和方差矩阵Φw,提升了声纹识别PLDA模型的准确性,从而提升了声纹识别的识别准确率,解决了现有的声纹识别系统中,由于数据噪声和数据样本不足,导致基于PLDA的后端模型的两个方差矩阵不准确,使得PLDA模型不能反映实际数据,降低了声纹识别的准确率的技术问题。
为了便于理解,请参阅图2,本申请中提供了一种基于后端模型的声纹识别优化方法的另一个实施例,包括:
步骤201、构建声纹识别PLDA模型,声纹识别PLDA模型的目标函数为
Figure GDA0003688095620000059
Figure GDA00036880956200000510
分别为方差矩阵Φb和方差矩阵Φw的逆矩阵,λ和β为超级参数。
需要说明的是,本申请实施例中的步骤201与上一实施例中的步骤101一致,在此不再进行赘述。
步骤202、对目标语音数据进行预处理,剔除无效语音数据。
需要说明的是,在获得的目标语音数据中有可能存在诸如彩铃、振铃、传真音或静音等非目标语音的数据,这些非目标语音数据的存在会影响声纹识别结果,因此,需要对目标语音数据进行预处理,将这些非目标语音数据作为无效语音数据剔除。进行的预处理过程可以是基于时频分析的方法对目标语音数据进行分段,然后采用高斯混合模型判断每一段语音数据是否属于无效语音数据,若是,则将无效语音数据剔除,保留有效语音数据。
步骤203、提取目标语音数据中的梅尔频率倒谱系数特征。
步骤204、基于高维向量提取模型从梅尔频率倒谱系数特征中提取预置长度的高维特征向量。
步骤205、将对目标语音数据进行特征向量提取后得到的高维特征向量输入到声纹识别模型中进行声纹识别。
需要说明的是,在对目标语音数据预处理完成后,进行对目标语音数据的特征提取处理,本申请实施例中提取的特征为梅尔频率倒谱系数特征,可以包括基本倒谱特征和对基本倒谱特征进行特征补偿后的18维特征。然后利用高维向量提取模型从特征中提取固定长度的高维向量,最后利用声纹识别PLDA模型对高维特征向量进行打分,即计算两段语音数据的相似度,得到最终的声纹识别输出结果。高维向量提取模型可以是ivector和xvector等。
为了便于理解,请参阅图3,本申请中提供了一种基于后端模型的声纹识别优化装置的实施例,包括:
建模模块,用于构建声纹识别PLDA模型,声纹识别PLDA模型的目标函数为
Figure GDA0003688095620000061
Figure GDA0003688095620000062
分别为方差矩阵Φb和方差矩阵Φw的逆矩阵,λ和β为超级参数。
识别模块,用于将对目标语音数据进行特征向量提取后得到的高维特征向量输入到声纹识别模型中进行声纹识别。
进一步地,还可以包括特征提取模块;
特征提取模块,用于:
提取目标语音数据中的梅尔频率倒谱系数特征;
基于高维向量提取模型从梅尔频率倒谱系数特征中提取预置长度的高维特征向量。
进一步地,还可以包括:
预处理模块,用于对目标语音数据进行预处理,剔除无效语音数据。
进一步地,预处理模块具体可以用于:
基于时频分析的方法对目标语音数据进行分段;
基于高斯混合模型判断每一段语音数据是否属于无效语音数据,若是,则将无效语音数据剔除。
本申请中还提供了一种基于后端模型的声纹识别优化设备的实施例,设备包括处理器以及存储器:
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行前述的基于后端模型的声纹识别优化方法实施例中的基于后端模型的声纹识别优化方法。
本申请中提供了一种计算机可读存储介质的实施例,计算机可读存储介质用于存储程序代码,程序代码用于执行前述的基于后端模型的声纹识别优化方法实施例中的基于后端模型的声纹识别优化方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机系统(可以是个人计算机,服务器,或者网络系统等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (8)

1.一种基于后端模型的声纹识别优化方法,其特征在于,包括:
构建声纹识别PLDA模型,所述声纹识别PLDA模型的目标函数为
Figure FDA0003688095610000011
Figure FDA0003688095610000012
分别为方差矩阵Φb和方差矩阵Φw的逆矩阵,λ和β为超级参数;
提取目标语音数据中的梅尔频率倒谱系数特征;
基于高维向量提取模型从梅尔频率倒谱系数特征中提取预置长度的高维特征向量;
将对目标语音数据进行特征向量提取后得到的高维特征向量输入到声纹识别PLDA模型中进行声纹识别。
2.根据权利要求1所述的基于后端模型的声纹识别优化方法,其特征在于,所述提取所述目标语音数据中的梅尔频率倒谱系数特征,之前还包括:
对所述目标语音数据进行预处理,剔除无效语音数据。
3.根据权利要求2所述的基于后端模型的声纹识别优化方法,其特征在于,所述对所述目标语音数据进行预处理,剔除无效语音数据,包括:
基于时频分析的方法对所述目标语音数据进行分段;
基于高斯混合模型判断每一段语音数据是否属于无效语音数据,若是,则将无效语音数据剔除。
4.一种基于后端模型的声纹识别优化装置,其特征在于,包括:
建模模块,用于构建声纹识别PLDA模型,所述声纹识别PLDA模型的目标函数为
Figure FDA0003688095610000013
Figure FDA0003688095610000014
分别为方差矩阵Φb和方差矩阵Φw的逆矩阵,λ和β为超级参数;
识别模块,用于:
提取目标语音数据中的梅尔频率倒谱系数特征;
基于高维向量提取模型从梅尔频率倒谱系数特征中提取预置长度的高维特征向量;
将对目标语音数据进行特征向量提取后得到的高维特征向量输入到声纹识别PLDA模型中进行声纹识别。
5.根据权利要求4所述的基于后端模型的声纹识别优化装置,其特征在于,还包括:
预处理模块,用于对所述目标语音数据进行预处理,剔除无效语音数据。
6.根据权利要求5所述的基于后端模型的声纹识别优化装置,其特征在于,所述预处理模块具体用于:
基于时频分析的方法对所述目标语音数据进行分段;
基于高斯混合模型判断每一段语音数据是否属于无效语音数据,若是,则将无效语音数据剔除。
7.一种基于后端模型的声纹识别优化设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-3任一项所述的基于后端模型的声纹识别优化方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-3任一项所述的基于后端模型的声纹识别优化方法。
CN201911303022.4A 2019-12-17 2019-12-17 一种基于后端模型的声纹识别优化方法和相关装置 Active CN111028847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911303022.4A CN111028847B (zh) 2019-12-17 2019-12-17 一种基于后端模型的声纹识别优化方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911303022.4A CN111028847B (zh) 2019-12-17 2019-12-17 一种基于后端模型的声纹识别优化方法和相关装置

Publications (2)

Publication Number Publication Date
CN111028847A CN111028847A (zh) 2020-04-17
CN111028847B true CN111028847B (zh) 2022-09-09

Family

ID=70210370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911303022.4A Active CN111028847B (zh) 2019-12-17 2019-12-17 一种基于后端模型的声纹识别优化方法和相关装置

Country Status (1)

Country Link
CN (1) CN111028847B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259114A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 语音处理方法及装置、计算机存储介质、电子设备
CN113724692B (zh) * 2021-10-08 2023-07-14 广东电力信息科技有限公司 一种基于声纹特征的电话场景音频获取与抗干扰处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN108447490A (zh) * 2018-02-12 2018-08-24 阿里巴巴集团控股有限公司 基于记忆性瓶颈特征的声纹识别的方法及装置
CN108694949A (zh) * 2018-03-27 2018-10-23 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
EP3435374A1 (en) * 2016-03-25 2019-01-30 Tencent Technology (Shenzhen) Company Limited Method and device for voice data processing and storage medium
CN109841218A (zh) * 2019-01-31 2019-06-04 北京声智科技有限公司 一种针对远场环境的声纹注册方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
CN107680600B (zh) * 2017-09-11 2019-03-19 平安科技(深圳)有限公司 声纹模型训练方法、语音识别方法、装置、设备及介质
CN107633845A (zh) * 2017-09-11 2018-01-26 清华大学 一种鉴别式局部信息距离保持映射的说话人确认方法
CN108520752B (zh) * 2018-04-25 2021-03-12 西北工业大学 一种声纹识别方法和装置
CN110148417B (zh) * 2019-05-24 2021-03-23 哈尔滨工业大学 基于总变化空间与分类器联合优化的说话人身份识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
EP3435374A1 (en) * 2016-03-25 2019-01-30 Tencent Technology (Shenzhen) Company Limited Method and device for voice data processing and storage medium
CN108447490A (zh) * 2018-02-12 2018-08-24 阿里巴巴集团控股有限公司 基于记忆性瓶颈特征的声纹识别的方法及装置
CN108694949A (zh) * 2018-03-27 2018-10-23 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
CN109841218A (zh) * 2019-01-31 2019-06-04 北京声智科技有限公司 一种针对远场环境的声纹注册方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Maximum likelihood from incomplete data via the EM algorithm";Dempster A P;《Journal of the Royal Statistical Society》;19771231;全文 *
"Sparse inverse covariance matrix estimation using quadratic approximation";Hsieh C;《Curran Associates Inc》;20111231;全文 *
"基于稀疏特征挑选和概率性线性判别分析的表情识别分析";张瑞;《电子学报》;20180731;第46卷(第7期);正文第1-4页 *

Also Published As

Publication number Publication date
CN111028847A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
JP5853029B2 (ja) 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム
CN109584884B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
Li et al. Simplified supervised i-vector modeling with application to robust and efficient language identification and speaker verification
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN111028847B (zh) 一种基于后端模型的声纹识别优化方法和相关装置
Perero-Codosero et al. X-vector anonymization using autoencoders and adversarial training for preserving speech privacy
Hourri et al. Convolutional neural network vectors for speaker recognition
CN108520752A (zh) 一种声纹识别方法和装置
CN111613230A (zh) 声纹验证方法、装置、设备及存储介质
Hanilçi et al. Comparison of the impact of some Minkowski metrics on VQ/GMM based speaker recognition
CN111091809A (zh) 一种深度特征融合的地域性口音识别方法及装置
CN114398611A (zh) 一种双模态身份认证方法、装置以及存储介质
EP3816996B1 (en) Information processing device, control method, and program
CN114495948B (zh) 一种声纹识别方法及装置
CN110188338B (zh) 文本相关的说话人确认方法和设备
CN116166771A (zh) 一种基于行为文本处理的语音服务内容识别方法
CN111968650B (zh) 语音匹配方法、装置、电子设备及存储介质
Zhipeng et al. Voiceprint recognition based on BP Neural Network and CNN
JP7107377B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
Long et al. Offline to online speaker adaptation for real-time deep neural network based LVCSR systems
CN113782033B (zh) 一种声纹识别方法、装置、设备及存储介质
Kangala et al. A Fractional Ebola Optimization Search Algorithm Approach for Enhanced Speaker Diarization.
CN116129911B (zh) 一种基于概率球面判别分析信道补偿的说话人识别方法
CN109584865B (zh) 一种应用程序控制方法、装置、可读存储介质及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant