CN110310647B - 一种语音身份特征提取器、分类器训练方法及相关设备 - Google Patents
一种语音身份特征提取器、分类器训练方法及相关设备 Download PDFInfo
- Publication number
- CN110310647B CN110310647B CN201910741216.6A CN201910741216A CN110310647B CN 110310647 B CN110310647 B CN 110310647B CN 201910741216 A CN201910741216 A CN 201910741216A CN 110310647 B CN110310647 B CN 110310647B
- Authority
- CN
- China
- Prior art keywords
- voice
- identity
- training
- neural network
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 219
- 238000000034 method Methods 0.000 title claims abstract description 99
- 239000013598 vector Substances 0.000 claims abstract description 210
- 238000003062 neural network model Methods 0.000 claims abstract description 164
- 238000001514 detection method Methods 0.000 claims abstract description 69
- 239000011159 matrix material Substances 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 11
- 238000011423 initialization method Methods 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 28
- 238000013527 convolutional neural network Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 18
- 238000013473 artificial intelligence Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 6
- 238000012790 confirmation Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- Mathematical Optimization (AREA)
- Game Theory and Decision Science (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
- Train Traffic Observation, Control, And Security (AREA)
- Feedback Control In General (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本实施例提供语音身份特征提取器、分类器训练方法及相关设备,该语音身份特征提取器训练方法包括:提取训练语音的语音特征向量;根据训练语音的语音特征向量,确定相应的I‑vector;以I‑vector作为神经网络模型的第一目标输出,对神经网络模型的权重进行调整,得到第一神经网络模型;获取目标检测语音的语音特征向量,确定第一神经网络模型对目标检测语音的语音特征向量的输出结果;根据输出结果,确定身份因子隐变量;估计身份因子隐变量的后验均值,以后验均值作为第一神经网络模型的第二目标输出,调整第一神经网络模型的权重,得到语音身份特征提取器。通过本实施例可训练得到新型的语音身份特征提取器,为高可靠性的新型的语音身份特征的提取提供了可能。
Description
本申请是针对2017年09月29日提交的、申请号为201710910880.X,发明名称为“一种语音身份特征提取器、分类器训练方法及相关设备”的专利申请,所提交的分案申请。
技术领域
本发明涉及语音技术领域,具体涉及一种语音身份特征提取器、分类器训练方法及相关设备。
背景技术
语音由于采集简便、易于存储、难于模仿等特性在越来越多的身份识别场景中得到应用,为涉及信息安全保密的场所解决了诸多的信息安全问题。基于语音的说话人身份识别可分为说话人辨认(Speaker Identification)和说话人确认(SpeakerVerification)两类;说话人辨认主要是基于说话人说出的待测语音,判断说话人是否属于已注册的说话人集合中的一位,是一对多的识别问题;说话人确认是基于说话人说出的待测语音,判断说话人是否为已注册的一个目标说话人,是一对一的确认问题。
基于语音进行说话人身份识别时,需要基于说话人的语音提取出表达说话人身份信息的语音身份特征,通过预先训练的分类器对该语音身份特征进行处理,从而实现说话人的身份识别。目前,主要采用I-vector(身份因子,Identity-vector)作为语音身份特征,虽然I-vector能够反映说话人声学差异,是目前常用的进行说话人身份识别的语音身份特征,但本发明的发明人发现:I-vector的可靠性建立在要求较为严格的语音上,在语音时长较短等不符合要求的情况下,I-vector的可靠性将极大的降低。
因此如何提供一种新型的语音身份特征提取器,实现区别于I-vector的新型的语音身份特征的提取,以提升语音身份特征的可靠性,成为了本领域技术人员需要考虑的问题。
发明内容
有鉴于此,本发明实施例提供一种语音身份特征提取器、分类器训练方法及相关设备,以提供新型的语音身份特征提取器,实现高可靠性的新型的语音身份特征的提取;进一步,基于该新型的语音身份特征实现说话人身份识别,提升说话人身份识别的准确性。
为实现上述目的,本发明实施例提供如下技术方案:
一种语音身份特征提取器训练方法,包括:
提取训练语音的语音特征向量;
根据所述训练语音的语音特征向量,确定所述训练语音相应的I-vector;
以所述I-vector作为神经网络模型的第一目标输出,对神经网络模型的权重进行调整,得到第一神经网络模型;
获取目标检测语音的语音特征向量,确定所述第一神经网络模型对所述目标检测语音的语音特征向量的输出结果;
根据所述输出结果,确定身份因子隐变量;
估计身份因子隐变量的后验均值,以所述后验均值作为所述第一神经网络模型的第二目标输出,调整所述第一神经网络模型的权重,得到语音身份特征提取器。
本发明实施例还提供一种分类器训练方法,包括:
获取目标说话人的目标检测语音;
提取所述目标检测语音的语音特征向量;
调用预训练的语音身份特征提取器,将所述目标检测语音的语音特征向量输入语音身份特征提取器,得到相应的语音身份特征;其中,所述语音身份特征提取器以身份因子隐变量为目标输出训练得到;
根据所述语音身份特征训练分类器。
本发明实施例还提供一种语音身份特征提取器训练装置,包括:
语音特征向量第一提取模块,用于提取训练语音的语音特征向量;
身份因子确定模块,用于根据所述训练语音的语音特征向量,确定所述训练语音相应的I-vector;
第一训练模块,用于以所述I-vector作为神经网络模型的第一目标输出,对神经网络模型的权重进行调整,得到第一神经网络模型;
第一结果确定模块,用于获取目标检测语音的语音特征向量,确定所述第一神经网络模型对所述目标检测语音的语音特征向量的输出结果;
隐变量确定模块,用于根据所述输出结果,确定身份因子隐变量;
第二训练模块,用于估计身份因子隐变量的后验均值,以所述后验均值作为所述第一神经网络模型的第二目标输出,调整所述第一神经网络模型的权重,得到语音身份特征提取器。
本发明实施例还提供一种电子设备,包括:至少一个存储器;所述存储器存储有可执行的程序,所述程序用于:
提取训练语音的语音特征向量;
根据所述训练语音的语音特征向量,确定所述训练语音相应的I-vector;
以所述I-vector作为神经网络模型的第一目标输出,对神经网络模型的权重进行调整,得到第一神经网络模型;
获取目标检测语音的语音特征向量,确定所述第一神经网络模型对所述目标检测语音的语音特征向量的输出结果;
根据所述输出结果,确定身份因子隐变量;
估计身份因子隐变量的后验均值,以所述后验均值作为所述第一神经网络模型的第二目标输出,调整所述第一神经网络模型的权重,得到语音身份特征提取器。
本发明实施例还提供一种分类器训练装置,包括:
目标检测语音获取模块,用于获取目标说话人的目标检测语音;
语音特征向量第二提取模块,用于提取所述目标检测语音的语音特征向量;
语音身份特征提取模块,用于调用预训练的语音身份特征提取器,将所述目标检测语音的语音特征向量输入语音身份特征提取器,得到相应的语音身份特征;其中,所述语音身份特征提取器以身份因子隐变量为目标输出训练得到;
训练模块,用于根据所述语音身份特征训练分类器。
本发明实施例还提供一种电子设备,包括:至少一个存储器;所述存储器存储有可执行的程序,所述程序用于:
获取目标说话人的目标检测语音;
提取所述目标检测语音的语音特征向量;
调用预训练的语音身份特征提取器,将所述目标检测语音的语音特征向量输入语音身份特征提取器,得到相应的语音身份特征;其中,所述语音身份特征提取器以身份因子隐变量为目标输出训练得到;
根据所述语音身份特征训练分类器。
基于上述技术方案,本发明实施例提供的语音身份特征提取器训练方法包括:提取训练语音的语音特征向量;根据所述训练语音的语音特征向量,确定所述训练语音相应的I-vector;以所述I-vector作为神经网络模型的第一目标输出,对神经网络模型的权重进行调整,得到第一神经网络模型;在得到第一神经网络模型后,可获取目标检测语音的语音特征向量,确定所述第一神经网络模型对所述目标检测语音的语音特征向量的输出结果,从而根据所述输出结果,确定身份因子隐变量;估计身份因子隐变量的后验均值,以所述后验均值作为神经网络模型的第二目标输出,调整神经网络模型的权重,得到语音身份特征提取器,实现新型的语音身份特征提取器的训练。
本发明实施例提供的语音身份特征提取器训练方法,基于神经网络模型,以包含更紧凑的说话人信息,具有高可靠性的身份因子隐变量的后验均值为目标,训练得到语音身份特征提取器,可使得通过该语音身份特征提取器提取的语音身份特征具有更高的可靠性,可降低对语音的要求。通过本发明实施例提供的训练方法可训练得到新型的语音身份特征提取器,为高可靠性的新型的语音身份特征的提取提供了可能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的语音身份特征提取器训练方法的流程图;
图2为对训练语音进行预处理的过程示意图;
图3为确定训练语音相应的I-vector的方法流程图;
图4为神经网络模型的分层初始化示意图;
图5为训练得到第一神经网络模型的方法流程图;
图6为训练得到第一神经网络模型的过程示意图;
图7为基于第一神经网络模型训练得到语音身份特征提取器的方法流程图;
图8为训练得到语音身份特征提取器的过程示意图;
图9为在分层初始化的神经网络模型上,训练F-vector提取器的过程示意图;
图10为本发明实施例提供的分类器训练方法流程图;
图11为根据语音身份特征训练分类器的方法流程图;
图12为本发明实施例训练提取器和分类器的简化过程示意图;
图13为本发明实施例提供的语音身份特征提取器训练装置的结构框图;
图14为本发明实施例提供的语音身份特征提取器训练装置的另一结构框图;
图15为电子设备的硬件结构框图;
图16为本发明实施例提供的分类器训练装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供的语音身份特征提取器训练方法和分类器训练方法涉及人工智能中的语音技术以及机器学习技术等,下面先对人工智能技术、语音技术和机器学习技术进行说明。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
下面结合如下具体实施例对语音身份特征提取器训练方法涉及的人工智能的语音技术以及机器学习技术进行说明。
图1为本发明实施例提供的语音身份特征提取器训练方法的流程图,通过该语音身份特征提取器训练方法可训练得到本发明实施例提供的新型的语音身份特征提取器,基于该语音身份特征提取器可从语音中提取到可靠性更高的区别于I-vector的语音身份特征。
图1所示方法可应用于具有数据处理能力的电子设备,电子设备可如网络侧设置的服务器,用户侧使用的手机、PC(个人计算机)等用户设备,电子设备的形式具体可视使用需求而定;本发明实施例可在该电子设备中装载所述语音身份特征提取器训练方法相应的程序,实现本发明实施例提供的语音身份特征提取器训练方法的施行;
参照图1,本发明实施例提供的语音身份特征提取器训练方法可以包括:
步骤S100、提取训练语音的语音特征向量。
可选的,训练语音可从预置的训练语音集合中获取,本发明实施例可事先收集多条语音段并记录在训练语音集合中,一条事先收集的语音段可视为一条训练语音。
可选的,语音特征向量可选为MFCC(Mel Frequency Cepstral Coefficient,梅尔频率倒谱系数) 特征;可通过提取训练语音的MFCC特征,实现训练语音的语音特征向量的提取。
可选的,本发明实施例可对训练语音进行预处理,提取得到训练语音的语音特征向量;作为一种可选实现,参照图2,预处理过程可以包括依次执行的语音端点检测(VAD)处理、预加重处理、分帧加汉明窗处理、FFT(Fast Fourier Transformation,快速傅氏变换)处理、Mel(梅尔)滤波处理、Log(取对数)处理,DCT(反余弦变换)处理,CMVN(倒谱均值方差归一化)处理,△(一阶差分)处理及△△(二阶差分)处理等。
可选的,语音特征向量的提取涉及语音技术中的语音识别包含的语音信号特征提取技术。
可选的,训练语音的语音特征向量可由训练语音各帧的语音特征向量构成,进一
步,训练语音各帧的语音特征向量可集合形成训练语音的语音特征向量序列;如第i条训练
语音的语音特征向量序列可表示为,其中,表示该第i条
训练语音的第t帧语音特征向量。
步骤S110、根据所述训练语音的语音特征向量,确定所述训练语音相应的I-vector。
在提取到训练语音的语音特征向量后,本发明实施例可基于GMM(高斯混合模型)模型,对提取得到的训练语音的语音特征向量进行处理,确定训练语音相应的I-vector(身份因子)。
由于I-vector的可靠性建立在较为严格的语音时长等要求上,在短语音(时长较短的语音,可限定一个时长阈值,如10秒等,时长低于该时长阈值的语音可认为是短语音)等情况下,I-vector的可靠性较低;因此本发明实施例在确定I-vector后,并不直接将I-vector作为说话人身份识别的语音身份特征,而是在后续以I-vector进一步的进行新型语音身份特征提取器的训练。
步骤S120、以所述I-vector作为神经网络模型的第一目标输出,对神经网络模型的权重进行调整,得到第一神经网络模型。
本发明实施例提供的语音身份特征提取器可基于神经网络模型进行训练,神经网络模型如DNN(Deep Neural Network,深层神经网络)模型,当然并不排除CNN(卷积神经网络)等其他形式的神经网络模型。
本发明实施例可将训练语音相应的I-vector作为神经网络模型的第一目标输出,对神经网络模型的权重进行调整,使得神经网络模型的输出与第一目标输出相应,得到调整后的第一神经网络模型;可选的,这个过程中,本发明实施例可以神经网络模型的每次输出和第一目标输出之间的均方误差作为损失函数,来监督神经网络模型的权重的调整,使得神经网络模型的输出最终可趋于第一目标输出(即所述训练语音相应的I-vector),实现第一神经网络模型的获得。
可选的,调整神经网络模型的权重所使用的输入可根据所述训练语音的语音特征向量确定,本发明实施例可根据所述训练语音的语音特征向量,确定输入语音特征向量,以所述输入语音特征向量作为神经网络模型的输入,所述I-vector作为神经网络模型的第一目标输出,对神经网络模型的权重进行调整;
可选的,在定义神经网络模型的输入和第一目标输出的情况下,调整神经网络模型的权重,使得神经网络模型的输出趋于第一目标输出的方式有多种,如可使用误差反向传播算法进行神经网络模型的权重调整;在限定了神经网络模型的输入和第一目标输出的情况下,具体的神经网络模型的权重调整手段,本发明实施例不作限制。
可选的,输入语音特征向量(作为神经网络模型的输入),可由训练语音各帧的语音特征向量得到;在一种可选实现上,本发明实施例可拼接训练语音相邻的设定数量帧的语音特征向量,得到输入语音特征向量,如可拼接训练语音相邻的9(此处数值仅是示例说明)帧MFCC特征,得到作为神经网络模型输入的输入语音特征向量;显然,这种确定输入语音特征向量的方式仅是可选的,本发明实施例也可从训练语音各帧的语音特征向量中,提取多帧的语音特征向量拼接得到输入语音特征向量。
可选的,进一步,在调整神经网络模型的权重之前,本发明实施例还可对神经网络模型进行初始化;如采用分层初始化方法对神经网络模型(如DNN模型)进行初始化,从而基于分层初始化后的神经网络模型进行权重的调整。
步骤S130、获取目标检测语音的语音特征向量,确定所述第一神经网络模型对所述目标检测语音的语音特征向量的输出结果。
在训练得到第一神经网络模型后,本发明实施例可获取目标检测语音,并提取目标检测语音的语音特征向量(如MFCC特征),将该目标检测语音的语音特征向量作为第一神经网络模型的输入,确定第一神经网络模型相应的输出结果(即得到第一神经网络模型对该目标检测语音的语音特征向量的输出结果)。
步骤S140、根据所述输出结果,确定身份因子隐变量。
可选的,在得到第一神经网络模型针对目标检测语音的语音特征向量的输出结果后,本发明实施例可确定该输出结果的均值,以该输出结果的均值在训练SNR(SIGNALNOISE RATIO,信噪比)-invariant(不变)PLDA(Probabilistic Linear DiscriminativeAnalysis, 概率线性区分分析)模型的过程中,确定身份因子(I-vector)隐变量;
需要说明的是,隐变量是数学的因子分析理论中的专有名词,可以认为是隐性变量 (laten t variable)。
步骤S150、估计身份因子隐变量的后验均值,以所述后验均值作为所述第一神经网络模型的第二目标输出,调整所述第一神经网络模型的权重,得到语音身份特征提取器。
在得到身份因子隐变量(即I-vector的隐变量)后,该后验均值包含了更紧凑的说话人信息,具有更高的可靠性;因此本发明实施例可以身份因子隐变量的后验均值作为训练第一神经网络模型的第二目标输出,从而调整第一神经网络模型的权重,使得第一神经网络模型的输出趋于第二目标输出,训练完成后,则可得到语音身份特征提取器。
需要说明的是,后验均值是数学的概率论里的专有名词。
可选的,步骤S150中调整第一神经网络模型的权重所使用的输入,可以根据目标检测语音的语音特征向量确定,如可拼接目标检测语音相邻的设定数量帧的语音特征向量(这种方式进行可选示例),得到调整第一神经网络模型的权重所使用的输入。目标检测语音可以目标说话人(目标说话人可以认为是需注册的合法说话人)说出的语音。
由于本发明实施例是以包含了更紧凑的说话人信息,具有高可靠性的身份因子隐变量为目标,训练得到语音身份特征提取器;因此通过该语音身份特征提取器提取的语音身份特征具有更高的可靠性,可实现高可靠性的新型的语音身份特征的提取;区别于现有的I-vector,本发明实施例训练得到的语音身份特征提取器可称为F-vector提取器,基于该语音身份特征提取器提取得到的语音身份特征可称为F-vector。
本发明实施例提供的语音身份特征提取器训练方法包括:提取训练语音的语音特征向量;根据所述训练语音的语音特征向量,确定所述训练语音相应的I-vector;以所述I-vector作为神经网络模型的第一目标输出,对神经网络模型的权重进行调整,得到第一神经网络模型;在得到第一神经网络模型后,可获取目标检测语音的语音特征向量,确定所述第一神经网络模型对所述目标检测语音的语音特征向量的输出结果,从而根据所述输出结果,确定身份因子隐变量;估计身份因子隐变量的后验均值,以所述后验均值作为神经网络模型的第二目标输出,调整神经网络模型的权重,得到语音身份特征提取器,实现新型的语音身份特征提取器的训练。
本发明实施例提供的语音身份特征提取器训练方法,基于神经网络模型,以包含更紧凑的说话人信息,具有高可靠性的身份因子隐变量的后验均值为目标,训练得到语音身份特征提取器,可使得通过该语音身份特征提取器提取的语音身份特征具有更高的可靠性,可降低对语音的要求。通过本发明实施例提供的训练方法可训练得到新型的语音身份特征提取器,为高可靠性的新型的语音身份特征的提取提供了可能。
为更好的理解I-vector的缺陷,同时说明本发明实施例所提供的I-vector的确定方法,图3示出了确定训练语音相应的I-vector的方法流程,参照图3,该方法可以包括:
步骤S200、基于GMM模型,根据所述训练语音各帧的语音特征向量,确定充分统计量。
训练语音的语音特征向量可由训练语音各帧的语音特征向量构成,且训练语音各帧的语音特征向量可集合形成训练语音的语音特征向量序列;
则基于k阶的GMM模型可根据如下公式确定充分统计量:
步骤S210、根据所述充分统计量确定总变化空间矩阵。
在确定充分统计量后,可基于充分统计量确定I-vector提取算法中所使用的总变化空间矩阵(设为T);可选的,可使用EM(Expectation Maximization,期望最大化)算法,根据所述充分统计量迭代求解出总变化空间矩阵。EM算法可以认为是一种以迭代的方式来解决一类特殊最大似然 (Maximum Likelihood) 问题的方法。
步骤S220、根据所述总变化空间矩阵,确定所述训练语音相应的I-vector。
在得到总变化空间矩阵后,可根据总变化空间矩阵,0阶充分统计量构成的对角块矩阵, 1阶充分统计量拼接的结果计算得到训练语音相应的I-vector;
可选的,确定I-vector所使用的公式可以如下:
,其中I表示单位矩阵,T(加粗)表示总变化空间矩
阵,T(不加粗)表示标量值,表示对角块矩阵,对角块矩阵的对角块成分为,…,由,…,拼接而成,∑表示对角阵,对角阵的对角线元素由GMM模型中
各个混合数的对角协方差矩阵的元素组成。
可选的,在得到I-vector后,其后验协方差可表示为,可以看出在语音时长越短时长,所对应的0阶统计量的值就越小,此时后验协方差就越大,所估计的I-vector就越不可靠;这表明了I-vector的可靠性对于语音的时长具有较高的要求,在短语音等情况下,极易导致I-vector的不可靠。
本发明实施例在得到训练语音相应的I-vector后,可以I-vector为第一目标输出,进行DNN等形式的神经网络模型的权重调整,实现神经网络模型的首次训练,得到第一神经网络模型;再基于第一神经网络模型,以身份因子隐变量的后验均值为第二目标输出,对第一神经网络模型进行权重调整,得到语音身份特征提取器;
可选的,本发明实施例使用的神经网络模型可以是DNN模型、CNN模型等,即训练得到第一神经网络模型所使用的神经网络模型可以为DNN模型、CNN模型等,相应的,第一神经网络模型也可以是DNN模型、CNN模型等。
需要说明的是,DNN模型是一种深度学习框架模型,DNN模型的结构主要包括:一层输入层,多层隐层和一层输出层;一般而言,DNN模型的第一层是输入层,最后一层是输出层,而中间则是多层的隐层,并且DNN模型的层与层之间是全连接的;
可选的,以DNN模型为例,在以I-vector为第一目标输出,调整DNN模型的权重(即参数),得到第一DNN模型(第一神经网络模型的一种形式)的过程中,本发明实施例可利用误差反向传播算法等方式(当然也可使用DNN模型权重调整的其他方式),调整DNN模型的权重,使得调整后的DNN模型的输出趋于第一目标输出,得到第一DNN模型;这个过程所调整的DNN模型的权重主要包括:连接DNN模型各层之间的线性变换的权重 (如连接输入层和隐层之间、连接各隐层之间、连接隐层和输出层之间的线性变换的权重)。
相应的,在以身份因子隐变量的后验均值为第二目标输出,调整第一DNN模型的权重,得到语音身份特征提取器的过程中,本发明实施例也可利用误差反向传播算法等方式,调整第一DNN模型的权重,使得调整后的第一DNN模型的输出趋于第二目标输出,得到语音身份特征提取器;这个过程中所调整的第一DNN模型的权重也可包括:连接DNN模型各层之间的线性变换的权重。
以CNN模型为例,CNN模型的结构主要包括输入层,卷积层,池化层和全连接层,其中卷积层和池化层可以具有多层;可选的,在以I-vector为第一目标输出,调整CNN模型的权重(即参数),得到第一CNN模型(第一神经网络模型的一种形式)的过程中,本发明实施例可利用误差反向传播算法等方式(当然也可使用CNN模型权重调整的其他方式),调整CNN模型的权重,使得调整后的CNN模型的输出趋于第一目标输出,得到第一CNN模型;这个过程所调整的CNN模型的权重可以包括:卷积层的偏置矩阵,全连接层的权重矩阵,全连接层的偏置向量等CNN模型的模型参数中的元素;
相应的,在以身份因子隐变量的后验均值为第二目标输出,调整第一CNN模型的权重,得到语音身份特征提取器的过程中,本发明实施例也可利用误差反向传播算法等方式,调整第一CNN模型的权重,使得调整后的第一CNN模型的输出趋于第二目标输出,得到语音身份特征提取器;这个过程中所调整的第一CNN模型的权重也可包括:卷积层的初始偏置矩阵,全连接层的初始权重矩阵,全连接层的初始偏置向量等CNN模型的模型参数中的元素。
显然,上述神经网络模型的结构和权重调整手段仅是可选的,在限定神经网络模型的输入和目标输出的情况下,本发明实施例可应用任何使得神经网络模型的输出趋于目标输出的权重调整手段;神经网络模型的权重调整可以是迭代调整过程,通过迭代的调整神经网络模型的权重,使得神经网络模型的输出趋于目标输出。
可选的,在一种可选实现上,本发明实施例可先以分层初始化方法对神经网络模型进行初始化,得到如图4所示神经网络模型结构,在此基础上进行第一神经网络模型的训练得到;
以DNN形式的神经网络模型为例,图5示出了训练得到第一神经网络模型的方法流程,参照图5,该方法可以包括:
步骤S300、以分层初始化方法初始化DNN模型。
步骤S310、拼接训练语音相邻的设定数量帧的语音特征向量,得到输入语音特征向量。
步骤S320、以所述输入语音特征向量作为DNN模型的输入,所述I-vector作为DNN模型的第一目标输出,DNN模型每次输出和第一目标输出之间的均方误差为损失函数,对DNN模型的权重进行调整,得到第一DNN模型。
可选的,作为示例,如图6所示,本发明实施例可拼接训练语音相邻9帧的语音特征向量作为DNN模型的输入,通过DNN模型每次输出的结果与第一目标输出间的均方误差为损失函数,迭代调整DNN模型的权重,直至DNN模型的输出趋于第一目标输出,达到训练收敛条件,得到第一DNN模型。
在完成第一神经网络模型的训练后,可基于目标检测语音实现身份因子隐变量的确定;可选的,可计算目标检测语音的语音特征向量相应的第一神经网络模型的输出结果,如假设针对第s个说话人的第i条语音的语音特征向量,可计算出第一神经网络模型相应的输出结果;然后确定输出结果的均值(设为V si ),以该均值为训练数据进行SNR-invariantPLDA(信噪比不变概率线性区分分析)模型的训练,在训练过程中可计算得到身份因子隐变量;
可选的,训练SNR-invariant PLDA模型可根据如下公式实现:
在训练SNR-invariant PLDA模型的过程中,确定身份因子隐变量后,可估计身份因子隐变量的后验均值,该后验均值包含了更紧凑的说话人信息,可以此作为目标输出对第一神经网络模型进行权重调整,训练得到F-vector提取器(即第一神经网络模型以该后验均值为目标输出进行训练,训练收敛后的模型结果即为得到的F-vector提取器)。
可选的,以DNN形式的神经网络模型为例,图7示出了基于第一神经网络模型,训练得到语音身份特征提取器(F-vector提取器)的方法流程,参照图7,该方法可以包括:
步骤S400、根据目标检测语音的语音特征向量,确定第一DNN模型的输入。
可选的,可拼接目标检测语音相邻的设定数量帧的语音特征向量,得到第一DNN模型的输入。
步骤S410、以身份因子隐变量的后验均值为第一DNN模型的第二目标输出,第一DNN模型每次输出和第二目标输出之间的均方误差为损失函数,对第一DNN模型进行调整,得到语音身份特征提取器。
可选的,作为示例,如图8所示,本发明实施例可拼接目标检测语音相邻设定数量帧的语音特征向量作为第一DNN模型的输入,通过第一DNN模型每次输出的结果与第二目标输出间的均方误差为损失函数,迭代调整第一DNN模型的权重,直至第一DNN模型的输出趋于第二目标输出,达到训练收敛条件,得到语音身份特征提取器(F-vector提取器)。
可选的,在以分层初始化方法初始化DNN模型的基础,F-vector提取器的训练过程可以如图9所示,可进行参照;其中,w1表示I-vector的第一个维度,wn是I-vector的第n个维度。
本发明实施例提供的训练方法,基于神经网络模型,以包含更紧凑的说话人信息,具有高可靠性的身份因子隐变量的后验均值为目标,训练得到新型的语音身份特征提取器,可实现高可靠性的新型的语音身份特征的提取,为后续基于语音身份特征所进行的说话人身份识别提供了更高的准确性保障。
下面结合如下具体实施例对分类器训练方法涉及的人工智能的语音技术以及机器学习技术进行说明。
在上述训练得到语音身份特征提取器的基础上,本发明实施例可基于语音身份特征提取器,实现辨认不同说话人的分类器的训练,该分类器可基于预定说话人(如需注册的说话人)的语音实现训练。
可选的,图10示出了本发明实施例提供的分类器训练方法流程图,参照图10,该方法可以包括:
步骤S500、获取目标说话人的目标检测语音。
本发明实施例对于目标检测语音的要求较低,目标检测语音的时长可以是任意的。目标说话人的目标检测语音可以是需注册的合法说话人的语音,本发明实施例可基于说话人确认场景(一对一的身份确认问题),针对目标说话人,实现分类器的训练;后续可通过训练得到的分类器辨认该目标说话人的语音,实现精度更高的说话人确认。
步骤S510、提取所述目标检测语音的语音特征向量。
可选的,本发明实施例可提取所述目标检测语音的MFCC特征。
可选的,语音特征向量的提取涉及语音技术中的语音识别包含的语音信号特征提取技术。
步骤S520、调用预训练的语音身份特征提取器,将所述目标检测语音的语音特征向量输入语音身份特征提取器,得到相应的语音身份特征。
在基于前文所述的,以身份因子隐变量为目标输出训练语音身份特征提取器,训练得到语音身份特征提取器(F-vector提取器)的基础上,本发明实施例可将目标检测语音的语音特征向量作为F-vector提取器的输入,F-vector提取器可相应输出语音身份特征(F-vector);
如针对说话人s的第i条语音,可提取其MFCC特征后作为F-vector提取器的输入,得到相应的F-vector。
步骤S530、根据所述语音身份特征训练分类器。
在得到语音身份特征后,可确定语音身份特征的均值,以该均值训练得到分类器。
可选的,本发明实施例训练得到的分类器可用于与文本无关的说话人确认场景;前文已述,基于语音的说话人身份识别可分为说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)两类;而在对语音的要求方面,基于语音的说话人身份识别又可分为与文本相关(Text-dependent)和与文本无关(Text-independent)两类;与文本相关表示的是说话人说出的待测语音需与注册语音具有相同的语义,应用于说话人比较配合的场所,与文本无关表示的是可不关注语音中的语义内容,限制因素较少,应用更灵活广泛。
需与说明的是,文本无关的说话人身份识别由于对于语音的语义内容不受限制,因此通常情况下在训练和测试阶段会出现语音失配的现象,为了获得较好的识别性能,往往需要大量的训练语音;而本发明实施例提供的分类器,是基于新型的对于语音要求较低的语音身份特征训练得到,因此可极大的降低分类器的识别准确性随着语音的时长变短而下降的情况,为实现较为准确的说话人身份识别提供了可能。
可选的,本发明实施例提供的分类器可以是PLDA(概率线性区分分析)分类器,一种可选的根据语音身份特征训练分类器的过程可以如图11所示,包括:
步骤600、确定所述语音身份特征的均值。
假设对来自说话人s的第i条语音提取了语音身份特征后,可确定语音身份特征的均值y si 。
步骤S610、对所述语音身份特征的均值进行类内协方差规整处理及L2范数规整处理,得到处理后的特征,以处理后的特征训练分类器。
可选的,在对语音身份特征的均值y si 进行类内协方差规整处理及L2范数规整处理后,处理后的特征可作为训练数据训练得出PLDA分类器。
可选的,为将非参数区分分析算法有效地嵌入到PLDA分类器中,提升PLDA分类器的训练精度,本发明实施例可提供的PLDA分类器,可基于下述两种类型的协方差矩阵(即下述的类内协方差矩阵和非参数类间协方差矩阵)的非参数PLDA模型:
(1)类内协方差矩阵,其计算方式可以如下:
其中,S(大写)表示说话人数目,s(小写)表示第s个说话人,H s 表示第s个说话人的语音条数,us为第s个说话人的的均值。
(2)非参数类间协方差矩阵,可采用如下公式计算:
其中,ψkq(ysi)表示来自说明人k的特征中与特征ysi最近邻的第q个特征,Q为近邻特征的总数,mk(ysi)代表Q个近邻特征的均值,g(s,k,i)代表一个权重函数,定义如下:
其中,指数参数α是对距离度量函数d(y 1,y 2)的加权调节,d(y 1,y 2)是指特征y 1和y 2之间的欧式距离度量,参数Q的取值一般设为每个说话人所有的总的语音条数的均值,权重函数g(s,k,i)评定了投影后的特征y si 与局部说话人之间的类别边界的接近程度,从而决定着该特征y si 对非参数类间散度矩阵φb的贡献度。如果特征y si 接近类别边界的话,权重函数g(s,k,i)取最大值0.5,如果特征ysi远离类别边界的话权重函数g(s,k,i)的值随之变小。
上文公式中的特征指的是语音身份特征。
在取得类内协方差矩阵和非参数类间协方差矩阵后,本发明实施例可将PLDA分类器得分函数中的类内变换矩阵替换为类内协方差矩阵,类间变换矩阵替换为该非参数类间协方差矩阵,具体的对于给定的已注册的第一语音身份特征提取器y 1,和第二语音身份特征提取器y 2,省略常数项,则PLDA分类器的得分(得分表示了PLDA分类器的准确性)计算可如下式实现:
其中,u为总体均值,即F-vector训练集的均值。
在训练得到分类器后,本发明实施例可基于给分类器实现目标说话人的语音和其他说话人的语音的辨认,实现精度更高的说话人确认。在进行说话人的身份识别时,本发明实施例可提取当前说话人的语音特征向量,使用本发明实施例提供的语音身份特征提取器,基于当前说话人的语音特征向量提取出相应的语音身份特征,将该语音身份特征输入针对目标说话人训练的分类器,通过分类器的输出结果,辨认当前说话人是否为目标说话人,实现当前说话人的身份辨认。
可选的,本发明实施例训练提取器和分类器的简化过程可如图12所示:将训练语音对应的I-vector作为DNN模型的监督信息,建立语音特征向量到I-vector特征空间的映射,提取出I-vector,以I-vector为目标对DNN模型进行训练;后续为了获得更为紧凑的说话人信息,在SNR-invariant PLDA建模过程中确定身份因子隐变量,基于身份因子隐变量的监督信息再次对DNN模型进行微调 ,得到最终的F-vector提取器;进而以F-vector提取器提取语音的F-vector,基于F-vector实现用于说话人身份识别的PLDA分类器。
下面对本发明实施例提供的语音身份特征提取器训练装置进行介绍,下文描述的语音身份特征提取器训练装置可以认为是电子和设备(电子设备的形式如服务器或终端等)为实现本发明实施例提供的语音身份特征提取器训练方法,所需设置的程序模块。下文描述的语音身份特征提取器训练装置可与上文描述的语音身份特征提取器训练方法相互对应参照。
图13为本发明实施例提供的语音身份特征提取器训练装置的结构框图,参照图13,该语音身份特征提取器训练装置可以包括:
语音特征向量第一提取模块100,用于提取训练语音的语音特征向量;
身份因子确定模块110,用于根据所述训练语音的语音特征向量,确定所述训练语音相应的I-vector;
第一训练模块120,用于以所述I-vector作为神经网络模型的第一目标输出,对神经网络模型的权重进行调整,得到第一神经网络模型;
第一结果确定模块130,用于获取目标检测语音的语音特征向量,确定所述第一神经网络模型对所述目标检测语音的语音特征向量的输出结果;
隐变量确定模块140,用于根据所述输出结果,确定身份因子隐变量;
第二训练模块150,用于估计身份因子隐变量的后验均值,以所述后验均值作为所述第一神经网络模型的第二目标输出,调整所述第一神经网络模型的权重,得到语音身份特征提取器。
可选的,第一训练模块120,用于以所述I-vector作为神经网络模型的第一目标输出,对神经网络模型的权重进行调整,得到第一神经网络模型,具体包括:
根据所述训练语音的语音特征向量确定输入语音特征向量;
以所述输入语音特征向量作为神经网络模型的输入,所述I-vector作为神经网络模型的第一目标输出,神经网络模型的每次输出和第一目标输出之间的均方误差作为损失函数,对神经网络模型的权重进行调整,得到第一神经网络模型。
可选的,所述第一训练模块120,用于根据所述训练语音的语音特征向量确定输入语音特征向量,具体包括:
拼接训练语音相邻的设定数量帧的语音特征向量,得到输入语音特征向量。
可选的,图14示出了本发明实施例提供的语音身份特征提取器训练装置的另一结构框图,结合图13和图14所示,该语音身份特征提取器训练装置还可以包括:
模型初始化模块160,用于以分层初始化方法初始化神经网络模型。
可选的,模型初始化模块160以分层初始化方法初始化神经网络模型,可在对神经网络模型的权重进行调整之前;相应的,第一训练模块120可在初始后的神经网络模型的基础上进行功能实现。
可选的,隐变量确定模块140,用于根据所述输出结果,确定身份因子隐变量,具体包括:
确定所述输出结果的均值,以该均值训练信噪比不变SNR-invariant PLDA模型,在训练过程中计算得到身份因子隐变量。
可选的,隐变量确定模块140,用于在训练过程中计算得到身份因子隐变量,具体包括:
其中,V si 表示第一神经网络模型对第s个说话人的第i条语音的语音特征向量的输
出结果的均值,b表示目标检测语音相应的信噪比区间,m表示均值,R表示说话人信息空间,U表示信噪比空间,g b 表示信噪比因子,表示残差项。
可选的,第二训练模块150,用于以所述后验均值作为所述第一神经网络模型的第二目标输出,调整所述第一神经网络模型的权重,得到语音身份特征提取器,具体包括:
拼接目标检测语音相邻设定数量帧的语音特征向量作为第一神经网络模型的输入,以身份因子隐变量的后验均值为第一神经网络模型的第二目标输出,第一神经网络模型每次输出和第二目标输出之间的均方误差为损失函数,对第一神经网络模型进行调整,得到语音身份特征提取器。
可选的,身份因子确定模块110,用于根据所述训练语音的语音特征向量,确定所述训练语音相应的I-vector,具体包括:
基于GMM模型,根据所述训练语音各帧的语音特征向量,确定充分统计量;
根据所述充分统计量确定总变化空间矩阵;根据所述总变化空间矩阵,确定所述训练语音相应的I-vector。
本发明实施例还提供一种电子设备,上述描述的语音身份特征提取器训练装置可通过程序形式装载于电子设备内,图15示出了电子设备的硬件结构,参照图15,该电子设备可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本发明实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
可选的,处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,存储器存储有可执行的程序,该程序可被处理器调用执行,该程序可用于:
提取训练语音的语音特征向量;
根据所述训练语音的语音特征向量,确定所述训练语音相应的I-vector;
以所述I-vector作为神经网络模型的第一目标输出,对神经网络模型的权重进行调整,得到第一神经网络模型;
获取目标检测语音的语音特征向量,确定所述第一神经网络模型对所述目标检测语音的语音特征向量的输出结果;
根据所述输出结果,确定身份因子隐变量;
估计身份因子隐变量的后验均值,以所述后验均值作为所述第一神经网络模型的第二目标输出,调整所述第一神经网络模型的权重,得到语音身份特征提取器。
可选的,该程序的功能细化和扩展功能可参照上文相应部分的描述,如参照语音身份特征提取器训练方法部分的描述。
本发明实施例还提供一种分类器训练装置,下文描述的分类器训练装置可以认为是电子和设备(电子设备的形式如服务器或终端等)为实现本发明实施例提供的分类器训练方法,所需设置的程序模块。下文描述的分类器训练装置可与上文描述的分类器训练方法相互对应参照。
图16为本发明实施例提供的分类器训练装置的结构框图,参照图16,该分类器训练装置可以包括:
目标检测语音获取模块200,用于获取目标说话人的目标检测语音;
语音特征向量第二提取模块210,用于提取所述目标检测语音的语音特征向量;
语音身份特征提取模块220,用于调用预训练的语音身份特征提取器,将所述目标检测语音的语音特征向量输入语音身份特征提取器,得到相应的语音身份特征;其中,所述语音身份特征提取器以身份因子隐变量为目标输出训练得到;
训练模块230,用于根据所述语音身份特征训练分类器。
可选的,训练模块230,用于根据所述语音身份特征训练分类器,具体包括:
确定所述语音身份特征的均值;对所述语音身份特征的均值进行类内协方差规整处理及L2范数规整处理,得到处理后的特征,以处理后的特征训练分类器。
可选的,在本发明实施例中,分类器可基于PLDA模型,相应的,所述分类器可以为PLDA分类器;为提升分类器的精度,所述PLDA分类器的得分函数中的类内变换矩阵可被替换为类内协方差矩阵,类间变换矩阵可被替换为该非参数类间协方差矩阵。
可选的,分类器训练装置可通过程序形式装载于电子设备内,该电子设备的结构可参照图15所示,包括:至少一个存储器;所述存储器存储有可执行的程序,该程序可具体用于:
获取目标说话人的目标检测语音;
提取所述目标检测语音的语音特征向量;
调用预训练的语音身份特征提取器,将所述目标检测语音的语音特征向量输入语音身份特征提取器,得到相应的语音身份特征;其中,所述语音身份特征提取器以身份因子隐变量为目标输出训练得到;
根据所述语音身份特征训练分类器。
本发明实施例可实现新型的语音身份特征提取器的训练,通过训练得到的语音身份特征提取器,可实现高可靠性的新型的语音身份特征的提取;进而可基于该新型的语音身份特征,实现精度更高的分类器训练,基于训练得到的分类器可提升说话人身份识别的准确性。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的训练完成的语音身份特征提取器、训练完成的分类器可以应用于以上任意领域。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种语音身份特征提取器训练方法,其特征在于,包括:
根据目标检测语音的语音特征向量,确定第一神经网络模型的输入;其中,所述第一神经网络模型是以I-vector为第一目标输出训练得到;
以身份因子隐变量的后验均值为所述第一神经网络模型的第二目标输出,所述第一神经网络模型每次输出和第二目标输出之间的均方误差为损失函数,对所述第一神经网络模型中连接第一神经网络模型各层之间的线性变换的权重进行调整,得到语音身份特征提取器;
其中,所述身份因子隐变量是基于所述第一神经网络模型对所述目标检测语音的语音特征向量的输出结果得到的。
2.根据权利要求1所述语音身份特征提取器训练方法,其特征在于,所述根据目标检测语音的语音特征向量,确定第一神经网络模型的输入包括:
拼接所述目标检测语音相邻设定数量帧的语音特征向量,得到所述第一神经网络模型的输入。
3.根据权利要求1或2所述语音身份特征提取器训练方法,其特征在于,所述第一神经网络模型是基于分层初始化方法初始化的神经网络模型训练得到的;还包括:
基于所述第一神经网络模型,建立所述目标检测语音的语音特征向量到I-vector特征空间的映射,获得包含n个维度的I-vector,n为大于或等于1的正整数;
基于所述目标检测语音对应的I-vector,训练信噪比不变概率线性区分分析SNR-invariant PLDA模型,在训练过程中计算得到所述身份因子隐变量。
4.根据权利要求1所述语音身份特征提取器训练方法,其特征在于,还包括:
对所述目标检测语音进行预处理,提取得到所述目标检测语音的语音特征向量;
所述预处理依次包括:语音端点检测处理、预加重处理、分帧加汉明窗处理、快速傅氏变换处理、梅尔滤波处理、取对数处理、反余弦变换处理、倒谱均值方差归一化处理、一阶差分处理以及二阶差分处理。
5.一种分类器训练方法,其特征在于,包括:
获取目标说话人的目标检测语音;
提取所述目标检测语音的语音特征向量;
调用预训练的语音身份特征提取器,将所述目标检测语音的语音特征向量输入语音身份特征提取器,得到相应的语音身份特征;其中,所述语音身份特征提取器以身份因子隐变量的后验均值为目标输出,以及以第一神经网络模型每次输出和目标输出之间的均方误差为损失函数对第一神经网络模型中连接第一神经网络模型各层之间的线性变换的权重进行调整得到;
确定所述语音身份特征的均值;
对所述语音身份特征的均值进行类内协方差规整处理及L2范数规整处理,得到处理后的特征;
根据处理后的特征训练分类器。
6.根据权利要求5所述的分类器训练方法,其特征在于,所述分类器基于概率线性区分分析PLDA模型,所述分类器为PLDA分类器;所述PLDA分类器包括类内变换矩阵以及类间变换矩阵。
7.根据权利要求5所述的分类器训练方法,其特征在于,所述分类器基于非参数概率线性区分分析PLDA模型,所述分类器为PLDA分类器;还包括:
获取类内协方差矩阵以及非参数类间协方差矩阵;
基于概率线性区分分析PLDA模型、所述类内协方差矩阵以及非参数类间协方差矩阵,得到所述非参数概率线性区分分析PLDA模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910741216.6A CN110310647B (zh) | 2017-09-29 | 2017-09-29 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710910880.XA CN109584884B (zh) | 2017-09-29 | 2017-09-29 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
CN201910741216.6A CN110310647B (zh) | 2017-09-29 | 2017-09-29 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710910880.XA Division CN109584884B (zh) | 2017-09-29 | 2017-09-29 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110310647A CN110310647A (zh) | 2019-10-08 |
CN110310647B true CN110310647B (zh) | 2022-02-25 |
Family
ID=65900669
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910741216.6A Active CN110310647B (zh) | 2017-09-29 | 2017-09-29 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
CN201710910880.XA Active CN109584884B (zh) | 2017-09-29 | 2017-09-29 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710910880.XA Active CN109584884B (zh) | 2017-09-29 | 2017-09-29 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
Country Status (3)
Country | Link |
---|---|
US (2) | US11335352B2 (zh) |
CN (2) | CN110310647B (zh) |
WO (1) | WO2019062721A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106169295B (zh) * | 2016-07-15 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 身份向量生成方法和装置 |
CN107945806B (zh) * | 2017-11-10 | 2022-03-08 | 北京小米移动软件有限公司 | 基于声音特征的用户识别方法及装置 |
US20190244062A1 (en) * | 2018-02-04 | 2019-08-08 | KaiKuTek Inc. | Gesture recognition method, gesture recognition system, and performing device therefore |
US11527259B2 (en) * | 2018-02-20 | 2022-12-13 | Mitsubishi Electric Corporation | Learning device, voice activity detector, and method for detecting voice activity |
CN109920435B (zh) * | 2019-04-09 | 2021-04-06 | 厦门快商通信息咨询有限公司 | 一种声纹识别方法及声纹识别装置 |
CN110807333B (zh) * | 2019-10-30 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 一种语义理解模型的语义处理方法、装置及存储介质 |
CN111583907B (zh) * | 2020-04-15 | 2023-08-15 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN111524525B (zh) * | 2020-04-28 | 2023-06-16 | 平安科技(深圳)有限公司 | 原始语音的声纹识别方法、装置、设备及存储介质 |
CN112001215B (zh) * | 2020-05-25 | 2023-11-24 | 天津大学 | 一种基于三维唇动的文本无关说话人身份识别方法 |
CN112259078A (zh) * | 2020-10-15 | 2021-01-22 | 上海依图网络科技有限公司 | 一种音频识别模型的训练和非正常音频识别的方法和装置 |
CN112164404A (zh) * | 2020-10-28 | 2021-01-01 | 广西电网有限责任公司贺州供电局 | 一种基于声纹识别技术的远程身份认证方法及系统 |
CN112466298B (zh) * | 2020-11-24 | 2023-08-11 | 杭州网易智企科技有限公司 | 语音检测方法、装置、电子设备和存储介质 |
CN113362829B (zh) * | 2021-06-04 | 2022-05-24 | 思必驰科技股份有限公司 | 说话人验证方法、电子设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103391201A (zh) * | 2013-08-05 | 2013-11-13 | 公安部第三研究所 | 基于声纹识别实现智能卡身份验证的系统及方法 |
CN105139856A (zh) * | 2015-09-02 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于先验知识规整协方差的概率线性鉴别说话人识别方法 |
CN105261367A (zh) * | 2014-07-14 | 2016-01-20 | 中国科学院声学研究所 | 一种说话人识别方法 |
CN105575394A (zh) * | 2016-01-04 | 2016-05-11 | 北京时代瑞朗科技有限公司 | 基于全局变化空间及深度学习混合建模的声纹识别方法 |
US9373330B2 (en) * | 2014-08-07 | 2016-06-21 | Nuance Communications, Inc. | Fast speaker recognition scoring using I-vector posteriors and probabilistic linear discriminant analysis |
CN105845140A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 应用于短语音条件下的说话人确认方法和装置 |
CN106169295A (zh) * | 2016-07-15 | 2016-11-30 | 腾讯科技(深圳)有限公司 | 身份向量生成方法和装置 |
CN106847292A (zh) * | 2017-02-16 | 2017-06-13 | 平安科技(深圳)有限公司 | 声纹识别方法及装置 |
CN106971713A (zh) * | 2017-01-18 | 2017-07-21 | 清华大学 | 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统 |
CN107039036A (zh) * | 2017-02-17 | 2017-08-11 | 南京邮电大学 | 一种基于自动编码深度置信网络的高质量说话人识别方法 |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别系统的后端i‑vector增强方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI223791B (en) * | 2003-04-14 | 2004-11-11 | Ind Tech Res Inst | Method and system for utterance verification |
JP2008191444A (ja) | 2007-02-06 | 2008-08-21 | Nec Electronics Corp | 表示ドライバic |
CN101241699B (zh) * | 2008-03-14 | 2012-07-18 | 北京交通大学 | 一种远程汉语教学中的说话人确认方法 |
CN102820033B (zh) * | 2012-08-17 | 2013-12-04 | 南京大学 | 一种声纹识别方法 |
US9406298B2 (en) * | 2013-02-07 | 2016-08-02 | Nuance Communications, Inc. | Method and apparatus for efficient i-vector extraction |
US10438581B2 (en) * | 2013-07-31 | 2019-10-08 | Google Llc | Speech recognition using neural networks |
US20160293167A1 (en) * | 2013-10-10 | 2016-10-06 | Google Inc. | Speaker recognition using neural networks |
US9858919B2 (en) * | 2013-11-27 | 2018-01-02 | International Business Machines Corporation | Speaker adaptation of neural network acoustic models using I-vectors |
CN104765996B (zh) * | 2014-01-06 | 2018-04-27 | 讯飞智元信息科技有限公司 | 声纹密码认证方法及系统 |
CN105096121B (zh) * | 2015-06-25 | 2017-07-25 | 百度在线网络技术(北京)有限公司 | 声纹认证方法和装置 |
CN105895078A (zh) * | 2015-11-26 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 动态选择语音模型的语音识别方法及装置 |
CN106098068B (zh) * | 2016-06-12 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
CN107785015A (zh) * | 2016-08-26 | 2018-03-09 | 阿里巴巴集团控股有限公司 | 一种语音识别方法及装置 |
CN107610707B (zh) * | 2016-12-15 | 2018-08-31 | 平安科技(深圳)有限公司 | 一种声纹识别方法及装置 |
US10347244B2 (en) * | 2017-04-21 | 2019-07-09 | Go-Vivace Inc. | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response |
CN107633842B (zh) * | 2017-06-12 | 2018-08-31 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
US11817103B2 (en) * | 2017-09-15 | 2023-11-14 | Nec Corporation | Pattern recognition apparatus, pattern recognition method, and storage medium |
-
2017
- 2017-09-29 CN CN201910741216.6A patent/CN110310647B/zh active Active
- 2017-09-29 CN CN201710910880.XA patent/CN109584884B/zh active Active
-
2018
- 2018-09-25 WO PCT/CN2018/107385 patent/WO2019062721A1/zh active Application Filing
-
2019
- 2019-10-16 US US16/654,383 patent/US11335352B2/en active Active
-
2022
- 2022-04-14 US US17/720,876 patent/US20220238117A1/en active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103391201A (zh) * | 2013-08-05 | 2013-11-13 | 公安部第三研究所 | 基于声纹识别实现智能卡身份验证的系统及方法 |
CN105261367A (zh) * | 2014-07-14 | 2016-01-20 | 中国科学院声学研究所 | 一种说话人识别方法 |
US9373330B2 (en) * | 2014-08-07 | 2016-06-21 | Nuance Communications, Inc. | Fast speaker recognition scoring using I-vector posteriors and probabilistic linear discriminant analysis |
CN105139856A (zh) * | 2015-09-02 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于先验知识规整协方差的概率线性鉴别说话人识别方法 |
CN105575394A (zh) * | 2016-01-04 | 2016-05-11 | 北京时代瑞朗科技有限公司 | 基于全局变化空间及深度学习混合建模的声纹识别方法 |
CN105845140A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 应用于短语音条件下的说话人确认方法和装置 |
CN106169295A (zh) * | 2016-07-15 | 2016-11-30 | 腾讯科技(深圳)有限公司 | 身份向量生成方法和装置 |
CN106971713A (zh) * | 2017-01-18 | 2017-07-21 | 清华大学 | 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统 |
CN106847292A (zh) * | 2017-02-16 | 2017-06-13 | 平安科技(深圳)有限公司 | 声纹识别方法及装置 |
CN107039036A (zh) * | 2017-02-17 | 2017-08-11 | 南京邮电大学 | 一种基于自动编码深度置信网络的高质量说话人识别方法 |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别系统的后端i‑vector增强方法 |
Non-Patent Citations (1)
Title |
---|
基于i-vector和深度学习的说话人识别;林舒都 等;《计算机技术与发展》;20170630;第27卷(第6期);正文第66-71页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110310647A (zh) | 2019-10-08 |
US20220238117A1 (en) | 2022-07-28 |
WO2019062721A1 (zh) | 2019-04-04 |
CN109584884A (zh) | 2019-04-05 |
US20200043504A1 (en) | 2020-02-06 |
US11335352B2 (en) | 2022-05-17 |
CN109584884B (zh) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110310647B (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
CN105741832B (zh) | 一种基于深度学习的口语评测方法和系统 | |
CN112435684B (zh) | 语音分离方法、装置、计算机设备和存储介质 | |
US20080065380A1 (en) | On-line speaker recognition method and apparatus thereof | |
CN108766415B (zh) | 一种语音测评方法 | |
CN112992126B (zh) | 语音真伪的验证方法、装置、电子设备及可读存储介质 | |
US10706856B1 (en) | Speaker recognition using deep learning neural network | |
Yu et al. | Adversarial network bottleneck features for noise robust speaker verification | |
CN102737633A (zh) | 一种基于张量子空间分析的说话人识别方法及其装置 | |
CN112669820B (zh) | 基于语音识别的考试作弊识别方法、装置及计算机设备 | |
CN110047504B (zh) | 身份矢量x-vector线性变换下的说话人识别方法 | |
CN110853654A (zh) | 一种模型生成方法、声纹识别方法及对应装置 | |
CN111048097B (zh) | 一种基于3d卷积的孪生网络声纹识别方法 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
KR102026226B1 (ko) | 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
Lei et al. | Speaker Recognition Using Wavelet Cepstral Coefficient, I‐Vector, and Cosine Distance Scoring and Its Application for Forensics | |
Wang et al. | Robust speaker identification of iot based on stacked sparse denoising auto-encoders | |
CN116434758A (zh) | 声纹识别模型训练方法、装置、电子设备及存储介质 | |
Herrera-Camacho et al. | Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE | |
Nagakrishnan et al. | Generic speech based person authentication system with genuine and spoofed utterances: different feature sets and models | |
Komlen et al. | Text independent speaker recognition using LBG vector quantization | |
Srinivas | LFBNN: robust and hybrid training algorithm to neural network for hybrid features-enabled speaker recognition system | |
Hassan et al. | Enhancing speaker identification through reverberation modeling and cancelable techniques using ANNs | |
Alghamdi | Speaker Recognition: Evaluation for GMM-UBM and 3d Convolutional Neural Networks Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |