CN112309375B - 语音识别模型的训练测试方法、装置、设备及存储介质 - Google Patents
语音识别模型的训练测试方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112309375B CN112309375B CN202011169279.8A CN202011169279A CN112309375B CN 112309375 B CN112309375 B CN 112309375B CN 202011169279 A CN202011169279 A CN 202011169279A CN 112309375 B CN112309375 B CN 112309375B
- Authority
- CN
- China
- Prior art keywords
- model
- test
- voice
- reconstructor
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 153
- 238000010998 test method Methods 0.000 title claims abstract description 18
- 239000012634 fragment Substances 0.000 claims abstract description 91
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims description 335
- 230000009977 dual effect Effects 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 11
- 238000013145 classification model Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 125000004122 cyclic group Chemical group 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 11
- 239000000284 extract Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及人工智能领域,公开了一种语音识别模型的训练测试方法、装置、设备及存储介质,用于解决模型训练时需要大量标签数据的问题以及提高模型训练的效率。语音识别模型的训练测试方法包括:获取多个历史语音片段、多个有标签语音片段和多个无标签语音片段;进行特征提取,得到历史观测序列、有标签观测序列以及无标签观测序列;根据历史观测序列和有标签观测序列训练模型;根据历史观测序列和无标签观测序列优化模型,得到候选分类器模型和候选重构器模型;获取测试语音数据,根据测试语音数据、候选分类器模型和候选重构器模型得到目标分类器模型和目标重构器模型,此外,本发明还涉及区块链技术,无标签语音片段可存储于区块链中。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种语音识别模型的训练测试方法、装置、设备及存储介质。
背景技术
说话人分离技术是指基于一段多人语音,将其分割为若干个片段,并标记每个片段所归属的说话人标签的技术。
在现有技术中,应用深度神经网络结合长短期记忆网络对大量带有标签的数据进行模型训练,从而将待识别数据输入训练好的模型中进行对象识别(为待识别数据标记说话人的标签),得到说话人标签。现有技术在建模的过程需要大量的有标签数据进行训练,但是实际上大部分数据都是无标签数据,对无标签数据进行模型训练时还需要提前对无标签数据进行标记,导致训练模型的效率较低。
发明内容
本发明的主要目的在于解决在训练识别模型时,需要大量有标签的数据且训练效率较低的问题。
本发明第一方面提供了一种语音识别模型的训练测试方法,包括:获取多个历史语音片段、多个有标签语音片段和多个无标签语音片段,所述多个历史语音片段、所述多个有标签语音片段和所述多个无标签语音片段由至少一个说话对象发出;对所述多个历史语音片段进行特征提取,得到历史观测序列,对所述多个有标签语音片段进行特征提取,得到有标签观测序列以及对所述多个无标签语音数据进行特征提取,得到无标签观测序列;根据所述历史观测序列和所述有标签观测序列训练初始分类器模型和初始重构器模型;根据所述历史观测序列和所述无标签观测序列,分别优化所述初始分类器模型和初始重构器模型,得到候选分类器模型和候选重构器模型;获取测试语音数据,根据所述测试语音数据、所述候选分类模型中和所述候选重构器模型得到测试标签,并基于所述测试标签调整所述候选分类器模型和所述候选重构器模型,得到目标分类器模型和目标重构器模型。
可选的,在本发明第一方面的第一种实现方式中,所述根据所述历史观测序列和所述有标签观测序列训练初始分类器模型和初始重构器模型包括:采用循环神经网络对所述历史观测序列进行训练,得到历史状态模型;将所述历史观测序列中的每个历史语音特征输入所述历史状态模型中进行状态识别,确定与每个历史语音特征对应的历史状态,生成多个历史状态,每个说话对象对应一个历史状态或者多个历史状态;基于所述有标签观测序列和所述多个历史状态训练得到初始分类器模型;基于所述有标签观测序列训练得到初始重构器模型。
可选的,在本发明第一方面的第二种实现方式中,所述基于所述有标签观测序列和所述多个历史状态训练得到初始分类器模型包括:从所述有标签观测序列中提取多个原始有标签语音特征,对每个原始有标签语音特征和多个历史状态进行仿射变换,得到与每个原始有标签语音特征对应的组合有标签语音特征;将每个组合有标签语音特征映射至预置的对象类别概率空间,得到与每个组合有标签语音特征对应的第一对象标签以及与每个组合有标签语音特征对应的第一标签概率,所述第一标签概率为所述第一对象标签属于目标说话对象的概率;根据每个第一对象标签以及对应的第一标签概率训练模型,得到初始分类器模型。
可选的,在本发明第一方面的第三种实现方式中,所述基于所述有标签观测序列训练得到初始重构器模型包括:提取有标签观测序列的高斯概率分布,并采用所述高斯概率分布进行模型预训练,得到预训练重构器模型;将每个原始有标签语音特征输入所述预训练重构器模型中进行识别,得到与每个原始有标签语音特征对应的第二对象标签以及与每个原始有标签语音特征对应的第二标签概率,所述第二标签概率为所述第二对象标签属于目标说话对象的概率;提取每个说话对象预置的正态分布,判断每个第二标签概率是否符合所述高斯概率分布以及判断所述高斯概率分布的高斯均值是否符合所述说话对象正态分布;若目标第二标签概率符合所述高斯概率分布且所述高斯均值符合所述说话对象正态分布,则确定所述预训练重构器模型为初始重构器模型;若目标第二标签概率不符合所述高斯概率分布且所述高斯均值不符合所述说话对象正态分布,则基于目标原始有标签语音特征调整所述预训练重构器模型,得到初始重构器模型。
可选的,在本发明第一方面的第四种实现方式中,所述根据所述历史观测序列和所述无标签观测序列,分别优化所述初始分类器模型和初始重构器模型,得到候选分类器模型和候选重构器模型包括:从所述无标签观测序列中提取多个无标签语音特征;将每个无标签语音特征输入所述初始分类器模型中,得到与每个无标签语音特征对应的第三对象标签以及与每个无标签语音特征对应的第三标签概率,生成多个第三标签概率,所述第三标签概率为所述第三对象标签为目标说话对象的概率;将每个第三对象标签输入所述初始重构器模型中,得到与每个第三对象标签对应的目标语音特征以及与每个第三对象标签对应的语音特征概率,生成多个语音特征概率,所述语音特征概率为目标语音特征为目标无标签语音特征的概率;基于预置的损失函数、所述多个第三标签概率和所述多个语音特征概率计算得到最小损失值;基于所述最小损失值对所述初始分类器模型进行优化,得到候选分类器模型,基于所述最小损失值对所述初始重构器模型进行优化,得到候选重构器模型。
可选的,在本发明第一方面的第五种实现方式中,所述获取测试语音数据,根据所述测试语音数据、所述候选分类模型中和所述候选重构器模型得到测试标签,并基于所述测试标签调整所述候选分类器模型和所述候选重构器模型,得到目标分类器模型和目标重构器模型包括:对所述测试语音数据进行特征提取,得到测试观测序列,所述测试观测序列包括多个测试语音特征;将目标测试语音特征输入所述候选分类器模型中,得到多个第一测试对象标签以及与每个第一测试对象标签对应的第一测试标签概率,第一测试标签概率为第一测试对象标签属于目标说话对象的概率;提取目标测试语音特征上一时刻测试语音特征的多个第二测试对象标签以及与每个第二测试对象标签对应的第二测试标签概率;采用预置的解码算法对所述多个第一测试对象标签和多个第一测试对象标签进行组合,得到多组测试组合结果,并按照预置损失函数基于每组测试组合结构对应的第一测试标签概率和第二测试标签概率计算测试损失值,得到多个测试损失值;在多个测试损失值中确定最小测试损失值,并将所述最小测试损失值对应的第一测试标签确定为测试标签;基于所述候选重构器模型对所述测试标签进行验证,得到目标分类器模型和目标重构器模型。。
可选的,在本发明第一方面的第六种实现方式中,所述基于所述候选重构器模型对所述测试标签进行验证,得到目标分类器模型和目标重构器模型包括:将所述测试标签输入所述候选重构器模型中进行语音特征识别,得到识别后的测试语音特征;判断所述识别后的测试语音特征是否为目标测试语音特征;若所述识别后的测试语音特征为所述目标测试语音特征,则将所述候选分类器模型确定为目标分类器模型,将所述候选重构器模型确定为目标重构器模型;若所述识别后的测试语音特征不为所述目标测试语音特征,则基于所述测试标签和对应的目标测试语音特征调整所述候选分类器模型,得到目标分类器模型;基于所述测试标签和对应的目标测试语音特征调整调整所述候选重构器模型,得到目标重构器模型。
本发明第二方面提供了一种语音识别模型的训练测试装置,包括:获取模块,用于获取多个历史语音片段、多个有标签语音片段和多个无标签语音片段,所述多个历史语音片段、所述多个有标签语音片段和所述多个无标签语音片段由至少一个说话对象发出;提取模块,用于对所述多个历史语音片段进行特征提取,得到历史观测序列,对所述多个有标签语音片段进行特征提取,得到有标签观测序列以及对所述多个无标签语音数据进行特征提取,得到无标签观测序列;训练模块,用于根据所述历史观测序列和所述有标签观测序列训练初始分类器模型和初始重构器模型;优化模块,用于根据所述历史观测序列和所述无标签观测序列,分别优化所述初始分类器模型和初始重构器模型,得到候选分类器模型和候选重构器模型;测试模块,用于获取测试语音数据,根据所述测试语音数据、所述候选分类模型中和所述候选重构器模型得到测试标签,并基于所述测试标签调整所述候选分类器模型和所述候选重构器模型,得到目标分类器模型和目标重构器模型。
可选的,在本发明第二方面的第一种实现方式中,所述训练模块包括:历史训练单元,用于采用循环神经网络对所述历史观测序列进行训练,得到历史状态模型;历史状态识别单元,用于将所述历史观测序列中的每个历史语音特征输入所述历史状态模型中进行状态识别,确定与每个历史语音特征对应的历史状态,生成多个历史状态,每个说话对象对应一个历史状态或者多个历史状态;分类器模型训练单元,用于基于所述有标签观测序列和所述多个历史状态训练得到初始分类器模型;重构器模型训练单元,用于基于所述有标签观测序列训练得到初始重构器模型。
可选的,在本发明第二方面的第二种实现方式中,所述分类器模型训练单元具体用于:从所述有标签观测序列中提取多个原始有标签语音特征,对每个原始有标签语音特征和多个历史状态进行仿射变换,得到与每个原始有标签语音特征对应的组合有标签语音特征;将每个组合有标签语音特征映射至预置的对象类别概率空间,得到与每个组合有标签语音特征对应的第一对象标签以及与每个组合有标签语音特征对应的第一标签概率,所述第一标签概率为所述第一对象标签属于目标说话对象的概率;根据每个第一对象标签以及对应的第一标签概率训练模型,得到初始分类器模型。
可选的,在本发明第二方面的第三种实现方式中,所述重构器模型训练单元具体用于:提取有标签观测序列的高斯概率分布,并采用所述高斯概率分布进行模型预训练,得到预训练重构器模型;将每个原始有标签语音特征输入所述预训练重构器模型中进行识别,得到与每个原始有标签语音特征对应的第二对象标签以及与每个原始有标签语音特征对应的第二标签概率,所述第二标签概率为所述第二对象标签属于目标说话对象的概率;提取每个说话对象预置的正态分布,判断每个第二标签概率是否符合所述高斯概率分布以及判断所述高斯概率分布的高斯均值是否符合所述说话对象正态分布;若目标第二标签概率符合所述高斯概率分布且所述高斯均值符合所述说话对象正态分布,则确定所述预训练重构器模型为初始重构器模型;若目标第二标签概率不符合所述高斯概率分布且所述高斯均值不符合所述说话对象正态分布,则基于目标原始有标签语音特征调整所述预训练重构器模型,得到初始重构器模型。
可选的,在本发明第二方面的第四种实现方式中,所述优化模块具体用于:从所述无标签观测序列中提取多个无标签语音特征;将每个无标签语音特征输入所述初始分类器模型中,得到与每个无标签语音特征对应的第三对象标签以及与每个无标签语音特征对应的第三标签概率,生成多个第三标签概率,所述第三标签概率为所述第三对象标签为目标说话对象的概率;将每个第三对象标签输入所述初始重构器模型中,得到与每个第三对象标签对应的目标语音特征以及与每个第三对象标签对应的语音特征概率,生成多个语音特征概率,所述语音特征概率为目标语音特征为目标无标签语音特征的概率;基于预置的损失函数、所述多个第三标签概率和所述多个语音特征概率计算得到最小损失值;基于所述最小损失值对所述初始分类器模型进行优化,得到候选分类器模型,基于所述最小损失值对所述初始重构器模型进行优化,得到候选重构器模型。
可选的,在本发明第二方面的第五种实现方式中,所述测试模块包括:测试特征提取单元,用于对所述测试语音数据进行特征提取,得到测试观测序列,所述测试观测序列包括多个测试语音特征;测试特征识别单元,用于将目标测试语音特征输入所述候选分类器模型中,得到多个第一测试对象标签以及与每个第一测试对象标签对应的第一测试标签概率,第一测试标签概率为第一测试对象标签属于目标说话对象的概率;标签与概率提取单元,用于提取目标测试语音特征上一时刻测试语音特征的多个第二测试对象标签以及与每个第二测试对象标签对应的第二测试标签概率;损失值计算单元,用于采用预置的解码算法对所述多个第一测试对象标签和多个第一测试对象标签进行组合,得到多组测试组合结果,并按照预置损失函数基于每组测试组合结构对应的第一测试标签概率和第二测试标签概率计算测试损失值,得到多个测试损失值;测试标签确定单元,用于在多个测试损失值中确定最小测试损失值,并将所述最小测试损失值对应的第一测试标签确定为测试标签;目标模型确定单元,用于基于所述候选重构器模型对所述测试标签进行验证,得到目标分类器模型和目标重构器模型。
可选的,在本发明第二方面的第六种实现方式中,目标模型确定单元具体用于:将所述测试标签输入所述候选重构器模型中进行语音特征识别,得到识别后的测试语音特征;判断所述识别后的测试语音特征是否为目标测试语音特征;若所述识别后的测试语音特征为所述目标测试语音特征,则将所述候选分类器模型确定为目标分类器模型,将所述候选重构器模型确定为目标重构器模型;若所述识别后的测试语音特征不为所述目标测试语音特征,则基于所述测试标签和对应的目标测试语音特征调整所述候选分类器模型,得到目标分类器模型;基于所述测试标签和对应的目标测试语音特征调整调整所述候选重构器模型,得到目标重构器模型。
本发明第三方面提供了一种语音识别模型的训练测试设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述语音识别模型的训练测试设备执行上述的语音识别模型的训练测试方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的语音识别模型的训练测试方法。
本发明提供的技术方案中,获取多个历史语音片段、多个有标签语音片段和多个无标签语音片段,所述多个历史语音片段、所述多个有标签语音片段和所述多个无标签语音片段由至少一个说话对象发出;对所述多个历史语音片段进行特征提取,得到历史观测序列,对所述多个有标签语音片段进行特征提取,得到有标签观测序列以及对所述多个无标签语音数据进行特征提取,得到无标签观测序列;根据所述历史观测序列和所述有标签观测序列训练初始分类器模型和初始重构器模型;根据所述历史观测序列和所述无标签观测序列,分别优化所述初始分类器模型和初始重构器模型,得到候选分类器模型和候选重构器模型;获取测试语音数据,将所述测试语音数据输入所述候选分类器模型中和所述候选重构器模型中进行语音识别,得到目标标签。本发明实施例中,通过对偶学习对无标签语音片段进行训练与测试,得到一组对偶模型,对偶模型为目标分类器模型和目标重构器模型,由于对偶模型的监督学习特性,解决了需要大量有标签语音片段训练模型的问题,省略了在模型训练前对无标签语音片段标记的过程,从而提高了模型的训练效率。
附图说明
图1为本发明实施例中语音识别模型的训练测试方法的一个实施例示意图;
图2为本发明实施例中语音识别模型的训练测试方法的另一个实施例示意图;
图3为本发明实施例中语音识别模型的训练测试装置的一个实施例示意图;
图4为本发明实施例中语音识别模型的训练测试装置的另一个实施例示意图;
图5为本发明实施例中语音识别模型的训练测试设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种语音识别模型的训练测试方法、装置、设备及存储介质,通过对偶学习对无标签语音片段进行训练与测试,得到一组对偶模型,对偶模型为目标分类器模型和目标重构器模型,由于对偶模型的监督学习特性,解决了需要大量有标签语音片段训练模型的问题,省略了在模型训练前对无标签语音片段标记的过程,从而提高了模型的训练效率。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中语音识别模型的训练测试方法的一个实施例包括:
101、获取多个历史语音片段、多个有标签语音片段和多个无标签语音片段,多个历史语音片段、多个有标签语音片段和多个无标签语音片段由至少一个说话对象发出;
服务器获取分别来自至少一个说话对象发出的多个历史语音片段、多个有标签语音片段和多个无标签语音片段。
需要说明的是,多个历史语音片段、多个有标签语音片段和多个无标签语音片段可以为不同的说话对象发出的语音片段。例如,说话对象A发出历史语音片段A1、A2和A3等,说话对象B发出历史语音片段B1、B2、B3和B4等;说话对象C发出有标签语音片段C1、C2、C3和C4等,未知的说话对象发出无标签语音片段D1、D2、D3、D4、D5和D6等。
在获取多个历史语音片段、多个有标签语音片段和多个无标签语音片段之前,服务器首先获取多个历史语音数据、多个有标签语音数据和多个无标签语音数据;其次服务器对多个历史语音数据进行端点检测,得到多个历史语音片段;然后对多个有标签语音数据进行端点检测,得到多个有标签语音片段;最后对多个无标签语音数据进行端点检测,得到多个无标签语音片段。
可以理解的是,本发明的执行主体可以为语音识别模型的训练测试装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
102、对多个历史语音片段进行特征提取,得到历史观测序列,对多个有标签语音片段进行特征提取,得到有标签观测序列以及对多个无标签语音数据进行特征提取,得到无标签观测序列;
服务器提取每个历史语音片段的语音特征,得到历史语音特征的集合,即历史观测序列,服务器提取每个有标签语音片段的语音特征,得到有标签语音特征的集合,即有标签观测序列,服务器提取每个无标签语音片段的语音特征,得到无标签语音特征的集合,即无标签观测序列。
例如,对历史语音片段提取语音特征得到的历史观测序列为(x1,y1),(x2,y2),...,(x27,y27),其中x1为时刻1的历史语音特征,y1为时刻1的对象标签。
需要说明的是,无标签语音片段中的对象标签为预测对象标签或者未知对象标签。
103、根据历史观测序列和有标签观测序列训练初始分类器模型和初始重构器模型;
服务器对历史观测序列和有标签观测序列进行分类器模型训练,得到初始分类器模型,然后服务器对历史观测序列和有标签观测序列进行重构器模型训练,得到初始重构器模型。
其中,历史观测序列用于提供说话对象的历史状态,主要参考历史状态再结合有标签观测序列对分类器模型进行训练,得到初始分类器模型;训练得到初始重构器模型时,主要引入高斯概率分布进行模型训练。
104、根据历史观测序列和无标签观测序列,分别优化初始分类器模型和初始重构器模型,得到候选分类器模型和候选重构器模型;
服务器结合历史观测序列和无标签观测序列优化初始分类器模型,得到候选分类器模型,然后服务器结合历史观测序列和无标签观测序列优化初始重构器模型,得到候选重构器模型。
需要说明的是,初始分类器模型和初始重构器模型为对偶学习模型,对偶学习的实质是两个对偶的任务能够形成一个闭环反馈系统,使得服务器在未标注的数据上获得反馈信息,从而利用该反馈信息提高对偶任务中的两个机器学习模型的准确率。
在本实施例中,对偶任务1是将时刻1的语音特征1输入初始分类器模型中进行说话对象的识别,得到说话对象为说话对象E1,对偶任务2是将该说话对象E1输入值初始重构器模型中进行语音特征的反识别,得到说话对象E1对应的语音特征,基于该语音特征和语音特征1优化初始分类器模型和初始重构器模型。
105、获取测试语音数据,根据测试语音数据、候选分类模型中和候选重构器模型得到测试标签,并基于测试标签调整候选分类器模型和候选重构器模型,得到目标分类器模型和目标重构器模型。
服务器获取测试语音数据,并将测试语音数据分别输入候选分类器模型中和候选重构器模型中进行语音识别测试,得到测试标签,并基于测试标签得到目标分类器模型和目标重构器模型。
目标分类器模型和目标重构器模型为一组对偶模型,因此在本实施例中,首先将测试语音数据对应的语音特征F1输入候选分类器模型中进行标签识别,得到一个测试标签F2,然后再将该测试标签F2输入候选重构器模型中进行语音特征识别,得到语音特征F3,然后服务器判断语音特征F3为语音特征F1的概率为多少,若该概率大于或者等于概率阈值,则确定候选分类器模型为目标分类器模型,确定候选重构器模型为目标重构器模型;若该概率小于概率阈值,则基于语音特征F1、测试标签F2和语音特征F3调整候选分类器模型和候选重构器模型,得到目标分类器模型和目标重构器模型。
本发明实施例中,通过对偶学习对无标签语音片段进行训练与测试,得到一组对偶模型,对偶模型为目标分类器模型和目标重构器模型,由于对偶模型的监督学习特性,解决了需要大量有标签语音片段训练模型的问题,省略了在模型训练前对无标签语音片段标记的过程,从而提高了模型的训练效率。
请参阅图2,本发明实施例中语音识别模型的训练测试方法的另一个实施例包括:
201、获取多个历史语音片段、多个有标签语音片段和多个无标签语音片段,多个历史语音片段、多个有标签语音片段和多个无标签语音片段由至少一个说话对象发出;
服务器获取分别来自至少一个说话对象发出的多个历史语音片段、多个有标签语音片段和多个无标签语音片段。
202、对多个历史语音片段进行特征提取,得到历史观测序列,对多个有标签语音片段进行特征提取,得到有标签观测序列以及对多个无标签语音数据进行特征提取,得到无标签观测序列;
服务器提取每个历史语音片段的语音特征,得到历史语音特征的集合,即历史观测序列,服务器提取每个有标签语音片段的语音特征,得到有标签语音特征的集合,即有标签观测序列,服务器提取每个无标签语音片段的语音特征,得到无标签语音特征的集合,即无标签观测序列。
203、采用循环神经网络对历史观测序列进行训练,得到历史状态模型;
服务器采用循环神经网络(recurrent neural network,,RNN)对历史观测序列进行训练,得到历史状态模型。
服务器首先从历史观测序列中提取多个历史语音特征,将每个历史语音特征作为一个训练输入,将每个历史语音特征输入循环神经网络中进行模型训练,得到历史状态模型。
在本实施例中,历史状态模型为f(xt,μt-1|θ),其中xt为t时刻的历史语音特征,μt-1为历史观测序列对应的高斯概率分布的均值。
204、将历史观测序列中的每个历史语音特征输入历史状态模型中进行状态识别,确定与每个历史语音特征对应的历史状态,生成多个历史状态,每个说话对象对应一个历史状态或者多个历史状态;
服务器将每个历史语音特征输入历史状态模型中进行状态识别,确定与每个历史语音特征对应的历史状态,每个历史状态与一个说话对象对应。
需要说明的是,历史状态可以理解为说话对象在说话时的状态,比如,说话对象A1说话时音调偏高,则高音调为说话对象A1的历史状态,说话对象B1说话时停顿时段偏长,则停顿时段长为说话对象B1的历史状态,可以将说话对象的历史状态简单理解为说话对象的标识。
205、基于有标签观测序列和多个历史状态训练得到初始分类器模型;
服务器基于有标签观测序列和多个历史状态训练分类器模型,得到初始分类器模型。
具体的,服务器从有标签观测序列中提取多个原始有标签语音特征,并将每个原始有标签语音特征和多个历史状态输入RNN的第一全连接层进行仿射变换,在第一全连接层中,将每个原始有标签语音特征和多个历史状态进行维度的重新组合,得到与每个原始有标签语音特征对应的组合有标签语音特征;然后将每个组合有标签语音特征映射至RNN的第二全连接层,即预置的对象类别概率空间,得到与每个组合有标签语音特征对应的第一对象标签以及与每个组合有标签语音特征对应的第一标签概率,第一标签概率为第一对象标签属于目标说话对象的概率;最后根据每个第一对象标签以及对应的第一标签概率训练模型,得到初始分类器模型。
206、基于有标签观测序列训练得到初始重构器模型;
服务器根据有标签观测序列训练重构器模型,得到初始重构器模型。
具体的,服务器首先提取有标签观测序列的高斯概率分布,并采用高斯概率分布进行模型预训练,得到预训练重构器模型;其次服务器将每个原始有标签语音特征作为训练输入,将每个原始有标签语音特征输入预训练重构器模型中进行识别,得到与每个原始有标签语音特征对应的第二对象标签以及与每个原始有标签语音特征对应的第二标签概率,第二标签概率为第二对象标签属于目标说话对象的概率,一个第二对象标签对应一个第二标签概率;然后服务器提取每个说话对象预置的正态分布,判断高斯概率分布以及判断高斯概率分布的高斯均值是否符合说话对象正态分布;如果每个第二标签概率符合高斯概率分布且高斯均值符合说话对象正态分布,则确定预训练重构器模型为初始重构器模型;若目标第二标签概率不符合高斯概率分布且高斯均值不符合说话对象正态分布,则基于目标原始有标签语音特征调整预训练重构器模型,得到初始重构器模型。
高斯概率分布为 代表高斯概率分布,μt-1为该高斯概率分布的均值,σ2为该高斯状态分布的方差。基于/>进行模型预训练,得到预训练重构器模型若计算x1得到的第二标签概率符合/>而且μt-1符合说话对象正态分布,则确定预训练重构器模型为初始重构器模型,否则基于x1调整预训练重构器模型,得到初始重构器模型。
207、根据历史观测序列和无标签观测序列,分别优化初始分类器模型和初始重构器模型,得到候选分类器模型和候选重构器模型;
服务器结合历史观测序列和无标签观测序列优化初始分类器模型,得到候选分类器模型,然后服务器结合历史观测序列和无标签观测序列优化初始重构器模型,得到候选重构器模型。
具体的,从无标签观测序列中提取多个无标签语音特征;
服务器将每个无标签语音特征输入初始分类器模型中,得到与每个无标签语音特征对应的第三对象标签以及与每个无标签语音特征对应的第三标签概率,生成多个第三标签概率,第三标签概率为第三对象标签为目标说话对象的概率,一个第三对象标签对应一个第三标签概率;将每个第三对象标签输入初始重构器模型中,得到与每个第三对象标签对应的目标语音特征以及与每个第三对象标签对应的语音特征概率,生成多个语音特征概率,语音特征概率为目标语音特征为目标无标签语音特征的概率,一个语音特征概率对应一个目标语音特征;基于预置的损失函数、多个第三标签概率和多个语音特征概率计算得到最小损失值;基于最小损失值对初始分类器模型进行优化,得到候选分类器模型,基于最小损失值对初始重构器模型进行优化,得到候选重构器模型。
需要说明的是,损失函数为KL(p(xt|yt,zt-1)||p(yt|xt,zt-1)),其中,zt-1为历史观测序列,KL为散度(kullback-leibler)。基于对偶学习的原理,当两个对偶模型对偶过程中输出的KL越小,则说明两个对偶模型越准确。当计算得到的目标损失函数最小时,则基于最小损失值得到候选分类器模型为p(yt|xt,zt-1),基于最小损失值得到候选重构器模型为p(xt|yt,zt-1)。
208、获取测试语音数据,根据测试语音数据、候选分类模型中和候选重构器模型得到测试标签,并基于测试标签调整候选分类器模型和候选重构器模型,得到目标分类器模型和目标重构器模型。
服务器获取测试语音数据,并将测试语音数据分别输入候选分类器模型中和候选重构器模型中进行语音识别测试,得到测试标签,并基于测试标签得到目标分类器模型和目标重构器模型。
具体的,服务器对测试语音数据进行特征提取,得到测试观测序列,测试观测序列包括多个测试语音特征;将目标测试语音特征输入候选分类器模型中,得到多个第一测试对象标签以及与每个第一测试对象标签对应的第一测试标签概率,第一测试标签概率为第一测试对象标签属于目标说话对象的概率;其次服务器提取目标测试语音特征上一时刻测试语音特征的多个第二测试对象标签以及与每个第二测试对象标签对应的第二测试标签概率;然后服务器采用预置的解码算法(beam search)对多个第一测试对象标签和多个第一测试对象标签进行组合,得到多组测试组合结果,并按照预置损失函数基于每组测试组合结构对应的第一测试标签概率和第二测试标签概率计算测试损失值,得到多个测试损失值;在多个测试损失值中确定最小测试损失值,并将最小测试损失值对应的第一测试标签确定为测试标签;基于候选重构器模型对测试标签进行验证,得到目标分类器模型和目标重构器模型。
例如,假设目标测试语音特征为X1,将X1输入候选分类器模型p(yt|xt,zt-1)中,得到第一测试对象标签为K1、K2、K3和K4,K1对应的第一测试标签概率为0.8,K2对应的第一测试标签概率为0.85,K3对应的第一测试标签概率为0.9,K4对应的第一测试标签概率为0.85,K3对应的第一测试标签概率为0.9。第二测试对象标签为K5至K14,对应的第二测试标签概率分别为0.7、0.75、0.76、0.77、0.78、0.8、0.85、0.87、0.9和0.91。服务器采用beamsearch对第一测试对象标签K1、K2、K3和K4以及第二测试对象标签K5至K14进行组合,则得到40(4*10)组测试组合结果,还基于KL(p(xt|yt,zt-1)||p(yt|xt,zt-1))、每组对应的第一测试标签概率和第二测试标签概率计算得到对应的测试损失值,即40个测试损失值分别为(0.05、0.1和0.15等),在40个测试损失值中确定最小测试损失值为0.05,则确定最小测试损失值0.05对应的第一测试标签K2为测试标签;最后服务器基于候选重构器模型验证K2标签,如果通过验证,则确定候选分类器模型为目标分类器模型,确定候选重构器模型为目标重构器模型。
在一实施例中,基于候选重构器模型对测试标签进行验证,得到目标分类器模型和目标重构器模型的具体过程为:
服务器将测试标签输入候选重构器模型中进行语音特征识别,得到识别后的测试语音特征;然后服务器判断识别后的测试语音特征是否为目标测试语音特征;如果识别后的测试语音特征为目标测试语音特征,服务器则确定候选分类器模型为目标分类器模型以及确定候选重构器模型为目标重构器模型;如果识别后的测试语音特征不为目标测试语音特征,服务器则基于测试标签和对应的目标测试语音特征调整候选分类器模型和候选重构器模型,得到目标分类器模型和目标候选重构器模型。
服务器将K2输入候选重构器模型p(xt|yt,zt-1)中,假设得到识别后的测试语音特征为X1,则说明识别后的测试语音特征为目标测试语音特征,此时确定p(yt|xt,zt-1)为目标分类器模型以及确定p(xt|yt,zt-1)为目标重构器模型。在另一实施例中,假设得到识别后的测试语音特征为X2,则说明识别后的测试语音特征不为目标测试语音特征,此时基于测试标签K2和对应的目标测试语音特征X1调整候选分类器模型和候选重构器模型,得到目标分类器模型和目标重构器模型。
为了便于理解,下面基于上述内容进行具体应用场景的说明:
假设测试语音数据为“请问是张先生吗?”,服务器将“请问是张先生吗?”对应的语音特征1“请问是张先生吗?”输入候选分类器模型中进行标签识别,得到测试标签“确认身份”,将“确认身份”的测试标签输入候选重构器模型中进行语音特征识别,得到语音特征2“请问是张先生吗?”,此时计算语音特征2为语音特征1的概率,经过计算,得到概率为100%,大于概率阈值,服务器则确定候选分类器模型为目标分类器模型,确定候调整候选分类器模型和候选重构器模型,得到目标分类器模型和目标重构器模型。
本发明实施例中,通过对偶学习对无标签语音片段进行训练与测试,得到一组对偶模型,对偶模型为目标分类器模型和目标重构器模型,由于对偶模型的监督学习特性,解决了需要大量有标签语音片段训练模型的问题,省略了在模型训练前对无标签语音片段标记的过程,从而提高了模型的训练效率。
上面对本发明实施例中语音识别模型的训练测试方法进行了描述,下面对本发明实施例中语音识别模型的训练测试装置进行描述,请参阅图3,本发明实施例中语音识别模型的训练测试装置一个实施例包括:
获取模块301,用于获取多个历史语音片段、多个有标签语音片段和多个无标签语音片段,多个历史语音片段、多个有标签语音片段和多个无标签语音片段由至少一个说话对象发出;
提取模块302,用于对多个历史语音片段进行特征提取,得到历史观测序列,对多个有标签语音片段进行特征提取,得到有标签观测序列以及对多个无标签语音数据进行特征提取,得到无标签观测序列;
训练模块303,用于根据历史观测序列和有标签观测序列训练初始分类器模型和初始重构器模型;
优化模块304,用于根据历史观测序列和无标签观测序列,分别优化初始分类器模型和初始重构器模型,得到候选分类器模型和候选重构器模型;
测试模块305,用于获取测试语音数据,根据测试语音数据、候选分类模型中和候选重构器模型得到测试标签,并基于测试标签调整候选分类器模型和候选重构器模型,得到目标分类器模型和目标重构器模型。
本发明实施例中,通过对偶学习对无标签语音片段进行训练与测试,得到一组对偶模型,对偶模型为目标分类器模型和目标重构器模型,由于对偶模型的监督学习特性,解决了需要大量有标签语音片段训练模型的问题,省略了在模型训练前对无标签语音片段标记的过程,从而提高了模型的训练效率。
请参阅图4,本发明实施例中语音识别模型的训练测试装置的另一个实施例包括:
获取模块301,用于获取多个历史语音片段、多个有标签语音片段和多个无标签语音片段,多个历史语音片段、多个有标签语音片段和多个无标签语音片段由至少一个说话对象发出;
提取模块302,用于对多个历史语音片段进行特征提取,得到历史观测序列,对多个有标签语音片段进行特征提取,得到有标签观测序列以及对多个无标签语音数据进行特征提取,得到无标签观测序列;
训练模块303,用于根据历史观测序列和有标签观测序列训练初始分类器模型和初始重构器模型;
优化模块304,用于根据历史观测序列和无标签观测序列,分别优化初始分类器模型和初始重构器模型,得到候选分类器模型和候选重构器模型;
测试模块305,用于获取测试语音数据,根据测试语音数据、候选分类模型中和候选重构器模型得到测试标签,并基于测试标签调整候选分类器模型和候选重构器模型,得到目标分类器模型和目标重构器模型。
可选的,训练模块303包括:
历史训练单元3031,用于采用循环神经网络对历史观测序列进行训练,得到历史状态模型;
历史状态识别单元3032,用于将历史观测序列中的每个历史语音特征输入历史状态模型中进行状态识别,确定与每个历史语音特征对应的历史状态,生成多个历史状态,每个说话对象对应一个历史状态或者多个历史状态;
分类器模型训练单元3033,用于基于有标签观测序列和多个历史状态训练得到初始分类器模型;
重构器模型训练单元3034,用于基于有标签观测序列训练得到初始重构器模型。
可选的,分类器模型训练单元3033还可以具体用于:
从有标签观测序列中提取多个原始有标签语音特征,对每个原始有标签语音特征和多个历史状态进行仿射变换,得到与每个原始有标签语音特征对应的组合有标签语音特征;
将每个组合有标签语音特征映射至预置的对象类别概率空间,得到与每个组合有标签语音特征对应的第一对象标签以及与每个组合有标签语音特征对应的第一标签概率,第一标签概率为第一对象标签属于目标说话对象的概率;
根据每个第一对象标签以及对应的第一标签概率训练模型,得到初始分类器模型。
可选的,重构器模型训练单元3034还可以具体用于:
提取有标签观测序列的高斯概率分布,并采用高斯概率分布进行模型预训练,得到预训练重构器模型;
将每个原始有标签语音特征输入预训练重构器模型中进行识别,得到与每个原始有标签语音特征对应的第二对象标签以及与每个原始有标签语音特征对应的第二标签概率,第二标签概率为第二对象标签属于目标说话对象的概率;
提取每个说话对象预置的正态分布,判断每个第二标签概率是否符合高斯概率分布以及判断高斯概率分布的高斯均值是否符合说话对象正态分布;
若目标第二标签概率符合高斯概率分布且高斯均值符合说话对象正态分布,则确定预训练重构器模型为初始重构器模型;
若目标第二标签概率不符合高斯概率分布且高斯均值不符合说话对象正态分布,则基于目标原始有标签语音特征调整预训练重构器模型,得到初始重构器模型。
可选的,优化模块304还可以具体用于:
从无标签观测序列中提取多个无标签语音特征;
将每个无标签语音特征输入初始分类器模型中,得到与每个无标签语音特征对应的第三对象标签以及与每个无标签语音特征对应的第三标签概率,生成多个第三标签概率,第三标签概率为第三对象标签为目标说话对象的概率;
将每个第三对象标签输入初始重构器模型中,得到与每个第三对象标签对应的目标语音特征以及与每个第三对象标签对应的语音特征概率,生成多个语音特征概率,语音特征概率为目标语音特征为目标无标签语音特征的概率;
基于预置的损失函数、多个第三标签概率和多个语音特征概率计算得到最小损失值;基于最小损失值对初始分类器模型进行优化,得到候选分类器模型,基于最小损失值对初始重构器模型进行优化,得到候选重构器模型。
可选的,测试模块305包括:
测试特征提取单元3051,用于对测试语音数据进行特征提取,得到测试观测序列,测试观测序列包括多个测试语音特征;
测试特征识别单元3052,用于将目标测试语音特征输入候选分类器模型中,得到多个第一测试对象标签以及与每个第一测试对象标签对应的第一测试标签概率,第一测试标签概率为第一测试对象标签属于目标说话对象的概率;
标签与概率提取单元3053,用于提取目标测试语音特征上一时刻测试语音特征的多个第二测试对象标签以及与每个第二测试对象标签对应的第二测试标签概率;
损失值计算单元3054,用于采用预置的解码算法对多个第一测试对象标签和多个第一测试对象标签进行组合,得到多组测试组合结果,并按照预置损失函数基于每组测试组合结构对应的第一测试标签概率和第二测试标签概率计算测试损失值,得到多个测试损失值;
测试标签确定单元3055,用于在多个测试损失值中确定最小测试损失值,并将最小测试损失值对应的第一测试标签确定为测试标签;
目标模型确定单元3056,用于基于候选重构器模型对测试标签进行验证,得到目标分类器模型和目标重构器模型。
可选的,目标模型确定单元3056还可以具体用于:
将测试标签输入候选重构器模型中进行语音特征识别,得到识别后的测试语音特征;判断识别后的测试语音特征是否为目标测试语音特征;
若识别后的测试语音特征为目标测试语音特征,则将候选分类器模型确定为目标分类器模型,将候选重构器模型确定为目标重构器模型;
若识别后的测试语音特征不为目标测试语音特征,
若识别后的测试语音特征不为目标测试语音特征,则基于测试标签和对应的目标测试语音特征调整候选分类器模型,得到目标分类器模型;
基于测试标签和对应的目标测试语音特征调整调整候选重构器模型,得到目标重构器模型。
本发明实施例中,通过对偶学习对无标签语音片段进行训练与测试,得到一组对偶模型,对偶模型为目标分类器模型和目标重构器模型,由于对偶模型的监督学习特性,解决了需要大量有标签语音片段训练模型的问题,省略了在模型训练前对无标签语音片段标记的过程,提高了模型的训练效率。
上面图3和图4从模块化功能实体的角度对本发明实施例中的语音识别模型的训练测试装置进行详细描述,下面从硬件处理的角度对本发明实施例中语音识别模型的训练测试设备进行详细描述。
图5是本发明实施例提供的一种语音识别模型的训练测试设备的结构示意图,该语音识别模型的训练测试设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对语音识别模型的训练测试设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在语音识别模型的训练测试设备500上执行存储介质530中的一系列指令操作。
语音识别模型的训练测试设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的语音识别模型的训练测试设备结构并不构成对语音识别模型的训练测试设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行语音识别模型的训练测试方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种语音识别模型的训练测试方法,其特征在于,所述语音识别模型的训练测试方法包括:
获取多个历史语音片段、多个有标签语音片段和多个无标签语音片段,所述多个历史语音片段、所述多个有标签语音片段和所述多个无标签语音片段由至少一个说话对象发出;
对所述多个历史语音片段进行特征提取,得到历史观测序列,对所述多个有标签语音片段进行特征提取,得到有标签观测序列以及对所述多个无标签语音数据进行特征提取,得到无标签观测序列;
根据所述历史观测序列和所述有标签观测序列训练初始分类器模型和初始重构器模型;
所述根据所述历史观测序列和所述有标签观测序列训练初始分类器模型和初始重构器模型包括:
采用循环神经网络对所述历史观测序列进行训练,得到历史状态模型;
将所述历史观测序列中的每个历史语音特征输入所述历史状态模型中进行状态识别,确定与每个历史语音特征对应的历史状态,生成多个历史状态,每个说话对象对应一个历史状态或者多个历史状态;
基于所述有标签观测序列和所述多个历史状态训练得到初始分类器模型;
基于所述有标签观测序列训练得到初始重构器模型;
所述基于所述有标签观测序列和所述多个历史状态训练得到初始分类器模型包括:
从所述有标签观测序列中提取多个原始有标签语音特征,对每个原始有标签语音特征和多个历史状态进行仿射变换,得到与每个原始有标签语音特征对应的组合有标签语音特征;
将每个组合有标签语音特征映射至预置的对象类别概率空间,得到与每个组合有标签语音特征对应的第一对象标签以及与每个组合有标签语音特征对应的第一标签概率,所述第一标签概率为所述第一对象标签属于目标说话对象的概率;
根据每个第一对象标签以及对应的第一标签概率训练模型,得到初始分类器模型;
所述基于所述有标签观测序列训练得到初始重构器模型包括:
提取有标签观测序列的高斯概率分布,并采用所述高斯概率分布进行模型预训练,得到预训练重构器模型;
将每个原始有标签语音特征输入所述预训练重构器模型中进行识别,得到与每个原始有标签语音特征对应的第二对象标签以及与每个原始有标签语音特征对应的第二标签概率,所述第二标签概率为所述第二对象标签属于目标说话对象的概率;
提取每个说话对象预置的正态分布,判断每个第二标签概率是否符合所述高斯概率分布以及判断所述高斯概率分布的高斯均值是否符合所述说话对象正态分布;
若目标第二标签概率符合所述高斯概率分布且所述高斯均值符合所述说话对象正态分布,则确定所述预训练重构器模型为初始重构器模型;
若目标第二标签概率不符合所述高斯概率分布且所述高斯均值不符合所述说话对象正态分布,则基于目标原始有标签语音特征调整所述预训练重构器模型,得到初始重构器模型;
根据所述历史观测序列和所述无标签观测序列,分别优化所述初始分类器模型和初始重构器模型,得到候选分类器模型和候选重构器模型;
所述根据所述历史观测序列和所述无标签观测序列,分别优化所述初始分类器模型和初始重构器模型,得到候选分类器模型和候选重构器模型包括:
从所述无标签观测序列中提取多个无标签语音特征;
将每个无标签语音特征输入所述初始分类器模型中,得到与每个无标签语音特征对应的第三对象标签以及与每个无标签语音特征对应的第三标签概率,生成多个第三标签概率,所述第三标签概率为所述第三对象标签为目标说话对象的概率;
将每个第三对象标签输入所述初始重构器模型中,得到与每个第三对象标签对应的目标语音特征以及与每个第三对象标签对应的语音特征概率,生成多个语音特征概率,所述语音特征概率为目标语音特征为目标无标签语音特征的概率;
基于预置的损失函数、所述多个第三标签概率和所述多个语音特征概率计算得到最小损失值;
基于所述最小损失值对所述初始分类器模型进行优化,得到候选分类器模型,基于所述最小损失值对所述初始重构器模型进行优化,得到候选重构器模型;
获取测试语音数据,根据所述测试语音数据、所述候选分类模型中和所述候选重构器模型得到测试标签,并基于所述测试标签调整所述候选分类器模型和所述候选重构器模型,得到目标分类器模型和目标重构器模型,所述目标分类器模型和所述目标重构器模型为一组对偶模型;
所述获取测试语音数据,根据所述测试语音数据、所述候选分类模型中和所述候选重构器模型得到测试标签,并基于所述测试标签调整所述候选分类器模型和所述候选重构器模型,得到目标分类器模型和目标重构器模型包括:
对所述测试语音数据进行特征提取,得到测试观测序列,所述测试观测序列包括多个测试语音特征;
将目标测试语音特征输入所述候选分类器模型中,得到多个第一测试对象标签以及与每个第一测试对象标签对应的第一测试标签概率,第一测试标签概率为第一测试对象标签属于目标说话对象的概率;
提取目标测试语音特征上一时刻测试语音特征的多个第二测试对象标签以及与每个第二测试对象标签对应的第二测试标签概率;
采用预置的解码算法对所述多个第一测试对象标签和多个第一测试对象标签进行组合,得到多组测试组合结果,并按照预置损失函数基于每组测试组合结构对应的第一测试标签概率和第二测试标签概率计算测试损失值,得到多个测试损失值;
在多个测试损失值中确定最小测试损失值,并将所述最小测试损失值对应的第一测试标签确定为测试标签;
基于所述候选重构器模型对所述测试标签进行验证,得到目标分类器模型和目标重构器模型。
2.根据权利要求1所述的语音识别模型的训练测试方法,其特征在于,所述基于所述候选重构器模型对所述测试标签进行验证,得到目标分类器模型和目标重构器模型包括:
将所述测试标签输入所述候选重构器模型中进行语音特征识别,得到识别后的测试语音特征;
判断所述识别后的测试语音特征是否为目标测试语音特征;
若所述识别后的测试语音特征为所述目标测试语音特征,则将所述候选分类器模型确定为目标分类器模型,将所述候选重构器模型确定为目标重构器模型;
若所述识别后的测试语音特征不为所述目标测试语音特征,则基于所述测试标签和对应的目标测试语音特征调整所述候选分类器模型,得到目标分类器模型;
基于所述测试标签和对应的目标测试语音特征调整所述候选重构器模型,得到目标重构器模型。
3.一种语音识别模型的训练测试装置,其特征在于,所述语音识别模型的训练测试装置执行如权利要求1-2中任意一项所述的语音识别模型的训练测试方法,所述语音识别模型的训练测试装置包括:
获取模块,用于获取多个历史语音片段、多个有标签语音片段和多个无标签语音片段,所述多个历史语音片段、所述多个有标签语音片段和所述多个无标签语音片段由至少一个说话对象发出;
提取模块,用于对所述多个历史语音片段进行特征提取,得到历史观测序列,对所述多个有标签语音片段进行特征提取,得到有标签观测序列以及对所述多个无标签语音数据进行特征提取,得到无标签观测序列;
训练模块,用于根据所述历史观测序列和所述有标签观测序列训练初始分类器模型和初始重构器模型;
优化模块,用于根据所述历史观测序列和所述无标签观测序列,分别优化所述初始分类器模型和初始重构器模型,得到候选分类器模型和候选重构器模型;
测试模块,用于获取测试语音数据,根据所述测试语音数据、所述候选分类模型中和所述候选重构器模型得到测试标签,并基于所述测试标签调整所述候选分类器模型和所述候选重构器模型,得到目标分类器模型和目标重构器模型。
4.一种语音识别模型的训练测试设备,其特征在于,所述语音识别模型的训练测试设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述语音识别模型的训练测试设备执行如权利要求1-2中任意一项所述的语音识别模型的训练测试方法。
5.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-2中任一项所述语音识别模型的训练测试方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011169279.8A CN112309375B (zh) | 2020-10-28 | 2020-10-28 | 语音识别模型的训练测试方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011169279.8A CN112309375B (zh) | 2020-10-28 | 2020-10-28 | 语音识别模型的训练测试方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112309375A CN112309375A (zh) | 2021-02-02 |
CN112309375B true CN112309375B (zh) | 2024-02-23 |
Family
ID=74332183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011169279.8A Active CN112309375B (zh) | 2020-10-28 | 2020-10-28 | 语音识别模型的训练测试方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112309375B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220839B (zh) * | 2021-05-13 | 2022-05-24 | 亿咖通(湖北)技术有限公司 | 一种意图识别方法、电子设备及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295697A (zh) * | 2016-08-10 | 2017-01-04 | 广东工业大学 | 一种基于半监督的迁移学习分类方法 |
CN110148398A (zh) * | 2019-05-16 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、装置、设备及存储介质 |
KR20200018154A (ko) * | 2018-08-10 | 2020-02-19 | 서울대학교산학협력단 | 브이에이이 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템 |
CN111063342A (zh) * | 2020-01-02 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN111179962A (zh) * | 2020-01-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 语音分离模型的训练方法、语音分离方法及装置 |
CN111341341A (zh) * | 2020-02-11 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 音频分离网络的训练方法、音频分离方法、装置及介质 |
CN111554277A (zh) * | 2020-05-15 | 2020-08-18 | 深圳前海微众银行股份有限公司 | 语音数据识别方法、装置、设备及介质 |
-
2020
- 2020-10-28 CN CN202011169279.8A patent/CN112309375B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295697A (zh) * | 2016-08-10 | 2017-01-04 | 广东工业大学 | 一种基于半监督的迁移学习分类方法 |
KR20200018154A (ko) * | 2018-08-10 | 2020-02-19 | 서울대학교산학협력단 | 브이에이이 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템 |
CN110148398A (zh) * | 2019-05-16 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、装置、设备及存储介质 |
CN111063342A (zh) * | 2020-01-02 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN111179962A (zh) * | 2020-01-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 语音分离模型的训练方法、语音分离方法及装置 |
CN111341341A (zh) * | 2020-02-11 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 音频分离网络的训练方法、音频分离方法、装置及介质 |
CN111554277A (zh) * | 2020-05-15 | 2020-08-18 | 深圳前海微众银行股份有限公司 | 语音数据识别方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112309375A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108235770B (zh) | 图像识别方法及云端系统 | |
Huang et al. | Speech emotion recognition using CNN | |
WO2021232594A1 (zh) | 语音情绪识别方法、装置、电子设备及存储介质 | |
CN109785833A (zh) | 用于智能设备的人机交互语音识别方法及系统 | |
JP7266674B2 (ja) | 画像分類モデルの訓練方法、画像処理方法及び装置 | |
CN111461164B (zh) | 样本数据集的扩容方法及模型的训练方法 | |
CN112528648A (zh) | 多音字发音的预测方法、装置、设备及存储介质 | |
WO2012141332A1 (en) | Supervised and semi-supervised online boosting algorithm in machine learning framework | |
WO2021174760A1 (zh) | 声纹数据生成方法、装置、计算机装置及存储介质 | |
US11715487B2 (en) | Utilizing machine learning models to provide cognitive speaker fractionalization with empathy recognition | |
CN113128478B (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
US10867246B1 (en) | Training a neural network using small training datasets | |
CN111159332A (zh) | 一种基于bert的文本多意图识别方法 | |
CN109871891B (zh) | 一种物体识别方法、装置和存储介质 | |
CN109063743A (zh) | 基于半监督多任务学习的医疗数据分类模型的构建方法 | |
CN111611395B (zh) | 一种实体关系的识别方法及装置 | |
CN112309375B (zh) | 语音识别模型的训练测试方法、装置、设备及存储介质 | |
CN114841151A (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
CN113268579B (zh) | 对话内容类别识别方法、装置、计算机设备及存储介质 | |
CN113159441A (zh) | 银行业务项目实施情况的预测方法及装置 | |
CN117009223A (zh) | 基于抽象语法的软件测试方法、系统、存储介质及终端 | |
CN112766423B (zh) | 人脸识别模型的训练方法、装置、计算机设备及存储介质 | |
CN111462893B (zh) | 一种提供诊断依据的中文病历辅助诊断方法及系统 | |
CN114818685A (zh) | 关键词提取方法、装置、电子设备及存储介质 | |
GB2618953A (en) | Automatically generating datasets by processing collaboration forums using artificial intelligence techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |