CN108922521B - 一种语音关键词检索方法、装置、设备及存储介质 - Google Patents
一种语音关键词检索方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN108922521B CN108922521B CN201810928045.3A CN201810928045A CN108922521B CN 108922521 B CN108922521 B CN 108922521B CN 201810928045 A CN201810928045 A CN 201810928045A CN 108922521 B CN108922521 B CN 108922521B
- Authority
- CN
- China
- Prior art keywords
- target
- features
- keyword
- posterior
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 122
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims description 31
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 9
- 230000006870 function Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种语音关键词检索方法、装置、设备及存储介质,方法包括:从目标语种的目标语音数据中提取目标语音特征;通过预先构建的稀疏编码器将目标语音特征转换为后验特征,获得目标语音数据的后验特征,稀疏编码器以从目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到;基于目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定目标语音数据中是否含有目标关键词,目标关键词语音数据的后验特征通过稀疏编码器确定。本申请通过稀疏编码器能够确定出鲁棒性较高的后验特征,采用基于稀疏编码器确定的后验特征进行关键词识别,能够提升关键词的检出率和检出准确率,检索效果较好。
Description
技术领域
本申请涉及信息检索技术领域,尤其涉及一种语音关键词检索方法、装置、设备及存储介质。
背景技术
语音关键词检索是从语料库中确定出现指定关键词的语音数据,并确定该指定关键词在对应的语音数据中出现的位置。目前主流的语音关键词检索方案主要基于语音识别技术,即将待检索语音数据转换为文本内容,确定文本内容中是否出现指定关键词,若出现指定关键词,进一步确定指定关键词出现的位置,该方案的检索效果完全依赖于语音识别系统的识别效果,而训练一个大量词汇的语音识别系统需要大量的标注数据。
近年来,公共安全领域对于某些小语种或方言语种进行关键词检索的需求日益迫切,考虑到特定语种熟悉人员相对有限,缺乏标注数据,因此,无法快速开发相应的语音识别系统,即无法利用主流的语音关键词检索方法进行关键词检索。对此,研究人员提出了语种无关关键词检索方案。
目前,语种无关关键词检索方案主要为基于发音样例的关键词检测方法,该方法将携带关键词的语音片段直接与语料库中的语音数据进行声学似然度匹配检索,根据似然度得分确定检索结果,由于该方案与具体语种无关,因此称之为语种无关关键词检索。然而,由于语音数据容易受说话人本身的音色、口音、环境噪声、录音设备等干扰因素的影响,并且由于缺少语言模型的语境信息,基于发音样例的关键词检测方法的检测性能不稳定,检测效果不佳。
发明内容
有鉴于此,本申请提供了一种语音关键词检索方法、装置、设备及存储介质,用以解决现有的语种无关关键词检索方案检测性能不稳定,检测效果不佳的问题,其技术方案如下:
一种语音关键词检索方法,包括:
从目标语种的目标语音数据中提取目标语音特征;
通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,获得所述目标语音数据的后验特征,所述稀疏编码器以从所述目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到;
基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,所述目标关键词语音数据的后验特征通过所述稀疏编码器确定。
其中,构建所述稀疏编码器的过程包括:
从所述目标语种的无标注训练语音数据中提取语音特征作为训练语音特征;
以帧为单位对所述训练语音特征按预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为所述训练语音特征的扩展特征;
用所述训练语音特征的扩展特征训练深度神经网络,训练得到的深度神经网络作为所述稀疏编码器。
其中,所述通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,包括:
以帧为单位对所述目标语音特征按所述预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为所述目标语音特征的扩展特征;
将所述目标语音特征的扩展特征输入所述预先构建的稀疏编码器,获得所述稀疏编码器输出的、与输入的所述目标语音特征对应的后验特征。
其中,构建所述解码网络的过程包括:
用所述无标注训练语音数据的后验特征训练GMM模型,训练得到的GMM模型作为与所述目标关键词无关的模型;
用所述目标关键词语音数据的后验特征训练HMM模型,训练得到的模型作为所述目标关键词的模型;
将与所述目标关键词无关的模型和所述目标关键词的模型组合,获得所述解码网络。
其中,所述基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,包括:
通过预先基于目标关键词语音数据的后验特征构建的解码网络对所述目标语音数据的后验特征进行逐帧解码,获得解码回溯的最佳路径;
基于所述最佳路径确定所述目标语音数据中是否含有所述目标关键词;
所述语音关键词检索方法还包括:
当所述目标语音数据中含有所述目标关键词时,基于所述最佳路径确定所述目标关键词在所述目标语音数据中出现的位置。
一种关键词检索装置,包括:语音特征提取模块、后验特征确定模块和检测结果确定模块;
所述语音特征提取模块,用于从目标语种的目标语音数据中提取目标语音特征;
所述后验特征确定模块,用于通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,获得所述目标语音数据的后验特征,所述稀疏编码器以从所述目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到;
所述检测结果确定模块,用于基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,所述目标关键词语音数据的后验特征通过所述稀疏编码器确定。
所述语音关键词检索装置还包括:稀疏编码器构建模块;
所述稀疏编码器构建模块,用于从所述目标语种的无标注训练语音数据中提取语音特征作为训练语音特征,以帧为单位对所述训练语音特征按预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为所述帧训练语音特征的扩展特征,用所述训练语音特征的扩展特征训练深度神经网络,训练得到的深度神经网络作为所述稀疏编码器。
其中,所述后验特征确定模块包括:扩帧处理子模块和后验特征确定子模块;
所述扩帧处理子模块,用于以帧为单位对所述目标语音特征按所述预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为所述目标语音特征的扩展特征;
所述后验特征确定子模块,用于将所述目标语音特征的扩展特征输入所述预先构建的稀疏编码器,获得所述稀疏编码器输出的、与输入的目标语音特征对应的后验特征。
所述语音关键词检索装置包括:解码网络构建模块;
所述解码网络构建模块,用于用所述无标注训练语音数据的后验特征训练GMM模型,训练得到的GMM模型作为与所述目标关键词无关的模型,用所述目标关键词语音数据的后验特征训练HMM模型,训练得到的模型作为所述目标关键词的模型,将与所述目标关键词无关的模型和所述目标关键词的模型组合,获得所述解码网络。
其中,所述检索结果确定模块,包括:解码子模块和检索结果确定子模块;
所述解码子模块,用于通过预先基于目标关键词语音数据的后验特征构建的解码网络对所述目标语音数据的后验特征进行逐帧解码,获得解码回溯的最佳路径;
所述检测结果确定子模块,用于基于所述最佳路径确定所述目标语音数据中是否含有所述目标关键词,还用于当所述目标语音数据中含有所述目标关键词时,基于所述最佳路径确定所述目标关键词在所述目标语音数据中出现的位置。
一种语音关键词检索设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,所述程序具体用于:
从目标语种的目标语音数据中提取目标语音特征;
通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,获得所述目标语音数据的后验特征,所述稀疏编码器以从所述目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到;
基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,所述目标关键词语音数据的后验特征通过所述稀疏编码器确定。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现所述语音关键词检索方法的各个步骤。
经由上述方案可知,本申请提供的语音关键词检索方法、装置、设备及存储介质,首先从目标语种的目标语音数据中提取目标语音特征,然后通过预先构建的稀疏编码器将目标语音特征转换为后验特征,最后基于目标语音数据的多帧后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定目标语音数据中是否含有目标关键词。本申请提供的语音关键词检索方法、装置、设备及存储介质,通过稀疏编码器能够确定鲁棒性较高的后验特征,并且,由于稀疏编码器采用与待识别语音数据语种相同的无标注训练语音数据训练得到,因此,其能对目标语种的语音数据的后验分布进行较好的描述,利用基于稀疏编码器确定的后验特征进行关键词识别,能够提升关键词的检出率和检出准确率,检索效果较好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的语音关键词检索方法的流程示意图;
图2为本申请实施例提供的构建稀疏编码器的实现过程的流程示意图;
图3为本申请实施例提供的构建解码网络的实现过程的流程示意图;
图4为本申请实施例提供的语音关键词检索装置的结构示意图;
图5为本申请实施例提供的语音关键词检索设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
发明人在实现本发明创造的过程中发现:基于发音样例的关键词检测方案,由于语音片段容易受说话人本身的音色、口音、环境噪声、录音设备等干扰因素的影响以及缺少语言模型的语境信息,检测性能并不稳定,因此,如何获取一种能够反应发音音素本身特性的高鲁棒性特征成为关键词检测的关键。
具有严格物理意义的短时频谱特征,提取了描述人在发音时的声道状态信息或人耳对语音的感知信息参数,但同时也包含了说话人、环境噪音和传输信道等个性信息,这些“个性”冗余信息对关键词检测来说是一种干扰信息,其会降低关键词检测的性能。因此,对于无监督的关键词检测而言,原始的短时频谱特征效果并不理想,为了消除这些“个性”冗余信息,目前比较主流的方法是采用后验特征,即首先估算出事先定义好类别的数据分布,然后利用该分布去计算原始数据的后验特征。对于语音数据的特征,可以音素作为类别的颗粒度,来统计音素的后验分布。
目前有两种后验特征的提取方法,其一,有监督学习的方法,该方法利用已知语言的大量标注数据去计算后验分布,然后利用该后验分布去提取未知的目标语言的后验特征(比如,汉语与藏语同属于汉藏语系,用标注好的中文语音数据去训练后验特征提取模型,然后直接用训练得到的后验特征提取模型提取藏语语音数据的后验特征),其二,无监督的聚类方法,该方法利用混合高斯模型拟合未标注的目标语言的后验分布,然后应用该分布提取目标语言的后验特征。
上述两种方法,相对原始的短时频谱特征,性能有较明显的改观,但这两种方法都有非常明显的缺陷,具体体现在:有监督学习的方法,利用具有丰富资源语种的后验分布去估算资源受限的目标语种的后验特征,虽然同一语系的不同语种之间的音素具有一定相似性,但这两种分布空间的不匹配,还是会导致关键词检测性能严重缩水,特别是不同语系之间的失配现象更加明显,而无监督学习的混合高斯模型的音素自聚类方法有两个基本问题,其一,人为确定混合度(类别数)很难与真实目标语种音素类别相匹配,其二,混合高斯模型本身的描述能力,很难描述协同发音的语境信息。由此可见,上述两种后验特征提取方案,相比原始的短时频谱特征,虽然性能上确有提升,但也存在上述问题。基于此,本申请提供了一种语音关键词检索方法,该方法采用基于稀疏编码的无监督学习方案实现资源受限的目标语种的语音数据的后验特征提取,进而基于提取的后验特征实现关键词的识别。
请参阅图1,示出了本发明实施例提供的语音关键词检索方法的流程示意图,该方法可以包括:
步骤S101:从目标语种的目标语音数据中提取目标语音特征。
其中,目标语种可以但不限为小语种或方言语种,目标语种的目标语音数据为待识别语音数据。
其中,从目标语音数据中提取的目标语音特征可以但不限定为Fillerbank特征。从目标语音数据中提取目标语音特征时,先将目标语音数据按预设的帧长(如20ms~40ms)进行分帧,然后从每帧语音数据中提取目标语音特征。
步骤S102:通过预先构建的稀疏编码器将目标语音特征转换为后验特征,获得目标语音数据的后验特征。
即,将目标语音特征逐帧输入预先构建的稀疏编码器,获得稀疏编码器输出的、与输入的目标语音特征对应的后验特征。稀疏编码器输出的后验特征即为目标语音数据的后验特征。
其中,稀疏编码器以从目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到,即,本申请中训练稀疏编码器的语音数据不需要语言专家进行标注。
步骤S103:基于目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定目标语音数据中是否含有目标关键词。
其中,目标关键词语音数据指的是携带目标关键词的语音数据,目标关键词语音数据的后验特征通过上述的稀疏编码器确定。
在获得目标语音数据的后验特征后,将目标语音数据的后验特征输入解码网络进行解码,获得解码结果,然后基于解码结果确定目标语音数据中是否含有目标关键词。
优选地,当确定出目标语音数据中含有目标关键词时,本实施例提供的语音关键词检索方法还包括:确定目标关键词在目标语音数据中出现的位置。
本申请实施例提供的语音关键词检索方法,首先从目标语种的目标语音数据中提取目标语音特征,然后通过预先构建的稀疏编码器将目标语音特征转换为后验特征,最后基于目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定目标语音数据中是否含有目标关键词,本申请实施例提供的语音关键词检索方法通过稀疏编码器能够确定鲁棒性较高的后验特征,并且,由于稀疏编码器采用与待识别语音数据语种相同的训练语音数据训练得到,因此,其能对目标语种的语音数据的后验分布进行较好的描述,采用基于稀疏编码器确定的后验特征进行关键词的识别,能够提升关键词的检出率和检出准确率,检索效果较好。
上述实施例提供的语音关键词检索方法中,由于用于后续目标关键词识别的后验特征通过稀疏编码器确定,因此,需要预先构建稀疏编码器,在本申请的另一实施例中,对构建稀疏编码器的过程进行说明。请参阅图2,示出了构建稀疏编码器的过程的流程示意图,可以包括:
步骤S201:从目标语种的无标注训练语音数据中提取语音特征作为训练语音特征。
其中,从无标注训练语音数据中提取的目标语音特征可以但不限定为Fillerbank特征。需要说明的是,上述从目标语音数据中提取特征的方式与提取的特征的类别与本步骤中从无标注训练语音数据中提取特征的方式与提取的特征的类别一致。
步骤S202:以帧为单位对训练语音特征按预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为训练语音特征的扩展特征。
示例性地,每帧训练语音特征为48维的Fillerbank特征,可将该训练语音特征左右扩5帧,将训练语音特征左右扩5帧指的是将当前帧训练语音特征前的连续5帧训练语音特征、当前帧训练语音特征、当前帧训练语音特征后的连续5帧训练语音特征组合,训练语音特征左右扩5帧后,得到48*(2*5+1)=528维特征。
需要说明的是,对每帧语音特征进行扩帧处理是为了捕获到协同发音等语境信息,以便能提升关键词检测性能。
步骤S203:用训练语音特征的扩展特征训练深度神经网络,训练得到的深度神经网络作为稀疏编码器。
以下通过一具体实例对上述构建稀疏编码器的过程进行说明:
设定深度神经网络的结构为输入层、两层隐藏层和输出层,其中,两层隐藏层的节点数可分别设定为512和48,则深度神经网络的总体结构为528-512-48-528,以均方误差(MSE)准则,选用sigmod作为隐藏层的激活函数,采用逐层贪婪训练策略进行训练,训练的具体过程包括:
(1)语音特征提取与扩展:从目标语种的无标注训练语音数据中提取48维的Fillerbank特征,将该Fillerbank特征左右扩5帧,得到528维特征。
(2)确定第一隐藏层的参数:先在输入层与输出层之间设置一层隐藏层,将528维特征输入具有一层隐藏层的深度神经网络的输入层,以输出层与输入层的误差平方作为损失函数,该损失函数可加入参数惩罚项,以保证参数的稀疏特性,然后使用梯度下降法最小化损失函数,得到第一隐藏层的参数。
(3)确定第二隐藏层的参数:在上述训练好的具有一层隐藏层的深度神经网络中加入第二隐藏层,第一隐藏层的输出经过sigmod函数,作为第二隐藏层的输入,同样以输出层与输入层的误差平方作为损失函数,同样可在该损失函数中加入参数惩罚项,以保证参数的稀疏特性,然后使用梯度下降法方法最小化损失函数,得到第二隐藏层的参数。
(4)微调第一隐藏层和第二隐藏层的参数:在确定了第一隐藏层和第二隐藏层的参数后,以输出层与输入层的误差平方作为损失参数,使用梯度下降方法,最小化损失函数,对两层隐藏层的参数进行微调。
通过上述过程完成神经网络的训练,训练后得到的神经网络作为稀疏编码器。需要说明的是,在识别阶段,将第二隐藏层的输出为待识别语音数据的后验特征。
进一步地,通过预先构建的稀疏编码器将目标语音特征转换为后验特征的过程可以包括:以帧为单位对目标语音特征按预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为目标语音特征的扩展特征;将目标语音特征的扩展特征输入预先构建的稀疏编码器,获得稀疏编码器输出的、与输入的目标语音特征对应的后验特征。
在训练神经网络以得到稀疏编码器时,由于输入层输入的数据为对训练语音特征进行左右扩帧处理后得到的扩展特征,因此,在识别阶段,稀疏编码器的输入也应为对目标语音特征进行左右扩帧处理后得到的扩展特征,且,训练阶段与识别阶段所采用的扩帧方式一致,比如,训练阶段将训练语音特征左右各扩5帧,那么,在识别阶段也要将目标语音特征左右各扩5帧。
在获得目标语音数据的后验特征后,便可基于目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定目标语音数据中是否含有目标关键词。
以下先对基于目标关键词语音数据的后验特征构建解码网络进行介绍。请参阅图3,示出了构建解码网络的实现过程的流程示意图,可以包括:
步骤S301:用无标注训练语音数据的后验特征训练GMM模型,训练得到的GMM模型作为与目标关键词无关的模型。
其中,GMM模型为高斯混合模型,其用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。
在本实施例中,用无标注训练语音数据的后验特征训练GMM模型后得到的模型为非关键词模型,即其与具体关键词无关,实质为非关键词的吸引模型,该模型的作用相当于将非关键词滤除。
步骤S302:用目标关键词语音数据的后验特征训练HMM模型,训练得到的模型作为目标关键词的模型。
其中,HMM模型为隐马尔可夫模型,其是统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。
在本实施例中,用目标关键词语音数据的后验特征训练HMM模型,得到目标关键词的模型,需要说明的是,目标关键词可以为一个也可以为多个,则当目标关键词为多个时,用各个目标关键词的语音数据的后验特征分别训练HMM模型,得到各个目标关键词的模型,即每个关键词都会得到一对应的关键词模型,由于缺少声学模型,无法进行因素状态的强制切分,本实施例中关键词模型的状态数依据关键词的持续时长动态设定。
需要说明的是,本实施例中的无标注训练语音数据的后验特征和目标关键词语音数据的后验特征均通过上述构建的稀疏编码器确定,其具体确定过程可参见上述实施例,本实施例在此不作赘述。
另外还需要说明的是,本实施例并不限定步骤S301和步骤S302的执行顺序,可先执行步骤S301,再执行步骤S302,也可先执行步骤S302,再执行步骤S301,还可同时执行步骤S301和步骤S302,只要包括步骤S301和步骤S302都属于本申请保护的范围。
步骤S303:将与目标关键词无关的模型和目标关键词的模型组合,获得解码网络。
利用上述获得的解码网络对目标语音数据的后验特征进行解码时,可将目标语音数据的后验特征输入解码网络,通过解码网络对目标语音数据的后验特征进行逐帧解码,获得解码回溯的最佳路径,基于最佳路径确定目标语音数据中是否含有目标关键词;若目标语音数据中含有目标关键词时,还可基于最佳路径确定目标关键词在目标语音数据中出现的位置。
在一种可能的实现方式中,可采用viterbi算法对目标语音数据的后验特征进行逐帧解码,采用viterbi算法向前解码时,每一步都会找到一个最佳路径,也就是当前帧属于HMM的某个状态,直到计算完所有帧,然后根据所有帧的最佳路径进行回溯,找到一个全局最佳路径,找到了全局最佳路径也就知道了每帧所属的状态,状态由具体关键词决定,从而可以确定目标语音数据中是否含有目标关键词。
本申请提供的语音关键词检索方法,应用稀疏编码的无监督学习方式,能够获取资源受限的目标语种的语音数据的音素后验分布,并基于该后验分布获得目标语种的目标语音数据的后验特征,首先这种获取后验特征的方式规避了应用已有资源的后验分布去估算资源受限的目标语种的后验特征时所带来的失配问题,其次,基于深度学习的稀疏编码器具有强大的学习能力,相比混合高斯模型有大优势,为后续关键词识别提供了一种鲁棒性较高的后验特征,采用基于稀疏编码的无监督学习方案确定的后验特征进行关键词识别,能够较大程度地提升关键词的检出率与检出准确率。
与上述语音关键词检索方法相对应,本申请实施例还提供了一种关键词检索装置,请参阅图4,示出了该装置的结构示意图,该装置可以包括:特征提取模块401、后验特征确定模块402和检测结果确定模块403。
特征提取模块401,用于从目标语种的目标语音数据中提取目标语音特征。
后验特征确定模块402,用于通过预先构建的稀疏编码器将目标语音特征转换为后验特征,获得目标语音数据的后验特征。
其中,稀疏编码器以从目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到。
检测结果确定模块403,用于基于目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定目标语音数据中是否含有目标关键词。
其中,目标关键词语音数据的后验特征通过稀疏编码器确定。
本申请实施例提供的语音关键词检索装置,首先从目标语种的目标语音数据中提取目标语音特征,然后通过预先构建的稀疏编码器将目标语音特征转换为后验特征,最后基于目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定目标语音数据中是否含有目标关键词,本申请实施例提供的语音关键词检索装置通过稀疏编码器能够确定鲁棒性较高的后验特征,并且,由于稀疏编码器采用与待识别语音数据语种相同的训练语音数据训练得到,因此,其能对目标语种的语音数据的后验分布进行较好的描述,采用基于稀疏编码器确定的后验特征进行关键词的识别,能够提升关键词的检出率和检出准确率,检索效果较好。
上述实施例提供的语音关键词检索装置,还包括:稀疏编码器构建模块。
所述稀疏编码器构建模块,用于从所述目标语种的无标注训练语音数据中提取语音特征作为训练语音特征;以帧为单位对训练语音特征按预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为该帧训练语音特征的扩展特征;用所述训练语音特征的扩展特征训练深度神经网络,训练得到的深度神经网络作为所述稀疏编码器。
上述实施例提供的语音关键词检索装置中,后验特征确定模块402包括:扩帧处理子模块和后验特征确定子模块。
所述扩帧处理子模块,用于以帧为单位对所述目标语音特征按所述预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为该目标语音特征的扩展特征。
所述后验特征确定子模块,用于将所述目标语音特征的扩展特征输入所述预先构建的稀疏编码器,获得所述稀疏编码器输出的、与输入的目标语音特征对应的后验特征。
上述实施例提供的语音关键词检索装置,还包括:解码网络构建模块。
所述解码网络构建模块,用于用所述无标注训练语音数据的后验特征训练GMM模型,训练得到的GMM模型作为与所述目标关键词无关的模型;用目标关键词语音数据的后验特征训练HMM模型,训练得到的模型作为所述目标关键词的模型;将与所述目标关键词无关的模型和所述目标关键词的模型组合,获得所述解码网络。
上述实施例提供的语音关键词检索装置中,检索结果确定模块403,包括:解码子模块和检索结果确定子模块。
所述解码子模块,用于通过预先基于目标关键词语音数据的后验特征构建的解码网络对所述目标语音数据的后验特征进行逐帧解码,获得解码回溯的最佳路径。
所述检测结果确定子模块,用于基于所述最佳路径确定所述目标语音数据中是否含有所述目标关键词,还用于当所述目标语音数据中含有所述目标关键词时,基于所述最佳路径确定所述目标关键词在所述目标语音数据中出现的位置。
本发明实施例还提供了一种语音关键词检索设备,请参阅图5,示出了该语音关键词检索设备的结构示意图,其可以包括:存储器501和处理器502。
存储器501,用于存储程序;
处理器502,用于执行所述程序,所述程序具体用于:
从目标语种的目标语音数据中提取目标语音特征;
通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,获得所述目标语音数据的后验特征,所述稀疏编码器以从所述目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到;
基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,所述目标关键词语音数据的后验特征通过所述稀疏编码器确定。
语音关键词检索设备还可以包括:总线、通信接口503、输入设备504和输出设备505。
处理器502、存储器501、通信接口503、输入设备504和输出设备505通过总线相互连接。其中:
总线可包括一通路,在计算机系统各个部件之间传送信息。
处理器502可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
处理器502可包括主处理器,还可包括基带芯片、调制解调器等。
存储器501中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器501可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
输入设备504可包括接收用户输入的数据和信息的装置,例如摄像头、光笔、触摸屏等。
输出设备505可包括允许输出信息给用户的装置,例如显示屏、扬声器等。
通信接口503可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器502执行存储器501中所存放的程序,以及调用其他设备,可用于实现本发明实施例所提供的语音关键词检索方法的各个步骤。
本发明实施例还提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例提供给的语音关键词检索方法的各个步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和设备,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语音关键词检索方法,其特征在于,包括:
从目标语种的目标语音数据中提取目标语音特征;
通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,获得所述目标语音数据的后验特征,所述稀疏编码器以从所述目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到;
基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,所述目标关键词语音数据的后验特征通过所述稀疏编码器确定,其中,所述解码网络由非关键词模型和所述目标关键词的模型组合而成,所述非关键词模型为非关键词的吸引模型,用于将所述目标语音数据中的非关键词滤除。
2.根据权利要求1所述的语音关键词检索方法,其特征在于,构建所述稀疏编码器的过程包括:
从所述目标语种的无标注训练语音数据中提取语音特征作为训练语音特征;
以帧为单位对所述训练语音特征按预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为所述训练语音特征的扩展特征;
用所述训练语音特征的扩展特征训练深度神经网络,训练得到的深度神经网络作为所述稀疏编码器。
3.根据权利要求2所述的语音关键词检索方法,其特征在于,所述通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,包括:
以帧为单位对所述目标语音特征按所述预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为所述目标语音特征的扩展特征;
将所述目标语音特征的扩展特征输入所述预先构建的稀疏编码器,获得所述稀疏编码器输出的、与输入的所述目标语音特征对应的后验特征。
4.根据权利要求1所述的语音关键词检索方法,其特征在于,构建所述解码网络的过程包括:
用所述无标注训练语音数据的后验特征训练GMM模型,训练得到的GMM模型作为所述非关键词模型;
用所述目标关键词语音数据的后验特征训练HMM模型,训练得到的HMM模型作为所述目标关键词的模型;
将所述非关键词模型和所述目标关键词的模型组合,获得所述解码网络。
5.根据权利要求4所述的语音关键词检索方法,其特征在于,所述基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,包括:
通过所述预先基于目标关键词语音数据的后验特征构建的解码网络对所述目标语音数据的后验特征进行逐帧解码,获得解码回溯的最佳路径;
基于所述最佳路径确定所述目标语音数据中是否含有所述目标关键词;
所述语音关键词检索方法还包括:
当所述目标语音数据中含有所述目标关键词时,基于所述最佳路径确定所述目标关键词在所述目标语音数据中出现的位置。
6.一种语音关键词检索装置,其特征在于,包括:语音特征提取模块、后验特征确定模块和检测结果确定模块;
所述语音特征提取模块,用于从目标语种的目标语音数据中提取目标语音特征;
所述后验特征确定模块,用于通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,获得所述目标语音数据的后验特征,所述稀疏编码器以从所述目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到;
所述检测结果确定模块,用于基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,所述目标关键词语音数据的后验特征通过所述稀疏编码器确定,其中,所述解码网络由非关键词模型和所述目标关键词的模型组合而成,所述非关键词模型为非关键词的吸引模型,用于将所述目标语音数据中的非关键词滤除。
7.根据权利要求6所述的语音关键词检索装置,其特征在于,还包括:稀疏编码器构建模块;
所述稀疏编码器构建模块,用于从所述目标语种的无标注训练语音数据中提取语音特征作为训练语音特征,以帧为单位对所述训练语音特征按预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为所述帧训练语音特征的扩展特征,用所述训练语音特征的扩展特征训练深度神经网络,训练得到的深度神经网络作为所述稀疏编码器。
8.根据权利要求6所述的语音关键词检索装置,其特征在于,还包括:解码网络构建模块;
所述解码网络构建模块,用于用所述无标注训练语音数据的后验特征训练GMM模型,训练得到的GMM模型作为所述非关键词模型,用所述目标关键词语音数据的后验特征训练HMM模型,训练得到的模型作为所述目标关键词的模型,将所述非关键词模型和所述目标关键词的模型组合,获得所述解码网络。
9.一种语音关键词检索设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,所述程序具体用于:
从目标语种的目标语音数据中提取目标语音特征;
通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,获得所述目标语音数据的后验特征,所述稀疏编码器以从所述目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到;
基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,所述目标关键词语音数据的后验特征通过所述稀疏编码器确定,其中,所述解码网络由非关键词模型和所述目标关键词的模型组合而成,所述非关键词模型为非关键词的吸引模型,用于将所述目标语音数据中的非关键词滤除。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至5中任一项所述的语音关键词检索方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810928045.3A CN108922521B (zh) | 2018-08-15 | 2018-08-15 | 一种语音关键词检索方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810928045.3A CN108922521B (zh) | 2018-08-15 | 2018-08-15 | 一种语音关键词检索方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108922521A CN108922521A (zh) | 2018-11-30 |
CN108922521B true CN108922521B (zh) | 2021-07-06 |
Family
ID=64404803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810928045.3A Active CN108922521B (zh) | 2018-08-15 | 2018-08-15 | 一种语音关键词检索方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108922521B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109637523A (zh) * | 2018-12-28 | 2019-04-16 | 睿驰达新能源汽车科技(北京)有限公司 | 一种基于语音的车辆门锁控制方法及装置 |
CN109712612B (zh) * | 2018-12-28 | 2021-01-15 | 广东亿迅科技有限公司 | 一种语音关键词检测方法及装置 |
CN110322871A (zh) * | 2019-05-30 | 2019-10-11 | 清华大学 | 一种基于声学表征矢量的样例关键词检索方法 |
CN110246490B (zh) * | 2019-06-26 | 2022-04-19 | 合肥讯飞数码科技有限公司 | 语音关键词检测方法及相关装置 |
CN110648659B (zh) * | 2019-09-24 | 2022-07-01 | 上海依图信息技术有限公司 | 基于多任务模型的语音识别与关键词检测装置和方法 |
CN110738987B (zh) * | 2019-10-18 | 2022-02-15 | 清华大学 | 一种基于统一表征的关键词检索方法 |
CN111462735B (zh) * | 2020-04-10 | 2023-11-28 | 杭州网易智企科技有限公司 | 语音检测方法、装置、电子设备及存储介质 |
CN111477219A (zh) * | 2020-05-08 | 2020-07-31 | 合肥讯飞数码科技有限公司 | 关键词区分方法、装置、电子设备和可读存储介质 |
CN112685594B (zh) * | 2020-12-24 | 2022-10-04 | 中国人民解放军战略支援部队信息工程大学 | 基于注意力的弱监督语音检索方法及系统 |
CN114627581B (zh) * | 2022-05-16 | 2022-08-05 | 深圳零匙科技有限公司 | 一种智能门锁的胁迫指纹联动报警方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559289A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 语种无关的关键词检索方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9715660B2 (en) * | 2013-11-04 | 2017-07-25 | Google Inc. | Transfer learning for deep neural network based hotword detection |
CN103559881B (zh) * | 2013-11-08 | 2016-08-31 | 科大讯飞股份有限公司 | 语种无关的关键词识别方法及系统 |
US20150310862A1 (en) * | 2014-04-24 | 2015-10-29 | Microsoft Corporation | Deep learning for semantic parsing including semantic utterance classification |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN105976812B (zh) * | 2016-04-28 | 2019-04-26 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及其设备 |
CN107680597B (zh) * | 2017-10-23 | 2019-07-09 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN108171329A (zh) * | 2017-12-13 | 2018-06-15 | 华南师范大学 | 深度学习神经网络训练方法、层数调整装置和机器人系统 |
-
2018
- 2018-08-15 CN CN201810928045.3A patent/CN108922521B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559289A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 语种无关的关键词检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108922521A (zh) | 2018-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108922521B (zh) | 一种语音关键词检索方法、装置、设备及存储介质 | |
CN110534095B (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN108766414B (zh) | 用于语音翻译的方法、装置、设备和计算机可读存储介质 | |
CN111583909B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN111429889A (zh) | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 | |
CN109119070B (zh) | 一种语音端点检测方法、装置、设备及存储介质 | |
US10714076B2 (en) | Initialization of CTC speech recognition with standard HMM | |
CN109979432B (zh) | 一种方言翻译方法及装置 | |
Zhuang et al. | Unrestricted Vocabulary Keyword Spotting Using LSTM-CTC. | |
JP2018523156A (ja) | 言語モデルスピーチエンドポインティング | |
CN110097870B (zh) | 语音处理方法、装置、设备和存储介质 | |
CN110827805A (zh) | 语音识别模型训练方法、语音识别方法和装置 | |
CN112151015B (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
CN111435592B (zh) | 一种语音识别方法、装置及终端设备 | |
CN107316635B (zh) | 语音识别方法及装置、存储介质、电子设备 | |
CN113782048B (zh) | 多模态语音分离方法、训练方法及相关装置 | |
CN112185363B (zh) | 音频处理方法及装置 | |
CN112017643B (zh) | 语音识别模型训练方法、语音识别方法及相关装置 | |
CN109741735A (zh) | 一种建模方法、声学模型的获取方法和装置 | |
CN113793591A (zh) | 语音合成方法及相关装置和电子设备、存储介质 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
Tran et al. | Joint modeling of text and acoustic-prosodic cues for neural parsing | |
CN112133285B (zh) | 语音识别方法、装置、存储介质和电子设备 | |
CN113793599A (zh) | 语音识别模型的训练方法和语音识别方法及装置 | |
CN113470617B (zh) | 语音识别方法以及电子设备、存储装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |