CN113345424B - 一种语音特征提取方法、装置、设备及存储介质 - Google Patents
一种语音特征提取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113345424B CN113345424B CN202110605728.7A CN202110605728A CN113345424B CN 113345424 B CN113345424 B CN 113345424B CN 202110605728 A CN202110605728 A CN 202110605728A CN 113345424 B CN113345424 B CN 113345424B
- Authority
- CN
- China
- Prior art keywords
- voice
- feature set
- feature
- voice feature
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 110
- 238000005070 sampling Methods 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 2
- 229910005543 GaSe Inorganic materials 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例涉及人工智能领域,公开了一种语音特征提取方法、装置、设备及存储介质,该方法包括:将未标注的样本语音信号输入预设的卷积神经网络中,得到与样本语音信号中多个采样点采集到的语音信号对应的语音特征集;对语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集;将第一语音特征集中的各个语音特征输入第一GRU网络模型,得到第一特征向量;将第一特征向量和第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型,提高了语音特征提取的准确率,有助于提高语音识别的准确率。本发明涉及区块链技术,如可将语音数据写入区块链中,以用于数据取证等场景。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种语音特征提取方法、装置、设备及存储介质。
背景技术
语音识别是人工智能领域重要的领域,语音识别系统已经被广泛的运用于机器人对话、客服场景以及智能家居等各个领域。目前业内流行的语音识别系统的数据准备和处理流程是对所有的语音数据进行文本标注,语音特征提取,语音识别模型训练。一般来说,想要得到更高的语音识别系统的准确率的话,需要巨量的标注好的语音数据,然而语音数据的标注需要投入大量的人力以及物力。因此,如何利用没有标注过的数据去提升语音识别的准确率是一个重要的研究课题。
发明内容
本发明实施例提供了一种语音特征提取方法、装置、设备及存储介质,可以实现利用没有标注过的语音数据提升语音特征提取的准确率。
第一方面,本发明实施例提供了一种语音特征提取方法,所述方法包括:
获取样本语音信号,所述样本语音信号中包括多个采样点采集到的未标注的语音信号;
将所述样本语音信号输入预设的卷积神经网络中,得到与所述样本语音信号中多个采样点采集到的语音信号对应的语音特征集;
对所述样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集;
将第一语音特征集中的各个语音特征输入第一GRU网络模型,得到所述第一语音特征集中的所有语音特征对应的第一特征向量;
将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型。
进一步地,所述对所述样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集,包括:
根据预设规则确定所述样本语音信号对应的语音特征集的拆分点;
根据所述拆分点对所述语音特征集进行拆分处理,得到所述第一语音特征集和第二语音特征集。
进一步地,所述根据预设规则确定所述样本语音信号对应的语音特征集的拆分点,包括:
确定所述样本语音信号对应的语音特征集中所有语音特征的总帧数;
根据所述预设规则确定拆分区域,并在所述拆分区域中随机选取所述拆分点,所述预设规则为所述第二语音特征集对应的语音特征的帧数大于预设帧数阈值。
进一步地,所述将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型,包括:
将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所有语音特征之间的互信息;
通过最大化所述互信息训练所述第二GUR网络模型得到所述语音特征预测模型。
进一步地,所述将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所有语音特征之间的互信息,包括:
将所述第一特征向量和所述第二语音特征集中的第一语音特征输入所述第二GRU网络模型中,得到第二特征向量;
将所述第二特征向量和所述第二语音特征集中的第二语音特征输入所述第二GRU网络模型中,得到所述第二特征向量和所述第二语音特征之间的互信息。
进一步地,所述将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所有语音特征之间的互信息,包括:
根据预设的降采样系数从所述第二语音特征集中的各个语音特征中选取部分语音特征;
将所述第一特征向量和从所述第二语音特征集中选取的部分语音特征输入所述第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所述部分语音特征之间的互信息。
进一步地,所述通过最大化所述互信息训练所述第二GUR网络模型得到所述语音特征预测模型,包括:
根据所述互信息调整所述第二GUR网络模型的模型参数;
将所述第一特征向量和所述第二语音特征集中的所有语音特征输入调整模型参数后的第二GRU网络模型中,得到新的互信息;
当新的互信息满足预设阈值时,确定得到所述语音特征预测模型。
第二方面,本发明实施例提供了一种语音特征提取装置,包括:
获取单元,用于获取样本语音信号,所述样本语音信号中包括多个采样点采集到的未标注的语音信号;
第一提取单元,用于将所述样本语音信号输入预设的卷积神经网络中,得到与所述样本语音信号中多个采样点采集到的语音信号对应的语音特征集;
拆分单元,用于对所述样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集;
第二提取单元,用于将第一语音特征集中的各个语音特征输入第一GRU网络模型,得到所述第一语音特征集中的所有语音特征对应的第一特征向量;
训练单元,用于将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型。
第三方面,本发明实施例提供了一种计算机设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持语音特征提取装置执行上述方法的计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述程序,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述第一方面的方法。
本发明实施例可以获取样本语音信号,将样本语音信号输入预设的卷积神经网络中,得到与样本语音信号中多个采样点采集到的未标注的语音信号对应的语音特征集;并对样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集;以及将第一语音特征集中的各个语音特征输入第一GRU网络模型,得到第一语音特征集中的所有语音特征对应的第一特征向量;以及将第一特征向量和第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型。本发明实施例利用未标注的语音信号训练得到语音特征预测模型,提高了语音特征提取的准确率,有助于提高语音识别的准确率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音特征提取方法的示意流程图;
图2是本发明实施例提供的一种语音特征提取方法的示意图;
图3是本发明实施例提供的一种语音特征提取装置的示意框图;
图4是本发明实施例提供的一种计算机设备的示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的语音特征提取方法可以应用于一种语音特征提取装置,在某些实施例中,所述语音特征提取装置设置于计算机设备中。在某些实施例中,所述计算机设备包括但不限于智能手机、平板电脑、膝上型电脑等中的一种或者多种。
本发明实施例可以获取样本语音信号,所述样本语音信号中包括多个采样点采集到的未标注的语音信号;将所述样本语音信号输入预设的卷积神经网络中,得到与所述样本语音信号中多个采样点采集到的语音信号对应的语音特征集;对所述样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集;将第一语音特征集中的各个语音特征输入第一GRU网络模型,得到所述第一语音特征集中的所有语音特征对应的第一特征向量;将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型。
本发明实施例利用未标注的语音信号训练得到语音特征预测模型,提高了语音特征提取的准确率,有助于提高语音识别的准确率。
下面结合附图1对本发明实施例提供的语音特征提取方法进行示意性说明。
请参见图1,图1是本发明实施例提供的一种语音特征提取方法的示意流程图,如图1所示,该方法可以由语音特征提取装置执行,所述语音特征提取装置设置于计算机设备中。具体地,本发明实施例的所述方法包括如下步骤。
S101:获取样本语音信号,所述样本语音信号中包括多个采样点采集到的未标注的语音信号。
本发明实施例中,语音特征提取装置可以获取样本语音信号,所述样本语音信号中包括多个采样点采集到的未标注的语音信号。在某些实施例中,所述样本语音信号为未经标注,没有经过信号处理的原始语音信号。
具体可以图2为例,图2是本发明实施例提供的一种语音特征提取方法的示意图,如图2所示,样本语音信号X中包括Xt-2、Xt-1、Xt、Xt+1、Xt+2、Xt+3、Xt+4,7个采样点采集到的语音信号,其中,t用于指示样本语音信号中的位置点。
S102:将所述样本语音信号输入预设的卷积神经网络中,得到与所述样本语音信号中多个采样点采集到的语音信号对应的语音特征集。
本发明实施例中,语音特征提取装置可以将所述样本语音信号输入预设的卷积神经网络中,得到与所述样本语音信号中多个采样点采集到的语音信号对应的语音特征集。在某些实施例中,所述语音特征集中包括每个采样点采集到的语音信号对应的语音特征。
在一个示例中,以图2为例,语音特征提取装置可以将样本语音信号X中包括的Xt-2、Xt-1、Xt、Xt+1、Xt+2、Xt+3、Xt+4,7个采样点采集到的语音信号输入预设的卷积神经网络genc中,得到与所述样本语音信号中每个采样点Xt-2、Xt-1、Xt、Xt+1、Xt+2、Xt+3、Xt+4采集到的语音信号分别对应的语音特征Zt-2、Zt-1、Zt、Zt+1、Zt+2、Zt+3、Zt+4。
在某些实施例中,每个采样点采集到的语音信号对应的语音特征是通过滑窗和编码,得到以帧为单位的语音特征。在一个示例中,当样本语音信号为16kHz的采样率时,160个采样点编码为一帧的语音特征,同时对应10s的语音信号。
S103:对所述样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集。
本发明实施例中,语音特征提取装置可以对所述样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集。
在一个实施例中,语音特征提取装置在对所述样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集时,可以根据预设规则确定所述样本语音信号对应的语音特征集的拆分点,并根据所述拆分点对所述语音特征集进行拆分处理,得到所述第一语音特征集和第二语音特征集。
在某些实施例中,所述第一语音特征集为所述拆分点所处位置点之前的语音特征集,所述第二语音特征集为所述拆分点所处位置点之后的语音特征集。
在一个实施例中,语音特征提取装置在根据预设规则确定所述样本语音信号对应的语音特征集的拆分点时,可以确定所述样本语音信号对应的语音特征集中所有语音特征的总帧数;根据所述预设规则确定拆分区域,并在所述拆分区域中随机选取所述拆分点,所述预设规则为所述第二语音特征集对应的语音特征的帧数大于预设帧数阈值。例如,所述拆分点之后的第二语音特征集对应的语音信号的帧数大于24帧。
在一个示例中,假设选取拆分点t对所述所有采样点采集到的语音信号对应的语音特征Zt-2、Zt-1、Zt、Zt+1、Zt+2、Zt+3、Zt+4、...、Zt+26进行拆分,得到所述拆分点t之前的第一语音特征集Zt-2、Zt-1、Zt以及所述拆分点之后的第二语音特征集Zt+1、Zt+2、Zt+3、Zt+4、...、Zt+26,其中,第二语音特征集Zt+1、Zt+2、Zt+3、Zt+4、...、Zt+26对应的语音信号为26帧大于24帧。
S104:将第一语音特征集中的各个语音特征输入第一GRU网络模型,得到所述第一语音特征集中的所有语音特征对应的第一特征向量。
本发明实施例中,语音特征提取装置可以将第一语音特征集中的各个语音特征输入第一GRU网络模型,得到所述第一语音特征集中的所有语音特征对应的第一特征向量。
以图2为例进行说明,语音特征提取装置可以将第一语音特征集中的各个语音特征Zt-2、Zt-1、Zt输入第一GRU网络模型gcon,得到所述第一语音特征集中的所有语音特征Zt-2、Zt-1、Zt对应的第一特征向量Ct。
S105:将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型。
本发明实施例中,语音特征提取装置可以将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型。
在一个实施例中,语音特征提取装置在将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型时,可以将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所有语音特征之间的互信息;通过最大化所述互信息训练所述第二GUR网络模型得到所述语音特征预测模型。
以图2为例进行说明,语音特征提取装置可以将第一特征向量Ct和所述第二语音特征集中的语音特征Zt+1、Zt+2、Zt+3、Zt+4输入第二GRU网络模型gpred中,得到所述第一特征向量Ct与所述第二语音特征集中的语音特征Zt+1、Zt+2、Zt+3、Zt+4之间的互信息MI,并根据所述互信息MI训练所述第二GUR网络模型得到语音特征预测模型。
在一个实施例中,语音特征提取装置在将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所有语音特征之间的互信息时,可以将所述第一特征向量和所述第二语音特征集中的第一语音特征输入所述第二GRU网络模型中,得到第二特征向量;将所述第二特征向量和所述第二语音特征集中的第二语音特征输入所述第二GRU网络模型中,得到所述第二特征向量和所述第二语音特征之间的互信息。
在一个示例中,可以将第一特征向量Ct和所述第二语音特征集中的第一语音特征Zt+1输入第二GRU网络模型中,得到新的第二特征向量Ct+1',然后将第二特征向量Ct+1'和所述第二语音特征集中的第二语音特征Zt+2输入第二GRU网络模型中,得到新的第三特征向量Ct+2',同理,将ct,zt+1,…,zt+k-1输入到第二GRU网络模型中得到ct+k-1',最后将ct+k-1'和Zt+k输入第二GRU网络模型,得到ct+k-1'和Zt+k之间的互信息MI,并根据所述互信息MI训练所述第二GUR网络模型得到语音特征预测模型。
以图2为例,具体地,语音特征提取装置可以将第一特征向量Ct和所述第二语音特征集中的第一语音特征Zt+1输入第二GRU网络模型gpred中,得到所述第二特征向量Ct+1',将第二特征向量Ct+1'与第二语音特征Zt+2输入第二GRU网络模型gpred中,得到第三特征向量Ct+2',将第三特征向量Ct+2'与第三语音特征Zt+3输入第二GRU网络模型gpred中,得到第四特征向量Ct+3',将第四特征向量Ct+3'与第四语音特征Zt+4输入第二GRU网络模型gpred中,得到互信息MI,并根据所述互信息MI训练所述第二GUR网络模型gpred得到语音特征预测模型。
在一个实施例中,语音特征提取装置在将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所有语音特征之间的互信息时,可以根据预设的降采样系数从所述第二语音特征集中的各个语音特征中选取部分语音特征;将所述第一特征向量和从所述第二语音特征集中选取的部分语音特征输入所述第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所述部分语音特征之间的互信息。
在一个示例中,语音特征提取装置可以引入预设的降采样系数m(m=1,2,3,…,12),将ct,zt+m,zt+2m,…,zt+(k-1)m输入到第二GUR网络模型中得到ct+(k-1)m',去预测zt+km,以最大化ct+(k-1)m'和zt+km之间的互信息。例如,假设m=2则可以将ct,zt+2,zt+4,zt+6输入到第二GUR网络模型中得到ct+6',然后将ct+6'和Zt+4输入第二GRU网络模型,得到ct+6'和Zt+4之间的互信息MI,并根据所述互信息MI训练所述第二GUR网络模型得到语音特征预测模型。
本发明实施例通过引入序列化信息和链式法则的理论的方式计算得到互信息,有助于提高互信息的准确性,通过在最大化互信息的训练过程中引入降采样的训练方式,得到语音特征预测模型,可以降低语音特征预测模型的计算复杂度,提高语音特征预测模型预测的准确性和性能。
在一个实施例中,语音特征提取装置在通过最大化所述互信息训练所述第二GUR网络模型得到所述语音特征预测模型时,可以根据所述互信息调整所述第二GUR网络模型的模型参数;将所述第一特征向量和所述第二语音特征集中的所有语音特征输入调整模型参数后的第二GRU网络模型中,得到新的互信息;当新的互信息满足预设阈值时,确定得到所述语音特征预测模型。
在一个实施例中,语音特征提取装置还可以将通过所述语音特征预测模型预测得到的特征向量输入预设的语音识别模型,对所述语音识别模型进行训练,有助于实现对未标注的语音信号的识别,提高语音识别模型的准确率和效率。
本发明实施例中,语音特征提取装置可以获取样本语音信号,将样本语音信号输入预设的卷积神经网络中,得到与样本语音信号中多个采样点采集到的未标注的语音信号对应的语音特征集;并对样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集;以及将第一语音特征集中的各个语音特征输入第一GRU网络模型,得到第一语音特征集中的所有语音特征对应的第一特征向量;以及将第一特征向量和第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型。本发明实施例利用未标注的语音信号训练得到语音特征预测模型,提高了语音特征提取的准确率,有助于提高语音识别的准确率。
本发明实施例还提供了一种语音特征提取装置,该语音特征提取装置用于执行前述任一项所述的方法的单元。具体地,参见图3,图3是本发明实施例提供的一种语音特征提取装置的示意框图。本实施例的语音特征提取装置包括:获取单元301、第一提取单元302、拆分单元303、第二提取单元304以及训练单元305。
获取单元301,用于获取样本语音信号,所述样本语音信号中包括多个采样点采集到的未标注的语音信号;
第一提取单元302,用于将所述样本语音信号输入预设的卷积神经网络中,得到与所述样本语音信号中多个采样点采集到的语音信号对应的语音特征集;
拆分单元303,用于对所述样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集;
第二提取单元304,用于将第一语音特征集中的各个语音特征输入第一GRU网络模型,得到所述第一语音特征集中的所有语音特征对应的第一特征向量;
训练单元305,用于将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型。
进一步地,所述拆分单元303对所述样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集时,具体用于:
根据预设规则确定所述样本语音信号对应的语音特征集的拆分点;
根据所述拆分点对所述语音特征集进行拆分处理,得到所述第一语音特征集和第二语音特征集。
进一步地,所述拆分单元303根据预设规则确定所述样本语音信号对应的语音特征集的拆分点时,具体用于:
确定所述样本语音信号对应的语音特征集中所有语音特征的总帧数;
根据所述预设规则确定拆分区域,并在所述拆分区域中随机选取所述拆分点,所述预设规则为所述第二语音特征集对应的语音特征的帧数大于预设帧数阈值。
进一步地,所述训练单元305将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型时,具体用于:
将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所有语音特征之间的互信息;
通过最大化所述互信息训练所述第二GUR网络模型得到所述语音特征预测模型。
进一步地,所述训练单元305将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所有语音特征之间的互信息时,具体用于:
将所述第一特征向量和所述第二语音特征集中的第一语音特征输入所述第二GRU网络模型中,得到第二特征向量;
将所述第二特征向量和所述第二语音特征集中的第二语音特征输入所述第二GRU网络模型中,得到所述第二特征向量和所述第二语音特征之间的互信息。
进一步地,所述训练单元305将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所有语音特征之间的互信息时,具体用于:
根据预设的降采样系数从所述第二语音特征集中的各个语音特征中选取部分语音特征;
将所述第一特征向量和从所述第二语音特征集中选取的部分语音特征输入所述第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所述部分语音特征之间的互信息。
进一步地,所述训练单元305通过最大化所述互信息训练所述第二GUR网络模型得到所述语音特征预测模型时,具体用于:
根据所述互信息调整所述第二GUR网络模型的模型参数;
将所述第一特征向量和所述第二语音特征集中的所有语音特征输入调整模型参数后的第二GRU网络模型中,得到新的互信息;
当新的互信息满足预设阈值时,确定得到所述语音特征预测模型。
本发明实施例中,语音特征提取装置可以获取样本语音信号,将样本语音信号输入预设的卷积神经网络中,得到与样本语音信号中多个采样点采集到的未标注的语音信号对应的语音特征集;并对样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集;以及将第一语音特征集中的各个语音特征输入第一GRU网络模型,得到第一语音特征集中的所有语音特征对应的第一特征向量;以及将第一特征向量和第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型。本发明实施例利用未标注的语音信号训练得到语音特征预测模型,提高了语音特征提取的准确率,有助于提高语音识别的准确率。
参见图4,图4是本发明实施例提供的一种计算机设备的示意框图。如图所示的本实施例中的设备可以包括:一个或多个处理器401;一个或多个输入设备402,一个或多个输出设备403和存储器404。上述处理器401、输入设备402、输出设备403和存储器404通过总线405连接。存储器404用于存储计算机程序,所述计算机程序包括程序,处理器401用于执行存储器404存储的程序。其中,处理器401被配置用于调用所述程序执行:
获取样本语音信号,所述样本语音信号中包括多个采样点采集到的未标注的语音信号;
将所述样本语音信号输入预设的卷积神经网络中,得到与所述样本语音信号中多个采样点采集到的语音信号对应的语音特征集;
对所述样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集;
将第一语音特征集中的各个语音特征输入第一GRU网络模型,得到所述第一语音特征集中的所有语音特征对应的第一特征向量;
将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型。
进一步地,所述处理器401对所述样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集时,具体用于:
根据预设规则确定所述样本语音信号对应的语音特征集的拆分点;
根据所述拆分点对所述语音特征集进行拆分处理,得到所述第一语音特征集和第二语音特征集。
进一步地,所述处理器401根据预设规则确定所述样本语音信号对应的语音特征集的拆分点时,具体用于:
确定所述样本语音信号对应的语音特征集中所有语音特征的总帧数;
根据所述预设规则确定拆分区域,并在所述拆分区域中随机选取所述拆分点,所述预设规则为所述第二语音特征集对应的语音特征的帧数大于预设帧数阈值。
进一步地,所述处理器401将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型时,具体用于:
将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所有语音特征之间的互信息;
通过最大化所述互信息训练所述第二GUR网络模型得到所述语音特征预测模型。
进一步地,所述处理器401将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所有语音特征之间的互信息时,具体用于:
将所述第一特征向量和所述第二语音特征集中的第一语音特征输入所述第二GRU网络模型中,得到第二特征向量;
将所述第二特征向量和所述第二语音特征集中的第二语音特征输入所述第二GRU网络模型中,得到所述第二特征向量和所述第二语音特征之间的互信息。
进一步地,所述处理器401将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所有语音特征之间的互信息时,具体用于:
根据预设的降采样系数从所述第二语音特征集中的各个语音特征中选取部分语音特征;
将所述第一特征向量和从所述第二语音特征集中选取的部分语音特征输入所述第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所述部分语音特征之间的互信息。
进一步地,所述处理器401通过最大化所述互信息训练所述第二GUR网络模型得到所述语音特征预测模型时,具体用于:
根据所述互信息调整所述第二GUR网络模型的模型参数;
将所述第一特征向量和所述第二语音特征集中的所有语音特征输入调整模型参数后的第二GRU网络模型中,得到新的互信息;
当新的互信息满足预设阈值时,确定得到所述语音特征预测模型。
本发明实施例中,计算机设备可以获取样本语音信号,将样本语音信号输入预设的卷积神经网络中,得到与样本语音信号中多个采样点采集到的未标注的语音信号对应的语音特征集;并对样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集;以及将第一语音特征集中的各个语音特征输入第一GRU网络模型,得到第一语音特征集中的所有语音特征对应的第一特征向量;以及将第一特征向量和第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型。本发明实施例利用未标注的语音信号训练得到语音特征预测模型,提高了语音特征提取的准确率,有助于提高语音识别的准确率。
应当理解,在本发明实施例中,所称处理器401可以是中央处理单元(CenSralProcessing UniS,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigiSalSignal Processor,DSP)、专用集成电路(ApplicaSion Specific InSegraSed CircuiS,ASIC)、现成可编程门阵列(Field-Programmable GaSe Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备402可以包括触控板、麦克风等,输出设备403可以包括显示器(LCD等)、扬声器等。
该存储器404可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器404的一部分还可以包括非易失性随机存取存储器。例如,存储器404还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器401、输入设备402、输出设备403可执行本发明实施例提供的图1所述的方法实施例中所描述的实现方式,也可执行本发明实施例图3所描述的语音特征提取装置的实现方式,在此不再赘述。
本发明实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现图1所对应实施例中描述的语音特征提取方法,也可实现本发明图3所对应实施例的语音特征提取装置,在此不再赘述。
所述计算机可读存储介质可以是前述任一实施例所述的语音特征提取装置的内部存储单元,例如语音特征提取装置的硬盘或内存。所述计算机可读存储介质也可以是所述语音特征提取装置的外部存储装置,例如所述语音特征提取装置上配备的插接式硬盘,智能存储卡(SmarS Media Card,SMC),安全数字(Secure DigiSal,SD)卡,闪存卡(FlashCard)等。进一步地,所述计算机可读存储介质还可以既包括所述语音特征提取装置的内部存储单元也包括外部存储装置。所述计算机可读存储介质用于存储所述计算机程序以及所述语音特征提取装置所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
需要强调的是,为进一步保证上述数据的私密和安全性,上述数据还可以存储于一区块链的节点中。其中,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所述,仅为本发明的部分实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种语音特征提取方法,其特征在于,所述方法包括:
获取样本语音信号,所述样本语音信号中包括多个采样点采集到的未标注的语音信号;
将所述样本语音信号输入预设的卷积神经网络中,得到与所述样本语音信号中多个采样点采集到的语音信号对应的语音特征集;
对所述样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集;
将第一语音特征集中的各个语音特征输入第一GRU网络模型,得到所述第一语音特征集中的所有语音特征对应的第一特征向量;
将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型;
所述将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型,包括:
将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所有语音特征之间的互信息;
通过最大化所述互信息训练所述第二GUR网络模型得到所述语音特征预测模型;
所述将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所有语音特征之间的互信息,包括:
将所述第一特征向量和所述第二语音特征集中的第一语音特征输入所述第二GRU网络模型中,得到第二特征向量;将所述第二特征向量和所述第二语音特征集中的第二语音特征输入所述第二GRU网络模型中,得到所述第二特征向量和所述第二语音特征之间的互信息;或者,
根据预设的降采样系数从所述第二语音特征集中的各个语音特征中选取部分语音特征;将所述第一特征向量和从所述第二语音特征集中选取的部分语音特征输入所述第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所述部分语音特征之间的互信息;
所述通过最大化所述互信息训练所述第二GUR网络模型得到所述语音特征预测模型,包括:
根据所述互信息调整所述第二GUR网络模型的模型参数;
将所述第一特征向量和所述第二语音特征集中的所有语音特征输入调整模型参数后的第二GRU网络模型中,得到新的互信息;
当新的互信息满足预设阈值时,确定得到所述语音特征预测模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集,包括:
根据预设规则确定所述样本语音信号对应的语音特征集的拆分点;
根据所述拆分点对所述语音特征集进行拆分处理,得到所述第一语音特征集和第二语音特征集。
3.根据权利要求2所述的方法,其特征在于,所述根据预设规则确定所述样本语音信号对应的语音特征集的拆分点,包括:
确定所述样本语音信号对应的语音特征集中所有语音特征的总帧数;
根据所述预设规则确定拆分区域,并在所述拆分区域中随机选取所述拆分点,所述预设规则为所述第二语音特征集对应的语音特征的帧数大于预设帧数阈值。
4.一种语音特征提取装置,其特征在于,包括:
获取单元,用于获取样本语音信号,所述样本语音信号中包括多个采样点采集到的未标注的语音信号;
第一提取单元,用于将所述样本语音信号输入预设的卷积神经网络中,得到与所述样本语音信号中多个采样点采集到的语音信号对应的语音特征集;
拆分单元,用于对所述样本语音信号对应的语音特征集进行拆分处理,得到第一语音特征集和第二语音特征集;
第二提取单元,用于将第一语音特征集中的各个语音特征输入第一GRU网络模型,得到所述第一语音特征集中的所有语音特征对应的第一特征向量;
训练单元,用于将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型;
所述训练单元将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中进行训练,得到语音特征预测模型时,具体用于:
将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所有语音特征之间的互信息;
通过最大化所述互信息训练所述第二GUR网络模型得到所述语音特征预测模型;
所述训练单元将所述第一特征向量和所述第二语音特征集中的各个语音特征输入第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所有语音特征之间的互信息时,具体用于:
将所述第一特征向量和所述第二语音特征集中的第一语音特征输入所述第二GRU网络模型中,得到第二特征向量;将所述第二特征向量和所述第二语音特征集中的第二语音特征输入所述第二GRU网络模型中,得到所述第二特征向量和所述第二语音特征之间的互信息;或者,
根据预设的降采样系数从所述第二语音特征集中的各个语音特征中选取部分语音特征;将所述第一特征向量和从所述第二语音特征集中选取的部分语音特征输入所述第二GRU网络模型中,计算得到所述第一特征向量与所述第二语音特征集中的所述部分语音特征之间的互信息;
所述训练单元通过最大化所述互信息训练所述第二GUR网络模型得到所述语音特征预测模型时,具体用于:
根据所述互信息调整所述第二GUR网络模型的模型参数;
将所述第一特征向量和所述第二语音特征集中的所有语音特征输入调整模型参数后的第二GRU网络模型中,得到新的互信息;
当新的互信息满足预设阈值时,确定得到所述语音特征预测模型。
5.一种计算机设备,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述程序,执行如权利要求1-3任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-3任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110605728.7A CN113345424B (zh) | 2021-05-31 | 2021-05-31 | 一种语音特征提取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110605728.7A CN113345424B (zh) | 2021-05-31 | 2021-05-31 | 一种语音特征提取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113345424A CN113345424A (zh) | 2021-09-03 |
CN113345424B true CN113345424B (zh) | 2024-02-27 |
Family
ID=77473703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110605728.7A Active CN113345424B (zh) | 2021-05-31 | 2021-05-31 | 一种语音特征提取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113345424B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105786A (zh) * | 2019-12-26 | 2020-05-05 | 苏州思必驰信息科技有限公司 | 一种多采样率语音识别方法、装置、系统及存储介质 |
CN111862956A (zh) * | 2020-07-27 | 2020-10-30 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN111862953A (zh) * | 2019-12-05 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 语音识别模型的训练方法、语音识别方法及装置 |
CN112382309A (zh) * | 2020-12-11 | 2021-02-19 | 平安科技(深圳)有限公司 | 情绪识别模型的训练方法、装置、设备及存储介质 |
CN112530409A (zh) * | 2020-12-01 | 2021-03-19 | 平安科技(深圳)有限公司 | 基于几何学的语音样本筛选方法、装置及计算机设备 |
CN112735479A (zh) * | 2021-03-31 | 2021-04-30 | 南方电网数字电网研究院有限公司 | 语音情绪识别方法、装置、计算机设备和存储介质 |
CN112750469A (zh) * | 2020-02-26 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 语音中检测音乐的方法、语音通信优化方法及对应的装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107221320A (zh) * | 2017-05-19 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 训练声学特征提取模型的方法、装置、设备和计算机存储介质 |
CN107180628A (zh) * | 2017-05-19 | 2017-09-19 | 百度在线网络技术(北京)有限公司 | 建立声学特征提取模型的方法、提取声学特征的方法、装置 |
CN110648658B (zh) * | 2019-09-06 | 2022-04-08 | 北京达佳互联信息技术有限公司 | 一种语音识别模型的生成方法、装置及电子设备 |
-
2021
- 2021-05-31 CN CN202110605728.7A patent/CN113345424B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111862953A (zh) * | 2019-12-05 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 语音识别模型的训练方法、语音识别方法及装置 |
CN111105786A (zh) * | 2019-12-26 | 2020-05-05 | 苏州思必驰信息科技有限公司 | 一种多采样率语音识别方法、装置、系统及存储介质 |
CN112750469A (zh) * | 2020-02-26 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 语音中检测音乐的方法、语音通信优化方法及对应的装置 |
CN111862956A (zh) * | 2020-07-27 | 2020-10-30 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN112530409A (zh) * | 2020-12-01 | 2021-03-19 | 平安科技(深圳)有限公司 | 基于几何学的语音样本筛选方法、装置及计算机设备 |
CN112382309A (zh) * | 2020-12-11 | 2021-02-19 | 平安科技(深圳)有限公司 | 情绪识别模型的训练方法、装置、设备及存储介质 |
CN112735479A (zh) * | 2021-03-31 | 2021-04-30 | 南方电网数字电网研究院有限公司 | 语音情绪识别方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113345424A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112435656B (zh) | 模型训练方法、语音识别方法、装置、设备及存储介质 | |
EP3893125A1 (en) | Method and apparatus for searching video segment, device, medium and computer program product | |
CN112860841A (zh) | 一种文本情感分析方法、装置、设备及存储介质 | |
CN112466314A (zh) | 情感语音数据转换方法、装置、计算机设备及存储介质 | |
WO2022116487A1 (zh) | 基于生成对抗网络的语音处理方法、装置、设备及介质 | |
CN112634158A (zh) | 人脸图像恢复方法、装置、计算机设备及存储介质 | |
WO2019138897A1 (ja) | 学習装置および方法、並びにプログラム | |
CN113345424B (zh) | 一种语音特征提取方法、装置、设备及存储介质 | |
CN117056728A (zh) | 一种时间序列生成方法、装置、设备和存储介质 | |
CN113362852A (zh) | 一种用户属性识别方法和装置 | |
CN113421554B (zh) | 语音关键词检测模型处理方法、装置及计算机设备 | |
CN111611531B (zh) | 人员关系分析方法、装置及电子设备 | |
CN113240071A (zh) | 图神经网络处理方法、装置、计算机设备及存储介质 | |
CN109285559B (zh) | 角色转换点检测方法及装置、存储介质、电子设备 | |
CN113409792A (zh) | 一种语音识别方法及其相关设备 | |
CN113035230A (zh) | 认证模型的训练方法、装置及电子设备 | |
CN112071331A (zh) | 语音文件修复方法、装置、计算机设备及存储介质 | |
US20220277761A1 (en) | Impression estimation apparatus, learning apparatus, methods and programs for the same | |
CN111243607A (zh) | 用于生成说话人信息的方法、装置、电子设备和介质 | |
CN112417886A (zh) | 意图实体信息抽取方法、装置、计算机设备及存储介质 | |
CN113160795B (zh) | 语种特征提取模型训练方法、装置、设备及存储介质 | |
CN113344127B (zh) | 一种数据预测方法、装置、设备及存储介质 | |
CN109658921B (zh) | 一种语音信号处理方法、设备及计算机可读存储介质 | |
CN113436633B (zh) | 说话人识别方法、装置、计算机设备及存储介质 | |
CN112632254B (zh) | 对话状态确定方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |