CN117174100A - 骨导语音的生成方法、电子设备及存储介质 - Google Patents
骨导语音的生成方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117174100A CN117174100A CN202311403322.6A CN202311403322A CN117174100A CN 117174100 A CN117174100 A CN 117174100A CN 202311403322 A CN202311403322 A CN 202311403322A CN 117174100 A CN117174100 A CN 117174100A
- Authority
- CN
- China
- Prior art keywords
- target
- voice data
- processed
- feature
- conduction voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 210000000988 bone and bone Anatomy 0.000 title claims abstract description 363
- 238000000034 method Methods 0.000 title claims abstract description 114
- 238000012545 processing Methods 0.000 claims description 125
- 238000005070 sampling Methods 0.000 claims description 125
- 238000012549 training Methods 0.000 claims description 104
- 238000004364 calculation method Methods 0.000 claims description 49
- 230000008569 process Effects 0.000 claims description 49
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 39
- 238000010606 normalization Methods 0.000 claims description 35
- 230000004913 activation Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 abstract description 15
- 238000004883 computer application Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 30
- 230000007774 longterm Effects 0.000 description 24
- 230000007246 mechanism Effects 0.000 description 22
- 238000000605 extraction Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000012546 transfer Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 210000001519 tissue Anatomy 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 108020004705 Codon Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请适用于计算机应用技术领域,提供了一种骨导语音的生成方法、电子设备及存储介质,该方法包括:获取待处理气导语音数据;将待处理气导语音数据输入目标骨导语音生成模型,以生成待处理气导语音数据对应的目标骨导语音数据。由此,实现了通过算法生成骨导语音,从而不仅降低了骨导语音的采集难度,而且降低了骨导语音采集的时间成本和人工成本。
Description
技术领域
本申请属计算机应用技术领域,尤其涉及一种骨导语音的生成方法、电子设备及计算机可读存储介质。
背景技术
智能可穿戴设备指对人们日常穿戴进行智能化配置,以增加交互体验,拓展用户的感知能力的设备,近年来愈发受到市场关注。真无线耳机、智能音频眼镜等是常见的智能可穿戴设备,其主要从音频方向入手,依托骨传导技术,构建了设备与用户之间的声音交互,目前已广泛应用于教育、医疗、航天以及零售消费领域。与通过空气进行传播的气导语音不同,骨导语音的传播介质是人体骨骼及组织,因此骨导语音对外部噪声具有天然的抗干扰能力,有助于提升语音性能,在语音增强等领域具有广阔的应用场景。
在实际算法研究和产品评测过程中,需要大量的真实骨导语音。但是人体骨骼和组织具有低通特性,当使用紧贴于人耳或皮肤的骨传导传感器进行骨导语音采集时,原始信号相当于经过了低通滤波器,信号的高频部分已严重缺失,同时随机增加了一些传感器与人体组织间的摩擦噪声。相关技术中,通常通过真人实测采集骨导语音,不仅采集难度大,而且时间成本和人工成本高。
发明内容
本申请实施例提供了一种骨导语音的生成方法、电子设备及计算机可读存储介质,可以解决通过真人实测采集骨导语音,不仅采集难度大,而且时间成本和人工成本高的问题。
第一方面,本申请实施例提供了一种骨导语音的生成方法,包括:获取待处理气导语音数据;将待处理气导语音数据输入目标骨导语音生成模型,以生成待处理气导语音数据对应的目标骨导语音数据。
如此,通过预先训练生成的目标骨导语音生成模型对气导语音数据进行处理,以生成相应的骨导语音数据,实现了通过算法生成骨导语音,从而不仅降低了骨导语音的采集难度,而且降低了骨导语音采集的时间成本和人工成本。
在第一方面一种可能的实现方式中,上述目标骨导语音生成模型中包括目标编码器、目标解码器及目标残差模块;相应的,上述将待处理气导语音数据输入目标骨导语音生成模型,以生成待处理气导语音数据对应的目标骨导语音数据,包括:
将待处理气导语音数据输入目标编码器,对待处理气导语音数据进行N次下采样处理,以生成待处理气导语音数据对应的第一目标编码特征,其中,N为大于或等于1的整数;
将第一目标编码特征输入目标解码器,对第一目标编码特征进行N次上采样处理,以生成待处理气导语音数据对应的目标解码特征;
将目标解码特征输入目标残差模块,以生成目标骨导语音数据。
如此,通过构建包括编码器、解码器及残差模块的骨导语音生成模型,利用编码器逐层对输入的气导语音数据进行下采样,以提取气导语音数据的特征信息,保留气导语音数据的关键特征,进而通过解码器及残差模块根据气导语音数据的关键特征及学习到的气导语音数据的关键特征与骨导语音数据之间的关联性,进行逐层上采样以生成骨导语音数据,提升了骨导语音生成的质量和可靠性。
可选的,在第一方面另一种可能的实现方式中,上述目标编码器中包含N个目标下采样模块及至少一个目标编码子模块,上述目标解码器包含N个目标上采样模块及至少一个目标解码子模块。
可选的,在第一方面再一种可能的实现方式中,上述将待处理气导语音数据输入目标编码器,对待处理气导语音数据进行N次下采样处理,以生成待处理气导语音数据对应的第一目标编码特征,包括:
将待处理气导语音数据输入第1个目标下采样模块,对待处理气导语音数据进行第1次下采样处理,以生成待处理气导语音数据对应的第1个中间编码特征;
将第i-1个中间编码特征输入第i个目标下采样模块,对待处理气导语音数据进行第i次下采样处理,以生成待处理气导语音数据对应的第i个中间编码特征,其中,i为大于1、且小于或等于N的整数;
将第i个中间编码特征输入至少一个目标编码子模块,以生成第一目标编码特征。
可选的,在第一方面又一种可能的实现方式中,上述将第一目标编码特征输入目标解码器,对第一目标编码特征进行N次上采样处理,以生成待处理气导语音数据对应的目标解码特征,包括:
将第一目标编码特征输入至少一个目标解码子模块,以生成待处理气导语音数据对应的第1个中间解码特征;
将第j个中间解码特征输入第j个目标上采样模块,进行第j次上采样处理,以生成待处理气导语音数据对应的第j+1个中间解码特征,其中,目标解码特征为第N+1个中间解码特征,j为大于或等于1、且小于或等于N的整数。
如此,通过构建包括多个下采样模块及的编码器及包括多个上采样模块的编码器,以通过多个编码器中的多个下采样模块对气导语音数据进行逐层下采样处理,提取气导语音数据中的关键特征,并通过解码器中的多层上采样模块对气导语音数据的关键特征进行还原,以生成与气导语音数据尺寸相同的骨导语音数据,从而通过堆叠多层网络结构,对气导语音数据的关键特征进行充分提取,以及充分学习骨导语音数据与气导语音数据之间的关联关系,进一步提升了骨导语音数据的生成质量和可靠性。
可选的,在第一方面又一种可能的实现方式中,上述目标编码器与目标解码器之间的连接方式为跳跃连接;相应的,上述将第j个中间解码特征输入第j个目标上采样模块,进行第j次上采样处理,以生成待处理气导语音数据对应的第j+1个中间解码特征,包括:
将第j个中间解码特征及第N-j+1个中间编码特征输入第j个目标上采样模块,进行第j次上采样处理,以生成待处理气导语音数据对应的第j+1个中间解码特征。
由此,通过编码器与解码器之间的跳跃连接,使得解码器的每一层下采样模块在进行解码时,不仅需要输入编码器最终输出的编码特征以及上一层上采样模块输出的解码结果,还会输入编码器中对应层的下采样模块输出的中间编码特征,从而实现在解码时把不同维度的编码特征都送去解码器进行解码处理,以兼顾不同尺度信息的感知能力,进而达到兼顾语音的长时关联与短时特征的目的,进一步提升了骨导语音数据生成的可靠性。
可选的,在第一方面另一种可能的实现方式中,上述每个目标下采样模块中均包括第一残差单元、第一卷积单元及第一注意力单元,每个目标上采样模块中均包括第二残差单元、上采样单元及第二注意力单元,第一卷积单元的卷积步长大于1,上采样单元的上采样步长大于1。
可选的,在第一方面再一种可能的实现方式中,上述将待处理气导语音数据输入目标编码器,对待处理气导语音数据进行N次下采样处理,以生成待处理气导语音数据对应的第一目标编码特征,包括:
将待处理气导语音数据输入第一个目标下采样模块的第一残差单元,以生成待处理气导语音数据对应的第一个残差编码特征;
将第一个残差编码特征输入第一个目标下采样模块的第一卷积单元,对待处理气导语音数据进行第一次下采样处理,以生成待处理气导语音数据对应的第一个卷积编码特征;
将第一个卷积编码特征输入第一个目标下采样模块的第一注意力单元,进行注意力计算,以生成待处理气导语音数据对应的第1个中间编码特征;
将第i-1个中间编码特征输入第i个目标下采样模块的第一残差单元,以生成待处理气导语音数据对应的第i个残差编码特征;
将第i个残差编码特征输入第i个目标下采样模块的第一卷积单元,对待处理气导语音数据进行第i次下采样处理,以生成待处理气导语音数据对应的第i个卷积编码特征;
将第i个卷积编码特征输入第i个目标下采样模块的第一注意力单元,进行注意力计算,以生成待处理气导语音数据对应的第i个中间编码特征,其中,i为大于1、且小于或等于N的整数。
如此,对于编码器中的每层下采样模块,均包含残差单元、卷积步长大于1的卷积单元及注意力单元,以及解码器中的每层上采样模块,均包含残差单元、上采样步长大于1的上采样单元及注意力单元,以通过残差单元降低梯度在堆叠较深的网络中传递的难度,更加有利于系统的收敛,并通过由一维卷积神经网络构成卷积单元,以实现对气导语音数据的直接处理和下采样,以及通过注意力机制使得模型能够更好的学习到语音的长时关联特征,从而使得生成的骨导语音数据更加准确。
可选的,在第一方面又一种可能的实现方式中,上述将第i个卷积编码特征输入第i个目标下采样模块的第一注意力单元,进行注意力计算,以生成待处理气导语音数据对应的第i个中间编码特征,包括:
将第i个卷积编码特征在时间维度上划分至多个第一窗口;
在每个第一窗口内对第i个卷积编码特征进行局部注意力计算,以生成第i个卷积编码特征对应的第一局部注意力特征;
根据预设步长在时间维度上对各个第一窗口进行滑动,以将第i个卷积编码特征在时间维度上划分至多个第二窗口,其中,预设步长小于第一窗口的窗口长度;
在每个第二窗口内对第i个卷积编码特征进行局部注意力计算,以生成第i个卷积编码特征对应的第二局部注意力特征;
根据第i个卷积编码特征对应的第一局部注意力特征及第二局部注意力特征,生成第i个中间编码特征。
如此,由于语音的长时关联对于骨导语音的生成质量十分重要,而语音数据又具有高时间分辨率的特点,序列长度较长,并且自注意力机制的运算复杂度与所处理特征序列长度的平方成正比,其所能处理的序列长度往往受限。因此,为了在模型处理过程中既充分学习语音数据的长时关联,又降低注意力机制的计算复杂度,通过基于滑动窗口的注意力机制实现对语音数据的长时关联的学习,既通过对语音特征进行划分窗口并仅对窗口内的特征进行局部注意力计算,以降低计算复杂度,又通过在时间维度上滑动一定步长重新划分窗口后再次进行局部注意力计算,以实现不同窗口之间的信息交互,从而间接实现了全局注意力机制,保留了语音数据的长时特征,因此不仅进一步提升了骨导语音数据的生成质量和可靠性,而且进一步提升了骨导语音数据的生成效率。
可选的,在第一方面又一种可能的实现方式中,上述将第一目标编码特征输入目标解码器,对第一目标编码特征进行N次上采样处理,以生成待处理气导语音数据对应的目标解码特征,包括:
将第一目标编码特征输入至少一个目标解码子模块,以生成待处理气导语音数据对应的第1个中间解码特征;
将第j个中间解码特征输入第j个目标上采样模块的第二残差单元,以生成待处理气导语音数据对应的第j个残差解码特征;
将第j个残差解码特征输入第j个目标上采样模块的上采样单元,对待处理气导语音数据进行第j次上采样处理,以生成待处理气导语音数据对应的第j个上采样解码特征;
将第j个上采样解码特征输入第j个目标上采样模块的第二注意力单元,进行注意力计算,以生成待处理气导语音数据对应的第j+1个中间解码特征,其中,目标解码特征为第N+1个中间解码特征,j为大于或等于1、且小于或等于N的整数。
如此,对于编码器中的每层下采样模块,均包含残差单元、卷积步长大于1的卷积单元及注意力单元,以及解码器中的每层上采样模块,均包含残差单元、上采样步长大于1的上采样单元及注意力单元,以通过残差单元降低梯度在堆叠较深的网络中传递的难度,更加有利于系统的收敛,并通过由一维卷积神经网络构成卷积单元,以实现对气导语音数据的直接处理和下采样,以及通过注意力机制使得模型能够更好的学习到语音的长时关联特征,从而使得生成的骨导语音数据更加准确。
可选的,在第一方面另一种可能的实现方式中,上述目标编码器与目标解码器之间的连接方式为跳跃连接;相应的,上述将第j个中间解码特征输入第j个目标上采样模块的第二残差单元,以生成待处理气导语音数据对应的第j个残差解码特征,包括:
将第j个中间解码特征及第N-j+1个中间编码特征输入第j个目标上采样模块的第二残差单元,以生成待处理气导语音数据对应的第j个残差解码特征。
由此,通过编码器与解码器之间的跳跃连接,使得解码器的每一层下采样模块在进行解码时,不仅需要输入编码器最终输出的编码特征以及上一层下采样模块输出的解码结果,还会输入解码器中对应层的上采样模块输出的中间解码特征,从而实现在解码时把不同维度的编码特征都送去解码器进行解码处理,以兼顾不同尺度信息的感知能力,进而达到兼顾语音的长时关联与短时特征的目的,进一步提升了骨导语音数据生成的可靠性。
可选的,在第一方面再一种可能的实现方式中,上述目标编码子模块包括第三残差单元及第三注意力单元,上述目标解码子模块包括第四残差单元及第四注意力单元。
如此,通过在编码器进行多层下采样之后,继续通过目标编码子模块进一步提取关键特征,并且通过残差单元及注意力单元进一步提升模型对关键特征的提取能力,从而进一步提升了特征提取的准确性,进而进一步提升了骨导语音数据生成的准确性。
可选的,在第一方面又一种可能的实现方式中,上述第一残差单元、第二残差单元、第三残差单元及第四残差单元中均包括至少一个残差块,每个残差块中均包括归一化单元、激活函数单元及第二卷积单元。
如此,在模型中的各个残差单元中,通过根据实际需要设置一个或多个相同结构的残差块,以在编码器及解码器的每层网络中对每层输入的特征进行多次残差连接,以进一步降低网络堆叠导致的反向传递时梯度传递的难度;并且,每个残差块均是由归一化单元、激活函数单元及卷积单元构成的,以通过多次归一化和激活学习到更加丰富的特征表示,使得网络更好地捕捉数据中的复杂模式,提升模型的表达能力,进而进一步提升骨导语音数据的生成质量和可靠性。
可选的,在第一方面又一种可能的实现方式中,上述目标骨导语音生成模型中还包括目标中间层;相应的,上述将第一目标编码特征输入目标解码器,对第一目标编码特征进行N次上采样处理,以生成待处理气导语音数据对应的目标解码特征之前,还包括:
将第一目标编码特征输入目标中间层,以生成第二目标编码特征;
相应的,上述将第一目标编码特征输入目标解码器,对第一目标编码特征进行N次上采样处理,以生成待处理气导语音数据对应的目标解码特征,包括:
将第二目标编码特征输入目标解码器,对第二目标编码特征进行N次上采样处理,以生成待处理气导语音数据对应的目标解码特征。
如此,通过在模型的编码器与解码器之间增加中间层,进一步对编码器输出的特征进行学习,以进一步提升模型对特征的表达能力,从而进一步提升了骨导语音数据的生成质量和可靠性。
可选的,在第一方面另一种可能的实现方式中,上述目标中间层包括至少一个中间处理模块,每个中间处理模块中均包括第五残差单元及第五注意力单元。
如此,中间层的每个层级均是由残差单元和注意力单元构成的,以通过残差连接和注意力机制增强模型的特征表达能力,以及引入语音数据的长时关联,从而不仅提升了骨导语音的生成质量,而且进一步降低了模型的计算复杂度。
可选的,在第一方面再一种可能的实现方式中,上述将待处理气导语音数据输入目标骨导语音生成模型,以生成待处理气导语音数据对应的目标骨导语音数据之前,还包括:
根据第一临界频率对待处理气导语音数据进行低通滤波处理;
和/或,
对待处理气导语音数据进行幅值归一化处理。
如此,通过在输入模型之前对气导语音数据进行低通滤波、归一化等预处理,以提升气导语音数据的质量和数据一致性,以便于后续的特征提取和特征表达,从而进一步提升了骨导语音数据的生成质量。
可选的,在第一方面又一种可能的实现方式中,上述目标骨导语音生成模型是通过如下方式生成的:
获取训练语音数据集,其中,训练语音数据集中包含多个训练气导语音数据及每个训练气导语音数据对应的标注骨导语音数据;
将每个训练气导语音数据依次输入初始骨导语音生成模型,以生成每个训练气导语音数据对应的预测骨导语音数据;
根据每个训练气导语音数据对应的预测骨导语音数据与标注骨导语音数据之间的差异,对初始骨导语音生成模型进行迭代训练,以生成目标骨导语音生成模型。
可选的,在第一方面又一种可能的实现方式中,上述根据每个训练气导语音数据对应的预测骨导语音数据与标注骨导语音数据之间的差异,对初始骨导语音生成模型进行迭代训练,以生成目标骨导语音生成模型,包括:
根据每个训练气导语音数据对应的预测骨导语音数据与所述标注骨导语音数据之间的差异及预设损失函数,确定初始骨导语音生成模型对应的损失值;
根据损失值对初始骨导语音生成模型的网络参数进行更新,以生成更新后的骨导语音生成模型;
将每个训练气导语音数据依次输入更新后的骨导语音生成模型,继续进行训练,直至再次更新后的骨导语音生成模型满足预设条件,则结束训练,并将最后一次更新生成的骨导语音生成模型确定为目标骨导语音生成模型。
可选的,在第一方面另一种可能的实现方式中,上述预设条件包括:再次更新后的骨导语音生成模型对应的损失值小于或等于损失值阈值,或者迭代训练次数大于迭代次数阈值。
如此,通过预先构建的包含一定量真实气导语音与对应的真实骨导语音的训练数据集,对构建的初始骨导语音生成模型进行训练,以通过模型生成的预测骨导语音与真实骨导语音之间的差异对模型进行迭代更新,以使模型不断学习到气导语音与骨导语音之间的关联性,进而生成可以生成符合要求的骨导语音生成模型,从而实现了通过算法生成骨导语音,降低了骨导语音的采集难度和采集成本,并保证了骨导语音的质量。
第二方面,本申请实施例提供了一种骨导语音的生成装置,包括:第一获取模块,用于获取待处理气导语音数据;第一生成模块,用于将待处理气导语音数据输入目标骨导语音生成模型,以生成待处理气导语音数据对应的目标骨导语音数据。
在第二方面一种可能的实现方式中,上述目标骨导语音生成模型中包括目标编码器、目标解码器及目标残差模块;相应的,上述第一生成模块,包括:
第一下采样单元,用于将待处理气导语音数据输入目标编码器,对待处理气导语音数据进行N次下采样处理,以生成待处理气导语音数据对应的第一目标编码特征,其中,N为大于或等于1的整数;
第一上采样单元,用于将第一目标编码特征输入目标解码器,对第一目标编码特征进行N次上采样处理,以生成待处理气导语音数据对应的目标解码特征;
第一生成单元,用于将目标解码特征输入目标残差模块,以生成目标骨导语音数据。
可选的,在第二方面另一种可能的实现方式中,上述目标编码器中包含N个目标下采样模块及至少一个目标编码子模块,上述目标解码器包含N个目标上采样模块及至少一个目标解码子模块。
可选的,在第二方面再一种可能的实现方式中,上述第一下采样单元,具体用于:
将待处理气导语音数据输入第1个目标下采样模块,对待处理气导语音数据进行第1次下采样处理,以生成待处理气导语音数据对应的第1个中间编码特征;
将第i-1个中间编码特征输入第i个目标下采样模块,对待处理气导语音数据进行第i次下采样处理,以生成待处理气导语音数据对应的第i个中间编码特征,其中,i为大于1、且小于或等于N的整数;
将第i个中间编码特征输入至少一个目标编码子模块,以生成第一目标编码特征。
可选的,在第二方面又一种可能的实现方式中,上述第一上采样单元,具体用于:
将第一目标编码特征输入至少一个目标解码子模块,以生成待处理气导语音数据对应的第1个中间解码特征;
将第j个中间解码特征输入第j个目标上采样模块,进行第j次上采样处理,以生成待处理气导语音数据对应的第j+1个中间解码特征,其中,目标解码特征为第N+1个中间解码特征,j为大于或等于1、且小于或等于N的整数。
可选的,在第二方面又一种可能的实现方式中,上述目标编码器与目标解码器之间的连接方式为跳跃连接;相应的,上述第一上采样单元,还用于:
将第j个中间解码特征及第N-j+1个中间编码特征输入第j个目标上采样模块,进行第j次上采样处理,以生成待处理气导语音数据对应的第j+1个中间解码特征。
可选的,在第二方面另一种可能的实现方式中,上述每个目标下采样模块中均包括第一残差单元、第一卷积单元及第一注意力单元,每个目标上采样模块中均包括第二残差单元、上采样单元及第二注意力单元,第一卷积单元的卷积步长大于1,上采样单元的上采样步长大于1。
可选的,在第二方面再一种可能的实现方式中,上述第一下采样单元,还用于:
将待处理气导语音数据输入第一个目标下采样模块的第一残差单元,以生成待处理气导语音数据对应的第一个残差编码特征;
将第一个残差编码特征输入第一个目标下采样模块的第一卷积单元,对待处理气导语音数据进行第一次下采样处理,以生成待处理气导语音数据对应的第一个卷积编码特征;
将第一个卷积编码特征输入第一个目标下采样模块的第一注意力单元,进行注意力计算,以生成待处理气导语音数据对应的第1个中间编码特征;
将第i-1个中间编码特征输入第i个目标下采样模块的第一残差单元,以生成待处理气导语音数据对应的第i个残差编码特征;
将第i个残差编码特征输入第i个目标下采样模块的第一卷积单元,对待处理气导语音数据进行第i次下采样处理,以生成待处理气导语音数据对应的第i个卷积编码特征;
将第i个卷积编码特征输入第i个目标下采样模块的第一注意力单元,进行注意力计算,以生成待处理气导语音数据对应的第i个中间编码特征,其中,i为大于1、且小于或等于N的整数。
可选的,在第二方面又一种可能的实现方式中,上述第一下采样单元,还用于:
将第i个卷积编码特征在时间维度上划分至多个第一窗口;
在每个第一窗口内对第i个卷积编码特征进行局部注意力计算,以生成第i个卷积编码特征对应的第一局部注意力特征;
根据预设步长在时间维度上对各个第一窗口进行滑动,以将第i个卷积编码特征在时间维度上划分至多个第二窗口,其中,预设步长小于第一窗口的窗口长度;
在每个第二窗口内对第i个卷积编码特征进行局部注意力计算,以生成第i个卷积编码特征对应的第二局部注意力特征;
根据第i个卷积编码特征对应的第一局部注意力特征及第二局部注意力特征,生成第i个中间编码特征。
可选的,在第二方面又一种可能的实现方式中,上述第一上采样单元,还用于:
将第一目标编码特征输入至少一个目标解码子模块,以生成待处理气导语音数据对应的第1个中间解码特征;
将第j个中间解码特征输入第j个目标上采样模块的第二残差单元,以生成待处理气导语音数据对应的第j个残差解码特征;
将第j个残差解码特征输入第j个目标上采样模块的上采样单元,对待处理气导语音数据进行第j次上采样处理,以生成待处理气导语音数据对应的第j个上采样解码特征;
将第j个上采样解码特征输入第j个目标上采样模块的第二注意力单元,进行注意力计算,以生成待处理气导语音数据对应的第j+1个中间解码特征,其中,目标解码特征为第N+1个中间解码特征,j为大于或等于1、且小于或等于N的整数。
可选的,在第二方面另一种可能的实现方式中,上述目标编码器与目标解码器之间的连接方式为跳跃连接;相应的,上述第一上采样单元,还用于:
将第j个中间解码特征及第N-j+1个中间编码特征输入第j个目标上采样模块的第二残差单元,以生成待处理气导语音数据对应的第j个残差解码特征。
可选的,在第二方面再一种可能的实现方式中,上述目标编码子模块包括第三残差单元及第三注意力单元,上述目标解码子模块包括第四残差单元及第四注意力单元。
可选的,在第二方面又一种可能的实现方式中,上述第一残差单元、第二残差单元、第三残差单元及第四残差单元中均包括至少一个残差块,每个残差块中均包括归一化单元、激活函数单元及第二卷积单元。
可选的,在第二方面又一种可能的实现方式中,上述目标骨导语音生成模型中还包括目标中间层;相应的,上述第一生成模块,还包括:
第二生成单元,用于将第一目标编码特征输入目标中间层,以生成第二目标编码特征;
相应的,上述第一上采样单元,还用于:
将第二目标编码特征输入目标解码器,对第二目标编码特征进行N次上采样处理,以生成待处理气导语音数据对应的目标解码特征。
可选的,在第二方面另一种可能的实现方式中,上述目标中间层包括至少一个中间处理模块,每个中间处理模块中均包括第五残差单元及第五注意力单元。
可选的,在第二方面再一种可能的实现方式中,上述装置,还包括:
低通滤波模块,用于根据第一临界频率对待处理气导语音数据进行低通滤波处理;
和/或,
归一化模块,用于对待处理气导语音数据进行幅值归一化处理。
可选的,在第二方面又一种可能的实现方式中,上述目标骨导语音生成模型是通过如下方式生成的:
获取训练语音数据集,其中,训练语音数据集中包含多个训练气导语音数据及每个训练气导语音数据对应的标注骨导语音数据;
将每个训练气导语音数据依次输入初始骨导语音生成模型,以生成每个训练气导语音数据对应的预测骨导语音数据;
根据每个训练气导语音数据对应的预测骨导语音数据与标注骨导语音数据之间的差异,对初始骨导语音生成模型进行迭代训练,以生成目标骨导语音生成模型。
可选的,在第二方面又一种可能的实现方式中,上述根据每个训练气导语音数据对应的预测骨导语音数据与标注骨导语音数据之间的差异,对初始骨导语音生成模型进行迭代训练,以生成目标骨导语音生成模型,包括:
根据每个训练气导语音数据对应的预测骨导语音数据与所述标注骨导语音数据之间的差异及预设损失函数,确定初始骨导语音生成模型对应的损失值;
根据损失值对初始骨导语音生成模型的网络参数进行更新,以生成更新后的骨导语音生成模型;
将每个训练气导语音数据依次输入更新后的骨导语音生成模型,继续进行训练,直至再次更新后的骨导语音生成模型满足预设条件,则结束训练,并将最后一次更新生成的骨导语音生成模型确定为目标骨导语音生成模型。
可选的,在第二方面另一种可能的实现方式中,上述预设条件包括:再次更新后的骨导语音生成模型对应的损失值小于或等于损失值阈值,或者迭代训练次数大于迭代次数阈值。
第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现如前所述的骨导语音的生成方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如前所述的骨导语音的生成方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行如前所述的骨导语音的生成方法。
上述第二方面、第三方面、第四方面和第五方面所获得的技术效果与上述第一方面中对应的技术手段获得的技术效果近似,在这里不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的骨导语音的生成方法的流程示意图;
图2是本申请一实施例提供的一种骨导语音生成模型的训练流程示意图;
图3是本申请另一实施例提供的一种骨导语音的生成方法的流程示意图;
图4是本申请一实施例提供的一种目标骨导语音生成模型的结构示意图;
图5是本申请一实施例提供的一种目标下采样模块的结构示意图;
图6是本申请一实施例提供的一种注意力计算的示意图;
图7是本申请一实施例提供的一种目标编码子模块的结构示意图;
图8是本申请一实施例提供的另一种目标下采样模块的结构示意图;
图9是本申请一实施例提供的另一种目标编码子模块的结构示意图;
图10是本申请一实施例提供的一种目标上采样模块的结构示意图;
图11是本申请一实施例提供的一种目标解码子模块的示意图;
图12是本申请一实施例提供的另一种目标上采样模块的示意图;
图13是本申请一实施例提供的另一种目标解码子模块的结构示意图;
图14是本申请一实施例提供的另一种目标骨导语音生成模型的结构示意图;
图15是本申请一实施例提供的一种中间处理模块的结构示意图;
图16是本申请一实施例提供的另一种中间处理模块的结构示意图;
图17是本申请一实施例提供的再一种目标骨导语音生成模型的结构示意图;
图18是本申请一实施例提供的一种待处理气导语音数据及其对应的真实骨导语音数据、目标骨导语音数据的频域对比图;
图19是本申请一实施例提供的骨导语音的生成装置的结构示意图;
图20是本申请一实施例提供的电子设备的结构示意图。
具体实施方式
下面参考附图对本申请提供的骨导语音的生成方法、装置、电子设备、存储介质及计算机程序进行详细描述。
请参考图1,图1是本申请一实施例提供的骨导语音的生成方法的流程示意图,该方法可以包括如下部分或者全部内容:
步骤101,获取待处理气导语音数据。
其中,待处理气导语音数据,可以是指实际采集的气导语音数据。需要说明的是,待处理气导语音数据可以为时域信号。
在本申请实施例中,由于骨导语音对外部噪声具有天然的抗干扰能力,有助于提升语音性能,在语音增强等领域的应用越来越广泛,因此在各类实际算法研究和产品评测过程中,需要大量骨导语音数据集作为数据支撑。但是,人体骨骼和组织具有低通特性,当使用紧贴于人耳或皮肤的骨传导传感器进行骨导语音采集时,原始信号相当于经过了低通滤波器,信号的高频部分已严重缺失,同时随机增加了一些传感器与人体组织间的摩擦噪声,从而导致通过真人实测的方式采集真实的骨导语音不仅采集难度大,质量低,而且时间成本和人工成本高;但是气导语音却更易采集,且存在大量公开的气导语音数据集。因此,本申请实施例通过构建深度学习模型,学习气导语音数据与骨导语音数据之间的关联性,进而通过深度学习模型对更易采集的气导语音数据进行处理,以直接生成骨导语音数据,从而降低了骨导语音的采集难度,降低了骨导语音采集的时间成本和人工成本,而且可以根据实际需要随时生成大量的骨导语音,使得骨导语音数据集的规模不再受采集条件的限制。
作为一种示例,可以提前构建包含一定数据规模的气导语音数据的数据集,并在存在骨导语音使用需求时,依次将数据集中的各个气导语音数据作为本申请实施例的待处理气导语音数据,以生成数据集中每个气导语音数据对应的骨导语音数据,从而实现骨导语音数据集的构建。
作为一种示例,本申请实施例还可以应用在气导语音数据实际采集的过程中,即每采集到一个气导语音数据,即将该气导语音数据作为待处理气导语音数据,并根据本申请实施例的骨导语音数据的生成方法,生成该待处理气导语音数据对应的骨导语音数据,从而可以在气导语音数据采集的过程中,即可以同时生成相应的骨导语音数据,进而可以直接生成同时包含气导语音数据及骨导语音数据的数据集,也可以将气导语音数据分别存储,以同时生成仅包含气导语音数据的数据集,以及仅包含骨导语音数据的数据集。
需要说明的是,上述举例仅为示例性的,不能视为对本申请的限制。实际使用时,本申请实施例的骨导语音的生成方法可以应用在任意通过气导语音生成骨导语音的场景,或者任意的语音合成或语音增强的场景,本申请实施例对此不做限定。
步骤102,将待处理气导语音数据输入目标骨导语音生成模型,以生成待处理气导语音数据对应的目标骨导语音数据。
其中,目标骨导语音生成模型,可以是指预先训练的可用于根据气导语音数据生成骨导语音数据的深度学习模型。实际使用时,可以根据实际需要及具体的应用场景确定目标骨导语音生成模型的网络结构,本申请实施例对此不做限定。
其中,目标骨导语音数据,可以是指通过目标骨导语音生成模型对待处理气导语音数据进行处理生成的骨导语音数据。
在本申请实施例中,在获取到待处理气导语音数据之后,即可以将待处理气导语音数据输入已训练完成的目标骨导语音生成模型,以通过目标骨导语音生成模型对待处理气导语音数据进行处理之后,输出相应的目标骨导语音数据。
进一步的,为了提升气导语音数据的质量和数据一致性,以便于后续的特征提取和特征表达,进一步提升骨导语音数据的生成质量,还可以在输入目标骨导语音生成模型之前,对待处理气导语音数据进行预处理。即在本申请实施例一种可能的实现方式中,上述步骤102之前,还可以包括:
根据第一临界频率对待处理气导语音数据进行低通滤波处理;
和/或,
对待处理气导语音数据进行幅值归一化处理。
作为一种可能的实现方式,由于气导语音数据是通过空气传播的,因此噪声通常在高频段、且过于高频的声音也不在可听声的频率范围,因此,可以以较高的第一临界频率对待处理气导语音数据进行低通滤波处理,以将待处理气导语音数据中高于第一临界频率的噪声滤除,从而提升待处理气导语音数据的质量,进而提升最终生成的目标骨导语音数据的质量。
作为一种可能的实现方式,由于在待处理气导语音数据的采集过程中,采集对象的音量、采集环境都可能存在不稳定的情况,从而导致待处理气导语音数据的幅值不稳定,而且将待处理气导语音数据的幅值归一化至相同的数值范围,更有利于后续的特征提取和数据处理。因此,可以在将待处理气导语音数据输入目标骨导语音生成模型之前,对待处理气导语音数据进行幅值归一化处理。
作为一种可能的实现方式,在将待处理语音数据输入目标骨导语音生成模型之前,还可以先对待处理气导语音数据进行低通滤波处理之后,再对低通滤波处理后生成的气导语音信号的幅值进行归一化处理,然后再输入目标骨导语音生成模型。
需要说明的是,实际使用时,可以根据实际需求及具体的应用场景,以及可听声的频率范围等因素,确定第一临界频率的具体取值,本申请实施例对此不做限定。比如,第一临界频率可以为4000Hz。
进一步的,可以通过预先采集并构建的包含一定量真实气导语音及其对应的骨导语音的数据集,对对构建的初始骨导语音生成模型进行训练,以通过模型生成的预测骨导语音与真实骨导语音之间的差异对模型进行迭代更新,以使模型不断学习到气导语音与骨导语音之间的关联性,进而生成可以生成符合要求的骨导语音生成模型,以实现通过算法生成骨导语音,降低骨导语音的采集难度和采集成本,并保证骨导语音的质量。即在本申请实施例一种可能的实现方式中,上述目标骨导语音生成模型,可以是通过以下方式生成的:
获取训练语音数据集,其中,训练语音数据集中包含多个训练气导语音数据及每个训练气导语音数据对应的标注骨导语音数据;
将每个训练气导语音数据依次输入初始骨导语音生成模型,以生成每个训练气导语音数据对应的预测骨导语音数据;
根据每个训练气导语音数据对应的预测骨导语音数据与标注骨导语音数据之间的差异,对初始骨导语音生成模型进行迭代训练,以生成目标骨导语音生成模型。
其中,训练气导语音数据及其对应的标注骨导语音数据,可以是语音数据采集过程中同一采集对象阅读同一语料时同步采集的气导语音数据及骨导语音数据。
其中,预测骨导语音数据,可以是指将任一训练气导语音数据输入初始骨导语音生成模型后生成的语音数据。
在本申请实施例中,由于训练气导语音数据对应的标注骨导语音数据,是在采集训练气导语音数据时同步采集的骨导语音数据,因此训练气导语音数据对应的标注骨导语音数据可以作为真值,对模型生成的训练气导语音数据对应的预测骨导语音数据的质量和准确性进行校验。可以理解的是,对于一个训练气导语音数据,其对应的预测骨导语音数据与标注骨导语音数据之间的差异越小,则说明模型的性能越好;其对应的预测骨导语音数据与标注骨导语音数据之间的差异越大,则说明模型的性能越差。因此,可以根据各个训练气导语音数据对应的预测骨导语音数据与标注骨导语音数据之间的差异,确定是否需要对初始骨导语音生成模型进行更新;若无需对初始骨导语音生成模型进行更新,则可以直接将初始骨导语音生成模型确定为目标骨导语音生成模型;若需要对初始骨导语音生成模型进行更新,则可以对初始骨导语音生成模型的网络参数进行更新,并利用更新后的骨导语音生成模型继续对各个训练气导语音数据进行处理,并重复上述训练过程,以对初始骨导语音生成模型进行迭代训练,直至根据各个训练气导语音数据对应的预测骨导语音数据与标注骨导语音数据之间的差异,确定无需继续对模型进行更新,则可以将最后一次更新生成的骨导语音生成模型,确定为目标骨导语音生成模型。
作为一种可能的实现方式,可以通过损失函数衡量是否需要对模型进行更新。即在本申请一种可能的实现方式中,上述根据每个训练气导语音数据对应的预测骨导语音数据与标注骨导语音数据之间的差异,对初始骨导语音生成模型进行迭代训练,以生成目标骨导语音生成模型,包括:
根据每个训练气导语音数据对应的预测骨导语音数据与所述标注骨导语音数据之间的差异及预设损失函数,确定初始骨导语音生成模型对应的损失值;
根据损失值对初始骨导语音生成模型的网络参数进行更新,以生成更新后的骨导语音生成模型;
将每个训练气导语音数据依次输入更新后的骨导语音生成模型,继续进行训练,直至再次更新后的骨导语音生成模型满足预设条件,则结束训练,并将最后一次更新生成的骨导语音生成模型确定为目标骨导语音生成模型。
其中,预设条件可以为再次更新后的骨导语音生成模型对应的损失值小于或等于损失值阈值,或者迭代训练次数大于迭代次数阈值。
如图2所示,为本申请实施例提供的一种骨导语音生成模型的训练流程示意图。首先设置初始骨导语音生成模型的网络参数,并初始化初始骨导语音生成模型的权重,之后将各个训练气导语音数据依次输入初始骨导语音生成模型,并计算模型输出值,即训练气导语音数据对应的预测骨导语音数据,之后将各个训练气导语音数据对应的预测骨导语音数据及标注骨导语音数据代入预设损失函数,以确定模型的损失值并记录;之后,判断损失值是否小于或等于损失值阈值,若是,则确定当前模型已符合性能要求,即可以存储该损失值及模型的当前网络参数,并将当前的骨导语音生成模型确定为目标骨导语音生成模型,并结束训练(在图2中,在损失值小于或等于损失值阈值时,也会再次判断模型是否满足损失值小于或等于损失值阈值,或者迭代训练次数是否大于迭代次数阈值这两个条件中的其中一个,如果满足才结束训练,但是此时一定会满足损失值小于或等于损失值阈值的条件,因此在损失值小于或等于损失值阈值时即会结束训练);若否,则可以继续判断迭代训练次数是否大于迭代次数阈值,若是,则可以确定模型的迭代训练次数已经达到迭代次数阈值,即模型性能已经符合要求,则可以结束训练,并将当前的骨导语音生成模型作为目标骨导语音生成模型;若否,则说明当前的骨导语音生成模型既不满足损失值小于或等于损失值阈值的条件,也不满足迭代训练次数大于迭代次数阈值的条件,从而可以继续将各个训练气导语音数据重新输入更新后的骨导语音生成模型,并重复上述训练过程,直至更新后的模型满足损失值小于或等于损失值阈值,或者迭代训练次数大于迭代次数阈值中的其中一个条件,则结束训练过程,并将最后一次更新生成的骨导语音生成模型,作为目标骨导语音生成模型。
本申请实施例提供的骨导语音的生成方法,通过获取待处理气导语音数据,并将待处理气导语音数据输入目标骨导语音生成模型,以生成待处理气导语音数据对应的目标骨导语音数据。由此,通过预先训练生成的目标骨导语音生成模型对气导语音数据进行处理,以生成相应的骨导语音数据,实现了通过算法生成骨导语音,从而不仅降低了骨导语音的采集难度,而且降低了骨导语音采集的时间成本和人工成本。
下面结合图3,对本申请实施例提供的骨导语音的生成方法进行进一步说明。
图3示出了本申请实施例提供的另一种骨导语音的生成方法的流程示意图。
如图3所示,该骨导语音的生成方法,包括以下步骤:
步骤301,获取待处理气导语音数据。
上述步骤301的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤302,将待处理气导语音数据输入目标骨导语音生成模型的目标编码器,对待处理气导语音数据进行N次下采样处理,以生成待处理气导语音数据对应的第一目标编码特征。
其中,N可以为大于或等于1的整数。实际使用时,可以根据实际需要及具体的应用场景,确定下采样的次数,即N的具体取值,本申请实施例对此不做限定。
其中,第一目标编码特征,可以是指目标骨导语音生成模型中的目标编码器对待处理气导语音数据进行N次下采样后生成的特征。
作为一种可能的实现方式,本申请实施例的目标骨导语音生成模型可以包括目标编码器、目标解码器及目标残差模块。其中,目标编码器用于对输入的待处理气导语音数据进行N次逐层下采样处理,以对待处理气导语音数据进行特征提取并降低待处理气导语音数据的维度,保留待处理气导语音数据中的关键特征,最终生成待处理气导语音数据对应的第一目标编码特征。
进一步的,编码器对气导语音数据的多次下采样处理,可以通过多层结构相同的下采样模块实现,并在下采样完成后对下采样后通过一个子模块对生成的特征进行进一步处理,以通过堆叠多层网络结构,对气导语音数据的关键特征进行充分提取,进一步提升骨导语音数据的生成质量和可靠性。即在本申请实施例一种可能的实现方式中,上述目标编码器中可以包含N个目标下采样模块及至少一个目标编码子模块。
作为一种示例,如图4所示,N的取值为4,即目标编码器中包含4个目标下采样模块及1个目标编码子模块,目标编码器中的各个目标下采样模块依次连接,最后一个目标下采样模块与目标编码子模块相连。目标编码器中的每个目标下采样模块依次对上一层的输出做一次下采样处理,在对输入的待处理气导语音数据进行4次下采样处理之后,再将下采样生成的特征输入目标编码子模块进行进一步的特征提取,以生成待处理气导语音数据对应的第一目标编码特征。
需要说明的是,实际使用时,可以根据实际需要及具体的应用场景确定各个目标下采样模块对应的下采样步长,以及目标编码器中包含的目标编码子模块的数量,各个目标下采样模块对应的下采样步长可以是相同的,也可以是不同的,本申请实施例对此不做限定。比如,可以将各个目标下采样模块对应的下采样步长设定为相同的值,如下采样步长为4,目标编码子模块的数量为1。
进一步的,在目标编码器中包含N个目标下采样模块及至少一个目标编码子模块时,可以按照如下处理流程,生成输入的待处理气导语音数据对应的第一目标编码特征:
将待处理气导语音数据输入第1个目标下采样模块,对待处理气导语音数据进行第1次下采样处理,以生成待处理气导语音数据对应的第1个中间编码特征;
将第i-1个中间编码特征输入第i个目标下采样模块,对待处理气导语音数据进行第i次下采样处理,以生成待处理气导语音数据对应的第i个中间编码特征,其中,i为大于1、且小于或等于N的整数;
将第i个中间编码特征输入至少一个目标编码子模块,以生成第一目标编码特征。
其中,中间编码特征,可以是指各个目标下采样模块对输入的数据进行下采样后生成的特征。比如,图4中第1个至第4个目标下采样模块输出的特征均为中间编码特征,目标编码子模块输出的特征为第一目标编码特征。
作为一种示例,如图4所示,目标编码器中共包含4个目标下采样模块及一个目标编码子模块,则在将待处理气导语音数据输入目标骨导语音生成模型之后,首先输入目标编码器中的第1个目标下采样模块,以对待处理气导语音数据进行第1次下采样处理,生成第1个中间编码特征,并将第1个中间编码特征输入第2个目标下采样模块,进行第2次下采样处理,以生成第2个中间编码特征,依次类推,直至将第3个目标下采样模块输出的第3个中间编码特征输入第4个目标下采样模块,以进行第4次下采样处理,生成并输出第4个中间编码特征,最后目标编码子模块对第4个中间编码特征进行进一步的特征提取,以生成第一目标编码特征。
进一步的,可以通过卷积的方式实现对待处理气导语音数据的下采样,并通过残差连接降低梯度在堆叠较深的网络中传递的难度,以及通过注意力机制使得模型能够更好的学习到语音的长时关联特征,以进一步提升骨导语音生成的准确性。即在本申请实施例一种可能的实现方式中,上述每个目标下采样模块中均可以包括第一残差单元、第一卷积单元及第一注意力单元。
作为一种示例,如图5所示,为本申请实施例提供的一种目标下采样模块的结构示意图,包括第一残差单元、第一卷积单元及第一注意力单元,其中,第一卷积单元可以为一维卷积神经网络,可以用于直接对语音信号进行处理,第一卷积单元的卷积步长可以大于1(如卷积步长为4),用于对输入的特征进行下采样处理,以降低输入特征的维度。比如,第一卷积单元的卷积步长维4时,输入第一卷积单元的特征经过第一卷积单元进行下采样处理之后,可以将特征的维度降低4倍。其中,第一残差单元用于实现残差连接,以降低网络堆叠较深时导致的反向传播时的梯度传递难度,更加有利于模型收敛;第一注意力单元用于对第一卷积单元处理后输出的特征进行注意力计算,以在特征提取时不仅关注待处理气导语音数据的短时特征,而且可以提取到待处理气导语音数据的长时关联特征,进一步提升骨导语音生成的准确性。
进一步的,在目标下采样模块中包含第一残差单元、第一卷积单元及第一注意力单元时,每个目标下采样模块可以按照如下处理流程,对输入的数据进行处理,以生成各个中间编码特征:
将待处理气导语音数据输入第一个目标下采样模块的第一残差单元,以生成待处理气导语音数据对应的第一个残差编码特征;
将第一个残差编码特征输入第一个目标下采样模块的第一卷积单元,对待处理气导语音数据进行第一次下采样处理,以生成待处理气导语音数据对应的第一个卷积编码特征;
将第一个卷积编码特征输入第一个目标下采样模块的第一注意力单元,进行注意力计算,以生成待处理气导语音数据对应的第1个中间编码特征;
将第i-1个中间编码特征输入第i个目标下采样模块的第一残差单元,以生成待处理气导语音数据对应的第i个残差编码特征;
将第i个残差编码特征输入第i个目标下采样模块的第一卷积单元,对待处理气导语音数据进行第i次下采样处理,以生成待处理气导语音数据对应的第i个卷积编码特征;
将第i个卷积编码特征输入第i个目标下采样模块的第一注意力单元,进行注意力计算,以生成待处理气导语音数据对应的第i个中间编码特征,其中,i为大于1、且小于或等于N的整数。
其中,残差编码特征,可以是指目标下采样模块的第一残差单元输出的特征。
其中,卷积编码特征,可以是指目标下采样模块的第一卷积单元输出的特征。
作为一种示例,对于目标编码器中的第一个目标下采样模块,其输入为待处理气导语音数据,因此可以首先将待处理气导语音数据输入第一个目标下采样模块的第一残差单元,以生成并输出第一个残差编码特征,之后将第一个残差编码特征输入第一个目标下采样模块的第一卷积单元,以对第一个残差编码特征进行下采样处理,以生成并输出第一个卷积编码特征,进而将第一个卷积编码特征输入第一个目标下采样模块的第一注意力单元,以对第一个卷积编码特征进行注意力计算,以生成并输出第1个中间编码特征,最后将第1个中间编码特征输入第2个目标下采样模块。对于其他目标下采样模块,输入均为上一层输出的中间编码特征,从而可以将上一层输出的中间编码特征依次输入自身的第一残差单元、第一卷积单元及第一注意力单元,按照与第1个目标下采样模块相同的方式生成并输出中间编码特征。
通过上述分析,对于编码器中的每层下采样模块,均包含残差单元、卷积步长大于1的卷积单元及注意力单元,从而通过残差单元降低梯度在堆叠较深的网络中传递的难度,更加有利于系统的收敛,并通过由一维卷积神经网络构成卷积单元,以实现对气导语音数据的直接处理和下采样,以及通过注意力机制使得模型能够更好的学习到语音的长时关联特征,从而使得生成的骨导语音数据更加准确。
进一步的,由于语音的长时关联对于骨导语音的生成质量十分重要,而语音数据又具有高时间分辨率的特点,序列长度较长,并且自注意力机制的运算复杂度与所处理特征序列长度的平方成正比,其所能处理的序列长度往往受限。因此,为了在模型处理过程中既充分学习语音数据的长时关联,又降低注意力机制的计算复杂度,可以通过基于滑动窗口的注意力机制实现对语音数据的长时关联的学习,以降低计算复杂度。即在本申请实施例一种可能的实现方式中,上述将第i个卷积编码特征输入第i个目标下采样模块的第一注意力单元,进行注意力计算,以生成待处理气导语音数据对应的第i个中间编码特征,包括:
将第i个卷积编码特征在时间维度上划分至多个第一窗口;
在每个第一窗口内对第i个卷积编码特征进行局部注意力计算,以生成第i个卷积编码特征对应的第一局部注意力特征;
根据预设步长在时间维度上对各个第一窗口进行滑动,以将第i个卷积编码特征在时间维度上划分至多个第二窗口,其中,预设步长小于第一窗口的窗口长度;
在每个第二窗口内对第i个卷积编码特征进行局部注意力计算,以生成第i个卷积编码特征对应的第二局部注意力特征;
根据第i个卷积编码特征对应的第一局部注意力特征及第二局部注意力特征,生成第i个中间编码特征。
作为一种示例,图6为本申请实施例提供的一种注意力计算的示意图,本申请使用基于滑动窗口的注意力机制进行注意力计算,以在充分学习语音数据的长时关联特征的同时,降低注意力机制的计算复杂度。如图6所示,假设输入第一注意力单元中的卷积编码特征为16维的数据,在划分窗口时使用的长度为4,滑动步长为2,则在第一次窗口划分时,将输入的卷积编码特征在时间维度上划分为4个第一窗口,从左至右分别为第1个至第4个第一窗口,进而对于每个第一窗口,对第一窗口内的4个维度的特征进行自注意力计算,并将各个第一窗口的自注意力计算结果进行融合,以确定第一次窗口划分对应的第一次局部注意力计算结果,即第一局部注意力特征;在第二次窗口划分时,相对于第一次窗口划分在时间维度上的滑动步长为2,并重新将输入的卷积编码特征划分为5个第二窗口,从左至右分别为第1个至第5个第二窗口,进而对于每个第二窗口,对第二窗口内的各个特征进行自注意力计算,并将各个第二窗口的自注意力计算结果进行融合,以确定第二次窗口划分对应的第二次局部注意力计算结果,即第二局部注意力特征;最后将第一局部注意力特征与第二局部注意力特征进行融合,以生成对应的中间编码特征,从而实现对输入的卷积编码特征的全局注意力计算,使得生成的中间编码特征中保留了语音数据的长时特征。
需要说明的是,如图6所示,在第一次窗口划分时,输入的卷积编码特征的第3、4维特征属于第1个第一窗口,第5、6维特征属于第2个第一窗口;而在第二次窗口划分时,输入的卷积编码特征的第3-6维特征均属于第2个第二窗口。因此,在第二次局部注意力计算时,对第3-6维特征进行了注意力计算,从而使得第一次窗口划分时,不存在信息交换的第1个和第2个第一窗口直接产生了信息交换;以此类推,通过两次局部注意力计算,可以间接使得各个相邻的窗口产生信息交换,从而提取到了待处理语音数据的长时关联特征,并且在计算注意力时,只需在窗口内进行注意力计算,计算复杂度低。
需要说明的是,上述举例仅为示例性的,不能视为对本申请的限制。实际使用时,可以根据实际需要及具体的应用场景,确定划分窗口时使用的窗口长度及滑动步长,本申请实施例对此不做限定。
进一步的,为了在模型的每一层网络结构中均通过残差连接降低梯度在堆叠较深的网络中传递的难度,以及通过注意力机制使得模型的每一层均能够更好的学习到语音的长时关联特征,还可以在目标编码器的目标编码子模块中也引入残差连接和注意力机制,以进一步提升骨导语音生成的准确性。即在本申请实施例一种可能的实现方式中,上述目标编码子模块包括第三残差单元及第三注意力单元。
需要说明的是,目标编码子模块中可以不包括卷积单元,从而目标编码子模块可以通过第三残差单元和第四注意力单元对输入的第N个中间解码特征进行进一步特征提取和注意力计算,但是并未改变输入的第N个中间编码特征的维度。从而,通过在编码器进行多层下采样之后,继续通过目标编码子模块进一步提取关键特征,并且通过残差单元及注意力单元进一步提升模型对关键特征的提取能力,从而进一步提升了特征提取的准确性,进而进一步提升了骨导语音数据生成的准确性。如图7所示,为本申请实施例提供的一种目标编码子模块的示意图。
需要说明的是,目标编码子模块中的第二注意力单元进行注意力计算的方式,与目标下采样模块中第一注意力单元的进行注意力计算的方式可以是相同的,具体的实现过程及原理可以参照上述前述步骤的详细描述,此处不再赘述。
进一步的,本申请中所提及的所有残差单元的结构可以是相同的,每个残差单元中可以包括至少一个残差块;并且每个残差块的结构也可以是相同的,每个残差块可以由归一化模块、激活函数及卷积单元组成。即在本申请实施例一种可能的实现方式中,上述第一残差单元、第三残差单元中均可以包括至少一个残差块,每个残差块中均可以包括归一化单元、激活函数单元及第二卷积单元。
作为一种可能的实现方式,归一化单元采用的归一化算法可以为组归一化算法,组归一化更加适用于小批量数据的训练,从而节省骨导语音数据生成所占用的内存;激活函数单元采用的激活函数可以为Swish激活函数,以使得模型学习到更加丰富的特征表示,使得网络更好地捕捉数据中的复杂模式,提升模型的表达能力;第二卷积单元可以为一维卷积神经网络,可以直接对语音信号进行处理,并且残差单元可以仅用于改变输入特征的通道数,而不改变输入特征在每个通道的维度,因此各个残差单元中的第二卷积单元的卷积步长可以为1,以保持输入残差单元的各个特征的维度不变。
需要说明的是,上述举例仅为示例性的,不能视为对本申请的限制。实际使用时,可以根据实际需要及具体的应用场景,确定模型中所使用的归一化算法及激活函数,本申请实施例对此不做限定。
作为一种示例,如图8所示,为本申请实施例提供的另一种目标下采样模块的示意图,其中,目标下采样模块的第一残差单元中包含1个残差块,即图中虚线框中的区域,该残差块中包括归一化单元、激活函数单元及第二卷积单元。如果需要在第一残差单元中构建多个残差块,则可以在图8中的残差连接之后继续串联一个或多个与虚线框中的残差块结构相同的残差块。比如,如果希望第一残差单元中包含2个残差块,则可以继续在残差连接之后串联一个结构相同的残差块。
需要说明的是,实际使用时,本申请实施例中各个残差单元中包含的残差块的数量可以是相同的,也可以是不同的,每个残差单元中的残差块的数量可以根据实际需要确定,本申请实施例对此不做限定。比如,本申请实施例的目标骨导语音生成模型中的各个残差单元包含的残差块的数量可以是相同的,比如每个残差单元中均包含2个结构相同的残差块。
如图9所示,为本申请实施例提供的另一种目标编码子模块的结构示意图,目标编码子模块的第三残差单元中的残差块也是由归一化单元、激活函数单元及第二卷积单元构成的。
步骤303,将第一目标编码特征输入目标骨导语音生成模型的目标解码器,对第一目标编码特征进行N次上采样处理,以生成待处理气导语音数据对应的目标解码特征。
其中,目标解码特征,可以是指目标骨导语音生成模型中的目标解码器对待处理气导语音数据对应的编码特征进行N次上采样后生成的特征。
作为一种可能的实现方式,本申请实施例的目标骨导语音生成模型可以包括目标编码器、目标解码器及目标残差模块。其中,目标解码器用于对输入的第一目标编码特征进行N次逐层上采样处理,以根据训练过程中学习到的气导语音数据与骨导语音数据之间的关联性,对第一目标编码特征进行升维,以通过第一目标编码特征生成待处理气导语音数据对应的目标骨导语音数据。
作为一种可能的实现方式,本申请实施例的目标编码器与目标解码器的网络结构可以是对称的,以使通过目标骨导语音生成模型生成的目标骨导语音数据可以与待处理气导语音数据具有相同的维度,以保证骨导语音的生成质量。
进一步的,解码器对编码器输出的编码特性的多次上采样处理,可以通过多层结构相同的上采样模块实现,并在上采样之前通过一个子模块对解码器输出的编码特征进行进一步处理,以通过堆叠多层网络结构,对气导语音数据的关键特征进行还原,以生成与气导语音数据尺寸相同的骨导语音数据,进一步提升骨导语音数据的生成质量和可靠性。即在本申请实施例一种可能的实现方式中,上述目标解码器可以包含N个目标上采样模块及至少一个目标解码子模块。
作为一种示例,如图4所示,目标编码器与目标解码器的网络结构可以是对称的,N的取值为4,即目标编码器中包含4个目标下采样模块及1个目标编码子模块,目标解码器中包含4个目标上采样模块及1个目标解码子模块,目标解码器中的各个目标上采样模块依次连接,第一个目标上采样模块与目标解码子模块相连。在目标解码器接收到目标解码器输出的第一目标编码特征后,可以首先利用目标解码子模块对第一目标编码特征进行特征解码,目标解码器中的每个目标上采样模块依次对上一层的输出做一次上采样处理,在对输入的第一目标编码特征进行4次上采样处理之后,则生成待处理气导语音数据对应的目标解码特征。
需要说明的是,实际使用时,可以根据实际需要及具体的应用场景确定各个目标上采样模块对应的下采样步长,以及目标解码器中包含的目标解码子模块的数量,各个目标上采样模块对应的上采样步长可以是相同的,也可以是不同的,本申请实施例对此不做限定。比如,在目标编码器与目标解码器的网络结构对称时,目标上采样模块对应的上采样步长可以与目标下采样模块对应的下采样步长相同,目标解码子模块的数量可以与目标编码子模块的数量相同。如图4所示,可以将各个目标下采样模块对应的下采样步长及各个目标上采样模块对应的上采样步长均设定为4,目标编码子模块与目标解码子模块的数量均为1。
作为一种示例,目标解码器可以通过线性插值的方式对输入的特征进行上采样。实际使用时,也可以根据实际需要及具体的应用场景,选取其他合适的上采样方式进行上采样,本申请实施例对此不做限定。
进一步的,在目标编码器中包含N个目标下采样模块及至少一个目标编码子模块,目标解码器中包含N个目标上采样模块及至少一个目标解码子模块时,可以按照如下处理流程,生成输入的待处理气导语音数据对应的目标解码特征。即上述步骤303,可以包括:
将第一目标编码特征输入至少一个目标解码子模块,以生成待处理气导语音数据对应的第1个中间解码特征;
将第j个中间解码特征输入第j个目标上采样模块,进行第j次上采样处理,以生成待处理气导语音数据对应的第j+1个中间解码特征,其中,目标解码特征为第N+1个中间解码特征,j为大于或等于1、且小于或等于N的整数。
其中,中间解码特征,可以是指目标解码子模块及各个目标上采样模块对输入的数据进行上采样后生成的特征。比如,图4中目标解码子模块及第1个至第3个目标上采样模块输出的特征均为中间解码特征,第4个目标上采样模块输出的特征为目标解码特征。
作为一种示例,如图4所示,目标解码器中共包含4个目标上采样模块及一个目标解码子模块,则在将第一目标编码特征输入目标解码器之后,首先输入目标解码器中的目标解码子模块,以生成第1个中间解码特征,之后将第1个中间解码特征输入第1个目标上采样模块,进行第1次上采样处理,以生成第2个中间解码特征,依次类推,直至将第3个目标上采样模块输出的第4个中间解码特征输入第4个目标上采样模块,以进行第4次上采样处理,生成并输出第5个中间编码特征,即目标解码特征。
通过上述分析,本申请实施例通过构建包括多个下采样模块及的编码器及包括多个上采样模块的编码器,以通过多个编码器中的多个下采样模块对气导语音数据进行逐层下采样处理,提取气导语音数据中的关键特征,并通过解码器中的多层上采样模块对气导语音数据的关键特征进行还原,以生成与气导语音数据尺寸相同的骨导语音数据,从而通过堆叠多层网络结构,对气导语音数据的关键特征进行充分提取,以及充分学习骨导语音数据与气导语音数据之间的关联关系,进一步提升了骨导语音数据的生成质量和可靠性。
进一步的,为了兼顾不同尺度信息的感知能力,以及为了达到兼顾语音的长时关联与短时特征的目的,编码器与解码器之间可以通过跳跃连接的方式进行连接。即在本申请实施例一种可能的实现方式中,上述将第j个中间解码特征输入第j个目标上采样模块,进行第j次上采样处理,以生成待处理气导语音数据对应的第j+1个中间解码特征,包括:
将第j个中间解码特征及第N-j+1个中间编码特征输入第j个目标上采样模块,进行第j次上采样处理,以生成待处理气导语音数据对应的第j+1个中间解码特征。
作为一种示例,如图4所示,为目标编码器与目标解码器之间跳跃连接的示意图,除了目标编码器中的目标编码子模块与目标解码器中的目标解码子模块连接之外,第1个目标上采样模块与第4个目标下采样模块连接,第2个目标上采样模块与第3个目标下采样模块连接,第3个目标上采样模块与第2个目标下采样模块连接,第4个目标上采样模块与第1个目标下采样模块连接。因此,解码器中的各个目标上采样模块除了对上一层输出的中间解码特征进行处理之外,还会对与其相连的目标下采样模块输出的中间编码特征进行处理,从而综合上一层输出的中间解码特征及其相连的目标下采样模块输出的中间编码特征,进行解码以生成中间解码特征。
因此,本申请实施例通过编码器与解码器之间的跳跃连接,使得解码器的每一层下采样模块在进行解码时,不仅需要输入编码器最终输出的编码特征以及上一层上采样模块输出的解码结果,还会输入编码器中对应层的下采样模块输出的中间编码特征,从而实现在解码时把不同维度的编码特征都送去解码器进行解码处理,以兼顾不同尺度信息的感知能力,进而达到兼顾语音的长时关联与短时特征的目的,进一步提升了骨导语音数据生成的可靠性。
需要说明的是,在目标编码器与目标解码器之间的连接方式为跳跃连接时,目标上采样模块可以将上一层输出的中间解码特征与对应的目标下采样模块输入的中间编码特征融合之后,再进行解码处理。
进一步的,通过残差连接降低梯度在堆叠较深的网络中传递的难度,以及通过注意力机制使得模型能够更好的学习到语音的长时关联特征,以进一步提升骨导语音生成的准确性。即在本申请实施例一种可能的实现方式中,上述每个目标下采样模块中均可以包括第一残差单元、第一卷积单元及第一注意力单元时,每个目标上采样模块中可以均包括第二残差单元、上采样单元及第二注意力单元,第一卷积单元的卷积步长大于1,上采样单元的上采样步长大于1。
作为一种示例,如图10所示,为本申请实施例提供的一种目标上采样模块的结构示意图,包括第二残差单元、上采样单元及第二注意力单元,其中,上采样单元可以采用线性插值方法,上采样单元的上采样步长可以大于1(如上采样步长可以为4),用于对输入的特征进行上采样处理。比如,上采样单元的上采样步长为4时,输入上采样单元的特征经过上采样单元进行上采样处理之后,可以将特征的维度增大4倍。其中,第二残差单元用于实现残差连接,以降低网络堆叠较深时导致的反向传播时的梯度传递难度,更加有利于模型收敛;第二注意力单元用于对上采样单元处理后输出的特征进行注意力计算,以在解码时不仅关注语音数据的短时特征,而且可以关注语音数据的长时关联特征,进一步提升骨导语音生成的准确性。
进一步的,在目标上采样模块中包含第二残差单元、上采样单元及第二注意力单元时,每个目标上采样模块可以按照如下处理流程,对输入的数据进行处理,以生成各个中间解码特征:
将第一目标编码特征输入至少一个目标解码子模块,以生成待处理气导语音数据对应的第1个中间解码特征;
将第j个中间解码特征输入第j个目标上采样模块的第二残差单元,以生成待处理气导语音数据对应的第j个残差解码特征;
将第j个残差解码特征输入第j个目标上采样模块的上采样单元,对待处理气导语音数据进行第j次上采样处理,以生成待处理气导语音数据对应的第j个上采样解码特征;
将第j个上采样解码特征输入第j个目标上采样模块的第二注意力单元,进行注意力计算,以生成待处理气导语音数据对应的第j+1个中间解码特征,其中,目标解码特征为第N+1个中间解码特征,j为大于或等于1、且小于或等于N的整数。
其中,残差解码特征,可以是指目标上采样模块中的第二残差单元输出的特征。
其中,上采样解码特征,可以是指目标上采样模块中的上采样单元输出的特征。
作为一种示例,对于目标解码器中的目标解码子模块,其输入为第一目标编码特征,因此可以在其对第一目标编码特征进行解码之后生成的第1个中间解码特征输入第一个目标上采样模块的第二残差单元,以生成并输出第一个残差解码特征,之后将第一个残差解码特征输入第二个目标上采样模块的上采样单元,以对第一个残差解码特征进行上采样处理,以生成并输出第一个上采样解码特征,进而将第一个上采样解码特征输入第一个目标上采样模块的第二注意力单元,以对第一个上采样解码特征进行注意力计算,以生成并输出第2个中间编码特征,最后将第2个中间编码特征输入第2个目标上采样模块。对于其他目标上采样模块,输入均为上一层输出的中间解码特征,从而可以将上一层输出的中间解码特征依次输入自身的第二残差单元、上采样单元及第二注意力单元,按照与第1个目标上采样模块相同的方式生成并输出中间解码特征。
进一步的,为了兼顾不同尺度信息的感知能力,以及为了达到兼顾语音的长时关联与短时特征的目的,编码器与解码器之间可以通过跳跃连接的方式进行连接。即在本申请实施例一种可能的实现方式中,上述将第j个中间解码特征输入第j个目标上采样模块的第二残差单元,以生成待处理气导语音数据对应的第j个残差解码特征,包括:
将第j个中间解码特征及第N-j+1个中间编码特征输入第j个目标上采样模块的第二残差单元,以生成待处理气导语音数据对应的第j个残差解码特征。
作为一种示例,如图4所示,为目标编码器与目标解码器之间跳跃连接的示意图,除了目标编码器中的目标编码子模块与目标解码器中的目标解码子模块连接之外,第1个目标上采样模块与第4个目标下采样模块连接,第2个目标上采样模块与第3个目标下采样模块连接,第3个目标上采样模块与第2个目标下采样模块连接,第4个目标上采样模块与第1个目标下采样模块连接。因此,解码器中的各个目标上采样模块除了对上一层输出的中间解码特征进行处理之外,还会对与其相连的目标下采样模块输出的中间编码特征进行处理,从而对于每个目标上采样模块中的第二残差单元的输入为上一层输出的中间解码特征及其相连的目标下采样模块输出的中间编码特征,并可以对两者进行融合后再进行解码以生成残差解码特征。
需要说明的是,目标解码器中的各个第二注意力单元所用的注意力机制也可以为基于滑动窗口的注意力机制,以在对语音数据的长时关联特征进行解码的同时,降低计算复杂度。具体的实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
进一步的,为了在模型的每一层网络结构中均通过残差连接降低梯度在堆叠较深的网络中传递的难度,以及通过注意力机制使得模型的每一层均能够更好的学习到语音的长时关联特征,还可以在目标解码器的目标解码子模块中也引入残差连接和注意力机制,以进一步提升骨导语音生成的准确性。即在本申请实施例一种可能的实现方式中,上述目标解码子模块中可以包括第四残差单元及第四注意力单元。
需要说明的是,目标解码子模块中可以不包括上采样单元,从而目标解码子模块可以通过第四残差单元和第四注意力单元对输入的第一目标编码特征进行进一步特征提取和注意力计算,但是并未改变输入的第一目标编码特征的维度。从而,通过残差单元及注意力单元进一步提升模型对关键特征的解码能力,从而进一步提升了特征解码的准确性,进而进一步提升了骨导语音数据生成的准确性。如图11所示,为本申请实施例提供的一种目标解码子模块的示意图。
需要说明的是,目标解码子模块中的第四注意力单元进行注意力计算的方式,与前述第一注意力单元、第二注意力单元及第三注意力单元的进行注意力计算的方式可以是相同的,具体的实现过程及原理可以参照上述前述步骤的详细描述,此处不再赘述。
进一步的,本申请中所提及的所有残差单元的结构可以是相同的,每个残差单元中可以包括至少一个残差块;并且每个残差块的结构也可以是相同的,每个残差块可以由归一化模块、激活函数及卷积单元组成。即在本申请实施例一种可能的实现方式中,上述第一残差单元、第二残差、第三残差单元及第四残差单元中均可以包括至少一个残差块,每个残差块中均可以包括归一化单元、激活函数单元及第二卷积单元。
作为一种可能的实现方式,归一化单元采用的归一化算法可以为组归一化算法,组归一化更加适用于小批量数据的训练,从而节省骨导语音数据生成所占用的内存;激活函数单元采用的激活函数可以为Swish激活函数,以使得模型学习到更加丰富的特征表示,使得网络更好地捕捉数据中的复杂模式,提升模型的表达能力;第二卷积单元可以为一维卷积神经网络,可以直接对语音信号进行处理,并且残差单元可以仅用于改变输入特征的通道数,而不改变输入特征在每个通道的维度,因此各个残差单元中的第二卷积单元的卷积步长可以为1,以保持输入残差单元的各个特征的维度不变。
需要说明的是,上述举例仅为示例性的,不能视为对本申请的限制。实际使用时,可以根据实际需要及具体的应用场景,确定模型中所使用的归一化算法及激活函数,本申请实施例对此不做限定。
作为一种示例,如图12所示,为本申请实施例提供的另一种目标上采样模块的示意图,其中,目标上采样模块的第二残差单元中包含1个残差块,即图中虚线框中的区域,该残差块中包括归一化单元、激活函数单元及第二卷积单元。如果需要在第一残差单元中构建多个残差块,则可以在图12中的残差连接之后继续串联一个或多个与虚线框中的残差块结构相同的残差块。比如,如果希望第二残差单元中包含2个残差块,则可以继续在残差连接之后串联一个结构相同的残差块。
需要说明的是,实际使用时,本申请实施例中各个残差单元中包含的残差块的数量可以是相同的,也可以是不同的,每个残差单元中的残差块的数量可以根据实际需要确定,本申请实施例对此不做限定。比如,本申请实施例的目标骨导语音生成模型中的各个残差单元包含的残差块的数量可以是相同的,比如每个残差单元中均包含2个结构相同的残差块。
如图13所示,为本申请实施例提供的另一种目标解码子模块的结构示意图,目标解码子模块的第四残差单元中的残差块也是由归一化单元、激活函数单元及第二卷积单元构成的。
进一步的,还可以通过在模型的编码器与解码器之间增加中间层,进一步对编码器输出的特征进行学习,以进一步提升模型对特征的表达能力,从而进一步提升骨导语音数据的生成质量和可靠性。即在本申请实施例一种可能的实现方式中,上述目标骨导语音生成模型中还可以包括目标中间层;相应的,上述步骤303之前,还可以包括:
将第一目标编码特征输入目标中间层,以生成第二目标编码特征;
相应的,上述步骤303,可以包括:
将第二目标编码特征输入目标解码器,对第二目标编码特征进行N次上采样处理,以生成待处理气导语音数据对应的目标解码特征。
作为一种可能的实现方式,为了进一步提升模型的特征表达能力,可以在目标编码器与目标解码器之间增加一个目标中间层,并通过目标中间层对目标编码器生成的第一目标编码特征进行进一步处理之后,再将生成的第二目标编码特征输入目标解码器进行解码处理。
需要说明的是,在目标编码器与目标解码器的网络结构对称时,目标中间层可以不改变第一目标编码特征的维度,即第一目标编码特征的维度与第二目标编码特征的维度相同。
作为一种可能的实现方式,在目标编码器与目标解码器之间的连接方式为跳跃连接,且目标编码器中包含目标编码子模块、目标解码器中包含目标解码子模块时,如图14所示,目标编码子模块可以与目标解码子模块跳跃连接,各个目标下采样模块与各个目标上采样模块之间的连接方式与图4中相同,此处不再赘述。
进一步的,为了进一步提升中间层的特征表达能力,中间层中可以包含多个层级,并且还可以在中间层中引入残差连接和注意力机制,进一步提升模型的特征表达能力,并引入语音数据的长时关联。即在本申请实施例一种可能的实现方式中,上述目标中间层可以包括至少一个中间处理模块,每个中间处理模块中均可以包括第五残差单元及第五注意力单元。
作为一种可能的实现方式,在目标编码器中包含目标编码子模块、目标解码器中包含目标解码子模块时,目标中间层的每层中间处理模块的网络结构可以是与目标编码子模块、目标解码子模块相同的,即中间处理模块中也是由残差单元和注意力单元构成的,如图15所示。
作为一种可能的实现方式,第五残差单元可以与前述第一残差单元、第二残差单元、第三残差单元及第三残差单元的网络结构相同,即第五残差单元也可以包含归一化单元、激活函数单元及第二卷积单元,如图16所示。
需要说明的是,第五注意力单元的计算方式可以与前述实施例中提及的各个注意力单元的计算方式相同;并且,在目标骨导语音生成模型中包含目标中间层时,目标编码器的网络结构及生成第一目标编码特征的过程,以及目标解码器的网络结构及生成目标解码特征的过程,可以均与前述实施例描述的过程相同,具体的实现过程及原理可以参照上述实施例的详细描述,此处不再赘述。
步骤304,将目标解码特征输入目标骨导语音生成模型的目标残差模块,以生成目标骨导语音数据。
在本申请实施例中,目标解码特征可以包含多个通道的特征,因此可以通过目标残差模块将包含多个通道的目标解码特征进行处理,以生成一个通道的目标骨导语音数据。
作为一种可能的实现方式,目标残差模块可以由残差单元构成,该残差单元的具体网络结构可以与前述各个残差单元的网络结构相同,此处不再赘述。并且,本申请实施例中所涉及的各个残差模块用于可以用于改变输入的特征的通道数,而不改变各个通道的特征维度。
举例来说,如图17所示,为本申请实施例提供的一种目标骨导语音生成模型的结构示意图。其中,在目标编码器中,右上之下的第1至第4层分别为第1至第4个目标下采样模块,第5层位目标编码子模块;在目标中间层中,包含由上至下包含2个中间处理模块;在目标解码器中,由上至下的第1层为目标解码子模块,第2至第5层分别为第1至第4个目标上采样模块;目标骨导语音生成模型中还包括一个目标残差模块。目标编码器与目标解码器之间的连接方式为跳跃连接;目标编码器的各个目标下采样模块中均包含残差单元、卷积单元及注意力单元,目标解码器的各个目标上采样模块中均包含残差单元、上采样单元及注意力单元;目标编码器的目标编码子模块、目标解码器的目标解码子模块及中间层的各个中间处理模块的结构相同,均包含残差单元和注意力单元。其中,Res表示残差单元,Res(X,Y )表示输入特征的通道数X、输出特征的通道数为Y的残差单元,比如,Res(32, 64 )表示该残差单元的输入特征的通道数为32,输出特征的通道数为64,即该残差单元的作用为将32个通道的特征转换为64个通道的特征;Conv表示卷积单元,Conv(s=4)表示该卷积单元的卷积步长为4;Attn表示注意力单元;Up表示上采样单元,Up (s=4)表示该上采样单元的上采样步长为4。
其中,待处理气导语音数据的维度、模型处理过程中生成的各个中间编码特征的维度、各个中间解码特征的维度、目标骨导语音数据的维度采样(X, Y)的形式表示,其中X用于表示特征的通道数,Y用于表示每个通道对应的特征维度;比如,待处理气导语音数据的维度为(1, L),则可以说明待处理气导语音数据的通道数为1,且待处理气导语音数据的序列长度为L。每个模块或层级的左侧的数据表示该模块或层级对应的输出特征的维度;比如,第1个目标下采样模块左侧的数据为(32, L/4),则说明第1个目标下采样模块输出的中间编码特征的通道数为32,每个通道对应的特征维度为L/4。
从图17可以看出,维度为(1, L) 待处理气导语音数据输入目标骨导语音生成模型之后,经过四次下采样处理后,转换为维度为(256, L/256)的中间编码特征,之后通过目标编码子模块对该中间编码特征进行进一步处理,但是不改变该中间编码特征的维度,生成维度(256, L/256)的第一目标编码特征;之后,中间层对第一目标编码特征进行进一步处理,并不改变第一目标编码特的维度,从而生成维度为(256, L/256)的第二目标编码特征;进而,将第二目标编码特征及第一目标编码特征输入目标解码器的目标解码子模块进行解码,目标解码子模块同样不改变输入特征的维度,从而生成维度为(256, L/256)中间解码特征,之后经过四次上采样处理生成维度为(32, L)的目标解码特征;最后,通过目标残差模块将维度为(32, L)的目标解码特征,转换为维度为(1, L)目标骨导语音数据。
如图18所示,为本申请实施例提供的一种待处理气导语音数据及其对应的真实骨导语音数据、目标骨导语音数据的频域对比图。其中,1801为待处理气导语音数据,1802为待处理气导语音数据1801对应的真实骨导语音数据,1803为通过本申请实施例的骨导语音生成方法生成的待处理气导语音数据1801对应的目标骨导语音数据。可见,通过本申请实施例的方法生成的目标骨导语音数据1803与真实骨导语音数据1802之间存在较高的相似性,从而验证了本申请实施例的骨导生成方法的有效性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的骨导语音的生成方法,图19示出了本申请实施例提供的骨导语音的生成装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图19,该装置1900,包括:
第一获取模块1901,用于获取待处理气导语音数据;
第一生成模块1902,用于将待处理气导语音数据输入目标骨导语音生成模型,以生成待处理气导语音数据对应的目标骨导语音数据。
在实际使用时,本申请实施例提供的骨导语音的生成装置,可以被配置在任意电子设备中,以执行前述骨导语音的生成方法。
本申请实施例提供的骨导语音的生成装置,通过获取待处理气导语音数据,并将待处理气导语音数据输入目标骨导语音生成模型,以生成待处理气导语音数据对应的目标骨导语音数据。由此,通过预先训练生成的目标骨导语音生成模型对气导语音数据进行处理,以生成相应的骨导语音数据,实现了通过算法生成骨导语音,从而不仅降低了骨导语音的采集难度,而且降低了骨导语音采集的时间成本和人工成本。
在本申请一种可能的实现方式中,上述目标骨导语音生成模型中包括目标编码器、目标解码器及目标残差模块;相应的,上述第一生成模块1902,包括:
第一下采样单元,用于将待处理气导语音数据输入目标编码器,对待处理气导语音数据进行N次下采样处理,以生成待处理气导语音数据对应的第一目标编码特征,其中,N为大于或等于1的整数;
第一上采样单元,用于将第一目标编码特征输入目标解码器,对第一目标编码特征进行N次上采样处理,以生成待处理气导语音数据对应的目标解码特征;
第一生成单元,用于将目标解码特征输入目标残差模块,以生成目标骨导语音数据。
进一步的,在本申请另一种可能的实现方式中,上述目标编码器中包含N个目标下采样模块及至少一个目标编码子模块,上述目标解码器包含N个目标上采样模块及至少一个目标解码子模块。
进一步的,在本申请再一种可能的实现方式中,上述第一下采样单元,具体用于:
将待处理气导语音数据输入第1个目标下采样模块,对待处理气导语音数据进行第1次下采样处理,以生成待处理气导语音数据对应的第1个中间编码特征;
将第i-1个中间编码特征输入第i个目标下采样模块,对待处理气导语音数据进行第i次下采样处理,以生成待处理气导语音数据对应的第i个中间编码特征,其中,i为大于1、且小于或等于N的整数;
将第i个中间编码特征输入至少一个目标编码子模块,以生成第一目标编码特征。
进一步的,在本申请又一种可能的实现方式中,上述第一上采样单元,具体用于:
将第一目标编码特征输入至少一个目标解码子模块,以生成待处理气导语音数据对应的第1个中间解码特征;
将第j个中间解码特征输入第j个目标上采样模块,进行第j次上采样处理,以生成待处理气导语音数据对应的第j+1个中间解码特征,其中,目标解码特征为第N+1个中间解码特征,j为大于或等于1、且小于或等于N的整数。
进一步的,在本申请又一种可能的实现方式中,上述目标编码器与目标解码器之间的连接方式为跳跃连接;相应的,上述第一上采样单元,还用于:
将第j个中间解码特征及第N-j+1个中间编码特征输入第j个目标上采样模块,进行第j次上采样处理,以生成待处理气导语音数据对应的第j+1个中间解码特征。
进一步的,在本申请另一种可能的实现方式中,上述每个目标下采样模块中均包括第一残差单元、第一卷积单元及第一注意力单元,每个目标上采样模块中均包括第二残差单元、上采样单元及第二注意力单元,第一卷积单元的卷积步长大于1,上采样单元的上采样步长大于1。
进一步的,在本申请再一种可能的实现方式中,上述第一下采样单元,还用于:
将待处理气导语音数据输入第一个目标下采样模块的第一残差单元,以生成待处理气导语音数据对应的第一个残差编码特征;
将第一个残差编码特征输入第一个目标下采样模块的第一卷积单元,对待处理气导语音数据进行第一次下采样处理,以生成待处理气导语音数据对应的第一个卷积编码特征;
将第一个卷积编码特征输入第一个目标下采样模块的第一注意力单元,进行注意力计算,以生成待处理气导语音数据对应的第1个中间编码特征;
将第i-1个中间编码特征输入第i个目标下采样模块的第一残差单元,以生成待处理气导语音数据对应的第i个残差编码特征;
将第i个残差编码特征输入第i个目标下采样模块的第一卷积单元,对待处理气导语音数据进行第i次下采样处理,以生成待处理气导语音数据对应的第i个卷积编码特征;
将第i个卷积编码特征输入第i个目标下采样模块的第一注意力单元,进行注意力计算,以生成待处理气导语音数据对应的第i个中间编码特征,其中,i为大于1、且小于或等于N的整数。
进一步的,在本申请又一种可能的实现方式中,上述第一下采样单元,还用于:
将第i个卷积编码特征在时间维度上划分至多个第一窗口;
在每个第一窗口内对第i个卷积编码特征进行局部注意力计算,以生成第i个卷积编码特征对应的第一局部注意力特征;
根据预设步长在时间维度上对各个第一窗口进行滑动,以将第i个卷积编码特征在时间维度上划分至多个第二窗口,其中,预设步长小于第一窗口的窗口长度;
在每个第二窗口内对第i个卷积编码特征进行局部注意力计算,以生成第i个卷积编码特征对应的第二局部注意力特征;
根据第i个卷积编码特征对应的第一局部注意力特征及第二局部注意力特征,生成第i个中间编码特征。
进一步的,在本申请又一种可能的实现方式中,上述第一上采样单元,还用于:
将第一目标编码特征输入至少一个目标解码子模块,以生成待处理气导语音数据对应的第1个中间解码特征;
将第j个中间解码特征输入第j个目标上采样模块的第二残差单元,以生成待处理气导语音数据对应的第j个残差解码特征;
将第j个残差解码特征输入第j个目标上采样模块的上采样单元,对待处理气导语音数据进行第j次上采样处理,以生成待处理气导语音数据对应的第j个上采样解码特征;
将第j个上采样解码特征输入第j个目标上采样模块的第二注意力单元,进行注意力计算,以生成待处理气导语音数据对应的第j+1个中间解码特征,其中,目标解码特征为第N+1个中间解码特征,j为大于或等于1、且小于或等于N的整数。
进一步的,在本申请另一种可能的实现方式中,上述目标编码器与目标解码器之间的连接方式为跳跃连接;相应的,上述第一上采样单元,还用于:
将第j个中间解码特征及第N-j+1个中间编码特征输入第j个目标上采样模块的第二残差单元,以生成待处理气导语音数据对应的第j个残差解码特征。
进一步的,在本申请再一种可能的实现方式中,上述目标编码子模块包括第三残差单元及第三注意力单元,上述目标解码子模块包括第四残差单元及第四注意力单元。
进一步的,在本申请又一种可能的实现方式中,上述第一残差单元、第二残差单元、第三残差单元及第四残差单元中均包括至少一个残差块,每个残差块中均包括归一化单元、激活函数单元及第二卷积单元。
进一步的,在本申请又一种可能的实现方式中,上述目标骨导语音生成模型中还包括目标中间层;相应的,上述第一生成模块1902,还包括:
第二生成单元,用于将第一目标编码特征输入目标中间层,以生成第二目标编码特征;
相应的,上述第一上采样单元,还用于:
将第二目标编码特征输入目标解码器,对第二目标编码特征进行N次上采样处理,以生成待处理气导语音数据对应的目标解码特征。
可选的,在第二方面另一种可能的实现方式中,上述目标中间层包括至少一个中间处理模块,每个中间处理模块中均包括第五残差单元及第五注意力单元。
进一步的,在本申请再一种可能的实现方式中,上述装置1900,还包括:
低通滤波模块,用于根据第一临界频率对待处理气导语音数据进行低通滤波处理;
和/或,
归一化模块,用于对待处理气导语音数据进行幅值归一化处理。
进一步的,在本申请又一种可能的实现方式中,上述目标骨导语音生成模型是通过如下方式生成的:
获取训练语音数据集,其中,训练语音数据集中包含多个训练气导语音数据及每个训练气导语音数据对应的标注骨导语音数据;
将每个训练气导语音数据依次输入初始骨导语音生成模型,以生成每个训练气导语音数据对应的预测骨导语音数据;
根据每个训练气导语音数据对应的预测骨导语音数据与标注骨导语音数据之间的差异,对初始骨导语音生成模型进行迭代训练,以生成目标骨导语音生成模型。
进一步的,在本申请又一种可能的实现方式中,上述根据每个训练气导语音数据对应的预测骨导语音数据与标注骨导语音数据之间的差异,对初始骨导语音生成模型进行迭代训练,以生成目标骨导语音生成模型,包括:
根据每个训练气导语音数据对应的预测骨导语音数据与所述标注骨导语音数据之间的差异及预设损失函数,确定初始骨导语音生成模型对应的损失值;
根据损失值对初始骨导语音生成模型的网络参数进行更新,以生成更新后的骨导语音生成模型;
将每个训练气导语音数据依次输入更新后的骨导语音生成模型,继续进行训练,直至再次更新后的骨导语音生成模型满足预设条件,则结束训练,并将最后一次更新生成的骨导语音生成模型确定为目标骨导语音生成模型。
进一步的,在本申请另一种可能的实现方式中,上述预设条件包括:再次更新后的骨导语音生成模型对应的损失值小于或等于损失值阈值,或者迭代训练次数大于迭代次数阈值。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
为了实现上述实施例,本申请还提出一种电子设备。
图20为本申请一个实施例的电子设备的结构示意图。
参见图20,电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中,传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,比如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。作为一种示例,处理器110可以用于对获取到的气骨导语音数据进行编码和解码,以生成该气导语音数据对应的骨导语音数据。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从该存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口,如可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。比如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
内部存储器121可以用于存储计算机可执行程序代码,计算机可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,来执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100在使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,比如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D以及应用处理器等实现音频功能,比如音乐播放,录音等。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
需要说明的是,本实施例的电子设备的实施过程和技术原理参见前述对本申请实施例的骨导语音的生成方法的解释说明,此处不再赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到装置/电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
在上述实施例中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件] ”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件] ”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、 “第二”、 “第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、 “在一些实施例中”、 “在其他一些实施例中”、 “在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、 “包含”、 “具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (19)
1.一种骨导语音的生成方法,其特征在于,包括:
获取待处理气导语音数据;
将所述待处理气导语音数据输入目标骨导语音生成模型,以生成所述待处理气导语音数据对应的目标骨导语音数据。
2.如权利要求1所述的方法,其特征在于,所述目标骨导语音生成模型中包括目标编码器、目标解码器及目标残差模块,所述将所述待处理气导语音数据输入目标骨导语音生成模型,以生成所述待处理气导语音数据对应的目标骨导语音数据,包括:
将所述待处理气导语音数据输入所述目标编码器,对所述待处理气导语音数据进行N次下采样处理,以生成所述待处理气导语音数据对应的第一目标编码特征,其中,N为大于或等于1的整数;
将所述第一目标编码特征输入所述目标解码器,对所述第一目标编码特征进行N次上采样处理,以生成所述待处理气导语音数据对应的目标解码特征;
将所述目标解码特征输入所述目标残差模块,以生成所述目标骨导语音数据。
3.如权利要求2所述的方法,其特征在于,所述目标编码器中包含N个目标下采样模块及至少一个目标编码子模块,所述目标解码器包含N个目标上采样模块及至少一个目标解码子模块。
4.如权利要求3所述的方法,其特征在于,所述将所述待处理气导语音数据输入所述目标编码器,对所述待处理气导语音数据进行N次下采样处理,以生成所述待处理气导语音数据对应的第一目标编码特征,包括:
将所述待处理气导语音数据输入第1个所述目标下采样模块,对所述待处理气导语音数据进行第1次下采样处理,以生成所述待处理气导语音数据对应的第1个中间编码特征;
将第i-1个所述中间编码特征输入第i个所述目标下采样模块,对所述待处理气导语音数据进行第i次下采样处理,以生成所述待处理气导语音数据对应的第i个所述中间编码特征,其中,i为大于1、且小于或等于N的整数;
将所述第i个所述中间编码特征输入至少一个所述目标编码子模块,以生成所述第一目标编码特征。
5.如权利要求4所述的方法,其特征在于,所述将所述第一目标编码特征输入所述目标解码器,对所述第一目标编码特征进行N次上采样处理,以生成所述待处理气导语音数据对应的目标解码特征,包括:
将所述第一目标编码特征输入至少一个所述目标解码子模块,以生成所述待处理气导语音数据对应的第1个中间解码特征;
将第j个所述中间解码特征输入第j个所述目标上采样模块,进行第j次上采样处理,以生成所述待处理气导语音数据对应的第j+1个所述中间解码特征,其中,所述目标解码特征为第N+1个所述中间解码特征,j为大于或等于1、且小于或等于N的整数。
6.如权利要求5所述的方法,其特征在于,所述目标编码器与所述目标解码器之间的连接方式为跳跃连接,所述将第j个所述中间解码特征输入第j个所述目标上采样模块,进行第j次上采样处理,以生成所述待处理气导语音数据对应的第j+1个所述中间解码特征,包括:
将第j个所述中间解码特征及第N-j+1个所述中间编码特征输入第j个所述目标上采样模块,进行第j次上采样处理,以生成所述待处理气导语音数据对应的第j+1个所述中间解码特征。
7.如权利要求3所述的方法,其特征在于,每个所述目标下采样模块中均包括第一残差单元、第一卷积单元及第一注意力单元,每个所述目标上采样模块中均包括第二残差单元、上采样单元及第二注意力单元,所述第一卷积单元的卷积步长大于1,所述上采样单元的上采样步长大于1。
8.如权利要求7所述的方法,其特征在于,所述将所述待处理气导语音数据输入所述目标编码器,对所述待处理气导语音数据进行N次下采样处理,以生成所述待处理气导语音数据对应的第一目标编码特征,包括:
将所述待处理气导语音数据输入第一个所述目标下采样模块的第一残差单元,以生成所述待处理气导语音数据对应的第一个残差编码特征;
将第一个所述残差编码特征输入第一个所述目标下采样模块的第一卷积单元,对所述待处理气导语音数据进行第一次下采样处理,以生成所述待处理气导语音数据对应的第一个卷积编码特征;
将第一个所述卷积编码特征输入第一个所述目标下采样模块的第一注意力单元,进行注意力计算,以生成所述待处理气导语音数据对应的第1个中间编码特征;
将第i-1个所述中间编码特征输入第i个所述目标下采样模块的第一残差单元,以生成所述待处理气导语音数据对应的第i个残差编码特征;
将第i个所述残差编码特征输入第i个所述目标下采样模块的第一卷积单元,对所述待处理气导语音数据进行第i次下采样处理,以生成所述待处理气导语音数据对应的第i个卷积编码特征;
将第i个所述卷积编码特征输入第i个所述目标下采样模块的第一注意力单元,进行注意力计算,以生成所述待处理气导语音数据对应的第i个所述中间编码特征,其中,i为大于1、且小于或等于N的整数。
9.如权利要求8所述的方法,其特征在于,所述将第i个所述卷积编码特征输入第i个所述目标下采样模块的第一注意力单元,进行注意力计算,以生成所述待处理气导语音数据对应的第i个所述中间编码特征,包括:
将第i个所述卷积编码特征在时间维度上划分至多个第一窗口;
在每个所述第一窗口内对第i个所述卷积编码特征进行局部注意力计算,以生成第i个所述卷积编码特征对应的第一局部注意力特征;
根据预设步长在时间维度上对各个所述第一窗口进行滑动,以将第i个所述卷积编码特征在时间维度上划分至多个第二窗口,其中,所述预设步长小于所述第一窗口的窗口长度;
在每个所述第二窗口内对第i个所述卷积编码特征进行局部注意力计算,以生成第i个所述卷积编码特征对应的第二局部注意力特征;
根据第i个所述卷积编码特征对应的所述第一局部注意力特征及所述第二局部注意力特征,生成所述第i个所述中间编码特征。
10.如权利要求8所述的方法,其特征在于,所述将所述第一目标编码特征输入所述目标解码器,对所述第一目标编码特征进行N次上采样处理,以生成所述待处理气导语音数据对应的目标解码特征,包括:
将所述第一目标编码特征输入至少一个所述目标解码子模块,以生成所述待处理气导语音数据对应的第1个中间解码特征;
将第j个所述中间解码特征输入第j个所述目标上采样模块的第二残差单元,以生成所述待处理气导语音数据对应的第j个残差解码特征;
将第j个所述残差解码特征输入第j个所述目标上采样模块的上采样单元,对所述待处理气导语音数据进行第j次上采样处理,以生成所述待处理气导语音数据对应的第j个上采样解码特征;
将第j个所述上采样解码特征输入第j个所述目标上采样模块的第二注意力单元,进行注意力计算,以生成所述待处理气导语音数据对应的第j+1个所述中间解码特征,其中,所述目标解码特征为第N+1个所述中间解码特征,j为大于或等于1、且小于或等于N的整数。
11.如权利要求10所述的方法,其特征在于,所述目标编码器与所述目标解码器之间的连接方式为跳跃连接,所述将第j个所述中间解码特征输入第j个所述目标上采样模块的第二残差单元,以生成所述待处理气导语音数据对应的第j个残差解码特征,包括:
将第j个所述中间解码特征及第N-j+1个所述中间编码特征输入第j个所述目标上采样模块的第二残差单元,以生成所述待处理气导语音数据对应的第j个残差解码特征。
12.如权利要求7所述的方法,其特征在于,所述目标编码子模块包括第三残差单元及第三注意力单元,所述目标解码子模块包括第四残差单元及第四注意力单元。
13.如权利要求12所述的方法,其特征在于,所述第一残差单元、所述第二残差单元、第三残差单元及第四残差单元中均包括至少一个残差块,每个所述残差块中均包括归一化单元、激活函数单元及第二卷积单元。
14.如权利要求2-13任一所述的方法,其特征在于,所述目标骨导语音生成模型中还包括目标中间层,所述将所述第一目标编码特征输入所述目标解码器,对所述第一目标编码特征进行N次上采样处理,以生成所述待处理气导语音数据对应的目标解码特征之前,还包括:
将所述第一目标编码特征输入所述目标中间层,以生成第二目标编码特征;
所述将所述第一目标编码特征输入所述目标解码器,对所述第一目标编码特征进行N次上采样处理,以生成所述待处理气导语音数据对应的目标解码特征,包括:
将所述第二目标编码特征输入所述目标解码器,对所述第二目标编码特征进行N次上采样处理,以生成所述待处理气导语音数据对应的目标解码特征。
15.如权利要求14所述的方法,其特征在于,所述目标中间层包括至少一个中间处理模块,每个所述中间处理模块中均包括第五残差单元及第五注意力单元。
16.如权利要求1-13或15任一所述的方法,其特征在于,所述将所述待处理气导语音数据输入目标骨导语音生成模型,以生成所述待处理气导语音数据对应的目标骨导语音数据之前,还包括:
根据第一临界频率对所述待处理气导语音数据进行低通滤波处理;
和/或,
对所述待处理气导语音数据进行幅值归一化处理。
17.如权利要求1-13或15任一所述的方法,其特征在于,所述目标骨导语音生成模型是通过如下方式生成的:
获取训练语音数据集,其中,所述训练语音数据集中包含多个训练气导语音数据及每个所述训练气导语音数据对应的标注骨导语音数据;
将每个所述训练气导语音数据依次输入初始骨导语音生成模型,以生成每个所述训练气导语音数据对应的预测骨导语音数据;
根据每个所述训练气导语音数据对应的所述预测骨导语音数据与所述标注骨导语音数据之间的差异,对所述初始骨导语音生成模型进行迭代训练,以生成所述目标骨导语音生成模型。
18.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时电子设备实现如权利要求1-17中任一项所述的方法。
19.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被电子设备执行时实现如权利要求1-17中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311403322.6A CN117174100B (zh) | 2023-10-27 | 2023-10-27 | 骨导语音的生成方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311403322.6A CN117174100B (zh) | 2023-10-27 | 2023-10-27 | 骨导语音的生成方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117174100A true CN117174100A (zh) | 2023-12-05 |
CN117174100B CN117174100B (zh) | 2024-04-05 |
Family
ID=88943434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311403322.6A Active CN117174100B (zh) | 2023-10-27 | 2023-10-27 | 骨导语音的生成方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117174100B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007251354A (ja) * | 2006-03-14 | 2007-09-27 | Saitama Univ | マイクロホン、音声生成方法 |
CN209642968U (zh) * | 2019-04-29 | 2019-11-15 | 上海力声特医学科技有限公司 | 骨导气导双式助听器 |
CN111954142A (zh) * | 2020-08-29 | 2020-11-17 | 深圳市韶音科技有限公司 | 一种听力辅助装置 |
CN113647119A (zh) * | 2019-01-25 | 2021-11-12 | 索诺瓦有限公司 | 用于处理音频信号的信号处理装置、系统和方法 |
US20220150627A1 (en) * | 2019-09-12 | 2022-05-12 | Shenzhen Shokz Co., Ltd. | Systems and methods for audio signal generation |
CN116156372A (zh) * | 2021-11-19 | 2023-05-23 | 深圳市韶音科技有限公司 | 声学装置及其传递函数确定方法 |
US20230308817A1 (en) * | 2022-03-25 | 2023-09-28 | Oticon A/S | Hearing system comprising a hearing aid and an external processing device |
-
2023
- 2023-10-27 CN CN202311403322.6A patent/CN117174100B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007251354A (ja) * | 2006-03-14 | 2007-09-27 | Saitama Univ | マイクロホン、音声生成方法 |
CN113647119A (zh) * | 2019-01-25 | 2021-11-12 | 索诺瓦有限公司 | 用于处理音频信号的信号处理装置、系统和方法 |
CN209642968U (zh) * | 2019-04-29 | 2019-11-15 | 上海力声特医学科技有限公司 | 骨导气导双式助听器 |
US20220150627A1 (en) * | 2019-09-12 | 2022-05-12 | Shenzhen Shokz Co., Ltd. | Systems and methods for audio signal generation |
CN111954142A (zh) * | 2020-08-29 | 2020-11-17 | 深圳市韶音科技有限公司 | 一种听力辅助装置 |
CN116156372A (zh) * | 2021-11-19 | 2023-05-23 | 深圳市韶音科技有限公司 | 声学装置及其传递函数确定方法 |
US20230308817A1 (en) * | 2022-03-25 | 2023-09-28 | Oticon A/S | Hearing system comprising a hearing aid and an external processing device |
Also Published As
Publication number | Publication date |
---|---|
CN117174100B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
CN111243620B (zh) | 语音分离模型训练方法、装置、存储介质和计算机设备 | |
CN107680611B (zh) | 基于卷积神经网络的单通道声音分离方法 | |
CN106409310B (zh) | 一种音频信号分类方法和装置 | |
CN112185352B (zh) | 语音识别方法、装置及电子设备 | |
CN111357051B (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
CN112420079B (zh) | 语音端点检测方法和装置、存储介质及电子设备 | |
CN110827808A (zh) | 语音识别方法、装置、电子设备和计算机可读存储介质 | |
CN115035907B (zh) | 一种目标说话人分离系统、设备及存储介质 | |
CN115116458B (zh) | 语音数据转换方法、装置、计算机设备及存储介质 | |
CN117174105A (zh) | 一种基于改进型深度卷积网络的语音降噪与去混响方法 | |
CN114067824A (zh) | 一种融合超声波信号特征的语音增强方法及系统 | |
CN113823296A (zh) | 语音数据处理方法、装置、计算机设备及存储介质 | |
CN115223244A (zh) | 触觉动作仿真方法、装置、设备和存储介质 | |
CN116913258B (zh) | 语音信号识别方法、装置、电子设备和计算机可读介质 | |
CN117174100B (zh) | 骨导语音的生成方法、电子设备及存储介质 | |
CN117476031A (zh) | 一种噪声环境下耳机通话语音增强方法及系统 | |
Sui et al. | TRAMBA: A Hybrid Transformer and Mamba Architecture for Practical Audio and Bone Conduction Speech Super Resolution and Enhancement on Mobile and Wearable Platforms | |
CN117116289A (zh) | 病区医护对讲管理系统及其方法 | |
CN112331204A (zh) | 智能语音识别方法及设备、装置和存储介质 | |
CN116259334A (zh) | 语音情绪模型的训练方法、表情驱动方法、电子设备及介质 | |
CN114495909B (zh) | 一种端到端的骨气导语音联合识别方法 | |
CN117063229A (zh) | 交互语音信号处理方法、相关设备及系统 | |
CN113380231B (zh) | 一种语音转换的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |