CN116994564A - 一种语音数据的处理方法及处理装置 - Google Patents

一种语音数据的处理方法及处理装置 Download PDF

Info

Publication number
CN116994564A
CN116994564A CN202311245331.7A CN202311245331A CN116994564A CN 116994564 A CN116994564 A CN 116994564A CN 202311245331 A CN202311245331 A CN 202311245331A CN 116994564 A CN116994564 A CN 116994564A
Authority
CN
China
Prior art keywords
module
sub
voice data
processing result
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311245331.7A
Other languages
English (en)
Other versions
CN116994564B (zh
Inventor
韦伟才
邓海蛟
马健莹
潘晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Longxinwei Semiconductor Technology Co ltd
Original Assignee
Shenzhen Longxinwei Semiconductor Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Longxinwei Semiconductor Technology Co ltd filed Critical Shenzhen Longxinwei Semiconductor Technology Co ltd
Priority to CN202311245331.7A priority Critical patent/CN116994564B/zh
Publication of CN116994564A publication Critical patent/CN116994564A/zh
Application granted granted Critical
Publication of CN116994564B publication Critical patent/CN116994564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明适用于语音处理的技术领域,提供了一种语音数据的处理方法及处理装置,所述处理方法包括:将多个待处理语音数据进行预处理和子带分解,得到子带频谱;将所述子带频谱输入编码模块,得到第一特征数据;将所述第一特征数据输入自注意力模块,得到由所述自注意力模块输出的第一处理结果;将所述第三处理结果进行短时傅里叶变换,得到第四处理结果;将所述第三处理结果和所述第四处理结果进行点乘运算,得到增益结果;将所述增益结果进行逆短时傅里叶变换、加窗以及信号重构,得到语音增强结果,并基于所述语音增强结果进行语音识别。增强后的语音信号可能更清晰、可辨认度更高,提高了语音识别的准确性和性能。

Description

一种语音数据的处理方法及处理装置
技术领域
本发明属于语音处理的技术领域,尤其涉及一种语音数据的处理方法及处理装置。
背景技术
语音识别和语音处理技术正在不断进步,但仍存在一些困难。当前语音数据处理方法在高噪声环境下的准确性有限,而且对于口音、说话速度和语言表达方式的变化非常敏感。此外,在资源受限或网络不稳定的环境中,现有的语音处理方法通常面临性能退化的挑战,这限制了其广泛应用领域。
近年来,深度神经网络(DNN)已被应用于降噪和去混响任务中,并取得了显著的效果。基于深度学习的方法能够通过大规模数据集的训练来捕捉语音信号的显著特征,同时保留语音细节。这包括使用卷积神经网络(CNN)、循环神经网络(RNN)和变分自编码器(VAE)等。这些方法在降噪和去混响任务上展现出了较好的性能,但仍然存在一些挑战,如处理长时延迟和不完美的复杂场景效果等问题。
但是,目前深度学习算法对于语音数据处理的处理精度偏低,这是一个亟需解决的技术问题。
发明内容
有鉴于此,本发明实施例提供了一种语音数据的处理方法、处理装置、终端设备以及计算机可读存储介质,以解决目前深度学习算法对于语音数据处理的处理精度偏低的技术问题。
本发明实施例的第一方面提供了一种语音数据的处理方法,所述处理方法包括:
将多个待处理语音数据进行预处理和子带分解,得到子带频谱;
将所述子带频谱输入编码模块,得到第一特征数据;
将所述第一特征数据输入自注意力模块,得到由所述自注意力模块输出的第一处理结果;
将所述第一处理结果输入解码模块,得到由所述解码模块输出的第二处理结果;
将所述第二处理结果输入卷积层,得到由所述卷积层输出的第三处理结果;
将所述第三处理结果进行短时傅里叶变换,得到第四处理结果;
将所述第三处理结果和所述第四处理结果进行点乘运算,得到增益结果;
将所述增益结果进行逆短时傅里叶变换、加窗以及信号重构,得到语音增强结果,并基于所述语音增强结果进行语音识别;
其中,所述编码模块的输出与所述自注意力模块的输出拼接得到所述解码模块的输入,所述解码模块中第二子模块的输入由所述解码模块的第一子模块和编码模块中第二个子模块的输出拼接组成,所述解码模块中第三子模块的输入由所述解码模块的第二子模块和编码模块中第一个子模块的输出拼接组成,所述卷积层的输入为所述解码模块的输出。
进一步地,所述将多个待处理语音数据进行预处理和子带分解,得到子带频谱的步骤,包括:
将多个待处理语音数据进行滤波处理,得到多个第一语音数据;
将多个所述第一语音数据进行混响卷积,得到多个第二语音数据;
将多个所述第二语音数据进行噪声混合处理,得到多个第三语音数据;
将多个所述第三语音数据进行短时傅里叶变换,并进行子带分解,得到所述子带频谱。
进一步地,所述将多个所述第三语音数据进行短时傅里叶变换,并进行子带分解,得到子带频谱的步骤,包括:
对所述第三语音数据进行预加重处理,得到第四语音数据;
将所述第四语音数据进行分帧加窗和短时傅里叶变换,得到第五语音数据;
将所述第五语音数据进行子带分解,并转换为预设数据格式,得到所述子带频谱。
进一步地,所述编码模块包括多个第一卷积模块,所述第一卷积模块包括依次连接的卷积层、批量归一化层和激活层;多个所述第一卷积模块之间通过最大池化层连接。
进一步地,所述将所述第一特征数据输入自注意力模块,得到由所述自注意力模块输出的第一处理结果的步骤,包括:
所述自注意力模块通过三种预设的线性变换矩阵,将所述第一特征数据中每一位置上的特征向量映射至查询向量、键向量和值向量上;
所述自注意力模块将所述查询向量和所述键向量代入如下公式一,得到注意力得分;
其中,a i 表示所述注意力得分,Q表示 所述查询向量,K表示所述键向量,为所述键向量的维度,为所述查询向量的维度,预训练权重矩阵,tanh()表示双曲正切函数;
将所述值向量和所述注意力得分代入如下公式二,得到所述第一处理结果;
其中,c i 表示所述第一处理结果,a i 表示所述注意力得分,v j 表示第j个所述值向量,j表示所述值向量的数量。
进一步地,在所述将多个待处理语音数据进行滤波处理,得到多个第一语音数据的步骤之前,还包括:
样本语音数据经过编码模块、自注意力模块和解码模块处理,得到样本处理结果;
根据所述样本处理结果和标准处理结果计算对数均方误差和多分辨率短时傅里叶变换误差;
根据所述对数均方误差和所述多分辨率短时傅里叶变换误差,调整所述编码模块、所述自注意力模块和所述解码模块的参数,得到训练后的编码模块、自注意力模块和解码模块。
进一步地,所述根据所述样本处理结果和标准处理结果计算对数均方误差和多分辨率短时傅里叶变换误差的步骤,包括:
基于样本处理结果和标准处理结果各自对应的频谱图的实部和虚部计算所述对数均方误差;
通过如下公式三计算频谱收敛性损失和对数STFT幅度损失;
其中,表示所述频谱收敛性损失,/>表示所述对数STFT幅度损失,/>和/>分别表示Frobenius范数和L1范数,/>表示STFT幅度,N表示幅度中的元素数量。
本发明实施例的第二方面提供了一种语音数据的处理装置,包括:
分解单元,用于将多个待处理语音数据进行预处理和子带分解,得到子带频谱;
第一处理单元,用于将所述子带频谱输入编码模块,得到第一特征数据;
第二处理单元,用于将所述第一特征数据输入自注意力模块,得到由所述自注意力模块输出的第一处理结果;
第三处理单元,用于将所述第一处理结果输入解码模块,得到由所述解码模块输出的第二处理结果;
第四处理单元,用于将所述第二处理结果输入卷积层,得到由所述卷积层输出的第三处理结果;
变换单元,用于将所述第三处理结果进行短时傅里叶变换,得到第四处理结果;
运算单元,用于将所述第三处理结果和所述第四处理结果进行点乘运算,得到增益结果;
第五处理单元,用于将所述增益结果进行逆短时傅里叶变换、加窗以及信号重构,得到语音增强结果,并基于所述语音增强结果进行语音识别;
其中,所述编码模块的输出与所述自注意力模块的输出拼接得到所述解码模块的输入,所述解码模块中第二子模块的输入由所述解码模块的第一子模块和编码模块中第二个子模块的输出拼接组成,所述解码模块中第三子模块的输入由所述解码模块的第二子模块和编码模块中第一个子模块的输出拼接组成,所述卷积层的输入为所述解码模块的输出。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明通过对待处理的多个语音数据进行预处理和子带分解,可以将语音信号分解为不同频率范围的子带频谱。将子带频谱输入编码模块,通过编码生成第一特征数据。这里使用了自注意力模块,它有助于模型学习到不同子带频谱之间的关联和权重信息。将第一特征数据输入解码模块,通过解码过程得到第二处理结果。解码模块由多个子模块组成,其中第一个子模块与编码模块的第二个子模块的输出拼接,而第二子模块与编码模块的第一个子模块的输出拼接,这种连接方式可能有助于引入更丰富的上下文关系。第二处理结果经过卷积层,得到第三处理结果。卷积层可以进一步提取特征,帮助模型捕捉语音信号中的局部信息。第三处理结果进行短时傅里叶变换,得到第四处理结果。这个过程可能用于将信号从时间域转换到频域,进一步分析语音信号的频谱特性。通过点乘运算将第三处理结果和第四处理结果进行计算,得到增益结果,以调整频谱的增强或衰减以改善语音质量。将增益结果进行逆短时傅里叶变换,并通过加窗和信号重构来还原语音增强结果。将增益应用于频率域的信号,以恢复增强后的语音信号。基于语音增强结果进行语音识别。增强后的语音信号可能更清晰、可辨认度更高,提高了语音识别的准确性和性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了本发明提供的一种语音数据的处理方法的示意性流程图;
图2示出了本发明一实施例提供的一种语音数据的处理装置的示意图;
图3示出了本发明一实施例提供的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
本发明实施例提供了一种语音数据的处理方法、处理装置、终端设备以及计算机可读存储介质,以解决目前深度学习算法对于语音数据处理的处理精度偏低的技术问题。
首先,本发明提供了一种语音数据的处理方法。请参见图1,图1示出了本发明提供的一种语音数据的处理方法的示意性流程图。如图1所示,该语音数据的处理方法可以包括如下步骤:
步骤101:将多个待处理语音数据进行预处理和子带分解,得到子带频谱;
为了对进一步提升降噪效果提升模型的泛化能力,需要对语音进行的预处理,具体处理逻辑如下:
具体地,步骤101具体包括步骤1011至步骤1014:
步骤1011:将多个待处理语音数据进行滤波处理,得到多个第一语音数据;
数字滤波FIR对纯净语音进行初步处理,通过对输入信号进行线性加权的方式来进行滤波,从而改变输入信号的频率响应,并实现一定程度上的陷波、通带增益等信号处理操作。具体而言,FIR数字滤波器将一组离散时间序列数据作为输入,通过一组预先设计好的滤波器系数进行卷积运算得到输出序列,对于不同采样率的语音数据系数会有区别,从而实现对输入信号的滤波作用。可以滤除输入信号中的噪声和干扰信号,从而提高信号质量和精度,可以调整输出信号的频率响应曲线,使其更加符合要求的目标特征,也可以改变信号形态。
步骤1012:将多个所述第三语音数据进行短时傅里叶变换,并进行子带分解,得到所述子带频谱。
具体地,步骤1014具体包括步骤A1至步骤A3:
步骤A1:对所述第三语音数据进行预加重处理,得到第四语音数据;
步骤A2:将所述第四语音数据进行分帧加窗和短时傅里叶变换,得到第五语音数据;
步骤A3:将所述第五语音数据进行子带分解,并转换为预设数据格式,得到所述子带频谱。
沿频率轴的滑动窗口将全波段频谱图分割成子带频谱,其带宽为滑动窗口的大小,相邻波段重叠50%。提取出实值和虚值并组合在一起作为编码模块。
其中,在子带分解后,提取出实数和虚数部分,并将它们组合在一起的目的是为了保留频谱信息的相位信息。在语音信号处理中,频谱可以表示为振幅谱和相位谱。振幅谱反映了不同频率成分的能量或强度,而相位谱表示了这些频率成分之间的相对相位关系。通过将子带分解后的频谱图分解为实数和虚数部分,并将它们组合在一起,可以同时保留振幅和相位信息。这对于某些任务(例如语音增强或语音分离)非常重要,因为相位信息在恢复原始语音信号时起着关键作用。利用实数和虚数部分的组合形成了复数谱,进一步在后续的处理过程中可以还原到时域得到重建的语音信号。因此,提取实数和虚数部分并将它们组合在一起,有助于在后续步骤中更好地处理、分析或改善语音信号。
步骤102:将所述子带频谱输入编码模块,得到第一特征数据;
具体地,编码模块包括多个第一卷积模块,所述第一卷积模块包括依次连接的卷积层、批量归一化层和激活层;多个所述第一卷积模块之间通过最大池化层连接。
其中,编码网络由三个子模块组成。第一个子模块卷积层的卷积核大小为(1,3),步长为(1,2),卷积核数量为128。卷积层连接批量归一化层,起到加速训练,提高模型泛化能力并具有一定的正则化效果。然后连接PReLu激活层,它相对ReLu具有更强的泛化能力,更好的稀疏性以及参数共享能力,然后,再连接一样参数的卷积层,接着同样是连接归一化层以及激活层。这样,便完成了第一个子模块的构建。接着,连接最大池化层(Maxpooling),然后,再连接第二个子模块,第二个子模块拥有与第一个子模块一样的结构,区别在于卷积层参数的不同,其卷积的核使用大小为(1,3),步长为(1,2),卷积核数量为64。同样,通过最大池化层之后与第三个子模块连接,它的卷积的核使用大小为(1,3),步长为(1,2),卷积核数量为32。上述便是编码模块的完整结构,通过它来完成特征提取。
步骤103:将所述第一特征数据输入自注意力模块,得到由所述自注意力模块输出的第一处理结果;
具体地,所述自注意力模块通过三种预设的线性变换矩阵,将所述第一特征数据中每一位置上的特征向量映射至查询向量、键向量和值向量上;
所述自注意力模块将所述查询向量和所述键向量代入如下公式一,得到注意力得分;
其中,a i 表示所述注意力得分,Q表示所述查询向量,K表示所述键向量,为所述 键向量的维度,为所述查询向量的维度,预训练权重矩阵,tanh()表示双曲正 切函数;
值得注意的是,注意力得分的计算公式引入了非线性,使得注意力机制可以更好地捕捉查询向量和键向量之间的复杂模式和非线性关系。使用可训练矩阵提供了灵活性,允许注意力机制根据任务的具体要求进行学习和适应。
将所述值向量和所述注意力得分代入如下公式二,得到所述第一处理结果;
其中,c i 表示所述第一处理结果,a i 表示所述注意力得分,v j 表示第j个所述值向量,j表示所述值向量的数量。
步骤104:将所述第一处理结果输入解码模块,得到由所述解码模块输出的第二处理结果;
解码模块拥有与编码网络类似的结构,同样是由三个子模块组成,每个子模块之间使用上采样层进行连接,从下到上,每个子模块都有两个小模块,每个小模块都一样分别由卷积层、归一化层以及激活层组成。第一个子模块中卷积的核使用大小为(1,3),步长为(1,2),卷积核数量为32。第二个子模块中卷积的核使用大小为(1,3),步长为(1,2),卷积核数量为64。第三个子模块中卷积的核使用大小为(1,3),步长为(1,2),卷积核数量为128。每个子模块之间使用上采样层进行连接。其中,每个子模块的输入由其上一层的输出与对应的编码模块子模块的输出进行拼接组成。
步骤105:将所述第二处理结果输入卷积层,得到由所述卷积层输出的第三处理结果;
步骤106:将所述第三处理结果进行短时傅里叶变换,得到第四处理结果;
步骤107:将所述第三处理结果和所述第四处理结果进行点乘运算,得到增益结果;
步骤108:将所述增益结果进行逆短时傅里叶变换、加窗以及信号重构,得到语音增强结果,并基于所述语音增强结果进行语音识别。其中,所述编码模块的输出与所述自注意力模块的输出拼接得到所述解码模块的输入,所述解码模块中第二子模块的输入由所述解码模块的第一子模块和编码模块中第二个子模块的输出拼接组成,所述解码模块中第三子模块的输入由所述解码模块的第二子模块和编码模块中第一个子模块的输出拼接组成,所述卷积层的输入为所述解码模块的输出。
可选地,在步骤101之前,还包括步骤109至步骤111:
步骤109:样本语音数据经过编码模块、自注意力模块和解码模块处理,得到样本处理结果;
步骤110:根据所述样本处理结果和标准处理结果计算对数均方误差和多分辨率短时傅里叶变换误差;
基于样本处理结果和标准处理结果各自对应的频谱图的实部和虚部计算所述对数均方误差;
通过如下公式三计算频谱收敛性损失和对数STFT幅度损失;
其中,表示所述频谱收敛性损失,/>表示所述对数STFT幅度损失,/>和/>分别表示Frobenius范数和L1范数,/>表示STFT幅度,N表示幅度中的元素数量。
步骤111:根据所述对数均方误差和所述多分辨率短时傅里叶变换误差,调整所述编码模块、所述自注意力模块和所述解码模块的参数,得到训练后的编码模块、自注意力模块和解码模块。
根据对数均方误差和多分辨率短时傅里叶变换误差对编码模块、自注意力模块和解码模块反向传播,调整模块参数,具体过程如下:
A:解码模块的编码器的反向传播逻辑为:计算出第一层特征图的梯度。而后,在反向传播的过程中,不仅需要/>传回第一层特征图的输入x,还需要将其传回与之对应的解码器中的特征图。假定当前处理的编码器中的第k层,其输出为/>,同时它在前向传播时与解码器中的第k层相连接,连接处的特征图为/>。则该层的梯度可以表示为:
其中,表示矩阵对应位置的乘积,up表示上采样操作,ReLU表示修正线性单元函数,/>表示该层的掩膜(mask),用于剔除无效区域的梯度,/>表示L2正则化项的梯度。
B:解码模块反向传播:将传回到解码器中的第一层特征图/>。接着计算第一层特征图的梯度/>,具体形式为:
其中,ReLU函数作用于掩膜m(y1)以剔除无效区域的梯度,*表示矩阵对应位置的乘积。接下来,利用依次计算解码器中其它层的梯度。假设当前处理的是第k层特征图/>,它在前向传播时与编码器的第k层连接,连接处的特征图为/>。则该层的梯度可以表示为:
其中,up表示上采样操作,表示L2正则化项的梯度。最后,根据计算得到的梯度,利用随机梯度下降算法(SGD)来更新网络参数。具有来说,每个卷积层的权重W和偏置b,可以按照如下方式进行更新:
其中是学习率,/>和/>分别表示损失函数对权重和偏置的导数。
C:自注意力模块的反向传播:首先,假设输入张量 x 的形状为(B,C,H,W),其中B为batch_size,C表示通道数,H和W分别表示高度和宽度,对每个张量进行注意力计算:
其中,,/>和/>分别表示通过x得到的三个矩阵,/>表示使用点积注意力计算时注意力头数目,假设为/>。由于在轴向自注意力计算中,不同轴的注意力操作是独立的,因此可以对不同轴的注意力计算进行分离。接下来,计算损失函数L对每个参数的梯度。根据链式法则,对于/>,通过如下公式得到:
其中,表示将上一层传递下来的梯度/>重构成与x相同的形状,并对应带每个子张量/>的位置。接着,需要计算注意力矩阵/>对/>,/>和/>的梯度,即:
最后,将所有子张量的梯度加起来,即可得到输入张量x的梯度。由于在轴向自注意力计算中,不同轴之间的计算是独立的,因此轴向自注意力机制的反向传播可以高效地实现。
S204、经过多次迭代训练或者满足训练条件后输出最终的模型文件,通过不断地进行前向传播、梯度更新和反向传播,U-Net网络将不断更新优化权重参数,提高其在训练数据上的表达能力。
在本实施例中,通过对待处理的多个语音数据进行预处理和子带分解,可以将语音信号分解为不同频率范围的子带频谱。将子带频谱输入编码模块,通过编码生成第一特征数据。这里使用了自注意力模块,它有助于模型学习到不同子带频谱之间的关联和权重信息。将第一特征数据输入解码模块,通过解码过程得到第二处理结果。解码模块由多个子模块组成,其中第一个子模块与编码模块的第二个子模块的输出拼接,而第二子模块与编码模块的第一个子模块的输出拼接,这种连接方式可能有助于引入更丰富的上下文关系。第二处理结果经过卷积层,得到第三处理结果。卷积层可以进一步提取特征,帮助模型捕捉语音信号中的局部信息。第三处理结果进行短时傅里叶变换,得到第四处理结果。这个过程可能用于将信号从时间域转换到频域,进一步分析语音信号的频谱特性。通过点乘运算将第三处理结果和第四处理结果进行计算,得到增益结果,以调整频谱的增强或衰减以改善语音质量。将增益结果进行逆短时傅里叶变换,并通过加窗和信号重构来还原语音增强结果。将增益应用于频率域的信号,以恢复增强后的语音信号。基于语音增强结果进行语音识别。增强后的语音信号可能更清晰、可辨认度更高,提高了语音识别的准确性和性能。
如图2本发明提供了一种语音数据的处理装置2,请参见图2,图2示出了本发明提供的一种语音数据的处理装置的示意图,如图2所示一种语音数据的处理装置包括:
分解单元21,用于将多个待处理语音数据进行预处理和子带分解,得到子带频谱;
第一处理单元22,用于将所述子带频谱输入编码模块,得到第一特征数据;
第二处理单元23,用于将所述第一特征数据输入自注意力模块,得到由所述自注意力模块输出的第一处理结果;
第三处理单元24,用于将所述第一处理结果输入解码模块,得到由所述解码模块输出的第二处理结果;
第四处理单元25,用于将所述第二处理结果输入卷积层,得到由所述卷积层输出的第三处理结果;
变换单元26,用于将所述第三处理结果进行短时傅里叶变换,得到第四处理结果;
运算单元27,用于将所述第三处理结果和所述第四处理结果进行点乘运算,得到增益结果;
第五处理单元28,用于将所述增益结果进行逆短时傅里叶变换、加窗以及信号重构,得到语音增强结果,并基于所述语音增强结果进行语音识别;
其中,所述编码模块的输出与所述自注意力模块的输出拼接得到所述解码模块的输入,所述解码模块中第二子模块的输入由所述解码模块的第一子模块和编码模块中第二个子模块的输出拼接组成,所述解码模块中第三子模块的输入由所述解码模块的第二子模块和编码模块中第一个子模块的输出拼接组成,所述卷积层的输入为所述解码模块的输出。
本发明提供的一种语音数据的处理装置,通过对待处理的多个语音数据进行预处理和子带分解,可以将语音信号分解为不同频率范围的子带频谱。将子带频谱输入编码模块,通过编码生成第一特征数据。这里使用了自注意力模块,它有助于模型学习到不同子带频谱之间的关联和权重信息。将第一特征数据输入解码模块,通过解码过程得到第二处理结果。解码模块由多个子模块组成,其中第一个子模块与编码模块的第二个子模块的输出拼接,而第二子模块与编码模块的第一个子模块的输出拼接,这种连接方式可能有助于引入更丰富的上下文关系。第二处理结果经过卷积层,得到第三处理结果。卷积层可以进一步提取特征,帮助模型捕捉语音信号中的局部信息。第三处理结果进行短时傅里叶变换,得到第四处理结果。这个过程可能用于将信号从时间域转换到频域,进一步分析语音信号的频谱特性。通过点乘运算将第三处理结果和第四处理结果进行计算,得到增益结果,以调整频谱的增强或衰减以改善语音质量。将增益结果进行逆短时傅里叶变换,并通过加窗和信号重构来还原语音增强结果。将增益应用于频率域的信号,以恢复增强后的语音信号。基于语音增强结果进行语音识别。增强后的语音信号可能更清晰、可辨认度更高,提高了语音识别的准确性和性能。
图3是本发明一实施例提供的一种终端设备的示意图。如图3所示,该实施例的一种终端设备3包括:处理器30、存储器31以及存储在所述存储器31中并可在所述处理器30上运行的计算机程序32,例如一种语音数据的处理的程序。所述处理器30执行所述计算机程序32时实现上述各个一种语音数据的处理方法实施例中的步骤,例如图1所示的步骤101至步骤108。或者,所述处理器30执行所述计算机程序32时实现上述各装置实施例中各单元的功能,例如图2所示单元21至28的功能。
示例性的,所述计算机程序32可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器31中,并由所述处理器30执行,以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序32在所述一种终端设备3中的执行过程。例如,所述计算机程序32可以被分割成各单元的具体功能如下:
分解单元,用于将多个待处理语音数据进行预处理和子带分解,得到子带频谱;
第一处理单元,用于将所述子带频谱输入编码模块,得到第一特征数据;
第二处理单元,用于将所述第一特征数据输入自注意力模块,得到由所述自注意力模块输出的第一处理结果;
第三处理单元,用于将所述第一处理结果输入解码模块,得到由所述解码模块输出的第二处理结果;
第四处理单元,用于将所述第二处理结果输入卷积层,得到由所述卷积层输出的第三处理结果;
变换单元,用于将所述第三处理结果进行短时傅里叶变换,得到第四处理结果;
运算单元,用于将所述第三处理结果和所述第四处理结果进行点乘运算,得到增益结果;
第五处理单元,用于将所述增益结果进行逆短时傅里叶变换、加窗以及信号重构,得到语音增强结果,并基于所述语音增强结果进行语音识别;
其中,所述编码模块的输出与所述自注意力模块的输出拼接得到所述解码模块的输入,所述解码模块中第二子模块的输入由所述解码模块的第一子模块和编码模块中第二个子模块的输出拼接组成,所述解码模块中第三子模块的输入由所述解码模块的第二子模块和编码模块中第一个子模块的输出拼接组成,所述卷积层的输入为所述解码模块的输出。
所述终端设备中包括但不限于处理器30和存储器31。本领域技术人员可以理解,图3仅仅是一种终端设备3的示例,并不构成对一种终端设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种终端设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器30可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器31可以是所述一种终端设备3的内部存储单元,例如一种终端设备3的硬盘或内存。所述存储器31也可以是所述一种终端设备3的外部存储设备,例如所述一种终端设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器31还可以既包括所述一种终端设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储所述计算机程序以及所述一种漫游控制设备所需的其他程序和数据。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,既将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本发明实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。
应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于监测到”。类似地,短语“如果确定”或“如果监测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦监测到[所描述条件或事件]”或“响应于监测到[所描述条件或事件]”。
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音数据的处理方法,其特征在于,所述处理方法包括:
将多个待处理语音数据进行预处理和子带分解,得到子带频谱;
将所述子带频谱输入编码模块,得到第一特征数据;
将所述第一特征数据输入自注意力模块,得到由所述自注意力模块输出的第一处理结果;
将所述第一处理结果输入解码模块,得到由所述解码模块输出的第二处理结果;
将所述第二处理结果输入卷积层,得到由所述卷积层输出的第三处理结果;
将所述第三处理结果进行短时傅里叶变换,得到第四处理结果;
将所述第三处理结果和所述第四处理结果进行点乘运算,得到增益结果;
将所述增益结果进行逆短时傅里叶变换、加窗以及信号重构,得到语音增强结果,并基于所述语音增强结果进行语音识别;
其中,所述编码模块的输出与所述自注意力模块的输出拼接得到所述解码模块的输入,所述解码模块中第二子模块的输入由所述解码模块的第一子模块和编码模块中第二个子模块的输出拼接组成,所述解码模块中第三子模块的输入由所述解码模块的第二子模块和编码模块中第一个子模块的输出拼接组成,所述卷积层的输入为所述解码模块的输出。
2.如权利要求1所述的语音数据的处理方法,其特征在于,所述将多个待处理语音数据进行预处理和子带分解,得到子带频谱的步骤,包括:
将多个待处理语音数据进行滤波处理,得到多个第一语音数据;
将多个所述第一语音数据进行混响卷积,得到多个第二语音数据;
将多个所述第二语音数据进行噪声混合处理,得到多个第三语音数据;
将多个所述第三语音数据进行短时傅里叶变换,并进行子带分解,得到所述子带频谱。
3.如权利要求2所述的语音数据的处理方法,其特征在于,所述将多个所述第三语音数据进行短时傅里叶变换,并进行子带分解,得到子带频谱的步骤,包括:
对所述第三语音数据进行预加重处理,得到第四语音数据;
将所述第四语音数据进行分帧加窗和短时傅里叶变换,得到第五语音数据;
将所述第五语音数据进行子带分解,并转换为预设数据格式,得到所述子带频谱。
4.如权利要求1所述的语音数据的处理方法,其特征在于,所述编码模块包括多个第一卷积模块,所述第一卷积模块包括依次连接的卷积层、批量归一化层和激活层;多个所述第一卷积模块之间通过最大池化层连接。
5.如权利要求1所述的语音数据的处理方法,其特征在于,所述将所述第一特征数据输入自注意力模块,得到由所述自注意力模块输出的第一处理结果的步骤,包括:
所述自注意力模块通过三种预设的线性变换矩阵,将所述第一特征数据中每一位置上的特征向量映射至查询向量、键向量和值向量上;
所述自注意力模块将所述查询向量和所述键向量代入如下公式一,得到注意力得分;
其中,a i 表示所述注意力得分,Q表示所述查询向量,K表示所述键向量,/>为所述键向量的维度,/>为所述查询向量的维度,/>和/>预训练权重矩阵,tanh()表示双曲正切函数;
将所述值向量和所述注意力得分代入如下公式二,得到所述第一处理结果;
其中,c i 表示所述第一处理结果,a i 表示所述注意力得分,v j 表示第j个所述值向量,j表示所述值向量的数量。
6.如权利要求1所述的语音数据的处理方法,其特征在于,在所述将多个待处理语音数据进行滤波处理,得到多个第一语音数据的步骤之前,还包括:
样本语音数据经过编码模块、自注意力模块和解码模块处理,得到样本处理结果;
根据所述样本处理结果和标准处理结果计算对数均方误差和多分辨率短时傅里叶变换误差;
根据所述对数均方误差和所述多分辨率短时傅里叶变换误差,调整所述编码模块、所述自注意力模块和所述解码模块的参数,得到训练后的编码模块、自注意力模块和解码模块。
7.如权利要求6所述的语音数据的处理方法,其特征在于,所述根据所述样本处理结果和标准处理结果计算对数均方误差和多分辨率短时傅里叶变换误差的步骤,包括:
基于样本处理结果和标准处理结果各自对应的频谱图的实部和虚部计算所述对数均方误差;
通过如下公式三计算频谱收敛性损失和对数STFT幅度损失;
其中,表示所述频谱收敛性损失,/>表示所述对数STFT幅度损失,/>和/>分别表示Frobenius范数和L1范数,/>表示STFT幅度,N表示幅度中的元素数量。
8.一种语音数据的处理装置,其特征在于,所述处理装置包括:
分解单元,用于将多个待处理语音数据进行预处理和子带分解,得到子带频谱;
第一处理单元,用于将所述子带频谱输入编码模块,得到第一特征数据;
第二处理单元,用于将所述第一特征数据输入自注意力模块,得到由所述自注意力模块输出的第一处理结果;
第三处理单元,用于将所述第一处理结果输入解码模块,得到由所述解码模块输出的第二处理结果;
第四处理单元,用于将所述第二处理结果输入卷积层,得到由所述卷积层输出的第三处理结果;
变换单元,用于将所述第三处理结果进行短时傅里叶变换,得到第四处理结果;
运算单元,用于将所述第三处理结果和所述第四处理结果进行点乘运算,得到增益结果;
第五处理单元,用于将所述增益结果进行逆短时傅里叶变换、加窗以及信号重构,得到语音增强结果,并基于所述语音增强结果进行语音识别;
其中,所述编码模块的输出与所述自注意力模块的输出拼接得到所述解码模块的输入,所述解码模块中第二子模块的输入由所述解码模块的第一子模块和编码模块中第二个子模块的输出拼接组成,所述解码模块中第三子模块的输入由所述解码模块的第二子模块和编码模块中第一个子模块的输出拼接组成,所述卷积层的输入为所述解码模块的输出。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN202311245331.7A 2023-09-26 2023-09-26 一种语音数据的处理方法及处理装置 Active CN116994564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311245331.7A CN116994564B (zh) 2023-09-26 2023-09-26 一种语音数据的处理方法及处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311245331.7A CN116994564B (zh) 2023-09-26 2023-09-26 一种语音数据的处理方法及处理装置

Publications (2)

Publication Number Publication Date
CN116994564A true CN116994564A (zh) 2023-11-03
CN116994564B CN116994564B (zh) 2023-12-19

Family

ID=88521709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311245331.7A Active CN116994564B (zh) 2023-09-26 2023-09-26 一种语音数据的处理方法及处理装置

Country Status (1)

Country Link
CN (1) CN116994564B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021229197A1 (en) * 2020-05-12 2021-11-18 Queen Mary University Of London Time-varying and nonlinear audio processing using deep neural networks
CN113936679A (zh) * 2021-09-23 2022-01-14 电子科技大学 一种基于信息蒸馏与聚合的低信噪比语音增强方法
US20220108711A1 (en) * 2020-10-02 2022-04-07 Audioshake, Inc. Deep learning segmentation of audio using magnitude spectrogram
CN115295001A (zh) * 2022-07-26 2022-11-04 中国科学技术大学 一种基于渐进式融合校正网络的单通道语音增强方法
CN115602152A (zh) * 2022-12-14 2023-01-13 成都启英泰伦科技有限公司(Cn) 一种基于多阶段注意力网络的语音增强方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021229197A1 (en) * 2020-05-12 2021-11-18 Queen Mary University Of London Time-varying and nonlinear audio processing using deep neural networks
US20220108711A1 (en) * 2020-10-02 2022-04-07 Audioshake, Inc. Deep learning segmentation of audio using magnitude spectrogram
CN113936679A (zh) * 2021-09-23 2022-01-14 电子科技大学 一种基于信息蒸馏与聚合的低信噪比语音增强方法
CN115295001A (zh) * 2022-07-26 2022-11-04 中国科学技术大学 一种基于渐进式融合校正网络的单通道语音增强方法
CN115602152A (zh) * 2022-12-14 2023-01-13 成都启英泰伦科技有限公司(Cn) 一种基于多阶段注意力网络的语音增强方法

Also Published As

Publication number Publication date
CN116994564B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN111081268A (zh) 一种相位相关的共享深度卷积神经网络语音增强方法
DE102019113534A1 (de) Verfahren und System zur Zeitdomänen-Merkmalsextraktion für die automatische Spracherkennung
CN110718211B (zh) 一种基于混合压缩卷积神经网络的关键词识别系统
US11889292B2 (en) Audio processing apparatus and method for denoising a multi-channel audio signal
CN112989107A (zh) 音频分类和分离方法、装置、电子设备以及存储介质
CN115082774A (zh) 基于双流自注意力神经网络的图像篡改定位方法及系统
Lim et al. Harmonic and percussive source separation using a convolutional auto encoder
CN112712819A (zh) 视觉辅助跨模态音频信号分离方法
CN117174105A (zh) 一种基于改进型深度卷积网络的语音降噪与去混响方法
CN112183582A (zh) 一种多特征融合的水下目标识别方法
CN114283829B (zh) 一种基于动态门控卷积循环网络的语音增强方法
US20230395089A1 (en) Generative neural network model for processing audio samples in a filter-bank domain
CN107239623B (zh) 基于凸优化的m通道过采样图滤波器组的优化设计方法
CN116994564B (zh) 一种语音数据的处理方法及处理装置
CN113409216A (zh) 一种基于频带自适应修复模型的图像修复方法
Raj et al. Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients
CN113936680B (zh) 基于多尺度信息感知卷积神经网络的单通道语音增强方法
Li et al. Deeplabv3+ vision transformer for visual bird sound denoising
CN115295002A (zh) 一种基于交互性时频注意力机制的单通道语音增强方法
Zhang et al. MSLEFC: A low-frequency focused underwater acoustic signal classification and analysis system
Sunny et al. Discrete wavelet transforms and artificial neural networks for recognition of isolated spoken words
CN114678033A (zh) 一种基于只包含编码器的多头注意力机制的语音增强算法
Raj et al. Audio signal quality enhancement using multi-layered convolutional neural network based auto encoder–decoder
CN114596876B (zh) 声源分离方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant