CN115116470A

CN115116470A - 音频处理方法、装置、计算机设备和存储介质

Info

Publication number: CN115116470A
Application number: CN202210654014.XA
Authority: CN
Inventors: 江勇军; 余健
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-09-27

Abstract

本申请涉及一种音频处理方法、装置、计算机设备和存储介质。该方法包括：获取目标音频的频谱特征图；基于频谱特征图进行至少一次的降采样组合处理，得到降采样的中间特征矩阵；基于中间特征矩阵进行至少一次的特征提取组合处理，得到目标特征矩阵；根据目标特征矩阵进行音频处理，得到针对目标音频的音频处理结果。由于仅需要使用与输入数据的通道数量相同的卷积核，且作卷积处理次数与输入数据的通道数量相同，从而可降低计算量。另外，由于位于中间的拓展通道数量的卷积处理，其输出数据的通道数量比深度卷积处理与收缩通道数量的卷积处理的输出数据通道数量均要多，从而可避免因先对数据维度进行压缩而带来信息损失，进而可提高处理精准程度。

Description

音频处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及音频处理技术领域，特别是涉及一种音频处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着网络技术的发展，移动终端等设备的输入方式除了手写输入和键盘输入以外，还可以通过语音输入来实现。结合实际应用需求，在获取到音频数据后，可以对音频数据进行处理，如对音频数据进行识别。

在相关技术中，主要是对音频数据作传统卷积处理，提取卷积特征，再基于提取到的卷积特征进行特征识别，得到识别结果。由于仅作传统卷积提取到的特征有限且计算量较大，从而处理效率和准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种提高处理效率和准确性的音频处理方法、装置、计算机设备、存储介质和计算机程序产品。

一方面，本申请提供了一种音频处理方法，该方法包括：

获取目标音频的频谱特征图；

基于频谱特征图进行至少一次的降采样组合处理，得到降采样的中间特征矩阵；降采样组合处理包括至少一次的降采样卷积组合处理，降采样卷积组合处理包括依次进行的深度卷积处理、拓展通道数量的卷积处理和收缩通道数量的卷积处理；

基于中间特征矩阵进行至少一次的特征提取组合处理，得到目标特征矩阵；特征提取组合处理包括依次进行的第一前馈处理、多头自注意力处理、卷积处理和第二前馈处理；

根据目标特征矩阵进行音频处理，得到针对目标音频的音频处理结果。

在其中一个实施例中，获取目标音频的频谱特征图，包括：

采用窗口长度为预设音频帧长并按照预设步长移动的窗口，从目标音频采集获得多个音频帧；预设步长小于预设音频帧长；

获取多个音频帧中每一音频帧在不同频率区间分布的频率特征并表示为像素值序列，将每一音频帧的像素值序列按音频帧时序拼合，获得目标音频的频谱特征图。

在其中一个实施例中，至少一次的降采样组合处理中的目标降采样组合处理，还包括在目标降采样组合处理中的首次降采样卷积组合处理之前进行的降采样预处理；降采样预处理用于对通过目标降采样组合处理的数据进行降采样并输出适配首次降采样卷积组合处理的中间数据，使得中间数据经过目标降采样组合处理中的降采样卷积组合处理以进行再次降采样。

在其中一个实施例中，降采样预处理包括归一化处理以及至少一次的降采样卷积处理；降采样卷积处理用于对通过降采样卷积处理的数据进行卷积处理以进行降采样；归一化处理用于对通过归一化处理的数据进行特征值归一化。

在其中一个实施例中，针对至少一次的降采样组合处理中目标降采样组合处理所包括的目标降采样预处理，目标降采样预处理中的目标降采样卷积处理，是针对频域维度的；除目标降采样预处理之外，至少一次的降采样组合处理中涉及到的剩余降采样卷积处理，针对的维度在时域维度和频域维度中至少包括频域维度；频谱特征图中目标音频的多个音频帧的频率特征按照多个音频帧的时序排布。

在其中一个实施例中，基于频谱特征图进行至少一次的降采样组合处理，得到降采样的中间特征矩阵，包括：

基于频谱特征图，串行进行多次降采样组合处理，得到降采样的中间特征矩阵；其中，每次的降采样组合处理包括串行进行的多次降采样卷积组合处理。

在其中一个实施例中，每次的降采样组合处理均包括降采样预处理和在降采样预处理之后的多次降采样卷积组合处理；每次的降采样组合处理中降采样卷积组合处理的输出数据，相比本次的降采样组合处理中降采样卷积组合处理的输入数据通道数相同，相比下一次的降采样组合处理中降采样卷积组合处理的输入数据的通道数小。

在其中一个实施例中，至少一次的特征提取组合处理中的目标特征提取组合处理之前进行有中间降采样处理；中间降采样处理包括归一化处理、非线性映射处理以及至少一次降采样卷积处理。

在其中一个实施例中，基于中间特征矩阵进行至少一次的特征提取组合处理，得到目标特征矩阵，包括：

基于中间特征矩阵，串行进行多批次的特征提取组合处理，得到目标特征矩阵；其中，每批次的特征提取组合处理包括串行进行的特征提取组合处理，至少存在一个批次的首次特征提取组合处理之前进行有中间降采样处理。

在其中一个实施例中，根据目标特征矩阵进行音频处理，得到针对目标音频的音频处理结果，包括：

根据目标特征矩阵，获取多个文字识别预测序列和各自的发生概率；

对最大发生概率相应的目标文字识别预测序列中连续出现的相同文字预测结果进行合并；

删除合并后的目标文字识别预测序列中作为空白标识的文字预测结果，获得音频处理结果。

在其中一个实施例中，音频处理结果为文字识别预测序列，文字识别预测序列是基于按时序输出的文字预测结果所得到的；根据目标特征矩阵进行音频处理，得到针对目标音频的音频处理结果，包括：

在当前输出时刻不为首次输出时刻的情况下，获取基于当前输出时刻之前每一输出时刻所输出的文字预测结果所获得的参考特征矩阵，在当前输出时刻为首次输出时刻的情况下，获取由起始输出标识转化得到的参考特征矩阵；

获取用于表征参考特征矩阵与目标特征矩阵之间相似度的相似度矩阵，基于相似度矩阵，将目标特征矩阵与参考特征矩阵进行融合，获得用于表征目标音频的全局特征的全局目标特征矩阵；

根据全局目标特征矩阵，获取当前输出时刻输出的多个文字预测结果和各自的发生概率，输出最大发生概率相应的文字预测结果，重复上述按时序输出的过程，直至输出结束，按输出顺序对每一输出时刻输出的文字预测结果进行整合，获得音频处理结果。

在其中一个实施例中，方法是基于音频处理模型实现的，音频处理结果包括至少一个文字预测结果；根据目标特征矩阵进行音频处理，得到针对目标音频的音频处理结果之后，还包括：

通过目标损失函数对音频处理模型进行训练；目标损失函数是基于第一损失函数或者第二损失函数中的至少一种损失函数所确定的；

其中，第一损失函数是基于音频处理结果和音频处理结果相应的训练标签所构建得到的；第二损失函数是基于音频处理结果中每一文字预测结果和每一文字预测结果相应的训练标签所构建得到的。

另一方面，本申请还提供了一种音频处理装置，该装置包括：

获取模块，用于获取目标音频的频谱特征图；

至少一个降采样组合处理模块；降采样组合处理模块包括至少一个降采样卷积组合处理模块；降采样组合处理模块，用于基于频谱特征图进行至少一次的降采样组合处理，得到降采样的中间特征矩阵；降采样卷积组合处理模块包括依次连接的深度卷积处理层、拓展通道数量的卷积处理层和收缩通道数量的卷积处理层；

至少一个特征提取组合处理模块；特征提取组合处理模块，用于基于中间特征矩阵进行至少一次的特征提取组合处理，得到目标特征矩阵；特征提取组合处理模块包括依次连接的第一前馈处理层、多头自注意力处理层、卷积处理层和第二前馈处理层；

音频处理模块，用于根据目标特征矩阵进行音频处理，得到针对目标音频的音频处理结果。

在其中一个实施例中，获取模块1502，用于采用窗口长度为预设音频帧长并按照预设步长移动的窗口，从目标音频采集获得多个音频帧；预设步长小于预设音频帧长；获取多个音频帧中每一音频帧在不同频率区间分布的频率特征并表示为像素值序列，将每一音频帧的像素值序列按音频帧时序拼合，获得目标音频的频谱特征图。

在其中一个实施例中，至少一个降采样组合处理模块中的目标降采样组合处理模块，还包括在目标降采样组合处理模块中的首次降采样卷积组合处理模块之前还连接有降采样预处理模块；降采样预处理模块，用于对通过目标降采样组合处理模块的数据进行降采样并输出适配首次降采样卷积组合处理模块的中间数据，使得中间数据经过目标降采样组合处理模块中的降采样卷积组合处理模块以进行再次降采样。

在其中一个实施例中，降采样预处理模块包括归一化处理层以及至少一个的降采样卷积处理层；降采样卷积处理层，用于对通过降采样卷积处理层的数据进行卷积处理以进行降采样；归一化处理层，用于对通过归一化处理层的数据进行特征值归一化。

在其中一个实施例中，针对至少一个降采样组合处理模块中目标降采样组合处理模块所包括的目标降采样预处理模块；目标降采样预处理模块中的目标降采样卷积处理层，是针对频域维度的；除目标降采样预处理模块之外，至少一次的降采样组合处理模块中涉及到的剩余降采样卷积处理层，针对的维度在时域维度和频域维度中至少包括频域维度；频谱特征图中目标音频的多个音频帧的频率特征按照多个音频帧的时序排布。

在其中一个实施例中，至少一个降采样组合处理模块，用于基于频谱特征图，串行进行多次降采样组合处理，得到降采样的中间特征矩阵；其中，每次的降采样组合处理包括串行进行的多次降采样卷积组合处理。

在其中一个实施例中，每一降采样组合处理模块均包括降采样预处理模块和连接在降采样预处理模块之后的多个降采样卷积组合处理模块；每个降采样组合处理模块中降采样卷积组合处理模块的输出数据，相比当前的降采样组合处理模块中降采样卷积组合处理模块的输入数据通道数相同，相比下一个的降采样组合处理模块中降采样卷积组合处理模块的输入数据的通道数小。

在其中一个实施例中，至少一个的特征提取组合处理中的目标特征提取组合处理模块之前连接有中间降采样处理模块；中间降采样处理模块包括归一化处理层、非线性映射处理层以及至少一个降采样卷积处理层。

在其中一个实施例中，至少一个的特征提取组合处理，用于基于中间特征矩阵，串行进行多批次的特征提取组合处理，得到目标特征矩阵；其中，每批次的特征提取组合处理包括串行进行的特征提取组合处理，至少存在一个批次的首次特征提取组合处理之前进行有中间降采样处理。

在其中一个实施例中，音频处理模块，用于根据目标特征矩阵，获取多个文字识别预测序列和各自的发生概率；对最大发生概率相应的目标文字识别预测序列中连续出现的相同文字预测结果进行合并；删除合并后的目标文字识别预测序列中作为空白标识的文字预测结果，获得音频处理结果。

在其中一个实施例中，音频处理模块，用于在当前输出时刻不为首次输出时刻的情况下，获取基于当前输出时刻之前每一输出时刻所输出的文字预测结果所获得的参考特征矩阵，在当前输出时刻为首次输出时刻的情况下，获取由起始输出标识转化得到的参考特征矩阵；获取用于表征参考特征矩阵与目标特征矩阵之间相似度的相似度矩阵，基于相似度矩阵，将目标特征矩阵与参考特征矩阵进行融合，获得用于表征目标音频的全局特征的全局目标特征矩阵；根据全局目标特征矩阵，获取当前输出时刻输出的多个文字预测结果和各自的发生概率，输出最大发生概率相应的文字预测结果，重复上述按时序输出的过程，直至输出结束，按输出顺序对每一输出时刻输出的文字预测结果进行整合，获得音频处理结果。

在其中一个实施例中，该装置是基于音频处理模型实现的，音频处理结果包括至少一个文字预测结果；该装置还包括：

模型训练模块，用于通过目标损失函数对音频处理模型进行训练；目标损失函数是基于第一损失函数或者第二损失函数中的至少一种损失函数所确定的；其中，第一损失函数是基于音频处理结果和音频处理结果相应的训练标签所构建得到的；第二损失函数是基于音频处理结果中每一文字预测结果和每一文字预测结果相应的训练标签所构建得到的。

另一方面，本申请还提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述音频处理方法中的步骤。

另一方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述音频处理方法中的步骤。

另一方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述音频处理方法的步骤。

上述音频处理方法、装置、计算机设备、存储介质和计算机程序产品，由于降采样组合处理中可以进行深度卷积处理和关于通道数量的卷积处理，而其中深度卷积处理仅需要使用与输入数据的通道数量相同的卷积核，且作卷积处理的次数与输入数据的通道数量相同，而不需要像传统卷积中那样，需要使用输入数据的通道数量与输出数据的通道数量之间的乘积个卷积核，且作卷积处理的次数与乘积相同，从而可以减少基于卷积核所作的卷积处理次数，降低计算量以减少运算成本并提高处理效率。与此同时，关于通道数量的卷积处理所使用的卷积核实际上是与输入数据的通道数量相同长度的向量，从而相对于传统卷积使用矩阵作为卷积核，可以降低基于卷积核作卷积处理时的内部计算量，以减少运算成本并提高处理效率。

另外，由于深度卷积处理的输出数据可以与收缩通道数量的卷积处理的输出数据均为相同的通道数量，而位于中间的拓展通道数量的卷积处理，其输出数据的通道数量可以比前两者均要多，从而使得降采样组合处理中内部处理过程可以整体呈现为小维度、大维度和小维度的数据处理结构。基于上述数据处理结构，由于并未直接对输入数据进行维度压缩，而是经过深度卷积处理之后，先对数据维度进行拓展，后续再还原之前的数据维度，从而可以避免因先对数据维度进行压缩而带来信息的损失，从而可以提高处理精准程度。最后，由于在特征提取组合处理中，可以进行提取局部特征的卷积处理，还可以进行提取全局特征的多头自注意力处理，从而可以提取到同时表征全局与局部的特征。而基于同时表征全局与局部的特征进行音频处理，也可以提高处理精准程度。

附图说明

图1为一个实施例中音频处理方法的应用环境图；

图2为一个实施例中音频处理方法的流程示意图；

图3为一个实施例中深度卷积处理的示意图；

图4为一个实施例中拓展通道数量的卷积处理的示意图；

图5为一个实施例中包括有降采样预处理和降采样组合处理的处理架构示意图；

图6为另一个实施例中包括有降采样预处理和降采样组合处理的处理架构示意图；

图7为一个实施例中音频处理方法的流程示意图；

图8为一个实施例中通道数量递增的降采样组合处理的处理架构示意图；

图9为一个实施例中包括有特征提取组合处理和降采样组合处理的处理架构示意图；

图10为一个实施例中包括有中间降采样处理的处理架构示意图；

图11为一个实施例中分批次特征提取组合处理的处理架构示意图；

图12为一个实施例中音频处理过程的整体处理架构示意图；

图13为一个实施例中降采样组合处理的内部处理架构示意图；

图14为一个实施例中中间降采样处理的处理架构示意图；

图15为一个实施例中音频处理装置的结构框图；

图16为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先，对本申请实施例中涉及到的名词进行简要解释说明：

Attention(注意力机制)：是在计算能力有限的情况下，将计算资源分配给更重要的任务，同时解决信息超载问题的一种资源分配方案。在神经网络学习中，一般而言模型的参数越多则模型的表达能力越强，模型所存储的信息量也越大，但这会带来信息过载的问题。那么通过引入注意力机制，在众多的输入信息中聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，甚至过滤掉无关信息，就可以解决信息过载问题，并提高任务处理的效率和准确性。

这就类似于人类的视觉注意力机制，通过扫描全局图像，获取需要重点关注的目标区域，而后对这一区域投入更多的注意力资源，获取更多与目标有关的细节信息，而忽视其他无关信息。通过这种机制可以利用有限的注意力资源从大量信息中快速筛选出高价值的信息。

MFCCs(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)：指的是组成梅尔频率倒谱的系数。梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换。

LN(Layer Normalization，层归一化)：指的是在每一层对单个样本的所有神经元节点进行规范化。

另外，在本申请实施例中音频处理方法是基于人工智能所实现的。人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

人工智能通常涉及到机器学习的过程，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

进一步地，本申请实施例因是对音频进行处理，从而可能还涉及到语音技术。再对音频进行处理后，如语音识别得到文字后，还可以涉及到自然语言处理技术。其中，语音技术(Speech Technology)的关键技术有ASR(Automatic Speech Recognition，自动语音识别技术)和TTS(Text To Speech，语音合成技术)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

在一些实施例中，本申请实施例提供的音频处理方法，可以应用于如图1所示的应用环境中。其中，终端102可通过有线或者无线网络，直接或者间接地与服务器104进行通信，本申请实施例对此不作具体限定。终端102与服务器104可以各自单独执行本申请实施例中的音频处理方法，也可以协同执行本申请实施例中的音频处理方法。现以终端102和服务器104协同执行音频处理方法时的其中一种实施过程为例。

具体地，终端102获取待处理的目标音频，终端102将目标音频发送至服务器104，服务器104获取目标音频的频谱特征图，并基于频谱特征图进行至少一次的降采样组合处理，得到降采样的中间特征矩阵。服务器104基于中间特征矩阵进行至少一次的特征提取组合处理，得到目标特征矩阵，根据目标特征矩阵进行音频处理，得到音频处理结果。可以理解的是，服务器104可以集成在云端。

其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。终端上可运行有应用程序，比如社交应用、或音频应用等，用于获取目标音频。服务器104则可以是与软件或是网页、小程序等相对应的后台服务器，或者是专门用于进行音频处理的服务器，本申请实施例不做具体限定。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。

需要说明的是，本申请实施例提供的方法可以应用于音频识别场景。在音频识别场景下，可以延伸出更具体的应用场景。例如，可应用于语音识别。具体地，用户可输入目标语音，通过本申请实施例提供的方法，对目标语音进行识别可获得文本识别结果。再例如，可应用于视频字幕的自动生成。具体地，获取视频中的目标音频，通过本申请实施例提供的方法，对目标音频进行识别可获得字幕文本识别结果，通过对字幕文本识别结果嵌入至视频文件或者单独制成字幕文件，即可完成自动生成视频字幕。

除此之外，还可以应用于实现会议中语音内容的实时上屏。具体地，实时获取会议中产生的语音音频，通过本申请实施例提供的方法，对语音音频进行识别可获得字幕文本识别结果，将字幕文本识别结果显示在会议直播画面上，即可实现语音内容的实时上屏。当然，还可以应用于设备执行语音指令。具体地，获取用户下达的语音指令，通过本申请实施例提供的方法，对语音指令进行识别可获得执行操作标识，设备(如手机或家电)可根据执行操作标识执行相应的操作(如拨打电话，打开某项功能等)。另外，还可以应用于音频降噪。具体地，可以获取待降噪的音频，通过本申请实施例提供的方法，解码出降噪后的音频。当然，实际实施过程中还可不限于上述应用场景，涉及到音频处理的应用场景，均可使用本申请实施例提供的方法。

在一些实施例中，结合上述名词解释、技术解释和实施环境说明，如图2所示，提供了一种音频处理方法。以该方法应用于计算机设备(该计算机设备具体可以是图1中的终端或服务器)为例进行说明，包括以下步骤：

步骤202、获取目标音频的频谱特征图。

由上述应用场景的说明可知，目标音频可以是用户输入的语音音频，也可以是视频文件中音频数据，还可以是直播场景中的实时语音音频，本申请实施例不对目标音频的类型作具体限定。频谱特征图主要是作为后续音频处理的特征，相对于图像，频谱特征图同样有两个维度，其中一个维度是频域，另一个维度是时域。

由此，计算机设备可以基于该两个维度对目标音频进行划分。其中，时域维度可以将目标音频划分为多个音频帧，也即将时域维度划分为多个时间段。而频域维度可以划分为多个频率区间，由此可以确定目标音频中声音信号的频率落入至哪个频率区间。综上，基于多个频率区间与多个音频帧，计算机设备可对目标音频进行划分。每一频率区间与每一音频帧对应的时间段所框选出的区域，可以视为图像中的一个像素，而该框选出的区域可视为一个像素，而在该框选出的区域中的频率特征可以视为像素值。由此，可以构成频谱特征图。其中，某一音频帧在某一频率区间中的频率特征，可以指的是该音频帧在该频率区间的音频能量特征。

步骤204、基于频谱特征图进行至少一次的降采样组合处理，得到降采样的中间特征矩阵。

其中，降采样组合处理包括至少一次的降采样卷积组合处理，降采样卷积组合处理包括依次进行的深度卷积处理、拓展通道数量的卷积处理和收缩通道数量的卷积处理。

需要说明的是，考虑到深度卷积处理通常是对多通道数据作卷积处理。由此，在执行本步骤之前，计算机设备还可以将频谱特征图拓展为多个通道的特征矩阵(或者称为多个通道的2阶张量)。具体地，计算机设备可以先将频谱特征图扩展为1*H*W的频谱图张量。其中，H可以表示频域维度，W可以表示时域维度，而1代表原始的输入通道数量。以深度卷积处理所需的数据通道数量为c为例，则计算机设备可将频谱特征图与c个卷积核分别作卷积，从而可以得到c个通道的特征矩阵。

具体地，深度卷积处理主要指的是一个卷积核负责对一个通道的特征矩阵作卷积处理，每一通道的特征矩阵对应一个卷积核。其中，深度卷积处理所使用的卷积核尺寸可以为7*7。可以看出，深度卷积处理使用的是尺寸相对较大的卷积核。使用大卷积核，主要是为了对更广视野的特征作卷积，以覆盖更多的信息。可以理解的是，若将深度卷积处理放在拓展通道数量的卷积处理之后进行，则会因通道被拓展了而增大了参数量与计算量。而若将深度卷积处理放在最后执行，则会因为卷积过程即将结束，再从深度空间这一维度提取特征可能会影响特征提取效果。因此，本申请实施例选择在刚开始的深度卷积处理使用大卷积核作卷积处理。

而拓展通道数量的卷积处理和收缩通道数量的卷积处理，主要指的是c个通道的特征矩阵，与多个1*1*c的卷积核作卷积处理。其中，卷积处理结束后究竟是拓展通道还是收缩通道，取决于1*1*c的卷积核数量。在1*1*c的卷积核数量小于c的情况下，为收缩通道数量。而在1*1*c的卷积核数量大于c的情况下，为拓展通道数量。具体地，深度卷积处理的过程可参考图3，而拓展通道数量的卷积处理可参考图4。

由图3可以看出，深度卷积处理可以使得输入数据与输出数据的通道数量保持不变；可以使得输入数据与输出数据在时域和频域的维度也保持不变，也可以使得得输入数据的维度大于输出数据的维度。对于图3中参与计算的每一卷积核，深度卷积处理实际上是将每一卷积核与每一卷积核相应通道的特征矩阵进行卷积计算，从而得到与输入数据通道数量相同的输出数据。

例如，若输入数据为c个通道的H/2*W/2的特征矩阵，直接对c*H/2*W/2的输入数据作深度卷积处理，则得到的输出数据可能会降低维度，如c*H/4*W/4。但若并非是直接对c*H/2*W/2的输入数据作深度卷积处理，而是先对c*H/2*W/2的输入数据作填充处理，再作深度卷积处理，则可以使得得到的输出数据维度不变，也即依然为c*H/2*W/2。

由图4可以看出，拓展通道数量的卷积处理可以使得输出数据的通道数量大于输入数据的通道数量，同时可以使得输入数据与输出数据在时域和频域的维度也保持不变。对于图4中参与计算的某一卷积核，拓展通道数量的卷积处理实际上是对每一通道的特征矩阵中相同位置上各自的特征值，按照该卷积核相应位置上的权重，进行加权求和，再由所有加权求和结果构成该卷积核相应的作为输出数据的特征矩阵。同理，每一卷积核均可以通过上述卷积计算过程得到相应的作为输出数据的特征矩阵，每一卷积核相应的特征矩阵即可组成多通道的输出数据，且在卷积核的数量大于输入数据通道数量的情况下，输出数据的通道数量大于输入数据的通道数量。

例如，若输入数据为c个通道的H/2*W/2的特征矩阵，而1*1*c的卷积核一共有4c个。对于其中一个卷积核，可将第一个通道的特征矩阵中第一行第一列的特征值、第二个通道的特征矩阵中第一行第一列的特征值、……、第c个通道的特征矩阵中第一行第一列的特征值，按照该1*1*c的卷积核中相应的权重，进行加权求和，从而可以得到针对“第一行第一列”的加权求和结果。同理，还可以计算其它位置的加权求和结果。这些加权求和结果按位置可以构成H/2*W/2的特征矩阵，与输入数据的维度相同。由于有4c个卷积核，从而输出数据为4c*H/2*W/2的特征矩阵。同理，对于降采样组合处理中最后进行的收缩通道数量的卷积处理，可以通过卷积核的数量(如为c)小于输入数据的通道数量(如为4c)，即可得到作为输出数据的c*H/2*W/2的特征矩阵。

由上述实现过程可知，深度卷积处理的输出数据的通道数量与收缩通道数量的卷积处理的输出数据的通道数量可以相同，且在时域和频域的维度可以保持不变。而拓展通道数量的卷积处理的输出数据相较于前两者，可以扩增通道数量。上述示例中是扩增4倍，实际实施中可以根据需求扩增相应的倍数，本申请实施例对此不作具体限定。另外，降采样卷积组合处理中所做的主要均是卷积处理。当然实际实施过程中，还可以安插神经网络相关的其它类型处理，本申请实施例对此不作具体限定。

步骤206、基于中间特征矩阵进行至少一次的特征提取组合处理，得到目标特征矩阵。

其中，特征提取组合处理包括依次进行的第一前馈处理、多头自注意力处理、卷积处理和第二前馈处理。通过上述至少一次的降采样组合处理，结合关于降采样组合处理中各项处理的说明，计算机设备可以将频谱特征图转化为多通道的输出数据。由于在特征提取组合处理中处理的是多通道的一维向量，从而计算机设备可以对进行至少一次的降采样组合处理后的输出数据进行线性处理，以得到多通道的仅针对时域维度的一维向量。结合通道数量，可将多通道的一维向量视为降采样的中间特征矩阵。经过至少一次的特征提取组合处理后，输入数据与输出数据在时域和频域的维度上，以及在通道数量上可以保持不变。

例如，若至少一次的降采样组合处理的输出数据为3c*H/8*W/4，则经过线性处理之后，可以得到c*W/4的多通道的一维向量，可将其视为c*W/4的的中间特征矩阵。输入数据与输出数据在时域和频域的维度上，以及在通道数量上可以保持不变，也即可以依然为c*W/4的输出数据。

步骤208、根据目标特征矩阵进行音频处理，得到针对目标音频的音频处理结果。

通过上述各项处理过程，计算机设备可以得到目标音频的最终特征表达，也即目标特征矩阵。计算机设备通过根据目标特征矩阵进行解码等音频处理，可以得到音频处理结果，如音频识别结果。

上述音频处理方法，由于降采样组合处理中可以进行深度卷积处理和关于通道数量的卷积处理，而其中深度卷积处理仅需要使用与输入数据的通道数量相同的卷积核，且作卷积处理的次数与输入数据的通道数量相同，而不需要像传统卷积中那样，需要使用输入数据的通道数量与输出数据的通道数量之间的乘积个卷积核，且作卷积处理的次数与乘积相同，从而可以减少基于卷积核所作的卷积处理次数，降低计算量以减少运算成本并提高处理效率。与此同时，关于通道数量的卷积处理所使用的卷积核实际上是与输入数据的通道数量相同长度的向量，从而相对于传统卷积使用矩阵作为卷积核，可以降低基于卷积核作卷积处理时的内部计算量，以减少运算成本并提高处理效率。

在一些实施例中，获取目标音频的频谱特征图，包括：

其中，窗口长度和预设步长均是按照时间单位，如毫秒进行计量的。预设音频帧长可以为25毫秒，预设步长可以为10毫秒，本申请实施例不对预设音频帧长和预设步长所设置的时长作具体限定。需要说明的是，之所以将预设步长设置为小于预设音频帧长，主要是为了使得相邻的音频帧形成重叠区域，相邻的音频帧之间频率特征的变化更加平滑。另外，频率特征可以指的是能量特征，如梅尔滤波器组对数能量特征等，本申请实施例对此不作具体限定。

需要说明的是，计算机设备在从目标音频采集获得多个音频帧之前，可以对目标音频进行预加重处理。预加重处理主要是为了消除发声过程中发音系统(如声带和嘴唇)的辐射效应，以对语音信号受到发音系统所抑制的高频部分进行补偿。另外，计算机设备在获得多个音频帧之后，还可以对每一音频帧进行加窗处理。加窗处理主要是为了增加音频帧左端和右端的连续性，以减少频谱泄露。加窗处理所使用的窗口类型可以为汉明窗、海宁窗或者矩形窗等，本申请实施例对此不作具体限定。

对于从目标音频采集获得的某一音频帧以及在频域维度上划分的多个频率区间，该音频帧在每一频率区间内均具有相应的频率特征。由此，如图像中像素行或者像素列的排布方式那样，该音频帧相应的所有频率特征，可以在频域维度上按照频率区间逐渐递增的排列方式，形成频率特征序列。为构成频谱特征图，可以将该频率特征序列表示为类似于图像的像素值序列。基于此，计算机设备可将从目标音频采集到每一音频帧对应的像素值序列，在时域维度上按照音频帧的时序进行排列，将形成的多列像素值序列进行拼合，即可得到该目标音频的频谱特征图。

在上述实施例中，由于在从目标音频采集获得多个音频帧时，通过移动的方式从目标音频中截取音频帧的窗口，所使用的预设步长小于窗口长度，从而使得相邻音频帧之间存在重叠区域。也即，相邻音频帧之间存在冗余信息。这使得在作降采样组合处理和特征提取组合处理时，即使进行了降采样，也会因相邻音频帧之间存在冗余信息而尽量避免信息损失，从而在降低计算量的同时，可以尽量保证处理精准程度。

在一些实施例中，至少一次的降采样组合处理中的目标降采样组合处理，还包括在目标降采样组合处理中的首次降采样卷积组合处理之前进行的降采样预处理；降采样预处理用于对通过目标降采样组合处理的数据进行降采样并输出适配首次降采样卷积组合处理的中间数据，使得中间数据经过目标降采样组合处理中的降采样卷积组合处理以进行再次降采样。

其中，至少一次的降采样组合处理中的目标降采样组合处理，还包括降采样预处理，实则指的是至少一次的降采样组合处理中，存在还包括降采样预处理的降采样组合处理。实际实施过程中，本申请实施例并不限定至少一次的降采样组合处理中哪些降采样组合处理还包括降采样预处理，可以是全部均包括，也可以其中一个或者多个降采样组合处理还包括降采样预处理。

由上述实施例的内容可知，降采样组合处理中包括至少一次的降采样卷积组合处理。由此，计算机设备在首次降采样卷积组合处理之前，可以安插降采样预处理。需要说明的是，在连续执行的多次降采样组合处理中，若每次降采样组合处理中包括的降采样卷积组合处理的次数均是随机设置的、且降采样组合处理的次数也是随机设置的，则除了首次降采样卷积组合处理中的降采样预处理实际上是第一顺序执行之外，其余剩下的降采样组合处理中的降采样预处理，实际上等同于随机安插在一系列的降采样卷积组合处理中。

当然，实际实施过程中，上述情形是可支持的，设置多少次降采样组合处理、每一降采样组合处理中设置多少次降采样卷积组合处理、降采样预处理设置在哪个位置，均可以根据需求进行设置，本申请实施例对此不作具体限定。其中，与降采样卷积组合处理所能起到的作用类似，降采样预处理也可以具有降采样的功能。与此同时，降采样预处理还可以对数据进行映射转化，以形成在规格上与降采样卷积组合处理所需要的输入数据相适配的中间数据。

例如，对于首次降采样组合处理，若输入数据是H*W的频谱特征图，而首次降采样组合处理中的首次降采样卷积组合处理所需要的输入数据的规格为c*H/2*W/2。由此，在首次降采样卷积组合处理之前进行的降采样预处理，不仅需要实现降采样的功能，也即将H*W的频谱特征图转化为H/2*W/2的中间数据，还需要实现拓展数据通道的功能。

其中，降采样预处理可以包括由多个卷积层所带来的卷积处理，也可以包括由多个池化层所带来的池化处理，本申请实施例不对降采样预处理的处理过程作具体限定。可以得知的是，通过降采样预处理可以进行降采样，而通过降采样预处理之后的降采样卷积组合处理可以再次降采样。具体地，多次降采样组合处理、每次降采样组合处理中包括的降采样卷积组合处理以及其中安插的降采样预处理，其处理框架可参考图5。在图5中，最下方的黑白图像为频谱特征图。

在上述实施例中，由于在首次降采样卷积组合处理之前还可进行降采样预处理，而一方面降采样预处理可以降低首次降采样卷积组合处理的输入数据的维度，从而可以降低计算量以减少运算成本并提高处理效率。另一方面，由于通过降采样预处理可以转化得到在规格上与首次降采样卷积组合处理相适配的中间数据，从而保证处理能够正常推进。

在一些实施例中，降采样预处理包括归一化处理以及至少一次的降采样卷积处理；降采样卷积处理用于对通过降采样卷积处理的数据进行卷积处理以进行降采样；归一化处理用于对通过归一化处理的数据进行特征值归一化。

其中，该降采样卷积处理可以为通常的二维卷积处理，使用的卷积核可以为3*3，步长可以为2，本申请实施例对此不作具体限定。需要说明的是，该降采样卷积处理是否使用填充可以根据需求进行设置，本申请实施例对此不作具体限定。而归一化处理可以使用层归一化，也可以使用批次归一化，本申请实施例不对归一化处理的方式作具体限定。

另外，实际实施过程中降采样卷积处理还可以被替换为池化处理。还需要说明的是，降采样预处理中归一化处理可以在降采样卷积处理之后进行。若将依次进行的一次降采样卷积处理和一次归一化处理作为一种组合处理，则实际实施过程中，降采样预处理中执行的组合处理次数可以不作限定。结合图5中相关结构，以降采样预处理包括依次进行的一次降采样卷积处理和一次归一化处理为例，则处理框架可参考图6。

在上述实施例中，由于在首次降采样卷积组合处理之前还可进行降采样预处理，而降采样预处理中可以包括降采样卷积处理，从而可以降低计算量以减少运算成本并提高处理效率。另外，由于降采样预处理中还可以包括归一化处理，从而可以使得数据被限定在一定的范围内，减小奇异数据而导致的不良影响，以提高处理精度。另外，也可以加快训练过程中梯度下降求解最优解的收敛速度。

在一些实施例中，针对至少一次的降采样组合处理中目标降采样组合处理所包括的目标降采样预处理，目标降采样预处理中的目标降采样卷积处理，是针对频域维度的；除目标降采样预处理之外，至少一次的降采样组合处理中涉及到的剩余降采样卷积处理，针对的维度在时域维度和频域维度中至少包括频域维度；频谱特征图中目标音频的多个音频帧的频率特征按照多个音频帧的时序排布。

需要说明的是，“针对至少一次的降采样组合处理中目标降采样组合处理所包括的目标降采样预处理”，指的是至少一次的降采样组合处理中至少存在一次降采样组合处理，对于其中的降采样预处理，该降采样预处理中的降采样卷积处理，是针对频域维度的。而对于其余剩下的降采样组合处理，这些降采样组合处理涉及到的剩余降采样卷积处理，所针对的维度可以是仅频域维度，也可以同时针对时域和频域维度。

之所以采用上述设计，主要是因为音频处理中，音频时序上的前后特征需要相互依赖，也即时域维度上的特征对于音频处理比较重要。在作特征提取组合处理之前，将时域维度的分辨率下降的较低可能会影响处理精准程度。因此，可以在所有降采样卷积处理中穿插些仅针对频域维度进行降采样的降采样卷积处理，以确保时域维度的分辨率不会下降至太低，而导致丢失大量时域维度的信息。实际实施过程中，降采样卷积处理究竟是针对频域维度进行降采样，还是针对时域维度进行降采样，还是两者兼有，可以通过降采样卷积处理的卷积核进行设置。

例如，通常卷积核为矩阵形式，也即卷积核在时域维度与频域维度的尺寸均大于1，以表示同时针对时域维度与频域维度进行降采样。若仅需要针对频域维度进行降采样，则可以将卷积核在时域维度的尺寸设置为1，而在频域维度的尺寸设置为大于1，此时卷积核由矩阵形式退化成向量形式。

在上述实施例中，由于可以将至少一次的降采样组合处理中涉及到的降采样卷积处理设置为仅针对频域维度，从而可以确保在作特征提取组合处理之前，时域维度的分辨率不会下降的较低而导致影响处理精准程度。另外，仅针对频域维度作降采样卷积处理，相较于同时针对频域维度和时域维度作降采样卷积处理，可以降低计算量，以减少运算成本并提高处理效率。

在一些实施例中，提供了一种音频处理方法。如图7所示，以该方法应用于计算机设备(该计算机设备具体可以是图1中的终端或服务器)为例进行说明，包括以下步骤：

步骤702、获取目标音频的频谱特征图。

其中，频谱特征图中目标音频的多个音频帧的频率特征按照多个音频帧的时序排布。

步骤704、基于频谱特征图，串行进行多次降采样组合处理，得到降采样的中间特征矩阵；其中，每次的降采样组合处理包括串行进行的多次降采样卷积组合处理。

步骤706、基于中间特征矩阵进行至少一次的特征提取组合处理，得到目标特征矩阵。

其中，特征提取组合处理包括依次进行的第一前馈处理、多头自注意力处理、卷积处理和第二前馈处理。

步骤708、根据目标特征矩阵进行音频处理，得到针对目标音频的音频处理结果。

在上述实施例中，由于可以串行进行多次降采样组合处理，且每次降采样组合处理中均包含串行进行的多次降采样卷积组合处理，从而可以尽可能减少后续作特征提取组合处理时的数据量，降低计算量以减少运算成本并提高处理效率。另外，由于是串行进行，在代码执行上没有产生额外的跳转逻辑，从而可以提高代码执行效率。

在一些实施例中，每次的降采样组合处理均包括降采样预处理和在降采样预处理之后的多次降采样卷积组合处理；每次的降采样组合处理中降采样卷积组合处理的输出数据，相比本次的降采样组合处理中降采样卷积组合处理的输入数据通道数相同，相比下一次的降采样组合处理中降采样卷积组合处理的输入数据的通道数小。

以串行进行3次降采样组合处理为例，具体处理框架可参考图8。从图8中可以看出，第一次降采样组合处理中降采样卷积组合处理的输入数据通道数为c，而第一次降采样组合处理中降采样卷积组合处理的输出数据通道数也为c。也即，第一次降采样组合处理中降采样卷积组合处理的输出数据，相比第一次的降采样组合处理中降采样卷积组合处理的输入数据通道数相同，后续第二次和第三次降采样组合处理同理。

而第一次降采样组合处理与第二次降采样组合处理进行比较，第二次降采样组合处理中降采样卷积组合处理的输入数据通道数为2c。第二次与第三次进行比较，第三次降采样组合处理中降采样卷积组合处理的输入数据通道数为3c。很明显，第一降采样组合处理中降采样卷积组合处理的输出数据通道数c小于2c，第二降采样组合处理中降采样卷积组合处理的输出数据通道数c小于3c。实际实施过程中，可以通过降采样组合处理中最先进行的降采样预处理形成这样的结果，也即通过降采样预处理实现通道拓展。

结合图8，相当于不同的降采样组合处理所涉及到的通道数从下至上逐渐增加。需要说明的是，图8所示出的只是实际实施过程中通道数递增的一种递增数值设置。实际实施过程中，通道数逐渐递增不一定是如图8中那样规律性的，下一次降采样组合处理相对于上一次降采样组合处理均拓展c个通道。另外，实际实施过程中，通道数也可以不一定是递增设计，可以根据实际需求进行设置，如通道数维持不变，本申请实施例对此不作具体限定。

在上述实施例中，由于随着降采样组合处理的依次进行，降采样组合处理涉及到的通道数也在递增，从而可以逐渐挖掘出更多关于音频处理的隐性特征，进而可以提高处理精准程度。

在一些实施例中，至少一次的特征提取组合处理中的目标特征提取组合处理之前进行有中间降采样处理；中间降采样处理包括归一化处理、非线性映射处理以及至少一次降采样卷积处理。

具体地，至少一次的降采样组合处理和至少一次的特征提取组合处理共存的处理框架可以参考图9。“至少一次的特征提取组合处理中的目标特征提取组合处理之前进行有中间降采样处理”，指的是至少一次的特征提取组合处理中存在之前进行有中间降采样处理的特征提取组合处理。其中，至少一次的特征提取组合处理中究竟是哪一次的特征提取组合处理之前进行有中间降采样处理，以及究竟有多少次特征提取组合处理之前进行有中间降采样处理，本申请实施例对此不作具体限定。以仅有中间一次特征提取组合处理之前进行有中间降采样处理为例，则结合图9，具体处理框架可参考图10。

需要说明的是，图10中关于中间降采样处理内部的执行流程，仅为其中一种示例。实际实施过程中，降采样卷积处理的进行次数可以不止一次，而是为多次。与此同时，降采样卷积处理、归一化处理与非线性映射处理之间的进行顺序可以根据需求进行设置，本申请实施例对此不作具体限定。其中，非线性映射处理主要是为了引入非线性因素，提高特征表达能力。

另外，由上述实施例的内容可知，由于在特征提取组合处理中处理的是多通道的一维向量，从而计算机设备可以对进行至少一次的降采样组合处理后的输出数据进行线性处理，以得到多通道的仅针对时域维度的一维向量。若在特征提取组合处理中，输入数据与输出数据在时域和频域的维度上，以及在通道数量上保持不变，则中间降采样处理实际上是对多个通道的一维向量在时域维度上进行降采样。由此，可将中间降采样处理中降采样卷积处理的卷积核设置为一个向量。例如，可以设置为尺寸为3的卷积核，步长可以选择为2。

在上述实施例中，由于在至少一次的特征提取组合处理中穿插有中间降采样处理，从而可以进一步降低计算量以减少运算成本并提高处理效率。另外，由于中间降采样处理中包括有非线性映射处理，从而可以引入非线性因素，提高特征表达能力。

在一些实施例中，基于中间特征矩阵进行至少一次的特征提取组合处理，得到目标特征矩阵，包括：

以串行进行2个批次的特征提取组合处理，每个批次的特征提取组合处理均包括多个串行进行的特征提取组合处理，且在第2个批次的特征提取组合处理之前进行有中间降采样处理为例，具体处理框架可参考图11。

在上述实施例中，由于可以串行执行多批次的特征提取组合处理，从而可以尽量挖掘出有助于音频处理的隐性特征，以提高后续处理精准程度。另外，由于特征提取组合处理是串行进行的，在代码执行上没有产生额外的跳转逻辑，从而可以提高代码执行效率。最后，由于在串行进行特征提取组合处理的过程中，还可以穿插中间降采样处理，从而可以降低计算量以减少运算成本并提高处理效率。

在一些实施例中，根据目标特征矩阵进行音频处理，得到针对目标音频的音频处理结果，包括：根据目标特征矩阵，获取多个文字识别预测序列和各自的发生概率；对最大发生概率相应的目标文字识别预测序列中连续出现的相同文字预测结果进行合并；删除合并后的目标文字识别预测序列中作为空白标识的文字预测结果，获得音频处理结果。

结合上述实施例的内容可知，特征提取组合处理可以处理的是多通道的一维向量，且输入数据与输出数据在时域和频域的维度上，以及在通道数量上可以保持不变。以进行至少一次的特征提取组合处理之后得到的输出数据为c个通道且维度为W/8的一维向量为例。结合c个通道数量，可将c*W/8的张量视为目标特征矩阵。通过对该c*W/8的张量作线性处理，再通过激活函数(如softmax函数)，可将线性处理结果映射为多个文字识别预测序列和各自的发生概率。需要说明的是，本步骤输出文字识别预测序列的过程，可以不用要求作为输入的目标音频与作为输出的文字识别预测序列之间严格对齐。而是在输出文字识别预测序列引入了空白标识，用来获得有效的文字识别路径。

例如，以空白标识为“∈”为例，而目标文字识别预测序列为“h h e∈∈l l l∈ll o”为例。将其中连续出现的相同文字预测结果进行合并，也即可以将“hh”合并为“h”，而将“∈∈”合并为“∈”，将“l l l”合并为“l”，将“l l”合并为“l”。由此，可以获得有效的文字识别路径，也即合并后的目标文字识别预测序列“h e∈l l o”。最后，从中删除作为空白标识的文字预测结果，可以得到音频处理结果为“h e l l o”。

在上述实施例中，由于文字预测过程输出的是整个文字识别预测序列，并不需要输入与输出严格对齐，而是利用空白标识进行分隔，有效区分出文字预测结果的冗余重复与文字预测结果的合理重复，从而使得文字预测过程受到音素发音影响更小，对于存在不标准发音的音频也能够准确预测。与此同时，由于不需要输入与输出严格对齐，从而模型训练过程中也不需要进行逐帧标注训练标签，而是对整个音频标注训练标签，从而能够降低模型训练的工作量，提升模型训练效率。

在一些实施例中，音频处理结果为文字识别预测序列，文字识别预测序列是基于按时序输出的文字预测结果所得到的；根据目标特征矩阵进行音频处理，得到针对目标音频的音频处理结果，包括：

具体地，上述内容主要是按时序输出文字预测结果的过程。对于当前输出时刻，若当前输出时刻为首次输出时刻，则参考特征矩阵可以是对在当前时刻之前输出的文字预测结果作文字embedding处理所获得的。若当前输出时刻不为首次输出时刻，则参考特征矩阵可以是对起始输出标识，如“sos”(start of sentence)，作文字embedding处理所获得的。

由此，可将参考特征矩阵作为query，而将目标特征矩阵作为key与value，先计算参考特征矩阵与目标特征矩阵之间的相似度矩阵。具体地，可先获取目标特征矩阵的转置矩阵，将目标特征矩阵的转置矩阵与参考特征矩阵作点乘，获得相乘后的第一特征矩阵。通过激活函数对该相乘后的第一特征矩阵进行处理，可以得到参考特征矩阵与目标特征矩阵之间的相似度矩阵。将该相似度矩阵与目标特征矩阵进行相乘，获得相乘后的第二特征矩阵。最后，将该相乘后的第二特征矩阵与参考特征矩阵作点乘，即可得到用于表征目标音频的全局特征的全局目标特征矩阵。

在得到全局目标特征矩阵之后，可对全局目标特征矩阵作线性处理，再通过激活函数(如softmax函数)，将线性处理结果映射为多个文字预测结果和各自的发生概率。由此，可在当前输出时刻，输出最大发生概率的文字预测结果。此时，当前输出时刻所输出的文字预测结果又可以作为获取参考特征矩阵的基础，并用在下一输出时刻。重复上述按时序输出的过程，在输出结束时(如输出“end”预设结束标识)，即可完成输出。按输出时序对文字预测结果进行整合，即可得到音频处理结果。

在上述实施例中，由于可以将每一输出时刻输出的文字预测结果与对目标音频进行特征提取所得到的目标特征矩阵，同时用于解码处理过程，而每一输出时刻输出的文字预测结果不仅可以携带之前的语义，以使得后续解码识别结合之前的语义，还可以携带语序序列的位置信息，以使得后续可以基于文字语序进行解码处理，从而可以提高处理精确性。另外，由于使用了表征目标音频的全局特征的全局目标特征矩阵，从而可以基于全局特征进行解码处理，从而也可以提高处理精确性。

在一些实施例中，方法是基于音频处理模型实现的，音频处理结果包括至少一个文字预测结果；根据目标特征矩阵进行音频处理，得到针对目标音频的音频处理结果之后，还包括：

其中，第一损失函数可以为CTC(Connectionist Temporal Classification，基于神经网络的时序类分类)损失函数，第二损失函数可以为交叉熵损失函数，也可以是词图自由的最大互信息损失函数，本申请实施例对此不作具体限定。另外，目标损失函数可以是对第一损失函数与第二损失函数进行加权求和得到，加权求和的权重可以根据需求进行设置，本申请实施例对此不作具体限定。

在上述实施例中，由于可以通过两种损失函数同时对音频处理模型进行训练，从而可以提高模型训练效果，进而提高模型后续的处理精准程度。

为了便于理解，现结合图12、图13和图14，对上述实施例所提及的内容进行解释说明。对于图13，最底下的黑白图像即为从目标音频中提取到的频谱特征图。先将频谱特征图扩展成1*H*W的频谱图张量。其中，1代表原始输入通道数，H代表频域的维度即特征数量，W代表时域维度即帧数。此时，帧率为10毫秒。然后，可以对该1*H*W的频谱图张量作降采样卷积处理。

(1)具体地，可以使用一个标准二维卷积(Conv2d)同时做时域和频域的降采样，以用于降低后续运算量。该标准二维卷积的相关参数可以为：卷积核大小3*3，步长为2*2，输入通道数1，输出通道数为c。其中，输出通道数可以根据需求进行调整。执行完上述标准二维卷积后，可以输出c*H/2*W/2大小的张量。由张量尺寸可知，帧率由10毫秒减少了一半，变为了20毫秒。接着，可以通过层归一化处理降c*H/2*W/2大小的张量中的特征值归一化至合理范围。其中，层归一化处理可以作用在通道维度上。

(2)将第(1)步的输出作为输入，送入由O个降采样卷积组合处理所组成的降采样组合处理中，也即送入该降采样组合处理中的第一个降采样卷积组合处理中。其中，降采样卷积组合处理的处理过程可参考图13中的右半部分。将c*H/2*W/2大小的张量输入至深度卷积处理。其中，深度卷积处理可以有填充，卷积核大小可以为7*7，输入通道数可以为c，输出通道数可以为c。由此，深度卷积处理的输出数据可以为c*H/2*W/2的张量。需要说明的是，使用深度卷积的计算量可以只有普通卷积的1/c倍。另外，通过使用7*7的大卷积核，可以提供更大的视野和建模能力。

接着，通过层归一化处理，再通过拓展通道数量的卷积处理，可以得到4c*H/2*W/2的输出张量。通过加入激活函数GeLU可以提供非线性能力，接着通过收缩通道数量的卷积处理，可以将张量尺寸拉回与深度卷积处理的输入数据尺寸一致，也即为c*H/2*W/2。其中，收缩通道数量的卷积处理的卷积核可以为1*1，输入通道数可以为4c，输出通道数可以为c。接着，可以对收缩通道数量的卷积处理的输出数据作缩放处理，将缩放处理后的结果与深度卷积处理的输入数据作残差处理。其中，缩放处理可以作用在通道维度上，具体可以为gamma变换，本申请实施例对此不作具体限定。由图13可知，降采样卷积组合处理可以串行进行O次。

(3)由此，经由O个降采样卷积组合处理所组成的降采样组合处理，可以输出c*H/2*W/2大小的张量。而经过上面的降采样预处理，输出得到2c*H/4*W/4的张量。其中，降采样预处理包括层归一化处理和降采样卷积处理。降采样卷积处理的卷积核可以为3*3，步长可以为2*2，输入通道数可以为c，输出通道数可以为2c。在本步骤中通道由原来的c扩大至2c，输出数据的尺寸缩小了1/2。

(4)上一步的输出经由P个降采样卷积组合处理所组成的降采样组合处理，可以输出2c*H/4*W/4的张量。

(5)上一步的输出经过上面降采样预处理，可以输出得到3c*H/8*W/4的张量。该降采样预处理同样可以包括归一化处理和降采样卷积处理。其中，降采样卷积处理的卷积核可以为3*1，步长可以为2*1，输入通道数可以2c，输出通道数可以3c。由此，输出通道数再次被放大至3c，但仅对频域维度进行降采样，时域维度的分辨率不变。

(6)上一步的输出经由P个降采样卷积组合处理所组成的降采样组合处理，可以输出3c*H/8*W/4的张量。

(7)上一步的输出经由线性处理可以得到c*W/4的张量。由此，图13相关的处理过程进行完毕。

(8)参考图12，上述步骤(1)至(7)的过程主要说明的是图12中“降采样组合处理”所进行的处理过程。此时，由时域维度由原来的W变为了W/4，从而帧率由原来的10毫秒变为了40毫秒。而通过N/2个串行的特征提取组合处理，最后输出的数据可以为c*W/4的张量。

(9)图12中有两组由N/2个串行的特征提取组合处理所组成的批次处理，在两者之间具有中间降采样处理。其中，中间降采样处理的过程可参考图14。中间降采样处理主要用于进一步降低时域的帧率，从而降低后续特征提取组合处理的计算量以达到整体计算效率提高的目的。具体过程包括：将c*W/4的张量输入至降采样卷积处理(如卷积核为3，步长为2，输入通道数为c且输出通道数为c的一维卷积)。经过降采样卷积处理，可以输出c*W/8的张量，从而实现时域的进一步降采样。接着通过非线性映射处理(GeLU激活函数)和层归一化处理，看得到最终大小为c*W/8的输出数据。

(10)上一步的输出再经由N/2个串行的特征提取组合处理，可获得最终输出的目标特征矩阵。需要说明的是，至此上述(1)至(10)主要是提取特征的编码过程，而后续过程主要是解码过程。实际实施中，提取特征的编码过程可以通过encoder架构实现，当然也可以使用transducer架构实现，本申请实施例对此不作具体限定。

关于解码过程，该目标特征矩阵可以直接经由线性处理与激活函数处理，可得到音频处理结果。也可以将目标特征矩阵输入至解码端中，从而通过进行M个特征解码处理，再经由线性处理与激活函数处理，可得到音频处理结果。其中，特征解码处理可以通过transformer模块或者长短记忆神经网络模块实现，本申请实施例对此不作具体限定。

上述实施例中，由于降采样组合处理中可以进行深度卷积处理和关于通道数量的卷积处理，而其中深度卷积处理仅需要使用与输入数据的通道数量相同的卷积核，且作卷积处理的次数与输入数据的通道数量相同，而不需要像传统卷积中那样，需要使用输入数据的通道数量与输出数据的通道数量之间的乘积个卷积核，且作卷积处理的次数与乘积相同，从而可以减少基于卷积核所作的卷积处理次数，降低计算量以减少运算成本并提高处理效率。与此同时，关于通道数量的卷积处理所使用的卷积核实际上是与输入数据的通道数量相同长度的向量，从而相对于传统卷积使用矩阵作为卷积核，可以降低基于卷积核作卷积处理时的内部计算量，以减少运算成本并提高处理效率。

本申请实施例还提供一种应用场景，该应用场景应用上述的音频处理方法，以计算机设备涉及到服务器为例进行说明。具体地，该音频处理方法在该应用场景的应用如下：

终端获取目标音频，服务器提取目标音频的频谱特征图。服务器基于频谱特征图进行至少一次的降采样组合处理，得到降采样的中间特征矩阵。服务器基于中间特征矩阵进行至少一次的特征提取组合处理，得到目标特征矩阵。服务器根据目标特征矩阵进行音频处理，得到针对目标音频的文本识别结果。服务器将文本识别结果返回至终端进行显示。

会议室内的录制终端实时获取会议中发言人发言的实时音频，并实时发送至服务器。服务器提取实时音频的频谱特征图。服务器基于频谱特征图进行至少一次的降采样组合处理，得到降采样的中间特征矩阵。服务器基于中间特征矩阵进行至少一次的特征提取组合处理，得到目标特征矩阵。服务器根据目标特征矩阵进行音频处理，得到针对实时音频的文本识别结果。服务器将文本识别结果发送至直播终端，在相应界面上显示会议直播视频内容之外，同时在视频内容下方实时显示会议中发言人发言的文本识别结果。

需要说明的是，上述应用场景为示意性的应用场景，用于帮助理解本申请的方案，并不用于限定本申请的实际应用场景。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的音频处理方法的音频处理方法装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个音频处理装置实施例中的具体限定可以参见上文中对于音频处理方法的限定，在此不再赘述。

在一些实施例中，如图15所示，提供了一种音频处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块1502、至少一个降采样组合处理模块1504、至少一个特征提取组合处理模块1506、以及音频处理模块1508，其中：

获取模块1502，用于获取目标音频的频谱特征图；频谱特征图中目标音频的多个音频帧的频率特征按照多个音频帧的时序排布；

降采样组合处理模块1504包括至少一个降采样卷积组合处理模块；降采样组合处理模块1504，用于基于频谱特征图进行至少一次的降采样组合处理，得到降采样的中间特征矩阵；降采样卷积组合处理模块包括依次连接的深度卷积处理层、拓展通道数量的卷积处理层和收缩通道数量的卷积处理层；

特征提取组合处理模块1506，用于基于中间特征矩阵进行至少一次的特征提取组合处理，得到目标特征矩阵；特征提取组合处理模块1506包括依次连接的第一前馈处理层、多头自注意力处理层、卷积处理层和第二前馈处理层；

音频处理模块1508，用于根据目标特征矩阵进行音频处理，得到针对目标音频的音频处理结果。

在一些实施例中，获取模块1502，用于采用窗口长度为预设音频帧长并按照预设步长移动的窗口，从目标音频采集获得多个音频帧；预设步长小于预设音频帧长；获取多个音频帧中每一音频帧在不同频率区间分布的频率特征并表示为像素值序列，将每一音频帧的像素值序列按音频帧时序拼合，获得目标音频的频谱特征图。

在一些实施例中，至少一个降采样组合处理模块1504中的目标降采样组合处理模块，还包括在目标降采样组合处理模块中的首次降采样卷积组合处理模块之前还连接有降采样预处理模块；降采样预处理模块，用于对通过目标降采样组合处理模块的数据进行降采样并输出适配首次降采样卷积组合处理模块的中间数据，使得中间数据经过目标降采样组合处理模块中的降采样卷积组合处理模块以进行再次降采样。

在一些实施例中，降采样预处理模块包括归一化处理层以及至少一个的降采样卷积处理层；降采样卷积处理层，用于对通过降采样卷积处理层的数据进行卷积处理以进行降采样；归一化处理层，用于对通过归一化处理层的数据进行特征值归一化。

在一些实施例中，针对至少一个降采样组合处理模块1504中目标降采样组合处理模块所包括的目标降采样预处理模块；目标降采样预处理模块中的目标降采样卷积处理层，是针对频域维度的；除目标降采样预处理模块之外，至少一次的降采样组合处理模块1504中涉及到的剩余降采样卷积处理层，针对的维度在时域维度和频域维度中至少包括频域维度；频谱特征图中目标音频的多个音频帧的频率特征按照多个音频帧的时序排布。

在一些实施例中，至少一个降采样组合处理模块1504，用于基于频谱特征图，串行进行多次降采样组合处理，得到降采样的中间特征矩阵；其中，每次的降采样组合处理包括串行进行的多次降采样卷积组合处理。

在一些实施例中，每一降采样组合处理模块1504均包括降采样预处理模块和连接在降采样预处理模块之后的多个降采样卷积组合处理模块；每个降采样组合处理模块1504中降采样卷积组合处理模块的输出数据，相比当前的降采样组合处理模块1504中降采样卷积组合处理模块的输入数据通道数相同，相比下一个的降采样组合处理模块1504中降采样卷积组合处理模块的输入数据的通道数小。

在一些实施例中，至少一个的特征提取组合处理1506中的目标特征提取组合处理模块之前连接有中间降采样处理模块；中间降采样处理模块包括归一化处理层、非线性映射处理层以及至少一个降采样卷积处理层。

在一些实施例中，至少一个的特征提取组合处理1506，用于基于中间特征矩阵，串行进行多批次的特征提取组合处理，得到目标特征矩阵；其中，每批次的特征提取组合处理包括串行进行的特征提取组合处理，至少存在一个批次的首次特征提取组合处理之前进行有中间降采样处理。

在一些实施例中，音频处理模块1508，用于根据目标特征矩阵，获取多个文字识别预测序列和各自的发生概率；对最大发生概率相应的目标文字识别预测序列中连续出现的相同文字预测结果进行合并；删除合并后的目标文字识别预测序列中作为空白标识的文字预测结果，获得音频处理结果。

在一些实施例中，音频处理模块1508，用于在当前输出时刻不为首次输出时刻的情况下，获取基于当前输出时刻之前每一输出时刻所输出的文字预测结果所获得的参考特征矩阵，在当前输出时刻为首次输出时刻的情况下，获取由起始输出标识转化得到的参考特征矩阵；获取用于表征参考特征矩阵与目标特征矩阵之间相似度的相似度矩阵，基于相似度矩阵，将目标特征矩阵与参考特征矩阵进行融合，获得用于表征目标音频的全局特征的全局目标特征矩阵；根据全局目标特征矩阵，获取当前输出时刻输出的多个文字预测结果和各自的发生概率，输出最大发生概率相应的文字预测结果，重复上述按时序输出的过程，直至输出结束，按输出顺序对每一输出时刻输出的文字预测结果进行整合，获得音频处理结果。

在一些实施例中，该装置是基于音频处理模型实现的，音频处理结果包括至少一个文字预测结果；该装置还包括：

上述音频处理装置，由于降采样组合处理中可以进行深度卷积处理和关于通道数量的卷积处理，而其中深度卷积处理仅需要使用与输入数据的通道数量相同的卷积核，且作卷积处理的次数与输入数据的通道数量相同，而不需要像传统卷积中那样，需要使用输入数据的通道数量与输出数据的通道数量之间的乘积个卷积核，且作卷积处理的次数与乘积相同，从而可以减少基于卷积核所作的卷积处理次数，降低计算量以减少运算成本并提高处理效率。与此同时，关于通道数量的卷积处理所使用的卷积核实际上是与输入数据的通道数量相同长度的向量，从而相对于传统卷积使用矩阵作为卷积核，可以降低基于卷积核作卷积处理时的内部计算量，以减少运算成本并提高处理效率。

关于对音频处理装置的具体限定可以参见上文中对于音频处理方法的限定，在此不再赘述。上述音频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端或服务器，其内部结构图可以如图16所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储音频处理模型。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频处理方法。

本领域技术人员可以理解，图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取目标音频的频谱特征图；

基于所述频谱特征图进行至少一次的降采样组合处理，得到降采样的中间特征矩阵；所述降采样组合处理包括至少一次的降采样卷积组合处理，所述降采样卷积组合处理包括依次进行的深度卷积处理、拓展通道数量的卷积处理和收缩通道数量的卷积处理；

基于所述中间特征矩阵进行至少一次的特征提取组合处理，得到目标特征矩阵；所述特征提取组合处理包括依次进行的第一前馈处理、多头自注意力处理、卷积处理和第二前馈处理；

根据所述目标特征矩阵进行音频处理，得到针对所述目标音频的音频处理结果。

2.根据权利要求1所述的方法，其特征在于，所述获取目标音频的频谱特征图，包括：

采用窗口长度为预设音频帧长并按照预设步长移动的窗口，从目标音频采集获得多个音频帧；所述预设步长小于所述预设音频帧长；

获取所述多个音频帧中每一音频帧在不同频率区间分布的频率特征并表示为像素值序列，将所述每一音频帧的像素值序列按音频帧时序拼合，获得所述目标音频的频谱特征图。

3.根据权利要求1所述的方法，其特征在于，所述至少一次的降采样组合处理中的目标降采样组合处理，还包括在所述目标降采样组合处理中的首次降采样卷积组合处理之前进行的降采样预处理；所述降采样预处理用于对通过所述目标降采样组合处理的数据进行降采样并输出适配所述首次降采样卷积组合处理的中间数据，使得所述中间数据经过所述目标降采样组合处理中的降采样卷积组合处理以进行再次降采样。

4.根据权利要求3所述的方法，其特征在于，所述降采样预处理包括归一化处理以及至少一次的降采样卷积处理；所述降采样卷积处理用于对通过所述降采样卷积处理的数据进行卷积处理以进行降采样；所述归一化处理用于对通过所述归一化处理的数据进行特征值归一化。

5.根据权利要求4所述的方法，其特征在于，针对所述至少一次的降采样组合处理中目标降采样组合处理所包括的目标降采样预处理，所述目标降采样预处理中的目标降采样卷积处理，是针对频域维度的；除所述目标降采样预处理之外，所述至少一次的降采样组合处理中涉及到的剩余降采样卷积处理，针对的维度在时域维度和频域维度中至少包括频域维度；所述频谱特征图中所述目标音频的多个音频帧的频率特征按照所述多个音频帧的时序排布。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述基于所述频谱特征图进行至少一次的降采样组合处理，得到降采样的中间特征矩阵，包括：

基于所述频谱特征图，串行进行多次降采样组合处理，得到降采样的中间特征矩阵；其中，每次的降采样组合处理包括串行进行的多次降采样卷积组合处理。

7.根据权利要求6所述的方法，其特征在于，每次的降采样组合处理均包括降采样预处理和在所述降采样预处理之后的多次降采样卷积组合处理；每次的降采样组合处理中降采样卷积组合处理的输出数据，相比本次的降采样组合处理中降采样卷积组合处理的输入数据通道数相同，相比下一次的降采样组合处理中降采样卷积组合处理的输入数据的通道数小。

8.根据权利要求1所述的方法，其特征在于，所述至少一次的特征提取组合处理中的目标特征提取组合处理之前进行有中间降采样处理；所述中间降采样处理包括归一化处理、非线性映射处理以及至少一次降采样卷积处理。

9.根据权利要求8所述的方法，其特征在于，所述基于所述中间特征矩阵进行至少一次的特征提取组合处理，得到目标特征矩阵，包括：

基于所述中间特征矩阵，串行进行多批次的特征提取组合处理，得到目标特征矩阵；其中，每批次的特征提取组合处理包括串行进行的特征提取组合处理，至少存在一个批次的首次特征提取组合处理之前进行有所述中间降采样处理。

10.根据权利要求1所述的方法，其特征在于，所述根据所述目标特征矩阵进行音频处理，得到针对所述目标音频的音频处理结果，包括：

根据所述目标特征矩阵，获取多个文字识别预测序列和各自的发生概率；

11.根据权利要求1所述的方法，其特征在于，所述音频处理结果为文字识别预测序列，所述文字识别预测序列是基于按时序输出的文字预测结果所得到的；所述根据所述目标特征矩阵进行音频处理，得到针对所述目标音频的音频处理结果，包括：

获取用于表征所述参考特征矩阵与所述目标特征矩阵之间相似度的相似度矩阵，基于所述相似度矩阵，将所述目标特征矩阵与所述参考特征矩阵进行融合，获得用于表征所述目标音频的全局特征的全局目标特征矩阵；

根据所述全局目标特征矩阵，获取当前输出时刻输出的多个文字预测结果和各自的发生概率，输出最大发生概率相应的文字预测结果，重复上述按时序输出的过程，直至输出结束，按输出顺序对每一输出时刻输出的文字预测结果进行整合，获得音频处理结果。

12.根据权利要求1至11中任一项所述的方法，其特征在于，所述方法是基于音频处理模型实现的，所述音频处理结果包括至少一个文字预测结果；所述根据所述目标特征矩阵进行音频处理，得到针对所述目标音频的音频处理结果之后，还包括：

通过目标损失函数对所述音频处理模型进行训练；所述目标损失函数是基于第一损失函数或者第二损失函数中的至少一种损失函数所确定的；

其中，所述第一损失函数是基于所述音频处理结果和所述音频处理结果相应的训练标签所构建得到的；所述第二损失函数是基于所述音频处理结果中每一文字预测结果和每一文字预测结果相应的训练标签所构建得到的。

13.一种音频处理装置，其特征在于，所述方法包括：

获取模块，用于获取目标音频的频谱特征图；

至少一个降采样组合处理模块；所述降采样组合处理模块包括至少一个降采样卷积组合处理模块；所述降采样组合处理模块，用于基于所述频谱特征图进行至少一次的降采样组合处理，得到降采样的中间特征矩阵；所述降采样卷积组合处理模块包括依次连接的深度卷积处理层、拓展通道数量的卷积处理层和收缩通道数量的卷积处理层；

至少一个特征提取组合处理模块；所述特征提取组合处理模块，用于基于所述中间特征矩阵进行至少一次的特征提取组合处理，得到目标特征矩阵；所述特征提取组合处理模块包括依次连接的第一前馈处理层、多头自注意力处理层、卷积处理层和第二前馈处理层；

音频处理模块，用于根据所述目标特征矩阵进行音频处理，得到针对所述目标音频的音频处理结果。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。