CN112581980B

CN112581980B - 时频通道注意力权重计算和向量化的方法和网络

Info

Publication number: CN112581980B
Application number: CN202110216692.3A
Authority: CN
Inventors: 陶建华; 牛明月; 刘斌; 李永伟
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-05-25
Anticipated expiration: 2041-02-26
Also published as: CN112581980A

Abstract

本申请涉及时频通道注意力权重计算和向量化的方法和网络，包括：使用球嵌入归一化对对数傅里叶幅值谱进行预处理；切分对数傅里叶幅值谱预处理数据成短时谱段，生成多通道张量；使用注意力机制计算每一个通道时间方向和频率方向的注意力权重；将时间方向和频率方向的注意力权重通过矩阵乘法获得时频注意力权重系数张量；利用注意力机制来计算时频注意力权重系数张量中各个通道的注意力权重张量；将每一个通道的注意力权重张量通过一维卷积获得时间和频率方向的向量化结果；将至少一个通道的时间方向和频率方向的向量化结果拼接起来，并利用一维卷积获得通道向量化结果；计算短时谱段的通道向量化结果的平均值并将其作为整个长时语音对应的结果。

Description

时频通道注意力权重计算和向量化的方法和网络

技术领域

本申请涉及人工智能领域，尤其涉及时频通道注意力权重计算和向量化的方法和网络。

背景技术

自动抑郁检测的目的是探索健康个体和抑郁病人在语音方面的变化规律，并提出相应的模型和方法来建立起机器在捕获抑郁线索方面的能力，增强其诊断能力，提升诊断效率。自动抑郁检测是有现力的人机交互和人工智能领域重点关注的研究方向，涉及到智能科学、数学、心理学、生理科学等多个领域。

生理学和心理研究表明，语音的不同频率段和时间段对于抑郁检测的作用是不完全相同的。换句话说，有必要在语音的频谱中重点关注那些对于抑郁检测有帮助的音频帧。此外，最近的研究表明，经过卷积操作所得到的多通道张量中的每一个通道对于目标任务来说并不具有相同的作用，因此，有必要使得模型更加关注与那些与抑郁检测任务相关的通道，而抑制那些无关的通道。

自动抑郁检测主要包括特征提取和结果预测两个步骤。能够反映个体抑郁水平的特征目前尚未有统一的标准，通常是利用传统语音特征以及视频情感特征。常见的传统语音特征有MFCC、谱低水平描述子、基频等。但是这些特征或者强烈地依赖于设计者的个人经验而会损失部分有效信息或者无法突出与抑郁相关的特征而降低特征的区分性能。在结果预测方法设计上，基本上都是使用的支持向量回归(SVR)这主要是由于目前用于自动抑郁检测的数据集规模很小，SVR在这样小的数据上会取得比较好的效果。近年来，随着深度神经网络在语音和图像领域取得的巨大成功，其在自动抑郁检测领域也得到了探索和尝试。

根据相关的生理学研究表明，正常个体和抑郁患者的语音在不同频带和时间段内存在一些差异。因此，对于提取正常个体和抑郁病人之间的差异信息对于预测个体的抑郁水平是至关重要的。换句话说，探索一种有效的提取不同抑郁水平个体之间的差异信息的方法是具有挑战性的。目前很多方法无区别地对待原始语音的所有频率和时间段来预测水平而不能够针对具有区分性的相关频率带和时间段来捕获健康个体和抑郁患者之间的差异线索。因此，在自动抑郁检测领域，使用深度神经网络来挖掘出健康个体和抑郁个体在具体频带和时间段内的差异化表示是很有必要的。

申请公布号CN 108922559 A公开了一种基于语音时频变换特征和整数线性规划的录音终端聚类方法，步骤如下：a、对读入的录音进行预处理；b、从每帧语音中提取GTCC特征；c、构造带瓶颈层的深度自编码网络并提取瓶颈特征；d、构造高斯超矢量特征；e、对a中预处理得到语音提取频谱图特征；f、将e中的频谱图特征拼接在d中的高斯超矢量之后，得到最后刻画录音终端特性的语音时频变换特征；g、利用整数线性规划算法对所有录音样本的语音时频变换特征进行聚类，将聚类结果作为最终的分类依据。本方法的特征提取和聚类均是无监督的，与目前有监督方法相比，更具普适性。

申请公布号CN 109599129 A涉及一种基于注意力机制和卷积神经网络的语音抑郁症识别方法。本发明首先对语音数据进行预处理，对较长的语音数据进行分割，依据的是分割后的片段能够充分包含抑郁症相关的特征。然后对分割后每个片段提取梅尔频谱图，调整其输入到神经网络模型的频谱图尺寸大小，以便模型的训练。之后用预训练好的Alexnet深度卷积神经网络进行权值的微调，提取梅尔频谱图中更高级的语音特征。然后用注意力机制算法，对片段级语音特征进行权重调整，得到句级的语音特征。最后对句级语音特征用SVM分类模型进行抑郁症的分类。本发明方法考虑了和抑郁症相关的语音特征的提取，提供一种基于语音的抑郁症识别的新方法。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了时频通道注意力权重计算和向量化的方法，包括：

S10：采集语音文件，所述语音文件包含长时语音，提取长时语音的对数傅里叶幅值谱；

S20：使用球嵌入归一化对对数傅里叶幅值谱进行预处理，得到对数傅里叶幅值谱预处理数据；所述球嵌入归一化为：

其中，S是语音的对数傅里叶幅值谱，

是S的第i帧，

表示计算向量的

范数，

即为对数傅里叶幅值谱预处理数据；

S30：利用滑动窗口技术切分对数傅里叶幅值谱预处理数据成具有固定长度的短时谱段，形成短时谱段集合；

S40：利用稠密连接单元和转化层模块对所述短时谱段集合中的每个短时谱段进行处理，生成多通道张量；所述转化层模块为卷积层，目的是减少张量通道数；

S50：使用注意力机制计算每一个通道时间方向的注意力权重；

S60：使用注意力机制计算每一个通道频率方向的注意力权重；

S70：将时间方向和频率方向的注意力权重通过矩阵乘法获得时频注意力权重系数张量；

S80：利用注意力机制来计算时频注意力权重系数张量中各个通道的注意力权重张量；

S90：将每一个通道的注意力权重张量沿着时间方向通过一维卷积获得时间方向的向量化结果；

S100：将每一个通道的注意力权重张量沿着频率方向通过一维卷积获得频率方向的向量化结果；

S110：将至少一个通道的时间方向和频率方向的向量化结果拼接起来，并利用一维卷积获得通道向量化结果；

S120：计算短时谱段的通道向量化结果的平均值并将其作为整个长时语音对应的结果。

优选地，所述采集语音文件的具体方法为：

S101：将原始的wav文件的采样率转换成8K并保存成wav格式的音频文件；

提取长时语音的对数傅里叶幅值谱的具体方法为：

S102：利用快速傅里叶变换对所述wav格式的音频文件进行处理得到傅里叶谱；

S103：通过对所述傅里叶谱取幅值操作获得傅里叶幅值谱；

S104：通过对所述傅里叶幅值谱取对数操作获得长时语音的对数傅里叶幅值谱。

优选地，所述利用滑动窗口技术切分对数傅里叶幅值谱预处理数据成具有固定长度的短时谱段的具体方法为：

以199帧作为窗口长，100帧作为帧移来对对数傅里叶幅值谱预处理数据进行切分以得到短时谱段，短时谱段的标签就是相应wav格式的音频文件对应的标签，并保存为mat格式。

优选地，所述使用注意力机制计算每一个通道时间方向的注意力权重的具体方法为：

S501：将每一个通道的张量进行转置操作并输入到一维卷积层中，得到时间张量卷积输出；

S502：将时间张量卷积输出输入到两个全连接层，得到时间张量全连接输出；

S503：将时间张量全连接输出输入到Softmax函数，得到时间方向的注意力权重；所述Softmax函数为：

其中，

表示输入Softmax函数的是一个

维向量，“T”表示矩阵转置。

优选地，所述使用注意力机制计算每一个通道频率方向的注意力权重的具体方法为：

S601：将每一个通道的张量输入到一维卷积层中，得到频率张量卷积输出；

S602：将频率张量卷积输出输入到两个全连接层，得到频率张量全连接输出；

S603：将频率张量全连接输出输入到Softmax函数，得到频率方向的注意力权重；所述Softmax函数为：

其中，

表示输入Softmax函数的是一个

维向量，“T”表示矩阵转置。

优选地，所述将时间方向和频率方向的注意力权重通过矩阵乘法获得时频注意力权重系数张量的具体方法为：

S701：将每一个通道时间方向的注意力权重和频率方向的注意力权重使用公式

的矩阵乘法来计算时频注意力权重；

其中，

和

分别是时间注意力权重和频率注意力权重的结果并且w就是时频注意力权重的结果；

S702：将时频注意力权重和其对应的通道进行逐个元素的相乘操作。

优选地，所述利用注意力机制来计算时频注意力权重系数张量中各个通道的注意力权重张量的具体方法为：

S801：将时频注意力权重系数张量输入全局平均池化网络层，得到时频池化权重系数张量；

S802：将时频池化权重系数张量输入到两个全连接层，得到时频全连接权重系数张量；

S803：将时频全连接权重系数张量的每一个元素和相应的通道进行权重相乘，得到时频乘积权重系数张量；

S804：将时频乘积权重系数张量和相应的通道进行残差连接。

优选地，所述将每一个通道的注意力权重张量沿着时间方向通过一维卷积获得时间方向的向量化结果的方法为：

将每一个通道的注意力权重张量进行转置操作并输入到一维卷积层中，获得时间方向的向量化结果；

将每一个通道的注意力权重张量沿着频率方向通过一维卷积获得频率方向的向量化结果的方法为：

将每一个通道的注意力权重张量输入到一维卷积层中，获得频率方向的向量化结果。

优选地，所述将至少一个通道的时间方向和频率方向的向量化结果拼接起来，并利用一维卷积获得通道向量化结果的具体方法为：

S1101：将每一个通道得到的时间方向和频率方向的向量化结果拼接成一个行向量,得到单通道时频向量化拼接输出；

S1102：将多个单通道时频向量化拼接输出按照行再次进行拼接得到一个矩阵，得到多通道时频向量化输出；

S1103：将多通道时频向量化输出输入到一维卷积中，得到多通道时频向量化卷积输出；

S1104：将多通道时频向量化卷积输出输入两个全连接层，得到短时谱段的通道向量化结果。

本发明还提供了时频通道注意力权重计算和向量化的网络，包括：提取长时语音的对数傅里叶幅值谱模块、球嵌入归一化预处理模块、滑动窗口模块、稠密连接单元和转化层模块、时间注意力模块、频率注意力模块、时频注意力模块、通道注意力模块、时间向量化模块、频率向量化模块、通道向量化模块和短时预测结果平均池化模块；所述提取长时语音的对数傅里叶幅值谱模块与所述球嵌入归一化预处理模块连接，所述球嵌入归一化预处理模块与所述滑动窗口模块连接，所述滑动窗口模块与所述稠密连接单元和转化层模块连接，所述稠密连接单元和转化层模块与所述时间注意力模块和频率注意力模块连接，所述时间注意力模块和频率注意力模块与所述时频注意力模块连接，所述时频注意力模块与所述通道注意力模块连接，所述通道注意力模块与所述时间向量化模块、频率向量化模块连接，所述时间向量化模块、频率向量化模块与所述通道向量化模块连接，所述通道向量化模块与所述短时预测结果平均池化模块连接；

提取长时语音的对数傅里叶幅值谱模块的功能为：采集语音文件，所述语音文件包含长时语音，提取长时语音的对数傅里叶幅值谱；

球嵌入归一化预处理模块的功能为：使用球嵌入归一化对对数傅里叶幅值谱进行预处理，得到对数傅里叶幅值谱预处理数据；所述球嵌入归一化为：

其中，S是语音的对数傅里叶幅值谱，

是S的第i帧，

表示计算向量的

范数，

即为对数傅里叶幅值谱预处理数据；

滑动窗口模块的功能为：利用滑动窗口技术切分对数傅里叶幅值谱预处理数据成具有固定长度的短时谱段，形成短时谱段集合；

稠密连接单元和转化层模块的功能为：利用稠密连接单元和转化层模块对所述短时谱段集合中的每个短时谱段进行处理，生成多通道张量；所述转化层模块为卷积层，目的是减少张量通道数；

时间注意力模块的功能为：使用注意力机制计算每一个通道时间方向的注意力权重；

频率注意力模块的功能为：使用注意力机制计算每一个通道频率方向的注意力权重；

时频注意力模块的功能为：将时间方向和频率方向的注意力权重通过矩阵乘法获得时频注意力权重系数张量；

通道注意力模块的功能为：利用注意力机制来计算时频注意力权重系数张量中各个通道的注意力权重张量；

时间向量化模块的功能为：将每一个通道的注意力权重张量沿着时间方向通过一维卷积获得时间方向的向量化结果；

频率向量化模块的功能为：将每一个通道的注意力权重张量沿着频率方向通过一维卷积获得频率方向的向量化结果；

通道向量化模块的功能为：将至少一个通道的时间方向和频率方向的向量化结果拼接起来，并利用一维卷积获得通道向量化结果；

短时预测结果平均池化模块的功能为：计算短时谱段的通道向量化结果的平均值并将其作为整个长时语音对应的结果。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，

（1）通过利用时频注意力机制来提取健康个体和抑郁症患者在具体频带和时间段内的差异信息；

（2）通过利用通道注意力机制来提取张量中那些有助于抑郁检测的通道；

（3）通过利用时频通道向量化方法来获得时频多通道张量的向量化结果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的时频通道注意力权重计算和向量化的方法流程图；

图2是根据一示例性实施例示出的时频通道注意力权重计算和向量化的网络的结构框图。

其中，1-提取长时语音的对数傅里叶幅值谱模块，2-球嵌入归一化预处理模块、3-滑动窗口模块，4-稠密连接单元和转化层模块，5-时间注意力模块，6-频率注意力模块，7-时频注意力模块，8-通道注意力模块，9-时间向量化模块，10-频率向量化模块，11-通道向量化模块，12-短时预测结果平均池化模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，本申请实施例提供的时频通道注意力权重计算和向量化的方法，包括：

S10：采集语音文件，所述语音文件包含长时语音，提取长时语音的对数傅里叶幅值谱。

在一些实施例中，采集语音文件的具体方法为：

提取长时语音的对数傅里叶幅值谱的具体方法为：

S103：通过对所述傅里叶谱取幅值操作获得傅里叶幅值谱；

其中，S是语音的对数傅里叶幅值谱，

是S的第i帧，

表示计算向量的

范数，

即为对数傅里叶幅值谱预处理数据。

S30：利用滑动窗口技术切分对数傅里叶幅值谱预处理数据成具有固定长度的短时谱段，形成短时谱段集合。

在一些实施例中，利用滑动窗口技术切分对数傅里叶幅值谱预处理数据成具有固定长度的短时谱段的具体方法为：

S40：利用稠密连接单元和转化层模块对所述短时谱段集合中的每个短时谱段进行处理，生成多通道张量；所述转化层模块为卷积层，目的是减少张量通道数。

S50：使用注意力机制计算每一个通道时间方向的注意力权重。

在一些实施例中，使用注意力机制计算每一个通道时间方向的注意力权重的具体方法为：

其中，

表示输入Softmax函数的是一个

维向量，“T”表示矩阵转置。

S60：使用注意力机制计算每一个通道频率方向的注意力权重。

在一些实施例中，使用注意力机制计算每一个通道频率方向的注意力权重的具体方法为：

其中，

表示输入Softmax函数的是一个

维向量，“T”表示矩阵转置。

S70：将时间方向和频率方向的注意力权重通过矩阵乘法获得时频注意力权重系数张量。

在一些实施例中，将时间方向和频率方向的注意力权重通过矩阵乘法获得时频注意力权重系数张量的具体方法为：

的矩阵乘法来计算时频注意力权重；

其中，

和

S80：利用注意力机制来计算时频注意力权重系数张量中各个通道的注意力权重张量。

在一些实施例中，利用注意力机制来计算时频注意力权重系数张量中各个通道的注意力权重张量的具体方法为：

S801：将时频注意力权重系数张量输入全局平均池化网络层，时频池化权重系数张量；

S804：将时频乘积权重系数张量和相应的通道进行残差连接。

在一些实施例中，将每一个通道的注意力权重张量沿着时间方向通过一维卷积获得时间方向的向量化结果的方法为：

将每一个通道的注意力权重张量进行转置操作并输入到一维卷积层中，获得时间方向的向量化结果。

在一些实施例中，将每一个通道的注意力权重张量沿着频率方向通过一维卷积获得频率方向的向量化结果的方法为：

S110：将至少一个通道的时间方向和频率方向的向量化结果拼接起来，并利用一维卷积获得通道向量化结果。

在一些实施例中，将至少一个通道的时间方向和频率方向的向量化结果拼接起来，并利用一维卷积获得通道向量化结果的具体方法为：

基于同一发明构思，本申请实施例还提供了时频通道注意力权重计算和向量化的网络，包括：对数傅里叶幅值谱模块1、球嵌入归一化预处理模块2、滑动窗口模块3、稠密连接单元和转化层模块4、时间注意力模块5、频率注意力模块6、时频注意力模块7、通道注意力模块8、时间向量化模块9、频率向量化模块10、通道向量化模块11和短时预测结果平均池化模块12；所述提取长时语音的对数傅里叶幅值谱模块1与所述球嵌入归一化预处理模块2连接，所述球嵌入归一化预处理模块2与所述滑动窗口模块3连接，所述滑动窗口模块3与所述稠密连接单元和转化层模块4连接，所述稠密连接单元和转化层模块4与所述时间注意力模块5和频率注意力模块6连接，所述时间注意力模块5和频率注意力模块6与所述时频注意力模块7连接，所述时频注意力模块7与所述通道注意力模块8连接，所述通道注意力模块8与所述时间向量化模块9、频率向量化模块10连接，所述时间向量化模块9、频率向量化模块10与所述通道向量化模块11连接，所述通道向量化模块11与所述短时预测结果平均池化模块12连接；

对数傅里叶幅值谱模块1的功能为：采集语音文件，所述语音文件包含长时语音，提取长时语音的对数傅里叶幅值谱；

球嵌入归一化预处理模块2的功能为：使用球嵌入归一化对对数傅里叶幅值谱进行预处理，得到对数傅里叶幅值谱预处理数据；所述球嵌入归一化为：

其中，S是语音的对数傅里叶幅值谱，

是S的第i帧，

表示计算向量的

范数，

即为对数傅里叶幅值谱预处理数据；

滑动窗口模块3的功能为：利用滑动窗口技术切分对数傅里叶幅值谱预处理数据成具有固定长度的短时谱段，形成短时谱段集合；

稠密连接单元和转化层模块4的功能为：利用稠密连接单元和转化层模块对所述短时谱段集合中的每个短时谱段进行处理，生成多通道张量；所述转化层模块为卷积层，目的是减少张量通道数；

时间注意力模块5的功能为：使用注意力机制计算每一个通道时间方向的注意力权重；

频率注意力模块6的功能为：使用注意力机制计算每一个通道频率方向的注意力权重；

时频注意力模块7的功能为：将时间方向和频率方向的注意力权重通过矩阵乘法获得时频注意力权重系数张量；

通道注意力模块8的功能为：利用注意力机制来计算时频注意力权重系数张量中各个通道的注意力权重张量；

时间向量化模块9的功能为：将每一个通道的注意力权重张量沿着时间方向通过一维卷积获得时间方向的向量化结果；

频率向量化模块10的功能为：将每一个通道的注意力权重张量沿着频率方向通过一维卷积获得频率方向的向量化结果；

通道向量化模块11的功能为：将至少一个通道的时间方向和频率方向的向量化结果拼接起来，并利用一维卷积获得通道向量化结果；

短时预测结果平均池化模块12的功能为：计算短时谱段的通道向量化结果的平均值并将其作为整个长时语音对应的结果。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.时频通道注意力权重计算和向量化的方法，其特征在于，包括：

其中，S是语音的对数傅里叶幅值谱，

是S的第i帧，

表示计算向量的

范数，

即为对数傅里叶幅值谱预处理数据；

2.根据权利要求1所述的时频通道注意力权重计算和向量化的方法，其特征在于，所述采集语音文件的具体方法为：

提取长时语音的对数傅里叶幅值谱的具体方法为：

S103：通过对所述傅里叶谱取幅值操作获得傅里叶幅值谱；

3.根据权利要求2所述的时频通道注意力权重计算和向量化的方法，其特征在于，所述利用滑动窗口技术切分对数傅里叶幅值谱预处理数据成具有固定长度的短时谱段的具体方法为：

4.根据权利要求1所述的时频通道注意力权重计算和向量化的方法，其特征在于，所述使用注意力机制计算每一个通道时间方向的注意力权重的具体方法为：

其中，

表示输入Softmax函数的是一个

维向量，“T”表示矩阵转置。

5.根据权利要求1所述的时频通道注意力权重计算和向量化的方法，其特征在于，所述使用注意力机制计算每一个通道频率方向的注意力权重的具体方法为：

其中，

表示输入Softmax函数的是一个

维向量，“T”表示矩阵转置。

6.根据权利要求1所述的时频通道注意力权重计算和向量化的方法，其特征在于，所述将时间方向和频率方向的注意力权重通过矩阵乘法获得时频注意力权重系数张量的具体方法为：

的矩阵乘法来计算时频注意力权重；

其中，

和

7.根据权利要求1所述的时频通道注意力权重计算和向量化的方法，其特征在于，所述利用注意力机制来计算时频注意力权重系数张量中各个通道的注意力权重张量的具体方法为：

S804：将时频乘积权重系数张量和相应的通道进行残差连接。

8.根据权利要求1所述的时频通道注意力权重计算和向量化的方法，其特征在于，所述将每一个通道的注意力权重张量沿着时间方向通过一维卷积获得时间方向的向量化结果的方法为：

9.根据权利要求1所述的时频通道注意力权重计算和向量化的方法，其特征在于，所述将至少一个通道的时间方向和频率方向的向量化结果拼接起来，并利用一维卷积获得通道向量化结果的具体方法为：

10.时频通道注意力权重计算和向量化的网络，其特征在于，包括：对数傅里叶幅值谱模块、球嵌入归一化预处理模块、滑动窗口模块、稠密连接单元和转化层模块、时间注意力模块、频率注意力模块、时频注意力模块、通道注意力模块、时间向量化模块、频率向量化模块、通道向量化模块和短时预测结果平均池化模块；提取长时语音的对数傅里叶幅值谱模块与所述球嵌入归一化预处理模块连接，所述球嵌入归一化预处理模块与所述滑动窗口模块连接，所述滑动窗口模块与所述稠密连接单元和转化层模块连接，所述稠密连接单元和转化层模块与所述时间注意力模块和频率注意力模块连接，所述时间注意力模块和频率注意力模块与所述时频注意力模块连接，所述时频注意力模块与所述通道注意力模块连接，所述通道注意力模块与所述时间向量化模块、频率向量化模块连接，所述时间向量化模块、频率向量化模块与所述通道向量化模块连接，所述通道向量化模块与所述短时预测结果平均池化模块连接；

对数傅里叶幅值谱模块的功能为：采集语音文件，所述语音文件包含长时语音，提取长时语音的对数傅里叶幅值谱；

其中，S是语音的对数傅里叶幅值谱，

是S的第i帧，

表示计算向量的

范数，

即为对数傅里叶幅值谱预处理数据；