CN112700796B

CN112700796B - 一种基于交互式注意力模型的语音情感识别方法

Info

Publication number: CN112700796B
Application number: CN202011521398.5A
Authority: CN
Inventors: 陈仙红; 鲍长春
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2022-09-23
Anticipated expiration: 2040-12-21
Also published as: CN112700796A

Abstract

本发明提出一种基于交互式注意力模型的语音情感识别方法，属于语音信号处理、情感识别与机器学习领域。文本信息和声学信息是语音包含的两种重要信息，这两种信息对情感识别有重要作用。与现有语音情感识别技术相比，本发明同时利用文本和声学两个模态进行情感识别，包括语音预处理、语音识别、词向量提取、强制对齐、词级别声学特征提取、表示学习、模态融合、情感分类几个步骤。表示学习阶段提出交互式注意力模型，在词层面用一个模态的信息来帮助学习另一个模态的情感表示。模态融合阶段，在语句层面学习文本和模态的互补信息。本发明充分利用两个模态不同层次的互补信息进行情感识别，有效地提高语音情感识别的准确率。

Description

一种基于交互式注意力模型的语音情感识别方法

技术领域

本发明属于语音信号处理、情感识别与机器学习领域，特别地涉及一种基于交互式注意力模型的语音情感识别方法。

背景技术

语音情感识别，即从说话人的语音信号中识别出说话人即时的情绪状态，比如高兴、悲伤、生气、吃惊、厌恶与恐惧。

近年来，语音情感识别在教育、安全、语音交互、心理指导等领域发挥着越来越重要的作用。在教育领域，语音情感识别能够捕捉学生学习过程中的情绪变化，进而推断其学习效率与积极性，辅助教师进行指导；在安全领域，例如在审讯情境中，语音情感识别能够从被审讯人的语音中窥见其情绪及内心的真实想法，从而辅助审讯官做出更合理的决策；在人机交互领域，语音情感识别能够为交互增加更多人情味，提高用户体验；在心理指导领域，语音情感识别也能够为心理健康诊断提供辅助性的建议，减少医护人员的负担。虽然语音情感识别应用广泛，但是语音情感识别的性能还有待提高。

较早的语音情感识别方法一般根据声学信息提取手工特征，然后使用经典的分类器(例如支持向量机、梯度提升决策树、极限学习机等)输出某个情感标签。近年来，神经网络在语音识别、计算机视觉等领域得到广泛应用，并表现出强大的特征提取能力。因此，一些语音情感识别方法将手工特征或者原始声学特征送入这些神经网络获得合适的表示，再使用后端分类器进行判决。由于这些方法只用到语音的声学信息，但是语音中的文本信息也从不同角度透露出情感状态，因此一些语音情感识别方法将语音中的声学和文本两个模态进行融合。

传统情感识别采用的模态融合策略主要分为特征拼接和表示融合。特征拼接首先提取各个模态各自的原始特征，将这些特征进行拼接后输入到统一的模型进行识别，得到结果。该方法可以学到两个模态之间的相互作用，但是不同模态不能使用各自最适合的模型。表示融合用各个模态各自的最适合的模型来提取该模态的语句层面的表示，然后再将两个模态的语句层面的表示输入到一个统一的模型进行识别。该方法既考虑了模态间的相互作用，又可以对不同模态用不同的模型进行处理。但是表示融合仍然存在一些问题：1.默认不同模态之间的相互作用只存在于语句层面。2.模态融合在语句层进行，其粒度比较大，不能学习到模态间比较细腻的相互作用信息。因此，表示融合没有充分学习两个模态的互补信息来进行情感识别。

针对传统语音情感识别方法存在的问题，本项目提出基于交互式注意力模型的语音情感识别方法。一方面，本发明采用声学和文本两个模态进行语音情感识别，充分利用语音中同时存在的对情感识别起到互补作用的声学和文本信息。另一方面，本发明提出交互式注意力模型并应用于语音情感识别，在表示学习阶段，在词层面利用一个模态的信息来帮助学习另一个模态的情感表示，使每个词对应的来自文本和声学的情感表示更准确；接着在语句层对学习到的两个模态的情感表示进行模态融合。本发明不仅可以在词层面和语句层面学到两个模态不同层次的相互作用，还可以让每个模态由各自最适合的模型进行处理。因此，本发明能有效提高语音情感识别的准确率。

发明内容

本发明的目的是为克服传统语音情感识别技术只考虑声学模态；或考虑了声学和文本模态，但是只在语句层面对两个模态进行融合，不能充分学习两个模态不同层次的互补信息进行情感识别的问题，提出一种基于交互式注意力模型的语音情感识别方法。该方法将语音帧和文本在词层面进行对齐，提取每个词对应的文本特征和声学特征。在表示学习阶段，交互式注意力模型利用一个模态的信息来帮助学习另一个模态的情感表示，学习模态间比较细腻的相互作用信息，使每个词对应的来自文本和声学的情感表示更准确，在词层面发挥两个模态的相互作用。再将两个模态的情感表示在语句层面进行融合，最后进行情感分类。本发明通过多层次的模态相互作用，有效地提高语音情感识别的准确率。

本发明提出一种基于交互式注意力模型的语音情感识别方法，其特征在于，如附图1所示，包括语音预处理、语音识别、词向量提取、强制对齐，词级别声学特征提取、表示学习、模态融合、情感分类步骤。具体包括以下步骤：

1)语音预处理：对输入语音进行分帧加窗、活动语音检测(通过计算每帧语音的能量，判断该帧语音是否为静音，若为静音则去除该帧)处理；提取每帧语音的梅尔倒谱特征和对数梅尔谱特征。

2)语音识别：将整条语音的梅尔倒谱特征输入到语音识别器中，识别出该条语音对应的文本。

3)词向量提取：根据步骤2)得到的语音对应的文本，提取文本中每个词的词向量。将第n个词对应的词向量记为

整条语音的词向量为

N为该条语音中词的个数。

4)强制对齐：根据步骤2)得到的语音对应的文本和语音的梅尔倒谱特征，得到每个词对应的语音范围，也就是每个词对应的语音起始帧和结束帧。

5)词级别声学特征提取：将步骤4)得到的每个词对应的语音范围内的对数梅尔谱特征输入到时延神经网络并做池化。时延神经网络的层数可以设置为2层到4层，每一层的节点数可以设置为64个到1024个，激活函数为ReLU函数。池化层对时延神经网络输出的每个词对应的语音的所有帧的结果求平均，得到每个词对应的声学特征。第n个词对应的声学特征记为将

整条语音词级别的声学特征为

6)表示学习：学习文本信息对应的情感表示R^t和声学信息对应的情感表示R^a。具体包括以下几个步骤：

6.1)将步骤3)和步骤5)得到的语音的词向量F^t和词级别声学特征F^a输入到交互式注意力模型中，得到文本对应的注意力输出A^t和声学对应的注意力输出A^a。交互式注意力模型有图2或图3所示的两种实现方法。

如图2所示的实现方法具体包括以下步骤：

6.1.1)将词向量F^t输入到多层全连接神经网络h₁，h₂和h₃中，得到输出h₁(F^t)，h₂(F^t)和h₃(F^t)。h₁，h₂和h₃的层数为3层，输入节点数为词向量的维度，输出节点数为200，中间层节点数为512，激活函数为ReLU函数。将词级别声学特征F^a输入到神经网络h₄，h₅和h₆中，得到输出h₄(F^a)，h₅(F^a)和h₆(F^a)。h₄，h₅和h₆的层数为3层，输入节点数为词级别声学特征的维度，输出节点数为168，中间层节点数为512，激活函数为ReLU函数。

6.1.2)权重计算：根据文本模态计算得到的权重W^t为

其中softmax表示softmax函数，d^t表示h₃(F^t)的特征维度，T表示转置。在根据声学模态计算得到的权重W^a为

其中d^a表示h₄(F^a)的特征维度。

6.1.3)权重共享：根据文本模态对应的权重W^t和声学模态对应的权重W^a，计算两个模态共享的权重W为

6.1.4)相乘：得到文本对应的注意力输出为A^t＝h₁(F^t)W，声学对应的注意力输出为A^a＝h₆(F^a)W。

如图3所示的实现方法具体包括以下步骤：

6.1.1)拼接：将词向量F^t和词级别声学特征F^a进行拼接得到F。也就是将第n个词对应的词向量

和第n个词对应的声学特征

拼接为一个特征f_n，整条语音对应的拼接特征为F＝[f₁，…，f_n，…，f_N]。

6.1.2)将词向量F^t输入到多层全连接神经网络h₁和h₂中，得到输出h₁(F^t)和h₂(F^t)。h₁和h₂的层数为3层，输入节点数为词向量的维度，输出节点数设置为200，中间层节点数为512，激活函数为ReLU函数。将词级别声学特征F^a输入到多层全连接神经网络h₅和h₆中，得到输出h₅(F^a)和h₆(F^a)。h₅和h₆的层数为3层，输入节点个数为词级别声学特征的维度，输出节点数设置为168，中间层节点数为512，激活函数为ReLU函数。将拼接特征F输入到多层全连接神经网络h₃和h₄中，得到输出h₃(F)和h₄(F)。h₃和h₄的层数为3层，输入节点个数为词向量的维度加上词级别声学特征的维度，中间层节点数为512，激活函数为ReLU函数。h₃的输出节点数设置为200，h₄的输出节点数设置为168。

6.1.3)权重计算：根据文本模态计算得到的权重W^t为

其中softmax表示softmax函数，d^t表示h₃(F^t)的特征维度，T表示转置。根据声学模态计算得到的权重W^a为

其中d^a表示h₅(F^a)的特征维度。

6.1.4)相乘：得到文本对应的注意力输出为A^t＝h₁(F^t)W^t，声学对应的注意力输出为A^a＝h₆(F^a)W^a。

6.2)将步骤6.1)得到的A^t输入到神经网络h_t中，得到文本对应的情感表示R^t＝h^t(A^t)。同理将步骤6.1)得到的A^a输入到神经网络h_a中，得到声学对应的情感表示R^a＝h^a(A^a)。R^t的第n列表示第n个词对应的来自文本的情感表示，R^a的第n列表示第n个词对应的来自声学的情感表示。神经网络h_t可以设置为文本模态最适合的网络模型，比如循环神经网络。循环神经网络共1层，输入节点数为A^t的维度，输出节点数为180，激活函数为ReLU函数。神经网络h_a可以设置为声学模态最适合的网络模型，比如时延神经网络。时延神经网络共1层，输入为A^a，输出节点数为150，激活函数为ReLU函数。

7)模态融合：如图4所示，将文本信息对应的情感表示R^t和声学信息对应的情感表示R^a进行拼接，输入到卷积神经网络中，再进行矩阵到向量的转换，得到融合后的情感表示r。卷积神经网络的层数为1层，对应的核函数的接收域为6*3，通道个数为5，激活函数为ReLU函数。

8)情感分类：将融合后的情感表示r输入到一个全连接神经网络中，网络的层数为2层到4层，前几层每层节点数为256个到6000个，激活函数为ReLU函数，最后一层为softmax层，输出节点对应不同的情感状态，网络输出为该条语音对应每种情感状态的概率。最终识别结果即为概率最大的情感。

完成语音的情感识别。

本发明的特点及有益效果在于：

与现有语音情感识别技术相比，本发明同时利用文本和声学两个模态进行情感识别。首先将语音帧和文本在词层面进行对齐，提取每个词对应的文本特征和声学特征，利用提出的交互式注意力模型，在表示学习阶段，在词层面用一个模态的信息来帮助另一个模态的情感表示的学习，提高文本和声学的情感表示的准确率。其次在模态融合阶段，在语句层面学习文本和模态的互补信息。本发明充分利用两个模态不同层次的互补信息进行情感识别，有效地提高语音情感识别的准确率。

附图说明

图1是本发明方法的总体流程图。

图2是本发明方法提出的交互式注意力模型第一种实现方法示意图。

图3是本发明方法提出的交互式注意力模型第二种实现方法示意图。

图4是本发明方法中的模态融合示意图。

具体实施方式

本发明提出一种基于交互式注意力模型的语音情感识别方法，其特征在于，如附图1所示，包括语音预处理、语音识别、词向量提取、强制对齐，词级别声学特征提取、表示学习、模态融合、情感分类步骤。下面结合附图对具体实施例进一步详细说明如下：

1)语音预处理：对输入语音进行分帧加窗、活动语音检测(通过计算每帧语音的能量，判断该帧语音是否为静音，若为静音则去除该帧)处理；提取每帧语音的梅尔倒谱特征和对数梅尔谱特征。在本实施例中，去除静音帧后语音总帧数为255帧，每帧语音的梅尔倒谱特征为23维，对数梅尔谱特征为64维。

2)语音识别：将整条语音的梅尔倒谱特征输入到语音识别器中，识别出该条语音对应的文本。在本实施例中，该条语音对应的文本为：What the hell is this.

整条语音的词向量为

N为该条语音中词的个数。在本实施例中，每个词对应的词向量为300维的GloVe向量，也就是

的维度为300，词的个数N＝5，

为300*5的矩阵。

4)强制对齐：根据步骤2)得到的语音对应的文本和语音的梅尔倒谱特征，得到每个词对应的语音范围，也就是每个词对应的语音起始帧和结束帧。在本实施例中，得到What对应语音的第0帧到第67帧，the对应语音的第68帧到第103帧，hell对应语音的第104帧到第180帧，is对应语音的第181帧到第211帧，this对应语音的第212帧到第255帧。

整条语音词级别的声学特征为

在本实施例中，时延神经网络为2层，第一层的节点数为512，第二层的节点数(输出节点数)为256。例如对于第3个词hell，将步骤4)hell对应的第104帧到第180帧共180-104+1＝77帧语音对应的64维对数梅尔谱特征，输入到时延神经网络中，得到256*77的输出，再将这77帧求平均，也就是池化，得到hell对应的词级别声学特征

为256维的向量。

为256*5的矩阵。

如图2所示的实现方法具体包括以下步骤：

6.1.1)将词向量F^t输入到神经网络h₁，h₂和h₃中，得到输出h₁(F^t)，h₂(F^t)和h₃(F^t)。h₁，h₂和h₃的层数为3层，输入节点数为词向量的维度，输出节点数为200，中间层节点数为512，激活函数为ReLU函数。将词级别声学特征F^a输入到神经网络h₄，h₅和h₆中，得到输出h₄(F^a)，h₅(F^a)和h₆(F^a)。h₄，h₅和h₆的层数为3层，输入节点数为词级别声学特征的维度，输出节点数为168，中间层节点数为512，激活函数为ReLU函数。在本实施例中，h₁，h₂和h₃的输入节点数为词向量的维度300，输出节点数为200，输出h₁(F^t)，h₂(F^t)和h₃(F^t)为200*5的矩阵。h₄，h₅和h₆的输入节点数为词级别声学特征的维度256，输出节点数为168，输出h₄(F^a)，h₅(F^a)和h₆(F^a)为168*5的矩阵。

6.1.2)权重计算：根据文本模态计算得到的权重W^t为

其中softmax表示softmax函数，d^t表示h₃(F^t)的特征维度，T表示转置。在本实施例中d^t＝200。在根据声学模态计算得到的权重W^a为

其中d^a表示h₄(F^a)的特征维度，在本实施例中d^a＝168。

6.1.4)相乘：得到文本对应的注意力输出为A^t＝h₁(F^t)W，声学对应的注意力输出为A^a＝h₆(F^a)W。在本实施例中，得到A^t为200*5的矩阵，得到A^a为168*5的矩阵。

如图3所示的实现方法具体包括以下步骤：

和第n个词对应的声学特征

拼接为一个特征f_n，整条语音对应的拼接特征为F＝[f₁，…，f_n，…，f_N]。在本实施例中，词向量

的维度为300，和词级别声学特征

的维度为256，两者拼接得到维度为556的f_n，F是556*5的矩阵。

6.1.2)将词向量F^t输入到多层全连接神经网络h₁和h₂中，得到输出h₁(F^t)和h₂(F^t)。h₁和h₂的层数为3层，输入节点个数为词向量的维度，输出节点数设置为200，中间层节点数为512，激活函数为ReLU函数。将词级别声学特征F^a输入到多层全连接神经网络h₅和h₆中，得到输出h₅(F^a)和h₆(F^a)。h₅和h₆的层数为3层，输入节点个数为词级别声学特征的维度，输出节点数设置为168，中间层节点数为512，激活函数为ReLU函数。将拼接特征F输入到多层全连接神经网络h₃和h₄中，得到输出h₃(F)和h₄(F)。h₃和h₄的层数为3层，输入节点个数为词向量的维度加上词级别声学特征的维度，中间层节点数为512，激活函数为ReLU函数。h₃的输出节点数设置为200，h₄的输出节点数设置为168。在本实施例中，h₁和h₂的输入节点数为词向量的维度300，输出节点数为200，输出h₁(F^t)和h₂(F^t)为200*5的矩阵。h₅和h₆的输入节点个数为词级别声学特征的维度256，输出节点数为168，输出h₅(F^a)和h₆(F^a)为168*5的矩阵。h₃的输入节点个数为拼接特征的维度556，输出节点数为200，输出h₃(F)为168*5的矩阵。h₄的输入节点个数为拼接特征的维度556，输出节点数为168，输出h₄(F)都为168*5的矩阵。

6.1.3)权重计算：根据文本模态计算得到的权重W^t为

其中softmax表示softmax函数，d^t表示h₃(F^t)的特征维度，T表示转置。在本实施例中d^t＝200。根据声学模态计算得到的权重W^a为

其中d^a表示h₅(F^a)的特征维度。在本实施例中d^a＝168。

6.1.4)相乘：得到文本对应的注意力输出为A^t＝h₁(F^t)W^t，声学对应的注意力输出为A^a＝h₆(F^a)W^a。在本实施例中，得到A^t为200*5的矩阵，得到A^a为168*5的矩阵。

6.2)将步骤6.1)得到的A^t输入到神经网络h_t中，得到文本对应的情感表示R^t＝h^t(A^t)。同理将步骤6.1)得到的A^a输入到神经网络h_a中，得到声学对应的情感表示R^a＝h^a(A^a)。在本实施例中，神经网络h_t采用1层的循环神经网络，输入节点为A^t的维度200，输出节点设置为180，激活函数为ReLU函数，输出R^t＝h^t(A^t)为180*5的矩阵，R^t的第n列表示第n个词对应的来自文本的情感表示。神经网络h_a采用1层的时延神经网络，输入为A^a，输出节点设置为150，激活函数为ReLU函数，输出R^a＝h^a(A^a)为150*5的矩阵，R^a的第n列表示第n个词对应的来自声学的情感表示。

7)模态融合：如图4所示，将文本信息对应的情感表示R^t和声学信息对应的情感表示R^a进行拼接，输入到卷积神经网络中，再进行矩阵到向量的转换，得到融合后的情感表示r。卷积神经网络的层数为1层，对应的核函数的接收域为6*3，通道个数为5，激活函数为ReLU函数。在本实施例中，由步骤6.2)得到的R^t的维度为180*5，R^a的维度为150*5，两者拼接成维度为330*5的表示。将该表示输入到核函数为6*3，通道数为5的1层的卷积神经网络中，得到330*5*5的输出。再进行矩阵到向量的转换，得到融合后的维度为8250的情感表示r。

8)情感分类：将融合后的情感表示r输入到一个全连接神经网络中，网络的层数为2层到4层，前几层每层节点个数为256个到6000个，激活函数为ReLU函数，最后一层为softmax层，输出节点对应不同的情感状态，网络输出为该条语音对应每种情感状态的概率。最终识别结果即为概率最大的情感。在本实施例中，维度为8250的情感表示r输入到3层的全连接网络中，其中网络第一层节点数为5000；网络第二层节点数为3000；网络最后一层为softmax层，节点对应不同的情感状态，本实施例识别6种情感(高兴、悲伤、生气、吃惊、厌恶与恐惧)，因此输出节点数为6。第1到6个节点分别对应高兴、悲伤、生气、吃惊、厌恶和恐惧。通过该全连接神经网络最终识别出该条语音对应这6种情感的概率为[0.02,0.08,0.12,0.54,0.09,0.15]，概率最大的为0.54，对应吃惊，即该条语音的情感识别结果为吃惊。

完成语音的情感识别。

本发明所述方法，本领域普通技术人员可以理解为，上述语音情感识别的方法可以通过程序来完成的，所述的程序可以存储于一种计算机可读存储介质中。

以上所述的仅为本发明的一个具体实施例而已，显然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于交互式注意力模型的语音情感识别方法，其特征在于，包括：

1)语音预处理：对输入语音进行分帧加窗、活动语音检测处理；提取每帧语音的梅尔倒谱特征和对数梅尔谱特征；活动语音检测处理为通过计算每帧语音的能量，判断该帧语音是否为静音，若为静音则去除该帧；

2)语音识别：将整条语音的梅尔倒谱特征输入到语音识别器中，识别出该条语音对应的文本；

3)词向量提取：根据步骤2)得到的语音对应的文本，提取文本中每个词的词向量；将第n个词对应的词向量记为

整条语音的词向量为

N为该条语音中词的个数；

4)强制对齐：根据步骤2)得到的语音对应的文本和语音的梅尔倒谱特征，得到每个词对应的语音范围，也就是每个词对应的语音起始帧和结束帧；

5)词级别声学特征提取：将步骤4)得到的每个词对应的语音范围内的对数梅尔谱特征输入到时延神经网络并做池化；时延神经网络的层数设置为2层到4层，每一层的节点数设置为64个到1024个，激活函数为ReLU函数；池化层对时延神经网络输出的每个词对应的语音的所有帧的结果求平均，得到每个词对应的声学特征；将第n个词对应的声学特征记为

整条语音词级别的声学特征为

6)表示学习：学习文本信息对应的情感表示R^t和声学信息对应的情感表示R^a，具体包括以下几个步骤：

6.1)将步骤3)和步骤5)得到的语音的词向量F^t和词级别声学特征F^a输入到交互式注意力模型中，得到文本对应的注意力输出A^t和声学对应的注意力输出A^a；

6.2)将步骤6.1)得到的A^t输入到神经网络h_t中，得到文本对应的情感表示R^t＝h^t(A^t)；将步骤6.1)得到的A^a输入到神经网络h_a中，得到声学对应的情感表示R^a＝R^a(A^a)；R^t的第n列表示第n个词对应的来自文本的情感表示，R^a的第n列表示第n个词对应的来自声学的情感表示；神经网络h_t设置为循环神经网络；循环神经网络共1层，输入节点数为A^t的维度，输出节点数为180，激活函数为ReLU函数；神经网络h_a设置为时延神经网络；时延神经网络共1层，输入为A^a，输出节点数为150，激活函数为ReLU函数；

7)模态融合：将文本信息对应的情感表示R^t和声学信息对应的情感表示R^a进行拼接，输入到卷积神经网络中，再进行矩阵到向量的转换，得到融合后的情感表示r；卷积神经网络的层数为1层，对应的核函数的接收域为6*3，通道个数为5，激活函数为ReLU函数；

8)情感分类：将融合后的情感表示r输入到一个全连接神经网络中，网络的层数为2层到4层，前几层每层节点数为256个到6000个，激活函数为ReLU函数，最后一层为softmax层，输出节点对应不同的情感状态，网络输出为该条语音对应每种情感状态的概率；最终识别结果即为概率最大的情感；

交互式注意力模型有两种实现方法；

第一种实现方法具体包括以下步骤：

1)将词向量F^t输入到多层全连接神经网络h₁，h₂和h₃中，得到输出h₁(F^t)，h₂(F^t)和h₃(F^t)；h₁，h₂和h₃的层数为3层，输入节点数为词向量的维度，输出节点数为200，中间层节点数为512，激活函数为ReLU函数；将词级别声学特征F^a输入到多层全连接神经网络h₄，h₅和h₆中，得到输出h₄(F^a)，h₅(F^a)和h₆(F^a)；h₄，h₅和h₆的层数为3层，输入节点数为词级别声学特征的维度，输出节点数为168，中间层节点数为512，激活函数为ReLU函数；

2)权重计算：根据文本模态计算得到的权重W^t为

其中softmax表示softmax函数，d^t表示h₃(F^t)的特征维度，T表示转置；在根据声学模态计算得到的权重W^a为

其中d^a表示h₄(F^a)的特征维度；

3)权重共享：根据文本模态对应的权重W^t和声学模态对应的权重W^a，计算两个模态共享的权重W为

4)相乘：得到文本对应的注意力输出为A^t＝h₁(F^t)W，声学对应的注意力输出为A^a＝h₆(F^a)W；

第二种实现方法具体包括以下步骤：

1)拼接：将词向量F^t和词级别声学特征F^a进行拼接得到F；也就是将第n个词对应的词向量

和第n个词对应的声学特征

拼接为一个特征f_n，整条语音对应的拼接特征为F＝[f₁，…，f_n，…，f_N]；

2)将词向量F^t输入到多层全连接神经网络h₁和h₂中，得到输出h₁(F^t)和h₂(F^t)；h₁和h₂的层数为3层，输入节点数为词向量的维度，输出节点数设置为200，中间层节点数为512，激活函数为ReLU函数；将词级别声学特征F^a输入到多层全连接神经网络h₅和h₆中，得到输出h₅(F^a)和h₆(F^a)；h₅和h₆的层数为3层，输入节点个数为词级别声学特征的维度，输出节点数设置为168，中间层节点数为512，激活函数为ReLU函数；将拼接特征F输入到多层全连接神经h₃和h₄中，得到输出h₃(F)和h₄(F)；h₃和h₄的层数为3层，输入节点个数为词向量的维度加上词级别声学特征的维度，中间层节点数为512，激活函数为ReLU函数；h₃的输出节点数设置为200，h₄的输出节点数设置为168；

3)权重计算：根据文本模态计算得到的权重W^t为

其中softmax表示softmax函数，d^t表示h₃(F^t)的特征维度，T表示转置；根据声学模态计算得到的权重W^a为

其中d^a表示h₅(F^a)的特征维度；

4)相乘：得到文本对应的注意力输出为A^t＝h₁(F^t)W^t，声学对应的注意力输出为A^a＝h₆(F^a)W^a。