CN115810351B

CN115810351B - 一种基于视听融合的管制员语音识别方法及装置

Info

Publication number: CN115810351B
Application number: CN202310090186.3A
Authority: CN
Inventors: 林毅; 郭东岳
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-04-25
Anticipated expiration: 2043-02-09
Also published as: CN115810351A

Abstract

本发明公开了一种基于视听融合的管制员语音识别方法及装置，包括以下步骤：步骤1：采集管制员视听数据，对视听数据进行预处理构建视听数据集；步骤2：构建语音表示模型并进行预训练；步骤3：构建视频表示模型并进行预训练；视频表示模型包括帧内表示模型和帧间表示模型；步骤4：根据步骤2和步骤3得到的模型构建语音‑视频联合自编码器，并进行预训练；步骤5：构建语音识别模块，语音识别模块和语音‑视频联合自编码器构成基于双模态融合的空管语音识别网络，并对基于双模态融合的空管语音识别网络进行监督训练。本发明为语音识别任务提供具有丰富语义的补充信息，提升了管制员语音识别的准确率。

Description

一种基于视听融合的管制员语音识别方法及装置

技术领域

本发明涉及空中交通管理技术领域，具体涉及一种基于视听融合的管制员语音识别方法及装置。

背景技术

目前，在空中交通管理领域，管制员通常使用无线电通讯技术向飞行员语音传达空中交通管制指令。为了实现高度自动化的飞行管制，自动语音识别技术逐步应用于管制员和飞行员的无线电交流中。将管制语音转换为文本信息可以显著减少管制员工作负荷并提高空中交通管理的效率。同时也避免了无线电干扰下的模糊语音信号导致飞行员错误理解管制指令的情况。但在实际管制场景中，管制员语音易收到环境噪声、说话习惯和录制设备的影响，导致自动语音识别给出不符合规范甚至是错误的管制指令，进而影响飞行器安全。

发明内容

本发明针对现有技术存在的问题提供一种为语音识别任务提供具有丰富语义的补充信息，提升了管制员语音识别的准确率的基于视听融合的管制员语音识别方法及装置。

本发明采用的技术方案是：一种基于视听融合的管制员语音识别方法，包括以下步骤：

步骤1：采集管制员视听数据，对视听数据进行预处理构建视听数据集；

步骤2：构建语音表示模型并进行预训练；语音表示模型包括下采样模块、量化表示模块和Masked-Transformer模块；

步骤3：构建视频表示模型并进行预训练；视频表示模型包括帧内表示模型和帧间表示模型；

步骤4：根据步骤2和步骤3得到的模型构建语音-视频联合自编码器，并进行预训练；

步骤5：构建语音识别模块，语音识别模块和语音-视频联合自编码器构成基于双模态融合的空管语音识别网络，并对基于双模态融合的空管语音识别网络进行监督训练。

进一步的，所述步骤2中的下采样模块由多个卷积模块堆叠构成，卷积模块包括依次设置的一维卷积层、组归一化层和Gelu激活函数；用于从原始语音信号中学习语音浅层特征；

量化表示模块包括前置映射层、码本张量和后置映射层；前置映射层和后置映射层均由单层线性映射层构成；码本张量为三维张量，三个维度分别表示词表、词条和词条维数；量化表示模块用于根据语音浅层特征得到语音离散量化表征；

Masked-Transformer模块包括依次设置的Masked操作子、位置编码叠加层、多个堆叠的Transformer编码器和一个线性映射层堆叠；位置编码叠加层依次包括一维卷积层和Gelu激活函数；Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层；Masked-Transformer模块用于根据语音浅层特征得到最终语音表征。

进一步的，所述步骤3中的帧内表示模型包括依次设置的图像预处理模块、图像Mask模块、图像编码器模块和图像解码器模块，用于在图像粒度上对视频帧进行特征表示；帧间表示模型包括时序推理模块和图像重构模块，用于对帧内表示模型提取的最终图像特征进行时序建模，得到视频表征；

图像编码器模块包括依次设置的一个线性映射层、两个位置编码张量和多个堆叠的Transformer编码器；位置编码张量为二维张量，两个维度分别表示位置和特征维数；Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层；图像解码器模块包括依次设置的Masked占位编码表示、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层，Transformer编码器个数少于图像编码器模块中的个数；

时序推理模块包括依次设置的级联层、帧Mask模块和多层循环门限单元；图像重构模块包括多层线性映射层。

进一步的，所述构建语音-视频联合自编码器包括语音和视频表示模型、双模态融合模块、音频预测解码器、融合帧序列解码器和视频匹配解码器；

语音和视频表示模块根据步骤2和步骤3中的模型构建，用于学习不同模态的特征，得到最终语音表征和最终视频表征；在联合训练阶段，所述步骤2和步骤3中的模型不参与参数更新；

双模块融合模块用于学习模态之间的关联性，输出双模态融合特征；双模态融合模块包括依次设置的语音映射层、视频映射层和注意力模块；语音映射层和视频映射层均为单层线性映射层；注意力模块包括多个循环神经网络和多个线性映射层；

循环神经网络使用循环门限网络加速收敛，学习两个模态特征的注意力分数，并对两个模态特征进行加权和，得到双模态融合特征。最终语音表征和最终视频表征的时间步长可能不一致；注意力模块首先将最终视频表征的时间步长与最终语音表征进行对齐，再进行特征融合；进行时间步长对齐时，具体为：

式中：N和M分别为最终语音表征和最终视频表征的时间步长。

为第i个最终语音表征与第j个最终视频表征的时间步距离;

为第i个最终语音表征与第k个最终视频表征的时间步距离；

为最终视频表征对齐到时间步i所需的第j个最终视频表征的时间步修正系数。y_j为第j个最终视频表征向量，

为第j个视频帧对齐到第i个音频时间步的加权最终视频表征向量，

第k个视频帧对齐到第i个音频时间步的加权最终视频表征向量,W_p为图像映射层的线性变换矩阵，b_p为图像映射层的权重向量，F为最终视频表征的维数，D为最终语音表征的维数，W_a为语音映射层的线性变换矩阵，b_a为语音映射层的权重向量，均为可训练参数。x_i为第i个最终语音表征，v为权重向量均为可训练参数，T表示转置，W₁、W₂为线性变换矩阵，

为对齐后的第i个最终视频表征，

为

的注意力分数。时间步修正系数旨在让最终语音表征更加关注相邻时间步的最终视频表征。其中

；

进行特征融合时，具体为：

式中：h¹、h²分别为语音和视频的单模态权重系数向量，GRU₁(·), GRU₂(·)为多层循环门限单元，输出为每个时间步的隐藏状态向量，

、

分别为语音和视频的第i个时间步的单模态权重系数， W₃、W₄为权重向量，b ₃、b ₄为偏置标量，均为可训练参数；x为最终语音表征，y^align为对齐后的最终图像表征，

为第i个最终语音表征，

为对齐后的第i个最终图像表征，σ(·)为sigmoid激活函数，m _i,1和m _i,2分别为

和

的注意力分数；o _i为第

个双模态融合特征；其中，

；

音频预测解码器用于从双模态融合特征中挖掘图像和语音之间的互补性，利用图像模态辅助补全的音频信息；音频预测解码器包括依次设置的Masked模块、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层；位置编码张量为二维张量，两个维度分别表示时间步和特征维数；Transformer编码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层；

融合帧序列解码器用于进行随机次序预测对随机选取的双模态融合特征进行排序，学习双模块融合特征的序列语义信息；融合帧序列解码器包括依次设置的位置编码张量、一个Transformer编码器和一个分类层；位置编码张量为二维张量，两个维度分别表示时间步和特征维数；Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层；分类层包括一个前馈神经网络和softmax激活函数；

视频匹配解码器用于进行模态匹配，得到双模态融合特征与视频序列匹配度的期望值；视频匹配解码器包括依次设置的一个池化层和两个线性映射层。所述视频匹配解码器的一个池化层对双模态融合特征和最终视频表征进行池化操作，得到全局双模态融合特征和全局最终视频表征；池化方式为均值池化，池化维度为时间步维度；

进行自监督联合训练时，将完整的语音数据和视频数据输入所述步骤S2与S3中完成预训练的语音和视频表示模型，得到最终语音表征和最终视频表征，再对所述最终语音表征进行Mask操作，将其与最终视频表征一同进行特征融合，得到双模态融合特征，然后进行多任务学习：一、音频预测解码器使用经过Mask操作的最终语音表征和所述双模态融合特征进行计算，得到Masked最终语音表征预测值；二、随机选取

段不重合且连续的

个所述双模态融合特征，打乱

个段的顺序后输入所述融合帧序列解码器，输出对

种次序的概率分布；三、在样本粒度下，双模态融合特征和最终视频表征经过池化后，得到全局双模态融合特征和全局最终视频表征，输入所述视频匹配解码器后，得到双模态融合特征与视频序列匹配度的期望值。

进一步的，所述步骤5中语音识别模块包括位置编码张量和多个堆叠的Transformer解码器和分类层；位置编码张量为二维张量，两个维度分别表示时间步和特征维数；Transformer解码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层；分类层包括一个线性映射层和softmax激活函数；

所述监督训练，使用损失函数

，具体为：

其中，

为所述语音识别模块输出的第

帧语音信号文本标签l _i的概率；

为文本标签个数。

进一步的，所述步骤1中预处理过程包括以下处理步骤：

S1：删除存在缺失片段或无法清晰辨识的语音或视频数据；

S2：将来自同一场景的语音和视频数据进行帧对齐；

S3：对语音数据进行人工文本标注；

S4：对视频进行裁剪。

进一步的，所述语音表示模型进行预训练时采用的损失函数为

：

式中：L _c为对比损失，L _d为多样性损失，L _p为正则化损失，α、β和γ分别为对应权重；c_t为Masked-Transformer模块中Masked时间步t对应的离散化表征向量，q_t为Masked-Transformer模块中Masked时间步t对应的最终语音表征；

为包括q_t在内的k个Masked时间步对应的最终语音表征，除t以外的Masked时间步均从同一语句的所有Masked时间步中均匀采样得到，时间步t居中于所有Masked时间步；D为q_t的维数，sim(a,b)为余弦相似度函数；

G、E分别表示码本张量中有G个词表，每个词表中有E个词条；p _g,e表示第g个词表中第e个词条被选中的期望概率；N为下采样模块输出的语音浅层特征个数；z_i为第i个语音浅层特征，

表示语音浅层特征经过量化表示模块的前置映射层后分配给第g个词表中第e个词条的元素值，T为转置。

进一步的，所述帧内表示模块预训练时，损失函数为L _frame：

式中：j为Masked图像块向量的索引，

为第j个图像块的像素损失，Q_M为Masked图像块向量，H、W、C分别表示视频帧的高度、宽度和通道数；a ₁为非Masked图像块占所有

个图像块的比例；P为对视频帧依高度和宽度进行P等分，得到P*P个图像块；g _j为第j个图像块向量的真实值，

为第j个图像块向量的预测值；

为一个图像块向量的维数，T为转置；

帧间表示模型预训练时，损失函数L _video为：

式中：

为第i个视频帧损失，i为视频帧索引，Q_V为Masked图像表征，

为第i个视频帧中第j个图像块的重构相似度，a ₂为最终图像表征的Mask概率；

为第i个视频帧中第j个图像块的真实值的平均像素值，

为第i个视频帧中第j个图像块的预测值的平均像素值；

为第i个视频帧中第j个图像块真实值和预测值的像素协方差，

和

分别第i个视频帧中第j个图像块真实值和预测值的像素标准差；C ₁和C ₂均为常数；

为第i个视频帧中第j个图像块的第k个像素值的真实值，

为第i个视频帧中第j个图像块的第k个像素值的预测值，

为第i个视频帧中第j个图像块真实值，

为第i个视频帧中第j个图像块预测值，T为转置。

进一步的，所述语音-视频联合自编码器预训练过程中，进行缺失语音预测时，损失函数L _av为：

式中：

为第i个最终语音表征的特征损失，i为最终语音表征索引，Q_A为最终语音表征向量，

为Masked最终语音表征的个数，D为最终语音表征的维数，x_i和

分别为第i个Masked最终语音表征的真实值和预测值。

进行随机次序预测时，损失函数为L _sav：

式中：p _i为概率分布中真实次序类别i的概率；

进行模态匹配任务时，损失函数L _aav为：

式中：q为全局双模态融合特征向量，k⁺为正样本的全局最终视频表征，k^-为负样本的全局最终视频表征，Q_N为所有负样本的全局最终视频向量；此处的正样本指的是q对应的样本，负样本集合为在q对应的样本以外随机采样的多个样本，T为转置；

语音-视频联合自编码器进行参数更新时，采用损失函数L _tav进行误差反向传播：

式中：γ ₁、γ ₂和γ ₃分别为缺失语音预测任务、随机次序预测任务和模态匹配任务的误差权重。

一种基于视听融合的管制员语音识别的装置，包括录音机、录像机、输入输出设备、处理器、存储器和电源；录音机和录像机用于采集视听数据；存储器用于存储处理器执行的指令，相应数据；输入输出设备用于负责数据交互；处理器用于能够实现上述任一项方法。

本发明的有益效果是：

（1）本发明采用语音和视频双模态信息进行管制员语音识别任务，利用视频模态补充易受干扰的语音信息，提高了语音识别的准确率；

（2）本发明采用多个预训练模型学习单模态特征，使用注意力机制对双模态特征进行融合，分别针对单模态特征的时序对齐和模态融合两个方面进行注意力学习；

（3）本发明采用三种不同的学习任务从多维度增强了双模态融合特征的音频、视频表征能力，同时还维持了音视频数据的时序关联性；

（4）本发明提出的基于视听融合的管制员语音识别方法适用度高，可迁移到其他空管语音任务中，增强了语音语义信息的鲁棒性。

附图说明

图1为本发明基于视听融合的管制员语音识别方法的流程示意图。

图2为本发明实施例中基于视听融合的管制员语音识别方法的语音表示模型示意图。

图3为本发明实施例中基于视听融合的管制员语音识别方法的视频表示模型中帧内表示模型示意图。

图4为本发明实施例中基于视听融合的管制员语音识别方法的视频表示模型中帧间表示模型示意图。

图5为本发明实施例中基于视听融合的管制员语音识别方法的语音-视频联合自编码器示意图。

图6为本发明实施例中基于视听融合的管制员语音识别方法的基于双模态融合的空管语音识别网络的示意图。

图7为本发明实施例中基于视听融合的管制员语音识别装置结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

如图1所示，一种基于视听融合的管制员语音识别方法，包括以下步骤：

在管制员席位上架设录音以及录像设备，采集真实管制工作过程中管制员的视听数据。视听数据需要满足以下条件：

1）语音数据需要包括识别场景中的语种；

2）语音数据需要包含管制员的各种说话状态，包括不同的语速、语气以及语调；

3）视频数据需要确保录制到管制员的整个唇部范围，后续需要唇部运动视频进行视听融合任务。

预处理过程包括以下处理步骤：

S1：删除存在缺失片段或无法清晰辨识的语音或视频数据；

S2：将来自同一场景的语音和视频数据进行帧对齐；确保视频数据与音频数据时间长度一致，且视频数据中管制员的唇部运动与语音数据能够相互对应。

S3：对语音数据进行人工文本标注；

S4：对视频进行裁剪，具体为裁剪出以管制员的唇部为中心的矩形区域，且每个视频帧拥有相同的高度、宽度和通道。

数据集中，输入输出数据对作为空管语音识别的监督数据。输入输出数据对中，来自同一场景的语音和视频数据作为输入数据，语音数据的文本标注作为输出数据。

步骤2：构建语音表示模型并进行预训练；如图2所示，语音表示模型包括下采样模块、量化表示模块和Masked-Transformer模块。

下采样模块由多个卷积模块堆叠构成，卷积模块包括依次设置的一维卷积层、组归一化层和Gelu激活函数；下采样模块对语音信号进行多级特征表示，提取语音信号局部信息，用于从原始语音信号中学习语音浅层特征。

量化表示模块包括前置映射层、码本张量和后置映射层；前置映射层和后置映射层均由单层线性映射层构成；前置映射层负责进行维度对其，后置映射层对码本张量中的词条进行特征融合。码本张量为三维张量，三个维度分别表示词表、词条和词条维数，在预训练过程中参与参数更新；量化表示模块通过乘积量化将下采样模块提取的语音浅层特征进行离散化并转化为有限空间内的语音表示，增强特征鲁棒性，减少噪声扰动的影响。量化表示模块用于根据语音浅层特征得到语音离散量化表征。

Masked-Transformer模块包括依次设置的Masked操作子、位置编码叠加层、多个堆叠的Transformer编码器和一个线性映射层堆叠；Masked操作子对Masked-Transformer模块的输入进行随机Mask。一个时间步的输入作为Masked区域起点的概率为p，Masked区域的长度为M，且Masked区域可以重叠，Mask方式为置零操作，随机方式为均匀采样。Masked操作为掩码或掩膜操作，具体为给某一张量加上或直接替换为一个预先设置的张量，所述预先设置的张量就叫做掩码、掩膜。位置编码叠加层依次包括一维卷积层和Gelu激活函数；对Masked操作子的输出进行保持维数的卷积计算，并将学习到的位置编码叠加到Masked-Transformer模块的输入中。

Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层；考察语音浅层特征之间的相似度和差异性。线性映射层进行特征维度变换，得到最终语音表征。Masked-Transformer模块用于根据语音离散量化表征得到最终语音表征。

训练语音表示模型时，损失函数为

：

式中：L _c为对比损失，L _d为多样性损失，L _p为L ₂平均平方正则化损失，α、β和γ分别为对应权重；c_t为Masked-Transformer模块中Masked时间步t对应的离散化表征向量，时间步t居中于所有Masked时间步；q_t为Masked-Transformer模块中Masked时间步t对应的最终语音表征；

为包括q_t在内的k个Masked时间步对应的最终语音表征，除t以外的k-1个Masked时间步均从同一语句的所有Masked时间步中均匀采样得到；D为q_t的维数，sim(a,b)为余弦相似度函数，T为转置；

表示语音浅层特征经过量化表示模块的前置映射层后分配给第g个词表中第e个词条的元素值。

对比损失代表了对比学习的损失值，优化目标为极大化q_t和c_t的相似度。多样性损失让词表中的每个词条拥有相同的被选中的概率，优化目标为极大化概率分布的熵值。L ₂正则化损失防止下采样模块提取的语音浅层特征发生过拟合，优化目标为保持特征向量的欧几里得范数为较小值。

如图3所示，帧内表示模型包括依次设置的图像预处理模块、图像Mask模块、图像编码器模块和图像解码器模块，用于在图像粒度上对视频帧进行特征表示；如图4所示，帧间表示模型包括时序推理模块和图像重构模块，用于对帧内表示模型提取的最终图像特征进行时序建模，构建起图像特征之间的时序依赖，充分提取视频帧中的时空语义信息，得到视频表征。

图像预处理模块将每个视频帧按高度和宽度等分为P×P个图像块，并将图像块的像素值按高度、宽度、通道组织为一个图像块向量。图像Mask模块均匀采样P×P×a ₁个图像块向量作为编码器模块的输入，剩余图像块向量作为Masked图像块向量，且0.2＜a ₁＜0.5。图像编码器模块使用较大规模的网络学习图像块向量之间的隐含关系，得到图像块编码表示。图像解码器模块使用较小规模的网络进行预训练学习，提取图像块编码表示的空间信息，预测Masked图像块向量。

图像编码器模块包括依次设置的一个线性映射层、两个位置编码张量和多个堆叠的Transformer编码器；一个线性映射层对图像块向量进行维数转换。位置编码张量为二维张量，两个维度分别表示位置和特征维数；第一个位置编码张量的位置维度为P×P×a ₁，将叠加到多个堆叠的Transformer编码器的输入中，在帧内表示模型训练过程中参与参数更新。第二个位置编码张量的位置维度为P×P，将叠加到时序推理模块的输入中，在帧间表示模型训练过程中参与参数更新。Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层；用于学习图像块向量之间的隐含关系。

图像解码器模块包括依次设置的Masked占位编码表示、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层，Transformer编码器个数少于图像编码器模块中的个数；Masked占位编码表示为一维向量，作为Masked图像块向量的占位符，与图像块编码表示一同参与后续计算。Masked占位编码表示在预训练过程中参与参数更新。位置编码张量为二维张量，两个维度分别表示位置和特征维数，位置维度在预训练阶段为P×P，将叠加到多个堆叠的Transformer编码器的输入中。位置编码张量在帧内表示模型训练过程中参与参数更新。Transformer编码器多头自注意力模块、层归一化层、前馈神经网络和层归一化层。从图像块编码表示的空间关系中获取预测Masked图像块向量的语义信息。一个线性映射层对预测Masked图像块向量的语义信息进一步挖掘特征，得到最终预测值。

帧内表示模块预训练时，损失函数为L _frame：

式中：j为Masked图像块向量的索引，

为第j个图像块的像素损失，Q_M为Masked图像块向量，H、W、C分别表示视频帧的高度、宽度和通道数；a1为非Masked图像块占所有P*P个图像块的比例；P为对视频帧依高度和宽度进行P等分，得到P*P个图像块；g _j为第j个图像块向量的真实值，

为第j个图像块向量的预测值；

为一个图像块向量的维数，T为转置。

时序推理模块包括依次设置的级联层、帧Mask模块和多层循环门限单元；级联层将来自图像编码器模块得到的叠加位置编码张量的图像块编码表示进行级联，得到最终图像表征。帧Mask模块均匀采样

个所述最终图像表征进行Mask操作，得到Masked最终图像表征，Mask方式为置零操作。多层循环门限单元对所有最终图像表征进行时序建模，学习视频帧之间的特征变化规律，得到最终视频表征。

图像重构模块包括多层线性映射层，对最终视频表征进一步特征提取，预测Masked最终图像表征对应的视频帧。

帧间表示模型预训练时，损失函数L _video为：

式中：

为第i个视频帧损失，i为视频帧索引，Q_V为Masked图像表征，

为第i个视频帧中第j个图像块的真实值的平均像素值，

为第i个视频帧中第j个图像块的预测值的平均像素值；

和

分别第i个视频帧中第j个图像块真实值和预测值的像素标准差；C ₁和C ₂均为常数，C ₁取值6.5025，C ₂取值58.5225；

为第i个视频帧中第j个图像块的第k个像素值的真实值，

为第i个视频帧中第j个图像块的第k个像素值的预测值，

为第i个视频帧中第j个图像块真实值，

为第i个视频帧中第j个图像块预测值，T为转置。

对视频表示模型进行自监督预训练时，首先对帧内表示模型进行自监督训练，然后移除帧内表示模型中的图像Mask模块，对帧间表示模型进行自监督训练。

步骤4：根据步骤2和步骤3得到的模型构建语音-视频联合自编码器，并进行预训练；所述语音-视频联合自编码器包括双模态融合模块、音频预测解码器、融合帧序列解码器和视频匹配解码器；

如图5所示，语音-视频联合自编码器包括语音和视频表示模型、双模态融合模块、音频预测解码器、融合帧序列解码器和视频匹配解码器；

完成预训练的语音和视频表示模型将不进行任何Mask操作。语音和视频表示模块根据步骤2和步骤3中的模型构建，用于学习不同模态的特征，得到最终语音表征和最终视频表征；在联合训练阶段，语音表示模型和视频表示模型不参与参数更新。

双模态融合模块包括依次设置的语音映射层、视频映射层和注意力模块；语音映射层和视频映射层均为单层线性映射层；分别对最终语音表征和最终图像表征进行特征维度变换，将两个模态的特征映射到维数相同的特征空间。注意力模块包括多个循环神经网络和多个线性映射层；循环神经网络使用循环门限网络加速收敛，学习两个模态特征的注意力分数，并对两个模态特征进行加权和，得到双模态融合特征。最终音表征和最终视频表征的时间步长可能不一致。注意力模块首先将最终视频表征的时间步长与最终语音表征进行对齐，再进行特征融合。进行时间步长对齐时，具体为：

式中：N和M分别为最终语音表征和最终视频表征的时间步长；

为第i个最终语音表征与第j个最终视频表征的时间步距离;

为第i个最终语音表征与第k个最终视频表征的时间步距离；

为最终视频表征对齐到时间步i所需的第j个最终视频表征的时间步修正系数，y_j为第j个最终视频表征向量，

为第k个视频帧对齐到第i个音频时间步的加权最终视频表征向量,W_p为图像映射层的线性变换矩阵，b_p为图像映射层的权重向量，F为最终视频表征的维数，D为最终语音表征的维数，W_a为语音映射层的线性变换矩阵，b_a为语音映射层的权重向量，均为可训练参数；x_i为第i个最终语音表征，v为权重向量均为可训练参数，T表示转置，W₁、W₂为线性变换矩阵，

为对齐后的第i个最终视频表征，

为

的注意力分数；时间步修正系数旨在让最终语音表征更加关注相邻时间步的最终视频表征；其中

；

进行特征融合时，具体为：

式中：h¹、h²分别为语音和视频的单模态权重系数，

为多层循环门限单元，输出为每个时间步的隐藏状态向量。W₃、W₄为权重向量，b ₃、b ₄为偏置标量，均为可训练参数；y^align为对齐后的最终图像表征。

为sigmoid激活函数。

为

的注意力分数；

为第

个双模态融合特征；其中，

。

音频预测解码器用于从双模态融合特征中挖掘图像和语音之间的互补性，利用图像模态辅助补全的音频信息；音频预测解码器包括依次设置的Masked模块、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层；Masked模块均匀采样a3×N个最终语音表征进行Mask操作，Mask方式为置零操作；位置编码张量为二维张量，两个维度分别表示时间步和特征维数，将叠加到多个堆叠的Transformer编码器的输入中，在音频预测解码器训练过程中参与参数更新；Transformer编码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层。多个堆叠的Transformer编码器使用经过Mask操作的最终语音表征作为输入；多头自注意力模块提取最终语音表征之间的特征相似性与差异性，得到Masked最终语音表征的单模态互补语义信息；多头注意力模块与所述语音-图像联合自编码器的双模态融合模块进行连接，使用所述单模态互补语义信息作为查询向量，计算所述双模态融合特征的注意力分数并进行加权和，提取高度关联的视频帧监督信息，得到Masked最终语音表征的双模态互补语义信息；多个堆叠的Transformer编码器分析所述单模态互补语义信息和双模态互补语义信息，结合视频信息得到预测Masked最终语音表征的语义信息。音频解码器的一个线性映射层对预测Masked最终语音表征的语义信息进一步挖掘特征，最后输出Masked最终语音表征的预测值。

进行缺失语音预测任务时，使用损失函数L _av为：

式中：

为Masked最终语音表征的个数，D为最终语音表征的维数，x_i和

分别为第i个Masked最终语音表征的真实值和预测值。

融合帧序列解码器用于进行随机次序预测对随机选取的双模态融合特征进行排序，学习双模块融合特征的序列语义信息；融合帧序列解码器包括依次设置的位置编码张量、一个Transformer编码器和一个分类层；位置编码张量为二维张量，两个维度分别表示时间步和特征维数；将叠加到多个堆叠的Transformer编码器的输入中，融合帧序列解码器训练过程中参与参数更新。

Transformer编码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层；Transformer编码器使用分类嵌入向量和随机选取的双模态融合特征作为输入，提取双模态融合特征中隐含的序列语义信息，所述分类嵌入向量对应的输出将作为双模态融合特征时序关联性的关联特征表达。分类层包括一个前馈神经网络和softmax激活函数；一个前馈神经网络对所述关联特征表达进行维数转换，并经过所述softmax函数得到次序的概率分布。

进行随机次序预测任务时，使用损失函数L _sav：

式中：p _i为概率分布中真实次序类别i的概率。

视频匹配解码器用于进行模态匹配，得到双模态融合特征与视频序列匹配度的期望值；视频匹配解码器包括依次设置的一个池化层和两个线性映射层。一个池化层对双模态融合特征和最终视频表征进行池化操作，得到全局双模态融合特征和全局最终视频表征；池化方式为均值池化，池化维度为时间步维度。两个线性映射层分别对所述全局双模态融合特征和全局最终视频表征进行维数转换，得到维数相同的特征向量以便进行匹配度的计算。

音频预测解码器使用经过Mask操作的最终语音表征和所述双模态融合特征进行计算，得到Masked最终语音表征预测值；随机选取

段不重合且连续的

个所述双模态融合特征，打乱

个段的顺序后输入所述融合帧序列解码器，输出对

种次序的概率分布；在样本粒度下，双模态融合特征和最终视频表征经过池化后，得到全局双模态融合特征和全局最终视频表征，输入所述视频匹配解码器后，得到双模态融合特征与视频序列匹配度的期望值。

进行模态匹配任务时，使用损失函数L _aav为：

式中：q为全局双模态融合特征向量，k⁺为正样本的全局最终视频表征，k^-为负样本的全局最终视频表征，Q_N为所有负样本的全局最终视频向量。此处的正样本指的是q对应的样本，负样本集合为在q对应的样本以外随机采样的多个样本，T为转置。

步骤5：构建语音识别模块，语音识别模块和语音-视频联合自编码器构成基于双模态融合的空管语音识别网络，并对基于双模态融合的空管语音识别网络进行监督训练；

基于双模态融合的空管语音识别网络结构如图6所示，完成预训练的语音-视频联合自编码器将不进行任何Mask操作，并剔除音频预测解码器的所述一个线性映射层；基于双模态融合的空管语音识别网络进行监督训练时，完成预训练的语音-视频联合自编码器的双模态融合模块不参与参数更新。

语音识别模块包括位置编码张量和多个堆叠的Transformer解码器和分类层；位置编码张量为二维张量，两个维度分别表示时间步和特征维数，将叠加到多个堆叠的Transformer解码器的输入中，在基于双模态融合的空管语音识别网络训练过程中参与参数更新；Transformer解码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层；多个堆叠的Transformer解码器的第一个解码器中，多头自注意力模块应为Masked多头自注意力模块，旨在并行训练过程中，屏蔽未来的数据，防止数据泄露；多头自注意力模块提取语言建模单元之间的关联性；多头注意力模块与所述语音-图像联合自编码器进行连接，使用语言建模单元的关联信息作为查询向量，学习语音特征与语言建模单元的对应关系，并使用视频特征增强识别能力。分类层包括一个线性映射层和softmax激活函数。一个线性映射层对所述多个堆叠的Transformer解码器提取的特征进行维数对齐，使之与语言建模单元维数一致；softmax激活函数对维数对齐后的特征进行分类判别，得到最终的概率分布。

基于双模态融合的空管语音识别网络进行监督训练时，使用损失函数L _CE：

式中：

为语音识别模块输出的第i帧语音信号文本标签l _i的概率，U为文本标签个数。

语音识别模块通过Transformer结构进行循环推理，学习语言建模单元之间的关联信息，并通过音频预测解码器中多个堆叠的Transformer解码器提取的语义信息学习语音特征与语言建模单元的对应关系；语义信息中的视频特征将辅助完成语音识别任务，增强识别精度。

语音识别模型的输出概率结合greedy search或beam search算法解码，得到可读的文本序列作为语音识别的最终结果。

如图7所示，一种基于视听融合的管制员语音识别的装置，包括录音机、录像机、输入输出设备、处理器、存储器和电源；录音机和录像机用于采集视听数据；存储器用于存储处理器执行的指令，相应数据；处理器用于能够实现语音识别方法。

其中录音机具备音频录制、处理、存储以及导出功能；录像机具备视频录制、处理、存储以及导出功能。输入输出设备包括键盘、鼠标、显示、USB接口以及RJ45接口等，负责数据交互。存储器存储有可被所述至少一个处理器执行的指令；指令被所述至少一个处理器执行。电源可以是移动或固定电源，为所述装置提供能源。

方法的全部步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（Read Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。方法可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明方法。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本发明采用语音和视频双模态信息进行管制员语音识别任务，利用视频模态补充易受干扰的语音信息，提高了语音识别的准确率；采用多个预训练模型学习单模态特征，并使用注意力机制对双模态特征进行融合，分别针对单模态特征的时序对齐和模态融合两个方面进行注意力学习；使用了三种不同的学习任务从多维度增强了双模态融合特征的音频、视频表征能力，同时还维持了音视频数据的时序关联性；提出的基于视听融合的管制员语音识别方法适用度高，可迁移到其他空管语音任务中，增强语音语义信息的鲁棒性。

本发明解决了现有管制员语音识别技术存在的易受环境噪声、说话习惯和录制设备影响以及鲁棒性不高的问题。

Claims

1.一种基于视听融合的管制员语音识别方法，其特征在于，包括以下步骤：

步骤2：构建语音表示模型并进行预训练；语音表示模型包括下采样模块、量化表示模块和Masked-Transformer模块；下采样模块由多个卷积模块堆叠构成，卷积模块包括依次设置的一维卷积层、组归一化层和Gelu激活函数；用于从原始语音信号中学习语音浅层特征；

Masked-Transformer模块包括依次设置的Masked操作子、位置编码叠加层、多个堆叠的Transformer编码器和一个线性映射层堆叠；位置编码叠加层依次包括一维卷积层和Gelu激活函数；Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层；Masked-Transformer模块用于根据语音浅层特征得到最终语音表征；

步骤4：根据步骤2和步骤3得到的模型构建语音-视频联合自编码器，并进行预训练；构建语音-视频联合自编码器包括语音和视频表示模型、双模态融合模块、音频预测解码器、融合帧序列解码器和视频匹配解码器；

双模块融合模块用于学习模态之间的关联性，输出双模态融合特征；音频预测解码器用于从双模态融合特征中挖掘图像和语音之间的互补性，利用图像模态辅助补全的音频信息；融合帧序列解码器用于进行随机次序预测对随机选取的双模态融合特征进行排序，学习双模块融合特征的序列语义信息；视频匹配解码器用于进行模态匹配，得到双模态融合特征与视频序列匹配度的期望值；

2.根据权利要求1所述的一种基于视听融合的管制员语音识别方法，其特征在于，所述步骤3中的帧内表示模型包括依次设置的图像预处理模块、图像Mask模块、图像编码器模块和图像解码器模块，用于在图像粒度上对视频帧进行特征表示；帧间表示模型包括时序推理模块和图像重构模块，用于对帧内表示模型提取的最终图像特征进行时序建模，得到视频表征；

3.根据权利要求2所述的一种基于视听融合的管制员语音识别方法，其特征在于，所述双模态融合模块包括依次设置的语音映射层、视频映射层和注意力模块；语音映射层和视频映射层均为单层线性映射层；注意力模块包括多个循环神经网络和多个线性映射层；

循环神经网络使用循环门限网络加速收敛，学习两个模态特征的注意力分数，并对两个模态特征进行加权和，得到双模态融合特征；最终语音表征和最终视频表征的时间步长可能不一致；注意力模块首先将最终视频表征的时间步长与最终语音表征进行对齐，再进行特征融合；进行时间步长对齐时，具体为：

式中：N和M分别为最终语音表征和最终视频表征的时间步长；Δt_i,j为第i个最终语音表征与第j个最终视频表征的时间步距离；Δt_i,k为第i个最终语音表征与第k个最终视频表征的时间步距离；S_i,j为最终视频表征对齐到时间步i所需的第j个最终视频表征的时间步修正系数，y_j为第j个最终视频表征向量，

为对齐后的第i个最终视频表征，a_i,j为

W₁,

进行特征融合时，具体为：

式中：h¹、h²分别为语音和视频的单模态权重系数向量，GRU₁(·),GRU₂(·)为多层循环门限单元，输出为每个时间步的隐藏状态向量，

分别为语音和视频的第i个时间步的单模态权重系数，W₃、W₄为权重向量，b₃、b₄为偏置标量，均为可训练参数；x为最终语音表征，y^align为对齐后的最终图像表征，x_i为第i个最终语音表征，

为对齐后的第i个最终图像表征，σ(·)为sigmoid激活函数，m_i,1和m_i,2分别为x_i和

的注意力分数；o_i为第i个双模态融合特征；其中，h¹,

音频预测解码器包括依次设置的Masked模块、位置编码张量、多个堆叠的Transformer解码器和一个线性映射层；位置编码张量为二维张量，两个维度分别表示时间步和特征维数；Transformer解码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层；

融合帧序列解码器包括依次设置的位置编码张量、一个Transformer编码器和一个分类层；位置编码张量为二维张量，两个维度分别表示时间步和特征维数；Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层；分类层包括一个前馈神经网络和softmax激活函数；

视频匹配解码器包括依次设置的一个池化层和两个线性映射层。

4.根据权利要求3所述的一种基于视听融合的管制员语音识别方法，其特征在于，所述步骤5中语音识别模块包括位置编码张量和多个堆叠的Transformer解码器和分类层；位置编码张量为二维张量，两个维度分别表示时间步和特征维数；Transformer解码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层；分类层包括一个线性映射层和softmax激活函数；

所述监督训练，使用损失函数L_CE，具体为：