CN115810351B - 一种基于视听融合的管制员语音识别方法及装置 - Google Patents

一种基于视听融合的管制员语音识别方法及装置 Download PDF

Info

Publication number
CN115810351B
CN115810351B CN202310090186.3A CN202310090186A CN115810351B CN 115810351 B CN115810351 B CN 115810351B CN 202310090186 A CN202310090186 A CN 202310090186A CN 115810351 B CN115810351 B CN 115810351B
Authority
CN
China
Prior art keywords
video
layer
final
module
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310090186.3A
Other languages
English (en)
Other versions
CN115810351A (zh
Inventor
林毅
郭东岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202310090186.3A priority Critical patent/CN115810351B/zh
Publication of CN115810351A publication Critical patent/CN115810351A/zh
Application granted granted Critical
Publication of CN115810351B publication Critical patent/CN115810351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视听融合的管制员语音识别方法及装置,包括以下步骤:步骤1:采集管制员视听数据,对视听数据进行预处理构建视听数据集;步骤2:构建语音表示模型并进行预训练;步骤3:构建视频表示模型并进行预训练;视频表示模型包括帧内表示模型和帧间表示模型;步骤4:根据步骤2和步骤3得到的模型构建语音‑视频联合自编码器,并进行预训练;步骤5:构建语音识别模块,语音识别模块和语音‑视频联合自编码器构成基于双模态融合的空管语音识别网络,并对基于双模态融合的空管语音识别网络进行监督训练。本发明为语音识别任务提供具有丰富语义的补充信息,提升了管制员语音识别的准确率。

Description

一种基于视听融合的管制员语音识别方法及装置
技术领域
本发明涉及空中交通管理技术领域,具体涉及一种基于视听融合的管制员语音识别方法及装置。
背景技术
目前,在空中交通管理领域,管制员通常使用无线电通讯技术向飞行员语音传达空中交通管制指令。为了实现高度自动化的飞行管制,自动语音识别技术逐步应用于管制员和飞行员的无线电交流中。将管制语音转换为文本信息可以显著减少管制员工作负荷并提高空中交通管理的效率。同时也避免了无线电干扰下的模糊语音信号导致飞行员错误理解管制指令的情况。但在实际管制场景中,管制员语音易收到环境噪声、说话习惯和录制设备的影响,导致自动语音识别给出不符合规范甚至是错误的管制指令,进而影响飞行器安全。
发明内容
本发明针对现有技术存在的问题提供一种为语音识别任务提供具有丰富语义的补充信息,提升了管制员语音识别的准确率的基于视听融合的管制员语音识别方法及装置。
本发明采用的技术方案是:一种基于视听融合的管制员语音识别方法,包括以下步骤:
步骤1:采集管制员视听数据,对视听数据进行预处理构建视听数据集;
步骤2:构建语音表示模型并进行预训练;语音表示模型包括下采样模块、量化表示模块和Masked-Transformer模块;
步骤3:构建视频表示模型并进行预训练;视频表示模型包括帧内表示模型和帧间表示模型;
步骤4:根据步骤2和步骤3得到的模型构建语音-视频联合自编码器,并进行预训练;
步骤5:构建语音识别模块,语音识别模块和语音-视频联合自编码器构成基于双模态融合的空管语音识别网络,并对基于双模态融合的空管语音识别网络进行监督训练。
进一步的,所述步骤2中的下采样模块由多个卷积模块堆叠构成,卷积模块包括依次设置的一维卷积层、组归一化层和Gelu激活函数;用于从原始语音信号中学习语音浅层特征;
量化表示模块包括前置映射层、码本张量和后置映射层;前置映射层和后置映射层均由单层线性映射层构成;码本张量为三维张量,三个维度分别表示词表、词条和词条维数;量化表示模块用于根据语音浅层特征得到语音离散量化表征;
Masked-Transformer模块包括依次设置的Masked操作子、位置编码叠加层、多个堆叠的Transformer编码器和一个线性映射层堆叠;位置编码叠加层依次包括一维卷积层和Gelu激活函数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;Masked-Transformer模块用于根据语音浅层特征得到最终语音表征。
进一步的,所述步骤3中的帧内表示模型包括依次设置的图像预处理模块、图像Mask模块、图像编码器模块和图像解码器模块,用于在图像粒度上对视频帧进行特征表示;帧间表示模型包括时序推理模块和图像重构模块,用于对帧内表示模型提取的最终图像特征进行时序建模,得到视频表征;
图像编码器模块包括依次设置的一个线性映射层、两个位置编码张量和多个堆叠的Transformer编码器;位置编码张量为二维张量,两个维度分别表示位置和特征维数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;图像解码器模块包括依次设置的Masked占位编码表示、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层,Transformer编码器个数少于图像编码器模块中的个数;
时序推理模块包括依次设置的级联层、帧Mask模块和多层循环门限单元;图像重构模块包括多层线性映射层。
进一步的,所述构建语音-视频联合自编码器包括语音和视频表示模型、双模态融合模块、音频预测解码器、融合帧序列解码器和视频匹配解码器;
语音和视频表示模块根据步骤2和步骤3中的模型构建,用于学习不同模态的特征,得到最终语音表征和最终视频表征;在联合训练阶段,所述步骤2和步骤3中的模型不参与参数更新;
双模块融合模块用于学习模态之间的关联性,输出双模态融合特征;双模态融合模块包括依次设置的语音映射层、视频映射层和注意力模块;语音映射层和视频映射层均为单层线性映射层;注意力模块包括多个循环神经网络和多个线性映射层;
循环神经网络使用循环门限网络加速收敛,学习两个模态特征的注意力分数,并对两个模态特征进行加权和,得到双模态融合特征。最终语音表征和最终视频表征的时间步长可能不一致;注意力模块首先将最终视频表征的时间步长与最终语音表征进行对齐,再进行特征融合;进行时间步长对齐时,具体为:
Figure SMS_1
式中:NM分别为最终语音表征和最终视频表征的时间步长。
Figure SMS_4
为第i个最终语音表征与第j个最终视频表征的时间步距离;
Figure SMS_7
为第i个最终语音表征与第k个最终视频表征的时间步距离;
Figure SMS_9
为最终视频表征对齐到时间步i所需的第j个最终视频表征的时间步修正系数。y j 为第j个最终视频表征向量,
Figure SMS_3
为第j个视频帧对齐到第i个音频时间步的加权最终视频表征向量,
Figure SMS_6
第k个视频帧对齐到第i个音频时间步的加权最终视频表征向量,W p 为图像映射层的线性变换矩阵,b p 为图像映射层的权重向量,F为最终视频表征的维数,D为最终语音表征的维数,W a 为语音映射层的线性变换矩阵,b a 为语音映射层的权重向量,均为可训练参数。x i 为第i个最终语音表征,v为权重向量均为可训练参数,T表示转置,W1、W2为线性变换矩阵,
Figure SMS_8
为对齐后的第i个最终视频表征,
Figure SMS_10
Figure SMS_2
的注意力分数。时间步修正系数旨在让最终语音表征更加关注相邻时间步的最终视频表征。其中
Figure SMS_5
进行特征融合时,具体为:
Figure SMS_11
式中:h1、h2分别为语音和视频的单模态权重系数向量,GRU1(·), GRU2(·)为多层循环门限单元,输出为每个时间步的隐藏状态向量,
Figure SMS_13
Figure SMS_15
分别为语音和视频的第i个时间步的单模态权重系数, W3、W4为权重向量,b 3b 4为偏置标量,均为可训练参数;x为最终语音表征,y align 为对齐后的最终图像表征,
Figure SMS_17
为第i个最终语音表征,
Figure SMS_14
为对齐后的第i个最终图像表征,σ(·)为sigmoid激活函数,m i,1 m i,2 分别为
Figure SMS_16
Figure SMS_18
的注意力分数;o i 为第
Figure SMS_19
个双模态融合特征;其中,
Figure SMS_12
音频预测解码器用于从双模态融合特征中挖掘图像和语音之间的互补性,利用图像模态辅助补全的音频信息;音频预测解码器包括依次设置的Masked模块、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层;位置编码张量为二维张量,两个维度分别表示时间步和特征维数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层;
融合帧序列解码器用于进行随机次序预测对随机选取的双模态融合特征进行排序,学习双模块融合特征的序列语义信息;融合帧序列解码器包括依次设置的位置编码张量、一个Transformer编码器和一个分类层;位置编码张量为二维张量,两个维度分别表示时间步和特征维数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;分类层包括一个前馈神经网络和softmax激活函数;
视频匹配解码器用于进行模态匹配,得到双模态融合特征与视频序列匹配度的期望值;视频匹配解码器包括依次设置的一个池化层和两个线性映射层。所述视频匹配解码器的一个池化层对双模态融合特征和最终视频表征进行池化操作,得到全局双模态融合特征和全局最终视频表征;池化方式为均值池化,池化维度为时间步维度;
进行自监督联合训练时,将完整的语音数据和视频数据输入所述步骤S2与S3中完成预训练的语音和视频表示模型,得到最终语音表征和最终视频表征,再对所述最终语音表征进行Mask操作,将其与最终视频表征一同进行特征融合,得到双模态融合特征,然后进行多任务学习:一、音频预测解码器使用经过Mask操作的最终语音表征和所述双模态融合特征进行计算,得到Masked最终语音表征预测值;二、随机选取
Figure SMS_20
段不重合且连续的
Figure SMS_21
个所述双模态融合特征,打乱
Figure SMS_22
个段的顺序后输入所述融合帧序列解码器,输出对
Figure SMS_23
种次序的概率分布;三、在样本粒度下,双模态融合特征和最终视频表征经过池化后,得到全局双模态融合特征和全局最终视频表征,输入所述视频匹配解码器后,得到双模态融合特征与视频序列匹配度的期望值。
进一步的,所述步骤5中语音识别模块包括位置编码张量和多个堆叠的Transformer解码器和分类层;位置编码张量为二维张量,两个维度分别表示时间步和特征维数;Transformer解码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层;分类层包括一个线性映射层和softmax激活函数;
所述监督训练,使用损失函数
Figure SMS_24
,具体为:
Figure SMS_25
其中,
Figure SMS_26
为所述语音识别模块输出的第
Figure SMS_27
帧语音信号文本标签l i 的概率;
Figure SMS_28
为文本标签个数。
进一步的,所述步骤1中预处理过程包括以下处理步骤:
S1:删除存在缺失片段或无法清晰辨识的语音或视频数据;
S2:将来自同一场景的语音和视频数据进行帧对齐;
S3:对语音数据进行人工文本标注;
S4:对视频进行裁剪。
进一步的,所述语音表示模型进行预训练时采用的损失函数为
Figure SMS_29
Figure SMS_30
式中:L c 为对比损失,L d 为多样性损失,L p 为正则化损失,αβγ分别为对应权重;c t 为Masked-Transformer模块中Masked时间步t对应的离散化表征向量,q t 为Masked-Transformer模块中Masked时间步t对应的最终语音表征;
Figure SMS_31
为包括q t 在内的k个Masked时间步对应的最终语音表征,除t以外的Masked时间步均从同一语句的所有Masked时间步中均匀采样得到,时间步t居中于所有Masked时间步;D为q t 的维数,sim(a,b)为余弦相似度函数;
GE分别表示码本张量中有G个词表,每个词表中有E个词条;p g,e 表示第g个词表中第e个词条被选中的期望概率;N为下采样模块输出的语音浅层特征个数;z i 为第i个语音浅层特征,
Figure SMS_32
表示语音浅层特征经过量化表示模块的前置映射层后分配给第g个词表中第e个词条的元素值,T为转置。
进一步的,所述帧内表示模块预训练时,损失函数为L frame
Figure SMS_33
式中:j为Masked图像块向量的索引,
Figure SMS_34
为第j个图像块的像素损失,QM为Masked图像块向量,H、W、C分别表示视频帧的高度、宽度和通道数;a 1为非Masked图像块占所有
Figure SMS_35
个图像块的比例;P为对视频帧依高度和宽度进行P等分,得到P*P个图像块;g j 为第j个图像块向量的真实值
Figure SMS_36
为第j个图像块向量的预测值;
Figure SMS_37
为一个图像块向量的维数,T为转置;
帧间表示模型预训练时,损失函数L video 为:
Figure SMS_38
式中:
Figure SMS_40
为第i个视频帧损失,i为视频帧索引,QV为Masked图像表征,
Figure SMS_44
为第i个视频帧中第j个图像块的重构相似度,a 2为最终图像表征的Mask概率;
Figure SMS_46
为第i个视频帧中第j个图像块的真实值的平均像素值,
Figure SMS_41
为第i个视频帧中第j个图像块的预测值的平均像素值;
Figure SMS_43
为第i个视频帧中第j个图像块真实值和预测值的像素协方差,
Figure SMS_45
Figure SMS_48
分别第i个视频帧中第j个图像块真实值和预测值的像素标准差;C 1C 2均为常数;
Figure SMS_39
为第i个视频帧中第j个图像块的第k个像素值的真实值,
Figure SMS_42
为第i个视频帧中第j个图像块的第k个像素值的预测值,
Figure SMS_47
为第i个视频帧中第j个图像块真实值,
Figure SMS_49
为第i个视频帧中第j个图像块预测值,T为转置。
进一步的,所述语音-视频联合自编码器预训练过程中,进行缺失语音预测时,损失函数L av 为:
Figure SMS_50
式中:
Figure SMS_51
为第i个最终语音表征的特征损失,i为最终语音表征索引,QA为最终语音表征向量,
Figure SMS_52
为Masked最终语音表征的个数,D为最终语音表征的维数,x i
Figure SMS_53
分别为第i个Masked最终语音表征的真实值和预测值。
进行随机次序预测时,损失函数为L sav
Figure SMS_54
式中:p i 为概率分布中真实次序类别i的概率;
进行模态匹配任务时,损失函数L aav 为:
Figure SMS_55
式中:q为全局双模态融合特征向量,k+为正样本的全局最终视频表征,k-为负样本的全局最终视频表征,QN为所有负样本的全局最终视频向量;此处的正样本指的是q对应的样本,负样本集合为在q对应的样本以外随机采样的多个样本,T为转置;
语音-视频联合自编码器进行参数更新时,采用损失函数L tav 进行误差反向传播:
Figure SMS_56
式中:γ 1γ 2γ 3分别为缺失语音预测任务、随机次序预测任务和模态匹配任务的误差权重。
一种基于视听融合的管制员语音识别的装置,包括录音机、录像机、输入输出设备、处理器、存储器和电源;录音机和录像机用于采集视听数据;存储器用于存储处理器执行的指令,相应数据;输入输出设备用于负责数据交互;处理器用于能够实现上述任一项方法。
本发明的有益效果是:
(1)本发明采用语音和视频双模态信息进行管制员语音识别任务,利用视频模态补充易受干扰的语音信息,提高了语音识别的准确率;
(2)本发明采用多个预训练模型学习单模态特征,使用注意力机制对双模态特征进行融合,分别针对单模态特征的时序对齐和模态融合两个方面进行注意力学习;
(3)本发明采用三种不同的学习任务从多维度增强了双模态融合特征的音频、视频表征能力,同时还维持了音视频数据的时序关联性;
(4)本发明提出的基于视听融合的管制员语音识别方法适用度高,可迁移到其他空管语音任务中,增强了语音语义信息的鲁棒性。
附图说明
图1为本发明基于视听融合的管制员语音识别方法的流程示意图。
图2为本发明实施例中基于视听融合的管制员语音识别方法的语音表示模型示意图。
图3为本发明实施例中基于视听融合的管制员语音识别方法的视频表示模型中帧内表示模型示意图。
图4为本发明实施例中基于视听融合的管制员语音识别方法的视频表示模型中帧间表示模型示意图。
图5为本发明实施例中基于视听融合的管制员语音识别方法的语音-视频联合自编码器示意图。
图6为本发明实施例中基于视听融合的管制员语音识别方法的基于双模态融合的空管语音识别网络的示意图。
图7为本发明实施例中基于视听融合的管制员语音识别装置结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明。
如图1所示,一种基于视听融合的管制员语音识别方法,包括以下步骤:
步骤1:采集管制员视听数据,对视听数据进行预处理构建视听数据集;
在管制员席位上架设录音以及录像设备,采集真实管制工作过程中管制员的视听数据。视听数据需要满足以下条件:
1)语音数据需要包括识别场景中的语种;
2)语音数据需要包含管制员的各种说话状态,包括不同的语速、语气以及语调;
3)视频数据需要确保录制到管制员的整个唇部范围,后续需要唇部运动视频进行视听融合任务。
预处理过程包括以下处理步骤:
S1:删除存在缺失片段或无法清晰辨识的语音或视频数据;
S2:将来自同一场景的语音和视频数据进行帧对齐;确保视频数据与音频数据时间长度一致,且视频数据中管制员的唇部运动与语音数据能够相互对应。
S3:对语音数据进行人工文本标注;
S4:对视频进行裁剪,具体为裁剪出以管制员的唇部为中心的矩形区域,且每个视频帧拥有相同的高度、宽度和通道。
数据集中,输入输出数据对作为空管语音识别的监督数据。输入输出数据对中,来自同一场景的语音和视频数据作为输入数据,语音数据的文本标注作为输出数据。
步骤2:构建语音表示模型并进行预训练;如图2所示,语音表示模型包括下采样模块、量化表示模块和Masked-Transformer模块。
下采样模块由多个卷积模块堆叠构成,卷积模块包括依次设置的一维卷积层、组归一化层和Gelu激活函数;下采样模块对语音信号进行多级特征表示,提取语音信号局部信息,用于从原始语音信号中学习语音浅层特征。
量化表示模块包括前置映射层、码本张量和后置映射层;前置映射层和后置映射层均由单层线性映射层构成;前置映射层负责进行维度对其,后置映射层对码本张量中的词条进行特征融合。码本张量为三维张量,三个维度分别表示词表、词条和词条维数,在预训练过程中参与参数更新;量化表示模块通过乘积量化将下采样模块提取的语音浅层特征进行离散化并转化为有限空间内的语音表示,增强特征鲁棒性,减少噪声扰动的影响。量化表示模块用于根据语音浅层特征得到语音离散量化表征。
Masked-Transformer模块包括依次设置的Masked操作子、位置编码叠加层、多个堆叠的Transformer编码器和一个线性映射层堆叠;Masked操作子对Masked-Transformer模块的输入进行随机Mask。一个时间步的输入作为Masked区域起点的概率为p,Masked区域的长度为M,且Masked区域可以重叠,Mask方式为置零操作,随机方式为均匀采样。Masked操作为掩码或掩膜操作,具体为给某一张量加上或直接替换为一个预先设置的张量,所述预先设置的张量就叫做掩码、掩膜。位置编码叠加层依次包括一维卷积层和Gelu激活函数;对Masked操作子的输出进行保持维数的卷积计算,并将学习到的位置编码叠加到Masked-Transformer模块的输入中。
Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;考察语音浅层特征之间的相似度和差异性。线性映射层进行特征维度变换,得到最终语音表征。Masked-Transformer模块用于根据语音离散量化表征得到最终语音表征。
训练语音表示模型时,损失函数为
Figure SMS_57
Figure SMS_58
式中:L c 为对比损失,L d 为多样性损失,L p L 2平均平方正则化损失,αβγ分别为对应权重;c t 为Masked-Transformer模块中Masked时间步t对应的离散化表征向量,时间步t居中于所有Masked时间步;q t 为Masked-Transformer模块中Masked时间步t对应的最终语音表征;
Figure SMS_59
为包括q t 在内的k个Masked时间步对应的最终语音表征,除t以外的k-1个Masked时间步均从同一语句的所有Masked时间步中均匀采样得到;D为q t 的维数,sim(a,b)为余弦相似度函数,T为转置;
Figure SMS_60
GE分别表示码本张量中有G个词表,每个词表中有E个词条;p g,e 表示第g个词表中第e个词条被选中的期望概率;N为下采样模块输出的语音浅层特征个数;z i 为第i个语音浅层特征,
Figure SMS_61
表示语音浅层特征经过量化表示模块的前置映射层后分配给第g个词表中第e个词条的元素值。
对比损失代表了对比学习的损失值,优化目标为极大化q t 和c t 的相似度。多样性损失让词表中的每个词条拥有相同的被选中的概率,优化目标为极大化概率分布的熵值。L 2正则化损失防止下采样模块提取的语音浅层特征发生过拟合,优化目标为保持特征向量的欧几里得范数为较小值。
步骤3:构建视频表示模型并进行预训练;视频表示模型包括帧内表示模型和帧间表示模型;
如图3所示,帧内表示模型包括依次设置的图像预处理模块、图像Mask模块、图像编码器模块和图像解码器模块,用于在图像粒度上对视频帧进行特征表示;如图4所示,帧间表示模型包括时序推理模块和图像重构模块,用于对帧内表示模型提取的最终图像特征进行时序建模,构建起图像特征之间的时序依赖,充分提取视频帧中的时空语义信息,得到视频表征。
图像预处理模块将每个视频帧按高度和宽度等分为P×P个图像块,并将图像块的像素值按高度、宽度、通道组织为一个图像块向量。图像Mask模块均匀采样P×P×a 1个图像块向量作为编码器模块的输入,剩余图像块向量作为Masked图像块向量,且0.2<a 1<0.5。图像编码器模块使用较大规模的网络学习图像块向量之间的隐含关系,得到图像块编码表示。图像解码器模块使用较小规模的网络进行预训练学习,提取图像块编码表示的空间信息,预测Masked图像块向量。
图像编码器模块包括依次设置的一个线性映射层、两个位置编码张量和多个堆叠的Transformer编码器;一个线性映射层对图像块向量进行维数转换。位置编码张量为二维张量,两个维度分别表示位置和特征维数;第一个位置编码张量的位置维度为P×P×a 1,将叠加到多个堆叠的Transformer编码器的输入中,在帧内表示模型训练过程中参与参数更新。第二个位置编码张量的位置维度为P×P,将叠加到时序推理模块的输入中,在帧间表示模型训练过程中参与参数更新。Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;用于学习图像块向量之间的隐含关系。
图像解码器模块包括依次设置的Masked占位编码表示、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层,Transformer编码器个数少于图像编码器模块中的个数;Masked占位编码表示为一维向量,作为Masked图像块向量的占位符,与图像块编码表示一同参与后续计算。Masked占位编码表示在预训练过程中参与参数更新。位置编码张量为二维张量,两个维度分别表示位置和特征维数,位置维度在预训练阶段为P×P,将叠加到多个堆叠的Transformer编码器的输入中。位置编码张量在帧内表示模型训练过程中参与参数更新。Transformer编码器多头自注意力模块、层归一化层、前馈神经网络和层归一化层。从图像块编码表示的空间关系中获取预测Masked图像块向量的语义信息。一个线性映射层对预测Masked图像块向量的语义信息进一步挖掘特征,得到最终预测值。
帧内表示模块预训练时,损失函数为L frame
Figure SMS_62
式中:j为Masked图像块向量的索引,
Figure SMS_63
为第j个图像块的像素损失,QM为Masked图像块向量,H、W、C分别表示视频帧的高度、宽度和通道数;a1为非Masked图像块占所有P*P个图像块的比例;P为对视频帧依高度和宽度进行P等分,得到P*P个图像块;g j 为第j个图像块向量的真实值
Figure SMS_64
为第j个图像块向量的预测值;
Figure SMS_65
为一个图像块向量的维数,T为转置。
时序推理模块包括依次设置的级联层、帧Mask模块和多层循环门限单元;级联层将来自图像编码器模块得到的叠加位置编码张量的图像块编码表示进行级联,得到最终图像表征。帧Mask模块均匀采样
Figure SMS_66
个所述最终图像表征进行Mask操作,得到Masked最终图像表征,Mask方式为置零操作。多层循环门限单元对所有最终图像表征进行时序建模,学习视频帧之间的特征变化规律,得到最终视频表征。
图像重构模块包括多层线性映射层,对最终视频表征进一步特征提取,预测Masked最终图像表征对应的视频帧。
帧间表示模型预训练时,损失函数L video 为:
Figure SMS_67
式中:
Figure SMS_69
为第i个视频帧损失,i为视频帧索引,QV为Masked图像表征,
Figure SMS_71
为第i个视频帧中第j个图像块的重构相似度,a 2为最终图像表征的Mask概率;
Figure SMS_74
为第i个视频帧中第j个图像块的真实值的平均像素值,
Figure SMS_70
为第i个视频帧中第j个图像块的预测值的平均像素值;
Figure SMS_73
为第i个视频帧中第j个图像块真实值和预测值的像素协方差,
Figure SMS_76
Figure SMS_77
分别第i个视频帧中第j个图像块真实值和预测值的像素标准差;C 1C 2均为常数,C 1取值6.5025,C 2取值58.5225;
Figure SMS_68
为第i个视频帧中第j个图像块的第k个像素值的真实值,
Figure SMS_72
为第i个视频帧中第j个图像块的第k个像素值的预测值,
Figure SMS_75
为第i个视频帧中第j个图像块真实值,
Figure SMS_78
为第i个视频帧中第j个图像块预测值,T为转置。
对视频表示模型进行自监督预训练时,首先对帧内表示模型进行自监督训练,然后移除帧内表示模型中的图像Mask模块,对帧间表示模型进行自监督训练。
步骤4:根据步骤2和步骤3得到的模型构建语音-视频联合自编码器,并进行预训练;所述语音-视频联合自编码器包括双模态融合模块、音频预测解码器、融合帧序列解码器和视频匹配解码器;
如图5所示,语音-视频联合自编码器包括语音和视频表示模型、双模态融合模块、音频预测解码器、融合帧序列解码器和视频匹配解码器;
完成预训练的语音和视频表示模型将不进行任何Mask操作。语音和视频表示模块根据步骤2和步骤3中的模型构建,用于学习不同模态的特征,得到最终语音表征和最终视频表征;在联合训练阶段,语音表示模型和视频表示模型不参与参数更新。
双模态融合模块包括依次设置的语音映射层、视频映射层和注意力模块;语音映射层和视频映射层均为单层线性映射层;分别对最终语音表征和最终图像表征进行特征维度变换,将两个模态的特征映射到维数相同的特征空间。注意力模块包括多个循环神经网络和多个线性映射层;循环神经网络使用循环门限网络加速收敛,学习两个模态特征的注意力分数,并对两个模态特征进行加权和,得到双模态融合特征。最终音表征和最终视频表征的时间步长可能不一致。注意力模块首先将最终视频表征的时间步长与最终语音表征进行对齐,再进行特征融合。进行时间步长对齐时,具体为:
Figure SMS_79
式中:NM分别为最终语音表征和最终视频表征的时间步长;
Figure SMS_81
为第i个最终语音表征与第j个最终视频表征的时间步距离;
Figure SMS_83
为第i个最终语音表征与第k个最终视频表征的时间步距离;
Figure SMS_86
为最终视频表征对齐到时间步i所需的第j个最终视频表征的时间步修正系数,y j 为第j个最终视频表征向量,
Figure SMS_82
为第j个视频帧对齐到第i个音频时间步的加权最终视频表征向量,
Figure SMS_85
为第k个视频帧对齐到第i个音频时间步的加权最终视频表征向量,W p 为图像映射层的线性变换矩阵,b p 为图像映射层的权重向量,F为最终视频表征的维数,D为最终语音表征的维数,W a 为语音映射层的线性变换矩阵,b a 为语音映射层的权重向量,均为可训练参数;x i 为第i个最终语音表征,v为权重向量均为可训练参数,T表示转置,W1、W2为线性变换矩阵,
Figure SMS_87
为对齐后的第i个最终视频表征,
Figure SMS_88
Figure SMS_80
的注意力分数;时间步修正系数旨在让最终语音表征更加关注相邻时间步的最终视频表征;其中
Figure SMS_84
进行特征融合时,具体为:
Figure SMS_89
式中:h1、h2分别为语音和视频的单模态权重系数,
Figure SMS_90
为多层循环门限单元,输出为每个时间步的隐藏状态向量。W3、W4为权重向量,b 3b 4为偏置标量,均为可训练参数;y align 为对齐后的最终图像表征。
Figure SMS_91
为sigmoid激活函数。
Figure SMS_92
Figure SMS_93
的注意力分数;
Figure SMS_94
为第
Figure SMS_95
个双模态融合特征;其中,
Figure SMS_96
音频预测解码器用于从双模态融合特征中挖掘图像和语音之间的互补性,利用图像模态辅助补全的音频信息;音频预测解码器包括依次设置的Masked模块、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层;Masked模块均匀采样a3×N个最终语音表征进行Mask操作,Mask方式为置零操作;位置编码张量为二维张量,两个维度分别表示时间步和特征维数,将叠加到多个堆叠的Transformer编码器的输入中,在音频预测解码器训练过程中参与参数更新;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层。多个堆叠的Transformer编码器使用经过Mask操作的最终语音表征作为输入;多头自注意力模块提取最终语音表征之间的特征相似性与差异性,得到Masked最终语音表征的单模态互补语义信息;多头注意力模块与所述语音-图像联合自编码器的双模态融合模块进行连接,使用所述单模态互补语义信息作为查询向量,计算所述双模态融合特征的注意力分数并进行加权和,提取高度关联的视频帧监督信息,得到Masked最终语音表征的双模态互补语义信息;多个堆叠的Transformer编码器分析所述单模态互补语义信息和双模态互补语义信息,结合视频信息得到预测Masked最终语音表征的语义信息。音频解码器的一个线性映射层对预测Masked最终语音表征的语义信息进一步挖掘特征,最后输出Masked最终语音表征的预测值。
进行缺失语音预测任务时,使用损失函数L av 为:
Figure SMS_97
式中:
Figure SMS_98
为第i个最终语音表征的特征损失,i为最终语音表征索引,QA为最终语音表征向量,
Figure SMS_99
为Masked最终语音表征的个数,D为最终语音表征的维数,x i
Figure SMS_100
分别为第i个Masked最终语音表征的真实值和预测值。
融合帧序列解码器用于进行随机次序预测对随机选取的双模态融合特征进行排序,学习双模块融合特征的序列语义信息;融合帧序列解码器包括依次设置的位置编码张量、一个Transformer编码器和一个分类层;位置编码张量为二维张量,两个维度分别表示时间步和特征维数;将叠加到多个堆叠的Transformer编码器的输入中,融合帧序列解码器训练过程中参与参数更新。
Transformer编码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层;Transformer编码器使用分类嵌入向量和随机选取的双模态融合特征作为输入,提取双模态融合特征中隐含的序列语义信息,所述分类嵌入向量对应的输出将作为双模态融合特征时序关联性的关联特征表达。分类层包括一个前馈神经网络和softmax激活函数;一个前馈神经网络对所述关联特征表达进行维数转换,并经过所述softmax函数得到次序的概率分布。
进行随机次序预测任务时,使用损失函数L sav
Figure SMS_101
式中:p i 为概率分布中真实次序类别i的概率。
视频匹配解码器用于进行模态匹配,得到双模态融合特征与视频序列匹配度的期望值;视频匹配解码器包括依次设置的一个池化层和两个线性映射层。一个池化层对双模态融合特征和最终视频表征进行池化操作,得到全局双模态融合特征和全局最终视频表征;池化方式为均值池化,池化维度为时间步维度。两个线性映射层分别对所述全局双模态融合特征和全局最终视频表征进行维数转换,得到维数相同的特征向量以便进行匹配度的计算。
音频预测解码器使用经过Mask操作的最终语音表征和所述双模态融合特征进行计算,得到Masked最终语音表征预测值;随机选取
Figure SMS_102
段不重合且连续的
Figure SMS_103
个所述双模态融合特征,打乱
Figure SMS_104
个段的顺序后输入所述融合帧序列解码器,输出对
Figure SMS_105
种次序的概率分布;在样本粒度下,双模态融合特征和最终视频表征经过池化后,得到全局双模态融合特征和全局最终视频表征,输入所述视频匹配解码器后,得到双模态融合特征与视频序列匹配度的期望值。
进行模态匹配任务时,使用损失函数L aav 为:
Figure SMS_106
式中:q为全局双模态融合特征向量,k+为正样本的全局最终视频表征,k-为负样本的全局最终视频表征,QN为所有负样本的全局最终视频向量。此处的正样本指的是q对应的样本,负样本集合为在q对应的样本以外随机采样的多个样本,T为转置。
语音-视频联合自编码器进行参数更新时,采用损失函数L tav 进行误差反向传播:
Figure SMS_107
式中:γ 1γ 2γ 3分别为缺失语音预测任务、随机次序预测任务和模态匹配任务的误差权重。
步骤5:构建语音识别模块,语音识别模块和语音-视频联合自编码器构成基于双模态融合的空管语音识别网络,并对基于双模态融合的空管语音识别网络进行监督训练;
基于双模态融合的空管语音识别网络结构如图6所示,完成预训练的语音-视频联合自编码器将不进行任何Mask操作,并剔除音频预测解码器的所述一个线性映射层;基于双模态融合的空管语音识别网络进行监督训练时,完成预训练的语音-视频联合自编码器的双模态融合模块不参与参数更新。
语音识别模块包括位置编码张量和多个堆叠的Transformer解码器和分类层;位置编码张量为二维张量,两个维度分别表示时间步和特征维数,将叠加到多个堆叠的Transformer解码器的输入中,在基于双模态融合的空管语音识别网络训练过程中参与参数更新;Transformer解码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层;多个堆叠的Transformer解码器的第一个解码器中,多头自注意力模块应为Masked多头自注意力模块,旨在并行训练过程中,屏蔽未来的数据,防止数据泄露;多头自注意力模块提取语言建模单元之间的关联性;多头注意力模块与所述语音-图像联合自编码器进行连接,使用语言建模单元的关联信息作为查询向量,学习语音特征与语言建模单元的对应关系,并使用视频特征增强识别能力。分类层包括一个线性映射层和softmax激活函数。一个线性映射层对所述多个堆叠的Transformer解码器提取的特征进行维数对齐,使之与语言建模单元维数一致;softmax激活函数对维数对齐后的特征进行分类判别,得到最终的概率分布。
基于双模态融合的空管语音识别网络进行监督训练时,使用损失函数L CE
Figure SMS_108
式中:
Figure SMS_109
为语音识别模块输出的第i帧语音信号文本标签l i 的概率,U为文本标签个数。
语音识别模块通过Transformer结构进行循环推理,学习语言建模单元之间的关联信息,并通过音频预测解码器中多个堆叠的Transformer解码器提取的语义信息学习语音特征与语言建模单元的对应关系;语义信息中的视频特征将辅助完成语音识别任务,增强识别精度。
语音识别模型的输出概率结合greedy search或beam search算法解码,得到可读的文本序列作为语音识别的最终结果。
如图7所示,一种基于视听融合的管制员语音识别的装置,包括录音机、录像机、输入输出设备、处理器、存储器和电源;录音机和录像机用于采集视听数据;存储器用于存储处理器执行的指令,相应数据;处理器用于能够实现语音识别方法。
其中录音机具备音频录制、处理、存储以及导出功能;录像机具备视频录制、处理、存储以及导出功能。输入输出设备包括键盘、鼠标、显示、USB接口以及RJ45接口等,负责数据交互。存储器存储有可被所述至少一个处理器执行的指令;指令被所述至少一个处理器执行。电源可以是移动或固定电源,为所述装置提供能源。
方法的全部步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。方法可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明方法。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
本发明采用语音和视频双模态信息进行管制员语音识别任务,利用视频模态补充易受干扰的语音信息,提高了语音识别的准确率;采用多个预训练模型学习单模态特征,并使用注意力机制对双模态特征进行融合,分别针对单模态特征的时序对齐和模态融合两个方面进行注意力学习;使用了三种不同的学习任务从多维度增强了双模态融合特征的音频、视频表征能力,同时还维持了音视频数据的时序关联性;提出的基于视听融合的管制员语音识别方法适用度高,可迁移到其他空管语音任务中,增强语音语义信息的鲁棒性。
本发明解决了现有管制员语音识别技术存在的易受环境噪声、说话习惯和录制设备影响以及鲁棒性不高的问题。

Claims (9)

1.一种基于视听融合的管制员语音识别方法,其特征在于,包括以下步骤:
步骤1:采集管制员视听数据,对视听数据进行预处理构建视听数据集;
步骤2:构建语音表示模型并进行预训练;语音表示模型包括下采样模块、量化表示模块和Masked-Transformer模块;下采样模块由多个卷积模块堆叠构成,卷积模块包括依次设置的一维卷积层、组归一化层和Gelu激活函数;用于从原始语音信号中学习语音浅层特征;
量化表示模块包括前置映射层、码本张量和后置映射层;前置映射层和后置映射层均由单层线性映射层构成;码本张量为三维张量,三个维度分别表示词表、词条和词条维数;量化表示模块用于根据语音浅层特征得到语音离散量化表征;
Masked-Transformer模块包括依次设置的Masked操作子、位置编码叠加层、多个堆叠的Transformer编码器和一个线性映射层堆叠;位置编码叠加层依次包括一维卷积层和Gelu激活函数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;Masked-Transformer模块用于根据语音浅层特征得到最终语音表征;
步骤3:构建视频表示模型并进行预训练;视频表示模型包括帧内表示模型和帧间表示模型;
步骤4:根据步骤2和步骤3得到的模型构建语音-视频联合自编码器,并进行预训练;构建语音-视频联合自编码器包括语音和视频表示模型、双模态融合模块、音频预测解码器、融合帧序列解码器和视频匹配解码器;
语音和视频表示模块根据步骤2和步骤3中的模型构建,用于学习不同模态的特征,得到最终语音表征和最终视频表征;在联合训练阶段,所述步骤2和步骤3中的模型不参与参数更新;
双模块融合模块用于学习模态之间的关联性,输出双模态融合特征;音频预测解码器用于从双模态融合特征中挖掘图像和语音之间的互补性,利用图像模态辅助补全的音频信息;融合帧序列解码器用于进行随机次序预测对随机选取的双模态融合特征进行排序,学习双模块融合特征的序列语义信息;视频匹配解码器用于进行模态匹配,得到双模态融合特征与视频序列匹配度的期望值;
步骤5:构建语音识别模块,语音识别模块和语音-视频联合自编码器构成基于双模态融合的空管语音识别网络,并对基于双模态融合的空管语音识别网络进行监督训练。
2.根据权利要求1所述的一种基于视听融合的管制员语音识别方法,其特征在于,所述步骤3中的帧内表示模型包括依次设置的图像预处理模块、图像Mask模块、图像编码器模块和图像解码器模块,用于在图像粒度上对视频帧进行特征表示;帧间表示模型包括时序推理模块和图像重构模块,用于对帧内表示模型提取的最终图像特征进行时序建模,得到视频表征;
图像编码器模块包括依次设置的一个线性映射层、两个位置编码张量和多个堆叠的Transformer编码器;位置编码张量为二维张量,两个维度分别表示位置和特征维数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;图像解码器模块包括依次设置的Masked占位编码表示、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层,Transformer编码器个数少于图像编码器模块中的个数;
时序推理模块包括依次设置的级联层、帧Mask模块和多层循环门限单元;图像重构模块包括多层线性映射层。
3.根据权利要求2所述的一种基于视听融合的管制员语音识别方法,其特征在于,所述双模态融合模块包括依次设置的语音映射层、视频映射层和注意力模块;语音映射层和视频映射层均为单层线性映射层;注意力模块包括多个循环神经网络和多个线性映射层;
循环神经网络使用循环门限网络加速收敛,学习两个模态特征的注意力分数,并对两个模态特征进行加权和,得到双模态融合特征;最终语音表征和最终视频表征的时间步长可能不一致;注意力模块首先将最终视频表征的时间步长与最终语音表征进行对齐,再进行特征融合;进行时间步长对齐时,具体为:
Figure FDA0004140249550000021
式中:N和M分别为最终语音表征和最终视频表征的时间步长;Δti,j为第i个最终语音表征与第j个最终视频表征的时间步距离;Δti,k为第i个最终语音表征与第k个最终视频表征的时间步距离;Si,j为最终视频表征对齐到时间步i所需的第j个最终视频表征的时间步修正系数,yj为第j个最终视频表征向量,
Figure FDA0004140249550000022
为第j个视频帧对齐到第i个音频时间步的加权最终视频表征向量,
Figure FDA0004140249550000023
为第k个视频帧对齐到第i个音频时间步的加权最终视频表征向量,Wp为图像映射层的线性变换矩阵,bp为图像映射层的权重向量,F为最终视频表征的维数,D为最终语音表征的维数,Wa为语音映射层的线性变换矩阵,ba为语音映射层的权重向量,均为可训练参数;xi为第i个最终语音表征,v为权重向量均为可训练参数,T表示转置,W1、W2为线性变换矩阵,
Figure FDA0004140249550000031
为对齐后的第i个最终视频表征,ai,j
Figure FDA0004140249550000032
的注意力分数;时间步修正系数旨在让最终语音表征更加关注相邻时间步的最终视频表征;其中
Figure FDA0004140249550000033
Figure FDA0004140249550000034
W1,
Figure FDA0004140249550000035
进行特征融合时,具体为:
Figure FDA0004140249550000036
式中:h1、h2分别为语音和视频的单模态权重系数向量,GRU1(·),GRU2(·)为多层循环门限单元,输出为每个时间步的隐藏状态向量,
Figure FDA0004140249550000037
分别为语音和视频的第i个时间步的单模态权重系数,W3、W4为权重向量,b3、b4为偏置标量,均为可训练参数;x为最终语音表征,yalign为对齐后的最终图像表征,xi为第i个最终语音表征,
Figure FDA0004140249550000038
为对齐后的第i个最终图像表征,σ(·)为sigmoid激活函数,mi,1和mi,2分别为xi
Figure FDA0004140249550000039
的注意力分数;oi为第i个双模态融合特征;其中,h1,
Figure FDA00041402495500000310
音频预测解码器包括依次设置的Masked模块、位置编码张量、多个堆叠的Transformer解码器和一个线性映射层;位置编码张量为二维张量,两个维度分别表示时间步和特征维数;Transformer解码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层;
融合帧序列解码器包括依次设置的位置编码张量、一个Transformer编码器和一个分类层;位置编码张量为二维张量,两个维度分别表示时间步和特征维数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;分类层包括一个前馈神经网络和softmax激活函数;
视频匹配解码器包括依次设置的一个池化层和两个线性映射层。
4.根据权利要求3所述的一种基于视听融合的管制员语音识别方法,其特征在于,所述步骤5中语音识别模块包括位置编码张量和多个堆叠的Transformer解码器和分类层;位置编码张量为二维张量,两个维度分别表示时间步和特征维数;Transformer解码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层;分类层包括一个线性映射层和softmax激活函数;
所述监督训练,使用损失函数LCE,具体为:
Figure FDA0004140249550000041
其中,
Figure FDA0004140249550000042
为所述语音识别模块输出的第i帧语音信号文本标签li的概率;U为文本标签个数。
5.根据权利要求4所述的一种基于视听融合的管制员语音识别方法,其特征在于,所述步骤1中预处理过程包括以下处理步骤:
S1:删除存在缺失片段或无法清晰辨识的语音或视频数据;
S2:将来自同一场景的语音和视频数据进行帧对齐;
S3:对语音数据进行人工文本标注;
S4:对视频进行裁剪。
6.根据权利要求5所述的一种基于视听融合的管制员语音识别方法,其特征在于,所述语音表示模型进行预训练时采用的损失函数为Laudio
Figure FDA0004140249550000043
式中:Lc为对比损失,Ld为多样性损失,Lp为正则化损失,α、β和γ分别为对应权重;ct为Masked-Transformer模块中Masked时间步t对应的离散化表征向量,qt为Masked-Transformer模块中Masked时间步t对应的最终语音表征;
Figure FDA0004140249550000044
为包括qt在内的k个Masked时间步对应的最终语音表征;D为qt的维数,sim(a,b)为余弦相似度函数;
G、E分别表示码本张量中有G个词表,每个词表中有E个词条;pg,e表示第g个词表中第e个词条被选中的期望概率;N为下采样模块输出的语音浅层特征个数;zi为第i个语音浅层特征,Linear(·)g,e表示语音浅层特征经过量化表示模块的前置映射层后分配给第g个词表中第e个词条的元素值,T为转置。
7.根据权利要求6所述的一种基于视听融合的管制员语音识别方法,其特征在于,所述帧内表示模块预训练时,损失函数为Lframe
Figure FDA0004140249550000051
式中:j为Masked图像块向量的索引,
Figure FDA0004140249550000052
为第j个图像块的像素损失,QM为Masked图像块向量,H、W、C分别表示视频帧的高度、宽度和通道数;a1为非Masked图像块占所有P*P个图像块的比例;P为对视频帧依高度和宽度进行P等分,得到P*P个图像块;gj为第j个图像块向量的真实值,
Figure FDA0004140249550000053
为第j个图像块向量的预测值;H·W·C/P2为一个图像块向量的维数,T为转置;
帧间表示模型预训练时,损失函数Lvideo为:
Figure FDA0004140249550000054
式中:
Figure FDA0004140249550000061
为第i个视频帧损失,i为视频帧索引,QV为Masked图像表征,
Figure FDA0004140249550000062
为第i个视频帧中第j个图像块的重构相似度,a2为最终图像表征的Mask概率;μi,j为第i个视频帧中第j个图像块的真实值的平均像素值,
Figure FDA0004140249550000063
为第i个视频帧中第j个图像块的预测值的平均像素值;
Figure FDA0004140249550000064
为第i个视频帧中第j个图像块真实值和预测值的像素协方差,σi,j
Figure FDA0004140249550000065
分别第i个视频帧中第j个图像块真实值和预测值的像素标准差;C1和C2均为常数;gi,j,k为第i个视频帧中第j个图像块的第k个像素值的真实值,
Figure FDA0004140249550000066
为第i个视频帧中第j个图像块的第k个像素值的预测值,gi,j为第i个视频帧中第j个图像块真实值,
Figure FDA0004140249550000067
为第i个视频帧中第j个图像块预测值,T为转置。
8.根据权利要求7所述的一种基于视听融合的管制员语音识别方法,其特征在于,所述语音-视频联合自编码器预训练过程中,进行缺失语音预测时,损失函数Lav为:
Figure FDA0004140249550000068
式中:
Figure FDA0004140249550000069
为第i个最终语音表征的特征损失,i为最终语音表征索引,QA为最终语音表征向量,a3·N为Masked最终语音表征的个数,D为最终语音表征的维数,xi
Figure FDA00041402495500000610
分别为第i个Masked最终语音表征的真实值和预测值;
进行随机次序预测时,损失函数为Lsav
Lsav=-log(pi)
式中:pi为概率分布中真实次序类别i的概率;
进行模态匹配任务时,损失函数Laav为:
Figure FDA00041402495500000611
式中:q为全局双模态融合特征向量,k+为正样本的全局最终视频表征,k-为负样本全局最终视频表征,QN为所有负样本的全局最终视频向量,T为转置;
语音-视频联合自编码器进行参数更新时,采用损失函数Ltav进行误差反向传播:
Ltav=γ1Lav2Lsav3Laav
式中:γ1、γ2和γ3分别为缺失语音预测任务、随机次序预测任务和模态匹配任务的误差权重。
9.一种基于视听融合的管制员语音识别的装置,其特征在于,包括录音机、录像机、输入输出设备、处理器、存储器和电源;录音机和录像机用于采集视听数据;存储器用于存储处理器执行的指令,相应数据;输入输出设备用于负责数据交互;处理器用于能够实现权利要求1~8中任一项方法。
CN202310090186.3A 2023-02-09 2023-02-09 一种基于视听融合的管制员语音识别方法及装置 Active CN115810351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310090186.3A CN115810351B (zh) 2023-02-09 2023-02-09 一种基于视听融合的管制员语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310090186.3A CN115810351B (zh) 2023-02-09 2023-02-09 一种基于视听融合的管制员语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN115810351A CN115810351A (zh) 2023-03-17
CN115810351B true CN115810351B (zh) 2023-04-25

Family

ID=85487852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310090186.3A Active CN115810351B (zh) 2023-02-09 2023-02-09 一种基于视听融合的管制员语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN115810351B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863920B (zh) * 2023-07-17 2024-06-11 北京邮电大学 基于双流自监督网络的语音识别方法、装置、设备及介质
CN117877504B (zh) * 2024-03-11 2024-05-24 中国海洋大学 一种联合语音增强方法及其模型搭建方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530437B (zh) * 2020-11-18 2023-10-20 北京百度网讯科技有限公司 语义识别方法、装置、设备以及存储介质
CN113053366B (zh) * 2021-03-12 2023-11-21 中国电子科技集团公司第二十八研究所 一种基于多模态融合的管制话音复述一致性校验方法
US11790885B2 (en) * 2021-05-06 2023-10-17 International Business Machines Corporation Semi-structured content aware bi-directional transformer
CN113361285B (zh) * 2021-06-30 2022-07-12 北京百度网讯科技有限公司 自然语言处理模型的训练方法、自然语言处理方法及装置
CN114141238A (zh) * 2021-11-26 2022-03-04 中国人民解放军陆军工程大学 一种融合Transformer和U-net网络的语音增强方法
CN115240651A (zh) * 2022-07-18 2022-10-25 四川大学 一种基于特征融合的陆空通话说话人角色识别方法及装置

Also Published As

Publication number Publication date
CN115810351A (zh) 2023-03-17

Similar Documents

Publication Publication Date Title
Han et al. Memory-augmented dense predictive coding for video representation learning
CN115810351B (zh) 一种基于视听融合的管制员语音识别方法及装置
CN111626063A (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
Deng An overview of deep-structured learning for information processing
Deng et al. Deep learning for signal and information processing
CN109829495B (zh) 基于lstm和dcgan的时序性图像预测方法
CN116662582B (zh) 基于自然语言的特定领域业务知识检索方法及检索装置
CN103049792A (zh) 深层神经网络的辨别预训练
CN113822125B (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN113780003A (zh) 时空数据变分编解码跨模态增强方法
CN116227560A (zh) 基于DTW-former的时间序列预测模型及方法
Wang et al. SemCKD: Semantic calibration for cross-layer knowledge distillation
CN116168324A (zh) 基于循环交互Transformer与维度交叉融合的视频情感识别方法
mahdi Miraftabzadeh et al. A-day-ahead photovoltaic power prediction based on long short term memory algorithm
CN114677631B (zh) 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法
CN118132674A (zh) 一种基于大语言模型和高效参数微调的文本信息抽取方法
GB2625622A (en) Method and system for federated learning
CN116863920B (zh) 基于双流自监督网络的语音识别方法、装置、设备及介质
CN117131858B (zh) 一种基于字典的轨迹预测系统及方法
CN111737401A (zh) 一种基于Seq2set2seq框架的关键词组预测方法
CN116860943A (zh) 对话风格感知与主题引导的多轮对话方法及系统
CN115512214A (zh) 一种基于因果注意力的室内视觉导航方法
CN115019801A (zh) 基于ResNet-GAU模型的PCVCs端到端语音识别方法
Saleh et al. Anatomy of Neural Language Models
Koohzadi et al. A context based deep temporal embedding network in action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant