CN115810351B - 一种基于视听融合的管制员语音识别方法及装置 - Google Patents
一种基于视听融合的管制员语音识别方法及装置 Download PDFInfo
- Publication number
- CN115810351B CN115810351B CN202310090186.3A CN202310090186A CN115810351B CN 115810351 B CN115810351 B CN 115810351B CN 202310090186 A CN202310090186 A CN 202310090186A CN 115810351 B CN115810351 B CN 115810351B
- Authority
- CN
- China
- Prior art keywords
- video
- layer
- final
- module
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 121
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000002902 bimodal effect Effects 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 239000010410 layer Substances 0.000 claims description 194
- 238000013507 mapping Methods 0.000 claims description 78
- 238000012512 characterization method Methods 0.000 claims description 75
- 239000013598 vector Substances 0.000 claims description 73
- 230000006870 function Effects 0.000 claims description 45
- 238000010606 normalization Methods 0.000 claims description 35
- 238000013528 artificial neural network Methods 0.000 claims description 26
- 238000013139 quantization Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 12
- 125000004122 cyclic group Chemical group 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 6
- 239000002356 single layer Substances 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 101100001674 Emericella variicolor andI gene Proteins 0.000 claims description 2
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000003860 storage Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000000295 complement effect Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000000873 masking effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 101100379081 Emericella variicolor andC gene Proteins 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于视听融合的管制员语音识别方法及装置,包括以下步骤:步骤1:采集管制员视听数据,对视听数据进行预处理构建视听数据集;步骤2:构建语音表示模型并进行预训练;步骤3:构建视频表示模型并进行预训练;视频表示模型包括帧内表示模型和帧间表示模型;步骤4:根据步骤2和步骤3得到的模型构建语音‑视频联合自编码器,并进行预训练;步骤5:构建语音识别模块,语音识别模块和语音‑视频联合自编码器构成基于双模态融合的空管语音识别网络,并对基于双模态融合的空管语音识别网络进行监督训练。本发明为语音识别任务提供具有丰富语义的补充信息,提升了管制员语音识别的准确率。
Description
技术领域
本发明涉及空中交通管理技术领域,具体涉及一种基于视听融合的管制员语音识别方法及装置。
背景技术
目前,在空中交通管理领域,管制员通常使用无线电通讯技术向飞行员语音传达空中交通管制指令。为了实现高度自动化的飞行管制,自动语音识别技术逐步应用于管制员和飞行员的无线电交流中。将管制语音转换为文本信息可以显著减少管制员工作负荷并提高空中交通管理的效率。同时也避免了无线电干扰下的模糊语音信号导致飞行员错误理解管制指令的情况。但在实际管制场景中,管制员语音易收到环境噪声、说话习惯和录制设备的影响,导致自动语音识别给出不符合规范甚至是错误的管制指令,进而影响飞行器安全。
发明内容
本发明针对现有技术存在的问题提供一种为语音识别任务提供具有丰富语义的补充信息,提升了管制员语音识别的准确率的基于视听融合的管制员语音识别方法及装置。
本发明采用的技术方案是:一种基于视听融合的管制员语音识别方法,包括以下步骤:
步骤1:采集管制员视听数据,对视听数据进行预处理构建视听数据集;
步骤2:构建语音表示模型并进行预训练;语音表示模型包括下采样模块、量化表示模块和Masked-Transformer模块;
步骤3:构建视频表示模型并进行预训练;视频表示模型包括帧内表示模型和帧间表示模型;
步骤4:根据步骤2和步骤3得到的模型构建语音-视频联合自编码器,并进行预训练;
步骤5:构建语音识别模块,语音识别模块和语音-视频联合自编码器构成基于双模态融合的空管语音识别网络,并对基于双模态融合的空管语音识别网络进行监督训练。
进一步的,所述步骤2中的下采样模块由多个卷积模块堆叠构成,卷积模块包括依次设置的一维卷积层、组归一化层和Gelu激活函数;用于从原始语音信号中学习语音浅层特征;
量化表示模块包括前置映射层、码本张量和后置映射层;前置映射层和后置映射层均由单层线性映射层构成;码本张量为三维张量,三个维度分别表示词表、词条和词条维数;量化表示模块用于根据语音浅层特征得到语音离散量化表征;
Masked-Transformer模块包括依次设置的Masked操作子、位置编码叠加层、多个堆叠的Transformer编码器和一个线性映射层堆叠;位置编码叠加层依次包括一维卷积层和Gelu激活函数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;Masked-Transformer模块用于根据语音浅层特征得到最终语音表征。
进一步的,所述步骤3中的帧内表示模型包括依次设置的图像预处理模块、图像Mask模块、图像编码器模块和图像解码器模块,用于在图像粒度上对视频帧进行特征表示;帧间表示模型包括时序推理模块和图像重构模块,用于对帧内表示模型提取的最终图像特征进行时序建模,得到视频表征;
图像编码器模块包括依次设置的一个线性映射层、两个位置编码张量和多个堆叠的Transformer编码器;位置编码张量为二维张量,两个维度分别表示位置和特征维数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;图像解码器模块包括依次设置的Masked占位编码表示、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层,Transformer编码器个数少于图像编码器模块中的个数;
时序推理模块包括依次设置的级联层、帧Mask模块和多层循环门限单元;图像重构模块包括多层线性映射层。
进一步的,所述构建语音-视频联合自编码器包括语音和视频表示模型、双模态融合模块、音频预测解码器、融合帧序列解码器和视频匹配解码器;
语音和视频表示模块根据步骤2和步骤3中的模型构建,用于学习不同模态的特征,得到最终语音表征和最终视频表征;在联合训练阶段,所述步骤2和步骤3中的模型不参与参数更新;
双模块融合模块用于学习模态之间的关联性,输出双模态融合特征;双模态融合模块包括依次设置的语音映射层、视频映射层和注意力模块;语音映射层和视频映射层均为单层线性映射层;注意力模块包括多个循环神经网络和多个线性映射层;
循环神经网络使用循环门限网络加速收敛,学习两个模态特征的注意力分数,并对两个模态特征进行加权和,得到双模态融合特征。最终语音表征和最终视频表征的时间步长可能不一致;注意力模块首先将最终视频表征的时间步长与最终语音表征进行对齐,再进行特征融合;进行时间步长对齐时,具体为:
式中:N和M分别为最终语音表征和最终视频表征的时间步长。为第i个最终语音表征与第j个最终视频表征的时间步距离;为第i个最终语音表征与第k个最终视频表征的时间步距离;为最终视频表征对齐到时间步i所需的第j个最终视频表征的时间步修正系数。y j 为第j个最终视频表征向量,为第j个视频帧对齐到第i个音频时间步的加权最终视频表征向量,第k个视频帧对齐到第i个音频时间步的加权最终视频表征向量,W p 为图像映射层的线性变换矩阵,b p 为图像映射层的权重向量,F为最终视频表征的维数,D为最终语音表征的维数,W a 为语音映射层的线性变换矩阵,b a 为语音映射层的权重向量,均为可训练参数。x i 为第i个最终语音表征,v为权重向量均为可训练参数,T表示转置,W1、W2为线性变换矩阵,为对齐后的第i个最终视频表征,为的注意力分数。时间步修正系数旨在让最终语音表征更加关注相邻时间步的最终视频表征。其中;
进行特征融合时,具体为:
式中:h1、h2分别为语音和视频的单模态权重系数向量,GRU1(·), GRU2(·)为多层循环门限单元,输出为每个时间步的隐藏状态向量,、分别为语音和视频的第i个时间步的单模态权重系数, W3、W4为权重向量,b 3、b 4为偏置标量,均为可训练参数;x为最终语音表征,y align 为对齐后的最终图像表征,为第i个最终语音表征,为对齐后的第i个最终图像表征,σ(·)为sigmoid激活函数,m i,1 和m i,2 分别为和的注意力分数;o i 为第个双模态融合特征;其中,;
音频预测解码器用于从双模态融合特征中挖掘图像和语音之间的互补性,利用图像模态辅助补全的音频信息;音频预测解码器包括依次设置的Masked模块、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层;位置编码张量为二维张量,两个维度分别表示时间步和特征维数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层;
融合帧序列解码器用于进行随机次序预测对随机选取的双模态融合特征进行排序,学习双模块融合特征的序列语义信息;融合帧序列解码器包括依次设置的位置编码张量、一个Transformer编码器和一个分类层;位置编码张量为二维张量,两个维度分别表示时间步和特征维数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;分类层包括一个前馈神经网络和softmax激活函数;
视频匹配解码器用于进行模态匹配,得到双模态融合特征与视频序列匹配度的期望值;视频匹配解码器包括依次设置的一个池化层和两个线性映射层。所述视频匹配解码器的一个池化层对双模态融合特征和最终视频表征进行池化操作,得到全局双模态融合特征和全局最终视频表征;池化方式为均值池化,池化维度为时间步维度;
进行自监督联合训练时,将完整的语音数据和视频数据输入所述步骤S2与S3中完成预训练的语音和视频表示模型,得到最终语音表征和最终视频表征,再对所述最终语音表征进行Mask操作,将其与最终视频表征一同进行特征融合,得到双模态融合特征,然后进行多任务学习:一、音频预测解码器使用经过Mask操作的最终语音表征和所述双模态融合特征进行计算,得到Masked最终语音表征预测值;二、随机选取段不重合且连续的个所述双模态融合特征,打乱个段的顺序后输入所述融合帧序列解码器,输出对种次序的概率分布;三、在样本粒度下,双模态融合特征和最终视频表征经过池化后,得到全局双模态融合特征和全局最终视频表征,输入所述视频匹配解码器后,得到双模态融合特征与视频序列匹配度的期望值。
进一步的,所述步骤5中语音识别模块包括位置编码张量和多个堆叠的Transformer解码器和分类层;位置编码张量为二维张量,两个维度分别表示时间步和特征维数;Transformer解码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层;分类层包括一个线性映射层和softmax激活函数;
进一步的,所述步骤1中预处理过程包括以下处理步骤:
S1:删除存在缺失片段或无法清晰辨识的语音或视频数据;
S2:将来自同一场景的语音和视频数据进行帧对齐;
S3:对语音数据进行人工文本标注;
S4:对视频进行裁剪。
式中:L c 为对比损失,L d 为多样性损失,L p 为正则化损失,α、β和γ分别为对应权重;c t 为Masked-Transformer模块中Masked时间步t对应的离散化表征向量,q t 为Masked-Transformer模块中Masked时间步t对应的最终语音表征;为包括q t 在内的k个Masked时间步对应的最终语音表征,除t以外的Masked时间步均从同一语句的所有Masked时间步中均匀采样得到,时间步t居中于所有Masked时间步;D为q t 的维数,sim(a,b)为余弦相似度函数;
G、E分别表示码本张量中有G个词表,每个词表中有E个词条;p g,e 表示第g个词表中第e个词条被选中的期望概率;N为下采样模块输出的语音浅层特征个数;z i 为第i个语音浅层特征,表示语音浅层特征经过量化表示模块的前置映射层后分配给第g个词表中第e个词条的元素值,T为转置。
进一步的,所述帧内表示模块预训练时,损失函数为L frame :
式中:j为Masked图像块向量的索引,为第j个图像块的像素损失,QM为Masked图像块向量,H、W、C分别表示视频帧的高度、宽度和通道数;a 1为非Masked图像块占所有个图像块的比例;P为对视频帧依高度和宽度进行P等分,得到P*P个图像块;g j 为第j个图像块向量的真实值, 为第j个图像块向量的预测值;为一个图像块向量的维数,T为转置;
帧间表示模型预训练时,损失函数L video 为:
式中:为第i个视频帧损失,i为视频帧索引,QV为Masked图像表征,为第i个视频帧中第j个图像块的重构相似度,a 2为最终图像表征的Mask概率;为第i个视频帧中第j个图像块的真实值的平均像素值,为第i个视频帧中第j个图像块的预测值的平均像素值;为第i个视频帧中第j个图像块真实值和预测值的像素协方差,和分别第i个视频帧中第j个图像块真实值和预测值的像素标准差;C 1和C 2均为常数;为第i个视频帧中第j个图像块的第k个像素值的真实值,为第i个视频帧中第j个图像块的第k个像素值的预测值,为第i个视频帧中第j个图像块真实值,为第i个视频帧中第j个图像块预测值,T为转置。
进一步的,所述语音-视频联合自编码器预训练过程中,进行缺失语音预测时,损失函数L av 为:
式中:为第i个最终语音表征的特征损失,i为最终语音表征索引,QA为最终语音表征向量,为Masked最终语音表征的个数,D为最终语音表征的维数,x i 和分别为第i个Masked最终语音表征的真实值和预测值。
进行随机次序预测时,损失函数为L sav :
式中:p i 为概率分布中真实次序类别i的概率;
进行模态匹配任务时,损失函数L aav 为:
式中:q为全局双模态融合特征向量,k+为正样本的全局最终视频表征,k-为负样本的全局最终视频表征,QN为所有负样本的全局最终视频向量;此处的正样本指的是q对应的样本,负样本集合为在q对应的样本以外随机采样的多个样本,T为转置;
语音-视频联合自编码器进行参数更新时,采用损失函数L tav 进行误差反向传播:
式中:γ 1、γ 2和γ 3分别为缺失语音预测任务、随机次序预测任务和模态匹配任务的误差权重。
一种基于视听融合的管制员语音识别的装置,包括录音机、录像机、输入输出设备、处理器、存储器和电源;录音机和录像机用于采集视听数据;存储器用于存储处理器执行的指令,相应数据;输入输出设备用于负责数据交互;处理器用于能够实现上述任一项方法。
本发明的有益效果是:
(1)本发明采用语音和视频双模态信息进行管制员语音识别任务,利用视频模态补充易受干扰的语音信息,提高了语音识别的准确率;
(2)本发明采用多个预训练模型学习单模态特征,使用注意力机制对双模态特征进行融合,分别针对单模态特征的时序对齐和模态融合两个方面进行注意力学习;
(3)本发明采用三种不同的学习任务从多维度增强了双模态融合特征的音频、视频表征能力,同时还维持了音视频数据的时序关联性;
(4)本发明提出的基于视听融合的管制员语音识别方法适用度高,可迁移到其他空管语音任务中,增强了语音语义信息的鲁棒性。
附图说明
图1为本发明基于视听融合的管制员语音识别方法的流程示意图。
图2为本发明实施例中基于视听融合的管制员语音识别方法的语音表示模型示意图。
图3为本发明实施例中基于视听融合的管制员语音识别方法的视频表示模型中帧内表示模型示意图。
图4为本发明实施例中基于视听融合的管制员语音识别方法的视频表示模型中帧间表示模型示意图。
图5为本发明实施例中基于视听融合的管制员语音识别方法的语音-视频联合自编码器示意图。
图6为本发明实施例中基于视听融合的管制员语音识别方法的基于双模态融合的空管语音识别网络的示意图。
图7为本发明实施例中基于视听融合的管制员语音识别装置结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明。
如图1所示,一种基于视听融合的管制员语音识别方法,包括以下步骤:
步骤1:采集管制员视听数据,对视听数据进行预处理构建视听数据集;
在管制员席位上架设录音以及录像设备,采集真实管制工作过程中管制员的视听数据。视听数据需要满足以下条件:
1)语音数据需要包括识别场景中的语种;
2)语音数据需要包含管制员的各种说话状态,包括不同的语速、语气以及语调;
3)视频数据需要确保录制到管制员的整个唇部范围,后续需要唇部运动视频进行视听融合任务。
预处理过程包括以下处理步骤:
S1:删除存在缺失片段或无法清晰辨识的语音或视频数据;
S2:将来自同一场景的语音和视频数据进行帧对齐;确保视频数据与音频数据时间长度一致,且视频数据中管制员的唇部运动与语音数据能够相互对应。
S3:对语音数据进行人工文本标注;
S4:对视频进行裁剪,具体为裁剪出以管制员的唇部为中心的矩形区域,且每个视频帧拥有相同的高度、宽度和通道。
数据集中,输入输出数据对作为空管语音识别的监督数据。输入输出数据对中,来自同一场景的语音和视频数据作为输入数据,语音数据的文本标注作为输出数据。
步骤2:构建语音表示模型并进行预训练;如图2所示,语音表示模型包括下采样模块、量化表示模块和Masked-Transformer模块。
下采样模块由多个卷积模块堆叠构成,卷积模块包括依次设置的一维卷积层、组归一化层和Gelu激活函数;下采样模块对语音信号进行多级特征表示,提取语音信号局部信息,用于从原始语音信号中学习语音浅层特征。
量化表示模块包括前置映射层、码本张量和后置映射层;前置映射层和后置映射层均由单层线性映射层构成;前置映射层负责进行维度对其,后置映射层对码本张量中的词条进行特征融合。码本张量为三维张量,三个维度分别表示词表、词条和词条维数,在预训练过程中参与参数更新;量化表示模块通过乘积量化将下采样模块提取的语音浅层特征进行离散化并转化为有限空间内的语音表示,增强特征鲁棒性,减少噪声扰动的影响。量化表示模块用于根据语音浅层特征得到语音离散量化表征。
Masked-Transformer模块包括依次设置的Masked操作子、位置编码叠加层、多个堆叠的Transformer编码器和一个线性映射层堆叠;Masked操作子对Masked-Transformer模块的输入进行随机Mask。一个时间步的输入作为Masked区域起点的概率为p,Masked区域的长度为M,且Masked区域可以重叠,Mask方式为置零操作,随机方式为均匀采样。Masked操作为掩码或掩膜操作,具体为给某一张量加上或直接替换为一个预先设置的张量,所述预先设置的张量就叫做掩码、掩膜。位置编码叠加层依次包括一维卷积层和Gelu激活函数;对Masked操作子的输出进行保持维数的卷积计算,并将学习到的位置编码叠加到Masked-Transformer模块的输入中。
Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;考察语音浅层特征之间的相似度和差异性。线性映射层进行特征维度变换,得到最终语音表征。Masked-Transformer模块用于根据语音离散量化表征得到最终语音表征。
式中:L c 为对比损失,L d 为多样性损失,L p 为L 2平均平方正则化损失,α、β和γ分别为对应权重;c t 为Masked-Transformer模块中Masked时间步t对应的离散化表征向量,时间步t居中于所有Masked时间步;q t 为Masked-Transformer模块中Masked时间步t对应的最终语音表征;为包括q t 在内的k个Masked时间步对应的最终语音表征,除t以外的k-1个Masked时间步均从同一语句的所有Masked时间步中均匀采样得到;D为q t 的维数,sim(a,b)为余弦相似度函数,T为转置;
G、E分别表示码本张量中有G个词表,每个词表中有E个词条;p g,e 表示第g个词表中第e个词条被选中的期望概率;N为下采样模块输出的语音浅层特征个数;z i 为第i个语音浅层特征,表示语音浅层特征经过量化表示模块的前置映射层后分配给第g个词表中第e个词条的元素值。
对比损失代表了对比学习的损失值,优化目标为极大化q t 和c t 的相似度。多样性损失让词表中的每个词条拥有相同的被选中的概率,优化目标为极大化概率分布的熵值。L 2正则化损失防止下采样模块提取的语音浅层特征发生过拟合,优化目标为保持特征向量的欧几里得范数为较小值。
步骤3:构建视频表示模型并进行预训练;视频表示模型包括帧内表示模型和帧间表示模型;
如图3所示,帧内表示模型包括依次设置的图像预处理模块、图像Mask模块、图像编码器模块和图像解码器模块,用于在图像粒度上对视频帧进行特征表示;如图4所示,帧间表示模型包括时序推理模块和图像重构模块,用于对帧内表示模型提取的最终图像特征进行时序建模,构建起图像特征之间的时序依赖,充分提取视频帧中的时空语义信息,得到视频表征。
图像预处理模块将每个视频帧按高度和宽度等分为P×P个图像块,并将图像块的像素值按高度、宽度、通道组织为一个图像块向量。图像Mask模块均匀采样P×P×a 1个图像块向量作为编码器模块的输入,剩余图像块向量作为Masked图像块向量,且0.2<a 1<0.5。图像编码器模块使用较大规模的网络学习图像块向量之间的隐含关系,得到图像块编码表示。图像解码器模块使用较小规模的网络进行预训练学习,提取图像块编码表示的空间信息,预测Masked图像块向量。
图像编码器模块包括依次设置的一个线性映射层、两个位置编码张量和多个堆叠的Transformer编码器;一个线性映射层对图像块向量进行维数转换。位置编码张量为二维张量,两个维度分别表示位置和特征维数;第一个位置编码张量的位置维度为P×P×a 1,将叠加到多个堆叠的Transformer编码器的输入中,在帧内表示模型训练过程中参与参数更新。第二个位置编码张量的位置维度为P×P,将叠加到时序推理模块的输入中,在帧间表示模型训练过程中参与参数更新。Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;用于学习图像块向量之间的隐含关系。
图像解码器模块包括依次设置的Masked占位编码表示、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层,Transformer编码器个数少于图像编码器模块中的个数;Masked占位编码表示为一维向量,作为Masked图像块向量的占位符,与图像块编码表示一同参与后续计算。Masked占位编码表示在预训练过程中参与参数更新。位置编码张量为二维张量,两个维度分别表示位置和特征维数,位置维度在预训练阶段为P×P,将叠加到多个堆叠的Transformer编码器的输入中。位置编码张量在帧内表示模型训练过程中参与参数更新。Transformer编码器多头自注意力模块、层归一化层、前馈神经网络和层归一化层。从图像块编码表示的空间关系中获取预测Masked图像块向量的语义信息。一个线性映射层对预测Masked图像块向量的语义信息进一步挖掘特征,得到最终预测值。
帧内表示模块预训练时,损失函数为L frame :
式中:j为Masked图像块向量的索引,为第j个图像块的像素损失,QM为Masked图像块向量,H、W、C分别表示视频帧的高度、宽度和通道数;a1为非Masked图像块占所有P*P个图像块的比例;P为对视频帧依高度和宽度进行P等分,得到P*P个图像块;g j 为第j个图像块向量的真实值, 为第j个图像块向量的预测值;为一个图像块向量的维数,T为转置。
时序推理模块包括依次设置的级联层、帧Mask模块和多层循环门限单元;级联层将来自图像编码器模块得到的叠加位置编码张量的图像块编码表示进行级联,得到最终图像表征。帧Mask模块均匀采样个所述最终图像表征进行Mask操作,得到Masked最终图像表征,Mask方式为置零操作。多层循环门限单元对所有最终图像表征进行时序建模,学习视频帧之间的特征变化规律,得到最终视频表征。
图像重构模块包括多层线性映射层,对最终视频表征进一步特征提取,预测Masked最终图像表征对应的视频帧。
帧间表示模型预训练时,损失函数L video 为:
式中:为第i个视频帧损失,i为视频帧索引,QV为Masked图像表征,为第i个视频帧中第j个图像块的重构相似度,a 2为最终图像表征的Mask概率;为第i个视频帧中第j个图像块的真实值的平均像素值,为第i个视频帧中第j个图像块的预测值的平均像素值;为第i个视频帧中第j个图像块真实值和预测值的像素协方差,和分别第i个视频帧中第j个图像块真实值和预测值的像素标准差;C 1和C 2均为常数,C 1取值6.5025,C 2取值58.5225;为第i个视频帧中第j个图像块的第k个像素值的真实值,为第i个视频帧中第j个图像块的第k个像素值的预测值,为第i个视频帧中第j个图像块真实值,为第i个视频帧中第j个图像块预测值,T为转置。
对视频表示模型进行自监督预训练时,首先对帧内表示模型进行自监督训练,然后移除帧内表示模型中的图像Mask模块,对帧间表示模型进行自监督训练。
步骤4:根据步骤2和步骤3得到的模型构建语音-视频联合自编码器,并进行预训练;所述语音-视频联合自编码器包括双模态融合模块、音频预测解码器、融合帧序列解码器和视频匹配解码器;
如图5所示,语音-视频联合自编码器包括语音和视频表示模型、双模态融合模块、音频预测解码器、融合帧序列解码器和视频匹配解码器;
完成预训练的语音和视频表示模型将不进行任何Mask操作。语音和视频表示模块根据步骤2和步骤3中的模型构建,用于学习不同模态的特征,得到最终语音表征和最终视频表征;在联合训练阶段,语音表示模型和视频表示模型不参与参数更新。
双模态融合模块包括依次设置的语音映射层、视频映射层和注意力模块;语音映射层和视频映射层均为单层线性映射层;分别对最终语音表征和最终图像表征进行特征维度变换,将两个模态的特征映射到维数相同的特征空间。注意力模块包括多个循环神经网络和多个线性映射层;循环神经网络使用循环门限网络加速收敛,学习两个模态特征的注意力分数,并对两个模态特征进行加权和,得到双模态融合特征。最终音表征和最终视频表征的时间步长可能不一致。注意力模块首先将最终视频表征的时间步长与最终语音表征进行对齐,再进行特征融合。进行时间步长对齐时,具体为:
式中:N和M分别为最终语音表征和最终视频表征的时间步长;为第i个最终语音表征与第j个最终视频表征的时间步距离;为第i个最终语音表征与第k个最终视频表征的时间步距离;为最终视频表征对齐到时间步i所需的第j个最终视频表征的时间步修正系数,y j 为第j个最终视频表征向量,为第j个视频帧对齐到第i个音频时间步的加权最终视频表征向量,为第k个视频帧对齐到第i个音频时间步的加权最终视频表征向量,W p 为图像映射层的线性变换矩阵,b p 为图像映射层的权重向量,F为最终视频表征的维数,D为最终语音表征的维数,W a 为语音映射层的线性变换矩阵,b a 为语音映射层的权重向量,均为可训练参数;x i 为第i个最终语音表征,v为权重向量均为可训练参数,T表示转置,W1、W2为线性变换矩阵,为对齐后的第i个最终视频表征,为的注意力分数;时间步修正系数旨在让最终语音表征更加关注相邻时间步的最终视频表征;其中;
进行特征融合时,具体为:
式中:h1、h2分别为语音和视频的单模态权重系数,为多层循环门限单元,输出为每个时间步的隐藏状态向量。W3、W4为权重向量,b 3、b 4为偏置标量,均为可训练参数;y align 为对齐后的最终图像表征。为sigmoid激活函数。为的注意力分数;为第个双模态融合特征;其中,。
音频预测解码器用于从双模态融合特征中挖掘图像和语音之间的互补性,利用图像模态辅助补全的音频信息;音频预测解码器包括依次设置的Masked模块、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层;Masked模块均匀采样a3×N个最终语音表征进行Mask操作,Mask方式为置零操作;位置编码张量为二维张量,两个维度分别表示时间步和特征维数,将叠加到多个堆叠的Transformer编码器的输入中,在音频预测解码器训练过程中参与参数更新;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层。多个堆叠的Transformer编码器使用经过Mask操作的最终语音表征作为输入;多头自注意力模块提取最终语音表征之间的特征相似性与差异性,得到Masked最终语音表征的单模态互补语义信息;多头注意力模块与所述语音-图像联合自编码器的双模态融合模块进行连接,使用所述单模态互补语义信息作为查询向量,计算所述双模态融合特征的注意力分数并进行加权和,提取高度关联的视频帧监督信息,得到Masked最终语音表征的双模态互补语义信息;多个堆叠的Transformer编码器分析所述单模态互补语义信息和双模态互补语义信息,结合视频信息得到预测Masked最终语音表征的语义信息。音频解码器的一个线性映射层对预测Masked最终语音表征的语义信息进一步挖掘特征,最后输出Masked最终语音表征的预测值。
进行缺失语音预测任务时,使用损失函数L av 为:
式中:为第i个最终语音表征的特征损失,i为最终语音表征索引,QA为最终语音表征向量,为Masked最终语音表征的个数,D为最终语音表征的维数,x i 和分别为第i个Masked最终语音表征的真实值和预测值。
融合帧序列解码器用于进行随机次序预测对随机选取的双模态融合特征进行排序,学习双模块融合特征的序列语义信息;融合帧序列解码器包括依次设置的位置编码张量、一个Transformer编码器和一个分类层;位置编码张量为二维张量,两个维度分别表示时间步和特征维数;将叠加到多个堆叠的Transformer编码器的输入中,融合帧序列解码器训练过程中参与参数更新。
Transformer编码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层;Transformer编码器使用分类嵌入向量和随机选取的双模态融合特征作为输入,提取双模态融合特征中隐含的序列语义信息,所述分类嵌入向量对应的输出将作为双模态融合特征时序关联性的关联特征表达。分类层包括一个前馈神经网络和softmax激活函数;一个前馈神经网络对所述关联特征表达进行维数转换,并经过所述softmax函数得到次序的概率分布。
进行随机次序预测任务时,使用损失函数L sav :
式中:p i 为概率分布中真实次序类别i的概率。
视频匹配解码器用于进行模态匹配,得到双模态融合特征与视频序列匹配度的期望值;视频匹配解码器包括依次设置的一个池化层和两个线性映射层。一个池化层对双模态融合特征和最终视频表征进行池化操作,得到全局双模态融合特征和全局最终视频表征;池化方式为均值池化,池化维度为时间步维度。两个线性映射层分别对所述全局双模态融合特征和全局最终视频表征进行维数转换,得到维数相同的特征向量以便进行匹配度的计算。
音频预测解码器使用经过Mask操作的最终语音表征和所述双模态融合特征进行计算,得到Masked最终语音表征预测值;随机选取段不重合且连续的个所述双模态融合特征,打乱个段的顺序后输入所述融合帧序列解码器,输出对种次序的概率分布;在样本粒度下,双模态融合特征和最终视频表征经过池化后,得到全局双模态融合特征和全局最终视频表征,输入所述视频匹配解码器后,得到双模态融合特征与视频序列匹配度的期望值。
进行模态匹配任务时,使用损失函数L aav 为:
式中:q为全局双模态融合特征向量,k+为正样本的全局最终视频表征,k-为负样本的全局最终视频表征,QN为所有负样本的全局最终视频向量。此处的正样本指的是q对应的样本,负样本集合为在q对应的样本以外随机采样的多个样本,T为转置。
语音-视频联合自编码器进行参数更新时,采用损失函数L tav 进行误差反向传播:
式中:γ 1、γ 2和γ 3分别为缺失语音预测任务、随机次序预测任务和模态匹配任务的误差权重。
步骤5:构建语音识别模块,语音识别模块和语音-视频联合自编码器构成基于双模态融合的空管语音识别网络,并对基于双模态融合的空管语音识别网络进行监督训练;
基于双模态融合的空管语音识别网络结构如图6所示,完成预训练的语音-视频联合自编码器将不进行任何Mask操作,并剔除音频预测解码器的所述一个线性映射层;基于双模态融合的空管语音识别网络进行监督训练时,完成预训练的语音-视频联合自编码器的双模态融合模块不参与参数更新。
语音识别模块包括位置编码张量和多个堆叠的Transformer解码器和分类层;位置编码张量为二维张量,两个维度分别表示时间步和特征维数,将叠加到多个堆叠的Transformer解码器的输入中,在基于双模态融合的空管语音识别网络训练过程中参与参数更新;Transformer解码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层;多个堆叠的Transformer解码器的第一个解码器中,多头自注意力模块应为Masked多头自注意力模块,旨在并行训练过程中,屏蔽未来的数据,防止数据泄露;多头自注意力模块提取语言建模单元之间的关联性;多头注意力模块与所述语音-图像联合自编码器进行连接,使用语言建模单元的关联信息作为查询向量,学习语音特征与语言建模单元的对应关系,并使用视频特征增强识别能力。分类层包括一个线性映射层和softmax激活函数。一个线性映射层对所述多个堆叠的Transformer解码器提取的特征进行维数对齐,使之与语言建模单元维数一致;softmax激活函数对维数对齐后的特征进行分类判别,得到最终的概率分布。
基于双模态融合的空管语音识别网络进行监督训练时,使用损失函数L CE :
语音识别模块通过Transformer结构进行循环推理,学习语言建模单元之间的关联信息,并通过音频预测解码器中多个堆叠的Transformer解码器提取的语义信息学习语音特征与语言建模单元的对应关系;语义信息中的视频特征将辅助完成语音识别任务,增强识别精度。
语音识别模型的输出概率结合greedy search或beam search算法解码,得到可读的文本序列作为语音识别的最终结果。
如图7所示,一种基于视听融合的管制员语音识别的装置,包括录音机、录像机、输入输出设备、处理器、存储器和电源;录音机和录像机用于采集视听数据;存储器用于存储处理器执行的指令,相应数据;处理器用于能够实现语音识别方法。
其中录音机具备音频录制、处理、存储以及导出功能;录像机具备视频录制、处理、存储以及导出功能。输入输出设备包括键盘、鼠标、显示、USB接口以及RJ45接口等,负责数据交互。存储器存储有可被所述至少一个处理器执行的指令;指令被所述至少一个处理器执行。电源可以是移动或固定电源,为所述装置提供能源。
方法的全部步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。方法可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明方法。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
本发明采用语音和视频双模态信息进行管制员语音识别任务,利用视频模态补充易受干扰的语音信息,提高了语音识别的准确率;采用多个预训练模型学习单模态特征,并使用注意力机制对双模态特征进行融合,分别针对单模态特征的时序对齐和模态融合两个方面进行注意力学习;使用了三种不同的学习任务从多维度增强了双模态融合特征的音频、视频表征能力,同时还维持了音视频数据的时序关联性;提出的基于视听融合的管制员语音识别方法适用度高,可迁移到其他空管语音任务中,增强语音语义信息的鲁棒性。
本发明解决了现有管制员语音识别技术存在的易受环境噪声、说话习惯和录制设备影响以及鲁棒性不高的问题。
Claims (9)
1.一种基于视听融合的管制员语音识别方法,其特征在于,包括以下步骤:
步骤1:采集管制员视听数据,对视听数据进行预处理构建视听数据集;
步骤2:构建语音表示模型并进行预训练;语音表示模型包括下采样模块、量化表示模块和Masked-Transformer模块;下采样模块由多个卷积模块堆叠构成,卷积模块包括依次设置的一维卷积层、组归一化层和Gelu激活函数;用于从原始语音信号中学习语音浅层特征;
量化表示模块包括前置映射层、码本张量和后置映射层;前置映射层和后置映射层均由单层线性映射层构成;码本张量为三维张量,三个维度分别表示词表、词条和词条维数;量化表示模块用于根据语音浅层特征得到语音离散量化表征;
Masked-Transformer模块包括依次设置的Masked操作子、位置编码叠加层、多个堆叠的Transformer编码器和一个线性映射层堆叠;位置编码叠加层依次包括一维卷积层和Gelu激活函数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;Masked-Transformer模块用于根据语音浅层特征得到最终语音表征;
步骤3:构建视频表示模型并进行预训练;视频表示模型包括帧内表示模型和帧间表示模型;
步骤4:根据步骤2和步骤3得到的模型构建语音-视频联合自编码器,并进行预训练;构建语音-视频联合自编码器包括语音和视频表示模型、双模态融合模块、音频预测解码器、融合帧序列解码器和视频匹配解码器;
语音和视频表示模块根据步骤2和步骤3中的模型构建,用于学习不同模态的特征,得到最终语音表征和最终视频表征;在联合训练阶段,所述步骤2和步骤3中的模型不参与参数更新;
双模块融合模块用于学习模态之间的关联性,输出双模态融合特征;音频预测解码器用于从双模态融合特征中挖掘图像和语音之间的互补性,利用图像模态辅助补全的音频信息;融合帧序列解码器用于进行随机次序预测对随机选取的双模态融合特征进行排序,学习双模块融合特征的序列语义信息;视频匹配解码器用于进行模态匹配,得到双模态融合特征与视频序列匹配度的期望值;
步骤5:构建语音识别模块,语音识别模块和语音-视频联合自编码器构成基于双模态融合的空管语音识别网络,并对基于双模态融合的空管语音识别网络进行监督训练。
2.根据权利要求1所述的一种基于视听融合的管制员语音识别方法,其特征在于,所述步骤3中的帧内表示模型包括依次设置的图像预处理模块、图像Mask模块、图像编码器模块和图像解码器模块,用于在图像粒度上对视频帧进行特征表示;帧间表示模型包括时序推理模块和图像重构模块,用于对帧内表示模型提取的最终图像特征进行时序建模,得到视频表征;
图像编码器模块包括依次设置的一个线性映射层、两个位置编码张量和多个堆叠的Transformer编码器;位置编码张量为二维张量,两个维度分别表示位置和特征维数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;图像解码器模块包括依次设置的Masked占位编码表示、位置编码张量、多个堆叠的Transformer编码器和一个线性映射层,Transformer编码器个数少于图像编码器模块中的个数;
时序推理模块包括依次设置的级联层、帧Mask模块和多层循环门限单元;图像重构模块包括多层线性映射层。
3.根据权利要求2所述的一种基于视听融合的管制员语音识别方法,其特征在于,所述双模态融合模块包括依次设置的语音映射层、视频映射层和注意力模块;语音映射层和视频映射层均为单层线性映射层;注意力模块包括多个循环神经网络和多个线性映射层;
循环神经网络使用循环门限网络加速收敛,学习两个模态特征的注意力分数,并对两个模态特征进行加权和,得到双模态融合特征;最终语音表征和最终视频表征的时间步长可能不一致;注意力模块首先将最终视频表征的时间步长与最终语音表征进行对齐,再进行特征融合;进行时间步长对齐时,具体为:
式中:N和M分别为最终语音表征和最终视频表征的时间步长;Δti,j为第i个最终语音表征与第j个最终视频表征的时间步距离;Δti,k为第i个最终语音表征与第k个最终视频表征的时间步距离;Si,j为最终视频表征对齐到时间步i所需的第j个最终视频表征的时间步修正系数,yj为第j个最终视频表征向量,为第j个视频帧对齐到第i个音频时间步的加权最终视频表征向量,为第k个视频帧对齐到第i个音频时间步的加权最终视频表征向量,Wp为图像映射层的线性变换矩阵,bp为图像映射层的权重向量,F为最终视频表征的维数,D为最终语音表征的维数,Wa为语音映射层的线性变换矩阵,ba为语音映射层的权重向量,均为可训练参数;xi为第i个最终语音表征,v为权重向量均为可训练参数,T表示转置,W1、W2为线性变换矩阵,为对齐后的第i个最终视频表征,ai,j为的注意力分数;时间步修正系数旨在让最终语音表征更加关注相邻时间步的最终视频表征;其中 W1,
进行特征融合时,具体为:
式中:h1、h2分别为语音和视频的单模态权重系数向量,GRU1(·),GRU2(·)为多层循环门限单元,输出为每个时间步的隐藏状态向量,分别为语音和视频的第i个时间步的单模态权重系数,W3、W4为权重向量,b3、b4为偏置标量,均为可训练参数;x为最终语音表征,yalign为对齐后的最终图像表征,xi为第i个最终语音表征,为对齐后的第i个最终图像表征,σ(·)为sigmoid激活函数,mi,1和mi,2分别为xi和的注意力分数;oi为第i个双模态融合特征;其中,h1,
音频预测解码器包括依次设置的Masked模块、位置编码张量、多个堆叠的Transformer解码器和一个线性映射层;位置编码张量为二维张量,两个维度分别表示时间步和特征维数;Transformer解码器包括依次设置的多头自注意力模块、层归一化层、多头注意力模块、前馈神经网络和层归一化层;
融合帧序列解码器包括依次设置的位置编码张量、一个Transformer编码器和一个分类层;位置编码张量为二维张量,两个维度分别表示时间步和特征维数;Transformer编码器包括依次设置的多头自注意力模块、层归一化层、前馈神经网络和层归一化层;分类层包括一个前馈神经网络和softmax激活函数;
视频匹配解码器包括依次设置的一个池化层和两个线性映射层。
5.根据权利要求4所述的一种基于视听融合的管制员语音识别方法,其特征在于,所述步骤1中预处理过程包括以下处理步骤:
S1:删除存在缺失片段或无法清晰辨识的语音或视频数据;
S2:将来自同一场景的语音和视频数据进行帧对齐;
S3:对语音数据进行人工文本标注;
S4:对视频进行裁剪。
6.根据权利要求5所述的一种基于视听融合的管制员语音识别方法,其特征在于,所述语音表示模型进行预训练时采用的损失函数为Laudio:
式中:Lc为对比损失,Ld为多样性损失,Lp为正则化损失,α、β和γ分别为对应权重;ct为Masked-Transformer模块中Masked时间步t对应的离散化表征向量,qt为Masked-Transformer模块中Masked时间步t对应的最终语音表征;为包括qt在内的k个Masked时间步对应的最终语音表征;D为qt的维数,sim(a,b)为余弦相似度函数;
G、E分别表示码本张量中有G个词表,每个词表中有E个词条;pg,e表示第g个词表中第e个词条被选中的期望概率;N为下采样模块输出的语音浅层特征个数;zi为第i个语音浅层特征,Linear(·)g,e表示语音浅层特征经过量化表示模块的前置映射层后分配给第g个词表中第e个词条的元素值,T为转置。
7.根据权利要求6所述的一种基于视听融合的管制员语音识别方法,其特征在于,所述帧内表示模块预训练时,损失函数为Lframe:
式中:j为Masked图像块向量的索引,为第j个图像块的像素损失,QM为Masked图像块向量,H、W、C分别表示视频帧的高度、宽度和通道数;a1为非Masked图像块占所有P*P个图像块的比例;P为对视频帧依高度和宽度进行P等分,得到P*P个图像块;gj为第j个图像块向量的真实值,为第j个图像块向量的预测值;H·W·C/P2为一个图像块向量的维数,T为转置;
帧间表示模型预训练时,损失函数Lvideo为:
式中:为第i个视频帧损失,i为视频帧索引,QV为Masked图像表征,为第i个视频帧中第j个图像块的重构相似度,a2为最终图像表征的Mask概率;μi,j为第i个视频帧中第j个图像块的真实值的平均像素值,为第i个视频帧中第j个图像块的预测值的平均像素值;为第i个视频帧中第j个图像块真实值和预测值的像素协方差,σi,j和分别第i个视频帧中第j个图像块真实值和预测值的像素标准差;C1和C2均为常数;gi,j,k为第i个视频帧中第j个图像块的第k个像素值的真实值,为第i个视频帧中第j个图像块的第k个像素值的预测值,gi,j为第i个视频帧中第j个图像块真实值,为第i个视频帧中第j个图像块预测值,T为转置。
8.根据权利要求7所述的一种基于视听融合的管制员语音识别方法,其特征在于,所述语音-视频联合自编码器预训练过程中,进行缺失语音预测时,损失函数Lav为:
式中:为第i个最终语音表征的特征损失,i为最终语音表征索引,QA为最终语音表征向量,a3·N为Masked最终语音表征的个数,D为最终语音表征的维数,xi和分别为第i个Masked最终语音表征的真实值和预测值;
进行随机次序预测时,损失函数为Lsav:
Lsav=-log(pi)
式中:pi为概率分布中真实次序类别i的概率;
进行模态匹配任务时,损失函数Laav为:
式中:q为全局双模态融合特征向量,k+为正样本的全局最终视频表征,k-为负样本全局最终视频表征,QN为所有负样本的全局最终视频向量,T为转置;
语音-视频联合自编码器进行参数更新时,采用损失函数Ltav进行误差反向传播:
Ltav=γ1Lav+γ2Lsav+γ3Laav
式中:γ1、γ2和γ3分别为缺失语音预测任务、随机次序预测任务和模态匹配任务的误差权重。
9.一种基于视听融合的管制员语音识别的装置,其特征在于,包括录音机、录像机、输入输出设备、处理器、存储器和电源;录音机和录像机用于采集视听数据;存储器用于存储处理器执行的指令,相应数据;输入输出设备用于负责数据交互;处理器用于能够实现权利要求1~8中任一项方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310090186.3A CN115810351B (zh) | 2023-02-09 | 2023-02-09 | 一种基于视听融合的管制员语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310090186.3A CN115810351B (zh) | 2023-02-09 | 2023-02-09 | 一种基于视听融合的管制员语音识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115810351A CN115810351A (zh) | 2023-03-17 |
CN115810351B true CN115810351B (zh) | 2023-04-25 |
Family
ID=85487852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310090186.3A Active CN115810351B (zh) | 2023-02-09 | 2023-02-09 | 一种基于视听融合的管制员语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115810351B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116863920B (zh) * | 2023-07-17 | 2024-06-11 | 北京邮电大学 | 基于双流自监督网络的语音识别方法、装置、设备及介质 |
CN117877504B (zh) * | 2024-03-11 | 2024-05-24 | 中国海洋大学 | 一种联合语音增强方法及其模型搭建方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530437B (zh) * | 2020-11-18 | 2023-10-20 | 北京百度网讯科技有限公司 | 语义识别方法、装置、设备以及存储介质 |
CN113053366B (zh) * | 2021-03-12 | 2023-11-21 | 中国电子科技集团公司第二十八研究所 | 一种基于多模态融合的管制话音复述一致性校验方法 |
US11790885B2 (en) * | 2021-05-06 | 2023-10-17 | International Business Machines Corporation | Semi-structured content aware bi-directional transformer |
CN113361285B (zh) * | 2021-06-30 | 2022-07-12 | 北京百度网讯科技有限公司 | 自然语言处理模型的训练方法、自然语言处理方法及装置 |
CN114141238A (zh) * | 2021-11-26 | 2022-03-04 | 中国人民解放军陆军工程大学 | 一种融合Transformer和U-net网络的语音增强方法 |
CN115240651A (zh) * | 2022-07-18 | 2022-10-25 | 四川大学 | 一种基于特征融合的陆空通话说话人角色识别方法及装置 |
-
2023
- 2023-02-09 CN CN202310090186.3A patent/CN115810351B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115810351A (zh) | 2023-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | Memory-augmented dense predictive coding for video representation learning | |
CN115810351B (zh) | 一种基于视听融合的管制员语音识别方法及装置 | |
CN111626063A (zh) | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 | |
Deng | An overview of deep-structured learning for information processing | |
Deng et al. | Deep learning for signal and information processing | |
CN109829495B (zh) | 基于lstm和dcgan的时序性图像预测方法 | |
CN116662582B (zh) | 基于自然语言的特定领域业务知识检索方法及检索装置 | |
CN103049792A (zh) | 深层神经网络的辨别预训练 | |
CN113822125B (zh) | 唇语识别模型的处理方法、装置、计算机设备和存储介质 | |
CN113780003A (zh) | 时空数据变分编解码跨模态增强方法 | |
CN116227560A (zh) | 基于DTW-former的时间序列预测模型及方法 | |
Wang et al. | SemCKD: Semantic calibration for cross-layer knowledge distillation | |
CN116168324A (zh) | 基于循环交互Transformer与维度交叉融合的视频情感识别方法 | |
mahdi Miraftabzadeh et al. | A-day-ahead photovoltaic power prediction based on long short term memory algorithm | |
CN114677631B (zh) | 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法 | |
CN118132674A (zh) | 一种基于大语言模型和高效参数微调的文本信息抽取方法 | |
GB2625622A (en) | Method and system for federated learning | |
CN116863920B (zh) | 基于双流自监督网络的语音识别方法、装置、设备及介质 | |
CN117131858B (zh) | 一种基于字典的轨迹预测系统及方法 | |
CN111737401A (zh) | 一种基于Seq2set2seq框架的关键词组预测方法 | |
CN116860943A (zh) | 对话风格感知与主题引导的多轮对话方法及系统 | |
CN115512214A (zh) | 一种基于因果注意力的室内视觉导航方法 | |
CN115019801A (zh) | 基于ResNet-GAU模型的PCVCs端到端语音识别方法 | |
Saleh et al. | Anatomy of Neural Language Models | |
Koohzadi et al. | A context based deep temporal embedding network in action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |