CN116597825A

CN116597825A - 一种基于端到端的视听语音识别方法、装置、设备及介质

Info

Publication number: CN116597825A
Application number: CN202310717625.9A
Authority: CN
Inventors: 凌天东; 程宁; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-08-15

Abstract

本发明涉及人工智能技术领域，尤其涉及一种基于端到端的视听语音识别方法、装置、设备及介质。上述方法应用于医疗领域，本发明中，通过端到端的模型实现视听语音识别，将卷积特征与编码特征相结合，提取图像序列信息与音频信息中的特征，提高特征提取的准确率，将图像序列信息与音频信息中的特征融合后，进行视听语音识别，该视听语音识别方法可以更好地利用和适应新的硬件并行计算能力，提高运算速率，因此，该视听语音识别方法可以提高语音识别的性能。

Description

一种基于端到端的视听语音识别方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于端到端的视听语音识别方法、装置、设备及介质。

背景技术

目前现有的语音识别技术已经取得了较大的发展并且已经应用到了多个领域，如：医疗领域中医疗文书录入，疾病辅助诊断，医疗设备交互，导诊服务及诊后随访等业务中应用到了语音识别技术，然而由于较高的语音识别率通常都是在较纯净的语音环境中得到的，当处于噪声环境时，识别率将会急剧下降，而人类的语音感知具有听觉和视觉的双模型特性，从而具有很高的语音识别能力，并且在语音失真或受到噪音干扰的情况下，仍然能够达到较高的识别率，所以视听语音识别方法的研究逐渐日益引起人们的关注。

现有技术中，通过综合利用说话人的音频信息和视频信息(特别是嘴部形状特征)完成语音识别。但当在噪声和失真条件下，语音识别的性能显著下降，因此，在视听语音识别的过程中，如何视听语音识别的性能成为亟待解决的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种基于端到端的视听语音识别方法、装置、设备及介质，以解决视听语音识别性能较低的问题。

本申请实施例的第一方面提供了一种基于端到端的视听语音识别方法，所述视听语音识别方法包括：

将获取的原始视频中视觉流和音频流分离，得到图像序列信息与音频序列信息；

基于三维卷积核构成的卷积层对所述图像序列信息进行卷积处理，得到图像卷积特征，使用全局平均池化层对所述图像卷积特征进行维度挤压，得到一维的第一特征；

基于一维卷积核构成的卷积层对所述音频序列信息进行卷积处理，得到音频卷积特征，对所述音频卷积特征进行下采样，得到与所述第一特征的帧率相匹配的第二特征；

分别对所述第一特征和所述第二特征进行编码，得到对应所述第一特征的第一特征编码和对应所述第二特征的第二特征编码；

对所述第一特征编码与所述第二特征编码进行融合，得到融合特征编码，对所述融合特征编码进行解码，得到解码特征，所述解码特征用于对所述音频流进行修正，得到基于所述视觉流的语音识别结果。

本申请实施例的第二方面提供了一种基于端到端的视听语音识别装置，所述视听语音识别装置包括：

分离模块，用于将获取的原始视频中视觉流和音频流分离，得到图像序列信息与音频序列信息；

第一特征确定模块，用于基于三维卷积核构成的卷积层对所述图像序列信息进行卷积处理，得到图像卷积特征，使用全局平均池化层对所述图像卷积特征进行维度挤压，得到一维的第一特征；

第二特征确定模块，用于基于一维卷积核构成的卷积层对所述音频序列信息进行卷积处理，得到音频卷积特征，对所述音频卷积特征进行下采样，得到与所述第一特征的帧率相匹配的第二特征；

编码模块，用于分别对所述第一特征和所述第二特征进行编码，得到对应所述第一特征的第一特征编码和对应所述第二特征的第二特征编码；

解码模块，用于对所述第一特征编码与所述第二特征编码进行融合，得到融合特征编码，对所述融合特征编码进行解码，得到解码特征，所述解码特征用于对所述音频流进行修正，得到基于所述视觉流的语音识别结果。

第三方面，本发明实施例提供一种计算机设备，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的视听语音识别方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的视听语音识别方法。

本发明与现有技术相比存在的有益效果是：

将获取的原始视频中视觉流和音频流分离，得到图像序列信息与音频序列信息，基于三维卷积核构成的卷积层对图像序列信息进行卷积处理，得到图像卷积特征，使用全局平均池化层对图像卷积特征进行维度挤压，得到一维的第一特征，基于一维卷积核构成的卷积层对音频序列信息进行卷积处理，得到音频卷积特征，对音频卷积特征进行下采样，得到与第一特征的帧率相匹配的第二特征，分别对第一特征和第二特征进行编码，得到对应第一特征的第一特征编码和对应第二特征的第二特征编码，对第一特征编码与第二特征编码进行融合，得到融合特征编码，对融合特征编码进行解码，得到解码特征，解码特征用于对音频流进行修正，得到基于视觉流的语音识别结果。本发明中，通过端到端的模型实现视听语音识别，将卷积特征与编码特征相结合，提取图像序列信息与音频信息中的特征，提高特征提取的准确率，将图像序列信息与音频信息中的特征融合后，进行视听语音识别，该视听语音识别方法可以更好地利用和适应新的硬件并行计算能力，提高运算速率，因此，该视听语音识别方法可以提高语音识别的性能。在医疗领域的病例文本录入时，使用本申请方法可以将获取到的录入人员的视频中的语音进行准确识别，从而提高病例文本录入的录入效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种基于端到端的视听语音识别方法的一应用环境示意图；

图2是本发明一实施例提供的一种基于端到端的视听语音识别方法的流程示意图；

图3是本发明一实施例提供的一种基于端到端的视听语音识别装置的结构示意图；

图4是本发明一实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本发明说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本发明说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本发明说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

应理解，以下实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

为了说明本发明的技术方案，下面通过具体实施例来进行说明。

本发明一实施例提供的一种基于端到端的视听语音识别方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等计算机设备。服务端可以用独立的服务器或者是多个服务器生成的服务器集群来实现。

参见图2，是本发明一实施例提供的一种基于端到端的视听语音识别方法的流程示意图，上述基于端到端的视听语音识别方法可以应用于图1中的服务端，上述服务端连接相应的客户端，如图2所示，该基于端到端的视听语音识别方法可以包括以下步骤。

S201：将获取的原始视频中视觉流和音频流分离，得到图像序列信息与音频序列信息。

在步骤S201中，获取原始视频，其中原始视频是包括说话人唇部的视频，将获取的原始视频中视觉流和音频流分离，得到对应的图像序列信息与音频序列信息。

本实施例中，获取到的原视频为在录入医疗文本的过程中录入人员的视频，可以在录入终端使用录入终端的摄像设备采集录入人员的视频，其中视频中包括录入人员的视频与音频，获取录入人员对应的视频流与音频流作为原始视频中视觉流和音频流。

需要说明的是，可以在终端获取对应的原始视频，其中可以从终端的本地存储器中获取，也可以通过网络链接从服务器中获取。例如，终端页面上设置有附件插入控件，基于用户对附件插入控件的点击操作，获取文件标识链表，然后根据文件标识链表显示文件选择页面，文件选择页面上设置有多个文件标识选项，然后终端基于用户对文件选择页面中的文件标识选项的选择操作，触发视频获取指令，获取原始视频。原始视频也可以是常规的监控视频数据，还可以是各类数据集上的视频数据等等；例如，在实际应用时，可以将待读取的信息显示到人机交互界面上，用户读取待读取的信息时通过摄像机或摄像头采集用户读取信息时的视频段。其中待读取的信息可以显示在电子设备的显示屏幕上，其中电子设备可以为需要进行用户认证的电子设备，例如银行的取款机、门禁设备、具有刷脸支付功能的电子设备等。

获取原始视频后，分离原始视频中的音频，将原始视频中的不包含音频的图像与不包含图像的音频分离出来，得到图像序列信息与音频序列信息。

需要说明的是，为了减少计算量，还可以对分离得到的图像序列进行抽帧处理，抽帧，就是从这些图像序列中抽出单张图像帧，可以根据预设的时间间隔，从原始视频中抽取图像帧，比如，可以设置每隔0.04s抽取一张图像帧。

需要说明的是，分离得到的图像序列信息中是一系列的唇语图像序列信息，为了提取更准确的图像特征，可以对图像序列信息进行预处理，将图像序列信息按时间顺序转换为图像序列，将每张图像从可以边缘进行补零操作填充至原本图像尺寸上512的大小，然后将图像以中心为基准点裁剪成大小为512*512的图像，并以0.5的概率对这些图像进行随机水平翻转操作，防止在后续过程中神经网络过拟合的现象出现。紧接着，本发明还对这些图像进行归一化处理。

需要说明的是，在分离得到的图像序列后，需要从图像序列中切割出嘴唇区域作为ROI(region of interest，感兴趣区域)，(如图像序列为100帧，高50，宽100，三通道图像，表示为[100,50,100,3])，最终得到唇部区域的图像序列。通过从原始视频中逐帧对人脸图像做唇部的切割，切割出包含唇部的矩形框作为图像序列信息，避免了采用整张视频帧输入至模型进行训练时，由于图片尺寸过大导致的训练速度慢的问题，加快了训练速度。

S202：基于三维卷积核构成的卷积层对图像序列信息进行卷积处理，得到图像卷积特征，使用全局平均池化层对图像卷积特征进行维度挤压，得到一维的第一特征。

在步骤S202中，对图像序列信息进行卷积处理，得到对应的图像卷积特征，为了使图像卷积特征与音频卷积特征进行融合，对图像卷积特征进行维度挤压，得到一维的第一特征。

本实施例中，基于三维卷积核构成的卷积层对图像序列信息进行卷积处理，得到图像卷积特征，其中可以使用改进的ResNet-18对图像序列信息进行卷积处理，得到图像卷积特征，使用全局平均池化层对图像卷积特征进行维度挤压，得到一维的第一特征。其中全局平均池化层对图像卷积特征进行全局平均池化，计算平均值，在最后一个卷积层的每个提取的特征图都会生成一个特征点，所有的点构建为一个向量。

需要说明的是，全局平均池化层中没有要优化的参数，因此避免了该层的过度拟合。此外，全局平均池化层汇总了空间信息，因此构造的一维特征向量对于输入图像的空间平移更加鲁棒。假设最后一个卷积层中有10个特征图。全局平均池化将计算10个特征图的每一个的平均值，因此10个特征图将输出10个特征点。

可选地，基于三维卷积核构成的卷积层对图像序列信息进行卷积处理，得到图像卷积特征，包括：

根据预设三维卷积核，构建第一卷积层；

使用第一卷积层对图像序列信息进行卷积处理，得到图像卷积特征。

本实施例中，使用改进的ResNet-18网络对图像序列信息进行卷积处理，ResNet-18模型首先使用一个卷积层运算，然后接着使用了8个残差结构，通过此结构，ResNet-18模型改善了卷积神经网络随着迭代次数的增加而模型迟迟不能收敛的现象。其中改进的ResNet-18网络中的第一个卷积层使用5×7×7的三维卷积核代替，构建第一卷积层。使用第一卷积层对图像序列信息进行卷积处理，得到图像卷积特征。

需要说明的是，ResNet-18网络包括对应的残差结构，由于残差结构存在叠加运算，因此应保证叠加运算的两个输入大小相同，其中，残差结构就类似一个差分放大器，可以突出输出的微小变化，从而更有利于调整参数。残差结构常借用VGG中3×3卷积层的设计，并且每个卷积核都接着一个Re LU激活函数层。有时候为了增加模型的鲁棒性还会添加上归一化层，深度神经网络随着网络深度加深，训练过程越困难，收敛越来越慢，导致反向传播时低层神经网络的梯度消失，网络收敛难度增大，归一化层是把每层神经网络任意神经元输入值的分布强行拉回到均值为0方差为1的标准正态分布，以使激活输入值落在激活函数对输入比较敏感的区域，即输入的小变化就会引起损失函数较大的变化，即就是会让当前神经网络的梯度变大，避免梯度消失的问题，大大加快了第一待训练唇读模型的训练速度和收敛速度。然后再将输入跳过这两个卷积层，放到最后一个Re LU激活函数层的前面。因为，残差结构有输入和输出的点对点相加的操作。因此，残差结构要求输入和输出的通道数相同。如果不一致的，可以在最后一层3×3卷积层的后面加上一层1×1卷积层进行通道数的调整，然后再进行残构的输入和输出的相加运算。对于一个含有n残差结构的残差神经网络来说，数据从一端传送至另一端共有2n方法。将其等价成浅层网络的集合，由于浅层网络的集合给数据信息的传递提供了多条通道那么就可以在一定程度上减少过拟合现象的发生。

需要说明的是，在归一化层后，还可以加入对应的Dropout层，以缓解过拟合的发生。过拟合是指随着训练时间的加长，训练模型对训练样本集依赖程度高，实际测试时验证效果并不好，Dropout层要提升网络模型的泛化能力，降低网络模型对训练样本集的依赖程度，以使模型泛化性更强。

S203：基于一维卷积核构成的卷积层对音频序列信息进行卷积处理，得到音频卷积特征，对音频卷积特征进行下采样，得到与第一特征的帧率相匹配的第二特征。

在步骤S203中，使用一维卷积核构成的卷积层对音频序列信息进行卷积处理，使得到对应音频卷积特征为一维特征，通过下采样获取与与第一特征的帧率相匹配的第二特征。

本实施例中，基于一维卷积核构成的卷积层对音频序列信息进行卷积处理，得到音频卷积特征，其中可以使用改进的ResNet-18对音频序列信息进行卷积处理，得到音频卷积特征，对音频卷积特征进行下采样，得到与第一特征的帧率相匹配的第二特征。下采样处理时，可以将音频卷积特征下采样到每秒25帧。

可选地，基于一维卷积核构成的卷积层对音频序列信息进行卷积处理，得到音频卷积特征，包括：

根据预设一维卷积核与预设滤波器数值，构建第二卷积层；

使用第二卷积层对音频序列信息进行卷积处理，得到音频卷积特征。

本实施例中，使用ResNet网络对音频序列信息进行卷积处理，ResNet网络使用的是标准架构，主要的差异在于它使用的是一维卷积核，预设滤波器数值数值设置为80，为了提取精细的音频特征，每步时长为0.25毫秒的5毫秒时间内核被用于第一个时空卷积层，为了确保与图像序列信息的帧率相同，残差网络的输出被平均分配到25个帧/窗口，然后这些音频帧会被输送到之后的残差网络中，这些残差网络由尺寸为3×1的默认内核组成，这样更深的层次就能提取长期的音频卷积特征。

ResNet网络由三组ResNet模块组成，每组包括1个ResNetBlock1模块和2个ResNetBlock2模块，按照顺序依次排列。ResNetBlock1，16表示当前模块是ResNetBlock1，而且模块中分组卷积的卷积核个数为16，三组ResNet模块的卷积核个数依次为16、32和64。第三个部分括一个全局平均池化和一个全连接层，全局平均池化把特征提取模块获取的隐写特征信息进行聚合并汇入全连接层，得到音频卷积特征。

需要说明的是，为了虑网络的规模和实际性能，将ResNet块的基数设置为8。每个ResNet块由三个卷积层和一个捷径连接组成。三个卷积层依次是1×1卷积、3×3分组卷积和1×1卷积。在每个卷积层后边使用BN层将数据归一化，抑制网络过拟合。在BN层后使用Relu激活函数增加网络的非线性特征。特殊的情况是，将最后一个卷积层的输出和捷径传递的输入映射叠加后再使用Relu激活函数进行激活。ResNetBlock1块的分组卷积步长为2，可以将特征图的尺寸缩小到输入特征图的一半，用来替换平均池化层，可以减少由池化层导致的隐写特征损失。但是ResNetBlock1块输入特征图和输出特征图的维度不一致，所以捷径连接需要使用1×1卷积进行映射，保证输入和输出的特征图维度一致。实验同时测试了使用3×3卷积进行目标捷径映射的表现。使用1×1卷积做目标捷径映射具有最优的性能。ResNetBlock2块的分组卷积步长为1，输入特征图和输出特征图的维度相同，不需要做恒等映射，即可将模块的输入和输出直接相加。

S204：分别对第一特征和第二特征进行编码，得到对应第一特征的第一特征编码和对应第二特征的第二特征编码。

在步骤204中，在后端，通过预设编码器对述第一特征和第二特征进行编码，得到对应第一特征的第一特征编码和对应第二特征的第二特征编码。

本实施例中，使用Conformer编码器对第一特征和第二特征进行编码，Conformer编码器能够提取到更加丰富有用的编码特征。Conformer编码器的结构基于Transformer，将其Encoder部分进行改进，保留了多头自注意力模块，并且有效穿插了残差连接和前馈层于其中，不同的点在于它在嵌入层(embed ding layer)中加入了下采样，并且在核心块中加入了卷积层。Conformer编码器是一个马卡龙结构，中间是卷积和多头注意力模块，上下被两个前馈模块夹住，最后再接一个Layer Norm归一化促进收敛。

可选地，分别对第一特征和第二特征进行编码，得到对应第一特征的第一特征编码和对应第二特征的第二特征编码，包括：

通过嵌入层第一特征和第二特征进行线性投影，得到第一投影特征与第二投影特征；

使用相对位置信息对一投影特征与第二投影特征进行编码，得到第一位置编码特征与第二位置编码特征；

通过多头注意力机制，对第一位置编码特征与第二位置编码特征进行特征增强，得到对应第一位置编码特征的第一特征编码和对应第二位置编码特征的第二特征编码。

本实施例中，使用的Conformer编码器对第一特征和第二特征进行编码时，它由一个嵌入模块和一组Conformer块组成。在嵌入模块中，一个线性层将第一特征与第二特征投影到dk维度空间，投影特征用相对位置信息进行编码。Conformer块由四个子模块堆叠而成，分别为第一个前馈神经网络模型，多头自注意力模块，卷积模块以及第二个前馈神经网络模块。Conformer块的多头注意力模块使用了相对位置嵌入编码，以及Conformer中的前馈神经网络模块使用的swish激活函数。卷积模块以一个逐点卷积(PointwiseConvolution)和一个门控线性单元(GLU)开始，接下来是一个一维深度卷积(DepthwiseCon volution)，批次归一化(Batchnorm)在卷积之后立即部署。

需要说明的是，前馈神经网络模块中使用K个二维卷积模块，每个卷积模块包含一个二维卷积层，一个Relu激活层。最后使用相对位置嵌入编码获取位置信息。多头注意力计算h次Scaled Dot-Product Attention，其中h表示头数。在执行每个注意力之前，有三个线性投影分别将查询、键和值转换为更具区分度的表示。然后，每个Scaled Dot-ProductAttention独立计算，将它们的输出连接起来，输入另一个线性投影。

S205：对第一特征编码与第二特征编码进行融合，得到融合特征编码，对融合特征编码进行解码，得到解码特征。

在步骤S205中，对第一特征编码与第二特征编码进行融合，得到融合特征编码，融合特征编码将同一时间的图像信息与音频信息进行融合，以便于得到同一时间中第一特征编码与第二特征编码中对应的语音信息相同。对融合特征编码进行解码，得到解码特征，解码特征用于对音频流进行修正，得到基于视觉流的语音识别结果。

本实施例中，对第一特征编码与第二特征编码进行融合，得到融合特征编码，充分考虑了图像特征对应语音信息与音频特征对应的语音信息，相较于只考虑音频特征或者只考虑图像特征，可以得到更加丰富的表征信息。

使用解码器对对融合特征编码进行解码，得到解码特征。解码特征用于对音频流进行修正，得到基于视觉流的语音识别结果。其中，解码器为Transfor mer解码器，它由一个嵌入模块，一组多头自注意块组成。在嵌入模块中，前缀序列被投影到嵌入向量，绝对位置编码也被添加到嵌入中。一个自注意块由两个注意模块和一个前馈模块组成。具体来说，第一个自注意模块使用Q＝K＝V作为输入，并屏蔽掉其注意矩阵中的未来位置。第二个注意模块使用前一个自注意模块的特征作为Q，来自编码器的表示作为K和V(K＝V)。前馈模块中的组件与编码器中的相同。

可选地，对第一特征编码与第二特征编码进行融合，得到融合特征编码，包括：

通过多层感知器，将第一特征编码与第二特征编码投影到预设维度空间进行融合，得到融合投影特征；

对融合投影特征进行批归一化与激活处理，得到融合特征编码。

本实施例中，通过多层感知器，将第一特征编码与第二特征编码投影到预设维度空间进行融合，得到融合投影特征，多层感知器用于对得到的第一特征编码与第二特征编码进行非线性的特征空间转换，并对转换后的特征空间进行映射，将第一特征编码与第二特征编码映射为第一特征向量与第二特征向量，通过多层感知器进行映射，由于多层传感机的非线性变换，将特征编码转换为特征向量，便于融合，得到融合投影特征。

本实施例中，将第一特征编码与第二特征编码输入至多层感知器中，其中，多层感知器中包括激活函数，用于对第一特征编码与第二特征编码进行非线性的特征空间映射。

需要说明的是，多层感知器至少包括第一全连接层和第二全连接层，第一全连接层和第二全连接层用于第一特征编码与第二特征编码进行特征映射，具体的，第一全连接层和第二全连接层均采用激活函数对任一特征编码向量做特征映射变换。鉴于激活函数可以加速模型的收敛，提高模型训练的速度和效率，因此，在实施例中，第一全连接层和第二全连接层均采用Relu激活函数对任一特征编码做特征映射变换。

需要说明的是，在使用多层感知器将第一特征编码与第二特征编码投影到预设维度空间进行融合，得到融合投影特征之前需要对多层感知器进行训练，训练时，使用CTC损失函数进行训练，CTC损失函数的关键思想是使用允许标签重复和空白标签出现的中间标签表示来识别没有输出标签。由于语音中的输出标签的长度一般小于输入语音帧的长度，需要解决为每一帧获取对应的标签，因此在CTC损失函数中，输入和输出标签是多对一的关系。CTC损失函数可以通过前向-后向算法有效地计算，但它仍然预测每一帧的目标，并假设目标是条件独立的。因此CTC损失函数定义为所有能映射到正确标签的负对数概率之和。

可选地，对融合特征编码进行解码，得到解码特征，包括：

获取预设前缀序列；

通过预设嵌入层，提取前缀序列的嵌入特征，基于嵌入特征，对融合特征编码进行特征解码，得到解码特征。

本实施例中，在原始视频中，选取当前时刻之前的语音信号作为当前时刻的前缀序列，或者，可以在整条原始视频中，选择当前时刻之前的语音信号，以及当前时刻之后的预设时间差内的语音信号，作为当前时刻的前缀序列。例如，假设当前时刻第i时刻，当前时刻的前缀语音信号是指：{x1,x2,...,xi，xi+1}。本实施例中，由于语音识别是逐字识别，不需要等到整条融合特征编码输入完毕再进行识别，因此，通过前缀语音信号包括当前时刻之前的语音信号，而不是整条语音信号，可以适用于流式语音识别场景，提高语音识别的响应速度。通过当前时刻的前缀语音信号还包括当前时刻之后的一段语音信号，可以参考当前时刻的未来信息，从而可以提高语音识别的准确度。

获取预设前缀序列后，通过预设嵌入层，提取前缀序列的嵌入特征，基于嵌入特征，对融合特征编码进行特征解码，得到解码特征。解码特征用于对音频流进行修正，得到基于视觉流的语音识别结果。

解码器中，由若干个相同的模块堆叠组成，每个模块具有两个主要的子层结构，分别是多头注意力层和前馈网络层，在每个子层后都使用残差连接和层归一化。

将获取的原始视频中视觉流和音频流分离，得到图像序列信息与音频序列信息，基于三维卷积核构成的卷积层对图像序列信息进行卷积处理，得到图像卷积特征，使用全局平均池化层对图像卷积特征进行维度挤压，得到一维的第一特征，基于一维卷积核构成的卷积层对音频序列信息进行卷积处理，得到音频卷积特征，对音频卷积特征进行下采样，得到与第一特征的帧率相匹配的第二特征，分别对第一特征和第二特征进行编码，得到对应第一特征的第一特征编码和对应第二特征的第二特征编码，对第一特征编码与第二特征编码进行融合，得到融合特征编码，对融合特征编码进行解码，得到解码特征，解码特征用于对音频流进行修正，得到基于视觉流的语音识别结果。本发明中，通过端到端的模型实现视听语音识别，将卷积特征与编码特征相结合，提取图像序列信息与音频信息中的特征，提高特征提取的准确率，将图像序列信息与音频信息中的特征融合后，进行视听语音识别，该视听语音识别方法可以更好地利用和适应新的硬件并行计算能力，提高运算速率，因此，该视听语音识别方法可以提高语音识别的性能。

请参阅图3，图3是本发明实施例提供的一种基于端到端的视听语音识别装置的结构示意图。本实施例中该终端包括的各单元用于执行图2对应的实施例中的各步骤。具体请参阅图2以及图2所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。如图3所示，视听语音识别装置30包括：分离模块31，第一特征确定模块32，第二特征确定模块33，编码模块34，解码模块35。

分离模块31，用于将获取的原始视频中视觉流和音频流分离，得到图像序列信息与音频序列信息。

第一特征确定模块32，用于基于三维卷积核构成的卷积层对图像序列信息进行卷积处理，得到图像卷积特征，使用全局平均池化层对图像卷积特征进行维度挤压，得到一维的第一特征。

第二特征确定模块33，用于基于一维卷积核构成的卷积层对音频序列信息进行卷积处理，得到音频卷积特征，对音频卷积特征进行下采样，得到与第一特征的帧率相匹配的第二特征。

编码模块34，用于分别对第一特征和第二特征进行编码，得到对应第一特征的第一特征编码和对应第二特征的第二特征编码。

解码模块35，用于对第一特征编码与第二特征编码进行融合，得到融合特征编码，对融合特征编码进行解码，得到解码特征，解码特征用于对音频流进行修正，得到基于视觉流的语音识别结果。

可选地，上述第一特征确定模块32包括：

第一构建单元，用于根据预设三维卷积核，构建第一卷积层。

第一卷积单元，用于使用第一卷积层对图像序列信息进行卷积处理，得得到图像卷积特征。

可选地，上述第二特征确定模块33包括：

第二构建单元，根据预设一维卷积核与预设滤波器数值，构建第二卷积层。

第二卷积单元，使用第二卷积层对音频序列信息进行卷积处理，得到音频卷积特征。

可选地，上述编码模块34包括：

投影单元，用于通过嵌入层第一特征和第二特征进行线性投影，得到第一投影特征与第二投影特征。

位置编码特征确定单元，用于使用相对位置信息对一投影特征与第二投影特征进行编码，得到第一位置编码特征与第二位置编码特征。

增强单元，用于通过多头注意力机制，对第一位置编码特征与第二位置编码特征进行特征增强，得到对应第一位置编码特征的第一特征编码和对应第二位置编码特征的第二特征编码。

可选地，上述解码模块35包括：

融合单元，用于通过多层感知器，将第一特征编码与第二特征编码投影到预设维度空间进行融合，得到融合投影特征。

处理单元，用于对融合投影特征进行批归一化与激活处理，得到融合特征编码。

可选地，上述解码模块35包括：

获取单元，用于获取预设前缀序列。

提取单元，用于通过预设嵌入层，提取前缀序列的嵌入特征，基于嵌入特征，对融合特征编码进行特征解码，得到解码特征。

需要说明的是，上述单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

图4是本发明实施例提供的一种计算机设备的结构示意图。如图4所示，该实施例的计算机设备包括：至少一个处理器(图4中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序，处理器执行计算机程序时实现上述任意各个基于端到端的视听语音识别方法步骤。

该计算机设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图4仅仅是计算机设备的举例，并不构成对计算机设备的限定，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括网络接口、显示屏和输入装置等。

所称处理器可以是CPU，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器包括可读存储介质、内存储器等，其中，内存储器可以是计算机设备的内存，内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘，在另一些实施例中也可以是计算机设备的外部存储设备，例如，计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡、闪存卡(Flash Card)等。进一步地，存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

本发明实现上述实施例方法中的全部或部分流程，也可以通过一种计算机程序产品来完成，当计算机程序产品在计算机设备上运行时，使得计算机设备执行时实现可实现上述方法实施例中的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于端到端的视听语音识别方法，其特征在于，所述视听语音识别方法包括：

2.如权利要求1所述的视听语音识别方法，其特征在于，所述基于三维卷积核构成的卷积层对所述图像序列信息进行卷积处理，得到图像卷积特征，包括：

根据预设三维卷积核，构建第一卷积层；

使用第一卷积层对所述图像序列信息进行卷积处理，得得到图像卷积特征。

3.如权利要求1所述的视听语音识别方法，其特征在于，所述基于一维卷积核构成的卷积层对所述音频序列信息进行卷积处理，得到音频卷积特征，包括：

根据预设一维卷积核与预设滤波器数值，构建第二卷积层；

使用第二卷积层对所述音频序列信息进行卷积处理，得到音频卷积特征。

4.如权利要求1所述的视听语音识别方法，其特征在于，所述分别对所述第一特征和所述第二特征进行编码，得到对应所述第一特征的第一特征编码和对应所述第二特征的第二特征编码，包括：

通过嵌入层所述第一特征和所述第二特征进行线性投影，得到第一投影特征与第二投影特征；

使用相对位置信息对所述一投影特征与第二投影特征进行编码，得到第一位置编码特征与第二位置编码特征；

通过多头注意力机制，对所述第一位置编码特征与第二位置编码特征进行特征增强，得到对应所述第一位置编码特征的第一特征编码和对应所述第二位置编码特征的第二特征编码。

5.如权利要求1所述的视听语音识别方法，其特征在于，所述对所述第一特征编码与所述第二特征编码进行融合，得到融合特征编码，包括：

通过多层感知器，将所述第一特征编码与所述第二特征编码投影到预设维度空间进行融合，得到融合投影特征；

对所述融合投影特征进行批归一化与激活处理，得到融合特征编码。

6.如权利要求1所述的视听语音识别方法，其特征在于，所述对所述融合特征编码进行解码，得到解码特征，包括：

获取预设前缀序列；

通过预设嵌入层，提取所述前缀序列的嵌入特征，基于所述嵌入特征，对所述融合特征编码进行特征解码，得到解码特征。

7.一种基于端到端的视听语音识别装置，其特征在于，所述视听语音识别装置包括：

8.如权利要求7所述的视听语音识别装置，其特征在于，所述编码模块包括：

投影单元，用于通过嵌入层所述第一特征和所述第二特征进行线性投影，得到第一投影特征与第二投影特征；

位置编码特征确定单元，用于使用相对位置信息对所述一投影特征与第二投影特征进行编码，得到第一位置编码特征与第二位置编码特征；

增强单元，用于通过多头注意力机制，对所述第一位置编码特征与第二位置编码特征进行特征增强，得到对应所述第一位置编码特征的第一特征编码和对应所述第二位置编码特征的第二特征编码。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的视听语音识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的视听语音识别方法。