CN108804453B

CN108804453B - 一种视音频识别方法及装置

Info

Publication number: CN108804453B
Application number: CN201710295336.9A
Authority: CN
Inventors: 黄欢; 赵刚
Original assignee: Shenzhen Jinghong Technology Co Ltd
Current assignee: Shenzhen Jinghong Technology Co., Ltd
Priority date: 2017-04-28
Filing date: 2017-04-28
Publication date: 2020-06-02
Anticipated expiration: 2037-04-28
Also published as: CN108804453A

Abstract

本发明提供一种视音频识别方法及装置，该方法包括：将待识别视音频输入识别模型进行识别，获得识别结果；其中，所述识别模型基于识别训练集的视频特征和音频特征融合后的结果更新有监督多模态特征融合网络和多层感知机而建立。由于训练集视频特征和音频特征的融合是基于模型层次的融合，整个过程是端对端的过程，提高了视频特征和音频特征融合的正确率，从而使识别模型达到准确识别视音频的目的，同时增强了应用的可扩展性，可应用于公共安全管理、影视创作和体育健身等领域。

Description

一种视音频识别方法及装置

技术领域

本发明涉及多媒体技术领域，更具体地，涉及一种视音频识别方法及装置。

背景技术

随着人类与计算机间交互方式和交互内容的变化，传统的交互方式(例如，键盘，鼠标和画面显示等)已难以满足人们的需求。这要求计算机能够获取多模式信息，包括图像、语音、文字等，进而完成一定的任务，获得期望输出。在主动获取多模式信息后，对其分别进行的处理以及信息融合处理是多模式处理的核心。

视音频信息融合是多模式信息融合的一种，它建立在获取特定任务的图像信息和声音信息的基础上，主要目的是获取统一的“感官体验”。现有的视音频融合方法主要为三类，已在文献“S T.Shivappa， M M.Trivedi,B D.Rao.Audiovisual information fusionin human–computer interfaces and intelligent environments:A survey[J].Proceedings of the IEEE,2010,98(10):1692-1715”中有较详细的叙述，分别是特征层次融合、模型层次融合和决策层次融合。

特征层次融合方法是将获取的图像特征和声音特征在最低层次进行整合，进而组成一个较大的特征向量用以表示具体时刻的视音频融合信息。模型层次融合方法是将图像信息和声音信息融合视作一个整体，在特定的模型内部进行融合，此种方法在自动语音识别和情感识别中应用较多，其中应用较为普遍的模型是隐马尔科夫模型和动态贝叶斯模型。决策层次融合方法是一种基于声音和图像各自分类结果的融合方法，它针对于将视音频主要的分类结果进行融合，而不注重内部交互。

但是基于特征层次的融合没有具体的理论支撑，图像特征和声音特征来自不同空间，不宜直接进行整合，并且此层次的融合很难让两个通道的特征保持同步，同时当训练集和测试集的状况发生变化的时候，实验效果不是很好。基于模型层次的融合是一次真正意义上有实际理论依据的多通道信息融合，虽然它与其他融合方法相比有时表现并不好，但它所达到的理论意义是值得肯定的，但此种方法存在模型局限性，只能用上述两类模型进行识别任务，不能进行扩展。决策层次的融合虽然有效的避免了类似于特征层次融合中特征向量过大的问题，但它对融合的假设建立在图像信息和声音信息是独立的基础上，这与事实相反，并且由于其不包含视音频内部的交互，因此并不是真正意义上的“整体大于局部之和”的实现。

不同的融合层次需要一定的理论背景和任务需求。当前计算机视音频信息融合已经在一些领域中的得到了应用，例如自动语音识别，目标定位及跟踪和情感识别等。

发明内容

针对上述的技术问题，本发明提供一种视音频识别方法及装置。

第一方面，本发明提供的一种视音频识别方法，包括：将待识别视音频输入识别模型进行识别，获得识别结果；其中，所述识别模型基于识别训练集的视频特征和音频特征融合后的结果更新有监督多模态特征融合网络和多层感知机而建立。

其中，所述方法进一步包括：S1，获取所述训练集中视音频的视频特征、音频特征及视音频对应的标签；S2，对所述视频特征和所述音频特征进行无监督多模态特征融合，并将获得的多模态融合特征输入有监督多模态特征融合网络进行有监督多模态特征融合；S3，将融合后的深度多模态融合特征输入多层感知机与所述视音频对应的标签进行识别，并根据识别误差更新所述有监督多模态特征融合网络和所述多层感知机，以建立识别模型。

其中，所述S1进一步包括：采用Viola-Jones算法提取所述训练集中视频数据的嘴部周围矩形区域，然后采用深度卷积神经网络获取初始视频特征；采用海明窗对所述训练集中的音频数据进行分帧，然后使用快速傅里叶变换获取初始音频特征。

其中，所述S1还包括：通过主成分分析法分别对所述初始视频特征和所述初始音频特征进行降维处理，获得训练集的视频特征和音频特征，将所述训练集的视频特征与音频特征对应。

其中，所述S2进一步包括：将所述视频特征和音频特征输入深度多模态自动编码器进行无监督多模态特征融合，并将所述深度多模态自动编码器的共享层作为无监督多模态特征融合的结果。

其中，所述有监督多模态特征融合网络包括模态时态融合模型和时态融合模型，所述模态时态融合模型和所述时态融合模型均采用长短期记忆人工神经网络。

其中，所述深度多模态自动编码器采用交叉熵损失函数进行训练，所述有监督多模态特征融合网络和所述多层感知机均采用平方多标签转折点损失函数进行训练。

第二方面，本发明提供的一种视音频识别装置，包括：获取模块，用于获取所述训练集中视音频的视频特征、音频特征及视音频对应的标签；融合模块，用于对所述视频特征和所述音频特征进行无监督多模态特征融合，并将获得的多模态融合特征输入有监督多模态特征融合网络进行有监督多模态特征融合；模型建立模块，用于将融合后的深度多模态融合特征输入多层感知机与所述视音频对应的标签进行识别，并根据识别误差更新所述有监督多模态特征融合网络和所述多层感知机，以建立识别模型；识别模块，用于将待识别视音频输入所述识别模型进行识别，获得识别结果。

第三方面，本发明提供的一种视音频识别装置，包括：至少一个处理器；以及与所述处理器通信连接的至少一个存储器，其中，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

第四方面，本发明提供的一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。

本发明提供的一种视音频识别方法及装置，通过将待识别视音频输入识别模型进行识别，获得识别结果；其中，所述识别模型基于识别训练集的视频特征和音频特征融合后的结果更新有监督多模态特征融合网络和多层感知机而建立。由于训练集视频特征和音频特征的融合是基于模型层次的融合，整个过程是端对端的过程，提高了视频特征和音频特征融合的正确率，从而使识别模型达到准确识别视音频的目的，同时增强了应用的可扩展性，可应用于公共安全管理、影视创作和体育健身等领域。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视音频识别方法的流程图；

图2为图1中所述的视音频识别方法中VGG-16深度卷积神经网络的结构示意图；

图3为本发明实施例提供的视音频识别装置的结构框图；

图4为本发明另一实施例提供的视音频识别装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的视音频识别方法，包括：将待识别视音频输入识别模型进行识别，获得识别结果；其中，所述识别模型基于识别训练集的视频特征和音频特征融合后的结果更新有监督多模态特征融合网络和多层感知机而建立。

具体地，识别模型是对视音频进行识别的模型，将待识别的视音频输入识别模型后，可以根据其之前输入的训练集的视频特征和音频特征，按照特征相似性对待识别的视音频进行识别。

本发明实施例中，通过将待识别视音频输入识别模型进行识别，获得识别结果，由于识别模型中训练集的视频特征和音频特征的融合是基于模型层次的融合，整个过程是端对端的过程，提高了视频特征和音频特征融合的正确率，从而使识别模型达到准确识别视音频的目的，同时增强了应用的可扩展性，可应用于公共安全管理、影视创作和体育健身等领域。

图1为本发明实施例提供的视音频识别方法的流程图，如图1 所示，该方法包括：S1，获取所述训练集中视音频的视频特征、音频特征及视音频对应的标签；S2，对所述视频特征和所述音频特征进行无监督多模态特征融合，并将获得的多模态融合特征输入有监督多模态特征融合网络进行有监督多模态特征融合；S3，将融合后的深度多模态融合特征输入多层感知机与视音频对应的标签进行识别，并根据识别误差更新所述有监督多模态特征融合网络和所述多层感知机，以建立识别模型。

其中，训练集是指视音频库中的训练样本集，在本发明实施例中以AVDigits视音频库为例进行说明，但不用于限制本发明的保护范围。AVDigits视音频库来源自文献“HuD,Li X.Temporal multimodal learning in audiovisual speech recognition[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition. 2016:3574-3582.”，其主要录制不同人说0到9共十个数字的视频，每个数字6个人各说9遍，共有540个视频，视频长度在1到3秒之间。

其中，无监督多模态特征融合是对没有概念标记或分类的训练样本进行学习，以发现训练样本集中的结构性知识。由于所有的标记或分类是未知的，因此，训练样本的岐义性高，聚类就是典型的无监督学习。

其中，有监督多模态特征融合是对具有概念标记或分类的训练样本进行学习，以尽可能对训练样本集外的数据进行标记、分类或预测。这里，所有的标记或分类是已知的，因此，训练样本的岐义性低。

其中，多层感知机是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。

具体地，将AVDigits视音频库中一部分视音频作为训练集，例如，将AVDigits视音频库中70％的视音频作为训练集，即训练集包含378个视音频。然后获取训练集中378个视音频的视频特征和音频特征，例如，视频特征有运动轨迹、相对速度、形状特征等；音频特征有零通过率、能量、能量熵、声谱中心和广度等。

对获取的视频特征和音频特征进行无监督多模态特征融合，并将获得的多模态融合特征输入有监督多模态特征融合网络进行有监督多模态特征融合，获得融合后的深度多模态融合特征，即获得一个表示视音频的标签。然后将获得的视音频标签输入多层感知机与原来视音频对应的标签进行识别，并将识别误差回传至有监督多模态特征融合网络，然后根据该识别误差更新有监督多模态特征融合网络和多层感知机，直至多层感知机得到的识别误差收敛时，不再对多层感知机和有监督多模态特征融合网络进行更新，并获得训练好的识别模型。

本发明实施例中，通过对训练集的视频特征和音频特征进行无监督特征融合和有监督特征融合，然后将融合后的深度多模态融合特征输入多层感知机进行识别，并根据识别误差对有监督多模态特征融合网络和多层感知机进行更新，以建立识别模型。该视频特征和音频特征的融合是基于模型层次的融合，整个过程是端对端的过程，提高了视频特征和音频特征融合的正确率，达到使识别模型准确识别视音频的目的，同时增强了应用的可扩展性。

在上述实施例的基础上，所述S1进一步包括：采用Viola-Jones 算法提取所述训练集中视频数据的嘴部周围的矩形区域，然后采用深度卷积神经网络获取初始视频特征；采用海明窗对所述训练集中的音频数据进行分帧，然后使用快速傅里叶变换获取初始音频特征。

其中，Viola-Jones算法是基于人脸的Haar特征值进行人脸检测的方法，整体框架分成三个部分：1、提取目标的特征，即Haar特征；2、分类器学习的过程，训练弱分类器成为最优弱分类器，多个最优弱分类器组合形成强分类器；3、强分类器进行级联，提高检测的速度和准确率。其中，Viola-Jones算法使用的Haar特征值为四类：边缘特征、线性特征、中心特征和对角线特征，这四类特征组合成特征模板。特征模板内有白色和黑色两种矩形，并定义该模板的特征值为白色区域对应图像的像素值之和减去黑色区域对应图像的像素值之和，Haar特征值反映了图像的灰度变化情况。

其中，卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网络包括卷积层(convolutional layer)和池层(pooling layer)。

其中，海明窗是余弦窗的一种，又称改进的升余弦窗。海明窗与汉宁窗都是余弦窗，只是加权系数不同，海明窗加权的系数能使旁瓣达到更小。分析表明，海明窗的第一旁瓣衰减为一42dB。海明窗的频谱由3个矩形时窗的频谱合成，但其旁瓣衰减速度为20dB/(10oct)，这比汉宁窗衰减速度慢。海明窗与汉宁窗都是很有用的窗函数。

其中，快速傅里叶变换(Fast Fourier Transform)，即利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称，简称 FFT。采用这种算法能使计算机计算离散傅里叶变换所需要的乘法次数大为减少，特别是被变换的抽样点数N越多时，FFT算法计算量的节省就越显著。

具体地，在对训练集中的视频数据进行预处理获取该训练集的视频特征时，主要利用文献“Viola P,Jones M.Rapid object detection using a boosted cascade ofsimple features[C]//Computer Vision and Pattern Recognition,2001.CVPR2001.Proceedings of the 2001IEEE Computer Society Conference on.IEEE,2001,1:I-511-I-518vol.1.”提出的Viola-Jones算法获得嘴部相关的矩形区域。之后利用文献“Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-ScaleImage Recognition[J].Computer Science,2014.”提出的 VGG-16深度卷积神经网络提取初始视频特征，例如，视频特征有运动轨迹、颜色特征、纹理特征、形状特征等。该VGG-16深度卷积神经网络的结构如图2所示。

在对训练集中的音频数据进行预处理获取该训练集的音频特征时，采用海明窗对所述训练集中的音频数据进行分帧，然后使用快速傅里叶变换提取初始音频特征。例如，音频特征有零通过率、能量、能量熵、声谱中心和广度、声谱能量、声谱变化量、声谱对称性、梅尔频率倒谱系数和声音浓度等。

在本发明实施例中，通过采用Viola-Jones算法提取所述训练集中视频数据的嘴部区域，然后采用深度卷积神经网络获取初始视频特征；采用海明窗对所述训练集中的音频数据进行分帧，然后使用快速傅里叶变换获取初始音频特征，以获得训练集的初始视频特征和初始音频特征，为后续对训练集的视频特征和音频特征进行多模态特征融合提供基础。

在上述实施例的基础上，所述S1还包括：通过主成分分析法分别对所述初始视频特征和所述初始音频特征进行降维处理，获得训练集的视频特征和音频特征，并将所述音频特征与所述视频特征对应。

其中，主成分分析法(principal component analysis，PCA)是一种数学变换的方法，旨在利用降维的思想，把多指标转化为少数几个综合指标(即主成分)，其中每个主成分都能够反映原始变量的大部分信息，且所含信息互不重复。这种方法在引进多方面变量的同时将复杂因素归结为几个主成分，使问题简单化，同时得到更加科学有效的数据信息。

具体地，在获得AVDigits视音频库中训练集的初始视频特征和初始音频特征后，由于经过VGG-16获取的初始视频特征是高维分量，需要通过主成分分析的方法进行降维处理得到低维分量，并将该低维分量作为训练集的视频特征。一般来讲，海明窗由于信号的维度比较高，同样采用主成分分析法对音频特征进行降维处理，将获取的低维分量作为最终训练集的音频特征。

由于视频数据和音频数据是两种相差很大的数据，获取的视频特征和音频特征差异也很大，所以要将视频特征和音频特征相互对应，即一帧视频特征对应几点音频特征。视频特征与音频特征对应包括两个步骤：视频裁剪和数值对应。视频裁剪是指现实中获取的视频长度是有差异的，为了处理方便，将其裁剪为不影响关键信息的相同长度。采用以下公式进行数值对应，

其中，w是指音频处理中的海明窗的窗宽，n是指1帧视频对应的海明窗个数，N是指在音频特征获取中快速傅里叶变换的序列长度，fr是视频的帧率，fs是音频信号的采样率。在找出适合的w 与n后，就可以求出N，同时音频特征与视频特征对应的结果为：n 段音频特征对应1帧视频特征。这样会得到一个关于视频特征和音频特征的数据集

其中

是视音频的视频特征，

是视音频的音频特征，y_i是相应的视音频标签。

在本发明实施例中，通过主成分分析法分别对初始视频特征和初始音频特征进行降维处理，获得训练集的视频特征和音频特征，并将所述音频特征与所述视频特征对应，这样获得的视频特征和音频特征更准确和完善，为后续的多模态特征融合处理提供基础，并且可以提高视频特征与音频特征融合的正确率，从而为准确识别视音频提供基础。

在上述实施例的基础上，所述S2进一步包括：将所述视频特征和音频特征输入深度多模态自动编码器进行无监督多模态特征融合，并将所述深度多模态自动编码器的共享层作为无监督多模态特征融合的结果。

其中，自动编码器(Autoencoder)是一种无监督的学习算法，在深度学习中，Autoencoder用于在训练阶段开始前，确定权重矩阵的初始值。

具体地，在获得训练集的视频特征和音频特征之后，采用深度多模态自动编码器进行无监督多模态特征融合。其中，深度多模态自动编码器的思想是由“Ngiam J,KhoslaA,Kim M,et al.Multimodal deep learning[C]//Proceedings of the 28thinternational conference on machine learning(ICML-11).2011:689-696.”提出的，本发明实施例采用的深度多模态自动编码器是其改进版。在本发明实施例的方法中，使用经过改进的深度多模态自动编码器，其输入输出都是将预处理得到的视频特征和音频特征连接成浅融合特征。将训练好的深度多模态自动编码器的共享层作为无监督多模态特征融合的结果，

在本发明实施例中，通过采用深度多模态自动编码器进行无监督多模态特征融合，可以确定出视频特征和音频特征的权重矩阵初始值，提高分类的准确性，为后续有监督多模态特征融合提供依据，提高对视频特征和音频特征融合的正确率。

在上述实施例的基础上，所述有监督多模态特征融合网络包括模态时态融合模型和时态融合模型，所述模态时态融合模型和所述时态融合模型均采用长短期记忆人工神经网络。

其中，模态时态融合模型是指在视音频模态融合的基础上附加考虑时态因素的影响，即考虑时态因素的模态融合，本发明实施例中采用多个长短期记忆人工神经网络垛叠实现。其中，时态融合是指将之前融合得到的信息映射为待分类的信息。

其中，长短期记忆人工神经网络(Long-Short Term Memory， LSTM)是一种时间递归神经网络，由于其独特的设计结构，适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

具体地，在采用深度多模态自动编码器对视频特征和音频特征进行无监督多模态特征融合得到多模态融合特征后，将得到的多模态融合特征输入整形网络，将数据加以整形以输入有监督多模态特征融合网络进行有监督多模态特征融合，从而获得深度多模态融合特征。有监督多模态特征融合网络主要含有两个部分：模态时态融合模型和时态融合模型，模态时态融合模型和时态融合模型均采用长短期记忆人工神经网络。长短期记忆人工神经网络是由文献“Hochreiter S,Schmidhuber J.Long short-term memory[J].Neuralcomputation,1997,9(8):1735-1780.”提出的循环神经网络中的一种，其在工程应用中，尤其是自然语言处理中，取得了良好的效果。长短期记忆人工神经网络的主要优点是可以考虑数据前后之间的相互影响。经典的长短期记忆人工神经网络各个门的计算方法具体如下：

i_t＝sigmoid(Wⁱx_t+Uⁱh_t-1+bⁱ)

f_t＝sigmoid(W^fx_t+U^fh_t-1+b^f)

z_t＝tanh(W^zx_t+U^zh_t-1+b^z)

c_t＝z_ti_t+c_t-1f_t

o_t＝sigmoid(W^Ox_t+U^oh_t-1+b^z)

h_t＝c_t tanh(o_t)

其中，W和b是参数矩阵与参数向量，x_t输入向量，h_t是输出向量，c_t是胞元状态向量，f_t是遗忘门向量，i_t是输入门向量，o_t是输出门向量，z_t是隐层向量。上式主要是长短期记忆人工神经网络各个门的输出值的迭代计算方法，在此不做赘述。通过将训练集的视频特征和音频特征进行无监督多模态特征融合和有监督多模态特征融合后，训练集中的每个视音频都将通过一个标签来表达，并将该标签输入多层感知机进行识别，即将融合后得到的标签与与视音频原来的标签进行识别，并根据识别误差更新有监督多模态特征融合网络和多层感知机，以建立识别模型。

在本发明实施例中，通过采用包括模态时态融合模型和时态融合模型的有监督多模态特征融合网络进行有监督多模态特征融合，得到深度多模态融合特征，提高视频特征与音频特征融合的正确率，进而提高识别模型对视音频识别的准确率。

在上述实施例的基础上，所述深度多模态自动编码器采用交叉熵损失函数进行训练，所述有监督多模态特征融合网络和所述多层感知机均采用平方多标签转折点损失函数进行训练。

其中，交叉熵损失函数(cross-entropy lossfunction)是用来衡量人工神经网络(ANN)的预测值与实际值的一种方式，与二次代价函数相比，它能更有效地促进ANN的训练。平方损失函数的基本原则是最优拟合直线应该是使各点到回归直线的距离和最小的直线，即平方和最小。

具体地，在采用深度多模态自动编码器对训练集的视频特征和音频特征进行无监督多模态特征融合时，通过以下交叉熵损失函数对深度多模态自动编码器进行训练，

其中，n表示样本总数，x_i是多模态自动编码器的输出，y_i是原始数据。然后采用训练好的深度多模态自动编码器对训练集的视频特征和音频特征进行无监督多模态特征融合，并将深度多模态自动编码器的共享层作为无监督多模态特征融合的结果。在对获得的多模态融合特征进行有监督多模态特征融合和识别时，采用以下平方多标签转折点损失函数(squared multi-label margin loss function)对有监督多模态特征融合网络和多层感知机进行训练，

其中，n表示样本总数，x_i是有监督多模态特征融合网络的输出， y_i是视音频对应的标签。再将该融合结果输入训练好的有监督多模态特征融合网络进行有监督多模态特征融合，然后将融合后的深度多模态融合特征输入训练好的多层感知机与视音频对应的标签进行识别，并根据识别误差更新有监督多模态特征融合网络和多层感知机，以建立识别模型。

在本发明实施例中，通过采用交叉熵损失函数对深度多模态自动编码器进行训练，采用平方多标签转折点损失函数对有监督多模态特征融合网络和多层感知机进行训练，可以提高视频特征和音频特征融合的准确率，进而提高识别模型对视音频识别的正确率。

另外为了测试本发明实施例提供的视音频识别方法的准确率，采用以下公式计算识别结果的平均正确率，

其中，N为测试集中的视音频的总数，I(pred_i＝target_i)为示性函数，若pred_i＝target_i，则识别结果为1；否则识别结果为0。

将AVDigits视音频库中剩余的162个视音频输入到该识别模型进行识别。若识别模型识别出的视音频与在测试集中对应的目标视音频相同，则识别结果为1；若识别模型识别出的视音频与在测试集中对应的目标视音频不同，则识别结果为0。然后将162个视音频的识别结果进行统计，若识别结果为1的视音频个数为117，识别结果为0的视音频个数为45，则测试集中162个视音频的识别结果的平均正确率为72.2％。

在本发明实施例中利用CPU和GPU异构计算进行加速实验，将本发明实施例提供的视音频识别方法，与基于深度多模态自动编码器(MDAE)的方法，基于深度多模态信念网络(MDBN)的方法，以及基于循环时态多模态限制玻尔兹曼机(RTMRBM)的方法进行比较，并将识别结果进行统计得到如表1所示的结果。由表1 可知，本发明实施例提供的视音频方法与其他常见的方法相比，在识别视音频的准确率上取得了较好的效果，因此说明本发明实施例提供的方法提高了对视音频识别的准确率。

表1

图3为本发明实施例提供的视音频识别装置，如图3所示，该装置包括获取模块301、融合模块302、模型建立模块 303和识别模块304。

具体地，将AVDigits视音频库中一部分视音频作为训练集，例如，将AVDigits视音频库中70％的视音频作为训练集，即训练集包含378个视音频。然后获取模块301获取训练集中378个视音频的视频特征、音频特征及视音频对应的标签，例如，视频特征有运动轨迹、相对速度、形状特征等；音频特征有零通过率、能量、能量熵、声谱中心和广度等。

融合模块302对获取的视频特征和音频特征进行无监督多模态特征融合，再将获得的多模态融合特征输入有监督多模态特征融合网络进行有监督多模态特征融合。模型建立模块303将融合后的深度多模态融合特征输入多层感知机与视音频对应的标签进行识别，并将识别误差回传至有监督多模态特征融合网络，然后模型建立模块303根据该识别误差更新有监督多模态特征融合网络和多层感知机，直至多层感知机得到的识别误差收敛时，不再对多层感知机和有监督多模态特征融合网络进行更新，并获得训练好的识别模型。最后识别模块304将待识别的视音频输入建立好的识别模型进行识别，获得识别结果。

本发明实施例与现有技术相比，通过融合模块对训练集的视频特征和音频特征进行无监督特征融合和有监督特征融合，然后模型建立模块将融合后的深度多模态融合特征输入多层感知机与视音频对应标签进行识别，并根据识别误差对有监督多模态特征融合网络和多层感知机进行更新，以建立识别模型，最后识别模块将待识别的视音频输入识别模型进行识别，以获得识别结果。由于融合模块对训练集中视频特征和音频特征的融合是基于模型层次的融合，整个过程是端对端的过程，提高了视频特征和音频特征融合的正确率，从而使模型建立模块获得的识别模型能够达到准确识别视音频的目的，同时增强了应用的可扩展性，可应用于公共安全管理、影视创作和体育健身等领域。

图4为本发明另一实施例提供的视音频识别装置的结构框图，如图4所示，该识别设备包括：处理器401、存储器402和总线403；

其中，处理器401和存储器402通过总线403完成相互间的通信；所述处理器401用于调用所述存储器402中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取所述训练集中视音频的视频特征、音频特征及视音频对应的标签；对所述视频特征和所述音频特征进行无监督多模态特征融合，并将获得的多模态融合特征输入有监督多模态特征融合网络进行有监督多模态特征融合；将融合后的深度多模态融合特征输入多层感知机与所述视音频对应的标签进行识别，并根据识别误差更新所述有监督多模态特征融合网络和所述多层感知机，以建立识别模型；将待识别视音频输入识别模型进行识别，获得识别结果。

在另一实施例中，提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述个方法实施例所提供的方法，例如包括：将待识别视音频输入识别模型进行识别，获得识别结果；其中，所述识别模型基于识别训练集的视频特征和音频特征融合后的结果更新有监督多模态特征融合网络和多层感知机而建立。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视音频识别方法，其特征在于，包括：

将待识别视音频输入识别模型进行识别，获得识别结果；

其中，所述识别模型基于识别训练集的视频特征和音频特征融合后的结果更新有监督多模态特征融合网络和多层感知机而建立；

所述识别模型的建立方法，具体包括：

S1，获取所述训练集中视音频的视频特征、音频特征及视音频对应的标签；

S2，对所述视频特征和所述音频特征进行无监督多模态特征融合，并将获得的多模态融合特征输入有监督多模态特征融合网络进行有监督多模态特征融合；

S3，将融合后的深度多模态融合特征输入多层感知机与所述视音频对应的标签进行识别，并根据识别误差更新所述有监督多模态特征融合网络和所述多层感知机，以建立识别模型。

2.根据权利要求1所述的方法，其特征在于，所述S1进一步包括：

采用Viola-Jones算法提取所述训练集中视频数据的嘴部周围矩形区域，然后采用深度卷积神经网络获取初始视频特征；

采用海明窗对所述训练集中的音频数据进行分帧，然后使用快速傅里叶变换获取初始音频特征。

3.根据权利要求2所述的方法，其特征在于，所述S1还包括：通过主成分分析法分别对所述初始视频特征和所述初始音频特征进行降维处理，获得训练集的视频特征和音频特征，将所述训练集的视频特征与音频特征对应。

4.根据权利要求1所述的方法，其特征在于，所述S2进一步包括：将所述视频特征和音频特征输入深度多模态自动编码器进行无监督多模态特征融合，并将所述深度多模态自动编码器的共享层作为无监督多模态特征融合的结果。

5.根据权利要求1所述的方法，其特征在于，所述有监督多模态特征融合网络包括模态时态融合模型和时态融合模型，所述模态时态融合模型和所述时态融合模型均采用长短期记忆人工神经网络。

6.根据权利要求4或5所述的方法，其特征在于，所述深度多模态自动编码器采用交叉熵损失函数进行训练，所述有监督多模态特征融合网络和所述多层感知机均采用平方多标签转折点损失函数进行训练。

7.一种视音频识别装置，其特征在于，包括：

获取模块，用于获取所述训练集中视音频的视频特征、音频特征及视音频对应的标签；

融合模块，用于对所述视频特征和所述音频特征进行无监督多模态特征融合，并将获得的多模态融合特征输入有监督多模态特征融合网络进行有监督多模态特征融合；

模型建立模块，用于将融合后的深度多模态融合特征输入多层感知机与所述视音频对应的标签进行识别，并根据识别误差更新所述有监督多模态特征融合网络和所述多层感知机，以建立识别模型；

识别模块，用于将待识别视音频输入所述识别模型进行识别，获得识别结果。

8.一种视音频识别装置，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中，

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。