CN109257622A

CN109257622A - 一种音视频处理方法、装置、设备及介质

Info

Publication number: CN109257622A
Application number: CN201811293776.1A
Authority: CN
Inventors: 刘文奇; 刘运; 梁柱锦
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2019-01-22
Also published as: WO2020088216A1

Abstract

本发明公开了一种音视频处理方法、装置、设备及介质，涉及计算机技术领域，该方法包括：获取视频文件；从所述视频文件分离出图像帧信息和音频信息；分别从所述图像帧信息和所述音频信息提取图像特征信息和音频特征信息；将所述图像特征信息和音频特征信息融合为视频内容特征信息；依据所述视频内容特征信息确定所述视频文件对应的分类结果。本发明结合视频中的音频特征信息和视频帧的图像特征信息进行视频分类，提升了视频分类的准确率和召回率，从而减少视频分类审核的人工成本。

Description

一种音视频处理方法、装置、设备及介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种音视频处理方法、装置、设备及介质。

背景技术

随着计算机技术的快速发展，深度学习技术在图像理解的多个领域取得巨大进展，如深度学习技术应用到图像中物体分类，物体检测，物体分割等任务中。到目前为止，深度学习技术在图像理解领域中的技术已经非常成熟了，并慢慢应用到视频内容理解任务中。但是，与图像内容理解相比，视频内容理解还有一段很长的路要走。在视频内容理解任务中，视频分类是一个最基本的任务，视频分类领域已成为很多研究者致力研究的热点。

具体的，视频分类主要是将视频分类到不同的标签，即将视频分类到不同的视频类别中，以基于视频所属的视频类别设置视频标签。例如，短视频类的应用每天会由用户制作并上传大量短视频，这些短视频内容多种多样，不同的观众喜欢的短视频类别不一样。通过将短视频分类成不同标签的视频，一方面方便用户搜索自己感兴趣的视频类别，另一方面可以针对不同的用户推荐其感兴趣的视频，从而可以提高观众在短视频类应用的停留时长。目前，将用户上传的短视频分类到不同的标签的做法通常是先通过算法挑选，然后再由人工审核。但是，短视频标签分类的准确率受算法性能限制，如果算法性能比较差，将短视频分类到不同标签的准确度比较低，将会耗费大量的人力来进行审核工作，增加人力成本。

发明内容

有鉴于此，本发明实施例提供一种音视频处理方法、装置、设备及介质，结合视频中的音频特征信息和视频帧的图像特征信息进行视频分类，以提升视频分类的准确率和召回率，减少视频分类审核的人工成本。

第一方面，本发明实施例提供了一种音视频处理方法，包括：获取视频文件；从所述视频文件分离出图像帧信息和音频信息；分别从所述图像帧信息和所述音频信息提取图像特征信息和音频特征信息；将所述图像特征信息和音频特征信息融合为视频内容特征信息；依据所述视频内容特征信息确定所述视频文件对应的分类结果。

可选地，所述分别从所述图像帧信息和所述音频信息提取图像特征信息和音频特征信息，包括：通过预先训练的图像特征提取器，提取所述图像帧信息对应的图像特征信息；通过预先训练的音频特征提取器，提取所述音频信息对应的音频特征信息。

可选地，所述将所述图像特征信息和音频特征信息融合为视频内容特征信息，包括：通过向量来表示图像特征信息和音频特征信息，且所述图像特征信息的向量维度与所述音频特征信息的向量维度相等；基于所述图像特征信息中的图像向量元素和所述音频特征信息中的音频向量元素，生成作为所述视频内容特征信息的视频内容特征矩阵。

可选地，还包括：从预设的输入数据集中获取视频数据；从所述视频数据提取出待训练图像帧信息和待训练音频信息；分别提取所述待训练图像帧信息的图像特征信息和所述待训练音频信息的音频特征信息；将所述待训练图像帧信息的图像特征信息作为训练的监督信息，并采用和所述待训练音频信息的音频特征信息进行训练，得到所述音频特征提取器。

可选地，还包括：获取待训练图像帧信息；依据所述待训练图像帧信息进行训练，得到视频分类网络；基于所述视频分类网络中的非输出层，生成所述图像特征提取器。

可选地，所述依据所述视频内容特征信息确定所述视频文件对应的分类结果，包括：依据所述视频内容特征信息生成特征图信息；依据所述特征图信息和所述视频内容特征信息，生成目标特征信息；依据所述目标特征信息进行分类处理，得到所述分类结果。

可选地，所述依据所述视频内容特征信息生成特征图信息，包括：将所述视频内容特征信息输入到预设的注意力机制模块中进行注意力特征提取；基于所述注意力机制模块输出的注意力特征信息和所述视频内容特征信息，生成所述特征图信息。

可选地，所述特征图信息的矩阵维度和所述视频内容特征信息的矩阵维度相等，所述依据所述特征图信息和所述视频内容特征信息，生成目标特征信息，包括：通过矩阵记录所述特征图信息和所述视频内容特征信息，且所述特征图信息的矩阵维度和所述视频内容特征信息的矩阵维度相等；基于所述特征图信息中的矩阵元素与所述视频内容特征信息中的矩阵元素，生成作为所述目标特征信息的目标特征矩阵。

可选地，所述确定依据所述目标特征信息进行分类处理，得到所述分类结果，包括：将所述视频内容特征信息输入预设的分类网络进行分类处理；将所述分类网络输出的类别分数作为所述分类结果，其中，所述类别分数用于确定所述视频文件所属的视频类别。

可选地，所述特征图信息为依据预设的注意力机制模块输出的注意力特征信息生成的，所述方法还包括：获取待训练视频内容特征信息；基于待训练视频内容特征信息和预设的权重信息进行训练，得到网络层；

依据所述网络层生成所述注意力机制模块。

可选地，所述网络层包括以下至少一项：全连接层、全局池化层、卷积层、非线性层和批归一化层；所述图像帧信息包括：视频帧中的物体信息和场景信息。

可选地，所述分类网络包括卷积模块，所述卷积模块由所述批归一化层，非线性层以及卷积层组成。

第二方面，本发明实施例还提供了一种音视频处理装置，包括：

视频文件获取模块，用于获取视频文件；

视频分离模块，用于从所述视频文件分离出图像帧信息和音频信息；

特征提取模块，用于分别从所述图像帧信息和所述音频信息提取图像特征信息和音频特征信息；

特征融合模块，用于将所述图像特征信息和音频特征信息融合为视频内容特征信息；

视频分类模块，用于依据所述视频内容特征信息确定所述视频文件对应的分类结果。

可选地，特征提取模块包括如下子模块：

图像特征提取子模块，用于通过预先训练的图像特征提取器，提取所述图像帧信息对应的图像特征信息；

音频特征提取子模块，用于通过预先训练的音频特征提取器，提取所述音频信息对应的音频特征信息。

可选地，上述特征融合模块具体可以用于通过向量来表示图像特征信息和音频特征信息，且所述图像特征信息的向量维度与所述音频特征信息的向量维度相等；基于所述图像特征信息中的图像向量元素和所述音频特征信息中的音频向量元素，生成作为所述视频内容特征信息的视频内容特征矩阵。

可选地，上述音视频处理装置还可以包括如下模块：

视频数据获取模块，用于从预设的输入数据集中获取视频数据；

信息提取模块，用于从所述视频数据提取出待训练图像帧信息和待训练音频信息；

训练特征提取模块，用于分别提取所述待训练图像帧信息的图像特征信息和所述待训练音频信息的音频特征信息；

音频特征提取器训练模块，用于将所述待训练图像帧信息的图像特征信息作为训练的监督信息，并采用和所述待训练音频信息的音频特征信息进行训练，得到所述音频特征提取器。

可选地，上述音视频处理装置还可以包括如下模块：

图像帧信息获取模块，用于获取待训练图像帧信息；

分类网络训练模块，用于依据所述待训练图像帧信息进行训练，得到视频分类网络；

图像特征提取器生成模块，用于基于所述视频分类网络中的非输出层，生成所述图像特征提取器。

可选地，视频分类模块可以包括如下子模块：

特征图生成子模块，用于依据所述视频内容特征信息生成特征图信息；

目标特征生成子模块，用于依据所述特征图信息和所述视频内容特征信息，生成目标特征信息；

分类处理子模块，用于依据所述目标特征信息进行分类处理，得到所述分类结果。

可选地，特征图生成子模块具体可以用于将所述视频内容特征信息输入到预设的注意力机制模块中进行注意力特征提取，基于所述注意力机制模块输出的注意力特征信息和所述视频内容特征信息，生成所述特征图信息。

可选地，所述目标特征生成子模块具体可以用于通过矩阵记录所述特征图信息和所述视频内容特征信息，且所述特征图信息的矩阵维度和所述视频内容特征信息的矩阵维度相等；基于所述特征图信息中的矩阵元素与所述视频内容特征信息中的矩阵元素，生成作为所述目标特征信息的目标特征矩阵。

可选地，分类处理子模块具体可以用于将所述视频内容特征信息输入预设的分类网络进行分类处理，并将所述分类网络输出的类别分数作为所述分类结果；其中，所述类别分数用于确定所述视频文件所属的视频类别。

可选地，本发明实施例中的音视频处理装置还可以包括如下模块：

视频内容特征获取模块，用于获取待训练视频内容特征信息；

网络层训练模块，用于基于待训练视频内容特征信息和预设的权重信息进行训练，得到网络层；

注意力机制模块生成模块，用于依据所述网络层生成所述注意力机制模块。

可选地，所述网络层包括以下至少一项：全连接层、全局池化层、卷积层、非线性层和批归一化层。所述图像帧信息包括：视频帧中的物体信息和场景信息。

第三方面，本发明实施例还提供了一种设备，包括：处理器和存储器；所述存储器中存储有至少一条指令，所述指令由所述处理器执行，使得所述设备执行如第一方面所述的音视频处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如第一方面所述的音视频处理方法。

采用本发明实施例，在分离出视频文件中图像帧信息和音频信息后，可分别从图像帧信息和音频信息提取出图像特征信息和音频特征信息，并将该图像特征信息和音频特征信息融合为视频内容特征信息，随后可以依据该视频内容特征信息进行视频分类，能够提升视频分类的准确率和召回率，解决了现有技术中只使用图像特征信息进行视频分类所导致的分类结果准确度低的问题，从而减少视频分类审核的人工成本，以及，能基于视频文件对应的分类结果推荐用户感兴趣的视频，提升用户观看视频的体验。

附图说明

图1是本发明的一种音视频处理方法实施例的步骤流程示意图；

图2是本发明一个示例中的一种音视频处理方法的示意图；

图3是本发明实施例中的一种音视频处理装置实施例的结构方框示意图；

图4是本发明一个示例中的一种设备的结构方框示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构或组成。

现有技术使用三维卷积做视频内容的标签分类，需要将处理单张图片的二维卷积神经网络改造为能处理多张图片的三维卷积神经网络，以直接用于图像分类的卷积神经网络，但是三维卷积导致网络的参数非常大，使得网络的训练变得困难，即存在网络训练参数大导致网络训练困难的问题。为避免网络训练参数大而导致的网络训练困难问题，通常结合视频的光流信息及视频帧的图像信息做视频内容的标签分类，即分别提取视频的光流信息和视频帧的图像信息，经过融合，生成新的视频内容特征信息，以基于新生成的视频内容特征信息进行视频内容的标签分类，从而能够结合视频中的动作信息进行视频标签分类，提升视频中动作的识别效果，但是视频的光流信息的提取非常耗时，影响视频分类效率。

为解决将视频分类到不同标签的技术问题，本发明实施例提出了一种新的音视频处理方法，结合视频中的音频特征信息和视频帧的图像特征信息进行视频分类，提高将视频分类到不同标签的准确度，即提升视频分类的准确率和召回率，进而减少视频分类审核的人工成本。

参照图1，示出了本发明的一种音视频处理方法实施例的步骤流程示意图，具体可以包括如下步骤：

步骤110，获取视频文件。

具体而言，本发明实施例在进行视频分类时，可以获取需要分类的视频文件，以依据该视频文件中所包含的音视频信息进行视频标签分类。其中，视频文件中包含的音视频信息可以包括与视频播放相关的信息，如可以包括：视频的图像帧信息、音频信息等，本发明实施例对此不作具体限制。

需要说明的是，一个视频文件可以用于表征一个视频，一个视频可包括一个或多个视频帧。图像帧信息可以是指视频帧的图像信息，可以用于显示视频画面，使得用户可以观看到视频中的物体、人物、场景等。音频信息可以用于播放视频中的各种声音，如播放视频中的语音等。

步骤120，从所述视频文件分离出图像帧信息和音频信息。

具体的，本发明实施例在获取到视频文件后，可以通过对该视频文件进行解复合，分离出该视频文件中所包含的图像帧信息和音频信息，以依据该图像帧信息和音频信息进行特征提取。

步骤130，分别从所述图像帧信息和所述音频信息提取图像特征信息和音频特征信息。

本发明实施例中，在分离出视频的图像帧信息和音频信息后，可以依据分离出的图像帧信息和音频信息分别进行图像特征提取和音频特征提取，得到该视频对应的图像特征信息和音频特征信息。其中，音频特征信息可以用于表征视频的音频特征；图像特征信息可以用于表征视频帧的图像特征。

步骤140，将所述图像特征信息和音频特征信息融合为视频内容特征信息。

具体的，本发明实施例在提取到同一个视频文件对应的图像特征信息和音频特征信息后，可以将该视频文件对应的图像特征信息和音频特征信息融合为视频内容特征信息，以便后续可以依据该视频内容特征信息进行视频分类。该视频内容特征信息可以用于表征视频文件对应的视频内容特征。可见，本发明实施例可以通过融合视频文件对应的图像特征信息和音频特征信息，生成该视频文件对应的视频内容特征信息。

步骤150，依据所述视频内容特征信息确定所述视频文件对应的分类结果。

本发明实施例在得到视频内容特征信息后，可以基于该视频内容特征信息进行视频分类，得到视频文件对应的分类结果。该分类结果可以用于可以确定视频文件所属的视频类别，和/或，用于设置该视频文件对应的视频标签等。其中，视频类别与视频标签可以具有一一对应的关系，如视频类别可以等价于视频标签，亦即可以通过视频类别设置视频标签。

综上，本发明实施例在从获取到的视频文件分离出图像帧信息和音频信息后，可分别从图像帧信息和音频信息提取出图像特征信息和音频特征信息，并将该图像特征信息和音频特征信息融合为视频内容特征信息，随后可以依据该视频内容特征信息进行视频分类，以提升视频分类的准确率和召回率，解决了现有技术中只使用图像特征信息进行视频分类所导致的分类结果准确度低的问题，从而减少视频分类审核的人工成本，以及，能够基于视频文件对应的分类结果推荐用户感兴趣的视频，提升用户观看视频的体验。

在实际处理中，本发明实施例在获取到视频文件后，可以经过视频解码，得到该视频文件对应的图像帧信息和音频信息，随后可以分别通过预设的图像特征提取器和音频特征提取器进行特征提取，以根据提取到的图像特征信息和音频特征信息生成视频内容特征信息。可选的，上述分别从所述图像帧信息和所述音频信息提取图像特征信息和音频特征信息，具体可以包括：通过预先训练的图像特征提取器，提取所述图像帧信息对应的图像特征信息；通过预先训练的音频特征提取器，提取所述音频信息对应的音频特征信息。

具体而言，本发明实施例在分离出视频文件中所包含的图像帧信息和音频信息后，可以将图像帧信息输入到预先训练好的图像特征提取器中进行图像特征提取，以提取出该视频文件的图像特征信息，并可将音频信息输入到预先训练好的音频特征提取器中进行音频特征提取，得到该视频文件的音频特征信息。

在一种可选实施方式中，可以采用向量来表示图像特征信息和音频特征信息，且图像特征信息的向量维度与所述音频特征信息的向量维度相等。进一步而言，上述将所述图像特征信息和音频特征信息融合为视频内容特征信息，可以包括：通过向量来表示图像特征信息和音频特征信息，且所述图像特征信息的向量维度与所述音频特征信息的向量维度相等；基于所述图像特征信息中的图像向量元素和所述音频特征信息中的音频向量元素，生成作为所述视频内容特征信息的视频内容特征矩阵。具体的，本发明实施例在得到图像特征信息和音频特征信息后，可以将图像特征信息中的图像向量元素作为第一维矩阵向量元素，将音频特征信息中的音频向量元素作为第二维矩阵向量元素，随后根据第一维矩阵向量元素和第二维矩阵向量元素生成一个视频内容特征矩阵，并将该视频内容特征矩阵作为视频内容特征信息。例如，在图像特征信息和音频特征信息均为一个1024维度的向量的情况下，融合图像特征信息(1024维度的向量)和音频特征信息(1024维度的向量)后，可以得到一个2×1024维度的视频内容特征矩阵，并可以将该视频内容特征矩阵作为融合得到的视频内容特征信息，采用该视频内容特征所包含的矩阵向量元素表征视频内容特征信息中所包含的各个视频内容特征。

在实际处理中，音频特征提取器可以是利用深度学习技术训练出的一种用于音频特征提取的神经网络，如可以是一种卷积神经网络，具体可以是一个用来提取音频特征的网络模型SoundNet，也可以是其他的神经网络模型，如用于图像分类的网络结构模型InceptionNet、用于图像分类的网络结构ResNet等，本发明实施例对此不作具体限制。

在上述实施例的基础上，可选地，本发明实施例可以预先训练音频特征提取器，以便后续可以利用训练好的音频特征提取器进行音频特征提取；并在训练过程中可使用视频的图像帧信息作为监督信息，以优化训练过程中的音频特征提取器的网络参数。因此，本发明实施例提供的音视频处理方法还可以包括：从预设的输入数据集中获取视频数据；从所述视频数据提取出待训练图像帧信息和待训练音频信息；分别提取所述待训练图像帧信息的图像特征信息和所述待训练音频信息的音频特征信息；将所述待训练图像帧信息的图像特征信息作为训练的监督信息，并采用所述待训练音频信息的音频特征信息进行训练，得到所述音频特征提取器。其中，预设的输入数据集可以是指待训练的视频数据集，可以包括大量的未标记的视频数据；待训练图像帧信息可以是指待训练的图像帧信息；待训练音频信息可以是指待训练的音频信息。

在从所述视频数据提取出待训练图像帧信息和待训练音频信息后，可以通过不同的网络模型分别提取出待训练图像帧信息的图像特征信息和待训练音频信息的音频特征信息，如可以将所述待训练图像帧信息输入到预设的第一网络模型中进行图像特征提取，得到该待训练图像帧信息的图像特征信息，并且可以将所述待训练音频信息输入到预设的第二网络模型中进行音频特征提取，得到该待训练音频信息的音频特征信息；其中，第一网络模型可以用于提取图像特征，如可以是在数据集ImageNet和数据集Places2上训练得到的网络模型VGG等；第二网络模型可以用于提取音频特征，如可以是网络模型SoundNet等，本发明实施例对此也不做具体限制。

作为本发明的一个可选示例，在音频特征提取器的训练过程中，可以从预设的输入数据集中提取视频数据，随后可将提取到的视频数据的图像帧信息输入到在数据集Imagenet和数据集Places2上预训练的网络模型VGG，以通过该网络模型VGG进行图像特征提取，随后可以将该网络模型VGG的输出结果信息确定为视频数据的图像特征信息，并保存该图像特征信息；然后可将提取到的视频数据的音频信息输入到网络模型SoundNet中进行音频特征提取，并可使用视频数据的图像特征信息作为监督信息，以根据该网络模型SoundNet输出的音频特征信息和该视频数据的图像特征信息确定出松散度(KLDivergence)的损失数据，即确定出音频特征信息对应的损失数据和图像特征信息对应的损失数据，随后可依据音频特征信息对应的损失数据和图像特征信对应的损失数据确定出网络模型SoundNet的损失(Loss)函数值，如将音频特征信息和图像特征信这两者对应的损失数据的平均值作为网络模型SoundNet最终的Loss，即使用视频的图像帧信息作为监督信息进行训练，以优化训练的网络参数，进而可以在网络模型SoundNet的Loss函数值符合预设条件时，将训练好的网络模型SoundNet作为音频特征提取器。

可见，本示例中的音频特征提取器可以在大量的未标记的视频数据集上进行预训练，并使用视频的图像帧信息作为监督信息，以优化音频特征提取器的网络参数，提高音频特征提取器的训练效率。其中，图像帧信息在音视频联合训练过程中可以用于优化音频特征提取器的网络参数，具体可以包括视频帧中的物体信息和场景信息等；物体信息可以用于表征视频帧中的物体，场景信息可以用于表征视频帧的场景，如在一个视频帧中，有一个小孩在卧室中玩耍，小孩可以是属于“人”这个物体信息，而卧室可以是属于场景信息。

在具体实现中，图像特征提取器可以由公开的视频分类数据集中取得较好效果的各类网络来组成，具体可以包括但不仅限于：基于三维(3 Dimensions，3D)卷积的用于视频分类的神经网络C3D、基于3D卷积的用于视频分类的神经网络I3D、基于光流和空间域的视频分类神经网络TSN以及基于循环神经网络((Recurrent Neural Network，RNN)的各种动作识别网络等，本发明实施例对此不作具体限制。这些网络可以在大型公开数据集上进行预训练，如可以在视频分类数据集Kinetics或视频分类数据集Youtube-8M上进行预训练等。

在本发明的一个可选实施例中，上述音视频处理方法还可以包括：获取待训练图像帧信息；依据所述待训练图像帧信息进行训练，得到视频分类网络；基于所述视频分类网络中的非输出层，生成所述图像特征提取器。具体的，本发明实施例可以在预设的视频分类数据集中提取视频数据，随后可以从该提取到的视频数据中获取待训练图像帧信息，并可依据该待训练图像帧信息，按照预设网络结构进行训练，如按照预设的用于图像分类的网络结构InceptionNet-V1进行网络训练，得到视频分类网络；随后可基于视频分类网络中的非输出层生成图像特征提取器，如除去视频分类网络中用于分类的输出层，以将该视频分类网络中剩余的网络层作为视频帧特征提取网络，并将该视频帧特征提取网络确定为图像特征提取器，以便后续可以通过该图像特征提取器进行图像特征提取。

作为本发明的一个示例，如图2所示，视频文件经视频解码后，可以生成对应的图像帧信息和音频信息。随后，图像帧信息可以输入到预先训练的图像特征提取器，且音频信息可以输入到预先训练的音频特征提取器，以分别通过图像特征提取器和音频特征提取器提取出图像特征信息和音频特征信息。通过融合提取出的图像特征信息和音频特征信息，可生成视频内容特征信息，进而可以依据该视频内容特征信息确定出视频文件对应的分类结果。

本发明实施例中，可选的，上述依据所述视频内容特征信息确定所述视频文件对应的分类结果，可以包括：依据所述视频内容特征信息生成特征图信息；依据所述特征图信息和所述视频内容特征信息，生成目标特征信息；依据所述目标特征信息进行分类处理，得到所述分类结果。

在具体实现中，本发明实施例在可以基于预设的注意力机制模块对视频内容特征信息进行注意力特征提取，如将视频内容特征信息输入到预设的注意力机制模块中，以通过该注意力机制模块对该视频内容特征信息中进行注意力特征提取，得到注意力特征信息，从而可以根据该注意力特征信息和视频内容特征信息生成特征图信息。其中，注意力特征信息可以表征基于注意力机制模块生成视频内容特征信息对应的注意力特征；特征图信息可以用于表征视频文件对应的一个或多个特征图。

在一个可选实施例中，依据所述视频内容特征信息生成特征图信息，可以包括：将所述视频内容特征信息输入到预设的注意力机制模块中进行注意力特征提取；基于所述注意力机制模块输出的注意力特征信息和所述视频内容特征信息，生成所述特征图信息。具体而言，本发明实施例可以将得到的视频内容特征信息作为注意力机制模块的输入，输入到注意力机制模块中，以通过注意力机制模块提取出注意力特征信息，随后可基于提取到的注意力特征信息与视频内容特征信息生成对应的特征图信息，如可以将注意力特征信息与视频内容特征信息的乘积作为特征图信息等。

在实际处理中，特征图信息和视频内容特征信息均可以采用矩阵来记录，且特征图信息的矩阵维度和所述视频内容特征信息的矩阵维度相等。可选地，依据所述特征图信息和所述视频内容特征信息生成目标特征信息，具体可以包括：通过矩阵记录所述特征图信息和所述视频内容特征信息，且所述特征图信息的矩阵维度和所述视频内容特征信息的矩阵维度相等；基于所述特征图信息中的矩阵元素与所述视频内容特征信息中的矩阵元素，生成作为所述目标特征信息的目标特征矩阵。

进一步而言，本发明实施例中的特征图信息可以为依据预设的注意力机制模块输出的注意力特征信息生成的。例如，在采用一个2×1024维度的矩阵记录视频内容特征信息时，该视频内容特征信息可以包括2×1024个矩阵元素。在实际处理中，可以将视频内容特征信息(即2×1024个矩阵元素)作为注意力机制模块的输入，如图2所示，以通过该注意力机制模块为该视频内容特征信息中的各个矩阵元素赋予对应的权重，得到一个2×1024维度的注意力特征矩阵，作为注意力特征信息，随后可以采用该注意力特征矩阵的矩阵元素和视频内容特征的矩阵元素，生成一个2×1024维度的特征图矩阵，并将该特征图矩阵作为特征图信息，以依据该特征图信息与视频内容特征信息进行逐元素相乘操作，生成一个2×1024维度的目标特征矩阵，随后可将该目标特征矩阵作为最终的目标特征信息，以依据最终的目标特征信息进行分类处理。其中，注意力机制模块可以由一个卷积模块组成；该卷积模块包括一个或多个卷积层，该卷积可以为1×1的卷积层，并可将视频内容特征信息作为输入，以生成2×1024维度的注意力特征图信息。

需要说明的是，注意力机制模块主要的目的在于学习输入特征的权重，再通过逐元素相乘，给每个特征值赋予不同的权重。例如，在视频内容特征信息输入到注意力机制模块后，注意力机制模块可以学习到该视频内容特征信息中的每一个矩阵元素对应的权重，即生成视频内容特征信息对应的权重矩阵，该权重矩阵可以包含与视频内容特征信息中的每一个矩阵元素对应的权重。随后，注意力机制模块可以依据该权重矩阵和输入的视频内容特征信息进行逐元素相乘操作，以基于该权重矩阵对视频内容特征信息进行注意力特征提取，得到注意力特征信息，随后可将该注意力特征信息与视频内容特征信息合成特征图信息并输出，以作为视频内容特征对应的特征图信息。

在实际处理中，注意力机制模块由神经网络的网络层组成，如可以由卷积层模块组成，包括卷积层，非线性层及批归一化层，也可以由全连接层和全局池化层组成等，本发明实施例对此不作限制。可选的，本发明实施例的方法还可以包括预先训练注意力机制模块步骤。具体的，上述音视频处理方法还包括：获取待训练视频内容特征信息；基于待训练视频内容特征信息和预设的权重信息进行训练，得到网络层；依据所述网络层生成所述注意力机制模块。其中，待训练视频内容特征信息可以是指待训练的视频内容特征信息，具体可以包括训练过程中所获取到的各种视频内容特征信息；权重信息可以根据网络层的训练需求进行预先设置，具体可以用于在训练过程中为视频内容特征信息中的各个矩阵元素赋予对应的权重，以生成对应的注意力特征信息。

具体而言，本发明实施例在训练过程中，可以将获取到的视频内容信息作为待训练视频内容特征信息，并可基于注意力机制，利用神经网络技术，采用待训练视频内容特征信息和预设的权重信息进行训练，以训练出用于提取注意力特征的网络层。在训练出网络层后，可以将该网络层作为注意力机制模块，以便后续音视频处理过程中可以利用该网络层提取出注意力特征信息，随后可将该注意力特征信息与视频内容特征信息融合，得到对应的特征图信息。可选地，训练出的网络层可以包括以下至少一项：全连接层、全局池化层、卷积层、非线性层和批归一化层等等，本发明实施例对此不作具体限制。

本发明实施例中，可选地，上述确定依据所述目标特征信息进行分类处理，得到所述分类结果，可以包括：将所述视频内容特征信息输入预设的分类网络进行分类处理；将所述分类网络输出的类别分数作为所述分类结果，其中，所述类别分数用于确定所述视频文件所属的视频类别。需要说明的是，预设的分类网络可以是神经网络中的分类层，具体可以用于依据视频文件对应的目标特征信息进行视频分类，输出视频的分类结果。例如，结合上述例子，如图2所在融合得到视频内容特征信息后，可以将该视频内容特征信息作为最终的目标特征信息，以将该视频内容特征信息输入到预设的分类层进行分类处理，得到分类网络输出的类别分数，并可将该类别分数作为视频文件对应的分类结果，从而可以基于该类别分数确定出该视频文件所属的视频类别。

进一步而言，预设的分类网络可以包括卷积模块，该卷积模块可以由批归一化层，非线性层以及卷积层组成。例如，分类网络由三个1*1的卷积模块组成，这三个卷积模块中卷积核的个数分别为1024，512，分类的类别数组成。其中，每个卷积模块可以批归一化层，非线性层和1*1卷积层组成。

在实际处理中，视频类别可以与视频标签等价。本发明实施例在确定出视频文件所属的视频类别后，进而可以基于该视频类别将视频分类到不同视频标签的算法模型中，如可以结合短视频文件中的图像帧信息和音频信息确定出视频类别，以基于视频类别将短视频分类到不同标签的算法模型，提高将短视频分类到不同标签的准确度，从而减少人工审核的成本。

综上，本发明实施例通过融合注意力机制、图像特征信息及音频特征信息来进行视频标签分类，相较现有技术只使用图像特征信息进行视频标签分类，可以较大幅度的提升视频标签分类的准确率和召回率，从而减少视频标签审核的人工成本；并且可以方便用户依据视频标签和/或类别搜索其感兴趣的视频，或者，可以依据视频标签，针对不同用户推荐用户感觉兴趣的视频，进而可以有效地提升观众观看视频的体验，如提升短视频类的应用的用户观看视频的体验。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。

参照图3，示出了本发明实施例中的一种音视频处理装置实施例的结构方框示意图，该音视频处理装置具体可以包括如下模块：

视频文件获取模块310，用于获取视频文件；

视频分离模块320，用于从所述视频文件分离出图像帧信息和音频信息；

特征提取模块330，用于分别从所述图像帧信息和所述音频信息提取图像特征信息和音频特征信息；

特征融合模块340，用于将所述图像特征信息和音频特征信息融合为视频内容特征信息；

视频分类模块350，用于依据所述视频内容特征信息确定所述视频文件对应的分类结果。

在上述实施例的基础上，可选地，所述特征提取模块330可以包括如下子模块：

在实际处理中，所述图像特征信息的向量维度与所述音频特征信息的向量维度相等。可选地，上述特征融合模块具体可以用于通过向量来表示图像特征信息和音频特征信息，且所述图像特征信息的向量维度与所述音频特征信息的向量维度相等；基于所述图像特征信息中的图像向量元素和所述音频特征信息中的音频向量元素，生成作为所述视频内容特征信息的视频内容特征矩阵。

在本发明的一个可选实施例中，上述音视频处理装置还可以包括如下模块：

图像帧信息获取模块，用于获取待训练图像帧信息；

在本发明的一个可选实施例中，所述视频分类模块350可以包括如下子模块：

在本发明的一个可选实施例中，所述特征图生成子模块具体可以用于将所述视频内容特征信息输入到预设的注意力机制模块中进行注意力特征提取；并基于所述注意力机制模块输出的注意力特征信息和所述视频内容特征信息，生成所述特征图信息。

在实际处理中，所述特征图信息的矩阵维度和所述视频内容特征信息的矩阵维度相等。可选地，所述目标特征生成子模块具体可以用于通过矩阵记录所述特征图信息和所述视频内容特征信息，且所述特征图信息的矩阵维度和所述视频内容特征信息的矩阵维度相等；基于所述特征图信息中的矩阵元素与所述视频内容特征信息中的矩阵元素，生成作为所述目标特征信息的目标特征矩阵。

在本发明的一个可选实施例中，分类处理子模块具体可以用于将所述视频内容特征信息输入预设的分类网络进行分类处理，并将所述分类网络输出的类别分数作为所述分类结果；其中，所述类别分数用于确定所述视频文件所属的视频类别。

本发明实施例中，可选地，所述网络层包括以下至少一项：全连接层、全局池化层、卷积层、非线性层和批归一化层。所述图像帧信息包括：视频帧中的物体信息和场景信息。

需要说明的是，本发明实施例提供的音视频处理装置可执行本发明任意实施例所提供的音视频处理方法，具备执行方法相应的功能和有益效果。

在具体实现中，上述音视频处理装置可以集成在设备中。该设备可以是两个或多个物理实体构成，也可以是一个物理实体构成，如设备可以是个人计算机(PersonalComputer，PC)、电脑、手机、平板设备、个人数字助理、服务器、消息收发设备、游戏控制台等。

进一步的，本发明实施例还提供一种设备，包括：处理器和存储器。存储器中存储有至少一条指令，且指令由所述处理器执行，使得所述设备执行如上述方法实施例中所述的音视频处理方法。

参照图4，示出了本发明一个示例中的一种设备的结构方框示意图。如图4所示，该设备具体可以包括：处理器40、存储器41、具有触摸功能的显示屏42、输入装置43、输出装置44以及通信装置45。该设备中处理器40的数量可以是一个或者多个，图4中以一个处理器40为例。该设备中存储器41的数量可以是一个或者多个，图4中以一个存储器41为例。该设备的处理器40、存储器41、显示屏42、输入装置43、输出装置44以及通信装置45可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任意实施例所述的音视频处理方法对应的程序指令/模块(例如，上述音视频处理装置中的视频文件获取模块310、视频分离模块320、特征提取模块330、特征融合模块340以及视频分类模块350等)。存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

显示屏42为具有触摸功能的显示屏42，其可以是电容屏、电磁屏或者红外屏。一般而言，显示屏42用于根据处理器40的指示显示数据，还用于接收作用于显示屏42的触摸操作，并将相应的信号发送至处理器40或其他装置。可选的，当显示屏42为红外屏时，其还包括红外触摸框，该红外触摸框设置在显示屏42的四周，其还可以用于接收红外信号，并将该红外信号发送至处理器40或者其他设备。

通信装置45，用于与其他设备建立通信连接，其可以是有线通信装置和/或无线通信装置。

输入装置43可用于接收输入的数字或者字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置44可以包括扬声器等音频设备。需要说明的是，输入装置43和输出装置44的具体组成可以根据实际情况设定。

处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述音视频处理方法。

具体的，实施例中，处理器40执行存储器41中存储的一个或多个程序时，具体实现如下操作：获取视频文件；从所述视频文件分离出图像帧信息和音频信息；分别从所述图像帧信息和所述音频信息提取图像特征信息和音频特征信息；将所述图像特征信息和音频特征信息融合为视频内容特征信息；依据所述视频内容特征信息确定所述视频文件对应的分类结果。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如上述方法实施例所述的音视频处理方法。示例性的，该音视频处理方法包括：获取视频文件；从所述视频文件分离出图像帧信息和音频信息；分别从所述图像帧信息和所述音频信息提取图像特征信息和音频特征信息；将所述图像特征信息和音频特征信息融合为视频内容特征信息；依据所述视频内容特征信息确定所述视频文件对应的分类结果。

需要说明的是，对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本发明任意实施例所述的音视频处理方法。

值得注意的是，上述音视频处理装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种音视频处理方法，其特征在于，包括：

获取视频文件；

从所述视频文件分离出图像帧信息和音频信息；

分别从所述图像帧信息和所述音频信息提取图像特征信息和音频特征信息；

将所述图像特征信息和音频特征信息融合为视频内容特征信息；

依据所述视频内容特征信息确定所述视频文件对应的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述分别从所述图像帧信息和所述音频信息提取图像特征信息和音频特征信息，包括：

通过预先训练的图像特征提取器，提取所述图像帧信息对应的图像特征信息；

通过预先训练的音频特征提取器，提取所述音频信息对应的音频特征信息。

3.根据权利要求1所述的方法，其特征在于，所述将所述图像特征信息和音频特征信息融合为视频内容特征信息，包括：

通过向量来表示图像特征信息和音频特征信息，且所述图像特征信息的向量维度与所述音频特征信息的向量维度相等；

基于所述图像特征信息中的图像向量元素和所述音频特征信息中的音频向量元素，生成作为所述视频内容特征信息的视频内容特征矩阵。

4.根据权利要求2所述的方法，其特征在于，还包括：

从预设的输入数据集中获取视频数据；

从所述视频数据提取出待训练图像帧信息和待训练音频信息；

分别提取所述待训练图像帧信息的图像特征信息和所述待训练音频信息的音频特征信息；

将所述待训练图像帧信息的图像特征信息作为训练的监督信息，并采用所述待训练音频信息的音频特征信息进行训练，得到所述音频特征提取器。

5.根据权利要求2所述的方法，其特征在于，还包括：

获取待训练图像帧信息；

依据所述待训练图像帧信息进行训练，得到视频分类网络；

基于所述视频分类网络中的非输出层，生成所述图像特征提取器。

6.根据权利要求1至5任一所述的方法，其特征在于，所述依据所述视频内容特征信息确定所述视频文件对应的分类结果，包括：

依据所述视频内容特征信息生成特征图信息；

依据所述特征图信息和所述视频内容特征信息，生成目标特征信息；

依据所述目标特征信息进行分类处理，得到所述分类结果。

7.根据权利要求6所述的方法，所述依据所述视频内容特征信息生成特征图信息，包括：

将所述视频内容特征信息输入到预设的注意力机制模块中进行注意力特征提取；

基于所述注意力机制模块输出的注意力特征信息和所述视频内容特征信息，生成所述特征图信息。

8.根据权利要求6所述的方法，其特征在于，所述依据所述特征图信息和所述视频内容特征信息，生成目标特征信息，包括：

通过矩阵记录所述特征图信息和所述视频内容特征信息，且所述特征图信息的矩阵维度和所述视频内容特征信息的矩阵维度相等；

基于所述特征图信息中的矩阵元素与所述视频内容特征信息中的矩阵元素，生成作为所述目标特征信息的目标特征矩阵。

9.根据权利要求6所述的方法，其特征在于，所述确定依据所述目标特征信息进行分类处理，得到所述分类结果，包括：

将所述视频内容特征信息输入预设的分类网络进行分类处理；

将所述分类网络输出的类别分数作为所述分类结果，其中，所述类别分数用于确定所述视频文件所属的视频类别。

10.根据权利要求7所述的方法，其特征在于，所述方法还包括：

获取待训练视频内容特征信息；

基于所述待训练视频内容特征信息和预设的权重信息进行训练，得到网络层；

依据所述网络层生成所述注意力机制模块。

11.根据权利要求10所述的方法，其特征在于，所述网络层包括以下至少一项：全连接层、全局池化层、卷积层、非线性层和批归一化层；

所述图像帧信息包括：视频帧中的物体信息和场景信息。

12.根据权利要求9所述的方法，其特征在于，所述分类网络包括卷积模块，所述卷积模块由所述批归一化层，非线性层以及卷积层组成。

13.一种音视频处理装置，其特征在于，包括：

视频文件获取模块，用于获取视频文件；

14.一种设备，其特征在于，包括：处理器和存储器；

所述存储器中存储有至少一条指令，所述指令由所述处理器执行，使得所述设备执行如权利要求1至12任一所述的音视频处理方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如权利要求1至12任一所述的音视频处理方法。