CN109522450A

CN109522450A - 一种视频分类的方法以及服务器

Info

Publication number: CN109522450A
Application number: CN201811445857.9A
Authority: CN
Inventors: 马林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-03-26
Anticipated expiration: 2038-11-29
Also published as: WO2020108396A1; US20230351750A1; US11741711B2; EP3889803A1; US20210174152A1; CN109522450B

Abstract

本发明实施例公开了一种视频分类的方法，包括：获取待处理视频，其中，待处理视频中包含至少一个视频帧，每个视频帧对应一个时刻；通过视频分类预测模型获取待处理视频所对应的视觉信号特征序列；通过视频分类预测模型获取视觉信号特征序列所对应的音频信号特征序列；根据视觉信号特征序列以及音频信号特征序列，生成目标信号特征序列；通过视频分类预测模型获取目标信号特征序列所对应的分类预测结果，其中，分类预测结果用于预测待处理视频的视频类型。本发明实施例还公开了一种服务器。本发明实施例不但考虑到视觉特征在时间维度上的特征变化，而且还考虑到音频特征在时间维度上的特征变化，从而提升视频分类的效果。

Description

一种视频分类的方法以及服务器

技术领域

本发明涉及人工智能领域，尤其涉及一种视频分类的方法以及服务器。

背景技术

随着网络多媒体技术的飞速发展，各式各样的多媒体信息不断涌现。越来越多的用户习惯于在网络上观看视频，为了使用户能够从大量的视频中选择自己想观看的内容，通常会对视频进行分类，因此，视频分类对于实现视频的管理以及兴趣推荐具有十分重要的作用。

目前所采用的视频分类方法主要为，先对待标记视频中的每一个视频帧进行特征提取，然后通过平均特征方法将帧级别的特征变换为视频级别的特征，最后将视频级别的特征传输到分类网络中进行分类。

然而，在目前的视频分类方法中，基于平均特征方法对帧级别的特征进行变换是较为单一的，并没有考虑到其他维度的变化对视频帧变换的影响，因此，不能很好地对视频内容进行特征表达，从而不利于视频分类的准确性。

发明内容

本发明实施例提供了一种视频分类的方法以及服务器，在对视频进行分类的过程中，不但考虑到视觉特征在时间维度上的特征变化，而且还考虑到音频特征在时间维度上的特征变化，从而能够更好地表达视频内容，提高视频分类的准确率，提升视频分类的效果。

有鉴于此，本发明第一方面提供了一种视频分类的方法，包括：

获取待处理视频，其中，所述待处理视频中包含至少一个视频帧，每个视频帧对应一个时刻；

通过视频分类预测模型获取所述待处理视频所对应的视觉信号特征序列，其中，所述视觉信号特征序列包括至少一个视觉信号特征，每个视觉信号特征对应一个时刻；

通过所述视频分类预测模型获取所述视觉信号特征序列所对应的音频信号特征序列，其中，所述音频信号特征序列包括至少一个音频信号特征，每个音频信号特征对应一个时刻；

根据所述视觉信号特征序列以及所述音频信号特征序列，生成目标信号特征序列；

通过所述视频分类预测模型获取所述目标信号特征序列所对应的分类预测结果，其中，所述分类预测结果用于预测所述待处理视频的视频类型。

本发明第二方面提供了一种服务器，包括：

获取模块，用于获取待处理视频，其中，所述待处理视频中包含至少一个视频帧，每个视频帧对应一个时刻；

所述获取模块，还用于通过视频分类预测模型获取所述待处理视频所对应的视觉信号特征序列，其中，所述视觉信号特征序列包括至少一个视觉信号特征，每个视觉信号特征对应一个时刻；

所述获取模块，还用于通过所述视频分类预测模型获取所述视觉信号特征序列所对应的音频信号特征序列，其中，所述音频信号特征序列包括至少一个音频信号特征，每个音频信号特征对应一个时刻；

生成模块，用于根据所述获取模块获取的所述视觉信号特征序列以及所述音频信号特征序列，生成目标信号特征序列；

所述获取模块，还用于通过所述视频分类预测模型获取所述生成模块生成的所述目标信号特征序列所对应的分类预测结果，其中，所述分类预测结果用于预测所述待处理视频的视频类型。

在一种可能的设计中，在本申请实施例的第二方面的第一种实现方式中，

所述获取模块，具体用于通过所述视频分类预测模型中的第一子模型，获取所述待处理视频中每个视频帧的视觉信号特征，其中，所述第一子模型包括卷积神经网络CNN模型；

根据所述每个视频帧的视觉信号特征，生成所述待处理视频所对应的视觉信号特征序列。

在一种可能的设计中，在本申请实施例的第二方面的第二种实现方式中，

所述获取模块，具体用于通过所述视频分类预测模型中的第二子模型，获取所述视觉信号特征序列中每个视觉信号特征的音频信号特征，其中，所述第二子模型包括基于递归门单元GRU的递归神经模型；

根据所述每个视觉信号特征的音频信号特征，生成所述视觉信号特征序列所对应的音频信号特征序列。

在一种可能的设计中，在本申请实施例的第二方面的第三种实现方式中，

所述获取模块，具体用于获取第一时刻的视觉信号特征以及第二时刻的视觉信号隐状态特征，其中，所述第二时刻为所述第一时刻的前一个相邻的时刻；

通过所述第二子模型获取所述第一时刻的视觉信号隐状态特征，其中，所述第一时刻的视觉信号隐状态特征与所述第一时刻的视觉信号特征具有对应关系，且所述第一时刻的视觉信号隐状态特征与所述第二时刻的视觉信号隐状态特征具有对应关系；

获取所述第二时刻的音频信号隐状态特征；

通过所述第二子模型获取所述第一时刻的音频信号隐状态特征，其中，所述第一时刻的音频信号隐状态特征与所述第二时刻的音频信号隐状态特征具有对应关系，且所述第一时刻的音频信号隐状态特征与所述第一时刻的视觉信号隐状态特征具有对应关系；

根据所述第一时刻的音频信号隐状态特征，生成所述第一时刻的音频信号特征。

在一种可能的设计中，在本申请实施例的第二方面的第四种实现方式中，

所述获取模块，具体用于采用如下方式计算所述第一时刻的视觉信号隐状态特征：

h_t＝GRU(x_t,h_t-1) for t∈[1,T]；

其中，所述h_t表示所述第一时刻的视觉信号隐状态特征，所述GRU()表示递归门单元函数，所述x_t表示所述第一时刻的视觉信号特征，所述h_t-1表示所述第二时刻的音频信号隐状态特征，所述t表示所述第一时刻，所述T表示所述待处理视频的总时刻数。

在一种可能的设计中，在本申请实施例的第二方面的第五种实现方式中，

所述获取模块，具体用于采用如下方式计算所述第一时刻的音频信号隐状态特征：

y_t＝GRU(h_t,y_t-1) for t∈[1,T]；

其中，所述y_t表示所述第一时刻的音频信号隐状态特征，所述GRU()表示递归门单元函数，所述h_t表示所述第一时刻的视觉信号隐状态特征，所述y_t-1表示所述第二时刻的音频信号隐状态特征，所述t表示所述第一时刻，所述T表示所述待处理视频的总时刻数。

在一种可能的设计中，在本申请实施例的第二方面的第六种实现方式中，

所述获取模块，具体用于采用如下方式计算所述第一时刻的音频信号特征：

m_t＝FC(y_t) for t∈[1,T]；

其中，所述m_t表示所述第一时刻的音频信号特征，所述y_t表示所述第一时刻的音频信号隐状态特征，所述FC()表示全连接网络函数，所述t表示所述第一时刻，所述T表示所述待处理视频的总时刻数。

在一种可能的设计中，在本申请实施例的第二方面的第七种实现方式中，

所述获取模块，具体用于通过所述视频分类预测模型中的第三子模型，获取所述目标信号特征序列中每个目标信号特征的视音信号特征，其中，所述第三子模型包括基于递归门单元GRU的递归神经模型；

根据所述每个目标信号特征的视音信号特征，生成所述目标信号特征序列所对应的视音信号特征序列；

根据所述视音信号特征序列确定所述分类预测结果。

在一种可能的设计中，在本申请实施例的第二方面的第八种实现方式中，

所述获取模块，具体用于获取所述第一时刻的目标信号特征以及所述第二时刻的视音信号特征，其中，所述第二时刻为所述第一时刻的前一个相邻的时刻；

通过所述第三子模型获取所述第一时刻的视音信号特征，其中，所述第一时刻的视音信号特征与所述第一时刻的目标信号特征具有对应关系，所述第一时刻的视音信号特征与所述第二时刻的视音信号特征具有对应关系。

在一种可能的设计中，在本申请实施例的第二方面的第九种实现方式中，

所述获取模块，具体用于采用如下方式计算所述第一时刻的视音信号特征：

H_t＝GRU(v_t,H_t-1) for t∈[1,T]；

v_t＝[h_t；m_t]；

其中，所述H_t表示所述第一时刻的视音信号特征，所述GRU()表示递归门单元函数，所述H_t-1表示所述第二时刻的视音信号特征，所述v_t表示所述第一时刻的目标信号特征，所述h_t表示所述第一时刻的视觉信号隐状态特征，所述m_t表示所述第一时刻的音频信号特征。

在一种可能的设计中，在本申请实施例的第二方面的第十种实现方式中，

所述获取模块，具体用于采用如下方式计算所述分类预测结果：

g_n＝σ_g(W_gH_T+b_g),n∈[1,N]；

a_n＝σ_a(W_aH_T+b_a),n∈[1,N]；

其中，所述lable表示所述分类预测结果，所述g_n表示门表达函数，所述a_n表示激活表达函数，所述W_g表示第一线性变换参数矩阵，所述W_a表示第二线性变换参数矩阵，所述b_g表示第一偏置参数向量，所述b_a表示第二偏置参数向量，所述H_T表示所述视音信号特征序列，所述σ_g表示softmax函数，所述σ_a表示sigmoid函数，所述N表示经过非线性变换后得到的总路数，所述n表示经过非线性变换后得到的第n路。

本申请第三方面提供一种服务器，所述服务器用于执行上述第一方面或第一方面的任一可能的实现方式中的视频分类的方法。具体地，所述服务器可以包括用于执行第一方面或第一方面的任一可能的实现方式中的视频分类的方法的模块。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本发明实施例中，提供了一种视频分类的方法，首先服务器获取待处理视频，待处理视频中包含至少一个视频帧，每个视频帧对应一个时刻，服务器通过视频分类预测模型获取待处理视频所对应的视觉信号特征序列，再通过视频分类预测模型获取视觉信号特征序列所对应的音频信号特征序列，然后根据视觉信号特征序列以及音频信号特征序列，生成目标信号特征序列，最后服务器通过视频分类预测模型获取目标信号特征序列所对应的分类预测结果，其中，分类预测结果用于预测待处理视频的视频类型。通过上述方式，在对视频进行分类的过程中，不但考虑到视觉特征在时间维度上的特征变化，而且还考虑到音频特征在时间维度上的特征变化，从而能够更好地表达视频内容，提高视频分类的准确率，提升视频分类的效果。

附图说明

图1为本发明实施例中视频分类系统的一个架构示意图；

图2为本发明实施例中视频分类预测模型的一个结构示意图；

图3为本发明实施例中视频分类的方法一个实施例示意图；

图4为本发明实施例中待处理视频的一个示意图；

图5为本发明实施例中服务器的一个实施例示意图；

图6为本发明实施例中服务器的一个结构示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本发明主要用于提供视频内容分类服务，在服务器对视频进行特征提取，首先获取视频中的视觉信号特征序列，然后利用视觉信号特征序列生成音频信号特征序列，最后综合视觉信号特征序列和音频信号特征序列得到目标信号特征序列，根据目标信号特征序列对视频进行分类，从而实现在服务器对视频进行自动化分类与标签。需要说明的是，本发明还可以部署在视频类网站，为视频类网站中视频添加关键字词，还可以用于快速搜索与匹配内容，此外，还可以用于视频个性化推荐等。

本发明提出了一种视频分类的方法，该方法应用于图1所示的视频分类系统，请参阅图1，图1为本发明实施例中视频分类系统的一个架构示意图，如图所示，服务器获取需要分类的视频，这些视频可以是用户提供客户端上传的视频，也可以是服务器内存提前存储的视频。服务器采用本发明所提供的方案，对这些(一个或多个)视频进行分类，并得到分类结果，服务器可以向客户端下发各个视频的分类结果。需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机以及个人电脑(personal computer，PC)，此处不做限定。

为了便于理解，请参阅图2，图2为本发明实施例中视频分类预测模型的一个结构示意图，如图所示，首先服务器获取待处理视频，从图2可以看出，待处理视频包含了多个视频帧，而且每个视频帧对应一个时间特征，不同的时间特征可以用t来表示。然后，服务器采用视频分类预测模型中的第一子模型对待处理视频中的每个视频帧进行处理，得到每个视频帧所对应的视觉信号特征。接下来，服务器采用视频分类预测模型中的第二子模型，对待处理视频中每个视频帧所对应的视觉信号特征进行处理，从而预测得到视觉信号特征对应的音频信号特征。结合视觉信号特征和音频信号特征得到目标信号特征，最后，服务器将目标信号特征输入至视频分类预测模型中的第三子模型中，并得到预测结果，根据这些预测结果可以确定待处理视频的类别，以此来对待处理视频进行分类。

在常见的视频数据中，用户常常会对视频信息进行描述、评论以及提供个性化的标签数据，因而形成与在线视频相关的丰富的文本信息。这些文本信息也可以作为视频分类的依据。

下面将从服务器的角度，对本发明中视频分类的方法进行介绍，请参阅图3，本发明实施例中视频分类的方法一个实施例包括：

101、获取待处理视频，其中，待处理视频中包含至少一个视频帧，每个视频帧对应一个时刻；

本实施例中，服务器先要获取待处理视频，具体地，请参阅图4，图4为本发明实施例中待处理视频的一个示意图，待处理视频包含了多个视频帧，如图4中每张图即为一个视频帧，每个视频帧会对应一个时间特征。其中，由于待处理视频具有一段播放时间，因此每一帧视频帧都具有不同的播放时刻，假设待处理视频中第一个视频帧的时间特征为“1”，那么第二个视频帧的时间特征为“2”，以此类推，第T个视频帧的时间特征为“T”。

102、通过视频分类预测模型获取待处理视频所对应的视觉信号特征序列，其中，视觉信号特征序列包括至少一个视觉信号特征，每个视觉信号特征对应一个时刻；

本实施例中，对于长度为T秒的待处理视频，将该待处理视频输入至视频分类预测模型，由视频分类预测模型输出待处理视频所对应的视觉信号特征序列，其中，该视觉信号特征序列包括至少一个视觉信号特征，每个视觉信号特征对应一个时刻，即视觉信号特征序列可以记为x，或者记为x_t，且t∈[1,T]。

103、通过视频分类预测模型获取视觉信号特征序列所对应的音频信号特征序列，其中，音频信号特征序列包括至少一个音频信号特征，每个音频信号特征对应一个时刻；

本实施例中，对于长度为T秒的视觉信号特征序列，将该视觉信号特征序列输入至视频分类预测模型，由视频分类预测模型输出视觉信号特征序列所对应的音频信号特征序列，其中，该音频信号特征序列包括至少一个音频信号特征，每个音频信号特征对应一个时刻，即音频信号特征序列可以m，或者记为m_t，且t∈[1,T]。

104、根据视觉信号特征序列以及音频信号特征序列，生成目标信号特征序列；

本实施例中，对于长度为T秒的视觉信号特征序列和长度为T秒的音频信号特征序列，将视觉信号特征序列以及音频信号特征序列共同输入至视频分类预测模型，由视频分类预测模型输出视觉信号特征序列以及音频信号特征序列所对应的目标信号特征序列，其中，该目标信号特征序列包括至少一个目标信号特征，每个目标信号特征对应一个时刻，即目标信号特征序列可以记为v，或者记为v_t，且t∈[1,T]。

105、通过视频分类预测模型获取目标信号特征序列所对应的分类预测结果，其中，分类预测结果用于预测待处理视频的视频类型。

本实施例中，服务器基于目标信号特征序列进行建模，得到待处理视频的表示，进而将目标信号特征序列输入至视频分类预测模型，由视频分类预测模型输出目标信号特征序列所对应的分类预测结果，利用分类预测结果预测待处理视频的视频类型。

具体地，假设分类预测结果最多有5个，以长度为5的“0”和“1”编码来表示预测结果，比如说预测结果为1的编码为00001，预测结果为3的编码为00100，以此类推，如果一个待处理视频同时包含预测结果1和预测结果3，那么该待处理视频表示为00101。

但是对于整个待处理视频而言，我们得到的是对于每个视频帧所对应的分类预测结果，因此，每个分类预测结果不大于1，分类预测结果可以代表待处理视频属于这个类别的可能性。比如{0.01,0.02,0.9,0.005,1.0}是一个合理的分类预测结果，意思是该待处理视频属于第一个类别的概率为1.0即100％，属于第二个类别的概率为0.005即0.5％，属于第三个类别的概率为0.9即90％，属于第四个类别的概率为0.02即2％，属于第五个类别的概率为0.01即1％。

此时，利用预先设置的权重值对预测结果进行计算，计算可以采用加权算法，每个权重值是通过线性回归学习到的，是一个数值，代表着每个视频帧特征序列的重要性，且权重值之和为1，比如{0.1,0.4,0.5}。下面将具体说明如何计算得到待处理视频的类别。

若权重值为{0.2,0.3,0.5}，1号视频帧的预测结果为{0.01,0.02,0.9,0.005,1.0}，2号视频帧的预测结果为{0.02,0.01,0.9,0.000 0.9}，3号视频帧的预测结果为{0.2,0.3,0.8,0.01 0.7}，则待处理视频的类别表示为：

0.2×0.01+0.3×0.02+0.5×0.2,0.2×0.02+0.3×0.01+0.5×0.3,0.2×0.9+0.3×0.9+0.5×0.8,0.2×0.005+0.3×0.000+0.5×0.01,0.2×1.0+0.3×0.9+0.5×0.7

＝{0.108,0.157,0.85,0.0075,0.82}；

从上式的结果可以看出，待处理视频属于第三个类别的概率最大，其次是第一个类别，因此，因此，可以将待处理视频优先显示在第三个类别的视频列表中。

可以理解的是，待处理视频的类别可以有“体育”、“新闻”、“音乐”“动漫”和“游戏”等，此处不做限定。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的视频分类的方法第一个可选实施例中，通过视频分类预测模型获取待处理视频所对应的视觉信号特征序列，可以包括：

通过视频分类预测模型中的第一子模型，获取待处理视频中每个视频帧的视觉信号特征，其中，第一子模型包括卷积神经网络CNN模型；

根据每个视频帧的视觉信号特征，生成待处理视频所对应的视觉信号特征序列。

本实施例中，服务器在获取待处理视频之后，将待处理视频中每个视频帧输入至视频分类预测模型的第一子模型中，然后由该第一子模型输出每个视频帧所对应的视觉信号特征，这些视觉信号特征用于构成视觉信号特征序列。

需要说明的是，第一子模型可以是具有意念(inception)结构的卷积神经网络(convolutional neural network，CNN)模型，该第一子模型对待处理视频中的每个视频帧进行处理，然后提取每个视频帧所对应的图像特征，该图像特征即为视觉信号特征，其中，视觉信号特征的维度可以为1024。服务器根据每个视频帧的视觉信号特征，生成待处理视频的视觉信号特征序列。假设待处理视频的第一个视频帧为1，第二个视频帧为2，以此类推，最后一个视频帧为T，那么可以确定待处理视频的时间特征序列为T(秒)。

其中，inception结构包含了3个不同尺寸的卷积，即1×1卷积层、3×3卷积层、5×5卷积层以及3×3最大池化层，去除了最后的全连接层，而使用全局平均池化层(将图片尺寸变为1×1)取代全连接层。

要想增强网络能力，可以增加网络深度，增加网络宽度。但是为了减少过拟合，也要减少自由参数。因此，在inception结构的同一层里中，有卷积1×1卷积层、3×3卷积层和5×5卷积层三个不同的卷积模板，他们可以在不同尺寸下做特征提取，也是一种混合模型。因为最大池化层本身也有特征提取的作用，而且和卷积不同，没有参数不会过拟合，也作为一个分支。但是直接这样做，整个网络计算量会较大，且层次并没有变深，因此，在3×3卷积和5×5卷积前面先做1×1的卷积，降低输入的通道的数量，这样既使得网络变深，同时计算量反而小了。

其次，本发明实施例中，服务器通过视频分类预测模型中的第一子模型，获取待处理视频中每个视频帧的视觉信号特征，其中，第一子模型可以为CNN模型，根据每个视频帧的视觉信号特征，生成待处理视频所对应的视觉信号特征序列。通过上述方式，利用CNN对每个视频帧进行训练和处理，有利于提升视觉信号特征提取的准确性，并且增加方案的可行性和可操作性。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的视频分类的方法第二个可选实施例中，通过视频分类预测模型获取视觉信号特征序列所对应的音频信号特征序列，可以包括：

通过视频分类预测模型中的第二子模型，获取视觉信号特征序列中每个视觉信号特征的音频信号特征，其中，第二子模型包括基于递归门单元GRU的递归神经模型；

根据每个视觉信号特征的音频信号特征，生成视觉信号特征序列所对应的音频信号特征序列。

本实施例中，服务器在获取视觉信号特征序列之后，将视觉信号特征序列中每个视觉信号特征输入至视频分类预测模型的第二子模型中，然后由该第二子模型输出每个视觉信号特征所对应的音频信号特征，这些音频信号特征用于构成音频信号特征序列。

递归门单元(gated recurrent unit，GRU)具有与长短期记忆网络(long short-term memory，LSTM)类似的结构，但是更为简化。GRU与LSTM相比门数不同，GRU只有两个门，即重置(reset)门和更新(update)门，在GRU中，reset门和update门共同控制了如何从之前的隐藏状态计算获得新的隐藏状态，而取消了LSTM中的输出(output)门。GRU具有较少的参数，所以训练速度快，而且所需要的样本也比较少。而LSTM具有较多的参数，比较适合具有大量样本的情况，可能会获得较优的模型。

其次，本发明实施例中，服务器通过视频分类预测模型中的第二子模型，获取视觉信号特征序列中每个视觉信号特征的音频信号特征，其中，第二子模型包括基于GRU的递归神经模型，然后根据每个视觉信号特征的音频信号特征，生成视觉信号特征序列所对应的音频信号特征序列。通过上述方式，利用GRU对每个视觉信号特征进行训练和处理，有利于提升视觉信号特征提取的准确性，并且增加方案的可行性和可操作性。

可选地，在上述图3对应的第二个实施例的基础上，本发明实施例提供的视频分类的方法第三个可选实施例中，通过视频分类预测模型中的第二子模型，获取视觉信号特征序列中每个视觉信号特征的音频信号特征，可以包括：

获取第一时刻的视觉信号特征以及第二时刻的视觉信号隐状态特征，其中，第二时刻为第一时刻的前一个相邻的时刻；

通过第二子模型获取第一时刻的视觉信号隐状态特征，其中，第一时刻的视觉信号隐状态特征与第一时刻的视觉信号特征具有对应关系，且第一时刻的视觉信号隐状态特征与第二时刻的视觉信号隐状态特征具有对应关系；

获取第二时刻的音频信号隐状态特征；

通过第二子模型获取第一时刻的音频信号隐状态特征，其中，第一时刻的音频信号隐状态特征与第二时刻的音频信号隐状态特征具有对应关系，且第一时刻的音频信号隐状态特征与第一时刻的视觉信号隐状态特征具有对应关系；

根据第一时刻的音频信号隐状态特征，生成第一时刻的音频信号特征。

本实施例中，第二子模型可以包括两个GRU，由一个GRU叠(stack)在另一个GRU上面，也就是说，一个GRU输出的音频信号隐状态特征作为另一个GRU的输入，最后通过后一个GRU输出音频信号隐状态特征。

具体地，下面将以整个视觉信号特征序列中某一个时刻的视觉信号特征为例进行说明，可以理解的是，该视觉信号特征序列中的其他视觉信号特征也采用相似的处理方式。服务器获取第一时刻的视觉信号特征以及第二时刻的视觉信号隐状态特征，其中，第二时刻为第一时刻的前一个相邻的时刻，假设第一时刻是第2秒，那么第二时刻即为第1秒。本实施例中，第一时刻表示为t，第二时刻表示为t-1，视觉信号特征序列表示为x，那么第一时刻的视觉信号特征记为x_t。采用GRU递归神经网络对视频帧进行建模，可以获取到第二时刻的视觉信号隐状态特征，视觉信号隐状态特征序列表示为h，那么第二时刻的视觉信号隐状态特征记为h_t-1。将第一时刻的视觉信号特征x_t与第二时刻的视觉信号隐状态特征h_t-1输入至第二子模型中的第一个GRU，由第一个GRU输出第一时刻的视觉信号隐状态特征h_t。

接下来，获取第二时刻的音频信号隐状态特征，其中，音频信号隐状态特征序列表示为y，那么第二时刻的音频信号隐状态特征记为y_t-1。将第二时刻的音频信号隐状态特征y_t-1与第一时刻的视觉信号隐状态特征h_t输入至第二子模型中的第二个GRU，由第二个GRU输出第一时刻的音频信号隐状态特征y_t。

由于第一时刻的音频信号隐状态特征y_t是递归神经网络的隐状态特征表示，因此，还需要将其映射为一个新的向量，该向量表示第一时刻的音频信号特征m_t。

再次，本发明实施例中，介绍了服务器通过视频分类预测模型中的第二子模型，获取视觉信号特征序列中每个视觉信号特征的音频信号特征的方式，即服务器获取第一时刻的视觉信号特征以及第二时刻的视觉信号隐状态特征，然后通过第二子模型获取第一时刻的视觉信号隐状态特征，接着，该服务器获取第二时刻的音频信号隐状态特征，再通过第二子模型获取第一时刻的音频信号隐状态特征，最后根据第一时刻的音频信号隐状态特征，生成第一时刻的音频信号特征。通过上述方式，采用GRU模型可以采用较少的参数，因此，训练速度快，而且所需要的样本也比较少，从而提升分类的效率。

可选地，在上述图3对应的第三个实施例的基础上，本发明实施例提供的视频分类的方法第四个可选实施例中，通过第二子模型获取第一时刻的视觉信号隐状态特征，可以包括：

采用如下方式计算第一时刻的视觉信号隐状态特征：

h_t＝GRU(x_t,h_t-1) for t∈[1,T]；

其中，h_t表示第一时刻的视觉信号隐状态特征，GRU()表示递归门单元函数，x_t表示第一时刻的视觉信号特征，h_t-1表示第二时刻的音频信号隐状态特征，t表示第一时刻，T表示待处理视频的总时刻数。

本实施例中，采用如下公式计算视觉信号隐状态特征：

h_t＝GRU(x_t,h_t-1) for t∈[1,T]；

递归门单元函数输入的是第一时刻的视觉信号特征x_t和第二时刻的音频信号隐状态特征h_t-1，输出第一时刻的视觉信号隐状态特征h_t。

具体地，递归门单元函数的计算方式为：

h_t＝z_tοh_t-1+(1-z_t)οσ_h(W_tx_t+U_h(r_tοh_t-1)+b_h)；

z_t＝σ_g(W_zx_t+U_zh_t-1+b_z)；

r_t＝σ_g(W_rx_t+U_rh_t-1+b_r)；

其中，W和U均为线性变换参数矩阵，b为偏置参数向量，σ_h表示反正切函数，σ_g表示sigmoid函数。

进一步地，本发明实施例中，提供了计算视觉信号隐状态特征的具体方式，即通过GRU对视频帧建模，从而生成视觉信号隐状态特征序列。通过上述方式，为方案的实现提供了具体计算模式，从而提升方案的可行性和可操作性。

可选地，在上述图3对应的第三个实施例的基础上，本发明实施例提供的视频分类的方法第五个可选实施例中，通过第二子模型获取第一时刻的音频信号隐状态特征，可以包括：

采用如下方式计算第一时刻的音频信号隐状态特征：

y_t＝GRU(h_t,y_t-1) for t∈[1,T]；

其中，y_t表示第一时刻的音频信号隐状态特征，GRU()表示递归门单元函数，h_t表示第一时刻的视觉信号隐状态特征，y_t-1表示第二时刻的音频信号隐状态特征，t表示第一时刻，T表示待处理视频的总时刻数。

本实施例中，采用如下公式计算音频信号隐状态特征：

y_t＝GRU(h_t,y_t-1) for t∈[1,T]；

递归门单元函数输入的是第一时刻的视觉信号隐状态特征h_t和第二时刻的音频信号隐状态特征y_t-1，输出第一时刻的音频信号隐状态特征y_t。

具体地，递归门单元函数的计算方式为：

y_t＝z_tοy_t-1+(1-z_t)οσ_h(W_th_t+U_h(r_tοy_t-1)+b_h)；

z_t＝σ_g(W_zh_t+U_zy_t-1+b_z)；

r_t＝σ_g(W_rh_t+U_ry_t-1+b_r)；

进一步地，本发明实施例中，提供了计算音频信号隐状态特征的具体方式，即通过GRU对视觉信号隐状态特征建模，从而生成音频信号隐状态特征序列。通过上述方式，为方案的实现提供了具体计算模式，从而提升方案的可行性和可操作性。

可选地，在上述图3对应的第三个实施例的基础上，本发明实施例提供的视频分类的方法第六个可选实施例中，根据第一时刻的音频信号隐状态特征，生成第一时刻的音频信号特征，可以包括：

采用如下方式计算第一时刻的音频信号特征：

m_t＝FC(y_t) for t∈[1,T]；

其中，m_t表示第一时刻的音频信号特征，y_t表示第一时刻的音频信号隐状态特征，FC()表示全连接网络函数，t表示第一时刻，T表示待处理视频的总时刻数。

本实施例中，使用一个全连接网络(fully connected layers，FC)，将音频信号隐状态特征映射为一个新的向量，该向量用于表示对应的音频信号特征。

即采用如下公式计算音频信号特征：

m_t＝FC(y_t) for t∈[1,T]；

FC函数输入的是第一时刻的音频信号隐状态特征y_t，输出第一时刻的音频信号特征m_t。FC层在起到的作用将学到的“分布式特征表示”映射到样本标记空间。在实际使用中，FC层可由卷积操作实现，即对前层是全连接的FC层可以转化为卷积核为1×1的卷积，而前层是卷积层的FC层可以转化为卷积核为h×w的全局卷积，其中，h和w分别为前层卷积结果的高和宽。

进一步地，本发明实施例中，提供了计算音频信号特征的具体方式，即通过FC层对音频信号隐状态特征建模，从而生成音频信号特征序列。通过上述方式，为方案的实现提供了具体计算模式，从而提升方案的可行性和可操作性。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的视频分类的方法第七个可选实施例中，通过视频分类预测模型获取目标信号特征序列所对应的分类预测结果，可以包括：

通过视频分类预测模型中的第三子模型，获取目标信号特征序列中每个目标信号特征的视音信号特征，其中，第三子模型包括基于递归门单元GRU的递归神经模型；

根据每个目标信号特征的视音信号特征，生成目标信号特征序列所对应的视音信号特征序列；

根据视音信号特征序列确定分类预测结果。

本实施例中，服务器在获取目标信号特征之后，将目标信号特征序列中每个目标信号特征输入至视频分类预测模型的第三子模型中，然后由该第三子模型输出每个目标信号特征所对应的视音信号特征，这些视音信号特征用于构成视音信号特征序列。使用第三子模型输出的视音信号特征序列作为整个待处理视频的表示，基于学习得到的待处理视频的表示，我们可以使用不同的分类器对该待处理视频进行分类，最后得到分类预测结果。

在机器学习中，分类器作用是在标记好类别的训练数据基础上判断一个新的观察样本所属的类别。分类器依据学习的方式可以分为非监督学习和监督学习。非监督学习指的是给予分类器学习的样本，但没有相对应类别标签，主要是寻找未标记数据中的隐藏结构。监督学习通过标记的训练数据推断出分类函数，分类函数可以用来将新样本映射到对应的标签。在监督学习方式中，每个训练样本包括训练样本的特征和相对应的标签。监督学习的流程包括确定训练样本的类型、收集训练样本集、确定学习函数的输入特征表示、确定学习函数的结构和对应的学习算法、完成整个训练模块设计以及评估分类器的正确率。

其次，本发明实施例中，服务器通过视频分类预测模型中的第三子模型，获取目标信号特征序列中每个目标信号特征的视音信号特征，然后服务器根据每个目标信号特征的视音信号特征，生成目标信号特征序列所对应的视音信号特征序列，最后根据视音信号特征序列确定分类预测结果。其中，第三子模型可以为基于GRU的递归神经模型。通过上述方式，利用GRU对每个视觉信号特征进行训练和处理，有利于提升视觉信号特征提取的准确性，并且增加方案的可行性和可操作性。

可选地，在上述图3对应的第七个实施例的基础上，本发明实施例提供的视频分类的方法第八个可选实施例中，通过视频分类预测模型中的第三子模型，获取目标信号特征序列中每个目标信号特征的视音信号特征，可以包括：

获取第一时刻的目标信号特征以及第二时刻的视音信号特征，其中，第二时刻为第一时刻的前一个相邻的时刻；

通过第三子模型获取第一时刻的视音信号特征，其中，第一时刻的视音信号特征与第一时刻的目标信号特征具有对应关系，第一时刻的视音信号特征与第二时刻的视音信号特征具有对应关系。

本实施例中，第三子模型可以包括一个GRU，将当前时刻的目标信号特征和前一时刻的视音信号特征输入至GRU，再由该GRU输出当前时刻的视音信号特征。

具体地，下面将以整个目标信号特征序列中某一个时刻的目标信号特征为例进行说明，可以理解的是，该目标信号特征序列中的其他目标信号特征也采用相似的处理方式。服务器获取第一时刻的目标信号特征以及第二时刻的视音信号特征，其中，第二时刻为第一时刻的前一个相邻的时刻，假设第一时刻是第2秒，那么第二时刻即为第1秒。本实施例中，第一时刻表示为t，第二时刻表示为t-1，目标信号特征序列表示为v，那么第一时刻的目标信号特征记为v_t。采用GRU递归神经网络对目标信号特征进行建模，可以获取到第二时刻的视觉信号隐状态特征，视音信号特征序列表示为H，那么第二时刻的视音信号特征记为H_t-1。于是，将第一时刻的目标信号特征v_t与第二时刻的视音信号特征H_t-1输入至第三子模型中的GRU，由此输出第一时刻的视音信号特征H_t。

再次，本发明实施例中，服务器可以获取第一时刻的目标信号特征以及第二时刻的视音信号特征，然后通过第三子模型获取第一时刻的视音信号特征，其中，第一时刻的视音信号特征与第一时刻的目标信号特征具有对应关系，第一时刻的视音信号特征与第二时刻的视音信号特征具有对应关系。通过上述方式，利用GRU对每个视音信号特征进行训练和处理，有利于提升视音信号特征提取的准确性，并且增加方案的可行性和可操作性。

可选地，在上述图3对应的第八个实施例的基础上，本发明实施例提供的视频分类的方法第九个可选实施例中，通过第三子模型获取第一时刻的视音信号特征，可以包括：

采用如下方式计算第一时刻的视音信号特征：

H_t＝GRU(v_t,H_t-1) for t∈[1,T]；

v_t＝[h_t；m_t]；

其中，H_t表示第一时刻的视音信号特征，GRU()表示递归门单元函数，H_t-1表示第二时刻的视音信号特征，v_t表示第一时刻的目标信号特征，h_t表示第一时刻的视觉信号隐状态特征，m_t表示第一时刻的音频信号特征。

本实施例中，目标信号特征是音频信号特征和视觉信号隐状态特征的结合，第一时刻的视觉信号隐状态特征表示为h_t，第一时刻的音频信号特征表示为m_t，因此，第一时刻的目标信号特征表示为v_t＝[h_t；m_t]。

采用如下公式计算视音信号特征：

H_t＝GRU(v_t,H_t-1) for t∈[1,T]；

递归门单元函数输入的是第一时刻的目标信号特征v_t和第二时刻的视音信号特征H_t-1，输出第一时刻的视音信号特征H_t。

具体地，递归门单元函数的计算方式为：

H_t＝z_tοH_t-1+(1-z_t)οσ_h(W_tv_t+U_h(r_tοH_t-1)+b_h)；

z_t＝σ_g(W_zv_t+U_zH_t-1+b_z)；

r_t＝σ_g(W_rv_t+U_rH_t-1+b_r)；

进一步地，本发明实施例中，提供了计算视音信号特征的具体方式，即获取目标信号特征，该目标信号特征结合了已经生成的视觉信号隐状态特征以及音频信号特征，通过GRU对目标信号特征建模，从而生成视音信号特征。通过上述方式，为方案的实现提供了具体计算模式，从而提升方案的可行性和可操作性。

可选地，在上述图3对应的第七个实施例的基础上，本发明实施例提供的视频分类的方法第十个可选实施例中，根据视音信号特征序列确定分类预测结果，可以包括：

采用如下方式计算分类预测结果：

g_n＝σ_g(W_gH_T+b_g),n∈[1,N]；

a_n＝σ_a(W_aH_T+b_a),n∈[1,N]；

其中，lable表示分类预测结果，g_n表示门表达函数，a_n表示激活表达函数，W_g表示第一线性变换参数矩阵，W_a表示第二线性变换参数矩阵，b_g表示第一偏置参数向量，b_a表示第二偏置参数向量，H_T表示视音信号特征序列，σ_g表示softmax函数，σ_a表示sigmoid函数，N表示经过非线性变换后得到的总路数，n表示经过非线性变换后得到的第n路。

本实施例中，具体介绍了如何采用相应的公式计算得到视音信号特征序列所对应的分类预测结果。首先，将视音信号特征序列表达进行非线性变换，得到的N路门表达(gaterepresentation)和N路激活表达(activation representation)，再将这两路表达进行行乘积操作，然后进行相加操作，最后得到一个分类预测结果。

具体数学表达式为：

g_n＝σ_g(W_gH_T+b_g),n∈[1,N]；

a_n＝σ_a(W_aH_T+b_a),n∈[1,N]；

对应的分类网络表达式为：

其中，得到的g_n和a_n是一个向量，lable一般是一个概率函数，也可以表现为向量，每个向量对应相应类别的概率信息。

基于学习得到的分类预测结果，我们可以使用不同的分类器对待处理视频进行分类。对于分类器的选择有很多的选择，譬如混合专家模型或者支持向量机(Support VectorMachine，SVM)模型等。

再次，本发明实施例中，介绍了获取分类预测结果的具体方式，即采用激活表达函数和门表达函数共同计算得到分类预测结果。通过上述方式，可以利用相关公式计算得到分类预测结果，为方案的实现提供了可行的方式，从而可以提升方案的可行性和可操作性。

下面对本发明中的服务器进行详细描述，请参阅图5，图5为本发明实施例中服务器一个实施例示意图，服务器20包括：

获取模块201，用于获取待处理视频，其中，所述待处理视频中包含至少一个视频帧，每个视频帧对应一个时刻；

所述获取模块201，还用于通过视频分类预测模型获取所述待处理视频所对应的视觉信号特征序列，其中，所述视觉信号特征序列包括至少一个视觉信号特征，每个视觉信号特征对应一个时刻；

所述获取模块201，还用于通过所述视频分类预测模型获取所述视觉信号特征序列所对应的音频信号特征序列，其中，所述音频信号特征序列包括至少一个音频信号特征，每个音频信号特征对应一个时刻；

生成模块202，用于根据所述获取模块201获取的所述视觉信号特征序列以及所述音频信号特征序列，生成目标信号特征序列；

所述获取模块201，还用于通过所述视频分类预测模型获取所述生成模块生成的所述目标信号特征序列所对应的分类预测结果，其中，所述分类预测结果用于预测所述待处理视频的视频类型。

本实施例中，获取模块201获取待处理视频，其中，所述待处理视频中包含至少一个视频帧，每个视频帧对应一个时刻，所述获取模块201通过视频分类预测模型获取所述待处理视频所对应的视觉信号特征序列，其中，所述视觉信号特征序列包括至少一个视觉信号特征，每个视觉信号特征对应一个时刻，所述获取模块201通过所述视频分类预测模型获取所述视觉信号特征序列所对应的音频信号特征序列，其中，所述音频信号特征序列包括至少一个音频信号特征，每个音频信号特征对应一个时刻，生成模块202根据所述获取模块201获取的所述视觉信号特征序列以及所述音频信号特征序列，生成目标信号特征序列，所述获取模块201通过所述视频分类预测模型获取所述生成模块生成的所述目标信号特征序列所对应的分类预测结果，其中，所述分类预测结果用于预测所述待处理视频的视频类型。

本发明实施例中，提供了一种服务器，首先服务器获取待处理视频，待处理视频中包含至少一个视频帧，每个视频帧对应一个时刻，服务器通过视频分类预测模型获取待处理视频所对应的视觉信号特征序列，再通过视频分类预测模型获取视觉信号特征序列所对应的音频信号特征序列，然后根据视觉信号特征序列以及音频信号特征序列，生成目标信号特征序列，最后服务器通过视频分类预测模型获取目标信号特征序列所对应的分类预测结果，其中，分类预测结果用于预测待处理视频的视频类型。通过上述方式，在对视频进行分类的过程中，不但考虑到视觉特征在时间维度上的特征变化，而且还考虑到音频特征在时间维度上的特征变化，从而能够更好地表达视频内容，提高视频分类的准确率，提升视频分类的效果。

可选地，在上述图5所对应的实施例的基础上，请参阅图5，本发明实施例提供的服务器20的另一实施例中，

所述获取模块201，具体用于通过所述视频分类预测模型中的第一子模型，获取所述待处理视频中每个视频帧的视觉信号特征，其中，所述第一子模型包括卷积神经网络CNN模型；

所述获取模块201，具体用于通过所述视频分类预测模型中的第二子模型，获取所述视觉信号特征序列中每个视觉信号特征的音频信号特征，其中，所述第二子模型包括基于递归门单元GRU的递归神经模型；

所述获取模块201，具体用于获取第一时刻的视觉信号特征以及第二时刻的视觉信号隐状态特征，其中，所述第二时刻为所述第一时刻的前一个相邻的时刻；

获取所述第二时刻的音频信号隐状态特征；

所述获取模块201，具体用于采用如下方式计算所述第一时刻的视觉信号隐状态特征：

h_t＝GRU(x_t,h_t-1) for t∈[1,T]；

所述获取模块201，具体用于采用如下方式计算所述第一时刻的音频信号隐状态特征：

y_t＝GRU(h_t,y_t-1) for t∈[1,T]；

所述获取模块201，具体用于采用如下方式计算所述第一时刻的音频信号特征：

m_t＝FC(y_t) for t∈[1,T]；

所述获取模块201，具体用于通过所述视频分类预测模型中的第三子模型，获取所述目标信号特征序列中每个目标信号特征的视音信号特征，其中，所述第三子模型包括基于递归门单元GRU的递归神经模型；

根据所述视音信号特征序列确定所述分类预测结果。

所述获取模块201，具体用于获取所述第一时刻的目标信号特征以及所述第二时刻的视音信号特征，其中，所述第二时刻为所述第一时刻的前一个相邻的时刻；

所述获取模块201，具体用于采用如下方式计算所述第一时刻的视音信号特征：

H_t＝GRU(v_t,H_t-1) for t∈[1,T]；

v_t＝[h_t；m_t]；

所述获取模块201，具体用于采用如下方式计算所述分类预测结果：

g_n＝σ_g(W_gH_T+b_g),n∈[1,N]_；

a_n＝σ_a(W_aH_T+b_a),n∈[1,N]；

图6是本发明实施例提供的一种服务器结构示意图，该服务器300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在服务器300上执行存储介质330中的一系列指令操作。

服务器300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图6所示的服务器结构。

本发明实施例中，CPU 322用于执行如下步骤：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频分类的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过视频分类预测模型获取所述待处理视频所对应的视觉信号特征序列，包括：

通过所述视频分类预测模型中的第一子模型，获取所述待处理视频中每个视频帧的视觉信号特征，其中，所述第一子模型包括卷积神经网络CNN模型；

3.根据权利要求1所述的方法，其特征在于，所述通过所述视频分类预测模型获取所述视觉信号特征序列所对应的音频信号特征序列，包括：

通过所述视频分类预测模型中的第二子模型，获取所述视觉信号特征序列中每个视觉信号特征的音频信号特征，其中，所述第二子模型包括基于递归门单元GRU的递归神经模型；

4.根据权利要求3所述的方法，其特征在于，所述通过所述视频分类预测模型中的第二子模型，获取所述视觉信号特征序列中每个视觉信号特征的音频信号特征，包括：

获取第一时刻的视觉信号特征以及第二时刻的视觉信号隐状态特征，其中，所述第二时刻为所述第一时刻的前一个相邻的时刻；

获取所述第二时刻的音频信号隐状态特征；

5.根据权利要求4所述的方法，其特征在于，所述通过所述第二子模型获取所述第一时刻的视觉信号隐状态特征，包括：

采用如下方式计算所述第一时刻的视觉信号隐状态特征：

h_t＝GRU(x_t,h_t-1)fort∈[1,T]；

6.根据权利要求4所述的方法，其特征在于，所述通过所述第二子模型获取所述第一时刻的音频信号隐状态特征，包括：

采用如下方式计算所述第一时刻的音频信号隐状态特征：

y_t＝GRU(h_t,y_t-1)fort∈[1,T]；

7.根据权利要求4所述的方法，其特征在于，所述根据所述第一时刻的音频信号隐状态特征，生成所述第一时刻的音频信号特征，包括：

采用如下方式计算所述第一时刻的音频信号特征：

m_t＝FC(y_t)fort∈[1,T]；

8.根据权利要求1所述的方法，其特征在于，所述通过所述视频分类预测模型获取所述目标信号特征序列所对应的分类预测结果，包括：

通过所述视频分类预测模型中的第三子模型，获取所述目标信号特征序列中每个目标信号特征的视音信号特征，其中，所述第三子模型包括基于递归门单元GRU的递归神经模型；

根据所述视音信号特征序列确定所述分类预测结果。

9.根据权利要求8所述的方法，其特征在于，所述通过所述视频分类预测模型中的第三子模型，获取所述目标信号特征序列中每个目标信号特征的视音信号特征，包括：

获取所述第一时刻的目标信号特征以及所述第二时刻的视音信号特征，其中，所述第二时刻为所述第一时刻的前一个相邻的时刻；

10.根据权利要求9所述的方法，其特征在于，所述通过所述第三子模型获取所述第一时刻的视音信号特征，包括：

采用如下方式计算所述第一时刻的视音信号特征：

H_t＝GRU(v_t,H_t-1)fort∈[1,T]；

v_t＝[h_t；m_t]；

11.根据权利要求8所述的方法，其特征在于，所述根据所述视音信号特征序列确定所述分类预测结果，包括：

采用如下方式计算所述分类预测结果：

g_n＝σ_g(W_gH_T+b_g),n∈[1,N]；

a_n＝σ_a(W_aH_T+b_a),n∈[1,N]；

12.一种服务器，其特征在于，包括：

13.根据权利要求12所述的服务器。其特征在于，

14.一种服务器，其特征在于，包括：存储器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，具体包括如下步骤：

通过所述视频分类预测模型获取所述目标信号特征序列所对应的分类预测结果，其中，所述分类预测结果用于预测所述待处理视频的视频类型；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-11中任一项所述的方法。