CN109710800A - 模型生成方法、视频分类方法、装置、终端及存储介质 - Google Patents

模型生成方法、视频分类方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN109710800A
CN109710800A CN201811326723.5A CN201811326723A CN109710800A CN 109710800 A CN109710800 A CN 109710800A CN 201811326723 A CN201811326723 A CN 201811326723A CN 109710800 A CN109710800 A CN 109710800A
Authority
CN
China
Prior art keywords
vector
module
audio
image
tag along
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811326723.5A
Other languages
English (en)
Other versions
CN109710800B (zh
Inventor
梁大为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201811326723.5A priority Critical patent/CN109710800B/zh
Publication of CN109710800A publication Critical patent/CN109710800A/zh
Application granted granted Critical
Publication of CN109710800B publication Critical patent/CN109710800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明实施例提供了一种模型生成方法、视频分类方法、装置、终端及计算机可读存储介质,所述视频分类方法包括:获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征;将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成的视频分类模型进行分类,得到多个分类标签的概率预测向量;对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行排序;选取排名靠前的至少一个元素编号对应的标签,以作为所述待分类视频文件的分类标签。本发明实施例中,基于学习好的视频分类模型可以综合利用音频、图像和文本特征来识别待分类视频,扩大视频识别的标签的范围,从而提高了视频分类的准确性和整体性能。

Description

模型生成方法、视频分类方法、装置、终端及存储介质
技术领域
本发明涉及视频分类技术领域,特别是涉及一种模型生成方法、视频分 类方法、装置、终端及计算机可读存储介质。
背景技术
随着视频文件的大量增加,人们需要观看视频文件前都会按照视频文件 的类别进行初步筛选,然后从对应类别的视频文件中去选择感兴趣的视频文 件观看,这样就需要对视频文件进行有效的分类,以使视频文件在合适的类 别中呈现。
现有的视频文件分类时,需要先设置视频文件的类别标签,然后,根据 该类别标签,将其分到对应的视频类别中,但是,目前视频文件的类别标签 设置可能不准确或不全面,比如,目前对视频文件的类别标签都要满足视觉 可识别,也就是使人们仅通过观察视频内容就能识别出标签来,而对于视觉 不可识别且有用的标签却没有设置,从而导致视频文件分类不准确。
发明内容
本发明实施例所要解决的技术问题是提供一种模型生成方法和视频分 类方法,以解决现有技术中由于视频文件的类别标签设置可能不准确或不全 面,导致视频文件分类不准确的技术问题。
相应的,本发明实施例还提供了一种模型生成装置、视频分类装置、终 端及计算机可读存储介质,用以保证上述方法的实现及应用。
为了解决上述问题,本发明是通过如下技术方案实现的:
第一方面提供一种模型生成方法,包括:
获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像 聚合特征和文本特征;
将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征 进行融合,得到融合后的向量;
对所述融合后的向量进行瓶颈门控和混合专家层处理,得到多个分类标 签的概率预测向量;
将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数 进行计算,得到多个分类标签分类损失的计算结果;
根据所述计算结果,利用梯度反向传播方法对视频分类模型的参数进行 反复迭代学习,得到视频分类模型。
第二方面提供一种视频分类方法,包括:
获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征;
将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成的视频 分类模型进行分类,得到多个分类标签的概率预测向量;
对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行 排序;
选取排名靠前的至少一个元素编号对应的标签,以作为所述待分类视频 文件的分类标签。
第三方面提供一种模型生成装置,包括:
获取模块,用于获取多个待分类视频文件中每个待分类视频文件的音频 聚合特征、图像聚合特征和文本特征;
融合模块,用于将所述每个所述待分类视频文件的音频聚合特征、图像 聚合特征和文本特征进行融合,得到融合后的向量;
处理模块,用于对所述融合后的向量进行瓶颈门控和混合专家层处理, 得到多个分类标签的概率预测向量;
计算模块,用于将所述多个分类标签的概率预测向量及真值标签向量输 入到损失函数进行计算,得到多个分类标签分类损失的计算结果;
迭代学习模块,用于根据所述计算结果,利用梯度反向传播方法对视频 分类模型的参数进行反复迭代学习,得到视频分类模型。
第四方面提供一种视频分类装置,包括:
第一获取模块,用于获取待分类视频文件的音频聚合特征、图像聚合特 征和文本特征;
分类模块,用于将所述音频聚合特征、图像聚合特征和文本特征输入到 预先生成的视频分类模型进行分类,得到多个分类标签的概率预测向量;
排序模块,用于对所述多个分类标签的概率预测向量中的每个元素按照 从高到低进行排序;
选取模块,用于选取排名靠前的至少一个元素编号对应的标签,以作为 所述待分类视频文件的分类标签。
第五方面提供一种终端,包括:存储器、处理器及存储在所述存储器上 并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行 时实现如上述的模型生成方法的步骤,或者如上述的视频分类方法的步骤。
第六方面提供一种计算机可读存储介质,所述计算机可读存储介质上存 储有计算机程序,所述计算机程序被处理器执行时实现如上述的模型生成方 法中的步骤,或者如上述的视频分类方法的步骤。
与现有技术相比,本发明实施例包括以下优点:
本发明实施例中,对确定的多个待分类视频文件中每个待分类视频文件 的音频聚合特征、图像聚合特征和文本特征融合成一个向量,再后,对该融 合后的向量进行瓶颈门控以及混合专家层处理,得到多个分类标签的概率预 测向量;以及将所述多个分类标签的概率预测向量及真值标签向量输入到损 失函数进行计算,得到多个分类标签分类损失的计算结果,最后,根据所述 计算结果,利用梯度反向传播方法对视频分类模型的参数进行反复迭代学 习,得到视频分类模型。也就是说,本发明实施例中,采用上述过程对视频分类模型的参数进行学习,基于学习好的视频分类模型可以综合利用音频、 图像和文本特征来识别待分类视频,扩大视频识别的标签的范围,从而提高 了视频分类的准确性和整体性能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性 的,并不能限制本申请。
附图说明
图1是本发明实施例提供的一种模型生成方法的流程图;
图2是本发明实施例中提供的一种向量通过第一瓶颈门控处理的示意 图;
图3是本发明实施例提供的一种视频分类方法的流程图;
图4是本发明实施例提供的一种视频分类方法的另一流程图
图5是本发明实施例提供的一种应用实例的示意图;
图6是本发明实施例提供的一种模型生成装置的结构示意图;
图7是本发明实施例提供的第一瓶颈门控处理模块的结构示意图;
图8是本发明实施例提供的一种混合专家层处理模块的结构示意图
图9是本发明实施例提供的一种视频分类装置的结构示意图;
图10是本发明实施例提供的一种视频分类装置的另一结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图 和具体实施方式对本发明作进一步详细的说明。
请参阅图1,为本发明实施例提供的一种模型生成方法的流程图,具体 可以包括如下步骤:
步骤101:获取多个待分类视频文件中每个待分类视频文件的音频聚合 特征、图像聚合特征和文本特征;
其中,具体的获取过程包括:
1)对多个待分类视频文件中的每个待分类视频文件分别进行采样,得 到每个待分类视频文件的多个音频片段和多张图像;
该步骤中,对每个待分类视频文件的音频和图像的采用过程类似,其不 同之处,在于输入的神经网络不同,图像输入的是二维或三维的卷积神经网 络;而音频输入的是音频卷积神经网络。
其中,对图像的采样以每间隔1秒采样一张图像,累计采样300张图像 为例,然后,对每一张图像提取inception v3的最后一个隐层的输出作为该 图像的图像原始特征;其中,采取的每个待分类视频中的图像是通过二维或 三维的卷积神经网络(CNN,Convolutional Neural Networks)来执行的,二 维是针对单张图像的,三维是针对一定长度的图像序列的。
而卷积神经网络的输入通常具有固定的大小,比如224×224,那么对于 输入卷积神经网络的一张图像,可以将其保持纵横比并将最小边长缩放到 256,然后,随机截取该图像的224×224的图像块作为卷积神经网络的输入, 并进行前馈操作(其前馈操作主要包括若干个卷积层和池化层,卷积层用来 提取图像的特征,池化层用来降低图像的分辨率),然后,取出最后一个隐 藏层,也就是分类器层紧邻的前一层作为输出。
同理,对音频的采样也是以间隔1秒进行采样一个音频片段,累计采样 了300个音频片段为例,然后,将每个音频片段输入音频CNN,同样取最 后一个隐层的输出作为多个音频片段的音频原始特征。对于输入音频CNN 的一个音频,可以将其进行短时傅里叶变换转换成频谱图,然后对于该频谱 图保持纵横比并将最小边长缩放到256,然后,随机截取该频谱图的224× 224的频谱图块作为音频CNN的输入,并进行前馈操作(其中,前馈操作 主要包括若干个卷积层和池化层,卷积层用来提取频谱图的特征,池化层用 来降低频谱图的分辨率),然后,取出最后一个隐藏层,也就是分类器层紧 邻的前一层作为输出。
2)提取所述多个音频片段中每个音频片段的音频原始特征,并将多个 音频原始特征聚合成一个音频聚合特征;
其中,该步骤中,提取每个音频片段的音频原始特征的过程,对于本领 域技术人员来说已是熟知技术,在此不再赘述。
其一种聚合的方式:可以采用基于注意力的聚合方法(也可以称为注意 力池化操作)将多个音频原始特征聚合成一个音频聚合特征。其中,
注意力池化的输入是向量(比如图像向量或者音频向量等)的序列,也 就是矩阵,输出是向量。首先,先初始化由注意力向量构成的注意力矩阵, 其中,注意力向量指的是和输入列矩阵的列向量维度一样的向量(注意力向 量的个数是个可选的超参数,一般设置为64,128或256;而随机初始化和 神经网络的其他参数的初始化方法和目的是一样的,随机初始化是给每一个 参数一个随机的绝对值小于1的值,然后通过随机梯度下降算法来对这些参 数进行动态更新。即神经网络训练的目的),大小为KxD,然后将该矩阵乘 以输入矩阵DxN得到一个输出矩阵KxN;然后,对该输出矩阵进行层归一 化操作,其目的是为了加速训练的收敛,最后,逐行地进行软最大化(softmax) 操作,其中,softmax操作,比如:softmax(x1,x2,x3)=(ex1/(ex1+ex2+ex3),ex2/(ex1+ ex2+ex3),ex3/(ex1+ex2+ex3)),并对softmax的输出进行应用dropout,dropout 操作的目的是抵抗神经网络过拟合的风险,比如,以0.5概率将输入的值置 成0,也就是说有一半的元素值进行了修改变成了0,再后,进行矩阵乘法 操作得到输出矩阵K×D。其中,K×D矩阵逐行进行L2范数归一化操作, 所谓逐行就是把每行看成一个向量,进行该向量的L2范数归一化,然后再 进行层归一化,目的也是为了加速训练收敛,最后将矩阵拉伸成向量,完成 整个操作。拉伸操作简单实现可以将每行看成一个向量,然后逐行地将向量 首尾相连得到。
需要说明的是,之所以将该操作称为注意力池化操作,是因为不同的注 意力向量对原始输入矩阵中的向量会得到不同的权重,类似于人的注意力机 制,而池化操作是对原始输入矩阵中的向量进行加权平均操作,因此而得其 名。
进一步,步骤2)中,在多个音频原始特征聚合前,还可以先对提取的 每个音频原始特征进行主成分分析降维、白化以及量化处理,得到处理后每 个音频原始特征;然后,对处理后的每个音频原始特征进行反量化处理,得 到反量化后的每个音频原始特征;最后,将反量化后的所有音频原始特征聚 合成一个固定长度的音频聚合特征。
其具体的聚合方式也可以采用基于注意力的聚合方法(即注意力池化操 作)将多个音频原始特征聚合成一个音频聚合特征,其具体的过程详见上述, 在此不再赘述。
3)提取多张图像中的每张图像的图像原始特征,并将多张图像的图像 原始特征聚合成一个图像聚合特征;
进一步,步骤3)中,在多个图像原始特征聚合前,对提取的每个图像 原始特征进行主成分分析降维、白化以及量化处理,得到量化后每个图像原 始特征;对量化后的每个图像原始特征进行反量化处理,得到反量化后的每 个图像原始特征;最后,将反量化后的所有图像原始特征聚合成一个固定长 度的图像聚合特征。
该步骤中,提取每张图像的图像原始特征的过程对于本领域技术人员来 说已是熟知技术,在此不再赘述,而将多张图像的图像原始特征聚合成一个 图像聚合特征也可以采用基于注意力的聚合方法(也可以称为注意力池化操 作)将多个图像原始特征聚合成一个图像聚合特征,其具体的过程详见上述, 在此不再赘述。
4)从每个待分类视频文件的文本描述中提取文本特征。
该步骤中,可以采用TextCNN的方法来提取每个待分类视频文件的文 本特征,并将最后一个隐层作为文本特征,由于文本特征本身已经是一个固 定长度的向量了,因此,不再需要对它进行聚合操作。
具体的提取过程包括:首先对文本标题进行分词操作,然后对每个词进 行词向量嵌入操作,词向量嵌入操作将每个词转换成一个定长的向量表示, 然后将词向量序列输入文本卷积神经网络进行前馈处理(其中,前馈操作主 要包括若干个卷积层和池化层,卷积层用来提取特征,池化层用来进行降采 样),并取出最后一个隐藏层作为文本的特征表示。
需要说明的是,本发明实施例中,提取文本特征的方式,除了提取标题 之外,还可以通过其他方式提取文本特征,比如,视频展现页面的文本描述、 视频展现页面的关键词、视频图像画面中通过OCR技术提取的文本、以及 通过自动语音识别技术提取的文本等。当然,也可以是这些特征的任意组合, 然后,采用和标题相同或相近的方式输入到本发明实施例后的归一化处理和 拼接中。
步骤102:将所述每个待分类视频文件的音频聚合特征、图像聚合特征 和文本特征进行融合,得到融合后的向量;
其一种融合方法包括:
21)将每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征 分别进行归一化处理,得到对应的音频向量、图像向量和文本向量;
该步骤中,将每个待分类视频文件的音频聚合特征、图像聚合特征和文 本特征分别进行L2范数归一化处理,得到归一化处理后的音频向量、图像 向量和文本向量,
其中,L2范数归一化,就是向量中每个元素除以向量的L2范数。也就 是说,对音频聚合特征、图像聚合特征和文本特征中的每一个特征进行L2 范数归一化处理,比如,对于向量x=(x1,x2,x3),L2范数归一化如下: 先计算x的模长为l=sqrt(x1*x1+x2*x2+x3*x3),其中sqrt表示开根号,*表 示乘法,那么L2范数归一化为新的向量x’=(x1/l,x2/l,x3/l)。
对每个特征进行L2范数归一化处理的优点就是将每一个模态的输入特 征等权重对待,然后,由网络自动学习每一种模态特征的重要性,归一化处 理的另一个优点就是可以加快网络的收敛速度和收敛效果。
22)将得到的所述音频向量、图像向量和文本向量进行拼接,得到拼接 后的第一向量;
该步骤中,将经过归一化处理后的所述音频向量、图像向量和文本向量 逐个首尾相连拼接成一个维度是三个向量维度之和的第一向量;其中,所述 音频向量、图像向量和文本向量之间任意首尾相连拼接,且,对每个待分类 视频保持同样的首尾相连拼接顺序。也就是说,对所有的待分类视频按照同 样的拼接顺序进行拼接。
23)将所述拼接后的第一向量输入第一全连接层进行降维处理,得到降 维处理后的第二向量。其中,将该维度可以设置为1024,但并不限于此, 也可以根据需要适应性修改,本实施例不做限制。
步骤103:对所述融合后的向量进行瓶颈门控和混合专家层处理,得到 多个分类标签的概率预测向量;
该步骤具体的处理过程包括:
31)将降维处理后所述第二向量进行第一瓶颈门控处理,得到第三向量;
该步骤中,对所述降维处理后的第二向量进行第一瓶颈门控处理,得到 第三向量的过程,如图2所示,图2为本发明实施例中提供的一种向量通过 第一瓶颈门控处理的示意图,如图所示:先将所述降维处理后的第二向量(以 向量21表示)输入第二全连接层进行降维处理,并将处理后的向量进行第 一层归一化和整流线性处理,得到处理后的向量(以向量22表示);再后, 将处理后的向量输入到维数和第一全连接层相同的第三全连接层进行维度 相关性处理,并将处理结果依次通过第二层归一化处理和双弯曲函数 sigmoid激活函数,得到激活后的向量(以向量23表示);最后,将激活后 的所述向量逐点乘以所述第一全连接层降维处理后的第二向量(即通过逐单 元相乘),并将得到的第三向量作为经过第一瓶颈门控处理后的向量(即向 量24)。需要说明是,编号21至24只适用于图2中的举例说明。
其中,该步骤中,对降维处理后的第二向量进行第二和第三全连接层的 降维处理,主要是考虑了不同特征向量维度之间的相关性,使得学习的特征 向量更有益于分类。
32)将所述第三向量向量通过混合专家层进行处理,得到多个分类标签 的第一概率预测向量;
该步骤中,将所述第三向量通过混合专家层进行处理,得到多个分类标 签的第一概率预测向量的过程包括:
先将经过所述第一瓶颈门控处理后的所述第三向量分别输入到第一组 全连接层和第二组全连接层,得到对应的第四向量和第五向量,其中,所述 第一组全连接层称为专家层,其中,所述专家层包括多个专家,每个专家是 一个全连接层,其单元个数等于分类标签的总数;所述第二组全连接层称为 门控层,其中,所述门控层包括多个门控,所述多个门控与所述多个专家的 数量一样,每个门控是一个全连接层,其单元个数等于分类标签的总数;然 后,对所述第一组全连接层输出的第四向量采用双弯曲(sigmoid)函数进行 激活,得到激活后的专家层的向量;以及对所述第二组全连接层输出的第五 向量采用软最大化(softmax)函数进行激活,得到激活后的门控层的向量; 最后,将激活后的所述门控层的向量逐点乘以激活后的所述专家层的向量, 得到多个专家向量;并对所述多个专家向量进行向量求和,得到多个分类标 签的第一概率预测向量,所述多个分类标签的第一概率预测向量作为所述混 合专家层的输出。
33)将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理, 得到多个分类标签的第二概率预测向量;
该步骤中,先将所述混合专家层输出的多个分类标签的第一概率预测向 量输入第四全连接层进行降维处理,得到降维处理后的多个分类标签的概率 预测向量;再将所述降维处理后的多个分类标签的概率预测向量进行层归一 化和整流线性处理,得到处理后的多个分类标签的概率预测向量;然后,将 处理后的多个分类标签的概率预测向量输入到维度和所述混合专家层输出 的多个分类标签的概率预测向量相同的第五全连接层进行处理,并对处理后 得到的多个分类标签的概率预测向量进行层归一化处理和sigmoid激活,得 到激活后的多个分类标签的概率预测向量;最后,将激活后的所述多个分类 标签的概率预测向量逐点乘以所述混合专家层输出得到的多个分类标签的 概率预测向量,并将乘积得到的多个分类标签的第二概率预测向量作为经过 第二瓶颈门控处理后输出的多个分类标签的概率预测向量。
该步骤中,由于考虑到不同分类标签之间的相关性,所以,需要对 混合专家层输出的多个分类标签的概率预测向量进行第二瓶颈门控处 理,其目的,就是提升视频分类的性能。
步骤104:将所述多个分类标签的新的概率预测向量及真值标签向量 输入到损失函数进行计算,得到多个分类标签分类损失的计算结果;
该步骤中,通过损失函数来计算多标签分类损失的计算结果,其中, 该计算结果为二值交叉熵。
步骤105:根据所述计算结果,利用梯度反向传播方法对视频分类模 型的参数进行反复迭代学习,得到视频分类模型。
该步骤中,根据计算结果,针对不同的待分类视频文件就可以采用 梯度反向传播方法(比如adam方法等)对视频分类模型的参数进行反复 迭代学习,学习指的是学习视频分类模型的各种参数,其具体的学习过 程对于本领域技术人员来说已是熟知技术,在此不再赘述。
本发明实施例中,对获取的多个待分类视频文件中每个待分类视频文件 的音频聚合特征、图像聚合特征和文本特征融合成一个向量,再后,对该融 合后一个向量进行瓶颈门控处理以及混合专家层处理,得到多个分类标签的 概率预测向量;以及将所述多个分类标签的概率预测向量及真值标签向量输 入到损失函数进行计算,得到多个分类标签分类损失的计算结果,最后,根 据计算结果利用梯度反向传播方法对视频分类模型的参数进行反复迭代学 习,得到视频分类模型。也就是说,本发明实施例中,利用音频聚合特征、 图像聚合特征和文本特征的融合后的向量,采用梯度反向传播方法对视频分 类模型的参数进行反复迭代学习,得到训练好的视频分类模型,可以使得训 练好的视频分类模型可以通过音频聚合特征、图像聚合特征和文本特征来识 别待分类视频,扩大视频识别的标签的范围,从而提高了视频分类的准确性 和整体性能。
还请参阅图3,为本发明实施例提供的一种视频分类方法的流程图,所 述方法可以包括:
步骤301:获取待分类视频文件的音频聚合特征、图像聚合特征和文本 特征;
该步骤中具体包括:先对待分类视频文件进行采样,得到多个音频片段 和多张图像;提取所述多个音频片中每个音频片段的音频原始特征,并将多 个音频原始特征聚合成一个音频聚合特征;提取多张图像中的每张图像的图 像原始特征,并将多张图像的图像原始特征聚合成一个图像聚合特征;从所 述待分类视频文件的文本描述中提取文本特征。
其具体的实现过程详见上述实施例中对应步骤的实现过程,在此不再赘 述。
步骤302:将所述音频聚合特征、图像聚合特征和文本特征输入到预先 生成的视频分类模型进行分类,得到多个分类标签的概率预测向量;
该步骤中,先将所述音频聚合特征、图像聚合特征和文本特征分别进行 归一化处理,得到对应的音频向量、图像向量和文本向量;然后,将得到的 音频向量、图像向量和文本向量进行拼接,得到拼接后的第一向量;再后, 将所述拼接后的第一向量输入第一全连接层进行降维处理,得到降维处理后 的第二向量;对所述降维处理后的第二向量进行第一瓶颈门控处理,得到第 三向量;并将所述第三向量通过混合专家层进行处理,得到多个分类标签的 第一概率预测向量;最后,将所述多个分类标签的第一概率预测向量进行第 二瓶颈门控处理,得到多个分类标签的第二概率预测向量。
其具体的实现过程详见上述实施例中对应步骤的实现过程,在此不再赘 述。
步骤303:对所述多个分类标签的概率预测向量中的每个元素按照从高 到低进行排序;
该步骤中,可以采用常用的排序算法进行排序,比如quicksort快速排序 算法等进行排序。
步骤304:选取排名靠前的至少一个元素编号对应的标签,以作为所述 待分类视频文件的分类标签。
该步骤中,在每个元素按照从高到低(或者从大到小)的顺序进行排序 后,排名靠前的至少一个元素编号可以是排名靠前的5个,或者前20个, 或者前30个等,具体的可以需要来设置,本实施例不做限制。每个元素都 对应着一个特定标签的编号,根据该编号可以得到对应的标签。
本发明实施例中,在获取待分类视频文件的音频聚合特征、图像聚合特 征和文本特征后,将所述音频聚合特征、图像聚合特征和文本特征输入到预 先生成(或者训练好)的视频分类模型进行分类,得到多个分类标签的概率 预测向量,然后先对多个分类标签的概率预测向量中的每个元素按照从高到 低(或者从大到小)进行排序,选取排名靠前的至少一个元素编号对应的标 签,将选取的标签作为所述待分类视频文件的分类标签,也就是说,本发明 实施例中,利用训练好的视频分类模型通过音频聚合特征、图像聚合特征和 文本特征来识别待分类视频,扩大视频识别的标签的范围,从而提高了视频 分类的准确性和整体性能。
还请参阅图4,为本发明实施例提供的一种视频分类方法的另一流程图, 所述方法与上述实施例的不同之处,在于,对排在前面的N个元素的值进行 判断,并取大于置信度阈值的元素编号对应的标签,并将该标签作为所述待 分类视频文件的分类标签。具体包括:
步骤401:获取待分类视频文件的音频聚合特征、图像聚合特征和文本 特征;
步骤402:将所述音频聚合特征、图像聚合特征和文本特征输入到预先 生成的视频分类模型进行分类,得到多个分类标签的概率预测向量;
步骤403:对所述多个分类标签的概率预测向量中的每个元素按照从高 到低进行排序;
步骤404:判断排名靠前的至少一个元素的值是否大于置信度阈值;如 果大于,执行步骤405;否则,执行步骤406;
步骤405:将选取大于置信度阈值的排名靠前的至少一个元素编号对应 的标签,以作为所述待分类视频文件的分类标签;
步骤406:输出空字符串,即不输出任何标签。也就是说,该待分类的 视频的内容不在标签涵盖的范围内。
本发明实施例中,先对多个分类标签的概率预测向量中的每个元素按照 从高到低(或者从大到小)进行排序,判断排名靠前的至少一个元素的值是 否大于置信度阈值,并选取大于置信度阈值且排名靠前的至少一个元素编号 对应的标签,然后选取的标签作为所述待分类视频文件的分类标签。也就是 说,对排名靠前的至少一个元素的值进行置信度阈值判断,从而提高了视频 分类的准确性。
为了便于理解,还请参阅图5,为本发明实施例提供的一种应用实例的 示意图,本发明实施例中,以鱼儿游动的视频为例,同时还提供鱼儿游动的 音频和鱼儿游动的标题描述,下面我分别描述视频分类模型的学习过程和视 频的分类测试过程。
1、视频分类模型的学习(或训练)过程:
首先,对该鱼儿游动的视频进行采样,得到多张图像,即对鱼儿游动的 视频中的图像序列提取二维或三维的卷积神经网络(CNN,Convolutional Neural Networks)特征,二维是针对单张图像的,三维是针对一定长度的图 像序列的,提取每张图像的图像原始特征,进一步,还可以对图像原始特征 进行主成分分析降维、白化和量化处理,然后,将图像原始特征进行反量 化和特征聚合,最后,对聚合后的每一个图像聚合特征进行L2范数归一化操作,得到图像向量;
同理,对该鱼儿游动的音频进行采样,得到多个音频片段,然后, 将每个音频片段输入音频CNN网络,提取每个音频片段的音频原始特 征,进一步,还可以对音频原始特征进行主成分分析降维、白化和量化 处理,然后,将音频原始特征进行反量化和特征聚合,最后,对聚合后 的每一个音频聚合特征进行L2范数归一化操作,得到音频向量;
同理,从鱼儿游动的标题描述(即一群色彩斑斓的鱼在水里自由自 在的游动)中提取文本特征,将文本特征输入到文本卷积神经网络,由 于文本特征本身已经是一个固定长度的向量了,因此,不再需要对它进 行聚合操作。将每一个文本特征向量进行L2范数归一化操作,得到文本 向量。
其次,将得到的音频向量、图像向量和文本向量逐个首尾相连拼接在一 起,得到一个维度是三个向量维度之和的向量;
其首尾相连的拼接方式可以是音频向量—图像向量—文本向量;还可以 是图像向量—文本向量—音频向量,还可以图像向量—音频向量—文本向量 等,需要说明的,在学习过程中,后续的学习视频样本也需要按照与本次相 同的首尾拼接顺序来执行。
再后,将该拼接后的向量输入一个全连接层进行降维处理,一般将 这个维度设置为1024,并将降维后的向量输入第一瓶颈门控进行处理, 需要说明的,本发明实施例中,第一瓶颈门控可以中包括两个全连接层、 两个层归一化以及一个整流线性处理和一个sigmoid激活函数。
再后,将经过第一瓶颈门控处理后的新的向量输送到混合专家层(也可 以称为混合专家分类器),得到多个分类标签的概率预测向量,以及将多个 分类标签的概率预测向量经过第二瓶颈门控进行处理,得到多个分类标签的 新的概率预测向量;其中,需要说明的是,本实施例中的第二瓶颈门控与第 一瓶颈门控的结构相同,功能也类似。
最后,根据所述多个分类标签的新的概率预测向量及真值标签向量输入 到损失函数进行计算,得到多个分类标签分类损失的计算结果,根据所述计 算结果,利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习, 得到学习好的视频分类模型。
基于上述过程,可以采用小批量视频样本作为输入对该视频分类模型进 行反复训练学习,得到学习好的视频分类模型。
2、利用学习好的视频分类模型对视频进行分类,即视频分类的测试过 程:
在本发明实施例中,对待测试的视频,先获取待分类视频文件的音频聚 合特征、图像聚合特征和文本特征;将所述音频聚合特征、图像聚合特征和 文本特征输入到学习好的视频分类模型进行分类,得到多个分类标签的概率 预测向量;对所述多个分类标签的概率预测向量中的每个元素按照从高到低 进行排序;选取排名靠前的至少一个元素编号对应的标签,并将选取的标签 作为所述待分类视频文件的分类标签。进一步,还可以判断排名靠前的至少 一个元素的值是否大于置信度阈值;如果大于,则将所述大于所述置信度阈值的排名靠前的至少一个元素编号对应的标签作为所述待分类视频文件的 分类标签。
也就是说,本发明实施例中,对待测视频的分类过程,需要先按照视频 分类模型的学习过程进行相应的处理,之后,对于得到的多个分类标签的概 率预测向量中每个元素按照从高到低进行排序;选取大于置信度阈值的排名 靠前的至少一个元素编号对应的标签,将选取的标签作为所述待分类视频文 件的分类标签。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系 列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述 的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或 者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例 均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
请参阅图6,为本发明实施例提供的一种模型生成装置的结构示意图, 具体可以包括如下模块:获取模块61,融合模块62,处理模块63,计算模 块64和迭代学习模块65,其中,
获取模块61,用于获取多个待分类视频文件中每个待分类视频文件的音 频聚合特征、图像聚合特征和文本特征;
融合模块62,用于将所述每个所述待分类视频文件的音频聚合特征、图 像聚合特征和文本特征进行融合,得到融合后的向量;
处理模块63,用于对所述融合后的向量进行瓶颈门控和混合专家层处 理,得到多个分类标签的概率预测向量;
计算模块64,用于将所述多个分类标签的概率预测向量及真值标签向量 输入到损失函数进行计算,得到多个分类标签分类损失的计算结果;
迭代学习模块65,用于根据所述计算结果,利用梯度反向传播方法对视 频分类模型的参数进行反复迭代学习,得到视频分类模型。
可选的,所述融合模块包括:归一化处理模块,拼接模块和降维处理模 块(图中未示),其中,
归一化处理模块,用于将所述每个待分类视频文件的音频聚合特征、图 像聚合特征和文本特征分别进行归一化处理,得到对应的音频向量、图像向 量和文本向量;
拼接模块,用于将得到的所述音频向量、图像向量和文本向量进行拼接, 得到拼接后的第一向量;
第一降维处理模块,用于将所述拼接后的第一向量输入第一全连接层进 行降维处理,得到降维处理后的第二向量。
可选的,所述处理模块包括:第一瓶颈门控处理模块,混合专家层处理 模块和第二瓶颈门控处理模块(图中未示),其中,
第一瓶颈门控处理模块,用于对所述降维处理后的第二向量进行第一瓶 颈门控处理,得到第三向量;
混合专家层处理模块,用于将所述第三向量通过混合专家层进行处理, 得到多个分类标签的第一概率预测向量;
第二瓶颈门控处理模块,用于将所述多个分类标签的第一概率预测向量 进行第二瓶颈门控处理,得到多个分类标签的第二概率预测向量。
可选的,所述获取模块包括:采样模块,第一提取模块,第一聚合模块, 第二提取模块和第三提取模块(图中未示),其中,
采样模块,用于对多个待分类视频文件中的每个待分类视频文件分别进 行采样,得到每个待分类视频文件的多个音频片段和多张图像;
第一提取模块,用于提取所述多个音频片段中每个音频片段的音频原始 特征;
第一聚合模块,用于将多个音频原始特征聚合成一个音频聚合特征;
第二提取模块,用于提取多张图像中的每张图像的图像原始特征;
第二聚合模块,用于将多个图像原始特征聚合成一个图像聚合特征;
第三提取模块,用于从每个待分类视频文件的文本描述中提取文本特 征。
可选的,所述装置还可以包括:第一量化处理模块和第一反量化处理模 块、第二量化处理模块和第二反量化模块,(图中未示),其中,
第一量化处理模块,用于在多个音频原始特征聚合前,对提取的每个音 频原始特征进行主成分分析降维、白化以及量化处理,得到量化后每个音频 原始特征;
第一反量化模块,用于对量化后的每个音频原始特征进行反量化处理, 得到反量化后的每个音频原始特征;
第二量化处理模块,用于在多个图像原始特征聚合前,对提取的每个图 像原始特征进行主成分分析降维、白化以及量化处理,得到量化后每个图像 原始特征;
第二反量化模块,用于对量化后的每个图像原始特征进行反量化处理, 得到反量化后的每个图像原始特征;
所述第一聚合模块,还用于将反量化后的所有音频原始特征聚合成一个 固定长度的音频聚合特征;
所述第二聚合模块,还用于将反量化后的所有图像原始特征聚合成一个 固定长度的图像聚合特征。
可选的,所述归一化处理模块,具体用于将每个待分类视频文件的音频 聚合特征、图像聚合特征和文本特征分别进行L2范数归一化处理,得到归 一化处理后的音频向量、图像向量和文本向量。
可选的,所述拼接模块,具体用于将所述音频向量、图像向量和文本向 量逐个首尾相连拼接成一个维度是三个向量维度之和的第一向量;其中,所 述音频向量、图像向量和文本向量之间任意首尾相连拼接,且,对每个待分 类视频保持同样的首尾相连拼接顺序。
可选的,所述第一瓶颈门控处理模块包括:第二降维处理模块71,第一 整流线性处理模块72,第一维度相关性处理模块73,第一激活模块74和第 一逐点乘积模块75,其结构示意图如图7所示,其中,
第二降维处理模块71,用于将所述第一降维处理模块输出的第二向量输 入第二全连接层进行降维处理,得到降维处理后的向量;
第一整流线性处理模块72,用于将所述第二降维处理模块71输出的向 量进行层归一化和整流线性处理,得到处理后的向量;
第一维度相关性处理模块73,用于将所述第一整流线性处理模块72处 理后的向量输入到维数和第一全连接层相同的第三全连接层进行维度相关 性处理,得到相同维度处理后的向量;
第一激活模块74,用于将所述第一维度相关性处理模块73处理后的向 量进行层归一化和双弯曲函数sigmoid激活,得到激活后的向量;
第一逐点乘积模块75,用于将激活后的所述向量逐点乘以所述第一降维 处理模块处理后的第二向量,并将得到的第三向量作为经过第一瓶颈门控处 理后的向量。
可选的,所述混合专家层处理模块包括:第一组全连接层模块81,第二 激活模块82,第二组全连接层模块83,第三激活模块84,第二逐点乘积模 块85和求和模块86,其结构示意图如图8所示,其中,
第一组全连接层模块81,用于对接收所述第一逐点乘积模块输出的所述 第三向量进行第一组全连接层处理,得到第四向量;其中,第一组全连接层 模块称为专家层,所述专家层包括多个专家,每个专家是一个全连接层,其 单元个数等于分类标签的总数;
第二激活模块82,用于将所述第一组全连接层模块81输出的第四向量 采用双弯曲sigmoid函数进行激活,得到激活后专家层的向量;
第二组全连接层模块83,用于对接收所述第一逐点乘积模块75输出的 所述第三向量进行第二组全连接层处理,得到第五向量;其中,第二组全连 接层模块称为门控层,其中,所述门控层包括多个门控,所述多个门控与所 述多个专家的数量一样,每个门控是一个全连接层,其单元个数等于分类标 签的总数;
第三激活模块84,用于将所述第二组全连接层模块83输出的第五向量 采用软最大化softmax函数进行激活,得到激活后的门控层的向量;
第二逐点乘积模块85,用于将所述第三激活模块84激活后的所述门控 层的向量逐点乘以激活的所述专家层后的向量,得到多个专家向量;
求和模块86,用于对所述第二逐点乘积模块得到的多个专家向量进行向 量求和,得到多个分类标签的第一概率预测向量,所述多个分类标签的第一 概率预测向量作为所述混合专家层的输出。
可选的,所述第二瓶颈门控处理模块包括:第三降维处理模块,第二整 流线性处理模块,第二维度相关性处理模块,第四激活模块和第三逐点乘积 模块(图中未示),其中,
第三降维处理模块,用于将所述求和模块得到的多个分类标签的第一概 率预测向量输入第四全连接层进行降维处理,得到降维处理后的多个分类标 签的概率预测向量;
第二整流线性处理模块,用于将所述第三降维处理模块降维处理后的多 个分类标签的概率预测向量进行层归一化和整流线性处理,得到处理后的多 个分类标签的概率预测向量;
第二维度相关性处理模块,用于将所述第二整流线性处理模块处理后的 多个分类标签的概率预测向量输入到维度和所述混合专家层输出的多个分 类标签的概率预测向量相同的第五全连接层进行处理,得到处理后的多个分 类标签的概率预测向量;
第四激活模块,用于将所述第二维度相关性处理模块处理后的多个分类 标签的概率预测向量进行层归一化和sigmoid激活,得到激活后的多个分类 标签的概率预测向量;
第三逐点乘积模块,用于将所述第四激活模块激活后的所述多个分类标 签的概率预测向量逐点乘以所述求和模块得到的多个分类标签的概率预测 向量,并将乘积得到的多个分类标签的第二概率预测向量作为经过第二瓶颈 门控处理后输出的多个分类标签的新的概率预测向量。
还请参阅图9,为本发明实施例提供的一种视频分类装置的结构示意图, 所述装置包括:获取模块91,分类模块92,排序模块93和选取模块94,其 中,
获取模块91,用于获取待分类视频文件的音频聚合特征、图像聚合特征 和文本特征;
分类模块92,用于将所述音频聚合特征、图像聚合特征和文本特征输入 到预先生成的视频分类模型进行分类,得到多个分类标签的概率预测向量;
排序模块93,用于对所述多个分类标签的概率预测向量中的每个元素按 照从高到低进行排序;
选取模块94,用于选取排名靠前的至少一个元素编号对应的标签,以作 为所述待分类视频文件的分类标签。
可选的,所述装置还可以包括:判断模块10,其结构示意图如图10所 示,其中,
判断模块10,用于在所述选取模块选取排名靠前的至少一个元素编号对 应的标签之前,判断所述排名靠前的至少一个元素的值是否大于置信度阈 值;
所述选取模块94,还用于在所述判断模块10判断所述排名靠前的至少 一个元素的值大于置信度阈值时,将所述大于所述置信度阈值的排名靠前的 至少一个元素编号对应的标签作为所述待分类视频文件的分类标签。
进一步,所述装置还可以包括输出模块(图中未示),输出模块,用于 在所述判断模块10判断所述排名靠前的至少一个元素的值不大于置信度阈 值(即任何一个元素的值都不大于置信度阈值)时,输出空字符串,即不输 出任何标签。也就是说,该待分类的视频的内容不在标签涵盖的范围内。
可选的,所述获取模块包括:采样模块,第一提取模块,第一聚合模块, 第二提取模块,第二聚合模块和第三提取模块(图中未示),其中,
采样模块,用于对待分类视频文件进行采样,得到多个音频片段和多张 图像;
第一提取模块,用于提取所述多个音频片中每个音频片段的音频原始特 征;
第一聚合模块,用于将所述多个音频原始特征聚合成一个音频聚合特 征;
第二提取模块,用于提取多张图像中的每张图像的图像原始特征;
第二聚合模块,用于将多个原始特征聚合成一个图像聚合特征;
第三提取模块,用于从所述待分类视频文件的文本描述中提取文本特 征。
可选的,所述分类模块包括:归一化处理模块,拼接模块,降维处理模 块(即上述实施例中的第一降维处理模块),第一瓶颈门控处理模块,混合 专家层处理模块和第二瓶颈门控处理模块(图中未示),其中,
归一化处理模块,用于将所述音频聚合特征、图像聚合特征和文本特征 分别进行归一化处理,得到对应的音频向量、图像向量和文本向量;
拼接模块,用于将所述归一化处理模块得到的音频向量、图像向量和文 本向量进行拼接,得到拼接后的第一向量;
降维处理模块,用于将所述第一向量输入第一全连接层进行降维处理, 得到降维处理后的第二向量;
第一瓶颈门控处理模块,用于对所述第二向量进行第一瓶颈门控处理, 得到第三向量;
混合专家层处理模块,用于将所述第三向量通过混合专家层,得到多个 分类标签的第一概率预测向量;
第二瓶颈门控处理模块,用于将所述多个分类标签的第一概率预测向量 进行第二瓶颈门控处理,得到多个分类标签的第二概率预测向量。
其中,第一瓶颈门控处理模块包括:第二降维处理模块,第一整流线性 处理模块,第一维度相关性处理模块,第一激活模块和第一逐点乘积模块;
混合专家层处理模块包括:第一组全连接层模块,第二激活模块,第二 组全连接层模块,第三激活模块,第二逐点乘积模块和求和模块;
第二瓶颈门控处理模块包括:第三降维处理模块,第二整流线性处理模 块,第二维度相关性处理模块,第四激活模块和第三逐点乘积模块。
其中,第一瓶颈门控处理模块、混合专家层处理模块和第二瓶颈门控处 理模块中包括各个模块的功能和作用详见上述,在此不再赘述。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较 简单,相关之处参见方法实施例的部分说明即可。
本发明实施例中,采用上述过程对视频分类模型的参数进行学习,基于 学习好的视频分类模型可以综合利用音频、图像和文本特征来识别待分类视 频,扩大视频识别的标签的范围,从而提高了视频分类的准确性和整体性能。
可选的,本发明实施例还提供一种终端,包括:存储器、处理器及存储 在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被 所述处理器执行时实现如上述的模型生成方法的实施例的各个过程,或者如 上所述的视频分类方法的实施例的各个过程,且能达到相同的技术效果,为 避免重复,这里不再赘述
可选的,本发明实施例还提供一种计算机可读存储介质,其特征在于所 述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行 时实现如上述的模型生成方法中的各个过程,或者如上述的视频分类方法的 各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中, 所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称 ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明 的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见 即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装 置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全 软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例 可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介 质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程 序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计 算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令 实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框 图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、 专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生 一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的 指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理 终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读 存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设 备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计 算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用 于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中 指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦 得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以, 所述权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所 有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得 包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且 还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或 者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终 端设备中还存在另外的相同要素。
以上对本发明所提供的一种模型生成方法、视频分类方法、装置、终端 及计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明 的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明 的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思 想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内 容不应理解为对本发明的限制。

Claims (30)

1.一种模型生成方法,其特征在于,包括:
获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征;
将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合,得到融合后的向量;
对所述融合后的向量进行瓶颈门控和混合专家层处理,得到多个分类标签的概率预测向量;
将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算,得到多个分类标签分类损失的计算结果;
根据所述计算结果,利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习,得到视频分类模型。
2.根据权利要求1所述的方法,其特征在于,将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合,得到融合后的向量包括:
将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行归一化处理,得到对应的音频向量、图像向量和文本向量;
将得到的所述音频向量、图像向量和文本向量进行拼接,得到拼接后的第一向量;
将所述拼接后的第一向量输入第一全连接层进行降维处理,得到降维处理后的第二向量。
3.根据权利要求2所述的方法,其特征在于,所述对所述融合后的向量进行瓶颈门控和混合专家层处理,得到多个分类标签的概率预测向量,包括:
对所述降维处理后的第二向量进行第一瓶颈门控处理,得到第三向量;
将所述第三向量通过混合专家层进行处理,得到多个分类标签的第一概率预测向量;
将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理,得到多个分类标签的第二概率预测向量。
4.根据权利要求1所述的方法,其特征在于,所述获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征,包括:
对多个待分类视频文件中的每个待分类视频文件分别进行采样,得到每个待分类视频文件的多个音频片段和多张图像;
提取所述多个音频片中每个音频片段的音频原始特征,并将多个音频原始特征聚合成一个音频聚合特征;
提取多张图像中的每张图像的图像原始特征,并将多个图像原始特征聚合成一个图像聚合特征;
从每个待分类视频文件的文本描述中提取文本特征。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:在多个音频原始特征聚合前,对提取的每个音频原始特征进行主成分分析降维、白化以及量化处理,得到量化后每个音频原始特征;对量化后的每个音频原始特征进行反量化处理,得到反量化后的每个音频原始特征;在多个图像原始特征聚合前,对提取的每个图像原始特征进行主成分分析降维、白化以及量化处理,得到量化后每个图像原始特征;对量化后的每个图像原始特征进行反量化处理,得到反量化后的每个图像原始特征;
所述将多个音频原始特征聚合成一个音频聚合特征,具体包括:将反量化后的所有音频原始特征聚合成一个固定长度的音频聚合特征;
所述将多个图像原始特征聚合成一个图像聚合特征,具体包括:将反量化后的所有图像原始特征聚合成一个固定长度的图像聚合特征。
6.根据权利要求2所述的方法,其特征在于,所述将每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行归一化处理,得到对应的音频向量、图像向量和文本向量,包括:
将每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行L2范数归一化处理,得到归一化处理后的音频向量、图像向量和文本向量。
7.根据权利要求2所述的方法,其特征在于,所述将得到的所述音频向量、图像向量和文本向量进行拼接,得到拼接后的第一向量,包括:
将所述音频向量、图像向量和文本向量逐个首尾相连拼接成一个维度是三个向量维度之和的第一向量;其中,所述音频向量、图像向量和文本向量之间任意首尾相连拼接,且,对每个待分类视频保持同样的首尾相连拼接顺序。
8.根据权利要求3所述的方法,其特征在于,所述对所述降维处理后的第二向量进行第一瓶颈门控处理,得到第三向量,包括:
将所述降维处理后的第二向量输入第二全连接层进行降维处理,并将降维处理后的向量进行层归一化和整流线性处理,得到处理后的向量;
将处理后的向量输入到维数和第一全连接层相同的第三全连接层进行维度相关性处理,并将处理结果进行层归一化和双弯曲函数sigmoid激活,得到激活后的向量;
将激活后的所述向量逐点乘以所述第一全连接层降维处理后的第二向量,并将得到的第三向量作为经过第一瓶颈门控处理后输出的向量。
9.根据权利要求3所述的方法,其特征在于,将所述第三向量通过混合专家层,得到多个分类标签的第一概率预测向量,包括:
将所述第三向量分别输入到第一组全连接层和第二组全连接层,得到对应的第四向量和第五向量,其中,所述第一组全连接层称为专家层,所述第二组全连接层称为门控层;
对所述第一组全连接层输出的第四向量采用双弯曲sigmoid函数进行激活,得到激活后的专家层的向量;
对所述第二组全连接层输出的第五向量采用软最大化softmax函数进行激活,得到激活后的门控层的向量;
将激活后的所述门控层的向量逐点乘以激活后的专家层的向量,得到多个专家向量;
对所述多个专家向量求和,得到多个分类标签的第一概率预测向量,所述多个分类标签的第一概率预测向量作为所述混合专家层的输出。
10.根据权利要求3所述的方法,其特征在于,所述将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理,得到多个分类标签的第二概率预测向量,包括:
将所述多个分类标签的第一概率预测向量输入第四全连接层进行降维处理,得到降维处理后的多个分类标签的概率预测向量;
将所述降维处理后的多个分类标签的概率预测向量进行层归一化和整流线性处理,得到处理后的多个分类标签的概率预测向量;
将处理后的多个分类标签的概率预测向量输入到维度和所述混合专家层输出的多个分类标签的概率预测向量相同的第五全连接层进行处理,并对输出进行层归一化和sigmoid激活,得到激活后的多个分类标签的概率预测向量;
将激活后的所述多个分类标签的概率预测向量逐点乘以所述混合专家层输出得到的多个分类标签的概率预测向量,并将得到的多个分类标签的第二概率预测向量作为经过第二瓶颈门控处理后输出的多个分类标签的概率预测向量。
11.一种视频分类方法,其特征在于,包括:
获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征;
将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成的视频分类模型进行分类,得到多个分类标签的概率预测向量;
对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行排序;
选取排名靠前的至少一个元素编号对应的标签,以作为所述待分类视频文件的分类标签。
12.根据权利要求11所述的方法,其特征在于,在选取排名靠前的至少一个元素编号对应的标签之前,所述方法还包括:
判断排名靠前的至少一个元素的值是否大于置信度阈值;
如果大于,则执行选取排名靠前的至少一个元素编号对应的标签,以作为所述待分类视频文件的分类标签的步骤。
13.根据权利要求11或12所述的方法,其特征在于,所述获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征;包括:
对待分类视频文件进行采样,得到多个音频片段和多张图像;
提取所述多个音频片中每个音频片段的音频原始特征,并将多个音频原始特征聚合成一个音频聚合特征;
提取多张图像中的每张图像的图像原始特征,并将多张图像的图像原始特征聚合成一个图像聚合特征;
从所述待分类视频文件的文本描述中提取文本特征。
14.根据权利要求11或12所述的方法,其特征在于,所述将所述音频聚合特征、图像聚合特征和文本特征输入到视频分类模型进行分类,得到多个分类标签的概率预测向量包括:
将所述音频聚合特征、图像聚合特征和文本特征分别进行归一化处理,得到对应的音频向量、图像向量和文本向量;
将得到的所述音频向量、图像向量和文本向量进行拼接,得到拼接后的第一向量;
将所述拼接后的第一向量输入第一全连接层进行降维处理,得到降维处理后的第二向量;
对所述降维处理后的第二向量进行第一瓶颈门控处理,得到第三向量;
将所述第三向量通过混合专家层进行处理,得到多个分类标签的第一概率预测向量;
将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理,得到多个分类标签的第二概率预测向量。
15.一种模型生成装置,其特征在于,包括:
获取模块,用于获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征;
融合模块,用于将所述每个所述待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合,得到融合后的向量;
处理模块,用于对所述融合后的向量进行瓶颈门控和混合专家层处理,得到多个分类标签的概率预测向量;
计算模块,用于将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算,得到多个分类标签分类损失的计算结果;
迭代学习模块,用于根据所述计算结果,利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习,得到视频分类模型。
16.根据权利要求15所述的装置,其特征在于,所述融合模块包括:
归一化处理模块,用于将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行归一化处理,得到对应的音频向量、图像向量和文本向量;
拼接模块,用于将得到的所述音频向量、图像向量和文本向量进行拼接,得到拼接后的第一向量;
第一降维处理模块,用于将所述拼接后的第一向量输入第一全连接层进行降维处理,得到降维处理后的第二向量。
17.根据权利要求16所述的装置,其特征在于,所述处理模块包括:
第一瓶颈门控处理模块,用于对所述降维处理后的第二向量进行第一瓶颈门控处理,得到第三向量;
混合专家层处理模块,用于将所述第三向量通过混合专家层进行处理,得到多个分类标签的第一概率预测向量;
第二瓶颈门控处理模块,用于将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理,得到多个分类标签的第二概率预测向量。
18.根据权利要求15所述的装置,其特征在于,所述获取模块包括:
采样模块,用于对多个待分类视频文件中的每个待分类视频文件分别进行采样,得到每个待分类视频文件的多个音频片段和多张图像;
第一提取模块,用于提取所述多个音频片中每个音频片段的音频原始特征;
第一聚合模块,用于将多个音频原始特征聚合成一个音频聚合特征;
第二提取模块,用于提取多张图像中的每张图像的图像原始特征;
第二聚合模块,用于将多个图像原始特征聚合成一个图像聚合特征;
第三提取模块,用于从每个待分类视频文件的文本描述中提取文本特征。
19.根据权利要求18所述的装置,其特征在于,还包括:
第一量化处理模块,用于在多个音频原始特征聚合前,对提取的每个音频原始特征进行主成分分析降维、白化以及量化处理,得到量化后每个音频原始特征;
第一反量化模块,用于对量化后的每个音频原始特征进行反量化处理,得到反量化后的每个音频原始特征;
第二量化处理模块,用于在多个图像原始特征聚合前,对提取的每个图像原始特征进行主成分分析降维、白化以及量化处理,得到量化后每个图像原始特征;
第二反量化模块,用于对量化后的每个图像原始特征进行反量化处理,得到反量化后的每个图像原始特征;
所述第一聚合模块,还用于将反量化后的所有音频原始特征聚合成一个固定长度的音频聚合特征;
所述第二聚合模块,还用于将反量化后的所有图像原始特征聚合成一个固定长度的图像聚合特征。
20.根据权利要求16所述的装置,其特征在于,
所述归一化处理模块,具体用于将每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行L2范数归一化处理,得到归一化处理后的音频向量、图像向量和文本向量。
21.根据权利要求16所述的装置,其特征在于,
所述拼接模块,具体用于将所述音频向量、图像向量和文本向量逐个首尾相连拼接成一个维度是三个向量维度之和的第一向量;其中,所述音频向量、图像向量和文本向量之间任意首尾相连拼接,且,对每个待分类视频保持同样的首尾相连拼接顺序。
22.根据权利要求17所述的装置,其特征在于,所述第一瓶颈门控处理模块包括:
第二降维处理模块,用于将所述降维处理后的第二的向量输入第二全连接层进行降维处理,得到降维处理后的向量;
第一整流线性处理模块,用于将所述第二降维处理模块输出的向量进行层归一化和整流线性处理,得到处理后的向量;
第一维度相关性处理模块,用于将所述第一整流线性处理模块处理后的向量输入到维数和第一全连接层相同的第三全连接层进行维度相关性处理,得到相同维度处理后的向量;
第一激活模块,用于将所述第一维度相关性处理模块处理后的向量进行层归一化和双弯曲函数sigmoid激活,得到激活后的向量;
第一逐点乘积模块,用于将激活后的所述向量逐点乘以所述第一降维处理模块处理后的第二向量,并将得到的第三向量作为经过第一瓶颈门控处理后输出的向量。
23.根据权利要求17所述的装置,其特征在于,所述混合专家层处理模块包括:
第一组全连接层模块,用于对接收所述第一逐点乘积模块输出的所述第三向量进行第一组全连接层处理,得到第四向量;其中,第一组全连接层模块称为专家层;
第二激活模块,用于将所述第一组全连接层模块输出的第四向量采用双弯曲sigmoid函数进行激活,得到激活后的专家层的向量;
第二组全连接层模块,用于对接收所述第一逐点乘积模块输出的所述第三向量进行第二组全连接层处理,得到第五向量;其中,第二组全连接层模块称为门控层;
第三激活模块,用于将所述第二组全连接层模块输出的第五向量采用软最大化softmax函数进行激活,得到激活后的门控层的向量;
第二逐点乘积模块,用于将所述第三激活模块激活后的所述门控层的向量逐点乘以激活后的所述专家层的向量,得到多个专家向量;
求和模块,用于对所述第二逐点乘积模块得到的多个专家向量进行向量求和,得到多个分类标签的第一概率预测向量,所述多个分类标签的第一概率预测向量作为所述混合专家层的输出。
24.根据权利要求17所述的装置,其特征在于,所述第二瓶颈门控处理模块包括:
第三降维处理模块,用于将所述求和模块得到的多个分类标签的第一概率预测向量输入第四全连接层进行降维处理,得到降维处理后的多个分类标签的概率预测向量;
第二整流线性处理模块,用于将所述第三降维处理模块降维处理后的多个分类标签的概率预测向量进行层归一化和整流线性处理,得到处理后的多个分类标签的概率预测向量;
第二维度相关性处理模块,用于将所述第二整流线性处理模块处理后的多个分类标签的概率预测向量输入到维度和所述混合专家层输出的多个分类标签的概率预测向量相同的第五全连接层进行处理,得到处理后的多个分类标签的概率预测向量;
第四激活模块,用于将所述第二维度相关性处理模块处理后的多个分类标签的概率预测向量进行层归一化和sigmoid激活,得到激活后的多个分类标签的概率预测向量;
第三逐点乘积模块,用于将所述第四激活模块激活后的所述多个分类标签的概率预测向量逐点乘以所述求和模块得到的多个分类标签的概率预测向量,并将乘积得到的多个分类标签的第二概率预测向量作为经过第二瓶颈门控处理后输出的多个分类标签的新的概率预测向量。
25.一种视频分类装置,其特征在于,包括:
获取模块,用于获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征;
分类模块,用于将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成的视频分类模型进行分类,得到多个分类标签的概率预测向量;
排序模块,用于对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行排序;
选取模块,用于选取排名靠前的至少一个元素编号对应的标签,以作为所述待分类视频文件的分类标签。
26.根据权利要求25所述的装置,其特征在于,还包括:
判断模块,用于在所述选取模块选取排名靠前的至少一个元素编号对应的标签之前,判断所述排名靠前的至少一个元素的值是否大于置信度阈值;
所述选取模块,还用于在所述判断模块判断所述排名靠前的至少一个元素的值大于置信度阈值时,选取大于置信度阈值的排名靠前的至少一个元素编号对应的标签作为所述待分类视频文件的分类标签。
27.根据权利要求25或26所述的装置,其特征在于,所述获取模块包括:
采样模块,用于对待分类视频文件进行采样,得到多个音频片段和多张图像;
第一提取模块,用于提取所述多个音频片中每个音频片段的音频原始特征;
第一聚合模块,用于将所述多个音频原始特征聚合成一个音频聚合特征;
第二提取模块,用于提取多张图像中的每张图像的图像原始特征;
第二聚合模块,用于将多张图像的图像原始特征聚合成一个图像聚合特征;
第三提取模块,用于从所述待分类视频文件的文本描述中提取文本特征。
28.根据权利要求25或26所述的装置,其特征在于,所述分类模块包括:
归一化处理模块,用于将所述音频聚合特征、图像聚合特征和文本特征分别进行归一化处理,得到对应的音频向量、图像向量和文本向量;
拼接模块,用于将所述归一化处理模块得到的所述音频向量、图像向量和文本向量进行拼接,得到拼接后的第一向量;
降维处理模块,用于将所述第一向量输入第一全连接层进行降维处理,得到降维处理后的第二向量;
第一瓶颈门控处理模块,用于对所述第二向量进行第一瓶颈门控处理,得到第三向量;
混合专家层处理模块,用于将所述第三向量通过混合专家层进行处理,得到多个分类标签的第一概率预测向量;
第二瓶颈门控处理模块,用于将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理,得到多个分类标签的第二概率预测向量。
29.一种终端,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至10中任一项所述的模型生成方法的步骤,或者如权利要求11至14中任一项所述的视频分类方法的步骤。
30.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的模型生成方法中的步骤,或者如权利要求11至14中任一项所述的视频分类方法的步骤。
CN201811326723.5A 2018-11-08 2018-11-08 模型生成方法、视频分类方法、装置、终端及存储介质 Active CN109710800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811326723.5A CN109710800B (zh) 2018-11-08 2018-11-08 模型生成方法、视频分类方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811326723.5A CN109710800B (zh) 2018-11-08 2018-11-08 模型生成方法、视频分类方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN109710800A true CN109710800A (zh) 2019-05-03
CN109710800B CN109710800B (zh) 2021-05-25

Family

ID=66254873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811326723.5A Active CN109710800B (zh) 2018-11-08 2018-11-08 模型生成方法、视频分类方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN109710800B (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245263A (zh) * 2019-05-15 2019-09-17 北京奇艺世纪科技有限公司 一种聚合方法、装置、电子设备及存储介质
CN110287788A (zh) * 2019-05-23 2019-09-27 厦门网宿有限公司 一种视频分类方法及装置
CN110337016A (zh) * 2019-06-13 2019-10-15 山东大学 基于多模态图卷积网络的短视频个性化推荐方法及系统
CN110516086A (zh) * 2019-07-12 2019-11-29 浙江工业大学 一种基于深度神经网络影视标签自动获取方法
CN110674348A (zh) * 2019-09-27 2020-01-10 北京字节跳动网络技术有限公司 视频分类方法、装置及电子设备
CN110781347A (zh) * 2019-10-23 2020-02-11 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备以及可读存储介质
CN110807437A (zh) * 2019-11-08 2020-02-18 腾讯科技(深圳)有限公司 视频粒度特征确定方法、装置和计算机可读存储介质
CN110990631A (zh) * 2019-12-16 2020-04-10 腾讯科技(深圳)有限公司 视频筛选方法、装置、电子设备和存储介质
CN111125177A (zh) * 2019-12-26 2020-05-08 北京奇艺世纪科技有限公司 生成数据标签的方法、装置、电子设备及可读存储介质
CN111125386A (zh) * 2019-12-02 2020-05-08 腾讯科技(北京)有限公司 媒体资源的处理方法和装置、存储介质及电子装置
CN111209970A (zh) * 2020-01-08 2020-05-29 Oppo(重庆)智能科技有限公司 视频分类方法、装置、存储介质及服务器
CN111275054A (zh) * 2020-01-16 2020-06-12 北京迈格威科技有限公司 图像处理方法、装置、电子设备及存储介质
CN111291183A (zh) * 2020-01-16 2020-06-16 支付宝(杭州)信息技术有限公司 利用文本分类模型进行分类预测的方法及装置
CN111291618A (zh) * 2020-01-13 2020-06-16 腾讯科技(深圳)有限公司 标注方法、装置、服务器和存储介质
CN111368140A (zh) * 2020-02-19 2020-07-03 新华智云科技有限公司 一种视频标签生成方法及系统
CN111400601A (zh) * 2019-09-16 2020-07-10 腾讯科技(深圳)有限公司 一种视频推荐的方法及相关设备
CN111400551A (zh) * 2020-03-13 2020-07-10 咪咕文化科技有限公司 一种视频分类方法、电子设备和存储介质
CN111581437A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 一种视频检索方法及装置
CN111626049A (zh) * 2020-05-27 2020-09-04 腾讯科技(深圳)有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN111626251A (zh) * 2020-06-02 2020-09-04 Oppo广东移动通信有限公司 一种视频分类方法、视频分类装置及电子设备
CN111653290A (zh) * 2020-05-29 2020-09-11 北京百度网讯科技有限公司 音频场景分类模型生成方法、装置、设备以及存储介质
CN111695053A (zh) * 2020-06-12 2020-09-22 上海智臻智能网络科技股份有限公司 序列标注方法、数据处理设备、可读存储介质
CN111695422A (zh) * 2020-05-06 2020-09-22 Oppo(重庆)智能科技有限公司 视频标签获取方法、装置、存储介质及服务器
CN111708913A (zh) * 2020-08-19 2020-09-25 腾讯科技(深圳)有限公司 一种标签生成方法、设备及计算机可读存储介质
CN111737520A (zh) * 2020-06-22 2020-10-02 Oppo广东移动通信有限公司 一种视频分类方法、视频分类装置、电子设备及存储介质
CN111914120A (zh) * 2019-05-08 2020-11-10 阿里巴巴集团控股有限公司 视频分类方法、装置、电子设备以及计算机可读存储介质
CN112507150A (zh) * 2020-12-09 2021-03-16 曙光信息产业(北京)有限公司 一种标签扩充方法、装置、电子设备及存储介质
CN112712066A (zh) * 2021-01-19 2021-04-27 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质
CN112885363A (zh) * 2019-11-29 2021-06-01 北京三星通信技术研究有限公司 语音发送方法和装置以及语音接收方法和装置、电子设备
CN113011383A (zh) * 2021-04-12 2021-06-22 北京明略软件系统有限公司 视频标签定义模型构建方法、系统、电子设备及存储介质
CN113032627A (zh) * 2021-03-25 2021-06-25 北京小米移动软件有限公司 视频分类方法、装置、存储介质及终端设备
CN113052149A (zh) * 2021-05-20 2021-06-29 平安科技(深圳)有限公司 视频摘要生成方法、装置、计算机设备及介质
CN113365102A (zh) * 2020-03-04 2021-09-07 阿里巴巴集团控股有限公司 视频处理方法及装置、标签处理方法及装置
CN115935008A (zh) * 2023-02-16 2023-04-07 杭州网之易创新科技有限公司 视频的标签生成方法、装置、介质和计算设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8885887B1 (en) * 2012-01-23 2014-11-11 Hrl Laboratories, Llc System for object detection and recognition in videos using stabilization
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN108664632A (zh) * 2018-05-15 2018-10-16 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8885887B1 (en) * 2012-01-23 2014-11-11 Hrl Laboratories, Llc System for object detection and recognition in videos using stabilization
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN108664632A (zh) * 2018-05-15 2018-10-16 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANTONINE MIECH等: ""Learnable pooling with Context Gating for video classification"", 《ARXIV》 *
JIE HU等: ""Squeeze-and-Excitation Networks"", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914120A (zh) * 2019-05-08 2020-11-10 阿里巴巴集团控股有限公司 视频分类方法、装置、电子设备以及计算机可读存储介质
CN110245263A (zh) * 2019-05-15 2019-09-17 北京奇艺世纪科技有限公司 一种聚合方法、装置、电子设备及存储介质
CN110287788A (zh) * 2019-05-23 2019-09-27 厦门网宿有限公司 一种视频分类方法及装置
CN110337016A (zh) * 2019-06-13 2019-10-15 山东大学 基于多模态图卷积网络的短视频个性化推荐方法及系统
CN110516086A (zh) * 2019-07-12 2019-11-29 浙江工业大学 一种基于深度神经网络影视标签自动获取方法
CN110516086B (zh) * 2019-07-12 2022-05-03 浙江工业大学 一种基于深度神经网络影视标签自动获取方法
CN111400601A (zh) * 2019-09-16 2020-07-10 腾讯科技(深圳)有限公司 一种视频推荐的方法及相关设备
CN110674348A (zh) * 2019-09-27 2020-01-10 北京字节跳动网络技术有限公司 视频分类方法、装置及电子设备
CN110781347A (zh) * 2019-10-23 2020-02-11 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备以及可读存储介质
CN110807437A (zh) * 2019-11-08 2020-02-18 腾讯科技(深圳)有限公司 视频粒度特征确定方法、装置和计算机可读存储介质
CN111428771B (zh) * 2019-11-08 2023-04-18 腾讯科技(深圳)有限公司 视频场景分类方法、装置和计算机可读存储介质
CN111428771A (zh) * 2019-11-08 2020-07-17 腾讯科技(深圳)有限公司 视频场景分类方法、装置和计算机可读存储介质
CN112885363A (zh) * 2019-11-29 2021-06-01 北京三星通信技术研究有限公司 语音发送方法和装置以及语音接收方法和装置、电子设备
CN111125386A (zh) * 2019-12-02 2020-05-08 腾讯科技(北京)有限公司 媒体资源的处理方法和装置、存储介质及电子装置
CN110990631A (zh) * 2019-12-16 2020-04-10 腾讯科技(深圳)有限公司 视频筛选方法、装置、电子设备和存储介质
CN111125177A (zh) * 2019-12-26 2020-05-08 北京奇艺世纪科技有限公司 生成数据标签的方法、装置、电子设备及可读存储介质
CN111125177B (zh) * 2019-12-26 2024-01-16 北京奇艺世纪科技有限公司 生成数据标签的方法、装置、电子设备及可读存储介质
CN111209970A (zh) * 2020-01-08 2020-05-29 Oppo(重庆)智能科技有限公司 视频分类方法、装置、存储介质及服务器
CN111209970B (zh) * 2020-01-08 2023-04-25 Oppo(重庆)智能科技有限公司 视频分类方法、装置、存储介质及服务器
CN111291618B (zh) * 2020-01-13 2024-01-09 腾讯科技(深圳)有限公司 标注方法、装置、服务器和存储介质
CN111291618A (zh) * 2020-01-13 2020-06-16 腾讯科技(深圳)有限公司 标注方法、装置、服务器和存储介质
CN111275054B (zh) * 2020-01-16 2023-10-31 北京迈格威科技有限公司 图像处理方法、装置、电子设备及存储介质
CN111291183A (zh) * 2020-01-16 2020-06-16 支付宝(杭州)信息技术有限公司 利用文本分类模型进行分类预测的方法及装置
CN111275054A (zh) * 2020-01-16 2020-06-12 北京迈格威科技有限公司 图像处理方法、装置、电子设备及存储介质
CN111368140B (zh) * 2020-02-19 2023-07-04 新华智云科技有限公司 一种视频标签生成方法及系统
CN111368140A (zh) * 2020-02-19 2020-07-03 新华智云科技有限公司 一种视频标签生成方法及系统
CN113365102A (zh) * 2020-03-04 2021-09-07 阿里巴巴集团控股有限公司 视频处理方法及装置、标签处理方法及装置
CN113365102B (zh) * 2020-03-04 2022-08-16 阿里巴巴集团控股有限公司 视频处理方法及装置、标签处理方法及装置
CN111400551A (zh) * 2020-03-13 2020-07-10 咪咕文化科技有限公司 一种视频分类方法、电子设备和存储介质
CN111400551B (zh) * 2020-03-13 2022-11-15 咪咕文化科技有限公司 一种视频分类方法、电子设备和存储介质
CN111695422A (zh) * 2020-05-06 2020-09-22 Oppo(重庆)智能科技有限公司 视频标签获取方法、装置、存储介质及服务器
CN111695422B (zh) * 2020-05-06 2023-08-18 Oppo(重庆)智能科技有限公司 视频标签获取方法、装置、存储介质及服务器
CN111581437A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 一种视频检索方法及装置
CN111626049A (zh) * 2020-05-27 2020-09-04 腾讯科技(深圳)有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN111626049B (zh) * 2020-05-27 2022-12-16 深圳市雅阅科技有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN111653290A (zh) * 2020-05-29 2020-09-11 北京百度网讯科技有限公司 音频场景分类模型生成方法、装置、设备以及存储介质
CN111653290B (zh) * 2020-05-29 2023-05-02 北京百度网讯科技有限公司 音频场景分类模型生成方法、装置、设备以及存储介质
CN111626251A (zh) * 2020-06-02 2020-09-04 Oppo广东移动通信有限公司 一种视频分类方法、视频分类装置及电子设备
CN111695053A (zh) * 2020-06-12 2020-09-22 上海智臻智能网络科技股份有限公司 序列标注方法、数据处理设备、可读存储介质
CN111737520A (zh) * 2020-06-22 2020-10-02 Oppo广东移动通信有限公司 一种视频分类方法、视频分类装置、电子设备及存储介质
CN111737520B (zh) * 2020-06-22 2023-07-25 Oppo广东移动通信有限公司 一种视频分类方法、视频分类装置、电子设备及存储介质
CN111708913B (zh) * 2020-08-19 2021-01-08 腾讯科技(深圳)有限公司 一种标签生成方法、设备及计算机可读存储介质
CN111708913A (zh) * 2020-08-19 2020-09-25 腾讯科技(深圳)有限公司 一种标签生成方法、设备及计算机可读存储介质
CN112507150A (zh) * 2020-12-09 2021-03-16 曙光信息产业(北京)有限公司 一种标签扩充方法、装置、电子设备及存储介质
CN112712066A (zh) * 2021-01-19 2021-04-27 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质
CN113032627A (zh) * 2021-03-25 2021-06-25 北京小米移动软件有限公司 视频分类方法、装置、存储介质及终端设备
CN113011383A (zh) * 2021-04-12 2021-06-22 北京明略软件系统有限公司 视频标签定义模型构建方法、系统、电子设备及存储介质
CN113052149A (zh) * 2021-05-20 2021-06-29 平安科技(深圳)有限公司 视频摘要生成方法、装置、计算机设备及介质
CN113052149B (zh) * 2021-05-20 2021-08-13 平安科技(深圳)有限公司 视频摘要生成方法、装置、计算机设备及介质
CN115935008A (zh) * 2023-02-16 2023-04-07 杭州网之易创新科技有限公司 视频的标签生成方法、装置、介质和计算设备

Also Published As

Publication number Publication date
CN109710800B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN109710800A (zh) 模型生成方法、视频分类方法、装置、终端及存储介质
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
CN111143550A (zh) 一种基于层次注意力神经网络模型的争议焦点自动识别方法
CN111160350B (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN109766277A (zh) 一种基于迁移学习与dnn的软件故障诊断方法
CN110046248A (zh) 用于文本分析的模型训练方法、文本分类方法和装置
CN113806494B (zh) 一种基于预训练语言模型的命名实体识别方法
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN110188195A (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN114722805B (zh) 基于大小导师知识蒸馏的少样本情感分类方法
CN109710760A (zh) 短文本的聚类方法、装置、介质及电子设备
CN110232128A (zh) 题目文本分类方法及装置
CN112215696A (zh) 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质
CN112434142A (zh) 一种标记训练样本的方法、服务器、计算设备及存储介质
CN115130591A (zh) 一种基于交叉监督的多模态数据分类方法及装置
CN109766259A (zh) 一种基于复合蜕变关系的分类器测试方法及系统
CN112507114A (zh) 一种基于词注意力机制的多输入lstm_cnn文本分类方法及系统
CN115658905A (zh) 一种跨篇章的事件多维画像生成方法
CN116450813B (zh) 文本关键信息提取方法、装置、设备以及计算机存储介质
CN113836934A (zh) 基于标签信息增强的文本分类方法和系统
CN113378919A (zh) 融合视觉常识和增强多层全局特征的图像描述生成方法
CN112287689A (zh) 一种司法二审案情辅助分析方法及系统
CN115357718B (zh) 主题集成服务重复材料发现方法、系统、设备和存储介质
CN116227603A (zh) 一种事件推理任务的处理方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant