CN111695422B

CN111695422B - 视频标签获取方法、装置、存储介质及服务器

Info

Publication number: CN111695422B
Application number: CN202010371462.XA
Authority: CN
Inventors: 叶志凌
Original assignee: Oppo Chongqing Intelligent Technology Co Ltd
Current assignee: Oppo Chongqing Intelligent Technology Co Ltd
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2023-08-18
Anticipated expiration: 2040-05-06
Also published as: CN111695422A

Abstract

本申请实施例公开了一种视频标签获取方法、装置、存储介质及服务器，其中，所述方法包括：启动针对目标视频的标签预测服务，获取所述目标视频的图像特征、音频特征以及文本特征；将所述目标视频的图像特征、所述音频特征以及所述文本特征输入至已训练完成的标签预测模型中，输出所述目标视频的标签。通过将视频拆解为图片、音频、文本三部分来进行标签提取，特征分析更精准，获取的标签对视频的概括度也更高，进而可为用户提供更全面准确的视频推送。

Description

视频标签获取方法、装置、存储介质及服务器

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频标签获取方法、装置、存储介质及服务器。

背景技术

网络信息量巨大，为用户提供或推送合适的信息可以提升用户黏度，同时能够避免一些重复的、无用的信息给用户带来的不利影响。

过去，用户根据几个简单的词语进行视频搜索时，搜索结果与实际需求的吻合度有限，使得视频推送不够准确，因此基于用户的历史点击行为推测用户的喜好从而进行视频推送。

发明内容

本申请实施例提供了一种视频标签获取方法、装置、存储介质及服务器，通过将视频拆解为图片、音频、文本三部分来进行标签提取，特征分析更精准，获取的标签对视频的概括度也更高。所述技术方案如下：

第一方面，本申请实施例提供了一种视频标签获取方法，所述方法包括：

启动针对目标视频的标签预测服务，获取所述目标视频的图像特征、音频特征以及文本特征；

将所述目标视频的图像特征、所述音频特征以及所述文本特征输入至已训练完成的标签预测模型中，输出所述目标视频的标签。

第二方面，本申请实施例提供了一种视频标签获取装置，所述装置包括：

特征获取模块，用于启动针对目标视频的标签预测服务，获取所述目标视频的图像特征、音频特征以及文本特征；

标签输出模块，用于将所述目标视频的图像特征、所述音频特征以及所述文本特征输入至已训练完成的标签预测模型中，输出所述目标视频的标签。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项方法的步骤。

第四方面，本申请实施例提供了一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项方法的步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的视频标签获取方法，启动针对目标视频的标签预测服务，获取所述目标视频的图像特征、音频特征以及文本特征；将所述目标视频的图像特征、所述音频特征以及所述文本特征输入至已训练完成的标签预测模型中，输出所述目标视频的标签。通过将视频拆解为图片、音频、文本三部分来进行标签提取，特征分析更精准，获取的标签对视频的概括度也更高，进而可为用户提供更全面准确的视频推送。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频标签获取方法的流程示意图；

图2是本申请实施例提供的一种视频标签获取方法的流程示意图；

图3是本申请实施例提供的一种视频标签获取方法的流程示意图；

图4是本申请实施例提供的一种获取视频标签的宏观流程示意图；

图5是本申请实施例提供的一种标签预测服务的微观框架示意图；

图6是本申请实施例提供的一种视频标签获取装置的结构示意图；

图7是本申请实施例提供的一种视频标签获取装置的结构示意图；

图8是本申请实施例提供的一种视频标签获取装置的结构示意图；

图9是本申请实施例提供的一种服务器结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面将结合附图1-附图5，对本申请实施例提供的视频标签获取方法进行详细介绍。

请参见图1，为本申请实施例提供的一种视频标签获取方法的流程示意图。

如图1所示，本申请实施例的所述方法可以包括以下步骤：

S101，启动针对目标视频的标签预测服务，获取所述目标视频的图像特征、音频特征以及文本特征。

当前的标签体系维度不够，仅限于图片标签提取或者是文本标签提取，本申请实施例提供了一种视频标签获取方法，可以完善标签体系维度，更好地为用户推荐信息。所述视频标签获取方法在服务器上执行。

用于提取标签的视频称为目标视频，标签预测服务包含对视频的多种处理，可提取出所述目标视频的标签。标签可以理解为关键字或关键词，它能概括出视频的类别及内容，通过标签可以快速了解视频。例如，一场长达2小时的网球赛事录播，标签为：网球、赛事、体育。

利用现有的特征提取算法提取出所述目标视频的图像特征、音频特征以及文本特征。更进一步的，为使特征提取结果更精准，可以分别利用图像特征提取算法提取出所述目标视频的图像特征、利用音频特征提取算法提取出所述目标视频的音频特征以及利用文本特征提取算法提取出所述目标视频的文本特征。

特别的，用于提取标签的目标视频的内容不受限制，可以是有声的或无声的，或者是仅包含图像内容的。

S102，将所述目标视频的图像特征、所述音频特征以及所述文本特征输入至已训练完成的标签预测模型中，输出所述目标视频的标签。

标签预测模型的输出结果可能是一个或多个标签。

需要指出的是，网络变化速度快导致视频的标签也不断改变，训练完成的标签预测模型还需进行定期训练，特别是对于影视、综艺等娱乐类的视频，要在特定时间使用最新的娱乐视频样本对标签预测模型进行训练更新。

更新训练完成的标签预测模型可以丰富标签内容，更好地为用户推荐信息。定期训练时间根据需求设置，例如每隔一个月定期训练一次，或者是不定时的更新训练等。

本申请实施例提供的视频标签获取方法，启动针对目标视频的标签预测服务，获取所述目标视频的图像特征、音频特征以及文本特征；将所述目标视频的图像特征、所述音频特征以及所述文本特征输入至已训练完成的标签预测模型中，输出所述目标视频的标签。本实施例提出一种视频标签获取方法，将视频拆解为图片、音频、文本三部分来进行标签提取，对视频进行拆解，特征分析更精准，获取的标签对视频的概括度也更高，同时，所述方法能够完善标签体系维度，丰富标签内容，可为用户提供更全面的信息推荐内容。

请参见图2，为本申请实施例提供的一种视频标签获取方法的流程示意图。

如图2所示，本申请实施例的所述方法可以包括以下步骤：

S201，创建初始标签预测模型，获取样本视频以及所述样本视频的标签。

样本视频应尽可能的包含各个类别、不同内容、不同格式的视频，以体育类别为例，该类视频应涵盖球类、游泳类、田径类等多个项目，而其中的球类视频应包含橄榄球、足球、乒乓球等多个球种。

样本视频的数量应尽可能的多，例如选用5000个等，每个视频应有其对应的标签(可能是一个或多个)，该标签为视频的实际/真实标签，可以是人工添加的。

视频中的图片、音频及文本都有其各自的标签预测模型，所述初始标签预测模型由一系列标签预测模型共同组成。当视频为无声视频且不包含文本内容时，用于预测图像标签的标签预测模型即构成初始标签预测模型，而当视频里仅包含图像及音频内容时，用于预测图像标签的标签预测模型和用于预测音频标签的标签预测模型共同构成初始标签预测模型。

S202，获取所述样本视频的图像特征、音频特征以及文本特征。

利用特征提取算法提取出所述目标视频的图像特征、音频特征以及文本特征。为使特征提取结果更精准，可以分别利用图像、音频、文本各自对应的特征提取模型进行特征提取。

具体的，视频中的图像特征可以采用方向梯度直方图(Histogram of OrientedGradient，HOG)算法提取，音频特征可以采用线性预测分析(Linear PredicTIonCoefficients，LPC)算法提取，文本特征可以采用词频-逆向文档频率(Termfrequency–Inverse Document Frequency，TF-IDF)算法提取。

当然，对特征的提取也并不局限于所述几个算法。

S203，利用所述样本视频的标签、所述样本视频的图像特征、音频特征以及文本特征训练所述初始标签预测模型，生成训练完成的标签预测模型。

将所述样本视频的图像特征、音频特征以及文本特征输入至初始标签预测模型中，获得标签预测结果，将该结果与样本视频的真实标签进行比较，在两者不一致时，不断地对标签预测模型中的各个参数进行调整，使得预测结果逐步接近于真实标签。

需要说明的是，初始标签预测模型由一系列标签预测模型共同组成，不同特征对应的标签预测模型均会预测出一个结果，对一系列标签预测模型的预测结果进行融合，融合结果将作为所述初始标签预测模型的输出。

待诸多样本的预测标签准确率达到准确率阈值时，认为初始标签预测模型训练完成，生成训练完成的标签预测模型。为寻求准确，所述准确率阈值可以设置为99％等较高值。

S204，获取历史操作信息。

对用户的历史行为进行学习，可以促进信息推荐结果更接近于用户偏好。

用户的历史操作信息具体可以从常用视频网站、页面视频浏览等方面获取，历史操作信息包括视频内容、浏览时间甚至是在时间上相关联的其他浏览内容等。例如，用户经常会在学习两个小时的网络课程之后，打开综艺A放松一下身体，待综艺A播放结束后，又回归至网络课程视频上。基于对这种有规律的历史操作行为的学习，可以在后续的信息推送过程中准确把握时间节点推送相似内容，提高推送成功率。

历史操作信息越全面，越能深入了解用户。

S205，根据所述历史操作信息在视频流集合中筛选出目标视频。

视频流集合中的视频类目繁多，包括时长不等的视频、重复视频以及无实质内容的视频等，基于目的在视频流集合中筛选目标视频，可提高标签提取效率。其中，筛选出来的目标视频可以为多个。

依然以步骤S204所举之例为例，根据该用户的历史行为，在视频流集合中筛选出网络课程视频以及综艺A系列视频。

可选实施例中，为丰富标签内容，扩大信息推荐范围，以尽可能多地涵盖到用户的兴趣，筛选视频时，还可以筛选出与所述综艺A相关联的其他视频，并进行标签提取。

比如综艺A为演技竞技类的综艺，筛选视频时还可以将同为演技竞技类的综艺B也作为目标视频，综艺A与综艺B构成了内容、类别上的关联；又或者综艺A除了系列节目外，还推出了大电影(也就是电影版的综艺A)，那么在筛选视频时该大电影也将作为目标视频，大电影与综艺A版本不同，但内容上保持高度一致性。

S206，启动针对所述目标视频的标签预测服务，获取所述目标视频的图像特征、音频特征以及文本特征。

标签预测服务包含特征提取、标签预测以及预测结果的融合等多种处理，利用标签预测服务可以获取到所述目标视频的标签。标签是对视频的概括，通过标签可以快速获知视频的类别及播放内容。例如，一场高中数学网络直播课程，标签可以为：高中数学、网络课程。

采用方向梯度直方图算法、线性预测分析算法以及词频-逆向文档频率算法分别对所述目标视频中的图像、音频、文本进行特征提取，获得特征提取结果。

S207，将所述目标视频的图像特征、所述音频特征以及所述文本特征输入至已训练完成的标签预测模型中，输出所述目标视频的标签。

标签预测模型的输出结果可能是一个或多个标签。

本实施例提供的视频标签获取方法，首先创建初始标签预测模型，利用获取到的样本视频以及所述样本视频的标签对所述初始标签预测模型进行训练，不断提升标签预测准确度，生成训练完成的标签预测模型；接着获取历史操作信息，根据所述历史操作信息在视频流集合中筛选出所述目标视频；启动针对所述目标视频的标签预测服务，获取所述目标视频的图像特征、音频特征以及文本特征，并利用所述已训练完成的标签预测模型获取所述目标视频的标签。网络信息量巨大，根据用户的历史操作信息筛选目标视频，可以缩小标签提取范围，提高标签提取效率；对用户历史行的学习，也进一步促使了后续的推荐内容准确率更高，更接近于用户喜好，用户黏度也会相应地提升。

请参见图3，为本申请实施例提供的一种视频标签获取方法的流程示意图。

如图3所示，本申请实施例的所述方法可以包括以下步骤：

S301，启动针对目标视频的标签预测服务，对所述目标视频进行抽帧处理，获取每帧视频对应的图像特征、音频特征以及文本特征。

标签预测服务包含特征提取、标签预测以及预测结果的融合等多种处理，利用标签预测服务可以获取到所述目标视频的标签。标签是对视频的概括，通过标签可以快速获知视频的类别及播放内容。

视频抽帧是指在一段视频中，每间隔一定帧数抽出一帧，利用所述规律在视频中抽取出若干帧的方式，对目标视频做抽帧处理可以减少后续运算量，节省功耗。

对抽帧出来的每帧视频进行特征提取，获取各帧视频分别对应的图像特征、音频特征以及文本特征，为使每帧视频特征的提取结果更精准，可以分别利用图像特征提取算法提取出所述每帧视频的图像特征、利用音频特征提取算法提取出所述每帧视频的音频特征以及利用文本特征提取算法提取出所述每帧视频的文本特征。

更为具体的，本步骤中，抽取出的各帧视频的图像特征可以采用Inception V3算法提取，音频特征可以采用VGGish算法提取，文本特征可以采用CNN算法提取。若所述各帧视频的图像及音频的维度较高时，可以先选用PCA算法对其进行降维处理，然后再进行特征提取处理。

所述目标视频的内容不受限制，可以是有声的或无声的，或者是仅包含图像内容的。

S302，对所述每帧视频对应的图像特征、音频特征以及文本特征分别进行拼接，得到所述目标视频的图像特征、音频特征以及文本特征。

拼接方法是：采用NextVlad算法分别对所述目标视频的图像特征以及音频特征进行拼接，采用CNN算法对所述目标视频的文本特征进行拼接，拼接形成一个完整的图像特征、音频特征以及文本特征，所述目标视频的特征提取完毕。

S303，将所述目标视频的图像特征、所述音频特征以及所述文本特征输入至已训练完成的标签预测模型中，利用门控语境算法计算所述目标视频的图像特征、所述音频特征以及所述文本特征的相关性，基于所述相关性调整所述图像特征、所述音频特征以及所述文本特征的权重。

目标视频的图像特征、音频特征以及文本特征输入至已训练完成的标签预测模型后，利用门控语境算法(Context Gating)对各个特征之间的相关性进行计算，再基于相关性的计算结果对目标视频图像中的各个特征的权重进行调整。其中，权重的调整具体可以是：增大相关性较强的特征的权重，降低相关性较弱的特征的权重。

S304，采用混合专家网络以及调整后的所述图像特征、所述音频特征以及所述文本特征的权重，生成并输出所述目标视频的标签。

混合专家网络(Mixture of Experts，MoE)可以将多个模型的输出整合为一个单独的结果。也就是根据调整后的所述图像特征、所述音频特征以及所述文本特征的权重，对所述目标视频的图像特征、音频特征以及文本特征进行融合，输出所述目标视频的标签。

可行实施例中，所述输出结果还可以包括标签的类别。

S305，将所述目标视频以及所述标签保存至数据库中。

输出目标视频的标签后，还可以将所述目标视频以及目标视频的标签保存至例如HBase的数据库或者是某个存储模块中。用户在利用标签进行搜索时，可以快速获取到标签对应的视频并输出显示，提高信息推送效率。此外，对目标视频以及标签进行保存还可以避免目标视频被二次提取标签，节省运算量。

S306，获取与所述标签相关联的视频，向用户终端推送所述视频。

相关联的视频可以是与所述目标视频的标签一致，但内容不同的视频。例如，目标视频为人物A的一段采访视频，该采访视频的标签为人物A，根据该标签还可以获得人物A的演讲视频，所述演讲视频即为相关联的视频，将该演讲视频推送给用户。

基于目标视频的标签，向用户推荐与所述标签相关联的视频可以扩大推送内容。

以图4和图5所示内容对本申请实施例提供的视频标签获取方法做一个完整解释说明。

如图4所示，为本申请实施例提供的一种标签提取服务的框架示意图。

该图包含视频流集合、目标视频筛选、标签预测服务以及Hbase四个部分；根据用户的历史操作信息从视频流集合中筛选出目标视频后，启动标签预测服务，标签预测服务预测出目标视频的标签后，Hbase数据库对所述目标视频以及预测出来的标签进行保存。

其中，所述标签预测服务由视频抽帧、特征提取模型、标签预测模型，以及标签输出四部分组成。

图5为所述标签提取服务的微观框架示意图。

进入标签预测服务阶段，为减少运算量，需对目标视频进行抽帧处理，然后对抽帧出来的每一帧视频分别进行图像特征提取、音频特征提取以及文本特征提取，获得每一帧视频的图像特征、音频特征以及文本特征，再利用NextVlad算法分别将各帧的图像特征聚合到一起、音频特征聚合到一起，各帧的文本特征利用CNN算法聚合，Context Gating算法对聚合后的图像特征、音频特征、文本特征之间的相关性进行计算并调整各自的权重，混合专家网络MoE根据聚合后的图像特征、音频特征、文本特征以及调整后的权重生成并输出目标视频的标签。

其中，各帧视频的特征经过NextVlad算法以及CNN算法聚合后，聚合结果即为目标视频的图像特征、音频特征以及文本特征。

本实施例提供的视频标签获取方法，启动针对目标视频的标签预测服务后，对所述目标视频进行抽帧处理，视频抽帧可以减小后续运算量；获取每帧视频对应的图像特征、音频特征以及文本特征并分别进行拼接，将拼接结果作为所述目标视频的图像特征、音频特征以及文本特征；利用已训练完成的标签预测模型来获取所述目标视频的标签，并对目标视频以及所述标签进行保存。其中，拼接后的各个特征输入已训练完成的标签预测模型后，门控语境算法计算获得所述目标视频的图像特征、所述音频特征以及所述文本特征之间的相关性，并基于所述相关性调整所述图像特征、所述音频特征以及所述文本特征的权重。权重的调整可提高标签输出结果的准确性。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图6，为本申请一个示例性实施例提供的视频标签获取装置的结构示意图。该视频标签获取装置可以通过软件、硬件或者两者的结合实现成为服务器的全部或一部分，还可以作为独立的模块集成于服务器上。本申请实施例中的视频标签获取装置应用于服务器，所述该装置1包括特征获取模块11和标签输出模块12，其中：

特征获取模块11，用于启动针对目标视频的标签预测服务，获取所述目标视频的图像特征、音频特征以及文本特征；

标签输出模块12，用于将所述目标视频的图像特征、所述音频特征以及所述文本特征输入至已训练完成的标签预测模型中，输出所述目标视频的标签。

请参见图7，为本申请一个示例性实施例提供的视频标签获取装置的结构示意图。

可选的，如图7所示，本申请实施例提供的所述视频标签获取装置1还包括：

模型创建模块13，用于创建初始标签预测模型，获取样本视频以及所述样本视频的标签，获取所述样本视频的图像特征、音频特征以及文本特征；

模型训练模块14，用于利用所述样本视频的标签、所述样本视频的图像特征、音频特征以及文本特征训练所述初始标签预测模型，生成训练完成的标签预测模型；

操作信息获取模块15，用于获取历史操作信息；

视频筛选模块16，用于根据所述历史操作信息在视频流集合中筛选出所述目标视频。

请参见图8，为本申请一个示例性实施例提供的视频标签获取装置的结构示意图。

可选的，如图8所示，本申请实施例提供的所述视频标签获取装置1中的特征获取模块11具体用于：

启动针对目标视频的标签预测服务，对所述目标视频进行抽帧处理，获取每帧视频对应的图像特征、音频特征以及文本特征；

对所述每帧视频对应的图像特征、音频特征以及文本特征分别进行拼接，得到所述目标视频的图像特征、音频特征以及文本特征；

所述装置1中的标签输出模块12包括：

权重调整单元121，用于将所述目标视频的图像特征、所述音频特征以及所述文本特征输入至已训练完成的标签预测模型中，利用门控语境算法计算所述目标视频的图像特征、所述音频特征以及所述文本特征的相关性，基于所述相关性调整所述图像特征、所述音频特征以及所述文本特征的权重；

标签输出单元122，用于采用混合专家网络以及调整后的所述图像特征、所述音频特征以及所述文本特征的权重，生成并输出所述目标视频的标签；

所述装置1还包括：

信息保存模块17，用于将所述目标视频以及所述标签保存至数据库中；

视频推荐模块18，获取与所述标签相关联的视频，向用户终端推送所述视频。

需要说明的是，上述实施例提供的视频标签获取装置在执行视频标签获取方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频标签获取装置与视频标签获取方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例提供的视频标签获取装置，启动针对目标视频的标签预测服务，获取所述目标视频的图像特征、音频特征以及文本特征；将所述目标视频的图像特征、所述音频特征以及所述文本特征输入至已训练完成的标签预测模型中，输出所述目标视频的标签。在当前仅能根据文本或图片的标签向用户推荐信息的情况下，本实施例提出一种视频标签获取方法，将视频拆解为图片、音频、文本三部分来进行标签提取，对视频进行拆解，特征分析更精准，获取的标签对视频的概括度也更高，同时，所述方法能够完善标签体系维度，丰富标签内容，可为用户提供更全面的信息推荐内容。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC)，或适合于存储指令和/或数据的任何类型的媒介或设备。

本申请实施例还提供了一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述任一实施例方法的步骤。

请参见图9，为本申请实施例提供的一种服务器结构框图。

如图9所示，服务器100包括有：处理器901和存储器902。

本申请实施例中，处理器901为计算机系统的控制中心，可以是实体机的处理器，也可以是虚拟机的处理器。处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable LogicArray，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在本申请的一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请实施例中的方法。

一些实施例中，服务器100还包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：显示屏904、摄像头905和音频电路906中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在本申请的一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在本申请的一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现。本申请实施例对此不作具体限定。

显示屏904用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏904是触摸显示屏时，显示屏904还具有采集在显示屏904的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏904还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在本申请的一些实施例中，显示屏904可以为一个，设置服务器900的前面板；在本申请的另一些实施例中，显示屏904可以为至少两个，分别设置在服务器900的不同表面或呈折叠设计；在本申请的再一些实施例中，显示屏904可以是柔性显示屏，设置在服务器100的弯曲表面上或折叠面上。甚至，显示屏904还可以设置成非矩形的不规则图形，也即异形屏。显示屏904可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(OrganicLight-Emitting Diode,有机发光二极管)等材质制备。

摄像头905用于采集图像或视频。可选地，摄像头905包括前置摄像头和后置摄像头。通常，前置摄像头设置在服务器的前面板，后置摄像头设置在服务器的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在本申请的一些实施例中，摄像头905还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路906可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在服务器100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。

电源907用于为服务器100中的各个组件进行供电。电源907可以是交流电、直流电、一次性电池或可充电电池。当电源907包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本申请实施例中示出的服务器结构框图并不构成对服务器100的限定，服务器100可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在本申请中，术语“第一”、“第二”等仅用于描述的目的，而不能理解为指示或暗示相对重要性或顺序；术语“多个”则指两个或两个以上，除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；“相连”可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

本申请的描述中，需要理解的是，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作，因此，不能理解为对本申请的限制。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种视频标签获取方法，其特征在于，所述方法包括：

将所述目标视频的图像特征、所述音频特征以及所述文本特征输入至已训练完成的标签预测模型中，所述标签预测模型中包含图像标签预测模型、音频标签预测模型和文本标签预测模型；所述图像标签预测模型用于根据所述图像特征预测图像标签，所述音频标签预测模型用于根据所述音频特征预测音频标签，所述文本标签预测模型用于根据所述文本特征预测文本标签；计算所述目标视频的图像特征、所述音频特征以及所述文本特征的相关性，基于所述相关性调整所述图像特征、所述音频特征以及所述文本特征的权重，将所述图像标签预测模型、所述音频标签预测模型和所述文本标签预测模型输出的调整权重后的特征进行融合，生成并输出所述目标视频的标签。

2.根据权利要求1所述的方法，其特征在于，所述启动针对目标视频的标签预测服务之前，还包括：

创建初始标签预测模型，获取样本视频以及所述样本视频的标签；

获取所述样本视频的图像特征、音频特征以及文本特征；

利用所述样本视频的标签、所述样本视频的图像特征、音频特征以及文本特征训练所述初始标签预测模型，生成训练完成的标签预测模型。

3.根据权利要求1所述的方法，其特征在于，所述启动针对目标视频的标签预测服务之前，还包括：

获取历史操作信息；

根据所述历史操作信息在视频流集合中筛选出所述目标视频。

4.根据权利要求3所述的方法，其特征在于，所述获取所述目标视频的图像特征、音频特征以及文本特征，包括：

对所述目标视频进行抽帧处理，获取每帧视频对应的图像特征、音频特征以及文本特征；

对所述每帧视频对应的图像特征、音频特征以及文本特征分别进行拼接，得到所述目标视频的图像特征、音频特征以及文本特征。

5.根据权利要求1所述的方法，其特征在于，所述输出所述目标视频的标签之后，还包括：

将所述目标视频以及所述标签保存至数据库中。

6.根据权利要求1所述的方法，其特征在于，所述输出所述目标视频的标签之后，还包括：

获取与所述标签相关联的视频，向用户服务器推送所述视频。

7.一种视频标签获取装置，其特征在于，所述装置包括：

标签输出模块，用于将所述目标视频的图像特征、所述音频特征以及所述文本特征输入至已训练完成的标签预测模型中，所述标签预测模型中包含图像标签预测模型、音频标签预测模型和文本标签预测模型；所述图像标签预测模型用于根据所述图像特征预测图像标签，所述音频标签预测模型用于根据所述音频特征预测音频标签，所述文本标签预测模型用于根据所述文本特征预测文本标签；计算所述目标视频的图像特征、所述音频特征以及所述文本特征的相关性，基于所述相关性调整所述图像特征、所述音频特征以及所述文本特征的权重，将所述图像标签预测模型、所述音频标签预测模型和所述文本标签预测模型输出的调整权重后的特征进行融合，生成并输出所述目标视频的标签。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现所述权利要求1-6中任一项所述方法的步骤。

9.一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述权利要求1-6中任一项所述方法的步骤。