CN113761253A

CN113761253A - 视频标签确定方法、装置、设备及存储介质

Info

Publication number: CN113761253A
Application number: CN202110552039.4A
Authority: CN
Inventors: 袁宇辰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-12-07

Abstract

本申请公开了一种视频标签确定方法、装置、设备及存储介质，属于人工智能技术领域。所述方法包括：获取待识别视频对应的至少一个目标图像；对于每个目标图像，对目标图像进行图像分类处理，生成目标图像对应的图像特征数据；将各目标图像对应的图像特征数据进行组合，得到待识别视频的视频特征数据；根据视频特征数据，确定待识别视频的至少一个类别标签。本申请实施例提供的技术方案中，通过对视频中的图像内容进行分类得到用于预测图像分类概率的图像特征数据，并将各图像的图像特征数据组合生成视频特征数据，体现图像独立特征同时还保留图像间特征，最后通过视频特征数据预测待识别视频的类别标签，有效提升视频标签识别的准确率。

Description

视频标签确定方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种视频标签确定方法、装置、设备及存储介质。

背景技术

随着互联网技术的发展，在在线视频领域，视频标签识别是一项重要功能。通过视频标签可有效归纳用户感兴趣的视频垂类、保证视频检索结果的准确性、精细化地向用户推送视频内容。

为了确定视频标签，可通过人工标注的方式为视频添加标签；或者计算视频中各图像属于某一分类的概率分数并与阈值进行比较，进而确定各图像的标签，然后统计所有图像的标签并基于标签数量进行投票，确定出视频的标签。

相关技术中，忽略了帧与帧之间在特征上的关联，还可能会忽略一些具有指导意义的标签，并且人工标注成本高，视频标签确定的准确性低。

发明内容

本申请实施例提供了一种视频标签确定方法、装置、设备及存储介质，能够降低人工标注成本，充分利用视频中各图像的独立特征信息以及各图像间的关联特征信息，有效提升视频标签确定的准确性。

根据本申请实施例的一个方面，提供了一种视频标签确定方法，所述方法包括：

获取待识别视频对应的至少一个目标图像；

对于每个所述目标图像，对所述目标图像进行图像分类处理，生成所述目标图像对应的图像特征数据，所述图像特征数据用于预测所述目标图像属于各类别标签的概率；

将各所述目标图像对应的图像特征数据进行组合，得到所述待识别视频的视频特征数据，所述视频特征数据表征视频中图像的独立特征信息以及图像间的关联特征信息；

根据所述视频特征数据，确定所述待识别视频的至少一个类别标签。

根据本申请实施例的一个方面，提供了一种视频标签确定装置，所述装置包括：

图像获取模块，用于获取待识别视频对应的至少一个目标图像；

图像特征确定模块，用于对于每个所述目标图像，对所述目标图像进行图像分类处理，生成所述目标图像对应的图像特征数据，所述图像特征数据用于预测所述目标图像属于各类别标签的概率；

视频特征确定模块，用于将各所述目标图像对应的图像特征数据进行组合，得到所述待识别视频的视频特征数据，所述视频特征数据表征视频中图像的独立特征信息以及图像间的关联特征信息；

类别标签确定模块，用于根据所述视频特征数据，确定所述待识别视频的至少一个类别标签。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述视频标签确定方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述视频标签确定方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频标签确定方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过对待识别视频中的图像内容进行图像分类，选取用于预测图像分类概率的图像特征数据并将各图像的图像特征数据组合生成待识别视频的特征数据，不仅能够表征待识别视频中各图像独立特征，还保留了图像间特征，最后基于待识别视频的视频特征数据预测待识别视频的类别标签，充分全面利用的待识别视频中的特征信息，有效提升视频标签识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的应用程序运行环境的示意图；

图2是本申请一个实施例提供的视频标签确定方法的流程图；

图3示例性示出了一种识别视频标签的流程示意图；

图4是本申请另一个实施例提供的视频标签确定方法的流程图；

图5示例性示出了图片级分类模型的训练方法的流程图；

图6示例性示出了标签预测模型的训练方法的流程图；

图7是本申请一个实施例提供的视频标签确定装置的框图；

图8是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

本申请实施例提供的方案涉及人工智能技术以及云技术，下面对此进行简要说明，以便于本领域技术人员理解。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括：终端10和服务器20。

终端10可以是诸如手机、平板电脑、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备、PC(Personal Computer，个人计算机)等电子设备。终端10中可以安装应用程序的客户端。

在本申请实施例中，上述应用程序可以是任何能够提供视频内容服务的应用程序。典型地，该应用程序为视频内容服务应用程序，如在线视频应用程序、短视频创作分享应用程序等等。比如，在线视频应用程序是聚合热播影视、综艺娱乐、体育赛事、新闻资讯等为一体的综合视频内容平台，并通过多种形态为用户提供高清流畅的视频娱乐体验。又比如，用户不仅可以在短视频创作分享应用程序上浏览各种短视频,同时还可以通过创作短视频来分享自己的所见所闻。当然，除了视频内容服务应用程序之外，其它类型的应用程序中也能够提供视频内容服务。例如，新闻阅读应用程序、资讯浏览应用程序、浏览器应用程序、信息流内容服务应用程序、内容营销应用程序、社交类应用程序、互动娱乐类应用程序、虚拟现实(Virtual Reality，VR)类应用程序、增强现实(Augmented Reality，AR)类应用程序等，本申请实施例对此不作限定。另外，对于不同的应用程序来说，其提供的视频内容服务和视频类型也会有所不同，且相应的功能也会有所不同，这都可以根据实际需求预先进行配置，本申请实施例对此不作限定。可选地，终端10中运行有上述应用程序的客户端。

服务器20用于为终端10中的应用程序的客户端提供后台服务。例如，服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。可选地，服务器20同时为多个终端10中的应用程序提供后台服务。

可选地，终端10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在介绍本申请提供的方法实施例之前，先对本申请方法实施例中可能涉及的相关术语或者名词进行简要介绍，以便于本申请领域技术人员理解。

图像分类是根据图像的语义信息对不同类别图像进行区分，是物体检测、图像分割、物体跟踪、行为分析、人脸识别等高层次视觉任务的基础。图像分类在许多领域都有着广泛的应用，例如在视频推荐、视频检索、视频广告投放等领域，通过对视频中图像进行图像分类处理，进而完成视频标签识别便是上述领域中是一项重要功能。在视频推荐领域，视频标签可有效归纳用户感兴趣的视频垂类，并在后续推荐具有相同或相似标签的视频；在视频检索领域，视频标签可直接决定检索结果的准确性；在视频广告投放领域，视频标签发挥用户精准定位功能，关联用户感兴趣内容的广告及投放，实现广告精确化、个性化。

提升方法(boosting)是一种应用广泛且有效的统计学习方法。在分类问题中，基于已有多个训练好的弱分类器的前提下，提升方法将同一图片、不同弱分类器的输出结果(例如逻辑回归层输出的完整概率预测向量，或最后一个池化层之后的特征向量)作为一个整体，再次作为其自身的输入的一个训练样本。之后，在少量图片标注的监督下，通过不同训练样本以学习得到不同分类器分量的权重，并将这些分类器的输出结果进行最优线性组合，以提高分类的效果。常见的提升方法模型包括AdaBoost、XGBoost等。相比于深度神经网络(DNN)，提升方法具有模型小、参数量少、所需训练数据少、相对不易过拟合等优点，适用于本申请对应的视频数据标注稀少的场景。

卷积神经网络通常是在固定的资源预算下发展起来的，如果有更多的资源可用的话，则会扩大规模以获得更好的网络模型精度，比如可以提高网络深度(depth)、网络宽度(width)和输入图像分辨率(resolution)大小。EfficientNet(效率网络)为了追求更好的精度和效率，通过复合模型扩张方法并结合神经结构搜索技术，从depth、width、resolution这三个维度去缩放模型，使用非常少的参数就达到了很好的效果。模型缩放过程中的各个维度之间并不是完全独立的，比如说，对于更大的分辨率图像，应该使用更深、更宽的网络，这就意味着需要平衡各个扩张维度，而不是在单一维度张扩张。如果想使用2N倍的计算资源，只需要对网络宽度增加αN，深度增加βN和增加γN倍的图像大小。其中α、β、γ是固定的系数，最优的值通常使用小范围的网格搜索(grid search)得到。

请参考图2，其示出了本申请一个实施例提供的视频标签确定方法的流程图。该方法可应用于计算机设备中，所述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图1所示的应用程序运行环境中的终端10或者服务器20。该方法可以包括以下几个步骤(210～240)。

步骤210，获取待识别视频对应的至少一个目标图像。

上述目标图像可以是待识别视频中的视频帧，也可以是视频帧经过图像预处理后的图像。上述视频帧可以是待识别视频的全部视频帧，也可以是从待识别视频中抽取的一定数量的视频帧。

可选地，若所需目标图像的数量为N，可获取待识别视频对应的N个目标图像，N为正整数。

步骤220，对于每个目标图像，对目标图像进行图像分类处理，生成目标图像对应的图像特征数据。

上述图像分类处理可以是基于图像分类算法实现的图像处理方式。

图像特征数据用于预测目标图像属于各类别标签的概率，并可表征上述目标图像中的特征信息。

可选地，分别对上述N个目标图像进行图像分类处理，生成N个目标图像各自对应的L维图像特征向量，上述图像特征向量为上述图像特征数据的数学表达形式，同样用于预测所述目标图像属于各类别标签的概率，其中L为正整数。

在一种可能的实施方式中，可构建图片级分类模型进行上述图像分类处理，上述图片级分类模型可以是EfficientNet，上述图像特征数据可以是EfficientNet中输入至逻辑回归层(softmax层)的特征数据。其中，图片级分类模型的训练样本包括各类别标签对应的样本图像，上述样本图像是根据各类别标签搜索得到的图片搜索结果中符合预设筛选条件的图像。上述预设筛选条件包括在图片搜索结果中处于前数量阈值的图像。

步骤230，将各目标图像对应的图像特征数据进行组合，得到待识别视频的视频特征数据。

视频特征数据表征视频中图像的独立特征信息以及图像间的关联特征信息。

可选地，将上述N个目标图像各自对应的L维图像特征向量进行组合，得到所述待识别视频的N×L维视频特征数据，上述N×L维视频特征数据的数学表现形式可以是一个N×L维视频特征矩阵。可选地，N个目标图像各自对应的L维图像特征向量可按照时序排列于视频特征矩阵中的各行。

步骤240，根据视频特征数据，确定待识别视频的至少一个类别标签。

在一种可能的实施方式中，可构建基于提升方法(boosting)的标签预测模型(即提升方法模型)，对上述视频特征数据进行分类，输出待识别视频的至少一个类别标签。

在一个示例中，如图3所示，其示例性示出了一种识别视频标签的流程示意图。首先，对视频进行抽帧，这里对抽帧方式和数量不作限定，可根据实际情况制定抽帧方案。然后对抽取的图像帧进行图像预处理，将预处理后的图像输入至图片级分类模型，假定从视频中抽取N帧视频帧，上述图片级模型分别输出N个图片级特征，分别为图片级特征1、图片级特征2……图片级特征N。将上述图片级特征1至图片级特征N合并得到合并特征，将上述表征视频特征的合并特征输入至提升方法模型(即一种标签预测模型)，得到视频级标签预测结果，最终得以确定视频的类别标签。

综上所述，本申请实施例提供的技术方案，通过对待识别视频中的图像内容进行图像分类，选取用于预测图像分类概率的图像特征数据并将各图像的图像特征数据组合生成待识别视频的特征数据，不仅能够表征待识别视频中各图像独立特征，还保留了图像间特征，最后基于待识别视频的视频特征数据预测待识别视频的类别标签，充分全面利用的待识别视频中的特征信息，有效提升视频标签识别的准确率。

在上文实施例中提到可通过机器学习模型来识别视频内容，进而确定视频标签。在实际应用过程中，为了训练准确有效的视频标签识别模型，通常需要大量的视频级训练数据。然而实际应用中，视频级数据的标注并非易事。例如，对于一个全新的视频标签，由于缺少初始数据积累，若想识别该视频标签，必须先进行足够的初始数据的标注才可训练初版的视频标签识别模型。然而视频级数据的标注，无论在价格还是时间上均具有高昂的成本。为了解决上述视频级数据标注成本高的问题，可利用标注好的图片级数据作为训练样本，由于获取图片级数据(静态图片)相对来说容易得多，因此可以有效降低标注成本。在一种可能的实施方式中，可通过图片搜索引擎，依次根据标签列表中的各类别标签进行图片搜索，或者从网络资源中爬取与各类别标签对应的图片，从而得到各类别标签下的图片搜索结果，并从中筛选、保留与各标签关联性高的图片，例如在图片搜索结果中排序位置符合预设条件的图片，进而得到标注好的样本图像。这样，无需任何人工标注，即可短时间内快速得到一个大规模的图片级训练集，以训练上述实施例中涉及的图片级分类模型。

本申请提供的视频标签确定方法的目标在于确定待识别视频的类别标签，希望得到是视频级标签识别结果。尽管通过上述图片级分类模型可以获得待识别视频中每一帧的特征数据，但如何利用图片级的特征数据来确定推理出待识别视频的类别标签，仍是个值得探讨的问题。若通过投票方式对图片级的分类结果进行汇总，会导致忽略视频中各视频帧之间的时序关系和内容上的关联性，效果较差。因此，本申请实施例提出基于图片级分类模型和提升方法(boosting)的视频标签确定方法，仅需加入少量视频级数据标注，即可基于视频内容确定视频标签，有效提升标签识别效果。并且，利用本申请实施例提供的方法还可用图片级模型对海量未标注的视频数据进行刷库，为每一个视频生成一组相对高质量的候选标签。而候选标签的引入，不仅可显著降低视频级数据的标注难度(从而降低标注成本)，亦可利用候选标签+多轮迭代的方式直接训练视频级标签识别模型。

下面通过介绍本申请的另一个实施例，来为上述内容作进一步的解释说明。

请参考图4，其示出了本申请另一个实施例提供的视频标签确定方法的流程图。该方法可应用于图1所示的应用程序运行环境中。该方法可以包括以下几个步骤(401-408)。

步骤401，获取待识别视频。

上述待识别视频可以是用户上传的视频，也可以是从直播视频数据流中获取的视频。

步骤402，对待识别视频进行视频抽帧处理，得到至少一个目标视频帧。

可选地，可按照预设时间间隔，从上述待识别视频在预设时间间隔内对应的图像帧序列中抽取第一预设数量的图像帧，得到目标图像帧。上述第一预设数量可以根据实际情况确定，本申请实施例对此不作限定。

可选地，从待识别视频对应的图像帧序列中随机抽取第二预设数量的图像帧，得到目标图像帧。上述第二预设数量可以根据实际情况确定，本申请实施例对此不作限定。

上述视频接收及抽帧过程可以视作视频预处理过程。实际应用中一般会固定每段视频所抽取的帧数，该数目本身可根据实际需要决定；抽取方式亦可采用整体随机或等时间间隔抽取。这里假设共有M段视频，每段视频固定抽取N帧，则一共会生成M×N帧目标视频帧。

步骤403，对至少一个目标视频帧进行图像预处理，得到至少一个目标图像。

在示例性实施例中，上述步骤403可通过如下方式实施。

1、对于任一目标视频帧，将目标视频帧中各像素在各颜色通道上的像素值进行归一化处理，得到目标视频帧对应的归一化图像。

比如，逐像素除以255.0，将像素值的值域由[0,255]归一化为[0,1]。

2、将归一化图像中各像素在各颜色通道上的像素值，分别减去各颜色通道对应的像素平均值，得到差值图像。

比如，逐像素减去各颜色通道上的统一均值，例如[0.485,0.456,0.406]，其中0.485,0.456,0.406分别是各像素在各颜色通道上的像素平均值。

3、将差值图像中各像素在各颜色通道上的像素值，分别除以各颜色通道对应的像素方差值，得到目标视频帧对应的目标图像。

比如，逐像素除以各颜色通道上的统一方差，例如[0.229,0.224,0.225]，其中0.229,0.224,0.225分别是各像素在各颜色通道上的像素值的方差。

可选地，在进行上述预处理步骤之前，还可以统一目标图像视频帧的尺寸为预设尺寸，比如将图像尺寸固定到统一尺寸，例如300×300，单位：像素。

上述预处理的目的，在于将所抽取的目标视频帧统一到图片级模型可接收的尺寸；同时经过归一化、减均值和除方差操作，降低图片背景的影响，使得图像中的主体目标更加突出，增加特征提取的鲁棒性。

步骤404，将目标图像输入至图片级分类模型进行图像分类处理。

可选地，按照批次将目标图像输入至图片级分类模型进行图像分类处理。在一种可能的实施方式中，图片级分类模型每次可以处理的图像的数量为B(即一个批次)，即可以批次为单位，依次将各目标图像送入图片级模型，进行向前传播，若有M段视频，每段视频抽取N帧，则共需要(M×N)/B次模型处理后，可以处理完全部数据。

可选地，上述图片级分类模型为EfficientNet。

步骤405，将图片级分类模型中输入逻辑回归层的数据确定为目标图像对应的图像特征数据。

可选地，选择EfficientNet在最后softmax层之前的特征数据，共L＝1792维特征数据，作为目标图像对应的图像特征数据。可选地，上述图像特征数据以向量形式输出，即目标图像对应的图像特征向量。通过所述EfficientNet对目标图像进行图像分类处理，得到输入至EfficientNet中softmax层的L维图像特征数据；将上述L维图像特征数据作为目标图像对应的L维图像特征向量，并从EfficientNet输出；EfficientNet依次处理上述N个目标图像后，得到N个目标图像各自对应的L维图像特征向量。根据上述方式，在M段视频,每段视频抽取N帧的情况下，可提取的图片级特征整体维度为M×N×L。

上述图片级分类模型EfficientNet只是可能的示例之一，实际可根据需要，自由更换为其他匹配的模型，模型替换后对应的图像预处理过程(包括resize、减均值、除方差)也可做相应变化。

步骤406，将各目标图像对应的图像特征数据进行组合，得到待识别视频的视频特征数据。

可选地，将各目标图像对应的图像特征向量进行组合，得到待识别视频的视频特征数据。

可选地，将N个目标图像对应的L维图像特征向量进行组合，得到待识别视频的N×L维视频特征矩阵。

步骤407，将视频特征数据输入至标签预测模型，得到标签预测模型输出的标签预测向量。

标签预测向量包括待识别视频属于各类别标签的概率值。

可选地，将上述视频特征矩阵输入至视频标签预测模型，通过视频标签预测模型对待识别视频进行标签预测处理，输出待识别视频对应的标签预测向量。

在一种可能的实施方式中，上述标签预测模型是基于提升方法构建的机器学习模型，用于进行分类任务，在本实施例中，上述标签预测模型可以是提升方法模型，通过上述提升方法模型对上述视频特征数据进行分类，输出待识别视频属于各类别标签的概率值，进而可以确定待识别视频的类别标签。

可选地，标签预测模型涉及的特征维度参数，例如L，亦可根据实际需要改变。提升方法模型可以使用但不限于AdaBoost、XGBoost(Extreme Gradient Boosting,极端梯度提升)、GBDT等。此外，标签预测模型还可使用深度神经网络，同样以当前视频合并后的每帧图片级特征作为输入、以视频级标注作为监督信号。

步骤408，将概率值降序排列，将排列结果中前预设数量个概率值对应的类别标签，确定为待识别视频的类别标签。

上述预设数量可以根据实际情况确定，本申请实施例对此不作限定。可选地，将概率值降序排列，选取降序排列的排列结果中的前K个概率值，K为正整数；将前K个概率值对应的类别标签，确定为待识别视频的类别标签。

在实际应用场景中，虽然本申请实施例提供的视频标签确定方法可单独实施进而确定视频标签。但本申请实施例提出的视频标签确定方法，还可以在缺乏视频级标注的情况下为海量无标注视频提供高质量的候选标签，为其他机器学习任务提供便利。具体来说，包括但不限于以下两种情况。

一、基于候选标签送标视频级数据。相比于直接从几十甚至数百的完整标签集合中选择合适的标签，标注人员可仅从候选标签集(例如Top10或Top20)中进行选择，大大降低了视频级数据的标注难度，从而可进一步降低标注时间及金钱成本

二、利用候选标签+多轮迭代的方式直接训练视频级标签识别模型，即类似于半监督训练方式，在仅有少量已标注数据的前提下，利用候选标签作为未标注数据的“标注”，与已标注混合后组成训练集，训练初版模型，并用初版模型对当前训练集进行预测。之后，筛选出预测结果与“标注”不一致的数据，进行人工标注，并再次融入训练集，进行新一轮迭代。

值得注意的是，上述应用均是在本申请实施例确定出的候选标签集质量足够高的前提下，才能得以实现，这也是本申请实施例的核心目的。如果候选标签集本身质量较低、不可靠，则难以进行上述应用。

综上所述，本申请实施例提供的技术方案，通过图片级分类模型对待识别视频中选定视频帧的图像内容进行图像分类，将图片级分类模型中输入至逻辑回归层的数据作为图像特征数据，再将各选定视频帧的图像特征数据叠加组合生成视频级特征数据，在表征各视频帧独立特征的同时还保留了视频帧的帧间特征，最后以待识别视频的视频特征数据作为输入数据，，输入至标签预测模型预测待识别视频的类别标签，充分全面利用的待识别视频中的特征信息，有效提升视频标签识别的准确率和效率。

在示例性实施例中，如图5所示，其示例性示出了图片级分类模型的训练方法的流程图。上述图片级分类模型的训练过程包括如下步骤(51-55)。

步骤51，获取类别标签集合。

类别标签集合包括各类别标签。

步骤52，对于任一类别标签，根据类别标签进行搜索，得到类别标签下的图片搜索结果。

可选地，将上述类别标签输入至图片搜索引擎，图片搜索引擎以上述类别标签为关键词进行搜索，得到上述类别标签下的图片搜索结果。图片搜索引擎对上述类别标签集合中每个类别标签均进行上述搜索操作，得到各类别标签下的图片搜索结果。

步骤53，对图片搜索结果进行筛选，得到类别标签的样本图像。

可选地，根据图片筛选条件，对图片搜索结果进行筛选，得到该类别标签下的样本图像；上述预设筛选条件包括在图片搜索结果中选取处于前数量阈值的图像。

步骤54，根据样本图像和类别标签生成图片级分类模型的训练样本。

上述类别标签作为上述样本图像的标签信息，即监督信息，生成上述图片级分类模型的训练样本。各样本图像及其类别标签构成上述图片级分类模型的训练样本集。

对于一个全新且没有任何标注数据的垂类，通过图片搜索引擎，根据圈定的标签列表依次爬取搜索结果，并筛选、保留头部高关联性的图片。这样，无需任何人工标注，即可短时间内快速得到一个大规模的图片级训练集，并完成初始图片级标签分类模型的构建和训练。具体模型结构可根据实际需要确定，这里以EfficientNet-B4网络为例。

步骤55，基于训练样本优化图片级分类模型。

在一种可能的实施方式中，上述图片级分类模型为EfficientNet(效率网络)，为了追求更好的模型准确度、模型计算效率，通过复合模型扩张方法并结合神经结构搜索技术，从网络深度、网络宽度、输入图像分辨率这三个维度去缩放模型，降低模型参数数量。可以通过小范围的网格搜索(grid search)，得到最优的网络深度系数、网络宽度系数、输入图像分辨率系数，进而确定模型的网络深度、网络宽度、输入图像分辨率。

在示例性实施例中，如图6所示，其示例性示出了标签预测模型的训练方法的流程图。上述标签预测模型的训练过程包括如下步骤(61-64)。

步骤61，获取样本视频对应的视频特征矩阵。

这里通过举例对上述步骤61进行说明，假设共有M段样本视频，每段样本视频固定抽取N帧，则一共会生成M×N帧目标视频帧。将上述M×N帧目标视频帧输入至上述训练完成的图片级分类模型，通过上述图片级分类模型输出各目标视频帧的L维图像特征向量，将每段样本视频的目标视频帧的图像特征向量进行组合，得到各样本视频对应的N×L维视频特征矩阵，上述视频特征矩阵是上文实施例中视频特征数据的一种数学表达形式。

步骤62，获取视频特征矩阵对应的视频级标注数据。

视频级标注数据包括至少一个类别标签。上述视频级标注数据的数量远小于视频中视频帧的数量，以视频为单位进行标注，可大量降低人工标注成本，无需对视频中的图像帧进行标注。

步骤63，根据视频特征矩阵和视频级标注数据生成标签预测模型的训练样本。

上述视频级标注数据作为上述视频特征矩阵的标签信息，即监督信息，作为上述标签预测模型的训练样本。

步骤64，基于训练样本优化标签预测模型。

上述标签预测模型可以是提升方法模型，对于提升方法的介绍详见相关术语介绍，这里不再赘述。

优化方式可以是将同一视频不同帧的图片级特征视作提升方法模型“不同弱分类器”的输出；这样，上文实施例中中每个视频的视频特征矩阵恰好可以作为提升方法的一个训练样本，其监督信号即对应视频的视频级标注。若样本视频数量为M个，则训练样本共有M个，直接使用全部样本进行训练，或采用交叉验证(cross-validation)方式训练，即可完成提升方法模型的构建。

在测试阶段，对于一个测试样本视频，同样抽取N帧并提取对应N×L维的视频特征矩阵，经过提升方法模型后即可输出对应的视频级标签预测结果。需要注意的是，图片分类模型已经提前训练好，仅用于提取图片(视频帧)特征。

对于通过标签预测模型确定出的类别标签有误的样本，可以重新修订其标注信息，进行下一轮训练，迭代更新标签预测模型的模型参数，直至达到预期模型效果，得到训练好的标签预测模型。

通过利用机器学习中广泛使用的提升方法，将每一视频帧均视作一个“模型”的独立来源，以各帧对应的完整的图像特征向量(无需卡阈值)作为该“模型”的输出。之后，将所有帧的图像特征向量连接成一个完整的数据矩阵，作为提升模型的输入，结合少量视频级标注(仅需图片训练集的5％以内)，即可训练一个高质量的提升模型确定视频的类别标签。上述提升方法可灵活使用不同特征作为输入，而非仅限于每帧的标签结果。并且，使用没有经过阈值处理的完整的图片特征向量，可以最大限度保留每帧的特征信息。另外，提升方法模型的输出仍为一个完整的特征向量，用户可从中该特征向量选出概率值最高的TopK个概率值对应的类别标签作为模型输出，不会出现针对类别标签进行投票的方式平票的问题。此外，少量视频级标注的监督信号，可更有效地让模型学习到帧级别特征和视频级特征的关联，保证模型的准确度和效率。

上文实施例中提供的视频标签确定方法可确定出视频对应的类别标签，在确定出上述类别标签之后，还可以根据应用场景，实施下述方案。

应用场景一：

获取目标用户帐号对应的视频浏览记录。

基于预设视频筛选规则，从视频浏览记录中查找目标视频，上述目标视频包括目标用户帐号的使用者感兴趣的视频。

确定目标视频的类别标签。

基于类别标签确定目标视频垂类，上述目标视频垂类包括目标用户帐号的使用者感兴趣的视频垂类。

向目标用户帐号推送目标视频垂类下的视频；

或者，向目标用户帐号推送类别标签下的视频；

或者，向目标用户帐号推送与类别标签关联的类别标签下的视频。

以视频推荐领域为例，视频标签可有效归纳用户感兴趣的视频垂类，并在后续向用户推荐具有相同或相似标签的视频。

应用场景二：

获取目标用户帐号的搜索关键词。

确定与搜索关键词关联的类别标签。

基于类别标签，确定与类别标签关联的视频搜索结果。

以视频检索领域为例，视频标签可直接决定检索结果的准确性。

应用场景三：

获取目标用户帐号对应的视频浏览记录；

基于预设视频筛选规则，从视频浏览记录中查找目标视频，目标视频包括目标用户帐号的使用者感兴趣的视频

确定目标视频的类别标签；

向目标用户帐号推送与类别标签关联的多媒体内容，多媒体美容包括多媒体格式的广告资讯。

以视频广告投放领域为例，视频标签发挥用户精准定位功能，关联用户感兴趣内容的广告及投放，实现广告推送精确化、个性化。

下述为本申请装置实施例，可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图7，其示出了本申请一个实施例提供的视频标签确定装置的框图。该装置具有实现上述视频标签确定方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置700可以包括：图像获取模块710、图像特征确定模块720、视频特征确定模块730以及类别标签确定模块740。

图像获取模块710，用于获取待识别视频对应的至少一个目标图像；

图像特征确定模块720，用于对于每个所述目标图像，对所述目标图像进行图像分类处理，生成所述目标图像对应的图像特征数据，所述图像特征数据用于预测所述目标图像属于各类别标签的概率；

视频特征确定模块730，用于将各所述目标图像对应的图像特征数据进行组合，得到所述待识别视频的视频特征数据，所述视频特征数据表征视频中图像的独立特征信息以及图像间的关联特征信息；

类别标签确定模块740，用于根据所述视频特征数据，确定所述待识别视频的至少一个类别标签。

在示例性实施例中，所述图像特征确定模块720，包括：图像输入单元以及图像特征输出单元。

图像输入单元，用于将所述目标图像输入至图片级分类模型进行所述图像分类处理；

图像特征输出单元，用于将所述图片级分类模型中输入逻辑回归层的数据确定为所述目标图像对应的图像特征数据。

在示例性实施例中，所述图片级分类模型的训练过程包括：

获取类别标签集合，所述类别标签集合包括所述各类别标签；

对于任一类别标签，根据所述类别标签进行搜索，得到所述类别标签下的图片搜索结果；

对所述图片搜索结果进行筛选，得到所述类别标签的样本图像；

根据所述样本图像和所述类别标签生成所述图片级分类模型的训练样本；

基于所述训练样本优化所述图片级分类模型。

在示例性实施例中，所述类别标签确定模块740，包括：概率预测单元以及标签确定单元。

概率预测单元，用于将所述视频特征数据输入至标签预测模型，得到所述标签预测模型输出的标签预测向量，所述标签预测向量包括所述待识别视频属于所述各类别标签的概率值；

标签确定单元，用于将所述概率值降序排列，将排列结果中前预设数量个概率值对应的类别标签，确定为所述待识别视频的类别标签。

在示例性实施例中，所述标签预测模型的训练过程包括：

获取样本视频对应的视频特征矩阵；

获取所述视频特征矩阵对应的视频级标注数据，所述视频级标注数据包括至少一个类别标签；

根据所述视频特征矩阵和所述视频级标注数据生成所述标签预测模型的训练样本；

基于所述训练样本优化所述标签预测模型。

在示例性实施例中，所述图像获取模块710，包括：视频获取单元、视频抽帧单元以及图像预处理单元。

视频获取单元，用于获取所述待识别视频；

视频抽帧单元，用于对所述待识别视频进行视频抽帧处理，得到至少一个目标视频帧；

图像预处理单元，用于对所述至少一个目标视频帧进行图像预处理，得到所述至少一个目标图像。

在示例性实施例中，所述图像预处理单元，包括：归一化子单元、减均值子单元以及除方差子单元。

归一化子单元，用于对于任一目标视频帧，将所述目标视频帧中各像素在各颜色通道上的像素值进行归一化处理，得到所述目标视频帧对应的归一化图像；

减均值子单元，用于将所述归一化图像中各像素在各颜色通道上的像素值，分别减去所述各颜色通道对应的像素平均值，得到差值图像；

除方差子单元，用于将所述差值图像中各像素在各颜色通道上的像素值，分别除以所述各颜色通道对应的像素方差值，得到所述目标视频帧对应的目标图像。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图8，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是服务器，以用于执行上述视频标签确定方法。具体来讲：

计算机设备800包括中央处理单元(Central Processing Unit，CPU)801、包括随机存取存储器(Random Access Memory，RAM)802和只读存储器(Read Only Memory，ROM)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。计算机设备800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O(Input/Output)系统)806，和用于存储操作系统813、应用程序814和其他程序模块812的大容量存储设备807。

基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备807及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说，大容量存储设备807可以包括诸如硬盘或者CD-ROM(CompactDisc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory，电可擦可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。

根据本申请的各种实施例，计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备800可以通过连接在系统总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述视频标签确定方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述视频标签确定方法。

可选地，该计算机可读存储介质可以包括：ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取记忆体)、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频标签确定方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频标签确定方法，其特征在于，所述方法包括：

获取待识别视频对应的至少一个目标图像；

2.根据权利要求1所述的方法，其特征在于，所述对所述目标图像进行图像分类处理，生成所述目标图像对应的图像特征数据，包括：

将所述目标图像输入至图片级分类模型进行所述图像分类处理；

将所述图片级分类模型中输入逻辑回归层的数据确定为所述目标图像对应的图像特征数据。

3.根据权利要求2所述的方法，其特征在于，所述图片级分类模型的训练过程包括：

基于所述训练样本优化所述图片级分类模型。

4.根据权利要求1所述的方法，其特征在于，所述根据所述视频特征数据，确定所述待识别视频的至少一个类别标签，包括：

将所述视频特征数据输入至标签预测模型，得到所述标签预测模型输出的标签预测向量，所述标签预测向量包括所述待识别视频属于所述各类别标签的概率值；

将所述概率值降序排列，将排列结果中前预设数量个概率值对应的类别标签，确定为所述待识别视频的类别标签。

5.根据权利要求4所述的方法，其特征在于，所述标签预测模型的训练过程包括：

获取样本视频对应的视频特征矩阵；

基于所述训练样本优化所述标签预测模型。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述获取待识别视频对应的至少一个目标图像，包括：

获取所述待识别视频；

对所述待识别视频进行视频抽帧处理，得到至少一个目标视频帧；

对所述至少一个目标视频帧进行图像预处理，得到所述至少一个目标图像。

7.根据权利要求6所述的方法，其特征在于，所述对所述至少一个目标视频帧进行图像预处理，得到所述至少一个目标图像，包括：

对于任一目标视频帧，将所述目标视频帧中各像素在各颜色通道上的像素值进行归一化处理，得到所述目标视频帧对应的归一化图像；

将所述归一化图像中各像素在各颜色通道上的像素值，分别减去所述各颜色通道对应的像素平均值，得到差值图像；

将所述差值图像中各像素在各颜色通道上的像素值，分别除以所述各颜色通道对应的像素方差值，得到所述目标视频帧对应的目标图像。

8.一种视频标签确定装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的视频标签确定方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一项所述的视频标签确定方法。