CN113901265A

CN113901265A - 视频标签的提取方法、装置、计算机设备和存储介质

Info

Publication number: CN113901265A
Application number: CN202111041839.6A
Authority: CN
Inventors: 王喆; 范凌
Original assignee: Tezign Shanghai Information Technology Co Ltd
Current assignee: Tezign Shanghai Information Technology Co Ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2022-01-07

Abstract

本申请公开了一种视频标签的提取方法、装置、计算机设备和存储介质。该方法包括：获取待提取视频数据，提取所述待提取视频数据的视频特征；获取预先构建的视频标签体系；对所述视频特征进行多维度处理，得到目标特征；将所述目标特征与所述视频标签体系中的预设标签进行匹配，确定所述待提取视频数据对应的视频内容标签。本申请提高视频标签提取的准确性。

Description

视频标签的提取方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种视频标签的提取方法、装置、计算机设备和存储介质。

背景技术

随着营销内容井喷式增长和线上渠道的丰富，品牌对于视频内容产生越来越大的需求，视频制作的体量日益增多，要求也日益增高。企业在视频信息流投放中发现，不同agency，不同的kol(Key Opinion Leader，关键意见领袖)的内容制作方式都不同，效果也差异很大。为了对视频内容进行描述，可以将视频内容标签化。传统方式是通过从视频内容对应的视频标题中抽取标签，然而视频标题中包含的内容信息较少，提取的视频标签不够准确，无法准确描述视频内容。

发明内容

本申请的主要目的在于提供一种能够提高视频标签提取的准确性的视频标签的提取方法、装置、计算机设备和存储介质。

为了实现上述目的，根据本申请的一个方面，提供了一种视频标签的提取方法。

根据本申请的视频标签的提取方法包括：

获取待提取视频数据，提取所述待提取视频数据的视频特征；

获取预先构建的视频标签体系；

对所述视频特征进行多维度处理，得到目标特征；

将所述目标特征与所述视频标签体系中的预设标签进行匹配，确定所述待提取视频数据对应的视频内容标签。

进一步的，所述对所述视频特征进行多维度处理，得到目标特征，包括：

根据所述视频标签体系对所述视频特征进行分层处理，得到所述待提取视频数据对应的分层特征；

根据所述视频标签体系对所述分层特征进行分类处理，得到目标特征。

进一步的，所述获取待提取视频数据包括：

获取原始视频数据；

对所述原始视频数据进行数据清洗，得到待提取视频数据。

进一步的，在所述确定所述待提取视频数据对应的视频内容标签之后，所述方法还包括：

根据所述视频内容标签对所述待提取视频数据进行标注；

对打标的视频数据进行多维度标签分析，得到目标分析结果；

根据所述目标分析结果生成视频分析结果。

进一步的，所述对打标的视频数据进行多维度标签分析，得到目标分析结果，包括：

对打标的视频数据进行效果数据分析，得到效果数据分析结果；

对所述打标的视频数据对应的视频内容标签进行标签数据分析，得到标签数据分析结果；

根据所述效果数据分析结果和所述标签数据分析结果生成目标分析结果。

进一步的，所述对所述打标的视频数据进行标签数据分析，得到标签数据分析结果，包括：

将所述打标的视频数据对应的视频内容标签进行展平处理；

统计展平后的视频内容标签对应的标签基本信息，根据所述标签基本信息得到标签数据分析结果。

进一步的，所述根据所述效果数据分析结果和所述标签数据分析结果生成目标分析结果，包括：

基于所述效果数据分析结果和所述标签数据分析结果，对所述打标的视频数据对应的视频内容标签进行分类，得到多个标签类别；

对各标签类别对应的视频内容标签进行时序分析，得到各标签类别对应的时间段；

基于所述效果数据分析结果，分析所述打标的视频数据对应的视频内容标签的重要程度，根据所述视频内容标签的重要程度、各标签类别对应的时间段以及所述效果数据分析结果生成目标分析结果。

为了实现上述目的，根据本申请的另一方面，提供了一种视频标签的提取装置。

根据本申请的视频标签的提取装置包括：

特征提取模块，用于获取待提取视频数据，提取所述待提取视频数据的视频特征；

体系获取模块，用于获取预先构建的视频标签体系；

多维度处理模块，用于对所述视频特征进行多维度处理，得到目标特征；

标签提取模块，用于将所述目标特征与所述视频标签体系中的预设标签进行匹配，确定所述待提取视频数据对应的视频内容标签。

一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

上述视频标签的提取方法、装置、计算机设备和存储介质，由于待提取的视频数据包括内容分层以及不同级别的视频内容，为了确定待提取数据对应的内容分层，可以对视频特征进行分层处理，得到分层特征，通过该分层特征可以确定待提取视频数据对应的分层标签。之后，根据视频标签体系对分层特征进行分类处理，从而得到目标特征。通过对视频特征进行分层及分类处理，能够得到更准确、细致的视频特征，从而根据目标特征匹配对应的视频内容标签，提高了视频标签的提取准确性。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是一个实施例中视频标签的提取方法的应用环境图；

图2为一个实施例中视频标签的提取方法的流程示意图；

图3为一个实施例中视频标签体系的标签结构示意图；

图4为一个实施例中单条打标的视频数据的示意图；

图5为一个实施例中单条标签数据的示意图；

图6为一个实施例中效果数据分析结果的示意图；

图7为一个实施例中一级标签对应的位置分布散点图；

图8为一个实施例中标签类别的分布图；

图9为一个实施例中内容分层为口播与字幕时，各标签类别对应的时间段的示意图；

图10为一个实施例中组合数据的示意图；

图11为一个实施例中视频标签的提取装置的结构框图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本申请提供的视频标签的提取方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。服务器104获取终端102发送的视频标签提取请求，对视频标签提取请求进行解析，得到待提取视频数据，提取待提取视频数据的视频特征，获取预先构建的视频标签体系，对视频特征进行多维度处理，得到目标特征，将目标特征与视频标签体系中的预设标签进行匹配，确定待提取视频数据对应的视频内容标签。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种视频标签的提取方法，以该方法应用于图1中的服务器为例进行说明，包括如下的步骤202至步骤208：

步骤202，获取待提取视频数据，提取待提取视频数据的视频特征。

待提取视频数据是指需要进行标签提取的视频数据。

具体的，获取待提取视频数据包括：获取原始视频数据；对原始视频数据进行数据清洗，得到待提取视频数据。原始视频数据是指未经处理的视频数据。需要对原始视频数据进行粗看，再对数据进行数据清洗处理，挑选出可以进行分析的数据作为待提取视频数据。例如，对原始数据进行粗看，得到账号内数据共有145条，数据中包括视频以及效果数据。对数据进行清洗，挑选出樱花sku的数据，排除无消耗、极低消耗的数据，还可以对视频进行去重处理，得到樱花sku的数据共69条，即待提取视频数据。

具体的，可以通过特征提取网络提取待提取视频数据的视频特征，特征提取网络可以是Inception-ResNet-v2卷积神经网络模型、C3D network等用于视频特征提取的网络。视频特征用于表示视频图像的内容信息，视频特征可以包括时间维度的特征以及空间维度的特征。

步骤204，获取预先构建的视频标签体系。

服务器中存储有预先构建的视频标签体系。视频标签体系是由专家建立的。视频标签体系可以包括内容分层、一级标签的定义信息、二级标签的定义信息以及三级标签的定义信息。视频标签体系的标签结构可以是标签树，标签树可以如图3所示。

步骤206，对视频特征进行多维度处理，得到目标特征。

多维度处理可以包括分层处理以及分类处理。

具体的，对视频特征进行多维度处理，包括：根据视频标签体系对视频特征进行分层处理，得到待提取视频数据对应的分层特征，根据视频标签体系对分层特征进行分类处理，得到目标特征。

由于待提取的视频数据包括内容分层以及不同级别的视频内容，为了确定待提取数据对应的内容分层，可以对视频特征进行分层处理，得到分层特征，通过该分层特征可以确定待提取视频数据对应的分层标签。之后，根据视频标签体系对分层特征进行分类处理，从而得到目标特征。通过对视频特征进行分层及分类处理，能够得到更准确、细致的视频特征，从而根据目标特征匹配对应的视频内容标签，提高了视频标签的提取准确性。

步骤208，将目标特征与视频标签体系中的预设标签进行匹配，确定待提取视频数据对应的视频内容标签。

将目标特征与预先构建视频标签体系中的预设标签进行匹配，将匹配成功的标签作为待提取视频数据对应的视频内容标签，从而根据视频内容标签对待提取视频数据进行标注。单条打标的视频数据可以如图4所示，单条打标的视频数据的视频内容标签可以包括内容分层、一级标签、二级标签、三级标签等。还可以单独统计打标的视频数据对应的视频内容标签，得到各条标签数据，包括出现层、以及标签、二级标签、原文。单条标签数据可以如图5所示。

在本实施例中，获取待提取视频数据，提取待提取视频数据的视频特征，对视频特征进行多维度处理，得到目标特征，将目标特征与视频标签体系中的预设标签进行匹配，确定待提取视频数据对应的视频内容标签。通过对视频特征进行多维度处理，能够得到更准确、细致的视频特征，从而根据目标特征匹配对应的视频内容标签，提高了视频标签的提取准确性。

在一个实施例中，在确定待提取视频数据对应的视频内容标签之后，方法还包括：根据视频内容标签对待提取视频数据进行标注；对打标的视频数据进行多维度标签分析，得到目标分析结果；根据目标分析结果生成视频分析结果。

根据视频内容标签对待提取视频数据进行标注，得到打标的视频数据。

多维度标签分析包括效果维度分析以及标签维度分析，并分析效果维度分析结果以及标签维度分析结果之间的关系，从而得到目标分析结果。

在其中一个实施例中，对打标的视频数据进行多维度标签分析，得到目标分析结果，包括：对打标的视频数据进行效果数据分析，得到效果数据分析结果；对打标的视频数据对应的视频内容标签进行标签数据分析，得到标签数据分析结果；根据效果数据分析结果和标签数据分析结果生成目标分析结果。

效果维度分析是指对打标的视频数据进行效果数据分析。效果数据分析是指分析打标的视频数据的视频投放效果，可以通过计算视频的点击率、转化数以及消耗来确定视频投放效果。

标签维度分析是指对打标的视频数据进行标签数据分析。标签数据分析可以包括视频时长分布的分析、各视频内容标签被提及次数分析、各视频内容标签在视频中出现的位置分布分析等。

在得到效果数据分析结果和标签数据分析结果后，根据上述分析结果确定视频内容标签与投放效果之间的关系。具体可以通过分析标签的好坏、好/坏标签出现的时间以及标签的重要程度生成目标分析结果，目标分析结果可以表示视频内容标签与投放效果之间的关系。

目标分析结果表示视频内容标签与投放效果之间的关系，从而可以根据目标分析结果提取待提取视频数据的关键信息，以得到待提取视频数据的i ns ight，从而得到视频分析结果。企业可以根据视频分析结果对视频投放进行针对性优化处理，能够有效提高视频投放汇报率。

本实施例中，通过对打标的视频数据进行多维度标签分析，得到目标分析结果，实现基于视频标签分析视频内容与投放效果之间的关系，进而根据目标分析结果生成视频分析结果，有效提高了视频分析的准确性，有利于提高视频投放的回报率。

在一个实施例中，对打标的视频数据进行效果数据分析，得到效果数据分析结果，包括：计算打标的视频数据的点击率、消耗及转化数；根据点击率、投放消耗及转化数生成效果数据分析结果。

效果数据分析可以称为效果数据EDA(Exploratory Data Analysis，探索性数据分析)。可以通过计算视频的点击率、转化数以及消耗，根据点击率、转化数以及消耗进行作图，得到效果数据分析结果。在本实施例中，可以将打标的视频数据的ID为x轴，消耗cost或持续时长duration为y轴构建二维坐标系图。x轴中各打标的视频数据的排序依据可以选择点击率、转化数或消耗中的任意一种。如图6所示，可以选择以点击率为排序依据，确定x轴各打标的视频数据的顺序，以消耗cost为y轴构建坐标系图，从而可以得到视频的点击率与消耗cost之间的关系。

在一个实施例中，对打标的视频数据进行标签数据分析，得到标签数据分析结果，包括：将打标的视频数据对应的视频内容标签进行展平处理；统计展平后的视频内容标签对应的标签基本信息，根据标签基本信息得到标签数据分析结果。

标签数据分析称为标签数据EDA(Exploratory Data Analysis，探索性数据分析)。标签数据分析可以包括分析视频内容标签对应的标签基本信息，包括视频时长分布的分析、各视频内容标签被提及次数分析、各视频内容标签在视频中出现的位置分布分析等。

具体的，先对打标的视频数据对应的视频内容标签进行展平处理。每条视频对应的视频内容标签为一个Excel文件，标签呈二维表格，并且包含时间维度，为方便分析，对数据做展平处理。展平处理以二级标签作为数据分析的最小标签单元，三级标签及之后的标签作为最小标签单元的具体值。

示例性的，打标的视频数据对应的视频内容标签可以如下表所示：

其中，内容分层，表示标签出现的载体位置，如标签出现在口播、画面等；一级标签，表示标签树的根标签，其可再分为二级标签；二级标签，表示标签树中的叶子标签；三级标签等，表示上级标签中的具体值。以叶子标签作为数据分析的最小标签单元，三级标签作为最小标签单元的具体值对视频内容标签进行展平处理。展平后的数据如下所示：

数据展平处理后，一行为一个视频数据，列为内容标签。单元格中为标签值以及该标签出现的时间、持续时长。

对打标的视频数据进行视频时长分布的分析。具体的，根据打标的视频数据构建视频时长分布直方图，根据直方图计算平均视频时长，确定最短视频时长和最长视频时长。

服务器还可以统计各视频内容标签被提及次数，根据统计的标签被提及次数确定被提及较多或较少的标签。例如，通过统计标签被提及次数，在内容分层标签中，较多的标签出现在口播与字幕层，为137次约占44％，其次是画面展示层，为74约占24％，花字与内容创意层被提及的标签最少。在级别标签中，转化刺激、产品展示、功效描述、品牌信息、产品基础信息类型的标签被提及较多，用户心理、优惠卖点、达人号召等类型的标签被提及较少。

进一步的，分别统计内容分层标签、一级标签、二级标签、三级标签等多种标签出现在视频中出现的位置分布。具体的，单独对每种标签进行位置分布分析，获取每种标签中各标签出现在视频中的时间点以及持续时长。将持续时长用散点来表示，根据每种标签中各标签出现在视频中的时间点以及持续时长构建各种标签对应的位置散点图，从而根据位置散点图确定每种标签的分布特征，分布特征可以包括在开头处/中部/结尾处，提及较多且持续时间较长的标签、提及较少的标签、有提及的标签等。示例性的，如图7所示，为一级标签对应的位置分布散点图。根据该图可以得到：在开头处，转化刺激、转化目的、品牌信息、产品基础信息、正文标签提及较多，且持续时间较长；在结尾处，痛点描述、功效描述、达人推荐等均有提及。

再如，针对内容分层类标签对应的位置散点图，分析得到：在开头处，内容标签主要出现在包框品牌区层、段落层、口播与字幕层、画面展示层，其中包框品牌区层、段落层的内容标签持续时间较长，口播与字幕层的标签持续时间较短。在结尾处，有标签出现在口播与字幕层与段落层。中间40-50秒左右标签出现率较少，考虑检查代码是否有统计错误。

在进行视频时长分布的分析、各视频内容标签被提及次数分析、各视频内容标签在视频中出现的位置分布分析等标签基本信息的分析后，将分析结果作为标签数据分析结果。

在本实施例中，通过将打标的视频数据对应的视频内容标签进行展平处理，有利于后续进行标签基本信息的分析。统计展平后的视频内容标签对应的标签基本信息，根据标签基本信息得到标签数据分析结果，通过视频时长分布的分析、各视频内容标签被提及次数分析以及各视频内容标签在视频中出现的位置分布分析，能够全面准确地分析得到视频内容标签在视频中的出现时间等情况。

在一个实施例中，根据效果数据分析结果和标签数据分析结果生成目标分析结果，包括：基于效果数据分析结果和标签数据分析结果，对打标的视频数据对应的视频内容标签进行分类，得到多个标签类别；对各标签类别对应的视频内容标签进行时序分析，得到各标签类别对应的时间段；基于效果数据分析结果，分析打标的视频数据对应的视频内容标签的重要程度，根据视频内容标签的重要程度、各标签类别对应的时间段以及效果数据分析结果生成目标分析结果。

基于效果数据分析结果和标签数据分析结果，分析标签的好坏、好/坏标签出现的时间以及标签的重要程度，并根据分析数据生成目标分析结果，目标分析结果可以表示视频内容标签与投放效果之间的关系。

分析标签的好坏可以基于效果数据分析结果和标签数据分析结果，计算标签的命中数、上升/下降命中数以及标签ctr(Click-Through-Rate，点击率)。其中，命中数表示标签在出现在视频中的次数，上升/下降命中数表示标签出现在视频ctr上升/下降时间段的次数，标签ctr表示含有该标签的所有视频的加权平均ctr。从而可以根据标签的命中数、上升/下降命中数以及标签ctr对打标的视频数据对应的视频内容标签进行分类，得到的多个标签类别。进一步的，将标签ctr高于所有标签的ctr中位数，上升命中数大于下降命中数的，划分为A类。将标签ctr低于所有标签的ctr中位数，上升命中数大于下降命中数的，划分为B类，将标签ctr高于所有标签的ctr中位数，上升命中数小于下降命中数的，划分为C类，将标签ctr低于所有标签的ctr中位数，上升命中数小于下降命中数的，划分为D类，得到4类标签，A类标签最好，D类最差。标签类别的分布图可以如图8所示。A类标签可以包括口播与字幕-香味-好闻(无方面)-好闻、口播与字幕-转化目的-引导购买-立即购买，B类标签可以包括口播与字幕-功效描述-蓬松-自然蓬松，C类标签可以包括口播与字幕-功效描述-蓬松-2倍蓬松，D类标签可以包括口播与字幕-功效描述-蓬松-蓬松。

服务器从而对各标签类别对应的视频内容标签进行时序分析，具体的，查看每个内容分层对应的ABCD四个区域的标签出现的时序数据，以及获取每个内容分层的较好的标签(AB)位置。例如，内容分层为口播与字幕时，各标签类别对应的时间段的示意图可以如图9所示。通过对各标签类别对应的视频内容标签进行时序分析，能够得到较好的标签应该出现的时间。

在其中一个实施例中，基于效果数据分析结果，分析打标的视频数据对应的视频内容标签的重要程度，包括：将效果数据分析结果和打标的视频数据对应的视频内容标签进行对齐，得到组合数据；调用预先构建的标签分析模型，将组合数据以及视频内容标签分别输入至标签分析模型中，确定视频内容标签的重要程度。

对齐方式可以是将多个视频内容标签进行拼接，得到标签列，列值为该标签出现的时间、持续时长，用“&”符号区分，一条视频中出现的多个时间点用“、”区分。如图10所示，列为标签名，由出现层、一级标签、二级标签、三级标签拼接而成，291个标签列值为该标签出现的时间、持续时长，由“&”符号区分，与效果数据分析结果对齐后，共19条数据。通过组合数据可以分析标签多少与视频CTR的变化的关系。

服务器中预先构建有标签分析模型，标签分析模型可以由点击率预测模型和注意力模型组成，将组合数据以及视频内容标签分别输入至标签分析模型中，从而输出视频内容标签的重要程度。

在本实施例中，通过将效果数据分析结果和打标的视频数据对应的视频内容标签进行对齐，有利于后续分析标签的重要程度，而通过预先构建的标签分析模型分析标签的重要程度，能够准确预测标签的重要程度。

进而将视频内容标签的重要程度、各标签类别对应的时间段以及效果数据分析结果作为目标分析结果。基于效果数据分析结果和标签数据分析结果，对打标的视频数据对应的视频内容标签进行分类，得到多个标签类别，能够确定好坏标签。对各标签类别对应的视频内容标签进行时序分析，得到各标签类别对应的时间段，能够确定好坏标签应该出现的时间。基于效果数据分析结果，分析打标的视频数据对应的视频内容标签的重要程度，根据视频内容标签的重要程度、各标签类别对应的时间段以及效果数据分析结果生成目标分析结果，能够得到标签对投放效果的影响程度。

在一个实施例中，标签分析模型包括点击率预测模型和注意力模型，调用预先构建的标签分析模型，将组合数据以及视频内容标签分别输入至标签分析模型中，确定视频内容标签的重要程度，包括：将组合数据输入至点击率预测模型中，确定组合数据中每条标签对点击率的影响程度；将视频内容标签输入至注意力模型，输出打标的视频数据的点击率对应的注意力分布；根据注意力分布以及组合数据中每条标签对点击率的影响程度确定视频内容标签的重要程度。

服务器可以将组合数据输入至点击率预测模型中，确定组合数据中每条标签对点击率的影响程度。点击率预测模型可以是使用多种回归模型进行训练得到的。例如，回归模型可以包括KNeighborsUnif、KNeighborsDist、LightGBMXT、LightGBM、RandomForestMSE、CatBoost、ExtraTreesMSE、NeuralNetFastAI、XGBoost、NeuralNetMXNet、LightGBMLarge、WeightedEnsemble_L2。具体的，在训练过程中考虑的数据特征是：标签在一个视频中出现的次数，可以根据该数据特征对组合数据进行整理，通过回归模型对整理后的数据进行点击率预测，根据预测的点击率与实际的点击率进行比较，确定最终模型，作为点击率预测模型。通过点击率预测模型对组合数据进行预算处理，输出每条标签对点击率的影响程度，包括每条标签的重要性分值(importance)以及显著性分值(p_valune)。

在视频内容标签中，其标签是由时序构成的，影响视频点击率CTR效果的特征并不是独立存在的，很有可能是因为几个标签顺序组合的模式而产生的影响。基于上述问题，服务器可以将时序标签转换为自然语言任务，使用注意力模型输出注意力分布。本实施例中的注意力模型为基于标签体系下的注意力模型，注意力模型可以进行视频CTR归因处理。具体的，将视频内容标签以及各标签的开始时间、标签持续时长输入至注意力模型，将输入的数据处理为令牌数据，包括：标签token、标签开始时间token、标签持续占比token。对各令牌数据进行特征提取，得到各标签对应的标签embedding、标签开始时间embedding以及标签持续占比embedding，将各标签对应的标签embedding、标签开始时间embedding以及标签持续占比embedding进行融合，得到各标签对应的标签融合特征，得到融合序列。通过GRU网络模型提取融合序列的上下文特征，使用Attention Pooling得出该视频CTR得分的注意力分布attention weight。进而根据注意力分布以及组合数据中每条标签对点击率的影响程度确定所有视频内容标签的重要程度。可以在所有视频内容标签中选取重要标签进行视频分析，如可以选取20个作为重要标签，如下表所示：

进一步的，还可以在注意力模型中给每个标签加入一个特征：随着时间递

减权重，模拟人真实看视频的注意倾向，有利于提高标签重要程度分析的有效性。

在本实施例中，点击率预测模型可以准确确定组合数据中每条标签对点击率的影响程，而注意力模型可以输出打标的视频数据的点击率对应的注意力分布，可以得到标签顺序的组合对点击率的影响程度，从而根据注意力分布以及组合数据中每条标签对点击率的影响程度确定视频内容标签的重要程度。由此可准确预测标签对视频投放效果的影响力。

在一个实施例中，根据目标分析结果生成视频分析结果，包括：根据目标分析结果确定待提取视频数据对应的关键信息；根据关键信息生成视频分析结果。

目标分析结果中包括视频内容标签的重要程度、各标签类别对应的时间段以及效果数据分析结果。服务器根据目标分析结果提取待提取视频数据对应的关键信息，得到每条视频数据的insight。例如，每条视频数据的insight可以包括：insight1：3s后用户流失严重，前3s和前10秒是视频展示内容的黄金时期。具体的，高点击率和低点击率的差异在于10秒内是否密集的展示了关键数据，前3秒应该重点展示产品展示品牌信息方面。insight2：所有视频效果都会在3秒内爬升至高峰，优化前3秒对内容有整体提升作用，优化3-30秒的用户流失也是有效的方向。Insight 3：视频时长过长转化率会有下降的倾向，20-30秒是更合理的视频时长。具体的，多采用20-30秒的混剪类的视频，会比更长的口播类视频效果更加稳定。

进一步的，还可以统计预设视频内容类型的排名信息，包括：平均点击率排名、平均转化率排名、综合指数排名、现有视频素材量排名、点击率方差排名、转化率方差排名。综合指数计算公式为：60％*点击率+30％转化率-10％平均点击成本。预设视频内容类型可以包括剧情、达人口播、混剪以及单人口播-明星等。根据统计的预设视频内容类型的排名信息以及每条视频数据的insight确定视频投放策略。例如，Insight为视频时长过长转化率会有下降的倾向，20-30秒是更合理的视频时长，则可以多采用20-30秒的混剪类的视频，会比更长的口播类视频效果更加稳定。

对多条视频数据的insight进行汇总，得到视频分析结果。例如，汇总表可以如下所示：

在本实施例中，由于目标分析结果中包括视频内容标签的重要程度、各标签类别对应的时间段以及效果数据分析结果，根据目标分析结果确定待分析视频数据对应的关键信息，进而生成视频分析结果。能够提高视频分析的准确性，能够快速确定对视频投放效果较好的内容标签，以及视频内容的制作方式。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在一个实施例中，如图11所示，提供了一种视频标签的提取装置，包括：特征提取模块1102、体系获取模块1104、多维度处理模块1106和标签提取模块1108，其中：

特征提取模块1102，用于获取待提取视频数据，提取待提取视频数据的视频特征。

体系获取模块1104，用于获取预先构建的视频标签体系。

多维度处理模块1106，用于对视频特征进行多维度处理，得到目标特征。

标签提取模块1108，用于将目标特征与视频标签体系中的预设标签进行匹配，确定待提取视频数据对应的视频内容标签。

在一个实施例中，多维度处理模块1106还用于根据视频标签体系对视频特征进行分层处理，得到待提取视频数据对应的分层特征；根据视频标签体系对分层特征进行分类处理，得到目标特征。

在一个实施例中，特征提取模块1102还用于获取原始视频数据；对原始视频数据进行数据清洗，得到待提取视频数据。

在一个实施例中，上述装置还包括：分析模块，用于根据视频内容标签对待提取视频数据进行标注；对打标的视频数据进行多维度标签分析，得到目标分析结果；根据目标分析结果生成视频分析结果。

在一个实施例中，分析模还用于对打标的视频数据进行效果数据分析，得到效果数据分析结果；对打标的视频数据对应的视频内容标签进行标签数据分析，得到标签数据分析结果；根据效果数据分析结果和标签数据分析结果生成目标分析结果。

在一个实施例中，分析模还用于将打标的视频数据对应的视频内容标签进行展平处理；统计展平后的视频内容标签对应的标签基本信息，根据标签基本信息得到标签数据分析结果。

在一个实施例中，分析模还用于基于效果数据分析结果和标签数据分析结果，对打标的视频数据对应的视频内容标签进行分类，得到多个标签类别；对各标签类别对应的视频内容标签进行时序分析，得到各标签类别对应的时间段；基于效果数据分析结果，分析打标的视频数据对应的视频内容标签的重要程度，根据视频内容标签的重要程度、各标签类别对应的时间段以及效果数据分析结果生成目标分析结果。

关于视频标签的提取装置的具体限定可以参见上文中对于视频标签的提取方法的限定，在此不再赘述。上述视频标签的提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储一种视频标签的提取方法的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频标签的提取方法。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述各个实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频标签的提取方法，其特征在于，包括：

获取预先构建的视频标签体系；

对所述视频特征进行多维度处理，得到目标特征；

2.根据权利要求1所述的方法，其特征在于，所述对所述视频特征进行多维度处理，得到目标特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取待提取视频数据包括：

获取原始视频数据；

对所述原始视频数据进行数据清洗，得到待提取视频数据。

4.根据权利要求1所述的方法，其特征在于，在所述确定所述待提取视频数据对应的视频内容标签之后，所述方法还包括：

根据所述视频内容标签对所述待提取视频数据进行标注；

根据所述目标分析结果生成视频分析结果。

5.根据权利要求4所述的方法，其特征在于，所述对打标的视频数据进行多维度标签分析，得到目标分析结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述打标的视频数据进行标签数据分析，得到标签数据分析结果，包括：

将所述打标的视频数据对应的视频内容标签进行展平处理；

7.根据权利要求5所述的方法，其特征在于，所述根据所述效果数据分析结果和所述标签数据分析结果生成目标分析结果，包括：

8.一种视频标签的提取装置，其特征在于，所述装置包括：

体系获取模块，用于获取预先构建的视频标签体系；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。