CN116112763A

CN116112763A - 一种自动化生成短视频内容标签的方法及系统

Info

Publication number: CN116112763A
Application number: CN202211425782.4A
Authority: CN
Inventors: 孙笑科; 程姣; 杨云龙; 王鼎华; 李佳; 张良; 黄亮; 杨近朱; 党向磊; 胡燕林; 刘帅修; 刘岩; 冯静怡; 李邱苹; 孟繁中; 李怡辰
Original assignee: Chang'an Communication Technology Co ltd; National Computer Network and Information Security Management Center
Current assignee: Chang'an Communication Technology Co ltd; National Computer Network and Information Security Management Center
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-05-12

Abstract

本发明涉及短视频短视频标签构建技术领域，具体公开了一种自动化生成短视频内容标签的方法及系统，包括：S100,视频信息输入，将待处理视频导入系统中；S200数据预处理及关键帧提取，将视频信息进行切帧预处理，并对相邻的将两帧图像进行差分，得到图像的平均像素强度可以用来衡量两帧图像的变化大小，基于帧间差分的平均强度，每当视频中的某一帧与前一帧画面内容产生了大的变化，提取作为关键帧；S300图像描述生成，关键帧进行分析处理并输出描述关键词作为图像标签；S400描述统计等内容；本发明采用视频关键帧提取算法，相比全部帧比对的方法提高了处理速度，同时相比随机抽帧的方式提高了准确性。

Description

一种自动化生成短视频内容标签的方法及系统

技术领域

本发明涉及短视频标签技术领域，具体是一种自动化生成短视频内容标签的方法及系统。

背景技术

近年来短视频平台经过迅猛发展已经逐渐变成了最主流的传媒方式，随之而来的就是各平台出现海量的短视频数据，在海量的数据中就不免会出现各种违规有害的视频。以往针对短视频的审核依赖于大量的人工，不过在近几年人工智能算法的技术加持下审核的方式也逐渐向自动化靠拢。利用人工智能技术对视频等数据审核的过程中都需要对数据先生成相关的标签，然后通过不同的标签进行聚类分析，获取比较容易出现问题的视频类别等方式进行。而目前现有的技术中视频的标签主要还是依赖于用户在上传时自行定义的标签，自定义的标签会出现和视频内容不匹配、多样化等问题，而且通常标签也无法将视频配套的描述信息、字幕等文本信息包含，这样就导致标签的种类会非常多并且对内容审核的参考性不大。当前环境下，算法在针对视频、图像等数据的分类及检测中很多场景下已经远远超过了人工，因此可以在定义好标签体系的情况下，生成某一个视频标签时采用深度学习算法。在此背景下，研究一种基于短视频内容信息的标签构建方法变得十分重要。

现有技术(CN114265953A)一种基于标签的短视频推荐方法、系统、设备和介质，所述方法包括如下步骤：获取视频的标签和标签相关度；根据用户行为数据生成用户画像，并计算用户对视频的标签偏好度；根据用户画像，采用基于内容和用户协同的方式推荐视频。该方法存在的不足主要是该方法只是提供了在视频已经有标签的情况下来验证标签与视频的相关性，并不能为视频生成标签。

现有技术(CN114297439A)一种短视频标签确定方法、系统、装置及存储介质，方法包括：获取第一短视频的音频信息，对第一短视频进行视频音频分析得到第一音频标签；获取第一短视频的关键帧信息，对第一短视频进行视频内容分析得到第一场景标签、第一物体标签以及第一人物标签；获取第一短视频的标题信息、视频描述信息以及字幕信息，对第一短视频进行视频语义分析得到第一语义标签；根据第一音频标签、第一场景标签、第一物体标签、第一人物标签以及第一语义标签进行权重决策分析，生成第一短视频标签。该方法不足主要为对视频关键帧内容标签生成的过程中依赖于预先训练好的场景识别、人物识别等模型，对先验模型中不存在的内容识别度不够。

综上所述,本发明提供了一种自动化生成短视频内容标签的方法及系统。

发明内容

本发明的目的是针对现有的视频标签生成技术中存在的问题，提出了采用视频关键帧自动化生成标签的方法。在视频帧生成标签的过程中，首先利用关键帧提取算法对视频中具有代表意义的帧进行提取，将数据预处理后采用Encoder-Attention-Decoder算法进行图像内容自动生成的方式，可利用算法对图像内容自主进行理解，输出可以代表图像中包含内容的关键词作为标签。

为实现上述目的，本发明提供如下技术方案：一种自动化生成短视频内容标签的方法，所述方法包括如下步骤：

S100,视频信息输入，将待处理视频导入系统中；

S200数据预处理及关键帧提取，将视频信息进行切帧预处理，并对相邻的将两帧图像进行差分，得到图像的平均像素强度可以用来衡量两帧图像的变化大小，基于帧间差分的平均强度，每当视频中的某一帧与前一帧画面内容产生了大的变化，提取作为关键帧；

S300图像描述生成，关键帧进行分析处理并输出描述关键词作为图像标签；

S400描述统计，图像描述生成产生的每一个关键词进行合并去重，并将关键词安装次数排序；

S500视频标签输出，将步骤S400统计关键词中的高频词汇输出作为视频标签。

作为本发明所述的一种优选实施方案，所述步骤S200中详细步骤如下：

S201：将输入视频按顺序做切帧处理，切帧完成后每一帧进行高斯滤波处理；

S202：将视频原始的每一帧和前一帧(若输入为第一帧时复制该帧做为前帧进行处理)首先进行绝对值差分计算，对结果进行二值化后矩阵数值相加为其帧间差分值；

S203：对上一步差分值列表进行标准化平滑处理；

S204：利用滑动窗口方式进行最大差分值选取，并按照其下标获取原始帧数据；

S205：将上述提取的关键帧图像大小放缩至224*224并做归一化处理。

作为本发明所述的一种优选实施方案，所述步骤S300图像描述生成包括Encoder处理、Attention处理和Decoder处理。

作为本发明所述的一种优选实施方案，所述步骤S300详细内容如下如下：

S301：Encoder处理采用去除分类输出层的ResNet预训练模型，最终输出的向量维度大小为14*14*2048；

S302：Attention处理主要是将上述产生的图片的小区域和下一个单词做对齐，Attention包括三个全连接层、一个Relu激活函数以及softmax分类函数，在每一次产生词汇时需要获得对应的14*14个权重值α；

S303：Decoder处理主要是利用t-1时刻产生的隐藏层状态和t时刻的图片注意力向量来产生下一个词。

作为本发明所述的一种优选实施方案，所述S303中去掉LSTM，再Decoder部分直接调用Attention预测下一个词，从而输出产生描述语句的关键词。

作为本发明所述的一种优选实施方案，所述步骤S400详细步骤如下：

S401：本步骤采用基于步骤S300对第一步产生的所有关键帧进行推理，输出为每一帧图像对应一组关键词；

S402：将步骤S401中得到的所有关键词合并、去重，统计每个关键词出现的次数并按照次数排序。

一种自动化生成短视频内容标签的系统，所述系统包括：

预处理及关键帧提取模块，用于将输入视频信息进行切帧预处理，并对相邻的将两帧图像进行差分，得到图像的平均像素强度可以用来衡量两帧图像的变化大小，基于帧间差分的平均强度，每当视频中的某一帧与前一帧画面内容产生了大的变化，提取作为关键帧；

图像描述生成模块，用于关键帧进行分析处理并输出描述关键词作为图像标签；

统计模块，用于图像描述生成产生的每一个关键词进行合并去重，并将关键词安装次数排序，并将排序前五的关键词作为该视频内容标签输出。

与现有技术相比，本发明的有益效果是：

1.本发明采用视频关键帧提取算法，相比全部帧比对的方法提高了处理速度，同时相比随机抽帧的方式提高了准确性；

2.本发明针对视频内容提取关键帧利用Encoder-Attention-Decoder模型对每一帧进行内容理解，自动生成关键词；

3.本发明对若干关键帧对应的关键词进行统计，取较多出现次数的关键词作为视频内容标签，提高了标签的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为本发明一种自动化生成短视频内容标签的方法流程图；

图2为本发明一种自动化生成短视频内容标签的系统结构图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1-图2，本发明提供一种自动化生成短视频内容标签的方法，所述方法包括如下步骤：

S100,视频信息输入，将待处理视频导入系统中；

S500视频标签输出，将步骤S400统计关键词中的高频词汇输出作为视频标签，其中，视频标签输出实施例如下：

进一步的，所述步骤S200中详细步骤如下：

S203：对上一步差分值列表进行标准化平滑处理；

进一步的，所述步骤S300图像描述生成包括Encoder处理、Attention处理和Decoder处理。

进一步的，所述步骤S300详细内容如下如下：

S301：Encoder处理采用去除分类输出层的ResNet预训练模型，最终输出的向量维度大小为14*14*2048；其中ResNet的训练流程如下：采用resnet101预训练模型作为encoder的主要组成部分。

1)resnet101冻结参数；

2)去掉了后两层分类层；

3)后5层参数参与反向传播，用来自适应模型；

进一步的，所述S303中去掉LSTM，再Decoder部分直接调用Attention预测下一个词，从而输出产生描述语句的关键词。

进一步的，所述步骤S400详细步骤如下：

一种自动化生成短视频内容标签的系统，所述系统包括：

预处理及关键帧提取模块100，用于将输入视频信息进行切帧预处理，并对相邻的将两帧图像进行差分，得到图像的平均像素强度可以用来衡量两帧图像的变化大小，基于帧间差分的平均强度，每当视频中的某一帧与前一帧画面内容产生了大的变化，提取作为关键帧；

图像描述生成模块200，用于关键帧进行分析处理并输出描述关键词作为图像标签；

统计模块300，用于图像描述生成产生的每一个关键词进行合并去重，并将关键词安装次数排序，并将排序前五的关键词作为该视频内容标签输出。

综上所述：本发明采用视频作为输入，提取关键帧自动生成图片内容关键词，统计关键词生成视频内容标签。其中效果相比其它方法更好的原因有以下两点：本发明键帧提取处理效率高且代表性强；自动化生成图像描述关键词处理效率高且不需人工介入。

示例性的，处理器从存储器中逐条取出指令、分析指令，然后根据指令要求完成相应操作，产生一系列控制命令，使计算机各部分自动、连续并协调动作，成为一个有机的整体，实现程序的输入、数据的输入以及运算并输出结果，这一过程中产生的算术运算或逻辑运算均由运算器完成；所述存储器包括只读存储器(Read-Only Memory，ROM)，所述只读存储器用于存储计算机程序，所述存储器外部设有保护装置。

示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在终端设备中的执行过程。

本领域技术人员可以理解，上述服务设备的描述仅仅是示例，并不构成对终端设备的限定，可以包括比上述描述更多或更少的部件，或者组合某些部件，或者不同的部件，例如可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，上述处理器是上述终端设备的控制中心，利用各种接口和线路连接整个用户终端的各个部分。

上述存储器可用于存储计算机程序和/或模块，上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如信息采集模板展示功能、产品信息发布功能等)等；存储数据区可存储根据泊位状态显示系统的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例系统中的全部或部分模块/单元，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个系统实施例的功能。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种自动化生成短视频内容标签的方法，其特征在于，所述方法包括如下步骤：

S100,视频信息输入，将待处理视频导入系统中；

2.根据权利要求1所述的一种自动化生成短视频内容标签的方法，其特征在于，所述步骤S200中详细步骤如下：

S203：对上一步差分值列表进行标准化平滑处理；

3.根据权利要求1所述的一种自动化生成短视频内容标签的方法，其特征在于，所述步骤S300图像描述生成包括Encoder处理、Attention处理和Decoder处理。

4.根据权利要求3所述的一种自动化生成短视频内容标签的方法，其特征在于，所述步骤S300详细内容如下如下：

5.根据权利要求4所述的一种自动化生成短视频内容标签的方法，其特征在于，所述S303中去掉LSTM，再Decoder部分直接调用Attention预测下一个词，从而输出产生描述语句的关键词。

6.根据权利要求5所述的一种自动化生成短视频内容标签的方法，其特征在于，所述步骤S400详细步骤如下：

7.一种基于权利要求1-6所述的自动化生成短视频内容标签的系统，其特征在于，所述系统包括：