CN116112763A - 一种自动化生成短视频内容标签的方法及系统 - Google Patents

一种自动化生成短视频内容标签的方法及系统 Download PDF

Info

Publication number
CN116112763A
CN116112763A CN202211425782.4A CN202211425782A CN116112763A CN 116112763 A CN116112763 A CN 116112763A CN 202211425782 A CN202211425782 A CN 202211425782A CN 116112763 A CN116112763 A CN 116112763A
Authority
CN
China
Prior art keywords
frame
video
frames
images
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211425782.4A
Other languages
English (en)
Inventor
孙笑科
程姣
杨云龙
王鼎华
李佳
张良
黄亮
杨近朱
党向磊
胡燕林
刘帅修
刘岩
冯静怡
李邱苹
孟繁中
李怡辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chang'an Communication Technology Co ltd
National Computer Network and Information Security Management Center
Original Assignee
Chang'an Communication Technology Co ltd
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chang'an Communication Technology Co ltd, National Computer Network and Information Security Management Center filed Critical Chang'an Communication Technology Co ltd
Priority to CN202211425782.4A priority Critical patent/CN116112763A/zh
Publication of CN116112763A publication Critical patent/CN116112763A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • H04N21/8405Generation or processing of descriptive data, e.g. content descriptors represented by keywords
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及短视频短视频标签构建技术领域,具体公开了一种自动化生成短视频内容标签的方法及系统,包括:S100,视频信息输入,将待处理视频导入系统中;S200数据预处理及关键帧提取,将视频信息进行切帧预处理,并对相邻的将两帧图像进行差分,得到图像的平均像素强度可以用来衡量两帧图像的变化大小,基于帧间差分的平均强度,每当视频中的某一帧与前一帧画面内容产生了大的变化,提取作为关键帧;S300图像描述生成,关键帧进行分析处理并输出描述关键词作为图像标签;S400描述统计等内容;本发明采用视频关键帧提取算法,相比全部帧比对的方法提高了处理速度,同时相比随机抽帧的方式提高了准确性。

Description

一种自动化生成短视频内容标签的方法及系统
技术领域
本发明涉及短视频标签技术领域,具体是一种自动化生成短视频内容标签的方法及系统。
背景技术
近年来短视频平台经过迅猛发展已经逐渐变成了最主流的传媒方式,随之而来的就是各平台出现海量的短视频数据,在海量的数据中就不免会出现各种违规有害的视频。以往针对短视频的审核依赖于大量的人工,不过在近几年人工智能算法的技术加持下审核的方式也逐渐向自动化靠拢。利用人工智能技术对视频等数据审核的过程中都需要对数据先生成相关的标签,然后通过不同的标签进行聚类分析,获取比较容易出现问题的视频类别等方式进行。而目前现有的技术中视频的标签主要还是依赖于用户在上传时自行定义的标签,自定义的标签会出现和视频内容不匹配、多样化等问题,而且通常标签也无法将视频配套的描述信息、字幕等文本信息包含,这样就导致标签的种类会非常多并且对内容审核的参考性不大。当前环境下,算法在针对视频、图像等数据的分类及检测中很多场景下已经远远超过了人工,因此可以在定义好标签体系的情况下,生成某一个视频标签时采用深度学习算法。在此背景下,研究一种基于短视频内容信息的标签构建方法变得十分重要。
现有技术(CN114265953A)一种基于标签的短视频推荐方法、系统、设备和介质,所述方法包括如下步骤:获取视频的标签和标签相关度;根据用户行为数据生成用户画像,并计算用户对视频的标签偏好度;根据用户画像,采用基于内容和用户协同的方式推荐视频。该方法存在的不足主要是该方法只是提供了在视频已经有标签的情况下来验证标签与视频的相关性,并不能为视频生成标签。
现有技术(CN114297439A)一种短视频标签确定方法、系统、装置及存储介质,方法包括:获取第一短视频的音频信息,对第一短视频进行视频音频分析得到第一音频标签;获取第一短视频的关键帧信息,对第一短视频进行视频内容分析得到第一场景标签、第一物体标签以及第一人物标签;获取第一短视频的标题信息、视频描述信息以及字幕信息,对第一短视频进行视频语义分析得到第一语义标签;根据第一音频标签、第一场景标签、第一物体标签、第一人物标签以及第一语义标签进行权重决策分析,生成第一短视频标签。该方法不足主要为对视频关键帧内容标签生成的过程中依赖于预先训练好的场景识别、人物识别等模型,对先验模型中不存在的内容识别度不够。
综上所述,本发明提供了一种自动化生成短视频内容标签的方法及系统。
发明内容
本发明的目的是针对现有的视频标签生成技术中存在的问题,提出了采用视频关键帧自动化生成标签的方法。在视频帧生成标签的过程中,首先利用关键帧提取算法对视频中具有代表意义的帧进行提取,将数据预处理后采用Encoder-Attention-Decoder算法进行图像内容自动生成的方式,可利用算法对图像内容自主进行理解,输出可以代表图像中包含内容的关键词作为标签。
为实现上述目的,本发明提供如下技术方案:一种自动化生成短视频内容标签的方法,所述方法包括如下步骤:
S100,视频信息输入,将待处理视频导入系统中;
S200数据预处理及关键帧提取,将视频信息进行切帧预处理,并对相邻的将两帧图像进行差分,得到图像的平均像素强度可以用来衡量两帧图像的变化大小,基于帧间差分的平均强度,每当视频中的某一帧与前一帧画面内容产生了大的变化,提取作为关键帧;
S300图像描述生成,关键帧进行分析处理并输出描述关键词作为图像标签;
S400描述统计,图像描述生成产生的每一个关键词进行合并去重,并将关键词安装次数排序;
S500视频标签输出,将步骤S400统计关键词中的高频词汇输出作为视频标签。
作为本发明所述的一种优选实施方案,所述步骤S200中详细步骤如下:
S201:将输入视频按顺序做切帧处理,切帧完成后每一帧进行高斯滤波处理;
S202:将视频原始的每一帧和前一帧(若输入为第一帧时复制该帧做为前帧进行处理)首先进行绝对值差分计算,对结果进行二值化后矩阵数值相加为其帧间差分值;
S203:对上一步差分值列表进行标准化平滑处理;
S204:利用滑动窗口方式进行最大差分值选取,并按照其下标获取原始帧数据;
S205:将上述提取的关键帧图像大小放缩至224*224并做归一化处理。
作为本发明所述的一种优选实施方案,所述步骤S300图像描述生成包括Encoder处理、Attention处理和Decoder处理。
作为本发明所述的一种优选实施方案,所述步骤S300详细内容如下如下:
S301:Encoder处理采用去除分类输出层的ResNet预训练模型,最终输出的向量维度大小为14*14*2048;
S302:Attention处理主要是将上述产生的图片的小区域和下一个单词做对齐,Attention包括三个全连接层、一个Relu激活函数以及softmax分类函数,在每一次产生词汇时需要获得对应的14*14个权重值α;
S303:Decoder处理主要是利用t-1时刻产生的隐藏层状态和t时刻的图片注意力向量来产生下一个词。
作为本发明所述的一种优选实施方案,所述S303中去掉LSTM,再Decoder部分直接调用Attention预测下一个词,从而输出产生描述语句的关键词。
作为本发明所述的一种优选实施方案,所述步骤S400详细步骤如下:
S401:本步骤采用基于步骤S300对第一步产生的所有关键帧进行推理,输出为每一帧图像对应一组关键词;
S402:将步骤S401中得到的所有关键词合并、去重,统计每个关键词出现的次数并按照次数排序。
一种自动化生成短视频内容标签的系统,所述系统包括:
预处理及关键帧提取模块,用于将输入视频信息进行切帧预处理,并对相邻的将两帧图像进行差分,得到图像的平均像素强度可以用来衡量两帧图像的变化大小,基于帧间差分的平均强度,每当视频中的某一帧与前一帧画面内容产生了大的变化,提取作为关键帧;
图像描述生成模块,用于关键帧进行分析处理并输出描述关键词作为图像标签;
统计模块,用于图像描述生成产生的每一个关键词进行合并去重,并将关键词安装次数排序,并将排序前五的关键词作为该视频内容标签输出。
与现有技术相比,本发明的有益效果是:
1.本发明采用视频关键帧提取算法,相比全部帧比对的方法提高了处理速度,同时相比随机抽帧的方式提高了准确性;
2.本发明针对视频内容提取关键帧利用Encoder-Attention-Decoder模型对每一帧进行内容理解,自动生成关键词;
3.本发明对若干关键帧对应的关键词进行统计,取较多出现次数的关键词作为视频内容标签,提高了标签的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1为本发明一种自动化生成短视频内容标签的方法流程图;
图2为本发明一种自动化生成短视频内容标签的系统结构图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1-图2,本发明提供一种自动化生成短视频内容标签的方法,所述方法包括如下步骤:
S100,视频信息输入,将待处理视频导入系统中;
S200数据预处理及关键帧提取,将视频信息进行切帧预处理,并对相邻的将两帧图像进行差分,得到图像的平均像素强度可以用来衡量两帧图像的变化大小,基于帧间差分的平均强度,每当视频中的某一帧与前一帧画面内容产生了大的变化,提取作为关键帧;
S300图像描述生成,关键帧进行分析处理并输出描述关键词作为图像标签;
S400描述统计,图像描述生成产生的每一个关键词进行合并去重,并将关键词安装次数排序;
S500视频标签输出,将步骤S400统计关键词中的高频词汇输出作为视频标签,其中,视频标签输出实施例如下:
Figure BDA0003944564650000051
进一步的,所述步骤S200中详细步骤如下:
S201:将输入视频按顺序做切帧处理,切帧完成后每一帧进行高斯滤波处理;
S202:将视频原始的每一帧和前一帧(若输入为第一帧时复制该帧做为前帧进行处理)首先进行绝对值差分计算,对结果进行二值化后矩阵数值相加为其帧间差分值;
S203:对上一步差分值列表进行标准化平滑处理;
S204:利用滑动窗口方式进行最大差分值选取,并按照其下标获取原始帧数据;
S205:将上述提取的关键帧图像大小放缩至224*224并做归一化处理。
进一步的,所述步骤S300图像描述生成包括Encoder处理、Attention处理和Decoder处理。
进一步的,所述步骤S300详细内容如下如下:
S301:Encoder处理采用去除分类输出层的ResNet预训练模型,最终输出的向量维度大小为14*14*2048;其中ResNet的训练流程如下:采用resnet101预训练模型作为encoder的主要组成部分。
1)resnet101冻结参数;
2)去掉了后两层分类层;
3)后5层参数参与反向传播,用来自适应模型;
S302:Attention处理主要是将上述产生的图片的小区域和下一个单词做对齐,Attention包括三个全连接层、一个Relu激活函数以及softmax分类函数,在每一次产生词汇时需要获得对应的14*14个权重值α;
S303:Decoder处理主要是利用t-1时刻产生的隐藏层状态和t时刻的图片注意力向量来产生下一个词。
进一步的,所述S303中去掉LSTM,再Decoder部分直接调用Attention预测下一个词,从而输出产生描述语句的关键词。
进一步的,所述步骤S400详细步骤如下:
S401:本步骤采用基于步骤S300对第一步产生的所有关键帧进行推理,输出为每一帧图像对应一组关键词;
S402:将步骤S401中得到的所有关键词合并、去重,统计每个关键词出现的次数并按照次数排序。
一种自动化生成短视频内容标签的系统,所述系统包括:
预处理及关键帧提取模块100,用于将输入视频信息进行切帧预处理,并对相邻的将两帧图像进行差分,得到图像的平均像素强度可以用来衡量两帧图像的变化大小,基于帧间差分的平均强度,每当视频中的某一帧与前一帧画面内容产生了大的变化,提取作为关键帧;
图像描述生成模块200,用于关键帧进行分析处理并输出描述关键词作为图像标签;
统计模块300,用于图像描述生成产生的每一个关键词进行合并去重,并将关键词安装次数排序,并将排序前五的关键词作为该视频内容标签输出。
综上所述:本发明采用视频作为输入,提取关键帧自动生成图片内容关键词,统计关键词生成视频内容标签。其中效果相比其它方法更好的原因有以下两点:本发明键帧提取处理效率高且代表性强;自动化生成图像描述关键词处理效率高且不需人工介入。
示例性的,处理器从存储器中逐条取出指令、分析指令,然后根据指令要求完成相应操作,产生一系列控制命令,使计算机各部分自动、连续并协调动作,成为一个有机的整体,实现程序的输入、数据的输入以及运算并输出结果,这一过程中产生的算术运算或逻辑运算均由运算器完成;所述存储器包括只读存储器(Read-Only Memory,ROM),所述只读存储器用于存储计算机程序,所述存储器外部设有保护装置。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。
本领域技术人员可以理解,上述服务设备的描述仅仅是示例,并不构成对终端设备的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,上述处理器是上述终端设备的控制中心,利用各种接口和线路连接整个用户终端的各个部分。
上述存储器可用于存储计算机程序和/或模块,上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如信息采集模板展示功能、产品信息发布功能等)等;存储数据区可存储根据泊位状态显示系统的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例系统中的全部或部分模块/单元,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个系统实施例的功能。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种自动化生成短视频内容标签的方法,其特征在于,所述方法包括如下步骤:
S100,视频信息输入,将待处理视频导入系统中;
S200数据预处理及关键帧提取,将视频信息进行切帧预处理,并对相邻的将两帧图像进行差分,得到图像的平均像素强度可以用来衡量两帧图像的变化大小,基于帧间差分的平均强度,每当视频中的某一帧与前一帧画面内容产生了大的变化,提取作为关键帧;
S300图像描述生成,关键帧进行分析处理并输出描述关键词作为图像标签;
S400描述统计,图像描述生成产生的每一个关键词进行合并去重,并将关键词安装次数排序;
S500视频标签输出,将步骤S400统计关键词中的高频词汇输出作为视频标签。
2.根据权利要求1所述的一种自动化生成短视频内容标签的方法,其特征在于,所述步骤S200中详细步骤如下:
S201:将输入视频按顺序做切帧处理,切帧完成后每一帧进行高斯滤波处理;
S202:将视频原始的每一帧和前一帧(若输入为第一帧时复制该帧做为前帧进行处理)首先进行绝对值差分计算,对结果进行二值化后矩阵数值相加为其帧间差分值;
S203:对上一步差分值列表进行标准化平滑处理;
S204:利用滑动窗口方式进行最大差分值选取,并按照其下标获取原始帧数据;
S205:将上述提取的关键帧图像大小放缩至224*224并做归一化处理。
3.根据权利要求1所述的一种自动化生成短视频内容标签的方法,其特征在于,所述步骤S300图像描述生成包括Encoder处理、Attention处理和Decoder处理。
4.根据权利要求3所述的一种自动化生成短视频内容标签的方法,其特征在于,所述步骤S300详细内容如下如下:
S301:Encoder处理采用去除分类输出层的ResNet预训练模型,最终输出的向量维度大小为14*14*2048;
S302:Attention处理主要是将上述产生的图片的小区域和下一个单词做对齐,Attention包括三个全连接层、一个Relu激活函数以及softmax分类函数,在每一次产生词汇时需要获得对应的14*14个权重值α;
S303:Decoder处理主要是利用t-1时刻产生的隐藏层状态和t时刻的图片注意力向量来产生下一个词。
5.根据权利要求4所述的一种自动化生成短视频内容标签的方法,其特征在于,所述S303中去掉LSTM,再Decoder部分直接调用Attention预测下一个词,从而输出产生描述语句的关键词。
6.根据权利要求5所述的一种自动化生成短视频内容标签的方法,其特征在于,所述步骤S400详细步骤如下:
S401:本步骤采用基于步骤S300对第一步产生的所有关键帧进行推理,输出为每一帧图像对应一组关键词;
S402:将步骤S401中得到的所有关键词合并、去重,统计每个关键词出现的次数并按照次数排序。
7.一种基于权利要求1-6所述的自动化生成短视频内容标签的系统,其特征在于,所述系统包括:
预处理及关键帧提取模块,用于将输入视频信息进行切帧预处理,并对相邻的将两帧图像进行差分,得到图像的平均像素强度可以用来衡量两帧图像的变化大小,基于帧间差分的平均强度,每当视频中的某一帧与前一帧画面内容产生了大的变化,提取作为关键帧;
图像描述生成模块,用于关键帧进行分析处理并输出描述关键词作为图像标签;
统计模块,用于图像描述生成产生的每一个关键词进行合并去重,并将关键词安装次数排序,并将排序前五的关键词作为该视频内容标签输出。
CN202211425782.4A 2022-11-15 2022-11-15 一种自动化生成短视频内容标签的方法及系统 Pending CN116112763A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211425782.4A CN116112763A (zh) 2022-11-15 2022-11-15 一种自动化生成短视频内容标签的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211425782.4A CN116112763A (zh) 2022-11-15 2022-11-15 一种自动化生成短视频内容标签的方法及系统

Publications (1)

Publication Number Publication Date
CN116112763A true CN116112763A (zh) 2023-05-12

Family

ID=86260506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211425782.4A Pending CN116112763A (zh) 2022-11-15 2022-11-15 一种自动化生成短视频内容标签的方法及系统

Country Status (1)

Country Link
CN (1) CN116112763A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837579A (zh) * 2019-11-05 2020-02-25 腾讯科技(深圳)有限公司 视频分类方法、装置、计算机以及可读存储介质
CN112990191A (zh) * 2021-01-06 2021-06-18 中国电子科技集团公司信息科学研究院 一种基于字幕视频的镜头边界检测与关键帧提取方法
CN113177478A (zh) * 2021-04-29 2021-07-27 西华大学 一种基于迁移学习的短视频语义标注方法
CN114218437A (zh) * 2021-12-20 2022-03-22 天翼爱音乐文化科技有限公司 自适应图片裁剪融合方法、系统、计算机设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837579A (zh) * 2019-11-05 2020-02-25 腾讯科技(深圳)有限公司 视频分类方法、装置、计算机以及可读存储介质
CN112990191A (zh) * 2021-01-06 2021-06-18 中国电子科技集团公司信息科学研究院 一种基于字幕视频的镜头边界检测与关键帧提取方法
CN113177478A (zh) * 2021-04-29 2021-07-27 西华大学 一种基于迁移学习的短视频语义标注方法
CN114218437A (zh) * 2021-12-20 2022-03-22 天翼爱音乐文化科技有限公司 自适应图片裁剪融合方法、系统、计算机设备及介质

Similar Documents

Publication Publication Date Title
CN109117777B (zh) 生成信息的方法和装置
CN110020437B (zh) 一种视频和弹幕相结合的情感分析及可视化方法
Diem et al. cBAD: ICDAR2017 competition on baseline detection
CN111160335A (zh) 基于人工智能的图像水印处理方法、装置及电子设备
CN103761221B (zh) 用于识别敏感文本信息的系统和方法
CN111680753A (zh) 一种数据标注方法、装置、电子设备及存储介质
CN111523421A (zh) 基于深度学习融合各种交互信息的多人行为检测方法及系统
CN110968689A (zh) 罪名及法条预测模型的训练方法以及罪名及法条预测方法
CN113051356A (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN113761253A (zh) 视频标签确定方法、装置、设备及存储介质
CN112052687A (zh) 基于深度可分离卷积的语义特征处理方法、装置及介质
CN114429566A (zh) 一种图像语义理解方法、装置、设备及存储介质
CN112925905B (zh) 提取视频字幕的方法、装置、电子设备和存储介质
US20190258629A1 (en) Data mining method based on mixed-type data
Gong et al. A novel unified deep neural networks methodology for use by date recognition in retail food package image
CN112214984A (zh) 内容抄袭识别方法、装置、设备及存储介质
CN111191591A (zh) 一种水印检测、视频处理方法和相关设备
CN111783812A (zh) 违禁图像识别方法、装置和计算机可读存储介质
CN113076720B (zh) 长文本的分段方法及装置、存储介质、电子装置
Bergum et al. Automatic in-situ instance and semantic segmentation of planktonic organisms using Mask R-CNN
CN112818984B (zh) 标题生成方法、装置、电子设备和存储介质
CN116112763A (zh) 一种自动化生成短视频内容标签的方法及系统
CN112348011B (zh) 一种车辆定损方法、装置及存储介质
CN114064968A (zh) 一种新闻字幕摘要生成方法和系统
Curran et al. Accurate New Zealand wildlife image classification-deep learning approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination