CN113010737A - 一种视频标签的分类方法、装置及存储介质 - Google Patents

一种视频标签的分类方法、装置及存储介质 Download PDF

Info

Publication number
CN113010737A
CN113010737A CN202110321870.9A CN202110321870A CN113010737A CN 113010737 A CN113010737 A CN 113010737A CN 202110321870 A CN202110321870 A CN 202110321870A CN 113010737 A CN113010737 A CN 113010737A
Authority
CN
China
Prior art keywords
video
label
tag
videos
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110321870.9A
Other languages
English (en)
Other versions
CN113010737B (zh
Inventor
张皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110321870.9A priority Critical patent/CN113010737B/zh
Publication of CN113010737A publication Critical patent/CN113010737A/zh
Application granted granted Critical
Publication of CN113010737B publication Critical patent/CN113010737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种视频标签的分类方法、装置及存储介质,涉及互联网技术领域,该方法包括:提取目标视频集中每个视频的视频特征;获取每个所述视频预先标定的视频标签,得到视频标签集;从所述目标视频集中,确定所述视频标签集中每个所述视频标签对应的所有视频;对每个所述视频标签对应的所有视频的视频特征进行归一化处理,得到每个所述视频标签对应的标签特征;根据每个所述视频标签对应的标签特征,对所述视频标签集中的视频标签进行分类。本申请有效提升视频标签分类的准确性。

Description

一种视频标签的分类方法、装置及存储介质
技术领域
本申请涉及视频标签分类技术领域,具体涉及一种视频标签的分类方法、装置及存储介质。
背景技术
随着通过视频传输信息的流行,通常会对视频标定视频标签作为重要的视频内容画像特征,因此,各视频平台中的视频通常标定有大量视频标签,对于这些视频标签的分类管理具有很大的挑战。
目前,在对视频标签分类管理时,一些方式中通过专家进行分类指导,对标注专家的能力是很大的挑战;还有一些方式中,利用预设同义词表挖掘同类视频标签,这种方式取决于收集到的同义词表的覆盖程度;还有一些方式中,通过视频标签之间的距离进行分类,而视频标签通常是词或短语,本身长度就很短,标签之间的距离差距不大,难以靠标签之间的距离找到相同类别的标签;还有一些方式中,通过自然语言处理技术对视频标签进行分类,但是需要依赖大量文本描述,而视频对应的文本描述通常极少。
因此,目前的各种视频标签分类方式中,对于视频标签的分类存在分类准确性低的问题。
发明内容
本申请实施例提供一种视频标签的分类方法及相关装置,旨在提升视频标签分类的准确性。
为解决上述技术问题,本申请实施例提供以下技术方案:
根据本申请的一个实施例,一种视频标签的分类方法,其包括:提取目标视频集中每个视频的视频特征;获取每个所述视频预先标定的视频标签,得到视频标签集;从所述目标视频集中,确定所述视频标签集中每个所述视频标签对应的所有视频;对每个所述视频标签对应的所有视频的视频特征进行归一化处理,得到每个所述视频标签对应的标签特征;根据每个所述视频标签对应的标签特征,对所述视频标签集中的视频标签进行分类。
根据本申请的一个实施例,一种视频标签的分类装置,其包括:提取模块,用于提取目标视频集中每个视频的视频特征;获取模块,用于获取每个所述视频预先标定的视频标签,得到视频标签集;确定模块,用于从所述目标视频集中,确定所述视频标签集中每个所述视频标签对应的所有视频;归一化模块,用于对每个所述视频标签对应的所有视频的视频特征进行归一化处理,得到每个所述视频标签对应的标签特征;分类模块,用于根据每个所述视频标签对应的标签特征,对所述视频标签集中的视频标签进行分类。
在本申请的一些实施例中,所述提取模块,包括:图像特征提取单元,用于提取目标视频集中每个视频所包含视频帧的图像特征;融合处理单元,用于将每个所述视频所包含视频帧的图像特征进行融合处理,得到每个所述视频的视频特征。
在本申请的一些实施例中,所述图像特征提取单元,包括:拆分子单元,用于将所述目标视频集中每个视频拆分,得到每个视频所包含视频帧;网络提取子单元,用于将每个所述视频所包含视频帧输入第一神经网络进行图像特征提取,得到每个视频所包含视频帧的图像特征。
在本申请的一些实施例中,所述网络提取子单元,用于将每个所述视频所包含所有视频帧输入所述第一神经网络;通过所述第一神经网络,为每个所述视频所包含的每个视频帧融合相邻视频帧的信息,得到每个所述视频所对应的所有融合帧;通过所述第一神经网络,从每个所述视频所对应的每个融合帧中提取图像特征,作为每个视频所包含视频帧的图像特征。
在本申请的一些实施例中,所述融合处理单元,包括:网络融合子单元,用于:将每个所述视频所包含视频帧的图像特征输入第二神经网络进行融合处理,得到每个所述视频的视频特征。
在本申请的一些实施例中,所述网络融合子单元,用于:将每个所述视频所包含视频帧的图像特征输入所述第二神经网络;通过所述第二神经网络,对每个所述视频所包含的所有视频帧的图像特征进行聚类处理,得到每个所述视频对应的聚类特征;将每个所述视频对应的聚类特征,作为每个所述视频的视频特征。
在本申请的一些实施例中,所述归一化模块,包括:平均归一单元,用于对每个所述视频标签对应的所有视频的视频特征取平均值,得到每个所述视频标签对应的标签特征。
在本申请的一些实施例中,所述分类模块,包括:相似计算单元,用于计算所述视频标签集中视频标签对应的标签特征之间的相似度,得到视频标签集中所有视频标签之间的相似度;划分类别单元,用于将所述相似度大于等于预设阈值的视频标签,划分为相同类别的视频标签。
根据本申请的另一实施例,一种电子设备可以包括:存储器,存储有计算机可读指令;处理器,读取存储器存储的计算机可读指令,以执行本申请实施例所述的方法。
根据本申请的另一实施例,一种存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行本申请实施例所述的方法。
根据本申请的另一实施例,一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例所述的各种可选实现方式中提供的方法。
本申请实施例通过提取目标视频集中每个视频的视频特征;获取每个视频预先标定的视频标签,得到视频标签集;从目标视频集中,确定视频标签集中每个视频标签对应的所有视频;对每个视频标签对应的所有视频的视频特征进行归一化处理,得到每个视频标签对应的标签特征;根据每个视频标签对应的标签特征,对视频标签集中的视频标签进行分类。进而,实现基于反映视频自身视频内容的视频特征,转化为视频标签的特征,对视频标签进行分类,有效提升视频标签分类的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本申请实施例的系统的示意图。
图2示出了可以应用本申请实施例的另一个系统的示意图。
图3示出了根据本申请的一个实施例的视频标签分类方法的流程图。
图4示出了根据图3实施例的视频标签分类方法的流程图。
图5示出了根据本申请的一个实施例的卷积通道移位示意图。
图6示出了本申请的实施例的一种场景下的终端界面图。
图7示出了应用本申请的实施例的一种场景下视频标签分类的流程图。
图8示出了图7所示场景下神经网络结构示意图。
图9示出了根据本申请的一个实施例的视频标签的分类装置的框图。
图10示出了根据本申请的一个实施例的电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
图1示出了可以应用本申请实施例的系统100的示意图。如图1所示,系统100可以包括服务器101、终端102,服务器101上存储、发布视频等,终端102上可以播放视频等。
服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器101可以执行后台任务,服务器101中可以存储数据资产。
一种实施方式中,服务器101可以提供人工智能云服务,例如提供大型多人在线角色扮演游戏(MMORPG)的人工智能云服务。所谓人工智能云服务,一般也被称作是AIaaS(AIas a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务,例如,服务器101可以提供基于人工智能的数据处理。
终端102可以是边缘设备,例如智能手机,电脑等。用户可以通过终端102的客户端观看标记有视频标签的视频,通过视频标签查询视频,以及可以为视频添加标签发布视频。
其中,终端102上的客户端可以通过目标协议链路向服务器101传输数据,目标协议链路可以包括基于运输层协议的链路,例如传输控制协议(TCP,Transmission ControlProtocol)链路或者用户数据报协议(UDP,User Datagram Protocol)链路传输以及其他运输层协议。
终端102和服务器101可以通过无线通信方式进行直接或间接地连接,本申请在此不做特殊限制。
本示例的一种实施方式中,服务器101可以提取目标视频集中每个视频的视频特征;获取每个视频预先标定的视频标签,得到视频标签集;从目标视频集中,确定视频标签集中每个视频标签对应的所有视频;对每个视频标签对应的所有视频的视频特征进行归一化处理,得到每个视频标签对应的标签特征;根据每个视频标签对应的标签特征,对视频标签集中的视频标签进行分类。
图2示出了可以应用本申请实施例的另一种系统200的示意图。如图2所示,系统200可以是由客户端201、多个节点202(接入网络中的任意形式的计算设备,如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。
以分布式系统为区块链系统为例,参见图2,图2是本申请实施例提供的分布式系统200应用于区块链系统的一个可选的结构示意图,由多个节点202(接入网络中的任意形式的计算设备,如服务器、用户终端)和客户端201形成,节点之间形成组成的点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission ControlProtocol)协议之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点202,节点包括硬件层、中间层、操作系统层和应用层。
参见图2示出的区块链系统中各节点的功能,涉及的功能包括:
1)路由,节点具有的基本功能,用于支持节点之间的通信。
节点除具有路由功能外,还可以具有以下功能:
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
例如,应用实现的业务包括:
2.1)钱包,用于提供进行电子货币的交易的功能,包括发起交易(即,将当前交易的交易记录发送给区块链系统中的其他节点,其他节点验证成功后,作为承认交易有效的响应,将交易的记录数据存入区块链的临时区块中;当然,钱包还支持查询电子货币地址中剩余的电子货币;
2.2)共享账本,用于提供账目数据的存储、查询和修改等操作的功能,将对账目数据的操作的记录数据发送到区块链系统中的其他节点,其他节点验证有效后,作为承认账目数据有效的响应,将记录数据存入临时区块中,还可以向发起操作的节点发送确认。
2.3)智能合约,计算机化的协议,可以执行某个合约的条款,通过部署在共享账本上的用于在满足一定条件时而执行的代码实现,根据实际的业务需求代码用于完成自动化的交易,例如查询买家所购买商品的物流状态,在买家签收货物后将买家的电子货币转移到商户的地址;当然,智能合约不仅限于执行用于交易的合约,还可以执行对接收的信息进行处理的合约。
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。
本示例的一种实施方式中,客户端201或者节点202可以提取目标视频集中每个视频的视频特征;获取每个视频预先标定的视频标签,得到视频标签集;从目标视频集中,确定视频标签集中每个视频标签对应的所有视频;对每个视频标签对应的所有视频的视频特征进行归一化处理,得到每个视频标签对应的标签特征;根据每个视频标签对应的标签特征,对视频标签集中的视频标签进行分类。
图3示意性示出了根据本申请的一个实施例的视频标签的分类方法的流程图。该视频标签的分类方法的执行主体可以是具有计算处理功能的电子设备,比如图1中所示的服务器101或者终端102或者图2中的节点202或客户端201。
如图3所示,该视频标签的分类方法可以包括步骤S310至步骤S350。
步骤S310,提取目标视频集中每个视频的视频特征;
步骤S320,获取每个视频预先标定的视频标签,得到视频标签集;
步骤S330,从目标视频集中,确定视频标签集中每个视频标签对应的所有视频;
步骤S340,对每个视频标签对应的所有视频的视频特征进行归一化处理,得到每个视频标签对应的标签特征;
步骤S350,根据每个视频标签对应的标签特征,对视频标签集中的视频标签进行分类。
下面描述视频标签分类时,所进行的各步骤的具体过程。
在步骤S310中,提取目标视频集中每个视频的视频特征。
本示例的实施方式中,目标视频集是至少两个视频的组成的视频集合,目标视频集视频可以来源于目标多媒体平台,多媒体平台例如微信视频号、抖音、快手、腾讯看点及腾讯微视等,其中,目标视频集中可以同时包含有不同的多媒体平台中的视频。视频特征是可以表示视频中视频内容含义的特征,即视频特征是可以反映视频自身视频内容的视频特征。
视频特征的提取方法可以是从每个视频所包含视频帧中提取每一个视频帧的图像特征,然后,对每个视频所包含所有视频帧中提取的图像特征进行融合,得到表示每个视频全局内容的视频特征,进而可以通过每个视频的视频特征准确表示每个视频中的视频内容含义。
一种实施例中,参阅图4,步骤S310,提取目标视频集中每个视频的视频特征,包括:
步骤S311,提取目标视频集中每个视频所包含视频帧的图像特征;
步骤S312,将每个视频所包含视频帧的图像特征进行融合处理,得到每个视频的视频特征。
图像特征可以包括视频帧的颜色特征、纹理特征、形状特征和空间关系特征等特征。一个示例中,可以基于现有的颜色特征、纹理特征、形状特征和空间关系特征提取方法提取对应特征作为视频帧的图像特征,例如可以通过颜色直方图提取每一个视频帧的颜色特征,可以基于灰度共生矩阵提取每一个视频帧的纹理特征。本示例的实施方式中,基于图像特征提取神经网络(即第一神经网络)提取每个视频所包含视频帧的图像特征。
将每个视频所包含视频帧的图像特征进行融合处理,即将每个视频所包含视频帧的图像特征从单个帧级别融合为视频整体级别的特征,从整体上反应视频内容,例如,某个视频包括50个视频帧,可以将这50个视频帧的图像特征进行融合处理,得到该某个视频的视频特征。一个示例中,可以通过将每个视频所包含视频帧的图像特征进行累加在一起的方式进行融合。本示例的实施方式中,基于图像特征融合神经网络(即第二神经网络)融合处理每个视频所包含视频帧的图像特征。
一种实施例中,步骤S311,提取目标视频集中每个视频所包含视频帧的图像特征,包括:
将目标视频集中每个视频拆分,得到每个视频所包含视频帧;将每个视频所包含视频帧输入第一神经网络进行图像特征提取,得到每个视频所包含视频帧的图像特征。
视频通常由视频帧(即图像帧)组成,可以按照每个视频的帧率将每个视频拆分,例如某个视频由50个视频帧组成,按照该某个视频的帧率可以将该某个视频拆分为50个视频帧。
第一神经网络为图像特征提取神经网络,第一神经网络可以包括学习向量量化LVQ(Learning Vector Quantization)神经网络、反向传播BP(Back Propagation)神经网络以及时序移位模块TSM(Temporal Shift Module)神经网络等。本示例的实施方式中,第一神经网络采用时序移位模块TSM(Temporal Shift Module)神经网络。
将视频的所有视频帧输入第一神经网络,第一神经网络可以从每一个视频帧中进行图像特征提取,得到视频所包含所有视频帧的图像特征。
一种实施例中将目标视频集中每个视频拆分,得到每个视频所包含视频帧,包括:
将目标视频集中每个视频进行拆分,得到组成每个视频的视频帧;针对每个视频,将组成每个视频的所有视频帧,作为每个视频所包含视频帧,用于进行图像特征提取。
一种实施例中将目标视频集中每个视频拆分,得到每个视频所包含视频帧,包括:
将目标视频集中每个视频进行拆分,得到组成每个视频的视频帧;针对每个视频,从组成每个视频的视频帧中获取预定数目个视频帧,作为每个视频所包含视频帧,用于进行图像特征提取。
例如,目标视频集中的2个视频为A视频及B视频,A视频拆分得到组成A视频的70个视频帧,B视频拆分得到组成B视频的80个视频帧,此时,从组成每个视频的视频帧中获取预定数目个视频帧,即例如,从组成A视频的70个视频帧中获取60个(预定数目)视频帧,从组成B视频的80个视频帧中获取60个(预定数目)视频帧,作为A视频及B视频所包含视频帧。
这样可以使得后续视频标签的标签特征时,每个视频具有相同帧数的视频帧。
一种实施例中,从组成每个视频的视频帧中获取预定数目个视频帧,包括:从组成每个视频的视频帧中随机获取预定数目个视频帧。一种实施例中,从组成每个视频的视频帧中获取预定数目个视频帧,包括:从组成每个视频的视频帧中按照预定规则获取预定数目个视频帧,例如按照视频帧的排列顺序,间隔特定个数个视频帧获取视频帧,又例如视频帧的排列顺序,获取排列顺序位于前预定序号(预定序号等于预定数目)的视频帧。
一种实施例中,将每个视频所包含视频帧输入第一神经网络进行图像特征提取,得到每个视频所包含视频帧的图像特征,包括:
将每个视频所包含所有视频帧输入第一神经网络;通过第一神经网络,为每个视频所包含的每个视频帧融合相邻视频帧的信息,得到每个视频所对应的所有融合帧;通过第一神经网络,从每个视频所对应的每个融合帧中提取图像特征,作为每个视频所包含视频帧的图像特征。
第一神经网络可以将当前视频帧(即视频所包含的视频帧中的一个)的卷积核(即卷积通道)与相邻视频帧进行信息交换,例如将当前视频帧的部分卷积核(即卷积通道)按照视频帧时间顺序进行移位,使得当前视频帧的卷积核通过移位的部分卷积核感知相邻视频帧的信息,得到当前视频帧对应的融合帧,依此为视频中的每个视频帧融合相邻视频帧的信息,得到每个视频帧对应的融合帧,然后基于融合帧进行卷积运算,即基于交换信息后的卷积核进行卷积运算,得到每个融合帧对应的图像特征。
例如,对于A视频,A视频中包含70个视频帧,将A视频中包含70个视频帧输入第一神经网络,对于第1个视频帧作为当前视频帧可以融合第2个视频帧的信息,得到第1个融合帧,并进行图像特征提取;对于第2个视频帧作为当前视频帧可以融入第1个视频帧和第3个视频帧的信息,得到第2个融合帧,并进行图像特征提取;对于第3个视频帧可以融入第2个视频帧和第4个视频帧的信息,得到第3个融合帧,进行图像特征提取;依次类推,直到得到第70个融合帧,提取到A视频中包含的每个视频帧的图像特征。
参阅图5,以第一神经网络采用时序移位模块TSM(Temporal Shift Module)神经网络进行说明,时序移位模块TSM神经网络通过对2D卷积进行改造,使2D卷积可以近似3D卷积的效果。如图5中的左侧图所示,2D卷积在时间维度上独立运行,每一视频帧的2D卷积只利用当前视频帧的信息,因此没有时间建模(即在视频的时间顺序维度上相邻视频帧的信息没有信息交换)。如图5中的中间图及右侧图所示,时序移位模块TSM神经网络通过将部分卷积核(即卷积通道Channel C)沿着时间维度进行移位(temporal shift,即沿着视频中视频帧对应的时间顺序进行移位),使得当前视频帧的卷积核可以融合到相邻视频帧的信息,实现相邻视频帧的信息交换,可以让2D卷积感知到其他视频帧的信息。具体来说,时序移位模块TSM神经网络通过将部分卷积核(即卷积通道)沿着时间维度进行移位包括离线和在线两种移位模式:如图5中的中间图所示,离线移位模式下,让1/8的卷积核(即卷积通道)移位前一帧的信息,1/8的卷积核(即卷积通道)移位后一帧的信息(离线移位模式下当前视频帧的相邻视频帧包括前一帧及后一帧);如图5中的右侧图所示,在线移位模式下,让1/4的卷积核(即卷积通道)仅移位前一帧的信息(在线移位模式下当前视频帧的相邻视频帧包括前一帧)。其中,参阅图5移位之后的空缺位置使用零填补(Zero Padding)。
一种实施例中,步骤S312,将每个视频所包含视频帧的图像特征进行融合处理,得到每个视频的视频特征,包括步骤:
将每个视频所包含视频帧的图像特征输入第二神经网络进行融合处理,得到每个视频的视频特征。
第二神经网络为图像特征融合神经网络,第二神经网络可以包括平均汇合(Average Pooling)神经网络、NetVLAD(Net Vector of Local Aggregated Descriptors)神经网络及NeXtVLAD(NeXt Vector of Local Aggregated Descriptors)神经网络等。本示例的实施方式中,第二神经网络采用NetVLAD神经网络。
将视频所包含视频帧的图像特征输入第二神经网络,第二神经网络可以对所有图像特征进行融合处理,将单个帧级别的图像特征融合得到视频级别的视频特征。
一种实施例中,步骤将每个视频所包含视频帧的图像特征输入第二神经网络进行融合处理,得到每个视频的视频特征,包括:
将每个视频所包含视频帧的图像特征输入所述第二神经网络;通过第二神经网络,对每个视频所包含的所有视频帧的图像特征进行聚类处理,得到每个视频对应的聚类特征;将每个视频对应的聚类特征,作为每个视频的视频特征。
第二神经网络对每个视频所包含的所有视频帧的图像特征进行聚类处理可以包括:首先,对视频所包含的所有视频帧的图像特征进行聚类,得到k个聚类中心(即k个视频特征作为聚类中心),然后确定属于每个聚类中心的视频特征,进而将视频所包含的所有视频帧聚类处理为k个聚类簇,每个聚类簇对应有一个聚类特征,一个示例中,每个聚类簇对应聚类特征可以是簇中所有视频特征到聚类中心的距离之和,另一个示例中,每个聚类簇对应聚类特征可以是:先计算簇中每个视频特征属于该簇的概率与簇中每个视频特征到聚类中心的距离的乘积,然后计算所有乘积的和,作为每个聚类簇对应聚类特征。
以第二神经网络采用NetVLAD(Net Vector of Local Aggregated Descriptors)神经网络进行说明,NetVLAD神经网络是平均汇合(Average Pooling)神经网络的改进,平均汇合认为每各视频帧的图像特征对视频整体的贡献是相同的,但是现实中视频帧存在大量冗余。NetVLAD的认为一整段视频虽然对应一个动作,但是这个动作有多个行为和实体,例如“投篮”的动作就包括“篮框”、“控球”、“跳”、“投球”等多个行为和实体。因此NetVLAD神经网络可以将所有视频帧的图像特征划分为几个聚类簇,对动作中的多个行为和实体进行刻画,其中,每个聚类簇对应聚类特征是:先计算簇中每个视频特征属于该簇的概率与簇中每个视频特征到聚类中心的距离的乘积,然后计算所有乘积的和,作为每个聚类簇对应聚类特征。
一种实施例中,将每个视频所包含所有视频帧输入第一神经网络;通过第一神经网络,为每个视频所包含的每个视频帧融合相邻视频帧的信息,得到每个视频所对应的所有融合帧;通过第一神经网络,从每个视频所对应的每个融合帧中提取图像特征,作为每个视频所包含视频帧的图像特征;然后,将每个视频所包含视频帧的图像特征输入所述第二神经网络;通过第二神经网络,对每个视频所包含的所有视频帧的图像特征进行聚类处理,得到每个视频对应的聚类特征;将每个视频对应的聚类特征,作为每个视频的视频特征。这样通过第一神经网络与第二神经网络组合网络结构提取视频特征,可以有效保证视频特征转换得到的标签特征的准确性。
在步骤S320中,获取每个视频预先标定的视频标签,得到视频标签集。
本示例的实施方式中,每个视频预先标定的视频标签可以是用户标定的,也可以是平台上通过深度学习模型等方式自动标定的,例如,针对某个视频可以同时标定有“明星饭拍”、“饭拍视频”及“粉丝饭拍”等标签。
目标视频集中每个视频都可以标定有视频标签,不同的两个视频标定的视频标签数目可以不同,不同的两个视频可以具有相同的视频标签。例如,目标视频集中包括A视频、B视频及C视频,A视频标定有“明星饭拍”及“特色美食”2个视频标签,B视频标定有“明星潮流”、“饭拍视频”及“特色美食”3个视频标签,C视频标定有“明星潮流”及“饭拍视频”2个视频标签。
进而,获取目标视频集中每个视频预先标定的视频标签,可以得到视频标签集包括:“明星饭拍”、“特色美食”、“明星潮流”及“饭拍视频”共4个视频标签。
在步骤S330中,从目标视频集中,确定视频标签集中每个视频标签对应的所有视频。
本示例的实施方式中,确定视频标签集中每个视频标签对应的所有视频,即确定从目标视频集中确定每个视频标签所标记的所有视频。
例如目标视频集中包括A视频、B视频及C视频,A视频标定有“明星饭拍”及“特色美食”2个视频标签,B视频标定有“明星潮流”、“饭拍视频”及“特色美食”3个视频标签,C视频标定有“明星潮流”及“饭拍视频”2个视频标签。视频标签集包括:“明星饭拍”、“特色美食”、“明星潮流”及“饭拍视频”共4个视频标签
此时,视频标签集中“特色美食”视频标签对应的所有视频包括A视频和B视频,“明星饭拍”视频标签对应的所有视频包括A视频,“明星潮流”视频标签对应的所有视频包括B视频和C视频,“饭拍视频”视频标签对应的所有视频包括B视频和C视频。
在步骤S340中,对每个视频标签对应的所有视频的视频特征进行归一化处理,得到每个视频标签对应的标签特征。
本示例的实施方式中,对每个视频标签对应的所有视频的视频特征进行归一化处理,例如,“饭拍视频”视频标签对应的所有视频包括B视频和C视频,此时,可以将B视频的视频特征和C视频的视频特征进行归一化处理,得到“饭拍视频”视频标签对应的标签特征。
其中,归一化处理的方式可以包括对视频特征取平均值处理或者累加处理等归一化方式。本示例的实施方式中采用取平均值处理作为归一化处理的手段。
一种实施例中,步骤S340,对每个视频标签对应的所有视频的视频特征进行归一化处理,得到每个视频标签对应的标签特征,包括:
对每个视频标签对应的所有视频的视频特征取平均值,得到每个视频标签对应的标签特征。
例如,“饭拍视频”视频标签对应的所有视频包括B视频和C视频,此时,可以将B视频的视频特征和C视频的视频特征取平均值处理得到视频特征平均值,作为“饭拍视频”视频标签对应的标签特征。
一种实施例中,步骤S340,对每个视频标签对应的所有视频的视频特征进行归一化处理,得到每个视频标签对应的标签特征,包括:
获取标准视频特征,对每个视频标签对应的所有视频的视频特征,与该标准视频特征求差,得到每个视频标签对应的所有视频特征差值,然后对每个视频标签对应的所有视频特征差值取平均值,得到是平均值作为每个视频标签对应的标签特征。通过该标准视频特征的设置,求差及平均结合的归一化处理可以进一步保证视频标签之间的可比较性。
在步骤S350中,根据每个视频标签对应的标签特征,对视频标签集中的视频标签进行分类。
本示例的实施方式中,每个视频标签对应的标签特征是基于视频内容含义获得的特征,可以有效反应视频标签之间内容相似性,进而通过视频标签之间的相似性比较,可以准确确定同义词标签,进而对视频标签进行分类。一个示例中,可以准确地将“刘杰伦”和“刘杰”确定为不同类的视频标签,将“华科大”和“华中科技大学”确定为同类标签,而现有技术中通过词语直接分类的方式,极有可能将“刘杰伦”和“刘杰”确定为同类的视频标签,将“华科大”和“华中科技大学”确定为不同类标签。
一种实施例中,参阅图4,步骤S350,根据每个视频标签对应的标签特征,对视频标签集中的视频标签进行分类,包括:
步骤S351,计算视频标签集中视频标签对应的标签特征之间的相似度,得到视频标签集中所有视频标签之间的相似度;
步骤S352,将相似度大于等于预设阈值的视频标签,划分为相同类别的视频标签。
计算视频标签集中视频标签对应的标签特征之间的相似度的方法可以是计算两个视频标签之间的余弦相似度或者欧式距离等,本示例的实施方式中,采用两个视频标签之间的余弦相似度作为两个视频标签之间的相似度。其中,相似度对应的预定阈值可以根据需求设定,例如,预定阈值可以为99%,当两个视频标签对应的标签特征之间的相似度大于或者等于99%时,确定该两个视频标签为同类标签(即同义词标签)。
一种实施例中,参阅图6,根据每个视频标签对应的标签特征,对视频标签集中的视频标签进行分类后,还可以将相同类别的视频标签合并显示,例如在图6所示的终端界面中,对于相同类别的视频标签仅显示其中一个,这样就可以在界面中仅显示两个视频标签“钓鱼”和“野钓”,有效节省界面空间,节约宝贵的标签展示位置(例如图6所示的终端界面中最多可以放置3-4个视频标签),同时提升用户体验。
进一步的,在视频信息流推荐方面,每个视频会对应多个标签,用户在看完当前视频时,通过点击对应的标签,可以通过给用户返回更多的相似视频(即标定有同类视频标签的视频)。
进一步的,在视频检索方面,搜索引擎的一个重点是用户查询(Query)意图分析和扩展。搜索引擎的交互界面十分简单,用户输入查询词,搜索引擎返回对应的搜索结果。由于不同用户的语言习惯不同,用户对于自己的信息需求,不一定能够准确地想到合适的查询词来表达自己的搜索意图,可以对查询词按照本申请实施例的视频标签分类结果进行相似的视频标签的扩展,例如用户在搜索“华科大”时,给用户返回和“华中科技大学”有关的视频也符合用户的查询意图。
以这种方式,基于视频标签的分类步骤S310至步骤S350,实现基于反映视频自身视频内容的视频特征,转化为视频标签的特征,对视频标签进行分类,有效提升视频标签分类的准确性。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
图7示出了应用本申请的实施例的一种场景下视频标签分类的流程图。该场景为通过视频标签分类系统对短视频的视频标签进行分类的场景,该场景下以目标视频集为4个短视频(包括短视频v1至v4)构成的集合为例,应用本申请前述实施例进行视频标签分类进行说明,参阅图7,该场景下视频标签进行分类的过程包括步骤S410至步骤S440。
在步骤S410中,将目标视频集中的每个短视频(包括短视频v1至v4)输入视频分类系统。
在步骤S420中,提取目标视频集中每个短视频(包括短视频v1至v4)的视频特征。
具体基于图8所示的网络结构进行视频特征提取,该网络结构中,第一神经网络501(该场景下具体为时序移位模块TSM(Temporal Shift Module)神经网络)用于图像特征提取,第二神经网络502(该场景下具体为NetVLAD(Net Vector of Local AggregatedDescriptors)神经网络或NeXtVLAD(NeXt Vector of Local Aggregated Descriptors)神经网络)用于进行图像特征的融合处理,全连接层和分类层503,用于进行视频类别预测,可以通过视频样本对该网络结构进行训练,最后采用第二神经网络502输出的视频特征进行后续步骤S430中的处理过程。
其中,视频特征的提取过程包括:提取目标视频集中每个视频所包含视频帧的图像特征,将每个视频所包含视频帧的图像特征进行融合处理,得到每个视频的视频特征。
提取目标视频集中每个视频所包含视频帧的图像特征,具体包括将每个视频拆分,得到每个视频所包含的T个视频帧,然后将每个视频所包含的视频帧T个输入第一神经网络501进行图像特征提取,得到每个视频所包含视频帧的T个图像特征(包括特征X1至特征XT)。然后,将每个视频所包含视频帧的T个图像特征(包括特征X1至特征XT)输入第二神经网络进行融合处理,得到每个视频的视频特征。
在步骤S430中,获取每个短视频(包括短视频v1至v4)预先标定的视频标签,得到视频标签集;从目标视频集中,确定视频标签集中每个视频标签对应的所有视频;对每个视频标签对应的所有视频的视频特征进行归一化处理,得到每个视频标签对应的标签特征。
首先,如下表所示,下表中示出获取的每个短视频(包括短视频v1至v4)预先标定的视频标签,不同的短视频的标签个数不固定,例如短视频v1被标注了两个标签t1和t2,短视频v2被标注了三个标签t1、t3和t4,最后得到的视频标签集包括:t1、t2、t3、t4、t5共5个。
视频 标签 标签 标签
v1 t1 t2
v2 t1 t3 t4
v3 t2 t3
v4 t5
进一步的,如下表所示,示出从目标视频集中,确定视频标签集中每个视频标签对应的所有短视频,例如,视频标签t1对应的所有短视频包括短视频v1及短视频v2。
标签 视频 视频 视频
t1 v1 v2
t2 v1 v3
t3 v2 v3
t4 v2
t5 v4
最后,如下表所示,示出对每个视频标签对应的所有短视频的视频特征(短视频v1至v4对应的视频特征依次为z1至z4)进行归一化处理(本场景中采用取平均值处理的方式),得到每个视频标签对应的标签特征。
标签 标签特征
t1 (z1+z2)/2
t2 (z1+z3)/2
t3 (z2+z3)/2
t4 z2
t5 z4
在步骤S440中,根据每个视频标签对应的标签特征,对视频标签集中的视频标签进行分类。具体地,计算两个视频标签之间的余弦相似度,计算所有的视频标签两两之间的标签特征的余弦相似度,如果两个标签特征的余弦相似度大于等于某个预先设定的阈值,则认为这两个标签是同义词标签(即同类视频标签)。
以这种方式,实现基于视频内容的视频标签分类,即视频标签同义词挖掘,利用视频特征转化标签特征来得到视频标签之间的相似度,可以依次从人工标注/算法预测的视频标签中筛选和合并视频标签同义词。
相比利用同义词表的方式,只要某个视频标签曾经被用于标注过某个视频,就可以通过该视频的视频特征计算出该视频标签的标签特征,进而可以计算该视频标签和其他视频标签的相似度,用来判断该视频标签和其他视频标签是否是同义词,覆盖程度更广。
相比基于标签之间距离的方法,利用视频特征可以度量不同视频之间的语义相似度,进而从视频特征得到的标签特征可以度量标签之间的相似度,标签特征之间的距离越近(即相似度越高),说明这两个标签越相似。
相比利用自然语言处理的方法,视频标签是对视频内容的描述,而视频特征是对视频语义内容的特征化表示,相比现有技术,利用视频特征得到的标签特征刻画了视频标签对应的实际视频场景,对于短视频场景具有良好的效果。
为便于更好的实施本申请实施例提供的视频标签的分类方法,本申请实施例还提供一种基于上述视频标签的分类方法的视频标签的分类装置。其中名词的含义与上述视频标签的分类方法中相同,具体实现细节可以参考方法实施例中的说明。图9示出了根据本申请的一个实施例的视频标签的分类装置的框图。
如图9所示,视频标签的分类装置600中可以包括提取模块610、获取模块620、确定模块630、归一化模块640及分类模块650。
提取模块610可以用于提取目标视频集中每个视频的视频特征;获取模块620可以用于获取每个所述视频预先标定的视频标签,得到视频标签集;确定模块630可以用于从所述目标视频集中,确定所述视频标签集中每个所述视频标签对应的所有视频;归一化模块640可以用于对每个所述视频标签对应的所有视频的视频特征进行归一化处理,得到每个所述视频标签对应的标签特征;分类模块650可以用于根据每个所述视频标签对应的标签特征,对所述视频标签集中的视频标签进行分类。
在本申请的一些实施例中,所述提取模块610,包括:图像特征提取单元,用于提取目标视频集中每个视频所包含视频帧的图像特征;融合处理单元,用于将每个所述视频所包含视频帧的图像特征进行融合处理,得到每个所述视频的视频特征。
在本申请的一些实施例中,所述图像特征提取单元,包括:拆分子单元,用于将所述目标视频集中每个视频拆分,得到每个视频所包含视频帧;网络提取子单元,用于将每个所述视频所包含视频帧输入第一神经网络进行图像特征提取,得到每个视频所包含视频帧的图像特征。
在本申请的一些实施例中,所述网络提取子单元,用于将每个所述视频所包含所有视频帧输入所述第一神经网络;通过所述第一神经网络,为每个所述视频所包含的每个视频帧融合相邻视频帧的信息,得到每个所述视频所对应的所有融合帧;通过所述第一神经网络,从每个所述视频所对应的每个融合帧中提取图像特征,作为每个视频所包含视频帧的图像特征。
在本申请的一些实施例中,所述融合处理单元,包括:网络融合子单元,用于:将每个所述视频所包含视频帧的图像特征输入第二神经网络进行融合处理,得到每个所述视频的视频特征。
在本申请的一些实施例中,所述网络融合子单元,用于:将每个所述视频所包含视频帧的图像特征输入所述第二神经网络;通过所述第二神经网络,对每个所述视频所包含的所有视频帧的图像特征进行聚类处理,得到每个所述视频对应的聚类特征;将每个所述视频对应的聚类特征,作为每个所述视频的视频特征。
在本申请的一些实施例中,所述归一化模块640,包括:平均归一单元,用于对每个所述视频标签对应的所有视频的视频特征取平均值,得到每个所述视频标签对应的标签特征。
在本申请的一些实施例中,所述分类模块650,包括:相似计算单元,用于计算所述视频标签集中视频标签对应的标签特征之间的相似度,得到视频标签集中所有视频标签之间的相似度;划分类别单元,用于将所述相似度大于等于预设阈值的视频标签,划分为相同类别的视频标签。
以这种方式,基于视频标签的分类装置600,实现基于反映视频自身视频内容的视频特征,转化为视频标签的特征,对视频标签进行分类,有效提升视频标签分类的准确性。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,本申请实施例还提供一种电子设备,该电子设备可以为终端或者服务器,如图10所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解,图10中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器701是该电子设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器702内的软件程序和/或模块,以及调用存储在存储器702内的数据,执行计算机设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器701可包括一个或多个处理核心;优选的,处理器701可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户页面和应用程序等,调制解调处理器主要处理无线通讯。可以理解的是,上述调制解调处理器也可以不集成到处理器701中。
存储器702可用于存储软件程序以及模块,处理器701通过运行存储在存储器702的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器702还可以包括存储器控制器,以提供处理器701对存储器702的访问。
电子设备还包括给各个部件供电的电源703,优选的,电源703可以通过电源管理系统与处理器701逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元704,该输入单元704可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器701会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中,并由处理器701来运行存储在存储器702中的应用程序,从而实现各种功能,如下:
提取目标视频集中每个视频的视频特征;
获取每个所述视频预先标定的视频标签,得到视频标签集;
从所述目标视频集中,确定所述视频标签集中每个所述视频标签对应的所有视频;
对每个所述视频标签对应的所有视频的视频特征进行归一化处理,得到每个所述视频标签对应的标签特征;
根据每个所述视频标签对应的标签特征,对所述视频标签集中的视频标签进行分类。
一种实施例中,在提取目标视频集中每个视频的视频特征时,处理器701可以执行:
提取目标视频集中每个视频所包含视频帧的图像特征;
将每个所述视频所包含视频帧的图像特征进行融合处理,得到每个所述视频的视频特征。
一种实施例中,在提取目标视频集中每个视频所包含视频帧的图像特征时,处理器710可以执行:
将所述目标视频集中每个视频拆分,得到每个视频所包含视频帧;
将每个所述视频所包含视频帧输入第一神经网络进行图像特征提取,得到每个视频所包含视频帧的图像特征。
一种实施例中,在将每个所述视频所包含视频帧输入第一神经网络进行图像特征提取,得到每个视频所包含视频帧的图像特征时,处理器710可以执行:
将每个所述视频所包含所有视频帧输入所述第一神经网络;
通过所述第一神经网络,为每个所述视频所包含的每个视频帧融合相邻视频帧的信息,得到每个所述视频所对应的所有融合帧;
通过所述第一神经网络,从每个所述视频所对应的每个融合帧中提取图像特征,作为每个视频所包含视频帧的图像特征。
一种实施例中,在所述将每个所述视频所包含视频帧的图像特征进行融合处理,得到每个所述视频的视频特征时,处理器710可以执行:
将每个所述视频所包含视频帧的图像特征输入第二神经网络进行融合处理,得到每个所述视频的视频特征。
一种实施例中,在所述将每个所述视频所包含视频帧的图像特征输入第二神经网络进行融合处理,得到每个所述视频的视频特征时,处理器710可以执行:
将每个所述视频所包含视频帧的图像特征输入所述第二神经网络;
通过所述第二神经网络,对每个所述视频所包含的所有视频帧的图像特征进行聚类处理,得到每个所述视频对应的聚类特征;
将每个所述视频对应的聚类特征,作为每个所述视频的视频特征。
一种实施例中,在对每个所述视频标签对应的所有视频的视频特征进行归一化处理,得到每个所述视频标签对应的标签特征时,处理器710可以执行:
对每个所述视频标签对应的所有视频的视频特征取平均值,得到每个所述视频标签对应的标签特征。
一种实施例中,在根据每个所述视频标签对应的标签特征,对所述视频标签集中的视频标签进行分类时,处理器710可以执行:
计算所述视频标签集中视频标签对应的标签特征之间的相似度,得到视频标签集中所有视频标签之间的相似度;
将所述相似度大于等于预设阈值的视频标签,划分为相同类别的视频标签。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例还提供一种存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种方法中的步骤。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种方法中的步骤,因此,可以实现本申请实施例所提供的方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请上述实施例中各种可选实现方式中提供的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的实施例,而可以在不脱离其范围的情况下进行各种修改和改变。

Claims (10)

1.一种视频标签的分类方法,其特征在于,包括:
提取目标视频集中每个视频的视频特征;
获取每个所述视频预先标定的视频标签,得到视频标签集;
从所述目标视频集中,确定所述视频标签集中每个所述视频标签对应的所有视频;
对每个所述视频标签对应的所有视频的视频特征进行归一化处理,得到每个所述视频标签对应的标签特征;
根据每个所述视频标签对应的标签特征,对所述视频标签集中的视频标签进行分类。
2.根据权利要求1所述的方法,其特征在于,所述提取目标视频集中每个视频的视频特征,包括:
提取目标视频集中每个视频所包含视频帧的图像特征;
将每个所述视频所包含视频帧的图像特征进行融合处理,得到每个所述视频的视频特征。
3.根据权利要求2所述的方法,其特征在于,所述提取目标视频集中每个视频所包含视频帧的图像特征,包括:
将所述目标视频集中每个视频拆分,得到每个视频所包含视频帧;
将每个所述视频所包含视频帧输入第一神经网络进行图像特征提取,得到每个视频所包含视频帧的图像特征。
4.根据权利要求3所述的方法,其特征在于,所述将每个所述视频所包含视频帧输入第一神经网络进行图像特征提取,得到每个视频所包含视频帧的图像特征,包括:
将每个所述视频所包含所有视频帧输入所述第一神经网络;
通过所述第一神经网络,为每个所述视频所包含的每个视频帧融合相邻视频帧的信息,得到每个所述视频所对应的所有融合帧;
通过所述第一神经网络,从每个所述视频所对应的每个融合帧中提取图像特征,作为每个视频所包含视频帧的图像特征。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述将每个所述视频所包含视频帧的图像特征进行融合处理,得到每个所述视频的视频特征,包括:
将每个所述视频所包含视频帧的图像特征输入第二神经网络进行融合处理,得到每个所述视频的视频特征。
6.根据权利要求5所述的方法,其特征在于,所述将每个所述视频所包含视频帧的图像特征输入第二神经网络进行融合处理,得到每个所述视频的视频特征,包括:
将每个所述视频所包含视频帧的图像特征输入所述第二神经网络;
通过所述第二神经网络,对每个所述视频所包含的所有视频帧的图像特征进行聚类处理,得到每个所述视频对应的聚类特征;
将每个所述视频对应的聚类特征,作为每个所述视频的视频特征。
7.根据权利要求1所述的方法,其特征在于,所述对每个所述视频标签对应的所有视频的视频特征进行归一化处理,得到每个所述视频标签对应的标签特征,包括:
对每个所述视频标签对应的所有视频的视频特征取平均值,得到每个所述视频标签对应的标签特征。
8.根据权利要求1所述的方法,其特征在于,所述根据每个所述视频标签对应的标签特征,对所述视频标签集中的视频标签进行分类,包括:
计算所述视频标签集中视频标签对应的标签特征之间的相似度,得到视频标签集中所有视频标签之间的相似度;
将所述相似度大于等于预设阈值的视频标签,划分为相同类别的视频标签。
9.一种视频标签的分类装置,其特征在于,包括:
提取模块,用于提取目标视频集中每个视频的视频特征;
获取模块,用于获取每个所述视频预先标定的视频标签,得到视频标签集;
确定模块,用于从所述目标视频集中,确定所述视频标签集中每个所述视频标签对应的所有视频;
归一化模块,用于对每个所述视频标签对应的所有视频的视频特征进行归一化处理,得到每个所述视频标签对应的标签特征;
分类模块,用于根据每个所述视频标签对应的标签特征,对所述视频标签集中的视频标签进行分类。
10.一种存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-8任一项所述的方法。
CN202110321870.9A 2021-03-25 2021-03-25 一种视频标签的分类方法、装置及存储介质 Active CN113010737B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110321870.9A CN113010737B (zh) 2021-03-25 2021-03-25 一种视频标签的分类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110321870.9A CN113010737B (zh) 2021-03-25 2021-03-25 一种视频标签的分类方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113010737A true CN113010737A (zh) 2021-06-22
CN113010737B CN113010737B (zh) 2024-04-30

Family

ID=76407321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110321870.9A Active CN113010737B (zh) 2021-03-25 2021-03-25 一种视频标签的分类方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113010737B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688951A (zh) * 2021-10-25 2021-11-23 腾讯科技(深圳)有限公司 视频数据处理方法以及装置
CN114390366A (zh) * 2022-01-19 2022-04-22 北京百度网讯科技有限公司 视频处理方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750289A (zh) * 2011-04-19 2012-10-24 富士通株式会社 标签组分类方法、设备和数据混合方法、设备
CN103458275A (zh) * 2013-09-02 2013-12-18 深圳市茁壮网络股份有限公司 实时交互的数字电视资讯推荐系统及方法
CN108875781A (zh) * 2018-05-07 2018-11-23 腾讯科技(深圳)有限公司 一种标签分类方法、装置、电子设备及存储介质
CN110381371A (zh) * 2019-07-30 2019-10-25 维沃移动通信有限公司 一种视频剪辑方法及电子设备
CN110413787A (zh) * 2019-07-26 2019-11-05 腾讯科技(深圳)有限公司 文本聚类方法、装置、终端和存储介质
CN111541912A (zh) * 2020-04-30 2020-08-14 北京奇艺世纪科技有限公司 一种视频拆分方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750289A (zh) * 2011-04-19 2012-10-24 富士通株式会社 标签组分类方法、设备和数据混合方法、设备
CN103458275A (zh) * 2013-09-02 2013-12-18 深圳市茁壮网络股份有限公司 实时交互的数字电视资讯推荐系统及方法
CN108875781A (zh) * 2018-05-07 2018-11-23 腾讯科技(深圳)有限公司 一种标签分类方法、装置、电子设备及存储介质
CN110413787A (zh) * 2019-07-26 2019-11-05 腾讯科技(深圳)有限公司 文本聚类方法、装置、终端和存储介质
CN110381371A (zh) * 2019-07-30 2019-10-25 维沃移动通信有限公司 一种视频剪辑方法及电子设备
CN111541912A (zh) * 2020-04-30 2020-08-14 北京奇艺世纪科技有限公司 一种视频拆分方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688951A (zh) * 2021-10-25 2021-11-23 腾讯科技(深圳)有限公司 视频数据处理方法以及装置
CN114390366A (zh) * 2022-01-19 2022-04-22 北京百度网讯科技有限公司 视频处理方法和装置
CN114390366B (zh) * 2022-01-19 2024-02-06 北京百度网讯科技有限公司 视频处理方法和装置

Also Published As

Publication number Publication date
CN113010737B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN111324774B (zh) 一种视频去重方法和装置
CN110598037B (zh) 一种图像搜索方法、装置和存储介质
CN111461841B (zh) 物品推荐方法、装置、服务器及存储介质
US20230289828A1 (en) Data processing method, computer device, and readable storage medium
Nie et al. Multimodal learning toward micro-video understanding
CN112380453B (zh) 物品推荐方法、装置、存储介质及设备
CN113010737B (zh) 一种视频标签的分类方法、装置及存储介质
CN111973996A (zh) 一种游戏资源投放方法和装置
CN113761219A (zh) 基于知识图谱的检索方法、装置、电子设备及存储介质
CN111444357A (zh) 内容信息确定方法、装置、计算机设备及存储介质
CN112395515B (zh) 一种信息推荐方法、装置、计算机设备及存储介质
CN111324773A (zh) 一种背景音乐构建方法、装置、电子设备和存储介质
CN110569380B (zh) 一种图像标签获取方法、装置及存储介质和服务器
Cheung et al. An analytic system for user gender identification through user shared images
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN117251761A (zh) 数据对象分类方法、装置、存储介质及电子装置
CN116522131A (zh) 对象表示方法、装置、电子设备及计算机可读存储介质
CN116976353A (zh) 一种数据处理方法、装置、设备以及可读存储介质
US11962817B2 (en) Machine learning techniques for advanced frequency management
CN113672816B (zh) 帐号特征信息的生成方法、装置和存储介质及电子设备
CN114996435A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN111753050A (zh) 基于话题图谱的评论生成
Huang et al. Indie Games Popularity Prediction by Considering Multimodal Features
CN110689383B (zh) 信息推送方法、装置、服务器及存储介质
CN117349116A (zh) 应用程序中的异常交互检测方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40046018

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant