CN111259781B - 视频分类方法及装置、存储介质和电子设备 - Google Patents

视频分类方法及装置、存储介质和电子设备 Download PDF

Info

Publication number
CN111259781B
CN111259781B CN202010035937.8A CN202010035937A CN111259781B CN 111259781 B CN111259781 B CN 111259781B CN 202010035937 A CN202010035937 A CN 202010035937A CN 111259781 B CN111259781 B CN 111259781B
Authority
CN
China
Prior art keywords
information
weight
determining
module
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010035937.8A
Other languages
English (en)
Other versions
CN111259781A (zh
Inventor
姜波
于佳弘
周磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202010035937.8A priority Critical patent/CN111259781B/zh
Publication of CN111259781A publication Critical patent/CN111259781A/zh
Application granted granted Critical
Publication of CN111259781B publication Critical patent/CN111259781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本公开的实施方式提供了一种视频分类方法、视频分类装置、存储介质和电子设备,涉及视频处理技术领域。该视频分类方法包括:获取待分类视频,从待分类视频中提取至少一帧图像;确定与至少一帧图像对应的第一信息和第二信息;其中,第一信息的空间频率大于第二信息的空间频率;对第一信息执行第一空域及时域处理过程,确定出第一信息的权重,并对第二信息执行第二空域及时域处理过程,确定出第二信息的权重;利用第一信息和第一信息的权重确定与至少一帧图像对应的运动特征,并利用第二信息和第二信息的权重确定与至少一帧图像对应的空间特征;根据运动特征和空间特征,对待分类视频进行分类。本公开实施例的技术方案可以提高视频分类的准确度。

Description

视频分类方法及装置、存储介质和电子设备
技术领域
本公开的实施方式涉及视频处理技术领域,更具体地,本公开的实施方式涉及视频分类方法、视频分类装置、存储介质和电子设备。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着社交媒体的迅速发展,涌现出了越来越多的视频。这些视频生产成本低、传播速度快,每日以千万级的数量不断增加。在这种情况下,作为视频管理重要分支的视频分类,显得尤为重要,以便于进行视频的查询、删除、统计等操作。
传统的视频分类方式是借助于人工来完成。然而,一方面,在视频数量巨大的情况下,需要消耗大量的人力和物力;另一方面,视频形式多样且内容广泛,以人工方式进行视频分类还可能存在分类结果不准确的问题。
发明内容
在一些技术中,获取视频图像后,提取图像的特征并利用帧间的差异来判定视频图像的有效性。这些技术中,提取的视频图像特征往往不够全面,忽略了视频的空间信息和运动信息的特点,无法完整利用视频的有效信息,导致视频分类的准确度不高。
因此,非常需要一种改进的视频分类方案,以提高视频分类的准确度。
在本上下文中,本公开的实施方式期望提供一种视频分类方法、视频分类装置、存储介质和电子设备。
根据本公开的第一方面,提供了一种视频分类方法,包括:获取待分类视频,从所述待分类视频中提取至少一帧图像;确定与所述至少一帧图像对应的第一信息和第二信息;其中,所述第一信息的空间频率大于所述第二信息的空间频率;对所述第一信息执行第一空域及时域处理过程,确定出所述第一信息的权重,并对所述第二信息执行第二空域及时域处理过程,确定出所述第二信息的权重;利用所述第一信息和所述第一信息的权重确定与所述至少一帧图像对应的运动特征,并利用所述第二信息和所述第二信息的权重确定与所述至少一帧图像对应的空间特征;根据所述运动特征和所述空间特征,对所述待分类视频进行分类。
可选地,从所述待分类视频中提取多帧图像;其中,确定与多帧图像对应的第一信息包括:利用边缘特征算子对各所述图像进行特征提取,得到多个第三信息;利用所述多个第三信息确定所述第一信息。
可选地,利用所述多个第三信息确定所述第一信息包括:将提取的所述多帧图像中相邻两帧的第三信息之差,确定为所述第一信息。
可选地,确定与多帧图像对应的第二信息包括:利用图像模糊算子对各所述图像进行特征提取,得到多个第二信息;丢弃提取的第一帧或最后一帧图像对应的第二信息,以使所述第一信息的数量与所述第二信息的数量匹配。
可选地,利用所述多个第三信息确定所述第一信息包括:获取所述待分类视频的第一帧图像,利用所述边缘特征算子对所述第一帧图像进行特征提取,得到第一参考信息;将所述第三信息与所述第一参考信息之差,确定为所述第一信息。
可选地,利用所述多个第三信息确定所述第一信息包括:获取所述待分类视频中与提取的图像相邻的图像;利用所述边缘特征算子对所述相邻的图像进行特征提取,得到第二参考信息;将提取的图像的第三信息与对应相邻的图像的第二参考信息之差,确定为所述第一信息。
可选地,对所述第一信息执行第一空域及时域处理过程,确定出所述第一信息的权重,包括:将所述第一信息输入权重确定模型,以确定出所述第一信息的权重,所述权重确定模型包括空域注意力模块和时域注意力模块;
其中,所述空域注意力模块用于对输入所述空域注意力模块的信息进行处理,输出与所述输入所述空域注意力模块的信息对应的空域注意力信息;所述时域注意力模块用于对输入所述时域注意力模块的信息进行处理,输出与所述输入所述时域注意力模块的信息对应的时域注意力信息,以便利用所述空域注意力信息和所述时域注意力信息确定出所述第一信息的权重。
可选地,所述空域注意力模块用于提取输入所述空域注意力模块的信息的整体语义信息以及与所述第一信息的空间频率匹配的第一语义信息,并根据所述整体语义信息和所述第一语义信息,确定出所述空域注意力信息;以及所述时域注意力模块用于提取输入所述时域注意力模块的信息的与所述第一信息的空间频率匹配的第二语义信息,从所述第二语义信息中提取与位置无关的整体语义信息,并将所述与位置无关的整体语义信息转换为所述时域注意力信息。
可选地,确定出所述第一信息的权重包括:将所述第一信息输入所述空域注意力模块,得到第一空域注意力信息;将所述第一空域注意力信息与所述第一信息相加,得到第一中间信息;将所述第一信息输入所述时域注意力模块,得到第一时域注意力信息;将所述第一时域注意力信息与所述第一中间信息相乘,得到所述第一信息的权重。
可选地,确定出所述第一信息的权重包括:将所述第一信息输入所述空域注意力模块,得到第一空域注意力信息;将所述第一空域注意力信息与所述第一信息相加,得到第一中间信息;将所述第一中间信息输入所述时域注意力模块,得到第二时域注意力信息;将所述第一中间信息与所述第二时域注意力信息相乘,得到所述第一信息的权重。
可选地,确定出所述第一信息的权重包括:将所述第一信息输入所述时域注意力模块,得到第三时域注意力信息;将所述第三时域注意力信息与所述第一信息相乘,得到第二中间信息;将所述第二中间信息输入所述空域注意力模块,得到第二空域注意力信息;将所述第二空域注意力信息与所述第二中间信息相加,得到所述第一信息的权重。
可选地,利用所述第一信息和所述第一信息的权重确定与所述至少一帧图像对应的运动特征,包括:将所述第一信息与所述第一信息的权重的乘积结果输入训练后的运动特征提取模型,以得到与所述至少一帧图像对应的运动特征;其中,利用带有动作标记的训练集对所述运动特征提取模型和所述权重确定模型的整体进行训练,以确定出训练后的运动特征提取模型。
可选地,根据所述运动特征和所述空间特征,对所述待分类视频进行分类,包括:将所述运动特征和所述空间特征进行融合,并根据融合结果对所述待分类视频进行分类。
可选地,将所述运动特征和所述空间特征进行融合包括:将所述运动特征和空间特征进行特征通道维度上的拼接,作为融合结果。
可选地,将所述运动特征和所述空间特征进行融合包括:确定所述运动特征的权重以及所述空间特征的权重;对所述运动特征和所述空间特征进行加权求和,作为融合结果。
可选地,将所述运动特征和所述空间特征进行融合包括:将所述运动特征与所述空间特征相乘,得到中间矩阵;对所述中间矩阵每行元素进行最大池化操作,提取每行的最大元素,组成一维列向量特征,作为融合结果。
可选地,根据融合结果对所述待分类视频进行分类包括:将融合结果输入训练后的视频分类模型,以得到所述待分类视频的分类结果;其中,所述视频分类模型的训练过程包括第一训练阶段和第二训练阶段,在所述第一训练阶段中,固定所述运动特征提取模型和所述权重确定模型的参数,利用训练集对包含所述运动特征提取模型、所述权重确定模型和所述视频分类模型的模型系统进行训练;在所述第二训练阶段中,解除对所述运动特征提取模型和所述权重确定模型的参数的固定,对所述模型系统进行训练。
根据本公开的第二方面,提供一种视频分类装置,包括:图像提取模块,用于获取待分类视频,从所述待分类视频中提取至少一帧图像;信息提取模块,用于确定与所述至少一帧图像对应的第一信息和第二信息;其中,所述第一信息的空间频率大于所述第二信息的空间频率;权重确定模块,用于对所述第一信息执行第一空域及时域处理过程,确定出所述第一信息的权重,并对所述第二信息执行第二空域及时域处理过程,确定出所述第二信息的权重;特征确定模块,用于利用所述第一信息和所述第一信息的权重确定与所述至少一帧图像对应的运动特征,并利用所述第二信息和所述第二信息的权重确定与所述至少一帧图像对应的空间特征;分类模块,用于根据所述运动特征和所述空间特征,对所述待分类视频进行分类。
可选地,从所述待分类视频中提取多帧图像;其中,信息提取模块被配置为执行:利用边缘特征算子对各所述图像进行特征提取,得到多个第三信息;利用所述多个第三信息确定所述第一信息。
可选地,信息提取模块利用所述多个第三信息确定所述第一信息的过程被配置为执行:将提取的所述多帧图像中相邻两帧的第三信息之差,确定为所述第一信息。
可选地,信息提取模块还被配置为执行:利用图像模糊算子对各所述图像进行特征提取,得到多个第二信息;丢弃提取的第一帧或最后一帧图像对应的第二信息,以使所述第一信息的数量与所述第二信息的数量匹配。
可选地,信息提取模块利用所述多个第三信息确定所述第一信息的过程被配置为执行:获取所述待分类视频的第一帧图像,利用所述边缘特征算子对所述第一帧图像进行特征提取,得到第一参考信息;将所述第三信息与所述第一参考信息之差,确定为所述第一信息。
可选地,信息提取模块利用所述多个第三信息确定所述第一信息的过程被配置为执行:获取所述待分类视频中与提取的图像相邻的图像;利用所述边缘特征算子对所述相邻的图像进行特征提取,得到第二参考信息;将提取的图像的第三信息与对应相邻的图像的第二参考信息之差,确定为所述第一信息。
可选地,权重确定模块被配置为执行:将所述第一信息输入权重确定模型,以确定出所述第一信息的权重,所述权重确定模型包括空域注意力模块和时域注意力模块;其中,所述空域注意力模块用于对输入所述空域注意力模块的信息进行处理,输出与所述输入所述空域注意力模块的信息对应的空域注意力信息;所述时域注意力模块用于对输入所述时域注意力模块的信息进行处理,输出与所述输入所述时域注意力模块的信息对应的时域注意力信息,以便利用所述空域注意力信息和所述时域注意力信息确定出所述第一信息的权重。
可选地,所述空域注意力模块用于提取输入所述空域注意力模块的信息的整体语义信息以及与所述第一信息的空间频率匹配的第一语义信息,并根据所述整体语义信息和所述第一语义信息,确定出所述空域注意力信息;以及所述时域注意力模块用于提取输入所述时域注意力模块的信息的与所述第一信息的空间频率匹配的第二语义信息,从所述第二语义信息中提取与位置无关的整体语义信息,并将所述与位置无关的整体语义信息转换为所述时域注意力信息。
可选地,权重确定模块确定出所述第一信息的权重的过程被配置为执行:将所述第一信息输入所述空域注意力模块,得到第一空域注意力信息;将所述第一空域注意力信息与所述第一信息相加,得到第一中间信息;将所述第一信息输入所述时域注意力模块,得到第一时域注意力信息;将所述第一时域注意力信息与所述第一中间信息相乘,得到所述第一信息的权重。
可选地,权重确定模块确定出所述第一信息的权重的过程被配置为执行:将所述第一信息输入所述空域注意力模块,得到第一空域注意力信息;将所述第一空域注意力信息与所述第一信息相加,得到第一中间信息;将所述第一中间信息输入所述时域注意力模块,得到第二时域注意力信息;将所述第一中间信息与所述第二时域注意力信息相乘,得到所述第一信息的权重。
可选地,权重确定模块确定出所述第一信息的权重的过程被配置为执行:将所述第一信息输入所述时域注意力模块,得到第三时域注意力信息;将所述第三时域注意力信息与所述第一信息相乘,得到第二中间信息;将所述第二中间信息输入所述空域注意力模块,得到第二空域注意力信息;将所述第二空域注意力信息与所述第二中间信息相加,得到所述第一信息的权重。
可选地,特征确定模块被配置为执行:将所述第一信息与所述第一信息的权重的乘积结果输入训练后的运动特征提取模型,以得到与所述至少一帧图像对应的运动特征;其中,利用带有动作标记的训练集对所述运动特征提取模型和所述权重确定模型的整体进行训练,以确定出训练后的运动特征提取模型。
可选地,分类模块被配置为执行:将所述运动特征和所述空间特征进行融合,并根据融合结果对所述待分类视频进行分类。
可选地,分类模块将所述运动特征和所述空间特征进行融合的过程被配置为执行:将所述运动特征和空间特征进行特征通道维度上的拼接,作为融合结果。
可选地,分类模块将所述运动特征和所述空间特征进行融合的过程被配置为执行:确定所述运动特征的权重以及所述空间特征的权重;对所述运动特征和所述空间特征进行加权求和,作为融合结果。
可选地,分类模块将所述运动特征和所述空间特征进行融合的过程被配置为执行:将所述运动特征与所述空间特征相乘,得到中间矩阵;对所述中间矩阵每行元素进行最大池化操作,提取每行的最大元素,组成一维列向量特征,作为融合结果。
可选地,分类模块进行根据融合结果对所述待分类视频进行分类的过程被配置为执行:将融合结果输入训练后的视频分类模型,以得到所述待分类视频的分类结果;其中,所述视频分类模型的训练过程包括第一训练阶段和第二训练阶段,在所述第一训练阶段中,固定所述运动特征提取模型和所述权重确定模型的参数,利用训练集对包含所述运动特征提取模型、所述权重确定模型和所述视频分类模型的模型系统进行训练;在所述第二训练阶段中,解除对所述运动特征提取模型和所述权重确定模型的参数的固定,对所述模型系统进行训练。
根据本公开的第三方面,提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种视频分类方法。
根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一种视频分类方法。
根据本公开实施方式的视频分类方法、视频分类装置、存储介质和电子设备,提取视频图像的记为第一信息的高频信息和记为第二信息的低频信息,并分别进行空域及时域处理过程,得到第一信息的权重和第二信息的权重,再利用第一信息和第一信息的权重确定图像对应的运动特征,利用第二信息和第二信息的权重确定图像对应的空间特征,然后,根据运动特征和空间特征对视频进行分类。一方面,本公开方案能够有效挖掘视频图像的低频空间特征和高频运动特征,利用这些特征进行分类,可以提高视频分类的准确度;另一方面,在提取视频多帧图像的情况下,由于方案关注了高频运动特征,使得可以有效抑制多帧图像序列中的冗余信息,进一步提高视频分类的准确度;再一方面,本公开的视频分类方案无需人工参与,自动执行,节省了人力和物力。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示意性示出了根据本公开示例性实施方式的视频分类方法的流程图;
图2示出了根据本公开的示例性实施方式的与视频分类方法对应的系统架构示意图;
图3示出了根据本公开的一个实施例的权重确定模型的结构示意图;
图4示出了根据本公开的另一个实施例的权重确定模型的结构示意图;
图5示出了根据本公开的又一个实施例的权重确定模型的结构示意图;
图6示出了根据本公开一个实施例的空域注意力模块的结构示意图;
图7示出了根据本公开一个实施例的空域注意力模块中全局信息表达模块的结构示意图;
图8示出了根据本公开一个实施例的空域注意力模块中语义特征学习模块的结构示意图;
图9示出了根据本公开一个实施例的空域注意力模块中信息转换模块的结构示意图;
图10示出了根据本公开一个实施例的时域注意力模块的结构示意图;
图11示出了根据本公开另一个实施例的时域注意力模块的结构示意图;
图12示意性示出了根据本公开的示例性实施例的视频分类装置的方框图;
图13示意性示出了根据本公开的示例性实施方式的电子设备的方框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提出了一种视频分类方法、视频分类装置、存储介质和电子设备。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
发明概述
在现有技术的视频分类方案中,采用人工进行分类的方式已经不能满足视频数量快速增长的现状,而采用对视频图像进行特征分析的方式,往往存在提取的特征不全面的问题,导致视频分类结果准确度不高。
发明人发现,视频图像的高频信息和低频信息对应视频图像不同方面的特征,将二者相结合,可以较好地反映出视频完整的有效信息,进而可以利用这些信息进行分类,以提高分类的准确度。
基于上述内容,本公开的基本思想在于:获取视频图像,提取视频图像的高频信息和低频信息,通过空域及时域的分析,确定出高频信息对应的权重和低频信息对应的权重,再利用加权的方式得到与视频图像对应的高维运动特征和高维空间特征,然后,将高维运动特征和高维空间特征融合,并根据融合结果确定出视频分类结果。
本公开技术方案能够有效挖掘视频图像的低频空间特征和高频运动特征,利用这些特征进行分类,可以提高视频分类的准确度。另外,在提取视频多帧图像的情况下,由于方案关注了高频运动特征,使得可以有效抑制多帧图像序列中的冗余信息,进一步提高视频分类的准确度。本公开的视频分类方案无需人工参与,自动执行,节省了人力和物力。
在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
应用场景概览
需要注意的是,下述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
一方面,用户侧的终端设备可以利用本公开实施方式的视频分类方法对终端设备存储的视频进行分类。例如,可以通过配置有本公开视频分类算法的应用程序(APP)来实现对终端设备存储的视频进行分类,也可以在终端设备出厂前,将实现本公开视频分类功能的模块配置于终端设备中。其中,用户侧的终端设备可以包括但不限于手机、个人计算机、平板电脑等,终端设备存储的视频可以是通过终端设备的摄像模组拍摄的视频,还可以是其他终端设备发送的或从网上下载的视频。
通过本公开实施方式的视频分类方法,例如可以将终端设备存储的视频按拍摄对象、拍摄地点、拍摄场景进行分类,并按分类结果重新配置视频的展示方式,以便用户查看。
另一方面,各视频生产、分享平台(例如,视频播放平台,直播平台等)可以应用本公开实施方式的视频分类方法对自身生产出的或由用户上传的视频进行分类,在这种情况下,可以由各视频平台的服务器执行本公开方案。本公开对视频分类的结果不做限制,例如,在按视频类型进行分类的情况下,可以将视频分为影视类、体育类、游戏类等。
此外,鉴于本公开视频分类的方案关注运动信息,因此,可以用于识别视频中对象(例如,人)执行的动作。在这种情况下,本公开方案可以应用于视频安防监控、生物特征识别等众多领域。
示例性方法
参考图1来描述根据本公开示例性实施方式的视频分类方法。虽然下面描述的视频分类方法由服务器实现,也就是说,服务器执行该视频分类方法的各个步骤,然而,需要说明的是,如上所述,在不同的应用场景下,用户侧的终端设备也可以执行下述视频分类方法的各个步骤。
图1示意性地示出了根据本公开的示例性实施方式的视频分类方法的流程图。参考图1,根据本公开的示例性实施方式的视频分类方法可以包括以下步骤:
S10.获取待分类视频,从所述待分类视频中提取至少一帧图像;
S12.确定与所述至少一帧图像对应的第一信息和第二信息;其中,所述第一信息的空间频率大于所述第二信息的空间频率;
S14.对所述第一信息执行第一空域及时域处理过程,确定出所述第一信息的权重,并对所述第二信息执行第二空域及时域处理过程,确定出所述第二信息的权重;
S16.利用所述第一信息和所述第一信息的权重确定与所述至少一帧图像对应的运动特征,并利用所述第二信息和所述第二信息的权重确定与所述至少一帧图像对应的空间特征;
S18.根据所述运动特征和所述空间特征,对所述待分类视频进行分类。
图2为实现上述视频分类方法的系统架构示意图,将参考图2所示的系统架构图对上述步骤S10至步骤S18中主要的操作过程进行说明。
在步骤S10中,获取待分类视频,从所述待分类视频中提取至少一帧图像。
在本公开的示例性实施方式中,待分类视频可以是要执行分类处理的视频。一方面,待分类视频可以是通过终端设备的摄像模组实时拍摄而获取到的视频,例如,在直播或安防监控的场景中,由摄像模组拍摄的视频可以作为待分类视频上传至服务器;另一方面,待分类视频可以是已经拍摄完成的视频,其可以与其他视频一并发送给服务器,以便服务器对这些视频进行分类;又一方面,待分类视频还可以是通过视频制作软件生产出的视频。本公开对待分类视频的来源、大小、类型等均不做限制。
另外,在服务器连接视频生产端的情况下,服务器可以每隔预设时间(例如,12小时、24小时等)从视频生产端拉取该段时间生产出的视频,以进行分类处理。
在服务器获取到待分类视频后,可以从该待分类视频中提取至少一帧图像。在本公开的一些实施例中,针对一些场景变化简单的视频,可以仅提取一帧图像进行后续分析,得到该视频的分类结果。在本公开的另一些实施例中,可以提取多帧图像,以执行后续处理过程,得到该视频的分类结果。
针对提取待分类视频中图像的过程,可以从待分类视频中等间距地提取固定数量的图像,例如,每隔10帧提取一帧图像。也可以每隔固定时间提取一帧图像,例如,在视频总时长较长的情况下,每隔2s提取一帧图像。
另外,在本公开的一些实施例中,可以结合与待分类视频对应的音频信号提取图像。例如,在待分类视频中,以第一图像提取频率从音量大于一音量阈值的视频段中提取图像,以第二图像提取频率从音量小于等于该音量阈值的视频段中提取图像,其中,第一图像提取频率高于第二图像提取频率。
音量大的视频位置相对于音量小的视频位置,往往更能反映出视频的内容,也就是对应视频的精彩之处。以音量作为考量因素,使得提取的图像更能反映出视频内容。
此外,在一些例如直播视频的分类场景中,提取的图像包括当前实时拍摄出的视频图像。如,服务器获取到终端设备上传的当前拍摄的视频图像A,在需要进行视频分类的情况下,直接将该图像A确定为在步骤S10中所提取的图像。
尤其在确定视频动作的情况下,视频动作分类可能存在变化,在这种情况下,往往仅关注当前的视频分类结果,因此,获取当前视频图像或距当前接近的视频图像显得十分重要,直接影响到当前视频播放内容的分类准确性。
在步骤S12中,确定与所述至少一帧图像对应的第一信息和第二信息;其中,所述第一信息的空间频率大于所述第二信息的空间频率。
针对步骤S10中从待分类视频中提取出的图像,可以确定出与其对应的第一信息和第二信息。在本公开的示例性实施方式中,第一信息的空间频率大于第二信息的空间频率,本领域技术人员容易理解的是,第一信息对应于空间频率高的信息,也就是说,第一信息为图像的高频信息,可以例如包括图像中的边缘轮廓的信息;第二信息对应于空间频率低的信息,也就是说,第二信息为图像的低频信息,可以例如包括图像中纹理平滑区域所对应的信息。
针对提取第一信息的过程,参考图2,可以利用高频滤波器201来实现第一信息的提取。具体的,高频滤波器201可以采用在空域提取边缘特征的算子来提取第一信息,这些算子可以包括但不限于Roberts算子、Sobel算子、Prewitt算子、Laplacian算子、DoG算子等。另外,在满足高频部分系数大于0且低频部分系数接近于0的情况下,高频滤波器201还可以采用自定义的算子,本公开对此不做限制。
针对提取第二信息的过程,参考图2,可以利用低频滤波器204来实现第二信息的提取。具体的,低频滤波器204可以采用在空域进行图像模糊的算子来提取第二信息,例如,大小为3×3(或5×5、7×7等)的均值滤波器、高斯平滑滤波器等。
此外,在从待分类视频中提取多帧图像的情况下,第一信息还可以是进一步与运动相关的高频信息。在这种情况下,确定与这些图像对应的第一信息的过程可以包括:首先,可以利用上面提到的边缘特征算子对各图像进行特征提取,得到与各图像分别对应的多个第三信息;接下来,可以利用多个第三信息确定出第一信息。
根据本公开的一个实施例,利用多个第三信息确定第一信息的过程可以包括:计算提取的多帧图像中相邻两帧的第三信息之差,并由该差值组成第一信息。
应当理解的是,此时表征第一信息的序列的长度小于表征第二信息的序列的长度,为了后续能够统一处理,在这种情况下,服务器可以丢弃提取的第一帧或最后一帧图像对应的第二信息,以便第一信息的数量与第二信息的数量匹配。
根据本公开的另一个实施例,利用多个第三信息确定第一信息的过程可以包括:首先,获取待分类视频的第一帧图像,利用边缘特征算子对第一帧图像进行特征提取,得到第一参考信息;接下来,计算第三信息与第一参考信息之差,并由该差值组成第一信息。
根据本公开的又一个实施例,利用多个第三信息确定第一信息的过程可以包括:首先,获取待分类视频中与提取的图像相邻的图像,例如,提取的图像为第i帧图像,则相邻的图像可以为第i-1帧或第i+1帧的图像;接下来,可以利用上述边缘特征算子对该相邻的图像进行特征提取,得到第二参考信息,并计算第三信息与对应相邻的图像的第二参考信息之差,由该差值组成第一信息。例如,计算的是第i帧图像的第三信息与第i-1帧(或第i+1帧)图像的第二参考信息之间的差值。
在步骤S14中,对所述第一信息执行第一空域及时域处理过程,确定出所述第一信息的权重,并对所述第二信息执行第二空域及时域处理过程,确定出所述第二信息的权重。
在本公开的示例性方式中,可以将第一信息输入权重确定模型,以得到第一信息的权重;可以将第二信息输入权重确定模型,以得到第二信息的权重。针对第一信息的权重确定模型与针对第二信息的权重确定模型可以是结构相同的模型。
该权重确定模型可以包括空域注意力模块和时域注意力模块。其中,空域注意力模块用于对输入该空域注意力模块的信息进行处理,输出与该输入空域注意力模块的信息对应的空域注意力信息;时域注意力模块用于对输入时域注意力模块的信息进行处理,输出与该输入时域注意力模块的信息对应的时域注意力信息,以便利用空域注意力信息和时域注意力信息确定出第一信号或第二信号权重。
另外,第一信息的权重确定模型由于针对的是高频信息的权重,为了方便描述,可以将输入有第一信息的权重确定模型称为高频注意力模型;第二信息的权重确定模型由于针对的是低频信息的权重,为了方便描述,可以将输入有第二信息的权重确定模型称为低频注意力模型。
针对确定第一信息的权重的过程:
参考图2,可以将借助于高频滤波器201确定出的第一信息输入高频注意力模型202,以得到第一信息的权重。
根据本公开的一个实施例,参考图3,作为应用于高频的权重确定模型,高频注意力模型202可以包括空域注意力模块31和时域注意力模块32。
具体的,一方面,将第一信息输入空域注意力模块31,得到第一空域注意力信息,将第一空域注意力信息与第一信息相加,得到第一中间信息。另一方面,将第一信息输入时域注意力模块32,得到第一时域注意力信息。在这种情况下,可以将第一时域注意力信息与第一中间信息相乘,得到第一信息的权重。
根据本公开的另一个实施例,参考图4,提供了另一种基于空域注意力模块31和时域注意力模块32得到第一信息权重的方式。
具体的,将第一信息输入空域注意力模块31,得到第一空域注意力信息。将第一空域注意力信息与第一信息相加,得到第一中间信息。将第一中间信息输入时域注意力模块32,得到第二时域注意力信息,并将第一中间信息与第二时域注意力信息相乘,得到第一信息的权重。
根据本公开的又一个实施例,参考图5,提供了又一种基于空域注意力模块31和时域注意力模块32得到第一信息权重的方式。
具体的,将第一信息输入时域注意力模块32,得到第三时域注意力信息。将第三时域注意力信息与第一信息相乘,得到第二中间信息。将第二中间信息输入空域注意力模块31,得到第二空域注意力信息,并将第二空域注意力信息与第二中间信息相加,得到所述第一信息的权重。
就上述空域注意力模块31和时域注意力模块32而言,空域注意力模块31用于提取输入空域注意力模块31的信息的整体语义信息以及与第一信息的空间频率(即,高频)匹配的第一语义信息,并根据整体语义信息和第一语义信息,确定出空域注意力信息;时域注意力模块32用于提取输入时域注意力模块32的信息的与第一信息的空间频率(即,高频)匹配的第二语义信息,从第二语义信息中提取与位置无关的整体语义信息,并将与位置无关的整体语义信息转换为时域注意力信息。
下面将参考图6至图9对上述空域注意力模块31进行说明。
参考图6,空域注意力模块31可以包括全局信息表达模块601、语义特征学习模块602和信息转换模块603。
其中,全局信息表达模块601用于提取输入至空域注意力模块31的信息的整体语义信息。语义特征学习模块602用于提取输入至空域注意力模块31的信息的作为高频的第一语义信息。信息转换模块603用于根据整体语义信息和第一语义信息,确定出空域注意力信息,具体的,信息转换模块603可以将全局信息表达模块601和语义特征学习模块602的输出进行逐帧矩阵相乘,结果再与输入空域注意力模块31的信息相加,以得到空域注意力信息。
参考图7,全局信息表达模块601可以包括2维卷积层701、2维卷积层702、执行点乘的操作单元703和归一化层704。如果输入空域注意力模块31的信息被表示为T×3×(HW)的矩阵,其中,T为帧数,H为图像的高度,W为图像的宽度,则经由全局信息表达模块601处理后,可以输出的信息为T×(HW)×(HW)的矩阵。
参考图8,语义特征学习模块602可以包括2维卷积层801,在T×3×(HW)的矩阵输入后,通过该2维卷积层801,语义特征学习模块602可以输出的信息为T×(HW)×3的矩阵。
参考图9,信息转换模块603可以执行点乘的操作单元901。如上所述,信息转换模块603输入的信息分别为T×(HW)×(HW)的矩阵和T×(HW)×3的矩阵,进行点乘后,又可得到与初始输入空域注意力模块31的尺寸相同的矩阵,即,T×3×(HW)。
应当理解的是,图7至图9仅是示例性示出了空域注意力模块31中各模块的结构,还可以存在其他结构形式,本公开对此不做限制。
下面将参考图10对本公开一个实施例的时域注意力模块32进行说明。
如图10所示,时域注意力模块32可以包括语义特征学习模块101、全局信息表达模块102和信息转换模块103。其中,语义特征学习模块101用于提取输入时域注意力模块32的信息中高频的第二语义信息,且可以实现为多个3维卷积层构成的网络。全局信息表达模块102用于从第二语义信息中提取与位置无关的整体语义信息,其可以实现为2维的全局池化层。信息转换模块103用于将与位置无关的整体语义信息进行转换,其可以实现为多个卷积层与softmax层级联的网络。信息转换模块103输出的结果再与输入时域注意力模块32的信息相乘,以得到时域注意力信息。
例如,输入时域注意力模块32的信息为3×H×W×T的矩阵,经过语义特征学习模块101处理后,通道数变为C(C通常为2的n次方,例如32),即得到C×H×W×T的矩阵。随后,通过全局信息表达模块102将空间信息进行压缩,得到C×1×1×T的矩阵。再经过信息转换模块103将通道数转换为1,并沿时间方向进行归一化处理,得到1×1×1×T,作为信息转换模块103的输出,在于输入时域注意力模块32的信息相乘,得到3×H×W×T的矩阵。
参考图11,时域注意力模块32可以包括语义特征学习模块111、全局信息表达模块112和信息转换模块113。其中,虽然图示存在差异,然而,本领域的技术人员容易理解的是,语义特征学习模块111可以与图10中的语义特征学习模块101相同,信息转换模块113可以与图10中的信息转换模块103相同。
针对全局信息表达模块112,可以包括进行逐帧矩阵相乘的网络,其中,逐帧矩阵相乘操作是指:将C×H×W×T的矩阵分为T个维度为C×H×W的矩阵,将全局信息表达模块112中3维卷积层输出的维度为1×H×W×T的矩阵分为T个1×H×W的矩阵,然后将每对维度为C×H×W的矩阵和维度为1×H×W的矩阵转置相乘,消除H和W,得到维度为C×1的矩阵,再对T各C×1的矩阵进行拼接,得到C×1×1×T的矩阵,作为全局信息表达模块112的输出。
以上借助于图3至图11说明了确定第一信息的权重的过程。针对确定第二信息的权重的过程,具体的,参考图2,可以将借助于低频滤波器204确定出的第二信息输入低频注意力模型205中,以得到第二信息的权重。
其中,低频注意力模型205与高频注意力模型202的模型结构相同,也就是说,可以利用图3至图5任一种模型结构来实现低频注意力模型205,其中,空域注意力模块和时域注意力模块也如图6至图11中对应结构所示,本公开不再赘述确定第二信息的权重的过程。
S16.利用所述第一信息和所述第一信息的权重确定与所述至少一帧图像对应的运动特征,并利用所述第二信息和所述第二信息的权重确定与所述至少一帧图像对应的空间特征。
针对确定图像对应运动特征的过程:
参考图2,将第一信息与第一信息的乘积结果输入训练后的运动特征提取模型203,以得到图像对应的运动特征。
具体的,首先,将第一信息与第一信息的权重逐元素相乘,得到加权后的高频信息;接下来,将加权后的高频信息输入运动特征提取模型203,利用该模型得到图像对应的运动特征。
本公开示例性实施方式的运动特征提取模型203可以是2维的图像分类模型(例如,残差网络),也可以采用3维的卷积神经网络,本公开对此不做限制。
在应用该运动特征提取模型203之前,可以利用带有动作标记的训练集对该运动特征提取模型203和作为权重确定模型的高频注意力模型202的整体进行训练,也就是说,将运动特征提取模型203和高频注意力模型202作为一个整体,来进行训练,以得到训练后的运动特征提取模型203。
针对确定图像对应空间特征的过程:
参考图2,将第二信息与第二信息的乘积结果输入训练后的空间特征提取模型206,以得到图像对应的空间特征。
具体的,首先,将第二信息与第二信息的权重逐元素相乘,得到加权后的低频信息;接下来,将加权后的低频信息输入空间特征提取模型206,利用该模型得到图像对应的空间特征。
本公开示例性实施方式的空间特征提取模型206可以是2维的图像分类模型(例如,残差网络),也可以采用3维的卷积神经网络,本公开对此不做限制。
在应用该空间特征提取模型206之前,可以利用带有动作标记的训练集对该空间特征提取模型206和作为权重确定模型的低频注意力模型205的整体进行训练,也就是说,将该空间特征提取模型206和低频注意力模型205作为一个整体,来进行训练,以得到训练后的空间特征提取模型206。
S18.根据所述运动特征和所述空间特征,对所述待分类视频进行分类。
在确定出图像对应的运动特征和空间特征后,参考图2,可以利用特征融合模块207将运动特征与空间特征融合。
根据本公开的一个实施例,特征融合模块207可以将运动特征和空间特征进行特征通道维度上的拼接,以得到融合结果。
根据本公开的另一个实施例,特征融合模块207可以确定运动特征的权重以及空间特征的权重,其中,运动特征的权重和空间特征的权重可以由特征融合模块207包含的处理模型确定出,或者可以由用户自行设置权重,本公开对此不做限制。接下来,特征融合模块207可以对运动特征和空间特征进行加权求和,作为融合结果。
根据本公开的又一个实施例,特征融合模块207可以将运动特征与空间特征相乘,得到中间矩阵,并对该中间矩阵每行元素进行最大池化操作,提取每行的最大元素,并由每行的最大元素组成一维列向量特征,作为融合结果。
在得到融合结果后,继续参考图2,将融合结果输入至视频分类模型208中,以得到与步骤S10中获取的待分类视频对应的分类结果。
具体的,视频分类模型208可以是由全连接网络层构建的分类网络,然而,本公开不对视频分类模型208的具体结构进行限制。
需要说明的是,视频分类模型208的训练过程分为两个阶段,记为第一训练阶段和第二训练阶段。
在第一训练阶段中,可以固定运动特征提取模型203、空间特征提取模型206和权重确定模型(高频注意力模型202和低频注意力模型205)的参数,利用训练集对包含运动特征提取模型203、空间特征提取模型206、权重确定模型和视频分类模型208的模型系统进行训练。其中,采用随机梯度下降的方式更新模型。
在第一训练阶段使视频分类模型208训练收敛后,执行第二训练阶段。
在第二训练阶段中,不再固定参数,也就是说,解除对运动特征提取模型203、空间特征提取模型206和权重确定模型的参数固定,再利用训练集对包含运动特征提取模型203、空间特征提取模型206、权重确定模型和视频分类模型208的模型系统进行训练。其中,依然可以采用随机梯度下降的方式更新模型。
综上所述,利用本公开示例性实施方式的视频分类方法,一方面,本公开方案能够有效挖掘视频图像的低频空间特征和高频运动特征,利用这些特征进行分类,可以提高视频分类的准确度;另一方面,在提取视频多帧图像的情况下,由于方案关注了高频运动特征,使得可以有效抑制多帧图像序列中的冗余信息,进一步提高视频分类的准确度;再一方面,本公开的视频分类方案无需人工参与,自动执行,节省了人力和物力。
示例性装置
在介绍了本公开示例性实施方式的视频分类方法之后,接下来,参考图12对本公开示例性实施方式的视频分类装置进行描述。
参考图12,根据本公开的示例性实施方式的视频分类装置12可以包括图像提取模块121、信息提取模块123、权重确定模块125、特征确定模块127和分类模块129。
具体的,图像提取模块121可以用于获取待分类视频,从所述待分类视频中提取至少一帧图像;信息提取模块123可以用于确定与所述至少一帧图像对应的第一信息和第二信息;其中,所述第一信息的空间频率大于所述第二信息的空间频率;权重确定模块125可以用于对所述第一信息执行第一空域及时域处理过程,确定出所述第一信息的权重,并对所述第二信息执行第二空域及时域处理过程,确定出所述第二信息的权重;特征确定模块127可以用于利用所述第一信息和所述第一信息的权重确定与所述至少一帧图像对应的运动特征,并利用所述第二信息和所述第二信息的权重确定与所述至少一帧图像对应的空间特征;分类模块129可以用于根据所述运动特征和所述空间特征,对所述待分类视频进行分类。
根据本公开的示例性实施例,从所述待分类视频中提取多帧图像;其中,信息提取模块123可以被配置为执行:利用边缘特征算子对各所述图像进行特征提取,得到多个第三信息;利用所述多个第三信息确定所述第一信息。
根据本公开的示例性实施例,信息提取模块123利用所述多个第三信息确定所述第一信息的过程可以被配置为执行:将提取的所述多帧图像中相邻两帧的第三信息之差,确定为所述第一信息。
根据本公开的示例性实施例,信息提取模块123还可以被配置为执行:利用图像模糊算子对各所述图像进行特征提取,得到多个第二信息;丢弃提取的第一帧或最后一帧图像对应的第二信息,以使所述第一信息的数量与所述第二信息的数量匹配。
根据本公开的示例性实施例,信息提取模块123利用所述多个第三信息确定所述第一信息的过程可以被配置为执行:获取所述待分类视频的第一帧图像,利用所述边缘特征算子对所述第一帧图像进行特征提取,得到第一参考信息;将所述第三信息与所述第一参考信息之差,确定为所述第一信息。
根据本公开的示例性实施例,信息提取模块123利用所述多个第三信息确定所述第一信息的过程可以被配置为执行:获取所述待分类视频中与提取的图像相邻的图像;利用所述边缘特征算子对所述相邻的图像进行特征提取,得到第二参考信息;将提取的图像的第三信息与对应相邻的图像的第二参考信息之差,确定为所述第一信息。
根据本公开的示例性实施例,权重确定模块125可以被配置为执行:将所述第一信息输入权重确定模型,以确定出所述第一信息的权重,所述权重确定模型包括空域注意力模块和时域注意力模块;其中,所述空域注意力模块用于对输入所述空域注意力模块的信息进行处理,输出与所述输入所述空域注意力模块的信息对应的空域注意力信息;所述时域注意力模块用于对输入所述时域注意力模块的信息进行处理,输出与所述输入所述时域注意力模块的信息对应的时域注意力信息,以便利用所述空域注意力信息和所述时域注意力信息确定出所述第一信息的权重。
根据本公开的示例性实施例,所述空域注意力模块用于提取输入所述空域注意力模块的信息的整体语义信息以及与所述第一信息的空间频率匹配的第一语义信息,并根据所述整体语义信息和所述第一语义信息,确定出所述空域注意力信息;以及所述时域注意力模块用于提取输入所述时域注意力模块的信息的与所述第一信息的空间频率匹配的第二语义信息,从所述第二语义信息中提取与位置无关的整体语义信息,并将所述与位置无关的整体语义信息转换为所述时域注意力信息。
根据本公开的示例性实施例,权重确定模块125确定出所述第一信息的权重的过程可以被配置为执行:将所述第一信息输入所述空域注意力模块,得到第一空域注意力信息;将所述第一空域注意力信息与所述第一信息相加,得到第一中间信息;将所述第一信息输入所述时域注意力模块,得到第一时域注意力信息;将所述第一时域注意力信息与所述第一中间信息相乘,得到所述第一信息的权重。
根据本公开的示例性实施例,权重确定模块125确定出所述第一信息的权重的过程可以被配置为执行:将所述第一信息输入所述空域注意力模块,得到第一空域注意力信息;将所述第一空域注意力信息与所述第一信息相加,得到第一中间信息;将所述第一中间信息输入所述时域注意力模块,得到第二时域注意力信息;将所述第一中间信息与所述第二时域注意力信息相乘,得到所述第一信息的权重。
根据本公开的示例性实施例,权重确定模块125确定出所述第一信息的权重的过程可以被配置为执行:将所述第一信息输入所述时域注意力模块,得到第三时域注意力信息;将所述第三时域注意力信息与所述第一信息相乘,得到第二中间信息;将所述第二中间信息输入所述空域注意力模块,得到第二空域注意力信息;将所述第二空域注意力信息与所述第二中间信息相加,得到所述第一信息的权重。
根据本公开的示例性实施例,特征确定模块127可以被配置为执行:将所述第一信息与所述第一信息的权重的乘积结果输入训练后的运动特征提取模型,以得到与所述至少一帧图像对应的运动特征;其中,利用带有动作标记的训练集对所述运动特征提取模型和所述权重确定模型的整体进行训练,以确定出训练后的运动特征提取模型。
根据本公开的示例性实施例,分类模块129可以被配置为执行:将所述运动特征和所述空间特征进行融合,并根据融合结果对所述待分类视频进行分类。
根据本公开的示例性实施例,分类模块129将所述运动特征和所述空间特征进行融合的过程可以被配置为执行:将所述运动特征和空间特征进行特征通道维度上的拼接,作为融合结果。
根据本公开的示例性实施例,分类模块129将所述运动特征和所述空间特征进行融合的过程可以被配置为执行:确定所述运动特征的权重以及所述空间特征的权重;对所述运动特征和所述空间特征进行加权求和,作为融合结果。
根据本公开的示例性实施例,分类模块129将所述运动特征和所述空间特征进行融合的过程可以被配置为执行:将所述运动特征与所述空间特征相乘,得到中间矩阵;对所述中间矩阵每行元素进行最大池化操作,提取每行的最大元素,组成一维列向量特征,作为融合结果。
根据本公开的示例性实施例,分类模块129进行根据融合结果对所述待分类视频进行分类的过程可以被配置为执行:将融合结果输入训练后的视频分类模型,以得到所述待分类视频的分类结果;其中,所述视频分类模型的训练过程包括第一训练阶段和第二训练阶段,在所述第一训练阶段中,固定所述运动特征提取模型和所述权重确定模型的参数,利用训练集对包含所述运动特征提取模型、所述权重确定模型和所述视频分类模型的模型系统进行训练;在所述第二训练阶段中,解除对所述运动特征提取模型和所述权重确定模型的参数的固定,对所述模型系统进行训练。
由于本公开实施方式的程序运行性能分析装置的各个功能模块与上述方法发明实施方式中相同,因此在此不再赘述。
示例性设备
在介绍了本公开示例性实施方式的视频分类方法、视频分类装置之后,接下来,将对本公开的示例性实施方式的电子设备进行描述。其中,本公开的示例性实施方式的电子设备包括上述视频分类装置之一。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本公开的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“方法”部分中描述的根据本公开各种示例性实施方式的视频分类方法中的步骤。例如,所述处理单元可以执行如图1所述的步骤S10至步骤S18。
下面参照图13来描述根据本公开的这种实施方式的电子设备1300。图13显示的电子设备1300仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图13所示,电子设备1300以通用计算设备的形式表现。电子设备1300的组件可以包括但不限于:上述至少一个处理单元1310、上述至少一个存储单元1320、连接不同系统组件(包括存储单元1320和处理单元1310)的总线1330、显示单元1340。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1310执行,使得所述处理单元1310执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元1310可以执行如图1所述的步骤S12和步骤S16,或者执行如图4所述的步骤S42和步骤S46。
存储单元1320可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)13201和/或高速缓存存储单元13202,还可以进一步包括只读存储单元(ROM)13203。
存储单元1320还可以包括具有一组(至少一个)程序模块13205的程序/实用工具13204,这样的程序模块13205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1330可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1300也可以与一个或多个外部设备1400(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1300交互的设备通信,和/或与使得该电子设备1300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1350进行。并且,电子设备1300还可以通过网络适配器1360与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1360通过总线1330与电子设备1300的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
示例性程序产品
在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“方法”部分中描述的根据本公开各种示例性实施方式的视频分类方法中的步骤,例如,所述终端设备可以执行如图1所述的步骤S10至步骤S18。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光盘、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。另外,随着技术的发展,可读存储介质也应进行相应解读。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了视频分类装置的若干模块或子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (30)

1.一种视频分类方法,其特征在于,包括:
获取待分类视频,结合与所述待分类视频对应的音频信号从所述待分类视频中提取多帧图像;
确定与至少一帧图像对应的第一信息和第二信息;其中,所述第一信息的空间频率大于所述第二信息的空间频率;
对所述第一信息执行第一空域及时域处理过程,确定出所述第一信息的权重,并对所述第二信息执行第二空域及时域处理过程,确定出所述第二信息的权重;包括:将所述第一信息输入权重确定模型,以确定出所述第一信息的权重,将所述第二信息输入权重确定模型,以确定所述第二信息的权重,其中,针对所述第一信息的权重确定模型与针对所述第二信息的权重确定模型是结构相同的模型,所述权重确定模型包括空域注意力模块和时域注意力模块;
其中,所述空域注意力模块用于对输入所述空域注意力模块的信息进行处理,输出与所述输入所述空域注意力模块的信息对应的空域注意力信息;所述时域注意力模块用于对输入所述时域注意力模块的信息进行处理,输出与所述输入所述时域注意力模块的信息对应的时域注意力信息,以便利用所述空域注意力信息和所述时域注意力信息确定出所述第一信息的权重;
利用所述第一信息和所述第一信息的权重确定与所述至少一帧图像对应的运动特征,并利用所述第二信息和所述第二信息的权重确定与所述至少一帧图像对应的空间特征;
根据所述运动特征和所述空间特征,对所述待分类视频进行分类;
其中,确定与多帧图像对应的第一信息包括:利用边缘特征算子对各所述图像进行特征提取,得到多个第三信息;利用所述多个第三信息确定所述第一信息;
确定与多帧图像对应的第二信息包括:利用图像模糊算子对各所述图像进行特征提取,得到多个第二信息;丢弃提取的第一帧或最后一帧图像对应的第二信息,以使所述第一信息的数量与所述第二信息的数量匹配。
2.根据权利要求1所述的视频分类方法,其特征在于,利用所述多个第三信息确定所述第一信息包括:
将提取的所述多帧图像中相邻两帧的第三信息之差,确定为所述第一信息。
3.根据权利要求1所述的视频分类方法,其特征在于,利用所述多个第三信息确定所述第一信息包括:
获取所述待分类视频的第一帧图像,利用所述边缘特征算子对所述第一帧图像进行特征提取,得到第一参考信息;
将所述第三信息与所述第一参考信息之差,确定为所述第一信息。
4.根据权利要求1所述的视频分类方法,其特征在于,利用所述多个第三信息确定所述第一信息包括:
获取所述待分类视频中与提取的图像相邻的图像;
利用所述边缘特征算子对所述相邻的图像进行特征提取,得到第二参考信息;
将提取的图像的第三信息与对应相邻的图像的第二参考信息之差,确定为所述第一信息。
5.根据权利要求1所述的视频分类方法,其特征在于,所述空域注意力模块用于提取输入所述空域注意力模块的信息的整体语义信息以及与所述第一信息的空间频率匹配的第一语义信息,并根据所述整体语义信息和所述第一语义信息,确定出所述空域注意力信息;以及
所述时域注意力模块用于提取输入所述时域注意力模块的信息的与所述第一信息的空间频率匹配的第二语义信息,从所述第二语义信息中提取与位置无关的整体语义信息,并将所述与位置无关的整体语义信息转换为所述时域注意力信息。
6.根据权利要求5所述的视频分类方法,其特征在于,确定出所述第一信息的权重包括:
将所述第一信息输入所述空域注意力模块,得到第一空域注意力信息;
将所述第一空域注意力信息与所述第一信息相加,得到第一中间信息;
将所述第一信息输入所述时域注意力模块,得到第一时域注意力信息;
将所述第一时域注意力信息与所述第一中间信息相乘,得到所述第一信息的权重。
7.根据权利要求5所述的视频分类方法,其特征在于,确定出所述第一信息的权重包括:
将所述第一信息输入所述空域注意力模块,得到第一空域注意力信息;
将所述第一空域注意力信息与所述第一信息相加,得到第一中间信息;
将所述第一中间信息输入所述时域注意力模块,得到第二时域注意力信息;
将所述第一中间信息与所述第二时域注意力信息相乘,得到所述第一信息的权重。
8.根据权利要求5所述的视频分类方法,其特征在于,确定出所述第一信息的权重包括:
将所述第一信息输入所述时域注意力模块,得到第三时域注意力信息;
将所述第三时域注意力信息与所述第一信息相乘,得到第二中间信息;
将所述第二中间信息输入所述空域注意力模块,得到第二空域注意力信息;
将所述第二空域注意力信息与所述第二中间信息相加,得到所述第一信息的权重。
9.根据权利要求1所述的视频分类方法,其特征在于,利用所述第一信息和所述第一信息的权重确定与所述至少一帧图像对应的运动特征,包括:
将所述第一信息与所述第一信息的权重的乘积结果输入训练后的运动特征提取模型,以得到与所述至少一帧图像对应的运动特征;
其中,利用带有动作标记的训练集对所述运动特征提取模型和所述权重确定模型的整体进行训练,以确定出训练后的运动特征提取模型。
10.根据权利要求9所述的视频分类方法,其特征在于,根据所述运动特征和所述空间特征,对所述待分类视频进行分类,包括:
将所述运动特征和所述空间特征进行融合,并根据融合结果对所述待分类视频进行分类。
11.根据权利要求10所述的视频分类方法,其特征在于,将所述运动特征和所述空间特征进行融合包括:
将所述运动特征和空间特征进行特征通道维度上的拼接,作为融合结果。
12.根据权利要求10所述的视频分类方法,其特征在于,将所述运动特征和所述空间特征进行融合包括:
确定所述运动特征的权重以及所述空间特征的权重;
对所述运动特征和所述空间特征进行加权求和,作为融合结果。
13.根据权利要求10所述的视频分类方法,其特征在于,将所述运动特征和所述空间特征进行融合包括:
将所述运动特征与所述空间特征相乘,得到中间矩阵;
对所述中间矩阵每行元素进行最大池化操作,提取每行的最大元素,组成一维列向量特征,作为融合结果。
14.根据权利要求10至13中任一项所述的视频分类方法,其特征在于,根据融合结果对所述待分类视频进行分类包括:
将融合结果输入训练后的视频分类模型,以得到所述待分类视频的分类结果;
其中,所述视频分类模型的训练过程包括第一训练阶段和第二训练阶段,在所述第一训练阶段中,固定所述运动特征提取模型和所述权重确定模型的参数,利用训练集对包含所述运动特征提取模型、所述权重确定模型和所述视频分类模型的模型系统进行训练;在所述第二训练阶段中,解除对所述运动特征提取模型和所述权重确定模型的参数的固定,对所述模型系统进行训练。
15.一种视频分类装置,其特征在于,包括:
图像提取模块,用于获取待分类视频,结合与所述待分类视频对应的音频信号从所述待分类视频中提取多帧图像;
信息提取模块,用于确定与至少一帧图像对应的第一信息和第二信息;其中,所述第一信息的空间频率大于所述第二信息的空间频率;
权重确定模块,用于对所述第一信息执行第一空域及时域处理过程,确定出所述第一信息的权重,并对所述第二信息执行第二空域及时域处理过程,确定出所述第二信息的权重;包括:将所述第一信息输入权重确定模型,以确定出所述第一信息的权重,将所述第二信息输入权重确定模型,以确定所述第二信息的权重,其中,针对所述第一信息的权重确定模型与针对所述第二信息的权重确定模型是结构相同的模型,所述权重确定模型包括空域注意力模块和时域注意力模块;
其中,所述空域注意力模块用于对输入所述空域注意力模块的信息进行处理,输出与所述输入所述空域注意力模块的信息对应的空域注意力信息;所述时域注意力模块用于对输入所述时域注意力模块的信息进行处理,输出与所述输入所述时域注意力模块的信息对应的时域注意力信息,以便利用所述空域注意力信息和所述时域注意力信息确定出所述第一信息的权重;
特征确定模块,用于利用所述第一信息和所述第一信息的权重确定与所述至少一帧图像对应的运动特征,并利用所述第二信息和所述第二信息的权重确定与所述至少一帧图像对应的空间特征;
分类模块,用于根据所述运动特征和所述空间特征,对所述待分类视频进行分类;
其中,所述信息提取模块还用于执行:利用边缘特征算子对各所述图像进行特征提取,得到多个第三信息;利用所述多个第三信息确定所述第一信息;利用图像模糊算子对各所述图像进行特征提取,得到多个第二信息;丢弃提取的第一帧或最后一帧图像对应的第二信息,以使所述第一信息的数量与所述第二信息的数量匹配。
16.根据权利要求15所述的视频分类装置,其特征在于,所述信息提取模块利用所述多个第三信息确定所述第一信息的过程被配置为执行:将提取的所述多帧图像中相邻两帧的第三信息之差,确定为所述第一信息。
17.根据权利要求15所述的视频分类装置,其特征在于,所述信息提取模块利用所述多个第三信息确定所述第一信息的过程被配置为执行:获取所述待分类视频的第一帧图像,利用所述边缘特征算子对所述第一帧图像进行特征提取,得到第一参考信息;将所述第三信息与所述第一参考信息之差,确定为所述第一信息。
18. 根据权利要求15所述的视频分类装置,其特征在于,所述信息提取模块利用所述多个第三信息确定所述第一信息的过程被配置为执行:获取所述待分类视频中与提取的图像相邻的图像;利用所述边缘特征算子对所述相邻的图像进行特征提取,得到第二参考信息;将提取的图像的第三信息与对应相邻的图像的第二参考信息之差,确定为所述第一信息。
19.根据权利要求15所述的视频分类装置,其特征在于,所述空域注意力模块用于提取输入所述空域注意力模块的信息的整体语义信息以及与所述第一信息的空间频率匹配的第一语义信息,并根据所述整体语义信息和所述第一语义信息,确定出所述空域注意力信息;以及
所述时域注意力模块用于提取输入所述时域注意力模块的信息的与所述第一信息的空间频率匹配的第二语义信息,从所述第二语义信息中提取与位置无关的整体语义信息,并将所述与位置无关的整体语义信息转换为所述时域注意力信息。
20.根据权利要求19所述的视频分类装置,其特征在于,所述权重确定模块确定出所述第一信息的权重的过程被配置为执行:将所述第一信息输入所述空域注意力模块,得到第一空域注意力信息;将所述第一空域注意力信息与所述第一信息相加,得到第一中间信息;将所述第一信息输入所述时域注意力模块,得到第一时域注意力信息;将所述第一时域注意力信息与所述第一中间信息相乘,得到所述第一信息的权重。
21.根据权利要求19所述的视频分类装置,其特征在于,所述权重确定模块确定出所述第一信息的权重的过程被配置为执行:将所述第一信息输入所述空域注意力模块,得到第一空域注意力信息;将所述第一空域注意力信息与所述第一信息相加,得到第一中间信息;将所述第一中间信息输入所述时域注意力模块,得到第二时域注意力信息;将所述第一中间信息与所述第二时域注意力信息相乘,得到所述第一信息的权重。
22.根据权利要求19所述的视频分类装置,其特征在于,所述权重确定模块确定出所述第一信息的权重的过程被配置为执行:将所述第一信息输入所述时域注意力模块,得到第三时域注意力信息;将所述第三时域注意力信息与所述第一信息相乘,得到第二中间信息;将所述第二中间信息输入所述空域注意力模块,得到第二空域注意力信息;将所述第二空域注意力信息与所述第二中间信息相加,得到所述第一信息的权重。
23.根据权利要求15所述的视频分类装置,其特征在于,所述特征确定模块被配置为执行:将所述第一信息与所述第一信息的权重的乘积结果输入训练后的运动特征提取模型,以得到与所述至少一帧图像对应的运动特征;
其中,利用带有动作标记的训练集对所述运动特征提取模型和所述权重确定模型的整体进行训练,以确定出训练后的运动特征提取模型。
24.根据权利要求23所述的视频分类装置,其特征在于,所述分类模块被配置为执行:将所述运动特征和所述空间特征进行融合,并根据融合结果对所述待分类视频进行分类。
25.根据权利要求24所述的视频分类装置,其特征在于,所述分类模块将所述运动特征和所述空间特征进行融合的过程被配置为执行:将所述运动特征和空间特征进行特征通道维度上的拼接,作为融合结果。
26.根据权利要求24所述的视频分类装置,其特征在于,所述分类模块将所述运动特征和所述空间特征进行融合的过程被配置为执行:确定所述运动特征的权重以及所述空间特征的权重;对所述运动特征和所述空间特征进行加权求和,作为融合结果。
27.根据权利要求24所述的视频分类装置,其特征在于,所述分类模块将所述运动特征和所述空间特征进行融合的过程被配置为执行:将所述运动特征与所述空间特征相乘,得到中间矩阵;对所述中间矩阵每行元素进行最大池化操作,提取每行的最大元素,组成一维列向量特征,作为融合结果。
28.根据权利要求24至27中任一项所述的视频分类装置,其特征在于,所述分类模块进行根据融合结果对所述待分类视频进行分类的过程被配置为执行:将融合结果输入训练后的视频分类模型,以得到所述待分类视频的分类结果;
其中,所述视频分类模型的训练过程包括第一训练阶段和第二训练阶段,在所述第一训练阶段中,固定所述运动特征提取模型和所述权重确定模型的参数,利用训练集对包含所述运动特征提取模型、所述权重确定模型和所述视频分类模型的模型系统进行训练;在所述第二训练阶段中,解除对所述运动特征提取模型和所述权重确定模型的参数的固定,对所述模型系统进行训练。
29.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的视频分类方法。
30. 一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至14中任一项所述的视频分类方法。
CN202010035937.8A 2020-01-14 2020-01-14 视频分类方法及装置、存储介质和电子设备 Active CN111259781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010035937.8A CN111259781B (zh) 2020-01-14 2020-01-14 视频分类方法及装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010035937.8A CN111259781B (zh) 2020-01-14 2020-01-14 视频分类方法及装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN111259781A CN111259781A (zh) 2020-06-09
CN111259781B true CN111259781B (zh) 2023-07-28

Family

ID=70952325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010035937.8A Active CN111259781B (zh) 2020-01-14 2020-01-14 视频分类方法及装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN111259781B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115529A (ja) * 2003-10-06 2005-04-28 Nippon Telegr & Teleph Corp <Ntt> 映像分類表示方法及びそのシステム並びにプログラム
CN102799863A (zh) * 2012-07-02 2012-11-28 中国计量学院 视频监控中的团体人群异常行为检测方法
CN109919087A (zh) * 2019-03-06 2019-06-21 腾讯科技(深圳)有限公司 一种视频分类的方法、模型训练的方法及装置
CN110287879A (zh) * 2019-06-26 2019-09-27 天津大学 一种基于注意力机制的视频行为识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115529A (ja) * 2003-10-06 2005-04-28 Nippon Telegr & Teleph Corp <Ntt> 映像分類表示方法及びそのシステム並びにプログラム
CN102799863A (zh) * 2012-07-02 2012-11-28 中国计量学院 视频监控中的团体人群异常行为检测方法
CN109919087A (zh) * 2019-03-06 2019-06-21 腾讯科技(深圳)有限公司 一种视频分类的方法、模型训练的方法及装置
CN110287879A (zh) * 2019-06-26 2019-09-27 天津大学 一种基于注意力机制的视频行为识别方法

Also Published As

Publication number Publication date
CN111259781A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
US11308993B2 (en) Short video synthesis method and apparatus, and device and storage medium
CN108985259B (zh) 人体动作识别方法和装置
CN111062871B (zh) 一种图像处理方法、装置、计算机设备及可读存储介质
CN109446990B (zh) 用于生成信息的方法和装置
CN110839173A (zh) 一种音乐匹配方法、装置、终端及存储介质
US20220172476A1 (en) Video similarity detection method, apparatus, and device
CN110033756B (zh) 语种识别方法、装置、电子设备及存储介质
CN113850162B (zh) 一种视频审核方法、装置及电子设备
CN111260037B (zh) 图像数据的卷积运算方法、装置、电子设备及存储介质
CN114187624B (zh) 图像生成方法、装置、电子设备及存储介质
EP3979133A1 (en) Systems, methods, and storage media for selecting video portions for a video synopsis of streaming video content
CN113570689B (zh) 人像卡通化方法、装置、介质和计算设备
CN112200041A (zh) 视频动作识别方法、装置、存储介质与电子设备
CN109784243B (zh) 身份确定方法及装置、神经网络训练方法及装置、介质
CN113992970A (zh) 视频数据处理方法、装置、电子设备及计算机存储介质
CN111369557B (zh) 图像处理方法、装置、计算设备和存储介质
CN112270246A (zh) 视频行为识别方法及装置、存储介质、电子设备
WO2022246986A1 (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN111259781B (zh) 视频分类方法及装置、存储介质和电子设备
CN105516735B (zh) 代表帧获取方法和装置
CN112200226B (zh) 基于强化学习的图像处理方法、图像处理方法及相关装置
CN112949777B (zh) 相似图像确定方法及装置、电子设备和存储介质
CN115311680A (zh) 人体图像质量检测方法、装置、电子设备及存储介质
WO2022204619A1 (en) Online detection for dominant and/or salient action start from dynamic environment
CN114882229A (zh) 一种目标检测图片生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant