CN117437577A - 基于多特征融合的视频分类方法及系统 - Google Patents
基于多特征融合的视频分类方法及系统 Download PDFInfo
- Publication number
- CN117437577A CN117437577A CN202311474665.1A CN202311474665A CN117437577A CN 117437577 A CN117437577 A CN 117437577A CN 202311474665 A CN202311474665 A CN 202311474665A CN 117437577 A CN117437577 A CN 117437577A
- Authority
- CN
- China
- Prior art keywords
- feature
- video
- classification
- feature map
- spatial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000010586 diagram Methods 0.000 claims description 47
- 230000002123 temporal effect Effects 0.000 claims description 46
- 230000007246 mechanism Effects 0.000 claims description 29
- 238000013527 convolutional neural network Methods 0.000 claims description 27
- 230000007704 transition Effects 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 21
- 238000003062 neural network model Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 description 7
- 230000003068 static effect Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及智能分类领域,其具体地公开了一种基于多特征融合的视频分类方法及系统,其基于视频是连续的图像序列,具有时间和空间上的相关性,通过对视频进行时间特征的提取和空间特征的提取,并对提取到的时间特征和空间特征进行融合,从而实现对视频的分类。这样,可以对视频数据进行自动分类,以提高人们信息获取的效率。
Description
技术领域
本申请涉及智能分类领域,且更为具体地,涉及一种基于多特征融合的视频分类方法及系统。
背景技术
随着多媒体技术和互联网的蓬勃发展,人们可以从各种渠道获取大量的视频数据,包括视频分享平台、社交媒体、在线视频流媒体服务等。然而,这些视频数据的数量庞大,呈现出指数级增长的趋势,给人们寻找和获取所需信息带来了巨大的挑战。大量的视频数据使得人们难以快速浏览和筛选,导致信息过载的问题。人们需要花费大量时间和精力来寻找特定的视频内容,这降低了信息的获取效率和体验。为了解决这个问题,对视频数据进行分类成为计算机视觉领域中一个重要且具有挑战性的研究热点。通过对视频进行分类,可以将大量的视频数据进行归类,从而帮助人们快速找到自己需要的视频内容。
因此,需要一种基于多特征融合的视频分类方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于多特征融合的视频分类方法及系统,其基于视频是连续的图像序列,具有时间和空间上的相关性,通过对视频进行时间特征的提取和空间特征的提取,并对提取到的时间特征和空间特征进行融合,从而实现对视频的分类。这样,可以对视频数据进行自动分类,以提高人们信息获取的效率。
根据本申请的一个方面,提供了一种基于多特征融合的视频分类方法,其包括:
获取预定时间段的视频数据;
从所述预定时间段的视频数据提取多个视频关键帧;
将所述多个视频关键帧通过使用空间注意力机制的第一卷积神经网络模型以得到多个空间特征矩阵;
将所述多个空间特征矩阵沿着通道维度聚合为空间特征图;
将所述多个视频关键帧通过使用时间注意力机制的第二卷积神经网络模型以得到时间特征图;
对所述空间特征图和所述时间特征图进行融合以得到分类特征图;
将所述分类特征图通过分类器以得到分类结果,所述分类结果用于表示视频的分类类别。
在上述基于多特征融合的视频分类方法中,所述从所述预定时间段的视频数据提取多个视频关键帧,包括:以预定采样频率从所述预定时间段的视频数据提取所述多个视频关键帧。
在上述基于多特征融合的视频分类方法中,所述将所述多个视频关键帧通过使用空间注意力机制的第一卷积神经网络模型以得到多个空间特征矩阵,包括:使用所述第一卷积神经网络模型的各层在层的正向传递中对输入数据分别进行:对所述输入数据进行基于卷积核的卷积处理以得到卷积特征图;将所述卷积特征图通过空间注意力单元以得到空间注意力图;计算所述卷积特征图与所述空间注意力图的按位置点乘以得到空间注意力特征图;将所述空间注意力特征图输入非线性激活单元以得到激活特征图;其中,所述第一卷积神经网络模型的第一层的输入为所述多个视频关键帧,所述第一卷积神经网络模型的最后一层的输出为所述多个空间特征矩阵。
在上述基于多特征融合的视频分类方法中,所述将所述多个视频关键帧通过使用时间注意力机制的第二卷积神经网络模型以得到时间特征图,包括:从所述多个视频关键帧中提取相邻的第一视频关键帧和第二视频关键帧;将所述第一视频关键帧和所述第二视频关键帧分别通过所述第二卷积神经网络模型的第一卷积层和第二卷积层以得到第一卷积特征图和第二卷积特征图;计算所述第一卷积特征图和所述第二卷积特征图之间的按位置点乘以得到时间注意力图;将所述时间注意力图输入Softmax激活函数以得到时间注意力特征图;将所述第二视频关键帧通过所述第二卷积神经网络模型的第三卷积层以得到第三卷积特征图;计算所述第三卷积特征图和所述时间注意力特征图之间的按位置点乘以得到对应于所述第二视频关键帧的时间注意力特征图。
在上述基于多特征融合的视频分类方法中,所述对所述空间特征图和所述时间特征图进行融合以得到分类特征图,包括:计算所述空间特征图相对于所述时间特征图的基于秩序先验的特征工程过渡因子;以所述基于秩序先验的特征工程过渡因子作为权重,对所述空间特征图进行加权优化以得到加权后空间特征图;计算所述加权后空间特征图和所述时间特征图之间的按位置加权和以得到所述分类特征图。
在上述基于多特征融合的视频分类方法中,所述计算所述空间特征图相对于所述时间特征图的基于秩序先验的特征工程过渡因子,包括:以如下公式计算所述空间特征图相对于所述时间特征图的基于秩序先验的特征工程过渡因子;其中,所述公式为:
其中,W、H、C分别为特征图的宽、高、通道数,表示所述空间特征图的第(i,j,k)位置的特征值,/>表示所述时间特征图的第(i,j,k)位置的特征值,α和β是预定超参数,w表示所述基于秩序先验的特征工程过渡因子。
在上述基于多特征融合的视频分类方法中,所述将所述分类特征图通过分类器以得到分类结果,所述分类结果用于表示视频的分类类别,包括:将所述分类特征图中各个分类特征矩阵按照行向量或者列向量展开为一维特征向量后进行级联以得到分类特征向量;使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
根据本申请的另一方面,提供了一种基于多特征融合的视频分类系统,其包括:
视频数据获取模块,用于获取预定时间段的视频数据;
采样模块,用于从所述预定时间段的视频数据提取多个视频关键帧;
空间特征提取模块,用于将所述多个视频关键帧通过使用空间注意力机制的第一卷积神经网络模型以得到多个空间特征矩阵;
聚合模块,用于将所述多个空间特征矩阵沿着通道维度聚合为空间特征图;
时间特征提取模块,用于将所述多个视频关键帧通过使用时间注意力机制的第二卷积神经网络模型以得到时间特征图;
融合模块,用于对所述空间特征图和所述时间特征图进行融合以得到分类特征图;
视频类别结果生成模块,用于将所述分类特征图通过分类器以得到分类结果,所述分类结果用于表示视频的分类类别。
与现有技术相比,本申请提供的基于多特征融合的视频分类方法及系统,其基于视频是连续的图像序列,具有时间和空间上的相关性,通过对视频进行时间特征的提取和空间特征的提取,并对提取到的时间特征和空间特征进行融合,从而实现对视频的分类。这样,可以对视频数据进行自动分类,以提高人们信息获取的效率。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的基于多特征融合的视频分类方法的流程图。
图2为根据本申请实施例的基于多特征融合的视频分类方法的架构图。
图3为根据本申请实施例的基于多特征融合的视频分类方法中将所述多个视频关键帧通过使用时间注意力机制的第二卷积神经网络模型以得到时间特征图的流程图。
图4为根据本申请实施例的基于多特征融合的视频分类方法中对所述空间特征图和所述时间特征图进行融合以得到分类特征图的流程图。
图5为根据本申请实施例的基于多特征融合的视频分类方法中将所述分类特征图通过分类器以得到分类结果,所述分类结果用于表示视频的分类类别的流程图。
图6为根据本申请实施例的基于多特征融合的视频分类系统的系统框图。
图7为根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
示例性方法
图1为根据本申请实施例的基于多特征融合的视频分类方法的流程图。图2为根据本申请实施例的基于多特征融合的视频分类方法的架构图。如图1和图2所示,根据本申请实施例的基于多特征融合的视频分类方法,包括:S110,获取预定时间段的视频数据;S120,从所述预定时间段的视频数据提取多个视频关键帧;S130,将所述多个视频关键帧通过使用空间注意力机制的第一卷积神经网络模型以得到多个空间特征矩阵;S140,将所述多个空间特征矩阵沿着通道维度聚合为空间特征图;S150,将所述多个视频关键帧通过使用时间注意力机制的第二卷积神经网络模型以得到时间特征图;S160,对所述空间特征图和所述时间特征图进行融合以得到分类特征图;S170,将所述分类特征图通过分类器以得到分类结果,所述分类结果用于表示视频的分类类别。
在步骤S110中,获取预定时间段的视频数据。如上述背景技术所言,随着多媒体技术和互联网的发展,人们可以从各种渠道获取大量视频数据。然而,视频数据的数量呈指数级增长,导致人们难以快速浏览和筛选,这带来了信息过载的问题。为了解决这个问题,视频分类成为计算机视觉领域的研究热点,通过分类可以帮助人们快速找到所需的视频内容。因此,期待一种基于多特征融合的视频分类的方案。
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。深度学习以及神经网络的发展为视频分类提供了新的解决思路和方案。
具体地,在本申请的技术方案中,首先,获取预定时间段的视频数据。应可以理解,某个时间段的视频数据中包含了多样性的视频内容,涵盖了不同的场景和事件。通过将预定时间段的视频数据输入到视频分类模型中,可以对视频的内容进行特征提取,进而判断视频的类别信息。预定时间段的视频数据可以来源于在线视频平台或者是网络上的视频共享平台。
在步骤S120中,从所述预定时间段的视频数据提取多个视频关键帧。应可以理解,视频关键帧通常是在视频序列中具有显著变化、重要动作和关键事件发生的帧图像。这些关键帧可以代表整个视频序列的内容,从而提供了视频的静态特征。视频数据包含了大量的帧图像,通过提取多个视频关键帧,可以减少计算量,相比于处理整个视频序列,仅处理关键帧可以提高算法的效率。不同视频关键帧之间可能包含不同的视觉信息和内容。通过提取多个视频关键帧,可以捕捉到视频序列中的多样性特征。这有助于增加视频分类模型对视频内容的理解和区分能力。
具体地,所述从所述预定时间段的视频数据提取多个视频关键帧,包括:以预定采样频率从所述预定时间段的视频数据提取所述多个视频关键帧。值得一提的是,这里所述预定采样频率并不是一直固定不变的,而是视具体使用场景而定。
在步骤S130中,将所述多个视频关键帧通过使用空间注意力机制的第一卷积神经网络模型以得到多个空间特征矩阵。本领域普通技术人员应该知晓,卷积神经网络在特征提取方面表现优异。通过将多个视频关键帧输入到卷积神经网络模型中,可以捕捉到每个视频关键帧中的静态视觉特征。空间注意力机制可以帮助模型自动学习和关注关键帧中的重要区域。通过引入空间注意力机制,模型可以根据关键帧中的内容和重要性,动态地调整不同位置的特征权重,以便更好地捕捉关键帧的局部特征信息,提高特征的表达能力和区分度。
具体地,所述将所述多个视频关键帧通过使用空间注意力机制的第一卷积神经网络模型以得到多个空间特征矩阵,包括:使用所述第一卷积神经网络模型的各层在层的正向传递中对输入数据分别进行:对所述输入数据进行基于卷积核的卷积处理以得到卷积特征图;将所述卷积特征图通过空间注意力单元以得到空间注意力图;计算所述卷积特征图与所述空间注意力图的按位置点乘以得到空间注意力特征图;将所述空间注意力特征图输入非线性激活单元以得到激活特征图;其中,所述第一卷积神经网络模型的第一层的输入为所述多个视频关键帧,所述第一卷积神经网络模型的最后一层的输出为所述多个空间特征矩阵。
在步骤S140中,将所述多个空间特征矩阵沿着通道维度聚合为空间特征图。每个空间特征矩阵代表的是一个关键帧的特征信息,通过将多个空间特征矩阵沿着通道维度聚合,可以将每个关键帧提取的特征进行整合,得到一个更全局的空间特征图。这个空间特征图包含了视频中不同关键帧的综合信息,可以更好地表示视频的静态视觉特征。
在步骤S150中,将所述多个视频关键帧通过使用时间注意力机制的第二卷积神经网络模型以得到时间特征图。视频是一系列连续的图像帧,其中包含了时间维度的信息。通过关键帧提取的空间特征,我们可以获得每个关键帧的静态信息,但是无法捕捉到视频中的动态变化。通过将视频关键帧输入到使用时间注意力机制的卷积神经网络模型中,可以提取出视频序列中的运动和动态变化信息,从而更全面地表示视频内容。时间注意力机制可以帮助模型关注视频序列中重要的时间片段,以增强模型分类的性能。
图3为根据本申请实施例的基于多特征融合的视频分类方法中将所述多个视频关键帧通过使用时间注意力机制的第二卷积神经网络模型以得到时间特征图的流程图。如图3所示,所述将所述多个视频关键帧通过使用时间注意力机制的第二卷积神经网络模型以得到时间特征图,包括:S151,从所述多个视频关键帧中提取相邻的第一视频关键帧和第二视频关键帧;S152,将所述第一视频关键帧和所述第二视频关键帧分别通过所述第二卷积神经网络模型的第一卷积层和第二卷积层以得到第一卷积特征图和第二卷积特征图;S153,计算所述第一卷积特征图和所述第二卷积特征图之间的按位置点乘以得到时间注意力图;S154,将所述时间注意力图输入Softmax激活函数以得到时间注意力特征图;S155,将所述第二视频关键帧通过所述第二卷积神经网络模型的第三卷积层以得到第三卷积特征图;S156,计算所述第三卷积特征图和所述时间注意力特征图之间的按位置点乘以得到对应于所述第二视频关键帧的时间注意力特征图。
在步骤S160中,对所述空间特征图和所述时间特征图进行融合以得到分类特征图。应可以理解,空间特征图是通过对视频关键帧进行处理和提取得到的,它表示了视频中关键帧的静态信息;时间特征图则是通过对视频序列进行处理和提取得到的,它捕捉了视频中的动态变化和运动信息。通过将空间特征图和时间特征图进行融合,可以将视频的静态和动态信息结合起来,以得到更全面和丰富的分类特征图。
特别地,在本申请技术方案通过使用空间注意力机制的第一卷积神经网络模型和时间注意力机制的第二卷积神经网络模型分别提取空间特征和时间特征。这两个特征在提取过程中具有不同的感受野和分辨率尺度,导致它们在表示视频内容时关注的信息有所不同。具体地,空间特征图是通过对多个视频关键帧进行处理得到的,它主要关注视频中的静态空间信息,例如物体的形状、纹理和位置等。由于关键帧之间的时间间隔较大,空间特征图的分辨率较高,可以捕捉到细节和局部特征。而时间特征图是通过对多个视频关键帧进行处理得到的,它主要关注视频中的动态时间信息,例如物体的运动、变化和动作等。由于关键帧之间的时间间隔较小,时间特征图的分辨率较低,更关注整体的动态变化。在进行特征图融合时,由于空间特征图和时间特征图具有不同的感受野和分辨率尺度,它们的融合适配性较差。这意味着它们在特征表示上存在差异,无法直接进行简单的融合。当尝试将它们进行融合时,可能会导致特征图的内部结构发生坍塌,即融合后的特征图失去原有的细节和动态信息,无法准确地表示视频的内容。
图4为根据本申请实施例的基于多特征融合的视频分类方法中对所述空间特征图和所述时间特征图进行融合以得到分类特征图的流程图。如图4所示,所述对所述空间特征图和所述时间特征图进行融合以得到分类特征图,包括:S161,计算所述空间特征图相对于所述时间特征图的基于秩序先验的特征工程过渡因子;S162,以所述基于秩序先验的特征工程过渡因子作为权重,对所述空间特征图进行加权优化以得到加权后空间特征图;S163,计算所述加权后空间特征图和所述时间特征图之间的按位置加权和以得到所述分类特征图。
具体地,所述计算所述空间特征图相对于所述时间特征图的基于秩序先验的特征工程过渡因子,包括:以如下公式计算所述空间特征图相对于所述时间特征图的基于秩序先验的特征工程过渡因子;其中,所述公式为:
其中,W、H、C分别为特征图的宽、高、通道数,表示所述空间特征图的第(i,j,k)位置的特征值,/>表示所述时间特征图的第(i,j,k)位置的特征值,α和β是预定超参数,w表示所述基于秩序先验的特征工程过渡因子。
应可以理解,根据所述空间特征图和所述时间特征图的形态、属性和位置信息,设计了一种基于秩序性的特征工程过渡策略,将不同类别和维度的特征值按照一定的秩序规则进行排序和分组,从而降低了融合过程中的信息冗余和噪声干扰。进而,在高维空间内的基于所述空间特征图和所述时间特征图的内部元素子维度间的信息度量,来进行特征流形的基于秩序性的特征工程过渡表示,以基于特征流型的特征工程过渡一致性来进行特征图之间的适当的加权求和,以得到更具结构性的分类特征图,从而提供所述分类特征图通过分类器的分类回归的精准度。
在步骤S170中,将所述分类特征图通过分类器以得到分类结果,所述分类结果用于表示视频的分类类别。分类器作为一种机器学习模型,可以根据输入数据进行分析和判断,将其映射到不同的类别上。通过将分类特征图输入到训练好的分类器中,可以得到用于表示视频分类类别的分类结果。根据分类结果,可以快速对视频进行分类,比如视频属于美食类、体育类、旅游类等等。视频有了类别,人们在检索时能够更快检索出自己感兴趣的内容,有助于提升用户体验。
图5为根据本申请实施例的基于多特征融合的视频分类方法中将所述分类特征图通过分类器以得到分类结果,所述分类结果用于表示视频的分类类别的流程图。如图5所示,所述将所述分类特征图通过分类器以得到分类结果,所述分类结果用于表示视频的分类类别,包括:S171,将所述分类特征图中各个分类特征矩阵按照行向量或者列向量展开为一维特征向量后进行级联以得到分类特征向量;S172,使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;S173,将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
综上所述,基于本申请实施例的基于多特征融合的视频分类方法被阐明,其基于视频是连续的图像序列,具有时间和空间上的相关性,通过对视频进行时间特征的提取和空间特征的提取,并对提取到的时间特征和空间特征进行融合,从而实现对视频的分类。这样,可以对视频数据进行自动分类,以提高人们信息获取的效率。
示例性系统
图6为根据本申请实施例的基于多特征融合的视频分类系统的系统框图。如图6所示,根据本申请实施例的基于多特征融合的视频分类系统100,包括:视频数据获取模块110,用于获取预定时间段的视频数据;采样模块120,用于从所述预定时间段的视频数据提取多个视频关键帧;空间特征提取模块130,用于将所述多个视频关键帧通过使用空间注意力机制的第一卷积神经网络模型以得到多个空间特征矩阵;聚合模块140,用于将所述多个空间特征矩阵沿着通道维度聚合为空间特征图;时间特征提取模块150,用于将所述多个视频关键帧通过使用时间注意力机制的第二卷积神经网络模型以得到时间特征图;融合模块160,用于对所述空间特征图和所述时间特征图进行融合以得到分类特征图;视频类别结果生成模块170,用于将所述分类特征图通过分类器以得到分类结果,所述分类结果用于表示视频的分类类别。
这里,本领域技术人员可以理解,上述基于多特征融合的视频分类系统100中的各个单元和模块的具体功能和操作已经在上面参考图1到图5的基于多特征融合的视频分类方法的描述中得到了详细介绍,并因此,将省略其重复描述。
综上所述,基于本申请实施例的基于多特征融合的视频分类系统100被阐明,其基于视频是连续的图像序列,具有时间和空间上的相关性,通过对视频进行时间特征的提取和空间特征的提取,并对提取到的时间特征和空间特征进行融合,从而实现对视频的分类。这样,可以对视频数据进行自动分类,以提高人们信息获取的效率。
如上所述,根据本申请实施例的基于多特征融合的视频分类系统100可以实现在各种无线终端中,例如用于基于多特征融合的视频分类的服务器等。在一个示例中,根据本申请实施例的基于多特征融合的视频分类系统100可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如,该基于多特征融合的视频分类系统100可以是该无线终端的操作系统中的一个软件模块,或者可以是针对于该无线终端所开发的一个应用程序;当然,该基于多特征融合的视频分类系统100同样可以是该无线终端的众多硬件模块之一。
替换地,在另一示例中,该基于多特征融合的视频分类系统100与该无线终端也可以是分立的设备,并且该基于多特征融合的视频分类系统100可以通过有线和/或无线网络连接到该无线终端,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图7来描述根据本申请实施例的电子设备。
图7为根据本申请实施例的电子设备的框图。
如图7所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的基于多特征融合的视频分类方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如预定时间段的视频数据等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括表示视频分类类别的结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于多特征融合的视频分类方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于多特征融合的视频分类方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
Claims (10)
1.一种基于多特征融合的视频分类方法,其特征在于,包括:
获取预定时间段的视频数据;
从所述预定时间段的视频数据提取多个视频关键帧;
将所述多个视频关键帧通过使用空间注意力机制的第一卷积神经网络模型以得到多个空间特征矩阵;
将所述多个空间特征矩阵沿着通道维度聚合为空间特征图;
将所述多个视频关键帧通过使用时间注意力机制的第二卷积神经网络模型以得到时间特征图;
对所述空间特征图和所述时间特征图进行融合以得到分类特征图;
将所述分类特征图通过分类器以得到分类结果,所述分类结果用于表示视频的分类类别。
2.根据权利要求1所述的基于多特征融合的视频分类方法,其特征在于,从所述预定时间段的视频数据提取多个视频关键帧,包括:以预定采样频率从所述预定时间段的视频数据提取所述多个视频关键帧。
3.根据权利要求2所述的基于多特征融合的视频分类方法,其特征在于,将所述多个视频关键帧通过使用空间注意力机制的第一卷积神经网络模型以得到多个空间特征矩阵,包括:使用所述第一卷积神经网络模型的各层在层的正向传递中对输入数据分别进行:
对所述输入数据进行基于卷积核的卷积处理以得到卷积特征图;
将所述卷积特征图通过空间注意力单元以得到空间注意力图;
计算所述卷积特征图与所述空间注意力图的按位置点乘以得到空间注意力特征图;
将所述空间注意力特征图输入非线性激活单元以得到激活特征图;
其中,所述第一卷积神经网络模型的第一层的输入为所述多个视频关键帧,所述第一卷积神经网络模型的最后一层的输出为所述多个空间特征矩阵。
4.根据权利要求3所述的基于多特征融合的视频分类方法,其特征在于,将所述多个视频关键帧通过使用时间注意力机制的第二卷积神经网络模型以得到时间特征图,包括:
从所述多个视频关键帧中提取相邻的第一视频关键帧和第二视频关键帧;
将所述第一视频关键帧和所述第二视频关键帧分别通过所述第二卷积神经网络模型的第一卷积层和第二卷积层以得到第一卷积特征图和第二卷积特征图;
计算所述第一卷积特征图和所述第二卷积特征图之间的按位置点乘以得到时间注意力图;
将所述时间注意力图输入Softmax激活函数以得到时间注意力特征图;
将所述第二视频关键帧通过所述第二卷积神经网络模型的第三卷积层以得到第三卷积特征图;
计算所述第三卷积特征图和所述时间注意力特征图之间的按位置点乘以得到对应于所述第二视频关键帧的时间注意力特征图。
5.根据权利要求4所述的基于多特征融合的视频分类方法,其特征在于,对所述空间特征图和所述时间特征图进行融合以得到分类特征图,包括:
计算所述空间特征图相对于所述时间特征图的基于秩序先验的特征工程过渡因子;
以所述基于秩序先验的特征工程过渡因子作为权重,对所述空间特征图进行加权优化以得到加权后空间特征图;
计算所述加权后空间特征图和所述时间特征图之间的按位置加权和以得到所述分类特征图。
6.根据权利要求5所述的基于多特征融合的视频分类方法,其特征在于,计算所述空间特征图相对于所述时间特征图的基于秩序先验的特征工程过渡因子,包括:以如下公式计算所述空间特征图相对于所述时间特征图的基于秩序先验的特征工程过渡因子;
其中,所述公式为:
其中,W、H、C分别为特征图的宽、高、通道数,f1i,j,k表示所述空间特征图的第(i,j,k)位置的特征值,表示所述时间特征图的第(i,j,k)位置的特征值,α和β是预定超参数,w表示所述基于秩序先验的特征工程过渡因子。
7.根据权利要求6所述的基于多特征融合的视频分类方法,其特征在于,将所述分类特征图通过分类器以得到分类结果,所述分类结果用于表示视频的分类类别,包括:
将所述分类特征图中各个分类特征矩阵按照行向量或者列向量展开为一维特征向量后进行级联以得到分类特征向量;
使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;
将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
8.一种基于多特征融合的视频分类系统,其特征在于,包括:
视频数据获取模块,用于获取预定时间段的视频数据;
采样模块,用于从所述预定时间段的视频数据提取多个视频关键帧;
空间特征提取模块,用于将所述多个视频关键帧通过使用空间注意力机制的第一卷积神经网络模型以得到多个空间特征矩阵;
聚合模块,用于将所述多个空间特征矩阵沿着通道维度聚合为空间特征图;
时间特征提取模块,用于将所述多个视频关键帧通过使用时间注意力机制的第二卷积神经网络模型以得到时间特征图;
融合模块,用于对所述空间特征图和所述时间特征图进行融合以得到分类特征图;
视频类别结果生成模块,用于将所述分类特征图通过分类器以得到分类结果,所述分类结果用于表示视频的分类类别。
9.根据权利要求8所述的基于多特征融合的视频分类系统,其特征在于,所述采样模块,用于:以预定采样频率从所述预定时间段的视频数据提取所述多个视频关键帧。
10.根据权利要求9所述的基于多特征融合的视频分类系统,其特征在于,所述融合模块,包括:
特征工程过渡因子计算单元,用于计算所述空间特征图相对于所述时间特征图的基于秩序先验的特征工程过渡因子;
空间特征加权单元,用于以所述基于秩序先验的特征工程过渡因子作为权重,对所述空间特征图进行加权优化以得到加权后空间特征图;
分类特征图生成单元,用于计算所述加权后空间特征图和所述时间特征图之间的按位置加权和以得到所述分类特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311474665.1A CN117437577A (zh) | 2023-11-08 | 2023-11-08 | 基于多特征融合的视频分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311474665.1A CN117437577A (zh) | 2023-11-08 | 2023-11-08 | 基于多特征融合的视频分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117437577A true CN117437577A (zh) | 2024-01-23 |
Family
ID=89547837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311474665.1A Pending CN117437577A (zh) | 2023-11-08 | 2023-11-08 | 基于多特征融合的视频分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117437577A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743611A (zh) * | 2024-02-19 | 2024-03-22 | 长春大学 | 一种数字媒体内容自动分类系统 |
-
2023
- 2023-11-08 CN CN202311474665.1A patent/CN117437577A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743611A (zh) * | 2024-02-19 | 2024-03-22 | 长春大学 | 一种数字媒体内容自动分类系统 |
CN117743611B (zh) * | 2024-02-19 | 2024-04-26 | 长春大学 | 一种数字媒体内容自动分类系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jing et al. | Low-rank multi-view embedding learning for micro-video popularity prediction | |
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
Odena et al. | Conditional image synthesis with auxiliary classifier gans | |
CN111400591B (zh) | 资讯信息推荐方法、装置、电子设备及存储介质 | |
Kucer et al. | Leveraging expert feature knowledge for predicting image aesthetics | |
Fan et al. | Salient objects in clutter | |
CN112070044B (zh) | 一种视频物体分类方法及装置 | |
CN116686017A (zh) | 一种用于视频动作识别的时间瓶颈注意力体系结构 | |
Fang et al. | Deep3DSaliency: Deep stereoscopic video saliency detection model by 3D convolutional networks | |
CN107590505B (zh) | 联合低秩表示和稀疏回归的学习方法 | |
Li et al. | Streamer action recognition in live video with spatial-temporal attention and deep dictionary learning | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
Xie et al. | Context-aware pedestrian detection especially for small-sized instances with Deconvolution Integrated Faster RCNN (DIF R-CNN) | |
CN115443490A (zh) | 影像审核方法及装置、设备、存储介质 | |
CN117437577A (zh) | 基于多特征融合的视频分类方法及系统 | |
CN115731513B (zh) | 基于数字孪生的智慧园区管理系统 | |
Fan et al. | A hierarchical Dirichlet process mixture of generalized Dirichlet distributions for feature selection | |
CN114092819B (zh) | 一种图像分类方法及装置 | |
Wang et al. | Salient region detection via discriminative dictionary learning and joint Bayesian inference | |
CN113240033B (zh) | 一种基于场景图高阶语义结构的视觉关系检测方法及装置 | |
Liang et al. | Crossnet: Cross-scene background subtraction network via 3d optical flow | |
Sowmyayani et al. | STHARNet: Spatio-temporal human action recognition network in content based video retrieval | |
CN110210572B (zh) | 图像分类方法、装置、存储介质及设备 | |
Wang et al. | Detecting action-relevant regions for action recognition using a three-stage saliency detection technique | |
Lahrache et al. | Rules of photography for image memorability analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |