CN111126197B - 基于深度学习的视频处理方法及装置 - Google Patents

基于深度学习的视频处理方法及装置 Download PDF

Info

Publication number
CN111126197B
CN111126197B CN201911261511.8A CN201911261511A CN111126197B CN 111126197 B CN111126197 B CN 111126197B CN 201911261511 A CN201911261511 A CN 201911261511A CN 111126197 B CN111126197 B CN 111126197B
Authority
CN
China
Prior art keywords
image
lens
video
extracting
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911261511.8A
Other languages
English (en)
Other versions
CN111126197A (zh
Inventor
孟凡宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Cloud Computing Co Ltd
Original Assignee
Suning Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Cloud Computing Co Ltd filed Critical Suning Cloud Computing Co Ltd
Priority to CN201911261511.8A priority Critical patent/CN111126197B/zh
Publication of CN111126197A publication Critical patent/CN111126197A/zh
Priority to PCT/CN2020/105991 priority patent/WO2021114688A1/zh
Priority to CA3164081A priority patent/CA3164081A1/en
Application granted granted Critical
Publication of CN111126197B publication Critical patent/CN111126197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的视频处理方法及装置,属于计算机视觉技术领域。所述方法包括:首先抽取视频中的图像帧,然后通过深度学习方法提取图像帧特征,进而根据每帧图像特征间相似度进行镜头切分过滤镜头内冗余信息操作,获取至少一个分镜镜头;提取每个分镜镜头中携带视频图像信息的多维度图像特征;对所述每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果。本发明提供的基于深度学习的视频处理方法及装置,有效提高了视频标签算法的准确性,减少特征处理量,节省大量的人工,同时提高了算法处理速度,降低了时间消耗。

Description

基于深度学习的视频处理方法及装置
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于深度学习的视频处理方法及装置。
背景技术
目前现有技术方案通常采用以下几个步骤来进行:1)将视频进行帧提取;2)对每帧利用深度学习方法对每帧进行特征提取;3)训练分类器进行标签抽取,上述视频处理方法存在时间消耗大和精度不准的情况。
发明内容
现有技术中尽管对每帧图像特征进行抽取,然而并没有有效利用视频的相似性,也没有与传统特征进行融合提高算法准确性,为了解决现有技术的问题,本发明实施例提供了一种基于深度学习的视频处理方法及装置,有效提高了视频标签算法的准确性,减少特征处理量,节省大量的人工,同时提高了算法处理速度,降低了时间消耗。所述技术方案如下:
一方面,提供了一种基于深度学习的视频处理方法,所述方法包括:
抽取视频中的图像帧,并通过深度学习提取每帧图像特征,根据帧间相似度进行分镜操作,过滤掉镜头内冗余信息,获取至少一个分镜镜头;
提取每个分镜镜头中携带视频图像信息的多维度图像特征;
对所述每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果。
进一步地,抽取视频中的图像帧并进行分镜操作,获取至少一个分镜镜头,包括:
抽取视频中的图像帧,提取图像帧中的图像;
对每帧图像通过深度学习方法提取图像抽象特征,所述图像抽象特征包括通过深度学习提取主干网络的全连接层特征;
根据所述图像抽象特征计算每帧图像特征帧间相似度;
根据所述每帧图像特征帧间相似度进行过滤,提取过滤后的至少一个分镜镜头。
进一步地,提取每个分镜镜头中携带视频全局图像信息的多维度图像特征,包括:
通过LBP、HOG、深度学习网络中的至少一种特征提取方式,提取每个分镜镜头中携带视频全局图像信息的多维度图像特征。
进一步地,通过LBP、HOG、深度学习网络中的至少一种特征提取方式,提取每个分镜镜头中携带视频全局图像信息的多维度图像特征,包括:
利用LBP进行图像检索;和/或,
通过HOG计算和统计图像局部区域的梯度方向直方图构成特征;和/或,
通过卷积神经网络汇集局部特征,并进行空间上的池化。
进一步地,对所述每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果,包括:
通过加权平均、LSTM、NetVALD、Dbow中的至少一种特征融合方式对所述每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果。
进一步地,通过加权平均、LSTM、NetVALD、Dbow中的至少一种特征融合方式对所述每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果,包括:
通过对所述多维度图像特征的不同帧信息进行加权求和,取得视频图像的整体信息;和/或,
LSTM利用递归神经网络对时间关系进行建模,提取视频中具有时间信息的特征;和/或,
NetVALD利用聚合后的局部特征表示全局特征编码,对于每一张feature map上的每个点,分别求其余对应的簇中心点的差值和;和/或,
Dbow通过特征描述符列表聚合成紧凑的表示进行特征互补。
进一步地,所述方法还包括:
根据所述特征融合结果得到的特征向量,利用预设多标签分类器进行标签分类。
进一步地,所述方法还包括:
根据所述特征融合结果得到的特征向量及其标签分类结果,对每个标签训练一个分类器,从而获得所述预设多标签分类器。
另一方面,提供了一种基于深度学习的视频处理装置,所述装置包括:
抽取分镜模块,用于抽取视频中的图像帧,并通过深度学习提取图像特征,根据每帧图像特征间相似度进行镜头切分操作,过滤掉镜头内冗余帧,获取至少一个分镜镜头;
特征提取模块,用于提取每个分镜镜头中携带视频图像信息的多维度图像特征;
特征融合模块,用于对所述每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果。
进一步地,所述抽取分镜模块用于:
抽取视频中的图像帧,提取图像帧中的图像;
对每帧图像通过深度学习方法提取图像抽象特征,所述图像抽象特征包括通过深度学习提取主干网络的全连接层特征;
根据所述图像抽象特征计算每帧图像特征帧间相似度;
根据所述每帧图像特征帧间相似度进行过滤,提取过滤后的至少一个分镜镜头。
进一步地,所述特征提取模块用于:
通过LBP、HOG、深度学习网络中的至少一种特征提取方式,提取每个分镜镜头中携带视频全局图像信息的多维度图像特征。
进一步地,通过LBP、HOG、深度学习网络中的至少一种特征提取方式,提取每个分镜镜头中携带视频全局图像信息的多维度图像特征,包括:
利用LBP进行图像检索;和/或,
通过HOG计算和统计图像局部区域的梯度方向直方图构成特征;和/或,
通过卷积神经网络汇集局部特征,并进行空间上的池化。
进一步地,所述特征融合模块用于:
通过加权平均、LSTM、NetVALD、Dbow中的至少一种特征融合方式对所述每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果。
进一步地,通过加权平均、LSTM、NetVALD、Dbow中的至少一种特征融合方式对所述每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果,包括:
通过对所述多维度图像特征的不同帧信息进行加权求和,取得视频图像的整体信息;和/或,
LSTM利用递归神经网络对时间关系进行建模,提取视频中具有时间信息的特征;和/或,
NetVALD利用聚合后的局部特征表示全局特征编码,对于每一张feature map上的每个点,分别求其余对应的簇中心点的差值和;和/或,
Dbow通过特征描述符列表聚合成紧凑的表示进行特征互补。
进一步地,所述基于深度学习的视频处理装置还包括标签分类模块,所述标签分类模块用于:根据所述特征融合结果得到的特征向量,利用预设多标签分类器进行标签分类。
进一步地,所述标签分类模块还用于:根据所述特征融合结果得到的特征向量及其标签分类结果,对每个标签训练一个分类器,从而获得所述预设多标签分类器。
本发明实施例提供的技术方案带来的有益效果是:
通过抽取视频中的图像帧并进行分镜操作去除相似帧的冗余信息,减少特征处理量,节省大量的人工,同时提高了算法处理速度,降低了时间消耗;并通过多种特征提取方式对提取的多维度图像特征进行特征融合,有效利用传统方法的lbp和hog特征对深度学习提取的特征进行补足,提高算法提取特征的鲁邦性,有效提高了视频标签算法的准确性和召回率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于深度学习的视频处理方法流程图;
图2是图1中101步骤的子步骤流程图;
图3是本发明实施例提供的基于深度学习的视频处理方法的总体流程图;
图4是本发明实施例提供的基于深度学习的视频处理方法的详细流程图;
图5是本发明实施例提供的基于深度学习的视频处理装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在本发明的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
根据发明人发现的以下现有技术现状:尽管对每帧图像特征进行抽取,但并没有有效利用视频的相似性,也没有与传统特征进行融合提高算法准确性,本发明实施例提供了一种基于深度学习的视频处理方法及装置,通过抽取视频中的图像帧并进行分镜操作去除相似帧的冗余信息,并对提取的多维度图像特征进行特征融合,既有效提高了视频标签算法的准确性,又减少特征处理量,节省大量的人工,同时提高了算法处理速度,降低了时间消耗。
下面结合具体实施例及附图,对本发明实施例提供的基于深度学习的视频处理方法及装置详细说明。
图1是本发明实施例提供的基于深度学习的视频处理方法流程图。图2是图1中101步骤的子步骤流程图。如图1所示,本发明实施例提供的基于深度学习的视频处理方法,包括以下步骤:
101、抽取视频中的图像帧,并通过深度学习提取图像特征,根据每帧图像特征间相似度进行镜头切分操作,过滤掉镜头内冗余帧,获取至少一个分镜镜头。
具体地,如图2所示,上述101步骤进一步包括以下子步骤:
1011、抽取视频中的图像帧,提取图像帧中的图像。这里可以用任何代码库进行视频帧的抽取,比如opencv等。
1012、对每帧图像通过深度学习方法提取图像抽象特征,图像抽象特征包括通过深度学习提取主干网络的全连接层特征,例如,resent网络的全连接层提取的特征。深度学习特征一般采用imagenet数据集上训练的提特征模型。深度学习模型一般采用inceptionV3,当然也可以采用其它常用的模型,如densenet、VGG、resnet等。
1013、根据图像抽象特征计算每帧图像特征帧间相似度。示例性地,根据特征计算特征相关的欧式距离,进而判断每帧是否相似及相似度大小。
1014、根据每帧图像特征帧间相似度进行过滤,提取过滤后的至少一个分镜镜头。示例性地,根据计算的相似度和想要分镜的数量做归集,确定相似度阈值。
值得注意的是,步骤101的过程,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
102、提取每个分镜镜头中携带视频图像信息的多维度图像特征。
具体地,通过LBP、HOG、深度学习网络中的至少一种特征提取方式,提取每个分镜镜头中携带视频全局图像信息的多维度图像特征。优选地,可以采用以下方式:
利用LBP进行图像检索;和/或,通过HOG计算和统计图像局部区域的梯度方向直方图构成特征;和/或,通过卷积神经网络汇集局部特征,并进行空间上的池化。
LBP主要是利用其旋转不变性,提高图像检索中的图像对于图像中景物的拍摄角度带来的,检索召回率不高的问题。HOG是通过计算和统计图像局部区域的梯度方向直方图来构成特征,在一副图像中,局部目标的表象和形状(appearance and shape)能够被梯度或边缘的方向密度分布很好地描述。由于HOG是在图像的局部方格单元上操作,所以它对图像几何的和光学的形变都能保持很好的不变性,这两种形变只会出现在更大的空间领域上。卷积神经网络(CNN)则是通过学习卷积来汇集局部特征,并进行空间上的池化来实现非深度学习图像学习,卷积层的连续应用能产生在广泛空间内聚合低级语义信息,并扩展形成更高级信息的层次化特征。
值得注意的是,步骤102的过程,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
103、对每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果。
通过加权平均、LSTM、NetVALD、Dbow中的至少一种特征融合方式对所述每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果。优选地,可以采用以下方式:
通过对所述多维度图像特征的不同帧信息进行加权求和,即进行加权平均,取得视频图像的整体信息。和/或,
LSTM利用递归神经网络对时间关系进行建模,提取视频中具有时间信息的特征;和/或,
NetVALD利用聚合后的局部特征表示全局特征编码,对于每一张feature map上的每个点,分别求其余对应的簇中心点的差值和,所以结果V是一个k*D的矩阵,也就是每一张feature map都要与所有的簇中心计算一个差值,但只保留与最近的簇计算的差值,VLAD保存的是每个特征点与离它最近的聚类中心的距离,并将其作为新的编码特征,使得特征更加鲁棒,并有效降低特征维度;和/或,
Dbow通过特征描述符列表聚合成紧凑的表示进行特征互补。BOW聚合优于NetVLAD的好处在于,在给定固定数量的聚类的情况下,它将特征描述符列表聚合成更紧凑的表示,缺点是需要明显更多的聚类来获得聚合描述符的丰富表示,能够与NetVLAD进行互补。
另外,优选地,本发明实施例提供的基于深度学习的视频处理方法还包括以下步骤:根据特征融合结果得到的特征向量,利用预设多标签分类器进行标签分类。这里的预设多标签分类器可以采用现有技术中任何可能的多标签分类器,本发明实施例不对其特别限定。示例性地,采用softmax分类器,训练的输入为需要进行融合的特征,分类器的标签为单个标签的二分类,0或1,一共有4000多个分类器,进行多标签分类。
进一步优选地,根据特征融合结果得到的特征向量及其标签分类结果,对每个标签训练一个分类器,通过训练获得分类效果更好的预设多标签分类器。
图3和图4是本发明实施例提供的基于深度学习的视频处理方法的总体流程图和详细流程图,示出了进行基于深度学习的视频处理过程的一种优选实施方式。
本发明实施例还提供了一种基于深度学习的视频处理装置。图5是本发明实施例提供的基于深度学习的视频处理装置结构示意图,如图5所示,本发明实施例提供的基于深度学习的视频处理装置2包括抽取分镜模块21、特征提取模块22和特征融合模块23。
其中,抽取分镜模块21,用于抽取视频中的图像帧,并通过深度学习提取图像特征,根据每帧图像特征间相似度进行镜头切分操作,过滤掉镜头内冗余帧,获取至少一个分镜镜头;
特征提取模块22,用于提取每个分镜镜头中携带视频图像信息的多维度图像特征;特征融合模块23,用于对每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果。
具体地,抽取分镜模块21用于:抽取视频中的图像帧,提取图像帧中的图像;对每帧图像通过深度学习提取图像抽象特征,图像抽象特征包括通过深度学习提取主干网络的全连接层特征;根据图像抽象特征计算每帧图像特征帧间相似度;根据每帧图像特征帧间相似度进行过滤,提取过滤后的至少一个分镜镜头。
特征提取模块22用于:通过LBP、HOG、深度学习网络中的至少一种特征提取方式,提取每个分镜镜头中携带视频全局图像信息的多维度图像特征。通过LBP、HOG、深度学习网络中的至少一种特征提取方式,进一步地,提取每个分镜镜头中携带视频全局图像信息的多维度图像特征,包括:利用LBP进行图像检索;和/或,通过HOG计算和统计图像局部区域的梯度方向直方图构成特征;和/或,通过卷积神经网络汇集局部特征,并进行空间上的池化。
特征融合模块23用于:通过加权平均、LSTM、NetVALD、Dbow中的至少一种特征融合方式对每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果。进一步地,通过加权平均、LSTM、NetVALD、Dbow中的至少一种特征融合方式对所述每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果,包括:通过对多维度图像特征的不同帧信息进行加权求和,取得视频图像的整体信息;和/或,LSTM利用递归神经网络对时间关系进行建模,提取视频中具有时间信息的特征;和/或,NetVALD利用聚合后的局部特征表示全局特征编码,对于每一张feature map上的每个点,分别求其余对应的簇中心点的差值和;和/或,Dbow通过特征描述符列表聚合成紧凑的表示进行特征互补。
另外,优选地,上述基于深度学习的视频处理装置还包括标签分类模块24,标签分类模块24用于:根据特征融合结果得到的特征向量,利用预设多标签分类器进行标签分类。标签分类模块24还用于:根据特征融合结果得到的特征向量及其标签分类结果,对每个标签训练一个分类器,从而获得预设多标签分类器。
需要说明的是:上述实施例提供的基于深度学习的视频处理装置在触发视频处理业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于深度学习的视频处理装置与基于深度学习的视频处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
综上所述,本发明实施例提供的基于深度学习的视频处理方法及装置,相比现有技术,具有以下有益效果:
通过抽取视频中的图像帧并进行分镜操作去除相似帧的冗余信息,并通过多种特征提取方式对提取的多维度图像特征进行特征融合,既有效提高了视频标签算法的准确性,又减少特征处理量,节省大量的人工,同时提高了算法处理速度,降低了时间消耗。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度学习的视频处理方法,其特征在于,所述方法包括:
抽取视频中的图像帧,并通过深度学习提取每帧图像特征,根据帧间相似度进行分镜操作,过滤掉镜头内冗余信息,获取至少一个分镜镜头;
提取每个分镜镜头中携带视频图像信息的多维度图像特征;
对所述每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果;
对所述每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果,包括:
通过加权平均、LSTM、NetVALD、Dbow中的至少一种特征融合方式对所述每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果;
所述通过加权平均、LSTM、NetVALD、Dbow中的至少一种特征融合方式对所述每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果,包括:
通过对所述多维度图像特征的不同帧信息进行加权求和,取得视频图像的整体信息;和/或,
LSTM利用递归神经网络对时间关系进行建模,提取视频中具有时间信息的特征;和/或,
NetVALD利用聚合后的局部特征表示全局特征编码,对于每一张feature map上的每个点,分别求其余对应的簇中心点的差值和;和/或,
Dbow通过特征描述符列表聚合成紧凑的表示进行特征互补。
2.根据权利要求1所述的方法,其特征在于,抽取视频中的图像帧并进行分镜操作,获取至少一个分镜镜头,包括:
抽取视频中的图像帧,提取图像帧中的图像;
对每帧图像通过深度学习提取图像抽象特征,所述图像抽象特征包括通过深度学习提取主干网络的全连接层特征;
根据所述图像抽象特征计算每帧图像特征帧间相似度;
根据所述每帧图像特征帧间相似度进行过滤,提取过滤后的至少一个分镜镜头。
3.根据权利要求1所述的方法,其特征在于,提取每个分镜镜头中携带视频图像信息的多维度图像特征,包括:
通过LBP、HOG、深度学习网络中的至少一种特征提取方式,提取每个分镜镜头中携带视频全局图像信息的多维度图像特征。
4.根据权利要求3所述的方法,其特征在于,通过LBP、HOG、深度学习网络中的至少一种特征提取方式,提取每个分镜镜头中携带视频全局图像信息的多维度图像特征,包括:
利用LBP进行图像检索;和/或,
通过HOG计算和统计图像局部区域的梯度方向直方图构成特征;和/或,
通过卷积神经网络汇集局部特征,并进行空间上的池化。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
根据所述特征融合结果得到的特征向量,利用预设多标签分类器进行标签分类。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述特征融合结果得到的特征向量及其标签分类结果,对每个标签训练一个分类器,从而获得所述预设多标签分类器。
7.一种实现如权利要求1所述基于深度学习的视频处理方法的基于深度学习的视频处理装置,其特征在于,所述装置包括:
抽取分镜模块,用于抽取视频中的图像帧,并通过深度学习提取图像特征,根据每帧图像特征间相似度进行镜头切分操作,过滤掉镜头内冗余帧,获取至少一个分镜镜头;
特征提取模块,用于提取每个分镜镜头中携带视频图像信息的多维度图像特征;
特征融合模块,用于对所述每个分镜镜头的多维度图像特征进行特征融合,获取特征融合结果。
8.根据权利要求7所述的装置,其特征在于,所述特征提取模块用于:通过LBP、HOG、深度学习网络中的至少一种特征提取方式,提取每个分镜镜头中携带视频全局图像信息的多维度图像特征。
CN201911261511.8A 2019-12-10 2019-12-10 基于深度学习的视频处理方法及装置 Active CN111126197B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911261511.8A CN111126197B (zh) 2019-12-10 2019-12-10 基于深度学习的视频处理方法及装置
PCT/CN2020/105991 WO2021114688A1 (zh) 2019-12-10 2020-07-30 基于深度学习的视频处理方法及装置
CA3164081A CA3164081A1 (en) 2019-12-10 2020-07-30 Video processing method and device based on deep learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911261511.8A CN111126197B (zh) 2019-12-10 2019-12-10 基于深度学习的视频处理方法及装置

Publications (2)

Publication Number Publication Date
CN111126197A CN111126197A (zh) 2020-05-08
CN111126197B true CN111126197B (zh) 2023-08-25

Family

ID=70498238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911261511.8A Active CN111126197B (zh) 2019-12-10 2019-12-10 基于深度学习的视频处理方法及装置

Country Status (3)

Country Link
CN (1) CN111126197B (zh)
CA (1) CA3164081A1 (zh)
WO (1) WO2021114688A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126197B (zh) * 2019-12-10 2023-08-25 苏宁云计算有限公司 基于深度学习的视频处理方法及装置
CN111601162B (zh) * 2020-06-08 2022-08-02 北京世纪好未来教育科技有限公司 视频切分方法、装置和计算机存储介质
CN112784056B (zh) * 2020-12-31 2021-11-23 北京视连通科技有限公司 一种基于视频智能识别及智能语义搜索的短视频生成方法
CN113792600B (zh) * 2021-08-10 2023-07-18 武汉光庭信息技术股份有限公司 一种基于深度学习的视频抽帧方法和系统
CN114077681B (zh) * 2022-01-19 2022-04-12 腾讯科技(深圳)有限公司 一种图像数据处理方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103716586A (zh) * 2013-12-12 2014-04-09 中国科学院深圳先进技术研究院 一种基于三维空间场景的监控视频融合系统和方法
CN104363385A (zh) * 2014-10-29 2015-02-18 复旦大学 一种图像融合的基于行的硬件实现方法
CN109325141A (zh) * 2018-07-26 2019-02-12 北京市商汤科技开发有限公司 图像检索方法及装置、电子设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4424590B2 (ja) * 2004-03-05 2010-03-03 株式会社Kddi研究所 スポーツ映像の分類装置
CN101650728A (zh) * 2009-08-26 2010-02-17 北京邮电大学 视频高层特征检索系统及其实现
CN106446015A (zh) * 2016-08-29 2017-02-22 北京工业大学 一种基于用户行为偏好的视频内容访问预测与推荐方法
CN108038414A (zh) * 2017-11-02 2018-05-15 平安科技(深圳)有限公司 基于循环神经网络的人物性格分析方法、装置及存储介质
CN111126197B (zh) * 2019-12-10 2023-08-25 苏宁云计算有限公司 基于深度学习的视频处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103716586A (zh) * 2013-12-12 2014-04-09 中国科学院深圳先进技术研究院 一种基于三维空间场景的监控视频融合系统和方法
CN104363385A (zh) * 2014-10-29 2015-02-18 复旦大学 一种图像融合的基于行的硬件实现方法
CN109325141A (zh) * 2018-07-26 2019-02-12 北京市商汤科技开发有限公司 图像检索方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
WO2021114688A1 (zh) 2021-06-17
CA3164081A1 (en) 2021-06-17
CN111126197A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111126197B (zh) 基于深度学习的视频处理方法及装置
CN106599836B (zh) 多人脸跟踪方法及跟踪系统
CN110263659B (zh) 一种基于三元组损失和轻量级网络的指静脉识别方法及系统
Triggs et al. Scene segmentation with crfs learned from partially labeled images
CN111242180B (zh) 一种基于轻量化卷积神经网络的图像识别方法及系统
CN109508675B (zh) 一种针对复杂场景的行人检测方法
CN103679187B (zh) 图像识别方法和系统
Zhang et al. Coarse-to-fine object detection in unmanned aerial vehicle imagery using lightweight convolutional neural network and deep motion saliency
CN106780639B (zh) 基于显著性特征稀疏嵌入和极限学习机的哈希编码方法
CN103065158A (zh) 基于相对梯度的isa模型的行为识别方法
CN111695640B (zh) 地基云图识别模型训练方法及地基云图识别方法
CN112766170B (zh) 基于簇类无人机图像的自适应分割检测方法及装置
CN111723773A (zh) 遗留物检测方法、装置、电子设备及可读存储介质
CN110751191A (zh) 一种图像的分类方法及系统
CN115240024A (zh) 一种联合自监督学习和半监督学习的地外图片分割方法和系统
CN116030396A (zh) 一种用于视频结构化提取的精确分割方法
CN113221770A (zh) 基于多特征混合学习的跨域行人重识别方法及系统
CN115482380A (zh) 一种基于深度学习的多等级公路三维点云目标分割方法
CN115482387A (zh) 基于多尺度类别原型的弱监督图像语义分割方法及系统
CN105956604B (zh) 一种基于两层时空邻域特征的动作识别方法
CN108664968B (zh) 一种基于文本选取模型的无监督文本定位方法
CN112446417B (zh) 基于多层超像素分割的纺锤形果实图像分割方法及系统
Qin et al. Application of video scene semantic recognition technology in smart video
Dunlop Scene classification of images and video via semantic segmentation
CN110796650A (zh) 图像质量的评估方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant