CN111476131B - 一种视频处理方法和装置 - Google Patents

一种视频处理方法和装置 Download PDF

Info

Publication number
CN111476131B
CN111476131B CN202010235566.8A CN202010235566A CN111476131B CN 111476131 B CN111476131 B CN 111476131B CN 202010235566 A CN202010235566 A CN 202010235566A CN 111476131 B CN111476131 B CN 111476131B
Authority
CN
China
Prior art keywords
module
training
classification
video
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010235566.8A
Other languages
English (en)
Other versions
CN111476131A (zh
Inventor
耿焕
何楠
林星
白兴安
徐扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Weiboyi Technology Co ltd
Original Assignee
Beijing Weiboyi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Weiboyi Technology Co ltd filed Critical Beijing Weiboyi Technology Co ltd
Priority to CN202010235566.8A priority Critical patent/CN111476131B/zh
Publication of CN111476131A publication Critical patent/CN111476131A/zh
Application granted granted Critical
Publication of CN111476131B publication Critical patent/CN111476131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视频处理方法和装置,涉及图像处理技术。为解决现有技术采用人工或传统机器学习方式需要耗费大量的人力物力,且效率较低的问题而发明。本发明实施例提供的技术方案包括:获取待分类视频的多个关键帧图像;通过预先训练的分类模型对所述多个关键帧图像进行处理,得到所述待分类视频的分类结果;所述预先训练的分类模型中包括由预设注意力模块嵌入到SENet网络中生成的改进模块。该方案可以应用在视频推荐、搜索等领域。

Description

一种视频处理方法和装置
技术领域
本发明涉及图像处理技术,尤其涉及一种视频处理方法和装置。
背景技术
视频分类是对视频内容进行分析理解以识别其语义类别的技术,在互联网监测、人机交互等方面具有广阔的应用前景,长期以来受到业界的广泛关注。
现有技术中,大多数视频分类都是基于人工设计和传统机器学习方法实现的。然而采用人工或传统机器学习方式需要耗费大量的人力物力,且效率较低。
发明内容
本发明提供一种视频处理方法和装置,能够提高视频分类的效率。
一方面,本发明一种视频处理方法,包括:获取待分类视频的多个关键帧图像;通过预先训练的分类模型对所述多个关键帧图像进行处理,得到所述待分类视频的分类结果;所述预先训练的分类模型中包括由预设注意力模块嵌入到SENet网络中生成的改进模块。
再一方面,本发明实施例提供一种视频处理装置,包括:
图像获取单元,用于获取待分类视频的多个关键帧图像;
分类单元,与所述图像获取单元相连,用于通过预先训练的分类模型对所述多个关键帧图像进行处理,得到所述待分类视频的分类结果;所述预先训练的分类模型中包括由预设注意力模块嵌入到SENet网络中生成的改进模块。
本发明实施例提供的技术方案,通过预先训练的分类模型对待分类视频对应的多个关键帧图像进行处理得到待分类视频的分类结果,从而实现了待分类视频的处理。本发明实施例提供的技术方案,仅获取待分类视频的多个关键帧图像,减少了处理参数的数量;而且,利用分类模型对多个关键帧图像进行处理,能够统一不同帧之间的信息,减少了对计算资源的浪费。该方案解决了现有技术中采用人工或传统机器学习方式需要耗费大量的人力物力,且效率较低的问题。此外,由于预先训练的分类模型中包括改进模块,而改进模块是由预设注意力模块嵌入到SENet网络中生成的,通过将预设注意力模块嵌入SENet网络,能够进一步提高视频分类的准确率。
附图说明
图1为本发明实施例1提供的视频处理方法的流程图;
图2为本发明实施例2提供的视频处理方法的示意图;
图3为图2所示的视频处理方法中嵌入过程的流程图;
图4为本发明实施例3提供的视频处理装置的结构示意图一;
图5为本发明实施例3提供的视频处理装置的结构示意图二;
图6为图4所示的视频处理装置中模型改进单元的结构示意图;
图7为图4所示的视频处理装置中模型训练单元的结构示意图;
图8为图7所示的模型训练单元中视频分类模块的结构示意图;
图9为图4所示的视频处理装置中分类单元的结构示意图。
具体实施方式
下面结合实施例及附图对本发明的技术方案作进一步阐述。
实施例1
如图1所示,本发明实施例提供一种视频处理方法,包括:
步骤101,获取待分类视频的多个关键帧图像。
在本实施例中,步骤101中关键帧又称为I帧(Intra-coded frame),是在压缩后的视频中,完整保留图像数据的帧,在对关键帧进行解码时,只需要本帧的图像数据就可以完成解码。由于待分类视频中的各个关键帧之间的相似性较小,因此可以通过多个关键帧全面的表征待分类视频;通过提取多个关键帧图像,能够提高对待分类视频图像进行分类的准确率。
其中,获取多个关键帧图像的方式可以为根据预设规则从待分类视频中提取关键帧;预设规则包括:时长、间隔、权重、点击量中的一种。
步骤102,通过预先训练的分类模型对多个关键帧图像进行处理,得到待分类视频的分类结果。
在本实施例中,步骤102中预先训练的分类模型中包括由预设注意力模块嵌入到SENet网络中生成的改进模块。该SENet网络,具体可以为SE-Inception网络,也可以SE-ResNet网络,在此不作限制。
在本实施例中,通过预先训练的分类模型对多个关键帧图像进行处理的过程可以包括:通过预先训练的分类模型中的CNN分类网络对多个关键帧图像进行处理,获取最后一层特征图;对最后一层特征图进行全连接神经网络处理,得到第四图像特征;使用改进模块对第四图像特征进行处理,得到第五图像特征;对第五图像特征进行融合,得到第六图像特征;根据第六图像特征获取待分类视频的分类结果。
本实施例提供的技术方案,使用包括改进模块的分类模型进行分类,能够将两个模型合二为一,能够进一步提高分类的准确率。
本发明实施例提供的技术方案,通过预先训练的分类模型对待分类视频对应的多个关键帧图像进行处理得到待分类视频的分类结果,从而实现了待分类视频的处理。本发明实施例提供的技术方案,仅获取待分类视频的多个关键帧图像,减少了处理参数的数量;而且,利用分类模型对多个关键帧图像进行处理,能够统一不同帧之间的信息,减少了对计算资源的浪费。该方案解决了现有技术中采用人工或传统机器学习方式需要耗费大量的人力物力,且效率较低的问题。此外,由于预先训练的分类模型中包括改进模块,而改进模块是由预设注意力模块嵌入到SENet网络中生成的,通过将预设注意力模块嵌入SENet网络,能够进一步提高视频分类的准确率。
实施例2
如图2所示,本发明实施例提供一种视频处理方法,包括:
步骤201,获取待分类视频的多个关键帧图像。该过程与图1所示的步骤101相似,在此不再一一赘述。
步骤202,将预设注意力模块嵌入到SENet网络中,得到改进模块。
在本实施例中,通过步骤202中SENet网络,具体可以为SE-Inception网络,也可以SE-ResNet网络,在此不作限制。
将预设注意力模块嵌入到SENet网络,以输入为A,经过预设注意力模型输出E为例,嵌入过程如图3所示。改进模块的输出
Figure BDA0002430848060000041
其中w=Sigmoid(fc2(Relu(fc1(global_pooling(E)))))。此处的fc1和fc2为预设的全连接函数,Relu为预设激活函数,fc1为预设的减少输出数量的全连接函数,如将特征维度降低到输入维度的1/16;fc2为预设的增加输出数量的全连接函数,fc2的输出数量与fc1的输入数量相同,即将经过Relu后的特征升回到输入的维度。这种结构比直接使用一个全连接神经网络的好处在于:一方面能加入更多的非线性,另外也极大地减少了参数量和计算量。
具体的,为了进一步提升模型能力,还可以对嵌入SENet网络的预设注意力模块进行更新,此时,通过步骤202将预设注意力模块嵌入到SENet网络中的过程包括:获取预设注意力模块中的S矩阵;对S矩阵经过至少两层全连接神经网络处理,得到S′矩阵;将预设注意力模块中的S矩阵更新为S′矩阵;将更新后的预设注意力模块嵌入到SENet网络中。其中,当S矩阵经过两层全连接神经网络处理得到S′矩阵时,S′=fc2(Relu(fc1(S)));此处的fc1为预设的减少输出数量的全连接函数;Relu为预设激活函数;fc2为预设的增加输出数量的全连接函数;fc2的输出数量与fc1的输入数量相同。
步骤203,将改进模块嵌入到预设分类模型,得到嵌入改进模块的分类模型。
步骤204,对嵌入改进模块的分类模型进行训练,得到预先训练的分类模型。
在本实施例中,步骤204可以通过多个训练视频对嵌入改进模块的分类模型进行训练,得到该预先训练的分类模型。步骤204的具体训练过程可以包括:分别根据初始分类模型对预设训练视频集中每个训练视频进行处理,得到每个训练视频对应的训练分类;所述初始分类模型为嵌入改进模块的分类模型的初始模型;根据每个训练视频的训练分类和预设分类,判断初始分类模型的分类的准确率是否达到预设阈值;如果未达到,根据每个训练视频对应的训练分类和预设分类更新初始分类模型后,再次执行训练视频处理过程;如果达到,将准确率达到预设阈值时的初始分类模型作为预先训练的分类模型。
其中,初始分类模型包括初始CNN分类网络和初始改进模块,对于预设训练视频集中任一训练视频,分别根据初始分类模型对预设训练视频集中每个训练视频进行处理,包括:获取训练视频的多个训练关键帧图像;通过初始CNN分类网络对多个训练关键帧图像进行处理,获取最后一层训练特征图;对最后一层训练特征图进行全连接神经网络处理,得到第一训练图像特征;使用初始改进模块对第一训练图像特征进行处理,得到第二训练图像特征;对第二训练图像特征进行融合,得到第三训练图像特征;根据第三训练图像特征获取训练视频对应的训练分类。
在本实施例中,初始CNN分类网络,包括:LENet5网络、AlexNet网络、VGG网络、Resnets网络或GoogleNet网络。
步骤205,通过预先训练的分类模型对多个关键帧图像进行处理,得到待分类视频的分类结果。该过程与图1所示的步骤102相似,在此不再一一赘述。
本发明实施例提供的技术方案,通过预先训练的分类模型对待分类视频对应的多个关键帧图像进行处理得到待分类视频的分类结果,从而实现了待分类视频的处理。本发明实施例提供的技术方案,仅获取待分类视频的多个关键帧图像,减少了处理参数的数量;而且,利用分类模型对多个关键帧图像进行处理,能够统一不同帧之间的信息,减少了对计算资源的浪费。该方案解决了现有技术中采用人工或传统机器学习方式需要耗费大量的人力物力,且效率较低的问题。此外,由于预先训练的分类模型中包括改进模块,而改进模块是由预设注意力模块嵌入到SENet网络中生成的,通过将预设注意力模块嵌入SENet网络,能够进一步提高视频分类的准确率。
实施例3
如图4所示,本发明实施例提供一种视频处理装置,包括:
图像获取单元401,用于获取待分类视频的多个关键帧图像;
分类单元402,与图像获取单元相连,用于通过预先训练的分类模型对多个关键帧图像进行处理,得到待分类视频的分类结果;预先训练的分类模型中包括由预设注意力模块嵌入到SENet网络中生成的改进模块。
在本实施例中,通过图像获取单元401和分类单元402实现视频处理的过程,与本发明实施例1提供的相似,在此不再一一赘述。
进一步的,如图5所示,本实施例提供的视频处理装置,还包括:
模型改进单元403,用于将预设注意力模块嵌入到SENet网络中,得到改进模块;
模型嵌入单元404,与模型改进单元相连,用于将改进模块嵌入到预设分类模型,得到嵌入改进模块的分类模型;
模型训练单元405,分别与模型嵌入单元和分类单元相连,用于对嵌入改进模块的分类模型进行训练,得到预先训练的分类模型。
在本实施例中,视频处理装置还包括模型改进单元403、模型嵌入单元404和模型训练单元405时,实现视频处理的过程,与本发明实施例2提供的相似,在此不再一一赘述。
此时,如图6所示,本实施例中模型改进单元403包括:
矩阵获取模块4031,用于获取预设注意力模块中的S矩阵;
矩阵处理模块4032,与矩阵获取模块相连,用于对S矩阵经过至少两层全连接神经网络处理,得到S′矩阵;
矩阵更新模块4033,分别与矩阵获取模块和矩阵处理模块相连,用于将预设注意力模块中的S矩阵更新为S′矩阵;
矩阵嵌入模块4034,与矩阵更新模块相连,用于将更新后的预设注意力模块嵌入到SENet网络中。
在本实施例中,通过矩阵获取模块4031、矩阵处理模块4032、矩阵更新模块4033和矩阵嵌入模块4034实现模型改进的过程,与图2所示的步骤202相似,在此不再一一赘述。
此时,如图7所示,本实施例中模型训练单元405,包括:
视频分类模块4051,用于分别根据初始分类模型对预设训练视频集中每个训练视频进行处理,得到每个训练视频对应的训练分类;所述初始分类模型为嵌入改进模块的分类模型的初始模型;
准确率判断模块4052,与视频分类模块相连,用于根据每个训练视频的训练分类和预设分类,判断初始分类模型的分类的准确率是否达到预设阈值;
模型更新模块4053,分别与准确率判断模块和视频分类模块相连,用于准确率判断模块得到的判断结果为未达到预设阈值时,根据每个训练视频对应的训练分类和预设分类更新初始分类模型后,再次通过视频分类模块获取训练分类;
模型获取模块4054,与准确率判断模块相连,用于准确率判断模块得到的判断结果为达到预设阈值时,将准确率达到预设阈值时的初始分类模型作为预先训练的分类模型。
在本实施例中,通过视频分类模块4051、准确率判断模块4052、模型更新模块4053和模型获取模块4054实现获取分类模型的过程,与图2所示的步骤204相似,在此不再一一赘述。
其中,如图8所示,初始分类模型包括初始CNN分类网络和初始改进模块,对于预设训练视频集中任一训练视频,视频分类模块4051包括:
训练图像获取子模块40511,用于获取训练视频的多个训练关键帧图像;
训练CNN处理子模块40512,与训练图像获取子模块相连,用于通过初始CNN分类网络对多个训练关键帧图像进行处理,获取最后一层训练特征图;
训练全连接子模块40513,与训练CNN处理子模块相连,用于对最后一层训练特征图进行全连接神经网络处理,得到第一训练图像特征;
训练改进处理子模块40514,与训练全连接子模块相连,用于使用初始改进模块对第一训练图像特征进行处理,得到第二训练图像特征;
训练融合子模块40515,与训练改进处理子模块相连,用于对第二训练图像特征进行融合,得到第三训练图像特征;
训练分类子模块40516,与训练融合子模块相连,用于根据第三训练图像特征获取训练视频对应的训练分类。
在本实施例中,通过训练图像获取子模块40511至训练分类子模块40516实现训练过程,与图2所示的步骤204相似,在此不再一一赘述。
进一步的,如图9所示,本实施例提供的视频处理装置中分类单元402,包括:
预测CNN处理模块4021,用于通过预先训练的分类模型中的CNN分类网络对多个关键帧图像进行处理,获取最后一层特征图;
预测全连接模块4022,与预测CNN处理模块相连,用于对最后一层特征图进行全连接神经网络处理,得到第四图像特征;
预测改进处理模块4023,与预测全连接模块相连,用于使用改进模块对第四图像特征进行处理,得到第五图像特征;
预测融合模块4024,与预测改进处理模块相连,用于对第五图像特征进行融合,得到第六图像特征;
预测分类模块4025,与预测融合模块相连,用于根据第六图像特征获取待分类视频的分类结果。
在本实施例中,通过预测CNN处理模块4021至预测分类模块4025实现视频分类的过程,与图1所示的步骤102相似,在此不再一一赘述。
本发明实施例提供的技术方案,通过预先训练的分类模型对待分类视频对应的多个关键帧图像进行处理得到待分类视频的分类结果,从而实现了待分类视频的处理。本发明实施例提供的技术方案,仅获取待分类视频的多个关键帧图像,减少了处理参数的数量;而且,利用分类模型对多个关键帧图像进行处理,能够统一不同帧之间的信息,减少了对计算资源的浪费。该方案解决了现有技术中采用人工或传统机器学习方式需要耗费大量的人力物力,且效率较低的问题。此外,由于预先训练的分类模型中包括改进模块,而改进模块是由预设注意力模块嵌入到SENet网络中生成的,通过将预设注意力模块嵌入SENet网络,能够进一步提高视频分类的准确率。
以上实施例的先后顺序仅为便于描述,不代表实施例的优劣。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种视频处理方法,其特征在于,包括:
获取待分类视频的多个关键帧图像;
通过预先训练的分类模型对所述多个关键帧图像进行处理,得到所述待分类视频的分类结果;所述预先训练的分类模型中包括由预设注意力模块嵌入到SENet网络中生成的改进模块;
在所述通过预先训练的分类模型对所述多个关键帧图像进行处理之前,还包括:
将所述预设注意力模块嵌入到SENet网络中,得到所述改进模块;
将所述改进模块嵌入到预设分类模型,得到嵌入改进模块的分类模型;
对所述嵌入改进模块的分类模型进行训练,得到所述预先训练的分类模型;
所述将所述预设注意力模块嵌入到SENet网络中,包括:
获取所述预设注意力模块中的S矩阵;
对所述S矩阵经过至少两层全连接神经网络处理,得到S′矩阵;
将所述预设注意力模块中的S矩阵更新为所述S′矩阵;
将更新后的预设注意力模块嵌入到所述SENet网络中;
所述SENet网络为SE-Inception网络或SE-ResNet网络。
2.根据权利要求1所述的视频处理方法,其特征在于,当所述S矩阵经过两层全连接神经网络处理得到S′矩阵时,所述S′=fc2(Relu(fc1(S)));
所述fc1为预设的减少输出数量的全连接函数;所述Relu为预设激活函数;所述fc2为预设的增加输出数量的全连接函数;所述fc2的输出数量与所述fc1的输入数量相同。
3.根据权利要求1至2中任意一项所述的视频处理方法,其特征在于,所述对所述嵌入改进模块的分类模型进行训练,包括:
分别根据初始分类模型对预设训练视频集中每个训练视频进行处理,得到每个训练视频对应的训练分类;所述初始分类模型为嵌入改进模块的分类模型的初始模型;
根据每个训练视频的训练分类和预设分类,判断所述初始分类模型的分类的准确率是否达到预设阈值;
如果未达到,根据每个训练视频对应的训练分类和预设分类更新所述初始分类模型后,再次执行训练视频处理过程;
如果达到,将准确率达到预设阈值时的初始分类模型作为所述预先训练的分类模型。
4.根据权利要求3所述的视频处理方法,其特征在于,所述初始分类模型包括初始CNN分类网络和初始改进模块,对于预设训练视频集中任一训练视频,所述分别根据初始分类模型对预设训练视频集中每个训练视频进行处理,包括:
获取所述训练视频的多个训练关键帧图像;
通过初始CNN分类网络对所述多个训练关键帧图像进行处理,获取最后一层训练特征图;
对所述最后一层训练特征图进行全连接神经网络处理,得到第一训练图像特征;
使用初始改进模块对所述第一训练图像特征进行处理,得到第二训练图像特征;
对所述第二训练图像特征进行融合,得到第三训练图像特征;
根据所述第三训练图像特征获取所述训练视频对应的训练分类。
5.根据权利要求4所述的视频处理方法,其特征在于,所述初始CNN分类网络,包括:
LENet5网络、AlexNet网络、VGG网络、Resnets网络或GoogleNet网络。
6.根据权利要求1至2中任意一项所述的视频处理方法,其特征在于,所述通过预先训练的分类模型对所述多个关键帧图像进行处理,包括:
通过预先训练的分类模型中的CNN分类网络对多个关键帧图像进行处理,获取最后一层特征图;
对所述最后一层特征图进行全连接神经网络处理,得到第四图像特征;
使用所述改进模块对所述第四图像特征进行处理,得到第五图像特征;
对所述第五图像特征进行融合,得到第六图像特征;
根据所述第六图像特征获取所述待分类视频的分类结果。
7.一种视频处理装置,其特征在于,包括:
图像获取单元,用于获取待分类视频的多个关键帧图像;
分类单元,与所述图像获取单元相连,用于通过预先训练的分类模型对所述多个关键帧图像进行处理,得到所述待分类视频的分类结果;所述预先训练的分类模型中包括由预设注意力模块嵌入到SENet网络中生成的改进模块
所述视频处理装置还包括:
模型改进单元,用于将所述预设注意力模块嵌入到SENet网络中,得到所述改进模块;
模型嵌入单元,与所述模型改进单元相连,用于将所述改进模块嵌入到预设分类模型,得到嵌入改进模块的分类模型;
模型训练单元,分别与所述模型嵌入单元和所述分类单元相连,用于对所述嵌入改进模块的分类模型进行训练,得到所述预先训练的分类模型;
所述模型改进单元包括:
矩阵获取模块,用于获取所述预设注意力模块中的S矩阵;
矩阵处理模块,与所述矩阵获取模块相连,用于对所述S矩阵经过至少两层全连接神经网络处理,得到S′矩阵;
矩阵更新模块,分别与所述矩阵获取模块和所述矩阵处理模块相连,用于将所述预设注意力模块中的S矩阵更新为所述S′矩阵;
矩阵嵌入模块,与所述矩阵更新模块相连,用于将更新后的预设注意力模块嵌入到所述SENet网络中;
所述SENet网络为SE-Inception网络或SE-ResNet网络。
8.根据权利要求7所述的视频处理装置,其特征在于,所述模型训练单元,包括:
视频分类模块,用于分别根据初始分类模型对预设训练视频集中每个训练视频进行处理,得到每个训练视频对应的训练分类;所述初始分类模型为嵌入改进模块的分类模型的初始模型;
准确率判断模块,与所述视频分类模块相连,用于根据每个训练视频的训练分类和预设分类,判断所述初始分类模型的分类的准确率是否达到预设阈值;
模型更新模块,分别与所述准确率判断模块和所述视频分类模块相连,用于所述准确率判断模块得到的判断结果为未达到预设阈值时,根据每个训练视频对应的训练分类和预设分类更新所述初始分类模型后,再次通过视频分类模块获取训练分类;
模型获取模块,与准确率判断模块相连,用于所述准确率判断模块得到的判断结果为达到预设阈值时,将准确率达到预设阈值时的初始分类模型作为所述预先训练的分类模型。
9.根据权利要求8所述的视频处理装置,其特征在于,所述初始分类模型包括初始CNN分类网络和初始改进模块,对于预设训练视频集中任一训练视频,所述视频分类模块包括:
训练图像获取子模块,用于获取所述训练视频的多个训练关键帧图像;
训练CNN处理子模块,与所述训练图像获取子模块相连,用于通过初始CNN分类网络对所述多个训练关键帧图像进行处理,获取最后一层训练特征图;
训练全连接子模块,与所述训练CNN处理子模块相连,用于对所述最后一层训练特征图进行全连接神经网络处理,得到第一训练图像特征;
训练改进处理子模块,与所述训练全连接子模块相连,用于使用初始改进模块对所述第一训练图像特征进行处理,得到第二训练图像特征;
训练融合子模块,与所述训练改进处理子模块相连,用于对所述第二训练图像特征进行融合,得到第三训练图像特征;
训练分类子模块,与所述训练融合子模块相连,用于根据所述第三训练图像特征获取所述训练视频对应的训练分类。
10.根据权利要求7所述的视频处理装置,其特征在于,所述分类单元,包括:
预测CNN处理模块,用于通过预先训练的分类模型中的CNN分类网络对多个关键帧图像进行处理,获取最后一层特征图;
预测全连接模块,与所述预测CNN处理模块相连,用于对所述最后一层特征图进行全连接神经网络处理,得到第四图像特征;
预测改进处理模块,与所述预测全连接模块相连,用于使用所述改进模块对所述第四图像特征进行处理,得到第五图像特征;
预测融合模块,与所述预测改进处理模块相连,用于对所述第五图像特征进行融合,得到第六图像特征;
预测分类模块,与所述预测融合模块相连,用于根据所述第六图像特征获取所述待分类视频的分类结果。
CN202010235566.8A 2020-03-30 2020-03-30 一种视频处理方法和装置 Active CN111476131B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010235566.8A CN111476131B (zh) 2020-03-30 2020-03-30 一种视频处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010235566.8A CN111476131B (zh) 2020-03-30 2020-03-30 一种视频处理方法和装置

Publications (2)

Publication Number Publication Date
CN111476131A CN111476131A (zh) 2020-07-31
CN111476131B true CN111476131B (zh) 2021-06-11

Family

ID=71747909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010235566.8A Active CN111476131B (zh) 2020-03-30 2020-03-30 一种视频处理方法和装置

Country Status (1)

Country Link
CN (1) CN111476131B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686186A (zh) * 2021-01-05 2021-04-20 润联软件系统(深圳)有限公司 一种基于深度学习的高空抛物识别方法及其相关组件

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214399A (zh) * 2018-10-12 2019-01-15 清华大学深圳研究生院 一种嵌入SENet结构的改进YOLOV3目标识别算法
CN109522855A (zh) * 2018-11-23 2019-03-26 广州广电银通金融电子科技有限公司 结合ResNet和SENet的低分辨率行人检测方法、系统及存储介质
CN109902202A (zh) * 2019-01-08 2019-06-18 国家计算机网络与信息安全管理中心 一种视频分类方法及装置
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359592B (zh) * 2018-10-16 2019-12-06 北京达佳互联信息技术有限公司 视频帧的处理方法、装置、电子设备及存储介质
CN109671063B (zh) * 2018-12-11 2020-08-18 西安交通大学 一种基于深度网络特征间重要性的图像质量评估方法
US10999606B2 (en) * 2019-01-08 2021-05-04 Intel Corporation Method and system of neural network loop filtering for video coding
CN109871777B (zh) * 2019-01-23 2021-10-01 广州智慧城市发展研究院 一种基于注意力机制的行为识别系统
CN110414513A (zh) * 2019-07-31 2019-11-05 电子科技大学 基于语义增强卷积神经网络的视觉显著性检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214399A (zh) * 2018-10-12 2019-01-15 清华大学深圳研究生院 一种嵌入SENet结构的改进YOLOV3目标识别算法
CN109522855A (zh) * 2018-11-23 2019-03-26 广州广电银通金融电子科技有限公司 结合ResNet和SENet的低分辨率行人检测方法、系统及存储介质
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN109902202A (zh) * 2019-01-08 2019-06-18 国家计算机网络与信息安全管理中心 一种视频分类方法及装置

Also Published As

Publication number Publication date
CN111476131A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
Huang et al. Location-aware graph convolutional networks for video question answering
CN111144448B (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN109815903B (zh) 一种基于自适应融合网络的视频情感分类方法
WO2023035610A1 (zh) 基于关键词感知的多模态注意力视频问答方法与系统
CN107463888B (zh) 基于多任务学习与深度学习的人脸情绪分析方法及系统
CN113076483A (zh) 基于案件要素异构图的舆情新闻抽取式摘要方法
CN110889430A (zh) 基于多域视觉特征的新闻图像检测方法及系统、装置
CN114565812B (zh) 语义分割模型的训练方法、装置和图像的语义分割方法
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN110929099B (zh) 一种基于多任务学习的短视频帧语义提取方法及系统
CN110569359A (zh) 识别模型的训练及应用方法、装置、计算设备及存储介质
CN112200096B (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
CN111597929A (zh) 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法
CN113946706A (zh) 基于参考前置描述的图像描述生成方法
CN111476131B (zh) 一种视频处理方法和装置
CN114186080B (zh) 基于语义共享的深度跨模态检索方法及系统
CN110796058A (zh) 一种基于关键帧提取和层次性表述的视频行为识别方法
CN111083469A (zh) 一种视频质量确定方法、装置、电子设备及可读存储介质
Yang et al. Deep Learning Based Image Quality Assessment: A Survey
Fang et al. Study of spatio-temporal modeling in video quality assessment
CN114078230A (zh) 一种自适应特征融合冗余优化的小目标检测方法
CN112750128B (zh) 图像语义分割方法、装置、终端及可读存储介质
CN111625661A (zh) 一种音视频片段分类方法及装置
CN115797642A (zh) 基于一致性正则化与半监督领域自适应图像语义分割算法
CN115063710A (zh) 一种基于双分支注意力机制tcn的时序分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant