CN113221951B - 一种基于时域注意力池化网络的动图分类方法及装置 - Google Patents

一种基于时域注意力池化网络的动图分类方法及装置 Download PDF

Info

Publication number
CN113221951B
CN113221951B CN202110396335.XA CN202110396335A CN113221951B CN 113221951 B CN113221951 B CN 113221951B CN 202110396335 A CN202110396335 A CN 202110396335A CN 113221951 B CN113221951 B CN 113221951B
Authority
CN
China
Prior art keywords
gif
network
module
content
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110396335.XA
Other languages
English (en)
Other versions
CN113221951A (zh
Inventor
马永娟
朱鹏飞
黄进晟
王汉石
石红
赵帅
胡清华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Automotive Data of China Tianjin Co Ltd
Original Assignee
Tianjin University
Automotive Data of China Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University, Automotive Data of China Tianjin Co Ltd filed Critical Tianjin University
Priority to CN202110396335.XA priority Critical patent/CN113221951B/zh
Publication of CN113221951A publication Critical patent/CN113221951A/zh
Application granted granted Critical
Publication of CN113221951B publication Critical patent/CN113221951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于时域注意力池化网络的动画GIF内容分类方法及装置,方法包括:构建网络动图数据集,并构建一动画GIF内容分类模型,所述内容分类模型包括:特征提取模块、时域注意力池化网络与损失层;通过所构建的网络动图数据集训练所述内容分类模型,对输出结果使用交叉熵损失评估,为每一帧做分类时加入辅助监督的方式,获取所述内容分类模型的总体损失函数;基于所述总体损失函数捕捉动图中与内容标签最相关的关键帧,实现动画分类。装置包括:构建模块、获取模块、动画分类模块。本发明减少了无关帧的信息干扰,提高了对动画GIF内容分类的准确性。

Description

一种基于时域注意力池化网络的动图分类方法及装置
技术领域
本发明涉及动图分类领域,包括用于内容分类的动图数据集的构造以及基于时间注意力池化网络的动图分类技术,尤其涉及一种基于时间注意力池化网络的动图分类方法及装置。
背景技术
动画图形交换格式(GIF)是一种图像格式,其具有广泛的兼容性和可移植性。GIF图像格式是在1987年由互联网供应商公司CompuServe创造的。与其他流行的图像格式相反,GIF能够更好地传达各种各样的情感形式,讲故事以及展示动态内容。此外,因为GIF图像中没有声音与长期信息,所以相较于视频GIF图像更轻且便于分散。拥有这些理想的属性,GIF动画格式在社交媒体、广告和在线教育中扮演着越来越重要的角色。
许多现有的关于GIF动图的研究工作主要集中于自然语言的描述,视觉问答(VQA)和情绪识别。目前已经有一些各类任务相对应的动图GIF数据集,例如:用于自然语言描述的Tumblr GIF(TGIF)数据集和Auto-captions on GIF,用于VQA的TGIF-QA(数据集) 以及用于情感识别的GIFGIF+。然而,这些数据集只适用于特定的研究领域。近年来,GIF 动图的情感分类已经成为了一个有趣的研究问题并得到了广泛的应用。Jou,Cai等人提出利用单个帧信息或考虑多个帧信息的图像分类方法来解决该问题。已经有一些研究提出使用3D卷积神经网络来捕获时间视觉情感信息。
现有的研究主要集中在GIF动图的情感分类问题上,其中的语义GIF框架是连贯和一致的,可以提供各类补充信息。与情感分类不同,内容分类是一个更实际的任务,因为互联网上通常会储存大量根据内容分类组织的动图。GIF动图内容分类问题的主要挑战是动图中的某些帧与GIF动图内容标签无关,这可能会大大降低动图内容分类的性能。
因此,如何有效利用动图中的关键帧信息同时减少无关帧的信息干扰对动图内容分类问题是尤为关键的。尽管这项任务的特点不同于其他任务,针对该任务的研究仍然很少,而且对于这样一个重要的问题仍然存在着开放的设计基准和适当的策略。
发明内容
本发明提供了一种基于时域注意力池化网络的动画GIF分类方法及装置,本发明减少了无关帧的信息干扰,提高了对动画GIF内容分类的准确性,详见下文描述:
第一方面,一种基于时域注意力池化网络的动画GIF内容分类方法,所述方法包括:
构建网络动图数据集,并构建一动画GIF内容分类模型,所述内容分类模型包括:特征提取模块、时域注意力池化网络与损失层;
通过所构建的网络动图数据集训练所述内容分类模型,对输出结果使用交叉熵损失评估,为每一帧做分类时加入辅助监督的方式,获取所述内容分类模型的总体损失函数;
基于所述总体损失函数捕捉动图中与内容标签最相关的关键帧,实现动画分类。
在一种实施方式中,所述网络动图数据集为:
动图中大多数的帧与真实的内容标签无关、数据集中包含全面且多样的动图内容、且动图的空间大小和序列长度跨度;数据集中类别存在不平衡性。
在一种实施方式中,所述特征提取模块为:
将第i个GIF样本中的T个帧作为输入,使用二维卷积骨干网络进行处理得到GIF中的各帧的特征映射;
通过空间池化操作减少特征图的空间维数,特征表示形式化地表示为Xi∈RT×C,其中 C是特征通道的数目,Xi为第i个GIF样本中的T个帧的特征表示,R为实数。
在一种实施方式中,所述时域注意力池化网络为:
使用一单层的线性分类器得到预测分数,注意力模块为每一帧计算权重,基于权重得到最终的预测分数;
所述网络还配置有两层的多层感知机与一个防止过拟合层。
第二方面,一种基于时域注意力池化网络的动画GIF分类装置,所述装置包括:
构建模块,用于构建网络动图数据集,并构建一动画GIF内容分类模型,所述内容分类模型包括:特征提取、时域注意力池化网络与损失层;
获取模块,用于通过所构建的网络动图数据集训练所述内容分类模型,对输出结果使用交叉熵损失评估,为每一帧做分类时加入辅助监督的方式,获取所述内容分类模型的总体损失函数;
动画分类模块,用于基于所述总体损失函数捕捉动图中与内容标签最相关的关键帧,实现动画分类。
在一种实施方式中,所述构建模块包括:特征提取子模块,
用于将第i个GIF样本中的T个帧作为输入,使用二维卷积骨干网络进行处理得到GIF 中的各帧的特征映射;
通过空间池化操作减少特征图的空间维数,特征表示形式化地表示为Xi∈RT×C,其中 C是特征通道的数目,Xi为第i个GIF样本中的T个帧的特征表示,R为实数。
第三方面,一种基于时域注意力池化网络的动画GIF分类装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的所述的方法步骤。
第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面中的所述的方法步骤。
本发明提供的技术方案的有益效果是:
1)本发明从网页上收集并构造了一个新的基准内容分类数据集用于动画GIF分类,将该数据集命名为WGIF(Web GIF数据集);在该数据集中,一些典型的GIF动图只包含几个关键帧与真实的内容标签有关,减少了无关帧的信息干扰;
2)本发明提出了一个新的基于时域注意力池化网络的动画GIF分类方法,并且引入了一个额外的熵损失来训练模型,提高了对动画GIF内容分类的准确性;
3)本发明在所构造的WGIF数据集上将提出的方法与各类baseline方法进行对比,对本方法的有效性进行了验证。
附图说明
图1为一种基于时间注意力池化网络的动图分类的整体网络结构示意图;
图2为WGIF数据集中的一些典型数据样本的示意图;
图3为模型计算的时间注意力权重可视化的示意图;
图4为一种基于时间注意力池化网络的动图分类装置的结构示意图;
图5为构建模块的结构示意图;
图6为一种基于时间注意力池化网络的动图分类装置的另一结构示意图。
具体实施方式
表1为本方法与其他方法在WGIF数据集上的性能对比;
表2为WGIF数据集上消融研究结果。
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
第一方面,本发明实施例提供了一种基于时域注意力池化网络的动画GIF分类方法,参见图1,该方法包括:
一、构建WGIF(Web GIF)数据集
首先收集并构建了一个新的带有内容标签的GIF动图数据集WGIF(用于动画GIF内容分类任务的数据集)。为了确保所构造数据集的多样性与独特性,WGIF数据集用于收集来自于若干个网页、且同时包含有典型的GIF动图,WGIF数据集中的动图GIF只有非常少的几个关键帧与真实标签相关。
WGIF数据集包含有超过8k的GIF动图,一共分为73类。由于WGIF数据集是从网页上获得的,所以在数据集的收集过程中存在着许多困难。最常见的问题就是从网上收集得到的数据有多个重叠的标签。此外,在WGIF的数据集中还有以下几个难点:
1)GIF动图中大多数的帧与真实的内容标签无关。WGIF数据集中的GIF动图,就如图2中所展示的,这些图片重要的信息仅仅只和几个关键帧相关。
2)WGIF数据集中包含全面且多样的动图内容(动物、自然现象和大众体育等)。
3)类型不同。WGIF中包含不同类型的GIF动图,例如:卡通、真实时间、带有文本的GIF以及不带文本的GIF动图。
4))GIF动图的空间大小和序列长度跨度很大。根据统计,GIF动图的高度范围是48到900像素,GIF动图的宽度范围为48~800像素,序列长度范围为1~494帧。
5)类不平衡性。在WGIF数据集中有一类的GIF动图仅有6个,而另一类则有274 幅GIF动图。
根据上述描述,WGIF数据集是一个非常具有实用性、能够用于动图内容分类问题研究的数据集。
二、使用所构建的数据集来训练所提出的基于时域注意力池化网络的内容分类模型
针对GIF动图分类问题中的诸多难点,为了解决动画GIF内容分类问题,提出了一种有效的基于时域注意力池化网络的动画GIF内容分类模型,该内容分类模型一共由三个部分组成:特征提取模块、时域注意力池化网络与一个损失层。在模型中使用一个基于注意力的方法来学习得到动图中各帧的重要性分数,随后合并动图中各帧的预测得分来获得最终预测。同时还利用了一个附加的熵损失作为规则项来进一步强调GIF动图中关键帧的重要性,并且采用辅助监督的方式来减少模型的训练难度。
本发明实施例所提出的模型(基于时域注意力池化网络的内容分类模型)采用端到端的方式进行训练。模型由一个特征提取模块、一个时域注意力池化网络与一个损失层构成。
(1)特征提取模块
首先将GIF动图中一系列连续的帧的特征表示提取出来以便于后期的处理。具体来说,特征提取模块将第i个GIF样本中的T个帧作为输入,然后使用二维卷积骨干网络进行处理来得到GIF中的各帧的特征映射。最后,特征提取模块使用全局平均池化(GAP)来做空间池化操作以此来减少特征图的空间维数。最终第i个GIF样本中的T个帧的特征表示可以形式化地表示为Xi∈RT×C,其中C是特征通道的数目,Xi为第i个GIF样本中的T 个帧的特征表示,R为实数。
(2)时域注意力池化网络
相较于仅仅将一整个特征序列转换成一个特定的表示,注意力机制使模型能够关注 GIF动图中最重要的帧。因此,本发明实施例提出了基于时域注意力池化网络来学习GIF动图中的各帧预测分数的权重。
正如图1中的模型整体架构所示,该层将特征提取模块提取得到的第i个GIF动图样本的特征Xi∈RT×C作为输入。首先,时域注意力池化网络使用一个单层的简单线性分类器来得到预测分数
Figure BDA0003018718050000051
(其表示对GIF动图中的T帧的K个分类预测数)。与此同时,注意力模块为每一帧计算权重(表示每一帧与GIF动图内容的相关性大小)。
权重
Figure BDA0003018718050000052
的计算为:
Figure BDA0003018718050000053
其中,
Figure BDA0003018718050000061
是注意力模块计算得到的第i个GIF动图样本中的第t个帧的权重。τ是温度系数(默认为0.1),m为帧的序号。
最终,校准得到的预测分数gi∈RK计算如下:
Figure BDA0003018718050000062
其中,
Figure BDA0003018718050000063
是第i个GIF动图样本中的第t个帧的预测分数。
所提出的基于时域注意力池化网络配置有一个两层的MLP(多层感知机)与一个Dropout(防止过拟合)层。因此基于时间注意力的池化网络能够与特征提取模块以一种端到端的行为一起进行训练。
其中,MLP层与Dropout层均为池化网络中的公知技术,本发明实施例对此不做赘述。
(3)熵损失正则化
虽然注意力模块可以加重对关键帧的权重,但是网络仍然有可能产生扁平的注意力分布。为了加强网络对关键帧的关注,本发明实施例提出了使用额外的熵正则化来锐化注意力分布。熵正则化项定义为:
Figure BDA0003018718050000064
其中,N是GIF动图的数量。
因为独热分布(本领域公知的技术术语)有最小的熵,所以基于时域注意力池化网络模型将会只关注GIF动图中与内容标签最相关的几个关键帧以此来提升模型分类的性能。
(4)总体损失函数
最后模型输出的结果使用交叉熵损失来评估,用于K个分类、N个样本的交叉熵损失函数定义为:
Figure BDA0003018718050000065
其中,yij与gij是真实的内容标签与模型所预测的分数,j为第j个类别,l为类别编号,gil为第i帧第l类的预测分数。
为了使基于时域注意力池化网络更加容易被优化,更近一步地在基于时域注意力池化网络模型为每一帧做分类时加入辅助监督的方式。
辅助损失函数定义为:
Figure BDA0003018718050000071
其中,Sij为第i帧第j类的预测分数,Sil为第i帧第l类的预测分数。
因此,模型的总体损失为:
L=γ1Lce2Laux3Lent (6)
其中,γ1,γ2与γ3为扩展因子。
本发明实施例所提出的基于时域注意力卷积池化网络就按照上述的过程使用WGIF数据集进行训练。
按照上述所描述的模型架构,训练基于时域注意力池化网络模型的方法为输入WGIF 数集中的数据,由模型输出预测的分数,最后通过定义的损失层(即上述公式(6))计算得到网络的损失来更新网络中的参数由此训练网络。
一、模型的使用细节(训练与测试)
将WGIF数据集随机地划分为训练集、验证集与测试集(比例为70%、10%与20%)。为了对模型采用mini-batch的训练方法以及对数据进行增强,随机选取了GIF动图中的8帧(GIF动图如果少于8帧就拿第一帧或最后一帧进行填充),然后将GIF动图中的帧改变为224*224的大小使处理过后的数据样本为原样本大小的0.8到1之间。使用ResNet50 作为骨干网络融入本发明所提出的模型并且将扩展因子设置为γ1=0.8,γ2=0.2与γ3=0.02。所有的网络均通过Pytorch实现并且使用SGD优化方法(动量设置为0.9,更新权重为0.0001),batch size设置为48。实验在3个GTX1080Ti的GPU上实现,学习率的初始权重设置为0.001。模型的训练过程一直持续到模型的性能在验证集上不再有变化。
二、实验结果分析
由于动图GIF是一种特殊的媒体格式介于视频与静态图片之间,各类基于图像与基于视频的分类方法可以用作为baseline方法,包括:
ResNet50、3D ResNet50、ResNet50-LSTM与ResNet50-AveragePooling等方法。
表1为本方法与baseline方法结果的对比。可以看到本方法的性能要显著地优于所列举的baseline方法。尤其是,LSTM-,AveragePooling-和Attention-based的多帧模型能够给 RSNet50模型带来极大的性能提升,说明GIF动图中的多帧信息有助于动图内容分类。然而,基于3D卷积的视频分类模型性能并不是很好。这是因为WGIF数据集中包含大量GIF 动图来源于离散图像的聚合。LSTM-based序列模型性能不如average-based方法的性能进一步说明了上述观点。从表1中可以看出,本方法能够明显提升average-based方法的性能。这是因为本方法所提出的时域注意力池化网络能够捕捉GIF动图中与内容标签最相关的关键帧。
表1 本方法与其他方法在WGIF数据集上的性能对比
Approach Top-1acc
ResNet50 68.01%
3D ResNet50 59.785
ResNet50-LSTM 72.11%
ResNet50-AveragePooling 72.35%
ResNet50-Attention(Ours) 74.31%
为了更近一步验证时域注意力池化网络的有效性,本方法将WGIF数据集中的一些样例进行注意力权重的可视化。如图3所示,注意力机制成功地使网络关注GIF动图中的最关键的几帧。
为了评估本方法的各个模块的有效性,本发明实施例在WGIF数据集上进行了消融实验,实验结果如表2所示。
表2 WGIF数据集上消融研究结果
Figure BDA0003018718050000081
同average pooling方法进行对比,本发明通过采用时域注意力池化网络将内容分类的性能提高了1.2%。通过进一步使用额外的熵损失,模型的性能进一步提高了0.24%。若加入每一帧的辅助监督训练方式,模型的性能能够提升到0.28%,实验结果表明仅仅使用单个GIF-level的内容标签对模型来说是很难学习的。最后将本方法中的每一个模块都使用上,模型的性能能够达到74.31%,这说明了本发明所提出的模型中各个模块的有效性。
第二方面,本发明实施例提供了一种基于时域注意力池化网络的动画GIF分类装置,参见图4该装置包括:
构建模块1,用于构建网络动图数据集,并构建一动画GIF内容分类模型,所述内容分类模型包括:特征提取、时域注意力池化网络与损失层;
获取模块2,用于通过所构建的网络动图数据集训练所述内容分类模型,对输出结果使用交叉熵损失评估,为每一帧做分类时加入辅助监督的方式,获取所述内容分类模型的总体损失函数;
动画分类模块3,用于基于所述总体损失函数捕捉动图中与内容标签最相关的关键帧,实现动画分类。
在一种实施方式中,参见图5,该构建模块1包括:
网络动图数据集子模块11,用于构建网络动图数据集;
动画GIF内容分类子模块12,用于构建一动画GIF内容分类模型,该子模块12包括:特征提取子模块、时域注意力池化网络与损失层;
其中,特征提取用于将第i个GIF样本中的T个帧作为输入,使用二维卷积骨干网络进行处理得到GIF中的各帧的特征映射;
通过空间池化操作减少特征图的空间维数,特征表示形式化地表示为Xi∈RT×C,其中 C是特征通道的数目,Xi为第i个GIF样本中的T个帧的特征表示,R为实数。
其中,时域注意力池化网络使用一单层的线性分类器得到预测分数,注意力模块为每一帧计算权重,基于权重得到最终的预测分数;网络还配置有两层的多层感知机与一个防止过拟合层。
这里需要指出的是,以上实施例中的装置描述是与上述方法实施例描述相对应的,本发明实施例在此不做赘述。
上述各个模块、单元的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
基于同一发明构思,本发明实施例还提供了一种基于时域注意力池化网络的动画GIF 分类装置,参见图6,该装置包括:处理器4和存储器5,存储器5中存储有程序指令,处理器4调用存储器5中存储的程序指令以使装置执行实施例中的以下方法步骤:
构建网络动图数据集,并构建一动画GIF内容分类模型,内容分类模型包括:特征提取模块、时域注意力池化网络与损失层;
通过所构建的网络动图数据集训练所述内容分类模型,对输出结果使用交叉熵损失评估,为每一帧做分类时加入辅助监督的方式,获取所述内容分类模型的总体损失函数;
基于所述总体损失函数捕捉动图中与内容标签最相关的关键帧,实现动画分类。
在一种实施方式中,网络动图数据集为:
动图中大多数的帧与真实的内容标签无关、数据集中包含全面且多样的动图内容、且动图的空间大小和序列长度跨度;数据集中类别存在不平衡性。
在一种实施方式中,特征提取模块为:
将第i个GIF样本中的T个帧作为输入,使用二维卷积骨干网络进行处理得到GIF中的各帧的特征映射;
通过空间池化操作减少特征图的空间维数,特征表示形式化地表示为Xi∈RT×C,其中 C是特征通道的数目,Xi为第i个GIF样本中的T个帧的特征表示,R为实数。
在一种实施方式中,时域注意力池化网络为:
使用一单层的线性分类器得到预测分数,注意力模块为每一帧计算权重,基于权重得到最终的预测分数;
网络还配置有两层的多层感知机与一个防止过拟合层。
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
上述的处理器4和存储器5的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
存储器5和处理器4之间通过总线6传输数据信号,本发明实施例对此不做赘述。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于时域注意力池化网络的动画GIF内容分类方法,其特征在于,所述方法包括:
构建网络动图数据集,并构建一动画GIF内容分类模型,所述内容分类模型包括:特征提取模块、时域注意力池化网络与损失层;
通过所构建的网络动图数据集训练所述内容分类模型,对输出结果使用交叉熵损失评估,为每一帧做分类时加入辅助监督的方式,获取所述内容分类模型的总体损失函数;
基于所述总体损失函数捕捉动图中与内容标签最相关的关键帧,实现动画分类;
所述网络动图数据集为:
动图中大多数的帧与真实的内容标签无关、数据集中包含全面且多样的动图内容、且动图的空间大小和序列长度跨度;数据集中类别存在不平衡性;
所述特征提取模块为:
将第i个GIF样本中的T个帧作为输入,使用二维卷积骨干网络进行处理得到GIF中的各帧的特征映射;
通过空间池化操作减少特征图的空间维数,特征表示形式化地表示为Xi∈RT×C,其中C是特征通道的数目,Xi为第i个GIF样本中的T个帧的特征表示,R为实数;
所述时域注意力池化网络为:
使用一单层的线性分类器得到预测分数,注意力模块为每一帧计算权重,基于权重得到最终的预测分数;
所述网络还配置有两层的多层感知机与一个防止过拟合层;
所述总体损失函数为:
L=γ1Lce2Laux3Lent
其中,γ1,γ2与γ3为扩展因子,Lent为熵正则化项;Lce为交叉熵损失函数;Laux为辅助损失函数。
2.一种基于时域注意力池化网络的动画GIF分类装置,其特征在于,所述装置包括:
构建模块,用于构建网络动图数据集,并构建一动画GIF内容分类模型,所述内容分类模型包括:特征提取、时域注意力池化网络与损失层;
获取模块,用于通过所构建的网络动图数据集训练所述内容分类模型,对输出结果使用交叉熵损失评估,为每一帧做分类时加入辅助监督的方式,获取所述内容分类模型的总体损失函数;
动画分类模块,用于基于所述总体损失函数捕捉动图中与内容标签最相关的关键帧,实现动画分类;
所述构建模块包括:特征提取子模块,
用于将第i个GIF样本中的T个帧作为输入,使用二维卷积骨干网络进行处理得到GIF中的各帧的特征映射;
通过空间池化操作减少特征图的空间维数,特征表示形式化地表示为Xi∈RT×C,其中C是特征通道的数目,Xi为第i个GIF样本中的T个帧的特征表示,R为实数;
所述总体损失函数为:
L=γ1Lce2Laux3Lent
其中,γ1,γ2与γ3为扩展因子,Lent为熵正则化项;Lce为交叉熵损失函数;Laux为辅助损失函数。
3.一种基于时域注意力池化网络的动画GIF分类装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1所述的方法步骤。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1所述的方法步骤。
CN202110396335.XA 2021-04-13 2021-04-13 一种基于时域注意力池化网络的动图分类方法及装置 Active CN113221951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110396335.XA CN113221951B (zh) 2021-04-13 2021-04-13 一种基于时域注意力池化网络的动图分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110396335.XA CN113221951B (zh) 2021-04-13 2021-04-13 一种基于时域注意力池化网络的动图分类方法及装置

Publications (2)

Publication Number Publication Date
CN113221951A CN113221951A (zh) 2021-08-06
CN113221951B true CN113221951B (zh) 2023-02-17

Family

ID=77087031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110396335.XA Active CN113221951B (zh) 2021-04-13 2021-04-13 一种基于时域注意力池化网络的动图分类方法及装置

Country Status (1)

Country Link
CN (1) CN113221951B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114972944B (zh) * 2022-06-16 2023-10-27 中国电信股份有限公司 视觉问答模型的训练方法及装置、问答方法、介质、设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599824A (zh) * 2016-12-09 2017-04-26 厦门大学 一种基于情感对的gif动画情感识别方法
CN109145712A (zh) * 2018-06-28 2019-01-04 南京邮电大学 一种融合文本信息的gif短视频情感识别方法及系统
CN110147763A (zh) * 2019-05-20 2019-08-20 哈尔滨工业大学 基于卷积神经网络的视频语义分割方法
CN110532911A (zh) * 2019-08-19 2019-12-03 南京邮电大学 协方差度量驱动小样本gif短视频情感识别方法及系统
CN112016406A (zh) * 2020-08-07 2020-12-01 青岛科技大学 一种基于全卷积网络的视频关键帧提取方法
CN112233655A (zh) * 2020-09-28 2021-01-15 上海声瀚信息科技有限公司 一种提高语音命令词识别性能的神经网络训练方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985538A (zh) * 2020-07-27 2020-11-24 成都考拉悠然科技有限公司 基于语义辅助注意力机制的小样本图片分类模型及方法
CN112257567B (zh) * 2020-10-20 2023-04-07 浙江大华技术股份有限公司 行为识别网络的训练、行为识别方法及相关设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599824A (zh) * 2016-12-09 2017-04-26 厦门大学 一种基于情感对的gif动画情感识别方法
CN109145712A (zh) * 2018-06-28 2019-01-04 南京邮电大学 一种融合文本信息的gif短视频情感识别方法及系统
CN110147763A (zh) * 2019-05-20 2019-08-20 哈尔滨工业大学 基于卷积神经网络的视频语义分割方法
CN110532911A (zh) * 2019-08-19 2019-12-03 南京邮电大学 协方差度量驱动小样本gif短视频情感识别方法及系统
CN112016406A (zh) * 2020-08-07 2020-12-01 青岛科技大学 一种基于全卷积网络的视频关键帧提取方法
CN112233655A (zh) * 2020-09-28 2021-01-15 上海声瀚信息科技有限公司 一种提高语音命令词识别性能的神经网络训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AdaScan:Adaptive Scan Pooling in Deep Convolutional Neural Networks for Human Action in Videos;Amlan Kar 等;《arXiv》;20170625;正文第3节 *

Also Published As

Publication number Publication date
CN113221951A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN111177575B (zh) 一种内容推荐方法、装置、电子设备和存储介质
Tian et al. Multimodal deep representation learning for video classification
CN108537269B (zh) 一种弱交互式的物体检测深度学习方法及其系统
Shih et al. MSTN: Multistage spatial-temporal network for driver drowsiness detection
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN110321805B (zh) 一种基于时序关系推理的动态表情识别方法
CN111539290A (zh) 视频动作识别方法、装置、电子设备及存储介质
JP7283836B2 (ja) マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム
CN112085120B (zh) 多媒体数据的处理方法、装置、电子设备及存储介质
WO2019242453A1 (zh) 信息处理方法及装置、存储介质、电子装置
Chatfield et al. Efficient on-the-fly category retrieval using convnets and GPUs
CN115830392A (zh) 基于改进的YOLOv5的学生行为识别方法
CN116703857A (zh) 一种基于时空域感知的视频动作质量评价方法
Wang et al. Assessing action quality via attentive spatio-temporal convolutional networks
CN112101344A (zh) 一种视频文本跟踪方法及装置
Liu et al. Student behavior recognition from heterogeneous view perception in class based on 3-D multiscale residual dense network for the analysis of case teaching
Lin et al. An analysis of English classroom behavior by intelligent image recognition in IoT
Lei et al. Temporal attention learning for action quality assessment in sports video
Xinhan Intelligent analysis of classroom student state based on neural network algorithm and emotional feature recognition
CN113221951B (zh) 一种基于时域注意力池化网络的动图分类方法及装置
WO2023050143A1 (zh) 一种推荐模型训练方法及装置
Chen et al. STRAN: Student expression recognition based on spatio-temporal residual attention network in classroom teaching videos
CN113657272A (zh) 一种基于缺失数据补全的微视频分类方法及系统
CN117009621A (zh) 信息搜索方法、装置、电子设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant