CN113139468B - 融合局部目标特征与全局特征的视频摘要生成方法 - Google Patents

融合局部目标特征与全局特征的视频摘要生成方法 Download PDF

Info

Publication number
CN113139468B
CN113139468B CN202110444672.1A CN202110444672A CN113139468B CN 113139468 B CN113139468 B CN 113139468B CN 202110444672 A CN202110444672 A CN 202110444672A CN 113139468 B CN113139468 B CN 113139468B
Authority
CN
China
Prior art keywords
target
video
features
local
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110444672.1A
Other languages
English (en)
Other versions
CN113139468A (zh
Inventor
杜友田
张光勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110444672.1A priority Critical patent/CN113139468B/zh
Publication of CN113139468A publication Critical patent/CN113139468A/zh
Application granted granted Critical
Publication of CN113139468B publication Critical patent/CN113139468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种融合局部目标特征与全局特征的视频摘要生成方法,提取视频的局部目标特征,所述局部目标特征中包含目标的视觉特征、目标的运动轨迹特征以及目标的类别标签特征;利用注意力机制构建局部目标特征融合网络,输入所述局部目标特征得到融合局部目标特征;利用编码‑解码框架中的编码器从视频中抽取得到视频的全局特征,并将所述融合局部特征引入编码‑解码框架,融合视频的全局特征信息与局部目标特征信息,获得表现力更加丰富的表征向量,再根据该表征向量解码出相应的摘要语句。本发明为编码‑解码框架的视频摘要生成模型引入了视频局部目标特征,丰富表征特征的视觉表现力,进而优化最终的文本生成,实现基于输入视频生成相关的语义文本描述。

Description

融合局部目标特征与全局特征的视频摘要生成方法
技术领域
本发明属于人工智能以及计算机视觉和自然语言处理技术领域,涉及视频理解与视频摘要生成,特别涉及一种融合局部目标特征与全局特征的视频摘要生成方法。
背景技术
随着人工智能技术在计算机视觉领域和自然语言处理领域的不断发展与成熟,上述领域的交叉任务——视频摘要生成任务逐渐成为人工智能领域的研究热点之一。视频摘要生成任务是指,给定一段视频,利用计算机生成一段文字,用于描述视频中的内容(目前以英文为主),进而达到理解视频内容的目的。视频摘要生成任务是视频理解任务的一个重要分支。视频理解技术在生活中有着广泛的应用价值,在互联网领域,视频理解技术具有视频搜索、视频摘要、无意义直播识别、视频重点识别等应用;在安防领域,视频理解技术具有暴恐识别、异常事件识别、人车分析等应用;在机器人领域,视频理解技术具有导航、定位、抓取等应用;在扶残助残方面,视频理解技术具有对盲人进行导航,将电影或短视频描述给盲人等应用。
视频摘要生成一方面需要考虑如何有效的从视频中抽取特征,从而可以利用这些特征充分理解并表示视频的内容,另一方面也需要考虑如何利用抽取后的视觉特征去匹配文本语料库,进而去生成与视频匹配的文本描述。视频摘要生成任务的最终目的是为了打破视觉与语言之间的鸿沟。近年来,以数据驱动的深度学习方法成为解决视频摘要生成问题的主流方法。该方法利用编码-解码架构,编码器用于抽取视频中的特征信息,解码器则用于生成合理的表述。
专利CN112468888A公开了一种基于GRU网络的视频摘要生成方法,通过在Seq2Seq模型中引入GRU网络单元,使模型在处理视频帧序列时能最大程度保留帧与帧之间的长距离影响因素,同时减少模型的参数,有效减少了模型的计算量。专利CN108966042A公开了一种基于最短路径的视频摘要生成方法,通过构建有向图,结合有向图与最短路径算法计算得到最短路径,从而获得路径上的关键帧并根据关键帧生成视频摘要。专利CN109743642A公开了一种基于分层循环神经网络的视频摘要生成方法,通过利用多层LSTM网络,解决了长时序视频摘要生成问题。专利CN110933518A公开了一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,通过利用卷积多层注意力机制更准确地反映查询相关的视频视觉特征,产生更加符合的视频摘要。专利CN107222795A公开了一种多特征融合的视频摘要生成方法,通过为不同视频片段分配不同的重要性系数筛选出一个优化的视频片段子集,再以该子集为基础实现视频摘要的合成。
由此可见,当前视频摘要生成方法主要是通过编码器抽取视频中关键的全局特征生成可以反映视频内容的表征特征,进而使用解码器通过对表征特征进行解码获得描述性的语句。但是,现存的方法忽视了视频中局部目标特征,同时也忽视了目标间的交互关系,因此生成的表征特征缺乏足够的视觉表现力。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种融合局部目标特征与全局特征的视频摘要生成方法,旨在为编码-解码框架的视频摘要生成模型引入视频中的局部目标特征,丰富表征特征的视觉表现力,进而优化最终的文本生成,实现基于输入视频生成相关的语义文本描述。
为了实现上述目的,本发明采用的技术方案是:
一种融合局部目标特征与全局特征的视频摘要生成方法,包括:
步骤1,提取视频的局部目标特征,所述局部目标特征中包含目标的视觉特征、目标的运动轨迹特征以及目标的类别标签特征;
步骤2,利用注意力机制构建局部目标特征融合网络,输入所述局部目标特征得到融合局部目标特征;
步骤3,利用编码-解码框架中的编码器从视频中抽取得到视频的全局特征,并将所述融合局部特征引入编码-解码框架,融合视频的全局特征信息与局部目标特征信息,获得表现力更加丰富的表征向量,再根据该表征向量解码出相应的摘要语句。
与现有技术相比,本发明的有益效果是:
1、本发明利用目标检测模型Faster R-CNN,设计了基于视频媒介的目标特征提取网络,能够获得对视频局部目标细粒度信息的理解,并将提取到的局部目标特征信息拓展到视频摘要生成框架中,进而提升模型的性能。
2、本发明基于互联网上大规模视频数据和文本数据,令计算机自动获取视频数据中的局部目标特征,并构建局部目标特征与文本数据中对应单词的联系,优化摘要生成。
3、本发明局部目标特征的引入有利于丰富编码特征的表现力,进而生成细节更加丰富的摘要描述。
附图说明
图1是本发明融合局部目标特征与全局特征的视频摘要生成流程图。
图2是本发明视频局部特征提取流程图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明为一种融合局部目标特征与全局特征的视频摘要生成方法,包括:
步骤1,提取视频的局部目标特征
局部目标特征中包含目标的视觉特征、目标的运动轨迹特征以及目标的类别标签特征,参考图2,局部目标特征的提取具体包括:
步骤1.1,对原始视频数据,根据视频场景进行分割与采样,获得图片集合。
由于视频中通常包含多个场景,且不同场景间的目标并不存在时序关系,因此多个复杂的场景是将以图片为媒介的目标检测模型引入到视频中的重要障碍。针对不同场景下的特征,其本身不具有时间连续性,因此需要将原始视频数据按照场景进行分割,本实施例中,该过程通过帧间差分法得以实现。
首先,对当前图片与上一帧的图片进行灰度化处理,将三通道图片转化为单通道图片;其次,在像素尺度上对两张单通道图片做差,获得帧间差分后的灰度图,并对得到的灰度图进行二值化,此处取阈值=60,即若两帧相邻图片在相同位置上像素差值大于60(0~255),则认为该像素点是存在差异的;然后,使用腐蚀膨胀算法增强图像,消除局部颗粒噪声,并使用高斯模糊柔化目标边界;最后,统计差分图中差异像素的数量,取差异像素极值处拆分视频。
针对视频媒介在单一场景下相邻帧的图像所包含内容相似的特点,为了避免冗余信息,提升模型效率,本实施例中,通过每隔3帧提取1帧的方法,对视频进行下采样,得到图片集合P。
步骤1.2,在相同场景下,使用经过预训练的目标检测网络对图片集合P中的每张图片进行目标定位与特征提取。
本实施例中预训练的目标检测网络为经过数据集MS-COCO预训练过的目标检测模型Faster R-CNN网络,对每一个概率大于50%的目标抽取其输出特征foutput和时序关联构造特征fconnect
其中,输出特征foutput用于记录目标局部信息,传递给后续神经网络,构成如式(1)所示:
foutput i,j={fvisual,fposition,flabel}   (1)
其中foutput i,j表示第i个采样帧中第j个目标的输出特征,fvisual是目标的视觉特征,为目标图片经过Faster R-CNN网络conv7层后的2048维的特征向量;fposition是目标的位置变化特征,为目标在整个图片中的位置坐标,即一个4维向量;flabel是目标的类别标签特征,由目标经过目标检测模型检测后的类别信息获得,是一个80维的One-Hot稀疏向量。
时序关联构造特征fconnect,用于记录为目标构造时序关系时所用到的特征信息,构成如式(2)所示:
fconnect i,j={fhist,fHOG,farea}   (2)
其中fconnect i,j表示第i个采样帧中第j个目标时序关联构造特征,fhist是目标的颜色特征,为目标区域的RGB三通道经过颜色直方图统计后的3*128维的向量;fHOG是目标的纹理特征,为目标区域通过HOG算法提取的方向梯度直方图后的256维向量;farea代表目标区域的面积。
本发明定义不同时刻两个目标的交叠程度如式(3)所示:
Figure BDA0003036361240000051
xt1,xt2分别表示t1时刻的某个目标区域与t2时刻的某个目标区域。
通过上述操作可以获得一系列输出特征foutput和时序关联构造特征fconnect,但由于是分别对图片进行特征提取的,因此不同的目标间不存在任何关联。
步骤1.3,根据目标特征的相似度,利用聚类算法聚合相同的目标,进而构建目标的时序关系。
经过步骤1.2可以获得一系列相互独立的目标,本实施例定义目标相似度系数KSimilarity衡量目标间的相似程度,如式(4)所示:
Figure BDA0003036361240000052
KTexture为纹理相似度系数,由两区域间经过HOG算法提取出的向量的余弦相似度表示;fHOG i、fHOG j分别表示第i个目标区域与第j个目标区域的纹理特征;KColor为颜色相似度系数,由通过颜色直方图提取出的向量的余弦相似度获得;fhist,channel i、fhist,channel j分别表示第i个目标区域与第j个目标区域的颜色特征,其中channel代表着图片R、G、B三通道;KIoU为交叠相似度系数,由交叠程度计算得出;farea i,farea j分别表示第i个目标区域与第j个目标区域的区域面积;Kclasses为类别相似度系数,由Faster R-CNN网络的输出的出,定义两目标若类别相似则为1,否则为0;α为超参数,由实验得出其取0.4。
针对离散的目标,使用聚类的方法构造相同目标间的时间序列关系,本实施例利用K-means的思想:首先,对聚类组集合进行初始化,设定第一张图片的每一个目标为一个组的中心;其次,在时刻t的第k个目标Ot,k与聚类组集合的每一个子集去判断是否满足同一目标前置条件,若满足则计算KSimilarity,否则创建一个全新的组;然后,选取KSimilarity最大的组,目标Ot,k被添加至该组完成聚合,并更新目标Ot,k的时序关联构造特征fconnect为该组新的组特征;最后,标记该组,该组不会在时刻t进行KSimilarity计算,而是进入休眠状态;重复上述步骤最终完成所有时刻的目标的聚合。通过上述操作,将相同目标的特征聚合在一起,进而构建出相同目标的时间序列关系。
步骤1.4,消除视频中出现时间短于设定值的目标和噪声,从而获得视频中主要目标的特征。
在目标时序关系构造的过程中,由于目标检测模型的错误,或是由于某些在视频中突然出现又突然消失的物体,从而导致有些目标只包含很少的输出特征。满足上述条件的类目标被定义为噪声,或干扰目标。噪声携带少量或错误的信息,其对视频描述生成产生很小甚至负面的影响。针对噪声出现时间短,输出特征少的特点,若某一目标在视频下采样后的集合中出现次数小于10次,则认为该目标为噪声,在特征集合中舍弃该目标所对应的特征。
步骤1.5,通过使用最大池化网络和自编码解码器,对齐目标特征,获得视频中定长的局部目标特征。
由于不同目标在视频中出现时间长度的差异,从而导致目标集合中的目标输出向量维度不固定的问题。本实施例中,对fvisual和flabel使用最大池化网络对齐向量维度;对fposition使用基于LSTM网络的自编码解码器对齐向量维度,最终获得如式(5)所示的视频中固定长度的局部目标特征:
Figure BDA0003036361240000071
O为从视频中抽取的目标集合;oi为视频中的抽取到的第i个目标;fvisual i是第i个目标的视觉特征;fposition i是第i个目标的位置变化特征;flabel i是第i个目标的类别标签特征。
步骤2,利用注意力机制构建局部目标特征融合网络,输入所述局部目标特征得到融合局部目标特征。
通过步骤1提取视频的局部目标特征,可以得到若干个经过筛选后的局部目标特征,每个局部目标特征分别包含三类不同的特征信息。在每一个单词生成时,针对神经网络对每一个目标关注度的差异,及对目标不同特征关注度的差异,利用注意力机制构造出不同目标的权重分配算法。
本实施例中,使用乘性注意力机制构建两层的局部目标特征融合网络,得到不同目标不同类别的特征与控制注意力模块的LSTM网络之间的关系,局部目标特征融合网络的构建方法如下:
第一层注意力机制:
针对相同特征间不同目标的关注度差异,生成一个注意力权重系数α,权重系数α由该目标所包含的特征与上一时刻控制注意力模块的LSTM网络的隐藏层状态特征计算得出,权重系数α越大,意味着在当前时刻下控制注意力模块的LSTM网络对该目标有着更大的关注度,即该目标所蕴含的特征与当前控制注意力模块的LSTM网络状态越相关。式(6)展示出权重系数α的计算公式:
Figure BDA0003036361240000081
式中,ai m为产生第i个单词时第m个目标的特征的注意力权重系数,fm为视频中第m个目标的特征,由于三种特征使用相同的注意力机制,其模型结构相同,差别仅为W和wa参数的不同。因此fm代之三种特征,即fm=fvisual m或fposition m或flabel m,fvisual m是第m个目标的视觉特征,fposition m第m个目标的位置变化特征,flabel m第m个目标的类别标签特征,W为全连接层变换矩阵,其参数通过训练学习获得,hi-1 atten为产生第i-1个单词时的控制注意力模块的LSTM网络的隐藏层的状态特征,αi m为经过softmax归一化后的注意力权重系数,wa为注意力权重的维度变化矩阵,ci p为产生第i个单词时将N个目标通过注意力机制进行特征融合的结果,N为输入的目标的个数;
通过上式计算得到多目标单位在视觉特征上的融合特征ci visual,在位置变化轨迹上的融合特征ci position和在目标类别上的融合特征ci label
在生成不同单词时,控制注意力模块的LSTM网络对于不同类型特征的响应也是不同的。为了表述其对不同类别特征的关注度差异,如式(7)所示设计了第二层注意力机制。
Figure BDA0003036361240000082
式中,ci为产生第i个单词时,融合了视觉特征、位置变化特征和类别特征的融合局部目标特征,是所有目标的特征进行加权融合的结果,目标的权重是通过注意力机制计算所的。目标特征所对应的权重系数越大,意味着其自身特征在融合特征ci中占比越大,即反应出该目标越重要。
Figure BDA0003036361240000083
为不同类别融合特征的权重系数,
Figure BDA0003036361240000091
Figure BDA0003036361240000092
Figure BDA0003036361240000093
Figure BDA0003036361240000094
为视觉特征注意力权重系数,
Figure BDA0003036361240000095
为位置特征注意力权重系数,
Figure BDA0003036361240000096
为类别标签特征注意力权重系数,
Figure BDA0003036361240000097
为参数由训练学习获得的全连接层变换矩阵,wa为注意力权重的维度变化矩阵。
步骤2通过一个两层的乘性注意力机制网络,构建出不同目标不同类别的特征与解码器网络之间的关系。视频中所有的局部目标特征通过被赋予不同注意力权重的形式进行融合,而决定注意力权重的关键参数是产生上一个单词时解码器的隐藏层状态向量。随着描述生成的不断进行,隐藏层状态向量不断迭代,注意力权重也随着隐藏层状态向量的变化而不断发生变化,从而达到在生成不同单词时对不同目标,不同类别特征关注度间的差异。
步骤3,利用编码-解码框架中的编码器从视频中抽取得到视频的全局特征,并将所述融合局部特征引入编码-解码框架,融合视频的全局特征信息与局部目标特征信息,获得表现力更加丰富的表征向量,再根据该表征向量解码出相应的摘要语句。
本实施例中,视频的全局特征获取方式如下:
首先对视频进行均匀采样选取80张图片,进而使用经过ImageNet训练集预训练的ResNet-101作为卷积神经网络的主体结构提取出每张图片的特征图作为视频的全局静态特征A,并获得全局静态特征的均值
Figure BDA00030363612400000911
Figure BDA0003036361240000098
其次,对视频进行均匀切片成80个片段,使用经过kinetics训练集预训练的3D-ResNet提取每个片段的特征图作为视频的全局动态特征M,并获得全局动态特征的均值
Figure BDA0003036361240000099
Figure BDA00030363612400000910
之后,对全局静态特征
Figure BDA0003036361240000101
和全局动态特征
Figure BDA0003036361240000102
进行连接,从而得到视频的全局特征
Figure BDA0003036361240000103
式(8)与式(9)的全局特征抽取网络即编码-解码框架中的编码器,使用二维卷积神经网络抽取视频的全局静态特征
Figure BDA0003036361240000104
使用三维卷积神经网络抽取视频的全局动态特征
Figure BDA0003036361240000105
并将二者编码为一个定长的向量。
本发明的最后一步,是将得到的融合局部目标特征引入到编码-解码框架的解码器中,解码器采用双层LSTM网络搭建,第一层LSTM网络利用输入的视频全局特征构建步骤2注意力机制中的隐藏层向量;第二层LSTM网络则用于桥接视频融合局部目标特征和视频全局特征,共同生成表征向量;最后通过表征向量在词向量空间中的映射获得当前时刻下的词向量,最终转化为当前时刻输出的单词。
其中,更新注意力注意力控制LSTM网络即第一层LSTM网络的隐藏层状态向量hatten,该向量用于传递到所述局部目标特征融合网络中用于构建局部目标注意力,hatten计算方式可参考式(10):
Figure BDA0003036361240000106
式中,hi atten为i时刻注意力控制LSTM网络的隐藏层的状态向量,hi-1 atten为上一时刻即i-1时刻隐藏层的状态向量,hatten在解码的过程中不断迭代更新;
Figure BDA0003036361240000107
为视频的全局特征,由全局静态特征
Figure BDA0003036361240000108
和全局动态特征
Figure BDA0003036361240000109
连接得到,hi-1 lang为词语生成LSTM网络即第二层LSTM网络的隐藏层向量;
将ci传递到词语生成LSTM网络中产生相应的语意隐藏层状态向量htlang i,最终生成该时刻下的词向量Pi,如式(11):
Figure BDA00030363612400001010
式中,hi lang为产生第i个单词时解码器隐藏层状态向量,Wz为可训练的全连接层变换矩阵,用于将状态层向量映射到词向量空间,bz为可训练的偏置系数,[·;·]为级联操作。
最终,可生成一系列词向量,每个词向量都是整个词向量空间中的一个元素,代表着一个单词,通过不断更新LSTM网络的隐藏层状态去产生不同的词向量,最终生成一段描述性的语句,即视频摘要。

Claims (7)

1.一种融合局部目标特征与全局特征的视频摘要生成方法,其特征在于,包括:
步骤1,提取视频的局部目标特征,所述局部目标特征中包含目标的视觉特征、目标的运动轨迹特征以及目标的类别标签特征;
步骤2,利用注意力机制构建局部目标特征融合网络,输入所述局部目标特征得到融合局部目标特征;
步骤3,利用编码-解码框架中的编码器从视频中抽取得到视频的全局特征,并将所述融合局部特征引入编码-解码框架,融合视频的全局特征信息与局部目标特征信息,获得表现力更加丰富的表征向量,再根据该表征向量解码出相应的摘要语句;
所述步骤1中,对原始视频数据,根据视频场景进行分割与采样,获得图片集合;在相同场景下,使用经过预训练的目标检测网络对图片集合中的每张图片进行目标定位与特征提取;根据目标特征的相似度,利用聚类算法聚合相同的目标,进而构建目标的时序关系;消除视频中出现时间短于设定值的目标和噪声,从而获得视频中主要目标的特征;通过使用最大池化网络和自编码解码器,对齐目标特征,获得视频中定长的局部目标特征;
通过每隔3帧提取1帧的方法,对视频进行下采样,得到图片集合P,所述预训练的目标检测网络为经过数据集MS-COCO预训练过的目标检测模型Faster R-CNN网络,对每一个概率大于50%的目标抽取其输出特征foutput和时序关联构造特征fconnect,定义目标相似度系数KSimilarity衡量目标间的相似程度,并利用K-means的思想为相同目标构造时序关系;
所述步骤2中,使用乘性注意力机制构建两层的局部目标特征融合网络,得到不同目标不同类别的特征与控制注意力模块的LSTM网络之间的关系,局部目标特征融合网络的构建方法如下:
第一层注意力机制:
针对相同特征间不同目标的关注度差异,生成一个注意力权重系数α,权重系数α由该目标所包含的特征与上一时刻控制注意力模块的LSTM网络的隐藏层状态特征计算得出,计算公式如下:
ai m=fm·W·hi-1 atten
αi m=softmax(wa Tai m)
Figure FDA0004018173630000021
式中,ai m为产生第i个单词时第m个目标的特征的注意力权重系数,fm为视频中第m个目标的特征,fm=fvisual m或fposition m或flabel m,fvisual m是第m个目标的视觉特征,fposition m第m个目标的位置变化特征,flabel m第m个目标的类别标签特征,W为全连接层变换矩阵,其参数通过训练学习获得,hi-1 atten为产生第i-1个单词时的控制注意力模块的LSTM网络的隐藏层的状态特征,αi m为经过softmax归一化后的注意力权重系数,wa为注意力权重的维度变化矩阵,ci p为产生第i个单词时将N个目标通过注意力机制进行特征融合的结果,N为输入的目标的个数;
通过上式计算得到多目标单位在视觉特征上的融合特征ci visual,在位置变化轨迹上的融合特征ci position和在目标类别上的融合特征ci label
第二层注意力机制,计算公式如下:
Figure FDA0004018173630000022
Figure FDA0004018173630000023
式中,ci为产生第i个单词时,融合了视觉特征、位置变化特征和类别特征的融合局部目标特征,
Figure FDA0004018173630000024
为不同类别融合特征的权重系数,
Figure FDA0004018173630000025
Figure FDA0004018173630000026
Figure FDA0004018173630000027
为视觉特征注意力权重系数,
Figure FDA0004018173630000028
为位置特征注意力权重系数,
Figure FDA0004018173630000029
为类别标签特征注意力权重系数,
Figure FDA00040181736300000210
为参数由训练学习获得的全连接层变换矩阵,wa为注意力权重的维度变化矩阵。
2.根据权利要求1所述融合局部目标特征与全局特征的视频摘要生成方法,其特征在于,通过帧间差分法对原始视频数据进行分割,方法如下:
首先,对当前图片与上一帧的图片进行灰度化处理,将三通道图片转化为单通道图片;
其次,在像素尺度上对两张单通道图片做差,获得帧间差分后的灰度图,并对得到的灰度图进行二值化;
然后,使用腐蚀膨胀算法增强图像,消除局部颗粒噪声,并使用高斯模糊柔化目标边界;
最后,统计差分图中差异像素的数量,取差异像素极值处拆分视频。
3.根据权利要求1所述融合局部目标特征与全局特征的视频摘要生成方法,其特征在于,所述输出特征foutput用于记录目标局部信息,传递给后续神经网络,foutput i,j={fvisual,fposition,flabel},其中foutput i,j表示第i个采样帧中第j个目标的输出特征,fvisual是目标的视觉特征,为目标图片经过Faster R-CNN网络conv7层后的2048维的特征向量;fposition是目标的位置变化特征,为目标在整个图片中的位置坐标,即一个4维向量;flabel是目标的类别标签特征,由目标经过目标检测模型检测后的类别信息获得,是一个80维的One-Hot稀疏向量;
所述时序关联构造特征fconnect,用于记录为目标构造时序关系时所用到的特征信息,fconnect i,j={fhist,fHOG,farea},其中fconnect i,j表示第i个采样帧中第j个目标时序关联构造特征,fhist是目标的颜色特征,为目标区域的RGB三通道经过颜色直方图统计后的3*128维的向量;fHOG是目标的纹理特征,为目标区域通过HOG算法提取的方向梯度直方图后的256维向量;farea代表目标区域的面积;
定义交叠程度为:
Figure FDA0004018173630000031
xt1,xt2分别表示t1时刻的某个目标区域与t2时刻的某个目标区域
所述目标相似度系数KSimilarity公式如下:
KSimilarity=KTexture+KColor+KIoU+αKclasses
Figure FDA0004018173630000041
Figure FDA0004018173630000042
KIoU=IoU(farea i,farea j)
其中KTexture为纹理相似度系数,由两区域间经过HOG算法提取出的向量的余弦相似度表示;fHOG i、fHOG j分别表示第i个目标区域与第j个目标区域的纹理特征;KColor为颜色相似度系数,由通过颜色直方图提取出的向量的余弦相似度获得;fhist,channel i、fhist,channel j分别表示第i个目标区域与第j个目标区域的颜色特征,其中channel代表着图片R、G、B三通道;KIoU为交叠相似度系数,由交叠程度计算得出;farea i,farea j分别表示第i个目标区域与第j个目标区域的区域面积;Kclasses为类别相似度系数,由Faster R-CNN网络的输出的出,定义两目标若类别相似则为1,否则为0;α为超参数,由实验得出其取0.4。
4.根据权利要求3所述融合局部目标特征与全局特征的视频摘要生成方法,其特征在于,所述为相同目标构造时序关系的方法为:
首先,对聚类组集合进行初始化,设定第一张图片的每一个目标为一个组的中心;
其次,在时刻t的第k个目标Ot,k与聚类组集合的每一个子集去判断是否满足同一目标前置条件,若满足则计算KSimilarity,否则创建一个全新的组;
然后,选取KSimilarity最大的组,目标Ot,k被添加至该组完成聚合,并更新目标Ot,k的时序关联构造特征fconnect为该组新的组特征;
最后,标记该组,该组不会在时刻t进行KSimilarity计算,而是进入休眠状态;
重复上述步骤最终完成所有时刻的目标的聚合。
5.根据权利要求4所述融合局部目标特征与全局特征的视频摘要生成方法,其特征在于,对fvisual和flabel使用最大池化网络对齐向量维度;对fposition使用基于LSTM网络的自编码解码器对齐向量维度,最终获得视频中固定长度的局部目标特征,表达式如下:
O={oi,i=1,2,3...}
oi={fvisual i,fposition i,flabel i}
Figure FDA0004018173630000051
Figure FDA0004018173630000052
Figure FDA0004018173630000053
O为从视频中抽取的目标集合;oi为视频中的抽取到的第i个目标;fvisual i是第i个目标的视觉特征;fposition i是第i个目标的位置变化特征;flabel i是第i个目标的类别标签特征。
6.根据权利要求1所述融合局部目标特征与全局特征的视频摘要生成方法,其特征在于,所述步骤3,将步骤2得到的融合局部目标特征引入到编码-解码框架的解码器中,解码器采用双层LSTM网络搭建,第一层LSTM网络利用输入的视频全局特征构建步骤2注意力机制中的隐藏层向量;第二层LSTM网络则用于桥接视频融合局部目标特征和视频全局特征,共同生成表征向量;最后通过表征向量在词向量空间中的映射获得当前时刻下的词向量,最终转化为当前时刻输出的单词。
7.根据权利要求6所述融合局部目标特征与全局特征的视频摘要生成方法,其特征在于,更新注意力控制LSTM网络即第一层LSTM网络的隐藏层状态向量hatten,该向量用于传递到所述局部目标特征融合网络中用于构建局部目标注意力;
Figure FDA0004018173630000054
式中,hi atten为i时刻注意力控制LSTM网络的隐藏层的状态向量,hi-1 atten为上一时刻即i-1时刻隐藏层的状态向量,hatten在解码的过程中不断迭代更新;
Figure FDA0004018173630000055
为视频的全局特征,由全局静态特征
Figure FDA0004018173630000061
和全局动态特征m连接得到,hi-1 lang为词语生成LSTM网络即第二层LSTM网络的隐藏层向量;
将ci传递到词语生成LSTM网络中产生相应的语意隐藏层状态向量htlang i,最终生成该时刻下的词向量Pi,公式如下:
Figure FDA0004018173630000062
Pi=softmax(Wzhi lang+bz)
式中,hi lang为产生第i个单词时解码器隐藏层状态向量,Wz为可训练的全连接层变换矩阵,用于将状态层向量映射到词向量空间,bz为可训练的偏置系数,[·;·]为级联操作,最终生成一系列词向量,每个词向量都是整个词向量空间中的一个元素,代表着一个单词,通过不断更新LSTM网络的隐藏层状态去产生不同的词向量,最终生成一段描述性的语句,即视频摘要。
CN202110444672.1A 2021-04-24 2021-04-24 融合局部目标特征与全局特征的视频摘要生成方法 Active CN113139468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110444672.1A CN113139468B (zh) 2021-04-24 2021-04-24 融合局部目标特征与全局特征的视频摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110444672.1A CN113139468B (zh) 2021-04-24 2021-04-24 融合局部目标特征与全局特征的视频摘要生成方法

Publications (2)

Publication Number Publication Date
CN113139468A CN113139468A (zh) 2021-07-20
CN113139468B true CN113139468B (zh) 2023-04-11

Family

ID=76811856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110444672.1A Active CN113139468B (zh) 2021-04-24 2021-04-24 融合局部目标特征与全局特征的视频摘要生成方法

Country Status (1)

Country Link
CN (1) CN113139468B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113784199B (zh) * 2021-09-10 2022-09-13 中国科学院计算技术研究所 一种用于生成视频描述文本的系统、方法、存储介质与电子设备
CN114884703B (zh) * 2022-04-19 2023-02-28 南京航空航天大学 基于威胁情报和消息传递模型的高级持续性威胁检测方法
CN115984739B (zh) * 2022-12-20 2023-06-16 中国科学院空天信息创新研究院 一种用于视频预测的基于全局注意力指导的特征融合方法
CN116994176A (zh) * 2023-07-18 2023-11-03 西北工业大学 一种基于多维语义信息的视频关键数据提取方法
CN116842932B (zh) * 2023-08-30 2023-11-14 腾讯科技(深圳)有限公司 文本特征的解码方法和装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777059A (zh) * 2009-12-16 2010-07-14 中国科学院自动化研究所 一种提取地标性场景摘要的方法
CN111325323A (zh) * 2020-02-19 2020-06-23 山东大学 一种融合全局信息和局部信息的输变电场景描述自动生成方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760507B (zh) * 2016-02-23 2019-05-03 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN107943837B (zh) * 2017-10-27 2022-09-30 江苏理工学院 一种前景目标关键帧化的视频摘要生成方法
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN109190626A (zh) * 2018-07-27 2019-01-11 国家新闻出版广电总局广播科学研究院 一种基于深度学习的多路径特征融合的语义分割方法
CN109348287B (zh) * 2018-10-22 2022-01-28 深圳市商汤科技有限公司 视频摘要生成方法、装置、存储介质和电子设备
CN109522403B (zh) * 2018-11-05 2023-04-21 中山大学 一种基于融合编码的摘要文本生成方法
US11315354B2 (en) * 2018-12-24 2022-04-26 Samsung Electronics Co., Ltd. Method and apparatus that controls augmented reality (AR) apparatus based on action prediction
CN110084831B (zh) * 2019-04-23 2021-08-24 江南大学 基于YOLOv3多伯努利视频多目标检测跟踪方法
CN110472238B (zh) * 2019-07-25 2022-11-18 昆明理工大学 基于层级交互注意力的文本摘要方法
CN110933518B (zh) * 2019-12-11 2020-10-02 浙江大学 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
CN112489635B (zh) * 2020-12-03 2022-11-11 杭州电子科技大学 一种基于增强注意力机制的多模态情感识别方法
CN112488229B (zh) * 2020-12-10 2024-04-05 西安交通大学 一种基于特征分离和对齐的域自适应无监督目标检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777059A (zh) * 2009-12-16 2010-07-14 中国科学院自动化研究所 一种提取地标性场景摘要的方法
CN111325323A (zh) * 2020-02-19 2020-06-23 山东大学 一种融合全局信息和局部信息的输变电场景描述自动生成方法

Also Published As

Publication number Publication date
CN113139468A (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN113139468B (zh) 融合局部目标特征与全局特征的视频摘要生成方法
CN110097568B (zh) 一种基于时空双分支网络的视频对象检测与分割方法
Wang et al. Deep visual domain adaptation: A survey
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN112560432B (zh) 基于图注意力网络的文本情感分析方法
Ge et al. An attention mechanism based convolutional LSTM network for video action recognition
Sinha et al. Dibs: Diversity inducing information bottleneck in model ensembles
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN112528780A (zh) 通过混合时域自适应的视频动作分割
CN111783540B (zh) 一种视频中人体行为识别方法和系统
CN109743642B (zh) 基于分层循环神经网络的视频摘要生成方法
CN113780003B (zh) 时空数据变分编解码跨模态增强方法
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN112801068B (zh) 一种视频多目标跟踪与分割系统和方法
CN115690152A (zh) 一种基于注意力机制的目标追踪方法
Choo et al. Learning background subtraction by video synthesis and multi-scale recurrent networks
Cai et al. Underwater distortion target recognition network (UDTRNet) via enhanced image features
Guo et al. Domain adaptive semantic segmentation by optimal transport
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
Zhang et al. SOR-TC: Self-attentive octave ResNet with temporal consistency for compressed video action recognition
Zheng et al. Dcu-net: Self-supervised monocular depth estimation based on densely connected u-shaped convolutional neural networks
CN115457345A (zh) 一种利用基于Graphormer的上下文推理网络进行图片预测分类的方法
CN115311598A (zh) 基于关系感知的视频描述生成系统
CN111126310B (zh) 一种基于场景迁移的行人性别识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant