CN116450883A - 基于视频内容细粒度信息的视频时刻检索方法 - Google Patents

基于视频内容细粒度信息的视频时刻检索方法 Download PDF

Info

Publication number
CN116450883A
CN116450883A CN202310448759.5A CN202310448759A CN116450883A CN 116450883 A CN116450883 A CN 116450883A CN 202310448759 A CN202310448759 A CN 202310448759A CN 116450883 A CN116450883 A CN 116450883A
Authority
CN
China
Prior art keywords
video
feature
features
fine granularity
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310448759.5A
Other languages
English (en)
Inventor
何立火
李宇航
邓夏迪
王笛
高新波
路文
李洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202310448759.5A priority Critical patent/CN116450883A/zh
Publication of CN116450883A publication Critical patent/CN116450883A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

基于视频内容细粒度信息的视频时刻检索方法,包括以下步骤;步骤1,构建训练集和测试集,并选取原始视频;步骤2,对原始视频进行特征预提取,得到关键帧特征和帧内物体;步骤3,构建文本特征提取模块,使用预训练词嵌入模型来将查询语句映射到嵌入空间中,完成特征提取,并得到文本特征:步骤4,构建文本词性标注模块,标注查询语句中的名词;步骤5,构建跨模态特征融合模块,得到跨模态细粒度内容特征;步骤6,构建词义匹配模块,通过词义匹配生成相关性权重;步骤7,构建时刻检索指导模块计算整个视频对应的相关性内容细粒度特征。本发明通过目标检测网络提取视频中的细粒度信息,构建一个跨模态的检索模型,提高视频时刻检索准确性。

Description

基于视频内容细粒度信息的视频时刻检索方法
技术领域
本发明属于网络检索技术领域,具体涉及基于视频内容细粒度信息的视频时刻检索方法。
背景技术
近些年来,文本、图像和视频等多模态数据迅速增长。用户难以有效地搜索感兴趣的信息,同时也衍生了各种各样的搜索技术。传统的搜索技术主要是单一模态内检索,例如基于关键字的检索,主要是执行单一模态内容的相似性搜索。而随着互联网技术的发展和智能手机的普及,用户对于跨模态数据检索的要求越来越高。而跨模态视频检索技术便是其中的一项关键技术,通过给定自然语言描述的查询语句,在完整的视频中确定最符合描述语句的时间片段的起止时间。跨模态视频检索除了要挖掘视频中包含的丰富的视觉、文本和语音信息,还需要确定不同模态之间的内容相似性。现阶段的跨模态视频检索技术主要可以分为两大类:基于排序的方法和基于定位的方法。
基于排序的方法的核心在于对候选片段进行排序.特点是实施简单,易于解释和理解。进一步根据产生候选片段的过程可以分为预设候选片段的方法和有指导地生成候选片段的方法。前者是在无查询语句信息的情况下,手工切分视频生成候选片段,然后按照与查询语句的相关程度对它们进行排序。后者则以查询语句或视频本身为指导,首先利用模型排除掉大多数无关的候选片段,然后再对生成的候选片段排序。有指导地生成候选片段的方法大多使用了弱监督学习或强化学习。基于定位的这类方法不以候选视频片段为处理单位,而是以整个视频为处理单位,直接以片段时间点作为预测目标。由于该任务的特别性和复杂性,目前的跨模态视频时刻检索技术仍有很大的不足,返回的结果往往不太准确,精度仍然不能让用户满意。
申请公布号为CN202011575231,名称为“基于跨模态动态卷积网络的跨模态视频时刻检索方法”的专利申请,公开了一种基于跨模态动态卷积网络的跨模态视频时刻检索方法,该方法先构建基于注意力机制的层级视频特征提取模块和文本特征提取模块的网络结构,分别提取视频和文本的特征,然后采用跨模态融合机制对两种模态的特征进行融合,最后使用基于跨模态卷积神经网络的时刻定位模块完成时刻检索。该方法使用融合特征和文本特征来动态地生成卷积核,并使用基于跨模态卷积神经网络的时刻定位模块完成时刻检索。但该方法的不足之处在于没有充分提取视频和文本中的细粒度信息,同时无法将视频和文本中的细粒度信息匹配。从而导致检索的准确率和速度下降。
在人工进行视频时刻检索时,人们最直观确定视频内容的方法往往是对视频内物体进行分辨,同时对应上查询语句内的物体,再辨别视频中相关的动作是否与查询语句相关联,便可以大致确定查询时刻位置。这就说明查询数据中的细粒度信息,比如视频中存在哪些物体和语句描述中有哪些物体,对视频时刻检索会起到关键的作用。然而现有的很多视频时刻检索方法在处理细粒度内容时存在缺陷,往往没有很好地利用文本信息来帮助识别视频中的物体和动作。对于一个视频的描述语句,其中可能包含着一些关键词,这些关键词能够帮助确定视频中的物体和动作以及细粒度的信息,缺乏对这些信息的利用会导致视频时刻检索模型不能更好地分辨视频内容中的信息。
发明内容
为了克服以上现有技术存在的问题,本发明的目的在于提供基于视频内容细粒度信息的视频时刻检索方法,通过目标检测网络提取视频中的细粒度信息,构建一个跨模态的检索模型,能够提高视频时刻检索准确性。
为了实现上述目的,本发明采用的技术方案是:
基于视频内容细粒度信息的视频时刻检索方法,包括以下步骤;
步骤1,选取Charades-STA数据集构建训练集和测试集,并选取原始视频V;
步骤2,构建视频细粒度信息提取模块,使用YOLOv5目标检测网络对原始视频V进行特征预提取,得到原始视频V的关键帧特征FC和帧内物体OC
步骤3,构建文本特征提取模块,使用预训练词嵌入模型来将查询语句S映射到嵌入空间中,完成特征提取,并得到文本特征Q:
步骤4,构建文本词性标注模块,标注查询语句S中的名词H;
步骤5,构建跨模态特征融合模块,将步骤2中的视频关键帧FC特征和步骤3中的文本特征Q进行融合,得到跨模态细粒度内容特征Fa
步骤6,构建词义匹配模块,通过步骤2中的帧内物体Oc和步骤4中查询语句中提取的名词H,通过词义匹配生成相关性权重Y;
步骤7,通过跨模态内容细粒度特征Fa和相关性权重Y构建时刻检索指导模块计算整个视频对应的相关性内容细粒度特征FA
所述步骤1中,Charades-STA数据集是基于Charades数据集进行时间标注构建的,Charades数据集包括动作种类,视频和“查询,视频片段”对;在部分视频中,需要做结构化的复杂查询,即每个查询包含至少两个子句,并且“查询,视频片段”对时间跨度小于视频长度的一半。
所述步骤2具体为:
步骤2.1,对原始视频按照间隔τ帧进行等间隔采样,视频的总帧数为T,取出的关键帧图片为其中nc为取出的总帧数;
步骤2.2,使用YOLOv5目标检测网络提取关键帧特征FC和帧内物体OC
进一步的,步骤2.2.1,将关键帧图片C送入YOLOv5目标检测网络,主干网络采用CSPNet,通过将卷积分为两个阶段,并利用跨阶段的特征复用和信息融合减少模型的参数量和计算复杂度,提高了模型的速度和精度;通过主干网络得到19×19大小的特征图M1
步骤2.2.2,将特征图M1送入自顶向下特征金字塔结构,提取强语义特征,通过上采样输出特征图M2
步骤2.2.3,将特征图M2通过自底向上的特征金字塔结构,提取强定位特征,输出特征图M3
步骤2.2.4,将特征图M3作为三层卷积块的检测头,通过对三个不同尺度的特征进行操作来进行目标检测任务;网络输出帧内包含的帧内物体g为帧内物体的数量,同时在空间金字塔池化的输出得到多尺度关键帧特征F1 C,F2 C,和F3 C
所述步骤3具体为:
步骤3.1,使用GloVe预训练词嵌入模型将查询语句S映射到嵌入空间中,完成文本特征Q提取,文本特征Q提取的过程表示如下:
其中,m为句子中的单词数量,dq为提取出文本特征的维度,Q为文本特征,s为具体的查询语句,q为具体的文本特征。
所述步骤4具体为:
步骤4.1,使用NLTK将查询语句S分割为单独的单词;
步骤4.2,利用NLTK构建隐马尔可夫模型,通过词形还原,词汇消歧,对每个单词词性进行标注,提取出查询语句中的名词H={H1,...,Hu}作为与视频内容进行匹配的关键字,其中u为该语句中名词的数量。
所述步骤5具体为:
在步骤2中YOLOv5模型输出的三个内容特征F1 C,F2 C,和F3 C的大小分别为80×80×256、40×40×512和20×20×1024,文本特征Q的大小为m×dq,m为查询语句中单词数量,dq为文本特征维度;
步骤5.1,将文本特征Q在第一个维度进行填充对齐,将Q的大小转变为m'×dq,其中m'>m;
步骤5.2,对文本特征Q增加维度,并在第二维进行复制扩张,将文本特征Q的大小转化为m'×m'×dq的文本特征该过程可用如下公式表示:
步骤5.3,将多尺度关键帧特征F1 c,使用池化层将内容特征的大小转化为的特征/>该过程公式如下所示:
步骤5.4,对扩张后的文本特征分别使用三个输入大小为dq,输出大小为/>的全连接层进行维度变换,将文本特征Q变成了三个大小为/>的特征Qi′;
其中,FC()为全连接层操作;
步骤5.5,将内容特征和文本特征利用哈达玛积进行融合;
步骤5.6,对三个融合特征进行拼接,对拼接后的特征在通过全连接层进行特征提取和维度变换,进一步提升特征的表达能力,使得特征更具有区分度,最后得到长度为dv的一个跨模态细粒度内容特征Fa,dv为时刻检索网络中融合向量对应的维度,以上过程公式如下表示:
其中,FC()为全连接层操作。
所述步骤6具体为:
步骤6.1,计算词向量两两之间的余弦相似度;
其中w1w2为任意两个词向量,similarity(w1,w2)为相似度。
步骤6.2,对于帧内物体词组和语句中的名词/>其中g为帧内物体的数量,u为语句中名词的数量,通过计算平均相似度来计算两组词语键的相关性权重Y,具体的计算公式如下:
所述步骤7具体为:
步骤7.1,将步骤5中计算得到的跨模态内容细粒度特征Fa和相关性权重Y相乘,得到当前第i帧的用于指导时刻检索网络的相关性内容细粒度特征
其中nc为视频中关键帧的数量。
步骤7.2,将视频中所有关键帧的相关性内容细粒度特征进行拼接,得到整个视频对应的相关性内容细粒度特征FA
其中nc为视频中关键帧的数量;
步骤7.3,将内容细粒度特征FA通过双向门控循环单元,得到时刻定位的起始位置Tbegin和时刻定位的结束位置Tend
一种电子设备,包括处理器、存储器和通信总线,其中,处理器、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述所述的基于视频内容细粒度信息的视频时刻检索方法。
本发明的有益效果:
本发明充分提取视频中的细粒度特征,并通过词性标注,将关键帧与查询语句进行跨模态匹配。构建了基于视频内容细粒度信息的视频时刻检索模型。利用目标检测网络提取视频的细粒度特征,以及利用查询语句词性标注与视频关键帧物体的跨模态信息匹配方法。
本发明了提取视频中的细粒度信息,并通过关键帧匹配,相似度计算,降低了检索时长,实现了更高的视频时刻检索精度。
且本模型的可移植形强,通过和现有的基于无锚框方法的模型进行融合,可以显著提高模型的检测精度。
附图说明
图1为本发明流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细说明。
如图1所示:该发明采用基于视频细粒度信息的视频时刻检索模型实现。所述基于视频细粒度信息的视频时刻检索模型包括视频细粒度信息提取模块、文本特征提取模块、文本词性标注模块、特征融合模块、词义匹配模块和时刻检索指导模块,下面结合实例和附图1对本发明作进一步的详细描述。
步骤1,根据视频集和查询数据集构建训练集和测试集:
本实例选取在视频时刻检索领域通用且具有挑战性的两个数据集,Charades-STA数据集。其中,数据集的70%用作训练集,数据集的30%用于测试集,数据保证随机分配。
Charades-STA数据集是基于Charades数据集进行时间标注构建的,Charades数据集包括动作种类,视频和“查询,视频片段”对;在部分视频中,需要做结构化的复杂查询,即每个查询包含至少两个子句,并且“查询,视频片段”对时间跨度小于视频长度的一半。
步骤2,构建视频细粒度信息提取模块,使用目标检测网络对原始视频V进行特征预提取,得到视频的关键帧特征FC和帧内物体OC
本实例选取YOLOv5目标检测网络进行帧内特征提取和物体检测,该方法为单阶段目标检测模型,可以实现高效准确的实时目标检测。网络由主干网络、特征提取网络和检测头部组成,是当前主流的目标检测算法之一。
步骤2.1,对原始视频V,视频的总帧数为T,对视频按照间隔τ帧进行等间隔采样。取出的关键帧为其中nc为取出的总帧数。
步骤2.2,使用YOLOv5网络提取关键帧特征FC和帧内物体OC
步骤2.2.1将关键帧C送入目标检测网络,主干网络采用CSPNet,通过将卷积分为两个阶段,并利用跨阶段的特征复用和信息融合减少模型的参数量和计算复杂度,提高了模型的速度和精度。
步骤2.2.2特征提取网络采用的是空间金字塔池化结构,可以提取不同尺度的特征,从而更好地适应不同大小的目标物体。
步骤2.2.3在特征提取网络的输出上,采用一个三层卷积块的检测头,通过对三个不同尺度的特征进行操作来进行目标检测任务。
步骤2.2.4网络输出帧内包含的物体g为帧内物体的数量。同时在空间金字塔池化的输出得到多尺度关键帧特征F1 C,F2 C,和F3 C
步骤3,构建文本特征提取模块,使用预训练词嵌入模型来将查询语句S映射到嵌入空间中,完成特征提取,并得到文本特征Q:
本实例选取GloVe预训练词嵌入模型。GloVe模型是一种基于全局词频统计的词向量表示模型。该方法需要先构建共现矩阵,接着得到词向量和共现矩阵的近似关系,最后根据词向量表示的误差构造损失函数进行学习。通过对词向量的学习,GloVe模型便可以捕捉到单词间的语义关系,提取出查询语句S对应的文本特征Q。
步骤3.1使用GloVe预训练词嵌入模型将查询语句映射到嵌入空间中,完成特征提取。文本特征提取的过程表示如下:
其中,m为句子中的单词数量,dq为提取出文本特征的维度,Q为文本特征。
步骤4,构建文本词性标注模块,标注查询语句中的名词;
在本实例中,名词是查询语句中最具有实际意义的部分,它能够描述查询的对象和内容,而其他类型的词,如动词和形容词等,则更多地描述了对象的属性和行为。除此之外还存在着许多无关的词汇,增加了计算的复杂度并降低了检索效率。通过提取查询语句中的名词,可以更加准确地指导视频时刻检索模型,以便定位与查询语句相关的视频片段。
步骤4.1,使用NLTK将查询语句S分割为单独的单词;
步骤4.2,利用NLTK构建隐马尔可夫模型,通过词形还原,词汇消歧,对每个单词词性进行标注。提取出查询语句中的名词H={H1,...,Hu}作为与视频内容进行匹配的关键字,其中u为该语句中名词的数量;
步骤5,构建跨模态特征融合模块,将步骤2中的视频关键帧特征和步骤3中的文本特征进行融合。
这里利用不同尺度的特征与文本进行融合,不仅可以提高模型对视频内容的理解,还可以使模型更加通用,适应不同场景下的视频时刻检索任务。在步骤2中YOLOv5模型输出的三个内容特征F1 C,F2 C和F3 c的大小分别为80×80×256、40×40×512和20×20×1024,文本特征Q的大小为m×dq,m为查询语句中单词数量,dq为文本特征维度。
步骤5.1,将文本特征Q在第一个维度进行填充对齐,将Q的大小转变为m'×dq,其中m'>m。
步骤5.2,对文本特征Q增加维度,并在第二维进行复制扩张,将文本特征Q的大小转化为m'×m'×dq。该过程可用如下公式表示:
步骤5.3,将内容特征Fi c,使用池化层将内容特征的大小转化为该过程公式如下图所示:
步骤5.4,对扩张后的文本特征分别使用三个输入大小为dq,输出大小为/>的全连接层进行维度变换。将文本特征Q变成了三个大小为/>的特征Qi′。
步骤5.5,将内容特征和文本特征利用哈达玛积进行融合。
步骤5.6,将通过一个维度大小为32的自适应平均池化层,得到池化特征/>
步骤5.7,对三个融合特征进行拼接,对拼接后的特征在通过全连接层进行特征提取和维度变换,进一步提升特征的表达能力,使得特征更具有区分度。最后得到长度为dv的一个跨模态细粒度内容特征Fa,dv为时刻检索网络中融合向量对应的维度。以上过程公式如下表示:
步骤6,构建词义匹配模块,通过步骤2中的帧内物体Oc和步骤4中查询语句中提取的名词H,通过词义匹配生成相关性权重Y。
在本实例中,词义匹配采用的方法是gensim自然语言处理库中利用GloVe模型的词向量相似度计算方法。
步骤6.1,计算词向量两两之间的余弦相似度。
步骤6.2,对于帧内物体词组和语句中的名词/>(其中g为帧内物体的数量,u为语句中名词的数量。)本实例通过计算平均相似度来计算两组词语键的相关性权重Y,具体的计算公式如下:
步骤7,构建时刻检索指导模块计算整个视频对应的相关性内容细粒度特征FA
在本实例中,相关性权重越大,表示该关键帧对整个视频的贡献越大。通过加权计算关键帧的跨模态内容细粒度特征和相关性权重,可以抑制一些无关的噪声信息,也提高检索结果的准确性和鲁棒性。
步骤7.1,将步骤5中计算得到的跨模态内容细粒度特征Fa和相关性权重Y相乘,得到当前帧的用于指导时刻检索网络的相关性内容细粒度特征:
步骤7.2,将视频中所有关键帧的相关性内容细粒度特征进行拼接,得到整个视频对应的相关性内容细粒度特征FA
步骤8,构建模型实验验证模块,验证模型的时刻检索指导效果与模型的消融实验。
在本实例中,评价指标使用IoU指标,计算预测时间和真实事件的交并比。具体表示为R@n,IoU@m,其中n=1,m∈{0.3,0.5,0.7}。为了验证本方法的通用性和有效性,将本方法迁移到主流的视频时刻检索方法中,已验证网络性能的改良能力。具体将相关性内容细粒度特征在模型的结尾部分与原有的模型进行融合,便可以完成对原有模型得指导。
步骤8.1,选取DRN、TMLGA和VSLNet模型进行了实验验证,具体网络中的参数均与原方法保持不变,对比了原模型和对应的将本模型迁移融合(原模型Pro)的实验结果。实验结果如下表所示,可以看到将模型融合后的精度均优于原有的模型:
步骤8.2,为了验证模型操作的有效性和必要性,在Charades-STA进行消融实验。并规定w/o WM为去除词义匹配部分,w/o FF为去除特征融合部分,w/o TC为不添加文本特征,w/o pool是去除关键帧特征的池化操作,直接文本特征矿长后融合。W/add FF为不使用点乘进行融合,直接使用加法进行融合。消融实验的结果如下所示。

Claims (10)

1.基于视频内容细粒度信息的视频时刻检索方法,其特征在于,包括以下步骤;
步骤1,选取Charades-STA数据集构建训练集和测试集,并选取原始视频V;
步骤2,构建视频细粒度信息提取模块,使用YOLOv5目标检测网络对原始视频V进行特征预提取,得到原始视频V的关键帧特征FC和帧内物体OC
步骤3,构建文本特征提取模块,使用预训练词嵌入模型来将查询语句S映射到嵌入空间中,完成特征提取,并得到文本特征Q:
步骤4,构建文本词性标注模块,标注查询语句S中的名词H;
步骤5,构建跨模态特征融合模块,将步骤2中的视频关键帧FC特征和步骤3中的文本特征Q进行融合,得到跨模态细粒度内容特征Fa
步骤6,构建词义匹配模块,通过步骤2中的帧内物体Oc和步骤4中查询语句中提取的名词H,通过词义匹配生成相关性权重Y;
步骤7,通过跨模态内容细粒度特征Fa和相关性权重Y构建时刻检索指导模块计算整个视频对应的相关性内容细粒度特征FA
2.根据权利要求1所述的基于视频内容细粒度信息的视频时刻检索方法,其特征在于,所述步骤1中,Charades-STA数据集是基于Charades数据集进行时间标注构建的,Charades数据集包括动作种类,视频和“查询,视频片段”对;在部分视频中,需要做结构化的复杂查询,即每个查询包含至少两个子句,并且“查询,视频片段”对时间跨度小于视频长度的一半。
3.根据权利要求1所述的基于视频内容细粒度信息的视频时刻检索方法,其特征在于,所述步骤2具体为:
步骤2.1,对原始视频按照间隔τ帧进行等间隔采样,视频的总帧数为T,取出的关键帧图片为其中nc为取出的总帧数;
步骤2.2,使用YOLOv5目标检测网络提取关键帧特征FC和帧内物体OC
4.根据权利要求3所述的基于视频内容细粒度信息的视频时刻检索方法,其特征在于,步骤2.2.1,将关键帧图片C送入YOLOv5目标检测网络,主干网络采用CSPNet,通过将卷积分为两个阶段,并利用跨阶段的特征复用和信息融合减少模型的参数量和计算复杂度,提高了模型的速度和精度;通过主干网络得到特征图M1
步骤2.2.2,将特征图M1送入自顶向下特征金字塔结构,提取强语义特征,通过上采样输出特征图M2
步骤2.2.3,将特征图M2通过自底向上的特征金字塔结构,提取强定位特征,输出特征图M3
步骤2.2.4,将特征图M3作为三层卷积块的检测头,通过对三个不同尺度的特征进行操作来进行目标检测任务;网络输出帧内包含的帧内物体g为帧内物体的数量,同时在空间金字塔池化的输出得到多尺度关键帧特征/>和/>
5.根据权利要求3所述的基于视频内容细粒度信息的视频时刻检索方法,其特征在于,所述步骤3具体为:
步骤3.1,使用GloVe预训练词嵌入模型将查询语句S映射到嵌入空间中,完成文本特征Q提取,文本特征Q提取的过程表示如下:
其中,m为句子中的单词数量,dq为提取出文本特征的维度,Q为文本特征,s为具体的查询语句,q为具体的文本特征。
6.根据权利要求5所述的基于视频内容细粒度信息的视频时刻检索方法,其特征在于,所述步骤4具体为:
步骤4.1,使用NLTK将查询语句S分割为单独的单词;
步骤4.2,利用NLTK构建隐马尔可夫模型,通过词形还原,词汇消歧,对每个单词词性进行标注,提取出查询语句中的名词H={H1,...,Hu}作为与视频内容进行匹配的关键字,其中u为该语句中名词的数量。
7.根据权利要求6所述的基于视频内容细粒度信息的视频时刻检索方法,其特征在于,所述步骤5具体为:
在步骤2中YOLOv5模型输出的三个内容特征文本特征Q的大小为m×dq,m为查询语句中单词数量,dq为文本特征维度;
步骤5.1,将文本特征Q在第一个维度进行填充对齐,将Q的大小转变为m'×dq,其中m'>m;
步骤5.2,对文本特征Q增加维度,并在第二维进行复制扩张,将文本特征Q的大小转化为m'×m'×dq的文本特征该过程可用如下公式表示:
步骤5.3,将多尺度关键帧特征Fi c,使用池化层将内容特征的大小转化为的特征/>该过程公式如下所示:
步骤5.4,对扩张后的文本特征分别使用三个输入大小为dq,输出大小为/>的全连接层进行维度变换,将文本特征Q变成了三个大小为/>的特征Qi′;
其中,FC()为全连接层操作;
步骤5.5,将内容特征和文本特征利用哈达玛积进行融合;
步骤5.6,对三个融合特征进行拼接,对拼接后的特征在通过全连接层进行特征提取和维度变换,进一步提升特征的表达能力,使得特征更具有区分度,最后得到长度为dv的一个跨模态细粒度内容特征Fa,dv为时刻检索网络中融合向量对应的维度,以上过程公式如下表示:
其中,FC()为全连接层操作。
8.根据权利要求7所述的基于视频内容细粒度信息的视频时刻检索方法,其特征在于,所述步骤6具体为:
步骤6.1,计算词向量两两之间的余弦相似度;
其中w1w2为任意两个词向量,similarity(w1,w2)为相似度;
步骤6.2,对于帧内物体词组和语句中的名词/>其中g为帧内物体的数量,u为语句中名词的数量,通过计算平均相似度来计算两组词语键的相关性权重Y,具体的计算公式如下:
9.根据权利要求8所述的基于视频内容细粒度信息的视频时刻检索方法,其特征在于,所述步骤7具体为:
步骤7.1,将步骤5中计算得到的跨模态内容细粒度特征Fa和相关性权重Y相乘,得到当前第i帧的用于指导时刻检索网络的相关性内容细粒度特征
其中nc为视频中关键帧的数量;
步骤7.2,将视频中所有关键帧的相关性内容细粒度特征进行拼接,得到整个视频对应的相关性内容细粒度特征FA
其中nc为视频中关键帧的数量;
步骤7.3,将内容细粒度特征FA通过双向门控循环单元,得到时刻定位的起始位置Tbegin和时刻定位的结束位置Tend
10.一种电子设备,其特征在于,包括处理器、存储器和通信总线,其中,处理器、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述权利要求1-9任一项所述的基于视频内容细粒度信息的视频时刻检索方法。
CN202310448759.5A 2023-04-24 2023-04-24 基于视频内容细粒度信息的视频时刻检索方法 Pending CN116450883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310448759.5A CN116450883A (zh) 2023-04-24 2023-04-24 基于视频内容细粒度信息的视频时刻检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310448759.5A CN116450883A (zh) 2023-04-24 2023-04-24 基于视频内容细粒度信息的视频时刻检索方法

Publications (1)

Publication Number Publication Date
CN116450883A true CN116450883A (zh) 2023-07-18

Family

ID=87128529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310448759.5A Pending CN116450883A (zh) 2023-04-24 2023-04-24 基于视频内容细粒度信息的视频时刻检索方法

Country Status (1)

Country Link
CN (1) CN116450883A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076712A (zh) * 2023-10-16 2023-11-17 中国科学技术大学 视频检索方法、系统、设备及存储介质
CN117372936A (zh) * 2023-12-07 2024-01-09 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076712A (zh) * 2023-10-16 2023-11-17 中国科学技术大学 视频检索方法、系统、设备及存储介质
CN117076712B (zh) * 2023-10-16 2024-02-23 中国科学技术大学 视频检索方法、系统、设备及存储介质
CN117372936A (zh) * 2023-12-07 2024-01-09 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与系统
CN117372936B (zh) * 2023-12-07 2024-03-22 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与系统

Similar Documents

Publication Publication Date Title
CN112000818B (zh) 一种面向文本和图像的跨媒体检索方法及电子装置
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN108875074B (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN116450883A (zh) 基于视频内容细粒度信息的视频时刻检索方法
CN103699625A (zh) 基于关键词进行检索的方法及装置
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
Kamper et al. Semantic query-by-example speech search using visual grounding
Li et al. Measuring and predicting tag importance for image retrieval
CN114780690B (zh) 基于多模态矩阵向量表示的专利文本检索方法及装置
CN111291188A (zh) 一种智能信息抽取方法及系统
CN112800205B (zh) 基于语义变化流形分析获取问答相关段落的方法、装置
Wu et al. Switchable novel object captioner
Duarte et al. Sign language video retrieval with free-form textual queries
CN109271624B (zh) 一种目标词确定方法、装置及存储介质
CN112257860A (zh) 基于模型压缩的模型生成
CN112307182A (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN114461821A (zh) 一种基于自注意力推理的跨模态图文互索方法
CN115935194A (zh) 基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法
CN113392265A (zh) 多媒体处理方法、装置及设备
Dafnis Bidirectional Skeleton-Based Isolated Sign Recognition using Graph Convolution Networks.
CN114298055A (zh) 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
Olaleye et al. Keyword localisation in untranscribed speech using visually grounded speech models
CN113220862A (zh) 标准问识别方法、装置及计算机设备及存储介质
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination