CN116385946A - 面向视频的目标片段定位方法、系统、存储介质及设备 - Google Patents
面向视频的目标片段定位方法、系统、存储介质及设备 Download PDFInfo
- Publication number
- CN116385946A CN116385946A CN202310658383.0A CN202310658383A CN116385946A CN 116385946 A CN116385946 A CN 116385946A CN 202310658383 A CN202310658383 A CN 202310658383A CN 116385946 A CN116385946 A CN 116385946A
- Authority
- CN
- China
- Prior art keywords
- video
- query
- features
- segment
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000012634 fragment Substances 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 27
- 238000012544 monitoring process Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000007405 data analysis Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000012300 Sequence Analysis Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及跨媒体检索技术领域,本发明公开了面向视频的目标片段定位方法、系统、存储介质及设备,包括:获取视频和查询,并分别进行特征提取;分别对视频特征和查询特征进行编码后,计算查询和视频之间的相似度,得到视频级别分数;对于编码后视频特征,使用时序卷积学习视频帧之间的时序关系后,生成若干候选片段,并得到每个候选片段的细粒度特征;同时,基于编码后查询特征,获取查询的细粒度特征;通过构造哈希空间,计算查询和候选片段之间的相似度,得到片段级别分数;对于每个查询,基于视频级别分数和片段级别分数,在所有视频的候选片段中筛选出目标片段。提高了检索速度、并实现了可扩展性。
Description
技术领域
本发明涉及跨媒体检索技术领域,具体的说,是涉及面向视频的目标片段定位方法、系统、存储介质及设备。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着城市化进程的加速和人口数量的增长,城市管理变得越来越复杂。为了实现城市智慧化,各种智能化技术被广泛采用,其中包括监控系统。监控系统已经成为城市管理的重要组成部分,它可以用于安全监控、交通管制、环境监测等多个方面。而监控视频由于冗长、信息密度低等特性,耗费了越来越多的人力成本和硬件资源,这为监控视频的智能化技术提出了新的挑战。
智慧城市中对监控视频的管理与分析是一个多学科交叉领域,涉及到计算机视觉、图像处理、深度学习、人工智能等多个技术领域,现有的技术涵盖了视频数据采集、处理、分析、存储等多个方面。具体来说,包括以下几类:首先是视频数据采集技术,这是视频监控系统的基础;进而是视频数据预处理技术,对该技术的良好运用可以有效提高视频处理效率,预处理技术包括视频去噪、运动补偿、图像增强、图像分割等多个方面,其中,运动补偿技术可以降低视频帧率,从而减少数据量,提高处理效率;然后是视频数据分析技术,这是智慧城市中监控视频应用的关键技术之一,视频数据分析技术可以分为两类,一类是基于规则的分析技术,另一类是基于机器学习的分析技术,基于规则的分析技术通常需要人工定义规则,而基于机器学习的分析技术则可以自动学习规律,提高分析效率和准确性,目前,视频数据分析技术主要应用于物体检测、行为识别、异常检测等方面;最后是视频数据存储和传输技术。
大规模目标片段定位技术是一种视频数据分析技术,其能够使用自然语言查询语句,面向信息密度较低的监控视频,对目标片段进行检索和定位的技术。该技术可以在语义层面上对查询语句和大规模语料库中的视频进行理解,从而定位到与查询语句在语义上最相关的目标视频片段,按照相关性返回片段的序列。通过大规模目标片段定位技术,可以实现对监控视频中的目标片段的追踪、分析和预测。
快速大规模目标片段定位方法的良好运用能够充分发挥监控视频的效用。比如,在城市交通管制方面,可以利用该技术快速分析大规模监控数据集,从而优化路况、预测事故、提高交通效率。在环境监测方面,可以利用该技术监控视频数据,从而检测污染源、预测气象变化等。此外,在智慧教育中,快速大规模目标片段定位方法可以实施即时监控与分析,如预测学生的行为模式,以及及时处理异常行为,从而应用于校园安全、学生行为监测等方面。总的来说,面向监控视频的快速大规模目标片段定位是智慧城市、智慧教育等领域的关键技术之一。
近年来,深度学习技术在视频检索领域取得了显著的进展,深度学习技术可以自动提取视频中的特征,通过学习和优化模型,可以实现更加准确和高效的视频检索。
但是,现有的快速大规模目标片段定位方法,使用实值特征对视频特征和文本特征进行存储,这增加了检索库中的存储空间;同时,视频特征和文本特征的提取过程是互相依赖的,这限制了模型的可扩展性。
发明内容
本发明为了解决上述问题,本发明提供面向视频的目标片段定位方法、系统、存储介质及设备,通过构造哈希空间进行检索,并将不同模态的特征提取和哈希编码过程分开进行,从而大大提高检索速度、并实现可扩展性。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供面向视频的目标片段定位方法,其包括:
获取视频和查询,并分别进行特征提取,得到视频特征和查询特征;
分别对视频特征和查询特征进行编码,得到编码后视频特征和编码后查询特征后,计算查询和视频之间的相似度,得到视频级别分数;
对于编码后视频特征,使用时序卷积学习视频帧之间的时序关系后,生成若干候选片段,并得到每个候选片段的细粒度特征;同时,基于编码后查询特征,获取查询的细粒度特征;
基于候选片段的细粒度特征和查询的细粒度特征,通过构造哈希空间,计算查询和候选片段之间的相似度,得到片段级别分数;
对于每个查询,基于视频级别分数和片段级别分数,在所有视频的候选片段中筛选出目标片段。
进一步地,对于某个视频,提取外观特征和动作特征后,对外观特征和动作特征均进行池化,得到片段级特征;通过连接外观特征的片段级特征和动作特征的片段级特征,并进行归一化,得到的每个视频片段的特征;所有视频片段的特征构成所述视频的视频特征。
进一步地,对于某个查询,提取出上下文文本特征,并对查询语句进行微调后,将提取的上下文文本特征降维,并添加位置编码,得到查询特征。
进一步地,所述视频级别分数的计算方法为:对于某个视频和某个查询,基于编码后查询特征,计算查询中的每个查询单词相对于视频的注意力分数;基于注意力分数,对查询中的每个查询单词的编码后查询特征进行加权求和,生成模块化查询向量;基于编码后视频特征和模块化查询向量,通过余弦相似度计算,得到该查询和该视频之间的视频级别分数。
进一步地,对于编码后查询特征,利用多层感知机来获取查询的细粒度特征。
进一步地,所述片段级别分数的计算方法为:对于某个候选片段和某个查询,使用逐元素符号函数分别作用于候选片段的细粒度特征和查询的细粒度特征,得到候选片段的二值哈希码和查询的二值哈希码;基于候选片段的二值哈希码和查询的二值哈希码,通过海明距离计算,得到该查询和该候选片段之间的片段级别分数。
进一步地,所述目标片段的筛选步骤包括:使用超参数来调节视频级别分数及片段级别分数,得到综合分数;基于综合分数的排序,在所有视频的候选片段中选择出目标片段。
本发明的第二个方面提供一种基于第一方面所述的生物序列分析系统的生物序列分析系统,其包括:
特征提取模块,其被配置为:获取视频和查询,并分别进行特征提取,得到视频特征和查询特征;
粗粒度特征提取模块,其被配置为:分别对视频特征和查询特征进行编码,得到编码后视频特征和编码后查询特征后,计算查询和视频之间的相似度,得到视频级别分数;
细粒度特征提取模块,其被配置为:对于编码后视频特征,使用时序卷积学习视频帧之间的时序关系后,生成若干候选片段,并得到每个候选片段的细粒度特征;同时,基于编码后查询特征,获取查询的细粒度特征;
跨模特哈希模块,其被配置为:基于候选片段的细粒度特征和查询的细粒度特征,通过构造哈希空间,计算查询和候选片段之间的相似度,得到片段级别分数;
定位模块,其被配置为:对于每个查询,基于视频级别分数和片段级别分数,在所有视频的候选片段中筛选出目标片段。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的面向视频的目标片段定位方法中的步骤。
本发明的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的面向视频的目标片段定位方法中的步骤。
与现有技术相比,本发明的有益效果为:
本发明提供了面向视频的目标片段定位方法,其针对不同的模态(如视频和文本)进行独立处理,将不同模态的特征提取和哈希编码过程分开进行,从而实现可扩展性,在面对大规模数据时,可以更好地应对多种数据类型和数据来源。
本发明提供了面向视频的目标片段定位方法,其采用哈希码表示目标片段,通过计算哈希码之间的相似度进行检索,相比传统的基于特征向量的相似度计算方法,基于哈希码的相似度计算更加高效,大大提高检索速度。
本发明提供了面向视频的目标片段定位方法,其在大规模数据下,能够实现快速检索和准确定位目标片段,具有广泛的应用前景。
附图说明
构成本发明的一部分说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的限定。
图1为本发明的实施例一的面向视频的目标片段定位方法的流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合下面结合附图与实施例对本发明作进一步说明。
术语解释:
深度跨模态哈希技术:将视频、音频等多媒体数据转换为哈希码,通过比较哈希码来实现视频检索。深度跨模态哈希技术可以将跨模态数据转换为二进制编码,使得跨模态数据可以被快速地检索和匹配。深度跨模态哈希技术可以用于对视频中的目标物体进行快速检索和匹配,其优势包括以下几个方面:高效性,深度跨模态哈希技术可以将跨模态数据转换为二进制编码,使得检索和匹配变得非常高效;可扩展性,深度跨模态哈希技术可以处理大规模数据集,并且可以实现对不同模态数据的独立处理和快速检索;稳健性,深度跨模态哈希技术可以处理不同类型的跨模态数据,包括图像、音频、视频等;隐私保护,深度跨模态哈希技术可以将跨模态数据转换为不可逆的二进制编码,保护用户的隐私。
ResNet:深度残差网络(Deep residual network),常见的ResNet有ResNet18、ResNet34、ResNet50、ResNet101、ResNet152这几种结构。
RoBERTa:强力优化的BERT(Robustly Optimized BERT),BERT的全称为Bidirectional Encoder Representation from Transformers,是预训练的语言表征模型。
实施例一
本实施例一的目的是提供面向视频的目标片段定位方法。
本实施例一提供的面向视频的目标片段定位方法,适用于大规模视频语料库。
本实施例提供的面向视频的目标片段定位方法,以包含视频帧的被检索模态,自然语句查询语句的检索模态为例,也可以自然地扩展到其他类型的模态数据中。
本实施例提供的面向视频的目标片段定位方法,如图1所示,包括以下步骤:
第一步,获取训练集或测试集,对训练集或测试集中的视频和查询,分别使用特征提取模块提取视频特征和查询特征。
其中,查询为自然语句。
对于视频,首先使用预训练的ResNet152模型提取外观特征;然后,使用预训练的双流膨胀3D卷积网络(I3D)模型提取动作特征;然后,对外观特征和动作特征,均通过每1.5秒进行池化,得到片段级特征;最后,通过连接外观特征的片段级特征和动作特征的片段级特征,并进行归一化,得到的每个视频片段的特征;视频v的所有视频片段的特征构成视频v的视频特征。
对于查询,首先使用预训练的RoBERTa模型提取上下文文本特征;然后,使用屏蔽语言模型(MLM)目标对查询语句进行微调后,使用线性层与激活函数ReLU将提取的上下文文本特征投影到低维空间中(即降维),并添加位置编码,得到第q个查询的查询特征。
第二步,将视频特征和查询特征输入粗粒度特征提取模块,分别使用基于自注意力的模型对视频特征和查询特征进行处理,获得视频级别分数和视频级别损失。具体包括以下步骤:
其中,自注意力编码器是一个常用结构,在Transformer(利用注意力来提高模型训练速度的模型)、BERT等模型中均有使用。自注意力编码器的结构包括:输入嵌入层、多头自注意力层、前馈神经网络层和输出嵌入层,并使用残差连接和层归一化来提升结构性能。
其中,指示查询语句中的查询单词,/>表示第q个查询语句长度,/>表示第q个查询中的第t个查询单词相对于视频v的注意力分数,/>表示用于学习注意力的权重向量,/>表示第q个查询中的第t个查询单词的编码后查询特征。
即,使用可训练的注意力机制计算模块化查询向量和单模态上下文特征之间的注意力得分的加权和,通过对加权和进行归一化来获得最终的视频级别分数。
进而,在训练阶段,能够得到由视频-查询正对及负对构造的视频级别分数矩阵:
基于视频级别分数矩阵,通过铰链损失来构造视频级别损失函数:
其中,n表示的是训练集中样本个数(即训练集中视频和查询的对数),m表示margin,即为损失设置的边缘数。
第三步,将编码后查询特征和编码后视频特征/>输入细粒度特征提取模块;细粒度特征提取模块对编码后视频特征/>使用时序卷积学习视频帧之间的时序关系,并使用一维卷积生成若干视频候选片段;细粒度特征提取模块对编码后查询特征/>使用多层感知机MLP进行处理。具体包括以下步骤:
细粒度特征提取模块包括视频的时序上下文建模和片段生成与表示两部分。
在时序上下文建模部分,为了完美地捕捉相对较长的视频的长期语义依赖,使用一种双向的时序卷积网络,从前后上下文信息中捕获每个视频片段的长期上下文依赖关系,来有效增强上下文表示。
其中,表示卷积核大小,/>表示卷积核中/>位置的权重,/>为偏置,/>表示取出/>中第/>个时间步的所有帧的特征向量,即/>在时间维度上的一个滑动窗口,/>表示生成的第/>个候选片段的特征表示,N表示生成的候选片段的个数,t指示卷积目标,i指示卷积核位置。
第四步,将得到的候选片段的细粒度特征和查询的细粒度特征输入跨模态哈希模块,通过构造哈希空间进行视频模态和文本模态间相似度的计算,获得片段级别分数和片段级损失。具体包括以下步骤:
步骤402、将逐元素符号函数作用于查询的细粒度特征,可以获得查询语句的二值哈希码:
步骤403、利用海明距离来计算候选片段与查询语句之间的相似性,得到片段级别分数:
在训练阶段,为确保哈希空间中的每个片段-查询对保持原始实值特征空间中的内在相似性,构造了基于语义相似性保持的损失函数:
其中,表示第i个查询的细粒度特征,/>表示第i个视频的所有候选片段的细粒度特征,/>表示范数计算,/>是哈希码的长度,n表示的是训练集中样本个数;/>是跨模态相似度矩阵,/>中的每个元素为一个生成的视频候选片段与真实标签之间的时序交集并集比。基于语义相似性保持的损失函数是为了确保哈希空间中的相似性与原始空间中的相似性一致。
为了确保获取最优的连续哈希码,通过单正则化二进制哈希码的差异性构造损失函数:
由此,得到片段级别损失函数:
在训练阶段,最终损失由视频级别损失和片段级别损失共同构成:
第五步,训练阶段结合视频级损失和片段级损失,对目标片段定位模型进行优化;测试阶段使用训练好的目标片段定位模型,对于每个查询,基于视频级别分数和片段级别分数,计算综合分数,并将综合分数由大到小进行排序,得到候选片段的综合分数排序,在所有视频的候选片段中筛选出目标片段,即将综合分数排序最靠前的候选片段作为目标片段。
其中,目标片段定位模型包括特征提取模块、粗粒度特征提取模块、细粒度特征提取模块、跨模态哈希模块。
其中,表示第j个视频,/>表示第m个候选片段,/>表示第k个查询,/>表示第k个查询与第j个视频中的第m个候选片段之间的综合分数,/>表示第k个查询与第j个视频之间的视频级别分数,/>表示第k个查询与第j个视频中的第m个候选片段之间的片段级别分数。
本实施例提供的面向视频的目标片段定位方法,由两个阶段组成,分别是视频级别的检索阶段和片段级别的检索阶段组成。其中,视频级别的检索阶段包括对视频帧自然语言查询语句模态的特征提取模块及粗粒度特征提取模块;片段级别的检索阶段则包括细粒度特征提取模块和跨模态哈希模块。在特征提取模块,分别应用预训练的I3D网络和ResNet152网络来对视频特征进行提取,使用预训练的RoBERTa模型对查询语句进行特征提取。在粗粒度特征提取模块,使用基于自注意力机制的模型和多层感知机模型来获得模态内部的交互,并由此得到视频级别分数。在细粒度特征提取模块,应用时序卷积网络和多层感知机模型获得细致的模态交互表示(细粒度特征)。最后,在跨模态哈希模块中,利用学习好的细粒度特征来构建跨模态哈希空间,从而计算被检索模态和检索模态之间的相似度(片段级别分数)。同时,分别利用视频级别分数和片段级别分数来进行损失函数的构建。
本实施例提供的面向视频的目标片段定位方法,采用哈希码表示目标片段,通过计算哈希码之间的相似度进行检索,相比传统的基于特征向量的相似度计算方法,基于哈希码的相似度计算更加高效,大大提高检索速度。
本实施例提供的面向视频的目标片段定位方法,针对不同的模态(如视频和文本)进行独立处理,将不同模态的特征提取和哈希编码过程分开进行,从而实现可扩展性。在面对大规模数据时,可以更好地应对多种数据类型和数据来源。
本实施例提供的面向视频的目标片段定位方法,在大规模数据下,能够实现快速检索和准确定位目标片段,具有广泛的应用前景。
实施例二
本实施例二的目的是提供面向视频的目标片段定位系统,
特征提取模块,其被配置为:获取视频和查询,并分别进行特征提取,得到视频特征和查询特征;
粗粒度特征提取模块,其被配置为:分别对视频特征和查询特征进行编码,得到编码后视频特征和编码后查询特征后,计算查询和视频之间的相似度,得到视频级别分数,并得到视频级别损失;
细粒度特征提取模块,其被配置为:对于编码后视频特征,使用时序卷积学习视频帧之间的时序关系后,生成若干候选片段,并得到每个候选片段的细粒度特征;同时,基于编码后查询特征,获取查询的细粒度特征;
跨模特哈希模块,其被配置为:基于候选片段的细粒度特征和查询的细粒度特征,通过构造哈希空间,计算查询和候选片段之间的相似度,得到片段级别分数,并得到片段级损失;
定位模块,其被配置为:对于每个查询,基于视频级别分数和片段级别分数,在所有视频的候选片段中筛选出目标片段。
训练模块,其被配置为:结合视频级损失和片段级损失,对目标片段定位模型进行优化。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的面向视频的目标片段定位方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的面向视频的目标片段定位方法中的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.面向视频的目标片段定位方法,其特征在于,包括:
获取视频和查询,并分别进行特征提取,得到视频特征和查询特征;
分别对视频特征和查询特征进行编码,得到编码后视频特征和编码后查询特征后,计算查询和视频之间的相似度,得到视频级别分数;
对于编码后视频特征,使用时序卷积学习视频帧之间的时序关系后,生成若干候选片段,并得到每个候选片段的细粒度特征;同时,基于编码后查询特征,获取查询的细粒度特征;
基于候选片段的细粒度特征和查询的细粒度特征,通过构造哈希空间,计算查询和候选片段之间的相似度,得到片段级别分数;
对于每个查询,基于视频级别分数和片段级别分数,在所有视频的候选片段中筛选出目标片段。
2.如权利要求1所述的面向视频的目标片段定位方法,其特征在于,对于某个视频,提取外观特征和动作特征后,对外观特征和动作特征均进行池化,得到片段级特征;通过连接外观特征的片段级特征和动作特征的片段级特征,并进行归一化,得到的每个视频片段的特征;所有视频片段的特征构成所述视频的视频特征。
3.如权利要求1所述的面向视频的目标片段定位方法,其特征在于,对于某个查询,提取出上下文文本特征,并对查询语句进行微调后,将提取的上下文文本特征降维,并添加位置编码,得到查询特征。
4.如权利要求1所述的面向视频的目标片段定位方法,其特征在于,所述视频级别分数的计算方法为:对于某个视频和某个查询,基于编码后查询特征,计算查询中的每个查询单词相对于视频的注意力分数;基于注意力分数,对查询中的每个查询单词的编码后查询特征进行加权求和,生成模块化查询向量;基于编码后视频特征和模块化查询向量,通过余弦相似度计算,得到该查询和该视频之间的视频级别分数。
5.如权利要求1所述的面向视频的目标片段定位方法,其特征在于,对于编码后查询特征,利用多层感知机来获取查询的细粒度特征。
6.如权利要求1所述的面向视频的目标片段定位方法,其特征在于,所述片段级别分数的计算方法为:对于某个候选片段和某个查询,使用逐元素符号函数分别作用于候选片段的细粒度特征和查询的细粒度特征,得到候选片段的二值哈希码和查询的二值哈希码;基于候选片段的二值哈希码和查询的二值哈希码,通过海明距离计算,得到该查询和该候选片段之间的片段级别分数。
7.如权利要求1所述的面向视频的目标片段定位方法,其特征在于,所述目标片段的筛选步骤包括:使用超参数来调节视频级别分数及片段级别分数,得到综合分数;基于综合分数的排序,在所有视频的候选片段中选择出目标片段。
8.面向视频的目标片段定位系统,其特征在于,包括:
特征提取模块,其被配置为:获取视频和查询,并分别进行特征提取,得到视频特征和查询特征;
粗粒度特征提取模块,其被配置为:分别对视频特征和查询特征进行编码,得到编码后视频特征和编码后查询特征后,计算查询和视频之间的相似度,得到视频级别分数;
细粒度特征提取模块,其被配置为:对于编码后视频特征,使用时序卷积学习视频帧之间的时序关系后,生成若干候选片段,并得到每个候选片段的细粒度特征;同时,基于编码后查询特征,获取查询的细粒度特征;
跨模特哈希模块,其被配置为:基于候选片段的细粒度特征和查询的细粒度特征,通过构造哈希空间,计算查询和候选片段之间的相似度,得到片段级别分数;
定位模块,其被配置为:对于每个查询,基于视频级别分数和片段级别分数,在所有视频的候选片段中筛选出目标片段。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的面向视频的目标片段定位方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的面向视频的目标片段定位方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310658383.0A CN116385946B (zh) | 2023-06-06 | 2023-06-06 | 面向视频的目标片段定位方法、系统、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310658383.0A CN116385946B (zh) | 2023-06-06 | 2023-06-06 | 面向视频的目标片段定位方法、系统、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116385946A true CN116385946A (zh) | 2023-07-04 |
CN116385946B CN116385946B (zh) | 2023-08-29 |
Family
ID=86981020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310658383.0A Active CN116385946B (zh) | 2023-06-06 | 2023-06-06 | 面向视频的目标片段定位方法、系统、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116385946B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076712A (zh) * | 2023-10-16 | 2023-11-17 | 中国科学技术大学 | 视频检索方法、系统、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989120A (zh) * | 2021-05-13 | 2021-06-18 | 广东众聚人工智能科技有限公司 | 一种视频片段查询系统和视频片段查询方法 |
CN113111836A (zh) * | 2021-04-25 | 2021-07-13 | 山东省人工智能研究院 | 基于跨模态哈希学习的视频解析方法 |
CN113590874A (zh) * | 2021-09-28 | 2021-11-02 | 山东力聚机器人科技股份有限公司 | 一种视频定位方法及装置、模型训练方法及设备 |
CN113963304A (zh) * | 2021-12-20 | 2022-01-21 | 山东建筑大学 | 基于时序-空间图的跨模态视频时序动作定位方法及系统 |
CN114429119A (zh) * | 2022-01-18 | 2022-05-03 | 重庆大学 | 一种基于多交叉注意力的视频与字幕片段检索方法 |
WO2022155994A1 (zh) * | 2021-01-21 | 2022-07-28 | 深圳大学 | 基于注意力的深度跨模态哈希检索方法、装置及相关设备 |
US20220256175A1 (en) * | 2021-01-29 | 2022-08-11 | Google Llc | Hierarchical Video Encoders |
CN114896450A (zh) * | 2022-04-15 | 2022-08-12 | 中山大学 | 一种基于深度学习的视频时刻检索方法与系统 |
CN114896451A (zh) * | 2022-05-25 | 2022-08-12 | 云从科技集团股份有限公司 | 视频片段定位方法、系统、控制装置及可读存储介质 |
CN115408558A (zh) * | 2022-08-23 | 2022-11-29 | 浙江工商大学 | 基于多尺度多示例相似度学习的长视频检索方法及装置 |
CN115687687A (zh) * | 2023-01-05 | 2023-02-03 | 山东建筑大学 | 一种面向开放域查询的视频片段搜索方法及系统 |
WO2023048809A1 (en) * | 2021-09-27 | 2023-03-30 | Microsoft Technology Licensing, Llc. | Leveraging unsupervised meta-learning to boost few-shot action recognition |
-
2023
- 2023-06-06 CN CN202310658383.0A patent/CN116385946B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022155994A1 (zh) * | 2021-01-21 | 2022-07-28 | 深圳大学 | 基于注意力的深度跨模态哈希检索方法、装置及相关设备 |
US20220256175A1 (en) * | 2021-01-29 | 2022-08-11 | Google Llc | Hierarchical Video Encoders |
CN113111836A (zh) * | 2021-04-25 | 2021-07-13 | 山东省人工智能研究院 | 基于跨模态哈希学习的视频解析方法 |
CN112989120A (zh) * | 2021-05-13 | 2021-06-18 | 广东众聚人工智能科技有限公司 | 一种视频片段查询系统和视频片段查询方法 |
WO2023048809A1 (en) * | 2021-09-27 | 2023-03-30 | Microsoft Technology Licensing, Llc. | Leveraging unsupervised meta-learning to boost few-shot action recognition |
CN113590874A (zh) * | 2021-09-28 | 2021-11-02 | 山东力聚机器人科技股份有限公司 | 一种视频定位方法及装置、模型训练方法及设备 |
CN113963304A (zh) * | 2021-12-20 | 2022-01-21 | 山东建筑大学 | 基于时序-空间图的跨模态视频时序动作定位方法及系统 |
CN114429119A (zh) * | 2022-01-18 | 2022-05-03 | 重庆大学 | 一种基于多交叉注意力的视频与字幕片段检索方法 |
CN114896450A (zh) * | 2022-04-15 | 2022-08-12 | 中山大学 | 一种基于深度学习的视频时刻检索方法与系统 |
CN114896451A (zh) * | 2022-05-25 | 2022-08-12 | 云从科技集团股份有限公司 | 视频片段定位方法、系统、控制装置及可读存储介质 |
CN115408558A (zh) * | 2022-08-23 | 2022-11-29 | 浙江工商大学 | 基于多尺度多示例相似度学习的长视频检索方法及装置 |
CN115687687A (zh) * | 2023-01-05 | 2023-02-03 | 山东建筑大学 | 一种面向开放域查询的视频片段搜索方法及系统 |
Non-Patent Citations (1)
Title |
---|
陈卓;杜昊;吴雨菲;徐童;陈恩红;: "基于视觉-文本关系对齐的跨模态视频片段检索", 中国科学:信息科学, vol. 50, no. 06 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076712A (zh) * | 2023-10-16 | 2023-11-17 | 中国科学技术大学 | 视频检索方法、系统、设备及存储介质 |
CN117076712B (zh) * | 2023-10-16 | 2024-02-23 | 中国科学技术大学 | 视频检索方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116385946B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN113723166A (zh) | 内容识别方法、装置、计算机设备和存储介质 | |
CN115982403B (zh) | 一种多模态哈希检索方法及装置 | |
CN111291188A (zh) | 一种智能信息抽取方法及系统 | |
CN113705315B (zh) | 视频处理方法、装置、设备及存储介质 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN113111836B (zh) | 基于跨模态哈希学习的视频解析方法 | |
CN116385946B (zh) | 面向视频的目标片段定位方法、系统、存储介质及设备 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
Wu et al. | Tdv2: A novel tree-structured decoder for offline mathematical expression recognition | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN113032601A (zh) | 一种基于判别性提升的零样本草图检索方法 | |
CN115827954A (zh) | 动态加权的跨模态融合网络检索方法、系统、电子设备 | |
CN114048290A (zh) | 一种文本分类方法及装置 | |
CN116561305A (zh) | 基于多模态和transformer的假新闻检测方法 | |
CN114239730B (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN117933249A (zh) | 一种装备故障知识的智能交互方法及系统 | |
CN117150068A (zh) | 基于自监督对比学习概念对齐的跨模态检索方法及系统 | |
CN116226357B (zh) | 一种输入中包含错误信息场景下的文档检索方法 | |
CN117708324A (zh) | 一种文本主题分类方法、装置、芯片及终端 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN116842934A (zh) | 一种基于持续学习的多文档融合深度学习标题生成方法 | |
Tamer et al. | Cross-lingual keyword search for sign language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |