CN114579805B - 一种基于注意力机制的卷积神经网络相似视频检索方法 - Google Patents

一种基于注意力机制的卷积神经网络相似视频检索方法 Download PDF

Info

Publication number
CN114579805B
CN114579805B CN202210195639.4A CN202210195639A CN114579805B CN 114579805 B CN114579805 B CN 114579805B CN 202210195639 A CN202210195639 A CN 202210195639A CN 114579805 B CN114579805 B CN 114579805B
Authority
CN
China
Prior art keywords
video
vid
key frame
retrieval
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210195639.4A
Other languages
English (en)
Other versions
CN114579805A (zh
Inventor
谢铭
吴林涛
董建武
索帅
郑博文
王立刚
蔡荣华
胡小勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Scistor Technologies Co ltd
Original Assignee
Beijing Scistor Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Scistor Technologies Co ltd filed Critical Beijing Scistor Technologies Co ltd
Priority to CN202210195639.4A priority Critical patent/CN114579805B/zh
Publication of CN114579805A publication Critical patent/CN114579805A/zh
Application granted granted Critical
Publication of CN114579805B publication Critical patent/CN114579805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于注意力机制的卷积神经网络相似视频检索方法包括:检索视频的关键帧抽取,使用块结构思想代替连续结构思想。视频关键帧图像处理,引入去纯色算法和增强图像整体与局部特征。关键帧特征提取,使用改进的ResNet‑50对关键帧特征提取。检索视频关键帧特征相似检索,引入Faiss检索。帧间结果后处理,引入矫正机和Softmax机制。本发明主要解决了大规模相似视频检索的时间与精度问题,在不降低精度的同时有效的降低了检索时长,大幅度的提升了视频的检索性能。

Description

一种基于注意力机制的卷积神经网络相似视频检索方法
技术领域
本发明属于相似视频检索技术领域,涉及一种基于注意力机制的卷积神经网络,对相似视频实现检索识别,并采用相应手段对精度以及速度进行提升的技术方案。
背景技术
伴随着大数据的时代,互联网上充满着大量的数据。视频数据作为其中的重要组成部分,正在从各个方面开始影响着人们的日常生活。如何在海量视频数据中实现相似视频检索具有广泛的业务应用,如相似视频去重、相似视频检索等。然而由于各种视频编辑软件诞生,导致了这项工作变得异常的困难。原因在于视频一旦经过了编辑修改,就难以利用传统方法跟原始视频进行匹配了。一般这些修改过的视频大致会呈现如下特点:第一,与原始视频在内容上保证一致;第二,修改原始视频的画质,包括色彩改变、亮度改变、分辨率改变、加入噪声等;第三,在原视频中添加弹幕、logo等其他视频元素。
目前相似视频检测方法主要是以两个方面为主:1、视频整体检索,这种方式的速度很快,将视频作为一个整体,表现为一个特征值,但是往往在精度上表现得不是很好,一旦视频发生了修改、截取、拼接等操作,很难被检索出来。2、将视频抽成为一帧帧的图像进行检索,这种方式的精度表现往往很好,但是速度会很慢,当一个视频的时长很长的时候,会很长时间才返回结果,因此很难在具体应用中使用。
发明内容
为了解决目前相似视频检索所存在的问题,本发明提供了一种基于注意力机制的卷积神经网络相似视频检索方法,在优化检索速度的同时提升检索的精度。
本发明基于注意力机制的卷积神经网络相似视频检索方法,具体步骤如下:
步骤1:检索视频的关键帧抽取。
步骤2:检索视频的关键帧图像处理。
通过去纯色算法和增强图像整体与局部特征;同时将关键帧图像K等分,将分割后的图像缩放到原图大小;加上分割前的关键帧图像,总共是K+1张图像;并对K+1份图像分别做归一化处理,使得每张图像的数值满足标准正态分布。
步骤3:关键帧特征提取。
步骤4:采用Faiss检索,进行检索视频的关键帧特征相似检索。
步骤5:帧间结果后处理。
通过矫正机制将检索视频每一帧的检索结果重新进行修正,使每个关键帧仅对应一个索引号;将所有的结果按着相同的索引号进行统计,经过Softmax机制,最后返回检索到相似视频地置信度。
本发明的优点在于:
(1)本发明通过采用块结构将视频由原来的一帧帧抽取图像变成了一段抽取一张图像,在不降低视频的多样性特征的同时,极大的提升了检索效率。
(2)本发明通过加入位置注意力机制和自适应合并机制,改进了特征提取模型的网络结构,使得模型能够获取到更加丰富的特征同时提高模型的泛化能力;位置注意力机制使得模型更加关注图像的重点区域,从而降低对一些干扰区域的响应,提高模型的泛化能力;自适应合并机制通过融合K个局部特征和1个全局特征,使得模型提取的特征能够同时融合局部与全局特征,极大程度上丰富了提取到的特征值。
(3)本发明通过帧间后处理,采用窗口与矫正机制,进一步的降低了模型带来的误差,提升了检索的准确率,而又通过Softmax机制将每一帧的匹配结果转换成对应的置信度,能够更好的给检索一个直观的判断,然后通过阈值的筛选,可以极大的提升检索的准确率。
附图说明
图1为本发明卷积神经网络相似视频检索方法整体流程图;
图2为本发明卷积神经网络相似视频检索方法中视频特征提取流程图;
图3为本发明卷积神经网络相似视频检索方法中特征检索流程图;
图4为本发明的帧间后处理流程图;
图5为加入与没加入注意力机制与自适应合并机制的模型关注特征的区域对比图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示,本发明基于注意力机制的卷积神经网络相似视频检索方法,如图1所示,具体步骤如下:
步骤1:检索视频的关键帧抽取。
由于帧与帧之间存在着大量的重复数据,因此采用块结构的思想代替传统的连续结构思想,把块抽取的一帧画面称为关键帧,因此在减少视频抽帧画面的同时也极大的提高了整个视频检索的速度。
如图2所示,本发明中将视频的对于输入的视频,将首个不是纯色(一帧画面是同一个像素值)的视频画面作为视频的起始关键帧第一关键帧;在确定起始关键帧后,每一个块抽取一帧画面。由于每个视频的FPS不一致,导致有时会丢失关键信息,因此所采用的块为自适应大小。
随后通过差分法计算视频之后每一帧与前一关键帧之间的相似距离,差分法公式:
Figure BDA0003527084630000031
其中,h表示图像的高,w表示图像的宽,P1(x,y)与P2(x,y)分别表示两个图像的对坐标(x,y)像素值,SD表示相似距离。
若当前帧与前一关键帧的相似距离小于阈值DT(Distance Threshold)时,则丢弃当前帧,继续计算下一帧与当前关键帧的相似距离。若当前帧与前一关键帧的相似距离大于阈值DT (Distance Threshold)时,则将当前帧记录为关键帧;以此类推,即可抽取出视频的所有关键帧,由此可以用N个关键帧的图像来代表整个视频。
步骤2:检索视频的关键帧图像处理。
由于有些视频画面中会有某一行或者某一列是纯色,因此关键帧中存在的这些无关信息,对特征提取模型有着很大的干扰性,严重的影响了模型提取特征时候的纹理和结构特征,因此在确定完关键帧之后,对图像进行预处理。
图像预处理采用去纯色算法将关键帧中每行每列中的纯色去掉,留下关键帧对应的纹理与结构特征。所述去纯色算法表示的是抽取图像对角线像素,然后判断该对角点对应的行列元素平均值是否等于对角像素值,若相等,则去掉纯色行或列,否则保留对应行或列。
同时为了模型能够更好的理解局部特征和全局特征,因此将再将关键帧图像K等分,将分割后的图像缩放到原图大小;加上分割前的关键帧图像,总共是K+1张图像,从而获取更加丰富的局部与全局特征。然后对这K+1份图像分别做归一化处理,使得每张图像的数值(图像的RGB三个通道值)满足标准正态分布,便于模型的快速收敛。上述归一化处理,表示图像减去均值除以方差,得到一个均值为0,方差为1的图像分布,其中均值是指图像的平均值,方差是指像素点与平均值之间的偏离程度。
步骤3:使用改进的ResNet-50对关键帧特征提取。
原始的ResNet-50表示的是模型网络具有50层权重信息的深度残差网络结构;本发明中对原始的ResNet-50网络结构进行改进,得到改进的ResNet-50包括:
1、引入位置注意力机制。
位置注意力机制表示的是CA(Coordinate Attention),对特征图的垂直和水平两个方向分别编码,捕获特征图的距离之间的依存关系,然后通过乘法再将两个方向上的特征合并到特征图上面,用来强调区域的响应响度。由此加强对感兴趣位置的响应强度,减弱相似视频带来的负面影响,更好的提取关键帧特征。
2、引入自适应合并机制。
自适应合并机制表示的是AdaptiveMaxPooling+Concat+Conv2d模块,先通过最大池化操作获取到每个特征图响应最大的特征,再将这些特征通过连接操作连接在一起,获取到 K+1倍的特征向量,然后再经过卷积操作将K+1个关键帧特征向量合并为一个特征向量,从而将局部特征与全局特征很好的融合在一起,增加模型特征表能力;
3、将ResNet-50原始的全连接层换成卷积层。
由于原始的ResNet-50的分类层采用全连接操作的,但这样会导致模型的参数量非常大,不利于检索的速度,因此换成一个卷积核大小为1*1的卷积操作,输入为连接后的维度,输出的维度为类别总数,这样在不影响泛化能力的同时加速了模型的推理速度。
从而通过前述1、2、3这3个模块加起来完成了一个K+1份特征图到一份特征向量的输出。
随后通过训练数据集对改进的ResNet-50网络进行训练和验证;将训练好的模型对K+1 份图像进行特征提取,在提高了推理速度的同时还增强了模型对特征的表达能力。由于改进后的模型自适应合并机制,因此K+1份图像最终会输出为一个特征向量,将这一个特征向量作为当前关键帧的特征。
步骤4:检索视频关键帧特征相似检索,引入Faiss检索,如图3所示。
A、建立视频特征库
给定一个原始视频数据库,将原始视频进行排序,针对每个视频建立一个对应的视频索引VID(Video Index)。
随后经过由步骤1~3进行视频特征提取,生成所有原始视频对应的所有关键帧向量。随后由Faiss(Facebook AI Similarity Search,Facebook的一个开源库)将这些特征向量建立一个对应的特征库,会对每一个特征向量建立一个索引FID,每一个特征向量有且仅有一个FID,用来记录特征向量的同时,也可以更好地与视频的VID做一个对应关系。传统的检索方式通过遍历所有的样本来检索相似距离,一般只能适用小数据量的检索,当数据量达到百万、千万或者亿级别的时候,会使得整个检索的过程变得非常慢,因此本发明中引入Faiss来代替传统的检索方式对视频进行建库检索,解决大数据量所带来的问题,在不改变检索结果的同时,能够更加高效的检索数据。
B、计算特征与视频特征库的相似距离
将关键帧提取到的检索视频的关键帧特征向量与Faiss特征库内各个视频关键帧的特征向量分别通过欧式距离计算确定相似距离,根据距离排序,距离越小表明两个关键帧越相似,越大越不相似;随后返回检索视频的各个关键帧对应匹配到的前W个相似特征向量Top_W 的FID与相似距离SD构成对应的W个二元组FSDT(FID,SD),再由特征向量FID找到对应库视频的VID,构成W个新的二元组VSDT(VID,SD);通过每一个关键帧检索得到视频对应的N个VSDT,将其汇总在一起定为N-VSDT(维度为:N*W*2)。
上述VID(Video Index)表示视频的索引号;FID(Feature Index)表示特征向量的索引号;FSDT(Feature Similar Distance Tuple)表示特征与相似距离的构成的二元组;VSDT(Video Similar Distance Tuple)表示匹配对应的视频与特征相似距离构成的二元组;N-VSDT表示有 N个VSDT组成的N维数据。
步骤5:帧间结果后处理。
由于视频有的关键帧因为抖动、光线等噪音会对特征匹配结果产生一些抖动,因此为了解决这种抖动问题,引入了矫正机制,将每一帧的结果VSDT重新进行修正。对于视频检索的结果,建立左右窗口,对当前的帧的结果由前后帧的结果共同决定,从而解决抖动对最终结果产生的影响;由于视频是采用关键帧特征匹配的方式,所以关系是关键帧-视频,为了使关系调整为视频-视频同时表达两个视频之间相似的置信度,引入了Softmax机制。将矫正后的结果送给Softmax最后输出视频与视频之间的相似的置信度是多少,然后通过置信度来过滤一些检索不确定的结果,增加检索的准确率。具体方法为:
本发明的帧间后处理流程如图4所示,用检索之后的相似视频结果N-VSDT作为帧间后处理的输入,将N-VSDT用SD-T阈值进行判断,这里面的SD-T:表示相似距离阈值(Simulation Distance Threshold);如果VSDT中的相似距离SD小于阈值SD-T,则保留作为矫正关键帧的输入,如果SD大于阈值SD-T,表明两个视频之间的相似程度比较低,则丢弃当前的VSDT,因此过滤掉一些相似距离不满足阈值的视频,提高矫正的精准度。建立左窗口(为:L1)和右窗口(帧窗口长度为:L2),当前帧的结果(当前帧W个VSDT经过处理后对应的唯一 VID)由左右两窗口与当前帧的W个VSDT共同决定,L1窗口投票选出前W个相似视频 VID_L(0,1,2…W),其中VID_L0表示最优相似视频,VID_L1表示次优,以此类推VID_LW 表示最后一个相似VID;L2窗口也投票选出前W个相似视频VID_R(0,1,2…W),当前帧匹配的结果(VID_C)的结果如下:
(1)如果VID_L0与VID_R0的结果相同,则VID_C等于VID_L0;
(2)如果VID_L0与VID_R0不相同,则有:
a)如果VID_C与VID_L0相同,则VID_C等于VID_L0;
b)如果VID_C与VID_R0相同,则VID_C等于VID_R0;
c)如果VID_C即不等于VID_L0,也不等于VID_R0,则按着相似级别VID_LW与 VID_RW不断迭代(1)与(2)过程,直到确定VID_C的结果。
因为每帧的前后帧数不一样,所以导致了有的前后帧数会小于左右窗口大小,所以为了解决这种情况,这里引入了一个分段函数来自适应解决这个问题,能够根据帧数的长度自动调节左右窗口的大小。分段函数为:
Figure BDA0003527084630000061
其中,L表示窗口长度,x表示前后帧数长度。
矫正好每一帧的结果之后,输入到Softmax函数,按着置信度由大到小排序输出相似视频的VID,再通过置信度阈值Conf决定匹配到相似视频。
Softmax公式表示为:
Figure BDA0003527084630000062
其中,xi表示每类VID统计的数量,N表示匹配了多少类的VID,p(conf|xi)表示每类VID对应的置信度是多少。
本发明基于注意力机制的卷积神经网络相似视频检索方法,通过采用块结构将视频由原来的一帧帧抽取图像变成了一段抽取一张图像,在不降低视频的多样性特征的同时,极大的提升了检索效率,效率的提升取决于块的大小,而块的大小取决于两个关键帧之间距离,而确定两个关键帧是由相似距离动态确定的;例如:如果一个静止的画面,可能100或者更多帧才取一个关键帧,但是如果帧间变化比较大,也有可能2-3帧就取一个关键帧,如果100 帧取一个关键帧,则提速100倍(剩下99帧会被丢弃,不处理)。
同时本发明通过加入位置注意力机制和自适应合并机制,改进了特征提取模型的网络结构,使得模型能够获取到更加丰富的特征同时提高模型的泛化能力;位置注意力机制使得模型更加关注图像的重点区域,从而降低对一些干扰区域的响应,提高模型的泛化能力;自适应合并机制通过融合K个局部特征和1个全局特征,使得模型提取的特征能够同时融合局部与全局特征,极大程度上丰富了提取到的特征值。如图5所示,左图为没有加入注意力机制与自适应合并机制的模型关注特征的地方;右图为改进模型之后,模型关注特征的地方(虚线圈出区域为模型关注的地方);
进一步本发明通过帧间后处理,采用窗口与矫正机制,进一步的降低了模型带来的误差,提升了检索的准确率,而又通过Softmax机制将每一帧的匹配结果转换成对应的置信度,能够更好的给检索一个直观的判断,然后通过阈值的筛选,可以极大的提升检索的准确率。(以下是在数据集(20万个视频建库,3000个经过变化的视频)上测试的结果:不加后处理:召回率(Recall):85.6%,精准度(precision):91.4%,F1-Score:88.40%;加入后处理之后:召回率(Recall):90.5%,精准度(precision):96.7%,F1-Score:93.49%。

Claims (6)

1.一种基于注意力机制的卷积神经网络相似视频检索方法,其特征在于:具体步骤如下:
步骤1:检索视频的关键帧抽取;
步骤2:检索视频的关键帧图像处理,通过去纯色算法和增强图像整体与局部特征;同时将关键帧图像K等分,将分割后的图像缩放到原图大小;加上分割前的关键帧图像,总共是K+1张图像;并对K+1份图像分别做归一化处理,使得每张图像的数值满足标准正态分布;
上述去纯色算法表示的是抽取图像对角线像素,然后判断该对角点对应的行列元素平均值是否等于对角像素值,若相等,则去掉纯色行或列,否则保留对应行或列;
步骤3:关键帧特征提取;
步骤4:采用Faiss检索,进行检索视频的关键帧特征相似检索;
步骤5:帧间结果后处理;
通过矫正机制将检索视频每一帧的检索结果重新进行修正,使每个关键帧仅对应一个索引号;将所有的结果按着相同的索引号进行统计,经过Softmax机制,最后返回检索到相似视频的置信度。
2.如权利要求1所述一种基于注意力机制的卷积神经网络相似视频检索方法,其特征在于:步骤1中,关键帧抽取采用块结构,将块抽取的一帧画面称为关键帧,方法为:将首个不是纯色的视频画面作为视频的起始关键帧;在确定起始关键帧后,每一个块抽取一帧画面;
随后通过差分法计算视频之后每一帧与前一关键帧之间的相似距离,差分法公式:
Figure FDA0003987788990000011
其中,h表示图像的高,w表示图像的宽,P1(x,y)与P2(x,y)分别表示两个图像的对坐标(x,y)像素值,SD表示相似距离;
若当前帧与前一关键帧的相似距离小于阈值DT时,则丢弃当前帧,继续计算下一帧与当前关键帧的相似距离;若当前帧与前一关键帧的相似距离大于阈值DT时,则将当前帧记录为关键帧;以此类推,抽取出视频的所有关键帧。
3.如权利要求1所述一种基于注意力机制的卷积神经网络相似视频检索方法,其特征在于:步骤3中使用改进的ResNet-50进行关键帧特征提取;改进的ResNet-50引入位置注意力机制、自适应合并机制,同时将ResNet-50原始的全连接层换成卷积层;由训练好的改进的ResNet-50对K+1份图像进行特征提取,输出一个特征向量作为当前关键帧的特征。
4.如权利要求1所述一种基于注意力机制的卷积神经网络相似视频检索方法,其特征在于:步骤4中检索视频的关键帧特征相似检索的具体方法为:
A、建立视频特征库
给定一个原始视频数据库,将原始视频进行排序,针对每个视频建立一个对应的视频索引VID;
随后经过由步骤1~3进行视频特征提取,生成所有原始视频对应的所有关键帧特征向量;随后由Faiss将生成的特征向量建立对应的特征库,对每一个特征向量建立一个索引FID;
B、计算检索视频与视频特征库中视频的关键帧特征向量相似距离;
将检索视频的关键帧特征向量与Faiss特征库内各个视频关键帧的特征向量分别计算欧氏距离,返回检索视频的各个关键帧对应匹配到的前W个相似特征向量的FID与相似距离,构成W个包含FID与相似距离的二元组A;再根据FID找到对应视频的VID,构成W个包含VID与相似距离的二元组B,然后将N个检索视频的关键帧对应的N*W个二元组B汇总。
5.如权利要求1所述一种基于注意力机制的卷积神经网络相似视频检索方法,其特征在于:步骤5中帧间结果后处理的具体方法为:
将检索之后的相似视频结果作为帧间后处理的输入,进行判断,如果结果中的相似距离小于阈值,则保留作为矫正关键帧的输入;如果SD大于阈值SD-T,表明两个视频之间的相似程度比较低,则丢弃当前的结果;
随后建立左窗口和右窗口,由左窗口投票选出前W个相似视频的VID_L(0,1,2…W),其中,VID_L0表示最优相似视频,VID_L1表示次优,以此类推VID_LW表示最后一个相似VID;L2窗口同样投票选出前W个相似视频VID_R(0,1,2…W),则当前帧匹配的结果VID_C如下:
(1)如果VID_L0与VID_R0的结果相同,则VID_C等于VID_L0;
(2)如果VID_L0与VID_R0不相同,则有:
a)如果VID_C与VID_L0相同,则VID_C等于VID_L0;
b)如果VID_C与VID_R0相同,则VID_C等于VID_R0;
c)如果VID_C即不等于VID_L0,也不等于VID_R0,则按着相似级别VID_LW与VID_RW不断迭代(1)与(2)过程,直到确定VID_C的结果。
6.如权利要求5所述一种基于注意力机制的卷积神经网络相似视频检索方法,其特征在于:引入分段函数来自适应解决视频前后帧数小于左右窗口大小,分段函数为:
Figure FDA0003987788990000021
其中,L表示窗口长度,x表示前后帧数长度。
CN202210195639.4A 2022-03-01 2022-03-01 一种基于注意力机制的卷积神经网络相似视频检索方法 Active CN114579805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210195639.4A CN114579805B (zh) 2022-03-01 2022-03-01 一种基于注意力机制的卷积神经网络相似视频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210195639.4A CN114579805B (zh) 2022-03-01 2022-03-01 一种基于注意力机制的卷积神经网络相似视频检索方法

Publications (2)

Publication Number Publication Date
CN114579805A CN114579805A (zh) 2022-06-03
CN114579805B true CN114579805B (zh) 2023-03-28

Family

ID=81771247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210195639.4A Active CN114579805B (zh) 2022-03-01 2022-03-01 一种基于注意力机制的卷积神经网络相似视频检索方法

Country Status (1)

Country Link
CN (1) CN114579805B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229468B (zh) * 2017-06-28 2020-02-21 北京市商汤科技开发有限公司 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备
CN107832694B (zh) * 2017-10-31 2021-01-12 北京赛思信安技术股份有限公司 一种视频关键帧提取方法
CN109918539B (zh) * 2019-02-28 2022-04-22 华南理工大学 一种基于用户点击行为的音、视频互相检索方法
EP3923183A1 (en) * 2020-06-11 2021-12-15 Tata Consultancy Services Limited Method and system for video analysis
CN112203122B (zh) * 2020-10-10 2024-01-26 腾讯科技(深圳)有限公司 基于人工智能的相似视频处理方法、装置及电子设备
CN112528077B (zh) * 2020-11-10 2022-12-16 山东大学 基于视频嵌入的视频人脸检索方法及系统

Also Published As

Publication number Publication date
CN114579805A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN109948721B (zh) 一种基于视频描述的视频场景分类方法
CN112950477B (zh) 一种基于双路径处理的高分辨率显著性目标检测方法
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及系统
CN110827265B (zh) 基于深度学习的图片异常检测方法
CN111008978A (zh) 基于深度学习的视频场景分割方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN113392711A (zh) 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统
CN111079864A (zh) 一种基于优化视频关键帧提取的短视频分类方法及系统
CN111882581B (zh) 一种深度特征关联的多目标跟踪方法
CN112163490A (zh) 一种基于场景图片的目标检测方法
CN114170286A (zh) 一种基于无监督深度学习的单目深度估计方法
CN112541926A (zh) 一种基于改进FCN和DenseNet的歧义像素优化分割方法
CN109871790B (zh) 一种基于混合神经网络模型的视频去色方法
CN110188625B (zh) 一种基于多特征融合的视频精细结构化方法
CN114579805B (zh) 一种基于注意力机制的卷积神经网络相似视频检索方法
CN113139544A (zh) 一种基于多尺度特征动态融合的显著性目标检测方法
CN116958786A (zh) 一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法
CN116684528A (zh) 一种视频彩铃不同视角的推荐方法
CN114567798B (zh) 一种针对互联网短视频变种的溯源方法
CN116452472A (zh) 基于语义知识引导的低照度图像增强方法
CN107766838B (zh) 一种视频场景切换检测方法
CN113297899B (zh) 一种基于深度学习的视频哈希算法
CN116188555A (zh) 一种基于深度网络与运动信息的单目室内深度估计算法
CN111813996B (zh) 基于单帧和连续多帧抽样并行的视频搜索方法
CN111476131B (zh) 一种视频处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Convolutional Neural Network Similar Video Retrieval Method Based on Attention Mechanism

Effective date of registration: 20230802

Granted publication date: 20230328

Pledgee: Zhongguancun Beijing technology financing Company limited by guarantee

Pledgor: BEIJING SCISTOR TECHNOLOGIES CO.,LTD.

Registration number: Y2023990000389