CN111274445B - 基于三元组深度学习的相似视频内容检索方法及系统 - Google Patents

基于三元组深度学习的相似视频内容检索方法及系统 Download PDF

Info

Publication number
CN111274445B
CN111274445B CN202010065347.XA CN202010065347A CN111274445B CN 111274445 B CN111274445 B CN 111274445B CN 202010065347 A CN202010065347 A CN 202010065347A CN 111274445 B CN111274445 B CN 111274445B
Authority
CN
China
Prior art keywords
video
hash
retrieved
triple
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010065347.XA
Other languages
English (en)
Other versions
CN111274445A (zh
Inventor
聂秀山
周鑫
尹义龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202010065347.XA priority Critical patent/CN111274445B/zh
Publication of CN111274445A publication Critical patent/CN111274445A/zh
Application granted granted Critical
Publication of CN111274445B publication Critical patent/CN111274445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于三元组深度学习的相似视频内容检索方法及系统,包括:建立视频哈希检索模型,采用构建好的视频三元组对所述模型进行训练;将经过预处理后的待检索视频输入训练好的视频哈希检索模型,得到待检索视频的哈希码;将待检索视频的哈希码与视频库中视频哈希码进行比较,按海明距离进行排序返回,确定与带检索视频内容最相近的视频。本发明充分利用了视频的标签信息,并对视频的时序信息进行了融合,降低了训练模型的计算量,并提高了视频检索的效率。

Description

基于三元组深度学习的相似视频内容检索方法及系统
技术领域
本发明涉及相似视频内容检索技术领域,特别是涉及一种基于三元组深度学习的相似视频内容检索方法及系统。
背景技术
随着互联网的高速发展和网络宽带速度的大幅提高,近年来,由互联网用户产生的以视频和图像为主的多媒体信息呈现井喷式的增长。从用户手中移动终端的各个视频软件到存储海量视频的各大视频网站,如何能快速的对大规模的视频进行处理成为了目前多媒体及大数据分析的一个重点研究方向。对于用户来说,能否从海量视频中快速的检索出自己感兴趣的内容是十分重要的;而对于互联网企业来说,有效的视频检索能够对用户进行精准的内容推荐和广告投放。
传统的检索过程通常由检索内容的文本标注作为检索键值,然而对于当前如此庞大的视频产出量和上传量来说,对视频进行完整的文本标注是不现实也不可能的,因此基于内容的检索便成了一种十分关键的手段。具体来讲,基于内容的视频检索即给定一个视频,仅仅根据此视频内容检索出与其具有语义相似性的相关视频。传统的基于内容的检索通常先对视频提取特征,之后与视频库中的视频特征计算欧式距离并基于距离由小到大给出检索排序。这一方法对于当前大规模视频库来说,对于存储需求以及计算量需求较大,且基于欧式距离的计算复杂度较高。
为了解决这一问题,以哈希检索为代表的近似最近邻搜索方法近年来被广泛研究。哈希检索的过程主要分为两步,第一步将原始的视频进行特征学习和降维,将原始视频的高维特征表示映射到低维度的二进制哈希码空间,并通过设计相应的损失函数来保持原始空间中的近邻关系,即在原始视频中语义相似的两个视频在哈希码空间中的哈希码也应是具有较小差异的。第二步在检索过程中,将查询视频以相同映射转化为哈希码后,将哈希码与视频库中的视频哈希码进行比对,根据海明距离排序来得出检索视频序列。得益于计算机在异或(XOR)运算中的极快速度和二进制码的存储优势,海明距离计算的时间复杂度和空间复杂度都远远小于欧式距离的计算和存储,从而达到快速近似最近邻检索的目标,可以显著提升大规模检索的速度和性能。
得益于哈希检索优异的检索效率,该技术在视频制作及传播日益迅猛的背景下具有重要的理论意义和应用价值,近年来已成为多媒体信息分析研究领域的热点。发明人发现,在已有的文献和技术中存在的视频哈希检索方法主要分为两类,一种是利用线性映射的浅层方法,主要出现于早期的视频哈希研究中,这类方法简单的将视频特征视为图像特征来处理,且哈希函数多为线性映射,性能较低。另一种是将视频看作多个场景的结合,并将每个场景通过深度哈希函数得到一个哈希码,对每个视频产生多个哈希码作为整个视频的哈希矩阵。这类方法缺陷在于需要使用的视频帧较多,数据量较大,在哈希过程中忽视了时序特征(场景间)联系,且最后产生的哈希码矩阵冗余较大,所占空间较大,与哈希技术本身的特性相违背。
发明内容
有鉴于此,本发明公开了一种基于三元组深度学习的相似视频内容检索方法及系统,通过卷积神经网络和循环神经网络提取视频的局部图像特征和时域特征,并通过三元组信息和类别信息对整个网络进行训练,并辅以哈希码位约束来使生成的哈希码可以容纳更多信息,使最终对视频生成的哈希码具有很高的检索精度。
为了实现上述目的,在一些实施方式中,本发明采用如下技术方案:
基于三元组深度学习的相似视频内容检索方法,包括:
建立视频哈希检索模型,采用构建好的视频三元组对所述模型进行训练;
将经过预处理后的待检索视频输入训练好的视频哈希检索模型,得到待检索视频的哈希码;
将待检索视频的哈希码与视频库中视频哈希码进行比较,按海明距离进行排序返回,确定与带检索视频内容最相近的视频。
在另一些实施方式中,本发明采用如下技术方案:
基于三元组深度学习的相似视频内容检索系统,包括:
用于建立视频哈希检索模型,采用构建好的视频三元组对所述模型进行训练的装置;
用于将经过预处理后的待检索视频输入训练好的视频哈希检索模型,得到待检索视频的哈希码的装置;
用于将待检索视频的哈希码与视频库中视频哈希码进行比较,按海明距离进行排序返回,确定与带检索视频内容最相近的视频的装置。
在另一些实施方式中,本发明采用如下技术方案:
一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行上述的基于三元组深度学习的相似视频内容检索方法。
在另一些实施方式中,本发明采用如下技术方案:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行上述的基于三元组深度学习的相似视频内容检索方法。
与现有技术相比,本发明的有益效果是:
本发明充分利用了视频的标签信息,并对视频的时序信息进行了融合,降低了训练模型的计算量,并提高了视频检索的效率。
本发明通过卷积神经网络来对视频中每一帧进行特征提取,并通过一个长短时记忆网络来对各个帧进行时域融合,充分考虑了视频的视觉信息和时空信息。
本发明既克服了传统方法对视频特征提取的局限性,实现了对视频帧图像高级特征的提取的同时对视频的时序信息进行了较好的融合,同时通过三元组和分类误差使哈希码具有较强的判别和分类能力,提高检索精度。此外,关于哈希码的两项约束使得哈希码可以容纳更多信息。与已有方法相比,减少了计算复杂度的同时提高了检索精度。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是本发明实施例中基于三元组深度学习的相似视频内容检索方法示意图;
图2(a)-(c)分别是本发明实施例中检索哈希码位数为16位,32位和64位时的精度-召回率曲线。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
在一个或多个实施方式中,公开了一种基于三元组深度学习的相似视频内容检索方法,参照图1,包括如下步骤:
(1)视频预处理
视频在检索过程中,由于所含帧数非常多(24帧/秒),应用全部的视频帧所产生的计算量非常大。而在同一视频相邻帧之间变化往往很小,如果全部使用也会带来较多冗余的信息。为此,我们对视频采用均匀采样,在本实施例的实验中统一采样25-32帧,在应用中可根据实际情况依据视频长短来相应调整帧数。然后对每一帧的尺寸进行标准化,在本发明中,将每帧的分辨率设为224x224,来使输入模型的数据标准化。
(2)建立视频哈希检索模型,采用构建好的视频三元组对所述模型进行训练;
①训练集构建视频三元组。对于均匀采样的训练集视频,将其按照每个三元组一个样例视频,一个与样例视频同类的视频,一个与样例视频不同类的视频组成三元组;
②网络模型前向传播。将三元组输入网络,首先经过卷积神经网络对每一帧得到一个4096维的向量表示,之后按各个帧的时间顺序,将这些向量逐个输入长短时记忆网络,将最后一个时间步输出的512维向量作为整个视频的特征。在经过一个全连接层的维度转变后,就可将原视频映射至哈希空间。之后通过分类模块可同时得出将哈希码用于分类的结果。
具体地,将步骤(1)中构建的训练集中输入的三元组视频进行平均抽帧,并将其输入依次输入卷积神经网络和循环神经网络(长短时记忆网络),并通过若干全连接层得到每个视频的低维哈希向量;
另外将每个视频的低维哈希向量用于分类,分类误差可用如式(1)的交叉熵损失来表示,此举可以加强哈希码的判别能力;
Figure BDA0002375799720000061
其中,xc表示将哈希向量用于分类的分类向量,gt表示该视频的真实类别,函数I为指示函数,当且仅当其下标所代表的等式真值为真时其值为1,反之为0;
③更新模型参数。分别计算三元组损失,分类损失以及哈希码位约束项损失,并通过梯度反向传播更新参数。损失计算公式如式(4)所示。重复②③过程直到达到预设的终止条件。
具体地,损失包括:
1)三元组损失:使三元组中不同类样本间距离与同类样本间距离差值大于一个阈值,如式(2);
2)分类损失如式(1)所示;
3)哈希码位约束:使所产生的简短的哈希码各位有50%的概率为0或1,并使哈希码各个位不相关,如式(3),此举可以使哈希码容纳更多信息,提高哈希码质量。
Figure BDA0002375799720000071
Figure BDA0002375799720000072
其中
Figure BDA0002375799720000073
为网络生成的哈希码向量,
Figure BDA0002375799720000074
为设定的阈值,1为全1列向量,I为单位向量;{x,x+,x-}表示测试中输入的视频三元组,其中x+与x相似(同类),x-与x不相似(不同类);N为每个训练批次中视频三元组的个数。
整个损失函数如式(4)所示:
Figure BDA0002375799720000075
每次输入三元组前向传播后,根据式(4)中损失反向传播,更新网络参数,训练模型。对整个训练集经过100-200次迭代训练后,得到最终训练好的网络模型。
λ、θ为平衡超参数,根据验证实验结果取得;优选地,取λ=2,θ=0.01时,整个模型的检索性能最好,可保证检索最靠前的5个样本的平均精度可以达到90%以上。
(3)将经过预处理后的待检索视频输入训练好的视频哈希检索模型,得到待检索视频的哈希码;
①将待检索视频进行预处理。与训练视频处理类似,进行均匀采样和视频帧尺寸标准化。
②进行哈希码计算。将处理好的待检索视频输入训练好的网络模型,前向传播后得到该视频的哈希码;如式(5):
Figure BDA0002375799720000081
其中V表示待检索视频,sign函数为量化函数,目的是将网络输出的实数值量化为离散的0/1码,便于之后的检索。
(4)将待检索视频的哈希码与视频库中视频哈希码进行比较,按海明距离进行排序返回,确定与带检索视频内容最相近的视频。
①将该哈希码与现有检索视频库中的视频哈希码进行对比,可通过0/1异或运算快速的计算出待检索视频和视频库视频的海明距离;
②依照海明距离从小到大将检索出来的视频排序返回,海明距离越小代表两个视频内容上越相近。
对本实施例方法进行仿真验证,图2是本发明在10100个视频的数据库上的Precision-Recall(精度-召回率)曲线,表1为本发明在检索出500个视频时的平均精度均值,每个仿真实验中都测试了三种哈希码位数(16,32,64位)的性能表现,并与现有的8种方法(分别记为LSH、ITQ、PCAH、SH、SKLSH、DSH、DVH、SSVH)进行了比较,均可以看出本发明的方法性能较好。平均精度均值(mean Average Precision)的定义如下:
Figure BDA0002375799720000082
其中,R表示范围中相似视频的总个数,K表示总检索范围,Ri表示检索到第i个视频时检索出相似视频的个数。
表1.平均精度均值统计表(前500个视频,%)
检索方法\哈希码长 16位 32位 64位
LSH 14.77 16.73 21.23
ITQ 21.85 30.96 33.76
PCAH 14.86 14.14 13.18
SH 20.41 28.48 33.27
SKLSH 11.44 13.31 23.33
DSH 16.59 25.12 29.84
DVH 30.37 33.17 35.60
SSVH 15.23 20.78 19.07
本发明方法 79.31 84.54 87.43
实施例二
在一个或多个实施方式中,公开了一种终端设备,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中的基于三元组深度学习的相似视频内容检索方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的基于三元组深度学习的相似视频内容检索方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.基于三元组深度学习的相似视频内容检索方法,其特征在于,包括:
将待检索视频进行预处理,进行均匀采样和视频帧尺寸标准化;
建立视频哈希检索模型,采用构建好的视频三元组和损失函数对所述模型进行训练;所述损失函数包括三元组损失、分类损失和哈希码位约束;
将经过预处理后的待检索视频输入训练好的视频哈希检索模型,前向传播后得到待检索视频的哈希码;所述前向传播,通过卷积神经网络提取视频帧的局部空间特征,通过长短时记忆网络对帧特征进行时域融合,再通过全连接层得到视频的低维哈希向量;
将待检索视频的哈希码与视频库中视频哈希码进行比较,按海明距离进行排序返回,确定与带检索视频内容最相近的视频。
2.如权利要求1所述的基于三元组深度学习的相似视频内容检索方法,其特征在于,将待使用的训练集按照类别构造三元组视频,其中每个三元组包括一个样例视频和一个与样例视频相似的视频,以及另一个与样例视频不相似的视频。
3.如权利要求1所述的基于三元组深度学习的相似视频内容检索方法,其特征在于,构造三元组视频之后,将训练集中的三元组视频进行平均抽帧,并依次输入卷积神经网络和循环神经网络,通过若干全连接层得到每个视频的低维哈希向量;
将每个视频的低维哈希向量用于分类;
计算三元组哈希网络的损失,并将损失反向传播来训练网络;
每次输入三元组视频前向传播后,根据损失反向传播,更新网络参数,训练模型;
对整个训练集经过设定次数的迭代训练后,得到训练好的网络模型。
4.如权利要求1所述的基于三元组深度学习的相似视频内容检索方法,其特征在于,将每个视频的低维哈希向量用于分类,采用交叉熵损失来表示分类误差,具体为:
Figure FDA0002936012330000021
其中,xc表示将哈希向量用于分类的分类向量,gt表示该视频的真实类别,函数I为指示函数,当且仅当其下标所代表的等式真值为真时其值为1,反之为0;c表示类别总数,i和j表示当前视频的分类哈希向量中对应第i类和第j类的情况。
5.如权利要求1所述的基于三元组深度学习的相似视频内容检索方法,其特征在于,对待检测视频的预处理过程为:
对视频采用均匀采样,根据实际情况依据视频长短来相应调整帧数;对每一帧的尺寸进行标准化。
6.如权利要求1所述的基于三元组深度学习的相似视频内容检索方法,其特征在于,将经过预处理后的待检索视频输入训练好的视频哈希检索模型,得到待检索视频的哈希码;具体为:
将帧输入视频哈希检索模型进行前向传播,通过卷积神经网络提取视频帧的局部空间特征,通过长短时记忆网络对帧特征进行时域融合,最后通过三元组损失,分类损失及哈希码位约束来训练网络,使网络生成具有判别性的优质哈希码。
7.如权利要求1所述的基于三元组深度学习的相似视频内容检索方法,其特征在于,将待检索视频的哈希码与视频库中视频哈希码进行比较,按海明距离进行排序返回,具体为:
将哈希码与现有检索视频库中的视频哈希码进行对比,通过0/1异或运算快速的计算出待检索视频和视频库视频的海明距离;
依照海明距离从小到大将检索出来的视频排序返回,海明距离越小代表两个视频内容上越相近。
8.基于三元组深度学习的相似视频内容检索系统,其特征在于,包括:
用于待检索视频进行预处理模型,进行均匀采样和视频帧尺寸标准化;
用于建立视频哈希检索模型,采用构建好的视频三元组和损失函数对所述模型进行训练的装置;损失函数包括三元组损失、分类损失和哈希码位约束;
用于将经过预处理后的待检索视频输入训练好的视频哈希检索模型,前向传播后得到待检索视频的哈希码的装置;前向传播,通过卷积神经网络提取视频帧的局部空间特征,通过长短时记忆网络对帧特征进行时域融合,再通过全连接层得到视频的低维哈希向量;
用于将待检索视频的哈希码与视频库中视频哈希码进行比较,按海明距离进行排序返回,确定与带检索视频内容最相近的视频的装置。
9.一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行权利要求1-7任一项所述的基于三元组深度学习的相似视频内容检索方法。
10.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行权利要求1-7任一项所述的基于三元组深度学习的相似视频内容检索方法。
CN202010065347.XA 2020-01-20 2020-01-20 基于三元组深度学习的相似视频内容检索方法及系统 Active CN111274445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010065347.XA CN111274445B (zh) 2020-01-20 2020-01-20 基于三元组深度学习的相似视频内容检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010065347.XA CN111274445B (zh) 2020-01-20 2020-01-20 基于三元组深度学习的相似视频内容检索方法及系统

Publications (2)

Publication Number Publication Date
CN111274445A CN111274445A (zh) 2020-06-12
CN111274445B true CN111274445B (zh) 2021-04-23

Family

ID=71001131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010065347.XA Active CN111274445B (zh) 2020-01-20 2020-01-20 基于三元组深度学习的相似视频内容检索方法及系统

Country Status (1)

Country Link
CN (1) CN111274445B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831852B (zh) * 2020-07-07 2023-11-24 北京灵汐科技有限公司 一种视频检索方法、装置、设备及存储介质
CN112016682B (zh) * 2020-08-04 2024-01-26 杰创智能科技股份有限公司 视频表征学习、预训练方法及装置、电子设备、存储介质
CN113297899B (zh) * 2021-03-23 2023-02-03 上海理工大学 一种基于深度学习的视频哈希算法
CN113657272B (zh) * 2021-08-17 2022-06-28 山东建筑大学 一种基于缺失数据补全的微视频分类方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN107657008A (zh) * 2017-09-25 2018-02-02 中国科学院计算技术研究所 基于深度判别排序学习的跨媒体训练及检索方法
CN109740481A (zh) * 2018-12-26 2019-05-10 山东科技大学 基于跳跃连接的cnn与lstm结合的房颤信号分类方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3555850B1 (en) * 2016-12-15 2021-10-27 General Electric Company System and method for image segmentation using a joint deep learning model
CN107066621B (zh) * 2017-05-11 2022-11-08 腾讯科技(深圳)有限公司 一种相似视频的检索方法、装置和存储介质
CN108805077A (zh) * 2018-06-11 2018-11-13 深圳市唯特视科技有限公司 一种基于三元组损失函数的深度学习网络的人脸识别系统
CN108960184B (zh) * 2018-07-20 2021-08-24 天津师范大学 一种基于异构部件深度神经网络的行人再识别方法
CN109492129B (zh) * 2018-10-26 2020-08-07 武汉理工大学 一种基于双流神经网络的相似视频搜索方法和系统
CN110059206A (zh) * 2019-03-29 2019-07-26 银江股份有限公司 一种基于深度表征学习的大规模哈希图像检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN107657008A (zh) * 2017-09-25 2018-02-02 中国科学院计算技术研究所 基于深度判别排序学习的跨媒体训练及检索方法
CN109740481A (zh) * 2018-12-26 2019-05-10 山东科技大学 基于跳跃连接的cnn与lstm结合的房颤信号分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于深度度量学习的视频分类方法;智洪欣等;《电子与信息学报》;20180823;第40卷(第11期);2562-2569 *
基于相似度驱动的线性哈希模型参数再优化方法;聂秀山等;《软件学报》;20200117;第31卷(第4期);1039-1050 *

Also Published As

Publication number Publication date
CN111274445A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111274445B (zh) 基于三元组深度学习的相似视频内容检索方法及系统
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN109783655B (zh) 一种跨模态检索方法、装置、计算机设备和存储介质
CN108829757B (zh) 一种聊天机器人的智能服务方法、服务器及存储介质
WO2022088672A1 (zh) 基于bert的机器阅读理解方法、装置、设备及存储介质
CN108694225B (zh) 一种图像搜索方法、特征向量的生成方法、装置及电子设备
WO2020244437A1 (zh) 图像处理方法、装置及计算机设备
US11080910B2 (en) Method and device for displaying explanation of reference numeral in patent drawing image using artificial intelligence technology based machine learning
CN108304911A (zh) 基于记忆神经网络的知识抽取方法以及系统和设备
Unar et al. Detected text‐based image retrieval approach for textual images
CN113127632B (zh) 基于异质图的文本摘要方法及装置、存储介质和终端
CN105095435A (zh) 一种图像高维特征的相似比较方法及装置
US9330332B2 (en) Fast computation of kernel descriptors
CN115443490A (zh) 影像审核方法及装置、设备、存储介质
CN114064948A (zh) 基于广义平均池化策略的哈希图像检索方法及装置
US11281714B2 (en) Image retrieval
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
CN116527357A (zh) 一种基于门控Transformer的Web攻击检测方法
CN107391599B (zh) 基于风格特征的图像检索方法
CN115392357A (zh) 分类模型训练、标注数据样本抽检方法、介质及电子设备
CN112182337B (zh) 从海量短新闻中识别相似新闻的方法及相关设备
Dourado et al. Event prediction based on unsupervised graph-based rank-fusion models
CN116047418A (zh) 基于小样本的多模态雷达有源欺骗干扰识别方法
WO2023155304A1 (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN116186708A (zh) 类别识别模型生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200612

Assignee: Jinan Chuguang Information Technology Co.,Ltd.

Assignor: Shandong University of Architecture

Contract record no.: X2021980005701

Denomination of invention: Similar video content retrieval method and system based on triple deep learning

Granted publication date: 20210423

License type: Common License

Record date: 20210702

EE01 Entry into force of recordation of patent licensing contract