CN106682108A - 一种基于多模态卷积神经网络的视频检索方法 - Google Patents

一种基于多模态卷积神经网络的视频检索方法 Download PDF

Info

Publication number
CN106682108A
CN106682108A CN201611106368.1A CN201611106368A CN106682108A CN 106682108 A CN106682108 A CN 106682108A CN 201611106368 A CN201611106368 A CN 201611106368A CN 106682108 A CN106682108 A CN 106682108A
Authority
CN
China
Prior art keywords
video
frame
convolutional neural
sub
key frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611106368.1A
Other languages
English (en)
Other versions
CN106682108B (zh
Inventor
周玲强
英天煜
吴茂英
厉晓华
王亮
周永广
吕佳颖
林珊珊
王敏娴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201611106368.1A priority Critical patent/CN106682108B/zh
Publication of CN106682108A publication Critical patent/CN106682108A/zh
Application granted granted Critical
Publication of CN106682108B publication Critical patent/CN106682108B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多模态卷积神经网络的视频检索方法,包括:步骤1,针对视频数据库中的视频,利用各视频中相邻帧的色彩信息特征,将各视频分割为多个子视频片段;步骤2,提取每个子视频片段的关键帧;步骤3,针对视频数据库中的视频,提取视频的视频特征;步骤4,将子视频片段、关键帧和视频特征作为输入,对标准卷积神经网络模型进行训练,得到多模态卷积神经网络;步骤5,针对待检索视频,提取关键帧和视频特征并作为输入,利用步骤4的多模态卷积神经网络进行相似性判断,得到检索结果。本发明基于多模态卷积神经网络,同时充分考虑视频的本质特征,能够克服因视频亮度模糊、亮度整体漂移、再编辑视频等导致检索准确度不高的问题。

Description

一种基于多模态卷积神经网络的视频检索方法
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于多模态卷积神经网络的视频检索方法。
背景技术
随着网络技术、计算机技术、采集硬件技术等的飞速发展,视频数据已经被广泛用于教育、文化、娱乐、商务等领域,每年都有海量的视频数据内容被采集、录制或者制作出来,视频数据量呈现几何级的爆炸式增长。
在文化遗产领域特别是非文化遗产领域,每年都有大量非文化遗产的视频被录制,而这些视频的出现,给视频传播以及视频共享带来很大的问题,比如是否需要重新录制某一个非文化遗产的视频,同时由于视频数据量过大导致视频无法共享,进而对视频的传播和复制带来诸多问题,例如,视频盗版等给版权所有者带来了极大的损失。
如何在海量视频数据库中快速准确地检索到相似或者近似的视频数据片段,已成为多媒体视频内容分析以及检索研究的一个非常重要的热点问题,也是非文化遗产领域的一个重要的应用领域问题。传统的人工搜索视频数据的方式远远不能够满足实际应用的需要,目前基于内容(content based video retrieval,CBVR)的视频检索技术已经成为国内外视频检索领域的研究热点之一,但是由于视频数据内容的丰富性、分辨率的多样性、题材的复杂性,以及人们对视频数据内容评价的主观性,使得从视频数据内容中提取的底层本质视觉特征与用户本身对视频数据内容的理解差异导致“语义鸿沟”。
文献[DOUZE M,JEGOUH,SCHMID C.An image based approach to video copydetection with spatiotemporal post filtering[J].IEEE Transactions onMultimedia,2010,12(4):257—266.]提出帧匹配算法,利用局部特征进行检索。
文献[ZHUANG Xin-yue,JIA Kebin.An effective video matching algorithmfor adaptive video fingerprints[C]∥Nonlinear Signal and Image Processing,IEEE Eurasip.Sapporo:IEEE,2005:33.]提出了一种基于视频数据指纹的视频数据的检索算法,通过分析提取视频数据的指纹,然后利用指纹的相似性匹配来对视频数据进行相似性判断,并用于检索。
文献[ROOPALAKSHMIA R,REDDYA G.A novel approach to video copydetection using audio fingerprints and PCA[J].Procedia Computer Science,2011,5:149-156.]提出了一种基于视频中音频数据指纹的视频数据检索算法,通过分析和提取音频特征,然后利用主成分分析(principal components analysis,PCA)提取主要特征(作为音频指纹)进行视频检索。
文献[MIN Hyun-seok,CHOI Jaeyoung,NEVE Wesleyde,eta.Leveraging animage folksonomy and the signature quadratic form distance for semantic-baseddetection of near duplicate video clips[C]//2011IEEE International Conferenceon Multimedia and Expo.Barcelona:IEEE,2011:16.]提出了一种基于视频语义的视频数据检索方法,利用视频图像分类提取高层的语义。
上述方法都取得了一定的成效,但是也都存在一些问题,比如算法复杂度高、计算量巨大、视频数据的特征分析难度大等。如何有效减少检索算法的计算量从而有效降低算法的时间复杂度,与此同时提高算法的检索准确度是目前主要需要解决的问题。
发明内容
本发明提供了一种基于多模态卷积神经网络的视频检索方法,基于多模态卷积神经网络,同时充分考虑视频的本质特征,能够克服因为视频亮度模糊、亮度整体漂移、再编辑视频等导致检索准确度不高的问题。
一种基于多模态卷积神经网络的视频检索方法,包括:
步骤1,针对视频数据库中的视频,利用各视频中相邻帧的色彩信息特征,将各视频分割为多个子视频片段;
步骤2,提取每个子视频片段的关键帧;
步骤3,针对视频数据库中的视频,通过构建标准的受限玻尔兹曼机网络模型,提取视频的视频特征;
步骤4,将子视频片段、关键帧和视频特征作为输入,对标准卷积神经网络模型进行训练,得到多模态卷积神经网络;
步骤5,针对待检索视频,采用步骤1~步骤3的方法进行关键帧提取和视频特征提取,并将子视频片段,以及提取到的关键帧和视频特征作为输入,利用步骤4的多模态卷积神经网络进行相似性判断,得到检索结果。
本发明提供的基于多模态卷积神经网络的视频检索方法,首先利用视频数据库中的已有视频训练标准卷积神经网络,得到多模态卷积神经网络,然后,将待检索视频的关键帧以及视频特征作为输入,检索到相应的视频。
训练标准卷积神经网络时,以子视频片段、关键帧、视频特征作为输入,充分考虑了视频的本质特性,使视频检索的准确度大大提高。
本发明利用子视频片段、关键帧、视频特征等多模态数据训练多模态卷积神经网络,同时在视频检索时也是利用子视频片段、关键帧、视频特征等多模态数据作为多模态卷积神经网络的输入数据,视频检索时综合考虑了子视频片段、关键帧、视频特征等方面的信息,检索准确率大大提高。
作为优选,步骤1的具体操作如下:
步骤a),将视频的颜色空间转换为HIS颜色空间;
步骤b),将视频中的任意一帧分割为若干大小相同的子区域;
步骤c),计算每个子区域中,所有像素点的色调之和、亮度之和、以及饱和度之和;
步骤d),计算每个子区域的色调平均值、亮度平均值、以及饱和度平均值;
步骤e),计算每帧视频中,所有子区域的色调平均值、亮度平均值、以及饱和度平均值之和,记为CHSI
步骤f),计算相邻两帧的CHSI差值,若差值小于第一阈值,则将两帧划分至同一个子视频片段,否则,划分至不同的子视频片段。
作为优选,步骤2的具体操作如下:
步骤A,针对子视频片段,依据设定的时间间隔选取至少五帧图像作为备选关键帧;
步骤B、计算任意两个备选关键帧的图像距离;
若所有图像距离均小于第二阈值,则选取时间上处于中间位置的视频帧作为关键帧;
若所有图像距离均大于第二阈值,则所有备选关键帧均作为关键帧;
否则,选取图像距离最大的两个备选关键帧作为关键帧。
第一阈值和第二阈值的大小根据需要进行选定。
作为优选,步骤3采用无监督学习的方法构建标准的受限玻尔兹曼机网络模型,利用标准的受限玻尔兹曼机网络模型中隐藏层单元激活与非激活状态对应的平均值、方差和响应次数,提取隐藏层中激活值大且激活概率高的单元作为视频特征。
本发明提供的视频检索方法充分考虑了视频的各种本质特性,利用深度学习的方法进行训练,使得视频检索的准确度大大提高,对视频模糊、视频亮度整体漂移以及视频再编辑(如裁剪、拼接、慢放快进等都会导致同一段视频内容具有时间跨度不同的问题)等特殊情况具有很好的检索效果。
附图说明
图1为本发明基于多模态卷积神经网络的视频检索方法的流程图。
具体实施方式
下面结合附图,对本发明基于多模态卷积神经网络的视频检索方法做详细描述。
如图1所示,一种基于多模态卷积神经网络的视频检索方法,主要包括以下步骤:
(1)视频分段:利用视频片段相邻帧之间的HIS(色调Hue,亮度Intensity,饱和度Saturation)的色彩信息特征将视频片段分割成多个子视频片段。
本步骤取HIS视频图像色彩信息中的色调H、亮度I和饱和度S作为视频分割的特征依据,具体的视频片段分割方法如下:
步骤a),首先将视频图像的RGB颜色空间转换成HIS颜色空间,具体的转换方法和公式见文献[顾波,邱道尹,梁祥州.基于彩色转换的水果分类系统设计[J].农机化研究.2007,5(5):105-107.];
步骤b),将视频片段中的任意一帧分割为若干子区域,子区域的大小为32×32;
步骤c),针对视频片段中任意一帧的每一个子区域,计算该子区域中所有像素点的色调H、亮度I和饱和度S之和;
步骤d),分别算出每个子区域的色调H、亮度I和饱和度S的平均值,计算的公式如下:
Hi,j,a=Hi,a/m;
Si,j,a=Si,a/m;
Ii,j,a=Ii,a/m;
其中,Hi,a表示第i帧第j个子区域中所有像素点的色调H之和;
Si,a表示第i帧第j个子区域中所有像素点的饱和度S之和;
Ii,a表示第i帧第j个子区域中所有像素点的亮度I之和;
Hi,j,a表示第i帧第j个子区域的色调H的平均值;
Si,j,a表示第i帧第j个子区域的饱和度S的平均值;
Ii,j,a表示第i帧第j个子区域的亮度I的平均值;
m表示第i帧第j个子区域的像素个数。
步骤e),计算第i帧中所有子区域的色调H、亮度I和饱和度S的平均值的和Ci,HSI,公式如下:
Ci,HSI=Hi,1,a+Si,1,a+Ii,1,a+…+Hi,1024,a+Si,1024,a+Ii,1024,a
步骤1-f、计算视频片段中的每一帧与下一相邻的视频帧的帧间数值差C′,计算帧间数值差采用如下公式计算:
C′=Ci,HSI-Ci+1,HSI
Ci+1,HSI为第i+1帧中所有子区域的色调H、亮度I和饱和度S的平均值之和。
若帧间数值差C′比预定的阈值小,则认为这两帧差异不大,将其划分到同一个子视频片段;若帧间数值差C′等于或大于预定的阈值,则认为这两帧差异较大,划分到不同的子视频片段。
(2)特征提取:利用视频数据库中的已有视频作为训练样本,通过无监督学习,构建一个标准的受限玻尔兹曼机网络模型。
首先,将预训练的标准的受限玻尔兹曼机模型隐藏层分为两个小组,一个小组对应视频数据的前景内容,另一个小组对应视频数据的背景内容,然后以混合结构的玻尔兹曼机模型对输入视频数据的前景内容和背景内容分别构建模型和训练学习。当标准的受限玻尔兹曼机网络模型预先学习训练以后,混合结构的玻尔兹曼机模型就包含视频目标潜在特征的隐藏层单元。由于视频目标特征在学习训练时出现的概率总是高于背景内容噪声,因此该标准的受限玻尔兹曼机网络模型对应的隐藏层单元的激活值(概率值)就大,且激活的次数较多。
本发明利用标准的受限玻尔兹曼机网络模型的隐藏层单元激活与非激活状态分别对应的平均值、方差和响应次数,提取模型隐藏层中激活值大且概率高的单元,并把该单元作为视频目标的特征单元。
(3)关键帧分析:针对每个子视频片段进行关键帧提取;
根据各子视频片段的不同特点,关键帧提取算法自动地提取1~5帧视频图像作为关键帧。假设用f表示1帧图像,P={fn,n=1,2,3,…,M}表示具有M帧图像的1个子视频片段,首先选取f1,fM/5,f2M/5,f3M/5,fM图像帧作为备选的视频关键帧。定义两帧视频图像和fj间的距离为
D(fi,fj)=∑x,y|fi(x,y)-fj(x,y)|
其中fi(x,y),fj(x,y)分别是第i帧和第j帧的坐标为(x,y)的像素颜色值。
分别计算上面五个备选的视频关键帧之间的距离D,根据预先设定的阈值,按如下原则遴选关键帧:
a)如果所有的距离都比阈值小,此时选取最中间的视频帧为关键帧;
b)如果所有的距离都比阈值大,将上述五个视频帧都作为关键帧;
c)在其它情况下,选取距离最大的两帧视频图像为关键帧。
(4)多模态卷积神经网络训练:将视频片段、关键帧、视频片段特征作为输入,对标准卷积神经网络进行训练,得到一个多模态卷积神经网络模型。
将原始视频图像进行处理后(即进行视频分段、关键帧提取、以及特征提取处理后),需要对原始视频图像和处理后的视频图像所构成的多模态视频图像分别进行区域划分。多模态卷积神经网络用于区域划分时,一般是基于图像包(patch)的区域划分,即多模态卷积神经网络的输入是一个图像包(patch),输出是该视频图像包(patch)的中心点类别,通过滑动取包(patch)的方式完成整个图像的区域全覆盖。
本发明采用平行的卷积神经网络对输入视频数据进行处理,每个卷积神经网络都采用标准的结构,分为6层神经网络,主要包括输入层、卷积层、采样层、卷积层、降采样层、卷积层、分类层和输出层。卷积神经网络的输入为32*32大小的包,经过第一层卷积层卷积,得到16个特征图像。
本发明采用16个大小为8*8的卷积核卷积,因此卷积后的图像大小为32*32。卷积层的输出经过2*2的平均采样,得到16个16*16的特征图像,采用池化pooling层,可减少数据大小,同时可以提高处理效率,池化操作能够提高整个卷积神经网络的空间不变性。
本发明使用的卷积神经网络都采用相同的模型结构,因此所有的卷积神经网络都使用完全相同的模型参数来初始化,模型参数的初始化包括卷积核的初始化和分类层的初始化。所有的网络卷积核初始化为高斯分布N(0,0.3),分类层初始化为高斯分布N(0,0.15)。此外,所有的偏置参数设置为零。
本发明采用随机梯度下降算法(SGD)进行学习训练。由于视频图像经过不同的加工处理后,经由卷积神经网络区域化,会得到多个不同的结果,因此需要把这些不同的结果进行综合,得到一个最终的结果。本发明将各种不同的结果进行线性组合,具体的每种结果的权重可以根据经验选取。
(5)视频检索:将待检索的视频分割为多个子视频片段,对各子视频片段进行视频特征提取以及关键帧提取,将子视频片段,以及提取到的视频特征和关键帧作为输入,利用已经训练好的多模态卷积神经网络模型进行相似性判断,最后得到最终检索的视频。

Claims (3)

1.一种基于多模态卷积神经网络的视频检索方法,其特征在于,包括:
步骤1,针对视频数据库中的视频,利用各视频中相邻帧的色彩信息特征,将各视频分割为多个子视频片段;
步骤2,提取每个子视频片段的关键帧;
步骤3,针对视频数据库中的视频,通过构建标准的受限玻尔兹曼机网络模型,提取视频的视频特征;
步骤4,将子视频片段、关键帧和视频特征作为输入,对标准卷积神经网络模型进行训练,得到多模态卷积神经网络;
步骤5,针对待检索视频,采用步骤1~步骤3的方法进行关键帧提取和视频特征提取,并将子视频片段,以及提取到的关键帧和视频特征作为输入,利用步骤4的多模态卷积神经网络进行相似性判断,得到检索结果。
2.如权利要求1所述的基于多模态卷积神经网络的视频检索方法,其特征在于,步骤1的具体操作如下:
步骤a),将视频的颜色空间转换为HIS颜色空间;
步骤b),将视频中的任意一帧分割为若干大小相同的子区域;
步骤c),计算每个子区域中,所有像素点的色调之和、亮度之和、以及饱和度之和;
步骤d),计算每个子区域的色调平均值、亮度平均值、以及饱和度平均值;
步骤e),计算每帧视频中,所有子区域的色调平均值、亮度平均值、以及饱和度平均值之和,记为CHSI
步骤f),计算相邻两帧的CHSI差值,若差值小于第一阈值,则将两帧划分至同一个子视频片段,否则,划分至不同的子视频片段。
3.如权利要求1所述的基于多模态卷积神经网络的视频检索方法,其特征在于,步骤2的具体操作如下:
步骤A,针对子视频片段,依据设定的时间间隔选取至少五帧图像作为备选关键帧;
步骤B、计算任意两个备选关键帧的图像距离;
若所有图像距离均小于第二阈值,则选取时间上处于中间位置的视频帧作为关键帧;
若所有图像距离均大于第二阈值,则所有备选关键帧均作为关键帧;
否则,选取图像距离最大的两个备选关键帧作为关键帧。
CN201611106368.1A 2016-12-06 2016-12-06 一种基于多模态卷积神经网络的视频检索方法 Active CN106682108B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611106368.1A CN106682108B (zh) 2016-12-06 2016-12-06 一种基于多模态卷积神经网络的视频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611106368.1A CN106682108B (zh) 2016-12-06 2016-12-06 一种基于多模态卷积神经网络的视频检索方法

Publications (2)

Publication Number Publication Date
CN106682108A true CN106682108A (zh) 2017-05-17
CN106682108B CN106682108B (zh) 2022-07-12

Family

ID=58867612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611106368.1A Active CN106682108B (zh) 2016-12-06 2016-12-06 一种基于多模态卷积神经网络的视频检索方法

Country Status (1)

Country Link
CN (1) CN106682108B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506370A (zh) * 2017-07-07 2017-12-22 大圣科技股份有限公司 多媒体数据深度挖掘方法、存储介质及电子设备
CN107564032A (zh) * 2017-09-01 2018-01-09 深圳市唯特视科技有限公司 一种基于外观网络的视频跟踪对象分割方法
CN108197566A (zh) * 2017-12-29 2018-06-22 成都三零凯天通信实业有限公司 一种基于多路神经网络的监控视频行为检测方法
CN108229527A (zh) * 2017-06-29 2018-06-29 北京市商汤科技开发有限公司 训练及视频分析方法和装置、电子设备、存储介质、程序
CN108228915A (zh) * 2018-03-29 2018-06-29 华南理工大学 一种基于深度学习的视频检索方法
CN108427925A (zh) * 2018-03-12 2018-08-21 中国人民解放军国防科技大学 一种基于连续拷贝帧序列的拷贝视频检测方法
CN108664730A (zh) * 2018-05-11 2018-10-16 河北工业大学 一种面向多模态工业产品的动态色彩设计方法
CN109241342A (zh) * 2018-07-23 2019-01-18 中国科学院计算技术研究所 基于深度线索的视频场景检索方法和系统
CN109508408A (zh) * 2018-10-25 2019-03-22 北京陌上花科技有限公司 一种基于帧密度的视频检索方法及计算机可读存储介质
CN109874053A (zh) * 2019-02-21 2019-06-11 南京航空航天大学 基于视频内容理解和用户动态兴趣的短视频推荐方法
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN110263216A (zh) * 2019-06-13 2019-09-20 腾讯科技(深圳)有限公司 一种视频分类的方法、视频分类模型训练的方法及装置
CN110659576A (zh) * 2019-08-23 2020-01-07 深圳久凌软件技术有限公司 一种基于联合判断与生成学习的行人搜索方法及装置
CN110688524A (zh) * 2019-09-24 2020-01-14 深圳市网心科技有限公司 视频检索方法、装置、电子设备及存储介质
CN110942469A (zh) * 2019-12-06 2020-03-31 衢州学院 面向高清高速视频的双通道双模态背景建模方法
CN110991361A (zh) * 2019-12-06 2020-04-10 衢州学院 面向高清高速视频的多通道多模态背景建模方法
CN111008995A (zh) * 2019-12-06 2020-04-14 衢州学院 面向高清高速视频的单通道多模态背景建模方法
CN111028245A (zh) * 2019-12-06 2020-04-17 衢州学院 一种多模态复合的高清高速视频背景建模方法
CN111047654A (zh) * 2019-12-06 2020-04-21 衢州学院 一种基于色彩信息的高清高速视频背景建模方法
CN111339356A (zh) * 2020-02-21 2020-06-26 北京字节跳动网络技术有限公司 视频检索中防误判方法、装置及电子设备
CN112183328A (zh) * 2020-09-27 2021-01-05 北京永新视博数字电视技术有限公司 视频识别方法、装置、设备和存储介质
CN112464814A (zh) * 2020-11-27 2021-03-09 北京百度网讯科技有限公司 视频处理方法、装置、电子设备及存储介质
CN113742524A (zh) * 2021-08-11 2021-12-03 上海明略人工智能(集团)有限公司 视频快速检索方法、系统和视频快速推荐方法
US20220172476A1 (en) * 2019-07-18 2022-06-02 Huawei Technologies Co.,Ltd. Video similarity detection method, apparatus, and device
CN114882334A (zh) * 2022-04-29 2022-08-09 北京百度网讯科技有限公司 用于生成预训练模型的方法、模型训练方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090274434A1 (en) * 2008-04-29 2009-11-05 Microsoft Corporation Video concept detection using multi-layer multi-instance learning
CN102890700A (zh) * 2012-07-04 2013-01-23 北京航空航天大学 一种基于体育比赛视频的相似视频片段检索方法
CN103279473A (zh) * 2013-04-10 2013-09-04 深圳康佳通信科技有限公司 海量视频内容检索方法、系统及移动终端
CN103559196A (zh) * 2013-09-23 2014-02-05 浙江大学 一种基于多核典型相关分析的视频检索方法
CN104992347A (zh) * 2015-06-17 2015-10-21 北京奇艺世纪科技有限公司 一种视频匹配广告的方法及装置
CN105930402A (zh) * 2016-04-15 2016-09-07 乐视控股(北京)有限公司 基于卷积神经网络的视频检索方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090274434A1 (en) * 2008-04-29 2009-11-05 Microsoft Corporation Video concept detection using multi-layer multi-instance learning
CN102890700A (zh) * 2012-07-04 2013-01-23 北京航空航天大学 一种基于体育比赛视频的相似视频片段检索方法
CN103279473A (zh) * 2013-04-10 2013-09-04 深圳康佳通信科技有限公司 海量视频内容检索方法、系统及移动终端
CN103559196A (zh) * 2013-09-23 2014-02-05 浙江大学 一种基于多核典型相关分析的视频检索方法
CN104992347A (zh) * 2015-06-17 2015-10-21 北京奇艺世纪科技有限公司 一种视频匹配广告的方法及装置
CN105930402A (zh) * 2016-04-15 2016-09-07 乐视控股(北京)有限公司 基于卷积神经网络的视频检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
明巍: "基于内容的视频检索中关键帧提取算法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229527A (zh) * 2017-06-29 2018-06-29 北京市商汤科技开发有限公司 训练及视频分析方法和装置、电子设备、存储介质、程序
CN107506370A (zh) * 2017-07-07 2017-12-22 大圣科技股份有限公司 多媒体数据深度挖掘方法、存储介质及电子设备
CN107564032A (zh) * 2017-09-01 2018-01-09 深圳市唯特视科技有限公司 一种基于外观网络的视频跟踪对象分割方法
CN108197566B (zh) * 2017-12-29 2022-03-25 成都三零凯天通信实业有限公司 一种基于多路神经网络的监控视频行为检测方法
CN108197566A (zh) * 2017-12-29 2018-06-22 成都三零凯天通信实业有限公司 一种基于多路神经网络的监控视频行为检测方法
CN108427925A (zh) * 2018-03-12 2018-08-21 中国人民解放军国防科技大学 一种基于连续拷贝帧序列的拷贝视频检测方法
CN108427925B (zh) * 2018-03-12 2020-07-21 中国人民解放军国防科技大学 一种基于连续拷贝帧序列的拷贝视频检测方法
CN108228915A (zh) * 2018-03-29 2018-06-29 华南理工大学 一种基于深度学习的视频检索方法
CN108664730A (zh) * 2018-05-11 2018-10-16 河北工业大学 一种面向多模态工业产品的动态色彩设计方法
CN109241342A (zh) * 2018-07-23 2019-01-18 中国科学院计算技术研究所 基于深度线索的视频场景检索方法和系统
CN109508408A (zh) * 2018-10-25 2019-03-22 北京陌上花科技有限公司 一种基于帧密度的视频检索方法及计算机可读存储介质
CN109874053A (zh) * 2019-02-21 2019-06-11 南京航空航天大学 基于视频内容理解和用户动态兴趣的短视频推荐方法
CN109874053B (zh) * 2019-02-21 2021-10-22 南京航空航天大学 基于视频内容理解和用户动态兴趣的短视频推荐方法
CN110175266B (zh) * 2019-05-28 2020-10-30 复旦大学 一种用于多段视频跨模态检索的方法
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN110263216A (zh) * 2019-06-13 2019-09-20 腾讯科技(深圳)有限公司 一种视频分类的方法、视频分类模型训练的方法及装置
US20220172476A1 (en) * 2019-07-18 2022-06-02 Huawei Technologies Co.,Ltd. Video similarity detection method, apparatus, and device
CN110659576A (zh) * 2019-08-23 2020-01-07 深圳久凌软件技术有限公司 一种基于联合判断与生成学习的行人搜索方法及装置
CN110688524A (zh) * 2019-09-24 2020-01-14 深圳市网心科技有限公司 视频检索方法、装置、电子设备及存储介质
CN110688524B (zh) * 2019-09-24 2023-04-14 深圳市网心科技有限公司 视频检索方法、装置、电子设备及存储介质
CN111028245A (zh) * 2019-12-06 2020-04-17 衢州学院 一种多模态复合的高清高速视频背景建模方法
CN110942469A (zh) * 2019-12-06 2020-03-31 衢州学院 面向高清高速视频的双通道双模态背景建模方法
CN110991361B (zh) * 2019-12-06 2021-01-15 衢州学院 面向高清高速视频的多通道多模态背景建模方法
CN111047654A (zh) * 2019-12-06 2020-04-21 衢州学院 一种基于色彩信息的高清高速视频背景建模方法
CN111008995A (zh) * 2019-12-06 2020-04-14 衢州学院 面向高清高速视频的单通道多模态背景建模方法
CN110991361A (zh) * 2019-12-06 2020-04-10 衢州学院 面向高清高速视频的多通道多模态背景建模方法
CN111339356A (zh) * 2020-02-21 2020-06-26 北京字节跳动网络技术有限公司 视频检索中防误判方法、装置及电子设备
CN112183328A (zh) * 2020-09-27 2021-01-05 北京永新视博数字电视技术有限公司 视频识别方法、装置、设备和存储介质
CN112464814A (zh) * 2020-11-27 2021-03-09 北京百度网讯科技有限公司 视频处理方法、装置、电子设备及存储介质
CN113742524A (zh) * 2021-08-11 2021-12-03 上海明略人工智能(集团)有限公司 视频快速检索方法、系统和视频快速推荐方法
CN114882334A (zh) * 2022-04-29 2022-08-09 北京百度网讯科技有限公司 用于生成预训练模型的方法、模型训练方法及装置

Also Published As

Publication number Publication date
CN106682108B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN106682108A (zh) 一种基于多模态卷积神经网络的视频检索方法
CN109829443B (zh) 基于图像增强与3d卷积神经网络的视频行为识别方法
Li et al. Using user generated online photos to estimate and monitor air pollution in major cities
CN110956094A (zh) 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN102629328B (zh) 一种融合颜色的显著特征概率潜在语义模型物体图像识别方法
CN103714181B (zh) 一种层级化的特定人物检索方法
CN106446015A (zh) 一种基于用户行为偏好的视频内容访问预测与推荐方法
CN103237201B (zh) 一种基于社会化标注的案件视频研判方法
CN106126585B (zh) 基于质量分级与感知哈希特征组合的无人机图像检索方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN106845513B (zh) 基于条件随机森林的人手检测器及方法
CN101971190A (zh) 实时身体分割系统
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN105608454A (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
Jian et al. Deep key frame extraction for sport training
CN103984778B (zh) 一种视频检索方法及系统
CN108600865A (zh) 一种基于超像素分割的视频摘要生成方法
CN107230267A (zh) 基于人脸识别算法的幼儿园智能签到方法
CN107480607A (zh) 一种智能录播系统中站立人脸检测定位的方法
CN105825216A (zh) 一种复杂背景图像中的文本定位方法
Omidyeganeh et al. Video keyframe analysis using a segment-based statistical metric in a visually sensitive parametric space
CN109948639A (zh) 一种基于深度学习的图片垃圾识别方法
CN108446605B (zh) 复杂背景下双人交互行为识别方法
CN109034258A (zh) 基于特定物体像素梯度图的弱监督目标检测方法
CN111046213B (zh) 一种基于图像识别的知识库构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhou Lingqiang

Inventor after: Ying Tianyu

Inventor after: Wu Maoying

Inventor after: Li Xiaohua

Inventor after: Wang Liang

Inventor after: Zhou Yongguang

Inventor after: Lv Jiaying

Inventor after: Lin Shanshan

Inventor after: Wang Minxian

Inventor before: Zhou Lingqiang

Inventor before: Ying Tianyu

Inventor before: Wu Maoying

Inventor before: Li Xiaohua

Inventor before: Wang Liang

Inventor before: Zhou Yongguang

Inventor before: Lv Jiaying

Inventor before: Lin Shanshan

Inventor before: Wang Minxian