CN111563184B - 一种基于深度学习的视频哈希检索表征转换方法 - Google Patents
一种基于深度学习的视频哈希检索表征转换方法 Download PDFInfo
- Publication number
- CN111563184B CN111563184B CN202010219591.7A CN202010219591A CN111563184B CN 111563184 B CN111563184 B CN 111563184B CN 202010219591 A CN202010219591 A CN 202010219591A CN 111563184 B CN111563184 B CN 111563184B
- Authority
- CN
- China
- Prior art keywords
- video
- input
- output
- hash
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于深度学习的视频哈希检索表征转换方法,该方法通过G网络中的视频输入层以及RseNet的深度学习模型学习到视频的上下文特征,能够提取出可以表达视频类型的特征,并且经过精心设计的Hash层模拟哈希编解码过程转换成n位编码从而优化存储空间,使得视频特征存储所占空间极大降低。并为训练过程设计了直接度量汉明距离的损失函数,使得训练过程与检索过程使用的距离度量指标完全一致,从而增强检索准确率。
Description
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于深度学习的视频哈希检索表征转换方法。
背景技术
近年来,随着互联网的快速发展,网络已经成为人们娱乐和获取信息的主要途径,在这个过程中,互联网上积累了大量的视频数据,目前相当成熟的文字检索技术可以帮助人们获取信息,但是对于利用视频去进行检索却还有所欠缺。视频检索技术可以帮助人们查找某个视频相关的其他视频,因此视频检索技术无论是对学术界或者是工业界都表现除了极大的吸引力。
目前的检索技术常见的如文字搜索文字、图片、视频,以及图片搜索图片,但是对于以视频搜索视频的技术还并不完善。本专利基于深度学习的方法,对视频特征进行提取,然后提供给检索用。深度学习的模型在图片领域上的应用比较成熟,但是对于视频领域,由于各种原因,比如视频数据集太大、数据集质量欠缺、模型不足以提取视频特征等因素,导致视频特征提取还不是非常成熟。目前常见的视频特征提取网络有3D Convolution、Two-Stream Network、CNN+RNN等。
发明内容
本发明提供一种增强检索准确率的基于深度学习的视频哈希检索表征转换方法。
为了达到上述技术效果,本发明的技术方案如下:
一种基于深度学习的视频哈希检索表征转换方法,包括以下步骤:
S1:建立用于视频特征提取的深度学习网络模型G;
S2:在网络模型G后加上哈希检索表征转换层即Hash层;
S3:用新的度量汉明距离的损失函数对模型进行训练与测试;
S4:建立用于提供后台接口的进程,提供检索入口以及返回检索结果。
进一步地,所述步骤S1的具体过程是:
S11:建立G网络的第一层视频向量层,将预处理后的每个视频中的每一帧照片表示成一个低维的实数向量,在大规模标注照片上预训练好的模型ResNet;
S12:建立G网络的第二层ResNet层,在这一层中让模型学习到整个视频的上下文信息,通过ResNet模型后提取到一组设定好的长度的特征向量X。
进一步地,所述步骤S2的Hash层设计过程是:
S21:用一个全连接层将设定好长度的特征向量X映射成一个实数input,这个实数input为0到2n范围内,n为需要转化成的hash编码位数即设定的哈希码长度,用全连接层将一个视频的设定的长度的特征向量映射到0到2n范围内的一个实数来学习编码映射的过程;
S22:在S21将每一个向量编码成一个实数input后,需要对这个实数进行解码,解码成一串长度为n的特定长度二进制码记为output。
进一步地,所述步骤S22中的解码过程是:
直接将实数input拆解成二进制码是不可导的运算,不可直接集成为神经网络的一部分,把二进制的1表示为正数,0表示为负数,将解码二进制设计为一个循环结构来拟合实数转二进制操作,input为编码映射成的实数,n为运算的输入,从n~0递减,其中output[n]=input-2n,这一步模拟的是除二取整运算,如果input比2n大,那么output[n]即是一个正数,那么该位即代表1,符合实数转二进制的运算过程,input的更新为input=input-2nσ(output[n]),其中σ(·)操作为sigmoid函数,这个运算模拟的是除二取余操作,如果output[n]是正数,说明input比2n大,此时σ(output[n])为1,那么下一次循环input就应该是input-2n;反之,如果output[n]是负数,说明input比2n小,此时σ(output[n])为0,input就应该是原来的值;这和求取二进制的过程一致,这一系列过程都是使用的可导操作,将这个操作循环n次,可将一个实数解码成n个正负数记为output,每一个视频都能得到这样的一个n位output。
进一步地,所述步骤S3的具体过程是:
S31:将数据集分为训练数据以及测试数据;
S32:整体的模型要进行训练,G网络的训练步骤如下:由G网络提取出视频特征,经过哈Hash层由新设计的汉明距离损失函数的最小化来训练G网络模型,训练G网络的参数;
S33:模型的测试步骤为:先过第一遍测试数据集,将测试数据输入到G网络,然后由G网络生成特征,将特征编码结果存储到数据库DB1;然后进行第二遍特征mAP计算,将每一个视频的输出编码与DB1中数据进行距离计算,之后进行mAP计算,具体计算方式是:计算所有视频间的距离,然后按距离从小到大排序,接着判断是否属于同类视频,若第t个视频特征,如果是则正确数加1,正确数表示为r,然后计算AP即r除以t,把所有视频的AP计算出来后进行求AP总和,并处以视频总数量n,即得到最终结果mAP。
进一步地,所述步骤S4的具体过程是:
S41:将训练后的ResNet模型保存下来;
S42:创建一个后台服务进程,预留视频输入的接口;
S43:通过访问S42中创建的接口,将视频输入进去,之后S42的后台服务进程会先对视频进行预处理,处理成S41的ResNet模型所需要的输入格式,接下来调取S41中保存的ResNet模型,将处理好的视频输入进模型,并得到nbit的特征数,然后经过Hash后调去数据库中存储的视频特征数据进行距离计算,并按小到大进行排序后返回前k个视频,即最相似的前k个视频为检索结果。
进一步地,步骤S12中特征提取过程如下:先将ResNet模型经过Kinetics视频数据集进行预训练,然后再进行微调,每个视频经过预训练好的ResNet模型后,会生成一组k大小的特征数向量,这个k是指视频有k种分类,然后再经过设计的Hash层转换成自定义的n长度的编码。
进一步地,步骤S32中,G网络的训练过程中,采用交叉熵损失与三元组损失作为损失函数,并且损失值的大小是根据交叉熵损失与三元组损失的总和,其中三元组损失中的距离度量函数为新的汉明距离度量,传统的欧式距离跟在实际中使用的汉明距离检索有本质的不同,这导致了转换为哈希后距离计算与训练中的距离不一致,汉明距离损失计算如下:在前面的网络经过哈希表征转换层之后到每一个视频的编码output,根据三元组损失:Loss=||outputa-outputp||H-||outputa-outputn||H+Margin,其中outputa为锚点,outputp为正样本,outputn为正样本,目的是使得锚点尽量接近正样本,远离负样本,||·||为在某个度量空间中的距离计算,设计的||·||H为在汉明空间上的距离度量,解决了传统方法中无法直接度量汉明距离而用欧氏距离代替的问题,计算如下:汉明距离的计算是计算俩个二进制数串中相同的个数,在经过哈希表征转换层之后,把二进制的0,1表示成正负数,正因为这种表征形式,二进制相同的与否的判断运算可以转换为相同位置正负号是否相同的运算,俩个向量的相同位置做一个乘法,如果他们是相同符号的则为正,反之则为负,那么计算负号的个数即为俩个编码的汉明距离,一个正负数转换为计数可以使用sigmoid函数σ(·),如果为负数那么sigmiod的值为0,反之为1,所以对编码结果的俩个向量点乘之后按位做sigmiod操作再求和即为俩个output向量符号相同的位的个数,那么不同的即为其与n的差,这样就用可导的方式为俩个编码向量的汉明距离做了度量,使得训练过程用的距离度量和检索过程用的距离度量一致,训练过程中采用SGD进行优化,采用Margin设置距离间距,防止过拟合。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法通过G网络中的视频输入层以及RseNet的深度学习模型学习到视频的上下文特征,能够提取出可以表达视频类型的特征,并且经过精心设计的Hash层模拟哈希编解码过程转换成n位编码从而优化存储空间,使得视频特征存储所占空间极大降低。并为训练过程设计了直接度量汉明距离的损失函数,使得训练过程与检索过程使用的距离度量指标完全一致,从而增强检索准确率。
附图说明
图1为本发明的算法模型完全图;
图2为本发明的Hash层示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1-2所示,一种基于深度学习的视频哈希检索表征转换方法,包括以下步骤:
S1:建立用于视频特征提取的深度学习网络模型G;
S2:在网络模型G后加上哈希检索表征转换层即Hash层;
S3:用新的度量汉明距离的损失函数对模型进行训练与测试;
S4:建立用于提供后台接口的进程,提供检索入口以及返回检索结果。
进一步地,所述步骤S1的具体过程是:
S11:建立G网络的第一层视频向量层,将预处理后的每个视频中的每一帧照片表示成一个低维的实数向量,在大规模标注照片上预训练好的模型ResNet;
S12:建立G网络的第二层ResNet层,在这一层中让模型学习到整个视频的上下文信息,通过ResNet模型后提取到一组设定好的长度的特征向量X。
进一步地,所述步骤S2的Hash层设计过程是:
S21:用一个全连接层将设定好长度的特征向量X映射成一个实数input,这个实数input为0到2n范围内,n为需要转化成的hash编码位数即设定的哈希码长度,用全连接层将一个视频的设定的长度的特征向量映射到0到2n范围内的一个实数来学习编码映射的过程;
S22:在S21将每一个向量编码成一个实数input后,需要对这个实数进行解码,解码成一串长度为n的特定长度二进制码记为output。
步骤S22中的解码过程是:
直接将实数input拆解成二进制码是不可导的运算,不可直接集成为神经网络的一部分,把二进制的1表示为正数,0表示为负数,将解码二进制设计为一个循环结构来拟合实数转二进制操作,input为编码映射成的实数,n为运算的输入,从n~0递减,其中output[n]=input-2n,这一步模拟的是除二取整运算,如果input比2n大,那么output[n]即是一个正数,那么该位即代表1,符合实数转二进制的运算过程,input的更新为input=input-2nσ(output[n]),其中σ(·)操作为sigmoid函数,这个运算模拟的是除二取余操作,如果output[n]是正数,说明input比2n大,此时σ(output[n])为1,那么下一次循环input就应该是input-2n;反之,如果output[n]是负数,说明input比2n小,此时σ(output[n])为0,input就应该是原来的值;这和求取二进制的过程一致,这一系列过程都是使用的可导操作,将这个操作循环n次,可将一个实数解码成n个正负数记为output,每一个视频都能得到这样的一个n位output。
步骤S3的具体过程是:
S31:将数据集分为训练数据以及测试数据;
S32:整体的模型要进行训练,G网络的训练步骤如下:由G网络提取出视频特征,经过哈Hash层由新设计的汉明距离损失函数的最小化来训练G网络模型,训练G网络的参数;
S33:模型的测试步骤为:先过第一遍测试数据集,将测试数据输入到G网络,然后由G网络生成特征,将特征编码结果存储到数据库DB1;然后进行第二遍特征mAP计算,将每一个视频的输出编码与DB1中数据进行距离计算,之后进行mAP计算,具体计算方式是:计算所有视频间的距离,然后按距离从小到大排序,接着判断是否属于同类视频,若第t个视频特征,如果是则正确数加1,正确数表示为r,然后计算AP即r除以t,把所有视频的AP计算出来后进行求AP总和,并处以视频总数量n,即得到最终结果mAP。
步骤S4的具体过程是:
S41:将训练后的ResNet模型保存下来;
S42:创建一个后台服务进程,预留视频输入的接口;
S43:通过访问S42中创建的接口,将视频输入进去,之后S42的后台服务进程会先对视频进行预处理,处理成S41的ResNet模型所需要的输入格式,接下来调取S41中保存的ResNet模型,将处理好的视频输入进模型,并得到nbit的特征数,然后经过Hash后调去数据库中存储的视频特征数据进行距离计算,并按小到大进行排序后返回前k个视频,即最相似的前k个视频为检索结果。
步骤S12中特征提取过程如下:先将ResNet模型经过Kinetics视频数据集进行预训练,然后再进行微调,每个视频经过预训练好的ResNet模型后,会生成一组k大小的特征数向量,这个k是指视频有k种分类,然后再经过设计的Hash层转换成自定义的n长度的编码。
步骤S32中,G网络的训练过程中,采用交叉熵损失与三元组损失作为损失函数,并且损失值的大小是根据交叉熵损失与三元组损失的总和,其中三元组损失中的距离度量函数为新的汉明距离度量,传统的欧式距离跟在实际中使用的汉明距离检索有本质的不同,这导致了转换为哈希后距离计算与训练中的距离不一致,汉明距离损失计算如下:在前面的网络经过哈希表征转换层之后到每一个视频的编码output,根据三元组损失:其中outputa为锚点,outputp为正样本,outputn为正样本,目的是使得锚点尽量接近正样本,远离负样本,·为在某个度量空间中的距离计算,设计的·H为在汉明空间上的距离度量,解决了传统方法中无法直接度量汉明距离而用欧氏距离代替的问题,计算如下:汉明距离的计算是计算俩个二进制数串中相同的个数,在经过哈希表征转换层之后,把二进制的0,1表示成正负数,正因为这种表征形式,二进制相同的与否的判断运算可以转换为相同位置正负号是否相同的运算,俩个向量的相同位置做一个乘法,如果他们是相同符号的则为正,反之则为负,那么计算负号的个数即为俩个编码的汉明距离,一个正负数转换为计数可以使用sigmoid函数σ(·),如果为负数那么sigmiod的值为0,反之为1,所以对编码结果的俩个向量点乘之后按位做sigmiod操作再求和即为俩个output向量符号相同的位的个数,那么不同的即为其与n的差,这样就用可导的方式为俩个编码向量的汉明距离做了度量,使得训练过程用的距离度量和检索过程用的距离度量一致,训练过程中采用SGD进行优化,采用Margin设置距离间距,防止过拟合。
本专利基于深度学习的方法,对视频特征进行提取,然后提供给检索用。深度学习的模型在图片领域上的应用比较成熟,但是对于视频领域,由于各种原因,比如视频数据集太大、数据集质量欠缺、模型不足以提取视频特征等因素,导致视频特征提取还不是非常成熟。目前常见的视频特征提取网络有3D Convolution、Two-Stream Network、CNN+RNN等。
对于上述一些问题,通过调研后采取了3D Convolution网络,具体是3DResNet,该模型有许多种深度,例如常见的18层、34层、50层、101层、152层等。一般来说,深度越深,越能提取视频的细节特征。但是深度越深也会带来越高的计算开销,对硬件的要求会越高。综合了个因素后,采取了18层的ResNet进行视频的特征提取。经过测试,得出了18层ResNet已经可以达到一个不错的效果了。让深度学习进行学习从而达到对视频特征提取更加敏感,这样最后的分类器的分类也就更加准确。分类更加准确,之后在进行检索的视频相关度就会更高。通过将视频的实数连续特征再转换为二进制的哈希码,可以大大加快检索开销,但由于二进制哈希码的距离度量采用的是汉明距离这样一个不可结合到神经网络的度量函数,设计了一个新的层,更符合哈希编解码过程,同时设计新的损失函数使得能够用可结合的方式将汉明距离加入到训练目标中。使得检索过程与训练过程的判断指标一致。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种基于深度学习的视频哈希检索表征转换方法,其特征在于,包括以下步骤:
S1:建立用于视频特征提取的深度学习网络模型G;
S2:在网络模型G后加上哈希检索表征转换层即Hash层;
S3:用新的度量汉明距离的损失函数对模型进行训练与测试;所述步骤S3的具体过程是:
S31:将数据集分为训练数据以及测试数据;
S32:整体的模型要进行训练,G网络的训练步骤如下:由G网络提取出视频特征,经过哈Hash层由新设计的汉明距离损失函数的最小化来训练G网络模型,训练G网络的参数;步骤S32中,G网络的训练过程中,采用交叉熵损失与三元组损失作为损失函数,并且损失值的大小是根据交叉熵损失与三元组损失的总和,其中三元组损失中的距离度量函数为新的汉明距离度量,传统的欧式距离跟在实际中使用的汉明距离检索有本质的不同,这导致了转换为哈希后距离计算与训练中的距离不一致,汉明距离损失计算如下:在前面的网络经过哈希表征转换层之后到每一个视频的编码output,根据三元组损失:Loss=||outputa-outputp||H-||outputa-outputn||H+Margin,其中outputa为锚点,outputp为正样本,outputn为正样本,目的是使得锚点尽量接近正样本,远离负样本,||·||为在某个度量空间中的距离计算,设计的||·||H为在汉明空间上的距离度量,解决了传统方法中无法直接度量汉明距离而用欧氏距离代替的问题,计算如下:汉明距离的计算是计算俩个二进制数串中相同的个数,在经过哈希表征转换层之后,把二进制的0,1表示成正负数,正因为这种表征形式,二进制相同的与否的判断运算可以转换为相同位置正负号是否相同的运算,俩个向量的相同位置做一个乘法,如果他们是相同符号的则为正,反之则为负,那么计算负号的个数即为俩个编码的汉明距离,一个正负数转换为计数可以使用sigmoid函数σ(·),如果为负数那么sigmiod的值为0,反之为1,所以对编码结果的俩个向量点乘之后按位做sigmiod操作再求和即为俩个output向量符号相同的位的个数,那么不同的即为其与n的差,这样就用可导的方式为俩个编码向量的汉明距离做了度量,使得训练过程用的距离度量和检索过程用的距离度量一致,训练过程中采用SGD进行优化,采用Margin设置距离间距,防止过拟合;
S33:模型的测试步骤为:先过第一遍测试数据集,将测试数据输入到G网络,然后由G网络生成特征,将特征编码结果存储到数据库DB1;然后进行第二遍特征mAP计算,将每一个视频的输出编码与DB1中数据进行距离计算,之后进行mAP计算,具体计算方式是:计算所有视频间的距离,然后按距离从小到大排序,接着判断是否属于同类视频,若第t个视频特征,如果是则正确数加1,正确数表示为r,然后计算AP即r除以t,把所有视频的AP计算出来后进行求AP总和,并处以视频总数量n,即得到最终结果mAP;
S4:建立用于提供后台接口的进程,提供检索入口以及返回检索结果。
2.根据权利要求1所述的基于深度学习的视频哈希检索表征转换方法,其特征在于,所述步骤S1的具体过程是:
S11:建立G网络的第一层视频向量层,将预处理后的每个视频中的每一帧照片表示成一个低维的实数向量,在大规模标注照片上预训练好的模型ResNet;
S12:建立G网络的第二层ResNet层,在这一层中让模型学习到整个视频的上下文信息,通过ResNet模型后提取到一组设定好的长度的特征向量X。
3.根据权利要求2所述的基于深度学习的视频哈希检索表征转换方法,其特征在于,所述步骤S2的Hash层设计过程是:
S21:用一个全连接层将设定好长度的特征向量X映射成一个实数input,这个实数input为0到2n范围内,n为需要转化成的hash编码位数即设定的哈希码长度,用全连接层将一个视频的设定的长度的特征向量映射到0到2n范围内的一个实数来学习编码映射的过程;
S22:在S21将每一个向量编码成一个实数input后,需要对这个实数进行解码,解码成一串长度为n的特定长度二进制码记为output。
4.根据权利要求3所述的基于深度学习的视频哈希检索表征转换方法,其特征在于,所述步骤S22中的解码过程是:
直接将实数input拆解成二进制码是不可导的运算,不可直接集成为神经网络的一部分,把二进制的1表示为正数,0表示为负数,将解码二进制设计为一个循环结构来拟合实数转二进制操作,input为编码映射成的实数,n为运算的输入,从n~0递减,其中output[n]=input-2n,这一步模拟的是除二取整运算,如果input比2n大,那么output[n]即是一个正数,那么该位即代表1,符合实数转二进制的运算过程,input的更新为input=input-2nσ(output[n]),其中σ(·)操作为sigmoid函数,这个运算模拟的是除二取余操作,如果output[n]是正数,说明input比2n大,此时σ(output[n])为1,那么下一次循环input就应该是input-2n;反之,如果output[n]是负数,说明input比2n小,此时σ(output[n])为0,input就应该是原来的值;这和求取二进制的过程一致,这一系列过程都是使用的可导操作,将这个操作循环n次,可将一个实数解码成n个正负数记为output,每一个视频都能得到这样的一个n位output。
5.根据权利要求4所述的基于深度学习的视频哈希检索表征转换方法,其特征在于,所述步骤S4的具体过程是:
S41:将训练后的ResNet模型保存下来;
S42:创建一个后台服务进程,预留视频输入的接口;
S43:通过访问S42中创建的接口,将视频输入进去,之后S42的后台服务进程会先对视频进行预处理,处理成S41的ResNet模型所需要的输入格式,接下来调取S41中保存的ResNet模型,将处理好的视频输入进模型,并得到nbit的特征数,然后经过Hash后调去数据库中存储的视频特征数据进行距离计算,并按小到大进行排序后返回前k个视频,即最相似的前k个视频为检索结果。
6.根据权利要求5所述的基于深度学习的视频哈希检索表征转换方法,其特征在于,步骤S12中特征提取过程如下:先将ResNet模型经过Kinetics视频数据集进行预训练,然后再进行微调,每个视频经过预训练好的ResNet模型后,会生成一组k大小的特征数向量,这个k是指视频有k种分类,然后再经过设计的Hash层转换成自定义的n长度的编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010219591.7A CN111563184B (zh) | 2020-03-25 | 2020-03-25 | 一种基于深度学习的视频哈希检索表征转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010219591.7A CN111563184B (zh) | 2020-03-25 | 2020-03-25 | 一种基于深度学习的视频哈希检索表征转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111563184A CN111563184A (zh) | 2020-08-21 |
CN111563184B true CN111563184B (zh) | 2023-04-18 |
Family
ID=72071482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010219591.7A Active CN111563184B (zh) | 2020-03-25 | 2020-03-25 | 一种基于深度学习的视频哈希检索表征转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563184B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114155403A (zh) * | 2021-10-19 | 2022-03-08 | 中山大学 | 一种基于深度学习的图像分段哈希排序方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834748A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 一种利用基于深度语义排序哈希编码的图像检索方法 |
CN106407352A (zh) * | 2016-09-06 | 2017-02-15 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于深度学习的交通图像检索方法 |
CN109241317A (zh) * | 2018-09-13 | 2019-01-18 | 北京工商大学 | 基于深度学习网络中度量损失的行人哈希检索方法 |
CN109947963A (zh) * | 2019-03-27 | 2019-06-28 | 山东大学 | 一种基于深度学习的多尺度哈希检索方法 |
CN110046579A (zh) * | 2019-04-18 | 2019-07-23 | 重庆大学 | 一种深度哈希的行人再识别方法 |
CN110188227A (zh) * | 2019-05-05 | 2019-08-30 | 华南理工大学 | 一种基于深度学习与低秩矩阵优化的哈希图像检索方法 |
CN110717068A (zh) * | 2019-08-27 | 2020-01-21 | 中山大学 | 一种基于深度学习的视频检索方法 |
-
2020
- 2020-03-25 CN CN202010219591.7A patent/CN111563184B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834748A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 一种利用基于深度语义排序哈希编码的图像检索方法 |
CN106407352A (zh) * | 2016-09-06 | 2017-02-15 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于深度学习的交通图像检索方法 |
CN109241317A (zh) * | 2018-09-13 | 2019-01-18 | 北京工商大学 | 基于深度学习网络中度量损失的行人哈希检索方法 |
CN109947963A (zh) * | 2019-03-27 | 2019-06-28 | 山东大学 | 一种基于深度学习的多尺度哈希检索方法 |
CN110046579A (zh) * | 2019-04-18 | 2019-07-23 | 重庆大学 | 一种深度哈希的行人再识别方法 |
CN110188227A (zh) * | 2019-05-05 | 2019-08-30 | 华南理工大学 | 一种基于深度学习与低秩矩阵优化的哈希图像检索方法 |
CN110717068A (zh) * | 2019-08-27 | 2020-01-21 | 中山大学 | 一种基于深度学习的视频检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111563184A (zh) | 2020-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN108228915B (zh) | 一种基于深度学习的视频检索方法 | |
CN112100404B (zh) | 基于结构化上下文信息的知识图谱预训练方法 | |
CN110909673A (zh) | 一种基于自然语言描述的行人再识别方法 | |
CN113177141B (zh) | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 | |
CN116682144B (zh) | 一种基于多层次跨模态差异调和的多模态行人重识别方法 | |
CN111738169A (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN111259197B (zh) | 一种基于预编码语义特征的视频描述生成方法 | |
CN114926742B (zh) | 一种基于二阶注意力机制的回环检测及优化方法 | |
CN113032601A (zh) | 一种基于判别性提升的零样本草图检索方法 | |
CN114004220A (zh) | 一种基于cpc-ann的文本情绪原因识别方法 | |
CN114239730B (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
CN111563184B (zh) | 一种基于深度学习的视频哈希检索表征转换方法 | |
CN114973136A (zh) | 一种极端条件下场景图像识别方法 | |
CN115019319A (zh) | 一种基于动态特征提取的结构化图片内容识别方法 | |
CN110717068B (zh) | 一种基于深度学习的视频检索方法 | |
CN111507103B (zh) | 一种利用部分标注集的自训练神经网络分词模型 | |
CN114168782B (zh) | 一种基于三元组网络的深度哈希图像检索方法 | |
CN114155403A (zh) | 一种基于深度学习的图像分段哈希排序方法 | |
CN112364192B (zh) | 一种基于集成学习的零样本哈希检索方法 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
CN114138995B (zh) | 基于对抗学习的小样本跨模态检索方法 | |
CN118536049B (zh) | 基于多模态异常内容理解的内容主体发现方法 | |
CN114282537B (zh) | 一种面向社交文本的级联直线型实体关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |