CN109508320A - 多长度哈希联合学习方法 - Google Patents
多长度哈希联合学习方法 Download PDFInfo
- Publication number
- CN109508320A CN109508320A CN201811423587.1A CN201811423587A CN109508320A CN 109508320 A CN109508320 A CN 109508320A CN 201811423587 A CN201811423587 A CN 201811423587A CN 109508320 A CN109508320 A CN 109508320A
- Authority
- CN
- China
- Prior art keywords
- hash
- length hash
- length
- feature
- mapping relations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 101150060512 SPATA6 gene Proteins 0.000 claims abstract description 75
- 230000006870 function Effects 0.000 claims abstract description 12
- 238000005457 optimization Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 13
- 238000013135 deep learning Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000003014 reinforcing effect Effects 0.000 abstract 1
- 230000000007 visual effect Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种多长度哈希联合优化方法,包括以下步骤:(1)原始数据特征提取:提取数据的人工定义特征或是深度语义特征;(2)多长度哈希的联合优化:利用多长度哈希之间的关联关系,原始特征和有监督或无监督的强化关系,构建目标函数,联合优化得到多长度哈希。与现有技术相比,本发明实现多长度哈希的一次性学习,与现有哈希学习每次训练仅能够得到一个哈希序列的方法相比,本发明的方法充分利用了多长度哈希之间的关联互助关系,不仅提高了哈希检索的精度,还有效节省了训练的时间。
Description
技术领域
本发明涉及一种多长度哈希联合学习方法,属于多媒体信号处理、大数据检索技术领域。
背景技术
随着互联网的普及,社交网络、分享网站等网络平台极大地促进了可视媒体的发布、传播和获取。特别是随着网络带宽的不断增大和智能移动设备的普及,图像和视频等可视媒体逐渐成为网络用户获取信息的主要方式,互联网和传统媒体的融合也进一步促进了图像和视频等可视媒体数据的爆炸性增长,但同时也使得大量内容相似或重复的图像和视频等可视媒体充斥网络,对互联网内容提供商来说,过滤此类“垃圾内容”或对搜索到的相似内容进行重排序,让用户从海量数据中快速检测到对自己有用或喜欢的可视媒体内容非常必要。同时,根据用户搜索或观看的可视媒体内容进行个性化推荐,也是互联网企业的重要业务。另外,可视媒体的广泛传播在丰富人们文化娱乐生活的同时,也为暴力恐怖、淫秽色情、谣言等有害信息的传播提供了便利,这些有害图像和视频极大地危害了社会稳定和政府公信力[1],淫秽图片或视频更是影响青少年的身心健康,因此,对此类有害可视媒体内容的检测和过滤也十分必要。
哈希学习是解决可视媒体内容检索和过滤问题的一个可行技术,哈希学习是利用机器学习等工具和算法把原始高维内容特征转化为二值的哈希序列,实现在互联网和数据库中相似内容的快速搜索和检测。在学习和转化的过程中,哈希学习尽可能保持原始空间中相似内容的相似性和不同内容的区分性,近年来受到学术界和工业届的广泛关注。
现有的哈希学习算法,主要通过设计目标函数,通过优化学习得到固定长度的哈希序列。但是,不同长度的哈希是对原始数据的多角度表示,因此,根据多视图分析理论,有效利用多长度哈希之间关系对于提高哈希检索精度非常重要。
发明内容
本发明提出了一种多长度哈希的联合优化学习方法。本发明的哈希学习模型在利用数据的原始特征的基础上,设置不同长度的多个哈希层,通过联合优化,充分利用了多长度哈希之间的互助关系,提升了哈希学习的性能。与现有哈希技术相比,本发明可以同时学习得到针对一个样本的多个哈希序列,提高了利用哈希技术进行大数据检索的效率和精确性。现有的文献和技术中,并没有出现多个哈希联合优化的技术和方法。
本发明采用的技术方案为:
一种多长度哈希联合学习方法,其特征在于该方法包括以下步骤:
(1)原始数据特征提取:提取原始样本特征,所述原始样本特征可以是人工定义的特征或通过深度学习得到的深度特征;
(2)多长度哈希联合学习,具体步骤为:
①建立多长度哈希相互映射关系,得到总体目标函数中关于各个长度哈希之间相互映射关系的损失项;
②建立多长度哈希与原始样本特征之间的映射关系,得到总体目标函数中关于各个长度哈希分别与原始样本特征之间相互关系的损失项;
③监督信息或无监督信息利用,对监督模型来说,建立多长度哈希与样本标记之间映射关系,得到总体目标函数中关于各个长度哈希分别与样本标记之间相互关系的损失项;对无监督模型来说,设置多长度哈希相似性保持项;
④通过联合优化学习,得到样本的多长度哈希表示。
优选地,对各种映射关系进行建模时采用线性映射,得到总体目标函数如下:
其中,代表K个哈希序列矩阵,X为原始样本特征矩阵,Y为样本标记矩阵,Pk代表各个长度哈希之间的映射关系矩阵,Uk代表各个长度哈希分别与原始样本特征之间的映射关系矩阵,Wk代表各个长度哈希分别与样本标记之间的映射关系矩阵,Lk代表第k个哈希序列的长度,n代表样本数目,μk、γk、αk、λk、βk为参数。
优选地,建立所述多长度哈希相互映射关系时,可以采用核化或非线性模型。
优选地,建立所述多长度哈希与原始样本特征之间的映射关系时,可以采用核化或非线性模型。
优选地,建立所述多长度哈希与样本标记之间映射关系时,可以采用核化或非线性模型。
优选地,步骤(1)中,所述人工定义的特征包括颜色、纹理和特征点。
本发明实现了多长度哈希的联合学习,充分利用了同一样本不同哈希之间的相互关系,提高了哈希检索的性能。
附图说明
图1是本发明方法示意框图。
具体实施方式
下面结合附图对本发明加以详细的说明。
本发明的方法按图1所示流程,包括如下具体步骤:
(1)特征提取
在特征提取阶段,根据实际的应用需要,可以由两类特征可用
①人工定义特征提取。可以提取例如颜色、纹理、全局特征点、局部特征点等;
②深度语义特征。可以利用现有的深度学习模型提取深度语义特征;
(3)多长度哈希联合学习:基于样本原始特征、多长度哈希关系、样本标记信息(监督的)或样本相似性保持(无监督的)来建立多长度哈希联合优化目标函数,通过优化目标函数获取多长度哈希表示,本发明以线性映射为例,提出一个优化问题如下:
其中,代表K个哈希序列矩阵,X为样本原始特征矩阵,Y为样本标记矩阵,Pk、Uk、Wk分别代表不同哈希之间,以及哈希和原始特征之间,哈希和样本标记之间的映射矩阵。Lk代表第k个哈希序列的长度,n代表样本数目,μk、γk、αk、λk、βk为参数。
表1是本发明方法的一个仿真实验,该实验采用MAP(平均准确率)进行度量,在CIFAR-10,MS-COCO、NUS-WIDE三个常用数据库上进行实验。
表1本发明于其他算法MAP性能比较
Claims (6)
1.一种多长度哈希联合学习方法,其特征在于该方法包括以下步骤:
(1)原始数据特征提取:提取原始样本特征,所述原始样本特征可以是人工定义的特征或通过深度学习得到的深度特征;
(2)多长度哈希联合学习,具体步骤为:
①建立多长度哈希相互映射关系,得到总体目标函数中关于各个长度哈希之间相互映射关系的损失项;
②建立多长度哈希与原始样本特征之间的映射关系,得到总体目标函数中关于各个长度哈希分别与原始样本特征之间相互关系的损失项;
③监督信息或无监督信息利用,对监督模型来说,建立多长度哈希与样本标记之间映射关系,得到总体目标函数中关于各个长度哈希分别与样本标记之间相互关系的损失项;对无监督模型来说,设置多长度哈希相似性保持项;
④通过联合优化学习,得到样本的多长度哈希表示。
2.根据权利要求1所述的多长度哈希联合学习方法,其特征在于:对各种映射关系进行建模时均采用线性映射,得到总体目标函数如下:
其中,代表K个哈希序列矩阵,X为原始样本特征矩阵,Y为样本标记矩阵,Pk代表各个长度哈希之间的映射关系矩阵,Uk代表各个长度哈希分别与原始样本特征之间的映射关系矩阵,Wk代表各个长度哈希分别与样本标记之间的映射关系矩阵,Lk代表第k个哈希序列的长度,n代表样本数目,μk、γk、αk、λk、βk为参数。
3.根据权利要求1所述的多长度哈希联合学习方法,其特征在于:建立所述多长度哈希相互映射关系时,可以采用核化或非线性模型。
4.根据权利要求1所述的多长度哈希联合学习方法,其特征在于:建立所述多长度哈希与原始样本特征之间的映射关系时,可以采用核化或非线性模型。
5.根据权利要求1所述的多长度哈希联合学习方法,其特征在于:建立所述多长度哈希与样本标记之间映射关系时,可以采用核化或非线性模型。
6.根据权利要求1所述的多长度哈希联合学习方法,其特征在于:步骤(1)中,所述人工定义的特征包括颜色、纹理和特征点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811423587.1A CN109508320A (zh) | 2018-11-27 | 2018-11-27 | 多长度哈希联合学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811423587.1A CN109508320A (zh) | 2018-11-27 | 2018-11-27 | 多长度哈希联合学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109508320A true CN109508320A (zh) | 2019-03-22 |
Family
ID=65750747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811423587.1A Pending CN109508320A (zh) | 2018-11-27 | 2018-11-27 | 多长度哈希联合学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109508320A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377981A (zh) * | 2021-06-29 | 2021-09-10 | 山东建筑大学 | 基于多任务深度哈希学习的大规模物流商品图像检索方法 |
-
2018
- 2018-11-27 CN CN201811423587.1A patent/CN109508320A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377981A (zh) * | 2021-06-29 | 2021-09-10 | 山东建筑大学 | 基于多任务深度哈希学习的大规模物流商品图像检索方法 |
CN113377981B (zh) * | 2021-06-29 | 2022-05-27 | 山东建筑大学 | 基于多任务深度哈希学习的大规模物流商品图像检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022116888A1 (zh) | 一种视频数据处理方法、装置、设备以及介质 | |
Strezoski et al. | Omniart: a large-scale artistic benchmark | |
CN104346370B (zh) | 图像搜索、获取图像文本信息的方法及装置 | |
JP4553650B2 (ja) | 画像グループの表現方法および表現方法によって導出される記述子、探索方法、装置、コンピュータプログラム、ならびに記憶媒体 | |
CN107750015B (zh) | 视频版权的检测方法、装置、存储介质及设备 | |
CN104376003B (zh) | 一种视频检索方法及装置 | |
CN107169106B (zh) | 视频检索方法、装置、存储介质及处理器 | |
CN103377258B (zh) | 用于对微博信息进行分类显示的方法和设备 | |
CN108197265A (zh) | 一种基于短视频搜索完整视频的方法及系统 | |
CN108520046B (zh) | 搜索聊天记录的方法及设备 | |
CN110750656A (zh) | 一种基于知识图谱的多媒体检测方法 | |
CN105095435A (zh) | 一种图像高维特征的相似比较方法及装置 | |
CN106649663B (zh) | 一种基于紧凑视频表征的视频拷贝检测方法 | |
CN104537341B (zh) | 人脸图片信息获取方法和装置 | |
CN108733801B (zh) | 一种面向数字人文的移动视觉检索方法 | |
CN105718555A (zh) | 一种基于层次化语义描述的图像检索方法 | |
Sony et al. | Video summarization by clustering using euclidean distance | |
CN108446605B (zh) | 复杂背景下双人交互行为识别方法 | |
CN111046213B (zh) | 一种基于图像识别的知识库构建方法 | |
CN109508320A (zh) | 多长度哈希联合学习方法 | |
Zujovic et al. | Effective and efficient subjective testing of texture similarity metrics | |
KR101089288B1 (ko) | 얼굴 색인 장치 및 방법 | |
Lee et al. | Image tag refinement along the ‘what’dimension using tag categorization and neighbor voting | |
CN114863525A (zh) | 一种人脸数据集的构建方法及系统 | |
Veselý et al. | Less is more: similarity models for content-based video retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190322 |