CN109508320A - 多长度哈希联合学习方法 - Google Patents

多长度哈希联合学习方法 Download PDF

Info

Publication number
CN109508320A
CN109508320A CN201811423587.1A CN201811423587A CN109508320A CN 109508320 A CN109508320 A CN 109508320A CN 201811423587 A CN201811423587 A CN 201811423587A CN 109508320 A CN109508320 A CN 109508320A
Authority
CN
China
Prior art keywords
hash
length hash
length
feature
mapping relations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811423587.1A
Other languages
English (en)
Inventor
聂秀山
尹义龙
刘兴波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201811423587.1A priority Critical patent/CN109508320A/zh
Publication of CN109508320A publication Critical patent/CN109508320A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种多长度哈希联合优化方法,包括以下步骤:(1)原始数据特征提取:提取数据的人工定义特征或是深度语义特征;(2)多长度哈希的联合优化:利用多长度哈希之间的关联关系,原始特征和有监督或无监督的强化关系,构建目标函数,联合优化得到多长度哈希。与现有技术相比,本发明实现多长度哈希的一次性学习,与现有哈希学习每次训练仅能够得到一个哈希序列的方法相比,本发明的方法充分利用了多长度哈希之间的关联互助关系,不仅提高了哈希检索的精度,还有效节省了训练的时间。

Description

多长度哈希联合学习方法
技术领域
本发明涉及一种多长度哈希联合学习方法,属于多媒体信号处理、大数据检索技术领域。
背景技术
随着互联网的普及,社交网络、分享网站等网络平台极大地促进了可视媒体的发布、传播和获取。特别是随着网络带宽的不断增大和智能移动设备的普及,图像和视频等可视媒体逐渐成为网络用户获取信息的主要方式,互联网和传统媒体的融合也进一步促进了图像和视频等可视媒体数据的爆炸性增长,但同时也使得大量内容相似或重复的图像和视频等可视媒体充斥网络,对互联网内容提供商来说,过滤此类“垃圾内容”或对搜索到的相似内容进行重排序,让用户从海量数据中快速检测到对自己有用或喜欢的可视媒体内容非常必要。同时,根据用户搜索或观看的可视媒体内容进行个性化推荐,也是互联网企业的重要业务。另外,可视媒体的广泛传播在丰富人们文化娱乐生活的同时,也为暴力恐怖、淫秽色情、谣言等有害信息的传播提供了便利,这些有害图像和视频极大地危害了社会稳定和政府公信力[1],淫秽图片或视频更是影响青少年的身心健康,因此,对此类有害可视媒体内容的检测和过滤也十分必要。
哈希学习是解决可视媒体内容检索和过滤问题的一个可行技术,哈希学习是利用机器学习等工具和算法把原始高维内容特征转化为二值的哈希序列,实现在互联网和数据库中相似内容的快速搜索和检测。在学习和转化的过程中,哈希学习尽可能保持原始空间中相似内容的相似性和不同内容的区分性,近年来受到学术界和工业届的广泛关注。
现有的哈希学习算法,主要通过设计目标函数,通过优化学习得到固定长度的哈希序列。但是,不同长度的哈希是对原始数据的多角度表示,因此,根据多视图分析理论,有效利用多长度哈希之间关系对于提高哈希检索精度非常重要。
发明内容
本发明提出了一种多长度哈希的联合优化学习方法。本发明的哈希学习模型在利用数据的原始特征的基础上,设置不同长度的多个哈希层,通过联合优化,充分利用了多长度哈希之间的互助关系,提升了哈希学习的性能。与现有哈希技术相比,本发明可以同时学习得到针对一个样本的多个哈希序列,提高了利用哈希技术进行大数据检索的效率和精确性。现有的文献和技术中,并没有出现多个哈希联合优化的技术和方法。
本发明采用的技术方案为:
一种多长度哈希联合学习方法,其特征在于该方法包括以下步骤:
(1)原始数据特征提取:提取原始样本特征,所述原始样本特征可以是人工定义的特征或通过深度学习得到的深度特征;
(2)多长度哈希联合学习,具体步骤为:
①建立多长度哈希相互映射关系,得到总体目标函数中关于各个长度哈希之间相互映射关系的损失项;
②建立多长度哈希与原始样本特征之间的映射关系,得到总体目标函数中关于各个长度哈希分别与原始样本特征之间相互关系的损失项;
③监督信息或无监督信息利用,对监督模型来说,建立多长度哈希与样本标记之间映射关系,得到总体目标函数中关于各个长度哈希分别与样本标记之间相互关系的损失项;对无监督模型来说,设置多长度哈希相似性保持项;
④通过联合优化学习,得到样本的多长度哈希表示。
优选地,对各种映射关系进行建模时采用线性映射,得到总体目标函数如下:
其中,代表K个哈希序列矩阵,X为原始样本特征矩阵,Y为样本标记矩阵,Pk代表各个长度哈希之间的映射关系矩阵,Uk代表各个长度哈希分别与原始样本特征之间的映射关系矩阵,Wk代表各个长度哈希分别与样本标记之间的映射关系矩阵,Lk代表第k个哈希序列的长度,n代表样本数目,μk、γk、αk、λk、βk为参数。
优选地,建立所述多长度哈希相互映射关系时,可以采用核化或非线性模型。
优选地,建立所述多长度哈希与原始样本特征之间的映射关系时,可以采用核化或非线性模型。
优选地,建立所述多长度哈希与样本标记之间映射关系时,可以采用核化或非线性模型。
优选地,步骤(1)中,所述人工定义的特征包括颜色、纹理和特征点。
本发明实现了多长度哈希的联合学习,充分利用了同一样本不同哈希之间的相互关系,提高了哈希检索的性能。
附图说明
图1是本发明方法示意框图。
具体实施方式
下面结合附图对本发明加以详细的说明。
本发明的方法按图1所示流程,包括如下具体步骤:
(1)特征提取
在特征提取阶段,根据实际的应用需要,可以由两类特征可用
①人工定义特征提取。可以提取例如颜色、纹理、全局特征点、局部特征点等;
②深度语义特征。可以利用现有的深度学习模型提取深度语义特征;
(3)多长度哈希联合学习:基于样本原始特征、多长度哈希关系、样本标记信息(监督的)或样本相似性保持(无监督的)来建立多长度哈希联合优化目标函数,通过优化目标函数获取多长度哈希表示,本发明以线性映射为例,提出一个优化问题如下:
其中,代表K个哈希序列矩阵,X为样本原始特征矩阵,Y为样本标记矩阵,Pk、Uk、Wk分别代表不同哈希之间,以及哈希和原始特征之间,哈希和样本标记之间的映射矩阵。Lk代表第k个哈希序列的长度,n代表样本数目,μk、γk、αk、λk、βk为参数。
表1是本发明方法的一个仿真实验,该实验采用MAP(平均准确率)进行度量,在CIFAR-10,MS-COCO、NUS-WIDE三个常用数据库上进行实验。
表1本发明于其他算法MAP性能比较

Claims (6)

1.一种多长度哈希联合学习方法,其特征在于该方法包括以下步骤:
(1)原始数据特征提取:提取原始样本特征,所述原始样本特征可以是人工定义的特征或通过深度学习得到的深度特征;
(2)多长度哈希联合学习,具体步骤为:
①建立多长度哈希相互映射关系,得到总体目标函数中关于各个长度哈希之间相互映射关系的损失项;
②建立多长度哈希与原始样本特征之间的映射关系,得到总体目标函数中关于各个长度哈希分别与原始样本特征之间相互关系的损失项;
③监督信息或无监督信息利用,对监督模型来说,建立多长度哈希与样本标记之间映射关系,得到总体目标函数中关于各个长度哈希分别与样本标记之间相互关系的损失项;对无监督模型来说,设置多长度哈希相似性保持项;
④通过联合优化学习,得到样本的多长度哈希表示。
2.根据权利要求1所述的多长度哈希联合学习方法,其特征在于:对各种映射关系进行建模时均采用线性映射,得到总体目标函数如下:
其中,代表K个哈希序列矩阵,X为原始样本特征矩阵,Y为样本标记矩阵,Pk代表各个长度哈希之间的映射关系矩阵,Uk代表各个长度哈希分别与原始样本特征之间的映射关系矩阵,Wk代表各个长度哈希分别与样本标记之间的映射关系矩阵,Lk代表第k个哈希序列的长度,n代表样本数目,μk、γk、αk、λk、βk为参数。
3.根据权利要求1所述的多长度哈希联合学习方法,其特征在于:建立所述多长度哈希相互映射关系时,可以采用核化或非线性模型。
4.根据权利要求1所述的多长度哈希联合学习方法,其特征在于:建立所述多长度哈希与原始样本特征之间的映射关系时,可以采用核化或非线性模型。
5.根据权利要求1所述的多长度哈希联合学习方法,其特征在于:建立所述多长度哈希与样本标记之间映射关系时,可以采用核化或非线性模型。
6.根据权利要求1所述的多长度哈希联合学习方法,其特征在于:步骤(1)中,所述人工定义的特征包括颜色、纹理和特征点。
CN201811423587.1A 2018-11-27 2018-11-27 多长度哈希联合学习方法 Pending CN109508320A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811423587.1A CN109508320A (zh) 2018-11-27 2018-11-27 多长度哈希联合学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811423587.1A CN109508320A (zh) 2018-11-27 2018-11-27 多长度哈希联合学习方法

Publications (1)

Publication Number Publication Date
CN109508320A true CN109508320A (zh) 2019-03-22

Family

ID=65750747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811423587.1A Pending CN109508320A (zh) 2018-11-27 2018-11-27 多长度哈希联合学习方法

Country Status (1)

Country Link
CN (1) CN109508320A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377981A (zh) * 2021-06-29 2021-09-10 山东建筑大学 基于多任务深度哈希学习的大规模物流商品图像检索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377981A (zh) * 2021-06-29 2021-09-10 山东建筑大学 基于多任务深度哈希学习的大规模物流商品图像检索方法
CN113377981B (zh) * 2021-06-29 2022-05-27 山东建筑大学 基于多任务深度哈希学习的大规模物流商品图像检索方法

Similar Documents

Publication Publication Date Title
WO2022116888A1 (zh) 一种视频数据处理方法、装置、设备以及介质
Strezoski et al. Omniart: a large-scale artistic benchmark
CN104346370B (zh) 图像搜索、获取图像文本信息的方法及装置
JP4553650B2 (ja) 画像グループの表現方法および表現方法によって導出される記述子、探索方法、装置、コンピュータプログラム、ならびに記憶媒体
CN107750015B (zh) 视频版权的检测方法、装置、存储介质及设备
CN104376003B (zh) 一种视频检索方法及装置
CN107169106B (zh) 视频检索方法、装置、存储介质及处理器
CN103377258B (zh) 用于对微博信息进行分类显示的方法和设备
CN108197265A (zh) 一种基于短视频搜索完整视频的方法及系统
CN108520046B (zh) 搜索聊天记录的方法及设备
CN110750656A (zh) 一种基于知识图谱的多媒体检测方法
CN105095435A (zh) 一种图像高维特征的相似比较方法及装置
CN106649663B (zh) 一种基于紧凑视频表征的视频拷贝检测方法
CN104537341B (zh) 人脸图片信息获取方法和装置
CN108733801B (zh) 一种面向数字人文的移动视觉检索方法
CN105718555A (zh) 一种基于层次化语义描述的图像检索方法
Sony et al. Video summarization by clustering using euclidean distance
CN108446605B (zh) 复杂背景下双人交互行为识别方法
CN111046213B (zh) 一种基于图像识别的知识库构建方法
CN109508320A (zh) 多长度哈希联合学习方法
Zujovic et al. Effective and efficient subjective testing of texture similarity metrics
KR101089288B1 (ko) 얼굴 색인 장치 및 방법
Lee et al. Image tag refinement along the ‘what’dimension using tag categorization and neighbor voting
CN114863525A (zh) 一种人脸数据集的构建方法及系统
Veselý et al. Less is more: similarity models for content-based video retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190322