CN107273505B - 基于非参数贝叶斯模型的监督跨模态哈希检索方法 - Google Patents

基于非参数贝叶斯模型的监督跨模态哈希检索方法 Download PDF

Info

Publication number
CN107273505B
CN107273505B CN201710466670.6A CN201710466670A CN107273505B CN 107273505 B CN107273505 B CN 107273505B CN 201710466670 A CN201710466670 A CN 201710466670A CN 107273505 B CN107273505 B CN 107273505B
Authority
CN
China
Prior art keywords
training data
normalized
data
probability
test data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710466670.6A
Other languages
English (en)
Other versions
CN107273505A (zh
Inventor
王秀美
王鑫鑫
高新波
张天真
李洁
田春娜
邓成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201710466670.6A priority Critical patent/CN107273505B/zh
Publication of CN107273505A publication Critical patent/CN107273505A/zh
Application granted granted Critical
Publication of CN107273505B publication Critical patent/CN107273505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于非参数贝叶斯模型的监督跨模态哈希检索方法,用于解决现有跨模态哈希检索方法中存在的检索精度低的技术问题。实现步骤为:获取归一化训练数据和测试数据;对归一化训练数据进行分类;获取归一化训练数据的三个训练数据参数;获取归一化图像训练数据和归一化文本训练数据同属于每一类的概率;获取训练数据后验概率;获取归一化图像训练数据和归一化文本训练数据的统一哈希编码;获取测试数据哈希编码;计算测试数据哈希编码与归一化图像训练数据和归一化文本训练数据统一哈希编码的汉明距离矩阵;获取测试数据的检索结果。本发明的检索精度高,可用于移动终端设备以及物联网的图像与文本互搜索服务。

Description

基于非参数贝叶斯模型的监督跨模态哈希检索方法
技术领域
本发明属于计算机视觉和模式识别领域,涉及图像与文本的互检索,具体涉及一种基于非参数贝叶斯模型的监督跨模态哈希检索方法,可用于移动终端设备以及物联网的图像与文本互搜索服务。
背景技术
近年来,随着社会经济的迅速发展和科学技术的不断进步,多媒体数据已经成为互联网上的主要信息载体。这些数据呈现爆炸式增长,现阶段,大数据改变着人们的工作和生活,同时也对学术界的科学研究产生了很大的影响。如何利用这些大数据,如何对其进行高效率的存储和管理,便成为我们最为关注的问题。基于哈希的最近邻搜索是解决大规模多媒体数据存储和管理有效的技术手段。现有的哈希方法研究方向大致划分为三类:单模态哈希方法、多视图哈希方法和跨模态哈希方法。基于哈希算法的单一模态数据检索方法在图像检索领域已经得到了较为充分地研究。而多视图哈希方法在特定情况下可以转换成单模态或者跨模态哈希问题,所以,对多视图哈希方法的研究比较少。为了促进大规模相似性搜索的发展,近年来一些跨模态哈希检索方法被提出。跨模态哈希方法可以分为无监督方法和有监督方法,无监督方法主要通过挖掘和保持多模态数据的潜在相关性来获得哈希编码,而有监督跨模态哈希方法旨在利用训练数据类标信息的语义相似性,来提高哈希检索的检索精度。现实生活中,多媒体数据量大、维度较高并且不同模态之间具有语义关联性,所以如何得到高检索精度的监督哈希算法,实现跨模态数据之间的检索,是我们现阶段急需解决的问题。现阶段,研究人员已经提出部分监督跨模态哈希检索方法。
例如Bronstein M,Bronstein A和Michel F等人在2010年的Computer Visionand Pattern Recognition会议,发表了名为“Data Fusion through Cross-ModalityMetric Learning using Similarity Sensitive Hashing”的文章,提出了一种监督的跨模态相似性敏感哈希方法。这一方法通过产生一些正负样本对,然后将每一位哈希编码的学习过程表示为一个二元分类问题,最后利用Boosting的方式进行求解。但这一方法只保持了模态间的相似性,没有考虑模态内的相似性,检索精度有待提高。
综上,现阶段存在的监督跨模态哈希检索方法利用数据类标信息不全面,对数据的描述不准确,从而影响跨模态检索精度。
发明内容
本发明的目的在于针对上述已有技术的不足,提出了一种基于非参数贝叶斯模型的监督跨模态哈希检索方法,用于解决现有监督跨模态哈希检索方法中存在的检索精度低的技术问题。
为实现上述目的,本发明采取的技术方案包括有如下步骤:
(1)获取原始训练数据,并对原始训练数据进行归一化,得到归一化训练数据X(t),其中,t表示归一化训练数据的类型,且t∈{1,2},X(1)表示归一化图像训练数据,X(2)表示归一化文本训练数据;
(2)获取原始测试数据,并对原始测试数据进行归一化,得到归一化测试数据Y(t),其中,t表示归一化测试数据的类型,且t∈{1,2},Y(1)表示归一化图像测试数据,Y(2)表示归一化文本测试数据;
(3)对归一化训练数据X(t)进行分类:根据归一化训练数据X(t)所对应的类标信息L,将归一化图像训练数据X(1)和归一化文本训练数据X(2)均分为C类;
(4)获取归一化训练数据X(t)的三个训练数据参数:
(4a)获取归一化训练数据X(t)的三个后验分布:采用非参数贝叶斯模型,对归一化训练数据X(t)中的每一个训练数据点
Figure BDA0001326128250000021
进行描述,得到归一化训练数据X(t)的训练数据整体均值
Figure BDA0001326128250000022
服从的后验分布、训练数据所属类别均值
Figure BDA0001326128250000023
服从的后验分布
Figure BDA0001326128250000024
以及训练数据协方差矩阵的逆
Figure BDA0001326128250000025
服从的后验分布,其中,i表示第i个训练数据点,且i=1,2,…,n,n表示数据点的个数,c表示分类类别,且c=1,2,…,C;
(4b)获取归一化训练数据X(t)的三个训练数据参数:将每一个训练数据点
Figure BDA0001326128250000026
分别代入三个后验分布,计算归一化训练数据X(t)的训练数据整体均值
Figure BDA0001326128250000027
训练数据所属类别均值
Figure BDA0001326128250000031
以及训练数据协方差矩阵的逆
Figure BDA0001326128250000032
(5)获取归一化图像训练数据X(1)和归一化文本训练数据X(2)同属于每一类的概率P(X(1),X(2)|K):
(5a)获取归一化训练数据X(t)每一个训练数据点
Figure BDA0001326128250000033
属于第c类的概率
Figure BDA0001326128250000034
假设归一化训练数据X(t)的所有训练数据服从高斯分布,即
Figure BDA0001326128250000035
分别计算每一个训练数据
Figure BDA0001326128250000036
属于第c类的概率
Figure BDA0001326128250000037
(5b)获取图像训练数据点
Figure BDA0001326128250000038
和对应的文本训练数据点
Figure BDA0001326128250000039
同属于第c类的概率
Figure BDA00013261282500000313
Figure BDA00013261282500000314
Figure BDA00013261282500000315
相乘,得到图像训练数据点
Figure BDA00013261282500000316
和对应的文本训练数据点
Figure BDA00013261282500000310
同属于第c类的概率
Figure BDA00013261282500000317
其中,K表示分类类别集合,且K∈{1,2,…,C},
Figure BDA00013261282500000311
表示归一化训练数据X(t)的训练数据协方差矩阵;
(6)获取训练数据后验概率P(K|X(1),X(2)):将概率P(X(1),X(2)|K)代入贝叶斯公式,计算训练数据后验概率P(K|X(1),X(2));
(7)获取归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr
(7a)随机生成一个矩阵M=[mch]C×r,其中,mch表示矩阵M中的一个元素,且mch∈(0,1);
(7b)将训练数据后验概率P(K|X(1),X(2))和矩阵M=[mch]C×r相乘,得到归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr的后验概率P(Btr|X(1),X(2));
(7c)对归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr的后验概率P(Btr|X(1),X(2))中的每一个元素
Figure BDA00013261282500000312
进行伯努利采样,得到归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr
(8)获取归一化测试数据Y(t)的r位哈希编码
Figure BDA0001326128250000041
(8a)获取归一化测试数据Y(t)属于每一类的概率P(Y(t)|K):假设归一化测试数据Y(t)的所有测试数据服从高斯分布,即
Figure BDA0001326128250000042
分别计算每一个测试数据点
Figure BDA0001326128250000043
属于第c类的概率
Figure BDA0001326128250000044
(8b)获取归一化测试数据后验概率P(K|Y(t)):将概率P(Y(t)|K)代入贝叶斯公式,计算得到归一化测试数据后验概率P(K|Y(t));
(8c)将归一化测试数据后验概率P(K|Y(t))和矩阵M=[mch]C×r相乘,得到归一化测试数据Y(t)的r位哈希编码
Figure BDA0001326128250000045
的后验概率
Figure BDA0001326128250000046
(8d)对归一化测试数据Y(t)的r位哈希编码
Figure BDA0001326128250000047
的后验概率
Figure BDA0001326128250000048
中的每一个元素
Figure BDA0001326128250000049
进行伯努利采样,得到归一化测试数据Y(t)的r位哈希编码
Figure BDA00013261282500000410
其中,j表示第j个测试数据点,且j=1,2,…,nte,nte表示测试数据点的个数;
(9)计算归一化测试数据Y(t)的哈希编码
Figure BDA00013261282500000411
与归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr的汉明距离矩阵Dh;
(10)获取归一化测试数据Y(t)的检索结果:分别获取汉明距离矩阵Dh中每一行最小的前a个汉明距离值,并将得到的每一行的a个汉明距离值所对应的训练数据作为归一化测试数据Y(t)的检索结果,完成基于非参数贝叶斯模型的监督跨模态哈希检索。
本发明与现有技术相比,具有以下优点:
本发明利用数据类标信息对训练数据进行分类,按照数据实际分布情况,将训练数据分为整体均值、所属类别均值以及误差三部分,使用狄利克雷过程作为实际数据所属类别均值的先验分布,使用非参数贝叶斯模型对数据分布进行有效地描述,明显提高了跨模态哈希检索的精度。
附图说明
图1为本发明的实现流程图;
图2为本发明与现有跨模态哈希检索方法在Wiki数据库下的采样前300个检索结果精度随着编码长度变化的曲线对比图,其中,图2(a)为采样前300个检索结果的图像查询文本的精度随着编码长度变化曲线图,图2(b)为采样前300个检索结果的文本查询图像的精度随着编码长度变化曲线图;
图3为本发明与现有跨模态哈希检索方法在Wiki数据库下的精度-召回率实验结果曲线对比图,其中,图3(a)为编码长度取32位的图像查询文本精度-召回率曲线图,图3(b)为编码长度取32位的文本查询图像精度-召回率曲线图;
图4为本发明与现有跨模态哈希检索方法在LabelMe数据库下的采样前300个检索结果精度随着编码长度变化的曲线对比图,其中,图4(a)为采样前300个检索结果的图像查询文本的精度随着编码长度变化曲线图,图4(b)为采样前300个检索结果的文本查询图像的精度随着编码长度变化曲线图;
图5为本发明与现有跨模态哈希检索方法在LabelMe数据库下的精度-召回率实验结果曲线对比图,其中,图5(a)为编码长度取32位的图像查询文本精度-召回率曲线图,图5(b)为编码长度取32位的文本查询图像精度-召回率曲线图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步详细描述。
参照图1,基于非参数贝叶斯模型的监督跨模态哈希检索方法,包括如下步骤:
步骤1)获取原始训练数据,并对原始训练数据进行归一化,得到归一化训练数据X(t),其中,t表示归一化训练数据的类型,且t∈{1,2},X(1)表示归一化图像训练数据,X(2)表示归一化文本训练数据;
步骤2)获取原始测试数据,并对原始测试数据进行归一化,得到归一化测试数据Y(t),其中,t表示归一化测试数据的类型,且t∈{1,2},Y(1)表示归一化图像测试数据,Y(2)表示归一化文本测试数据;
步骤3)对归一化训练数据X(t)进行分类:根据归一化训练数据X(t)所对应的类标信息L,将归一化图像训练数据X(1)和归一化文本训练数据X(2)均分为C类;
步骤4)获取归一化训练数据X(t)的三个训练数据参数:
(4a)获取归一化训练数据X(t)的三个后验分布:采用非参数贝叶斯模型,对归一化训练数据X(t)中的每一个训练数据点
Figure BDA0001326128250000061
进行描述,得到归一化训练数据X(t)的训练数据整体均值
Figure BDA0001326128250000062
服从的后验分布、训练数据所属类别均值
Figure BDA0001326128250000063
服从的后验分布
Figure BDA0001326128250000064
以及训练数据协方差矩阵的逆
Figure BDA0001326128250000065
服从的后验分布:
(i)归一化训练数据X(t)的训练数据整体均值
Figure BDA0001326128250000066
服从的后验分布的表达式为:
Figure BDA0001326128250000067
(ii)归一化训练数据X(t)的训练数据所属类别均值
Figure BDA0001326128250000068
服从的后验分布
Figure BDA0001326128250000069
的表达式为:
Figure BDA00013261282500000610
(iii)归一化训练数据X(t)的训练数据协方差矩阵的逆
Figure BDA00013261282500000621
服从的后验分布的表达式为:
Figure BDA00013261282500000611
其中,i表示第i个训练数据点,且i=1,2,…,n,n表示数据点的个数,c表示分类类别,且c=1,2,…,C,
Figure BDA00013261282500000612
表示含有C个主成分的高斯混合模型,
Figure BDA00013261282500000613
表示第c个高斯的权重,
Figure BDA00013261282500000614
nc表示归一化训练数据第c类所含的训练数据点个数,归一化训练数据所属类别均值
Figure BDA00013261282500000615
服从的后验分布
Figure BDA00013261282500000616
是通过假设归一化训练数据所属类别均值
Figure BDA00013261282500000617
先验分布服从狄利克雷过程推导得到的,即
Figure BDA00013261282500000618
Figure BDA00013261282500000619
δ·表示δ函数,νi表示第i个训练数据点的所属类别均值,
Figure BDA00013261282500000620
Figure BDA0001326128250000071
Id表示d维单位矩阵,d为每一个训练数据点x(t)的维数,α0表示调节参数,G0表示狄利克雷过程的基础分布,训练数据协方差矩阵的逆
Figure BDA0001326128250000072
服从的后验分布是通过假设归一化训练数据X(t)的训练数据协方差矩阵的逆
Figure BDA0001326128250000073
先验分布服从威沙特分布推导得到的,即
Figure BDA0001326128250000074
m表示自由度,VD表示p×p的尺度矩阵;
(4b)获取归一化训练数据X(t)的三个训练数据参数:将每一个训练数据点
Figure BDA0001326128250000075
分别代入三个后验分布,计算归一化训练数据X(t)的训练数据整体均值
Figure BDA0001326128250000076
训练数据所属类别均值
Figure BDA0001326128250000077
以及训练数据协方差矩阵的逆
Figure BDA00013261282500000722
步骤5)获取归一化图像训练数据X(1)和归一化文本训练数据X(2)同属于每一类的概率P(X(1),X(2)|K):
(5a)获取归一化训练数据X(t)每一个训练数据点
Figure BDA0001326128250000078
属于第c类的概率
Figure BDA0001326128250000079
假设归一化训练数据X(t)的所有训练数据服从高斯分布,即
Figure BDA00013261282500000710
分别计算每一个训练数据
Figure BDA00013261282500000711
属于第c类的概率
Figure BDA00013261282500000712
(5b)获取图像训练数据点
Figure BDA00013261282500000713
和对应的文本训练数据点
Figure BDA00013261282500000714
同属于第c类的概率
Figure BDA00013261282500000715
Figure BDA00013261282500000716
Figure BDA00013261282500000717
相乘,得到图像训练数据点
Figure BDA00013261282500000718
和对应的文本训练数据点
Figure BDA00013261282500000719
同属于第c类的概率
Figure BDA00013261282500000721
其中,K表示分类类别集合,且K∈{1,2,…,C},
Figure BDA00013261282500000720
表示归一化训练数据X(t)的训练数据协方差矩阵;
步骤6)获取训练数据后验概率P(K|X(1),X(2)):将概率P(X(1),X(2)|K)代入贝叶斯公式,计算训练数据后验概率P(K|X(1),X(2)),计算训练数据后验概率P(K|X(1),X(2))的表达式为:
Figure BDA0001326128250000085
其中,P(X(1),X(2)|c)表示归一化图像训练数据X(1)和归一化文本训练数据X(2)同属于第c类的概率,P(K)表示类别的边缘分布,P(K)中有C个元素,此处假设P(K)中每一个元素均服从均匀分布,即
Figure BDA0001326128250000084
步骤7)获取归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr
(7a)随机生成一个矩阵M=[mch]C×r,其中,mch表示矩阵M中的一个元素,且mch∈(0,1);
(7b)将训练数据后验概率P(K|X(1),X(2))和矩阵M=[mch]C×r相乘,得到归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr的后验概率P(Btr|X(1),X(2));
(7c)对归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr的后验概率P(Btr|X(1),X(2))中的每一个元素pbtr进行伯努利采样,得到归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr,伯努利采样的过程如下:
(7c1)随机产生一个和归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr的后验概率P(Btr|X(1),X(2))同大小的随机数矩阵Ttr
(7c2)比较归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr的后验概率P(Btr|X(1),X(2))中的每一个元素
Figure BDA0001326128250000081
和随机数矩阵Ttr中对应位置元素的大小,得到哈希编码Btr对应位置元素btr,其中,ttr为随机数矩阵Ttr中与
Figure BDA0001326128250000082
对应元素的表示,且ttr∈(0,1),
Figure BDA0001326128250000083
步骤8)获取归一化测试数据Y(t)的r位哈希编码
Figure BDA0001326128250000091
(8a)获取归一化测试数据Y(t)属于每一类的概率P(Y(t)|K):假设归一化测试数据Y(t)的所有测试数据服从高斯分布,即
Figure BDA0001326128250000092
分别计算每一个测试数据点
Figure BDA0001326128250000093
属于第c类的概率
Figure BDA0001326128250000094
(8b)获取归一化测试数据后验概率P(K|Y(t)):将概率P(Y(t)|K)代入贝叶斯公式,计算得到归一化测试数据后验概率P(K|Y(t)),计算归一化测试数据后验概率P(K|Y(t))的表达式为:
Figure BDA0001326128250000095
其中,P(Y(t)|c)表示归一化测试数据Y(t)属于第c类的概率;
(8c)将归一化测试数据后验概率P(K|Y(t))和矩阵M=[mch]C×r相乘,得到归一化测试数据Y(t)的r位哈希编码
Figure BDA0001326128250000096
的后验概率
Figure BDA0001326128250000097
(8d)对归一化测试数据Y(t)的r位哈希编码
Figure BDA0001326128250000098
的后验概率
Figure BDA0001326128250000099
中的每一个元素
Figure BDA00013261282500000910
进行伯努利采样,得到归一化测试数据Y(t)的r位哈希编码
Figure BDA00013261282500000911
伯努利采样过程为:
(8d1)随机产生一个和归一化测试数据Y(t)的r位哈希编码
Figure BDA00013261282500000919
的后验概率
Figure BDA00013261282500000920
同大小的测试数据随机数矩阵Tte
(8d2)比较归一化测试数据Y(t)的r位哈希编码
Figure BDA00013261282500000912
的后验概率
Figure BDA00013261282500000913
和测试数据随机数矩阵Tte中对应位置元素的大小,得到测试数据哈希编码
Figure BDA00013261282500000914
中对应位置元素
Figure BDA00013261282500000915
其中,j表示第j个测试数据点,且j=1,2,…,nte,nte表示测试数据点的个数,tte为随机数矩阵Tte中与
Figure BDA00013261282500000916
对应元素的表示,且tte∈(0,1),
Figure BDA00013261282500000917
步骤9)计算归一化测试数据Y(t)的哈希编码
Figure BDA00013261282500000918
与归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr的汉明距离矩阵Dh;
步骤10)获取归一化测试数据Y(t)的检索结果:分别获取汉明距离矩阵Dh中每一行最小的前a个汉明距离值,并将得到的每一行a个汉明距离值所对应的训练数据作为归一化测试数据Y(t)的检索结果,完成基于非参数贝叶斯模型的监督跨模态哈希检索。
以下结合仿真实验,对本发明的技术效果作进一步说明。
1.仿真条件:
本发明的仿真是在中央处理器为Intel(R)Core(TM)i3-2100 3.10GHZ、内存16G、WINDOWS 7操作系统上,运用MATLAB软件进行的实验仿真,每种仿真均重复独立运行10次,取其平均值作为最终结果。
实验中的参数设置为:对于Wiki数据库和LabelMe数据库,设置调节参数α0=1,基础分布G0为标准正态分布。设置Wiki数据库尺度矩阵VD=0.001I,设置LabelMe数据库尺度矩阵VD=0.1I。
2.仿真内容及结果分析
本发明与现有跨模态哈希检索方法进行了对比,作为对比的哈希方法分别是协同矩阵分解哈希(Collective Matrix Factorization Hashing,CMFH)方法、跨媒体哈希(Inter-Media Hashing,IMH)方法以及跨视角哈希(Cross-View Hashing,CVH)方法。
仿真实验中,设置编码长度分别为16位、32位、64位以及128位,对Wiki数据库和LabelMe数据库来评估检索精度。图2和图3为Wiki数据库的仿真结果图;图4和图5为LabelMe数据库的仿真结果图。
仿真1:在Wiki数据库下分别采用本发明方法和现有三种跨模态哈希检索方法进行性能对比,实验结果图如图2和图3所示。其中,
图2(a)为随着编码长度的变化采样前300图像查询文本精度曲线图,横轴表示哈希编码长度,纵轴表示采样前300图像查询文本结果的精度。图中可见,本发明的图像查询文本的精度完全高于其它三个对比方法,表现出了良好的图像对文本的检索性能。
图2(b)为随着编码长度的变化采样前300文本查询图像精度曲线图,横轴表示哈希编码长度,纵轴表示采样前300文本查询图像结果的精度。图中可见,本发明的文本查询图像的精度完全高于其它三个对比方法,表现出了良好的文本对图像的检索性能。
图3(a)为编码长度取32位的图像查询文本精度-召回率曲线图,横轴表示召回率,纵轴表示精度。图中可见,本发明结果曲线与坐标轴所围的面积和CMFH方法持平,表示在编码长度取32位时,两者的图像检索文本性能相差不多。
图3(b)为编码长度取32位的文本查询图像精度-召回率曲线图,横轴表示召回率,纵轴表示精度。图中可见,本发明结果曲线与坐标轴所围的面积比其它三种对比方法都大,表示在编码长度取32位时,本发明的文本检索图像性能良好。
仿真2:在LabelMe数据库下分别采用本发明方法和现有三种跨模态检索方法进行检索结果对比,实验结果图如图4和图5所示。其中,
图4(a)为随着编码长度的变化采样前300图像查询文本精度曲线图,横轴表示哈希编码长度,纵轴表示采样前300图像查询文本结果的精度。图中可见,本发明的图像查询文本的精度完全高于其它三个对比方法,表现出了良好的图像对文本的检索性能。
图4(b)为随着编码长度的变化采样前300文本查询图像精度曲线图,横轴表示哈希编码长度,纵轴表示采样前300文本查询图像结果的精度。图中可见,本发明的文本查询图像的精度完全高于其它三个对比方法,表现出了良好的文本对图像的检索性能。
图5(a)为编码长度取32位的图像查询文本精度-召回率曲线图,横轴表示召回率,纵轴表示精度。图中可见,本发明结果曲线与坐标轴所围的面积比其它三种对比方法都大,表示在编码长度取32位时,本发明的图像检索文本性能良好。
图5(b)为编码长度取32位的文本查询图像精度-召回率曲线图,横轴表示召回率,纵轴表示精度。图中可见,本发明结果曲线与坐标轴所围的面积比其它三种对比方法稍大,表示在编码长度取32位时,本发明的文本检索图像性能比其它三种对比方法稍好。
由图2、图3、图4和图5的仿真结果可见,采用本发明进行跨模态检索的精度高于采用现有方法进行跨模态检索的精度。所以,与现有的技术相比,本发明能够有效利用非参数贝叶斯模型描述数据实际分布,提高跨模态检索的精度。

Claims (6)

1.一种基于非参数贝叶斯模型的监督跨模态哈希检索方法,包括如下步骤:
(1)获取原始训练数据,并对原始训练数据进行归一化,得到归一化训练数据X(t),其中,t表示归一化训练数据的类型,且t∈{1,2},X(1)表示归一化图像训练数据,X(2)表示归一化文本训练数据;
(2)获取原始测试数据,并对原始测试数据进行归一化,得到归一化测试数据Y(t),其中,t表示归一化测试数据的类型,且t∈{1,2},Y(1)表示归一化图像测试数据,Y(2)表示归一化文本测试数据;
(3)对归一化训练数据X(t)进行分类:根据归一化训练数据X(t)所对应的类标信息L,将归一化图像训练数据X(1)和归一化文本训练数据X(2)均分为C类;
(4)获取归一化训练数据X(t)的三个训练数据参数:
(4a)获取归一化训练数据X(t)的三个后验分布:采用非参数贝叶斯模型,对归一化训练数据X(t)中的每一个训练数据点
Figure FDA0002247983920000011
进行描述,得到归一化训练数据X(t)的训练数据整体均值
Figure FDA0002247983920000012
服从的后验分布、训练数据所属类别均值
Figure FDA0002247983920000013
服从的后验分布
Figure FDA0002247983920000014
以及训练数据协方差矩阵的逆
Figure FDA0002247983920000015
服从的后验分布,其中,i表示第i个训练数据点,且i=1,2,…,n,n表示数据点的个数,c表示分类类别,且c=1,2,…,C;
(4b)获取归一化训练数据X(t)的三个训练数据参数:将每一个训练数据点
Figure FDA0002247983920000016
分别代入三个后验分布,计算归一化训练数据X(t)的训练数据整体均值
Figure FDA0002247983920000017
训练数据所属类别均值
Figure FDA0002247983920000018
以及训练数据协方差矩阵的逆
Figure FDA0002247983920000019
(5)获取归一化图像训练数据X(1)和归一化文本训练数据X(2)同属于每一类的概率P(X(1),X(2)|K):
(5a)获取归一化训练数据X(t)每一个训练数据点
Figure FDA00022479839200000110
属于第c类的概率
Figure FDA0002247983920000021
假设归一化训练数据X(t)的所有训练数据服从高斯分布,即
Figure FDA0002247983920000022
分别计算每一个训练数据
Figure FDA0002247983920000023
属于第c类的概率
Figure FDA0002247983920000024
(5b)获取图像训练数据点
Figure FDA0002247983920000025
和对应的文本训练数据点
Figure FDA0002247983920000026
同属于第c类的概率
Figure FDA0002247983920000027
Figure FDA0002247983920000028
Figure FDA0002247983920000029
相乘,得到图像训练数据点
Figure FDA00022479839200000210
和对应的文本训练数据点
Figure FDA00022479839200000211
同属于第c类的概率
Figure FDA00022479839200000212
其中,K表示分类类别集合,且K∈{1,2,…,C},
Figure FDA00022479839200000213
表示归一化训练数据X(t)的训练数据协方差矩阵;
(6)获取训练数据后验概率P(K|X(1),X(2)):将概率P(X(1),X(2)|K)代入贝叶斯公式,计算训练数据后验概率P(K|X(1),X(2));
(7)获取归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr
(7a)随机生成一个矩阵M=[mch]C×r,其中,mch表示矩阵M中的一个元素,且mch∈(0,1);
(7b)将训练数据后验概率P(K|X(1),X(2))和矩阵M=[mch]C×r相乘,得到归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr的后验概率P(Btr|X(1),X(2));
(7c)对归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr的后验概率P(Btr|X(1),X(2))中的每一个元素
Figure FDA00022479839200000216
进行伯努利采样,得到归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr
(8)获取归一化测试数据Y(t)的r位哈希编码
Figure FDA00022479839200000214
(8a)获取归一化测试数据Y(t)属于每一类的概率P(Y(t)|K):假设归一化测试数据Y(t)的所有测试数据服从高斯分布,即
Figure FDA00022479839200000215
分别计算每一个测试数据点
Figure FDA0002247983920000031
属于第c类的概率
Figure FDA0002247983920000032
(8b)获取归一化测试数据后验概率P(K|Y(t)):将概率P(Y(t)|K)代入贝叶斯公式,计算得到归一化测试数据后验概率P(K|Y(t));
(8c)将归一化测试数据后验概率P(K|Y(t))和矩阵M=[mch]C×r相乘,得到归一化测试数据Y(t)的r位哈希编码
Figure FDA0002247983920000033
的后验概率
Figure FDA0002247983920000034
(8d)对归一化测试数据Y(t)的r位哈希编码
Figure FDA0002247983920000035
的后验概率
Figure FDA0002247983920000036
中的每一个元素
Figure FDA0002247983920000037
进行伯努利采样,得到归一化测试数据Y(t)的r位哈希编码
Figure FDA0002247983920000038
其中,j表示第j个测试数据点,且j=1,2,…,nte,nte表示测试数据点的个数;
(9)计算归一化测试数据Y(t)的哈希编码
Figure FDA0002247983920000039
与归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr的汉明距离矩阵Dh;
(10)获取归一化测试数据Y(t)的检索结果:分别获取汉明距离矩阵Dh中每一行最小的前a个汉明距离值,并将得到的每一行的a个汉明距离值所对应的训练数据作为归一化测试数据Y(t)的检索结果,完成基于非参数贝叶斯模型的监督跨模态哈希检索。
2.根据权利要求1所述的基于非参数贝叶斯模型的监督跨模态哈希检索方法,其特征在于,步骤(4a)所述的归一化训练数据X(t)的训练数据整体均值
Figure FDA00022479839200000310
服从的后验分布、训练数据所属类别均值
Figure FDA00022479839200000311
服从的后验分布
Figure FDA00022479839200000312
以及训练数据协方差矩阵的逆
Figure FDA00022479839200000313
服从的后验分布,其表达式分别为:
(i)归一化训练数据X(t)的训练数据整体均值
Figure FDA00022479839200000314
服从的后验分布,其表达式为:
Figure FDA00022479839200000315
其中,
Figure FDA00022479839200000316
表示含有C个主成分的高斯混合模型,
Figure FDA00022479839200000317
表示第c个高斯的权重,
Figure FDA00022479839200000318
nc表示归一化训练数据第c类所含的训练数据点个数;
(ii)归一化训练数据X(t)的训练数据所属类别均值
Figure FDA0002247983920000041
服从的后验分布
Figure FDA0002247983920000042
其表达式为:
Figure FDA0002247983920000043
其中,归一化训练数据所属类别均值
Figure FDA0002247983920000044
服从的后验分布
Figure FDA0002247983920000045
是通过假设归一化训练数据所属类别均值
Figure FDA0002247983920000046
先验分布服从狄利克雷过程推导得到的,即
Figure FDA0002247983920000047
Figure FDA0002247983920000048
δ.表示δ函数,νi表示第i个训练数据点的所属类别均值,
Figure FDA0002247983920000049
Figure FDA00022479839200000410
Id表示d维单位矩阵,d为每一个训练数据点x(t)的维数,α0表示调节参数,G0表示狄利克雷过程的基础分布;
(iii)归一化训练数据X(t)的训练数据协方差矩阵的逆
Figure FDA00022479839200000411
服从的后验分布,其表达式为:
Figure FDA00022479839200000412
其中,训练数据协方差矩阵的逆
Figure FDA00022479839200000413
服从的后验分布是通过假设归一化训练数据X(t)的训练数据协方差矩阵的逆
Figure FDA00022479839200000414
先验分布服从威沙特分布推导得到的,即
Figure FDA00022479839200000415
m表示自由度,VD表示p×p的尺度矩阵。
3.根据权利要求1所述的基于非参数贝叶斯模型的监督跨模态哈希检索方法,其特征在于,步骤(6)中所述的训练数据后验概率P(K|X(1),X(2)),其表达式为:
Figure FDA0002247983920000051
其中,P(X(1),X(2)|c)表示归一化图像训练数据X(1)和归一化文本训练数据X(2)同属于第c类的概率,P(K)表示类别的边缘分布,P(K)中有C个元素,此处假设P(K)中每一个元素均服从均匀分布,即
Figure FDA0002247983920000052
4.根据权利要求1所述的基于非参数贝叶斯模型的监督跨模态哈希检索方法,其特征在于,步骤(7c)中所述的对归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr的后验概率P(Btr|X(1),X(2))中的每一个元素
Figure FDA0002247983920000053
进行伯努利采样,实现步骤为:
(7c1)随机产生一个和归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr的后验概率P(Btr|X(1),X(2))同大小的随机数矩阵Ttr
(7c2)比较归一化图像训练数据X(1)和归一化文本训练数据X(2)统一的r位哈希编码Btr的后验概率P(Btr|X(1),X(2))中的每一个元素
Figure FDA0002247983920000054
和随机数矩阵Ttr中对应位置元素的大小,得到哈希编码Btr对应位置元素btr,其中,ttr为随机数矩阵Ttr中与
Figure FDA0002247983920000055
对应元素的表示,且ttr∈(0,1),
Figure FDA0002247983920000056
5.根据权利要求1所述的基于非参数贝叶斯模型的监督跨模态哈希检索方法,其特征在于,步骤(8b)所述的归一化测试数据后验概率P(K|Y(t)),其表达式为:
Figure FDA0002247983920000057
其中,P(Y(t)|c)表示归一化测试数据Y(t)属于第c类的概率,P(K)表示类别的边缘分布,P(K)中有C个元素,此处假设P(K)中每一个元素均服从均匀分布,即
Figure FDA0002247983920000058
6.根据权利要求1所述的基于非参数贝叶斯模型的监督跨模态哈希检索方法,其特征在于,步骤(8d)中所述的对归一化测试数据Y(t)的r位哈希编码
Figure FDA0002247983920000061
的后验概率
Figure FDA0002247983920000062
中的每一个元素
Figure FDA0002247983920000063
进行伯努利采样,实现步骤为:
(8d1)随机产生一个和归一化测试数据Y(t)的r位哈希编码
Figure FDA0002247983920000064
的后验概率
Figure FDA0002247983920000065
同大小的测试数据随机数矩阵Tte
(8d2)比较归一化测试数据Y(t)的r位哈希编码
Figure FDA0002247983920000066
的后验概率
Figure FDA0002247983920000067
和测试数据随机数矩阵Tte中对应位置元素的大小,得到测试数据哈希编码
Figure FDA0002247983920000068
中对应位置元素
Figure FDA0002247983920000069
其中,tte为随机数矩阵Tte中与
Figure FDA00022479839200000610
对应元素的表示,且tte∈(0,1),
Figure FDA00022479839200000611
CN201710466670.6A 2017-06-20 2017-06-20 基于非参数贝叶斯模型的监督跨模态哈希检索方法 Active CN107273505B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710466670.6A CN107273505B (zh) 2017-06-20 2017-06-20 基于非参数贝叶斯模型的监督跨模态哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710466670.6A CN107273505B (zh) 2017-06-20 2017-06-20 基于非参数贝叶斯模型的监督跨模态哈希检索方法

Publications (2)

Publication Number Publication Date
CN107273505A CN107273505A (zh) 2017-10-20
CN107273505B true CN107273505B (zh) 2020-04-14

Family

ID=60067818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710466670.6A Active CN107273505B (zh) 2017-06-20 2017-06-20 基于非参数贝叶斯模型的监督跨模态哈希检索方法

Country Status (1)

Country Link
CN (1) CN107273505B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729513B (zh) * 2017-10-25 2020-12-01 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN107766555B (zh) * 2017-11-02 2020-04-21 电子科技大学 基于软约束无监督型跨模态哈希的图像检索方法
CN109905187A (zh) * 2017-12-11 2019-06-18 深圳先进技术研究院 一种非参数异常值检测方法、系统及电子设备
CN109299216B (zh) * 2018-10-29 2019-07-23 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109933682B (zh) * 2019-01-11 2022-01-04 上海交通大学 一种基于语义与内容信息结合的图像哈希检索方法及系统
CN110059198B (zh) * 2019-04-08 2021-04-13 浙江大学 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN110555121B (zh) * 2019-08-27 2022-04-15 清华大学 基于图神经网络的图像哈希生成方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777318A (zh) * 2017-01-05 2017-05-31 西安电子科技大学 基于协同训练的矩阵分解跨模态哈希检索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777318A (zh) * 2017-01-05 2017-05-31 西安电子科技大学 基于协同训练的矩阵分解跨模态哈希检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multi-Modal Distance Metric Learning ABayesian Non-parametric Approach;Behnam等;《Springer》;20150320;全文 *
半监督哈希算法研究;高宪军;《万方》;20160504;正文第21-34页 *

Also Published As

Publication number Publication date
CN107273505A (zh) 2017-10-20

Similar Documents

Publication Publication Date Title
CN107273505B (zh) 基于非参数贝叶斯模型的监督跨模态哈希检索方法
Li et al. Dynamic Adaboost learning with feature selection based on parallel genetic algorithm for image annotation
Tao et al. Negative samples analysis in relevance feedback
Lim et al. Efficient learning of mahalanobis metrics for ranking
Zhang et al. Multi-label learning by instance differentiation
Mao et al. Objective-guided image annotation
Yang et al. Mutual quantization for cross-modal search with noisy labels
Zhang et al. Discriminative semantic subspace analysis for relevance feedback
CN110647907A (zh) 利用多层分类和字典学习的多标签图像分类算法
CN107992945B (zh) 基于深度学习和进化计算的特征基因选择方法
Li et al. Modeling continuous visual features for semantic image annotation and retrieval
Li et al. Fusing semantic aspects for image annotation and retrieval
Genender-Feltheimer Visualizing high dimensional and big data
CN113807456A (zh) 一种基于互信息的特征筛选和关联规则多标记分类算法
Li et al. Technique of image retrieval based on multi-label image annotation
CN112214570A (zh) 一种基于对抗投影学习哈希的跨模态检索方法及装置
Alalyan et al. Model-based hierarchical clustering for categorical data
Cai et al. Aris: a noise insensitive data pre-processing scheme for data reduction using influence space
CN109857892B (zh) 基于类标传递的半监督跨模态哈希检索方法
Li et al. Self-supervised learning-based weight adaptive hashing for fast cross-modal retrieval
Gavagsaz Efficient Parallel Processing of k-Nearest Neighbor Queries by Using a Centroid-based and Hierarchical Clustering Algorithm
Lan et al. Label guided discrete hashing for cross-modal retrieval
Berahmand et al. An Improved Deep Text Clustering via Local Manifold of an Autoencoder Embedding
Xi et al. Image caption automatic generation method based on weighted feature
Bahrami et al. Automatic image annotation using an evolutionary algorithm (IAGA)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant