CN108280180B

CN108280180B - 一种基于主题模型的半监督哈希算法的检索方法

Info

Publication number: CN108280180B
Application number: CN201810063076.7A
Authority: CN
Inventors: 姜志国; 张浩鹏; 麻义兵; 谢凤英
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2022-05-13
Anticipated expiration: 2038-01-23
Also published as: CN108280180A

Abstract

本发明公开了一种基于主题模型的半监督哈希算法，使用主题模型将单词特征转化为主题特征，然后对主题特征进行半监督训练，实现了半监督条件下准确、稳定并能涵盖所有数据，增强了模型对数据的泛化能力，使模型对数据分布有更准确的描述，从而获得更准确的哈希码；通过替换核化监督哈希的核方法，减少随机因素，使得模型更加稳定。

Description

一种基于主题模型的半监督哈希算法的检索方法

技术领域

本发明涉及机器学习领域，更具体的说是涉及一种基于主题模型的半监督哈希算法。

背景技术

在大规模数据集检索中，哈希算法是解决效率问题的有效途径。给定一组数据的特征向量

哈希算法的目标是找到一组合适的哈希函数h_i：R^d→{1,-1},i＝1,…,r，其中r为编码位数。每个哈希函数单独产生一位哈希码，将其中的-1改为0，这样每个特征被赋予一个r位的二进制哈希编码。在训练阶段，将数据库中的特征按照哈希码存储形成哈希表，同一个哈希码对应一个桶(bucket)；在应用阶段，使用相同的哈希函数得到查询特征的哈希码，然后在该码对应桶中的候选区域范围内查找相似结果，其中暴力搜索计算所有相似度并排序的时间复杂度为O(n·log(n))，但是将连续的实数特征转化为二进制编码的过程会造成信息损失。

目前，关于半监督哈希的典型代表是核化监督哈希(kernel-based supervisedhashing，KSH)。KSH由两部分组成，即核方法与监督训练。核方法可以处理实际问题中近似线性可分的数据。监督训练通过优化算法使哈希码的相似性等效于数据标签的相似性，提升检索准确率。但是KSH仅仅使用数据集中有标签的数据，忽略了无标签数据的分布规律；KSH中核方法在其目标(特征线性可分性增强)中效果并不令人满意；KSH中核方法引入了随机因素，导致稳定性较差。

因此，如何提供一种不但能够保证检索的准确率，而且能够保证算法稳定性的基于主题模型的半监督哈希算法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于主题模型的半监督哈希算法，将KSH 中核方法替换为主题模型，对单词特征进行哈希编码；通过主题模型利用数据集中所有数据的单词特征，增强了模型对数据的泛化能力，使模型对数据分布有更准确的描述，从而获得更准确的哈希码；通过替换核方法，减少随机因素，使得模型更加稳定。

为了实现上述目的，本发明提供如下技术方案：

一种基于主题模型的半监督哈希算法，其特征在于，具体包括以下步骤：

S1：根据所有数据训练主题模型，由单词特征得到主题特征，并对所述主题模型进行求解；

S2：通过半监督训练将主题特征转化为哈希码；

S3：对未知数据进行哈希编码并检索。

本发明的技术效果：将KSH中核方法替换为主题模型，对单词特征进行哈希编码，其中主题模型为潜在狄利克雷分配(Latent Dirichilet Allocation， LDA)；通过主题模型利用数据集中所有数据的单词特征，增强了模型对数据的泛化能力，使模型对数据分布有更准确的描述，从而获得更准确的哈希码；通过替换核方法，减少随机因素，使得模型更加稳定。

优选的，在上述一种基于主题模型的半监督哈希算法中，在S1中具体步骤包括：

S11：设主题z为隐含变量，表示为主题库中的一个索引，z∈{1,…,K}，其中 K为主题总类数；

S12：定义超参数α和β；

S13：:定义数据集W＝{w₁,…,w_M}，w_i＝[w_i,1,…,w_i,Ni]，其中w_ij∈{1,…,V}，M为数据数，N_i为第i个数据中单词个数，V为单词总类数；

S14：通过主题模型求解每个数据的主题概率分布特征θ_m＝[θ_m1,…,θ_mK] (m＝1,…,M)以及主题-单词概率分布

其中，θ_mk表示第m个数据属于主题k的概率，

表示主题k中包含单词v的概率。

本发明的技术效果：通过主题模型利用数据集中所有数据的单词特征，增强了模型对数据的泛化能力，使模型对数据分布有更准确的描述。

优选的，在上述一种基于主题模型的半监督哈希算法中，对所述超参数进行优化，选择一组最优超参数。

本发明的技术效果：对超参数进行优化，选择一组最优超参数，以提高学习的性能和效果。

优选的，在上述一种基于主题模型的半监督哈希算法中，在S14中，求解所述主题模型采用吉布斯采样法具体包括：

S141：给每个特征的每个单词w随机分配一个主题z；

S142：然后每个单词的主题通过下式重新采样并更新；

其中

和

分别为θ_mk和

的期望值，

表示忽略第i个单词的情况下第m 个数据中主题为k的单词数，

表示忽略第i个单词的情况下所有数据中主题k中单词为v的数量，

表示忽略第i个单词的情况下第i个单词属于主题k的概率；

S143：令i在(1,1)到(M,N_M)之间循环变化，反复执行上述重采样与更新过程，直到收敛；

S144：通过统计得到主题-单词的共现矩阵[n(k,v)]_K×V和数据-主题的共现矩阵[n(m,k)]_M×K；

S145：通过下式计算得到θ_mk和

优选的，在上述一种基于主题模型的半监督哈希算法中，在S2中具体步骤包括：

S21：设主题特征数据集为X＝{x⁽¹⁾,…,x⁽ⁿ⁾}，其中

表示第i个训练样本的主题特征向量，定义哈希函数为哈希函数h(x)＝sgn(f(x))，其中

其中，

表示任意数据的主题特征向量；

S22：从X中随机选择l个带标签的样本，其中l远远小于n，构建标签矩阵S；根据第i个样本与第j个样本标签是否相同对S_ij与S_ji赋予1或-1；

S23：不失一般性地假设带标签样本集为X_l＝{x⁽¹⁾,…,x^(l)}，定义

残差矩阵

其中

为a在第t次迭代后的最佳取值；

S24：定义函数σ(x)＝2/(1+exp(-x))-1，使用梯度下降法优化以下目标函数

S25：最终解得a并根据S21得到所有数据的哈希码。

本发明的技术效果：为了保持检索精度，保证生成的每位编码都有均衡且互相独立的分布，以保证每位编码的最大信息以及所有位之间的最小冗余。

优选的，在上述一种基于主题模型的半监督哈希算法中，在S3中具体步骤包括：

S31：对于未知数据的单词特征w_Q＝[w_Q,1,…,w_Q,NQ]，w_Qj∈{1,…,V}，根据S1 和S2中训练的模型依次求其主题特征与哈希码；

S32：将

固定为

并使用S14过程求得未知数据的主题特征θ_Q，然后固定a 并利用S21转化为哈希码，将所有哈希码中的-1替换为0，进行哈希码的检索。

本发明的技术效果：针对未知数据采用同样的方法，实现模型对数据分布更准确的描述，从而获得更准确的哈希码，进一步减少随机因素，使得模型更加稳定。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于主题模型的半监督哈希算法，使用主题模型将单词特征转化为主题特征，然后对主题特征进行半监督训练，实现了半监督条件下准确、稳定并能涵盖所有数据，增强了模型对数据的泛化能力，使模型对数据分布有更准确的描述，从而获得更准确的哈希码；通过替换核方法，减少随机因素，使得模型更加稳定。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明的流程图；

图2附图为本发明吉布斯采样的流程图；

图3附图为本发明转化哈希码的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于主题模型的半监督哈希算法，使用主题模型将单词特征转化为主题特征，然后对主题特征进行半监督训练，实现了半监督条件下准确、稳定并能涵盖所有数据，增强了模型对数据的泛化能力，使模型对数据分布有更准确的描述，从而获得更准确的哈希码；通过替换核方法，减少随机因素，使得模型更加稳定。

实施例1

请参阅附图1-3为本发明提供了一种基于主题模型的半监督哈希算法，具体包括以下步骤：

S2：通过半监督训练将主题特征转化为哈希码；

S3：对未知数据进行哈希编码并检索。

为了优化上述技术方案，在S1中具体步骤包括：

S12：定义超参数α和β；

S13：定义数据集W＝{w₁,…,w_M}，w_i＝[w_i,1,…,w_i,Ni]，其中w_ij∈{1,…,V}，M为数据数，N_i为第i个数据中单词个数，V为单词总类数；

S14：通过主题模型求解每个数据的主题概率分布特征θ_m＝[θ_m1,…,θ_mK]

(m＝1,…,M)以及主题-单词概率分布

其中，θ_mk表示第m个数据属于主题k的概率，

表示主题k中包含单词v的概率。

为了优化上述技术方案，在S12中定义所述超参数，对超参数进行优化，选择一组最优超参数。

为了优化上述技术方案，在S14中，求解所述主题模型采用吉布斯采样法，且所述吉布斯采样法具体包括：

S141：给每个特征的每个单词w随机分配一个主题z；

S142：每个单词的主题z通过下式重新采样并更新；

其中

和

分别为θ_mk和

的期望值，

表示忽略第i个单词的情况下第m 个数据中主题为k的单词数，

表示忽略第i个单词的情况下第i个单词属于主题k的概率；

S145：通过下式计算得到θ_mk和

为了优化上述技术方案，在S2中具体步骤包括：

S21：设主题特征数据集为X＝{x⁽¹⁾,…,x⁽ⁿ⁾}，其中

其中，

表示任意数据的主题特征向量；

残差矩阵

其中

为a在第t次迭代后的最佳取值；

S25：最终解得a并根据S21得到所有数据的哈希码。

为了优化上述技术方案，在S3中具体步骤包括：

S32：将

固定为

实施例2

一种基于主题模型的半监督哈希算法，其中主题模型采用潜在语义分析，是用于知识获取和展示的计算理论和方法，它使用统计计算的方法对大量的文本集进行分析，从而提取出词与词之间潜在的语义结构，并用这种潜在的语义结构来表示词和文本，达到消除词之间的相关性和简化文本向量实现降维的目的。潜在语义分析的基本观点是：把高维的向量空间模型(VSM)表示中的文档映射到低维的潜在语义空间中。这个映射是通过对项/文档矩阵的奇异值分解(SVD)来实现的。

求解主题模型的方法采用期望最大化，首先初始化分布函数；估计未知参数的期望值，给出当前的参数估计；重新估计分布函数，以使得数据的似然性最大，给出未知变量的期望估计。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。