CN104408153A

CN104408153A - 一种基于多粒度主题模型的短文本哈希学习方法

Info

Publication number: CN104408153A
Application number: CN201410729347.XA
Authority: CN
Inventors: 郝红卫; 许家铭; 徐博; 田冠华; 王方圆
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-12-03
Filing date: 2014-12-03
Publication date: 2015-03-11
Anticipated expiration: 2034-12-03
Also published as: CN104408153B

Abstract

本发明公开了一种基于多粒度主题模型的短文本哈希学习方法，采用外部大规模语料库训练候选主题模型，可依据数据集类型选择最优的多粒度主题特征，并赋予权重，由该方法选择出来的多粒度主题模型有较好的区分度，在构建稀疏短文本间相似语义关联的同时有助于哈希函数学习；本发明方法采用了两种基于多主题模型的哈希学习策略，分别为多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法，以及多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法，较基于单粒度主题特征方法，在精度和召回率等多项测评指标上均有大幅度提升。

Description

一种基于多粒度主题模型的短文本哈希学习方法

技术领域

本发明涉及文本信息检索领域，更具体地涉及一种短文本哈希学习方法，可应用于海量短文本快速语义检索、问答系统相似问句快速匹配、微博语义相似内容推荐等子领域。

背景技术

随着社交媒体的迅猛发展，大量的短文本以各种形式产生，如：微博、短消息、问答网站中的问题，以及在线广告等。为了解决海量文本数据的快速相似查询问题，近几年相关研究者提出一种语义哈希方法，它可以将文本特征映射到具有相似信息保存性的二进制编码中，并在快速语义搜索中得到了广泛的应用。然而，目前许多哈希学习方法都是基于关键词特征空间的，短文本原始特征空间的稀疏性导致这些哈希方法不能很好的保存语义相似信息。例如，有三个短文本：

文本1：“拉斐尔纳达尔错过了澳网公开赛”；

文本2：“罗杰费德勒荣获大满贯头衔”；

文本3：“泰格伍兹打破多次高尔夫记录”。

显然，基于关键词特征空间的哈希学习方法无法保存文本1、文本2和文本3之间的语义关联信息。近些年，一些研究者尝试通过潜层主题模型来解决文本表示中语义鸿沟给哈希学习方法所带来的上述问题。但是，基于特定粒度的主题特征并没有充分表示文本间的内在语义关联。如我们所知，指定不同主题数的主题模型能够从文本中抽取出不同层次的语义特征。当我们设定的主题数较多时，可以从文本中抽取出细粒的隐层主题特征，如：从文本1、2中抽取出“网球”，从文本3中抽取出“高尔夫”。这种粒度的主题特征无法构建文本3和其他文本间的关联性。当主题数设定的较少时，我们可以从文本中抽取出较粗粒的隐层主题特征，如：从文本1、2及3中都抽取出“运动员”和“明星”。这种粒度的主题特征缺乏区分度信息而无法有效地学习哈希映射函数。因而，针对短文本哈希问题，多粒度主题特征更适合用于哈希码的相似度保存及哈希映射函数学习。

另一方面，在哈希学习方法中应该充分挖掘文本中的标签信息。因为在很多实际应用中，文本都是具有多标签信息的。例如：问答系统中，提问者会给自己的问句张贴所属类别或相关类别标签；在微博文本中，很多用户会通过“#关键词”形式给微博张贴相关内容标签。因此，有必要充分挖掘这些标签信息来增强相关文本间的语义相似度。

发明内容

针对上述问题，作为本发明的一个方面，本发明提出了一种基于多粒度主题模型的短文本哈希离线训练方法，包括以下步骤：

步骤1，利用大规模语料库训练N个候选主题模型T＝{T₁，T₂，...，T_N}，其中所述大规模语料库为外部通用的大规模语料库，N为训练得到的候选主题模型的数目，为一个正整数；

步骤2，从训练集X中随即抽取一部分带有标签信息的样本选择M个最优多粒度主题模型集合及对应权重μ＝{μ(T₁)，μ(T₂)，...，μ(T_N)}，其中，M为预先设定的最优多粒度主题模型的数目，为一个正整数；

步骤3，计算训练集原始特征的TF-IDF特征w，并进行归一化；

步骤4，从最优的M个主题模型中抽取多粒度主题特征{θ₁，θ₂，...，θ_M}；

步骤5，通过两种学习策略融合多粒度主题特征及标签信息进行哈希学习，得到训练集哈希码和哈希函数。

其中，在步骤2中，所述选择M个最优多粒度主题模型集合及对应权重的步骤包括：

步骤2.1，从训练样本X中随机采样小部分带有标签的样本

步骤2.2，从候选的N个主题模型中抽出样本集的多粒度主题特征其中主题特征θ为文本上主题概率分布p(z|x)，并初始化权重向量μ＝0；

步骤2.3，开始遍历样本集合中的每个样本

步骤2.4，寻找样本的两组近邻集合和

其中，集合是从同样本所带标签有任意匹配的样本集合中找到k⁺近邻，另一个集合是从同样本所带标签未有任意匹配的样本集合中找到k^-近邻，k⁺＝k^-＝10；

步骤2.5，开始遍历候选主题集合T中的每个主题模型T_i；

步骤2.6，按照下面的公式(1)更新当前主题模型T_i的权重值μ(T_i)：

μ (T_{i}) = μ (T_{i}) + Σ_{j = 1}^{k^{-}} \frac{D_{KL} (T_{i} (x), T_{i} ({nn}_{j}^{-} (x)))}{k^{-}} - Σ_{p = 1}^{k^{+}} \frac{D_{KL} (T_{i} (x), T_{i} ({nn}_{p}^{+} (x)))}{k^{+}} - - - (1)

其中：

D_{KL} (T_{i} (x), T_{i} ({nn}_{j}^{-} (x))) = \frac{1}{2} \underset{z_{k} &Element; T_{i}}{Σ} (p (z_{k} | x) \cdot \log (\frac{p (z_{k} | x)}{p (z_{k} | {nn}_{j}^{-} (x))}) + p (z_{k} | {nn}_{j}^{-} (x)) \cdot \log (\frac{p (z_{k} | {nn}_{j}^{-} (x))}{p (z_{k} | x)})),

D_{KL} (T_{i} (x), T_{i} ({nn}_{j}^{+} (x))) = \frac{1}{2} \underset{z_{k} &Element; T_{i}}{Σ} (p (z_{k} | x) \cdot \log (\frac{p (z_{k} | x)}{p (z_{k} | {nn}_{j}^{+} (x))}) + p (z_{k} | {nn}_{j}^{+} (x)) \cdot \log (\frac{p (z_{k} | {nn}_{j}^{+} (x))}{p (z_{k} | x)}));

步骤2.7，判断候选主题模型T是否已经全部遍历完毕，若是则继续，若否则跳转至步骤2.5；

步骤2.8，判断样本集合是否已经全部遍历完毕，若是则继续，若否则跳转至步骤2.3；

步骤2.9，权重向量更新完毕之后，直接根据前M个最高权重值选出对应的主题模型集合o，即为最优多粒度主题模型。

其中，在步骤5中，所述两种学习策略如下所示：

第一策略，基于多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法，包括以下步骤：

步骤5.1，将多粒度主题特征{θ₁，θ₂，...，θ_M}及原始特征w整合到一个高维向量中：

Ω = [λw, {\hat{μ}}_{1} θ_{1}, {\hat{μ}}_{2} θ_{2}, . . ., {\hat{μ}}_{M} θ_{M}]

其中，λ为原始特征与多粒度主题特征的权衡系数，为多粒度主题特征之间的权重调节系数：

步骤5.2，基于高维特征Ω构造相似度矩阵s，同时引入标签信息增强相关文本间的语义相似度；

构建局部相似度矩阵，并重新定义文本之间的相似度计算方法如下：

其中，NN_k(x)表示样本x的k近邻集合，c_ij为置信系数；当两个样本x_i和x_j共享任意相同标签时(T_ij＝1)，置c_ij一个较高的值a；相反地，如果两个样本x_i和x_j不相关时(T_ij＝0)，置c_ij一个较低的值b，如下所示：

c_{ij} = \{\begin{matrix} a, & if & T_{ij} = 1 \\ b, & if & T_{ij} = 0 \end{matrix}

其中，参数a和b满足1≥a≥b＞0；

步骤5.3，引入到两步哈希方法中进行学习；

通过引入一个两阶段的自学习式哈希框架，哈希码和哈希函数可独立学习，优化目标函数如下：

\min_{Y} Σ_{i, j = 1}^{n} S_{ij} {| | y_{i} - y_{j} | |}_{F}^{2}

s.t.Y∈{-1，1}^n×l，Y^T1＝0，Y^TY＝I

其中，S_ij是基于高维特征Ω构造的局部相似度矩阵，y_i是文本x_i的哈希码，||·||_F是F-范数；通过松弛哈希码离散化的约束条件Y∈{-1，1}^n×l，最优的l维实值向量可以通过求解拉普拉斯特征映射问题解决；

步骤5.4，得到l维实值向量及其中值向量

步骤5.5，采用m为阈值对实值向量进行二值化，得到哈希码Y；所述哈希码Y即为训练样本集语料X映射后的l维二进制编码集合；

步骤5.6，训练l个线性支持向量机分类器；

基于前面得到的l维哈希码及现有训练集语料X的特征集合学习l个线性支持向量机二值分类器f(x)＝sgn(w^Tx)，输出为0或1；以及

第二策略，基于多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法，包括以下步骤：

步骤5.1，提取训练样本集X的M+1种特征集合{w，θ₁，θ₂，...，θ_M}；

步骤5.2，基于M+1种特征构造M+1个相似度矩阵集合{S₁，S₂，...，S_M+1}，同时引入标签信息增强相关文本间的语义相似度；构建局部相似度矩阵，并重新定义文本之间的相似度计算方法如下：

c_{ij} = \{\begin{matrix} a, & if & T_{ij} = 1 \\ b, & if & T_{ij} = 0 \end{matrix}

其中，参数a和b满足1≥a≥b＞0；

步骤5.3，引入到多源哈希方法中进行学习；

通过引入一种多源哈希学习框架，同时进行哈希码和哈希函数学习；直接对M+1种特征所对应的相似度矩阵{S₁，S₂，...，S_M+1}进行线性组合，如下：

Σ_{k = 1}^{M + 1} Σ_{i, j = 1}^{n} S_{ij}^{(k)} {| | y_{i} - y_{j} | |}_{F}^{2}

其中，是第k个特征对应的相似度矩阵；通过引入一个n×n对角矩阵D^(k)，其对角元素则上式可重新为如下形式：

tr (Y^{T} Σ_{k = 1}^{M + 1} (D^{(k)} - S^{(k)}) Y) = tr (Y^{T} Σ_{k = 1}^{M + 1} L^{(k)} Y)

其中，L^(k)是定义在第k个特征上的拉普拉斯矩阵；该步骤整体优化目标函数如下：

\min_{Y, W, α} J (Y, W, α) = C_{1} tr (Y^{T} Σ_{k = 1}^{M + 1} {\tilde{L}}^{(k)} Y) + C_{2} {| | Y - Σ_{k = 1}^{M + 1} α_{k} {(W^{(k)})}^{T} X^{(k)} | |}_{F}^{2} + Σ_{k = 1}^{M + 1} {| | W^{(k)} | |}_{F}^{2}

s.t.Y∈{-1，1}^n×k，Y^T1＝0，Y^TY＝1，α^T1＝1，α≥0

其中，C₁和C₂是权衡系数，通过交叉验证方式进行参数寻优；α为M+1维调和系数向量，来权衡M+1种特征的线性函数输出权重；松弛哈希码离散化的约束条件Y∈{-1，1}^n×l，并参考多源哈希学习方法中的迭代优化过程进行求解，可得到l维实值向量M+1维调和系数向量α，及M+1个线性函数{W⁽¹⁾，W⁽²⁾，...，W^(M+1)}；

步骤5.4，得到l维实值向量及其中值向量

步骤5.5，采用m为阈值对实值向量进行二值化，得到哈希码Y；

步骤5.6，由步骤5.3得到M+1个l维线性哈希函数及调和系数向量α。

作为本发明的另一个方面，本发明还提供了一种基于多粒度主题模型的短文本哈希检索方法，包括以下步骤：

步骤1，计算查询文本q的TF-IDF特征w，并进行归一化；

步骤2，对如上所述的基于多粒度主题模型的短文本哈希离线训练方法中选定的训练文本集X进行主题特征抽取，从最优的M个主题模型中抽取多粒度主题特征{θ₁，θ₂，...，θ_M}；

步骤3，通过如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法得到的哈希函数得到所述查询文本的哈希码y_q；

步骤4，通过所述查询文本的哈希码在二值汉明空间中进行匹配搜索来对所述查询文本进行语义相似检索。

其中，在步骤3中所述通过哈希函数得到查询文本的哈希码的步骤包括：

第一策略，基于多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法的在线哈希编码步骤包括：

步骤3.1，将多粒度主题特征{θ₁，θ₂，...，θ_M}及原始特征w整合到一个高维向量中

Ω = [λw, {\hat{μ}}_{1} θ_{1}, {\hat{μ}}_{2} θ_{2}, . . ., {\hat{μ}}_{M} θ_{M}];

步骤3.2，通过如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法得到的l个线性支持向量机二值分类器对高维特征Ω进行二分类得到查询样本q的l维哈希码；或者

第二策略，基于多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法的在线哈希编码步骤包括：

步骤3.1，得到查询样本q的M+1种特征{w，θ₁，θ₂，...，θ_M}；

步骤3.2，通过如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法得到的M+1个l维线性函数{W⁽¹⁾，W⁽²⁾，...，W^(M+1)}及输出权重向量α进行映射，得到l维实值低维向量

{\tilde{y}}_{q} = α_{1} \cdot W^{(1)} w, α_{2} \cdot W^{(2)} θ_{1}, . . ., α_{M + 1} \cdot W^{(M + 1)} θ_{M + 1}} - - - (10);

步骤3.3，采用m为阈值对实值向量进行二值化，得到哈希码y_q。

作为本发明的再一个方面，本发明还提供了一种基于多粒度主题的短文本哈希学习方法，包括以下步骤：

离线训练阶段，通过大规模语料库对输入的短文本训练集X＝{x₁，x₂，...，x_n}、对应标签信息t＝{t₁，t₂，...，t_n}及最优多粒度主题数M进行离线训练，得到所述短文本训练集的哈希码和哈希函数、最优多粒度主题模型O＝{T₁，T₂，...，T_M}和权重向量μ＝{μ(T₁)，μ(T₂)，...，μ(T_N)}；以及

在线预测阶段，根据所述离线训练阶段得到的哈希函数、最优多粒度主题模型O＝{T₁，T₂，...，T_M}，权重向量μ＝{μ(T₁)，μ(T₂)，...，μ(T_N)}计算待查询文本的哈希码和哈希函数，通过哈希码在二值汉明空间中进行匹配搜索来对查询文本进行语义相似检索。

其中，所述离线训练阶段采用如上所述的基于多粒度主题模型的短文本哈希离线训练方法来得到所述短文本训练集的哈希码和哈希函数、最优多粒度主题模型O＝{T₁，T₂，...，T_M}和权重向量μ＝{μ(T₁)，μ(T₂)，...，μ(T_N)}。

其中，所述在线预测阶段采用如上所述的基于多粒度主题模型的短文本哈希检索方法来根据所述离线训练阶段得到的哈希函数、最优多粒度主题模型O＝{T₁，T₂，...，T_M}，权重向量μ＝{μ(T₁)，μ(T₂)，...，μ(T_N)}计算待查询文本的哈希码和哈希函数。

本发明的基于多粒度主题模型的短文本哈希学习方法首先从大规模语料库中训练出多个候选主题模型，能够覆盖大部分词汇、概念及主题，可大幅降低短文本哈希学习时原始特征的语义鸿沟问题，然后根据训练集内容及标签信息挑选出区分度较高的多个最优主题模型，能够更加有效地训练哈希函数，有效改善基于哈希学习的海量短文本语义相似检索的召回率和精度。本发明从两个不同角度提出两种多粒度主题特征融合策略，同时对这两种策略进行了对比试验，两种方法均大幅度提高哈希学习的有效性，相对于基于单粒度主题的哈希学习方法，基于多粒度的主题方法显著提高了检索精度。本发明虽然主要针对基于哈希学习的海量短文本语义相似内容检索领域，但对于其他相似领域亦具有借鉴意义。

附图说明

图1是本发明的基于多粒度主题模型的短文本哈希学习方法的流程框架示意图；

图2是本发明的基于训练集内容及标签信息的最优多粒度主题模型选择方法的流程图；

图3是本发明的基于特征层融合多粒度主题的哈希学习策略的流程图；

图4是本发明的基于决策层融合多粒度主题的哈希学习策略的流程图；

图5是本发明的哈希学习方法、自学习哈希、监督型自学习哈希以及位置敏感哈希在不同哈希码位数(＝4∶4∶64)，特定汉明距离(＝3)下的精度、召回结果曲线；

图6是本发明的哈希学习方法、自学习哈希、监督型自学习哈希以及位置敏感哈希在特定哈希码位数(＝16，32)下的精度、召回结果曲线；

图7是本发明的哈希学习方法中两种多粒度主题特征融合策略在不同标签使用率情况，不同哈希码位数(＝4∶4∶64)、特定汉明距离(＝3)下的精度、召回结果曲线；

图8是本发明的哈希学习方法中两种多粒度主题特征融合策略基于最优多粒度主题相对于单粒度主题在不同哈希码位数(＝4∶4∶64)、特定汉明距离(＝3)下的精度、召回结果曲线；

图9是本发明的哈希学习方法中两种多粒度主题特征融合策略基于最优多粒度主题相对于其他多粒度主题在不同哈希码位数(＝4∶4∶64)、特定汉明距离(＝3)下的精度、召回结果曲线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明提出了一种基于多粒度主题模型的短文本哈希学习方法，其基本特征主要有以下几个方面：一是采用外部大规模语料库训练候选主题模型，大规模语料库应覆盖大量同特定任务相关的词汇、概念及主题；二是提出并应用了一种基于主题分布对称KL散度的最优选择方法，该方法可以根据数据集类型进行最优主题模型选择，并赋予权重，由该方法选择出来的多粒度主题模型有较好的区分度，在构建稀疏短文本间相似语义关联的同时有助于哈希函数学习；三是提出并应用了两种融入多粒度主题特征的短文本哈希学习方法，分别从特征层和决策层进行多粒度主题特征融合以改善基于单粒度主题特征哈希学习方法的局限性；四是提出并应用了一种简单而有效挖掘标签语义信息的方法，能够在哈希学习过程中充分挖掘标签信息来增强相似文本间的语义相关度。实验证明，与以往方法相比，本发明所提方法，在多项检索性能指标上均有明显改善，且在大量标签丢失或不全时，本发明方法具有较强的鲁棒性。

本发明的目的在于，给定一个短文本集合，可以通过融入多粒度主题特征及标签方式从该集合中以离线方式学习到低维二进制哈希码集合及哈希映射函数。在线给定一个查询文本时，可通过哈希映射函数进行转码，并直接在汉明空间中进行语义相似文本匹配。该方法有助于改善基于哈希学习方法的海量短文本快速语义相似文本检索性能。

图1是本发明基于多粒度主题模型的短文本哈希学习方法的示意图，如图1所示，本发明所提出的短文本哈希学习方法包括两个阶段：离线训练阶段和在线预测阶段，每个阶段包括以下几个步骤：

离线训练阶段：

输入：大规模语料库，短文本训练集X＝{x₁，x₂，...，x_n}及对应标签信息t＝{t₁，t₂，...，t_n}，最优多粒度主题数M；

输出：最优多粒度主题模型O＝{T₁，T₂，...，T_M}，权重向量μ＝{μ(T₁)，μ(T₂)，...，μ(T_N)}；哈希函数；

步骤1，利用大规模语料库训练N个候选主题模型T＝{T₁，T₂，...，T_N}；

由于大多数主题模型方法通过文档层词共现关系挖掘主题特征，而直接应用于短文本数据集，受文本稀疏性影响而效果不好。因此本发明采用一个外部通用的大规模语料库来训练候选多粒度主题模型。此语料库应覆盖大量的词汇、概念及主题。比如，本发明中我们选用潜在狄利克雷分布作为主题模型，并人为事先设置好7组候选主题个数{10，30，50，70，90，120，150}，同时我们采用了外部的维基百科语料来训练主题模型。

步骤2，从训练集X中随机抽取一部分带有标签信息的样本选择M个最优主题模型及对应权重μ＝{μ(T₁)，μ(T₂)，...，μ(T_N)}；

为了选择最优的M个主题模型，我们需要利用标签信息对主题模型进行评估，最优的主题模型应有助于区分当前数据集中不共享任意标签文本的数据。该步骤中，只需随机采样小部分带有标签文本参与主题模型的评估选择即可。图2为该最优选择方法流程图，所述步骤2进一步包括以下步骤：

步骤2.1，从训练样本X中随机采样小部分带有标签的样本

本发明实施例中，从每类标签样本中随机选择100个样本进行主题模型评估。

步骤2.2，从候选的N个主题模型中抽出样本集的多粒度主题特征其中主题特征θ为文本上主题概率分布p(z|x)，并初始化多个主题模型的权重向量μ＝0。

步骤2.3，开始遍历样本集合中的每个样本

步骤2.4，寻找样本的两组近邻集合和

其中集合是从同样本所带标签有任意匹配的样本集合中找到k⁺近邻，另一个集合是从同样本所带标签未有任意匹配的样本集合中找到k^-近邻。在本发明的实施例中，k⁺＝k^-＝10。

步骤2.5，开始遍历候选主题集合T中的每个主题模型T_i；

μ (T_{i}) = μ (T_{i}) + Σ_{j = 1}^{k^{-}} \frac{D_{KL} (T_{i} (x), T_{i} ({nn}_{j}^{-} (x)))}{k^{-}} - Σ_{p = 1}^{k^{+}} \frac{D_{KL} (T_{i} (x), T_{i} ({nn}_{p}^{+} (x)))}{k^{+}} - - - (1)

其中：

D_{KL} (T_{i} (x), T_{i} ({nn}_{j}^{-} (x))) = \frac{1}{2} \underset{z_{k} &Element; T_{i}}{Σ} (p (z_{k} | x) \cdot \log (\frac{p (z_{k} | x)}{p (z_{k} | {nn}_{j}^{-} (x))}) + p (z_{k} | {nn}_{j}^{-} (x)) \cdot \log (\frac{p (z_{k} | {nn}_{j}^{-} (x))}{p (z_{k} | x)})),

D_{KL} (T_{i} (x), T_{i} ({nn}_{j}^{+} (x))) = \frac{1}{2} \underset{z_{k} &Element; T_{i}}{Σ} (p (z_{k} | x) \cdot \log (\frac{p (z_{k} | x)}{p (z_{k} | {nn}_{j}^{+} (x))}) + p (z_{k} | {nn}_{j}^{+} (x)) \cdot \log (\frac{p (z_{k} | {nn}_{j}^{+} (x))}{p (z_{k} | x)})) .

步骤2.7，判断候选主题模型T是否已经全部遍历完毕，若是则继续，若不是则转至步骤2.5；

步骤2.8，判断样本集合是否已经全部遍历完毕，若是则继续，若不是则转至步骤2.3；

步骤2.9，权重向量更新完毕之后，直接根据前M个最高权重值选出对应的主题模型集合O＝{T₁，T₂，...，T_M}，即为最优多粒度主题模型。挑选出对应权重值最高的M个主题模型作为最优多粒度主题模型。

选择主题特征过少时，语义表达空间不够充分，而选择主题特征过多时，则容易引入额外噪音。本发明实施例中，根据经验设置最优主题模型粒度数为M＝3。

步骤3，计算训练集原始特征的TF-IDF特征w，并进行归一化；

TF-IDF特征w的计算及归一化方法均为本领域的公知技术，在此不再赘述。

该步骤对整个训练文本集X进行主题特征抽取，从步骤2选择的M个主题模型中抽取最优的主题特征{θ₁，θ₂，...，θ_M}。

步骤5，通过两种策略融合多粒度主题特征及标签信息进行哈希学习，得到训练集哈希码和哈希函数；

该步骤采取了两种不同的融合策略，分别从特征层和决策层融合多粒度主题特征进行哈希学习。特征层融合策略直接把多种特征整合为一个高维向量中，多粒度主题特征融合，哈希码学习同哈希函数训练相独立的学习方法(以下简称为基于特征层融合的哈希方法)，如图3所示。决策层融合策略中多粒度主题特征独立，哈希码学习同哈希函数训练相耦合的学习方法(以下简称为基于决策层融合的哈希方法)，如图4所示。

所述策略一：基于特征层融合的哈希学习进一步包括以下步骤：

Ω = [λw, {\hat{μ}}_{1} θ_{1}, {\hat{μ}}_{2} θ_{2}, . . ., {\hat{μ}}_{M} θ_{M}] - - - (2)

其中，λ为原始特征与多粒度主题特征的权衡系数，为多粒度主题特征之间的权重调节系数，且直接由公式(1)中的权重向量值获得：

{\hat{μ}}_{i} = μ_{i} (T_{i}) / \min_{T_{k} &Element; O} (μ_{k} (T_{k})) - - - (3)

传统相似度度量的方法有多种，简单列举如下几种：

本发明实施例中以夹角余弦为例构建局部相似度矩阵，并重新定义文本之间的相似度计算方法如下：

其中，NN_k(x)表示样本x的k近邻集合，c_ij为置信系数。当两个样本x_i和x_j共享任意相同标签时(T_ij＝1)，置c_ij一个较高的值a。相反地，如果两个样本x_i和x_j不相关时(T_ij＝0)，置c_ij一个较低的值b。如下所示：

c_{ij} = \{\begin{matrix} a, & if & T_{ij} = 1 \\ b, & if & T_{ij} = 0 \end{matrix} - - - (5)

其中，参数a和b满足1≥a≥b＞0。针对特定数据集，标签的可信度越高则设定参数a和b间的差距越大。本发明实施例中，设定参数a＝1，b＝0.1。

步骤5.3，引入到两步哈希方法中进行学习；

通过引入一个两阶段的自学习式哈希框架，哈希码和哈希函数可独立学习。该步骤进行哈希码学习，其优化目标函数如下：

\min_{Y} Σ_{i, j = 1}^{n} S_{ij} {| | y_{i} - y_{j} | |}_{F}^{2}

s.t.Y∈{-1，1}^n×l，Y^T1＝0，Y^TY＝I (6)

其中，S_ij是由公式(4)构造的局部相似度矩阵，y_i是文本x_i的哈希码，||·||_F是F-范数。通过松弛哈希码离散化的约束条件Y∈{-1，1}^n×l，最优的l维实值向量可以通过求解拉普拉斯特征映射问题解决，在此不再赘述。

步骤5.4，得到l维实值向量及其中值向量

哈希码Y即为训练样本集语料X映射后的l维二进制编码集合。

步骤5.6，训练l个线性支持向量机分类器，为此策略方法的哈希函数；

该步骤为哈希函数学习阶段，基于前面得到的l维哈希码及现有训练集语料X的特征集合学习l个线性支持向量机二值分类器f(x)＝sgn(w^Tx)，每个二值分类器的输出为0或1，分别以训练样本集对应l维哈希码中的每一位做为标签信息进行训练。

所述策略二：基于决策层融合的哈希学习进一步包括以下步骤：

步骤5.2，基于M+1种特征构造M+1个相似度矩阵集合{S₁，S₂，...，S_M+1}，同时引入标签信息增强相关文本间的语义相似度；

相似度矩阵s构造方法同特征层多粒度主题特征融合策略中的步骤5.2中构造方法类似，在此不再赘述。

步骤5.3，引入到多源哈希方法中进行学习；

通过引入一种多源哈希学习框架，同时进行哈希码和哈希函数学习，耦合性较强，可避免引入外部干扰。为保存多种特征的语义相似信息，本发明中直接对M+1种特征所对应的相似度矩阵{S₁，S₂，...，S_M+1}进行线性组合，如下：

Σ_{k = 1}^{M + 1} Σ_{i, j = 1}^{n} S_{ij}^{(k)} {| | y_{i} - y_{j} | |}_{F}^{2} - - - (7)

其中，是第k个特征对应的相似度矩阵。通过引入一个n×n对角矩阵D^(k)，其对角元素则公式(7)可重新为如下形式：

tr (Y^{T} Σ_{k = 1}^{M + 1} (D^{(k)} - S^{(k)}) Y) = tr (Y^{T} Σ_{k = 1}^{M + 1} L^{(k)} Y) - - - (8)

其中，L^(k)是定义在第k个特征上的拉普拉斯矩阵。同前一个策略不同，该策略同时学习训练样本集X的哈希码Y和一组线性哈希函数该步骤整体优化目标函数如下：

\min_{Y, W, α} J (Y, W, α) = C_{1} tr (Y^{T} Σ_{k = 1}^{M + 1} {\tilde{L}}^{(k)} Y) + C_{2} {| | Y - Σ_{k = 1}^{M + 1} α_{k} {(W^{(k)})}^{T} X^{(k)} | |}_{F}^{2} + Σ_{k = 1}^{M + 1} {| | W^{(k)} | |}_{F}^{2}

s.t.Y∈{-1，1}^n×k，Y^T1＝0，Y^TY＝I，α^T1＝1，α≥0 (9)

其中，C₁和C₂是权衡系数，通过交叉验证方式进行参数寻优；W^(k)是第k个特征对应的哈希映射矩阵；α为M+1维调和系数向量，来权衡M+1种特征的线性函数输出权重。松弛哈希码离散化的约束条件Y∈{-1，1}^n×l，并参考多源哈希学习方法中的迭代优化过程进行求解，可得到l维实值向量M+1维调和系数向量α，及M+1个线性函数{W⁽¹⁾，W⁽²⁾，...，W^(M+1)}。具体迭代优化过程，在此不再赘述。

步骤5.4，得到l维实值向量及其中值向量

哈希码Y即为训练样本集语料X映射后的l维二进制编码集合。

步骤5.6，由步骤5.3得到M+1个l维线性哈希函数及调和系数向量α；

在线预测阶段：

输入：哈希函数，最优多粒度主题模型O＝{T₁，T₂，...，T_M}，权重向量μ＝{μ(T₁)，μ(T₂)，...，μ(T_M)}，查询文本q；

输出：查询文本的哈希码y_q；

步骤1，在线查询样本q原始特征的TF-IDF特征w，并进行归一化；

该步骤类似于离线训练阶段步骤3，在此不再赘述。

步骤2，从最优的M个主题模型中抽取多粒度主题特征{θ₁，θ₂，...，θ_M}；

该步骤类似于离线训练阶段步骤4，在此不再赘述。

步骤3，通过哈希函数得到查询文本q的哈希码y_q。

在线查询样本q的哈希编码过程对应本发明所提出的两种多粒度主题特征融合策略：

所述策略一：基于特征层多粒度主题特征融合的在线哈希编码进一步包括以下步骤：

Ω = [λw, {\hat{μ}}_{1} θ_{1}, {\hat{μ}}_{2} θ_{2}, . . ., {\hat{μ}}_{M} θ_{M}] .

步骤3.2，利用离线训练阶段中第一种哈希学习策略的步骤5.6得到的哈希函数，l个线性支持向量机二值分类器对高维特征Ω进行二分类得到查询样本q的l维哈希码。即，l维哈希码的每一维为一个(0，1)的二分类问题，利用训练好的线性支持向量机进行查询样本的哈希码预测。

所述策略二：基于决策层多粒度主题特征融合的在线哈希编码进一步包括以下步骤：

步骤3.1，由前面两步骤得到查询样本q的M+1种特征{w，θ₁，θ₂，...，θ_M}；

步骤3.2，利用离线训练阶段中第二种哈希学习策略的步骤5.3得到的哈希函数，M+1个l维线性函数{W⁽¹⁾，W⁽²⁾，...，W^(M+1)}及输出权重向量α对于M+1种特征进行映射，得到l维实值低维向量

{\tilde{y}}_{q} = α_{1} \cdot W^{(1)} w, α_{2} \cdot W^{(2)} θ_{1}, . . ., α_{M + 1} \cdot W^{(M + 1)} θ_{M + 1}} - - - (10)

步骤3.3，采用m为阈值对实值向量进行二值化，得到哈希码y_q；

哈希码y_q即为查询样本q映射后的l维二进制编码。

完成以上所述步骤后，查询文本的语义相似检索则直接通过在线预测阶段得到的哈希码y_q在二值汉明空间中对训练文本集的哈希码集合Y进行匹配搜索，以汉明距离为评价标准对结果进行排序，得到查询文本的语义相似文本集合。

作为一个优选实施例，本发明也可以将离线训练阶段选用的大规模语料库和由此训练得到的最优多粒度主题模型O＝{T₁，T₂，...，T_M}、权重向量μ＝{μ(T₁)，μ(T₂)，...，μ(T_N)}、哈希函数等存储在系统中，以供以后在线预测阶段多次调用，而不必每次均执行离线训练阶段的步骤。

为了全面准确的评估本发明所提出的方法的性能，本发明采用精度(Precision)、召回率(Recall)来评价本发明方法的总体效果。相关指标为本信息检索领域通用指标，在此不再赘述。由于短文本数据集的原始特征不能很好的反映文档间的语义相似关系，本发明试验中通过判别两个样本之间是否共享任意标签来决定是否为语义相关文本。本发明试验中的所有评测指标结果为所有测试样本在训练样本集检索结果的平均值。

本发明试验中采用一种公开短文本数据集SearchSnippets，该数据集包含有8种类别文本。本发明实验中进一步对该数据集去停用词和词干还原，最终剩余20139个词特征，10059个训练样本，2279个测试样本。

本发明试验采用以下对比哈希方法：

对比方法一，自学习哈希方法：该方法是一种典型的两步哈希方法，第一步采用文本原始特征进行拉普拉斯特征降维，通过中值向量进行二值化后得哈希码。第二步阶段，由前一阶段生成训练样本原始特征及对应的l维哈希码，训练l个二值支持向量机分类器作为哈希函数；

对比方法二，监督型自学习哈希方法：该方法是对比方法一的一个改进版，加入全监督信息作为约束。在构建局部相似度矩阵s时，只考虑具有相同类别标签的样本间相似度；

对比方法三：位置敏感哈希：该方法是目前应用最广泛的哈希方法，通过随机映射方式产生l个超平面作为哈希映射函数。

由于本发明旨在验证融入多粒度主题特征能够明显改善短文本哈希学习方法，因而本发明试验只考虑文本集的隐层主题特征而暂不考虑关键词特征。即需设置公式(2)中的λ＝0，公式(9)中只保留M个特征参与哈希学习。

本发明试验首先依据训练集数据类型选择出最优多粒度主题模型，最优选择流程对应本发明离线训练阶段步骤2，且图2为该步骤流程图。所有候选主题模型进行权重更新结果见表1。由于本发明试验中根据经验设置最优主题模型粒度数为M＝3，因而最优多粒度主题模型为{10，30，50}。

表1基于本发明的多粒度选择方法的不同候选主题模型权重值

主题模型/主题数	10	30	50	70	90	120	150
								权重值/μ(T_i)	11.3	5.6	3.3	2.4	1.8	1.2	1.0

为了有效地对比本发明方法及其他对比方法在标签信息丢失或不全情况下的鲁棒性能，本发明试验中随机移除60％的标签信息。图5是本发明哈希学习方法、自学习哈希、监督型自学习哈希以及位置敏感哈希在不同哈希码位数(＝4∶4∶64)，特定汉明距离(＝3)下的精度、召回结果曲线。图6是本发明哈希学习方法、自学习哈希、监督型自学习哈希以及位置敏感哈希在特定哈希码位数(＝16，32)下的精度、召回结果曲线。可以看出，本发明方法中的两种哈希学习策略明显优于其他对比方法。其中，监督型自学习哈希虽然采用了标签信息，但由于该方法采用的全监督方法约束过强，标签信息不全时不能有效构建样本集之间的语义相似度关系而导致哈希编码性能变差。

图7中对比了本发明哈希学习方法中两种多粒度主题特征融合策略在不同标签使用率情况，不同哈希码位数(＝4∶4∶64)，特定汉明距离(＝3)下的精度、召回结果曲线。可以看出在本发明的两种方法中，标签使用率对哈希编码性能影响明显，且标签使用率越多，改善哈希学习性能越明显。在下面的试验中，本发明保留全部标签信息以提高哈希编码性能。

下面试验中，主要对比本发明中最优多粒度主题特征与单粒度主题特征及其他多粒度主题特征融入哈希学习中的性能影响。同时，为了验证多粒度主题特征间权衡系数的有效性，本发明试验中将其统一固定为1。具体地，将本发明方法一中公式(2)的参数及本发明方法二中公式(9)中的参数α_i都设置为1。

图8是本发明哈希学习方法中两种多粒度主题特征融合策略基于最优多粒度主题相对于单粒度主题在不同哈希码位数(＝4∶4∶64)，特定汉明距离(＝3)下的精度、召回结果曲线。图9是本发明哈希学习方法中两种多粒度主题特征融合策略基于最优多粒度主题相对于其他多粒度主题在不同哈希码位数(＝4∶4∶64)，特定汉明距离(＝3)下的精度、召回结果曲线。从图8中可以清晰地看出，融入最优多粒度主题特征的哈希学习方法明显优于融入单粒度主题特征的哈希学习方法。而在图9结果中，可以看出，多种融入多粒度主题特征的哈希学习方法之间性能差异性并不明显。

为了更加清晰容易地对比如上所述各种方法性能，本发明试验在表2-4中报告了量化性能结果。

表2本发明方法两种策略基于最优多粒度主题相对于单粒度主题及其他多粒度主题在特定哈希码位数(＝8，16，32)、特定汉明距离(＝3)下的精度、召回结果值

表3本发明方法两种策略基于最优多粒度主题相对于单粒度主题及其他多粒度主题在特定哈希码位数(＝8，16，32)、特定汉明距离(＝3)下的前100检索结果的精度值

表4本发明方法两种策略基于最优多粒度主题相对于单粒度主题及其他多粒度主题在特定哈希码位数(＝8，16，32)、特定汉明距离(＝3)下的前200检索结果的精度值

其中，表2是本发明方法两种策略基于最优多粒度主题相对于单粒度主题及其他多粒度主题在特定哈希码位数(＝8，16，32)，特定汉明距离(＝3)下的精度、召回结果值。表3是本发明方法两种策略基于最优多粒度主题相对于单粒度主题及其他多粒度主题在特定哈希码位数(＝8，16，32)，特定汉明距离(＝3)下的前100检索结果的精度值。表4是本发明方法两种策略基于最优多粒度主题相对于单粒度主题及其他多粒度主题在特定哈希码位数(＝8，16，32)，特定汉明距离(＝3)下的前200检索结果的精度值。从本发明量化的试验结果中，同样可以看出融入最优多粒度主题特征的哈希学习方法性能明显由于融入单粒度主题特征的哈希学习方法。同时，在考虑的多种不同的多粒度主题模型中，融入最优多粒度主题特征的两种哈希学习策略在多数情况下都表现出最优性能结果。

综上所述，本发明提出了一种基于多粒度主题模型的短文本哈希学习方法，该方法能够根据特定数据集类型选择最优的多粒度主题模型，并提供两种不同的融入多粒度主题特征的哈希学习框架以改善短文本哈希性能。实验证明了本发明方法较以往方法，能够大幅提高基于哈希编码的语义相似检索性能。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多粒度主题模型的短文本哈希离线训练方法，包括以下步骤：

步骤3，计算训练集原始特征的TF-IDF特征w，并进行归一化；

2.根据权利要求1所述的基于多粒度主题模型的短文本哈希离线训练方法，其中在步骤2中，所述选择M个最优多粒度主题模型集合及对应权重的步骤包括：

步骤2.1，从训练样本X中随机采样小部分带有标签的样本

步骤2.3，开始遍历样本集合中的每个样本

步骤2.4，寻找样本的两组近邻集合和

步骤2.5，开始遍历候选主题集合T中的每个主题模型T_i；

μ (T_{i}) = μ (T_{i}) + Σ_{j = 1}^{k^{-}} \frac{D_{KL} (T_{i} (x), T_{i} ({nn}_{j}^{-} (x)))}{k^{-}} - Σ_{p = 1}^{k^{+}} \frac{D_{kL} (T_{i} (x), T_{i} ({nn}_{p}^{+} (x)))}{k^{+}} - - - (1)

其中：

D_{KL} (T_{i} (x), T_{i} ({nn}_{j}^{-} (x))) = \frac{1}{2} \underset{z_{k} &Element; T_{i}}{Σ} (p (z_{k} | x) \cdot \log (\frac{p (z_{k} | x)}{p (z_{k} | {nn}_{j}^{-} (x))}) + p (z_{k} | {nn}_{j}^{-} (x)) \cdot \log (\frac{p (z_{k} | {nn}_{j}^{-} (x))}{p (z_{k} | x)})),

D_{KL} (T_{i} (x), T_{i} ({nn}_{j}^{+} (x))) = \frac{1}{2} \underset{z_{k} &Element; T_{i}}{Σ} (p (z_{k} | x) \cdot \log (\frac{p (z_{k} | x)}{p (z_{k} | {nn}_{j}^{+} (x))}) + p (z_{k} | {nn}_{j}^{+} (x)) \cdot \log (\frac{p (z_{k} | {nn}_{j}^{+} (x))}{p (z_{k} | x)}));

3.根据权利要求1所述的基于多粒度主题模型的短文本哈希离线训练方法，其中在步骤5中，所述两种学习策略如下所示：

Ω = [λw, {\hat{μ}}_{1} θ_{1}, {\hat{μ}}_{2} θ_{2}, . . ., {\hat{μ}}_{M} θ_{M}]

c_{ij} = \{\begin{matrix} a, & if T_{ij} = 1 \\ b, & if T_{ij} = 0 \end{matrix}

其中，参数a和b满足1≥a≥b＞0；

步骤5.3，引入到两步哈希方法中进行学习；

\min_{Y} Σ_{i, j = 1}^{n} S_{ij} {| | y_{i} - y_{j} | |}_{F}^{2}

s.t.Y∈{-1，1}^n×l，Y^T1＝0，Y^TY＝I

步骤5.4，得到l维实值向量及其中值向量

步骤5.6，训练l个线性支持向量机分类器；

c_{ij} = \{\begin{matrix} a, & if T_{ij} = 1 \\ b, & if T_{ij} = 0 \end{matrix}

其中，参数a和b满足1≥a≥b＞0；

步骤5.3，引入到多源哈希方法中进行学习；

Σ_{k = 1}^{M + 1} Σ_{i, j = 1}^{n} S_{ij}^{(k)} {| | y_{i} - y_{j} | |}_{F}^{2}

tr (Y^{T} Σ_{k = 1}^{M + 1} (D^{(k)} - S^{(k)}) Y) = tr (Y^{T} Σ_{k = 1}^{M + 1} L^{(k)} Y)

\min_{Y, W, α} J (Y, W, α) = C_{1} tr (Y^{T} Σ_{k = 1}^{M + 1} {\tilde{L}}^{(k)} Y) + C_{2} {| | Y - Σ_{k = 1}^{M + 1} α_{k} {(W^{(k)})}^{T} X^{(k)} | |}_{F}^{2} + Σ_{k = 1}^{M + 1} {| | W^{(k)} | |}_{F}^{2}

s.t.Y∈{-1，1}^n×k，Y^T1＝0，Y^TY＝I，α^T1＝1，α≥0

步骤5.4，得到l维实值向量及其中值向量

4.一种基于多粒度主题模型的短文本哈希检索方法，包括以下步骤：

步骤1，计算查询文本q的TF-IDF特征w，并进行归一化；

步骤2，对如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法中选定的训练文本集X进行主题特征抽取，从最优的M个主题模型中抽取多粒度主题特征{θ₁，θ₂，...，θ_M}；

步骤3，通过如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法得到的哈希函数得到所述查询文本的哈希码y_q：

5.根据权利要求4所述的基于多粒度主题模型的短文本哈希检索方法，其中在步骤3中所述通过哈希函数得到查询文本的哈希码的步骤包括：

Ω = [λw, {\hat{μ}}_{1} θ_{1}, {\hat{μ}}_{2} θ_{2}, . . ., {\hat{μ}}_{M} θ_{M}];

{\tilde{y}}_{q} = α_{1} \cdot W^{(1)} w, α_{2} \cdot W^{(2)} θ_{1}, . . ., α_{M + 1} \cdot W^{(M + 1)} θ_{M + 1}} - - - (10);

6.一种基于多粒度主题的短文本哈希学习方法，包括以下步骤：

7.根据权利要求6所述的基于多粒度主题的短文本哈希学习方法，其中所述离线训练阶段采用如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法来得到所述短文本训练集的哈希码和哈希函数、最优多粒度主题模型O＝{T₁，T₂，...，T_M}和权重向量μ＝{μ(T₁)，μ(T₂），...，μ(T_N)}。

8.根据权利要求6所述的基于多粒度主题的短文本哈希学习方法，其中所述在线预测阶段采用如权利要求4或5所述的基于多粒度主题模型的短文本哈希检索方法来根据所述离线训练阶段得到的哈希函数、最优多粒度主题模型O＝{T₁，T₂，...，T_M}，权重向量μ＝{μ(T₁)，μ(T₂)，...，μ(T_N)}计算待查询文本的哈希码和哈希函数。