CN105354264B

CN105354264B - 一种基于局部敏感哈希的主题标签快速赋予方法

Info

Publication number: CN105354264B
Application number: CN201510697460.9A
Authority: CN
Inventors: 黄河燕; 毛先领; 周强; 任金伟
Original assignee: ETONG LANGUAGE TECHNOLOGY (BEIJING) Co Ltd; Beijing Institute of Technology BIT
Current assignee: ETONG LANGUAGE TECHNOLOGY (BEIJING) Co Ltd; Beijing Institute of Technology BIT
Priority date: 2015-10-23
Filing date: 2015-10-23
Publication date: 2018-08-03
Anticipated expiration: 2035-10-23
Also published as: CN105354264A

Abstract

本发明提出了一种基于局部敏感哈希的主题标签快速赋予方法，属于文本挖掘技术领域。此方法将主题标签赋予问题转换成求K近邻的问题，包含离线数据库构建和在线查询两个部分。其中，离线部分利用标签主题模型对带标签的文档进行处理，得到一个“主题‑标签”数据库。在线部分通过局部敏感哈希在已经构建好的“主题‑标签”数据库中快速查找与待查主题最相似的主题，并把该主题的标签赋给待查主题，并进一步通过2种哈希采用序列融合技术优化结果。本发明能够实现主题标签的自动赋予，使得传统主题模型的结果变得可理解；对比现有技术，使用局部敏感哈希进行查找的方法使得效率大大提高，能够在大数据上获得较快较好的主题标签赋予效果。

Description

一种基于局部敏感哈希的主题标签快速赋予方法

技术领域

本发明涉及一种主题标签赋予方法，尤其涉及一种基于局部敏感哈希的主题标签快速赋予方法，能够高效地实现主题标签的自动赋予，属于文本挖掘技术领域。

背景技术

随着互联网的高速发展，网络中的数据和信息越来越多，“大数据”时代已经来临。近年来，主题模型成为一种流行并且有效的文本挖掘方法，有着广泛的应用。对海量文本数据进行主题建模，能够给人们提供一种便捷的渠道来获取重要信息。主题模型将主题表示成一个在词表上的概率分布，不易于常人理解。对此问题，最初的技术是通过挑选概率最高的几个词或者人为地挑选词语作为主题的标签，来解释主题。然而，这种方式存在效率低和过于主观的问题。主题标签自动赋予的技术应运而生，它的作用在于自动地给主题赋予可理解有意义的标签。

传统的主题标签自动赋予方法，首先通过自然语言处理技术从文档集合中抽取候选标签，然后对候选标签排序获得最终标签。然而，其中用到的自然语言处理技术通常耗时较高，无法应用到大数据中。此外，大多数的方法依赖于诸如维基百科、谷歌网页目录等外部知识，无法应用在新出现的主题上。因此，能够高效地为新出现的主题赋予正确有效的标签，成为了大数据背景下的迫切需求。

发明内容

本发明的目的是为解决上述主题标签自动赋予耗时高且不能处理新出现主题的问题，将此任务转换成求K近邻的问题，提出了一种基于局部敏感哈希的主题标签快速赋予方法。这种方法能够快速准确为文本赋予标签，适用于海量文本和流文本在进行主题建模之后的后处理。

本发明提供的主题标签快速赋予方法包括离线部分和在线部分，技术方案的主要思想是首先通过离线部分构建一个“主题-标签”库，当新主题出现时，再去库中查询最相似的主题，并将库中相似主题的标签作为新出现主题的标签。

本发明的目的是通过以下技术方案实现的：

一种基于局部敏感哈希的主题标签快速赋予方法，包括离线数据库构建和在线查询两部分内容；

所述离线数据库构建，通过将带标签的网络数据通过标签主题模型Labeled LDA(参照Ramage等人在EMNLP 2009中发表的文章《Labeled LDA:A supervised topic modelfor credit attribution in multi-labeled corpora》)进行处理，得到“主题-标签”数据库，库中的每一条记录包含一个标签及其对应的主题，同一个标签可以对应多个不同的主题，此处的主题指的是一个在词表上的概率分布，其中的每一维表示该维对应词语出现的概率；

所述在线查询，是本方法的核心，它接受需要赋予标签的主题作为输入，在“主题-标签”数据库中完成K近邻点(主题)的查询，即查询距离最相近的K个点；然后将前K个主题对应的标签作为待查询主题的标签。

作为优选，在完成待查主题的标签赋予之后将该主题与已赋标签作为新的记录插入到“主题-标签”数据库中，扩充现有数据。

作为优选，通过以下步骤完成K近邻点(主题)的查询：

步骤一、局部敏感哈希值计算：对“主题-标签”库中的每一条记录，将概率分布作为概率向量空间中的一个数据点，计算局部敏感哈希值，从而得到哈希表；

步骤二、相似主题查询：首先对于输入的待查询主题，根据其概率分布，采用与步骤一同样的方式计算局部敏感哈希值(当前哈希值)；然后遍历哈希表，计算当前哈希值与表中哈希值的距离；最后，根据距离大小排序，得到初始结果列表S_init；

作为优选，采用多种哈希方法进行互补融合完成K近邻点(主题)的查询：

步骤一、采用多种哈希方法进行局部敏感哈希值计算：对“主题-标签”库中的每一条记录，将概率分布作为概率向量空间中的一个数据点，计算局部敏感哈希值，从而得到多个哈希表；

步骤二、相似主题查询：首先对于输入的待查询主题，根据其概率分布，采用与步骤一同样的方法计算局部敏感哈希值(当前哈希值)；然后分别遍历多个“主题-标签”哈希表，计算当前哈希值与表中哈希值的距离；最后，根据距离大小排序，得到多个初始结果列表Sinit₁、Sinit₂……Sinit_n，其中n表示哈希方法的个数；

步骤三、分别对Sinit₁、Sinit₂……Sinit_n的前R项初始结果根据重合度重排序：对于步骤二中得到的Sinit₁、Sinit₂……Sinit_n的前R个主题分别进行以下操作：首先，根据待查主题的概率分布，挑选出概率值最高的前N个词语，放入集合S_q；其次，分别对于Sinit₁、Sinit₂……Sinit_n的前R个主题的每一个主题，同样挑选出概率值最高的前N个词语，放入集合S_t；然后，计算S_t与S_q的交集大小，作为二者的重合度；最后，根据重合度重新对前R项初始结果进行排序，重合度高的排在前面，由此分别得到两个重排后的结果列表Ssecond₁、Ssecond₂……Ssecond_n；

步骤四、序列融合优化结果：根据Ssecond₁、Ssecond₂……Ssecond_n，采用信息检索技术中常用的交叉排列方法，融合多个列表，结合各哈希方法的长处，得到一个新的更优的列表S^*作为最终结果，输出S^*中的主题标签作为待查主题的标签。

作为优选，所述多种哈希方法为2种。

作为优选，所述2种哈希方法分别为SimHash和P-stable。

有益效果

与普通的主题标签自动赋予技术相比，本发明通过离线部分构建“主题-标签”库以及利用局部敏感哈希加速K近邻点(主题)的查询，能够实现快速地为主题赋予正确的标签，克服了基于自然语言处理技术的方法所产生的效率问题；同时，本发明可以不断扩充现有的“主题-标签”库，对于新出现的主题也能赋予准确的标签，克服了普通方法需要依赖外部知识，无法处理新主题的问题。

附图说明

图1位本发明方法的框架及流程示意图。

具体实施方式

在介绍实施例之前，首先做如下定义：

主题是指与其对应的一个概率分布。此概率分布的维度大小等于语料库中包含的不同词语的个数，其中的每一维对应某个词语出现在当前主题的概率。主题标签指的是能够解释当前主题的一个词语或者词组。

下面结合附图和实施例对本发明做进一步说明。

本实施例首先介绍实验语料以及离线部分中“主题-标签”库的构建方法，然后介绍在线部分中给定一个新出现主题如何在库中查询以获得正确的新主题标签的方法。

本实施例选取Twitter数据集作为实验语料。此语料是从互联网上爬取的Twitter数据，大小为2.1GB，其中包含Twitter从2009年6月至2009年12月的部分推文数据。本实施例将数据集中推文的hashtag作为标签，每一条推文作为一条数据。

一、离线部分“主题-标签”库的构建方法如下：

采用发明内容中所述方法构建“主题-标签”库，这里可以将带标签的网络数据直接采用Labeled LDA模型一起学习，也可以将之划分为多个子数据集分别学习并将结果进行合并以获得更好的效果。本实施例中采用后种方式，下面进行详细介绍：

首先，将上述数据进行划分，每个月的数据一分为四，得到24个子数据集；然后，对于每个子数据集，使用Labeled LDA进行学习，分别得到各个子数据集的“主题-标签”库，其中每一条记录包含一个标签及其对应的主题；最后，将各个子数据集的“主题-标签”库合并，得到一个最终的“主题-标签”库。由于来自不同子数据集的记录其标签可能相同，合并后的“主题-标签”库中，一个标签可以对应一个或者多个主题，这些主题分别来自不同的子数据集。我们将这个最终的“主题-标签”库作为初始的库。

二、新出现主题正确标签的查询

本发明方法是以主题作为输入，将查询结果作为输出为输入的主题赋予标签。而对于新出现的没有标签的文本，可以通过常见的主题模型，例如LDA，进行学习得到一些没有赋予标签的主题。

本实施例首先通过步骤一(局部敏感哈希值计算)和步骤二(相似主题查询)计算已有“主题-标签”库中与待查主题最相近记录，并将其标签作为待查主题的标签赋予待查主题。本发明采用的最近邻查找方法其基本思想就是先计算待查主题与初始库中已有主题的相似度，然后根据相似度比较进行查询。

传统的计算相似度的方法是直接在主题，也就是概率分布上进行的。然而，一般来说，概率分布的维度会比较大，这样的计算方式非常耗时。所以，本实施例采用的方法是，首先将高维度的概率分布先转换成低维的局部敏感哈希值，然后以局部敏感哈希值的距离作为相似度的评判标准。哈希值相同或者相近的项意味着与待查主题更相似，将排在列表的前面。此外，由于哈希值的位数固定，并且哈希值都存储在内存中，即使遍历所有哈希值计算距离，时间开销也会相对较低，同时采用二分查找将进一步提高效率。进一步的，在初始库形成以后即在空闲时段将所有主题的哈希值都计算并存储起来，当此处需要计算待查主题与库中主题的相似度时，只需直接将库中主题的哈希值提取出来即可，这样可以进一步提高效率、降低资源消耗。

所述局部敏感哈希可以采用现有的任意一种哈希算法，如基于P-stable分布的E2LSH、基于冲突计数的局部敏感哈希(FBLSH)、属于cos距离哈希族的SimHash等等。

为使标签赋予的准确性更高，可以采用多种局部敏感哈希值进行相似度查询，然后将查询结果进行融合优化。出于准确性和效率的综合考虑。本实施例采用2种哈希进行相似度查询，下面以属于cos距离哈希族的SimHash和属于欧式距离哈希族的P-stable为例介绍如何进行相似度查询以及对查询结果融合优化。

首先分别就这两种哈希算法如何实现步骤一和步骤二进行具体描述：

(1)SimHash

哈希值的计算：

SimHash的主要思想是将高维向量映射成一个低维的“指纹”。在本实施例中，此处的向量指的是词表上的概率分布，即“主题”。通过以下方法将“主题”转换成一个f个二进制位的“指纹”作为哈希值。首先，初始化一个f维的向量F，将其每一维都设为0。然后，对于词表中的每个词语w，通过一个普通的哈希函数H＝hash(w)映射成一个f位的哈希值H。假设，该词语w对应的概率值为p，那么根据其对应的哈希值H将p或者-p加到向量V的对应维中。对于H中的每一位，如果H的第i位为1，将p加到V的第i维中，如果H的第i位为0，将-p加到V的第i维中。当所有的词语都处理完之后，对于向量F的每一维，如果其值大于0则将该位对应取1，否则取0，最终得到一个f位的“指纹”作为最终的SimHash值。

相似度计算：

通过计算“海明距离”，能够得到SimHash值的相似度，距离越远，相似度越低。其中，“海明距离”指的是即两个哈希值对应的二进制表示中不相同的二进制位的个数。

(2)P-stable

哈希值的计算：

P-stable是欧式空间中的一种局部敏感哈希，使用了一个特殊的哈希函数，将一个向量映射成一个d维的实数向量。其中每一维的具体计算公式如下：

其中，x为输入向量，a为一个随机向量，其中每一维都是随机数，b是一个实数，由[0,r]随机采样得到。

相似度计算：

对于两个向量w和v，首先计算各自的d维p-stable向量，然后计算在数值上相同的维度的个数，作为二者的相似度。

在完成步骤一和步骤二之后，可按照发明内容中优选方式中步骤三描述，完成两个初始结果列表的重排序。下面详细介绍如何将两个列表采用交叉排列方法进行融合得到一个更优列表作为最终结果的方法：

首先，定义一个列表L中位于第r位的数据点p的“置信度”为CL，其计算公式如下:

此公式中，r越小，“置信度”CL越大。若p不在L中，则CL值为0。

假设待融合的两个列表为L₁和L₂，首先求二者元素的并集U，对于U中的任意一个元素p,定义其“总置信度”如下：

TotalCL(p,L₁,L₂,r)＝αCL(p,L₁,r)+(1-α)CL(p,L₂,r)

其中，α为权值参数，本实施例中，将SimHash和P-stable平等对待，因此设α＝0.5。

在完成计算之后，根据每个U中元素的“总置信度”进行排序，取结果中的前一半作为融合后的结果列表。

在完成上述所有步骤之后，即可得到最终的相似主题列表。

最后，将相似主题列表中的主题标签作为待查询主题的最终标签进行输出。

为了使以后待查主题获得标签的准确率更好，进一步的，在为待查主题赋予标签之后，将该主题与已赋标签作为新的记录插入到“主题-标签”数据库中，扩充现有数据。

实验结果

为了验证本发明实施例提供的基于局部敏感哈希的主题标签快速赋予方法的有效性，此次在Twitter数据集的基础上进行试验。数据集中包含的标签数为3,503个，主题数(即概率分布个数)为12,139个，词表大小为189,841。本实验从效率和效果两个方面对本发明所提出的方法进行了验证。与本发明作对比的是采用KL距离和JSD距离进行相似主题查询的方法。具体的比较结果如下表所示：

实验结果表明，使用局部敏感哈希进行相似主题查询，进而完成主题标签赋予的方法能够大大缩短平均查询时间、减少内存消耗，同时在效果评价指标MRR上有较好的表现。这主要是因为使用局部敏感哈希将高维的概率分布查询操作转换成低维的哈希值比较，同时保留了较好的相似性。本实验结果充分证明了本发明所提供方法的有效性和实用性。

以上所述是本发明的基本原理和优选实施方式。应当指出的是，对于本技术领域有所了解的普通技术人员来说，上述实施例和说明书中描述的只是本发明的基本原理，在不脱离本发明原理的前提下，还可以做出若干变化和改进，这些变化和改进都应视为本发明的保护范围。本发明要求保护范围由所附的权利要求书界定。

Claims

1.一种基于局部敏感哈希的主题标签快速赋予方法，其特征在于：包括离线数据库构建和在线查询两部分内容：

所述离线数据库构建，是将带标签的网络数据通过标签主题模型Labeled LDA进行处理，得到“主题-标签”数据库，库中的每一条记录包含一个标签及其对应的主题，同一个标签可以对应多个不同的主题，此处的主题指的是一个在词表上的概率分布，其每一维表示该维对应词语出现的概率；

所述在线查询，是接受需要赋予标签的主题作为输入，在“主题-标签”数据库中完成K近邻点，即主题的查询，然后将前K个主题对应的标签作为待查询主题的标签；

所述离线数据库构建部分中得到“主题-标签”数据库的过程如下：

将带标签的网络数据进行划分，得到若干个子数据集，然后，对于每个子数据集，使用Labeled LDA进行学习，分别得到各个子数据集的“主题-标签”库，其中每一条记录包含一个标签和标签对应的主题；

最后，将各个子数据集的“主题-标签”库合并，得到一个最终的完整的“主题-标签”数据库，其中的记录包含重复的标签，即标签与主题之间为1对多关系；

在完成在线查询所述待查询主题的标签赋予之后将该主题与已赋标签作为新的记录插入到“主题-标签”数据库中，扩充现有数据；

所述K近邻点的查询包括以下步骤：

步骤二、相似主题查询：首先对于输入的待查询主题，根据其概率分布，采用与步骤一同样的方式计算局部敏感哈希值，即当前哈希值；然后遍历哈希表，计算当前哈希值与表中哈希值的距离；最后，根据距离大小排序，得到初始结果列表S_init。

2.根据权利要求1所述的一种基于局部敏感哈希的主题标签快速赋予方法，其特征在于，在离线数据库初始构建完成以后将所有主题的哈希值都计算并存储起来，当所述步骤一需要计算库中主题的哈希值时，只需直接其提取出来即可。

3.根据权利要求1-2任一所述的一种基于局部敏感哈希的主题标签快速赋予方法，其特征在于，采用多种哈希方法进行互补融合完成所述在线部分K近邻点的查询，具体包括以下步骤：

步骤二、相似主题查询：首先对于输入的待查询主题，根据其概率分布，采用与步骤一同样的方法计算局部敏感哈希值，即当前哈希值；然后分别遍历多个“主题-标签”哈希表，计算当前哈希值与表中哈希值的距离；最后，根据距离大小排序，得到多个初始结果列表Sinit₁、Sinit₂……Sinit_n，其中n表示哈希方法的个数；

4.根据权利要求3所述的一种基于局部敏感哈希的主题标签快速赋予方法，其特征在于，所述多种哈希方法为2种。

5.根据权利要求4所述的一种基于局部敏感哈希的主题标签快速赋予方法，其特征在于，所述2种哈希方法分别为SimHash和P-stable。

6.根据权利要求4或5所述的一种基于局部敏感哈希的主题标签快速赋予方法，其特征在于，步骤四所述交叉排列根据如下公式所示置信度TotalCL进行排序：

TotalCL(p,L₁,L₂,r)＝αCL(p,L₁,r)+(1-α)CL(p,L₂,r)；

其中，L₁和L₂分别代表具有相同结构的表1和表2；元素p为L₁和L₂合并后集合中的元素；r为p在L₁或L₂中的排序位置，如p不在L₁或L₂中，则r＝0；α为权值参数。