CN105138647A

CN105138647A - 一种基于Simhash算法的旅游网络社区划分方法

Info

Publication number: CN105138647A
Application number: CN201510530303.9A
Authority: CN
Inventors: 曹菡; 冯倩; 李程
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2015-08-26
Filing date: 2015-08-26
Publication date: 2015-12-09

Abstract

本发明涉及一种基于Simhash算法的旅游网络社区划分方法，其是利用Simhash算法对文本进行处理计算文本的语义指纹，用海明距离来比较文本的语义指纹之间的距离，推算文本相似度，从而达到对相似用户进行聚类的目的，该方法将短文本高维度的特征向量进行降维处理，大大减少了其所占用的存储空间，而且本发明的算法简单方便、运算时间少，对文本的处理速度快，进而提高了复杂网络社区的划分效率，这对预测旅游活动的趋势与动向，提供旅游服务信息，推荐旅游线路乃至预测旅游高峰都有重大意义。

Description

一种基于Simhash算法的旅游网络社区划分方法

技术领域

本发明属于数据挖掘领域，具体是一种将Simhash去重算法作为聚类算法应用于旅游复杂网络社区划分。

背景技术

近年来，复杂网络成为信息科学、社会学、物理学、乃至生命科学等学科研究的热点。自然界中的很多系统都可以表示为复杂网络的形式，例如社会关系网、通信网、互联网等。论坛、BBS、微博、旅游网站等社交平台因其速度快、成本小、方便使用等特点而被广大旅游爱好者广泛使用，因此用这些社交平台进行交流，逐渐形成了一个复杂的旅游网络。

目前对于复杂网络社区划分有不同种类的算法，一类是分图的策略，如谱二分法、K‐L算法；它们存在的缺点是必须事先确定两个社区的大小，由于多数情况下网络中社区的个数未知，因而也就无法确定该算法重复划分社区的次数。另一类是聚类的方式，G‐N(GirvanandNewman)是典型的层次聚类算法。G‐N算法思想简单，但该方法计算量较大，计算时间复杂度也相对较高。划分聚类典型的是K‐Means和K‐Medoids，这两个算法虽然运行时间快，但缺点是初始中心簇选取会影响到聚类结果，容易受到孤立点的影响等。层次聚类的代表性算法有BIRCH、CURE、Chameleon，它的缺点是在进程之中一旦结束就无法修正，例如在合并或者分裂的步骤中完成就不能更正导致即使划分错误也无法弥补。网格聚类的缺点是对于大规模数据的处理不是很得心应手。因此，目前的网络社区划分方法均存在不同的缺陷，以致其在推广应用时受限。

发明内容

针对目前网络社区划分方法存在的问题和不足，本发明从用户旅游文本信息出发，提供了一种基于Simhash算法的简单、运算速度快、空间存储小的旅游网络社区划分方法，能够提高复杂网络社区的划分效率。

本发明实现上述目的所采用的技术方案是由以下步骤实现：

(1)爬取旅游网络上的用户ID以及文本数据，并存入数据库；

(2)对数据库中所存放的文本数据进行分词处理，对照停用词表去掉停用词，得到文本的特征值，并确定特征值对应的权重；

(3)根据步骤(2)所得的文本特征值及其对应的权重，用Simhash算法进行处理，得到该文本的语义指纹，并将其存入数据库中；

(4)用海明距离算法将步骤(3)所得到的一个文本的语义指纹与预先划分类别中的中心文本进行对比，若两者之间的海明距离小于等于3，则将该文本归类至该中心文本所对应的类别中，并将其对应类别存入数据库中对应的用户信息中；否则，将其与预先划分类别中的其他中心文本进行对比；若不存在满足条件的中心文本，则将该文本作为新类别的中心文本；

(5)重复步骤(4)，完成数据库中的其它文本的类别划分，完成了旅游网络社区划分。

上述步骤(1)具体是由以下步骤实现：

(1.1)申请旅游网络爬取数据的权限；

(1.2)根据旅游网络接口查看用户的注册住址address1、用户文本信息内容text以及用户发表文本信息内容时所在地址address2；

(1.3)判断用户的注册住址address1与用户发表文本信息内容时所在地址address2是否相同，若不相同，则确定文本信息内容与旅游相关，将其用户ID以及文本数据存入数据库；否则，返回步骤(2)查看下一个用户。

上述步骤(2)中的分词处理可以采用正向最大匹配算法或者也可以采用逆向最大匹配算法或双向最大匹配算法。

上述步骤(3)中的Simhash算法具体由以下步骤实现：

(3.1)用hash编码算法对步骤(2)所得的每个文本特征值进行处理，将其转化为64位的编码，得到hash编码；

(3.2)对hash编码的每一位进行处理，若对应位置处的编码为1，则将其相应位数变为正权重；否则为负权重，得到相应的权重编码；

(3.3)将所有文本特征的权重编码对应位求和，得到求和后的编码，若求和后的编码中的位数为正，则将其标记为1；否则，标记为0，得到Simhash编码值，即为语义指纹。

本发明提供的基于Simhash算法的旅游网络社区划分方法是利用Simhash算法对文本进行处理计算文本的语义指纹，用海明距离来比较文本的语义指纹之间的距离，推算文本相似度，从而达到对相似用户进行聚类的目的。该方法将短文本高维度的特征向量进行降维处理，大大减少了其所占用的存储空间，而且本发明的算法简单方便、运算时间少，对文本的处理速度快，进而提高了复杂网络社区的划分效率，这对预测旅游活动的趋势与动向，提供旅游服务信息，推荐旅游线路乃至预测旅游高峰都有重大意义。

附图说明

图1为新浪微博短文本网络社区划分的流程图。

图2为Simhash算法过程图。

具体实施方式

实施例1

现以新浪微博为例，本发明的基于Simhash算法的旅游网络社区划分方法参见图1，由以下步骤实现：

(1)爬取旅游网络上的用户ID以及文本数据，并存入数据库，具体包括以下步骤：

(1.1)申请新浪APPkey；

(1.2)根据新浪提供的API接口查看所需接口的URL、HTTP请求方式、参数请求爬取用户ID、用户注册住址address1、用户微博信息内容text、用户发表微博地址address2，接口返回json格式的数据；

(1.3)用java程序，对微博返回的json数据进行处理，判断第一个用户的注册住址address1与用户发表文本信息内容的地址address2是否相同，若不相同，则确定文本信息内容与旅游相关，将旅游数据的用户ID、用户微博信息text安爬取顺序放入数据库中，如下表1；否则，查看下一个用户。

表1为数据库中的存储格式

(2.1)采用正向最大匹配算法对数据库中所存放的文本数据进行分词处理，如：

(2.1.1)st＝“我们是旅游爱好者”，maxlen(最大词长)＝10。

(2.1.2)取w＝“我们是旅游”；

(2.1.3)查词典判断w中的字符串不是词；

(2.1.4)从w右边减掉一个字后w＝“我们是旅”；

(2.1.5)判断w中的字串不是词；

(2.1.6)从w右边减掉一个字后w＝“我们是”；

(2.1.7)判断w中的字串不是词；

(2.1.8)从w右边减掉一个字后w＝“我们”；

(2.1.9)判断w中的字符串是一个词，则输出到st中，st＝“我们/”。

(2.1.10)重复(2.1.2)(2.1.3)(2.1.4)(2.1.5)(2.1.6)(2.1.7)(2.1.8)(2.1.9)对st进行分词的结果是：我们/是/旅游爱好者。

(2.2)对照停用词表去掉停用词，得到文本的特征值，并确定特征值对应的权重，具体包括以下步骤：

(2.2.1)针对(2.1)中的st，对照停用词表去掉“是”得到st的特征值为{我们，旅游爱好者}；

(2.2.2)将st的特征值与权重库对比得到每一个特征值的权重，权重词库如表2所示：

表2为权重词库的截图

(3)根据步骤(2)所得的文本特征值及其对应的权重，用Simhash算法进行处理，参见图2，得到该文本的语义指纹，并将其存入数据库中，具体由以下步骤实现：

(3.1)假定Simhash的长度为64位，初始化长度为64位的数组，该数组的每个元素都是0。求一个特征值的64位hash值，如果hash值得第i位是1，那么数组的第i个数加上该特征的权重使对应位置变为正权重；否则，当hash值得第i位为0时，则将第i位减去它的权重值使对应位置变为负权重；最后得到这个特征值的权重编码。

(3.2)重复(3.1)步骤，对当前文本的所有特征值进行处理。将所有特征值对应位求代数和并放入原数组。数组中的某些数为正，某些数为负。Simhash值的每一位与数组中的每个数对应，将正数对应位设为1，负数对应位设为0，给出64位的0/1数组，即为最后的Simhash。

用java程序处理st₁＝iwanttogotobeijingwithi；

st₂＝IwanttogotoBeijingwithe；

st₃＝gotoschool；

st₁＝0000000000110100010000000100001100100001100111100011100110111000

st₂＝0000000000110100010000000100001100100010100110100011100110110000

st₃＝0000000000110110110101101100100110100101100111100011000000110000

(3.3)将文本和对应的simhash编码放入数据库中，放入数据库中后如表3所示：

表3语义指纹在数据库中的存储格式

用户ID	用户微博信息text	语义指纹
			1	i want to go to beijing with i	0000000000110100010000000100001100100001100111100011100110111000
2	I want to go to Beijing with e	0000000000110100010000000100001100100010100110100011100110110000
			3	go to school	0000000000110110110101101100100110100101100111100011000000110000

例如：用户1和用户2预先划分类别分别为A类和B类。将用户3的语义指纹与用户1的语义指纹用海明距离进行对比，得到的距离为14，则说明用户3与用户1不是同类，再将用户3的语义指纹与用户2的语义指纹进行对比，得到的距离为16，说明用户3和用户2也不是同类。那么将用户3作为新的类别C类的中心文本存放到数据库中。如表4所示：

表4用户所属类别在数据库中的存储格式

用户ID	用户微博信息text	语义指纹	类别
				1	i want to go to beijing with i	110100010000000100001100100001100111100011100110111000	A
2	I want to go to Beijing with e	110100010000000100001100100010100110100011100110110000	B
				3	go to school	110110110101101100100110100101100111100011000000110000	C

(5)重复步骤(4)，完成数据库中的其他文本的类别划分，完成了旅游网络社区划分。

上述实施例步骤(2.1)中还可以使用逆向最大匹配算法或双向最大匹配算法进行分词处理，其具体处理过程与正向最大匹配算法的过程类似。

上述实施例中未详细描述的方法或处理过程均属于常规方法，对于本领域技术人员均可获知。

Claims

1.一种基于Simhash算法的旅游网络社区划分方法，其特征在于包括以下步骤：

(1)爬取旅游网络上的用户ID以及文本数据，并存入数据库；

2.根据权利要求1所述的基于Simhash算法的旅游网络社区划分方法，所述步骤(1)具体是由以下步骤实现：

(1.1)申请旅游网络爬取数据的权限；

3.根据权利要求1所述的基于Simhash算法的旅游网络社区划分方法，其特征在于：所述步骤(2)中的分词处理采用正向最大匹配算法或逆向最大匹配算法或双向最大匹配算法。

4.根据权利要求1所述的基于Simhash算法的旅游网络社区划分方法，其特征在于：所述步骤(3)中的Simhash算法具体由以下步骤实现：