CN107122420A

CN107122420A - 一种旅游热点事件检测方法及系统

Info

Publication number: CN107122420A
Application number: CN201710214385.5A
Authority: CN
Inventors: 李震川; 庞子龙; 曹磊; 王子剑; 陈龙; 严武
Original assignee: Shanghai Connaught Intelligent Technology Co Ltd
Current assignee: Shanghai Connaught Intelligent Technology Co Ltd
Priority date: 2017-04-01
Filing date: 2017-04-01
Publication date: 2017-09-01

Abstract

本发明提供了一种旅游热点事件检测方法及系统，其中方法包括：预先设置旅游专业知识库，获取网络文本数据；根据所述网络文本数据聚类热点词汇；匹配所述热点词汇和所述旅游专业知识库，计算相似度；根据所述相似度设置热点词汇的权重，重新聚类，获取旅游热点事件。本方案能够使得最终的热点聚类结果更加准确。

Description

一种旅游热点事件检测方法及系统

技术领域

本发明涉及数据检测技术领域，尤其涉及一种旅游热点事件检测方法及系统。

背景技术

当前国内经济形势呈上升趋势，旅游业也随之蓬勃发展，旅游行业信息成为炙手可热的商业数据。对旅游行业信息进行数据挖掘，可以为旅游从业者提供策略咨询，可以为旅游监管部门提供宏观分析，还可以对整个旅游行业做前景预测，具有非常大的市场意义。

当前旅游业发展出现游客量随旅游热点事件井喷式爆发的趋势，挖掘旅游热点事件成为热门的研究课题。目前，现有的旅游热点事件检测大多数采用对网络文本数据进行文本聚类的方法，从聚类结果中提取出热点信息。然而，大多数的热点提取过程，并没有采用专业的旅游专业知识为指导，使得最终的热点聚类结果不够准确。

发明内容

有鉴于此，本发明要解决的技术问题是提供一种旅游热点事件检测方法及系统，能够使得最终的热点聚类结果更加准确。

本发明的技术方案是这样实现的：

第一方面，本发明实施例提供了一种旅游热点事件检测方法，包括：预先设置旅游专业知识库，还包括以下步骤：

步骤1：获取网络文本数据；

步骤2：根据所述网络文本数据聚类热点词汇；

步骤3：匹配所述热点词汇和所述旅游专业知识库，计算相似度；

步骤4：根据所述相似度设置热点词汇的权重，重新聚类，获取旅游热点事件。

优选的，在所述步骤2之前，还包括：

清洗所述网络文本数据。

优选的，在所述清洗所述网络文本数据之后，还包括：

将所述网络文本数据进行分词，生成词向量，并将所述词向量转换为数值向量。

优选的，所述根据所述网络文本数据聚类热点词汇包括：

根据划分聚类算法，将所述数值向量聚类出热点词汇。

优选的，所述相似度计算方法为：

其中，same(a，b)表示集合a和b之间的共有元素数量，sum(a，b)表示集合a和b非重复元素总和。

第二方面，本发明实施例提供了一种旅游热点事件检测系统，包括：

设置模块，用于预先设置旅游专业知识库；

获取模块，用于获取网络文本数据并发送至聚类模块；

所述聚类模块，用于根据所述网络文本数据聚类热点词汇；

计算模块，用于匹配所述热点词汇和所述旅游专业知识库，计算相似度；

预测模块，用于根据所述相似度设置热点词汇的权重，重新聚类，获取旅游热点事件。

优选的，还包括清洗模块，

所述清洗模块，用于清洗所述网络文本数据。

优选的，还包括分词模块

所述分词模块，用于将所述网络文本数据进行分词，生成词向量，并将所述词向量转换为数值向量。

优选的，所述聚类模块包括聚类单元；

所述聚类单元，用于根据划分聚类算法，将所述数值向量聚类出热点词汇。

优选的，所述预测模块包括预测单元；

所述计算单元用于计算相似度，所述相似度计算如下：

本发明提出的旅游热点事件检测方法及系统，通过在聚类热点词汇之后，根据旅游专业知识库计算热点词汇相似度并分配权重，使得旅游热点词汇能够在聚类过程中，占有更高的聚类权重，从而明确了旅游热点聚类的需求方向，保证了聚类分析结果的准确性。

附图说明

图1为本发明实施例提出的旅游热点事件检测方法的流程图；

图2为本发明另一实施例提出的旅游热点事件检测方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提出了一种旅游热点事件检测方法，包括以下步骤：

步骤101：预先设置旅游专业知识；

步骤102：获取网络文本数据；

步骤103：根据所述网络文本数据聚类热点词汇；

步骤104：匹配所述热点词汇和所述旅游专业知识库，计算相似度；

步骤105：根据所述相似度设置热点词汇的权重，重新聚类，获取旅游热点事件。

可见，本发明实施例提出的旅游热点事件检测方法，通过在聚类热点词汇之后，根据旅游专业知识库计算热点词汇相似度并分配权重，使得旅游热点词汇能够在聚类过程中，占有更高的聚类权重，从而明确了旅游热点聚类的需求方向，保证了聚类分析结果的准确性。

在本发明的一个优选实施例中，由于无用字符会对聚类结果产生噪声影响，提升聚类的维度，占用系统内存，降低算法效率，因此可以在聚类文本之前，清洗所述网络文本数据。

其中，清洗所述网络文本数据包括将emoji、网络标号、标点、连词、介词、特殊字符等从文本中去除。

在本发明的一个优选实施例中，在所述清洗所述网络文本数据之后，还包括：

在本发明的一个优选实施例中，根据所述网络文本数据聚类热点词汇包括：

根据划分聚类算法，将所述数值向量聚类出热点词汇。

在本发明的一个优选实施例中，相似度计算方法为：

本发明实施例提出了一种旅游热点事件检测方法，如图2所示，包括以下步骤：

步骤201：预先设置旅游专业知识。

步骤202：获取网络文本数据。

其中，可以采用网络爬虫工具从各大网络新闻平台、社交平台等爬取海量的旅游热点新闻数据。

步骤203：清洗所述网络文本数据。

由于无用字符会对聚类结果产生噪声影响，提升聚类的维度，占用系统内存，降低算法效率，因此可以在聚类文本之前，清洗所述网络文本数据。

步骤204：将所述网络文本数据进行分词，生成词向量，并将所述词向量转换为数值向量。

其中，将词向量转换为数值向量可以采用TF-IDF算法。TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力。TF-IDF实际上是：TF*IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。TF和IDF的计算方法如下：

其中，n_ij代表词t_i在文档d_j中的出现的次数，分母则是所有词在文档dx中出现的次数之和。而

其中，|D|指语料库中出现的文件总数，而|{j：t_i∈d_j}|指包含词t_i的文件数目，为保证分母不为零，一般使用1+|{j：t_i∈d_j}|。最后，计算

TF-IDFij＝TFij×IDFi

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

步骤205：根据所述网络文本数据聚类热点词汇。

其中，本实施例中可以采用K-means聚类算法，K-means均值算法是一种典型的划分聚类算法，即将所有样本划分到距离最近的均值中心点。算法先设初始聚类个数K和K个中心点，将所有样本划分到距离最近的中心点所在的簇，然后更新中心点，中心点即所有簇内样本的总和均值。重复上述过程，直到中心点不再变化，即表示聚类结束。其中，距离一般采用欧式距离计算：

其中，d_ij表示n维向量X_i和n维向量Y_i之间的欧氏距离。

聚类算法的结果需要进行分析，主要是评价聚类性能和聚类结果的意义。现有的聚类算法的评价标准有很多种，本专利使用簇内距离和轮廓系数评价聚类性能。簇内距离即统计聚类结果所有簇包含的样本到该簇中心的距离总和，计算公式如下：

其中，d_j(x_j-m_i)表示第i类内的第j个样本x_j，到均值中心m_i的欧式距离d_j。当簇内距离总和S越小，表示聚类各簇越紧凑，聚类效果越强。轮廓系数在簇内距离的基础上还考虑了簇间关系，计算步骤如下：

其中，a(i)表示第i个样本x_i到他所在簇的其他样本x_j距离总和的均值。再计算：

其中，b(i)表示第i个样本x_i到他最近的非所在簇，所包含所有样本y_j距离总和的均值。那么，第i个样本的轮廓系数即：

显然，S(i)值在区间[-1，1]，该值越趋近于1，表示聚类效果越好，聚类簇间距离更远，簇内更加紧凑。通过多次调整K值，计算簇内距离和轮廓系数，即可以找到最佳的K值点，该点即最佳的聚类效果点。通过分析最佳效果点的聚类结果，可以统计出每个簇的热点词汇，这些热点词汇即该块模块最终的输出结果。

步骤206：匹配所述热点词汇和所述旅游专业知识库，计算相似度。

聚类出来的热点词汇组，即可以和旅游专业知识库相匹配。旅游专业知识库中，包含了大量旅游信息和客流量之间的规则关系，可以通过聚类各簇的热点词汇组和旅游知识规则前件之间的相似度匹配，即可以分析出各个聚类簇热点词汇组的权重关系。其中相似度计算如下：

same(a，b)表示集合a和b之间的共有元素数量，sum(a，b)表示集合a和b非重复元素总和。相似度越高，表示该簇热点的可信度越高。可以选取n个相似度最高的热点词汇组，设置权重w，与对应词汇的TF-IDF值相乘，提高该热点词汇在样本数值向量中的重要性比重，然后重新聚类，即可以得到更加准确的热点聚类结果。

步骤207：根据所述相似度设置热点词汇的权重，重新聚类，获取旅游热点事件。

本发明实施例还提出了一种旅游热点事件检测系统，包括：

设置模块，用于预先设置旅游专业知识库；

获取模块，用于获取网络文本数据并发送至聚类模块；

所述聚类模块，用于根据所述网络文本数据聚类热点词汇；

在本发明的一个优选实施例中，旅游热点事件检测系统还包括清洗模块，

所述清洗模块，用于清洗所述网络文本数据。

在本发明的一个优选实施例中，旅游热点事件检测系统还包括分词模块；

在本发明的一个优选实施例中，所述聚类模块包括聚类单元；

在本发明的一个优选实施例中，所述预测模块包括预测单元；

所述计算单元用于计算相似度，所述相似度计算如下：

本发明针对旅游热点聚类这一课题，在以往传统的文本聚类基础上加入了旅游知识库的规则权重，对于最终聚类热点的分析，具有重要的指导意义。传统的文本聚类方法往往存在聚类性能过拟合的问题，分析结果往往比实际需求更加细化，需要人工介入重新整合。而加入了旅游知识库的规则权重，使得旅游热点信息能够在聚类过程中，占有更高的聚类权重，从而明确了旅游热点聚类的需求方向，保证了聚类分析结果的准确性。

本发明通过对北京、巴西奥运会旅游数据的热点聚类，准确的找出了奥运期间游客关心的旅游热点验证了本发明对旅游业营销策略的实际指导意义，也有利于政府监管部门的宏观调控和市场前景预测。

综上所述，本发明实施例至少可以实现如下效果：

在本发明实施例中，通过在聚类热点词汇之后，根据旅游专业知识库计算热点词汇相似度并分配权重，使得旅游热点词汇能够在聚类过程中，占有更高的聚类权重，从而明确了旅游热点聚类的需求方向，保证了聚类分析结果的准确性。

在本发明实施例中，通过清洗所述网络文本数据，从而可以降低聚类的维度，较少占用系统的内存，提高算法效率。

在本发明实施例中，通过将所述网络文本数据进行分词，生成词向量，并将所述词向量转换为数值向量，可以提高聚类的效率。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种旅游热点事件检测方法，其特征在于，包括：预先设置旅游专业知识库，还包括以下步骤：

步骤1：获取网络文本数据；

步骤2：根据所述网络文本数据聚类热点词汇；

2.如权利要求1所述的旅游热点事件检测方法，其特征在于，在所述步骤2之前，还包括：

清洗所述网络文本数据。

3.如权利要求2所述的旅游热点事件检测方法，其特征在于，在所述清洗所述网络文本数据之后，还包括：

4.如权利要求3所述的旅游热点事件检测方法，其特征在于，所述根据所述网络文本数据聚类热点词汇包括：

根据划分聚类算法，将所述数值向量聚类出热点词汇。

5.如权利要求1-4任一项所述的旅游热点事件检测方法，其特征在于，所述相似度计算方法为：

6.一种旅游热点事件检测系统，其特征在于，包括：

设置模块，用于预先设置旅游专业知识库；

获取模块，用于获取网络文本数据并发送至聚类模块；

所述聚类模块，用于根据所述网络文本数据聚类热点词汇；

7.如权利要求6所述的旅游热点事件检测系统，其特征在于，还包括清洗模块，

所述清洗模块，用于清洗所述网络文本数据。

8.如权利要求7所述的旅游热点事件检测系统，其特征在于，还包括分词模块

9.如权利要求6所述的旅游热点事件检测系统，其特征在于，所述聚类模块包括聚类单元；

10.如权利要求6-9任一项所述的旅游热点事件检测系统，其特征在于，所述预测模块包括预测单元；

所述计算单元用于计算相似度，所述相似度计算如下：