CN113761358A

CN113761358A - 一种多通道热点发现的方法及多通道热点发现系统

Info

Publication number: CN113761358A
Application number: CN202110509465.XA
Authority: CN
Inventors: 包士强; 胡琼芳; 黎强; 余智华
Original assignee: Golaxy Data Technology Co ltd
Current assignee: Golaxy Data Technology Co ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-12-07

Abstract

本发明公开了一种多通道热点发现的方法及多通道热点发现系统，包括以下步骤：S1、筛选阶段，通过一个平台拉取数据流，对其进行过滤，筛选出热点，并且将热点聚合到搜索引擎上，如果没有热点，则进入到汇集阶段；S2、汇集阶段，对不同平台数据流进行处理，得到热点半成品结果集，再存入远程字典里面；S3、融入阶段，根据平台以往的历史去寻找热点；S4、对上述热点数据进行处理，并且做出相似度计算；S5、若是同一个实体则归为同一实体名称，如果不是，则将新的实体名称加进远程字典里面并将结果聚合到搜索引擎中；S6、聚类结束，等待下一个热点索引。提高了信息采集效率和检索性能。使其在海量数据中能够快速的获取热点信息。

Description

一种多通道热点发现的方法及多通道热点发现系统

技术领域

本发明涉及海量数据采集、分析筛选出热点信息领域，具体来说，涉及一种多通道热点发现的方法及多通道热点发现系统。

背景技术

在大数据业务中，Sparkstreaming接收Kafka、Flume、HDFS等各种来源的实时数据，通过解析将数据暂存到redis里面，并将结果集合放入elasticsearch库。

通常情况下，信息是通过新闻、微信、微博等多种渠道发布的，那么如何快速、高效的筛选出热点信息，这是用户业务场景通常更关注的，即在业务数据筛选热点信息时，需要检索发布时间在一个区间内的数据，并分析出相似度高的数据，相似度高的数据多的可视为热点信息。

由于数据发布渠道的不一致性，为了达到不同渠道的数据发布在同一时间段的一致性，通常需要在各通道数据筛选，导致系统消耗变高，性能变慢。

本发明旨在快速准确的进行多通道热点发现。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种多通道热点发现的方法及多通道热点发现系统，以克服现有相关技术所存在的上述技术问题。

本发明的技术方案是这样实现的：

根据本发明的一个方面，提供了一种多通道热点发现的方法，包括以下步骤：

S1、筛选阶段，通过一个平台拉取数据流，对其进行过滤，筛选出热点，并且将热点聚合到搜索引擎上，如果没有热点，则进入到汇集阶段；

S2、汇集阶段，对不同平台数据流进行处理，得到热点半成品结果集，再存入远程字典里面；

S3、融入阶段，根据平台以往的历史去寻找热点；

S4、对上述热点数据进行处理，并且做出相似度计算；

S5、若是同一个实体则归为同一实体名称，如果不是，则将新的实体名称加进远程字典里面并将结果聚合到搜索引擎中；

S6、聚类结束，等待下一个热点索引。

进一步的，所述S1筛选阶段，通过一个平台拉取数据流，对其进行过滤，筛选出热点，并且将热点聚合到搜索引擎上，如果没有热点，则进入到汇集阶段包括以下步骤：

S11、从平台接口拉取数据流，将大规模的数据流，以增量聚类算法方式处理，将基础数据做过滤，并将原始数据过滤后存入远程字典里面；

S12、通过框架以流+批的形式处理数据流，将流数据分割为离散流，并在这个过程中使用分词按批处理离散流，使用语义相似算法做判断，将相似度高并且相似数量多的视为热点；

S13、并将上述热点聚合到搜索引擎,如果没有相似的就进行步骤S2。

进一步的，所述S2汇集阶段，对不同平台数据流进行处理，得到热点半成品结果集，再存入远程字典里面包括以下步骤：

S21、再次拉取平台中的数据，并将数据流切割为更长时间的离散流；

S22、并使用语义相似法、关键词抽取、Simhash去重算法得到热点半成品结果集，再存入远程字典里面。

进一步的，所述S3融入阶段，根据平台以往的历史去寻找热点包括以下步骤：

S31、将时间周期更长的历史信息全部从平台中拉出来；

S32、根据实体名称倒排索引。

进一步的，所述S4对上述热点数据进行处理，并且做出相似度计算包括以下步骤：

S41、利用Single-passs算法处理，将新的数据文档向量化；

S42、将文档与已有所有热点话题，采用余弦相似度和实体集合距离算法做相似度计算。

进一步的，所述步骤S12中，将流数据分割为30S的离散流。

进一步的，所述步骤S21中并将数据流切割为更长时间的离散流，其中，所述更长时间为一小时。

进一步的，所述步骤S31中将时间周期更长的历史信息全部从平台中拉出来，其中，所述时间周期为3-5天，并且，所述步骤S32中根据实体名称倒排索引，所述实体包括地域和人名中的一种。

根据本发明的另一方面，提供了一种多通道热点发现系统，该系统包括：热点模块、通道模块、计算引擎模块、分布式系统基础架构模块、远程字典、平台模块、搜索引擎，其中，搜索引擎上连接有计算引擎模块、分布式系统基础架构模块、远程字典、平台模块、搜索引擎，所述平台模块依次与所述通道模块与所述热点模块相连接。

本发明的有益效果为：本发明公开了一种多通道热点发现的方法。所述方法通过新闻、微信、微博等多通道同时采集信息，通过算法分析过滤无效信息筛选出热点信息，提高了信息采集效率和检索性能。使其在海量数据中能够快速的获取热点信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种多通道热点发现的方法的流程框图；

图2是根据本发明实施例的一种多通道热点发现的方法的流程图；

图3是根据本发明实施例的一种多通道热点发现系统的系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1-2所示，根据本发明的实施例，提供了一种多通道热点发现的方法，包括以下步骤：

S1、筛选阶段(filter阶段)，通过一个平台拉取数据流，对其进行过滤，筛选出热点，并且将热点聚合到搜索引擎上，如果没有热点，则进入到汇集阶段；

其中，所述筛选阶段(filter阶段)包括以下步骤：

S11、从kafka(平台)接口拉取数据流，将大规模的数据流，以sigle-pass(增量聚类算法)方式处理，将基础数据做过滤，并将原始数据过滤后存入Redis(远程字典)里面。

S12、通过sparkstreaming框架以流+批的形式处理数据流，将流数据分割为周期为30s的离散流，并在这个过程中使用分词按批处理离散流，使用语义相似算法做判断，将相似度高并且相似数量多的视为热点；

S13、并将上述热点聚合到ES(搜索引擎),如果没有相似的就全部流入下一个kafka，filter阶段结束，进入下一个阶段。

S2、汇集阶段(agg阶段)，对不同平台数据流进行处理，得到热点半成品结果集，再存入远程字典里面；

其中，所述汇集阶段(agg阶段)包括以下步骤：

S21、流入下一kafka的阶段视为第二阶段，再次拉取kafka中的数据；

S22、并将数据流切割为更长时间的离散流，如每小时为一周期，并使用语义相似法、关键词抽取、Simhash去重等算法得到hotspot(热点)半成品结果集，再存入Redis里面。

S3、融入阶段(merge阶段)，根据平台以往的历史去寻找热点；

其中，融入阶段(merge阶段)包括以下步骤：

S31、第三阶段将历史信息全部从kafka中拉出来，由于本阶段时间周期更长，如时间周期为3-5天内的数据；

S32、由于数据量过大，所以根据实体名称倒排索引，如地域、人名等可以视为实体。

S4、对上述热点数据进行处理，并且做出相似度计算；

其中，所述对上述热点数据进行处理，并且做出相似度计算包括以下步骤：

S41、利用Single-passs算法处理，将新的数据文档向量化；

S42、将文档与已有所有热点话题做相似度计算，本发明采用余弦相似度和实体集合距离算法；

S5、若是同一个实体则归为同一实体名称，如果不是，则将新的实体名称加进Redis(远程字典)里面并将结果聚合到ES(搜索引擎)中；

S6、聚类结束，等待下一个热点索引。

如图3所示，根据本发明的实施例，还提供了一种多通道热点发现系统，该系统包括：热点模块、通道模块、计算引擎模块、分布式系统基础架构模块、远程字典、平台模块、搜索引擎，其中，搜索引擎上连接有计算引擎模块、分布式系统基础架构模块、远程字典、平台模块、搜索引擎，所述平台模块依次与所述通道模块与所述热点模块相连接。

其中，本发明中提到的上述模块进行说明如下：

热点模块：

比较受广大群众关注，或者欢迎的新闻或者信息，或指某时期引人注目的事件或话题。

通道模块：

通过新闻、论坛/BBS、博客、即时通信软件等传播网络舆情的渠道称为通道。

计算引擎模块(Spark)：

专为大规模数据处理而设计的快速通用的计算引擎，拥有计算速度快、易用性高、通用性好、支持多种资源管理器，拥有强大生态系统的特点。

分布式系统基础架构模块(Hadoop)：

Hadoop是分布式系统基础架构。Hadoop具有高可靠性、高扩展性、高效性、高容错性、低成本等优点使其广泛应用于大数据处理中。

远程字典(Redis)：

Redis即远程字典服务，是一个高性能的key-value存储系统，并且支持主从同步。用于存储数据信息和历史候选倒排索引，避免从elasticsearch获取基础数据。

平台模块(Kafka)：

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据，具有高吞吐量、高稳定性并且支持Hadoop并行数据加载等特点。

搜索引擎(ES)：

ES全称Elasticsearch，Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。用于分布式全文搜索，解决人们对于搜素的众多要求。本发明中用于存储热点数据和热点详情数据，供业务人员使用。

此外，在具体使用的时候，本发明还涉及到了如下技术：1、分词；2、TF-IDF词典；3、关键词抽取；4、词向量；5、实体集合距离；6、语义相似度；7、Simhash去重；8、流式聚类。

另外，上述技术的说明如下：

1、分词

本发明基于python-Jieba技术分词，包括：分词、自定义词典、去停用词。

(1)、分词

jieba.cut方法接受两个输入参数:

第一个参数为需要分词的字符串；

cut_all参数用来控制是否采用全模式。

jieba.cut_for_search方法接受一个参数：需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。

注意：待分词的字符串可以是gbk字符串、utf-8字符串或者unicode。

jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语(unicode)，也可以用list(jieba.cut(…))转化为list。

(2)、自定义词典

在进行中文分词过程中，通常会遇到一些专用词语无法精准的切分，比如“云计算”会被分割为“云”、“计算”，因此它为开发者提供了添加自定义词典功能，从而保证更好的分词正确率。其函数原型如下：

load_userdict(f)

该函数只有一个参数，表示载入的自定义词典路径，f为文件类对象或自定义词典路径下的文件。词典的格式为：一个词占一行，每行分为三部分。

(3)、去停用词

停用词过滤主要是自己构造停用词表文本文件，并将文本中的内容读入list，对分词后的结果逐个检查是否在停用词列表中，如果在就过滤掉，最后得到过滤后的结果。

基础部分：移除一句话中的停用词并输出结果；

对csv文件中的文本进行分词并移除txt文档中规定的停用词，最后写入csv文件中。

2、TF-IDF词典

TF-IDF(Term Frequency–Inverse Document Frequency)，即“词频-逆文本频率”，是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。它由两部分组成，TF和IDF。

(1)、词频(Term Frequency，TF)

指的是某一个给定的词语在该文件中出现的频率。计算公式如下：

(2)、逆向文件频率(Inverse Document Frequency，IDF)

是一个词语普遍重要性的度量。计算公式如下：

注意：分母之所以要加1是为了避免分母为0

3、关键词抽取

TF-IDF作为提取关键词的重要手段，TF-IDF对文本所有候选关键词进行加权处理，根据权值对关键词进行排序。假设Dn为测试语料的大小，该算法的关键词抽取步骤如下所示：

对于给定的文本D进行分词、词性标注和去除停用词等数据预处理操作。本分采用Jieba分词，保留'n','nz','v','vd','vn','l','a','d'这几个词性的词语，最终得到n个候选关键词，即D＝[t1,t2,…,tn]；

计算词语ti在文本D中的词频；

计算词语ti在整个语料的IDF

Dt为语料库中词语ti出现的文档个数.

计算得到词语ti的TF-IDF＝TF*IDF，并重复上述步骤得到所有候选关键词的TF-IDF数值；

对候选关键词计算结果进行倒序排列，得到排名前TopN个词汇作为文本关键词。

4、词向量

我们基于TI-DIF词典和腾讯开源词向量，来得到自己的词向量集合。

5、实体集合距离

利用jaccard相似系数，计算文章实体词的距离。

jaccard系数相反的即为jaccard距离，用两个集合中不同元素所占元素的比例来衡量两个样本之间的相似度，公式为:

6、语义相似度

通过TF-IDF抽取每篇文章的关键词后，再通过余弦相似度计算关键词集合的相似度。余弦相似度是通过两个向量之间的夹角来衡量向量的相似性，用来计算两段文本的相似度和两个用户的相似度。计算公式如下：

7、Simhash去重

假设我们有海量的文本数据，我们需要根据文本内容将它们进行去重。对于文本去重而言，目前有很多算法可以在很高精度上来解决，但是我们现在处理的是大数据维度上的文本去重，这就对算法的效率有着很高的要求。SimHash算法是Google公司进行海量网页去重的高效算法，它通过将原始的文本映射为64位的二进制数字串，然后通过比较二进制数字串的差异进而来表示原始文本内容的差异。

8、流式聚类

Single-pass聚类算法是一种增量聚类算法(Incremental ClusteringAlgorithm)，每个文档只需要流过算法一次，它可以很好的应用于话题监测与追踪、在线事件监测等社交媒体大数据领域，特别适合流式数据(Streaming Data)，比如微博的帖子信息，因此适合对实时性要求较高的文本聚类场景。

综上所述，借助于本发明的上述技术方案，本发明公开了一种多通道热点发现的方法。所述方法通过新闻、微信、微博等多通道同时采集信息，通过算法分析过滤无效信息筛选出热点信息，提高了信息采集效率和检索性能。使其在海量数据中能够快速的获取热点信息。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多通道热点发现的方法，其特征在于，包括以下步骤：

S3、融入阶段，根据平台以往的历史去寻找热点；

S4、对上述热点数据进行处理，并且做出相似度计算；

S6、聚类结束，等待下一个热点索引。

2.根据权利要求1所述的一种多通道热点发现的方法，其特征在于，所述S1筛选阶段，通过一个平台拉取数据流，对其进行过滤，筛选出热点，并且将热点聚合到搜索引擎上，如果没有热点，则进入到汇集阶段包括以下步骤：

3.根据权利要求1所述的一种多通道热点发现的方法，其特征在于，所述S2汇集阶段，对不同平台数据流进行处理，得到热点半成品结果集，再存入远程字典里面包括以下步骤：

4.根据权利要求1所述的一种多通道热点发现的方法，其特征在于，所述S3融入阶段，根据平台以往的历史去寻找热点包括以下步骤：

S31、将时间周期更长的历史信息全部从平台中拉出来；

S32、根据实体名称倒排索引。

5.根据权利要求1所述的一种多通道热点发现的方法，其特征在于，所述S4对上述热点数据进行处理，并且做出相似度计算包括以下步骤：

S41、利用Single-passs算法处理，将新的数据文档向量化；

6.根据权利要求2所述的一种多通道热点发现的方法，其特征在于，所述步骤S12中，将流数据分割为30S的离散流。

7.根据权利要求3所述的一种多通道热点发现的方法，其特征在于，所述步骤S21中并将数据流切割为更长时间的离散流，其中，所述更长时间为一小时。

8.根据权利要求4所述的一种多通道热点发现的方法，其特征在于，所述步骤S31中将时间周期更长的历史信息全部从平台中拉出来，其中，所述时间周期为3-5天，并且，所述步骤S32中根据实体名称倒排索引，所述实体包括地域和人名中的一种。

9.一种多通道热点发现系统，其特征在于，用于权利要求1-9所述的多通道热点发现的方法步骤的实现，其特征在于，该系统包括：热点模块、通道模块、计算引擎模块、分布式系统基础架构模块、远程字典、平台模块、搜索引擎，其中，搜索引擎上连接有计算引擎模块、分布式系统基础架构模块、远程字典、平台模块、搜索引擎，所述平台模块依次与所述通道模块与所述热点模块相连接。