CN110990676A

CN110990676A - 一种社交媒体热点主题提取方法与系统

Info

Publication number: CN110990676A
Application number: CN201911194794.9A
Authority: CN
Inventors: 宋立华; 王秋琳; 梁懿; 庄莉; 陈睿欣; 于灏
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Beijing Electric Power Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Beijing Electric Power Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-10

Abstract

一种社交媒体热点主题提取方法与系统。所述热点主题提取方法收集的互联网文本信息数据进行过滤归纳，然后采用文本聚类算法聚集相同主题的互联网数据信息，再把所述互联网数据信息聚类，为所选主题生成文本摘要；所述热点主题提取系统包括了数据筛选计算、主题聚类和主题摘要提取三个模块；所述数据筛选模块将收集的互联网文本信息数据进行过滤归纳；所述主题聚类模块采用文本聚类算法聚集相同主题的过滤完的互联网文本信息数据；所述主题摘要提取模块，提取模块根据用户所选的主题，将对应的聚类后的互联网文本信息数据生成文本摘要,从而完成热点提取；本发明提升了社交媒体热点主题的提取质量，具有较强的实用价值。

Description

一种社交媒体热点主题提取方法与系统

技术领域

本发明属于数据分析技术领域，涉及一种适用于在各类社交媒体数据中提取热点主题的方法和系统。

背景技术

随着信息技术及互联网的不断纵深发展，包括微博、微信公众号等在内的社交媒体的舆论影响力越来越大，时效性越来越强，成为了解公众观点、态度和品牌舆情的主要渠道。然而，社交媒体的蓬勃发展也导致了相关数据规模的不断增长。以新浪微博为例，其2018年微博月活跃用户4.62亿，连续三年增长7000万+，垂直领域数量扩大至60个，其中月阅读量过百亿领域达32个。如何在海量、高速变化的社交媒体中及时获得与品牌、发展相关的社交媒体信息，成为政府、企业等机构关心的重要课题，这依托于快速的信息采集能力、处理处理，以及从海量数据中聚集、挖掘出主题热点事件等各方面能力。其中，数据采集能力和处理能够由服务提供商(如新浪)统一提供，而与政府部门、企业等机构相关的特定事件的快速发现，具有较强的个性化，很难统一提供，也成为了当前的技术攻关热点。

发明内容

本发明提出一种面向一种社交媒体热点主题提取方法以及系统，从海量数据中提取出与特定机构相关的信息，并聚集形成易于人工阅读、排查的主题，整理出主题摘要，能够为各类机构及时获取社交媒体中与自身相关的热点主题需求提供支撑，能够显著降低社交媒体信息监测人力投入，具有较强的应用价值。

本发明技术方案一

一种社交媒体热点主题提取方法，包括如下步骤：

S10、将收集的互联网文本信息数据进行过滤归纳；

S20、采用文本聚类算法聚集相同主题的过滤完的互联网文本信息数据；

S30、所述互联网文本信息数据聚类后，为所选的主题生成文本摘要,从而完成热点提取并且对相应的主题进行展示。

进一步的，所述的一种社交媒体热点主题提取方法，其中所述收集的互联网文本信息数据进行过滤归纳包括以下步骤：

S11、计算获取的互联网文本信息数据的敏感哈希指纹；

S12、利用敏感哈希指纹过滤所收集到的互联网信息数据内的重复部分。

进一步的，所述的一种社交媒体热点主题提取方法，其中所述采用文本聚类算法聚集相同主题的过滤完成的互联网文本信息数据包括以下步骤：

S21、从过滤归纳后的互联网文本信息数据中筛选出与用户指定关键词相关的互联网文本信息数据；

S22、采用分词器对步骤S21中筛选出的互联网文本信息数据进行分词处理；

S23、将S22中完成分词处理的各互联网文本信息数据转换成向量然后判断不同的所述互联网文本信息数据间的匹配程度；

S24、采用聚类算法对所述互联网文本信息数据进行聚类处理，所述聚类算法根据向量匹配程度进行聚类。

进一步的，所述的一种社交媒体热点主题提取方法，其中所述的为所选的主题生成文本摘要包括如下步骤：S31、用户自定义摘要长度以及摘要的句子长度；

S32、采用自动摘要生成技术从聚类后的互联网文本信息数据中提取出内容，将提取出的内容作为该文本信息数据的文本摘要；

S33、采用TextRank摘要生成算法，从所述文本摘要中把符合用户自定义摘要句子长度的句子建模成节点，关联所述节点形成权重边，从而形成带权无向图。

本发明还提供一种社交媒体热点主题提取系统。

本发明技术方案二

一种社交媒体热点主题提取系统，包括数据筛选模块，主题聚类模块以及主题摘要提取模块；

所述数据筛选模块将收集的互联网文本信息数据进行过滤归纳；所述的主题聚类模块采用文本聚类算法聚集相同主题的过滤完的互联网文本信息数据；

所述主题摘要提取模块根据用户所选的主题，将对应的聚类后的互联网文本信息数据生成文本摘要,从而完成热点提取。

进一步的，所述的一种社交媒体热点主题提取系统，其中所述数据筛选模块具体执行如下步骤：

S11、计算获取的互联网文本信息数据的敏感哈希指纹；

S12、利用敏感哈希指纹过滤所收集到的互联网文本信息数据内的重复部分。

进一步的，所述的一种社交媒体热点主题提取系统，其中所述主题聚类模块具体执行如下步骤：

进一步的，所述的一种社交媒体热点主题提取系统，其中所述主题摘要提取模块具体执行如下步骤：

S31、用户能自定义摘要长度以及摘要的句子长度；

本发明的有益效果

1.本发明的方法提升了社交媒体热点主题的提取质量；

2.同时显著缩短了计算时长；

3.降低了人工标注数据投入；

4.提升了提取出的主题的可读性。

5.方案整体实施成本较低，能够普遍应用于各类政府、企业机构的互联网监测及分析相关应用中。

附图说明

图1.社交媒体热点主题提取系统框架图；

图2.社交媒体热点主题提取方法过程图；

图3.主题提取结果图。

具体实施方式

实施例一

一种社交媒体热点主题提取方法，参阅图2包括如下步骤：

S10、将收集的互联网文本信息数据进行过滤归纳；

S20、采用文本聚类算法聚集相同主题的过滤完成的互联网信息数据；

S30、所述互联网文本信息数据聚类后，为用户所选的主题生成文本摘要,从而完成热点提取并且对相应的主题进行展示。

所述的一种社交媒体热点主题提取方法，其中所述收集的互联网文本信息数据进行过滤归纳在采集语料的过程中，需要收集到尽可能全面且不同的语料，而同一篇文章常常会转载到多个平台上，以关于Trump的1.5万篇新闻语料为例：内容不同的语料占所有语料的比例仅有：8.5％，而在这仅有的8.5％中，仍有一些文本的内容绝大多数相同，仅有个别字符的差异。直接使用这样的语料进行分析，会导致聚类和摘要的结果中出现大量重复的内容，无法尽可能地展现多样性的观点。因此需要对文本内容进一步去重，高效的过滤掉那些内容上大部分相同，只有个别地方不同的文本。所述互联网文本信息数据进行过滤归纳包括以下步骤：

S11、计算获取的互联网文本信息数据的敏感哈希指纹；这一步骤将一段文本表示成一个64bit的hash code，从而避免在多次、不同范围的主题提取过程中重复计算，能够显著提升主题提取的计算效率。算法的伪代码描述；

S12、利用敏感哈希指纹过滤所收集到的互联网文本信息数据内的重复部分；这一步使用hash table的方法冗余存储多份hash code的集合，从而使得两两之间的比较更加快速高效。算法描述；

输入：

k(当两个hash_code存在<＝k位不同时，判为重复)

h(query hash code)

H(hash_code set)

算法：

将h均分成k+1块

repeat

将H中的每个hash_code按同样的方式均分成k+1块

建立k+1个hash map:每个的key是上一步分块的第i块内容，value是list of完整的hash_code

until H遍历完毕

用h的每一块去k+1个hash map中查询，命中则对list中的每个hash_code逐一计算xor的位数：d

if d<＝k:

判为重复文本

else

判为非重复文本

所述的一种社交媒体热点主题提取方法，其中所述采用文本聚类算法聚集相同主题的过滤完成的互联网文本信息数据采用文本聚类算法，能将同一主题的文档聚集到一起。文本聚类是无监督学习方法，其主要作用是：按照语料自身的话题特性，将谈论相关内容的文本聚集成类。聚类方法的优点是：1.无监督，不需要标注；2.训练速度快。在实践中，能够根据用户是否指定主题数量的需求(例如：用户可指定将文档自动聚集为5个主题，或者不指定需要需要聚集为几个主题而由算法自行确定)。

首先是对互联网文本信息数据全文进行传统方法分词，可以采用主流分词器，如Jieba。而后，针对形成的分词，进一步计算是否可以将相邻的分词替换成词组。这是通过计算相邻分词的“互信息(PMI)”实现的：互信息体现了组成当前词的各个或词之间结合的紧密程度，互信息值越大成词的可能性也越大，计算公式如下：

其中p(x)p(y)分别是分词x和分词y单独出现的概率，p(x,y)是分词x和分词y同时出现的概率。

可设置默认的阈值为0.2，当相邻分词的PMI大于0.2时则将其合并为词组，用词组替代分词作为全局字典和向量中的词元素，原有的构成词组的分词则不再使用；当PMI小于0.2时则不作处理，保留原有分词。实际情况中可以根据实验测试结果调整阈值的数值。

上述过程完成了“改进互联网文本信息数据距离度量算法”的核心部分。接下来就可以采用通用的距离算法如“余弦夹角”等实现互联网文本信息数据的向量匹配度量，

所述采用文本聚类算法聚集相同主题的过滤完成的互联网数据信息包括以下步骤：

S21、筛选出与所需主题或非指定主题关键词相关性高的互联网文本信息数据；

S22、利用分词器将获得的所述互联网文本信息数据进行分词处理；在分词过程中，通过将相邻且共同出现次数较多的词组合为词组，该词组替代原有的词作为新的分词；

S23、将S22中完成分词的所述互联网文本信息数据转换成向量然后判断不同的所述互联网文本信息数据间的匹配程度；

S24、采用聚类算法对所述互联网文本信息数据进行聚类处理，所述聚类算法根据向量匹配程度进行聚类；在各类互联网文本信息数据聚类过程中，都需要通过判断互联网文本信息数据之间的“距离”，来实现将互联网文本信息数据(“距离”较短)聚集到同一个类别，所以如何判断“距离”是聚类效果优劣的关键因素之一。目前主流算法通常采用以下步骤实现两篇文章的距离计算：首先是将互联网文本信息数据进行分词，而后将分词后的文档转换成一个向量，其中向量的维度数量与全局词典(即所有文章中出现的所有词)相同，对于每一维而言，如果文章中存在这个词，则记录为0，否则记录为1。最后，通过向量的距离判断算法，例如“余弦夹角”的算法，计算两个向量的匹配程度。本发明对互联网文本信息数据距离度量算法进行了一定的改进。

K-Means聚类算法描述；

随机选择K个点作为初始质心

repeat

将每个点指派到最近的质心，形成K个簇。其中，度量距离的远近基于改进的互联网文本信息数据距离度量算法。

重新计算每个簇的质心

DBSCAN聚类算法与K-Means聚类算法相比需预先指定类的数量，但是需要指定两个超参数参数：(∈,MinPts)用来描述邻域的样本分布紧密程度。其中，∈描述了某一样本的邻域距离阈值，MinPts描述了某一样本的距离为∈的邻域中样本个数的阈值；训练速度快，具体的DBSCAN聚类算法描述：

将数据集D中的所有对象标记为未处理状态

Repeat对每个未分配的点p

判断p是(噪声点，边界点)或(核心点)。判断过程中度量点之间距离的远近基于改进的互联网文本信息数据距离度量算法

If p是核心点：

以p为核心建立它所在的簇，并且将p邻域内的所有点加入p所在的簇

until簇不发生变化或达到最大迭代次

进一步的，所述的一种社交媒体热点主题提取方法，其中所述的为所选的主题生成文本摘要包括如下步骤：

S31、用户能自定义摘要长度以及摘要的句子长度；

S32、采用自动摘要生成技术从聚类后的互联网文本信息数据中提取出内容，将提取出的内容作为该文本信息数据的文本摘要；S33、采用TextRank摘要生成算法，从所述文本摘要中把符合用户自定义摘要句子长度的句子建模成节点，关联所述节点形成权重边，从而形成带权无向图；TextRank摘要生成算法描述：

对句子进行分词，并转化成一个定长向量

Repeat构建图

把过滤后满足长度条件的所有句子作为node添加到graph G上计算两两句子之间的相关程度:s

If s>＝threshold

在这两个句子节点之间添加1条edge，权重是s

实施例二

一种社交媒体热点主题提取系统，参照图1其中所述的系统包括数据筛选模块，主题聚类模块和主题摘要提取模块；

所述数据筛选模块将收集的互联网文本信息数据进行过滤归纳；

所述的主题聚类模块采用文本聚类算法聚集相同主题的过滤完的互联网文本信息数据；

所述的一种社交媒体热点主题提取系统，其中所述数据筛选模块具体执行如下步骤：

S11、计算获取的互联网文本信息数据的敏感哈希指纹；

所述的一种社交媒体热点主题提取系统，其中所述主题聚类模块具体执行如下步骤：

S21、筛选出与用户指定关键词相关的互联网文本信息数据；

S22、采用分词器将步骤S21中筛选出的互联网文本信息数据进行分词处理；

所述的一种社交媒体热点主题提取系统，其中所述主题摘要提取模块具体执行如下步骤：

S31、用户自定义摘要长度以及摘要的句子长度；

实际实施例子如图3所示：8月13日到8月15日三天时间内通过互联网爬虫工具采集到的所有与某大型央企相关的社交媒体数据，包括微信公众号和新浪微博，其中微信公众号2453条，微博263168条；本次实验CPU4核内存、16GB的Linux服务器上运行，主题聚类部分采用策略1，指定聚集为10个主题。执行总耗时3分钟56秒，其中步骤1文本去重耗时21秒，步骤2主题聚类耗时2分11秒，步骤3主题摘要耗时24秒。图3是得到的其中一个主题信息；针对十万级数据的主题提取总共耗时不超过5分钟，显著低于机器学习或深度学习的主题聚类算法；主题提取结果增加了“主题摘要”，显著提升了人工阅读主题内容的用户体验，为进一步开展主题筛选、判断及处置奠定了良好的基础。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的效结构或效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种社交媒体热点主题提取方法，其特征在于，包括如下步骤：

S10、将收集的互联网文本信息数据进行过滤归纳；

2.根据权利要求1所述的一种社交媒体热点主题提取方法，其特征在于，所述收集的互联网文本信息数据进行过滤归纳包括以下步骤：

S11、计算获取的各互联网文本信息数据的敏感哈希指纹；

3.根据权利要求1所述的一种社交媒体热点主题提取方法，其特征在于，所述采用文本聚类算法聚集相同主题的过滤完成的互联网信息数据包括以下步骤：

4.根据权利要求1所述的一种社交媒体热点主题提取方法，其特征在于，所述的为所选的主题生成文本摘要包括如下步骤：

S31、用户自定义摘要长度以及摘要的句子长度；

5.一种社交媒体热点主题提取系统，其特征在于，包括数据筛选模块，主题聚类模块以及主题摘要提取模块；

6.根据权利要求5所述的一种社交媒体热点主题提取系统，其特征在于，所述数据筛选模块具体执行如下步骤：

S11、计算获取的互联网文本信息数据的敏感哈希指纹；

7.根据权利要求5所述的一种社交媒体热点主题提取系统，其特征在于，所述主题聚类模块具体执行如下步骤：

8.根据权利要求5所述的一种社交媒体热点主题提取系统，其特征在于，所述主题摘要提取模块具体执行如下步骤：

S31、用户自定义摘要长度以及摘要的句子长度；