CN108595466B

CN108595466B - 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法

Info

Publication number: CN108595466B
Application number: CN201810132468.4A
Authority: CN
Inventors: 刘宁; 许伟原; 陈家炜
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2022-05-10
Anticipated expiration: 2038-02-09
Also published as: CN108595466A

Abstract

本发明公开了一种互联网信息过滤以及互联网用户信息和网帖结构分析方法，通过爬虫获取数据，并利用spark‑sql进行数据检索，接着利用关注度模型对用户信息和贴吧进行了分析，最后对帖子的文本进行相关性计算和相关词挖掘，有效的提高了对水贴和广告贴的过滤效果。

Description

一种互联网信息过滤以及互联网用户信息和网帖结构分析方法

技术领域

本发明涉及一种互联网信息过滤以及互联网用户信息和网帖结构分析方法。

背景技术

百度贴吧依托百度搜索引擎，靠着能够捕捉建立用户焦点话题，开放度高，操作便捷等优点沉淀了大量用户。经过14年发展，百度贴吧成了最大的中文交流社区。百度贴吧作为信息消费的大平台，打造了多种用户关系链，维护着各种丰富多彩的热点内容。在业务发展上，贴吧需要进一步明确用户各种属性，进而打造出更好个服务。而在监管方面，则需要对用户发文操作进行审核，以达到监督目的。基于这两方面，也就需要使用自然语言处理来尝试开辟新的途径达到上述两个目的。对水贴跟广告贴的过滤，有部分需要匹配固定格式或者在词典中匹配到相应敏感词才能过滤，无法只通过纯粹的模型训练产生的词典进行拦截。

发明内容

本发明的首要目的是提供一种互联网信息过滤以及互联网用户信息和网帖结构分析方法，实现广告贴和水贴的拦截、用户信息与帖子分析，文本相关性、相关词等的挖掘。

为解决上述技术问题，本发明所采用的技术方案是：

1、一种互联网信息过滤以及互联网用户信息和网帖结构分析方法，其特征在于包括以下步骤：

数据采集，利用python的爬虫框架，分析所需信息所在页面的url结构，根据分析结果构造请求url，模拟浏览器提交网络请求，使用正则表达式或者第三方库提取信息；

数据存储与检索，将采集回来的数据，按照贴吧数据的分类建表，然后将数据导入hbase，存储方式采用列存储，检索的方式是利用基于 mapreduce计算框架的spark-sql进行检索；

用户关系分析，利用spark-sql筛选后的数据，通过关注度模型，把每个用户当做一个点，关系用边来表示，很多用户就构成一个无向有环图，把用户与用户之间的关系，转化为点与点之间的可达性问题；

贴吧分析，统计每个主题贴吧所拥有的用户数来确定贴吧的关注度，挖掘每个贴吧之间的关系，通过扫描每个用户关注的贴吧列表，来建立贴吧与贴吧之间的关系，贴吧作为点，贴吧之间的关系作为边，构造无向有环图；

文本相关性挖掘，利用TF/IDF 模型、LSI模型和余弦距离计算两个文本之间的相似性，在相似文本之间挖掘相关词；

相关词挖掘，把文本中出现的词转化为词向量，使用word2vec中的cbow模型来学习从当前词的周围的词预测当前词生成的概率的过程，利用skip/gram 模型来学习从当前词预测其他词生成的概率的过程，最后使用神经网络对上述学习过程进行训练。

本发明提供的一种互联网信息过滤以及互联网用户信息和网帖结构分析方法通过爬虫获取数据，并利用spark-sql进行数据检索，接着利用关注度模型对用户信息和贴吧进行了分析，最后对帖子的文本进行相关性计算和相关词挖掘，有效的提高了对水贴和广告贴的过滤效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例系统结构图；

图2为本发明实施例数据采集流程示意图；

图3为本发明实施例数据存储对应的表结构示意图；

图4为本发明实施例抽象社交网络关系示意图；

图5为本发明实施例用户交互关系示意图；

图6为本发明实施例用户好友关系示意图；

图7为本发明实施例帖子结构分析示意图；

图8为本发明实施例cbow模型和skip/gram 模型示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

本专利是利用python爬虫框架，爬取贴吧帖子的内容，发帖的用户，用户回复的内容，然后将内容存储在HBase上，接着利用LSI、word2vec 等模型对用户信息、帖子内容和回复进行分析挖掘，构造词库。分析挖掘后构造出关系网络图，并用词库检验水贴和广告贴的过滤效果。

如图1所示，一种互联网信息过滤以及互联网用户信息和网帖结构分析方法，包括以下步骤：

数据采集流程如图2所示，数据采集主要利用python爬虫实现，分析所需信息所在页面的url,然后查看页面源代码，找出所需内容所在的标签，并分析标签结构。在分析完结构后，构造对应的正则表达式用以匹配该格式的字符串。接着，分析访问这个url的请求，也就是url后缀变动的参数部分，还有该请求的头部。接着创建内存池，将所有需要访问到的url放入url 队列中。然后编辑请求头如User-Agent来模拟浏览器访问网站，编辑了请求头后构造Get请求，发送get请求，并将所需的url对应的网页下载下来以文本形式保存。接着利用之前构造的正则表达式，来解析网页标题，网页关键字等等。

数据存储对应的表结构如图3所示，将所采集的数据按照实体进行分类，然后对每个实体进行建表，并对每个实体所对应的部分字段添加约束。然后，将数据进行分割，导入到HBase中。然后利用spark-sql做检索操作。数据在HBase中按列存储的方式存储。

用户信息分析，主要是用户的社交关系分析。用户用点来表示，用户关系则用边进行表示。定义为G＝(V，E)。其中：V为非空集合，称为顶点集；E为集合，包括所有V中元素构成的有序二元组，即边的组合，称为边集。

一个点u的邻域及所有与此点相邻的点的集合，记为N(u)，邻域在社交网络里，可被理解为用户的好友群。如图4为抽象社交网络关系图。

在社交关系中，主要有两个变量需要考虑:用户的共同关注率以及共同粉丝率:

共同关注(u,w)＝#{c:c∈u的所有关注集合且c∈w的所有关注集合}对所有w∈u的好友集

共同粉丝(u,w)＝#{c:c∈u的所有粉丝集合且c∈w的所有粉丝集合}对所有w∈u的好友集

其中，u的所有关注集合和所有粉丝集合均不包括互粉好友；

一些“大V”或者某一特定小群体的领袖名人可能具有较高的共同粉丝概率，而有趣味相投的好友的用户可能拥有较高的共同关注概率。如图5 所示为用户交互关系示意图，图6所示为用户好友关系示意图，图5、图6中的每个圆分别代表不同ID。

贴吧分析模块，统计用户之间的相互回复数然后再画图，可以得到用户之间的交互关系；而将某个帖子的内容使用图的形式进行表示，则可以看出整个帖子各楼层的讨论深度。如图7所示为帖子结构分析示意图，图7 中的每个圆分别代表不同ID。

文本相关性挖掘

文本相关性挖掘主要是用于过滤内容相关的广告贴、水贴。

而文本相关性挖掘最基本是先创建TF-IDF模型，随后在TF-IDF模型上创建LSI模型。最后利用余弦求文本的相关性。前面两个模型都是为了最后的余弦求相关性做准备，如果某个词或短语在一篇文章中出现的频率 TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

TF词频(Term Frequency)

表示词条在文档d中出现的频率。

IDF逆向文件频率(Inverse Document Frequency)

IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF 越大，则说明词条t具有很好的类别区分能力

如果两个单词之间有很强的相关性，那么当一个单词出现时，往往意味着另一个单词也应该出现(同义词)；反之，如果查询语句或者文档中的某个单词和其他单词的相关性都不大，那么这个词很可能表示的是另外一个意思(比如在讨论互联网的文章中，Apple更可能指的是Apple公司，而不是水果)。

LSI使用SVD来对单词-文档矩阵进行分解。SVD可以看作是从单词- 文档矩阵中发现不相关的索引变量(因子)，将原来的数据映射到语义空间内。在单词-文档矩阵中不相似的两个文档，可能在语义空间内比较相似。

SVD，亦即奇异值分解，是对矩阵进行分解的一种方法，一个t*d维的矩阵(单词-文档矩阵)X，可以分解为T*S*DT，其中T为t*m维矩阵，T中的每一列称为左奇异向量(leftsingular bector)，S为m*m维对角矩阵，每个值称为奇异值(singular value)，D为d*m维矩阵,D中的每一列称为右奇异向量。在对单词文档矩阵X做SVD分解之后，我们只保存S中最大的K个奇异值，以及T和D中对应的K个奇异向量，K个奇异值构成新的对角矩阵 S’，K个左奇异向量和右奇异向量构成新的矩阵T’和D’：X’＝T’*S’ *D’T形成了一个新的t*d矩阵。

在查询时，对与每个给定的查询，我们根据这个查询中包含的单词(Xq) 构造一个伪文档：Dq＝XqTS-1，然后该伪文档和D’中的每一行计算相似度(余弦相似度)来得到和给定查询最相似的文档。

相关词挖掘，主要做两件事，一是对于每一个word，使用该word周围的word来预测当前word生成的概率，二是对每一个word,使用该word本身来预测生成其他word的概率。上述两件事分别对应了cbow模型和skip/gram 模型，如图8所示。

在挖掘前，先要把此转换为词向量，有两种方式:

One-hot Representation

最简单的词向量，用一个很长的向量来表示一个词，向量的长度为词典的大小，向量的分量只有一个1，其他全为0，1的位置对应该词在词典中的位置。

缺点：维度灾难；不能很好地刻画词与词之间的相似性。

Distributed Representation

向量较短。相对于One-hot representation而言，一个个体用几个编码单元而不是一个编码单元表示。

在上述工作完成后，利用神经网络进行训练，最后让loss下降并趋近于收敛即完成了。

本方案通过爬虫获取数据，并利用spark-sql进行数据检索，接着利用关注度模型对用户信息和贴吧进行了分析，最后对帖子的文本进行相关性计算和相关词挖掘，有效的提高了对水贴和广告贴的过滤效果。比现在主流只使用敏感词库加人工审核过滤要好的多。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种互联网信息过滤以及互联网用户信息和网帖结构分析方法，其特征在于包括以下步骤：

数据存储与检索，将采集回来的数据，按照贴吧数据的分类建表，然后将数据导入hbase，存储方式采用列存储，检索的方式是利用基于mapreduce计算框架的spark-sql进行检索；

相关词挖掘，把文本中出现的词转化为词向量，使用word2vec中的cbow模型来学习从当前词的周围的词预测当前词生成的概率的过程，利用skip/gram 模型来学习从当前词预测其他词生成的概率的过程，最后使用神经网络对从当前词预测其他词生成的概率的学习过程进行训练；

其中，所述用户关系分析包括以下步骤：

用户用点来表示，用户关系则用边进行表示，定义为G＝(V，E)，其中：V为非空集合，称为顶点集；E为集合，包括所有V中元素构成的有序二元组，即边的组合；一个点u的邻域及所有与此点相邻的点的集合，记为N(u)，邻域在社交网络作为用户的好友群；

在社交关系中，用户的共同关注率以及共同粉丝率作为变量：

其中点u的所有关注集合和所有粉丝集合均不包括互粉好友。

2.根据权利要求1所述的一种互联网信息过滤以及互联网用户信息和网帖结构分析方法，其特征在于所述数据采集包括以下步骤：

利用python爬虫，分析所需信息所在页面的url，然后查看页面源代码，找出所需内容所在的标签，并分析标签结构；

在分析完结构后，构造对应的正则表达式用以匹配该结构的字符串；

接着，分析访问这个url的请求，也就是url后缀变动的参数部分，还有该请求的头部，创建内存池，将所有需要访问到的url放入url队列中；

然后编辑请求头来模拟浏览器访问网站，编辑了请求头后构造Get请求，发送get请求，并将所需的url对应的网页下载下来以文本形式保存；

最后利用之前构造的正则表达式，来解析网页标题，网页关键字。

3.根据权利要求1所述的一种互联网信息过滤以及互联网用户信息和网帖结构分析方法，其特征在于所述数据存储与检索包括以下步骤：

将所采集的数据按照实体进行分类，然后对每个实体进行建表，并对每个实体所对应的部分字段添加约束；

将数据进行分割，导入到HBase中，然后利用spark-sql做检索操作；

数据在HBase中按列存储的方式存储。

4.根据权利要求1所述的一种互联网信息过滤以及互联网用户信息和网帖结构分析方法，其特征在于所述文本相关性挖掘包括以下步骤：

先创建TF/IDF模型，随后在TF/IDF模型上创建LSI模型，最后利用余弦求文本的相关性，如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类；如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。