CN113468868A

CN113468868A - 一种基于nlp的实时网络热点内容分析方法

Info

Publication number: CN113468868A
Application number: CN202110767096.4A
Authority: CN
Inventors: 高岭; 周冰; 王峥; 杨冠华; 王祎昊; 任杰
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-10-01
Anticipated expiration: 2041-07-07
Also published as: CN113468868B

Abstract

一种基于NLP的实时网络热点内容分析方法，利用搜索引擎对关键词进行搜索，获取到网络数据内容，通过分词模型对文本进行数据预处理，从而达到计算机自动识别语句含义的效果；利用预处理后的文本数据，通过采用一种计算话题热度值的计算方法对话题的文本数据进行热度评估，得到某话题实时的热度值；并利用关键词提取技术，可以得到与该话题相关的文本内容；利用所分析好的热度值数据和相关文本数据，可以以折线图或词云图等图例形式直观地展示，更好的观测某话题的热度变化情况。

Description

一种基于NLP的实时网络热点内容分析方法

技术领域

本发明涉及计算机领域和自然语言处理领域，特别涉及一种基于NLP的实时网络热点内容分析方法。

背景技术

在大数据时代，互联网信息呈现海量、动态、多样的异质性特征，由于大量的相关性和零星因素，使得舆情更加复杂多变，传统的舆情监测研究和判断方法难以奏效。海量数据强化了社会舆论的“瞎子和大象”效应，极端观点更容易通过网络乘数效应放大，从而强化了舆论的极端情绪。在信息分散的大数据时代，舆论管理也越来越困难，因此加强互联网信息监管的同时，组织力量开展信息汇集整理和分析，对于及时应对网络突发的公共事件和全面掌握社情民意很有意义。

如今互联网技术迅猛发展，网络成为人们获取信息的主要渠道。由于网络信息高速传播以及信息量大的特性，如何在较短时间内快速准确地发现网络热点信息，成为数据挖掘与自然语言处理领域研究的热点。网络热点信息是对社会各阶级领域所关注话题的阐述，尤其舆情分析可以透过现象真正挖掘事情的本质。目前，国内外学者主要从两个方面对话题发现技术进行研究。在话题发现模型选择方面，有经常使用的LDA模型(三层贝叶斯概率模型)进行话题发现，但是过于复杂，效率不高；在话题发现算法方面，有学者提出在线话题发现算法和增量全局的K-Means算法进行话题发现，但是这些方法比较传统，适应场景有限。

基于这些算法的不足，本发明通过采用话题热度计算方法计算某话题的热度值，并对话题文本中分词集合进行热度评估，计算出每个分词的热度值，可以有效的对网络热点信息进行分析处理，从而实时对话题热度进行评估，提取关键信息，实时观测网络热点信息变化情况。

发明内容

为克服上述现有技术的不足，本发明的目的是提供一种基于NLP的实时网络热点内容分析方法，实现网络热点信息进行预处理、热点信息话题热度评估、网络热点信息关键词提取等功能。

为了实现上述目的，本发明采用的技术方案是：

一种基于NLP的实时网络热点内容分析方法，利用搜索引擎对关键词进行搜索，获取到网络文本数据，即文本语料库，通过分词模型对文本数据预处理，采用一种计算话题热度值的计算方法对话题的文本数据进行热度评估，并利用关键词提取技术，可以得到与该话题相关的文本内容，其特征在于，包括以下步骤：

步骤S1，通过爬取或者下载网站的公开语料库，获得网络文本数据，对获取的网络文本数据进行预处理，主要是对网络文本数据进行分词和去停用词，分词是将一个文字序列切分成一个个词或短语，分词后就需要通过标注模型来标注这些词语的词性，并使用停用词列表过滤网络文本数据中出现频率很高，但无实际意义的词，获得预处理数据；

步骤S2，利用话题热度计算方法对话题热度指数进行计算，主要依据话题的转发量、评论量和点赞量进行考量，根据话题的发布时间可以记录每天的热度指数，并以图例的方式进行可视化展示；

步骤S3，利用步骤S1的预处理数据，基于TF-IDF算法进行关键词抽取，使用Jieba实现TF-IDF算法会返回几个TF/IDF权重最大的关键词和权重值，然后利用步骤S2的话题热度计算方法计算与话题相关的关键词的热度值，根据所需选择与话题相关的关键词的数量，并计算其热度值，利用词云图图例对分析的数据进行可视化展示，可观测网络热点内容的变化。

所述步骤S1包括以下步骤：

步骤S11，利用TF-IDF算法对网络文本数据进行中文分词，根据词频和逆文档频率相乘，得到一个词的TF-IDF值，当某个词在文本中的TF-IDF越大，说明这个词的在文本中的重要性越高；

步骤S12，利用词性标注模型标注这些词语的词性，即确定它们在这句话中是名词还是代词或其它语气词，词性标注采用基于统计最大概率输出词性的方法；

步骤S13，网络文本数据已分成单个词语，对于没有实用价值的语气助词、虚词、感叹词进行去停用词操作。

所述步骤S11包括以下步骤：

1)计算词频TF：

2)计算逆文档频率：

3)计算TF-IDF：

TF-IDF＝词频TF×逆文档频率IDF。

所述步骤S12中，通过HMM隐马尔科夫模型标注词性，观测序列为分词后的语句，隐藏序列为经过标注后的词性标注序列；初始概率、发射概率和转移概率和分词中的含义大同小异，可以通过大规模语料统计得到，观测序列到隐藏序列的计算通过viterbi算法，利用统计得到的初始概率、发射概率和转移概率来得到，得到隐藏序列后，就完成了词性标注过程。

所述步骤S13中，去停用词就是过滤掉一些无实际意义的词，将从如下三个方面进行去停用词：

1)依据词性判断，将副词、语气词、连词、语气词、感叹词去除；

2)依据词的长度判断，将长度为1的词去除；

3)依据停用词表判断，停用词表中收录了2000多个无用词，可将停用词表中含有的词进行去除。

所述步骤S2中，对话题文本热度进行计算，具体过程如下：

S_heat＝100+25*N_retweet+8*N_comment+3*N_like (1)

其中S_heat表示某话题的热度值；100表示某话题的基础热度值；N_retweet表示某话题的转发量；N_comment表示某话题的评论量；N_like表示某话题的点赞量；25、8、3分别代表转发量、评论量、点赞量所占权重。

所述步骤S3中，关键词抽取，选择TF-IDF算法，得到关键词集合，然后计算每个关键词权重，按照权重从高到低排序，TF-IDF权重公式中，TF_ij表示一个词t_i在文本d_j中出现的频率，计算公式如下所示：

IDF是逆向文件频率，IDF_i由总文件数目除以包含该词语的文件数目，再将得到的商取对数得到，计算公式如下所示：

根据以上，TF-IDF权重计算公式如下所示：

TFIDF_i,j＝TF_ij*IDF_i (4)

其中，n_ij表示词t_i在文本d_j出现的次数；∑_kn_kj表示文本d_j中所有词出现的总次数；|D|表示语料库中的文件总数；|{j:t_i∈d_j}|表示包含词语t_i的文件数目，即n_ij≠0的文件数目，如果该词语不在语料库中，就会导致分母为0，因此一般情况下使用1+|{j:t_i∈d_j}|。

根据TF-IDF算法可以得到网络文本数据中所有文本的分词集合及其权重，依据步骤S2的热度计算方法，可以计算该文本内容的热度值，从而遍历分词集合，计算出该文本中每个分词的热度值，并对计算结果进行从大到小排序，可以选出前n个分词进行结果分析和展示，每个分词热度计算过程如下：

P_heat＝w_i*S_heat (5)

P_heat表示分词集合中每个分词的热度值；w_i表示分词集合中第i个分词的权重；S_heat表示进行文本分词前文本的整体热度值。

通过计算分词集合中每个分词的热度之后，得到与话题相关的词语及其热度值，通过echarts中词云图图例形式进行可视化展示，可直观地观测网络热点信息的变化情况。

本发明的有益效果是：

本发明提供一种基于NLP的实时网络热点内容分析方法及其系统，针对在网络热点信息分析中对网络文本数据预处理中的特征词进行选择、热点话题发现和热度评估等问题进行解决，通过利用TF-IDF方法实现特征词选择，并利用话题热度计算方法计算话题热度，从而对网络热点数据文本进行分析提取关键信息。

本发明可以对网络热点信息数据进行保存、处理、分析，利用文本数据预处理方法对文本数据进行中文分词、词性标注、去停用词，并对话题热度采用话题热度计算方法进行计算，对属于热点话题下的文本进行深度分析从而提取关键词，再进行可视化展示，可直观地观测话题热度的变化情况。

附图说明

图1为本发明网络热点信息分析的流程图。

图2为文本数据预处理流程图。

具体实施方式

下面结合附图对本发明的作进一步的详细说明，但是本发明不局限于以下实施例。

如图1所示为本发明的网络热点信息分析的工作图，一种基于NLP的实时网络热点内容分析方法及其系统，主要是对网络热点数据的预处理，预处理阶段经过中文分词、词性标注和去停用词操作；接着是对话题进行热度评估，通过使用话题热度计算方法计算话题热度，然后使用TF-IDF算法进行关键词提取，保存在分词集合中，从而利用热度计算方法计算集合中每个关键词的热度值，把分析好的数据进行保存和展示。

如图2所示为本发明的网络文本数据预处理流程图，利用结巴分词中的中文分词、词性标注和去停用词和存储特征词功能，对文本数据进行预处理操作。

参照图1、图2，一种基于NLP的实时网络热点内容分析方法及其系统，利用搜索引擎对关键词进行搜索，获取到网络数据内容(文本语料库)，通过分词模型对文本进行数据预处理，采用一种计算话题热度值的计算方法对话题的文本数据进行热度评估，并利用关键词提取技术，可以得到与该话题相关的文本内容，具体包括以下步骤：

步骤S1，网络文本数据来源主要是通过爬取或者下载网站的公开语料库，对获取的网络文本数据进行数据的预处理操作。主要是对文本进行分词和去停用词，分词是将一个文字序列切分成一个个词或短语，分词后就需要通过标注模型来标注这些词语的词性，并使用停用词列表过滤一些文本中出现频率很高，但实际意义又不大的词；

步骤S2，利用话题热度计算方法对话题热度进行计算，主要依据话题的转发量、评论量和点赞量进行考量，根据话题的发布时间可以记录每天的热度指数，并以图例的方式进行可视化展示；

步骤S3，利用步骤S1的预处理数据，基于TF-IDF算法进行关键词抽取，TF-IDF是一种用于信息检索与文本挖掘的常用加权技术，使用Jieba实现TF-IDF算法会返回几个TF/IDF权重最大的关键词和权重值，然后利用步骤S2的热度计算方法，来计算与话题相关的关键词的热度值。可以根据自己所需选择与话题相关的关键词的数量，并计算其热度值，利用词云图等图例对分析的数据进行可视化展示，从而细致地观测网络热点内容变化。

所述步骤S1包括以下步骤：

步骤S11，利用TF-IDF算法进行中文分词，根据词频和逆文档频率相乘，来得到一个词的TF-IDF值，当某个词在文本中的TF-IDF越大，说明这个词的在文本中的重要性越高；

步骤S12，经过步骤S11后，就需要利用词性标注模型，来标注这些词语的词性，即确定它们在这句话中是名词还是代词等，词性标注主要可以分为基于规则和基于统计的方法，本发明采用基于统计最大概率输出词性方法；

步骤S13，经过步骤S12后，文本数据已分成一个一个词语，对于一些没有实用价值的语气助词、虚词、感叹词，例如：“了”，“吗”等进行去停用词操作。

所述步骤S11又包括三个步骤，可参考上文中IF-IDF算法中1)计算词频(TF)、2)计算逆文档频率(IDF)、3)计算TF-IDF过程。

所示步骤S12中，通过HMM隐马尔科夫模型来进行词性标注。观测序列即为分词后的语句，隐藏序列即为经过标注后的词性标注序列。初始概率、发射概率和转移概率和分词中的含义大同小异，可以通过大规模语料统计得到。观测序列到隐藏序列的计算可以通过viterbi算法，利用统计得到的初始概率、发射概率和转移概率来得到。得到隐藏序列后，就完成了词性标注过程。

所述步骤S13中，停用词在一定程度上相当于过滤词，去停用词就是过滤掉一些无实际意义的词，但过滤词的范围更大，将从如下三个方面进行去停用词：

2)依据词的长度判断，将长度为1的词去除；

3)依据停用词表判断，停用词表中收录了2000多个无用词，可以将停用此表中含有的词进行去除。

所述步骤S2中，需要对话题文本热度进行计算，主要是采用本发明的话题热度计算方法，具体信息可参考算式(1)的计算过程说明。

所述步骤S3中，需进行关键词抽取，本发明选择TF-IDF算法，得到关键词集合，然后计算每个关键词权重，按照权重从高到低排序。TF-IDF权重公式中，TF_ij表示一个词t_i在文本d_j中出现的频率，计算方法可参考算式(2)～(4)。

根据TF-IDF算法可以得到网络文本数据中所有文本的分词集合及其权重，依据步骤S2的热度计算方法，可以计算该文本内容的热度值，从而遍历分词集合，计算出该文本中每个分词的热度值，并对计算结果进行从大到小排序，可以选出前n个分词进行结果分析和展示，每个分词热度计算过程可参考算式(5)。

经过计算分词集合中每个分词的热度之后，可以得到与话题相关的词语及其热度值，通过echarts中词云图等图例形式进行可视化展示，从而直观地观测网络热点信息的变化情况。

Claims

1.一种基于NLP的实时网络热点内容分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于NLP的实时网络热点内容分析方法及其系统，其特征在于，所述步骤S1包括以下步骤：

步骤S12，利用词性标注模型标注这些词语的词性，词性标注采用基于统计最大概率输出词性的方法；

3.根据权利要求2所述的一种基于NLP的实时网络热点内容分析方法，其特征在于，所述步骤S11包括以下步骤：

1)计算词频TF：

2)计算逆文档频率：

3)计算TF-IDF：

TF-IDF＝词频TF×逆文档频率IDF。

4.根据权利要求2所述的一种基于NLP的实时网络热点内容分析方法，其特征在于，所述步骤S12中，通过HMM隐马尔科夫模型标注词性，观测序列为分词后的语句，隐藏序列为经过标注后的词性标注序列；初始概率、发射概率和转移概率和分词中的含义大同小异，可以通过大规模语料统计得到，观测序列到隐藏序列的计算通过viterbi算法，利用统计得到的初始概率、发射概率和转移概率来得到，得到隐藏序列后，就完成了词性标注过程。

5.根据权利要求2所述的一种基于NLP的实时网络热点内容分析方法，其特征在于，所述步骤S13中，将从如下三个方面进行去停用词：

2)依据词的长度判断，将长度为1的词去除；

6.根据权利要求1所述的一种基于NLP的实时网络热点内容分析方法，其特征在于，所述步骤S2中，对话题文本热度进行计算，具体过程如下：

S_heat＝100+25*N_retweet+8*N_comment+3*N_like (1)

7.根据权利要求1所述的一种基于NLP的实时网络热点内容分析方法，其特征在于，所述步骤S3中，关键词抽取，选择TF-IDF算法，得到关键词集合，然后计算每个关键词权重，按照权重从高到低排序，TF-IDF权重公式中，TF_ij表示一个词t_i在文本d_j中出现的频率，计算公式如下所示：

根据以上，TF-IDF权重计算公式如下所示：

TFIDF_i,j＝TF_ij*IDF_i (4)

8.根据权利要求7所述的一种基于NLP的实时网络热点内容分析方法，其特征在于，根据TD-IDF算法可以得到网络文本数据中所有文本的分词集合及其权重，依据步骤S2的热度计算方法，可以计算该文本内容的热度值，从而遍历分词集合，计算出该文本中每个分词的热度值，并对计算结果进行从大到小排序，可以选出前n个分词进行结果分析和展示，每个分词热度计算过程如下：

P_heat＝w_i*S_heat (5)

9.根据权利要求8所述的一种基于NLP的实时网络热点内容分析方法，其特征在于，通过计算分词集合中每个分词的热度之后，得到与话题相关的词语及其热度值，通过echarts中词云图图例形式进行可视化展示，可直观地观测网络热点信息的变化情况。