CN107045524B

CN107045524B - 一种网络文本舆情分类的方法及系统

Info

Publication number: CN107045524B
Application number: CN201611260608.3A
Authority: CN
Inventors: 胥桂仙
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2019-12-27
Anticipated expiration: 2036-12-30
Also published as: CN107045524A

Abstract

本发明涉及一种网络文本舆情分类的方法及系统，该方法包括以下步骤：构建敏感词词表；将敏感词词表分类成多个敏感类别，每个敏感类别包含多个关键词；通过第一相似度算法将多个关键词与网络文本进行匹配，根据匹配结果对网络文本进行舆情分类。该系统包括：处理模块和匹配模块。本发明通过对文本处理获取阶段时间内人们关注的热点信息；利用敏感词词库对网络文本实现了自动化分类工作，适用于网络舆情监测、敏感信息过滤、重大新闻事件追踪等应用，可以为决策层全面掌握舆情动态提供分析依据，提供服务并助于相关信息技术工作。

Description

一种网络文本舆情分类的方法及系统

技术领域

本发明涉及语言类信息处理领域，具体涉及一种网络文本舆情分类的方法及系统。

背景技术

网络舆情是指网民通过互联网对政府管理和社会生活中的种种现象，问题表达政治信念，态度，意见和情绪的总和，跟现实中的舆论相比较，网络舆情传播更快，范围更大等特点。如何提取有效的藏文信息以及开展藏文舆情分析工作，是非常值得研究的课题。

了解社会动态和发展趋势，更快更全面的抓住舆情动向，从而进行正确的引导舆论和宣传。对藏文网络舆情的分析，可以得到舆情信息的时间和空间分布，通过对热点深层次的追踪，可以了解到舆情的源头以及动向，对政府部门应对网络突发的公共事件具有推动作用。

本发明提供的一种网络文本舆情分类的方法及系统，在关于舆情处理技术部分，首先采集了敏感词库，通过敏感词库可以对网络文本进行舆情词追踪。对舆情词库进行类别分类后，利用这个词库对网络文本进行舆情分类，通过对藏文舆情词追踪以及舆情相关技术处理结果有较高的准确率。

本发明将有助于藏文文本相关信息技术工作。通过舆情词作为文本处理的特征来获取阶段时间内人们关注的热点信息。利用舆情词库对网络文本实现了自动化分类工作，适用于网络舆情监测、敏感信息过滤、重大新闻事件追踪等应用，可以为决策层全面掌握舆情动态提供分析依据，为相关部门提供服务。

发明内容

本发明的目的是解决现阶段藏文文本相关信息技术工作中的缺点，本发明通过舆情词作为文本处理的特征来获取阶段时间内人们关注的热点信息。利用舆情词库对网络文本实现了自动化分类工作，适用于网络舆情监测、敏感信息过滤、重大新闻事件追踪等应用，可以为决策层全面掌握舆情动态提供分析依据，为相关部门提供服务。

为实现上述目的，一方面，本发明提供了一种网络文本舆情分类的方法，该方法包括以下步骤：构建敏感词词表；将敏感词词表分类成至少一个敏感类别，每个敏感类别包含至少一个关键词；将至少一个关键词与网络文本进行匹配，获得匹配结果，根据第一相似度算法及匹配结果对网络文本进行舆情分类。

优选地，根据网络词汇构建敏感词词表的步骤之后还包括以下步骤：对网络文本进行分词和去停用词处理，获得第一网络文本；根据敏感词词表获得第一网络文本中的敏感词；根据词权重计算算法确定敏感词中的热度敏感词；对热度敏感词和第一网络文本进行第二相似度算法计算，并根据计算结果对第一网络文本进行舆情分类。

词权重计算算法包括以下步骤：对敏感词词表中的词汇所在的文本进行去分词和去停用词处理，将文本进行文本向量化处理获得待计算权重的词汇；设置Temp表，通过权重计算公式获得多个待计算权重的词汇的权重值，将待计算权重的词汇的权重值所对应的敏感词储存于所述Temp表中，敏感词词表与网络文本集进行匹配，匹配出的词存储Temp表中。

权重计算公式如下所示：

weight(t_i)＝Title_(t_i)*(1+a)+Content_tf(t_i)

其中，t_i表示Temp表中的每个词，weight(t_i)表示Temp表中的每个词的权重，Title_(t_i)表示Temp表中的每个词在文本标题中出现的次数，Content_tf(t_i)表示Temp表中的每个词在文本正文中出现的次数，a为预设值(a为正整数)。

此外，第一相似度算法的公式如下所示：

Sim[D_i，C_j]＝(0.7*n+0.3*m)/|C_j|

D_i表示第一网络文本，C_j表示敏感类别，n表示词频总数，m表示匹配词数。

另一方面，本发明提供了一种网络文本舆情分类的系统，该系统包括：处理模块和匹配模块。

处理模块，用于构建敏感词词表；将敏感词词表分类成至少一个敏感类别，每个敏感类别包含至少一个关键词。

匹配模块，将至少一个关键词与网络文本进行匹配，获得匹配结果，根据第一相似度算法及匹配结果对网络文本进行舆情分类。

优选地，处理模块具体用于，对网络文本进行分词和去停用词处理，获得第一网络文本；根据敏感词词表获得第一网络文本中的敏感词；根据词权重计算算法确定敏感词中的热度敏感词；对热度敏感词和第一网络文本进行第二相似度算法计算，并根据计算结果对第一网络文本进行舆情分类。

其中，词权重计算算法包括以下步骤：对敏感词词表中的词汇所在的文本进行去分词和去停用词处理，将文本进行文本向量化处理获得待计算权重的词汇；设置Temp表，通过权重计算公式获得多个待计算权重的词汇的权重值，将待计算权重的词汇的权重值所对应的敏感词储存于所述Temp表中，敏感词词表与网络文本集进行匹配，匹配出的词存储Temp表中。

权重计算公式如下所示：

weight(t_i)＝Title_(t_i)*(1+a)+Content_tf(t_i)

t_i表示Temp表中的每个词，weight(t_i)表示Temp表中的每个词的权重，Title_(t_i)表示Temp表中的每个词在文本标题中出现的次数，Content_tf(t_i)表示Temp表中的每个词在文本正文中出现的次数，a为预设值(a为正整数)。

此外，匹配模块具体用于，第一相似度算法的公式如下所示：

Sim[D_i，C_j]＝(0.7*n+0.3*m)/|C_j|

其中，D_i表示第一网络文本，C_j表示敏感类别，n表示D_i和C_j匹配出的词频总数，m表示Di和C_j匹配出的敏感词次数，|C_j|表示C_j类词的个数。

本发明通过敏感词作为文本处理的特征来获取阶段时间内人们关注的热点信息。利用敏感词库对网络文本实现了自动化分类工作，适用于网络舆情监测、敏感信息过滤、重大新闻事件追踪等应用，可以为决策层全面掌握舆情动态提供分析依据，为相关部门提供服务并助于藏文文本相关信息技术工作。

附图说明

图1为本发明实施例提供的一种网络文本舆情分类的方法流程图；

图2为本发明实施例提供的另一种网络文本舆情分类的方法流程图；

图3为本发明实施例提供的一种词权重计算算法流程图；

图4为本发明实施例提供的一种舆情分类主界面示意图；

图5为本发明实施例提供的一种网络文本舆情分类的系统结构示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

图1为本发明实施例提供的一种网络文本舆情分类的方法流程图。如图1所示，该方法包括步骤S101-S103：

步骤S101，构建敏感词词表。

具体地，根据人工筛选书籍或在网络上获取敏感词并翻译为需要的语言类型，本发明实施例提供的语言类型为藏语。

例如，通过人工筛选，获取与恐怖、暴力、宗教、社会安全等方面的网络词汇2000词，并构建敏感词词表的示例如表1所示：

1、炸弹

2、海洛因

3、冰毒

4、大麻

5、险情

6、恐怖袭击

7、伪装

8、人质

9、对手

10、敌手

11、战术

12、死亡人数

13、暴动

14、抢劫

15、军营

16、武力

17、侵犯

18、武器核查

19、驱逐

20、俘虏

表1 敏感词词表

步骤S102，将敏感词词表分类成至少一个敏感类别，每个敏感类别包含至少一个关键词。

步骤S103，将至少一个关键词与网络文本进行匹配，获得匹配结果，根据第一相似度算法及匹配结果对网络文本进行舆情分类。

具体地，第一相似度算法的公式如下所示：

Sim[D_i，C_j]＝(0.7*n+0.3*m)/|C_j|

例如，我们将采集到的热度敏感词分类成十五个敏感类别，分别是：法律执法，反腐倡廉，公共卫生事件，教育改革，垄断企业，部门职能改革，扫黄打非，社会安全，社会思潮，事故灾难，网络建设发展，文化之争，阅读文化，医疗与健康，舆论监督，自然灾害。每个敏感类别下都有至少一个关键词，通过这些关键词与网络文本进行匹配，并通过相似度算法进行网络文本类别判定，并对网络文本赋予标签。

对网络文本舆情分类的算法如下：

在第一相似度公式Sim[Di，C_j]＝(0.7*n+0.3*m)/|C_j|中，分别考虑到了文章Di在某敏感类别C_j中词频总数n和词数m对相似度的影响，其中词频总数n对相似度的影响占0.7的比重，词数m对相似度的影响占0.3的比重。对于第一相似度Sim[D_i，C_x]＝(0.7*nx+0.3*mx)/|C_j|和Sim[D_i，C_y]＝(0.7*ny+0.3*my)/|C_j|，当|C_x|＝|C_y|，mx＝my时，如果nx>ny，则Sim[D_i，C_x]>Sim[D_i，C_y]，说明文章中含某类热度舆情词词频总数大，那么判别文章属于该类的概率就大。当|C_x|＝|C_y|，nx＝ny时，如果mx>my，则Sim[D_i，C_x]>Sim[D_i，C_y]，说明文章中含某类热度舆情词词数多，那么判别文章属于该类的概率就大。当mx＝my、nx＝ny时，如果|C_x|＜|C_y|，则Sim[D_i，C_x]>Sim[D_i，C_y]，说明某类舆情词词表中词数少，文章属于该类的概率大,其中，C_x表示第x个敏感类别，C_y表示敏感词第y类。

此外，根据网络词汇构建敏感词词表的步骤之后还包括步骤S201-S204：

步骤S201，对网络文本进行分词和去停用词处理，获得第一网络文本。

步骤S202，根据敏感词词表获得第一网络文本中的敏感词。

步骤S203，根据词权重计算算法确定敏感词中的热度敏感词。

步骤S204，对热度敏感词和第一网络文本进行第二相似度算法计算，并根据计算结果对第一网络文本进行舆情分类。

其中，词权重计算算法包括以下步骤：对敏感词词表中的词汇所在的文本进行去分词和去停用词处理，将文本进行文本向量化处理获得待计算权重的词汇；设置temp表，通过权重计算公式获得多个待计算权重的词汇的权重值，将待计算权重的词汇的权重值所对应的敏感词储存于所述temp表中。

权重计算公式如下所示：

weight(t_i)＝Title_(t_i)*(1+a)+Content_tf(t_i)

例如，将预处理后的藏文网络文本进行分词和去除停用词，将敏感词词表与预处理后的藏文网络文本进行数据比对分析，统计出敏感词某时间段内在藏文网络文本中出现的频率，并记录敏感词在各文章中出现的频次，计算敏感词的权重。

可以统计某时间段(如某天或者某一周内)出现的敏感词的权重排行，输出权重高即热度敏感词，为舆情处理工作提供一个直观的监测。

例如，敏感词追踪以天为单位进行，根据表1所示的敏感词词表，对表2所示的各网站发布的新闻进行敏感词比对，其中，表2和表3分别给出2016年9月9日和9月10日的提取的敏感词信息，表2和表3如下所示：

表2 9月9日提取的敏感词

表3 9月10日提取的敏感词

此外，敏感词追踪的算法如下：

输入：网页预处理后的某时间段内s篇藏文新闻文本，敏感词表T。

输出：m个高热度的敏感词

Begin

将s篇新闻文本进行分词和去停用词(S为正整数)，随后对每篇文本Di进行文本向量化，将Di的标题title中的词汇转为向量V_title(Di)＝(a,b,c,d,..),将Di的正文中的词汇转为向量V_content(Di)＝(a,b,c,d,..)，向量中a,b,c,d,..的表示文本中的词汇。

其中，公式weight(t_i)＝Title_(t_i)*(1+a)+Content_tf(t_i)中，t_i表示Temp表中的每个词，weight(t_i)表示Temp词表中的每个词的权重，Title_(t_i)表示Temp表中的每个词在文本标题中出现的次数，Content_tf(t_i)表示Temp表中的每个词在文本正文中出现的次数，a为预设值(a为正整数)。

将获得的m个最高热度的敏感词命名为热度敏感词，将m个热度敏感词与某篇网络文本d_x进行热度匹配获得b个热度敏感词，根据b个热度敏感词对d_x进行二次分类。b个热度敏感词可能属于不同类别，如果b个热度敏感词某类热度敏感词权重之和最高，就将某篇网络文本d_x赋予该类标签。如果某2类中的热度敏感词的权重和最高并且相同，则将含有热度敏感词个数多的类别标签赋予该网络文本d_x。

除了正文和标题中的词汇，每个新闻文本还有一些标签，例如作者，发表时间等，在敏感词追踪的过程中，除文本集中的敏感词信息外，还可生成敏感词在各新闻文本中出现的频率，文章名，来源网站，总频率等，通过这些标签可以有效的将敏感追踪到文章，相关网站等重要内容。

图3为本发明实施例提供的一种词权重计算算法流程图。如图3所示，词权重计算算法包括步骤S301-S302：

步骤S201：对敏感词词表中的词汇所在的文本进行去分词和去停用词处理，将文本进行文本向量化处理获得待计算权重的词汇。

步骤S202：设置Temp表，通过权重计算公式获得多个待计算权重的词汇的权重值，将待计算权重的词汇的权重值所对应的敏感词储存于所述Temp表中。

其中，权重计算公式如下所示：

weight(t_i)＝Title_(t_i)*(1+a)+Content_tf(t_i)

t_i表示Temp表中的每个词，weight(t_i)表示Temp表中的每个词的权重，Title_(t_i)表示Temp表中的每个词在文本标题中出现的次数，Content_tf(t_i)表示Temp表中的每个词在文本正文中出现的次数，a为预设值(a为正整数)，敏感词词表与网络文本集进行匹配，匹配出的词存储Temp表中。

图4为本发明实施例提供的一种舆情分类主界面示意图。如图4所示，舆情分类基于敏感词词表，将预处理后的XML文件以天为单位进行自动分类。舆情分类工具软件如图4所示，分类软件将每一天所有文件的类别写入txt文件保存。

由于敏感词表规模所致，有一些文件不能与敏感词词表匹配，我们将其标记为“未分类”，舆情分类的准确率依靠敏感词词表，舆情分类的结果通过对比是可观的，可以大大减少人工监测分类的财力物力消耗，为藏文舆情相关处理工作提供了分析依据。

图5为本发明实施例提供的一种网络文本舆情分类的系统结构示意图。如图5所示，该系统包括：处理模块501和匹配模块502。

处理模块501，用于构建敏感词词表；将敏感词词表分类成至少一个敏感类别，每个敏感类别包含至少一个关键词。

匹配模块502，将至少一个关键词与网络文本进行匹配，获得匹配结果，根据第一相似度算法及匹配结果对网络文本进行舆情分类。

具体地，处理模块具体用于，对网络文本进行分词和去停用词处理，获得第一网络文本；根据敏感词词表获得第一网络文本中的敏感词；根据词权重计算算法确定敏感词中的热度敏感词；对热度敏感词和第一网络文本进行第二相似度算法计算，并根据计算结果对第一网络文本进行舆情分类。

此外，权重计算公式如下所示：

weight(t_i)＝Title_(t_i)*(1+a)+Content_tf(t_i)

匹配模块403，用于通过第一相似度算法将所述多个关键词与网络文本进行匹配，根据匹配结果对所述网络文本进行舆情分类。

其中，匹配模块具体用于，第一相似度算法的公式如下所示：

Sim[D_i，C_j]＝(0.7*n+0.3*m)/|C_j|

其中，D_i表示第一网络文本，C_j表示敏感类别，n表示D_i和C_j匹配出的词频总数，m表示D_i和C_j匹配出的敏感词次数，|C_j|表示C_j类词的个数。

本发明通过敏感词作为文本处理的特征来获取阶段时间内人们关注的热点信息。利用敏感词词库对网络文本实现了自动化分类工作，适用于网络舆情监测、敏感信息过滤、重大新闻事件追踪等应用，可以为决策层全面掌握舆情动态提供分析依据，为相关部门提供服务并助于藏文文本相关信息技术工作。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络文本舆情分类的方法，其特征在于，包括以下步骤：

构建敏感词词表；

对所述网络文本进行分词和去停用词处理，获得第一网络文本；根据所述敏感词词表获得所述第一网络文本中的敏感词；根据词权重计算算法确定所述敏感词中的热度敏感词；对所述热度敏感词和所述第一网络文本进行第二相似度算法计算，并根据计算结果对所述第一网络文本进行舆情分类；

将所述敏感词词表分类成至少一个敏感类别，每个敏感类别包含至少一个关键词；

将所述至少一个关键词与网络文本进行匹配，获得匹配结果，根据第一相似度算法及匹配结果对所述网络文本进行舆情分类；其中，

所述第一相似度算法的公式如下所示：

Sim[D_i，C_j]＝(0.7*n+0.3*m)/|C_j|

2.根据权利要求1所述的方法，其特征在于，所述词权重计算算法包括以下步骤：

对所述敏感词词表中的词汇所在的文本进行去分词和去停用词处理，将所述文本进行文本向量化处理获得待计算权重的词汇；

设置Temp表，通过权重计算公式获得多个所述待计算权重的词汇的权重值，将所述待计算权重的词汇的权重值所对应的敏感词储存于所述Temp表中，所述敏感词词表与网络文本进行匹配，匹配出的词存储所述Temp表中。

3.根据权利要求2所述的方法，其特征在于，所述权重计算公式如下所示：

weight(t_i)＝Title_(t_i)*(1+a)+Content_tf(t_i)

其中，t_i表示Temp表中的每个词，weight(t_i)表示Temp表中的每个词的权重，Title_(t_i)表示Temp表中的每个词在文本标题中出现的次数，Content_tf(t_i)表示Temp表中的每个词在文本正文中出现的次数，a为预设值，a为正整数。

4.一种网络文本舆情分类的系统，其特征在于，包括：

处理模块，用于构建敏感词词表；对所述网络文本进行分词和去停用词处理，获得第一网络文本；根据所述敏感词词表获得所述第一网络文本中的敏感词；根据词权重计算算法确定所述敏感词中的热度敏感词；对所述热度敏感词和所述第一网络文本进行第二相似度算法计算，并根据计算结果对所述第一网络文本进行舆情分类；将所述敏感词词表分类成至少一个敏感类别，每个敏感类别包含至少一个关键词；

匹配模块，将所述至少一个关键词与网络文本进行匹配，获得匹配结果，根据第一相似度算法及匹配结果对所述网络文本进行舆情分类；其中，所述匹配模块具体用于，所述第一相似度算法的公式如下所示：

Sim[D_i，C_j]＝(0.7*n+0.3*m)/|C_j|

其中，D_i表示第一网络文本，C_j表示敏感类别，n表示词频总数，m表示匹配词数。

5.根据权利要求4所述的系统，其特征在于，所述词权重计算算法包括以下步骤：

6.根据权利要求5所述的系统，其特征在于，所述权重计算公式如下所示：

weight(t_i)＝Title_(t_i)*(1+a)+Content_tf(t_i)