CN111078888A

CN111078888A - 一种自动分类社交网络用户评论数据的方法

Info

Publication number: CN111078888A
Application number: CN201911329160.XA
Authority: CN
Inventors: 郑文锋; 杨波; 王爽; 刘珊; 曾庆川
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-04-28
Anticipated expiration: 2039-12-20
Also published as: CN111078888B

Abstract

本发明公开了一种自动分类社交网络用户评论数据的方法，通过在网络社交平台中采集评论数据，进行预处理后生成一个包含关键词的文本特征词项集合；再将包含关键词的文本特征词项集合与预先生成的类别特征关键词之间建立映射，判断文本特征词项集合中的词项是否出现在所属类中类别特征关键词库中，从而计算出文本特征词项集合中每一个词项与所属类别特征关键词库的特征值，然后生成特征向量，利用预先训练得到的分类模型进行分类，从而完成该评论数据的自动分类；具有实时性、分类效果好，且包含了更多的有效信息。

Description

一种自动分类社交网络用户评论数据的方法

技术领域

本发明属于自然语言处理技术领域，更为具体地讲，涉及一种自动分类社交网络用户评论数据的方法。

背景技术

随着计算机尤其是智能手机在我国的普遍发展，互联网已经成为绝大多数人们获取各种信息的主要途径。知乎、微博作为其中一种信息类互联网产品，提供了一种供用户使用、参与的网络社交平台。人们可以在网络社交平台中获取各类信息，并通过关注、评论、点赞等不同方式参与。随着多年的发展，知乎、微博已经多次证明它具有将社会、娱乐、新闻类等信息快速发酵、快速传播、然后达到大众普遍关注的一种能力。而其中，用户往往会通过评论的方式在网络社交事件参与中发表个人看法或言论，其用户评论往往具有很大的研究和参考价值。

对文本数据进行自动化分类是文本数据挖掘、自然语言处理等人工智能技术的重要应用领域，其主要功能是把以数字化形式存储的非结构化文本数据，通过自然语言处理技术、文本数据挖掘技术，自动按照事先组织好的与具体业务相关的类别进行分类。随着信息时代技术的不断发展，对文本数据进行自动化分类是提高企业生产效率和竞争优势的一种重要技术措施。

由于用户在关注网络社交事件过程中，往往会产生个人倾向性情感，在参与中发表的评论数据亦带有这种具备自我倾向性的情感。比如：对某个发生的争议事件的看法，或者是对某部影片的影评、对某款手机的用户体验等。对这些用户的评论数据进行分析，能够识别出现或者隐含在其中的情感信息，并发现大多数用户对该网络社交事件的一种舆情信息。基于此现象，对用户评论数据的分类也可以是对评论数据带有的情感进行分类。情感文本是主观性文本，它是与主要陈述事实的客观性文本相对应的对于实体、事件的一种主观性表达意见或者评论文本。情感文本自动化分类是对文本数据中的情感进行多层级分类，挖掘文本数据潜在的情感表达含义，进而可以发掘用户的兴趣和需求，对事件舆情的掌握、相关产品的丰富都有很重要的意义。具体讲，由于知乎、微博上充斥了各类并且大量的实时性的新闻信息，人们在使用知乎或者微博产品时，若想要看到其他人对某一网络社交事件的评价或反响时，由于当前缺乏这种有效解决对网络社交平台中的用户评论数据实行自动化分类分析的方法和系统，并在传统新闻媒体参与之前，用户只能通过不停的刷新其他用户评论来达到想要的目的。这种纯靠人力达到目的的方式既浪费用户时间也并不能保证取得良好的效果。

目前缺少实际有效的解决网络社交平台中对中文评论数据进行自动分类分析的方法和系统，因此找到一种针对中文的基于自动文本分类技术的网络社交事件用户评论数据自动分类分析方法与系统，在最大程度上减轻数据处理人员的工作量并提高产品服务质量就是一个显得迫切的任务。

发明内容

本发明的目的在于克服现有技术的不足，提供一种自动分类社交网络用户评论数据的方法，通过对网络社交事件用户评论数据自动分类，便能方便用户快速浏览设计网络，增强用户的体验，同时也能方便平台更好的了解大众看法。

为实现上述发明目的，本发明一种自动分类社交网络用户评论数据的方法，其特征在于，包括以下步骤：

(1)、设置分类类别

设置朴素贝叶斯分类模型的分类类别数为N；

(2)、数据采集

采集社交网络中某一事件主题下所有用户的评论数据；

(3)、数据预处理

将评论数据中的表情符号替换为汉文字符，并标注为类别特征关键词及所属类别；去除评论数据中不能识别的图片，以及特殊符号和非中文字符；对评论数据进行分词操作，再删除停用词和功能词；

每一条评论数据预处理完成后，生成对应的文本词项集合；

(4)、构建类别特征关键词库

(4.1)、在每一个文本词项集合中，计算每个类别特征关键词与每一个普通词项之间的互信息值；

(4.2)、将所有互信息值进行降序排列，再选出排名靠前的前M个词项，并标注为类别特征关键词及所属类别；

(4.3)、将同一类别的类别特征关键词存放在同一类别特征关键词库中，从而构建出N个类别特征关键词库；

(5)、计算特征值并构建特征向量

(5.1)、统计每个文本词项集合中的每个词项在每个类别特征关键词库中出现的次数；

(5.2)、将每个类别特征关键词库中均未出现的词项的特征值设置为0；

(5.3)、对于类别特征关键词库中出现的词项，利用如下公式计算该词项的特征值；

其中，

表示第i个文本词项集合中第τ个类别特征关键词相对于第j个类别特征关键词库的特征值，M_i表示第i个文本词项集合中词项的总个数，

表示第i个文本词项集合中第τ个类别特征关键词在第j个类别特征关键词库中出现的次数，

表示第i个文本词项集合中第τ个类别特征关键词在第j'个类别特征关键词库中出现的次数，j≠j'，N分类类别数，τ＝1,2,…,m_i，m_i表示第i个文本词项集合中类别特征关键词的个数；

(5.4)、按照步骤(5.3)所述方法，计算出第i个文本词项集合中所有类别特征关键词相对于第j个类别特征关键词库的特征值，然后对所有的特征值求均值，记为

(5.5)、同理，按照步骤(5.3)所述方法，计算出第i个文本词项集合中所有类别特征关键词相对于其余类别特征关键词库的特征值并求均值，最后再从所有的

中选出最大值，记为

(5.6)、将第i个文本词项集合中所有类别特征关键词相对于第k个类别特征关键词库的特征值作为各个类别特征关键词的最终特征值；

(5.7)、对剩余的文本词项集合按照步骤(5.2)～(5.6)所述方法进行处理，从而得到每个文本词项集合中各个类别特征关键词的最终特征值；

(5.8)、构建特征向量

第i个文本词项集合的特征向量形式为：

其中，

分别表示第i个文本词项集合中的类别特征关键词，

表示相对于第k个类别特征关键词库的特征值；

(6)、训练朴素贝叶斯分类模型

将特征向量作为输入数据，输入至朴素贝叶斯分类模型，模型输出为对应特征向量所属类别，通过利用所有的特征向量进行反复训练，使每一次输出的分类结果与对应特征向量所属类别一致时，结束分类模型训练；

(7)、利用朴素贝叶斯分类模型对数据进行分类

将待分类的评论数据按照上述方法处理成特征向量的形式，再将该特征向量输入至朴素贝叶斯分类模型，朴素贝叶斯分类模型则完成该评论数据的自动分类。

本发明的发明目的是这样实现的：

本发明一种自动分类社交网络用户评论数据的方法，通过在网络社交平台中采集评论数据，进行预处理后生成一个包含关键词的文本特征词项集合；再将包含关键词的文本特征词项集合与预先生成的类别特征关键词之间建立映射，判断文本特征词项集合中的词项是否出现在所属类中类别特征关键词库中，从而计算出文本特征词项集合中每一个词项与所属类别特征关键词库的特征值，然后生成特征向量，利用预先训练得到的分类模型进行分类，从而完成该评论数据的自动分类；具有实时性、分类效果好，且包含了更多的有效信息。

附图说明

图1是本发明一种自动分类社交网络用户评论数据的方法流程图；

图2是构建特征向量的具体流程图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种自动分类社交网络用户评论数据的方法流程图。

在本实施例中，适用于微博对一主题事件的舆论情况信息查询，还适用于对于论坛、贴吧、知乎等网络社交事件平台。下面以微博平台中某一网络热点事件的评论为例。如图1所示，本发明一种自动分类社交网络用户评论数据的方法，包括以下步骤：

S1、设置分类类别

设置朴素贝叶斯分类模型的分类类别数为N；

S2、数据采集

采集社交网络中某一事件主题下所有用户的评论数据；在本实施例中，在微博平台上根据当前预设的主题事件，启动一种网络社交事件用户评论数据自动分类分析系统，它首先会自动通过微博的后台系统抓取到微博平台上关于这一主题下所有用户的评论数据。

S3、数据预处理

评论数据中包含有大量对分类没有直接帮助的内容信息，所以需要进行数据处理工作，具体处理为：将评论数据中的表情符号替换为汉文字符，并标注为类别特征关键词及所属类别；去除评论数据中不能识别的图片，以及特殊符号和非中文字符；训练数据文本中依然存在许多功能词，如“并且、而且、还”，“是、在、有”等，这些词使用频率虽高，却不能为文本分类提供判别信息，因此对评论数据进行分词操作，再删除停用词和功能词；

每一条评论数据预处理完成后，生成对应的文本词项集合；

S4、构建类别特征关键词库

S4.1、在每一个文本词项集合中，计算每个类别特征关键词与每一个普通词项之间的互信息值；

S4.2、将所有互信息值进行降序排列，再选出排名靠前的前M个词项，并标注为类别特征关键词及所属类别；

S4.3、将同一类别的类别特征关键词存放在同一类别特征关键词库中，从而构建出N个类别特征关键词库；

S5、如图2所示，计算特征值并构建特征向量

S5.1、统计每个文本词项集合中的每个词项在每个类别特征关键词库中出现的次数；

S5.2、将每个类别特征关键词库中均未出现的词项的特征值设置为0；

S5.3、对于类别特征关键词库中出现的词项，利用如下公式计算该词项的特征值；

其中，

S5.4、按照步骤S5.3所述方法，计算出第i个文本词项集合中所有类别特征关键词相对于第j个类别特征关键词库的特征值，然后对所有的特征值求均值，记为

S5.5、同理，按照步骤S5.3所述方法，计算出第i个文本词项集合中所有类别特征关键词相对于其余类别特征关键词库的特征值并求均值，最后再从所有的

中选出最大值，记为

S5.6、将第i个文本词项集合中所有类别特征关键词相对于第k个类别特征关键词库的特征值作为各个类别特征关键词的最终特征值；

S5.7、对剩余的文本词项集合按照步骤S5.2～S5.6所述方法进行处理，从而得到每个文本词项集合中各个类别特征关键词的最终特征值；

S5.8、构建特征向量

第i个文本词项集合的特征向量形式为：

其中，

分别表示第i个文本词项集合中的类别特征关键词，

表示相对于第k个类别特征关键词库的特征值；

在本实施例中，假设类别数量为3个；

第一个文本词项集合中有三个类别特征关键词为：甲、乙、丙；

甲相对类别1的特征值为：3；

乙相对类别1的特征值为：5；

丙相对类别1的特征值为：7；

所以，第一个文本词项集合相对于类别1的均值为：5；

甲相对类别2的特征值为：3；

乙相对类别2的特征值为：6；

丙相对类别2的特征值为：9；

所以，第一个文本词项集合相对于类别2的均值为：6；

甲相对类别3的特征值为：1；

乙相对类别3的特征值为：2；

丙相对类别3的特征值为：3；

所以，第一个文本词项集合相对于类别3的均值为：2；

最大均值为6，故选择类别2。所以，第一个文本词项集合的特征向量为：[(甲，3),(乙，6)、(丙，9)]；

S6、训练朴素贝叶斯分类模型

S7、利用朴素贝叶斯分类模型对数据进行分类

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。