CN104778240A

CN104778240A - 基于多特征融合的微博文本数据分类方法

Info

Publication number: CN104778240A
Application number: CN201510163263.9A
Authority: CN
Inventors: 卢玲; 杨武; 刘恒洋
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2015-04-08
Filing date: 2015-04-08
Publication date: 2015-07-15
Anticipated expiration: 2035-04-08
Also published as: CN104778240B

Abstract

本发明公开了一种基于多特征融合的微博文本数据分类方法，包括：步骤1，进行用户认证登录，获取微博文本数据信息，根据分类器获取特征信息并计算特征信息权重；步骤2，通过朴素贝叶斯方法对特征信息进行分类，对于分类结果进行权值计算；步骤3，将计算完成的分类结果进行分类融合，直到特征信息分类完毕，将分类完毕的特征信息进行展示操作。使用户获得有用信息的效率提高，从而实现数据的快速抓取，保证数据分类的准确性。

Description

基于多特征融合的微博文本数据分类方法

技术领域

本发明涉及计算机领域，尤其涉及一种基于多特征融合的微博文本数据分类方法。

背景技术

情感分析的目的是从文本中挖掘用户表达的观点以及情感极性。微博是一种新兴的社交网络平台，它具有多样性、实时性、短文本等特点。对中文微博进行情感识别，在网络舆情分析、信息过滤、用户兴趣发掘等领域都具有很好的应用前景。

现有的情感分类技术有机器学习方法及语义方法两类。Pang等人使用机器学习方法进行文本情感分类，比较了朴素贝叶斯、最大熵模型、和支持向量机方法的分类效果。此外以词频、二值和否定词为特征集的研究，在新闻评论中获得了较好的分类性能。语义方法方面，Turney提出了PMI-IR算法，其中短语的平均SO作为文本的情感倾向。朱嫣岚等提出了基于HowNet的语义相似度和语义相关场的计算方法。

目前，虽然国内外学者在情感分类方面已取得了一定的研究成果，但现有研究多是针对领域的评论性文本，对中文微博的情感倾向性分析研究仍然较少。另外，现有的文本情感分析多是识别情感的褒贬极性，较少涉及多情感类别的分析。与传统文本相比，中文微博具有长度短、情感层次丰富、文本表述不规范、存在大量网络新词汇等特点。因此，中文微博情感识别方法与传统文本还存在较大差异。同时由于微博情感语词不能很好的分类提取，对于用户在使用过程中造成了极大的困惑，降低了用户相关数据提取的效率。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于多特征融合的微博文本数据分类方法。

为了实现本发明的上述目的，本发明提供了一种基于多特征融合的微博文本数据分类方法，其关键在于，包括：

步骤1，进行用户认证登录，获取微博文本数据信息，根据分类器获取特征信息并计算特征信息权重；

步骤2，通过朴素贝叶斯方法对特征信息进行分类，对于分类结果进行权值计算；

步骤3，将计算完成的分类结果进行分类融合，直到特征信息分类完毕，将分类完毕的特征信息进行展示操作。

所述的基于多特征融合的微博文本数据分类方法，优选的，所述步骤1包括：

步骤1-1，确定情感特征词集，所述情感特征词集包括程度副词、否定副词集、表情符号集、转折词集和感叹词集；

步骤1-2，设置数据信息观察窗口[-X，+X]，对文中的任意情感词，分别观察其左、右两边距离为X的词语数据，所述X为整数，如有程度副词或否定副词，则将其与当前词相连形成短语；如不存在否定副词或程度副词，则将当前词形成短语，并收集得到特征w和类别c；

步骤1-3，以词频作为获取特征信息得到特征信息权值为计算基础，通过公式，

x^{2} (w, c) = \frac{N \times {(AD - CB)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)};

其中：A是特征w和类别c共现的次数，B是w出现但c不出现的次数，C是c出现但w不出现的次数，D是w和c都不出现的次数，N是文档总数。

所述的基于多特征融合的微博文本数据分类方法，优选的，所述步骤2包括：

步骤2-1，通过先验概率和类别的条件概率来估计文档d对于类别c_i的后验概率，以此实现文档的类别判断；

步骤2-2，朴素贝叶斯多项式模型的算法描述如下：

在训练文本集D和类别集合C上计算每个类别的先验概率P(c_j)；

计算特征项t_i属于类别c_j的条件概率P(t_i|c_j)；

计算待测文本d属于类别c_j的后验概率，取后验概率最大的类别作为文本的类别C_NB，后验概率的计算为：

c_{NB} = \underset{c_{j} &Element; C}{\arg \max} {P (c_{j}) Π_{i = 1}^{n} P {(t_{i} | c_{j})}^{wt (t_{i})}},

其中，P(c_j)是类别的先验概率；t_i表示待测文本d的第i个特征项；P(t_i|c_j)是t_i属于类别c_j的条件概率；wt(t_i)是文本d中特征项t_i的权值。

所述的基于多特征融合的微博文本数据分类方法，优选的，所述步骤2定义权值为：

W = {p_{t_{i} &Element; T}},

其中，t_i是情感类别；T为情感类别空间，记为：T＝{like,angry,disgust,sadness,happiness,fear,surprise}，即为T＝{喜欢，生气，厌恶，悲伤，幸福，胆怯，惊讶}，是分类器在类别t_i上的分类正确率；

定义k(1≤k≤N)为样本组别；s_i为样本规模，s_i∈S；S＝{1000,1500,2000,2500}；D_(s,k)是样本规模为s_i时的第k组样本；样本的规模组别为GroupN(1≤GroupN≤|S|)，其中NS＝|TS|；对分类器N_f，为保证权值的稳定性，计算权值时，需要从训练集中选取多种规模、多组别的样本进行计算，

权值计算步骤为：

步骤2-11初始化的步骤，令k＝1，GroupN＝1，s_i＝S[GroupN]，

步骤2-12，用N_f对D_(s,k)分类，计算N_f在类别t中的正确率p_t，将其作为N_f在类别t的权值，由此得到N_f在规模为s时的第k组权值向量，定义为：

W_(s,k)＝{P_t}；

步骤2-13，如果k≤N，则令k＝k+1；返回步骤2-12；

否则，执行步骤2-14；

步骤2-14，计算权值向量：

步骤2-15，如果GropuN≤NS，则令GroupN＝GroupN+1；k＝1；s＝TS[GroupN]；返回步骤2-12；

否则将作为N_f的权值向量。

所述的基于多特征融合的微博文本数据分类方法，优选的，所述步骤3包括：

步骤3-1，进行分类融合，对任意待测文本D，分类融合，设分类结果权值向量：特征项结果为fresult＝{0，0,0,0,0,0,0}；

步骤3-2，提取D的情感特征如果D中不存在任何情感特征；则

将D分类为无情感特征类；返回步骤3-2；

步骤3-3，如果D中存在特征项f，用分类器N_f对D进行分类；如果N_f的分类结果为type；则有

fresult [type] = fresult [type] + W_{N_{f}} [type]

步骤3-4，重复执行步骤3-3，直到D的每一特征分类完成为止；计算fresult的最大值；如果特征项结果fresult中有唯一的最大值fresult[type]，将D分类为type；否则，将D分类为none，其中，type指待分析的情感类别；none指无情感类别。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

当用户接收到微博数据信息之后，通过本发明的分类器进行分类之后，对数据的归类更为准确，使用户获得有用信息的效率提高，从而实现数据的快速抓取，保证数据分类的准确性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明基于多特征融合的微博文本数据分类方法流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、 “后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1所示，本发明提供了一种基于多特征融合的微博文本数据分类方法，其关键在于，包括：

对微博数据信息其特征名及结构定义为：

①DN-E(Degree adv.+Negative adv.+Emotional)特征：程度副词+情感词+否定副词；

②T-E(Turning words+Emotional)特征：转折词+情感词；

③IP-E(Interjection+Punctuation+Emotional)特征：感叹词+标点符号；

④EmoT(Emoticons)特征：表情符号。

使用的情感词典EM设置为EM＝(EM₁∩EM₂)∪(EM₁∩EM₃)∪(EM₂∩EM₃)

设置词语观察窗口为[-2，+2]，即对文本中的任一情感词，分别观察其左、右两边距离为2的词，如有程度副词、否定副词，则用’’将其与当前词相连形成短语；如不存在否定副词或程度副词，则将当前词通过’’与’#’相连形成短语。下表描述了各步操作的结果。

特征提取与特征项权重

常用的特征项权值表示法有布尔权值、词频或TF-IDF。本发明以词频作为特征项权值。对提取到的高维情感特征，采用CHI(卡方值)法进行特征提取，其计算如下所示。

x^{2} (w, c) = \frac{N \times {(AD - CB)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)}

(式2)

贝叶斯推理模型具有丰富的概率表达能力，能充分利用先验信息。它通过先验概率和类别的条件概率来估计文档d对于类别c_i的后验概率，以此实现文档的类别判断。朴素贝叶斯多项式模型的算法描述如下：

①在训练文本集D和类别集合C上计算每个类别的先验概率P(c_j)；②计算特征项t_i属于类别c_j的条件概率P(t_i|c_j)，③计算待测文本d属于类别c_j的后验概率，取后验概率最大的类别作为文本的类别C_NB。后验概率的计算如(式3)所示。

c_{NB} = \underset{c_{j} &Element; C}{\arg \max} {P (c_{j}) Π_{i = 1}^{n} P {(t_{i} | c_{j})}^{wt (t_{i})}}

(式3)

基于多特征融合的分类策略

信息融合的基本原理是将多源观测信息按某种准则进行组合，以获得对被测对象的一致性描述。信息融合的目标是通过组合获得比任何单个数据源更准确的信息。对多情感识别问题，由于采用多种特征分别构建分类器，各分类器的性能各异，因此对分类结果不能简单叠加。对此，提出了一种对多分类器的结果进行加权求和的融合方式。该方法需解决两个主要问题：①定义分类器权值；②对分类器结果进行融合。

权值计算

本发明用分类器的权值表征分类器对于各类别的识别能力。分类器权值定义为：

定义1

W = {p_{t_{i} &Element; T}},

其中，t_i是情感类别；T为情感类别空间，记为：T＝{like,angry,disgust,sadness,happiness,fear,surprise}，即为T是分类器在类别t_i上的分类正确率。

定义k(1≤k≤N)为样本组别；s_i为样本规模，s_i∈S；S＝{1000,1500,2000,2500}；D_(s,k)是样本规模为s_i时的第k组样本；GroupN(1≤GroupN≤|S|)为样本的规模组别，其中NS＝|TS|；对分类器N_f，为保证权值的稳定性，计算权值时，需要从训练集中选取多种规模、多组别的样本进行计算。

权值计算如(算法4.1)所示。

算法4.1

①初始化：令k＝1，GroupN＝1，s_i＝S[GroupN]，

②用N_f对D_(s,k)分类，计算N_f在类别t中的正确率p_t，将其作为N_f在类别t的权值。由此得到N_f在规模为s时的第k组权值向量，定义为：

W_(s,k)＝{P_t}；

③if(k≤N){k＝k+1；转②；}

else转④；

④计算权值向量：

W_{GroupN} = \frac{1}{N} Σ_{k = 1}^{N} W_{(s, k)};

⑤if(GropuN≤NS)

{GroupN＝GroupN+1；

k＝1；s＝TS[GroupN]；转②；}

else

W_{N_{f}} = \frac{1}{NS} Σ_{s = 1}^{NS} W_{s};

⑥将作为N_f的权值向量。

分类融合

对任意待测文本D，分类融合如(算法4.2)所示：

算法4.2

①设分类结果权值向量：fresult＝{0，0,0,0,0,0,0}

②提取D的4种情感特征；

③if(D中不存在任何情感特征)

{将D分类为none(无情感类)；return；}

④if(D中存在特征项f)

{用分类器N_f对D进行分类；

if(N_f的分类结果为type)

{fresult [type] = fresult [type] + W_{N_{f}} [type]}

⑤重复④，直到D的每一特征分类完成为止；

⑥计算fresult的最大值；

⑦if(fresult中有唯一的最大值fresult[type])将D分类为type；

else将D分类为none(无情感类)。

构造贝叶斯分类器。对单特征分类器的结果，采取加权求和的方式进行融合，实现了多分类器协同进行多情感分类的目标。实验表明，多特征协同的性能优于单特征分类器；加权求和的融合方法比简单求和的分类效果更优。多特征协同中，微博语言数据特征融合的效果较优。该方法的宏平均和微平均F值均优于NLP&CC2013评测的平均水平。通过本发明的微博数据分类挖掘，提高用户获取有用信息的效率。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于多特征融合的微博文本数据分类方法，其特征在于，包括：

2.根据权利要求1所述的基于多特征融合的微博文本数据分类方法，其特征在于，所述步骤1包括：

3.根据权利要求1所述的基于多特征融合的微博文本数据分类方法，其特征在于，所述步骤2包括：

步骤2-2，朴素贝叶斯多项式模型的算法描述如下：

计算特征项t_i属于类别c_j的条件概率P(t_i|c_j)；

4.根据权利要求1所述的基于多特征融合的微博文本数据分类方法，其特征在于，所述步骤2定义权值为：

权值计算步骤为：

步骤2-11初始化的步骤，令k＝1，GroupN＝1，s_i＝S[GroupN]，

W_(s,k)＝{P_t}；

步骤2-13，如果k≤N，则令k＝k+1；返回步骤2-12；

否则，执行步骤2-14；

步骤2-14，计算权值向量：

否则将作为N_f的权值向量。

5.根据权利要求4所述的基于多特征融合的微博文本数据分类方法，其特征在于，所述步骤3包括：

步骤3-2，提取D的情感特征如果D中不存在任何情感特征；则

将D分类为无情感特征类；返回步骤3-2；