CN103914551A

CN103914551A - 一种微博语义信息扩充和特征选取方法

Info

Publication number: CN103914551A
Application number: CN201410146932.7A
Authority: CN
Inventors: 刘磊
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2014-04-13
Filing date: 2014-04-13
Publication date: 2014-07-09

Abstract

本发明提出了一种微博语义信息扩充和特征选取方法，属于文本信息处理领域，具体是涉及微博语义信息扩充和特征选取方法及系统。本发明是基于改进卡方统计的微博特征提取方法。首先扩充微博信息分类特征，在传统的卡方统计量的基础上，引入了频度因素，改进特征选择方法。然后在传统的特征项权值计算的基础上，提出了新的改进卡方统计量的方法，改进权重计算效果，该方法提高了微博信息分类的准确率。

Description

一种微博语义信息扩充和特征选取方法

技术领域

本发明属于文本信息处理领域，具体是涉及一种微博语义信息扩充和特征选取方法及系统。

背景技术

微博，即微博客的简称，是一个基于用户关系的信息分享、传播以及获取平台，用户可以通过WEB、WAP以及各种客户端组建个人社区，以140字左右的文字更新信息，并实现即时分享。其具有发布信息快速，传播速度快的特点。

微博技术的高速发展极大地促进了人们的沟通和交流，为人类的文明和发展做出了巨大的贡献。但信息爆炸式的增长带来的消极影响日益凸现。特别是随着各大微博网站的不断普及等因素，网上所能提供的信息也在急剧增多，信息产生的速度远远超过人们对信息的利用能力。如何从海量的信息中过滤掉用户不需要的，而快速定位用户感兴趣的信息，就成为了一个重要的问题。

随着微博等网络媒体的兴起，传统文本的分类已经不能满足人们对网络即时信息的分类要求。而以微博为代表的短文本分类成为了研究热点。微博信息自动分类技术可以帮助用户有效收集和选择其所感兴趣的微博信息，过滤微博垃圾信息，为微博信息检索提供更高效的搜索策略和更准确的查询结果。

文本分类中的一个基本问题就是文本的特征选取问题，这直接影响到分类的最终效果。而微博具有信息短小，不规则文本多，语义稀疏的特点，直接使用传统的特征选取和文本分类方法已经不适用。必须分析微博信息的自身特点，给出一些新的改进方法，以提高分类的准确率。

发明人通过综合考虑微博文本在语义信息补充方法和特征选取方法，克服了传统分类方法面对微博类短文本的语义稀疏问题的局限性。

发明内容

本发明的目的在于针对微博的分类问题，提出一种微博语义特征扩充和特征选取方法与系统。本发明综合考虑了微博与传统文本的区别，根据微博自身特点，给出了微博语义信息补充方法和特征选取方法，克服了传统分类方法面对微博类短文本的语义稀疏问题的局限性。

本发明提出的方法依次按以下步骤实现的：

步骤（1）分析微博相关信息，定义语义特征

引入与微博分类相关度较高的信息弥补语义稀疏，包括发布者的个人信息，微博内容中相关链接信息，微博评论内容。这些特征与微博的正文一起被称为微博的混合特征。分析这些微博混合特征对微博分类的影响程度，定义微博混合特征为四元组T=(T1,T2,T3,T4)：

T1：作者个人信息：个人介绍，认证情况，标签内容。

T2：正文部分。

T3：链接中的内容：正文中出现的超链接所指向的网页内容，正文中到的人的个人信息。

T4：评论的内容。

步骤（2）根据步骤（1）中微博语义特征定义，扩充微博语义信息

对每条微博信息进行如下处理

步骤（2.1）根据网页HTML标记，获取微博发布人的个人信息，包括个人介绍，认证情况；

步骤（2.2）提取微博正文部分,去除符号标记，保留文本内容；

步骤（2.3）提取微博正文中出现的超链所指向的网页文本，正文中到的人的个人信息文本；

步骤（2.4）提取微博的所有评论内容，以去除停用词后的评论长度大于4个汉字、评论人为认证用户为条件进行过滤，选取有效评论作为评论特征；

步骤（2.5）对以上所有文本内容进行分词处理，得到文本词串，将文本串中的名词、动词、形容词作为语义特征词。

步骤（2.6）将以上微博相关语义特征信息合并作为微博语义信息。；

步骤（3）根据改进特征选取方法，进行微博的特征选取

对每条微博的语义信息按照如下步骤进行语义特征选取

步骤（3.1）引入频度改进卡方统计量

引入参数α（频度）来进行调节，其主要是为了解决卡方统计量方法对文档频率低的特征词不可靠的问题。频度计算公式如下式：

这里t表示特征项，c表示某一个微博类别，α(t,c)取值范围为[0,1]之间。

步骤（3.2）去除微博特征项中出现与类别负相关的情况

在卡方统计量公式里删除特征出现与所属类别负相关的情况，表示成下式：

χ^{2} (ω, c) = \{\begin{matrix} \frac{N \times {(AD - CB)}^{2}}{(A + C) (B + D) (A + B) (C + D)} \\ 0, AD - BC \leq 0 \end{matrix}

这里N表示训练语料中的微博总数，c为某一特定类别，w表示特定的特征项，A表示属于类别c且包含特征项w的微博频数，B为不属于类别c但包含特征项w的微博频数，C表示属于类别c但不包含特征项w的微博频数，D表示既不属于类别c也不包含特征项w的微博频数。

结合以上公式得改进后的卡方统计量公式如下：

这里χ2(w,c)取值范围为[0,+∞)之间。

步骤（3.3）对微博特征项的权重计算部分进行修改

引入改进后的卡方统计量的值χ2，把这些在特征选择时计算值也引入后得到如下归一化后的公式：

W (t, d) = \frac{tf (t, d) \times \log (N / n_{t} + 0.01) \times {χ^{2}}_{t}}{\sqrt{Σ_{t &Element; d} {[tf (t, d) \times \log (N / n_{t} + 0.01) \times {χ^{2}}_{t}]}^{2}}}

其中t表示特征项，N为微博文本总数，0.01为常数，nt为出现特征项t的微博文本数，χ2t表示特征项t的卡方统计量的值，tf(t,d)表示一个特征词t在某个文本d中出现的次数。W(t,d)取值范围为[0,1]之间。

步骤（4）输出分类结果。

附图说明

图1本发明实现微博语义信息扩充和特征选取方法及系统的流程图；

图2语义特征示意图；

图3具体实施方式中KNN分类器下的准确率对比；

图4具体实施方式中SVM分类器下的准确率对比。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步的详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

根据图1所示，本发明提出的方法是依次按以下步骤实现的：

步骤（1）分析微博相关信息，定义微博语义特征。

由于微博自身字数限制等原因，微博正文部分的语义稀疏不可避免。但是因为微博可以显示其他短文本不具有的信息，如作者个人信息，评论内容等信息。因此这里提出一种将这些信息与正文部分一起，组成微博信息进行分类的方法。微博相关信息分析如表1所示。

表1微博相关信息分析

引入这些与微博分类相关度较高的信息弥补语义稀疏的问题，包括发布者的个人信息，微博内容中相关链接信息，微博评论内容等。这些特征与微博的正文一起被称为微博的混合特征。

为了便于测试这些微博混合特征对微博分类的影响程度，定义微博混合特征为一个四元组T=(T1,T2,T3,T4)：

T1：作者个人信息：

个人介绍，认证情况，标签内容。

T2：正文部分

T3：相关链接中的内容

正文中出现的超链接所指向的网页内容，正文中到的人的个人信息。

T4：评论的内容（以被认证的用户为主）

由于评论的部分可能数量巨大，而且包含一些很短的无效评论，如“支持”，“太对”等。因此经过语料分析，以去除停用词后的评论长度大于4个汉字、评论人为认证用户为条件进行过滤，选取有效评论作为评论特征。

这4部分的微博示例如图1所示。通过图1中作者，链接，回复等超链接，可以获得更全面的微博综合特征。把T1，T2，T3，T4综合起来，填补了缺失的信息，就比较容易判断是属于体育类的一条微博。因为填补了一些和体育类别高度相关的特征，如体育解说员，足球，运动员，中场，中卫等。

对每条微博信息进行如下处理

步骤（3）根据改进特征选取方法，进行微博的特征选取

卡方统计量方法由于有归一化，统计理论支持等特点，在中文分类系统的特征选择中被广泛应用。CHI统计方法是目前最好的特征选择方法之一。与其他方法相比，CHI大约减少了50％的词汇，分类效果好，且性能随特征维数变化比较稳定。

传统卡方统计量是一个归一化的统计量。它对于低频特征项的区分效果仍然不是很好。因此对短文本的处理存在着一些缺陷。本发明针对两个主要的缺陷进行了改进。

令N表示训练语料中的微博总数，c为某一特定类别，w表示特定的特征项，A表示属于类别c且包含特征项w的微博频数，B为不属于类别c但包含特征项w的微博频数，C表示属于类别c但不包含特征项w的微博频数，D表示既不属于类别c也不包含特征项w的微博频数。

特征项w对于微博类别c的CHI值由（1）公式计算：

χ^{2} (ω . c) = \frac{N \times {(AD - CB)}^{2}}{(A + C) (B + D) (A + B) (C + D)} - - - (1)

且有：N=A+B+C+D

公式(1)的结果反映了特征项w和文档类别C直接的相关程度。统计值越大，相关程度越高

步骤（3.1）引入频度改进卡方统计量，对特征选择部分进行改进

卡方统计量只计算了特征词在所有文档中出现的次数，没有计算特征在某一文档中出现的频数。如果某一特征词在某一类文档的少量文本中出现的次数很多，而在其他文档中没有出现，那么通过传统公式计算得出的χ2值可能会很低，但是这种特征词很可能对分类的贡献较大。比如“进球”“破门”在体育类里的足球类中出现次数较多，应该对于属于体育类有重要的作用，但在其他体育项目里很少出现，按公式(1)计算出的得分不会高，如果引入词频则可提高这些特征的权重。

因此，引入参数α（频度）来进行调节，其主要是为了解决卡方统计量方法对文档频率低的特征词不可靠的问题。频度计算公式如(2)式：

在卡方分布公式中乘以这个频度，这样调节的好处是考虑了词频的影响（词频越高对分类贡献越大）。

步骤（3.2）去除特征项的出现与类别负相关的情况

由卡方的计算公式可看出，B和C都比较大，而A和D都比较小，并且BC＞AD，比如星座类别里“中国”这种特征词，它在星座类别的文档中出现比较少，而在其他类别的文档中普遍存在，很显然这种特征词按卡方公式(1)计算的分数较大，但是对分类的贡献不大，在特征选择的时候应该被排除，在卡方统计量公式里删除特征出现与所属类别负相关的情况，可表示成(3)式：

χ^{2} (ω, c) = \{\begin{matrix} \frac{N \times {(AD - CB)}^{2}}{(A + C) (B + D) (A + B) (C + D)} \\ 0, AD - BC \leq 0 \end{matrix} - - - (3)

结合(2)和(3)得改进后的卡方统计量公式(4)：

步骤（3.3）权重计算部分的改进

传统的权重计算方法应用最多的tf*idf方法。一个有效的分类特征项应该既能体现所属类别的内容，又能将该类别同其他类别相区分。归一化后的传统tf*idf方法见公式(7)：

W (t, d) = \frac{tf (t, d) \times \log (N / n_{t} + 0.01) \times {χ^{2}}_{t}}{\sqrt{Σ_{t &Element; d} {[tf (t, d) \times \log (N / n_{t} + 0.01)]}^{2}}} - - - (5)

引入改进后的卡方统计量的值χ2（4式所示），把这些在特征选择时计算值也引入到(5)式中，得到归一化后的公式(6)：

W (t, d) = \frac{tf (t, d) \times \log (N / n_{t} + 0.01) \times {χ^{2}}_{t}}{\sqrt{Σ_{t &Element; d} {[tf (t, d) \times \log (N / n_{t} + 0.01) \times {χ^{2}}_{t}]}^{2}}} - - - (6)

其中t表示特征项，N为微博文本总数，0.01为常数，n_t为出现特征项t的微博文本数，χ² _t表示特征项t的卡方统计量的值，tf(t,d)表示一个特征词t在某个文本d中出现的次数。W(t,d)取值范围为[0,1]之间。

这样就对卡方统计量在特征选择和权重计算两方面都进行了改进，这里称为改进卡方统计量方法。（以下简称改进的CHI）

步骤（4）根据补充语义信息和改进的特征选取方法进行微博分类效果测试。

为了检验本发明的方法相对于传统方法有所改进，本发明进行了如下实验。

采集了部分新浪微博语料进行的实验分析。总共7类别（体育，健康，娱乐，星座，社会，科技，财经），其中训练文本700篇，测试文本349篇，类分布比较均匀。概率估算方法方面，测试了布尔统计（0-1型，只统计特征词是否在微博中出现）和词频统计（统计特征词在一条微博信息中出现的次数）两种。选取的实验参数如下：

特征选择方法：χ²统计

特征加权算法：tf*idf

分类器：KNN，SVM。其中KNN中距离函数采用了常用的欧几里得距离；近邻数k由检测实验确定，即根据k不同取值下，检测集(检测集由从测试文本中每个类别各取15篇，合计105篇构成)的分类错误率来确定，经过测试，k取值为18。SVM分类器使用了LIBSVM软件包，选用RBF函数(Radial Basis Function)，利用交叉验证方式确定参数C和γ。

使用的评价指标:

（1）改进的CHI与传统CHI对比

这里选取了不同特征组合，比较了改进的CHI与传统CHI方法在KNN下的分类结果，特征选择的空间维数取1000（表2）。

从表2中看出，正文+链接+评论+作者信息的效果最好，这里称为4F法。

4F法的传统卡方和改进卡方的准确率分别达到75.33%和80.13%，比只用正文部分分类的59.77%和58.05%有了较明显的提高，这说明了微博语义特征扩充方法的有效性。并且改进的卡方统计量在大多数情况下要优于传统的卡方统计量，这说明改进的卡方统计量是有效的。

由于4F法比其它特征组合更加有效，所以以下实验分析中都在4F特征下，对比改进的卡方与其它方法的分类效果。

表2传统CHI与改进的CHI的对比

（2）改进的CHI在不同特征维数下的表现

对改进的CHI在微博语义特征下，用KNN和SVM分类器下进行试验，实验结果如图3和图4。

从图3和图4中可以看出：随着特征维数的增加，传统的CHI的准确率不稳定，总体呈下降趋势。而改进的CHI的准确率随维数增加总体呈缓慢上升趋势。改进的CHI的准确率普遍优于CHI，且随着维数的增加，大体上优势趋于明显。这说明提出的改进的CHI对于提高微博信息分类的准确率是有效的。而SVM算法的结果好于KNN。

实验结果表明，本发明提出的微博语义信息扩充和特征选取方法相比于传统方法有明显改进。

Claims

1.一种微博语义特征扩充和特征选取方法，按以下步骤实现：

步骤（1）分析微博信息，定义语义特征

引入与微博分类相关度较高的信息弥补语义稀疏，包括发布者的个人信息，微博内容中链接信息，微博评论内容，这些特征与微博的正文一起被称为微博的混合特征，分析这些微博混合特征对微博分类的影响程度，定义微博混合特征为四元组T=(T1,T2,T3,T4)：

T1：作者个人信息：个人介绍，认证情况，标签内容；

T2：正文部分；

T3：链接中的内容：正文中出现的超链接所指向的网页内容，正文中到的人的个人信息；

T4：评论的内容；

对每条微博信息进行如下步骤：

步骤（2.5）对以上所有文本内容进行分词处理，得到文本词串，将文本串中的名词、动词、形容词作为语义特征词；

步骤（2.6）将以上微博相关语义特征信息合并作为微博语义信息；

步骤（3）根据改进特征选取方法，进行微博的特征选取

对每条微博的语义信息按照如下步骤进行语义特征选取

步骤（3.1）引入频度改进卡方统计量

引入参数α（频度）来进行调节，频度计算公式如下式：

步骤（3.2）去除微博特征项中出现与类别负相关的情况

在卡方统计量公式里删除特征出现与所属类别负相关的情况，可表示成下式：

χ^{2} (ω, c) = \{\begin{matrix} \frac{N \times {(AD - CB)}^{2}}{(A + C) (B + D) (A + B) (C + D)} \\ 0, AD - BC \leq 0 \end{matrix}

结合以上公式得改进后的卡方统计量公式如下：

步骤（3.3）对微博特征项的权重计算部分进行修改

引入改进后的卡方统计量的值x²，把这些在特征选择时计算值也引入后得到如下归一化后的公式：

W (t, d) = \frac{tf (t, d) \times \log (N / n_{t} + 0.01) \times {χ^{2}}_{t}}{\sqrt{Σ_{t &Element; d} {[tf (t, d) \times \log (N / n_{t} + 0.01) \times {χ^{2}}_{t}]}^{2}}}

步骤（4）输出微博的分类结果。