CN106502990A

CN106502990A - 一种微博特征项提取方法和改进tf‑idf归一化方法

Info

Publication number: CN106502990A
Application number: CN201610969960.8A
Authority: CN
Inventors: 严萌; 朱燕飞
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2016-10-27
Filing date: 2016-10-27
Publication date: 2017-03-15

Abstract

本发明公开了一种微博特征项提取方法和改进TF‑IDF归一化方法，结合CHI方法和改进TF‑IDF归一化方法的方法来提取特征项，从而来降低空间向量的维数。由于考虑到了中文词中存在一义多词或一词多义的缘故，对传统的归一化TF‑IDF归一化方法进行了一些改进，即在计算词的权重时结合了词的语义。通过该归一化方法来提取特征项不仅可以降低建空间向量时的维度，而且还可以减少话题的重复性，但在计算权重后容易忽略一些有利于分类的低频词，故在改进TF‑IDF归一化方法的同时还结合了CHI统计方法，该方法可以发现一些有利于文本分类结果的低频词。故能从一定程度上提高话题检测的准确率和速度。

Description

一种微博特征项提取方法和改进TF-IDF归一化方法

技术领域

本发明涉及文本信息技术领域，尤其涉及一种微博特征项提取方法。

背景技术

微博，即微博客的简称，是一个基于用户关系的信息分享、传播以及获取平台，用户可以通过WEB，WAP以及各种客户端组建个人社区，以140字左右的文字更新信息，并实现即时分享。其具有发布信息快速，传播速度快的特点。

微博技术的高速发展极大地促进了人们的沟通和交流，为人类的文明和发展做出了巨大的贡献。但信息爆炸式的增长带来的消极影响日益凸现。特别是随着各大微博网站的不断普及等因素，网上所能提供的信息也在急剧增多，信息产生的速度远远超过人们对信息的利用能力。如何从海量的信息中过滤掉用户不需要的，而快速定位用户感兴趣的信息，就成为了一个重要的问题。CHI统计方法是目前最好的特征选择方法之一。与其他方法相比，分类效果好。大多数中文分类系统都采用这种方法，可是该方法仍然存在下面几个缺点：

(1)CHI统计方法只是由于考虑到了词的文档频，然而并无顾及到特征的词频，因此极大的放大了低频词的作用。

(2)特征词的CHI值是将特征词对一个类别的CHI值与其余不同类别的卡方值做对比，CHI值很可能把对某一特定的类别的贡献低而对其它的类的贡献高的特征词给选择出来。

发明内容

本发明提供了一种微博特征项提取方法，改进TF-IDF归一化方法的同时还结合了CHI统计方法，故能从一定程度上提高话题检测的准确率和速度。

本发明提供了一种微博特征项提取方法包括：

首先获取的总闻News＝{D₁，D₂，...，D_i}，

D_i表示为所有新闻中的第i条新闻，第i条新闻中的所用词语即可以表示Di＝{word₁，word₂，...，word_n}(i∈j+z)；；

然后获取其中一类中的所有不同词

AW_m＝{word₁word₂，...，word_m}，按上述公式得到每个文本中每个词的词频

再计算不属于那一类的所有词的词频

接着用公式来计算一个类中所有词的CHI值；

用公式

来计算每个词在每篇文本中所占权重即可得到每个词的权重和

再结合所述CHI值，根据公式重新给一个类的所有词赋权；

最后通过公式SWW_m＝{WW₁，WW₂，...，WW_m}计算一个类中每个词语的权重。

可选的，

步骤所述用公式来计算每个词在每篇文本中所占权重包括：

ε为文本i中包含的特征项t_ij和与特征项t_ij相似度大于γ的特征项的个数之和与特征项t_ij的个数的商，m_ij表示包含特征项t_ij或与特征项t_ij的相似度大于γ的特征项的文本个数，γ是系统设定值。

可选的，

步骤所述通过公式SWW_m＝{WW₁，WW₂，...，WW_m}计算一个类中每个词语的权重之后还包括输出微博的分类结果。

可选的，

所述微博的开放平台为API；

所述总闻使用网络爬虫技术获取2015年3月-2015年4月的微博。

本发明还提供了一种应用于权利要求1至4中任一项所述的微博特征项提取方法的改进TF-IDF归一化方法，包括：

根据公式为特征项赋权。

来计算每个词在每篇文本中所占权重即可得到每个词的权重和其中，t_ij是代表了第i个文本中的第j个特征项，tf_ij代表了特征项j出现在文本i的频率，W_ij代表了特征项t_ij的权重，log(N/n_ij+0.01)为逆文档频率，N是代表文档的总数，n_ij是代表包含了所有t_ij的文本数量；

从以上技术方案可以看出，本发明实施例具体有以下优点：

本发明技术方案结合CHI方法和改进TF-IDF归一化方法的方法来提取特征项，从而来降低空间向量的维数。由于考虑到了中文词中存在一义多词或一词多义的缘故，对传统的归一化TF-IDF归一化方法进行了一些改进，即在计算词的权重时结合了词的语义。通过该归一化方法来提取特征项不仅可以降低建空间向量时的维度，而且还可以减少话题的重复性，但在计算权重后容易忽略一些有利于分类的低频词，故在改进TF-IDF归一化方法的同时还结合了CHI统计方法，该方法可以发现一些有利于文本分类结果的低频词。故能从一定程度上提高话题检测的准确率和速度。

附图说明

图1为本发明中一种微博特征项提取方法实施例中权重结果对比仿真图；

图2为本发明中采用不同方法提取特征的SVM分类器性能比较；

图3为为本发明中一种微博特征项提取方法流程图。

具体实施方式

CHI方法分类效果相对较好的结论提出结合传统的互信息方法和CHI统计方法，使得查全率和查准率都得到了明显的提高。

CHI统计方法的思想是假设特征项w与类别c之间的关系是类似于具有一维自由度的χ2分布。w对于c的统计量可计算为：

其中，A代表的是包含了特征项w并且还是属于类别c的文档个数，B则代表的是包含特征项w但它不是属于类别c的文档个数，而C则是代表没有特征项w可属于类别c的文档个数，D代表既没有特征项w也不属于类别的文档个数，N则当时所有的文档个数。

该方法用来衡量类别c之间与类别c之间的关联度。当类别c和特征项w相互独立时，有χ²(w，c)＝0。而当类别c和特征项w的关联性越强，χ²(w，c)的值就会越大，其价值越大，其识别信息量就越大。

在式(1)中表现为：AD-BC＞0，说明类别和特征项是成正相关的，有特征项的出现，则说明了该文档很可能是属于某一个类别的，所以此时的CHI值越大，则有这个特征项的文档就越有可能是属于某一个类别。相反，AD-BC＜0，则说明类别和特征项是成负相关的，所以词特征项的出现可以知道该文档根本就不可能是属于某一个类，则有，当CHI值越大，含该特征项的文档就越不可能是属于某一个类的。

本发明提供了一种微博特征项提取方法原理包括：

首先获取的总闻News＝{D₁，D₂，...，D_i}，D_i表示为所有新闻中的第i条新闻，第i条新闻中的所用词语即可以表示

Di＝{wora₁，word₂，...，word_n}(i∈j+z)；；

然后获取其中一类中的所有不同词，

AW_m＝{word₁ word₂，...，word_m}，按上述公式得到每个文本中每个词的词频

再计算不属于那一类的所有词的词频

接着用公式来计算一个类中所有词的CHI值；

用公式

再结合所述CHI值，根据公式重新给一个类的所有词赋权；

需要说明的是，

是的改进，

其中，t_ij是代表了第i个文本中的第j个特征项，tf_ij代表了特征项i出现在文本i的频率，W_ij代表了特征项t_ij的权重，log(N/n_ij+0.01)为逆文档频率，N是代表文档的总数，n_ij是代表包含了所有t_ij的文本数量；

ε为文本i中包含的特征项t_ij和与特征项t_ij相似度大于γ的特征项的个数之和与特征项t_ij的个数的商，m_ij表示包含特征项t_ij或与特征项t_ij的相似度大于γ的特征项的文本个数，γ是系统设定值。因为使用结合语义的相似度会使一个特征项所表达的语义分散到多个不同的特征项中进行表达，这会使得语义被分散，为了降低这种现象的影响，使用替代代替tf_ij。

通过公式SWW_m＝{WW₁，WW₂，...，WW_m}计算一个类中每个词语的权重之后还包括输出微博的分类结果，具体在后续实施例中进行描述。

实验数据来自于微博开放平台API，使用网络爬虫技术获取2015年3月-2015年4月的微博，将每个微博文本的内容当成一个部分。利用结合CHI和改进的TF-IDF算法的方法来提取特征项来减少微博文本的维度。电脑系统Window7，RAM 6G。软件用Java编程，用MATLAB7.0实现结果的对比。

本发明还提供了一种改进TF-IDF归一化方法，包括：

具体为在原始TF-IDF算法中将公式

用公式来替换。

需要说明的是，ε为文本i中包含的特征项t_ij和与特征项t_ij相似度大于γ的特征项的个数之和与特征项t_ij的个数的商，m_ij表示包含特征项t_ij或与特征项t_ij的相似度大于γ的特征项的文本个数，γ是系统设定值。因为使用结合语义的相似度会使一个特征项所表达的语义分散到多个不同的特征项中进行表达，这会使得语义被分散，为了降低这种现象的影响，使用替代代替tf_ij。

本发明技术方案结合CHI方法和改进TF-IDF归一化方法的方法来提取特征项，从而来降低空间向量的维数。由于考虑到了中文词中存在一义多词或一词多义的缘故，对传统的归一化TF-IDF归一化方法进行了一些改进，即在计算词的权重时结合了词的语义。通过该归一化方法来提取特征项不仅可以降低建空间向量时的维度，而且还可以减少话题的重复性，但在计算权重后容易忽略一些有利于分类的低频词，故在改进TF-IDF归一化方法的同时还结合了CHI统计方法，该方法可以发现一些有利于文本分类结果的低频词。故能从一定程度上提高话题检测的准确率和速度在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

下面以一个实际应用中的例子进行说明：

获取2000条关于《太阳的后裔》的微博和2000条与《太阳的后裔》无关的微博。有NEWS＝{{D_x1，D_x2，...，D_xn}，{D_x1，D_x2，...，D_xn}}，SCN＝NEWS。

将获得微博数据使用ICTCLAS分词系统进行预处理，对中文微博信息进行分词和词性标注，然后去掉停用词得到词W_i＝{W₁，W₂，...，W_i}。把获取的微博数据SCN分为两类一类是《太阳的后裔》和另一类非《太阳的后裔》，取这两类中的所有不同的词即为W_p＝{{W₁，W₂，...，W_j}，{W₁，W₂，...，W_k}}。再计算每个微博中每个词的词频即为从SCN的一类中取得所有不同词AW_m＝{word₁ word₂，...，word_m}。

根据上述公式给所有不同词来计算CHI值，再根据WF_n结合上述公式给每条微博中的每个词赋权。再按权重大小获取每条微博中词语权重排在前66.6％的词。

在计算留下词的所有权重之和得到WTIF＝{wtif₁，wtif₂，...，wtif_m}。然后将得到的值正规化得到WE_m＝{we₁，we₂，...，we_m}。

据公式重新给词赋权得到的NW_m。根据权重大小留下前2/3的词作为特征项，经过计算得每个类分别有1200，900，850，800，750个词，特征项个数为1000，800，750个。

如下表格1是传统的归一化TF-IDF算法与改进的TF-IDF算法对词权重计算的结果。从图1可以得出在改进的TF-IDF算法下得到权重都比传统的算法得到的值大，这是因为我们在计算的时候由于考虑到了词语的语义，将近义词归在一起求值。因此改进后的方法可以减少由词的近义词所引起的误差。提高了计算的准确性。

表格1两种方法下计算的词权重

做三组实验，实验一：取1700条微博，850条关于《太阳的后裔》和850条与《太阳的后裔》无关的微博。实验二：取1800条微博，900条关于《太阳的后裔》和900条与《太阳的后裔》无关的微。实验三：取1900条微博，950条关于《太阳的后裔》和950条与《太阳的后裔》无关的微博。用CHI方法和提出的方法来进行特征项的选择。表2是3组实验数据的结果对比图。根据文献^[8]微平均精确率(micro-averaging precision)，被普遍的用于交叉验证的比较。这里它来比较不同的特征选择算法的效果。图2显示的是SVM分类器分别采用CHI方法和基于结合CHI和改进的TF-IDF算法的方法在微博数据集上的micro-P曲线。从图2可知用不同方法分别获取400，800，1200，1600个特征项时时SVM分类器的micro_P值中可以看出基于基于结合CHI和改进TF-IDF算法的方法提取的特征项在一定程度上提高了查准率。

表2三组实验数据的结果对比图

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种微博特征项提取方法，其特征在于，包括:

首先获取的总闻News＝{D₁,D₂,...,D_i}，D_i表示为所有新闻中的第i条新闻,第i条新闻中的所用词语即可以表示Di＝{word₁,word₂,...,word_n}(i∈j+z)；；

然后获取其中一类中的所有不同词AW_m＝{word₁word₂,...,word_m}，按上述公式得到每个文本中每个词的词频

再计算不属于那一类的所有词的词频

接着用公式来计算一个类中所有词的CHI值；

用公式来计算每个词在每篇文本中所占权重即可得到每个词的权重和其中，t_ij是代表了第i个文本中的第j个特征项，tf_ij代表了特征项j出现在文本i的频率，W_ij代表了特征项t_ij的权重，log(N/n_ij+0.01)为逆文档频率，N是代表文档的总数，n_ij是代表包含了所有t_ij的文本数量；

再结合所述CHI值，根据公式重新给一个类的所有词赋权；

最后通过公式SWW_m＝{WW₁,WW₂,...,WW_m}计算一个类中每个词语的权重。

2.根据权利要求1所述的微博特征项提取方法，其特征在于，

步骤所述用公式来计算每个词在每篇文本中所占权重包括：

3.根据权利要求1所述的微博特征项提取方法，其特征在于，

步骤所述通过公式SWW_m＝{WW₁,WW₂,...,WW_m}计算一个类中每个词语的权重之后还包括输出微博的分类结果。

4.根据权利要求1所述的微博特征项提取方法，其特征在于，

所述微博的开放平台为API；

所述总闻使用网络爬虫技术获取2015年3月—2015年4月的微博。

5.一种应用于权利要求1至4中任一项所述的微博特征项提取方法的改进TF-IDF归一化方法，其特征在于，包括：

根据公式为特征项赋权。