CN106502990A - 一种微博特征项提取方法和改进tf‑idf归一化方法 - Google Patents

一种微博特征项提取方法和改进tf‑idf归一化方法 Download PDF

Info

Publication number
CN106502990A
CN106502990A CN201610969960.8A CN201610969960A CN106502990A CN 106502990 A CN106502990 A CN 106502990A CN 201610969960 A CN201610969960 A CN 201610969960A CN 106502990 A CN106502990 A CN 106502990A
Authority
CN
China
Prior art keywords
word
characteristic item
text
represent
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610969960.8A
Other languages
English (en)
Inventor
严萌
朱燕飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201610969960.8A priority Critical patent/CN106502990A/zh
Publication of CN106502990A publication Critical patent/CN106502990A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种微博特征项提取方法和改进TF‑IDF归一化方法,结合CHI方法和改进TF‑IDF归一化方法的方法来提取特征项,从而来降低空间向量的维数。由于考虑到了中文词中存在一义多词或一词多义的缘故,对传统的归一化TF‑IDF归一化方法进行了一些改进,即在计算词的权重时结合了词的语义。通过该归一化方法来提取特征项不仅可以降低建空间向量时的维度,而且还可以减少话题的重复性,但在计算权重后容易忽略一些有利于分类的低频词,故在改进TF‑IDF归一化方法的同时还结合了CHI统计方法,该方法可以发现一些有利于文本分类结果的低频词。故能从一定程度上提高话题检测的准确率和速度。

Description

一种微博特征项提取方法和改进TF-IDF归一化方法
技术领域
本发明涉及文本信息技术领域,尤其涉及一种微博特征项提取方法。
背景技术
微博,即微博客的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB,WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。其具有发布信息快速,传播速度快的特点。
微博技术的高速发展极大地促进了人们的沟通和交流,为人类的文明和发展做出了巨大的贡献。但信息爆炸式的增长带来的消极影响日益凸现。特别是随着各大微博网站的不断普及等因素,网上所能提供的信息也在急剧增多,信息产生的速度远远超过人们对信息的利用能力。如何从海量的信息中过滤掉用户不需要的,而快速定位用户感兴趣的信息,就成为了一个重要的问题。CHI统计方法是目前最好的特征选择方法之一。与其他方法相比,分类效果好。大多数中文分类系统都采用这种方法,可是该方法仍然存在下面几个缺点:
(1)CHI统计方法只是由于考虑到了词的文档频,然而并无顾及到特征的词频,因此极大的放大了低频词的作用。
(2)特征词的CHI值是将特征词对一个类别的CHI值与其余不同类别的卡方值做对比,CHI值很可能把对某一特定的类别的贡献低而对其它的类的贡献高的特征词给选择出来。
发明内容
本发明提供了一种微博特征项提取方法,改进TF-IDF归一化方法的同时还结合了CHI统计方法,故能从一定程度上提高话题检测的准确率和速度。
本发明提供了一种微博特征项提取方法包括:
首先获取的总闻News={D1,D2,...,Di},
Di表示为所有新闻中的第i条新闻,第i条新闻中的所用词语即可以表示Di={word1,word2,...,wordn}(i∈j+z);;
然后获取其中一类中的所有不同词
AWm={word1word2,...,wordm},按上述公式得到每个文本中每个词的词频
再计算不属于那一类的所有词的词频
接着用公式来计算一个类中所有词的CHI值;
用公式
来计算每个词在每篇文本中所占权重即可得到每个词的权重和
再结合所述CHI值,根据公式重新给一个类的所有词赋权;
最后通过公式SWWm={WW1,WW2,...,WWm}计算一个类中每个词语的权重。
可选的,
步骤所述用公式来计算每个词在每篇文本中所占权重包括:
ε为文本i中包含的特征项tij和与特征项tij相似度大于γ的特征项的个数之和与特征项tij的个数的商,mij表示包含特征项tij或与特征项tij的相似度大于γ的特征项的文本个数,γ是系统设定值。
可选的,
步骤所述通过公式SWWm={WW1,WW2,...,WWm}计算一个类中每个词语的权重之后还包括输出微博的分类结果。
可选的,
所述微博的开放平台为API;
所述总闻使用网络爬虫技术获取2015年3月-2015年4月的微博。
本发明还提供了一种应用于权利要求1至4中任一项所述的微博特征项提取方法的改进TF-IDF归一化方法,包括:
根据公式为特征项赋权。
来计算每个词在每篇文本中所占权重即可得到每个词的权重和其中,tij是代表了第i个文本中的第j个特征项,tfij代表了特征项j出现在文本i的频率,Wij代表了特征项tij的权重,log(N/nij+0.01)为逆文档频率,N是代表文档的总数,nij是代表包含了所有tij的文本数量;
ε为文本i中包含的特征项tij和与特征项tij相似度大于γ的特征项的个数之和与特征项tij的个数的商,mij表示包含特征项tij或与特征项tij的相似度大于γ的特征项的文本个数,γ是系统设定值。
从以上技术方案可以看出,本发明实施例具体有以下优点:
本发明技术方案结合CHI方法和改进TF-IDF归一化方法的方法来提取特征项,从而来降低空间向量的维数。由于考虑到了中文词中存在一义多词或一词多义的缘故,对传统的归一化TF-IDF归一化方法进行了一些改进,即在计算词的权重时结合了词的语义。通过该归一化方法来提取特征项不仅可以降低建空间向量时的维度,而且还可以减少话题的重复性,但在计算权重后容易忽略一些有利于分类的低频词,故在改进TF-IDF归一化方法的同时还结合了CHI统计方法,该方法可以发现一些有利于文本分类结果的低频词。故能从一定程度上提高话题检测的准确率和速度。
附图说明
图1为本发明中一种微博特征项提取方法实施例中权重结果对比仿真图;
图2为本发明中采用不同方法提取特征的SVM分类器性能比较;
图3为为本发明中一种微博特征项提取方法流程图。
具体实施方式
本发明提供了一种微博特征项提取方法,改进TF-IDF归一化方法的同时还结合了CHI统计方法,故能从一定程度上提高话题检测的准确率和速度。
CHI方法分类效果相对较好的结论提出结合传统的互信息方法和CHI统计方法,使得查全率和查准率都得到了明显的提高。
CHI统计方法的思想是假设特征项w与类别c之间的关系是类似于具有一维自由度的χ2分布。w对于c的统计量可计算为:
其中,A代表的是包含了特征项w并且还是属于类别c的文档个数,B则代表的是包含特征项w但它不是属于类别c的文档个数,而C则是代表没有特征项w可属于类别c的文档个数,D代表既没有特征项w也不属于类别的文档个数,N则当时所有的文档个数。
该方法用来衡量类别c之间与类别c之间的关联度。当类别c和特征项w相互独立时,有χ2(w,c)=0。而当类别c和特征项w的关联性越强,χ2(w,c)的值就会越大,其价值越大,其识别信息量就越大。
在式(1)中表现为:AD-BC>0,说明类别和特征项是成正相关的,有特征项的出现,则说明了该文档很可能是属于某一个类别的,所以此时的CHI值越大,则有这个特征项的文档就越有可能是属于某一个类别。相反,AD-BC<0,则说明类别和特征项是成负相关的,所以词特征项的出现可以知道该文档根本就不可能是属于某一个类,则有,当CHI值越大,含该特征项的文档就越不可能是属于某一个类的。
本发明提供了一种微博特征项提取方法原理包括:
首先获取的总闻News={D1,D2,...,Di},Di表示为所有新闻中的第i条新闻,第i条新闻中的所用词语即可以表示
Di={wora1,word2,...,wordn}(i∈j+z);;
然后获取其中一类中的所有不同词,
AWm={word1 word2,...,wordm},按上述公式得到每个文本中每个词的词频
再计算不属于那一类的所有词的词频
接着用公式来计算一个类中所有词的CHI值;
用公式
来计算每个词在每篇文本中所占权重即可得到每个词的权重和
再结合所述CHI值,根据公式重新给一个类的所有词赋权;
最后通过公式SWWm={WW1,WW2,...,WWm}计算一个类中每个词语的权重。
需要说明的是,
的改进,
其中,tij是代表了第i个文本中的第j个特征项,tfij代表了特征项i出现在文本i的频率,Wij代表了特征项tij的权重,log(N/nij+0.01)为逆文档频率,N是代表文档的总数,nij是代表包含了所有tij的文本数量;
ε为文本i中包含的特征项tij和与特征项tij相似度大于γ的特征项的个数之和与特征项tij的个数的商,mij表示包含特征项tij或与特征项tij的相似度大于γ的特征项的文本个数,γ是系统设定值。因为使用结合语义的相似度会使一个特征项所表达的语义分散到多个不同的特征项中进行表达,这会使得语义被分散,为了降低这种现象的影响,使用替代代替tfij
通过公式SWWm={WW1,WW2,...,WWm}计算一个类中每个词语的权重之后还包括输出微博的分类结果,具体在后续实施例中进行描述。
实验数据来自于微博开放平台API,使用网络爬虫技术获取2015年3月-2015年4月的微博,将每个微博文本的内容当成一个部分。利用结合CHI和改进的TF-IDF算法的方法来提取特征项来减少微博文本的维度。电脑系统Window7,RAM 6G。软件用Java编程,用MATLAB7.0实现结果的对比。
本发明还提供了一种改进TF-IDF归一化方法,包括:
具体为在原始TF-IDF算法中将公式
用公式来替换。
需要说明的是,ε为文本i中包含的特征项tij和与特征项tij相似度大于γ的特征项的个数之和与特征项tij的个数的商,mij表示包含特征项tij或与特征项tij的相似度大于γ的特征项的文本个数,γ是系统设定值。因为使用结合语义的相似度会使一个特征项所表达的语义分散到多个不同的特征项中进行表达,这会使得语义被分散,为了降低这种现象的影响,使用替代代替tfij
本发明技术方案结合CHI方法和改进TF-IDF归一化方法的方法来提取特征项,从而来降低空间向量的维数。由于考虑到了中文词中存在一义多词或一词多义的缘故,对传统的归一化TF-IDF归一化方法进行了一些改进,即在计算词的权重时结合了词的语义。通过该归一化方法来提取特征项不仅可以降低建空间向量时的维度,而且还可以减少话题的重复性,但在计算权重后容易忽略一些有利于分类的低频词,故在改进TF-IDF归一化方法的同时还结合了CHI统计方法,该方法可以发现一些有利于文本分类结果的低频词。故能从一定程度上提高话题检测的准确率和速度在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
下面以一个实际应用中的例子进行说明:
获取2000条关于《太阳的后裔》的微博和2000条与《太阳的后裔》无关的微博。有NEWS={{Dx1,Dx2,...,Dxn},{Dx1,Dx2,...,Dxn}},SCN=NEWS。
将获得微博数据使用ICTCLAS分词系统进行预处理,对中文微博信息进行分词和词性标注,然后去掉停用词得到词Wi={W1,W2,...,Wi}。把获取的微博数据SCN分为两类一类是《太阳的后裔》和另一类非《太阳的后裔》,取这两类中的所有不同的词即为Wp={{W1,W2,...,Wj},{W1,W2,...,Wk}}。再计算每个微博中每个词的词频即为从SCN的一类中取得所有不同词AWm={word1 word2,...,wordm}。
根据上述公式给所有不同词来计算CHI值,再根据WFn结合上述公式给每条微博中的每个词赋权。再按权重大小获取每条微博中词语权重排在前66.6%的词。
在计算留下词的所有权重之和得到WTIF={wtif1,wtif2,...,wtifm}。然后将得到的值正规化得到WEm={we1,we2,...,wem}。
据公式重新给词赋权得到的NWm。根据权重大小留下前2/3的词作为特征项,经过计算得每个类分别有1200,900,850,800,750个词,特征项个数为1000,800,750个。
如下表格1是传统的归一化TF-IDF算法与改进的TF-IDF算法对词权重计算的结果。从图1可以得出在改进的TF-IDF算法下得到权重都比传统的算法得到的值大,这是因为我们在计算的时候由于考虑到了词语的语义,将近义词归在一起求值。因此改进后的方法可以减少由词的近义词所引起的误差。提高了计算的准确性。
表格1两种方法下计算的词权重
做三组实验,实验一:取1700条微博,850条关于《太阳的后裔》和850条与《太阳的后裔》无关的微博。实验二:取1800条微博,900条关于《太阳的后裔》和900条与《太阳的后裔》无关的微。实验三:取1900条微博,950条关于《太阳的后裔》和950条与《太阳的后裔》无关的微博。用CHI方法和提出的方法来进行特征项的选择。表2是3组实验数据的结果对比图。根据文献[8]微平均精确率(micro-averaging precision),被普遍的用于交叉验证的比较。这里它来比较不同的特征选择算法的效果。图2显示的是SVM分类器分别采用CHI方法和基于结合CHI和改进的TF-IDF算法的方法在微博数据集上的micro-P曲线。从图2可知用不同方法分别获取400,800,1200,1600个特征项时时SVM分类器的micro_P值中可以看出基于基于结合CHI和改进TF-IDF算法的方法提取的特征项在一定程度上提高了查准率。
表2三组实验数据的结果对比图
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种微博特征项提取方法,其特征在于,包括:
首先获取的总闻News={D1,D2,...,Di},Di表示为所有新闻中的第i条新闻,第i条新闻中的所用词语即可以表示Di={word1,word2,...,wordn}(i∈j+z);;
然后获取其中一类中的所有不同词AWm={word1word2,...,wordm},按上述公式得到每个文本中每个词的词频
再计算不属于那一类的所有词的词频
接着用公式来计算一个类中所有词的CHI值;
用公式来计算每个词在每篇文本中所占权重即可得到每个词的权重和其中,tij是代表了第i个文本中的第j个特征项,tfij代表了特征项j出现在文本i的频率,Wij代表了特征项tij的权重,log(N/nij+0.01)为逆文档频率,N是代表文档的总数,nij是代表包含了所有tij的文本数量;
再结合所述CHI值,根据公式重新给一个类的所有词赋权;
最后通过公式SWWm={WW1,WW2,...,WWm}计算一个类中每个词语的权重。
2.根据权利要求1所述的微博特征项提取方法,其特征在于,
步骤所述用公式来计算每个词在每篇文本中所占权重包括:
ε为文本i中包含的特征项tij和与特征项tij相似度大于γ的特征项的个数之和与特征项tij的个数的商,mij表示包含特征项tij或与特征项tij的相似度大于γ的特征项的文本个数,γ是系统设定值。
3.根据权利要求1所述的微博特征项提取方法,其特征在于,
步骤所述通过公式SWWm={WW1,WW2,...,WWm}计算一个类中每个词语的权重之后还包括输出微博的分类结果。
4.根据权利要求1所述的微博特征项提取方法,其特征在于,
所述微博的开放平台为API;
所述总闻使用网络爬虫技术获取2015年3月—2015年4月的微博。
5.一种应用于权利要求1至4中任一项所述的微博特征项提取方法的改进TF-IDF归一化方法,其特征在于,包括:
根据公式为特征项赋权。
来计算每个词在每篇文本中所占权重即可得到每个词的权重和其中,tij是代表了第i个文本中的第j个特征项,tfij代表了特征项j出现在文本i的频率,Wij代表了特征项tij的权重,log(N/nij+0.01)为逆文档频率,N是代表文档的总数,nij是代表包含了所有tij的文本数量;
ε为文本i中包含的特征项tij和与特征项tij相似度大于γ的特征项的个数之和与特征项tij的个数的商,mij表示包含特征项tij或与特征项tij的相似度大于γ的特征项的文本个数,γ是系统设定值。
CN201610969960.8A 2016-10-27 2016-10-27 一种微博特征项提取方法和改进tf‑idf归一化方法 Pending CN106502990A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610969960.8A CN106502990A (zh) 2016-10-27 2016-10-27 一种微博特征项提取方法和改进tf‑idf归一化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610969960.8A CN106502990A (zh) 2016-10-27 2016-10-27 一种微博特征项提取方法和改进tf‑idf归一化方法

Publications (1)

Publication Number Publication Date
CN106502990A true CN106502990A (zh) 2017-03-15

Family

ID=58321038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610969960.8A Pending CN106502990A (zh) 2016-10-27 2016-10-27 一种微博特征项提取方法和改进tf‑idf归一化方法

Country Status (1)

Country Link
CN (1) CN106502990A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108462A (zh) * 2017-12-29 2018-06-01 河南科技大学 一种基于特征分类的文本情感分析方法
CN108228569A (zh) * 2018-01-30 2018-06-29 武汉理工大学 一种基于松散条件下协同学习的中文微博情感分析方法
CN109033133A (zh) * 2018-06-01 2018-12-18 杭州电子科技大学 基于特征项权重增长趋势的事件检测与跟踪方法
CN109101485A (zh) * 2018-07-09 2018-12-28 重庆邂智科技有限公司 一种信息处理方法、装置、电子设备及计算机存储介质
CN110705247A (zh) * 2019-08-30 2020-01-17 山东科技大学 基于χ2-C的文本相似度计算方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
US20130185308A1 (en) * 2012-01-13 2013-07-18 International Business Machines Corporation System and method for extraction of off-topic part from conversation
CN103886108A (zh) * 2014-04-13 2014-06-25 北京工业大学 一种不均衡文本集的特征选择和权重计算方法
CN104408033A (zh) * 2014-11-25 2015-03-11 中国人民解放军国防科学技术大学 一种文本信息提取的方法及系统
CN104834632A (zh) * 2015-05-13 2015-08-12 北京工业大学 一种基于语义扩充的微博话题检测和热度评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130185308A1 (en) * 2012-01-13 2013-07-18 International Business Machines Corporation System and method for extraction of off-topic part from conversation
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103886108A (zh) * 2014-04-13 2014-06-25 北京工业大学 一种不均衡文本集的特征选择和权重计算方法
CN104408033A (zh) * 2014-11-25 2015-03-11 中国人民解放军国防科学技术大学 一种文本信息提取的方法及系统
CN104834632A (zh) * 2015-05-13 2015-08-12 北京工业大学 一种基于语义扩充的微博话题检测和热度评估方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAIBO TANG ET AL: "A Method of Text Dimension Reduction Based on CHI and TF-IDF", 《4TH INTERNATIONAL CONFERENCE ON MECHATRONICS, MATERIALS, CHEMISTRY AND COMPUTER ENGINEERING (ICMMCCE 2015)》 *
杨武等: "基于用户角色定位的微博热点话题检测方法", 《计算机应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108462A (zh) * 2017-12-29 2018-06-01 河南科技大学 一种基于特征分类的文本情感分析方法
CN108228569A (zh) * 2018-01-30 2018-06-29 武汉理工大学 一种基于松散条件下协同学习的中文微博情感分析方法
CN109033133A (zh) * 2018-06-01 2018-12-18 杭州电子科技大学 基于特征项权重增长趋势的事件检测与跟踪方法
CN109101485A (zh) * 2018-07-09 2018-12-28 重庆邂智科技有限公司 一种信息处理方法、装置、电子设备及计算机存储介质
CN110705247A (zh) * 2019-08-30 2020-01-17 山东科技大学 基于χ2-C的文本相似度计算方法
CN110705247B (zh) * 2019-08-30 2020-08-04 山东科技大学 基于χ2-C的文本相似度计算方法

Similar Documents

Publication Publication Date Title
WO2022126971A1 (zh) 基于密度的文本聚类方法、装置、设备及存储介质
Younis Sentiment analysis and text mining for social media microblogs using open source tools: an empirical study
Guo et al. Research and improvement of feature words weight based on TFIDF algorithm
CN106502990A (zh) 一种微博特征项提取方法和改进tf‑idf归一化方法
Khuc et al. Towards building large-scale distributed systems for twitter sentiment analysis
CN102012985B (zh) 一种基于数据挖掘的敏感数据动态识别方法
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
Bates et al. Counting clusters in twitter posts
CN108197144B (zh) 一种基于BTM和Single-pass的热点话题发现方法
CN102184256A (zh) 一种针对海量相似短文本的聚类方法和系统
Man Feature extension for short text categorization using frequent term sets
CN109885813A (zh) 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质
CN104408033A (zh) 一种文本信息提取的方法及系统
CN104077723A (zh) 一种社交网络推荐系统及方法
CN106294473B (zh) 一种实体词挖掘方法、信息推荐方法及装置
CN107608980A (zh) 基于dpi大数据分析的信息推送方法和系统
CN106649262B (zh) 一种社交媒体中企业硬件设施敏感信息防护方法
CN105117466A (zh) 一种互联网信息筛选系统及方法
Aliguliyev A novel partitioning-based clustering method and generic document summarization
Wang et al. Instant message clustering based on extended vector space model
CN104881446A (zh) 搜索方法及装置
CN106408316A (zh) 用于识别客户的方法及装置
US20130282759A1 (en) Method and system for processing search queries
Sui et al. Sentiment analysis of Chinese micro-blog using semantic sentiment space model
CN109918661A (zh) 同义词获取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315