CN103914551A - 一种微博语义信息扩充和特征选取方法 - Google Patents

一种微博语义信息扩充和特征选取方法 Download PDF

Info

Publication number
CN103914551A
CN103914551A CN201410146932.7A CN201410146932A CN103914551A CN 103914551 A CN103914551 A CN 103914551A CN 201410146932 A CN201410146932 A CN 201410146932A CN 103914551 A CN103914551 A CN 103914551A
Authority
CN
China
Prior art keywords
microblogging
text
information
feature
chi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410146932.7A
Other languages
English (en)
Inventor
刘磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201410146932.7A priority Critical patent/CN103914551A/zh
Publication of CN103914551A publication Critical patent/CN103914551A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种微博语义信息扩充和特征选取方法,属于文本信息处理领域,具体是涉及微博语义信息扩充和特征选取方法及系统。本发明是基于改进卡方统计的微博特征提取方法。首先扩充微博信息分类特征,在传统的卡方统计量的基础上,引入了频度因素,改进特征选择方法。然后在传统的特征项权值计算的基础上,提出了新的改进卡方统计量的方法,改进权重计算效果,该方法提高了微博信息分类的准确率。

Description

一种微博语义信息扩充和特征选取方法
技术领域
本发明属于文本信息处理领域,具体是涉及一种微博语义信息扩充和特征选取方法及系统。
背景技术
微博,即微博客的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。其具有发布信息快速,传播速度快的特点。
微博技术的高速发展极大地促进了人们的沟通和交流,为人类的文明和发展做出了巨大的贡献。但信息爆炸式的增长带来的消极影响日益凸现。特别是随着各大微博网站的不断普及等因素,网上所能提供的信息也在急剧增多,信息产生的速度远远超过人们对信息的利用能力。如何从海量的信息中过滤掉用户不需要的,而快速定位用户感兴趣的信息,就成为了一个重要的问题。
随着微博等网络媒体的兴起,传统文本的分类已经不能满足人们对网络即时信息的分类要求。而以微博为代表的短文本分类成为了研究热点。微博信息自动分类技术可以帮助用户有效收集和选择其所感兴趣的微博信息,过滤微博垃圾信息,为微博信息检索提供更高效的搜索策略和更准确的查询结果。
文本分类中的一个基本问题就是文本的特征选取问题,这直接影响到分类的最终效果。而微博具有信息短小,不规则文本多,语义稀疏的特点,直接使用传统的特征选取和文本分类方法已经不适用。必须分析微博信息的自身特点,给出一些新的改进方法,以提高分类的准确率。
发明人通过综合考虑微博文本在语义信息补充方法和特征选取方法,克服了传统分类方法面对微博类短文本的语义稀疏问题的局限性。
发明内容
本发明的目的在于针对微博的分类问题,提出一种微博语义特征扩充和特征选取方法与系统。本发明综合考虑了微博与传统文本的区别,根据微博自身特点,给出了微博语义信息补充方法和特征选取方法,克服了传统分类方法面对微博类短文本的语义稀疏问题的局限性。
本发明提出的方法依次按以下步骤实现的:
步骤(1)分析微博相关信息,定义语义特征
引入与微博分类相关度较高的信息弥补语义稀疏,包括发布者的个人信息,微博内容中相关链接信息,微博评论内容。这些特征与微博的正文一起被称为微博的混合特征。分析这些微博混合特征对微博分类的影响程度,定义微博混合特征为四元组T=(T1,T2,T3,T4):
T1:作者个人信息:个人介绍,认证情况,标签内容。
T2:正文部分。
T3:链接中的内容:正文中出现的超链接所指向的网页内容,正文中到的人的个人信息。
T4:评论的内容。
步骤(2)根据步骤(1)中微博语义特征定义,扩充微博语义信息
对每条微博信息进行如下处理
步骤(2.1)根据网页HTML标记,获取微博发布人的个人信息,包括个人介绍,认证情况;
步骤(2.2)提取微博正文部分,去除符号标记,保留文本内容;
步骤(2.3)提取微博正文中出现的超链所指向的网页文本,正文中到的人的个人信息文本;
步骤(2.4)提取微博的所有评论内容,以去除停用词后的评论长度大于4个汉字、评论人为认证用户为条件进行过滤,选取有效评论作为评论特征;
步骤(2.5)对以上所有文本内容进行分词处理,得到文本词串,将文本串中的名词、动词、形容词作为语义特征词。
步骤(2.6)将以上微博相关语义特征信息合并作为微博语义信息。;
步骤(3)根据改进特征选取方法,进行微博的特征选取
对每条微博的语义信息按照如下步骤进行语义特征选取
步骤(3.1)引入频度改进卡方统计量
引入参数α(频度)来进行调节,其主要是为了解决卡方统计量方法对文档频率低的特征词不可靠的问题。频度计算公式如下式:
这里t表示特征项,c表示某一个微博类别,α(t,c)取值范围为[0,1]之间。
步骤(3.2)去除微博特征项中出现与类别负相关的情况
在卡方统计量公式里删除特征出现与所属类别负相关的情况,表示成下式:
χ 2 ( ω , c ) = N × ( AD - CB ) 2 ( A + C ) ( B + D ) ( A + B ) ( C + D ) 0 , AD - BC ≤ 0
这里N表示训练语料中的微博总数,c为某一特定类别,w表示特定的特征项,A表示属于类别c且包含特征项w的微博频数,B为不属于类别c但包含特征项w的微博频数,C表示属于类别c但不包含特征项w的微博频数,D表示既不属于类别c也不包含特征项w的微博频数。
结合以上公式得改进后的卡方统计量公式如下:
这里χ2(w,c)取值范围为[0,+∞)之间。
步骤(3.3)对微博特征项的权重计算部分进行修改
引入改进后的卡方统计量的值χ2,把这些在特征选择时计算值也引入后得到如下归一化后的公式:
W ( t , d ) = tf ( t , d ) × log ( N / n t + 0.01 ) × χ 2 t Σ t ∈ d [ tf ( t , d ) × log ( N / n t + 0.01 ) × χ 2 t ] 2
其中t表示特征项,N为微博文本总数,0.01为常数,nt为出现特征项t的微博文本数,χ2t表示特征项t的卡方统计量的值,tf(t,d)表示一个特征词t在某个文本d中出现的次数。W(t,d)取值范围为[0,1]之间。
步骤(4)输出分类结果。
附图说明
图1本发明实现微博语义信息扩充和特征选取方法及系统的流程图;
图2语义特征示意图;
图3具体实施方式中KNN分类器下的准确率对比;
图4具体实施方式中SVM分类器下的准确率对比。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步的详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
根据图1所示,本发明提出的方法是依次按以下步骤实现的:
步骤(1)分析微博相关信息,定义微博语义特征。
由于微博自身字数限制等原因,微博正文部分的语义稀疏不可避免。但是因为微博可以显示其他短文本不具有的信息,如作者个人信息,评论内容等信息。因此这里提出一种将这些信息与正文部分一起,组成微博信息进行分类的方法。微博相关信息分析如表1所示。
表1微博相关信息分析
引入这些与微博分类相关度较高的信息弥补语义稀疏的问题,包括发布者的个人信息,微博内容中相关链接信息,微博评论内容等。这些特征与微博的正文一起被称为微博的混合特征。
为了便于测试这些微博混合特征对微博分类的影响程度,定义微博混合特征为一个四元组T=(T1,T2,T3,T4):
T1:作者个人信息:
个人介绍,认证情况,标签内容。
T2:正文部分
T3:相关链接中的内容
正文中出现的超链接所指向的网页内容,正文中到的人的个人信息。
T4:评论的内容(以被认证的用户为主)
由于评论的部分可能数量巨大,而且包含一些很短的无效评论,如“支持”,“太对”等。因此经过语料分析,以去除停用词后的评论长度大于4个汉字、评论人为认证用户为条件进行过滤,选取有效评论作为评论特征。
这4部分的微博示例如图1所示。通过图1中作者,链接,回复等超链接,可以获得更全面的微博综合特征。把T1,T2,T3,T4综合起来,填补了缺失的信息,就比较容易判断是属于体育类的一条微博。因为填补了一些和体育类别高度相关的特征,如体育解说员,足球,运动员,中场,中卫等。
步骤(2)根据步骤(1)中微博语义特征定义,扩充微博语义信息
对每条微博信息进行如下处理
步骤(2.1)根据网页HTML标记,获取微博发布人的个人信息,包括个人介绍,认证情况;
步骤(2.2)提取微博正文部分,去除符号标记,保留文本内容;
步骤(2.3)提取微博正文中出现的超链所指向的网页文本,正文中到的人的个人信息文本;
步骤(2.4)提取微博的所有评论内容,以去除停用词后的评论长度大于4个汉字、评论人为认证用户为条件进行过滤,选取有效评论作为评论特征;
步骤(2.5)对以上所有文本内容进行分词处理,得到文本词串,将文本串中的名词、动词、形容词作为语义特征词。
步骤(2.6)将以上微博相关语义特征信息合并作为微博语义信息。;
步骤(3)根据改进特征选取方法,进行微博的特征选取
卡方统计量方法由于有归一化,统计理论支持等特点,在中文分类系统的特征选择中被广泛应用。CHI统计方法是目前最好的特征选择方法之一。与其他方法相比,CHI大约减少了50%的词汇,分类效果好,且性能随特征维数变化比较稳定。
传统卡方统计量是一个归一化的统计量。它对于低频特征项的区分效果仍然不是很好。因此对短文本的处理存在着一些缺陷。本发明针对两个主要的缺陷进行了改进。
令N表示训练语料中的微博总数,c为某一特定类别,w表示特定的特征项,A表示属于类别c且包含特征项w的微博频数,B为不属于类别c但包含特征项w的微博频数,C表示属于类别c但不包含特征项w的微博频数,D表示既不属于类别c也不包含特征项w的微博频数。
特征项w对于微博类别c的CHI值由(1)公式计算:
χ 2 ( ω . c ) = N × ( AD - CB ) 2 ( A + C ) ( B + D ) ( A + B ) ( C + D ) - - - ( 1 )
且有:N=A+B+C+D
公式(1)的结果反映了特征项w和文档类别C直接的相关程度。统计值越大,相关程度越高
步骤(3.1)引入频度改进卡方统计量,对特征选择部分进行改进
卡方统计量只计算了特征词在所有文档中出现的次数,没有计算特征在某一文档中出现的频数。如果某一特征词在某一类文档的少量文本中出现的次数很多,而在其他文档中没有出现,那么通过传统公式计算得出的χ2值可能会很低,但是这种特征词很可能对分类的贡献较大。比如“进球”“破门”在体育类里的足球类中出现次数较多,应该对于属于体育类有重要的作用,但在其他体育项目里很少出现,按公式(1)计算出的得分不会高,如果引入词频则可提高这些特征的权重。
因此,引入参数α(频度)来进行调节,其主要是为了解决卡方统计量方法对文档频率低的特征词不可靠的问题。频度计算公式如(2)式:
在卡方分布公式中乘以这个频度,这样调节的好处是考虑了词频的影响(词频越高对分类贡献越大)。
步骤(3.2)去除特征项的出现与类别负相关的情况
由卡方的计算公式可看出,B和C都比较大,而A和D都比较小,并且BC>AD,比如星座类别里“中国”这种特征词,它在星座类别的文档中出现比较少,而在其他类别的文档中普遍存在,很显然这种特征词按卡方公式(1)计算的分数较大,但是对分类的贡献不大,在特征选择的时候应该被排除,在卡方统计量公式里删除特征出现与所属类别负相关的情况,可表示成(3)式:
χ 2 ( ω , c ) = N × ( AD - CB ) 2 ( A + C ) ( B + D ) ( A + B ) ( C + D ) 0 , AD - BC ≤ 0 - - - ( 3 )
结合(2)和(3)得改进后的卡方统计量公式(4):
步骤(3.3)权重计算部分的改进
传统的权重计算方法应用最多的tf*idf方法。一个有效的分类特征项应该既能体现所属类别的内容,又能将该类别同其他类别相区分。归一化后的传统tf*idf方法见公式(7):
W ( t , d ) = tf ( t , d ) × log ( N / n t + 0.01 ) × χ 2 t Σ t ∈ d [ tf ( t , d ) × log ( N / n t + 0.01 ) ] 2 - - - ( 5 )
引入改进后的卡方统计量的值χ2(4式所示),把这些在特征选择时计算值也引入到(5)式中,得到归一化后的公式(6):
W ( t , d ) = tf ( t , d ) × log ( N / n t + 0.01 ) × χ 2 t Σ t ∈ d [ tf ( t , d ) × log ( N / n t + 0.01 ) × χ 2 t ] 2 - - - ( 6 )
其中t表示特征项,N为微博文本总数,0.01为常数,nt为出现特征项t的微博文本数,χ2 t表示特征项t的卡方统计量的值,tf(t,d)表示一个特征词t在某个文本d中出现的次数。W(t,d)取值范围为[0,1]之间。
这样就对卡方统计量在特征选择和权重计算两方面都进行了改进,这里称为改进卡方统计量方法。(以下简称改进的CHI)
步骤(4)根据补充语义信息和改进的特征选取方法进行微博分类效果测试。
为了检验本发明的方法相对于传统方法有所改进,本发明进行了如下实验。
采集了部分新浪微博语料进行的实验分析。总共7类别(体育,健康,娱乐,星座,社会,科技,财经),其中训练文本700篇,测试文本349篇,类分布比较均匀。概率估算方法方面,测试了布尔统计(0-1型,只统计特征词是否在微博中出现)和词频统计(统计特征词在一条微博信息中出现的次数)两种。选取的实验参数如下:
特征选择方法:χ2统计
特征加权算法:tf*idf
分类器:KNN,SVM。其中KNN中距离函数采用了常用的欧几里得距离;近邻数k由检测实验确定,即根据k不同取值下,检测集(检测集由从测试文本中每个类别各取15篇,合计105篇构成)的分类错误率来确定,经过测试,k取值为18。SVM分类器使用了LIBSVM软件包,选用RBF函数(Radial Basis Function),利用交叉验证方式确定参数C和γ。
使用的评价指标:
(1)改进的CHI与传统CHI对比
这里选取了不同特征组合,比较了改进的CHI与传统CHI方法在KNN下的分类结果,特征选择的空间维数取1000(表2)。
从表2中看出,正文+链接+评论+作者信息的效果最好,这里称为4F法。
4F法的传统卡方和改进卡方的准确率分别达到75.33%和80.13%,比只用正文部分分类的59.77%和58.05%有了较明显的提高,这说明了微博语义特征扩充方法的有效性。并且改进的卡方统计量在大多数情况下要优于传统的卡方统计量,这说明改进的卡方统计量是有效的。
由于4F法比其它特征组合更加有效,所以以下实验分析中都在4F特征下,对比改进的卡方与其它方法的分类效果。
表2传统CHI与改进的CHI的对比
(2)改进的CHI在不同特征维数下的表现
对改进的CHI在微博语义特征下,用KNN和SVM分类器下进行试验,实验结果如图3和图4。
从图3和图4中可以看出:随着特征维数的增加,传统的CHI的准确率不稳定,总体呈下降趋势。而改进的CHI的准确率随维数增加总体呈缓慢上升趋势。改进的CHI的准确率普遍优于CHI,且随着维数的增加,大体上优势趋于明显。这说明提出的改进的CHI对于提高微博信息分类的准确率是有效的。而SVM算法的结果好于KNN。
实验结果表明,本发明提出的微博语义信息扩充和特征选取方法相比于传统方法有明显改进。

Claims (1)

1.一种微博语义特征扩充和特征选取方法,按以下步骤实现:
步骤(1)分析微博信息,定义语义特征
引入与微博分类相关度较高的信息弥补语义稀疏,包括发布者的个人信息,微博内容中链接信息,微博评论内容,这些特征与微博的正文一起被称为微博的混合特征,分析这些微博混合特征对微博分类的影响程度,定义微博混合特征为四元组T=(T1,T2,T3,T4):
T1:作者个人信息:个人介绍,认证情况,标签内容;
T2:正文部分;
T3:链接中的内容:正文中出现的超链接所指向的网页内容,正文中到的人的个人信息;
T4:评论的内容;
步骤(2)根据步骤(1)中微博语义特征定义,扩充微博语义信息
对每条微博信息进行如下步骤:
步骤(2.1)根据网页HTML标记,获取微博发布人的个人信息,包括个人介绍,认证情况;
步骤(2.2)提取微博正文部分,去除符号标记,保留文本内容;
步骤(2.3)提取微博正文中出现的超链所指向的网页文本,正文中到的人的个人信息文本;
步骤(2.4)提取微博的所有评论内容,以去除停用词后的评论长度大于4个汉字、评论人为认证用户为条件进行过滤,选取有效评论作为评论特征;
步骤(2.5)对以上所有文本内容进行分词处理,得到文本词串,将文本串中的名词、动词、形容词作为语义特征词;
步骤(2.6)将以上微博相关语义特征信息合并作为微博语义信息;
步骤(3)根据改进特征选取方法,进行微博的特征选取
对每条微博的语义信息按照如下步骤进行语义特征选取
步骤(3.1)引入频度改进卡方统计量
引入参数α(频度)来进行调节,频度计算公式如下式:
步骤(3.2)去除微博特征项中出现与类别负相关的情况
在卡方统计量公式里删除特征出现与所属类别负相关的情况,可表示成下式:
χ 2 ( ω , c ) = N × ( AD - CB ) 2 ( A + C ) ( B + D ) ( A + B ) ( C + D ) 0 , AD - BC ≤ 0
结合以上公式得改进后的卡方统计量公式如下:
步骤(3.3)对微博特征项的权重计算部分进行修改
引入改进后的卡方统计量的值x2,把这些在特征选择时计算值也引入后得到如下归一化后的公式:
W ( t , d ) = tf ( t , d ) × log ( N / n t + 0.01 ) × χ 2 t Σ t ∈ d [ tf ( t , d ) × log ( N / n t + 0.01 ) × χ 2 t ] 2
步骤(4)输出微博的分类结果。
CN201410146932.7A 2014-04-13 2014-04-13 一种微博语义信息扩充和特征选取方法 Pending CN103914551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410146932.7A CN103914551A (zh) 2014-04-13 2014-04-13 一种微博语义信息扩充和特征选取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410146932.7A CN103914551A (zh) 2014-04-13 2014-04-13 一种微博语义信息扩充和特征选取方法

Publications (1)

Publication Number Publication Date
CN103914551A true CN103914551A (zh) 2014-07-09

Family

ID=51040231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410146932.7A Pending CN103914551A (zh) 2014-04-13 2014-04-13 一种微博语义信息扩充和特征选取方法

Country Status (1)

Country Link
CN (1) CN103914551A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361008A (zh) * 2014-10-11 2015-02-18 北京中搜网络技术股份有限公司 一种基于词典或/和阈值的微博分类方法
CN104834632A (zh) * 2015-05-13 2015-08-12 北京工业大学 一种基于语义扩充的微博话题检测和热度评估方法
CN104850650A (zh) * 2015-05-29 2015-08-19 清华大学 基于类标关系的短文本扩充方法
CN107729499A (zh) * 2017-10-20 2018-02-23 网易传媒科技(北京)有限公司 信息处理方法、介质、系统和电子设备
CN108090088A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 特征提取方法及装置
CN109299453A (zh) * 2017-07-24 2019-02-01 华为技术有限公司 一种用于构建词典的方法和装置
CN109739866A (zh) * 2018-12-28 2019-05-10 科大国创软件股份有限公司 一种包含指纹库的自动更新和优化装置及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009295097A (ja) * 2008-06-09 2009-12-17 Ricoh Co Ltd 情報分類装置、情報分類方法、情報処理プログラム及び記録媒体
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009295097A (ja) * 2008-06-09 2009-12-17 Ricoh Co Ltd 情報分類装置、情報分類方法、情報処理プログラム及び記録媒体
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
刘洪君: ""微博网络热点话题发现技术研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
文坤梅,等: ""微博及中文微博信息处理研究综述"", 《中文信息学报》 *
时睿,等: ""一种基于名词的微博语义计算方法"", 《北京电子科技学院学报》 *
杨震,等: ""基于字符串相似性聚类的网络短文本舆情热点发现技术"", 《北京工业大学学报》 *
蒋盛益: ""微博信息挖掘技术研究综述"", 《图书情报工作》 *
高翔: ""基于混合特征的微博信息分类方法研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361008A (zh) * 2014-10-11 2015-02-18 北京中搜网络技术股份有限公司 一种基于词典或/和阈值的微博分类方法
CN104834632A (zh) * 2015-05-13 2015-08-12 北京工业大学 一种基于语义扩充的微博话题检测和热度评估方法
CN104834632B (zh) * 2015-05-13 2017-09-29 北京工业大学 一种基于语义扩充的微博话题检测和热度评估方法
CN104850650A (zh) * 2015-05-29 2015-08-19 清华大学 基于类标关系的短文本扩充方法
CN104850650B (zh) * 2015-05-29 2018-04-10 清华大学 基于类标关系的短文本扩充方法
CN108090088A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 特征提取方法及装置
CN109299453A (zh) * 2017-07-24 2019-02-01 华为技术有限公司 一种用于构建词典的方法和装置
CN107729499A (zh) * 2017-10-20 2018-02-23 网易传媒科技(北京)有限公司 信息处理方法、介质、系统和电子设备
CN109739866A (zh) * 2018-12-28 2019-05-10 科大国创软件股份有限公司 一种包含指纹库的自动更新和优化装置及方法

Similar Documents

Publication Publication Date Title
CN103914551A (zh) 一种微博语义信息扩充和特征选取方法
Wen et al. Emotion classification in microblog texts using class sequential rules
CN102622373B (zh) 一种基于tf*idf算法的统计学文本分类系统及方法
CN100583101C (zh) 基于领域知识的文本分类特征选择及权重计算方法
US8645418B2 (en) Method and apparatus for word quality mining and evaluating
CN103886108B (zh) 一种不均衡文本集的特征选择和权重计算方法
CN103106275B (zh) 基于特征分布信息的文本分类特征筛选方法
Deitrick et al. Author gender prediction in an email stream using neural networks
CN102955857B (zh) 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN106528642A (zh) 一种基于tf‑idf特征提取的短文本分类方法
CN106202372A (zh) 一种网络文本信息情感分类的方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN104965823A (zh) 一种基于大数据的观点抽取方法
CN102945246A (zh) 网络信息数据的处理方法及装置
CN105183765A (zh) 一种基于大数据的话题抽取方法
CN104794209B (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
Proskurnia et al. Template induction over unstructured email corpora
CN106503153A (zh) 一种计算机文本分类体系、系统及其文本分类方法
CN105117466A (zh) 一种互联网信息筛选系统及方法
Yang et al. Research on Chinese text classification based on Word2vec
Campbell et al. Content+ context networks for user classification in twitter
CN106649255A (zh) 一种对短文本自动分类和识别主题词的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140709

RJ01 Rejection of invention patent application after publication