CN105760410B - 一种基于转发评论的微博语义扩充模型和方法 - Google Patents

一种基于转发评论的微博语义扩充模型和方法 Download PDF

Info

Publication number
CN105760410B
CN105760410B CN201510178606.9A CN201510178606A CN105760410B CN 105760410 B CN105760410 B CN 105760410B CN 201510178606 A CN201510178606 A CN 201510178606A CN 105760410 B CN105760410 B CN 105760410B
Authority
CN
China
Prior art keywords
microblogging
comment
text
type
forwarding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510178606.9A
Other languages
English (en)
Other versions
CN105760410A (zh
Inventor
刘磊
许志刚
李静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Goonie International Software (Beijing) Co.,Ltd.
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201510178606.9A priority Critical patent/CN105760410B/zh
Publication of CN105760410A publication Critical patent/CN105760410A/zh
Application granted granted Critical
Publication of CN105760410B publication Critical patent/CN105760410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明提出了一种微博的语义扩充模型和系统,属于文本信息处理领域,具体涉及微博分类和微博语义扩充方法及系统。本发明是一种基于转发评论的微博语义扩充模型。首先在对微博用户类型分析的基础上将微博分为六种类型:信息发布型微博、日志型微博、分享型微博、转发型微博、评述型微博和互动型微博。然后以信息发布型微博为研究对象,提出了一种基于转发评论的微博语义扩充模型,将微博有效评论信息加入微博文本,以补充微博语义,改善微博数据稀疏的问题。本发明提高了微博的分类性能。

Description

一种基于转发评论的微博语义扩充模型和方法
技术领域
本发明属于文本信息处理领域,具体涉及微博类型分析、微博评论选择和微博特征选择与加权方法及系统。
背景技术
微博,即微型博客的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。用户与用户之间信息的传递通过“关注—被关注”来实现,用户之间在微博平台上通过转发的方式对其他用户的微博进行传播。
在微博快速发展的同时获得了广泛的应用,已成为一种具有强大影响力的新型媒体。微博具备4A特性(任何时间、任何地点、任何方式、任何人),随时随地任何人都可以成为信息传播者。微博对政府、个人、企业和社会都有着积极的意义。研究微博及中文微博信息处理技术具有重要的理论和应用价值。
微博因为文本长度短,信息含量较少,会造成的严重数据稀疏问题。研究者们对解决数据稀疏问题进行了一些尝试,但是此问题还没得到彻底解决。目前鲜有使用微博转发评论中的信息去扩充微博语义的研究成果。微博转发评论是微博的有效语义来源,可以补充微博的语义。本发明通过综合考虑微博类型、微博评论选择和微博特征选择与加权方法,改善了微博数据稀疏的问题。
发明内容
本发明的目的在于针对微博数据稀疏问题,提出一种基于转发评论的微博语义扩充模型与方法。本发明综合考虑了微博文本与转发评论文本的特点,给出了微博类型分析、微博评论选择和微博特征选择与加权方法,改善了微博数据稀疏的问题。
一种基于转发评论的微博语义扩充模型和方法,其特征在于包括如下步骤:
步骤1:通过分析微博的发布特点、发布目的和微博的内容,定义六种微博类型:信息发布型微博、日志型微博、分享型微博、转发型微博、评述型微博、互动型微博类型;
所述的信息发布型微博是博主通过微博发布新闻、事件、政策、产品、活动、声明、呼吁信息;
所述的日志型微博是博主描述自身工作和生活中的琐碎片段,以文字或图片的形式表现,记录博主的喜怒哀乐,如博主对自己工作和生活中遭遇的记录、工作和生活中的自拍;
所述的分享型微博内容是博主认为有价值的信息,以文字、图片、音频和视频方式表现,本着为粉丝服务的态度而发布的微博,包括名人名言、生活感悟、心灵鸡汤、精美文章、优美歌曲、搞笑视频、笑话、生活常识、攻略、指南、注意事项、常见术语概念的解释和整理、推荐;
所述的转发型微博是非原创微博,转发的其他博主的微博,转发人可能会给出自己对于所转发的微博的转发评论,若转发人没有给出自己的转发评论,微博网站会自动以“转发微博”作为转发评论;
所述的评述型微博,博主通过评述型微博表达自己对事物或事件的态度、看法、主张和愿景;
所述的互动型微博,博主通过提问方式希望与粉丝进行互动交流,获得问题和事物的反馈和看法,或者回答其他博主的一些问题,以及发布一些对自己粉丝的祝福语;
步骤2:通过微博评论选择方法对微博转发评论进行筛选;
一条微博可表示为一个二元组T=<d,C>,其中d为微博T的内容,C={c1,c2,...,cm}为微博T的评论集合,方法包括如下步骤:
步骤2.1:输入微博T的内容d和评论集合C;
步骤2.2:利用文本规则,对评论进行初步筛选,包括删除重复的评论、删除包含“转发”字数小于5的评论、删除字数小于等于2个字的评论、删除仅包含数字、字母、特殊符号及标点符号的评论;
步骤2.3:对微博内容d和步骤2.2筛选出来的评论集合C1进行中文分词和选择有效词处理;
步骤2.4:对步骤2.3处理后的微博内容dend和评论集合C2进行聚类,生成一个最终评论文本p;
步骤2.5:输出微博T的最终评论文本p;
步骤3:微博语义扩充模型构建;
在获取到微博T的最终评论文本p后,将评论p和微博内容dend通过步骤3.1-3.3结合起来,以形成对微博T的有效的语义扩充;
微博文本数据集记为D,将D中的微博文本对应的评论分别按照步骤2生成对应的评论数据集P,微博语义扩充由以下三步构成:
步骤3.1:采用向量空间模型表示数据集D和P中的文本;
步骤3.2:特征选择,常见特征选择函数有信息增益、卡方统计量、互信息,设选定的特征选择函数为f(x);
从数据集D和P中分别提取所有特征项,构成特征集合FD和FP;对特征集合FD和FP中的每一项分别使用f(x)进行计算打分,当FD和FP中的所有项都打分完成后,按分值由高到低进行排序得新的特征集合F′D和F′P;假设需要选取N个文档属性,则从F′D和F′P中分别选取分值高的N个项,构成最终的特征集合F″D和F″P;将特征集合F″D和F″P取并集得到特征集合Fend。即Fend=F″DYF″P
步骤3.3:特征加权,设其权重函数为G(x),若G(x)应用于数据集D中,记为GD(x);若G(x)应用于数据集P中,记为GP(x),对于微博文本di∈D,对应的评论文本pi∈P,考察每一个特征项f∈Fend
若f∈di,特征f在文本di中的权重为特征f在文本di中的权重为若f∈pi,特征f在文本pi中的权重为特征f在文本pi中的权重为则特征f在文本di中的最终权重为:且a+b=1,其中a和b为调节系数;
步骤4:输出微博的分类结果。
附图说明
图1本发明实现微博语义信息扩充和特征选择加权方法及系统的流程图;
图2基于用户的微博类型统计结果;
图3基于不同的a值下的准确率;
图4分类准确率对比图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步的详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
根据图1所示,本发明提出的方法是依次按以下步骤实现:
步骤1:通过分析微博的发布特点、发布目的和微博的内容,定义六种微博类型。
信息发布型微博:博主通过微博发布新闻、事件、政策、产品、活动、声明、呼吁信息。
日志型微博:内容多是与博主自身密切相关的工作和生活中的琐碎片段,以文字或图片的形式表现,记录博主的喜怒哀乐。如博主对自己工作和生活中的遭遇的记录、一定场合的自拍。
分享型微博:内容多是博主认为有价值的信息,以文字、图片、音频和视频方式表现,本着为粉丝服务的态度而发布的微博,如名人名言,生活感悟、心灵鸡汤、精美文章、优美歌曲、搞笑视频、笑话、生活常识、攻略、指南、注意事项、常见术语概念的解释和整理、推荐。
转发型微博:非原创微博,转发的其他博主的微博。转发人可能会给出自己对于所转发的微博的转发评论。若转发人没有给出自己的转发评论,微博网站会自动以“转发微博”作为转发评论。
评述型微博:博主通过评述型微博表达自己对某类事物或事件的态度、看法、主张和愿景。例如:“虽然这次马航和马来西亚政府在信息发布方面存在诸多问题,但最终我们还是要回归理性,理性才能解决问题”。
互动型微博:博主通过提问等方式希望与粉丝进行互动交流,获得关于某些问题和事物的反馈和看法,或者回答其他博主的一些问题,以及发布一些对自己粉丝的祝福语。
为了分析不同类型微博的分布情况,我们按照表1的微博用户选取方法选择45名微博用户,采集每名用户最近发表的200条微博,按照上述定义的微博类型进行归类统计,并按照认证个人用户、普通个人用户、认证组织用户三种用户类型取平均数,得到不同微博用户的发布微博类型的统计结果。
表1微博用户选取方法
如图2所示,个人用户发表的微博以日志型微博、分享型微博和转发型微博为主。其中认证个人用户以分享型微博和转发型微博数量较多,分别约占40%和43%。普通个人用户转发型微博最多约占72%,其次日志型微博较多,约占19%。普通个人用户的日志型微博比认证个人用户要多。
认证组织用户以信息发布型微博、转发型微博和分享型微博为主。其中以信息发布型微博最多,约占51%。
评述性型微博和互动型微博对于三类用户而言,所占比重都很小。
虽然,信息发布型微博、日志型微博、分享型微博和转发型微博在微博总数中占大多数,但是日志型微博参杂很多博主的主观意愿,转发型微博也参杂较多主观信息,分享型微博多为一些非话题性的微博。而信息发布型微博以客观信息为主,是我们研究微博语义扩充更加感兴趣和更有意义的微博类型。
步骤2:选取信息发布性型微博为研究对象,通过微博评论选择方法对微博转发评论进行筛选:
一条微博可表示为一个二元组T=<d,C>,其中d为微博T的内容,C={c1,c2,...,cm}为微博T的评论集合。方法描述如下:
输入:微博T的内容d和评论集合C。
Step1:利用文本规则,对评论进行初步筛选。
(1)将形如“评论//@用户1:评论1//@用户2:评论2//......//@用户e:评论e”的层层转发类的评论按层拆分为多条评论:“评论”,“评论1”,“评论2”……“评论e”。
(2)删除重复的评论。
(3)删除包含“转发”字数小于5的评论。
(4)删除字数少于等于2个字的评论。
(5)删除仅包含数字、字母、特殊符号及标点符号的评论。
Step2:对微博内容d和Step1筛选出来的评论(记为集合C1)进行预处理。
(1)分词。利用中国科学院计算技术研究所分词系统ICTCLAS对微博内容d和评论集合C1中的评论进行分词和词性标注。
(2)选择其中的名词、动词和形容词作为有效词。
Step3:对Step2处理后的微博内容(记为dend)和评论(记为集合C2)进行聚类。
(1)采用TF-IDF方法进行特征选择。
(2)采用向量空间模型表示微博内容和评论。
(3)采用K-means算法对微博内容dend和集合C2中的评论进行聚类。
(4)选取微博内容dend所在的类簇中的评论作为微博T的最终评论(记为集合Cend)。
(5)将最终评论集合Cend中的评论合并生成一个最终评论文本(记为p)。
输出:微博T的最终评论文本p。
步骤3:微博语义扩充模型构建;
在获取到微博T的最终评论文本p后,需要将评论p和微博内容dend结合起来,以形成对微博T的有效的语义扩充。
设微博文本数据集D={d1,d2,Λ,dn},将D中的微博文本对应的评论分别按照微博评论选择方法生成对应的评论数据集P={p1,p2,Λ,pn}。微博语义扩充由以下三步构成:
(1)建立文档表示模型
采用向量空间模型表示数据集D和P中的文本。
对于di∈D,di={wi1,wi2,Λ,wil},其中1≤i≤n,l为di分词后的词数。wij(1≤j≤l)为文本di分词以后的词。
对于pi∈P,pi={w′i1,w′i2,Λ,w′ik},其中1≤i≤n,k为pi分词后的词数。w′ij(1≤j≤k)为文本pi分词以后的词。
(2)特征选择
常采用的特征选择方法有:信息增益、卡方统计量、互信息和期望交叉熵等。这里设其特征选择函数为f(x)。
①从数据集D和P中分别提取所有特征项,构成特征集合FD和FP
对于数据集D,
FD=d1Yd2YΛYdn={w1,w2,Λ,ws},s为集合FD中的特征数。
对于数据集P,
FP=p1Yp2YΛYpn={w′1,w'2,Λ,w′t},t为集合FP中的特征数。
②对特征集合FD和FP中的每一项分别使用f(x)进行计算打分,当FD和FP中的所有项都打分完成后,按分值由高到低进行排序得新的特征集合F′D和F′P
对于数据集D,f(FD)={f(w1),f(w2),Λ,f(ws)}。
对f(FD)降序排列,得到:f0(FD)={f(w10),f(w20),Λ,f(ws0)}。故F′DD={w10,w20,Λ,ws0}。
对于数据集P,f(FP)={f(w′1),f(w′2),Λ,f(w′t)}。
对f(FP)降序排列,得到:f0(FP)={f(w′10),f(w'20),Λ,f(w′t0)}。故F′P={w′10,w'20,Λ,w′t0}。
③假设需要选取N个文档属性,则从F′DD和F′P中分别选取分值高的N个项,构成最终的特征集合F″D和F″P
F″D={w10,w20,Λ,wN0};F″P={w′10,w'20,Λ,w'N0}。
④将特征集合F″D和F″P取并集得到特征集合Fend。即Fend=F″DYF″P
(3)特征加权
常用的文本特征权重计算方法主要有:布尔权重、基于熵概念的权重、特征频率、TF-IDF等。这里设其权重函数为G(x)。若G(x)应用于数据集D中,记为GD(x);若G(x)应用于数据集P中,记为GP(x)。
对于微博文本di∈D,对应的评论文本pi∈P:
考察每一个特征项f∈Fend
若f∈di,特征f在文本di中的权重为
特征f在文本di中的权重为
若f∈pi,特征f在文本pi中的权重为
特征f在文本pi中的权重为
则特征f在文本di中的最终权重为:且a+b=1。其中a和b为调节系数。
步骤4:为了验证微博语义扩充模型的有效性,进行两方面评测:(1)微博评论选择方法的评测;(2)语义扩充模型的分类性能评测。
由于现在国内没有通用的微博数据集,我们手动采集了部分新浪微博语料进行的实验分析。总共5个类别(时事,社会,科技,体育,娱乐)的微博和其评论,微博均为信息发布型微博,一共750篇,类分布比较均匀。
(1)微博评论选择方法的有效性评测
为了验证微博评论的选择方法的有效性,从5类微博(时事,社会,科技,体育,娱乐)中,各选取典型微博2条,微博评论选择方法的处理结果见表2。
其中,评论是否有效是人为通过以下标准判定:(1)评论中是否含有微博内容的关键词;(2)若评论中不含有微博内容的关键词,判断评论内容是否与微博内容的延伸、影响、后续发展等有关。
本发明方法的评价标准为有效评论比率的变化情况。
使用评论选择方法前的有效评论比率=处理前有效评论数/评论总数;使用评论选择方法后的有效评论比率=处理后有效评论数/Step3处理后评论数。
表2微博评论选择方法的处理结果
如果通过评论选择方法,评论集中的有效评论比率明显提高,则说明了本发明方法的有效性。图2中给出了使用评论选择方法前后的有效评论比率图。
从表2中可以看出,通过评论选择方法一步步的处理,评论数在减少,同时有效评论比率在使用评论选择方法前后明显上升,以第1条微博为例,在使用评论选择方法前后,评论数从1812下降为396,有效评论比率从25.4%上升到90.7%,证明了评论选择方法的有效性。
(2)语义扩充模型的分类性能评测
从采集的微博语料中,选取训练文本500篇,测试文本250篇,类分布比较均匀。概率估算方法方面,采用词频统计(统计特征词在一条微博信息中出现的次数)。选取的实验参数如下:
特征选择方法:卡方统计
特征选择方式:全局选取
特征加权方法:TF-IDF
特征空间维数:1000
分类器:KNN,SVM。其中KNN中距离函数采用了常用的欧几里得距离;近邻数k由检测实验确定,即根据k不同取值下,检测集(检测集由从测试文本中每个类别各取20篇,合计100篇构成)的分类错误率来确定,经过测试,k取值为18。SVM分类器使用了LIBSVM软件包,选用RBF函数(Radial Basis Function),利用交叉验证方式确定参数C和γ。
使用的评价指标:
为了选取最佳的调节系数a和b,取a∈{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9},使用语义扩充模型后的微博分类准确率见图3。
由图3可知,当调节系数a=0.6和b=0.4时的微博分类性能最好。在a=0.6和b=0.4的情况下,使用语义扩充模型和不使用语义扩充模型的微博分类结果见表3。
表3分类性能结果表
更加直观地表示为图4:
从表3和图4中可以看出,无论是选择使用KNN分类器还是SVM分类器,使用语义扩充模型进行语义扩充后微博分类性能都要比不使用语义扩充模型进行语义扩充要好,准确率、宏查全率和宏查准率都有了较明显的提高。证明了语义扩充模型的可行性和有效性。

Claims (1)

1.一种基于转发评论的微博语义扩充模型和方法,其特征在于包括如下步骤:
步骤1:通过分析微博的发布特点、发布目的和微博的内容,定义六种微博类型:信息发布型微博、日志型微博、分享型微博、转发型微博、评述型微博、互动型微博类型;
所述的信息发布型微博是博主通过微博发布新闻、事件、政策、产品、活动、声明、呼吁信息;
所述的日志型微博是博主描述自身工作和生活中的琐碎片段,以文字或图片的形式表现,记录博主的喜怒哀乐,如博主对自己工作和生活中遭遇的记录、工作和生活中的自拍;
所述的分享型微博内容是博主认为有价值的信息,以文字、图片、音频和视频方式表现,本着为粉丝服务的态度而发布的微博,包括名人名言、生活感悟、心灵鸡汤、精美文章、优美歌曲、搞笑视频、笑话、生活常识、攻略、指南、注意事项、常见术语概念的解释和整理、推荐;
所述的转发型微博是非原创微博,转发的其他博主的微博,转发人可能会给出自己对于所转发的微博的转发评论,若转发人没有给出自己的转发评论,微博网站会自动以“转发微博”作为转发评论;
所述的评述型微博,博主通过评述型微博表达自己对事物或事件的态度、看法、主张和愿景;
所述的互动型微博,博主通过提问方式希望与粉丝进行互动交流,获得问题和事物的反馈和看法,或者回答其他博主的一些问题,以及发布一些对自己粉丝的祝福语;
步骤2:通过微博评论选择方法对微博转发评论进行筛选;
一条微博可表示为一个二元组T=<d,C>,其中d为微博T的内容,C={c1,c2,...,cm}为微博T的评论集合,方法包括如下步骤:
步骤2.1:输入微博T的内容d和评论集合C;
步骤2.2:利用文本规则,对评论进行初步筛选,包括删除重复的评论、删除包含“转发”且字数小于5的评论、删除字数小于等于2个字的评论、删除仅包含数字、字母、特殊符号及标点符号的评论;
步骤2.3:对微博内容d和步骤2.2筛选出来的评论集合C1进行中文分词和选择有效词处理;
步骤2.4:对步骤2.3处理后的微博内容dend和评论集合C2进行聚类,生成一个最终评论文本p;
步骤2.5:输出微博T的最终评论文本p;
步骤3:微博语义扩充模型构建;
在获取到微博T的最终评论文本p后,将评论p和微博内容dend通过步骤3.1-3.3结合起来,以形成对微博T的有效的语义扩充;
微博文本数据集记为D,将D中的微博文本对应的评论分别按照步骤2生成对应的评论文本P,微博语义扩充由以下三步构成:
步骤3.1:采用向量空间模型表示数据集D和P中的文本;
步骤3.2:特征选择,常见特征选择函数有信息增益、卡方统计量、互信息,设选定的特征选择函数为f(x);
从数据集D和P中分别提取所有特征项,构成特征集合FD和FP;对特征集合FD和FP中的每一项分别使用f(x)进行计算打分,当FD和FP中的所有项都打分完成后,按分值由高到低进行排序得新的特征集合F′D和F′P;假设需要选取N个文档属性,则从F′D和F′P中分别选取分值高的N个项,构成最终的特征集合F″D和F″P;将特征集合F″D和F″P取并集得到特征集合Fend,即Fend=F″DY F″P;
步骤3.3:特征加权,设其权重函数为G(x),若G(x)应用于数据集D中,记为GD(x);若G(x)应用于数据集P中,记为GP(x),对于微博文本di∈D,对应的评论文本pi∈P,考察每一个特征项f∈Fend
若f∈di,特征f在文本di中的权重为特征f在文本di中的权重为若f∈pi,特征f在文本pi中的权重为特征f在文本pi中的权重为则特征f在文本di中的最终权重为:且a+b=1,其中a和b为调节系数;
步骤4:输出微博的分类结果。
CN201510178606.9A 2015-04-15 2015-04-15 一种基于转发评论的微博语义扩充模型和方法 Active CN105760410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510178606.9A CN105760410B (zh) 2015-04-15 2015-04-15 一种基于转发评论的微博语义扩充模型和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510178606.9A CN105760410B (zh) 2015-04-15 2015-04-15 一种基于转发评论的微博语义扩充模型和方法

Publications (2)

Publication Number Publication Date
CN105760410A CN105760410A (zh) 2016-07-13
CN105760410B true CN105760410B (zh) 2019-04-19

Family

ID=56341777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510178606.9A Active CN105760410B (zh) 2015-04-15 2015-04-15 一种基于转发评论的微博语义扩充模型和方法

Country Status (1)

Country Link
CN (1) CN105760410B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019720B (zh) * 2017-12-19 2022-02-08 阿里巴巴(中国)有限公司 一种评论的内容分获取方法及系统
CN113111269B (zh) * 2021-05-10 2022-06-10 网易(杭州)网络有限公司 数据处理方法、装置、计算机可读存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN103455581A (zh) * 2013-08-26 2013-12-18 北京理工大学 基于语义扩展的海量短文本信息过滤方法
CN104216964A (zh) * 2014-08-22 2014-12-17 哈尔滨工程大学 一种面向微博的非分词突发话题检测方法
CN104239373A (zh) * 2013-06-24 2014-12-24 腾讯科技(深圳)有限公司 为文档添加标签的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239373A (zh) * 2013-06-24 2014-12-24 腾讯科技(深圳)有限公司 为文档添加标签的方法及装置
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN103455581A (zh) * 2013-08-26 2013-12-18 北京理工大学 基于语义扩展的海量短文本信息过滤方法
CN104216964A (zh) * 2014-08-22 2014-12-17 哈尔滨工程大学 一种面向微博的非分词突发话题检测方法

Also Published As

Publication number Publication date
CN105760410A (zh) 2016-07-13

Similar Documents

Publication Publication Date Title
CN104834632B (zh) 一种基于语义扩充的微博话题检测和热度评估方法
Hassan et al. Twitter sentiment analysis: A bootstrap ensemble framework
Wen et al. Emotion classification in microblog texts using class sequential rules
US9342590B2 (en) Keywords extraction and enrichment via categorization systems
US20170140058A1 (en) Systems and Methods for Identifying Influencers and Their Communities in a Social Data Network
CN104102626A (zh) 一种用于短文本语义相似度计算的方法
Amplayo et al. Cold-start aware user and product attention for sentiment classification
CN108595440B (zh) 短文本内容分类方法和系统
CN104504024B (zh) 基于微博内容的关键词挖掘方法及系统
CN106682152A (zh) 一种个性化消息推荐方法
CN103282903A (zh) 话题提取装置和程序
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN106126605B (zh) 一种基于用户画像的短文本分类方法
Alhumoud et al. Arabic sentiment analysis using WEKA a hybrid learning approach
Raghuvanshi et al. A brief review on sentiment analysis
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN104778283A (zh) 一种基于微博的用户职业分类方法及系统
Marujo et al. Hourly traffic prediction of news stories
Samonte et al. Sentiment and opinion analysis on Twitter about local airlines
CN105760410B (zh) 一种基于转发评论的微博语义扩充模型和方法
CN104881447A (zh) 搜索方法及装置
CN109033224A (zh) 一种风险文本识别方法和装置
CN108804676A (zh) 一种帖子排序方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201113

Address after: A5, block D, Xisanqi cultural science and Technology Park, yard 27, xixiaokou Road, Haidian District, Beijing 100085

Patentee after: Goonie International Software (Beijing) Co.,Ltd.

Address before: 100124 Chaoyang District, Beijing Ping Park, No. 100

Patentee before: Beijing University of Technology