CN103793503B - 一种基于web文本的观点挖掘与分类的方法 - Google Patents

一种基于web文本的观点挖掘与分类的方法 Download PDF

Info

Publication number
CN103793503B
CN103793503B CN201410035384.0A CN201410035384A CN103793503B CN 103793503 B CN103793503 B CN 103793503B CN 201410035384 A CN201410035384 A CN 201410035384A CN 103793503 B CN103793503 B CN 103793503B
Authority
CN
China
Prior art keywords
topic
comment
classification
sub
talked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410035384.0A
Other languages
English (en)
Other versions
CN103793503A (zh
Inventor
闫波
张彬
宿红毅
郑宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201410035384.0A priority Critical patent/CN103793503B/zh
Publication of CN103793503A publication Critical patent/CN103793503A/zh
Application granted granted Critical
Publication of CN103793503B publication Critical patent/CN103793503B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于web文本的观点挖掘与分类的方法,属于数据挖掘技术领域。本发明通过网络爬虫、观点挖掘、信息抽取、机器学习等技术从互联网中获取、发现新的话题,并持续跟踪和关注该话题,通过对得到话题的情感倾向性及真伪倾向性的综合分析。本发明能快速有效地在大数据时代背景下,通过从中挖掘热点主题倾向性走势,分析影响因子,为减少舆论导向对公众的负面影响,为互联网管理的决策提供参考。

Description

一种基于web文本的观点挖掘与分类的方法
技术领域
本发明涉及一种基于web文本的观点挖掘与分类的方法,属于数据挖掘技术领域。
背景技术
随着Web2.0技术的发展,互联网发生翻天覆地的变化。互联网由静态网页和信息,转变成为人人参与的“群体智慧”的展示平台。通过博客、微博、BBS、SNS、新闻评论等,网民可以自由发布自己的观点想法和对任何事件进行评论。在一个网络互联的时代,任何的意见、想法都可能影响一大批人,形成网络舆论。现阶段越来越多的事件表明:网络舆论在影响社会舆论发展趋势,甚至已经作为一种主要社会舆论的方式。网民在网络上有意识或者无意识表达出来的民情民意,对社会热点问题的关注表达出的价值取向和观点越来越具有研究和参考价值。
热点话题和热点事件的检测和提取成为近年话题检测与跟踪研究的分支之一,从互联网数据中,主要是新闻,博客,论坛,社交网站和搜索日志等数据中获取热点特征组或者与行为短语,进行抽象提取,从而得到热点话题。由于传统博客、微博和社交网站上存在与日俱增的话题和数据,热点话题可以提供给用户搜索关键词参考,例如,Baidu搜索引擎中的热点话题推荐,将获取的热点话题进行推荐,并能时时更新。这些无疑促使热点新闻成为舆论的焦点,广泛的影响大众的视线,引导大众舆论,一定程度上体现民众的社会政治态度。面对多元化的网络舆情表达诉求,倘若不加引导,负面的网络舆情将会对社会的公共安全造成一定的危害。
目前大多数情感分析方面的研究工作都是主题无关的,即单纯判断一个文档或者一句话的情感极性,而不考虑这个文档是针对某个主题的情感。在这一研究领域,主要有三类方法:
(1)基于词典的方法:该类方法主要是将情感词表与人工制定的规则相结合。这类方法通常面临无法解决未登录词的问题。基于情感词典最简单的做法是,应用已有资源,如WordNet等构建情感词典,然后去看文本中包含正向情感词和负向情感词的个数判断文本的情感极性。
(2)有监督的机器学习方法:这类方法主要采用的机器学习模型有朴素贝叶斯,最大熵和支持向量机。以Pang等人的工作为例:Pang等人的工作主要是使用机器学习的方法划分电影评论的情感极性,即正向情感和负向情感。Pang等人首先对文本进行预处理,包括否定词提取、一元词提取、二元词提取、词性标注、提取位置信息等。然后将这些作为特征,再分别使用朴素贝叶斯,最大熵和支持向量机的方法来进行情感极性的分类。
(3)无监督的方法:这类方法主要通过指定基本的情感词,计算待挖掘观点的文本中的情感短语与基本情感词之间的分值来决定情感导向。
综上所述,进行网络舆情分析,实时把控舆情态势,形成正面的网络舆情环境,对于构建社会主义和谐社会具有现实指导意义。但是目前针对互联网的基于文本观点挖掘与分类的方法还是不多,与即时的发现热点、分析处理并评估舆论的要求尚有距离,因此,有必要提供一种基于文本观点挖掘与分类的方法。此方法应用在及时发现并监控网络舆情的热点话题,有利于让民众实时了解社会热点信息,为政府及相关部门制定政策提供辅助支持。加强信息的梳理,保证舆情的及时、准确和全面,可以有效的预防不良信息的传播。
发明内容
本发明提供一种web文本的观点挖掘与分类的方法,具体技术方案为:
步骤1、初次获取web信息,初步处理并存入数据库:
(1)使用网络爬虫获得互联网信息,通过网站提供的已知API接口获得数据,通过现有的网站发布的热点词作为关键字存入数据库作为已知热点话题;
(2)对原始网络信息进行预处理,包括:中文分词、词性标注、停用词处理,命名实体识别等。
(3)采集到的网页进行净化,通过模板的信息分类,过滤噪声信息;
步骤2、使用向量空间模型进行文本特征构建,使用TF-IDF模型计算特征词权重;采用Single-Pass增量聚类方法,检测话题相似度,获得与主题相关的话题群;
获得与主题相关的话题群过程包括:
(1)初始化加载已知的话题类,减少数据在时间窗内的冷启动;
(2)顺序读入已处理web文本的空间向量;
(3)计算TF-IDF权重,加入时下热点词汇,加入表情库,适当上调权重;
(4)计算当前文本与时间窗内文本的最大相似度;
(5)如果相似度大于某个旧聚类阈值,则分配给这个聚类,否则该成为一个新的聚类;
(6)将分配给已知聚类或新产生的话题聚类,添加到数据库;
(7)更新聚类的信息;
步骤3、根据话题中时间窗口和话题中的包含数量,提取出话题的摘要和关键词,计算话题数量与时间窗口的比值,分值由大到小排列;取分值超过某个阈值以上的话题作为热点,呈现给用户;
步骤4、对已知的热点话题进行二次专题网络抓取,结合利用发帖人ID,构造专题话题的用户拓扑网络,并对每个热点话题内的每个子话题的评论建立倒排索引;
热点话题二次抓取的过程包括:
(1)根据热点话题的关键词,用网络爬虫或API获取此专题相关的文本数据,预处理数据,热点话题即是中心话题,子话题就是中心话题相关的衍生话题,从网页中分离出用户评论数据;
(2)针对SNS、BBS等网络的结合用户ID,构造出基于此相关主题的用户的拓扑网络,根据社会化分析理论,对基于用户构造成的拓扑网络进行拓扑分析和中心度分析;依照分析拓扑和中心度的指标后,确定活跃用户节点或是网络言论领导者,并设置权重;
(3)定制情感字典,包括:否定词字典、程度词字典、感叹词字典、正面词字典、负面词字典;使用ICTCLAS中文分词,加入NTUSD情感字典和五种定制的情感字典,对评论分句计算单句情感指数,累计整条评论的感情指数获得最终感情指数,确定正反性;
(4)以评论中的关键词作为索引依据;对评论的得分进行排序,截取一定排名内,作为带有权重的有价值评论。该评论的品质与评论热度(H)与评论质量(Q)以及时间维度(T)相关。公式依据分别如下:
H i = userful i Σ j = 1 , t = t i n , t now view j
Q i = useful i view i
T i = λ ( t i - t 0 t now - t 0 ) ( λ ∈ 0,1 )
其中:Hi为本条评论的评论热度,userfuli是其他用户认为此评论为有效评论,viewi则是指此评论被浏览次数;Qi为评论质量;Ti为时间维度:ti是该条评论发布时间,t0为评论的原始话题发布时间,tnow则指评论排序的当前时间;其中λ为0到1之间的常数;
信息相关性公式如下:
similar i = Σ t ∈ q tf ( t ) * idf ( t ) * b ( t . field ) * lN ( t . field )
其中,这里的t是指包含域信息的项;tf(t)为t在文档中出现的词频;idf(t)为t在几篇文档中出现过;b(t.field)为域的加权因子,在插入文档中设置; lN ( t . field ) = 1 / numTerms : numTerms 为词的个数,一个域中包含的t总数越多,也即文档越长,此值越小,文档越短,此值越大。
依据评论的信息相关性(similari)和用户节点的权重(Wi)以及质量与评价的时间,对评价的得分进行排序得到最终的排序结果Fsi。排序算法如下:
Fsi=α*similari+(1-α)*fun(Ti,Hi,Wi,β)
其中,fun(Ti,Hi,Wi,β)代表评论i品质的函数,具体实现依据不同的情况;α、β为0到1之间的常数
步骤5、读取已处理的话题数据和情感词典,根据情感词典和语法模式库,从语料中抽取情感特征,构造话题分类训练数据集;使用朴素贝叶斯分类算法训练,得到话题观点情感倾向性分类模型;
步骤6、读入待情感分类的子话题;通过自然语言处理,得到经中文分词和词性标注好的子话题;根据情感词典和语法模式库,从子话题中抽取情感特征,构造测试数据集;分类器读取测试数据和已训练好的话题情感分类模型,保存子话题情感分类结果;
步骤7、话题观点情感倾向性识别后,对其话题进行真伪倾向性分类;构造用户信誉度、URL信誉度、权威结论集数据集;使用朴素贝叶斯分类算法,用户信誉度、URL信誉度、权威结论集作为影响因子,通过训练得到话题真伪分类模型;
步骤8、读入待真伪分类的子话题;根据从话题中抽取出的情感特征,结合步骤7中的URL信誉、权威结论集、用户构造测试数据集;分类器读取测试数据和已训练好的分类模型,输出子话题真伪性分类的预测结果;
步骤9:对待分类话题进行解析,得到子话题集;调用对每个子话题进行分类得到的情感分类结果;根据子话题之间的相似度,构建LexRank图模型,利用所构建的图模型,计算子话题的重要性和冗余度,最终输出话题情感分类结果;
步骤10:结合情感倾向性分类结果:正面、负面;真伪性分类结果:真实、伪造。绘制表格,作为辅助分析,挖掘出观点的影响因子。
有益效果
与现有技术相比,本发明通过网络爬虫、观点挖掘、信息抽取、机器学习等技术从互联网中获取、发现新的话题,并持续跟踪和关注该话题,通过对得到话题的情感倾向性及真伪倾向性的综合分析,本发明能快速有效地在大数据时代背景下,通过从中挖掘热点主题倾向性走势,分析影响因子,为减少舆论导向对公众的负面影响,为互联网管理的决策提供参考。
附图说明
图1是本发明的实施流程示意图
图2是本发明提供的一种web文本的观点挖掘与分类的方法基本流程图
图3是依照本发明提供的主题挖掘与中心话题提取基本流程图
图4是依照本发明的用户节点拓扑图
图5是依照本发明的积极/消极观点倾向性对比直方图
图6是依照本发明的真实/伪造倾向性对比直方图
具体实施方式
下面结合附图,对具体实施方式进行详细说明:
实施流程如图1所示,基本流程如图2所示,本实例对新闻网页、以及腾讯微博进行了测试。测试数据选取了人工收集的网络中9个主题类别的网页、微博作为数据集,9个主题类别分别是:NBA、温岭杀医事件、山西临汾伤害儿童事件、倒车杀婴、大学生就业、教育乱收费、人民币升值、娱乐圈潜规则和中国嫦娥奔月计划。对于每一个主题类别,数据收集人员分别从若干个不同网站的网络新闻报道中收集了1000篇网页的HTML源代码,9个类别共计9000篇;腾讯微博每个类别收集1000条微博,共计9000条。
根据步骤1:web信息的初次获取,初步处理并存入数据库:
使用网络爬虫获得互联网信息,随机得到各种不同领域网页文本1万页,通过网站提供的已知API接口,获得1W条数据。对原始网络信息进行预处理,包括:中文分词、词性标注、停用词处理,命名实体识别等。采集到的网页进行净化,通过模板的信息分类,过滤噪声信息。将基础内容(具体包括文章编号、文章内容、评论数、时间、来源、所属人物id等)存入数据库,对带有用户关系的web信息保存关联关系(人物id、所关联人的id);
根据步骤2:如图3所示,对已知的信息进行主题挖掘,识别出中心观点主题,并持续跟踪和关注观点主题,得到基于新鲜度模型的热点话题;
使用向量空间模型(VSM)进行文本特征构建,使用TF-IDF模型计算特征词权重。采用Single-Pass增量聚类方法,检测话题相似度,获得与主题相关的话题群。其中初始化参数设置为:文档窗口大小D=500,主题窗口大小T=200,聚类相似度阈值Te=0.3,新事件相似度阈值Tn=0.2。
(1)初始化加载已知的话题类,如温岭杀医事件、山西临汾伤害儿童事件、倒车杀婴等,减少数据在时间窗内的冷启动。
(2)顺序读入已处理(即归为已知话题类)包含的web文本向量空间模型,其中标题和正文分别用两个向量进行表示。
(3)如当前文本为温岭杀医事件的一篇新闻报道,计算其文本TF-IDF权重,加入时下热点词汇,加入表情库等,适当上调权重。
(4)计算该当前新闻文本与时间窗内文本的最大相似度;
(5)该新闻报道相似度大于温岭杀医事件聚类阈值,则分配给这个聚类;
(6)将分配给已知聚类添加到数据库;
(7)更新聚类的信息;
根据步骤3、根据话题中时间窗口和话题中的包含数量,并将结果提取关键词,发现热点话题,并呈现给用户。
发现热点话题过程包括:
(1)根据已经处理完的数据,提取出话题的摘要和关键词等;
(2)计算话题数量与时间窗口的比值,分值由大到小排列;
(3)取分值超过某个阈值以上的话题作为热点;
步骤4、对已知的温岭杀医事件的二次专题网络抓取,结合利用发帖人ID,构造专题话题的用户拓扑网络。并对每个热点话题内的每个子话题的评论建立倒排索引;
热点话题二次抓取的过程包括:
(1)根据温岭杀医话题的关键词,用网络爬虫、API获取此相关的网页1000页和2000条微博,预处理数据,并从网页中分离出用户评论数据;
(2)如图5所示,针对微博的用户ID,构造出基于此相关主题的用户的拓扑网络,用户节点拓扑如图4所示,对基于用户构造成的拓扑网络进行拓扑分析和中心度分析;依照分析拓扑和中心度的指标后,确定活跃用户节点或是网络言论领导者,并设置权重;
(3)定制情感字典,包括:否定词字典、程度词字典、感叹词字典、正面词字典、负面词字典;使用ICTCLAS中文分词,加入NTUSD情感字典和五种定制的情感字典,对评论分句计算单句情感指数,累计整条评论的感情指数获得最终感情指数,确定正反性;
(4)以评论中的关键词作为索引依据;对评论的得分进行排序,截取一定排名内,作为带有权重的有价值评论。该评论的品质与评论热度(H)与评论质量(Q)以及时间维度(T)相关。代表了在一定时间此用户评论被阅读的次数,以及被大众认为有帮助的程度,能客观反应出此评论的影响力。公式依据分别如下:
H i = userful i Σ j = 1 , t = t i n , t now view j - - - ( 1 ) Q i = useful i view i - - - ( 2 ) T i = 1 + λ ( t i - t 0 t now - t 0 ) - - - ( 3 )
其中:Hi为本条评论的评论热度:userfuli是其他用户认为此评论为有效评论,viewi则是指此评论被浏览次数;Qi为评论质量;Ti为时间维度:ti是该条评论发布时间,t0为评论的原始话题发布时间,tnow则指评论排序的当前时间,其中λ为0到1之间的常数;
依据评论的信息相关性(S)和用户节点的权重(W)以及质量与评价的时间,对评价的得分进行排序。本例排序算法如下:
FS=a*S+(1-a)*[b*(T+Q+H)+(1-b)*W]; (4)
其中a、b为0到1之间的常数。
下面给出简单示意的例子,其中取λ=0.5,a=0.55,b=0.6。例如,温岭杀医有关话题的一篇微博发布时间为2013/11/11,共有2条评论,当前时间为2013/12/30。评论1:发布时间为2013/11/30共有50人浏览,30人认为有用,与该文微博的相关性为0.9,发布评论人的用户信誉为0.8。评论2:发布时间为2013/12/18共有19人浏览,8人认为有用,与该文微博的相关性为0.7,发布评论人的用户信誉为0.5。
将评论1、2的数据,则根据公式(1)、(2)、(3)分别得出Hi,Qi,Ti.,并根据(4)求出最终结果:FS1=1.11,FS2=1.175,故FS1<FS2则认为评论2更为有效。
步骤5:读取已处理的话题数据和情感词典,根据情感词典和语法模式库,从语料中抽取情感特征,构造话题分类训练数据集;使用朴素贝叶斯分类算法训练,得到话题观点情感倾向性分类模型;
详细的说,例如得到有温岭杀医有关话题的微博2000篇,其中利用贝叶斯定理来预测一个未知类别的样本的可能属性,选择其可能性最大的类别作为样本的类别。本文选取多项式贝叶斯分类算法进行实验,给定类别Y的情况下,观察到联合的W1、W2、...、Wn的概率为:
P ( &omega; 1 , &omega; 2 , . . . . . . , &omega; n | Y ) = &Pi; i = 1 n P ( &omega; i | Y ) - - - ( 5 )
即该微博t属于某一类的概率,设该t的特征值为w1,w2,...,wn,现有M个分类C1,C2,...,CM,由于情感分类是正负两元分类,故M=2。根据贝叶斯公式,得该t属于类Ci的概率P{Ci|t}为:
P { C i | t } = P { t | C i } P ( C i ) P ( t ) = &Pi; j = 1 N P { &omega; j | C i } P ( C i ) &Sigma; i = 1 M &Pi; j = 1 N P { t | C i } P ( C i ) - - - ( 6 )
其中,P(Ci)为Ci该类下的微博数除以训练集全部的微博数,P{ωj|Ci}为Wj在Ci类的特征值中出现的次数除以Ci类中特征值的总数。如果P{ωj|Ci}为0,则进行平滑处理,赋为一个很小的概率count(t)为训练集中全体的微博数。
步骤6:读入温岭杀医有关话题的微博待情感分类的子话题;通过自然语言处理,得到经中文分词和词性标注好的子话题;根据情感词典和语法模式库,从子话题中抽取情感特征,构造测试数据集;分类器读取测试数据和已训练好的话题情感分类模型,得到公众对此子话题的情感多数为负面、消极,保存情感分类结果;
步骤7:话题观点情感倾向性识别后,对其话题进行真伪倾向性分类;构造用户信誉度、URL信誉度、权威结论集等数据集;其中将政府网站和其它官方网站发布的资料、公告,以及公认的真理作为权威结论集。URL信誉度是改进后UCI数据集,代表对网页信誉的排名。
用户信誉度,对于步骤3中获得的基于用户网络,根据社会化分析理论,对基于用户构造成的拓扑网络进行拓扑分析和中心度分析;依照分析拓扑和中心度的指标后,确定活跃用户节点或是网络言论领导者,并设置权重提取该用户有关的言论、评论,作为评价依据,对言论的真假和评论的分值计算出信誉度。
使用朴素贝叶斯分类算法,用户信誉度、URL信誉度、权威结论集作为参数,通过训练得到话题真伪分类模型;
步骤8:读入“温岭杀医”待真伪分类的有关子话题;根据从话题中抽取特征,结合步骤7中的URL信誉、权威结论集、用户构造测试数据集;分类器读取测试数据和已训练好的分类模型,得出分类结果,如图6。认为此话题的为真实发生的事情,保存“温岭杀医”话题预测结果为真;
步骤9:对“温岭杀医”话题进行解析,得到“温岭杀医”子话题集;调用对每个子话题进行分类得到的情感分类结果;根据子话题之间的相似度,构建LexRank图模型,利用所构建的图模型,计算子话题的重要性和冗余度,再根据子话题得出分类结果,如图5所示。最终得打“温岭杀医”话题情感为负面的情感;
步骤10:结合“温岭杀医”话题情感倾向性分类结果:负面;“温岭杀医”真伪性分类结果:真实。绘制表格,作为辅助分析。如下表,结合本案例“温岭杀医”,我们得出有关部门应当采取一定措施、做出预案和危险预警等。

Claims (2)

1.一种基于web文本的观点挖掘与分类的方法,其特征在于:
步骤1、初次获取web信息,初步处理并存入数据库:
步骤2、使用向量空间模型进行文本特征构建,使用TF-IDF模型计算特征词权重;采用Single-Pass增量聚类方法,检测话题相似度,获得与主题相关的话题群;
步骤3、根据话题中时间窗口和话题数量,提取出话题的摘要和关键词,计算话题数量与时间窗口的比值,分值由大到小排列;取分值超过某个阈值以上的话题作为热点话题,呈现给用户;
步骤4、对已知的热点话题进行二次专题网络抓取,结合利用发帖人ID,构造热点话题的用户拓扑网络,并对每个热点话题内的每个子话题的评论建立倒排索引;
步骤5、读取已处理的话题数据和情感词典,根据情感词典和语法模式库,从语料中抽取情感特征,构造话题分类训练数据集;使用朴素贝叶斯分类算法训练,得到话题观点情感倾向性分类模型;
步骤6、读入待情感分类的子话题;通过自然语言处理,得到经中文分词和词性标注好的子话题;根据情感词典和语法模式库,从子话题中抽取情感特征,构造测试数据集;分类器读取测试数据和已训练好的话题情感分类模型,保存子话题情感分类结果;
步骤7、话题观点情感倾向性识别后,对其话题进行真伪倾向性分类;构造用户信誉度、URL信誉度、权威结论集数据集;使用朴素贝叶斯分类算法,用户信誉度、URL信誉度、权威结论集作为影响因子,通过训练得到话题真伪分类模型;
步骤8、读入待真伪分类的子话题;根据从话题中抽取出的情感特征,结合步骤7中的URL信誉、权威结论集;分类器读取测试数据和已训练好的分类模型,输出子话题真伪性分类的预测结果;
步骤9:对待分类话题进行解析,得到子话题集;调用对每个子话题进行分类得到的情感分类结果;根据子话题之间的相似度,构建LexRank图模型,利用所构建的图模型,计算子话题的重要性和冗余度,最终输出话题情感分类结果;
步骤10:结合情感倾向性分类结果:正面、负面;真伪性分类结果:真实、 伪造;绘制表格,作为辅助分析,挖掘出观点的影响因子。
2.如权利要求1所述的一种基于web文本的观点挖掘与分类的方法,其特征还在于,热点话题的二次网络抓取的过程包括:
(1)根据热点话题的关键词,用网络爬虫应用程序接口获取此热点话题相关的文本数据,预处理数据,热点话题即是中心话题,子话题就是中心话题相关的衍生话题,从网页中分离出用户评论数据;
(2)针对SNS、BBS网络的结合用户ID,构造出基于此热点话题的用户的拓扑网络,根据社会化分析理论,对基于用户构造成的拓扑网络进行拓扑分析和中心度分析;依照拓扑分析和中心度分析所得的指标确定活跃用户节点或是网络言论领导者,并设置权重;
(3)定制情感字典,包括:否定词字典、程度词字典、感叹词字典、正面词字典、负面词字典;对评论分句计算单句情感指数,累计整条评论的感情指数获得最终感情指数,确定正反性;
(4)以评论中的关键词作为索引依据;对评论的得分进行排序,截取一定排名内,作为带有权重的有价值评论:
其中:Hi为本条评论的评论热度,userfuli是其他用户认为此评论为有效评论,viewi则是指此评论被浏览次数;Qi为评论质量;Ti为时间维度:ti是该条评论发布时间,t0为评论的原始话题发布时间,tnow则指评论排序的当前时间;其中λ为0到1之间的常数;
信息相关性公式如下:
其中,这里的t是指包含域信息的项;tf(t)为t在文档中出现的词频;idf(t) 为t在几篇文档中出现过;b(t.field)为域的加权因子,在插入文档中设置; numTerms为词的个数,一个域中包含的t总数越多,也即文档越长,此值越小,文档越短,此值越大;
依据评论的信息相关性similari和用户节点的权重Wi以及质量与评价的时间,对评价的得分进行排序得到最终的排序结果Fsi;排序算法如下:
Fsi=α*similari+(1-α)*fun(Ti,Hi,Wi,β)
其中,fun(Ti,Hi,Wi,β)代表评论i品质的函数,具体实现依据不同的情况;α、β为0到1之间的常数。
CN201410035384.0A 2014-01-24 2014-01-24 一种基于web文本的观点挖掘与分类的方法 Expired - Fee Related CN103793503B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410035384.0A CN103793503B (zh) 2014-01-24 2014-01-24 一种基于web文本的观点挖掘与分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410035384.0A CN103793503B (zh) 2014-01-24 2014-01-24 一种基于web文本的观点挖掘与分类的方法

Publications (2)

Publication Number Publication Date
CN103793503A CN103793503A (zh) 2014-05-14
CN103793503B true CN103793503B (zh) 2017-02-08

Family

ID=50669169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410035384.0A Expired - Fee Related CN103793503B (zh) 2014-01-24 2014-01-24 一种基于web文本的观点挖掘与分类的方法

Country Status (1)

Country Link
CN (1) CN103793503B (zh)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063428A (zh) * 2014-06-09 2014-09-24 国家计算机网络与信息安全管理中心 一种中文微博突发热点话题检测方法
CN105302844B (zh) * 2014-08-01 2019-07-16 腾讯科技(深圳)有限公司 互联网监测方法、装置及系统
CN104239436B (zh) * 2014-08-27 2018-01-02 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
WO2016066228A1 (en) * 2014-10-31 2016-05-06 Longsand Limited Focused sentiment classification
CN104504087A (zh) * 2014-12-25 2015-04-08 中国科学院电子学研究所 一种基于低秩分解的精细主题挖掘方法
CN104794212B (zh) * 2015-04-27 2018-04-10 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
CN104809252B (zh) * 2015-05-20 2018-05-04 成都信息工程大学 互联网数据提取系统
CN104866572B (zh) * 2015-05-22 2018-05-18 齐鲁工业大学 一种网络短文本聚类方法
CN105022725B (zh) * 2015-07-10 2018-04-20 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN106372083B (zh) * 2015-07-22 2019-10-18 中国科学院计算技术研究所 一种有争议性新闻线索自动发现的方法及系统
CN104965823A (zh) * 2015-07-30 2015-10-07 成都鼎智汇科技有限公司 一种基于大数据的观点抽取方法
CN105159883A (zh) * 2015-09-22 2015-12-16 安徽省星启天网络技术有限公司 一种社交网络平台介入系统
CN105183717B (zh) * 2015-09-23 2018-04-24 东南大学 一种基于随机森林和用户关系的osn用户情感分析方法
CN105224954B (zh) * 2015-10-10 2018-10-26 福州大学 一种基于Single-pass去除小话题影响的话题发现方法
CN105574105B (zh) * 2015-12-14 2019-05-28 北京锐安科技有限公司 一种文本分类模型的确定方法
CN105653649B (zh) * 2015-12-28 2019-05-21 福建亿榕信息技术有限公司 海量文本中低占比信息识别方法及装置
CN105760502A (zh) * 2016-02-23 2016-07-13 常州普适信息科技有限公司 一种基于大数据文本挖掘的商品质量情感词典构建系统
CN105653737B (zh) * 2016-03-01 2020-04-17 广州神马移动信息科技有限公司 用于内容文档排序的方法、设备和电子设备
CN107436877B (zh) * 2016-05-25 2021-03-30 北京京东尚科信息技术有限公司 热点话题推送方法和装置
CN108604230A (zh) * 2016-07-14 2018-09-28 微软技术许可有限责任公司 具有职业和非职业内容的用户馈送
CN106202481A (zh) * 2016-07-18 2016-12-07 量子云未来(北京)信息科技有限公司 一种感知数据的评价方法和系统
CN106326447B (zh) * 2016-08-26 2019-06-21 北京量科邦信息技术有限公司 一种众包网络爬虫抓取数据的检测方法及系统
CN107943800A (zh) * 2016-10-09 2018-04-20 郑州大学 一种微博话题舆情计算与分析的方法
CN106874469B (zh) * 2017-02-16 2020-05-05 北京大学 一种新闻综述生成方法与系统
CN107102984A (zh) * 2017-04-21 2017-08-29 中央民族大学 一种藏语微博情感倾向性分析方法和系统
WO2018195691A1 (en) 2017-04-24 2018-11-01 Microsoft Technology Licensing, Llc New connection recommendations based on data attributes
CN107038156A (zh) * 2017-04-28 2017-08-11 北京清博大数据科技有限公司 一种基于大数据的舆论热点预测方法
CN107633044B (zh) * 2017-09-14 2021-08-06 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN107657056B (zh) * 2017-10-18 2022-02-18 北京百度网讯科技有限公司 基于人工智能展示评论信息的方法和装置
CN107908624A (zh) * 2017-12-12 2018-04-13 太原理工大学 一种基于全覆盖粒计算的K‑medoids文本聚类方法
CN108090048B (zh) * 2018-01-12 2021-05-25 安徽大学 一种基于多元数据分析的高校评价系统
CN108763390A (zh) * 2018-05-18 2018-11-06 浙江新能量科技股份有限公司 基于滑动窗口技术的细粒度主题提取方法
CN108959383A (zh) * 2018-05-31 2018-12-07 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN108959479B (zh) * 2018-06-21 2022-03-25 成都睿码科技有限责任公司 一种基于文本相似度的事件情感分类方法
CN109241429A (zh) * 2018-09-05 2019-01-18 食品安全与营养(贵州)信息科技有限公司 一种食品安全舆情监控方法及系统
CN109299226A (zh) * 2018-10-25 2019-02-01 北京奇艺世纪科技有限公司 一种数据处理方法及系统
CN109558587B (zh) * 2018-11-08 2021-04-16 武汉大学 一种针对类别分布不平衡的舆论倾向性识别的分类方法
CN109740042A (zh) * 2018-11-27 2019-05-10 平安科技(深圳)有限公司 舆论信息的监控方法、装置及存储介质、计算机设备
CN110287405B (zh) * 2019-05-21 2021-06-01 百度在线网络技术(北京)有限公司 情感分析的方法、装置和存储介质
CN112231470A (zh) * 2019-06-28 2021-01-15 上海智臻智能网络科技股份有限公司 话题挖掘方法及装置、存储介质、终端
CN110427566A (zh) * 2019-07-23 2019-11-08 复旦大学 一种基于社群系统的服务管理系统
CN110738047B (zh) * 2019-09-03 2021-04-20 华中科技大学 基于图文数据与时间效应的微博用户兴趣挖掘方法及系统
CN111221962B (zh) * 2019-11-18 2023-05-26 重庆邮电大学 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN111090811B (zh) * 2019-12-24 2023-09-01 北京理工大学 一种海量新闻热点话题提取方法和系统
CN111309903B (zh) * 2020-01-20 2023-06-16 北京大米未来科技有限公司 一种数据处理方法、装置、存储介质和电子设备
CN111310476B (zh) * 2020-02-21 2021-11-02 山东大学 一种使用基于方面的情感分析方法的舆情监控方法和系统
CN111291198A (zh) * 2020-03-12 2020-06-16 重庆仙桃易云数据有限公司 基于大数据的经济形势指数分析方法、系统及计算机可读介质
CN111783468B (zh) * 2020-06-28 2023-08-15 百度在线网络技术(北京)有限公司 文本处理方法、装置、设备和介质
CN112929235B (zh) * 2021-02-06 2022-02-11 珠海市鸿瑞信息技术股份有限公司 一种基于互联网的网络监测系统
TWI796674B (zh) * 2021-04-26 2023-03-21 宏碁股份有限公司 輿情分析裝置以及輿情分析方法
CN114238735B (zh) * 2021-12-14 2022-10-11 中科大数据研究院 一种互联网数据智能采集方法
CN114429109B (zh) * 2022-04-06 2022-07-19 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于评论有用性的用户评论摘要的方法
CN115455269B (zh) * 2022-08-22 2023-08-29 华云天下(南京)科技有限公司 文章热度分析方法、装置、数据处理架构和分析系统
CN115982370B (zh) * 2023-03-17 2023-05-23 中国标准化研究院 一种信息处理方法
CN117271710B (zh) * 2023-11-17 2024-01-30 山东接力教育集团有限公司 一种基于大数据的教辅热点数据智能分析系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127042A (zh) * 2007-09-21 2008-02-20 浙江大学 一种基于语言模型的情感分类方法
CN102789498A (zh) * 2012-07-16 2012-11-21 钱钢 基于集成学习的中文评论文本的情感分类方法与系统
CN103365997A (zh) * 2013-07-12 2013-10-23 华东师范大学 一种基于集成学习的观点挖掘方法
CN103399916A (zh) * 2013-07-31 2013-11-20 清华大学 基于产品特征的互联网评论观点挖掘方法及系统
CN103473262A (zh) * 2013-07-17 2013-12-25 北京航空航天大学 一种基于关联规则的Web评论观点自动分类系统及分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127042A (zh) * 2007-09-21 2008-02-20 浙江大学 一种基于语言模型的情感分类方法
CN102789498A (zh) * 2012-07-16 2012-11-21 钱钢 基于集成学习的中文评论文本的情感分类方法与系统
CN103365997A (zh) * 2013-07-12 2013-10-23 华东师范大学 一种基于集成学习的观点挖掘方法
CN103473262A (zh) * 2013-07-17 2013-12-25 北京航空航天大学 一种基于关联规则的Web评论观点自动分类系统及分类方法
CN103399916A (zh) * 2013-07-31 2013-11-20 清华大学 基于产品特征的互联网评论观点挖掘方法及系统

Also Published As

Publication number Publication date
CN103793503A (zh) 2014-05-14

Similar Documents

Publication Publication Date Title
CN103793503B (zh) 一种基于web文本的观点挖掘与分类的方法
Satu et al. TClustVID: A novel machine learning classification model to investigate topics and sentiment in COVID-19 tweets
Choi et al. Emerging topic detection in twitter stream based on high utility pattern mining
El-Kishky et al. Scalable topical phrase mining from text corpora
Ratkiewicz et al. Detecting and tracking the spread of astroturf memes in microblog streams
Aiello et al. Sensing trending topics in Twitter
Rohera et al. A taxonomy of fake news classification techniques: Survey and implementation aspects
Sharma et al. Nlp and machine learning techniques for detecting insulting comments on social networking platforms
Zhuohao et al. Keyword Extraction from Scientific Research Projects Based on SRP‐TF‐IDF
Goyal et al. Multilevel event detection, storyline generation, and summarization for tweet streams
Sharma et al. Detecting hate speech and insults on social commentary using nlp and machine learning
Dey et al. Emtagger: a word embedding based novel method for hashtag recommendation on twitter
Ma et al. News2vec: News network embedding with subnode information
Raghuvanshi et al. A brief review on sentiment analysis
Skaik et al. Using twitter social media for depression detection in the canadian population
Kim et al. Effective fake news detection using graph and summarization techniques
Liu et al. A reliable cross-site user generated content modeling method based on topic model
Barakhnin et al. Methods to identify the destructive information
Kumar et al. A review of fake news detection using machine learning techniques
Xie et al. A network embedding-based scholar assessment indicator considering four facets: Research topic, author credit allocation, field-normalized journal impact, and published time
Jafari et al. Unsupervised keyword extraction for hashtag recommendation in social media
Trabelsi et al. A survey of extremism online content analysis and prediction techniques in twitter based on sentiment analysis
Gan et al. Microblog sentiment analysis via user representative relationship under multi-interaction hybrid neural networks
Fang et al. NSEP: Early fake news detection via news semantic environment perception
Azarafza et al. Textrank-based microblogs keyword extraction method for Persian language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170208

Termination date: 20200124