CN101408883B - 一种网络舆情观点收集方法 - Google Patents

一种网络舆情观点收集方法 Download PDF

Info

Publication number
CN101408883B
CN101408883B CN2008101476452A CN200810147645A CN101408883B CN 101408883 B CN101408883 B CN 101408883B CN 2008101476452 A CN2008101476452 A CN 2008101476452A CN 200810147645 A CN200810147645 A CN 200810147645A CN 101408883 B CN101408883 B CN 101408883B
Authority
CN
China
Prior art keywords
word
speech
emotion
sentence
critical sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101476452A
Other languages
English (en)
Other versions
CN101408883A (zh
Inventor
高辉
傅彦
佘莉
田军伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN2008101476452A priority Critical patent/CN101408883B/zh
Publication of CN101408883A publication Critical patent/CN101408883A/zh
Application granted granted Critical
Publication of CN101408883B publication Critical patent/CN101408883B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络舆情观点收集方法,通过在网络论坛中提取热点词,根据热点词提取相关的信息文档,构成该热点词相关的热点事件文档集,并对其中的关键句进行聚类,得到某一热点事件的多个观点主题句集,然后通过建立不同类别的情感词库,对观点主题句集中的关键句的情感词进行情感标记,然后根据情感标记计算出每个关键句的情感倾向值,再依据关键句的网民的身份标记,计算出每个网民在该观点主题下的情感倾向值,得到某一热点事件的网络舆情观点,从而实现了网络舆情观点的收集。本发明不但可以有效地发现网络中的舆情信息,还可以针对具体的舆情信息能及时准确地提取网民观点,弥补了以往舆情系统只能发现舆情信息,而不能做观点分析的不足。

Description

一种网络舆情观点收集方法
技术领域
本发明涉及网络信息处理技术领域,具体来讲,涉及一种网络舆情观点收集方法。
背景技术
网络舆情
网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。网络舆情是一股强大的舆论力量,会反作用于热点事件并对社会发展和事态进程产生一定的影响。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。对相关政府部门来说,如何加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。
因此,对网络舆情观点进行收集具有相当重要的意义,在一个热点事件的发展过程中网民观点起着至关重要的作用,甚至可以被认为是网络舆情的核心。
目前已经有很多单位针对舆情监控提出了一些不同的解决方案。
谷尼国际软件开发的Goonie互联网舆情监控系统通过对互联网海量信息自动获取,自动聚类,主题检测,专题聚焦,实现网络舆情监测和新闻专题追踪,形成简报、分析报告等结果,为全面掌握舆情动态提供分析依据。该系统通过内容抽取识别,相似性去重等技术,可以获取网络中的热点话题和敏感话题,可以根据统计等策略,分析在不同时间内人们对不同主题的关注程度,并预测事件的发展趋势。
中科点击开发的军犬网络舆情监控系统使用强大的采集软件,对数千网站进行监控,可以自动获取舆情信息的热度,并生成报表,同时可以获取热点主题的浏览量,回复数,并跟踪发帖人,对舆情信息进行管理,标注和分类,并根据重要性对舆情信息进一步筛选和过滤。
北京拓尔思信息技术股份有限公司开发的TRS网络舆情监控系统采用多种技术,实现对舆情信息的精准和全面采集,同时综合运用大规模文本智能挖掘技术,实现对海量舆情信息的准确、高效分析和管理。
北大方正技术研究院开发的方正智思网络舆情互联网信息监控分析系统整合互联网搜索技术及信息智能处理技术等,通过对网络信息进行自动抓取,自动分类聚类,主题检测,专题聚焦等方法,实现网络舆情监控和新闻专题追踪等功能。
通过对上面几个国内知名的舆情监控系统的分析发现:目前国内的舆情监控系统都将重点放在舆情的准确发现和分类归类方面,而对于某个舆情事件中人们所持的观点和看法并没有做深入的研究。这些监控系统对于舆情的发现可能会有很好的效果,因此适合给有关机构提供分析和咨询,但是由于其侧重于发现和分类方面,不能及时准确地了解网民的观点,如何及时准确地收集网民对热点事件的观点成为一个亟待解决的问题。
发明内容
本发明的目的在于克服上述现有技术的不足,提供一种能及时准确地了解网民观点的网络舆情观点收集方法。
为实现上述目的,本发明的网络舆情观点收集方法,包括以下步骤:
(1)、从网络论坛中抓取网页,将其信息文档保存到爬虫数据库中;
(2)、从爬虫数据库中的信息文档中提取出热点词,根据热点词,提取热点词相关的信息文档,构成该热点词相关的热点事件文档集;
(3)、在热点事件文档集中,提取信息文档中的关键句,构成关键句集,在提取关键句过程中,在该关键句句末添加网民的身份标记,以标记该关键句的所属用户;
(4)、对关键句集中的关键句进行聚类,对聚类结果按每类句子数目对其排序,取最高的前M类,形成M类观点主题句集;
(5)、建立不同类别的情感词库,情感词库中的每一个词语对应一个权值,对M类观点主题句集分别标注其对应的情感词库,然后依据情感词库,分别对M类观点主题句集中的关键句的情感词进行情感标记,然后根据情感标记计算出每个关键句的情感倾向值,再依据关键句的网民的身份标记,计算出每个网民在该观点主题下的情感倾向值,从而得到某一热点事件的网络舆情观点。
本发明通过在网络论坛中提取热点词,根据热点词提取相关的信息文档,构成该热点词相关的热点事件文档集,并对其中的关键句进行聚类,得到某一热点事件的多个观点主题句集,然后通过建立不同类别的情感词库,对观点主题句集中的关键句的情感词进行情感标记,然后根据情感标记计算出每个关键句的情感倾向值,再依据关键句的网民的身份标记,计算出每个网民在该观点主题下的情感倾向值,得到某一热点事件的网络舆情观点,从而实现了网络舆情观点的收集。本发明不但可以有效地发现网络中的舆情信息,还可以针对具体的舆情信息能及时准确地提取网民观点,弥补了以往舆情系统只能发现舆情信息,而不能做观点分析的不足。
附图说明
图1是本发明网络舆情观点收集方法一种具体实施方式的整体流程图;
图2是图1所示的网络舆情观点收集方法中,步骤ST2热点事件文档集提取流程图;
图3是图1所示的网络舆情观点收集方法中,步骤ST3关键句集提取流程图;
图4是图1所示的网络舆情观点收集方法中,步骤ST5观点提取流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,需要特别提醒注意的是,在以下的描述中,当采用已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这儿将被忽略。
图1是本发明网络舆情观点收集方法一种具体实施方式的整体流程图。
在本实施例中,网络舆情观点收集方法包括以下步骤:
(1)、从网络论坛中抓取网页,将其信息文档保存到爬虫数据库中。在本实施例中,根据需要抓取网页的网络论坛建立网络论坛列表,网络爬虫,即定时定量地抓取网页,下载符合要求的信息文档并保存到爬虫数据库中。该步骤为图1中的步骤ST1,目的是提取需要的信息文档;
(2)、从爬虫数据库中的信息文档中提取出热点词,根据热点词,提取热点词相关的信息文档,构成该热点词相关的热点事件文档集;该步骤为图1中的步骤ST2,经过步骤ST2后得到热点事件文档集;
(3)、在热点事件文档集中,提取信息文档中的关键句,构成关键句集,在提取关键句过程中,在该关键句句末添加网民的身份标记,以标记该关键句的所属用户;该步骤为图1中的步骤ST3,经过步骤ST3后得到关键句集;
(4)、对关键句集中的关键句进行聚类,对聚类结果按每类句子数目对其排序,取最高的前M类,形成M类观点主题句集;该步骤为图1中的步骤ST4,经过步骤ST4后得到观点主题句集;
(5)、建立不同类别的情感词库,情感词库中的每一个词语对应一个权值,对M类观点主题句集分别标注其对应的情感词库,然后依据情感词库,分别对M类观点主题句集中的关键句的情感词进行情感标记,然后根据情感标记计算出每个关键句的情感倾向值,再依据关键句的网民的身份标记,计算出每个网民在该观点主题下的情感倾向值,从而得到某一热点事件的网络舆情观点;该步骤为图1中的步骤ST5,经过步骤ST5后得到某一热点事件的网络舆情观点。
图2是图1所示的网络舆情观点收集方法中,步骤ST2热点事件文档集提取流程图。在本实施例中,步骤ST2包括两个步骤,即步骤ST201,提取热点词和步骤ST202,查找出每个热点词相对应的所有文档。
步骤ST201:从信息文档中提取出所有的热点词,形成热点词列表,其中的一个热点词对应一个热点事件。
以往热点词多是基于词频来提取,即只考虑了词语的流行性。而在实际的论坛中,很多时候话题会出现漂移的现象:即一个话题讨论到后面转到了另外的话题上,这时通过词频就不能准确地反映网民的关注对象和态度。在本实施例中,热点词的提取考虑了词语的流行性和时事性两个方面。其中流行性是指词语在信息文档中的频度,而时事性则考虑的是一段时间内词语频度的变化情况,通过这两个属性的结合可以准确地找到当前的热点词。
词语流行性的算法如下:
W j = Σ c = 1 N F jc Σ k = 1 K F kc 2 e ( n jc N c )
其中,Wj表示词语j的流行性权重,Fjc是词语j在论坛c中出现的次数,njc是论坛c中包含了词语j的文档数目,Nc是论坛c中的文档总数,K是论坛c中使用的词语总数,Fkc是词语k在论坛c中出现的次数,而N是论坛数。在本实施例中,网络论坛为新浪、搜狐等网络论坛。
词语时事性的算法如下:
首先要计算词语j在论坛c中的关联度,一个词语j在特定的时间段内在某一特定论坛上出现的频率越高,其权重越大。词语j在论坛c中的关联度可通过卡方公式来计算:
W j , c = ( A + B + C + D ) × ( AD - CB ) 2 ( A + C ) × ( B + D ) × ( A + B ) × ( C + D )
其中,A是词语j在时间段S中在论坛c中出现的次数,B是词语j在时间段S中在其他论坛出现的次数,C是词语j在时间段S以外在论坛c上出现的次数,D是词语j在时间段S以外在其他论坛出现的次数。
词-语时事性的权重通过如下公式计算:
V j = 1 N Σ c = 1 N ln ( W j , c - W j , c ‾ ) 2
其中N为媒体数;
词语j的权重定义为上述两项的加权和:
WTj=α*Wj+(1-α)*Vj
其中α为调整参数,用于调整流行性和时事性的比例,是一经验常量。
根据词语j的权重,在信息文档中提取词语,提取的词语即为热点词,形成热点词列表。
步骤ST202:依据热点词列表中的热点词,从爬虫数据库中查找包含某一热点词的所有信息文档,构成该热点词相关的热点事件文档集。在本实施例中,提取出的热点词有多个,所以形成多个热点事件文档集,。
图3是图1所示的网络舆情观点收集方法中,步骤ST3关键句集提取流程图。在本实施例中,步骤ST3关键句集提取包括两个步骤,即步骤ST301,提取关键词并过滤和步骤ST302,匹配搜索关键词所在句子。
步骤ST301:在热点事件文档集中,提取关键词并进行过滤,得到关键词列表。
在本实施例中,关键词主要是通过基于词频统计的方法来提取,方法同步骤ST201所述的词语流行性的算法,提取后按照计算得到的权重对词语进行排序,对排序靠前的关键词进行人工过滤,滤出其中不需要的噪声词,过滤后剩下的关键词构成该热点事件的关键词列表。
步骤302:利用关键词列表在热点事件文档集中匹配搜索关键词所在的句子,得到关键句集。
在拆分句子时,在该关键句句末添加网民的身份标记,以标记该关键句的所属用户,以便于后续步骤情感倾向值的计算。
在本实施例中,步骤ST4:对关键句集中的关键句进行聚类,具体方法为:
将关键句中的名词和动名词挑选出来作为特征词,每个特征词作为特征向量的一维,如果关键句中含有该特征词,则该维特征值取1,否则取0。由此得到每个关键句的特征向量。
得到每个关键句的特征向量后,计算任意两个关键句
Figure G2008101476452D00061
之间的相似度,相似度是通过对特征向量采取余弦相似度的算法得到的:
sim ( i → , j → ) = i → · j → | i → | | j → |
两个向量之间的相似度越大,表明两个关键句越相似,其属于同一类别,即观点主题的概率就越大。
根据该相似度
Figure G2008101476452D00063
对关键句进行聚类,这些类别中可能存在一个或多个类讨论的是相同主题的内容,但是通过聚类时的阈值设定,可以尽量保证同一个类别中的关键句都是针对同一个观点主题。
对聚类结果按每类句子数目对其排序,取最高的前M类,形成M类观点主题句集。
图4是图1所示的网络舆情观点收集方法中,步骤ST5观点提取流程图。
在本实施例中,步骤ST5观点提取包括以下步骤:
步骤ST501:建立不同类别的情感词库,情感词库中的每一个词语对应一个权值。考虑情感词的权值在不同观点主题下是不同的,情感词库采用分类存储的方式,包含教育、食品等不同类别。以下是一个情感词库的构成列表:
 
类型 标签 权值 词语举例
褒义形容词 aj 1 好,美丽
贬义形容词 dj -1 差,丑陋
强烈副词 ad 2 极大地
普通副词 dd 0.5 较好地
褒义动词 av 1 推动,促进
贬义动词 dv -1 导致,破坏
褒义名词 an 1 快乐,优点
贬义名词 dn -1 人渣,缺点
转义词语 mr -1 没有,不
表1
步骤ST502:对M类观点主题句集分别标注其对应的情感词库,然后依据情感词库,分别对M类观点主题句集中的关键句的情感词进行情感标记,然后根据情感标记计算出每个关键句的情感倾向值。
若所提取的情感词在对应的情感词库中不存在,就将其放到候选情感词库中,对候选词库进行手工筛选并标注情感倾向权值,将符合要求的情感词添加到情感词库中的相应类别中,因此情感词库是动态增长的。
关键句的情感倾向是通过句中标记的情感词的权值来计算,计算规则如下:
首先将句中相邻的相同词性的情感词,包括形容词、动词、名词和副词进行合并,合并方法是对词语的权值应用加法规则;
然后对下面几种情况采用乘法规则进行合并:
1)相邻的转义词语之间采用乘法规则;
2)副词和其修饰的形容词采用乘法规则;
3)副词和其修饰的动词采用乘法规则;
4)形容词和其修饰的名词采用乘法规则;
最后将剩下的权值应用加法规则得到一个关键句的情感倾向值。
步骤ST503:依据关键句的网民的身份标记,计算出每个网民在该观点主题下的情感倾向值,从而得到某一热点事件的网络舆情观点。
1)计算每个网民对抽象观点的情感倾向值
根据关键句末尾的网民的身份标记可以找到属于某个用户,即网民的所有关键句集,根据情感倾向值计算规则得到每一个关键句的情感倾向值,将该网民所有的关键句情感倾向值相加得到最终的结果pi(i∈P,P为用户集)为该网民的情感倾向值。
2)将1)中得到的每个网民的情感倾向值pi添加到统计结果中,最终得到该网民对某一热点事件的一个观点主题的态度。每个网民对一个观点主题只能投一票,投票规则如下:
Figure G2008101476452D00081
其中,pi是根据表1所示的情感词库依据步骤ST502的方法计算得到的,按照此方法可以得到M个观点主题下网民的情感倾向值。
步骤ST504:将M个观点主题中相同内容的观点进行合并,并从而得到某个舆情事件的所有主要观点及网民的态度。
具体实例
为进一步理解本发明的网络舆情观点收集方法,下面举一具体实例:
(1):从新浪,网易,搜狐三大主流网站的论坛抓取网页,将信息文档保存到爬虫数据库中
(2):从爬虫数据库中的信息文档中选出热点事件文档集:
首先使用基于流行性和时事性结合的算法从信息文档中提取热点词,最终提取了“三聚氰胺”、“三鹿奶粉”等50个热点词。从信息文档中分别将50个热点词的对应文档抽取出来,50个热点事件文档集;
(3):针对每一热点事件文档集,取出其中的关键句集合:
以热点事件中的“三鹿奶粉”事件为例,使用词频统计的方法从“三鹿奶粉”热点事件文档集中提取关键词,该算法将文档中提取的每个关键词赋予一个权值,对该权值进行排序,取前100个关键词,然后进行手工过滤,滤出其中不需要的噪声词,最终得到:“三鹿奶粉”、“三聚氰胺”、“监管不力”等80个关键词。然后使用这80个关键词匹配“三鹿奶粉”热点事件文档集的句子,将包含关键词的句子抽取出来,抽取过程中在句子末尾添加其所属用户的网民的身份标记,抽取出的所有句子构成了“三鹿奶粉”热点事件的关键句集;
步骤4:对“三鹿奶粉”热点事件的关键句集进行聚类,将聚类结果按每类句子的数目进行排序,取最高的前10类,这10类中包含数目最多的有3242个关键句,数目最少的有840个关键句。
步骤5:获取这10类中的抽象观点及网民支持或反对程度:
以其中的第一类为例,首先标注其所属类别为食品类,其观点主题为“完善食品监管机制”,提取该类别下的特征词,即名词和情感词,即形容词、副词和动词等,如:“监管机制”、“管理体系”、“相当差”、“极不完善”、“太危险了”等词语。查找词库中食品类是否包含了提取的情感词,若包含,则不做处理;否则,将情感词添加到候选词库中,待所有情感词添加完毕,对候选词库进行人工筛选,将符合该类别特征的情感词添加到情感词库的食品类中。情感词库是按照分类存储的方式进行存储,其中包含教育、食品等类别。每个类别中的词按照词性进行分类存储,每个类别具有一个权值,如表1所示。然后根据情感词库标注关键句,分析该类中每个关键句的情感倾向值,将一个用户,即网民发言的所有情感倾向值相加,可以得到一个用户的情感倾向值,对所有人的情感倾向值进行综合统计从而得到最终的结果。
将10个观点主题中相同内容的观点进行合并,在“三鹿奶粉”热点事件中,有四个观点主题:
1)完善食品监管机制;
2)政府必须公开处理此类事件的处理过程和结果;
3)构建和完善政府的责任分管机制;
4)加强道德和法律方面的教育。
通过对网民发言的分析,可以看到43%的人参与了观点1)的讨论,参与讨论的人中,90%的人表达了消极负面的意见,即表示目前的食品监管机制很差,亟待完善;9%的人参与了观点2)的讨论,其中30%的人认为政府处理此类时间比较公开,60%的人表达了负面意见,即希望政府可以进一步公开处理类似的舆情事件;21%的人参与了观点3)的讨论,其中68%的人表达负面意见,希望政府可以加强相关的管理,完善责任;16%的人参与了观点4)的讨论,其中80%的人表达负面意见,即认为道德和法律相关教育有待加强。
一般可以认为超过75%的人支持的观点为舆情观点,通过对舆情观点的研究可以及时准确地了解网民关注的热点和态度,从而为有关部门的决策和对舆情事件的处理和后续工作提供优先级排序,保证有关部门可以快速准确地处理舆情事件。同时根据网民关注的热点和态度,我们还可以进一步研究网民的受教育水平等综合素质。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化时显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (3)

1.一种网络舆情观点收集方法,包括以下步骤:
(1)、从网络论坛中抓取网页,将其信息文档保存到爬虫数据库中;
(2)、从爬虫数据库中的信息文档中提取出热点词,根据热点词,提取热点词相关的信息文档,构成该热点词相关的热点事件文档集;
(3)、在热点事件文档集中,提取信息文档中的关键句,构成关键句集,在提取关键句过程中,在该关键句句末添加网民的身份标记,以标记该关键句的所属用户;
(4)、对关键句集中的关键句进行聚类,对聚类结果按每类句子数目对其排序,取最高的前M类,形成M类观点主题句集;
(5)、建立不同类别的情感词库,情感词库中的每一个词语对应一个权值,对M类观点主题句集分别标注其对应的情感词库,然后依据情感词库,分别对M类观点主题句集中的关键句的情感词进行情感标记,然后根据情感标记计算出每个关键句的情感倾向值,再依据关键句的网民的身份标记,计算出每个网民在该观点主题下的情感倾向值,从而得到某一热点事件的网络舆情观点;
其中,所述的根据情感标记计算出每个关键句的情感倾向值为通过关键句中标记的情感词的权值来计算,计算规则如下:
首先将句中相邻的相同词性的情感词,包括形容词、动词、名词和副词进行合并,合并方法是对词语的权值应用加法规则;
然后对下面几种情况采用乘法规则进行合并:
1)相邻的转义词语之间采用乘法规则;
2)副词和其修饰的形容词采用乘法规则;
3)副词和其修饰的动词采用乘法规则;
4)形容词和其修饰的名词采用乘法规则;
最后将剩下的权值应用加法规则得到一个关键句的情感倾向值。
2.根据权利要求1所述的网络舆情观点收集方法,其特征在于,步骤(2)所述的提取出热点词,其步骤为:
首先计算出词语流行性权重和时事性权重,然后根据词语流行性权重和时事性权重在信息文档中提取词语,提取的词语即为热点词;
所述的词语流行性权重的计算方法为:
Figure DEST_PATH_FSB00000122932000011
其中,Wj表示词语j的流行性权重,Fjc是词语j在论坛c中出现的次数,njc是论坛c中包含了词语j的文档数目,Nc是论坛c中的文档总数,K是论坛c中使用的词语总数,Fkc是词语k在论坛c中出现的次数,而N是论坛数;
所述的词语时事性权重的计算方法为:
首先要计算词语j在论坛c中的关联度:
Figure DEST_PATH_FSB00000122932000012
其中,A是词语j在时间段S中在论坛c中出现的次数,B是词语j在时间段S中在其他论坛出现的次数,C是词语j在时间段S以外在论坛c上出现的次数,D是词语j在时间段S以外在其他论坛出现的次数;
词语时事性的权重通过如下公式计算:
Figure DEST_PATH_FSB00000122932000013
其中N为媒体数;
所述的根据词语流行性权重和时事性权重在信息文档中提取词语,提取的词语即为热点词为:
词语j的权重定义为词语流行性权重和时事性权重两项的加权和:
WTj=α*Wj+(1-α)*Vj
其中α为调整参数,用于调整流行性和时事性的比例,是一经验常量;
根据词语j的权重,在信息文档中提取词语,提取的词语即为热点词。
3.根据权利要求1所述的网络舆情观点收集方法,其特征在于,步骤(4)所述的对关键句集中的关键句进行聚类的方法为:
将关键句中的名词和动名词挑选出来作为特征词,每个特征词作为特征向量的一维,如果关键句中含有该特征词,则该维特征值取1,否则取0,由此得到每个关键句的特征向量;
得到每个关键句的特征向量后,计算任意两个关键句
Figure FSB00000061240400031
之间的相似度,相似度是通过对特征向量采取余弦相似度的算法得到的:
Figure FSB00000061240400032
根据该相似度
Figure FSB00000061240400033
对关键句进行聚类。
CN2008101476452A 2008-11-24 2008-11-24 一种网络舆情观点收集方法 Expired - Fee Related CN101408883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101476452A CN101408883B (zh) 2008-11-24 2008-11-24 一种网络舆情观点收集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101476452A CN101408883B (zh) 2008-11-24 2008-11-24 一种网络舆情观点收集方法

Publications (2)

Publication Number Publication Date
CN101408883A CN101408883A (zh) 2009-04-15
CN101408883B true CN101408883B (zh) 2010-09-01

Family

ID=40571896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101476452A Expired - Fee Related CN101408883B (zh) 2008-11-24 2008-11-24 一种网络舆情观点收集方法

Country Status (1)

Country Link
CN (1) CN101408883B (zh)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877711B (zh) * 2009-04-28 2013-08-28 华为技术有限公司 社会网络建立方法及装置、以及社区发现方法及装置
CN101882136B (zh) * 2009-05-08 2015-02-04 中国科学院计算技术研究所 文本情感倾向性分析方法
CN101819573B (zh) * 2009-09-15 2012-07-25 电子科技大学 一种自适应的网络舆情识别方法
CN101661513B (zh) * 2009-10-21 2011-04-06 上海交通大学 网络热点和舆情的检测方法
CN102163187B (zh) 2010-02-21 2014-11-26 国际商业机器公司 文档标记方法和装置
CN102236636A (zh) * 2010-04-26 2011-11-09 富士通株式会社 情感倾向性分析方法和装置
CN102541839B (zh) * 2010-12-15 2014-08-27 日电(中国)有限公司 基于文本集合的隐性情绪词典建立方法和装置
CN102567393A (zh) * 2010-12-21 2012-07-11 北大方正集团有限公司 一种处理舆情话题的方法、装置和系统
CN102693245A (zh) * 2011-03-22 2012-09-26 日电(中国)有限公司 属性提取和聚类设备及方法
CN102222310A (zh) * 2011-07-18 2011-10-19 深圳证券信息有限公司 证券信息发布方法和平台
CN102279890A (zh) * 2011-09-02 2011-12-14 苏州大学 基于微博的情感词提取收集方法
CN103246676A (zh) * 2012-02-10 2013-08-14 富士通株式会社 对消息进行聚类的方法和设备
SG11201403537VA (en) * 2012-03-22 2014-07-30 Ttwick Inc Computerized internet search system and method
CN102708096B (zh) * 2012-05-29 2014-10-15 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN103593358B (zh) * 2012-08-16 2016-01-20 江苏金鸽网络科技有限公司 一种基于聚类分析的互联网信息热点控制方法
CN102929860B (zh) * 2012-10-12 2015-05-13 浙江理工大学 一种基于上下文语境的中文分句情感极性判别方法
TWI477987B (zh) * 2012-10-30 2015-03-21 Univ Ming Chuan 新聞文本情緒傾向分析方法
CN102945290B (zh) * 2012-12-03 2015-12-23 北京奇虎科技有限公司 微博热点话题挖掘装置及方法
CN103186662B (zh) * 2012-12-28 2016-08-03 北京中油网资讯技术有限公司 一种动态舆情关键词抽取系统和方法
CN103235777B (zh) * 2012-12-28 2018-05-04 国家计算机网络与信息安全管理中心 一种用户需求导向的互联网舆情获取方法
CN103020303B (zh) * 2012-12-31 2015-08-19 中国科学院自动化研究所 基于互联网跨媒体地标的历史事件提取及相关图片的搜索方法
CN103530796B (zh) 2013-10-10 2016-06-01 北京智谷睿拓技术服务有限公司 应用程序的活跃期检测方法和活跃期检测系统
CN103617212A (zh) * 2013-11-19 2014-03-05 北京京东尚科信息技术有限公司 一种处理舆情数据的方法和系统
CN103902659B (zh) * 2014-03-04 2017-06-27 深圳市至高通信技术发展有限公司 一种舆情分析方法及相应的装置
CN103902674B (zh) * 2014-03-19 2017-10-27 百度在线网络技术(北京)有限公司 特定主题的评论数据的采集方法和装置
CN103995853A (zh) * 2014-05-12 2014-08-20 中国科学院计算技术研究所 基于关键句的多语言情感数据处理分类方法及系统
CN104239383A (zh) * 2014-06-09 2014-12-24 合肥工业大学 一种微博情感可视化方法
CN104331394A (zh) * 2014-08-29 2015-02-04 南通大学 一种基于观点的文本分类方法
CN104360993B (zh) * 2014-11-19 2018-03-30 广州极盛信息科技开发有限公司 一种从文本提取所需内容的方法
CN104951869A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于工作流的舆情监控方法及装置
CN104933130A (zh) * 2015-06-12 2015-09-23 百度在线网络技术(北京)有限公司 评论信息的标注方法及装置
CN105243053B (zh) * 2015-09-15 2018-02-09 百度在线网络技术(北京)有限公司 提取文档关键句的方法及装置
CN106649343B (zh) * 2015-10-30 2020-08-04 阿里巴巴集团控股有限公司 一种网络数据信息处理方法及设备
CN105808722B (zh) * 2016-03-08 2020-07-24 苏州大学 一种信息判别方法和系统
CN106257458A (zh) * 2016-07-15 2016-12-28 合肥指南针电子科技有限责任公司 一种舆情信息归类评估系统
CN106250363A (zh) * 2016-07-15 2016-12-21 合肥指南针电子科技有限责任公司 一种舆情监控分析方法
CN106202048A (zh) * 2016-07-15 2016-12-07 合肥指南针电子科技有限责任公司 一种舆情监测系统
CN107784010B (zh) * 2016-08-29 2021-12-17 南京尚网网络科技有限公司 一种用于确定新闻主题的热度信息的方法与设备
CN106844330B (zh) * 2016-11-15 2018-04-20 平安科技(深圳)有限公司 文章情感的分析方法和装置
CN106776744A (zh) * 2016-11-21 2017-05-31 中国软件与技术服务股份有限公司 一种基于互联网信息的软件开发方法及系统
CN108228587A (zh) * 2016-12-13 2018-06-29 北大方正集团有限公司 群体识别方法及群体识别装置
CN107315778A (zh) * 2017-05-31 2017-11-03 温州市鹿城区中津先进科技研究院 一种基于大数据情感分析的自然语言舆情分析方法
CN107391684B (zh) * 2017-07-24 2020-12-11 深信服科技股份有限公司 一种威胁情报生成的方法及系统
CN107423444B (zh) * 2017-08-10 2020-05-19 世纪龙信息网络有限责任公司 热词词组提取方法和系统
CN107590193A (zh) * 2017-08-14 2018-01-16 安徽晶奇网络科技股份有限公司 一种政务舆情监测管理系统
CN107741929A (zh) * 2017-10-18 2018-02-27 网智天元科技集团股份有限公司 舆情分析方法及装置
CN107918644B (zh) * 2017-10-31 2020-12-08 北京锐思爱特咨询股份有限公司 声誉管理框架内的新闻议题分析方法和实施系统
CN107908698B (zh) * 2017-11-03 2021-04-13 广州索答信息科技有限公司 一种主题网络爬虫方法、电子设备、存储介质、系统
CN108009934B (zh) * 2017-11-17 2021-03-12 上海哔哩哔哩科技有限公司 服务器、案件分配方法及系统、事件分配方法及系统
CN108614813A (zh) * 2017-12-19 2018-10-02 武汉楚鼎信息技术有限公司 一种股市题材舆情热度计算方法及系统装置
CN110110250A (zh) * 2018-01-18 2019-08-09 北京京东尚科信息技术有限公司 信息输出方法和装置
CN108710654B (zh) * 2018-05-10 2021-03-26 新华智云科技有限公司 一种舆情数据可视化方法及设备
CN108959479B (zh) * 2018-06-21 2022-03-25 成都睿码科技有限责任公司 一种基于文本相似度的事件情感分类方法
CN109271512B (zh) * 2018-08-29 2023-11-24 中国平安保险(集团)股份有限公司 舆情评论信息的情感分析方法、装置及存储介质
CN109145215B (zh) * 2018-08-29 2023-11-07 中国平安保险(集团)股份有限公司 网络舆情分析方法、装置及存储介质
CN109299870B (zh) * 2018-09-17 2021-07-06 中国电子科技集团公司第二十八研究所 一种基于事件的国家稳定性评估方法
CN109460457A (zh) * 2018-10-25 2019-03-12 北京奥法科技有限公司 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法
CN109558587B (zh) * 2018-11-08 2021-04-16 武汉大学 一种针对类别分布不平衡的舆论倾向性识别的分类方法
CN109446330B (zh) * 2018-11-13 2021-05-14 广州虎牙科技有限公司 网络服务平台情感倾向识别方法、装置、设备和存储介质
CN112015857A (zh) * 2019-05-13 2020-12-01 中国移动通信集团湖北有限公司 用户感知评价方法、装置、电子设备及计算机存储介质
CN110516067B (zh) * 2019-08-23 2022-02-11 北京工商大学 基于话题检测的舆情监控方法、系统及存储介质
CN113220823B (zh) * 2020-01-21 2024-03-01 北京中科闻歌科技股份有限公司 一种面向社交媒体公共言论的情感、话题及观点分析方法和装置
CN112633627A (zh) * 2020-11-11 2021-04-09 湖南正宇软件技术开发有限公司 社情民意处理方法、装置、计算机设备和存储介质
CN113157858A (zh) * 2021-03-25 2021-07-23 上海柏观数据科技有限公司 一种基于情感词匹配与频度结合的情感程度检测方法
CN112988973A (zh) * 2021-03-25 2021-06-18 上海柏观数据科技有限公司 一种基于情感词匹配的人才情感倾向检测方法
CN113032653A (zh) * 2021-04-02 2021-06-25 盐城师范学院 一种基于大数据的舆情监测平台
CN113254746B (zh) * 2021-05-24 2023-07-18 华北科技学院(中国煤矿安全技术培训中心) 一种基于树莓派的网络舆情展现系统
CN113282754A (zh) * 2021-06-10 2021-08-20 北京中科闻歌科技股份有限公司 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN113609403B (zh) * 2021-06-21 2024-03-26 河南工学院 一种互联网舆情信息采集方法
CN114036221A (zh) * 2021-09-24 2022-02-11 国务院国有资产监督管理委员会研究中心 一种专题事件分析方法

Also Published As

Publication number Publication date
CN101408883A (zh) 2009-04-15

Similar Documents

Publication Publication Date Title
CN101408883B (zh) 一种网络舆情观点收集方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN103500175B (zh) 一种基于情感分析在线检测微博热点事件的方法
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
Butnaru et al. Moroco: The moldavian and romanian dialectal corpus
CN101295381B (zh) 一种垃圾邮件检测方法
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
Siddiqui et al. Bots and Gender Profiling on Twitter.
CN103745000A (zh) 一种中文微博客的热点话题检测方法
CN101699432A (zh) 基于排序策略的信息过滤系统
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
CN107305545A (zh) 一种基于文本倾向性分析的网络意见领袖的识别方法
CN110532480B (zh) 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
Yan et al. An improved single-pass algorithm for chinese microblog topic detection and tracking
CN104268230A (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN105117466A (zh) 一种互联网信息筛选系统及方法
CN102063497A (zh) 一种开放式知识共享平台及其词条处理方法
CN105337842B (zh) 一种与内容无关的垃圾邮件过滤方法
Long et al. A method of machine learning for social bot detection combined with sentiment analysis
Hoang-Vu et al. Bridging vocabularies to link tweets and news
Pham et al. Vietnamese fake news detection based on hybrid transfer learning model and TF-IDF
Chen et al. User-defined hot topic detection in microblogging
Kastanos et al. Graph convolutional network for swahili news classification
Virmani et al. HashMiner: Feature Characterisation and analysis of# Hashtag Hijacking using real-time neural network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100901

Termination date: 20121124