CN101661513B - 网络热点和舆情的检测方法 - Google Patents

网络热点和舆情的检测方法 Download PDF

Info

Publication number
CN101661513B
CN101661513B CN2009103085424A CN200910308542A CN101661513B CN 101661513 B CN101661513 B CN 101661513B CN 2009103085424 A CN2009103085424 A CN 2009103085424A CN 200910308542 A CN200910308542 A CN 200910308542A CN 101661513 B CN101661513 B CN 101661513B
Authority
CN
China
Prior art keywords
notion
unit
information
similarity
information document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009103085424A
Other languages
English (en)
Other versions
CN101661513A (zh
Inventor
李生红
张月国
陈铭
梁昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN2009103085424A priority Critical patent/CN101661513B/zh
Publication of CN101661513A publication Critical patent/CN101661513A/zh
Application granted granted Critical
Publication of CN101661513B publication Critical patent/CN101661513B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了网络信息处理技术领域的一种网络热点和舆情的检测方法,通过搜集指定时间范围内的网络论坛、博客系统的正文信息文档和评论信息文档,并进行分词、概念映射、概念消歧,再提取出能够表达正文信息文档内容的本征特征,利用这些本征特征进行聚类,形成若干个包含不等数量的信息文档的信息文档集,根据各信息文档集中信息文档的数目可以知道指定时间范围内网络上讨论的热点事件,再对热点事件信息文档集进行褒贬倾向分析,从而获知网民对该热点事件的舆情观点。本发明消除了以往舆情系统以词为单位、不够灵活的不足,同时增强了对评论文本进行舆情分析的能力。

Description

网络热点和舆情的检测方法
技术领域
本发明涉及的是一种网络信息处理技术领域的方法,具体是一种网络热点和舆情的检测方法。
背景技术
互联网已成为人们获取和交流信息的最重要的平台之一。互联网与传统媒体相比,最大的特点之一是自由、开放、及时,任何人都可以通过博客、论坛系统在互联网上发布观点和评论。这就使得互联网上容易散布不良信息,如欺骗性的言论或是危害国家安全的言论,严重的会引发群体性事件。同时,博客、论坛系统的文本中包含了大量反映民意的舆情信息,有必要对这些舆情信息进行分析、监控和预测,从中发现热点信息。
目前习惯的做法是使用人工对互联网舆情信息进行监控并分析热点信息。但这样做有两个问题,一是面对海量的信息,需要耗费大量的人力、物力,且人工处理速度慢,实效性差;二是每个人通常只能监控某几个互联网站点的文本信息,信息汇总、整理困难,容易忽略某些热点信息。还有一种做法是利用计算机对特定互联网站点的文本进行关键词提取,提取出热点关键词,再由人工分析出与这些热点关键词相对应的热点信息。但是单个关键词包含的信息太少,且包含不同信息的文本可能包含相同的关键词,影响对热点信息的判断。
经过对现有技术的文献检索发现,中国专利公开号为:CN101408883,专利名称为:一种网络舆情观点收集方法,该申请案中实现舆情信息的发现是基于计算热点词词频和词频变化的方法,以关键句中的动词和名词作为特征值进行聚类。其具体方法是在网络论坛中根据词频和词频的变化情况来提取热点词,根据热点词从爬虫数据库中提取相关的信息文档,搜索出其中含有热点词的句子形成关键句集,并以关键句中的动词和名词作为特征词,以每个特征值为特征向量的一维。如果关键句中含有该特征词,则该维特征值取1;否则取0。再通过计算各关键句特征向量间的余弦相似度对关键句进行聚类,得到多个观点主题句集。最后采用带权重的情感词库和手工判别相结合的方法来计算各个观点主题句网络情感倾向,从而得到网络的舆情观点。但这种方法以词为单位进行热点词提取和关键句聚类,遇到一词多义或多词一义的情况会影响准确率,且运算复杂。同时,这种方法没有考虑到互联网上除了众多主题文档外,关于这些主题文档的评论文档也包含了网民的观点,也是网络舆情倾向的重要组成部分。
发明内容
本发明针对上述现有技术的不足,提供了一种网络热点和舆情的检测方法,通过在文档的特征概念空间内进行聚类,解决了一词多义和多词一义情况下热点的分析,并综合主题文档的评论文本进行舆情分析。
本发明是通过如下技术方案实现的,本发明包括如下步骤:
第一步,从网络论坛和博客中抓取指定时间范围内的网页,将其信息文档及相应的评论文档保存到数据库中。
所述的信息文档包括:网络论坛的主贴和博客的网络日志正文,该文档是纯文本格式的文档。
所述的评论文档包括:网络论坛的回帖和博客的评论内容,该文档是纯文本格式的文档。
第二步,对数据库中的文档进行概念映射和概念消歧处理,最终使得每个词语映射成唯一的概念。
所述的文档包括:信息文档及相应的评论文档。
所述的处理,是将文档分解成为词序列,并且对词序列中每一个词语进行词性标注。
所述的概念映射,就是将分好的每个词的概念用《知网》中若干个义元的组合表示出来。
所述的《知网》,是一个以汉语和英语的词语所代表的概念的数据库,其描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,知识库包括1500多个义元,每个概念就是由若干个义元的组合标注的,其中:所述的义元分为基本义元和关系义元。
所述的概念消歧,是在含有一词多义词语的句子中,根据一词多义词语的每个概念与该句中其他词语的概念相似度,选取概念相似度之和最大的概念作为该一词多义词语在该句中的概念。
第三步,对每篇信息文档基于概念网提取本征特征,并利用提取出的本征特征对这些信息文档进行聚类,形成多个信息文档集,取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集。
所述的本征特征,就是能反映整篇信息文档的概念且定义于《知网》中的一组义元。
所述的提取本征特征是,在去除每篇信息文档的虚词后,将信息文档中所有义元各自的权重值与权重阈值进行比较,其中权重值大于权重阈值的义元就是信息文档的本征特征。
所述的聚类,具体为:将待聚类的信息文档的所有不同的本征特征义元作为特征向量的一维,如果信息文档中含有该本征特征义元,则该维特征值取1,否则取0,由此得到每篇信息文档的特征向量,根据待聚类的任意两篇信息文档的特征向量间的余弦值得到这两篇信息文档间的相似度,相似度大于相似度阈值的两篇文档就被归属于同一个信息文档集中,取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集。
第四步,建立网络用语库,对每个热点事件进行褒贬倾向分析,得到每个热点事件的网络舆情倾向。
所述的网络用语库,包括:网络指代词表和网络评论词表,其中:网络评论词表包含:网络评论文档中带感情色彩的词语及其词性和褒贬倾向性。
所述的褒贬倾向分析,包括:信息文档对热点事件的褒贬倾向分析和相应的评论文档的褒贬倾向分析及其褒贬对象分析。
所述的网络舆情倾向是结合了热点事件信息文档集中的信息文档对热点事件的褒贬倾向分析和相应的评论文档的褒贬倾向分析及其褒贬对象分析,根据评论文档对信息文档热点事件的褒贬倾向得到的各个热点事件信息文档集中所有信息文档的相应评论文档对热点事件的褒贬倾向。
与现有技术相比,本发明具有如下有益效果:使用概念作为文档的本征特征,可以很好处理一词多义和多词一义的情况,运算简单;以整篇文档为单位进行网络热点发现和舆情分析,且充分考虑了评论文档包含的舆情信息,提高了网络热点发现和舆情分析的准确率。
附图说明
图1是本发明的流程示意框图。
具体实施方式
下面结合附图对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例包括步骤如下:
第一步,从网络论坛和博客中抓取指定时间范围内的网页,将其信息文档及相应的评论文档保存到数据库中。
所述的从网络论坛中抓取网页,具体为:通过链接分析的方式,获得指定的网络论坛的所有板块的网络地址,再通过链接分析方式用HTTP协议下载所有板块在指定时间范围内发表的主贴以及主贴对应的回贴,同时记录主贴作者的网络名和回贴作者的网络名,以及主贴和回贴间的对应关系。
所述的从博客中抓取网页,具体为:通过网络爬虫的方式,获得包含有指定博客系统的一定数量用户的网络名的数据库。通过网络名,可以得到相应用户博客空间的网络日志列表页面的地址。对网络日志列表页面进行链接分析,用HTTP协议下载网络名数据库中所有用户在指定时间范围内发表的网络日志正文以及网络日志对应的评论,同时记录网络日志正文作者的网络名和评论作者的网络名,以及网络日志正文和评论间的对应关系。
所述的文档包括:信息文档及相应的评论文档。
所述的信息文档包括:网络论坛的主贴和博客的网络日志正文,该文档是纯文本格式的文档。
所述的评论文档包括:网络论坛的回帖和博客的评论内容,该文档是纯文本格式的文档
通过HTTP协议下载到的文档一般是超文本标记语言(HTML)的文档,需要过滤转换为纯文本格式的文档。
本实施例从搜狐博客(blog.sohu.com)、新浪博客(blog.sina.com.cn)以及上海交通大学BBS系统(bbs.sjtu.edu.cn)抓取了2009年10月1日到2009年10月5日之间共8314篇信息文档及相应的评论文档保存到数据库中。
本实施例使用boost库中的正则表达模块从抓取到的文档中过滤HTML标签,以提取纯文本内容,具体的正则表达式为:″<[^>]+>″。
文档保存到数据库中;
第二步,对数据库中的文档进行概念映射和概念消歧处理,最终使得每个词语映射成唯一的概念。
所述的处理,是将文档分解成为词序列,并且对词序列中每一个词语进行词性标注,本实施例使用了中科院计算所的ICTCLAS分词系统对信息文档进行分词。
所述的概念映射,就是将分好的每个词的概念用《知网》中若干个义元的组合表示出来
所述的《知网》,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,知识库包括1500多个义元,每个概念就是由若干个义元的组合标注的,其中:所述的义元包括:基本义元和关系义元。
所述的概念消歧,是在含有一词多义词语的句子中,根据一词多义词语的每个概念与该句中其他词语的概念相似度,选取概念相似度之和最大的概念作为该一词多义词语在该句中的概念。
所述的概念相似度,具体公式为:
simW(W1,W2)=β1simB(BP1,BP2)+β2simR(RP1,RP2)+β3simBR(BP,RP)
其中:simW(W1,W2)是概念W1和概念W2的概念相似度,simB(BP1,BP2)是概念W1的基本义元和概念W2的基本义元的相似度,simR(RP1,RP2)是概念W1的关系义元和概念W2的关系义元的相似度,simBR(BP,RP)是概念W1和概念W2的基本义元和关系义元的相似度,β1、β2和β3分别为simW(W1,W2)、simB(BP1,BP2)和simBR(BP,RP)的权重系数,且β123=1
设概念W1有m1个基本义元,概念W2有m2个基本义元,概念W1有n1个关系义元,概念W2有n2个关系义元,i∈m1,j∈m2,x∈n1,y∈n2,dij表示概念W1的第i个基本义元和概念W2的第j个基本义元在义元树上的距离,dxy表示概念W1的第x个关系义元和概念W2的第y个关系义元在义元树上的距离,diy表示概念W1的第i个基本义元和概念W2的第y个关系义元在义元树上的距离,dxj表示概念W1的第x个关系义元和概念W2的第j个基本义元在义元树上的距离,a是一个调节参数,且在各种义元相似度计算时取同一值。则:
所述的simB(BP1,BP2)的计算方法为:
simB ( BP 1 , BP 2 ) = max i , j sim ( BP 1 , i , BP 2 , j )
其中:sim(BP1,i,BP2,j)是概念W1的第i个基本义元和概念W2的第j个基本义元的相似度,
sim ( BP 1 , i , BP 2 , j ) = a a + d ij .
所述的simR(RP1,RR2)的计算方法为:
simR ( RP 1 , RP 2 ) = &Sigma; x , y sim ( RP 1 , x , RP 2 , y ) x * y
其中:sim(RP1,x,RP2,y)是概念W1的第x个关系义元和概念W2的第y个关系义的相似度,
sim ( RP 1 , x , RP 2 , y ) = a a + d xy .
所述的simBR(BP,RP)的计算方法为:
simBR(BP,RP)=max(simBR(BP1,RP2),simBR(RP1,BP2))
其中:simBR(BP1,RP2)是概念W1的基本义元和概念W2的关系义元的相似度,simBR(RP1,BP2)是概念W1的关系义元和概念W2的基本义元的相似度,且
simBR ( BP 1 , RP 2 ) = &Sigma; i , y sim ( BP 1 , i , RP 2 , y ) i * y
simBR ( R P 1 , BP 2 ) = &Sigma; x , j sim ( RP 1 , x , BP 2 , j ) x * j
其中:sim(BP1,i,RP2,y)是概念W1的第i个基本义元和概念W2的第y个关系义元的相似度,sim(RP1,x,BP2,j)是概念W1的第x个关系义元和概念W2的第j个基本义元的相似度,且:
sim ( BP 1 , i , RP 2 , y ) = a a + d iy .
sim ( RP 1 , x , BP 2 , j ) = a a + d xj .
当句子中含有两个或者多个一词多义的词语时,分别计算该句中每个一词多义的词语的每一个概念与其它词语的概念的相似度,在处理一词多义词语的一个概念与另一个一词多义的词语的概念相似度时,将后者一词多义词语的概念取为该词语在《知网》中第一个概念来计算。
第三步,对每篇信息文档基于概念网提取本征特征,并利用提取出的本征特征对这些信息文档进行聚类,形成多个信息文档集,取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集。
所述的本征特征,就是能反映整篇信息文档的概念且定义于《知网》中的一组义元。
所述的提取本征特征是,在去除每篇信息文档的虚词后,将信息文档中所有不同的义元各自的权重值与权重阈值进行比较,其中权重值大于权重阈值的义元就是信息文档的本征特征。
对于整篇信息文档中只出现一次的义元的权重值是该义元与该信息文档中其它所有义元的相似度之和;对于整篇信息文档中出现N次的义元的权重值是该义元与该信息文档中其它所有不同义元的相似度之和的N倍,其中:计算基本义元和关系义元间的相似度时,由于它们之间并不是直接的相似而是通过联系相互关联的,因此在计算相似度后要乘上可调节的参数再累加到待计算的义元的权重值中。
所述的聚类,具体为:将待聚类的信息文档的所有不同的本征特征义元作为特征向量的一维,如果信息文档中含有该本征特征义元,则该维特征值取1,否则取0,由此得到每篇信息文档的特征向量,根据待聚类的任意两篇信息文档的特征向量间的余弦值得到这两篇信息文档间的相似度sim(i,j),相似度大于相似度阈值的两篇文档就被归属于同一个信息文档集中,取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集,其中:
sim ( i &OverBar; , j &OverBar; ) = i &OverBar; * j &OverBar; | i &OverBar; | | j &OverBar; |
其中:i和j分别表示第i篇信息文档和第j篇信息文档的特征向量。
两篇信息文档间的相似度越大,说明这两篇信息文档属于同一个热点事件的可能性就越大。通过控制相似度阈值,可以尽量保证同一个热点事件信息文档集中的信息文档都是关于同一个事件或同一个观点的。
本实施例提取本征特征后,进行聚类,形成的信息文档数目最多的信息文档集共包含873篇信息文档,从这些信息文档中提取出的本征特征义元大多包含“time|时间,day|日,@congratulate|祝贺,#country|国家,fact|事情,check|查,#army|军队,military|军”。这个信息文档集的主题是2009年中国国庆节阅兵式。
第四步,建立网络用语库,对每个热点事件信息文档集中所有信息文档的相应评论文档进行褒贬倾向分析,综合每个热点事件信息文档集内所有评论的褒贬倾向,得到该热点事件信息文档集所代表的事件的网络舆情倾向。
所述网络用语库,包括:网络指代词表和网络评论词表,其中:网络评论词表包含:网络评论文档中带感情色彩的词语及其词性和褒贬倾向性。
所述的褒贬倾向分析,包括:信息文档对热点事件的褒贬倾向分析和相应的评论文档的褒贬倾向分析及其褒贬对象分析。
所述的信息文档对热点事件的褒贬倾向分析,具体为:利用网络评论词表的词分别在热点事件信息文档集中的信息文档中搜索,将搜索到的词性相符的网络评论词所在的句子称为信息文档中心句,该网络评论词称为信息关键词,所有信息文档中心句称为信息文档中心句集,根据信息文档中心句集中每个信息文档中心句的信息关键词所对应的义元组合,得到该义元组合与该句子所在的信息文档的本征特征义元的相似度simO,将simO与信息文档褒贬倾向阈值相比较,若simO大于信息文档褒贬倾向阈值,则认为该句子对信息文档热点事件的褒贬倾向与该句子的关键词的褒贬倾向相同,该句子称为褒贬倾向相同的信息文档中心句;否则该句子称为褒贬倾向相反的信息文档中心句。当信息文档中心句集中褒贬倾向相同的信息文档中心句与褒贬倾向相反的信息文档中心句的个数之比超过了信息文档褒贬一致性阈值,则认为该信息文档热点事件的褒贬倾向与多数信息文档中心句相同;否则就需要人工进行判别。
所述的信息关键词的褒贬倾向从网络评论词表中查出。
所述的相应的评论文档的褒贬倾向分析及其褒贬对象分析,具体为:利用网络评论词表的词分别在热点事件信息文档集信息文档相应的评论文档中搜索,将搜索到的词性相符的网络评论词所在的句子称为评论文档中心句集,该网络评论语称为评论关键词,所有评论文档中心句称为评论文档中心句集。若评论文档中心句只有评论关键词,则认为该评论关键词的褒贬倾向就是发表该评论的网民对该信息文档的褒贬倾向。若评论文档中心句包括评论关键词以外的评论指代词语,若网络指代此表中包括该评论指代词语,则可得到评论褒贬的对象;否则,得到该评论文档中心句中表示对象的词语所对应的义元组合,进而得到该义元组合与信息文档的本征特征的相似度sim’O,若sim’O大于评论文档褒贬对象阈值,则认为该评论文档中心句中的评论关键词的褒贬对象是相应的信息文档热点事件,否则褒贬对象就是信息文档本身。
所述的评论关键词的褒贬倾向从网络评论词表中查出。
所述的网络舆情分析是结合了热点事件信息文档集中的信息文档对热点事件的褒贬倾向分析和相应的评论文档的褒贬倾向分析及其褒贬对象分析,得到评论文档对信息文档热点事件的褒贬倾向,通过统计各个热点事件信息文档集中所有信息文档的相应评论文档对热点事件的褒贬倾向,就是网络对该热点事件的舆情倾向,具体如表1所示。
表1
  信息文档对网络热点事件的褒贬倾向   相应的评论文档的褒贬倾向   相应的评论文档的褒贬对象   评论文档对网络热点事件的褒贬倾向
  褒   褒   事件   褒
  褒   褒   信息文档   褒
  褒   贬   事件   贬
  褒   贬   信息文档   贬
  贬   褒   事件   褒
  贬   褒   信息文档   贬
  贬   贬   事件   贬
  贬   贬   信息文档   褒
  中   任意   任意   中
  任意   中   任意   中
本实施例对关于2009年中国国庆节阅兵式的信息文档集中的873篇信息文档的相应评论文档进行处理,结果表明,包括信息文档在内,共有96.37%的网民对2009年中国国庆节阅兵式持褒奖、肯定的态度;有0.83%的网民对2009年中国国庆节阅兵式持批评、否定态度;另有2.80%的网民没有表达明显的褒贬倾向。
本实施例使用概念作为文档的本征特征,可以很好处理一词多义和多词一义的情况,运算简单;以整篇文档为单位进行网络热点发现和舆情分析,且充分考虑了评论文档包含的舆情信息,提高了网络热点发现和舆情分析的准确率。

Claims (3)

1.一种网络热点和舆情的检测方法,其特征在于,包括如下步骤:
第一步,从网络论坛和博客中抓取指定时间范围内的网页,将其信息文档及相应的评论文档保存到数据库中;
第二步,对数据库中的文档进行概念映射和概念消歧处理,使得每个词语映射成唯一的概念;
第三步,对每篇信息文档基于概念网提取本征特征,并利用提取出的本征特征对这些信息文档进行聚类,形成多个信息文档集,取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集;
第四步,建立网络用语库,对每个热点事件信息文档集中所有信息文档的相应评论文档进行褒贬倾向分析,综合每个热点事件信息文档集内所有评论的褒贬倾向,得到该热点事件信息文档集所代表的事件的网络舆情倾向;
所述的概念消歧,是在含有一词多义词语的句子中,根据一词多义词语的每个概念与该句中其他词语的概念相似度,选取概念相似度之和最大的概念作为该一词多义词语在该句中的概念;
所述的概念相似度,具体公式为:
simW(W1,W2)=β1simB(BP1,BP2)+β2simR(RP1,RP2)+β3simBR(BP,RP)
其中:simW(W1,W2)是概念W1和概念W2的概念相似度,simB(BP1,BP2)是概念W1的基本义元和概念W2的基本义元的相似度,simR(RP1,RP2)是概念W1的关系义元和概念W2的关系义元的相似度,simBR(BP,RP)是概念W1和概念W2的基本义元和关系义元的相似度,β1、β2和β3分别为simB(BP1,BP2)、simR(RP1,RP2)和simBR(BP,RP)的权重系数,且β123=1,
设概念W1有m1个基本义元,概念W2有m2个基本义元,概念W1有n1个关系义元,概念W2有n2个关系义元,i∈m1,j∈m2,x∈n1,y∈n2,dij表示概念W1的第i个基本义元和W2的第j个基本义元在义元树上的距离,dxy表示概念W1的第x个关系义元和W2的第y个关系义元在义元树上的距离,diy表示概念W1的第i个基本义元和W2的第y个关系义元在义元树上的距离,dxj表示概念W1的第x个关系义元和W2的第j个基本义元在义元树上的距离,α是一个调节参数,且在每种义元相似度计算时取同一值,则:
所述的simB(BP1,BP2)的计算方法为:
simB ( BP 1 , BP 2 ) = max i , j sim ( BP 1 , i , BP 2 , j )
其中:sim(BP1,i,BP2,j)是概念W1的第i个基本义元和概念W2的第j个基本义元的相似度,
Figure FDA0000029049510000022
所述的simR(RP1,RP2)的计算方法为:
其中:sim(RP1,x,RP2,y)是概念W1的第x个关系义元和概念W2的第y个关系义元的相似度,
Figure FDA0000029049510000024
所述的simBR(BP,RP)的计算方法为:
simBR(BP,RP)=max(simBR(BP1,RP2),simBR(RP1,BP2))
其中:simBR(BP1,RP2)是概念W1的基本义元和概念W2的关系义元的相似度,simBR(RP1,BP2)是概念W1的关系义元和概念W2的基本义元的相似度,且
simBR ( BP 1 , RP 2 ) = &Sigma; i , y sim ( BP 1 , i , RP 2 , y ) i * y
simBR ( BP 1 , RP 2 ) = &Sigma; x , j sim ( RP 1 , x , RP 2 , j ) x * j
其中:sim(BP1,i,RP2,y)是概念W1的第i个基本义元和概念W2的第y个关系义元的相似度,sim(RP1,x,BP2,j)是概念W1的第x个关系义元和概念W2的第j个基本义元的相似度,且:
sim ( BP 1 , i , RP 2 , y ) = a a + d iy
sim ( RP 1 , x , BP 2 , j ) = a a + d xj .
2.根据权利要求1所述的网络热点和舆情的检测方法,其特征是,第三步中所述的提取本征特征是,在去除每篇信息文档的虚词后,将信息文档中所有义元各自的权重值与权重阈值进行比较,其中权重值大于权重阈值的义元就是信息文档的本征特征。
3.根据权利要求1所述的网络热点和舆情的检测方法,其特征是,第三步中所述的聚类,具体为:将待聚类的信息文档的所有不同的本征特征义元作为特征向量的一维,如果信息文档中含有该本征特征义元,则该维特征值取1,否则取0,由此得到每篇信息文档的特征向量,根据待聚类的任意两篇信息文档的特征向量间的余弦值得到这两篇信息文档间的相似度,相似度大于相似度阈值的两篇文档就被归属于同一个信息文档集中,取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集。
CN2009103085424A 2009-10-21 2009-10-21 网络热点和舆情的检测方法 Expired - Fee Related CN101661513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009103085424A CN101661513B (zh) 2009-10-21 2009-10-21 网络热点和舆情的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009103085424A CN101661513B (zh) 2009-10-21 2009-10-21 网络热点和舆情的检测方法

Publications (2)

Publication Number Publication Date
CN101661513A CN101661513A (zh) 2010-03-03
CN101661513B true CN101661513B (zh) 2011-04-06

Family

ID=41789533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009103085424A Expired - Fee Related CN101661513B (zh) 2009-10-21 2009-10-21 网络热点和舆情的检测方法

Country Status (1)

Country Link
CN (1) CN101661513B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207946B (zh) * 2010-06-29 2013-10-23 天津海量信息技术有限公司 一种知识网络的半自动生成方法
CN102567393A (zh) * 2010-12-21 2012-07-11 北大方正集团有限公司 一种处理舆情话题的方法、装置和系统
CN102591951A (zh) * 2011-12-28 2012-07-18 信石科技(天津)有限公司 快速过滤微博信息的方法
CN103218368B (zh) * 2012-01-20 2016-03-30 深圳市腾讯计算机系统有限公司 一种挖掘热词的方法与装置
CN102708202B (zh) * 2012-05-17 2014-11-26 厦门游家网络有限公司 Flash游戏批量分享玩家心得的方法
CN102708096B (zh) * 2012-05-29 2014-10-15 代松 一种基于语义的网络智能舆情监测系统及其工作方法
EP2857985A4 (en) * 2012-05-31 2016-08-03 Toshiba Kk KNOWLEDGE EXTRACTION DEVICE, KNOWLEDGE UPGRADING DEVICE AND PROGRAM
CN103023714B (zh) * 2012-11-21 2015-12-23 上海交通大学 基于网络话题的活跃度与集群结构分析系统及方法
CN103177076B (zh) * 2012-12-28 2016-06-22 北京中油网资讯技术有限公司 一种基于定点网站的舆情监测系统及方法
CN103116651A (zh) * 2013-03-05 2013-05-22 南京理工大学常熟研究院有限公司 一种舆情热点动态检测方法
CN103218444B (zh) * 2013-04-22 2016-12-28 中央民族大学 基于语义的藏文网页文本分类方法
CN104424278B (zh) * 2013-08-29 2019-02-26 腾讯科技(深圳)有限公司 一种获取热点资讯的方法及装置
CN104618216B (zh) * 2013-11-05 2019-05-17 腾讯科技(北京)有限公司 消息管理方法、设备和系统
CN104699719B (zh) * 2013-12-10 2017-09-29 中国科学院沈阳自动化研究所 一种物联网终端设备的语义化方法
CN103823792B (zh) * 2014-03-07 2017-01-11 网易(杭州)网络有限公司 从文本文档中检测热点事件的方法和设备
CN104111976B (zh) * 2014-06-24 2017-04-05 海南凯迪网络资讯股份有限公司 网络言论情绪态度定位方法及装置
CN104537080B (zh) * 2014-12-31 2018-08-07 北京畅游天下网络技术有限公司 资讯推荐方法和系统
CN104504151B (zh) * 2015-01-09 2017-08-25 成都布林特信息技术有限公司 微信舆情监测系统
CN106156041B (zh) * 2015-03-26 2019-05-28 科大讯飞股份有限公司 热点信息发现方法及系统
CN104866572B (zh) * 2015-05-22 2018-05-18 齐鲁工业大学 一种网络短文本聚类方法
CN106570140B (zh) * 2016-05-26 2018-03-02 中科鼎富(北京)科技发展有限公司 确定信息热点的方法及装置
CN107704460A (zh) * 2016-06-22 2018-02-16 北大方正集团有限公司 用户关系抽取方法和用户关系抽取系统
CN106789232B (zh) * 2016-12-16 2019-12-06 武汉奥浦信息技术有限公司 一种高效的信息流程化的处理控制系统
US11386354B2 (en) * 2017-06-16 2022-07-12 Ns Solutions Corporation Information processing apparatus, information processing method, and program
CN107391705B (zh) * 2017-07-28 2020-05-12 岳小玲 一种网络观点传播与预测方法
CN108170773A (zh) * 2017-12-26 2018-06-15 百度在线网络技术(北京)有限公司 新闻事件挖掘方法、装置、计算机设备和存储介质
CN111753172A (zh) * 2020-06-04 2020-10-09 南京晓庄学院 一种互联网舆情信息采集和处理方法
CN112036173A (zh) * 2020-11-09 2020-12-04 北京读我科技有限公司 一种电销文本的处理方法和系统
CN113076335B (zh) * 2021-04-02 2024-05-24 西安交通大学 一种网络模因检测方法、系统、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN101488150A (zh) * 2009-03-04 2009-07-22 哈尔滨工程大学 一种实时多角度网络热点事件分析装置及分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN101488150A (zh) * 2009-03-04 2009-07-22 哈尔滨工程大学 一种实时多角度网络热点事件分析装置及分析方法

Also Published As

Publication number Publication date
CN101661513A (zh) 2010-03-03

Similar Documents

Publication Publication Date Title
CN101661513B (zh) 网络热点和舆情的检测方法
Ding et al. The distribution of references across texts: Some implications for citation analysis
Zhang et al. Using linguistic features to estimate suicide probability of Chinese microblog users
CN105005594B (zh) 异常微博用户识别方法
CN103246644B (zh) 一种网络舆情信息处理方法和装置
CN101231661B (zh) 对象级知识挖掘的方法和系统
CN103500175B (zh) 一种基于情感分析在线检测微博热点事件的方法
CN104268200A (zh) 一种基于深度学习的非监督命名实体语义消歧方法
CN104820629A (zh) 一种智能的舆情突发事件应急处理系统及方法
CN103778200B (zh) 一种报文信息源抽取方法及其系统
CN103294664A (zh) 开放领域新词发现的方法及系统
CN102708096A (zh) 一种基于语义的网络智能舆情监测系统及其工作方法
CN105488092A (zh) 一种时间敏感和自适应的子话题在线检测方法及系统
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN102609407B (zh) 一种网络不良文本内容的细粒度语义检测方法
CN104615593A (zh) 微博热点话题自动检测方法及装置
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN102567494B (zh) 网站分类方法及装置
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN106951530A (zh) 一种事件类型抽取方法和装置
CN102779190A (zh) 一种时序海量网络新闻的热点事件快速检测方法
CN101957812A (zh) 基于事件本体的动词语义信息提取方法
CN101609445A (zh) 基于时间信息的关键子话题提取方法
CN102508830A (zh) 从新闻文档中抽取社会网络的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110406

Termination date: 20131021