CN101661513B

CN101661513B - 网络热点和舆情的检测方法

Info

Publication number: CN101661513B
Application number: CN2009103085424A
Authority: CN
Inventors: 李生红; 张月国; 陈铭; 梁昆
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2009-10-21
Filing date: 2009-10-21
Publication date: 2011-04-06
Anticipated expiration: 2029-10-21
Also published as: CN101661513A

Abstract

本发明提供了网络信息处理技术领域的一种网络热点和舆情的检测方法，通过搜集指定时间范围内的网络论坛、博客系统的正文信息文档和评论信息文档，并进行分词、概念映射、概念消歧，再提取出能够表达正文信息文档内容的本征特征，利用这些本征特征进行聚类，形成若干个包含不等数量的信息文档的信息文档集，根据各信息文档集中信息文档的数目可以知道指定时间范围内网络上讨论的热点事件，再对热点事件信息文档集进行褒贬倾向分析，从而获知网民对该热点事件的舆情观点。本发明消除了以往舆情系统以词为单位、不够灵活的不足，同时增强了对评论文本进行舆情分析的能力。

Description

网络热点和舆情的检测方法

技术领域

本发明涉及的是一种网络信息处理技术领域的方法，具体是一种网络热点和舆情的检测方法。

背景技术

互联网已成为人们获取和交流信息的最重要的平台之一。互联网与传统媒体相比，最大的特点之一是自由、开放、及时，任何人都可以通过博客、论坛系统在互联网上发布观点和评论。这就使得互联网上容易散布不良信息，如欺骗性的言论或是危害国家安全的言论，严重的会引发群体性事件。同时，博客、论坛系统的文本中包含了大量反映民意的舆情信息，有必要对这些舆情信息进行分析、监控和预测，从中发现热点信息。

目前习惯的做法是使用人工对互联网舆情信息进行监控并分析热点信息。但这样做有两个问题，一是面对海量的信息，需要耗费大量的人力、物力，且人工处理速度慢，实效性差；二是每个人通常只能监控某几个互联网站点的文本信息，信息汇总、整理困难，容易忽略某些热点信息。还有一种做法是利用计算机对特定互联网站点的文本进行关键词提取，提取出热点关键词，再由人工分析出与这些热点关键词相对应的热点信息。但是单个关键词包含的信息太少，且包含不同信息的文本可能包含相同的关键词，影响对热点信息的判断。

经过对现有技术的文献检索发现，中国专利公开号为：CN101408883，专利名称为：一种网络舆情观点收集方法，该申请案中实现舆情信息的发现是基于计算热点词词频和词频变化的方法，以关键句中的动词和名词作为特征值进行聚类。其具体方法是在网络论坛中根据词频和词频的变化情况来提取热点词，根据热点词从爬虫数据库中提取相关的信息文档，搜索出其中含有热点词的句子形成关键句集，并以关键句中的动词和名词作为特征词，以每个特征值为特征向量的一维。如果关键句中含有该特征词，则该维特征值取1；否则取0。再通过计算各关键句特征向量间的余弦相似度对关键句进行聚类，得到多个观点主题句集。最后采用带权重的情感词库和手工判别相结合的方法来计算各个观点主题句网络情感倾向，从而得到网络的舆情观点。但这种方法以词为单位进行热点词提取和关键句聚类，遇到一词多义或多词一义的情况会影响准确率，且运算复杂。同时，这种方法没有考虑到互联网上除了众多主题文档外，关于这些主题文档的评论文档也包含了网民的观点，也是网络舆情倾向的重要组成部分。

发明内容

本发明针对上述现有技术的不足，提供了一种网络热点和舆情的检测方法，通过在文档的特征概念空间内进行聚类，解决了一词多义和多词一义情况下热点的分析，并综合主题文档的评论文本进行舆情分析。

本发明是通过如下技术方案实现的，本发明包括如下步骤：

第一步，从网络论坛和博客中抓取指定时间范围内的网页，将其信息文档及相应的评论文档保存到数据库中。

所述的信息文档包括：网络论坛的主贴和博客的网络日志正文，该文档是纯文本格式的文档。

所述的评论文档包括：网络论坛的回帖和博客的评论内容，该文档是纯文本格式的文档。

第二步，对数据库中的文档进行概念映射和概念消歧处理，最终使得每个词语映射成唯一的概念。

所述的文档包括：信息文档及相应的评论文档。

所述的处理，是将文档分解成为词序列，并且对词序列中每一个词语进行词性标注。

所述的概念映射，就是将分好的每个词的概念用《知网》中若干个义元的组合表示出来。

所述的《知网》，是一个以汉语和英语的词语所代表的概念的数据库，其描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库，知识库包括1500多个义元，每个概念就是由若干个义元的组合标注的，其中：所述的义元分为基本义元和关系义元。

所述的概念消歧，是在含有一词多义词语的句子中，根据一词多义词语的每个概念与该句中其他词语的概念相似度，选取概念相似度之和最大的概念作为该一词多义词语在该句中的概念。

第三步，对每篇信息文档基于概念网提取本征特征，并利用提取出的本征特征对这些信息文档进行聚类，形成多个信息文档集，取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集。

所述的本征特征，就是能反映整篇信息文档的概念且定义于《知网》中的一组义元。

所述的提取本征特征是，在去除每篇信息文档的虚词后，将信息文档中所有义元各自的权重值与权重阈值进行比较，其中权重值大于权重阈值的义元就是信息文档的本征特征。

所述的聚类，具体为：将待聚类的信息文档的所有不同的本征特征义元作为特征向量的一维，如果信息文档中含有该本征特征义元，则该维特征值取1，否则取0，由此得到每篇信息文档的特征向量，根据待聚类的任意两篇信息文档的特征向量间的余弦值得到这两篇信息文档间的相似度，相似度大于相似度阈值的两篇文档就被归属于同一个信息文档集中，取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集。

第四步，建立网络用语库，对每个热点事件进行褒贬倾向分析，得到每个热点事件的网络舆情倾向。

所述的网络用语库，包括：网络指代词表和网络评论词表，其中：网络评论词表包含：网络评论文档中带感情色彩的词语及其词性和褒贬倾向性。

所述的褒贬倾向分析，包括：信息文档对热点事件的褒贬倾向分析和相应的评论文档的褒贬倾向分析及其褒贬对象分析。

所述的网络舆情倾向是结合了热点事件信息文档集中的信息文档对热点事件的褒贬倾向分析和相应的评论文档的褒贬倾向分析及其褒贬对象分析，根据评论文档对信息文档热点事件的褒贬倾向得到的各个热点事件信息文档集中所有信息文档的相应评论文档对热点事件的褒贬倾向。

与现有技术相比，本发明具有如下有益效果：使用概念作为文档的本征特征，可以很好处理一词多义和多词一义的情况，运算简单；以整篇文档为单位进行网络热点发现和舆情分析，且充分考虑了评论文档包含的舆情信息，提高了网络热点发现和舆情分析的准确率。

附图说明

图1是本发明的流程示意框图。

具体实施方式

下面结合附图对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例包括步骤如下：

所述的从网络论坛中抓取网页，具体为：通过链接分析的方式，获得指定的网络论坛的所有板块的网络地址，再通过链接分析方式用HTTP协议下载所有板块在指定时间范围内发表的主贴以及主贴对应的回贴，同时记录主贴作者的网络名和回贴作者的网络名，以及主贴和回贴间的对应关系。

所述的从博客中抓取网页，具体为：通过网络爬虫的方式，获得包含有指定博客系统的一定数量用户的网络名的数据库。通过网络名，可以得到相应用户博客空间的网络日志列表页面的地址。对网络日志列表页面进行链接分析，用HTTP协议下载网络名数据库中所有用户在指定时间范围内发表的网络日志正文以及网络日志对应的评论，同时记录网络日志正文作者的网络名和评论作者的网络名，以及网络日志正文和评论间的对应关系。

所述的文档包括：信息文档及相应的评论文档。

所述的评论文档包括：网络论坛的回帖和博客的评论内容，该文档是纯文本格式的文档

通过HTTP协议下载到的文档一般是超文本标记语言(HTML)的文档，需要过滤转换为纯文本格式的文档。

本实施例从搜狐博客(blog.sohu.com)、新浪博客(blog.sina.com.cn)以及上海交通大学BBS系统(bbs.sjtu.edu.cn)抓取了2009年10月1日到2009年10月5日之间共8314篇信息文档及相应的评论文档保存到数据库中。

本实施例使用boost库中的正则表达模块从抓取到的文档中过滤HTML标签，以提取纯文本内容，具体的正则表达式为：″<[^>]+>″。

文档保存到数据库中；

所述的处理，是将文档分解成为词序列，并且对词序列中每一个词语进行词性标注，本实施例使用了中科院计算所的ICTCLAS分词系统对信息文档进行分词。

所述的概念映射，就是将分好的每个词的概念用《知网》中若干个义元的组合表示出来

所述的《知网》，是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库，知识库包括1500多个义元，每个概念就是由若干个义元的组合标注的，其中：所述的义元包括：基本义元和关系义元。

所述的概念相似度，具体公式为：

simW(W₁，W₂)＝β1simB(BP₁，BP₂)+β₂simR(RP₁，RP₂)+β₃simBR(BP，RP)

其中：simW(W₁，W₂)是概念W₁和概念W₂的概念相似度，simB(BP₁，BP₂)是概念W₁的基本义元和概念W₂的基本义元的相似度，simR(RP₁，RP₂)是概念W₁的关系义元和概念W₂的关系义元的相似度，simBR(BP，RP)是概念W₁和概念W₂的基本义元和关系义元的相似度，β₁、β₂和β₃分别为simW(W₁，W₂)、simB(BP₁，BP₂)和simBR(BP，RP)的权重系数，且β₁+β₂+β_3＝1。

设概念W₁有m₁个基本义元，概念W₂有m₂个基本义元，概念W₁有n₁个关系义元，概念W₂有n₂个关系义元，i∈m₁，j∈m₂，x∈n₁，y∈n₂，d_ij表示概念W₁的第i个基本义元和概念W₂的第j个基本义元在义元树上的距离，d_xy表示概念W₁的第x个关系义元和概念W₂的第y个关系义元在义元树上的距离，d_iy表示概念W₁的第i个基本义元和概念W₂的第y个关系义元在义元树上的距离，d_xj表示概念W₁的第x个关系义元和概念W₂的第j个基本义元在义元树上的距离，a是一个调节参数，且在各种义元相似度计算时取同一值。则：

所述的simB(BP₁，BP₂)的计算方法为：

simB ({BP}_{1}, {BP}_{2}) = \max_{i, j} sim ({BP}_{1, i}, {BP}_{2, j})

其中：sim(BP_1，i，BP_2，j)是概念W₁的第i个基本义元和概念W₂的第j个基本义元的相似度，

sim ({BP}_{1, i}, {BP}_{2, j}) = \frac{a}{a + d_{ij}} .

所述的simR(RP₁，RR₂)的计算方法为：

simR ({RP}_{1}, {RP}_{2}) = \underset{x, y}{Σ} \frac{sim ({RP}_{1, x}, {RP}_{2, y})}{x * y}

其中：sim(RP_1，x，RP_2，y)是概念W₁的第x个关系义元和概念W₂的第y个关系义的相似度，

sim ({RP}_{1, x}, {RP}_{2, y}) = \frac{a}{a + d_{xy}} .

所述的simBR(BP，RP)的计算方法为：

simBR(BP，RP)＝max(simBR(BP₁，RP₂)，simBR(RP₁，BP₂))

其中：simBR(BP₁，RP₂)是概念W₁的基本义元和概念W₂的关系义元的相似度，simBR(RP₁，BP₂)是概念W₁的关系义元和概念W₂的基本义元的相似度，且

simBR ({BP}_{1}, {RP}_{2}) = \underset{i, y}{Σ} \frac{sim ({BP}_{1, i}, {RP}_{2, y})}{i * y}

simBR (R P_{1}, {BP}_{2}) = \underset{x, j}{Σ} \frac{sim ({RP}_{1, x}, {BP}_{2, j})}{x * j}

其中：sim(BP_1，i，RP_2，y)是概念W₁的第i个基本义元和概念W₂的第y个关系义元的相似度，sim(RP_1，x，BP_2，j)是概念W₁的第x个关系义元和概念W₂的第j个基本义元的相似度，且：

sim ({BP}_{1, i}, {RP}_{2, y}) = \frac{a}{a + d_{iy}} .

sim ({RP}_{1, x}, {BP}_{2, j}) = \frac{a}{a + d_{xj}} .

当句子中含有两个或者多个一词多义的词语时，分别计算该句中每个一词多义的词语的每一个概念与其它词语的概念的相似度，在处理一词多义词语的一个概念与另一个一词多义的词语的概念相似度时，将后者一词多义词语的概念取为该词语在《知网》中第一个概念来计算。

所述的提取本征特征是，在去除每篇信息文档的虚词后，将信息文档中所有不同的义元各自的权重值与权重阈值进行比较，其中权重值大于权重阈值的义元就是信息文档的本征特征。

对于整篇信息文档中只出现一次的义元的权重值是该义元与该信息文档中其它所有义元的相似度之和；对于整篇信息文档中出现N次的义元的权重值是该义元与该信息文档中其它所有不同义元的相似度之和的N倍，其中：计算基本义元和关系义元间的相似度时，由于它们之间并不是直接的相似而是通过联系相互关联的，因此在计算相似度后要乘上可调节的参数再累加到待计算的义元的权重值中。

所述的聚类，具体为：将待聚类的信息文档的所有不同的本征特征义元作为特征向量的一维，如果信息文档中含有该本征特征义元，则该维特征值取1，否则取0，由此得到每篇信息文档的特征向量，根据待聚类的任意两篇信息文档的特征向量间的余弦值得到这两篇信息文档间的相似度sim(i，j)，相似度大于相似度阈值的两篇文档就被归属于同一个信息文档集中，取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集，其中：

sim (\overset{&OverBar;}{i}, \overset{&OverBar;}{j}) = \frac{\overset{&OverBar;}{i} * \overset{&OverBar;}{j}}{| \overset{&OverBar;}{i} | | \overset{&OverBar;}{j} |}

其中：i和j分别表示第i篇信息文档和第j篇信息文档的特征向量。

两篇信息文档间的相似度越大，说明这两篇信息文档属于同一个热点事件的可能性就越大。通过控制相似度阈值，可以尽量保证同一个热点事件信息文档集中的信息文档都是关于同一个事件或同一个观点的。

第四步，建立网络用语库，对每个热点事件信息文档集中所有信息文档的相应评论文档进行褒贬倾向分析，综合每个热点事件信息文档集内所有评论的褒贬倾向，得到该热点事件信息文档集所代表的事件的网络舆情倾向。

所述网络用语库，包括：网络指代词表和网络评论词表，其中：网络评论词表包含：网络评论文档中带感情色彩的词语及其词性和褒贬倾向性。

所述的信息文档对热点事件的褒贬倾向分析，具体为：利用网络评论词表的词分别在热点事件信息文档集中的信息文档中搜索，将搜索到的词性相符的网络评论词所在的句子称为信息文档中心句，该网络评论词称为信息关键词，所有信息文档中心句称为信息文档中心句集，根据信息文档中心句集中每个信息文档中心句的信息关键词所对应的义元组合，得到该义元组合与该句子所在的信息文档的本征特征义元的相似度simO，将simO与信息文档褒贬倾向阈值相比较，若simO大于信息文档褒贬倾向阈值，则认为该句子对信息文档热点事件的褒贬倾向与该句子的关键词的褒贬倾向相同，该句子称为褒贬倾向相同的信息文档中心句；否则该句子称为褒贬倾向相反的信息文档中心句。当信息文档中心句集中褒贬倾向相同的信息文档中心句与褒贬倾向相反的信息文档中心句的个数之比超过了信息文档褒贬一致性阈值，则认为该信息文档热点事件的褒贬倾向与多数信息文档中心句相同；否则就需要人工进行判别。

所述的信息关键词的褒贬倾向从网络评论词表中查出。

所述的相应的评论文档的褒贬倾向分析及其褒贬对象分析，具体为：利用网络评论词表的词分别在热点事件信息文档集信息文档相应的评论文档中搜索，将搜索到的词性相符的网络评论词所在的句子称为评论文档中心句集，该网络评论语称为评论关键词，所有评论文档中心句称为评论文档中心句集。若评论文档中心句只有评论关键词，则认为该评论关键词的褒贬倾向就是发表该评论的网民对该信息文档的褒贬倾向。若评论文档中心句包括评论关键词以外的评论指代词语，若网络指代此表中包括该评论指代词语，则可得到评论褒贬的对象；否则，得到该评论文档中心句中表示对象的词语所对应的义元组合，进而得到该义元组合与信息文档的本征特征的相似度sim’O，若sim’O大于评论文档褒贬对象阈值，则认为该评论文档中心句中的评论关键词的褒贬对象是相应的信息文档热点事件，否则褒贬对象就是信息文档本身。

所述的评论关键词的褒贬倾向从网络评论词表中查出。

所述的网络舆情分析是结合了热点事件信息文档集中的信息文档对热点事件的褒贬倾向分析和相应的评论文档的褒贬倾向分析及其褒贬对象分析，得到评论文档对信息文档热点事件的褒贬倾向，通过统计各个热点事件信息文档集中所有信息文档的相应评论文档对热点事件的褒贬倾向，就是网络对该热点事件的舆情倾向，具体如表1所示。

表1

信息文档对网络热点事件的褒贬倾向	相应的评论文档的褒贬倾向	相应的评论文档的褒贬对象	评论文档对网络热点事件的褒贬倾向
				褒	褒	事件	褒
褒	褒	信息文档	褒
				褒	贬	事件	贬
褒	贬	信息文档	贬
				贬	褒	事件	褒
贬	褒	信息文档	贬
				贬	贬	事件	贬
贬	贬	信息文档	褒
				中	任意	任意	中
任意	中	任意	中

本实施例对关于2009年中国国庆节阅兵式的信息文档集中的873篇信息文档的相应评论文档进行处理，结果表明，包括信息文档在内，共有96.37％的网民对2009年中国国庆节阅兵式持褒奖、肯定的态度；有0.83％的网民对2009年中国国庆节阅兵式持批评、否定态度；另有2.80％的网民没有表达明显的褒贬倾向。

本实施例使用概念作为文档的本征特征，可以很好处理一词多义和多词一义的情况，运算简单；以整篇文档为单位进行网络热点发现和舆情分析，且充分考虑了评论文档包含的舆情信息，提高了网络热点发现和舆情分析的准确率。

Claims

1.一种网络热点和舆情的检测方法，其特征在于，包括如下步骤：

第一步，从网络论坛和博客中抓取指定时间范围内的网页，将其信息文档及相应的评论文档保存到数据库中；

第二步，对数据库中的文档进行概念映射和概念消歧处理，使得每个词语映射成唯一的概念；

第三步，对每篇信息文档基于概念网提取本征特征，并利用提取出的本征特征对这些信息文档进行聚类，形成多个信息文档集，取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集；

第四步，建立网络用语库，对每个热点事件信息文档集中所有信息文档的相应评论文档进行褒贬倾向分析，综合每个热点事件信息文档集内所有评论的褒贬倾向，得到该热点事件信息文档集所代表的事件的网络舆情倾向；

所述的概念消歧，是在含有一词多义词语的句子中，根据一词多义词语的每个概念与该句中其他词语的概念相似度，选取概念相似度之和最大的概念作为该一词多义词语在该句中的概念；

所述的概念相似度，具体公式为：

simW(W₁，W₂)＝β₁simB(BP₁，BP₂)+β₂simR(RP₁，RP₂)+β₃simBR(BP，RP)

其中：simW(W₁，W₂)是概念W₁和概念W₂的概念相似度，simB(BP₁，BP₂)是概念W₁的基本义元和概念W₂的基本义元的相似度，simR(RP₁，RP₂)是概念W₁的关系义元和概念W₂的关系义元的相似度，simBR(BP，RP)是概念W₁和概念W₂的基本义元和关系义元的相似度，β₁、β₂和β₃分别为simB(BP₁，BP₂)、simR(RP₁，RP₂)和simBR(BP，RP)的权重系数，且β₁+β₂+β₃＝1，

设概念W₁有m₁个基本义元，概念W₂有m₂个基本义元，概念W₁有n₁个关系义元，概念W₂有n₂个关系义元，i∈m₁，j∈m₂，x∈n₁，y∈n₂，d_ij表示概念W₁的第i个基本义元和W₂的第j个基本义元在义元树上的距离，d_xy表示概念W₁的第x个关系义元和W₂的第y个关系义元在义元树上的距离，d_iy表示概念W₁的第i个基本义元和W₂的第y个关系义元在义元树上的距离，d_xj表示概念W₁的第x个关系义元和W₂的第j个基本义元在义元树上的距离，α是一个调节参数，且在每种义元相似度计算时取同一值，则：

所述的simB(BP₁，BP₂)的计算方法为：

simB ({BP}_{1}, {BP}_{2}) = \max_{i, j} sim ({BP}_{1, i}, {BP}_{2, j})

所述的simR(RP₁，RP₂)的计算方法为：

其中：sim(RP_1，x，RP_2，y)是概念W₁的第x个关系义元和概念W₂的第y个关系义元的相似度，

所述的simBR(BP，RP)的计算方法为：

simBR(BP，RP)＝max(simBR(BP₁，RP₂)，simBR(RP₁，BP₂))

simBR ({BP}_{1}, {RP}_{2}) = \underset{i, y}{Σ} \frac{sim ({BP}_{1, i}, {RP}_{2, y})}{i * y}

simBR ({BP}_{1}, {RP}_{2}) = \underset{x, j}{Σ} \frac{sim ({RP}_{1, x}, {RP}_{2, j})}{x * j}

sim ({BP}_{1, i}, {RP}_{2, y}) = \frac{a}{a + d_{iy}}

sim ({RP}_{1, x}, {BP}_{2, j}) = \frac{a}{a + d_{xj}} .

2.根据权利要求1所述的网络热点和舆情的检测方法，其特征是，第三步中所述的提取本征特征是，在去除每篇信息文档的虚词后，将信息文档中所有义元各自的权重值与权重阈值进行比较，其中权重值大于权重阈值的义元就是信息文档的本征特征。

3.根据权利要求1所述的网络热点和舆情的检测方法，其特征是，第三步中所述的聚类，具体为：将待聚类的信息文档的所有不同的本征特征义元作为特征向量的一维，如果信息文档中含有该本征特征义元，则该维特征值取1，否则取0，由此得到每篇信息文档的特征向量，根据待聚类的任意两篇信息文档的特征向量间的余弦值得到这两篇信息文档间的相似度，相似度大于相似度阈值的两篇文档就被归属于同一个信息文档集中，取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集。