CN102708096B

CN102708096B - 一种基于语义的网络智能舆情监测系统及其工作方法

Info

Publication number: CN102708096B
Application number: CN201210170862.XA
Authority: CN
Inventors: 代松; 姬东鸿
Original assignee: 代松
Current assignee: WUHAN HUAAN SCIENCE AND TECHNOLOGY CO., LTD.
Priority date: 2012-05-29
Filing date: 2012-05-29
Publication date: 2014-10-15
Anticipated expiration: 2032-05-29
Also published as: CN102708096A

Abstract

本发明属于自然语言处理领域，特别涉及一种基于语义的网络智能舆情监测系统及其工作方法，该方法采用智能爬虫技术、命名实体抽取技术、概念智能识别技术、基于语义的倾向性分析技术、话题抽取技术、智能统计分析等；其搜索的结果不是简单的包含某个或某类关键词的网页集合，而是与所设定的监测事件具有相同语义（即在意义上相同）的文本信息，具有较高的准确率。

Description

一种基于语义的网络智能舆情监测系统及其工作方法

技术领域

本发明属于自然语言处理领域，特别涉及一种基于语义的网络智能舆情监测系统及其工作方法。

背景技术

近年来，互联网发展迅速，作为继电视、广播、报纸之外的第四媒体，已经成为反映社会舆情的一个重要载体。另一方面，由于网络的开放性和虚拟性，网上舆情已经越来越复杂，对现实生活的影响与日俱增，一些重大的网络舆情事件往往对社会产生较大的影响力。舆情监测的目的，即为准确有效地掌握网络舆情现状，加强对网络舆情的及时监测和跟踪，以便准确快速地发现互联网上的各类舆情，产生舆论导向并积极化解舆论危机，对促进社会和企业的健康发展具有重要的现实意义。对政府部门、公众媒体和大型企业来说，如何加强对网络舆情的及时监测，以及时采取措施进行有效应对，成为网络舆情管理的一大难点。

发明内容

本发明就是针对上述背景技术中的不足之处，而提出的一种基于语义的网络智能舆情监测系统及其工作方法，其搜索的结果不是简单的包含某个或某类关键词的网页集合，而是与所设定的监测事件具有相同语义（即在意义上相同）的文本信息，具有较高的准确率。

本发明的目的是通过如下技术措施来实现的。

一种基于语义的网络智能舆情监测系统，该系统包括智能爬虫爬取模块、命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题抽取模块和智能统计分析模块，所述智能爬虫爬取模块用于从互联网上采集舆情信息，并存储到数据库中，所述命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块用于对舆情信息进行智能分析和加工，所述智能统计分析模块把舆情信息中经过分析处理的数据以各种形式展现给用户并提供预警。各模块具体功能如下：

智能爬虫爬取模块：传统的舆情监测系统采用关键词或关键词组合的方式进行搜索，该方法存在两个问题：一是基于关键词搜索的准确度不高，结果可能包含大量噪音，例如要搜索“北大”（这里指的是北京大学）的信息，那么包含词条“北大荒”的文本也会被搜索出来；二是传统舆情监测系统的关键词集需人工收集并添加，繁琐且费时。造成以上问题的根本原因是，系统无法真正理解搜索词的意义。本系统采用智能爬虫技术，通过“理解”输入的关键词或句子的意思，在文本中找出相应的内容。

命名实体抽取模块：舆情监测的内容中可能包含人物、地点和组织机构的信息。而传统的舆情监测系统无法自动识别出文本中包含的这些内容，只能由人工进行添加。本系统自动对人物名称、地点名称和组织机构的名称（即命名实体）进行识别，并提取与之相关的信息。全部过程由机器自动完成，无需人工干预。

概念智能识别模块：传统的舆情监测系统采用关键词或关键词组合的方式进行监测，一旦发现信息中包含关键词或其组合，则发布预警信息。然而，利用关键词检索得到的结果可能包含大量噪音，而有用的信息却可能因为不在关键词列表中而被过滤掉。本系统采用基于概念的识别搜索机制，通过自动识别出意义相同的概念，过滤大量无关的信息，从而得到的结果具有较高的准确率。例如，给定一个新闻线索“腐败”，本系统自动监测与“腐败”相关的“行贿受贿”、“公款吃喝”、“买官卖官”等内容。

基于语义的倾向性分析模块：本系统实现了对舆情的倾向性进行自动分析，例如，调查网民对某一事件的评论是正面还是负面的。传统的舆情监测系统无法进行倾向性分析，或者倾向性分析方法是基于关键词的。这种方法的主要问题是准确度较低。利用基于语义的倾向性自动分析技术，本模块实现了对舆情的语义分析，并能给出基于事件的某个侧面的倾向性评价结果。

话题抽取模块：话题就是一个核心事件或活动以及与之直接相关的事件或活动。而一个事件（Event）通常由某些原因、条件引起，发生在特定时间、地点，涉及某些对象（人或物），并可能伴随某些必然结果。通常情况下，可以简单地认为话题就是若干对某事件相关报道的集合。话题分析具体包括话题检测与跟踪，定义为“在新闻专线（Newswire）和广播新闻等来源的数据流中自动发现主题并把主题相关的内容联系在一起的技术”。本模块在海量信息中搜索同一话题的内容，并自动进行归类，同时给出话题名称，方便用户查看。

智能统计分析模块：将舆情监测的结果进行分析汇总，并以图文并茂的形式展现给用户。统计方式可由用户自行定义，如按时间、按来源、按舆情类别、按用户倾向性等。

本发明还提供一种基于语义的网络智能舆情监测系统的工作方法，该方法包括以下步骤：

（1）构建语义本体，用XML文档描述本体，在构建好本体以后，通过解析XML文档，将本体存储到数据库中，便于其它模块使用；具体构建步骤如下

（1-1）确定领域本体层次，将领域本体设计成层次型的结构，分为三个层次，事件层，模板层和概念层，并采用XML文档存储本体；

（1-2）定义常用的事件，每个事件都用模板来具体化；

（2）智能爬虫爬取模块从互联网上采集舆情信息，并存储到数据库中；具体步骤如下

（2-1）在数据库中定义需要采集信息的网站来源，包括新闻网站，论坛以及博客，并统一分成两类，即全国性的网站，和非全国性的网站；

（2-2）智能爬虫爬取模块在指定网站来源爬取指定时间内的网页，下载与本体中定义的事件相关的网页，过滤掉大量与要监控的舆情无关的网页；具体爬取过程如下

（2-2-1）通过本体中定义的事件对网页进行分析，以此将与要监控的事件无关的链接过滤掉，剩下与事件有关的网络链接，将这些与事件有关的链接保留下来，并把它们存入等待抓取网页的URL队列里面；

（2-2-2）完成上一步后，根据预先定义的搜索策略，举例来说，搜索策略为地域（云南|丽江）+时间（1年以内发表的）+本体概念层拆分出来的关键词（例如贪污|腐败），根据这些信息来综合搜索；从前面存入的URL队列中选出根据本搜索策略抓取的网页所对应的URL，重复过程（2-2-1），当满足了系统预设的停止条件后即所有满足条件的网站都以被标记则停止爬取过程；

（2-3）信息预处理，对步骤（2-2）中爬取的网页信息进行处理，具体处理过程如下

（2-3-1）对web文档去web标签，采用htmlparser包提供的方法；

（2-3-2）提取web文档的标题和正文；

（2-3-3）抽取web文档发表的精确的时间；

（2-3-4）web文档中有很多带链接的文字，对后续分析会产生一定的噪音，去掉文档中带链接的文字；

（2-4）如果经预处理格式化后的网页与已经采集到的网页不重复就将下载的格式化后的网页文件储存到本地，供后续步骤使用，并将本地路径存储到数据库中以便读取本地文件；下载的时候存储的格式设定的为标题，内容，日期，网址，网站名；

（3）命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块对采集到的舆情信息进行智能分析和加工；具体步骤如下

（3-A）命名实体自动抽取，自动对舆情监测的内容中包含的人物名称、地点名称和组织机构的名称即命名实体进行识别，并提取与之相关的信息；采用基于CRFs模型和规则的命名实体识别，基于CRFs的中文命名实体识别，关键在于抽取命名实体的合适特性，通过对中文命名实体的特点进行分析定义命名实体的特征，规则方法最主要利用到两种信息，命名实体用字分类和限制性成分，即分析过程中，如果扫描到具有明显特征的命名实体用字时，便开始触发命名实体抽取过程，并且采集命名实体前后相关的成分，对命名实体的前后位置进行相应的限制；

（3-B）概念智能识别，采用基于概念的识别搜索机制，通过自动识别出意义相同的概念，从采集到的舆情信息中过滤无关的信息，得到对某一概念较高准确率的搜索结果；在本体中添加一个关键词时，同时会添加该关键词的同义词，近义词以及网络特殊说法，这一系列的关键词就形成了一个宏观的概念，概念智能识别的步骤如下

（3-B-1）找到经预处理格式化后的网页文档中的关键词；种子这个概念在某种程度上是为了反应一个汉字在一个文本或者文本聚类中的显著程度，为了找到那些能够代表一个文本完整概念的较长的关键词，首先要识别关键词的一个种子，然后依次扩散获得整个关键词；识别关键词的一个种子的方法如下

假设r是参考文本集，参考文本集包括文本集合和其它的统计大文本集合，d是一个文本或者文本集合，w是文本d中的单个汉字，那么用P_r(w) 和P_d(w) 来表示w分别在r和d中出现个概率；我们用条件一，称作w在d和r中的相对概率或者叫w在d和r中的显著度来衡量w是否是一个种子；

条件一，Pd(w) / Pr(w)

如果w满足 Pd(w) / Pr(w)≥δ ，δ为50，那么就把w选作一个种子；

然后进行关键词抽取，主要采用基于种子扩散的关键词抽取算法，给出一文本d中一个关键词所应该满足的条件

条件1，一个关键词至少要包含一个种子

条件2，一个关键词在文本d中至少要出现N次，N为4

条件3，一个关键词的长度要小于L，L为16

条件4，同时满足条件1，2和3的最大字符串是一个关键词

条件5，如果有一个最大真子串，在不考虑它在所有包含它的关键词串中出现的频率的情况下，仍然同时满足条件1，2和3，那么它仍然可以算作是一个关键词；

这里所说的同时满足条件1，2和3的最大字符串指的是同时满足条件1，2和3的相邻的汉字字符串，并且，没有其他包含这个串的更长字符串同时满足条件1，2和3，一个同时满足条件1，2和3的最大真子串指的是不存在更大的真子串包含它并且同时满足这三个条件；

（3-B-2）将得到的关键词与已有的概念进行词汇相似度分析，如果相似度大于某个固定的阈值，根据实验结果经验值，这个阈值设为0.8，就将该种子加入已有的概念中，判定为意义相同的概念，如果没有相似的，就定义一个新的概念；词语相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度，在实际的应用过程中，可以利用词汇之间的距离来计算相似度，对于两个词语W ₁和W ₂，记其相似度为Sim(W ₁ ,W ₂ )，其词语距离为Dis(W ₁ ,W ₂ )，那么可以定义一个满足以上条件的简单的转换关系

其中α是一个可调节的参数，α的含义是当相似度为0.5时的词语距离值，距离越近，相似度越大；

（3-C）基于语义的倾向性分析，实现了对舆情的语义分析，并能给出基于事件的某个侧面的倾向性评价结果；情感倾向性分析作为舆情分析的核心内容，通过对海量信息进行分析和挖掘，从而得到群众对某个事件的情感倾向，可以为企业和政府提供决策支持；

所谓倾向性分析，事实上是一个分类问题，即将事件分为正面和负面两类，这里采用基于模板的倾向性分析；

（3-C-1）对于带有评价词的模板，事先添加极性，即该评价词的褒贬倾向，1表示正面，-1表示负面，并标明评价词的位置，Polarity(template) = 评价对象+情感词；

（3-C-2）当否定词和情感词结合时，句子的极性将会被逆转，因此首先建立一个否定词列表List<negative>，然后对本地文档，即经步骤（2-3）预处理格式化后的文档，用每个事件的每个模板去匹配文本，同时进行句子的倾向性分析；综合考虑模板的极性，否定词可以确定一个句子的倾向性，公式如下

Polarity（sentence）= Polarity(template) * Polarity(negative) ，其中

最后根据事件分类，得到事件的倾向性；设一个事件包含{S1，S2，…Sn}这n个句子，则事件的倾向性计算公式如下

其中sgn为符号函数；

（3-C-3）把抽取出来的事件以及其倾向性存入数据库，并统计正负面比例；

（3-D）话题自动抽取，在海量信息中搜索同一话题的内容，并自动进行归类；

（4）智能统计分析，根据用户的需求，挖掘数据库里面的结果，分时间，地域，事件对监测到的结果进行统计生成报告，同时生成可视化图表，进行预警。

与现有的技术相比，本发明具有以下的优点和有益效果：

1、本发明是专门为各类舆情打造的智能监测系统，针对特定领域的专业用户。

2、用户可根据其关心的若干特定网站、论坛或博客进行内容监测，并可实时依据需求的不同对监控内容进行设定和增减。

3、同时，其搜索的结果不是简单的包含某个或某类关键词的网页集合，而是与所设定的监控事件具有相同语义（即在意义上相同）的文本信息。

本发明可自动生成图文并茂的舆情报告，供用户进行进一步分析和整理。

附图说明

图1是本发明实施例基于语义的网络智能舆情监测系统的架构图。

具体实施方式

下面将结合附图和具体实施例对本发明做进一步说明。但本发明的实施方式不限于此。

本实施例提供一种基于语义的网络智能舆情监测系统，该系统包括智能爬虫爬取模块、命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题抽取模块和智能统计分析模块，所述智能爬虫爬取模块用于从互联网上采集舆情信息，并存储到数据库中，所述命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块用于对舆情信息进行智能分析和加工，所述智能统计分析模块把舆情信息中经过分析处理的数据以各种形式展现给用户并提供预警。

本实施例还提供一种基于语义的网络智能舆情监测系统的工作方法，该方法包括以下步骤：

（1）构建语义本体，用XML文档描述本体，在构建好本体以后，通过解析XML文档，将本体存储到数据库中，便于其它模块使用；智能爬虫爬取，概念智能识别以及倾向性分析这三个模块都是基于本体来完成的。具体构建步骤如下

（1-1）确定领域本体层次，将领域本体设计成层次型的结构，分为三个层次，事件层（Event），模板层（Template）和概念层（Concept），并采用XML文档存储本体。

（1-2）定义常用的事件，每个事件都用模板来具体化；舆情监测一般都是相对于某个具体的事件，因此首先定义一些常用的事件。例如：<event name="贪污">， <event name="公权滥用">。这些作为事件层的内容。每个事件都可以用一些模板来具体化，例如“不明+财产”可以作为事件“贪污”的其中一个模板，因为这是“贪污”的一种具体表现形式。模板层采用这种格式：<template name="t239">不明 + 财产</template>，这里“不明”和“财产”分别作为两个概念。

（1-3）概念扩展，通过上述两步骤，我们已经定义了一个简单的本体，但一个概念可能有很多个同义词，近义词以及类似的说法，这里采用基于语义相似度的办法来扩展概念。具体方法在下面的“概念智能识别”实施例里说明。

（2-1）在数据库中定义需要采集信息的网站来源，包括新闻网站，论坛以及博客，并统一分成两类，即全国性的网站（例如新浪网），和非全国性的网站（主要是一些本地论坛）。

（2-2-2）完成上一步后，根据预先定义的搜索策略，举例来说，搜索策略为地域（云南|丽江）+时间（1年以内发表的）+本体概念层拆分出来的关键词（例如贪污|腐败），根据这些信息来综合搜索；从前面存入的URL队列中选出根据本搜索策略抓取的网页所对应的URL，重复过程（2-2-1），当满足了系统预设的停止条件后即所有满足条件的网站都以被标记则停止爬取过程。

（2-3-1）对web文档去web标签，采用htmlparser包提供的方法；

（2-3-2）提取web文档的标题和正文；

（2-3-3）抽取web文档发表的精确的时间；

（2-3-4）web文档中有很多带链接的文字，对后续分析会产生一定的噪音，去掉文档中带链接的文字；对于新浪网页和腾讯网页需要特殊处理，由于这两个网站上面对于著名的人名和组织机构，如果他们有自己的博客或微博，网站上对他们的显示会做特殊标记，比如在名称下面有虚线或者是特殊颜色显示，以表明可以有超链接连到对应的博客或微博；针对这种情况，遇到这类标签，就可以认为标签标记的是命名实体，所以不必全部去掉。

（2-4）如果经预处理格式化后的网页与已经采集到的网页不重复就将下载的格式化后的网页文件储存到本地，供后续步骤使用，并将本地路径存储到数据库中以便读取本地文件；下载的时候存储的格式设定的为标题，内容，日期，网址，网站名。

（3-A）命名实体自动抽取，自动对舆情监测的内容中包含的人物名称、地点名称和组织机构的名称即命名实体进行识别，并提取与之相关的信息；采用基于CRFs模型和规则的命名实体识别，基于CRFs的中文命名实体识别，关键在于抽取命名实体的合适特性，通过对中文命名实体的特点进行分析定义命名实体的特征，规则方法最主要利用到两种信息，命名实体用字分类和限制性成分，即分析过程中，如果扫描到具有明显特征的命名实体用字时，便开始触发命名实体抽取过程，并且采集命名实体前后相关的成分，对命名实体的前后位置进行相应的限制；具体实施步骤如下

（3-A-1）根据分析命名实体中出现频率较高的人名、地名和组织机构名，构建命名实体识别的规则库，包括用于人名识别的规则，用于地名识别的规则以及用于组织机构名识别的规则。以地名为例，主要规则有三条：

规则一，地名1=著名的地名；

规则二，地名2=国名+省名（自治区/岛）+市名（自治区）+县名（自治区/自治州/旗/特别行政区/地区）+镇（区/州/乡）+村（寨/湾/坡）；

规则三，地名3=地名2+路（大道/道/街/巷/桥/坊/屯/垒）+场(寓/厦/园/楼/馆/厂/学/局)+号。

（3-A-2）基于CRFs的命名实体识别，下面以人名识别为例来说明

(3-A-2-1)对训练语料及测试语料进行自动分词和词性标注(基于字的标注)，建立训练集和测试集；

去掉人工标注结果还原到原始文本，并记录人名标注位置，然后用ICTCLAS系统 (ICTCLAS是中科院开发的基于层叠马尔可夫模型的分词和词性标注系统)进行自动分词和标注系统，并进行基于字的词性标注(词性-S，B，l，E)，再根据记录人名的位置对语料中的每个字进行IB02自动标注：用相同方法对测试语料同样进行自动分词和基于字的词性标注；建立训练集和测试集；

(3-A-2-2)基于CRFs模型对训练集进行学习，学习的过程主要分为生成特征函数和训练得到每个特征函数的权重两部分，以下分别对这两部分进行说明

①生成特征函数：CRFs模型中产生的特征函数都是二值的，每个二值特征函数相当于一个条件，如果该特征函数的条件被满足，那么此特征函数的值为1，否则特征函数的值为0；

②训练得到每个特征函数的权重；

(3-A-2-3)CRFs模型进行测试，在测试过程中，系统同样遍历测试集，并遵循与训练过程相同的原则生成若干特征函数，根据CRFs公式计算得到每个节点各个候选标记的概率，之后通过Viterbi算法解码得到最优标记的序列。

（3-A-3）在步骤（3-A-2）中，我们已经得到了潜在的命名实体，然后根据（3-A-1）中定义的规则库对结果进行修正；

本实施例通过规则和统计相结合的方法实现了自动对大规模文本集合中的命名实体进行识别，且识别效果令人满意。

（3-B）概念智能识别，采用基于概念的识别搜索机制，通过自动识别出意义相同的概念，从采集到的舆情信息中过滤无关的信息，得到对某一概念较高准确率的搜索结果；在本体中添加一个关键词时，同时会添加该关键词的同义词，近义词以及网络特殊说法，这一系列的关键词就形成了一个宏观的概念，例如，“行贿受贿”、“公款吃喝”、“买官卖官”等关键词可以构成一个概念，即“贪污”；概念智能识别的步骤如下

（3-B-1）找到文档中的关键词，该文档是步骤（2-3）信息预处理步骤中得到的无标签格式化后的纯文本；种子这个概念在某种程度上是为了反应一个汉字在一个文本或者文本聚类中的显著程度，为了找到那些能够代表一个文本完整概念的较长的关键词（超过2个汉字），首先要识别关键词的一个种子，然后依次扩散获得整个关键词；识别关键词的一个种子的方法如下

条件一，Pd(w) / Pr(w)

其中，Pd(w) 的获得方法用如下算法描述：

输入：文本语料集D(本系统是从NTCIR中选取的一部分)

输出：一个HashMap,key值存储的是D中出现的所有汉字或单词，value值存储的是key中所存的汉字或者单词所对应的在文本中出现的概率

GetPdw(Set D){

HashMap m=new HashMap();//存放结果

对D中数据进行解析，得到文本文件集T；//语料库数据是xml格式，需要进行解析

读入所有文本；

w'hile(一行不为空)

{

If(是中文)

{

读入一个字符c；

If(m中不包含c)

将c和c在文本集T中的频率存入m；

If(m中包含c)

将原来m中c的频率加1；

}

If(是英文)

{

读入一个单词w；//英文用单词做单位，而不是字母

If(m中不包含w)

将w和w在文本集T中的频率存入m；

If(m中包含w)

将原来m中w的频率加1；

}

将m中每个value中的值除以文本长度，得到每个key值在文本集合中的概率；

Sort(m)；//将哈希表m按降序排序

取出排完序后2/3大处的概率值b；

将后面1/3的结果所对应的value值都替换为b；

返回m；

}；

条件1，一个关键词至少要包含一个种子

条件2，一个关键词在文本d中至少要出现N次，N为4

条件3，一个关键词的长度要小于L，L为16

条件4，同时满足条件1，2和3的最大字符串是一个关键词

这里所说的同时满足条件1，2和3的最大字符串指的是同时满足条件1，2和3的相邻的汉字字符串，并且，没有其他包含这个串的更长字符串同时满足条件1，2和3，一个同时满足条件1，2和3的最大真子串指的是不存在更大的真子串包含它并且同时满足这三个条件。

下面描述了基于种子的关键词抽取算法（Keyterm Extraction Based on Seeds Expansion,简称KESE）从文本（或文本聚类）中抽取关键词的过程

Fd(t)表示t 在 d中的频率;

N 为给定的阈值 (N>1);

K = {};

S表示文本d中所有的种子的集合;

for all c∈S

{

let Q = {t: t contains c and Fd(t)≥N};

while Q ≠ NIL

{

max-t ← the longest string in Q;

K ← K + { max-t };

Remove max-t from Q;

for all other t in Q

{

if t is a substring of max-t

{ Fd(t)← Fd(t)- Fd(max-t);

if Fd(t)<N

removing t from Q;

}

return K as Key Terms in document d；

其中α是一个可调节的参数，α的含义是当相似度为0.5时的词语距离值，距离越近，相似度越大。

（3-C-1）对于带有评价词的模板，事先添加极性，即该评价词的褒贬倾向，1表示正面，-1表示负面，并标明评价词的位置，Polarity(template) = 评价对象+情感词；例如：服务（评价对象）+差（情感词） = -1（负面倾向），形式化到本体中即

<template name="t239" polarity="-1" polarityGroup="2">服务 + 差</template>；

（3-C-2）当否定词和情感词结合时，句子的极性将会被逆转，因此首先建立一个否定词列表List<negative>，然后对本地文档，该文档是指步骤（2-3）信息预处理步骤中得到的无标签格式化后的纯文本，用每个事件的每个模板去匹配文本，同时进行句子的倾向性分析；综合考虑模板的极性，否定词可以确定一个句子的倾向性，公式如下

Polarity（sentence）= Polarity(template) * Polarity(negative) ，其中

其中sgn为符号函数；

（3-C-3）把抽取出来的事件以及其倾向性存入数据库，并统计正负面比例；本实施例的平均准确率在80%以上，平均召回率在90%以上。

（3-D）话题自动抽取，在海量信息中搜索同一话题的内容，并自动进行归类；采用基于关键词抽取的方法进行话题分析；关键词的抽取算法上面已经介绍，下面介绍话题抽取的算法，基于KESE的话题抽取算法，算法如下

输入：不同类的网络新闻标题的集合组成的列表List<TitleSet>

输出：从每一类新闻标题集合中所抽出来的关键词列表List<Hashtable>

getTopics(List<TitleSet> lt)

{

List<Hashtable> lh;

For (i=0;i<lt.size();i++)

{

PreTitle(lt.get(i)); //对每一类的标题集合进行预处理

Candidates=KESE(lt.get(i)); //对预处理后的每一类标题都应用基于种子扩散的关键词抽取算法

Result=PostPro(Candidates);//对得到的候选关键词进行边界修改、分类等后期处理

lh.add(Result);

}

Return lh;

}。

（4）智能统计分析，根据用户的需求，挖掘数据库里面的结果，分时间，地域，事件对监测到的结果进行统计生成报告，同时生成可视化图表，进行预警。主要采用OLAP分析针对同一个主题，从多个角度对数据进行分析，以政府舆情分析为例，时间的集合是一维，地域的集合是一维，事件的集合是一维；而每段时间，每个地域，每个事件都是某一维的一个成员；通过多维分析，我们可以生成地域和事件的联合分布图标，某个时间段的基于事件的地域分布等。

Claims

1.一种基于语义的网络智能舆情监测系统的工作方法，其特征在于该方法使用的硬件部分包括智能爬虫爬取模块、命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题抽取模块和智能统计分析模块，所述智能爬虫爬取模块用于从互联网上采集舆情信息，并存储到数据库中，所述命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块用于对舆情信息进行智能分析和加工，所述智能统计分析模块把舆情信息中经过分析处理的数据以各种形式展现给用户并提供预警；该方法包括以下步骤：

（1-2）定义常用的事件，每个事件都用模板来具体化；

（2-2-2）完成上一步后，根据预先定义的搜索策略，从前面存入的URL队列中选出根据本搜索策略抓取的网页所对应的URL，重复过程（2-2-1），当满足了系统预设的停止条件后即所有满足条件的网站都已被标记则停止爬取过程；

（2-3-1）对web文档去web标签，采用htmlparser包提供的方法；

（2-3-2）提取web文档的标题和正文；

（2-3-3）抽取web文档发表的精确的时间；

条件一，Pd(w) / Pr(w)

条件1，一个关键词至少要包含一个种子

条件2，一个关键词在文本d中至少要出现N次， N为4

条件3，一个关键词的长度要小于L，L为16

条件4，同时满足条件1，2和3的最大字符串是一个关键词

Polarity（sentence）= Polarity(template) * Polarity(negative) ，其中

其中sgn为符号函数；