具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图1示出了根据本发明实施例的互联网舆情的专题分析方法的流程图,包括:
步骤S10,采集互联网舆情文件;
步骤S20,采用预设的专题规则匹配互联网舆情文件;
步骤S30,对匹配成功的互联网舆情文件生成专题。
本方法设置了专题规则来匹配生成专利,可以很容易地通过计算机编程来实现,从而以自动化代替了人工操作,实现了在海量舆情数据中及时准确地得到专题。
优选地,从以下至少一种互联网信息源中采集互联网舆情文件:新闻网站、论坛、博客、微博、即时通信例如QQ、SNS等信息源。
本优选实施例覆盖了常见的互联网信息源。
优选地,步骤S20包括:
读取互联网舆情文件的内容;
确定将内容的拼音;
以专题规则中的拼音形式的关键词检索式检索内容的拼音。
例如,定义了一个专题规则:(gugong and beijing)not taiwan;利用该专题规则对互联网舆情文件中包含故宫、北京,并且不包含台湾的文件进行分析,生成相应的专题,例如:故宫建福宫、故宫失窃、故宫到北京市公安局赠送锦旗有错字等多个专题。本方法简单易行。
优选地,对匹配成功的互联网舆情文件生成专题包括:
读取匹配成功的互联网舆情文件的内容、时间、标题、网站类型、网站资质、访问量、回帖量和所属网站信息;
采用质心比较方法或最近邻比较方法,确定与匹配成功的互联网舆情文件最相近的专题;
若不存在与匹配成功的互联网舆情相近的专题,则将其列为新专题;
若存在与匹配成功的互联网舆情相近的专题,则将其加入最相近的专题。
质心比较方法或最近邻比较方法都是比较常用的方法,可以将意义相近的互联网舆情文件集中到一起,构建一个专题。
优选地,质心比较方法包括:将读取到的内容与已有专题进行比较,同时考虑时间特征和内容特征,计算所选舆情文件和专题间的相似度,已有专题本身通过其中综合权重最高的文章来表达。
优选地,最近邻比较方法包括:当以一个专题规则处理设置数量的舆情文章之后,对该规则内专题两两比较;如果两个专题的相似度大于合并阈值,则将其合并;对各专题内的舆情文章进行淘汰:重新计算舆情文章和该主题的相似度,对相似度低于聚类阈值、或者不满足特定限制条件的舆情文章进行淘汰。
优选地,本方法还包括按照以下至少一种展示方式展示专题:
专题树:按照树的方式展示专题,其中,专题在树中的从属关系与其相应的专题规则之间的从属关系保持一致;
专题列表:展示专题的列表;
专题聚类图:以三维图的方式展示各热点事件之间的关联关系,以圆球代表单个热点事件,以圆球的空间大小表示其热度,相关联事件以相同颜色的圆球表示,颜色相同,并且距离很近的小球,代表相近似的主题;
专题演化图:以二维图形的方式展示出一段时间内受到关注的几个不同事件在网上的演化过程,包括其产生、发展、合并和分裂情况;
专题报告:对单一专题生成报告,包括专点标题、摘要、相关文档及详细信息、时间分布图、网站分布图、信息类型分布图、褒贬义;
传播路径分析:以FLASH动画的方式展示出单一专题在网站间的传播路径关系,以椭圆形代表信息传出的网站名称,以箭头和箭头旁边的数字表示信息的传播途径和传播顺序;
专题分析:对专题提供网站分析、地域分析、时间分布、信息类型分布和褒贬义分布分析。
本优选实施例可以满足用户的各种个性化需求。
图2所示,本发明的具体实施步骤如下:
步骤S21、配置专题规则库,其中包括各种专题规则,并建立专题索引,这些专题索引可以构成专题索引库。首先配置专题规则,包括专题名称、专题规则内容、专题分析服务地址。专题规则内容是一个包含逻辑关系的运算式,可以自动判断专题规则内容是否符合语法要求,如果不合法,提醒用户进行修改,直到符合语法要求为止。专题规则添加完成后,自动对该专题规则在指定的专题分析服务地址中建立专题索引,用于生成专题使用。
步骤S22、采集互联网舆情文件。通过网络爬虫对已配置的网站、频道数据进行采集,包括新闻、论坛、博客、视频、微博、SNS等类型的互联网舆情文件。并将每条信息转化成统一格式的中间文件。
步骤S23、上载舆情数据到数据库。上载服务系统读取已采集好的中间文件,向专题分析服务发送分析请求,判断该信息是否符合专题规则。专题分析服务返回判断结果,如果符合专题规则,则在专题增量表中增加一条对应的数据,然后将该文件存入专题索引库中;如果不符合专题规则,则跳过该步骤。
步骤S24、生成专题热点信息。专题索引服务的增量程序启动,扫描规则专题增量表,判断是否有新的数据进入。如果读到新的数据,则逐条进行处理。读取一条数据,包括正文、时间及其他相关信息,采用质心比较或最近邻比较等策略,确定与该文件最相近的专题;若该文件无法归入现有专题,则将其列为新专题;若该文件被归入某个专题,则调整被归入专题。
步骤S25、获取舆情专题。应用服务定时向专题分析服务发送请求,请求读取专题索引库生成的专题。专题分析服务以XML格式返回专题。应用服务解析XML后,按照当前、当日、当周、当月的方式存放到专题索引库中。
步骤S36、舆情专题展示。应用服务按照专题树的方式,展示该专题规则下面的所有专题。对每个专题可以进行如下操作:
1.舆情专题包含的专题列表;
2.专题聚类图:以三维图的方式展示各热点事件之间的关联关系。以圆球代表单个热点事件,以圆球的空间大小表示其热度。相关联事件以相同颜色的圆球表示;颜色相同,并且距离很近的小球,代表相近似的专题;
3.专题演化图:以二维图形的方式展示出一段时间内受到关注的几个不同事件在网上的演化过程,包括其产生、发展、合并和分裂等情况。
4.生成专题报告:对单一专题生成报告,包括专题标题、摘要、相关文档及详细信息、时间分布图、网站分布图等要素。
5.传播路径分析:以FLASH动画的方式展示出单一专题在网站间的传播路径关系。以椭圆形代表信息传出的网站名称,以箭头和箭头旁边的数字表示信息的传播途径和传播顺序。
6.专题分析:对专题提供网站分析、地域分析和时间分布等分析手段。
图3示出了根据本发明实施例的专题配置流程图,该流程包括以下步骤:
步骤S31:配置专题规则的各项内容,包括专题名称、专题规则内容及选择的专题分析服务地址。
步骤S32:对配置的专题规则的各项进行有效性判断,其中专题规则内容是一个包含逻辑运算符(包括与运算和或运算)的表达式,需要判断该表达式是否符合语法要求;
步骤S33:对验证合法的专题规则进行保存。
步骤S34:在指定的专题分析服务中增加专题索引库及增量任务。为生成专题热点做准备。
步骤S35:向专题分析服务中同步专题规则。
步骤S36:更新专题规则的状态。
图4示出了根据本发明实施例的专题获取流程图,该流程包括以下步骤:
步骤S41:读取已配置的所有专题规则信息,并组织发送专题分析请求需要的参数。发送的参数包括Action和IndexDBID。其中Action表明该请求是获取专题;IndexDBID表示获取那些专题规则下面的专题。
步骤S42:向专题分析服务发送请求,并等待返回结果;
步骤S43:对专题分析服务返回的结果进行判断,在返回正常的情况下,对返回的XML进行解析处理。
步骤S44:循环遍历XML内容,分析出单个专题规则下的信息,获取专题及其包含的文档信息,并放置在内存中。
步骤S45:判断该专题规则下当日是否已有信息,如果有信息,则将该专题规则下的专题及其关联信息全部删除。
步骤S46:将内存中分析后的专题及包含的文档信息等保存到专题索引库中。
图5示出了根据本发明实施例的专题展示流程图,该流程包括以下步骤
步骤S51:判断选择的专题节点是否叶子节点。如果是叶子节点,跳转到步骤S54。否则进入步骤S52.
步骤S52:获取所选分类的合并专题;
步骤S53:获取所选分类下所有叶子节点的专题,进入步骤S55;
步骤S54:获取指定专题的所有专题。
步骤S55:依据相关度的大小,获取各专题一定数量的相关文档。
步骤S56:获取各专题的第一张推荐图片。数据读取完毕,供客户端进行显示处理。
图6示出了根据本发明实施例的互联网舆情的专题分析装置的示意图,包括:
采集模块10,用于采集互联网舆情文件;
匹配模块20,用于采用预设的专题规则匹配互联网舆情文件;
生成模块30,用于对匹配成功的互联网舆情文件生成专题。
本装置实现了在海量舆情数据中及时准确地得到专题。
优选地,从以下至少一种互联网信息源中采集互联网舆情文件:新闻网站、论坛、博客、微博、即时通信、SNS。本优选实施例覆盖了常见的互联网信息源。
优选地,匹配模块包括:
读取模块,用于读取互联网舆情文件的内容;
拼音模块,用于确定内容的拼音;
检索模块,用于以专题规则中的拼音形式的关键词检索式检索内容的拼音。
本装置简单易行。
图7示出了根据本发明优选实施例的网络舆情专题分析装置的示意图。如图7所示,该系统包括采集模块101,与采集模块101连接的上载模块102,与上载模块102连接的过滤模块103,与过滤模块103连接的专题规则库模块104和专题索引库模块107,与专题索引库模块107连接的分析模块105,与分析模块105连接的专题上传模块106,与专题上传模块106连接的专题索引库模块107,与专题索引库模块107连接的显示模块108。
采集模块101用于采集互联网舆情文件。
上载模块102用于上载互联网舆情文件。
过滤模块103用于判断互联网舆情文件是否符合专题规则库中规则互联网舆情文件。
专题规则库模块104用于存储一组或者多组专题规则,每一组规则就是一个数据集合。
分析模块105用于依据一定的算法为每组专题规则生成热点信息。
专题上传模块106用于获取分析模块105中分析的结果,并将结果保存到专题索引库。
专题索引库模块107用于存储互联网舆情文件及专题分析结果。
显示模块108用于对专题的展示。
从以上的描述中可以看出,本发明实现了可以在海量数据中,更快更准确地命中与用户相关的网络热点信息,从而辅助用户更好更快地应对网络突发事件,变被动为主动,提高工作效率。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。