CN107908694A

CN107908694A - 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质

Info

Publication number: CN107908694A
Application number: CN201711060246.8A
Authority: CN
Inventors: 张师琲; 侯丽
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-11-01
Filing date: 2017-11-01
Publication date: 2018-04-13
Also published as: WO2019085355A1

Abstract

本发明公开了一种互联网新闻的舆情聚类分析方法，该方法包括：通过分布式爬虫在信息源获取新闻类信息，并存储到舆情数据库中；对所述舆情数据库中的数据进行去噪、分词、聚类；对聚类后的不同类新闻分别归纳主题摘要；及将聚类后的新闻及所述主题摘要输出，并显示给用户。本发明还提供一种应用服务器及计算机可读存储介质。本发明提供的互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质能够快速获得网络上的新闻，对获取的新闻进行聚类获取热点新闻，并且可以对获取的新闻进行自动关键词及摘要，相较于现有技术，更加方便、快捷、准确。

Description

互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质

技术领域

本发明涉及数据分析技术领域，尤其涉及一种互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质。

背景技术

随着Internet的迅猛发展，网络信息已经成为人们生活中必不可少的一部分，目前中国网民数量已经超过2亿，中国网页数量也超过了80亿。网络媒体已被公认为继报纸、广播和电视之后的"第四媒体"，网络成为反应社会舆情的主要载体之一。网络舆情与社会舆情相互作用、相互影响，网络舆情与社会舆情在内容表现形态方面具有一致性，网络舆情一定程度上会影响社会舆情的发展趋势，因此网络舆情热点话题的发现具有十分重要的意义。

而各大互联网站的新闻热点层出不穷，抓取并找出这些新闻舆情热点，对互联网信息发布、舆情监督等都有重要意义。

因此，如何从互联网的海量信息中发现热点并呈现给用户，成为当下亟需解决的一大问题。

发明内容

有鉴于此，本发明提出一种互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质，以解决如何从互联网的海量信息中发现热点并呈现给用户的问题。

首先，为实现上述目的，本发明提出一种互联网新闻的舆情聚类分析方法，该方法包括步骤：

通过分布式爬虫在信息源获取新闻类信息，并存储到舆情数据库中；

对所述舆情数据库中的数据进行去噪、分词、聚类；

对聚类后的不同类新闻分别归纳主题摘要；及

将聚类后的新闻及所述主题摘要输出，并显示给用户。

优选地，所述信息源包括新闻网站、微博、微信、贴吧及论坛。

优选地，所述去噪步骤包括：

过滤图片、版权说明、广告，获得文档信息；及

过滤停用词。

优选地，所述的分词步骤还包括：

运用中文分词技术对采集到的所述新闻类信息进行分词。

优选地，所述聚类步骤包括：

设置包括敏感词、情感词的参照表；

获得关键词，并根据获得的关键词设置关键词参照表；

对照所述敏感词、情感词及关键词参照表分析出所述新闻类信息中的关键词、敏感词和带有情感倾向的词语；

根据关键词、情感词、敏感词将所述新闻类信息按照网页所属类别自动聚类；及

对聚类后的新闻按照热度进行排序。

优选地，所述获得所述关键词，并根据获得的所述关键词设置关键词参照表的步骤还包括：

对分词之后的所述新闻类信息进行分析，统计词语出现的频率，出现的位置及历史平均频率；

根据如下公式获得词语的重要度D：

D＝a*Fn+∑bi*Wi+c*Fh,i＝1,2,3…n；及

根据所述重要度D对各词语进行排序，将所述重要度D大于预设值的词语作为所述关键词并生成所述关键词参照表；

其中，a,b,c为词语当时出现的频率，位置及历史平均频率对应的权重值；Fn,Wi,Fh分别对应词语出现的频率，出现的位置，所述历史平均频率。

优选地，所述对聚类后的不同类新闻分别归纳主题摘要的步骤还包括：

对该新闻的正文进行分句，并保留句子长度在预设长度范围内的句子，记为保留句子；

分别计算所述保留句子与标题的相似度S(s)，以及所述保留句子的权重Q(s)；

根据公式R(s)＝Q(s)/S(S)计算所述保留句子的排序分；及

选取排序分最高的所述保留句子作为同类新闻的摘要；

其中，R(s)为所述保留句子的排序分。

优选地，计算所述相似度S(s)的步骤如下：

基于同义词词库对所述保留句子和标题进行同义词转换；及

针对同义词转换后的所述保留句子和标题采用Jaccard距离计算保留句子和标题的相似度S(s)。

此外，为实现上述目的，本发明还提供一种应用服务器，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的互联网新闻的舆情聚类分析系统，所述互联网新闻的舆情聚类分析系统被所述处理器执行时实现如上述的互联网新闻的舆情聚类分析方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有互联网新闻的舆情聚类分析系统，所述互联网新闻的舆情聚类分析系统可被至少一个处理器执行，以使所述至少一个处理器执行如上述的互联网新闻的舆情聚类分析方法的步骤。

相较于现有技术，本发明所提出的互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质，首先通过分布式爬虫在信息源获取新闻类信息，并存储到舆情数据库中；其次，对所述舆情数据库中的数据进行去噪、分词、聚类；然后，对聚类后的不同类新闻分别归纳主题摘要；最后，将聚类后的新闻及所述主题摘要输出，并显示给用户。采用本发明所提出的互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质可以快速获得网络上的新闻，对获取的新闻进行聚类获取热点新闻，并且可以对获取的新闻进行自动关键词及摘要，相较于现有技术，更加方便、快捷、准确。

附图说明

图1是本发明应用服务器一可选的硬件架构的示意图；

图2是本发明互联网新闻的舆情聚类分析系统实施方式的程序模块示意图；

图3是本发明互联网新闻的舆情聚类分析方法第一实施方式的流程示意图；

图4是本发明互联网新闻的舆情聚类分析方法第二实施方式的流程示意图；

图5是本发明互联网新闻的舆情聚类分析方法第三实施方式的流程示意图；

图6是本发明互联网新闻的舆情聚类分析方法第四实施方式的流程示意图；

图7是本发明互联网新闻的舆情聚类分析方法第五实施方式的流程示意图；

图8是本发明互联网新闻的舆情聚类分析方法第六实施方式的流程示意图；

图9是本发明互联网新闻的舆情聚类分析方法第七实施方式的流程示意图。

本发明目的的实现、功能特点及优点将结合实施方式，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施方式，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅用以解释本发明，并不用于限定本发明。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施方式之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参阅图1所示，是本发明应用服务器1一可选的硬件架构的示意图。

本实施方式中，所述应用服务器1可包括，但不仅限于，可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是，图1仅示出了具有组件11-13的应用服务器1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，所述应用服务器1可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备，该应用服务器1可以是独立的服务器，也可以是多个服务器所组成的服务器集群。

所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施方式中，所述存储器11可以是所述应用服务器1的内部存储单元，例如该应用服务器1的硬盘或内存。在另一些实施方式中，所述存储器11也可以是所述应用服务器1的外部存储设备，例如该应用服务器1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述应用服务器1的内部存储单元也包括其外部存储设备。本实施方式中，所述存储器11通常用于存储安装于所述应用服务器1的操作系统和各类应用软件，例如互联网新闻的舆情聚类分析系统200的程序代码等。此外，所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施方式中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述应用服务器1的总体操作。本实施方式中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行所述的互联网新闻的舆情聚类分析系统200等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述应用服务器1与其他电子设备之间建立通信连接。

至此，己经详细介绍了本发明相关设备的硬件结构和功能。下面，将基于上述介绍提出本发明的各个实施方式。

首先，本发明提出一种互联网新闻的舆情聚类分析系统200。

参阅图2所示，是本发明互联网新闻的舆情聚类分析系统200第一实施方式的程序模块图。

在一实施方式中，所述互联网新闻的舆情聚类分析系统200包括一系列的存储于存储器11上的计算机程序指令，当该计算机程序指令被处理器12执行时，可以实现本发明各实施方式的互联网新闻的舆情聚类分析操作。在一些实施方式中，基于该计算机程序指令各部分所实现的特定的操作，互联网新闻的舆情聚类分析系统200可以被划分为一个或多个模块。例如，在图2中，所述互联网新闻的舆情聚类分析系统200可以被分割成获取模块21、处理模块22、归纳模块23及输出显示模块24。其中：

所述获取模块21，用于通过分布式爬虫在信息源获取新闻类信息，并存储到舆情数据库中。

具体地，所述分布式爬虫可对分布于不同服务器上的网页进行多任务抓取，提高信息的抓取效率。

具体地，所述分布式爬虫框架主要分成两部分：下载器和解析器。下载器负责抓取网页，解析器负责解析网页并入库。两者之间依靠消息队列进行通信，两者可以分布在不同机器，也可分布在同一台机器。两者的数量也是灵活可变的，例如可能有五台机在做下载、两台机在做解析，这都是可以根据爬虫系统的状态及时调整的。

具体地，所述消息队列有两个管道：HTML/JS文件和待爬种子。下载器从待爬种子里拿到一条种子，根据种子信息调用相应的抓取模块进行网页抓取，然后存入HTML/JS文件这个通道；解析器从HTML/JS文件里拿到一条网页内容，根据里面的信息调用相应的解析模块进行解析，将目标字段入库，需要的话还会解析出新的待爬种子。

具体地，所述下载器包含User-Agent池、Proxy池、Cookie池的，可以适应复杂网站的抓取。

具体地，所述信息源包括但不限于新闻网站、微博、微信、贴吧、论坛等平台。其中，新闻网站包括但不限于新浪、网易、凤凰新闻、新华网、人民网、腾讯网等国内主要新闻网站及各地地方网络报纸等。

所述处理模块22，用于对所述舆情数据库中的数据进行去噪、分词、聚类。

具体地，去噪步骤包括：

步骤一，采集的网页信息含有广告、导航信息、图片、版权说明等噪声数据，对舆情信息分析来说真正需要的是正文部分的元信息，清除掉这些无关内容，保留采集网页中的文档信息。

步骤二，在文本信息中，还包括很多无意义的词语、符号等，设置一个无意词表，在无意词表中添加无意义的词语、符号，比如“了”，“的”，“和”，“或”，符号等，将无意词表中的词语、符号从上一步骤获得的文档信息中去除。

具体地，分词步骤中，运用中文分词技术对采集到的网页文本数据进行。

具体地，聚类步骤包括：

步骤一，设置包括敏感词、情感词的参照表。一般来说，预设的情感词包括具有强烈情感的副词、连词以及观点词。例如，连词包括不过、但是、于是、此外等等；副词包括相当、完美、几乎、绝对等等；观点词包括察觉、发现、认为、主张、猜想、表示、以为等等。而敏感词，可为禁止词，侵权词，不雅词，政治性、煽动性的词语。

步骤二，获得关键词，并根据获得的关键词设置关键词参照表。

步骤三：对照所述敏感词、情感词及关键词参照表分析出网页文本中的关键词、敏感词和带有情感倾向的词语。

进一步地，对比近义词、同义词数据库对所述敏感词、情感词及关键词进行分析，将关键词及其同义词、近义词统一列为关键词，将敏感词、情感词的同义词也进行对比分析。

进一步地，位于数据库服务器词库中的敏感词、关键词和情感词，也可以根据社会舆情发展变化的需要由管理员添加新的词汇到此词库，以实现词库的实时更新。

进一步地，依据处理结果提供的关键词以及情感词实现对网页信息的过滤、预警(即对网页文本信息进行标记如依照关键词标记或依照情感倾向词标记)，处理结果提交给敏感词处理模块进行敏感词处理；敏感词处理模块，用于根据国家相关法律法规，对经关键词处理模块处理的文本数据中的敏感词进行过滤、屏蔽，处理结果交由聚类分析模块进行处理，其中敏感词来自分词处理模块提供的处理结果。

步骤四：根据关键词、情感词、敏感词将从获得的网页数据按照网页所属类别自动聚类。

具体地，根据获得的关键词对数据库中的新闻网页进行分类，例如可为政治、经济、军事、社会、科技、游戏、时尚、体育及电影等；若关键词为地名，也可根据不同地名分类，例如可为北京、上海、广州、深圳，香港、台湾等等。

具体地，根据情感词可对数据库中的新闻网页进行分类，例如可分为爱情、亲情、友情、失恋、治愈等等。

具体地，根据敏感词可将数据库中的新闻网页进行分类，例如对敏感政策、敏感地域、敏感人物的分类。进一步地，聚类之后的各类包含多个新闻的分组。

步骤五：对聚类后的新闻按照热度进行排序。

具体地，还可获取新闻的评论数、点击数、转发数，根据以上数据进行排序。

具体地，还可根据同一或者相似新闻的数目计算热度，对不同聚类出的不同新闻分别计算热度后根据热度排序。

所述归纳模块23，用于对聚类后的不同类新闻分别归纳主题摘要。

具体地，举例而言，对同一事件不同新闻网站、媒体会有不同角度、形式的报道，但各种报道的主题都是大同小异的。新闻事件中的新闻摘要为该新闻内容的浓缩，目的是在用户阅读了新闻标题后，进一步了解新闻相关的重要信息，以便决定是否进一步阅读新闻的详细内容。用户阅读新闻大多利用手机，由于手机屏幕小，为了使有限的文字传递给用户的信息最大化的同时，尽可能减少重复信息，对聚类后的不同类新闻的主题摘要进行智能、自动归纳，从而呈现给用户，可节省用户的事件及增强用户的体验度。

具体地，所述归纳方法包括步骤：

步骤一：对该新闻的正文进行分句，并保留句子长度在预设长度范围内的句子，记为保留句子。具体地，通过该步骤可以限定句子的长度，从而限定了标题的长度。

步骤二：分别计算每个保留句子与标题的相似度S(s)，以及每个保留句子的权重Q(s)。其中，引入保留句子与标题的相似度是为了使最后选取的摘要与标题的相似度低，而句子的权重则表明该句子在该新闻中的价值，通常是句子包含的关键词越多，则其价值越大。

其中，计算保留句子与标题的相似度S(s)的步骤如下：步骤1，基于同义词词库对保留句子和标题进行同义词转换；步骤2，针对同义词转换后的保留句子和标题采用Jaccard距离计算保留句子和标题的相似度S(s)。即将保留句子和标题中的词组的交集除以词组的并集得到相似度S(s)。

步骤三，根据公式R(s)＝Q(s)/S(S)计算每个保留句子的排序分，其中，R(s)为保留句子的排序分。通过上述公式，排序分越高，则对应的句子越可能成为摘要。

步骤四，选取排序分最高的保留句子作为同类新闻的摘要。

所述输出显示模块24，用于将聚类后的新闻及所述主题摘要输出，并显示给用户。

具体地，所述输出显示模块24包括LCD、LED等显示屏。

此外，本发明还提出一种互联网新闻的舆情聚类分析方法。

参阅图3所示，是本发明互联网新闻的舆情聚类分析方法第一实施方式的流程示意图。在本实施方式中，根据不同的需求，图3所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤S110，通过分布式爬虫在信息源获取新闻类信息，并存储到舆情数据库中。

步骤S120，对所述舆情数据库中的数据进行去噪、分词、聚类。

具体地，去噪步骤包括：

具体地，分词步骤中，运用中文分词技术对采集到的网页文本数据进行分词。

具体地，聚类步骤包括：

步骤一，设置包括敏感词、情感词的参照表。—般来说，预设的情感词包括具有强烈情感的副词、连词以及观点词。例如，连词包括不过、但是、于是、此外等等；副词包括相当、完美、几乎、绝对等等；观点词包括察觉、发现、认为、主张、猜想、表示、以为等等。而敏感词，可为禁止词，侵权词，不雅词，政治性、煽动性的词语。

步骤五：对聚类后的新闻按照热度进行排序。

步骤S130，对聚类后的不同类新闻分别归纳主题摘要。

具体地，所述归纳方法包括步骤：

步骤一：对该新闻的正文进行分句，并保留句子长度在预设长度范围内的句子，记为保留句子。

具体地，通过该步骤可以限定句子的长度，从而限定了标题的长度，同时，选择预设长度范围内的句子做保留句子也有方便处理的好处。

步骤四，选取排序分最高的保留句子作为同类新闻的摘要。

具体地，排序分最高的保留句子代表这些保留句子越能代表新闻的主要内容，也可以设定一个阈值，当排序分大于所述阈值，就将该排序分所对应的的句子作为保留句子，最后经过分析处理后聚合形成摘要。

步骤S140，将聚类后的新闻及所述主题摘要输出，并显示给用户。

如图4所示，是本发明互联网新闻的舆情聚类分析方法的第二实施方式的流程示意图。本实施方式中，所述步骤“对所述舆情数据库中的数据进行去噪、分词、聚类”中去噪具体包括以下步骤：

步骤S210，过滤图片、版权说明、广告，获得文档信息。

具体地，采集的网页信息含有广告、导航信息、图片、版权说明等噪声数据，对舆情信息分析来说真正需要的是正文部分的元信息，清除掉这些无关内容，保留采集网页中的文档信息。

步骤S220，过滤停用词。

具体地，在文本信息中，还包括很多无意义的词语、符号等，这些词统称为停用词。设置一个无意词表，在无意词表中添加无意义的词语、符号，比如“了”，“的”，“和”，“或”，符号等，将无意词表中的词语、符号从上一步骤获得的文档信息中去除。

如图5所示，是本发明互联网新闻的舆情聚类分析方法的第三实施方式的流程示意图。本实施方式中，所述步骤“对所述舆情数据库中的数据进行去噪、分词、聚类”中分词具体包括以下步骤：步骤S310，运用中文分词技术对采集到的网页文本数据进行分词。

具体地，所述的中文分词技术包括两类，第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词，如：最大匹配法、最小分词方法等。第二类基于统计的分词方法则基于字和词的统计信息，如把相邻字间的信息、词频及相应的共现信息等应用于分词。

具体地，所述的中文分词技术包括以下方法：

最大正向匹配法，其基本思想为：假定分词词典中的最长词有i个汉字字符，则用被处理文档的当前字串中的前i个字作为匹配字段，查找字典。若字典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理……如此进行下去，直到匹配成功，即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配，然后取下一个i字字串进行匹配处理，直到文档被扫描完为止。

逆向最大匹配法，逆向最大匹配法从被处理文档的末端开始匹配扫描，每次取最末端的2i个字符(i字字串)作为匹配字段，若匹配失败，则去掉匹配字段最前面的一个字，继续匹配。相应地，它使用的分词词典是逆序词典，其中的每个词条都将按逆序方式存放。在实际处理时，先将文档进行倒排处理，生成逆序文档。然后，根据逆序词典，对逆序文档用正向最大匹配法处理即可。

如图6所示，是本发明互联网新闻的舆情聚类分析方法的第四实施方式的流程示意图。本实施方式中，所述步骤“对所述舆情数据库中的数据进行去噪、分词、聚类”中聚类具体包括以下步骤：

步骤S410，设置包括敏感词、情感词的参照表。

具体地，预设的情感词包括具有强烈情感的副词、连词以及观点词。例如，连词包括不过、但是、于是、此外等等；副词包括相当、完美、几乎、绝对等等；观点词包括察觉、发现、认为、主张、猜想、表示、以为等等。而敏感词，可为禁止词，侵权词，不雅词，政治性、煽动性的词语。

步骤S420，获得关键词，并根据获得的关键词设置关键词参照表。

具体地，该步骤可包括如下步骤：

步骤一：对分词之后的文档进行分析，统计词语出现的频率，出现的位置(标题，摘要，正文，备注)，历史平均频率(若存在)；

步骤二：根据公式获得词语的重要度D；

D＝a*Fn+∑bi*Wi+c*Fh,i＝1,2,3…n，

其中，a,b,c为词语当时出现的频率，位置，历史平均频率对应权重值，Fn,Wi,Fh分别对应词语出现的频率，出现的位置，历史平均频率，对于词语出现的位置也设置不同的权重值；

步骤三：根据重要度D对各词语进行排序，将重要度D大于预设值的词语作为关键词并生成关键词参照表。

步骤S430，对照所述敏感词、情感词及关键词参照表分析出网页文本中的关键词、敏感词和带有情感倾向的词语。

步骤S440，根据关键词、情感词、敏感词将从获得的网页数据按照网页所属类别自动聚类。

具体地，根据获得的关键词对数据库中的新闻网页进行分类，例如可为政治、经济、军事、社会、科技、游戏、时尚、体育及电影等；若关键词为地名，也可根据不同地名分类，例如可为北京、上海、广州、深圳，香港、台湾等等；

具体地，根据敏感词可将数据库中的新闻网页进行分类，例如对敏感政策、敏感地域、敏感人物的分类。

进一步地，聚类之后的各类包含多个新闻的分组。

步骤S450，对聚类后的新闻按照热度进行排序。

如图7所示，是本发明互联网新闻的舆情聚类分析方法的第五实施方式的流程示意图。本实施方式中，所述互联网新闻的舆情聚类分析方法的步骤“获得所述关键词，并根据获得的所述关键词设置关键词参照表”具体包括：

步骤S510，对分词之后的文档进行分析，统计词语出现的频率，出现的位置及历史平均频率。

步骤S520，根据如下公式获得词语的重要度D：

D＝a*Fn+∑bi*Wi+c*Fh,i＝1,2,3…n。

步骤S530，根据所述重要度D对各词语进行排序，将所述重要度D大于预设值的词语作为所述关键词并生成所述关键词参照表。

其中，a,b,c为词语当时出现的频率，位置及历史平均频率对应的权重值；Fn，Wi，Fh分别对应词语出现的频率，出现的位置，所述历史平均频率。

如图8所示，是本发明互联网新闻的舆情聚类分析方法的第六实施方式的流程示意图。本实施方式中，所述互联网新闻的舆情聚类分析方法的步骤“对聚类后的不同类新闻分别归纳主题摘要”具体包括：

步骤S610，对该新闻的正文进行分句，并保留句子长度在预设长度范围内的句子，记为保留句子。

具体地，通过该步骤可以限定句子的长度，从而限定了标题的长度。

步骤S620，分别计算所述保留句子与标题的相似度S(s)，以及所述保留句子的权重Q(s)。

具体地，引入保留句子与标题的相似度是为了使最后选取的摘要与标题的相似度低，而句子的权重则表明该句子在该新闻中的价值，通常是句子包含的关键词越多，则其价值越大。

步骤S630，根据公式R(s)＝Q(s)/S(S)计算所述保留句子的排序分。

步骤S640，选取排序分最高的所述保留句子作为同类新闻的摘要。

如图9所示，是本发明互联网新闻的舆情聚类分析方法的第七实施方式的流程示意图。本实施方式中，所述互联网新闻的舆情聚类分析方法的步骤“分别计算所述保留句子与标题的相似度S(s)，以及所述保留句子的权重Q(s)”具体包括：

步骤S710，基于同义词词库对所述保留句子和标题进行同义词转换。

步骤S720，针对同义词转换后的所述保留句子和标题采用Jaccard距离计算保留句子和标题的相似度S(s)。

具体地，针对同义词转换后的所述保留句子和标题采用Jaccard距离计算保留句子和标题的相似度S(s)，即将保留句子和标题中的词组的交集除以词组的并集得到相似度S(s)。

上述本发明实施方式序号仅仅为了描述，不代表实施方式的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施方式方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施方式所述的方法。

以上仅为本发明的优选实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种互联网新闻的舆情聚类分析方法，应用于应用服务器，其特征在于，所述方法包括步骤：

对所述舆情数据库中的数据进行去噪、分词、聚类；

对聚类后的不同类新闻分别归纳主题摘要；及

将聚类后的新闻及所述主题摘要输出，并显示给用户。

2.如权利要求1所述的互联网新闻的舆情聚类分析方法，其特征在于，所述信息源包括新闻网站、微博、微信、贴吧及论坛。

3.如权利要求1所述的互联网新闻的舆情聚类分析方法，其特征在于，所述去噪步骤包括：

过滤图片、版权说明、广告，获得文档信息；及

过滤停用词。

4.如权利要求1所述的互联网新闻的舆情聚类分析方法，其特征在于，所述的分词步骤包括：

运用中文分词技术对采集到的所述新闻类信息进行分词。

5.如权利要求1所述的互联网新闻的舆情聚类分析方法，其特征在于，所述聚类步骤包括：

设置包括敏感词、情感词的参照表；

获得关键词，并根据获得的关键词设置关键词参照表；

对聚类后的新闻按照热度进行排序。

6.如权利要求5所述的互联网新闻的舆情聚类分析方法，其特征在于，所述获得所述关键词，并根据获得的所述关键词设置关键词参照表的步骤还包括：

根据如下公式获得词语的重要度D：

D＝a*Fn+∑bi*Wi+c*Fh,i＝1,2,3…n；及

7.如权利要求1所述的互联网新闻的舆情聚类分析方法，其特征在于，所述对聚类后的不同类新闻分别归纳主题摘要的步骤还包括：

根据公式R(s)＝Q(s)/S(S)计算所述保留句子的排序分；及

选取排序分最高的所述保留句子作为同类新闻的摘要；

其中，R(s)为所述保留句子的排序分。

8.如权利要求7所述的互联网新闻的舆情聚类分析方法，其特征在于，计算所述相似度S(s)的步骤如下：

基于同义词词库对所述保留句子和标题进行同义词转换；及

9.一种应用服务器，其特征在于，所述应用服务器包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的互联网新闻的舆情聚类分析系统，所述互联网新闻的舆情聚类分析系统被所述处理器执行时实现如权利要求1-8中任一项所述的互联网新闻的舆情聚类分析方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有互联网新闻的舆情聚类分析系统，所述互联网新闻的舆情聚类分析系统可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-8中任一项所述的互联网新闻的舆情聚类分析方法的步骤。