CN104615627B

CN104615627B - 一种基于微博平台的事件舆情信息提取方法及系统

Info

Publication number: CN104615627B
Application number: CN201410490602.XA
Authority: CN
Inventors: 曹娟; 储达峰; 金志威; 张勇东; 谢菲; 苏宇
Original assignee: XINHUA NEWS AGENCY; Institute of Computing Technology of CAS
Current assignee: XINHUA NEWS AGENCY; Institute of Computing Technology of CAS
Priority date: 2014-09-23
Filing date: 2014-09-23
Publication date: 2018-03-30
Anticipated expiration: 2034-09-23
Also published as: CN104615627A

Abstract

本发明涉及舆情事件提取技术，本发明公开了一种基于微博平台的事件舆情信息提取方法及系统，该方法包括：获取所述事件的关键词、起始时间、截止时间，并根据所述微博平台搜索服务的链接格式，构造待采样页面的页面链接；根据所述页面链接进行微博采样，生成样本微博，根据所述样本微博，计算所述事件的事件热度，并根据所述事件热度计算微博抓取周期；根据所述微博抓取周期，结合所述页面链接，获取与所述事件相关的微博页面。提取所述微博页面的微博信息，以完成提取所述事件的所述舆情信息。本发明获取事件舆情信息更全面而高效，能采集到实时的舆情信息。

Description

一种基于微博平台的事件舆情信息提取方法及系统

技术领域

本发明涉及舆情事件提取技术，特别涉及一种基于微博平台的事件舆情信息提取方法及系统。

背景技术

微博，即微博客(Micro Blog)的简称，是一种基于用户关系的信息分享、获取以及传播的平台，用户可以通过WEB、WAP以及各种客户端组件，以140字左右的文字附加图片、音乐、视频等多媒体更新信息，并实现即时分享。2008年以来，微博在我国开始迅速发展，涌现出一批微博服务网站，如2009年8月成立的新浪微博，截至2012年12月底，拥有注册用户已超5亿，日活跃用户数达4620万，用户每日发博量超过1亿条，横跨两岸三地和新马地区。

作为一种新型网络应用，微博以其信息传播方式兼具新闻传播和人际传播的特点，为人们自由、快速表达观点的同时亦形成一股网络舆情传播新势力，它的特殊结构和影响力使得舆情的传播速度和广度超过以往的任何一种媒介。由此，微博平台上舆情信息的提取对于传统媒体舆论引导、政府决策制定、公共事务处理、行业市场决策等多个领域具有重要意义。

现有技术中，一般采用全网监控的方法搜集舆情信息：首先针对全网通过网络爬虫等手段广泛获取用户产生的内容，然后采用事件发现方法检测出热点事件，最后过滤无关信息提取出关键事件舆情信息。

由上述可见通常的全网监控方法在多个方面存在局限。第一，网络信息量呈爆炸式增长，传统方法监控全网难以高效抓取实时信息，以微博为例，每天需处理上亿条微博信息，这对于处理效率和存储空间都有较高的要求。第二，网络信息量不仅多而且杂，有研究发现超过40％的微博内容是无意义的“信息泡沫”，而在大量的网络数据中找出具有舆情分析价值的信息更是好比大海捞针。第三，通过算法自动发现的热点事件难免有错漏，通常需要人工检验核实才能跟真实事件对应上。

发明专利“一种网络舆情事件多维信息提取的方法及装置”，该发明公开了一种网络舆情事件多维信息提取的方法及装置，其中，所述方法包括：基于用户搜索行为从搜索日志中提取种子网页，采用所述种子网页构建网络舆情事件初始的主题；依据所述主题按照预设时间段分时获取特征网页；获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据；获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据；分别对比上一预设时间段与当前时间段用户关注度的分析数据，媒体关注度的分析数据以及用户态度的分析数据，获得网络舆情事件的趋势演化信息。该发明用以分析舆论事件，提高舆论事件分析的准确度。但该发明以用户搜索日志中挖掘出的搜索行为为种子，而本发明以事件关键词为检索关键词搜集数据；该发明以传统网页为平台分析网页内容，本发明专注于微博平台以用户发布的微博、评论、转发等多元信息为分析素材；该发明按预设时间段提取信息并对比分析；本发明以事件实际发展周期为时间窗口提取信息。

发明专利“基于微博平台的消息搜索方法及系统”，该发明公开了一种基于微博平台的消息搜索方法及系统，该方法包括步骤：获取用户设置的商品信息；根据商品信息生成相应的搜索关键词；根据预先建立的关键词知识库进行搜索关键词扩展；根据预先建立的关键词组合知识库组合扩展后的搜索关键词，生成至少一个包含了多个搜索关键词的搜索关键词组合；用搜索关键词组合在各个微博平台上搜索相关联的微博消息；对搜索到的微博消息进行智能识别，将识别出的有潜在购物需求的消息作为返回给用户的结果保存到数据库中。采用该方法或系统，能找出微博平台上有潜在购物需求的微博消息，提高了搜索的全面性、准确性和实用性，搜索效率极高。但该发明以搜索购物、商品相关微博为目标，本发明以搜索事件相关微博为目标；该发明不需要考虑时间因素，本发明搜索事件需要在一段指定时间内搜索。

发明专利“一种微博信息抓取方法及装置”，该发明公开了一种微博信息抓取方法及装置，所述方法包括：获取用户发布的历史微博，并根据所述历史微博的发布时间建立所述历史微博与预设时间点间的映射关系，所述预设时间点通过预设步长选取；将映射历史微博数的偏差在预设范围内的至少两个相邻预设时间点合并为一个时间段；根据每个时间段的时间长度及其映射的每条历史微博的权重确定每个时间段的抓取周期；根据每个时间段的抓取周期以及抓取初始时间点预测用户再次发布微博的时间点，并在该预测时间点上进行微博信息抓取。如此，就可避免空闲期进行信息抓取导致的资源浪费，同时还能保证繁忙期有足够的抓取资源，通过这种变周期的抓取方式就提高了微博信息的抓取效率。但该发明以用户为切入点，提取指定用户发布的微博，本发明以事件关键词为切入点，提取的是事件相关的微博；该发明提取重点在于抓取周期的确定，本发明重点在于在事件时间窗口内全面准确的提取信息。

发明内容

针对现有技术的不足，本发明提出一种基于微博平台的事件舆情信息提取方法及系统。

本发明提出一种基于微博平台的事件舆情信息提取方法，包括：

步骤1，获取所述事件的关键词、起始时间、截止时间，并根据所述微博平台搜索服务的链接格式，构造待采样页面的页面链接；

步骤2，根据所述页面链接进行微博采样，生成样本微博，根据所述样本微博，计算所述事件的事件热度，并根据所述事件热度计算微博抓取周期；

步骤3，根据所述微博抓取周期，结合所述页面链接，获取与所述事件相关的微博页面；

步骤4，提取所述微博页面的微博信息，以完成提取所述事件的所述舆情信息。

所述的基于微博平台的事件舆情信息提取方法，所述步骤2还包括：

根据所述关键词，过滤与所述事件无关的微博，并将所述样本微博按发布时间进行排序。

所述的基于微博平台的事件舆情信息提取方法，所述步骤2通过以下公式计算所述事件热度：

其中C_weibo为所述样本微博的微博数，T_last为所述样本微博中按发布时间排序后最后一条微博的发布时间，T_first为所述样本微博中按发布时间排序后第一条微博的发布时间，H_E为所述事件热度。

所述的基于微博平台的事件舆情信息提取方法，所述步骤2通过以下公式计算所述微博抓取周期：

其中，H_E为所述事件热度，t为所述微博抓取周期，N为所述微博平台页面包含的最大微博数。

所述的基于微博平台的事件舆情提取方法，所述步骤3还包括：

分析所述微博页面的网页布局，生成页面解析模板，通过所述页面解析模板清除与所述事件无关的微博，并生成微博列表；

分析原创微博和转发微博的结构，生成原创微博模板和转发微博模板，根据所述微博列表，通过所述原创微博模板和所述转发微博模板，获取原创微博列表和转发微博列表。

所述的基于微博平台的事件舆情提取方法，所述步骤4包括：

提取所述原创微博列表和所述转发微博列表中每条微博的初始微博信息；

对所述初始微博信息进行链接提取、@关系提取、话题提取、内容过滤、内容分词。

所述的基于微博平台的事件舆情提取方法，还包括：

根据所述微博信息，结合所述事件关键词，过滤与所述事件无关的微博。

本发明还提出一种基于微博平台的事件舆情信息提取系统，包括：

构造模块，用于获取所述事件的关键词、起始时间、截止时间，并根据所述微博平台搜索服务的链接格式，构造待采样页面的页面链接；

采样模块，用于根据所述页面链接进行微博采样，生成样本微博，根据所述样本微博，计算所述事件的事件热度，并根据所述事件热度计算微博抓取周期；

获取微博页面模块，用于根据所述微博抓取周期，结合所述页面链接，获取与所述事件相关的微博页面；

提取微博信息模块，用于提取所述微博页面的微博信息，以完成提取所述事件的所述舆情信息。

所述的基于微博平台的事件舆情信息提取系统，还包括：

过滤模块，用于根据所述关键词，过滤与所述事件无关的微博，并将所述样本微博按发布时间进行排序。

所述的基于微博平台的事件舆情信息提取系统，还包括：

模板生成模块，用于分析所述微博页面的网页布局，生成页面解析模板，通过所述页面解析模板清除与所述事件无关的微博，并生成微博列表；分析原创微博和转发微博的结构，生成原创微博模板和转发微博模板，根据所述微博列表，通过所述原创微博模板和所述转发微博模板，获取原创微博列表和转发微博列表。

与通常全网采集的方式相比，用户可按兴趣对指定事件进行舆情信息采集，这样的采集更具有针对性；同时，直接忽略不相关的内容也大大提高采集速度，能达到实时采集当前最新舆情的效果；微博是当前最热门的社交网站，由于其较强的媒体属性，对各种事件的讨论也最为热烈，从微博上抓取信息可以说是以点带面，既能较全面的掌握事件舆情，也能抓到最新最热的事件舆情；获取事件舆情信息更具有针对性；本发明一方面避免了全网采集数据带来的效率问题，另一方面减少了事件检测算法带来的不准确性和人工二次加工；获取事件舆情信息更全面而高效，能采集到实时的舆情信息，避免了传统方法由于采集效率较低、数据来源平台较为落后等带来的信息滞后问题。

附图说明

图1为本发明总体流程图；

图2为按事件热度自适应地抓取微博页面的流程图；

图3为关键信息提取的流程图。

其中，附图标记为：

100为本发明总体步骤，包括：

步骤101/102/103/104/105；

200为按事件热度自适应地抓取微博页面的步骤，包括：

步骤201/202/203/204/205/206；

300为关键信息提取的具体步骤，包括：

步骤301/302/303/304。

具体实施方式

下面结合附图和具体实施例对发明加以说明。

本发明包含以下步骤：步骤101，模拟登陆微博平台。由于本发明依托微博平台进行信息采集，所以首先需要模拟用户登录微博网站的过程，向微博站点提交用户认证的请求信息。在模拟登陆前，人工注册一批微博站点的账号构建成登录信息表，此列表可模拟不同用户登录的情形，降低因同一账号多次请求导致的被官方封禁账号的可能性，此外，通过分析微博站点实际登录流程，获取建立认证的链接格式、认证加密方法等信息。在模拟登录时，首先向微博服务站点发送登录请求链接，同时从登录信息表中随机选取尚未被封禁的账号作为登录账号登录微博系统，需要提供数据包括用户名、密码、加密方法、用户令牌等参数，登录成功后，用户将获得认证授权，不受限地使用微博提供的各项服务。

步骤102，解析“事件”并构造产生查询页面。本发明针对具体事件采集其舆情信息，定义一个事件由三个要素组成：事件关键词、事件开始时间和事件结束时间，其中事件关键词描述了事件涉及的具体内容，事件的起止时间确定了事件发生的时间范围，通过这三个要素可以较为唯一地确定一个事件，由于这三个信息由用户输入因此允许其存在一定误差，如时间只需要精确到天，得到用户输入的关键词和起止时间后，按照微博搜索服务的链接格式，构造出待采集的网页链接，本发明利用微博自身提供的高级搜索功能，在构造链接时，要设置一些参数，除了对应的关键词和起止时间外，类型为所有微博(包括原创与非原创微博，非原创微博可以为转发的微博)，排序方式为“实时”，同时去除过滤相似微博选项。

步骤103，按事件热度自适应的抓取信息。以下为步骤103的一实施例，开始抓取信息前，首先将事件按天粗略地划分开，即每次只抓取一天内该事件的微博信息，如图2所示，按事件热度自适应的的抓取信息主要由：微博采样、计算抓取周期、按周期抓取三部分构成，步骤200为按事件热度自适应抓取信息的具体步骤，包括：

微博采样，事件热度可以用该事件在单位时间内与其相关的微博数的多少来衡量，为计算事件热度首先需要采集部分微博，采样方法如下：

步骤201，构造采样链接。依照微博搜索链接格式，以时间关键词为检索关键词，设定时间范围为全天(0-23时)搜索微博；

步骤202，采样微博。以上述链接向微博服务器请求页面，一般返回结果会有多页，每页20条微博，以返回的第一页为采集目标，采集第一页的微博，重点采集微博内容、发布时间等；

步骤203，微博过滤与排序。上述采集到的微博可能包含与本事件不相关的微博，因此采集完成后，按照是否包含事件关键词过滤不相关微博，最后将所有采集到的微博按发布时间排序。

计算周期，首先计算事件热度，通过事件热度计算最终的周期，具体步骤如下：

步骤204，计算事件热度，基于采样得到的微博，可以计算出该事件的热度，事件E的热度的计算公式为：

其中C_weibo为所述样本微博的微博数，T_last为所述样本微博中按发布时间排序后最后一条微博的发布时间(以小时为单位)，T_first为所述样本微博中按发布时间排序后第一条微博的发布时间(以小时为单位)，H_E为所述事件热度。

步骤205，计算抓取周期，抓取周期t以小时为单位，即每隔t小时采集一次微博，事件E的抓取周期的公式为：

其中，H_E为所述事件热度，t为所述微博抓取周期，N为所述微博平台页面包含的最大微博数(即微博平台搜索页面能显示的最大微博数)，如某事件通过采样得到20条微博，发布时间在21-23时，则计算出事件热度为10，周期为2小时，即每隔2小时采集一次，一天共采集12次。

步骤206，按微博抓取周期和页面链接抓取微博页面。根据微博抓取周期和步骤102构造的页面链接，抓取对应页面，抓取完一页后，通过该页获得的微博数是否大于给定阈值(15条微博)判断是否需要翻页抓取，直至该周期内的所有微博都被抓取到。

步骤104，关键信息提取。通过请求链接的方式得到与事件相关的微博页面后，需要对页面进行解析，从中提取出重要的信息点，整个提取过程自抓取到的微博页面的顶向下进行，步骤300为所述步骤104的具体步骤，包括：

步骤301页面整体解析。获取到的原始页面除与所述事件相关的微博列表外，还包含其他不相关信息，分析页面布局，生成页面解析模板，通过所述页面解析模板清除与所述事件无关的微博，并生成微博列表；

步骤302，微博列表解析。微博列表中包含原创微博和非原创的转发微博两类微博，这两者在结构上各有差异，通过分析其格式，生成原创微博模板和转发微博模板，根据所述微博列表，通过所述原创微博模板和所述转发微博模板，获取原创微博列表和转发微博列表；

步骤303，单条微博解析。单条微博需要提取的信息有：微博内容、微博标识(id)、微博链接地址(URL)、发布者昵称、发布者首页地址、发布时间、微博转发量、微博评论量，是否为原创等；

步骤304，微博内容处理。微博内容是上述所有提取到的信息中最重要的部分，需要将原始微博内容做近一步的处理以提取出关键信息，这些处理包括：链接提取：提取内容中涉及到的网页url链接地址；“@关系”提取：微博中以“@+用户名”的方式提及相关用户，需要对部分信息单独提取；话题提取：微博中以“#+话题名称+#”的方式为微博指定话题，需要解析出该主题；内容过滤：过滤微博中无意义的表情符、乱码等；内容分词：将经过上述步骤处理后的内容分词，以供后续分析使用。

步骤105，无关信息过滤。提取完微博信息后，依据提取到的微博信息，将与事件无关的微博过滤掉，即按照是否包含事件关键词过滤不相关微博。

以上为本发明方法的具体步骤和实施例，本发明还包括一种基于微博平台的事件舆情信息提取系统，包括以下模块：

获取微博页面模块，用于根据所述微博抓取周期，结合所述页面链接，获取与所述事件相关的微博页面。

Claims

1.一种基于微博平台的事件舆情信息提取方法，其特征在于，包括：

步骤4，提取所述微博页面的微博信息，以完成提取所述事件的所述舆情信息；

其中所述步骤2通过以下公式计算所述微博抓取周期：

式中，H_E为所述事件热度，t为所述微博抓取周期，N为所述微博平台页面包含的最大微博数。

2.如权利要求1所述的基于微博平台的事件舆情信息提取方法，其特征在于，所述步骤2还包括：

3.如权利要求1或2所述的基于微博平台的事件舆情信息提取方法，其特征在于，所述步骤2通过以下公式计算所述事件热度：

4.如权利要求1所述的基于微博平台的事件舆情信息提取方法，其特征在于，所述步骤3还包括：

5.如权利要求4所述的基于微博平台的事件舆情信息提取方法，其特征在于，所述步骤4包括：

6.如权利要求1所述的基于微博平台的事件舆情信息提取方法，其特征在于，还包括：

7.一种基于微博平台的事件舆情信息提取系统，其特征在于，包括：

提取微博信息模块，用于提取所述微博页面的微博信息，以完成提取所述事件的所述舆情信息；

其中所述采样模块通过以下公式计算所述微博抓取周期：

8.如权利要求7所述的基于微博平台的事件舆情信息提取系统，其特征在于，还包括：

9.如权利要求7所述的基于微博平台的事件舆情信息提取系统，其特征在于，还包括：