CN103399968B

CN103399968B - 一种微博信息采集方法及系统

Info

Publication number: CN103399968B
Application number: CN201310298119.7A
Authority: CN
Inventors: 吴波; 曹娟; 张勇东; 李锦涛
Original assignee: Institute of Computing Technology of CAS
Current assignee: Hangzhou Zhongke Ruijian Technology Co ltd
Priority date: 2013-07-16
Filing date: 2013-07-16
Publication date: 2016-08-10
Anticipated expiration: 2033-07-16
Also published as: CN103399968A

Abstract

本发明提供一种微博信息采集方法及系统，所述方法包括：根据用户提交的查询确定信息类型以及页面链接参数；向微博服务器发送根据所述信息类型和所述页面链接参数构造的页面请求链接，抽取返回页面中的基础信息数据项。所述方法还包括：并行执行信息所在页面的相关信息采集。本发明提供的微博信息采集方法和系统在提高信息采集效率的同时，可以获取更完整的微博信息。

Description

一种微博信息采集方法及系统

技术领域

本发明涉及数据采集技术领域，尤其涉及一种微博信息采集方法及系统。

背景技术

随着微博服务的发展，围绕微博平台开展的相关研究和应用也日益增多。海量微博数据蕴含着各类信息和规律，是微博平台相关服务的基础。因此，找到一种有效的方法来采集真实的微博数据是非常有价值的。微博数据采集（或称微博信息采集）是指以获取有效的微博数据为目标的数据获取方案，这种方案获取的数据应该是真实和及时的，且在满足需求的基础上具有完整性和结构化的特点，以便组织和使用。

目前，主要基于微博API（Application Programming Interface，应用程序编程接口）请求获取微博数据。在国内，用于微博研究和应用的中文微博数据大部分来源于腾讯微博、新浪微博等微博服务提供商。这些服务提供商在其各自的开放平台公布了一部分微博API，研发者可以编写程序来调用该微博API，从而获取微博数据。基于微博API获取数据的方法包括以下几个步骤：注册并获取普通开发者账号；通过认证获取API调用授权；通过SDK（Software Development Kit，软件开发工具包）提交微博API请求；接收服务器返回的微博数据；对数据进行修正和处理。

尽管调用微博API可以获取真实的微博数据，且能够在一定程度上满足研发者对微博数据的需求，然而微博服务提供商通过分级授权的方式对微博API的调用进行了限制。限制标准包括IP请求频率、信息获取数量等，该限制大大降低了获取数据的完整性、有效性和获取效率。例如，普通权限通过一次API请求只能获取单个用户的200条微博数据。如果需要获取批量用户的微博数据，则需要提交大量请求，无法在短时间内完成。不仅如此，有些微博API允许获取的信息数量也受到限制，给采集完整的微博数据带来了困难。

因此，需要一种方法可以不依赖微博服务提供商提供的API来获取完整的微博数据，并且提高数据获取的效率。

发明内容

根据本发明的一个实施例，提供一种微博信息采集方法，包括：

步骤1）、根据用户提交的查询确定信息类型以及页面链接参数；

步骤2）、向微博服务器发送根据所述信息类型和所述页面链接参数构造的静态页面请求链接，抽取返回的静态页面中的基础信息数据项；其中，所述基础信息数据项确定动态页面请求链接；

步骤3）、执行信息所在页面的相关信息采集；其中，执行每个信息所在页面的相关信息采集包括：向微博服务器发送该页面的动态页面请求链接，抽取返回的动态页面中的相关信息数据项。

在进一步的实施例中，步骤3）中，执行信息所在页面的相关信息采集还包括：根据由所述基础信息数据项确定的信息所在页面的数量和用于执行相关信息采集的资源剩余量将采集的页面进行批次划分，每批并行执行多个页面的相关信息采集。

在一个实施例中，所述页面链接参数包括微博ID、用户ID、微博短地址、用户短地址。

在一个实施例中，步骤2）包括：

步骤21）、根据所述信息类型和所述页面链接参数构造静态页面请求链接，所述静态页面请求链接为微博属性页面的请求链接或用户属性页面的请求链接；

步骤22）、向微博服务器发送所述静态页面请求链接并获取返回的静态页面；

步骤23）、从所述静态页面中抽取基础信息数据项。

在一个实施例中，所述基础信息数据项包括：用户ID、关注数、粉丝数、微博数、微博ID、转发数、评论数。

在一个实施例中，步骤2）之前还包括：模拟用户登录。

在进一步的实施例中，模拟用户登录包括：

步骤a）、向微博服务器发送建立认证会话的请求链接，建立登录认证会话；

步骤b）、通过认证加密的方法加密请求信息，构造用户认证请求信息；

步骤c）、向所述微博服务器发送所述用户认证请求信息，获得用户认证授权。

在进一步的实施例中，步骤a）之前还包括：

分析微博服务登录过程，获得建立认证会话的链接格式和认证加密的方法。

在一个实施例中，步骤3）中向微博服务器发送该页面的动态页面请求链接，抽取返回的动态页面中的相关信息数据项的步骤包括：

步骤31）、根据所述基础信息数据项以及该页面的动态页面请求链接格式构造对该页面的动态页面请求链接；

步骤32）、向微博服务器发送所述动态页面请求链接并获取返回的动态页面；

步骤33）、从所述动态页面中抽取相关信息数据项。

在一个实施例中，所述方法还包括：

步骤4）、对所述相关信息数据项进行修正和处理。

根据本发明的一个实施例，还提供一种微博信息采集系统，包括：

交互接口，用于提交查询以及显示采集结果；

查询需求分析装置，用于根据用户提交的查询确定信息类型以及页面链接参数；

采集装置，用于向微博服务器发送根据所述信息类型和所述页面链接参数构造的静态页面请求链接，抽取返回的静态页面中的基础信息数据项，其中，所述基础信息数据项确定动态页面请求链接；所述采集装置还用于执行信息所在页面的相关信息采集，其中，执行每个信息所在页面的相关信息采集包括：向微博服务器发送该页面的动态页面请求链接，抽取返回的动态页面中的相关信息数据项。

在进一步的实施例中，所述采集装置还用于根据由所述基础信息数据项确定的信息所在页面的数量将采集的页面进行批次划分，每批并行执行多个页面的相关信息采集。

在一个实施例中，所述系统还包括：模拟登录装置，用于执行模拟用户登录。

在一个实施例中，所述系统还包括：数据修正与处理装置，用于对从所述采集装置得到的相关信息数据项进行修正和处理。

与使用微博API的方法相比，采用本发明可以达到如下有益效果：

1）、有效避免了微博API的调用频率限制，在网络环境稳定的情况下，可以无间断地进行信息获取任务，提高了信息采集效率；

2）、有效避免了微博API的信息获取数量限制，可以获取更完整的信息。

附图说明

图1是根据本发明一个实施例的微博信息采集方法的流程图；

图2是微博信息的分类示意图；以及

图3是根据本发明一个实施例的微博信息采集系统的框图。

具体实施方式

下面结合附图和具体实施方式对本发明加以说明。

根据本发明的一个实施例，提供一种微博信息采集方法，图1示出了该方法的流程，包括以下步骤：

第一步、模拟用户登录

与通过浏览器访问微博类似，在采集微博信息前需要模拟浏览器提交用户认证的请求信息。

在模拟用户登录前，通过分析微博服务登录的过程（即用户登录微博网站时浏览器的请求过程），可以获得建立认证会话的链接格式、认证加密的方法等信息，用于用户登录的模拟。

在模拟用户登录时，首先，向微博服务提供商的服务器（或称微博服务器）发送建立认证会话的请求链接，以建立登录认证会话。会话建立成功后，通过认证加密的方法加密相应的请求信息（用户账户信息及其他信息），构造用户认证请求信息。其中，用户认证请求信息包括请求链接和认证数据，认证数据包括用户名、密码、加密方法名、用户令牌以及时限等参数。接着，向微博服务器发送用户认证请求信息，并获得用户认证授权。在一个实施例中，可以在认证生效后的24小时之内重复进行模拟用户登录，以保持用户认证有效。

第二步、查询需求分析

对于不同的用户查询，可能存在不同的微博信息采集需求。对查询需求进行分析，可以确定对哪些类型的数据进行采集。在微博信息采集过程中，可首先基于用户提交的查询链接格式（如用户提交的关于用户/微博的URL），确定该查询涉及哪些类型的信息，并且确定这些信息类型对应的页面类型。此外，还可以从查询链接中提取基础信息采集（将在下文中详细描述）所需的参数，例如微博或用户ID、微博或用户短地址等页面链接参数，为基础信息采集做好准备。

微博平台中数据对象间的关系较为复杂，用户间、微博间、用户与微博间都存在着联系。在微博服务平台上，微博信息是通过网页进行展示的。可将具有相同结构的数据集合称为同类型信息，相同结构的页面集合称为同类型页面，图2示出了对微博信息进行分类的方法的一个实施例。

如图2所示，可根据微博信息采集的意图将微博信息分为两大类：微博相关信息和用户相关信息。在进一步的实施例中，可根据信息类型分别对以上两类信息再次进行划分。其中，微博相关信息包括四种：微博基础信息、微博属性信息、微博转发信息和微博评论信息；用户相关信息包括五种：用户基础信息、用户属性信息、用户微博信息、用户关注信息和用户粉丝（被关注）信息。本文所指的微博属性信息是指包含微博ID、微博内容、微博发布时间等表示某条微博属性的信息，而用户微博信息是指用户与微博的关系信息，包括用户ID-微博ID关系对等信息，这两类信息既不相同也不冲突。在划分了微博信息类型后，可建立信息类型与页面类型间的联系。继续参考图2，其中，四种微博相关信息分别对应于微博属性页面、微博转发页面和微博评论页面；五种用户相关信息分别对应于用户属性页面、用户关注页面、用户粉丝页面和用户微博页面。

在进一步的实施例中，微博基础信息包括：微博ID、转发数、评论数、分页数据项规模；微博属性信息（表示某条微博属性的信息）包括：微博ID、作者名称、作者ID、发布时间、发布平台、转发数、评论数、文本内容、是否包含链接、是否包含图片、是否原创等。微博转发信息包括：转发微博ID、转发用户名称、转发用户ID、转发时间、转发内容、被再转发数等。微博评论信息包括：评论用户名称、评论用户ID、评论时间、评论内容等。

用户基础信息包括：用户ID、关注数、粉丝数、分页规模数；用户属性信息包括：用户名称、用户ID、性别、认证情况、地址、个人描述、职业情况、教育情况。用户关注信息包括：用户名称、用户ID、关注用户名称、关注用户ID、关注方式。用户粉丝信息包括：用户名称、用户ID、粉丝用户名称、粉丝用户ID、粉丝关注方式。用户微博信息是用户与微博的关系信息，包括：用户名称、用户ID、微博ID。

图2示意性地描述了对微博信息进行分类的一种方式，应理解，也可以采用其他分类方法对微博信息进行分类。

根据本发明的一个实施例，第一步中的模拟用户登录过程还可以在第二步之后进行，或者与第二步同时进行。

第三步、基础信息采集

在采集目标数据项所在的页面之前（即相关信息采集之前），需要进行基础信息采集，以获得基础信息数据项用于相关信息采集过程中的任务分配，以便进行相关信息的采集。其中，基础信息采集所涉及的页面包含两类：微博属性信息页面和用户属性信息页面。

首先，根据查询需求分析得到的查询涉及的信息类型和页面链接参数构造微博属性静态页面或用户属性静态页面的请求链接。然后，向微博服务器发送该请求链接并获取从微博服务器返回的、基础信息所在的静态页面内容。接着，通过数据项抽取方法（将在下文中详细描述）获得该静态页面中的基础信息数据项。在一个实施例中，用户属性信息页面包含的基础信息数据项有用户ID、关注数、粉丝数、微博数；微博属性信息页面包含的基础信息数据项有微博ID、转发数、评论数。

在进行相关信息采集之前，还需要提前得知信息所在页面的数量，以及动态页面链接地址等基本信息。通过微博基础信息采集到的基础数据项能够获得这些基本信息，例如，可以通过将评论数除以每页数据项的规模来得到微博评论页面的数量。这些基本信息有助于控制相关信息采集的规模和相关信息页面地址的生成。

第四步、相关信息采集（相关页面信息采集）

获取微博信息的页面内容是采集相关信息的基础。按照网页代码是否需要执行客户端网页代码，可将页面信息分为两类：静态页面和动态页面。例如，上文所述的微博属性页面和用户属性页面是静态页面，而微博转发页面微博评论页面是动态页面。相关信息可以从动态页面获取。

首先，通过对各类型的动态页面进行页码源码分析，可获得动态页面请求链接格式，例如：链接地址+微博或用户ID+分页页组+页组页数+随机号等，不同类型的动态页面可能具有不同的动态页面请求链接格式。接着，根据上述基础信息采集获得的基础信息数据项以及相关动态页面请求链接格式构造动态页面请求链接。直接发送该动态页面请求链接至微博服务提供商的服务器。获取返回的动态页面内容。最后，通过数据项抽取方法获得页面中的相关信息数据项。

基础信息采集与相关信息采集都包括数据项抽取过程，数据项抽取的目标是在页面内容中获取真实的数据项，例如在用户微博页面中获取微博作者姓名、微博时间等信息。可抽取的数据项包括但不限于当前页面显示的信息，例如，微博ID、用户ID等信息并不在页面中显示，但是也可以通过对页面内容的抽取从页面内容中获得。

在一个实施例中，数据项抽取过程包括：首先获取各页面内容的源码（如图2所示，涉及九种信息类型、七种页面类型），分析并确定各数据项在相关页面范围的唯一上下文标志。接着，根据该唯一上下文标志设计数据匹配规则。对于每个页面产生一组用于采集数据项的匹配规则集，不同数据项需要不同的匹配规则。通过集合中各匹配规则直接对页面内容进行循环匹配，直至满足匹配规则的数据项均被找到或遍历完页面源码的全部内容。在满足匹配的位置，提取满足匹配规则的信息，即目标数据项。根据图2所示的信息类型划分，可创建针对微博系统的九种信息类型、七种信息页面的约共八十余项微博信息数据项的匹配规则，以满足微博、用户相关的各种采集需求。

本领域技术人员应理解，除上述技术，现有的用于抽取页面中数据项的方法均可以应用于此。

在微博服务中，每个页面展示的信息量是有限的。许多类型的信息分布在多个分页中。要采集这些信息，可能需要访问大量的静态或动态页面（例如：采集某用户相关的用户微博列表等）。如果串行地对每个页面进行采集会造成较大的时间等待，但并行的采集策略可以解决这个难题，从而大大提高采集效率。

在一个实施例中，本发明采用分批并行——动态回收的方法进行并行采集。根据上文中得到的信息所在页面的数量以及用于执行相关信息采集的资源剩余量进行页面批次划分，每一批执行多个页面的采集（即对多个页面执行相关信息采集）。例如采集的页面规模为n*k页，每批采集的规模为n页，共k批采集任务等待完成，若有子任务页面n’项，而系统的并行采集上限为m。根据采集信息类型相关页面的大小和子任务页面数，设置不同的t（n+n*n’<=m）。首先并行进行第一批任务的采集，n项采集任务同时并发，计算任务进行时间t。当前批任务开始之后，若有某项任务已经提前于其他任务完成，则直接回收采集获得的数据。若当前批任务进行时间t超过某阈值或当前批的n项采集任务已经全部完成，则继续进行新一批次的并行，并行规模为当前没有进行完的l项任务的采集规模m-l*n’或n。如此循环，直至k批次任务全部完成。

第五步、数据修正与处理

对微博页面进行微博信息采集后，得到的相关数据项是页面中的直观数据项，例如微博时间、微博转发数、微博评论数等。其中，有一部分数据项的格式并不统一，例如：粉丝数实际为1630000，但是数据抽取结果为163万；时间格式表达有“3小时前”或“17分钟前”等。因此，需要将用户粉丝数、用户关注数等数据项的缩写转换成真实值。在一个实施例中，可分析相关数据项与真实数据的差异，并且基于该差异设计数据修正模板，根据该模板对满足条件的数据项进行修正。

除此之外，还可以对微博文本内容进行进一步的数据处理，以满足采集之后的数据应用。该处理可以包括对微博文本内容进行分词、词性标注；过滤中文停用词，根据词性保留名词、动名词等有实际意义的词汇；抽取其他数据项信息，包括微博文本内容中的关系、URL链接、#话题等。

根据本发明的一个实施例，还提供一种微博信息采集系统。如图3所示，该系统包括交互接口、查询需求分析装置、采集装置、模拟登录装置以及数据修正与处理装置。

在系统采集微博信息之前，首先由模拟登录装置进行模拟用户登录，该模拟登录装置可以是硬件、软件，或者硬件和软件的组合。模拟登录装置首先向微博服务器发送建立认证会话的请求链接，建立登录认证会话；接着，通过认证加密的方法加密请求信息，构造用户认证请求信息；最后，向微博服务器发送用户认证请求信息，从而获得用户认证授权。用户可以通过交互接口向获得认证授权的微博信息采集系统提交查询，该查询可能是与微博相关的查询，也可能是与用户相关的查询。

系统在接收到用户提交的查询后，由查询需求分析装置根据该查询来确定所涉及的信息类型以及页面链接参数。类似地，该查询需求分析装置也可以是硬件、软件，或者硬件和软件的组合。接着，查询装置将所确定的信息类型和页面连接参数发送给采集装置。

采集装置接收到查询需求装置发送的信息类型和页面连接参数后，可根据这些数据构造的静态页面请求链接，并且向微博服务器发送该静态页面请求链接。在接收到微博服务器返回的静态页面后，抽取该静态页面中的基础信息数据项。其中，基础信息数据项可以用于确定信息所在页面的数量和动态页面请求链接。随后，采集装置根据信息所在页面的数量将采集的页面进行批次划分，每批并行执行多个页面的相关信息采集。在并行采集过程中，对于每个采集页面，采集装置首先向微博服务器发送该页面的动态页面请求链接，接着抽取返回的动态页面中的相关信息数据项。采集装置还可以将该信息数据项发送给数据修正与处理装置，由数据修正与处理装置对相关信息数据项进行修正和进一步的处理。最后由交互接口显示采集结果。在一个实施例中，采集装置和数据修正与处理装置可以是软件、硬件，或者硬件与软件的任何组合。

在一个实施例中，对于同时提交的多个查询，采集装置也可以并行执行基础信息采集过程，从而提高系统效率。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种微博信息采集方法，包括：

步骤1)、根据用户提交的查询确定信息类型以及页面链接参数；

步骤2)、向微博服务器发送根据所述信息类型和所述页面链接参数构造的静态页面请求链接，抽取返回的静态页面中的基础信息数据项；其中，所述基础信息数据项确定动态页面请求链接；

步骤3)、执行信息所在页面的相关信息采集，包括：根据由所述基础信息数据项确定的信息所在页面的数量和用于执行相关信息采集的资源剩余量将采集的页面进行批次划分，每批并行执行多个页面的相关信息采集；

其中，从第一批次的采集开始，如果当前批次的采集所进行的时间超过阈值或者当前批次的采集全部完成，则进行下一批次的采集，直至所有采集全部完成；

其中，执行每个信息所在页面的相关信息采集包括：

步骤31)、根据所述基础信息数据项以及该页面的动态页面请求链接格式构造对该页面的动态页面请求链接；

步骤32)、向微博服务器发送所述动态页面请求链接并获取返回的动态页面；

步骤33)、从所述动态页面中抽取相关信息数据项。

2.根据权利要求1所述的方法，其中，所述页面链接参数包括微博ID、用户ID、微博短地址、用户短地址。

3.根据权利要求1所述的方法，其中，步骤2)包括：

步骤21)、根据所述信息类型和所述页面链接参数构造静态页面请求链接，所述静态页面请求链接为微博属性页面的请求链接或用户属性页面的请求链接；

步骤22)、向微博服务器发送所述静态页面请求链接并获取返回的静态页面；

步骤23)、从所述静态页面中抽取基础信息数据项。

4.根据权利要求3所述的方法，其中，所述基础信息数据项包括：用户ID、关注数、粉丝数、微博数、微博ID、转发数、评论数。

5.根据权利要求1所述的方法，其中步骤2)之前还包括：模拟用户登录。

6.根据权利要求5所述的方法，其中，模拟用户登录包括：

步骤a)、向微博服务器发送建立认证会话的请求链接，建立登录认证会话；

步骤b)、通过认证加密的方法加密请求信息，构造用户认证请求信息；

步骤c)、向所述微博服务器发送所述用户认证请求信息，获得用户认证授权。

7.根据权利要求6所述的方法，其中，步骤a)之前还包括：

8.根据权利要求1所述的方法，还包括：

步骤4)、对所述相关信息数据项进行修正和处理。

9.一种微博信息采集系统，包括：

交互接口，用于提交查询以及显示采集结果；

采集装置，用于向微博服务器发送根据所述信息类型和所述页面链接参数构造的静态页面请求链接，抽取返回的静态页面中的基础信息数据项，其中，所述基础信息数据项确定动态页面请求链接；所述采集装置还用于执行信息所在页面的相关信息采集，包括：根据由所述基础信息数据项确定的信息所在页面的数量和用于执行相关信息采集的资源剩余量将采集的页面进行批次划分，每批并行执行多个页面的相关信息采集；

其中，执行每个信息所在页面的相关信息采集包括：根据所述基础信息数据项以及该页面的动态页面请求链接格式构造对该页面的动态页面请求链接；向微博服务器发送所述动态页面请求链接并获取返回的动态页面；从所述动态页面中抽取相关信息数据项。

10.根据权利要求9所述的系统，还包括：

模拟登录装置，用于执行模拟用户登录。

11.根据权利要求9所述的系统，还包括：

数据修正与处理装置，用于对从所述采集装置得到的相关信息数据项进行修正和处理。