CN103618649A

CN103618649A - 网站数据采集方法及装置

Info

Publication number: CN103618649A
Application number: CN201310651539.9A
Authority: CN
Inventors: 杜璞; 周凌燕; 胡羽中
Original assignee: BEIJING PEOPLE ONLINE NETWORK Co Ltd
Current assignee: BEIJING PEOPLE ONLINE NETWORK Co Ltd
Priority date: 2013-12-03
Filing date: 2013-12-03
Publication date: 2014-03-05

Abstract

本发明提供了一种网站数据采集方法及装置。该方法包括：预先在网络爬虫程序中设置用于登录待采集网站的身份信息，该身份信息包括登录账号和登录密码，将身份信息写入该网站登录页面的登录表单中，对该登录表单进行加密发送给该网站对应的服务器，以使服务器验证该身份信息的合法性，接收服务器发送的用于访问该网站的标识码，该标识码是由服务器验证出身份信息合法后发送的，在使用该标识码访问该网站各网页的过程中，采用网络爬虫程序对该网站进行数据采集。本发明在网络爬虫程序中预先存储用于登录待采集的网站的身份信息，通过该身份信息从服务器处获取标识码，然后基于该标识码网络爬虫程序访问网站的各网页，从而可实现对网站进行数据采集。

Description

网站数据采集方法及装置

技术领域

本发明涉及通信领域，尤其涉及一种网站数据采集方法及装置。

背景技术

目前，多采用网络爬虫程序对网站的数据进行采集。其中，网络爬虫程序是一个沿着链接漫游网页（Web）文档集合的程序。该网络爬虫程序通过给定的统一资源标识符（Uniform Resource Locator，简称URL）链接，利用超文本传输协议（Hypertext Transfer Protocol，简称HTTP）等标准协议，读取相应Web文档，然后以Web文档中包括的所有未访问过的URL链接作为新的起点，继续进行漫游，直到没有满足未访问的新URL链接为止。在网络爬虫程序完成所有漫游后，下载所有URL链接指向的页面保存并进行元素解析，得到网站的数据采集结果。

现今互联网中存在一些在访问时需注册登录账号，在注册成功后通过登录账号登陆的网站，例如，社会性网络服务（Social Networking Services，简称SNS）网站、微博网站、天涯论坛和腾讯空间等网站。在对这类网站如果采用网络爬虫程序进行数据采集，由于需要进行登录后才能进行网站，该网站不断地将网络爬虫程序的访问页面跳转至该网站的登录页面，这样网络爬虫程序就不能获取到该网站的数据采集结果。

发明内容

本发明提供了一种网站数据采集方法及装置，用于解决基于网络爬虫程序无法对互联网中在登录后才能访问一些网站进行数据采集的问题。

为了实现上述目标，本发明提供的一种网站数据采集方法，包括：

预先在网络爬虫程序中设置用于登录待采集网站的身份信息；所述身份信息包括登录账号和登录密码；

将所述身份信息写入所述网站登录页面的登录表单中；

对所述登录表单进行加密发送给所述网站对应的服务器，以使所述服务器验证所述身份信息的合法性；

接收所述服务器发送的用于访问所述网站的标识码；所述标识码是由所述服务器验证出所述身份信息合法后发送的；

在使用所述标识码访问所述网站各网页的过程中，采用所述网络爬虫程序对所述网站进行数据采集。

为了实现上述目标，本发明提供的一种网站数据采集装置，包括：

预设模块，用于预先在网络爬虫程序中设置用于登录待采集网站的身份信息；所述身份信息包括登录账号和登录密码；

写入模块，用于将所述身份信息写入所述网站登录页面的登录表单中；

加密模块，用于对所述登录表单进行加密并发送给网站对应的服务器，以使所述服务器验证所述身份信息的合法性；

接收模块，用于接收所述服务器发送的用于标识所述用户的标识码，其中所述标识码是由所述服务器验证出所述身份验证合法后发送的；

采集模块，用于在使用所述标识码访问所述网站各网页的过程中，采用所述网络爬虫程序对所述网站进行数据采集。

本发明提供的一种网站数据采集方法及装置，预先在网络爬虫程序中设置用于登录待采集网站的身份信息，该身份信息包括登录账号和登录密码；将身份信息写入该网站登录页面的登录表单中，对该登录表单进行加密发送给该网站对应的服务器，以使服务器验证该身份信息的合法性，接收服务器发送的用于访问该网站的标识码，该标识码是由服务器验证出身份信息合法后发送的，在使用该标识码访问该网站各网页的过程中，采用网络爬虫程序对该网站进行数据采集。本发明中在网络爬虫程序中预先存储用于登录待采集的网站的身份信息，通过该身份信息从服务器处获取标识码，然后基于该标识码网络爬虫程序访问网站的各网页，从而可以实现对网站数据的采集。

附图说明

图1为本发明实施例提供的一种网站数据采集方法的流程示意图；

图2为本发明实施例提供的一种网站数据采集装置的结构示意图；

图3为本发明实施例提供的另一种网站数据采集装置的结构示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

图1为本发明实施例提供的一种网站数据采集方法的流程示意图。本实施例中，该方法的执行主体为网站数据采集装置。如图1所示，该网站数据采集方法包括以下步骤：

101、预先在网络爬虫程序中设置用于登录待采集网站的身份信息；所述身份信息包括登录账号和登录密码。

本实施例中，网站数据采集装置中设置有网络爬虫程序，网络数据采集装置的管理员可以向待采集的网站进行注册，获取到用于登录该网站的身份信息。该身份信息可以包括用于登陆该网站的登录账号和登录密码。在获取到身份信息后，网站数据采集装置将该身份信息设置在网络爬虫程序，具体地在编写网络爬虫程序时将身份信息写入其中，以使网络爬虫程序中可以携带登录网站的身份信息，这样网络爬虫程序基于该身份信息就可以登录待采集的网站，以实现对该网站的数据采集。

102、将所述身份信息写入所述网站登录页面的登录表单中。

网站数据采集装置将携带在网络爬虫程序中的身份信息写入待访问网站登录页面的登录表单中。其中，登录表单包括需要填写的登录账号和登录密码等信息。

在将所述身份信息写入所述网站登录页面的登录表单中之前，本实施例中提供的网站数据采集方法包括：

网站数据采集装置在对网站进行登陆之前，首先向网站对应的服务器发送访问请求，以请求打开该网站的登录页面。一般访问请求为该网站的登录页面的地址。在接收到访问请求后，服务器向网站数据采集装置发送用于登录该网站的脚本文件。其中，该脚本文件中包括用于加密的随机码和加密算法。一般，网站数据采集装置对该脚本文件进行解析，得到用于获取随机码的第一URL链接，以及用于获取加密算法的第二URL链接。在获取到第一URL链接和第二URL链接后，网站数据采集装置可以访问第一URL链接获取随机码，以及访问第二URL链接获取加密算法。优选地，用于加密的加密算法包括Base64和消息摘要算法第5版（Message Digest Algorithm，简称MD5）。

可选地，登录表单中还可以包括需要填写的验证码，相应地，服务器返回的脚本文件中包括该验证码的URL链接，网站数据采集装置基于该验证码的URL链接获取到验证码，然后将验证码写入登录表单中。

103、对所述登录表单进行加密发送给所述网站对应的服务器，以使所述服务器验证所述身份信息的合法性。

为了保证身份信息的安全性，网站数据采集装置可以对登录表单进行加密，即写入到登录表单的身份信息进行加密，将加密后的登录表单发送给服务器，以使服务器验证该身份信息的合法性。

具体地，网站数据采集装置从脚本文件中获取到加密用的随机码和加密算法，然后基于随机码和加密算法对登录表单进行加密。在对登录表单加密完成后，网站数据采集装置将加密后的登录表单写入验证请求，将携带有加密后的登录表单的验证请求发送给服务器，服务器在接收到该验证请求后，从中提出加密后的登录表单，并且采用与加密过程对应的解密过程对加密后的登录表单进行解密，得到用于登录待采集网站的身份信息。

例如，网站数据采集装置将身份信息中的登录账号和登录密码，作为加密算法的输入，结合随机码生成该身份信息对应的字串，基于脚本文件中服务器发送的身份验证的URL链接，将该字串发送给服务器。可选地，可以采用加密算法对身份信息进行多重加密操作，提高身份信息的安全性。

在获取到身份信息后，服务器验证该身份信息的合法性，具体地，查询服务器中预存的身份信息列表，如果该身份信息属于该身份信息列表中，说明该身份信息合法；如果该身份信息不属于身份信息列表，说明该身份信息不合法。在判断出身份信息合法后，服务器可以向网站数据采集装置发送用于访问待采集网站的标识码。

可选地，脚本文件中还可以携带服务器接收到网站数据采集装置发送的访问请求的时间戳。网站数据采集装置向服务器发送加密后的登录表单的同时，还可以将该时间戳携带在验证请求发送给服务器，以使服务器根据时间戳以及该服务器的当时时间判断登录表单是否超时。具体地，服务器从发送的验证请求中获取到时间戳，并且从自身的计时器中获取到自身的当前时间，然后将当前时间与该时间戳作差值，如果所述差值超出预设的时间阈值，说明网站数据采集装置发送的登录表单超时，也就是说，网站数据采集装置对服务器的登录已经超时，服务器将不允许该网站数据采集装置访问网站，可以返回超时提醒。

104、接收所述服务器发送的用于访问所述网站的标识码，其中所述标识码是由所述服务器在验证出所述身份信息合法后发送的。

网站数据采集装置接收服务器发送的用于访问待采集网站的标识码。该标识码是由服务器在验证出身份信息合法后发送的。具体地，服务器通过对身份信息的验证后，服务器向网站数据采集装置返回验证成功页面，并且返回用于登录的Cookie，本实施例中该Cookie为标识码。具体地，服务器可以向网站数据采集装置返回一个数据包，在该数据包的包头中携带Set-Cookie参数的所有值，网站数据采集装置将Set-Cookie参数的所有值，按照预设的组合原则进行组合，就可以得到标识码即Cookie。

105、在使用所述标识码访问所述网站各网页的过程中，采用所述网络爬虫程序对所述网站进行数据采集。

在获取到标识码后，网站数据采集装置可以使用标识码，访问待采集网站的各网页，在使用该标识码访问该各网页的过程中，网站数据采集装置采用网络爬虫程序对该网站进行数据采集，以得到该网站的数据采集结果。具体关于网络爬虫程序对网站进行数据采集的过程，可参见现有技术中相关内容的记载，此处不再赘述。

本实施例提供的网站数据采集方法，预先在网络爬虫程序中设置用于登录待采集网站的身份信息，该身份信息包括登录账号和登录密码；将身份信息写入该网站登录页面的登录表单中，对该登录表单进行加密发送给该网站对应的服务器，以使服务器验证该身份信息的合法性，接收服务器发送的用于访问该网站的标识码，该标识码是由服务器验证出身份信息合法后发送的，在使用该标识码访问该网站各网页的过程中，采用网络爬虫程序对该网站进行数据采集。本实施例中在网络爬虫程序中预先存储用于登录待采集的网站的身份信息，通过该身份信息从服务器处获取标识码，然后基于该标识码网络爬虫程序访问网站的各网页，从而可以实现对网站数据的采集。

图2为本发明实施例提供的一种网站数据采集装置的结构示意图。如图2所示，该网络数据采集装置包括：预设模块21、写入模块22、加密模块23、接收模块24和采集模块25。

本实施例中，网站数据采集装置中设置有网络爬虫程序，网络数据采集装置的管理员可以向待采集的网站进行注册，获取到用于登录该网站的身份信息。该身份信息可以包括用于登陆该网站的登录账号和登录密码。

在获取到身份信息后，预设模块21将该身份信息设置在网络爬虫程序，具体地在编写网络爬虫程序时，预设模块21将身份信息写入其中，以使网络爬虫程序中可以携带登录网站的身份信息，这样网络爬虫程序基于该身份信息就可以登录待采集的网站，以实现对该网站的数据采集。

预设模块21与写入模块22连接，写入模块22用于将携带在网络爬虫程序中的身份信息写入待访问网站登录页面的登录表单中。其中，登录表单包括需要填写的登录账号和登录密码等信息。

为了保证身份信息的安全性，加密模块23可以对登录表单进行加密，即对写入到登录表单的身份信息进行加密，将加密后的登录表单发送给服务器，以使服务器验证该身份信息的合法性。

接收模块24接收服务器发送的用于访问待采集网站的标识码。该标识码是由服务器在验证出身份信息合法后发送的。具体地，服务器通过对身份信息的验证后，服务器向网站数据采集装置返回验证成功页面，并且返回用于登录的Cookie，本实施例中该Cookie为标识码。具体地，服务器可以向接收模块24返回一个数据包，在该数据包的包头中携带Set-Cookie参数的所有值，接收模块24将Set-Cookie参数的所有值，按照预设的组合原则进行组合，就可以得到标识码即Cookie。

在获取到标识码后，采集模块25可以使用标识码，访问待采集网站的各网页，在使用该标识码访问该各网页的过程中，采集模块25采用网络爬虫程序对该网站进行数据采集，以得到该网站的数据采集结果。具体关于网络爬虫程序对网站进行数据采集的过程，可参见现有技术中相关内容的记载，此处不再赘述。

本实施例提供的网站数据采集装置，预先在网络爬虫程序中设置用于登录待采集网站的身份信息，该身份信息包括登录账号和登录密码；将身份信息写入该网站登录页面的登录表单中，对该登录表单进行加密发送给该网站对应的服务器，以使服务器验证该身份信息的合法性，接收服务器发送的用于访问该网站的标识码，该标识码是由服务器验证出身份信息合法后发送的，在使用该标识码访问该网站各网页的过程中，采用网络爬虫程序对该网站进行数据采集。本实施例中在网络爬虫程序中预先存储用于登录待采集的网站的身份信息，通过该身份信息从服务器处获取标识码，然后基于该标识码网络爬虫程序访问网站的各网页，从而可以实现对网站数据的采集。

图3为本发明实施例提供的另一种网站数据采集装置的结构示意图。如图3所示，该网站数据采集装置除包括上述实例中的预设模块21、写入模块22、加密模块23、接收模块24和采集模块25之外，还包括发送模块26和获取模块27。

在写入模块22将所述身份信息写入所述网站登录页面的登录表单中之前，发送模块26首先向网站对应的服务器发送访问请求，以请求打开该网站的登录页面。一般访问请求为该网站的登录页面的地址。在接收到访问请求后，服务器向网站数据采集装置中的接收模块24发送用于登录该网站的脚本文件。其中，该脚本文件中包括用于加密的随机码和加密算法。接收模块24与获取模块27连接，获取模块27对该脚本文件进行解析，得到用于获取随机码的第一URL链接，以及用于获取加密算法的第二URL链接。

在获取到第一URL链接和第二URL链接后，获取模块27可以访问第一URL链接获取随机码，以及访问第二URL链接获取加密算法。优选地，用于加密的加密算法包括Base64和MD5。

可选地，登录表单中还可以包括需要填写的验证码，相应地，服务器返回的脚本文件中包括该验证码的URL链接，获取模块27基于该验证码的URL链接获取到验证码，然后写入模块22将验证码写入登录表单中。

本实施例中，加密模块23的一种可选结构实现方式包括：加密单元231和发送单元232。

具体地，加密单元231与获取模块27连接，在获取模块27从脚本文件中获取到加密用的随机码和加密算法后，加密单元231基于随机码和加密算法对登录表单进行加密。可选地，加密单元231可以采用加密算法对身份信息进行多重加密操作，提高身份信息的安全性。

在对登录表单加密完成后，发送单元232将加密后的登录表单写入验证请求，将携带有加密后的登录表单的验证请求发送给服务器。服务器在接收到该验证请求后，从中提出加密后的登录表单，并且采用与加密过程对应的解密过程对加密后的登录表单进行解密，得到用于登录待采集网站的身份信息。例如，加密单元231将身份信息中的登录账号和登录密码，作为加密算法的输入，结合随机码生成该身份信息对应的字串，基于脚本文件中服务器发送的身份验证的URL链接，将该字串通过发送单元232发送给服务器。

在获取到身份信息后，服务器验证该身份信息的合法性，具体地，查询服务器中预存的身份信息列表，如果该身份信息属于该身份信息列表中，说明该身份信息合法；如果该身份信息不属于身份信息列表，说明该身份信息不合法。在判断出身份信息合法后，服务器可以向接收模块24发送用于访问待采集网站的标识码。

可选地，脚本文件中还可以携带服务器接收到网站数据采集装置发送的访问请求的时间戳。发送单元232向服务器发送加密后的登录表单的同时，还可以将该时间戳携带在验证请求发送给服务器，以使服务器根据时间戳以及该服务器的当时时间判断登录表单是否超时。具体地，服务器从发送的验证请求中获取到时间戳，并且从自身的计时器中获取到自身的当前时间，然后将当前时间与该时间戳作差值，如果所述差值超出预设的时间阈值，说明网站数据采集装置发送的登录表单超时，也就是说，网站数据采集装置对服务器的登录已经超时，服务器将不允许该网站数据采集装置访问网站，可以返回超时提醒。

本实施例中在网络爬虫程序中预先存储用于登录待采集的网站的身份信息，通过该身份信息从服务器处获取标识码，然后基于该标识码网络爬虫程序访问网站的各网页，从而可以实现对网站数据的采集。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种网站数据采集方法，其特征在于，包括：

将所述身份信息写入所述网站登录页面的登录表单中；

2.根据权利要求1所述的网站数据采集方法，其特征在于，所述将所述身份信息写入所述网站登录页面的登录表单中之前，还包括：

向所述服务器发送访问请求，以请求打开所述登录页面；

接收所述服务器发送的用于登录所述网站的脚本文件；

从所述脚本文件中获取用于加密的随机码和加密算法。

3.根据权利要求2所述的网站数据采集方法，其特征在于，所述从所述脚本文件中获取用于加密的随机码和加密算法包括：

对所述脚本文件进行解析，得到所述随机码的第一统一资源定位符URL链接和所述加密算法的第二URL链接；

访问所述第一URL链接获取所述随机码，以及访问所述第二URL链接获取所述加密算法。

4.根据权利要求3所述的网站数据采集方法，其特征在于，所述对所述登录表单进行加密发送给网站对应的服务器，以使所述服务器验证所述身份信息的合法性包括：

采用所述随机码和所述加密算法对所述登录表单进行加密；

将加密后的所述登录表单携带在验证请求中发送给所述服务器，以使所述服务器服务器验证所述身份信息是否合法。

5.根据权利要求4所述的网站数据采集方法，其特征在于，所述脚本文件中携带所述服务器接收到所述访问请求的时间戳；

将所述时间戳携带在所述验证请求中发送给所述服务器，以使所述服务器根据所述时间戳和所述服务器的当时时间判断所述登录表单是否超时。

6.一种网站数据采集装置，其特征在于，包括：

7.根据权利要求6所述的网站数据采集装置，其特征在于，还包括：

发送模块，用于在所述写入模块将所述身份信息写入所述网站登录网页的登录表单中之前，向所述服务器发送访问请求，以请求打开所述登录页面；

所述接收模块，还用于接收所述服务器发送的用于登录所述网站的脚本文件；

获取模块，用于从所述脚本文件获取用于加密的随机码和加密算法。

8.根据权利要求7所述的网站数据采集装置，其特征在于，所述获取模块具体用于对所述脚本文件进行解析，得到所述随机码的第一URL连接和所述加密算法的第二URL链接，访问所述第一URL链接获取所述随机码，以及访问所述第二URL链接获取所述加密算法。

9.根据权利要求8所述的网站数据采集装置，其特征在于，所述加密模块包括：

加密单元，用于采用所述随机码和所述加密算法对所述登录表单进行加密；

发送单元，用于将加密后的所述登录表单携带在验证请求中发送给所述服务器，以使所述服务器验证所述身份信息的合法性。

10.根据权利要求9所述的网站数据采集装置，其特征在于，所述脚本文件中携带所述服务器接收到所述访问请求的时间戳；

所述发送单元，还用于将所述时间戳携带在所述验证请求中发送给所述服务器，以使所述服务器根据所述时间戳和所述服务器的当时时间判断所述登录表单是否超时。