CN103618649A - 网站数据采集方法及装置 - Google Patents
网站数据采集方法及装置 Download PDFInfo
- Publication number
- CN103618649A CN103618649A CN201310651539.9A CN201310651539A CN103618649A CN 103618649 A CN103618649 A CN 103618649A CN 201310651539 A CN201310651539 A CN 201310651539A CN 103618649 A CN103618649 A CN 103618649A
- Authority
- CN
- China
- Prior art keywords
- website
- identity information
- server
- logon form
- data acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种网站数据采集方法及装置。该方法包括:预先在网络爬虫程序中设置用于登录待采集网站的身份信息,该身份信息包括登录账号和登录密码,将身份信息写入该网站登录页面的登录表单中,对该登录表单进行加密发送给该网站对应的服务器,以使服务器验证该身份信息的合法性,接收服务器发送的用于访问该网站的标识码,该标识码是由服务器验证出身份信息合法后发送的,在使用该标识码访问该网站各网页的过程中,采用网络爬虫程序对该网站进行数据采集。本发明在网络爬虫程序中预先存储用于登录待采集的网站的身份信息,通过该身份信息从服务器处获取标识码,然后基于该标识码网络爬虫程序访问网站的各网页,从而可实现对网站进行数据采集。
Description
技术领域
本发明涉及通信领域,尤其涉及一种网站数据采集方法及装置。
背景技术
目前,多采用网络爬虫程序对网站的数据进行采集。其中,网络爬虫程序是一个沿着链接漫游网页(Web)文档集合的程序。该网络爬虫程序通过给定的统一资源标识符(Uniform Resource Locator,简称URL)链接,利用超文本传输协议(Hypertext Transfer Protocol,简称HTTP)等标准协议,读取相应Web文档,然后以Web文档中包括的所有未访问过的URL链接作为新的起点,继续进行漫游,直到没有满足未访问的新URL链接为止。在网络爬虫程序完成所有漫游后,下载所有URL链接指向的页面保存并进行元素解析,得到网站的数据采集结果。
现今互联网中存在一些在访问时需注册登录账号,在注册成功后通过登录账号登陆的网站,例如,社会性网络服务(Social Networking Services,简称SNS)网站、微博网站、天涯论坛和腾讯空间等网站。在对这类网站如果采用网络爬虫程序进行数据采集,由于需要进行登录后才能进行网站,该网站不断地将网络爬虫程序的访问页面跳转至该网站的登录页面,这样网络爬虫程序就不能获取到该网站的数据采集结果。
发明内容
本发明提供了一种网站数据采集方法及装置,用于解决基于网络爬虫程序无法对互联网中在登录后才能访问一些网站进行数据采集的问题。
为了实现上述目标,本发明提供的一种网站数据采集方法,包括:
预先在网络爬虫程序中设置用于登录待采集网站的身份信息;所述身份信息包括登录账号和登录密码;
将所述身份信息写入所述网站登录页面的登录表单中;
对所述登录表单进行加密发送给所述网站对应的服务器,以使所述服务器验证所述身份信息的合法性;
接收所述服务器发送的用于访问所述网站的标识码;所述标识码是由所述服务器验证出所述身份信息合法后发送的;
在使用所述标识码访问所述网站各网页的过程中,采用所述网络爬虫程序对所述网站进行数据采集。
为了实现上述目标,本发明提供的一种网站数据采集装置,包括:
预设模块,用于预先在网络爬虫程序中设置用于登录待采集网站的身份信息;所述身份信息包括登录账号和登录密码;
写入模块,用于将所述身份信息写入所述网站登录页面的登录表单中;
加密模块,用于对所述登录表单进行加密并发送给网站对应的服务器,以使所述服务器验证所述身份信息的合法性;
接收模块,用于接收所述服务器发送的用于标识所述用户的标识码,其中所述标识码是由所述服务器验证出所述身份验证合法后发送的;
采集模块,用于在使用所述标识码访问所述网站各网页的过程中,采用所述网络爬虫程序对所述网站进行数据采集。
本发明提供的一种网站数据采集方法及装置,预先在网络爬虫程序中设置用于登录待采集网站的身份信息,该身份信息包括登录账号和登录密码;将身份信息写入该网站登录页面的登录表单中,对该登录表单进行加密发送给该网站对应的服务器,以使服务器验证该身份信息的合法性,接收服务器发送的用于访问该网站的标识码,该标识码是由服务器验证出身份信息合法后发送的,在使用该标识码访问该网站各网页的过程中,采用网络爬虫程序对该网站进行数据采集。本发明中在网络爬虫程序中预先存储用于登录待采集的网站的身份信息,通过该身份信息从服务器处获取标识码,然后基于该标识码网络爬虫程序访问网站的各网页,从而可以实现对网站数据的采集。
附图说明
图1为本发明实施例提供的一种网站数据采集方法的流程示意图;
图2为本发明实施例提供的一种网站数据采集装置的结构示意图;
图3为本发明实施例提供的另一种网站数据采集装置的结构示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1为本发明实施例提供的一种网站数据采集方法的流程示意图。本实施例中,该方法的执行主体为网站数据采集装置。如图1所示,该网站数据采集方法包括以下步骤:
101、预先在网络爬虫程序中设置用于登录待采集网站的身份信息;所述身份信息包括登录账号和登录密码。
本实施例中,网站数据采集装置中设置有网络爬虫程序,网络数据采集装置的管理员可以向待采集的网站进行注册,获取到用于登录该网站的身份信息。该身份信息可以包括用于登陆该网站的登录账号和登录密码。在获取到身份信息后,网站数据采集装置将该身份信息设置在网络爬虫程序,具体地在编写网络爬虫程序时将身份信息写入其中,以使网络爬虫程序中可以携带登录网站的身份信息,这样网络爬虫程序基于该身份信息就可以登录待采集的网站,以实现对该网站的数据采集。
102、将所述身份信息写入所述网站登录页面的登录表单中。
网站数据采集装置将携带在网络爬虫程序中的身份信息写入待访问网站登录页面的登录表单中。其中,登录表单包括需要填写的登录账号和登录密码等信息。
在将所述身份信息写入所述网站登录页面的登录表单中之前,本实施例中提供的网站数据采集方法包括:
网站数据采集装置在对网站进行登陆之前,首先向网站对应的服务器发送访问请求,以请求打开该网站的登录页面。一般访问请求为该网站的登录页面的地址。在接收到访问请求后,服务器向网站数据采集装置发送用于登录该网站的脚本文件。其中,该脚本文件中包括用于加密的随机码和加密算法。一般,网站数据采集装置对该脚本文件进行解析,得到用于获取随机码的第一URL链接,以及用于获取加密算法的第二URL链接。在获取到第一URL链接和第二URL链接后,网站数据采集装置可以访问第一URL链接获取随机码,以及访问第二URL链接获取加密算法。优选地,用于加密的加密算法包括Base64和消息摘要算法第5版(Message Digest Algorithm,简称MD5)。
可选地,登录表单中还可以包括需要填写的验证码,相应地,服务器返回的脚本文件中包括该验证码的URL链接,网站数据采集装置基于该验证码的URL链接获取到验证码,然后将验证码写入登录表单中。
103、对所述登录表单进行加密发送给所述网站对应的服务器,以使所述服务器验证所述身份信息的合法性。
为了保证身份信息的安全性,网站数据采集装置可以对登录表单进行加密,即写入到登录表单的身份信息进行加密,将加密后的登录表单发送给服务器,以使服务器验证该身份信息的合法性。
具体地,网站数据采集装置从脚本文件中获取到加密用的随机码和加密算法,然后基于随机码和加密算法对登录表单进行加密。在对登录表单加密完成后,网站数据采集装置将加密后的登录表单写入验证请求,将携带有加密后的登录表单的验证请求发送给服务器,服务器在接收到该验证请求后,从中提出加密后的登录表单,并且采用与加密过程对应的解密过程对加密后的登录表单进行解密,得到用于登录待采集网站的身份信息。
例如,网站数据采集装置将身份信息中的登录账号和登录密码,作为加密算法的输入,结合随机码生成该身份信息对应的字串,基于脚本文件中服务器发送的身份验证的URL链接,将该字串发送给服务器。可选地,可以采用加密算法对身份信息进行多重加密操作,提高身份信息的安全性。
在获取到身份信息后,服务器验证该身份信息的合法性,具体地,查询服务器中预存的身份信息列表,如果该身份信息属于该身份信息列表中,说明该身份信息合法;如果该身份信息不属于身份信息列表,说明该身份信息不合法。在判断出身份信息合法后,服务器可以向网站数据采集装置发送用于访问待采集网站的标识码。
可选地,脚本文件中还可以携带服务器接收到网站数据采集装置发送的访问请求的时间戳。网站数据采集装置向服务器发送加密后的登录表单的同时,还可以将该时间戳携带在验证请求发送给服务器,以使服务器根据时间戳以及该服务器的当时时间判断登录表单是否超时。具体地,服务器从发送的验证请求中获取到时间戳,并且从自身的计时器中获取到自身的当前时间,然后将当前时间与该时间戳作差值,如果所述差值超出预设的时间阈值,说明网站数据采集装置发送的登录表单超时,也就是说,网站数据采集装置对服务器的登录已经超时,服务器将不允许该网站数据采集装置访问网站,可以返回超时提醒。
104、接收所述服务器发送的用于访问所述网站的标识码,其中所述标识码是由所述服务器在验证出所述身份信息合法后发送的。
网站数据采集装置接收服务器发送的用于访问待采集网站的标识码。该标识码是由服务器在验证出身份信息合法后发送的。具体地,服务器通过对身份信息的验证后,服务器向网站数据采集装置返回验证成功页面,并且返回用于登录的Cookie,本实施例中该Cookie为标识码。具体地,服务器可以向网站数据采集装置返回一个数据包,在该数据包的包头中携带Set-Cookie参数的所有值,网站数据采集装置将Set-Cookie参数的所有值,按照预设的组合原则进行组合,就可以得到标识码即Cookie。
105、在使用所述标识码访问所述网站各网页的过程中,采用所述网络爬虫程序对所述网站进行数据采集。
在获取到标识码后,网站数据采集装置可以使用标识码,访问待采集网站的各网页,在使用该标识码访问该各网页的过程中,网站数据采集装置采用网络爬虫程序对该网站进行数据采集,以得到该网站的数据采集结果。具体关于网络爬虫程序对网站进行数据采集的过程,可参见现有技术中相关内容的记载,此处不再赘述。
本实施例提供的网站数据采集方法,预先在网络爬虫程序中设置用于登录待采集网站的身份信息,该身份信息包括登录账号和登录密码;将身份信息写入该网站登录页面的登录表单中,对该登录表单进行加密发送给该网站对应的服务器,以使服务器验证该身份信息的合法性,接收服务器发送的用于访问该网站的标识码,该标识码是由服务器验证出身份信息合法后发送的,在使用该标识码访问该网站各网页的过程中,采用网络爬虫程序对该网站进行数据采集。本实施例中在网络爬虫程序中预先存储用于登录待采集的网站的身份信息,通过该身份信息从服务器处获取标识码,然后基于该标识码网络爬虫程序访问网站的各网页,从而可以实现对网站数据的采集。
图2为本发明实施例提供的一种网站数据采集装置的结构示意图。如图2所示,该网络数据采集装置包括:预设模块21、写入模块22、加密模块23、接收模块24和采集模块25。
本实施例中,网站数据采集装置中设置有网络爬虫程序,网络数据采集装置的管理员可以向待采集的网站进行注册,获取到用于登录该网站的身份信息。该身份信息可以包括用于登陆该网站的登录账号和登录密码。
在获取到身份信息后,预设模块21将该身份信息设置在网络爬虫程序,具体地在编写网络爬虫程序时,预设模块21将身份信息写入其中,以使网络爬虫程序中可以携带登录网站的身份信息,这样网络爬虫程序基于该身份信息就可以登录待采集的网站,以实现对该网站的数据采集。
预设模块21与写入模块22连接,写入模块22用于将携带在网络爬虫程序中的身份信息写入待访问网站登录页面的登录表单中。其中,登录表单包括需要填写的登录账号和登录密码等信息。
为了保证身份信息的安全性,加密模块23可以对登录表单进行加密,即对写入到登录表单的身份信息进行加密,将加密后的登录表单发送给服务器,以使服务器验证该身份信息的合法性。
接收模块24接收服务器发送的用于访问待采集网站的标识码。该标识码是由服务器在验证出身份信息合法后发送的。具体地,服务器通过对身份信息的验证后,服务器向网站数据采集装置返回验证成功页面,并且返回用于登录的Cookie,本实施例中该Cookie为标识码。具体地,服务器可以向接收模块24返回一个数据包,在该数据包的包头中携带Set-Cookie参数的所有值,接收模块24将Set-Cookie参数的所有值,按照预设的组合原则进行组合,就可以得到标识码即Cookie。
在获取到标识码后,采集模块25可以使用标识码,访问待采集网站的各网页,在使用该标识码访问该各网页的过程中,采集模块25采用网络爬虫程序对该网站进行数据采集,以得到该网站的数据采集结果。具体关于网络爬虫程序对网站进行数据采集的过程,可参见现有技术中相关内容的记载,此处不再赘述。
本实施例提供的网站数据采集装置,预先在网络爬虫程序中设置用于登录待采集网站的身份信息,该身份信息包括登录账号和登录密码;将身份信息写入该网站登录页面的登录表单中,对该登录表单进行加密发送给该网站对应的服务器,以使服务器验证该身份信息的合法性,接收服务器发送的用于访问该网站的标识码,该标识码是由服务器验证出身份信息合法后发送的,在使用该标识码访问该网站各网页的过程中,采用网络爬虫程序对该网站进行数据采集。本实施例中在网络爬虫程序中预先存储用于登录待采集的网站的身份信息,通过该身份信息从服务器处获取标识码,然后基于该标识码网络爬虫程序访问网站的各网页,从而可以实现对网站数据的采集。
图3为本发明实施例提供的另一种网站数据采集装置的结构示意图。如图3所示,该网站数据采集装置除包括上述实例中的预设模块21、写入模块22、加密模块23、接收模块24和采集模块25之外,还包括发送模块26和获取模块27。
在写入模块22将所述身份信息写入所述网站登录页面的登录表单中之前,发送模块26首先向网站对应的服务器发送访问请求,以请求打开该网站的登录页面。一般访问请求为该网站的登录页面的地址。在接收到访问请求后,服务器向网站数据采集装置中的接收模块24发送用于登录该网站的脚本文件。其中,该脚本文件中包括用于加密的随机码和加密算法。接收模块24与获取模块27连接,获取模块27对该脚本文件进行解析,得到用于获取随机码的第一URL链接,以及用于获取加密算法的第二URL链接。
在获取到第一URL链接和第二URL链接后,获取模块27可以访问第一URL链接获取随机码,以及访问第二URL链接获取加密算法。优选地,用于加密的加密算法包括Base64和MD5。
可选地,登录表单中还可以包括需要填写的验证码,相应地,服务器返回的脚本文件中包括该验证码的URL链接,获取模块27基于该验证码的URL链接获取到验证码,然后写入模块22将验证码写入登录表单中。
本实施例中,加密模块23的一种可选结构实现方式包括:加密单元231和发送单元232。
具体地,加密单元231与获取模块27连接,在获取模块27从脚本文件中获取到加密用的随机码和加密算法后,加密单元231基于随机码和加密算法对登录表单进行加密。可选地,加密单元231可以采用加密算法对身份信息进行多重加密操作,提高身份信息的安全性。
在对登录表单加密完成后,发送单元232将加密后的登录表单写入验证请求,将携带有加密后的登录表单的验证请求发送给服务器。服务器在接收到该验证请求后,从中提出加密后的登录表单,并且采用与加密过程对应的解密过程对加密后的登录表单进行解密,得到用于登录待采集网站的身份信息。例如,加密单元231将身份信息中的登录账号和登录密码,作为加密算法的输入,结合随机码生成该身份信息对应的字串,基于脚本文件中服务器发送的身份验证的URL链接,将该字串通过发送单元232发送给服务器。
在获取到身份信息后,服务器验证该身份信息的合法性,具体地,查询服务器中预存的身份信息列表,如果该身份信息属于该身份信息列表中,说明该身份信息合法;如果该身份信息不属于身份信息列表,说明该身份信息不合法。在判断出身份信息合法后,服务器可以向接收模块24发送用于访问待采集网站的标识码。
可选地,脚本文件中还可以携带服务器接收到网站数据采集装置发送的访问请求的时间戳。发送单元232向服务器发送加密后的登录表单的同时,还可以将该时间戳携带在验证请求发送给服务器,以使服务器根据时间戳以及该服务器的当时时间判断登录表单是否超时。具体地,服务器从发送的验证请求中获取到时间戳,并且从自身的计时器中获取到自身的当前时间,然后将当前时间与该时间戳作差值,如果所述差值超出预设的时间阈值,说明网站数据采集装置发送的登录表单超时,也就是说,网站数据采集装置对服务器的登录已经超时,服务器将不允许该网站数据采集装置访问网站,可以返回超时提醒。
本实施例中在网络爬虫程序中预先存储用于登录待采集的网站的身份信息,通过该身份信息从服务器处获取标识码,然后基于该标识码网络爬虫程序访问网站的各网页,从而可以实现对网站数据的采集。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种网站数据采集方法,其特征在于,包括:
预先在网络爬虫程序中设置用于登录待采集网站的身份信息;所述身份信息包括登录账号和登录密码;
将所述身份信息写入所述网站登录页面的登录表单中;
对所述登录表单进行加密发送给所述网站对应的服务器,以使所述服务器验证所述身份信息的合法性;
接收所述服务器发送的用于访问所述网站的标识码;所述标识码是由所述服务器验证出所述身份信息合法后发送的;
在使用所述标识码访问所述网站各网页的过程中,采用所述网络爬虫程序对所述网站进行数据采集。
2.根据权利要求1所述的网站数据采集方法,其特征在于,所述将所述身份信息写入所述网站登录页面的登录表单中之前,还包括:
向所述服务器发送访问请求,以请求打开所述登录页面;
接收所述服务器发送的用于登录所述网站的脚本文件;
从所述脚本文件中获取用于加密的随机码和加密算法。
3.根据权利要求2所述的网站数据采集方法,其特征在于,所述从所述脚本文件中获取用于加密的随机码和加密算法包括:
对所述脚本文件进行解析,得到所述随机码的第一统一资源定位符URL链接和所述加密算法的第二URL链接;
访问所述第一URL链接获取所述随机码,以及访问所述第二URL链接获取所述加密算法。
4.根据权利要求3所述的网站数据采集方法,其特征在于,所述对所述登录表单进行加密发送给网站对应的服务器,以使所述服务器验证所述身份信息的合法性包括:
采用所述随机码和所述加密算法对所述登录表单进行加密;
将加密后的所述登录表单携带在验证请求中发送给所述服务器,以使所述服务器服务器验证所述身份信息是否合法。
5.根据权利要求4所述的网站数据采集方法,其特征在于,所述脚本文件中携带所述服务器接收到所述访问请求的时间戳;
将所述时间戳携带在所述验证请求中发送给所述服务器,以使所述服务器根据所述时间戳和所述服务器的当时时间判断所述登录表单是否超时。
6.一种网站数据采集装置,其特征在于,包括:
预设模块,用于预先在网络爬虫程序中设置用于登录待采集网站的身份信息;所述身份信息包括登录账号和登录密码;
写入模块,用于将所述身份信息写入所述网站登录页面的登录表单中;
加密模块,用于对所述登录表单进行加密并发送给网站对应的服务器,以使所述服务器验证所述身份信息的合法性;
接收模块,用于接收所述服务器发送的用于标识所述用户的标识码,其中所述标识码是由所述服务器验证出所述身份验证合法后发送的;
采集模块,用于在使用所述标识码访问所述网站各网页的过程中,采用所述网络爬虫程序对所述网站进行数据采集。
7.根据权利要求6所述的网站数据采集装置,其特征在于,还包括:
发送模块,用于在所述写入模块将所述身份信息写入所述网站登录网页的登录表单中之前,向所述服务器发送访问请求,以请求打开所述登录页面;
所述接收模块,还用于接收所述服务器发送的用于登录所述网站的脚本文件;
获取模块,用于从所述脚本文件获取用于加密的随机码和加密算法。
8.根据权利要求7所述的网站数据采集装置,其特征在于,所述获取模块具体用于对所述脚本文件进行解析,得到所述随机码的第一URL连接和所述加密算法的第二URL链接,访问所述第一URL链接获取所述随机码,以及访问所述第二URL链接获取所述加密算法。
9.根据权利要求8所述的网站数据采集装置,其特征在于,所述加密模块包括:
加密单元,用于采用所述随机码和所述加密算法对所述登录表单进行加密;
发送单元,用于将加密后的所述登录表单携带在验证请求中发送给所述服务器,以使所述服务器验证所述身份信息的合法性。
10.根据权利要求9所述的网站数据采集装置,其特征在于,所述脚本文件中携带所述服务器接收到所述访问请求的时间戳;
所述发送单元,还用于将所述时间戳携带在所述验证请求中发送给所述服务器,以使所述服务器根据所述时间戳和所述服务器的当时时间判断所述登录表单是否超时。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310651539.9A CN103618649A (zh) | 2013-12-03 | 2013-12-03 | 网站数据采集方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310651539.9A CN103618649A (zh) | 2013-12-03 | 2013-12-03 | 网站数据采集方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103618649A true CN103618649A (zh) | 2014-03-05 |
Family
ID=50169353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310651539.9A Pending CN103618649A (zh) | 2013-12-03 | 2013-12-03 | 网站数据采集方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103618649A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984719A (zh) * | 2014-05-12 | 2014-08-13 | 浪潮电子信息产业股份有限公司 | 一种爬虫模拟登陆采集的方法 |
CN104298716A (zh) * | 2014-06-19 | 2015-01-21 | 中国科学院信息工程研究所 | 一种支持人工会话嫁接的网络爬虫系统和实现方法 |
CN104317880A (zh) * | 2014-10-22 | 2015-01-28 | 浪潮软件集团有限公司 | 一种专门针对微博数据采集方式的方法 |
CN104580436A (zh) * | 2014-12-29 | 2015-04-29 | 北京锐安科技有限公司 | 一种获取非法网站报表数据的方法和装置 |
CN105812366A (zh) * | 2016-03-14 | 2016-07-27 | 携程计算机技术(上海)有限公司 | 服务器、反爬虫系统和反爬虫验证方法 |
CN106126747A (zh) * | 2016-07-14 | 2016-11-16 | 北京邮电大学 | 基于爬虫的数据获取方法及装置 |
CN106161466A (zh) * | 2016-08-30 | 2016-11-23 | 迈普通信技术股份有限公司 | Web服务器及表单提交安全交互方法 |
CN106612261A (zh) * | 2015-10-26 | 2017-05-03 | 北京国双科技有限公司 | 网站数据获取方法、装置及系统 |
CN107295024A (zh) * | 2017-08-24 | 2017-10-24 | 四川长虹电器股份有限公司 | 一种实现Web前端安全登陆和访问的方法 |
CN107465682A (zh) * | 2017-08-10 | 2017-12-12 | 深圳市华傲数据技术有限公司 | 爬虫登录目标网站的实现方法及系统 |
CN108200101A (zh) * | 2018-03-13 | 2018-06-22 | 河南工学院 | 一种计算机系统及其用户的身份识别方法和装置 |
CN108875397A (zh) * | 2018-07-12 | 2018-11-23 | 江苏慧学堂系统工程有限公司 | 一种web数据采集方法及系统 |
WO2019019646A1 (zh) * | 2017-07-25 | 2019-01-31 | 深圳壹账通智能科技有限公司 | 平台登录网站方法、装置、计算机设备以及可读存储介质 |
CN110012022A (zh) * | 2019-04-15 | 2019-07-12 | 重庆天蓬网络有限公司 | 基于爬虫技术的身份验证方法、装置、服务器及存储介质 |
CN110166456A (zh) * | 2019-05-22 | 2019-08-23 | 瀚云科技有限公司 | 云数据读取方法及装置 |
CN110400080A (zh) * | 2019-07-26 | 2019-11-01 | 浙江大搜车软件技术有限公司 | 考核数据监控方法、装置、计算机设备和存储介质 |
CN110866196A (zh) * | 2018-12-28 | 2020-03-06 | 哈尔滨安天科技集团股份有限公司 | 一种打印机网络信息采集方法、装置及电子设备 |
CN111125489A (zh) * | 2019-12-25 | 2020-05-08 | 北京锐安科技有限公司 | 一种数据抓取方法、装置、设备及存储介质 |
CN111817845A (zh) * | 2019-04-11 | 2020-10-23 | 亿度慧达教育科技(北京)有限公司 | 反爬虫方法及计算机存储介质 |
CN115001819A (zh) * | 2022-06-02 | 2022-09-02 | 上海华客信息科技有限公司 | 实名登录方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070250514A1 (en) * | 2006-04-25 | 2007-10-25 | Saeed Rajput | Browsing and monitoring the web through learning and ingemination |
CN101551813A (zh) * | 2009-05-13 | 2009-10-07 | 腾讯科技(深圳)有限公司 | 网络连接设备、搜索设备及搜集搜索引擎数据源的方法 |
CN102404353A (zh) * | 2010-09-09 | 2012-04-04 | 上海缘降信息技术有限公司 | 终端的内容发布方法及其系统 |
-
2013
- 2013-12-03 CN CN201310651539.9A patent/CN103618649A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070250514A1 (en) * | 2006-04-25 | 2007-10-25 | Saeed Rajput | Browsing and monitoring the web through learning and ingemination |
CN101551813A (zh) * | 2009-05-13 | 2009-10-07 | 腾讯科技(深圳)有限公司 | 网络连接设备、搜索设备及搜集搜索引擎数据源的方法 |
CN102404353A (zh) * | 2010-09-09 | 2012-04-04 | 上海缘降信息技术有限公司 | 终端的内容发布方法及其系统 |
Non-Patent Citations (4)
Title |
---|
E.HAMMER-LAHAV: "The OAuth 1.0 Protocol", 《RFC》 * |
廉捷: "新浪微博数据挖掘方案", 《清华大学学报》 * |
王益强: "网页文本数据自动采集方法综述", 《信息与电脑》 * |
申伟: "基于cookie的身份认证网站信息采集研究与实现", 《计算机技术与发展》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984719A (zh) * | 2014-05-12 | 2014-08-13 | 浪潮电子信息产业股份有限公司 | 一种爬虫模拟登陆采集的方法 |
CN104298716B (zh) * | 2014-06-19 | 2018-01-19 | 中国科学院信息工程研究所 | 一种支持人工会话嫁接的网络爬虫系统和实现方法 |
CN104298716A (zh) * | 2014-06-19 | 2015-01-21 | 中国科学院信息工程研究所 | 一种支持人工会话嫁接的网络爬虫系统和实现方法 |
CN104317880A (zh) * | 2014-10-22 | 2015-01-28 | 浪潮软件集团有限公司 | 一种专门针对微博数据采集方式的方法 |
CN104580436A (zh) * | 2014-12-29 | 2015-04-29 | 北京锐安科技有限公司 | 一种获取非法网站报表数据的方法和装置 |
CN106612261A (zh) * | 2015-10-26 | 2017-05-03 | 北京国双科技有限公司 | 网站数据获取方法、装置及系统 |
CN105812366A (zh) * | 2016-03-14 | 2016-07-27 | 携程计算机技术(上海)有限公司 | 服务器、反爬虫系统和反爬虫验证方法 |
CN105812366B (zh) * | 2016-03-14 | 2019-09-24 | 携程计算机技术(上海)有限公司 | 服务器、反爬虫系统和反爬虫验证方法 |
CN106126747A (zh) * | 2016-07-14 | 2016-11-16 | 北京邮电大学 | 基于爬虫的数据获取方法及装置 |
CN106161466A (zh) * | 2016-08-30 | 2016-11-23 | 迈普通信技术股份有限公司 | Web服务器及表单提交安全交互方法 |
WO2019019646A1 (zh) * | 2017-07-25 | 2019-01-31 | 深圳壹账通智能科技有限公司 | 平台登录网站方法、装置、计算机设备以及可读存储介质 |
CN107465682A (zh) * | 2017-08-10 | 2017-12-12 | 深圳市华傲数据技术有限公司 | 爬虫登录目标网站的实现方法及系统 |
CN107295024A (zh) * | 2017-08-24 | 2017-10-24 | 四川长虹电器股份有限公司 | 一种实现Web前端安全登陆和访问的方法 |
CN108200101A (zh) * | 2018-03-13 | 2018-06-22 | 河南工学院 | 一种计算机系统及其用户的身份识别方法和装置 |
CN108875397A (zh) * | 2018-07-12 | 2018-11-23 | 江苏慧学堂系统工程有限公司 | 一种web数据采集方法及系统 |
CN110866196A (zh) * | 2018-12-28 | 2020-03-06 | 哈尔滨安天科技集团股份有限公司 | 一种打印机网络信息采集方法、装置及电子设备 |
CN111817845A (zh) * | 2019-04-11 | 2020-10-23 | 亿度慧达教育科技(北京)有限公司 | 反爬虫方法及计算机存储介质 |
CN110012022A (zh) * | 2019-04-15 | 2019-07-12 | 重庆天蓬网络有限公司 | 基于爬虫技术的身份验证方法、装置、服务器及存储介质 |
CN110166456A (zh) * | 2019-05-22 | 2019-08-23 | 瀚云科技有限公司 | 云数据读取方法及装置 |
CN110400080A (zh) * | 2019-07-26 | 2019-11-01 | 浙江大搜车软件技术有限公司 | 考核数据监控方法、装置、计算机设备和存储介质 |
CN111125489A (zh) * | 2019-12-25 | 2020-05-08 | 北京锐安科技有限公司 | 一种数据抓取方法、装置、设备及存储介质 |
CN111125489B (zh) * | 2019-12-25 | 2023-05-26 | 北京锐安科技有限公司 | 一种数据抓取方法、装置、设备及存储介质 |
CN115001819A (zh) * | 2022-06-02 | 2022-09-02 | 上海华客信息科技有限公司 | 实名登录方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103618649A (zh) | 网站数据采集方法及装置 | |
AU2019275598B2 (en) | Systems and methods for authenticating an online user using a secure authorizaton server | |
CN101075875B (zh) | 在门户/系统之间实现单点登录的方法及其系统 | |
US10778668B2 (en) | HTTP session validation module | |
CN103220303B (zh) | 服务器的登录方法及服务器、认证设备 | |
CN104378376A (zh) | 基于soa的单点登录方法、认证服务器和浏览器 | |
CN106685973B (zh) | 记住登录信息的方法及装置、登录控制方法及装置 | |
CN103024740B (zh) | 移动终端访问互联网的方法及系统 | |
EP2144420A1 (en) | Web application security filtering | |
CN102682009A (zh) | 一种用户登录网页的方法及系统 | |
CN103179134A (zh) | 基于Cookie的单点登录方法、系统及其应用服务器 | |
CN103944900A (zh) | 一种基于加密的跨站请求攻击防范方法及其装置 | |
CN103391197A (zh) | 一种基于手机令牌和NFC技术的Web身份认证方法 | |
CN105025041A (zh) | 文件上传的方法、装置和系统 | |
US9338173B2 (en) | Methods and apparatuses for avoiding damage in network attacks | |
CN101860540A (zh) | 一种识别网站服务合法性的方法及装置 | |
CN104394172A (zh) | 单点登录装置和方法 | |
CN107483407B (zh) | 一种防盗链的方法和系统 | |
CN103634111A (zh) | 单点登录方法和系统及单点登录客户端 | |
CN103716280A (zh) | 数据传输方法、服务器及系统 | |
CN109495458A (zh) | 一种数据传输的方法、系统及相关组件 | |
CN103428176A (zh) | 移动用户访问移动互联网应用的方法、系统及应用服务器 | |
CN106470186B (zh) | 一种以跳转方式访问第三方资源的方法 | |
CN104301285B (zh) | 用于web系统的登录方法 | |
JP2010250791A (ja) | ウェブサーバとクライアントとの間の通信を監視するウェブ保安管理装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140305 |