CN111125489B - 一种数据抓取方法、装置、设备及存储介质 - Google Patents

一种数据抓取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111125489B
CN111125489B CN201911359479.7A CN201911359479A CN111125489B CN 111125489 B CN111125489 B CN 111125489B CN 201911359479 A CN201911359479 A CN 201911359479A CN 111125489 B CN111125489 B CN 111125489B
Authority
CN
China
Prior art keywords
data
grabbing
target website
legal
random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911359479.7A
Other languages
English (en)
Other versions
CN111125489A (zh
Inventor
陈新迁
万月亮
火一莽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201911359479.7A priority Critical patent/CN111125489B/zh
Publication of CN111125489A publication Critical patent/CN111125489A/zh
Application granted granted Critical
Publication of CN111125489B publication Critical patent/CN111125489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种数据抓取方法、装置、设备及存储介质。该方法包括:获取待抓取数据的目标网站以及对应所述目标网站的会话登录信息;采用所述会话登录信息登录所述目标网站,在所述目标网站中启动数据抓取进程进行数据抓取操作,并生成所述数据抓取操作对应的随机码值;监测到当前满足抓取中断条件时,中断所述数据抓取操作,并确定所述随机码值对应的合法行为动作并执行。通过执行随机码值对应的合法行为动作,使数据抓取过程中随机执行合法行为动作,模拟用户正常访问行为,实现在设置有数据爬虫程序实时检测并防范的网站上数据的正常采集,降低对公众信息监管的阻碍,保证采集帐号的活性和数据采集的完整度以及效率。

Description

一种数据抓取方法、装置、设备及存储介质
技术领域
本发明实施例涉及数据采集技术,尤其涉及一种数据抓取方法、装置、设 备及存储介质。
背景技术
互联网已经覆盖人们的衣食住行等各个领域,电商网站需要分析用户的上 网行为、习惯、浏览内容等用于分析用户购买力、兴趣等以提供用户最想要的 货品,网络安全监管部门则可以通过对用户在互联网各网站中产生的公开信息 来发现用户在网络平台上是否有非法交易。
目前,网络安全监管部门可以采用一些数据爬虫程序对用户在各网站上产 生的数据行为数据进行采集。数据爬虫程序一般部署在7*24H的服务器上,可 以在待采集网站上进行帐号注册,以获得该网站的登录授权,然后通过不断读 取所需要采集数据的URL链接,结合通过HTTP协议模拟用户正常访问行为,来 获取网站的响应信息并解析;同时数据爬虫程序还可以不断的漫游新的链接, 进行更深度和广度的数据采集。
然而,上述数据爬虫程序在数据采集实现中如果遇到一些安全级别高的企 业网站,如设置有数据爬虫程序实时检测并防范的网站,采用上述方式便无法 实现数据的正常采集,由此为网络监管部门对公众信息的监管带来了阻碍。
发明内容
本发明提供一种数据抓取方法、装置、设备及存储介质,以实现账号进行 数据采集时不被封停帐号。
第一方面,本发明实施例提供了一种数据抓取方法,所述数据抓取方法包 括:
获取待抓取数据的目标网站以及对应所述目标网站的会话登录信息;
采用所述会话登录信息登录所述目标网站,在所述目标网站中启动数据抓 取进程进行数据抓取操作,并生成所述数据抓取操作对应的随机码值;
监测到当前满足抓取中断条件时,中断所述数据抓取操作,并确定所述随 机码值对应的合法行为动作并执行。
第二方面,本发明实施例还提供了一种数据抓取装置,该数据抓取装置包 括:
获取模块,用于获取待抓取数据的目标网站以及对应所述目标网站的会话 登录信息;
生成模块,用于采用所述会话登录信息登录所述目标网站,在所述目标网 站中启动数据抓取进程进行数据抓取操作,并生成所述数据抓取操作对应的随 机码值;
执行模块,用于监测到当前满足抓取中断条件时,中断所述数据抓取操作, 并确定所述随机码值对应的合法行为动作并执行。
第三方面,本发明实施例还提供了一种设备,该设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多 个处理器实现如本发明实施例中任一所述的一种数据抓取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有 计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的一种数 据抓取方法。
本发明实施例通过获取待抓取数据的目标网站以及对应所述目标网站的会 话登录信息;采用所述会话登录信息登录所述目标网站,在所述目标网站中启 动数据抓取进程进行数据抓取操作,并生成所述数据抓取操作对应的随机码值; 监测到当前满足抓取中断条件时,中断所述数据抓取操作,并确定所述随机码 值对应的合法行为动作并执行。通过执行随机码值对应的合法行为动作,使数 据抓取过程中随机执行合法行为动作,模拟用户正常访问行为,实现在设置有 数据爬虫程序实时检测并防范的网站上数据的正常采集,降低对公众信息监管 的阻碍,保证采集帐号的活性和数据采集的完整度以及效率。
附图说明
图1是本发明实施例一中的一种数据抓取方法的流程图;
图2是本发明实施例二中的一种数据抓取方法的流程图;
图3是本发明实施例二中的一种确定随机码值对应的合法行为动作方法的 流程图;
图4是本发明实施例二中的一种数据抓取整体过程的示例图;
图5是本发明实施例三中的一种数据抓取装置的结构图;
图6是本发明实施例四中的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此 处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需 要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结 构。
实施例一
图1为本发明实施例一提供的一种数据抓取方法的流程图,本实施例可适 用于数据采集的情况,该方法可以由数据抓取装置来执行,具体包括如下步骤:
步骤11、获取待抓取数据的目标网站以及对应所述目标网站的会话登录信 息。
其中,待抓取数据具体可以理解为预先设定好的需要进行抓取的信息数据; 目标网站具体可以理解为待抓取数据所属于的网站;会话登录信息具体可以理 解为一组标识账户和密码的字符串信息,用来登录目标网站。
具体的,待抓取数据的目标网站以及对应所述目标网站的会话登录信息保 存在对应的数据库中,获取待抓取数据的目标网站以及对应所述目标网站的会 话登录信息的方式可以是通过调用函数从对应数据库中获取。
步骤12、采用所述会话登录信息登录所述目标网站,在所述目标网站中启 动数据抓取进程进行数据抓取操作,并生成所述数据抓取操作对应的随机码值。
其中,数据抓取进程具体可以理解为可以实现数据抓取的计算机程序;数 据抓取操作具体可以理解为数据抓取进程中进行数据抓取的行为动作;随机码 值具体可以理解为随机生成的一个数字或字母。
具体的,会话登录信息为账户和密码登录网站时生成的一组字符串信息, 根据此字符串信息可以代替账户和密码进行目标网站的登录操作;随机码值得 生成方式可以是在数据抓取操作后通过调用随机数生成函数生成一个随机数, 此随机数可以是阿拉伯数字,例如1,、2、3……,也可以是通过整数转换将其 转换为英文字母a、b、c……,或者其他形式数据;在登录到所述目标网站后, 启动数据抓取进程进行目标网站中的数据抓取操作,并在每次数据抓取操作完 成后调用随机函数生成所述数据抓取操作对应的随机码值。
步骤13、监测到当前满足抓取中断条件时,中断所述数据抓取操作,并确 定所述随机码值对应的合法行为动作并执行。
其中,抓取中断条件具体可以理解为预先设置的条件,用来判断当前应该 执行数据抓取操作还是执行其他行为动作;抓取中断条件包括:基于所述数据 抓取操作的当前时间及数据抓取中的生成的访问请求次数确定出的影响阈值超 出预设阈值范围;当前时间具体可以理解为计算机执行进程进行数据抓取操作 的当前抓取操作的时刻;访问请求次数具体可以理解为进行数据抓取前向网站 发出去访问请求的累计次数;影响阈值具体可以理解为当前时间和访问请求次 数通过算法确定出的数值;预设阈值范围具体可以理解为预先设定好的范围。 合法行为动作具体可以理解为计算机可执行的不同种类的行为动作;合法行为 动作包括下述至少一种:用户发帖、用户点赞、用户贴文转发、用户评论及好友添加。合法行为动作根据目标网站可以执行的行为确定,当目标网站可以执 行更多种不同行为时,合法行为动作不限于上述一种或几种。
具体的,监测到当前满足抓取中断条件的方式可以是通过判断影响阈值和 预设阈值范围的关系,确定影响阈值不在预设阈值范围;监测到影响阈值不在 预设阈值范围时,当前满足抓取中断条件,中断所述数据抓取操作,根据数据 抓取操作后生成的随机码值确定对应的合法行为动作,执行此合法行为动作。
本发明实施例通过获取待抓取数据的目标网站以及对应所述目标网站的会 话登录信息;采用所述会话登录信息登录所述目标网站,在所述目标网站中启 动数据抓取进程进行数据抓取操作,并生成所述数据抓取操作对应的随机码值; 监测到当前满足抓取中断条件时,中断所述数据抓取操作,并确定所述随机码 值对应的合法行为动作并执行。通过执行随机码值对应的合法行为动作,使数 据抓取过程中随机执行合法行为动作,模拟用户正常访问行为,实现在设置有 数据爬虫程序实时检测并防范的网站上数据的正常采集,降低对公众信息监管 的阻碍,保证采集帐号的活性和数据采集的完整度以及效率。
实施例二
图2为本发明实施例二提供的一种数据抓取方法的流程图。本实施例的技 术方案在上述技术方案的基础上进一步细化,具体主要包括如下步骤:
步骤21、获取所述待抓取数据的各目标网站上注册用于数据抓取的抓取帐 号。
其中,抓取帐号具体可以理解为用于登录各目标网站后抓取数据的账号。
具体的,获取待抓取数据的各目标网站上注册用于数据抓取的抓取帐号的 方式可以是通过将抓取账号保存到数据库,通过调用数据库得到抓取账号。
步骤22、监测到采用所述抓取帐号登录相应的目标网站时,提取所述抓取 帐号对应的会话登录信息并存储于预构建的帐号信息库中。
其中,预构建的帐号信息库具体可以理解为预先建立的数据库,用于保存 会话登录信息。
具体的,抓取帐号登录相应的目标网站时会根据账号和密码生成会话登录 信息,当计算机监测到抓取帐号登录相应的目标网站时,提取所述抓取帐号对 应的会话登录信息,将会话登录信息存储到预构建的账号信息库中,用于数据 抓取时直接登录目标网站。
步骤23、获取待抓取数据的目标网站以及对应所述目标网站的会话登录信 息。
步骤24、采用所述会话登录信息登录所述目标网站,在所述目标网站中启 动数据抓取进程进行数据抓取操作,并生成所述数据抓取操作对应的随机码值。
进一步地,所述数据抓取操作基于预设置的互联网协议执行。
其中,预设置的互联网协议具体可以理解为预先设置好的互联网协议,用 于执行数据抓取操作。
具体的,数据抓取操作基于预设置的互联网协议执行,保证单个数据抓取 操作可以在同一个IP内进行;一个抓取账号终生绑定不超过3个IP地址,保 证了抓取账号不会因为频繁更换IP地址而被误封账号。
步骤25、监测到当前满足抓取中断条件时,中断所述数据抓取操作,并确 定所述随机码值对应的合法行为动作并执行。
进一步地,各所述合法行为动作对应一个随机触发编码关联存储在预构建 的行为触发表中。
其中,随机触发编码具体可以理解为不同合法行为动作对应的一个编码, 例如用户发帖的随机触发编码为1、用户点赞的随机触发编码为2、用户贴文转 发的随机触发编码为3、用户评论的随机触发编码为4、好友添加的随机触发编 码为5等;预构建的行为触发表具体可以理解为预先构建好的数据表,用来存 储合法行为动作和随机触发编码的对应关系。
具体的,将各合法行为动作和对应的随机触发编码以一一对应的形式存储 到行为触发表中。
进一步地,图3提供了一种确定随机码值对应的合法行为动作方法的流程 图,确定所述随机码值对应的合法行为动作并执行具体包括以下步骤:
步骤251、在所述行为触发表中确定与所述随机码值匹配的目标随机触发 编码。
其中,目标随机触发编码具体可以理解为与随机码值匹配的编码。
具体的,确定与所述随机码值匹配的目标随机触发编码的方式可以是根据 生成的随机码值确定对应的目标随机触发编码;例如,当随机码值为1时,对 应的目标触发编码为1。
步骤252、触发所述目标随机触发编码所对应合法行为动作的执行。
具体的,当生成随机码值后,确定匹配的目标随机触发编码,并根据目标 随机触发编码在行为触发表中对应的合法行为动作;例如,生成的随机码值为 2,对应的目标随机触发编码为2,则根据行为触发表可以确定对应的合法行为 动作为用户点赞。
示例性的,图4提供了一种数据抓取整体过程的示例图。种子账号库中保 存了一个或多个账号的账号和账号登录密码信息。当使用种子信息库中的账号 进行应用端界面的账号登录时,生成对应的会话登录信息,即Session,生成 的会话登录信息保存至Session库中供后续数据抓取使用。规则库和目标库中 保存了抓取数据规则及抓取目标。通过调用Session库获得会话登录信息,调 用规则库和目标库获得抓取规则和目标,获得这些数据后才能开始对目标数据 进行采集并将采集获取的数据保存至数据库中。正常调用程序时,通过调用主 线程向应用端界面发送访问请求,访问应用端界面。在RUN程序不断按照规则 和目标进行正常调用的过程中,饲养线程会随机插入RUN的正常调用进程。饲 养线程触发后,饲养线程中包含的多个合法行为动作也进行随机调用,实时反 应到应用界面的调用请求中,保证请求的无规则性。
本发明实施例通过获取待抓取数据的目标网站以及对应所述目标网站的会 话登录信息;采用所述会话登录信息登录所述目标网站,在所述目标网站中启 动数据抓取进程进行数据抓取操作,并生成所述数据抓取操作对应的随机码值; 监测到当前满足抓取中断条件时,中断所述数据抓取操作,并确定所述随机码 值对应的合法行为动作并执行。通过执行随机码值对应的合法行为动作,使数 据抓取过程中随机执行合法行为动作,模拟用户正常访问行为,实现在设置有 数据爬虫程序实时检测并防范的网站上数据的正常采集,降低对公众信息监管 的阻碍,保证采集帐号的活性和数据采集的完整度以及效率。
实施例三
图5为本发明实施例三提供的一种数据抓取装置的结构图,该装置包括: 获取模块31、生成模块32和执行模块33。
其中,获取模块31,用于获取待抓取数据的目标网站以及对应所述目标网 站的会话登录信息;生成模块32,用于采用所述会话登录信息登录所述目标网 站,在所述目标网站中启动数据抓取进程进行数据抓取操作,并生成所述数据 抓取操作对应的随机码值;执行模块33,用于监测到当前满足抓取中断条件时, 中断所述数据抓取操作,并确定所述随机码值对应的合法行为动作并执行。
本发明实施例通过获取待抓取数据的目标网站以及对应所述目标网站的会 话登录信息;采用所述会话登录信息登录所述目标网站,在所述目标网站中启 动数据抓取进程进行数据抓取操作,并生成所述数据抓取操作对应的随机码值; 监测到当前满足抓取中断条件时,中断所述数据抓取操作,并确定所述随机码 值对应的合法行为动作并执行。通过执行随机码值对应的合法行为动作,使数 据抓取过程中随机执行合法行为动作,模拟用户正常访问行为,实现在设置有 数据爬虫程序实时检测并防范的网站上数据的正常采集,降低对公众信息监管 的阻碍,保证采集帐号的活性和数据采集的完整度以及效率。
进一步地,抓取中断条件包括:基于所述数据抓取操作的当前时间及数据 抓取中的生成的访问请求次数确定出的影响阈值超出预设阈值范围。
进一步地,所述合法行为动作包括下述至少一种:用户发帖、用户点赞、 用户贴文转发、用户评论及好友添加;各所述合法行为动作对应一个随机触发 编码关联存储在预构建的行为触发表中。
进一步地,执行模块33包括:
确定单元,用于在所述行为触发表中确定与所述随机码值匹配的目标随机 触发编码。
触发单元,用于触发所述目标随机触发编码所对应合法行为动作的执行。
进一步地,所述数据抓取操作基于预设置的互联网协议执行。
进一步地,该装置还包括:
注册模块,用于通过待抓取数据的各目标网站上注册用于数据抓取的抓取 帐号。
存储模块,用于监测到采用所述抓取帐号登录相应的目标网站时,提取所 述抓取帐号对应的会话登录信息并存储于预构建的帐号信息库中。
本发明实施例所提供的数据抓取装置可执行本发明任意实施例所提供的数 据抓取方法,具备执行方法相应的功能模块和有益效果。
实施例四
图6为本发明实施例四提供的一种设备的结构示意图,如图6所示,该设 备包括处理器40、存储器41、输入装置42和输出装置43;设备中处理器40 的数量可以是一个或多个,图6中以一个处理器40为例;设备中的处理器40、 存储器41、输入装置42和输出装置43可以通过总线或其他方式连接,图6中 以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可 执行程序以及模块,如本发明实施例中的数据抓取方法对应的程序指令/模块 (例如,数据抓取装置中的获取模块31、生成模块32和执行模块33)。处理器 40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行设备的 各种功能应用以及数据处理,即实现上述的数据抓取方法。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储 操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用 所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括 非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固 态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设 置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括 但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置42可用于接收输入的数字或字符信息,以及产生与的用户设置以 及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算 机可执行指令在由计算机处理器执行时用于执行一种数据抓取方法,该方法包 括:
获取待抓取数据的目标网站以及对应所述目标网站的会话登录信息;
采用所述会话登录信息登录所述目标网站,在所述目标网站中启动数据抓 取进程进行数据抓取操作,并生成所述数据抓取操作对应的随机码值;
监测到当前满足抓取中断条件时,中断所述数据抓取操作,并确定所述随 机码值对应的合法行为动作并执行。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计 算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所 提供的数据抓取方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到, 本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很 多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上 或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机 软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、 闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以 是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述数据抓取装置的实施例中,所包括的各个单元和模块 只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应 的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用 于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员 会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进 行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽 然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以 上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例, 而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种数据抓取方法,其特征在于,包括:
获取待抓取数据的目标网站以及对应所述目标网站的会话登录信息;
采用所述会话登录信息登录所述目标网站,在所述目标网站中启动数据抓取进程进行数据抓取操作,并生成所述数据抓取操作对应的随机码值;其中,所述随机码值的生成方式为在所述数据抓取操作后,通过调用随机数生成函数生成一个随机数;
监测到当前满足抓取中断条件时,中断所述数据抓取操作,并确定所述随机码值对应的合法行为动作并执行;
其中,所述合法行为动作包括下述至少一种:用户发帖、用户点赞、用户贴文转发、用户评论及好友添加;
各所述合法行为动作对应一个随机触发编码关联存储在预构建的行为触发表中。
2.根据权利要求1所述的方法,其特征在于,抓取中断条件包括:
基于所述数据抓取操作的当前时间及数据抓取中的生成的访问请求次数确定出的影响阈值超出预设阈值范围。
3.根据权利要求1所述的方法,其特征在于,确定所述随机码值对应的合法行为动作并执行,包括:
在所述行为触发表中确定与所述随机码值匹配的目标随机触发编码;
触发所述目标随机触发编码所对应合法行为动作的执行。
4.根据权利要求1所述的方法,其特征在于,所述数据抓取操作基于预设置的互联网协议执行。
5.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
获取所述待抓取数据的各目标网站上注册用于数据抓取的抓取帐号;
监测到采用所述抓取帐号登录相应的目标网站时,提取所述抓取帐号对应的会话登录信息并存储于预构建的帐号信息库中。
6.一种数据抓取装置,其特征在于,包括:
获取模块,用于获取待抓取数据的目标网站以及对应所述目标网站的会话登录信息;
生成模块,用于采用所述会话登录信息登录所述目标网站,在所述目标网站中启动数据抓取进程进行数据抓取操作,并生成所述数据抓取操作对应的随机码值;其中,所述随机码值的生成方式为在所述数据抓取操作后,通过调用随机数生成函数生成一个随机数;
执行模块,用于监测到当前满足抓取中断条件时,中断所述数据抓取操作,并确定所述随机码值对应的合法行为动作并执行;其中,所述合法行为动作包括下述至少一种:用户发帖、用户点赞、用户贴文转发、用户评论及好友添加;各所述合法行为动作对应一个随机触发编码关联存储在预构建的行为触发表中。
7.根据权利要求6所述的装置,其特征在于,还包括:
注册模块,用于通过待抓取数据的各目标网站上注册用于数据抓取的抓取帐号;
存储模块,用于监测到采用所述抓取帐号登录相应的目标网站时,提取所述抓取帐号对应的会话登录信息并存储于预构建的帐号信息库中。
8.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的一种数据抓取方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的一种数据抓取方法。
CN201911359479.7A 2019-12-25 2019-12-25 一种数据抓取方法、装置、设备及存储介质 Active CN111125489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911359479.7A CN111125489B (zh) 2019-12-25 2019-12-25 一种数据抓取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911359479.7A CN111125489B (zh) 2019-12-25 2019-12-25 一种数据抓取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111125489A CN111125489A (zh) 2020-05-08
CN111125489B true CN111125489B (zh) 2023-05-26

Family

ID=70502453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911359479.7A Active CN111125489B (zh) 2019-12-25 2019-12-25 一种数据抓取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111125489B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103618649A (zh) * 2013-12-03 2014-03-05 北京人民在线网络有限公司 网站数据采集方法及装置
CN106296429A (zh) * 2016-08-31 2017-01-04 哈尔滨工业大学(威海) 一种用于社交网站的智能测试方法
CN108429721A (zh) * 2017-02-15 2018-08-21 腾讯科技(深圳)有限公司 一种网络爬虫的识别方法及装置
CN109413050A (zh) * 2018-10-05 2019-03-01 国网湖南省电力有限公司 一种访问速率自适应的互联网漏洞信息采集方法及系统
WO2019113508A1 (en) * 2017-12-07 2019-06-13 Fractal Industries, Inc. A system and methods for multi-language abstract model creation for digital environment simulations

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013140410A1 (en) * 2012-03-22 2013-09-26 Ben-Gurion University Of The Negev Research & Development Authority Method for detecting spammers and fake profiles in social networks
US20140330548A1 (en) * 2013-05-05 2014-11-06 International Business Machines Corporation Method and system for simulation of online social network
US9614869B2 (en) * 2013-11-23 2017-04-04 Universidade da Coruña—OTRI System and server for detecting web page changes
CN105512193A (zh) * 2015-11-26 2016-04-20 上海携程商务有限公司 基于浏览器扩展的数据采集系统及方法
CN105589953A (zh) * 2015-12-21 2016-05-18 南通大学 一种突发公共卫生事件互联网文本抽取方法
CN106210050A (zh) * 2016-07-12 2016-12-07 安徽天达网络科技有限公司 一种智能反屏蔽网络爬虫系统
CN106126747A (zh) * 2016-07-14 2016-11-16 北京邮电大学 基于爬虫的数据获取方法及装置
CN106776983B (zh) * 2016-12-06 2019-03-26 深圳市小满科技有限公司 搜索引擎优化装置和方法
CN106844774A (zh) * 2017-03-01 2017-06-13 苏州朗动网络科技有限公司 一种基于c#抓取互联网公开数据的爬虫系统及抓取方法
CN108256106B (zh) * 2018-02-06 2021-11-02 深圳鼎智通讯股份有限公司 一种模拟访问网站适配器系统
CN110209907A (zh) * 2018-02-13 2019-09-06 北京京东尚科信息技术有限公司 信息处理装置、方法以及计算机可读存储介质
CN108921193B (zh) * 2018-05-28 2023-04-18 平安科技(深圳)有限公司 图片录入方法、服务器及计算机存储介质
CN110347902A (zh) * 2019-07-17 2019-10-18 北京奇艺世纪科技有限公司 一种数据获取方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103618649A (zh) * 2013-12-03 2014-03-05 北京人民在线网络有限公司 网站数据采集方法及装置
CN106296429A (zh) * 2016-08-31 2017-01-04 哈尔滨工业大学(威海) 一种用于社交网站的智能测试方法
CN108429721A (zh) * 2017-02-15 2018-08-21 腾讯科技(深圳)有限公司 一种网络爬虫的识别方法及装置
WO2019113508A1 (en) * 2017-12-07 2019-06-13 Fractal Industries, Inc. A system and methods for multi-language abstract model creation for digital environment simulations
CN109413050A (zh) * 2018-10-05 2019-03-01 国网湖南省电力有限公司 一种访问速率自适应的互联网漏洞信息采集方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jing Wang ; Yuchun Guo ."Scrapy-Based Crawling and User-Behavior Characteristics Analysis on Taobao".《2012 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery》.2012,全文. *

Also Published As

Publication number Publication date
CN111125489A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
Niakanlahiji et al. Phishmon: A machine learning framework for detecting phishing webpages
Marchal et al. Know your phish: Novel techniques for detecting phishing sites and their targets
KR101689299B1 (ko) 보안이벤트 자동 검증 방법 및 장치
Cao et al. Machine learning to detect anomalies in web log analysis
US20200153865A1 (en) Sensor based rules for responding to malicious activity
Goseva-Popstojanova et al. Characterization and classification of malicious Web traffic
Marchal et al. Proactive discovery of phishing related domain names
CN104509034A (zh) 模式合并以识别恶意行为
CN108833185B (zh) 一种网络攻击路线还原方法及系统
CN102833240A (zh) 一种恶意代码捕获方法及系统
CN1771709A (zh) 网络攻击特征标记的产生
US9942255B1 (en) Method and system for detecting abusive behavior in hosted services
CN103379099A (zh) 恶意攻击识别方法及系统
US11516235B2 (en) System and method for detecting bots based on anomaly detection of JavaScript or mobile app profile information
Krishnaveni et al. Ensemble approach for network threat detection and classification on cloud computing
CN111726342B (zh) 一种提升蜜罐系统告警输出精准性的方法及系统
CN112953917B (zh) 一种网络攻击源识别方法、装置、计算机设备及存储介质
CN107547490A (zh) 一种扫描器识别方法、装置及系统
CN107800686A (zh) 一种钓鱼网站识别方法和装置
CN114465741B (zh) 一种异常检测方法、装置、计算机设备及存储介质
CN109474601A (zh) 一种基于行为识别的扫描类攻击处置方法
CN114257403B (zh) 误报检测方法、设备及可读存储介质
JP6756224B2 (ja) ネットワーク監視装置、ネットワーク監視プログラム及びネットワーク監視方法
CN104219219B (zh) 一种数据处理的方法、服务器及系统
CN111125489B (zh) 一种数据抓取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant