CN111859235A - 一种网页数据采集方法、装置、设备和计算机存储介质 - Google Patents

一种网页数据采集方法、装置、设备和计算机存储介质 Download PDF

Info

Publication number
CN111859235A
CN111859235A CN202010515028.4A CN202010515028A CN111859235A CN 111859235 A CN111859235 A CN 111859235A CN 202010515028 A CN202010515028 A CN 202010515028A CN 111859235 A CN111859235 A CN 111859235A
Authority
CN
China
Prior art keywords
webpage
configuration file
script
data
operation behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010515028.4A
Other languages
English (en)
Inventor
郑霖
林育民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ruishu Information Technology Shanghai Co ltd
Original Assignee
Ruishu Information Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ruishu Information Technology Shanghai Co ltd filed Critical Ruishu Information Technology Shanghai Co ltd
Priority to CN202010515028.4A priority Critical patent/CN111859235A/zh
Publication of CN111859235A publication Critical patent/CN111859235A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供了一种网页数据采集方法、装置、设备和计算机存储介质,其中方法包括:嵌入网页中的网页脚本在运行后,读取服务器端针对所述网页下发的配置文件,所述配置文件包括要扫描的网页元素以及要采集的操作行为数据的类型;依据所述配置文件,扫描所述网页元素并采集所述网页元素的所述类型的操作行为数据,并将扫描结果和采集结果上传至服务器端。通过本申请能够降低开发人员的人力成本,提高灵活性。

Description

一种网页数据采集方法、装置、设备和计算机存储介质
【技术领域】
本申请涉及计算机安全技术领域,特别涉及一种网页数据采集方法、装置、设备和计算机存储介质。
【背景技术】
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就被认为是现有技术。
随着网络安全业务的发展,网络安全管理常常需要在各种应用网站上进行数据采集以用于判别诸如批量注册登录、薅羊毛等自动化恶意访问行为。对此类数据采集通常需要采用在网页上“埋点”采集的方式,即针对每一个具体页面的关键界面元素附近编写入新的代码来采集相关数据,但这种埋点技术存在以下缺点:
1)由于每个页面元素及业务功能不同,因此在进行人工埋点时代码编写及维护代价高昂;
2)一旦埋入代码后无法随时根据需要进行采集行为的调整,而需要等待代码发布新版本时才能调整更新,灵活性差。
【发明内容】
有鉴于此,本申请提供了一种网页数据采集方法、装置、设备和计算机存储介质,以便于解决上述缺点中的至少一种。
具体技术方案如下:
第一方面,本申请提供了一种网页数据采集方法,该方法包括:
嵌入网页中的网页脚本在运行后,读取服务器端针对所述网页下发的配置文件,所述配置文件包括要扫描的网页元素以及要采集的操作行为数据的类型;
依据所述配置文件,扫描所述网页元素并采集所述网页元素的所述类型的操作行为数据,并将扫描结果和采集结果上传至服务器端。
根据本申请一优选实施方式,所述网页脚本采用脚本<Script>标签的形式嵌入网页中。
根据本申请一优选实施方式,所述配置文件还包括:要检测的浏览器运行环境数据的类型;
该方法还包括:
所述网页脚本依据所述配置文件检测浏览器运行环境数据,并将检测结果上传至服务器端。
根据本申请一优选实施方式,所述配置文件还包括:所述采集和上传过程中所采用的算法。
根据本申请一优选实施方式,该方法还包括:
所述网页脚本重新读取所述服务器端下发的配置文件,该配置文件为所述服务器端依据所述网页脚本上传的结果调整后的配置文件。
第二方面,本申请提供了一种网页数据采集方法,该方法包括:
服务器端接收嵌入网页中的网页脚本上传的扫描结果和采集结果,并通过管理平台展示给管理员;
其中所述扫描结果和采集结果为所述网页脚本读取服务器端针对所述网页下发的配置文件后,所述配置文件包括要扫描的网页元素以及要采集的操作行为数据的类型,依据配置文件扫描所述网页元素并采集所述网页元素的所述类型的操作行为数据后得到的。
根据本申请一优选实施方式,所述配置文件还包括:要检测的浏览器运行环境数据的类型;
该方法还包括:
所述服务器端接收所述网页脚本依据所述配置文件检测浏览器运行环境数据后上传的检测结果。
根据本申请一优选实施方式,所述配置文件还包括:所述采集和上传过程中所采用的算法。
根据本申请一优选实施方式,该方法还包括:
所述服务器端依据所述网页脚本上传的结果,调整针对所述网页下发的配置文件。
根据本申请一优选实施方式,所述服务器端依据所述网页脚本上传的结果,调整针对所述网页下发的配置文件包括:
依据所述网页脚本上传的扫描结果,若扫描到预设的关键网页元素,则在配置文件中针对关键网页元素设置要采集的操作行为数据的类型;或者,
依据所述网页脚本上传的操作行为数据,针对访问频率或访问量大于预设阈值的页面和网页元素,调整要采集的操作行为数据的类型;或者,
依据所述网页脚本上传的操作行为数据,对网页上的操作行为时间序列进行分析,针对分析得到的异常操作行为的网页,调整要扫描的网页元素和/或要采集的操作行为数据的类型。
第三方面,本申请提供了一种网页数据采集装置,设置于嵌入网页中的网页脚本,该装置包括:
配置读取模块,用于所述网页脚本在运行后,读取服务器端针对所述网页下发的配置文件,所述配置文件包括要扫描的网页元素以及要采集的操作行为数据的类型;
数据处理模块,用于依据所述配置文件,扫描所述网页元素并采集所述网页元素的所述类型的操作行为数据;
数据交互模块,用于将所述数据处理模块的扫描结果和采集结果上传至服务器端。
根据本申请一优选实施方式,所述配置文件还包括:要检测的浏览器运行环境数据的类型;
所述数据处理模块,还用于依据所述配置文件检测浏览器运行环境数据;
所述数据交互模块,还用于将所述数据处理模块的检测结果上传至服务器端。
根据本申请一优选实施方式,所述配置文件还包括:所述采集和上传过程中所采用的算法。
第四方面,本申请还提供了一种网页数据采集装置,设置于服务器端,该装置包括:
数据交互模块,用于针对网页下发配置文件,所述配置文件包括要扫描的网页元素以及要采集的操作行为数据的类型;接收嵌入网页中的网页脚本上传的扫描结果和采集结果;
管理平台模块,用于将所述扫描结果和采集结果展示给管理员;
其中所述扫描结果和采集结果为所述网页脚本读取所述配置文件后,依据配置文件扫描所述网页元素并采集所述网页元素的所述类型的操作行为数据后得到的。
根据本申请一优选实施方式,所述配置文件还包括:要检测的浏览器运行环境数据的类型;
所述数据交互模块,还用于接收所述网页脚本依据所述配置文件检测浏览器运行环境数据后上传的检测结果。
根据本申请一优选实施方式,所述配置文件还包括:所述采集和上传过程中所采用的算法。
根据本申请一优选实施方式,该装置还包括:
配置调整模块,用于依据所述网页脚本上传的结果,调整针对所述网页下发的配置文件。
根据本申请一优选实施方式,所述配置调整模块具体用于:
依据所述网页脚本上传的扫描结果,若扫描到预设的关键网页元素,则在配置文件中针对关键网页元素设置要采集的操作行为数据的类型;或者,
依据所述网页脚本上传的操作行为数据,针对访问频率或访问量大于预设阈值的页面和网页元素,调整要采集的操作行为数据的类型;或者,
依据所述网页脚本上传的操作行为数据,对网页上的操作行为时间序列进行分析,针对分析得到的异常操作行为的网页,调整要扫描的网页元素和/或要采集的操作行为数据的类型。
第五方面,本申请提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上中任一项所述的方法。
第六方面,本申请提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上中任一项所述的方法。
由以上技术方案可以看出,通过本申请提供的技术方案,针对所有的网页仅需要嵌入JS脚本即可,无需针对具体的网页元素进行埋点,大大降低了人力成本。并且通过下发配置文件的方式能够灵活对要扫描的网页元素和要采集的操作行为数据的类型进行配置,提高了灵活性。
【附图说明】
图1示出了可以应用本发明实施例的网页数据采集方法或装置的示例性系统架构;
图2为本申请实施例提供的方法流程图;
图3为本申请实施例提供的一种装置结构图;
图4为本申请实施例提供的另一种装置结构图;
图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器的框图。
【具体实施方式】
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本申请进行详细描述。
图1示出了可以应用本发明实施例的网页数据采集方法或装置的示例性系统架构。如图1中所示,该系统架构可以包括浏览器(也可以是客户端)和服务器端。其中浏览器安装并运行于终端设备,浏览器能够对网页进行渲染并展现给用户的客户端。浏览器可以通过网络与服务器端进行交互。其中网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备可以是能够安装并运行客户端的各种电子设备。包括但不限于智能手机、平板电脑、智能电视、PC等等。
本申请中,浏览器可以向服务器端请求网页内容,并对网页内容进行渲染。服务器端在发送给浏览器的网页中可以嵌入网页脚本,例如js(javascript) 脚本,可以体现为JS代码。网页脚本能够在终端设备中被执行即运行。
本申请所提供的网页数据采集装置可以部分实现于网页脚本,可以部分实现于服务器端。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。服务器端可以是单一服务器,也可以是多个服务器构成的服务器群组。
针对现有技术中针对具体网页元素进行“埋点”的方式所产生的人工成本高且灵活性差的问题,本申请的核心思想在于,在网页中嵌入JS脚本并将要扫描的网页元素以及要采集的操作行为数据的类型写入配置文件,嵌入网页中的JS脚本依据配置文件扫描网页元素并采集网页元素的操作行为数据,并将扫描结果和采集结果上传至服务器端。
本申请所涉及的页面,也可以称为Web页面,可以是基于超文本标记语言(HyperText Markup Language,HTML)编写的网页(Web Page),即HTML 页面,或者还可以是基于HTML和Java语言编写的网页,即Java服务器页面(Java Server Page,JSP),或者还可以为其他语言编写的网页,本实施例对此不进行特别限定。
页面可以包括由一个或者多个页面标签例如,HTML标签、JSP标签等,定义的一个显示区块,称为页面元素,例如,文字、图片、超链接、控件、输入框、下拉框等,本实施例对此不进行特别限定。
下面结合具体实施例对本申请提供的方法进行详细描述。
图2为本申请实施例提供的方法流程图,如图2中所示,该方法可以包括以下步骤:
在201中,嵌入网页中的JS脚本在运行后,读取服务器端针对所述网页下发的配置文件。
本申请实施例中涉及的JS脚本可以采用<Script>标签的形式嵌入网页中。作为其中一种实现方式,开发人员可以预先开发好JS脚本,JS脚本可以采用一段或一行JS代码的形式嵌入采用本申请采集机制的网页中。
该JS脚本随着网页在浏览器中被加载并自动运行,该JS脚本具备以下功能并执行以下操作:
1)扫描网页元素;
2)采集网页元素的操作行为数据;
3)检测浏览器的运行环境数据;
4)将扫描结果、采集结果、检测结果等上传至服务器端。
然而,JS脚本具体如何执行上述操作,例如扫描哪些网页元素、采集哪些网页元素的哪些类型的操作行为数据、检测哪些类型的运行环境数据、在采集和上传过程中采用哪些算法等等,在本申请实施例中,JS脚本可以通过读取服务器端针对网页下发的配置文件来获取。具体地,JS脚本在运行后可以实时从服务器端获取针对该网页下发的配置文件。
所述配置文件包括要扫描的网页元素以及要采集的操作行为数据的类型,还可以包括要检测的浏览器运行环境数据的类型、采集和上传过程中所采用的算法等信息。
也就是说,针对一种网页,仅需要在该网页中嵌入一个JS脚本并设置配置文件即可,而不必在网页中针对具体的网页元素手工进行“埋点”,显然大大降低了手工编码和维护的成本,提高了开发人员的效率。
在202中,JS脚本依据配置文件,扫描网页元素并采集网页元素的操作行为数据。
具体地,JS脚本依据配置文件中包含的要扫描的网页元素,进行网页元素的扫描。依据配置文件中包含的要采集的操作行为数据的类型,对网页元素的该类型的操作行为数据进行采集。
还可以依据配置文件中包含的浏览器运行环境数据的类型,检测该类型对应的浏览器运行环境数据,例如浏览器型号、指纹特征、传感器状态等。
若配置文件中还包含采集过程中采用的算法,则在采集过程中按照该算法进行操作行为数据的采集。
在203中,JS脚本将扫描结果和采集结果上传至服务器端。
若JS脚本还进行了浏览器运行环境数据的检测,将进一步将检测结果上传至服务器端。
另外,如上所述地,配置文件中还可以包含上传过程中采用的算法,例如数据加密算法等,则可以按照配置文件中包含的该算法进行结果的上传,例如将结果数据按照配置文件指定的算法进行加密后上传至服务器端。
在204中,服务器端接收JS脚本上传的扫描结果和采集结果后,通过管理平台展示给管理员。
若JS脚本还上传有检测结果等,则服务器端也可以通过管理平台展示给管理员。例如,管理平台可以将同一页面的扫描结果、采集结果、检测结果等进行汇总统计,然后通过管理平台展示给管理员。这样管理员能够在管理平台上清楚地了解各网页上的网页元素、操作行为数据、浏览器运行环境等数据。
在205中,服务器端可以依据JS脚本上传的结果,调整针对网页下发的配置文件。
作为一种实现方式,服务器端的管理平台在将JS脚本上传的结果进行汇总统计并展示给管理员后,可以由管理员依据准则或经验对配置文件进行调整,管理平台获取管理员调整后的配置文件,由服务器端存储针对该网页的调整后的配置文件。再有该网页的JS脚本请求配置文件时,将调整后的配置文件下发给JS脚本。
除了上述由管理员人为调整配置文件的方式之外,作为一种优选的实施方式,可以由服务器端的网页安全感知模型自动感知威胁并调整配置文件。其中网页安全感知模型可以执行但不限于以下调整方式:
方式一、依据JS脚本上传的扫描结果,若扫描到预设的关键网页元素,则在配置文件中针对关键网页元素设置要采集的操作行为数据的类型。
例如,网页安全感知模型根据网页中网页元素扫描结果中是否包含登陆密码输入框、金额输入框等关键网页元素,即时提醒管理员,由管理员设置针对该关键网页元素要采集的操作行为数据的类型。或者,由网页安全感知模型依据预设的准则,自动生成针对该关键网页元素要采集的操作行为数据的类型。将生成的针对该关键网页元素要采集的操作行为数据的类型添加至针对该网页的配置文件中。
方式二、依据JS脚本上传的操作行为数据,针对访问频率或访问量大于预设阈值的页面和网页元素,调整要采集的操作行为数据的类型。
例如,对于某页面或网页元素,网页安全感知模型自动检测出近一段时间内访问频率或访问量大于预设阈值,出现了突增,则说明需要针对该页面或网页元素加大数据采集的力度。例如增加要采集的操作行为数据的类型,或者更换要采集的操作行为数据的类型,等等。以使得针对该页面或网页元素的监控更加合理。可以由网页安全感知模型提醒管理员来进行配置文件的调整,也可以由网页安全感知模型依据预设的准则自动调整。
方式三、依据JS脚本上传的操作行为数据,对网页上的操作行为时间序列进行分析,针对分析得到的异常操作行为的网页,调整要扫描的网页元素和/或要采集的操作行为数据的类型。
网页安全感知模型能够对网页上的操作行为数据按照时间进行排序,构成时间序列,该时间序列实际上对应的是网页上的访问轨迹。例如一网页上的操作行为数据构成的时间序列为“登录-浏览-点击添加购物车-付款”。对同一网页上的时间序列进行统计和分析后,可以通过隐马尔可夫模型发现与大多数轨迹不同的异常访问轨迹。例如,电商的某网页上的操作行为数据构成的时间序列大多数为“登录-浏览-点击添加购物车-付款”或者“浏览-点击添加购物车-登录-付款”。而通过隐马尔科夫模型发现异常访问轨迹对应的时间序列为“登录-领红包-访问特定商品”。那么可以针对该异常访问轨迹对应的时间序列,来调整要扫描的网页元素和/或要采集的操作行为数据的类型。
以上仅为列举的几种调整方式,但本申请并不限于以上几种方式,其他依据JS脚本上传的结果对配置文件进行调整的方式也同样在本申请保护范围内。
以上是对本申请所提供的方法进行的详细描述,下面结合实施例对本申请提供的装置进行详细描述。
图3为本申请实施例提供的一种装置结构图,该装置设置于网页脚本,即通过网页脚本实现。如图3所述,该装置包括:配置读取模块01、数据处理模块02和数据交互模块03。其中各组成模块的主要功能如下:
配置读取模块01负责上述网页脚本在运行后,读取服务器端针对网页下发的配置文件,配置文件包括要扫描的网页元素以及要采集的操作行为数据的类型。
本申请实施例中涉及的网页脚本可以采用<Script>标签的形式嵌入网页中。作为其中一种实现方式,开发人员可以预先开发好网页脚本,网页脚本可以采用一段或一行JS代码的形式嵌入采用本申请采集机制的网页中。
数据处理模块02负责依据配置文件,扫描网页元素并采集网页元素的类型的操作行为数据;
数据交互模块03负责将数据处理模块的扫描结果和采集结果上传至服务器端。
作为一种可选的实施方式,数据处理模块02还可以依据配置文件检测浏览器运行环境数据。相应地,数据交互模块03将数据处理模块02的检测结果上传至服务器端。
作为另一种可选的实施方式,配置文件还可以包括:采集和上传过程中所采用的算法。相应地,上述数据处理模块02按照配置文件中的算法进行采集处理,或者数据交互模块03按照配置文件中的算法进行上传处理。
图4为本申请实施例提供的另一种装置结构图,该装置设置于服务器端,如图4所示,该装置可以包括:数据交互模块11和管理平台模块12,还可以包括配置调整模块13。其中各组成单元的主要功能如下:
数据交互模块11负责针对网页下发配置文件,配置文件包括要扫描的网页元素以及要采集的操作行为数据的类型;接收嵌入网页中的网页脚本上传的扫描结果和采集结果。
管理平台模块12负责将扫描结果和采集结果展示给管理员。其中上述扫描结果和采集结果为网页脚本读取配置文件后,依据配置文件扫描网页元素并采集网页元素的类型的操作行为数据后得到的。
作为一种可选的实施方式,上述配置文件还包括:要检测的浏览器运行环境数据的类型。相应地,数据交互模块11接收网页脚本依据配置文件检测浏览器运行环境数据后上传的检测结果。
作为一种可选的实施方式,上述配置文件还可以包括:采集和上传过程中所采用的算法。
配置调整模块13负责依据网页脚本上传的结果,调整针对网页下发的配置文件。
具体地,配置调整模块13可以采用但不限于以下方式:
方式一、依据网页脚本上传的扫描结果,若扫描到预设的关键网页元素,则在配置文件中针对关键网页元素设置要采集的操作行为数据的类型。
方式二、依据网页脚本上传的操作行为数据,针对访问频率或访问量大于预设阈值的页面和网页元素,调整要采集的操作行为数据的类型。
方式三、依据网页脚本上传的操作行为数据,对网页上的操作行为时间序列进行分析,针对分析得到的异常操作行为的网页,调整要扫描的网页元素和/或要采集的操作行为数据的类型。
图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器的框图。图5显示的计算机系统/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理单元 016,系统存储器028,连接不同系统组件(包括系统存储器028和处理单元016) 的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构 (ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012 可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图中未显示,通常称为“硬盘驱动器”)。尽管图中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统/服务器012 交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器020通过总线018 与计算机系统/服务器012的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元016通过运行存储在系统存储器028中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的方法流程。
上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如,被上述一个或多个处理器执行本发明实施例所提供的方法流程。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如 Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网 (LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
由以上描述可以看出,本申请提供的方法、装置、设备和计算机存储介质可以具备以下优点:
1)本申请中针对所有的网页仅需要嵌入JS脚本即可,无需针对具体的网页元素进行埋点,大大降低了人力成本。
2)本申请通过下发配置文件的方式能够灵活对要扫描的网页元素和要采集的操作行为数据的类型进行配置,提高了灵活性。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (20)

1.一种网页数据采集方法,其特征在于,该方法包括:
嵌入网页中的网页脚本在运行后,读取服务器端针对所述网页下发的配置文件,所述配置文件包括要扫描的网页元素以及要采集的操作行为数据的类型;
依据所述配置文件,扫描所述网页元素并采集所述网页元素的所述类型的操作行为数据,并将扫描结果和采集结果上传至服务器端。
2.根据权利要求1所述的方法,其特征在于,所述网页脚本采用脚本<Script>标签的形式嵌入网页中。
3.根据权利要求1所述的方法,其特征在于,所述配置文件还包括:要检测的浏览器运行环境数据的类型;
该方法还包括:
所述网页脚本依据所述配置文件检测浏览器运行环境数据,并将检测结果上传至服务器端。
4.根据权利要求1所述的方法,其特征在于,所述配置文件还包括:所述采集和上传过程中所采用的算法。
5.根据权利要求1至4任一项所述的方法,其特征在于,该方法还包括:
所述网页脚本重新读取所述服务器端下发的配置文件,该配置文件为所述服务器端依据所述网页脚本上传的结果调整后的配置文件。
6.一种网页数据采集方法,其特征在于,该方法包括:
服务器端接收嵌入网页中的网页脚本上传的扫描结果和采集结果,并通过管理平台展示给管理员;
其中所述扫描结果和采集结果为所述网页脚本读取服务器端针对所述网页下发的配置文件后,所述配置文件包括要扫描的网页元素以及要采集的操作行为数据的类型,依据配置文件扫描所述网页元素并采集所述网页元素的所述类型的操作行为数据后得到的。
7.根据权利要求6所述的方法,其特征在于,所述配置文件还包括:要检测的浏览器运行环境数据的类型;
该方法还包括:
所述服务器端接收所述网页脚本依据所述配置文件检测浏览器运行环境数据后上传的检测结果。
8.根据权利要求6所述的方法,其特征在于,所述配置文件还包括:所述采集和上传过程中所采用的算法。
9.根据权利要求6至8任一项所述的方法,其特征在于,该方法还包括:
所述服务器端依据所述网页脚本上传的结果,调整针对所述网页下发的配置文件。
10.根据权利要求9所述的方法,其特征在于,所述服务器端依据所述网页脚本上传的结果,调整针对所述网页下发的配置文件包括:
依据所述网页脚本上传的扫描结果,若扫描到预设的关键网页元素,则在配置文件中针对关键网页元素设置要采集的操作行为数据的类型;或者,
依据所述网页脚本上传的操作行为数据,针对访问频率或访问量大于预设阈值的页面和网页元素,调整要采集的操作行为数据的类型;或者,
依据所述网页脚本上传的操作行为数据,对网页上的操作行为时间序列进行分析,针对分析得到的异常操作行为的网页,调整要扫描的网页元素和/或要采集的操作行为数据的类型。
11.一种网页数据采集装置,其特征在于,设置于嵌入网页中的网页脚本,该装置包括:
配置读取模块,用于所述网页脚本在运行后,读取服务器端针对所述网页下发的配置文件,所述配置文件包括要扫描的网页元素以及要采集的操作行为数据的类型;
数据处理模块,用于依据所述配置文件,扫描所述网页元素并采集所述网页元素的所述类型的操作行为数据;
数据交互模块,用于将所述数据处理模块的扫描结果和采集结果上传至服务器端。
12.根据权利要求11所述的装置,其特征在于,所述配置文件还包括:要检测的浏览器运行环境数据的类型;
所述数据处理模块,还用于依据所述配置文件检测浏览器运行环境数据;
所述数据交互模块,还用于将所述数据处理模块的检测结果上传至服务器端。
13.根据权利要求11所述的装置,其特征在于,所述配置文件还包括:所述采集和上传过程中所采用的算法。
14.一种网页数据采集装置,设置于服务器端,其特征在于,该装置包括:
数据交互模块,用于针对网页下发配置文件,所述配置文件包括要扫描的网页元素以及要采集的操作行为数据的类型;接收嵌入网页中的网页脚本上传的扫描结果和采集结果;
管理平台模块,用于将所述扫描结果和采集结果展示给管理员;
其中所述扫描结果和采集结果为所述网页脚本读取所述配置文件后,依据配置文件扫描所述网页元素并采集所述网页元素的所述类型的操作行为数据后得到的。
15.根据权利要求14所述的装置,其特征在于,所述配置文件还包括:要检测的浏览器运行环境数据的类型;
所述数据交互模块,还用于接收所述网页脚本依据所述配置文件检测浏览器运行环境数据后上传的检测结果。
16.根据权利要求14所述的装置,其特征在于,所述配置文件还包括:所述采集和上传过程中所采用的算法。
17.根据权利要求14至16任一项所述的装置,其特征在于,该装置还包括:
配置调整模块,用于依据所述网页脚本上传的结果,调整针对所述网页下发的配置文件。
18.根据权利要求17所述的装置,其特征在于,所述配置调整模块具体用于:
依据所述网页脚本上传的扫描结果,若扫描到预设的关键网页元素,则在配置文件中针对关键网页元素设置要采集的操作行为数据的类型;或者,
依据所述网页脚本上传的操作行为数据,针对访问频率或访问量大于预设阈值的页面和网页元素,调整要采集的操作行为数据的类型;或者,
依据所述网页脚本上传的操作行为数据,对网页上的操作行为时间序列进行分析,针对分析得到的异常操作行为的网页,调整要扫描的网页元素和/或要采集的操作行为数据的类型。
19.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一项所述的方法。
20.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10中任一项所述的方法。
CN202010515028.4A 2020-06-08 2020-06-08 一种网页数据采集方法、装置、设备和计算机存储介质 Pending CN111859235A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010515028.4A CN111859235A (zh) 2020-06-08 2020-06-08 一种网页数据采集方法、装置、设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010515028.4A CN111859235A (zh) 2020-06-08 2020-06-08 一种网页数据采集方法、装置、设备和计算机存储介质

Publications (1)

Publication Number Publication Date
CN111859235A true CN111859235A (zh) 2020-10-30

Family

ID=72987552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010515028.4A Pending CN111859235A (zh) 2020-06-08 2020-06-08 一种网页数据采集方法、装置、设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN111859235A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112804201A (zh) * 2020-12-30 2021-05-14 绿盟科技集团股份有限公司 一种获取设备信息的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108270629A (zh) * 2016-12-29 2018-07-10 北京国双科技有限公司 网站访客行为监测方法及装置
CN109408105A (zh) * 2018-09-25 2019-03-01 腾讯科技(武汉)有限公司 用户行为数据的采集方法、装置、计算装置和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108270629A (zh) * 2016-12-29 2018-07-10 北京国双科技有限公司 网站访客行为监测方法及装置
CN109408105A (zh) * 2018-09-25 2019-03-01 腾讯科技(武汉)有限公司 用户行为数据的采集方法、装置、计算装置和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112804201A (zh) * 2020-12-30 2021-05-14 绿盟科技集团股份有限公司 一种获取设备信息的方法及装置
CN112804201B (zh) * 2020-12-30 2023-04-28 绿盟科技集团股份有限公司 一种获取设备信息的方法及装置

Similar Documents

Publication Publication Date Title
US11949750B2 (en) System and method for tracking browsing activity
CN108667855B (zh) 网络流量异常监测方法、装置、电子设备及存储介质
US8769690B2 (en) Protection from malicious web content
CN110933103B (zh) 反爬虫方法、装置、设备和介质
CN102984121A (zh) 访问监视方法和信息处理装置
US9754028B2 (en) Automatic crawling of encoded dynamic URLs
CN107483443B (zh) 广告信息处理方法、客户端、存储介质和电子设备
CN110196790A (zh) 异常监控的方法和装置
CN111586005B (zh) 扫描器扫描行为识别方法及装置
CN104992117A (zh) Html5移动应用程序的异常行为检测方法和行为模型建立方法
CN112003834B (zh) 异常行为检测方法和装置
CN111783004B (zh) 页面嵌入方法、装置及系统
CN116303290A (zh) 一种office文档检测方法及装置、设备及介质
CN113568626A (zh) 动态打包、应用程序包开启方法、装置和电子设备
CN115766184A (zh) 一种网页数据处理方法、装置、电子设备及存储介质
CN115495740A (zh) 一种病毒检测方法和装置
CN109902726B (zh) 简历信息处理方法及装置
CN112003833A (zh) 异常行为检测方法和装置
CN111859235A (zh) 一种网页数据采集方法、装置、设备和计算机存储介质
CN114205156A (zh) 面向切面技术的报文检测方法、装置、电子设备及介质
CN113535568B (zh) 应用部署版本的验证方法、装置、设备和介质
CN114490264A (zh) 应用系统的文件监控方法、装置、电子设备及存储介质
CN114547617A (zh) 确定目标数据的方法、装置、电子设备及存储介质
CN111741046B (zh) 数据上报方法、获取方法、装置、设备及介质
CN108920589B (zh) 浏览劫持识别方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination