CN114036426A - 一种网页数据采集方法、装置、设备及介质 - Google Patents

一种网页数据采集方法、装置、设备及介质 Download PDF

Info

Publication number
CN114036426A
CN114036426A CN202111415668.9A CN202111415668A CN114036426A CN 114036426 A CN114036426 A CN 114036426A CN 202111415668 A CN202111415668 A CN 202111415668A CN 114036426 A CN114036426 A CN 114036426A
Authority
CN
China
Prior art keywords
webpage
code
codes
elements
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111415668.9A
Other languages
English (en)
Inventor
黄海弟
刘百灵
刘宝强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Skieer Information Technology Co ltd
Original Assignee
Shenzhen Skieer Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Skieer Information Technology Co ltd filed Critical Shenzhen Skieer Information Technology Co ltd
Priority to CN202111415668.9A priority Critical patent/CN114036426A/zh
Publication of CN114036426A publication Critical patent/CN114036426A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code

Abstract

本发明涉及一种网页数据采集方法、装置、设备及介质,涉及互联网数据采集技术领域,所述方法包括:在网页的源代码中获取网页元素的代码;根据所述网页元素的代码确定所述网页元素的元素类型,从所述网页元素的代码中提取操作选项对应的代码作为待显示代码;将所述待显示代码进行文字化显示,得到操作选项,根据所述网页元素的元素类型显示操作提示,所述操作提示用于指导用户选择操作选项;逐一记录用户选择的操作选项,将多个所述操作选项按顺序连接得到数据预采集步骤;若接收到所述数据预采集步骤的执行指令,利用所述数据预采集步骤对所述网页的数据进行采集。解决了数据采集中对技术门槛的局限,降低采集数据对专业技术人员的要求和成本。

Description

一种网页数据采集方法、装置、设备及介质
技术领域
本发明涉及互联网数据采集技术领域,尤其涉及一种网页数据采集方法、装置、设备及介质。
背景技术
目前数据获取的采集产品中普遍对使用者专业技术要求非常高,比如爬虫、前端埋点、数据库导入、日志导入等专业技术都需要懂代码,没有这方面的专业技术知识采集不了数据,因此,对数据的采集受到场景限制和技术门槛限制。
发明内容
本发明提供了一种网页数据采集方法、装置、设备及介质,以解决现有数据获取的采集产品中普遍对使用者专业技术要求非常高的问题。
为了解决上述问题,本发明采用以下技术方案:
第一方面,本发明提供了一种网页数据采集方法,包括:
在网页的源代码中获取网页元素的代码;
根据所述网页元素的代码确定所述网页元素的元素类型,从所述网页元素的代码中提取操作选项对应的代码作为待显示代码;
将所述待显示代码进行文字化显示,得到操作选项,根据所述网页元素的元素类型显示操作提示,所述操作提示用于指导用户选择操作选项;
逐一记录用户选择的操作选项,将多个所述操作选项按顺序连接得到数据预采集步骤;
若接收到所述数据预采集步骤的执行指令,利用所述数据预采集步骤对所述网页的数据进行采集。
其进一步的技术方案为,所述从所述网页元素的代码中提取操作选项对应的代码作为待显示代码,包括:
利用预设的抽取算法对所述网页元素的代码进行提取,得到操作选项对应的代码,将所述操作选项对应的代码作为待显示代码。
其进一步的技术方案为,所述根据所述网页元素的代码确定所述网页元素的元素类型,包括:
将网页的结构元素进行分类后得到所述结构元素的元素类型;
将所述结构元素的元素类型进行存储;
根据所述结构元素的元素类型对所述网页元素的代码进行识别,确定所述网页元素的元素类型。
其进一步的技术方案为,所述将所述待显示代码进行文字化显示,得到操作选项,包括:
利用预设的显示算法将所述待显示代码进行文字化显示,得到操作选项。
其进一步的技术方案为,所述在网页的源代码中获取网页元素的代码,包括:
获取网页元素的点击指令及所述网页元素对应的网页的源代码;
根据网页元素的点击指令获取网页元素的位置;
根据网页元素的位置在所述网页的源代码中获取所述网页元素的代码。
其进一步的技术方案为,所述将所述待显示代码进行文字化显示,得到操作选项,根据所述网页元素的元素类型显示操作提示之后,所述方法还包括:
根据各个所述网页元素的所述操作选项和所述操作提示出现的先后顺序,建立网页元素层次结构,所述网页元素层次结构包括各层次的网页元素对应的操作提示及操作选项。
其进一步的技术方案为,所述网页元素的元素类型包括文本、超链接、输入框、按钮、登录、图片、验证码、翻页、表单、页面框架以及页面加载方式中的至少一种。
第二方面,本发明还提供了一种网页数据采集装置,包括用于执行如第一方面所述方法的单元。
第三方面,本发明还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面所述的方法的步骤。
第四方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法的步骤。
本发明与现有技术的有益效果是:
通过在网页的源代码中获取到网页元素的代码,再根据所述网页元素的代码确定所述网页元素的元素类型,从所述网页元素的代码中提取操作选项对应的代码作为待显示代码;将所述待显示代码进行文字化显示,得到文字化形式的操作选项,使得用户不用读懂代码就能直接选择操作选项;同时,根据所述网页元素的元素类型形成操作提示从而指导用户选择操作选项,通过操作提示使得用户明白该怎样去进行数据采集的操作;再逐一记录用户选择的操作选项,将多个所述操作选项按顺序连接得到数据预采集步骤;当接收到所述数据预采集步骤的执行指令,利用所述数据预采集步骤对所述网页的数据进行采集,从而实现数据采集。因此,解决数据采集产品中对技术门槛和采集场景的局限,可以大大降低采集数据对专业技术人员的要求和成本。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种网页数据采集方法的流程示意图;
图2为本发明实施例2提供的一种网页数据采集方法的流程示意图;
图3为本发明实施例3提供的一种网页数据采集装置的结构框图;
图4为本发明实施例4提供的一种网页数据采集装置的结构框图;
图5为本发明实施例提供的可视化智能提示窗口示意图;
图6为本发明实施例5提出的一种电子设备的结构示意图。
具体实施方式
为了更充分理解本发明的技术内容,下面结合具体实施例对本发明的技术方案进一步介绍和说明,但不局限于此。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
实施例1
如图1所示,图1为本发明实施例1提供的一种网页数据采集方法的流程示意图。该方法可应用于电子设备中,电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信,对此本发明不做具体限定。具体地,如图1所示,该方法包括以下步骤S101-S105。
S101,在网页的源代码中获取网页元素的代码。
所述网页元素包括了元素类型和元素属性,网页元素的元素类型包括文本、超链接、输入框、按钮、登录、图片、验证码、翻页、表单、页面框架以及页面加载方式中的至少一种;元素属性即指网页元素的代码中操作选项对应的代码。
在一实施例中,所述在网页的源代码中获取网页元素的代码,包括:
获取网页元素的点击指令及所述网页元素对应的网页的源代码;
根据网页元素的点击指令获取网页元素的位置;
根据网页元素的位置在所述网页的源代码中获取所述网页元素的代码。
具体地,处理器获取到网页元素的点击指令后识别网页元素所处的位置,再根据网页元素的位置与所述网页的源代码中的位置代码进行匹配,当所述网页的源代码中的某个网页元素的位置代码所表达的位置信息与所述网页元素的位置信息一致,则获取所述网页元素的代码。
S102,根据所述网页元素的代码确定所述网页元素的元素类型,从所述网页元素的代码中提取操作选项对应的代码作为待显示代码。
具体地,通过预设的算法对所述网页元素的代码进行提取,得到操作选项对应的代码,将所述操作选项对应的代码作为待显示代码,所述预设的算法为用户配置的。
在一实施例中,所述从所述网页元素的代码中提取操作选项对应的代码作为待显示代码,包括:
利用预设的抽取算法对所述网页元素的代码进行提取,得到操作选项对应的代码,将所述操作选项对应的代码作为待显示代码。
具体地,所述预设的抽取算法为用户配置的算法。
在一实施例中,所述根据所述网页元素的代码确定所述网页元素的元素类型,包括:
将网页的结构元素进行分类后得到所述结构元素的元素类型;
具体地,处理器先将所述网页上所有的结构元素按照类别进行分类,从而得到各种所述结构元素各自对应的元素类型。
将所述结构元素的元素类型进行存储;
具体地,将所述网页上所有的结构元素按照类别进行分类得到所述结构元素的元素类型后,将所述结构元素的元素类型存储起来从而建立一个数据库。
根据数据库中所述结构元素的元素类型对所述网页元素的代码进行识别,确定所述网页元素的元素类型。
具体地,当要识别所述网页元素是哪种元素类型时,处理器根据所述结构元素的元素类型对所述网页元素的代码进行分析,从而确定所述网页元素的元素类型是文本、超链接、输入框、按钮、登录、图片、验证码、翻页、表单、页面框架以及页面加载方式中的哪一种。
S103,将所述待显示代码进行文字化显示,得到操作选项,根据所述网页元素的元素类型显示操作提示,所述操作提示用于指导用户选择操作选项。
具体实施中,例如,所述待显示代码它具备三个属性:1.可以点击2.可以复制标题内容(即提取内容)3.可提取某个链接。但是大部分用户是不懂代码的,没有这方面的专业技术知识,无法看懂代码所代表的意思,不会选择并使用所述待显示代码,因此,将所述待显示代码进行文字化显示,得到文字化形式的操作选项,使得用户点击文字化形式的所述操作选项时,处理器执行所述待显示代码中的某个代码片段,从而实现三个属性中的某个属性。
所述网页元素的元素类型不同则操作选项也不相同,例如,当元素类型为超链接时,对应的操作选项为:选择全部、采集该链接文本、采集该链接地址、点击该链接、鼠标移动到该链接上、循环点击单个链接、采集该元素的inner html、采集该元素的outer html、采集链接文本+链接、循环点击每个链接、撤销本次选择;当元素类型为输入框时,对应的操作选项为:输入文本、点击该元素、采集该文本框的值、鼠标移动到该文本框上、采集该元素的outer html、识别验证码,所述操作选项总共包括:选择全部、采集该链接文本、采集该链接地址、点击该链接、鼠标移动到该链接上、循环点击单个链接、采集该元素的inner html、采集该元素的outer html、采集链接文本+链接、循环点击每个链接、撤销本次选择、输入文本、点击该元素、采集该文本框的值、鼠标移动到该文本框上、识别验证码、点击该图片、采集该图片地址、鼠标移动到该图片上、循环点击单个图片、自定识别网页、登录、关闭弹窗、搜索数据、切换标签页、设置标签、设置加载方式、设置翻页、设置加载更多、查看、修改、生成采集、返回上一级网页、保存并开始采集、采集下一级网页数据。
在一实施例中,所述将所述待显示代码进行文字化显示,得到操作选项,包括:
利用预设的显示算法将所述待显示代码进行文字化显示,得到操作选项。
所述预设的显示算法为用户配置的,用于将所述待显示代码进行文字化显示。
S104,逐一记录用户选择的操作选项,将多个所述操作选项按顺序连接得到数据预采集步骤。
具体地,处理器将用户按顺序进行一系列的操作选项记录下来,用户选择相应的操作选项后,处理器生成相应的交互操作步骤并将各个交互操作步骤合并形成一个整体的数据预采集步骤。
S105,若接收到所述数据预采集步骤的执行指令,利用所述数据预采集步骤对所述网页的数据进行采集。
具体地,当所有的操作选项按顺序形成一个数据预采集步骤时,处理器接收到所述数据预采集步骤的执行指令,则利用所述数据预采集步骤中的用户选中的操作选项对应的代码对所述网页的数据进行采集。
具体而言,通过在网页的源代码中获取到网页元素的代码,再根据所述网页元素的代码确定所述网页元素的元素类型,从所述网页元素的代码中提取操作选项对应的代码作为待显示代码;将所述待显示代码进行文字化显示,得到文字化形式的操作选项,使得用户不用读懂代码就能直接选择操作选项;同时,根据所述网页元素的元素类型形成操作提示从而指导用户选择操作选项,通过操作提示使得用户明白该怎样去进行数据采集的操作;再逐一记录用户选择的操作选项,将多个所述操作选项按顺序连接得到数据预采集步骤;当接收到所述数据预采集步骤的执行指令,利用所述数据预采集步骤对所述网页的数据进行采集,从而实现数据采集。因此,解决数据采集产品中对技术门槛和采集场景的局限,可以大大降低采集数据对专业技术人员的要求和成本。
实施例2
参见图2,结合图5所示,图2为本发明实施例2提供的一种网页数据采集方法的流程示意图。实施例2的用户新建议实时发现方法包括步骤S201-S206,其中步骤S201-S205与上述实施例1中的步骤S101-S105类似,在此不再赘述。下面详细说明本实施例中所增加的步骤S206。
S206,根据各个所述网页元素的所述操作选项和所述操作提示出现的先后顺序,建立网页元素层次结构,所述网页元素层次结构包括各层次的网页元素对应的操作提示及操作选项。
具体地,生成操作选项和操作提示后,将操作选项和操作提示显示在可视化智能提示窗口中,并且建立的网页元素层次结构都显示在可视化智能提示窗口中,使得对每个所述网页元素的所有的所述操作选项和所述操作提示都能够通过选取网页元素层次结构中的层级选项后进行显示,并能够通过选择网页元素层次结构中的层级选项后返回到用户想要对某个所述网页元素的所述操作选项进行选择的操作选项区,从而能够使用户对某个所述网页元素的所述操作选项进行重新选择;可视化智能提示窗口包括窗口名称区、操作提示区、操作选项区、层级选项区,其中,窗口名称区用于显示窗口名称,操作提示区将操作提示进行显示,操作选项区将操作选项进行显示,层级选项区用于将层级选项进行显示。
具体而言,通过建立网页元素层次结构,使用户能够通过选择网页元素层次结构中的层级选项后对所述网页元素的所述操作选项进行重新选择,最终通过更改操作选项而达到对想要采集的数据进行数据采集。
实施例3
如图3所示,本发明实施例还提供了一种网页数据采集装置400,该网页数据采集装置400包括第一获取单元401、第一确定单元402、第一显示单元403、第一连接单元404、第一采集单元405。
第一获取单元401,用于在网页的源代码中获取网页元素的代码;
第一确定单元402,用于根据所述网页元素的代码确定所述网页元素的元素类型,从所述网页元素的代码中提取操作选项对应的代码作为待显示代码;
第一显示单元403,用于将所述待显示代码进行文字化显示,得到操作选项,根据所述网页元素的元素类型显示操作提示,所述操作提示用于指导用户选择操作选项;
第一连接单元404,用于逐一记录用户选择的操作选项,将多个所述操作选项按顺序连接得到数据预采集步骤;
第一采集单元405,用于若接收到所述数据预采集步骤的执行指令,利用所述数据预采集步骤对所述网页的数据进行采集。
在一实施例中,所述从所述网页元素的代码中提取操作选项对应的代码作为待显示代码,包括:
利用预设的抽取算法对所述网页元素的代码进行提取,得到操作选项对应的代码,将所述操作选项对应的代码作为待显示代码。
在一实施例中,所述根据所述网页元素的代码确定所述网页元素的元素类型,包括:
将网页的结构元素进行分类后得到所述结构元素的元素类型;
将所述结构元素的元素类型进行存储;
根据所述结构元素的元素类型对所述网页元素的代码进行识别,确定所述网页元素的元素类型。
在一实施例中,所述将所述待显示代码进行文字化显示,得到操作选项,包括:
利用预设的显示算法将所述待显示代码进行文字化显示,得到操作选项。
在一实施例中,所述在网页的源代码中获取网页元素的代码,包括:
获取网页元素的点击指令及所述网页元素对应的网页的源代码;
根据网页元素的点击指令获取网页元素的位置;
根据网页元素的位置在所述网页的源代码中获取所述网页元素的代码。
在一实施例中,所述网页元素的元素类型包括文本、超链接、输入框、按钮、登录、图片、验证码、翻页、表单、页面框架以及页面加载方式中的至少一种。
本发明实施例中,通过在网页的源代码中获取到网页元素的代码,再根据所述网页元素的代码确定所述网页元素的元素类型,从所述网页元素的代码中提取操作选项对应的代码作为待显示代码;将所述待显示代码进行文字化显示,得到文字化形式的操作选项,使得用户不用读懂代码就能直接选择操作选项;同时,根据所述网页元素的元素类型形成操作提示从而指导用户选择操作选项,通过操作提示使得用户明白该怎样去进行数据采集的操作;再逐一记录用户选择的操作选项,将多个所述操作选项按顺序连接得到数据预采集步骤;当接收到所述数据预采集步骤的执行指令,利用所述数据预采集步骤对所述网页的数据进行采集,从而实现数据采集。因此,解决数据采集产品中对技术门槛和采集场景的局限,可以大大降低采集数据对专业技术人员的要求和成本。
实施例4
如图4所示,本发明实施例还提供了一种网页数据采集装置400,该网页数据采集装置400与实施例3提出的网页数据采集装置400的区别在于,还包括:第一建立单元406。
第一建立单元406,用于根据各个所述网页元素的所述操作选项和所述操作提示出现的先后顺序,建立网页元素层次结构,所述网页元素层次结构包括各层次的网页元素对应的操作提示及操作选项。
本发明实施例中,通过建立网页元素层次结构,使用户能够通过选择网页元素层次结构中的层级选项后对所述网页元素的所述操作选项进行重新选择,最终通过更改操作选项而达到对想要采集的数据进行数据采集。
实施例5
如图6所示,本发明实施例还提供了一种电子设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信。
存储器113,用于存放计算机程序;
处理器111,用于执行存储器113上所存放的程序,实现实施例1提供的网页数据采集方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器111执行时实现如实施例1提供的网页数据采集方法的步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种网页数据采集方法,其特征在于,包括:
在网页的源代码中获取网页元素的代码;
根据所述网页元素的代码确定所述网页元素的元素类型,从所述网页元素的代码中提取操作选项对应的代码作为待显示代码;
将所述待显示代码进行文字化显示,得到操作选项,根据所述网页元素的元素类型显示操作提示,所述操作提示用于指导用户选择操作选项;
逐一记录用户选择的所述操作选项,将多个所述操作选项按顺序连接得到数据预采集步骤;
若接收到所述数据预采集步骤的执行指令,利用所述数据预采集步骤对所述网页的数据进行采集。
2.根据权利要求1所述的网页数据采集方法,其特征在于,所述从所述网页元素的代码中提取操作选项对应的代码作为待显示代码,包括:
利用预设的抽取算法对所述网页元素的代码进行提取,得到操作选项对应的代码,将所述操作选项对应的代码作为待显示代码。
3.根据权利要求1所述的网页数据采集方法,其特征在于,所述根据所述网页元素的代码确定所述网页元素的元素类型,包括:
将网页的结构元素进行分类后得到所述结构元素的元素类型;
将所述结构元素的元素类型进行存储;
根据所述结构元素的元素类型对所述网页元素的代码进行识别,确定所述网页元素的元素类型。
4.根据权利要求1所述的网页数据采集方法,其特征在于,所述将所述待显示代码进行文字化显示,得到操作选项,包括:
利用预设的显示算法将所述待显示代码进行文字化显示,得到操作选项。
5.根据权利要求1所述的网页数据采集方法,其特征在于,所述在网页的源代码中获取网页元素的代码,包括:
获取网页元素的点击指令及所述网页元素对应的网页的源代码;
根据网页元素的点击指令获取网页元素的位置;
根据网页元素的位置在所述网页的源代码中获取所述网页元素的代码。
6.根据权利要求1所述的网页数据采集方法,其特征在于,所述将所述待显示代码进行文字化显示,得到操作选项,根据所述网页元素的元素类型显示操作提示之后,所述方法还包括:
根据各个所述网页元素的所述操作选项和所述操作提示出现的先后顺序,建立网页元素层次结构,所述网页元素层次结构包括各层次的网页元素对应的操作提示及操作选项。
7.根据权利要求1所述的网页数据采集方法,其特征在于,所述网页元素的元素类型包括文本、超链接、输入框、按钮、登录、图片、验证码、翻页、表单、页面框架以及页面加载方式中的至少一种。
8.一种网页数据采集装置,其特征在于,包括用于执行如权利要求1-7任一项所述的方法的单元。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现如权利要求1-7任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法的步骤。
CN202111415668.9A 2021-11-25 2021-11-25 一种网页数据采集方法、装置、设备及介质 Pending CN114036426A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111415668.9A CN114036426A (zh) 2021-11-25 2021-11-25 一种网页数据采集方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111415668.9A CN114036426A (zh) 2021-11-25 2021-11-25 一种网页数据采集方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114036426A true CN114036426A (zh) 2022-02-11

Family

ID=80138876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111415668.9A Pending CN114036426A (zh) 2021-11-25 2021-11-25 一种网页数据采集方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114036426A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036011A (zh) * 2014-06-24 2014-09-10 北京奇虎科技有限公司 网页元素的显示方法以及浏览器装置
CN107729475A (zh) * 2017-10-16 2018-02-23 深圳视界信息技术有限公司 网页元素采集方法、装置、终端与计算机可读存储介质
CN110020339A (zh) * 2017-08-17 2019-07-16 北京国双科技有限公司 基于无埋点的网页数据采集方法及装置
CN110875919A (zh) * 2018-12-21 2020-03-10 北京安天网络安全技术有限公司 一种网络威胁的检测方法、装置、电子设备及存储介质
CN111221610A (zh) * 2020-01-03 2020-06-02 中国建设银行股份有限公司 一种页面元素采集方法和装置
CN112835776A (zh) * 2021-02-22 2021-05-25 广州虎牙科技有限公司 页面事件复现方法、采集方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036011A (zh) * 2014-06-24 2014-09-10 北京奇虎科技有限公司 网页元素的显示方法以及浏览器装置
CN110020339A (zh) * 2017-08-17 2019-07-16 北京国双科技有限公司 基于无埋点的网页数据采集方法及装置
CN107729475A (zh) * 2017-10-16 2018-02-23 深圳视界信息技术有限公司 网页元素采集方法、装置、终端与计算机可读存储介质
CN110875919A (zh) * 2018-12-21 2020-03-10 北京安天网络安全技术有限公司 一种网络威胁的检测方法、装置、电子设备及存储介质
CN111221610A (zh) * 2020-01-03 2020-06-02 中国建设银行股份有限公司 一种页面元素采集方法和装置
CN112835776A (zh) * 2021-02-22 2021-05-25 广州虎牙科技有限公司 页面事件复现方法、采集方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US7917755B1 (en) Identification of localized web page element
CN113391871B (zh) 一种rpa元素智能融合拾取的方法与系统
US20090019386A1 (en) Extraction and reapplication of design information to existing websites
CN108021320B (zh) 一种电子设备题目搜索方法及电子设备
CN106844635B (zh) 网页中的元素的编辑方法及装置
US20110214080A1 (en) Taxonomy Editor
US9372843B2 (en) Document association device, document association method, and non-transitory computer readable medium
CN113238741B (zh) 表单配置方法、装置、电子设备及存储介质
US20110191381A1 (en) Interactive System for Extracting Data from a Website
CN102902697A (zh) 用于生成结构化文档导视图的方法和系统
TWI457775B (zh) 網址分類管理方法及使用該方法之電子裝置
CN111274156B (zh) 兼容多框架页面的自动识别方法及装置
CN112182451A (zh) 网页内容摘要生成方法、设备、存储介质及装置
JP5271920B2 (ja) オンライン検索のために構造化データを用いる方法
CN113552977A (zh) 数据处理方法、装置、电子设备及计算机存储介质
CN114036426A (zh) 一种网页数据采集方法、装置、设备及介质
CN109271595A (zh) 信息收藏方法、装置、存储介质及电子设备
CN112667502A (zh) 页面测试方法、装置及介质
CN110659533A (zh) 视频内二维码的识别方法及计算机可读存储介质
JP2019086934A (ja) 文書検索装置および方法
CN112287184B (zh) 基于神经网络的迁移标注方法、装置、设备及存储介质
CN117610506B (zh) 一种文本信息提取方法及装置
CN108470062B (zh) 一种基于共享视频的交流方法和装置
CN107526736A (zh) 搜索方法和装置
CN115202539A (zh) 记录生成方法、装置、存储介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518057 401, block a, sharing building, No. 78, Keyuan North Road, songpingshan community, Xili street, Nanshan District, Shenzhen, Guangdong

Applicant after: Shenzhen Shukuo Information Technology Co.,Ltd.

Address before: 518057 401, block a, sharing building, No. 78, Keyuan North Road, songpingshan community, Xili street, Nanshan District, Shenzhen, Guangdong

Applicant before: SHENZHEN SKIEER INFORMATION TECHNOLOGY CO.,LTD.