CN107729475B - 网页元素采集方法、装置、终端与计算机可读存储介质 - Google Patents

网页元素采集方法、装置、终端与计算机可读存储介质 Download PDF

Info

Publication number
CN107729475B
CN107729475B CN201710957272.4A CN201710957272A CN107729475B CN 107729475 B CN107729475 B CN 107729475B CN 201710957272 A CN201710957272 A CN 201710957272A CN 107729475 B CN107729475 B CN 107729475B
Authority
CN
China
Prior art keywords
webpage
user
clicked
webpage element
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710957272.4A
Other languages
English (en)
Other versions
CN107729475A (zh
Inventor
刘宝强
肖云飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shukuo Information Technology Co.,Ltd.
Original Assignee
Shenzhen Skieer Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Skieer Information Technology Co ltd filed Critical Shenzhen Skieer Information Technology Co ltd
Priority to CN201710957272.4A priority Critical patent/CN107729475B/zh
Publication of CN107729475A publication Critical patent/CN107729475A/zh
Application granted granted Critical
Publication of CN107729475B publication Critical patent/CN107729475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

一种网页元素采集方法,包括:获取用户输入的需要采集的网页的网址,并在内置浏览器中打开所述网页;获取用户点击的网页元素,显示与所述用户点击的网页元素对应的功能选项组;确定用户选择的功能选项;生成与所述网页元素对应的Xpath路径表达式,并生成与所述功能选项对应的执行步骤或执行与所述功能选项对应的操作。本发明提供的网页元素采集方法、网页元素采集装置、终端与计算机可读存储介质,采用Xpath路径表达式进行定位及面向用户的选择操作方式,降低非技术人员对于网页数据的迅速采集的实现门槛。

Description

网页元素采集方法、装置、终端与计算机可读存储介质
技术领域
本发明属于网络通信技术领域,具体地来说,是一种网页元素采集方法、装置、终端与计算机可读存储介质。
背景技术
随着互联网的发展,特别是C2C电子商务的兴起,个人网站和网店大量出现。个人站主或个人店主为了快速的实现网站数据或者填补商品信息的填充,开始越来越多的通过采集其它网站类似信息来填充自己网站或者店铺。网页数据采集成为一种应用日益广泛的互联网技术。
目前,网页数据采集的通用做法是,通过网络抓包的方式把整个网页的源码提取出来,然后分析网页源码,并通过正则表达式对网页源码进行匹配,最终得到想要的数据。
这种做法依赖于网页源码与正则表达式,属于面向技术人员的实现方式。对于作为非技术人员的个人站长和个人店主而言,技术门槛很高,难以实现对于网页数据的迅速采集。
发明内容
为了克服现有技术的不足,本发明提供了一种网页元素采集方法、网页元素采集装置、终端与计算机可读存储介质,采用Xpath路径表达式进行定位及面向用户的选择操作方式,降低非技术人员对于网页数据的迅速采集的实现门槛。
本发明的目的通过以下技术方案来实现:
一种网页元素采集方法,包括:
获取用户输入的需要采集的网页的网址,并在内置浏览器中打开所述网页;
获取用户点击的网页元素,显示与所述用户点击的网页元素对应的功能选项组,所述功能选项组包括至少一个可供选择的功能选项;
确定用户选择的功能选项;
生成与所述网页元素对应的Xpath路径表达式,并生成与所述功能选项对应的执行步骤或执行与所述功能选项对应的操作,所述执行步骤用于被执行而实现对所述用户点击的网页元素的目标数据的采集,所述操作包括点击所述用户点击的网页元素和获取用户输入的文本。
作为上述技术方案的改进,所述功能选项与所述用户点击的网页元素所包含的标签类型相适应,所述标签类型包括a标签、img标签、input标签和其他标签,所述功能选项包括抓取所述网页元素的文本、抓取所述网页元素的InnerHtml、抓取所述网页元素的OuterHtml、抓取所述网页元素的超链接、抓取所述网页元素的图片地址、抓取所述网页元素的Value值、循环遍历下拉选项、点击所述网页元素与输入文本中的一种或多种。
作为上述技术方案的进一步改进,当所述用户点击的网页元素所包含的标签类型为a标签时,所述功能选项为所述抓取所述网页元素的文本、所述抓取所述网页元素的InnerHtml、所述抓取所述网页元素的OuterHtml、所述抓取所述网页元素的超链接与点击所述网页元素中的一种或多种。
作为上述技术方案的进一步改进,当所述用户点击的网页元素所包含的标签类型为img标签时,所述功能选项为所述抓取该网页元素的OuterHtml、所述抓取该网页元素的图片地址与所述点击该网页元素中的一种或多种。
作为上述技术方案的进一步改进,当所述用户点击的网页元素所包含的标签类型为input标签时,所述功能选项组为所述抓取该网页元素的OuterHtml、所述抓取该网页元素的Value值”、所述点击该网页元素与所述输入文本中的一种或多种;当所述用户点击的网页元素所包含的标签类型为select标签时,所述功能选项为所述循环遍历下拉选项。
作为上述技术方案的进一步改进,所述执行步骤包括:
根据所述Xpath路径表达式定位至所述用户点击的网页元素;
获取所述用户点击的网页元素中与所述操作指令匹配的子节点;
获取所述子节点的信息,据此生成所述用户点击的网页元素的目标数据。
一种网页元素采集装置,包括:
网页打开模块,用于获取用户输入的需要采集的网页的网址,并在内置浏览器中打开所述网页;
选项显示模块,用于根据用户点击的网页元素显示对应的功能选项组,所述功能选项组包括至少一个可供选择的功能选项;
功能选项确定模块,用于确定用户选择的功能选项;
操作生成与执行模块,用于生成与所述网页元素对应的Xpath路径表达式,并生成与所述功能选项对应的执行步骤或执行与所述功能选项对应的操作,所述执行步骤用于被执行而实现对所述用户点击的网页元素的目标数据的采集,所述操作包括点击所述用户点击的网页元素和获取用户输入的文本。
作为上述技术方案的改进,其还包括执行模块,用于根据所述Xpath路径表达式定位后,获取所述用户点击的网页元素中与所述操作指令匹配的子节点的信息,从而生成所述用户点击的网页元素的目标数据。
一种终端,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器执行所述计算机程序以使所述终端实现以上任一项所述的网页元素采集方法。
一种计算机可读存储介质,其存储有所述终端所执行的计算机程序。
本发明的有益效果是:
通过本发明提供的网页加载方法、装置、终端与计算机可读存储介质,根据用户点击的网页元素而显示相应的功能选项组,通过功能选项组获取用户选择的操作指令,进而根据该操作指令确定具体的执行步骤,以执行该执行步骤而实现对用户在点击的网页元素中选定的目标数据的采集,采用Xpath路径表达式方式进行网页元素的定位,将用户所需的采集操作封装为可供选择的功能选项组,具有实现门槛低、操作简便的优点。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例1提供的网页元素采集方法的流程图;
图2是本发明实施例1提供的网页元素采集方法的执行步骤流程图;
图3是本发明实施例1提供的网页元素采集装置的结构示意图;
图4是本发明实施例1提供的终端的结构示意图。
主要元件符号说明:
100-网页元素采集装置,110-选项显示模块,120-路径生成模块,130-指令获取模块,140-步骤确定模块,150-执行模块,200-终端,210-存储器,220-处理器,230-输入单元,240-显示单元。
具体实施方式
为了便于理解本发明,下面将参照相关附图对网页元素采集方法、装置、终端与计算机可读存储介质进行更全面的描述。附图中给出了网页元素采集方法、装置、终端与计算机可读存储介质的优选实施例。但是,网页元素采集方法、装置、终端与计算机可读存储介质可以通过许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对网页元素采集方法、装置、终端与计算机可读存储介质的公开内容更加透彻全面。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。相反,当元件被称作“直接在”另一元件“上”时,不存在中间元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在网页元素采集方法、装置、终端与计算机可读存储介质的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例1
请参阅图1,本实施例提供一种网页元素采集方法,该方法包括以下步骤:
S10:获取用户输入的需要采集的网页的网址,并在内置浏览器中打开所述网页。
S20:获取用户点击的网页元素,显示与所述用户点击的网页元素对应的功能选项组,功能选项组包括至少一个可供选择的功能选项。
其中,网页元素是网页的组成元素,包括图片、文字、视频、音频等多种类型。在HTML/XML网页中,网页元素包含多个子节点,每个子节点分别包含不同的信息,从而使网页元素成为一个具备完整信息的节点。用户点击网页元素时,该网页元素将被获取。根据获取到的网页元素,对应地显示不同的功能选项组,以便用户对功能选项组中的功能选项进行选择。用户选择的结果即对应于用户所需采集的具体数据,如网页元素的文本、注释、属性值等。
其中,功能选项组可以是选择框,也可以是选择菜单,还可以是其他可供选择的显示窗类型。功能选项包含一个或多个功能选项,每个功能选项对应于网页元素的某一具体数据的采集指令。
优选地,功能选项与所述用户点击的网页元素所包含的标签类型相适应。网页元素的标签即HTML标签,用于对网页元素进行定义和标记。换言之,包含不同类型HTML标签的网页元素,具有不同的数据信息类型,例如不同的属性、文本或其他数据信息。一般地,标签类型包括a标签、img标签、input标签和其他标签。
进一步优选,功能选项包括抓取所述网页元素的文本、抓取所述网页元素的InnerHtml、抓取所述网页元素的OuterHtml、抓取所述网页元素的超链接、抓取所述网页元素的图片地址、抓取所述网页元素的Value值与循环遍历下拉选项、点击所述网页元素与输入文本中的一种或多种。
在一个示范性的实施例中,对应于包含a标签的网页元素的功能选项,可以是“抓取该网页元素的文本”、“抓取该网页元素的InnerHtml”、“抓取该网页元素的OuterHtml”、“抓取该网页元素的超链接”、“点击该网页元素”。
在一个示范性的实施例中,对应于包含img标签的网页元素的功能选项,可以是“抓取该网页元素的OuterHtml”、“抓取该网页元素的图片地址”、“点击该网页元素”。
在一个示范性的实施例中,对应于包含input标签的网页元素的功能选项,可以是“抓取该网页元素的OuterHtml”、“抓取该网页元素的Value值”、“点击该网页元素”、“输入文本”。
在一个示范性的实施例中,对应于包含select标签的网页元素的功能选项,可以是“循环遍历下拉选项”。
在一个示范性的实施例中,对应于包含除上述示范例的标签外的其他标签的网页元素的功能选项,可以是“抓取该网页元素的文本”、“抓取该网页元素的InnerHtml”、“抓取该网页元素的OuterHtml”。
S30:确定用户选择的功能选项。换言之,获取用户所选择的功能选项,以确定用户所需采集的数据或所需执行的操作。
Xpath,全称为XML Path Language,即XML路径语言,适用于XML/HTML网页。Xpath路径表达式,即用于实现对网页元素的快速定位。通过生成Xpath路径表达式,从而为快速定位而进行数据采集作为准备。
S40:生成与所述网页元素对应的Xpath路径表达式,并生成与所述功能选项对应的执行步骤或执行与所述功能选项对应的操作,所述执行步骤用于被执行而实现对所述用户点击的网页元素的目标数据的采集,所述操作包括点击所述用户点击的网页元素和获取用户输入的文本。换言之,当用户选择采集网页元素的数据时,自动生成执行步骤;当用户选择不采集网页元素的数据,而是执行其他操作时,直接执行相应操作。
请参阅图2,优选地,执行步骤S50包括:
S51:根据Xpath路径表达式定位至所述用户点击的网页元素;
S52:获取所述用户点击的网页元素中与所述操作指令匹配的子节点。如前所述,网页元素包含至少一个子节点,遍历网页元素中的子节点而与所述操作指令匹配,从而获取到完全匹配的子节点。
S53:获取子节点的信息,据此生成所述用户点击的网页元素的目标数据。获取到匹配子节点后,即可对子节点中的信息进行抓取,该信息即为所述用户点击的网页元素的目标数据。
实施例2
请参阅图3,本实施例提供一种网页元素采集装置100,该装置包括:
网页打开模块110,用于获取用户输入的需要采集的网页的网址,并在内置浏览器中打开所述网页;
选项显示模块120,用于根据用户点击的网页元素显示对应的功能选项组,该功能选项组包括至少一个可供选择的功能选项;
功能选项确定模块130,用于确定用户选择的功能选项;
操作生成与执行模块140,用于生成与所述网页元素对应的Xpath路径表达式,并生成与所述功能选项对应的执行步骤或执行与所述功能选项对应的操作,所述执行步骤用于被执行而实现对所述用户点击的网页元素的目标数据的采集,所述操作包括点击所述用户点击的网页元素和获取用户输入的文本。
优选地,其还包括执行模块150,用于根据Xpath路径表达式定位后,获取所述用户点击的网页元素中与所述操作指令匹配的子节点的信息,从而生成所述用户点击的网页元素的目标数据。执行模块150可集成于网页元素采集装置100中,亦可独立设置于网页元素采集装置100之外。
实施例3
请参阅图4,本实施例提供一种终端200,该终端200包括存储器210以及处理器220,存储器210用于存储计算机程序,处理器220执行计算机程序以使终端200实现以上所述的网页元素采集方法。
其中,终端200包括不具备移动通信能力的终端设备(比如计算机、服务器等),亦包括移动终端(比如智能电话、平板电脑、车载电脑、智能穿戴设备等)。
存储器210可包括存储程序区和存储数据区。其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端200的使用所创建的数据(比如音频数据、备份文件等)等。此外,存储器210可以包括高速随机存取存储器,还可以包括非易失性存储器例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
优选地,终端200还包括输入单元230与显示单元240。其中,输入单元230用于接收用户输入的各项指令或参数(包括预设滚动方式、预设时间间隔与预设滚动次数),包括鼠标、键盘、触控面板及其他输入设备。显示单元240用于显示终端200的各种输出信息(包括网页页面、参数配置界面等),包括显示面板。
在此一并提供一种计算机可读存储介质,其存储有终端所执行的计算机程序。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (8)

1.一种网页元素采集方法,其特征在于,包括:
获取用户输入的需要采集的网页的网址,并在内置浏览器中打开所述网页;
获取用户点击的网页元素,显示与所述用户点击的网页元素对应的功能选项组,其中,所述功能选项组包括至少一个可供选择的功能选项,所述功能选项与所述用户点击的网页元素所包含的标签类型相适应,所述标签类型包括a标签、img标签、input标签和其他标签,所述功能选项包括抓取所述网页元素的文本、抓取所述网页元素的InnerHtml、抓取所述网页元素的OuterHtml、抓取所述网页元素的超链接、抓取所述网页元素的图片地址、抓取所述网页元素的Value值、循环遍历下拉选项、点击所述网页元素与输入文本中的一种或多种;
确定用户选择的功能选项;
生成与所述网页元素对应的Xpath路径表达式,并生成与所述功能选项对应的执行步骤或执行与所述功能选项对应的操作,所述执行步骤用于被执行而实现对所述用户点击的网页元素的目标数据的采集,所述操作包括点击所述用户点击的网页元素和获取用户输入的文本;
当所述用户点击的网页元素所包含的标签类型为a标签时,所述功能选项为所述抓取所述网页元素的文本、所述抓取所述网页元素的InnerHtml、所述抓取所述网页元素的OuterHtml、所述抓取所述网页元素的超链接与点击所述网页元素中的一种或多种。
2.根据权利要求1所述的网页元素采集方法,其特征在于,当所述用户点击的网页元素所包含的标签类型为img标签时,所述功能选项为所述抓取该网页元素的OuterHtml、所述抓取该网页元素的图片地址与所述点击该网页元素中的一种或多种。
3.根据权利要求1所述的网页元素采集方法,其特征在于,当所述用户点击的网页元素所包含的标签类型为input标签时,所述功能选项组为所述抓取该网页元素的OuterHtml、所述抓取该网页元素的Value值”、所述点击该网页元素与所述输入文本中的一种或多种;当所述用户点击的网页元素所包含的标签类型为select标签时,所述功能选项为所述循环遍历下拉选项。
4.根据权利要求1所述的网页元素采集方法,其特征在于,所述执行步骤包括:
根据所述Xpath路径表达式定位至所述用户点击的网页元素;
获取所述用户点击的网页元素中与所述操作指令匹配的子节点;
获取所述子节点的信息而生成所述用户点击的网页元素的目标数据。
5.一种网页元素采集装置,其特征在于,包括:
网页打开模块,用于获取用户输入的需要采集的网页的网址,并在内置浏览器中打开所述网页;
选项显示模块,用于根据用户点击的网页元素显示对应的功能选项组,其中,所述功能选项组包括至少一个可供选择的功能选项,所述功能选项与所述用户点击的网页元素所包含的标签类型相适应,所述标签类型包括a标签、img标签、input标签和其他标签,所述功能选项包括抓取所述网页元素的文本、抓取所述网页元素的InnerHtml、抓取所述网页元素的OuterHtml、抓取所述网页元素的超链接、抓取所述网页元素的图片地址、抓取所述网页元素的Value值、循环遍历下拉选项、点击所述网页元素与输入文本中的一种或多种;
功能选项确定模块,用于确定用户选择的功能选项;
操作生成与执行模块,用于生成与所述网页元素对应的Xpath路径表达式,并生成与所述功能选项对应的执行步骤或执行与所述功能选项对应的操作,所述执行步骤用于被执行而实现对所述用户点击的网页元素的目标数据的采集,所述操作包括点击所述用户点击的网页元素和获取用户输入的文本;
当所述用户点击的网页元素所包含的标签类型为a标签时,所述功能选项为所述抓取所述网页元素的文本、所述抓取所述网页元素的InnerHtml、所述抓取所述网页元素的OuterHtml、所述抓取所述网页元素的超链接与点击所述网页元素中的一种或多种。
6.根据权利要求5所述的网页元素采集装置,其特征在于,其还包括执行模块,用于根据所述Xpath路径表达式定位后,获取所述用户点击的网页元素中与所述操作指令匹配的子节点的信息,从而生成所述用户点击的网页元素的目标数据。
7.一种终端,其特征在于,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器执行所述计算机程序以使所述终端实现权利要求1~4中任一项所述的网页元素采集方法。
8.一种计算机可读存储介质,其特征在于,其存储有权利要求7所述的终端所执行的所述计算机程序。
CN201710957272.4A 2017-10-16 2017-10-16 网页元素采集方法、装置、终端与计算机可读存储介质 Active CN107729475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710957272.4A CN107729475B (zh) 2017-10-16 2017-10-16 网页元素采集方法、装置、终端与计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710957272.4A CN107729475B (zh) 2017-10-16 2017-10-16 网页元素采集方法、装置、终端与计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN107729475A CN107729475A (zh) 2018-02-23
CN107729475B true CN107729475B (zh) 2021-07-02

Family

ID=61211261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710957272.4A Active CN107729475B (zh) 2017-10-16 2017-10-16 网页元素采集方法、装置、终端与计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN107729475B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046269A (zh) * 2018-10-15 2020-04-21 深圳市加推科技有限公司 数据获取方法和装置、计算机可读存储介质
CN109684571B (zh) * 2018-12-28 2021-02-05 咪咕文化科技有限公司 一种数据采集方法及装置、存储介质
CN110245155A (zh) * 2019-05-21 2019-09-17 平安科技(深圳)有限公司 数据处理方法、装置、计算机可读存储介质及终端设备
CN110532155B (zh) * 2019-07-30 2023-08-15 中至数据集团股份有限公司 一种行为数据获取方法、系统、可读存储介质及终端
CN112579852B (zh) * 2019-09-30 2023-01-10 厦门邑通智能科技集团有限公司 一种互动式网页数据精确采集方法
CN110866212A (zh) * 2019-11-14 2020-03-06 北京无限光场科技有限公司 页面异常定位的方法、装置、电子设备及计算机可读介质
CN112994968B (zh) * 2019-12-17 2023-05-02 北京沃东天骏信息技术有限公司 一种网络信息采集方法、服务器、终端和系统
CN111221610B (zh) * 2020-01-03 2023-07-04 建信金融科技有限责任公司 一种页面元素采集方法和装置
CN112347332A (zh) * 2020-11-17 2021-02-09 南开大学 一种基于XPath的爬虫目标定位方法
CN112364270B (zh) * 2020-11-24 2024-04-19 北京锐安科技有限公司 一种网页元素收纳方法、电子设备及存储介质
CN112256708B (zh) * 2020-12-22 2021-04-30 远光软件股份有限公司 一种获取和存储文本内容的方法、装置、终端和存储介质
CN114036426A (zh) * 2021-11-25 2022-02-11 深圳视界信息技术有限公司 一种网页数据采集方法、装置、设备及介质
CN116226557B (zh) * 2022-12-29 2024-04-19 中国科学院信息工程研究所 待标注数据的拾取方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999613A (zh) * 2012-11-28 2013-03-27 北京奇虎科技有限公司 一种在浏览器中加载工具类窗口的方法及其装置
CN103019703A (zh) * 2012-11-28 2013-04-03 北京奇虎科技有限公司 用于浏览器的工具类窗口加载方法和装置
CN104036011A (zh) * 2014-06-24 2014-09-10 北京奇虎科技有限公司 网页元素的显示方法以及浏览器装置
CN104346464A (zh) * 2014-11-07 2015-02-11 北京奇虎科技有限公司 网页元素信息的处理方法、装置和浏览器客户端
CN104346462A (zh) * 2014-11-07 2015-02-11 北京奇虎科技有限公司 保存网页元素的方法、装置和浏览器客户端

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763425A (zh) * 2010-01-12 2010-06-30 苏州阔地网络科技有限公司 一种通用的可用于任何网页的网页内容抓取的方法
US8538949B2 (en) * 2011-06-17 2013-09-17 Microsoft Corporation Interactive web crawler
US9507761B2 (en) * 2013-12-26 2016-11-29 International Business Machines Corporation Comparing webpage elements having asynchronous functionality
US9898264B2 (en) * 2014-12-17 2018-02-20 Successfactors, Inc. Automatic componentization engine
CN106294885A (zh) * 2016-10-09 2017-01-04 华东师范大学 一种面向异构网页的数据收集与标注方法
CN106570133B (zh) * 2016-10-27 2019-07-23 任子行网络技术股份有限公司 一种可视化的网页信息提取规则的构建方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999613A (zh) * 2012-11-28 2013-03-27 北京奇虎科技有限公司 一种在浏览器中加载工具类窗口的方法及其装置
CN103019703A (zh) * 2012-11-28 2013-04-03 北京奇虎科技有限公司 用于浏览器的工具类窗口加载方法和装置
CN104036011A (zh) * 2014-06-24 2014-09-10 北京奇虎科技有限公司 网页元素的显示方法以及浏览器装置
CN104346464A (zh) * 2014-11-07 2015-02-11 北京奇虎科技有限公司 网页元素信息的处理方法、装置和浏览器客户端
CN104346462A (zh) * 2014-11-07 2015-02-11 北京奇虎科技有限公司 保存网页元素的方法、装置和浏览器客户端

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Improving web page classification by label-propagation over clicks graphs;soo-min kim等;《proceedings of the 18th ACM conference on information and knowledge management》;20091130;1077-1086页 *
一种基于网页信息抽取的OA期刊资源采集方法研究;黄政等;《数字图书馆论坛》;20170215(第05期);25-32页 *
互联网预定制信息的采集和监督研究;赵志超等;《计算机与网络》;20140826(第16期);69-72页 *

Also Published As

Publication number Publication date
CN107729475A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN107729475B (zh) 网页元素采集方法、装置、终端与计算机可读存储介质
US9330179B2 (en) Configuring web crawler to extract web page information
US10275339B2 (en) Accessibility testing software automation tool
US10908928B2 (en) Rules-based workflow messaging
CN106657192B (zh) 一种用于呈现服务调用信息的方法与设备
US10175954B2 (en) Method of processing big data, including arranging icons in a workflow GUI by a user, checking process availability and syntax, converting the workflow into execution code, monitoring the workflow, and displaying associated information
CN104765746B (zh) 用于移动通讯终端浏览器的数据处理方法和装置
CN107679214B (zh) 链接定位方法、装置、终端与计算机可读存储介质
CN110968314B (zh) 一种页面生成方法及装置
CN111427760A (zh) 页面测试方法、装置、设备及存储介质
US9104573B1 (en) Providing relevant diagnostic information using ontology rules
US10788959B2 (en) Personalization of a web application
JP6505849B2 (ja) 要素識別子の生成
CN114730341A (zh) 保护在本地应用的用户界面数据收集中的用户隐私
CN110764994A (zh) 页面元素封装方法、装置、电子设备及存储介质
JP2018500696A5 (zh)
US10769388B2 (en) Changing a language for a user session replay
CN112306870A (zh) 一种基于直播app的数据处理方法和装置
US9864739B1 (en) Automatic layout of graphical user interface screens from object data
CN116009863B (zh) 前端页面渲染方法、设备及存储介质
US10922476B1 (en) Resource-efficient generation of visual layout information associated with network-accessible documents
US20240054174A1 (en) Methods and systems for obtaining and storing web pages
JP5670377B2 (ja) Web閲覧履歴取得装置及びプログラム
CN113792243A (zh) 网页数据处理方法及装置、存储介质和电子设备
CN116185407A (zh) 一种数据处理方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 2401h, bike science and technology building, No.9, Keke Road, Central Science Park, Nanshan District, Shenzhen, Guangdong 518000

Patentee after: Shenzhen Shukuo Information Technology Co.,Ltd.

Address before: 2401h, bike science and technology building, No.9, Keke Road, Central Science Park, Nanshan District, Shenzhen, Guangdong 518000

Patentee before: SHENZHEN SKIEER INFORMATION TECHNOLOGY CO.,LTD.