CN108628860B - 一种自动获取网页数据的方法及装置 - Google Patents

一种自动获取网页数据的方法及装置 Download PDF

Info

Publication number
CN108628860B
CN108628860B CN201710152224.8A CN201710152224A CN108628860B CN 108628860 B CN108628860 B CN 108628860B CN 201710152224 A CN201710152224 A CN 201710152224A CN 108628860 B CN108628860 B CN 108628860B
Authority
CN
China
Prior art keywords
target
unique
target labels
labels
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710152224.8A
Other languages
English (en)
Other versions
CN108628860A (zh
Inventor
万振
丛磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shuju Xinyun Information Technology Co ltd
Original Assignee
Beijing Number Gather Xin Yun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Number Gather Xin Yun Information Technology Co Ltd filed Critical Beijing Number Gather Xin Yun Information Technology Co Ltd
Priority to CN201710152224.8A priority Critical patent/CN108628860B/zh
Publication of CN108628860A publication Critical patent/CN108628860A/zh
Application granted granted Critical
Publication of CN108628860B publication Critical patent/CN108628860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种自动获取网页数据的方法及装置,此方法包括:从客户端获知目标网页的地址和在目标网页的展示页面上选择框的位置;确定所述选择框内包含的各目标标签,以及各目标标签在所述目标网页内的唯一定位器;为各目标标签分别构建包含目标标签的唯一定位器的接口;通过目标标签的接口检测到目标标签的内容更新后,将更新后的此目标标签的内容或此目标标签的子容器内的内容推送至所述客户端。本发明可以使用户在网页的展示界面上选择出感兴趣的目标标签,自动检测此网页的目标标签处的信息是否更新,在信息更新后及时自动的推送给用户,可以大大提高用户的使用体验和操作的便捷性。

Description

一种自动获取网页数据的方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种自动获取网页数据的方法及装置。
背景技术
目前多数大型公众网页上都是按信息类型划分的,例如将网页上信息分为新闻、娱乐、体育、科技、健康等大类。在网页的版面上分别对应上述大类进行分区布置。不同用户的兴趣需求不同,但一般用户均只关注经常关心的一个或几个板块。例如新闻板块的前几个位置的标签处的新闻一般都是当天的重要新闻,某用户只关心每天的重要新闻时,用户在使用此网页时,需要每天打开此网页的新闻板块的前几个位置的标签来获取每天的重要新闻内容。现有技术中还没有为用户提供满足用户需求且节省用户操作时间的解决方案。因此,需要提供一种自动获取网页部分数据的方法及装置。
发明内容
为了解决上述技术问题,本发明提供了一种自动获取网页数据的方法及装置。
本发明提供的自动获取网页数据的方法,包括:
从客户端获知目标网页的地址和在目标网页的展示页面上选择框的位置;
确定所述选择框内包含的各目标标签,以及各目标标签在所述目标网页内的唯一定位器;
为各目标标签分别构建包含目标标签的唯一定位器的接口;
通过目标标签的接口检测到目标标签的内容更新后,将更新后的此目标标签的内容或此目标标签的子容器内的内容推送至所述客户端。
上述自动获取网页数据的方法还具有以下特点:
所述确定目标标签在所述目标网页内的唯一定位器包括:
根据目标标签的属性信息无法确定目标标签在所述目标网页内的唯一定位器时,通过查询父级元素的方式获取层递标识组合并将此层递标识组合作为所述目标网页内的唯一定位器;
或者,根据目标标签的属性信息确定目标标签在所述目标网页内的唯一定位器;
或者,通过查询父级元素的方式获取层递标识组合并将此层递标识组合作为所述目标网页内的唯一定位器。
上述自动获取网页数据的方法还具有以下特点:
所述根据各目标标签的属性信息确定各目标标签在所述目标网页内的唯一定位器包括:判断所述目标标签的属性信息在所述目标网页中唯一时将此属性信息作为目标标签在所述目标网页内的唯一定位器;所述属性信息包括以下信息是指以下信息中的一种:唯一标识属性、类属性和名称属性。
上述自动获取网页数据的方法还具有以下特点:
所述判断所述目标标签的属性信息在所述目标网页中唯一时将此属性信息作为目标标签在所述目标网页内的唯一定位器包括:在目标标签具有唯一标识属性时,将此唯一标识属性作为目标标签在所述目标网页内的唯一定位器;在目标标签不具有唯一标识属性时,判断目标标签的类属性在所述目标网页内是否唯一,如果是,将此类属性作为目标标签在所述目标网页内的唯一定位器,如果否,判断所述目标标签的名称属性在所述目标网页内是否唯一,如果是则将此名称属性作为目标标签在所述目标网页内的唯一定位器。
上述自动获取网页数据的方法还具有以下特点:
通过查询父级元素的方式获取唯一组合标识并将此唯一组合标识作为所述目标网页内的唯一定位器包括:向上逐级查找所述目标标签的父级元素直至查找到在所述目标网页中唯一的父级元素,将从此父级元素至所述目标标签的层递标识组合作为所述目标标签在所述目标网页内的唯一定位器。
上述自动获取网页数据的方法还具有以下特点:
所述通过各目标标签的接口检测到目标标签的内容更新后,将更新后的此目标标签的内容或此目标标签的子容器内的内容推送至所述客户端包括以下方式中的至少一种:
方式一,将各接口发送至后端服务器,从后端服务器接收到一个或一个以上接口的更新数据,将所述接口的更新数据推送至所述客户端;
方式二,将各接口发送至后端服务器,实时向后端服务器查询所述接口是否有更新数据,查询到有更新数据后,从后端服务器获取此接口的更新数据,将此接口的更新数据推送至所述客户端。
本发明提供的自动获取网页数据的装置,应用于中间处理器,包括:
接收模块,用于从客户端获知目标网页的地址和在目标网页的展示页面上选择框的位置;
定位模块,用于确定所述选择框内包含的各目标标签,以及各目标标签的唯一定位器;
接口构建模块,用于为各目标标签分别构建包含目标标签的唯一定位器的接口;
处理模块,用于通过各目标标签的接口检测到目标标签的内容更新后,将更新后的此目标标签的内容或此目标标签的子容器内的内容推送至所述客户端。
上述自动获取网页数据的装置还具有以下特点:
所述定位模块,还用于根据以下方法确定各目标标签在所述目标网页内的唯一定位器:
根据目标标签的属性信息无法确定目标标签在所述目标网页内的唯一定位器时,通过查询父级元素的方式获取层递标识组合并将此层递标识组合作为所述目标网页内的唯一定位器;
或者,根据目标标签的属性信息确定目标标签在所述目标网页内的唯一定位器;
或者,通过查询父级元素的方式获取层递标识组合并将此层递标识组合作为所述目标网页内的唯一定位器。
上述自动获取网页数据的装置还具有以下特点:
所述定位模块用于采用以下方式根据各目标标签的属性信息确定各目标标签在所述目标网页内的唯一定位器:判断所述目标标签的属性信息在所述目标网页中唯一时将此属性信息作为目标标签在所述目标网页内的唯一定位器;所述属性信息包括以下信息是指以下信息中的一种:唯一标识属性、类属性和名称属性。
上述自动获取网页数据的装置还具有以下特点:
所述定位模块还用于采用以下方法判断所述目标标签的属性信息在所述目标网页中唯一时将此属性信息作为目标标签在所述目标网页内的唯一定位器:在目标标签具有唯一标识属性时,将此唯一标识属性作为目标标签在所述目标网页内的唯一定位器;在目标标签不具有唯一标识属性时,判断目标标签的类属性在所述目标网页内是否唯一,如果是,将此类属性作为目标标签在所述目标网页内的唯一定位器,如果否,判断所述目标标签的名称属性在所述目标网页内是否唯一,如果是则将此名称属性作为目标标签在所述目标网页内的唯一定位器。
上述自动获取网页数据的装置还具有以下特点:
所述定位模块还用于采用以下方式通过查询父级元素的方式获取唯一组合标识并将此唯一组合标识作为所述目标网页内的唯一定位器:向上逐级查找所述目标标签的父级元素直至查找到在所述目标网页中唯一的父级元素,将从此父级元素至所述目标标签的层递标识组合作为所述目标标签在所述目标网页内的唯一定位器。
本发明可以使用户在网页的展示界面上选择出感兴趣的目标标签,自动检测此网页的目标标签处的信息是否更新,在信息更新后及时自动的推送给用户,可以大大提高用户的使用体验和操作的便捷性。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是实施例中自动获取网页数据的方法的流程图;
图2是实施例中自动获取网页数据的装置的结构图。
图3是具体实施例中网页结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是实施例中自动获取网页数据的方法的流程图,此方法包括:
步骤101,从客户端获知目标网页的地址和在目标网页的展示页面上选择框的位置;
步骤102,确定所述选择框内包含的各目标标签,以及各目标标签在所述目标网页内的唯一定位器;
步骤103,为各目标标签分别构建包含目标标签的唯一定位器的接口;
步骤104,通过各目标标签的接口检测到目标标签的内容更新后,将更新后的此目标标签的内容或此目标标签的子容器内的内容推送至所述客户端。
其中,步骤102中确定各目标标签在所述目标网页内的唯一定位器包括:根据目标标签的属性信息无法确定目标标签在所述目标网页内的唯一定位器时,通过查询父级元素的方式获取层递标识组合并将此层递标识组合作为所述目标网页内的唯一定位器;
或者,根据目标标签的属性信息确定目标标签在所述目标网页内的唯一定位器;
或者,通过查询父级元素的方式获取层递标识组合并将此层递标识组合作为所述目标网页内的唯一定位器。举例如下:目标标签的标签名称为A,此目标标签对应于URL地址为http://www.xxx.com.cn的网页的新闻头条的位置,此目标标签的属性信息(例如唯一标识属性和类属性)在此网页中均不唯一,或者,此目标标签不具有属性信息,则无法对此目标标签直接定位。进一步的,查找此目标标签的父级,此目标标签的父级的标签名称为LI,此LI是其父级的第三个子元素,所以此目标标签的父级的标识为LI:eq(3);此目标标签的父级的属性信息在此网页中均不唯一,或者,此目标标签的父级不具有属性信息,则无法对此目标标签的父级直接定位。进一步的,查找目标标签的二层父级即目标标签的父级的父级,目标标签的二层父级的标签名称为UL,目标标签的二层父级的类属性信息在网页中唯一,例如,其类属性list-a和news-top的组合在网页中唯一,所以此目标标签的二层父级在网页中的唯一标识为UL.list-a.news-top。所以确定目标标签的二层父级、目标标签的父级、目标标签此三层的层递标识组合并将此层递标识组合作为网页内的唯一定位器。此层递标识组合包括为UL.list-a.news-top>LI:eq(3)>A。
根据各目标标签的属性信息确定各目标标签在所述目标网页内的唯一定位器包括:判断所述目标标签的属性信息在所述目标网页中唯一时将此属性信息作为目标标签在所述目标网页内的唯一定位器。目标标签的属性信息包括多种,在本发明中典型的使用以下信息中的至少一种:唯一标识属性、类属性和名称属性。举例如下:在目标标签具有唯一标识属性时,将此唯一标识属性作为目标标签在所述目标网页内的唯一定位器;在目标标签不具有唯一标识属性时,判断目标标签的类属性在所述目标网页内是否唯一,如果是,将此类属性作为目标标签在所述目标网页内的唯一定位器,如果否,判断所述目标标签的名称属性在所述目标网页内是否唯一,如果是则将此名称属性作为目标标签在所述目标网页内的唯一定位器。
通过查询父级元素的方式获取唯一组合标识并将此唯一组合标识作为所述目标网页内的唯一定位器包括:向上逐级查找所述目标标签的父级元素直至查找到在所述目标网页中唯一的父级元素,将从此父级元素至所述目标标签的层递标识组合作为所述目标标签在所述目标网页内的唯一定位器。其中,层递标识组合是指依次包括从在所述目标网页中唯一的父级元素至当前目标标签之间各级的标识的组合。
步骤104中,通过各目标标签的接口检测到目标标签的内容更新后,将更新后的此目标标签的内容或此目标标签的子容器内的内容推送至所述客户端包括以下方式中的至少一种:
方式一,将各接口发送至后端服务器,从后端服务器接收到一个或一个以上接口的更新数据,将所述接口的更新数据推送至所述客户端。
方式二,将各接口发送至后端服务器,实时向后端服务器查询所述接口是否有更新数据,查询到有更新数据后,从后端服务器获取此接口的更新数据,将此接口的更新数据推送至所述客户端。
图2是实施例中自动获取网页数据的装置的结构图,此自动获取网页数据的装置可应用于中间处理器,包括:接收模块、定位模块、接口构建模块和处理模块。
其中,
接收模块用于从客户端获知目标网页的地址和在目标网页的展示页面上选择框的位置;
定位模块用于确定所述选择框内包含的各目标标签,以及各目标标签的唯一定位器;
接口构建模块用于为各目标标签分别构建包含目标标签的唯一定位器的接口;
处理模块用于通过各目标标签的接口检测到目标标签的内容更新后,将更新后的此目标标签的内容或此目标标签的子容器内的内容推送至所述客户端。
其中,
定位模块还用于根据以下方法确定各目标标签在所述目标网页内的唯一定位器:根据目标标签的属性信息无法确定目标标签在所述目标网页内的唯一定位器时,通过查询父级元素的方式获取层递标识组合并将此层递标识组合作为所述目标网页内的唯一定位器;
或者,根据目标标签的属性信息确定目标标签在所述目标网页内的唯一定位器;
或者,通过查询父级元素的方式获取层递标识组合并将此层递标识组合作为所述目标网页内的唯一定位器。
定位模块用于采用以下方式根据各目标标签的属性信息确定各目标标签在所述目标网页内的唯一定位器:判断所述目标标签的属性信息在所述目标网页中唯一时将此属性信息作为目标标签在所述目标网页内的唯一定位器;所述属性信息包括以下信息是指以下信息中的一种:唯一标识属性、类属性和名称属性。
定位模块还用于采用以下方法判断所述目标标签的属性信息在所述目标网页中唯一时将此属性信息作为目标标签在所述目标网页内的唯一定位器:在目标标签具有唯一标识属性时,将此唯一标识属性作为目标标签在所述目标网页内的唯一定位器;在目标标签不具有唯一标识属性时,判断目标标签的类属性在所述目标网页内是否唯一,如果是,将此类属性作为目标标签在所述目标网页内的唯一定位器,如果否,判断所述目标标签的名称属性在所述目标网页内是否唯一,如果是则将此名称属性作为目标标签在所述目标网页内的唯一定位器。
定位模块还用于采用以下方式通过查询父级元素的方式获取唯一组合标识并将此唯一组合标识作为所述目标网页内的唯一定位器:向上逐级查找所述目标标签的父级元素直至查找到在所述目标网页中唯一的父级元素,将从此父级元素至所述目标标签的层递标识组合作为所述目标标签在所述目标网页内的唯一定位器。
上述装置中的处理模块包括发送单元、接收单元和推送单元。
发送单元用于将各接口发送至后端服务器;
接收单元用于从后端服务器接收一个或一个以上接口的更新数据;
推送单元用于将所述接口的更新数据推送至所述客户端;
或者,处理模块包括发送单元、查询单元、接收单元和推送单元。
发送单元用于将各接口发送至后端服务器;
查询单元实时向后端服务器查询所述接口是否存在更新数据;
接收单元用于从后端服务器所述查询单元查询到的存在更新数据的接口的更新数据;
推送单元用于将所述接口的更新数据推送至所述客户端。
本发明中的选择框的形状典型的为长方型,也可以是长方型之处的常规形状例如圆形、椭圆形等,也可是手动画出的不规则形状。
本发明中的选择框可以是闭合的框,也可以是不闭合的框,如果选择框不闭合,则本发明中的处理器根据选择框的形状计算出选择框的闭合形状后,确定闭合形状内包含的目标标签。
下面以具体实施例详细说明本发明。
网页A中包括多个标签并按分类以不同板块分布,新闻板块分布在页面的最右侧。用户甲只关心网页A的新闻板块的前三个标签的内容,可以使用根据本发明的方案开发的软件,在客户端(例如电脑或手机)上从网页的展示界面上画出一选择框,使此选择框只包括新闻板块的前三个标签,如图3所示,选择框中只包括第一头条、第二头条和第三头条对应的三个标签。
中间处理器从客户端获知此用户甲在网页A上画出的选择框的位置,根据此选择框的位置确定用户选择的目标标签为第一头条、第二头条和第三头条对应的三个标签。
确定此三个标签网页A内的唯一定位器,为此三个目标标签分别构建包含其唯一定位器的接口即第一接口、第二接口和第三接口。将此三个接口发送至服务器,在从服务器接收到其中一个或一个以上接口更新后的数据后,将此接口更新后的数据推送至客户端。
如果网页A的第一头条、第二头条和第三头条的内容每天定时或不定时更新,则用户可以及时在内容更新后,获知更新后的新闻信息。
如果用户在兴趣点改变后,还可以选择其它板块的目标标签。即用户可以根据自身需要随时方便的更改目标标签。
通过本发明,用户可以为自己定制其感兴趣的推送内容,可以有效提高用户使用体验。
上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案而非限制,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种自动获取网页数据的方法,其特征在于,包括:
从客户端获知目标网页的地址和在目标网页的展示页面上选择框的位置;
确定所述选择框内包含的各目标标签,以及各目标标签在所述目标网页内的唯一定位器;
为各目标标签分别构建包含目标标签的唯一定位器的接口;
通过目标标签的接口检测到目标标签的内容更新后,将更新后的此目标标签的内容或此目标标签子容器内的内容推送至所述客户端;
所述确定目标标签在所述目标网页内的唯一定位器包括:
根据目标标签的属性信息无法确定目标标签在所述目标网页内的唯一定位器时,通过查询父级元素的方式获取层递标识组合并将此层递标识组合作为所述目标网页内的唯一定位器;
或者,根据目标标签的属性信息确定目标标签在所述目标网页内的唯一定位器;
或者,通过查询父级元素的方式获取层递标识组合并将此层递标识组合作为所述目标网页内的唯一定位器。
2.如权利要求1所述的自动获取网页数据的方法,其特征在于,
所述根据各目标标签的属性信息确定各目标标签在所述目标网页内的唯一定位器包括:判断所述目标标签的属性信息在所述目标网页中唯一时将此属性信息作为目标标签在所述目标网页内的唯一定位器;所述属性信息包括以下信息是指以下信息中的一种:唯一标识属性、类属性和名称属性。
3.如权利要求2所述的自动获取网页数据的方法,其特征在于,
所述判断所述目标标签的属性信息在所述目标网页中唯一时将此属性信息作为目标标签在所述目标网页内的唯一定位器包括:在目标标签具有唯一标识属性时,将此唯一标识属性作为目标标签在所述目标网页内的唯一定位器;在目标标签不具有唯一标识属性时,判断目标标签的类属性在所述目标网页内是否唯一,如果是,将此类属性作为目标标签在所述目标网页内的唯一定位器,如果否,判断所述目标标签的名称属性在所述目标网页内是否唯一,如果是则将此名称属性作为目标标签在所述目标网页内的唯一定位器。
4.如权利要求1所述的自动获取网页数据的方法,其特征在于,
通过查询父级元素的方式获取唯一组合标识并将此唯一组合标识作为所述目标网页内的唯一定位器包括:向上逐级查找所述目标标签的父级元素直至查找到在所述目标网页中唯一的父级元素,将从此父级元素至所述目标标签的层递标识组合作为所述目标标签在所述目标网页内的唯一定位器。
5.如权利要求1所述的自动获取网页数据的方法,其特征在于,
所述通过各目标标签的接口检测到目标标签的内容更新后,将更新后的此目标标签的内容或此目标标签的子容器内的内容推送至所述客户端包括以下方式中的至少一种:
方式一,将各接口发送至后端服务器,从后端服务器接收到一个或一个以上接口的更新数据,将所述接口的更新数据推送至所述客户端;
方式二,将各接口发送至后端服务器,实时向后端服务器查询所述接口是否有更新数据,查询到有更新数据后,从后端服务器获取此接口的更新数据,将此接口的更新数据推送至所述客户端。
6.一种自动获取网页数据的装置,应用于中间处理器,其特征在于,包括:
接收模块,用于从客户端获知目标网页的地址和在目标网页的展示页面上选择框的位置;
定位模块,用于确定所述选择框内包含的各目标标签,以及各目标标签的唯一定位器;
接口构建模块,用于为各目标标签分别构建包含目标标签的唯一定位器的接口;
处理模块,用于通过各目标标签的接口检测到目标标签的内容更新后,将更新后的此目标标签的内容或此目标标签的子容器内的内容推送至所述客户端;
所述定位模块,还用于根据以下方法确定各目标标签在所述目标网页内的唯一定位器:
根据目标标签的属性信息无法确定目标标签在所述目标网页内的唯一定位器时,通过查询父级元素的方式获取层递标识组合并将此层递标识组合作为所述目标网页内的唯一定位器;
或者,根据目标标签的属性信息确定目标标签在所述目标网页内的唯一定位器;
或者,通过查询父级元素的方式获取层递标识组合并将此层递标识组合作为所述目标网页内的唯一定位器。
7.如权利要求6所述的自动获取网页数据的装置,其特征在于,
所述定位模块用于采用以下方式根据各目标标签的属性信息确定各目标标签在所述目标网页内的唯一定位器:判断所述目标标签的属性信息在所述目标网页中唯一时将此属性信息作为目标标签在所述目标网页内的唯一定位器;所述属性信息包括以下信息是指以下信息中的一种:唯一标识属性、类属性和名称属性。
8.如权利要求7所述的自动获取网页数据的装置,其特征在于,
所述定位模块还用于采用以下方法判断所述目标标签的属性信息在所述目标网页中唯一时将此属性信息作为目标标签在所述目标网页内的唯一定位器:在目标标签具有唯一标识属性时,将此唯一标识属性作为目标标签在所述目标网页内的唯一定位器;在目标标签不具有唯一标识属性时,判断目标标签的类属性在所述目标网页内是否唯一,如果是,将此类属性作为目标标签在所述目标网页内的唯一定位器,如果否,判断所述目标标签的名称属性在所述目标网页内是否唯一,如果是则将此名称属性作为目标标签在所述目标网页内的唯一定位器。
9.如权利要求6所述的自动获取网页数据的装置,其特征在于,
所述定位模块还用于采用以下方式通过查询父级元素的方式获取唯一组合标识并将此唯一组合标识作为所述目标网页内的唯一定位器:向上逐级查找所述目标标签的父级元素直至查找到在所述目标网页中唯一的父级元素,将从此父级元素至所述目标标签的层递标识组合作为所述目标标签在所述目标网页内的唯一定位器。
CN201710152224.8A 2017-03-15 2017-03-15 一种自动获取网页数据的方法及装置 Active CN108628860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710152224.8A CN108628860B (zh) 2017-03-15 2017-03-15 一种自动获取网页数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710152224.8A CN108628860B (zh) 2017-03-15 2017-03-15 一种自动获取网页数据的方法及装置

Publications (2)

Publication Number Publication Date
CN108628860A CN108628860A (zh) 2018-10-09
CN108628860B true CN108628860B (zh) 2019-06-11

Family

ID=63686216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710152224.8A Active CN108628860B (zh) 2017-03-15 2017-03-15 一种自动获取网页数据的方法及装置

Country Status (1)

Country Link
CN (1) CN108628860B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095427A (zh) * 2015-07-17 2015-11-25 小米科技有限责任公司 搜索推荐方法和装置
CN105159787A (zh) * 2015-08-17 2015-12-16 北京京东尚科信息技术有限公司 一种网页动作处理方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6957198B2 (en) * 2000-12-07 2005-10-18 International Business Machines Corporation Use of persona object in electronic transactions
JP4146361B2 (ja) * 2004-01-21 2008-09-10 日本電信電話株式会社 ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体
CN101446979A (zh) * 2008-12-26 2009-06-03 北京科尔威视网络科技有限公司 动态热点跟踪的方法
CN101782913A (zh) * 2009-06-23 2010-07-21 北京搜狗科技发展有限公司 一种更新提醒的方法及浏览器
CN101882162B (zh) * 2010-06-29 2016-05-11 北京搜狗科技发展有限公司 一种网络信息推送方法及系统
CN101957842B (zh) * 2010-09-13 2012-08-01 青岛海信移动通信技术股份有限公司 一种基于WebKit浏览器的网页缓存控制方法、装置及系统
CN103377246B (zh) * 2012-04-27 2016-06-29 腾讯科技(深圳)有限公司 书签处理方法和终端浏览器
CN103064943B (zh) * 2012-12-25 2016-11-23 北京奇虎科技有限公司 一种客户端设备
CN104965691B (zh) * 2014-04-18 2018-11-06 腾讯科技(深圳)有限公司 配置网页页面的页面元素的方法、装置及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095427A (zh) * 2015-07-17 2015-11-25 小米科技有限责任公司 搜索推荐方法和装置
CN105159787A (zh) * 2015-08-17 2015-12-16 北京京东尚科信息技术有限公司 一种网页动作处理方法和装置

Also Published As

Publication number Publication date
CN108628860A (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
US8601120B2 (en) Update notification method and system
CN101534306B (zh) 一种钓鱼网站的检测方法及装置
CN104424261B (zh) 基于电子地图的信息展示方法及装置
EP2846268A1 (en) Graphical bookmark realization method, device and terminal for embedded browser
CN104239545B (zh) 一种多标签页的预览方法以及装置
KR101955463B1 (ko) 컨텐츠 분석에 따른 어플리케이션 추천 시스템 및 방법
CN103366002B (zh) 个性化垂直搜索方法及装置
CN108230113A (zh) 用户画像生成方法、装置、设备及可读存储介质
CN103207874A (zh) 一种网页更新内容的提示方法及系统
CN104239298A (zh) 文本信息推荐方法、服务器、浏览器及系统
CN104915845B (zh) 针对窗口的商品信息显示方法和装置
JP2010009315A (ja) 推薦店舗提示システム
CN110245069A (zh) 页面版本的测试方法和装置、页面的展示方法和装置
CN104699837B (zh) 网页配图选取方法、装置及服务器
CN102970348A (zh) 网络应用推送方法、系统和网络应用服务器
CN111984169B (zh) 电子书页面展示方法、计算设备及计算机存储介质
EP1898355A1 (en) Apparatus and method for identifying marker
CN103631793B (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN108628860B (zh) 一种自动获取网页数据的方法及装置
EP3007072B1 (en) Method for displaying site page related to current position in desired condition order in portable terminal, and system
CN105989167A (zh) 基于新闻客户端的数据采集方法及装置
CN108280102A (zh) 上网行为记录方法、装置及用户终端
CN104615440A (zh) 信息处理方法及电子设备
CN105205061A (zh) 一种电商网站的页面信息获取方法
JP2010231442A (ja) 情報提供装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100015 5 floor, block E, 201 IT tower, electronic city, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Applicant after: GUIZHOU BAISHANCLOUD TECHNOLOGY Co.,Ltd.

Address before: 100015 5 floor, block E, 201 IT tower, electronic city, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Applicant before: GUIZHOU BAISHANCLOUD TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20181107

Address after: 100015 Beijing Chaoyang District Jiuxianqiao North Road 10 hospital 201 Building 5 floor 505 inside 03

Applicant after: BEIJING SHUJU XINYUN INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 100015 5 floor, block E, 201 IT tower, electronic city, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Applicant before: GUIZHOU BAISHANCLOUD TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1262065

Country of ref document: HK