CN111831874B - 网页数据信息获取方法、装置、计算机设备及存储介质 - Google Patents
网页数据信息获取方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111831874B CN111831874B CN202010687241.3A CN202010687241A CN111831874B CN 111831874 B CN111831874 B CN 111831874B CN 202010687241 A CN202010687241 A CN 202010687241A CN 111831874 B CN111831874 B CN 111831874B
- Authority
- CN
- China
- Prior art keywords
- webpage
- data information
- variable
- common path
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了网页数据信息获取方法、装置、计算机设备及存储介质。方法包括:判断待获取网页的网络地址信息是否对应至少一个共有路径,若对应至少一个共有路径,确定与每一共有路径对应的多个可变后缀,判断标签数据库中是否包含与共有路径对应的网页父标签;若共有路径不包含于标签数据库,根据多个可变后缀遍历共有路径对应的网页获取网页数据信息;若共有路径包含于标签数据库,根据多个可变后缀及网页父标签获取新增的网页数据信息。本发明基于数据采集技术,基于用户所输入的待获取网页,扩展获取与待获取网页相关联的多个网页中的网页数据信息,可大幅提升获取网页数据信息的效率,并可确保获取到的网页数据信息的完整性。
Description
技术领域
本发明涉及数据采集技术领域,属于智慧城市中数据采集相关的应用场景,尤其涉及一种网页数据信息获取方法、装置、计算机设备及存储介质。
背景技术
在对数据信息进行获取时,从一个网页中获取其中所包含的数据信息,则用户需输入与该网页对应的一个网络地址信息以获取相关信息,此方法可对某一特定网页的数据进行获取。而通常情况下需要批量获取海量网页中的数据信息,而确定每一个网页所对应的网络地址信息并输入信息获取程序的工作量十分巨大,且难以确保所获取到的数据信息毫无遗漏,导致获取数据信息的过程效率较低,且所获取到的数据信息的完整性不足。因此,现有的技术方法中对海量网页中的数据信息进行获取时存在效率较低及获取完整性不足的问题。
发明内容
本发明实施例提供了一种网页数据信息获取方法、装置、计算机设备及存储介质,旨在解决现有技术方法中对海量网页中的数据信息进行获取时所存在的效率较低且获取完整性不足的问题。
第一方面,本发明实施例提供了一种网页数据信息获取方法,其包括:
若接收到用户所输入的待获取网页,判断所述待获取网页中的网络地址信息是否对应至少一个共有路径,所述待获取网页中至少包含两个网络地址信息;
若所述待获取网页中的网络地址信息对应至少一个共有路径,根据与一个所述共有路径对应的多个网络地址信息确定与所述共有路径对应的多个可变后缀;
判断预存的标签数据库中是否包含与所述共有路径对应的网页父标签;
若所述标签数据库中不包含与所述共有路径对应的网页父标签,则根据多个所述可变后缀遍历与所述共有路径对应的网页以获取得到网页数据信息;
若所述标签数据库中包含与所述共有路径对应的网页父标签,根据多个所述可变后缀及对应的所述网页父标签获取得到新增的网页数据信息。
第二方面,本发明实施例提供了一种网页数据信息获取装置,其包括:
网络地址信息判断单元,用于若接收到用户所输入的待获取网页,判断所述待获取网页中的网络地址信息是否对应至少一个共有路径,所述待获取网页中至少包含两个网络地址信息;
可变后缀确定单元,用于若所述待获取网页中的网络地址信息对应至少一个共有路径,根据与一个所述共有路径对应的多个网络地址信息确定与所述共有路径对应的多个可变后缀;
共有路径判断单元,用于判断预存的标签数据库中是否包含与所述共有路径对应的网页父标签;
第一网页数据信息获取单元,用于若所述标签数据库中不包含与所述共有路径对应的网页父标签,则根据多个所述可变后缀遍历与所述共有路径对应的网页以获取得到网页数据信息;
第二网页数据信息获取单元,用于若所述标签数据库中包含与所述共有路径对应的网页父标签,根据多个所述可变后缀及对应的所述网页父标签获取得到新增的网页数据信息。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的网页数据信息获取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的网页数据信息获取方法。
本发明实施例提供了一种网页数据信息获取方法、装置、计算机设备及存储介质。判断待获取网页的网络地址信息是否对应至少一个共有路径,若对应至少一个共有路径,确定与每一共有路径对应的多个可变后缀,判断标签数据库中是否包含与共有路径对应的网页父标签;若共有路径不包含于标签数据库,根据多个可变后缀遍历共有路径对应的网页获取网页数据信息;若共有路径包含于标签数据库,根据多个可变后缀及网页父标签获取新增的网页数据信息。通过上述方法,基于用户所输入的待获取网页,扩展获取与待获取网页相关联的多个网页中的网页数据信息,可大幅提升获取网页数据信息的效率,并可确保获取到的网页数据信息的完整性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的网页数据信息获取方法的流程示意图;
图2为本发明实施例提供的网页数据信息获取方法的子流程示意图;
图3为本发明实施例提供的网页数据信息获取方法的另一子流程示意图;
图4为本发明实施例提供的网页数据信息获取方法的另一流程示意图;
图5为本发明实施例提供的网页数据信息获取方法的另一子流程示意图;
图6为本发明实施例提供的网页数据信息获取方法的另一子流程示意图;
图7为本发明实施例提供的网页数据信息获取方法的另一流程示意图;
图8为本发明实施例提供的网页数据信息获取装置的示意性框图;
图9为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的网页数据信息获取方法的流程示意图,该网页数据信息获取方法应用于用户终端中,该方法通过安装于用户终端中的应用软件进行执行,用户终端即是用于执行网页数据信息获取方法接收用户所输入的待获取网页并获取对应网页数据信息的终端设备,例如企业终端、工作站、台式电脑、笔记本电脑、平板电脑或手机等。如图1所示,该方法包括步骤S110~S150。
S110、若接收到用户所输入的待获取网页,判断所述待获取网页中的网络地址信息是否对应至少一个共有路径,所述待获取网页中至少包含两个网络地址信息。
若接收到用户所输入的待获取网页,判断所述待获取网页中的网络地址信息是否对应至少一个共有路径,所述待获取网页中至少包含两个网络地址信息。用户即为用户终端的使用者,用户可输入包含至少两个网络地址信息的待获取网页,网络地址信息即为采用网页HTML格式进行记载的网页标签,一个网络地址信息即对应包含相应网页数据信息的一个网页。对待获取网页中所包含的多个网络地址信息是否对应至少一个共有路径进行判断,若多个网络地址信息对应一个共有路径,则表明该共有路径对应的多个网络地址信息的网页为从属于某一主网页的多个子网页,也即是该共有路径对应的多个网络地址信息存在一定的关联;若待获取网页中的网络地址信息不对应共有路径,则表明其中的多个网络地址信息之间均不存在关联。
在一实施例中,如图2所示,步骤S110包括子步骤S111、S112和S113。
S111、根据预置的拆分规则将每一所述网络地址信息拆分为树状结构;S112、对多个所述网络地址信息的树状结构进行组合以得到树状图;S113、判断所述树状图中的任意两个所述网络地址信息是否对应一条共有路径。
具体的,可根据预置的拆分规则将每一网络地址信息拆分为对应的树状结构,所得到的树状结构包含多个节点组成的节点链,节点链中相链接的两个节点分别为父节点与子节点,拆分规则即为对网络地址信息中各部分拆分为多个可链接的节点的规则信息。例如,某一网络地址信息表示为“www.xxx.com/table/tbody/tr[0]/td[0].html”,根据拆分规则删除“.html”这个后缀并将“.”或“/”作为间隔符对该网络地址信息进行拆分,得到的树状结构可表示为“www>xxx>com>table>tbody>tr[0]>td[0]”。对多个网络地址信息对应的树状结构进行组合,得到一个树状图,在组合过程中从树状结构的最顶层的父节点开始组合,若最顶层的父节点相同,则判断两个树状结构中与该父节点相链接的两个子节点是否相同,直至与某一父节点相链接的两个子节点不相同为止。例如,另一树状结构为“www>xxx>com>table>tbody>tr[1]>td[0]”,则两个树状结构中的“www>xxx>com>table>tbody”这部分结构均相同,可将两个树状结构进行组合得到一个树状图,树状图中从“tbody”这一节点分别引出两个子节点“tr[1]>td[0]”及“tr[0]>td[0]”。根据所得到的树状图即可对待获取网页中的网络地址信息是否对应至少一个共有路径进行判断。
S120、若所述待获取网页中的网络地址信息对应至少一个共有路径,根据与一个所述共有路径对应的多个网络地址信息确定与所述共有路径对应的多个可变后缀。
若所述待获取网页中的网络地址信息对应至少一个共有路径,根据与一个所述共有路径对应的多个网络地址信息确定与所述共有路径对应的多个可变后缀。根据一个共有路径对应的多个网络地址信息,即可确定与该共有路径对应的多个可变后缀,可变后缀即为一个网络地址信息中除去共有路径后剩余的部分,由于一个共有路径对应多个网络地址信息,因此一个共有路径也对应多个可变后缀。待获取网页所包含的网络地址信息可对应一个或多个共有路径,上述步骤仅列举对一个共有路径对应的多个网络地址信息进行处理的方法,若待获取网页所包含的网络地址信息对应多个共有路径,则可依据上述处理方法对多个共有路径各自所对应的网络地址信息进行处理。
例如,“www>xxx>com>table>tbody”为共有路径,可变后缀分别为“tr[1]>td[0]”及“tr[0]>td[0]”。
若所述待获取网页中的网络地址信息不对应共有路径,从所述待获取网页中每一所述网络地址信息对应的网页中单独获取得到对应的网页数据信息。若待获取网页中的多个网络地址信息不对应共有路径,也即表明各网络地址信息之间均不存在关联,则可从每一网络地址信息对应的网页中单独获取网页数据信息。
S130、判断预存的标签数据库中是否包含与所述共有路径对应的网页父标签。
判断预存的标签数据库中是否包含与所述共有路径对应的网页父标签。标签数据库即为用户终端中预先存储的数据库,标签数据库中存储有多个网页父标签,网页父标签即是根据已获取网页数据信息的历史共有路径所生成的网页标签,一个历史共有路径可对应生成一个网页父标签。可获取标签数据库中的网页父标签,并判断所获取到的共有路径是否与任一网页父标签对应,以得到标签数据库中是否包含与共有路径对应的网页父标签的判断结果。网页父标签由一个共有路径及与该共有路径对应的路径后缀范围组成,将所得到的共有路径与每一网页父标签中的共有路径是否相同进行对比,即可判断标签数据库中是否包含与共有路径对应的网页父标签。
S140、若所述标签数据库中不包含与所述共有路径对应的网页父标签,则根据多个所述可变后缀遍历与所述共有路径对应的网页以获取得到网页数据信息。
若所述标签数据库中不包含与所述共有路径对应的网页父标签,则根据多个所述可变后缀遍历与所述共有路径对应的网页以获取得到网页数据信息。若数据库中不包含该共有路径对应的网页父标签,则需根据与该共有路径对应的可变后缀对共有路径所对应的多个网页进行遍历,以获取每一网页中所包含的网页数据信息。具体的,共有路径与一个可变后缀的组合即为一个网页的网络地址信息,对该可变后缀中的可变参数进行调整,即可实现上述遍历过程。
在一实施例中,如图3所示,步骤S140包括子步骤S141、S142和S143。
S141、根据多个所述可变后缀确定与所述共有路径相关联的可变参数。
根据多个所述可变后缀确定与所述共有路径相关联的可变参数。具体的,可变参数即为多个可变后缀中不相同的数值,可变参数均为数字,所确定得到的可变参数可以为一个或多个。
例如,某两个可变后缀为“tr[1]>td[0]”及“tr[0]>td[0]”,则可确定得到一个可变参数为“tr[x]”中的数值“x”;某三个可变后缀分别为“tr[1]>td[0]”、“tr[0]>td[0]”及“tr[0]>td[1]”,则可确定得到两个可变参数为“tr[x]>td[y]”中的数值“x”和数值“y”。
S142、将所述共有路径与对应的任意一个所述可变后缀及所述可变参数组合得到可变路径。
将所述共有路径与对应的任意一个所述可变后缀及所述可变参数组合得到可变路径。具体的,将与共有路径对应的任意一个可变后缀中与上述可变参数对应的数值替换为可变参数,并与共有路径组合后得到一个可变路径。
例如,“www>xxx>com>table>tbody”为共有路径,可变后缀中与可变参数对应的数值替换为可变参数得到“tr[x]>td[y]”,将两者组合后得到一个可变路径为“www>xxx>com>table>tbody>tr[x]>td[y]”,其中“x”和“y”为两个可变参数。
S143、从所述可变路径所对应的多个网页中获取得到所述网页数据信息。
从所述可变路径所对应的多个网页中获取得到所述网页数据信息。调整可变路径中的可变参数,以从调整可变路径所得到的多个网页中获取对应的网页数据信息,每一调整均只针对一个可变参数进行。
例如,可变路径为“www>xxx>com>table>tbody>tr[x]>td[y]”,先确定x=0,从y=0开始对y的数值进行递加调整,每次递加1,直至调整后的可变路径并不对应一个可以打开的网页,打开每次调整后所得到的可变路径对应的一个网页,若该网页可以打开则从该网页中获取对应的网页数据信息;若该网页不可打开,则重新确定x的值(如何确定x=1),从y=0开始再次对y的数值进行递加调整,每次递加1,直至调整后的可变路径并不对应一个可以打开的网页。重复上述步骤,即可实现从调整可变路径所得到的多个网页中获取对应的网页数据信息。由于上述根据可变路径获取对应网页数据信息的方法,可基于用户所输入的待获取网页扩展获取相关联的多个网页中的网页数据信息,因此可大幅提升获取网页数据信息的效率及完整性。
在一实施例中,如图4所示,步骤S140之后还包括步骤S1410。
S1410、根据所述可变后缀及所述共有路径生成对应的网页父标签并添加至所述标签数据库中。
根据所述可变后缀及所述共有路径生成对应的网页父标签并添加至所述标签数据库中。在对共有路径进行遍历得到对应的网页数据信息后,该共有路径即为已获取网页数据信息的历史共有路径,一个历史共有路径可对应生成一个网页父标签,可将该共有路径作为历史共有路径,并根据与该历史共有路径对应的可变后缀生成网页父标签并添加至标签数据库中,以方便根据标签数据库对其他共有路径进行判断。
在一实施例中,如图5所示,步骤S1410包括子步骤S1411和S1412。
S1411、对与所述共有路径对应的网页进行遍历的过程进行记录,以获取对应的遍历范围作为所述共有路径的路径后缀范围;S1412、根据所述路径后缀范围生成与所述共有路径对应的网页父标签并添加至所述标签数据库中。
具体的,对共有路径对应的网页进行遍历的过程进行记录,也即是获取与该共有路径对应的可变路径中可变参数的取值范围,将可变后缀中与可变参数对应的数值替换为所得到的取值范围即可得到与共有路径对应的路径后缀范围。例如,可变路径中“www>xxx>com>table>tbody>tr[x]>td[y]”,x的取值范围为0、1或2;y的取值范围为0或1,则可将x和y的取值范围添加至可变路径中即可得到共有路径的路径后缀范围。网页父标签由共有路径及路径后缀范围组成,将所得到的路径后缀范围及该共有路径进行组合,即可生成一个网页父标签。
S150、若所述标签数据库中包含与所述共有路径对应的网页父标签,根据多个所述可变后缀及对应的所述网页父标签获取得到新增的网页数据信息。
若所述标签数据库中包含与所述共有路径对应的网页父标签,根据多个所述可变后缀及对应的所述网页父标签获取得到新增的网页数据信息。若标签数据库中包含与共有路径对应的网页信息,则表明在此之前已经从该共有路径对应的网页中获取过网页数据信息,已获取网页数据信息的网页无需再次获取,因此可根据可变后缀及对应的网页父标签获取新增的网页数据信息,新增的网页数据信息为之前未获取过的网页数据信息。
在一实施例中,如图6所示,步骤S150包括子步骤S151、S152、S153和S154。
S151、判断多个所述可变后缀是否均包含于对应的所述网页父标签的路径后缀范围内。
判断多个所述可变后缀是否均包含于对应的所述网页父标签的路径后缀范围内。对可变后缀是否均包含于该网页父节点的路径后缀范围内进行判断,也即是判断可变后缀中的数值是否为包含于路径后缀范围中可变参数的取值范围内,若可变后缀中的数值包含于可变参数的取值范围内,则表明该可变后缀包含于路径后缀范围内;若可变后缀中的数值不包含于可变参数的取值范围内,则表明该可变后缀不包含于路径后缀范围内。
S152、若所述可变后缀均包含于所述路径后缀范围内,发送无法重复获取网页数据信息的提示信息至所述用户。
若所述可变后缀均包含于所述路径后缀范围内,发送无法重复获取网页数据信息的提示信息至所述用户。若可变后缀均包含于路径后缀范围内,则表明已从与每一可变后缀对应的网页中获取过网页数据信息,此时可发送无法重复获取网页数据信息的提示信息至使用该用户终端的用户。
S153、若所述可变后缀不均包含于所述路径后缀范围内,将不包含于所述路径后缀范围内的可变后缀确定为目标可变后缀。
若所述可变后缀不均包含于所述路径后缀范围内,将不包含于所述路径后缀范围内的可变后缀确定为目标可变后缀。若存在至少一个可变后缀不包含于路径后缀范围内,则不包含于路径后缀范围内的可变后缀对应的网页中网页数据信息未在之前获取过,可将不包含于路径后缀范围内的可变后缀确定为目标可变后缀,并从目标可变后缀对应的网页中获取新增的网页数据信息。
S154、根据所述目标可变后缀及所述路径后缀范围确定对应的新增遍历范围,并根据所述新增遍历范围遍历与所述网页父标签对应的网页以获取得到新增的网页数据信息。
可根据目标可变后缀及路径后缀范围确定新增遍历范围,新增遍历范围与路径后缀范围所对应的遍历范围不重叠,根据新增变量范围与该网页父标签进行结合以从对应的网页中获取新增的网页数据信息。具体的,获取目标可变后缀中未包含于路径后缀范围中可变参数的取值范围内的数值,将所得到的数值对应的可变参数作为目标可变参数,将目标可变参数的参数值在可变参数的取值范围之外的范围确定为新增变量范围,根据该新增变量范围遍历与所述网页父标签对应的网页。
例如,路径后缀范围所对应的可变路径为“www>xxx>com>table>tbody>tr[x]>td[y]”,x的取值范围为0、1或2;y的取值范围为0或1,某一目标可变后缀为“tr[2]>td[4]”,则根据该目标可变后缀可确定目标可变参数为y,可进一步确定新增遍历范围为“tr[2]>td[y]”,其中y为大于1的正整数;则遍历与所述网页父标签对应的网页的过程即为,从y=2开始对新增遍历范围中y的数值进行递加调整,每次递加1,直至调整后的可变路径并不对应一个可以打开的网页。
此外,S154之后还可以包括步骤:对与所述网页父标签对应的网页进行遍历的过程进行记录以获取对应的扩展遍历范围;根据所述扩展新增遍历对所述网页父标签的路径后缀范围进行更新。
具体的,对网页父标签对应的网页进行遍历的过程进行记录,也即是获取与该网页父标签对应的可变路径中可变参数的扩展取值范围,根据该扩展取值范围对该网页父标签对应的可变路径中可变参数的取值范围进行更新,也即是实现对所述网页父标签的路径后缀范围进行更新。例如,新增遍历范围为“tr[2]>td[y]”,得到扩展取值范围为y=2、3或4,则可将“x=2,y=y=2、3或4”这一扩展取值范围添加至原始可变路径中可变参数的取值范围内,以实现对网页父标签的路径后缀范围进行更新。
在一实施例中,如图7所示,步骤S140或S150之后还包括步骤S160和S170。
S160、判断所述网页数据信息中所包含的网络地址信息的数量是否大于零;S170、若所述网页数据信息中包含的网络地址信息的数量大于零,根据所述网页数据信息中的网络地址信息进一步获取该网络地址信息所对应的网页数据信息。
判断所述网页数据信息中所包含的网络地址信息的数量是否大于零,若大于零获取所述网页数据信息中的网络地址信息。所得到的网页数据信息有可能是网络地址信息,则可对获取到的网页数据信息中所包含的网络地址信息的数量是否大于零进行判断,若大于零,则进一步从所得到的网页数据信息中所包含的网络地址信息中获取对应的网页数据信息,进一步获取网页数据信息的方法同上述方法步骤;若不大于零,则无法从所得到的网页数据信息中进一步获取网页数据信息,也即无需执行步骤S170。
具体的,进一步判断网页数据信息中的网络地址信息的数量是否大于一;若所述网络地址信息的数量大于一,将所述网络地址信息作为待获取网页并返回执行所述对所述待获取网页中的网络地址信息是否对应至少一个共有路径进行判断的步骤。若所述网络地址信息的数量不大于一,从所述网络地址信息对应的网页中单独获取得到对应的网页数据信息。
本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等包含数据采集的应用场景中,从而推动智慧城市的建设。
在本发明实施例所提供的网页数据信息获取方法中,判断待获取网页的网络地址信息是否对应至少一个共有路径,若对应至少一个共有路径,确定与每一共有路径对应的多个可变后缀,判断标签数据库中是否包含与共有路径对应的网页父标签;若共有路径不包含于标签数据库,根据多个可变后缀遍历共有路径对应的网页获取网页数据信息;若共有路径包含于标签数据库,根据多个可变后缀及网页父标签获取新增的网页数据信息。通过上述方法,基于用户所输入的待获取网页,扩展获取与待获取网页相关联的多个网页中的网页数据信息,可大幅提升获取网页数据信息的效率,并可确保获取到的网页数据信息的完整性。
本发明实施例还提供一种网页数据信息获取装置,该网页数据信息获取装置用于执行前述网页数据信息获取方法的任一实施例。具体地,请参阅图8,图8是本发明实施例提供的网页数据信息获取装置的示意性框图。该网页数据信息获取装置可以配置于用户终端中。
如图8所示,网页数据信息获取装置100包括网络地址信息判断单元110、可变后缀确定单元120、共有路径判断单元130、第一网页数据信息获取单元140和第二网页数据信息获取单元150。
网络地址信息判断单元110,用于若接收到用户所输入的待获取网页,判断所述待获取网页中的网络地址信息是否对应至少一个共有路径,所述待获取网页中至少包含两个网络地址信息。
在一实施例中,所述网络地址信息判断单元110包括子单元:树状结构获取单元、树状结构组合单元和判断单元。
树状结构获取单元,用于根据预置的拆分规则将每一所述网络地址信息拆分为树状结构;树状结构组合单元,用于对多个所述网络地址信息的树状结构进行组合以得到树状图;判断单元,用于判断所述树状图中的任意两个所述网络地址信息是否对应一条共有路径。
可变后缀确定单元120,用于若所述待获取网页中的网络地址信息对应至少一个共有路径,根据与一个所述共有路径对应的多个网络地址信息确定与所述共有路径对应的多个可变后缀。
共有路径判断单元130,用于判断预存的标签数据库中是否包含与所述共有路径对应的网页父标签。
第一网页数据信息获取单元140,用于若所述标签数据库中不包含与所述共有路径对应的网页父标签,则根据多个所述可变后缀遍历与所述共有路径对应的网页以获取得到网页数据信息。
在一实施例中,所述第一网页数据信息获取单元140包括子单元:可变参数确定单元、可变路径获取单元和数据信息获取单元。
可变参数确定单元,用于根据多个所述可变后缀确定与所述共有路径相关联的可变参数;可变路径获取单元,用于将所述共有路径与对应的任意一个所述可变后缀及所述可变参数组合得到可变路径;数据信息获取单元,用于从所述可变路径所对应的多个网页中获取得到所述网页数据信息。
在一实施例中,所述网页数据信息获取装置100还包括子单元:网页父标签生成单元。
网页父标签生成单元,用于根据所述可变后缀及所述共有路径生成对应的网页父标签并添加至所述标签数据库中。
在一实施例中,所述网页父标签生成单元包括子单元:路径后缀范围确定单元和生成单元。
路径后缀范围确定单元,用于对与所述共有路径对应的网页进行遍历的过程进行记录,以获取对应的遍历范围作为所述共有路径的路径后缀范围;生成单元,用于根据所述路径后缀范围生成与所述共有路径对应的网页父标签并添加至所述标签数据库中。
第二网页数据信息获取单元150,用于若所述标签数据库中包含与所述共有路径对应的网页父标签,根据多个所述可变后缀及对应的所述网页父标签获取得到新增的网页数据信息。
在一实施例中,所述第二网页数据信息获取单元150包括子单元:可变后缀判断单元、提示信息发送单元、目标可变后缀确定单元和新增网页数据信息获取单元。
可变后缀判断单元,用于判断多个所述可变后缀是否均包含于对应的所述网页父标签的路径后缀范围内;提示信息发送单元,用于若所述可变后缀均包含于所述路径后缀范围内,发送无法重复获取网页数据信息的提示信息至所述用户;目标可变后缀确定单元,用于若所述可变后缀不均包含于所述路径后缀范围内,将不包含于所述路径后缀范围内的可变后缀确定为目标可变后缀;新增网页数据信息获取单元,用于根据所述目标可变后缀及所述路径后缀范围确定对应的新增遍历范围,并根据所述新增遍历范围遍历与所述网页父标签对应的网页以获取得到新增的网页数据信息。
在一实施例中,所述网页数据信息获取装置100还包括子单元:网页数据信息判断单元和获取单元。
网页数据信息判断单元,用于判断所述网页数据信息中所包含的网络地址信息的数量是否大于零;获取单元,用于若所述网页数据信息中包含的网络地址信息的数量大于零,根据所述网页数据信息中的网络地址信息进一步获取该网络地址信息所对应的网页数据信息。
在本发明实施例所提供的网页数据信息获取装置应用上述网页数据信息获取方法,判断待获取网页的网络地址信息是否对应至少一个共有路径,若对应至少一个共有路径,确定与每一共有路径对应的多个可变后缀,判断标签数据库中是否包含与共有路径对应的网页父标签;若共有路径不包含于标签数据库,根据多个可变后缀遍历共有路径对应的网页获取网页数据信息;若共有路径包含于标签数据库,根据多个可变后缀及网页父标签获取新增的网页数据信息。通过上述方法,基于用户所输入的待获取网页,扩展获取与待获取网页相关联的多个网页中的网页数据信息,可大幅提升获取网页数据信息的效率,并可确保获取到的网页数据信息的完整性。
上述网页数据信息获取装置可以实现为计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行网页数据信息获取方法以获取网页数据信息的用户终端。
参阅图9,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行网页数据信息获取方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行网页数据信息获取方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图9中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现上述的网页数据信息获取方法中对应的功能。
本领域技术人员可以理解,图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图9所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现上述的网页数据信息获取方法中所包含的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种网页数据信息获取方法,应用于用户终端中,其特征在于,所述方法包括:
若接收到用户所输入的待获取网页,判断所述待获取网页中的网络地址信息是否对应至少一个共有路径,所述待获取网页中至少包含两个网络地址信息;
若所述待获取网页中的网络地址信息对应至少一个共有路径,根据与一个所述共有路径对应的多个网络地址信息确定与所述共有路径对应的多个可变后缀;
判断预存的标签数据库中是否包含与所述共有路径对应的网页父标签;
若所述标签数据库中不包含与所述共有路径对应的网页父标签,则根据多个所述可变后缀遍历与所述共有路径对应的网页以获取得到网页数据信息;
若所述标签数据库中包含与所述共有路径对应的网页父标签,根据多个所述可变后缀及对应的所述网页父标签获取得到新增的网页数据信息。
2.根据权利要求1所述的网页数据信息获取方法,其特征在于,所述对所述待获取网页中的网络地址信息是否对应至少一个共有路径进行判断,包括:
根据预置的拆分规则将每一所述网络地址信息拆分为树状结构;
对多个所述网络地址信息的树状结构进行组合以得到树状图;
判断所述树状图中的任意两个所述网络地址信息是否对应一条共有路径。
3.根据权利要求1所述的网页数据信息获取方法,其特征在于,所述则根据多个所述可变后缀遍历与所述共有路径对应的网页以获取得到网页数据信息,包括:
根据多个所述可变后缀确定与所述共有路径相关联的可变参数;
将所述共有路径与对应的任意一个所述可变后缀及所述可变参数组合得到可变路径;
从所述可变路径所对应的多个网页中获取得到所述网页数据信息。
4.根据权利要求1所述的网页数据信息获取方法,其特征在于,还包括:
根据所述可变后缀及所述共有路径生成对应的网页父标签并添加至所述标签数据库中。
5.根据权利要求4所述的网页数据信息获取方法,其特征在于,所述根据所述可变后缀及所述共有路径生成对应的网页父标签并添加至所述标签数据库中,包括:
对与所述共有路径对应的网页进行遍历的过程进行记录,以获取对应的遍历范围作为所述共有路径的路径后缀范围;
根据所述路径后缀范围生成与所述共有路径对应的网页父标签并添加至所述标签数据库中。
6.根据权利要求1所述的网页数据信息获取方法,其特征在于,所述根据多个所述可变后缀及对应的所述网页父标签获取得到新增的网页数据信息,包括:
判断多个所述可变后缀是否均包含于对应的所述网页父标签的路径后缀范围内;
若所述可变后缀均包含于所述路径后缀范围内,发送无法重复获取网页数据信息的提示信息至所述用户;
若所述可变后缀不均包含于所述路径后缀范围内,将不包含于所述路径后缀范围内的可变后缀确定为目标可变后缀;
根据所述目标可变后缀及所述路径后缀范围确定对应的新增遍历范围,并根据所述新增遍历范围遍历与所述网页父标签对应的网页以获取得到新增的网页数据信息。
7.根据权利要求1所述的网页数据信息获取方法,其特征在于,还包括:
判断所述网页数据信息中所包含的网络地址信息的数量是否大于零;
若所述网页数据信息中包含的网络地址信息的数量大于零,根据所述网页数据信息中的网络地址信息进一步获取该网络地址信息所对应的网页数据信息。
8.一种网页数据信息获取装置,其特征在于,包括:
网络地址信息判断单元,用于若接收到用户所输入的待获取网页,判断所述待获取网页中的网络地址信息是否对应至少一个共有路径,所述待获取网页中至少包含两个网络地址信息;
可变后缀确定单元,用于若所述待获取网页中的网络地址信息对应至少一个共有路径,根据与一个所述共有路径对应的多个网络地址信息确定与所述共有路径对应的多个可变后缀;
共有路径判断单元,用于判断预存的标签数据库中是否包含与所述共有路径对应的网页父标签;
第一网页数据信息获取单元,用于若所述标签数据库中不包含与所述共有路径对应的网页父标签,则根据多个所述可变后缀遍历与所述共有路径对应的网页以获取得到网页数据信息;
第二网页数据信息获取单元,用于若所述标签数据库中包含与所述共有路径对应的网页父标签,根据多个所述可变后缀及对应的所述网页父标签获取得到新增的网页数据信息。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的网页数据信息获取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的网页数据信息获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010687241.3A CN111831874B (zh) | 2020-07-16 | 2020-07-16 | 网页数据信息获取方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010687241.3A CN111831874B (zh) | 2020-07-16 | 2020-07-16 | 网页数据信息获取方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111831874A CN111831874A (zh) | 2020-10-27 |
CN111831874B true CN111831874B (zh) | 2022-08-19 |
Family
ID=72923367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010687241.3A Active CN111831874B (zh) | 2020-07-16 | 2020-07-16 | 网页数据信息获取方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111831874B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8838602B1 (en) * | 2011-10-11 | 2014-09-16 | Google Inc. | Systems and methods for web page grouping based on URLs |
CN106874340A (zh) * | 2016-12-22 | 2017-06-20 | 新华三技术有限公司 | 一种网页地址分类方法及装置 |
CN107943838A (zh) * | 2017-10-30 | 2018-04-20 | 北京大数元科技发展有限公司 | 一种自动获取xpath生成爬虫脚本的方法及系统 |
EP3361701A1 (en) * | 2016-05-11 | 2018-08-15 | Oracle International Corporation | Multi-tenant identity and data security management cloud service |
CN110390038A (zh) * | 2019-07-25 | 2019-10-29 | 中南民族大学 | 基于dom树的页面分块方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100751622B1 (ko) * | 1999-11-26 | 2007-08-22 | 네테카 인코포레이티드 | 네트워크 어드레스 서버, 도메인 명칭 분석 방법, 및 컴퓨터 판독 가능 기록 매체 |
US20150242529A1 (en) * | 2014-02-21 | 2015-08-27 | Pradeep S. Kinger | Method for Interlacing Multiple Internet domain names with a Database Driven Website to Obtain Better Webpage Ranking on Major Search Engines by Executing Computer-Executable Instructions Stored On a Non-Transitory Computer-Readable Medium |
TWI695277B (zh) * | 2018-06-29 | 2020-06-01 | 國立臺灣師範大學 | 自動化網站資料蒐集方法 |
-
2020
- 2020-07-16 CN CN202010687241.3A patent/CN111831874B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8838602B1 (en) * | 2011-10-11 | 2014-09-16 | Google Inc. | Systems and methods for web page grouping based on URLs |
EP3361701A1 (en) * | 2016-05-11 | 2018-08-15 | Oracle International Corporation | Multi-tenant identity and data security management cloud service |
CN106874340A (zh) * | 2016-12-22 | 2017-06-20 | 新华三技术有限公司 | 一种网页地址分类方法及装置 |
CN107943838A (zh) * | 2017-10-30 | 2018-04-20 | 北京大数元科技发展有限公司 | 一种自动获取xpath生成爬虫脚本的方法及系统 |
CN110390038A (zh) * | 2019-07-25 | 2019-10-29 | 中南民族大学 | 基于dom树的页面分块方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于URL特征的网站结构信息挖掘;会飞牛牛;《https://blog.csdn.net/zhangfei2018/article/details/8719071》;20130325;第1-19页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111831874A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101957832B (zh) | 对于事件流数据管理的统一的窗口支持 | |
US11042662B2 (en) | Data aggregation system for enabling query operations on restricted data that originates from multiple independent multiple sources | |
US8219575B2 (en) | Method and system for specifying, preparing and using parameterized database queries | |
CN108958959B (zh) | 检测hive数据表的方法和装置 | |
CN112650766A (zh) | 数据库数据操作的方法、系统及服务器 | |
JP6437376B2 (ja) | 意思決定支援システム、及び意志決定支援方法 | |
CN103324713A (zh) | 多级服务器中的数据处理方法、装置和数据处理系统 | |
CN115438087B (zh) | 基于缓存库的数据查询方法、装置、存储介质和设备 | |
CN111047434B (zh) | 一种操作记录生成方法、装置、计算机设备和存储介质 | |
CN117238433A (zh) | 基于LibreOffice进行文档数据自动隔离的方法 | |
US20100005203A1 (en) | Method of Merging and Incremantal Construction of Minimal Finite State Machines | |
US7650571B2 (en) | Smart links and dynamic favorites | |
CN113127906A (zh) | 基于c/s架构的统一权限管理平台、方法及存储介质 | |
CN105468776A (zh) | 操作数据库的方法、装置及系统 | |
CN111078773B (zh) | 一种数据处理方法及装置 | |
CN111831874B (zh) | 网页数据信息获取方法、装置、计算机设备及存储介质 | |
CN111143572A (zh) | 关联图谱构建方法、装置、计算机设备、及存储介质 | |
CN114611039B (zh) | 异步加载规则的解析方法、装置、存储介质和电子设备 | |
CN111367898B (zh) | 数据处理方法、装置、系统、电子设备及存储介质 | |
US11100128B2 (en) | Cascading data impact visualization tool | |
US11301498B2 (en) | Multi-cloud object store access | |
CN113760845A (zh) | 一种日志处理方法、系统、装置、客户端及存储介质 | |
CN112035471A (zh) | 一种事务处理方法及计算机设备 | |
Leifeld et al. | Package ‘btergm’ | |
CN111125565A (zh) | 一种在应用中输入信息的方法与设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210201 Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Applicant after: Shenzhen saiante Technology Service Co.,Ltd. Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000 Applicant before: Ping An International Smart City Technology Co.,Ltd. |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |