CN109582886B - 页面内容提取方法、模板的生成方法及装置、介质及设备 - Google Patents

页面内容提取方法、模板的生成方法及装置、介质及设备 Download PDF

Info

Publication number
CN109582886B
CN109582886B CN201811303366.0A CN201811303366A CN109582886B CN 109582886 B CN109582886 B CN 109582886B CN 201811303366 A CN201811303366 A CN 201811303366A CN 109582886 B CN109582886 B CN 109582886B
Authority
CN
China
Prior art keywords
page
node
group
nodes
content extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811303366.0A
Other languages
English (en)
Other versions
CN109582886A (zh
Inventor
张文豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201811303366.0A priority Critical patent/CN109582886B/zh
Publication of CN109582886A publication Critical patent/CN109582886A/zh
Application granted granted Critical
Publication of CN109582886B publication Critical patent/CN109582886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种页面内容提取方法、模板的生成方法及装置、介质及设备。所述方法包括:根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;针对每一页面分组,生成当前页面分组下的各个页面对应的dom树;针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据第一特征路径,生成与当前页面分组对应的页面内容提取模板。因此,既可以有效保证所获得的页面内容提取模板的适用性,又可以有效提高页面内容提取模板的准确性。另外,便于根据不同页面结构的页面生成不同的页面内容提取模板,有效保证基于页面内容提取模板进行页面内容提取的准确度。

Description

页面内容提取方法、模板的生成方法及装置、介质及设备
技术领域
本公开涉及页面内容抓取领域,具体地,涉及一种页面内容提取方法、模板的生成方法及装置、介质及设备。
背景技术
对网页信息进行抽取时,一般都需要确定出网页的布局结构,进而对页面内容进行抽取。在常见的机器学习进行页面内容抽取的方法中,无论是采用无监督的学习方式还是有监督的学习方式,都是对大量网页样本进行学习,而不同的地区、不同领域、甚至不同网站之间的网页布局都可能不相同,因此,通过机器学习的方式在确定其网页布局的准确率较低、进而影响网页信息抽取的准确率。
发明内容
本公开的目的是提供一种页面内容提取方法、模板的生成方法及装置、介质及设备。
为了实现上述目的,根据本公开的第一方面,提供一种页面内容提取模板的生成方法,所述方法包括:
根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;
针对每一页面分组,生成当前页面分组下的各个页面对应的dom树;
针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板。
可选地,所述根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,包括以下中的至少一者:
将在不同dom树中具有相同文本和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;
将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;
将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点子网分为一组,当该组节点子网中的节点子网数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点子网中的每个节点子网在所属dom树中的路径进行合并,获得所述第一特征路径。
可选地,在确定出所述第一特征路径之后,所述方法还包括:
将所述第一特征路径上的至少一个节点分别作为目标节点,执行如下操作:
确定当前页面分组下包括该目标节点且该目标节点在其中具有子节点的dom树为目标dom树;
当所述目标dom树为多个时,从多个所述目标dom树中的各条候选路径中,根据候选路径的子节点之间的相似度参数,确定能够被合并的候选路径,并对确定出的能够被合并的候选路径进行合并,获得第二特征路径,其中,所述候选路径为所述目标dom树中,所述目标节点与该目标节点的一个子节点形成的路径;
所述至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板,包括:
根据所述第一特征路径和所述第二特征路径,生成与当前页面分组对应的页面内容提取模板。
可选地,当两条或更多条候选路径的子节点之间的相似度参数表征这些子节点之间相似时,确定所述两条或更多条候选路径能够被合并。
可选地,对路径进行合并具体为对路径上的同级节点逐一进行合并,且针对任一级节点,该级节点合并所得节点的路径表示为该级节点的路径表示中,能够代表最多数量的同级节点的路径表示;以及,若该级节点为文本型节点,则该级节点合并所得节点的文本为该级节点的文本的集合。
可选地,在所述至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板的步骤之后,所述方法还包括:
获取校验页面集合;
将在所述校验页面集合下的各个页面中均出现的节点确定为校验节点;
获取校验节点集合,所述校验节点集合包括至少一个所述校验节点;
在确定除当前页面分组之外的其他页面分组下的各页面中都不包含所述校验节点集合时,将所述校验节点集合确定为当前页面分组对应的关键节点,其中,所述关键节点用于唯一表示当前页面分组对应的页面内容提取模板。
可选地,所述校验页面集合包括当前页面分组中除第一页面之外的页面,所述第一页面为其中孤立节点占该页面节点总数的比例超过第二阈值的页面,所述孤立节点包括第一节点和第二节点,所述第一节点为该页面中未与当前页面分组下的其他页面中的节点进行过路径合并的节点,所述第二节点为该页面中与当前页面分组下的其他页面中的节点进行过路径合并、但合并节点总数与当前页面分组下的dom树总数的比值低于第三阈值的节点,所述合并节点总数为包括该第二节点和与该第二节点进行合并的节点在内的节点的数量。
根据本公开的第二方面,提供一种页面内容提取方法,所述方法包括:
获取待提取页面;
将所述待提取页面与页面内容提取模板进行匹配,其中,所述页面内容提取模板是通过上述第一方面任一的页面内容提取模板的生成方法所生成的;
在确定所述待提取页面与所述页面内容提取模板匹配成功时,根据所述页面内容提取模板,对所述待提取页面进行页面内容提取。
可选地,所述将所述待提取页面与页面内容提取模板进行匹配,包括:
生成所述待提取页面的dom树;
根据所述待提取页面的dom树,将所述待提取页面与所述页面内容提取模板的关键节点进行匹配,其中,所述关键节点用于唯一表示所述页面内容提取模板;
在确定所述待提取页面与所述关键节点匹配成功时,确定所述待提取页面与所述页面内容提取模板匹配成功。
根据本公开的第三方面,提供一种页面内容提取模板的生成装置,所述装置包括:
分组模块,用于根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;
第一生成模块,用于针对每一页面分组,生成当前页面分组下的各个页面对应的dom树;
第二生成模块,用于针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板。
可选地,所述第二生成模块,包括以下中的至少一者:
第一合并子模块,用于将在不同dom树中具有相同文本和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;
第二合并子模块,用于将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;
第三合并子模块,用于将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点子网分为一组,当该组节点子网中的节点子网数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点子网中的每个节点子网在所属dom树中的路径进行合并,获得所述第一特征路径。
可选地,所述装置还包括:
第一确定模块,用于在确定出所述第一特征路径之后,将所述第一特征路径上的至少一个节点分别作为目标节点,确定当前页面分组下包括该目标节点且该目标节点在其中具有子节点的dom树为目标dom树;
第二确定模块,用于当所述目标dom树为多个时,从多个所述目标dom树中的各条候选路径中,根据候选路径的子节点之间的相似度参数,确定能够被合并的候选路径,并对确定出的能够被合并的候选路径进行合并,获得第二特征路径,其中,所述候选路径为所述目标dom树中,所述目标节点与该目标节点的一个子节点形成的路径;
所述第二生成模块,用于根据所述第一特征路径和所述第二特征路径,生成与当前页面分组对应的页面内容提取模板。
可选地,所述第二确定模块,用于当两条或更多条候选路径的子节点之间的相似度参数表征这些子节点之间相似时,确定所述两条或更多条候选路径能够被合并。
可选地,对路径进行合并具体为对路径上的同级节点逐一进行合并,且针对任一级节点,该级节点合并所得节点的路径表示为该级节点的路径表示中,能够代表最多数量的同级节点的路径表示;以及,若该级节点为文本型节点,则该级节点合并所得节点的文本为该级节点的文本的集合。
可选地,所述装置还包括:
第一获取模块,用于在所述第二生成模块至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板之后,获取校验页面集合;
第三确定模块,用于将在所述校验页面集合下的各个页面中均出现的节点确定为校验节点;
第二获取模块,用于获取校验节点集合,所述校验节点集合包括至少一个所述校验节点;
第四确定模块,用于在确定除当前页面分组之外的其他页面分组下的各页面中都不包含所述校验节点集合时,将所述校验节点集合确定为当前页面分组对应的关键节点,其中,所述关键节点用于唯一表示当前页面分组对应的页面内容提取模板。
可选地,所述校验页面集合包括当前页面分组中除第一页面之外的页面,所述第一页面为其中孤立节点占该页面节点总数的比例超过第二阈值的页面,所述孤立节点包括第一节点和第二节点,所述第一节点为该页面中未与当前页面分组下的其他页面中的节点进行过路径合并的节点,所述第二节点为该页面中与当前页面分组下的其他页面中的节点进行过路径合并、但合并节点总数与当前页面分组下的dom树总数的比值低于第三阈值的节点,所述合并节点总数为包括该第二节点和与该第二节点进行合并的节点在内的节点的数量。
根据本公开的第四方面,提供一种页面内容提取装置,所述装置包括:
第三获取模块,用于获取待提取页面;
匹配模块,用于将所述待提取页面与页面内容提取模板进行匹配,其中,所述页面内容提取模板是通过上述第一方面任一的页面内容提取模板的生成方法所生成的;
内容提取模块,用于在确定所述待提取页面与所述页面内容提取模板匹配成功时,根据所述页面内容提取模板,对所述待提取页面进行页面内容提取。
可选地,所述匹配模块,包括:
生成子模块,用于生成所述待提取页面的dom树;
匹配子模块,用于根据所述待提取页面的dom树,将所述待提取页面与所述页面内容提取模板的关键节点进行匹配,其中,所述关键节点用于唯一表示所述页面内容提取模板;
确定子模块,用于在确定所述待提取页面与所述关键节点匹配成功时,确定所述待提取页面与所述页面内容提取模板匹配成功。
根据本公开的第五方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面提供的页面内容提取模板的生成方法。
根据本公开的第六方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第二方面提供的页面内容提取方法。
根据本公开的第七方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面提供的页面内容提取模板的生成方法。
根据本公开的第八方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第二方面提供的页面内容提取方法。
在上述技术中,首先将多个页面根据其URL进行分组,从而可以对页面进行划分,使得划分至同一页面分组的各个页面的页面结构相似,因此,可以基于该页面分组生成对应于该页面分组的页面内容提取模板,既可以有效保证所获得的页面内容提取模板的适用性,又可以有效提高页面内容提取模板的准确性。另外,通过将同一页面分组下的各个页面进行合并,从而确定可以代表该页面分组的页面结构的第一特征路径,并基于该第一特征路径生成该页面内容提取模板,便于根据不同页面结构的页面生成不同的页面内容提取模板,有效保证基于页面内容提取模板进行页面内容提取的准确度,提升用户使用体验。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开的一种实施方式提供的页面内容提取模板的生成方法的流程图;
图2a-图2e分别为页面p1、p2、p3、p4、p5对应的dom树;
图3是根据本公开的另一种实施方式提供的页面内容提取模板的生成方法的流程图;
图4是根据本公开的一种实施方式提供的页面内容提取方法的流程图;
图5是根据本公开的一种实施方式提供的页面内容提取模板的生成装置的框图;
图6是根据本公开的一种实施方式提供的页面内容提取装置的框图;
图7是根据一示例性实施例示出的一种电子设备的框图;
图8是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1所示,为根据本公开的一种实施方式提供的页面内容提取模板的生成方法的流程图。如图1所示,所述方法包括:
在S11中,根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构。
其中,每个页面都有其对应的URL(Uniform Resource Locator,统一资源定位符),其中,根据页面URL对多个页面进行分组,包括:
将各个页面的URL中的HTTPS和HTTP进行归一化,示例地,可以归一化为HTTP;
将带有www.前缀和不带有www.前缀的URL进行归一化,示例地,可以归一化为www.;
之后,将归一化后的URL进行分组,示例地,可以按照域名、深度和URL类型进行分组,例如,将域名相同、URL深度为预设深度、且URL类型为数字的页面确定为一个页面分组,将域名相同、URL深度为预设深度、且URL类型为字符的页面确定为另一页面分组。其中,该预设深度可以根据经验进行设置,该预设深度越大,划分出的页面分组的精度越高。
在S12中,针对每一页面分组,生成当前页面分组下的各个页面对应的dom树。其中,根据页面的源代码,生成该页面对应的dom树为现有技术,在此不再赘述。
在S13中,针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板。
其中,一个页面分组对应于一种页面结构,而当在某一页面分组中的多数页面中存在相同或相似的节点时,则可以确定该相同或相似的节点可以用来表征该页面分组的页面结构。通过当前页面分组下的各个dom树,确定出第一特征路径,该第一特征路径可以表示当前页面分组下的各个页面所共有的结构。
在该实施例中,至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板,可以是将该第一特征路径存储在页面内容提取模板中,以确定该页面结构模板中的各个节点的路径。另外,也可以根据该第一特征路径生成页面内容提取模板对应的dom树,从而获得页面内容提取模板。其中,上述方式只是生成页面内容提取模板的示例性实现方式,本公开中对此不进行限定。
在本公开中,基于互联网页面中普适的模式为相似页面有相同的页面布局这一思想,首先将多个页面根据其URL进行分组,从而可以对页面进行划分,使得划分至同一页面分组的各个页面的页面结构相似,因此,可以基于该页面分组生成对应于该页面分组的页面内容提取模板,既可以有效保证所获得的页面内容提取模板的适用性,又可以有效提高页面内容提取模板的准确性。另外,通过将同一页面分组下的各个页面进行合并,从而确定可以代表该页面分组的页面结构的第一特征路径,并基于该第一特征路径生成该页面内容提取模板,便于根据不同页面结构的页面生成不同的页面内容提取模板,有效保证基于页面内容提取模板进行页面内容提取的准确度,提升用户使用体验。
可选地,所述根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,包括以下中的至少一者:
1)将在不同dom树中具有相同文本和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径。
其中,本公开中所提及的节点的路径是指当前节点至根节点的路径,其中,页面p1、p2、p3、p4、p5对应的dom树分别如图2a、图2b、图2c、图2d、图2e所示。示例地,如图2a所示,节点aaa的路径为a/aa/aaa,节点abbaa的路径为a/ab/abb/abba/abbaa,其他节点的路径以此类推,在此不再赘述。
示例地,当该页面分组中的多数页面中,在页面中的某一固定位置对应的文本内容相同,则表明在页面中的该位置对应该文本内容可能为该页面分组的页面结构的一部分。因此,在该实施例中,可以将同一页面分组下不同dom树中具有相同文本和路径的节点分为一组,表示该组节点可能是该页面分组对应的页面结构的一部分。之后,可以确定该组节点中的节点数量与该页面分组下的dom树总数的比值是否超过第一阈值,其中,该第一阈值可以根据实际使用需求进行设置,示例地,该第一阈值可以是80%。在该组节点中的节点数量与该页面分组下的dom树总数的比值超过第一阈值时,则表示该页面分组中的80%以上的页面中在该位置对应该文本内容,即表明该页面分组中的大部分页面中存在该结构,因此,可以将该组节点中的每个节点在所属dom树中的路径进行合并,获得第一特征路径,将页面中的该位置对应该文本内容作为该页面分组的页面结构的一部分。
2)将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径。
其中,节点在其所属dom树中只出现一次是指在该节点所属的dom树中,不存在与该节点的路径和标签属性相同的节点。因此,将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点分为一组时,在不同dom树中具有相同标签属性和路径的节点分为一组,使得分为一组的节点表示在页面中的某一位置对应的标签具有一相同的属性,同时,分为一组的各个节点在其所属的页面中只出现一次,因此,在该组节点中的每个节点在所属dom树中的路径进行合并时,可以准确且唯一定位到各个页面中要进行路径合并的节点。另外,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,表示该页面分组中的大比例的页面中在该位置的节点对应标签具有一相同的属性,即表明该页面分组中的大部分页面中存在该结构,因此,可以将符合该特征的节点分为一组,并将该组节点的路径进行合并,获得第一特征路径。
3)将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点子网分为一组,当该组节点子网中的节点子网数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点子网中的每个节点子网在所属dom树中的路径进行合并,获得所述第一特征路径。
其中,节点子网是指多个相邻节点所构成的子网,相邻节点可以是兄弟节点,也可以是父子节点。例如,/ul/li标签,示例地,/ul节点,/ul/li[1]节点,/ul/li[2]节点,/ul/li[3]节点可以构成一个节点子网。其中,/ul/li[1]节点和/ul/li[2]节点互为兄弟节点,/ul节点为/ul/li[1]节点的父节点。节点子网在所属dom树中的路径为该节点子网中的各个最底层节点在该dom树中的路径。
在该实施例中,节点子网在所属dom树中只出现一次表示在其所属dom树不存在与该节点子网中的各个节点的标签和属性均相同的子网,因此,在确定对该节点子网的路径进行合并时,可以唯一定位到该页面中的该节点子网。并且,合并为一组的节点子网在不同dom树中具有相同标签属性和路径的,则表示在页面中的该路径对应的位置对应的属性相同。另外,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,表示该页面分组中的大比例的页面中在该位置的节点子网对应标签具有一相同的属性,即表明该页面分组中的大部分页面中存在该结构,因此,可以将符合该特征的节点分为一组,并将该组节点的路径进行合并,获得第一特征路径。
其中,对节点的路径进行合并的方式在下文进行详述。通过上述技术方案,可以快速确定出当前页面分组中具有上述特征的节点,从而可以对该各个节点的路径进行合并,可以优先对页面中具有特征的节点进行合并,避免众多对页面中的节点进行的合并测试,有效降低页面结构合并的计算量和处理量,有效提高确定页面内容提取模板的效率和准确度。另外,也可以有效提高页面内容提取模块的准确度。
可选地,在确定出第一特征路径之后,所述方法还包括:
将所述第一特征路径上的至少一个节点分别作为目标节点,示例地,可以从根节点开始,依次将存在子节点的节点确定为该目标节点,其中,确定目标节点的顺序在本公开中不进行限定,执行如下操作:
确定当前页面分组下包括该目标节点且该目标节点在其中具有子节点的dom树为目标dom树;
当所述目标dom树为多个时,从多个所述目标dom树中的各条候选路径中,根据候选路径的子节点之间的相似度参数,确定能够被合并的候选路径,并对确定出的能够被合并的候选路径进行合并,获得第二特征路径,其中,所述候选路径为所述目标dom树中,所述目标节点与该目标节点的一个子节点形成的路径;
所述至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板,包括:
根据所述第一特征路径和所述第二特征路径,生成与当前页面分组对应的页面内容提取模板。其中,根据第二特征路径生成与当前页面分组对应的页面内容提取模板的方式与根据第一特征路径生成与当前页面分组对应的页面内容提取模板的方式相似,在此不再赘述。
在该实施例中,在确定出第一特征路径之后,表示第一特征路径上的各个节点已进行路径合并,因此,可以从第一特征路径选择一节点确定为目标节点,以确定各个页面中的该目标节点下的子节点是否可以合并。
在一实施例中,如图2a-2e所示dom树,若确定出的目标节点为节点abb,则,确定出的目标dom树为p1、p2、p3、p4、p5对应的dom树。
之后,p1对应的dom树中的候选路径为“/abb/abba”和“/abb/abbb”;
p2对应的dom树中的候选路径为“/abb/abba”、“/abb/abbb”和“/abb/abbc”;
p3对应的dom树中的候选路径为“/abb/abba”、“/abb/abbb”、“/abb/abbc”和“/abb/abbd”;
p4对应的dom树中的候选路径为“/abb/abba”、“/abb/abbb”、“/abb/abbc”和“/abb/abbe”;
p5对应的dom树中的候选路径为“/abb/abba”、“/abb/abbb”和“/abb/abbc”。
在一实施例中,可以两两计算上述不同dom树的候选路径的子节点之间的相似度参数,从而确定候选路径的子节点之间是否相似。
在另一实施例中,可以按照不同dom树的候选路径的子节点的位置关系进行计算,例如,在确定出p1对应的dom树中的子节点abbb和p2对应的dom树中的子节点abbb相似时,不再计算p1对应的dom树中的子节点abba和p2对应的dom树中的子节点abbc的相似度参数,即在子节点进行合并时,不会出现交叉合并(如,在p1对应的dom树中的子节点abbb和p2对应的dom树中的子节点abbb确定合并时,p1对应的dom树中的子节点abba和p2对应的dom树中的子节点abbc不会进行合并)的情况,从而可以通过上述计算方式,有效减少数据计算量,提高合并效率。
因此,通过上述技术方案,在确定出第一特征路径之后,还可以根据该第一特征路径对当前页面分组中的各个页面中的可以合并的节点进行合并。通过第一特征路径确定可以进行合并的第二特征路径,可以有效降低各个节点之间的相似度参数的计算量,提高页面内容提取模板的生成效率和准确率。
可选地,当两条或更多条候选路径的子节点之间的相似度参数表征这些子节点之间相似时,确定所述两条或更多条候选路径能够被合并。
其中,在一实施例中,所述相似度参数可以是候选路径的子节点之间的距离,当该距离越小时,表示其对应的候选路径的子节点之间越相似。示例地,可以根据子节点之间的位置、父子关系、及文本内容中的一者或多者分别计算距离,之后可以对该各个特征进行权重设置。其中,所述各个特征的权重设置可以根据实际使用情况进行设置,本公开中对此不进行限定。
在另一实施例中,所述相似度参数可以是候选路径的子节点之间的相似度,当该相似度越大时,表示其对应的候选路径的子节点之间越相似。其中,确定候选路径的子节点之间的相似度的方式与上文确定距离的方式类似,在此不再赘述。
通过上述技术方案,可以确定出各候选路径的子节点之间是否相似,从而可以为候选路径的子节点是否可以进行合并提供数据支持,保证子节点合并的准确性,进一步提高确定出的页面内容提取模板的准确性。
可选地,对路径进行合并具体为对路径上的同级节点逐一进行合并,且针对任一级节点,该级节点合并所得节点的路径表示为该级节点的路径表示中,能够代表最多数量的同级节点的路径表示;以及,若该级节点为文本型节点,则该级节点合并所得节点的文本为该级节点的文本的集合。
其中,节点的路径表示可以是该节点的Xpath路径表示,以图2a中所示dom树中的节点aaa为例;
示例地,节点aaa对应的标签为<div>,节点aaa的多个路径表示如下:
//div[@id='aaa'];
//div[@class='c1'];
//div[contains(@class,'cat-item')]。
在确定出图2a、2b、2c、2d、2e中的各个合并的节点分别是节点aaa,确定该级节点合并所得节点的路径表示时,可以分别确定各个节点的各个路径表示可以代表的同级节点的数量。
示例地,合并所得节点对应的各个路径表示如下:
//div[@id='aaa']:p1、p2、p3;
//div[@class='c1']:p1、p2、p3、p5;
//div[contains(@class,'cat-item')]:p4。
其中,路径表示“//div[@class='c1']”可以代表的同级节点的数量最多,因此,可以将“//div[@class='c1']”确定为合并所得节点的路径表示,将各个页面的dom树中节点aaa对应的文本的集合确定为该合并所得节点的文本。
可选地,若在确定合并所得节点的路径表示时,出现代表相同数量的路径表示时,可以按照预设优先级确定合并所得节点的路径表示。示例地,该预设优先级从高到低的顺序依次为“@id”、“@class”、“@contains(@class,*)”。示例地,若确定出节点ab合并所得节点对应的各个路径表示如下:
//div[@id='ab']:p1、p2、p3、p4;
//div[@class='c2']:p1、p2、p3、p5;
//div[contains(@class,'cat-item')]:p4。
此时,可以按照上述预设优先级,确定合并所得节点的路径表示为“//div[@id='ab']”。
另外,在根据上述预设优先级无法确定出合适的路径表示(可以代表大多数同级节点的路径表示),可以采用“父节点路径表示+当前节点名称[序号]”,其中,序号表示当前节点是其父节点的第几个子节点。示例地,“//ul/li[1]”表示ul节点下的第一个li节点。
因此,在上述技术方案中,在对节点的路径进行合并时,可以根据该节点逐级合并至根节点,便于快速合并节点路径。同时,通过将该级节点的路径表示中,能够代表最多数量的同级节点的路径表示作为该级节点合并所得节点的路径表示,从而可以使得合并后的路径可以代表该分组中的最多个页面,有效保证页面内容提取模板的适用范围。
可选地,如图3所示,在所述至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板的步骤之后,所述方法还包括:
在S31中,获取校验页面集合,其中,所述校验页面集合中包含的各个页面用于确定该页面分组的关键节点。
可选地,所述校验页面集合包括当前页面分组中除第一页面之外的页面,所述第一页面为其中孤立节点占该页面节点总数的比例超过第二阈值的页面,所述孤立节点包括第一节点和第二节点,所述第一节点为该页面中未与当前页面分组下的其他页面中的节点进行过路径合并的节点,所述第二节点为该页面中与当前页面分组下的其他页面中的节点进行过路径合并、但合并节点总数与当前页面分组下的dom树总数的比值低于第三阈值的节点,所述合并节点总数为包括该第二节点和与该第二节点进行合并的节点在内的节点的数量。
其中,在确定页面的关键节点时,需要排除当前页面分组中不属于该页面分组的页面。示例地,当一页面中的孤立节点占该页面节点总数的比例超过第二阈值时,表示该页面中的大部分的节点都不能够和当前页面分组下的其他页面形成一个统一的页面结构,此时,可以确定该页面不属于该页面分组,在确定当前页面分组的关键节点时,可以不考虑该页面中的节点。
在S32中,将在校验页面集合下的各个页面中均出现的节点确定为校验节点。
在S33中,获取校验节点集合,所述校验节点集合包括至少一个所述校验节点。
在S34中,在确定除当前页面分组之外的其他页面分组下的各页面中都不包含校验节点集合时,将校验节点集合确定为当前页面分组对应的关键节点,其中,所述关键节点用于唯一表示当前页面分组对应的页面内容提取模板。
在一实施例中,可以任意选择校验节点,以形成校验节点集合,并通过确定除当前页面分组之外的其他页面分组下的各页面中是否包含该校验节点集合,以确定该校验节点集合是否可以作为当前页面分组的关键节点。
在另一实施例中,可以首先判断包含一个校验节点的校验节点集合是否可以作为当前页面分组对应的关键节点。若确定出除当前页面分组之外的其他页面分组下的各页面中都不包含该校验节点时,可以直接将该校验节点(即,该校验节点集合)确定为当前页面分组对应的关键节点。若校验节点集合中只包含一个校验节点时无法确定出当前页面分组对应的关键节点时,可以向校验节点集合中添加一校验节点,继续上述步骤以确定当前页面分组对应的关键节点。
通过上述技术方案,可以确定出唯一表示当前页面分组对应的页面内容提取模板的关键节点,既便于快速查询到该页面内容提取模板,又便于基于该页面内容提取模板对页面内容进行提取时,可以快速匹配到该页面内容提取模板,从而可以提高页面内容提取的效率,提升用户使用体验。
本公开还提供一种页面内容提取方法。图4所示,为根据本公开的一种实施方式提供的页面内容提取方法的流程图。如图4所示,所述方法包括:
在S41中,获取待提取页面;
在S42中,将待提取页面与页面内容提取模板进行匹配,其中,所述页面内容提取模板是通过页面内容提取模板的生成方法所生成的。
其中,可以将待提取页面中的各个节点与该页面内容提取模板进行校验,以确定待提取页面与页面内容提取模板能否匹配成功。
在S43中,在确定待提取页面与页面内容提取模板匹配成功时,根据页面内容提取模板,对待提取页面进行页面内容提取。
因此,通过上述方式,可以确定出与待提取页面相对应的页面内容提取模板,基于该页面内容提取模板对该待提取页面进行页面内容提取,可以有效保证页面内容提取的准确度,符合用户的使用需求。
可选地,所述将所述待提取页面与页面内容提取模板进行匹配,包括:
生成所述待提取页面的dom树;
根据所述待提取页面的dom树,将所述待提取页面与所述页面内容提取模板的关键节点进行匹配,其中,所述关键节点用于唯一表示所述页面内容提取模板;
在确定所述待提取页面与所述关键节点匹配成功时,确定所述待提取页面与所述页面内容提取模板匹配成功。
在该实施例中,每个页面内容提取模板都存在关键节点用于唯一表示该页面内容提取模板,因此,在将待提取页面与页面内容提取模板进行匹配时,只需要校验该待提取页面中是否存在该关键节点即可,若该待提取页面中存在该关键节点,则确定待提取页面与页面内容提取模板的关键节点成功匹配,即待提取页面与该页面内容提取模板成功匹配。因此,通过上述技术方案,可以有效降低确定页面内容提取模板时所需的计算量,提高页面内容提取的效率,提升用户使用体验。
本公开还提供一种页面内容提取模板的生成装置,如图5所示,所述装置10包括:
分组模块101,用于根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;
第一生成模块102,用于针对每一页面分组,生成当前页面分组下的各个页面对应的dom树;
第二生成模块103,用于针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板。
可选地,所述第二生成模块103,包括以下中的至少一者:
第一合并子模块,用于将在不同dom树中具有相同文本和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;
第二合并子模块,用于将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;
第三合并子模块,用于将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点子网分为一组,当该组节点子网中的节点子网数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点子网中的每个节点子网在所属dom树中的路径进行合并,获得所述第一特征路径。
可选地,所述装置10还包括:
第一确定模块,用于在确定出所述第一特征路径之后,将所述第一特征路径上的至少一个节点分别作为目标节点,确定当前页面分组下包括该目标节点且该目标节点在其中具有子节点的dom树为目标dom树;
第二确定模块,用于当所述目标dom树为多个时,从多个所述目标dom树中的各条候选路径中,根据候选路径的子节点之间的相似度参数,确定能够被合并的候选路径,并对确定出的能够被合并的候选路径进行合并,获得第二特征路径,其中,所述候选路径为所述目标dom树中,所述目标节点与该目标节点的一个子节点形成的路径;
所述第二生成模块103,用于根据所述第一特征路径和所述第二特征路径,生成与当前页面分组对应的页面内容提取模板。
可选地,所述第二确定模块,用于当两条或更多条候选路径的子节点之间的相似度参数表征这些子节点之间相似时,确定所述两条或更多条候选路径能够被合并。
可选地,对路径进行合并具体为对路径上的同级节点逐一进行合并,且针对任一级节点,该级节点合并所得节点的路径表示为该级节点的路径表示中,能够代表最多数量的同级节点的路径表示;以及,若该级节点为文本型节点,则该级节点合并所得节点的文本为该级节点的文本的集合。
可选地,所述装置10还包括:
第一获取模块,用于在所述第二生成模块至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板之后,获取校验页面集合;
第三确定模块,用于将在所述校验页面集合下的各个页面中均出现的节点确定为校验节点;
第二获取模块,用于获取校验节点集合,所述校验节点集合包括至少一个所述校验节点;
第四确定模块,用于在确定除当前页面分组之外的其他页面分组下的各页面中都不包含所述校验节点集合时,将所述校验节点集合确定为当前页面分组对应的关键节点,其中,所述关键节点用于唯一表示当前页面分组对应的页面内容提取模板。
可选地,所述校验页面集合包括当前页面分组中除第一页面之外的页面,所述第一页面为其中孤立节点占该页面节点总数的比例超过第二阈值的页面,所述孤立节点包括第一节点和第二节点,所述第一节点为该页面中未与当前页面分组下的其他页面中的节点进行过路径合并的节点,所述第二节点为该页面中与当前页面分组下的其他页面中的节点进行过路径合并、但合并节点总数与当前页面分组下的dom树总数的比值低于第三阈值的节点,所述合并节点总数为包括该第二节点和与该第二节点进行合并的节点在内的节点的数量。
本公开还提供一种页面内容提取装置,如图6所示,所述装置20包括:
第三获取模块201,用于获取待提取页面;
匹配模块202,用于将所述待提取页面与页面内容提取模板进行匹配,其中,所述页面内容提取模板是通过上述任一的页面内容提取模板的生成方法所生成的;
内容提取模块203,用于在确定所述待提取页面与所述页面内容提取模板匹配成功时,根据所述页面内容提取模板,对所述待提取页面进行页面内容提取。
可选地,所述匹配模块202,包括:
生成子模块,用于生成所述待提取页面的dom树;
匹配子模块,用于根据所述待提取页面的dom树,将所述待提取页面与所述页面内容提取模板的关键节点进行匹配,其中,所述关键节点用于唯一表示所述页面内容提取模板;
确定子模块,用于在确定所述待提取页面与所述关键节点匹配成功时,确定所述待提取页面与所述页面内容提取模板匹配成功。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种电子设备700的框图。如图7所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的页面内容提取模板的生成方法或页面内容提取方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的页面内容提取模板的生成方法或页面内容提取方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的页面内容提取模板的生成方法或页面内容提取方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的页面内容提取模板的生成方法或页面内容提取方法。
图8是根据一示例性实施例示出的一种电子设备800的框图。例如,电子设备800可以被提供为一服务器。参照图8,电子设备800包括处理器822,其数量可以为一个或多个,以及存储器832,用于存储可由处理器822执行的计算机程序。存储器832中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器822可以被配置为执行该计算机程序,以执行上述的页面内容提取模板的生成方法或页面内容提取方法。
另外,电子设备800还可以包括电源组件826和通信组件850,该电源组件826可以被配置为执行电子设备800的电源管理,该通信组件850可以被配置为实现电子设备800的通信,例如,有线或无线通信。此外,该电子设备800还可以包括输入/输出(I/O)接口858。电子设备800可以操作基于存储在存储器832的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的页面内容提取模板的生成方法或页面内容提取方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器832,上述程序指令可由电子设备800的处理器822执行以完成上述的页面内容提取模板的生成方法或页面内容提取方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (13)

1.一种页面内容提取模板的生成方法,其特征在于,所述方法包括:
根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;
针对每一页面分组,生成当前页面分组下的各个页面对应的dom树;
针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板;
其中,在确定出所述第一特征路径之后,所述方法还包括:
将所述第一特征路径上的至少一个节点分别作为目标节点,执行如下操作:
确定当前页面分组下包括该目标节点且该目标节点在其中具有子节点的dom树为目标dom树;
当所述目标dom树为多个时,从多个所述目标dom树中的各条候选路径中,根据候选路径的子节点之间的相似度参数,确定能够被合并的候选路径,并对确定出的能够被合并的候选路径进行合并,获得第二特征路径,其中,所述候选路径为所述目标dom树中,所述目标节点与该目标节点的一个子节点形成的路径;
所述至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板,包括:
根据所述第一特征路径和所述第二特征路径,生成与当前页面分组对应的页面内容提取模板;
其中,在所述至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板的步骤之后,所述方法还包括:
获取校验页面集合;
将在所述校验页面集合下的各个页面中均出现的节点确定为校验节点;
获取校验节点集合,所述校验节点集合包括至少一个所述校验节点;
在确定除当前页面分组之外的其他页面分组下的各页面中都不包含所述校验节点集合时,将所述校验节点集合确定为当前页面分组对应的关键节点,其中,所述关键节点用于唯一表示当前页面分组对应的页面内容提取模板。
2.根据权利要求1所述的方法,其特征在于,所述根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,包括以下中的至少一者:
将在不同dom树中具有相同文本和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;
将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;
将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点子网分为一组,当该组节点子网中的节点子网数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点子网中的每个节点子网在所属dom树中的路径进行合并,获得所述第一特征路径。
3.根据权利要求1所述的方法,其特征在于,当两条或更多条候选路径的子节点之间的相似度参数表征这些子节点之间相似时,确定所述两条或更多条候选路径能够被合并。
4.根据权利要求1-3中任一项所述的方法,其特征在于,对路径进行合并具体为对路径上的同级节点逐一进行合并,且针对任一级节点,该级节点合并所得节点的路径表示为该级节点的路径表示中,能够代表最多数量的同级节点的路径表示;以及,若该级节点为文本型节点,则该级节点合并所得节点的文本为该级节点的文本的集合。
5.根据权利要求1所述的方法,其特征在于,
所述校验页面集合包括当前页面分组中除第一页面之外的页面,所述第一页面为其中孤立节点占该页面节点总数的比例超过第二阈值的页面,所述孤立节点包括第一节点和第二节点,所述第一节点为页面中未与当前页面分组下的其他页面中的节点进行过路径合并的节点,所述第二节点为页面中与当前页面分组下的其他页面中的节点进行过路径合并、但合并节点总数与当前页面分组下的dom树总数的比值低于第三阈值的节点,所述合并节点总数为包括该第二节点和与该第二节点进行合并的节点在内的节点的数量。
6.一种页面内容提取方法,其特征在于,所述方法包括:
获取待提取页面;
将所述待提取页面与页面内容提取模板进行匹配,其中,所述页面内容提取模板是通过权利要求1-5中任一项所述的页面内容提取模板的生成方法所生成的;
在确定所述待提取页面与所述页面内容提取模板匹配成功时,根据所述页面内容提取模板,对所述待提取页面进行页面内容提取。
7.根据权利要求6所述的方法,其特征在于,所述将所述待提取页面与页面内容提取模板进行匹配,包括:
生成所述待提取页面的dom树;
根据所述待提取页面的dom树,将所述待提取页面与所述页面内容提取模板的关键节点进行匹配,其中,所述关键节点用于唯一表示所述页面内容提取模板;
在确定所述待提取页面与所述关键节点匹配成功时,确定所述待提取页面与所述页面内容提取模板匹配成功根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;
针对每一页面分组,生成当前页面分组下的各个页面对应的dom树;
针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板。
8.一种页面内容提取模板的生成装置,其特征在于,所述装置包括:
分组模块,用于根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;
第一生成模块,用于针对每一页面分组,生成当前页面分组下的各个页面对应的dom树;
第二生成模块,用于针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板;
第一确定模块,用于在确定出所述第一特征路径之后,将所述第一特征路径上的至少一个节点分别作为目标节点,确定当前页面分组下包括该目标节点且该目标节点在其中具有子节点的dom树为目标dom树;
第二确定模块,用于当所述目标dom树为多个时,从多个所述目标dom树中的各条候选路径中,根据候选路径的子节点之间的相似度参数,确定能够被合并的候选路径,并对确定出的能够被合并的候选路径进行合并,获得第二特征路径,其中,所述候选路径为所述目标dom树中,所述目标节点与该目标节点的一个子节点形成的路径;
所述第二生成模块,用于根据所述第一特征路径和所述第二特征路径,生成与当前页面分组对应的页面内容提取模板;
其中,所述装置还包括:
第一获取模块,用于在所述第二生成模块至少根据所述第一特征路径,生成与当前页面分组对应的页面内容提取模板之后,获取校验页面集合;
第三确定模块,用于将在所述校验页面集合下的各个页面中均出现的节点确定为校验节点;
第二获取模块,用于获取校验节点集合,所述校验节点集合包括至少一个所述校验节点;
第四确定模块,用于在确定除当前页面分组之外的其他页面分组下的各页面中都不包含所述校验节点集合时,将所述校验节点集合确定为当前页面分组对应的关键节点,其中,所述关键节点用于唯一表示当前页面分组对应的页面内容提取模板。
9.一种页面内容提取装置,其特征在于,所述装置包括:
第三获取模块,用于获取待提取页面;
匹配模块,用于将所述待提取页面与页面内容提取模板进行匹配,其中,所述页面内容提取模板是权利要求1-5中任一项所述的页面内容提取模板的生成方法所生成的;
内容提取模块,用于在确定所述待提取页面与所述页面内容提取模板匹配成功时,根据所述页面内容提取模板,对所述待提取页面进行页面内容提取。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求6或7所述方法的步骤。
12.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-5中任一项所述方法的步骤。
13.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求6或7所述方法的步骤。
CN201811303366.0A 2018-11-02 2018-11-02 页面内容提取方法、模板的生成方法及装置、介质及设备 Active CN109582886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811303366.0A CN109582886B (zh) 2018-11-02 2018-11-02 页面内容提取方法、模板的生成方法及装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811303366.0A CN109582886B (zh) 2018-11-02 2018-11-02 页面内容提取方法、模板的生成方法及装置、介质及设备

Publications (2)

Publication Number Publication Date
CN109582886A CN109582886A (zh) 2019-04-05
CN109582886B true CN109582886B (zh) 2022-05-10

Family

ID=65921333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811303366.0A Active CN109582886B (zh) 2018-11-02 2018-11-02 页面内容提取方法、模板的生成方法及装置、介质及设备

Country Status (1)

Country Link
CN (1) CN109582886B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990738B (zh) * 2019-12-09 2021-11-26 创优数字科技(广东)有限公司 一种网页正文及要素提取的方法和系统
CN112667874A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 网页的数据抽取方法、装置、电子设备及存储介质
CN112559929B (zh) * 2021-02-25 2021-05-07 中航信移动科技有限公司 提取网页页面目标信息的方法、电子设备和介质
CN115756449B (zh) * 2022-12-02 2023-06-06 之江实验室 一种页面复用方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086517A (ja) * 2008-09-29 2010-04-15 Mitsubishi Electric Research Laboratories Inc コンピュータによって実施される、ウェブページからデータを抽出する方法
CN102163203A (zh) * 2010-02-24 2011-08-24 富士通株式会社 网页下载的方法和装置
CN102890681A (zh) * 2011-07-20 2013-01-23 阿里巴巴集团控股有限公司 一种生成网页结构模板的方法及系统
CN103544176A (zh) * 2012-07-13 2014-01-29 百度在线网络技术(北京)有限公司 用于生成多个页面所对应的页面结构模板的方法和设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8667015B2 (en) * 2009-11-25 2014-03-04 Hewlett-Packard Development Company, L.P. Data extraction method, computer program product and system
CN101984434B (zh) * 2010-11-16 2012-09-05 东北大学 基于可扩展标记语言查询的网页数据抽取方法
CN102831121B (zh) * 2011-06-15 2015-07-08 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
CN102567530B (zh) * 2011-12-31 2014-06-11 凤凰在线(北京)信息技术有限公司 一种文章类型网页智能抽取系统及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086517A (ja) * 2008-09-29 2010-04-15 Mitsubishi Electric Research Laboratories Inc コンピュータによって実施される、ウェブページからデータを抽出する方法
CN102163203A (zh) * 2010-02-24 2011-08-24 富士通株式会社 网页下载的方法和装置
CN102890681A (zh) * 2011-07-20 2013-01-23 阿里巴巴集团控股有限公司 一种生成网页结构模板的方法及系统
CN103544176A (zh) * 2012-07-13 2014-01-29 百度在线网络技术(北京)有限公司 用于生成多个页面所对应的页面结构模板的方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"分布式智能网络爬虫的设计与实现";何国正;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315(第03期);参照第四章第4.2节 *

Also Published As

Publication number Publication date
CN109582886A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN109582886B (zh) 页面内容提取方法、模板的生成方法及装置、介质及设备
US10824691B2 (en) Page rendering method, device, and data storage medium
KR102565659B1 (ko) 정보 생성 방법 및 장치
AU2017408800B2 (en) Method and system of mining information, electronic device and readable storable medium
US20170308791A1 (en) Multi-round session interaction method and system, and computer device
US9959340B2 (en) Semantic lexicon-based input method editor
CN111488740B (zh) 一种因果关系的判别方法、装置、电子设备及存储介质
CN108255975B (zh) 模板构建方法、页面内容抓取方法及装置、介质及设备
CN110727417B (zh) 一种数据处理方法和装置
CN111611990B (zh) 用于识别图像中表格的方法和装置
CN110704547B (zh) 基于神经网络的关系抽取数据生成方法、模型及训练方法
CN111831814B (zh) 摘要生成模型的预训练方法、装置、电子设备和存储介质
JP2021197157A (ja) キーポイントの特定方法及び装置、機器、記憶媒体
US20180113858A1 (en) Interface layout interference detection
CN111090991B (zh) 场景纠错方法、装置、电子设备和存储介质
CN109710864B (zh) 页面内容划分方法、装置、可读存储介质及电子设备
CN111666372B (zh) 解析查询词query的方法、装置、电子设备和可读存储介质
CN114090671A (zh) 数据导入方法、装置、电子设备及存储介质
CN113961768A (zh) 敏感词检测方法、装置、计算机设备和存储介质
CN111767096A (zh) 接口文档的生成方法、装置、设备及计算机可读存储介质
JP6563350B2 (ja) データ分類装置、データ分類方法、及びプログラム
CN113239256B (zh) 生成网站签名的方法、识别网站的方法及装置
JP6723976B2 (ja) テスト実行装置及びプログラム
CN109726338B (zh) 页面体裁划分方法、装置、可读存储介质及电子设备
CN112329434B (zh) 文本信息识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant