CN109726338B - 页面体裁划分方法、装置、可读存储介质及电子设备 - Google Patents

页面体裁划分方法、装置、可读存储介质及电子设备 Download PDF

Info

Publication number
CN109726338B
CN109726338B CN201811447611.5A CN201811447611A CN109726338B CN 109726338 B CN109726338 B CN 109726338B CN 201811447611 A CN201811447611 A CN 201811447611A CN 109726338 B CN109726338 B CN 109726338B
Authority
CN
China
Prior art keywords
page
node
content
group
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811447611.5A
Other languages
English (en)
Other versions
CN109726338A (zh
Inventor
张文豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201811447611.5A priority Critical patent/CN109726338B/zh
Publication of CN109726338A publication Critical patent/CN109726338A/zh
Application granted granted Critical
Publication of CN109726338B publication Critical patent/CN109726338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种页面体裁划分方法、装置、可读存储介质及电子设备,所述方法包括:根据页面URL对多个页面进行分组;针对每一页面分组,在当前页面分组下的页面数量达到预设的数量阈值时,生成当前页面分组下的各个页面对应的dom树;针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径确定当前页面分组中的内容节点;确定所述内容节点的权重;根据内容节点的权重,确定所述当前页面分组对应的页面体裁。由此,可以有效避免单页面特征进行页面体裁划分的片面性,有效提高页面体裁划分方法的适用范围,提高页面体裁划分结果的准确性。

Description

页面体裁划分方法、装置、可读存储介质及电子设备
技术领域
本公开涉及数据处理领域,具体地,涉及一种页面体裁划分方法、装置、可读存储介质及电子设备。
背景技术
随着互联网技术的快速发展,针对大数据量的页面的处理尤为重要。现有技术中,可以比较简单的获取到页面的源代码。然而,在抓取页面的内容时,通常需要对属于同一类别的页面内容进行抓取。而现有技术中通常根据某一页面的特征确定该页面的所述类别,其准确性较低。
发明内容
本公开的目的是提供一种可以快速且准确地进行页面体裁划分方法、装置、可读存储介质及电子设备。
为了实现上述目的,根据本公开的第一方面,提供一种页面体裁划分方法,所述方法包括:
根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;
针对每一页面分组,在当前页面分组下的页面数量达到预设的数量阈值时,生成当前页面分组下的各个页面对应的dom树;
针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径确定当前页面分组中的内容节点;
确定所述内容节点的权重,其中,所述权重用于表征所述内容节点所包含的信息的变化程度;
根据内容节点的权重,确定所述当前页面分组对应的页面体裁。
根据本公开的第二方面,提供一种页面体裁划分装置,所述装置包括:
分组模块,用于根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;
生成模块,用于针对每一页面分组,在当前页面分组下的页面数量达到预设的数量阈值时,生成当前页面分组下的各个页面对应的dom树;
第一确定模块,用于针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径确定当前页面分组中的内容节点;
第二确定模块,用于确定所述内容节点的权重,其中,所述权重用于表征所述内容节点所包含的信息的变化程度;
第三确定模块,用于根据内容节点的权重,确定所述当前页面分组对应的页面体裁。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面所述方法的步骤。
根据本公开的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面所述方法的步骤。
在上述技术方案中,首先将多个页面根据其URL进行分组,从而可以对页面进行划分,使得划分至同一页面分组的各个页面的页面结构相似。之后,在页面分组对应的页面的数量达到预设的数量阈值时,可以基于该页面分组下的页面确定该页面分组对应的页面体裁,从而既可以保证页面体裁确定的准确性,又可以有效避免不必要的计算过程。另外,在上述技术方案中,可以根据当前页面分组的群体特征确定,从而可以有效避免单页面特征进行页面体裁划分的片面性,有效提高页面体裁划分方法的适用范围,提高页面体裁划分结果的准确性,提升用户使用体验。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开的一种实施方式提供的页面体裁划分方法的流程图;
图2a-图2e分别为页面p1、p2、p3、p4、p5对应的dom树;
图3是根据内容节点的权重,确定所述目标页面分组对应的页面体裁的一种示例性实现方式的流程图;
图4是为一贴吧页的示意图;
图5是根据本公开的一种实施方式提供的页面体裁划分装置的框图;
图6是根据一示例性实施例示出的一种电子设备的框图;
图7是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1所示,为根据本公开的一种实施方式提供的页面体裁划分方法的流程图,如图1所示,所述方法包括:
在S11中,根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构。
其中,每个页面都有其对应的URL(Uniform Resource Locator,统一资源定位符),其中,根据页面URL对多个页面进行分组,包括:
将各个页面的URL中的HTTPS和HTTP进行归一化,示例地,可以归一化为HTTP;
将带有www.前缀和不带有www.前缀的URL进行归一化,示例地,可以归一化为www.;
之后,将归一化后的URL进行分组,示例地,可以按照域名、深度和URL类型进行分组,例如,将域名相同、URL深度为预设深度、且URL类型为数字的页面确定为一个页面分组,将域名相同、URL深度为预设深度、且URL类型为字符的页面确定为另一页面分组。其中,该预设深度可以根据经验进行设置,该预设深度越大,划分出的页面分组的精度越高。
在S12中,针对每一页面分组,在当前页面分组对应的页面数量达到预设的数量阈值时,生成当前页面分组下的各个页面对应的dom树。
其中,预设的数量阈值可以根据预先进行试验或经验设置。根据页面的源代码,生成该页面对应的dom树为现有技术,在此不再赘述。
在S13中,针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据第一特征路径确定当前页面分组中的内容节点。
其中,一个页面分组对应于一种页面结构,而当在某一页面分组下的多数页面中存在相同或相似的节点时,则可以确定该相同或相似的节点可以用来表征该页面分组的页面结构。通过当前页面分组下的各个dom树,确定出第一特征路径,该第一特征路径可以表示当前页面分组下的各个页面所共有的结构。
在该实施例中,第一特征路径对应有多个节点,至少根据所述第一特征路径确定当前页面分组中的内容节点可以是将第一路径上对应的各个节点分别确定为内容节点。
在S14中,确定内容节点的权重,其中,所述权重用于表征所述内容节点所包含的信息的变化程度,在该内容节点所包含的信息的变化程度越大时,表示该内容节点包含的信息越丰富,该内容节点的权重越大。
在S15中,根据内容节点的权重,确定目标页面分组对应的页面体裁。
在上述技术方案中,首先将多个页面根据其URL进行分组,从而可以对页面进行划分,使得划分至同一页面分组的各个页面的页面结构相似。之后,在页面分组对应的页面的数量达到预设的数量阈值时,可以基于该页面分组下的页面确定该页面分组对应的页面体裁,从而既可以保证页面体裁确定的准确性,又可以有效避免不必要的计算过程。另外,在上述技术方案中,可以根据当前页面分组的群体特征确定,从而可以有效避免单页面特征进行页面体裁划分的片面性,有效提高页面体裁划分方法的适用范围,提高页面体裁划分结果的准确性,提升用户使用体验。
为了使本领域技术人员更加理解本发明实施例提供的技术方案,下面对上述步骤进行详细的说明。以下首先说明能够代表当前页面分组对应的页面结构的特征路径的确定方式。
可选地,所述根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,包括以下中的至少一者:
1)将在不同dom树中具有相同文本和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径。
其中,本公开中所提及的节点的路径是指当前节点至根节点的路径,其中,页面p1、p2、p3、p4、p5对应的dom树分别如图2a、图2b、图2c、图2d、图2e所示。示例地,如图2a所示,节点aaa的路径为a/aa/aaa,节点abbaa的路径为a/ab/abb/abba/abbaa,其他节点的路径以此类推,在此不再赘述。
示例地,当该页面分组中的多数页面中,在页面中的某一固定位置对应的文本内容相同,则表明在页面中的该位置对应该文本内容可能为该页面分组的页面结构的一部分。因此,在该实施例中,可以将同一页面分组下不同dom树中具有相同文本和路径的节点分为一组,表示该组节点可能是该页面分组对应的页面结构的一部分。之后,可以确定该组节点中的节点数量与该页面分组下的dom树总数的比值是否超过第一阈值,其中,该第一阈值可以根据实际使用需求进行设置,示例地,该第一阈值可以是80%。在该组节点中的节点数量与该页面分组下的dom树总数的比值超过第一阈值时,则表示该页面分组中的80%以上的页面中在该位置对应该文本内容,即表明该页面分组中的大部分页面中存在该结构,因此,可以将该组节点中的每个节点在所属dom树中的路径进行合并,获得第一特征路径,将页面中的该位置对应该文本内容作为该页面分组的页面结构的一部分。
2)将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径。
其中,节点在其所属dom树中只出现一次是指在该节点所属的dom树中,不存在与该节点的路径和标签属性相同的节点。因此,将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点分为一组时,在不同dom树中具有相同标签属性和路径的节点分为一组,使得分为一组的节点表示在页面中的某一位置对应的标签具有一相同的属性,同时,分为一组的各个节点在其所属的页面中只出现一次,因此,在该组节点中的每个节点在所属dom树中的路径进行合并时,可以准确且唯一定位到各个页面中要进行路径合并的节点。另外,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,表示该页面分组中的大比例的页面中在该位置的节点对应标签具有一相同的属性,即表明该页面分组中的大部分页面中存在该结构,因此,可以将符合该特征的节点分为一组,并将该组节点的路径进行合并,获得第一特征路径。
3)将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点子网分为一组,当该组节点子网中的节点子网数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点子网中的每个节点子网在所属dom树中的路径进行合并,获得所述第一特征路径。
其中,节点子网是指多个相邻节点所构成的子网,相邻节点可以是兄弟节点,也可以是父子节点。例如,/ul/li标签,示例地,/ul节点,/ul/li[1]节点,/ul/li[2]节点,/ul/li[3]节点可以构成一个节点子网。其中,/ul/li[1]节点和/ul/li[2]节点互为兄弟节点,/ul节点为/ul/li[1]节点的父节点。节点子网在所属dom树中的路径为该节点子网中的各个最底层节点在该dom树中的路径。
在该实施例中,节点子网在所属dom树中只出现一次表示在其所属dom树不存在与该节点子网中的各个节点的标签和属性均相同的子网,因此,在确定对该节点子网的路径进行合并时,可以唯一定位到该页面中的该节点子网。并且,合并为一组的节点子网在不同dom树中具有相同标签属性和路径的,则表示在页面中的该路径对应的位置对应的属性相同。另外,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,表示该页面分组中的大比例的页面中在该位置的节点子网对应标签具有一相同的属性,即表明该页面分组中的大部分页面中存在该结构,因此,可以将符合该特征的节点分为一组,并将该组节点的路径进行合并,获得第一特征路径。
其中,对节点的路径进行合并的方式在下文进行详述。通过上述技术方案,可以快速确定出当前页面分组中具有上述特征的节点,从而可以对该各个节点的路径进行合并,可以优先对页面中具有特征的节点进行合并,避免众多对页面中的节点进行的合并测试,有效降低页面结构合并的计算量和处理量。
可选地,在确定出所述第一特征路径之后,所述方法还包括:
将所述第一特征路径上的至少一个节点分别作为目标节点,示例地,可以从根节点开始,依次将存在子节点的节点确定为该目标节点,其中,确定目标节点的顺序在本公开中不进行限定,执行如下操作:
确定当前页面分组下包括该目标节点且该目标节点在其中具有子节点的dom树为目标dom树;
当所述目标dom树为多个时,从多个所述目标dom树中的各条候选路径中,根据候选路径的子节点之间的相似度参数,确定能够被合并的候选路径,并对确定出的能够被合并的候选路径进行合并,获得第二特征路径,其中,所述候选路径为所述目标dom树中,所述目标节点与该目标节点的一个子节点形成的路径;
所述至少根据所述第一特征路径确定当前页面分组中的内容节点,包括:
根据所述第一特征路径和所述第二特征路径,确定当前页面分组中的内容节点。
其中,根据第二特征路径确定当前页面分组中的内容节点的方式与根据第一特征路径确定当前页面分组中的内容节点的方式相似,在此不再赘述。
在该实施例中,在确定出第一特征路径之后,表示第一特征路径上的各个节点已进行路径合并,因此,可以从第一特征路径选择一节点确定为目标节点,以确定各个页面中的该目标节点下的子节点是否可以合并。
在一实施例中,如图2a-2e所示dom树,若确定出的目标节点为节点abb,则,确定出的目标dom树为p1、p2、p3、p4、p5对应的dom树。
之后,p1对应的dom树中的候选路径为“/abb/abba”和“/abb/abbb”;
p2对应的dom树中的候选路径为“/abb/abba”、“/abb/abbb”和“/abb/abbc”;
p3对应的dom树中的候选路径为“/abb/abba”、“/abb/abbb”、“/abb/abbc”和“/abb/abbd”;
p4对应的dom树中的候选路径为“/abb/abba”、“/abb/abbb”、“/abb/abbc”和“/abb/abbe”;
p5对应的dom树中的候选路径为“/abb/abba”、“/abb/abbb”和“/abb/abbc”。
在一实施例中,可以两两计算上述不同dom树的候选路径的子节点之间的相似度参数,从而确定候选路径的子节点之间是否相似。
在另一实施例中,可以按照不同dom树的候选路径的子节点的位置关系进行计算,例如,在确定出p1对应的dom树中的子节点abbb和p2对应的dom树中的子节点abbb相似时,不再计算p1对应的dom树中的子节点abba和p2对应的dom树中的子节点abbc的相似度参数,即在子节点进行合并时,不会出现交叉合并(如,在p1对应的dom树中的子节点abbb和p2对应的dom树中的子节点abbb确定合并时,p1对应的dom树中的子节点abba和p2对应的dom树中的子节点abbc不会进行合并)的情况,从而可以通过上述计算方式,有效减少数据计算量,提高合并效率。
因此,通过上述技术方案,在确定出第一特征路径之后,还可以根据该第一特征路径对当前页面分组中的各个页面中的可以合并的节点进行合并。通过第一特征路径确定可以进行合并的第二特征路径,可以有效降低各个节点之间的相似度参数的计算量。
可选地,当两条或更多条候选路径的子节点之间的相似度参数表征这些子节点之间相似时,确定所述两条或更多条候选路径能够被合并。
其中,在一实施例中,所述相似度参数可以是候选路径的子节点之间的距离,当该距离越小时,表示其对应的候选路径的子节点之间越相似。示例地,可以根据子节点之间的位置、父子关系、及文本内容中的一者或多者分别计算距离,之后可以对该各个特征进行权重设置。其中,所述各个特征的权重设置可以根据实际使用情况进行设置,本公开中对此不进行限定。
在另一实施例中,所述相似度参数可以是候选路径的子节点之间的相似度,当该相似度越大时,表示其对应的候选路径的子节点之间越相似。其中,确定候选路径的子节点之间的相似度的方式与上文确定距离的方式类似,在此不再赘述。
通过上述技术方案,可以确定出各候选路径的子节点之间是否相似,从而可以为候选路径的子节点是否可以进行合并提供数据支持,保证子节点合并的准确性。
可选地,对路径进行合并具体为对路径上的同级节点逐一进行合并,且针对任一级节点,该级节点合并所得节点的路径表示为该级节点的路径表示中,能够代表最多数量的同级节点的路径表示;以及,若该级节点为文本型节点,则该级节点合并所得节点的文本为该级节点的文本的集合。
其中,节点的路径表示可以是该节点的Xpath路径表示,以图2a中所示dom树中的节点aaa为例;
示例地,节点aaa对应的标签为<div>,节点aaa的多个路径表示如下:
//div[@id='aaa'];
//div[@class='c1'];
//div[contains(@class,'cat-item')]。
在确定出图2a、2b、2c、2d、2e中的各个合并的节点分别是节点aaa,确定该级节点合并所得节点的路径表示时,可以分别确定各个节点的各个路径表示可以代表的同级节点的数量。
示例地,合并所得节点对应的各个路径表示如下:
//div[@id='aaa']:p1、p2、p3;
//div[@class='c1']:p1、p2、p3、p5;
//div[contains(@class,'cat-item')]:p4。
其中,路径表示“//div[@class='c1']”可以代表的同级节点的数量最多,因此,可以将“//div[@class='c1']”确定为合并所得节点的路径表示,将各个页面的dom树中节点aaa对应的文本的集合确定为该合并所得节点的文本。
可选地,若在确定合并所得节点的路径表示时,出现代表相同数量的路径表示时,可以按照预设优先级确定合并所得节点的路径表示。示例地,该预设优先级从高到低的顺序依次为“@id”、“@class”、“@contains(@class,*)”。示例地,若确定出节点ab合并所得节点对应的各个路径表示如下:
//div[@id='ab']:p1、p2、p3、p4;
//div[@class='c2']:p1、p2、p3、p5;
//div[contains(@class,'cat-item')]:p4。
此时,可以按照上述预设优先级,确定合并所得节点的路径表示为“//div[@id='ab']”。
另外,在根据上述预设优先级无法确定出合适的路径表示(可以代表大多数同级节点的路径表示),可以采用“父节点路径表示+当前节点名称[序号]”,其中,序号表示当前节点是其父节点的第几个子节点。示例地,“//ul/li[1]”表示ul节点下的第一个li节点。
因此,在上述技术方案中,在对节点的路径进行合并时,可以根据该节点逐级合并至根节点,便于快速合并节点路径。同时,通过将该级节点的路径表示中,能够代表最多数量的同级节点的路径表示作为该级节点合并所得节点的路径表示,从而可以使得合并后的路径可以代表该分组中的最多个页面,有效保证合并后的路径的适用范围。
在确定出特征路径之后,则可以根据特征路径确定出各个内容节点,并确定内容节点的权重。可选地,所述内容节点的权重至少包括所述内容节点对应的文本权重;
在一实施例中,可以通过以下公式确定所述内容节点的文本权重:
Figure BDA0001886048750000091
其中,Pweight表示所述内容节点的文本权重;
variability表示所述内容节点的文本变化度,其中,由上文所述可知,内容节点对应的文本为包含该内容节点的路径上对应的同级节点的文本的集合,则该文本变化度即为该文本的集合中不同文本的个数与当前页面分组下包含该内容节点的dom树的总数的比值。
variability表示所述内容节点的文本变化度,其中,由上文所述可知,内容节点对应的文本为包含该内容节点的路径上对应的同级节点的文本的集合,则该文本变化度即为该文本的集合中不同文本的个数与当前页面分组下包含该内容节点的dom树的总数的比值。
示例地,该内容节点的对应的文本的集合中不同文本的个数为4,例如,该集合包括文本1、文本2、文本3和文本4。其中,对应文本1的同级节点为节点S1、S2,对应文本2的同级节点为节点S3,对应文本3的同级节点为节点S4、S5,对应文本4的同级节点为节点S6,则当前页面分组下包含该内容节点的dom树的总数6,该内容节点的文本变化度为66.7%(即,4/6)。
Cweighti表示所述内容节点的第i个子节点的文本权重,其中,子节点权重确定的方式与内容节点的文本权重的确定方式相同,在此不再赘述。
n表示所述内容节点的子节点的总个数;
α表示预设系数,其中,α的取值范围为(0.5,1)。α<1可以保证当该内容节点不存在对应文本且其只存在一个子节点时,该内容节点的文本权重会小于其子节点的文本权重,由此可以避免权重无限向父节点传递,保证确定出的权重的准确性;α>0.5可以保证当该内容节点包含至少两个权重相近的子节点时,该内容节点的文本权重会大于其各个子节点的文本权重,符合实际的页面设计模式,进一步保证确定出的权重的准确性。更进一步地,α取值范围在(0.6,0.7)中时,可以使得确定出的内容节点的文本权重更加稳定和准确。
length表示所述内容节点的文本平均长度。示例地,在确定出当前页面分组下包含该内容节点的dom树中、与该内容节点对应的节点的文本后,将对应的文本长度的平均值确定为内容节点的文本平均长度。其中,可以通过如下公式进行确定:
Figure BDA0001886048750000101
其中,m表示当前页面分组下包含该内容节点的dom树的总数;
lengthj表示当前页面分组下的第j个包含该内容节点的dom树中、与该内容节点对应的节点的文本的长度。
在上述技术方案中,在确定内容节点的文本权重时,是结合该内容节点的自身的文本权重以及该内容节点的子节点对应的文本权重所确定的,从而可以保证确定出的内容节点的文本权重的稳定性和准确性,为进行页面体裁划分提供准确的数据支持。
可选地,所述权重至少包括文本权重;所述根据内容节点的权重,确定所述目标页面分组对应的页面体裁的一种示例性实现方式如下,如图3所示,包括:
在S31中,根据内容节点的权重,确定内容节点的类型,其中,所述类型至少包括第一类型和第二类型,所述第一类型的内容节点的文本权重大于预设的第一权重阈值,第二类型的内容节点的文本权重小于预设的第二权重阈值,所述第二权重阈值小于所述第一权重阈值。
其中,第一权重阈值和第二权重阈值可以根据实际使用情况基于经验进行设置,示例地,可以首先确定出各个内容节点的权重最大值,将权重最大值的80%确定为第一权重阈值,将该权重最大值的20%确定为第二权重阈值。因此,确定出的第一类型的内容节点的均为权重比较大的节点,第二类型的内容节点均为权重比较小的节点。
在S32中,根据内容节点的类型确定当前页面分组对应的页面体裁。
内容节点的类型可以表征该内容节点的文本权重大小,而不同的页面体裁由于其面向用户的不同或是显示对象的不同,其包含的内容节点的特征不同,因此,可以根据当前页面分组对应的内容节点的类型确定当前页面分组对应的页面体裁。
在上述技术方案中,通过当前页面分组中的多个页面确定内容节点,基于内容节点的权重确定内容节点的类型,可以获得当前页面分组所包含的信息的群体特征,从而基于该当前页面分组的群体特征,可以准确地对页面体裁进行划分,有效避免单页面特征的片面性,从而提高确定出的页面体裁的准确性。
可选地,所述根据所述内容节点的类型确定所述当前页面分组对应的页面体裁的示例性实现方式如下,包括:
若当前页面分组对应的内容节点中,存在权重大于第三权重阈值的第一类型的内容节点、且所述权重大于第三权重阈值的第一类型的内容节点的数量为一个,确定所述当前页面分组对应的页面体裁为文本详情页;
若当前页面分组对应的内容节点中,存在权重大于第三权重阈值的第一类型的内容节点、且所述权重大于第三权重阈值的第一类型的内容节点的数量为多个、且所述多个权重大于第三权重阈值的第一类型的内容节点之间为从属关系,确定所述当前页面分组对应的页面体裁为文本详情页;
若当前页面分组对应的内容节点中,所述第一类型的内容节点的数量大于第二阈值、所述第一类型的内容节点的权重的标准差小于第一标准差阈值、第一类型的内容节点的标签和路径层级相同、且所述第一类型的内容节点之间具有文本不变的子节点,确定所述当前页面分组对应的页面体裁为贴吧页。
其中,第三权重阈值可以根据实际使用情况进行设置,当节点的权重超过第三权重阈值时,表示该节点包含的信息的变化程度大,即该节点对应于丰富的信息。内容节点的权重的标准差可以根据现有的标准差计算公式进行计算,在此不再赘述。
在一实施例中,在互联网页面的设计模式中,文本详情页具有以下特征以区别于其他页面体裁:通常都是通过大篇章的文本或是结合图片等进行详细的内容说明,并且除说明文本外,其包含的其他信息较少。基于这一思想,若当前页面分组对应的内容节点中存在权重大于第三权重阈值的第一类型的内容节点,即表示在当前页面分组对应的内容节点中存在包含信息的变化程度大的节点。若该权重大于第三权重阈值的第一类型的内容节点的数量为一个,表示该页面内只存在一个文本信息量大的节点,表示当前页面分组的内容节点中只存在一个文本主体,符合文本详情页的特征,可以确定该页面分组对应的页面体裁为文本详情页;若该权重大于第三权重阈值的第一类型的内容节点的数量为多个,表示当前页面分组中存在多个文本信息量大的节点,但若该多个内容节点为从属关系,例如,当前页面分组中共有3个内容节点K1、K2、K3的权重超过第三权重阈值,且K1为K2和K3的父节点,此时,在当前页面分组的页面显示时,节点K1、K2、K3可以形成一个文本主体,符合文本详情页的特征,可以确定该页面分组对应的页面体裁为文本详情页。
在另一实施例中,所述第一类型的内容节点的数量大于第二阈值,示例地,第二阈值可以为3,表示当前页面分组的页面结构中权重较大的节点的数量较多;所述第一类型的内容节点的权重的标准差小于第一标准差阈值,示例地,第一标准差阈值可以是50,表示第一类型的内容节点之间的所包含的信息的变化程度比较均衡,不存在权重相差较大的节点;第一类型的内容节点的标签和路径层级相同,表示第一类型的内容节点之间为相似节点,其中,节点的路径层级为该节点至根节点的层级距离,如图2a中的节点abbaa的路径为a/ab/abb/abba/abbaa,则节点abbaa的路径层级为5。当第一类型的内容节点S1和第一类型的内容节点S2均包含有一对应于相同文本的子节点时,确定所述第一类型的内容节点(即,内容节点S1和内容节点S2)之间具有文本不变的子节点。
如图4所示,为一贴吧页的示意图,其中,内容节点A1、A2、A3对应的显示内容如图所示,虚线框对应的部分页面中其他节点对应的显示部分,页面中的文本一般集中显示在内容节点A1、A2、A3对应的部分,各个内容节点大多为相似节点,因此,各个内容节点的权重比较均衡,其各个内容节点通常都包含文本不变的子节点,例如,图4中“回复”对应的节点。因此,基于互联网页面中的贴吧页设计模式,在确定当前页面分组的内容节点满足上述条件时,可以确定该当前页面分组的页面体裁为贴吧页。
在上述技术方案中,通过确定第一类型的内容节点和第二类型的内容节点在页面结构中的分布,结合该分布特征和互联网页面的设计模式,从而可以快速且准确地确定出页面分组对应的页面体裁,同时,也可以有效提高页面体裁划分方法的适用范围。
可选地,所述权重还包括图片权重,所述类型还包括第三类型,所述第三类型的内容节点的图片权重大于第四权重阈值。在一实施例中,图片权重可以通过如下方式确定:
Figure BDA0001886048750000131
其中,Qweight表示所述内容节点的图片权重;
Qvariability表示所述内容节点的图片变化度,其中,内容节点对应的图片即为包含该内容节点的路径上对应的同级节点的图片的集合,则该图片变化度为图片的集合中不同图片的个数与当前页面分组下包含该内容节点的dom树的总数的比值。
sum表示所述内容节点的图片数量;
Mweighti表示所述内容节点的第i个子节点的图片权重;
m表示所述内容节点的子节点的总个数;
α表示预设系数,其中,α的取值范围为(0.5,1)。
在另一实施例中,在确定内容节点的文本权重时,可以将内容节点包括的图片转换成文本,之后,通过确定文本权重的方式确定图片权重。例如,可以将每个图片对应采用预设长度的字符串代替,例如,每个图片可以用50个字符表示,同一图片对应的字符串相同,不同图片对应的字符串不同,又例如,可以根据图片的大小确定图片对应的字符串的长度,如,大小为100k的图片对应的字符串长度为50,大小为1M的图片对应的字符串长度为80。其中,上述示例仅为将图片转化成文本表示的示例性实现方式,本公开中对此不进行限定。
可选地,所述权重还包括图片权重,所述类型还包括第三类型,所述第三类型的内容节点的图片权重大于第四权重阈值;
所述根据所述内容节点的类型确定所述当前页面分组对应的页面体裁,包括以下中的一者:
1)若当前页面分组对应的内容节点中,所述第一类型的内容节点的数量小于第三阈值、所述第三类型的内容节点的数量大于第四阈值,且所述第三类型的内容节点的标签和路径层级相同,确定所述当前页面分组对应的页面体裁为图片列表页。在当前页面分组对应的内容节点中,文本权重较大的内容节点数量小于第三阈值,图片权重较大的内容节点数量大于第四阈值,且图片权重较大的内容节点之间为相似的节点时,表示当前页面分组对应的页面结构展示时,页面中的大部分内容显示为图片,且图片之间的显示方式类似,此时,基于互联网页面的设计模式,确定当前页面分组对应的页面体裁为图片列表页。示例地,第三阈值可以为200,第四阈值可以为6。
2)若当前页面分组对应的内容节点中,所述第一类型的内容节点的数量小于第五阈值,所述第三类型的内容节点的数量大于第六阈值,且与所述第三类型的内容节点的层级距离在预设范围内的节点中、包含图片的节点的标签和路径层级相同,确定所述当前页面分组对应的页面体裁为图片详情页。在当前页面分组对应的内容节点中,文本权重较大的内容节点数量小于第五阈值,图片权重较大的内容节点数量大于第六阈值,且图片权重较大的内容节点附近存在相似的对应于图片的节点,表示当前页面分组对应的页面结构展示时,页面中的大部分内容显示为图片,且图片的周围存在相似显示的图片,此时,基于互联网页面的设计模式,确定当前页面分组对应的页面体裁为图片详情页。示例地,第五阈值可以为200,第六阈值可以为6。
3)若当前页面分组对应的内容节点中,所述第二类型的内容节点的数量大于第七阈值,且对应的标签为表格标签的内容节点的数量与当前页面分组对应的内容节点的总数的比值超过第一占比阈值,确定所述当前页面分组的页面体裁为实体介绍页。示例地,第七阈值可以是10。其中,在当前页面分组对应的内容节点中,文本权重较小的内容节点数量较少,其权重较小的内容节点通过表格进行展示(例如,<key,value>的展示模式)的数量较多,如,商品介绍页面等,符合互联网页面的设计模式对实体介绍页的设计原则,确定当前页面分组对应的页面体裁为实体介绍页。
由此,通过上述技术方案,可以基于一个页面分组中的多个页面的群体特征对该页面分组的页面体裁进行划分。同时,也可以对页面中的文本特征和图片特征进行不同的考量,既可以提高页面体裁划分的精度,又可以有效提高页面体裁划分的准确度,提升用户使用体验。
可选地,所述方法还包括:
在当前页面分组下的页面的数量未达到所述数量阈值时,对当前页面分组下的各个页面重新进行多次采样,确定当前页面分组对应的页面内容变化度;
在该实施例中,可以根据当前页面分组中的各个页面的URL对该页面重新进行采样,因此,可以将同一URL对应的多个页面进行合并,同一URL对应的页面结构是相同的,因此,可以直接将各个页面中的对应的节点进行一一合并,则各个节点合并所得节点的文本为各个节点的文本的集合,从而可以基于该文本的集合确定出该页面中的各个节点的文本变化度。其中,文本变化度的确定方式已在上文进行详述,在此不再赘述。示例地,可以根据一预设时段为单位确定文本变化度,如根据每天采集的页面确定出当前页面分组每天对应的文本变化度。可选地,可以将页面中文本变化度的最大值确定为该页面的变化度,将各个页面的变化度均值确定为当前页面分组对应的页面内容变化度。
若所述页面内容变化度为零,确定所述当前页面分组对应的页面为孤立页面。示例地,对某一页面进行多次采样其对应的内容都没有变化,则该页面可能是网站说明、网站政策说明、网站临时定制页面等,此时,可以确定该当前页面分组对应的页面为孤立页面。
若页面内容变化度大于第一变化阈值,确定所述当前页面分组下的各个页面中的锚文本数量与该页面中的文本数量的比值。示例地,第一变化阈值可以是0.2,页面内容变化度大于第一变化阈值时,表示该当前页面分组下的页面数量较少,但该当前页面分组下的页面内容是变化的。
若所述比值大于第二占比阈值的页面数量与当前页面分组下的页面总数的比值超过第三占比阈值,且当前页面分组下的各个页面中的指向预设体裁的锚文本的链接数量与该页面中的锚文本的链接总数的比值超过第四占比阈值,确定所述当前页面分组对应的页面体裁为列表页。
其中,在当前页面分组下的页面数量未达到所述数量阈值时,由于当前页面分组下的页面数量较少,此时可以直接根据当前页面分组下的页面确定该当前页面分组对应的页面体裁。并且,在当前页面分组下的页面数量较少时,表示该当前页面分组下的页面在互联网中的出现频次也较少。
在该实施例中,示例地,第二占比阈值可以是0.3,第三占比阈值和第四占比阈值可以是0.5,预设体裁可以是文本详情页或是图片详情页等,则通过上述实施例,可以确定出该当前页面分组下的页面中锚文本占比较大的页面数量较多,且锚文本中指向预设体裁的链接的占比较大时,表示该页面为用于引导的页面,此时,可以确定所述当前页面分组对应的页面体裁为列表页。
若所述页面内容变化度大于所述第一变化阈值,且当前页面分组中的文本变化度超过第二变化阈值的节点数量超过第八阈值,确定所述当前页面分组的页面体裁为专题页。其中,文本变化度的确定方式已在上文进行详述,在此不再赘述。在当前页面分组中对应的页面中,节点的文本变化度越大时,表示该页面中显示的内容越丰富,而专题页通常是单独采用设计显示模板,以分别对不同的专题进行展示。因此,所述页面内容变化度大于所述第一变化阈值,表示该页面分组对应的整体变化度较大,且当前页面分组中的文本变化度超过第二变化阈值的节点数量超过第八阈值,表示当前页面分组中包含信息量较大的节点较多,因此,可以确定所述当前页面分组的页面体裁为专题页。
由此,通过上述技术方案,在当前页面分组下的页面的数量未达到数量阈值,可以直接根据当前页面分组下的页面直接确定当前页面分组的页面体裁,可以有效提高页面体裁划分的效率,保证用户使用体验。
可选地,所述方法还包括:
根据所述内容节点的权重,对所述当前页面分组对应的页面进行区块划分。其中,内容节点的权重可以表征所述内容节点所包含的信息的变化程度,因此,基于内容节点的权重,可以进一步确定页面中的显示区块,其中,区块可以是页面中的节点及其子节点所对应的显示内容。
可选地,所述根据所述内容节点的权重,对所述当前页面分组中的页面内容进行划分,包括以下中的一者或多者:
将权重最大的内容节点及其子节点所对应的区块确定为正文区块。其中,在互联网页面的设计模式中,正文通常是包含信息最多的模块,由上文所述,权重最大的内容节点对应的信息最丰富,则该内容节点对应的文本为正文的可能性比较大。因此,可以直接将权重最大的内容节点及其子节点所对应的区块确定为正文区块。
将除权重最大的内容节点之外、标签和路径层级相同的锚文本对应的节点对应的区块确定为推荐区块。其中,锚文本在页面中通常用于链接的跳转与引导,因此,可以将相似显示的锚文本对应的节点对应的区块确定为推荐区块。
将对应的标签和路径层级相同、权重的标准差大于第二标准差阈值的内容节点所对应的区块确定为评论区块。示例地,第二标准差阈值可以为50。其中,页面中的评论部分对应的显示方式相似,而其显示的内容是基于用户确定的,因此,可以将权重的标准差较大的相似节点所对应的区块确定为评论区块。
在上述技术方案中,可以基于内容节点的权重对当前页面分组下的页面中的区块进行划分,从而便于对页面内容的提取,贴合用户的使用需求。
可选地,所述方法还包括:
将当前页面分组对应的页面体裁与当前页面分组的分组标识相关联;
获取校验页面集合,其中,所述校验页面集合中包含的各个页面用于确定该页面分组的关键节点。
可选地,所述校验页面集合包括当前页面分组中除第一页面之外的页面,所述第一页面为其中孤立节点占该页面节点总数的比例超过第九阈值的页面,所述孤立节点包括第一节点和第二节点,所述第一节点为该页面中未与当前页面分组下的其他页面中的节点进行过路径合并的节点,所述第二节点为该页面中与当前页面分组下的其他页面中的节点进行过路径合并、但合并节点总数与当前页面分组下的dom树总数的比值低于第十阈值的节点,所述合并节点总数为包括该第二节点和与该第二节点进行合并的节点在内的节点的数量。
其中,在确定页面分组的关键节点时,需要排除当前页面分组中不属于该页面分组的页面。示例地,当一页面中的孤立节点占该页面节点总数的比例超过第九阈值时,表示该页面中的大部分的节点都不能够和当前页面分组下的其他页面形成一个统一的页面结构,此时,可以确定该页面不属于该页面分组,在确定当前页面分组的关键节点时,可以不考虑该页面中的节点。
将在校验页面集合下的各个页面中均出现的节点确定为校验节点;
获取校验节点集合,所述校验节点集合包括至少一个所述校验节点;
在确定除当前页面分组之外的其他页面分组下的各页面中都不包含校验节点集合时,将校验节点集合确定为当前页面分组对应的关键节点,其中,所述关键节点用于唯一表示当前页面分组对应的页面体裁。
在一实施例中,可以任意选择校验节点,以形成校验节点集合,并通过确定除当前页面分组之外的其他页面分组下的各页面中是否包含该校验节点集合,以确定该校验节点集合是否可以作为当前页面分组的关键节点。
在另一实施例中,可以首先判断包含一个校验节点的校验节点集合是否可以作为当前页面分组对应的关键节点。若确定出除当前页面分组之外的其他页面分组下的各页面中都不包含该校验节点时,可以直接将该校验节点(即,该校验节点集合)确定为当前页面分组对应的关键节点。若校验节点集合中只包含一个校验节点时无法确定出当前页面分组对应的关键节点时,可以向校验节点集合中添加一校验节点,继续上述步骤以确定当前页面分组对应的关键节点。
通过上述技术方案,可以确定出唯一表示当前页面分组对应的页面体裁的关键节点,从而可以快速对页面进行校验,便于快速确定出页面对应的页面体裁,从而可以提高页面体裁划分的效率,提升用户使用体验。
可选地,所述方法还包括:
获取待划分页面;
确定所述待划分页面所属的目标页面分组;
根据所述目标页面分组确定所述待划分页面的页面体裁。
在该实施例中,在获取到待划分页面时,可以直接根据待划分页面的URL确定该待划分页面所属的目标页面分组,其中,确定页面对应的页面分组的方式在上文已经详述,在此不再赘述。在确定出目标页面分组时,可以将该目标页面分组对应的页面体裁确定为该待划分页面的页面体裁。
在上述技术方案中,通过确定待划分页面对应的目标页面分组,可以快速且准确地确定出待划分页面的页面体裁,满足用户的使用需求,提升用户使用体验。
可选地,根据所述目标页面分组确定所述待划分页面的页面体裁,包括:
生成所述待划分页面的dom树;
根据所述待划分页面的dom树,将所述待划分页面与所述目标页面分组的关键节点进行匹配;
在确定所述待划分页面与所述关键节点匹配成功时,将所述目标页面分组对应的页面体裁确定为所述待划分页面的页面体裁。
在该实施例中,每个页面分组都存在关键节点用于唯一表示该页面分组对应的页面体裁,因此,可以通过校验该待划分页面中是否存在该关键节点以确定待划分页面与该页面分组是否精准匹配。若该待划分页面中存在该关键节点,则将所述目标页面分组对应的页面体裁确定为所述待划分页面的页面体裁。因此,通过上述技术方案,可以有效提高页面体裁划分的效率和精准度,提升用户使用体验。
本公开还提供一种页面体裁划分装置,如图5所示,所述装置10包括:
分组模块100,用于根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;
生成模块200,用于针对每一页面分组,在当前页面分组下的页面数量达到预设的数量阈值时,生成当前页面分组下的各个页面对应的dom树;
第一确定模块300,用于针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径确定当前页面分组中的内容节点;
第二确定模块400,用于确定所述内容节点的权重,其中,所述权重用于表征所述内容节点所包含的信息的变化程度;
第三确定模块500,用于根据内容节点的权重,确定所述当前页面分组对应的页面体裁。
可选地,所述内容节点的权重至少包括所述内容节点对应的文本权重;
所述第二确定模块400用于通过以下公式确定所述内容节点的文本权重:
Figure BDA0001886048750000191
其中,Pweight表示所述内容节点的文本权重;
variability表示所述内容节点的文本变化度;
length表示所述内容节点的文本平均长度;
Cweighti表示所述内容节点的第i个子节点的文本权重;
n表示所述内容节点的子节点的总个数;
α表示预设系数,其中,α的取值范围为(0.5,1)。
可选地,所述第一确定模块100包括以下中的至少一者:
第一合并子模块,用于将在不同dom树中具有相同文本和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;
第二合并子模块,用于将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;
第三合并子模块,用于将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点子网分为一组,当该组节点子网中的节点子网数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点子网中的每个节点子网在所属dom树中的路径进行合并,获得所述第一特征路径。
可选地,所述装置还包括:
第四确定模块,用于在确定出所述第一特征路径之后,将所述第一特征路径上的至少一个节点分别作为目标节点,确定当前页面分组下包括该目标节点且该目标节点在其中具有子节点的dom树为目标dom树;
第五确定模块,用于当所述目标dom树为多个时,从多个所述目标dom树中的各条候选路径中,根据候选路径的子节点之间的相似度参数,确定能够被合并的候选路径,并对确定出的能够被合并的候选路径进行合并,获得第二特征路径,其中,所述候选路径为所述目标dom树中,所述目标节点与该目标节点的一个子节点形成的路径;
所述第一确定模块300用于:
根据所述第一特征路径和所述第二特征路径,确定当前页面分组中的内容节点。
可选地,所述权重至少包括文本权重;
所述第三确定模块500包括:
第一确定子模块,用于根据所述内容节点的权重,确定所述内容节点的类型,其中,所述类型至少包括第一类型和第二类型,所述第一类型的内容节点的文本权重大于预设的第一权重阈值,第二类型的内容节点的文本权重小于预设的第二权重阈值,所述第二权重阈值小于所述第一权重阈值;
第二确定子模块,用于根据所述内容节点的类型确定所述当前页面分组对应的页面体裁。
可选地,所述第二确定子模块包括:
第三确定子模块,用于在当前页面分组对应的内容节点中,存在权重大于第三权重阈值的第一类型的内容节点、且所述权重大于第三权重阈值的第一类型的内容节点的数量为一个时,确定所述当前页面分组对应的页面体裁为文本详情页;在当前页面分组对应的内容节点中,存在权重大于第三权重阈值的第一类型的内容节点、且所述权重大于第三权重阈值的第一类型的内容节点的数量为多个、且所述多个权重大于第三权重阈值的第一类型的内容节点之间为从属关系时,确定所述当前页面分组对应的页面体裁为文本详情页;
第四确定子模块,用于在当前页面分组对应的内容节点中,所述第一类型的内容节点的数量大于第二阈值、所述第一类型的内容节点的权重的标准差小于第一标准差阈值、第一类型的内容节点的标签和路径层级相同、且所述第一类型的内容节点之间具有文本不变的子节点时,确定所述当前页面分组对应的页面体裁为贴吧页。
可选地,所述权重还包括图片权重,所述类型还包括第三类型,所述第三类型的内容节点的图片权重大于第四权重阈值;
所述第二确定子模块包括:
第五确定子模块,用于在当前页面分组对应的内容节点中,所述第一类型的内容节点的数量小于第三阈值、所述第三类型的内容节点的数量大于第四阈值,且所述第三类型的内容节点的标签和路径层级相同时,确定所述当前页面分组对应的页面体裁为图片列表页;
第六确定子模块,用于在当前页面分组对应的内容节点中,所述第一类型的内容节点的数量小于第五阈值,所述第三类型的内容节点的数量大于第六阈值,且与所述第三类型的内容节点的层级距离在预设范围内的节点中、包含图片的节点的标签和路径层级相同时,确定所述当前页面分组对应的页面体裁为图片详情页;
第七确定子模块,用于在当前页面分组对应的内容节点中,所述第二类型的内容节点的数量大于第七阈值,且对应的标签为表格标签的内容节点的数量与当前页面分组对应的内容节点的总数的比值超过第一占比阈值时,确定所述当前页面分组的页面体裁为实体介绍页。
可选地,所述装置10还包括:
第六确定模块,用于在当前页面分组下的页面的数量未达到所述数量阈值时,对当前页面分组下的各个页面重新进行多次采样,确定当前页面分组对应的页面内容变化度;
第七确定模块,用于在所述页面内容变化度为零时,确定所述当前页面分组对应的页面为孤立页面;
第八确定模块,用于在所述页面内容变化度大于第一变化阈值时,确定所述当前页面分组下的各个页面中的锚文本数量与该页面中的文本数量的比值;
第九确定模块,用于在所述比值大于第二占比阈值的页面数量与当前页面分组下的页面总数的比值超过第三占比阈值,且当前页面分组下的各个页面中的指向预设体裁的锚文本的链接数量与该页面中的锚文本的链接总数的比值超过第四占比阈值时,确定所述当前页面分组对应的页面体裁为列表页;或在所述页面内容变化度大于所述第一变化阈值,且当前页面分组中的文本变化度超过第二变化阈值的节点数量超过第八阈值时,确定所述当前页面分组的页面体裁为专题页。
可选地,所述装置10还包括:
划分模块,用于根据所述内容节点的权重,对所述当前页面分组对应的页面进行区块划分。
可选地,所述划分模块包括以下中的一者或多者:
第九确定子模块,用于将权重最大的内容节点及其子节点所对应的区块确定为正文区块;
第十确定子模块,用于将除权重最大的内容节点之外、标签和路径层级相同的锚文本对应的节点对应的区块确定为推荐区块;
第十一确定子模块,用于将对应的标签和路径层级相同、权重的标准差大于第二标准差阈值的内容节点所对应的区块确定为评论区块。
可选地,所述装置10还包括:
获取模块,用于获取待划分页面;
第十确定模块,用于确定所述待划分页面所属的目标页面分组;
第十一确定模块,用于根据所述目标页面分组确定所述待划分页面的页面体裁。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种电子设备700的框图。如图6所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的页面体裁划分方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的页面体裁划分方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的页面体裁划分方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的页面体裁划分方法。
图7是根据一示例性实施例示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。参照图7,电子设备1900包括处理器1922,其数量可以为一个或多个,以及存储器1932,用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1922可以被配置为执行该计算机程序,以执行上述的页面体裁划分方法。
另外,电子设备1900还可以包括电源组件1926和通信组件1950,该电源组件1926可以被配置为执行电子设备1900的电源管理,该通信组件1950可以被配置为实现电子设备1900的通信,例如,有线或无线通信。此外,该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的页面体裁划分方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程序指令可由电子设备1900的处理器1922执行以完成上述的页面体裁划分方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (13)

1.一种页面体裁划分方法,其特征在于,所述方法包括:
根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;
针对每一页面分组,在当前页面分组下的页面数量达到预设的数量阈值时,生成当前页面分组下的各个页面对应的dom树;
针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径确定当前页面分组中的内容节点;
确定所述内容节点的权重,其中,所述权重用于表征所述内容节点所包含的信息的变化程度;
根据内容节点的权重,确定所述当前页面分组对应的页面体裁;
其中,所述根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,包括以下中的至少一者:
将在不同dom树中具有相同文本和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;
将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;
将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点子网分为一组,当该组节点子网中的节点子网数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点子网中的每个节点子网在所属dom树中的路径进行合并,获得所述第一特征路径。
2.根据权利要求1所述的方法,其特征在于,所述内容节点的权重至少包括所述内容节点对应的文本权重;
通过以下公式确定所述内容节点的文本权重:
Figure FDA0002252319070000021
其中,Pweight表示所述内容节点的文本权重;
variability表示所述内容节点的文本变化度,其中,所述内容节点对应的文本为包含该内容节点的路径上对应的同级节点的文本的集合,所述文本变化度为该文本的集合中不同文本的个数与当前页面分组下包含该内容节点的dom树的总数的比值;
length表示所述内容节点的文本平均长度;
Cweighti表示所述内容节点的第i个子节点的文本权重;
n表示所述内容节点的子节点的总个数;
α表示预设系数,其中,α的取值范围为(0.5,1)。
3.根据权利要求1所述的方法,其特征在于,在确定出所述第一特征路径之后,所述方法还包括:
将所述第一特征路径上的至少一个节点分别作为目标节点,执行如下操作:
确定当前页面分组下包括该目标节点且该目标节点在其中具有子节点的dom树为目标dom树;
当所述目标dom树为多个时,从多个所述目标dom树中的各条候选路径中,根据候选路径的子节点之间的相似度参数,确定能够被合并的候选路径,并对确定出的能够被合并的候选路径进行合并,获得第二特征路径,其中,所述候选路径为所述目标dom树中,所述目标节点与该目标节点的一个子节点形成的路径;
所述至少根据所述第一特征路径确定当前页面分组中的内容节点,包括:
根据所述第一特征路径和所述第二特征路径,确定当前页面分组中的内容节点。
4.根据权利要求1所述的方法,其特征在于,所述权重至少包括文本权重;
所述根据内容节点的权重,确定所述当前页面分组对应的页面体裁,包括:
根据所述内容节点的权重,确定所述内容节点的类型,其中,所述类型至少包括第一类型和第二类型,所述第一类型的内容节点的文本权重大于预设的第一权重阈值,第二类型的内容节点的文本权重小于预设的第二权重阈值,所述第二权重阈值小于所述第一权重阈值;
根据所述内容节点的类型确定所述当前页面分组对应的页面体裁。
5.根据权利要求4所述的方法,其特征在于,所述根据所述内容节点的类型确定所述当前页面分组对应的页面体裁,包括:
若当前页面分组对应的内容节点中,存在权重大于第三权重阈值的第一类型的内容节点、且所述权重大于第三权重阈值的第一类型的内容节点的数量为一个,确定所述当前页面分组对应的页面体裁为文本详情页;
若当前页面分组对应的内容节点中,存在权重大于第三权重阈值的第一类型的内容节点、且所述权重大于第三权重阈值的第一类型的内容节点的数量为多个、且所述多个权重大于第三权重阈值的第一类型的内容节点之间为从属关系,确定所述当前页面分组对应的页面体裁为文本详情页;
若当前页面分组对应的内容节点中,所述第一类型的内容节点的数量大于第二阈值、所述第一类型的内容节点的权重的标准差小于第一标准差阈值、第一类型的内容节点的标签和路径层级相同、且所述第一类型的内容节点之间具有文本不变的子节点,确定所述当前页面分组对应的页面体裁为贴吧页。
6.根据权利要求4所述的方法,其特征在于,所述权重还包括图片权重,所述类型还包括第三类型,所述第三类型的内容节点的图片权重大于第四权重阈值;
所述根据所述内容节点的类型确定所述当前页面分组对应的页面体裁,包括:
若当前页面分组对应的内容节点中,所述第一类型的内容节点的数量小于第三阈值、所述第三类型的内容节点的数量大于第四阈值,且所述第三类型的内容节点的标签和路径层级相同,确定所述当前页面分组对应的页面体裁为图片列表页;
若当前页面分组对应的内容节点中,所述第一类型的内容节点的数量小于第五阈值,所述第三类型的内容节点的数量大于第六阈值,且与所述第三类型的内容节点的层级距离在预设范围内的节点中、包含图片的节点的标签和路径层级相同,确定所述当前页面分组对应的页面体裁为图片详情页;
若当前页面分组对应的内容节点中,所述第二类型的内容节点的数量大于第七阈值,且对应的标签为表格标签的内容节点的数量与当前页面分组对应的内容节点的总数的比值超过第一占比阈值,确定所述当前页面分组的页面体裁为实体介绍页。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在当前页面分组下的页面的数量未达到所述数量阈值时,对当前页面分组下的各个页面重新进行多次采样,确定当前页面分组对应的页面内容变化度;
若所述页面内容变化度为零,确定所述当前页面分组对应的页面为孤立页面;
若所述页面内容变化度大于第一变化阈值,确定所述当前页面分组下的各个页面中的锚文本数量与该页面中的文本数量的比值;
若所述比值大于第二占比阈值的页面数量与当前页面分组下的页面总数的比值超过第三占比阈值,且当前页面分组下的各个页面中的指向预设体裁的锚文本的链接数量与该页面中的锚文本的链接总数的比值超过第四占比阈值,确定所述当前页面分组对应的页面体裁为列表页;
若所述页面内容变化度大于所述第一变化阈值,且当前页面分组中的文本变化度超过第二变化阈值的节点数量超过第八阈值,确定所述当前页面分组的页面体裁为专题页。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述内容节点的权重,对所述当前页面分组对应的页面进行区块划分。
9.根据权利要求8所述的方法,其特征在于,所述根据所述内容节点的权重,对所述当前页面分组中的页面内容进行划分,包括以下中的一者或多者:
将权重最大的内容节点及其子节点所对应的区块确定为正文区块;
将除权重最大的内容节点之外、标签和路径层级相同的锚文本对应的节点对应的区块确定为推荐区块;
将对应的标签和路径层级相同、权重的标准差大于第二标准差阈值的内容节点所对应的区块确定为评论区块。
10.根据权利要求1-9中任一项所述的方法,其特征在于,所述方法还包括:
获取待划分页面;
确定所述待划分页面所属的目标页面分组;
根据所述目标页面分组确定所述待划分页面的页面体裁。
11.一种页面体裁划分装置,其特征在于,所述装置包括:
分组模块,用于根据页面URL对多个页面进行分组,其中,每个页面分组分别对应于一种页面结构;
生成模块,用于针对每一页面分组,在当前页面分组下的页面数量达到预设的数量阈值时,生成当前页面分组下的各个页面对应的dom树;
第一确定模块,用于针对每一页面分组,根据当前页面分组下的各个dom树,确定能够代表当前页面分组对应的页面结构的第一特征路径,并至少根据所述第一特征路径确定当前页面分组中的内容节点;
第二确定模块,用于确定所述内容节点的权重,其中,所述权重用于表征所述内容节点所包含的信息的变化程度;
第三确定模块,用于根据内容节点的权重,确定所述当前页面分组对应的页面体裁;
其中,所述第一确定模块包括以下中的至少一者:
第一合并子模块,用于将在不同dom树中具有相同文本和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;
第二合并子模块,用于将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点分为一组,当该组节点中的节点数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点中的每个节点在所属dom树中的路径进行合并,获得所述第一特征路径;
第三合并子模块,用于将在所属dom树中只出现一次,且在不同dom树中具有相同标签属性和路径的节点子网分为一组,当该组节点子网中的节点子网数量与当前页面分组下的dom树总数的比值超过第一阈值时,将该组节点子网中的每个节点子网在所属dom树中的路径进行合并,获得所述第一特征路径。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-10中任一项所述方法的步骤。
13.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-10中任一项所述方法的步骤。
CN201811447611.5A 2018-11-29 2018-11-29 页面体裁划分方法、装置、可读存储介质及电子设备 Active CN109726338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811447611.5A CN109726338B (zh) 2018-11-29 2018-11-29 页面体裁划分方法、装置、可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811447611.5A CN109726338B (zh) 2018-11-29 2018-11-29 页面体裁划分方法、装置、可读存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN109726338A CN109726338A (zh) 2019-05-07
CN109726338B true CN109726338B (zh) 2020-01-17

Family

ID=66295314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811447611.5A Active CN109726338B (zh) 2018-11-29 2018-11-29 页面体裁划分方法、装置、可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN109726338B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443195A (zh) * 2022-01-14 2022-05-06 阳光保险集团股份有限公司 一种页面内容的分页显示方法和分页显示装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819597A (zh) * 2012-08-13 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法及设备
CN103942211A (zh) * 2013-01-21 2014-07-23 腾讯科技(深圳)有限公司 一种正文页的识别方法及装置
CN105183730A (zh) * 2014-05-30 2015-12-23 北大方正集团有限公司 网页信息的处理方法和装置
CN107943929A (zh) * 2017-11-22 2018-04-20 福州大学 基于dom树抽象的包装器自动生成方法
CN108255975A (zh) * 2017-12-27 2018-07-06 东软集团股份有限公司 模板构建方法、页面内容抓取方法及装置、介质及设备
CN108694192A (zh) * 2017-04-07 2018-10-23 北京国双科技有限公司 网页类型的判断方法及装置
CN108874934A (zh) * 2018-06-01 2018-11-23 百度在线网络技术(北京)有限公司 页面正文提取方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10073918B2 (en) * 2014-08-12 2018-09-11 Entit Software Llc Classifying URLs

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819597A (zh) * 2012-08-13 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法及设备
CN103942211A (zh) * 2013-01-21 2014-07-23 腾讯科技(深圳)有限公司 一种正文页的识别方法及装置
CN105183730A (zh) * 2014-05-30 2015-12-23 北大方正集团有限公司 网页信息的处理方法和装置
CN108694192A (zh) * 2017-04-07 2018-10-23 北京国双科技有限公司 网页类型的判断方法及装置
CN107943929A (zh) * 2017-11-22 2018-04-20 福州大学 基于dom树抽象的包装器自动生成方法
CN108255975A (zh) * 2017-12-27 2018-07-06 东软集团股份有限公司 模板构建方法、页面内容抓取方法及装置、介质及设备
CN108874934A (zh) * 2018-06-01 2018-11-23 百度在线网络技术(北京)有限公司 页面正文提取方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于内容组的网站访问者路径分析;张如云;《计算机时代》;20140515;第24页2.2:对网站URL进行分组 *
基于标签路径特征融合的在线Web新闻内容抽取;吴共庆等;《软件学报》;20160315;717页第2.1:标签路径、718页2.2:标签路径特征系的设计 *
基于正文特征及网页结构的主题网页信息抽取;段晓丽等;《计算机工程与应用》;20121021;第151-156页 *

Also Published As

Publication number Publication date
CN109726338A (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
US11146286B2 (en) Compression of JavaScript object notation data using structure information
US10817786B2 (en) Multi-round session interaction method and system, and computer device
Oussalah et al. A software architecture for Twitter collection, search and geolocation services
US10282369B2 (en) Fast indexing and searching of encoded documents
CN111339382B (zh) 字符串数据检索方法、装置、计算机设备及存储介质
CN109582886B (zh) 页面内容提取方法、模板的生成方法及装置、介质及设备
US20180165135A1 (en) Api learning
US10489493B2 (en) Metadata reuse for validation against decentralized schemas
US9485306B2 (en) Methods, apparatuses, and computer program products for facilitating a data interchange protocol
US10275486B2 (en) Multi-system segmented search processing
CN110471848B (zh) 一种动态返回报文的方法和装置
US20130179431A1 (en) Tokenized javascript indexing system
CN109710864B (zh) 页面内容划分方法、装置、可读存储介质及电子设备
US11775759B2 (en) Systems and methods for training and evaluating machine learning models using generalized vocabulary tokens for document processing
CN111666372B (zh) 解析查询词query的方法、装置、电子设备和可读存储介质
JP2022533200A (ja) 地理的位置を検索する方法、装置、機器、コンピュータ記憶媒体及びコンピュータプログラム
CN112115313A (zh) 正则表达式的生成、数据提取方法、装置、设备及介质
CN109726338B (zh) 页面体裁划分方法、装置、可读存储介质及电子设备
CN111930891B (zh) 基于知识图谱的检索文本扩展方法及相关装置
CN113127776A (zh) 面包屑路径生成方法、装置及终端设备
CN111078773A (zh) 一种数据处理方法及装置
JP2012059212A (ja) 抽出装置、抽出方法及び抽出プログラム
Xue et al. RESTful web service matching based on WADL
CN113987118A (zh) 语料的获取方法、装置、设备及存储介质
CN112652298A (zh) 语音识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant