CN113392328A - 页面数据处理方法、装置、设备和介质 - Google Patents

页面数据处理方法、装置、设备和介质 Download PDF

Info

Publication number
CN113392328A
CN113392328A CN202110786144.4A CN202110786144A CN113392328A CN 113392328 A CN113392328 A CN 113392328A CN 202110786144 A CN202110786144 A CN 202110786144A CN 113392328 A CN113392328 A CN 113392328A
Authority
CN
China
Prior art keywords
page
hierarchical information
pages
breadcrumbs
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110786144.4A
Other languages
English (en)
Other versions
CN113392328B (zh
Inventor
刘伟
林赛群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110786144.4A priority Critical patent/CN113392328B/zh
Publication of CN113392328A publication Critical patent/CN113392328A/zh
Application granted granted Critical
Publication of CN113392328B publication Critical patent/CN113392328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种页面数据处理方法、装置、设备和介质,涉及计算机领域,具体涉及计算机网络技术、搜索引擎技术和软件应用技术。该方法包括:获取多个页面;针对多个页面中的每一个页面,执行以下分层信息提取操作:获取该页面的页面面包屑;以及至少基于该页面的页面面包屑确定该页面的分层信息,分层信息表征该页面与该页面对应的网站的内容框架之间的对应关系;以及至少基于多个页面各自的分层信息,确定一个或多个分组。其中,一个或多个分组中的每一个分组包括至少一个页面。

Description

页面数据处理方法、装置、设备和介质
技术领域
本公开涉及计算机领域,具体涉及计算机网络技术、搜索引擎技术和软件应用技术,特别涉及一种页面数据处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术
搜索引擎抓取大量网页页面,并对这些页面过滤,进而将过滤后的页面收录入索引库之中。在用户向搜索引擎发送查询请求后,搜索引擎根据请求筛选出相关页面,再通过各种手段对这些页面进行排序,并基于排序结果将相关页面全部或部分展现给用户。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
本公开提供了一种页面数据处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
根据本公开的一方面,提供了一种页面数据处理方法。页面数据处理方法包括:获取多个页面;针对多个页面中的每一个页面,执行以下分层信息提取操作:获取该页面的页面面包屑;以及至少基于该页面的页面面包屑确定该页面的分层信息,分层信息表征该页面与该页面对应的网站的内容框架之间的对应关系;以及至少基于多个页面各自的分层信息,确定一个或多个分组。其中,一个或多个分组中的每一个分组包括至少一个页面。
根据本公开的另一方面,提供了一种页面数据处理装置。页面数据处理装置包括:获取单元,被配置为获取多个页面;提取单元,被配置为针对多个页面中的每一个页面,执行分层信息提取操作,其中,提取单元包括:第一获取子单元,被配置为获取该页面的页面面包屑;以及第一确定子单元,被配置为至少基于该页面的页面面包屑确定该页面的分层信息;以及分组单元,被配置为至少基于多个页面各自的分层信息,确定一个或多个分组。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,这些指令被至少一个处理器执行,以使至少一个处理器能够执行上述页面数据处理方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述页面数据处理方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述页面数据处理方法。
根据本公开的一个或多个实施例,通过使用页面的面包屑信息对页面进行结构分层,进而至少基于每个页面的分层信息对大量页面数据进行分组,使得每一个分组内的页面具有一定的相似性(例如,内容、质量处于同一水平,组内页面生产方式基本一致等),从而实现了一种低成本、高准确率且具有一定泛化能力的页面数据处理方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1示出了根据本公开示例性实施例的页面数据处理方法的流程图;
图2示出了根据本公开示例性实施例的获取页面面包屑的流程图;
图3A-图3C示出了根据本公开示例性实施例的页面面包屑的示意图;
图4示出了根据本公开示例性实施例的页面数据处理方法的流程图;
图5-图6示出了根据本公开示例性实施例的页面数据处理装置的结构框图;以及
图7示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
相关技术中,现有的对页面数据进行处理的方法可以粗略分为两种。其中一种为基于页面的特定属性(例如,域名domain、站名site),这种方法较为简单,但对页面数据进行分组时粒度较大,准确率较低。另一种方法使用复杂算法进行聚类,这种方法的目标性较强,但成本高且准确率波动较大,对搜索结果的提升效果有限。
为解决上述问题,本公开通过使用页面的面包屑信息对页面进行结构分层,进而至少基于每个页面的分层信息对大量页面数据进行分组,使得每一个分组内的页面具有一定的相似性(例如,内容、质量处于同一水平,组内页面生产方式基本一致等),从而实现了一种低成本、高准确率且具有一定泛化能力的页面数据处理方法。
根据本公开的一方面,提供了一种页面数据处理方法。如图1所示,页面数据处理方法包括:步骤S101、获取多个页面;步骤S102、针对多个页面中的每一个页面,执行分层信息提取操作;步骤S103、获取该页面的页面面包屑;步骤S104、至少基于该页面的页面面包屑确定该页面的分层信息,分层信息表征该页面与该页面对应的网站的内容框架之间的对应关系;以及步骤S105、至少基于多个页面各自的分层信息,确定一个或多个分组。其中,一个或多个分组中的每一个分组包括至少一个页面。由此,通过使用页面的面包屑信息对页面进行结构分层,进而至少基于每个页面的分层信息对大量页面数据进行分组,使得每一个分组内的页面具有一定的相似性(例如,内容、质量处于同一水平,组内页面生产方式基本一致等),从而实现了一种低成本、高准确率且具有一定泛化能力的页面数据处理方法。
根据一些实施例,步骤S101中所获取的多个页面例如可以是搜索引擎抓取到的网页页面。本公开所描述的页面数据处理方法可以应用于抓取后还未存入索引库的页面数据,也可以应用于已经存在索引库中的页面数据,在此不做限定。
可以理解的是,步骤S103-步骤S104例如可以为步骤S102中的分层信息提取操作中的子步骤。
根据一些实施例,如图2所示,步骤S103、获取该页面的页面面包屑可以包括:步骤S1031、基于页面结构,获取该页面的页面节点信息;步骤S1032、在页面节点信息中筛选目标节点,其中,目标节点具有面包屑特点;步骤S1033、提取目标节点的节点文本;以及步骤S1034、基于分隔符,对节点文本进行拆分,以得到页面面包屑。由此,通过使用上述方法,能够得到网页页面的页面面包屑信息,从而为后续提取页面层级提供参照。
根据一些实施例,页面结构例如可以为dom-tree结构,可以根据dom-tree结构获取大量的页面节点信息,进而从中筛选出具有面包屑结构的目标节点。根据一些实施例,面包屑特点包括以下各项组成的组中的至少一项:具有多层结构、每一层对应的字符数位于预设范围内、以及具有至少一个分隔符。常用的分隔符例如可以是:“>”、“-”、“_”、“>>”、“|”、“||”,也可以是其他具有分隔含义的标记,在此不做限定。可以理解的是,本领域技术人员可以自行设置相应的预设范围,从而能够滤除非面包屑信息。
根据一些实施例,目标节点通常位于导航和标题之间,因此可以优先筛选位于该位置附近的节点信息,从而更快速地提取出页面面包屑。
图3A-图3B示出了示例性的页面面包屑和页面节点信息示意图。如图3A所示,网页300中显示有页面面包屑信息302,但对页面面包屑信息的提取需要通过对页面源码等数据进行分析而得到。如图3B所示,在页面源码310中包括有页面节点信息,包括具有面包屑结构的多个目标节点312和无关节点(图中未示出)。其中,“&gt”为转义字符,表示大于号“>”,在这里用作面包屑中的分隔符。可以理解的是,在面包屑的某个层级内部可能也隐含有层级关系,如图3A中的面包屑中,“国际体育-A国”即隐含了“国际足球”和“A国”的层级关系。因此,在获取页面面包屑信息时,可以将这些层级关系展开,即获取到的图3A中的页面面包屑为“XX体育/国际足球/A国/A超联赛”。
根据一些实施例,页面的分层信息能够表征该页面与网站层级之间的对应关系。步骤S104、至少基于该页面的页面面包屑确定该页面的分层信息例如可以为将页面面包屑的分层结构直接作为页面的分层信息。示例性地,可以将图3A中的面包屑的分层结构即“XX体育/国际足球/A国/A超联赛”作为页面分层信息。
根据一些实施例,页面面包屑的分层结构可能过于细化或非常粗略,因此可以参考索引库中类似的历史页面的分层信息,从而基于历史分层信息和当前待处理页面的页面面包屑确定当前页面的分层信息。示例性地,如果在搜索引擎的收录历史中,将与页面300的类似页面的分层信息确定为“XX体育/A国/A超联赛/A俱乐部”(即,跳过了“国际足球”一级),则可以将页面300的分层信息确定为“XX体育/A国/A超联赛”。
根据一些实施例,如图4所示,分层信息提取操作还可以包括:步骤S404、获取该页面的适配页面;步骤S405、响应于检测到适配页面具有页面面包屑,获取适配页面的页面面包屑;以及步骤S406、至少基于该页面的页面面包屑和适配页面的页面面包屑确定该页面和适配页面的分层信息。图4中的步骤S401-步骤S403、步骤S408的操作分别与图1中的步骤S101-步骤S103、步骤S105的操作类似,在此不做限定。
根据一些实施例,步骤S401所获取的页面例如可以为通过个人计算机(PersonalComputer,PC)访问的PC页面,步骤S404所获取的适配页面例如可以为通过移动端访问的,由站点对该PC页面进行适配后得到的Wise页面。由此,通过获取PC页面和Wise页面各自的页面面包屑,并基于PC页面的面包屑和Wise页面的面包屑来确定两个页面的分层,从而能够得到更为合理的分层结果。
根据一些实施例,当PC页面的面包屑和Wise页面的面包屑相同时,可以基于共同的面包屑信息确定两个页面的分层信息。而当PC页面的面包屑和Wise页面的面包屑不同时,多数情况下是由于Wise页面的显示范围限制而使得Wise页面的面包屑结构相比于PC页面的面包屑结构更为简单。如图3C所示,与页面300对应的适配页面320的面包屑322比页面300的面包屑302更简单。在这种情况下,可以根据相应的需求确定两个页面的分层信息。在一个示例性实施例中,当期望得到更细化的页面分层信息时,可以基于PC页面的面包屑确定两个页面的分层信息。在另一个示例性实施例中,当期望得到更粗略的页面分层信息时,可以基于Wise页面的面包屑确定两个页面的分层信息。可以理解的是,也可以将两个页面的面包屑信息相结合,从而得到介于两个分层复杂度之间的分层结果。
根据一些实施例,页面的分层信息可以和适配页面的分层信息相同,从而使得后续对PC页面和Wise页面进行分组时能够将内容相同且质量相同的两个页面分到同一个组中。
根据一些实施例,如图4所示,分层信息提取操作还可以包括:步骤S407、响应于检测到适配页面不具有页面面包屑,在确定该页面的分层信息后,将该页面的分层信息作为适配页面的分层信息。
由此,通过确定每个页面的分层信息,可以得到所获取的大量网页页面所包含的网站层级结构以及页面之间的关联关系,从而基于这些关联关系对页面进行分组处理。
根据一些实施例,步骤S105、至少基于多个页面各自的分层信息,确定一个或多个分组例如可以包括:确定分组粒度;以及至少基于分组粒度和多个页面各自的分层信息,确定一个或多个分组。由此,通过确定分组粒度,并根据分组粒度来对页面进行分组,从而能够得到粒度更满足需求的页面分组结果,进一步提升了整体效果和泛化能力,同时实现了对计算复杂度和搜索准确率的平衡。
根据一些实施例,分组粒度可以是基于以下各项组成的组中的至少一项从多个候选分组粒度中确定的:可用计算资源、多个候选分组粒度各自对应的计算复杂度、多个候选分组粒度各自对应的准确率、以及历史分组粒度。在一个示例性实施例中,可以预先确定三个候选分组粒度,分别对应于图3A中页面分层信息的“XX体育”层级、“A国”层级和“A超联赛”层级。进而,可以计算不同分组粒度对应的计算复杂度和准确率。例如,“XX体育”层级对应的数据量为10000,而“A超联赛”对应的数据量为100,则以“XX体育”层级作为分组粒度时,只需对10000个页面数据进行相同处理,而以“A超联赛”层级作为分组粒度时,则需要针对所有国家的所有联赛的数据做区别处理,而每批进行处理的数据量为100。因此,以“XX体育”层级作为分组粒度的计算复杂度要远远小于以“A超联赛”层级作为分组粒度。与此同时,由于以“XX体育”层级作为分组粒度时的分组粒度较大,对不同页面的区分程度较低,因此其准确率会相对较低。可以理解的是,这里的准确率泛指用户进行搜索时,所得到的搜索结果和搜索请求之间匹配程度的一种度量。因此,可以基于可用的计算资源、不同候选分组粒度对应的计算复杂度与准确率确定最终使用的分组粒度。
根据一些实施例,也可以使用历史分组粒度作为最终选择的分组粒度。示例性地,如果搜索引擎已经获取过大量“XX体育”下的数据,并且历史分组粒度已经取得了较好的准确率,则可以直接使用历史分组粒度,从而降低对计算资源的使用。类似地,如果历史分组粒度的表现相对较差,则可以基于该历史分组粒度对分组粒度进行调整,从而得到更合适的分组粒度。示例性地,如果在历史分组粒度下的准确率较低,则在设定当前分组粒度时可以相应地将粒度调细,从而提高准确率。
根据一些实施例,如图4所示,页面数据处理方法还可以包括:步骤S409、针对一个或多个分组中的每一个分组,对多个页面中属于该目标分组的页面执行页面批量处理。由此,通过对同一分组的页面进行批量处理,使得具有一定相似性的页面在搜索引擎中具有相似的属性或表现,进而提升搜索引擎返回内容的相关度和质量,提升用户的使用体验。
根据一些实施例,页面批量处理可以包括以下各项组成的组中的至少一项:打压、提权、赋值、标记、以及清理。由此,通过对同一组内的所有页面数据采取降低权重、提升权重、赋予相同值、标记、或清理的方法,使得同一分组内的数据在搜索时具有类似的表现,并可以提升高质量的页面的出现概率,降低或者消除低质量的页面的出现概率,提升准确率和用户体验。
根据本公开的另一方面,还提供了一种页面数据处理装置。如图5所示,页面数据处理装置500包括:获取单元510,被配置为获取多个页面;提取单元520,被配置为针对多个页面中的每一个页面,执行分层信息提取操作,其中,提取单元包括:第一获取子单元522,被配置为获取该页面的页面面包屑;以及第一确定子单元524,被配置为至少基于该页面的页面面包屑确定该页面的分层信息,分层信息表征该页面与该页面对应的网站的内容框架之间的对应关系;以及分组单元530,被配置为至少基于多个页面各自的分层信息,确定一个或多个分组,其中,一个或多个分组中的每一个分组包括至少一个页面。
页面数据处理装置500的单元510-单元530的操作和上述页面数据处理方法的步骤S101-步骤S105的操作类似,在此不做赘述。
根据一些实施例,如图6所示,提取单元620还可以包括:第二获取子单元626,被配置为获取该页面的适配页面;以及第三获取子单元628,被配置为响应于检测到适配页面具有页面面包屑,获取适配页面的页面面包屑。其中,第一确定子单元624被进一步配置为至少基于该页面的页面面包屑和适配页面的页面面包屑确定该页面和适配页面的分层信息。
图6中的页面数据处理装置600的单元610-单元630的操作与图5中的单元510-单元530的操作类似,在此不做赘述。
根据一些实施例,该页面的分层信息和适配页面的分层信息相同。
根据一些实施例,分组单元630可以包括:第二确定子单元632,被配置为确定分组粒度;以及分组子单元634,被配置为至少基于分组粒度和多个页面各自的分层信息,确定一个或多个分组。
根据一些实施例,页面数据处理装置600还可以包括:处理单元640,被配置为针对一个或多个分组中的每一个分组,对多个页面中属于该目标分组的页面执行页面批量处理。
根据一些实施例,页面批量处理包括以下各项组成的组中的至少一项:打压、提权、赋值、标记、以及清理。
根据本公开的实施例,还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
参考图7,现将描述可以作为本公开的服务器或客户端的电子设备700的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706、输出单元707、存储单元708以及通信单元709。输入单元706可以是能向设备700输入信息的任何类型的设备,输入单元706可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入,并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元707可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元708可以包括但不限于磁盘、光盘。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如页面数据处理方法。例如,在一些实施例中,页面数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的页面数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行页面数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims (19)

1.一种页面数据处理方法,包括:
获取多个页面;
针对所述多个页面中的每一个页面,执行以下分层信息提取操作:
获取该页面的页面面包屑;以及
至少基于该页面的页面面包屑确定该页面的分层信息,所述分层信息表征该页面与该页面对应的网站的内容框架之间的对应关系;以及
至少基于所述多个页面各自的分层信息,确定一个或多个分组,其中,所述一个或多个分组中的每一个分组包括至少一个页面。
2.如权利要求1所述的方法,还包括:
针对所述一个或多个分组中的每一个分组,对所述多个页面中属于该目标分组的页面执行页面批量处理。
3.如权利要求1或2所述的方法,其中,至少基于所述多个页面各自的分层信息,确定一个或多个分组包括:
确定分组粒度;以及
至少基于所述分组粒度和所述多个页面各自的分层信息,确定所述一个或多个分组。
4.如权利要求3所述的方法,其中,所述分组粒度是基于以下各项组成的组中的至少一项从多个候选分组粒度中确定的:可用计算资源、所述多个候选分组粒度各自对应的计算复杂度、所述多个候选分组粒度各自对应的准确率、以及历史分组粒度。
5.如权利要求2所述的方法,其中,所述页面批量处理包括以下各项组成的组中的至少一项:打压、提权、赋值、标记、以及清理。
6.如权利要求1所述的方法,其中,所述分层信息提取操作还包括:
获取该页面的适配页面;
响应于检测到所述适配页面具有页面面包屑,获取所述适配页面的页面面包屑;以及
至少基于该页面的页面面包屑和所述适配页面的页面面包屑确定该页面和所述适配页面的分层信息。
7.如权利要求6所述的方法,其中,该页面的分层信息和所述适配页面的分层信息相同。
8.如权利要求6所述的方法,其中,所述分层信息提取操作还包括:
响应于检测到所述适配页面不具有页面面包屑,在确定该页面的分层信息后,将该页面的分层信息作为所述适配页面的分层信息。
9.如权利要求1所述的方法,其中,获取该页面的页面面包屑包括:
基于页面结构,获取该页面的页面节点信息;
在所述页面节点信息中筛选目标节点,其中,所述目标节点具有面包屑特点;
提取所述目标节点的节点文本;以及
基于分隔符,对所述节点文本进行拆分,以得到所述页面面包屑。
10.如权利要求9所述的方法,其中,所述面包屑特点包括以下各项组成的组中的至少一项:具有多层结构、每一层对应的字符数位于预设范围内、以及具有至少一个分隔符。
11.一种页面数据处理装置,包括:
获取单元,被配置为获取多个页面;
提取单元,被配置为针对所述多个页面中的每一个页面,执行分层信息提取操作,其中,所述提取单元包括:
第一获取子单元,被配置为获取该页面的页面面包屑;以及
第一确定子单元,被配置为至少基于该页面的页面面包屑确定该页面的分层信息,所述分层信息表征该页面与该页面对应的网站的内容框架之间的对应关系;以及
分组单元,被配置为至少基于所述多个页面各自的分层信息,确定一个或多个分组,其中,所述一个或多个分组中的每一个分组包括至少一个页面。
12.如权利要求11所述的装置,还包括:
处理单元,被配置为针对所述一个或多个分组中的每一个分组,对所述多个页面中属于该目标分组的页面执行页面批量处理。
13.如权利要求11或12所述的装置,其中,所述分组单元包括:
第二确定子单元,被配置为确定分组粒度;以及
分组子单元,被配置为至少基于所述分组粒度和所述多个页面各自的分层信息,确定所述一个或多个分组。
14.如权利要求12所述的装置,其中,所述页面批量处理包括以下各项组成的组中的至少一项:打压、提权、赋值、标记、以及清理。
15.如权利要求11所述的装置,其中,所述提取单元还包括:
第二获取子单元,被配置为获取该页面的适配页面;以及
第三获取子单元,被配置为响应于检测到所述适配页面具有页面面包屑,获取所述适配页面的页面面包屑,
其中,所述第一确定子单元被进一步配置为至少基于该页面的页面面包屑和所述适配页面的页面面包屑确定该页面和所述适配页面的分层信息。
16.如权利要求15所述的装置,其中,该页面的分层信息和所述适配页面的分层信息相同。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-10中任一项所述的方法。
CN202110786144.4A 2021-07-12 2021-07-12 页面数据处理方法、装置、设备和介质 Active CN113392328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110786144.4A CN113392328B (zh) 2021-07-12 2021-07-12 页面数据处理方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110786144.4A CN113392328B (zh) 2021-07-12 2021-07-12 页面数据处理方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN113392328A true CN113392328A (zh) 2021-09-14
CN113392328B CN113392328B (zh) 2024-02-27

Family

ID=77625969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110786144.4A Active CN113392328B (zh) 2021-07-12 2021-07-12 页面数据处理方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113392328B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110276562A1 (en) * 2009-01-16 2011-11-10 Beckett Madden-Woods Visualizing site structure and enabling site navigation for a search result or linked page
US20130173593A1 (en) * 2011-12-28 2013-07-04 Target Brands, Inc. Breadcrumb filtering
US20130232128A1 (en) * 2012-03-05 2013-09-05 Microsoft Corporation Application of breadcrumbs in ranking and search experiences

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110276562A1 (en) * 2009-01-16 2011-11-10 Beckett Madden-Woods Visualizing site structure and enabling site navigation for a search result or linked page
CN102349069A (zh) * 2009-01-16 2012-02-08 谷歌公司 为搜索结果或链接页面可视化站点结构及使能站点导航
US20130173593A1 (en) * 2011-12-28 2013-07-04 Target Brands, Inc. Breadcrumb filtering
US20130232128A1 (en) * 2012-03-05 2013-09-05 Microsoft Corporation Application of breadcrumbs in ranking and search experiences

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵宇翔;张轩慧;: "基于层次分析法的弹幕视频网站信息构建评价", 情报资料工作, no. 03 *

Also Published As

Publication number Publication date
CN113392328B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN110928739B (zh) 一种进程监控方法、装置以及计算设备
CN109858528A (zh) 推荐系统训练方法、装置、计算机设备及存储介质
CN114049197A (zh) 数据处理方法、构建模型的方法、装置及电子设备
CN113377809A (zh) 数据处理方法及装置,计算设备和介质
CN114861059A (zh) 资源推荐方法、装置、电子设备及存储介质
CN115145924A (zh) 数据处理方法、装置、设备及存储介质
CN111444438A (zh) 召回策略的准召率的确定方法、装置、设备及存储介质
CN111461306B (zh) 特征评估的方法及装置
CN113778644A (zh) 任务的处理方法、装置、设备及存储介质
CN113392328B (zh) 页面数据处理方法、装置、设备和介质
CN114428894A (zh) 页面搜索分析方法、装置、设备和介质
CN113761379B (zh) 商品推荐方法及装置、电子设备和介质
CN109299353A (zh) 一种网页信息搜索方法及装置
CN113032251B (zh) 应用程序服务质量的确定方法、设备和存储介质
CN114238745A (zh) 一种提供搜索结果的方法及装置、电子设备和介质
CN112860626B (zh) 一种文档排序方法、装置及电子设备
CN112887426B (zh) 信息流的推送方法、装置、电子设备以及存储介质
CA3144051A1 (en) Data sorting method, device, and system
CN113485782A (zh) 页面数据获取方法、装置、电子设备及介质
CN115809364B (zh) 对象推荐方法和模型训练方法
CN113326417B (zh) 用于更新网页库的方法和装置
CN113420227B (zh) 点击率预估模型的训练方法、预估点击率的方法、装置
CN116244413B (zh) 新意图确定方法、设备和存储介质
CN113963234B (zh) 数据标注处理方法、装置、电子设备和介质
CN115795023B (zh) 文档推荐方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant