CN110020036B - 一种网站列表路径生成方法及装置 - Google Patents

一种网站列表路径生成方法及装置 Download PDF

Info

Publication number
CN110020036B
CN110020036B CN201710587500.3A CN201710587500A CN110020036B CN 110020036 B CN110020036 B CN 110020036B CN 201710587500 A CN201710587500 A CN 201710587500A CN 110020036 B CN110020036 B CN 110020036B
Authority
CN
China
Prior art keywords
path
link
list
column
paths
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710587500.3A
Other languages
English (en)
Other versions
CN110020036A (zh
Inventor
潘峰
孙德彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710587500.3A priority Critical patent/CN110020036B/zh
Publication of CN110020036A publication Critical patent/CN110020036A/zh
Application granted granted Critical
Publication of CN110020036B publication Critical patent/CN110020036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本发明公开了一种网站列表路径生成方法及装置,涉及网络技术领域,为解决现有技术在网站栏目中没有相似的链接路径时,无法判断当前栏目是否为列表区域,进而无法生成对应的列表路径,导致网站列表路径生成的准确率较低而发明。本发明的方法包括:判断目标栏目中是否存在路径结构相似的第一链接路径;若不存在所述第一链接路径,则判断所述目标栏目中是否存在与已知的网站列表路径的路径结构相似的第二链接路径;若存在所述第二链接路径,则根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径,并将所述栏目列表路径添加到已知的网站列表路径的集合中。本发明适合应用于生成网站列表区域的路径。

Description

一种网站列表路径生成方法及装置
技术领域
本发明涉及网络技术领域,尤其涉及一种网站列表路径生成方法及装置。
背景技术
随着网络爬虫技术的广泛使用,网络爬虫的工作效率也越来越受人们重视。当网络爬虫在对网站内容进行爬取时,爬取到的很多内容实际价值并不高,例如,广告或图片等区域的内容。而对于网络爬虫而言,网站的列表区域实际上是价值较高的部分。其中,与网站的其他栏目部分相比,网站列表区域之所以说价值较高,是因为网站的列表区域并不是严格意义上的列表,其内部包含带有不同标题名称及其内容的链接,这些链接在列表区域内呈“表”状逐条排列,故而列表区域内含有大量的信息和数据。因此,提高网络爬虫工作效率的突破口也在于如何能够确定网站列表区域的路径而不是网站的其他栏目,进而使网络爬虫在爬取网站内容时只爬取网站列表区域的内容,从而避免爬取其他价值较低栏目中的内容,如广告栏目的内容等。
目前,在现有技术对网站列表路径生成过程中,通常使用两种方式来进行,其中,第一种是在需要进行网站列表路径生成的网站中,通过人工的方式对列表区域添加额外的列表路径信息;另一种方式是通过对网站中全部栏目的路径根据相似度进行分类,生成路径组,并根据路径组确定对应的列表路径。然而,第一种生成方式在面对网站数量较大时,需要花费较多的人力;而第二种生成方式在当网站栏目中没有符合相似度的相似路径时,无法形成栏目路径组,进而由于无法根据路径组来识别该栏目是否为列表区域,从而无法生成对应该栏目的栏目列表路径,导致网站列表路径生成过程中出现准确率较低的问题。
发明内容
鉴于上述问题,本发明提供一种网站列表路径生成方法及装置,主要目的在于当网站栏目中的链接没有相似路径时,能够实现判断目标栏目是否为列表区域,并在确定目标栏目为列表区域后生成网站列表路径的功能,进而提高网站列表路径的生成的准确率。
为解决上述技术问题,第一方面,本发明提供了一种网站列表路径生成方法,该方法包括:
判断目标栏目中是否存在路径结构相似的第一链接路径,所述目标栏目为网站页面中的不同区域,所述链接路径为目标栏目中链接的路径;
若不存在所述第一链接路径,则判断所述目标栏目中是否存在与已知网站列表路径的路径结构相似的第二链接路径;
若存在所述第二链接路径,则根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径,并将所述栏目列表路径添加到已知的网站列表路径的集合中。
可选的,所述判断所述目标栏目中是否存在与已知的网站列表路径的路径结构相似的第二链接路径包括:
确定所述目标栏目中的链接路径数量;
若所述目标栏目中链接路径的数量为一个时,则判断单个链接路径的路径结构是否与已知的网站列表路径的路径结构相似;
若所述目标栏目中链接路径的数量为多个时,则逐一判断所述链接路径是否与已知的网站列表路径的路径结构相似。
可选的,所述根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径包括:
当所述目标栏目中链接路径数量为一个,且所述目标栏目中链接路径的路径结构与已知的网站列表路径的路径结构相似时,确定所述链接路径为第二链接路径;
根据所述第二链接路径的路径结构,生成对应所述目标栏目的栏目列表路径。
可选的,所述根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径包括:
若目标栏目中存在多个与所述已知的网站列表路径的路径结构相似的链接路径时,确定所述链接路径为第二链接路径;
根据多个第二链接路径的路径结构分别生成多个列表路径;
将所述多个列表路径确定为对应所述目标栏目的栏目列表路径。
可选的,所述根据所述第二链接路径的路径结构生成对应所述栏目的栏目列表路径包括:
选取所述目标栏目中路径结构的相似度超过阈值链接路径作为第二链接路径;
根据所述第二链接路径的路径结构生成对应所述栏目的栏目列表路径。
可选的,在所述判断目标栏目中是否存在路径结构相似的第一链接路径之后,所述方法还包括:
若存在相似的第一链接路径,则根据相似度对所述第一链接路径进行分组;
从分组后的链接路径的路径结构中提取相同部分,生成公共路径;
将所述公共路径确定为网站列表路径。
第二方面,本发明还提供了一种网站列表路径生成装置,该装置包括:
第一判断单元,用于判断目标栏目中是否存在路径结构相似的第一链接路径,所述目标栏目为网站页面中的不同区域,所述链接路径为目标栏目中链接的路径;
第二判断单元,用于当所述第一判断单元判断目标栏目中不存在相似的第一链接路径时,判断所述目标栏目中是否存在与已知网站列表路径的路径结构相似的第二链接路径;
生成单元,用于当第二判断单元判断所述目标栏目中存在与已知网站列表路径的路径结构相似的第二链接路径时,根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径;
添加单元,用于将所述生成单元生成的栏目列表路径添加到已知的网站列表路径的集合中。
可选的,所述第二判断单元包括:
确定模块,用于确定所述目标栏目中的链接路径数量;
判断模块,用于当所述确定模块确定目标栏目中链接路径的数量为一个时,判断单个链接路径的路径结构是否与已知的网站列表路径的路径结构相似;
所述判断模块,还用于当所述确定模块确定目标栏目中链接路径的数量为多个时,逐一判断所述链接路径是否与已知的网站列表路径的路径结构相似。
可选的,所述生成单元包括:
第一确定模块,用于当所述目标栏目中链接路径数量为一个,且所述目标栏目中链接路径的路径结构与已知的网站列表路径的路径结构相似时,确定所述链接路径为第二链接路径;
第一生成模块,用于根据所述第一确定模块确定的第二链接路径的路径结构,生成对应所述目标栏目的栏目列表路径。
可选的,所述生成单元包括:
所述第一确定模块,还用于当目标栏目中存在多个与所述已知的网站列表路径的路径结构相似的链接路径时,确定所述链接路径为第二链接路径;
所述第一生成模块,还用于根据多个所述第一确定模块确定的第二链接路径的路径结构分别生成多个列表路径;
第二确定模块,用于将所述第一生成模块生成的多个列表路径确定为对应所述目标栏目的栏目列表路径。
可选的,所述生成单元包括:
选取模块,用于选取所述目标栏目中路径结构的相似度超过阈值链接路径作为第二链接路径;
第二生成模块,用于根据所述选取模块选取的第二链接路径的路径结构生成对应所述栏目的栏目列表路径。
可选的,所述装置还包括:
分组单元,用于当存在相似的第一链接路径时,根据相似度对所述第一链接路径进行分组;
提取单元,用于从所述分组单元分组后的链接路径的路径结构中提取相同部分,生成公共路径;
确定单元,用于将所述提取单元生成的公共路径确定为网站列表路径。
为了实现上述目的,根据本发明的第三方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的网站列表路径生成方法。
为了实现上述目的,根据本发明的第四方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的网站列表路径生成方法。
借由上述技术方案,本发明提供的网站列表路径生成方法及装置,对于现有技术在当网站栏目中不存在相似的链接路径时,无法根据相似路径生成对应的路径组,进而无法确定该栏目是否为列表区域,从而无法生成对应该栏目的栏目列表路径,导致网站列表路径生成的准确率较低,本发明通过首先判断目标栏目中是否存在路径结构相似的链接路径;然后在确定不存在相似的链接路径后,判断目标栏目中的链接路径与已知网站列表路径的路径结构是否相似;最后在确定存在与已知网站列表路径的路径结构相似的链接路径后,根据该链接路径的路径结构生成对应目标栏目的栏目列表路径,因此相比于现有技术,本发明通过利用已知网站列表路径与目标栏目中的链接路径进行对比,在确定路径结构相同时,生成对应该目标栏目的栏目列表路径,进而确保了当目标栏目中存在不相似的链接路径时,能够根据与已知列表链接路径进行对比来判断目标栏目是否为列表区域,从而实现了根据判断结果生成对应该栏目的列表路径的功能,解决了现有技术中当栏目内存在不相似的链接路径时,因无法根据分组链接来判断当前栏目是否为列表区域所导致无法生成对应的列表路径的问题,从而提高了网站列表路径生成过程的整体准确率。此外,本发明所述的方法可以通过设定好的程序来实现网站列表路径生成的功能,能够避免现有技术中需要人工生成网页列表路径所导致的人力消耗问题,从而节约人力成本。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种网站列表路径生成方法流程图;
图2示出了本发明实施例提供的另一种网站列表路径生成方法流程图;
图3示出了本发明实施例提供的一种网站列表路径生成装置的组成框图;
图4示出了本发明实施例提供的另一种网站列表路径生成装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了提高网站列表路径生成的准确率,本发明实施例提供了一种网站列表路径生成方法,如图1所示,该方法包括:
101、判断目标栏目中是否存在路径结构相似的第一链接路径。
其中,本步骤所述的目标栏目可以理解为网站中的不同区域,而所述链接路径是指在目标栏目中包含的链接所对应的路径。
一般来说,在网站设计时,为了便于人们浏览其中的内容,都会在网站中设置大量的可视化标识,如我们常看到的字符、图片、链接以及其他内容。其中的每一个可视化标识实际上都有一个对应该标识的路径,用以确定该标识在此网站中的位置,以便网站工作人员进行后续的升级与调整。
同时,网站的页面上通常都包含很多不同的栏目,每个栏目又包含不同的内容。一般来说,网站的页面中会出现一种列表式栏目,这种栏目中包含了大量带有名称及其内容的链接,并且这些链接在该栏目中呈“表”状逐条排列。我们一般将这种栏目看作是网站的列表栏目。由于这种列表式的栏目包含大量的跳转链接,进而可以组织大量的内容和数据,并且可以使用户清晰明了的获取想要的信息,因此这种栏目形式被网站开发者广泛使用,并常见于政府网站或大型的门户类网站中。因此,一个网站的栏目中可能包含的链接路径可能是一个也可能是多个,具体的可以根据实际情况来确定。并且,如果栏目为列表式的栏目时,该栏目下的多个链接路径由于链接之间逐条排列,并同存在于一个栏目下,在网站中的位置也趋于相近,因此这些链接的链接路径所对应的路径结构实际上也是极为相似的,而这些相似的栏目路径之间的区别可能仅仅是其路径表达式中某个具体的参数是不同的,例如路径表达式中的行数不同。
由此,在进行网站列表路径生成时,首先需根据本步骤所述的方法,判断当前的目标栏目中包含的链接路径是否存在相似的链接路径,即本步骤所述的第一链接路径。
102、若不存在所述第一链接路径,则判断所述目标栏目中是否存在与已知的网站列表路径的路径结构相似的第二链接路径。
当确定目标栏目中没有相似的链接路径时,在实际上可能是该栏目可能不是列表式的栏目;也可能是该栏目是列表式的栏目,但其中包含了多个列表,而每个列表中只存在一个链接。例如,某政府网站中公告页上的多个公告栏目中的不同公告项,其中,可能存在一种情况,当月初或年初时,以往的公告都被清空导致其中的多个公告栏中的公告内容可能仅存在一条公告项,即本发明实施例所述的链接。这样情况下就可能导致步骤101的方法在执行后没有确定出相似的链接路径,即第一链接路径。
需要说明的是,由于网站之间存在相似的结构,或者网站内不同栏目间存在相似的结构,因此其中链接的链接路径所对应的路径结构间也是相似的。由于本发明实施例所述的方法主要解决的问题是如何生成网站中列表区域的链接路径,因此,可以根据链接路径本身的结构性特点来进行判断,同时,这也是本步骤所述方法实现的基础。即相似结构的网站,或相似结构的栏目其内部链接的链接路径所对应的路径结构实际上也是相似的。
由此,为了分辨这两种情况,需要根据本步骤所述的方法,在本步骤中将目标栏目中的链接路径与已知的网站列表路径逐个进行比较,具体的比较方式是比较二者的路径结构,判断二者路径结构是否相似。其中,所述已知的网站列表路径可以是当前该网站之前生成的网站列表路径,也可以是其他网站的网站列表路径,具体的可以根据实际情况判断当前网站是否存在以前生成的网站列表路径。当没有时,可以利用其他网站的网站列表路径进行本步骤所述的比较。
103、若存在所述第二链接路径,则根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径,并将所述栏目列表路径添加到已知的网站列表路径的集合中。
当存在与已知的网站列表路径的路径结构相似的链接路径时,可以确定当前目标栏目实际上是一个列表式栏目,因此需要生成一个对应该目标栏目的栏目列表路径。具体的根据本步骤所述的方法,可以获取所述第二链接路径,并根据该第二链接路径的路径结构生成一个对应该目标栏目的栏目列表路径。此外,在生成了所述栏目列表路径后,若已知的网站列表路径为本网站的网站列表路径时,可以通过将所述栏目列表路径添加到网站列表路径,来实现对该已知的网站列表路径的更新功能。
本发明实施例提供的网站列表路径生成方法,对于现有技术在当网站栏目中不存在相似的链接路径时,无法根据相似路径生成对应的路径组,进而无法确定该栏目是否为列表区域,从而无法生成对应该区域的栏目列表路径,从而导致网站列表路径生成的出现准确率较低,本发明通过利用已知网站列表路径与目标栏目中的链接路径进行对比,在确定路径结构相同时,生成对应该目标栏目的栏目列表路径,进而实现了当目标栏目中存在多个互不相似的链接路径时能够根据判断结果,生成对应该栏目的列表路径功能,解决了现有技术中当栏目中不存在相似的链接路径时,无法生成对应的列表路径的问题,进而提高了网站列表路径生成过程的整体准确率。此外,本发明所述的方法可以通过设定好的程序来实现网站列表路径生成的功能,能够避免现有技术中需要人工生成网页列表路径所导致的人力消耗问题,从而节约人力成本。
进一步的,作为对图1所示实施例的细化及扩展,本发明实施例还提供了另一种网站列表路径生成方法,如图2所示,具体步骤包括:
201、判断目标栏目中是否存在路径结构相似的第一链接路径。
其中,本步骤所述的目标栏目、第一链接路径等相关内容的定义及描述与所述步骤101中相同,在此不做赘述。
本步骤所述的第一链接路径的格式具体可以为XPath,XPath为一种用来确定网站的文档某部分位置的语言。XPath基于XML的树状结构,能够为使用者提供在数据结构树中找寻节点及位置的功能,同时能够将网站中的文档内容以路径表达式的方式表示出来。通常XPath常被网络技术人员或网站开发者用来当作小型查询语言使用。
因此,根据本步骤所述的方法,需判断目标栏目中是否存在路径结构相似的链接的路径表达式,由于所述XPath是基于XML语言生成的,因此在本步骤中实际上需要获取到目标栏目所在的网站的HTML代码,并在该代码中获取目标栏目的链接路径的XPath路径表达式,并判断获取的所述路径表达式之间的结构是否相似。例如,对一网站的某栏目执行本步骤所述的方法,可以得到该栏目中链接路径的XPath路径表达式可以为
/html/body/div[2]/div[2]/div[3]/ul/li[1]/a
/html/body/div[2]/div[2]/div[3]/ul/li[2]/a
/html/body/div[2]/div[2]/div[3]/ul/li[3]/a
/html/body/div[2]/div[2]/div[3]/ul/li[4]/a
/html/body/div[2]/div[2]/div[3]/ul/li[5]/a
之后,提取出公共XPath路径表达式为:
/html/body/div[2]/div[2]/div[3]/ul/li/a
并将该公共XPath路径表达式添加到已知的网站列表路径的集合中。
需要说明的是,本步骤所述的链接路径的格式可以选择XPath,也可以选择其他方式的路径格式,在此不做限定,可以根据需要选取。
202、若目标栏目中不存在相似的第一链接路径,则判断所述目标栏目中是否存在与已知的网站列表路径的路径结构相似的第二链接路径。
其中,本步骤具体可以包括:首先,确定所述目标栏目中的链接路径数量;当所述目标栏目中链接路径的数量为一个时,则判断单个链接路径的路径结构是否与已知的网站列表路径的路径结构相似;或者,当所述目标栏目中链接路径的数量为多个时,则逐一判断所述链接路径是否与已知的网站列表路径的路径结构相似。
当选择的链接路径的格式为XPath时,则本步骤所述的方法具体可以为:当确定了目标栏目中的链接路径的XPath路径表达式数量后,需要判断XPath路径表达式的数量是否为一。若为一时,则所述目标栏目中只存在一条链接。由于本发明实施例所述的方法在生成对应网站列表区域的列表路径时,先要确认当前目标栏目是否为列表区域,因此需要利用已有的网页列表路径的XPath路径表达式的结构来进行对比,分析当前目标栏目中的链接路径XPath路径表达式的结构是否相同。而若判断的XPath路径表达式的数量为多个时,则需要将多个XPath路径表达式与已有的网页列表路径的XPath路径表达式的结构进行一一对比,用以确定其中是否存在相同结构的XPath路径表达时。
由于在实际的网站栏目中,目标栏目内有可能是包含多个列表区域,或者多个列表区只包含一条链接,因此通过本步骤所述的方法可以反向验证当前目标栏目中是否为多个列表区对应的多个链接,亦或者是目标栏目中的多个链接仅仅是不同的链接,如图片、字符等,并不是多个列表区域。具体情况,可以根据实际情况来确定。
203、若判断所述目标栏目中存在与已知网站列表路径的路径结构相似的第二链接路径,则根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径,并将所述栏目列表路径添加到已知的网站列表路径的集合中。
具体的,本步骤具体可以包括,第一方面:当所述目标栏目中链接路径数量为一个,且所述目标栏目中链接路径的路径结构与已知的网站列表路径的路径结构相似时,确定所述链接路径为第二链接路径;根据所述第二链接路径的路径结构,生成对应所述目标栏目的栏目列表路径。
当选取的XPath为路径格式,结合本步骤中所述的第一方面的步骤,当目标栏目中唯一链接的XPath路径表达式与已有的网站列表路径的XPath相同情况时,说明当前目标栏目中虽然仅包含一条链接,但该目标栏目实际上是一个列表区域,有可能在以后会添加其他的链接,因此对于这个目标栏目需要生成一个栏目列表路径的XPath路径表达式。而该栏目列表路径的XPath路径表达式的生成是基于该栏目下的那条链接的XPath路径表达式的结构来实现的,以确保生成的路径表达式的准确性。
第二方面:若目标栏目中存在多个与所述已知的网站列表路径的路径结构相似的链接路径时,确定所述链接路径为第二链接路径;根据多个第二链接路径的路径结构分别生成多个列表路径;将所述多个列表路径确定为对应所述目标栏目的栏目列表路径。
当选取XPath为路径格式,结合本步骤中所述的第二方面的步骤,当目标栏目中有多个链接的XPath路径表达式与已有的网站列表路径的XPath相同情况时,说明当前目标栏目中包含多个互不相同的列表区域,每个列表区都可能在之后会添加其他的链接,因此在这个目标栏目中需要根据多个列表区域对应生成多个栏目列表路径的XPath路径表达式。而多个栏目列表路径的XPath路径表达式需要根据对应其栏目的那条链接的XPath路径表达式的结构来进行生成的,以确保生成的每一个路径表达式的准确性。
此外,本步骤中所述根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径还可以包括:首先选取所述目标栏目中路径结构的相似度超过阈值链接路径作为第二链接路径,然后根据所述第二链接路径的路径结构生成对应所述栏目的栏目列表路径。
根据本步骤所述的方法,通过第一方面所述的步骤,可以确保当目标栏目中仅有一个链接路径时,能够验证该链接路径对应的链接所在的目标栏目是否为列表区域,进而实现生成对应该目标栏目的栏目列表路径的功能;同时通过第二方面所述的步骤,可以确保当目标栏目中存在多个互不相同的链接路径时能够验证其中的多个列表区域,进而实现生成对应其多个列表区域的栏目列表路径的功能。因此,通过结合第一方面及第二方面所述的方法,可以使网站列表路径生成方法更为全面。并且,通过将选取所述目标栏目中路径结构的相似度超过阈值链接路径作为第二链接路径,并以此路径结构生成对应所述栏目的栏目列表路径,可以提高第二链接路径的准确性,进而进一步的提高了网站列表路径生成的整体准确性。
此外,当执行步骤201后,若判断存在相似的第一链接路径时,则执行步骤204,骤具体为:
204、若存在相似的第一链接路径,则根据相似度对所述第一链接路径进行分组。
根据本步骤所述的方法,其具体执行过程可以为,当存在相似链接的XPath路径表达式时,对相同的XPath路径表达式进行提取,并将提取后的所述表达式进行分组。其中分组的数量可能是一组也可能是多组,在此不做限定,根据具体情况确定。当分组的数量为一个时,说明该目标栏目中包含一个列表区域,当存在多个时,说明存在多个列表区域。
需要说明的是本步骤所述的分组的规则可以根据所述XPath路径表达式的结构的相似度进行分组,在此不做限定。但是基于本发明实施例所述的方法,其构思的核心在于结构相似的XPath路径表达式之间往往对应的是一个列表区域下的多个链接。因此,本步骤选择结构相似作为分组的依据是较忧的分组规则。
205、从分组后的链接路径的路径结构中提取相同部分,生成公共路径。
具体的,本步骤可以为将分组后链接的XPath路径表达式中相同的部分进行提取,生成包含该相同部分的公共路径的XPath路径表达式,例如,当分组后链接的XPath路径表达式分别为:
/html/body/div[2]/div[2]/div[3]/ul/li[1]/a、
/html/body/div[2]/div[2]/div[3]/ul/li[2]/a、
/html/body/div[2]/div[2]/div[3]/ul/li[3]/a、
/html/body/div[2]/div[2]/div[3]/ul/li[4]/a、
/html/body/div[2]/div[2]/div[3]/ul/li[5]/a时,根据本步骤所述的方法,其中只有li部分是不同的,因此生成的公共路径的XPath路径表达式可以为
/html/body/div[2]/div[2]/div[3]/ul/li/a。
206、将所述公共路径确定为网站列表路径。
在步骤205中生成了公共路径的XPath路径表达式后,根据本步骤所述的方法,可以确定该XPath路径表达式为网站列表路径的XPath路径表达式。
在确定目标栏目中存在相似链接路径时,说明当前目标栏目中存在列表区域,则根据步骤204-206所述的方法,通过对相似链接路径进行分组并提取分组后相同部分以生成公共路径,并将公共路径确定为网站列表路径,实现了当目标栏目是列表区域时,生成网站列表路径的功能。
进一步的,作为对上述图1所示方法的实现,本发明实施例还提供了一种网站列表路径生成装置,用于对上述图1所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图3所示,该装置包括:第一判断单元31、第二判断单元32、生成单元33、添加单元34,其中
第一判断单元31,可以用于判断目标栏目中是否存在路径结构相似的第一链接路径,所述目标栏目为网站页面中的不同区域,所述链接路径为目标栏目中链接的路径。
第二判断单元32,可以用于当所述第一判断单元31判断目标栏目中不存在相似的第一链接路径时,判断所述目标栏目中是否存在与已知网站列表路径的路径结构相似的第二链接路径。
生成单元33,可以用于当第二判断单元32判断所述目标栏目中存在与已知网站列表路径的路径结构相似的第二链接路径时,根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径。
添加单元34,可以用于将所述生成单元33生成的栏目列表路径添加到已知的网站列表路径的集合中。
进一步的,作为对上述图2所示方法的实现,本发明实施例还提供了另一种网站列表路径生成装置,用于对上述图2所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图4所示,该装置包括:第一判断单元41、第二判断单元42、生成单元43、添加单元44,其中,
第一判断单元41,可以用于判断目标栏目中是否存在路径结构相似的第一链接路径,所述目标栏目为网站页面中的不同区域,所述链接路径为目标栏目中链接的路径。
第二判断单元42,可以用于当所述第一判断单元41判断目标栏目中不存在相似的第一链接路径时,判断所述目标栏目中是否存在与已知网站列表路径的路径结构相似的第二链接路径。
生成单元43,可以用于当第二判断单元42判断所述目标栏目中存在与已知网站列表路径的路径结构相似的第二链接路径时,根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径。
添加单元44,可以用于将所述生成单元43生成的栏目列表路径添加到已知的网站列表路径的集合中。
进一步的,所述第二判断单元42包括:
确定模块421,可以用于确定所述目标栏目中的链接路径数量。
判断模块422,可以用于当所述确定模块421确定目标栏目中链接路径的数量为一个时,判断单个链接路径的路径结构是否与已知的网站列表路径的路径结构相似。
所述判断模块422,还用于当所述确定模块421确定目标栏目中链接路径的数量为多个时,逐一判断所述链接路径是否与已知的网站列表路径的路径结构相似。
进一步的,所述生成单元43包括:
第一确定模块431,可以用于当所述目标栏目中链接路径数量为一个,且所述目标栏目中链接路径的路径结构与已知的网站列表路径的路径结构相似时,确定所述链接路径为第二链接路径。
第一生成模块432,可以用于根据所述第一确定模块431确定的第二链接路径的路径结构,生成对应所述目标栏目的栏目列表路径。
进一步的,所述生成单元43包括:
所述第一确定模块431,还可以用于当目标栏目中存在多个与所述已知的网站列表路径的路径结构相似的链接路径时,确定所述链接路径为第二链接路径。
所述第一生成模块432,还可以用于根据多个所述第一确定模块431确定的第二链接路径的路径结构分别生成多个列表路径。
第二确定模块433,可以用于将所述第一生成模块432生成的多个列表路径确定为对应所述目标栏目的栏目列表路径。
进一步的,所述生成单元43包括:
选取模块434,可以用于选取所述目标栏目中路径结构的相似度超过阈值链接路径作为第二链接路径。
第二生成模块435,可以用于根据所述选取模块434选取的第二链接路径的路径结构生成对应所述栏目的栏目列表路径。
进一步的,所述装置还包括:
分组单元45,可以用于当所述第一判断单元41判断存在相似的第一链接路径时,根据相似度对所述第一链接路径进行分组。
提取单元46,可以用于从所述分组单元45分组后的链接路径的路径结构中提取相同部分,生成公共路径。
确定单元47,可以用于将所述提取单元46生成的公共路径确定为网站列表路径。
借由上述技术方案,本发明实施例提供的一种网站列表路径生成方法及装置,对于现有技术在当网站栏目中不存在相似的链接路径时,无法根据相似路径生成对应的路径组,进而无法确定该栏目是否为列表区域,从而无法生成对应该区域的栏目列表路径,导致网站列表路径生成的准确率较低,本发明通过利用已知网站列表路径与目标栏目中的链接路径进行对比,在确定路径结构相同时,生成对应该目标栏目的栏目列表路径,进而实现了当目标栏目中只存在一个链接路径时判断并生成对应该栏目的列表路径功能,并解决了现有技术中当栏目内仅存在多个互不相似的链接路径时,无法生成对应的列表路径的问题,进而提高了网站列表路径生成过程的整体准确率。同时,通过确定所述目标栏目中的链接路径数量,并根据目标栏目的数量执行不同的判断方式,进而可以确保当目标栏目中存在多个互不相同的链接路径时,能够验证目标栏目中实际上存在多个列表区域,进而实现生成对应其多个列表区域的栏目列表路径的功能。并且,通过将选取所述目标栏目中路径结构的相似度超过阈值链接路径作为第二链接路径,并以此路径结构生成对应所述栏目的栏目列表路径,可以提高第二链接路径的准确性,进而进一步的提高了网站列表路径生成的准确性。此外,本发明所述的方法可以通过设定好的程序来实现网站列表路径生成的功能,能够避免现有技术中需要人工生成网页列表路径所导致的人力消耗问题,从而节约人力成本。另外,通过本发明实施例所述的方法,通过将生成的目标栏目对应的栏目列表路径添加到当前已有的网站列表路径集合中,可以达到更新已有的网站列表路径的效果,从而确保了下一次使用已有网站列表路径时,对下一次网站列表路径生成的准确性。
所述文本处理装置包括处理器和存储器,上述第一判断单元、第二判断单元、生成单元及添加单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高网站列表路径生成的准确率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述网站列表路径生成方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述网站列表路径生成方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:判断目标栏目中是否存在路径结构相似的第一链接路径,所述目标栏目为网站页面中的不同区域,所述链接路径为目标栏目中链接的路径;若不存在所述第一链接路径,则判断所述目标栏目中是否存在与已知的网站列表路径的路径结构相似的第二链接路径;若存在所述第二链接路径,则根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径,并将所述栏目列表路径添加到已知的网站列表路径的集合中。
进一步的,所述判断所述目标栏目中是否存在与已知的网站列表路径的路径结构相似的第二链接路径包括:
确定所述目标栏目中的链接路径数量;
若所述目标栏目中链接路径的数量为一个时,则判断单个链接路径的路径结构是否与已知的网站列表路径的路径结构相似;
若所述目标栏目中链接路径的数量为多个时,则逐一判断所述链接路径是否与已知的网站列表路径的路径结构相似。
进一步的,所述根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径包括:
当所述目标栏目中链接路径数量为一个,且所述目标栏目中链接路径的路径结构与已知的网站列表路径的路径结构相似时,确定所述链接路径为第二链接路径;
根据所述第二链接路径的路径结构,生成对应所述目标栏目的栏目列表路径。
进一步的,所述根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径包括:
若目标栏目中存在多个与所述已知的网站列表路径的路径结构相似的链接路径时,确定所述链接路径为第二链接路径;
根据多个第二链接路径的路径结构分别生成多个列表路径;
将所述多个列表路径确定为对应所述目标栏目的栏目列表路径。
进一步的,所述根据所述第二链接路径的路径结构生成对应所述栏目的栏目列表路径包括:
选取所述目标栏目中路径结构的相似度超过阈值链接路径作为第二链接路径;
根据所述第二链接路径的路径结构生成对应所述栏目的栏目列表路径。
进一步的,在所述判断目标栏目中是否存在路径结构相似的第一链接路径之后,所述方法还包括:
若存在相似的第一链接路径,则根据相似度对所述第一链接路径进行分组;
从分组后的链接路径的路径结构中提取相同部分,生成公共路径;
将所述公共路径确定为网站列表路径。
本发明实施例中的设备可以是服务器、PC、PAD、手机等。
本发明实施例还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:判断目标栏目中是否存在路径结构相似的第一链接路径,所述目标栏目为网站页面中的不同区域,所述链接路径为目标栏目中链接的路径;若不存在所述第一链接路径,则判断所述目标栏目中是否存在与已知的网站列表路径的路径结构相似的第二链接路径;若存在所述第二链接路径,则根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径,并将所述栏目列表路径添加到已知的网站列表路径的集合中。
进一步的,所述判断所述目标栏目中是否存在与已知的网站列表路径的路径结构相似的第二链接路径包括:
确定所述目标栏目中的链接路径数量;
若所述目标栏目中链接路径的数量为一个时,则判断单个链接路径的路径结构是否与已知的网站列表路径的路径结构相似;
若所述目标栏目中链接路径的数量为多个时,则逐一判断所述链接路径是否与已知的网站列表路径的路径结构相似。
进一步的,所述根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径包括:
当所述目标栏目中链接路径数量为一个,且所述目标栏目中链接路径的路径结构与已知的网站列表路径的路径结构相似时,确定所述链接路径为第二链接路径;
根据所述第二链接路径的路径结构,生成对应所述目标栏目的栏目列表路径。
进一步的,所述根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径包括:
若目标栏目中存在多个与所述已知的网站列表路径的路径结构相似的链接路径时,确定所述链接路径为第二链接路径;
根据多个第二链接路径的路径结构分别生成多个列表路径;
将所述多个列表路径确定为对应所述目标栏目的栏目列表路径。
进一步的,所述根据所述第二链接路径的路径结构生成对应所述栏目的栏目列表路径包括:
选取所述目标栏目中路径结构的相似度超过阈值链接路径作为第二链接路径;
根据所述第二链接路径的路径结构生成对应所述栏目的栏目列表路径。
进一步的,在所述判断目标栏目中是否存在路径结构相似的第一链接路径之后,所述方法还包括:
若存在相似的第一链接路径,则根据相似度对所述第一链接路径进行分组;
从分组后的链接路径的路径结构中提取相同部分,生成公共路径;
将所述公共路径确定为网站列表路径。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种网站列表路径生成方法,其特征在于,所述方法包括:
判断目标栏目中是否存在路径结构相似的第一链接路径,所述目标栏目为网站页面中的不同区域,所述链接路径为目标栏目中链接的路径;
若不存在所述第一链接路径,则判断所述目标栏目中是否存在与已知的网站列表路径的路径结构相似的第二链接路径;
若存在所述第二链接路径,则根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径,并将所述栏目列表路径添加到已知的网站列表路径的集合中。
2.根据权利要求1所述的方法,其特征在于,所述判断所述目标栏目中是否存在与已知的网站列表路径的路径结构相似的第二链接路径包括:
确定所述目标栏目中的链接路径数量;
若所述目标栏目中链接路径的数量为一个时,则判断单个链接路径的路径结构是否与已知的网站列表路径的路径结构相似;
若所述目标栏目中链接路径的数量为多个时,则逐一判断所述链接路径是否与已知的网站列表路径的路径结构相似。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径包括:
当所述目标栏目中链接路径数量为一个,且所述目标栏目中链接路径的路径结构与已知的网站列表路径的路径结构相似时,确定所述链接路径为第二链接路径;
根据所述第二链接路径的路径结构,生成对应所述目标栏目的栏目列表路径。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径包括:
若目标栏目中存在多个与所述已知的网站列表路径的路径结构相似的链接路径时,确定所述链接路径为第二链接路径;
根据多个第二链接路径的路径结构分别生成多个列表路径;
将所述多个列表路径确定为对应所述目标栏目的栏目列表路径。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径包括:
选取所述目标栏目中路径结构的相似度超过阈值的链接路径作为第二链接路径;
根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径。
6.根据权利要求1所述的方法,其特征在于,在所述判断目标栏目中是否存在路径结构相似的第一链接路径之后,所述方法还包括:
若存在相似的第一链接路径,则根据相似度对所述第一链接路径进行分组;
从分组后的链接路径的路径结构中提取相同部分,生成公共路径;
将所述公共路径确定为网站列表路径。
7.一种网站列表路径生成装置,其特征在于,所述装置包括:
第一判断单元,用于判断目标栏目中是否存在路径结构相似的第一链接路径,所述目标栏目为网站页面中的不同区域,所述链接路径为目标栏目中链接的路径;
第二判断单元,用于当所述第一判断单元判断目标栏目中不存在相似的第一链接路径时,判断所述目标栏目中是否存在与已知网站列表路径的路径结构相似的第二链接路径;
生成单元,用于当第二判断单元判断所述目标栏目中存在与已知网站列表路径的路径结构相似的第二链接路径时,根据所述第二链接路径的路径结构生成对应所述目标栏目的栏目列表路径;
添加单元,用于将所述生成单元生成的栏目列表路径添加到已知的网站列表路径的集合中。
8.根据权利要求7所述的装置,其特征在于,所述第二判断单元包括:
确定模块,用于确定所述目标栏目中的链接路径数量;
判断模块,用于当所述确定模块确定目标栏目中链接路径的数量为一个时,判断单个链接路径的路径结构是否与已知的网站列表路径的路径结构相似;
所述判断模块,还用于当所述确定模块确定目标栏目中链接路径的数量为多个时,逐一判断所述链接路径是否与已知的网站列表路径的路径结构相似。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求6中任意一项所述的网站列表路径生成方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求6中任意一项所述的网站列表路径生成方法。
CN201710587500.3A 2017-07-18 2017-07-18 一种网站列表路径生成方法及装置 Active CN110020036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710587500.3A CN110020036B (zh) 2017-07-18 2017-07-18 一种网站列表路径生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710587500.3A CN110020036B (zh) 2017-07-18 2017-07-18 一种网站列表路径生成方法及装置

Publications (2)

Publication Number Publication Date
CN110020036A CN110020036A (zh) 2019-07-16
CN110020036B true CN110020036B (zh) 2021-06-08

Family

ID=67185884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710587500.3A Active CN110020036B (zh) 2017-07-18 2017-07-18 一种网站列表路径生成方法及装置

Country Status (1)

Country Link
CN (1) CN110020036B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129428A (zh) * 2010-01-20 2011-07-20 腾讯科技(深圳)有限公司 一种实现从网页中订阅信息的方法及装置
CN103678279A (zh) * 2013-12-31 2014-03-26 中南大学 基于异质网络时态语义路径相似度的人物唯一性识别方法
CN104363253A (zh) * 2014-12-12 2015-02-18 北京奇虎科技有限公司 网站安全检测方法与装置
CN104376000A (zh) * 2013-08-13 2015-02-25 阿里巴巴集团控股有限公司 确定网页属性的方法及装置
CN104899219A (zh) * 2014-03-06 2015-09-09 携程计算机技术(上海)有限公司 伪静态url的筛除方法、系统及网页爬取方法、系统
CN105528357A (zh) * 2014-09-30 2016-04-27 中国银联股份有限公司 一种基于url和网页文档结构的相似性的网页内容提取方法
CN106897297A (zh) * 2015-12-17 2017-06-27 北京国双科技有限公司 网站栏目间访问路径的确定方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080294626A1 (en) * 2007-03-08 2008-11-27 Amarnath Mukherjee Method and apparatus for leveraged search and discovery - leveraging properties of trails and resources within
CN102467501B (zh) * 2010-10-29 2013-09-18 北大方正集团有限公司 一种从新闻列表页抽取新闻记录元数据的方法及系统
US20130346386A1 (en) * 2012-06-22 2013-12-26 Microsoft Corporation Temporal topic extraction

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129428A (zh) * 2010-01-20 2011-07-20 腾讯科技(深圳)有限公司 一种实现从网页中订阅信息的方法及装置
CN104376000A (zh) * 2013-08-13 2015-02-25 阿里巴巴集团控股有限公司 确定网页属性的方法及装置
CN103678279A (zh) * 2013-12-31 2014-03-26 中南大学 基于异质网络时态语义路径相似度的人物唯一性识别方法
CN104899219A (zh) * 2014-03-06 2015-09-09 携程计算机技术(上海)有限公司 伪静态url的筛除方法、系统及网页爬取方法、系统
CN105528357A (zh) * 2014-09-30 2016-04-27 中国银联股份有限公司 一种基于url和网页文档结构的相似性的网页内容提取方法
CN104363253A (zh) * 2014-12-12 2015-02-18 北京奇虎科技有限公司 网站安全检测方法与装置
CN106897297A (zh) * 2015-12-17 2017-06-27 北京国双科技有限公司 网站栏目间访问路径的确定方法及装置

Also Published As

Publication number Publication date
CN110020036A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110069683B (zh) 一种基于浏览器爬取数据的方法及装置
CN106610774B (zh) 网页表格编辑方法及装置
CN103577552A (zh) 网页图片处理方法及装置
CN105677654A (zh) 广告过滤方法及装置
CN110020339A (zh) 基于无埋点的网页数据采集方法及装置
CN103873318A (zh) 一种网站自动化测试方法及自动化测试系统
CN104408180A (zh) 内存数据的查询方法和装置
CN106201562A (zh) 一种页面切换方法及装置
CN103593406A (zh) 一种静态资源标识处理方法及装置
CN107015986B (zh) 一种爬虫爬取网页的方法及装置
CN107391535A (zh) 在文档应用中搜索文档的方法及装置
CN103473282A (zh) 一种生成热点内容页面的装置和方法
CN110287444B (zh) 网站检测方法、装置及存储介质
CN104899217B (zh) 一种自定义功能的实现方法及装置
CN107391528A (zh) 前端组件依赖信息搜索方法及设备
CN110020343B (zh) 网页编码格式的确定方法和装置
CN109582883B (zh) 栏目页的确定方法和装置
CN103905434A (zh) 一种网络数据处理方法和装置
CN108121712B (zh) 一种关键词存储方法及装置
CN110020036B (zh) 一种网站列表路径生成方法及装置
CN112560403A (zh) 文本的处理方法及装置、电子设备
CN110020291B (zh) 网页布局的处理方法及装置
CN103955548A (zh) 一种网页渲染方法及装置
CN111651160B (zh) 插件构建、网页设计的方法和装置
CN106202523A (zh) 网页编辑方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant