CN115017430A - 列表页面的确定方法、装置、电子设备及存储介质 - Google Patents
列表页面的确定方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115017430A CN115017430A CN202210737170.2A CN202210737170A CN115017430A CN 115017430 A CN115017430 A CN 115017430A CN 202210737170 A CN202210737170 A CN 202210737170A CN 115017430 A CN115017430 A CN 115017430A
- Authority
- CN
- China
- Prior art keywords
- page
- link
- determining
- url link
- url
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000009191 jumping Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 235000008694 Humulus lupulus Nutrition 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请提出一种列表页面的确定方法、装置、电子设备以及存储介质,其中,该方法包括:获取当前网页页面;获取当前网页页面中的多个第一URL链接;针对每个第一URL链接,确定从第一URL链接所对应的目标网页页面中是否可提取到正文内容;在从目标网页页面中可提取到正文内容的情况下,确定第一URL链接和第一链接集合中的第二URL链接之间的相似度;根据相似度与预设相似度阈值的比较结果,确定目标网页页面是否为列表页面。由此,提出了一种通过第一URL链接和详情页面所对应的第二URL链接之间的相似度来确定当前网页页面中对应URL链接所对应的目标网页页面是否为列表页面的方式,准确确定出当前网页页面对应URL链接所对应的目标网页页面是否为列表页面。
Description
技术领域
本申请涉及信息处理技术领域,尤其涉及一种列表页面的确定方法、装置、电子设备及存储介质。
背景技术
在当今大数据时代的背景下,人们越来越依赖于互联网获取数据,比如:从互联网获取新闻信息、获取公告信息等。面对大量的网络公开数据,人们对于从互联网获取信息的效率提出了更高的要求。为了提高获取信息的效率,相关技术中,通常采用列表页面的方式,在列表页面展示多个列表项,用户可点击列表页面中的列表项,以查看各列表项对应的详情页。然而,对于一个页面,如何确定该页面中对应访问链接对应的页面是否为列表页面,对于提高获取信息的效率是十分重要的。
发明内容
本申请提出一种列表页面的确定方法、装置、电子设备及存储介质。
本申请一方面实施例提出一种列表页面的确定方法,该方法包括:获取当前网页页面;获取当前网页页面中的多个第一URL链接;针对每个第一URL链接,确定从第一URL链接所对应的目标网页页面中是否可提取到正文内容;在从目标网页页面中可提取到正文内容的情况下,确定第一URL链接和第一链接集合中的第二URL链接之间的相似度,其中,第二URL链接为详情页面所对应的URL链接;根据相似度与预设相似度阈值的比较结果,确定目标网页页面是否为列表页面。
在本申请的一个实施例中,所述当前网页页面为指定网站的首页页面,或者,对所述首页页面进行一次点击跳转或者多次跳转所到达的页面,在所述获取所述当前网页页面中的多个第一URL链接之前,所述方法还包括:
判断所述当前网页页面的跳转次数是否小于预设跳转次数;
所述获取所述当前网页页面中的多个第一URL链接,包括:
在所述当前网页页面的跳转次数小于预设跳转阈值的情况下,执行获取所述当前网页页面中的多个第一URL链接的步骤。
在本申请的一个实施例中,所述根据所述相似度与预设相似度阈值的比较结果,确定所述目标网页页面是否为列表页面,包括:
在所述比较结果为所述相似度大于预设相似度阈值的情况下,确定所述目标网页页面为详细页面;或者,
在所述比较结果为所述相似度小于或者等于预设相似度阈值的情况下,确定所述目标网页页面为列表页面。
在本申请的一个实施例中,在所述确定所述目标网页页面为详细页面之后,所述方法还包括:
将所述第一URL链接添加到所述第一链接集合中。
在本申请的一个实施例中,在所述将所述第一URL链接添加到所述第一链接集合中之后,所述方法还包括:
确定所述第一链接集合中URL链接的链接长度的中位数和众数;
如果所述第一URL链接的链接长度小于所述众数,并且小于指定取值,则将所述第一URL链接从所述第一链接集合移出至第二链接集合中,其中,所述第二链接集合用于保存列表页面所对应的URL链接,所述指定取值为所述中位数和预设的权重系数进行相乘所得到的值。
在本申请的一个实施例中,所述方法还包括:
在从所述目标网页页面中未提取到正文内容,并且所述第一URL链接所对应的链接标题的长度小于预设长度阈值,则确定所述目标网页页面为列表页面。
在本申请的一个实施例中,在所述确定所述目标网页页面为列表页面之后,所述方法还包括:
将所述第一URL链接添加到第二链接集合中,其中,所述第二链接集合用于存储列表页面所对应的URL链接。
在本申请的一个实施例中,所述确定从所述第一URL链接所对应的目标网页页面中是否可提取到正文内容,包括:
获取所述第一URL链接所对应的目标网页页面的超文本标记语言代码;
根据所述超文本标记语言代码,确定所述目标网页页面中是否可提取到正文内容。
在本申请的一个实施例中,所述根据所述超文本标记语言代码,确定所述目标网页页面中是否可提取到正文内容,包括:
根据所述超文本标记语言代码,确定所述当前网页页面对应的文档对象模型DOM树,其中,所述DOM树中的各节点分别为所述当前网页页面中的各页面标签;
从所述DOM树中,获取多个段落节点,其中,所述段落节点为所述页面标签为段落P标签所对应的节点;
根据各个段落节点所对应的段落文本中的字数信息以及标点符号总数,确定各个段落节点所对应的评分;
从所述多个段落节点中获取评分最高的目标段落节点;
从DOM树中,获取所述目标段落节点所对应的父级节点;
判断所述父级节点是否为正文节点,其中,如果所述父级节点为正文节点,则确定所述目标网页页面可提取到正文内容。
本申请实施例的列表页面的确定方法,在获取到当前网页页面之后,获取当前网页页面中的多个第一URL链接;针对每个第一URL链接,确定从第一URL链接所对应的目标网页页面中是否可提取到正文内容;在从目标网页页面中可提取到正文内容的情况下,确定第一URL链接和第一链接集合中的第二URL链接之间的相似度,其中,第二URL链接为详情页面所对应的URL链接;根据相似度与预设相似度阈值的比较结果,确定目标网页页面是否为列表页面。由此,提出了一种通过第一URL链接和详情页面所对应的第二URL链接之间的相似度来确定当前网页页面中对应URL链接所对应的目标网页页面是否为列表页面的方式,准确确定出当前网页页面对应URL链接所对应的目标网页页面是否为列表页面。
本申请另一方面实施例提出一种列表页面的确定装置,所述装置包括:
第一获取模块,用于获取当前网页页面;
第二获取模块,用于获取所述当前网页页面中的多个第一URL链接;
第一确定模块,用于针对每个所述第一URL链接,确定从所述第一URL链接所对应的目标网页页面中是否可提取到正文内容;
第二确定模块,用于在从所述目标网页页面中可提取到正文内容的情况下,确定所述第一URL链接和第一链接集合中的第二URL链接之间的相似度,其中,所述第二URL链接为详情页面所对应的URL链接;
第三确定模块,用于根据所述相似度与预设相似度阈值的比较结果,确定所述目标网页页面是否为列表页面。
在本申请的一个实施例中,所述当前网页页面为指定网站的首页页面,或者,对所述首页页面进行一次点击跳转或者多次跳转所到达的页面,在所述获取所述当前网页页面中的多个第一URL链接之前,所述装置还包括:
判断模块,用于判断所述当前网页页面的跳转次数是否小于预设跳转次数;
所述第二获取模块,用于在所述当前网页页面的跳转次数小于预设跳转阈值的情况下,执行获取所述当前网页页面中的多个第一URL链接的步骤。
在本申请的一个实施例中,所述第三确定模块,具体用于:
在所述比较结果为所述相似度大于预设相似度阈值的情况下,确定所述目标网页页面为详细页面;或者,
在所述比较结果为所述相似度小于或者等于预设相似度阈值的情况下,确定所述目标网页页面为列表页面。
在本申请的一个实施例中,在所述确定所述目标网页页面为详细页面之后,所述装置还包括:
第一添加模块,用于将所述第一URL链接添加到所述第一链接集合中。
在本申请的一个实施例中,在所述将所述第一URL链接添加到所述第一链接集合中之后,所述装置还包括:
第四确定模块,用于确定所述第一链接集合中URL链接的链接长度的中位数和众数;
移出模块,用于在所述第一URL链接的链接长度小于所述众数,并且小于指定取值情况下,将所述第一URL链接从所述第一链接集合移出至第二链接集合中,其中,所述第二链接集合用于保存列表页面所对应的URL链接,所述指定取值为所述中位数和预设的权重系数进行相乘所得到的值。
在本申请的一个实施例中,所述装置还包括:
第五确定模块,用于在从所述目标网页页面中未提取到正文内容,并且所述第一URL链接所对应的链接标题的长度小于预设长度阈值情况下,则确定所述目标网页页面为列表页面。
在本申请的一个实施例中,在所述确定所述目标网页页面为列表页面之后,所述装置还包括:
第二添加模块,用于将所述第一URL链接添加到第二链接集合中,其中,所述第二链接集合用于存储列表页面所对应的URL链接。
在本申请的一个实施例中,所述第一确定模块,包括:
获取单元,用于获取所述第一URL链接所对应的目标网页页面的超文本标记语言代码;
确定单元,用于根据所述超文本标记语言代码,确定所述目标网页页面中是否可提取到正文内容。
在本申请的一个实施例中,所述确定单元,具体用于:
根据所述超文本标记语言代码,确定所述当前网页页面对应的文档对象模型DOM树,其中,所述DOM树中的各节点分别为所述当前网页页面中的各页面标签;
从所述DOM树中,获取多个段落节点,其中,所述段落节点为所述页面标签为段落P标签所对应的节点;
根据各个段落节点所对应的段落文本中的字数信息以及标点符号总数,确定各个段落节点所对应的评分;
从所述多个段落节点中获取评分最高的目标段落节点;
从DOM树中,获取所述目标段落节点所对应的父级节点;
判断所述父级节点是否为正文节点,其中,如果所述父级节点为正文节点,则确定所述目标网页页面可提取到正文内容。
本申请实施例的列表页面的确定装置,在获取到当前网页页面之后,获取当前网页页面中的多个第一URL链接;针对每个第一URL链接,确定从第一URL链接所对应的目标网页页面中是否可提取到正文内容;在从目标网页页面中可提取到正文内容的情况下,确定第一URL链接和第一链接集合中的第二URL链接之间的相似度,其中,第二URL链接为详情页面所对应的URL链接;根据相似度与预设相似度阈值的比较结果,确定目标网页页面是否为列表页面。由此,提出了一种通过第一URL链接和详情页面所对应的第二URL链接之间的相似度来确定当前网页页面中对应URL链接所对应的目标网页页面是否为列表页面的方式,准确确定出当前网页页面对应URL链接所对应的目标网页页面是否为列表页面。
本申请另一方面实施例提出一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请实施例的上述任一列表页面的确定方法。
本申请另一方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请实施例的上述任一列表页面的确定方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请一个实施例的列表页面的确定方法的流程示意图;
图2是根据本申请另一个实施例的列表页面的确定方法的流程示意图;
图3是根据本申请另一个实施例的列表页面的确定方法的流程示意图;
图4是根据本申请另一个实施例的列表页面的确定方法的流程示意图;
图5是根据本申请一个实施例的列表页面的确定装置的结构框图;
图6是根据本申请另一个实施例的列表页面的确定装置的结构框图;
图7是根据本申请一个实施例的电子设备的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本申请实施例的列表页面的确定方法、装置、电子设备及存储介质。
图1是根据本申请一个实施例的列表页面的确定方法的流程示意图。其中,需要说明的是,本实施例提供的列表页面的确定方法应用于列表页面的确定装置中,该列表页面的确定装置可以由软件和/或硬件的方式实现,该列表页面的确定装置可以为电子设备,也可以配置在电子设备中,本实施例中的电子设备可以为PC(Personal Computer,个人计算机)、移动设备、平板电脑、终端设备或服务器等设备,此处不做具体限定。
如图1所示,该列表页面的确定方法,包括:
步骤101,获取当前网页页面。
作为一种示例性的实施方式,当前网页页面可以为指定网站的首页页面。
作为另一种示例性的实施方式,当前网页页面可以为对指定网站的首页页面进行一次点击跳转或者多次跳转所到达的页面。
其中,需要说明的是,网站的首页页面进行一次跳转到达另一个新的网页页面,说明网站的首页页面从当前网页层级深度到达下一级的网页层级深度。例如,网站的首页页面的网页层级深度为零,对应地,网站的首页页面上的多个URL(Uniform ResourceLocator,统一资源定系统)链接各自对应的网页页面的网页层级深度为1,如果当前页面为网站的首页页面上的URL链接所对应的网页页面,此时,当前网页页面所对应的跳转次数为一次。对应地,网页层级深度为1的网页页面上的URL链接对应的网页页面的网页层级深度为2,如果当前网页页面为网页层级深度为1的网页页面上的URL链接对应的网页页面,即,当前网页页面为对网页层级深度为1的网页页面上的URL链接进行触发操作所得到的网页页面,则当前网页页面所对应的跳转次数为2次。
其中,当前网页页面进行跳转的次数可以预先设定。
具体地,在当前网页页面为指定网站的首页页面时,当前网页页面的层级深度为零,通常指定网站的首页页面中可以包括多个URL链接。对应地,在对指定网站的首页页面中任意一个URL链接进行点击,当前网页页面进行跳转之后到达一个与该URL链接对应的网页页面,即是进入第1层级深度。对于处于第1层深度的页面,对应地,如果用户点击处于第1层深度的页面中的任意一个URL链接,则会显示对应URL链接所对应的网页页面,即从网页层级深度为1的当前网页页面进入第2层级深度。以此类推,直到达到指定的第N层级深度。其中,上述N可以3,或者4等,可以根据实际需求来设置上述N的取值,该实施例对此不作具体限定。
步骤102,获取当前网页页面中的多个第一URL链接。
在本申请的一个实施例中,不论当前网页页面为指定网站的首页页面还是对指定网站的首页页面进行一次点击跳转或者多次跳转所到达的页面,在当前网页页面中都可以存在多个URL链接。
在获取到当前网页页面之后,可以继续获取当前网页页面中的多个URL链接,并称之为第一URL链接。
可以理解的是,第一URL链接可以包含列表页页面所对应的链接、详情页页面所对应的链接。也可以理解的是,第一URL链接还可以包含标题、广告等其他内容所对应的链接。
作为一种示例性的实施方式,可以先获取当前网页页面的源代码,再对当前网页页面的源代码进行分析处理,从当前网页页面的源代码中获取当前网页页面中的多个URL链接。
在本申请的一个实施例中,在当前网页页面的跳转次数大于预设跳转阈值的情况下,当前网页页面上的第一URL链接所对应的列表页页面的获取几率大大降低,为了避免资源浪费,在获取当前网页页面中的多个第一URL链接之前,还可以判断当前网页页面的跳转次数是否小于预设跳转次数。在当前网页页面的跳转次数小于预设跳转阈值的情况下,执行获取当前网页页面中的多个第一URL链接的步骤。也就是说,在确定当前网页页面的跳转次数小于预设跳转阈值的情况下,再继续基于本申请所提供的方式对该当前网页页面上的各个第一URL链接进行处理。
其中,上述预设跳转阈值是在上述列表页面的确定装置中预先设置的跳转次数的临界值,例如,上述预设跳转阈值可以为3次,或者,4次等,在实际应用中,可根据实际业务需求来设置该预设跳转阈值的取值,该实施例对此不作具体限定。
步骤103,针对每个第一URL链接,确定从第一URL链接所对应的目标网页页面中是否可提取到正文内容。
在本申请的一个实施例中,对于获取到的多个第一URL链接,可以按照多个第一URL链接在当前网页页面中的先后顺序,对多个第一URL链接进行排序,以得到排序结果,并对排序结果中的每个第一URL链接进行逆序遍历。对当前遍历到的第一URL链接,确定当前遍历到的第一URL链接所对应的目标网页页面中是否可提取到正文内容。
其中,逆序遍历可以优先遍历到当前网页页面的中下部中的URL链接。也就是说,逆序遍历可以优先遍历到当前网页页面的正文内容中所对应的URL链接。即,逆序遍历可以对当前网页页面的正文内容中所对应的URL链接进行处理。
作为一种示例性的实施方式,可以首先获取第一URL链接所对应的目标网页页面的超文本标记语言代码,然后根据超文本标记语言代码,确定目标网页页面中是否可提取到正文内容。
步骤104,在从目标网页页面中可提取到正文内容的情况下,确定第一URL链接和第一链接集合中的第二URL链接之间的相似度。
其中,第二URL链接为详情页面所对应的URL链接。
在本申请的一个实施例中,第一链接集合可以是预先设置的详情页面所对应的URL链接的集合。
在本申请的另一个实施例中,第一链接集合可以是能够提取到正文内容的网页页面所对应的URL链接的集合。在本申请的一个实施例中,可以通过计算第一URL链接和第二URL链接之间的相似度,进而找出与第二URL链接相似度较高的第一URL链接。此时,与第二URL链接相似度较高的第一URL链接所对应的目标网页页面即为详情页面。
需要说明的是,第一URL链接和第二URL链接之间的相似度可通过相似度算法计算得到。
步骤105,根据相似度与预设相似度阈值的比较结果,确定目标网页页面是否为列表页面。
具体地,第一URL链接和第二URL链接之间的相似度与预设相似度阈值的比较结果可以分为两种:两者相似度大于预设相似度阈值、两者相似度小于或者等于预设相似度阈值。
作为一种示例,在比较结果为相似度大于预设相似度阈值的情况下,确定目标网页页面为详细页面。
作为另一种示例,在比较结果为相似度小于或者等于预设相似度阈值的情况下,确定目标网页页面为列表页面。
其中,预设相似度阈值为事先设置好的相似度的临界值。例如,可以设置预设相似度阈值为0.9。
例如,假设两者相似度为0.98,此时的比较结果为相似度0.98大于预设相似度阈值0.9,即可确定此时的第一URL链接所对应的目标网页页面为详细页面。
再例如,假设两者相似度为0.7,此时的比较结果为相似度0.7小于预设相似度阈值0.9,即可确定此时的第一URL链接所对应的目标网页页面为列表页面。
本申请实施例的列表页面的确定方法,在获取到当前网页页面之后,获取当前网页页面中的多个第一URL链接;针对每个第一URL链接,确定从第一URL链接所对应的目标网页页面中是否可提取到正文内容;在从目标网页页面中可提取到正文内容的情况下,确定第一URL链接和第一链接集合中的第二URL链接之间的相似度,其中,第二URL链接为详情页面所对应的URL链接;根据相似度与预设相似度阈值的比较结果,确定目标网页页面是否为列表页面。由此,提出了一种通过第一URL链接和详情页面所对应的第二URL链接之间的相似度来确定当前网页页面中对应URL链接所对应的目标网页页面是否为列表页面的方式,准确确定出当前网页页面对应URL链接所对应的目标网页页面是否为列表页面。
图2是根据本申请另一个实施例的列表页面的确定方法的流程示意图。
如图2所示,在上述任一实施例的基础上,为了可以准确确定从第一URL链接所对应的目标网页页面中是否可提取到正文内容,上述步骤103的一种实施方式为:
步骤201,根据超文本标记语言代码,确定当前网页页面对应的文档对象模型DOM树,其中,DOM树中的各节点分别为当前网页页面中的各页面标签。
其中,超文本标记语言(Hyper Text Markup Language,HTML)代码是构成网页页面的基本元素。它是一种描述性的标记语言,可以通过标识符来标识网页中内容的显示方式。
作为一种示例,可以使用jsoup开源软件包将超文本标记语言代码转换为当前网页页面对应的文档对象模型DOM树,此开源软件包可以直接解析超文本标记语言代码的文本内容。
其中,DOM树是一个节点树模型,DOM树中的各节点分别为当前网页页面中的各页面标签。
其中,当前网页页面中的各页面标签可以包括:图片标签、视频标签、换行标签、段落标签等。每一个页面标签代表DOM树中的一个节点。
步骤202,从DOM树中,获取多个段落节点,其中,段落节点为页面标签为段落P标签所对应的节点。
其中,DOM树中各节点的页面标签可以利用标识符进行显示。例如,定义客户端脚本script标签、定义文档与外部资源关系link标签、图片img标签、视频video标签、换行br标签、标准单元格td标签、段落P标签。
在本申请的一个实施例中,可以把当前网页页面中的各干扰页面标签删除。例如,可以删除掉定义客户端脚本script标签、定义文档与外部资源关系link标签等干扰页面标签。
其中,段落P标签所对应的节点即是段落节点。
在本申请的一个实施例中,作为一种可能实现的实施方式,可以将图片img标签、视频video标签修改为段落P标签,并将原标签的属性写入段落P标签中,并在该段落P标签中填充一句标准文本内容。
其中,该标准文本内容可以是预先设置好的用于填充的文本内容。
在本申请的一个实施例中,作为另一种可能实现的实施方式,可以把两个以及两个以上的换行br标签替换为段落P标签。
在本申请的一个实施例中,作为另一种可能实现的实施方式,可以把标准单元格td标签替换为段落P标签,并将标准单元格td标签中所有的文字填入段落P标签中。
在本申请的一个实施例中,在经过删除干扰页面标签以及将图片img标签、视频video标签、标准单元格td标签修改为段落P标签之后,获取所有的段落P标签,此时所有的段落P标签所对应的节点为所有的段落节点。
步骤203,根据各个段落节点所对应的段落文本中的字数信息以及标点符号总数,确定各个段落节点所对应的评分。
在本申请的一个实施例中,在根据各个段落节点所对应的段落文本中的字数信息以及标点符号总数,确定各个段落节点所对应的评分之前,还可以对多个段落文本进行预处理,例如,针对每个段落文本,可确定该段落文本中的字数信息是否超过预设的字数阈值,如果超过预设的字数阈值,则将该段落文本从多个段落文本中删除。
在本申请的一些示例性的实施方式中,上述根据各个段落节点所对应的段落文本中的字数信息以及标点符号总数对各个段落节点进行评分的规则可以为:段落节点所对应的段落文本中每50个字可以加1分,若不足50个字,评分直接为3分;每一个逗号可以加1分,每一个句号可以加5分。
其中,该标点符号总数可以包括逗号数量以及句号数量。
步骤204,从多个段落节点中获取评分最高的目标段落节点。
其中,目标段落节点,是指多个段落节点中评分最高的段落节点。
步骤205,从DOM树中,获取目标段落节点所对应的父级节点。
在本申请的一个实施例中,目标段落节点所对应的父级节点可能为该目标段落节点的上一级节点,也可能为该目标段落节点本身。
步骤206,判断该父级节点是否为正文节点,其中,如果该父级节点为正文节点,则确定目标网页页面可提取到正文内容。
在本申请的一个实施例中,该父级节点可能是或者不是正文节点。若是正文节点,说明该父级节点所对应的目标网页页面可提取到正文内容,即是该目标网页页面为详情页页面。
图3是根据本申请另一个实施例的列表页面的确定方法的流程示意图。
如图3所示,该列表页面的确定方法具体可以包括:
步骤301,获取当前网页页面。
步骤302,获取当前网页页面中的多个第一URL链接。
步骤303,针对每个第一URL链接,确定目标网页页面中是否可提取到正文内容。
其中,步骤301至步骤303的具体实现方式,可参见上述实施例的相关描述,此处不再赘述。
步骤304,在从目标网页页面中可提取到正文内容的情况下,确定第一URL链接和第一链接集合中的第二URL链接之间的相似度。
步骤305,在从目标网页页面未能提取到正文内容,并且第一URL链接所对应的链接标题的长度小于预设长度阈值,则确定目标网页页面为列表页页面。
在本申请的一个实施例中,若确定从目标网页页面不能提取到正文内容,说明在步骤206中,该父级节点不是正文节点。
在本申请的一个实施例中,还可以继续判断第一URL链接所对应的链接标题的长度是否小于预设长度阈值,以此确定目标网页页面是否为列表页面。
具体地,若此时的第一URL链接所对应的链接标题的长度小于预设长度阈值,则可以确定目标网页页面为列表页页面。若此时的第一URL链接所对应的链接标题的长度不小于预设长度阈值,则不能确定目标网页页面为列表页页面。
其中,预设长度阈值是预先设置的第一URL链接所对应的链接标题的长度的临界值,例如,该预设长度阈值可以为35。
步骤306,在步骤304的基础上,根据相似度与预设相似阈值的比较结果,确定目标网页页面是否为列表页面。
步骤307,在比较结果为相似度大于预设相似度阈值的情况下,确定目标网页页面为详细页面。
步骤308,在比较结果为相似度小于预设相似度阈值的情况下,确定目标网页页面为列表页面。
步骤309,在步骤307的基础上,将第一URL链接添加到第一链接集合中。
其中,第一链接集合用于存储详情页页面所对应的URL链接。
步骤310,在步骤308的基础上,将第一URL链接添加到第二链接集合中。
其中,第二链接集合用于存储列表页页面所对应的URL链接。
在本申请的一个实施例中,步骤309和步骤310中分别将第一URL链接添加到第一链接集合中、将第一URL链接添加到第二链接集合中,可以分别将详情页页面所对应的URL链接、列表页页面所对应的URL链接保存到数据库中,可以方便以后的人工检查和干预。
图4是根据本申请另一个实施例的列表页面的确定方法的流程示意图。
为了更加准确地确定第一URL链接所对应的目标网页页面是否为列表页页面,将第一URL链接添加到第一链接集合中之后,该方法还包括:
步骤401,确定第一链接集合中URL链接的链接长度的中位数和众数。
在本申请的一个实施例中,第一链接集合中URL链接的链接长度的中位数为第一链接集合中所有URL链接的链接长度的中间数值,第一链接集合中URL链接的链接长度的众数为第一链接集合中所有URL链接的链接长度出现最多的数值。
步骤402,如果第一URL链接的链接长度小于众数,并且小于指定取值,则将第一URL链接从第一链接集合移出至第二链接集合中。
在本申请的一个实施例中,若第一URL链接的链接长度小于众数,也即是第一URL链接的链接长度小于第一链接集合中的一部分URL链接的链接长度,说明第一URL链接有较大可能为列表页页面所对应的URL链接。
为了更加准确地确认第一URL链接所对应的目标网页页面是否为列表页页面,可以再将第一URL链接的链接长度与指定取值作比较。若第一URL链接的链接长度依然小于指定取值,则可确定第一URL链接所对应的目标网页页面为列表页页面,则将第一URL链接从第一链接集合移出至第二链接集合中。
需要说明的是,可以对从第一链接集合移出至第二链接集合中的第一URL链接进行标记,以区别于第二链接集合中原本存在的URL链接,也以便之后方便人工检查和干预。
在本申请的一个实施例中,指定取值可以为中位数和预设的权重系数进行相乘所得到的值。
其中,预设的权重系数为预先设置好的一个系数数值。例如,该预设的权重系数可以为0.9。
本申请实施例的列表页面的确定方法,通过对URL链接的二次抽取以及经过URL链接相似度、URL链接长度和URL链接标题的计算,提升了确定目标网页页面为列表页的准确度。
本申请另一方面实施例提出一种列表页面的确定装置。
图5是根据本申请一个实施例的列表页面的确定装置的结构框图。如图5所示,该列表页面的确定装置50可以包括:第一获取模块51、第二获取模块52、第一确定模块53、第二确定模块54以及第三确定模块55。其中:
第一获取模块51,用于获取当前网页页面。
第二获取模块52,用于获取当前网页页面中的多个第一URL链接。
在本申请的一个实施例中,在当前网页页面的跳转次数小于预设跳转阈值的情况下,执行获取当前网页页面中的多个第一URL链接的步骤。
第一确定模块53,用于针对每个第一URL链接,确定从第一URL链接所对应的目标网页页面中是否可提取到正文内容。
第二确定模块54,用于在从目标网页页面中可提取到正文内容的情况下,确定第一URL链接和第一链接集合中的第二URL链接之间的相似度,其中,第二URL链接为详情页面所对应的URL链接。
第三确定模块55,用于根据相似度与预设相似度阈值的比较结果,确定目标网页页面是否为列表页面。
具体地,在比较结果为相似度大于预设相似度阈值的情况下,确定目标网页页面为详细页面;在比较结果为相似度小于预设相似度阈值的情况下,确定目标网页页面为列表页面。
图6是根据本申请另一个实施例的列表页面的确定装置的结构框图。
如图6所示,该列表页面的确定装置60还可以包括:第四确定模块66、第五确定模块67、判断模块68、移出模块69、第一添加模块610以及第二添加模块611,其中,第一确定模块63还包括:获取单元631以及确定单元632。其中:
第四确定模块66,用于在将第一URL链接添加到第一链接集合中之后,确定第一链接集合中URL链接的链接长度的中位数和众数。
第五确定模块67,用于在从目标网页页面中未提取到正文内容,并且第一URL链接所对应的链接标题的长度小于预设长度阈值情况下,则确定目标网页页面为列表页面。
判断模块68,用于判断当前网页页面的跳转次数是否小于预设跳转次数。
移出模块69,用于在第一URL链接的链接长度小于众数,并且小于指定取值情况下,将第一URL链接从第一链接集合移出至第二链接集合中。
第一添加模块610,用于在确定目标网页页面为详细页面之后,将第一URL链接添加到第一链接集合中。
第二添加模块611,用于在确定目标网页页面为列表页面之后,将第一URL链接添加到第二链接集合中,其中,第二链接集合用于存储列表页面所对应的URL链接。
获取单元631,用于获取第一URL链接所对应的目标网页页面的超文本标记语言代码。
确定单元632,用于根据超文本标记语言代码,确定目标网页页面中是否可提取到正文内容。
其中,确定单元632具体用于:
根据超文本标记语言代码,确定当前网页页面对应的文档对象模型DOM树,其中,DOM树中的各节点分别为当前网页页面中的各页面标签;
从DOM树中,获取多个段落节点,其中,段落节点为页面标签为段落P标签所对应的节点;
根据各个段落节点所对应的段落文本中的字数信息以及标点符号总数,确定各个段落节点所对应的评分;
从多个段落节点中获取评分最高的目标段落节点;
从DOM树中,获取目标段落节点所对应的父级节点;
判断该父级节点是否为正文节点,其中,如果该父级节点为正文节点,则确定目标网页页面可提取到正文内容。
本申请实施例中的上述各模块的功能以及具体实现原理,可参照上述各方法实施例,此处不再赘述。
本申请实施例的列表页面的确定装置,在获取到当前网页页面之后,获取当前网页页面中的多个第一URL链接;针对每个第一URL链接,确定从第一URL链接所对应的目标网页页面中是否可提取到正文内容;在从目标网页页面中可提取到正文内容的情况下,确定第一URL链接和第一链接集合中的第二URL链接之间的相似度,其中,第二URL链接为详情页面所对应的URL链接;根据相似度与预设相似度阈值的比较结果,确定目标网页页面是否为列表页面。由此,提出了一种通过第一URL链接和详情页面所对应的第二URL链接之间的相似度来确定当前网页页面中对应URL链接所对应的目标网页页面是否为列表页面的方式,准确确定出当前网页页面对应URL链接所对应的目标网页页面是否为列表页面。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
为了实现上述实施例,本申请还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如前述方法实施例所述的方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如前述方法实施例所述的方法。
为了实现上述实施例,本申请还提出一种计算机程序产品,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例所述的方法。
图7为本申请实施例提供的一种电子设备的结构框图。图7示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,电子设备70包括处理器71,其可以根据存储在只读存储器(ROM,ReadOnly Memory)72中的程序或者从存储器76加载到随机访问存储器(RAM,Random AccessMemory)73中的程序而执行各种适当的动作和处理。在RAM 73中,还存储有电子设备70操作所需的各种程序和数据。处理器71、ROM 72以及RAM 73通过总线74彼此相连。输入/输出(I/O,Input/Output)接口75也连接至总线74。
以下部件连接至I/O接口75:包括硬盘等的存储器76;以及包括诸如LAN(局域网,Local Area Network)卡、调制解调器等的网络接口卡的通信部分77,通信部分77经由诸如因特网的网络执行通信处理;驱动器78也根据需要连接至I/O接口75。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分77从网络上被下载和安装。在该计算机程序被处理器71执行时,执行本申请的方法中限定的上述功能。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器76,上述指令可由电子设备70的处理器71执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (12)
1.一种列表页面的确定方法,其特征在于,所述方法包括:
获取当前网页页面;
获取所述当前网页页面中的多个第一URL链接;
针对每个所述第一URL链接,确定从所述第一URL链接所对应的目标网页页面中是否可提取到正文内容;
在从所述目标网页页面中可提取到正文内容的情况下,确定所述第一URL链接和第一链接集合中的第二URL链接之间的相似度,其中,所述第二URL链接为详情页面所对应的URL链接;
根据所述相似度与预设相似度阈值的比较结果,确定所述目标网页页面是否为列表页面。
2.如权利要求1所述的方法,其特征在于,其中,所述当前网页页面为指定网站的首页页面,或者,对所述首页页面进行一次点击跳转或者多次跳转所到达的页面,在所述获取所述当前网页页面中的多个第一URL链接之前,所述方法还包括:
判断所述当前网页页面的跳转次数是否小于预设跳转次数;
所述获取所述当前网页页面中的多个第一URL链接,包括:
在所述当前网页页面的跳转次数小于预设跳转阈值的情况下,执行获取所述当前网页页面中的多个第一URL链接的步骤。
3.如权利要求1所述的方法,其特征在于,所述根据所述相似度与预设相似度阈值的比较结果,确定所述目标网页页面是否为列表页面,包括:
在所述比较结果为所述相似度大于预设相似度阈值的情况下,确定所述目标网页页面为详细页面;或者,
在所述比较结果为所述相似度小于或者等于预设相似度阈值的情况下,确定所述目标网页页面为列表页面。
4.如权利要求3所述的方法,其特征在于,在所述确定所述目标网页页面为详细页面之后,所述方法还包括:
将所述第一URL链接添加到所述第一链接集合中。
5.如权利要求4所述的方法,其特征在于,在所述将所述第一URL链接添加到所述第一链接集合中之后,所述方法还包括:
确定所述第一链接集合中URL链接的链接长度的中位数和众数;
如果所述第一URL链接的链接长度小于所述众数,并且小于指定取值,则将所述第一URL链接从所述第一链接集合移出至第二链接集合中,其中,所述第二链接集合用于保存列表页面所对应的URL链接,所述指定取值为所述中位数和预设的权重系数进行相乘所得到的值。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
在从所述目标网页页面中未提取到正文内容,并且所述第一URL链接所对应的链接标题的长度小于预设长度阈值,则确定所述目标网页页面为列表页面。
7.如权利要求3或6所述的方法,其特征在于,在所述确定所述目标网页页面为列表页面之后,所述方法还包括:
将所述第一URL链接添加到第二链接集合中,其中,所述第二链接集合用于存储列表页面所对应的URL链接。
8.如权利要求1所述的方法,其特征在于,所述确定从所述第一URL链接所对应的目标网页页面中是否可提取到正文内容,包括:
获取所述第一URL链接所对应的目标网页页面的超文本标记语言代码;
根据所述超文本标记语言代码,确定所述目标网页页面中是否可提取到正文内容。
9.如权利要求8所述的方法,其特征在于,所述根据所述超文本标记语言代码,确定所述目标网页页面中是否可提取到正文内容,包括:
根据所述超文本标记语言代码,确定所述当前网页页面对应的文档对象模型DOM树,其中,所述DOM树中的各节点分别为所述当前网页页面中的各页面标签;
从所述DOM树中,获取多个段落节点,其中,所述段落节点为所述页面标签为段落P标签所对应的节点;
根据各个段落节点所对应的段落文本中的字数信息以及标点符号总数,确定各个段落节点所对应的评分;
从所述多个段落节点中获取评分最高的目标段落节点;
从DOM树中,获取所述目标段落节点所对应的父级节点;
判断所述父级节点是否为正文节点,其中,如果所述父级节点为正文节点,则确定所述目标网页页面可提取到正文内容。
10.一种列表页面的确定装置,其特征在于,所述装置包括:
第一获取模块,用于获取当前网页页面;
第二获取模块,用于获取所述当前网页页面中的多个第一URL链接;
第一确定模块,用于针对每个所述第一URL链接,确定从所述第一URL链接所对应的目标网页页面中是否可提取到正文内容;
第二确定模块,用于在从所述目标网页页面中可提取到正文内容的情况下,确定所述第一URL链接和第一链接集合中的第二URL链接之间的相似度,其中,所述第二URL链接为详情页面所对应的URL链接;
第三确定模块,用于根据所述相似度与预设相似度阈值的比较结果,确定所述目标网页页面是否为列表页面。
11.一种电子设备,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9中任一所述的列表页面的确定方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的列表页面的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210737170.2A CN115017430A (zh) | 2022-06-27 | 2022-06-27 | 列表页面的确定方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210737170.2A CN115017430A (zh) | 2022-06-27 | 2022-06-27 | 列表页面的确定方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115017430A true CN115017430A (zh) | 2022-09-06 |
Family
ID=83076821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210737170.2A Pending CN115017430A (zh) | 2022-06-27 | 2022-06-27 | 列表页面的确定方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017430A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2007100279A4 (en) * | 2007-04-08 | 2007-05-10 | Brander, Breez Mr | Systems and methods of directionally guided, discriminate crawling of internet real estate listings |
US8380693B1 (en) * | 2011-09-07 | 2013-02-19 | Google Inc. | System and method for automatically identifying classified websites |
US20140289394A1 (en) * | 2011-12-13 | 2014-09-25 | Peking University Founder Group Co., Ltd | Method of and system for collecting network data |
CN105302913A (zh) * | 2015-11-12 | 2016-02-03 | 北京奇虎科技有限公司 | 网络小说章节列表评估方法及装置 |
CN108563729A (zh) * | 2018-04-04 | 2018-09-21 | 福州大学 | 一种基于dom树的招标网站中标信息抽取方法 |
CN109144513A (zh) * | 2018-08-22 | 2019-01-04 | 上海嘉道信息技术有限公司 | 一种自动抽取列表页的方法 |
CN109582883A (zh) * | 2017-09-29 | 2019-04-05 | 北京国双科技有限公司 | 栏目页的确定方法和装置 |
WO2019102319A1 (ja) * | 2017-11-24 | 2019-05-31 | 株式会社半導体エネルギー研究所 | 二次電池および二次電池の作製方法 |
CN109902220A (zh) * | 2019-02-27 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 网页信息获取方法、装置和计算机可读存储介质 |
CN110020064A (zh) * | 2017-07-19 | 2019-07-16 | 北京国双科技有限公司 | 网页的爬取方法和装置 |
CN112099778A (zh) * | 2020-11-13 | 2020-12-18 | 北京智慧星光信息技术有限公司 | 基于xpath的数据采集方法、电子设备及存储介质 |
CN112287274A (zh) * | 2020-10-27 | 2021-01-29 | 中国科学院计算技术研究所 | 一种网站列表页面的分类方法、系统及存储介质 |
CN113779479A (zh) * | 2021-09-15 | 2021-12-10 | 京东科技控股股份有限公司 | 网页表格编辑方法、装置、设备及存储介质 |
-
2022
- 2022-06-27 CN CN202210737170.2A patent/CN115017430A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2007100279A4 (en) * | 2007-04-08 | 2007-05-10 | Brander, Breez Mr | Systems and methods of directionally guided, discriminate crawling of internet real estate listings |
US8380693B1 (en) * | 2011-09-07 | 2013-02-19 | Google Inc. | System and method for automatically identifying classified websites |
US20140289394A1 (en) * | 2011-12-13 | 2014-09-25 | Peking University Founder Group Co., Ltd | Method of and system for collecting network data |
CN105302913A (zh) * | 2015-11-12 | 2016-02-03 | 北京奇虎科技有限公司 | 网络小说章节列表评估方法及装置 |
WO2017080183A1 (zh) * | 2015-11-12 | 2017-05-18 | 北京奇虎科技有限公司 | 网络小说章节列表评估方法及装置 |
CN110020064A (zh) * | 2017-07-19 | 2019-07-16 | 北京国双科技有限公司 | 网页的爬取方法和装置 |
CN109582883A (zh) * | 2017-09-29 | 2019-04-05 | 北京国双科技有限公司 | 栏目页的确定方法和装置 |
WO2019102319A1 (ja) * | 2017-11-24 | 2019-05-31 | 株式会社半導体エネルギー研究所 | 二次電池および二次電池の作製方法 |
CN108563729A (zh) * | 2018-04-04 | 2018-09-21 | 福州大学 | 一种基于dom树的招标网站中标信息抽取方法 |
CN109144513A (zh) * | 2018-08-22 | 2019-01-04 | 上海嘉道信息技术有限公司 | 一种自动抽取列表页的方法 |
CN109902220A (zh) * | 2019-02-27 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 网页信息获取方法、装置和计算机可读存储介质 |
CN112287274A (zh) * | 2020-10-27 | 2021-01-29 | 中国科学院计算技术研究所 | 一种网站列表页面的分类方法、系统及存储介质 |
CN112099778A (zh) * | 2020-11-13 | 2020-12-18 | 北京智慧星光信息技术有限公司 | 基于xpath的数据采集方法、电子设备及存储介质 |
CN113779479A (zh) * | 2021-09-15 | 2021-12-10 | 京东科技控股股份有限公司 | 网页表格编辑方法、装置、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
M. A. SHARIF等: "Link prediction based hybrid recommendation system using user-page preference graphs", INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), vol. 2017, 3 July 2017 (2017-07-03), pages 1147 - 1154 * |
宁小媛: "基于功能性近红外光谱技术的手机端购物APP可用性评估", 中国优秀硕士学位论文全文数据库 (信息科技辑), vol. 2022, no. 5, 15 May 2022 (2022-05-15), pages 138 - 277 * |
方宏;吕太之;: "求职网站职位列表页链接信息的自动提取", 现代图书情报技术, no. 1, 25 August 2009 (2009-08-25), pages 93 - 96 * |
李贞昊: "基于地理位置的新闻事件收集与分析技术的研究", 中国优秀硕士学位论文全文数据库 (信息科技辑), vol. 2016, no. 3, 15 March 2016 (2016-03-15), pages 138 - 7755 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105677764B (zh) | 信息提取方法和装置 | |
US9529780B2 (en) | Displaying content on a mobile device | |
US8630972B2 (en) | Providing context for web articles | |
Sun et al. | Dom based content extraction via text density | |
US8898296B2 (en) | Detection of boilerplate content | |
US9032285B2 (en) | Selective content extraction | |
US9311303B2 (en) | Interpreted language translation system and method | |
CN107153716B (zh) | 网页内容提取方法和装置 | |
CN104239298A (zh) | 文本信息推荐方法、服务器、浏览器及系统 | |
EP3851981A1 (en) | Page processing method and apparatus, electronic device and computer readable medium | |
CN108874934B (zh) | 页面正文提取方法和装置 | |
CN112417338B (zh) | 一种页面适配方法、系统及设备 | |
CN109325197B (zh) | 用于提取信息的方法和装置 | |
KR20060079083A (ko) | 하이퍼텍스트 링크를 평가하기 위한 방법, 시스템 및컴퓨터 판독가능 매체 | |
CN102999511A (zh) | 一种页面快速转换方法、装置和系统 | |
CN103544257A (zh) | 网页质量检测方法和装置 | |
CN113157871B (zh) | 应用人工智能的新闻舆情文本处理方法、服务器及介质 | |
US8245130B1 (en) | Performing an estimation on content to be presented | |
CN112612990A (zh) | 网页解析方法、系统及计算机可读存储介质 | |
CN103729354B (zh) | 网页信息处理方法及装置 | |
US8121991B1 (en) | Identifying transient paths within websites | |
US20120124077A1 (en) | Domain Constraint Based Data Record Extraction | |
CN113806667B (zh) | 一种支持网页分类的方法和系统 | |
CN115017430A (zh) | 列表页面的确定方法、装置、电子设备及存储介质 | |
CN115391711A (zh) | 网页正文信息提取方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |