CN107038240A - 一种网页列表内容检测方法 - Google Patents

一种网页列表内容检测方法 Download PDF

Info

Publication number
CN107038240A
CN107038240A CN201710262871.4A CN201710262871A CN107038240A CN 107038240 A CN107038240 A CN 107038240A CN 201710262871 A CN201710262871 A CN 201710262871A CN 107038240 A CN107038240 A CN 107038240A
Authority
CN
China
Prior art keywords
node
list
web page
tagname
detection algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710262871.4A
Other languages
English (en)
Other versions
CN107038240B (zh
Inventor
范晓忻
朱志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kim Union Bank (beijing) Information Technology Co Ltd
Original Assignee
Kim Union Bank (beijing) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kim Union Bank (beijing) Information Technology Co Ltd filed Critical Kim Union Bank (beijing) Information Technology Co Ltd
Priority to CN201710262871.4A priority Critical patent/CN107038240B/zh
Publication of CN107038240A publication Critical patent/CN107038240A/zh
Application granted granted Critical
Publication of CN107038240B publication Critical patent/CN107038240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种网页列表内容检测方法,该方法包括爬取解析渲染动态网页;将网页生成DOM树;遍历DOM树检测列表,获取当前列表节点;深度优先遍历获取当前列表节点的当前子节点,并进行编号;判断当前节点的子节点的个数是否大于第一阈值,并判断当前节点网页所占面积是否小于0,如果小于0,进行步骤S6,否则进行步骤S7;返回错误;将该当前节点对应的列表加入到疑似列表结构列表变量中;将疑似列表结构列表变量按照网页面积大小降序排列,选出所占面积最大的节点,获取该节点的html,该方法通过DOM树和深度优先遍历实现对网页列表中的主体列表内容的检测,提高了主体列表结构的检测性能。

Description

一种网页列表内容检测方法
技术领域
本发明属于列表内容检测领域,特别涉及一种网页列表内容检测方法。
背景技术
随着科技的进步,互联网信息进入一个多元化的时代,互联网成为一个巨大的信息库,其能够在一个网站上为您呈现多种内容,该内容以列表的形式呈现出来,每一列表内包括的内容都不相同,并且在网页中的位置和大小也不同,如何能够快速的获取一网页上的主体列表成为现在急需解决的一技术难题。
CN103748584公开了一种网页中的项目列表的自动检测,该方法包括分析用户的与给定网页关联的Web浏览交互历史;构造给定网页的文档对象模型DOM;基于分析,标识DOM中与所述网页中的所述元素对应的节点,标识所述节点的祖先节点,所述祖先节点对应于与包括所述元素的网页关联的项目列表;该检测方法检测出的项目列表无法体现出哪些列表属于主体列表结构,许多小列表结构都被检测出来,因此浏览者无法区分出哪些是重点关注的主体列表,也无法快速地实现对主体列表内容的提取。
发明内容
为了解决上述技术问题,本发明提供了一种网页列表内容检测方法,该方法能够快速准确地检测出主体列表结构,方便浏览者浏览。
本发明提供一种网页列表内容检测方法,该方法包括如下步骤:
S1:爬取解析渲染动态网页;
S2:将步骤S1获取的网页生成DOM树;
S3:遍历DOM树检测列表,获取当前列表节点;
S4:判断当前列表节点是否为列表,如果是,深度优先遍历获取当前列表节点的当前子节点,并进行编号;
S5:判断当前节点的子节点的个数是否大于第一阈值,并判断当前节点网页所占面积是否小于0,如果小于0,进行步骤S6,否则进行步骤S7;
S6:返回错误;
S7:将该当前节点对应的列表加入到疑似列表结构列表变量中;
S8:将疑似列表结构列表变量按照网页面积大小降序排列,选出所占面积最大的节点,获取该节点的html。
进一步的改进,所述方法还包括:
S9:提取步骤S8获得的节点的tagName、className、id信息,分别统计tagName、className和idName的众数占总条数的比例,并对3个比例求均值
S10:提取步骤S8获得的节点的面积大小,并计算所有子节点面积大小的变异系数CV;
S11:分别判断均值与第二阈值的大小及变异系数CV与第三阈值的大小,均值大于第二阈值且变异系数CV大于第三阈值,判断为主体列表。
进一步的改进,所述方法还包括:
S12:获取步骤S11判断出的主体列表区域的Element值,对Element取所有的子节点,即将主体列表区域分成了多行;
S13:获取主体列表的表头;
S14:获取主体列表中每一行的内容。
进一步的改进,步骤S13具体方法为:对所有行进行遍历,将每一行中存在的所有节点所在的网页结构均记录下来,对所有行中的记录值取并集获得包含所有情况的列的表头。
进一步的改进,步骤S14具体方法为:针对每一个行中的记录,获取所有节点的“表头-内容”对,并将其对应到步骤S13中保存的所有表头的内容之下。
进一步的改进,步骤S3具体方法为:利用startFindList()函数从根节点开始递归调用findPossibleList()函数进行DFS,遍历完成后,将疑似列表节点按面积大小降序排列,取第一个节点作为当前列表节点。
进一步的改进,步骤S4具体方法为:findPossibleList()函数调用isList()判断当前节点是否为列表,并递归调用findPossibleList()进行DFS,同时利用HashMap给当前子结点进行编号。
进一步的改进,步骤S4具体方法为:
S41:findPossibleList()函数调用isList()判断当前节点是否为列表,如果是,进行步骤S42;
S42:递归调用findPossibleList()函数进行DFS,并判断节点类型,如果节点类型为Element类型节点,进行步骤S43,如果节点类型为WebElement类型节点,进行步骤S44;
S43:对Element类型节点的子节点进行遍历,获取tagName、className、id数据,并利用HashMap给当前子结点编号;
S44:对WebElement类型节点的子节点进行遍历,并获得每个节点的tagName,tagName分组后,按出现的顺序进行编号,在DFS遍历时将子节点tagName及其序号加入xpath中,并获取当前子节点在网页中的位置和大小数据。
进一步的改进,第二阈值获取的具体方法为:
S15:分别将标记有命名特征tagName众数、className众数和id众数的网页节点对卷积神经网络模型进行训练,建立tagName众数模型、className众数模型和id众数模型;
S16:分别利用tagName众数模型、className众数模型和id众数模型对待测网页节点进行训练,获取待测网页节点的tagName众数Z1、className众数Z2和id众数Z3
S17:根据如下公式计算第二阈值Y2
进一步的改进,第三阈值获取的具体方法为:
S18:将标记有节点面积大小的网页节点对卷积神经网络模型进行训练,建立节点面积模型;
S19:分别利用节点面积模型对待测网页节点进行训练,获取待测网页节点的节点面积大小;
S20:根据如下公式计算第三阈值Y3
其中,M1……Ma表示a个待测网页节点的节点面积;
Ma‐1、Ma‐2、Mb表示a个待测网页节点中,有b个网页节点的节点面积大于30%网页节点面积的节点面积
本发明的有益效果在于:本发明提供一种网页列表内容检测方法,该方法通过DOM树和深度优先遍历实现对网页列表中的主体列表内容的检测,检测出主体列表结构,然后再提取主体列表结构内的基于节点命名信息和基于网页大小位置信息的特征,并将提取的特征与阈值进行对比,将大于阈值的特征所对应的节点作为主体列表结构,本发明提供的两个特征分别从网页命名的规律和网页元素所占面积大小这两个不同角度出发,特征之间不存在耦合和相关性,因此能保证最后的结果是两种特征检测列表效果的叠加。
附图说明
图1为实施例1一种网页列表内容检测方法的流程图;
图2为实施例2步骤S4的流程图;
图3为实施例3一种网页列表内容检测方法的流程图;
图4为实施例4一种网页列表内容检测方法的流程图;
图5为实施例5第二阈值获取的流程图;
图6为实施例5第三阈值获取的流程图。
具体实施例方式
实施例1
本发明实施例1提供一种网页列表内容检测方法,如图1所示,该方法包括如下步骤:
S1:爬取解析渲染动态网页;
S2:将步骤S1获取的网页生成DOM树;
S3:遍历DOM树检测列表,获取当前列表节点;
具体方法为:利用startFindList()函数从根节点开始递归调用findPossibleList()函数进行DFS,遍历完成后,将疑似列表节点按面积大小降序排列,取第一个节点作为当前列表节点;
S4:判断当前列表节点是否为列表,如果是,深度优先遍历获取当前列表节点的当前子节点,并进行编号;
具体方法为:findPossibleList()函数调用isList()判断当前节点是否为列表,并递归调用findPossibleList()进行DFS,同时利用HashMap给当前子节点进行编号;
S5:判断当前节点的子节点的个数是否大于第一阈值,并判断当前节点网页所占面积是否小于0,如果小于0,进行步骤S6,否则进行步骤S7;
S6:返回错误;
S7:将该当前节点对应的列表加入到疑似列表结构列表变量中;
S8:将疑似列表结构列表变量按照网页面积大小降序排列,选出所占面积最大的节点,获取该节点的html。
该方法的具体流程如下:本发明在进行步骤S1之前,首先需要构造函数,构造函数的含义为所采用的浏览器引擎和其调用的位置,其采用两种方式,方式一为采用默认配置,默认使用PhantomJs,方式二为传入参数,选择浏览器引擎(Chrome or PhantomJs);其次,再启动浏览器引擎,初始化possibleTables,第三要通过爬虫技术爬取解析渲染动态网页,并将爬取的网页窗口最大化;第四将网页生成DOM树,然后通过遍历DOM树和深度优化遍历检测当前节点的子节点,并进行编号,然后对子节点个数与阈值进行比对,并将当前节点的网页面积大于0的加入到疑似列表中,然后再根据面积的大小选择最大面积的节点,获取该节点的html,本发明提供的方法能够简单、方便、快速地检测出主体列表结构,便于浏览者浏览。
实施例2 一种网页列表内容检测方法
本发明实施例2提供的网页列表内容检测方法与实施例1基本相同,不同的是,如图2所示,步骤S4具体方法为:
S41:findPossibleList()函数调用isList()判断当前节点是否为列表,如果是,进行步骤S42;
S42:递归调用findPossibleList()函数进行DFS,并判断节点类型,如果节点类型为Element类型节点,进行步骤S43,如果节点类型为WebElement类型节点,进行步骤S44;
S43:对Element类型节点的子节点进行遍历,获取tagName、className、id数据,并利用HashMap给当前子节点编号;
S44:对WebElement类型节点的子节点进行遍历,并获得每个节点的tagName,tagName分组后,按出现的顺序进行编号,在DFS遍历时将子节点tagName及其序号加入xpath中,并获取当前子节点在网页中的位置和大小数据。
本发明通过对步骤S4进行具体的限定,解决了在WebElement遍历中,通过xpath定位时,只利用路径上的tagName组成的xpath定位节点元素,并不能保证节点的唯一性,导致获取的WebElement得到的位置大小等信息错位的问题,保证了xpath的唯一性。
实施例3 一种网页列表内容检测方法
本发明实施例3提供一种网页列表内容检测方法,如图3所示,该方法包括如下步骤:
S1:爬取解析渲染动态网页;
S2:将步骤S1获取的网页生成DOM树;
S3:遍历DOM树检测列表,获取当前列表节点;
S4:判断当前列表节点是否为列表,如果是,深度优先遍历获取当前列表节点的当前子节点,并进行编号;
S5:判断当前节点的子节点的个数是否大于第一阈值,并判断当前节点网页所占面积是否小于0,如果小于0,进行步骤S6,否则进行步骤S7;
S6:返回错误;
S7:将该当前节点对应的列表加入到疑似列表结构列表变量中;
S8:将疑似列表结构列表变量按照网页面积大小降序排列,选出所占面积最大的节点,获取该节点的html;
S9:提取步骤S8获得的节点的tagName、className、id信息,分别统计tagName、className和idName的众数占总条数的比例,并对3个比例求均值
S10:提取步骤S8获得的节点的面积大小,并计算所有子节点面积大小的变异系数CV;
S11:分别判断均值与第二阈值的大小及变异系数CV与第三阈值的大小,均值大于第二阈值且变异系数CV大于第三阈值,判断为主体列表。
本发明通过分别统计tagName、className和idName的众数占总条数的比例并对3个比例求均值可以解决现有技术中存在的要求子节点的tagName、className、id完全一致,或设计者设计的网页命名不太规范所产生的列表结构漏报问题;但是考虑到子节点众数的均值特征有一定的失效风险,考虑到列表子节点在网页中的分布相邻、面积近似,本发明设计了一个针对面积大小分布的特征:子节点面积的变异系数;本发明所提到的两种对列表结构有着强相关的特征,由于两个特征分别从网页命名的规律和网页节点所占面积大小这两个不同角度出发,特征之间的相互叠加,提高了检测列表结构的性能。
实施例4 一种网页列表内容检测方法
本发明实施例4提供一种网页列表内容检测方法,如图4所示,该方法包括如下步骤:
S1:爬取解析渲染动态网页;
S2:将步骤S1获取的网页生成DOM树;
S3:遍历DOM树检测列表,获取当前列表节点;
S4:判断当前列表节点是否为列表,如果是,深度优先遍历获取当前列表节点的当前子节点,并进行编号;
S5:判断当前节点的子节点的个数是否大于第一阈值,并判断当前节点网页所占面积是否小于0,如果小于0,进行步骤S6,否则进行步骤S7;
S6:返回错误;
S7:将该当前节点对应的列表加入到疑似列表结构列表变量中;
S8:将疑似列表结构列表变量按照网页面积大小降序排列,选出所占面积最大的节点,获取该节点的html;
S9:提取步骤S8获得的节点的tagName、className、id信息,分别统计tagName、className和idName的众数占总条数的比例,并对3个比例求均值
S10:提取步骤S8获得的节点的面积大小,并计算所有子节点面积大小的变异系数CV;
S11:分别判断均值与第二阈值的大小及变异系数CV与第三阈值的大小,均值大于第二阈值且变异系数CV大于第三阈值,判断为主体列表;
S12:获取步骤S11判断出的主体列表区域的Element值,对Element取所有的子节点,即将主体列表区域分成了多行;
S13:获取主体列表的表头;
具体方法为:对所有行进行遍历,将每一行中存在的所有节点所在的网页结构均记录下来,对所有行中的记录值取并集获得包含所有情况的列的表头;
S14:获取主体列表中每一行的内容;
针对每一个行中的记录,获取所有节点的“表头-内容”对,并将其对应到步骤S13中保存的所有表头的内容之下。
本发明通过以上方法可以准确地提出所述主体列表的内的内容,操作简单方便。
实施例5 一种网页列表内容检测方法
本发明实施例5提供的网页列表内容检测方法与实施例4基本相同,不同的是,如图5所示,第二阈值获取的具体方法为;
S15:分别将标记有命名特征tagName众数、className众数和id众数的网页节点对卷积神经网络模型进行训练,建立tagName众数模型、className众数模型和id众数模型;
S16:分别利用tagName众数模型、className众数模型和id众数模型对待测网页节点进行训练,获取待测网页节点的tagName众数Z1、className众数Z2和id众数Z3
S17:根据如下公式计算第二阈值Y2
如图6所示,第三阈值获取的具体方法为:
S18:将标记有节点面积大小的网页节点对卷积神经网络模型进行训练,建立节点面积模型;
S19:分别利用节点面积模型对待测网页节点进行训练,获取待测网页节点的节点面积大小;
S17:根据如下公式计算第三阈值Y3
其中,M1……Ma表示a个待测网页节点的节点面积;
Ma‐1、Ma‐2、Mb表示a个待测网页节点中,有b个网页节点的节点面积大于30%网页节点面积的节点面积;
需要说明的是,本发明所使用的卷积神经网络模型包括:输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、第二全连接层和输出层。
本发明对第二阈值和第三阈值进行进一步的判断,提高了阈值选择的标准,使得主体列表结构的检测性能得到明显的提高;本发明通过命名特征的众数和节点面积分别对卷积神经网络模型进行训练,然后再将待测网页节点输入到模型中,将第二全连接层输出的向量经向量机计算后获得各命名特征众数和节点面积,然后根据命名特征众数和节点面积计算出第二阈值和第三阈值。

Claims (10)

1.一种网页列表内容检测方法,其特征在于,所述方法包括如下步骤:
S1:爬取解析渲染动态网页;
S2:将步骤S1获取的网页生成DOM树;
S3:遍历DOM树检测列表,获取当前列表节点;
S4:判断当前列表节点是否为列表,如果是,深度优先遍历获取当前列表节点的当前子节点,并进行编号;
S5:判断当前节点的子节点的个数是否大于第一阈值,并判断当前节点网页所占面积是否小于0,如果小于0,进行步骤S6,否则进行步骤S7;
S6:返回错误;
S7:将该当前节点对应的列表加入到疑似列表结构列表变量中;
S8:将疑似列表结构列表变量按照网页面积大小降序排列,选出所占面积最大的节点,获取该节点的html。
2.如权利要求1所述的网页列表内容检测方法,其特征在于,所述方法还包括:
S9:提取步骤S8获得的节点的tagName、className、id信息,分别统计tagName、className和idName的众数占总条数的比例,并对3个比例求均值
S10:提取步骤S8获得的节点的面积大小,并计算所有子节点面积大小的变异系数CV;
S11:分别判断均值与第二阈值的大小及变异系数CV与第三阈值的大小,均值大于第二阈值且变异系数CV大于第三阈值,判断为主体列表。
3.如权利要求2所述的网页列表内容检测方法,其特征在于,所述方法还包括:
S12:获取步骤S11判断出的主体列表区域的Element值,对Element取所有的子节点,即将主体列表区域分成了多行;
S13:获取主体列表的表头;
S14:获取主体列表中每一行的内容。
4.如权利要求3所述的网页列表内容检测方法,其特征在于,步骤S13具体方法为:对所有行进行遍历,将每一行中存在的所有节点所在的网页结构均记录下来,对所有行中的记录值取并集获得包含所有情况的列的表头。
5.如权利要求3所述的网页列表内容检测方法,其特征在于,步骤S14具体方法为:针对每一个行中的记录,获取所有节点的“表头-内容”对,并将其对应到步骤S13中保存的所有表头的内容之下。
6.如权利要求1所述的网页列表内容检测方法,其特征在于,步骤S3具体方法为:利用startFindList()函数从根节点开始递归调用findPossibleList()函数进行DFS,遍历完成后,将疑似列表节点按面积大小降序排列,取第一个节点作为当前列表节点。
7.如权利要求1所述的网页列表内容检测方法,其特征在于,步骤S4具体方法为:findPossibleList()函数调用isList()判断当前节点是否为列表,并递归调用findPossibleList()进行DFS,同时利用HashMap给当前子结点进行编号。
8.如权利要求7所述的网页列表内容检测方法,其特征在于,步骤S4具体方法为:
S41:findPossibleList()函数调用isList()判断当前节点是否为列表,如果是,进行步骤S42;
S42:递归调用findPossibleList()函数进行DFS,并判断节点类型,如果节点类型为Element类型节点,进行步骤S43,如果节点类型为WebElement类型节点,进行步骤S44;
S43:对Element类型节点的子节点进行遍历,获取tagName、className、id数据,并利用HashMap给当前子结点编号;
S44:对WebElement类型节点的子节点进行遍历,并获得每个节点的tagName,tagName分组后,按出现的顺序进行编号,在DFS遍历时将子节点tagName及其序号加入xpath中,并获取当前子节点在网页中的位置和大小数据。
9.如权利要求3所述的网页列表内容检测方法,其特征在于,第二阈值获取的具体方法为;
S15:分别将标记有命名特征tagName众数、className众数和id众数的网页节点对卷积神经网络模型进行训练,建立tagName众数模型、className众数模型和id众数模型;
S16:分别利用tagName众数模型、className众数模型和id众数模型对待测网页节点进行训练,获取待测网页节点的tagName众数Z1、className众数Z2和id众数Z3
S17:根据如下公式计算第二阈值Y2
10.如权利要求9所述的网页列表内容检测方法,其特征在于,第三阈值获取的具体方法为:
S18:将标记有节点面积大小的网页节点对卷积神经网络模型进行训练,建立节点面积模型;
S19:分别利用节点面积模型对待测网页节点进行训练,获取待测网页节点的节点面积大小;
S20:根据如下公式计算第三阈值Y3
其中,M1……Ma表示a个待测网页节点的节点面积;
Ma-1、Ma-2、Mb表示a个待测网页节点中,有b个网页节点的节点面积大于30%网页节点面积的节点面积
2
CN201710262871.4A 2017-04-20 2017-04-20 一种网页列表内容检测方法 Active CN107038240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710262871.4A CN107038240B (zh) 2017-04-20 2017-04-20 一种网页列表内容检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710262871.4A CN107038240B (zh) 2017-04-20 2017-04-20 一种网页列表内容检测方法

Publications (2)

Publication Number Publication Date
CN107038240A true CN107038240A (zh) 2017-08-11
CN107038240B CN107038240B (zh) 2020-07-24

Family

ID=59535085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710262871.4A Active CN107038240B (zh) 2017-04-20 2017-04-20 一种网页列表内容检测方法

Country Status (1)

Country Link
CN (1) CN107038240B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918735A (zh) * 2017-11-29 2018-04-17 中科信息安全共性技术国家工程研究中心有限公司 一种基于孤岛文件的网页木马检测方法
CN110956019A (zh) * 2019-11-27 2020-04-03 北大方正集团有限公司 列表处理系统、方法、装置、计算机可读存储介质
CN111966930A (zh) * 2020-08-17 2020-11-20 山东亿云信息技术有限公司 基于XPath序列的网页列表解析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7213200B2 (en) * 2002-04-23 2007-05-01 International Business Machines Corporation Selectable methods for generating robust XPath expressions
CN102831121A (zh) * 2011-06-15 2012-12-19 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
CN104965901A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种目标页面内容抓取方法和装置
CN105550279A (zh) * 2015-12-10 2016-05-04 天津海量信息技术有限公司 基于视觉的列表页识别方法
CN105786828A (zh) * 2014-12-19 2016-07-20 广州市动景计算机科技有限公司 页面提取方法及装置、设备终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7213200B2 (en) * 2002-04-23 2007-05-01 International Business Machines Corporation Selectable methods for generating robust XPath expressions
CN102831121A (zh) * 2011-06-15 2012-12-19 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
CN105786828A (zh) * 2014-12-19 2016-07-20 广州市动景计算机科技有限公司 页面提取方法及装置、设备终端
CN104965901A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种目标页面内容抓取方法和装置
CN105550279A (zh) * 2015-12-10 2016-05-04 天津海量信息技术有限公司 基于视觉的列表页识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马刚: "网页信息抽取", 《基于语义的WEB数据挖掘》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918735A (zh) * 2017-11-29 2018-04-17 中科信息安全共性技术国家工程研究中心有限公司 一种基于孤岛文件的网页木马检测方法
CN110956019A (zh) * 2019-11-27 2020-04-03 北大方正集团有限公司 列表处理系统、方法、装置、计算机可读存储介质
CN110956019B (zh) * 2019-11-27 2021-10-26 北大方正集团有限公司 列表处理系统、方法、装置、计算机可读存储介质
CN111966930A (zh) * 2020-08-17 2020-11-20 山东亿云信息技术有限公司 基于XPath序列的网页列表解析方法及系统

Also Published As

Publication number Publication date
CN107038240B (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN104391979B (zh) 网络恶意爬虫识别方法及装置
CN103605738B (zh) 网页访问数据统计方法及装置
CN103259805B (zh) 基于用户评价的域名访问控制方法及系统
CN107038240A (zh) 一种网页列表内容检测方法
CN104466959B (zh) 电力系统关键线路辨识方法和系统
CN103426042A (zh) 社交网络的分组方法及系统
CN103617279A (zh) 基于Pagerank方法的微博信息传播影响力评估模型的实现方法
CN104408185B (zh) 网页热力图的链接点击量展示方法及装置
CN106055627A (zh) 话题领域中社交网络关键节点的识别方法
CN107092670A (zh) 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法
CN109726319A (zh) 一种基于交互关系的用户影响力分析方法
CN105095625A (zh) 点击率预估模型建立方法、装置及信息提供方法、系统
CN105354249B (zh) 多账号关联方法、装置及电子设备
CN104731937B (zh) 用户行为数据的处理方法及装置
CN104462242B (zh) 网页回流量统计方法及装置
CN107015993A (zh) 一种用户类型识别方法及装置
CN104408133B (zh) 网页链接区域的热力图的显示方法和装置
CN104572787B (zh) 伪原创网站的识别方法及装置
CN106940711A (zh) 一种url检测方法及检测装置
CN101526951B (zh) 搜索方法及搜索系统
CN109522494A (zh) 一种暗链检测方法、装置、设备及计算机可读存储介质
CN110489636A (zh) 一种基于代码分析与图像处理的网页广告屏蔽方法
CN104361121B (zh) 一种web报表系统公式的批量解析方法
CN106294884A (zh) 一种数据采集的方法及装置
CN104391958B (zh) 网页搜索关键词的相关性检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant