CN107038240B - 一种网页列表内容检测方法 - Google Patents

一种网页列表内容检测方法 Download PDF

Info

Publication number
CN107038240B
CN107038240B CN201710262871.4A CN201710262871A CN107038240B CN 107038240 B CN107038240 B CN 107038240B CN 201710262871 A CN201710262871 A CN 201710262871A CN 107038240 B CN107038240 B CN 107038240B
Authority
CN
China
Prior art keywords
list
node
current
webpage
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710262871.4A
Other languages
English (en)
Other versions
CN107038240A (zh
Inventor
范晓忻
朱志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
3golden Beijing Information Technology Co ltd
Original Assignee
3golden Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 3golden Beijing Information Technology Co ltd filed Critical 3golden Beijing Information Technology Co ltd
Priority to CN201710262871.4A priority Critical patent/CN107038240B/zh
Publication of CN107038240A publication Critical patent/CN107038240A/zh
Application granted granted Critical
Publication of CN107038240B publication Critical patent/CN107038240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种网页列表内容检测方法,该方法包括爬取解析渲染动态网页;将网页生成DOM树;遍历DOM树检测列表,获取当前列表节点;深度优先遍历获取当前列表节点的当前子节点,并进行编号;判断当前节点的子节点的个数是否大于第一阈值,并判断当前节点网页所占面积是否小于0,如果小于0,进行步骤S6,否则进行步骤S7;返回错误;将该当前节点对应的列表加入到疑似列表结构列表变量中;将疑似列表结构列表变量按照网页面积大小降序排列,选出所占面积最大的节点,获取该节点的html,该方法通过DOM树和深度优先遍历实现对网页列表中的主体列表内容的检测,提高了主体列表结构的检测性能。

Description

一种网页列表内容检测方法
技术领域
本发明属于列表内容检测领域,特别涉及一种网页列表内容检测方法。
背景技术
随着科技的进步,互联网信息进入一个多元化的时代,互联网成为一个巨大的信息库,其能够在一个网站上为您呈现多种内容,该内容以列表的形式呈现出来,每一列表内包括的内容都不相同,并且在网页中的位置和大小也不同,如何能够快速的获取一网页上的主体列表成为现在急需解决的一技术难题。
CN103748584公开了一种网页中的项目列表的自动检测,该方法包括分析用户的与给定网页关联的Web浏览交互历史;构造给定网页的文档对象模型DOM;基于分析,标识DOM中与所述网页中的所述元素对应的节点,标识所述节点的祖先节点,所述祖先节点对应于与包括所述元素的网页关联的项目列表;该检测方法检测出的项目列表无法体现出哪些列表属于主体列表结构,许多小列表结构都被检测出来,因此浏览者无法区分出哪些是重点关注的主体列表,也无法快速地实现对主体列表内容的提取。
发明内容
为了解决上述技术问题,本发明提供了一种网页列表内容检测方法,该方法能够快速准确地检测出主体列表结构,方便浏览者浏览。
本发明提供一种网页列表内容检测方法,该方法包括如下步骤:
S1:爬取解析渲染动态网页;
S2:将步骤S1获取的网页生成DOM树;
S3:遍历DOM树检测列表,获取当前列表节点;
S4:判断当前列表节点是否为列表,如果是,深度优先遍历获取当前列表节点的当前子节点,并进行编号;
S5:判断当前节点的子节点的个数是否大于第一阈值,并判断当前节点网页所占面积是否小于0,如果小于0,进行步骤S6,否则进行步骤S7;
S6:返回错误;
S7:将该当前节点对应的列表加入到疑似列表结构列表变量中;
S8:将疑似列表结构列表变量按照网页面积大小降序排列,选出所占面积最大的节点,获取该节点的html。
进一步的改进,所述方法还包括:
S9:提取步骤S8获得的节点的tagName、className、id信息,分别统计tagName、className和idName的众数占总条数的比例,并对3个比例求均值
Figure BDA0001275258400000021
S10:提取步骤S8获得的节点的面积大小,并计算所有子节点面积大小的变异系数CV;
S11:分别判断均值
Figure BDA0001275258400000022
与第二阈值的大小及变异系数CV与第三阈值的大小,均值
Figure BDA0001275258400000023
大于第二阈值且变异系数CV大于第三阈值,判断为主体列表。
进一步的改进,所述方法还包括:
S12:获取步骤S11判断出的主体列表区域的Element值,对Element取所有的子节点,即将主体列表区域分成了多行;
S13:获取主体列表的表头;
S14:获取主体列表中每一行的内容。
进一步的改进,步骤S13具体方法为:对所有行进行遍历,将每一行中存在的所有节点所在的网页结构均记录下来,对所有行中的记录值取并集获得包含所有情况的列的表头。
进一步的改进,步骤S14具体方法为:针对每一个行中的记录,获取所有节点的“表头-内容”对,并将其对应到步骤S13中保存的所有表头的内容之下。
进一步的改进,步骤S3具体方法为:利用startFindList()函数从根节点开始递归调用findPossibleList()函数进行DFS,遍历完成后,将疑似列表节点按面积大小降序排列,取第一个节点作为当前列表节点。
进一步的改进,步骤S4具体方法为:findPossibleList()函数调用isList()判断当前节点是否为列表,并递归调用findPossibleList()进行DFS,同时利用HashMap给当前子结点进行编号。
进一步的改进,步骤S4具体方法为:
S41:findPossibleList()函数调用isList()判断当前节点是否为列表,如果是,进行步骤S42;
S42:递归调用findPossibleList()函数进行DFS,并判断节点类型,如果节点类型为Element类型节点,进行步骤S43,如果节点类型为WebElement类型节点,进行步骤S44;
S43:对Element类型节点的子节点进行遍历,获取tagName、className、id数据,并利用HashMap给当前子结点编号;
S44:对WebElement类型节点的子节点进行遍历,并获得每个节点的tagName,tagName分组后,按出现的顺序进行编号,在DFS遍历时将子节点tagName及其序号加入xpath中,并获取当前子节点在网页中的位置和大小数据。
进一步的改进,第二阈值获取的具体方法为:
S15:分别将标记有命名特征tagName众数、className众数和id众数的网页节点对卷积神经网络模型进行训练,建立tagName众数模型、className众数模型和id众数模型;
S16:分别利用tagName众数模型、className众数模型和id众数模型对待测网页节点进行训练,获取待测网页节点的tagName众数Z1、className众数Z2和id众数Z3
S17:根据如下公式计算第二阈值Y2
Figure BDA0001275258400000041
进一步的改进,第三阈值获取的具体方法为:
S18:将标记有节点面积大小的网页节点对卷积神经网络模型进行训练,建立节点面积模型;
S19:分别利用节点面积模型对待测网页节点进行训练,获取待测网页节点的节点面积大小;
S20:根据如下公式计算第三阈值Y3
Figure BDA0001275258400000051
其中,M1……Ma表示a个待测网页节点的节点面积;
Ma‐1、Ma‐2、Mb表示a个待测网页节点中,有b个网页节点的节点面积大于30%网页节点面积的节点面积
Figure BDA0001275258400000052
本发明的有益效果在于:本发明提供一种网页列表内容检测方法,该方法通过DOM树和深度优先遍历实现对网页列表中的主体列表内容的检测,检测出主体列表结构,然后再提取主体列表结构内的基于节点命名信息和基于网页大小位置信息的特征,并将提取的特征与阈值进行对比,将大于阈值的特征所对应的节点作为主体列表结构,本发明提供的两个特征分别从网页命名的规律和网页元素所占面积大小这两个不同角度出发,特征之间不存在耦合和相关性,因此能保证最后的结果是两种特征检测列表效果的叠加。
附图说明
图1为实施例1一种网页列表内容检测方法的流程图;
图2为实施例2步骤S4的流程图;
图3为实施例3一种网页列表内容检测方法的流程图;
图4为实施例4一种网页列表内容检测方法的流程图;
图5为实施例5第二阈值获取的流程图;
图6为实施例5第三阈值获取的流程图。
具体实施例方式
实施例1
本发明实施例1提供一种网页列表内容检测方法,如图1所示,该方法包括如下步骤:
S1:爬取解析渲染动态网页;
S2:将步骤S1获取的网页生成DOM树;
S3:遍历DOM树检测列表,获取当前列表节点;
具体方法为:利用startFindList()函数从根节点开始递归调用findPossibleList()函数进行DFS,遍历完成后,将疑似列表节点按面积大小降序排列,取第一个节点作为当前列表节点;
S4:判断当前列表节点是否为列表,如果是,深度优先遍历获取当前列表节点的当前子节点,并进行编号;
具体方法为:findPossibleList()函数调用isList()判断当前节点是否为列表,并递归调用findPossibleList()进行DFS,同时利用HashMap给当前子节点进行编号;
S5:判断当前节点的子节点的个数是否大于第一阈值,并判断当前节点网页所占面积是否小于0,如果小于0,进行步骤S6,否则进行步骤S7;
S6:返回错误;
S7:将该当前节点对应的列表加入到疑似列表结构列表变量中;
S8:将疑似列表结构列表变量按照网页面积大小降序排列,选出所占面积最大的节点,获取该节点的html。
该方法的具体流程如下:本发明在进行步骤S1之前,首先需要构造函数,构造函数的含义为所采用的浏览器引擎和其调用的位置,其采用两种方式,方式一为采用默认配置,默认使用PhantomJs,方式二为传入参数,选择浏览器引擎(Chrome or PhantomJs);其次,再启动浏览器引擎,初始化possibleTables,第三要通过爬虫技术爬取解析渲染动态网页,并将爬取的网页窗口最大化;第四将网页生成DOM树,然后通过遍历DOM树和深度优化遍历检测当前节点的子节点,并进行编号,然后对子节点个数与阈值进行比对,并将当前节点的网页面积大于0的加入到疑似列表中,然后再根据面积的大小选择最大面积的节点,获取该节点的html,本发明提供的方法能够简单、方便、快速地检测出主体列表结构,便于浏览者浏览。
实施例2 一种网页列表内容检测方法
本发明实施例2提供的网页列表内容检测方法与实施例1基本相同,不同的是,如图2所示,步骤S4具体方法为:
S41:findPossibleList()函数调用isList()判断当前节点是否为列表,如果是,进行步骤S42;
S42:递归调用findPossibleList()函数进行DFS,并判断节点类型,如果节点类型为Element类型节点,进行步骤S43,如果节点类型为WebElement类型节点,进行步骤S44;
S43:对Element类型节点的子节点进行遍历,获取tagName、className、id数据,并利用HashMap给当前子节点编号;
S44:对WebElement类型节点的子节点进行遍历,并获得每个节点的tagName,tagName分组后,按出现的顺序进行编号,在DFS遍历时将子节点tagName及其序号加入xpath中,并获取当前子节点在网页中的位置和大小数据。
本发明通过对步骤S4进行具体的限定,解决了在WebElement遍历中,通过xpath定位时,只利用路径上的tagName组成的xpath定位节点元素,并不能保证节点的唯一性,导致获取的WebElement得到的位置大小等信息错位的问题,保证了xpath的唯一性。
实施例3 一种网页列表内容检测方法
本发明实施例3提供一种网页列表内容检测方法,如图3所示,该方法包括如下步骤:
S1:爬取解析渲染动态网页;
S2:将步骤S1获取的网页生成DOM树;
S3:遍历DOM树检测列表,获取当前列表节点;
S4:判断当前列表节点是否为列表,如果是,深度优先遍历获取当前列表节点的当前子节点,并进行编号;
S5:判断当前节点的子节点的个数是否大于第一阈值,并判断当前节点网页所占面积是否小于0,如果小于0,进行步骤S6,否则进行步骤S7;
S6:返回错误;
S7:将该当前节点对应的列表加入到疑似列表结构列表变量中;
S8:将疑似列表结构列表变量按照网页面积大小降序排列,选出所占面积最大的节点,获取该节点的html;
S9:提取步骤S8获得的节点的tagName、className、id信息,分别统计tagName、className和idName的众数占总条数的比例,并对3个比例求均值
Figure BDA0001275258400000091
S10:提取步骤S8获得的节点的面积大小,并计算所有子节点面积大小的变异系数CV;
S11:分别判断均值
Figure BDA0001275258400000092
与第二阈值的大小及变异系数CV与第三阈值的大小,均值
Figure BDA0001275258400000093
大于第二阈值且变异系数CV大于第三阈值,判断为主体列表。
本发明通过分别统计tagName、className和idName的众数占总条数的比例并对3个比例求均值
Figure BDA0001275258400000094
可以解决现有技术中存在的要求子节点的tagName、className、id完全一致,或设计者设计的网页命名不太规范所产生的列表结构漏报问题;但是考虑到子节点众数的均值特征有一定的失效风险,考虑到列表子节点在网页中的分布相邻、面积近似,本发明设计了一个针对面积大小分布的特征:子节点面积的变异系数;本发明所提到的两种对列表结构有着强相关的特征,由于两个特征分别从网页命名的规律和网页节点所占面积大小这两个不同角度出发,特征之间的相互叠加,提高了检测列表结构的性能。
实施例4 一种网页列表内容检测方法
本发明实施例4提供一种网页列表内容检测方法,如图4所示,该方法包括如下步骤:
S1:爬取解析渲染动态网页;
S2:将步骤S1获取的网页生成DOM树;
S3:遍历DOM树检测列表,获取当前列表节点;
S4:判断当前列表节点是否为列表,如果是,深度优先遍历获取当前列表节点的当前子节点,并进行编号;
S5:判断当前节点的子节点的个数是否大于第一阈值,并判断当前节点网页所占面积是否小于0,如果小于0,进行步骤S6,否则进行步骤S7;
S6:返回错误;
S7:将该当前节点对应的列表加入到疑似列表结构列表变量中;
S8:将疑似列表结构列表变量按照网页面积大小降序排列,选出所占面积最大的节点,获取该节点的html;
S9:提取步骤S8获得的节点的tagName、className、id信息,分别统计tagName、className和idName的众数占总条数的比例,并对3个比例求均值
Figure BDA0001275258400000101
S10:提取步骤S8获得的节点的面积大小,并计算所有子节点面积大小的变异系数CV;
S11:分别判断均值
Figure BDA0001275258400000102
与第二阈值的大小及变异系数CV与第三阈值的大小,均值
Figure BDA0001275258400000103
大于第二阈值且变异系数CV大于第三阈值,判断为主体列表;
S12:获取步骤S11判断出的主体列表区域的Element值,对Element取所有的子节点,即将主体列表区域分成了多行;
S13:获取主体列表的表头;
具体方法为:对所有行进行遍历,将每一行中存在的所有节点所在的网页结构均记录下来,对所有行中的记录值取并集获得包含所有情况的列的表头;
S14:获取主体列表中每一行的内容;
针对每一个行中的记录,获取所有节点的“表头-内容”对,并将其对应到步骤S13中保存的所有表头的内容之下。
本发明通过以上方法可以准确地提出所述主体列表的内的内容,操作简单方便。
实施例5 一种网页列表内容检测方法
本发明实施例5提供的网页列表内容检测方法与实施例4基本相同,不同的是,如图5所示,第二阈值获取的具体方法为;
S15:分别将标记有命名特征tagName众数、className众数和id众数的网页节点对卷积神经网络模型进行训练,建立tagName众数模型、className众数模型和id众数模型;
S16:分别利用tagName众数模型、className众数模型和id众数模型对待测网页节点进行训练,获取待测网页节点的tagName众数Z1、className众数Z2和id众数Z3
S17:根据如下公式计算第二阈值Y2
Figure BDA0001275258400000111
如图6所示,第三阈值获取的具体方法为:
S18:将标记有节点面积大小的网页节点对卷积神经网络模型进行训练,建立节点面积模型;
S19:分别利用节点面积模型对待测网页节点进行训练,获取待测网页节点的节点面积大小;
S17:根据如下公式计算第三阈值Y3
Figure BDA0001275258400000121
其中,M1……Ma表示a个待测网页节点的节点面积;
Ma‐1、Ma‐2、Mb表示a个待测网页节点中,有b个网页节点的节点面积大于30%网页节点面积的节点面积;
Figure BDA0001275258400000122
需要说明的是,本发明所使用的卷积神经网络模型包括:输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、第二全连接层和输出层。
本发明对第二阈值和第三阈值进行进一步的判断,提高了阈值选择的标准,使得主体列表结构的检测性能得到明显的提高;本发明通过命名特征的众数和节点面积分别对卷积神经网络模型进行训练,然后再将待测网页节点输入到模型中,将第二全连接层输出的向量经向量机计算后获得各命名特征众数和节点面积,然后根据命名特征众数和节点面积计算出第二阈值和第三阈值。

Claims (7)

1.一种网页列表内容检测方法,其特征在于,所述方法包括如下步骤:
S1:爬取解析渲染动态网页;
S2:将步骤S1获取的网页生成DOM树;
S3:遍历DOM树检测列表,获取当前列表节点;
S4:判断当前列表节点是否为列表,如果是,深度优先遍历获取当前列表节点的当前子节点,并进行编号;
S5:判断当前节点的子节点的个数是否大于第一阈值,并判断当前节点网页所占面积是否小于0,如果小于0,进行步骤S6,否则进行步骤S7;
S6:返回错误;
S7:将该当前节点对应的列表加入到疑似列表结构列表变量中;
S8:将疑似列表结构列表变量按照网页面积大小降序排列,选出所占面积最大的节点,获取该节点的html;
S9:提取步骤S8获得的节点的tagName、className、id信息,分别统计tagName、className和idName的众数占总条数的比例,并对3个比例求均值
Figure FDA0002397192870000011
S10:提取步骤S8获得的节点的面积大小,并计算所有子节点面积大小的变异系数CV;
S11:分别判断均值
Figure FDA0002397192870000021
与第二阈值的大小及变异系数CV与第三阈值的大小,均值
Figure FDA0002397192870000022
大于第二阈值且变异系数CV大于第三阈值,判断为主体列表。
2.如权利要求1所述的网页列表内容检测方法,其特征在于,所述方法还包括:
S12:获取步骤S11判断出的主体列表区域的Element值,对Element取所有的子节点,即将主体列表区域分成了多行;
S13:获取主体列表的表头;
S14:获取主体列表中每一行的内容。
3.如权利要求2所述的网页列表内容检测方法,其特征在于,步骤S13具体方法为:对所有行进行遍历,将每一行中存在的所有节点所在的网页结构均记录下来,对所有行中的记录值取并集获得包含所有情况的列的表头。
4.如权利要求2所述的网页列表内容检测方法,其特征在于,步骤S14具体方法为:针对每一个行中的记录,获取所有节点的“表头-内容”对,并将其对应到步骤S13中保存的所有表头的内容之下。
5.如权利要求1所述的网页列表内容检测方法,其特征在于,步骤S3具体方法为:利用startFindList()函数从根节点开始递归调用findPossibleList()函数进行DFS,遍历完成后,将疑似列表节点按面积大小降序排列,取第一个节点作为当前列表节点。
6.如权利要求1所述的网页列表内容检测方法,其特征在于,步骤S4具体方法为:findPossibleList()函数调用isList()判断当前节点是否为列表,并递归调用findPossibleList()进行DFS,同时利用HashMap给当前子结点进行编号。
7.如权利要求6所述的网页列表内容检测方法,其特征在于,步骤S4具体方法为:
S41:findPossibleList()函数调用isList()判断当前节点是否为列表,如果是,进行步骤S42;
S42:递归调用findPossibleList()函数进行DFS,并判断节点类型,如果节点类型为Element类型节点,进行步骤S43,如果节点类型为WebElement类型节点,进行步骤S44;
S43:对Element类型节点的子节点进行遍历,获取tagName、className、id数据,并利用HashMap给当前子结点编号;
S44:对WebElement类型节点的子节点进行遍历,并获得每个节点的tagName,tagName分组后,按出现的顺序进行编号,在DFS遍历时将子节点tagName及其序号加入xpath中,并获取当前子节点在网页中的位置和大小数据。
CN201710262871.4A 2017-04-20 2017-04-20 一种网页列表内容检测方法 Active CN107038240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710262871.4A CN107038240B (zh) 2017-04-20 2017-04-20 一种网页列表内容检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710262871.4A CN107038240B (zh) 2017-04-20 2017-04-20 一种网页列表内容检测方法

Publications (2)

Publication Number Publication Date
CN107038240A CN107038240A (zh) 2017-08-11
CN107038240B true CN107038240B (zh) 2020-07-24

Family

ID=59535085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710262871.4A Active CN107038240B (zh) 2017-04-20 2017-04-20 一种网页列表内容检测方法

Country Status (1)

Country Link
CN (1) CN107038240B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918735A (zh) * 2017-11-29 2018-04-17 中科信息安全共性技术国家工程研究中心有限公司 一种基于孤岛文件的网页木马检测方法
CN110956019B (zh) * 2019-11-27 2021-10-26 北大方正集团有限公司 列表处理系统、方法、装置、计算机可读存储介质
CN111966930B (zh) * 2020-08-17 2021-05-04 山东亿云信息技术有限公司 基于XPath序列的网页列表解析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7213200B2 (en) * 2002-04-23 2007-05-01 International Business Machines Corporation Selectable methods for generating robust XPath expressions
CN102831121A (zh) * 2011-06-15 2012-12-19 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
CN104965901A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种目标页面内容抓取方法和装置
CN105550279A (zh) * 2015-12-10 2016-05-04 天津海量信息技术有限公司 基于视觉的列表页识别方法
CN105786828A (zh) * 2014-12-19 2016-07-20 广州市动景计算机科技有限公司 页面提取方法及装置、设备终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7213200B2 (en) * 2002-04-23 2007-05-01 International Business Machines Corporation Selectable methods for generating robust XPath expressions
CN102831121A (zh) * 2011-06-15 2012-12-19 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
CN105786828A (zh) * 2014-12-19 2016-07-20 广州市动景计算机科技有限公司 页面提取方法及装置、设备终端
CN104965901A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种目标页面内容抓取方法和装置
CN105550279A (zh) * 2015-12-10 2016-05-04 天津海量信息技术有限公司 基于视觉的列表页识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
网页信息抽取;马刚;《基于语义的Web数据挖掘》;20140131;第151-153页 *

Also Published As

Publication number Publication date
CN107038240A (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
CN104391979B (zh) 网络恶意爬虫识别方法及装置
CN107038240B (zh) 一种网页列表内容检测方法
CN102750390B (zh) 新闻网页要素自动提取方法
TW201250492A (en) Method and system of extracting web page information
CN104317891B (zh) 一种对页面标注标签的方法及装置
CN107437026B (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
CN104182548B (zh) 网页更新处理方法及装置
WO2016115944A1 (zh) 网页质量模型的建立方法及装置
CN103927397A (zh) 一种基于区块树的Web页面链接块的识别方法
CN108763274A (zh) 访问请求的识别方法、装置、电子设备及存储介质
CN107092670A (zh) 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法
CN109194635A (zh) 基于自然语言处理与深度学习的恶意url识别方法及装置
CN103049562A (zh) 一种识别相似网页的方法及装置
CN109040346B (zh) 一种泛域名解析中有效域名的筛选方法、装置及设备
CN103870752B (zh) 一种用于检测Flash XSS漏洞的方法、装置与设备
CN106446123A (zh) 一种网页中验证码元素识别方法
CN109977337A (zh) 一种网页设计对比方法、装置、设备及可读存储介质
CN106936778A (zh) 网站流量异常的检测方法和装置
CN104408133B (zh) 网页链接区域的热力图的显示方法和装置
CN104281629A (zh) 从网页中提取图片的方法、装置及客户端设备
CN104572787B (zh) 伪原创网站的识别方法及装置
CN107563204A (zh) 一种匿名数据的隐私泄露风险评估方法
CN111125704B (zh) 一种网页挂马识别方法及系统
CN106330861A (zh) 一种网址检测方法及装置
CN104598289B (zh) 一种识别方法及一种电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant