CN112507186A - 网页元素分类方法 - Google Patents
网页元素分类方法 Download PDFInfo
- Publication number
- CN112507186A CN112507186A CN202011360926.3A CN202011360926A CN112507186A CN 112507186 A CN112507186 A CN 112507186A CN 202011360926 A CN202011360926 A CN 202011360926A CN 112507186 A CN112507186 A CN 112507186A
- Authority
- CN
- China
- Prior art keywords
- webpage
- classification
- model
- elements
- fine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000013145 classification model Methods 0.000 claims abstract description 47
- 239000013598 vector Substances 0.000 claims description 37
- 238000012360 testing method Methods 0.000 claims description 17
- 238000010801 machine learning Methods 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 8
- 238000012790 confirmation Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 14
- 230000011218 segmentation Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 235000014347 soups Nutrition 0.000 description 6
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种网页元素分类方法,涉及互联网技术领域,所述方法包括:收集多个第一网页作为原始数据集,分割所述第一网页,得到第一网页元素;将所述第一网页元素粗分为多个大类,再将属于所述大类的元素细分为多个小类,得到带粗分类标签和细分类标签的第一网页元素,将所有第一网页元素作为样本数据集;利用所述样本数据集训练预设模型,得到多类粗分类器和多个粗分类器下的细分类器组成的分类模型;将第二网页分割并将分割得到的第二网页元素输入所述分类模型,得到所述第二网页的已分类第二网页元素,所述已分类第二网页元素具有粗分类标签和细分类标签。本发明降低网页元素分类过程的复杂程度。
Description
技术领域
本发明涉及互联网技术领域,具体涉及一种网页元素分类方法。
背景技术
Web应用一般采用前后端分离设计,前端网页直接面向用户,后端进行业务处理(如数据库读写等)。以典型的新闻网站为例,前端网页通常在视觉上分为若干个模块,如登录模块,负责展示登录状况、个人信息详情入口,还有文章列表模块,底部网站详情模块等。这些模块对于用户而言容易区分,使得交互更加便利。然而,由于前端网页主要通过HTML,CSS和Javascript语言实现,但是,同一种视觉效果的网页如HTML文档结构在不同网站间差异巨大,随着因特网上的站点爆炸性地增长,信息检索、内容提取、模板去重等需求也在增长,但是网页结构之间的差异给信息检索和内容提取带来巨大挑战。
尽管不同网页结构之间由于视觉设计、编码实现等原因存在着巨大差异,但是组成整个网页的不同模块语义仍是相似的,如登录、搜索、表格、列表、内容块等。因此,对网页的模块进行分类可以降低后续处理,包括信息检索、内容提取或模板去重的复杂度。现有的针对网页模块的分类方法也存在着各自的问题,如在基于DOM标签的经验规则分析中,由于CSS的出现,开发者实际上可以不用顾忌标签语义,如使用<table>组织整个页面,或者使用<div>实现列表。因此HTML的极端异质性使得基于规则的方法在测试数据中容易过拟合,从而无法很好的应用于真实场景的数据中。
发明内容
本发明实施例提供一种网页元素分类方法,以解决网页元素模块分类过程复杂程度高的问题。
为了解决上述技术问题,本发明实施例提供了一种网页元素分类方法,所述方法包括:
收集多个第一网页作为原始数据集,对第一网页进行分割,得到第一网页包含的第一网页元素;
对所有第一网页元素进行粗分类,得到粗分类结果,对所述粗分类结果中的每一类细分,得到细分类结果,根据所述粗分类结果和所述细分类结果得到每一个第一网页元素的粗分类标签和细分类标签,将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集;
利用所述样本数据集训练预设模型,得到分类模型,所述分类模型包括多类粗分类器,每个粗分类器下设置有多个细分类器;
将第二网页进行分割,得到所述第二网页包含的多个第二网页元素,将所有第二网页元素输入所述分类模型,得到第二网页元素的分类结果,所述分类结果中每一个第二网页元素具有粗分类标签和细分类标签。
可选的,得到所述第一网页包含的对应的第一网页元素后,还包括:
采用字符串匹配的方法来对第一网页元素进行识别,去除重复的网页元素。
可选的,所述粗分类标签包括:登录类、表单类、列状内容类、块状内容类、搜索类;
属于所述登录类下的细分类标签包括:用户密码登录、用户密码验证码登录、手机号短信确认登录;
属于所述表单类下的细分类标签包括:找回密码、填表、记录表、信息表;
属于所述列状内容类下属的多个小类包括:列状内容、列状目录;
属于所述块状内容类下的细分类标签包括:纯文本内容、文本图片内容;
属于所述搜索类下的细分类标签包括:普通搜索、复杂搜索。
可选的,收集多个第一网页作为原始数据集,对第一网页进行分割,得到第一网页包含的第一网页元素,包括:
使用预设的网页解析模块加载并分割第一网页,得到第一网页包含的第一网页元素;
提取第一网页的网页特征向量;
将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集,包括:
将第一网页元素、第一网页元素对应的网页特征向量和第一网页元素对应的粗分类标签、细分类标签作为样本数据集。
可选的,所述方法还包括:
定义第一网页元素的元素特征向量;
将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集,包括:
将第一网页元素、第一网页元素对应的元素特征向量和第一网页元素对应的粗分类标签、细分类标签作为样本数据集。
可选的,所述元素特征向量包括以下任意一者:
数值型元素特征向量,所述数值型元素特征向量包括:网页元素各标签的数量;
离散型元素特征向量,所述离散型元素特征向量包括:网页元素是否包含password字段。
可选的,利用所述样本数据集训练预设模型,得到分类模型,包括:
选择预设的机器学习库中的模型作为预设模型,设置超参数,使用所述样本数据集训练所选模型;
其中,所述预设的机器学习库中的模型包括:
逻辑斯蒂回归模型、支持向量机模型、多层神经网络模型、梯度提升树模型
可选的,利用所述样本数据集训练预设模型,得到分类模型,包括:
将所述样本数据集按照预设比例分为训练数据和测试数据;
利用所述训练数据训练预设模型,得到分类模型,所述分类模型包括多类粗分类器,每类粗分类器下设置有多个细分类器。
可选的,所述方法还包括:
将所述测试数据中的第一网页元素输入所述分类模型中,得到分类结果,将所述分类结果与测试数据集中记录的粗分类标签和细分类标签进行对比,评估所述分类模型的分类效果。
可选的,所述方法还包括:
对所述多个已分类第二网页元素进行关键词匹配,当包含所述关键词的已分类第二网页元素的标签属于预设列表一时,为所述第二网页分配高等程度的检索权重,所述预设列表一包括块状类、列表类;
当包含所述关键词的已分类第二网页元素的标签属于预设列表二时,为所述第二网页分配中等程度检索权重,所述预设列表二包括:登陆类、搜索类;
将所述第二网页按照所述检索权重由大到小的顺序进行排序。
通过本实施例的网页元素分类方法,收集多个第一网页作为原始数据集,对所述第一网页进行分割,得到所述第一网页包含的网页元素,对所述网页元素进行分类,所述分类的步骤为:先将所述网页元素粗分为多个大类,再将属于所述大类的元素细分为多个小类,得到带有粗分类标签和细分类标签的所述网页元素,将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集,利用所述样本数据集训练预设模型,得到分类模型,所述分类模型包括多类粗分类器,每个粗分类器下设置有多个细分类器,将第二网页的网页元素输入所述分类模型,得到所述第二网页的多个已分类网页元素,所述已分类网页元素具有粗分类标签和细分类标签。该方法具有如下多个技术效果:
第一、能够将网页分割为不同元素,并将不同元素进行分类,对于不同类别的元素可以用于辅助信息检索、内容提取等功能,从而简化网页处理的复杂度;
第二、泛化能力更强,不容易在测试过程中出现过拟合。
附图说明
更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例示出的一种网页元素分类方法的流程图;
图2是本申请一实施例示出的一种分类数据集生成的流程图;
图3是本申请一实施例示出的一种分类模型的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图的术语“第一”、“第二”等是用于区别类似对象,而不必用于描述特定顺序或者先后次序,应当理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
随着互联网应用的普及,越来越多网页也随之产生,但是由于编写网页的语言不同、网页之间的内容编排不同,网页开发者之间不同的习惯等原因使得网页之间的结构并不是完全相同的,甚至相互之间会有极大差异。同时,在互联领域中许多技术如内容检索、信息提取都会设计到对网页的元素模块的分类处理,但是由于网页之间结构之间的差异,使得对于网页的元素模块的分类处理十分繁琐和负载,没有一个现有的方法能够高效简单的网页元素进行分类处理。
为克服相关技术中存在的问题,为此,本发明提出一种新的网页元素的分类方法,其原理为:将网页元素分为多个大类,再将每个的大类分为多个小类,用分类得到的数据集训练预设模型,使用训练完成的模型对新的网页进行分类。
下面将结合图1对本发明实施例的网页元素分类方法进行详细说明。图1是本发明实施例的网页元素分类方法的流程图。参照图1,本发明实施例的网页元素分类方法包括以下步骤:
步骤S101:收集多个第一网页作为原始数据集,对第一网页进行分割,得到第一网页包含的第一网页元素。
在本实施例中,先收集互联网上的网页即第一网页作为原始数据集,由于原始数据集的粒度是网页模块,还需要对这些原始网页作分割处理。现有的网页分割的方法有许多,如基于DOM分割、结合视觉元素和DOM信息分割、基于文字流的分割等。本实施例以基于DOM分割的方法分割HTML元素举例说明,递归地根据DOM标签将网页分割为不同元素。
在HTML中元素指的是从开始标签(start tag)到结束标签(end tag)的所有代码。常见的开始标签有<p>、<a href="default.htm">、<br/>,常见的结束标签有</p>、</a>。元素的内容是开始标签与结束标签之间的内容。Beautiful soup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过指定的解析器实现惯用的文档导航、查找、修改文档的方式,通过Beautiful soup基于HTML格式定义的标签就就可以将网页划分为不同的元素。
步骤S102:对所有第一网页元素进行粗分类,得到粗分类结果,对所述粗分类结果中的每一类细分,得到细分类结果,根据所述粗分类结果和所述细分类结果得到每一个第一网页元素的粗分类标签和细分类标签,将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集;
图2示出了本发明的训练数据集的生成过程,将收集的网页分割完成后得到的网页元素,使用人工将其进行分类,先将网页元素分为多个大类,再将属于每个大类的网页元素细分为多个小类,并将分类完的网页元素和网页元素对应的用于分割的网页作为分类数据集。
步骤S103:利用所述样本数据集训练预设模型,得到分类模型,所述分类模型包括多类粗分类器,每个粗分类器下设置有多个细分类器。
在本实施例中,得到分类数据集之后,利用该数据集训练预设的机器学习模型,从而得到分类模型。在上述训练过程中,分类器是单个训练的,先训练大类分类器,将数据集中所训练的大类标记为正,其他大类标记为负,例如,训练登录类分类器时将数据集中登录类标记为正。其他类如表单类、列状内容类、块状内容类等标记为负,将标记完成的数据集输入预设的机器学习模型,得到登录类的粗分类器。重复上述操作就可以得到其他大类的粗分类器。
得到各个粗分类器后,将数据集中各个大类中的所训练小类标记为正,其他小类标记为负,例如,训练登陆类下的用户密码登录的细分类器时,将将密码登陆类标记为正,其他类如用户密码验证码登录类、手机号短信确认登录类标记为负,将标记完成的数据输入将其输入预设的机器学习模型后就可以得到密码登陆类的细分类器,重复上述步骤就可以得到所有小类的细分类器。应当注意,在训练小类分类器时除了将所属大类下的小类输入之外,还可以将其他大类下的小类标记为负后输入模型进行训练。例如,训练登陆类下的用户密码登录的细分类器时,将密码登陆类标记为正后,除了把登录类下属的用户密码验证码登录类、手机号短信确认登录类等标记为负外,还可以将表单类、列状内容类等下属的小类标记都为负,将标记完成的数据集输入将其输入预设的机器学习模型后就可以得到密码登陆类的细分类器。
多类粗分类器以及每个粗分类器下的多个细分类器组合得到分类模型。
此外需要注意,从上述训练过程可以看出本发明的训练并不具有严格的顺序,除了上述顺序外还可以按照其他顺序进行训练。例如,可以先训练小类的分类器再训练大类的分类器,也可以先训练某个大类的分类器,然后训练该大类下的小类的分类器,再训练其他大类及其他大类下的小类,还可以分配多个线程同时进行多个分类器的训练,本实施例对训练分类器的步骤不作具体限制。
步骤S104:将第二网页进行分割,得到所述第二网页包含的多个第二网页元素,将所有第二网页元素输入所述分类模型,得到第二网页元素的分类结果,所述分类结果中每一个第二网页元素具有粗分类标签和细分类标签。
图3示出了分类模型的分类过程,在本实施例中,训练完成得到分类模型后,将需处理的新的网页即第二网页同样进行分割就可以得到第二网页包含的网页元素,对于分割得到的网页元素先利用粗分类器进行分类,再利用粗分类器对应的细分类器进行分类,就可以得到对第二网页所包含的元素的分类结果。
通过本实施例的网页元素分类方法,收集多个第一网页作为原始数据集,对所述第一网页进行分割,得到所述第一网页包含的网页元素,对所述网页元素进行分类,所述分类的步骤为:先将所述网页元素粗分为多个大类,再将属于所述大类的元素细分为多个小类,得到带有粗分类标签和细分类标签的所述网页元素,将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集,利用所述样本数据集训练预设模型,得到分类模型,所述分类模型包括多类粗分类器,每个粗分类器下设置有多个细分类器,将第二网页的网页元素输入所述分类模型,得到所述第二网页的多个已分类网页元素,所述已分类网页元素具有粗分类标签和细分类标签。该方法具有如下多个技术效果:
第一、能够将网页分割为不同元素,并将不同元素进行分类,对于不同类别的元素可以用于辅助信息检索、内容提取等功能,从而简化网页处理的复杂度;
第二、泛化能力更强,不容易在测试过程中出现过拟合。
更优的是,在本发明的一种实施方式中,利用所述样本数据集训练预设模型,得到分类模型,包括:
将所述样本数据集按照预设比例分为训练数据和测试数据;
利用所述训练数据训练预设模型,得到分类模型,所述分类模型包括多类粗分类器,每类粗分类器下设置有多个细分类器。
进一步的,将所述测试数据中的第一网页元素输入所述分类模型中,得到分类结果,将所述分类结果与测试数据集中记录的粗分类标签和细分类标签进行对比,评估所述分类模型的分类效果。
可以将样本数据集按照预设比例分为训练数据集和测试数据集,使用训练数据集训练所选模型,在得到训练完成的模型后,用测试数据集来测试训练得到的模型。即在本实施例中用于训练的是训练数据集,并且在训练完成后还有:
使用测试数据集评估分类模型效果。
在本实施例中还对得到的分类模型进行了测试,选取数据集训练、测试比例为9:1,即1123个样本作为测试样本。使用逻辑斯蒂回归(随机梯度训练)、线性支持向量机SVM(随机梯度训练)模型进行训练。
得到的粗分类结果如下表1、表2所示;
表1逻辑斯蒂回归的粗分类结果
表2线性SVM的分类结果
可见,利用本发明的网页元素分类方法,无论是选用逻辑回归还是SVM都达到了较高的准确率,具有良好的分类效果。
结合以上实施例,在本发明的一个实施方式中,上述步骤S101还包括:
采用字符串匹配的方法来对第一网页元素进行识别,去除重复的网页元素。
例如某个元素由多层<div>组成,如<div><div><input/></div></div>,(<div>是一个块级元素,这意味着它的内容自动地开始一个新行),根据元素的定义分割可以得到:<div><div><input/></div></div>、<div><div><input/></div>、<div><input/></div>、<div><input/></div></div>、则分割方法可能会产生<div><input/></div>和<div><div><input/></div></div>两个冗余的元素,这些冗余将通过字符串匹配来识别去重。
相似的,在步骤S104得到所述第二网页包含的第二网页元素,还包括:
采用字符串匹配的方法来对第一网页元素进行识别,去除重复的网页元素,将去重后的第二网页元素输入所述分类模型。
在一种实施方式中,在步骤S102中所述粗分类标签包括:登录类、表单类、列状内容类、块状内容类、搜索类;
属于所述登录类下的细分类标签包括:用户密码登录、用户密码验证码登录、手机号短信确认登录;
属于所述表单类下的细分类标签包括:找回密码、填表、记录表、信息表;
属于所述列状内容类下属的多个小类包括:列状内容、列状目录;
属于所述块状内容类下的细分类标签包括:纯文本内容、文本图片内容;
属于所述搜索类下的细分类标签包括:普通搜索、复杂搜索。
在又一种实施方式中,在步骤S101中,收集多个第一网页作为原始数据集,对第一网页进行分割,得到第一网页包含的第一网页元素,包括:
使用预设的网页解析模块加载并分割第一网页,得到第一网页包含的第一网页元素;
提取第一网页的网页特征向量;
将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集,包括:
将第一网页元素、第一网页元素对应的网页特征向量和第一网页元素对应的粗分类标签、细分类标签作为样本数据集。
进一步的,在步骤S102中,对所述第一网页元素进行分类,所述分类步骤在得到所述网页元素的所述粗分类标签和所述细分类标签后,将所述第一网页和所述第一网页对应的带有所述细分类标签和所述细分类标签的所述第一网页元素的集合作为分类数据集,还包括:
定义第一网页元素的元素特征向量;
将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集,包括:
将第一网页元素、第一网页元素对应的元素特征向量和第一网页元素对应的粗分类标签、细分类标签作为样本数据集。
将定义每个网页元素的元素特征向量,帮助分类模型更好对网页元素进行分类。
在本申请的一个实施例中,对于收集到的第一网页,使用预设的网页解析模块Beautiful Soup逐个分割第一网页得到网页内的多个网页元素,Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式,Beautiful Soup由伦纳德·理查森(Leonard Richardson)发起的,使用Beautiful Soup会节省数小时甚至数天的工作时间。
分割完成后,根据所述网页元素,将统计该第一网页的的多个Xpath作为该网页结构表征的基本单位,Xpath使用路径表达式来选取XML文档中的节点或者节点集,其可以表示网页结构特征,例如一个网页可包含div/input,div/table两个xpath。计算该第一网页的所述Xpath结构表征的TF-IDF权重;将TF-IDF权重作为结构表征,即网页特征向量。
TF:即term frequency,即词频,例如上例中div/input在包含div/input,div/table两个xpath的网页中tf为1(出现了1次),IDF:inversed document frequecy(逆向文档频率),在上例中,div/input的idf为总网页数目/包含该Xpath的网页数,TF-IDF权重计算方法为log(tf)*log(idf),表示该xpath在此文档中的权重。
将网页以Xpath的tf-idf权重表示成数值向量,可以比较两个网页的相似度。
对于一个机器学习的问题,通常基于观察提出假设,假定某个特征会对模型有帮助,例如,相同类别的网站结构上会有一定相似性。比如登陆类别,应该会有div嵌套button、div嵌套form的结构(即登录网页中通常有按钮,有表单)等。
将假定的特征参与到训练中,需要将特征使用向量表示,使用一个统计量去表示网页结构这个特征,在本申请实施例中就是用了xpath的tf-idf作为网页特征向量。
经过发明人验证,在网页特征向量这个特征使用后,分类模型效果有所改善了,即,经过验证可以证明前面的假设:这个特征会对分类有帮助,那么使用网页特征向量就是能帮助分类。
进一步的,在机器学习中,特征越多越能够帮助模型正确进行分类,因此,在对网页元素进行分类后,还包括可以定义每个网页元素的元素特征向量,帮助分类模型更好对网页元素进行分类。
进一步,所述元素特征向量包括以下任意一者:
数值型元素特征向量,所述数值型元素特征向量包括:网页元素各标签的数量;
离散型元素特征向量,所述离散型元素特征向量包括:网页元素是否包含password字段。
在本申请的一个实施例中,步骤S103的利用所述样本数据集训练预设模型,得到分类模型,包括:
选择预设的机器学习库中的模型作为预设模型,设置超参数,使用所述样本数据集训练所选模型;
其中,所述预设的机器学习库中的模型包括:
逻辑斯蒂回归模型、支持向量机模型、多层神经网络模型、梯度提升树模型。示例的,以逻辑斯蒂回归模型说明如何进行训练。
S103A、定义网页特征向量,如统计网页的各标签数量
S103B、选择逻辑斯蒂回归模型,设置超参数,学习器中一般有两类参数:一类参数可以从数据中学习估计得到,还有一类参数无法从数据中估计,只能依靠人的经验进行设计指定,后面这类参数就是超参数,如逻辑斯蒂回归模型中的L2正则项中添加的参数。基于逻辑斯蒂回归模型训练单个分类器,例如训练登陆类别的分类器,则所标注的数据集里登陆类别为正例,其他类别为反例。使用交叉熵作为损失函数,逻辑斯蒂回归的损失函数如下,
其中当第n个数据点为正例时,yn为1,反例时为-1,wT为所求模型参数,xn为特征向量,即上述数据集中求得的数量特征、离散特征聚合为向量。
S103C、通过梯度下降方式迭代求解模型参数,最终得到登陆类别的分类器。
S103D、重复S103B、S103C的步骤得到所有大类分类器和所有小类分类器,粗分类器及每个粗分类器下设的多个细分类器组成分类模型。
结合以上实施例,在一种实施方式中,本申请的网页元素分类方法还包括:
对所述多个已分类第二网页元素进行关键词匹配,当包含所述关键词的已分类第二网页元素的标签属于预设列表一时,为所述第二网页分配高等程度的检索权重,所述预设列表一包括块状类、列表类;
当包含所述关键词的已分类第二网页元素的标签属于预设列表二时,为所述第二网页分配中等程度检索权重,所述预设列表二包括:登陆类、搜索类;
将所述第二网页按照所述检索权重由大到小的顺序进行排序。
将需要处理的新的网页包含的元素分类后,可以对元素中包含的内容进行关键词匹配,当包含关键词的网页元素出现在预设列表一时为其所属网页分配高等程度的检索权重,列表一中的网页元素都是大概率记载了实质内容的区块,当关键词位于其中时说明网页中存在与关键词相关的内容如文章、评论等,这些可能包含了用户需要查找的内容,可以为这些网页分配较高的检索权重。当包含关键词的网页元素出现在预设列表二时为其所属网页分配中等程度的检索权重,列表二中的网页元素出现关键词时其包含的内容并非是用户需要的,如登录类仅仅由于巧合与关键词匹配成功但其并未记载用户想要的内容,如检索类可能只是有关键词的检索历史或检索词的推荐等,这可能并未包含关键词相关的内容或包含的关键词相关内容很短,这都不能满足用户需要。
当分配完检索权重后,依据网页的检索权重进行排序,以方便用户进行浏览快速找到需要的网页。需要注意,一些不包含关键词的网页当然被分配最低的检索权重,排序在最后。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。以上对本发明所提供的一种网页元素分类方法,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种网页元素分类方法,其特征在于,包括:
收集多个第一网页作为原始数据集,对第一网页进行分割,得到第一网页包含的第一网页元素;
对所有第一网页元素进行粗分类,得到粗分类结果,对所述粗分类结果中的每一类细分,得到细分类结果,根据所述粗分类结果和所述细分类结果得到每一个第一网页元素的粗分类标签和细分类标签,将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集;
利用所述样本数据集训练预设模型,得到分类模型,所述分类模型包括多类粗分类器,每个粗分类器下设置有多个细分类器;
将第二网页进行分割,得到所述第二网页包含的多个第二网页元素,将所有第二网页元素输入所述分类模型,得到第二网页元素的分类结果,所述分类结果中每一个第二网页元素具有粗分类标签和细分类标签。
2.根据权利要求1所述方法,其特征在于,得到所述第一网页包含的对应的第一网页元素后,还包括:
采用字符串匹配的方法来对第一网页元素进行识别,去除重复的网页元素。
3.根据权利要求1所述方法,其特征在于:
所述粗分类标签包括:登录类、表单类、列状内容类、块状内容类、搜索类;
属于所述登录类下的细分类标签包括:用户密码登录、用户密码验证码登录、手机号短信确认登录;
属于所述表单类下的细分类标签包括:找回密码、填表、记录表、信息表;
属于所述列状内容类下属的多个小类包括:列状内容、列状目录;
属于所述块状内容类下的细分类标签包括:纯文本内容、文本图片内容;
属于所述搜索类下的细分类标签包括:普通搜索、复杂搜索。
4.根据权利要求1所述方法,其特征在于,收集多个第一网页作为原始数据集,对第一网页进行分割,得到第一网页包含的第一网页元素,包括:
使用预设的网页解析模块加载并分割第一网页,得到第一网页包含的第一网页元素;
提取第一网页的网页特征向量;
将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集,包括:
将第一网页元素、第一网页元素对应的网页特征向量和第一网页元素对应的粗分类标签、细分类标签作为样本数据集。
5.根据权利要求1所述方法,其特征在于,所述方法还包括:
定义第一网页元素的元素特征向量;
将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集,包括:
将第一网页元素、第一网页元素对应的元素特征向量和第一网页元素对应的粗分类标签、细分类标签作为样本数据集。
6.根据权利要求5所述方法,其特征在于,所述元素特征向量包括以下任意一者:
数值型元素特征向量,所述数值型元素特征向量包括:网页元素各标签的数量;
离散型元素特征向量,所述离散型元素特征向量包括:网页元素是否包含password字段。
7.根据权利要求1所述方法,其特征在于,利用所述样本数据集训练预设模型,得到分类模型,包括:
选择预设的机器学习库中的模型作为预设模型,设置超参数,使用所述样本数据集训练所选模型;
其中,所述预设的机器学习库中的模型包括:
逻辑斯蒂回归模型、支持向量机模型、多层神经网络模型、梯度提升树模型。
8.根据权利要求1所述方法,其特征在于,利用所述样本数据集训练预设模型,得到分类模型,包括:
将所述样本数据集按照预设比例分为训练数据和测试数据;
利用所述训练数据训练预设模型,得到分类模型,所述分类模型包括多类粗分类器,每类粗分类器下设置有多个细分类器。
9.根据权利要求8所述方法,其特征在于,还包括:
将所述测试数据中的第一网页元素输入所述分类模型中,得到分类结果,将所述分类结果与测试数据集中记录的粗分类标签和细分类标签进行对比,评估所述分类模型的分类效果。
10.根据权利要求1所述方法,其特征在于,还包括:
对所述多个已分类第二网页元素进行关键词匹配,当包含所述关键词的已分类第二网页元素的标签属于预设列表一时,为所述第二网页分配高等程度的检索权重,所述预设列表一包括块状类、列表类;
当包含所述关键词的已分类第二网页元素的标签属于预设列表二时,为所述第二网页分配中等程度检索权重,所述预设列表二包括:登陆类、搜索类;
将所述第二网页按照所述检索权重由大到小的顺序进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011360926.3A CN112507186B (zh) | 2020-11-27 | 2020-11-27 | 网页元素分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011360926.3A CN112507186B (zh) | 2020-11-27 | 2020-11-27 | 网页元素分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507186A true CN112507186A (zh) | 2021-03-16 |
CN112507186B CN112507186B (zh) | 2024-06-14 |
Family
ID=74967346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011360926.3A Active CN112507186B (zh) | 2020-11-27 | 2020-11-27 | 网页元素分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507186B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030149694A1 (en) * | 2002-02-05 | 2003-08-07 | Ibm Corporation | Path-based ranking of unvisited web pages |
CN101350019A (zh) * | 2008-06-20 | 2009-01-21 | 浙江大学 | 基于预定义槽间向量模型的网页信息抽取方法 |
US20090240729A1 (en) * | 2008-03-20 | 2009-09-24 | Yahoo! Inc. | Classifying content resources using structured patterns |
CN101676902A (zh) * | 2008-09-19 | 2010-03-24 | 众来科技股份有限公司 | 具有辨识分类搜寻储存功能的文件控管系统及方法 |
CN102004796A (zh) * | 2010-12-24 | 2011-04-06 | 钱钢 | 一种网页文本的无阻滞层次分类方法与装置 |
CN103049557A (zh) * | 2012-12-31 | 2013-04-17 | 百度在线网络技术(北京)有限公司 | 一种站点资源管理方法及装置 |
CN105868408A (zh) * | 2016-04-21 | 2016-08-17 | 深圳爱拼信息科技有限公司 | 基于机器学习的招聘信息解析系统及其方法 |
CN106294107A (zh) * | 2015-05-27 | 2017-01-04 | 富士通株式会社 | 生成网页页面的测试用例的方法和装置 |
CN106599155A (zh) * | 2016-12-07 | 2017-04-26 | 北京亚鸿世纪科技发展有限公司 | 一种网页分类方法及系统 |
CN107592839A (zh) * | 2015-01-19 | 2018-01-16 | 电子湾有限公司 | 细粒度分类 |
CN107908635A (zh) * | 2017-09-26 | 2018-04-13 | 百度在线网络技术(北京)有限公司 | 建立文本分类模型以及文本分类的方法、装置 |
CN108134784A (zh) * | 2017-12-19 | 2018-06-08 | 东软集团股份有限公司 | 网页分类方法及装置、存储介质及电子设备 |
CN108874996A (zh) * | 2018-06-13 | 2018-11-23 | 北京知道创宇信息技术有限公司 | 网站分类方法及装置 |
CN110516710A (zh) * | 2019-07-25 | 2019-11-29 | 湖南星汉数智科技有限公司 | 网页分类方法、装置、计算机装置及计算机可读存储介质 |
CN110795624A (zh) * | 2019-01-11 | 2020-02-14 | 谷歌有限责任公司 | 分析个性化框架 |
CN111143642A (zh) * | 2019-12-30 | 2020-05-12 | 北京天融信网络安全技术有限公司 | 网页分类方法、装置、电子设备及计算机可读存储介质 |
CN111339453A (zh) * | 2018-12-19 | 2020-06-26 | 顺丰科技有限公司 | 导航页的判别方法和装置 |
CN111353803A (zh) * | 2018-12-24 | 2020-06-30 | 北京奇虎科技有限公司 | 广告主分类方法及装置、计算设备 |
-
2020
- 2020-11-27 CN CN202011360926.3A patent/CN112507186B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030149694A1 (en) * | 2002-02-05 | 2003-08-07 | Ibm Corporation | Path-based ranking of unvisited web pages |
US20090240729A1 (en) * | 2008-03-20 | 2009-09-24 | Yahoo! Inc. | Classifying content resources using structured patterns |
CN101350019A (zh) * | 2008-06-20 | 2009-01-21 | 浙江大学 | 基于预定义槽间向量模型的网页信息抽取方法 |
CN101676902A (zh) * | 2008-09-19 | 2010-03-24 | 众来科技股份有限公司 | 具有辨识分类搜寻储存功能的文件控管系统及方法 |
CN102004796A (zh) * | 2010-12-24 | 2011-04-06 | 钱钢 | 一种网页文本的无阻滞层次分类方法与装置 |
CN103049557A (zh) * | 2012-12-31 | 2013-04-17 | 百度在线网络技术(北京)有限公司 | 一种站点资源管理方法及装置 |
CN107592839A (zh) * | 2015-01-19 | 2018-01-16 | 电子湾有限公司 | 细粒度分类 |
CN106294107A (zh) * | 2015-05-27 | 2017-01-04 | 富士通株式会社 | 生成网页页面的测试用例的方法和装置 |
CN105868408A (zh) * | 2016-04-21 | 2016-08-17 | 深圳爱拼信息科技有限公司 | 基于机器学习的招聘信息解析系统及其方法 |
CN106599155A (zh) * | 2016-12-07 | 2017-04-26 | 北京亚鸿世纪科技发展有限公司 | 一种网页分类方法及系统 |
CN107908635A (zh) * | 2017-09-26 | 2018-04-13 | 百度在线网络技术(北京)有限公司 | 建立文本分类模型以及文本分类的方法、装置 |
CN108134784A (zh) * | 2017-12-19 | 2018-06-08 | 东软集团股份有限公司 | 网页分类方法及装置、存储介质及电子设备 |
CN108874996A (zh) * | 2018-06-13 | 2018-11-23 | 北京知道创宇信息技术有限公司 | 网站分类方法及装置 |
CN111339453A (zh) * | 2018-12-19 | 2020-06-26 | 顺丰科技有限公司 | 导航页的判别方法和装置 |
CN111353803A (zh) * | 2018-12-24 | 2020-06-30 | 北京奇虎科技有限公司 | 广告主分类方法及装置、计算设备 |
CN110795624A (zh) * | 2019-01-11 | 2020-02-14 | 谷歌有限责任公司 | 分析个性化框架 |
CN110516710A (zh) * | 2019-07-25 | 2019-11-29 | 湖南星汉数智科技有限公司 | 网页分类方法、装置、计算机装置及计算机可读存储介质 |
CN111143642A (zh) * | 2019-12-30 | 2020-05-12 | 北京天融信网络安全技术有限公司 | 网页分类方法、装置、电子设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
薛永大;: "网页分类技术研究综述", 电脑知识与技术, no. 25, 5 September 2012 (2012-09-05), pages 32 - 35 * |
谷峰;吴扬扬;: "文本分类关键技术", 福建电脑, no. 09, 25 September 2006 (2006-09-25), pages 9 - 10 * |
Also Published As
Publication number | Publication date |
---|---|
CN112507186B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10146862B2 (en) | Context-based metadata generation and automatic annotation of electronic media in a computer network | |
US9183436B2 (en) | Matching text to images | |
US20140207782A1 (en) | System and method for computerized semantic processing of electronic documents including themes | |
US10366154B2 (en) | Information processing device, information processing method, and computer program product | |
Linhares Pontes et al. | Impact of OCR quality on named entity linking | |
KR20190062391A (ko) | 전자 기록의 문맥 리트리벌을 위한 시스템 및 방법 | |
CN108090104B (zh) | 用于获取网页信息的方法和装置 | |
WO2015061046A2 (en) | Method and apparatus for performing topic-relevance highlighting of electronic text | |
Lee et al. | The newspaper navigator dataset: Extracting headlines and visual content from 16 million historic newspaper pages in chronicling america | |
US20050138079A1 (en) | Processing, browsing and classifying an electronic document | |
Ugale et al. | Document management system: A notion towards paperless office | |
US20160085848A1 (en) | Content classification | |
Barua et al. | Multi-class sports news categorization using machine learning techniques: resource creation and evaluation | |
Patel et al. | Dynamic lexicon generation for natural scene images | |
US20230325424A1 (en) | Systems and methods for generating codes and code books based using cosine proximity | |
Hürriyetoǧlu et al. | Relevancer: Finding and labeling relevant information in tweet collections | |
JP2014102625A (ja) | 情報検索システム、プログラム、および方法 | |
Kosmajac et al. | Dnlp@ fintoc’20: Table of contents detection in financial documents | |
CN112507186B (zh) | 网页元素分类方法 | |
CN115203445A (zh) | 多媒体资源搜索方法、装置、设备及介质 | |
CN110955845A (zh) | 用户兴趣识别方法及装置、搜索结果处理方法及装置 | |
Fabo et al. | Mapping the Bentham Corpus: concept-based navigation | |
CN109213830B (zh) | 专业性技术文档的文档检索系统 | |
Daniel et al. | Automated generation of latent topics on emerging technologies from YouTube Video content | |
Yasmin et al. | Potential candidate selection using information extraction and skyline queries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |