CN117093260B

CN117093260B - 一种基于决策树分类算法的融合模型网站结构解析方法

Info

Publication number: CN117093260B
Application number: CN202311333041.8A
Authority: CN
Inventors: 董席峰; 赵志庆; 侯玉柱; 张雨铭威; 张昊; 张赛男
Original assignee: Rongxing Technology Co ltd
Current assignee: Rongxing Technology Co ltd
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-01-12
Anticipated expiration: 2043-10-16
Also published as: CN117093260A

Abstract

本发明涉及网站结构分类解析领域，尤其涉及一种基于决策树分类算法的融合模型网站结构解析方法，包括：S1、基于DOM提取技术获取待解析网站的HTML代码；S2、根据所述待解析网站的HTML代码获取对应解析元素特征；S3、利用所述解析元素特征基于决策树分类算法得到待解析网站的结构解析结果，通过常见分类算法，实现对网站结构的自动解析，减少人工干预，减少数据采集程序编写中技术人员对于页面结构解析的人工精力，做到降本增效。

Description

一种基于决策树分类算法的融合模型网站结构解析方法

技术领域

本发明涉及网站结构分类解析领域，具体涉及一种基于决策树分类算法的融合模型网站结构解析方法。

背景技术

针对数据采集需求，通过数据爬虫方式，可以通过自动化的方式从互联网上收集和提取数据。帮助技术人员获取大量的数据，并且可以在短时间内完成这个过程。传统的数据采集工作，依靠技术人员前期针对每个数据采集网站，分析页面结构，然后编写爬虫代码的方式，但随着大数据技术、人工智能技术的发展对数据支撑需求不断扩大，已无法低成本、高效率支撑。因此，通过一种智能化手段，实现对网站结构的智能分析方法来代替人工分析，同时依靠逐渐提高算力的高速计算设备，可将先前单独训练的模型合并训练，进而将不同训练集、不同模型输出融合到单一模型中获取，从而将分析结果及要素直接反馈给技术人员后，技术人员直接编写数据采集程序将大大提升人工采集升本，从而降低数据采集成本，提升技术人员开发效率，进而支撑大数据、人工智能技术的发展意义重大。

发明内容

针对现有技术的不足，本发明提供了一种基于决策树分类算法的融合模型网站结构解析方法，通过快速建立二分类模型，并在实施各阶段进行模型提升与结果验证，能够快速准确地提取目标数据。

为实现上述目的，本发明提供了一种基于决策树分类算法的融合模型网站结构解析方法，包括：

S1、基于DOM提取技术获取待解析网站的HTML代码；

S2、根据所述待解析网站的HTML代码获取对应解析元素特征；

S3、利用所述解析元素特征基于决策树分类算法得到待解析网站的结构解析结果。

优选的，所述基于DOM提取技术获取待解析网站的HTML代码包括：

基于DOM提取技术获取待解析网站的初始HTML代码；

判断所述初始HTML代码是否存在对应历史HTML代码，若是，则利用所述待解析网站的初始HTML代码与初始HTML代码对应历史HTML代码作为待解析网站的HTML代码，否则，直接输出待解析网站的初始HTML代码作为待解析网站的HTML代码。

进一步的，根据所述待解析网站的HTML代码获取对应解析元素特征包括：

根据所述待解析网站的HTML代码获取待解析网站的文本数据；

根据所述待解析网站的文本数据进行页面解析得到待解析网站的标签属性数据；

利用所述待解析网站的文本数据与标签属性数据作为解析元素特征。

进一步的，根据所述待解析网站的文本数据进行页面解析得到待解析网站的标签属性数据包括：

获取待解析网站的网站标签；

根据所述待解析网站的文本数据获取对应文本数据属性；

利用所述待解析网站的网站标签与文本数据属性作为待解析网站的标签属性数据；

其中，所述网站标签包括页面标题、页面描述与关键词。

进一步的，利用所述解析元素特征基于决策树分类算法得到待解析网站的结构解析结果包括：

S3-1、利用所述解析元素特征基于决策树分类算法建立决策分类模型；

S3-2、利用所述解析元素特征根据决策分类模型得到待解析网站的特征决策分类结果；

S3-3、利用所述待解析网站的特征决策分类结果得到待解析网站的结构解析结果。

进一步的，利用所述解析元素特征基于决策树分类算法建立决策分类模型包括：

S3-1-1、利用所述解析元素特征中待解析网站的文本数据与对应文本数据属性划分为一级数据集；

S3-1-2、利用所述解析元素特征中标签属性数据的待解析网站的网站标签划分为二级数据集；

S3-1-3、利用所述一级数据集与二级数据集基于决策树分类算法建立决策分类模型。

进一步的，利用所述一级数据集与二级数据集基于决策树分类算法建立决策分类模型包括：

S3-1-3-1、利用所述一级数据集作为第一训练集，基于决策树分类算法进行根节点训练得到第一初始决策分类模型；

S3-1-3-2、利用所述二级数据集作为第二训练集，基于决策树分类算法进行决策树剪枝处理得到第二初始决策分类模型；

S3-1-3-3、判断当前一级数据集与二级数据集对应待解析网站的HTML代码是否存在历史HTML代码，若是，则根据所述历史HTML代码获取历史决策分类模型，对第二初始决策分类模型进行校对处理得到决策分类模型，否则，直接输出第二初始决策分类模型作为决策分类模型。

进一步的，根据所述历史HTML代码获取历史决策分类模型，对第二初始决策分类模型进行校对处理得到决策分类模型包括：

S3-1-3-3-1、根据所述历史HTML代码获取历史决策分类模型；

S3-1-3-3-2、获取所述历史决策分类模型对应历史第一数据集与历史第二数据集；

S3-1-3-3-3、获取所述历史第一数据集与当前第一数据集的相似度作为第一校对相似度；

S3-1-3-3-4、获取所述历史第二数据集与当前第二数据集的相似度作为第二校对相似度；

S3-1-3-3-5、判断所述第一校对相似度与第二校对相似度是否相同，若是，则执行S3-1-3-3-6，否则，输出所述第二初始决策分类模型作为决策分类模型；

S3-1-3-3-6、判断所述第二初始决策分类模型与历史决策分类模型的模型结构是否相同，若是，则利用第二初始决策分类模型作为决策分类模型，否则，获取所述第二初始决策分类模型与历史决策分类模型的模型结构相似度，并执行S3-1-3-3-7；

S3-1-3-3-7、判断所述模型结构相似度与第一校对相似度是否相同，若是，则利用第二初始决策分类模型作为决策分类模型，否则，利用所述历史第一数据集与历史第二数据集作为当前第一训练集与第二训练集，并返回S3-1-3-1；

其中，所述模型结构相似度为决策树分类模型中各节点与路径的相似度。

进一步的，利用所述待解析网站的特征决策分类结果得到待解析网站的结构解析结果包括：

S3-3-1、获取所述待解析网站的特征决策分类结果对应待解析网站的HTML代码；

S3-3-2、利用所述待解析网站的特征决策分类结果作为映射基准；

S3-3-3、利用所述映射基准与待解析网站的HTML代码建立当前待解析网站的特征决策分类结果对应校对映射；

S3-3-4、利用所述校对映射建立前置验证库；

S3-3-5、利用所述前置验证库输出待解析网站的结构解析结果。

进一步的，利用所述前置验证库输出待解析网站的结构解析结果包括：

S3-3-5-1、判断当前校对映射在前置验证库中是否存在对应历史校对映射，若是，则执行S3-3-5-2，否则，直接输出当前校对映射对应特征决策分类结果作为待解析网站的结构解析结果；

S3-3-5-2、判断当前校对映射对应HTML代码与历史校对映射对应HTML代码是否相同，若是，则输出当前校对映射对应特征决策分类结果作为待解析网站的结构解析结果，否则，执行S3-3-5-3；

S3-3-5-3、判断当前校对映射对应HTML代码与历史校对映射对应HTML代码相互是否存在父子关系，若是，则输出当前校对映射对应特征决策分类结果作为待解析网站的结构解析结果，否则，返回S3-3-5-1。

与最接近的现有技术相比，本发明具有的有益效果：

通过常见分类算法，实现对网站结构的自动解析，减少人工干预，减少数据采集程序编写中技术人员对于页面结构解析的人工精力，做到降本增效，同时能够快速准确地提取目标数据，支持非专业人员进一步的数据分析和应用，提高数据利用效率。

附图说明

图1是本发明提供的一种基于决策树分类算法的融合模型网站结构解析方法的流程图；

图2是本发明提供的一种基于决策树分类算法的融合模型网站结构解析方法的实际应用流程图；

图3是本发明提供的一种基于决策树分类算法的融合模型网站结构解析方法的决策树分叉流程图；

图4是本发明提供的一种基于决策树分类算法的融合模型网站结构解析方法的决策树剪枝流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：本发明提供了一种基于决策树分类算法的融合模型网站结构解析方法，如图1所示，包括：

S1、基于DOM提取技术获取待解析网站的HTML代码；

S2、根据所述待解析网站的HTML代码获取对应解析元素特征；

S1具体包括：

S1-1、基于DOM提取技术获取待解析网站的初始HTML代码；

S1-2、判断所述初始HTML代码是否存在对应历史HTML代码，若是，则利用所述待解析网站的初始HTML代码与初始HTML代码对应历史HTML代码作为待解析网站的HTML代码，否则，直接输出待解析网站的初始HTML代码作为待解析网站的HTML代码。

S2具体包括：

S2-1、根据所述待解析网站的HTML代码获取待解析网站的文本数据；

S2-2、根据所述待解析网站的文本数据进行页面解析得到待解析网站的标签属性数据；

S2-3、利用所述待解析网站的文本数据与标签属性数据作为解析元素特征。

S2-2具体包括：

S2-2-1、获取待解析网站的网站标签；

S2-2-2、根据所述待解析网站的文本数据获取对应文本数据属性；

S2-2-3、利用所述待解析网站的网站标签与文本数据属性作为待解析网站的标签属性数据；

其中，所述网站标签包括页面标题、页面描述与关键词。

本实施例中，一种基于决策树分类算法的融合模型网站结构解析方法，选取页面标题、页面描述与关键词作为网站标签，基于通用TDK对网站进行评价并优化SEO效果，即网站标签指的是HTML文档中的元数据，主要包括页面标题（Tile)、页面描述（Description)、关键词(Keywords)等等，这些标签可以为搜索引擎Q提供关于网站内容的重要信息，有助于提高网站的SEO效果。

S3具体包括：

S3-1具体包括：

S3-1-3具体包括：

S3-1-3-3具体包括：

S3-1-3-3-1、根据所述历史HTML代码获取历史决策分类模型；

本实施例中，一种基于决策树分类算法的融合模型网站结构解析方法，所述模型结构相似度，将模型具象化拆解，考虑到模型中根节点、叶结点与各节点间连接路径，通过节点的分类情况与路径中传递数据，最终基于欧式距离公式计算获取模型结构相似度。

S3-3具体包括：

S3-3-4、利用所述校对映射建立前置验证库；

S3-3-5具体包括：

本实施例中，一种基于决策树分类算法的融合模型网站结构解析方法，所述当前映射与历史映射的对应状态判定可选取网站标签对应情况、网站文本属性对应情况等作为依据。

本实施例中，一种基于决策树分类算法的融合模型网站结构解析方法，在S3-3-5-3中判断相对应两个网站的HTML代码的前后级关系后，可得出校对映射对应、代码不一致且无前后顺序的两个网站存在不合理，在实际应用中存在算法执行报错，因此需要进行返回前序步骤再次筛选。

本实施例中，一种基于决策树分类算法的融合模型网站结构解析方法，如图2所示，在实际应用中由于代码容量问题，可将单一决策树分类模型根据其功能进行分别处理，例如，将文本数据与标签属性对应单独建立模型后，再进行融合也可达到目的，具体应用如下：

1.数据采集：通过DOM提取技术获取主流新闻站、社交站、论坛站HTML代码；

2.元素提取：从HTML代码中提取元素特征，具体如下：

（1）标签、属性：提取页面中的标签、属性内容；

（2）文本：页面中出现的文本内容；

3.数据标注：

（1）文本类型标注：将文本类型进行元素按照“标题”、“正文”、 “发布人”、“发布时间”、“评论”进行标注；

（2）将每个标签和属性与其对应的内容进行关联标注；

4.模型训练：

（1）将文本标注数据，单独进行文本分类算法模型训练，构建文本分类识别模型；

（2）利用决策树算法，对包含标签属性文本的关联标注内容进行训练，构建结构解析模型；

5、模型融合：将文本分类识别模型以及结构解析模型预测结果通过加权平均法进行模型融合；

6.模型解析：通过融合模型对目标网站进行解析，识别提取网站的结构信息；

7.数据提取和应用：根据解析得到的网站结构信息，快速准确地定位提取，帮助技术人员进行采集程序开发。

本实施例中，一种基于决策树分类算法的融合模型网站结构解析方法，如图3所示，上述方案中涉及决策树分叉过程，在网站结构解析应用中，以特征维度作为判断条件，然后构建其树形结构，最后一层一层地进行判断，可简化为二分叉流程：

1、在一级数据集中，文本数据可作为特征A进行第一次二分类筛选，推进到文本数据属性作为特征B进行第二次二分类筛选，最后到达标签属性数据作为特征C进行最后一次二分类筛选，在实际操作中通过放弃各次筛选中的负类结果提升了模型训练速度；

2、同时在标签属性中，又存在子一级筛选，如上述过程一致，逐级建立特征并去除负类因素。

本实施例中，一种基于决策树分类算法的融合模型网站结构解析方法，如图4所示，在所述决策分类模型初期建立完成后，需要对决策树进行剪枝处理，建立各独立特征与其后续步骤特征的二分类连续性关系，以提升各节点对于模型乃至最终分类结果的信息增益，实施代码如下：

## 从sklearn中导入决策树模型

from sklearn.tree import DecisionTreeClassifier

from sklearn import tree

## 定义决策树模型

clf = DecisionTreeClassifier(criterion='entropy')

# 在训练集上训练决策树模型

clf.fit(x_train, y_train)

#%% 可视化决策树

import pydotplus

dot_data = tree.export_graphviz(clf, out_file=None)

graph = pydotplus.graph_from_dot_data(dot_data)

graph.write_png("D:\Python\ML\DTpraTree.png")

#%% 在训练集和测试集上利用训练好的模型进行预测

train_predict = clf.predict(x_train)

test_predict = clf.predict(x_test)

from sklearn import metrics

由此进行可视化二分类剪枝训练，通过多层次训练集进一步提升模型效果，以达到最终精确的网站结构解析分类目的。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于决策树分类算法的融合模型网站结构解析方法，其特征在于，包括：

S1、基于DOM提取技术获取待解析网站的HTML代码；

S1-1、基于DOM提取技术获取待解析网站的初始HTML代码；

S1-2、判断所述初始HTML代码是否存在对应历史HTML代码，若是，则利用所述待解析网站的初始HTML代码与初始HTML代码对应历史HTML代码作为待解析网站的HTML代码，否则，直接输出待解析网站的初始HTML代码作为待解析网站的HTML代码；

S2、根据所述待解析网站的HTML代码获取对应解析元素特征；

S2-2-1、获取待解析网站的网站标签；

其中，所述网站标签包括页面标题、页面描述与关键词；

S2-3、利用所述待解析网站的文本数据与标签属性数据作为解析元素特征；

S3、利用所述解析元素特征基于决策树分类算法得到待解析网站的结构解析结果；

S3-1-3、利用所述一级数据集与二级数据集基于决策树分类算法建立决策分类模型；

S3-1-3-3、判断当前一级数据集与二级数据集对应待解析网站的HTML代码是否存在历史HTML代码，若是，则根据所述历史HTML代码获取历史决策分类模型，对第二初始决策分类模型进行校对处理得到决策分类模型，否则，直接输出第二初始决策分类模型作为决策分类模型；

S3-1-3-3-1、根据所述历史HTML代码获取历史决策分类模型；

其中，所述模型结构相似度为决策树分类模型中各节点与路径的相似度；

S3-2、利用所述解析元素特征带入决策分类模型得到待解析网站的特征决策分类结果；

2.如权利要求1所述的一种基于决策树分类算法的融合模型网站结构解析方法，其特征在于，利用所述待解析网站的特征决策分类结果得到待解析网站的结构解析结果包括：

S3-3-4、利用所述校对映射建立前置验证库；

3.如权利要求2所述的一种基于决策树分类算法的融合模型网站结构解析方法，其特征在于，利用所述前置验证库输出待解析网站的结构解析结果包括：