CN116881595B

CN116881595B - 一种可自定义的网页数据爬取方法

Info

Publication number: CN116881595B
Application number: CN202311141544.5A
Authority: CN
Inventors: 陈景宏; 孙斌
Original assignee: Jiangxi Dingyi Technology Development Co ltd
Current assignee: Jiangxi Dingyi Technology Development Co ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-12-15
Anticipated expiration: 2043-09-06
Also published as: CN116881595A

Abstract

本申请公开了一种可自定义的网页数据爬取方法，属于网页数据提取技术。该方法根据第一参考文本的第一词组识别文本块，提取该文本块的第二参考文本，从第二参考文本提取多个第二词组；再从第一资源池中逐一采集基础URL地址并生成文本内容，基于第二词组抓取文本内容的目标文本。同时，基于超文本抓取文本内容的多个引用URL地址并存储至第二资源池，循环读取引用URL地址的页面内容，实现二级链接的单独爬取。该方法实现参考文本的自定义，避免用户必须按照规则提供爬取对象。该方法还计算标签路径的文本路径比与修正文本路径比，为了避免自定义的参考文本影响标签路径的爬取精度。

Description

一种可自定义的网页数据爬取方法

技术领域

本申请涉及网页数据提取技术，尤其涉及一种可自定义的网页数据爬取方法。

背景技术

网页爬取技术可以帮助用户从目标网站中采集所需数据。目标网站存在非常多的噪声数据。为了提高爬虫准确性，CN201611037722.X的那种分布式爬虫引擎的URL抓取方法，根据已有噪声样本，将聚类结果的多个族进行相似度计算，依据相似度值去除噪声URL任务。该方法仅适用于同类型的网页重复爬取，不适用于网页中嵌入的其他类型URL的情形。CN202010114046.1公开了一种爬虫识别模型训练、爬虫识别方法，从目标对象中确定第一数量个第一爬虫链路和确定第二数量个第二爬虫链路，基于第一类标记样本、第二类标记样本以及未标记类样本进行半监督学习的模型训练，得到爬虫识别模型，再根据爬虫识别模型抓取页面数据。该方法要求首先确定爬取的目标对象，不适用于无法准确定义目标对象的情形。因此，现有技术又进一步改进的必要。

发明内容

针对上述问题，本发明提供了一种可自定义的网页数据爬取方法，通过分割页面内容的文本块确定用于提取目标文本的第二参考文本，无须直接提供符合规则的第二词组。进一步的，根据基础URL调整引用URL地址的节点权重参数，提高爬取二级URL的准确性。

本申请的发明目的可通过以下技术方案实现：

一种可自定义的网页数据爬取方法，包括以下步骤：

步骤1：输入用户定义的第一参考文本与超文本，从第一参考文本中提取多个第一词组；

步骤2：从第一资源池中逐一采集基础URL地址，根据基础URL地址访问目标网站，读取目标网站的页面内容；

步骤3：将该页面内容分割为多个文本块，根据第一词组识别至少一个文本块，提取该文本块的第二参考文本，从第二参考文本提取多个第二词组；

步骤4：将页面内容解析为HTML数据，再将HTML数据转化为DOM树，遍历DOM树上多个标签路径，计算标签路径的文本路径比；

步骤5：计算标签路径上任意节点的标点数量，根据文本权重计算任意节点的断句权重标准差，再计算修正文本路径比；

步骤6：根据任意修正文本路径比的有偏标准差设置核心文本阈值，提取修正文本路径比大于核心文本阈值的多个核心标签路径，抽取该核心标签路径的文本内容；

步骤7：基于第二词组抓取文本内容的目标文本，将该目标文本存储至本地存储器，根据核心标签路径提供的目标文本的频率调整节点权重；

步骤8：基于超文本抓取文本内容的多个引用URL地址，以基础URL地址为索引将引用URL地址存储至第二资源池；

步骤9：若第二资源池为空，进入步骤10，否则读取引用URL地址的页面内容，返回至步骤3；

步骤10：若第一资源池为空，爬取结束，否则返回至步骤2。

在本发明中，在步骤1中，将第一参考文本分割为多个待选词组，根据第一聚类条件选择多个待选词组为第一词组。

在本发明中，第一聚类条件为主题条件，生成任意待选词组的主题概率函数，计算第一参考文本属于任意主题的概率值，将概率值最大的目标主题存储为主题条件，将属于该主题条件的待选词组保存为第一词组。

在本发明中，在步骤3中，提取文本行间隙，在大于字符高度的文本行间隙生成分割线，根据文本间隙将页面内容分割为多个文本块。

在本发明中，在步骤3中，识别具有至少一个第一词组的文本块，将该文本块的第二参考文本分割为多个待选词组，根据第二聚类条件选择多个待选词组为第二词组。

在本发明中，所述第二聚类条件为词性条件，选择多个待选词组中的名词、动词、代词、形容词为第二词组。

在本发明中，在步骤4中，确定标签路径v的节点数量p，计算任意节点k的文本长度L_k，标签路径v的文本路径比为。

在本发明中，在步骤5中，节点k的标点数量为n_k，断句权重标准差，修正文本路径比S_v'= S_v×σ_v，/>为标签路径v的平均标点数量，W_k为节点k的文本权重。

在本发明中，在步骤6中，核心文本阈值=，/>为修正文本路径比值的平均值，有偏标准差/>，m为标签路径的数量。

在本发明中，在步骤7中，文本权重W_k = W_k×(1+ C×R×F_k)，C为节点k提供目标文本的频率，R指学习率，F_k指节点k的特征参数。

本发明的这种可自定义的网页数据爬取方法，具有以下有益效果：可以根据用户输入的第一参考文本聚类确定目标主题，从而确定第二参考文本以及作为爬取目标的第二词组，实现参考文本的自定义，避免用户必须按照规则提供爬取对象。进一步的，为了避免自定义的参考文本影响标签路径的爬取精度，本申请通过文本路径比的计算与修正，减少DOM树的噪声路径。通过超文本与第二资源池的设置，可以实现二级链接的单独爬取，提高同一URL地址下相似二级链接的爬取效率。

附图说明

图1为本发明可自定义的网页数据爬取方法的流程图；

图2为本发明提取第二词组的示意图；

图3为本发明的DOM树结构示意图；

图4为本发明将页面内容分割为多个文本块的流程图；

图5为本发明的分割线与文本块的示意图；

图6为本发明提取多个待选词组的流程图。

具体实施方式

为了更好地实现本发明，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例一

参照图1至图3所示的本发明优选的可自定义的网页数据爬取方法，主要由9个步骤组成：

步骤1：输入用户定义的第一参考文本与超文本，从第一参考文本中提取多个第一词组。第一参考文本例如是用户提供的文本段落或者文本片段，第一参考文本向本发明提供爬取目标的相关参考，但是不提供直接的爬取目标，适用于用户无法直接提供符合规则的爬取目标或者词组的情形，如图2所示，将第一参考文本分割为多个待选词组，根据第一聚类条件选择多个待选词组为第一词组。

第一聚类条件为主题条件，由于第一参考文本未直接给定主题，本实施例可以根据文本中各词组涉及的主题分类，确定隐含主题，首先生成任意待选词组的主题概率函数f(i，z)，i为待选词组的编号，z为词库的主题编号，计算第一参考文本属于主题z的概率值，将概率值最大的主题存储为主题条件，将属于该主题条件的待选词组保存为第一词组，在另一实施例中，可以选择概率值满足预设基准的多个主题为主题条件。

步骤2：从第一资源池中逐一采集基础URL地址，根据基础URL地址访问目标网站，读取目标网站的页面内容。第一资源池是指包含了待采集的基础URL地址的集合，这些基础URL地址是希望访问的目标网站的入口点或页面，使用编程语言来接入第一资源池，首先遍历第一资源池中的基础URL地址，对于每个基础URL地址使用网络请求库来发起HTTP请求，以访问目标网站，HTTP请求可以使用GET方法，并将基础URL地址为请求的一部分。

步骤3：将该页面内容分割为多个文本块，根据第一词组识别至少一个文本块，提取该文本块的第二参考文本，从第二参考文本提取多个第二词组。每个文本块是页面上的一个独立部分，具体实施时，首先提取文本行间隙，在大于字符高度的文本行间隙生成分割线，再根据文本间隙将页面内容分割为多个文本块，识别具有至少一个第一词组的文本块，将该文本块的第二参考文本分割为多个待选词组，根据第二聚类条件选择多个待选词组为第二词组。

步骤4：将页面内容解析为HTML数据，再将HTML数据转化为DOM树，遍历DOM树上多个标签路径，计算标签路径的文本路径比。具体实施时，将页面内容传递给HTML解析器解析为HTML数据结构，使用DOM解析器转化为DOM树，DOM树是由各种类型的节点组成的树状结构，表达了网页的结构和内容，如图3所示一种简化的DOM树，包含了文档根节点、超文本标记节点、目录节点、主体节点、元数据节点、题录节点、字符集节点、超链接引用节点、文本内容节点等节点。节点之间通过路径通道连接。本实施例通过统计算法，确定标签路径v的节点数量p，计算任意节点k的文本长度L_k，标签路径v的文本路径比为，文本长度可以以文本的字符数量表示。

步骤5：计算标签路径上任意节点的标点数量，根据文本权重计算任意节点的断句权重标准差，再计算修正文本路径比。由于DOM树中部分标签路径存在噪声数据，加上从第一参考文本逐步生成第二词组的数据丢失，可能造成爬虫准确性降低，为了避免自定义的参考文本影响标签路径的爬取精度，本申请通过文本路径比的计算与修正，减少DOM树的噪声标签。

本实施例先标记节点的标点符号，确定节点k的标点数量n_k，计算断句权重标准差，修正文本路径比S_v'= S_v×σ_v，/>为标签路径v的平均标点数量，W_k为节点k的文本权重，网页内容的有效节点的断句位置变化较大，标点符号数量通常差异较大，具有相对较高的权重值，反之，噪音标签的节点的标点符号数量通常差异较小，断句位置具有相似性。

步骤6：根据任意修正文本路径比的有偏标准差设置核心文本阈值，提取修正文本路径比大于核心文本阈值的多个核心标签路径，抽取该核心标签路径的文本内容。核心文本阈值用于提出修正文本路径比较小的噪声标签，也就是说将修正文本路径比大于核心文本阈值的标签路径视为核心标签路径，对于满足条件的核心标签路径，提取相应的文本内容，在本实施例中，核心文本阈值通过标准差获得，核心文本阈值=，/>为修正文本路径比值的平均值，有偏标准差/>，m为标签路径的数量。

步骤7：基于第二词组抓取文本内容的目标文本，将该目标文本存储至本地存储器，根据核心标签路径提供的目标文本的频率调整节点权重。找到与第二词组相关的目标文本，将抓取到的目标文本保存在本地计算机的存储器中，对于多次获得目标文本的节点，通过节点权重调整提高相应的文本路径比，避免该节点对应的标签路径被视为噪声路径。

步骤8：基于超文本抓取文本内容的多个引用URL地址，以基础URL地址为索引将引用URL地址存储至第二资源池。将提取到的引用URL地址存储到第二资源池中，逐步扩展第二资源池，获取更多的链接。

步骤9：若第二资源池为空，进入步骤10，否则读取引用URL地址的页面内容，返回至步骤3。具体实施过程中，首先检查第二资源池的状态，判断是否还有需要处理的页面内容，如果第二资源池中仍有未处理的页面内容，返回至步骤3，继续读取引用URL地址的页面内容，如果第二资源池中的内容已经处理完毕，进入步骤10，进一步的，节点权重处于不断迭代更新的状态，当第二资源池清空后，节点权重重新赋值1，第二资源池的多个引用URL地址具有同类型的节点与路径标签，该方法可以通过节点权重影响下一引用URL地址爬取过程中同类型的节点权重值，提高同一引用URL地址下相似二级链接的爬取效率。

步骤10：若第一资源池为空，爬取结束，否则返回至步骤2。当所有资源池中的内容都处理完毕后，结束流程，否则返回步骤2，读取下一基础URL地址的页面内容。

实施例二

参照图4、图5，本实施例进一步公开了将页面内容分割为多个文本块的方法，文本块的进度决定了参考文本的准确性，进而影响爬取结果的准确性。

步骤311：计算每行文本的底部坐标和下一行文本的顶部坐标之间的距离，测量单个字符的高度和行间距；

步骤312：检测相邻文本行之间的文本行间隙，通过比较文本行间隙与字符高度，判断是否存在大于字符高度的文本行间隙；

步骤313：在大于字符高度的文本行间隙生成分割线，以标识不同的文本块，如图5所示；

步骤314：基于生成的分割线，将页面内容分割为多个文本块，每个文本块代表一个独立的内容部分；

步骤315：通过像素检测或者语义识别检验分割线的准确性，保证文本块的末尾为文本结束位置。

实施例三

参照图6，本实施例进一步公开了提取多个待选词组的方法，该方法将第一参考文本的关键信息转化为具有实际参考价值的第二参考文本，这一过程不仅提高了数据爬取的准确性，增强了对网页内容的理解和应用能力。

步骤321：通过像素提取法将文本块的字符文本化，进行必要的文本处理和清洗，去除无意义的格式、符号、HTML标签，生成第二参考文本；

步骤322：在第二参考文本上进行适当的标注，标明其在页面中的位置信息、文本块的来源，将标注后的第二参考文本存储到数据存储器中，为后续的数据分析和应用提供支持；

步骤323：通过标点符号将第二参考文本分割为多个独立文本单元，再根据词库从第二参考文本识别出待选词组；

步骤324：第二聚类条件为词性条件，删除词性为副词、介词、连词、冠词、助词的待选词组，选择多个待选词组中的名词、动词、代词、形容词为第二词组；

步骤325：根据第二词组提取结果迭代和优化词库，以提高第二词组的准确性。

实施例四

节点权重用于表达从该节点获得目标文本的期望，通过调整节点权重可以不断优化修正标签路径比，从而降低有效文本被视为噪声路径的概率，本实施例进一步公开了调整节点权重的方法。

步骤71：对于任意类型的节点，初始化节点权重，W_k =1，本实施例不限制节点类型的定义，可以根据W3C的接口规范将节点分为Text、Element等；

步骤72：每完成一次抓取，文本权重W_k = W_k×(1+ C×R×F_lpc)，C为节点k提供目标文本的频率，R指学习率，F_k指节点k的特征参数，例如10次循坏爬取中，该节点8次获得目标文本，C=0.8，学习率用于调整迭代幅度，对于不同类型的节点可以设置不同的特征参数，Text节点的特征参数可以设置1，其他类型的节点的特征参数可以设置0.5至0.7；

步骤73：当前第二资源池为空时，初始化每一节点权重，W_k =1，在实际操作中，通过持续的迭代和优化，用户能够不断提升爬取的质量和准确性，这个迭代和优化过程是一个不断修正的过程，旨在从海量的页面内容中精准地捕捉与参考文本相关的内容。

实施例五

对于实施例一的步骤8，引用URL地址可以采用不同的存储方法，本实施例通过进一步处理引用URL地址，在避免重复的基础上确保引用URL地址完整性。

步骤81：从文本内容抓取引用URL地址后，使用解析工具提取这些URL地址，确保处理相对URL时进行合适的转换，使其成为完整的URL；

步骤82：删除无效或重复的引用URL地址，例如无效的URL格式、无法访问的URL等；

步骤83：根据引用URL地址的类型，将其与基础URL地址合并，最后以基础URL地址为索引，采用栈结构存储引用URL地址，每次读取引用URL地址后，删除栈结构的相应内容。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改，同替换和改进，均应包含在本发明的保护范围之内。

Claims

1.一种可自定义的网页数据爬取方法，其特征在于，包括以下步骤：

步骤10：若第一资源池为空，爬取结束，否则返回至步骤2，

其中，在步骤1中，将第一参考文本分割为多个待选词组，根据第一聚类条件选择多个待选词组为第一词组，第一聚类条件为主题条件，生成任意待选词组的主题概率函数，计算第一参考文本属于任意主题的概率值，将概率值最大的目标主题存储为主题条件，将属于该主题条件的待选词组保存为第一词组，

在步骤4中，确定标签路径v的节点数量p，计算任意节点k的文本长度L_k，标签路径v的文本路径比为，

在步骤5中，节点k的标点数量为n_k，断句权重标准差，修正文本路径比/>，/>为标签路径v的平均标点数量，W_k为节点k的文本权重，

在步骤6中，核心文本阈值=，/>为修正文本路径比值的平均值，有偏标准差， m为标签路径的数量。

2.根据权利要求1所述的可自定义的网页数据爬取方法，其特征在于，在步骤3中，提取文本行间隙，在大于字符高度的文本行间隙生成分割线，根据文本间隙将页面内容分割为多个文本块。

3.根据权利要求1所述的可自定义的网页数据爬取方法，其特征在于，在步骤3中，识别具有至少一个第一词组的文本块，将该文本块的第二参考文本分割为多个待选词组，根据第二聚类条件选择多个待选词组为第二词组。

4.根据权利要求1所述的可自定义的网页数据爬取方法，其特征在于，所述第二聚类条件为词性条件，选择多个待选词组中的名词、动词、代词、形容词为第二词组。

5.根据权利要求1所述的可自定义的网页数据爬取方法，其特征在于，在步骤7中，文本权重W_k = W_k×(1+ C×R×F_k)，C为节点k提供目标文本的频率，R指学习率，F_k指节点k的特征参数。