CN116719986B

CN116719986B - 基于Python的数据抓取方法、装置、设备及存储介质

Info

Publication number: CN116719986B
Application number: CN202311005951.3A
Authority: CN
Inventors: 郭健; 刘星星
Original assignee: Shenzhen Chuanqu Network Technology Co ltd
Current assignee: Shenzhen Chuanqu Network Technology Co ltd
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-12-26
Anticipated expiration: 2043-08-10
Also published as: CN116719986A

Abstract

本发明公开了一种基于Python的数据抓取方法、装置、设备及存储介质。该方法获取目标平台中网页公开的开源代码；利用Python编程语言开发的数据抓取脚本，提取开源代码中的数据字段和页面展示规则，并基于数据字段和页面展示规则构建网页请求发送给目标平台；获取目标平台基于网页请求渲染的页面内容，并利用Python编程语言开发的路径解析脚本，将页面内容转换为树状结构图，其中，树状结构图由不同类型的节点组成；利用Python编程语言开发的数据分析脚本，提取树状结构图中各节点的内容，并按照预设的任务规则对应的数据存储结构，将提取到的各节点的内容进行转换，得到目标数据。从而解决现有的数据抓取方案，抓取流程复杂且准确率低的问题。

Description

基于Python的数据抓取方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于Python的数据抓取方法、装置、设备及存储介质。

背景技术

网络爬虫是一种自动化程序，能够通过HTTP协议获取互联网上的信息并提取感兴趣的数据。它可以通过模拟浏览器行为发送请求、解析网页内容，并从中提取所需数据。

而现有的网络爬虫在模拟请求的时候需要把所有的通信流程都分析完成后才能通过请求，然后返回响应结果，中间的通信流程比较复杂。有的网络需要发送大量ajax请求，异步获取数据渲染到页面上，网络爬虫无法对异步请求及时的响应和处理。而且有的网站加入了反爬虫机制，普通的网络爬虫不太适用。

发明内容

本发明的主要目的在于解决现有的数据抓取方案，抓取流程复杂且准确率低的问题。

本发明第一方面提供了一种基于Python的数据抓取方法，所述方法包括：

从预设的数据抓取目标列表中，确定目标平台，并获取所述目标平台中网页的脚本，其中，所述脚本为所述网页中公开的开源代码；

利用Python编程语言开发的数据抓取脚本，提取所述开源代码中的数据字段和页面展示规则，并基于所述数据字段和所述页面展示规则构建网页请求发送给所述目标平台；

获取所述目标平台基于所述网页请求渲染的页面内容，并利用Python编程语言开发的路径解析脚本，将所述页面内容转换为树状结构图，其中，所述树状结构图由不同类型的节点组成；

利用Python编程语言开发的数据分析脚本，提取所述树状结构图中各节点的内容，并按照预设的任务规则对应的数据存储结构，将提取到的各节点的内容进行转换，得到目标数据。

可选的，在本发明第一方面的第一种实现方式中，所述基于所述数据字段和所述页面展示规则构建网页请求发送给所述目标平台，包括：

调用浏览器的驱动脚本，基于所述页面展示规则构建所述页面的抓取逻辑代码；

基于所述数据字段和所述驱动脚本构建所述开源代码的防御机制；

利用Python编程语言开发的数据抓取脚本，执行所述抓取逻辑代码和所述防御机制生成网页请求，并发送给所述目标平台。

可选的，在本发明第一方面的第二种实现方式中，所述数据字段包括：识别和处理验证码、处理动态渲染的页面Selenium配置项和代理IP地址、端口；

所述基于所述数据字段和所述驱动脚本构建所述开源代码的解御机制，包括：

识别所述驱动脚本中的代理IP字段和验证函数；

基于所述代理IP地址、端口和所述验证函数生成跳转函数；

将所述跳转函数替换所述驱动脚本代码中位于代理IP字段和验证函数之间的防伪判断逻辑，得到所述开源代码的解御机制。

可选的，在本发明第一方面的第三种实现方式中，所述利用Python编程语言开发的路径解析脚本，将所述页面内容转换为树状结构图，包括：

利用Python编程语言开发的路径解析脚本，提取所述页面内容的逻辑节点，其中所述逻辑节点包括元素节点，属性节点和文本节点中的至少一种；

使用路径表达式对所述逻辑节点进行分类遍历，并将同类别的逻辑节点基于父子关系构建路径；

对所述路径上的各个节点进行内容提取，并将提取到的内容与节点进行关联后转换为树状结构图。

可选的，在本发明第一方面的第四种实现方式中，Python编程语言开发的数据分析脚本为pandas数据分析工具，所述利用Python编程语言开发的数据分析脚本，提取所述树状结构图中各节点的内容，并按照预设的任务规则对应的数据存储结构，将提取到的各节点的内容进行转换，得到目标数据，包括：

利用所述pandas数据分析工具提取所述树状结构图中各节点的内容，并对提取到的内容进行预处理后提取不属于用户数据的内容，得到标准化结构的用户数据；

查询预设的格式转换库中，与所述目标平台对应的格式转换规则，并基于所述格式转换规则将所述用户数据转换为与预设的任务规则对应的数据存储结构对应的结构数据；

将所述结构数据按照路径进行关联整合后，输出至预设的用户数据分析模型中提取关键特征，并基于各路径中的各关键特征生成目标数据。

可选的，在本发明第一方面的第五种实现方式中，在所述按照预设的任务规则对应的数据存储结构，将提取到的各节点的内容进行转换，得到目标数据之后，还包括：

利用深度学习神经网络，基于所述目标数据进行深度挖掘，得到行为数据和偏好数据；

利用回归算法、聚类算法和分类算法，对所述行为数据和所述偏好数据依次进行回归、聚类和分类处理，得到所述目标数据的变化趋势；

基于所述变化趋势，利用Python编程语言的可视化绘图脚本创建可视化报告，并展示。

可选的，在本发明第一方面的第六种实现方式中，所述基于所述变化趋势，利用Python编程语言的可视化绘图脚本创建可视化报告，并展示包括：

使用Python编程语言的文档处理库，基于所述任务规则创建报告模板；

将所述变化趋势、所述行为数据和所述偏好数据，依次填充至所述报告模板中对应的区域上，生成最终的报告文档，并基于展示的渲染规则将所述报告文档渲染出网页页面进行展示。

本发明第二方面提供了基于Python的数据抓取装置，其特征在于，所述装置包括：

获取模块，用于从预设的数据抓取目标列表中，确定目标平台，并获取所述目标平台中网页的脚本，其中，所述脚本为所述网页中公开的开源代码；

请求模块，用于利用Python编程语言开发的数据抓取脚本，提取所述开源代码中的数据字段和页面展示规则，并基于所述数据字段和所述页面展示规则构建网页请求发送给所述目标平台；

数据提取模块，用于获取所述目标平台基于所述网页请求渲染的页面内容，并利用Python编程语言开发的路径解析脚本，将所述页面内容转换为树状结构图，其中，所述树状结构图由不同类型的节点组成；

转换模块，用于利用Python编程语言开发的数据分析脚本，提取所述树状结构图中各节点的内容，并按照预设的任务规则对应的数据存储结构，将提取到的各节点的内容进行转换，得到目标数据。

可选的，在本发明第二方面的第一种实现方式中，所述请求模块包括：

构建单元，用于调用浏览器的驱动脚本，基于所述页面展示规则构建所述页面的抓取逻辑代码；以及基于所述数据字段和所述驱动脚本构建所述开源代码的防御机制；

请求单元，用于利用Python编程语言开发的数据抓取脚本，执行所述抓取逻辑代码和所述防御机制生成网页请求，并发送给所述目标平台。

可选的，在本发明第二方面的第二种实现方式中，所述数据字段包括：识别和处理验证码、处理动态渲染的页面Selenium配置项和代理IP地址、端口；所述构建单元具体用于：

识别所述驱动脚本中的代理IP字段和验证函数；

基于所述代理IP地址、端口和所述验证函数生成跳转函数；

可选的，在本发明第二方面的第三种实现方式中，所述数据提取模块包括：

提取单元，用于利用Python编程语言开发的路径解析脚本，提取所述页面内容的逻辑节点，其中所述逻辑节点包括元素节点，属性节点和文本节点中的至少一种；

遍历单元，用于使用路径表达式对所述逻辑节点进行分类遍历，并将同类别的逻辑节点基于父子关系构建路径；

关联单元，用于对所述路径上的各个节点进行内容提取，并将提取到的内容与节点进行关联后转换为树状结构图。

可选的，在本发明第二方面的第四种实现方式中，Python编程语言开发的数据分析脚本为pandas数据分析工具，所述转换模块包括：

预处理单元，用于利用所述pandas数据分析工具提取所述树状结构图中各节点的内容，并对提取到的内容进行预处理后提取不属于用户数据的内容，得到标准化结构的用户数据；

转换单元，用于查询预设的格式转换库中，与所述目标平台对应的格式转换规则，并基于所述格式转换规则将所述用户数据转换为与预设的任务规则对应的数据存储结构对应的结构数据；

整合单元，用于将所述结构数据按照路径进行关联整合后，输出至预设的用户数据分析模型中提取关键特征，并基于各路径中的各关键特征生成目标数据。

可选的，在本发明第二方面的第五种实现方式中，所述装置还包括展示模块，用于：

可选的，在本发明第二方面的第六种实现方式中，所述展示模块具体用于：

本发明第三方面提供了一种计算机设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述计算机设备执行上述的基于Python的数据抓取方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于Python的数据抓取方法。

本发明的技术方案中，从预设的数据抓取目标列表中，确定目标平台，并获取所述目标平台中网页公开的开源代码；利用Python编程语言开发的数据抓取脚本，提取所述开源代码中的数据字段和页面展示规则，并基于所述数据字段和所述页面展示规则构建网页请求发送给所述目标平台；获取所述目标平台基于所述网页请求渲染的页面内容，并利用Python编程语言开发的路径解析脚本，将所述页面内容转换为树状结构图，其中，所述树状结构图由不同类型的节点组成；利用Python编程语言开发的数据分析脚本，提取所述树状结构图中各节点的内容，并按照预设的任务规则对应的数据存储结构，将提取到的各节点的内容进行转换，得到目标数据。通过Python编程语言开发出不同的脚本对目标平台的网页的开源代码进行特定的处理，从而准确地解析内容，解决现有的数据抓取方案，抓取流程复杂且准确率低的问题。

附图说明

图1为本发明实施例提供的基于Python的数据抓取方法的第一个实施例示意图；

图2为本发明实施例提供的基于Python的数据抓取方法的第二个实施例示意图；

图3为本发明实施例提供的基于Python的数据抓取装置的一个实施例示意图；

图4为本发明实施例提供的基于Python的数据抓取装置的另一个实施例示意图；

图5为本发明实施例提供的计算机设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于Python的数据抓取方法、装置、设备及存储介质，本发明的技术方案中，通过Python编程语言分别开发出数据抓取脚本、路径解析脚本和数据分析脚本，基于数据抓取脚本结合网页的的开源代码可以模拟发出请求获取页面内容，然后利用路径解析脚本对网页内容进行提取，以规避网页中的反爬虫机制，最后利用数据分析脚本对提取到页面内容的树状结构图中提取数据并转换为与任务规则对应的目标数据，这样的方法不仅可以提高爬取数据的成功率，减少被封锁或拦截的情况，从而更有效地获取所需数据，还无需频繁调整和修改代码，从而节省开发和维护成本。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于Python的数据抓取方法的第一个实施例包括：

101、从预设的数据抓取目标列表中，确定目标平台，并获取目标平台中网页的脚本，该脚本为所述网页中公开的开源代码。

可以理解的是，本发明的执行主体可以为基于Python的数据抓取装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

在本实施例中，所述数据抓取目标列表指的是待抓取数据的平台的资源地址，具体是通过用户预先设置得到，根据用户的数据抓取需求解析出数据所在的网页或者平台，然后获取该网页或者平台公开的链接地址，然后将链接地址存储到数据抓取目标列表中，优选的，该数据抓取目标中同时存储有多个目标。

本实施例中，接收用户基于移动终端下发数据抓取请求，其中该移动终端中安装有服务器远程启动配件，当然也可以是移动终端通过远程的方式访问服务器，基于服务器上数据抓取的控制界面触发的数据抓取请求。

在实际应用中，服务器中中安装有数据抓取插件，例如网络爬虫工具，该工具是在获取授权或者不涉及隐私的前提下抓取各网页或者平台的数据，用户通过移动终端登录该插件的地址，并调取出该插件的操作页面，通过在操作页面上对应的目标区域上添加目标平台或者网页的链接地址，然后触发抓取控件，服务器响应该抓取控件的触发操作，基于添加的链接地址生成请求。

在接收到请求后，基于链接地址从数据抓取列表中查询出对应的目标平台，并基于该链接地址访问目标平台，以调取出该目标平台的网页，然后利用代码提取工具，解析出该网页的脚本，优选的是提取该网页在浏览器中的开源代码，即是公开的部分代码。

进一步的，在解析出开源代码后，基于模拟工具执行该开源代码，基于模拟执行的结果筛选出开源代码中的设有反爬虫防御的代码段和不设有反爬虫防御的代码段，并进行标注。

102、利用Python编程语言开发的数据抓取脚本，提取开源代码中的数据字段和页面展示规则，并基于数据字段和页面展示规则构建网页请求发送给目标平台。

在本实施例中，利用Python编程语言开发的数据抓取脚本模拟浏览器驱动，并基于模拟的浏览器驱动运行所述开源代码，以生成目标页面，然后通过数据抓取脚本获取目标页面的响应消息，基于响应消息的反馈类型来确定该响应消息是数据字段响应还是展示响应，该反馈类型可以理解为是响应消息返回的协议类型或者是函数类型，基于此来对响应消息做分类，然后基于响应消息的协议类型或者是函数类型来匹配开源代码中的代码段，从而提取出其中的数据字段和页面展示规则。

进一步的，基于响应消息的反馈类型，利用Python编程语言和相关的库requests来发送HTTP请求。具体的，基于响应消息返回的协议类型或者是函数类型从相关的库中匹配出对应的请求函数，基于请求函数模拟用户对目标平台的登录操作，以生成网页请求。

103、获取目标平台基于网页请求渲染的页面内容，并利用Python编程语言开发的路径解析脚本，将页面内容转换为树状结构图，该树状结构图由不同类型的节点组成。

该步骤中，调用Python编程语言开发的数据抓取脚本基于链接地址，从目标平台中采集基于网页请求所展示的页面，并提取页面中的内容得到页面内容。

进一步的，采集到页面后，调用浏览器的驱动进行反向解析，对页面进行解码，得到页面的代码数据，基于代码数据提取用户的相关数据，得到页面内容。

本实施例中，在得到页面内容后，调用Python编程语言开发的路径解析脚本提取页面内容的代码框架，基于代码框架解析出页面的连接节点和连接节点之间的层级、跳转关系，然后基于连接节点的层级、跳转关系将网页内容提取并转换为树状结构图。

104、利用Python编程语言开发的数据分析脚本，提取树状结构图中各节点的内容，并按照预设的任务规则对应的数据存储结构，将提取到的各节点的内容进行转换，得到目标数据。

本实施例中，在提取树状结构图中各节点的内容时，具体是基于路径解析脚本提取到的路径来依次提取，即是依次识别树状结构图中不同路径的节点，然后基于路径逐一对路径中的节点进行内容提取。

获取数据分析任务请求，基于该请求得到任务规则，该任务规则包括数据格式和数据类型，基于所述数据类型对提取到的内容进行筛选，得到目标内容，识别所述目标内容的数据格式，并按照任务规则中的数据格式进行转换，得到目标数据。

综上，本实施例通过Python编程语言分别开发出数据抓取脚本、路径解析脚本和数据分析脚本，基于数据抓取脚本结合网页的的开源代码可以模拟发出请求获取页面内容，然后利用路径解析脚本对网页内容进行提取，以规避网页中的反爬虫机制，最后利用数据分析脚本对提取到页面内容的树状结构图中提取数据并转换为与任务规则对应的目标数据，这样的方法不仅可以提高爬取数据的成功率，减少被封锁或拦截的情况，从而更有效地获取所需数据，还无需频繁调整和修改代码，从而节省开发和维护成本。

请参阅图2，本发明实施例中基于Python的数据抓取方法的第二个实施例包括：

201、从预设的数据抓取目标列表中，确定目标平台，并获取目标平台中网页的脚本，该脚本为所述网页中公开的开源代码。

202、利用Python编程语言开发的数据抓取脚本，提取开源代码中的数据字段和页面展示规则，并基于数据字段和页面展示规则构建网页请求发送给目标平台。

在本实施例中，所述基于所述数据字段和所述页面展示规则构建网页请求发送给所述目标平台，包括：

在实际应用中，在生成网页请求具体是首先将提取到的数据字段和页面展示规则结合开源代码，将目标平台的页面转译出HTML或XML页面，然后使用Python编程语言和相关的库XPath等来解析HTML或XML页面，得到页面的运行逻辑，并将该运行逻辑转换为数据抓取脚本可解析的数据格式，从中提取逻辑相关的函数。

最后基于提取到的逻辑相关的函数和数据字段，使用代理IP进行请求，或采取其他反反爬虫策略来规避网站的反爬虫机制。

具体的，所述数据字段包括：识别和处理验证码、处理动态渲染的页面Selenium配置项和代理IP地址、端口。基于所述数据字段和所述驱动脚本构建所述开源代码的防御机制，包括：

识别所述驱动脚本中的代理IP字段和验证函数；

基于所述代理IP地址、端口和所述验证函数生成跳转函数；

在实际应用中，先安装Python开发环境和selenium，调用Python环境安装WebDriver浏览器驱动，并识别出WebDriver中的代理IP字段和验证函数，然后使用代理Ip、端口、隐藏selenium配置项或控制事，得到跳转函数，即是基于该跳转函数来打开的浏览器，从而解决反爬虫机制，即使构建出了解御机制。

203、获取目标平台基于网页请求渲染的页面内容，并利用Python编程语言开发的路径解析脚本，将页面内容转换为树状结构图，该树状结构图由不同类型的节点组成。

在一实施方式中，所述利用Python编程语言开发的路径解析脚本，将所述页面内容转换为树状结构图，包括：

其中，该路径表达式可以有以下表格中的表达式：

基于上述的表达式构建出不同的路径表达式，具体如下：

依次利用上述表格中的路径表达式依次遍历页面内容提取到的逻辑节点，解析出各逻辑节点的类型，基于类型对逻辑节点进行归类，并基于解析的跳转关系进行关联，得到路径。

进一步的，基于路径对各节点进行内容提取，具体的对节点进行数据提取、解析和清洗。它使用Python编程语言和相关的库（如BeautifulSoup、正则表达式等）来处理HTML、XML或其他数据格式，提取有用的信息，并将其转换为结构化的数据。

在实际应用中，对于数据清洗可以是使用Python编程语言和相关的库BeautifulSoup来解析HTML、XML或其他数据格式，并从中提取所需的数据。如去除无效数据、处理缺失值、统一数据格式等。

204、利用Python编程语言开发的数据分析脚本，提取树状结构图中各节点的内容，并按照预设的任务规则对应的数据存储结构，将提取到的各节点的内容进行转换，得到目标数据。

本实施例中，Python编程语言开发的数据分析脚本为pandas数据分析工具，该步骤具体通过利用所述pandas数据分析工具提取所述树状结构图中各节点的内容，并对提取到的内容进行预处理后提取不属于用户数据的内容，得到标准化结构的用户数据；

在实际应用中，使用Python编程语言和相关的库pandas对数据进行转换、处理和计算，以满足后续数据分析的需求。同时，该模块负责将转换后的数据存储到适当的存储介质中，如数据库MySQL、文件系统或云存储。此外，还可以使用代码利用WebDriver组件启动浏览器，运行逻辑代码，将抓取到的有用数据存储到数据库或者Excel、记事本等文档存储工具。

在本实施例中，在提取到目标数据后，将目标数据存储到数据库中或从数据库中检索数据。它使用Python编程语言和相关的数据库驱MySQL Connector来连接数据库，执行插入、查询、更新和删除等操作。

其中，将数据存储到文件系统中，如将数据保存为文本文件、CSV文件、JSON文件等。它使用Python编程语言提供的文件操作函数和相关库来创建、写入和读取文件，以及管理文件的存储和访问。

其中，将数据存储到云存储服务中，如Amazon S3、阿里云OSS等。它使用Python编程语言和云存储服务提供的API来上传、下载和管理数据，以实现可扩展的数据存储和访问。

205、利用深度学习神经网络，基于目标数据进行深度挖掘，得到行为数据和偏好数据。

具体的，使用Python编程语言和数据分析库pandas，对存储的数据进行进一步的分析、计算和建模。它可以应用各种统计分析、机器学习算法等来挖掘数据中的模式、趋势和关联。

在实际应用中，通过Python编程语言和数据分析库pandas构建一个网络模型，利用该网络模型和任务中的需求对目标数据进行正向和逆向的挖掘，以拓展同一关键词。

206、利用回归算法、聚类算法和分类算法，对行为数据和偏好数据依次进行回归、聚类和分类处理，得到目标数据的变化趋势。

该步骤中，通过建模的方式来对行为数据和偏好数据进行回归、聚类和分类处理。在处理完成后，将处理后的行为数据和偏好数据与预设的用户数据的变化趋势库进行匹配，当然也可以通过计算两者的相似度来确定变化趋势。

207、基于变化趋势，利用Python编程语言的可视化绘图脚本创建可视化报告，并展示。

具体的，使用Python编程语言的文档处理库，基于所述任务规则创建报告模板；将所述变化趋势、所述行为数据和所述偏好数据，依次填充至所述报告模板中对应的区域上，生成最终的报告文档，并基于展示的渲染规则将所述报告文档渲染出网页页面进行展示。

具体的，基于变化趋势将页面内容进行可视化展示，如使用Python编程语言和相关的可视化库Matplotlib来创建图表、图形界面或交互式可视化，以便用户更好地理解和利用分析结果。

进一步的，将生成数据分析报告或其他形式的结果文档，使用Python编程语言和相关的文档处理库Jupyter Notebook来创建报告模板、填充数据分析结果，并生成最终的报告文档。这样可以将数据分析结果整理成结构化的报告，便于分享、交流和存档。

本实施例对上述提供的方法的实施例，通过针对不同的反爬虫机制采取相应的对策，可以提高爬取数据的成功率，减少被封锁或拦截的情况，从而更有效地获取所需数据。

采用动态数据解析方法可以适应数据格式和结构的变化，使爬虫代码更具灵活性和适应性，无需频繁调整和修改代码，从而节省开发和维护成本。

遵守数据隐私法规和采用数据保护措施，可以有效保护用户隐私，减少数据泄露的风险，增强数据的安全性和合规性。

通过数据清洗、去重和验证等措施，可以提高爬取数据的质量和可信度，减少错误和重复数据的影响，使得分析结果更加准确和可靠。

采用分布式爬虫系统和存储方案，可以提高爬取和处理大规模数据的效率，减少资源消耗，同时更好地管理和存储大量数据，提高系统的可扩展性和性能。

综上所述，该方法可以带来多方面的好处，包括提高数据获取的成功率、数据质量和可信度，保护用户隐私和数据安全，提升爬取效率和存储管理，并降低法律风险和合规风险。这些好处将有助于更好地应用爬虫技术来获取和分析各大平台用户数据系统，从中获取洞察和价值。

上面对本发明实施例中基于Python的数据抓取方法进行了描述，下面对本发明实施例中基于Python的数据抓取装置进行描述，请参阅图3，本发明实施例中基于Python的数据抓取装置一个实施例包括：

获取模块310，用于从预设的数据抓取目标列表中，确定目标平台，并获取所述目标平台中网页的脚本，其中，所述脚本为所述网页中公开的开源代码；

请求模块320，用于利用Python编程语言开发的数据抓取脚本，提取所述开源代码中的数据字段和页面展示规则，并基于所述数据字段和所述页面展示规则构建网页请求发送给所述目标平台；

数据提取模块330，用于获取所述目标平台基于所述网页请求渲染的页面内容，并利用Python编程语言开发的路径解析脚本，将所述页面内容转换为树状结构图，其中，所述树状结构图由不同类型的节点组成；

转换模块340，用于利用Python编程语言开发的数据分析脚本，提取所述树状结构图中各节点的内容，并按照预设的任务规则对应的数据存储结构，将提取到的各节点的内容进行转换，得到目标数据。

本发明实施例中，通过Python编程语言分别开发出数据抓取脚本、路径解析脚本和数据分析脚本，基于数据抓取脚本结合网页的的开源代码可以模拟发出请求获取页面内容，然后利用路径解析脚本对网页内容进行提取，以规避网页中的反爬虫机制，最后利用数据分析脚本对提取到页面内容的树状结构图中提取数据并转换为与任务规则对应的目标数据，这样的方法不仅可以提高爬取数据的成功率，减少被封锁或拦截的情况，从而更有效地获取所需数据，还无需频繁调整和修改代码，从而节省开发和维护成本。

请参阅图4，本发明实施例中基于Python的数据抓取装置的另一个实施例包括：

在本实施例中，所述请求模块320包括：

构建单元321，用于调用浏览器的驱动脚本，基于所述页面展示规则构建所述页面的抓取逻辑代码；以及基于所述数据字段和所述驱动脚本构建所述开源代码的防御机制；

请求单元322，用于利用Python编程语言开发的数据抓取脚本，执行所述抓取逻辑代码和所述防御机制生成网页请求，并发送给所述目标平台。

在本实施例中，所述数据字段包括：识别和处理验证码、处理动态渲染的页面Selenium配置项和代理IP地址、端口；所述构建单元321具体用于：

识别所述驱动脚本中的代理IP字段和验证函数；

基于所述代理IP地址、端口和所述验证函数生成跳转函数；

在本实施例中，所述数据提取模块330包括：

提取单元331，用于利用Python编程语言开发的路径解析脚本，提取所述页面内容的逻辑节点，其中所述逻辑节点包括元素节点，属性节点和文本节点中的至少一种；

遍历单元332，用于使用路径表达式对所述逻辑节点进行分类遍历，并将同类别的逻辑节点基于父子关系构建路径；

关联单元333，用于对所述路径上的各个节点进行内容提取，并将提取到的内容与节点进行关联后转换为树状结构图。

在本实施例中，Python编程语言开发的数据分析脚本为pandas数据分析工具，所述转换模块340包括：

预处理单元341，用于利用所述pandas数据分析工具提取所述树状结构图中各节点的内容，并对提取到的内容进行预处理后提取不属于用户数据的内容，得到标准化结构的用户数据；

转换单元342，用于查询预设的格式转换库中，与所述目标平台对应的格式转换规则，并基于所述格式转换规则将所述用户数据转换为与预设的任务规则对应的数据存储结构对应的结构数据；

整合单元343，用于将所述结构数据按照路径进行关联整合后，输出至预设的用户数据分析模型中提取关键特征，并基于各路径中的各关键特征生成目标数据。

在本实施例中，所述装置还包括展示模块350，用于：

在本实施例中，所述展示模块350具体用于：

本发明实施例通过实施上述装置，提高数据获取的成功率、数据质量和可信度，保护用户隐私和数据安全，提升爬取效率和存储管理，并降低法律风险和合规风险。这些好处将有助于更好地应用爬虫技术来获取和分析各大平台用户数据系统，从中获取洞察和价值。

上面图3和图4从模块化功能实体的角度对本发明实施例中的基于Python的数据抓取装置进行详细描述，下面从硬件处理的角度对本发明实施例中计算机设备进行详细描述。

图5是本发明实施例提供的一种计算机设备的结构示意图，该快件分拣设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）510（例如，一个或一个以上处理器）和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530（例如一个或一个以上海量存储设备）。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对计算机设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在计算机设备500上执行存储介质530中的一系列指令操作。

计算机设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述的基于Python的数据抓取方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于Python的数据抓取方法，其特征在于，所述方法包括：

利用Python编程语言开发的数据分析脚本，提取所述树状结构图中各节点的内容，并按照预设的任务规则对应的数据存储结构，将提取到的各节点的内容进行转换，得到目标数据；

其中，所述基于所述数据字段和所述页面展示规则构建网页请求发送给所述目标平台，包括：调用浏览器的驱动脚本，基于所述页面展示规则构建所述页面的抓取逻辑代码；基于所述数据字段和所述驱动脚本构建所述开源代码的防御机制；利用Python编程语言开发的数据抓取脚本，执行所述抓取逻辑代码和所述防御机制生成网页请求，并发送给所述目标平台；所述数据字段包括：识别和处理验证码、处理动态渲染的页面Selenium配置项和代理IP地址、端口；

所述基于所述数据字段和所述驱动脚本构建所述开源代码的解御机制，包括：识别所述驱动脚本中的代理IP字段和验证函数；基于所述代理IP地址、端口和所述验证函数生成跳转函数；将所述跳转函数替换所述驱动脚本代码中位于代理IP字段和验证函数之间的防伪判断逻辑，得到所述开源代码的解御机制；

所述利用Python编程语言开发的路径解析脚本，将所述页面内容转换为树状结构图，包括：利用Python编程语言开发的路径解析脚本，提取所述页面内容的逻辑节点，其中所述逻辑节点包括元素节点，属性节点和文本节点中的至少一种；使用路径表达式对所述逻辑节点进行分类遍历，并将同类别的逻辑节点基于父子关系构建路径；对所述路径上的各个节点进行内容提取，并将提取到的内容与节点进行关联后转换为树状结构图。

2.根据权利要求1所述的基于Python的数据抓取方法，其特征在于，Python编程语言开发的数据分析脚本为pandas数据分析工具，所述利用Python编程语言开发的数据分析脚本，提取所述树状结构图中各节点的内容，并按照预设的任务规则对应的数据存储结构，将提取到的各节点的内容进行转换，得到目标数据，包括：

3.根据权利要求1或2所述的基于Python的数据抓取方法，其特征在于，在所述按照预设的任务规则对应的数据存储结构，将提取到的各节点的内容进行转换，得到目标数据之后，还包括：

4.根据权利要求3所述的基于Python的数据抓取方法，其特征在于，所述基于所述变化趋势，利用Python编程语言的可视化绘图脚本创建可视化报告，并展示包括：

5.一种基于Python的数据抓取装置，其特征在于，所述装置包括：

转换模块，用于利用Python编程语言开发的数据分析脚本，提取所述树状结构图中各节点的内容，并按照预设的任务规则对应的数据存储结构，将提取到的各节点的内容进行转换，得到目标数据；

6.一种计算机设备，其特征在于，所述基于Python的数据抓取设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述计算机设备执行如权利要求1-4中任一项所述的基于Python的数据抓取方法。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的基于Python的数据抓取方法。