CN116975410A

CN116975410A - 网页数据采集方法、装置、电子设备及可读存储介质

Info

Publication number: CN116975410A
Application number: CN202311226541.1A
Authority: CN
Inventors: 贾敬伍; 张�杰; 于皓
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-10-31
Anticipated expiration: 2043-09-22
Also published as: CN116975410B

Abstract

本发明公开了一种网页数据采集方法、装置、电子设备及可读存储介质，涉及数据处理技术领域，以解决网络数据采集的成本较高的问题。该方法包括：基于第一网页的地址获取所述第一网页对应的目标网页代码；基于所述目标网页代码和目标模板生成目标提示词，所述目标提示词用于提示大模型执行基于所述目标网页代码提取目标数据的任务；将所述目标提示词输入大模型进行处理，得到所述目标数据。本发明实施例可降低网络数据采集的成本，提高网络数据采集的效率。

Description

网页数据采集方法、装置、电子设备及可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种网页数据采集方法、装置、电子设备及可读存储介质。

背景技术

在当今信息爆炸的时代，网络上的数据量巨大，在许多领域均需要从网络上获取数据，而网页结构通常较为复杂，一个网页可能包括多个子页的链接，不同网页的结构也不同。现有技术中通过传统的网络爬虫进行网络数据的采集，网络爬虫又称为网页蜘蛛或网络机器人，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

在使用网络爬虫进行数据采集的过程中，需要分析网页的结构和内容，并根据网页分析结果设计相应的规则，以提取所需的数据。针对不同的网页结构，网络爬虫需要制定不同的规则，使得网络数据采集的成本较高。

发明内容

本发明实施例提供一种网页数据采集方法、装置、电子设备及可读存储介质，以解决网络数据采集的成本较高的问题。

第一方面，本发明实施例提供了一种网页数据采集方法，包括：

基于第一网页的地址获取所述第一网页对应的目标网页代码；

基于所述目标网页代码和目标模板生成目标提示词，所述目标提示词用于提示大模型执行基于所述目标网页代码提取目标数据的任务；

将所述目标提示词输入大模型进行处理，得到所述目标数据。

可选地，所述目标网页代码在前端分为K个网页进行展示，所述基于所述目标网页代码和目标模板生成目标提示词，包括：

确定所述目标网页代码对应的K的取值，所述K个网页包括所述第一网页和K-1个第二网页，K为大于1的正整数；

基于所述第一网页的地址生成K-1个第二网页的地址；

基于所述K个网页中每一个网页的地址获取每一个网页包含的子页的地址；

对于所述K个网页中每一个网页包含的子页，基于所述子页的地址获取所述子页的网页代码，其中，所述目标网页代码包括所述K个网页中每一个网页包含的子页的网页代码；

将所述K个网页中每一个网页包含的子页的网页代码分别与目标模板进行拼接，生成对应的目标提示词。

可选地，所述基于所述K个网页中每一个网页的地址获取每一个网页包含的子页的地址，包括：

基于所述K个网页中每一个网页的地址获取所述K个网页中每一个网页的网页代码；

将所述K个网页中每一个网页的网页代码分别与第一预设模板进行拼接，得到K个第一提示词，所述第一提示词用于提示大模型执行提取网页包含的子页的地址的任务；

将所述K个第一提示词输入大模型进行处理，得到所述K个网页中每一个网页包含的子页的地址。

可选地，所述确定所述目标网页代码对应的K的取值，包括：

将所述目标网页代码与第二预设模板进行拼接，得到第二提示词，所述第二提示词用于提示大模型执行基于目标网页代码提取页码范围的任务；

将所述第二提示词输入大模型进行处理，得到所述页码范围；

基于所述页码范围确定K的取值。

可选地，所述将所述目标提示词输入大模型进行处理，得到所述目标数据之后，所述方法还包括：

将所述目标数据与内容数据进行整合，得到数据集合，所述内容数据通过对所述目标网页代码进行解析得到。

可选地，所述基于第一网页的地址获取所述第一网页对应的目标网页代码，包括：

基于第一网页的地址确定所述第一网页对应的原始网页代码；

对所述原始网页代码进行解析处理，得到网页结构；

基于所述网页结构对所述原始网页代码进行切片，得到目标网页代码。

可选地，所述基于所述网页结构对所述原始网页代码进行切片，得到目标网页代码，包括：

将所述网页结构与第三预设模板进行拼接得到第三提示词，所述第三提示词用于提示大模型执行基于所述网页结构确定所述目标网页代码的主体信息的分布位置的任务；

将所述第三提示词输入大模型进行处理，得到索引标签，所述索引标签用于标识所述目标网页代码的主体信息的分布位置；

基于所述索引标签对所述原始网页代码进行切片，得到目标网页代码。

第二方面，本发明实施例还提供一种网页数据采集装置，包括：

获取模块，用于基于第一网页的地址获取所述第一网页对应的目标网页代码；

生成模块，用于基于所述目标网页代码和目标模板生成目标提示词，所述目标提示词用于提示大模型执行基于所述目标网页代码提取目标数据的任务；

处理模块，用于将所述目标提示词输入大模型进行处理，得到所述目标数据。

第三方面，本发明实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；所述处理器，用于读取存储器中的程序实现如第一方面所述的网页数据采集方法中的步骤。

第四方面，本发明实施例还提供一种可读存储介质，用于存储程序，所述程序被处理器执行时实现如第一方面所述的网页数据采集方法中的步骤。

在本申请实施例中，基于第一网页的地址获取第一网页对应的目标网页代码；基于目标网页代码和目标模板生成目标提示词；将目标提示词输入大模型进行处理，得到目标数据。通过上述方法，利用大模型进行智能网络爬取，从而获取所需的数据，普遍地适用于不同网页结构的网页，降低了数据采集的成本，提高了数据采集的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的网页数据采集方法的流程图之一；

图2是本发明实施例提供的网页数据采集方法的流程图之二；

图3是本发明实施例提供的网页数据采集装置的结构图之一；

图4是本发明实施例提供的网页数据采集装置的结构图之二；

图5是本发明实施例提供的电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，本发明实施例提供了一种网页数据采集方法，可以应用于对互联网上的数据进行采集的场景中，对网页数据进行采集也可以称为对网页数据进行智能爬取。

图1是本发明实施例提供的网页数据采集方法的流程图之一，如图1所示，所述方法具体包括以下步骤：

步骤101，基于第一网页的地址获取所述第一网页对应的目标网页代码。

第一网页的地址可以为人工获取或自动提取的。示例性地，针对数据采集所应用的领域，筛选若干相关网站，并人工获取其中某个待处理网页的地址。在具体实现时，网页的地址的具体形式在此不做限定。示例性地，网页的地址为网页的统一资源定位系统(Uniform Resource Locator，URL)链接，或直接称为网页的URL。

作为一种可选的实施方式，第一网页对应的目标网页代码为原始网页代码，其中，原始网页代码为第一网页对应的整个网页代码。

作为另一种可选的实施方式，所述步骤101包括：

对所述原始网页代码进行解析处理，得到网页结构；

利用第一网页的地址，通过网络请求得到其整个网页代码，即原始网页代码，原始网页代码中包含网页结构和文字内容等全部信息。利用超文本标记语言(Hyper TextMarkup Language，HTML)解析器(如BeautifulSoup等，BeautifulSoup为可以从HTML或可扩展标记语言(eXtensible Markup Language，XML)文件中提取数据的程序)对原始网页代码进行解析处理得到网页结构。基于网页结构对原始网页代码进行切片，去除原始网页代码中与主体信息无关的代码，得到目标网页代码。

在本实施方式中，基于第一网页的地址得到第一网页对应的原始网页代码；对原始网页代码进行解析处理，得到网页结构；基于网页结构对原始网页代码进行切片，得到目标网页代码。通过对原始网页代码进行切片可以删除完整网页代码中冗余的部分，使得到的目标网页代码体量变小，减小后续大模型进行处理的数据量，提高数据采集的速度。

可选地，在一些实施例中，所述基于所述网页结构对所述原始网页代码进行切片，得到目标网页代码，包括：

第三预设模板为预先构建的，第三预设模板用于提示大模型执行确定网页代码的主体信息的分布位置的任务。进一步地，第三预设模板还可以提示大模型返回数据的类型和返回数据的格式等。

将网页结构与第三预设模板进行拼接可以理解为，将网页结构填入第三预设模板的相应位置，得到第三提示词，从而使得第三提示词可以提示大模型执行基于网页结构确定目标网页代码的主体信息的分布位置的任务。

将第三提示词输入大模型，大模型根据第三提示词的提示执行相应的任务，得到索引标签。通过索引标签可以标识目标网页代码的主体信息的起始位置和结束位置，基于索引标签对原始网页代码进行切片，仅保留起始位置和结束位置中间的网页代码，即可得到目标网页代码。

举例来说，第三预设模板示例如下：

f "任务：依据网页结构确定该网页中主体信息的分布，并将其起始、结束节点的标签作为位置索引进行返回。\n网页结构如下：\n{ }\n请将网页结构的索引以列表(list)数据类型返回：[起始标签，结束标签]"。

将网页结构填入第三预设模板预留的相应位置，即可得到第三提示词。将网页结构记为html_tree，得到的第三提示词示例如下：

f "任务：依据网页结构确定该网页中主体信息的分布，并将其起始、结束节点的标签作为位置索引进行返回。\n网页结构如下：\n{html_tree}\n请将网页结构的索引以list数据类型返回：[起始标签，结束标签]"。

应理解的是，在本发明实施例的各种模板示例中，“/n”仅为实际应用的代码中具有标识或分割等作用的字符。

在本实施例中，将网页结构与第三预设模板进行拼接得到第三提示词，将第三提示词输入大模型进行处理，得到索引标签，基于索引标签对原始网页代码进行切片，得到目标网页代码。通过上述方法，利用大模型进行代码切片可以适用于不同的网页结构，快速得到主体信息的分布位置，提高代码切片的效率和便捷性。

当然，在另一些实施例中，也可以针对当前的网页结构预先设计相应的切片规则，基于切片规则对原始网页代码进行切片，得到目标网页代码。

步骤102，基于所述目标网页代码和目标模板生成目标提示词，所述目标提示词用于提示大模型执行基于所述目标网页代码提取目标数据的任务。

应理解的是，在采集不同领域的数据时，根据不同领域数据的关注点不同，目标数据包含的内容可以相应的进行调整和设置。目标模板为预先构建的，目标模板用于提示大模型执行提取目标数据的任务。进一步地，目标模板还可以提示大模型目标数据包含的内容、返回数据的类型和返回数据的格式等。

在一些情况下，第一网页内不包含子页，因此可以直接在第一网页内采集目标数据。在这种情况下，可以将目标网页代码与目标模板进行拼接得到目标提示词。

举例来说，目标模板示例如下：

f"任务：通过网页html文本，识别出文章信息，包括每个文章的标题title、时间戳datatime和信息来源source。\n要求：不要抽取本页的导航项，不得编造信息。\n 网页代码:\n{ }\n\n任务重申：通过网页html文本，提取文章信息，包括文章的标题(title)、时间戳(datatime)和信息来源(source)。注意：不要任何解释和说明，只需要以list数据类型返回结果。"。

将目标网页代码填入目标模板预留的相应位置，即可得到目标提示词。将目标网页代码记为html_target，得到的目标提示词示例如下：

f"任务：通过网页html文本，识别出文章信息，包括每个文章的标题title、时间戳datatime和信息来源source。\n要求：不要抽取本页的导航项，不得编造信息。\n 网页代码:\n{html_target}\n\n任务重申：通过网页html文本，提取文章信息，包括文章的标题title、时间戳datatime和信息来源source。注意：不要任何解释和说明，只需要以list数据类型返回结果。"。

在另一些情况下，大型网站某一个板块下的数据较大，例如，行业新闻板块下会有大量的新闻文章，这些网页在前端展示时会设置为翻页浏览，即一共包括K个网页，K为对应页码的最大值。网页中可能包含有子页，用户通过对网页进行点击或选择操作等可以跳转至子页。例如，网页A用于展示近期十条新闻，该网页A中包含十条新闻的标题，通过点击任一条新闻的标题，即可跳转至该新闻对应的网页，网页A包含10个子页。

可选地，在一些实施例中，所述目标网页代码在前端分为K个网页进行展示，所述步骤102包括：

基于所述第一网页的地址生成K-1个第二网页的地址；

应理解的是，确定K的取值的具体方式在此不做限定。作为一种可选的实施方式，可以人工通过前端展示网页显示的页码确定K的取值。

作为另一种可选的实施方式，所述确定所述目标网页代码对应的K的取值，包括：

基于所述页码范围确定K的取值。

第二预设模板为预先构建的，第二预设模板用于提示大模型执行从网页代码中提取页码范围的任务。进一步地，第二预设模板还可以提示大模型返回数据的类型和返回数据的格式等。

将目标网页代码与第二预设模板进行拼接可以理解为，将目标网页代码填入第二预设模板的相应位置，得到第二提示词，从而使得第二提示词可以提示大模型执行基于目标网页代码提取页码范围的任务。

将第二提示词输入大模型，大模型根据第二提示词的提示执行相应的任务，得到页码范围，基于页码范围可以确定K的取值。

举例来说，第二预设模板示例如下：

f"任务：从网页html中提取主题列表的页码范围并返回\n\n网页代码：\n{ }\n\n按照要求，以列表list格式返回所有页码的最小值和最大值：[最小值，最大值]"。

将目标网页代码填入第二预设模板预留的相应位置，即可得到第二提示词。将目标网页代码记为html_target，得到的目标提示词示例如下：

f"任务：从网页html中提取主题列表的页码范围并返回\n\n网页代码：\n{html_target}\n\n按照要求，以列表list格式返回所有页码的最小值和最大值：[最小值，最大值]"。

在知道所有页码的最小值和最大值后，即可确定网页的数量，即K的取值。

在本实施例中，将目标网页代码与第二预设模板进行拼接，得到第二提示词，将第二提示词输入大模型进行处理，得到页码范围；基于页码范围确定K的取值。通过上述方法，利用大模型抽取页码信息，无需人工参与即可确定目标网页代码在前端展示时对应的页码数，提高了确定页码信息的便捷性和自动化程度。

当然，在一些实施例中，目标网页代码在前端仅通过一个网页进行展示，即K=1，该网页为第一网页。在这种情况下，如果第一网页包含有子页，则基于第一网页的地址获取第一网页包含的子页的地址；对于第一网页包含的子页，基于所述子页的地址获取所述子页的网页代码，其中，所述目标网页代码包括第一网页包含的子页的网页代码；将第一网页包含的子页的网页代码分别与目标模板进行拼接，生成对应的目标提示词。

应理解的是，目标网页代码在前端分为K个网页进行展示，在代码撰写过程中，这K个网页的地址的生成通常具有一定的规律，因此在确定了K的取值后，即可基于第一网页的地址生成K-1个第二网页的地址。示例性地，将第一网页的地址中与页码相关联的参数进行修改得到K-1个第二网页的地址。

可选地，在一些实施例中，所述基于所述K个网页中每一个网页的地址获取每一个网页包含的子页的地址，包括：

第一预设模板为预先构建的，第一预设模板用于提示大模型执行提取子页的地址的任务。进一步地，第一预设模板还可以提示大模型返回数据的类型和返回数据的格式等。

对K个网页中每一个网页逐个进行网络请求，获取该网页对应的网页代码。对于K个网页中的每一个网页，将该网页的网页代码与第一预设模板进行拼接。具体地，将该网页的网页代码填入第一预设模板的相应位置，得到第一提示词，从而使得第一提示词可以提示大模型执行基于该网页的网页代码提取子页的地址的任务。

进一步地，在一些实施例中，为了提高爬取到的数据的丰富性，便于对不同的子页进行区分，还可以同时对子页的标题进行提取。例如，第一提示词用于提示大模型执行基于该网页的网页代码提取子页的地址和子页的标题的任务。

举例来说，第一预设模板示例如下：

f"任务：通过网页html文本，识别出文章列表，包括每个文章的title和url。\n要求：不要抽取本页的导航项，不得编造信息。\n 网页代码:\n{ }\n\n任务重申：通过网页html文本，提取文章信息，包括title和url 。注意：不要任何解释和说明，只需要以list数据类型返回结果。"。

将K个网页中页码为i的第i个网页填入第一预设模板预留的相应位置，即可得到第i个网页对应的第一提示词，i为小于或等于K的正整数。将第i个网页的网页代码记为html_page_i，得到的第一提示词示例如下：

f"任务：通过网页html文本，识别出文章列表，包括每个文章的title和url。\n要求：不要抽取本页的导航项，不得编造信息。\n 网页代码:\n{html_page_i}\n\n任务重申：通过网页html文本，提取文章信息，包括title和url 。注意：不要任何解释和说明，只需要以list数据类型返回结果。"。

需要说明的是，在爬取得到的子页中还包含下一层子页的情况下，可以参照上述的流程进一步地爬取当前子页下一层子页的地址，以采集更深层的数据，具体可参照前述流程，在此不做赘述。

将K个网页中每一个网页包含的子页的网页代码分别与目标模板进行拼接，生成对应的目标提示词。因此，在本实施例中，目标提示词的数量为多个，将每一个目标提示词均输入大模型进行处理，可以得到每一个子页对应的目标数据，从而爬取得到子页中包含的数据。

在本实施例中，利用大模型可以对网页包含的子页的地址进行爬取，提高了获取子页的地址的便捷性。通过本本实施例提供的方法，可以便捷地对深层的网络数据进行采集，爬取到网页下包含的子页的信息，提高数据采集的效率和深度，适用于结构复杂的网页。在目标网页代码在前端分为K个网页进行展示的情况下，仅输入其中一个网页的地址，即可采集到K个网页中所有网页包含的所有子页的数据。

步骤103，将所述目标提示词输入大模型进行处理，得到所述目标数据。

将目标提示词输入大模型，大模型根据目标提示词的提示执行相应的任务，得到目标数据。在具体实现时，得到目标数据后可以将目标数据进行整理和/或存储。

需要说明的是，大模型指的是具有非常多的参数、层数和计算能力的深度学习模型。这些模型在训练和推理时需要使用大量的计算资源，例如高性能计算机和图形处理器(Graphics Processing Unit，GPU)等。大模型主要用于处理复杂的任务，与传统的机器学习模型相比，大模型具有更强的学习能力和灵活性，可以从大量的数据中提取出更为准确的特征信息。

在本申请实施例中使用的大模型均为预先训练的，在将本方法应用于不同领域的数据采集时，可以利用该领域数据对大模型进行微调。在不同步骤中利用大模型执行不同的任务时，根据实际需求可以使用相同的大模型也可以使用不同的大模型。示例性地，在本申请实施例中使用的大模型可以为聊天生成预训练转换器(Chat Generative Pre-trained Transformer，ChatGPT)模型、基于通用语言模块(General Language Model，GLM)构架实现的ChatGLM或基于变换器(transformer)的双向编码表征(BidirectionalEncoder Representations from Transformers，BERT)模型等大模型。

可选地，在一些实施例中，所述步骤103之后，所述方法还包括：

对网页进行解析可以得到该网页包含的内容数据。为了便于对采集的数据进行整理，将同一个网页对应的目标数据和内容数据进行整合，得到数据集合。在目标数据包括多个子页对应的目标数据的情况下，分别获取每一个子页对应的内容数据，然后将同一个子页对应的目标数据和内容数据进行匹配，将所有子页的数据进行整理，得到最终的数据集合。

在本实施例中，将目标数据与内容数据进行整合，得到数据集合，内容数据通过对目标网页代码进行解析得到。通过上述方法，可以便于对采集到的数据进行整理，同时提高了采集得到的数据的丰富性。

由于内容数据通常为整段数据且内容较多较集中，对其进行采集的难度较小。在本实施例中，内容数据通过对目标网页代码进行解析得到，可以减少大模型的数据处理量，加快大模型的处理速度。当然，在一些实施例中，也可以通过大模型对内容数据一并进行采集，具体在此不做赘述。

请参见图2，为了方便理解，下面以对网页中的新闻数据进行采集的应用场景为例，对本发明实施例提供的网页数据采集方法的具体流程进行说明。

1)输入目标URL链接。具体地，针对目标领域，筛选若干相关网站，人工获取第一网页的URL链接(记为url_target_1)。

2)获取第一网页的网页代码和网页结构。利用url_target_1，通过网络请求(例如通过python的请问(request)方法)得到第一网页的整个网页代码(记为html_all) (包含网页结构和文字内容等)。然后利用HTML解析器(如BeautifulSoup等)得到第一网页的网页结构(记为html_tree)。

3)代码切片。具体地，将html_tree与预设的prompt模板prompt_template_1进行拼接，生成完整的提示(记为prompt_1)。示例性地，prompt_1如下所示：

将提示词prompt_1 输入到大模型(例如ChatGPT和ChatGLM等)，利用大模型获取起始节点和结束节点的标签作为索引标签(记为indexs_list)。示例性地，索引标签如下所示：indexs_list=[‘<div class="position">’,‘<\article>’]，结合该索引标签，对html_all进行切片，从而得到目标网页代码(记为html_target)。

4)抽取页码。具体地，行业新闻板块下通常会有大量新闻文章，在前端展示时会设置为翻页浏览(例如：【1,2,3……20,下一页,末页】)，此时需要提取出页码范围。将html_target与预设的prompt模板prompt_template_2进行拼接，生成一条完整的提示词(记为prompt_2)。示例性地，prompt_1如下所示：

将提示词prompt_2作为大模型的输入，利用大模型提取到页码范围(记为page_list)，示例性地，页码范围如下所示：page_list=[1,20]。基于页码范围确定html_target在前端分为20个网页进行展示。

5)抽取子页URL链接。具体地，循环page_list，结合url_target_1 生成其余19个网页的URL链接，即url_target_2到 url_target_n ，然后逐个进行网络请求，获取每一个网页对应的网页代码。将第i个网页对应的网页代码记为html_page_i (包含网页结构和文字内容等)。

由于每个网页都会有多条文章数据，此时需要获取每条文章数据的标题和URL链接。对于第i个网页，将该网页的网页代码html_page_i与预设的prompt模板prompt_template_3进行拼接，生成完整的提示词(记为prompt_3_i)。示例性地，prompt_3_i如下所示：

将第i页的提示词prompt_3_i作为大模型的输入，从而利用大模型抽取出每个网页的文章链接。对20个网页中每一个网页执行抽取子页URL链接的操作，得到每一个网页下包含的子页URL链接，并进一步整合所有URL链接得到子页地址集合(记为url_all)。示例性地，url_all如下所示：url_all = ['url_1','url_2',……,'url_n']；

6)抽取子页的网页代码。具体地，针对url_all，循环其中每个url进行网络爬取，得到其网页代码。其中，第j个url对应的网页代码记为html_article_j(包含网页结构和文字内容等)，将其记录到网络代码列表html_article_list；

7)抽取目标数据和内容数据。在新闻领域，在获取数据时通常比较关心新闻的标题title、新闻的链接url、新闻的发布时间datatime、新闻的信息来源source和新闻的内容content。

循环遍历列表html_article_list，针对第j项，即每个网页代码html_article_j，分别抽取title、url、datatime、source和content等信息。其中，content可以直接通过HTML解析器(如BeautifulSoup等)获取。

对于其他字段信息，将html_article_j与预设的prompt模板prompt_template_4进行拼接，生成完整的提示词prompt_4_j。示例性地，prompt_4_j如下所示：

f"任务：通过网页html文本，识别出文章信息，包括每个文章的标题title、时间戳datatime和信息来源source。\n要求：不要抽取本页的导航项，不得编造信息。\n 网页代码:\n{html_article_i}\n\n任务重申：通过网页html文本，提取文章信息，包括文章的标题title、时间戳datatime和信息来源source。注意：不要任何解释和说明，只需要以list数据类型返回结果。"。

将第j个提示词(即prompt_4_j)作为大模型的输入，从而利用大模型抽取出每个网页的文章信息，并进一步整合content信息得到第j个网页的信息列表(记为info_list_j)。例如：info_list_j = ['机构A：自主研制新一代人工智能大模型问世',' 2023年06月16日 11:00', '来源：新闻客户端', '机构A今天(16日)上午在上海发布了该所研制的新一代人工智能大模型——紫东太初2.0。全新大模型未来将在医疗、交通、工业生产等领域发挥更大作用。']，循环结束后得到所有网页的文章信息(记为info_list_all)。

8)保存。具体地，将所有的文章信息info_list_all保存到文件即可。

通过上述方法，基于大模型实现智能爬取数据，具有较强的普遍适用性，可以适用于不同网页结构的网页，避免针对每个网页编写过多解析规则，数据采集的效率较高，且成本较低。

在如图2所示的实施例中，本方法可以由如图3所示的网页数据采集装置来执行。请参见图3，网页数据采集装置300包括：

获取网页代码和结构模块301，用于对第一网页的地址进行网络请求，从而得到其网页代码，并利用HTML解析器得到网页树形结构和文本内容，进一步将网页结构与第三预设模板进行拼接，得到第三提示词，将第三提示词作为输入利用大模型对网页结构进行切片，从而得到目标网页代码；

抽取页码模块302，用于针对文章列表下部的页码数据，通过将目标网页代码与第二预设模板进行拼接，得到第二提示词，将第二提示词作为输入利用大模型提取到页码范围；

抽取子页URL模块303，用于结合第一网页的地址和页码范围，循环得到所有第二网页的地址，然后逐个进行网络请求，获取所有第二网页的网页代码。将第二网页的网页代码与第一预设模板进行拼接，得到第一提示词，将第一提示词作为输入利用大模型获取每个网页包含的子页的标题和子页的地址，并进一步整合所有子页的地址得到子页地址集合；

抽取目标数据和内容数据模块304，用于针对子页地址集合，循环其中每个子页的地址进行网络爬取，得到其网页代码，将其记录到网页代码列表；循环遍历网页代码列表，针对第j项，利用 HTML解析器得到内容数据，通过将第j项网页代码与目标模板进行拼接，得到目标提示词，将目标提示词作为输入利用大模型提取到目标数据，循环整个列表后保存所有网页的文章信息。

参见图4，图4是本申请实施例提供的网页数据采集装置400的结构图。如图4所示，网页数据采集装置400包括：

获取模块401，用于基于第一网页的地址获取所述第一网页对应的目标网页代码；

生成模块402，用于基于所述目标网页代码和目标模板生成目标提示词，所述目标提示词用于提示大模型执行基于所述目标网页代码提取目标数据的任务；

处理模块403，用于将所述目标提示词输入大模型进行处理，得到所述目标数据。

可选地，所述目标网页代码在前端分为K个网页进行展示，所述生成模块402包括：

第一确定单元，用于确定所述目标网页代码对应的K的取值，所述K个网页包括所述第一网页和K-1个第二网页，K为大于1的正整数；

生成单元，用于基于所述第一网页的地址生成K-1个第二网页的地址；

第一获取单元，用于基于所述K个网页中每一个网页的地址获取每一个网页包含的子页的地址；

第二获取单元，用于对于所述K个网页中每一个网页包含的子页，基于所述子页的地址获取所述子页的网页代码，其中，所述目标网页代码包括所述K个网页中每一个网页包含的子页的网页代码；

拼接单元，用于将所述K个网页中每一个网页包含的子页的网页代码分别与目标模板进行拼接，生成对应的目标提示词。

可选地，所述第一获取单元具体用于：

可选地，所述确定单元具体用于：

基于所述页码范围确定K的取值。

可选地，所述网页数据采集装置400还包括：

整合模块，用于将所述目标数据与内容数据进行整合，得到数据集合，所述内容数据通过对所述目标网页代码进行解析得到。

可选地，所述获取模块401包括：

第二确定单元，用于基于第一网页的地址确定所述第一网页对应的原始网页代码；

解析单元，用于对所述原始网页代码进行解析处理，得到网页结构；

切片单元，用于基于所述网页结构对所述原始网页代码进行切片，得到目标网页代码。

可选地，所述切片单元具体用于：

本申请实施例提供的网页数据采集装置400，可以执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

如图5所示，本申请实施例提供了一种电子设备，包括：存储器502、处理器501及存储在所述存储器502上并可在所述处理器501上运行的程序；所述处理器501，用于读取存储器502中的程序实现如前所述的网页数据采集方法中的步骤。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序，该程序被处理器执行时实现上述网页数据采集方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的可读存储介质，可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器（例如软盘、硬盘、磁带、磁光盘（（Magneto-Optical Disk，MO）等）、光学存储器（例如光盘（Compact Disk，CD）、数字视频光盘（Digital Versatile Disc，DVD）、蓝光光碟（Blu-ray Disc，BD）、高清通用光盘（High-Definition Versatile Disc，HVD）等）、以及半导体存储器（例如只读存储器（Read-OnlyMemory，ROM）、可擦除可编程只读存储器（Erasable Programmable Read-Only Memory，EPROM）、带电可擦可编程只读存储器（Electrically Erasable Programmable read onlymemory，EEPROM）、非易失性存储器（NAND FLASH）、固态硬盘（Solid State Disk或SolidState Drive，SSD））等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。根据这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁盘、光盘）中，包括若干指令用以使得一台终端（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种网页数据采集方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标网页代码在前端分为K个网页进行展示，所述基于所述目标网页代码和目标模板生成目标提示词，包括：

基于所述第一网页的地址生成K-1个第二网页的地址；

3.根据权利要求2所述的方法，其特征在于，所述基于所述K个网页中每一个网页的地址获取每一个网页包含的子页的地址，包括：

4.根据权利要求2所述的方法，其特征在于，所述确定所述目标网页代码对应的K的取值，包括：

基于所述页码范围确定K的取值。

5.根据权利要求1所述的方法，其特征在于，所述将所述目标提示词输入大模型进行处理，得到所述目标数据之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于第一网页的地址获取所述第一网页对应的目标网页代码，包括：

对所述原始网页代码进行解析处理，得到网页结构；

7.根据权利要求6所述的方法，其特征在于，所述基于所述网页结构对所述原始网页代码进行切片，得到目标网页代码，包括：

8.一种网页数据采集装置，其特征在于，包括：

9.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其特征在于，

所述处理器，用于读取存储器中的程序实现如权利要求1至7中任一项所述的方法中的步骤。

10.一种可读存储介质，用于存储程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7中任一项所述的方法中的步骤。