CN116204692A

CN116204692A - 网页数据提取方法、装置、电子设备及存储介质

Info

Publication number: CN116204692A
Application number: CN202211666143.7A
Authority: CN
Inventors: 仇振阳; 李绍斌; 唐杰; 贾巨涛; 吴伟
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-06-02

Abstract

本发明实施例涉及一种网页数据提取方法、装置、电子设备及存储介质，方法包括：获取目标网页对应的网页源代码，网页源代码中包括目标网页中的多条目标数据和每条目标数据对应的代码，将网页源代码输入已训练的分类模型，得到网页源代码中每条目标数据所属的数据类别，其中，分类模型基于目标数据对应的代码得到目标数据所属的数据类别，针对每个数据类别，确定与数据类别对应的提取规则，提取规则用于指示按照预设的数据格式提取数据类别对应的目标数据，按照每条目标数据对应的提取规则提取目标网页中的多条目标数据。由此，能够实现根据数据类别确定提取规则，简化了提取规则，使得提取规则易于维护。

Description

网页数据提取方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种网页数据提取方法、装置、电子设备及存储介质。

背景技术

随着当今信息技术的发展，网页数据对我们来说显得格外重要，而获取网页数据最便捷最有效的方式莫过于爬虫技术。

然而，爬虫技术也有一定的缺陷，就是当我们获取不同的网页数据时，由于网页的结构不同，需要获取的网页数据不同，对于不同的网页和网页数据，我们往往需要定义很多不同的规则，当需要的数据量较大、涉及到的网站较多时，这个规则往往会变得极其复杂且难以维护。

发明内容

鉴于此，为解决需要的数据量较大、涉及到的网站较多时，这个规则往往会变得极其复杂且难以维护的技术问题，本发明实施例提供一种网页数据提取方法、装置、电子设备及存储介质。

第一方面，本发明实施例提供一种网页数据提取方法，所述方法包括：

获取目标网页对应的网页源代码，所述网页源代码中包括所述目标网页中的多条目标数据和每条所述目标数据对应的代码；

将所述网页源代码输入已训练的分类模型，得到所述网页源代码中每条所述目标数据所属的数据类别，其中，所述分类模型基于所述目标数据对应的代码得到所述目标数据所属的数据类别；

针对每个数据类别，确定与所述数据类别对应的提取规则，所述提取规则用于指示按照预设的数据格式提取所述数据类别对应的目标数据；

按照每条所述目标数据对应的所述提取规则提取所述目标网页中的多条目标数据。

作为一个可能的实现方式，多条所述目标数据包括所述目标网页的全部数据或部分数据。

作为一个可能的实现方式，所述分类模型包括父类分类网络和子类分类网络，其中，所述父类分类网络的每个输出对应一个子类分类网络。

作为一个可能的实现方式，所述将所述网页源代码输入已训练的分类模型，得到所述网页源代码中每条目标数据所属的数据类别，包括：

所述分类模型对所述网页源代码执行以下操作：

通过所述父类分类网络得到所述网页源代码中每条目标数据所属的父类数据类别；

针对所述父类数据类别对应的每条目标数据，通过与所述父类数据类别对应的所述子类分类网络，得到所述目标数据对应的子类数据类别；

将每条所述目标数据对应的所述子类数据类别，作为所述目标数据所属的数据类别。

作为一个可能的实现方式，所述通过所述父类分类网络得到所述网页源代码中每条目标数据所属的父类数据类别，包括：

所述父类分类网络对所述网页源代码执行以下操作：

获取所述网页源代码中每条目标数据对应的代码标签和位置信息；

针对每条所述目标数据，根据所述代码标签和所述位置信息，确定所述目标数据对应的父类数据类别。

作为一个可能的实现方式，所述通过与所述父类数据类别对应的所述子类分类网络，得到所述目标数据对应的子类数据类别，包括：

所述子类分类网络对所述目标数据执行以下操作：

获取所述目标数据的代码标签和CSS样式；

根据所述代码标签和所述CSS样式，确定所述目标数据对应的子类数据类别。

作为一个可能的实现方式，通过以下方式对所述分类模型进行训练：

获取网页源代码样本集合，其中，每个网页源代码样本中的每条目标数据标注有所述目标数据的样本数据类别；

将每个所述网页源代码样本中的目标数据，以及所述目标数据标注的样本数据类别构建为一条训练样本，归入训练样本集；

利用所述训练样本集，对待训练分类模型进行训练。

作为一个可能的实现方式，所述待训练分类模型包括待训练父类分类网络和待训练子类分类网络，其中，所述待训练父类分类网络的每个输出对应一个待训练子类分类网络。

作为一个可能的实现方式，所述网页源代码样本中的每个目标数据还标注有所述目标数据的样本父类数据类别，所述样本父类数据类别为所述样本数据类别的父类别；

将每个所述网页源代码样本中的目标数据，以及所述目标数据标注的样本数据类别构建为一条训练样本，归入训练样本集，包括：

将每个所述网页源代码样本中的目标数据与所述目标数据标注的样本父类数据类别和样本数据类别构建为一条训练样本，归入训练样本集；

所述利用所述训练样本集，对待训练分类模型进行训练，包括：

针对所述训练样本集中的每一训练样本，通过所述待训练父类分类网络得到所述网页源代码样本中每条目标数据所属的父类数据类别；

针对所述父类数据类别对应的每条目标数据，通过与所述父类数据类别对应的所述待训练子类分类网络，得到所述目标数据对应的数据类别；

确定所述网页源代码样本中，所述数据类别和所述父类数据类别，分别与所述目标数据对应的样本父类数据类别和样本数据类别一致的目标数据的数量；

将所述数量除以所述网页源代码样本中目标数据的总数量，得到所述网页源代码样本对应于所述待训练分类模型的正确率；

针对所述训练样本集中的每一训练样本，在所述正确率大于预设的正确率阈值的情况下，完成对所述待训练分类模型的训练。

作为一个可能的实现方式，所述确定与所述数据类别对应的提取规则，包括：

将所述数据类别与预设的提取规则知识图谱进行匹配，得到与所述数据类别对应的提取规则，所述提取规则知识图谱包括数据类别、提取规则，以及两者之间的对应关系。

第二方面，本发明实施例提供一种网页数据提取装置，所述装置包括：

获取模块，用于获取目标网页对应的网页源代码，所述网页源代码中包括所述目标网页中的多条目标数据和每条所述目标数据对应的代码；

输入模块，用于将所述网页源代码输入已训练的分类模型，得到所述网页源代码中每条所述目标数据所属的数据类别，其中，所述分类模型基于所述目标数据对应的代码得到所述目标数据所属的数据类别；

确定模块，用于针对每个数据类别，确定与所述数据类别对应的提取规则，所述提取规则用于指示按照预设的数据格式提取所述数据类别对应的目标数据；

提取模块，用于按照每条所述目标数据对应的所述提取规则提取所述目标网页中的多条目标数据。

作为一个可能的实现方式，所述输入模块，包括：

第一确定子模块，用于所述分类模型对所述网页源代码执行以下操作：通过所述父类分类网络得到所述网页源代码中每条目标数据所属的父类数据类别；

第二确定子模块，用于针对所述父类数据类别对应的每条目标数据，通过与所述父类数据类别对应的所述子类分类网络，得到所述目标数据对应的子类数据类别；

第三确定子模块，用于将每条所述目标数据对应的所述子类数据类别，作为所述目标数据所属的数据类别。

作为一个可能的实现方式，所述第一确定子模块，具体用于：

所述父类分类网络对所述网页源代码执行以下操作：

作为一个可能的实现方式，所述第二确定子模块，具体用于：

所述子类分类网络对所述目标数据执行以下操作：

获取所述目标数据的代码标签和CSS样式；

作为一个可能的实现方式，所述装置还包括：

样本获取模块，用于通过以下方式对所述分类模型进行训练：获取网页源代码样本集合，其中，每个网页源代码样本中的每条目标数据标注有所述目标数据的样本数据类别；

构建模块，用于将每个所述网页源代码样本中的目标数据，以及所述目标数据标注的样本数据类别构建为一条训练样本，归入训练样本集；

训练模块，用于利用所述训练样本集，对待训练分类模型进行训练。

所述构建模块，具体用于：

所述训练模块，具体用于：

作为一个可能的实现方式，所述确定模块，具体用于：

第三方面，本发明实施例提供一种电子设备，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的一种网页数据提取程序，以实现第一方面中任一项所述的网页数据提取方法。

第四方面，本发明实施例提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现第一方面中任一项所述的网页数据提取方法。

本发明实施例提供的技术方案，通过获取目标网页对应的网页源代码，上述网页源代码中包括目标网页中的多条目标数据和每条目标数据对应的代码，将网页源代码输入已训练的分类模型，得到该网页源代码中每条目标数据所属的数据类别，其中，上述分类模型基于目标数据对应的代码得到该目标数据所属的数据类别，针对每个数据类别，确定与该数据类别对应的提取规则，上述提取规则用于指示按照预设的数据格式提取上述数据类别对应的目标数据，按照每条目标数据对应的提取规则提取目标网页中的多条目标数据。这一技术方案，通过已训练的分类模型，识别目标网页中的目标数据对应的数据类别，并根据数据类别确定相应的提取规则，以按照该提取规则提取目标数据，这相较于针对不同的网页和网页数据定义不同的规则而言，可以简化提取规则并易于维护提取规则，实现了根据数据类别定义提取规则，简化了提取规则，使得提取规则易于维护。

附图说明

图1为本发明实施例提供的一种网页数据提取方法的实施例流程图；

图2A为本发明实施例提供的一种目标网页的示意图；

图2B为本发明实施例提供的一种与目标网页对应的网页源代码的示意图；

图3为本发明实施例提供的另一种网页数据提取方法的实施例流程图；

图4为本发明实施例提供的一种分类模型的结构示意图；

图5为本发明实施例提供的一种网页数据提取装置的实施例框图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图以具体实施例对本发明提供的网页数据提取方法做进一步的解释说明，实施例并不构成对本发明实施例的限定。

参见图1，为本发明实施例提供的一种网页数据提取方法的实施例流程图。如图1所示，该流程可包括以下步骤：

步骤101、获取目标网页对应的网页源代码，上述网页源代码中包括目标网页中的多条目标数据和每条目标数据对应的代码。

上述目标网页指待提取数据的网页。

上述网页源代码指该目标网页对应的源代码，其通过HTML(Hyper Text MarkupLanguage，超文本标记语言)语法规则将目标网页中的图片、文字等内容，在浏览器中显示出来。参见图2，为本发明实施例示出的一种的目标网页和目标网页对应的网页源代码的示意图。如图2所示，图2A为本发明实施例示出的一种目标网页的示意图，图2B为本发明实施例示出的一种与上述目标网页对应的网页源代码的示意图。

上述网页源代码中可包括目标网页中的多条目标数据和每条目标数据对应的代码。

其中，上述多条目标数据可为上述目标网页中的全部数据，也可为目标网页中的部分数据，本发明实施例对此不做限制。

在一实施例中，本发明实施例的执行主体在确定目标网页后，可通过网络爬虫技术获取该目标网页的网页源代码。

步骤102、将网页源代码输入已训练的分类模型，得到该网页源代码中每条目标数据所属的数据类别，其中，上述分类模型基于目标数据对应的代码得到该目标数据所属的数据类别。

上述分类模型可基于目标数据对应的代码得到目标数据所属的数据类别。

上述数据类别指目标数据对应的类别，其可包括但不限于：标题、子标题、时间、作者、正文等。

在一实施例中，本发明实施例的执行主体可通过以下方式训练得到上述分类模型：首先，获取网页源代码样本集合，其中每个网页源代码样本中的每条目标数据标注有该目标数据的样本数据类别。

然后，将每个网页源代码样本中的目标数据，以及目标数据标注的样本数据类别构建为一条训练样本，归入训练样本集。

最后，可利用该训练样本集，对待训练分类模型进行训练。

具体的，可将训练样本集中的每一训练样本分别输入上述待训练分类模型，得到待训练分类模型输出的数据类别。之后，将该数据类别与每一样本对应的样本数据类别进行比较，当两者一致，或者相似度大于预设的相似度阈值的情况下，可确定待训练分类模型对该样本的输出正确。

之后，确定该训练样本集相对于待分类模型的输出结果对应的正确率，在该正确率大于预设的正确率阈值的情况下，可确定完成对待训练分类模型的训练，得到分类模型。

此外，在利用训练样本集中的训练样本对待训练分类模型进行训练时，可对每一训练样本中的目标数据标注的样本数据类别设置预设的权重，在利用该训练样本训练待训练分类模型时，若待训练分类模型输出的数据类别与样本数据类别一致，则对该训练样本对应的权重减去预设值，例如1。

相反的，若待训练分类模型输出的数据类别与样本数据类别不一致，则将该训练样本对应的权重值加上预设值，例如1。如此对待训练分类模型进行重复训练和调整，直到分类结果正确率高于95％为止。此时，每个训练样本对应的权重值最小。如此，可提高待训练分类模型的准确性。

在一实施例中，本发明实施例的执行主体将获取的网页源代码输入上述训练得到的分类模型，可得到网页源代码中每条目标数据所属的数据类别。至于分类模型具体是如何根据每条目标数据对应的代码得到目标数据所属的数据类别的，可在下文通过图3所示流程进行说明，这里先不详述。

步骤103、针对每个数据类别，确定与该数据类别对应的提取规则，上述提取规则用于指示按照预设的数据格式提取上述数据类别对应的目标数据。

步骤104、按照每条目标数据对应的提取规则提取目标网页中的多条目标数据。

以下对步骤103和步骤104进行统一说明：

上述提取规则指按照预设的格式数据提取上述数据类别对应的目标数据。例如，数据类别为标题的目标数据，可按照{楷体，加粗，3号字}的数据格式进行提取。

在一实施例中，本发明实施例的执行主体，在得到每个目标数据对应的数据类别后，可针对每个数据类别确定与该数据类别对应的提取规则，并按照每条目标数据对应的提取规则提取目标网页中的多条目标数据。

作为一个可能的实现方式，本发明实施例的执行主体可预先存储提取规则知识图谱，其中该提取规则知识图谱包括数据类别、提取规则，以及两者之间的对应关系。

基于此，在确定与每个数据类别对应的提取规则时，本发明实施例的执行主体可将该数据类别与上述预设的提取规则知识图谱进行匹配，从而得到与该数据类别对应的提取规则。

本发明实施例提供的技术方案，通过获取目标网页对应的网页源代码，上述网页源代码中包括目标网页中的多条目标数据和每条目标数据对应的代码，将网页源代码输入已训练的分类模型，得到该网页源代码中每条目标数据所属的数据类别，其中，上述分类模型基于目标数据对应的代码得到该目标数据所属的数据类别，针对每个数据类别，确定与该数据类别对应的提取规则，上述提取规则用于指示按照预设的数据格式提取上述数据类别对应的目标数据，按照每条目标数据对应的提取规则提取目标网页中的多条目标数据。这一技术方案，通过已训练的分类模型，识别目标网页中的目标数据对应的数据类别，并根据数据类别确定相应的提取规则，以按照该提取规则提取目标数据，这相较于针对不同的网页和网页数据定义不同的规则而言，可以简化提取规则并易于维护提取规则，实现了根据数据类别确定提取规则，简化了提取规则，使得提取规则易于维护。

参见图3，为本发明实施例提供的另一种网页数据提取方法的实施例流程图。图3所示流程在图1所示流程的基础上，详细描述分类模型具体是如何确定目标数据所属的数据类别。如图3所示，该流程可包括以下步骤：

步骤301、获取目标网页对应的网页源代码，上述网页源代码中包括目标网页中的多条目标数据和每条目标数据对应的代码。

对步骤301的详细描述可参见步骤101中的描述，这里不再赘述。

步骤302、将网页源代码输入已训练的分类模型，上述分类模型包括父类分类网络和子类分类网络，其中，父类分类网络的每个输出对应一个子类分类网络。

上述分类模型可包括父类分类网络和子类分类网络，例如，参见图4，为本发明实施例提供的一种分类模型的结构示意图。如图4所示，分类模型中一级分类器、二级分类器……N级分类器为父类分类网络，上述分类模型中子分类器1、子分类器2、子分类器3……，则为N级分类器对应的子分类网络。其中每一子分类器可存在其对应的提取规则，例如，子分类器1对应提取规则1，子分类器2对应提取规则2，子分类器3对应提取规则3……。

上述父类分类网络可为基于CART(Classification and regression tree，分类回归树)算法得到的决策树网络。

在一实施例中，本发明实施例的执行主体可通过以下方式对待训练分类模型进行训练，以得到分类模型。其中，上述待分类模型可包括待训练父类分类网络和待训练子类分类网络，上述待训练父类分类网络的每个输出对应一个待训练子类分类网络。

首先，获取网页源代码样本集合，其中，每个网页源代码样本中的每条目标数据标注有该目标数据的样本数据类别和样本父类数据类别，上述样本父类数据类别为样本数据类别的父类别。

然后，将每个网页源代码样本中的目标数据，以及目标数据标注的样本父类数据类别和样本数据类别构建为一条训练样本，归入训练样本集。

最后，可利用该训练样本集，对待训练分类模型进行训练。

具体的，可针对训练样本集中的每一训练样本，通过待训练父类分类网络得到网页源代码样本中每条目标数据所属的父类数据类别。之后，针对该父类数据类别对应的每条目标数据，通过与上述父类数据类别对应的待训练子类分类网络，得到目标数据对应的数据类别。

之后，可确定网页源代码样本中，数据类别和父类数据类别，分别与目标数据对应的样本数据类别和样本父类数据类别一致的目标数据的数量。

作为一个可能的实现方式，可分别确定数据类别与样本数据类别对应的第一相似度，以及父类数据类别与样本父类数据类别对应的第二相似度。在上述第一相似度和上述第二相似度均大于预设的相似度阈值的情况下，可确定数据类别和父类数据类别，分别与目标数据对应的样本数据类别和样本父类数据类别一致。

作为另一个可能的实现方式，在确定数据类别和父类数据类别，分别与样本数据类别和样本父类数据类别完全一致的情况下，可确定数据类别和父类数据类别，分别与目标数据对应的样本数据类别和样本父类数据类别一致。

再之后，可将上述数量除以网页源代码样本中目标数据的总数量，得到网页源代码样本对应于待训练分类模型的正确率。并针对训练样本集中的每一训练样本，在上述正确率大于预设的正确率阈值的情况下，完成对待训练分类模型的训练。上述正确率阈值可为95％，也可为98％，本发明实施例对此不做限制。

步骤303、分类模型通过父类分类网络得到网络源代码中每条目标数据所属的父类数据类别。

上述父类数据类别可为每条目标数据对应的数据类别的父类，其可为标题、正文，或者时间等，本发明实施例对此不做限制。相对应的，数据类别则不存在其下属的子类数据类别。

在一实施例中，分类模型中的父类分类网络可对网页源代码执行以下操作：首先，获取网页源代码中每条目标数据对应的代码标签和位置信息，之后，可针对每条目标数据，根据该目标数据对应的代码标签和位置信息，确定目标数据对应的父类数据类别。

其中，上述代码标签指目标数据所在的代码标签。例如<html></html>、<head></head>，或者<div></div>等，本发明实施例对此不做限制。

上述位置信息指目标数据在网页源代码中的位置。例如在网页源代码的第十行等。

具体的，父类分类网络可先根据代码标签确定目标数据的候选父类数据类别，然后进一步根据目标数据的位置信息确定目标数据的父类数据类别。

举个例子，假设目标数据的代码标签为<head></head>，那么可确定该目标数据可能为标题，可能为导航，之后假设目标数据的位置信息为代码标签对应的容器内第一行的正中央，那么可确定该目标数据为标题。

步骤304、分类模型针对父类数据类别对应的每条目标数据，通过与上述父类数据类别对应的子类分类网络，得到目标数据对应的子类数据类别。

步骤305、分类模型将目标数据对应的子类数据类别，作为目标数据所属的数据类别。

以下对步骤304和步骤305进行统一说明：

上述子类数据类别指目标数据所属的数据类别，其不存在子类数据类别。例如子标题、正文文本等，本发明实施例对此不做限制。

在一实施例中，分类模型可针对父类数据类别对应的每条目标数据，通过与父类数据类别对应的子类分类网络，得到目标数据对应的子类数据类别。

具体的，上述子类分类网络可获取目标数据的代码标签和CSS(

Cascading Style Sheets，层叠样式表)样式，并根据该代码标签和CSS样式，确定目标数据对应的子类数据类别。

上述代码标签指目标数据所在的代码标签。例如<html></html>、

<head></head>，或者<div></div>等，本发明实施例对此不做限制。

上述CSS样式指目标数据的样式。例如{黑体，加粗，10号}、{楷体、加粗，9号}等。

具体的，子类分类网络可先根据代码标签确定目标数据的候选数据类别，然后进一步根据目标数据的CSS样式确定目标数据的子类数据类别。

举个例子，假设同一父类数据类别下的目标数据1、目标数据2，以及目标数据3，其中目标数据1的代码标签为<text></text>，CSS样式为{黑体，10号}，目标数据2的代码标签为<image></image>，CSS样式为{长10px，宽20px}，目标数据3的代码标签为<image></image>，CSS样式为{长15px，宽25px}。由此，可确定目标数据1所属的子类数据类别为正文文本1，目标数据2所属的子类数据类别为图片1，目标数据3所属的子类数据类别为图片2。

之后，分类模型可将目标数据对应的子类数据类别确定为目标数据的数据类别，并输出该数据类别。

举个例子，对于一个网页源代码，本发明实施例的执行主体使用爬虫程序获取到了目标网页的目标数据，该目标网页中的目标数据有标题，时间、作者、列表信息等等。

之后，将目标网页对应的网页源代码传入分类模型中，分类模型会根据目标数据的代码标签、CSS样式、位置信息等将每一目标数据划分到不同的父类数据类别中。同时对于一些比较关键的信息也会进行更为细致的划分，比如页面中有两个榜单，第一个榜单的数据格式为：《米小圈一二三》，第二个榜单的数据格式为：米小圈一二三(第一季)，对于“米小圈一二三”这个信息，分类模型就会将这两个榜单划分到不同的子类数据类别中。

步骤306、针对每个数据类别，确定与该数据类别对应的提取规则，上述提取规则用于指示按照预设的数据格式提取上述数据类别对应的目标数据。

步骤307、按照每条目标数据对应的提取规则提取目标网页中的多条目标数据。

步骤306和步骤307的详细描述可参见步骤103和步骤104中的描述，这里不再赘述。

本发明实施例提供的技术方案，通过获取目标网页对应的网页源代码，上述网页源代码中包括目标网页中的多条目标数据和每条目标数据对应的代码，将网页源代码输入已训练的分类模型，上述分类模型包括父类分类网络和子类分类网络，其中，父类分类网络的每个输出对应一个子类分类网络，分类模型通过父类分类网络得到网络源代码中每条目标数据所属的父类数据类别，分类模型针对父类数据类别对应的每条目标数据，通过与上述父类数据类别对应的子类分类网络，得到目标数据对应的子类数据类别，分类模型将目标数据对应的子类数据类别，作为目标数据所属的数据类别，针对每个数据类别，确定与该数据类别对应的提取规则，上述提取规则用于指示按照预设的数据格式提取上述数据类别对应的目标数据，按照每条目标数据对应的提取规则提取目标网页中的多条目标数据。这一技术方案，通过将网页源代码输入分类模型，以通过分类模型得到目标数据的父类数据类别，进一步得到父类数据类别对应的目标数据的子类数据类别，以根据子类数据类别对应的提取规则提取目标数据，这相较于针对不同的网页和网页数据定义不同的规则而言，可以简化提取规则并易于维护提取规则，实现了根据数据类别确定提取规则，简化了提取规则，使得提取规则易于维护。

参见图5，为本发明实施例提供的一种网页数据提取装置的实施例框图。如图5所示，该装置可包括：

获取模块51，用于获取目标网页对应的网页源代码，所述网页源代码中包括所述目标网页中的多条目标数据和每条所述目标数据对应的代码；

输入模块52，用于将所述网页源代码输入已训练的分类模型，得到所述网页源代码中每条所述目标数据所属的数据类别，其中，所述分类模型基于所述目标数据对应的代码得到所述目标数据所属的数据类别；

确定模块53，用于针对每个数据类别，确定与所述数据类别对应的提取规则，所述提取规则用于指示按照预设的数据格式提取所述数据类别对应的目标数据；

提取模块54，用于按照每条所述目标数据对应的所述提取规则提取所述目标网页中的多条目标数据。

作为一个可能的实现方式，所述输入模块52，包括：

所述父类分类网络对所述网页源代码执行以下操作：

所述子类分类网络对所述目标数据执行以下操作：

获取所述目标数据的代码标签和CSS样式；

作为一个可能的实现方式，所述装置还包括(图中未示出)：

所述构建模块，具体用于：

所述训练模块，具体用于：

作为一个可能的实现方式，所述确定模块53，具体用于：

图6为本发明实施例提供的一种电子设备的结构示意图，图6所示的电子设备600包括：至少一个处理器601、存储器602、至少一个网络接口604和用户接口603。电子设备600中的各个组件通过总线系统605耦合在一起。可理解，总线系统605用于实现这些组件之间的连接通信。总线系统605除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统605。

其中，用户接口603可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等)。

可以理解，本发明实施例中的存储器602可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本文描述的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器602存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统6021和应用程序6022。

其中，操作系统6021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序6022，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序6022中。

在本发明实施例中，通过调用存储器602存储的程序或指令，具体的，可以是应用程序6022中存储的程序或指令，处理器601用于执行各方法实施例所提供的方法步骤，例如包括：

上述本发明实施例揭示的方法可以应用于处理器601中，或者由处理器601实现。处理器601可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602，处理器601读取存储器602中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本实施例提供的电子设备可以是如图6中所示的电子设备，可执行如图1和图3中网页数据提取方法的所有步骤，进而实现图1和图3中网页数据提取方法的技术效果，具体请参照图1和图3相关描述，为简洁描述，在此不作赘述。

本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在电子设备侧执行的网页数据提取方法。

所述处理器用于执行存储器中存储的网页数据提取程序，以实现以下在电子设备侧执行的网页数据提取方法的步骤：

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页数据提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，多条所述目标数据包括所述目标网页的全部数据或部分数据。

3.根据权利要求1所述的方法，其特征在于，所述分类模型包括父类分类网络和子类分类网络，其中，所述父类分类网络的每个输出对应一个子类分类网络。

4.根据权利要求3所述的方法，其特征在于，所述将所述网页源代码输入已训练的分类模型，得到所述网页源代码中每条目标数据所属的数据类别，包括：

所述分类模型对所述网页源代码执行以下操作：

5.根据权利要求4所述的方法，其特征在于，所述通过所述父类分类网络得到所述网页源代码中每条目标数据所属的父类数据类别，包括：

所述父类分类网络对所述网页源代码执行以下操作：

6.根据权利要求4所述的方法，其特征在于，所述通过与所述父类数据类别对应的所述子类分类网络，得到所述目标数据对应的子类数据类别，包括：

所述子类分类网络对所述目标数据执行以下操作：

获取所述目标数据的代码标签和CSS样式；

7.根据权利要求1所述的方法，其特征在于，通过以下方式对所述分类模型进行训练：

利用所述训练样本集，对待训练分类模型进行训练。

8.根据权利要求7所述的方法，其特征在于，所述待训练分类模型包括待训练父类分类网络和待训练子类分类网络，其中，所述待训练父类分类网络的每个输出对应一个待训练子类分类网络。

9.根据权利要求8所述的方法，其特征在于，所述网页源代码样本中的每个目标数据还标注有所述目标数据的样本父类数据类别，所述样本父类数据类别为所述样本数据类别的父类别；

10.根据权利要求1所述的方法，其特征在于，所述确定与所述数据类别对应的提取规则，包括：

11.一种网页数据提取装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的一种网页数据提取程序，以实现权利要求1～10中任一项所述的网页数据提取方法。

13.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1～10中任一项所述的网页数据提取方法。