CN112667878A

CN112667878A - 网页的文本内容提取方法、装置、电子设备及存储介质

Info

Publication number: CN112667878A
Application number: CN202011624001.5A
Authority: CN
Inventors: 雷田子
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-16

Abstract

本发明涉及人工智能技术领域，提供一种网页的文本内容提取方法、装置、电子设备及存储介质，所述方法包括：获取待提取网页的源代码中所有标签的中间内容，得到每个标签的第一文本内容；将每个标签的第一文本内容输入至共享模型BERT中，得到每个标签的目标向量；将每个标签的目标向量输入至深度神经网络获得每个标签的文本类别；计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度提取网页内容。本发明根据每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度提取网页内容，提高了提取的灵活性和准确率。此外，本申请还涉及区块链技术领域，源代码存储于区块链节点中。

Description

网页的文本内容提取方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种网页的文本内容提取方法、装置、电子设备及存储介质。

背景技术

目前，网络爬虫系统在爬取网页信息时，通常将待爬取的统一资源定位符(uniform resource locator，URL)存储在内存中，现有的网络爬虫技术通过对网页信息进行采集，对采集的信息采用根据网页的结构编写的独立的解析模型进行解析，在网页不同时很难进行代码的复用利用，需要针对不同的网页重新编写代码，导致网页信息的提取效率较低。

此外，现有的爬虫工具耦合性差，功能过于死板，不能够针对网页中不同分类进行分别提取，导致网页信息的提取的灵活度低。

发明内容

鉴于以上内容，有必要提出一种网页的文本内容提取方法、装置、电子设备及存储介质，通过每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度，提取待提取网页的网页内容，提高了提取的灵活性和准确率。

本发明的第一方面提供一种网页的文本内容提取方法，所述方法包括：

获取待提取网页的源代码；

从所述源代码中提取所有标签的中间内容，并对每个标签的中间内容进行预处理得到每个标签的第一文本内容；

对预训练模型BERT进行参数微调得到参数共享的BERT模型，将所述每个标签的第一文本内容输入至所述参数共享的BERT模型，得到每个标签的目标向量；

将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别；

计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度；

根据所述每个标签的文本类别的字段格式相关度提取所述待提取网页的网页内容。

可选的，所述将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别包括：

将所述目标向量输入至所述深度神经网络的双向LSTM层获得目标隐藏状态序列；

对所述目标隐藏状态序列进行线性运算得到每个标签的文本类别的分数；

将所述文本类别的分数经过softmax层映射为概率，并选取概率最大的文本类别作为所述每个标签的文本类别。

可选的，所述将所述目标向量输入至所述深度神经网络的双向LSTM层获得目标隐藏状态序列包括：

提取所述目标向量中每个标签的特征向量；

将所述每个标签的特性向量的序列确定为所述每个标签的时间步；

将所述每个标签的特征向量和所述每个标签的时间步输入至所述双向LSTM层中；

接收所述双向LSTM层的正向LSTM层输出的第一隐藏状态序列，及接收所述双向LSTM层的反向LSTM层输出的第二隐藏状态序列；

对所述第一隐藏状态序列和所述第二隐藏状态序列按照预设规则进行拼接获得目标隐藏状态序列。

可选的，所述计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度包括：

获取每个标签的文本类别及所述文本类别的预设字段格式；

提取每个标签的文本类别的文本内容，并将所述文本内容转换为多个字段；

采用正则匹配算法计算所述每个标签的文本类别的每个字段的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度。

可选的，所述根据所述每个标签的文本类别的字段格式相关度提取所述待提取网页的网页内容包括：

判断每个标签的文本类别的字段格式相关度是否大于或者等于相同标签的相同文本类别对应的预设的字段格式相关度阈值；

当所述每个标签的文本类别的字段格式相关度大于或者等于所述相同标签的相同文本类别对应的预设的字段格式相关度阈值时，确定所述每个标签的文本类别的文本内容与对应的相同标签的相同文本类别一致，则提取所述每个标签的文本类别的文本内容得到所述待提取网页的网页内容。

可选的，所述对每个标签的中间内容进行预处理得到每个标签的第一文本内容包括：

去除所述每个标签的中间内容中的冗余数据；

根据预设的缺失比例处理规则对所述每个标签的中间内容进行归一化得到每个标签的多个句子，其中，每个句子中包含有序号；

在每个标签的每个句子的开头插入第一标记，及在每个标签的每个句子的末尾插入第二标记；

将标记后的所述多个句子按照序号的先后顺序进行拼接得到每个标签的第一文本内容。

可选的，所述深度神经网络的训练过程包括：

读取预设数量的网页的数据集；

将所述数据集划分为训练集和测试集；

利用所述训练集进行模型训练，以生成深度神经网络模型，并利用所述测试集对所述深度神经网络模型进行验证；

若验证通过率大于或者等于预设阈值，则训练完成，否则增加所述训练集的数量，以重新进行训练及验证。

本发明的第二方面提供一种网页的文本内容提取装置，所述装置包括：

获取模块，用于获取待提取网页的源代码；

第一提取模块，用于从所述源代码中提取所有标签的中间内容，并对每个标签的中间内容进行预处理得到每个标签的第一文本内容；

第一输入模块，用于对预训练模型BERT进行参数微调得到参数共享的BERT模型，将所述每个标签的第一文本内容输入至所述参数共享的BERT模型，得到每个标签的目标向量；

第二输入模块，用于将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别；

计算模块，用于计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度；

第二提取模块，用于根据所述每个标签的文本类别的字段格式相关度提取所述待提取网页的网页内容。

本发明的第三方面提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述的网页的文本内容提取方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的网页的文本内容提取方法。

综上所述，本发明所述的网页的文本内容提取方法、装置、电子设备及存储介质，一方面，根据每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度，确定每个标签的文本类别对应的文本内容，避免了相同文本类别的文本内容分类到两个标签的现象，提高了对所述待提取网页的网页内容的提取的灵活性和准确率；另一方面，通过预先为每个标签的文本类别的字段格式设置相关度阈值，将计算得到的每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度与对应的预设的字段格式相关度阈值进行比对，避免了提取的标签对应的文本内容错误的现象，提高了所述待提取网页的网页内容提取的准确率；最后，通过构建深度神经网络的训练样本进行深度神经网络训练，将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别，在后续的深度神经网络模型的训练中，通过不断的增加新的训练集的数量对所述深度神经网络模型进行训练，提高了训练得到的所述深度神经网络模型的准确性，进而提高了获得每个标签的文本类别的准确度。

附图说明

图1是本发明实施例一提供的网页的文本内容提取方法的流程图。

图2是本发明实施例二提供的网页的文本内容提取装置的结构图。

图3是本发明实施例三提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

在本实施例中，所述网页的文本内容提取方法可以应用于电子设备中，对于需要进行网页的文本内容提取的电子设备，可以直接在电子设备上集成本发明的方法所提供的网页的文本内容提取的功能，或者以软件开发工具包(Software Development Kit，SDK)的形式运行在电子设备中。

如图1所示，所述网页的文本内容提取方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11，获取待提取网页的源代码。

本实施例中，所述源代码是指未编译的按照一定的程序设计语言规范书写的文本文件，是一系列人类可读的计算机语言指令，具体地，所述源代码可以以文本文件格式进行展示，在待提取网页的源代码获取过程中，输入待提取网页的网址，根据所述网址进行待提取网页的源代码的获取，例如，通过html语法规则让图片、文字等内容，在浏览器显示出来的代码称之为网页的源代码。

需要强调的是，为进一步保证上述源代码的私密和安全性，上述源代码还可以存储于一区块链的节点中。

S12，从所述源代码中提取所有标签的中间内容，并对每个标签的中间内容进行预处理得到每个标签的第一文本内容。

本实施例中，所述源代码中包含有至少一个标签，提取每个标签对应的中间内容，具体地，所述中间内容中包含有冗余数据等其他信息，通过对每个标签的中间内容进行预处理得到每个标签的第一文本内容，其中，所述预处理方式可以包括删除、抽取等其他方式。

可选地，所述对每个标签的中间内容进行预处理得到每个标签的第一文本内容包括：

去除所述每个标签的中间内容中的冗余数据；

本实施例中，在得到每个标签的中间内容之后，通过对所述每个标签的中间内容进行预处理获得干净的数据，对干净的数据按照预设的缺失比例处理规则对所述每个标签的中间内容进行归一化得到每个标签的多个句子，并在每个标签的每个句子的开头插入第一标记，及在每个标签的每个句子的末尾插入第二标记，其中，所述第一标记可以为[CLS]标记，所述第二标记可以为[SEP]标记，根据每个句子的序号的先后顺序对所述标记后的所述多个句子进行拼接得到每个标签的第一文本内容，提高了对每个标签对应的第一文本内容的管理效率。

S13，对预训练模型BERT进行参数微调得到参数共享的BERT模型，将所述每个标签的第一文本内容输入至所述参数共享的BERT模型，得到每个标签的目标向量。

本实施例中，可以预先训练模型BERT，具体地，所述BERT(Bidirectional EncoderRepresentations from Transformers，来自Transformer的双向编码器表征)是一个预训练模型，在处理一个词的时候，能考虑到该词前面和后面单词的信息，从而获取上下文的语义。

可选地，所述对所述预训练模型BERT进行参数微调得到参数共享的BERT模型包括：

获取所述预训练模型BERT中的多个编码层及多个解码层，并确定编码层与解码层之间的对应关系；

获取每个所述编码层的参数，并将所述参数更新为与所述编码层对应的解码层的参数；

基于参数更新后的预训练模型BERT重新进行训练得到参数共享的BERT模型。

在其他可选的实施例中，对下载的预训练模型BERT文件进行解压得到五个文件，其中bert_model.ckpt开头的文件是负责模型变量载入的，而vocab.txt是训练中文文本采用的字典，最后bert_config.json是BERT在训练时，可选调整的一些参数。当需要进行参数微调时，可以在bert_config.json文件中修改do_train来进行参数微调，通过进行参数微调，训练BERT模型的计算量，从而提高了训练BERT模型的效率；此外，降低了对硬件的配置要求。

S14，将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别。

本实施例中，由于每个标签包含有至少一个文本类别，例如，<head>标签可能包含有两个文本类别；文本类别1：来源；文本类别2：时间，将所述待提取网页的目标向量输入至预先训练好的的深度神经网络，接收所述深度神经网络输出的每个标签的文本类别。

在其他一些实施例汇总，所述深度神经网络的训练过程包括：

41)读取预设数量的网页的数据集；

42)将所述数据集划分为训练集和测试集；

43)利用所述训练集进行模型训练，以生成深度神经网络模型，并利用所述测试集对所述深度神经网络模型进行验证；

44)若验证通过率大于或者等于预设阈值，则训练完成，否则增加所述训练集的数量，以重新进行训练及验证。

本实施例中，通过读取预设数量的网页的数据集，具体地，所述数据集中包括每个网页的所有标签、所有标签类别、每个标签的标签类别的标签内容及所述预设数据的网页的所有标签的编码，在读取到数据集后，将所述数据集划分为训练集和测试集，然后定义模型，利用所述训练集进行模型训练，以生成深度神经网络模型，并利用所述测试集对所述深度神经网络模型进行验证，若验证通过率大于或者等于预设阈值，则训练完成，否则增加所述训练集的数量，以重新进行训练及验证，在后续的深度神经网络模型的训练中，通过不断的增加新的训练集的数量对所述深度神经网络模型进行训练，提高了训练得到的所述深度神经网络模型的准确性，进而提高了获得每个标签的文本类别的准确度。

可选地，所述将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别包括：

本实施例中，通过对所述隐藏状态序列进行线性运算得到每个标签的文本类别的分数，将所述每个标签的文本类别的分数通过softmax层映射为每个标签的文本类别对应的概率，具体地，所述softmax就是将所述目标向量归一化为(0，1)之间的值。

示例性的，在其他优选的实施例中，可以将所述目标向量中的每个句子的填充长度设置为200，所述每个句子对应的向量维度设置为768维。

本实施例中，通过softmax层映射为每个标签的文本类别对应的概率，并从所述概率中选取最大的文本类别作为所述每个标签对应的文本类别，提高了获得每个标签对应的文本类别的准确度。

进一步地，所述将所述目标向量输入至所述深度神经网络的双向LSTM层获得目标隐藏状态序列包括：

提取所述目标向量中每个标签的特征向量；

本实施例中，所述预设规则可以预先设置，例如，可以按照隐藏状态序列中的每个特征向量的输出位置进行拼接获得目标隐藏状态序列，将每个标签的文本内容对应的特征向量的序列作为所述每个标签的时间步。

本实施例中，通过将所述第一隐藏状态序列和所述第二隐藏状态序列按照预设规则进行拼接获得目标隐藏状态序列，对所述目标隐藏状态序列进行线性运算得到每个标签的文本类别的分数，提高了每个标签的文本类别的分数的准确率。

S15，计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度。

本实施例中，所述每个标签包括至少一个文本类别，每个文本类别对应有文本内容，在进行提取的过程中，可能会将相同标签的相同文本类别分类到两个标签，当相同标签的相同文本类别分类到两个标签时，通过计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度，根据所述相关度确定出所述相同文本类别对应的目标标签。

可选地，所述计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度包括：

获取每个标签的文本类别及所述文本类别的预设字段格式；

本实施例中，可以为每个标签的文本类别的文本内容预先设置字段格式，提取每个标签的文本类别的文本内容，并将所述文本内容转换为多个字段，采用正则匹配算法计算所述每个字段的字段格式与相同标签的相同文本类别的文本内容的预设字段格式之间的相关度。

示例性地，文本类别“时间”对应的文本内容1999年9月12日，A标签对应的文本类别“时间”的预设字段格式为XXXX年XX月XX日，B标签对应的文本类别“时间”的预设字段格式为XXXX/XX/XX，通过采用正则匹配算法计算所述文本类别“时间”对应的文本内容与文本类别“时间”的预设字段格式之间的相关度，确定所述文本类别“时间”对应的文本内容属于A标签还是B标签，提高了所述待提取网页的网页内容提取的准确率。

S16，根据所述每个标签的文本类别的字段格式相关度提取所述待提取网页的网页内容。

本实施例中，可以根据每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度，确定每个标签的文本类别对应的文本内容，提高了对所述待提取网页的网页内容的提取的灵活性，此外，避免了相同类别的文本内容分类到两个标签的现象，提高了所述待提取网页的网页内容提取的准确率。

可选地，所述根据所述每个标签的文本类别的字段格式相关度提取所述待提取网页的网页内容包括：

当所述每个标签的文本类别的字段格式相关度大于或者等于所述相同标签的相同文本类别对应的预设的字段格式相关度阈值时，则提取所述每个标签的文本类别的文本内容得到所述待提取网页的网页内容。

本实施例中，可以预先为每个标签的文本类别设置相关度阈值，当所述每个标签的文本类别的字段格式相关度大于或者等于所述相同标签的相同文本类别对应的预设的字段格式相关度阈值，确定所述每个标签的文本类别的文本内容为所述待提取网页的标签对应的网页内容，对所述目标标签的目标文本类别的文本内容进行提取，获得所述待提取网页的网页内容，通过预先为每个标签的文本类别的字段格式设置相关度阈值，将计算得到的每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度与对应的预设的字段格式相关度阈值进行比对，避免了提取的标签对应的文本内容错误的现象，提高了所述待提取网页的网页内容提取的准确率。

进一步地，所述方法还包括：

当所述每个标签的文本类别的字段格式相关度小于所述相同标签的相同文本类别对应的预设的字段格式相关度阈值时，确定所述每个标签的文本类别的文本内容与对应的相同标签的相同文本类别不一致；

当确定所述每个标签的文本类别的文本内容与对应的相同标签的相同文本类别不一致时，标识所述每个标签的文本类别的文本内容为失效文本内容。

本实施例中，当所述每个标签的文本类别的字段格式相关度小于所述相同标签的相同文本类别对应的预设的字段格式相关度阈值，确定所述每个标签的文本类别的文本内容不为所述待提取网页的标签对应的网页内容，将所述标签的标签类别的文本内容标识为失效文本内容，避免了重复提取所述标签的标签类别的文本内容，提高了所述待提取网页的网页内容提取的效率。

综上所述，本实施例所述的一种网页的文本内容提取方法，通过获取待提取网页的源代码；从所述源代码中提取所有标签的中间内容，并对每个标签的中间内容进行预处理得到每个标签的第一文本内容；对预训练模型BERT进行参数微调得到参数共享的BERT模型，将所述每个标签的第一文本内容输入至所述参数共享的BERT模型，得到每个标签的目标向量；将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别；计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度；根据所述每个标签的文本类别的字段格式相关度提取所述待提取网页的网页内容。

本实施例，一方面，根据每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度，确定每个标签的文本类别对应的文本内容，避免了相同文本类别的文本内容分类到两个标签的现象，提高了对所述待提取网页的网页内容的提取的灵活性和准确率；另一方面，通过预先为每个标签的文本类别的字段格式设置相关度阈值，将计算得到的每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度与对应的预设的字段格式相关度阈值进行比对，避免了提取的标签对应的文本内容错误的现象，提高了所述待提取网页的网页内容提取的准确率；最后，通过构建深度神经网络的训练样本进行深度神经网络训练，将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别，在后续的深度神经网络模型的训练中，通过不断的增加新的训练集的数量对所述深度神经网络模型进行训练，提高了训练得到的所述深度神经网络模型的准确性，进而提高了获得每个标签的文本类别的准确度。

实施例二

在一些实施例中，所述网页的文本内容提取装置20可以包括多个由程序代码段所组成的功能模块。所述网页的文本内容提取装置20中的各个程序段的程序代码可以存储于电子设备的存储器中，并由所述至少一个处理器所执行，以执行(详见图1描述)网页的文本内容提取的功能。

本实施例中，所述网页的文本内容提取装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：获取模块201、第一提取模块202、第一输入模块203、第二输入模块204、计算模块205、第二提取模块206及确定模块207。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

获取模块201，用于获取待提取网页的源代码。

第一提取模块202，用于从所述源代码中提取所有标签的中间内容，并对每个标签的中间内容进行预处理得到每个标签的第一文本内容。

可选地，所述第一提取模块202对每个标签的中间内容进行预处理得到每个标签的第一文本内容包括：

去除所述每个标签的中间内容中的冗余数据；

本实施例中，在得到每个标签的中间内容之后，通过对所述每个标签的中间内容进行预处理获得干净的数据，对干净的数据按照预设的缺失比例处理规则对所述每个标签的中间内容进行归一化得到每个标签的多个句子，并在每个标签的每个句子的开头插入第一标记，及在每个标签的每个句子的末尾插入第二标记，其中，所述第一标记可以为[CLS]标记，所述第二标记可以为[SEP]标记，根据每个句子序号的先后顺序对所述标记后的所述多个句子进行拼接得到每个标签的第一文本内容，提高了对每个标签对应的第一文本内容的管理效率。

第一输入模块203，用于对预训练模型BERT进行参数微调得到参数共享的BERT模型，将所述每个标签的第一文本内容输入至所述参数共享的BERT模型，得到每个标签的目标向量。

可选地，所述第一输入模块203对所述预训练模型BERT进行参数微调得到参数共享的BERT模型包括：

第二输入模块204，用于将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别。

在其他一些实施例中，所述深度神经网络的训练过程包括：

41)读取预设数量的网页的数据集；

42)将所述数据集划分为训练集和测试集；

可选地，所述第二输入模块204将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别包括：

提取所述目标向量中每个标签的特征向量；

计算模块205，用于计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度。

可选地，所述计算模块205计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度包括：

获取每个标签的文本类别及所述文本类别的预设字段格式；

第二提取模块206，用于根据所述每个标签的文本类别的字段格式相关度提取所述待提取网页的网页内容。

本实施例中，可以根据每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度，确定每个标签的文本类别对应的文本内容，提高了对所述待提取网页的网页内容的提取的灵活性，此外，避免了相同文本类别的文本内容分类到两个标签的现象，提高了所述待提取网页的网页内容提取的准确率。

可选地，所述第二提取模块206根据所述每个标签的文本类别的字段格式相关度提取所述待提取网页的网页内容包括：

进一步地，确定模块207，用于当所述每个标签的文本类别的字段格式相关度小于所述相同标签的相同文本类别对应的预设的字段格式相关度阈值时，确定所述每个标签的文本类别的文本内容与对应的相同标签的相同文本类别不一致；当确定所述每个标签的文本类别的文本内容与对应的相同标签的相同文本类别不一致时，标识所述每个标签的文本类别的文本内容为失效文本内容。

综上所述，本实施例所述的一种网页的文本内容提取装置，通过获取待提取网页的源代码；从所述源代码中提取所有标签的中间内容，并对每个标签的中间内容进行预处理得到每个标签的第一文本内容；对预训练模型BERT进行参数微调得到参数共享的BERT模型，将所述每个标签的第一文本内容输入至所述参数共享的BERT模型，得到每个标签的目标向量；将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别；计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度；根据所述每个标签的文本类别的字段格式相关度提取所述待提取网页的网页内容。

实施例三

参阅图3所示，为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中，所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的电子设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述电子设备3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述电子设备3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31用于存储程序代码和各种数据，例如安装在所述电子设备3中的网页的文本内容提取装置20，并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中，所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行电子设备3的各种功能和处理数据。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述电子设备3还可以包括给各个部件供电的电源(比如电池)，可选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在进一步的实施例中，结合图2，所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的网页的文本内容提取装置20)、程序代码等，例如，上述的各个模块。

所述存储器31中存储有程序代码，且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如，图2中所述的各个模块是存储在所述存储器31中的程序代码，并由所述至少一个处理器32所执行，从而实现所述各个模块的功能以达到网页的文本内容提取的目的。

在本发明的一个实施例中，所述存储器31存储多个指令，所述多个指令被所述至少一个处理器32所执行以实现网页的文本内容提取的功能。

具体地，所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

进一步地，所述计算机可读存储介质可以是非易失性，也可以是易失性。

进一步地，所述计算机可读存储介质主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种网页的文本内容提取方法，其特征在于，所述方法包括：

获取待提取网页的源代码；

2.如权利要求1所述的网页的文本内容提取方法，其特征在于，所述将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别包括：

3.如权利要求2所述的网页的文本内容提取方法，其特征在于，所述将所述目标向量输入至所述深度神经网络的双向LSTM层获得目标隐藏状态序列包括：

提取所述目标向量中每个标签的特征向量；

4.如权利要求1所述的网页的文本内容提取方法，其特征在于，所述计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度包括：

获取每个标签的文本类别及所述文本类别的预设字段格式；

5.如权利要求1所述的网页的文本内容提取方法，其特征在于，所述根据所述每个标签的文本类别的字段格式相关度提取所述待提取网页的网页内容包括：

6.如权利要求1所述的网页的文本内容提取方法，其特征在于，所述对每个标签的中间内容进行预处理得到每个标签的第一文本内容包括：

去除所述每个标签的中间内容中的冗余数据；

7.如权利要求1所述的网页的文本内容提取方法，其特征在于，所述深度神经网络的训练过程包括：

读取预设数量的网页的数据集；

将所述数据集划分为训练集和测试集；

8.一种网页的文本内容提取装置，其特征在于，所述装置包括：

获取模块，用于获取待提取网页的源代码；

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的网页的文本内容提取方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的网页的文本内容提取方法。