CN113869030A

CN113869030A - 资讯文本的获取方法、装置、电子设备及可读存储介质

Info

Publication number: CN113869030A
Application number: CN202111177872.1A
Authority: CN
Inventors: 邹俊逸
Original assignee: Guangdong Bozhilin Robot Co Ltd
Current assignee: Guangdong Bozhilin Robot Co Ltd
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2021-12-31

Abstract

本申请实施例提供资讯文本的获取方法，涉及计算机领域，该资讯文本的获取方法包括：对获取到的HTML资讯页面进行解析，得到Dom树有向图结构；HTML资讯页包括多个HTML节点；将Dom树有向图结构中的数据输入至预设的图神经网络深度学习模型，以使图神经网络深度学习模型预测每个HTML节点属于正文内容的概率，得到与多个HTML节点一一对应的多个预测概率；获取与多个预测概率中前N个最大的指定概率一一对应的多个HTML指定节点；N为预设数；获取与多个HTML指定节点对应的资讯正文文本。可见，实施这种实施方式，能够提高资讯文本的获取自动化与获取通用性，同时还能够避免人工干预，从而极大程度地降低了资讯文本获取方案中的开发成本和维护成本。

Description

资讯文本的获取方法、装置、电子设备及可读存储介质

技术领域

本申请涉及计算机领域，具体而言，涉及一种资讯文本的获取方法、装置、电子设备及可读存储介质。

背景技术

目前，各种资讯的获取方式通常都是使用爬虫脚本的方式进行实现的。然而，传统爬虫脚本通常都是先解析HTML网页为Dom树，再根据人工观察的方式抽取出正文内容所在的节点，并通过人工提取的方式获取该节点内包含的所有文字信息。另外，因为每个HTML网页的排版和页面样式都会有些许不同，所以上述的这种使用爬虫脚本的方式还存在通用性的问题。这就使得，整个流程中始终都需要人工干预，从而导致了资讯文本获取方案中的开发成本和维护成本及其高昂。

发明内容

本申请实施例的目的在于提供一种资讯文本的获取方法、装置、电子设备及可读存储介质，能够提高资讯文本的获取自动化与获取通用性，同时还能够避免人工干预，从而极大程度地降低了资讯文本获取方案中的开发成本和维护成本。

本申请实施例第一方面提供了一种资讯文本的获取方法，包括：

对获取到的HTML资讯页面进行解析，得到Dom树有向图结构；所述HTML资讯页包括多个HTML节点；

将所述Dom树有向图结构中的数据输入至预设的图神经网络深度学习模型，以使所述图神经网络深度学习模型预测每个HTML节点属于正文内容的概率，得到与多个HTML节点一一对应的多个预测概率；

获取与所述多个预测概率中前N个最大的指定概率一一对应的多个HTML指定节点；N为预设数；

获取与所述多个HTML指定节点对应的资讯正文文本。

在上述实现过程中，该方法能够基于HTML资讯页面进行相应的解析与数据结构转换，同时并根据数据转换得到的结果和预设的人工智能模型识别出正文内容的位置，然后，在基于该位置提取出正文内容的全部资讯正文文本。可见，实施这种实施方式，能够针对不同的网站的不同HTML页面，预测出HTML页面中每个节点属于正文内容的概率，并根据该概率抽取资讯正文文本，从而使得爬虫技术适用于该方法，提高资讯文本的获取通用性，并且还能够在一定程度上提高爬取目标内容的成功概率，还可以提高内容的爬取效率；另外，该方法还不需要人工进行干预，从而能够极大程度地降低资讯文本获取方案中的开发成本和维护成本。

进一步地，所述对获取到的HTML资讯页面进行解析，得到Dom树有向图结构的步骤包括：

对获取到的HTML资讯页面进行解析，得到Dom树；

对所述Dom树进行数据结构转化，得到Dom树有向图结构。

进一步地，所述获取与所述多个HTML指定节点对应的资讯正文文本的步骤包括：

获取所述多个HTML指定节点对应的最小公共父节点；

调取所述最小公共父节点下的字符内容，并标记所述字符内容为资讯正文文本。

进一步地，所述图神经网络深度学习模型预测每个HTML节点属于正文内容的概率，得到与多个HTML节点一一对应的多个预测概率的步骤包括：

所述图神经网络深度学习模型根据所述数据包括的所述多个HTML节点和所述多个HTML节点之间的相互连接信息，预测每个HTML节点属于正文内容的概率，得到与多个HTML节点一一对应的多个预测概率。

本申请实施例第二方面提供了一种图神经网络深度学习模型的训练方法，所述方法还包括：

根据3～6个叠加的图卷积层和1个全连接层，构建基于图神经网络的特征抽取模型；

获取与HTML训练页面对应的训练用Dom树有向图结构，并获取与HTML训练页面对应的标注数据集；

分割所述训练用Dom树有向图结构中的数据为训练集和测试集；所述训练集和所述测试集的数量比值为预设比值；

根据所述标注数据集、所述训练集和所述测试集对所述特征抽取模型进行训练，得到图神经网络深度学习模型；其中，

每一个图卷积层的结构为：

H^(l+1)＝D^-1AH^(l)；

D用于表示所述训练用Dom树有向图结构包括的度信息矩阵；

A用于表示所述训练用Dom树有向图结构包括的边信息矩阵；

H⁽¹⁾用于表示所述训练用Dom树有向图结构包括的节点信息；

l用于表示所述特征抽取模型中的第l层图卷积层；

H^(1+l)用于表示经过特征抽取和变换得到的节点特征信息矩阵。

在上述实现过程中，该方法可以对HTML训练页面进行解析与标注，并根据解析结果和标注结果进行人工智能模型的训练，从而得到一个能够用于上述资讯文本的获取方法中的优质人工智能模型。该人工智能模型能够用于预测HTML节点对应的字符内容是否属于正文内容的概率。可见，实施这种实施方式，能够获取到上述的人工智能模型，并有利于提高对资讯文本的获取质量与效率，从而保证资讯文本的获取自动化和通用性。

进一步地，所述获取与HTML训练页面对应的训练用Dom树有向图结构的步骤包括：

对所述预设浏览器对HTML训练页面进行渲染，并构建对应的Dom树；

将所述HTML训练页面中的<html>节点确定为根节点；

根据所述根节点和预设遍历规则进行遍历解析，得到所述根节点包括的多个子节点；

将所述根节点和所有子节点确定为多个HTML节点，记录每个HTML节点包括字符内容；

获取所述每个HTML节点的CSS属性值和所述每个HTML节点在预设个不同特征维度下的数值特征；

根据所述每个HTML节点在预设个不同特征维度下的数值特征生成训练用Dom树有向图结构；其中，所述Dom树的有向图结构包括由矩阵表示的节点信息、由矩阵表示的边信息以及由矩阵表示的度信息。

进一步地，所述预设个不同特征维度包括和正文相关性最高的12个特征维度，其中，所述12个特征维度包括：

所述HTML节点内包含中文字符的个数；

所述HTML节点高度占整个页面高度的比例；

所述HTML节点宽度占整个页面宽度的比例；

所述HTML节点左上顶点坐标到<h1>节点左上顶点的距离；

所述HTML节点的标签是否为<div>；

所述HTML节点的标签是否为<a>；

所述HTML节点额标签是否为<p>；

所述HTML节点的标签是否为除<div>、<a>、<p>之外的其它标签；

所述子节点的个数；

所述子节点标签为<div>的个数；

所述子节点标签为<a>的个数；

所述子节点标签为<p>的个数。

进一步地，所述获取与HTML训练页面对应的标注数据集的步骤包括：

提取HTML训练页面中包括的正文文本字符串；

获取所述HTML训练页面包括的多个HTML节点；

获取与所述多个HTML节点一一对应的多个字符内容；

根据每个字符内容是否为所述正文文本字符串的子集对所述多个HTML节点进行标注，得到标注数据集。

本申请实施例第三方面提供了一种资讯文本的获取装置，所述资讯文本的获取装置包括：

解析单元，用于对获取到的HTML资讯页面进行解析，得到Dom树有向图结构；所述HTML资讯页包括多个HTML节点；

预测单元，用于将所述Dom树有向图结构中的数据输入至预设的图神经网络深度学习模型，以使所述图神经网络深度学习模型预测每个HTML节点属于正文内容的概率，得到与多个HTML节点一一对应的多个预测概率；

第一获取单元，用于获取与所述多个预测概率中前N个最大的指定概率一一对应的多个HTML指定节点；

所述第一获取单元，还用于获取与所述多个HTML指定节点对应的资讯正文文本。

在上述实现过程中，该装置能够针对不同的网站的不同HTML页面，预测出HTML页面中每个节点属于正文内容的概率，并根据该概率抽取资讯正文文本，从而使得爬虫技术适用于该方法，提高资讯文本的获取通用性，并且还能够在一定程度上提高爬取目标内容的成功概率，还可以提高内容的爬取效率；另外，该方法还不需要人工进行干预，从而能够极大程度地降低资讯文本获取方案中的开发成本和维护成本。

本申请实施例第四方面提供了一种图神经网络深度学习模型的训练装置，所述图神经网络深度学习模型的训练装置包括：

构建单元，用于根据3～6个叠加的图卷积层和1个全连接层，构建基于图神经网络的特征抽取模型；

第二获取单元，用于获取与HTML训练页面对应的训练用Dom树有向图结构，并获取与HTML训练页面对应的标注数据集；

分割单元，用于分割所述训练用Dom树有向图结构中的数据为训练集和测试集；所述训练集和所述测试集的数量比值为预设比值；

训练单元，用于根据所述标注数据集、所述训练集和所述测试集对所述特征抽取模型进行训练，得到图神经网络深度学习模型；其中，

每一个图卷积层的结构为：

H^(l+1)＝D^-1AH^(l)；

D用于表示所述训练用Dom树有向图结构包括的度信息矩阵；

A用于表示所述训练用Dom树有向图结构包括的边信息矩阵；

l用于表示所述特征抽取模型中的第l层图卷积层；

在上述实现过程中，该装置能够获取到上述的人工智能模型，并有利于提高对资讯文本的获取质量与效率，从而保证资讯文本的获取自动化和通用性。

本申请实施例第五方面提供了一种电子设备，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的资讯文本的获取方法。

本申请实施例第六方面提供了一种计算机可读存储介质，其存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行本申请实施例第一方面中任一项所述的资讯文本的获取方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种资讯文本的获取方法的流程示意图；

图2为本申请实施例提供的另一种资讯文本的获取方法的流程示意图；

图3为本申请实施例提供的一种图神经网络深度学习模型的训练方法的流程示意图；

图4为本申请实施例提供的另一种图神经网络深度学习模型的训练方法的流程示意图；

图5为本申请实施例提供的一种资讯文本的获取装置的结构示意图；

图6为本申请实施例提供的另一种资讯文本的获取装置的结构示意图；

图7为本申请实施例提供的一种图神经网络深度学习模型的训练装置的结构示意图；

图8为本申请实施例提供的另一种图神经网络深度学习模型的训练的结构示意图；

图9为本申请实施例提供的一种Dom树结构的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

请参看图1，图1为本申请实施例提供了一种资讯文本的获取方法的流程示意图。其中，该资讯文本的获取方法包括：

S101、对获取到的HTML资讯页面进行解析，得到Dom树有向图结构；HTML资讯页包括多个HTML节点。

S102、将Dom树有向图结构中的数据输入至预设的图神经网络深度学习模型，以使图神经网络深度学习模型预测每个HTML节点属于正文内容的概率，得到与多个HTML节点一一对应的多个预测概率。

本实施例中，该方法在解析新的资讯页面的过程中，首先把其对应的HTML页面构建为Dom树，再把对应的Dom树有向图结构的数据通过图神经网络深度学习模型预测每个节点属于正文内容的概率。这样，利用深度学习神经网络模型的泛化性，使得节点标签的预测更准确。

作为一种可选的实施方式，图神经网络深度学习模型预测每个HTML节点属于正文内容的概率，得到与多个HTML节点一一对应的多个预测概率的步骤包括：

图神经网络深度学习模型根据数据包括的多个HTML节点和多个HTML节点之间的相互连接信息，预测每个HTML节点属于正文内容的概率，得到与多个HTML节点一一对应的多个预测概率。

本实施例中，各个HTML节点的特征都会受到它相连的HTML节点的特征值影响，因此在该预测过程中加入了HTML节点之间相互连接的信息。在此基础上，该方法可以通过图神经网络同时分析和处理HTML资讯页中的HTML节点所包含的信息和HTML节点之间相互连接的信息，从而能够提高对HTML资讯页中每个HTML节点是否属于正文内容的概率预测准确度。

本实施例中，HTML节点之间相互连接的信息至少包括节点与节点之间的包含关系和被包含关系。

在本实施例中，在Dom树有向图中，HTML节点之间相互连接的信息通常会包括如下3种关系：父节点到子节点的连接关系、子节点到父节点的连接关系,相同父节点下的多个子节点之间连接关系。从图上看，这是一个金字塔式的结构，其中包括正向连接、反向连接以及同级连接。

S103、获取与多个预测概率中前N个最大的指定概率一一对应的多个HTML指定节点；N为预设数。

本实施例中，该方法可以找到整个Dom树中属于正文的概率最大的3个节点，作为正文内容节点的预测结果。并找到它们的最小公共父节点，标记最小公共父节点为正文内容的根节点。

S104、获取与多个HTML指定节点对应的资讯正文文本。

本实施例中，把正文内容的根节点下的字符内容全部抽取出，标记为资讯正文文本。

本申请实施例中，该方法的执行主体可以为计算机、服务器等计算装置，对此本实施例中不作任何限定。

在本申请实施例中，该方法的执行主体还可以为智能手机、平板电脑等智能设备，对此本实施例中不作任何限定。

可见，实施本实施例所描述的资讯文本的获取方法，能够针对不同的网站的不同HTML页面，预测出HTML页面中每个节点属于正文内容的概率，并根据该概率抽取资讯正文文本，从而使得爬虫技术适用于该方法，提高资讯文本的获取通用性，并且还能够在一定程度上提高爬取目标内容的成功概率，还可以提高内容的爬取效率；另外，该方法还不需要人工进行干预，从而能够极大程度地降低资讯文本获取方案中的开发成本和维护成本。

实施例2

请参看图2，图2为本申请实施例提供的一种资讯文本的获取方法的流程示意图。如图2所示，其中，该资讯文本的获取方法包括：

S201、对获取到的HTML资讯页面进行解析，得到Dom树。

本实施例中，请参阅图9，图9示出了一种Dom树的结构示意图。其中，图9的body节点和p节点这两个节点间的被包含关系，实际上就是本文中描述的HTML节点之间相互连接的信息中的一个信息。

S202、对Dom树进行数据结构转化，得到Dom树有向图结构。

S203、对获取到的HTML资讯页面进行解析，得到Dom树有向图结构；HTML资讯页包括多个HTML节点。

S204、将Dom树有向图结构中的数据输入至预设的图神经网络深度学习模型，以使图神经网络深度学习模型预测每个HTML节点属于正文内容的概率，得到与多个HTML节点一一对应的多个预测概率。

S205、获取与多个预测概率中前N个最大的指定概率一一对应的多个HTML指定节点；N为预设数。

S206、获取多个HTML指定节点对应的最小公共父节点。

S207、调取最小公共父节点下的字符内容，并标记字符内容为资讯正文文本。

实施例3

请参看图3，图3为本申请实施例提供了一种图神经网络深度学习模型的训练方法的流程示意图。其中，该图神经网络深度学习模型的训练方法包括：

S301、根据3～6个叠加的图卷积层和1个全连接层，构建基于图神经网络的特征抽取模型。

本实施例中，每一个图卷积层的结构为：

H^(l+1)＝D^-1AH^(l)；

D用于表示训练用Dom树有向图结构包括的度信息矩阵；

A用于表示训练用Dom树有向图结构包括的边信息矩阵；

H⁽¹⁾用于表示训练用Dom树有向图结构包括的节点信息；

l用于表示特征抽取模型中的第l层图卷积层；

本实施例中，有向图中的节点信息H由矩阵表示，节点信息H矩阵的大小为节点数量N*节点特征维度W([N*W])，节点信息H矩阵中的每一行存储一个节点的在所有特征维度下的特征信息，节点信息H矩阵中的每一列存储在其中一个特征维度下所有节点的特征属性值。

在本实施例中，有向图中的边信息A由矩阵表示，边信息A矩阵的大小为节点数量N*节点数量N([N*N])，边信息A矩阵中的第i行第j列表示节点i和节点j之间是否直接连接。如果A[i，j]为1，则代表节点i和节点j之间直接连接，反之A[i，j]为0。

在本实施例中，有向图中的度信息D由矩阵表示，度信息D矩阵的大小为节点数量N*节点数量N([N*N])的对角矩阵，度信息D矩阵的第i行第i列表示和节点i直接相连的节点的个数。如果A[i,i]为m，则代表有m个节点和节点i直接连接。

S302、获取与HTML训练页面对应的训练用Dom树有向图结构，并获取与HTML训练页面对应的标注数据集。

S303、分割训练用Dom树有向图结构中的数据为训练集和测试集；训练集和测试集的数量比值为预设比值。

本实施例中，优选的预设比值为9：1。

S304、根据标注数据集、训练集和测试集对特征抽取模型进行训练，得到图神经网络深度学习模型。

本实施例中，该实施例描述出了HTML节点的分类方法。具体的，该方法是基于图神经网络的，是使用各个HTML节点在各个维度的特征值算出该节点的分类的方法。

在本实施例中，该方法相比与传统的DOM签名而言，它的泛化性更强。传统的方法通常只对当前网站有效，而本方法能够自动识别不同样式的网页中正文的位置。同时，使用深度学习方法也要比传统方法好的多。

可见，实施本实施例所描述的图神经网络深度学习模型的训练方法，能够对HTML训练页面进行解析与标注，并根据解析结果和标注结果进行人工智能模型的训练，从而得到一个能够用于上述资讯文本的获取方法中的优质人工智能模型。该人工智能模型能够用于预测HTML节点对应的字符内容是否属于正文内容的概率。可见，实施这种实施方式，能够获取到上述的人工智能模型，并有利于提高对资讯文本的获取质量与效率，从而保证资讯文本的获取自动化和通用性。

实施例4

请参看图4，图4为本申请实施例提供的一种图神经网络深度学习模型的训练方法的流程示意图。如图4所示，其中，该图神经网络深度学习模型的训练方法包括：

S401、根据3～6个叠加的图卷积层和1个全连接层，构建基于图神经网络的特征抽取模型。

本实施例中，每一个图卷积层的结构为：

H^(l+1)＝D^-1AH^(l)；

D用于表示训练用Dom树有向图结构包括的度信息矩阵；

A用于表示训练用Dom树有向图结构包括的边信息矩阵；

H⁽¹⁾用于表示训练用Dom树有向图结构包括的节点信息；

l用于表示特征抽取模型中的第l层图卷积层；

本实施例中，该方法构建基于图神经网络的特征抽取模型，模型包括6个叠加的图卷积层(GCN)和1个全连接层。该模型可以包括3-6个叠加的图卷积层(GCN)和1个全连接层。其中多个叠加的图卷积层的用途是让每个节点融合其相邻节点的特征信息。实验表明，少于3层的图卷积层会导致相邻节点特征融合不充分，超过6层的图卷积层会导致每个节点的特征表示趋向于收敛到相同的值(over-smooth)。模型的输入为HTML页面对应的Dom树有向图结构的数据，模型的输出为HTML页面中每个节点属于正文内容的概率。

本实施例中，图卷积层的输入为有向图中的度信息表示矩阵D，边信息表示矩阵A和节点信息表示矩阵H(l)(l代表第l层图卷积层)。图卷积层的输入为经过特征抽取和变换得到的节点特征信息表示矩阵H(l+1)。全连接层的输入为图卷积层的特征抽取和变换的最终结果，全连接层的输出为每个节点是否属于资讯正文的标签预测结果。

S402、对预设浏览器对HTML训练页面进行渲染，并构建对应的Dom树。

本实施例中，该方法可以通过Selenium来驱动浏览器去渲染HTML页面，构建Dom树。

本实施例中，HTML训练页面可以包括找200个以上不同的资讯类网站的资讯页面(数量越多越好)。其中，每个页面的排版尽量不同，这样训练出的深度学习神经网络模型有更强的泛化性，能更好处理各种不同排版的网页。

S403、将HTML训练页面中的<html>节点确定为根节点。

S404、根据根节点和预设遍历规则进行遍历解析，得到根节点包括的多个子节点。

本实施例中，该方法将HTML中的<html>节点为根节点，先解析根节点包含的子节点，再解析每个子节点包含的子节点，直到遍历完所有HTML页面中的节点为止。

在本实施例中，预设遍历规则可以为：当节点包含的中文字符个数小于5则停止继续解析其子节点(因为文章段落长度通常大于5)。使用该预设遍历规则可以节约服务器资源。

S405、将根节点和所有子节点确定为多个HTML节点，记录每个HTML节点包括字符内容。

本实施例中，该方法可以复制HTML训练页面中的正文文本，记录每个HTML训练页面和对应的正文文本字符串。

S406、获取每个HTML节点的CSS属性值和每个HTML节点在预设个不同特征维度下的数值特征。

本实施例中，预设个不同特征维度优选为和正文相关性最高的12个特征维度。

在本实施例中，该方法可以通过Selenium API获取每个HTML节点的CSS属性值(层叠样式表，用来控制网页元素排版)，记录每个节点在多个不同特征维度的数值作为节点的特征。其中，和正文相关性最高的12个特征包括：

1)节点内包含中文字符的个数；

2)节点高度占整个页面高度的比例；

3)节点宽度占整个页面宽度的比例；

4)节点左上顶点坐标到<h1>节点左上顶点的距离；

5)节点标签是否为<div>；

6)节点标签是否为<a>；

7)节点标签是否为<p>；

8)节点标签是否为除<div>、<a>、<p>之外的其它标签；

9)子节点的个数；

10)子节点标签为<div>的个数；

11)子节点标签为<a>的个数；

12)子节点标签为<p>的个数。

本实施例中，使用上述的12个最相关的不同特征维度，能够明显提高图神经网络深度学习模型的预测准确率。

在本实施例中，虽然可以加上其他的维度比如节点的背景颜色也可以。但是背景颜色和是否属于正文的相关性很小。因此，只有在同时使用这12个特征维度时，才能够使得图神经网络深度学习模型的预测准确率最高。在这其中，无论是删掉其中某几个维度还是增加其他不相关维度都会使得该准确率降低。

S407、根据每个HTML节点在预设个不同特征维度下的数值特征生成训练用Dom树有向图结构；其中，Dom树的有向图结构包括由矩阵表示的节点信息、由矩阵表示的边信息以及由矩阵表示的度信息。

本实施例中，该步骤用于把Dom树转化为有向图的数学数据结构表示。

本实施例中，有向图中的每个节点用上个步骤得到的每个节点的12个维度的特征来表示。其中，有向图的中的边包括3种关系，包括：父节点到子节点、子节点到父节点,相同父节点的子节点之间。

在本实施例中，Dom树有向图的中包括的3种关系皆属于HTML节点之间相互连接的信息。

S408、提取HTML训练页面中包括的正文文本字符串。

S409、获取HTML训练页面包括的多个HTML节点。

S410、获取与多个HTML节点一一对应的多个字符内容。

本实施例中，该方法可以记录每个HTML节点包含的对应可显示字符内容。

S411、根据每个字符内容是否为正文文本字符串的子集对多个HTML节点进行标注，得到标注数据集。

本实施例中，该方法可以判断HTML节点对应字符内容是否是正文文本字符串的子集，如果是子集，则标记此HTML节点为正样本，反之为负样本。得到Dom树中每个节点是否属于资讯正文的标签，导出为数据集。

S412、分割训练用Dom树有向图结构中的数据为训练集和测试集；训练集和测试集的数量比值为预设比值。

本实施例中，本实施例中，优选的预设比值为9：1。

在本实施例中，该步骤可以将数据集分割为90％的训练集和10％的测试集，用训练集训练深度学习神经网络模型的参数并导出训练完成的模型文件，再用测试集测试模型的泛化效果。模型优劣的度量标准为模型正确预测节点是否属于资讯正文的准确率。

本实施例中，先对训练用Dom树有向图结构中的数据进行随机打散(随机排序)。然后，再把该数据中的前90％设为训练集、后10％设为测试集。

S413、根据标注数据集、训练集和测试集对特征抽取模型进行训练，得到图神经网络深度学习模型。

本实施例中，该方法对于每个页面，都会遍历所有HTML节点。

实施例5

请参看图5，图5为本申请实施例提供的一种资讯文本的获取装置的结构示意图。如图5所示，该资讯文本的获取装置包括：

解析单元510，用于对获取到的HTML资讯页面进行解析，得到Dom树有向图结构；HTML资讯页包括多个HTML节点；

预测单元520，用于将Dom树有向图结构中的数据输入至预设的图神经网络深度学习模型，以使图神经网络深度学习模型预测每个HTML节点属于正文内容的概率，得到与多个HTML节点一一对应的多个预测概率；

第一获取单元530，用于获取与多个预测概率中前N个最大的指定概率一一对应的多个HTML指定节点；

第一获取单元530，还用于获取与多个HTML指定节点对应的资讯正文文本。

本申请实施例中，对于资讯文本的获取装置的解释说明可以参照实施例1或实施例2中的描述，对此本实施例中不再多加赘述。

可见，实施本实施例所描述的资讯文本的获取装置，能够针对不同的网站的不同HTML页面，预测出HTML页面中每个节点属于正文内容的概率，并根据该概率抽取资讯正文文本，从而使得爬虫技术适用于该方法，提高资讯文本的获取通用性，并且还能够在一定程度上提高爬取目标内容的成功概率，还可以提高内容的爬取效率；另外，该方法还不需要人工进行干预，从而能够极大程度地降低资讯文本获取方案中的开发成本和维护成本。

实施例6

请一并参阅图6，图6是本申请实施例提供的一种资讯文本的获取装置的结构示意图。其中，图6所示的资讯文本的获取装置是由图5所示的资讯文本的获取装置进行优化得到的。如图6所示，解析单元510包括：

解析子单元511，用于对获取到的HTML资讯页面进行解析，得到Dom树；

转化子单元512，用于对Dom树进行数据结构转化，得到Dom树有向图结构。

作为一种可选的实施方式，第一获取单元530包括：

第一获取子单元531，用于获取多个HTML指定节点对应的最小公共父节点；

调取子单元532，用于调取最小公共父节点下的字符内容，并标记字符内容为资讯正文文本。

作为一种可选的实施方式，预测单元520具体用于将所述Dom树有向图结构中的数据输入至预设的图神经网络深度学习模型，以使所述图神经网络深度学习模型根据所述数据包括的所述多个HTML节点和所述多个HTML节点之间的相互连接信息，预测每个HTML节点属于正文内容的概率，得到与多个HTML节点一一对应的多个预测概率。

在本实施例中，HTML节点之间相互连接的信息还会根据节点之间的包含关系划分为父节点和子节点，其中，该信息就包括父节点到子节点、子节点到父节点,相同父节点下的多个子节点之间的连接关系信息。

本申请实施例提供了一种电子设备，包括存储器以及处理器，存储器用于存储计算机程序，处理器运行计算机程序以使电子设备执行本申请实施例1或实施例2中任一项资讯文本的获取方法。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序指令，计算机程序指令被一处理器读取并运行时，执行本申请实施例1或实施例2中任一项资讯文本的获取方法。

实施例7

请参看图7，图7为本申请实施例提供的一种图神经网络深度学习模型的训练装置的结构示意图。如图7所示，该图神经网络深度学习模型的训练装置包括：

构建单元710，用于根据3～6个叠加的图卷积层和1个全连接层，构建基于图神经网络的特征抽取模型；

第二获取单元720，用于获取与HTML训练页面对应的训练用Dom树有向图结构，并获取与HTML训练页面对应的标注数据集；

分割单元730，用于分割训练用Dom树有向图结构中的数据为训练集和测试集；训练集和测试集的数量比值为预设比值；

训练单元740，用于根据标注数据集、训练集和测试集对特征抽取模型进行训练，得到图神经网络深度学习模型。

本实施例中，每一个图卷积层的结构为：

H^(l+1)＝D^-1AH^(l)；

D用于表示训练用Dom树有向图结构包括的度信息矩阵；

A用于表示训练用Dom树有向图结构包括的边信息矩阵；

H⁽¹⁾用于表示训练用Dom树有向图结构包括的节点信息；

l用于表示特征抽取模型中的第l层图卷积层；

本申请实施例中，对于图神经网络深度学习模型的训练装置的解释说明可以参照实施例3或实施例4中的描述，对此本实施例中不再多加赘述。

可见，实施本实施例所描述的图神经网络深度学习模型的训练获取装置，能够获取到上述的人工智能模型，并有利于提高对资讯文本的获取质量与效率，从而保证资讯文本的获取自动化和通用性。

实施例8

请一并参阅图8，图8是本申请实施例提供的一种图神经网络深度学习模型的训练装置的结构示意图。其中，图8所示的图神经网络深度学习模型的训练装置是由图7所示的图神经网络深度学习模型的训练装置进行优化得到的。如图8所示，第二获取单元720包括：

渲染子单元721，用于对预设浏览器对HTML训练页面进行渲染，并构建对应的Dom树；

确定子单元722，用于将HTML训练页面中的<html>节点确定为根节点；

遍历子单元723，用于根据根节点和预设遍历规则进行遍历解析，得到根节点包括的多个子节点；

记录子单元724，用于将根节点和所有子节点确定为多个HTML节点，记录每个HTML节点包括字符内容；

第二获取子单元725，用于获取每个HTML节点的CSS属性值和每个HTML节点在预设个不同特征维度下的数值特征；

生成子单元726，用于根据每个HTML节点在预设个不同特征维度下的数值特征生成训练用Dom树有向图结构；其中，Dom树的有向图结构包括由矩阵表示的节点信息、由矩阵表示的边信息以及由矩阵表示的度信息。

作为一种可选的实施方式，第二获取单元720还包括：

提取子单元727，用于提取HTML训练页面中包括的正文文本字符串；

第二获取子单元725，用于获取HTML训练页面包括的多个HTML节点；

第二获取子单元725，用于获取与多个HTML节点一一对应的多个字符内容；

标注子单元728，用于根据每个字符内容是否为正文文本字符串的子集对多个HTML节点进行标注，得到标注数据集。

本申请实施例中，对于图神经网络深度学习模型的训练装置的解释说明可以参照实施例3或实施4中的描述，对此本实施例中不再多加赘述。

可见，实施本实施例所描述的图神经网络深度学习模型的训练装置，能够获取到上述的人工智能模型，并有利于提高对资讯文本的获取质量与效率，从而保证资讯文本的获取自动化和通用性。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种资讯文本的获取方法，其特征在于，所述方法包括：

获取与所述多个HTML指定节点对应的资讯正文文本。

2.根据权利要求1所述的资讯文本的获取方法，其特征在于，所述对获取到的HTML资讯页面进行解析，得到Dom树有向图结构的步骤包括：

对获取到的HTML资讯页面进行解析，得到Dom树；

对所述Dom树进行数据结构转化，得到Dom树有向图结构。

3.根据权利要求1所述的资讯文本的获取方法，其特征在于，所述获取与所述多个HTML指定节点对应的资讯正文文本的步骤包括：

获取所述多个HTML指定节点对应的最小公共父节点；

4.根据权利要求1所述的资讯文本的获取方法，其特征在于，所述图神经网络深度学习模型预测每个HTML节点属于正文内容的概率，得到与多个HTML节点一一对应的多个预测概率的步骤包括：

5.一种图神经网络深度学习模型的训练方法，用于权利要求1至4中任一项所述的资讯文本的获取方法中，其特征在于，所述方法包括：

每一个图卷积层的结构为：

H(l+1)＝D^-1AH^(l)；

D用于表示所述训练用Dom树有向图结构包括的度信息矩阵；

A用于表示所述训练用Dom树有向图结构包括的边信息矩阵；

H^(l)用于表示所述训练用Dom树有向图结构包括的节点信息；

l用于表示所述特征抽取模型中的第l层图卷积层；

H^(l+1)用于表示经过特征抽取和变换得到的节点特征信息矩阵。

6.根据权利要求5所述的图神经网络深度学习模型的训练方法，其特征在于，所述获取与HTML训练页面对应的训练用Dom树有向图结构的步骤包括：

将所述HTML训练页面中的<html>节点确定为根节点；

7.根据权利要求6所述的图神经网络深度学习模型的训练方法，其特征在于，所述预设个不同特征维度包括和正文相关性最高的12个特征维度，其中，所述12个特征维度包括：

所述HTML节点内包含中文字符的个数；

所述HTML节点高度占整个页面高度的比例；

所述HTML节点宽度占整个页面宽度的比例；

所述HTML节点左上顶点坐标到<h1>节点左上顶点的距离；

所述HTML节点的标签是否为<div>；

所述HTML节点的标签是否为<a>；

所述HTML节点额标签是否为<p>；

所述HTML节点的标签是否为除<div>、<a>、<p>之外的其它标签；

所述子节点的个数；

所述子节点标签为<div>的个数；

所述子节点标签为<a>的个数；

所述子节点标签为<p>的个数。

8.根据权利要求5所述的图神经网络深度学习模型的训练方法，其特征在于，所述获取与HTML训练页面对应的标注数据集的步骤包括：

提取HTML训练页面中包括的正文文本字符串；

获取所述HTML训练页面包括的多个HTML节点；

获取与所述多个HTML节点一一对应的多个字符内容；

9.一种资讯文本的获取装置，其特征在于，所述资讯文本的获取装置包括：

10.一种图神经网络深度学习模型的训练装置，其特征在于，所述图神经网络深度学习模型的训练装置包括：

每一个图卷积层的结构为：

H(l+1)＝D^-1AH^(l)；

D用于表示所述训练用Dom树有向图结构包括的度信息矩阵；

A用于表示所述训练用Dom树有向图结构包括的边信息矩阵；

H^(l)用于表示所述训练用Dom树有向图结构包括的节点信息；

l用于表示所述特征抽取模型中的第l层图卷积层；

11.一种电子设备，其特征在于，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至4中任一项所述的资讯文本的获取方法。

12.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行权利要求1至4任一项所述的资讯文本的获取方法。