CN112131506B

CN112131506B - 一种网页分类方法、终端设备及存储介质

Info

Publication number: CN112131506B
Application number: CN202011013718.6A
Authority: CN
Inventors: 陈志明; 赵建强; 庄灿波; 刘晓芳; 曾鹏
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2022-04-29
Anticipated expiration: 2040-09-24
Also published as: CN112131506A

Abstract

本发明涉及一种网页分类方法、终端设备及存储介质，该方法中包括：S1：采集多种类型的网页，根据每个网页中至少两种类型的特征构建图结构，并对网页的类型进行标记后，将所有具有类型标记的图结构组成训练集；S2：构建图卷积神经网络模型，通过训练集对图卷积神经网络模型进行训练，将训练后的模型作为网页分类模型；S3：针对待分类网页，根据步骤S1所述的至少两种类型的特征构建图结构后，通过网页分类模型确定图结构对应的网页类型。本发明充分学习网页中的文本和图片等额外的异构信息来构建网页分类模型，相对现有网页分类方法，能有效的解决基于单一数据结构的网页分类方法的局限性，能够明显解决网页特征稀疏问题。

Description

一种网页分类方法、终端设备及存储介质

技术领域

本发明涉及网页分类领域，尤其涉及一种网页分类方法、终端设备及存储介质。

背景技术

随着互联网技术的迅速普及，互联网应用也蓬勃发展。高质量、个性化的内容不断涌现，越来越多的网民可以共享着丰富的网络资源。但同时，一些违法犯罪行为也隐藏其中，在网络中发布大量虚假信息、广告信息、网络诈骗等各类违规违法信息，严重危害广大网民的财产安全。如何发现和识别这类不良文本信息，净化网络空间，亟需提出一种高效智能的网页分析方法。

网页内容信息结构多样，图片，文本，视频等内容纵横交错，且文本内容篇幅不一，位置分布各异。这使得在对网页内容分析和分类过程面临着更大的挑战。已有的网页分类研究主要有两种：1)通过和已知类别的网页内容或者网址信息的对比，判断新网页的所属类别。该方法灵活性较差，且存在泛化能力低的问题；2)基于网页内容构建分类模型，目前使用的网页特征大多过于单一，例如仅仅使用文本信息或者仅仅使用图片信息作为网页的特征表示，并无法较完整的表示网页的内容信息，忽略了其他结构数据携带的信息往往会忽略关键信息且造成特征更加稀疏，存在明显的局限性。现有网页分类方法存在以下不足：(1)目前通过对比网页内容或网址的方法，通常需要构建规模较大对比库，该方法不仅前后期更新对比库的人工成本高，而且该方法的分类易错率高，泛化性差；(2)目前基于网页内容构建分类模型，由于建模过程中只考虑单一结构的数据，但是网页内容信息结构多样，有些网页可能只有文本，也可能只有图片等。因而易见现基于单结构数据的分类方法，并不能广泛的适用所有网页数据，无法解决特征稀疏问题，适用范围十分有限，模型效果无法保证。

发明内容

为了解决上述问题，本发明提出了一种网页分类方法、终端设备及存储介质。

具体方案如下：

一种网页分类方法，包括以下步骤：

S1：采集多种类型的网页，根据每个网页中至少两种类型的特征构建图结构，并对网页的类型进行标记后，将所有具有类型标记的图结构组成训练集；

S2：构建图卷积神经网络模型，通过训练集对图卷积神经网络模型进行训练，将训练后的模型作为网页分类模型；

S3：针对待分类网页，根据步骤S1所述的至少两种类型的特征构建图结构后，通过网页分类模型确定图结构对应的网页类型。

进一步的，步骤S1中图结构的构建包括节点的构建和边的构建。

进一步的，构建的节点包括图片类型对应的图片节点、文本类型对应的文本节点和网页结构类型对应的网页节点。

进一步的，图片节点通过卷积神经网络模型构建图片节点的特征，具体构建方法为：对原始图片进行卷积操作，得到卷积结果；对不同通道的卷积结果进行全局特征提取。

进一步的，文本节点将通过Bi-STLMs学习词语的分布表示作为文本节点的特征，具体方法为：提取网页中的文本内容，并进行分词处理；从Glove中获取得到词语的分布表示；通过构建Bi-LSTMs层来获取序列信息，得到文本节点的表示。

进一步的，边的构建规则包括以下步骤：

S101：计算网页中出现的任意两个文本之间的点互信息值，在点互信息值大于0对应的两个文本节点之间构建边，并将构建的边的权重初始化设定为点互信息值；

S102：根据网页中出现的文本和图片，在每个图片节点与其对应的所有文本节点之间构建边，并将边的权重初始化设定为边两端的两个节点之间的点互信息值；

S103：根据网页中出现的文本，构建每个文本节点与其对应的所有网页节点之间构建边，并将边的权重初始化设定为文本的TF-IDF值；

S104：根据网页中出现的图片，构建每个图片节点与其对应的所有网页节点之间构建边，并将边的权重初始化设定为图片在网页中出现的频数；

S105：根据网页中出现的图片，构建每个图片节点与其对应的所有图片节点之间的边，并将边的权重初始化设定为边两端的两个图片节点对应图片共同出现的频数。

一种网页分类终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，充分学习网页中的文本和图片等额外的异构信息来构建网页分类模型，相对现有网页分类方法，能有效的解决基于单一数据结构的网页分类方法的局限性，能够明显解决网页特征稀疏问题，同时本发明适用范围更加的广泛且识别效果更好，能够显著解决现有技术的缺陷。

附图说明

图1所示为本发明实施例一的流程图。

图2所示为该实施例中的图结构的示意图。

图3所示为该实施例中图片节点特征表示示意图。

图4所示为该实施例中文本节点特征表示示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种网页分类方法，如图1所示，所述方法包括以下步骤：

S1：采集多种类型的网页，根据每个网页中至少两种类型的特征构建图结构，并对网页的类型进行标记后，将所有具有类型标记的图结构组成训练集。

图结构的构建包括节点的构建和边的构建。该实施例中节点包括图片类型对应的图片节点、文本类型对应的文本节点和网页结构类型对应的网页节点，如图2所示，其中，“O”开头的节点表示不同的网页节点，“W”开头的节点表示不同的文本节点，“P”开头的节点表示不同的图片节点。

1.图片节点

该实施例中图片节点通过卷积神经网络模型构建图片节点的特征，在其他的实施例中也可以采用任意的其他方法构建图片节点的特征，在此不做限制。

如图3所示，该实施例中图片节点的具体构建步骤为：

(1)对原始图片进行卷积操作，得到卷积结果f_cnn(I；θ_cnn)；其中具体的卷积网络结构不做限制，可以是任意大小的卷积核，池化等操作组合，提取效果与实际样本特征有关。

(2)对不同通道的卷积结果f_cnn(I；θ_cnn)进行全局特征提取。提取方式不做限制，可以是特征拼接或者池化等提取方式。该实施例中采用最大池化提取全局特征为例，得到图片节点的特征x_p为：

x_p＝f_GMP(f_cnn(I；θ_cnn))∈R^D

其中：θ_cnn表示模型参数，D为设定的特征维度。

2.文本节点

组成文本节点的文本可以是字，词语或者是句子文档级等，节点的特征可以通过任意的文本表示方法进行表示，在此不做限制，该实施例中以Bi-STLMs学习词语的分布表示为例进行说明。具体示意图如下图4所示，包括以下步骤：

(1)提取网页中文本的内容，并进行分词处理得到W＝{w₁,w₂,…,w_n}。

(2)从Glove中获取得到词语的分布表示

(3)通过构建Bi-LSTMs层来获取序列信息，得到文本节点的特征x_w：

其中：θ_lstm是Bi-LSTMs的参数。

3.边的构建

可以在满足任意既定规则的节点之间构建出边，并通过任意衡量方式量化节点之间边的权重。边的构建规则和边的权重量化方式在此不做限制，以下举例说明边的构建规则和边权重的衡量方式。同时集成网页中网页结构信息、文字信息和图片信息三者异构信息时，共会存在5种边的关系，即文本节点与文本节点的边，文本节点与图片节点的边，文本节点与网页节点的边，图片节点与网页节点的边，图片节点与图片节点的边。具体构建规则如下：

S101：计算网页中出现的任意两个文本之间的点互信息值，在点互信息值大于0对应的两个文本节点之间构建边，并将构建的边的权重初始化设定为点互信息值。

PMI的计算公式为：

其中：#W(i)表示设定大小的滑动窗口包含该文本的次数，#W(i,j)表示设定大小的滑动窗口中同时包含文本i和文本j的次数；#W表示语料库中设定大小的滑动窗口总数。

S102：根据网页中出现的文本和图片，在每个图片节点与其对应的所有文本节点之间构建边，并将边的权重初始化设定为边两端的两个节点之间的点互信息值。

S103：根据网页中出现的文本，构建每个文本节点与其对应的所有网页节点之间构建边，并将边的权重初始化设定为文本的TF-IDF值。

S104：根据网页中出现的图片，构建每个图片节点与其对应的所有网页节点之间构建边，并将边的权重初始化设定为图片在网页中出现的频数。

S2：构建图卷积神经网络模型，通过训练集对图卷积神经网络模型进行训练，将训练后的模型作为网页分类模型。

图卷积神经网络GCN是一种多层神经网络，可以直接在同构图上运行，根据节点的邻域属性归纳节点的分布表示。图的逐层传播规则为：

A'＝A+I

M_ij＝∑_jA_i'_j

其中：A为邻接矩阵，M为度量矩阵，W^l是可训练的变化矩阵，σ(·)是激活函数，H^(l)是l层中节点的隐藏表示。H⁽⁰⁾为节点表示矩阵。

经过将l层传播后，最后连接一层softmax分类层。对网页节点进行类别预测：

Z＝soft max(H^(l))

在模型训练过程中，利用L2范数对训练数据的交叉熵损失进行处理：

其中：W_train为训练数据集合，C是类别参数，Y是真实标签矩阵，Θ是模型参数，η是正则化因子。

通过本发明实施例训练得到的网页分类模型，在对网页分类时，不仅考虑了网页中文本语义信息，而且还捕获了网页中存在的图片信息，有效避免了基于单一结构数据构建得到的模型在网页分类中常常碰到特征稀疏问题，面对所依赖信息结构较少，特征稀疏时分类效果差的问题。可以在网页有害内容检测及网页分类等领域中有着广阔的市场和运用。

实施例二：

本发明还提供一种网页分类终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述网页分类终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述网页分类终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述网页分类终端设备的组成结构仅仅是网页分类终端设备的示例，并不构成对网页分类终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述网页分类终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述网页分类终端设备的控制中心，利用各种接口和线路连接整个网页分类终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述网页分类终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述网页分类终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种网页分类方法，其特征在于，包括以下步骤：

S1：采集多种类型的网页，根据每个网页中至少两种类型的特征构建图结构，并对网页的类型进行标记后，将所有具有类型标记的图结构组成训练集；图结构的构建包括节点的构建和边的构建；边的构建规则包括以下步骤：

S105：根据网页中出现的图片，构建每个图片节点与其对应的所有图片节点之间的边，并将边的权重初始化设定为边两端的两个图片节点对应图片共同出现的频数；

2.根据权利要求1所述的网页分类方法，其特征在于：构建的节点包括图片类型对应的图片节点、文本类型对应的文本节点和网页结构类型对应的网页节点。

3.根据权利要求2所述的网页分类方法，其特征在于：图片节点通过卷积神经网络模型构建图片节点的特征，具体构建方法为：对原始图片进行卷积操作，得到卷积结果；对不同通道的卷积结果进行全局特征提取。

4.根据权利要求2所述的网页分类方法，其特征在于：文本节点将通过Bi-STLMs学习词语的分布表示作为文本节点的特征，具体方法为：提取网页中的文本内容，并进行分词处理；从Glove中获取得到词语的分布表示；通过构建Bi-LSTMs层来获取序列信息，得到文本节点的表示。

5.一种网页分类终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～4中任一所述方法的步骤。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1～4中任一所述方法的步骤。