CN107908757B

CN107908757B - 网站分类方法及系统

Info

Publication number: CN107908757B
Application number: CN201711167799.3A
Authority: CN
Inventors: 卿润东; 崔渊博; 聂嘉贺; 阿曼太; 王宇; 金红; 杨满智; 刘长永
Original assignee: Eversec Beijing Technology Co Ltd
Current assignee: Eversec Beijing Technology Co Ltd
Priority date: 2017-11-21
Filing date: 2017-11-21
Publication date: 2020-05-26
Anticipated expiration: 2037-11-21
Also published as: CN107908757A

Abstract

本发明涉及网络技术领域，公开了一种网站分类方法及系统，所述方法包括步骤：将网页所含的各类信息分别训练形成各自对应的信息矩阵；将形成的多个信息矩阵拼接组成成输入层特征矩阵；提取上述输入层特征矩阵的列特征向量个数及特征向量维数，生成卷积层；将卷积得到的列向量最大值提出并池化处理，获得和卷积核维数相同的行向量，形成池化层；将池化层输出的向量添加softmax函数，形成全连接层。本发明极大提高了现有的网站分类的准确性。

Description

网站分类方法及系统

技术领域

本发明涉及网络技术领域，具体地，涉及一种网站分类方法及系统。

背景技术

互联网中的网站数目异常庞大，类别也非常多，如不良信息类的网站、新闻类网站、教育类网站等等，面对各种各样的网站，如何筛选出特定类别的网站，提取数据中有价值的信息，这些都可以用网站分类来解决。

目前，网站分类有很多方法如：

方法一、有一个网站分类的字典，每个网站通过字典来决定类别，但人工成本太高，效率低。

方法二、基于网页信息的分类，将网页信息当作一个整体，利用算法，进行分类，这样的效果分类准确率不高。

方法三、基于网络结构的分类，因网站结构和网页类别的关联性不高，只能针对特定的网站。

现有网站分类方法主要分为两种类型:

方法一、通过传统机器学习方法来进行网站分类，常见的方法有逻辑回归、朴素贝叶斯、决策树、k-近邻算法等，但是这些方法均不能将隐藏在语料间的基本特征完全提取出来，导致分类准确率不高。

方法二、通过深度学习方法来进行网站分类，常见的有cnn等算法，该算法能够识别语料间的基本特征，但是只提取了网站的文字信息特征，而网站还有如超链接、域名、网页标签信息等，网站特征提取不全，导致分类准确率不高。现有超链接处理方法为简单的统计各超链接类别数目，数目最多类别即为该网站类别，该方法并未提取出超链接的特征，分类准确率低。

发明内容

针对现有技术的缺陷，本发明所要解决的技术问题是如何提高网站分类的准确性。

为解决该问题，一方面，本发明提供了一种网站分类方法，包括步骤：

步骤S1、将网页所含的各类信息分别训练形成各自对应的信息矩阵；

步骤S2、将上述形成的多个信息矩阵拼接组成成输入层特征矩阵1；

步骤S3、提取上述输入层特征矩阵的列特征向量个数及特征向量维数，生成卷积层2；

步骤S4、将卷积得到的列向量最大值提出并池化处理，获得和卷积核维数相同的行向量，形成池化层3；

步骤S5、将池化层输出的向量添加softmax函数，形成全连接层4。

进一步地，在上述步骤S1中，从网页提取文字、超链接及域名信息分别训练形成文字信息矩阵、超链接信息矩阵和URL信息矩阵。

进一步地，所述文字信息矩阵的训练方法包括：

对网页中的文字信息进行分词；

通过word2vec，将每个词转换为词特征向量；

将各词特征向量直接拼接后得到文字信息矩阵。

进一步地，所述超链接信息矩阵的训练方法包括：

输入为设定窗口大小为2*n内的链接关系的K维向量；

将输入的向量进行求和计算得到一结果向量；

利用网页中出现的链接关系作为叶子节点建立一个Huffman树模型；

将得到的结果向量和Huffman树的非叶子节点向量进行逻辑运算，得到目标链接的Huffman树路径，并计算损失值和梯度，然后采用随机梯度上升的方法对参数进行迭代更新，最后得到训练好的超链接信息矩阵。

进一步地，所述URL信息矩阵的训练方法包括：

统计URL的关键词语料库；

比较语料库与前面得到的特征矩阵维数大小；

若小于，则重复语料库，直到长度与特征矩阵维数相同；若大于，则调整特征矩阵维数使与语料库长度相同；

建立一个维数与语料库长度相同的1行向量，若URL中出现语料库中的关键词，则将该位置元素置为1，其它位置置为0。

进一步地，采用所示Huffman树训练得到链接向量的方法具体为：

步骤S11、按照出现频率对所有外链进行排序，取频率前的外链；

步骤S12、按照出现频率对外链建一棵Huffman树；

步骤S13、为Huffman树上的每个节点随机初始化一条对应k维的初始向量；

步骤S14、对于每条外链，按设定的上下文窗口大小预测外链在Huffman树上的编号；

步骤S15、根据Huffman树的路径上节点的向量计算Loss值和Gradient，运用随机梯度上升法求最大值；

步骤S16、根据梯度和学习率更新外链对应的向量及其他相关参数；

步骤S17、返回步骤S14；

步骤S8、最终Huffman树的叶子节点对应的向量就是最终的外链对应的向量。

在本发明的另一方面，还同时提供一种网站分类系统，包括：

信息矩阵提取单元，用于将网页所含的文字、超链接及域名信息分别训练形成文字信息矩阵、超链接信息矩阵和URL信息矩阵拼接组成输入层特征矩阵；

卷积层生成单元，用于提取上述输入层特征矩阵的列特征向量个数及特征向量维数，生成卷积层；

池化处理单元，将卷积得到的列向量最大值提出并池化处理，获得和卷积核维数相同的行向量；

输出单元，将池化层输出的向量添加softmax函数，并输出。

进一步地，所述信息矩阵提取单元包括超链接信息矩阵训练单元，用于从网页里的超链接信息进行训练，所述超链接信息矩阵训练单元包括输入层、隐含层和输出层，其中，

所述输入层输入输入设定窗口大小为2*n内的链接关系的K维向量；

所述隐含层将输入层的向量进行求和计算得到一结果向量；

所述输出层，利用网页中出现的链接关系作为叶子节点建立一个Huffman树模型；将得到的结果向量和Huffman树的非叶子节点向量进行逻辑运算，得到目标链接的Huffman树路径，并计算损失值和梯度，然后采用随机梯度上升的方法对参数进行迭代更新，最后得到训练好的超链接信息矩阵。

本发明可以通过本申请提案通过对网页信息进行处理，统计与分析了文字信息、超链接、域名、网页标签等信息，对网站信息进行了全面的提取，构建了特征矩阵，该方法充分利用网页中的所有信息，选取维度更全面更，使分类准确率进一步得到提升。此外，在生成特征矩阵的过程中，采用了超链接特征提取方法，与现有的超链接处理方法特征提取更加全面，能够提取出更基本、全面的特征向量，可提高分类准确率。

附图说明

图1是本发明的一个实施例中网站分类方法的流程示意图；

图2为本发明的一个实施例中网站分类方法的模型训练过程示意图；

图3是本发明的一个实施例中输入层特征矩阵的组合结构示意图。

图4是本发明的一个实施例中超链接矩阵的训练过程示意图；

图5是本发明的一个实施例中网站分类系统的模块结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例为实施本发明的较佳实施方式，所述描述是以说明本发明的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围应当以权利要求所界定者为准，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1、图2所示，本发明实施例所公开的一种网站分类方法，包括如下步骤：

步骤S2、将上述形成的各个信息矩阵拼接组成成输入层特征矩阵1；

步骤S3、提取上述输入层特征矩阵1的列特征向量个数及特征向量维数，生成卷积层；

步骤S4、将卷积得到的列向量最大值提出并池化处理，获得和卷积层中的卷积核维数相同的行向量，形成池化层；

步骤S5、将池化层输出的向量添加softmax函数，形成全连接层。

其中，在上述步骤S1中，先将网页所含的各种信息，比如文字信息、超链接、域名、网页标签信息等形成多个特征矩阵，本实施例中，仅提取了网页所含的文字信息、超链接信息及域名信息分别形成各自对应的文字信息矩阵11、超链接矩阵及URL信息矩阵13，各个信息矩阵由多行多列组成，本领域技术人员应当理解的是，本发明仅仅是提取网页的三个部分信息训练得到三组特征矩阵，但是最终的特征举证不限于上述三个矩阵的组合，本实施例中的三个矩阵足够保证提取的网页数据信息全面和精确。

更具体来说，参照图3所示，在步骤S2中，输入层特征矩阵由上述步骤1中的三部分叠合组成，第一部分为网页文字信息训练出来的特征矩阵，第二部分为网页里的超链接信息训练出来的超链接特征矩阵，第三部分为网页URL信息训练出特征矩阵，将这三个特征矩阵进行顺序连接得到最终的特征矩阵，最终的特征矩阵为n行*k列的特征矩阵。为了方便各特征矩阵的拼接，各个特征矩阵在提取形成后的状态均为n行*k列，这样可直接顺序连接。

其中，在本实施例中，将文字信息矩阵11训练形成的方法包括：

首先，将网页中的文字信息进行分词；

其次，通过word2vec，将每个词转换为对应的词特征向量；

因每个词的特征向量维度相同，直接将各个词的特征向量直接拼接后得到文字信息矩阵11；

其中，Word2vec是一款将词表征为实数值向量的高效工具，其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多NLP相关的工作，比如聚类、找同义词、词性分析等等。换个思路，把词当做特征，那么Word2vec就可以把特征映射到K维向量空间，可以为文本数据寻求更加深层次的特征表示。

其中，在本实施例中，所述超链接信息矩阵12的训练方法包括：

输入为设定窗口大小为2*n内的链接关系的K维向量；

将输入的向量进行求和计算得到一结果向量；

将得到的结果向量和Huffman树的非叶子节点向量进行逻辑运算，得到目标链接的Huffman树路径，并计算损失值和梯度，然后采用随机梯度上升的方法对参数进行迭代更新，最后得到训练好的超链接信息矩阵12。

其中，本实施例中对超链接信息矩阵12的分析，其实质上，是将超链接看成是网页或网页之间的社会性和传播性桥梁，它能发现网站之间通过超链接建立联系的这种方式，通过获取链接之间的关系可以得到网站更全面的信息。而如果能得到一条能表达链接之间关系的向量来表示单条链接，再把向量放到深度学习算法进行训练，可以得到比纯文本向量更好的结果。

本实施例中，在超链接信息矩阵12的训练过程中，采用了一个三层的网络模型——输入层121、隐含层122和输出层123。其中，输入层121输入为设定窗口大小2*n内的链接关系的k维向量，隐含层122将输入的向量进行求和计算，输出层123对应一棵二叉树，它是由网页中出现的链接关系作为叶子结点建立的一棵Huffman树。其主要原理为：用隐含层得到的结果向量和Huffman树的非叶子节点向量进行logistic计算，得到目标链接的Huffman树路径，并计算损失值和梯度，然后根据学习率，采用随机梯度上升的方法对参数进行迭代更新，最后得到训练好的链接向量。

本实施例中采用所述的Huffman树训练得到链接向量的方法具体为：

步骤S12、按照出现频率对外链建一棵Huffman树；

步骤S17、返回步骤S14；

本实施例中关于超链接特征矩阵的生成，该方法与现有的超链接处理方法特征提取更加全面，能够提取出更基本、全面的特征向量，可提高分类准确率。

其中，本实施例中，所述URL信息矩阵13的训练方法包括：

步骤S21、统计URL的关键词语料库；

步骤S22、比较语料库与文字信息特征矩阵维数大小(一般是小于)；

步骤S23、建立一个维数与语料库长度相同的1行向量，若URL中出现语料库中的关键词，则将该位置元素置为1，其它位置置为0。举例来说，语料库为(‘.edu’、‘.gov’、‘news’)，若URL为‘www.news.com’，则特征向量为[0，0，1]，重复这个向量直到与前面的特诊矩阵维数相同即可。

在上述步骤S3中，进行卷积操作，定义每个卷积核的大小为filter_size*embedding_size。其中，filter_size代表卷积核纵向上包含特征向量个数，这些特征向量可能为词向量，超链接向量，URL向量，一般取值为3，4，5；embedding_size代表特征向量维数，一般取值为200维。每个卷积核，代表一种语料的基本特征，最后生成卷积层。卷积是图像处理常用的方法，给定输入图像，在输出图像中每一个像素是输入图像中一个小区域中像素的加权平均，其中权值由一个函数定义，这个函数称为卷积核。

在上述步骤S4中，进行池化操作，也称Pooling操作，Pooling操作将卷积得到的列向量的最大值提取出来，pooling操作后，获得一个和卷积核维数相同的行向量，这样做可以消除语料长度不同的差异，统一了特征向量维度。

在上述步骤S5中，Pooling层输出的向量转化为我们想要的结果，只需要加上一个softmax即可。根据网站分类的标签，将特征对应到其中的一种标签。处理过程中为了防止过拟合，可以采用L2正则化等方法实现防止过拟合的功能。其中，softmax的定义域是一个向量，值域是概率单纯型(求和等于1)，softmax能给出属于每一个类别的概率。

本发明所公开的网站分类方法在处理网站信息的时候，统计与分析了文字信息、超链接、域名、网页标签等信息，对网站信息进行了全面的提取，构建了特征矩阵，该方法与现有的其它方法选取维度更全面，准确率更高。此外，超链接特征矩阵，由超链接提取而来，是网页和网页之间的桥梁，这是一种新形式的数据，能够通过超链接发现网站之间的联系，通过已知网站的信息来推断未知网站的信息，进而得到网站的类别。在形成特征矩阵之后，进入之后的卷积池化过程，进行深度学习，经过训练得到网站分类模型。该模型能够解决现有技术方案中存在的问题，如信息、特征提取不全等问题，提高网站分类的效率和准确率。

此外，本领域技术人员应理解，实现上述实施例方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的相应步骤，而所述的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。因此，如图5所示，与上述方法相对应的，本发明还同时提供一种网站分类系统，包括：

输出单元，将池化层输出的向量添加softmax函数，并输出。

具体来说，所述信息矩阵提取单元包括：文字信息矩阵训练单元、超链接信息矩阵训练单元以及URL信息矩阵训练单元，以分别用于从网页里提取文字信息、超链接信息和URL信息进行训练，其中，所述超链接信息矩阵训练单元包括输入层、隐含层和输出层，其中，

所述隐含层将输入层的向量进行求和计算得到一结果向量；

本实施例中的超链接信息矩阵训练单元，与现有的超链接处理方法特征提取更加全面，能够提取出更基本、全面的特征向量，可提高分类准确率。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种网站分类方法，其特征在于，所述方法包括步骤：

步骤S1、将网页所含的各类信息分别训练形成各自对应的信息矩阵，其中，在步骤S1中，从网页提取文字、超链接及域名信息分别训练形成文字信息矩阵、超链接信息矩阵和URL信息矩阵；

步骤S2、将上述形成的多个信息矩阵拼接组成成输入层特征矩阵；

步骤S3、提取上述输入层特征矩阵的列特征向量个数及特征向量维数，生成卷积层；

步骤S4、将卷积得到的列向量最大值提出并池化处理，获得和卷积核维数相同的行向量，形成池化层；

步骤S5、将池化层输出的向量添加softmax函数，形成全连接层；

所述超链接信息矩阵的训练方法包括：

输入为设定窗口大小为2*n内的链接关系的K维向量；

将输入的向量进行求和计算得到一结果向量；

将得到的结果向量和Huffman树的非叶子节点向量进行逻辑运算，得到目标链接的Huffman树路径，并计算损失值和梯度，然后采用随机梯度上升的方法对参数进行迭代更新，最后得到训练好的超链接信息矩阵；

采用所述Huffman树训练得到链接信息矩阵的方法具体为：

步骤S12、按照出现频率对外链建一棵Huffman树；

步骤S17、返回步骤S14；

步骤S18、最终Huffman树的叶子节点对应的向量就是最终的外链对应的向量。

2.根据权利要求1所述的方法，其特征在于，所述文字信息矩阵的训练方法包括：

对网页中的文字信息进行分词；

通过word2vec，将每个词转换为词特征向量；

将各词特征向量直接拼接后得到文字信息矩阵。

3.根据权利要求1所述的方法，其特征在于，所述URL信息矩阵的训练方法包括：

统计URL的关键词语料库；

比较语料库与文字信息特征矩阵维数大小；

4.一种网站分类系统，其特征在于，所述系统包括：

输出单元，将池化层输出的向量添加softmax函数，并输出；

其中，所述信息矩阵提取单元包括超链接信息矩阵训练单元，用于从网页里的超链接信息进行训练，所述超链接信息矩阵训练单元包括输入层、隐含层和输出层，其中，

所述隐含层将输入层的向量进行求和计算得到一结果向量；

所述输出层，利用网页中出现的链接关系作为叶子节点建立一个Huffman树模型；将得到的结果向量和Huffman树的非叶子节点向量进行逻辑运算，得到目标链接的Huffman树路径，并计算损失值和梯度，然后采用随机梯度上升的方法对参数进行迭代更新，最后得到训练好的超链接信息矩阵；

其中，采用所述Huffman树训练得到链接信息矩阵的方法具体为：

步骤S12、按照出现频率对外链建一棵Huffman树；

步骤S17、返回步骤S14；