CN110442823A

CN110442823A - 网站分类方法、网站类型判断方法、存储介质及智能终端

Info

Publication number: CN110442823A
Application number: CN201910721001.8A
Authority: CN
Inventors: 张玳辉
Original assignee: Beijing Zhiyouwang'an Technology Co Ltd
Current assignee: Beijing Zhiyouwang'an Technology Co Ltd
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-11-12

Abstract

本发明公开了网站分类方法、网站类型判断方法、存储介质及智能终端，所述方法包括：构建训练数据集，所述训练数据集包括应用网站与非应用网站两个标签的文本内容；对所述训练数据集中的网页文本进行预处理，并根据预处理后的所述网页文本获取向量化数据矩阵；利用神经网络对所述向量化数据矩阵进行处理，并从所述向量化数据矩阵中提取特征值，获取网站分类标签。本发明通过对网页文本的内容进行处理，获取特征值，并根据特征值训练得到网站判断模型，通过该网站判断模型可以避免误判，使网站类型的判断更为准确。

Description

网站分类方法、网站类型判断方法、存储介质及智能终端

技术领域

本发明涉及网站分类技术领域，尤其涉及的是一种网站分类方法、网站类型判断方法、存储介质及智能终端。

背景技术

随着互联网技术的迅猛发展，各类网站也应运而生，并且每天都有更多的网站开始运营，这就导致互联网用户不能准确地搜集自己需要的网站，从而浪费大量时间，因此，网站分类技术可以帮助用户快速地搜集自己需要的网站，从而进行筛选和使用。

传统的网站分类技术通过搜索引擎获取关键词加上动态识别进行网站类型的判断，但是这种方法存在一定的误判情况，需要人工二次筛查。

因此，现有技术还有待改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种网站分类方法、网站类型判断方法、存储介质及智能终端，旨在解决现有技术中网站类型判断不准确的问题。

本发明解决技术问题所采用的技术方案如下：

一种网站分类方法，用于判断所述网站的类型，其中，所述方法包括：

构建训练数据集，所述训练数据集包括应用网站与非应用网站两个标签的文本内容；

对所述训练数据集中的网页文本进行预处理，并根据预处理后的所述网页文本获取向量化数据矩阵；

利用神经网络对所述向量化数据矩阵进行处理，并从所述向量化数据矩阵中提取特征值，获取网站分类标签。

所述的网站分类方法，其中，所述对所述训练数据集中的网页文本进行预处理，并根据预处理后的所述网页文本获取向量化数据矩阵，包括：

获取所述训练数据集中的网页文本，并对所述网页文本进行清洗；

利用向量化工具对经过清洗后的所述网页文本进行切词处理；

对经过切词处理后的所述网页文本通过向量化工具处理得到向量化数据矩阵。

所述的网站分类方法，其中，所述向量化工具包括：jieba切词工具与gensim分词向量化工具。

所述的网站分类方法，其中，所述获取所述训练数据集中的网页文本，并对所述训练数据集中的网页文本进行清洗，包括：

获取所述网页文本中的文本，并对所述文本进行切分获取词汇表；

统计每个词汇的数量，并获取所述词汇中的停用词的列表；

将所述网页文本中数量超过预设值的停用词进行剔除，所述停用词为在所述网页文本内容中没有实际意义的词汇。

所述的网站分类方法，其中，所述对所述向量化数据矩阵进行处理，并从所述向量化数据矩阵中提取特征值，包括：

将所述向量化数据矩阵导入到预设的卷积神经网络中；

通过卷积核定义的激活函数对所述向量化数据矩阵进行计算，通过卷积核定义的激活函数对所述向量化数据矩阵进行计算，并基于softmax交叉熵函数计算出所属分类标签的概率分布，所述特征值中包括有不同网站所属类别的概率分布。

一种网站类型判断方法，其中，包括：

通过网络爬虫采集目标网站主页；

对采集到的所述目标网站进行去重并获取网页文本；

将所述网页文本输入预设的网站判断模型中，判断所述目标网站的网站类型。

所述的网站类型判断方法，其中，所述将所述网页文本输入预设的网站判断模型中，判断所述目标网页的类型，包括：

将所述网页文本输入预设的网站判断模型，得到预测值，所述预测值为一概率分布，选择概率值较大的标签即为预测标签；

将所述预测值与预存的概率阈值进行比较；

根据所属标签类型判断所述目标网站是否为应用网站，若判定所述目标网站为应用网站，则输出所述目标网站为应用网站的预测标签；

若判定所述目标网站为非应用网站，并输出所述目标网站为非应用网站的预测标签。

所述的网站类型判断方法，其中，所述将所述网页文本输入预设的网站判断模型中，判断所述目标网站的类型之后，包括：

获取所述网站判断模型输出的预测值，并将所述预测值保存到数据库中；

根据所述网站判断模型的输出结果与人工检查的结果，判断所述预测值是否正确；

当所述预测值正确，则将所述预测值输入至所述训练数据集中进行训练，以对所述网站判断模型的判断精度进行调优处理。

一种存储介质，其上存储有多条指令，其中，所述指令适于由处理器加载并执行，以执行实现上述任一项所述的网站分类方法或者上述的网站类型判断方法的步骤。

一种智能终端，包括：处理器、与处理器通信连接的存储介质，其中，所述存储介质适于存储多条指令；所述处理器适于调用所述存储介质中的指令，以执行实现上述任一项所述的网站分类方法或者上述所述的网站类型判断方法的步骤。

本发明的有益效果：本发明通过对网页文本的内容进行处理，获取特征值，并根据特征值训练网站判断模型，所述网站判断模型可以自动地对网站的类型进行判断，以判断出所述网站是应用网站还是非应用网站，可以避免误判，使网站类型的判断更为准确，无需人工再进行二次筛查。

附图说明

图1是本发明提供的网站分类方法流程图。

图2是本发明提供的网站分类方法中对网页文本进行预处理的流程图。

图3是本发明提供的网站分类方法中对向量化数据矩阵提取特征值的流程图。

图4是本发明提供的网站分类方法中对向量化数据矩阵进行池化的流程图。

图5是本发明提供的网站分类方法中对多语句向量化数据矩阵进行合并的流程图。

图6是本发明提供的网站类型判断方法较佳实施例的流程图。

图7是本发明判断目标网站类型的流程图。

图8是本发明网站类型判断方法中对所述网站判断模型进行调优的流程图。

图9是本发明提供的智能终端较佳实施例的功能原理图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种网站分类方法，可以应用于终端中。其中，终端可以但不限于是各种个人计算机、笔记本电脑、手机、平板电脑、车载电脑和便携式可穿戴设备。本发明的终端采用多核处理器。其中，终端的处理器可以为中央处理器(Central Processing Unit，CPU)，图形处理器(Graphics Processing Unit，GPU)、视频处理单元(Video ProcessingUnit，VPU)等中的至少一种。

为了解决现有技术中网站类型判断不准确、需要人工筛查的问题，实施例提供一种网站判断模型网站分类方法，具体如图1中所示，包括如下步骤：

步骤S100、构建训练数据集，所述训练数据集包括应用网站与非应用网站两个标签的文本内容；

步骤S200、对所述训练数据集中的网页文本进行预处理，并根据预处理后的所述网页文本获取向量化数据矩阵；

步骤S300、利用神经网络对所述向量化数据矩阵进行处理，并从所述向量化数据矩阵中提取特征值，获取网站分类标签。

具体实施时，在训练网站判断模型时，本实施例中首先构建训练数据集，该训练数据集中包括应用网站与非应用网站。进一步地，对所述应用网站与非应用网站进行标注，所述标注的内容为网页类型，即标注训练数据集中的网站是应用网站或不是应用网站，以便于将标注的内容与训练生成的网站判断模型所预测的结果进行对比。

进一步地，在构建完所述训练数据集后，本实施例对所述训练数据集中的网页文本进行预处理，所述预处理的过程包括首先获取所述训练数据集中的网页文本，对所述网页文本进行清洗。所述清洗的过程如下：对网页文本中进行切分获取词汇表，然后统计所述词汇中停用词(可能是虚词、介词、副词等)，所述停用词是指在所述网页文本内容中没有实际意义的词汇，例如“了”、“啊”等，这些停用词不影响关联语句的语义，但是在网页文本中出现频率很高，因此为了获取到更加精确的网页文本，需要将高频出现停用词进行剔除。例如，所述停用词以虚词为例，本实施中预先设定一个阈值，该阈值用于与统计出的虚词的数量进行比较，以判断所述虚词出现的频率是否达到剔除的标准。当所述网页文本提取的词汇中虚词的数量小于所设定的阈值时，不对所述虚词进行处理；当统计的所述网页文本提取的词汇中所述虚词的数量大于设定的阈值时，则执行剔除指令，将所述词汇中超过阈值的所有虚词剔除。在本实施例中剔除虚词的作用是减少文本量，使文本转化为数据时的数据体积不会过大，同时，通过减少文本量来减少计算次数，从而使得所述网页文本中有效含义词占的比例更高，有利于训练出精度更高的网站判断模型，以提高网站类型判断的准确性。举例说明例如网页文本内容为“本网站可为用户提供多种应用程序”，例句中的“本”和“可”都没有实际意义，属于虚词的范围，当将获取到的这两个虚词的数量与预设的阈值进行比较后，若这两个虚词的数量均超过预设阈值时，则将这两个字剔除。

进一步地，本实施例对清洗后的网页文本使用jieba切词工具(jieba切词工具是一款中文切词工具，采用了动态规划查找最大概率路径,能找出基于词频的最大切分组合)进行切词处理，所述切词是将网页文本中的文字进行分割，然后将相邻文字组合成词组，因此在句子中重复组合相邻文字，以获得多个词组。然后根据所述词组的使用频率或者使用规范确定是否采用所述词组，从而将整个语句分解，而分解后的所述词组的含义与所述词组在语句中的含义相近义。基于上述举例，清洗过后的网页文本为：网站为用户提供多种应用程序，当将经过清洗后的网页文本进行切词时，此时的网页文本内容为“网/站/为/用/户/提/供/多/种/应/用/程/序”，再将相邻文字进行组合，例如“网站”，“站为”，“为用”，“用户”等，jieba切词工具内包含机器词典，会将词典中的词汇与需要进行组合的词汇进行比对，显然，举例中的“站为”、“为用”不属于有意义的词汇，因此将“网站”、“为”、“用户”划分为词组，因此，本例句中经过切词组合后的结果就是“网站/为/用户/提供/多种/应用/程序”。本实施例通过对网页文本进行切词处理，便于对准确识别出所述网页文本中的内容，便于后续步骤中对于特征值的确定，并训练出更加精确的网站判断模型。

进一步地，对已经经过切词组合的文本使用gensim分词向量化工具(gensim分词向量化工具是一个用于从文档中提取语义主题的Python库，可以处理纯文本)进行向量化，得到向量化数据矩阵，所述向量化是使用数字化向量将文字文本代替，所述数字化向量可以被计算机识别并进行运算，因此可以进行复杂运算；如上述举例，将例句中的词组分别在Python库中对应为向量数据，再根据向量数据的顺序生成所述向量化数据矩阵，上述举例中的所述向量化数据矩阵为一3*3矩阵，根据文本量的差异生成的向量化数据矩阵规格也不同。

综上所述，所述预处理的过程如图2所示，即为步骤R1、获取文本；步骤R2、清洗，即对所述文本删除虚词；步骤R3、切词，即将所有文字单独间隔；步骤R4、组合，即将相邻文字进行组合，对比其实际含义，并将有实际含义的词汇划分成词组；步骤R5、输出向量化矩阵，即利于gensim分词向量化工具将所述词组转化为数字化向量，并编排成矩阵；通过上述步骤，即完成网页文本的预处理。

进一步地，如图3所示，将所有得到的所述向量化数据矩阵(即图中的矩阵1、矩阵2...矩阵N)导入到预设的卷积神经网络(卷积神经网络是一种能实现数据降维并提升数据表现能力的神经网络，包含卷积层和输出层)中，所述卷积神经网络的卷积层中还包含卷积核，所述卷积核具体为一计算公式，所述计算公式的作用是能够计算所述向量化矩阵的权值平均，计算权值平均可以使数据特征进一步突出，该计算的过程是通过对卷积核定义的激活函数对应计算的，所述计算的过程称为池化，本发明中激活函数定义为Relu修正线性单元，即f(x)＝max(0，x)(x为向量化数据矩阵中的一个向量数据，在实际运算中也可以代表某一预定区域中的向量数据)；如图4所示，图4是本发明池化计算的步骤举例，本举例将一个4*4的向量化数据矩阵进行区域划分，即相邻的2*2区域为一计算区域，据此划分为左上、右上、左下、右下4个区域，通过激活函数f(x)＝max(0，x)计算，由于举例数字中权重均为1(所述权重是根据语义需求提前预设的)，因此经激活函数映射后，左上区域1、1、5、6映射出的最大值为6，所述最大值即体现特征最为明显的数值，同时，将1、1、5、6映射为6也体现了池化作用起到的降维缩小向量化数据矩阵体积、突出特征的作用。

将所述向量化数据矩阵导入到预设的卷积神经网络中；通过卷积核定义的激活函数对所述向量化数据矩阵进行计算，并基于softmax交叉熵函数计算出所属分类标签的概率分布，所述特征值中包括有不同网站所属类别的概率分布。

优选地，所述向量化矩阵在所述卷积层中不断通过激活函数进行计算，计算的过程中所述向量化矩阵不断地降维浓缩，特征不断放大使其更加明显，而对于多语句向量化数据矩阵的合并过程如图5所示，图示矩阵1、矩阵2和矩阵3分别是不同语句文本进行向量化得到的向量化数据矩阵，在对多语句进行合并时，先对所述矩阵1、矩阵2、矩阵3进行区域划分，本举例中将3个矩阵中左上角的9*9的向量数据划分为对应区域，如图灰色部分所示，使用激活函数将矩阵1的灰色区域进行计算获取特征向量A,使用激活函数将矩阵2的灰色区域进行计算获取特征向量B，使用激活函数将矩阵3的灰色区域进行计算获取特征向量C，再对得到的特征向量A、B和C进行权值平均计算，得到特征向量D，所述特征向量D即是合并后的向量化数据矩阵的第一位向量数据。

进一步地，如图3所示，当所述向量化数据矩阵池化(即重复使用Relu修正线性单元对向量化数据矩阵进行计算的过程)到一定程度后，例如池化成2*2的向量化数据矩阵后，不能再进行进一步池化，此时将最终向量化数据矩阵导入输出层中获取特征值，获取特征值的过程是选取所述最终向量化数据矩阵中的最大值，并根据所述最大值在所述最终向量化矩阵中的分布概率获得的特征值，即所述特征值包含一概率值。进一步地，将所述特征值与预先对训练数据集中标注的内容进行对比，可以反映所述特征值代表的是网站类型是否是应用网站以及所对应的概率值。本实施例通过卷积神经网络对获取到的特征值进行训练，由于特征值中包括有不同网站类型(即应用网站或者非应用网站)与概率的映射关系，因此根据该映射关系就可以训练处可以自动判断网站的类型的网站判断模型。

综上所述，通过如上步骤可以训练出网站判断模型，训练后得到的网站判断模型是通过网页文本全文的词汇语义进行判断网站类型的，因此相较于传统技术搜索关键词的方法，更为准确，而且当网站判断模型训练完成后无需人工进行二次筛查，仅需使用者直接选取显示网站类型标签对应的连接即可。

基于上述实施例，本发明还提供一种网站类型判断方法，具体如图6所示，该网站类型判断方法包括以下步骤：

步骤10、通过网络爬虫采集目标网站主页；

步骤20、对采集到的所述目标网站进行去重并获取网页文本；

步骤30、将所述网页文本输入预设的网站判断模型中，判断所述目标网站的网站类型。

所述网络爬虫是一种网站域名搜集程序，该程序能从一个或多个初始网页中获取网站域名，在进入获取的网站域名的过程中，不断从新的网页中获取更多的网络域名放入队列，直到满足一定的停止条件；而在本实施例中，如步骤20所述，本实施例的网络爬虫采集到目标网页时，获取所述目标网页中的域名，同时会进行去重操作，即本实施例中的网络爬虫不会重复进入已搜集过的网站域名，因此能有效防止域名缓存随着抓取时间不断增加，内存消耗过大的情况。

进一步地，所述将所述网页文本输入预设的网站判断模型中，判断所述目标网站的网站类型还包括：

将所述将所述网页文本输入预设的网站判断模型，得到预测值，所述预测值为一概率分布，选择概率值较大的标签即为预测标签；

优选地，上述判断所述目标网站的网站类型可以用图7来表示，如图7所示，步骤P1，将获取的预测值输入判定程序中，所述预测值为一概率分布；步骤P2，在判定程序中预先设定一概率阈值，所述概率阈值也相应是一概率值，所述概率阈值是应用网站与非应用网站的概率分界，用于判断所述预测值是对应非应用网站的概率还是应用网站的概率；步骤P3，如当所述预测值大于所述概率阈值时，则判定所述预测值对应的目标网站是应用网站，此时输出系统通知，通知内容为目标网站是应用网站；步骤P4，如当所述预测值小于所述概率阈值时，则判定所述预测值对应的目标网站不是应用网站，此时输出系统通知，通知内容为目标网站为非应用网站。

优选地，如图8所示，在判断所述目标网站的类型之后，还包括以下步骤；

步骤40、获取所述网站判断模型输出的预测值，并将所述预测值保存到数据库中；

步骤50、根据所述网站判断模型的输出结果与人工检测的结果，判断所述预测值是否正确；

步骤60、当预测值正确时，则将所述预测值输入至所述训练数据集中进行训练，以对所述网站类型模型的判断精度进行调优处理。

本实施例在应用所述网站判断模型时，每输出预测值都会对所述预测值进行判断，以对所述网站判断模型进行评估，并且当所述网站判断模型的预测结果是正确的时候，还将所述预测值输入至训练数据集中，重新进行训练，以进一步地对所述网站判断模型进行调整，提高所述网站判断模型的精度。

本实施例中的网站判断模型是基于上述实施例的网站判断模型训练生成的网站类型训练模型，由于该网站判断模型是通过对整个网页全文的文本词汇语义进行判断的，因此通过使用该种网站类型判断方法判断的网站类型更为准确。

基于上述实施例，本发明还公开了一种智能终端，其原理框图如图9所示。该智能终端包括：处理器、存储器、网络接口、显示屏、温度传感器。其中，该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种状态信息采集方法。该智能终端的显示屏可以是任意能显示网页文字的显示屏。

本领域技术人员可以理解，图9中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的智能终端的限定，具体的智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种智能终端，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本发明还提供一种存储介质，所述存储介质上存储计算机指令，所述计算机指令使计算机执行上述各实施例所提供的方法。

综上所述，本发明公开了网站判断模型网站分类方法、网站类型判断方法、介质及智能终端，方法包括：构建训练数据集，所述训练数据集包括应用网站与非应用网站两个标签的文本内容；对所述训练数据集中的网页文本进行预处理，并根据预处理后的所述网页文本获取向量化数据矩阵；利用神经网络对所述向量化数据矩阵进行处理，并从所述向量化数据矩阵中提取特征值，获取网站分类标签。本发明通过对网页文本全文的词汇语义进行数据化计算，通过其预测数据是否足够突出判断网站类型，因此相较于传统技术搜索关键词的方法，更为准确，而且当网站判断模型训练完成后无需人工进行二次筛查，仅需使用者直接选取显示网站类型标签对应的连接即可。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种网站分类方法，用于判断所述网站的类型，其特征在于，所述方法包括：

2.根据权利要求1所述的网站分类方法，其特征在于，所述对所述训练数据集中的网页文本进行预处理，并根据预处理后的所述网页文本获取向量化数据矩阵，包括：

3.根据权利要求2所述的网站分类方法，其特征在于，所述向量化工具包括：jieba切词工具与gensim分词向量化工具。

4.根据权利要求2所述的网站分类方法，其特征在于，所述获取所述训练数据集中的网页文本，并对所述训练数据集中的网页文本进行清洗，包括：

统计每个词汇的数量，并获取所述词汇中的停用词的列表；

5.根据权利要求1所述的网站分类方法，其特征在于，所述利用神经网络对所述向量化数据矩阵进行处理，并从所述向量化数据矩阵中提取特征值，包括：

将所述向量化数据矩阵导入到预设的卷积神经网络中；

6.一种网站类型判断方法，其特征在于，包括：

通过网络爬虫采集目标网站主页；

对采集到的所述目标网站进行去重并获取网页文本；

将所述网页文本输入预设的网站判断模型中，判断所述目标网站的网站类型网站分类。

7.根据权利要求6所述的网站判断模型，其特征在于，所述将所述网页文本输入预设的网站判断模型中，判断所述目标网页的类型，包括：

8.根据权利要求7所述的网站判断模型，其特征在于，所述将所述网页文本输入预设的网站判断模型中，判断所述目标网站的类型之后，包括：

9.一种存储介质，其上存储有多条指令，其特征在于，所述指令适于由处理器加载并执行，以执行实现上述权利要求1-5任一项所述的网站分类方法或者上述权利要求6-8所述的网站类型判断方法的步骤。

10.一种智能终端，包括：处理器、与处理器通信连接的存储介质，其特征在于，所述存储介质适于存储多条指令；所述处理器适于调用所述存储介质中的指令，以执行实现上述权利要求1-5任一项所述的网站分类方法或者上述权利要求6-8所述的网站类型判断方法的步骤。