CN106484919A

CN106484919A - 一种基于网页独立词的行业网站分类方法和系统

Info

Publication number: CN106484919A
Application number: CN201611004881.XA
Authority: CN
Inventors: 胡晓光; 刘贺; 唐斌; 刘刚; 唐新民; 沈智杰; 景晓军
Original assignee: SURFILTER NETWORK TECHNOLOGY Co Ltd
Current assignee: SURFILTER NETWORK TECHNOLOGY Co Ltd
Priority date: 2016-11-15
Filing date: 2016-11-15
Publication date: 2017-03-08

Abstract

本发明提供了一种基于网页独立词的行业网站分类方法，包括：根据已知网站样本库建立独立词特征库，独立词特征库包括用于判定网站类别的多个独立词和对应的多个独立词加权值；提取未知网站的网站首页中的独立词；以及将从未知网站提取的独立词与独立词特征库进行匹配，计算加权得分，并根据加权得分和预设阈值来生成判定结果。本发明简化了现有基于机器学习和空间向量分析对特定行业网站进行分类判定的过程和方法将网页关键特征进行了抽象和加权评分，排除了空间向量分析方法中的干扰向量维度，将多维空间降低到了二维空间进行分析判定，经过人为对独立词判定结果进行审核确认，提高了其判定的准确率和召回率。

Description

一种基于网页独立词的行业网站分类方法和系统

技术领域

本发明涉及互联网技术，尤其涉及一种基于网页独立词的行业网站分类方法和系统。

背景技术

近年来互联网金融网站如雨后春笋般的出现，但是出现提现困难和跑路的互联网金融网站的比例占到了整体数量的1/3。国家相关管理机构也开始关注和出台政策治理互联网金融网站，特别是P2P网贷网站。因此，首先需要在广泛的网络环境中对网站进行分类，即发现哪些网站是网贷网站。

在现有的网站分类方法中，主要通过提取网站的多维向量特征，建立空间向量模型，并通过计算空间向量余弦夹角的方式来对网站进行分类。然而针对特定的行业网站(例如，互联网网贷网站)，这种分类方法主要存在以下不足：上述方法通过对网页的全部内容建立空间向量模型，通用性较强，针对性较弱，会存在较多的噪声向量，导致判定不准确；上述方法对相似网站的排除性较差，如网贷网站和金融咨询网站之间容易出现判断错误；行业网站的页面的布局、信息非常复杂，通过空间向量模型很难找全反例样本，这就导致了对未知网站判定的不确定性；基于空间向量的判断方式，存在统计概率性，相同的网站在不同的测试样本集中，可能会出现不同的结果。

因此，针对特定的行业网站，需要一种针对性较强、准确率高和召回率高的网站分类方法。

发明内容

本发明的目的在于解决现有的网站分类方法在对行业网站进行分类时针对性较弱、准确率低和召回率低的问题，提供一种基于网页独立词的行业网站分类方法和系统以提高行业网站分类的针对性、准确率和召回率。

一方面，本发明实施例提供一种基于网页独立词的行业网站分类方法，包括以下步骤：

步骤S1：根据已知网站样本库建立独立词特征库，所述独立词特征库包括用于判定网站类别的多个独立词和对应的多个独立词加权值；

步骤S2：提取未知网站的网站首页中的独立词；以及

步骤S3：将从所述未知网站提取的独立词与所述步骤S1中获得的所述独立词特征库进行匹配，计算加权得分，并根据所述加权得分和预设阈值来生成判定结果。

优选地，还包括：

步骤S4：对所述判定结果进行人工审核，根据审核结果调整优化所述独立词特征库。

优选地，所述步骤S1包括：

步骤S11：对所述已知网站样本库中的多个网站的网站首页进行分析，从独立HTML标签、title标签、keyword标签和description标签中提取多个关键字；

步骤S12：排除所述多个关键字中对判定网站类别无用的干扰词，得到所述多个独立词；

步骤S13：统计所述多个独立词的词频，并根据所述词频对所述多个独立词进行排序；

步骤S14：设置所述多个独立词各自的独立词加权值，得到所述独立词特征库。

优选地，在所述步骤S14之后，所述步骤S1还包括：

步骤S15：对所述多个独立词的判定运行效果进行人工审核，提取用于确定网站类别的正向独立词和用于排除相似类别网站的反向独立词，并对所述正向独立词和所述反向独立词进行人工加权打分。

优选地，在所述步骤S1和所述步骤S2之间还包括：

步骤S01：对步骤S1中得到的所述多个独立词进行SVM样本训练，形成SVM特征库。

优选地，在所述步骤S3包括：

步骤S31：将从所述未知网站提取的独立词与所述步骤S1中获得的所述独立词特征库进行匹配，计算加权得分；

步骤S32：将从所述未知网站提取的独立词作为SVM的计算集输入，根据所述SVM特征库得到SVM分类结果；

步骤S33：根据所述SVM分类结果对所述加权得分进行修正，并根据修正后的加权得分和所述预设阈值来生成判定结果。

相应地，本发明还提供一种基于网页独立词的行业网站分类系统，包括：

独立词特征库建立模块，用于根据已知网站样本库建立独立词特征库，所述独立词特征库包括用于判定网站类别的多个独立词和对应的多个独立词加权值；

独立词提取模块，用于提取未知网站的网站首页中的独立词；以及

判定模块，用于将从所述未知网站提取的独立词与所述独立词特征库建立模块建立的所述独立词特征库进行匹配，计算加权得分，并根据所述加权得分和预设阈值来生成判定结果。

优选地，还包括：

调整优化模块，用于对所述判定结果进行人工审核，根据审核结果调整优化所述独立词特征库。

优选地，所述独立词特征库建立模块包括：

关键字提取单元，用于对所述已知网站样本库中的多个网站的网站首页进行分析，从独立HTML标签、title标签、keyword标签和description标签中提取多个关键字；

排除单元，用于排除所述多个关键字中对判定网站类别无用的干扰词，得到所述多个独立词；

统计单元，用于统计所述多个独立词的词频，并根据所述词频对所述多个独立词进行排序；

设置单元，用于设置所述多个独立词各自的独立词加权值，得到所述独立词特征库；

判定效果审核单元，用于对所述多个独立词的判定运行效果进行人工审核，提取用于确定网站类别的正向独立词和用于排除相似类别网站的反向独立词，并对所述正向独立词和所述反向独立词进行人工加权打分。

优选地，还包括：

SVM特征库生成模块，用于对所述独立词特征库建立模块中的所述多个独立词进行SVM样本训练，形成SVM特征库；

所述判定模块包括：

加权单元，用于将从所述未知网站提取的独立词与所述独立词特征库建立模块建立的所述独立词特征库进行匹配，计算加权得分；

SVM分类单元，用于将从所述未知网站提取的独立词作为SVM的计算集输入，根据所述SVM特征库得到SVM分类结果；

修正单元，用于根据所述SVM分类结果对所述加权得分进行修正，并根据修正后的加权得分和所述预设阈值来生成判定结果。

实施本发明实施例，具有如下有益效果：本发明提供的基于网页独立词的行业网站分类方法和系统简化了现有基于机器学习和空间向量分析对特定行业网站进行分类判定的过程和方法，独立词的提取符合人的思考逻辑，将网页关键特征进行了抽象和加权评分，排除了空间向量分析方法中的干扰向量维度，将多维空间降低到了二维空间进行分析判定，经过人为对独立词判定结果进行审核确认，不断完善独立词特征的有效性，同时也大大提高了其判定的准确率和召回率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的基于网页独立词的行业网站分类方法的流程图；

图2是本发明实施例二提供的基于网页独立词的行业网站分类方法的流程图；

图3是本发明实施例三提供的基于网页独立词的行业网站分类方法的流程图；

图4是本发明一实施例提供的网贷网站首页；

图5是本发明另一实施例提供的网贷网站首页；

图6是本发明实施例四提供的基于网页独立词的行业网站分类系统的原理图；

图7是本发明实施例五提供的基于网页独立词的行业网站分类系统的原理图；

图8是本发明实施例六提供的基于网页独立词的行业网站分类系统的原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种基于网页独立词的行业网站分类方法。参见图1，该基于网页独立词的行业网站分类方法包括以下步骤：

步骤S1：根据已知网站样本库建立独立词特征库，所述独立词特征库包括用于判定网站类别的多个独立词和对应的多个独立词加权值。

具体地，在本实施例中，通过对大量样本网站的分析，我们发现人工判定网站是否为行业网站(例如，网贷网站)很容易，往往不需要看网页的详细内容就可以做出判断，支撑我们做出判断的依据主要是网页导航文本、板块标题、宣传推广标题、动作按钮文本等信息，以及经过源码分析后的网页title、keywords、description标签内容。这些内容里包含的显著关键字(例如，“我要借款”、“我要贷款”、“年华收益率”等)可以作为判断网站类别的依据的独立词。因此，步骤S1包括：

具体地，对网页内容进行分析，将在独立HTML标签中出现且文本长度小于12的文本和title标签、keyword标签、description标签的文本内容作为目标文本，对目标文本进行分词，得到的单词作为多个关键字。

具体地，通过步骤S11获得的多个关键字中还包含了对判定网站类别无用的干扰词，如“联系我们”、“登录/注册”、“友情链接”、“首页”等关键字都是干扰词，因此，需要将干扰词进行排除。

具体地，根据独立词对判断网站类别的重要程度不同，设置独立词的独立词加权值。例如，将出现在title标签、keyword标签、description标签中的独立词的独立词加权值设置为最高级别，说明其对判断网站类别起到最重要的作用；将出现在body中的独立词的独立词加权值设置为中等级别。

在上述步骤S11到步骤S14的特征提取阶段，通过人工进行网站分析、去噪，解决了通用的空间向量模型方法的不确定性问题，排除了噪声向量干扰。

进一步地，针对现有技术中相似网站的排除性较差的问题(例如，网贷网站和金融咨询网站之间容易出现判断错误)，在所述步骤S14之后，所述步骤S1还包括：

例如，在判定网站是否为网贷网站时，通过步骤S11-S14获得了“我要借贷”、“年化收益率”、“金融资讯”、“网贷导航”等独立词，通过对独立词的判定运行效果进行人工审核，发现“我要借贷”、“年化收益率”是用于重点判断网站是否为网贷网站的独立词(即正向独立词)，而“金融资讯”、“网贷导航”为用于排除资讯和导航类网站的独立词(即反向独立词)，因此，需要对正向和负向独立词进行人工加权打分，如“我要借贷”、“年化收益率”得分为10，而“金融资讯”、“网贷导航”得分为-10。

在上述步骤S15中，通过对多个独立词的判定运行效果进行人工审核，进一步提取了有助于判定网站类别的正向独立词和反向独立词。

步骤S2：提取未知网站的网站首页中的独立词；

具体地，对网页内容进行分析，将在独立HTML标签中出现且文本长度小于12的文本和title标签、keyword标签、description标签的文本内容作为目标文本，对目标文本进行分词，得到的单词作为该未知网站的独立词。

具体地，对步骤S2中提取的未知网站的独立词，与步骤S1中建立的独立词特征库进行关键词匹配，匹配上后进行加权得分，得出最终的独立词判定得分，并依据预设的阈值判定网站是否为要判定的行业网站。

本实施例提供的基于网页独立词的行业网站分类方法简化了现有基于机器学习和空间向量分析对特定行业网站进行分类判定的过程和方法，独立词的提取符合人的思考逻辑，将网页关键特征进行了抽象和加权评分，排除了空间向量分析方法中的干扰向量维度，将多维空间降低到了二维空间进行分析判定，同时也大大提高了其判定的准确率和召回率。

实施例二

本实施例提供了一种基于网页独立词的行业网站分类方法，与实施例一所述的方法的不同之处在于，本实施例提供的方法还包括根据判定结果调整优化独立词特征库的步骤。

参见图2，该基于网页独立词的行业网站分类方法包括以下步骤：

具体地，通过提取网页独立词、排除干扰独立词、统计独立词词频、设置独立词的重要程度加权以及对正向和负向独立词进行人工加权打分等步骤形成独立词特征库。

步骤S2：提取未知网站的网站首页中的独立词；

具体地，根据实际的判定结果，对阈值和独立词进行人工调整。人工对判定结果进行审核，将审核为行业网站(例如，网贷网站)的网页作为训练样本，加到对应的行业网站的总样本库，不断加大正向样本库，并重新提取独立词和训练，使得独立词特征判定越来越准确。

本实施例提供的基于网页独立词的行业网站分类方法分为独立词特征库建立阶段S1、未知网站独立词提取阶段S2、未知网站独立词得分判定阶段S3、以及独立词特征库优化调整阶段S4四个阶段，四个阶段形成闭环，最后一阶段经过人为对独立词判定结果进行审核确认，不断完善独立词特征的有效性，提高了判定的准确率和召回率。

实施例三

本实施例提供了一种基于网页独立词的行业网站分类方法，与实施例二所述的方法的不同之处在于，本实施例提供的方法与SVM(支持向量机)分类算法进行组合使用。

参见图3，该基于网页独立词的行业网站分类方法包括以下步骤：

步骤S2：提取未知网站的网站首页中的独立词；

具体地，根据实际的判定结果，对阈值和独立词进行人工调整。人工对判定结果进行审核，将审核为行业网站(例如，网贷网站)的网页作为训练样本，加到对应的行业网站的总样本库，不断加大正向样本库，并重新提取独立词和训练，使得独立词特征判定和SVM判定越来越准确。

本实施例提供的基于网页独立词的行业网站分类方法通过与与SVM分类算法进行组合使用，利用SVM判定结果来调整加权未知网页独立词判定结果的加权得分，进一步提高了判定的准确率和召回率。在实际实施过程中，通过与SVM分类算法进行组合使用，使得对网贷网站的判定准确率和召回率由原有的76％和62％，提高到了96％和92％。

下面以网贷网站的判断为例详细阐述本发明提供的基于网页独立词的行业网站分类方法的具体流程：

第一步，对已知的网贷网站通过程序进行独立词提取，提取的独立词包括导航网站上的导航链接文本、网页正文中短语等；人工进行独立词的初步筛选及独立词判定运行效果的审核，主要提取导航内和网贷相关的词，最终提取独立词如图4、图5所示，如“我要投资”、“我要贷款”、“债券转让”，且这些词出现在导航中，加权值可设置为重要；提取网页正文中的“年华收益率”、“成交额”、“用户量”，加权值设置为中等；最终得到用于判定网贷网站的独立词特征库如表1所示。

表1独立词特征库

第二步，对提取的独立词进行SVM样本训练，用于形成SVM特征库。

第三步，对于互联网未知网站，我们通过HTTP请求获得网站首页内容，并存储到本地，通过程序提取网页的独立词信息。

第四步，对于未知网页提取的独立词信息，通过与第一步得到的独立词特征库进行关键词匹配，匹配到则以累加的方式加分，最终得到该网页的独立词计算分值。同时，将未知网页提取的独立词信息作为SVM的计算集输入，得到SVM分类结果：是网贷网站或不是网贷网站；再将SVM分类结果作为加权值对独立词计算得分进行修正，如果SVM判定为网贷网站，则对独立词进行3/2的加权，如果SVM判定为不是网贷网站，则对独立词进行1/2加权。

第五步，人工对判定结果进行审核，审核为网贷网站的网页，作为训练样本，加到网贷网站样本库，不断加大正向样本库，并重新提取独立词和训练，使得独立词特征和SVM判定越来越准确。

实施例四

图6是本发明实施例四提供的基于网页独立词的行业网站分类系统的原理图。如图6所示，基于网页独立词的行业网站分类系统包括：

独立词特征库建立模块610，用于根据已知网站样本库建立独立词特征库，所述独立词特征库包括用于判定网站类别的多个独立词和对应的多个独立词加权值；

独立词提取模块620，用于提取未知网站的网站首页中的独立词；以及

判定模块630，用于将从所述未知网站提取的独立词与所述独立词特征库建立模块建立的所述独立词特征库进行匹配，计算加权得分，并根据所述加权得分和预设阈值来生成判定结果。

具体地，在本实施例中，独立词特征库建立模块610包括：

实施例五

图7是本发明实施例五提供的基于网页独立词的行业网站分类系统的原理图。如图7所示，与实施例四所述的系统的不同之处在于，本实施例提供的系统还包括：

调整优化模块640，用于对所述判定结果进行人工审核，根据审核结果调整优化所述独立词特征库。

本实施例提供的基于网页独立词的行业网站分类系统经过人为对独立词判定结果进行审核确认，不断完善独立词特征的有效性，提高了判定的准确率和召回率。

实施例六

图8是本发明实施例六提供的基于网页独立词的行业网站分类系统的原理图。如图8所示，与实施例五所述的系统的不同之处在于，本实施例提供的系统还包括：

SVM特征库生成模块650，用于对所述独立词特征库建立模块中的所述多个独立词进行SVM样本训练，形成SVM特征库；

进一步地，所述判定模块630包括：

本实施例提供的基于网页独立词的行业网站分类系统通过与与SVM分类算法进行组合使用，利用SVM判定结果来调整加权未知网页独立词判定结果的加权得分，进一步提高了判定的准确率和召回率。

需要说明的是：上述实施例提供的基于网页独立词的行业网站分类系统在实现基于网页独立词的行业网站分类方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于网页独立词的行业网站分类系统与用于基于网页独立词的行业网站分类方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于网页独立词的行业网站分类方法，其特征在于，包括以下步骤：

步骤S2：提取未知网站的网站首页中的独立词；以及

2.根据权利要求1中所述的基于网页独立词的行业网站分类方法，其特征在于，还包括：

3.根据权利要求1中所述的基于网页独立词的行业网站分类方法，其特征在于，所述步骤S1包括：

4.根据权利要求3中所述的基于网页独立词的行业网站分类方法，其特征在于，在所述步骤S14之后，所述步骤S1还包括：

5.根据权利要求1中所述的基于网页独立词的行业网站分类方法，其特征在于，在所述步骤S1和所述步骤S2之间还包括：

6.根据权利要求5中所述的基于网页独立词的行业网站分类方法，其特征在于，在所述步骤S3包括：

7.一种基于网页独立词的行业网站分类系统，其特征在于，包括：

8.根据权利要求7中所述的基于网页独立词的行业网站分类系统，其特征在于，还包括：

9.根据权利要求7中所述的基于网页独立词的行业网站分类系统，其特征在于，所述独立词特征库建立模块包括：

10.根据权利要求7中所述的基于网页独立词的行业网站分类系统，其特征在于，还包括：

所述判定模块包括：