CN102819591A

CN102819591A - 一种基于内容的网页分类方法及系统

Info

Publication number: CN102819591A
Application number: CN2012102798159A
Authority: CN
Inventors: 贾晋康; 吕烨; 张永臣
Original assignee: BEIJING NETENTSEC Inc
Current assignee: BEIJING NETENTSEC Inc
Priority date: 2012-08-07
Filing date: 2012-08-07
Publication date: 2012-12-12
Anticipated expiration: 2032-08-07
Also published as: CN102819591B

Abstract

本发明公开了一种基于内容的网页分类方法，用户设备获取用户要访问的网页的统一资源定位符URL中的特征关键字，并根据所述URL中的特征关键字查询本地的URL特征库，以获取相应的网页分类信息；用户设备在URL特征库中未查询到相应的网页分类信息，则进一步获取用户要访问的网页的页面内容，并根据所述页面内容查询本地的页面模板库，以获取相应的网页分类信息。本发明还相应地公开了一种基于内容的网页分类系统。通过本发明，能够实现基于页面粒度的分类，以及提高分类准确度、提高分类实时性、减少人力成本。

Description

一种基于内容的网页分类方法及系统

技术领域

本发明涉及网络安全及监控领域，尤其涉及一种基于内容的网页分类方法及系统。

背景技术

在网络安全及监控领域中，按照实际策略需求，需要对某些类别的网站进行屏蔽，此外，企业为防止重要信息外泄及回查，需要将用户的访问记录及流量信息记录下来。因此，对客户实际的访问内容进行控制、审计和记录日志，是目前上网行为管理类产品的主要目的。在此背景下，对于网站乃至网页的内容识别的实时性和准确性及相关的实现技术，是该领域目前的技术核心。

目前，对于网站分类，多采用线下分类的方式。即事先通过网络爬虫技术得到大量页面，采用自然语言处理的相关方法(例如基于规则的分类器、支持向量机(SVM)等)，对网页内容进行分类后，存储到数据库中。实际使用环境下，根据该数据库得到相应的页面类别，供审计和日志程序使用。

但是，上述分类方法具有以下缺陷：

1)分类的准确性不够高。由于采用基于自然语言处理的相关方法，就目前技术发展水平而言，其分类准确度有限，且这些方法的结论均是基于对较规范文本做出的测试结果。这样的准确度，在上网行为管理类产品的应用场景下，基本不可接受。某一个网页的分类错误，都可能导致客户的投诉。多数网站网页语言并不规范，更增加了利用相关方法进行分类的复杂度。此外，对于分类词库及分类器的构建和维护比较复杂、成本较高；

2)分类粒度较粗。现有分类方法基于数据库进行分类，考虑到页面数量巨大及查询效率等方面的考虑，分类结果一般只能够达到网站级，对于某些大型或知名网站能够达到频道级。但是，随着微博、社会性网络服务(SocialNetworking Services，SNS)的发展，网站级或频道级的分类越来越不能满足用户需求，例如下述的一个场景：此前某企业不允许员工在工作时间观看视频，采用基于网站或频道的分类就可以解决(例如土豆、优酷、奇艺等)；但目前用户有了新的需求，不允许用户观看电影、电视剧等视频，但允许用户观看教育类视频，此时，原先的分类方法就无法再满足用户需求了。此外，对于某些购物类网站、SNS网站，用户也会提出类似的需求；

3)分类实时性不够。由于网站演进迅猛，每天过时的网站与新生的网站数量巨大，因此对于数据库的维护是非常耗时耗力的。此外，对于用户场景下的某些数据库中没有收集到的网站，通常只能给出未分类的结果；

4)目前采用的分类方法，多数为自动分类器+手工回查或纯手工分类的方式，数据库增长速度较慢，且人力成本较高。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于内容的网页分类方法及系统，能够实现基于页面粒度的分类，以及提高分类准确度、提高分类实时性、减少人力成本。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于内容的网页分类方法，包括：

用户设备获取用户要访问的网页的统一资源定位符URL中的特征关键字，并根据所述URL中的特征关键字查询本地的URL特征库，以获取相应的网页分类信息；

用户设备在URL特征库中未查询到相应的网页分类信息，则进一步获取用户要访问的网页的页面内容，并根据所述页面内容查询本地的页面模板库，以获取相应的网页分类信息。

该方法还包括：

用户设备在页面模板库中未查询到相应的网页分类信息，则将所述用户要访问的网页的网页信息发送至模板生成子系统；

所述模板生成子系统根据各用户设备发送的网页信息，生成新的URL特征库和/或页面模板库，并将所述新的URL特征库和/或页面模板库发送给各用户设备。

所述模板生成子系统根据各用户设备发送网页信息，生成新的URL特征库和/或页面模板库为：

统计网页信息被发送的次数；

选择被发送次数高的至少一个网页生成新的URL特征库和/或页面模板库。

所述模板生成系统根据各用户设备发送网页信息，生成新的URL特征库和/或页面模板库具体为：

对待提取的页面信息进行标注；

标注完成后，自动训练产生该网页页面的备选模板；

将备选模板在新的数据中进行测试；

测试成功后，将所述备选模板加入URL特征库和/或页面模板库，生成新的URL特征库和/或页面模板库。

所述用户设备获取用户要访问的网页的URL中的特征关键字，并根据所述URL中的特征关键字查询本地的URL特征库之前，该方法还包括：

根据用户要访问的网页的URL查询高速缓冲存储器Cache，命中记录，则直接返回分类结果；否则，进一步根据用户要访问的网页的URL查询数据库，命中记录，则直接返回分类结果，查询Cache和数据库均未命中记录，则判断所述URL对应的域名是否支持细分，如果是，执行后续步骤；否则，返回未分类结果。

一种基于内容的网页分类系统，包括用户设备，所述用户设备具体包括：第一获取模块、第一查询模块、URL特征库、第二获取模块、第二查询模块和页面模板库；其中，

所述第一获取模块，用于获取用户要访问的网页的URL中的特征关键字；

所述第一查询模块，用于根据所述第一获取模块获取的URL中的特征关键字查询URL特征库，以获取相应的网页分类信息；

所述URL特征库，用于存储URL中的特征关键字和分类信息的对应关系；

所述第二获取模块，用于获取用户要访问的网页的页面内容；

所述第二查询模块，用于在第一查询模块未查询到相应的网页分类信息时，根据所述第二获取模块获取的页面内容查询页面模板库，以获取相应的网页分类信息；

所述页面模板库，用于存储页面内容和分类信息的对应关系。

所述用户设备还包括通信模块，该系统还包括模板生成子系统，所述模板生成子系统具体包括通信模块和模板生成模块；其中，

所述用户设备的通信模块，用于在第二查询模块未查询到相应的网页分类信息时，将所述用户要访问的网页的网页信息发送至模板生成子系统；

所述模板生成子系统的通信模块，用于接收各用户设备发送的网页信息；以及将模板生成模块生成的新的URL特征库和/或页面模板库发送给各用户设备；

所述模板生成模块，用于根据所述通信模块接收的网页信息，生成新的URL特征库和/或页面模板库。

所述模板生成子系统还包括统计分析模块，

所述统计分析模块，用于统计网页信息被发送的次数，并选择被发送次数高的至少一个网页；

所述模板生成模块，具体用于根据所述统计分析模块选择的至少一个网页，生成新的URL特征库和/或页面模板库。

所述模板生成模块，具体用于对待提取的关键词进行标注；标注完成后，自动训练产生该网页页面的备选模板；将备选模板在新的数据中进行测试；测试成功后，将所述备选模板加入URL特征库和/或页面模板库，生成新的URL特征库和/或页面模板库。

所述用户设备还包括：第三查询模块、Cache、第四查询模块、数据库和判断模块；其中，

所述第三查询模块，用于根据用户要访问的网页的URL及页面内容查询Cache；

所述Cache和数据库，用于存储URL与分类信息的对应关系；

所述第四查询模块，用于在第三查询模块未在Cache命中记录时，根据用户要访问的网页的URL查询数据库；

所述判断模块，用于在第四查询模块未命中记录时，判断所述URL对应的域名是否支持细分，如果是，通知第一查询模块进行查询。

本发明基于内容的网页分类方法及系统，用户设备利用网站相关的URL特征描述规则，获取用户要访问的网页的统一资源定位符URL中的特征关键字，并根据所述URL中的特征关键字查询本地的URL特征库，以获取相应的网页分类信息；用户设备在URL特征库中未查询到相应的网页分类信息，则进一步获取用户要访问的网页的页面内容，并根据所述页面内容查询本地的页面模板库，以获取相应的网页分类信息。本发明利用特定的网站中网页页面的关键内容信息，来帮助进行页面级别的细粒度分类问题。采用本发明所述的方案具有以下有益效果：

1、提高了分类准确度。由于利用特定网站自身的分类信息，因此对于网页识别的内容能够达到100％，完全满足上网管理类产品的实际需求。

2、实现了基于页面粒度的分类。对于这些富含内容的网站，对于其分类能够基于页面粒度进行。

3、能够提供实时分类结果。由于不再基于数据库构建分类结果，因此，对于网站中新增的页面，能够提供实时的分类结果。

4减少了人力成本。对于新增的或变更的特定富含内容的网站，本发明仅需要通过半自动的方法，人工确认网站模板，即可达到对于新增和变更的网站分类的支持。

附图说明

图1为本发明实施例一种基于内容的网页分类方法流程示意图；

图2为本发明另一实施例一种基于内容的网页分类方法流程示意图；

图3为本发明实施例一种基于内容的网页分类系统结构示意图；

图4为本发明另一实施例一种基于内容的网页分类系统结构示意图；

图5为本发明另一实施例一种基于内容的网页分类系统结构示意图；

图6为本发明实施例一种基于内容的网页分类方法流程示意图。

具体实施方式

本发明的基本思想是：用户设备获取用户要访问的网页的统一资源定位符URL中的特征关键字，并根据所述URL中的特征关键字查询本地的URL特征库，以获取相应的网页分类信息；用户设备在URL特征库中未查询到相应的网页分类信息，则进一步获取用户要访问的网页的页面内容，并根据所述页面内容查询本地的页面模板库，以获取相应的网页分类信息

图1为本发明实施例一种基于内容的网页分类方法流程示意图，如图1所示，该方法包括：

步骤101：用户设备获取用户要访问的网页的统一资源定位符URL中的特征关键字，并根据所述URL中的特征关键字查询本地的URL特征库，以获取相应的网页分类信息；

步骤102：用户设备在URL特征库中未查询到相应的网页分类信息，则进一步获取用户要访问的网页的页面内容，并根据所述页面内容查询本地的页面模板库，以获取相应的网页分类信息。

本发明主要利用两个手段实现基于页面内容的细分，一是利用网页URL中的特征关键字(例如：对新浪微博中的“发微博”进行控制，其URL中包含“/aj/mblog/add”关键字等)；二是利用用户点击网页中的页面内容，在富含内容的网站，其网站编辑人员已经做了大量的工作：例如对视频分类、对商品种类归类等，所以，可以利用这些已有信息来对网页进行分类，例如：对于网购类别网站，根据分类体系的粒度需求，可将不同类别的网页分别划归至不同的分类中。

图2为本发明另一实施例一种基于内容的网页分类方法流程示意图，如图2所示，该方法还包括：

步骤103：用户设备在页面模板库中未查询到相应的网页分类信息，则将所述用户要访问的网页的网页信息发送至模板生成子系统；

步骤104：所述模板生成子系统根据各用户设备发送的网页信息，生成新的URL特征库和/或页面模板库，并将所述新的URL特征库和/或页面模板库发送给各用户设备。

可选的，所述模板生成子系统根据各用户设备发送网页信息，生成新的URL特征库和/或页面模板库为：统计网页信息被发送的次数；选择被发送次数高的至少一个网页生成新的URL特征库和/或页面模板库。

可选的，所述模板生成系统根据各用户设备发送网页信息，生成新的URL特征库和/或页面模板库具体为：

对待提取的页面信息进行标注；

标注完成后，自动训练产生该网页页面的备选模板；

将备选模板在新的数据中进行测试；

可选的，所述用户设备获取用户要访问的网页的URL中的特征关键字，并根据所述URL中的特征关键字查询本地的URL特征库之前，该方法还包括：

本发明还相应地提出了一种基于内容的网页分类系统，图3为本发明实施例一种基于内容的网页分类系统结构示意图，如图3所示，该系统包括：至少一个用户设备，所述用户设备一般部署于客户机房中，运行于客户环境，实时收集用户点击的网页URL，通过查询分类，来对用户行为进行控制；或者记录日志等，所述用户设备具体包括：第一获取模块、第一查询模块、URL特征库、第二获取模块、第二查询模块和页面模板库；其中，

所述第一获取模块，用于获取用户要访问的网页的URL中的特征关键字；需要说明的是，从URL中提取特征关键字，是基于事先生成的与特定网站相关的URL特征描述规则进行的；

所述第一查询模块，用于根据所述第一获取模块获取的URL中的特征关键字查询URL特征库，以获取相应的网页分类信息；需要说明的是，URL特征库中存储了与网站相关的特征关键字与产品分类体系的对应关系，当从URL中提取到特征关键字后，需要根据URL特征库对类别进行分类映射转换，转化为产品所提供的类别返回给审计或日志进程。

所述URL特征库，用于存储URL中的特征关键字和分类信息的对应关系，所述对应关系是与具体网站及其URL特征相关的，类似于模板，一个网站可能存在一个或几个对应关系；

所述第二获取模块，用于获取用户要访问的网页的页面内容；实际客户环境中，URL的获取与页面内容的获取是同时的，用户访问某网站时，所有内容都可以被记录到；

所述页面模板库，用于存储页面模板以及基于页面模板提取的页面关键信息和分类信息的对应关系。页面模板库包含两个组件，一是提供了如何从页面内容中提取所需分类信息的一套描述规则，用于提取能够帮助进行页面分类的关键信息；二是一套匹配关系，即提取出来的关键信息与分类体系之间的一套映射关系。同URL特征库，在提取到能够反映页面的关键语义信息后，也需要转换成产品分类体系后返回给审计或日志进程。

图4为本发明另一实施例一种基于内容的网页分类系统结构示意图，如图4所示，所述用户设备还包括通信模块，该系统还包括模板生成子系统，所述模板生成子系统具体包括通信模块和模板生成模块；其中，

所述用户设备的通信模块，用于在第二查询模块未查询到相应的网页分类信息时，将所述用户要访问的网页的网页信息(URL和/或网页内容信息)发送至模板生成子系统；需要说明的是，发送网页信息可以有两种选择，一种仅返回网页的URL信息，另一种返回URL及页面内容信息。前面一种在模板训练和测试阶段需要采用爬虫进行页面内容的下载。

所述模板生成子系统的通信模块，用于接收各用户设备发送的网页信息；以及将模板生成模块生成的新的URL特征库和/或页面模板库发送给各用户设备；该模块主要承担接收来自模板生成模块的新模板，和自动向开通模板更新服务的设备端下发模板的功能；记录各设备的更新版本和更新历史，更有效快速的提供服务。

URL特征库生成包括两个部分：URL特征描述规则和URL关键字信息与产品分类体系的映射关系；

在收集到各用户设备发送的网页信息后，人工观察其URL中是否包含能够帮助分类的关键信息，如有，则人工对需要提取的信息进行标注；

经过标注的一个或几个URL通过自动学习，得到备选URL特征描述规则；

备选规则经过一些测试URL测试通过后，可转为可正式发布的URL特征描述规则；

采用设备发送的大量网页信息(或采用爬虫进行网站内定向爬取)，利用URL特征描述规则进行关键字信息提取，提取出关键字信息列表；

人工建立关键字信息列表与产品分类体系之间的映射关系；

URL特征库发布；

同理，页面模板库也包含两个部分：页面模板和页面关键信息与产品分类体系的映射关系；整个流程与URL特征库类似；

对一个(或几个)页面上待提取的能够帮助网页进行分类的关键信息进行标注(数据来源可通过用户设备反馈网页或爬虫爬取)；

采用算法自动进行模板的学习，得到备选模板；

采用测试数据对备选模板进行测试；如能完整提取关键信息，备选模板转正；

采用转正模板进行大量页面的分类信息提取，得到该网站所有能够提取的关键信息列表；

人工对关键信息列表与产品分类提取建立映射关系；

页面模板库发布；

图5为本发明另一实施例一种基于内容的网页分类系统结构示意图，如图5所示，所述模板生成子系统还包括统计分析模块，

所述统计分析模块，用于统计网页信息被发送的次数，并选择被发送次数高的至少一个网页；在收到来自用户设备的未分类URL及页面数据之后，该模块负责定期对数据进行统计和分类整理，确定对于多个用户设备反映的较热的急需提供分类支持的网站或网页进行优先处理。

可选的，所述模板生成模块，具体用于对待提取的关键词进行标注；标注完成后，自动训练产生该网页页面的备选模板；将备选模板在新的数据中进行测试；测试成功后，将所述备选模板加入URL特征库和/或页面模板库，生成新的URL特征库和/或页面模板库。在采集到待分类的网页数据(同一页面框架至少2个不同页面)后，对待提取的页面信息进行标注；标注完成后，程序自动训练产生该网页页面的备选模板；备选模板在新的数据中进行测试后，转为正式模板进行发布；全程需要人工进行参与的部分为关键词标注和测试结果验证两个阶段，工作量不大。

可选的，模板生成模块还可以运行爬虫程序，用于对需分类的网站提供页面数据获取的功能；由于接收URL的同时，可能同时接收到页面内容数据(2.3描述，有效避免某些网站需要登录账号的问题)，因此该模块为可选模块。

可选的，所述用户设备还包括：第三查询模块、Cache、第四查询模块、数据库和判断模块；其中，

所述Cache和数据库，用于存储URL及页面内容与分类信息的对应关系；其中，所述数据库，存储网站或频道级别的URL与分类信息的对应关系，一般采用<key，value>数据库进行存储；而Cache存储的数据为数据库数据的子集，为用户频繁查询的URL与分类信息的对应关系，主要用途为快速响应查询请求，采用调度算法进行内容的淘汰与更新(例如LRU)；Cache主要用于对于常用URL查询结果的快速返回，可采用内存或数据库方式实现。用户查询且返回结果的URL及其相应类别均可存储于Cache中；Cache可采用调度策略加入或淘汰其中的数据(例如LRU，least recently used，最近最少使用)；所述第四查询模块，用于在第三查询模块未在Cache命中记录时，根据用户要访问的网页的URL及页面内容查询数据库；

数据库为预先通过线下方式收集的网站(网页)及其相应类别的映射关系，采用数据库存储，使用数据库接口访问，也可完全载入内存中。原则上数据库数据量比cache大，但查询速度略慢，对网站提供较大程度的覆盖。

需要说明的是，模板生成子系统中的模块可以不属于不同的设备中，也可以部署于同一设备中。

下面结合具体实施例对本发明的技术方案作进一步详细说明。

实施例

图6为本发明实施例一种基于内容的网页分类方法流程示意图，如图6所示，该方法包括：

601、将待分类URL传送给cache进行查询，如果命中记录，则直接返回分类结果；如果未命中，则进入步骤602；

602、将URL在数据库模块中进行查询，如果命中记录，则直接返回分类结果，并同时将URL及分类结果记录于cache中；如果未命中，则进入步骤603；

603、在对于602的查询中，会返回该URL对应的域名是否支持细分的标记；如果标记该网站支持细分，则进入步骤604；否则直接返回未分类结果；

604、根据URL特征进行分类，如果得到分类结果则直接返回，并同时将URL及分类结果记录于cache中；如果没有得到分类结果则进入步骤605；

605、进行页面关键信息提取，得到页面关键信息后根据提前建立的关键信息与类别体系的映射关系进行匹配，如果分类成功则直接返回，并同时将URL及分类结果记录于cache中；如果分类未成功则直接返回未分类结果后，进入步骤606；

606、将未得到分类的URL(必选)及页面信息(可选)发送至模板生成子系统；

607、模板生成子系统的通信模块收到来自多台设备的反馈未分类数据后，由统计分析模块进行排重和统计；并按照网站进行数据分组处理；

608、统计分析模块将需要进行模板生成或更新的网站及相关数据发送至模板生成模块；

609、如果页面信息未被同时传输，则模板生成模块运行爬虫程序对待分类网站进行定向爬取；如果已有相当数量的页面被返回，则略过此步骤；

610、在得到网站数据后，通过人工标注需要提取的标签等关键信息；采用模板自动生成的方法生成网站自动提取模板；

611、程序生成的自动模板在其余未参与模板训练的测试数据中进行运行，人工核定文本提取结果无误后，制定关键数据与产品分类体系之间的映射关系(可通过提取页面导航页或标签页来进行整理)，并将其作为模板的一部分连同模板一并发布；

612、经过审核或者试运行的模板被传送至各用户设备；

613、各设备更新模板，增加分类的覆盖率。

整个流程形成闭环，囊括了从反馈、整理、生产到发布各个环节，保证对新增需要进行页面细分的网站的高效处理。

此外，本实施例中，对于数据库的更新，可采用类似的方式。

可以看出，采用本发明所述的技术方案具有以下有益效果：

1、能够解决对于特定类别网站的页面内容实时分类问题；

2、能够及时反馈由于网站改版引起的对于页面内容未能分类的问题；

3、能够自动的提取网站框架，抽取分类所关心的页面内容及关键字；

4、经过人工审核的网站模板能够快速反馈至所有设备，对新网站或网站变更响应快速。

对于页面模板的提取可采用基于DOM树页面内容提取、或正则表达及其优化算法等。选择适应需求的，具有所需的语义表达能力的方法即可。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种基于内容的网页分类方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，该方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述模板生成子系统根据各用户设备发送网页信息，生成新的URL特征库和/或页面模板库为：

统计网页信息被发送的次数；

4.根据权利要求2或3所述的方法，其特征在于，所述模板生成系统根据各用户设备发送网页信息，生成新的URL特征库和/或页面模板库具体为：

对待提取的页面信息进行标注；

标注完成后，自动训练产生该网页页面的备选模板；

将备选模板在新的数据中进行测试；

5.根据权利要求1至3任一项所述的方法，其特征在于，所述用户设备获取用户要访问的网页的URL中的特征关键字，并根据所述URL中的特征关键字查询本地的URL特征库之前，该方法还包括：

6.一种基于内容的网页分类系统，其特征在于，该系统包括用户设备，所述用户设备具体包括：第一获取模块、第一查询模块、URL特征库、第二获取模块、第二查询模块和页面模板库；其中，

7.根据权利要求6所述的系统，其特征在于，所述用户设备还包括通信模块，该系统还包括模板生成子系统，所述模板生成子系统具体包括通信模块和模板生成模块；其中，

8.根据权利要求7所述的系统，其特征在于，所述模板生成子系统还包括统计分析模块，

9.根据权利要求7或8所述的系统，其特征在于，

10.根据权利要求6至8任一项所述的系统，其特征在于，所述用户设备还包括：第三查询模块、Cache、第四查询模块、数据库和判断模块；其中，

所述Cache和数据库，用于存储URL与分类信息的对应关系；