CN105512143A - 一种网页分类方法及装置 - Google Patents
一种网页分类方法及装置 Download PDFInfo
- Publication number
- CN105512143A CN105512143A CN201410504901.4A CN201410504901A CN105512143A CN 105512143 A CN105512143 A CN 105512143A CN 201410504901 A CN201410504901 A CN 201410504901A CN 105512143 A CN105512143 A CN 105512143A
- Authority
- CN
- China
- Prior art keywords
- web page
- page address
- webpage
- type
- address structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种网页分类方法及装置。本发明的网页分类方法包括:根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个样本网页地址和各所述样本网页地址对应的网页类型;获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址所属的所述网页类型;对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述结构字符串为网页地址结构;存储所述网页地址结构及其对应的所述网页类型;在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去冗余处理得到对应的网页地址结构,利用该网页地址结构从存储中查找出所述待分类网页所属的网页类型;本发明的方法实现对网页快速高效的分类。
Description
技术领域
本发明涉及互联网通讯技术领域,尤其涉及一种网页分类方法及装置。
背景技术
网页分类是当下互联网应用中的一个热点问题。对网页进行分类,可以以此来对用户访问网页的记录进行分析,从而得出用户的上网偏好,以便进一步给用户提供基于该偏好的互联网服务。
网页分类的结果一般由爬虫系统进行爬取后,保存在数据存储系统中。但由于互联网上的网页数量非常庞大,随着爬取到的网页数目增加,数据的查询和分析会越来越慢。
目前已存在许多网页分类的方法,都需要解析网页正文内容进行分类,而且还需要将网页和类别的对应关系进行记录,导致网页分类的效率低下;另外,由于解析网页正文需要大量的分析和计算,对系统性能有影响。
发明内容
本发明要解决的主要技术问题是,提供一种网页分类方法及装置,能够解决采用目前网页分类方法对进行网页分类的效率低下的问题。
为解决上述技术问题,本发明提供一种网页分类方法,包括如下步骤:
根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个样本网页地址和各所述样本网页地址对应的网页类型;
获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址所属的所述网页类型;
对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述结构字符串为网页地址结构;
存储所述网页地址结构及其对应的所述网页类型;
在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去冗余处理得到对应的网页地址结构,利用该网页地址结构从存储中查找出所述待分类网页所属的网页类型。
进一步地,所述根据网页样本集合建立特征词分类器的步骤包括:
对所述多个样本网页地址对应的网页内容进行分词处理获取多个特征词;
获取每个所述特征词属于各所述网页类型的概率;
根据获取结果形成所述特征词分类器。
进一步地,所述通过所述特征词分类器确定所述网页地址所属的所述网页类型的步骤包括:
从所述网页地址对应的网页内容中提取关键词;
根据所述特征词分类器计算所述关键词属于每个所述网页类型的概率;
根据计算结果确定所述网页地址所属的所述网页类型。
进一步地,所述存储所述网页地址结构及其对应的所述网页类型的步骤包括:
统计每种所述网页地址结构属于各个所述网页类型的次数;
根据统计结果重新确定每种所述网页地址结构所属的网页类型;
存储每种网页地址结构及其对应的网页类型。
进一步地,所述根据统计结果重新确定每种所述网页地址结构所属的网页类型的步骤包括:
根据所述网页地址属于各个所述网页类型的次数计算出该网页地址属于各个所述网页类型的概率;
根据计算出的概率确定该网页地址结构所属的网页类型;
或者
当所述网页地址结构为子目录网页地址结构时,根据该子目录地址结构属于各个所述网页类型的次数计算出该子目录地址结构属于各个所述网页类型的概率;根据计算出的概率确定该子目录地址结构所属的网页类型;
当所述网页地址结构为上层目录网页地址结构并且存在其下的子目录网页地址结构时,根据所述上层目录网页地址下的所述子目录网页地址结构所属的所述网页类型确定所述上层目录网页地址结构所属的所述网页类型。
进一步地,所述存储每种网页地址结构及其对应的网页类型的步骤包括:
以结构树的形式存储每种网页地址结构及其对应的网页类型。
同样为了解决上述的技术问题,本发明还提出了一种网页分类装置,包括:特征词分类器建立模块、获取识别模块、网页地址处理模块、存储模块和网页分类模块;
所述特征词分类器建立模块用于根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个样本网页地址和各所述样本网页地址对应的网页类型。
所述获取识别模块用于获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址所属的所述网页类型;
所述网页地址处理模块用于对所述获取识别模块确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述结构字符串为网页地址结构;
所述存储模块用于存储所述网页地址结构及其对应的所述网页类型;
所述网页分类模块用于在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去冗余处理得到对应的网页地址结构,利用该网页地址结构从所述存储模块中查找出所述待分类网页所属的网页类型。
进一步地,所述特征词分类器建立模块用于:
对所述多个样本网页地址对应的网页内容进行分词处理获取多个特征词;
获取每个所述特征词属于各所述网页类型的概率;
根据获取结果形成所述特征词分类器。
进一步地,所述获取识别模块用于:
从所述网页地址对应的网页内容中提取关键词;
根据所述特征词分类器计算所述关键词属于每个所述网页类型的概率;
根据计算结果确定所述网页地址所属的所述网页类型。
进一步地,所述存储模块包括:统计模块、类型确定模块以及执行存储模块;
所述统计模块用于统计每种所述网页地址结构属于各个所述网页类型的次数;
所述类型确定模块用于根据所述统计模块的统计结果重新确定每种所述网页地址结构所属的网页类型;
所述执行存储模块用于存储每种网页地址结构及其对应的网页类型。
进一步地,所述类型确定模块用于:
根据所述网页地址属于各个所述网页类型的次数计算出该网页地址属于各个所述网页类型的概率;
根据计算出的概率确定该网页地址结构所属的网页类型;
或者
当所述网页地址结构为子目录网页地址结构时,根据该子目录地址结构属于各个所述网页类型的次数计算出该子目录地址结构属于各个所述网页类型的概率;根据计算出的概率确定该子目录地址结构所属的网页类型;
当所述网页地址结构为上层目录网页地址结构并且存在其下的子目录网页地址结构时,根据所述上层目录网页地址下的所述子目录网页地址结构所属的所述网页类型确定所述上层目录网页地址结构所属的所述网页类型。
进一步地,所述执行存储模块用于以结构树的形式存储每种网页地址结构及其对应的网页类型。
本发明的有益效果是:
本发明提供了一种网页分类方法及装置,可以利用网页地址相似性的特性实现对网页快速高效的分类;具体地,本发明的网页分类方法,包括如下步骤:根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个样本网页地址和各所述样本网页地址对应的网页类型;获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址所属的所述网页类型;对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述结构字符串为网页地址结构;存储所述网页地址结构及其对应的所述网页类型;在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去冗余处理得到对应的网页地址结构,利用该网页地址结构从存储中查找出所述待分类网页所属的网页类型;本发明方法可以预先获取并存储网页地址结构与网页类型的对应关系,然后在网页分类时利用待分类网页对应的网页地址结构从预先存储中直接查找出带分类网页所属的网页类型;不需要对待分类网页的网页内容进行解析也不需要记录网页和类别的对应关系供后续查询,与现有技术相比,提高了网页分类的速度和效率,并且减小了网页分类对系统性能的影响,提升了用户体验。
附图说明
图1为本发明实施例一提供的一种网页分类方法的流程示意图;
图2为本发明实施例一提供的一种存储所述网页地址结构及其对应的所述网页类型的流程示意图;
图3为本发明实施例一提供的一种建立URL结构树表的流程示意图;
图4为本发明实施例一提供的一种利用URL结构树表对网页分类的流程示意图;
图5为本发明实施例二提供的一种网页分类装置的结构示意图;
图6为本发明实施例二提供的另一种网页分类装置的结构示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
实施例一:
考虑到采用目前网页分类方法不能够高效快速地对网页进行分类的问题,本实施例提供了一种区别于现有技术的网页分类方法,利用网页地址(URL)结构相似性来实现对网页进行快速分类;如图1所示,本实施例的网页分类方法具体包括如下步骤:
步骤101:根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个样本网页地址和各所述样本网页地址对应的网页类型。
在对网页进行分类之前,本实施例方法预先选取一些样本网页地址和样本网页地址对应的网页类型;例如网页地址1-财经,网页地址2-体育,网页地址-视频……;然后可以利用这些样本网页地和网页类型建立特征词分类器,本实施例中特征词分类器用于根据网页地址对应的网页内容来确定网页地址所属的网页类型。
在本实施例中样本集合中预设网页类型作为后续网页类型的基准,后续不管是确定URL结构的网页类型或者待分类网页的类型均限于样本集合中网页类型。所以,在选取样本的时候尽量将所有的类型都考虑进来。
优先地,本步骤中根据网页样本集合建立特征词分类器的过程包括:
对所述多个样本网页地址对应的网页内容进行分词处理获取多个特征词;
获取每个所述特征词属于各所述网页类型的概率;
根据获取结果形成所述特征词分类器。
例如对网址1、网址2对应网页内容进行分词处理获取多个特征词(例如具有代表性的词条),然后计算每个特征词属于体育、财经、视频、音乐的概率;最后可以根据计算结果生成一张表格即为特征词分类器。
步骤102:获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址所属的所述网页类型。
例如爬取模块会利用爬虫的机制,不断的增量爬取URL;本实施例方法可以对通过特征词分类器对爬取的URL进行分类。
本步骤主要是通过网页内容和特征词分类器来确定网页地址的网页类型。具体地,本步骤中所述通过所述特征词分类器确定所述网页地址所属的所述网页类型的过程可以包括:
从所述网页地址对应的网页内容中提取关键词;
根据所述特征词分类器计算所述关键词属于每个所述网页类型的概率;
根据计算结果确定所述网页地址所属的所述网页类型。
例如对从当前网页内容中提取关键词1、关键词2;将关键词1和2与特征分类器中的特征词进行匹配,匹配成功后得到该关键词1和2属于各网页类型的概率,然后根据概率计算确定当前网页所属的类型,也就得到当前网页的网页地址所属的网页类型。
步骤103:对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述结构字符串为网页地址结构。
本实施例URL结构是指对URL进行去除冗余之后留下来的结构字符串。比如对于下面这个URL:
http://sports.sina.com.cn/nba/2014-06-11/12007202951.shtml
去除后如下:
http://sports.sina.com.cn/nba/.shtml
再去掉协议前缀和最后的文件名,如下:
sports.sina.com.cn/nba/
这一串内容就认为是URL结构。
本步骤是对于每一个识别出网页类型的网页地址URL进行规整,即去冗余处理得到URL结构。
例如在爬取的网址1-5中仅网址1、3通过特征词分类器识别出了网页类型,此时就会对网1、3进行去冗余处理得到URL结构1和URL结构3。
步骤104:存储所述网页地址结构及其对应的所述网页类型。
本步骤是将得到的网页地址结构及其对应的网页类型存储,供后续对网页进行分类时查询。
为了增加后续对网页分类的精确性,在获取多个网页地址结构及其对应的网页类型后,还需要对网页地址结构进行规划和进一步确定网页地址结构所属的类型;优选地,本步骤具体包括,如图2所示:
步骤201:统计每种所述网页地址结构属于各个所述网页类型的次数。
由于在去冗余之后,会存在多个相同的URL结构,本实施例中将多个相同的URL结构归为一类,即一种URL结构,然后统计每种URL结构属于各个网页类型的次数;例如,在爬取如下网页地址并确定网页类型:
http://sports.sina.com.cn/nba/2014-06-11/12007202951.shtml体育
http://sports.sina.com.cn/nba/2014-06-12/12007340295.shtml体育
http://sports.sina.com.cn/nba/2014-06-12/12011202911.shtml体育
http://sports.sina.com.cn/nba/2014-06-12/12001213253.shtml体育
在对上述网页地址去冗余处理后,得到sports.sina.com.cn/nba/这个URL结构,其属于体育网页类型的次数为4。
步骤202:根据统计结果重新确定每种所述网页地址结构所属的网页类型。
本实施例在统计了各网页地址结构出现在各网页类型上的次数后,可以根据统计的结果来计算出每种网页地址结构所属的网页类型例如可以根据属于各网页类型计算概率,选取概率高的网页类型作为该网页地址所属的网页类型。
本实施例可以将各种URL结构及其对应网页类型保存在一个向量空间中,然后在对向量空间的内容进行计算确定每种URL结构对应的网页类型,最后存在数据库中供后续分类查询。
步骤203:存储每种网页地址结构及其对应的网页类型。
步骤105:在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去冗余处理得到对应的网页地址结构,利用该网页地址结构从存储中查找出所述待分类网页所属的网页类型。
本实施例中步骤101-104为对网页分类前预先处理的过程,在通过步骤101-104之后即可得到各种网页地址结构及其对应的网页类型;在后续需要对网页进行分类时,可以从事先得到的对应关系中查找出当前待分类网页对应的网页类型,也就是当前待分类网页的网页地址对应的网页类型。
本实施例方法可以预先获取并存储网页地址结构与网页类型的对应关系,然后在网页分类时利用待分类网页对应的网页地址结构从预先存储中直接查找出带分类网页所属的网页类型;不需要对待分类网页的网页内容进行解析也不需要记录网页和类别的对应关系供后续查询,与现有技术相比,提高了网页分类的速度和效率,并且减小了网页分类对系统性能的影响,提升了用户体验。
本实施例方法可以采用一些便于分类查找的形式来存储每种网页地址结构及其对应的网页类型,优先地,本实施例方法以结构树的形式存储每种网页地址结构及其对应的网页类型,即URL结构树表。。
本实施例方法可以将该URL结构及其对应的网页类型保存在内存中的结构树中,后续应用系统在尝试获取某个网页的分类的时候,可以先查询此结构树,以更快的获取该网页对应的分类。
由于本实施例的网页分类方法是基于预先建立的网页地址结构与网页类型之间的对应关系,所以下面以建立URL结构树表为例来详细介绍本实施例的网页分类方法中建立URL结构与网页类型之间的对应关系,如图3所示:
301:通过样本URL集合来建立特征词分类器。
首先,需要准备一个样本URL集合,里面包括一些预先设定的URL和其已知分类。示例如下:
sports.sina.com.cn | 体育 |
finance.sina.com.cn | 财经 |
www.kankan.com | 视频 |
mp3.baidu.com | 音乐 |
news.china.com.cn | 新闻 |
www.weibo.com | 社交 |
表1
通过对这些样本进行分词处理和计算出现频次,得到各个特征词对各个分类的频数,如下:
体育 | 财经 | 视频 | 音乐 | 新闻 | 社交 | |
sports | 30 | 0 | 3 | 0 | 1 | 0 |
finance | 0 | 50 | 0 | 0 | 0 | 0 |
kankan | 0 | 0 | 40 | 3 | 0 | 0 |
mp3 | 0 | 0 | 0 | 43 | 0 | 0 |
0 | 0 | 0 | 1 | 1 | 33 | |
news | 1 | 1 | 1 | 1 | 38 | 1 |
表2
之后可以确定每个特征词出现的时候,属于每个类别的概率。
体育 | 财经 | 视频 | 音乐 | 新闻 | 社交 | |
sports | 88.2% | 0% | 8.8% | 0% | 3% | 0% |
finance | 0% | 100% | 0% | 0% | 0% | 0% |
kankan | 0% | 0% | 93% | 7% | 0% | 0% |
mp3 | 0% | 0% | 0% | 100% | 0% | 0% |
0% | 0% | 0% | 2.8% | 2.8% | 94.4% | |
news | 2.3% | 2.3% | 2.3% | 2.3% | 88.5% | 2.3% |
表3
这样就形成一个特征词分类器。
302、爬取模块爬取URL并通过特征词分类器对URL进行分类。
爬取模块会利用爬虫的机制,不断的增量爬取URL,并对URL的网页内容进行分析,得到该URL最可能的分类。
训练是通过将URL的网页内容进行解析,取出URL的网页内容中每个关键词,比如
http://sports.sina.com.cn/nba/2014-06-11/12007202951.shtml
其网页内容中的关键词就是sportssinacomcnnba这些。
将这些关键词通过特征词分类器进行概率计算,得到该URL可能的分类。比如示例中就可以根据分类器,得到该URL对应的分类是体育分类。
303、将规整后URL结构的分类结果保存在训练向量空间中。
首先,需要在内存中建立一个训练用的向量空间,用来对URL结构进行训练。
URL结构是指对URL进行去除冗余之后留下来的结构字符串。比如对于下面这个URL:
http://sports.sina.com.cn/nba/2014-06-11/12007202951.shtml
其中的数字和-都是无用信息,可以去除。
去除后如下:
http://sports.sina.com.cn/nba/.shtml
再去掉协议前缀和最后的文件名,如下:
sports.sina.com.cn/nba/
这一串内容就认为是URL结构。
对每一个识别出分类的网页的URL进行规整,得到URL结构并保存在训练向量空间中。
比如:
http://sports.sina.com.cn/cba/2014-06-11/12007202951.shtml体育
http://sports.sina.com.cn/cba/2014-06-12/12007340295.shtml体育
http://sports.sina.com.cn/cba/2014-06-12/12011202911.shtml体育
http://sports.sina.com.cn/cba/2014-06-12/12001213253.shtml体育
则对于sports.sina.com.cn/cba/这个URL结构,其对应的向量空间中体育分类的数值上加上4。
304、通过对训练向量空间的内容进行计算,得到URL结构对应的分类结果。
具体地,可以通过计算URL结构属于每个网页分类的概率,然后根据计算的概率来得到该URL结构对应的网页分类。
另外,还可以将URL结构区分了上层目录URL结构和子目录URL结构;当所述网页地址结构为子目录网页地址结构时,根据该子目录地址结构属于各个所述网页类型的次数计算出该子目录地址结构属于各个所述网页类型的概率;根据计算出的概率确定该子目录地址结构所属的网页类型;当所述网页地址结构为上层目录网页地址结构并且存在其下的子目录网页地址结构时,根据所述上层目录网页地址下的所述子目录网页地址结构所属的所述网页类型确定所述上层目录网页地址结构所属的所述网页类型。
假设向量空间如下:
表4
一种方式是,计算URL目录结构出现在每个分类上的概率,当概率高与某个预设阈值后,则认定概率高的分类就是URL结构对应的分类。比如sports.sina.com.cn/nba/,P(x|体育)=100%,则可以认为该结构分类为体育。
另一种方式是:区别上层目录结构和子目录结构,对于一个子目录结构,可以通过其下面的网页出现在每个分类的次数,来计算概率,概率高于80%的,我们认为该结构就可以认为对应该分类。
而对于上层目录结构,可以通过其下的多个子目录结构来进行判断,即按照贝叶斯计算该目录结构属于每个分类的概率,概率最高的为此目录对应的分类。
比如对于sports.sina.com.cn,假设其子结构有三个,分别为A、B、C,则对应各个分类的概率如下:
P(X|体育)=P(A|体育)P(B|体育)P(C|体育)
P(X|美食)=P(A|美食)P(B|美食)P(C|美食)
…………
P(X|游戏)=P(A|游戏)P(B|游戏)P(C|游戏)
最后对应的分类为计算得到的P最高的那个分类。
305、将URL结构的分类结果存入内存中的结构树表中。
计算出来的每个URL结构对应的分类结果存入结构树表中,例如结构树表内容如下:
当将上述得到的结构树表应用于对网页分类时,其可以包括以下步骤,如图4所示:
401:对某个待分类的网页的URL进行结构规整得到对应的URL结构。
应用系统需要对某个网页进行分类,则首先对该网页的URL进行规整并得到其URL结构。比如一个URL:
http://sports.sina.com.cn/cba/2014-06-12/09527204073.shtml,规整后为:
sports.sina.com.cn/cba/
402:将得到的URL结构在内存的结构树表中进行检索。
将该URL结构在结构树表中进行检索,找到对应的叶子节点。示例中就是用sports.sina.com.cn/cba/进行检索。
403:如果检索到URL结构对应的分类则将该分类作为待分类网页的分类。
如果检索到URL结构对应的分类,则认为此分类为该网页的分类。比如示例中,,首先找到sports.sina.com.cn,然后找其下面的节点,找到cba然后确定其分类是体育。
如果找到sports.sina.com.cn之后就找不到再下级的节点了,则以当前节点的分类作为该网页的分类。
通过以上的方法,应用可以直接在内存中对网页进行分类,而且不需要存储网页和分类的对应关系,节省大量的空间,而且可以高速和高效的获取网页分类结果。
实施例二:
本实施例提供了一种网页分类装置,如图5所示,包括:特征词分类器建立模块、获取识别模块、网页地址处理模块、存储模块和网页分类模块;
所述特征词分类器建立模块用于根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个样本网页地址和各所述样本网页地址对应的网页类型。
所述获取识别模块用于获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址所属的所述网页类型;
所述网页地址处理模块用于对所述获取识别模块确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述结构字符串为网页地址结构;
所述存储模块用于存储所述网页地址结构及其对应的所述网页类型;
所述网页分类模块用于在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去冗余处理得到对应的网页地址结构,利用该网页地址结构从所述存储模块中查找出所述待分类网页所属的网页类型。
本实施例提供的网页分类装置可以预先获取并存储网页地址结构与网页类型的对应关系,然后在网页分类时利用待分类网页对应的网页地址结构从预先存储中直接查找出带分类网页所属的网页类型;不需要对待分类网页的网页内容进行解析也不需要记录网页和类别的对应关系供后续查询,与现有技术相比,提高了网页分类的速度和效率,并且减小了网页分类对系统性能的影响,提升了用户体验。
优先地,在上述网页分类装置基础上,所述特征词分类器建立模块用于:
对所述多个样本网页地址对应的网页内容进行分词处理获取多个特征词;
获取每个所述特征词属于各所述网页类型的概率;
根据获取结果形成所述特征词分类器。
优先地,在上述网页分类装置基础上,所述获取识别模块用于:
从所述网页地址对应的网页内容中提取关键词;
根据所述特征词分类器计算所述关键词属于每个所述网页类型的概率;
根据计算结果确定所述网页地址所属的所述网页类型。
优先地,在上述网页分类装置基础上,如图6所示,所述存储模块包括:统计模块、类型确定模块以及执行存储模块;
所述统计模块用于统计每种所述网页地址结构属于各个所述网页类型的次数;
所述类型确定模块用于根据所述统计模块的统计结果重新确定每种所述网页地址结构所属的网页类型;
所述执行存储模块用于存储每种网页地址结构及其对应的网页类型。
优先地,所述类型确定模块用于:
根据所述网页地址属于各个所述网页类型的次数计算出该网页地址属于各个所述网页类型的概率;
根据计算出的概率确定该网页地址结构所属的网页类型;
或者
当所述网页地址结构为子目录网页地址结构时,根据该子目录地址结构属于各个所述网页类型的次数计算出该子目录地址结构属于各个所述网页类型的概率;根据计算出的概率确定该子目录地址结构所属的网页类型;
当所述网页地址结构为上层目录网页地址结构并且存在其下的子目录网页地址结构时,根据所述上层目录网页地址下的所述子目录网页地址结构所属的所述网页类型确定所述上层目录网页地址结构所属的所述网页类型。
优先地,所述执行存储模块用于以结构树的形式存储每种网页地址结构及其对应的网页类型。
Claims (12)
1.一种网页分类方法,其特征在于,包括如下步骤:
根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个样本网页地址和各所述样本网页地址对应的网页类型;
获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址所属的所述网页类型;
对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述结构字符串为网页地址结构;
存储所述网页地址结构及其对应的所述网页类型;
在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去冗余处理得到对应的网页地址结构,利用该网页地址结构从存储中查找出所述待分类网页所属的网页类型。
2.如权利要求1所述的方法,其特征在于,所述根据网页样本集合建立特征词分类器的步骤包括:
对所述多个样本网页地址对应的网页内容进行分词处理获取多个特征词;
获取每个所述特征词属于各所述网页类型的概率;
根据获取结果形成所述特征词分类器。
3.如权利要求1所述的方法,其特征在于,所述通过所述特征词分类器确定所述网页地址所属的所述网页类型的步骤包括:
从所述网页地址对应的网页内容中提取关键词;
根据所述特征词分类器计算所述关键词属于每个所述网页类型的概率;
根据计算结果确定所述网页地址所属的所述网页类型。
4.如权利要求1-3任一项所述的方法,其特征在于,所述存储所述网页地址结构及其对应的所述网页类型的步骤包括:
统计每种所述网页地址结构属于各个所述网页类型的次数;
根据统计结果重新确定每种所述网页地址结构所属的网页类型;
存储每种网页地址结构及其对应的网页类型。
5.如权利要求4所述的方法,其特征在于,所述根据统计结果重新确定每种所述网页地址结构所属的网页类型的步骤包括:
根据所述网页地址属于各个所述网页类型的次数计算出该网页地址属于各个所述网页类型的概率;
根据计算出的概率确定该网页地址结构所属的网页类型;
或者
当所述网页地址结构为子目录网页地址结构时,根据该子目录地址结构属于各个所述网页类型的次数计算出该子目录地址结构属于各个所述网页类型的概率;根据计算出的概率确定该子目录地址结构所属的网页类型;
当所述网页地址结构为上层目录网页地址结构并且存在其下的子目录网页地址结构时,根据所述上层目录网页地址下的所述子目录网页地址结构所属的所述网页类型确定所述上层目录网页地址结构所属的所述网页类型。
6.如权利要求4所述的方法,其特征在于,所述存储每种网页地址结构及其对应的网页类型的步骤包括:
以结构树的形式存储每种网页地址结构及其对应的网页类型。
7.一种网页分类装置,其特征在于,包括:特征词分类器建立模块、获取识别模块、网页地址处理模块、存储模块和网页分类模块;
所述特征词分类器建立模块用于根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个样本网页地址和各所述样本网页地址对应的网页类型。
所述获取识别模块用于获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址所属的所述网页类型;
所述网页地址处理模块用于对所述获取识别模块确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述结构字符串为网页地址结构;
所述存储模块用于存储所述网页地址结构及其对应的所述网页类型;
所述网页分类模块用于在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去冗余处理得到对应的网页地址结构,利用该网页地址结构从所述存储模块中查找出所述待分类网页所属的网页类型。
8.如权利要求7所述的装置,其特征在于,所述特征词分类器建立模块用于:
对所述多个样本网页地址对应的网页内容进行分词处理获取多个特征词;
获取每个所述特征词属于各所述网页类型的概率;
根据获取结果形成所述特征词分类器。
9.如权利要求7所述的装置,其特征在于,所述获取识别模块用于:
从所述网页地址对应的网页内容中提取关键词;
根据所述特征词分类器计算所述关键词属于每个所述网页类型的概率;
根据计算结果确定所述网页地址所属的所述网页类型。
10.如权利要求7-9任一项所述的装置,其特征在于,所述存储模块包括:统计模块、类型确定模块以及执行存储模块;
所述统计模块用于统计每种所述网页地址结构属于各个所述网页类型的次数;
所述类型确定模块用于根据所述统计模块的统计结果重新确定每种所述网页地址结构所属的网页类型;
所述执行存储模块用于存储每种网页地址结构及其对应的网页类型。
11.如权利要求10所述的装置,其特征在于,所述类型确定模块用于:
根据所述网页地址属于各个所述网页类型的次数计算出该网页地址属于各个所述网页类型的概率;
根据计算出的概率确定该网页地址结构所属的网页类型;
或者
当所述网页地址结构为子目录网页地址结构时,根据该子目录地址结构属于各个所述网页类型的次数计算出该子目录地址结构属于各个所述网页类型的概率;根据计算出的概率确定该子目录地址结构所属的网页类型;当所述网页地址结构为上层目录网页地址结构并且存在其下的子目录网页地址结构时,根据所述上层目录网页地址下的所述子目录网页地址结构所属的所述网页类型确定所述上层目录网页地址结构所属的所述网页类型。
12.如权利要求11所述的装置,其特征在于,所述执行存储模块用于以结构树的形式存储每种网页地址结构及其对应的网页类型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410504901.4A CN105512143A (zh) | 2014-09-26 | 2014-09-26 | 一种网页分类方法及装置 |
PCT/CN2015/077430 WO2016045378A1 (zh) | 2014-09-26 | 2015-04-24 | 一种网页分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410504901.4A CN105512143A (zh) | 2014-09-26 | 2014-09-26 | 一种网页分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105512143A true CN105512143A (zh) | 2016-04-20 |
Family
ID=55580241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410504901.4A Withdrawn CN105512143A (zh) | 2014-09-26 | 2014-09-26 | 一种网页分类方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105512143A (zh) |
WO (1) | WO2016045378A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339459A (zh) * | 2016-08-26 | 2017-01-18 | 中国科学院信息工程研究所 | 基于关键词匹配进行中文网页预分类的方法 |
CN107506478A (zh) * | 2017-09-08 | 2017-12-22 | 北京京东尚科信息技术有限公司 | 一种区分网站页面的方法和装置 |
CN107741960A (zh) * | 2017-09-25 | 2018-02-27 | 厦门集微科技有限公司 | Url的分类方法及装置 |
CN109284465A (zh) * | 2018-09-04 | 2019-01-29 | 暨南大学 | 一种基于url的网页分类器构建方法及其分类方法 |
CN109583211A (zh) * | 2018-10-11 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 网站聚类及漏洞扫描方法、装置、电子设备及存储介质 |
CN109726347A (zh) * | 2018-12-29 | 2019-05-07 | 杭州迪普科技股份有限公司 | 网络请求自动分类方法及相关设备 |
CN109977328A (zh) * | 2019-03-06 | 2019-07-05 | 杭州迪普科技股份有限公司 | 一种url分类方法及装置 |
CN110691081A (zh) * | 2019-09-25 | 2020-01-14 | 南京源堡科技研究院有限公司 | 一种基于大数据平台的网络信息采集方法 |
CN111241431A (zh) * | 2018-11-28 | 2020-06-05 | 顺丰科技有限公司 | 一种网页分类方法和装置 |
CN111259273A (zh) * | 2018-11-30 | 2020-06-09 | 顺丰科技有限公司 | 网页分类模型构建方法、分类方法及其装置 |
TWI827984B (zh) * | 2021-10-05 | 2024-01-01 | 台灣大哥大股份有限公司 | 網站分類系統及方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749360A (zh) * | 2019-10-30 | 2021-05-04 | 北京国双科技有限公司 | 网页分类方法及装置 |
CN111382385B (zh) * | 2020-02-21 | 2024-04-12 | 奇安信科技集团股份有限公司 | 网页所属行业分类方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411587A (zh) * | 2010-09-21 | 2012-04-11 | 腾讯科技(深圳)有限公司 | 一种网页分类方法和装置 |
US20120158496A1 (en) * | 2010-12-20 | 2012-06-21 | Amiad Solomon | System and method for classifying webpages |
CN102629282A (zh) * | 2012-05-03 | 2012-08-08 | 湖南神州祥网科技有限公司 | 一种网址分类方法、装置及系统 |
CN102819597A (zh) * | 2012-08-13 | 2012-12-12 | 北京星网锐捷网络技术有限公司 | 网页分类方法及设备 |
CN103631787A (zh) * | 2012-08-22 | 2014-03-12 | 腾讯科技(深圳)有限公司 | 网页类型识别方法以及网页类型识别装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744958B (zh) * | 2014-01-06 | 2016-10-19 | 同济大学 | 一种基于分布式计算的网页分类方法 |
CN103744981B (zh) * | 2014-01-14 | 2017-02-15 | 南京汇吉递特网络科技有限公司 | 一种基于网站内容用于网站自动分类分析的系统 |
-
2014
- 2014-09-26 CN CN201410504901.4A patent/CN105512143A/zh not_active Withdrawn
-
2015
- 2015-04-24 WO PCT/CN2015/077430 patent/WO2016045378A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411587A (zh) * | 2010-09-21 | 2012-04-11 | 腾讯科技(深圳)有限公司 | 一种网页分类方法和装置 |
US20120158496A1 (en) * | 2010-12-20 | 2012-06-21 | Amiad Solomon | System and method for classifying webpages |
CN102629282A (zh) * | 2012-05-03 | 2012-08-08 | 湖南神州祥网科技有限公司 | 一种网址分类方法、装置及系统 |
CN102819597A (zh) * | 2012-08-13 | 2012-12-12 | 北京星网锐捷网络技术有限公司 | 网页分类方法及设备 |
CN103631787A (zh) * | 2012-08-22 | 2014-03-12 | 腾讯科技(深圳)有限公司 | 网页类型识别方法以及网页类型识别装置 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339459B (zh) * | 2016-08-26 | 2019-11-26 | 中国科学院信息工程研究所 | 基于关键词匹配进行中文网页预分类的方法 |
CN106339459A (zh) * | 2016-08-26 | 2017-01-18 | 中国科学院信息工程研究所 | 基于关键词匹配进行中文网页预分类的方法 |
CN107506478A (zh) * | 2017-09-08 | 2017-12-22 | 北京京东尚科信息技术有限公司 | 一种区分网站页面的方法和装置 |
CN107741960A (zh) * | 2017-09-25 | 2018-02-27 | 厦门集微科技有限公司 | Url的分类方法及装置 |
CN109284465A (zh) * | 2018-09-04 | 2019-01-29 | 暨南大学 | 一种基于url的网页分类器构建方法及其分类方法 |
CN109583211A (zh) * | 2018-10-11 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 网站聚类及漏洞扫描方法、装置、电子设备及存储介质 |
CN109583211B (zh) * | 2018-10-11 | 2023-03-07 | 创新先进技术有限公司 | 网站聚类及漏洞扫描方法、装置、电子设备及存储介质 |
CN111241431A (zh) * | 2018-11-28 | 2020-06-05 | 顺丰科技有限公司 | 一种网页分类方法和装置 |
CN111259273A (zh) * | 2018-11-30 | 2020-06-09 | 顺丰科技有限公司 | 网页分类模型构建方法、分类方法及其装置 |
CN109726347A (zh) * | 2018-12-29 | 2019-05-07 | 杭州迪普科技股份有限公司 | 网络请求自动分类方法及相关设备 |
CN109977328A (zh) * | 2019-03-06 | 2019-07-05 | 杭州迪普科技股份有限公司 | 一种url分类方法及装置 |
CN110691081A (zh) * | 2019-09-25 | 2020-01-14 | 南京源堡科技研究院有限公司 | 一种基于大数据平台的网络信息采集方法 |
TWI827984B (zh) * | 2021-10-05 | 2024-01-01 | 台灣大哥大股份有限公司 | 網站分類系統及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2016045378A1 (zh) | 2016-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105512143A (zh) | 一种网页分类方法及装置 | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN102043833B (zh) | 一种基于查询词进行搜索的方法和搜索装置 | |
US20110264651A1 (en) | Large scale entity-specific resource classification | |
CN102663022B (zh) | 一种基于url的分类识别方法 | |
WO2015149533A1 (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
CN105404699A (zh) | 一种搜索财经文章的方法、装置及服务器 | |
CN108737423A (zh) | 基于网页关键内容相似性分析的钓鱼网站发现方法及系统 | |
CN104376406A (zh) | 一种基于大数据的企业创新资源管理与分析系统和方法 | |
CN101847161A (zh) | 搜索网页的方法和建立数据库的方法 | |
CN104834693A (zh) | 基于深度搜索的视觉图像检索方法及系统 | |
CN102999625A (zh) | 一种检索请求语义扩展方法 | |
CN101452463A (zh) | 定向抓取页面资源的方法和装置 | |
CN107577788B (zh) | 一种自动结构化数据的电商网站主题爬虫方法 | |
CN102710795A (zh) | 热点聚合方法及装置 | |
CN102930038A (zh) | 一种检索结果相似条目的合并方法及其系统 | |
CN104268148A (zh) | 一种基于时间串的论坛页面信息自动抽取方法及系统 | |
CN103218443A (zh) | 一种面向博客网页的网页检索系统及方法 | |
CN102402589A (zh) | 一种提供与搜索请求相关的参考搜索信息的方法与设备 | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
CN103530429A (zh) | 一种网页正文抽取的方法 | |
CN106557777A (zh) | 一种基于SimHash改进的Kmeans聚类方法 | |
JP2010123000A (ja) | Webページグループ抽出方法及び装置及びプログラム | |
US11334592B2 (en) | Self-orchestrated system for extraction, analysis, and presentation of entity data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20160420 |
|
WW01 | Invention patent application withdrawn after publication |