CN102207961A

CN102207961A - 一种网页自动分类方法及装置

Info

Publication number: CN102207961A
Application number: CN2011101379929A
Authority: CN
Inventors: 陈运文; 宋海涛; 马飞涛
Original assignee: Shengle Information Technolpogy Shanghai Co Ltd
Current assignee: Shanghai Zhangmen Science and Technology Co Ltd
Priority date: 2011-05-25
Filing date: 2011-05-25
Publication date: 2011-10-05
Anticipated expiration: 2031-05-25
Also published as: CN102207961B

Abstract

本发明提供一种网页自动分类方法及装置，通过先采集并处理每个技术类别下的大量训练网页，获得信息技术型网页的分类特征词列表集合以及分类特征词先验概率库，进一步筛选出给定网页中涉及的分类特征词列表集合中的特征词以形成给定网页特征词列表，计算给定网页的每一个特征词的后验概率，最后通过给定网页在每一类别下所有特征词的后验概率对数之和的大小对给定网页自动分类。本发明的网页自动分类方法及装置，通过良好的特征词筛选方法结合统计概率技术，能够对给定网页进行可靠的自动分类处理。

Description

一种网页自动分类方法及装置

技术领域

本发明涉及网页分类领域，尤其涉及一种网页自动分类方法及装置。

背景技术

随着信息技术尤其是互联网相关技术的发展与成熟，互联网、企业内部网中提供的网页越来越多，一方面满足了用户对信息的需求，另一方面也产生了一些问题，如何根据网页的内容把网页自动分到不同的语义类别，以提高用户的体验，是目前搜索引擎的预处理或网站的文本自动分类管理面临解决的一个问题。

现有技术中的网页分类方法主要是采用对网页的正文进行文本分类的方式来实现，文本分类是基于文本内容将待定文本划分到一个或多个预先定义的类别中的分类方法，文本分类是依靠专家手工进行的，它对领域知识要求较高且花费巨大，不能满足网页自动分类处理的要求。

而互联网上有关信息技术型网页越来越多，这些网页分别属于不同的技术门类，例如开发语言(C++，Java)、数据库(Oracle Database，MySQL)、脚本语言(PHP，Python)等等。在特定的应用领域内，一些应用更关注于信息技术型网页所属的技术类别。现有技术对信息技术型网页的分类一般仍是基于通用网页的文本分类方法来实现，在特征抽取、分类算法等方面没有考虑到信息技术型网页的页面特征，已不适用于对信息技术型网页的分类。

因此，需要一种网页自动分类方法及装置，能够自动对信息技术型网页所涉及的信息技术类别进行判别，完成对给定网页进行可靠的自动分类处理。

发明内容

本发明的目的在于提供一种网页自动分类方法及装置，能够自动对信息技术型网页所涉及的信息技术类别进行判别，完成对给定网页进行可靠的自动分类处理。

为解决上述问题，本发明提出一种网页自动分类方法及装置，包括：

对预设的每个类别采集一定数量的训练网页形成训练网页库；

应用所述训练网页库获得分类特征词列表集合及分类特征词先验概率库；

应用所述分类特征词列表集合过滤给定网页，获得给定网页特征词列表；

应用所述分类特征词先验概率库计算所述给定网页特征词列表中的特征词的后验概率；

根据所述后验概率进行所述给定网页自动分类。

进一步的，所述训练网页库通过对预设的每个类别采集20～500个训练网页形成。

进一步的，所述训练网页为已提取出标题及正文的预处理网页。

进一步的，所述获得分类特征词列表集合的步骤包括：

统计所述训练网页库的每一个词的逆向文件频率、在训练网页的标题中出现的次数、在训练网页的正文中出现的次数以及词属值；

根据上述统计数据计算每一个词的重要度，按照所述重要度由大到小的顺序排列所有词，得到分类特征词列表集合。

进一步的，所述每一个词的重要度的计算公式为：

T_value＝(5*T_titlefreq+T_contentfreq+2*T_feature)*T_idt

其中，T_value为某词的重要度，T_idt为所述词的逆向文件频率，T_titlefreq为所述词在训练网页的标题中出现的次数，T_contentfreq为所述词在训练网页的正文中出现的次数，T_feature为所述词的词属值。

进一步的，所述词的逆向文件频率的计算公式为：

T_idt＝ln(N*K/D)

其中，T_idt为所述词的逆向文件频率，N为类别的个数，K为每个技术类别的训练网页的个数，D为包含所述词的训练网页的个数。

进一步的，统计所述训练网页库的每一个词的词属值的时，判断所述词是否属于预定义的技术特征词词典中的词；若是，所述词的词属值为1，若否，所述词的词属值0。

进一步的，所述分类特征词先验概率库通过计算所述分类特征词列表集合中的每一个特征词在每一类别中出现的概率获得。

进一步的，所述每一个特征词在每一类别中出现的概率的计算公式为：

P_T|C＝D_C/K，其中P_T|C为所述概率，K为每个类别的所有训练网页的个数，D_C为某类别的所训练网页中包含所述特征词的训练网页的个数。

进一步的，应用分类特征词列表集合过滤给定网页，获得给定网页特征词列表的步骤包括：

对所述给定网页预处理，提取所述给定网页的标题及正文；

筛选出所述给定网页中出现的所述分类特征词列表集合中的特征词；

统计每一个所述特征词在所述给定网页的标题中出现的次数、在所述给定网页的正文中出现的次数，计算所述特征词的重要度，按照所述重要度由大到小的顺序排列所有的所述特征词，得到给定网页特征词列表集合。

进一步的，所述特征词的重要度的计算公式为：

T_testvalue＝5*T_testtitlefreq+T_testcontentfreq

其中，T_testvalue为所述特征词的重要度，T_testtitlefreq为所述特征词在所述给定网页的标题中出现的次数，T_testcontentfreq为所述特征词在所述给定网页的正文中出现的次数。

进一步的，所述给定网页特征词列表中的特征词的后验概率计算公式为：

P_C|T＝P_T|C*1/N*M

其中，P_T|C为所述特征词在每一类别中出现的概率，N为类别的个数，M为所述分类特征词列表集合中的特征词个数。

进一步的，所述基于所述后验概率进行给定网页自动分类，包括：

对每一类别的所述给定网页特征词列表中所有的特征词的后验概率先取对数后加和，得到所述给定网页属于各类别的概率值；

若所述给定网页属于某类别的概率值是最大的，将所述给定网页分到所述类别中。

本发明还提供一种网页自动分类装置，包括：

先验采集模块，用于对预设的每个类别采集一定数量的训练网页形成训练网页库，获得分类特征词列表集合及分类特征词先验概率库；

网页处理模块，用于根据所述分类特征词列表集合过滤给定网页，获得给定网页特征词列表；

后验计算模块，用于根据所述分类特征词先验概率库计算所述给定网页特征词列表中的特征词的后验概率；

自动分类模块，用于根据所述后验概率进行给定网页自动分类。

进一步的，所述先验采集模块包括：

先验采集单元，用于对预设的每个类别采集一定数量的训练网页形成训练网页库；

先验统计单元，用于统计所述训练网页库的每一个词的逆向文件频率、在训练网页的标题中出现的次数、在训练网页的正文中出现的次数以及词属值；

先验计算单元，用于根据统计单元的数据计算每一个词的重要度，生成分类特征词列表集合，进一步计算所述分类特征词列表集合中的每一个特征词在每一类别中出现的概率，获得分类特征词先验概率库。

进一步的，所述先验采集单元对预设的每个类别采集20～500个训练网页形成训练网页库，所述训练网页为已提取出标题及正文的预处理网页。

进一步的，所述先验计算单元计算每一个词的重要度的公式为：

T_value＝(5*T_titlefreq+T_contentfreq+2*T_feature)*T_idt

进一步的，所述先验统计单元统计所述词的逆向文件频率的计算公式为：

T_idt＝ln(N*K/D)

进一步的，所述先验统计单元统计所述训练网页库的每一个词的词属值的时，判断所述词是否属于预定义的技术特征词词典中的词；若是，所述词的词属值为1，若否，所述词的词属值0。

进一步的，所述网页处理模块包括：

给定预处理单元，用于提取所述给定网页的标题及正文；

给定筛选单元，用于筛选出所述给定网页中出现的所述分类特征词列表集合中的特征词；

给定统计单元，用于统计每一个所述特征词在所述给定网页的标题中出现的次数、在所述给定网页的正文中出现的次数；

给定计算单元，用于根据所述给定统计单元的数据计算每一个所述特征词的重要度，按照所述重要度由大到小的顺序排列所有的所述特征词，得到给定网页特征词列表集合。

进一步的，所述给定计算单元计算每一个所述特征词的重要度的公式为：

T_testvalue＝5*T_testtitlefreq+T_testcontentfreq

进一步的，所述后验计算模块计算所述给定网页特征词列表中的特征词的后验概率的公式为：

P_C|T＝P_T|C*1/N*M

进一步的，所述自动分类模块进行给定网页自动分类，包括：

与现有技术相比，本发明的网页自动分类方法及装置，通过先采集并处理每个技术类别下的大量训练网页，获得信息技术型网页的分类特征词列表集合以及分类特征词先验概率库，进一步筛选出给定网页中涉及的分类特征词列表集合中的特征词以形成给定网页特征词列表，计算给定网页的每一个特征词的后验概率，最后通过给定网页在每一类别下所有特征词的后验概率的对数之和的大小对给定网页自动分类。

附图说明

图1是本发明的网页自动分类方法的流程示意图；

图2是本发明的网页自动分类装置的结构示意图。

具体实施方式

以下结合附图对本发明提出的网页自动分类方法及装置作进一步详细说明。

如图1所示，本发明提出一种网页自动分类方法及装置，包括：

S1，对预设的每个类别采集一定数量的训练网页形成训练网页库。

预设的类别个数为N个，例如开发语言(C++，Java)、数据库(Oracle Database，MySQL)、脚本语言(PHP，Python)等等，所述训练网页库通过对预设的每个类别采集K个训练网页形成，优选的，所述训练网页为已提取出标题及正文的预处理网页，其中，K为20～500。

S2，应用所述训练网页库获得分类特征词列表集合及分类特征词先验概率库。

其中，所述获得分类特征词列表集合的步骤包括：

首先，统计所述训练网页库的每一个词的逆向文件频率T_idt、在训练网页的标题中出现的次数T_titlefreq、在训练网页的正文中出现的次数T_contentfreq，以及词属值T_feature。其中，所述词的逆向文件频率的计算公式为T_idt＝ln(N*K/D)，若所述词是预定义的技术特征词词典中的词，所述词的T_feature＝1，若所述词不是预定义的技术特征词词典中的词，所述词的T_feature＝0。

然后，根据T_idt、T_titlefreq、T_contentfreq以及T_feature计算每一个词的重要度T_value，按照所述重要度由大到小的顺序排列所有词，抽取前M个词作为分类特征词，得到分类特征词列表集合。其中，所述每一个词的重要度的计算公式为：T_value＝(5*T_titlefreq+T_contentfreq+2*T_feature)*T_idt。

进一步的，所述分类特征词先验概率库通过计算所述分类特征词列表集合中的每一个特征词在每一类别中出现的概率P_T|C获得。其中，所述每一个特征词在每一类别中出现的概率P_T|C的计算公式为：P_T|C＝D_C/K，其中，K为每个类别的所有训练网页的个数，D_C为某类别的所训练网页中包含所述特征词的训练网页的个数。

S3，应用所述分类特征词列表集合过滤给定网页，获得给定网页特征词列表。

首先，对所述给定网页预处理，提取所述给定网页的标题及正文；

接着，筛选出所述给定网页中出现的所述分类特征词列表集合中的特征词；

然后，统计每一个所述特征词在所述给定网页的标题中出现的次数T_testtitlefreq、在所述给定网页的正文中出现的次数T_testcontentfreq，计算所述特征词的重要度T_testvalue，按照所述重要度由大到小的顺序排列所有的所述特征词，得到给定网页特征词列表集合。其中，所述特征词的重要度的计算公式为：T_testvalue＝5*T_testtitlefreq+T_testcontentfreq。

S4，应用所述分类特征词先验概率库计算所述给定网页特征词列表中的特征词的后验概率。

其中，所述给定网页特征词列表中的特征词的后验概率计算公式为：

P_C|T＝P_T|C*1/N*M。

S5，根据所述后验概率进行所述给定网页自动分类。

对每一类别的所述给定网页特征词列表中所有的特征词(L个)的后验概率P_C|T先取对数后加和，得到所述给定网页属于各类别的概率值H，即H＝∑lnP_C|T；

若所述给定网页属于某类别的概率值是最大的，将所述给定网页分到所述类别中，也就是说N个类别中Hmax对应的类别即为所述给定网页的类别。

如图2所示，本发明还提供一种网页自动分类装置，包括：

先验采集模块10，用于对预设的每个类别采集一定数量的训练网页形成训练网页库，获得分类特征词列表集合及分类特征词先验概率库；

网页处理模块20，用于根据所述分类特征词列表集合过滤给定网页，获得给定网页特征词列表；

后验计算模块30，用于根据所述分类特征词先验概率库计算所述给定网页特征词列表中的特征词的后验概率；

自动分类模块40，用于根据所述后验概率进行给定网页自动分类。

进一步的，所述先验采集模块10包括先验采集单元101、先验统计单元102以及先验计算单元103。

先验采集单元101，用于对预设的N个类别的每个类别采集K个训练网页形成训练网页库，优选的，所述训练网页为已提取出标题及正文的预处理网页，K为20～500。

先验统计单元102，用于统计所述训练网页库的每一个词的逆向文件频率T_idt、在训练网页的标题中出现的次数T_titlefreq、在训练网页的正文中出现的次数T_contentfreq，以及词属值T_feature。其中，所述词的逆向文件频率的计算公式为T_idt＝ln(N*K/D)，若所述词是预定义的技术特征词词典中的词，所述词的T_feature＝1，若所述词不是预定义的技术特征词词典中的词，所述词的T_feature＝0。

先验计算单元103，用于根据T_idt、T_titlefreq、T_contentfreq以及T_feature计算每一个词的重要度T_value，按照T_value由大到小的顺序排列所有词，抽取前M个词作为分类特征词，得到分类特征词列表集合。其中，所述每一个词的重要度的计算公式为：T_value＝(5*T_titlefreq+T_contentfreq+2*T_feature)*T_idt；进一步计算所述分类特征词列表集合中的每一个特征词在每一类别中出现的概率P_T|C，获得分类特征词先验概率库，其中，所述每一个特征词在每一类别中出现的概率P_T|C的计算公式为：P_T|C＝D_C/K，其中，K为每个类别的所有训练网页的个数，D_C为某类别的所训练网页中包含所述特征词的训练网页的个数。

进一步的，所述网页处理模块20包括给定预处理单元201，给定筛选单元202，给定统计单元203以及给定计算单元204。

给定预处理单元201，用于提取所述给定网页的标题及正文；

给定筛选单元202，用于筛选出所述给定网页中出现的所述分类特征词列表集合中的特征词，设为L个；

给定统计单元203，用于统计每一个所述特征词在所述给定网页的标题中出现的次数T_testtitlefreq、在所述给定网页的正文中出现的次数T_testcontentfreq；

给定计算单元204，用于根据给定统计单元203统计的T_testtitlefreq、T_testcontentfreq，计算所述特征词的重要度T_testvalue，按照T_testvalue由大到小的顺序排列L个特征词，得到给定网页特征词列表集合。其中，所述特征词的T_testvalue的计算公式为：T_testvalue＝5*T_testtitlefreq+T_testcontentfreq

进一步的，所述后验计算模块30计算所述给定网页特征词列表中的特征词的后验概率的公式为：P_C|T＝P_T|C*1/N*M

进一步的，所述自动分类模块40进行给定网页自动分类，包括：

综上所述，本发明的网页自动分类方法及装置，通过先采集并处理每个技术类别下的大量训练网页，获得信息技术型网页的分类特征词列表集合以及分类特征词先验概率库，进一步筛选出给定网页中涉及的分类特征词列表集合中的特征词以形成给定网页特征词列表，计算给定网页的每一个特征词的后验概率，最后通过给定网页在每一类别下所有特征词的后验概率对数之和的大小对给定网页自动分类。本发明的网页自动分类方法及装置，通过良好的特征词筛选方法结合统计概率技术，能够对给定网页进行可靠的自动分类处理。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种网页自动分类方法，其特征在于，包括：

根据所述后验概率进行所述给定网页自动分类。

2.如权利要求1所述的网页自动分类方法，其特征在于，对预设的每个类别采集20～500个训练网页形成训练网页库。

3.如权利要求2所述的网页自动分类方法，其特征在于，所述训练网页为已提取出标题及正文的预处理网页。

4.如权利要求1所述的网页自动分类方法，其特征在于，所述获得分类特征词列表集合的步骤包括：

5.如权利要求4所述的网页自动分类方法，其特征在于，所述每一个词的重要度的计算公式为：

T_value＝(5*T_titlefreq+T_contentfreq+2*T_feature)*T_idt

6.如权利要求5所述的网页自动分类方法，其特征在于，所述词的逆向文件频率的计算公式为：

T_idt＝ln(N*K/D)

7.如权利要求5所述的网页自动分类方法，其特征在于，统计所述训练网页库的每一个词的词属值时，判断所述词是否属于预定义的技术特征词词典中的词；若是，所述词的词属值为1，若否，所述词的词属值0。

8.如权利要求1所述的网页自动分类方法，其特征在于，所述分类特征词先验概率库通过计算所述分类特征词列表集合中的每一个特征词在每一类别中出现的概率获得。

9.如权利要求8所述的网页自动分类方法，其特征在于，所述每一个特征词在每一类别中出现的概率的计算公式为：

10.如权利要求1所述的网页自动分类方法，其特征在于，应用分类特征词列表集合过滤给定网页，获得给定网页特征词列表的步骤包括：

对所述给定网页预处理，提取所述给定网页的标题及正文；

11.如权利要求10所述的网页自动分类方法，其特征在于，所述特征词的重要度的计算公式为：

T_testvalue＝5*T_testtitlefreq+T_testcontentfreq

12.如权利要求1所述的网页自动分类方法，其特征在于，所述给定网页特征词列表中的特征词的后验概率计算公式为：

P_C|T＝P_T|C*1/N*M

13.如权利要求1所述的网页自动分类方法，其特征在于，所述基于所述后验概率进行给定网页自动分类，包括：

14.一种网页自动分类装置，其特征在于，包括：

15.如权利要求14所述的网页自动分类装置，其特征在于，所述先验采集模块包括：

16.如权利要求15所述的网页自动分类装置，其特征在于，

所述先验采集单元对预设的每个类别采集20～500个训练网页形成训练网页库，所述训练网页为已提取出标题及正文的预处理网页。

17.如权利要求15所述的网页自动分类装置，所述先验计算单元计算每一个词的重要度的公式为：

T_value＝(5*T_titlefreq+T_contentfreq+2*T_feature)*T_idt

18.如权利要求17所述的网页自动分类装置，其特征在于，所述先验统计单元统计所述词的逆向文件频率的计算公式为：

T_idt＝ln(N*K/D)

19.如权利要求17所述的网页自动分类装置，其特征在于，所述先验统计单元统计所述训练网页库的每一个词的词属值的时，判断所述词是否属于预定义的技术特征词词典中的词；若是，所述词的词属值为1，若否，所述词的词属值0。

20.如权利要求1所述的网页自动分类装置，其特征在于，所述每一个特征词在每一类别中出现的概率的计算公式为：

21.如权利要求14所述的网页自动分类装置，其特征在于，所述网页处理模块包括：

给定预处理单元，用于提取所述给定网页的标题及正文；

22.如权利要求21所述的网页自动分类装置，其特征在于，所述给定计算单元计算每一个所述特征词的重要度的公式为：

T_testvalue＝5*T_testtitlefreq+T_testcontentfreq

23.如权利要求14所述的网页自动分类装置，其特征在于，所述后验计算模块计算所述给定网页特征词列表中的特征词的后验概率的公式为：

P_C|T＝P_T|C*1/N*M

24.如权利要求14所述的网页自动分类装置，其特征在于，所述自动分类模块进行给定网页自动分类，包括：