CN102207961A - 一种网页自动分类方法及装置 - Google Patents

一种网页自动分类方法及装置 Download PDF

Info

Publication number
CN102207961A
CN102207961A CN2011101379929A CN201110137992A CN102207961A CN 102207961 A CN102207961 A CN 102207961A CN 2011101379929 A CN2011101379929 A CN 2011101379929A CN 201110137992 A CN201110137992 A CN 201110137992A CN 102207961 A CN102207961 A CN 102207961A
Authority
CN
China
Prior art keywords
speech
webpage
classification
given
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101379929A
Other languages
English (en)
Other versions
CN102207961B (zh
Inventor
陈运文
宋海涛
马飞涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhangmen Science and Technology Co Ltd
Original Assignee
Shengle Information Technolpogy Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengle Information Technolpogy Shanghai Co Ltd filed Critical Shengle Information Technolpogy Shanghai Co Ltd
Priority to CN 201110137992 priority Critical patent/CN102207961B/zh
Publication of CN102207961A publication Critical patent/CN102207961A/zh
Application granted granted Critical
Publication of CN102207961B publication Critical patent/CN102207961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种网页自动分类方法及装置,通过先采集并处理每个技术类别下的大量训练网页,获得信息技术型网页的分类特征词列表集合以及分类特征词先验概率库,进一步筛选出给定网页中涉及的分类特征词列表集合中的特征词以形成给定网页特征词列表,计算给定网页的每一个特征词的后验概率,最后通过给定网页在每一类别下所有特征词的后验概率对数之和的大小对给定网页自动分类。本发明的网页自动分类方法及装置,通过良好的特征词筛选方法结合统计概率技术,能够对给定网页进行可靠的自动分类处理。

Description

一种网页自动分类方法及装置
技术领域
本发明涉及网页分类领域,尤其涉及一种网页自动分类方法及装置。
背景技术
随着信息技术尤其是互联网相关技术的发展与成熟,互联网、企业内部网中提供的网页越来越多,一方面满足了用户对信息的需求,另一方面也产生了一些问题,如何根据网页的内容把网页自动分到不同的语义类别,以提高用户的体验,是目前搜索引擎的预处理或网站的文本自动分类管理面临解决的一个问题。
现有技术中的网页分类方法主要是采用对网页的正文进行文本分类的方式来实现,文本分类是基于文本内容将待定文本划分到一个或多个预先定义的类别中的分类方法,文本分类是依靠专家手工进行的,它对领域知识要求较高且花费巨大,不能满足网页自动分类处理的要求。
而互联网上有关信息技术型网页越来越多,这些网页分别属于不同的技术门类,例如开发语言(C++,Java)、数据库(Oracle Database,MySQL)、脚本语言(PHP,Python)等等。在特定的应用领域内,一些应用更关注于信息技术型网页所属的技术类别。现有技术对信息技术型网页的分类一般仍是基于通用网页的文本分类方法来实现,在特征抽取、分类算法等方面没有考虑到信息技术型网页的页面特征,已不适用于对信息技术型网页的分类。
因此,需要一种网页自动分类方法及装置,能够自动对信息技术型网页所涉及的信息技术类别进行判别,完成对给定网页进行可靠的自动分类处理。
发明内容
本发明的目的在于提供一种网页自动分类方法及装置,能够自动对信息技术型网页所涉及的信息技术类别进行判别,完成对给定网页进行可靠的自动分类处理。
为解决上述问题,本发明提出一种网页自动分类方法及装置,包括:
对预设的每个类别采集一定数量的训练网页形成训练网页库;
应用所述训练网页库获得分类特征词列表集合及分类特征词先验概率库;
应用所述分类特征词列表集合过滤给定网页,获得给定网页特征词列表;
应用所述分类特征词先验概率库计算所述给定网页特征词列表中的特征词的后验概率;
根据所述后验概率进行所述给定网页自动分类。
进一步的,所述训练网页库通过对预设的每个类别采集20~500个训练网页形成。
进一步的,所述训练网页为已提取出标题及正文的预处理网页。
进一步的,所述获得分类特征词列表集合的步骤包括:
统计所述训练网页库的每一个词的逆向文件频率、在训练网页的标题中出现的次数、在训练网页的正文中出现的次数以及词属值;
根据上述统计数据计算每一个词的重要度,按照所述重要度由大到小的顺序排列所有词,得到分类特征词列表集合。
进一步的,所述每一个词的重要度的计算公式为:
T_value=(5*T_titlefreq+T_contentfreq+2*T_feature)*T_idt
其中,T_value为某词的重要度,T_idt为所述词的逆向文件频率,T_titlefreq为所述词在训练网页的标题中出现的次数,T_contentfreq为所述词在训练网页的正文中出现的次数,T_feature为所述词的词属值。
进一步的,所述词的逆向文件频率的计算公式为:
T_idt=ln(N*K/D)
其中,T_idt为所述词的逆向文件频率,N为类别的个数,K为每个技术类别的训练网页的个数,D为包含所述词的训练网页的个数。
进一步的,统计所述训练网页库的每一个词的词属值的时,判断所述词是否属于预定义的技术特征词词典中的词;若是,所述词的词属值为1,若否,所述词的词属值0。
进一步的,所述分类特征词先验概率库通过计算所述分类特征词列表集合中的每一个特征词在每一类别中出现的概率获得。
进一步的,所述每一个特征词在每一类别中出现的概率的计算公式为:
P_T|C=D_C/K,其中P_T|C为所述概率,K为每个类别的所有训练网页的个数,D_C为某类别的所训练网页中包含所述特征词的训练网页的个数。
进一步的,应用分类特征词列表集合过滤给定网页,获得给定网页特征词列表的步骤包括:
对所述给定网页预处理,提取所述给定网页的标题及正文;
筛选出所述给定网页中出现的所述分类特征词列表集合中的特征词;
统计每一个所述特征词在所述给定网页的标题中出现的次数、在所述给定网页的正文中出现的次数,计算所述特征词的重要度,按照所述重要度由大到小的顺序排列所有的所述特征词,得到给定网页特征词列表集合。
进一步的,所述特征词的重要度的计算公式为:
T_testvalue=5*T_testtitlefreq+T_testcontentfreq
其中,T_testvalue为所述特征词的重要度,T_testtitlefreq为所述特征词在所述给定网页的标题中出现的次数,T_testcontentfreq为所述特征词在所述给定网页的正文中出现的次数。
进一步的,所述给定网页特征词列表中的特征词的后验概率计算公式为:
P_C|T=P_T|C*1/N*M
其中,P_T|C为所述特征词在每一类别中出现的概率,N为类别的个数,M为所述分类特征词列表集合中的特征词个数。
进一步的,所述基于所述后验概率进行给定网页自动分类,包括:
对每一类别的所述给定网页特征词列表中所有的特征词的后验概率先取对数后加和,得到所述给定网页属于各类别的概率值;
若所述给定网页属于某类别的概率值是最大的,将所述给定网页分到所述类别中。
本发明还提供一种网页自动分类装置,包括:
先验采集模块,用于对预设的每个类别采集一定数量的训练网页形成训练网页库,获得分类特征词列表集合及分类特征词先验概率库;
网页处理模块,用于根据所述分类特征词列表集合过滤给定网页,获得给定网页特征词列表;
后验计算模块,用于根据所述分类特征词先验概率库计算所述给定网页特征词列表中的特征词的后验概率;
自动分类模块,用于根据所述后验概率进行给定网页自动分类。
进一步的,所述先验采集模块包括:
先验采集单元,用于对预设的每个类别采集一定数量的训练网页形成训练网页库;
先验统计单元,用于统计所述训练网页库的每一个词的逆向文件频率、在训练网页的标题中出现的次数、在训练网页的正文中出现的次数以及词属值;
先验计算单元,用于根据统计单元的数据计算每一个词的重要度,生成分类特征词列表集合,进一步计算所述分类特征词列表集合中的每一个特征词在每一类别中出现的概率,获得分类特征词先验概率库。
进一步的,所述先验采集单元对预设的每个类别采集20~500个训练网页形成训练网页库,所述训练网页为已提取出标题及正文的预处理网页。
进一步的,所述先验计算单元计算每一个词的重要度的公式为:
T_value=(5*T_titlefreq+T_contentfreq+2*T_feature)*T_idt
其中,T_value为某词的重要度,T_idt为所述词的逆向文件频率,T_titlefreq为所述词在训练网页的标题中出现的次数,T_contentfreq为所述词在训练网页的正文中出现的次数,T_feature为所述词的词属值。
进一步的,所述先验统计单元统计所述词的逆向文件频率的计算公式为:
T_idt=ln(N*K/D)
其中,T_idt为所述词的逆向文件频率,N为类别的个数,K为每个技术类别的训练网页的个数,D为包含所述词的训练网页的个数。
进一步的,所述先验统计单元统计所述训练网页库的每一个词的词属值的时,判断所述词是否属于预定义的技术特征词词典中的词;若是,所述词的词属值为1,若否,所述词的词属值0。
进一步的,所述每一个特征词在每一类别中出现的概率的计算公式为:
P_T|C=D_C/K,其中P_T|C为所述概率,K为每个类别的所有训练网页的个数,D_C为某类别的所训练网页中包含所述特征词的训练网页的个数。
进一步的,所述网页处理模块包括:
给定预处理单元,用于提取所述给定网页的标题及正文;
给定筛选单元,用于筛选出所述给定网页中出现的所述分类特征词列表集合中的特征词;
给定统计单元,用于统计每一个所述特征词在所述给定网页的标题中出现的次数、在所述给定网页的正文中出现的次数;
给定计算单元,用于根据所述给定统计单元的数据计算每一个所述特征词的重要度,按照所述重要度由大到小的顺序排列所有的所述特征词,得到给定网页特征词列表集合。
进一步的,所述给定计算单元计算每一个所述特征词的重要度的公式为:
T_testvalue=5*T_testtitlefreq+T_testcontentfreq
其中,T_testvalue为所述特征词的重要度,T_testtitlefreq为所述特征词在所述给定网页的标题中出现的次数,T_testcontentfreq为所述特征词在所述给定网页的正文中出现的次数。
进一步的,所述后验计算模块计算所述给定网页特征词列表中的特征词的后验概率的公式为:
P_C|T=P_T|C*1/N*M
其中,P_T|C为所述特征词在每一类别中出现的概率,N为类别的个数,M为所述分类特征词列表集合中的特征词个数。
进一步的,所述自动分类模块进行给定网页自动分类,包括:
对每一类别的所述给定网页特征词列表中所有的特征词的后验概率先取对数后加和,得到所述给定网页属于各类别的概率值;
若所述给定网页属于某类别的概率值是最大的,将所述给定网页分到所述类别中。
与现有技术相比,本发明的网页自动分类方法及装置,通过先采集并处理每个技术类别下的大量训练网页,获得信息技术型网页的分类特征词列表集合以及分类特征词先验概率库,进一步筛选出给定网页中涉及的分类特征词列表集合中的特征词以形成给定网页特征词列表,计算给定网页的每一个特征词的后验概率,最后通过给定网页在每一类别下所有特征词的后验概率的对数之和的大小对给定网页自动分类。
附图说明
图1是本发明的网页自动分类方法的流程示意图;
图2是本发明的网页自动分类装置的结构示意图。
具体实施方式
以下结合附图对本发明提出的网页自动分类方法及装置作进一步详细说明。
如图1所示,本发明提出一种网页自动分类方法及装置,包括:
S1,对预设的每个类别采集一定数量的训练网页形成训练网页库。
预设的类别个数为N个,例如开发语言(C++,Java)、数据库(Oracle Database,MySQL)、脚本语言(PHP,Python)等等,所述训练网页库通过对预设的每个类别采集K个训练网页形成,优选的,所述训练网页为已提取出标题及正文的预处理网页,其中,K为20~500。
S2,应用所述训练网页库获得分类特征词列表集合及分类特征词先验概率库。
其中,所述获得分类特征词列表集合的步骤包括:
首先,统计所述训练网页库的每一个词的逆向文件频率T_idt、在训练网页的标题中出现的次数T_titlefreq、在训练网页的正文中出现的次数T_contentfreq,以及词属值T_feature。其中,所述词的逆向文件频率的计算公式为T_idt=ln(N*K/D),若所述词是预定义的技术特征词词典中的词,所述词的T_feature=1,若所述词不是预定义的技术特征词词典中的词,所述词的T_feature=0。
然后,根据T_idt、T_titlefreq、T_contentfreq以及T_feature计算每一个词的重要度T_value,按照所述重要度由大到小的顺序排列所有词,抽取前M个词作为分类特征词,得到分类特征词列表集合。其中,所述每一个词的重要度的计算公式为:T_value=(5*T_titlefreq+T_contentfreq+2*T_feature)*T_idt。
进一步的,所述分类特征词先验概率库通过计算所述分类特征词列表集合中的每一个特征词在每一类别中出现的概率P_T|C获得。其中,所述每一个特征词在每一类别中出现的概率P_T|C的计算公式为:P_T|C=D_C/K,其中,K为每个类别的所有训练网页的个数,D_C为某类别的所训练网页中包含所述特征词的训练网页的个数。
S3,应用所述分类特征词列表集合过滤给定网页,获得给定网页特征词列表。
首先,对所述给定网页预处理,提取所述给定网页的标题及正文;
接着,筛选出所述给定网页中出现的所述分类特征词列表集合中的特征词;
然后,统计每一个所述特征词在所述给定网页的标题中出现的次数T_testtitlefreq、在所述给定网页的正文中出现的次数T_testcontentfreq,计算所述特征词的重要度T_testvalue,按照所述重要度由大到小的顺序排列所有的所述特征词,得到给定网页特征词列表集合。其中,所述特征词的重要度的计算公式为:T_testvalue=5*T_testtitlefreq+T_testcontentfreq。
S4,应用所述分类特征词先验概率库计算所述给定网页特征词列表中的特征词的后验概率。
其中,所述给定网页特征词列表中的特征词的后验概率计算公式为:
P_C|T=P_T|C*1/N*M。
其中,P_T|C为所述特征词在每一类别中出现的概率,N为类别的个数,M为所述分类特征词列表集合中的特征词个数。
S5,根据所述后验概率进行所述给定网页自动分类。
对每一类别的所述给定网页特征词列表中所有的特征词(L个)的后验概率P_C|T先取对数后加和,得到所述给定网页属于各类别的概率值H,即H=∑lnP_C|T;
若所述给定网页属于某类别的概率值是最大的,将所述给定网页分到所述类别中,也就是说N个类别中Hmax对应的类别即为所述给定网页的类别。
如图2所示,本发明还提供一种网页自动分类装置,包括:
先验采集模块10,用于对预设的每个类别采集一定数量的训练网页形成训练网页库,获得分类特征词列表集合及分类特征词先验概率库;
网页处理模块20,用于根据所述分类特征词列表集合过滤给定网页,获得给定网页特征词列表;
后验计算模块30,用于根据所述分类特征词先验概率库计算所述给定网页特征词列表中的特征词的后验概率;
自动分类模块40,用于根据所述后验概率进行给定网页自动分类。
进一步的,所述先验采集模块10包括先验采集单元101、先验统计单元102以及先验计算单元103。
先验采集单元101,用于对预设的N个类别的每个类别采集K个训练网页形成训练网页库,优选的,所述训练网页为已提取出标题及正文的预处理网页,K为20~500。
先验统计单元102,用于统计所述训练网页库的每一个词的逆向文件频率T_idt、在训练网页的标题中出现的次数T_titlefreq、在训练网页的正文中出现的次数T_contentfreq,以及词属值T_feature。其中,所述词的逆向文件频率的计算公式为T_idt=ln(N*K/D),若所述词是预定义的技术特征词词典中的词,所述词的T_feature=1,若所述词不是预定义的技术特征词词典中的词,所述词的T_feature=0。
先验计算单元103,用于根据T_idt、T_titlefreq、T_contentfreq以及T_feature计算每一个词的重要度T_value,按照T_value由大到小的顺序排列所有词,抽取前M个词作为分类特征词,得到分类特征词列表集合。其中,所述每一个词的重要度的计算公式为:T_value=(5*T_titlefreq+T_contentfreq+2*T_feature)*T_idt;进一步计算所述分类特征词列表集合中的每一个特征词在每一类别中出现的概率P_T|C,获得分类特征词先验概率库,其中,所述每一个特征词在每一类别中出现的概率P_T|C的计算公式为:P_T|C=D_C/K,其中,K为每个类别的所有训练网页的个数,D_C为某类别的所训练网页中包含所述特征词的训练网页的个数。
进一步的,所述网页处理模块20包括给定预处理单元201,给定筛选单元202,给定统计单元203以及给定计算单元204。
给定预处理单元201,用于提取所述给定网页的标题及正文;
给定筛选单元202,用于筛选出所述给定网页中出现的所述分类特征词列表集合中的特征词,设为L个;
给定统计单元203,用于统计每一个所述特征词在所述给定网页的标题中出现的次数T_testtitlefreq、在所述给定网页的正文中出现的次数T_testcontentfreq;
给定计算单元204,用于根据给定统计单元203统计的T_testtitlefreq、T_testcontentfreq,计算所述特征词的重要度T_testvalue,按照T_testvalue由大到小的顺序排列L个特征词,得到给定网页特征词列表集合。其中,所述特征词的T_testvalue的计算公式为:T_testvalue=5*T_testtitlefreq+T_testcontentfreq
进一步的,所述后验计算模块30计算所述给定网页特征词列表中的特征词的后验概率的公式为:P_C|T=P_T|C*1/N*M
其中,P_T|C为所述特征词在每一类别中出现的概率,N为类别的个数,M为所述分类特征词列表集合中的特征词个数。
进一步的,所述自动分类模块40进行给定网页自动分类,包括:
对每一类别的所述给定网页特征词列表中所有的特征词(L个)的后验概率P_C|T先取对数后加和,得到所述给定网页属于各类别的概率值H,即H=∑lnP_C|T;
若所述给定网页属于某类别的概率值是最大的,将所述给定网页分到所述类别中,也就是说N个类别中Hmax对应的类别即为所述给定网页的类别。
综上所述,本发明的网页自动分类方法及装置,通过先采集并处理每个技术类别下的大量训练网页,获得信息技术型网页的分类特征词列表集合以及分类特征词先验概率库,进一步筛选出给定网页中涉及的分类特征词列表集合中的特征词以形成给定网页特征词列表,计算给定网页的每一个特征词的后验概率,最后通过给定网页在每一类别下所有特征词的后验概率对数之和的大小对给定网页自动分类。本发明的网页自动分类方法及装置,通过良好的特征词筛选方法结合统计概率技术,能够对给定网页进行可靠的自动分类处理。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (24)

1.一种网页自动分类方法,其特征在于,包括:
对预设的每个类别采集一定数量的训练网页形成训练网页库;
应用所述训练网页库获得分类特征词列表集合及分类特征词先验概率库;
应用所述分类特征词列表集合过滤给定网页,获得给定网页特征词列表;
应用所述分类特征词先验概率库计算所述给定网页特征词列表中的特征词的后验概率;
根据所述后验概率进行所述给定网页自动分类。
2.如权利要求1所述的网页自动分类方法,其特征在于,对预设的每个类别采集20~500个训练网页形成训练网页库。
3.如权利要求2所述的网页自动分类方法,其特征在于,所述训练网页为已提取出标题及正文的预处理网页。
4.如权利要求1所述的网页自动分类方法,其特征在于,所述获得分类特征词列表集合的步骤包括:
统计所述训练网页库的每一个词的逆向文件频率、在训练网页的标题中出现的次数、在训练网页的正文中出现的次数以及词属值;
根据上述统计数据计算每一个词的重要度,按照所述重要度由大到小的顺序排列所有词,得到分类特征词列表集合。
5.如权利要求4所述的网页自动分类方法,其特征在于,所述每一个词的重要度的计算公式为:
T_value=(5*T_titlefreq+T_contentfreq+2*T_feature)*T_idt
其中,T_value为某词的重要度,T_idt为所述词的逆向文件频率,T_titlefreq为所述词在训练网页的标题中出现的次数,T_contentfreq为所述词在训练网页的正文中出现的次数,T_feature为所述词的词属值。
6.如权利要求5所述的网页自动分类方法,其特征在于,所述词的逆向文件频率的计算公式为:
T_idt=ln(N*K/D)
其中,T_idt为所述词的逆向文件频率,N为类别的个数,K为每个技术类别的训练网页的个数,D为包含所述词的训练网页的个数。
7.如权利要求5所述的网页自动分类方法,其特征在于,统计所述训练网页库的每一个词的词属值时,判断所述词是否属于预定义的技术特征词词典中的词;若是,所述词的词属值为1,若否,所述词的词属值0。
8.如权利要求1所述的网页自动分类方法,其特征在于,所述分类特征词先验概率库通过计算所述分类特征词列表集合中的每一个特征词在每一类别中出现的概率获得。
9.如权利要求8所述的网页自动分类方法,其特征在于,所述每一个特征词在每一类别中出现的概率的计算公式为:
P_T|C=D_C/K,其中P_T|C为所述概率,K为每个类别的所有训练网页的个数,D_C为某类别的所训练网页中包含所述特征词的训练网页的个数。
10.如权利要求1所述的网页自动分类方法,其特征在于,应用分类特征词列表集合过滤给定网页,获得给定网页特征词列表的步骤包括:
对所述给定网页预处理,提取所述给定网页的标题及正文;
筛选出所述给定网页中出现的所述分类特征词列表集合中的特征词;
统计每一个所述特征词在所述给定网页的标题中出现的次数、在所述给定网页的正文中出现的次数,计算所述特征词的重要度,按照所述重要度由大到小的顺序排列所有的所述特征词,得到给定网页特征词列表集合。
11.如权利要求10所述的网页自动分类方法,其特征在于,所述特征词的重要度的计算公式为:
T_testvalue=5*T_testtitlefreq+T_testcontentfreq
其中,T_testvalue为所述特征词的重要度,T_testtitlefreq为所述特征词在所述给定网页的标题中出现的次数,T_testcontentfreq为所述特征词在所述给定网页的正文中出现的次数。
12.如权利要求1所述的网页自动分类方法,其特征在于,所述给定网页特征词列表中的特征词的后验概率计算公式为:
P_C|T=P_T|C*1/N*M
其中,P_T|C为所述特征词在每一类别中出现的概率,N为类别的个数,M为所述分类特征词列表集合中的特征词个数。
13.如权利要求1所述的网页自动分类方法,其特征在于,所述基于所述后验概率进行给定网页自动分类,包括:
对每一类别的所述给定网页特征词列表中所有的特征词的后验概率先取对数后加和,得到所述给定网页属于各类别的概率值;
若所述给定网页属于某类别的概率值是最大的,将所述给定网页分到所述类别中。
14.一种网页自动分类装置,其特征在于,包括:
先验采集模块,用于对预设的每个类别采集一定数量的训练网页形成训练网页库,获得分类特征词列表集合及分类特征词先验概率库;
网页处理模块,用于根据所述分类特征词列表集合过滤给定网页,获得给定网页特征词列表;
后验计算模块,用于根据所述分类特征词先验概率库计算所述给定网页特征词列表中的特征词的后验概率;
自动分类模块,用于根据所述后验概率进行给定网页自动分类。
15.如权利要求14所述的网页自动分类装置,其特征在于,所述先验采集模块包括:
先验采集单元,用于对预设的每个类别采集一定数量的训练网页形成训练网页库;
先验统计单元,用于统计所述训练网页库的每一个词的逆向文件频率、在训练网页的标题中出现的次数、在训练网页的正文中出现的次数以及词属值;
先验计算单元,用于根据统计单元的数据计算每一个词的重要度,生成分类特征词列表集合,进一步计算所述分类特征词列表集合中的每一个特征词在每一类别中出现的概率,获得分类特征词先验概率库。
16.如权利要求15所述的网页自动分类装置,其特征在于,
所述先验采集单元对预设的每个类别采集20~500个训练网页形成训练网页库,所述训练网页为已提取出标题及正文的预处理网页。
17.如权利要求15所述的网页自动分类装置,所述先验计算单元计算每一个词的重要度的公式为:
T_value=(5*T_titlefreq+T_contentfreq+2*T_feature)*T_idt
其中,T_value为某词的重要度,T_idt为所述词的逆向文件频率,T_titlefreq为所述词在训练网页的标题中出现的次数,T_contentfreq为所述词在训练网页的正文中出现的次数,T_feature为所述词的词属值。
18.如权利要求17所述的网页自动分类装置,其特征在于,所述先验统计单元统计所述词的逆向文件频率的计算公式为:
T_idt=ln(N*K/D)
其中,T_idt为所述词的逆向文件频率,N为类别的个数,K为每个技术类别的训练网页的个数,D为包含所述词的训练网页的个数。
19.如权利要求17所述的网页自动分类装置,其特征在于,所述先验统计单元统计所述训练网页库的每一个词的词属值的时,判断所述词是否属于预定义的技术特征词词典中的词;若是,所述词的词属值为1,若否,所述词的词属值0。
20.如权利要求1所述的网页自动分类装置,其特征在于,所述每一个特征词在每一类别中出现的概率的计算公式为:
P_T|C=D_C/K,其中P_T|C为所述概率,K为每个类别的所有训练网页的个数,D_C为某类别的所训练网页中包含所述特征词的训练网页的个数。
21.如权利要求14所述的网页自动分类装置,其特征在于,所述网页处理模块包括:
给定预处理单元,用于提取所述给定网页的标题及正文;
给定筛选单元,用于筛选出所述给定网页中出现的所述分类特征词列表集合中的特征词;
给定统计单元,用于统计每一个所述特征词在所述给定网页的标题中出现的次数、在所述给定网页的正文中出现的次数;
给定计算单元,用于根据所述给定统计单元的数据计算每一个所述特征词的重要度,按照所述重要度由大到小的顺序排列所有的所述特征词,得到给定网页特征词列表集合。
22.如权利要求21所述的网页自动分类装置,其特征在于,所述给定计算单元计算每一个所述特征词的重要度的公式为:
T_testvalue=5*T_testtitlefreq+T_testcontentfreq
其中,T_testvalue为所述特征词的重要度,T_testtitlefreq为所述特征词在所述给定网页的标题中出现的次数,T_testcontentfreq为所述特征词在所述给定网页的正文中出现的次数。
23.如权利要求14所述的网页自动分类装置,其特征在于,所述后验计算模块计算所述给定网页特征词列表中的特征词的后验概率的公式为:
P_C|T=P_T|C*1/N*M
其中,P_T|C为所述特征词在每一类别中出现的概率,N为类别的个数,M为所述分类特征词列表集合中的特征词个数。
24.如权利要求14所述的网页自动分类装置,其特征在于,所述自动分类模块进行给定网页自动分类,包括:
对每一类别的所述给定网页特征词列表中所有的特征词的后验概率先取对数后加和,得到所述给定网页属于各类别的概率值;
若所述给定网页属于某类别的概率值是最大的,将所述给定网页分到所述类别中。
CN 201110137992 2011-05-25 2011-05-25 一种网页自动分类方法及装置 Active CN102207961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110137992 CN102207961B (zh) 2011-05-25 2011-05-25 一种网页自动分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110137992 CN102207961B (zh) 2011-05-25 2011-05-25 一种网页自动分类方法及装置

Publications (2)

Publication Number Publication Date
CN102207961A true CN102207961A (zh) 2011-10-05
CN102207961B CN102207961B (zh) 2013-10-23

Family

ID=44696795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110137992 Active CN102207961B (zh) 2011-05-25 2011-05-25 一种网页自动分类方法及装置

Country Status (1)

Country Link
CN (1) CN102207961B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092875A (zh) * 2011-11-04 2013-05-08 中国移动通信集团贵州有限公司 一种基于文本的搜索方法及搜索装置
CN103186612A (zh) * 2011-12-30 2013-07-03 中国移动通信集团公司 一种词汇分类的方法、系统和实现方法
CN103309857A (zh) * 2012-03-06 2013-09-18 腾讯科技(深圳)有限公司 一种分类语料确定方法和设备
CN103389981A (zh) * 2012-05-08 2013-11-13 腾讯科技(深圳)有限公司 网络标签自动识别方法及其系统
CN103778205A (zh) * 2014-01-13 2014-05-07 北京奇虎科技有限公司 一种基于互信息的商品分类方法和系统
CN103914478A (zh) * 2013-01-06 2014-07-09 阿里巴巴集团控股有限公司 网页训练方法及系统、网页预测方法及系统
WO2014173349A1 (zh) * 2013-09-04 2014-10-30 中兴通讯股份有限公司 网页分类标准获取方法、装置及网页分类方法、装置
CN106067037A (zh) * 2016-05-27 2016-11-02 大连楼兰科技股份有限公司 故障码识别和分类平台
CN106202349A (zh) * 2016-06-29 2016-12-07 杭州华三通信技术有限公司 网页分类字典生成方法及装置
CN106202124A (zh) * 2015-05-08 2016-12-07 广州市动景计算机科技有限公司 网页分类方法及装置
CN103092875B (zh) * 2011-11-04 2016-12-14 中国移动通信集团贵州有限公司 一种基于文本的搜索方法及搜索装置
CN106250402A (zh) * 2016-07-19 2016-12-21 杭州华三通信技术有限公司 一种网站分类方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605815B (zh) * 2013-12-11 2016-08-31 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1158422A2 (en) * 2000-05-16 2001-11-28 LAS21 Co., Ltd. Internet site search service system and method having an automatic classification function of search results
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1158422A2 (en) * 2000-05-16 2001-11-28 LAS21 Co., Ltd. Internet site search service system and method having an automatic classification function of search results
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和系统

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092875A (zh) * 2011-11-04 2013-05-08 中国移动通信集团贵州有限公司 一种基于文本的搜索方法及搜索装置
CN103092875B (zh) * 2011-11-04 2016-12-14 中国移动通信集团贵州有限公司 一种基于文本的搜索方法及搜索装置
CN103186612B (zh) * 2011-12-30 2016-04-27 中国移动通信集团公司 一种词汇分类的方法、系统和实现方法
CN103186612A (zh) * 2011-12-30 2013-07-03 中国移动通信集团公司 一种词汇分类的方法、系统和实现方法
CN103309857A (zh) * 2012-03-06 2013-09-18 腾讯科技(深圳)有限公司 一种分类语料确定方法和设备
CN103389981A (zh) * 2012-05-08 2013-11-13 腾讯科技(深圳)有限公司 网络标签自动识别方法及其系统
CN103389981B (zh) * 2012-05-08 2018-01-05 腾讯科技(深圳)有限公司 网络标签自动识别方法及其系统
CN103914478B (zh) * 2013-01-06 2018-05-08 阿里巴巴集团控股有限公司 网页训练方法及系统、网页预测方法及系统
CN103914478A (zh) * 2013-01-06 2014-07-09 阿里巴巴集团控股有限公司 网页训练方法及系统、网页预测方法及系统
CN104424308A (zh) * 2013-09-04 2015-03-18 中兴通讯股份有限公司 网页分类标准获取方法、装置及网页分类方法、装置
WO2014173349A1 (zh) * 2013-09-04 2014-10-30 中兴通讯股份有限公司 网页分类标准获取方法、装置及网页分类方法、装置
CN103778205B (zh) * 2014-01-13 2018-07-06 北京奇虎科技有限公司 一种基于互信息的商品分类方法和系统
CN103778205A (zh) * 2014-01-13 2014-05-07 北京奇虎科技有限公司 一种基于互信息的商品分类方法和系统
CN106202124A (zh) * 2015-05-08 2016-12-07 广州市动景计算机科技有限公司 网页分类方法及装置
CN106202124B (zh) * 2015-05-08 2019-12-31 广州市动景计算机科技有限公司 网页分类方法及装置
US10997256B2 (en) 2015-05-08 2021-05-04 Guangzhou Ucweb Computer Technology Co., Ltd. Webpage classification method and apparatus, calculation device and machine readable storage medium
CN106067037A (zh) * 2016-05-27 2016-11-02 大连楼兰科技股份有限公司 故障码识别和分类平台
CN106202349A (zh) * 2016-06-29 2016-12-07 杭州华三通信技术有限公司 网页分类字典生成方法及装置
CN106202349B (zh) * 2016-06-29 2020-08-21 新华三技术有限公司 网页分类字典生成方法及装置
CN106250402A (zh) * 2016-07-19 2016-12-21 杭州华三通信技术有限公司 一种网站分类方法及装置
CN106250402B (zh) * 2016-07-19 2022-01-21 新华三技术有限公司 一种网站分类方法及装置

Also Published As

Publication number Publication date
CN102207961B (zh) 2013-10-23

Similar Documents

Publication Publication Date Title
CN102207961B (zh) 一种网页自动分类方法及装置
CN104239539B (zh) 一种基于多种信息融合的微博信息过滤方法
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN104598532A (zh) 一种信息处理方法及装置
CN107844559A (zh) 一种文件分类方法、装置及电子设备
CN111310476B (zh) 一种使用基于方面的情感分析方法的舆情监控方法和系统
CN105159932B (zh) 一种数据检索引擎和排序系统和方法
CN106503254A (zh) 语料分类方法、装置及终端
CN101609450A (zh) 基于训练集的网页分类方法
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN104424308A (zh) 网页分类标准获取方法、装置及网页分类方法、装置
CN105224604B (zh) 一种基于堆优化的微博突发事件检测方法及其检测装置
US10387805B2 (en) System and method for ranking news feeds
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN103279478A (zh) 一种基于分布式互信息文档特征提取方法
CN108733675B (zh) 基于大量样本数据的情感评价方法及装置
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
CN103150331A (zh) 一种提供搜索引擎标签的方法和装置
CN103246655A (zh) 一种文本分类方法、装置及系统
CN104281694A (zh) 一种文本情感倾向分析系统
CN105512300B (zh) 信息过滤方法及系统
CN102521402B (zh) 文本过滤系统及方法
CN108462624B (zh) 一种垃圾邮件的识别方法、装置以及电子设备
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190221

Address after: 201203 7, 1 Lane 666 lane, Zhang Heng Road, Pudong New Area, Shanghai.

Patentee after: SHANGHAI ZHANGMEN TECHNOLOGY CO., LTD.

Address before: Room 102, Building 3, No. 356 Guoshoujing Road, Zhangjiang High-tech Park, Pudong New Area, Shanghai, 201203

Patentee before: Shengle Information Technology (Shanghai) Co., Ltd.