CN106168968A - 一种网站分类方法及装置 - Google Patents
一种网站分类方法及装置 Download PDFInfo
- Publication number
- CN106168968A CN106168968A CN201610522835.2A CN201610522835A CN106168968A CN 106168968 A CN106168968 A CN 106168968A CN 201610522835 A CN201610522835 A CN 201610522835A CN 106168968 A CN106168968 A CN 106168968A
- Authority
- CN
- China
- Prior art keywords
- effective
- word
- classification
- determining
- valid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000008569 process Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种网站分类方法及装置,分类字典中包含了有效词语的频率值,在对网站进行分类的过程中,考虑到了网站的文本内容与分类字典的文本信息匹配的第一有效词语的频率值,并根据该频率值确定第一有效词语的权重值,根据该权重值及第一有效词语在网站的文本内容中出现的次数确定网站的分类,提高了网站分类的准确性。另外,相比于依靠URL分类规则对网站进行分类的方案,针对新出现的网站,也能利用本方案对其进行分类,进一步提高了网站分类的准确性。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种网站分类方法及装置。
背景技术
随着科技的不断发展,互联网已经深入到生活的各个方面。互联网中的网站数目庞大,种类繁多,比如,新闻类的,论坛类的,购物类的等等。
在实际应用中,很多情况都需要对网站进行分类,以根据网站的不同种类对网站进行不同的处理。比如,一般企业中都会对特定种类的网站进行权限设置,比如禁止员工访问购物类的网站等等。这种情况下,就需要对员工访问的网站进行分类,如果分类的结果是网站属于购物类网站,则禁止访问。
目前,对网站进行分类,常见的方法是依靠URL分类规则库来实现。URL分类规则库中存储了已知的网站的URL及对应的类别。需要对网站进行分类时,将该网站的URL与URL分类规则库中保存的URL进行匹配,从而确定该网站的种类。
但是,这种方式要求URL分类规则库必须及时更新,以保证库中包含新出现的网站的URL及对应的类别,一旦未及时更新,就有可能导致分类不准确的问题。
发明内容
本发明实施例的目的在于提供一种网站分类方法及装置,以提高网站分类的准确性。
为达到上述目的,本发明实施例公开了一种网站分类方法,包括:
获取待分类网站,将所述待分类网站的文本内容与预先建立的分类字典中存储的每个分类的文本信息进行匹配,其中,所述每个分类的文本信息中包括多个有效词语,所述分类字典中还存储有每个有效词语的频率值;
确定所述文本内容与每个分类的文本信息匹配成功的每个第一有效词语,并确定每个所述第一有效词语在所述文本内容中出现的次数;
根据每个所述第一有效词语的频率值,确定每个所述第一有效词语对应的权重值;
根据每个所述次数及所述权重值,计算每个所述第一有效词语对应的第一得分;
将归属于同一分类的第一有效词语对应的第一得分相加,得到所述分类对应的第二得分;
将第二得分大于第一预设阈值的分类确定为目标分类,将目标分类确定为所述待分类网站的分类。
为达到上述目的,本发明实施例还公开了一种网站分类装置,包括:
获取模块,用于获取待分类网站;
匹配模块,用于将所述待分类网站的文本内容与预先建立的分类字典中存储的每个分类的文本信息进行匹配,其中,所述每个分类的文本信息中包括多个有效词语,所述分类字典中还存储有每个有效词语的频率值;
第一确定模块,用于确定所述文本内容与每个分类的文本信息匹配成功的每个第一有效词语,并确定每个所述第一有效词语在所述文本内容中出现的次数;
第二确定模块,用于根据每个所述第一有效词语的频率值,确定每个所述第一有效词语对应的权重值;
计算模块,用于根据每个所述次数及所述权重值,计算每个所述第一有效词语对应的第一得分;
相加模块,用于将归属于同一分类的第一有效词语对应的第一得分相加,得到所述分类对应的第二得分;
第三确定模块,用于将第二得分大于第一预设阈值的分类确定为目标分类,将目标分类确定为所述待分类网站的分类。
应用本发明实施例,分类字典中包含了有效词语的频率值,在对网站进行分类的过程中,考虑到了网站的文本内容与分类字典的文本信息匹配的第一有效词语的频率值,并根据该频率值确定第一有效词语的权重值,根据该权重值及第一有效词语在网站的文本内容中出现的次数确定网站的分类,提高了网站分类的准确性。另外,相比于依靠URL分类规则对网站进行分类的方案,针对新出现的网站,也能利用本方案对其进行分类,进一步提高了网站分类的准确性。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种网站分类方法的流程示意图;
图2为本发明实施例提供的一种网站分类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决上述技术问题,本发明实施例提供了一种网站分类方法及装置。下面首先对本发明实施例提供的网站分类方法进行详细说明。
图1为本发明实施例提供的一种网站分类方法的流程示意图,包括:
S101:获取待分类网站。
在本发明所示实施例中,获取待分类网站,可以理解为获取待分类网站的URL(Uniform Resource Locator,统一资源定位符)信息。具体的,该URL信息的获取过程可以包括:接收用户输入的URL信息;或者,利用脚本工具从互联网中爬取得到。
可以理解的是,作为本发明的一种实施方式,可以设置用户输入界面,以使用户输入待分类网站的URL信息;还可以对互联网中的海量网站进行分类,这种情况下,就需要脚本工具获得网站的URL信息。
S102:将所述待分类网站的文本内容与预先建立的分类字典中存储的每个分类的文本信息进行匹配。其中,所述每个分类的文本信息中包括多个有效词语,所述分类字典中还存储有每个有效词语的频率值。
可以通过网络爬虫访问待分类网站,网络爬虫会返回该网站的相关内容,该相关内容中可以包括代码、脚本字符及文本内容等,从中提取出该待分类网站的文本内容。
在本发明所示实施例中,预先建立了分类字典,分类字典的建立过程,可以包括:
(1)确定每个分类及每一分类下的学习样本,其中所述学习样本为预设的多个网页。
分类字典中可以包括多个分类,比如新闻、体育、金融等等,当然还可以再作细分,比如金融可以再分为银行、证券等等,在此不做限制。
首先确定分类字典中包括的分类,假设包括“教育”和“体育”。然后确定每一分类下的学习样本。在本发明所示实施例中,该学习样本可以为使用率或者知名度较高的网站,该网站中包括多个网页。比如,对于“体育”来说,学习样本可以为新浪体育、搜狐体育或者腾讯体育下的多个网页。
(2)从所述学习样本中提取文本信息,所述文本信息包括多个有效词语。
本步骤中可以包括:去除网页中的无效字符集,对所述网页中的剩余信息进行去噪处理,得到文本信息。
具体的,可以通过网络爬虫访问学习样本中包括的网页,网络爬虫会返回网页的相关内容,该相关内容中可以包括代码、脚本字符及文本内容等,去除其中的无效字符集,比如代码、脚本字符等,并对剩余信息进行去噪处理,删除与该学习样本归属的分类不相关的词语,得到学习样本的文本信息。该文本信息中包括多个有效词语,比如“体育”分类的文本信息中可以包括“乒乓球”“大师赛”等有效词语。
(3)确定每个所述有效词语的频率值。
作为本发明的一种实施方式,该频率值可以为逆向文件频率值IDF;可以利用逆向文件频率TF-IDF算法,确定每个有效词语的逆向文件频率值IDF。
作为本发明的另一种实施方式,该频率值可以为逆向词语频率值IWF;
确定每个有效词语的IWF的过程可以包括:
统计并存储每个有效词语的出现次数;
通过下式确定每个有效词语的逆向词语频率值IWF:
目标有效词语的逆向词语频率值IWF=log(N/Ni),
其中,所述N为所有有效词语的出现次数之和,所述Ni为所述目标有效词语的出现次数,所述目标有效词语为所有有效词语中任一有效词语。
该出现次数可以理解为有效词语在海量网页中的出现次数,具体的,可以利用网络爬虫爬取多个网页,从所述多个网页中提取有效词语;统计并存储每个所述有效词语的出现次数。
在本发明所示实施例中,存储每个所述有效词语的出现次数,可以包括:
判断所述有效词语是否存在于所述分类字典中;
如果否,在所述分类字典中对应存储所述有效词语及所述有效词语的出现次数;
如果是,将统计得到的所述有效词语的出现次数与所述分类字典中存储的所述有效词语的出现次数相叠加,将叠加后的出现次数重新确定为所述有效词语的出现次数,将重新确定的所述有效词语的出现次数存储至所述分类字典中。
也就是说,利用网络爬虫爬取多个网页,从所述多个网页中提取有效词语后,将提取到有效词语进行存储时,首先判断该有效词语是否已经存在于分类字典中。如果已经存在,则对分类字典中存储的该有效词语的出现次数进行更新,更新的过程即为:
将统计得到的所述有效词语的出现次数与所述分类字典中存储的所述有效词语的出现次数相叠加,将叠加后的出现次数重新确定为所述有效词语的出现次数,将重新确定的所述有效词语的出现次数存储至所述分类字典中。
如果不存在,则在分类字典中对应存储所述有效词语及所述有效词语的出现次数,这个过程属于新增。具体的,可以首先确定该有效词语归属的分类,将该有效词语存储到所归属的分类下,并对应存储其出现次数。
比如说,利用网络爬虫爬取多个网页,从所述多个网页中提取的有效词语包括:“英文”和“大师赛”,“英文”的出现次数为500次,“大师赛”的出现次数为300次。假设分类字典中存在“英文”不存在“大师赛”,分类字典中存储的“英文”的出现次数为200次。这种情况下,将分类字典中存储的“英文”的出现次数更新为700次;确定“大师赛”归属的分类为“体育”,将“大师赛”存储到“体育”分类下,并对应存储“大师赛”的出现次数300次。
作为本发明的一种实施方式,可以定期利用网络爬虫爬取多个网页,从所述多个网页中提取有效词语,定期对分类字典中存储的有效词语及有效词语的出现次数进行更新或者新增。
另外,需要考虑的是,如果分类字典中某个有效词语的出现次数过多,可能影响利用该分类字典进行网站分类的准确性。因此,在本发明所示实施例中,当分类字典中存储的有效词语的出现次数大于第三预设阈值时,可以将所述有效词语的出现次数确定为第二预设值。
(4)将每个分类、所述分类的文本信息及所述文本信息中包括的有效词语的频率值对应存储到分类字典中。
分类字典中对应存储分类、分类的文本信息(即每个分类下的多个有效词语)、及有效词语的频率值,如表1所示。需要说明的是,表1所示的仅为分类字典的部分内容,并不对分类字典构成限定。
表1
编号 | 分类 | 有效词语 | 频率值 |
1 | 教育 | 课程 | 0.0028 |
2 | 教育 | 阅读 | 0.0023 |
3 | 教育 | 英文 | 0.0045 |
4 | 体育 | 乒乓球 | 0.0062 |
5 | 体育 | 大师赛 | 0.0083 |
将上述提取出的待分类网站的文本内容与分类字典中存储的每个分类的文本信息中包括的有效词语进行匹配。
S103:确定所述文本内容与每个分类的文本信息匹配成功的每个第一有效词语,并确定每个所述第一有效词语在所述文本内容中出现的次数。
假设匹配成功的第一有效词语为“课程”、“阅读”、“大师赛”。假设“课程”在该待分类网站的文本内容中出现了3次,“阅读”在该待分类网站的文本内容中出现了4次,“大师赛”在该待分类网站的文本内容中出现了1次。
S104:根据每个所述第一有效词语的频率值,确定每个所述第一有效词语对应的权重值。
从分类字典中可以获得每个第一有效词语的频率值。根据表1所示的分类字典,“课程”的频率值为0.0028,“阅读”的频率值为0.0023,“大师赛”的频率值为0.0083。
当该频率值为IDF时,可以直接将第一有效词语的频率值IDF确定为第一有效词语对应的权重值。
当该频率值为IWF时:
作为本发明的一种实施方式,可以直接将第一有效词语的频率值IWF确定为第一有效词语对应的权重值。
作为本发明的另一种实施方式,确定第一有效词语对应的权重值的过程可以包括:
确定每个所述第一有效词语归属的第一分类;
确定每个所述第一分类的文本信息中包括的所有有效词语及所述所有有效词语的IWF;
通过下式确定每个所述第一有效词语对应的权重值:
所述第一有效词语对应的权重值=所述第一有效词语的IWF/所述所有有效词语的IWF之和。
比如,确定“课程”对应的权重值:
根据表1可知,“课程”归属的第一分类为“教育”;
确定“教育”的文本信息中包括的所有有效词语及有效词语的IWF:“课程”IWF0.0028、“阅读”IWF0.0023、“英文”IWF0.0045;
“课程”对应的权重值=0.0028/(0.0028+0.0023+0.0045)=29%。
同理可得,“阅读”对应的权重值=24%,“大师赛”对应的权重值=57%。
可以理解的是,分类字典中各个分类的文本信息中的有效词语的个数不同,为了避免该有效词语的个数对权重值产生影响,将IWF值进行上述处理得到对应的权重值。
S105:根据每个所述次数及所述权重值,计算每个所述第一有效词语对应的第一得分。
当该频率值为IDF时:
作为本发明的一种实施方式,可以通过下式计算每个所述第一有效词语对应的第一得分:
第一得分=MatchTime*IDF,
其中,所述MatchTime为所述第一有效词语在所述文本内容中出现的次数,所述IDF为所述第一有效词语的逆向文件频率值。
应用这种实施方式,课程”对应的第一得分=3*0.0028=0.0084,“阅读”对应的第一得分=4*0.0023=0.0092,“大师赛”对应的第一得分=1*0.0083=0.0083。
作为本发明的另一种实施方式,可以先确定所述第一有效词语归属的分类的文本信息的长度,再通过下式计算每个所述第一有效词语对应的第一得分:
第一得分=MatchTime*IDF/LengthText,
其中,所述MatchTime为所述第一有效词语在所述文本内容中出现的次数,所述IDF为所述第一有效词语的逆向文件频率值,所述LengthText为所述第一有效词语归属的分类的文本信息的长度。
应用这种实施方式,“课程”及“阅读”归属的分类为“教育”,假设“教育”的文本信息的长度为30个字节,“大师赛”归属的分类为“体育”,假设“体育”的文本信息的长度为20个字节。
“课程”对应的第一得分=3*0.0028/30=0.00028,“阅读”对应的第一得分=4*0.0023/30=0.00031,“大师赛”对应的第一得分=1*0.0083/20=0.000415。
可以理解的是,分类字典中各个分类的文本信息的长度不同,为了避免该文本信息的长度对第一得分产生影响,利用上述方案得到第一得分。
需要说明的是,通过上述方案得到的第一得分通常是很小的数值,不便于观察比较,因此,可以将第一得分*P,对*P后得到的值进行后续的观察比较,该P可以为1000000。
当该频率值为IWF时:
通过下式计算每个所述第一有效词语对应的第一得分:
第一得分=MatchTime(1/m)*权重值,
其中,所述MatchTime为所述第一有效词语在所述文本内容中出现的次数,所述m为第一预设值,所述m≥1,所述权重值为所述第一有效词语对应的权重值。
同样的,通过这种方案得到的第一得分通常也是很小的数值,不便于观察比较,因此,可以将第一得分*Q,对*Q后得到的值进行后续的观察比较,该Q可以为10000。
S106:将归属于同一分类的第一有效词语对应的第一得分相加,得到所述分类对应的第二得分。
假设“课程”对应的第一得分为280,“阅读”对应的第一得分310,“大师赛”对应的第一得分415。“课程”与“阅读”归属于同一分类“教育”,则“教育”对应的第二得分=280+310=590,“大师赛”归属的分类“体育”对应的第二得分为为415。
S107:将第二得分大于第一预设阈值的分类确定为所述待分类网站的分类。
假设第一预设阈值为500,则“教育”对应的第二得分590大于500,将待分类网站的分类确定为“教育”。
应用本发明图1所示实施例,分类字典中包含了有效词语的频率值,在对网站进行分类的过程中,考虑到了网站的文本内容与分类字典的文本信息匹配的第一有效词语的频率值,并根据该频率值确定第一有效词语的权重值,根据该权重值及第一有效词语在网站的文本内容中出现的次数确定网站的分类,提高了网站分类的准确性。另外,相比于依靠URL分类规则对网站进行分类的方案,针对新出现的网站,也能利用本方案对其进行分类,进一步提高了网站分类的准确性。
在本发明所示实施例中,在S107之后,还可以记录待分类网站的分类,也就是说,记录上述待分类网站的分类为“教育”。这种情况下,当获取待分类网站后,可以首先判断是否记录有该网站的分类,如果有,则不需要进行上述过程,直接确定该网站的分类,仅在未记录该网站的分类的情况下,执行上述方案,简化了操作过程。
在本发明所示实施例中,可以记录每个有效词语与待分类网站的文本内容匹配成功的次数。也就是说,在上述方案中,当确定每个第一有效词语在待分类网站的文本内容中出现的次数后,将该第一有效词语对应的匹配成功的次数进行更新,更新的过程即为将原数值与新确定的次数相加。
比如,上述例子中,第一有效词语“课程”在待分类网站的文本内容中出现的次数为3,假设之前记录“课程”与待分类网站的文本内容匹配成功的次数为500,则将“课程”与待分类网站的文本内容匹配成功的次数更新为503。
这种情况下,可以每隔预设周期,在分类字典中删除所述匹配成功的次数小于第二预设阈值的有效词语。也就是说,假设执行了多次网站分类方法后,某个有效词语与网站的文本内容的匹配成功的次数非常少,此时,可以在分类字典中将该有效词语删除。
可以理解的是,分类字典中存储的都是常用的有效词语,如果某个有效词语与网站的文本内容的匹配成功的次数非常少,说明该有效词语并不常用,应该将其从分类字典中删除,提高利用分类字典对网站进行分类的准确性。
与上述的方法实施例相对应,本发明实施例还提供一种网站分类装置。
图2为本发明实施例提供的一种网站分类装置的结构示意图,包括:
获取模块201,用于获取待分类网站;
匹配模块202,用于将所述待分类网站的文本内容与预先建立的分类字典中存储的每个分类的文本信息进行匹配,其中,所述每个分类的文本信息中包括多个有效词语,所述分类字典中还存储有每个有效词语的频率值;
第一确定模块203,用于确定所述文本内容与每个分类的文本信息匹配成功的每个第一有效词语,并确定每个所述第一有效词语在所述文本内容中出现的次数;
第二确定模块204,用于根据每个所述第一有效词语的频率值,确定每个所述第一有效词语对应的权重值;
计算模块205,用于根据每个所述次数及所述权重值,计算每个所述第一有效词语对应的第一得分;
相加模块206,用于将归属于同一分类的第一有效词语对应的第一得分相加,得到所述分类对应的第二得分;
第三确定模块207,用于将第二得分大于第一预设阈值的分类确定为目标分类,将目标分类确定为所述待分类网站的分类。
在本发明所示实施例中,还可以包括:第四确定模块、提取模块、第五确定模块和存储模块(图中未示出),其中,
第四确定模块,用于确定每个分类及每一分类下的学习样本,其中所述学习样本为预设的多个网页;
提取模块,用于从所述学习样本中提取文本信息,所述文本信息包括多个有效词语;
第五确定模块,用于确定每个所述有效词语的频率值;
存储模块,用于将每个分类、所述分类的文本信息及所述文本信息中包括的有效词语的频率值对应存储到分类字典中。
作为本发明的一种实施方式,所述频率值可以为逆向文件频率值IDF;所述第五确定模块,具体可以用于:
利用逆向文件频率TF-IDF算法,确定每个所述有效词语的逆向文件频率值IDF。
作为本发明的另一种实施方式,所述频率值可以为逆向词语频率值IWF;所述第五确定模块,可以包括:
统计存储子模块,用于统计并存储每个所述有效词语的出现次数;
第一确定子模块,用于通过下式确定每个所述有效词语的逆向词语频率值IWF:
目标有效词语的逆向词语频率值IWF=log(N/Ni),
其中,所述N为所有有效词语的出现次数之和,所述Ni为所述目标有效词语的出现次数,所述目标有效词语为所有有效词语中任一有效词语。
在本发明所示实施例中,所述统计存储子模块,可以包括:
提取单元,用于利用网络爬虫爬取多个网页,从所述多个网页中提取有效词语;
统计单元,用于统计每个所述有效词语的出现次数;
存储单元,用于存储每个所述有效词语的出现次数。
在本发明所示实施例中,所述存储单元,具体可以用于:
判断所述有效词语是否存在于所述分类字典中;
如果否,在所述分类字典中对应存储所述有效词语及所述有效词语的出现次数;
如果是,将统计得到的所述有效词语的出现次数与所述分类字典中存储的所述有效词语的出现次数相叠加,将叠加后的出现次数重新确定为所述有效词语的出现次数,将重新确定的所述有效词语的出现次数存储至所述分类字典中。
在本发明所示实施例中,所述装置还可以包括:第一判断模块和第六确定模块(图中未示出),其中,
第一判断模块,用于判断所述分类字典中存储的有效词语的出现次数是否大于第三预设阈值;
第六确定模块,用于当所述第二判断模块判断结果为是时,将所述有效词语的出现次数确定为第二预设值。
在本发明所示实施例中,提取模块,具体可以用于:
去除网页中的无效字符集,对所述网页中的剩余信息进行去噪处理,得到文本信息。
作为本发明的一种实施方式,所述频率值为逆向文件频率值IDF;第二确定模块204,具体可以用于:
将所述第一有效词语的IDF确定为所述第一有效词语对应的权重值。
作为本发明的一种实施方式,计算模块205,具体可以用于:
通过下式计算每个所述第一有效词语对应的第一得分:
第一得分=MatchTime*IDF,
其中,所述MatchTime为所述第一有效词语在所述文本内容中出现的次数,所述IDF为所述第一有效词语的逆向文件频率值。
作为本发明的一种实施方式,计算模块205,可以包括:第二确定子模块和计算子模块(图中未示出),其中,
第二确定子模块,用于确定所述第一有效词语归属的分类的文本信息的长度;
计算子模块,用于通过下式计算每个所述第一有效词语对应的第一得分:
第一得分=MatchTime*IDF/LengthText,
其中,所述MatchTime为所述第一有效词语在所述文本内容中出现的次数,所述IDF为所述第一有效词语的逆向文件频率值,所述LengthText为所述第一有效词语归属的分类的文本信息的长度。
作为本发明的一种实施方式,第二确定模块204,可以包括:第三确定子模块或者第四确定子模块(图中未示出),其中,
第三确定子模块,用于将所述第一有效词语的IWF确定为所述第一有效词语对应的权重值;
第四确定子模块,用于确定每个所述第一有效词语归属的第一分类;
确定每个所述第一分类的文本信息中包括的所有有效词语及所述所有有效词语的IWF;
通过下式确定每个所述第一有效词语对应的权重值:
所述第一有效词语对应的权重值=所述第一有效词语的IWF/所述所有有效词语的IWF之和。
作为本发明的一种实施方式,计算模块205,具体可以用于:
通过下式计算每个所述第一有效词语对应的第一得分:
第一得分=MatchTime(1/m)*权重值,
其中,所述MatchTime为所述第一有效词语在所述文本内容中出现的次数,所述m为第一预设值,所述m≥1,所述权重值为所述第一有效词语对应的权重值。
在本发明所示实施例中,所述装置还可以包括:记录模块和第二判断模块(图中未示出),其中,
记录模块,用于记录所述待分类网站的分类;
第二判断模块,用于判断是否记录有所述待分类网站的分类,如果否,触发所述匹配模块。
在本发明所示实施例中,记录模块,还可以用于记录每个有效词语与待分类网站的文本内容匹配成功的次数;
所述装置还可以包括:删除模块(图中未示出),用于每隔预设周期,在所述分类字典中删除所述匹配成功的次数小于第二预设阈值的有效词语。
应用本发明图2所示实施例,分类字典中包含了有效词语的频率值,在对网站进行分类的过程中,考虑到了网站的文本内容与分类字典的文本信息匹配的第一有效词语的频率值,并根据该频率值确定第一有效词语的权重值,根据该权重值及第一有效词语在网站的文本内容中出现的次数确定网站的分类,提高了网站分类的准确性。另外,相比于依靠URL分类规则对网站进行分类的方案,针对新出现的网站,也能利用本方案对其进行分类,进一步提高了网站分类的准确性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (20)
1.一种网站分类方法,其特征在于,包括:
获取待分类网站,将所述待分类网站的文本内容与预先建立的分类字典中存储的每个分类的文本信息进行匹配,其中,所述每个分类的文本信息中包括多个有效词语,所述分类字典中还存储有每个有效词语的频率值;
确定所述文本内容与每个分类的文本信息匹配成功的每个第一有效词语,并确定每个所述第一有效词语在所述文本内容中出现的次数;
根据每个所述第一有效词语的频率值,确定每个所述第一有效词语对应的权重值;
根据每个所述次数及所述权重值,计算每个所述第一有效词语对应的第一得分;
将归属于同一分类的第一有效词语对应的第一得分相加,得到所述分类对应的第二得分;
将第二得分大于第一预设阈值的分类确定为所述待分类网站的分类。
2.根据权利要求1所述的方法,其特征在于,所述分类字典的建立过程,包括:
确定每个分类及每一分类下的学习样本,其中所述学习样本为预设的多个网页;
从所述学习样本中提取文本信息,所述文本信息包括多个有效词语;
确定每个所述有效词语的频率值;
将每个分类、所述分类的文本信息及所述文本信息中包括的有效词语的频率值对应存储到分类字典中。
3.根据权利要求2所述的方法,其特征在于,所述频率值为逆向文件频率值IDF;
所述确定每个所述有效词语的频率值,包括:
利用逆向文件频率TF-IDF算法,确定每个所述有效词语的逆向文件频率值IDF。
4.根据权利要求2所述的方法,其特征在于,所述频率值为逆向词语频率值IWF;
所述确定每个所述有效词语的频率值,包括:
统计并存储每个所述有效词语的出现次数;
通过下式确定每个所述有效词语的逆向词语频率值IWF:
目标有效词语的逆向词语频率值IWF=log(N/Ni),
其中,所述N为所有有效词语的出现次数之和,所述Ni为所述目标有效词语的出现次数,所述目标有效词语为所有有效词语中任一有效词语。
5.根据权利要求3所述的方法,其特征在于,所述根据每个所述第一有效词语的频率值,确定每个所述第一有效词语对应的权重值,包括:
将所述第一有效词语的IDF确定为所述第一有效词语对应的权重值。
6.根据权利要求5所述的方法,其特征在于,所述根据每个所述次数及所述权重值,计算每个所述第一有效词语对应的第一得分,包括:
通过下式计算每个所述第一有效词语对应的第一得分:
第一得分=MatchTime*IDF,
其中,所述MatchTime为所述第一有效词语在所述文本内容中出现的次数,所述IDF为所述第一有效词语的逆向文件频率值。
7.根据权利要求5所述的方法,其特征在于,所述根据每个所述次数及所述权重值,计算每个所述第一有效词语对应的第一得分,包括:
确定所述第一有效词语归属的分类的文本信息的长度;
通过下式计算每个所述第一有效词语对应的第一得分:
第一得分=MatchTime*IDF/LengthText,
其中,所述MatchTime为所述第一有效词语在所述文本内容中出现的次数,所述IDF为所述第一有效词语的逆向文件频率值,所述LengthText为所述第一有效词语归属的分类的文本信息的长度。
8.根据权利要求4所述的方法,其特征在于,所述根据每个所述第一有效词语的频率值,确定每个所述第一有效词语对应的权重值,包括:
将所述第一有效词语的IWF确定为所述第一有效词语对应的权重值;
或者,
确定每个所述第一有效词语归属的第一分类;
确定每个所述第一分类的文本信息中包括的所有有效词语及所述所有有效词语的IWF;
通过下式确定每个所述第一有效词语对应的权重值:
所述第一有效词语对应的权重值=所述第一有效词语的IWF/所述所有有效词语的IWF之和。
9.根据权利要求8所述的方法,其特征在于,所述根据每个所述次数及所述权重值,计算每个所述第一有效词语对应的第一得分,包括:
通过下式计算每个所述第一有效词语对应的第一得分:
第一得分=MatchTime(1/m)*权重值,
其中,所述MatchTime为所述第一有效词语在所述文本内容中出现的次数,所述m为第一预设值,所述m≥1,所述权重值为所述第一有效词语对应的权重值。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
记录每个有效词语与待分类网站的文本内容匹配成功的次数;
每隔预设周期,在所述分类字典中删除所述匹配成功的次数小于第二预设阈值的有效词语。
11.一种网站分类装置,其特征在于,包括:
获取模块,用于获取待分类网站;
匹配模块,用于将所述待分类网站的文本内容与预先建立的分类字典中存储的每个分类的文本信息进行匹配,其中,所述每个分类的文本信息中包括多个有效词语,所述分类字典中还存储有每个有效词语的频率值;
第一确定模块,用于确定所述文本内容与每个分类的文本信息匹配成功的每个第一有效词语,并确定每个所述第一有效词语在所述文本内容中出现的次数;
第二确定模块,用于根据每个所述第一有效词语的频率值,确定每个所述第一有效词语对应的权重值;
计算模块,用于根据每个所述次数及所述权重值,计算每个所述第一有效词语对应的第一得分;
相加模块,用于将归属于同一分类的第一有效词语对应的第一得分相加,得到所述分类对应的第二得分;
第三确定模块,用于将第二得分大于第一预设阈值的分类确定为所述待分类网站的分类。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第四确定模块,用于确定每个分类及每一分类下的学习样本,其中所述学习样本为预设的多个网页;
提取模块,用于从所述学习样本中提取文本信息,所述文本信息包括多个有效词语;
第五确定模块,用于确定每个所述有效词语的频率值;
存储模块,用于将每个分类、所述分类的文本信息及所述文本信息中包括的有效词语的频率值对应存储到分类字典中。
13.根据权利要求12所述的装置,其特征在于,所述频率值为逆向文件频率值IDF;所述第五确定模块,具体用于:
利用逆向文件频率TF-IDF算法,确定每个所述有效词语的逆向文件频率值IDF。
14.根据权利要求12所述的装置,其特征在于,所述频率值为逆向词语频率值IWF;所述第五确定模块,包括:
统计存储子模块,用于统计并存储每个所述有效词语的出现次数;
第一确定子模块,用于通过下式确定每个所述有效词语的逆向词语频率值IWF:
目标有效词语的逆向词语频率值IWF=log(N/Ni),
其中,所述N为所有有效词语的出现次数之和,所述Ni为所述目标有效词语的出现次数,所述目标有效词语为所有有效词语中任一有效词语。
15.根据权利要求13所述的装置,其特征在于,所述第二确定模块,具体用于:
将所述第一有效词语的IDF确定为所述第一有效词语对应的权重值。
16.根据权利要求15所述的装置,其特征在于,所述计算模块,具体用于:
通过下式计算每个所述第一有效词语对应的第一得分:
第一得分=MatchTime*IDF,
其中,所述MatchTime为所述第一有效词语在所述文本内容中出现的次数,所述IDF为所述第一有效词语的逆向文件频率值。
17.根据权利要求15所述的装置,其特征在于,所述计算模块,包括:
第二确定子模块,用于确定所述第一有效词语归属的分类的文本信息的长度;
计算子模块,用于通过下式计算每个所述第一有效词语对应的第一得分:
第一得分=MatchTime*IDF/LengthText,
其中,所述MatchTime为所述第一有效词语在所述文本内容中出现的次数,所述IDF为所述第一有效词语的逆向文件频率值,所述LengthText为所述第一有效词语归属的分类的文本信息的长度。
18.根据权利要求14所述的装置,其特征在于,所述第二确定模块,包括:
第三确定子模块,用于将所述第一有效词语的IWF确定为所述第一有效词语对应的权重值;
或者,
第四确定子模块,用于确定每个所述第一有效词语归属的第一分类;
确定每个所述第一分类的文本信息中包括的所有有效词语及所述所有有效词语的IWF;
通过下式确定每个所述第一有效词语对应的权重值:
所述第一有效词语对应的权重值=所述第一有效词语的IWF/所述所有有效词语的IWF之和。
19.根据权利要求18所述的装置,其特征在于,所述计算模块,具体用于:
通过下式计算每个所述第一有效词语对应的第一得分:
第一得分=MatchTime(1/m)*权重值,
其中,所述MatchTime为所述第一有效词语在所述文本内容中出现的次数,所述m为第一预设值,所述m≥1,所述权重值为所述第一有效词语对应的权重值。
20.根据权利要求11所述的装置,其特征在于,所述装置还包括:
记录模块,用于记录每个有效词语与待分类网站的文本内容匹配成功的次数;
删除模块,用于每隔预设周期,在所述分类字典中删除所述匹配成功的次数小于第二预设阈值的有效词语。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610522835.2A CN106168968B (zh) | 2016-06-29 | 2016-06-29 | 一种网站分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610522835.2A CN106168968B (zh) | 2016-06-29 | 2016-06-29 | 一种网站分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106168968A true CN106168968A (zh) | 2016-11-30 |
CN106168968B CN106168968B (zh) | 2021-12-24 |
Family
ID=58064763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610522835.2A Active CN106168968B (zh) | 2016-06-29 | 2016-06-29 | 一种网站分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106168968B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649274A (zh) * | 2016-12-27 | 2017-05-10 | 东华互联宜家数据服务有限公司 | 文本内容标签标记方法以及装置 |
CN106874340A (zh) * | 2016-12-22 | 2017-06-20 | 新华三技术有限公司 | 一种网页地址分类方法及装置 |
CN110019776A (zh) * | 2017-09-05 | 2019-07-16 | 腾讯科技(北京)有限公司 | 文章分类方法及装置、存储介质 |
CN113612765A (zh) * | 2021-07-30 | 2021-11-05 | 北京锐安科技有限公司 | 一种网站检测方法、装置、计算机设备和存储介质 |
CN114254624A (zh) * | 2021-12-01 | 2022-03-29 | 马上消费金融股份有限公司 | 一种确定网站类型的方法及其系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008053228A2 (en) * | 2006-11-01 | 2008-05-08 | Bloxx Limited | Methods and systems for web site categorisation training, categorisation and access control |
CN103577430A (zh) * | 2012-07-26 | 2014-02-12 | 深圳市世纪光速信息技术有限公司 | 一种信息识别的方法和服务器 |
CN103686231A (zh) * | 2012-08-28 | 2014-03-26 | 财团法人工业技术研究院 | 影片的集成管理、失效替换与续播的方法及系统 |
CN103678310A (zh) * | 2012-08-31 | 2014-03-26 | 腾讯科技(深圳)有限公司 | 网页主题的分类方法及装置 |
CN103744981A (zh) * | 2014-01-14 | 2014-04-23 | 南京汇吉递特网络科技有限公司 | 一种基于网站内容用于网站自动分类分析的系统 |
CN104598532A (zh) * | 2014-12-29 | 2015-05-06 | 中国联合网络通信有限公司广东省分公司 | 一种信息处理方法及装置 |
-
2016
- 2016-06-29 CN CN201610522835.2A patent/CN106168968B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008053228A2 (en) * | 2006-11-01 | 2008-05-08 | Bloxx Limited | Methods and systems for web site categorisation training, categorisation and access control |
CN103577430A (zh) * | 2012-07-26 | 2014-02-12 | 深圳市世纪光速信息技术有限公司 | 一种信息识别的方法和服务器 |
CN103686231A (zh) * | 2012-08-28 | 2014-03-26 | 财团法人工业技术研究院 | 影片的集成管理、失效替换与续播的方法及系统 |
CN103678310A (zh) * | 2012-08-31 | 2014-03-26 | 腾讯科技(深圳)有限公司 | 网页主题的分类方法及装置 |
CN103744981A (zh) * | 2014-01-14 | 2014-04-23 | 南京汇吉递特网络科技有限公司 | 一种基于网站内容用于网站自动分类分析的系统 |
CN104598532A (zh) * | 2014-12-29 | 2015-05-06 | 中国联合网络通信有限公司广东省分公司 | 一种信息处理方法及装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874340A (zh) * | 2016-12-22 | 2017-06-20 | 新华三技术有限公司 | 一种网页地址分类方法及装置 |
CN106874340B (zh) * | 2016-12-22 | 2020-12-18 | 新华三技术有限公司 | 一种网页地址分类方法及装置 |
CN106649274A (zh) * | 2016-12-27 | 2017-05-10 | 东华互联宜家数据服务有限公司 | 文本内容标签标记方法以及装置 |
CN110019776A (zh) * | 2017-09-05 | 2019-07-16 | 腾讯科技(北京)有限公司 | 文章分类方法及装置、存储介质 |
CN110019776B (zh) * | 2017-09-05 | 2023-04-28 | 腾讯科技(北京)有限公司 | 文章分类方法及装置、存储介质 |
CN113612765A (zh) * | 2021-07-30 | 2021-11-05 | 北京锐安科技有限公司 | 一种网站检测方法、装置、计算机设备和存储介质 |
CN113612765B (zh) * | 2021-07-30 | 2023-06-27 | 北京锐安科技有限公司 | 一种网站检测方法、装置、计算机设备和存储介质 |
CN114254624A (zh) * | 2021-12-01 | 2022-03-29 | 马上消费金融股份有限公司 | 一种确定网站类型的方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106168968B (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106168968B (zh) | 一种网站分类方法及装置 | |
CN104615593B (zh) | 微博热点话题自动检测方法及装置 | |
CN105426354B (zh) | 一种句向量的融合方法和装置 | |
CN111797239B (zh) | 应用程序的分类方法、装置及终端设备 | |
CN106815208A (zh) | 法律裁判文书的解析方法及装置 | |
CN103838798B (zh) | 页面分类系统及页面分类方法 | |
CN103914478A (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN108038173B (zh) | 一种网页分类方法、系统及一种网页分类设备 | |
WO2007143914A1 (fr) | Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web | |
CN102253937A (zh) | 获取网页中的感兴趣信息的方法及相关装置 | |
CN106250402B (zh) | 一种网站分类方法及装置 | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
CN104951448A (zh) | 一种为用户推送订阅类别的消息的方法和服务器 | |
CN106202349B (zh) | 网页分类字典生成方法及装置 | |
CN111104801B (zh) | 基于网址域名的文本分词方法、系统、设备及介质 | |
CN112492606B (zh) | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 | |
CN103902619A (zh) | 一种网络舆情监控方法及系统 | |
CN113204953A (zh) | 基于语义识别的文本匹配方法、设备及设备可读存储介质 | |
CN108959329A (zh) | 一种文本分类方法、装置、介质及设备 | |
CN108021667A (zh) | 一种文本分类方法和装置 | |
CN105095175A (zh) | 获取截短的网页标题的方法及装置 | |
CN104915422A (zh) | 基于浏览器的网页收藏方法和装置 | |
CN106649308B (zh) | 一种分词词库更新方法及系统 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN112183093A (zh) | 一种企业舆情分析方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information |
Address after: 310052 Binjiang District Changhe Road, Zhejiang, China, No. 466, No. Applicant after: Xinhua three Technology Co., Ltd. Address before: 310053 Hangzhou science and Technology Industrial Park, high tech Industrial Development Zone, Zhejiang Province, No. six and road, No. 310 Applicant before: Huasan Communication Technology Co., Ltd. |
|
CB02 | Change of applicant information | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |