CN106156372B - 一种互联网网站的分类方法及装置 - Google Patents

一种互联网网站的分类方法及装置 Download PDF

Info

Publication number
CN106156372B
CN106156372B CN201610799477.XA CN201610799477A CN106156372B CN 106156372 B CN106156372 B CN 106156372B CN 201610799477 A CN201610799477 A CN 201610799477A CN 106156372 B CN106156372 B CN 106156372B
Authority
CN
China
Prior art keywords
classification
keyword
entry
internet site
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610799477.XA
Other languages
English (en)
Other versions
CN106156372A (zh
Inventor
祁豪兵
陈圣强
李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing VRV Software Corp Ltd
Original Assignee
Beijing VRV Software Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing VRV Software Corp Ltd filed Critical Beijing VRV Software Corp Ltd
Priority to CN201610799477.XA priority Critical patent/CN106156372B/zh
Publication of CN106156372A publication Critical patent/CN106156372A/zh
Application granted granted Critical
Publication of CN106156372B publication Critical patent/CN106156372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本发明提供了一种互联网网站的分类方法及装置,上述方法包括:爬取待分类的互联网网站的网站内容;根据互联网网站所属的应用领域,构建应用领域匹配的原始词典:中文分词词典和停止词词典;根据综合词典,训练原始词典对应的关键词库,并根据关键词库优化原始词典,得到优化中文分词词典及其匹配的优化关键词库;其中,关键词库包括多个网站内容的类别关键词且多个类别关键词均按照其在各个类别中的权重值从大到小的顺序排列设置;根据优化关键词库中的类别关键词对待分类的互联网网站的网站内容进行计算,得到互联网网站的类别;其降低业务分类之间的耦合性以及强化业务分类的独立性,有利于对专业性互联网网站进行分类,提高了分类精度。

Description

一种互联网网站的分类方法及装置
技术领域
本发明涉及网站分类技术领域,具体而言,涉及一种互联网网站的分类方法及装置。
背景技术
随着社会信息化的不断深入,在生活中尤其是在互联网上,无时无刻不在产生着大量的信息,且信息的产生速度也越来越快;信息产生速度的急剧增加进一步加剧了信息过载现象。如何自动并且高效地处理这些海量信息中所包含的有效数据,是一个重要的研究领域。文本分类是这个领域中的一个方向,主要目的是根据所给的文本,将其划分至所属的类别,以供进一步的处理。而上述文本分类的方法应用广泛,方法多样,因而广受关注。
在解决上述文本分类问题的方法中,文本分类的处理方法主要方向分为三种:词匹配法、知识工程法、统计学习方法。然而,目前文本分类技术中有最常用的方法包括:先将文本进行分词,然后根据所有的分词构建文档-词条矩阵并将构建的矩阵转换为数据框,最后对数据框建立统计、挖掘模型。在需要对文本进行分类时,根据建立的统计、挖掘模型对所述文本中的分词进行处理,以得到文本的类别。
发明人在研究中发现,上述文本分类方法中文档-词条矩阵的容量过大大,且其中包含了很多对分类贡献小的词,使得最终计算文本类别的计算复杂度高。
发明内容
有鉴于此,本发明实施例的目的在于提供一种互联网网站的分类方法及装置,以降低业务分类之间的耦合性以及强化业务分类的独立性,有利于对专业性互联网网站进行分类,且提高了分类精度。
第一方面,本发明实施例提供了一种互联网网站的分类方法,所述方法包括:
爬取待分类的互联网网站的网站内容;所述网站内容包括:网站标题和网站正文信息;
根据所述互联网网站所属的应用领域,构建所述应用领域匹配的原始词典;所述原始词典包括:中文分词词典和停止词词典;
根据综合词典,训练所述原始词典对应的关键词库,并根据所述关键词库优化所述原始词典,得到优化中文分词词典及其匹配的优化关键词库;其中,所述关键词库包括多个所述网站内容的类别关键词且多个所述类别关键词均按照其在各个类别中的权重值从大到小的顺序排列设置;所述关键词库包括:网站标题关键词库和网站正文关键词库;
根据所述优化关键词库中的所述类别关键词对所述待分类的互联网网站的网站内容进行计算,得到所述互联网网站的类别。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述根据综合词典,训练所述原始词典对应的关键词库,并根据所述关键词库优化所述原始词典,得到优化中文分词词典及其匹配的优化关键词库,包括:
步骤1、选取多个不同类别网站的互联网网站内容作为样本集;所述样本集包括:训练样本集和测试样本集;
步骤2、对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,提取所述网站内容中的词条;
步骤3、利用关键词提取方法对提取的所述词条进行训练处理,得到所述训练样本集中的各个类别的互联网网站对应的关键词库;
步骤4、将所述关键词库中权重值大于设定阈值的关键词加入到所述原始词典的中文分词词典中,将所述关键词库中权重值小于设定阈值的关键词加入所述原始词典的停止词词典中;
步骤5、根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述训练样本集进行分类,得到关键词训练误差;根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述测试样本集进行分类,得到关键词测试误差;
步骤6、在所述关键词训练误差和所述关键词测试误差均小于评估阈值,得到对应的优化中文分词词典;在所述关键词训练误差和所述关键词测试误差中的任意一个误差大于所述评估阈值时,继续执行步骤2、步骤3、步骤4、步骤5,直至所述关键词训练误差和所述关键词测试误差均小于所述评估阈值时,得到对应的优化中文分词词典;
步骤7、按照步骤2和步骤3的方法,对所述优化中文分词词典进行训练,得到所述优化中文分词词典对应的优化关键词库。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,步骤3、利用关键词提取方法对提取的所述词条进行训练处理,得到所述训练样本集中的各个类别的互联网网站对应的关键词库,包括:
计算各个标题词条在各个类别中的出现频率,得到各个所述标题词条的词频;
计算各个所述标题词条在所述网站标题中的重要性度量,得到各个所述标题词条的逆向类别频率;
根据各个所述标题词条的词频和各个所述标题词条的逆向类别频率,计算各个所述标题词条在任意类别中的权重值;
将各个所述标题词条按照其在各个类别中的权重值从大到小的顺序进行排序,得到对应的网站标题关键词库。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,步骤3、利用关键词提取方法对提取的所述词条进行训练处理,得到所述训练样本集中的各个类别的互联网网站对应的关键词库,包括:
计算各个所述正文词条在对应的各个网站正文中的出现频率,得到各个所述网站正文中正文词条的第一词频;
计算各个所述正文词条在各个类别中的出现频率,得到各个所述正文词条的第二词频;
计算各个所述正文词条在所述网站正文信息中的重要性度量,得到各个所述正文词条的逆向类别频率;
计算各个所述正文词条在各个类别中的重要性度量,得到各个所述正文词条的逆业务类频率;
根据各个所述网站正文中正文词条的第一词频、各个所述正文词条的第二词频、各个所述正文词条的逆向类别频率和各个所述正文词条的逆业务类频率,计算各个所述正文词条在各个类别中的权重值;
将各个所述正文词条按照其在各个类别中的权重值从大到小的顺序进行排序,得到对应的网站正文关键词库。
结合第一方面的第二种可能的实施方式或第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,步骤2、对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,提取所述网站内容中的词条,包括:
通过分词程序对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,得到多个词条;其中,所述词条包括:网站标题词条和网站正文词条;
查找多个所述词条中对分类无贡献的无贡献词条;所述无贡献词条至少包括:停止词和单个的字;
将所述词条中的所述无贡献词条添加到对应类别的停止词词典中,得到优化词条。
结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,步骤5的实现方法,包括:
步骤A,获取各个所述样本集中的各个类别的父类互联网网站的网站内容,根据匹配的关键词库对所述父类互联网网站的网站内容进行分类;所述网站内容包括:网站标题和网站正文信息;所述样本集包括:训练样本集和测试样本集;
步骤B;在根据所述父类互联网网站的网站内容进行分类的结果与所述样本集的标准类别不匹配时,获取所述父类互联网网站的一级子类互联网网站及所述一级子类互联网网站的网站内容,采用匹配的关键词库对所述一级子类互联网网站的网站内容进行分类;
步骤C;若采用所述一级子类互联网网站进行分类的结果与所述样本集的标准类别不匹配时,重新选择所述一级子类互联网网站的下一级子类互联网网站作为父类互联网网站,并重新执行步骤A,直至根据所述下一级子类互联网网站进行分类的结果与所述样本集的标准类别匹配时,输出关键词训练误差和关键词测试误差;其中,所述关键词包括:网站标题关键词和网站正文关键词。
结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,步骤5的实现方法,还包括:
获取各个所述样本集中的各个类别的互联网网站的网站内容;
根据函数对各个类别的互联网网站的网站内容进行计算,确定所述样本集的类别,输出关键词训练误差和关键词测试误差;其中,所述关键词包括:网站标题关键词和网站正文关键词,k表示所述训练样本集或者所述测试样本集的所属类别;Ck为互联网网站所属的应用领域的所有类别中的任意一种;i表示所述关键词库中任意一个网站正文关键词;W(wi|Ck)表示网站正文关键词i在Ck类别中的权重值;K表示类别种类。
第二方面,本发明实施例还提供了一种互联网网站的分类装置,所述装置包括:
爬取模块,用于爬取待分类的互联网网站的网站内容;所述网站内容包括:网站标题和网站正文信息;
构建模块,用于根据所述互联网网站所属的应用领域,构建所述应用领域匹配的原始词典;所述原始词典包括:中文分词词典和停止词词典;
训练模块,用于根据综合词典,训练所述原始词典对应的关键词库,并根据所述关键词库优化所述原始词典,得到优化中文分词词典及其匹配的优化关键词库;其中,所述关键词库包括多个所述网站内容的类别关键词且多个所述类别关键词均按照其在各个类别中的权重值从大到小的顺序排列设置;所述关键词库包括:网站标题关键词库和网站正文关键词库;
计算模块,用于根据所述优化关键词库中的所述类别关键词对所述待分类的互联网网站的网站内容进行计算,得到所述互联网网站的类别。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述训练模块,包括:
样本集选取单元,用于选取多个不同类别网站的互联网网站内容作为样本集;所述样本集包括:训练样本集和测试样本集;
分词处理单元,用于对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,提取所述网站内容中的词条;以及,在得到所述优化中文分词词典时,对所述待分类互联网网站的网站内容进行分词处理,提取所述网站内容中的词条;
关键词库训练单元,用于利用关键词提取方法对提取的所述词条进行训练处理,得到所述训练样本集中的各个类别的互联网网站对应的关键词库;以及,在得到所述优化中文分词词典时,对提取的待优化的互联网网站的词条进行训练,得到待优化的互联网网站匹配的优化中文分词词典对应的优化关键词库;
原始词典优化单元,用于将所述关键词库中权重值大于设定阈值的关键词加入到所述原始词典的中文分词词典中,将所述关键词库中权重值小于设定阈值的关键词加入所述原始词典的停止词词典中;
样本集分类单元,用于根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述训练样本集进行分类,得到关键词训练误差;以及,根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述测试样本集进行分类,得到关键词测试误差;在所述关键词训练误差和所述关键词测试误差均小于评估阈值,得到对应的优化中文分词词典;在所述关键词训练误差和所述关键词测试误差中的任意一个误差大于所述评估阈值时,继续分词处理单元、关键词库训练单元、原始词典优化单元、以及继续进行样本集分类,直至所述关键词训练误差和所述关键词测试误差均小于所述评估阈值时,得到对应的优化中文分词词典。
结合第二方面的第一种可能的实施方式,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述关键词库训练单元,包括:
第一计算子单元,用于计算各个标题词条在各个类别中的出现频率,得到各个所述标题词条的词频;
第二计算子单元,用于计算各个所述标题词条在所述网站标题中的重要性度量,得到各个所述标题词条的逆向类别频率;
第三计算子单元,用于根据各个所述标题词条的词频和各个所述标题词条的逆向类别频率,计算各个所述标题词条在任意类别中的权重值;
第一排序子单元,用于将各个所述标题词条按照其在各个类别中的权重值从大到小的顺序进行排序,得到对应的网站标题关键词库。
结合第二方面的第一种可能的实施方式,本发明实施例提供了第二方面的第三种可能的实施方式,其中,所述关键词库训练单元,包括:
第四计算子单元,用于计算各个所述正文词条在对应的各个网站正文中的出现频率,得到各个所述网站正文中正文词条的第一词频;
第五计算子单元,用于计算各个所述正文词条在各个类别中的出现频率,得到各个所述正文词条的第二词频;
第六计算子单元,用于计算各个所述正文词条在所述网站正文信息中的重要性度量,得到各个所述正文词条的逆向类别频率;
第七计算子单元,用于计算各个所述正文词条在各个类别中的重要性度量,得到各个所述正文词条的逆业务类频率;
第八计算子单元,用于根据各个所述网站正文中正文词条的第一词频、各个所述正文词条的第二词频、各个所述正文词条的逆向类别频率和各个所述正文词条的逆业务类频率,计算各个所述正文词条在各个类别中的权重值;
第二排序子单元,用于将各个所述正文词条按照其在各个类别中的权重值从大到小的顺序进行排序,得到对应的网站正文关键词库。
结合第二方面的第二种可能的实施方式或者第三种可能的实施方式,本发明实施例提供了第二方面的第四种可能的实施方式,其中,所述分词处理单元,包括:
分词处理子单元,用于通过分词程序对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,得到多个词条;其中,所述词条包括:网站标题词条和网站正文词条;
查找子单元,用于查找多个所述词条中对分类无贡献的无贡献词条;所述无贡献词条至少包括:停止词和单个的字;
优化词条构建子单元,用于将所述词条中的所述无贡献词条添加到对应类别的停止词词典中,得到优化词条。
结合第二方面的第四种可能的实施方式,本发明实施例提供了第二方面的第五种可能的实施方式,其中,所述样本集分类单元具体用于执行如下步骤:
步骤A,获取各个所述样本集中的各个类别的父类互联网网站的网站内容,根据匹配的关键词库对所述父类互联网网站的网站内容进行分类;所述网站内容包括:网站标题和网站正文信息;所述样本集包括:训练样本集和测试样本集;
步骤B;在根据所述父类互联网网站的网站内容进行分类的结果与所述样本集的标准类别不匹配时,获取所述父类互联网网站的一级子类互联网网站及所述一级子类互联网网站的网站内容,采用匹配的关键词库对所述一级子类互联网网站的网站内容进行分类;
步骤C;若采用所述一级子类互联网网站进行分类的结果与所述样本集的标准类别不匹配时,重新选择所述一级子类互联网网站的下一级子类互联网网站作为父类互联网网站,并重新执行步骤A,直至根据所述下一级子类互联网网站进行分类的结果与所述样本集的标准类别匹配时,输出关键词训练误差和关键词测试误差;其中,所述关键词包括:网站标题关键词和网站正文关键词。
结合第二方面的第四种可能的实施方式,,本发明实施例提供了第二方面的第六种可能的实施方式,其中,所述样本集分类单元,包括:
获取子单元,用于获取各个所述样本集中的各个类别的互联网网站的网站内容;
第九计算子单元,用于根据函数对各个类别的互联网网站的网站内容进行计算,确定所述样本集的类别,输出关键词训练误差和关键词测试误差;其中,所述关键词包括:网站标题关键词和网站正文关键词;k表示所述训练样本集或者所述测试样本集的所属类别;Ck为互联网网站所属的应用领域的所有类别中的任意一种;i表示所述关键词库中任意一个网站正文关键词;W(wi|Ck)表示网站正文关键词i在Ck类别中的权重值;K表示类别种类。
本发明实施例提供的一种互联网网站的分类方法及装置,上述方法:爬取待分类的互联网网站的网站内容;根据互联网网站所属的应用领域,构建应用领域匹配的原始词典:中文分词词典和停止词词典;根据综合词典,训练原始词典对应的关键词库,并根据关键词库优化原始词典,得到优化中文分词词典及其匹配的优化关键词库;其中,关键词库包括多个网站内容的类别关键词且多个类别关键词均按照其在各个类别中的权重值从大到小的顺序排列设置;根据优化关键词库中的类别关键词对待分类的互联网网站的网站内容进行计算,得到互联网网站的类别;其降低业务分类之间的耦合性以及强化业务分类的独立性,有利于对专业性互联网网站进行分类,提高了分类精度。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的一种互联网网站的分类方法的流程图;
图2示出了对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,提取所述网站内容中的词条的流程图;
图3示出了根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述训练样本集进行分类,得到关键词训练误差;根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述测试样本集进行分类,得到关键词测试误差的示意图;
图4示出了本发明实施例所提供的一种互联网网站的分类装置结构示意图;
图5示出了本发明实施例所提供的一种互联网网站的分类装置中训练模块的结构示意图;
图6示出了本发明实施例所提供的一种互联网网站的分类装置中关键词库训练单元的结构示意图。
主要标号说明:100、爬取模块;200、构建模块;300、训练模块;400、计算模块;301、样本集选取单元;302、分词处理单元;303、关键词库训练单元;304、原始词典优化单元;305、样本集分类单元;3031、第一计算子单元;3032、第二计算子单元;3033、第三计算子单元;3034、第一排序子单元;3035、第四计算子单元;3036、第五计算子单元;3037、第六计算子单元;3038、第七计算子单元;3039、第八计算子单元;3040、第二排序子单元。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在解决文本分类问题的方法中,主要方向分为三种:词匹配法、知识工程法、统计学习方法。然而目前文本分类技术中有最常用的两类方法:一类是先将文本进行分词,去掉停止词,其次构建文档-词条矩阵并转换为数据框,最后对数据框建立统计、挖掘模型。另一类是信息检索技术,通过相应的技术从文本中提取到关键词(即那些对分类贡献很大的词),对于每种类别,都会有一个关键词串,分类的时候根据关键词串找到匹配最高的那个类就是待分文本的类别。第一类方法是文档-词条矩阵太大,包含了很多对分类贡献小的词,复杂度高;第二类方法在专业WEB网站分类中没有考虑业务分类之间的耦合性,从而影响分类效果。
基于此,本发明实施例提供了一种互联网网站的分类方法和装置,下面通过实施例进行描述。
参考图1,本发明实施例提供了一种互联网网站的分类方法,所述方法包括:
S101、爬取待分类的互联网网站的网站内容;所述网站内容包括:网站标题和网站正文信息。
本发明实施例中,互联网网站即web网站,其包括多个互联网网站,如:http://www.vrv.com.cn/,其为父类互联网网站的网站标题(其中,网站标题为URL(UniformResource Locator,统一资源定位符)标题信息),其对应的网站正文为父类互联网网站的网站正文信息;如http://www.vrv.com.cn/index.php?m=content&c=index&a=lists&catid=134,其为父类互联网网站的一级子类互联网网站的网站标题;其对应的网站正文为父类互联网网站的一级子类互联网网站的网站正文信息;另外,一级子类互联网网站也有下一级子类互联网网站,以此类推;因此,上述网站内容可以是父类互联网网站的网站内容,也可以是父类互联网网站的一级子类互联网网站的网站内容,或者,是一级子类互联网网站的下一级子类互联网网站的网站内容,后续步骤104中,可利用匹配的关键词库对上述各种网站内容进行计算,以确定互联网网站的类别。
S102、根据所述互联网网站所属的应用领域,构建所述应用领域匹配的原始词典;所述原始词典包括:中文分词词典和停止词词典。
具体的,原始词典就是某个领域的互联网网站上常用的词,比如公安部的网站,常用的词包括:消防、侦查等。
S103、根据综合词典,训练所述原始词典对应的关键词库,并根据所述关键词库优化所述原始词典,得到优化中文分词词典及其匹配的优化关键词库;其中,所述关键词库包括多个所述网站内容的类别关键词且多个所述类别关键词均按照其在各个类别中的权重值从大到小的顺序排列设置;所述关键词库包括:网站标题关键词库和网站正文关键词库;所述类别关键词包括网站标题关键词和网站正文关键词。
本发明实施例中,综合词典是包括比原始词典更多的词,如原始词典中有单独的“消”字、“防”字,而没有“消防”词条,而综合词典包括“消防”词条;利用该综合词典不断训练上述原始词典对应的关键词库的过程,然后根据该关键词库优化上述原始词典(即向原始词典的中文分词词典中加入对该原始词典的类别的划分有贡献的词条,以及向原始词典的停止词词典中加入对应的停止词),得到优化中文分词词典及其匹配的优化关键词库。
其中,各个类别的互联网网站均对应有一个上述优化中文分词词典,然后根据该优化中文分词词典及其匹配的优化关键词库,即可对待分类的互联网网站的网站内容进行计算,得到所述互联网网站的类别。
S104、根据所述优化关键词库中的所述类别关键词对所述待分类的互联网网站的网站内容进行计算,得到所述互联网网站的类别。
具体的,上述关键词库中包括:网站标题关键词库和网站正文关键词库;对应的,网站标题关键词库中包括网站标题关键词以及该网站标题关键词在各个类别中的权重值且该权重值由大到小进行排列;网站正文关键词库包括:网站正文关键词以及该网站正文关键词在各个类别中的权重值且该权重值由大到小进行排列。
具体的,本发明实施例中可以根据匹配的优化关键词库中的类别关键词对待分类的父类互联网网站的网站内容进行计算,得到所述互联网网站的类别。或者,提取待分类互联网网站的父类互联网网站的一级子类互联网网站及其网站内容,同样根据匹配的优化关键词库中的类别关键词对一级子类互联网网站的网站内容进行计算,得到父类互联网网站的类别,即确定为所述互联网网站的类别;或者,重新选择待分类网站的一级子类互联网网站的下一级子类互联网网站及该下一级子类互联网网站的网站内容,同样根据匹配的优化关键词库中的类别关键词对下一级子类互联网网站的网站内容进行计算,得到一级子类互联网网站的类别,以确定所述互联网网站的类别,以此类推,可按照待分类互联网网站的所有的下一级子类互联网网站,确定所述互联网网站的类别。
其中,待分类网站的一级子类互联网网站可以有多个;对于一级子类互联网网站,在其父类互联网网站有多个一级子类互联网网站时,我们先对每个一级子类互联网网站进行分类,然后根据投票结果,将包含最多一级子类互联网网站的类别确定为其父类互联网网站的类别,该类别即互联网网站的类别;对应的,一级子类互联网网站的下一级子类互联网网站也可以为多个;对于下一级子类互联网网站,在其上一级有多个子类互联网网站时,我们先对每个下一级子类互联网网站进行分类,然后根据投票结果,将包含最多下一级子类互联网网站的类别确定为其上一级互联网网站的类别,该类别即互联网网站的类别。
或者,直接根据函数待分类互联网网站匹配的优化关键词库中的类别关键词对获取的网站内容进行计算,得到所述互联网网站的类别。
本发明实施例提供的一种互联网网站的分类方法,与现有技术中的的文本分类方法,使得最终计算文本类别的计算复杂度高相比,其通过TF-IDF-ICF通过对业务分类属性进一步细化,降低业务分类之间的耦合性以及强化业务分类的独立性,有利于对专业性互联网网站进行分类,提高了分类精度;并且,对于不可避免高耦合性的分类,进一步确定优先级。对无标题web、综合性web、难分类web进一步二级细分,更有利于对专业性web的分类,提高了分类精度。
进一步的,参考图2,本发明实施例提供的互联网网站的分类方法中,上述步骤103,根据综合词典,训练所述原始词典对应的关键词库,并根据所述关键词库优化所述原始词典,得到优化中文分词词典及其匹配的优化关键词库;其中,所述关键词库包括多个所述网站内容的类别关键词且多个所述类别关键词均按照其在各个类别中的权重值从大到小的顺序排列设置;所述关键词库包括:网站标题关键词库和网站正文关键词库,具体包括如下步骤:
步骤1、选取多个不同类别网站的互联网网站内容作为样本集;所述样本集包括:训练样本集和测试样本集;
步骤2、对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,提取所述网站内容中的词条;
具体的,参考图2,步骤2中分词处理的方法包括以下步骤:
S201、通过分词程序对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,得到多个词条;其中,所述词条包括:网站标题词条和网站正文词条。
S202、查找多个所述词条中对分类无贡献的无贡献词条;所述无贡献词条至少包括:停止词和单个的字。
S203、将所述词条中的所述无贡献词条添加到对应类别的停止词词典中,得到优化词条。
具体的,步骤203中,滤掉上述无贡献词条,即标题词条中的停止词和单个的字,以及,滤掉上述正文词条中的停止词和单个的字,即可得到优化词条。
步骤3、利用关键词提取方法对提取的所述词条进行训练处理,得到所述训练样本集中的各个类别的互联网网站对应的关键词库;
步骤4、将所述关键词库中权重值大于设定阈值的关键词加入到所述原始词典的中文分词词典中,将所述关键词库中权重值小于设定阈值的关键词加入所述原始词典的停止词词典中;具体的,本步骤中的设定阈值是工作人员预先设置的。
步骤5、根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述训练样本集进行分类,得到关键词训练误差;根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述测试样本集进行分类,得到关键词测试误差;
步骤6、在所述关键词训练误差和所述关键词测试误差均小于评估阈值,得到对应的优化中文分词词典;在所述关键词训练误差和所述关键词测试误差中的任意一个误差大于所述评估阈值时,继续执行步骤2、步骤3、步骤4、步骤5,直至所述关键词训练误差和所述关键词测试误差均小于所述评估阈值时,得到对应的优化中文分词词典;
步骤7、按照步骤2和步骤3的方法,对所述优化中文分词词典进行训练,得到所述优化中文分词词典对应的优化关键词库。
具体的,上述关键词库的训练过程及对原始词典进行优化,得到优化中文分词词典及其匹配的优化关键词库的过程包括:
1、爬取m个网站的标题和正文信息,并且由人对m个网站进行分类,作为样本集。
2、将m个样本集以特定比例分成两部分,例如0.7m个网站作为训练集,剩余的网站作为测试集。
3、根据特定领域使用的专业词汇,构建初始该特定领域的中文分词词典words_specialty_v0.0.dic,并且选择选择一份通用的中文分词词典(例如分词程序自带的词典或者从互联网上下载)words_common.dic,将某些我们已知的对分类不太重要的词添加到停止词词典stop_v0.0.dic中。
4、将3中得到的词典words_specialty_v0.0.dic和words_common.dic加入到分词程序中对训练集中的每个网站的标题和正文分别分词。
5、过滤掉单个的字和停止词后,通过关键词提取技术,得到每个类别的标题关键词库webtitle.keywords和正文关键词库webcontext.keywords,该关键词库包括每个类别及该类别下每个关键词和关键词的权重,并且是按权重从大到小排好序的。
6、将webtitle.keywords和webcontext.keywords中权重大于某个阈值的关键词加入到特定领域的中文分词词典words_specialty_v0.0.dic中,生成词典words_specialty_v0.1.dic.将小于阈值的词添加到停止词词典stop_v0.0.dic中生成stop_v0.1.dic。
7、利用5中的webtitle.keywords来对训练集进行分类,得到一个标题分类错误率即标题训练误差;利用5中的webtitle.keywords来对测试集进行分类,得到一个标题分类的错误率即标题测试误差。利用5中的webcontext.keywords来对训练集进行分类,得到一个正文分类错误率即正文训练误差;利用5中的webcontext.keywords来对测试集进行分类,得到一个正文分类的错误率即正文测试误差,如果训练误差和测试误差均小于评估阈值,则用中文分词词典words_specialty_v0.1.dic代替3中words_specialty_v0.0.dic和words_common.dic,停止词词典stop_v0.1代替3中stop_v0.0.dic。否则,继续寻找新词添加到words_specialty_v0.1.dic中生成words_specialty_v0.2.dic,或者将某些词添加到停止词词典stop_v0.1.dic中生成stop_v0.2.dic,然后继续4,5,6,7步,直到n次迭代后,生成稳定的中文分词词典words_specialty_v0.n.dic记为words_specialty_v1.0.dic和稳定的停止词词典stop_v0.n.dic记为stop_v1.0.dic。
8、将7中得到的词典words_specialty_v1.0.dic加入到分词程序中对训练集中的每个网站的标题和正文分别分词。
9、过滤掉单个的字和stop_v1.0.dic中的停止词后,通过关键词提取技术,得到每个类别的标题关键词库webtitle.keywords和正文关键词库webcontext.keywords,该关键词库包括每个类别及该类别下每个关键词和关键词的权重,并且是按权重从大到小排好序的。至此,训练步骤完成,得到优化中文分词词典及其匹配的优化关键词库。
上述步骤3、利用关键词提取方法对提取的所述词条进行训练处理,得到所述训练样本集中的各个类别的互联网网站对应的关键词库,由于关键词库包括:网站标题关键词库和网站正文关键词库;且网站标题关键词库中包括:网站标题关键词;网站正文关键词库中包括:网站正文关键词库;本发明实施例中,分别对训练网站标题关键词库和训练网站正文关键词库进行说明:
本发明实施例中,构建关键词库的方式需要提炼类别关键词(包括:网站标题关键词和网站正文关键词),然后计算每个类别关键词对应的权重值;
其中,本发明实施例基于TF-IDF(Term Frequenct-Inverse DocumentFrequency,词频-逆文档频率)提炼web标题的类别关键词(即),即网站标题关键词。
基于TF-IDF-ICF(Term Frequenct-Inverse Document Frequency-Inversecluster Frequency,词频-逆文档频率-逆业务类频率)提炼web内容信息的类别关键词,即网站正文关键词。
TF-IDF(Term Frequency–Inverse Document Frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一词条对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,互联网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。
TFIDF的主要思想是:如果某个词条在一个类别中出现的频率TF高,并且在其他类别中很少出现,则认为此词条具有很好的类别区分能力,适合用来分类。TF-IDF实际上是:TF*IDF。
然后将提取的网站标题关键词与网站正文关键词按照各自在各个类别中按照权重值由大到小的顺序进行排序,并存储在数据库中,得到网站标题关键词库和网站正文关键词库。
1、训练网站标题关键词库的方法,包括:
(1)计算各个标题词条在各个类别中的出现频率,得到各个所述标题词条的词频;
具体的,词频(Term Frequency,TF)指的是某一个给定的词条在该类别中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向词条多的类别,即防止同一个词条在包含长文件多的类别里可能会比包含短文件多的类别里有更高的词数,而不管该词条重要与否;如词条“大数据”在1000字的文件里出现10次,而词条“大数据”在100字的文件里出现3次,实际中,词条“大数据”在100字文件里的词频要高于其在1000字文件里的词频。
以上式子中nd(wi)(Ck)是词条wi在类别Ck的所有网站dj的标题中出现的总次数,而分母nd(Ck)则是在类别Ck的所有网站dj的标题中所有词条的出现的次数之和。
(2)计算各个所述标题词条在所述网站地址标题中的重要性度量,得到各个所述标题词条的逆向类别频率;
逆向类别频率(Inverse Document Frequency,IDF)是一个词条普遍重要性的度量。某一特定词条的IDF,可以由总类别数目除以包含该词条之类别的数目,再将得到的商取对数得到。
其中,Nd(train):训练集中的类别总数;nd(wi)(train):训练集中包含词条wi的类别数目。
(3)根据各个所述标题词条的词频和各个所述标题词条的逆向类别频率,计算各个所述标题词条在任意类别中的权重值。
具体的,词条wi在类别Ck中的TF-IDF值如下:
TFIDF=TF×IDF;
某一特定类别内的高词条频率,以及该词条在整个类别集合中的低逆向类别频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
(4)将各个所述标题词条按照其在各个类别中的权重值从大到小的顺序进行排序,得到对应的网站标题关键词库。
2、训练网站正文关键词库,包括:
(1)计算各个所述正文词条在对应的各个网站正文中的出现频率,得到各个所述网站正文中正文词条的第一词频;
具体的,本发明实施例中以词条wi与该词条wi可以从属的Ck类别进行说明:
针对词条wi在一篇web正文dj中重要程度,可用公式表示:
以上式子中nwi(dj)表示词条wi在正文dj中出现的次数,而分母则是dj中所有词的出现的次数之和。
(2)计算各个所述正文词条在各个类别中的出现频率,得到各个所述正文词条的第二词频;
针对词wi在Ck类中的web正文中的重要程度可用公式表示:
(3)计算各个所述正文词条在所述网站正文信息中的重要性度量,得到各个所述正文词条的逆向类别频率;
针对热门词wi(大部分Web正文都包含的词汇)在整个训练集Train中的惩罚,可表示:
(4)计算各个所述正文词条在各个类别中的重要性度量,得到各个所述正文词条的逆业务类频率;
针对专业性区分能力弱的词(对大部分类别而言都包含的关键词)在每个类别中的惩罚可表示为每个类别中文档倒排频对数的和函数:
(5)根据各个所述网站正文中正文词条的第一词频、各个所述正文词条的第二词频、各个所述正文词条的逆向类别频率和各个所述正文词条的逆业务类频率,计算各个所述正文词条在各个类别中的权重值。
因此,提升后的Web正文关键词提取的算法表达了词i在类别Ck中的权重,公式表述为:
W(wi|Ck)=TFα·DFβ·IDFγ·(∑ICF)δ;式中α,β,γ,δ为权重参数。
(6)将各个所述正文词条按照其在各个类别中的权重值从大到小的顺序进行排序,得到对应的网站正文关键词库。
最终,可根据以下公式对网站正文关键词库进行计算,确定Web所属的类别k;公式表示为:
进一步的,参考图3,本发明实施例中,上述步骤5、根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述训练样本集进行分类,得到关键词训练误差;根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述测试样本集进行分类,得到关键词测试误差的实现方法,包括:
步骤A,获取各个所述样本集中的各个类别的父类互联网网站的网站内容,根据匹配的关键词库对所述父类互联网网站的网站内容进行分类;所述网站内容包括:网站标题和网站正文信息;所述样本集包括:训练样本集和测试样本集;
步骤B;在根据所述父类互联网网站的网站内容进行分类的结果与所述样本集的标准类别不匹配时,获取所述父类互联网网站的一级子类互联网网站及所述一级子类互联网网站的网站内容,采用匹配的关键词库对所述一级子类互联网网站的网站内容进行分类;其中,待分类网站的一级子类互联网网站可以有多个;对于一级子类互联网网站,在其父类互联网网站有多个一级子类互联网网站时,我们先对每个一级子类互联网网站进行分类,然后根据投票结果,将包含最多一级子类互联网网站的类别确定为其父类互联网网站的类别,该类别即互联网网站的类别;对应的,一级子类互联网网站的下一级子类互联网网站也可以为多个;对于下一级子类互联网网站,在其上一级有多个子类互联网网站时,我们先对每个下一级子类互联网网站进行分类,然后根据投票结果,将包含最多下一级子类互联网网站的类别确定为其上一级互联网网站的类别,该类别即互联网网站的类别。
步骤C;若采用所述一级子类互联网网站进行分类的结果与所述样本集的标准类别不匹配时,重新选择所述一级子类互联网网站的下一级子类互联网网站作为父类互联网网站,并重新执行步骤A,直至根据所述下一级子类互联网网站进行分类的结果与所述样本集的标准类别匹配时,输出关键词训练误差和关键词测试误差;其中,所述关键词包括:网站标题关键词和网站正文关键词。
另外,也可以采用上述分类方法,对步骤104中,根据所述优化关键词库中的所述类别关键词对所述待分类的互联网网站的网站内容进行计算,得到所述互联网网站的类别,进行计算;
获取待分类互联网网站的父类互联网网站并获取其网站内容(包括网站标题和网站正文信息),然后根据匹配的优化关键词库中的类别关键词对获取的网站内容进行计算,得到所述互联网网站的类别。或者,提取待分类互联网网站的父类互联网网站的一级子类互联网网站及其网站内容,同样根据匹配的优化关键词库中的类别关键词对一级子类互联网网站的网站内容进行计算,得到其父类互联网网站的类别,并确定为所述互联网网站的类别;或者,重新选择待分类网站的一级子类互联网网站的下一级子类互联网网站及该下一级子类互联网网站的网站内容,同样根据匹配的优化关键词库中的类别关键词对下一级子类互联网网站的网站内容进行计算,得到一级子类互联网网站的类别,并确定为所述互联网网站的类别,以此类推,可按照待分类互联网网站的所有的下一级子类互联网网站,确定所述互联网网站的类别。
其中,待分类网站的一级子类互联网网站可以有多个;对于一级子类互联网网站,在其父类互联网网站有多个一级子类互联网网站时,我们先对每个一级子类互联网网站进行分类,然后根据投票结果,将包含最多一级子类互联网网站的类别确定为其父类互联网网站的类别,该类别即互联网网站的类别;对应的,一级子类互联网网站的下一级子类互联网网站也可以为多个;对于下一级子类互联网网站,在其上一级有多个子类互联网网站时,我们先对每个下一级子类互联网网站进行分类,然后根据投票结果,将包含最多下一级子类互联网网站的类别确定为其上一级互联网网站的类别,该类别即互联网网站的类别。
具体的,建立基于URL标题关键词为特征的分类决策树,当前的标题无法决策其分类时,采用其子级,以及子级的子级递归的向下对每一个URL分类,最后在从最下级的URL表决回溯到父级URL,最终确定host的分类。
另外,上述步骤5、根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述训练样本集进行分类,得到关键词训练误差;根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述测试样本集进行分类,得到关键词测试误差,还有另一种实现方法,包括:
获取各个所述样本集中的各个类别的互联网网站的网站内容;
根据函数对各个类别的互联网网站的网站内容进行计算,确定所述样本集的类别,输出关键词训练误差和关键词测试误差;其中,所述关键词包括:网站标题关键词和网站正文关键词,k表示所述训练样本集或者所述测试样本集的所属类别;Ck为互联网网站所属的应用领域的所有类别中的任意一种;i表示所述关键词库中任意一个网站正文关键词;W(wi|Ck)表示网站正文关键词i在Ck类别中的权重值;K表示类别种类。
另外,也可以采用上述分类方法,对步骤104中,根据所述优化关键词库中的所述类别关键词对所述待分类的互联网网站的网站内容进行计算,得到所述互联网网站的类别,进行计算;
即获取待分类互联网网站的网站内容(包括网站标题和网站正文信息),然后根据函数待分类互联网网站匹配的优化关键词库中的类别关键词对获取的网站内容进行计算,得到所述互联网网站的类别。
本发明实施例提供的一种互联网网站的分类方法,与现有技术中的的文本分类方法,使得最终计算文本类别的计算复杂度高相比,其通过TF-IDF-ICF通过对业务分类属性进一步细化,降低业务分类之间的耦合性以及强化业务分类的独立性,有利于对专业性互联网网站进行分类,提高了分类精度;并且,对于不可避免高耦合性的分类,进一步确定优先级。对无标题web、综合性web、难分类web进一步二级细分,更有利于对专业性web的分类,提高了分类精度。
本发明实施例还提供了一种互联网网站的分类装置,参考图4,所述装置用于执行上述互联网网站的分类方法,所述装置包括:
爬取模块100,用于爬取待分类的互联网网站的网站内容;网站内容包括:网站标题和网站正文信息;
构建模块200,用于根据互联网网站所属的应用领域,构建应用领域匹配的原始词典;原始词典包括:中文分词词典和停止词词典;
训练模块300,用于根据综合词典,训练原始词典对应的关键词库,并根据关键词库优化原始词典,得到优化中文分词词典及其匹配的优化关键词库;其中,关键词库包括多个网站内容的类别关键词且多个类别关键词均按照其在各个类别中的权重值从大到小的顺序排列设置;关键词库包括:网站标题关键词库和网站正文关键词库;
计算模块400,用于根据关键词库中的类别关键词对待分类的互联网网站的网站内容进行计算,得到互联网网站的类别。
进一步的,参考图5,上述互联网网站的分类装置中,训练模块300,包括:
样本集选取单元301,用于选取多个不同类别网站的互联网网站内容作为样本集;样本集包括:训练样本集和测试样本集;
分词处理单元302,用于对训练样本集中的各个类别的互联网网站的网站内容进行分词处理,提取网站内容中的词条;以及,在得到优化中文分词词典时,对待分类互联网网站的网站内容进行分词处理,提取网站内容中的词条;
关键词库训练单元303,用于利用关键词提取方法对提取的词条进行训练处理,得到训练样本集中的各个类别的互联网网站对应的关键词库;以及,在得到优化中文分词词典时,对提取的待优化的互联网网站的词条进行训练,得到待优化的互联网网站匹配的优化中文分词词典对应的优化关键词库;
原始词典优化单元304,用于将关键词库中权重值大于设定阈值的关键词加入到原始词典的中文分词词典中,将关键词库中权重值小于设定阈值的关键词加入原始词典的停止词词典中;
样本集分类单元305,用于根据各个训练样本集中的各个类别的互联网网站对应的关键词库对训练样本集进行分类,得到关键词训练误差;以及,根据各个训练样本集中的各个类别的互联网网站对应的关键词库对测试样本集进行分类,得到关键词测试误差;在关键词训练误差和关键词测试误差均小于评估阈值,得到对应的优化中文分词词典;在关键词训练误差和关键词测试误差中的任意一个误差大于评估阈值时,继续分词处理单元、关键词库训练单元、原始词典优化单元、以及继续进行样本集分类,直至关键词训练误差和关键词测试误差均小于评估阈值时,得到对应的优化中文分词词典。
进一步的,参考图6,上述互联网网站的分类装置中,关键词库训练单元303,包括:
第一计算子单元3031,用于计算各个标题词条在各个类别中的出现频率,得到各个标题词条的词频;
第二计算子单元3032,用于计算各个标题词条在网站标题中的重要性度量,得到各个标题词条的逆向类别频率;
第三计算子单元3033,用于根据各个标题词条的词频和各个标题词条的逆向类别频率,计算各个标题词条在任意类别中的权重值;
第一排序子单元3034,用于将各个标题词条按照其在各个类别中的权重值从大到小的顺序进行排序,得到对应的网站标题关键词库。
进一步的,参考图6,上述互联网网站的分类装置中,关键词库训练单元303,包括:
第四计算子单元3035,计算各个所述正文词条在对应的各个网站正文中的出现频率,得到各个所述网站正文中正文词条的第一词频;
第五计算子单元3036,计算各个所述正文词条在各个类别中的出现频率,得到各个所述正文词条的第二词频;
第六计算子单元3037,用于计算各个正文词条在网站正文信息中的重要性度量,得到各个正文词条的逆向类别频率;
第七计算子单元3038,用于计算各个正文词条在各个类别中的重要性度量,得到各个正文词条的逆业务类频率;
第八计算子单元3039,用于根据各个所述网站正文中正文词条的第一词频、各个所述正文词条的第二词频、各个所述正文词条的逆向类别频率和各个所述正文词条的逆业务类频率,计算各个所述正文词条在各个类别中的权重值;
第二排序子单元3040,用于将各个正文词条按照其在各个类别中的权重值从大到小的顺序进行排序,得到对应的网站正文关键词库。
进一步的,上述互联网网站的分类装置中,分词处理单元,包括:
分词处理子单元,用于通过分词程序对训练样本集中的各个类别的互联网网站的网站内容进行分词处理,得到多个词条;其中,词条包括:网站标题词条和网站正文词条;
查找子单元,用于查找多个词条中对分类无贡献的无贡献词条;无贡献词条至少包括:停止词和单个的字;
优化词条构建子单元,用于将词条中的无贡献词条添加到对应类别的停止词词典中,得到优化词条。
进一步的,上述互联网网站的分类装置中,样本集分类单元具体用于执行如下步骤:
步骤A,获取各个所述样本集中的各个类别的父类互联网网站的网站内容,根据匹配的关键词库对所述父类互联网网站的网站内容进行分类;所述网站内容包括:网站标题和网站正文信息;所述样本集包括:训练样本集和测试样本集;
步骤B;在根据所述父类互联网网站的网站内容进行分类的结果与所述样本集的标准类别不匹配时,获取所述父类互联网网站的一级子类互联网网站及所述一级子类互联网网站的网站内容,采用匹配的关键词库对所述一级子类互联网网站的网站内容进行分类;
步骤C;若采用所述一级子类互联网网站进行分类的结果与所述样本集的标准类别不匹配时,重新选择所述一级子类互联网网站的下一级子类互联网网站作为父类互联网网站,并重新执行步骤A,直至根据所述下一级子类互联网网站进行分类的结果与所述样本集的标准类别匹配时,输出关键词训练误差和关键词测试误差;其中,所述关键词包括:网站标题关键词和网站正文关键词。
进一步的,上述互联网网站的分类装置中,样本集分类单元,包括:
第九计算子单元获取子单元,用于获取各个所述样本集中的各个类别的互联网网站的网站内容;
第九计算子单元,用于根据函数对各个类别的互联网网站的网站内容进行计算,确定所述样本集的类别,输出关键词训练误差和关键词测试误差;其中,所述关键词包括:网站标题关键词和网站正文关键词,k表示所述训练样本集或者所述测试样本集的所属类别;Ck为互联网网站所属的应用领域的所有类别中的任意一种;i表示所述关键词库中任意一个网站正文关键词;W(wi|Ck)表示网站正文关键词i在Ck类别中的权重值;K表示类别种类。
本发明实施例提供的一种互联网网站的分类装置,与现有技术中的的文本分类方法,使得最终计算文本类别的计算复杂度高相比,其通过TF-IDF-ICF通过对业务分类属性进一步细化,降低业务分类之间的耦合性以及强化业务分类的独立性,有利于对专业性互联网网站进行分类,提高了分类精度;并且,对于不可避免高耦合性的分类,进一步确定优先级。对无标题web、综合性web、难分类web进一步二级细分,更有利于对专业性web的分类,提高了分类精度。
本发明实施例所提供的互联网网站的分类的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

Claims (10)

1.一种互联网网站的分类方法,其特征在于,所述方法包括:
爬取待分类的互联网网站的网站内容;所述网站内容包括:网站标题和网站正文信息;
根据所述互联网网站所属的应用领域,构建所述应用领域匹配的原始词典;所述原始词典包括:中文分词词典和停止词词典;
根据综合词典,训练所述原始词典对应的关键词库,并根据所述关键词库优化所述原始词典,得到优化中文分词词典及其匹配的优化关键词库;其中,所述关键词库包括多个所述网站内容的类别关键词且多个所述类别关键词均按照其在各个类别中的权重值从大到小的顺序排列设置;所述关键词库包括:网站标题关键词库和网站正文关键词库;
根据所述优化关键词库中的所述类别关键词对所述待分类的互联网网站的网站内容进行计算,得到所述互联网网站的类别;
所述根据综合词典,训练所述原始词典对应的关键词库,并根据所述关键词库优化所述原始词典,得到优化中文分词词典及其匹配的优化关键词库,包括:
步骤1、选取多个不同类别网站的互联网网站内容作为样本集;所述样本集包括:训练样本集和测试样本集;
步骤2、对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,提取所述网站内容中的词条;
步骤3、利用关键词提取方法对提取的所述词条进行训练处理,得到所述训练样本集中的各个类别的互联网网站对应的关键词库;
步骤4、将所述关键词库中权重值大于设定阈值的关键词加入到所述原始词典的中文分词词典中,将所述关键词库中权重值小于设定阈值的关键词加入所述原始词典的停止词词典中;
步骤5、根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述训练样本集进行分类,得到关键词训练误差;根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述测试样本集进行分类,得到关键词测试误差;
步骤6、在所述关键词训练误差和所述关键词测试误差均小于评估阈值,得到对应的优化中文分词词典;在所述关键词训练误差和所述关键词测试误差中的任意一个误差大于所述评估阈值时,继续执行步骤2、步骤3、步骤4、步骤5,直至所述关键词训练误差和所述关键词测试误差均小于所述评估阈值时,得到对应的优化中文分词词典;
步骤7、按照步骤2和步骤3的方法,对所述优化中文分词词典进行训练,得到所述优化中文分词词典对应的优化关键词库;
其中,步骤3、利用关键词提取方法对提取的所述词条进行训练处理,得到所述训练样本集中的各个类别的互联网网站对应的关键词库,包括:
计算各个所述正文词条在对应的各个网站正文中的出现频率,得到各个所述网站正文中正文词条的第一词频;
计算各个所述正文词条在各个类别中的出现频率,得到各个所述正文词条的第二词频;
计算各个所述正文词条在所述网站正文信息中的重要性度量,得到各个所述正文词条的逆向类别频率;
计算各个所述正文词条在各个类别中的重要性度量,得到各个所述正文词条的逆业务类频率;
根据各个所述网站正文中正文词条的第一词频、各个所述正文词条的第二词频、各个所述正文词条的逆向类别频率和各个所述正文词条的逆业务类频率,计算各个所述正文词条在各个类别中的权重值;
将各个所述正文词条按照其在各个类别中的权重值从大到小的顺序进行排序,得到对应的网站正文关键词库。
2.根据权利要求1所述的互联网网站的分类方法,其特征在于,步骤3、利用关键词提取方法对提取的所述词条进行训练处理,得到所述训练样本集中的各个类别的互联网网站对应的关键词库,包括:
计算各个标题词条在各个类别中的出现频率,得到各个所述标题词条的词频;
计算各个所述标题词条在所述网站标题中的重要性度量,得到各个所述标题词条的逆向类别频率;
根据各个所述标题词条的词频和各个所述标题词条的逆向类别频率,计算各个所述标题词条在任意类别中的权重值;
将各个所述标题词条按照其在各个类别中的权重值从大到小的顺序进行排序,得到对应的网站标题关键词库。
3.根据权利要求1或2所述的互联网网站的分类方法,其特征在于,步骤2、对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,提取所述网站内容中的词条,包括:
通过分词程序对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,得到多个词条;其中,所述词条包括:网站标题词条和网站正文词条;
查找多个所述词条中对分类无贡献的无贡献词条;所述无贡献词条至少包括:停止词和单个的字;
将所述词条中的所述无贡献词条添加到对应类别的停止词词典中,得到优化词条。
4.根据权利要求3所述的互联网网站的分类方法,其特征在于,步骤5的实现方法,包括:
步骤A,获取各个所述样本集中的各个类别的父类互联网网站的网站内容,根据匹配的关键词库对所述父类互联网网站的网站内容进行分类;所述网站内容包括:网站标题和网站正文信息;所述样本集包括:训练样本集和测试样本集;
步骤B;在根据所述父类互联网网站的网站内容进行分类的结果与所述样本集的标准类别不匹配时,获取所述父类互联网网站的一级子类互联网网站及所述一级子类互联网网站的网站内容,采用匹配的关键词库对所述一级子类互联网网站的网站内容进行分类;
步骤C;若采用所述一级子类互联网网站进行分类的结果与所述样本集的标准类别不匹配时,重新选择所述一级子类互联网网站的下一级子类互联网网站作为父类互联网网站,并重新执行步骤A,直至根据所述下一级子类互联网网站进行分类的结果与所述样本集的标准类别匹配时,输出关键词训练误差和关键词测试误差;其中,所述关键词包括:网站标题关键词和网站正文关键词。
5.根据权利要求3所述的互联网网站的分类方法,其特征在于,步骤5的实现方法,还包括:
获取各个所述样本集中的各个类别的互联网网站的网站内容;
根据函数对各个类别的互联网网站的网站内容进行计算,确定所述样本集的类别,输出关键词训练误差和关键词测试误差;其中,所述关键词包括:网站标题关键词和网站正文关键词,k表示所述训练样本集或者所述测试样本集的所属类别;Ck为互联网网站所属的应用领域的所有类别中的任意一种;i表示所述关键词库中任意一个网站正文关键词;W(wi|Ck)表示网站正文关键词i在Ck类别中的权重值;K表示类别种类。
6.一种互联网网站的分类装置,其特征在于,所述装置包括:
爬取模块,用于爬取待分类的互联网网站的网站内容;所述网站内容包括:网站标题和网站正文信息;
构建模块,用于根据所述互联网网站所属的应用领域,构建所述应用领域匹配的原始词典;所述原始词典包括:中文分词词典和停止词词典;
训练模块,用于根据综合词典,训练所述原始词典对应的关键词库,并根据所述关键词库优化所述原始词典,得到优化中文分词词典及其匹配的优化关键词库;其中,所述关键词库包括多个所述网站内容的类别关键词且多个所述类别关键词均按照其在各个类别中的权重值从大到小的顺序排列设置;所述关键词库包括:网站标题关键词库和网站正文关键词库;
计算模块,用于根据所述优化关键词库中的所述类别关键词对所述待分类的互联网网站的网站内容进行计算,得到所述互联网网站的类别;
所述训练模块,包括:
样本集选取单元,用于选取多个不同类别网站的互联网网站内容作为样本集;所述样本集包括:训练样本集和测试样本集;
分词处理单元,用于对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,提取所述网站内容中的词条;以及,在得到所述优化中文分词词典时,对所述待分类互联网网站的网站内容进行分词处理,提取所述网站内容中的词条;
关键词库训练单元,用于利用关键词提取方法对提取的所述词条进行训练处理,得到所述训练样本集中的各个类别的互联网网站对应的关键词库;以及,在得到所述优化中文分词词典时,对提取的待分类的互联网网站的词条进行训练,得到待分类的互联网网站匹配的优化中文分词词典对应的优化关键词库;
原始词典优化单元,用于将所述关键词库中权重值大于设定阈值的关键词加入到所述原始词典的中文分词词典中,将所述关键词库中权重值小于设定阈值的关键词加入所述原始词典的停止词词典中;
样本集分类单元,用于根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述训练样本集进行分类,得到关键词训练误差;以及,根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述测试样本集进行分类,得到关键词测试误差;在所述关键词训练误差和所述关键词测试误差均小于评估阈值,得到对应的优化中文分词词典;在所述关键词训练误差和所述关键词测试误差中的任意一个误差大于所述评估阈值时,继续分词处理单元、关键词库训练单元、原始词典优化单元、以及继续进行样本集分类,直至所述关键词训练误差和所述关键词测试误差均小于所述评估阈值时,得到对应的优化中文分词词典;
所述关键词库训练单元,包括:
第四计算子单元,计算各个所述正文词条在对应的各个网站正文中的出现频率,得到各个所述网站正文中正文词条的第一词频;
第五计算子单元,计算各个所述正文词条在各个类别中的出现频率,得到各个所述正文词条的第二词频;
第六计算子单元,用于计算各个正文词条在网站正文信息中的重要性度量,得到各个正文词条的逆向类别频率;
第七计算子单元,用于计算各个正文词条在各个类别中的重要性度量,得到各个正文词条的逆业务类频率;
第八计算子单元,用于根据各个所述网站正文中正文词条的第一词频、各个所述正文词条的第二词频、各个所述正文词条的逆向类别频率和各个所述正文词条的逆业务类频率,计算各个所述正文词条在各个类别中的权重值;
第二排序子单元3040,用于将各个正文词条按照其在各个类别中的权重值从大到小的顺序进行排序,得到对应的网站正文关键词库。
7.根据权利要求6所述的互联网网站的分类装置,其特征在于,所述关键词库训练单元,包括:
第一计算子单元,用于计算各个标题词条在各个类别中的出现频率,得到各个所述标题词条的词频;
第二计算子单元,用于计算各个所述标题词条在所述网站标题中的重要性度量,得到各个所述标题词条的逆向类别频率;
第三计算子单元,用于根据各个所述标题词条的词频和各个所述标题词条的逆向类别频率,计算各个所述标题词条在任意类别中的权重值;
第一排序子单元,用于将各个所述标题词条按照其在各个类别中的权重值从大到小的顺序进行排序,得到对应的网站标题关键词库。
8.根据权利要求6或7所述的互联网网站的分类装置,其特征在于,所述分词处理单元,包括:
分词处理子单元,用于通过分词程序对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,得到多个词条;其中,所述词条包括:网站标题词条和网站正文词条;
查找子单元,用于查找多个所述词条中对分类无贡献的无贡献词条;所述无贡献词条至少包括:停止词和单个的字;
优化词条构建子单元,用于将所述词条中的所述无贡献词条添加到对应类别的停止词词典中,得到优化词条。
9.根据权利要求8所述的互联网网站的分类装置,其特征在于,所述样本集分类单元具体用于执行如下步骤:
步骤A,获取各个所述样本集中的各个类别的父类互联网网站的网站内容,根据匹配的关键词库对所述父类互联网网站的网站内容进行分类;所述网站内容包括:网站标题和网站正文信息;所述样本集包括:训练样本集和测试样本集;
步骤B;在根据所述父类互联网网站的网站内容进行分类的结果与所述样本集的标准类别不匹配时,获取所述父类互联网网站的一级子类互联网网站及所述一级子类互联网网站的网站内容,采用匹配的关键词库对所述一级子类互联网网站的网站内容进行分类;
步骤C;若采用所述一级子类互联网网站进行分类的结果与所述样本集的标准类别不匹配时,重新选择所述一级子类互联网网站的下一级子类互联网网站作为父类互联网网站,并重新执行步骤A,直至根据所述下一级子类互联网网站进行分类的结果与所述样本集的标准类别匹配时,输出关键词训练误差和关键词测试误差;其中,所述关键词包括:网站标题关键词和网站正文关键词。
10.根据权利要求8所述的互联网网站的分类装置,其特征在于,所述样本集分类单元,包括:
获取子单元,用于获取各个所述样本集中的各个类别的互联网网站的网站内容;
第九计算子单元,用于根据函数对各个类别的互联网网站的网站内容进行计算,确定所述样本集的类别,输出关键词训练误差和关键词测试误差;其中,所述关键词包括:网站标题关键词和网站正文关键词;k表示所述训练样本集或者所述测试样本集的所属类别;Ck为互联网网站所属的应用领域的所有类别中的任意一种;i表示所述关键词库中任意一个网站正文关键词;W(wi|Ck)表示网站正文关键词i在Ck类别中的权重值;K表示类别种类。
CN201610799477.XA 2016-08-31 2016-08-31 一种互联网网站的分类方法及装置 Active CN106156372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610799477.XA CN106156372B (zh) 2016-08-31 2016-08-31 一种互联网网站的分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610799477.XA CN106156372B (zh) 2016-08-31 2016-08-31 一种互联网网站的分类方法及装置

Publications (2)

Publication Number Publication Date
CN106156372A CN106156372A (zh) 2016-11-23
CN106156372B true CN106156372B (zh) 2019-07-30

Family

ID=57344476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610799477.XA Active CN106156372B (zh) 2016-08-31 2016-08-31 一种互联网网站的分类方法及装置

Country Status (1)

Country Link
CN (1) CN106156372B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897625B (zh) * 2017-01-22 2019-08-06 北京理工大学 支持漏洞关联性挖掘的漏洞自动分类方法
CN107229731B (zh) * 2017-06-08 2021-05-25 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN107862069A (zh) * 2017-11-21 2018-03-30 广州星耀悦教育科技有限公司 一种分类数据库的构建方法以及图书分类的方法
CN108038245A (zh) * 2017-12-28 2018-05-15 中译语通科技(青岛)有限公司 一种基于多语言的数据挖掘方法
CN108491518B (zh) * 2018-03-26 2021-02-26 广州虎牙信息科技有限公司 审核文本的方法、装置、电子设备和存储介质
CN108776657A (zh) * 2018-06-13 2018-11-09 湖南正宇软件技术开发有限公司 政协提案关注点自动提取方法
CN109710650B (zh) * 2018-12-19 2021-01-26 中国联合网络通信集团有限公司 案例信息管理方法、装置及设备
CN110264318A (zh) * 2019-06-26 2019-09-20 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及存储介质
CN111680220A (zh) * 2020-06-12 2020-09-18 国家计算机网络与信息安全管理中心浙江分中心 一种基于网站特征的贷款类诈骗网站的识别方法
CN113268691B (zh) * 2021-04-30 2022-07-22 杭州安恒信息技术股份有限公司 网站行业类型的分类方法、装置、电子装置和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079031A (zh) * 2006-06-15 2007-11-28 腾讯科技(深圳)有限公司 一种网页主题提取系统和方法
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN103226578A (zh) * 2013-04-02 2013-07-31 浙江大学 面向医学领域的网站识别和网页细分类的方法
EP2633432A1 (en) * 2010-10-26 2013-09-04 Hewlett-Packard Development Company, L.P. Extraction of content from a web page
CN103744981A (zh) * 2014-01-14 2014-04-23 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的系统
US8938408B1 (en) * 2014-03-20 2015-01-20 Yandex Europe Ag Systems and methods for classification and segmentation of browsing logs based on user's search goals
CN104516903A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 关键词扩展方法及系统、及分类语料标注方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079031A (zh) * 2006-06-15 2007-11-28 腾讯科技(深圳)有限公司 一种网页主题提取系统和方法
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
EP2633432A1 (en) * 2010-10-26 2013-09-04 Hewlett-Packard Development Company, L.P. Extraction of content from a web page
CN103226578A (zh) * 2013-04-02 2013-07-31 浙江大学 面向医学领域的网站识别和网页细分类的方法
CN104516903A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 关键词扩展方法及系统、及分类语料标注方法及系统
CN103744981A (zh) * 2014-01-14 2014-04-23 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的系统
US8938408B1 (en) * 2014-03-20 2015-01-20 Yandex Europe Ag Systems and methods for classification and segmentation of browsing logs based on user's search goals

Also Published As

Publication number Publication date
CN106156372A (zh) 2016-11-23

Similar Documents

Publication Publication Date Title
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN108959270B (zh) 一种基于深度学习的实体链接方法
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN104965905B (zh) 一种网页分类的方法和装置
CN105095187A (zh) 一种搜索意图识别方法及装置
CN101794311B (zh) 基于模糊数据挖掘的中文网页自动分类方法
CN102929873B (zh) 一种基于情境搜索提取搜索价值词的方法及装置
CN103399891B (zh) 网络内容自动推荐方法、装置和系统
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN107577759A (zh) 用户评论自动推荐方法
CN104809108B (zh) 信息监测分析系统
CN106033445B (zh) 获取文章关联度数据的方法和装置
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
El-Halees Mining opinions in user-generated contents to improve course evaluation
CN102194013A (zh) 一种基于领域知识的短文本分类方法及文本分类系统
CN108256104A (zh) 基于多维特征的互联网网站综合分类方法
CN101609450A (zh) 基于训练集的网页分类方法
CN104392006B (zh) 一种事件查询处理方法及装置
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN103544307B (zh) 一种不依赖文档库的多搜索引擎自动化对比评测方法
CN110516074A (zh) 一种基于深度学习的网站主题分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant