CN105574047A

CN105574047A - 一种基于网站主页特征分析的中文网站分类方法和系统

Info

Publication number: CN105574047A
Application number: CN201410555450.7A
Authority: CN
Inventors: 唐新民; 蔡毅; 蔡智威; 沈智杰; 景晓军
Original assignee: SURFILTER NETWORK TECHNOLOGY Co Ltd; South China University of Technology SCUT
Current assignee: SURFILTER NETWORK TECHNOLOGY Co Ltd; South China University of Technology SCUT
Priority date: 2014-10-17
Filing date: 2014-10-17
Publication date: 2016-05-11
Also published as: US20170185680A1; WO2016058267A1

Abstract

本发明公开了一种基于网站主页特征分析的中文网站分类方法和系统，具体包括以下步骤：S1.爬取网站内容；S2.标记网站类别；S3.提取网站信息；S4.计算权重并以特征向量的形式表示；S5.通过特征向量的对比对网站进行分类。使用所述的基于网站主页特征分析的中文网站分类方法和系统可以实现只提取网站的标题和元信息来最大程度减少噪音的干扰；通过预处理和特征向量表示将网站的特征准确地用向量表示出来，从而提高分类准确率；因为只要处理网站的标题和元信息，要处理的数据量小，处理速度快。

Description

一种基于网站主页特征分析的中文网站分类方法和系统

技术领域

本发明涉及互联网技术，更具体地说，涉及一种基于网站主页特征分析的中文网站分类方法和系统。

背景技术

随着互联网的相关技术的成熟与发展，网络信息成爆炸性增长，一方面这满足了用户对信息的需求，另一方面也导致了信息的整理和政府部门对网络的监管难度加大。网站分类技术是解决这些问题的核心技术。

现有技术中网站分类方法主要是采用对网站中的首页和子级页面的正文进行文本分类的方式来实现，其主要实现过程为：首先从网页中提取正文，然后对网页的正文进行文本分类处理，得到的分类类别即为该网页的分类类别。但是这些方法容易受到网站中一些噪音的干扰，对一些质量较差的网站难以达到令人满意的效果。

发明内容

本发明要解决的技术问题在于，克服现有技术的上述缺陷，提供一种基于网站主页特征分析的中文网站分类方法和系统，可以降低分类过程中噪音的干扰，提高分类的准确率，加快处理速度。

本发明解决其技术问题所采用的技术方案是：提供一种基于网站主页特征分析的中文网站分类方法，包括以下步骤：

S1、爬取一个至多个网站并提取所述网站的内容；

S2、选取预设数量的所述被爬取的网站进行人工分类并标记网站类别；

S3、对所有的所述被爬取的网站的首页进行解析以提取其中的标题和元信息；所述的元信息包括关键词和描述；

S4、将所述标题和元信息进行预处理，计算出其权重，并根据以特征向量的形式表示所述标题和元信息；

S5、根据所有的所述特征向量与所述进行人工分类并标记网站的特征向量进行对比从而将所述网站进行分类。

优选地，所述的步骤S1包括：

S11、选取多个网站，并将所选取的网站按顺序放入待爬取队列中；

S12、按照所述顺序依次爬取被选取网站的内容；

S13、将被爬取的网站中的全部链接提取出来，把其中未爬取的网站放入待爬取的网站的队列中；

S14、判断被爬取的网站的数量是否达到预设值或者待爬取的网站的列队是否为空，若被爬取的网站的数量没有达到预设值或待爬取的网站的列队不为空，则转至步骤S12；若被爬取的网站的数量达到预设值或待爬取的网站的列队为空，则转至步骤S2。

优选地，所述的步骤S2包括：

S21、随机选取一个未标记的网站；

S22、人工标记被选取的网站的类别；

S23、判断被标记网站数量是否达到预设值，若未达到所述预设值则转至步骤S21；若达到所述预设值，则进入步骤S3。

优选地，所述的步骤S3包括：

S31、检测所有的所述被爬取的网站字符的编码格式，对所有的所述被爬取的网站的内容进行解码；

S32、读取所有的所述被爬取的网站的首页的超文本标记语言内容，并解析为文件对象模型；

S33、从所述文件对象模型中提取标题的文本内容以及元数据中的关键字和描述中的文本内容；

S34、将标题的文本内容以及所述元数据中的关键字和所述描述中的文本内容以空格间隔并排列为一整体文本。

优选地，所述的步骤S4包括：

S41、依据所述整体文本得到多个分词；

S42、计算多个所述分词的特征权重；

S43、依据所述特征权重将所述整体文本表示为特征向量。

优选地，步骤S42中采用词的TFIDF值作为特征权重；其中TFIDF值的计算公式为：

TFIDF(w)＝TF(w)*IDF(w)

其中TF(w)的值为w的所有被爬取网站的特征权重中的出现次数，

IDF (w) = \log (\frac{total}{occur (w)})

其中total为所有被爬取网站的特征权重的数量，occur(w)的值为包含有w的被爬取网站的特征权重的数量。

优选地，S43中所述特征向量为(t₁：w₁，...，t_i：w_i，...，t_n：w_n)，其中t1，…，ti，…，tn为所述整体文本中得到的所述分词，n为样本中不同特征向量的总数量。其中wi是ti在步骤S42中计算出来权重，i为1到n中的任一整数。

优选地，所述步骤S5采用的是K近邻算法。

本发明还公开了一种基于网站主页特征分析的中文网站分类系统，包括用于爬取一个至多个网站并提取所述网站的内容的网站获取模块，用于人工标记网站类别的标记模块，用于对所述网站的首页进行解析，并提取其中的标题和元信息的信息提取模块，处理模块和用于将所述网站进行分类的分类模块50；

所述网站获取模块爬取一个至多个网站并提取所述网站的内容，并将所述网站的内容发送至所述标记模块和所述信息提取模块；

所述标记模块选取预设数量的所述被爬取的网站进行人工分类并标记网站类别；

所述信息提取模块对所有的所述被爬取的网站的首页进行解析以提取其中的标题和元信息；所述的元信息包括关键词和描述；并将所述标题和元信息发送至所述处理模块；

所述处理模块将所述标题和元信息进行预处理，计算出其权重，并根据以特征向量的形式表示所述标题和元信息；并将所述特征向量发送至所述分类模块；

所述分类模块根据所有的所述特征向量与所述进行人工分类并标记网站的特征向量进行对比从而将所述网站进行分类。

优选地，所述处理模块包括预处理模块和向量表示模块；

所述网站获取模块选取多个网站，并将所选取的网站按顺序放入待爬取队列中；按照所述顺序依次爬取被选取网站的内容；将被爬取的网站中的全部链接提取出来，把其中未爬取的网站放入待爬取的网站的队列中；判断网站数量是否达到预设值或者列队是否为空，若网站数量没有达到预设值或列队不为空，则依次重复提取网站链接和爬取网站，直至网站数量达到预设值或者列表为空；如果网站数量达到预设值或列队为空，则停止爬取；所述网站获取模块将爬取的网站发送至所述标记模块和所述信息提取模块；

所述标记模块接收到所述站获取模块爬取到的网站后，随机选取一个未标记的网站；人工标记被选取的网站的类别；然后所述标记模块判断被标记网站数量是否达到预设值，若未达到所述预设值则依次重复随机选取一个未标记的网站并人工标记被选取的网站的类别直至被标记网站数量达到预设值；如果达到预设值则停止标记；所述标记模块将网站的类别发送至所述分类模块；

所述信息提取模块接收到所述站获取模块爬取到的网站后先检测所有的所述被爬取的网站字符的编码格式，对所有的所述被爬取的网站的内容进行解码；再读取所有的所述被爬取的网站的首页的超文本标记语言内容，并解析为文件对象模型；然后从所述文件对象模型中提取标题的文本内容以及元数据中的关键字和描述中的文本内容；标题的文本内容以及所述元数据中的关键字和所述描述中的文本内容以空格间隔并排列为一整体文本；最后将所述整体文本发送至处理模块；

所述处理模块接受到所述整体文本后依据所述整体文本得到多个分词；并计算多个所述分词的特征权重；再依据所述特征权重将所述整体文本表示为特征向量；并将所述特征向量发送至所述分类模块；

其中，所述预处理模块用于将所述信息提取模块发送的整体文本进行分词；并计算分词的特征权重；所述预处理模块中采用词的TFIDF值作为特征权重；并将所述特征权重发送至向量表示模块；其中TFIDF计算公式为：

TFIDF(w)＝TF(w)*IDF(w)

IDF (w) = \log (\frac{total}{occur (w)})

所述向量表示模块将所述预处理模块发送的所述的特征向量表示为如下形式：(t₁：w₁，...，t_i：w_i，...，t_n：w_n)，其中t1，…，ti，…，tn为所述整体文本中得到的所述分词，n为样本中不同特征向量的总数量。其中wi是ti在步骤S42中计算出来权重，i为1到n中的任一整数；

所述分类模块在接收到所述标记模块发送的网站的类别和所述处理模块发送的所述特征向量后，通过需要分类的特征向量与人工标记好的网站的特征向量之间的对比对所述被爬取的网站进行分类。

实施本发明具有以下有益效果：只提取网站的标题和元信息来最大程度减少噪音的干扰；通过预处理和特征向量表示将网站的特征准确地用向量表示出来，从而提高分类准确率；因为只要处理网站的标题和元信息，要处理的数据量小，处理速度快。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明基于网站主页特征分析的中文网站分类方法的流程图；

图2是图1中网站获取的流程图；

图3是图1中标记网站类别的流程图；

图4是图1中网站信息提取的流程图；

图5是图1中网站处理的流程图；

图6是图1中网站分类的流程图；

图7是本发明基于网站主页特征分析的中文网站分类系统的方框图。

具体实施方式

本发明针对基于网站主页特征抽取及其权重设置的中文网站噪音多，信息质量良莠不齐的问题，提供了一种基于网站主页特征分析的中文网站分类方法和系统；只提取网站的标题和元信息来最大程度减少噪音的干扰；通过预处理和特征向量表示将网站的特征准确地用向量表示出来，从而提高分类准确率；因为只要处理网站的标题和元信息，要处理的数据量小，处理速度快。

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

如图1所示，图1是本发明基于网站主页特征分析的中文网站分类方法的流程图。图中涉及一种基于网站主页特征分析的中文网站分类方法，具体包括以下步骤：

S1、通过网络爬虫技术，根据网站之间的相互链接关系，以宽度优化搜索的方式从少数网站出发，发现更多的网站，并将网站中的页面保存至本地中，进而从而爬取一个至多个网站，并提取被爬取的网站的内容；对于需要大型搜索引擎而言，可以采用分布式的爬虫服务器爬取所需的网站，对于轻量级的搜索引擎，则可以采用单台爬虫计算机实现爬取所需的网站；

S2、选取预设数量的被爬取的网站进行人工分类并标记网站类别；可以采用随机的方式或者主动学习的方式从所有被爬取网站中选择最具信息量的网站进行标记，从而达到标记较少的网站达到较优的准确率的效果。；

S3、对所有的被爬取的网站的首页进行解析以便程序自动识别标题内的文字内容和元信息中内的内容，并提取其中的标题和元信息；元信息包括关键词和描述；

S4、将标题和元信息进行预处理，即对标题和元信息的文本进行分词和去停词等处理；计算出预处理后文本中各种词的权重，并根据计算出的权重以特征向量的形式表示所述标题和元信息；

S5、通过所有的被爬取的网站形成的特征向量与进行了人工分类并标记网站形成的特征向量进行对比和比较来判断被爬取网站的类型，从而将被爬取的网站进行分类。

如图2所示，本实施例中，图2是图1中网站获取的流程图；网站获取的步骤S1具体包括以下步骤：

S11、从被爬取的网站中随机选取或人工选取一个网站，并将所选网站放入待爬取队列中；也可以从被爬取网站中随机选取或人工选取多个网站，并将所选网站同时放入爬取队列中，并依次排列；

S12、按照爬取队列中的顺序，取出一个网站，爬取这个网站的首页及它里面的二级、三级页面；

S13、将被爬取的网站中的全部页面中包含的全部链接提取出来，把其中未被爬取的网站依次放入待爬取的队列之中；

如图3所示，本实施例中，图3是图1中标记网站类别的流程图；标记网站类别的步骤S2具体包括以下步骤：

S21、随机从所有的被爬取的网站中选取一个被标记的网站；

S22、打开选择的网站，有人工选择这个网站对应的类别；

如图4所示，本实施例中，图4是图1中网站信息提取的流程图；网站信息提取的步骤S3具体包括以下步骤：

S32、读取所有的被爬取的网站的首页的超文本标记语言内容，并解析为文件对象模型；

S34、将标题的文本内容以及元数据中的关键字和描述中的文本内容以空格间隔并排列为一整体文本。

例如，www.machine.com的首页的超文本标记语言内容的每一个模块都是有不同的标签隔开标记出来的，例如网页标题(title)的内容是：<title>上海市机械工程公司</title>。则程序将自动识别标签<title>至标签</title>以内的文字内容，提取以下文字“上海市机械公司”，并提取出变元数据(meta)包括描述(description)中的“上海市有名的机械公司，上海市机械公司首页”和关键词(keywords)”机械上海”形成，最后以空格连接，得到“上海市机械公司上海市有名的机械公司，上海市机械公司首页机械上海”这样一段文本。

如图5所示，本实施例中，图5是图1中网站处理的流程图；网站信息提取的步骤S4具体包括以下步骤：

S41、依据整体文本得到多个分词，使用分词器将所要分类的整体文本分成易于处理的单个词项，每一个词项作为此算法中处理的最小单元，然后根据中文停词表，把表中这些对文本分类没有意义的词项去掉；

如示例，对步骤S3得到的整体文本进行预处理后得到“上海市机械公司上海市有名的机械公司上海市机械公司首页机械上海”这样一段文本。

S42、计算多个所述分词的特征权重；

S43、依据所述特征权重将所述整体文本表示为特征向量。

本实施例中，采用词的TFIDF(termfrequency-inversedocumentfrequency词频-逆向文件频率)值作为特征权重，但是任何类似的特征权重计算方法都适用于本发明，均在本发明的保护范围之内；

其中TFIDF值的计算公式为：

TFIDF(w)＝TF(w)*IDF(w)

IDF (w) = \log (\frac{total}{occur (w)})

如示例，“机械”一词在步骤S3得到的文本中共出现了4次，故TF(w)＝4，在所有的10万个网站中出现了8453次；

故IDF(w)＝log(100000/8453)＝2.4706。所以“机械”一词的权重为TFIDF(机械)＝4*2.4706＝9.8824。

进一步地，计算出多个分词的特征权重后，即可依据特征权重将整体文本表示为特征向量，特征向量的形式为(t₁：w₁，...，t_i：w_i，...，t_n：w_n)，其中t1，…，ti，…，tn为所述整体文本中得到的所述分词，n为样本中不同特征向量的总数量。其中wi是ti在步骤S42中计算出来权重，i为1到n中的任一整数。如示例，按上述步骤算出每一个词的权重后，得到这样一个向量(上海市：1.2384，有名的：0.8763，机械：9.8824，公司：1.5783，首页：0.1657)

如图6所示，本实施例中，图6是图1中网站分类的流程图；网站信息提取的步骤S5采用的是K近邻算法，具体包括以下步骤：

S51、比较需要被分类的特征向量与人工分类并标记的网站的特征向量之间的相似度；

S52、选取相似度最高的K个特征向量；

S53、根据选取的K个特征向量的类别和相似度进行投票；

S54、将类别相同的特征向量的票数进行累加，最终票数最高的类别作为分类最终的类别。

如示例，若取K为3，与“上海机械公司”计算出最相似的3个网站标题为“广东机械公司”，“长沙机械公司”，“上海物流公司”，其中前两个人工标记为机械类，第三个人工标记为物流类，最后投票结果为机械类两票，物流类一票，故最终分类结果为机械类。

最终，根据被爬取网站中提取的整体文本的类别作为网站分类的最终类别。

采用本发明提供的一种基于网站主页特征分析的中文网站分类方法，可以实现只提取网站的标题和元信息来最大程度减少噪音的干扰；通过预处理和特征向量表示将网站的特征准确地用向量表示出来，从而提高分类准确率；因为只要处理网站的标题和元信息，要处理的数据量小，处理速度快。

如图7所示，图7是本发明基于网站主页特征分析的中文网站分类系统的方框图。图中涉及一种基于网站主页特征分析的中文网站分类系统，包括用于爬取一个至多个网站并提取所述网站的内容的网站获取模块(10)，用于人工标记网站类别的标记模块(20)，用于对所述网站的首页进行解析，并提取其中的标题和元信息的信息提取模块(30)，处理模块(40)和用于将所述网站进行分类的分类模块(50)；处理模块(40)包括预处理模块(401)和向量表示模块(402)；

网站获取模块(10)通过网络爬虫技术根据网站之间的相互链接关系，以宽度优化搜索的方式从少数网站出发，发现更多的网站，并将网站中的页面保存至本地中，进而爬取一个至多个网站并提取所述网站的内容，网站获取模块(10)选取一个或多个网站，并将所选取的网站按顺序放入待爬取队列中；按照所述顺序依次爬取被选取网站的内容；将被爬取的网站中的全部链接提取出来，把其中未爬取的网站放入待爬取的网站的队列中；判断网站数量是否达到预设值或者列队是否为空，若网站数量没有达到预设值或列队不为空，则依次重复提取网站链接和爬取网站，直至网站数量达到预设值或者列表为空；如果网站数量达到预设值或列队为空，则停止爬取；所述网站获取模块(10)将爬取的网站发送至所述标记模块(20)和所述信息提取模块(30)；

所述标记模块(20)接收到所述站获取模块(10)爬取到的网站后，随机选取一个未标记的网站；人工标记被选取的网站的类别；然后所述标记模块(20)判断被标记网站数量是否达到预设值，若未达到所述预设值则依次重复随机选取一个未标记的网站并人工标记被选取的网站的类别直至被标记网站数量达到预设值；如果达到预设值则停止标记；所述标记模块(20)将网站的类别发送至所述分类模块(50)；

所述信息提取模块(30)接收到所述站获取模块(10)爬取到的网站后先检测所有的所述被爬取的网站字符的编码格式，对所有的所述被爬取的网站的内容进行解码；再读取所有的所述被爬取的网站的首页的超文本标记语言内容，并解析为文件对象模型；然后从所述文件对象模型中提取标题的文本内容以及元数据中的关键字和描述中的文本内容；标题的文本内容以及所述元数据中的关键字和所述描述中的文本内容以空格间隔并排列为一整体文本；最后将所述整体文本发送至处理模块(40)；

所述处理模块(40)接受到所述整体文本后依据所述整体文本得到多个分词；并计算多个所述分词的特征权重；再依据所述特征权重将所述整体文本表示为特征向量；并将所述特征向量发送至所述分类模块(50)；

其中，所述预处理模块(401)用于将所述信息提取模块(30)发送的整体文本进行分词；并计算分词的特征权重；所述预处理模块(401)中采用词的TFIDF值作为特征权重；并将所述特征权重发送至向量表示模块(402)；其中TFIDF计算公式为：

TFIDF(w)＝TF(w)*IDF(w)

IDF (w) = \log (\frac{total}{occur (w)})

所述向量表示模块(402)将所述预处理模块(401)发送的所述的特征向量表示为如下形式：(t₁：w₁，...，t_i：w_i，...，t_n：w_n)，其中t1，…，ti，…，tn为所述整体文本中得到的所述分词，n为样本中不同特征向量的总数量。其中wi是ti在步骤S42中计算出来权重，i为1到n中的任一整数；

所述分类模块(50)在接收到所述标记模块(20)发送的网站的类别和所述处理模块(40)发送的所述特征向量后，通过需要分类的特征向量与人工标记好的网站的特征向量之间的对比对所述被爬取的网站进行分类。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于网站主页特征分析的中文网站分类方法，其特征在于，包括以下步骤：

S1、爬取一个至多个网站并提取所述网站的内容；

S4、将所述标题和元信息进行预处理，计算出其权重，并根据所述权重以特征向量的形式表示所述标题和元信息；

2.根据权利要求1所述的一种基于网站主页特征分析的中文网站分类方法，其特征在于，所述的步骤S1包括：

S11、从所述被爬取网站中选取一个网站，并将所选取的网站放入待爬取队列中；

S12、按照所述顺序依次爬取被选取网站的内容；

3.根据权利要求1所述的一种基于网站主页特征分析的中文网站分类方法，其特征在于，所述的步骤S2包括：

S21、随机选取一个未标记的网站；

S22、人工标记被选取的网站的类别；

4.根据权利要求1所述的一种基于网站主页特征分析的中文网站分类方法，其特征在于，所述的步骤S3包括：

5.根据权利要求4所述的一种基于网站主页特征分析的中文网站分类方法，其特征在于，所述的步骤S4包括：

S41、依据所述整体文本得到多个分词；

S42、计算多个所述分词的特征权重；

S43、依据所述特征权重将所述整体文本表示为特征向量。

6.根据权利要求5所述的一种基于网站主页特征分析的中文网站分类方法，其特征在于，步骤S42中采用词的TFIDF值作为特征权重；其中TFIDF值的计算公式为：

TFIDF(w)＝TF(w)*IDF(w)

IDF (w) = \log (\frac{total}{occur (w)})

7.根据权利要求6所述的一种基于网站主页特征分析的中文网站分类方法，其特征在于，S43中所述特征向量为(t₁：w₁，...，t_i：w_i，...，t_n：w_n)，其中t1，…，ti，…，tn为所述整体文本中得到的所述分词，n为样本中不同特征向量的总数量。其中wi是ti在步骤S42中计算出来权重，i为1到n中的任一整数。

8.根据权利要求5所述的一种基于网站主页特征分析的中文网站分类方法，其特征在于，所述步骤S5采用的是K近邻算法。

9.一种基于网站主页特征分析的中文网站分类系统，其特征在于，包括用于爬取一个至多个网站并提取所述网站的内容的网站获取模块(10)，用于人工标记网站类别的标记模块(20)，用于对所述网站的首页进行解析，并提取其中的标题和元信息的信息提取模块(30)，处理模块(40)和用于将所述网站进行分类的分类模块(50)；

所述网站获取模块(10)爬取一个至多个网站并提取所述网站的内容，并将所述网站的内容发送至所述标记模块(20)和所述信息提取模块(30)；

所述标记模块(20)选取预设数量的所述被爬取的网站进行人工分类并标记网站类别；

所述信息提取模块(30)对所有的所述被爬取的网站的首页进行解析以提取其中的标题和元信息；所述的元信息包括关键词和描述；并将所述标题和元信息发送至所述处理模块(40)；

所述处理模块(40)将所述标题和元信息进行预处理，计算出其权重，并根据以特征向量的形式表示所述标题和元信息；并将所述特征向量发送至所述分类模块(50)；

所述分类模块(50)根据所有的所述特征向量与所述进行人工分类并标记网站的特征向量进行对比从而将所述网站进行分类。

10.根据权利要求9所述的一种基于网站主页特征分析的中文网站分类系统，其特征在于，

所述网站获取模块(10)选取一个或多个网站，并将所选取的网站按顺序放入待爬取队列中；按照所述顺序依次爬取被选取网站的内容；将被爬取的网站中的全部链接提取出来，把其中未爬取的网站放入待爬取的网站的队列中；判断网站数量是否达到预设值或者列队是否为空，若网站数量没有达到预设值或列队不为空，则依次重复提取网站链接和爬取网站，直至网站数量达到预设值或者列表为空；如果网站数量达到预设值或列队为空，则停止爬取；所述网站获取模块(10)将爬取的网站发送至所述标记模块(20)和所述信息提取模块(30)；

TFIDF(w)＝TF(w)*IDF(w)

IDF (w) = \log (\frac{total}{occur (w)})