CN101038596A

CN101038596A - 一种网站分类方法及系统

Info

Publication number: CN101038596A
Application number: CNA2007101030288A
Authority: CN
Inventors: 张阔; 张智敏
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2007-04-29
Filing date: 2007-04-29
Publication date: 2007-09-19

Abstract

本发明公开了一种网站分类方法及系统，解决如何更准确、更快速地确定网站类别，实现精确分类的问题。所述方法包括：对每个网站建立特征向量，所述特征向量的每一维是不同的用户搜索词，每一维的值是相应搜索词的出现次数；根据所述特征向量集合，对网站进行分类。由于所述搜索词的出现次数是根据用户的点击次数统计，代表了用户对被点击网站与所述搜索词之间密切联系的认可，因此，所述搜索词相比网页中的普通词汇，更具代表性，更能帮助进行网站的分类，提高了网站分类的精度。而且，生成的特征向量非常短，在分类过程中可以有效提高分类效率。

Description

一种网站分类方法及系统

技术领域

本发明涉及信息分类技术，特别是涉及一种网站分类方法及系统。

背景技术

在提供搜索引擎服务的网站中，需要对其他多个网站进行分类，以便提供更加完善的服务。例如，可以对网站进行色情分类，分为黄色网站与正常网站；若某个网站被划分到黄色网站类别，就可以对所述网站采取进一步的措施。或者进行内容分类，分为军事网站、财经网站、新闻网站等等；所述网站的内容分类可以应用到基于类别的搜索引擎服务中。此外，在网站导航服务中，也需要对多个网站进行分类，将各个网站划分到最合适的类别中，为用户查询提供便利。

对于如何确定一个网站的类别，现有解决方案为：以网站内页面中出现的词元作为属性，通过机器学习或者基于规则的方式对网站进行分类。具体实现方法如下：

第一步，对一个需要确定类别的目标网站，收集所有得到的页面，将页面中的有效正文文本合并到同一个文档中，代表所述网站；

第二步，对所述文档进行分词等预处理，并根据分词结果以一个词元作为一个属性，基于传统的TF/IDF(term frequency/inverse document frequency，单文本词汇频率/逆文本频率)模型生成一个代表所述网站的特征向量；其中，向量的每一维是所述属性词，每一维的值是属性词出现的次数。

第三步，利用机器学习的方法或基于规则的方法，对每个网站向量进行分类处理，得到一个网站的类别。

上述实现方案能够将一个网站归到所属类别中，但存在以下缺点：

第一，网站向量中的属性词在对网站分类过程中的重要性，由在网站中出现的次数决定。因此，很多出现次数很多但是对于网站分类没有用处的词，会对分类的精度造成损害。例如，某网站频繁出现“飞机”一词，就有可能将该网站分到军事类别中，但所述网站应该属于新闻类，因此造成分类错误的问题。

第二，网站向量中包含所有出现的属性词，由于每个网站中出现过的词非常多，因此相对于每个网站的向量非常大。而且，向量中存在大量噪音词，一方面影响分类的准确性，一方面还影响分类的速度。其中，所述噪音词是指与网站内容无关，并影响网站分类的词汇。

由于上述原因，现有解决方案在分类的准确性和处理速度上还需有待提高。

发明内容

本发明所要解决的技术问题是提供一种网站分类方法及系统，以解决如何更准确、更快速地确定网站类别，实现精确分类的问题。

为解决上述技术问题，根据本发明提供的具体实施例，本发明公开了以下技术方案：

一种网站分类方法，包括：

对每个网站建立特征向量，所述特征向量的每一维是不同的用户搜索词，每一维的值是相应搜索词的出现次数；

根据所述特征向量集合，对网站进行分类。

所述分类方法还包括：获取用户搜索词，以及对应每个搜索词的被点击页面的URL；根据所述URL，统计同一个网站中不同搜索词的出现次数。其中，获取时间段内的用户搜索词及相应的URL。

所述分类方法还包括：对每个网站，按照搜索词的出现次数进行搜索词排序，将排名在预定范围内的搜索词合并，并用于建立特征向量。

其中，根据所述特征向量集合，使用机器学习或基于规则设定的方法进行网站分类。

一种网站分类系统，包括：

向量生成单元，用于对每个网站建立特征向量，所述特征向量的每一维是不同的用户搜索词，每一维的值是相应搜索词的出现次数；

分类单元，用于根据所述特征向量集合，对网站进行分类。

所述分类系统还包括：日志收集单元，用于获取用户搜索词，以及对应每个搜索词的被点击页面的URL；统计单元，用于根据所述URL，统计同一个网站中不同搜索词的出现次数。其中，所述日志收集单元获取时间段内的用户搜索词及相应的URL。

所述分类系统还包括：排序合并单元，用于对每个网站，按照搜索词的出现次数进行搜索词排序，将排名在预定范围内的搜索词合并，为向量生成单元建立特征向量提供数据。

其中，所述分类单元使用机器学习或基于规则设定的方法进行网站分类。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明实施例采用的网站分类方法，通过分析搜索引擎日志信息，将用户在搜索引擎中输入的搜索词作为网站向量的属性词，将每个搜索词出现的次数作为向量值，来代表一个网站，然后根据向量进行分类处理。

一方面，用于分类的代表网站的向量词来源于用户的搜索词，并且搜索词出现次数以用户点击数统计，由于用户点击了该网站的页面，代表用户对该网站与所述搜索词之间密切联系的认可。因此，所述搜索词相比网页中的普通词汇，更具代表性，更能帮助进行网站的分类。

另一方面，现有解决方案将网页中所有的分词结果都作为向量属性词，而本发明实施例选取排名靠前的搜索词，因此用于分类的代表网站的向量相比非常短，在分类过程中可以有效提高分类效率。

综上，本发明实施例提供的方法能够准确识别网站类别，提高分类的精度，并能提高分类速度。

附图说明

图1是本发明实施例所述网站分类方法的步骤流程图；

图2是本发明实施例中同一个网站的日志统计结果示意图；

图3是本发明实施例所述词表文档示意图；

图4是本发明实施例所述一种网站分类系统结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例通过对搜索引擎的日志信息进行挖掘，提取出用户从搜索引擎进入一个网站的频繁查询词，并基于所述频繁查询词，通过自动化的过程完成对网站的分类。

参照图1，是本发明实施例所述网站分类方法的步骤流程图。

步骤101，获取用户查询词。所述查询词是用户在搜索引擎输入框中输入的文本信息，即前述的搜索词。可以通过多种途径获得用户查询词，但较常用、较简便的一种方法是通过分析搜索引擎日志信息获取。

在搜索引擎日志信息中，记录了用户的点击日志。所述用户点击日志是指：当用户输入一个查询词，点击搜索按键得到搜索结果列表后，用户点击每一条选中的搜索结果页面时，搜索引擎日志都会记录一条用户点击日志。其中，每条用户点击日志的格式为{搜索结果页面的URL，查询词}，用l＝{p，q}表示，l为用户点击日志，p为搜索结果页面的URL，q为用户查询词。

所述URL称为统一资源定位符，用来指出网页所在位置及存取方式，因此也可以用URI(统一资源标识符)或其他方式标识网页地址。

收集所述用户点击日志信息，即可获得用户输入的查询词，以及在所述查询词下的被点击页面网址。在实际应用中，通常选取一个时间段内的用户点击日志来进行处理，得到某一个时间段所有用户的点击日志集合L。例如，用户输入查询词q为“专利”，在搜索结果页中用户点击了一条页面结果p为http://www.xxx.org/a.html的网页，则在日志集合L中添加一条用户查询点击日志记录l＝{p，q}＝{http://www.xxx.org/a.html，专利}。

步骤102，统计网站的查询词及相应的出现次数。由于每个页面属于唯一一个网站，而每个网站定义为具有相同域名的网页集合，所以根据搜索结果页面的URL，可以将URL信息中域名相同的网页归为同一个网站。然后，对每个网站，统计日志信息中出现的查询词，并统计每个查询词出现的次数。

例如，对每个网站s，找到一个日志集合Ls＝{1|1的页面URL属于网站s}。统计每个查询词q在日志集合Ls中出现的日志记录条数，假如共有三条记录{http://www.xxx.org/a.html，专利}、{http://www.xxx.org/b.html，专利}与{http://www.xxx.org/c.html，保护}，则统计结果为：对于网站“http://www.xxx.org”的“专利”查询词的统计结果为2，“保护”查询词的统计结果为1，如图2所示。

步骤103，将同一个网站的查询词合并，形成一个查询词集合，代表相应网站。本发明优选的，在合并前先对查询词进行排序处理，根据上述每个查询词的出现次数，按照从大到小的顺序排列查询词。排序的主要目的是可以截取出排名靠前的查询词用于分类，因为点击次数多的查询词比用户很少点击的查询词，更能准确反映网站内容，代表这个网站。例如一个查询词有三次查询点击记录，另一个查询词只有一次点击记录，则第一个词更为重要。

针对上例，对于每个网站s，按查询词出现次数，从大到小对查询词进行排序，并合并排名前200的查询词，生成一个代表s网站的词表文档ds。参照图3，是所有网站的词表文档示意图。其中每个网站的查询词个数200，是根据试验结果分析得出，如果查询词太多，容易产生噪声词；如果太少，又不能准确地反映网站内容。

步骤104，根据所述查询词集合生成特征向量。对于每个网站的词表文档ds，生成一个特征向量vs，向量中每一维代表一个查询词，而每一维的值为所述查询词的统计次数。

生成向量的过程是：先统计在所有词表文档中出现过的所有查询词，并为每个词分配向量的一维；然后对于每个文档(即每个网站)的向量，如果包含其中一个查询词，就在这个查询词对应的维度设置一个值，所述向量值即为统计出来的出现次数。

每个网站向量中查询词的数量多少，直接影响分类的准确性和速度，但采用上述方法生成的向量，仅包含重要的查询词，因此向量变短，可以有效提高后续的分类效率。

步骤105，利用所述网站向量进行网站分类处理。分类方法有多种，可以使用机器学习或者人为设定规则等方法，确定网站的类别，并将所述网站归类到合适的类别中。若使用机器学习方法，则需要手工标注一系列网站的类别作为训练数据，然后利用某种机器学习方法，如支持向量机、决策树、简单贝叶斯等，进行对网站的分类操作。若使用基于规则的方法，则需要人工定义一些规则对网站进行分类，例如，向量中同时包含“战斗机”和“坦克”查询字的网站为军事类网站。

一种分类效果较好的方法是使用 Bayes(简单贝叶斯)分类法，所述分类法计算出每个维度不同取值下对于不同分类类别的概率，然后利用所有维度的取值计算出一个整体的属于某一个类别的概率，然后将概率最高的类别作为分类类别。

通过上述五个步骤的描述，可以将一个网站准确地划分到合适的类别中。因为每个网站向量中用于分类的查询词，其相应的出现次数代表用户对该网站与所述查询词之间密切联系的认可，所以将用户在搜索引擎输入的查询词作为特征向量，能够更准确地代表这个网站。

上述过程中，步骤101和102是准备步骤，是从搜索引擎日志信息中获取用户点击日志，当然，也可以通过其他途径来收集生成网站向量所需的用户查询词和相应的出现次数。

针对上述网站分类方法实施例，本发明另一实施例还提供了一种实现所述方法的系统。参照图4，是所述网站分类系统结构图，包括日志收集单元401、统计单元402、排序合并单元403、向量生成单元404和分类单元405。

日志收集单元401用于收集用户点击日志，为向量生成单元404提供向量生成的数据基础。所述日志收集单元401通过分析搜索引擎日志信息，得到某一个时间段内所有用户的点击日志集合，其中，每条用户点击日志的格式为{搜索结果页面的URL，查询词}。

统计单元402以所述日志收集单元401的收集结果作为数据输入，用于对所述点击日志集合进行统计处理。根据搜索结果页面的URL，得到属于同一个网站的所有点击日志信息；然后对每个网站，分别统计日志信息中出现查询词，并统计每个查询词的出现次数，即用户输入查询词后点击搜索结果页面的次数。

排序合并单元403用于对统计单元402的统计结果进行排序和合并处理。为得到能够准确代表一个网站内容的查询词，避免噪音词或对分类没有用处的词的出现，先对每个网站所有出现的查询词，按照相应统计次数的大小排序；然后将出现次数多的查询词合并，形成包含一定数量(如前200个)的查询词集合。

向量生成单元404用于根据所述查询词集合生成对应每个网站的特征向量，具体生成过程如前所述，在此不再详述。其中，向量的每一维度是一个查询词，每个维度的值是相应查询词的出现次数。所述向量生成单元404生成的向量包含的查询词数量较少，因此向量较短，提高了分类过程中的数据处理效率。

分类单元405用于根据所述向量生成单元404中各个网站的特征向量，采用机器学习或者人为设定规则等方法，完成网站分类。分类单元405可以采用多种分类方法，具体说明如前所述，但分类基于的网站向量需要包含用户查询词以及相应的出现次数。

上述日志收集单元401和统计单元402的数据处理，是为后续处理单元做准备，为向量生成单元404提供所需的用户查询词和相应的出现次数。各个单元的处理流程是：日志收集单元401收集到用户点击日志后传输给统计单元402，进行对应每个网站的查询词统计和每个查询词的点击次数统计，然后由排序合并单元403对查询词按照所述统计次数大小进行排序，并合并排名靠前的查询词，向量生成单元404根据合并后的查询词集合生成特征向量，为分类单元405提供分类处理的数据基础。所述系统可以准确地识别网站类别，实现网站地快速、精确分类。

图4所示系统中未详述的部分可以参见图1所示方法的相关部分，为了篇幅考虑，在此不再详述。

以上对本发明所提供的一种网站分类方法和系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1、一种网站分类方法，其特征在于，包括：

根据所述特征向量集合，对网站进行分类。

2、根据权利要求1所述的方法，其特征在于，还包括：

获取用户搜索词，以及对应每个搜索词的被点击页面的URL；

根据所述URL，统计同一个网站中不同搜索词的出现次数。

3、根据权利要求2所述的方法，其特征在于，还包括：

对每个网站，按照搜索词的出现次数进行搜索词排序，将排名在预定范围内的搜索词合并，并用于建立特征向量。

4、根据权利要求2所述的方法，其特征在于：获取时间段内的用户搜索词及相应的URL。

5、根据权利要求1所述的方法，其特征在于：根据所述特征向量集合，使用机器学习或基于规则设定的方法进行网站分类。

6、一种网站分类系统，其特征在于，包括：

分类单元，用于根据所述特征向量集合，对网站进行分类。

7、根据权利要求6所述的系统，其特征在于，还包括：

日志收集单元，用于获取用户搜索词，以及对应每个搜索词的被点击页面的URL；

统计单元，用于根据所述URL，统计同一个网站中不同搜索词的出现次数。

8、根据权利要求7所述的系统，其特征在于，还包括：排序合并单元，用于对每个网站，按照搜索词的出现次数进行搜索词排序，将排名在预定范围内的搜索词合并，为向量生成单元建立特征向量提供数据。

9、根据权利要求7所述的系统，其特征在于：所述日志收集单元获取时间段内的用户搜索词及相应的URL。

10、根据权利要求6所述的系统，其特征在于：所述分类单元使用机器学习或基于规则设定的方法进行网站分类。