CN105224533B

CN105224533B - 浏览器收藏夹整理方法和装置

Info

Publication number: CN105224533B
Application number: CN201410232621.2A
Authority: CN
Inventors: 肖镜辉; 崔华
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2014-05-28
Filing date: 2014-05-28
Publication date: 2019-09-03
Anticipated expiration: 2034-05-28
Also published as: CN105224533A

Abstract

本发明公开了一种浏览器收藏夹整理方法和装置，其中的方法包括：获取待整理浏览器收藏夹的目录结构信息及各链接地址；根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识确定待整理浏览器收藏夹的根目录下的各链接地址与待整理浏览器收藏夹的非根目录下的各链接地址之间的相似度，将待整理浏览器收藏夹的根目录下的与非根目录下的链接地址相似的链接地址调整到相应的非根目录下；根据待整理浏览器收藏夹的当前根目录下的各链接地址之间的相似度对当前根目录下的各链接地址进行聚类；为每一类链接地址设置非根目录标识，并将每一类链接地址调整到非根目录标识所表示的非根目录下。本发明可有效提高用户的浏览器收藏夹的易用性。

Description

浏览器收藏夹整理方法和装置

技术领域

本发明涉及浏览器技术，具体涉及浏览器收藏夹整理方法以及相应的浏览器收藏夹整理装置。

背景技术

用户在利用其浏览器进行网络访问的过程中，通常会将自己喜欢的网站/网页以及常用的网站/网页等的链接地址收录于浏览器收藏夹中，以方便自己的后续使用。

在用户的浏览器收藏夹中收录了较多链接地址的情况下，会存在用户在收藏夹中查找其所需要的链接地址时较费时费力的现象；另外，一些对用户来说较重要的链接地址在被用户收藏后往往会被淹没在收藏夹的众多链接地址之中，从而没有充分发挥其应有的价值。

为了使浏览器便于使用，应对用户的浏览器收藏夹进行整理。

现有的对浏览器收藏夹进行整理的方法主要包括两种：方法一、用户手工整理其浏览器收藏夹，如用户利用浏览器的整理收藏夹选项手工将相应的链接地址收录到收藏夹的某个文件夹中；方法二、用户从浏览器的整理收藏夹选项所提供的多种排序方式(如按名称排序、按访问次数排序或者按收录时间排序)中选择一种排序方式，之后，浏览器根据用户选择的排序方式对收藏夹中存储的所有链接地址进行自动排序。

发明人在实现本发明过程中发现，上述方法一需要用户具有手工整理收藏夹的习惯，且需要用户具备一些浏览器的相关知识；上述方法二虽然可以使收藏夹中收录的链接地址在显示给用户时具有一定的规律性，使收藏夹中的链接地址看起来更有条理一些，但是，在浏览器收藏夹中收录有大量的链接地址的情况下，仍然会在一定程度上存在查找相应的链接地址较费时费力以及没有使相应的链接地址充分发挥其应用的价值的问题。

发明内容

本发明的目的在于，克服现有的浏览器收藏夹整理方法所存在的技术问题，提供一种浏览器收藏夹整理方法和相应的浏览器收藏夹整理装置，所要解决的技术问题是，可以借助大量网络用户的收藏夹整理经验自动对用户的浏览器收藏夹中的链接地址进行整理，且可以使收藏夹中收录的链接地址具有层次条理，易于查找。

本发明的目的以及解决其技术问题可以采用以下的技术方案来实现。

依据本发明提出的一种浏览器收藏夹整理方法，主要包括：获取待整理浏览器收藏夹的目录结构信息以及各链接地址；在根据所述目录结构信息确定出所述待整理浏览器收藏夹中包含有非根目录的情况下，根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识确定待整理浏览器收藏夹的根目录下的各链接地址与待整理浏览器收藏夹的非根目录下的各链接地址之间的相似度，并将待整理浏览器收藏夹的根目录下的与非根目录下的链接地址相似的链接地址调整到相应的非根目录下；在待整理浏览器收藏夹的当前根目录下包含有多个链接地址的情况下，根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识确定待整理浏览器收藏夹的当前根目录下的各链接地址之间的相似度，并根据所述各链接地址之间的相似度对当前根目录下的各链接地址进行聚类；根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识为上述聚类获得的每一类链接地址设置非根目录标识，并将所述每一类链接地址调整到所述非根目录标识所表示的非根目录下。

依据本发明实施例提供的一种浏览器收藏夹整理装置，主要包括：获取模块，适于获取待整理浏览器收藏夹的目录结构信息以及各链接地址；第一调整模块，适于在根据所述目录结构信息确定出所述待整理浏览器收藏夹中包含有非根目录的情况下，根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识确定待整理浏览器收藏夹的根目录下的各链接地址与待整理浏览器收藏夹的非根目录下的各链接地址之间的相似度，并将待整理浏览器收藏夹的根目录下的与非根目录下的链接地址相似的链接地址调整到相应的非根目录下；聚类模块，适于在待整理浏览器收藏夹的当前根目录下包含有多个链接地址的情况下，根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识确定所述待整理浏览器收藏夹的当前根目录下的各链接地址之间的相似度，并根据所述各链接地址之间的相似度对当前根目录下的各链接地址进行聚类；第二调整模块，适于根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识为上述聚类获得的每一类链接地址设置非根目录标识，并将所述每一类链接地址调整到所述非根目录标识所表示的非根目录下。

借由上述技术方案，本发明提供的浏览器收藏夹整理方法和装置至少具有下列优点及有益效果：本发明实施例通过基于网络中多个用户的浏览器收藏夹的非根目录下的链接地址将待整理浏览器收藏夹的根目录下的链接地址调整到相应的非根目录下，并对当前根目录下的各链接地址进行聚类，且基于网络中多个用户的浏览器收藏夹的非根目录下的链接地址为每一类链接地址设置非根目录标识，这样，实现了对用户的待整理浏览器收藏夹的自动整理，本发明提供的上述技术方案可有效提高用户的浏览器收藏夹的易用性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述以及其他目的、特征和优点能够更明显易懂，以下特举较佳的实施例，详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一的浏览器收藏夹整理方法流程图；

图2是本发明实施例二的浏览器收藏夹整理方法示意图；

图3是本发明实施例二的浏览器收藏夹整理过程中的聚类示意图；

图4是本发明实施例四的浏览器收藏夹整理装置示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员依次所获得的、而没有经过创造性劳动付出的其他实施例，都属于本发明保护的范围。

实施例一、浏览器收藏夹整理方法。该浏览器收藏夹整理方法的流程如图1所示。

图1中，S100、获取待整理浏览器收藏夹的目录结构信息以及各链接地址。

具体的，本实施例获取到的待整理浏览器收藏夹的目录结构信息以及各链接地址不仅可以表示出待整理浏览器收藏夹中所包含的各目录的目录标识以及浏览器收藏夹中所收录的各链接地址，还可以表示出待整理浏览器收藏夹中所收录的各链接地址所属的目录(即链接地址所属的目录标识)以及不同目录之间的父子关系(即不同目录标识之间的父子结构)；也就是说，本实施例中的该步骤获取的信息可以表示出一个链接地址是处于根目录下，还是处于某个非根目录下，如果是处于非根目录下，则还可以进一步表示出该非根目录的父目录标识以及子目录标识等。

本实施例获取到的待整理浏览器收藏夹的目录结构信息可以包含目录标识、父目录标识以及子目录标识等，且本实施例获取到的待整理浏览器收藏夹的目录结构信息以及各链接地址通常可以表现为目录结构信息与链接地址之间的对应关系的形式，一个具体的例子，本实施例获取到的信息中的一条记录包含有本目录标识、本目录标识的父目录标识、本目录标识的子目录标识以及本目录标识所表示的目录下的所有链接地址。上述目录标识也可以称为目录名称或者链接地址的标签或者链接地址的目录标签等，上述父目录标识也可以称为父目录名称或者父目录标签等，上述子目录标识也可以称为子目录名称或者子目录标签等。

由上述描述可知，待整理浏览器收藏夹的目录结构信息可以体现出浏览器收藏夹中的目录结构，如根目录、根目录下的子目录(可以称为一级目录)以及根目录下的子目录下的子目录(可以称为二级目录)等。也就是说，利用待整理浏览器收藏夹的目录信息可以描述出一个能够展现目录之间父子关系的目录树。在本实施例中，相对于一级目录而言，根目录为所有一级目录的父目录，所有一级目录是根目录的子目录；而相对于二级目录而言，与二级目录对应的一级目录是该二级目录的父目录，二级目录是其对应的一级目录的子目录。上述一级目录和二级目录均为非根目录。

本实施例可以利用待整理浏览器客户端来获取目录结构信息以及各链接地址，如待整理浏览器客户端根据其内部配置的网络设备地址将其收藏夹的目录结构信息以及各链接地址传输给相应的网络设备，使该网络设备获取到待整理浏览器收藏夹的目录结构信息以及各链接地址。

S110、在根据上述目录结构信息确定出待整理浏览器收藏夹中包含有非根目录的情况下，根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识确定待整理浏览器收藏夹的根目录下的各链接地址与待整理浏览器收藏夹的非根目录下的各链接地址之间的相似度，并将待整理浏览器收藏夹的根目录下的与非根目录下的链接地址相似的链接地址调整到相应的非根目录下。

具体的，本实施例在根据上述获取到的目录结构信息确定出待整理浏览器收藏夹并没有包含非根目录的情况下，则可以略过本步骤而直接执行后续的步骤S120；而在根据上述获取到的目录结构信息确定出待整理浏览器收藏夹包含有非根目录的情况下，会执行本步骤中的是否需要将根目录下的链接地址调整到相应的非根目录下的判断操作以及相应的调整操作。

本实施例可以基于多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识来计算待整理浏览器收藏夹的根目录下的各链接地址与非根目录下的各链接地址之间的相似度；在待整理浏览器收藏夹的非根目录仅包括一级目录的情况下，上述非根目录下的各链接地址即为一级目录下的各链接地址；在非根目录包括一级目录和二级目录的情况下，上述非根目录下的各链接地址可以包括一级目录下的所有链接地址以及二级目录下的所有链接地址。

本实施例预先采集了网络中多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识，一个具体的例子，本实施例可以通过浏览器客户端等工具来采集网络中多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识。

本实施例是根据预先采集到的网络中的多个用户(如全网用户)的浏览器收藏夹中的链接地址所属的非根目录的实际情况来计算链接地址之间的相似度；也就是说，本实施例通过针对多个用户对浏览器收藏夹中的链接地址的整理经验进行综合分析，可以获得链接地址整理的经验数据，之后，再利用预先综合分析获得的经验数据来计算待整理浏览器收藏夹中的链接地址之间的相似度。换句话说，本实施例是根据网络中多个用户的浏览器收藏夹的历史收藏行为来计算待整理浏览器收藏夹中的链接地址之间的相似度的。

为了避免采集到的各用户的浏览器收藏夹的各链接地址中的噪音数据对后续的统计分析造成不良影响，本实施例可以对采集到的多个用户的浏览器收藏夹的非根目录下的链接地址进行过滤，以滤除其中的噪音数据。这里的噪音数据可以为在预定长时间内未被用户使用的链接地址(即使用频率非常低的链接地址)，也可以为已经失效的链接地址。本实施例进行过滤的一个具体的例子为：利用浏览器收藏夹使用日志来确定各链接地址的使用频率，从而滤除使用频率不符合预定要求的链接地址。

在滤除了噪音数据后，可以将过滤后获得的多个用户的浏览器收藏夹的非根目录下的链接地址作为基础数据，进行后续的统计计算，从而为待整理浏览器收藏夹中的各链接地址设置向量，并利用各链接地址的向量来计算各链接地址之间的相似度；如针对待整理浏览器收藏夹中的每一个链接地址而言，可以以多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识作为基础数据分别统计上述每一个链接地址所属的非根目录标识的分布情况，然后，将统计出的分布情况作为相应的链接地址的向量。

上述多个用户通常可以被区分为专家用户以及普通用户；当然，本实施例也不排除上述多个用户只包括普通用户或者只包括专家用户的情况。

上述专家用户是指对其浏览器收藏夹中的链接地址的维护使用符合预定要求的用户。上述预定要求可以根据实际需求设定，一个具体的例子，预定要求可以为用户经常使用其浏览器收藏夹，且用户对其浏览器收藏夹中的链接地址基本上都进行了整理(即用户为其浏览器收藏夹中绝大多数的链接地址都设置了相应的非根目录标识)；另一个具体的例子，上述预定要求可以为：用户经常使用其浏览器收藏夹，且用户对其浏览器收藏夹中的链接地址基本上都进行了整理，同时，用户对浏览器收藏夹中的目录名称命名较规范。

上述普通用户是指对其浏览器收藏夹中的链接地址的维护使用不符合预定要求的用户，如不经常使用其浏览器收藏夹的用户(即在预定长时间内没有使用浏览器收藏夹的用户)，再如对其浏览器收藏夹中的链接地址的整理程度不够的用户或者对其浏览器收藏夹中的目录名称命名不太规范的用户。上述普通用户也可以称为非专家用户。

在对多个用户进行了专家用户和非专家用户的区分的情况下，在设置待整理浏览器收藏夹中的链接地址的向量的过程中，可以为专家用户的浏览器收藏夹的非根目录设置较高的权重值，为非专家用户的浏览器收藏夹的非根目录设置较低的权重值，这样，为链接地址设置的向量会更多的参考了专家用户的浏览器收藏夹的链接地址所属的非根目录标识的设置方式。

本实施例可以采用计算两个链接地址的特征向量之间的余弦距离的方式来计算链接地址之间的相似度。一个具体的例子，将根目录下的每一个链接地址的特征向量都与非根目录下的每一个链接地址的特征向量进行余弦距离的计算，这样，会得出根目录下的每一个链接地址与非根目录下的每一个链接地址的特征向量之间的余弦距离值，然后，判断根目录下的每一个链接地址分别对应的一个或者多个相似度是否达到预先设定的第一距离阈值，如果达到第一距离阈值，则确定出两链接地址相似，因此，可以将余弦距离达到第一距离阈值的根目录下的链接地址调整到相应的非根目录下；例如，根目录下的链接地址A与一级目录A下的链接地址B之间的余弦距离达到第一距离阈值，则将链接地址A调整到一级目录A下。

需要特别说明的是，在根目录下的一个链接地址的特征向量与多个不同的非根目录下的链接地址的特征向量之间的余弦距离均达到第一距离阈值的情况下，本实施例可以根据各余弦距离超出第一距离阈值的情况来为根目录下的链接地址选取相应的目标非根目录，然后，将根目录下的该链接地址调整到目标非根目录下；一个具体的例子：根目录下的链接地址A的特征向量与非根目录a下的链接地址B的特征向量之间的余弦距离为余弦距离a，根目录下的链接地址A的特征向量与非根目录b下的链接地址C的特征向量之间的余弦距离为余弦距离b，且余弦距离a>余弦距离b>第一距离阈值，则本实施例可以将根目录下的链接地址A调整到非根目录a下。

从上述描述可知，本实施例是针对网络中多个用户对浏览器收藏夹中的链接地址的整理经验进行综合分析，从而可以获得多个用户对链接地址整理的经验数据，并依据这些经验数据来设置待整理的浏览器收藏夹中的各链接地址间的相似度，以将链接地址调整到相应的非根目录中。另外，在设置链接地址的向量过程中，在参考普通用户的浏览器收藏夹中的非根目录信息与链接地址之间的对应关系的情况下，以专家用户的浏览器收藏夹中的非根目录信息与链接地址之间的对应关系为重要参考依据，以使链接地址的向量设置以及两链接地址之间的相似度计算结果更加合理。

在本实施例中，将根目录下的与非根目录下的链接地址相似的链接地址调整到相应的非根目录下可以具体为：修改链接地址与目录结构信息之间的对应关系；如删除根目录下的与非根目录下的链接地址相同或相似的链接地址的原对应关系，并增加一条新的对应关系，且该新的对应关系为根目录下的与非根目录下的链接地址相似的链接地址与相应的非根目录结构信息的对应关系；再如，将根目录下的与非根目录下的链接地址相似的链接地址的原对应关系中的目录结构信息由根目录结构信息修改为相应的非根目录结构信息。续前例，在将链接地址A调整到相应的非根目录下之前，链接地址A与根目录结构信息之间存在对应关系，而在将链接地址A调整到相应的非根目录下之后，链接地址A与一级目录A结构信息之间存在对应关系。

S120、在待整理浏览器收藏夹的当前根目录下包含有多个链接地址的情况下，根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识确定待整理浏览器收藏夹的当前根目录下的各链接地址之间的相似度，并根据各链接地址之间的相似度对当前根目录下的各链接地址进行聚类。

具体的，本实施例在进行了上述步骤S110的调整操作后，待整理浏览器收藏夹的当前根目录存在下述三种可能性：

A、待整理浏览器收藏夹的当前根目录下不存在链接地址；

B、待整理浏览器收藏夹的当前根目录下仅存在一个链接地址；

C、待整理浏览器收藏夹的当前根目录下存在多个链接地址。

如果待整理浏览器收藏夹的当前根目录处于上述A和B的状态，则不需要再执行本步骤S120中的聚类操作，本次浏览器收藏夹整理方法结束或者进行后续的建立多级目录结构过程；如果待整理浏览器收藏夹的当前根目录处于上述C的状态，则应执行本步骤S120中的聚类操作，然后，到步骤S130。

另外，在上述步骤S110中，如果根据目录信息在确定出浏览器收藏夹没有包含有非根目录的情况下，会直接跳转到本步骤S120，此时，待整理浏览器收藏夹的当前根目录仍然会存在上述三种可能性。

本实施例可以利用链接地址之间的相似度对待整理浏览器收藏夹的当前根目录下的所有链接地址进行聚类，具体的，本实施例可以在采集到的多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识的基础上，针对待整理浏览器收藏夹的当前根目录下的任意两链接地址计算其相似度，这样，可以获得当前根目录下的任一链接地址与其他所有链接地址的相似度，如果两链接地址之间的相似度超过一定的阈值，则将这两个链接地址归属到同一类中。本实施例利用两链接地址之间的相似度可以将当前根目录下的所有链接地址划分为至少一类。

本实施例可以采用计算链接地址的特征向量之间的余弦距离的方式来计算链接地址之间的相似度。一个具体的例子，将待整理浏览器收藏夹的当前根目录下的一个链接地址的特征向量与当前根目录下的其他所有链接地址的特征向量分别进行余弦距离的计算，这样，可以得出当前根目录下的该链接地址的特征向量与当前根目录下的其他所有链接地址的特征向量之间的余弦距离值，然后，判断当前根目录下的该链接地址的特征向量与其他一个或者多个链接地址的特征向量之间的余弦距离是否达到预先设定的第二距离阈值，如果达到第二距离阈值，则确定出两链接地址相似，从而可以将余弦距离达到第二距离阈值的当前根目录下的两链接地址划分为同一类；例如，设定当前根目录下包含有链接地址A、链接地址B、链接地址C、链接地址D以及链接地址E，经过计算可知，链接地址A的特征向量与链接地址B的特征向量和链接地址C的特征向量之间的余弦距离均达到第二距离阈值，同时，链接地址A的特征向量与链接地址D的特征向量和链接地址E的特征向量之间的余弦距离均没有达到第二距离阈值，而链接地址D的特征向量和链接地址E的特征向量之间的余弦距离达到第二距离阈值，则本实施例可以将上述链接地址A、链接地址B以及链接地址C划分为同一类，同时，还应将链接地址D和链接地址E划分为另一类。

本步骤中的链接地址的特征向量的具体设置方式可以参见上述S110中的描述，在此不再重复说明。

S130、根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识为上述聚类获得的每一类链接地址设置非根目录标识，并将每一类链接地址调整到非根目录标识所表示的非根目录下。

具体的，本实施例是根据预先采集到的网络中的多个用户(如全网用户)的浏览器收藏夹中的链接地址所属的非根目录的实际情况来设置上述聚类后的链接地址所对应的非根目录信息的；也就是说，本实施例通过针对多个用户对浏览器收藏夹中的链接地址的整理经验进行综合分析，可以获得链接地址整理的经验数据，之后，再利用预先综合分析获得的经验数据来设置上述聚类后的链接地址的非根目录标识。换句话说，本实施例是根据网络中多个用户的浏览器收藏夹的历史收藏行为来为聚类后的链接地址设置非根目录标识的。

本步骤中的多个用户(如全网用户)的浏览器收藏夹中的链接地址所属的非根目录的实际情况可以为滤除了噪音数据后的实际情况，也就是说，本步骤可以将过滤后获得的多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识作为基础数据，进行后续的统计计算，从而为聚类后的每一类链接地址设置非根目录标识；例如，针对聚类后的一类链接地址而言，可以以多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识作为基础数据统计该聚类中的各链接地址所属的非根目录标识的分布情况，然后，根据统计出的各链接地址所属的非根目录标识的分布情况为该类链接地址设置非根目录标识。上述分布情况可以为一个聚类中的各链接地址属于某一个非根目录的次数与各链接地址属于所有各非根目录的次数的比例。

在对多个用户进行了专家用户和非专家用户的区分的情况下，在统计该聚类中的各链接地址所属的非根目录标识的分布情况的过程中，可以为专家用户的浏览器收藏夹的非根目录设置较高的权重值，为非专家用户的浏览器收藏夹的非根目录设置较低的权重值，这样，计算出的该类中各链接地址所属的非根目录标识的分布情况会更多的参考了专家用户的浏览器收藏夹的非根目录的设置方式；例如，在计算一个聚类中的各链接地址属于某一个非根目录的次数与各链接地址属于所有各非根目录的次数的比例的过程中，如果一个链接地址属于一个非根目录出现在专家用户的浏览器收藏夹中，则该链接地址属于该非根目录的比重会高与该链接地址属于一个非专家用户的浏览器收藏夹中的非根目录的比重。

从上述描述可知，本实施例是针对网络中多个用户对浏览器收藏夹中的链接地址的整理经验进行综合分析，从而可以获得多个用户对链接地址整理的经验数据，并依据这些经验数据来设置待整理浏览器收藏夹中的链接地址和非根目录之间的对应关系。另外，在设置该对应关系过程中，可以参考普通用户的浏览器收藏夹中的非根目录信息与链接地址之间的对应关系的情况下，以专家用户的浏览器收藏夹中的非根目录信息与链接地址之间的对应关系为重要参考依据，以使待整理浏览器收藏夹中的链接地址和非根目录之间的对应关系设置的更加合理。

在经过上述整理后，待整理浏览器收藏夹中通常不会有直接设置在根目录下的链接地址，所有链接地址基本上都设置在相应的非根目录中。在待整理浏览器收藏夹中的非根目录数量较多等情况下，为了使待整理浏览器收藏夹中的非根目录更具有层次和条理，可以对上述整理后的待整理浏览器收藏夹的非根目录建立多级目录结构。

本实施例可以根据上述多个用户的浏览器收藏夹的非根目录的父子关系为上述整理后的浏览器收藏夹的非根目录建立多级目录结构。考虑到用户在通常情况下较少使用二级以上的目录等因素，因此，本实施例中的多级目录结构通常为二级目录结构。

建立二级目录结构的情况下，本实施例可以以上述多个用户的浏览器收藏夹的非根目录的父子关系为基础数据来统计整理后的用户的浏览器收藏夹的各非根目录的父目录的分布情况，然后，根据获得的父目录的分布情况为用户的浏览器收藏夹中的具有相同父目录的多个非根目录设置父目录标识，从而建立二级目录结构；例如，针对经过上述整理后的浏览器收藏夹的具有相同父目录的多个非根目录，可以根据上述基础数据计算出多个非根目录属于不同父目录的比重值，然后，根据比重值来为非根目录设置父目录。

需要说明的是，在针对父目录下只有一个非根子目录的情况，本实施例是不需要为该非根子目录设置父目录的，该非根子目录的父目录是根目录。也就是说，本实施例设置的父目录是为多个非根子目录而设置的。另外，如果需要建立高于二级目录的多级目录结构，则可以采用与上述描述相似的方法来实现，在此不再详细说明。

实施例二、浏览器收藏夹整理方法。该浏览器收藏夹整理方法的示意图如图2所示。

图2中包括两部分内容，第一部分为数据整理部分，第二部分为待整理的用户的浏览器收藏夹中的链接地址的整理部分。

在第一部分的数据整理部分中，首先，采集多个用户的浏览器收藏夹的目录结构信息与链接地址之间的对应关系，并从采集到的对应关系中识别出专家用户的目录结构信息与链接地址之间的对应关系以及普通用户的目录结构信息与链接地址之间的对应关系。

具体的，本实施例在接收到采集的各用户的浏览器传输来的浏览器收藏夹的目录结构信息与链接地址之间的对应关系后，可以先选择优质用户数据，一个具体的例子，对接收到的对应关系进行过滤处理，滤除用户的浏览器收藏夹中的噪音数据，以避免这些噪音数据对后续综合分析的干扰，然后，再针对滤除了噪音数据后的对应关系进行专家用户的目录结构信息与链接地址之间的对应关系与普通用户的目录结构信息与链接地址之间的对应关系的识别操作。

收藏于浏览器收藏夹中的噪音数据可以有多种，如噪音数据可以为通过浏览器收藏夹的自动导入而被收藏于收藏夹中的链接地址，也可以为长期未被用户使用的链接地址，还可以为失效的链接地址等。

本实施例可以利用浏览器收藏夹使用日志以及链接地址的属性信息来对采集到的对应关系进行过滤；具体的，本实施例通过浏览器收藏夹使用日志可以将长期未被用户使用的链接地址以及失效的链接地址滤除；通过判断链接地址的属性信息可以识别出链接地址是用户主动收藏于浏览器收藏夹中的，还是浏览器收藏夹通过自动导入而收藏于浏览器收藏夹中的。

本实施例可以根据用户对其浏览器收藏夹中的链接地址的访问情况(或者称为使用情况)以及用户对其浏览器收藏夹的整理情况来区分专家用户的目录结构信息与链接地址之间的对应关系以及普通用户的目录结构信息与链接地址之间的对应关系。一个具体的例子，本实施例通过浏览器收藏夹使用日志可以判断出用户是否每天(如只针对工作日的每天或者只针对有网络访问操作的自然天的每天)都对其浏览器收藏夹中的链接地址进行过访问，且通过对用户的浏览器收藏夹的目录结构信息与链接地址之间的对应关系进行判断可以确定出用户未整理的链接地址占其浏览器收藏夹中的所有链接地址的比例；如果一个用户每天都对其浏览器收藏夹中的链接地址进行过访问，且用户未整理的链接地址占用户的浏览器收藏夹中的所有链接地址的比例不超过预定比例值(如0.1)，则可以将该用户确定为专家用户，并将该用户的浏览器收藏夹的目录结构信息与链接地址之间的对应关系确定为的专家用户数据；如果一个用户并没有每天对其浏览器收藏夹中的链接地址进行过访问或者用户未整理的链接地址占用户的浏览器收藏夹中的所有链接地址的比例超过预定比例值(如0.1)，则可以将该用户确定为普通用户，并将该用户的浏览器收藏夹的目录结构信息与链接地址之间的对应关系确定为普通用户数据。

在选择了优质用户数据之后，可以统计url的非根目录名称，即以专家用户数据和普通用户数据为基础数据对链接地址(如待整理的用户的浏览器收藏夹中的链接地址)所属的非根目录名称的分布情况进行统计。该统计过程可以在对待整理的用户的浏览器收藏夹中的链接地址进行整理之前就执行完成，也可以在对待整理的用户的浏览器收藏夹中的链接地址进行整理过程中执行。

具体的，链接地址所属的非根目录名称的分布情况可以表现为如下形式：

X_url(p(tag₀│url),p(tag₁│url)……p(tag_i│url)) 公式(1)

在上述公式(1)中，x_url()表示链接地址url所属的非根目录名称的分布情况，p(tag₀|url)表示链接地址url被标记为tag₀的分布情况(即url属于非根目录名称tag₀的分布情况)，p(tag₁|url)表示链接地址url被标记为tag₁的分布情况(即url属于非根目录名称tag₁的分布情况)，p(tag_i|url)表示链接地址url被标记为tag_i的分布情况(即url属于非根目录名称tag_i的分布情况)。

上述公式(1)中的p(tag_i|url)可以通过下述公式(2)计算获得：

公式(2)

在上述公式(2)中，β和λ为预先设定的两个系数(也可以称为两个权重值)，且β和λ应满足两个条件：条件一、β＜λ；条件二、β+λ＝1。

在上述公式(2)中，G(tag_i|url)表示url被普通用户标记为tag_i的次数(即在普通用户数据中，url属于非根目录名称tag_i的分布情况)，R(tag_i|url)表示url被专家用户标记为tag_i的次数(即在专家用户数据中，url属于非根目录名称tag_i的分布情况)，n为预先设定的整数，n的取值大小会对链接地址的特征向量产生影响，即会对链接地址所属的不同的非根目录名称的数量产生影响；在实际应用中下，n的取值往往应该足够大，以使链接地址的特征向量可以体现出链接地址所属的所有非根目录名称；另外，在链接地址所属的所有非根目录名称的实际数量小于n的情况下，链接地址的向量中的一些位置的数值可以相应的设置为零。

在统计了url的非根目录名称之后，对非根目录名称之间的父子关系进行统计，针对浏览器收藏夹中包含有至少二级目录的普通用户数据以及专家用户数据为基础数据，对不同非根目录名称之间的父子关系的分布情况分别进行统计。该统计过程可以在对待整理的用户的浏览器收藏夹中的链接地址进行整理之前就执行完成，也可以在对待整理的用户的浏览器收藏夹中的链接地址进行整理过程中执行。

不同非根目录名称之间的父子关系的分布情况可以表示为如下形式：

公式(3)

在上述公式(3)中，p(ptag_i→ptag_i)表示非根目录名称ptag_i作为非根目录名称ptag_i的父标签的概率，F(ptag_i→ptag_i表示非根目录名称ptag_i作为非根目录名称ptag_i的父标签出现的次数，表示非根目录名称ptag_i作为子标签出现的次数。

通过上述公式(1)、公式(2)以及公式(3)可以获得链接地址所属目录名称的分布情况以及链接地址间的父子关系分布情况，这两个分布情况可以应用于图2右侧所示出的链接地址整理部分的为聚类的url选择目录名称过程以及优化目录结构过程。

在第二部分的链接地址整理部分中，是针对待整理的用户的浏览器收藏夹中的用户未进行过整理的链接地址部分进行整理；这里的未整理的链接地址是指用户在收藏一链接地址时将该链接地址设置于收藏夹的根目录中的链接地址；也就是说，本实施例不会针对用户已经为其设置了目录名称的链接地址进行整理。

在第二部分的链接地址整理部分中，首先，本实施例可以通过比较未整理的链接地址与用户的浏览器收藏夹中已整理的链接地址之间的相似度，来将相似度满足一定阈值的未整理的链接地址调整到与其相似度最高的链接地址所在的非根目录中。如果未整理的链接地址与其他非根目录中的链接地址之间的相似度均不满足一定阈值，则本实施例不会执行将链接地址调整到相应的非根目录下的调整操作。

上述相似度可以通过两个链接地址的特征向量X_url之间的余弦距离来表示，如相似度可以表示为：

Similary(X_i,X_j)＝Cos(X_i,X_j) 公式(4)

在上述公式(4)中，Similary(X_i，X_j)表示第i个url与第j个url之间的相似度，Cos(X_i，X_j)表示第i个url的特征向量与第j个url的特征向量之间的余弦距离。

在执行了上述将相似度满足一定阈值的未整理的链接地址调整到与其相似度最高的链接地址所在的非根目录中的操作之后，应对用户的浏览器收藏夹的根目录中的当前所有的链接地址进行聚类，也就是说，对于当前根目录下所有未满足一定阈值的链接地址进行聚类，并为聚类后的每一类链接地址选择合适的目录名称。

聚类的一个具体的例子，如图3所示，设定当前根目录下的所有链接地址包括：X_i(第i个url)、X_i+1(第i+1个url)、X_i+2(第i+2个url)、X_i+3(第i+3个url)以及X_i+4(第i+4个url)；第i个url与第j个url之间的相似度可以表示为Similary(X_i,X_j)，通过计算各个url之间的相似度，可以在相似度大于一定阈值的两个链接地址之间建立边，形成连通图，通过收集所有的连通图，可以获得至少一个url集合(即至少一个类)；图3所示的两个连通图表示两个集合，即Set(X_i,X_i+1,X_i+2)和Set(X_i+3,X_i+4)，也就是说，X_i、X_i+1和X_i+2聚为一个类，而X_i+3和X_i+4聚为另一个类。

为一类链接地址选择目录名称的一个具体的例子：根据url的非根目录名称统计结果来确定该类下的所有url所对应的非根目录名称的集合Set(tag_i,tag_i+1,....)，然后利用下述公式(5)来为该类链接地址设置目录名称：

MaxΣp(tag_i|url_i)+p(tag_i|url_i+1) 公式(5)

在上述公式(5)中，p(tag_i│url_i)表示非根目录名称tag_i作为url_i的目录名称的次数，p(tag_i│url_i+1)表示非根目录名称tag_i作为url_i+1的目录名称的次数，MaxΣ(p(tag_i|url_i)+p(tag_i|url_i+1)......)表示选择数值最大的tag作为该类链接地址的目录名称。

在执行了上述聚类以及为聚类后的每一类链接地址选择合适的目录名称之后，在用户的浏览器收藏夹中的当前目录名称的数量较多的情况下，应优化用户的浏览器收藏夹中的目录结构，根据目录名称间的父子关系建立多级目录结构。也就是说，在用户的浏览器收藏夹中的当前根目录下的所有一级目录的数量超过一定的数量时，应对当前根目录下的多个一级目录设置父目录；这里的多个一级目录可以是当前根目录下的所有的一级目录，也可以是当前根目录下的部分一级目录。

目录结构优化的一个具体的例子：根据父子关系的统计结果为当前根目录下的至少两个一级目录设置一父目录；设定当前根目录下的所有一级目录名称的集合表示为Set(tag_i,tag_i+1,....)，利用前述的父子关系的统计结果获得集合中的每一个一级目录名称tag的所有父目录名称，可以表示为P(Ptag_i->tag_i)，将大于一定阈值的父目录名称记为Set(ptag₀,ptag₁...ptag_i...)，然后，本实施例可以利用下述公式确定几个一级目录的父目录名称：

Max{Σp(ptag_i→tag_i)} 公式(6)

需要说明的是，本实施例可以在一个父目录下只有一个一级目录的情况下，不为该一级目录建立父目录，例如，虽然父子关系统计中父目录名称“生活”中包含“淘宝”、“养生”以及“购物”这三个子目录名称，然而，用户的浏览器收藏夹中仅包含有一级目录“淘宝”，而没有包含有“养生”以及“购物”这两个一级目录，因此，可以不为“淘宝”建立父目录“生活”。

实施例三、浏览器收藏夹整理方法的一个实例。

以采集到的多个用户的浏览器收藏夹的非根目录下的链接地址为基础数据进行统计，可以获得链接地址url所属的非根目录名称的分布情况表示为：

X_url：(p(购物|url),p(网购|url),p(淘宝|url)…)；根据统计结果可知该表达式的某一个示例的具体取值为(0.22，0.15，0.1……)；

以采集到的多个用户的浏览器收藏夹的非根目录下的链接地址为基础数据进行统计，可以获得非根目录名称之间的父子关系，具体的：

P(游戏->网游)＝0.2；即非根目录“游戏”作为非根目录“网游”的父目录的概率为0.2；

P(游戏->小游戏)＝0.3；即非根目录“游戏”作为非根目录“小游戏”的父目录的概率为0.3。

上述P(游戏->网游)是利用下述公式(7)计算出来的：

P(游戏->网游)＝{“网游”做为“游戏”的子目录出现的次数}/{“网游”做为子目录出现的次数}；公式(7)

上述P(游戏->小游戏)是利用下述公式(8)计算出来的：

P(游戏->小游戏)＝{“小游戏”做为“游戏”的子目录出现的次数}/{“小游戏”做为子目录出现的次数}；公式(8)

在基于上述统计出的数据对待整理用户的浏览器收藏夹中的链接地址进行整理的操作如下：

首先，计算该用户未整理url(直接设置于根目录下的url)与该用户已整理url(设置于非根目录下的url)的相似度，具体的：

用户的浏览器收藏夹中包含有“购物”这一非根目录，且该非根目录“购物”下包含有链接地址http://www.taobao.com/；该链接地址为用户已整理url。该用户的浏览器收藏夹中的根目录下设置有http://www.jd.com/，该链接地址为用户未整理url。

对基础数据进行统计可知，http://www.taobao.com/这一链接地址所属的非根目录名称的分布情况如下：

(p(购物|url),p(网购|url),p(淘宝|url)……)，其具体数值为：(0.7，0.2，0.1)；

对基础数据进行统计可知，http://www.jd.com/这一链接地址所属的非根目录名称的分布情况如下：

(p(购物|url),p(京东|url),p(jd|url)…)，其具体数值为：(0.5，0.2，0.3)；

http://www.taobao.com/和http://www.jd.com/两者之间的相似度为：

Similary(http://www.taobao.com/,http://www.jd.com/)＝0.38；

如果预先设定在Similary>0.1的情况下，可以将根目录下的链接地址调整到相应的非根目录中，由于上述http://www.taobao.com/和http://www.jd.com/两者之间的相似度为0.38，超过预先设定的一阈值0.1，因此，本实施例应将http://www.jd.com/调整到用户的浏览器收藏夹的“购物”目录下。需要说明的是，上述阈值0.1可以根据实际应用的具体需求而调整其大小。另外，如果用户的浏览器收藏夹中还存在除“购物”之外的其他非根目录(该其他非根目录可以为非根一级目录，也可以为非根二级目录)，则本实施例应将http://www.jd.com/与其他非根目录中的各链接地址进行相似度计算，并将http://www.jd.com/这一链接地址调整到相似度最高的非根目录中。

在进行了上述调整后，如果用户的浏览器收藏夹中还存在未整理的链接地址，则应对当前未整理的所有链接地址进行聚类。

设定当前未整理的所有链接地址包括：

http://www.pcauto.com.cn/；

http://www.xcar.com.cn/；

http://ent.sina.com.cn/star/；

http://data.yule.sohu.com/star/；

http://www.4399.com/；

http://www.7k7k.com/。

通过计算任意两个url之间的相似度可以将用户未整理的上述url聚类为如下三类：

第一类：http://www.pcauto.com.cn/和http://www.xcar.com.cn/；第二类：http://ent.sina.com.cn/star/，http://data.yule.sohu.com/star/；第三类：http://www.4399.com/和http://www.7k7k.com/。

为上述聚类后获得的三个类分别设置目录名称。

以为http://www.pcauto.com.cn/和http://www.xcar.com.cn/设置目录名称为例对本实施例的设置目录名称的具体实现方式进行说明：

http://www.pcauto.com.cn/所属的非根目录名称的分布情况(也可以称为http://www.pcauto.com.cn/的目录名称特征)如下：

(p(汽车|url),p(生活|url))，其具体取值为(0.7,0.5)；

http://www.xcar.com.cn/所属的非根目录名称的分布情况(也可以称为http://www.xcar.com.cn/的目录名称特征)如下：

(p(汽车|url),p(生活|url),p(car|url))，其具体取值为(0.5,0.2,0.3)。

由此可知，可以为http://www.pcauto.com.cn/和http://www.xcar.com.cn/选择的目录名称可以为(汽车，生活，car)；

从(汽车，生活，car)中选择一个最优的目录名称的实现方式如下：

p(汽车|url1)+p(汽车|url2)＝0.7+0.5＝1.3；

p(生活|url1)+p(生活|url2)＝0.2+0.5＝0.7；

p(car|url1)+p(car|url2)＝0+0.3＝0.3；

比较上述计算结果可知，p(汽车|url1)+p(汽车|url2)的取值最大，因此，可以将“汽车”作为http://www.pcauto.com.cn/和http://www.xcar.com.cn/的目录名称。

在对用户未整理的url进行了聚类，并为每一类确定了目录名称之后，在一级目录数量较多的情况下，可以对用户的浏览器收藏夹的目录结构进行优化处理，以建立多级目录结构。一个具体的实例如下：

根据对基础数据的统计可知，目录名称汽车、游戏和明星之间的父子关系如下：

P(生活->明星)＝0.1；

P(生活->游戏)＝0.05；

P(娱乐->明星)＝0.2；

P(娱乐->游戏)＝0.1；

P(生活->汽车)＝0.03；

通过利用Max{Σp(ptag_i→tag_i)}进行计算可以获得：

P(娱乐->明星)+P(娱乐->游戏)＝0.3；

P(生活->明星)+P(生活->游戏)+p(生活->汽车)＝0.18；

由于(P(娱乐->明星)+P(娱乐->游戏))>(P(生活->明星)+P(生活->游戏)+p(生活->汽车))，因此，为用户的浏览器收藏夹建立的目录结构具体为：

娱乐->游戏，明星；

汽车；

也就是说，用户的浏览器收藏夹的根目录下的子目录为“娱乐”以及“汽车”，即“娱乐”和“汽车”为一级目录，“娱乐”的子目录为“游戏”和“明星”，即“游戏”和“明星”为二级目录。

至此，完成用户的浏览器收藏夹的整理过程。

实施例四、浏览器收藏夹整理装置，该装置如图4所示。

图4中的浏览器收藏夹整理装置主要包括：获取模块400、第一调整模块410、聚类模块420以及第二调整模块430；可选的，该装置还可以包括：建立多级目录模块440、采集模块450、过滤模块460以及用户类型区分模块470。

获取模块400主要适于获取待整理浏览器收藏夹的目录结构信息以及各链接地址。

具体的，获取模块400获取到的待整理浏览器收藏夹的目录结构信息以及各链接地址不仅可以表示出待整理浏览器收藏夹中所包含的各目录的目录标识以及浏览器收藏夹中所收录的各链接地址，还可以表示出待整理浏览器收藏夹中所收录的各链接地址所属的目录(即链接地址所属的目录标识)以及不同目录之间的父子关系(即不同目录标识之间的父子结构)；也就是说，获取模块400获取的信息可以表示出一个链接地址是处于根目录下，还是处于某个非根目录下，如果是处于非根目录下，则还可以进一步表示出该非根目录的父目录标识以及子目录标识等。

获取模块400获取到的待整理浏览器收藏夹的目录结构信息可以包含目录标识、父目录标识以及子目录标识等，且获取模块400获取到的待整理浏览器收藏夹的目录结构信息以及各链接地址通常可以表现为目录结构信息与链接地址之间的对应关系的形式，一个具体的例子，获取模块400获取到的信息中的一条记录包含有本目录标识、本目录标识的父目录标识、本目录标识的子目录标识以及本目录标识所表示的目录下的所有链接地址。上述目录标识也可以称为目录名称或者链接地址的标签或者链接地址的目录标签等，上述父目录标识也可以称为父目录名称或者父目录标签等，上述子目录标识也可以称为子目录名称或者子目录标签等。

本实施例可以利用待整理浏览器客户端来获取目录结构信息以及各链接地址，如待整理浏览器客户端根据其内部配置的网络设备地址将其收藏夹的目录结构信息以及各链接地址传输给相应的网络设备，使该网络设备中的获取模块400获取到待整理浏览器收藏夹的目录结构信息以及各链接地址。

第一调整模块410主要适于在根据目录结构信息确定出待整理浏览器收藏夹中包含有非根目录的情况下，根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识确定待整理浏览器收藏夹的根目录下的各链接地址与待整理浏览器收藏夹的非根目录下的各链接地址之间的相似度，并将待整理浏览器收藏夹的根目录下的与非根目录下的链接地址相似的链接地址调整到相应的非根目录下。

具体的，第一调整模块410在根据上述获取到的目录结构信息确定出待整理浏览器收藏夹并没有包含非根目录的情况下，则不执行其判断以及调整操作而是触发聚类模块420执行聚类操作；而第一调整模块410在根据上述获取到的目录结构信息确定出待整理浏览器收藏夹包含有非根目录的情况下，则执行将根目录下的链接地址调整到相应的非根目录下的判断操作以及相应的调整操作。

第一调整模块410可以基于多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识来计算待整理浏览器收藏夹的根目录下的各链接地址与非根目录下的各链接地址之间的相似度；在待整理浏览器收藏夹的非根目录仅包括一级目录的情况下，上述非根目录下的各链接地址即为一级目录下的各链接地址；在非根目录包括一级目录和二级目录的情况下，上述非根目录下的各链接地址可以包括一级目录下的所有链接地址以及二级目录下的所有链接地址。

本实施例中的采集模块450预先采集了网络中多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识，一个具体的例子，采集模块450通过浏览器客户端等工具来采集网络中多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识。

第一调整模块410是根据采集模块450预先采集到的网络中的多个用户(如全网用户)的浏览器收藏夹中的链接地址所属的非根目录的实际情况来计算链接地址之间的相似度；也就是说，第一调整模块410通过针对多个用户对浏览器收藏夹中的链接地址的整理经验进行综合分析，可以获得链接地址整理的经验数据，之后，第一调整模块410再利用预先综合分析获得的经验数据来计算待整理浏览器收藏夹中的链接地址之间的相似度。换句话说，第一调整模块410是根据网络中多个用户的浏览器收藏夹的历史收藏行为来计算待整理浏览器收藏夹中的链接地址之间的相似度的。

为了避免采集到的各用户的浏览器收藏夹的各链接地址中的噪音数据对后续的统计分析造成不良影响，本实施例中的过滤模块460可以对采集模块450采集到的多个用户的浏览器收藏夹的非根目录下的链接地址进行过滤，以滤除其中的噪音数据。这里的噪音数据可以为在预定长时间内未被用户使用的链接地址(即使用频率非常低的链接地址)，也可以为已经失效的链接地址。过滤模块460进行过滤的一个具体的例子为：过滤模块460利用浏览器收藏夹使用日志来确定各链接地址的使用频率，从而滤除使用频率不符合预定要求的链接地址。

在过滤模块460滤除了噪音数据后，第一调整模块410可以将过滤后获得的多个用户的浏览器收藏夹的非根目录下的链接地址作为基础数据，进行后续的统计计算，从而为待整理浏览器收藏夹中的各链接地址设置向量，并利用各链接地址的向量来计算各链接地址之间的相似度；如针对待整理浏览器收藏夹中的每一个链接地址而言，第一调整模块410可以以多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识作为基础数据分别统计上述每一个链接地址所属的非根目录标识的分布情况，然后，第一调整模块410将统计出的分布情况作为相应的链接地址的向量。

上述多个用户通常可以被用户类型区分模块470进行区分处理，如区分为专家用户以及普通用户；当然，本实施例也不排除上述多个用户只包括普通用户或者只包括专家用户的情况。

在用户类型区分模块470对多个用户进行了专家用户和非专家用户的区分处理的情况下，第一调整模块410在设置待整理浏览器收藏夹中的链接地址的向量的过程中，可以为专家用户的浏览器收藏夹的非根目录设置较高的权重值，为非专家用户的浏览器收藏夹的非根目录设置较低的权重值，这样，第一调整模块410为链接地址设置的向量会更多的参考了专家用户的浏览器收藏夹的链接地址所属的非根目录标识的设置方式。

第一调整模块410可以采用计算两个链接地址的特征向量之间的余弦距离的方式来计算链接地址之间的相似度。一个具体的例子，第一调整模块410将根目录下的每一个链接地址的特征向量都与非根目录下的每一个链接地址的特征向量进行余弦距离的计算，这样，会得出根目录下的每一个链接地址与非根目录下的每一个链接地址的特征向量之间的余弦距离值，然后，第一调整模块410判断根目录下的每一个链接地址分别对应的一个或者多个相似度是否达到预先设定的第一距离阈值，如果达到第一距离阈值，则第一调整模块410确定出两链接地址相似，因此，第一调整模块410可以将余弦距离达到第一距离阈值的根目录下的链接地址调整到相应的非根目录下；例如，根目录下的链接地址A与一级目录A下的链接地址B之间的余弦距离达到第一距离阈值，则第一调整模块410将链接地址A调整到一级目录A下。

需要特别说明的是，在根目录下的一个链接地址的特征向量与多个不同的非根目录下的链接地址的特征向量之间的余弦距离均达到第一距离阈值的情况下，第一调整模块410可以根据各余弦距离超出第一距离阈值的情况来为根目录下的链接地址选取相应的目标非根目录，然后，第一调整模块410将根目录下的该链接地址调整到目标非根目录下；一个具体的例子：第一调整模块410计算出的根目录下的链接地址A的特征向量与非根目录a下的链接地址B的特征向量之间的余弦距离为余弦距离a，根目录下的链接地址A的特征向量与非根目录b下的链接地址C的特征向量之间的余弦距离为余弦距离b，且余弦距离a>余弦距离b>第一距离阈值，则第一调整模块410可以将根目录下的链接地址A调整到非根目录a下。

从上述描述可知，第一调整模块410是针对网络中多个用户对浏览器收藏夹中的链接地址的整理经验进行综合分析，从而可以获得多个用户对链接地址整理的经验数据，并依据这些经验数据来设置待整理的浏览器收藏夹中的各链接地址间的相似度，以将链接地址调整到相应的非根目录中。另外，在第一调整模块410设置链接地址的向量过程中，在参考普通用户的浏览器收藏夹中的非根目录信息与链接地址之间的对应关系的情况下，第一调整模块410以专家用户的浏览器收藏夹中的非根目录信息与链接地址之间的对应关系为重要参考依据，以使链接地址的向量设置以及两链接地址之间的相似度计算结果更加合理。

第一调整模块410将根目录下的与非根目录下的链接地址相似的链接地址调整到相应的非根目录下可以具体为：第一调整模块410修改链接地址与目录结构信息之间的对应关系；如删除根目录下的与非根目录下的链接地址相同或相似的链接地址的原对应关系，并增加一条新的对应关系，且该新的对应关系为根目录下的与非根目录下的链接地址相似的链接地址与相应的非根目录结构信息的对应关系；再如，第一调整模块410将根目录下的与非根目录下的链接地址相似的链接地址的原对应关系中的目录结构信息由根目录结构信息修改为相应的非根目录结构信息。续前例，在第一调整模块410将链接地址A调整到相应的非根目录下之前，链接地址A与根目录结构信息之间存在对应关系，而在第一调整模块410将链接地址A调整到相应的非根目录下之后，链接地址A与一级目录A结构信息之间存在对应关系。

聚类模块420主要适于在待整理浏览器收藏夹的当前根目录下包含有多个链接地址的情况下，根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识确定待整理浏览器收藏夹的当前根目录下的各链接地址之间的相似度，并根据各链接地址之间的相似度对当前根目录下的各链接地址进行聚类。

具体的，在第一调整模块410进行了上述调整操作后，或者在第一调整模块410不需要执行上述调整操作的情况下，待整理浏览器收藏夹的当前根目录存在下述三种可能性：

A、待整理浏览器收藏夹的当前根目录下不存在链接地址；

C、待整理浏览器收藏夹的当前根目录下存在多个链接地址。

如果待整理浏览器收藏夹的当前根目录处于上述A和B的状态，则聚类模块420不需要再执行聚类操作；如果待整理浏览器收藏夹的当前根目录处于上述C的状态，则聚类模块420应执行聚类操作。

聚类模块420可以利用链接地址之间的相似度对待整理浏览器收藏夹的当前根目录下的所有链接地址进行聚类，具体的，聚类模块420可以在采集模块450采集到的多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识的基础上，针对待整理浏览器收藏夹的当前根目录下的任意两链接地址计算其相似度，这样，聚类模块420可以获得当前根目录下的任一链接地址与其他所有链接地址的相似度，如果两链接地址之间的相似度超过一定的阈值，则聚类模块420将这两个链接地址归属到同一类中。聚类模块420利用两链接地址之间的相似度可以将当前根目录下的所有链接地址划分为至少一类。

聚类模块420可以采用计算链接地址的特征向量之间的余弦距离的方式来计算链接地址之间的相似度。一个具体的例子，聚类模块420将待整理浏览器收藏夹的当前根目录下的一个链接地址的特征向量与当前根目录下的其他所有链接地址的特征向量分别进行余弦距离的计算，这样，聚类模块420可以得出当前根目录下的该链接地址的特征向量与当前根目录下的其他所有链接地址的特征向量之间的余弦距离值，然后，聚类模块420判断当前根目录下的该链接地址的特征向量与其他一个或者多个链接地址的特征向量之间的余弦距离是否达到预先设定的第二距离阈值，如果达到第二距离阈值，则聚类模块420确定出两链接地址相似，从而聚类模块420可以将余弦距离达到第二距离阈值的当前根目录下的两链接地址划分为同一类；例如，设定当前根目录下包含有链接地址A、链接地址B、链接地址C、链接地址D以及链接地址E，经过计算可知，链接地址A的特征向量与链接地址B的特征向量和链接地址C的特征向量之间的余弦距离均达到第二距离阈值，同时，链接地址A的特征向量与链接地址D的特征向量和链接地址E的特征向量之间的余弦距离均没有达到第二距离阈值，而链接地址D的特征向量和链接地址E的特征向量之间的余弦距离达到第二距离阈值，则聚类模块420可以将上述链接地址A、链接地址B以及链接地址C划分为同一类，同时，聚类模块420还应将链接地址D和链接地址E划分为另一类。

聚类模块420设置链接地址的特征向量的具体方式可以参见上述第一调整模块410中的描述，在此不再重复说明。

第二调整模块430主要适于根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识为上述聚类获得的每一类链接地址设置非根目录标识，并将每一类链接地址调整到非根目录标识所表示的非根目录下。

具体的，第二调整模块430是根据预先采集到的网络中的多个用户(如全网用户)的浏览器收藏夹中的链接地址所属的非根目录的实际情况来设置上述聚类后的链接地址所对应的非根目录信息的；也就是说，第二调整模块430通过针对多个用户对浏览器收藏夹中的链接地址的整理经验进行综合分析，可以获得链接地址整理的经验数据，之后，第二调整模块430再利用预先综合分析获得的经验数据来设置上述聚类后的链接地址的非根目录标识。换句话说，第二调整模块430是根据网络中多个用户的浏览器收藏夹的历史收藏行为来为聚类后的链接地址设置非根目录标识的。

第二调整模块430可以将过滤模块460过滤后获得的多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识作为基础数据，进行后续的统计计算，从而第二调整模块430为聚类后的每一类链接地址设置非根目录标识；例如，针对聚类后的一类链接地址而言，第二调整模块430可以以多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识作为基础数据统计该聚类中的各链接地址所属的非根目录标识的分布情况，然后，第二调整模块430根据统计出的各链接地址所属的非根目录标识的分布情况为该类链接地址设置非根目录标识。上述分布情况可以为一个聚类中的各链接地址属于某一个非根目录的次数与各链接地址属于所有各非根目录的次数的比例。

从上述描述可知，第二调整模块430是针对网络中多个用户对浏览器收藏夹中的链接地址的整理经验进行综合分析，从而可以获得多个用户对链接地址整理的经验数据，并依据这些经验数据来设置待整理浏览器收藏夹中的链接地址和非根目录之间的对应关系。另外，在设置该对应关系过程中，第二调整模块430可以参考普通用户的浏览器收藏夹中的非根目录信息与链接地址之间的对应关系的情况下，以专家用户的浏览器收藏夹中的非根目录信息与链接地址之间的对应关系为重要参考依据，以使待整理浏览器收藏夹中的链接地址和非根目录之间的对应关系设置的更加合理。

在经过上述整理后，待整理浏览器收藏夹中通常不会有直接设置在根目录下的链接地址，所有链接地址基本上都设置在相应的非根目录中。在待整理浏览器收藏夹中的非根目录数量较多等情况下，为了使待整理浏览器收藏夹中的非根目录更具有层次和条理，建立多级目录模块440可以对上述整理后的待整理浏览器收藏夹的非根目录建立多级目录结构。

建立多级目录模块440主要适于在整理后的浏览器收藏夹的非根目录的数量超过预定数量时，根据多个用户的浏览器收藏夹的非根目录的父子关系为整理后的浏览器收藏夹的非根目录建立多级目录结构。

建立多级目录模块440可以根据上述多个用户的浏览器收藏夹的非根目录的父子关系为上述整理后的浏览器收藏夹的非根目录建立多级目录结构。考虑到用户在通常情况下较少使用二级以上的目录等因素，因此，本实施例中的多级目录结构通常为二级目录结构。

建立二级目录结构的情况下，建立多级目录模块440可以以上述多个用户的浏览器收藏夹的非根目录的父子关系为基础数据来统计整理后的用户的浏览器收藏夹的各非根目录的父目录的分布情况，然后，建立多级目录模块440根据获得的父目录的分布情况为用户的浏览器收藏夹中的具有相同父目录的多个非根目录设置父目录标识，从而建立二级目录结构；例如，针对经过上述整理后的浏览器收藏夹的具有相同父目录的多个非根目录，建立多级目录模块440可以根据上述基础数据计算出多个非根目录属于不同父目录的比重值，然后，建立多级目录模块440根据比重值来为非根目录设置父目录。

需要说明的是，在针对父目录下只有一个非根子目录的情况，是不需要建立多级目录模块440为该非根子目录设置父目录的，该非根子目录的父目录是根目录。也就是说，建立多级目录模块440设置的父目录是为多个非根子目录而设置的。另外，如果需要建立高于二级目录的多级目录结构，则建立多级目录模块440可以采用与上述描述相似的方法来实现，在此不再详细说明。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，例如，ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其是，对于装置或者系统的实施例而言，由于其基本相似于方法的实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明所提供的浏览器收藏夹整理方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种浏览器收藏夹整理方法，其特征在于，包括：

获取待整理浏览器收藏夹的目录结构信息以及各链接地址；

在根据所述目录结构信息确定出所述待整理浏览器收藏夹中包含有非根目录的情况下，根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识确定待整理浏览器收藏夹的根目录下的各链接地址与待整理浏览器收藏夹的非根目录下的各链接地址之间的相似度，并将待整理浏览器收藏夹的根目录下的与非根目录下的链接地址相似的链接地址调整到相应的非根目录下；

在待整理浏览器收藏夹的当前根目录下包含有多个链接地址的情况下，根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识确定待整理浏览器收藏夹的当前根目录下的各链接地址之间的相似度，并根据所述各链接地址之间的相似度对当前根目录下的各链接地址进行聚类；

根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识为上述聚类获得的每一类链接地址设置非根目录标识，并将所述每一类链接地址调整到所述非根目录标识所表示的非根目录下。

2.如权利要求1所述的方法，其特征在于，所述根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识确定待整理浏览器收藏夹的根目录下的各链接地址与待整理浏览器收藏夹的非根目录下的各链接地址之间的相似度，并将待整理浏览器收藏夹的根目录下的与非根目录下的链接地址相似的链接地址调整到相应的非根目录下包括：

计算待整理浏览器收藏夹的根目录下的各链接地址与待整理浏览器收藏夹的非根目录下的各链接地址的特征向量之间的余弦距离；

分别判断各余弦距离是否达到第一距离阈值，并将余弦距离达到第一距离阈值的根目录下的链接地址调整到相应的非根目录下；

其中，所述链接地址的特征向量为：根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识统计出的链接地址属于非根目录标识的分布情况。

3.如权利要求1所述的方法，其特征在于，所述根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识确定待整理浏览器收藏夹的当前根目录下的各链接地址之间的相似度，并根据所述各链接地址之间的相似度对当前根目录下的各链接地址进行聚类包括：

计算待整理浏览器收藏夹的当前根目录下的各链接地址的特征向量之间的余弦距离；

针对待整理浏览器收藏夹的当前根目录下的一个链接地址而言，将该链接地址和与其特征向量之间的余弦距离达到第二距离阈值的所有链接地址划分为一类；

4.如权利要求2或3所述的方法，其特征在于，所述多个用户包括：专家用户和非专家用户；

且所述链接地址的特征向量为：在专家用户的浏览器收藏夹的非根目录所具有的权重高于非专家用户的浏览器收藏夹的非根目录所具有的权重的情况下，统计出的链接地址属于非根目录标识的分布情况；

其中，所述专家用户是指对其浏览器收藏夹中的链接地址的维护使用符合预定要求的用户。

5.如权利要求1或2或3所述的方法，其特征在于，所述多个用户的浏览器收藏夹的非根目录下的链接地址包括：对采集的多个用户的浏览器收藏夹的各链接地址进行噪音数据滤除后获得的链接地址。

6.如权利要求5所述的方法，其特征在于，所述噪音数据包括：预定长时间内未被用户使用的链接地址以及失效的链接地址。

7.如权利要求1或2或3所述的方法，其特征在于，所述根据多个用户的浏览器收藏夹的非根目录下的链接地址为上述聚类获得的每一类链接地址设置非根目录标识包括：

针对聚类后的一类链接地址而言，根据所述多个用户的浏览器收藏夹的非根目录下的链接地址确定该类中的各链接地址所属的非根目录标识的分布情况，并根据所述分布情况为该类链接地址设置非根目录标识。

8.如权利要求7所述的方法，其特征在于，所述多个用户包括：专家用户和非专家用户，所述专家用户是指对其浏览器收藏夹中的链接地址的维护使用符合预定要求的用户；

且所述确定该类中各链接地址所属的非根目录标识的分布情况包括：

在专家用户的浏览器收藏夹的非根目录所具有的权重高于非专家用户的浏览器收藏夹的非根目录所具有的权重的情况下，确定该类中各链接地址所属的非根目录标识的分布情况。

9.如权利要求1或2或3所述的方法，其特征在于，所述方法还包括：

在整理后的浏览器收藏夹的非根目录的数量超过预定数量时，根据多个用户的浏览器收藏夹的非根目录的父子关系为整理后的浏览器收藏夹的非根目录建立多级目录结构。

10.如权利要求9所述的方法，其特征在于，所述根据多个用户的浏览器收藏夹的非根目录的父子关系为整理后的浏览器收藏夹的非根目录建立多级目录结构包括：

根据多个用户的浏览器收藏夹的非根目录的父子关系来统计整理后的浏览器收藏夹的各非根目录的父目录的分布情况，并根据所述父目录的分布情况为具有相同父目录的多个非根目录设置父目录标识。

11.一种浏览器收藏夹整理装置，其特征在于，所述装置包括：

获取模块，适于获取待整理浏览器收藏夹的目录结构信息以及各链接地址；

第一调整模块，适于在根据所述目录结构信息确定出所述待整理浏览器收藏夹中包含有非根目录的情况下，根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识确定待整理浏览器收藏夹的根目录下的各链接地址与待整理浏览器收藏夹的非根目录下的各链接地址之间的相似度，并将待整理浏览器收藏夹的根目录下的与非根目录下的链接地址相似的链接地址调整到相应的非根目录下；

聚类模块，适于在待整理浏览器收藏夹的当前根目录下包含有多个链接地址的情况下，根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识确定待整理浏览器收藏夹的当前根目录下的各链接地址之间的相似度，并根据所述各链接地址之间的相似度对当前根目录下的各链接地址进行聚类；

第二调整模块，适于根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识为上述聚类获得的每一类链接地址设置非根目录标识，并将所述每一类链接地址调整到所述非根目录标识所表示的非根目录下。

12.如权利要求11所述的装置，其特征在于，所述第一调整模块具体适于：计算待整理浏览器收藏夹的根目录下的各链接地址与待整理浏览器收藏夹的非根目录下的各链接地址的特征向量之间的余弦距离；分别判断各余弦距离是否达到第一距离阈值，并将余弦距离达到第一距离阈值的根目录下的链接地址调整到相应的非根目录下；

13.如权利要求11所述的装置，其特征在于，所述聚类模块具体适于：计算待整理浏览器收藏夹的当前根目录下的各链接地址的特征向量之间的余弦距离；针对待整理浏览器收藏夹的当前根目录下的一个链接地址而言，将该链接地址和与其特征向量之间的余弦距离达到第二距离阈值的所有链接地址划分为一类；

14.如权利要求12或13所述的装置，其特征在于，所述装置还包括：

用户类型区分模块，适于将所述多个用户区分为专家用户和非专家用户；

其中，所述专家用户是指对其浏览器收藏夹中的链接地址的维护使用符合预定要求的用户；

且所述链接地址的特征向量为：在专家用户的浏览器收藏夹的非根目录所具有的权重高于非专家用户的浏览器收藏夹的非根目录所具有的权重的情况下，统计出的链接地址属于非根目录标识的分布情况。

15.如权利要求11或12或13所述的装置，其特征在于，所述装置还包括：采集模块和过滤模块，且所述多个用户的浏览器收藏夹的非根目录下的链接地址包括：过滤模块对采集模块采集的多个用户的浏览器收藏夹的各链接地址进行噪音数据滤除后获得的链接地址。

16.如权利要求11或12或13所述的装置，其特征在于，所述第二调整模块具体适于：针对聚类后的一类链接地址而言，根据所述多个用户的浏览器收藏夹的非根目录下的链接地址确定该类中的各链接地址所属的非根目录标识的分布情况，并根据所述分布情况为该类链接地址设置非根目录标识。

17.如权利要求16所述的装置，其特征在于，所述装置还包括：

18.如权利要求11或12或13所述的装置，其特征在于，所述装置还包括：

建立多级目录模块，适于在整理后的浏览器收藏夹的非根目录的数量超过预定数量时，根据多个用户的浏览器收藏夹的非根目录的父子关系为整理后的浏览器收藏夹的非根目录建立多级目录结构。

19.如权利要求18所述的装置，其特征在于，所述建立多级目录模块具体适于：根据多个用户的浏览器收藏夹的非根目录的父子关系来统计整理后的浏览器收藏夹的各非根目录的父目录的分布情况，并根据所述父目录的分布情况为具有相同父目录的多个非根目录设置父目录标识。