CN103218411A

CN103218411A - 网站关联信息获取方法与装置

Info

Publication number: CN103218411A
Application number: CN2013101001806A
Authority: CN
Inventors: 罗峰; 黄苏支; 李娜
Original assignee: IZP (BEIJING) TECHNOLOGIES Co Ltd
Current assignee: IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority date: 2013-03-26
Filing date: 2013-03-26
Publication date: 2013-07-24
Anticipated expiration: 2033-03-26
Also published as: CN103218411B

Abstract

本发明提供了一种网站关联信息获取方法与装置，其中，网站关联信息获取方法包括：根据正常用户的全网网络访问日志信息，获取所述正常用户访问的网站的信息；根据所述正常用户访问的网站的信息，获取所述网站的PV量和UV量；根据所述正常用户访问的网站的信息，确定各个所述网站的关联网站，其中，每个所述正常用户在设定时间段内访问的网站之间互为关联网站；根据所述各个网站及其关联网站的信息，获取所述各个网站及其关联网站的关联PV量和关联UV量；根据所述各个网站的PV量和UV量，以及所述各个网站及其关联网站的关联PV量和关联UV量，获取所述各个网站与其关联网站的关联度。通过本发明，能够挖掘网站的全网真实关联度。

Description

网站关联信息获取方法与装置

技术领域

本发明涉及网络技术领域，特别是涉及一种网站关联信息获取方法与装置。

背景技术

网站排名是中国互联网协会把握互联网发展趋势，引导互联网行业发展，服务广大网民，服务政府决策的公益举措。

目前的互联网网站采用的一种网站排名方式是通过关键词搜索排名，或者目录排名，排名的位置由网站管理方决定。此外，还有一种排名方式是根据广告客户的要求进行排名，例如：广告客户交纳一定费用之后，需要自己排名靠前，则可以由网站管理方协助实现，这种方式只能主观的反映广告商的排名，即按照广告商的意愿进行排名。

从上述两种网站排名方式可见，现有的网站排名方式无法获取网站之间的关系信息，因而无法得知相关网站的客观情报。例如，对于某个网站主来说，因无法得知其它网站与本网站相关联的信息，而无法预料本网站的潜在竞争对手的排名，进而无法制定后续的策略。

发明内容

本发明提供了一种网站关联信息获取方法与装置，以解决现有网站排名方式无法获取网站之间的关联信息的问题。

为了解决上述问题，本发明公开了一种网站关联信息获取方法，包括：根据正常用户的全网网络访问日志信息，获取所述正常用户访问的网站的信息；根据所述正常用户访问的网站的信息，获取所述网站的页面浏览PV量和唯一访问者UV量；根据所述正常用户访问的网站的信息，确定各个所述网站的关联网站，其中，每个所述正常用户在设定时间段内访问的网站之间互为关联网站；根据所述各个网站及其关联网站的信息，获取所述各个网站及其关联网站的关联PV量和关联UV量；根据所述各个网站的PV量和UV量，以及所述各个网站及其关联网站的关联PV量和关联UV量，获取所述各个网站与其关联网站的关联度。

优选地，根据所述各个网站及其关联网站的信息，获取所述各个网站及其关联网站的关联PV量和关联UV量的步骤包括：以关注网站为基准，统计所述关注网站和关联网站均相同的UV量和PV量，将统计出的UV量和PV量作为所述关注网站和所述关联网站的关联UV量和关联PV量；其中，在每次所述统计中，所述关注网站表示所述各个网站中的一个网站，所述关联网站表示该关注网站的一个关联网站。

优选地，根据所述各个网站的PV量和UV量，以及所述各个网站及其关联网站的关联PV量和关联UV量，获取所述各个网站与其关联网站的关联度的步骤包括：将所述各个网站及其关联网站的关联UV量和所述各个网站的UV量的比值，作为所述各个网站及其关联网站的关联UV比例；将所述各个网站及其关联网站的关联PV量和所述各个网站的PV量的比值，作为所述各个网站及其关联网站的关联PV比例；根据所述各个网站及其关联网站的关联UV比例和关联PV比例，确定所述各个网站与其关联网站的关联度。

优选地，根据所述各个网站及其关联网站的关联UV比例和关联PV比例，确定所述各个网站与其关联网站的关联度的步骤包括：根据所述各个网站及其关联网站的关联UV比例，对所述各个网站的关联网站按照所述关联UV比例从大到小的顺序排序；根据所述排序的结果确定所述各个网站与其关联网站的关联度；其中，当所述关联UV比例相同时，按照关联PV比例从大到小的顺序，对所述关联UV比例相同的关联网站排序。

优选地，在所述根据所述排序的结果确定所述各个网站与其关联网站的关联度的步骤之后，还包括：按照设定的行业列表对排序后的所述各个网站的关联网站进行过滤，获取所述各个网站的行业关联网站的关联度。

优选地，在所述根据正常用户的全网网络访问日志信息，获取所述正常用户访问的网站的信息的步骤之前，还包括：获取用户的全网网络访问日志信息；对所述用户的全网网络访问日志信息进行过滤，去除非正常用户的全网网络访问日志信息，获得所述正常用户的全网网络访问日志信息，其中，所述非正常用户包括以下至少之一：爬虫用户、非正常域名用户、无法识别的用户。

为了解决上述问题，本发明还公开了一种网站关联信息获取装置，包括：第一获取模块，用于根据正常用户的全网网络访问日志信息，获取所述正常用户访问的网站的信息；第二获取模块，用于根据所述正常用户访问的网站的信息，获取所述网站的页面浏览PV量和唯一访问者UV量；确定模块，用于根据所述正常用户访问的网站的信息，确定各个所述网站的关联网站，其中，每个所述正常用户在设定时间段内访问的网站之间互为关联网站；第三获取模块，用于根据所述各个网站及其关联网站的信息，获取所述各个网站及其关联网站的关联PV量和关联UV量；第四获取模块，用于根据所述各个网站的PV量和UV量，以及所述各个网站及其关联网站的关联PV量和关联UV量，获取所述各个网站与其关联网站的关联度。

优选地，所述第三获取模块，用于以关注网站为基准，统计所述关注网站和关联网站均相同的UV量和PV量，将统计出的UV量和PV量作为所述关注网站和所述关联网站的关联UV量和关联PV量；其中，在每次所述统计中，所述关注网站表示所述各个网站中的一个网站，所述关联网站表示该关注网站的一个关联网站。

优选地，所述第四获取模块，用于将所述各个网站及其关联网站的关联UV量和所述各个网站的UV量的比值，作为所述各个网站及其关联网站的关联UV比例；将所述各个网站及其关联网站的关联PV量和所述各个网站的PV量的比值，作为所述各个网站及其关联网站的关联PV比例；根据所述各个网站及其关联网站的关联UV比例和关联PV比例，确定所述各个网站与其关联网站的关联度。

优选地，所述第四获取模块，进一步用于在根据所述各个网站及其关联网站的关联UV比例和关联PV比例，确定所述各个网站与其关联网站的关联度时，根据所述各个网站及其关联网站的关联UV比例，对所述各个网站的关联网站按照所述关联UV比例从大到小的顺序排序；根据所述排序的结果确定所述各个网站与其关联网站的关联度；其中，当所述关联UV比例相同时，按照关联PV比例从大到小的顺序，对所述关联UV比例相同的关联网站排序。

与现有技术相比，本发明具有以下优点：

本发明通过确定正常用户访问的各个网站和与各个网站相关联的关联网站的信息，获取各个网站的PV（Page View，页面浏览）量、UV（UniqueVisitor，唯一访问者）量、关联PV量和关联UV量，进而通过各个网站的PV量、UV量、关联PV量和关联UV量，获得各个网站与其关联网站的关联度。现有的网站排名，没有从某一个网站与其相关联的网站之间的关系进行入手，如，对于某个网站主来说，其无法预料到其潜在竞争对手的排名。而通过本发明，提供了一种利用网站之间的关联度信息进行关联网站分析的方案，能够挖掘网站的全网真实关联度；进而，对于网站主或者某些网站如电商网站来说，通过网站之间的关联度能够更准确地挖掘出潜在的竞争对手。

附图说明

图1是根据本发明实施例一的一种网站关联信息获取方法的步骤流程图；

图2是根据本发明实施例二的一种网站关联信息获取方法的步骤流程图；

图3是根据本发明实施例三的一种网站关联信息获取方法的步骤流程图；

图4是根据本发明实施例四的一种网站关联信息获取装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

参照图1，示出了根据本发明实施例一的一种网站关联信息获取方法的步骤流程图。

本实施例的网站关联信息获取方法包括以下步骤：

步骤S102：根据正常用户的全网网络访问日志信息，获取正常用户访问的网站的信息。

正常用户的全网网络访问日志信息可以是所有正常网民的在设定时间段内的上网访问日志信息，其中，设定时间段由本领域技术人员根据实际情况适当设定，本发明对此不作限制。

正常用户是通常意义上的网络使用用户，不包括爬虫用户、非正常域名用户、无法识别的用户等。

步骤S104：根据正常用户访问的网站的信息，获取网站的PV量和UV量。

步骤S106：根据正常用户访问的网站的信息，确定各个网站的关联网站。

其中，每个正常用户在上述设定时间段内（即步骤S102中的设定时间段，也即获取的正常用户的全网网络访问日志信息的时间段）访问的网站之间互为关联网站。

如，以24小时为例，用户01在24小时内访问了ABCD四个网站，则这四个网站之间互为关联网站，即，A和B之间、A和C之间、A和D之间、B和C之间、B和D之间、C和D之间均互为关联网站；若用户02在该24小时内访问了ABEF四个网站，则A、B、E、F这四个网站之间也互为关联网站，除之前的A和B之间、A和C之间、A和D之间互为关联网站外，A和E之间、A和F之间也互为关联网站。也即，对于A网站来说，它的关联网站有B、C、D、E、F五个。同样，若用户03在该24小时内访问了HIJK四个网站，则这四个网站之间互为关联网站，而这四个网站与用户01和用户02访问的网站之间无关联关系。依此类推，即可得到各个网站的关联网站。

步骤S108：根据各个网站及其关联网站的信息，获取各个网站及其关联网站的关联PV量和关联UV量。

关联UV量反映了设定时间段内，同时访问了第一网站如网站A和第二网站如网站B的用户的数量，仍如上例所示，在24小时内，网站A有1000人访问，在此期间，这1000人中还有200人访问了网站A的关联网站B，则网站B相对于网站A的关联UV量为200。同样，关联PV量反映了设定时间段内，同时访问了网站A和网站B的用户的浏览网站B的次数，若这200人访问了网站B300次，则网站B相对于网站A的关联PV量为300。

步骤S110：根据各个网站的PV量和UV量，以及各个网站及其关联网站的关联PV量和关联UV量，获取各个网站与其关联网站的关联度。

通过本实施例，确定正常用户访问的各个网站和与各个网站相关联的关联网站的信息，获取各个网站的PV量、UV量、关联PV量和关联UV量，进而通过各个网站的PV量、UV量、关联PV量和关联UV量，获得各个网站与其关联网站的关联度。现有的网站排名，没有从某一个网站与其相关联的网站之间的关系进行入手，如，对于某个网站主来说，其无法预料到其潜在竞争对手的排名。而通过本实施例，提供了一种利用网站之间的关联度信息进行关联网站分析的方案，能够挖掘网站的全网真实关联度；进而，对于网站主或者某些网站如电商网站来说，通过网站之间的关联度能够更准确地挖掘出潜在的竞争对手。

实施例二

参照图2，示出了根据本发明实施例二的一种网站关联信息获取方法的步骤流程图。

本实施例的网站关联信息获取方法包括以下步骤：

步骤S202：通过获取主干网流量的镜像数据，获取用户的全网网络访问日志信息。

用户的全网网络访问日志信息的获取可以由本领域技术人员根据实际情况采用任意适当的方式获取，本实施例中，通过获取主干网流量的镜像数据，获取用户的全网网络访问日志信息，可以保证获取的信息的全面和有效。通常来说，获取的用户的全网网络访问日志信息都是一定时间段内的日志信息，如24小时或更短或更长时间，该时间段由本领域技术人员根据实际情况适当设定，本发明对此不作限制。

步骤S204：对用户的全网网络访问日志信息进行过滤，去除非正常用户的全网网络访问日志信息，获得正常用户的全网网络访问日志信息。

对用户的全网网络访问日志信息进行过滤，可以过滤掉脏数据，主要包括非正常用户的数据，非正常用户通常可以包括以下至少之一：爬虫用户、非正常域名用户、无法识别的用户。

步骤S206：根据正常用户的全网网络访问日志信息，获取正常用户访问的网站的信息。

步骤S208：根据正常用户访问的网站的信息，获取网站的PV量和UV量。

本实施例中，以正常用户中的用户01、用户02和用户03为例，对本发明的方案进行示意性说明。假设设定的、获取的日志信息的时间段为24小时，在相同的24小时内，用户01访问了ABCD四个网站，用户02访问了ABEF四个网站，用户03访问HIJK四个网站，则本步骤中，需要分别获取ABCDEFHIJK十个网站中每个网站的PV量和UV量。

步骤S210：根据正常用户访问的网站的信息，确定各个网站的关联网站。

其中，每个正常用户在设定时间段（即步骤S202中设定的、获取的日志信息所属的时间段）内访问的网站之间互为关联网站。

本实施例中，网站A的关联网站为BCDEF；网站B的关联网站为ACDEF；网站C的关联网站为ABD；网站D的关联网站的ABC；网站E的关联网站为ABF；网站F的关联网站的ABE；网站H的关联网站为IJK；网站I的关联网站的HJK；网站J的关联网站为HIK；网站K的关联网站为HIJ。

步骤S212：每次以一个网站作为关注网站，以关注网站为基准，统计关注网站和关联网站均相同的UV量和PV量，将统计出的UV量和PV量作为本次关注网站和关联网站的关联UV量和关联PV量；重复本步骤，直至获得所有正常用户访问的网站及其关联网站的关联UV量和关联PV量。

可见，在每次统计中，关注网站可以表示各个网站中的任意一个网站，而关联网站则表示该关注网站的一个关联网站。通过这种统计方法，可以快速高效地获得各个网站及其关联网站的关联UV量和关联PV量。

例如，当以网站A为关注网站时，统计在上述设定时间段内同时访问了网站A和网站A的关联网站B的UV量和PV量。从本实施例中，可知，用户01和用户02均在相同的24小时内访问了网站A和其关联网站B，则网站A和网站B的关联UV量为2。再假如，用户01访问了网站A10次，访问了网站B5次，用户02访问了网站A5次，访问了网站B2次，则网站A和网站B的关联PV量为5次+2次＝7次。

而对于J和K网站来说，当以网站J为关注网站时，很明显，网站J和K的关联UV量为1；假如用户03在上述设定时间段内访问了网站J10次，访问了网站K5次，则网站J和K的关联PV量为5。

通过本步骤，根据各个网站及其关联网站的信息，实现了各个网站及其关联网站的关联PV量和关联UV量的获取。

步骤S214：根据各个网站的PV量和UV量，以及各个网站及其关联网站的关联PV量和关联UV量，获取各个网站与其关联网站的关联度。

本实施例中，优选地，将各个网站及其关联网站的关联UV量和各个网站的UV量的比值，作为各个网站及其关联网站的关联UV比例；将各个网站及其关联网站的关联PV量和各个网站的PV量的比值，作为各个网站的关联PV比例；根据各个网站及其关联网站的关联UV比例和关联PV比例，确定各个网站与其关联网站的关联度。其中，关联UV比例和关联PV比例的计算可以不分先后顺序，也可以并行执行。

例如，假设网站A的UV量为5，网站A和网站B的关联UV量为3，则网站A和网站B的关联UV比例为3/5；若网站A和网站C的关联UV量为2，则网站A和网站C的关联UV比例为2/5。可见，网站A与网站B的关联度高于网站A与网站C的关联度。

优选地，在根据各个网站及其关联网站的关联UV比例和关联PV比例，确定各个网站与其关联网站的关联度时，可以根据各个网站及其关联网站的关联UV比例，对各个网站的关联网站按照关联UV比例从大到小的顺序排序；再根据排序的结果确定各个网站与其关联网站的关联度。需要说明的是，当根据关联UV比例排序时，若关联UV比例相同，则可以继续按照关联PV比例从大到小的顺序，对关联UV比例相同的关联网站排序。例如，若网站A和网站C的关联UV比例，以及网站A和网站D的关联UV比例均为2/5，而网站A和网站C的关联PV比例为5/10，网站A和网站D的关联PV比例为3/10，则网站A与网站C的关联度高于网站A与网站D的关联度。

步骤S216：按照设定的行业列表对排序后的各个网站的关联网站进行过滤，获取各个网站的行业关联网站的关联度。

本步骤为可选步骤，通过本步骤可以方便网站主或管理者对同行业的关联网站的信息进行了解和掌握。如，网站A为医疗行业，网站A的关联网站包括BCDEF，其中BDE也为医疗行业，则通过本步骤，过滤掉CF网站，获取BDE网站与网站A的关联度。

通过本实施例，解决了现有网站排名方式无法获取网站之间的关联信息的问题，实现了挖掘网站的全网真实关联度，对于网站主或者某些网站如电商网站来说，可以进一步通过网站之间的关联度更准确地挖掘出潜在的竞争对手，进而制定相应的应对策略。

实施例三

参照图3，示出了根据本发明实施例三的一种网站关联信息获取方法的步骤流程图。

本实施例的网站关联信息获取方法包括以下步骤：

步骤S302：获取用户的全网网络访问日志信息。

用户的全网网络访问日志信息可能是跨多个网络的，本步骤中，可以通过获取主干网的镜像流量，即主干网流量的镜像数据，从而获取用户访问全网的全网网络访问日志信息。

步骤S304：过滤掉包括非正常用户的访问数据在内的脏数据，获得正常用户访问的全网网络访问日志信息。

如，过滤掉爬虫用户、非正常域名用户或者无法识别的用户的全网网络访问日志信息，获得正常用户访问的全网网络访问日志信息。

步骤S306：根据正常用户的全网网络访问日志信息，获取正常用户访问的网站的信息。

过滤后的正常用户访问的网站的信息主要包括正常用户访问的网站的信息，如网站的URL信息，以及正常用户的UID。其中，UID是用户ID（标识），用以标注用户名。优选地，过滤后的正常用户访问的网站的信息还可以包括正常用户访问网站的访问时间以及地区的信息，访问时间以及地区用于标识用户对某个网站的访问时间及该用户所在的地区。

一种使用mapreduce算法进行本步骤的方式如下：

map(网站为KEY)//以网站为关键字，统计用户访问的网站的信息；

imos-->网站|用户ID//统计每个网站的访问用户（未去重复处理）；

reduce（统计网站PV、UV）//各个网站的PV量、UV量；

-->用户ID|网站|网站PV|网站UV

//获得各个网站的访问用户、网站PV量和网站UV量。

通过上述算法，可以获得所有网站的信息。

步骤S308：以UID为基准，统计出所有UID去过的所有网站的PV量和UV量。

通过本步骤，可以获取所有正常用户去过的所有网站的PV量和UV量。

一种使用mapreduce算法进行本步骤的统计的方式如下：

map（用户ID为KEY）

//以用户ID即UID为关键字，对每个用户去过的网站进行统计；

-->用户ID|网站|网站PV|网站UV

//统计每个用户去过的每个网站的网站PV量和UV量；

reduce（统计相同用户去过的网站）

//对用户进行去重处理；

-->用户ID|网站1，网站1PV，网站1UV|网站2，网站2PV，网站2UV|网站3，网站3PV，网站3UV...

//经过去重处理后的用户去过的每个网站的网站PV量和UV量。

通过上述算法，能够准确统计出每个用户去过的每个网站的PV量和UV量。

步骤S310：确定各个网站的关联网站。

步骤S312：以各个网站为基准，统计该网站和与该网站有关联关系的关联网站的关联PV量、关联UV量。

比如，A网站有100个用户访问了1000次，同时，这100个用户中有50个访问了B网站200次，B网站为A网站的关联网站，B网站相对于A网站的关联PV量是200次，B网站相对于A网站的关联UV量是50。

步骤S314：统计网站相同用户去向网站的关联PV量和关联UV量，累计求关联UV比例和关联PV比例。

例如：

关联UV比例：以“关注网站|关联网站”为key，累加相同key的UV数=关联网站UV（即关联UV量），关联UV比例=关联网站UV/关注网站UV。其中，关注网站可以是所有网站中的任意一个网站。如，上例中，网站A与网站B的关联UV比例=关联网站UV量/网站A的UV量＝50/100。

同样，关联PV比例：以“关注网站|关联网站”为key，累加相同key的PV数=关联网站PV（即关联PV量），关联PV比例=关联网站PV/关注网站PV。其中，关注网站可以是所有网站中的任意一个网站。如，上例中，网站A与网站B的关联PV比例=关联网站PV量/网站A的PV量＝200/1000。

步骤S316：根据求得的关联UV比例和关联PV比例，确定网站之间的关联度。

例如，按照关联UV比例对各个网站之间的关联度排序，关联UV比例相同，则又按照关联PV比例排序，得到各个网站的全网关联网站。此外，在排序完之后，还可以按照一定条件对关联网站进行过滤，如取关联度为前200的关联网站。

此外，还可以对与本网站相同行业的关联网站进行筛选，如，按照关联UV比例对网站之间的关联度排序，关联UV比相同时，则又按照关联PV比例排序，排序完之后，根据预设的行业列表只保留符合行业列表的关联网站，从而得到各个网站的行业关联网站。

一种使用mapreduce算法确定网站之间的关联度的方式如下：

map（以网站1,网站1PV,网站1UV|网站2为KEY）

-->

网站1,网站1PV,网站1UV|网站2|用户ID

网站1,网站1PV,网站1UV|网站3|用户ID

网站1,网站1PV,网站1UV|网站4|用户ID

...

网站2,网站2PV,网站2UV|网站3|用户ID

网站2,网站2PV,网站2UV|网站4|用户ID

...

reduce

-->

通过上述算法，可以获得各个网站与其关联网站之间的关联度。

以下，在获得了各个网站与其关联网站之间的关联度的基础上，对与每个网站相关联的关联网站进行排序。排序时可以按照倒序的方式，也可按照正序的方式，下面实例中采用了倒序方式，正序方式参照本实例适当修改即可。

一种使用mapreduce算法对关联网站进行排序的方式如下：

map（以网站1,网站2为KEY）

-->

reduce(按UV关联度、PV关联度倒序)

-->

通过上述算法，实现了每个网站的关联网站之间的关联度排序。

此外，若需要行业关联网站的信息，则可以参照下述mapreduce算法实现：

map（根据网站1的行业,过滤网站2不为行业网站的数据，只保留同网站1同行业网站）

-->

通过上述算法，实现了行业网站过滤。

通过对所有的网站执行上述相应步骤，最终形成一个全网的网站关联关系。

通过本实施例，提供了一种比较好的关联网站分析方案，实现了1）挖掘网站的全网真实关联度及行业内真实关联度；2）对于网站主或者电商网站等，能够更准确地挖掘出潜在的竞争对手。尤其是对于某一个网站的网站主来说，根据该方案，能够直接获得其关联网站的信息，从而其能够了解到与其相关的竞争者的信息，有效制定相应的应对策略。

实施例四

参照图4，示出了根据本发明实施例四的一种网站关联信息获取装置的结构框图。

本实施例的网站关联信息获取装置包括：第一获取模块402，用于根据正常用户的全网网络访问日志信息，获取正常用户访问的网站的信息；第二获取模块404，用于根据正常用户访问的网站的信息，获取网站的PV量和UV量；确定模块406，用于根据正常用户访问的网站的信息，确定各个网站的关联网站，其中，每个正常用户在设定时间段内访问的网站之间互为关联网站；第三获取模块408，用于根据各个网站及其关联网站的信息，获取各个网站及其关联网站的关联PV量和关联UV量；第四获取模块410，用于根据各个网站的PV量和UV量，以及各个网站及其关联网站的关联PV量和关联UV量，获取各个网站与其关联网站的关联度。

优选地，第三获取模块408，用于以关注网站为基准，统计关注网站和关联网站均相同的UV量和PV量，将统计出的UV量和PV量作为关注网站和关联网站的关联UV量和关联PV量；其中，在每次统计中，关注网站表示各个网站中的一个网站，关联网站表示该关注网站的一个关联网站。

优选地，第四获取模块410，用于将各个网站及其关联网站的关联UV量和各个网站的UV量的比值，作为各个网站及其关联网站的关联UV比例；将各个网站及其关联网站的关联PV量和各个网站的PV量的比值，作为各个网站及其关联网站的关联PV比例；根据各个网站及其关联网站的关联UV比例和关联PV比例，确定各个网站与其关联网站的关联度。

优选地，第四获取模块410进一步用于在根据各个网站及其关联网站的关联UV比例和关联PV比例，确定各个网站与其关联网站的关联度时，根据各个网站及其关联网站的关联UV比例，对各个网站的关联网站按照关联UV比例从大到小的顺序排序；根据排序的结果确定各个网站与其关联网站的关联度；其中，当关联UV比例相同时，按照关联PV比例从大到小的顺序，对关联UV比例相同的关联网站排序。

优选地，本实施例的网站关联信息获取装置还包括：过滤模块412，用于在第四获取模块410根据排序的结果确定各个网站与其关联网站的关联度之后，按照设定的行业列表对排序后的各个网站的关联网站进行过滤，获取各个网站的行业关联网站的关联度。

优选地，本实施例的网站关联信息获取装置还包括：第五获取模块414，用于在第一获取模块402根据正常用户的全网网络访问日志信息，获取正常用户访问的网站的信息之前，获取用户的全网网络访问日志信息；对用户的全网网络访问日志信息进行过滤，去除非正常用户的全网网络访问日志信息，获得正常用户的全网网络访问日志信息，其中，非正常用户包括以下至少之一：爬虫用户、非正常域名用户、无法识别的用户。

本实施例的网站关联信息获取装置用于实现前述多个方法实施例中相应的网站关联信息获取方法，并具有相应方法实施例的有益效果，在此不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种网站关联信息获取方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种网站关联信息获取方法，其特征在于，包括：

根据正常用户的全网网络访问日志信息，获取所述正常用户访问的网站的信息；

根据所述正常用户访问的网站的信息，获取所述网站的页面浏览PV量和唯一访问者UV量；

根据所述正常用户访问的网站的信息，确定各个所述网站的关联网站，其中，每个所述正常用户在设定时间段内访问的网站之间互为关联网站；

根据所述各个网站及其关联网站的信息，获取所述各个网站及其关联网站的关联PV量和关联UV量；

根据所述各个网站的PV量和UV量，以及所述各个网站及其关联网站的关联PV量和关联UV量，获取所述各个网站与其关联网站的关联度。

2.根据权利要求1所述的方法，其特征在于，根据所述各个网站及其关联网站的信息，获取所述各个网站及其关联网站的关联PV量和关联UV量的步骤包括：

以关注网站为基准，统计所述关注网站和关联网站均相同的UV量和PV量，将统计出的UV量和PV量作为所述关注网站和所述关联网站的关联UV量和关联PV量；

其中，在每次所述统计中，所述关注网站表示所述各个网站中的一个网站，所述关联网站表示该关注网站的一个关联网站。

3.根据权利要求2所述的方法，其特征在于，根据所述各个网站的PV量和UV量，以及所述各个网站及其关联网站的关联PV量和关联UV量，获取所述各个网站与其关联网站的关联度的步骤包括：

将所述各个网站及其关联网站的关联UV量和所述各个网站的UV量的比值，作为所述各个网站及其关联网站的关联UV比例；将所述各个网站及其关联网站的关联PV量和所述各个网站的PV量的比值，作为所述各个网站及其关联网站的关联PV比例；

根据所述各个网站及其关联网站的关联UV比例和关联PV比例，确定所述各个网站与其关联网站的关联度。

4.根据权利要求3所述的方法，其特征在于，根据所述各个网站及其关联网站的关联UV比例和关联PV比例，确定所述各个网站与其关联网站的关联度的步骤包括：

根据所述各个网站及其关联网站的关联UV比例，对所述各个网站的关联网站按照所述关联UV比例从大到小的顺序排序；

根据所述排序的结果确定所述各个网站与其关联网站的关联度；

其中，当所述关联UV比例相同时，按照关联PV比例从大到小的顺序，对所述关联UV比例相同的关联网站排序。

5.根据权利要求4所述的方法，其特征在于，在所述根据所述排序的结果确定所述各个网站与其关联网站的关联度的步骤之后，还包括：

按照设定的行业列表对排序后的所述各个网站的关联网站进行过滤，获取所述各个网站的行业关联网站的关联度。

6.根据权利要求1所述的方法，其特征在于，在所述根据正常用户的全网网络访问日志信息，获取所述正常用户访问的网站的信息的步骤之前，还包括：

获取用户的全网网络访问日志信息；

对所述用户的全网网络访问日志信息进行过滤，去除非正常用户的全网网络访问日志信息，获得所述正常用户的全网网络访问日志信息，其中，所述非正常用户包括以下至少之一：爬虫用户、非正常域名用户、无法识别的用户。

7.一种网站关联信息获取装置，其特征在于，包括：

第一获取模块，用于根据正常用户的全网网络访问日志信息，获取所述正常用户访问的网站的信息；

第二获取模块，用于根据所述正常用户访问的网站的信息，获取所述网站的页面浏览PV量和唯一访问者UV量；

确定模块，用于根据所述正常用户访问的网站的信息，确定各个所述网站的关联网站，其中，每个所述正常用户在设定时间段内访问的网站之间互为关联网站；

第三获取模块，用于根据所述各个网站及其关联网站的信息，获取所述各个网站及其关联网站的关联PV量和关联UV量；

第四获取模块，用于根据所述各个网站的PV量和UV量，以及所述各个网站及其关联网站的关联PV量和关联UV量，获取所述各个网站与其关联网站的关联度。

8.根据权利要求7所述的装置，其特征在于，所述第三获取模块，用于以关注网站为基准，统计所述关注网站和关联网站均相同的UV量和PV量，将统计出的UV量和PV量作为所述关注网站和所述关联网站的关联UV量和关联PV量；其中，在每次所述统计中，所述关注网站表示所述各个网站中的一个网站，所述关联网站表示该关注网站的一个关联网站。

9.根据权利要求8所述的装置，其特征在于，所述第四获取模块，用于将所述各个网站及其关联网站的关联UV量和所述各个网站的UV量的比值，作为所述各个网站及其关联网站的关联UV比例；将所述各个网站及其关联网站的关联PV量和所述各个网站的PV量的比值，作为所述各个网站及其关联网站的关联PV比例；根据所述各个网站及其关联网站的关联UV比例和关联PV比例，确定所述各个网站与其关联网站的关联度。

10.根据权利要求9所述的装置，其特征在于，所述第四获取模块，进一步用于在根据所述各个网站及其关联网站的关联UV比例和关联PV比例，确定所述各个网站与其关联网站的关联度时，根据所述各个网站及其关联网站的关联UV比例，对所述各个网站的关联网站按照所述关联UV比例从大到小的顺序排序；根据所述排序的结果确定所述各个网站与其关联网站的关联度；其中，当所述关联UV比例相同时，按照关联PV比例从大到小的顺序，对所述关联UV比例相同的关联网站排序。