CN103218411A - 网站关联信息获取方法与装置 - Google Patents

网站关联信息获取方法与装置 Download PDF

Info

Publication number
CN103218411A
CN103218411A CN2013101001806A CN201310100180A CN103218411A CN 103218411 A CN103218411 A CN 103218411A CN 2013101001806 A CN2013101001806 A CN 2013101001806A CN 201310100180 A CN201310100180 A CN 201310100180A CN 103218411 A CN103218411 A CN 103218411A
Authority
CN
China
Prior art keywords
website
amount
associating websites
websites
ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101001806A
Other languages
English (en)
Other versions
CN103218411B (zh
Inventor
罗峰
黄苏支
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IZP (BEIJING) TECHNOLOGIES Co Ltd
Original Assignee
IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IZP (BEIJING) TECHNOLOGIES Co Ltd filed Critical IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority to CN201310100180.6A priority Critical patent/CN103218411B/zh
Publication of CN103218411A publication Critical patent/CN103218411A/zh
Application granted granted Critical
Publication of CN103218411B publication Critical patent/CN103218411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种网站关联信息获取方法与装置,其中,网站关联信息获取方法包括:根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的信息;根据所述正常用户访问的网站的信息,获取所述网站的PV量和UV量;根据所述正常用户访问的网站的信息,确定各个所述网站的关联网站,其中,每个所述正常用户在设定时间段内访问的网站之间互为关联网站;根据所述各个网站及其关联网站的信息,获取所述各个网站及其关联网站的关联PV量和关联UV量;根据所述各个网站的PV量和UV量,以及所述各个网站及其关联网站的关联PV量和关联UV量,获取所述各个网站与其关联网站的关联度。通过本发明,能够挖掘网站的全网真实关联度。

Description

网站关联信息获取方法与装置
技术领域
本发明涉及网络技术领域,特别是涉及一种网站关联信息获取方法与装置。
背景技术
网站排名是中国互联网协会把握互联网发展趋势,引导互联网行业发展,服务广大网民,服务政府决策的公益举措。
目前的互联网网站采用的一种网站排名方式是通过关键词搜索排名,或者目录排名,排名的位置由网站管理方决定。此外,还有一种排名方式是根据广告客户的要求进行排名,例如:广告客户交纳一定费用之后,需要自己排名靠前,则可以由网站管理方协助实现,这种方式只能主观的反映广告商的排名,即按照广告商的意愿进行排名。
从上述两种网站排名方式可见,现有的网站排名方式无法获取网站之间的关系信息,因而无法得知相关网站的客观情报。例如,对于某个网站主来说,因无法得知其它网站与本网站相关联的信息,而无法预料本网站的潜在竞争对手的排名,进而无法制定后续的策略。
发明内容
本发明提供了一种网站关联信息获取方法与装置,以解决现有网站排名方式无法获取网站之间的关联信息的问题。
为了解决上述问题,本发明公开了一种网站关联信息获取方法,包括:根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的信息;根据所述正常用户访问的网站的信息,获取所述网站的页面浏览PV量和唯一访问者UV量;根据所述正常用户访问的网站的信息,确定各个所述网站的关联网站,其中,每个所述正常用户在设定时间段内访问的网站之间互为关联网站;根据所述各个网站及其关联网站的信息,获取所述各个网站及其关联网站的关联PV量和关联UV量;根据所述各个网站的PV量和UV量,以及所述各个网站及其关联网站的关联PV量和关联UV量,获取所述各个网站与其关联网站的关联度。
优选地,根据所述各个网站及其关联网站的信息,获取所述各个网站及其关联网站的关联PV量和关联UV量的步骤包括:以关注网站为基准,统计所述关注网站和关联网站均相同的UV量和PV量,将统计出的UV量和PV量作为所述关注网站和所述关联网站的关联UV量和关联PV量;其中,在每次所述统计中,所述关注网站表示所述各个网站中的一个网站,所述关联网站表示该关注网站的一个关联网站。
优选地,根据所述各个网站的PV量和UV量,以及所述各个网站及其关联网站的关联PV量和关联UV量,获取所述各个网站与其关联网站的关联度的步骤包括:将所述各个网站及其关联网站的关联UV量和所述各个网站的UV量的比值,作为所述各个网站及其关联网站的关联UV比例;将所述各个网站及其关联网站的关联PV量和所述各个网站的PV量的比值,作为所述各个网站及其关联网站的关联PV比例;根据所述各个网站及其关联网站的关联UV比例和关联PV比例,确定所述各个网站与其关联网站的关联度。
优选地,根据所述各个网站及其关联网站的关联UV比例和关联PV比例,确定所述各个网站与其关联网站的关联度的步骤包括:根据所述各个网站及其关联网站的关联UV比例,对所述各个网站的关联网站按照所述关联UV比例从大到小的顺序排序;根据所述排序的结果确定所述各个网站与其关联网站的关联度;其中,当所述关联UV比例相同时,按照关联PV比例从大到小的顺序,对所述关联UV比例相同的关联网站排序。
优选地,在所述根据所述排序的结果确定所述各个网站与其关联网站的关联度的步骤之后,还包括:按照设定的行业列表对排序后的所述各个网站的关联网站进行过滤,获取所述各个网站的行业关联网站的关联度。
优选地,在所述根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的信息的步骤之前,还包括:获取用户的全网网络访问日志信息;对所述用户的全网网络访问日志信息进行过滤,去除非正常用户的全网网络访问日志信息,获得所述正常用户的全网网络访问日志信息,其中,所述非正常用户包括以下至少之一:爬虫用户、非正常域名用户、无法识别的用户。
为了解决上述问题,本发明还公开了一种网站关联信息获取装置,包括:第一获取模块,用于根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的信息;第二获取模块,用于根据所述正常用户访问的网站的信息,获取所述网站的页面浏览PV量和唯一访问者UV量;确定模块,用于根据所述正常用户访问的网站的信息,确定各个所述网站的关联网站,其中,每个所述正常用户在设定时间段内访问的网站之间互为关联网站;第三获取模块,用于根据所述各个网站及其关联网站的信息,获取所述各个网站及其关联网站的关联PV量和关联UV量;第四获取模块,用于根据所述各个网站的PV量和UV量,以及所述各个网站及其关联网站的关联PV量和关联UV量,获取所述各个网站与其关联网站的关联度。
优选地,所述第三获取模块,用于以关注网站为基准,统计所述关注网站和关联网站均相同的UV量和PV量,将统计出的UV量和PV量作为所述关注网站和所述关联网站的关联UV量和关联PV量;其中,在每次所述统计中,所述关注网站表示所述各个网站中的一个网站,所述关联网站表示该关注网站的一个关联网站。
优选地,所述第四获取模块,用于将所述各个网站及其关联网站的关联UV量和所述各个网站的UV量的比值,作为所述各个网站及其关联网站的关联UV比例;将所述各个网站及其关联网站的关联PV量和所述各个网站的PV量的比值,作为所述各个网站及其关联网站的关联PV比例;根据所述各个网站及其关联网站的关联UV比例和关联PV比例,确定所述各个网站与其关联网站的关联度。
优选地,所述第四获取模块,进一步用于在根据所述各个网站及其关联网站的关联UV比例和关联PV比例,确定所述各个网站与其关联网站的关联度时,根据所述各个网站及其关联网站的关联UV比例,对所述各个网站的关联网站按照所述关联UV比例从大到小的顺序排序;根据所述排序的结果确定所述各个网站与其关联网站的关联度;其中,当所述关联UV比例相同时,按照关联PV比例从大到小的顺序,对所述关联UV比例相同的关联网站排序。
与现有技术相比,本发明具有以下优点:
本发明通过确定正常用户访问的各个网站和与各个网站相关联的关联网站的信息,获取各个网站的PV(Page View,页面浏览)量、UV(UniqueVisitor,唯一访问者)量、关联PV量和关联UV量,进而通过各个网站的PV量、UV量、关联PV量和关联UV量,获得各个网站与其关联网站的关联度。现有的网站排名,没有从某一个网站与其相关联的网站之间的关系进行入手,如,对于某个网站主来说,其无法预料到其潜在竞争对手的排名。而通过本发明,提供了一种利用网站之间的关联度信息进行关联网站分析的方案,能够挖掘网站的全网真实关联度;进而,对于网站主或者某些网站如电商网站来说,通过网站之间的关联度能够更准确地挖掘出潜在的竞争对手。
附图说明
图1是根据本发明实施例一的一种网站关联信息获取方法的步骤流程图;
图2是根据本发明实施例二的一种网站关联信息获取方法的步骤流程图;
图3是根据本发明实施例三的一种网站关联信息获取方法的步骤流程图;
图4是根据本发明实施例四的一种网站关联信息获取装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
参照图1,示出了根据本发明实施例一的一种网站关联信息获取方法的步骤流程图。
本实施例的网站关联信息获取方法包括以下步骤:
步骤S102:根据正常用户的全网网络访问日志信息,获取正常用户访问的网站的信息。
正常用户的全网网络访问日志信息可以是所有正常网民的在设定时间段内的上网访问日志信息,其中,设定时间段由本领域技术人员根据实际情况适当设定,本发明对此不作限制。
正常用户是通常意义上的网络使用用户,不包括爬虫用户、非正常域名用户、无法识别的用户等。
步骤S104:根据正常用户访问的网站的信息,获取网站的PV量和UV量。
步骤S106:根据正常用户访问的网站的信息,确定各个网站的关联网站。
其中,每个正常用户在上述设定时间段内(即步骤S102中的设定时间段,也即获取的正常用户的全网网络访问日志信息的时间段)访问的网站之间互为关联网站。
如,以24小时为例,用户01在24小时内访问了ABCD四个网站,则这四个网站之间互为关联网站,即,A和B之间、A和C之间、A和D之间、B和C之间、B和D之间、C和D之间均互为关联网站;若用户02在该24小时内访问了ABEF四个网站,则A、B、E、F这四个网站之间也互为关联网站,除之前的A和B之间、A和C之间、A和D之间互为关联网站外,A和E之间、A和F之间也互为关联网站。也即,对于A网站来说,它的关联网站有B、C、D、E、F五个。同样,若用户03在该24小时内访问了HIJK四个网站,则这四个网站之间互为关联网站,而这四个网站与用户01和用户02访问的网站之间无关联关系。依此类推,即可得到各个网站的关联网站。
步骤S108:根据各个网站及其关联网站的信息,获取各个网站及其关联网站的关联PV量和关联UV量。
关联UV量反映了设定时间段内,同时访问了第一网站如网站A和第二网站如网站B的用户的数量,仍如上例所示,在24小时内,网站A有1000人访问,在此期间,这1000人中还有200人访问了网站A的关联网站B,则网站B相对于网站A的关联UV量为200。同样,关联PV量反映了设定时间段内,同时访问了网站A和网站B的用户的浏览网站B的次数,若这200人访问了网站B300次,则网站B相对于网站A的关联PV量为300。
步骤S110:根据各个网站的PV量和UV量,以及各个网站及其关联网站的关联PV量和关联UV量,获取各个网站与其关联网站的关联度。
通过本实施例,确定正常用户访问的各个网站和与各个网站相关联的关联网站的信息,获取各个网站的PV量、UV量、关联PV量和关联UV量,进而通过各个网站的PV量、UV量、关联PV量和关联UV量,获得各个网站与其关联网站的关联度。现有的网站排名,没有从某一个网站与其相关联的网站之间的关系进行入手,如,对于某个网站主来说,其无法预料到其潜在竞争对手的排名。而通过本实施例,提供了一种利用网站之间的关联度信息进行关联网站分析的方案,能够挖掘网站的全网真实关联度;进而,对于网站主或者某些网站如电商网站来说,通过网站之间的关联度能够更准确地挖掘出潜在的竞争对手。
实施例二
参照图2,示出了根据本发明实施例二的一种网站关联信息获取方法的步骤流程图。
本实施例的网站关联信息获取方法包括以下步骤:
步骤S202:通过获取主干网流量的镜像数据,获取用户的全网网络访问日志信息。
用户的全网网络访问日志信息的获取可以由本领域技术人员根据实际情况采用任意适当的方式获取,本实施例中,通过获取主干网流量的镜像数据,获取用户的全网网络访问日志信息,可以保证获取的信息的全面和有效。通常来说,获取的用户的全网网络访问日志信息都是一定时间段内的日志信息,如24小时或更短或更长时间,该时间段由本领域技术人员根据实际情况适当设定,本发明对此不作限制。
步骤S204:对用户的全网网络访问日志信息进行过滤,去除非正常用户的全网网络访问日志信息,获得正常用户的全网网络访问日志信息。
对用户的全网网络访问日志信息进行过滤,可以过滤掉脏数据,主要包括非正常用户的数据,非正常用户通常可以包括以下至少之一:爬虫用户、非正常域名用户、无法识别的用户。
步骤S206:根据正常用户的全网网络访问日志信息,获取正常用户访问的网站的信息。
步骤S208:根据正常用户访问的网站的信息,获取网站的PV量和UV量。
本实施例中,以正常用户中的用户01、用户02和用户03为例,对本发明的方案进行示意性说明。假设设定的、获取的日志信息的时间段为24小时,在相同的24小时内,用户01访问了ABCD四个网站,用户02访问了ABEF四个网站,用户03访问HIJK四个网站,则本步骤中,需要分别获取ABCDEFHIJK十个网站中每个网站的PV量和UV量。
步骤S210:根据正常用户访问的网站的信息,确定各个网站的关联网站。
其中,每个正常用户在设定时间段(即步骤S202中设定的、获取的日志信息所属的时间段)内访问的网站之间互为关联网站。
本实施例中,网站A的关联网站为BCDEF;网站B的关联网站为ACDEF;网站C的关联网站为ABD;网站D的关联网站的ABC;网站E的关联网站为ABF;网站F的关联网站的ABE;网站H的关联网站为IJK;网站I的关联网站的HJK;网站J的关联网站为HIK;网站K的关联网站为HIJ。
步骤S212:每次以一个网站作为关注网站,以关注网站为基准,统计关注网站和关联网站均相同的UV量和PV量,将统计出的UV量和PV量作为本次关注网站和关联网站的关联UV量和关联PV量;重复本步骤,直至获得所有正常用户访问的网站及其关联网站的关联UV量和关联PV量。
可见,在每次统计中,关注网站可以表示各个网站中的任意一个网站,而关联网站则表示该关注网站的一个关联网站。通过这种统计方法,可以快速高效地获得各个网站及其关联网站的关联UV量和关联PV量。
例如,当以网站A为关注网站时,统计在上述设定时间段内同时访问了网站A和网站A的关联网站B的UV量和PV量。从本实施例中,可知,用户01和用户02均在相同的24小时内访问了网站A和其关联网站B,则网站A和网站B的关联UV量为2。再假如,用户01访问了网站A10次,访问了网站B5次,用户02访问了网站A5次,访问了网站B2次,则网站A和网站B的关联PV量为5次+2次=7次。
而对于J和K网站来说,当以网站J为关注网站时,很明显,网站J和K的关联UV量为1;假如用户03在上述设定时间段内访问了网站J10次,访问了网站K5次,则网站J和K的关联PV量为5。
通过本步骤,根据各个网站及其关联网站的信息,实现了各个网站及其关联网站的关联PV量和关联UV量的获取。
步骤S214:根据各个网站的PV量和UV量,以及各个网站及其关联网站的关联PV量和关联UV量,获取各个网站与其关联网站的关联度。
本实施例中,优选地,将各个网站及其关联网站的关联UV量和各个网站的UV量的比值,作为各个网站及其关联网站的关联UV比例;将各个网站及其关联网站的关联PV量和各个网站的PV量的比值,作为各个网站的关联PV比例;根据各个网站及其关联网站的关联UV比例和关联PV比例,确定各个网站与其关联网站的关联度。其中,关联UV比例和关联PV比例的计算可以不分先后顺序,也可以并行执行。
例如,假设网站A的UV量为5,网站A和网站B的关联UV量为3,则网站A和网站B的关联UV比例为3/5;若网站A和网站C的关联UV量为2,则网站A和网站C的关联UV比例为2/5。可见,网站A与网站B的关联度高于网站A与网站C的关联度。
优选地,在根据各个网站及其关联网站的关联UV比例和关联PV比例,确定各个网站与其关联网站的关联度时,可以根据各个网站及其关联网站的关联UV比例,对各个网站的关联网站按照关联UV比例从大到小的顺序排序;再根据排序的结果确定各个网站与其关联网站的关联度。需要说明的是,当根据关联UV比例排序时,若关联UV比例相同,则可以继续按照关联PV比例从大到小的顺序,对关联UV比例相同的关联网站排序。例如,若网站A和网站C的关联UV比例,以及网站A和网站D的关联UV比例均为2/5,而网站A和网站C的关联PV比例为5/10,网站A和网站D的关联PV比例为3/10,则网站A与网站C的关联度高于网站A与网站D的关联度。
步骤S216:按照设定的行业列表对排序后的各个网站的关联网站进行过滤,获取各个网站的行业关联网站的关联度。
本步骤为可选步骤,通过本步骤可以方便网站主或管理者对同行业的关联网站的信息进行了解和掌握。如,网站A为医疗行业,网站A的关联网站包括BCDEF,其中BDE也为医疗行业,则通过本步骤,过滤掉CF网站,获取BDE网站与网站A的关联度。
通过本实施例,解决了现有网站排名方式无法获取网站之间的关联信息的问题,实现了挖掘网站的全网真实关联度,对于网站主或者某些网站如电商网站来说,可以进一步通过网站之间的关联度更准确地挖掘出潜在的竞争对手,进而制定相应的应对策略。
实施例三
参照图3,示出了根据本发明实施例三的一种网站关联信息获取方法的步骤流程图。
本实施例的网站关联信息获取方法包括以下步骤:
步骤S302:获取用户的全网网络访问日志信息。
用户的全网网络访问日志信息可能是跨多个网络的,本步骤中,可以通过获取主干网的镜像流量,即主干网流量的镜像数据,从而获取用户访问全网的全网网络访问日志信息。
步骤S304:过滤掉包括非正常用户的访问数据在内的脏数据,获得正常用户访问的全网网络访问日志信息。
如,过滤掉爬虫用户、非正常域名用户或者无法识别的用户的全网网络访问日志信息,获得正常用户访问的全网网络访问日志信息。
步骤S306:根据正常用户的全网网络访问日志信息,获取正常用户访问的网站的信息。
过滤后的正常用户访问的网站的信息主要包括正常用户访问的网站的信息,如网站的URL信息,以及正常用户的UID。其中,UID是用户ID(标识),用以标注用户名。优选地,过滤后的正常用户访问的网站的信息还可以包括正常用户访问网站的访问时间以及地区的信息,访问时间以及地区用于标识用户对某个网站的访问时间及该用户所在的地区。
一种使用mapreduce算法进行本步骤的方式如下:
map(网站为KEY)//以网站为关键字,统计用户访问的网站的信息;
imos-->网站|用户ID//统计每个网站的访问用户(未去重复处理);
reduce(统计网站PV、UV)//各个网站的PV量、UV量;
-->用户ID|网站|网站PV|网站UV
//获得各个网站的访问用户、网站PV量和网站UV量。
通过上述算法,可以获得所有网站的信息。
步骤S308:以UID为基准,统计出所有UID去过的所有网站的PV量和UV量。
通过本步骤,可以获取所有正常用户去过的所有网站的PV量和UV量。
一种使用mapreduce算法进行本步骤的统计的方式如下:
map(用户ID为KEY)
//以用户ID即UID为关键字,对每个用户去过的网站进行统计;
-->用户ID|网站|网站PV|网站UV
//统计每个用户去过的每个网站的网站PV量和UV量;
reduce(统计相同用户去过的网站)
//对用户进行去重处理;
-->用户ID|网站1,网站1PV,网站1UV|网站2,网站2PV,网站2UV|网站3,网站3PV,网站3UV...
//经过去重处理后的用户去过的每个网站的网站PV量和UV量。
通过上述算法,能够准确统计出每个用户去过的每个网站的PV量和UV量。
步骤S310:确定各个网站的关联网站。
步骤S312:以各个网站为基准,统计该网站和与该网站有关联关系的关联网站的关联PV量、关联UV量。
比如,A网站有100个用户访问了1000次,同时,这100个用户中有50个访问了B网站200次,B网站为A网站的关联网站,B网站相对于A网站的关联PV量是200次,B网站相对于A网站的关联UV量是50。
步骤S314:统计网站相同用户去向网站的关联PV量和关联UV量,累计求关联UV比例和关联PV比例。
例如:
关联UV比例:以“关注网站|关联网站”为key,累加相同key的UV数=关联网站UV(即关联UV量),关联UV比例=关联网站UV/关注网站UV。其中,关注网站可以是所有网站中的任意一个网站。如,上例中,网站A与网站B的关联UV比例=关联网站UV量/网站A的UV量=50/100。
同样,关联PV比例:以“关注网站|关联网站”为key,累加相同key的PV数=关联网站PV(即关联PV量),关联PV比例=关联网站PV/关注网站PV。其中,关注网站可以是所有网站中的任意一个网站。如,上例中,网站A与网站B的关联PV比例=关联网站PV量/网站A的PV量=200/1000。
步骤S316:根据求得的关联UV比例和关联PV比例,确定网站之间的关联度。
例如,按照关联UV比例对各个网站之间的关联度排序,关联UV比例相同,则又按照关联PV比例排序,得到各个网站的全网关联网站。此外,在排序完之后,还可以按照一定条件对关联网站进行过滤,如取关联度为前200的关联网站。
此外,还可以对与本网站相同行业的关联网站进行筛选,如,按照关联UV比例对网站之间的关联度排序,关联UV比相同时,则又按照关联PV比例排序,排序完之后,根据预设的行业列表只保留符合行业列表的关联网站,从而得到各个网站的行业关联网站。
一种使用mapreduce算法确定网站之间的关联度的方式如下:
map(以网站1,网站1PV,网站1UV|网站2为KEY)
-->
网站1,网站1PV,网站1UV|网站2|用户ID
网站1,网站1PV,网站1UV|网站3|用户ID
网站1,网站1PV,网站1UV|网站4|用户ID
...
网站2,网站2PV,网站2UV|网站3|用户ID
网站2,网站2PV,网站2UV|网站4|用户ID
...
reduce
-->
网站1|网站2|网站1PV|网站1UV|关联网站PV(累计用户ID)|关联网站UV(用户ID去重)|UV关联度(关联网站UV/网站1UV)|PV关联度(关联网站PV/网站1PV)
通过上述算法,可以获得各个网站与其关联网站之间的关联度。
以下,在获得了各个网站与其关联网站之间的关联度的基础上,对与每个网站相关联的关联网站进行排序。排序时可以按照倒序的方式,也可按照正序的方式,下面实例中采用了倒序方式,正序方式参照本实例适当修改即可。
一种使用mapreduce算法对关联网站进行排序的方式如下:
map(以网站1,网站2为KEY)
-->
网站1,网站2|网站1PV|网站1UV|关联网站PV(累计用户ID)|关联网站UV(用户ID去重)|UV关联度(关联网站UV/网站1UV)|PV关联度(关联网站PV/网站1PV)
reduce(按UV关联度、PV关联度倒序)
-->
网站1,网站2|网站1PV|网站1UV|关联网站PV(累计用户ID)|关联网站UV(用户ID去重)|UV关联度(关联网站UV/网站1UV)|PV关联度(关联网站PV/网站1PV)
通过上述算法,实现了每个网站的关联网站之间的关联度排序。
此外,若需要行业关联网站的信息,则可以参照下述mapreduce算法实现:
map(根据网站1的行业,过滤网站2不为行业网站的数据,只保留同网站1同行业网站)
-->
网站1,网站2|网站1PV|网站1UV|关联网站PV(累计用户ID)|关联网站UV(用户ID去重)|UV关联度(关联网站UV/网站1UV)|PV关联度(关联网站PV/网站1PV)
通过上述算法,实现了行业网站过滤。
通过对所有的网站执行上述相应步骤,最终形成一个全网的网站关联关系。
通过本实施例,提供了一种比较好的关联网站分析方案,实现了1)挖掘网站的全网真实关联度及行业内真实关联度;2)对于网站主或者电商网站等,能够更准确地挖掘出潜在的竞争对手。尤其是对于某一个网站的网站主来说,根据该方案,能够直接获得其关联网站的信息,从而其能够了解到与其相关的竞争者的信息,有效制定相应的应对策略。
实施例四
参照图4,示出了根据本发明实施例四的一种网站关联信息获取装置的结构框图。
本实施例的网站关联信息获取装置包括:第一获取模块402,用于根据正常用户的全网网络访问日志信息,获取正常用户访问的网站的信息;第二获取模块404,用于根据正常用户访问的网站的信息,获取网站的PV量和UV量;确定模块406,用于根据正常用户访问的网站的信息,确定各个网站的关联网站,其中,每个正常用户在设定时间段内访问的网站之间互为关联网站;第三获取模块408,用于根据各个网站及其关联网站的信息,获取各个网站及其关联网站的关联PV量和关联UV量;第四获取模块410,用于根据各个网站的PV量和UV量,以及各个网站及其关联网站的关联PV量和关联UV量,获取各个网站与其关联网站的关联度。
优选地,第三获取模块408,用于以关注网站为基准,统计关注网站和关联网站均相同的UV量和PV量,将统计出的UV量和PV量作为关注网站和关联网站的关联UV量和关联PV量;其中,在每次统计中,关注网站表示各个网站中的一个网站,关联网站表示该关注网站的一个关联网站。
优选地,第四获取模块410,用于将各个网站及其关联网站的关联UV量和各个网站的UV量的比值,作为各个网站及其关联网站的关联UV比例;将各个网站及其关联网站的关联PV量和各个网站的PV量的比值,作为各个网站及其关联网站的关联PV比例;根据各个网站及其关联网站的关联UV比例和关联PV比例,确定各个网站与其关联网站的关联度。
优选地,第四获取模块410进一步用于在根据各个网站及其关联网站的关联UV比例和关联PV比例,确定各个网站与其关联网站的关联度时,根据各个网站及其关联网站的关联UV比例,对各个网站的关联网站按照关联UV比例从大到小的顺序排序;根据排序的结果确定各个网站与其关联网站的关联度;其中,当关联UV比例相同时,按照关联PV比例从大到小的顺序,对关联UV比例相同的关联网站排序。
优选地,本实施例的网站关联信息获取装置还包括:过滤模块412,用于在第四获取模块410根据排序的结果确定各个网站与其关联网站的关联度之后,按照设定的行业列表对排序后的各个网站的关联网站进行过滤,获取各个网站的行业关联网站的关联度。
优选地,本实施例的网站关联信息获取装置还包括:第五获取模块414,用于在第一获取模块402根据正常用户的全网网络访问日志信息,获取正常用户访问的网站的信息之前,获取用户的全网网络访问日志信息;对用户的全网网络访问日志信息进行过滤,去除非正常用户的全网网络访问日志信息,获得正常用户的全网网络访问日志信息,其中,非正常用户包括以下至少之一:爬虫用户、非正常域名用户、无法识别的用户。
本实施例的网站关联信息获取装置用于实现前述多个方法实施例中相应的网站关联信息获取方法,并具有相应方法实施例的有益效果,在此不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种网站关联信息获取方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种网站关联信息获取方法,其特征在于,包括:
根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的信息;
根据所述正常用户访问的网站的信息,获取所述网站的页面浏览PV量和唯一访问者UV量;
根据所述正常用户访问的网站的信息,确定各个所述网站的关联网站,其中,每个所述正常用户在设定时间段内访问的网站之间互为关联网站;
根据所述各个网站及其关联网站的信息,获取所述各个网站及其关联网站的关联PV量和关联UV量;
根据所述各个网站的PV量和UV量,以及所述各个网站及其关联网站的关联PV量和关联UV量,获取所述各个网站与其关联网站的关联度。
2.根据权利要求1所述的方法,其特征在于,根据所述各个网站及其关联网站的信息,获取所述各个网站及其关联网站的关联PV量和关联UV量的步骤包括:
以关注网站为基准,统计所述关注网站和关联网站均相同的UV量和PV量,将统计出的UV量和PV量作为所述关注网站和所述关联网站的关联UV量和关联PV量;
其中,在每次所述统计中,所述关注网站表示所述各个网站中的一个网站,所述关联网站表示该关注网站的一个关联网站。
3.根据权利要求2所述的方法,其特征在于,根据所述各个网站的PV量和UV量,以及所述各个网站及其关联网站的关联PV量和关联UV量,获取所述各个网站与其关联网站的关联度的步骤包括:
将所述各个网站及其关联网站的关联UV量和所述各个网站的UV量的比值,作为所述各个网站及其关联网站的关联UV比例;将所述各个网站及其关联网站的关联PV量和所述各个网站的PV量的比值,作为所述各个网站及其关联网站的关联PV比例;
根据所述各个网站及其关联网站的关联UV比例和关联PV比例,确定所述各个网站与其关联网站的关联度。
4.根据权利要求3所述的方法,其特征在于,根据所述各个网站及其关联网站的关联UV比例和关联PV比例,确定所述各个网站与其关联网站的关联度的步骤包括:
根据所述各个网站及其关联网站的关联UV比例,对所述各个网站的关联网站按照所述关联UV比例从大到小的顺序排序;
根据所述排序的结果确定所述各个网站与其关联网站的关联度;
其中,当所述关联UV比例相同时,按照关联PV比例从大到小的顺序,对所述关联UV比例相同的关联网站排序。
5.根据权利要求4所述的方法,其特征在于,在所述根据所述排序的结果确定所述各个网站与其关联网站的关联度的步骤之后,还包括:
按照设定的行业列表对排序后的所述各个网站的关联网站进行过滤,获取所述各个网站的行业关联网站的关联度。
6.根据权利要求1所述的方法,其特征在于,在所述根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的信息的步骤之前,还包括:
获取用户的全网网络访问日志信息;
对所述用户的全网网络访问日志信息进行过滤,去除非正常用户的全网网络访问日志信息,获得所述正常用户的全网网络访问日志信息,其中,所述非正常用户包括以下至少之一:爬虫用户、非正常域名用户、无法识别的用户。
7.一种网站关联信息获取装置,其特征在于,包括:
第一获取模块,用于根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的信息;
第二获取模块,用于根据所述正常用户访问的网站的信息,获取所述网站的页面浏览PV量和唯一访问者UV量;
确定模块,用于根据所述正常用户访问的网站的信息,确定各个所述网站的关联网站,其中,每个所述正常用户在设定时间段内访问的网站之间互为关联网站;
第三获取模块,用于根据所述各个网站及其关联网站的信息,获取所述各个网站及其关联网站的关联PV量和关联UV量;
第四获取模块,用于根据所述各个网站的PV量和UV量,以及所述各个网站及其关联网站的关联PV量和关联UV量,获取所述各个网站与其关联网站的关联度。
8.根据权利要求7所述的装置,其特征在于,所述第三获取模块,用于以关注网站为基准,统计所述关注网站和关联网站均相同的UV量和PV量,将统计出的UV量和PV量作为所述关注网站和所述关联网站的关联UV量和关联PV量;其中,在每次所述统计中,所述关注网站表示所述各个网站中的一个网站,所述关联网站表示该关注网站的一个关联网站。
9.根据权利要求8所述的装置,其特征在于,所述第四获取模块,用于将所述各个网站及其关联网站的关联UV量和所述各个网站的UV量的比值,作为所述各个网站及其关联网站的关联UV比例;将所述各个网站及其关联网站的关联PV量和所述各个网站的PV量的比值,作为所述各个网站及其关联网站的关联PV比例;根据所述各个网站及其关联网站的关联UV比例和关联PV比例,确定所述各个网站与其关联网站的关联度。
10.根据权利要求9所述的装置,其特征在于,所述第四获取模块,进一步用于在根据所述各个网站及其关联网站的关联UV比例和关联PV比例,确定所述各个网站与其关联网站的关联度时,根据所述各个网站及其关联网站的关联UV比例,对所述各个网站的关联网站按照所述关联UV比例从大到小的顺序排序;根据所述排序的结果确定所述各个网站与其关联网站的关联度;其中,当所述关联UV比例相同时,按照关联PV比例从大到小的顺序,对所述关联UV比例相同的关联网站排序。
CN201310100180.6A 2013-03-26 2013-03-26 网站关联信息获取方法与装置 Active CN103218411B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310100180.6A CN103218411B (zh) 2013-03-26 2013-03-26 网站关联信息获取方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310100180.6A CN103218411B (zh) 2013-03-26 2013-03-26 网站关联信息获取方法与装置

Publications (2)

Publication Number Publication Date
CN103218411A true CN103218411A (zh) 2013-07-24
CN103218411B CN103218411B (zh) 2016-10-05

Family

ID=48816198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310100180.6A Active CN103218411B (zh) 2013-03-26 2013-03-26 网站关联信息获取方法与装置

Country Status (1)

Country Link
CN (1) CN103218411B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182542A (zh) * 2014-09-04 2014-12-03 北京国双科技有限公司 用于网站集群的数据处理方法和装置
CN105357054A (zh) * 2015-11-26 2016-02-24 上海晶赞科技发展有限公司 网站流量分析方法、装置和电子设备
CN105468701A (zh) * 2015-11-18 2016-04-06 车智互联(北京)科技有限公司 一种计算外部来源对网站流量波动的影响度的方法和装置
CN105786965A (zh) * 2016-01-27 2016-07-20 久远谦长(北京)技术服务有限公司 一种基于url的用户行为分析方法和装置
CN106874337A (zh) * 2016-08-31 2017-06-20 阿里巴巴集团控股有限公司 流量引导关系的统计查询方法及装置
CN107357795A (zh) * 2016-05-10 2017-11-17 北京国双科技有限公司 网站间关联度的监测方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080243812A1 (en) * 2007-03-30 2008-10-02 Microsoft Corporation Ranking method using hyperlinks in blogs
CN102289447A (zh) * 2011-06-16 2011-12-21 北京亿赞普网络技术有限公司 一种基于通讯网络报文的网站网页评价系统
CN102663048A (zh) * 2012-03-29 2012-09-12 奇智软件(北京)有限公司 一种搜索结果提供方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080243812A1 (en) * 2007-03-30 2008-10-02 Microsoft Corporation Ranking method using hyperlinks in blogs
CN102289447A (zh) * 2011-06-16 2011-12-21 北京亿赞普网络技术有限公司 一种基于通讯网络报文的网站网页评价系统
CN102663048A (zh) * 2012-03-29 2012-09-12 奇智软件(北京)有限公司 一种搜索结果提供方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182542A (zh) * 2014-09-04 2014-12-03 北京国双科技有限公司 用于网站集群的数据处理方法和装置
CN105468701A (zh) * 2015-11-18 2016-04-06 车智互联(北京)科技有限公司 一种计算外部来源对网站流量波动的影响度的方法和装置
CN105468701B (zh) * 2015-11-18 2018-09-14 车智互联(北京)科技有限公司 一种计算外部来源对网站流量波动的影响度的方法和装置
CN105357054A (zh) * 2015-11-26 2016-02-24 上海晶赞科技发展有限公司 网站流量分析方法、装置和电子设备
CN105786965A (zh) * 2016-01-27 2016-07-20 久远谦长(北京)技术服务有限公司 一种基于url的用户行为分析方法和装置
CN107357795A (zh) * 2016-05-10 2017-11-17 北京国双科技有限公司 网站间关联度的监测方法和装置
CN107357795B (zh) * 2016-05-10 2020-03-03 北京国双科技有限公司 网站间关联度的监测方法和装置
CN106874337A (zh) * 2016-08-31 2017-06-20 阿里巴巴集团控股有限公司 流量引导关系的统计查询方法及装置

Also Published As

Publication number Publication date
CN103218411B (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
CN103218411A (zh) 网站关联信息获取方法与装置
Wu et al. Tourism and economic growth in Asia: A bootstrap multivariate panel Granger causality
CN110020122B (zh) 一种视频推荐方法、系统及计算机可读存储介质
US20110209067A1 (en) System and Method for Website User Valuation
US8732104B2 (en) Method, system, and apparatus for determining a predicted rating
US20120036085A1 (en) Social media variable analytical system
CN105005582A (zh) 多媒体信息的推荐方法及装置
CN109325179A (zh) 一种内容推广的方法及装置
Alaveras et al. International trade in online services
CN101840554A (zh) 用于确定在线行为对离线销售影响的动态地理位置参数
CN106326279A (zh) 奖励数据处理的方法和系统
CN104899265A (zh) 信息推荐方法及系统
CN107895038A (zh) 一种链路预测关系推荐方法及装置
CN105488039A (zh) 一种问询方法及装置
CN104579912A (zh) 数据推送的方法及装置
CN103870452A (zh) 数据推荐方法及系统
CN103744916A (zh) 一种用于确定目标视频的分享热度信息的方法与设备
CN110188268A (zh) 一种基于标签和时间信息的个性化推荐方法
CN104978406A (zh) 互联网络平台的用户行为分析方法
Wulansaria et al. Asian e-commerce engages global trade openness: The role of information and communications technology, social, and security indicators
CN103593444A (zh) 网络关键词识别处理方法和装置
CN104182544A (zh) 分析数据库的维度剖析方法及装置
CN103186604A (zh) 用于确定用户对搜索结果满意度的方法、装置和设备
CN104123321B (zh) 一种确定推荐图片的方法及装置
CN106354622A (zh) 测试网页的展示方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant