CN107329992A - 一种网站分类排名的管理方法及管理系统 - Google Patents

一种网站分类排名的管理方法及管理系统 Download PDF

Info

Publication number
CN107329992A
CN107329992A CN201710422762.4A CN201710422762A CN107329992A CN 107329992 A CN107329992 A CN 107329992A CN 201710422762 A CN201710422762 A CN 201710422762A CN 107329992 A CN107329992 A CN 107329992A
Authority
CN
China
Prior art keywords
web site
site name
website
reference information
link reference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710422762.4A
Other languages
English (en)
Inventor
欧阳涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Feixun Data Communication Technology Co Ltd
Original Assignee
Shanghai Feixun Data Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Feixun Data Communication Technology Co Ltd filed Critical Shanghai Feixun Data Communication Technology Co Ltd
Priority to CN201710422762.4A priority Critical patent/CN107329992A/zh
Publication of CN107329992A publication Critical patent/CN107329992A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网站分类排名的管理方法及管理系统,包括:根据获取到的批量网站访问数据,提取访问用户信息、链接参考信息;查看链接参考信息是否匹配到对应的网站名称;当链接参考信息匹配到对应的网站名称时,则分别对访问用户信息、链接参考信息对应的网站名称进行归类合并;统计出每类网站名称对应的访问用户数量、以及该类网站名称的网站访问总数;根据每类网站名称对应的访问用户数量、以及该类网站名称的网站访问总数,对每类网站名称进行网站排名。本发明在链接参考信息匹配到网站名称后,对访问用户信息、链接参考信息进行归类合并,统计网站访问总数、访问用户数量,并进行排名;从而高效得进行网站分类排名。

Description

一种网站分类排名的管理方法及管理系统
技术领域
本发明属于网站技术领域,特别涉及网站分类排名的管理方法及管理系统。
背景技术
网站排名是按照客观、真实、公正原则,以网站访问流量统计数据为依据适时发布“NNT流量”。NNT流量是是一款基于P2P分享机制和沙盒安全原理,能快速提高网站流量和Alexa排名的真实流量。其中,影响网站排名的因素有很多,例如:点击率、网站流量和Alexa排名、用户特征、网站黏度等等。
对于任何一家公司网站来说,想要在公司网站推广中取得成功,使得网站排名靠前是关键。对于任意一个用户来说,想要获取优质网站内的内容,主要依靠网站排名顺序。因而,无论是对公司还是用户来说,网站排名十分重要。
目前,在大数据应用场景下,随着用户上网的数据海量增加。面对海量用户所访问的网站数据,对海量网站访问数据进行分类和计算后,对网站进行排名成为本领域亟待解决的问题。
发明内容
本发明提供的技术方案如下:
本发明提供一种网站分类排名的管理方法,包括以下步骤:S10、根据获取到的批量网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息;S20、查看所述链接参考信息在预设匹配样本库中是否匹配到对应的网站名称;S30、当所述链接参考信息匹配到对应的网站名称时,则分别对所述访问用户信息、所述链接参考信息对应的网站名称进行归类合并;S40、根据归类合并后的访问用户信息及网站名称,统计出每类网站名称对应的访问用户数量、以及该类网站名称的网站访问总数;S50、根据每类网站名称对应的访问用户数量、以及该类网站名称的网站访问总数,对每类网站名称进行网站排名。
进一步,还包括以下步骤:S31、当所述链接参考信息未匹配到对应的网站名称时,则直接丢弃该链接参考信息对应的网站访问数据。
进一步,所述步骤S10进一步包括:S11、根据获取到的批量网站访问数据,将批量网站访问数据划分成多片;S12、解析划分后的网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息。
进一步,所述步骤S30进一步还包括:S301、对所述网站访问数据对应的访问用户信息所进行归类合并;S302、根据归类合并后的访问用户信息,对所述访问用户信息进行排序。
进一步,所述步骤S30进一步还包括:S303、根据排序后的访问用户信息所访问的网站访问数据,以及所述网站访问数据对应的链接参考信息;对所述链接参考信息对应的网站名称进行归类合并;S304、根据归类合并后的网站名称,对所述链接参考信息对应的网站名称进行排序。
进一步,所述步骤S50进一步包括:S51、根据每类网站名称的网站访问总数大小、或者每类网站名称的访问用户数量大小,对每类网站名称进行网站排名。
进一步,所述步骤S50进一步还包括:S52、根据每类网站名称的网站访问总数、该类网站名称的访问用户数量,计算出每类网站名称对应每位访问用户的网站访问平均数;S53、根据每类网站名称对应的网站访问平均数大小,对每类网站名称进行网站排名。
本发明还提供一种网站分类排名的管理系统,包括:提取模块,用于根据获取到的批量网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息;查看模块,用于查看所述链接参考信息在预设匹配样本库中是否匹配到对应的网站名称;合并处理模块,用于当所述链接参考信息匹配到对应的网站名称时,分别对所述访问用户信息、所述链接参考信息对应的网站名称进行归类合并;统计模块,用于根据归类合并后的访问用户信息及网站名称,统计出每类网站名称对应的访问用户数量、以及该类网站名称的网站访问总数;排名处理模块,用于根据每类网站名称对应的访问用户数量、以及该类网站名称的网站访问总数,对每类网站名称进行网站排名。
进一步,还包括:丢弃处理模块,还用于当所述链接参考信息未匹配到对应的网站名称时,直接丢弃该链接参考信息对应的网站访问数据。
进一步,还包括:划分模块,用于根据获取到的批量网站访问数据,将批量网站访问数据划分成多片;所述提取模块,用于解析划分后的网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息。
与现有技术相比,本发明提供的网站分类排名的管理方法及管理系统,具有以下有益效果:
1)、本发明从批量网站访问数据中提取访问用户信息、链接参考信息,在链接参考信息匹配到网站名称后,对访问用户信息、链接参考信息进行归类合并,统计网站访问总数、访问用户数量,并进行排名;从而高效得进行网站分类排名。
2)、本发明在链接参考信息未匹配到网站名称时,直接将链接参考信息对应的网站访问数据丢弃;从而减轻计算任务、解除所占用的资源;有利于程序稳定快速运行。
3)、本发明将批量网站访问数据划分成片,解析每片网站访问数据,分散计算任务,有利于高效、稳定地对网站名称进行排名。
4)、本发明提取访问用户信息,对访问用户信息进行归类合并后,进行排列,从而得到有序的访问用户信息。其次,对网站访问数据进行归类合并后,进行排列;从而得到有序的访问用户信息及该访问用户信息下有序的网站访问数据。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种网站分类排名的管理方法及管理系统的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种网站分类排名的管理方法的流程示意图;
图2是本发明另一种网站分类排名的管理方法的流程示意图;
图3是本发明再一种网站分类排名的管理方法的流程示意图;
图4是本发明一种网站分类排名的管理系统的组成结构示意图;
图5是本发明又一种网站分类排名的管理方法的流程示意图;
图6是本发明中编写TASK任务的示意图。
附图标号说明:
10、划分模块,20、提取模块,30、查看模块,40、合并处理模块,50、排序处理模块,60、丢弃处理模块,70、统计模块,80、计算模块,90、排名处理模块。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
如图1所示,根据本发明的一个实施例,一种网站分类排名的管理方法,包括以下步骤:S10、根据获取到的批量网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息;所述访问用户信息包括用户终端MAC地址;所述链接参考信息包括URL关键字,例如sogou;
S20、查看所述链接参考信息(sogou)在预设匹配样本库中是否匹配到对应的网站名称(搜狗);
S30、当所述链接参考信息匹配到对应的网站名称时,分别对所述访问用户信息、所述链接参考信息对应的网站名称进行归类合并;
优选的,还包括:S31、当所述链接参考信息未匹配到对应的网站名称时,直接丢弃该链接参考信息对应的网站访问数据。
S40、根据归类合并后的访问用户信息及网站名称,统计出每类网站名称对应的网站访问总数、以及该类网站名称的访问用户数量;
S50、根据每类网站名称的网站访问总数、以及该类网站名称的访问用户数量,对每类网站名称进行网站排名。
具体的,首先,需要构建分布式系统的集群环境,所述集群环境包括主节点和从节点,以及主节点、从节点的个数;例如:安装linux centos7在11个机器里(4个master,7个slave),并保证磁盘根目录不低于40G。安装基于无环有向图分布式MR-Reduce计算分析。Maser:管理各个Task的依赖关系,并按顺依赖关系执行他们。
此外,编写基于该计算的Task任务的查询分析任务-URL关键字匹配,Task任务按照input、processor、Output分别完成计算;Task:对任务的抽象,每个Task由一个Input、Ouput和Processor组成。Processor:对计算的抽象,它从一个Input中获取数据,经处理后,通过Output输出。编写基于MR的MAC地址统计。分别提交任务到YARN,YARN是Hadoop的资源管理系统。Hadoop是一个由Apache基金会所开发的分布式系统基础架构;充分利用集群进行高速运算和存储。运行任务将任务结果存储在Mysql。对查询结果进行可视化输出。
本发明在通过部署计算分析的链接参考信息(URL关键字)分类中,将分析URL关键字计算与路由器MAC地址的计算统计分开,将URL关键字匹配的计算部署基于无环有向图分布式MR-REDUCE计算分析,这样能将计算压力转移,提高计算性能和效率。
如图2所示,根据本发明的另一个实施例,一种网站分类排名的管理方法,包括以下步骤:S11、根据获取到的批量网站访问数据,将批量网站访问数据划分成多片;
S12、解析划分后的网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息。所述访问用户信息包括用户终端MAC地址;所述链接参考信息包括URL关键字,例如sogou;
S20、查看所述链接参考信息(sogou)在预设匹配样本库中是否匹配到对应的网站名称(搜狗);
S301、对所述网站访问数据对应的访问用户信息进行归类合并;
S302、根据归类合并后的访问用户信息,对所述访问用户信息进行排序。
S303、根据归类合并后的访问用户信息所访问的网站访问数据,以及所述网站访问数据对应的链接参考信息;对所述链接参考信息对应的网站名称进行归类合并;
S304、根据归类合并后的网站名称,对所述链接参考信息对应的网站名称进行排序。
优选的,还包括:S31、当所述链接参考信息未匹配到对应的网站名称时,直接丢弃该链接参考信息对应的网站访问数据。
S40、根据排序后的访问用户信息及网站名称,统计出每类网站名称对应的网站访问总数、以及该类网站名称的访问用户数量;
S50、根据每类网站名称的网站访问总数、以及该类网站名称的访问用户数量,对每类网站名称进行网站排名。
具体的,利用数据收集装置(例如路由器)收集海量网站访问数据;input输入批量网站访问数据,输入的数据可能是一堆文本。将批量网站访问数据split划分成若干的分片,每个分片交给一个Map处理。map会解析每行数据,提取有效的数据作为输出,map的输出就是一条一条的key-value。tasktracker会把数据进行复制和排序,输出的key和value进行partition的划分(Paritioner对数据进行分片),并把partition相同的map输出,合并为相同的reduce的输入。通过shuffle之后,变成reduce的输入,这是相同的key对应的value被组合成了一个迭代器。ruducer处理:把数据输出,每个相同的key,一定在一个reduce中处理完;每一个reduce至少对应一份输出(可以通过扩展MultipleOutputFormat来得到多分输出)。
其中,input默认是一行一条记录,每天记录都放在value里边。output每次搜集一条K-V记录,一个K可以对应多个value,在reduce里面体现为一个iterator。
mapper可以选择性地继承MapreduceBase这个基类,只是把一些方法实现了而已。mapper必须实现Mapper接口,这是一个泛型接口,需要执行输入和输出的key-value的类型,这些类型通常都是Wriable接口的实现类。实现map方法有四个参数:前两个参数是输入的Key和value;第三个参数是OuputCollector,用于收集输出;第四个参数是reporte,用来报告一些状态,可以用于debug。
reduce也可以选择继承MapreduceBase这个基类,功能跟mapper一样。cer必须实现Reducer接口,这个接口同样是泛型接口,意义跟Mapper的类似。实现reduce方法也有四个参数:第一个参数是输入的key;第二个参数是输入的value的迭代器,可以遍历所有的value,相当于一个列表;第三个参数是outputCollector跟map的一样,是输出的搜集器,每次搜集都是key-value的形式;第四个参数是report,其作用跟map的reporte相同。
combiner的作用是将map的输出,先计算一遍,得到初步的合并结果,减少reduce的计算压力。combiner的编写方法跟reduce是一样的,是一个Reducer的实现类。当reducer符合函数F(a,b)=F(F(a),F(b))时,combinner可以与reduce相同。比如:sum(a,b,c,d,e,f,g)=sum(sum(a,b),sum(c,d,e,f),sum(g))还有max,min等等。编写正确的combiner可以优化整个mapreduce程序的性能。combiner可以跟reducer不同。
设置inputs&output:先判断输入是否存在;判断输出是否已经存在。设置mapper、reducer、combiner。各个实现类的class对象,XXXX.class。
设置inputformat&outputformat&types:input和output format都有两种:一种是textfile,一种是sequencefile。textfile是文本组织的形式,sequence file是二进制组织的形式。
Types的设置,根据输入和输出的数据类型,设置各种Writable接口的实现类的class对象。
设置reduce count:reduce count可以为0,当数据无需reduce的时候。reduce数量最好稍微少于当前可用的slots的数量,这样reduce就能在一波计算中算好。
如图3所示,根据本发明的再一个实施例,一种网站分类排名的管理方法,包括以下步骤:S11、根据获取到的批量网站访问数据,将批量网站访问数据划分成多片;
S12、解析划分后的网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息。所述访问用户信息包括用户终端MAC地址;所述链接参考信息包括URL关键字,例如sogou;
S20、查看所述链接参考信息(sogou)在预设匹配样本库中是否匹配到对应的网站名称(搜狗);
S301、对所述网站访问数据对应的访问用户信息进行归类合并;
S302、根据归类合并后的访问用户信息,对所述访问用户信息进行排序。
S303、根据排序后的访问用户信息所访问的网站访问数据,以及所述网站访问数据对应的链接参考信息;对所述链接参考信息对应的网站名称进行归类合并;
S304、根据归类合并后的网站名称,对所述链接参考信息对应的网站名称进行排序。
优选的,还包括:S31、当所述链接参考信息未匹配到对应的网站名称时,直接丢弃该链接参考信息对应的网站访问数据。
S40、根据归类合并后的访问用户信息及链接参考信息,统计出每类网站名称对应的网站访问总数、以及该类网站名称的访问用户数量;
S51、根据每类网站名称的网站访问总数大小、或者每类网站名称的访问用户数量大小,对每类网站名称进行网站排名。
或者:S52、根据每类网站名称的网站访问总数、该类网站名称的访问用户数量,计算出每类网站名称对应每位访问用户的网站访问平均数;
S53、根据每类网站名称对应的网站访问平均数大小,对每类网站名称进行网站排名。
具体的,通过数据收集装置(如家用路由器)获取批量的原始数据,具体如下:
在数据库中对数据进行匹配,其匹配结果如下:
对访问用户信息进行归类合并后、排序,其结果如下:
统计出每类网站名称对应的网站访问总数、以及该类网站名称的访问用户数量,其结果如下:启用MR计算得出结果数据(访问了几次),如果该批数据中存在前述匹配不到的,则忽略数据。
000000003555、000000003511 腾讯网站访问2次;
000000003555 搜狐网站访问1次;
000000001abb 爱奇艺网站访问1次。
如图4所示,根据本发明的一个实施例,一种网站分类排名的管理系统,包括:提取模块20,用于根据获取到的批量网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息;所述访问用户信息包括用户终端MAC地址;所述链接参考信息包括URL关键字,例如sogou;
优选的,划分模块10,用于根据获取到的批量网站访问数据,将批量网站访问数据划分成多片;
所述提取模块20,用于解析划分后的网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息。
查看模块30,用于查看所述链接参考信息(sogou)在预设匹配样本库中是否匹配到对应的网站名称(搜狗);
合并处理模块40,用于当所述链接参考信息匹配到对应的网站名称时,分别对所述访问用户信息、所述链接参考信息对应的网站名称进行归类合并。
优选的,还包括:所述合并处理模块40,用于对所述网站访问数据对应的访问用户信息进行归类合并;
排序处理模块50,用于根据归类合并后的访问用户信息,对所述访问用户信息进行排序;
所述合并处理模块40,用于根据排序后的访问用户信息所访问的网站访问数据,以及所述网站访问数据对应的链接参考信息;对所述链接参考信息对应的网站名称进行归类合并;
所述排序处理模块50,用于根据归类合并后的网站名称,对所述链接参考信息对应的网站名称进行排序。
优选的,还包括:丢弃处理模块60,用于当所述链接参考信息未匹配到对应的网站名称时,直接丢弃该链接参考信息对应的网站访问数据。
统计模块70,用于根据归类合并后的访问用户信息及链接参考信息,统计出每类网站名称对应的网站访问总数、以及该类网站名称的访问用户数量;
排名处理模块90,用于根据每类网站名称的网站访问总数大小、或者每类网站名称的访问用户数量大小,对每类网站名称进行网站排名。
或者:计算模块80,用于根据每类网站名称的网站访问总数、该类网站名称的访问用户数量,计算出每类网站名称对应每位访问用户的网站访问平均数;
排名处理模块90,用于根据每类网站名称对应的网站访问平均数大小,对每类网站名称进行网站排名。
本发明在基于基于无环有向图分布式MR-Reduce计算分析的大数据分析平台上,借着基于无环有向图分布式MR-Reduce计算分析的分布式计算及分类的方法,完成网站的高效分类及排名,比普通的Hadoop计算更快且效率高。
如图5、图6所示,根据本发明的又一个实施例,一种网站分类排名的管理方法,包括以下步骤:安装linux centos7在11个机器里,(如,4个master,7个slave);并保证磁盘根目录不低于40G。Maser:管理各个Task的依赖关系,并按顺依赖关系执行他们。安装基于无环有向图分布式MR-Reduce计算分析;编写基于该计算的Task任务的查询分析任务-URL关键字匹配,Task任务按照input、processor、Output分别完成计算;详细流程如图6所示。Task:对任务的抽象,每个Task由一个Input、Ouput和Processor组成。
编写基于MR的MAC地址统计;
分别提交任务到YARN;
运行任务将任务结果存储在Mysql;
对查询结果进行可视化输出。
启动无环有向图的MR-Reduce计算任务,会将计算分解为Map和Reduce:其中,Map包括:Input、Processor、Sort、Merge、Output;Reduce包括:Input、Shuffle、Sort、Merge、Processor、Output。
Input:对输入数据源的抽象,它解析输入数据格式,并吐出一个个Key/value。
Output:对输出数据源的抽象,它将用户程序产生的Key/value写入文件系统。
Processor:对计算的抽象,它从一个Input中获取数据,经处理后,通过Output输出。
sort:统计频次结果排序。
Merge:归类合并。
Shuffle:把map task的输出结果有效地传送到reduce端。
ambari:Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、spark等。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种网站分类排名的管理方法,其特征在于,包括以下步骤:
S10、根据获取到的批量网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息;
S20、查看所述链接参考信息在预设匹配样本库中是否匹配到对应的网站名称;
S30、当所述链接参考信息匹配到对应的网站名称时,则分别对所述访问用户信息、所述链接参考信息对应的网站名称进行归类合并;
S40、根据归类合并后的访问用户信息及网站名称,统计出每类网站名称对应的访问用户数量、以及该类网站名称的网站访问总数;
S50、根据每类网站名称对应的访问用户数量、以及该类网站名称的网站访问总数,对每类网站名称进行网站排名。
2.如权利要求1所述的网站分类排名的管理方法,其特征在于,还包括以下步骤:
S31、当所述链接参考信息未匹配到对应的网站名称时,则直接丢弃该链接参考信息对应的网站访问数据。
3.如权利要求1所述的网站分类排名的管理方法,其特征在于,所述步骤S10进一步包括:
S11、根据获取到的批量网站访问数据,将批量网站访问数据划分成多片;
S12、解析划分后的网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息。
4.如权利要求1所述的网站分类排名的管理方法,其特征在于,所述步骤S30进一步还包括:
S301、对所述网站访问数据对应的访问用户信息所进行归类合并;
S302、根据归类合并后的访问用户信息,对所述访问用户信息进行排序。
5.如权利要求4所述的网站分类排名的管理方法,其特征在于,所述步骤S30进一步还包括:
S303、根据排序后的访问用户信息所访问的网站访问数据,以及所述网站访问数据对应的链接参考信息;对所述链接参考信息对应的网站名称进行归类合并;
S304、根据归类合并后的网站名称,对所述链接参考信息对应的网站名称进行排序。
6.如权利要求1~5中任意一项所述的网站分类排名的管理方法,其特征在于,所述步骤S50进一步包括:
S51、根据每类网站名称的网站访问总数大小、或者每类网站名称的访问用户数量大小,对每类网站名称进行网站排名。
7.如权利要求1~5中任意一项所述的网站分类排名的管理方法,其特征在于,所述步骤S50进一步还包括:
S52、根据每类网站名称的网站访问总数、该类网站名称的访问用户数量,计算出每类网站名称对应每位访问用户的网站访问平均数;
S53、根据每类网站名称对应的网站访问平均数大小,对每类网站名称进行网站排名。
8.一种应用于如权利要求1~7中任意一项所述的网站分类排名的管理方法的管理系统,其特征在于,包括:
提取模块,用于根据获取到的批量网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息;
查看模块,用于查看所述链接参考信息在预设匹配样本库中是否匹配到对应的网站名称;
合并处理模块,用于当所述链接参考信息匹配到对应的网站名称时,分别对所述访问用户信息、所述链接参考信息对应的网站名称进行归类合并;
统计模块,用于根据归类合并后的访问用户信息及网站名称,统计出每类网站名称对应的访问用户数量、以及该类网站名称的网站访问总数;
排名处理模块,用于根据每类网站名称对应的访问用户数量、以及该类网站名称的网站访问总数,对每类网站名称进行网站排名。
9.如权利要求8所述的网站分类排名的管理系统,其特征在于,还包括:
丢弃处理模块,还用于当所述链接参考信息未匹配到对应的网站名称时,直接丢弃该链接参考信息对应的网站访问数据。
10.如权利要求8所述的网站分类排名的管理系统,其特征在于,还包括:
划分模块,用于根据获取到的批量网站访问数据,将批量网站访问数据划分成多片;
所述提取模块,用于解析划分后的网站访问数据,从所述网站访问数据中提取访问用户信息、链接参考信息。
CN201710422762.4A 2017-06-07 2017-06-07 一种网站分类排名的管理方法及管理系统 Pending CN107329992A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710422762.4A CN107329992A (zh) 2017-06-07 2017-06-07 一种网站分类排名的管理方法及管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710422762.4A CN107329992A (zh) 2017-06-07 2017-06-07 一种网站分类排名的管理方法及管理系统

Publications (1)

Publication Number Publication Date
CN107329992A true CN107329992A (zh) 2017-11-07

Family

ID=60194140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710422762.4A Pending CN107329992A (zh) 2017-06-07 2017-06-07 一种网站分类排名的管理方法及管理系统

Country Status (1)

Country Link
CN (1) CN107329992A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063158A (zh) * 2018-08-10 2018-12-21 赛尔网络有限公司 一种网站访问排名信息查询的方法、设备、系统及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364468A (zh) * 2011-09-29 2012-02-29 北京亿赞普网络技术有限公司 一种用户网络行为分析方法、装置和系统
CN102663054A (zh) * 2012-03-29 2012-09-12 奇智软件(北京)有限公司 一种确定网站权重的方法及装置
CN102663048A (zh) * 2012-03-29 2012-09-12 奇智软件(北京)有限公司 一种搜索结果提供方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364468A (zh) * 2011-09-29 2012-02-29 北京亿赞普网络技术有限公司 一种用户网络行为分析方法、装置和系统
CN102663054A (zh) * 2012-03-29 2012-09-12 奇智软件(北京)有限公司 一种确定网站权重的方法及装置
CN102663048A (zh) * 2012-03-29 2012-09-12 奇智软件(北京)有限公司 一种搜索结果提供方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063158A (zh) * 2018-08-10 2018-12-21 赛尔网络有限公司 一种网站访问排名信息查询的方法、设备、系统及介质
CN109063158B (zh) * 2018-08-10 2021-04-27 赛尔网络有限公司 一种网站访问排名信息查询的方法、设备、系统及介质

Similar Documents

Publication Publication Date Title
Fan et al. Performance evaluation of blockchain systems: A systematic survey
Ristoski et al. Mining the web of linked data with rapidminer
CN104090886B (zh) 构建用户实时画像的方法及装置
CN103902653B (zh) 一种构建数据仓库表血缘关系图的方法和装置
TWI496015B (zh) Text matching method and device
CN104503891B (zh) 对jvm线程进行在线监控的方法和装置
CN110675194A (zh) 一种漏斗分析方法、装置、设备及可读介质
CN104462222A (zh) 一种卡口车辆通行数据的分布式存储方法及系统
CN104699718A (zh) 用于快速引入业务数据的方法和装置
Chen et al. From tpc-c to big data benchmarks: A functional workload model
CN107820613A (zh) 数据库索引自动推荐和创建
Gao et al. Handling data skew in MapReduce cluster by using partition tuning
CN108228796A (zh) Mpp数据库的管理方法、装置、系统、服务器及介质
CN109977312A (zh) 一种基于内容标签的知识库推荐系统
Tian et al. Bleach: A distributed stream data cleaning system
CN116932321A (zh) 日志数据监控方法、装置、电子设备及存储介质
CN105242873B (zh) 云计算系统的性能数据的采集与存储方法及装置
CN105426392A (zh) 一种协同过滤推荐方法及系统
CN114817389A (zh) 数据处理方法、装置、存储介质及电子设备
CN110737432A (zh) 一种基于词根表的脚本辅助设计方法及装置
CN113094444B (zh) 数据处理方法、数据处理装置、计算机设备和介质
CN107329992A (zh) 一种网站分类排名的管理方法及管理系统
CN111026759B (zh) 基于Hbase的报表生成方法及装置
Kaviani et al. Cross-tier application and data partitioning of web applications for hybrid cloud deployment
Xie et al. Modeling traffic of big data platform for large scale datacenter networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171107

WD01 Invention patent application deemed withdrawn after publication