CN105468737A - 一种网络服务大数据分析方法、云计算平台及挖掘系统 - Google Patents
一种网络服务大数据分析方法、云计算平台及挖掘系统 Download PDFInfo
- Publication number
- CN105468737A CN105468737A CN201510821601.3A CN201510821601A CN105468737A CN 105468737 A CN105468737 A CN 105468737A CN 201510821601 A CN201510821601 A CN 201510821601A CN 105468737 A CN105468737 A CN 105468737A
- Authority
- CN
- China
- Prior art keywords
- daily record
- record data
- server
- cloud computing
- computing platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
- G06F16/1824—Distributed file systems implemented using Network-attached Storage [NAS] architecture
- G06F16/183—Provision of network file services by network file servers, e.g. by using NFS, CIFS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Abstract
本发明公开了一种网络服务大数据分析方法、云计算平台及挖掘系统,该方法应用于云计算平台中,云计算平台与网站服务器、数据库服务器及网页服务器均连接,包括:接收网站服务器发送的日志数据;按照预设的条件过滤日志数据,并将日志数据存储于分布式文件存储系统目录中;当接收到网页服务器发送的挖掘任务指令时,基于挖掘任务指令,按照预设的规则挖掘分布式文件存储系统目录中存储的所述日志数据,获得挖掘结果;输出挖掘结果至数据库服务器。本发明提供的方法、平台及系统用以解决现有技术中的数据挖掘方法,存在的不能满足当前大数据的需求的技术问题。实现了满足对海量数据的高效挖掘需求的效果。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种网络服务大数据分析方法、云计算平台及挖掘系统。
背景技术
随着现代科技的快速发展,网络高度发达,互联网被不断的应用到社会的各个方面。人们的生活也随之发生改变,越来越多的通过网络来获取信息资源和相互交流。门户网站、社交网站、微博论坛等等成为人们每天必定访问的目标。与此同时,隐藏在网络中的信息量也随之呈指数级增长。对于热点网站来说,单日的访问数据信息可能突破万亿字节级别。一著名社交网站在2014年公布了其单日处理用户上传的数据量突破了500TB。网络的发展已经进入了大数据时代。
然而,不同用户的上网习惯和目的是不同的。对于互联网企业来说,用户信息是其最重要的资源,如何从访问信息中分析挖掘出用户的网络行为特点,为用户提供个性化的服务吸引用户,成为了一个重要问题。同时,用户期望能够用最快捷的方式获得自己想要的信息,希望访问的网站能够推送自己感兴趣的新闻和话题。对互联网企业来说,可以据用户活跃数对网站进行相应改进和升级;对用户而言,可以获得感兴趣的推送以提高用户体验。
但是,传统的分析访问信息数据的方式在面对大数据时有着诸多弊端。例如,数据提取、转换和加载(extract-transform-load,ETL)在处理大数据时,硬件开销过于庞大且性能一般,已经无法满足现在数据大爆炸时代的需求。基于以上需求关系,一种能够从海量访问信息中高效的分析用户网络行为的系统具有了重要意义。
也就是说,现有技术中的数据挖掘方法,存在不能满足当前处理大数据时对硬件开销的需求。
发明内容
本申请实施例通过提供一种网络服务大数据分析方法、云计算平台及挖掘系统,解决了现有技术中的数据挖掘方法,存在的不能满足当前处理大数据时对硬件开销的需求的技术问题。
一方面,本申请实施例提供了如下技术方案:
一种网络服务大数据分析方法,应用于云计算平台中,所述云计算平台与网站服务器、数据库服务器及网页服务器均连接,所述方法包括:
接收所述网站服务器发送的日志数据;
按照预设的条件过滤所述日志数据,并将所述日志数据存储于分布式文件存储系统目录中;
当接收到所述网页服务器发送的挖掘任务指令时,基于所述挖掘任务指令,按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,获得挖掘结果;
输出所述挖掘结果至所述数据库服务器。
可选的,所述接收所述网站服务器发送的日志数据之后,还包括:发送删除指令至所述网站服务器,以使所述网站服务器删除所述日志数据。
可选的,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:按照预设的与所述挖掘任务指令对应的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据。
可选的,当所述挖掘任务指令的种类为排序类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:使用分布式并行计算模型挖掘所述日志数据;当所述挖掘任务指令的种类为统计分析类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:对所述日志数据进行结构化处理,将所述日志数据映射为数据库表;挖掘所述数据库表。
可选的,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:使用分布式并行计算模型挖掘所述日志数据,获得中间数据;对所述中间数据进行结构化处理,将所述中间数据映射为数据库表;挖掘所述数据库表。
另一方面,本申请实施例还提供了一种云计算平台,所述云计算平台与网站服务器、数据库服务器及网页服务器均连接,所述云计算平台包括:
传输单元,用于接收所述网站服务器发送的日志数据;
预处理单元,与所述传输单元连接;用于接收所述传输单元传输的所述日志数据,并按照预设的条件过滤所述日志数据;
存储单元,与所述预处理单元连接;用于将所述预处理单元过滤后的日志数据存储于所述存储单元的分布式文件存储系统目录中;
分析挖掘单元,与所述传输单元和所述存储单元均连接;用于当所述传输单元接收到所述网页服务器发送的挖掘任务指令时,基于所述挖掘任务指令,按照预设的规则挖掘所述存储单元的所述分布式文件存储系统目录中存储的所述日志数据,获得挖掘结果;
导出单元,与所述分析挖掘单元连接,以输出所述挖掘结果至所述数据库服务器。
可选的,所述传输单元还用于,发送删除指令至所述网站服务器,以使所述网站服务器删除所述日志数据。
可选的,所述分析挖掘单元还用于:当所述挖掘任务指令的种类为排序类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:使用分布式并行计算模型挖掘所述日志数据;当所述挖掘任务指令的种类为统计分析类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:对所述日志数据进行结构化处理,将所述日志数据映射为数据库表。
再一方面,还提供了一种挖掘系统,包括:云计算平台、网站服务器、数据库服务器和网页服务器;所述云计算平台与所述网站服务器、所述数据库服务器及所述网页服务器均连接;
所述网站服务器用于,发送日志数据至所述云计算平台;
所述云计算平台用于,接收所述日志数据,按照预设的条件过滤所述日志数据,并将所述日志数据存储于分布式文件存储系统目录中;
所述网页服务器用于,发送挖掘任务指令至所述云计算平台;
所述云计算平台用于,基于所述挖掘任务指令,按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,获得挖掘结果;输出所述挖掘结果至所述数据库服务器;
所述数据库服务器用于存储所述挖掘结果。
可选的,所述数据库服务器和所述网页服务器连接;所述网页服务器还用于,发送查询指令至所述数据库服务器;所述数据库服务器还用于,基于所述查询指令输出所述挖掘结果至所述网页服务器,以使所述网页服务器能显示出所述挖掘结果。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、本申请实施例提供的方法、平台及系统,利用云计算平台来收集各网站服务器的日志数据,再在接收到网页服务器发送的挖掘任务指令后,对收集的日志数据进行挖掘,并将挖掘结果发送给数据库服务器存储,由于云计算平台的扩展性极强,可以满足对海量数据的高效挖掘需求。
2、本申请实施例提供的方法、平台及系统,通过网页服务器来发起挖掘任务指令,能实现通过在网页服务器上执行操作,就可以发起挖掘任务指令,以调度网页服务器、网站服务器、云平台、数据库服务器这四个子系统,并依次自动执行这四个子系统内部所有与获取信息挖掘结果的相关操作,最终得到挖掘的结果,便于用户操作,提高了系统的挖掘效率。进一步,在发起挖掘任务指令,自动执行相关操作的中间过程中,各个中间操作的结果都可以回传到网页服务器上,并显示出来,在其中一步操作出现错误的时候,就会停在该操作所在的位置,便于在出现错误时候的问题查找定位。
3、本申请实施例提供的方法、平台及系统,可以同时对接入系统的多个网站服务器的日志数据进行挖掘分析以及存储处理,而不需要网站服务器存储日志数据,减少网站服务器对日志数据的分析工作量和存储压力,提高网站服务器的处理速度。
附图说明
图1为本申请实施例中挖掘系统的结构图;
图2为本申请实施例中通过网页服务器控制数据挖掘的示意图;
图3为本申请实施例中云计算平台的结构图;
图4为本申请实施例中网络服务大数据分析方法的步骤图。
具体实施方式
本申请实施例通过提供一种网络服务大数据分析方法、云计算平台及挖掘系统,解决了现有技术中的数据挖掘方法,存在的不能满足当前处理大数据时对硬件开销的需求的技术问题。实现了满足对海量数据的高效挖掘需求。
为了解决上述现有技术存在的技术问题,本申请实施例提供的技术方案的总体思路如下:
一种网络服务大数据分析方法,应用于云计算平台中,所述云计算平台与网站服务器、数据库服务器及网页服务器均连接,所述方法包括:
接收所述网站服务器发送的日志数据;
按照预设的条件过滤所述日志数据,并将所述日志数据存储于分布式文件存储系统目录中;
当接收到所述网页服务器发送的挖掘任务指令时,基于所述挖掘任务指令,按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,获得挖掘结果;
输出所述挖掘结果至所述数据库服务器。
通过上述内容可以看出,利用云计算平台来收集各网站服务器的日志数据,再在接收到网页服务器发送的挖掘任务指令后,对收集的日志数据进行挖掘,并将挖掘结果发送给数据库服务器存储,由于云计算平台的扩展性极强,可以满足对海量数据的高效挖掘需求。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例一:
在实施例一中,提供了一种挖掘系统,如图1所示,所述系统包括:云计算平台1、网站服务器2、数据库服务器3和网页服务器4;所述云计算平台1与所述网站服务器2、所述数据库服务器3及所述网页服务器4均连接;
所述网站服务器2用于,发送日志数据至所述云计算平台1;
所述云计算平台1用于,接收所述日志数据,按照预设的条件过滤所述日志数据,并将所述日志数据存储于分布式文件存储系统目录中;
所述网页服务器4用于,发送挖掘任务指令至所述云计算平台1;
所述云计算平台1用于,基于所述挖掘任务指令,按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,获得挖掘结果;输出所述挖掘结果至所述数据库服务器3;
所述数据库服务器3用于存储所述挖掘结果。
下面将分别介绍所述系统的结构,及所述系统的交互运作方式。
首先,介绍所述系统的结构。
在具体实施过程中,如图1所示,所述云计算平台1、网站服务器2、数据库服务器3和网页服务器4均可以由多台服务器设备组成;
进一步,在具体实施过程中,网站服务器2、数据库服务器3和网页服务器4可以为不同的服务器,也可以为同一个服务器,即网站服务器2、数据库服务器3和网页服务器4为同一个或同一组服务器;或,服务器2和数据库服务器3为同一个或同一组服务器;或,数据库服务器3和网页服务器4为同一个或同一组服务器;或,网站服务器2和网页服务器4为同一个或同一组服务器;或网站服务器2、数据库服务器3和网页服务器4分别为不同的一个或一组服务器;在此不作限制。
在具体实施过程中,所述云计算平台1是系统的核心集群,它可以由大量廉价服务器组成,可以是基于Linux系统的。由于云计算平台1的可扩展性,所述云计算平台1的规模可以根据系统需要处理的日志数据量的大小来决定。云计算平台1上承载着分布式文件存储系统和分布式并行计算系统,具体来说,云计算平台1上的每个节点上都运行着分布式文件存储系统和分布式并行计算系统相关线程。根据角色差异,不同节点运行的线程会有所不同,包括处理分布式文件存储系统目录存储程序和分布式并行计算系统并行计算程序的主从线程。集群中大多数节点都同时作为分布式文件存储系统目录存储单元和分布式并行计算系统并行计算单元,但是只有在有计算任务的时候,负责计算的线程才会执行并输出结果。
网站服务器2是需挖掘的日志数据的来源,可以由普通服务器组成。
所述网页服务器4是系统交互机制的核心,可以由普通服务器组成,负责处理系统使用者的执行和查询请求。它将用户端发过来的命令发给云计算平台1来进行数据挖掘或发给数据库服务器3来进行数据导出和显示,并将结果返回给用户端。网页服务器4可以运行任何一种服务器构架,比如Tomcat、WebLogic、Jboss等。系统使用者通过网页服务器4操作控制系统的挖掘任务,包括发送挖掘任务指令以控制挖掘任务的开始,修改自动挖掘任务的起始时间等。
数据库服务器3由传统数据库组成,主要用途是存储来自云计算平台1的所述挖掘结果。
接下来,介绍所述系统的交互运作方式。
首先,由所述网站服务器2将收集的日志数据发送至所述云计算平台1。
在具体实施过程中,云计算平台1与多个网站服务器2连接,以获得所述多个网站服务器2发送的海量日志数据,以提高挖掘结果的准确性。
在具体实施过程中,所述日志数据可以是用户在访问网站的时候在后台留下的信息数据,所述日志数据中包含了用户的一系列访问信息,比如用户的IP地址、访问的时间、访问方式和访问目标,而这些日志数据都将先被保存在所述网站服务器2的访问日志文档中。
具体来讲,所述日志数据是网站服务器2对用户的访问请求所留下的记录文件,以文本形式存在。其中包括了诸多可以反映用户网络行为的关键指标,这些关键指标主要有以下几个:
1.互联网协议(InternetProtocol,IP)地址,即用户访问服务器时的IP地址,根据其可以判断用户的来源,并可以作为访问是否来自同一个用户的判断标准。
2.页面浏览量(PageView,PV),即所有用户浏览的页面数目的总和,反映网站被访问的热度。
3.用户注册数,一般指单日新用户的注册数量。
4.请求地址,用户访问生成的url地址,其中包括了用户的请求动作类型、使用的协议类型等,该地址最终可能指向某个版块、某张图片、或者某个下载地址,此项信息包含了用户访问的具体目的地。
5.访问时间,即用户发出请求的时间点。
6.访问目标,即用户所想要访问的版块或者其他目的地。
日志数据来源于网站服务器2,根据服务器类型的不同,日志数据的格式也会有所区别。
在具体实施过程中,根据网站的访问热度和日志数据量的大小来说,网站服务器2上传发送数据至云计算平台1可以是每天或者每隔几天执行一次,其执行频率可以由系统使用者自由定制。
在具体实施过程中,当网站服务器2发送所述日志数据至所述云计算平台1后,可以主动删除存储的所述日志数据,或基于接收到的云计算平台1发送的删除命令,删除所述日志数据,以加快所述网站服务器的运行速度。
再下来,所述云计算平台1接收网站服务器2发送所述日志数据,按照预设的条件过滤所述日志数据,并将所述日志数据存储于分布式文件存储系统目录中;
在具体实施过程中,过滤所述日志数据的主要目的是将原始的日志数据进行清理,分析每条日志的组成,从中提取系统所关注的部分。作为系统中使用频率最高的程序,同时也是其他挖掘任务的基础。
在本申请实施例中,所述按照预设的条件过滤所述日志数据,可以是使用分布式并行计算系统并行计算程序,根据所述日志数据的记录规则和内容,制定相应过滤算法来提取信息。
具体来讲,可以是从原始的日志数据中过滤提取出IP地址、PV、注册人数、访问时间、访问目标这些关键信息。可以先将日志数据中的每行数据分割成一个个小部分。对每部分中的数据进行分析,取出上述关键信息,再将这些关键信息组成新的字符串输出,最后进行汇总。
在具体实施过程中,在过滤所述日志数据时,系统会在分布式文件存储系统目录中查找相应日志数据,若相应日志数据不存在,则任务返回;若存在,则读取相应日志数据,再调用相应的分布式并行计算模型程序对日志进行过滤,再将过滤后的日志数据存入对应的分布式文件存储系统目录中。
下面以过滤出IP地址,访问时间和请求地址为例,具体进行说明:
先将原始日志数据按行分隔成一条一条的日志数据。首先要从所述日志数据中把系统所需要的IP地址,访问时间和请求地址这三部分提取出来。
在分布式并行计算模型程序中,设计了独立的内部类对输入的每条日志数据信息进行清理。该内部类中包括了对每一部分的处理函数和供调用的函数。下面的代码展示的是供调用处理数据的函数:
1publicString[]clean(Stringline){
2Stringip=cleanIP(line);
3Stringtime=cleanTime(line);
4Stringurl=cleanURL(line);
5Stringstatus=cleanStatus(line);
6Stringtraffic=cleanTraffic(line);
7returnnewString[]{ip,time,url,status,traffic};
8}
该函数将日志数据分为5个字符串来提取,在获得每个字符串的时候,继续调用了五种不同函数来获取相应的数据。这里以统一资源定位符(UniformResourceLocator,URL)为例进行说明,下面展示的是过滤出URL的请求地址的源码:
1privateStringcleanURL(Stringline){
2finalintfirst=line.indexOf("\"");
3finalintlast=line.lastIndexOf("\"");
4Stringurl=line.substring(first+1,last);
5returnurl;
6}
由于一般URL函数的请求地址是以“\"”开头并且以“\"”结尾,只要能截取这之间的数据即可得到。因此,上述第2行和第3行的代码即是在获取输入日志数据中请求地址的开头和结尾字符序列号。第4行代码以字符序列号为参数,截取得到请求地址字符串,在第5行的代码中将其作为返回值返回。
为了进一步对请求地址进行清理,将其中无效的和一些没有包含用户访问信息的条目过滤掉。还可以执行以下代码:
1String[]logs=log.clean(value.toString());
2if(logs[2].startsWith("GET/static/")||logs[2].startsWith("GET/uc_server")){
3return;
4}
5if(logs[2].startsWith("GET/")){
6logs[2]=logs[2].substring("GET/".length());
7}
8elseif(logs[2].startsWith("POST/")){
9logs[2]=logs[2].substring("POST/".length());
10}
11if(logs[2].endsWith("HTTP/1.1")){
12logs[2]=logs[2].substring(0,logs[2].length()-"HTTP/1.1".length());
13}
14value.set(logs[0]+"\t"+logs[1]+"\t"+logs[2]);
15context.write(key,value);
上述代码的第1行代码调用clean函数对日志进行清理得到包含核心信息的日志字符串数组,接下来会经过一系列的逻辑处理来进行过滤。2到4行的代码将以“GET/static/”和“GET/uc_server”作为开头和结尾的日志条目过滤掉,这些信息是静态信息,并不包含用户的访问地址,故需要过滤掉。5到10行的代码将字符串中的“GET”、“POST”部分去掉,“GET”、“PSOT”表示的是用户的访问方式,不是系统关注的重点,将其过滤掉。11到13行代码将字符串中的“HTTP/1.1”部分去掉,这一部分是客户标识,不是系统关注的重点,将其过滤掉。14到15行代码将经过处理的字符串组合成value值并写入到<key,value>对中。
过滤出IP地址,访问时间的逻辑与上述过滤请求地址的方法类似,在此不再赘述。
经过上面一系列过滤处理之后,得到最终清理好的日志数据的存储依然是以文本文件格式进行存储,以方便其他框架和工具进一步的操作。
再下来,所述网页服务器4发送挖掘任务指令至所述云计算平台1;
在本申请实施例中,通过所述网页服务器4控制数据挖掘的步骤可以如图2所示:
系统使用者在网页服务器4上首先启动连接计算平台1,然后启动连接网站服务器2,启动成功后,可以通过网页服务器4上的浏览器访问所述大数据挖掘系统的登陆页面,输入正确的用户名、密码和验证码登陆到网站的主页面;
再在所述主页面上点击执行日志分析按钮,以触发发送挖掘任务指令到云计算平台1。
接下来,所述云计算平台1基于所述挖掘任务指令,按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,获得挖掘结果;并输出所述挖掘结果至所述数据库服务器3;以使所述数据库服务器3存储所述挖掘结果。
在具体实施过程中,如果所述云计算平台1进行日志数据挖掘的过程中没有系统故障,任务就会执行成功,以使网页服务器4上的浏览器跳转到日志分析成功的页面,否则跳转到日志分析失败的页面。
在本实施例中,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:
按照预设的与所述挖掘任务指令对应的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据。
具体来讲,当所述挖掘任务指令的种类为排序类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:使用分布式并行计算模型挖掘所述日志数据;
当所述挖掘任务指令的种类为统计分析类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:对所述日志数据进行结构化处理,将所述日志数据映射为数据库表。
在具体实施过程中,为了进一步从中分析出更多有用的信息,所示系统还可以进行多次挖掘流程,即所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:
使用分布式并行计算模型挖掘所述日志数据,获得中间数据;
对所述中间数据进行结构化处理,将所述中间数据映射为数据库表。
在本申请实施例中,所述数据库服务器3和所述网页服务器4连接;
所述网页服务器4还用于,发送查询指令至所述数据库服务器3;
所述数据库服务器3还用于,基于所述查询指令输出所述挖掘结果至所述网页服务器4,以使所述网页服务器4能显示出所述挖掘结果。
具体来讲,当系统使用者需要查看所述挖掘结果时,可以在网页服务器4的浏览器页面上点击查看结果按钮,就可以发送查询指令至所述数据库服务器3,以获得并将所述挖掘结果显示在所述浏览器上。
具体来讲,本实施例通过云计算平台来分析海量的日志数据;是一个低成本,高性能的数据挖掘系统,由于云平台扩展性极强,可以根据分析的任务量和任务类型,动态部署云平台集群的节点,针对性的设计算法,处理特定的业务,可以自定义开发,个性化定制应用。另外通过在网页服务器4上可以直接发起海量日志数据的挖掘请求任务,并在网页服务器4上浏览数据挖掘结果,非常便于操作,减少操作者的工作量,提高工作效率。
另一方面,基于同一构思,通过本申请的另一实施例提供实施例一的系统中的云计算平台1的实施例,详见实施例二。
实施例二:
在实施例二中,提供了一种云计算平台,如图1所示,所述云计算平台1与网站服务器2、数据库服务器3及网页服务器4均连接,如图3所示,所述云计算平台包括:
传输单元301,用于接收所述网站服务器2发送的日志数据;
预处理单元302,与所述传输单元301连接;用于接收所述传输单元301传输的所述日志数据,并按照预设的条件过滤所述日志数据;
存储单元303,与所述预处理单元302连接;用于将所述预处理单元302过滤后的日志数据存储于所述存储单元303的分布式文件存储系统目录中;
分析挖掘单元304,与所述传输单元301和所述存储单元303均连接;用于当所述传输单元301接收到所述网页服务器4发送的挖掘任务指令时,基于所述挖掘任务指令,按照预设的规则挖掘所述存储单元303的所述分布式文件存储系统目录中存储的所述日志数据,获得挖掘结果;
导出单元305,与所述分析挖掘单元304连接,以输出所述挖掘结果至所述数据库服务器3。
在本实施例中,所述传输单元301还用于,发送删除指令至所述网站服务器2,以使所述网站服务器2删除所述日志数据。
在本实施例中,所述分析挖掘单元304还用于:
当所述挖掘任务指令的种类为排序类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:使用分布式并行计算模型挖掘所述日志数据;
当所述挖掘任务指令的种类为统计分析类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:对所述日志数据进行结构化处理,将所述日志数据映射为数据库表。
本实施例中提供的云计算平台在实施例一中已经作了详细的描述,所以本领域技术人员可根据前述描述清楚的了解本实施例中的云计算平台的结构及实施过程,为了说明书的简洁,在此就不再赘述了。
再一方面,基于同一构思,通过本申请的另一实施例提供实施例二的云计算平台对应的方法实施例,详见实施例三。
实施例三:
在实施例三中,提供了一种网络服务大数据分析方法,应用于云计算平台1中,如图1所示,所述云计算平台1与网站服务器2、数据库服务器3及网页服务器4均连接,如图4所示,所述方法包括:
步骤S401,接收所述网站服务器发送的日志数据;
步骤S402,按照预设的条件过滤所述日志数据,并将所述日志数据存储于分布式文件存储系统目录中;
步骤S403,当接收到所述网页服务器发送的挖掘任务指令时,基于所述挖掘任务指令,按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,获得挖掘结果;
步骤S404,输出所述挖掘结果至所述数据库服务器。
在本实施例中,所述接收所述网站服务器发送的日志数据之后,还包括:
发送删除指令至所述网站服务器,以使所述网站服务器删除所述日志数据。
在本实施例中,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:
按照预设的与所述挖掘任务指令对应的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据。
在本实施例中,当所述挖掘任务指令的种类为排序类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:使用分布式并行计算模型挖掘所述日志数据;
当所述挖掘任务指令的种类为统计分析类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:对所述日志数据进行结构化处理,将所述日志数据映射为数据库表;挖掘所述数据库表。
在本实施例中,所述按照预设的规则挖掘所述分布式文件存储系统目录中存储的所述日志数据,具体为:
使用分布式并行计算模型挖掘所述日志数据,获得中间数据
对所述中间数据进行结构化处理,将所述中间数据映射为数据库表;使用数据库命令挖掘所述数据库表。
本实施例中提供的方法在实施例一中已经作了详细的描述,所以本领域技术人员可根据前述描述清楚的了解本实施例中的方法的实施过程,为了说明书的简洁,在此就不再赘述了。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
1、本申请实施例提供的方法、平台及系统,利用云计算平台来收集各网站服务器的日志数据,再在接收到网页服务器发送的挖掘任务指令后,对收集的日志数据进行挖掘,并将挖掘结果发送给数据库服务器存储,由于云计算平台的扩展性极强,可以满足对海量数据的高效挖掘需求。
2、本申请实施例提供的方法、平台及系统,通过网页服务器来发起挖掘任务指令,能实现通过在网页服务器上执行操作,就可以发起挖掘任务指令,以调度网页服务器、网站服务器、云平台、数据库服务器这四个子系统,并依次自动执行这四个子系统内部所有与获取信息挖掘结果的相关操作,最终得到挖掘的结果,便于用户操作,提高了系统的挖掘效率。进一步,在发起挖掘任务指令,自动执行相关操作的中间过程中,各个中间操作的结果都可以回传到网页服务器上,并显示出来,在其中一步操作出现错误的时候,就会停在该操作所在的位置,便于在出现错误时候的问题查找定位。
3、本申请实施例提供的方法、平台及系统,可以同时对接入系统的多个网站服务器的日志数据进行挖掘分析以及存储处理,而不需要网站服务器存储日志数据,减少网站服务器对日志数据的分析工作量和存储压力,提高网站服务器的处理速度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种网络服务大数据分析方法,其特征在于,所述方法应用于云计算平台中,所述云计算平台与网站服务器、数据库服务器及网页服务器均连接,所述方法包括:
接收所述网站服务器发送的日志数据;
按照预设的条件过滤所述日志数据,并将过滤后的所述日志数据存储于分布式文件存储系统目录中;
当接收到所述网页服务器发送的挖掘任务指令时,基于所述挖掘任务指令,按照预设的规则挖掘所述分布式文件存储系统目录中当前存储的所述日志数据,获得挖掘结果;
输出所述挖掘结果至所述数据库服务器。
2.如权利要求1所述的方法,其特征在于,所述接收所述网站服务器发送的日志数据之后,还包括:
发送删除指令至所述网站服务器,以使所述网站服务器删除所述日志数据。
3.如权利要求1所述的方法,其特征在于,所述按照预设的规则挖掘所述分布式文件存储系统目录中当前存储的所述日志数据,具体为:
按照预设的与所述挖掘任务指令对应的规则挖掘所述分布式文件存储系统目录中当前存储的所述日志数据。
4.如权利要求3所述的方法,其特征在于:
当所述挖掘任务指令的种类为排序类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中当前存储的所述日志数据,具体为:使用分布式并行计算模型挖掘所述日志数据;
当所述挖掘任务指令的种类为统计分析类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中当前存储的所述日志数据,具体为:对所述日志数据进行结构化处理,将所述日志数据映射为数据库表;挖掘所述数据库表。
5.如权利要求1所述的方法,其特征在于,所述按照预设的规则挖掘所述分布式文件存储系统目录中当前存储的所述日志数据,具体为:
使用分布式并行计算模型挖掘所述日志数据,获得中间数据
对所述中间数据进行结构化处理,将所述中间数据映射为数据库表;挖掘所述数据库表。
6.一种云计算平台,其特征在于,所述云计算平台与网站服务器、数据库服务器及网页服务器均连接,所述云计算平台包括:
传输单元,用于接收所述网站服务器发送的日志数据;
预处理单元,与所述传输单元连接;用于接收所述传输单元传输的所述日志数据,并按照预设的条件过滤所述日志数据;
存储单元,与所述预处理单元连接;用于将所述预处理单元过滤后的日志数据存储于所述存储单元的分布式文件存储系统目录中;
分析挖掘单元,与所述传输单元和所述存储单元均连接;用于当所述传输单元接收到所述网页服务器发送的挖掘任务指令时,基于所述挖掘任务指令,按照预设的规则挖掘所述存储单元的所述分布式文件存储系统目录中当前存储的所述日志数据,获得挖掘结果;
导出单元,与所述分析挖掘单元连接,以输出所述挖掘结果至所述数据库服务器。
7.如权利要求6所述的云计算平台,其特征在于,所述传输单元还用于,发送删除指令至所述网站服务器,以使所述网站服务器删除所述日志数据。
8.如权利要求6所述的云计算平台,其特征在于,所述分析挖掘单元还用于:
当所述挖掘任务指令的种类为排序类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中当前存储的所述日志数据,具体为:使用分布式并行计算模型挖掘所述日志数据;
当所述挖掘任务指令的种类为统计分析类时,所述按照预设的规则挖掘所述分布式文件存储系统目录中当前存储的所述日志数据,具体为:对所述日志数据进行结构化处理,将所述日志数据映射为数据库表。
9.一种挖掘系统,其特征在于,包括:云计算平台、网站服务器、数据库服务器和网页服务器;所述云计算平台与所述网站服务器、所述数据库服务器及所述网页服务器均连接;
所述网站服务器用于,发送日志数据至所述云计算平台;
所述云计算平台用于,接收所述日志数据,按照预设的条件过滤所述日志数据,并将过滤后的所述日志数据存储于分布式文件存储系统目录中;
所述网页服务器用于,发送挖掘任务指令至所述云计算平台;
所述云计算平台用于,基于所述挖掘任务指令,按照预设的规则挖掘所述分布式文件存储系统目录中当前存储的所述日志数据,获得挖掘结果;输出所述挖掘结果至所述数据库服务器;
所述数据库服务器用于存储所述挖掘结果。
10.如权利要求9所述的大数据挖掘系统,其特征在于,所述数据库服务器和所述网页服务器连接;
所述网页服务器还用于,发送查询指令至所述数据库服务器;
所述数据库服务器还用于,基于所述查询指令输出所述挖掘结果至所述网页服务器,以使所述网页服务器能显示出所述挖掘结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510821601.3A CN105468737A (zh) | 2015-11-24 | 2015-11-24 | 一种网络服务大数据分析方法、云计算平台及挖掘系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510821601.3A CN105468737A (zh) | 2015-11-24 | 2015-11-24 | 一种网络服务大数据分析方法、云计算平台及挖掘系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105468737A true CN105468737A (zh) | 2016-04-06 |
Family
ID=55606438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510821601.3A Pending CN105468737A (zh) | 2015-11-24 | 2015-11-24 | 一种网络服务大数据分析方法、云计算平台及挖掘系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105468737A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250404A (zh) * | 2016-07-21 | 2016-12-21 | 柳州龙辉科技有限公司 | 一种用户操作分析的方法 |
CN107305583A (zh) * | 2016-04-19 | 2017-10-31 | 中华电信股份有限公司 | 实时串流纪录数据分析系统与方法 |
CN107729375A (zh) * | 2017-09-13 | 2018-02-23 | 微梦创科网络科技(中国)有限公司 | 一种日志数据排序的方法及装置 |
CN108234245A (zh) * | 2018-01-09 | 2018-06-29 | 上海帝联网络科技有限公司 | 日志内容及日志数据的筛选方法、装置、系统、可读介质 |
CN108965346A (zh) * | 2018-10-10 | 2018-12-07 | 上海工程技术大学 | 一种失陷主机检测方法 |
CN109951470A (zh) * | 2019-03-12 | 2019-06-28 | 湖北大学 | 一种多计算设备分布式并行计算的信息下发和结果上传方法 |
CN110083600A (zh) * | 2019-04-04 | 2019-08-02 | 网宿科技股份有限公司 | 一种日志收集处理的方法、装置、计算设备及存储介质 |
CN110598993A (zh) * | 2019-08-19 | 2019-12-20 | 深圳市鹏海运电子数据交换有限公司 | 数据加工方法及装置 |
WO2020037917A1 (zh) * | 2018-08-22 | 2020-02-27 | 平安科技(深圳)有限公司 | 一种用户行为数据推荐方法、服务器及计算机可读介质 |
CN111400368A (zh) * | 2020-03-06 | 2020-07-10 | 网宿科技股份有限公司 | 一种分布式服务器系统的日志查找方法及装置 |
CN112256549A (zh) * | 2020-11-13 | 2021-01-22 | 珠海大横琴科技发展有限公司 | 一种日志处理方法和装置 |
CN116109121A (zh) * | 2023-04-17 | 2023-05-12 | 西昌学院 | 基于大数据分析的用户需求挖掘方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182506A (zh) * | 2014-08-19 | 2014-12-03 | 浪潮(北京)电子信息产业有限公司 | 日志管理方法 |
CN104616092A (zh) * | 2014-12-16 | 2015-05-13 | 国家电网公司 | 一种基于分布式日志分析的行为模式处理方法 |
CN104714946A (zh) * | 2013-12-11 | 2015-06-17 | 田鹏 | 一种基于NoSQL的大规模Web日志分析系统 |
-
2015
- 2015-11-24 CN CN201510821601.3A patent/CN105468737A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104714946A (zh) * | 2013-12-11 | 2015-06-17 | 田鹏 | 一种基于NoSQL的大规模Web日志分析系统 |
CN104182506A (zh) * | 2014-08-19 | 2014-12-03 | 浪潮(北京)电子信息产业有限公司 | 日志管理方法 |
CN104616092A (zh) * | 2014-12-16 | 2015-05-13 | 国家电网公司 | 一种基于分布式日志分析的行为模式处理方法 |
Non-Patent Citations (3)
Title |
---|
俞俊生: "《从云到终端提升移动流媒体性能技术研究》", 30 September 2015, 电子科技大学出版社 * |
李志明: "面向用户信息行为的数据挖掘研究", 《中国优秀硕士学位论文全文数据库》 * |
窦蒙等: "基于MapReduce的海量事件日志并行转化算法", 《计算机集成制造系统》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107305583B (zh) * | 2016-04-19 | 2020-12-01 | 中华电信股份有限公司 | 实时串流纪录数据分析系统与方法 |
CN107305583A (zh) * | 2016-04-19 | 2017-10-31 | 中华电信股份有限公司 | 实时串流纪录数据分析系统与方法 |
TWI636369B (zh) * | 2016-04-19 | 2018-09-21 | 中華電信股份有限公司 | 即時串流紀錄資料分析系統與方法 |
CN106250404A (zh) * | 2016-07-21 | 2016-12-21 | 柳州龙辉科技有限公司 | 一种用户操作分析的方法 |
CN107729375A (zh) * | 2017-09-13 | 2018-02-23 | 微梦创科网络科技(中国)有限公司 | 一种日志数据排序的方法及装置 |
CN108234245A (zh) * | 2018-01-09 | 2018-06-29 | 上海帝联网络科技有限公司 | 日志内容及日志数据的筛选方法、装置、系统、可读介质 |
WO2020037917A1 (zh) * | 2018-08-22 | 2020-02-27 | 平安科技(深圳)有限公司 | 一种用户行为数据推荐方法、服务器及计算机可读介质 |
CN108965346A (zh) * | 2018-10-10 | 2018-12-07 | 上海工程技术大学 | 一种失陷主机检测方法 |
CN109951470A (zh) * | 2019-03-12 | 2019-06-28 | 湖北大学 | 一种多计算设备分布式并行计算的信息下发和结果上传方法 |
CN109951470B (zh) * | 2019-03-12 | 2021-03-02 | 湖北大学 | 多计算设备分布式并行计算的信息下发和结果上传方法 |
CN110083600A (zh) * | 2019-04-04 | 2019-08-02 | 网宿科技股份有限公司 | 一种日志收集处理的方法、装置、计算设备及存储介质 |
CN110598993A (zh) * | 2019-08-19 | 2019-12-20 | 深圳市鹏海运电子数据交换有限公司 | 数据加工方法及装置 |
CN111400368A (zh) * | 2020-03-06 | 2020-07-10 | 网宿科技股份有限公司 | 一种分布式服务器系统的日志查找方法及装置 |
CN111400368B (zh) * | 2020-03-06 | 2023-12-12 | 网宿科技股份有限公司 | 一种分布式服务器系统的日志查找方法及装置 |
CN112256549A (zh) * | 2020-11-13 | 2021-01-22 | 珠海大横琴科技发展有限公司 | 一种日志处理方法和装置 |
CN112256549B (zh) * | 2020-11-13 | 2022-01-04 | 珠海大横琴科技发展有限公司 | 一种日志处理方法和装置 |
CN116109121A (zh) * | 2023-04-17 | 2023-05-12 | 西昌学院 | 基于大数据分析的用户需求挖掘方法及系统 |
CN116109121B (zh) * | 2023-04-17 | 2023-06-30 | 西昌学院 | 基于大数据分析的用户需求挖掘方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105468737A (zh) | 一种网络服务大数据分析方法、云计算平台及挖掘系统 | |
CN100405371C (zh) | 一种提取新词的方法和系统 | |
CN105243159A (zh) | 一种基于可视化脚本编辑器的分布式网络爬虫系统 | |
CN103530292B (zh) | 网页显示方法和装置 | |
CN102054028B (zh) | 一种网络爬虫系统实现页面渲染功能的方法 | |
CN104516982A (zh) | 一种基于Nutch的Web信息提取方法和系统 | |
CN105677842A (zh) | 基于Hadoop大数据处理技术的日志分析系统 | |
CN102193953A (zh) | 桌面应用迁移系统和方法 | |
CN107257390B (zh) | 一种url地址的解析方法和系统 | |
CN102882991A (zh) | 一种浏览器及其进行域名解析的方法 | |
CN104426713A (zh) | 网络站点访问效果数据的监测方法和装置 | |
Achsan et al. | A fast distributed focused-web crawling | |
CN110543571A (zh) | 用于水利信息化的知识图谱构建方法以及装置 | |
CN105515836A (zh) | 日志处理方法、装置及服务器 | |
CN104133877A (zh) | 软件标签的生成方法和装置 | |
CN115335821B (zh) | 卸载统计收集 | |
US10671686B2 (en) | Processing webpage data | |
CN107526748B (zh) | 一种识别用户点击行为的方法和设备 | |
CN103905434A (zh) | 一种网络数据处理方法和装置 | |
CN106570151A (zh) | 一种海量文件的数据收集处理方法及系统 | |
CN114443599A (zh) | 数据同步方法、装置、电子设备及存储介质 | |
Jin | Research on data retrieval and analysis system based on Baidu reptile technology in big data era | |
Chen et al. | Optimization research and application of enterprise website based on web service | |
CN106991144B (zh) | 一种定制数据爬取工作流的方法及系统 | |
CN105069108B (zh) | 基于PaaS系统大数据查询方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160406 |
|
RJ01 | Rejection of invention patent application after publication |