CN112929237B - 网站细分流量的分析方法、系统、设备和介质 - Google Patents

网站细分流量的分析方法、系统、设备和介质 Download PDF

Info

Publication number
CN112929237B
CN112929237B CN202110220613.6A CN202110220613A CN112929237B CN 112929237 B CN112929237 B CN 112929237B CN 202110220613 A CN202110220613 A CN 202110220613A CN 112929237 B CN112929237 B CN 112929237B
Authority
CN
China
Prior art keywords
access log
website
access
pageid
space information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110220613.6A
Other languages
English (en)
Other versions
CN112929237A (zh
Inventor
顾春峰
邱志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Travel Network Technology Shanghai Co Ltd
Original Assignee
Ctrip Travel Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Travel Network Technology Shanghai Co Ltd filed Critical Ctrip Travel Network Technology Shanghai Co Ltd
Priority to CN202110220613.6A priority Critical patent/CN112929237B/zh
Publication of CN112929237A publication Critical patent/CN112929237A/zh
Application granted granted Critical
Publication of CN112929237B publication Critical patent/CN112929237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种网站细分流量的分析方法,所述分析方法包括:基于预设设置条件下,获取用户使用pageId访问页面时的第一访问日志,所述第一访问日志的URL包含pageId;根据所述pageId匹配文档元数据以得到与所述第一访问日志对应的网站空间信息,所述文档元数据包括:不同pageId对应的页面所属的网站空间;根据所述网站空间信息获取同一网站空间的第一访问日志,并生成每个网站空间的流量分析结果。本发明通过实时收集用户的第一访问日志,基于访问日志获得账号、URL等信息,Web应用直连网站数据库,实时分析每个URL的所属网站空间,实现网站流程的细分统计分析。

Description

网站细分流量的分析方法、系统、设备和介质
技术领域
本发明涉及网站流量统计分析技术领域,特别涉及一种网站细分流量的分析方法、系统、设备和介质。
背景技术
网站流量跟踪分析在网站运营过程中有重要的意义,网站的PV(Page View,页面浏览量)、UV(Unique Visitor,独立访客)统计是运营的重要指标,可以帮助改进网站内容质量,提高用户满意度。目前网站大都由Nginx(一种网络服务器)、Tomcat(一种网络服务器)、Apache(一种网络服务器)等Web(万维网)服务器承载,此类Web服务器都可以配置获取实时的用户访问日志,通过分析用户访问日志可以获得系统级别的PV、UV信息,但一般此类分析手段仅适用于对全站流量的分析统计。
对于包含了多个功能模块、网站空间等的中大型Web应用,网站细分流量统计分析,能较准确地反映出网站中功能较弱、用户体验较差的点,对于服务质量的提升具有更加重要的现实意义。对于自研系统,在设计规划时可以将各个维度的统计需求以业务埋点的形式作为一个功能开发进去,用户的访问信息包括:账号、网站空间、模块、终端、接入点等信息,这些信息都可以被实时统计收集得到,后续可以通过报表或者数据仓库等数据分析手段获取详细的分析细分流量统计数据。但是,此方法需要满足以下两个条件:
1、要求Web应用本身有对应的埋点设计,能将各类数据统计汇总上来。
2、需要有其他的数据库分析工具或数据仓库等平台等配合支持,才能进行数据分析展示,此方法一般适合于访问量巨大的业务系统。
但是对于很多软件,尤其是Confluence(一个专业的企业知识管理与协同软件)本身并不具备此类埋点设计的,客户也很难修改其源码以实现埋点统计分析。对于此类应用,如果要分析某个板块、功能点、网站空间的用户访问情况,其数据源只有用户访问日志中的各类信息,目前无法实现网站细分流量统计分析。对于这些不具备埋点设计的Web应用,如何基于用户访问日志中的各类信息来实现网站细分流量统计分析是个挑战。
发明内容
本发明要解决的技术问题是为了克服现有技术中对于不具备埋点设计的Web应用,无法实现网站细分流量统计分析的缺陷,提供一种网站细分流量的分析方法、系统、设备和介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种网站细分流量的分析方法,所述分析方法包括:
基于预设设置条件下,获取用户使用pageId(页面唯一标识)访问页面时的第一访问日志,所述第一访问日志的URL(Uniform Resource Locator,统一资源定位符)包含pageId;
根据所述pageId匹配文档元数据以得到与所述第一访问日志对应的网站空间信息,所述文档元数据包括:不同pageId对应的页面所属的网站空间;
根据所述网站空间信息获取同一网站空间的第一访问日志,并生成每个网站空间的流量分析结果。
较佳地,所述流量分析结果包括:PV、UV和空间的访问明细;
和/或,
网站空间包括多级目录,所述文档元数据还包括:不同页面所属的目录;
所述流量分析结果包括:空间内目录的访问明细。
较佳地,通过以下步骤设置所述预设设置条件,包括:
对网站的过滤器进行设置,以使用户使用pageId访问页面时的访问日志的URL包含pageId。
较佳地,所述网站采用Confluence系统,通过以下步骤设置所述预设设置条件,具体包括:
反编译所述Confluence系统的AccessLogFilter(一个Confluence系统的类名称)类;
通过增加request.getQueryString(),以对反编译后的所述AccessLogFilter类的doFilter方法进行修改;
编译修改后的所述AccessLogFilter类生成新jar(一种计算机文件格式)包;
将所述新jar包覆盖原jar包,所述新jar包用于在用户使用pageId访问页面时获取包含pageId的URL。
较佳地,所述文档元数据还包括:不同spaceKey(网站空间标识)和页面title(标识)对应的页面所属的网站空间;
所述分析方法还包括:
获取用户使用spaceKey和页面title访问页面时的第二访问日志;
根据所述spaceKey和所述页面title匹配所述文档元数据以得到与所述第二访问日志对应的网站空间信息;
所述根据所述网站空间信息获取同一网站空间的第一访问日志,并生成每个网站空间的流量分析结果的步骤具体包括:
根据所述网站空间信息获取同一网站空间的第一访问日志和第二访问日志,并生成每个网站空间的所述流量分析结果。
较佳地,所述分析方法还包括:
将与重要程度排序靠前的多个网站空间对应的文档元数据存入缓存;
所述根据所述pageId匹配文档元数据以得到与所述第一访问日志对应的网站空间信息的步骤具体包括:
将所述pageId与所述缓存中存储的文档元数据进行匹配,若成功,则获取与所述第一访问日志对应的第一网站空间信息,将所述第一网站空间信息附加在所述第一访问日志上以生成处理后的第一访问日志,并将所述处理后的第一访问日志存入分析数据库;
若不成功,则将未处理的第一访问日志存入所述分析数据库;在第一预设时间将所述pageId与网站数据库中存储的文档元数据进行匹配,以获取与所述未处理的第一访问日志对应的第二网站空间信息,并将所述第二网站空间信息附加在未处理的第一访问日志,并将处理后的第一访问日志存入分析数据库;
所述根据所述spaceKey和所述页面title匹配所述文档元数据以得到与所述第二访问日志对应的网站空间信息的步骤具体包括:
将所述spaceKey和所述页面title与所述缓存中存储的文档元数据进行匹配,若成功,则获取与所述第二访问日志对应的第三网站空间信息,将所述第三网站空间信息附加在所述第二访问日志上以生成处理后的第二访问日志,并将所述处理后的第二访问日志存入分析数据库;
若不成功,则将未处理的第二访问日志存入所述分析数据库;在第二预设时间将所述spaceKey和所述页面title与网站数据库中存储的文档元数据进行匹配,以获取与所述未处理的第二访问日志对应的第四网站空间信息,并将第四网站空间信息附加在未处理的第二访问日志,并将处理后的第二访问日志存入分析数据库。
本发明还提供一种网站细分流量的分析系统,所述分析系统包括:第一访问日志获取模块、第一访问日志匹配模块和分析结果生成模块;
所述第一访问日志获取模块用于基于预设设置条件下,获取用户使用pageId访问页面时的第一访问日志,所述第一访问日志的URL包含pageId;
所述第一访问日志匹配模块用于根据所述pageId匹配文档元数据以得到与所述第一访问日志对应的网站空间信息,所述文档元数据包括:不同pageId对应的页面所属的网站空间;
所述分析结果生成模块用于根据所述网站空间信息获取同一网站空间的第一访问日志,并生成每个网站空间的流量分析结果。
较佳地,所述分析系统还包括:预设设置条件模块;
所述预设设置条件模块用于对网站的过滤器进行设置,以使用户使用pageId访问页面时的访问日志的URL包含pageId。
较佳地,所述网站采用Confluence系统,所述预设设置条件模块包括:反编译单元、修改单元、编译单元和覆盖单元;
所述反编译单元用于反编译所述Confluence系统的AccessLogFilter类;
所述修改单元用于通过增加request.getQueryString(),以对反编译后的所述AccessLogFilter类的doFilter方法进行修改;
所述编译单元用于编译修改后的所述AccessLogFilter类生成新jar包;
所述覆盖单元用于将所述新jar包覆盖原jar包,所述新jar包用于在用户使用pageId访问页面时获取包含pageId的URL。
较佳地,所述文档元数据还包括:不同spaceKey和页面title对应的页面所属的网站空间;
所述分析系统还包括:第二访问日志获取模块和第二访问日志匹配模块;
所述第二访问日志获取模块用于获取用户使用spaceKey和页面title访问页面时的第二访问日志;
所述第二访问日志匹配模块用于根据所述spaceKey和所述页面title匹配所述文档元数据以得到与所述第二访问日志对应的网站空间信息;
所述分析结果生成模块具体用于根据所述网站空间信息获取同一网站空间的第一访问日志和第二访问日志,并生成每个网站空间的所述流量分析结果。
较佳地,所述分析系统还包括:重要数据存储模块和处理模块;
所述重要数据存储模块用于将与重要程度排序靠前的多个网站空间对应的文档元数据存入缓存;
所述第一访问日志匹配模块具体用于将所述pageId与所述缓存中存储的文档元数据进行匹配,若成功,则获取与所述第一访问日志对应的第一网站空间信息后调用所述处理模块;若不成功,则将未处理的第一访问日志存入所述分析数据库;
所述处理模块用于将所述第一网站空间信息附加在所述第一访问日志上以生成处理后的第一访问日志,并将所述处理后的第一访问日志存入分析数据库;
所述处理模块还用于在第一预设时间将所述pageId与网站数据库中存储的文档元数据进行匹配,以获取与所述未处理的第一访问日志对应的第二网站空间信息,并将所述第二网站空间信息附加在未处理的第一访问日志,并将处理后的第一访问日志存入分析数据库;
所述第二访问日志匹配模块具体用于将所述spaceKey和所述页面title与所述缓存中存储的文档元数据进行匹配,若成功,则获取与所述第二访问日志对应的第三网站空间信息后调用所述处理模块;若不成功,则将未处理的第二访问日志存入所述分析数据库;
所述处理模块还用于将所述第三网站空间信息附加在所述第二访问日志上以生成处理后的第二访问日志,并将所述处理后的第二访问日志存入分析数据库;
所述处理模块还用于在第二预设时间将所述spaceKey和所述页面title与网站数据库中存储的文档元数据进行匹配,以获取与所述未处理的第二访问日志对应的第四网站空间信息,并将第四网站空间信息附加在未处理的第二访问日志,并将处理后的第二访问日志存入分析数据库。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的网站细分流量的分析方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的网站细分流量的分析方法的步骤。
本发明的积极进步效果在于:通过实时收集用户的第一访问日志,基于访问日志获得账号、URL等信息,Web应用直连网站数据库,实时分析每个URL的所属网站空间,实现网站流程的细分统计分析。
附图说明
图1为本发明的实施例1的网站细分流量的分析方法的流程图。
图2为本发明的实施例1的网站细分流量的分析方法中的设置预设设置条件的流程图。
图3为本发明的实施例1的网站细分流量的分析方法中的一具体实施方式的流程图。
图4为本发明的实施例1的网站细分流量的分析方法中的步骤S12的一具体实施方式的流程图。
图5为本发明的实施例1的网站细分流量的分析方法中的步骤S15的一具体实施方式的流程图。
图6为本发明的实施例2的网站细分流量的分析系统的结构示意图。
图7为本发明的实施例3的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种网站细分流量的分析方法。
用户可以使用pageId访问页面,也可以使用spaceKey和页面title访问页面。
参照图1,对于用户使用pageId访问页面的情况,分析方法包括:
S11、基于预设设置条件下,获取用户使用pageId访问页面时的第一访问日志,第一访问日志的URL包含pageId。
其中,网站的业务节点往往采用集群方式部署,业务节点的访问日志往往都是存放在各个业务节点的本地磁盘上。可以在网站的各个业务节点上分别部署日志收集工具,例如filebeat(一种日志收集工具),日志收集工具实时获取的用户的访问日志(包括第一访问日志)并将用户的访问日志发送至消息队列,例如Kafka(一种消息队列),然后从消息队列获取第一访问日志。
S12、根据pageId匹配文档元数据以得到与第一访问日志对应的网站空间信息,其中,文档元数据包括:不同pageId对应的页面所属的网站空间。
S13、根据网站空间信息获取同一网站空间的第一访问日志,并生成每个网站空间的流量分析结果。
其中,流量分析结果包括:PV、UV和空间的访问明细。具体地,网站空间包括多级目录,文档元数据还包括:不同页面所属的目录。流量分析结果还包括:空间内目录的访问明细。通过对用户访问明细数据的进一步分析挖掘,可以得到更加深入的信息,如每个网站空间中访问量较多的页面,各个用户的访问习惯等,对用户的访问行为也能实现较有力的监控。
具体实施时,通过以下步骤设置预设设置条件,包括:
S101、对网站的过滤器进行设置,以使用户使用pageId访问页面时的访问日志的URL包含pageId。
在一种具体实施方式中,可以不对网站的过滤器进行设置,而是从Tomcat容器上获取包含pageId的URL。在这种情况下,无法获得用户账号和pageId的对应关系,生成的流量分析结果不包括与用户账号相关的内容。
本实施例的网站细分流量的分析方法通过实时收集用户的第一访问日志,基于访问日志获得账号、URL等信息,Web应用直连网站数据库,实时分析每个URL的所属网站空间以及一级目录、二级目录等,实现网站流程的细分统计分析。
具体实施时,网站采用Confluence系统,参照图2,通过以下步骤设置预设设置条件,具体包括:
S1021、反编译Confluence系统的AccessLogFilter类。
S1022、通过增加request.getQueryString(),以对反编译后的AccessLogFilter类的doFilter方法进行修改。
S1023、编译修改后的AccessLogFilter类生成新jar包。
S1024、将新jar包覆盖原jar包,新jar包用于在用户使用pageId访问页面时获取包含pageId的URL。
其中,完成设置预设设置条件后,获取的URL的示例如下:
2020-11-26 16:20:04,438INFO[http-nio-8090-exec-30][atlassian.confluence.util.AccessLogFilter]doFilter hqzhu GET http://conf.ctripcorp.com/pages/viewpage.action?pageId=458640439 25440787-473419 429 10.32.212.130
具体实施时,文档元数据还包括:不同spaceKey和页面title对应的页面所属的网站空间。
参照图3,对于用户使用spaceKey和页面title访问页面的情况,分析方法还包括:
S14、获取用户使用spaceKey和页面title访问页面时的第二访问日志。
其中,与第一访问日志的情况类似,可以在网站的各个业务节点上分别部署日志收集工具,例如filebeat,日志收集工具实时获取的用户的访问日志(包括第二访问日志)并将用户的访问日志发送至消息队列,例如Kafka,然后从消息队列获取第二访问日志。
S15、根据spaceKey和页面title匹配文档元数据以得到与第二访问日志对应的网站空间信息。
步骤S13具体包括:
S131、根据网站空间信息获取同一网站空间的第一访问日志和第二访问日志,并生成每个网站空间的流量分析结果。
其中,可以调换步骤S14-S15与步骤S11-S12的顺序。
具体实施时,分析方法还包括:
S16、将与重要程度排序靠前的多个网站空间对应的文档元数据存入缓存。(图中未示出)
参照图4,步骤S12具体包括:
S121、将pageId与缓存中存储的文档元数据进行匹配,若成功,则执行步骤S122;若不成功,则执行步骤S123。
S122、获取与第一访问日志对应的第一网站空间信息,将第一网站空间信息附加在第一访问日志上以生成处理后的第一访问日志,并将处理后的第一访问日志存入分析数据库。
S123、将未处理的第一访问日志存入分析数据库;在第一预设时间将pageId与网站数据库中存储的文档元数据进行匹配,以获取与未处理的第一访问日志对应的第二网站空间信息,并将第二网站空间信息附加在未处理的第一访问日志,并将处理后的第一访问日志存入分析数据库。
其中,步骤S121-S123在步骤S16之后。可以根据需要设置第一预设时间,例如将第一预设时间设置在访问量少或业务不繁忙的时段内。
参照图5,步骤S15具体包括:
S151、将spaceKey和页面title与缓存中存储的文档元数据进行匹配,若成功,则执行步骤S152;若不成功,则执行步骤S153。
S152、获取与第二访问日志对应的第三网站空间信息,将第三网站空间信息附加在第二访问日志上以生成处理后的第二访问日志,并将处理后的第二访问日志存入分析数据库。
S153、将未处理的第二访问日志存入分析数据库;在第二预设时间将spaceKey和页面title与网站数据库中存储的文档元数据进行匹配,以获取与未处理的第二访问日志对应的第四网站空间信息,并将第四网站空间信息附加在未处理的第二访问日志,并将处理后的第二访问日志存入分析数据库。
其中,步骤S151-S153在步骤S16之后。可以根据需要设置第二预设时间,例如将第二预设时间设置在访问量少或业务不繁忙的时段内。
对于重要程度排序靠前的网站空间,能够快速地得到处理后的第一访问日志和第二访问日志,处理分析的实时性好;对于重要程度排序不靠前的网站空间,对处理分析的资源要求较低,能够分析处理的数据量大,将大量的处理工作放至合适的时段以定时任务的方式完成,能够有效降低对缓存的负荷压力,但会降低处理分析的实时性。
中大型企业中知识文档数量会累计到百万级,如果在缓存中存储所有的文档元数据,那么存储如此多的数据信息会对缓存造成较大的压力,考虑到缓存的资源和负荷之间的平衡问题,梳理出对用户访问日志分析处理实时性要求较高的网站空间,在缓存中只存储这些网站空间对应的文档元数据,以进行实时分析,其他不需要实时分析的日志先存入分析数据库,然后通过后续定时任务的方式进行处理分析,能够很好地在缓存的资源和负荷之间进行平衡,使得在处理分析的数据量大并且缓存的资源不会耗尽或负荷过大。
在一种具体实施方式中,分析方法还包括:
在第三预设时间删除分析数据库中预设保存时间以前的第一访问日志和第二访问日志。
本实施例能够避免分析数据库的数据量膨胀。
在本实施例中,分析数据库中的处理后的第一访问日志和第二访问日志,记录了网站上所有用户的每次点击访问明细数据,分析结果包括各个时间粒度的PV、UV统计信息,可以采用报表方式展示分析结果。由于分析结果存储在分析数据库中,在展示或导出分析结果时,不需要访问网站数据库,避免了由于处理分析而对网站数据库产生负荷或性能上的压力进而引入隐患。
本实施例的网站细分流量的分析方法通过实时收集用户的第一访问日志和第二访问日志,基于访问日志获得账号、URL等信息,Web应用直连网站数据库,实时分析每个URL的所属网站空间以及一级目录、二级目录等,实现网站流程的细分统计分析,通过对用户访问日志的明细数据的进一步分析挖掘,可以得到更加深入的信息,例如每个网站空间中访问量较多的页面,各个用户的访问习惯等,对用户的访问行为也能实现较有力的监控。进一步地,为网站的运营提供了有效的指导数据,弥补了网站本身统计报表的不足,为各个网站空间的内容优化提供了数据支撑,为各个网站空间的管理、优化空间目录结构、筛选优秀知识文档等提供了依据,同时,信息安全部门能够通过详细的访问明细,对于恶意访问、批量下载的用户行为能做到提前预警,保证内部知识文档的信息安全。
实施例2
本发明还提供一种网站细分流量的分析系统。
用户可以使用pageId访问页面,也可以使用spaceKey和页面title访问页面。
参照图6,分析系统包括:第一访问日志获取模块101、第一访问日志匹配模块102和分析结果生成模块103。
第一访问日志获取模块101用于基于预设设置条件下,获取用户使用pageId访问页面时的第一访问日志,第一访问日志的URL包含pageId。
其中,网站的业务节点往往采用集群方式部署,业务节点的访问日志往往都是存放在各个业务节点的本地磁盘上。可以在网站的各个业务节点上分别部署日志收集工具,例如filebeat,日志收集工具实时获取的用户的访问日志(包括第一访问日志)并将用户的访问日志发送至消息队列,例如Kafka,然后从消息队列获取第一访问日志。
第一访问日志匹配模块102用于根据pageId匹配文档元数据以得到与第一访问日志对应的网站空间信息,文档元数据包括:不同pageId对应的页面所属的网站空间。
分析结果生成模块103用于根据网站空间信息获取同一网站空间的第一访问日志,并生成每个网站空间的流量分析结果。
其中,流量分析结果包括:PV、UV和空间的访问明细。具体地,网站空间包括多级目录,文档元数据还包括:不同页面所属的目录。流量分析结果还包括:空间内目录的访问明细。通过对用户访问明细数据的进一步分析挖掘,可以得到更加深入的信息,如每个网站空间中访问量较多的页面,各个用户的访问习惯等,对用户的访问行为也能实现较有力的监控。
本实施例的网站细分流量的分析系统通过实时收集用户的第一访问日志,基于访问日志获得账号、URL等信息,Web应用直连网站数据库,实时分析每个URL的所属网站空间以及一级目录、二级目录等,实现网站流程的细分统计分析。
具体实施时,分析系统还包括:预设设置条件模块104。
预设设置条件模块104用于对网站的过滤器进行设置,以使用户使用pageId访问页面时的访问日志的URL包含pageId。
在一种具体实施方式中,可以不对网站的过滤器进行设置,而是从Tomcat容器上获取包含pageId的URL。在这种情况下,无法获得用户账号和pageId的对应关系,生成的流量分析结果不包括与用户账号相关的内容。
具体实施时,网站采用Confluence系统,预设设置条件模块104包括:反编译单元1041、修改单元1042、编译单元1043和覆盖单元1044。
反编译单元1041用于反编译Confluence系统的AccessLogFilter类。
修改单元1042用于通过增加request.getQueryString(),以对反编译后的AccessLogFilter类的doFilter方法进行修改。
编译单元1043用于编译修改后的AccessLogFilter类生成新jar包。
覆盖单元1044用于将新jar包覆盖原jar包,新jar包用于在用户使用pageId访问页面时获取包含pageId的URL。
其中,预设设置条件模块104完成设置预设设置条件后,获取的URL的示例如下:
2020-11-26 16:20:04,438INFO[http-nio-8090-exec-30][atlassian.confluence.util.AccessLogFilter]doFilter hqzhu GET http://conf.ctripcorp.com/pages/viewpage.action?pageId=458640439 25440787-473419 429 10.32.212.130
具体实施时,文档元数据还包括:不同spaceKey和页面title对应的页面所属的网站空间。
分析系统还包括:第二访问日志获取模块105和第二访问日志匹配模块106。
第二访问日志获取模块105用于获取用户使用spaceKey和页面title访问页面时的第二访问日志。
其中,与第一访问日志的情况类似,可以在网站的各个业务节点上分别部署日志收集工具,例如filebeat,日志收集工具实时获取的用户的访问日志(包括第二访问日志)并将用户的访问日志发送至消息队列,例如Kafka,然后从消息队列获取第二访问日志。
第二访问日志匹配模块106用于根据spaceKey和页面title匹配文档元数据以得到与第二访问日志对应的网站空间信息。
分析结果生成模块103具体用于根据网站空间信息获取同一网站空间的第一访问日志和第二访问日志,并生成每个网站空间的流量分析结果。
具体实施时,分析系统还包括:重要数据存储模块107和处理模块108。
重要数据存储模块107用于将与重要程度排序靠前的多个网站空间对应的文档元数据存入缓存。
第一访问日志匹配模块102具体用于将pageId与缓存中存储的文档元数据进行匹配,若成功,则获取与第一访问日志对应的第一网站空间信息后调用处理模块108;若不成功,则将未处理的第一访问日志存入分析数据库。
处理模块108用于将第一网站空间信息附加在第一访问日志上以生成处理后的第一访问日志,并将处理后的第一访问日志存入分析数据库。
处理模块108还用于在第一预设时间将pageId与网站数据库中存储的文档元数据进行匹配,以获取与未处理的第一访问日志对应的第二网站空间信息,并将第二网站空间信息附加在未处理的第一访问日志,并将处理后的第一访问日志存入分析数据库。
其中,可以根据需要设置第一预设时间,例如将第一预设时间设置在访问量少或业务不繁忙的时段内。
第二访问日志匹配模块106具体用于将spaceKey和页面title与缓存中存储的文档元数据进行匹配,若成功,则获取与第二访问日志对应的第三网站空间信息后调用处理模块108;若不成功,则将未处理的第二访问日志存入分析数据库。
处理模块108还用于将第三网站空间信息附加在第二访问日志上以生成处理后的第二访问日志,并将处理后的第二访问日志存入分析数据库。
处理模块108还用于在第二预设时间将spaceKey和页面title与网站数据库中存储的文档元数据进行匹配,以获取与未处理的第二访问日志对应的第四网站空间信息,并将第四网站空间信息附加在未处理的第二访问日志,并将处理后的第二访问日志存入分析数据库。
其中,可以根据需要设置第二预设时间,例如将第二预设时间设置在访问量少或业务不繁忙的时段内。
对于重要程度排序靠前的网站空间,能够快速地得到处理后的第一访问日志和第二访问日志,处理分析的实时性好;对于重要程度排序不靠前的网站空间,对处理分析的资源要求较低,能够分析处理的数据量大,将大量的处理工作放至合适的时段以定时任务的方式完成,能够有效降低对缓存的负荷压力,但会降低处理分析的实时性。
中大型企业中知识文档数量会累计到百万级,如果在缓存中存储所有的文档元数据,那么存储如此多的数据信息会对缓存造成较大的压力,考虑到缓存的资源和负荷之间的平衡问题,梳理出对用户访问日志分析处理实时性要求较高的网站空间,在缓存中只存储这些网站空间对应的文档元数据,以进行实时分析,其他不需要实时分析的日志先存入分析数据库,然后通过后续定时任务的方式进行处理分析,能够很好地在缓存的资源和负荷之间进行平衡,使得在处理分析的数据量大并且缓存的资源不会耗尽或负荷过大。
在一种具体实施方式中,处理模块108还用于在第三预设时间删除分析数据库中预设保存时间以前的第一访问日志和第二访问日志。
本实施例能够避免分析数据库的数据量膨胀。
在本实施例中,分析数据库中的处理后的第一访问日志和第二访问日志,记录了网站上所有用户的每次点击访问明细数据,分析结果包括各个时间粒度的PV、UV统计信息,可以采用报表方式展示分析结果。由于分析结果存储在分析数据库中,在展示或导出分析结果时,不需要访问网站数据库,避免了由于处理分析而对网站数据库产生负荷或性能上的压力进而引入隐患。
本实施例的网站细分流量的分析系统通过实时收集用户的第一访问日志和第二访问日志,基于访问日志获得账号、URL等信息,Web应用直连网站数据库,实时分析每个URL的所属网站空间以及一级目录、二级目录等,实现网站流程的细分统计分析,通过对用户访问日志的明细数据的进一步分析挖掘,可以得到更加深入的信息,例如每个网站空间中访问量较多的页面,各个用户的访问习惯等,对用户的访问行为也能实现较有力的监控。进一步地,为网站的运营提供了有效的指导数据,弥补了网站本身统计报表的不足,为各个网站空间的内容优化提供了数据支撑,为各个网站空间的管理、优化空间目录结构、筛选优秀知识文档等提供了依据,同时,信息安全部门能够通过详细的访问明细,对于恶意访问、批量下载的用户行为能做到提前预警,保证内部知识文档的信息安全。
实施例3
图7为本发明实施例3提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1中的网站细分流量的分析方法。图7显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1中的网站细分流量的分析方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的电子设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与模型生成的电子设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的电子设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化;反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1中的网站细分流量的分析方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1中的网站细分流量的分析方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (9)

1.一种网站细分流量的分析方法,其特征在于,所述分析方法应用于包含多个功能模块、网站空间的Web应用,所述分析方法包括:
基于预设设置条件下,获取用户使用pageId访问页面时的第一访问日志,所述第一访问日志的URL包含pageId;
根据所述pageId匹配文档元数据以得到与所述第一访问日志对应的网站空间信息,所述文档元数据包括:不同pageId对应的页面所属的网站空间;
根据所述网站空间信息获取同一网站空间的第一访问日志,并生成每个网站空间的流量分析结果;
所述文档元数据还包括:不同spaceKey和页面title对应的页面所属的网站空间;
所述分析方法还包括:
获取用户使用spaceKey和页面title访问页面时的第二访问日志;
根据所述spaceKey和所述页面title匹配所述文档元数据以得到与所述第二访问日志对应的网站空间信息;
所述根据所述网站空间信息获取同一网站空间的第一访问日志,并生成每个网站空间的流量分析结果的步骤具体包括:
根据所述网站空间信息获取同一网站空间的第一访问日志和第二访问日志,并生成每个网站空间的所述流量分析结果;
所述分析方法还包括:
将与重要程度排序靠前的多个网站空间对应的文档元数据存入缓存;
所述根据所述pageId匹配文档元数据以得到与所述第一访问日志对应的网站空间信息的步骤具体包括:
将所述pageId与所述缓存中存储的文档元数据进行匹配,若成功,则获取与所述第一访问日志对应的第一网站空间信息,将所述第一网站空间信息附加在所述第一访问日志上以生成处理后的第一访问日志,并将所述处理后的第一访问日志存入分析数据库;
若不成功,则将未处理的第一访问日志存入所述分析数据库;在第一预设时间将所述pageId与网站数据库中存储的文档元数据进行匹配,以获取与所述未处理的第一访问日志对应的第二网站空间信息,并将所述第二网站空间信息附加在未处理的第一访问日志,并将处理后的第一访问日志存入分析数据库;
所述根据所述spaceKey和所述页面title匹配所述文档元数据以得到与所述第二访问日志对应的网站空间信息的步骤具体包括:
将所述spaceKey和所述页面title与所述缓存中存储的文档元数据进行匹配,若成功,则获取与所述第二访问日志对应的第三网站空间信息,将所述第三网站空间信息附加在所述第二访问日志上以生成处理后的第二访问日志,并将所述处理后的第二访问日志存入分析数据库;
若不成功,则将未处理的第二访问日志存入所述分析数据库;在第二预设时间将所述spaceKey和所述页面title与网站数据库中存储的文档元数据进行匹配,以获取与所述未处理的第二访问日志对应的第四网站空间信息,并将第四网站空间信息附加在未处理的第二访问日志,并将处理后的第二访问日志存入分析数据库。
2.如权利要求1所述的网站细分流量的分析方法,其特征在于,所述流量分析结果包括:PV、UV和空间的访问明细;
和/或,
网站空间包括多级目录,所述文档元数据还包括:不同页面所属的目录;
所述流量分析结果包括:空间内目录的访问明细。
3.如权利要求1所述的网站细分流量的分析方法,其特征在于,通过以下步骤设置所述预设设置条件,包括:
对网站的过滤器进行设置,以使用户使用pageId访问页面时的访问日志的URL包含pageId。
4.如权利要求3所述的网站细分流量的分析方法,其特征在于,所述网站采用Confluence系统,通过以下步骤设置所述预设设置条件,具体包括:
反编译所述Confluence系统的AccessLogFilter类;
通过增加request.getQueryString(),以对反编译后的所述AccessLogFilter类的doFilter方法进行修改;
编译修改后的所述AccessLogFilter类生成新jar包;
将所述新jar包覆盖原jar包,所述新jar包用于在用户使用pageId访问页面时获取包含pageId的URL。
5.一种网站细分流量的分析系统,其特征在于,所述分析系统应用于包含多个功能模块、网站空间的Web应用,所述分析系统包括:第一访问日志获取模块、第一访问日志匹配模块和分析结果生成模块;
所述第一访问日志获取模块用于基于预设设置条件下,获取用户使用pageId访问页面时的第一访问日志,所述第一访问日志的URL包含pageId;
所述第一访问日志匹配模块用于根据所述pageId匹配文档元数据以得到与所述第一访问日志对应的网站空间信息,所述文档元数据包括:不同pageId对应的页面所属的网站空间;
所述分析结果生成模块用于根据所述网站空间信息获取同一网站空间的第一访问日志,并生成每个网站空间的流量分析结果;
所述文档元数据还包括:不同spaceKey和页面title对应的页面所属的网站空间;
所述分析系统还包括:第二访问日志获取模块和第二访问日志匹配模块;
所述第二访问日志获取模块用于获取用户使用spaceKey和页面title访问页面时的第二访问日志;
所述第二访问日志匹配模块用于根据所述spaceKey和所述页面title匹配所述文档元数据以得到与所述第二访问日志对应的网站空间信息;
所述分析结果生成模块具体用于根据所述网站空间信息获取同一网站空间的第一访问日志和第二访问日志,并生成每个网站空间的所述流量分析结果;
所述分析系统还包括:重要数据存储模块和处理模块;
所述重要数据存储模块用于将与重要程度排序靠前的多个网站空间对应的文档元数据存入缓存;
所述第一访问日志匹配模块具体用于将所述pageId与所述缓存中存储的文档元数据进行匹配,若成功,则获取与所述第一访问日志对应的第一网站空间信息后调用所述处理模块;若不成功,则将未处理的第一访问日志存入分析数据库;
所述处理模块用于将所述第一网站空间信息附加在所述第一访问日志上以生成处理后的第一访问日志,并将所述处理后的第一访问日志存入分析数据库;
所述处理模块还用于在第一预设时间将所述pageId与网站数据库中存储的文档元数据进行匹配,以获取与所述未处理的第一访问日志对应的第二网站空间信息,并将所述第二网站空间信息附加在未处理的第一访问日志,并将处理后的第一访问日志存入分析数据库;
所述第二访问日志匹配模块具体用于将所述spaceKey和所述页面title与所述缓存中存储的文档元数据进行匹配,若成功,则获取与所述第二访问日志对应的第三网站空间信息后调用所述处理模块;若不成功,则将未处理的第二访问日志存入所述分析数据库;
所述处理模块还用于将所述第三网站空间信息附加在所述第二访问日志上以生成处理后的第二访问日志,并将所述处理后的第二访问日志存入分析数据库;
所述处理模块还用于在第二预设时间将所述spaceKey和所述页面title与网站数据库中存储的文档元数据进行匹配,以获取与所述未处理的第二访问日志对应的第四网站空间信息,并将第四网站空间信息附加在未处理的第二访问日志,并将处理后的第二访问日志存入分析数据库。
6.如权利要求5所述的网站细分流量的分析系统,其特征在于,所述分析系统还包括:预设设置条件模块;
所述预设设置条件模块用于对网站的过滤器进行设置,以使用户使用pageId访问页面时的访问日志的URL包含pageId。
7.如权利要求6所述的网站细分流量的分析系统,其特征在于,所述网站采用Confluence系统,所述预设设置条件模块包括:反编译单元、修改单元、编译单元和覆盖单元;
所述反编译单元用于反编译所述Confluence系统的AccessLogFilter类;
所述修改单元用于通过增加request.getQueryString(),以对反编译后的所述AccessLogFilter类的doFilter方法进行修改;
所述编译单元用于编译修改后的所述AccessLogFilter类生成新jar包;
所述覆盖单元用于将所述新jar包覆盖原jar包,所述新jar包用于在用户使用pageId访问页面时获取包含pageId的URL。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的网站细分流量的分析方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4中任一项所述的网站细分流量的分析方法的步骤。
CN202110220613.6A 2021-02-26 2021-02-26 网站细分流量的分析方法、系统、设备和介质 Active CN112929237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110220613.6A CN112929237B (zh) 2021-02-26 2021-02-26 网站细分流量的分析方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110220613.6A CN112929237B (zh) 2021-02-26 2021-02-26 网站细分流量的分析方法、系统、设备和介质

Publications (2)

Publication Number Publication Date
CN112929237A CN112929237A (zh) 2021-06-08
CN112929237B true CN112929237B (zh) 2023-08-01

Family

ID=76172441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110220613.6A Active CN112929237B (zh) 2021-02-26 2021-02-26 网站细分流量的分析方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN112929237B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761443A (zh) * 2021-08-24 2021-12-07 百安居信息技术(上海)有限公司 一种网站页面数据采集与统计方法、存储介质及设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001025896A1 (en) * 1999-10-04 2001-04-12 Quantified Systems, Inc. System and method for monitoring and analyzing internet traffic
CN102571404B (zh) * 2010-12-31 2015-01-14 北京新媒传信科技有限公司 网站访问统计方法和网站访问统计系统
CN105357054B (zh) * 2015-11-26 2019-01-29 上海晶赞科技发展有限公司 网站流量分析方法、装置和电子设备
CN108416057A (zh) * 2018-03-21 2018-08-17 上海精鲲计算机科技有限公司 一种网站行为分析系统
CN109033404B (zh) * 2018-08-03 2022-03-11 北京百度网讯科技有限公司 日志数据处理方法、装置和系统
CN109063158B (zh) * 2018-08-10 2021-04-27 赛尔网络有限公司 一种网站访问排名信息查询的方法、设备、系统及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Hadoop平台的网站日志分析;宋梦馨;缪红萍;王溯;张二松;;信息系统工程(第12期);全文 *
基于Hadoop的流量日志分析;韩雨轩;温秀梅;;河北建筑工程学院学报(第02期);全文 *

Also Published As

Publication number Publication date
CN112929237A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
US9590880B2 (en) Dynamic collection analysis and reporting of telemetry data
US20140137240A1 (en) Automated security analytics platform
CN107480277B (zh) 用于网站日志采集的方法及装置
US10200388B2 (en) Automated security analytics platform with multi-level representation conversion for space efficiency and incremental persistence
CA3059738A1 (en) Behaviour data processing method, device, electronic device and computer readable medium
US8984633B2 (en) Automated security analytics platform with visualization agnostic selection linked portlets
CN102208991A (zh) 一种日志处理方法、设备和系统
CN108228322B (zh) 一种分布式链路跟踪、分析方法及服务器、全局调度器
CN104426713A (zh) 网络站点访问效果数据的监测方法和装置
CN103873583A (zh) 基于云平台针对互联网用户行为进行分析的方法和系统
US8973132B2 (en) Automated security analytics platform with pluggable data collection and analysis modules
WO2013106595A2 (en) Processing store visiting data
Sujatha Improved user navigation pattern prediction technique from web log data
CN108228432A (zh) 一种分布式链路跟踪、分析方法及服务器、全局调度器
CN112929237B (zh) 网站细分流量的分析方法、系统、设备和介质
CN111953766A (zh) 一种网络数据采集的方法及其系统
CN104021124A (zh) 用于处理网页数据的方法、装置和系统
CN113326261A (zh) 数据血缘关系提取方法、装置及电子设备
CN111078975B (zh) 一种多节点增量式数据采集系统及采集方法
CN116028192A (zh) 一种多源异构数据采集方法、装置和存储介质
CN114925283A (zh) 推送任务的管理方法及系统、电子设备及介质
CN111339388B (zh) 一种信息爬取系统
Satsyk et al. Reduction of server load by means of CMS Drupal
Rump et al. Distributed and collaborative malware analysis with MASS
CN113515494B (zh) 基于分布式文件系统的数据库处理方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant