CN105550265A - 一种准实时用户日志收集和处理方法 - Google Patents

一种准实时用户日志收集和处理方法 Download PDF

Info

Publication number
CN105550265A
CN105550265A CN201510906748.2A CN201510906748A CN105550265A CN 105550265 A CN105550265 A CN 105550265A CN 201510906748 A CN201510906748 A CN 201510906748A CN 105550265 A CN105550265 A CN 105550265A
Authority
CN
China
Prior art keywords
user journal
management server
screening
server
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510906748.2A
Other languages
English (en)
Inventor
许伟刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU TIANPING ADVANCED DIGITAL TECHNOLOGIES Co Ltd
Original Assignee
SUZHOU TIANPING ADVANCED DIGITAL TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU TIANPING ADVANCED DIGITAL TECHNOLOGIES Co Ltd filed Critical SUZHOU TIANPING ADVANCED DIGITAL TECHNOLOGIES Co Ltd
Priority to CN201510906748.2A priority Critical patent/CN105550265A/zh
Publication of CN105550265A publication Critical patent/CN105550265A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Abstract

本发明涉及一种准实时用户日志收集和处理方法,包括以下步骤:用户产生一个操作行为,操作行为触发日志点;用户日志在服务器中缓冲,服务器对用户日志进行标记;服务器将标记后的用户日志转换成暂存文件,暂时存储在服务器的暂存盘中;扫描程序对所述暂存文件进行扫描;服务器对经过扫描后的所述暂存文件进行分析和筛选,获得有用的数据;服务器将筛选后有用的数据存储到数据库中,将暂时没用的数据存档;服务器定时对存档的数据扫描,重复对用户日志分析和筛选,选择有用的数据存储在数据库中。本发明的用户日志收集和处理方法,将获得的用户日志分析、缓存、筛选后再进行存储,能够更有效合理的利用存储空间,减小了数据库的压力。

Description

一种准实时用户日志收集和处理方法
技术领域
本发明属于信息技术领域,具体涉及一种准实时用户日志收集和处理方法。
背景技术
在系统运行过程中产生日志文件,可以记录系统的运行状况和用户的操作行为,当系统运行缓慢或者异常退出时,可以通过查看日志文件,快速定位问题、修复缺陷,使系统恢复正常运行。并且随着互联网技术的发展,用户日志也成了一个非常重要的信息。
例如,一些大型电子商务网站或者社交网站,可以通过对用户日志的挖掘,通过用户日志找出用户的潜在访问模式,从而设计出更便于用户访问的网页组织模式;然而如何在这些海量的日志中挖掘出对企业有用的信息,并以此作出决策是一项任务庞大而又重要的工作。因为,用户日志是由众多用户生成的,用户日志具有数据源多样性、海量性、传输条件不确定性等特点。
因此,对用户日志进行分析、存储和管理需要配置很高的硬件和技术,随着互联网技术的发展,现在技术领域中,分布式存储和计算已经成为一种流行的用户日志收集和处理方法,但是这种用户日志收集和处理方法即使将数据分类存储,但是需要存储的数据也是较为庞大,数据量庞大不但对数据库造成较大的压力,而且读取操作也费时间。
发明内容
为解决上述技术问题,本发明提供了一种准实时用户日志收集和处理方法,该方法对所有用户日志进行缓冲、暂存再存储,这种延迟存储的方法解决了数据库的压力。
为达到上述目的,本发明的技术方案如下:
一种准实时用户日志收集和处理方法,其基于由用户日志采集客户端、用户日志管理服务器和用户日志管理页面组成的系统,包括以下步骤:
步骤一、用户在所述用户日志采集客户端产生一个操作行为,操作行为触发所述用户日志管理服务器的日志点;
步骤二、用户日志在所述用户日志管理服务器中缓冲,所述用户日志管理服务器对用户日志进行标记;
步骤三、所述用户日志管理服务器将标记后的用户日志转换成暂存文件,暂时存储在服务器的暂存盘中;
步骤四、所述用户日志管理服务器中的扫描程序对所述暂存文件进行扫描;
步骤五、所述用户日志管理服务器对经过扫描后的所述暂存文件进行分析和筛选,获得有用的数据;
步骤六、所述用户日志管理服务器将筛选后有用的数据存储到数据库中,将暂时没用的数据存档;
步骤七、所述用户日志管理服务器定时对存档的数据扫描,重复所述步骤四到步骤六的步骤。
在本发明的一个较佳实施例中,进一步包括,在步骤六中,所述用户日志管理服务器的存储空间中还存储一些不需要显示在所述用户日志管理页面中,但是后续分析需要的数据内容。
在本发明的一个较佳实施例中,进一步包括,步骤五中完成对数据的筛选后间隔8-12s循环进行步骤四。
在本发明的一个较佳实施例中,进一步包括,步骤五中所述筛选程序筛选方式包括:对用户日志格式的筛选或对业务内容的筛选,其中所述对用户日志格式的筛选包括:对应不同的应用、不同业务内容对应的不同格式。
在本发明的一个较佳实施例中,进一步包括,步骤二中对用户日志进行标记,后续具有相同标记的用户日志则无需存储在数据库中。
本发明的有益效果是:
本发明的用户日志收集和处理方法,将获得的用户日志分析、缓存、筛选后再进行存储,能够更有效合理的利用存储空间,减小了数据库的压力。
附图说明
为了更清楚地说明本发明实施例技术中的技术方案,下面将对实施例技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本发明的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,本实施例中公开了一种准实时用户日志收集和处理方法,该方法是基于由用户日志采集客户端、用户日志管理服务器和用户日志管理页面组成的系统完成的,具体的包括以下步骤:
步骤一、用户在上述用户日志采集客户端产生一个操作行为,操作行为触发上述用户日志管理服务器的日志点。
步骤二、用户日志在上述用户日志管理服务器中缓冲,上述用户日志管理服务器对用户日志进行标记;对上述用户日志进行标记防止后续过程中的用户日志重复,后续具有相同标记的用户日志则无需存储在数据库中,以免大量重复的数据占用数据库空间,缓解了数据库的存储压力。
步骤三、上述用户日志管理服务器将标记后的用户日志转换成暂存文件,暂时存储在服务器的暂存盘中。
步骤四、上述用户日志管理服务器中的扫描程序对上述暂存文件进行扫描。
步骤五、上述用户日志管理服务器对经过扫描后的上述暂存文件进行分析和筛选,获得有用的数据;完成筛选后过8-12s后可以再重复进行用户日志扫描,循环后续程序。
在本实施例中,步骤五中上述筛选程序筛选方式包括:对用户日志格式的筛选或对业务内容的筛选,其中上述对用户日志格式的筛选包括:对应不同的应用、不同业务内容对应的不同格式。
步骤六、上述用户日志管理服务器将筛选后有用的数据存储到数据库中,将暂时没用的数据存档;上述用户日志管理服务器的存储空间中还存储一些不需要显示在上述用户日志管理页面中,但是后续分析需要的数据内容。
步骤七、上述用户日志管理服务器定时对存档的数据扫描,重复上述步骤四到步骤六的步骤。例如,可以在一个月后或者几天后对存档的数据重新进行扫描,然后分析数据,筛选出有用的数据,将有用的数据存储到数据库中,将暂时没用的数据存档。
上述的用户日志收集和处理方法,将获得的用户日志分析、缓存、筛选后再进行存储,能够更有效合理的利用存储空间,减小了数据库的压力。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (5)

1.一种准实时用户日志收集和处理方法,其基于由用户日志采集客户端、用户日志管理服务器和用户日志管理页面组成的系统,其特征在于,包括以下步骤:
步骤一、用户在所述用户日志采集客户端产生一个操作行为,操作行为触发所述用户日志管理服务器的日志点;
步骤二、用户日志在所述用户日志管理服务器中缓冲,所述用户日志管理服务器对用户日志进行标记;
步骤三、所述用户日志管理服务器将标记后的用户日志转换成暂存文件,暂时存储在服务器的暂存盘中;
步骤四、所述用户日志管理服务器中的扫描程序对所述暂存文件进行扫描;
步骤五、所述用户日志管理服务器对经过扫描后的所述暂存文件进行分析和筛选,获得有用的数据;
步骤六、所述用户日志管理服务器将筛选后有用的数据存储到数据库中,将暂时没用的数据存档;
步骤七、所述用户日志管理服务器定时对存档的数据扫描,重复所述步骤四到步骤六的步骤。
2.根据权利要求1所述的一种准实时用户日志收集和处理方法,其特征在于,在步骤六中,所述用户日志管理服务器的存储空间中还存储一些不需要显示在所述用户日志管理页面中,但是后续分析需要的数据内容。
3.根据权利要求1或者2所述的一种准实时用户日志收集和处理方法,其特征在于,步骤五中完成对数据的筛选后间隔8-12s循环进行步骤四。
4.根据权利要求3所述的一种准实时用户日志收集和处理方法,其特征在于,步骤五中所述筛选程序筛选方式包括:对用户日志格式的筛选或对业务内容的筛选,其中所述对用户日志格式的筛选包括:对应不同的应用、不同业务内容对应的不同格式。
5.根据权利要求1所述的一种准实时用户日志收集和处理方法,其特征在于,步骤二中对用户日志进行标记,后续具有相同标记的用户日志则无需存储在数据库中。
CN201510906748.2A 2015-12-09 2015-12-09 一种准实时用户日志收集和处理方法 Pending CN105550265A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510906748.2A CN105550265A (zh) 2015-12-09 2015-12-09 一种准实时用户日志收集和处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510906748.2A CN105550265A (zh) 2015-12-09 2015-12-09 一种准实时用户日志收集和处理方法

Publications (1)

Publication Number Publication Date
CN105550265A true CN105550265A (zh) 2016-05-04

Family

ID=55829454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510906748.2A Pending CN105550265A (zh) 2015-12-09 2015-12-09 一种准实时用户日志收集和处理方法

Country Status (1)

Country Link
CN (1) CN105550265A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528798A (zh) * 2016-11-11 2017-03-22 苏州天平先进数字科技有限公司 一种基于用户日志的数据处理系统
CN107357809A (zh) * 2017-05-27 2017-11-17 国家电网公司 海量平台海迅实时库量测数据接入系统
CN107480216A (zh) * 2017-07-28 2017-12-15 无锡天脉聚源传媒科技有限公司 一种获取用户的操作信息的方法及装置
CN108491526A (zh) * 2018-03-28 2018-09-04 腾讯科技(深圳)有限公司 日志数据处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1670708A (zh) * 2004-03-17 2005-09-21 联想(北京)有限公司 一种计算机日志的管理方法
CN1677931A (zh) * 2004-04-02 2005-10-05 鸿富锦精密工业(深圳)有限公司 网络日志数据管理系统及方法
US20100082530A1 (en) * 2008-09-19 2010-04-01 Hitachi Software Engineering Co., Ltd. Log management server
CN102780726A (zh) * 2011-05-13 2012-11-14 中兴通讯股份有限公司 一种基于web平台的日志分析方法及系统
CN103425750A (zh) * 2013-07-23 2013-12-04 国云科技股份有限公司 一种跨平台跨应用的日志收集系统及其收集管理方法
CN103475535A (zh) * 2013-08-23 2013-12-25 汉柏科技有限公司 云计算服务器日志管理系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1670708A (zh) * 2004-03-17 2005-09-21 联想(北京)有限公司 一种计算机日志的管理方法
CN1677931A (zh) * 2004-04-02 2005-10-05 鸿富锦精密工业(深圳)有限公司 网络日志数据管理系统及方法
US20100082530A1 (en) * 2008-09-19 2010-04-01 Hitachi Software Engineering Co., Ltd. Log management server
CN102780726A (zh) * 2011-05-13 2012-11-14 中兴通讯股份有限公司 一种基于web平台的日志分析方法及系统
CN103425750A (zh) * 2013-07-23 2013-12-04 国云科技股份有限公司 一种跨平台跨应用的日志收集系统及其收集管理方法
CN103475535A (zh) * 2013-08-23 2013-12-25 汉柏科技有限公司 云计算服务器日志管理系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528798A (zh) * 2016-11-11 2017-03-22 苏州天平先进数字科技有限公司 一种基于用户日志的数据处理系统
CN107357809A (zh) * 2017-05-27 2017-11-17 国家电网公司 海量平台海迅实时库量测数据接入系统
CN107357809B (zh) * 2017-05-27 2021-05-07 国家电网公司 海量平台海迅实时库量测数据接入系统
CN107480216A (zh) * 2017-07-28 2017-12-15 无锡天脉聚源传媒科技有限公司 一种获取用户的操作信息的方法及装置
CN108491526A (zh) * 2018-03-28 2018-09-04 腾讯科技(深圳)有限公司 日志数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109656934B (zh) 基于日志解析的源端Oracle数据库DDL同步方法及设备
CN105912587A (zh) 一种数据采集方法和系统
CN105550265A (zh) 一种准实时用户日志收集和处理方法
CN104182506A (zh) 日志管理方法
CN106547894A (zh) 基于移动通信信令大数据挖掘职住位置标签的系统及方法
CN103377415A (zh) 一种新的档案数字化管理系统
CN104869009A (zh) 网站数据统计的系统和方法
CN104679827A (zh) 一种基于大数据的公开信息关联方法及挖掘引擎
CN101349987A (zh) 一种计算机使用情况的统计分析方法
CN107341690A (zh) 信息推送方法及装置
CN103455896A (zh) 基于物联网的无纸化装配质量控制方法
CN105550264A (zh) 用户日志收集和处理系统以及方法
Leno et al. Discovering process maps from event streams
CN102446214B (zh) 工程勘察内业数据处理方法及装置
CN108846072A (zh) 一种基于可视化分析的数据实现封装技术
CN108038441A (zh) 一种基于图像识别的系统与方法
CN104766240A (zh) 电子银行业务数据处理系统及方法
CN104765823A (zh) 一种网站数据采集的方法及装置
DE112012000305B4 (de) Gemeinsame Wiederherstellung von Datenquellen
CN109982250A (zh) 一种位置数据采集方法、设备及计算机存储介质
JP7412938B2 (ja) 情報分析装置、情報分析方法、情報分析システムおよびプログラム
Syampungani et al. The impact of land use and cover change on above and below-ground carbon stocks of the miombo woodlands since the 1950s: a systematic review protocol
CN106960052B (zh) 一种征信数据采集方法与系统
CN108009927A (zh) 一种股票评分方法及平台
ALBESCU et al. Marketing intelligence–the last frontier of business information technologies.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160504