CN112783953A - 一种数据采集方法 - Google Patents

一种数据采集方法 Download PDF

Info

Publication number
CN112783953A
CN112783953A CN201911077812.5A CN201911077812A CN112783953A CN 112783953 A CN112783953 A CN 112783953A CN 201911077812 A CN201911077812 A CN 201911077812A CN 112783953 A CN112783953 A CN 112783953A
Authority
CN
China
Prior art keywords
data
log
database
analyzing
programming language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911077812.5A
Other languages
English (en)
Inventor
杨锦波
陈其龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Faisco Internet Technology Co ltd
Original Assignee
Guangzhou Faisco Internet Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Faisco Internet Technology Co ltd filed Critical Guangzhou Faisco Internet Technology Co ltd
Priority to CN201911077812.5A priority Critical patent/CN112783953A/zh
Publication of CN112783953A publication Critical patent/CN112783953A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种数据采集方法,包括以下步骤,构造数据统计log方法,通过计算机语言构造一个数据统计log方法,将需要记录的信息写入log,计算机程序设计语言解析log数据入库;计算机程序设计语言脚本读取log文件,把数据解析到临时数据库中,服务线程的数据处理;通过服务线程,定时把的临时数据库中的数据解析到最终的数据库中,数据展示;进行数据展示。本发明通过自己构造的log底层结构,不会存在用户数据隐私的安全隐患问题,并且只有一行代码,服务线程解析数据时,可以根据自己的需求log数据,选择不同的解析数据形式,可以根据不同的统计作出相应的策略。

Description

一种数据采集方法
技术领域
本发明涉及数据统计技术领域,尤其涉及一种数据采集方法。
背景技术
现有技术为数据统计提供了各种各样的方法,有log4j框架、JavaScript标记、包嗅探器等。通过使用log4j,可以控制日志信息输送的目的地是控制台、文件、GUI组件、甚至是套接口服务器、NT的事件记录器、UNIX Syslog守护进程等。JavaScript标记返回给访问者的网页代码中会包含一段特殊的JavaScript代码,当页面展示的同时这段代码也得以执行。这段代码会从访问者的Cookie中取得详细信息(访问时间、浏览器信息、工具厂商赋予当前访问者的userID等)并发送到工具商的数据收集服务器。包嗅探器会将请求发送到网站服务器,包嗅探器收集到的数据经过工具厂商的处理服务器后存入数据库。
不过也存在其不足之处,当日志文件过大时,log4j会影响系统性能,同时不利于排查问题,JavaScript标记会增加JavaScript脚本负荷,包嗅探器是从第三方获取数据,对用户数据隐私的安全隐患是比较敏感的。所以现提出了一种数据采集方法。
发明内容
基于背景技术存在的技术问题,本发明提出了一种数据采集方法。
本发明提出的一种数据采集方法,包括以下步骤:
S1:构造数据统计log方法;通过计算机语言构造一个数据统计log方法,将需要记录的信息写入log;
S2:计算机程序设计语言解析log数据入库;计算机程序设计语言脚本读取S1中的log文件,把数据解析到临时数据库中;
S3:服务线程的数据处理;通过服务线程,定时把S2中的临时数据库中的数据解析到最终的数据库中;
S4:数据展示;进行数据展示。
优选地,所述S1中的计算机语言为java、c#或c++。
优选地,所述S1中,将每一条log分别写入到每5min的一个log文件中。
优选地,所述S1中的log方法为logBss方法或logDog方法,其中logBss方法统计用户的重要信息,logDog方法统计用户的行为信息。
优选地,所述S1中的log文件以空格隔开,且S2中的计算机程序设计语言脚本以空格为分隔符,把数据解析到临时库所述S2中的计算机程序设计语言为python或java。
优选地,所述S2中的临时数据库为记录原始的log数据的数据库。
优选地,所述S3中的数据解析形式,是根据想要获得的数据类型来选择。
优选地,所述S4中的数据展示方法为列表和或报表。
本发明中的有益效果为:
1.通过自己构造的log底层结构,不会存在用户数据隐私的安全隐患问题,并且只有一行代码。
2.服务线程解析数据时,可以根据自己的需求log数据,选择不同的解析数据形式,可以根据不同的统计作出相应的策略。
3.Python解析数据到临时库,在python解析时不做过多的逻辑,直接插入数据,以求效率达到最高,并且支持重跑机制,线程解析时,可以有各种各样的解析数据形式。
附图说明
图1为本发明提出的一种数据采集方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种数据采集方法,包括以下步骤:
构造数据统计log方法;通过计算机语言构造一个数据统计log方法,将需要记录的信息写入log,计算机语言为java、c#或c++,将每一条log分别写入到每5min的一个log文件中,log方法为logBss方法或logDog方法,其中logBss方法统计用户的重要信息,logDog方法统计用户的行为,信息log文件以空格隔开;以logBss方法为例,logDog方法类似,其中logBss统计用户的重要信息,logDog统计用户的行为信息,通过java写一个logBss方法,其中参数int bss是需要log的数据类型,如果用户信息类型,用户订单信息类型,int aid为用户id,String content为想要统计的数据json串信息,在解析的时候还原即可获取,以上信息通过StringBuilder append为一条日志,以空格隔开(重要python以空格为分隔符把数据解析到临时库),每一条日志写入到每5分钟一个日志文件中,即00:00:00-00:05:00时间段内生成的日志记录到一个日志文件中,计算机程序设计语言解析log数据入库;计算机程序设计语言脚本读取log文件,把数据解析到临时数据库中,临时数据库为记录原始的log数据的数据库;服务线程的数据处理;通过服务线程,定时把临时数据库中的数据解析到最终的数据库中;数据展示,进行数据展示。
本发明中,计算机程序设计语言为python或java,计算机程序设计语言脚本以空格为分隔符,把数据解析到临时库,数据解析形式,是根据想要获得的数据类型来选择,数据展示方法为列表和或报表。
python脚本读取5分钟的日志文件,把日志解析到临时库中,注意,在python脚本中尽量不要做太多逻辑判断,以免影响python解析数据的效率。
同时通过java把log写入到log文件中,几乎不会影响业务,还可以使得在服务层、web层等都可以调用此数据统计log方法。
通过python解析log到临时数据库,可以把log压缩永久保留下来,可以减少log占用的磁盘空间,python解析时不做过多的逻辑,直接插入数据,可以使得效率提高,并且支持重跑机制。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种数据采集方法,其特征在于,包括以下步骤:
S1:构造数据统计log方法;通过计算机语言构造一个数据统计log方法,将需要记录的信息写入log;
S2:计算机程序设计语言解析log数据入库;计算机程序设计语言脚本读取S1中的log文件,把数据解析到临时数据库中;
S3:服务线程的数据处理;通过服务线程,定时把S2中的临时数据库中的数据解析到最终的数据库中;
S4:数据展示;进行数据展示。
2.根据权利要求1所述的一种数据采集方法,其特征在于,所述S1中的计算机语言为java、c#或c++。
3.根据权利要求2所述的一种数据采集方法,其特征在于,所述S1中,将每一条log分别写入到每5min的一个log文件中。
4.根据权利要求3所述的一种数据采集方法,其特征在于,所述S1中的log方法为logBss方法或logDog方法,其中logBss方法统计用户的重要信息,logDog方法统计用户的行为信息。
5.根据权利要求4所述的一种数据采集方法,其特征在于,所述S1中的log文件以空格隔开,且S2中的计算机程序设计语言脚本以空格为分隔符,把数据解析到临时库。
6.根据权利要求5所述的一种数据采集方法,其特征在于,所述S2中的计算机程序设计语言为python或java。
7.根据权利要求6所述的一种数据采集方法,其特征在于,所述S2中的临时数据库为记录原始的log数据的数据库。
8.根据权利要求7所述的一种数据采集方法,其特征在于,所述S3中的数据解析形式,是根据想要获得的数据类型来选择。
9.根据权利要求8所述的一种数据采集方法,其特征在于,所述S4中的数据展示方法为列表和或报表。
CN201911077812.5A 2019-11-06 2019-11-06 一种数据采集方法 Pending CN112783953A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911077812.5A CN112783953A (zh) 2019-11-06 2019-11-06 一种数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911077812.5A CN112783953A (zh) 2019-11-06 2019-11-06 一种数据采集方法

Publications (1)

Publication Number Publication Date
CN112783953A true CN112783953A (zh) 2021-05-11

Family

ID=75747699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911077812.5A Pending CN112783953A (zh) 2019-11-06 2019-11-06 一种数据采集方法

Country Status (1)

Country Link
CN (1) CN112783953A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060085788A1 (en) * 2004-09-29 2006-04-20 Arnon Amir Grammar-based task analysis of web logs
WO2007023068A1 (en) * 2005-08-25 2007-03-01 International Business Machines Corporation Mechanism for generating dynamic content without a web server
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
US20160041976A1 (en) * 2014-08-11 2016-02-11 Salesforce.Com, Inc. Processing log files using a database system
CN106301912A (zh) * 2016-08-15 2017-01-04 上海新炬网络技术有限公司 基于phthon构建桌面版C/S自动化运维平台的方法
CN106878397A (zh) * 2017-01-21 2017-06-20 浙江沛宏网络科技有限公司 一种web用户行为反馈方法及系统
CN109308329A (zh) * 2018-09-27 2019-02-05 深圳供电局有限公司 一种基于云平台的日志收集方法和装置
CN109753502A (zh) * 2018-12-29 2019-05-14 山东浪潮商用系统有限公司 一种基于NiFi的数据采集方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060085788A1 (en) * 2004-09-29 2006-04-20 Arnon Amir Grammar-based task analysis of web logs
WO2007023068A1 (en) * 2005-08-25 2007-03-01 International Business Machines Corporation Mechanism for generating dynamic content without a web server
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
US20160041976A1 (en) * 2014-08-11 2016-02-11 Salesforce.Com, Inc. Processing log files using a database system
CN106301912A (zh) * 2016-08-15 2017-01-04 上海新炬网络技术有限公司 基于phthon构建桌面版C/S自动化运维平台的方法
CN106878397A (zh) * 2017-01-21 2017-06-20 浙江沛宏网络科技有限公司 一种web用户行为反馈方法及系统
CN109308329A (zh) * 2018-09-27 2019-02-05 深圳供电局有限公司 一种基于云平台的日志收集方法和装置
CN109753502A (zh) * 2018-12-29 2019-05-14 山东浪潮商用系统有限公司 一种基于NiFi的数据采集方法

Similar Documents

Publication Publication Date Title
US8090727B2 (en) Methods for automatically generating natural-language news items from log files and status traces
US7908239B2 (en) System for storing event data using a sum calculator that sums the cubes and squares of events
CN111581054A (zh) 一种基于elk的日志埋点的业务分析告警系统及方法
CN103873583A (zh) 基于云平台针对互联网用户行为进行分析的方法和系统
CN108647133A (zh) 用户操作轨迹记录方法、装置、存储介质以及计算机设备
CN111241050B (zh) 一种用于大数据平台的联动分析系统及方法
CN110069464A (zh) 日志分析处理方法、装置、设备及可读存储介质
US20050188269A1 (en) System and method for providing a health model for software
US20130263156A1 (en) Operation log collection method and device
CN116450885B (zh) 一种Windows事件日志文件的数据重构方法
CN110401580A (zh) 基于心跳机制的网页状态监听方法及相关设备
KR100912177B1 (ko) 사용자 행동 분석 방법 및 시스템
CN110191097B (zh) 登录页面安全性的检测方法、系统、设备及存储介质
CN106250397B (zh) 一种用户行为特征的分析方法及装置
CN108089978A (zh) 一种分析asp.net应用软件性能及故障的诊断方法
CN111818097B (zh) 基于行为的流量监测方法及装置
CN111581057B (zh) 一种通用日志解析方法、终端设备及存储介质
CN109582504A (zh) 一种用于苹果设备的数据恢复方法和装置
CN112783953A (zh) 一种数据采集方法
CN104391956B (zh) 网站更新内容的检测方法及装置
CN115794479A (zh) 日志数据处理方法、装置、电子设备及存储介质
KR101735652B1 (ko) 단말 장치 및 이에 의한 사이버 공격 애플리케이션의 탐지 방법
KR101329976B1 (ko) 리포트 생성 방법 및 시스템
JP2018195197A (ja) 評価プログラム、評価方法および情報処理装置
CN107341086A (zh) 服务器运行状态的监测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination