CN112783953A - 一种数据采集方法 - Google Patents
一种数据采集方法 Download PDFInfo
- Publication number
- CN112783953A CN112783953A CN201911077812.5A CN201911077812A CN112783953A CN 112783953 A CN112783953 A CN 112783953A CN 201911077812 A CN201911077812 A CN 201911077812A CN 112783953 A CN112783953 A CN 112783953A
- Authority
- CN
- China
- Prior art keywords
- data
- log
- database
- analyzing
- programming language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种数据采集方法,包括以下步骤,构造数据统计log方法,通过计算机语言构造一个数据统计log方法,将需要记录的信息写入log,计算机程序设计语言解析log数据入库;计算机程序设计语言脚本读取log文件,把数据解析到临时数据库中,服务线程的数据处理;通过服务线程,定时把的临时数据库中的数据解析到最终的数据库中,数据展示;进行数据展示。本发明通过自己构造的log底层结构,不会存在用户数据隐私的安全隐患问题,并且只有一行代码,服务线程解析数据时,可以根据自己的需求log数据,选择不同的解析数据形式,可以根据不同的统计作出相应的策略。
Description
技术领域
本发明涉及数据统计技术领域,尤其涉及一种数据采集方法。
背景技术
现有技术为数据统计提供了各种各样的方法,有log4j框架、JavaScript标记、包嗅探器等。通过使用log4j,可以控制日志信息输送的目的地是控制台、文件、GUI组件、甚至是套接口服务器、NT的事件记录器、UNIX Syslog守护进程等。JavaScript标记返回给访问者的网页代码中会包含一段特殊的JavaScript代码,当页面展示的同时这段代码也得以执行。这段代码会从访问者的Cookie中取得详细信息(访问时间、浏览器信息、工具厂商赋予当前访问者的userID等)并发送到工具商的数据收集服务器。包嗅探器会将请求发送到网站服务器,包嗅探器收集到的数据经过工具厂商的处理服务器后存入数据库。
不过也存在其不足之处,当日志文件过大时,log4j会影响系统性能,同时不利于排查问题,JavaScript标记会增加JavaScript脚本负荷,包嗅探器是从第三方获取数据,对用户数据隐私的安全隐患是比较敏感的。所以现提出了一种数据采集方法。
发明内容
基于背景技术存在的技术问题,本发明提出了一种数据采集方法。
本发明提出的一种数据采集方法,包括以下步骤:
S1:构造数据统计log方法;通过计算机语言构造一个数据统计log方法,将需要记录的信息写入log;
S2:计算机程序设计语言解析log数据入库;计算机程序设计语言脚本读取S1中的log文件,把数据解析到临时数据库中;
S3:服务线程的数据处理;通过服务线程,定时把S2中的临时数据库中的数据解析到最终的数据库中;
S4:数据展示;进行数据展示。
优选地,所述S1中的计算机语言为java、c#或c++。
优选地,所述S1中,将每一条log分别写入到每5min的一个log文件中。
优选地,所述S1中的log方法为logBss方法或logDog方法,其中logBss方法统计用户的重要信息,logDog方法统计用户的行为信息。
优选地,所述S1中的log文件以空格隔开,且S2中的计算机程序设计语言脚本以空格为分隔符,把数据解析到临时库所述S2中的计算机程序设计语言为python或java。
优选地,所述S2中的临时数据库为记录原始的log数据的数据库。
优选地,所述S3中的数据解析形式,是根据想要获得的数据类型来选择。
优选地,所述S4中的数据展示方法为列表和或报表。
本发明中的有益效果为:
1.通过自己构造的log底层结构,不会存在用户数据隐私的安全隐患问题,并且只有一行代码。
2.服务线程解析数据时,可以根据自己的需求log数据,选择不同的解析数据形式,可以根据不同的统计作出相应的策略。
3.Python解析数据到临时库,在python解析时不做过多的逻辑,直接插入数据,以求效率达到最高,并且支持重跑机制,线程解析时,可以有各种各样的解析数据形式。
附图说明
图1为本发明提出的一种数据采集方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种数据采集方法,包括以下步骤:
构造数据统计log方法;通过计算机语言构造一个数据统计log方法,将需要记录的信息写入log,计算机语言为java、c#或c++,将每一条log分别写入到每5min的一个log文件中,log方法为logBss方法或logDog方法,其中logBss方法统计用户的重要信息,logDog方法统计用户的行为,信息log文件以空格隔开;以logBss方法为例,logDog方法类似,其中logBss统计用户的重要信息,logDog统计用户的行为信息,通过java写一个logBss方法,其中参数int bss是需要log的数据类型,如果用户信息类型,用户订单信息类型,int aid为用户id,String content为想要统计的数据json串信息,在解析的时候还原即可获取,以上信息通过StringBuilder append为一条日志,以空格隔开(重要python以空格为分隔符把数据解析到临时库),每一条日志写入到每5分钟一个日志文件中,即00:00:00-00:05:00时间段内生成的日志记录到一个日志文件中,计算机程序设计语言解析log数据入库;计算机程序设计语言脚本读取log文件,把数据解析到临时数据库中,临时数据库为记录原始的log数据的数据库;服务线程的数据处理;通过服务线程,定时把临时数据库中的数据解析到最终的数据库中;数据展示,进行数据展示。
本发明中,计算机程序设计语言为python或java,计算机程序设计语言脚本以空格为分隔符,把数据解析到临时库,数据解析形式,是根据想要获得的数据类型来选择,数据展示方法为列表和或报表。
python脚本读取5分钟的日志文件,把日志解析到临时库中,注意,在python脚本中尽量不要做太多逻辑判断,以免影响python解析数据的效率。
同时通过java把log写入到log文件中,几乎不会影响业务,还可以使得在服务层、web层等都可以调用此数据统计log方法。
通过python解析log到临时数据库,可以把log压缩永久保留下来,可以减少log占用的磁盘空间,python解析时不做过多的逻辑,直接插入数据,可以使得效率提高,并且支持重跑机制。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种数据采集方法,其特征在于,包括以下步骤:
S1:构造数据统计log方法;通过计算机语言构造一个数据统计log方法,将需要记录的信息写入log;
S2:计算机程序设计语言解析log数据入库;计算机程序设计语言脚本读取S1中的log文件,把数据解析到临时数据库中;
S3:服务线程的数据处理;通过服务线程,定时把S2中的临时数据库中的数据解析到最终的数据库中;
S4:数据展示;进行数据展示。
2.根据权利要求1所述的一种数据采集方法,其特征在于,所述S1中的计算机语言为java、c#或c++。
3.根据权利要求2所述的一种数据采集方法,其特征在于,所述S1中,将每一条log分别写入到每5min的一个log文件中。
4.根据权利要求3所述的一种数据采集方法,其特征在于,所述S1中的log方法为logBss方法或logDog方法,其中logBss方法统计用户的重要信息,logDog方法统计用户的行为信息。
5.根据权利要求4所述的一种数据采集方法,其特征在于,所述S1中的log文件以空格隔开,且S2中的计算机程序设计语言脚本以空格为分隔符,把数据解析到临时库。
6.根据权利要求5所述的一种数据采集方法,其特征在于,所述S2中的计算机程序设计语言为python或java。
7.根据权利要求6所述的一种数据采集方法,其特征在于,所述S2中的临时数据库为记录原始的log数据的数据库。
8.根据权利要求7所述的一种数据采集方法,其特征在于,所述S3中的数据解析形式,是根据想要获得的数据类型来选择。
9.根据权利要求8所述的一种数据采集方法,其特征在于,所述S4中的数据展示方法为列表和或报表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911077812.5A CN112783953A (zh) | 2019-11-06 | 2019-11-06 | 一种数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911077812.5A CN112783953A (zh) | 2019-11-06 | 2019-11-06 | 一种数据采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112783953A true CN112783953A (zh) | 2021-05-11 |
Family
ID=75747699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911077812.5A Pending CN112783953A (zh) | 2019-11-06 | 2019-11-06 | 一种数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112783953A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060085788A1 (en) * | 2004-09-29 | 2006-04-20 | Arnon Amir | Grammar-based task analysis of web logs |
WO2007023068A1 (en) * | 2005-08-25 | 2007-03-01 | International Business Machines Corporation | Mechanism for generating dynamic content without a web server |
CN103916293A (zh) * | 2014-04-15 | 2014-07-09 | 浪潮软件股份有限公司 | 一种监控分析网站用户行为的方法 |
US20160041976A1 (en) * | 2014-08-11 | 2016-02-11 | Salesforce.Com, Inc. | Processing log files using a database system |
CN106301912A (zh) * | 2016-08-15 | 2017-01-04 | 上海新炬网络技术有限公司 | 基于phthon构建桌面版C/S自动化运维平台的方法 |
CN106878397A (zh) * | 2017-01-21 | 2017-06-20 | 浙江沛宏网络科技有限公司 | 一种web用户行为反馈方法及系统 |
CN109308329A (zh) * | 2018-09-27 | 2019-02-05 | 深圳供电局有限公司 | 一种基于云平台的日志收集方法和装置 |
CN109753502A (zh) * | 2018-12-29 | 2019-05-14 | 山东浪潮商用系统有限公司 | 一种基于NiFi的数据采集方法 |
-
2019
- 2019-11-06 CN CN201911077812.5A patent/CN112783953A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060085788A1 (en) * | 2004-09-29 | 2006-04-20 | Arnon Amir | Grammar-based task analysis of web logs |
WO2007023068A1 (en) * | 2005-08-25 | 2007-03-01 | International Business Machines Corporation | Mechanism for generating dynamic content without a web server |
CN103916293A (zh) * | 2014-04-15 | 2014-07-09 | 浪潮软件股份有限公司 | 一种监控分析网站用户行为的方法 |
US20160041976A1 (en) * | 2014-08-11 | 2016-02-11 | Salesforce.Com, Inc. | Processing log files using a database system |
CN106301912A (zh) * | 2016-08-15 | 2017-01-04 | 上海新炬网络技术有限公司 | 基于phthon构建桌面版C/S自动化运维平台的方法 |
CN106878397A (zh) * | 2017-01-21 | 2017-06-20 | 浙江沛宏网络科技有限公司 | 一种web用户行为反馈方法及系统 |
CN109308329A (zh) * | 2018-09-27 | 2019-02-05 | 深圳供电局有限公司 | 一种基于云平台的日志收集方法和装置 |
CN109753502A (zh) * | 2018-12-29 | 2019-05-14 | 山东浪潮商用系统有限公司 | 一种基于NiFi的数据采集方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8090727B2 (en) | Methods for automatically generating natural-language news items from log files and status traces | |
US7908239B2 (en) | System for storing event data using a sum calculator that sums the cubes and squares of events | |
CN111581054A (zh) | 一种基于elk的日志埋点的业务分析告警系统及方法 | |
CN103873583A (zh) | 基于云平台针对互联网用户行为进行分析的方法和系统 | |
CN108647133A (zh) | 用户操作轨迹记录方法、装置、存储介质以及计算机设备 | |
CN111241050B (zh) | 一种用于大数据平台的联动分析系统及方法 | |
CN110069464A (zh) | 日志分析处理方法、装置、设备及可读存储介质 | |
US20050188269A1 (en) | System and method for providing a health model for software | |
US20130263156A1 (en) | Operation log collection method and device | |
CN116450885B (zh) | 一种Windows事件日志文件的数据重构方法 | |
CN110401580A (zh) | 基于心跳机制的网页状态监听方法及相关设备 | |
KR100912177B1 (ko) | 사용자 행동 분석 방법 및 시스템 | |
CN110191097B (zh) | 登录页面安全性的检测方法、系统、设备及存储介质 | |
CN106250397B (zh) | 一种用户行为特征的分析方法及装置 | |
CN108089978A (zh) | 一种分析asp.net应用软件性能及故障的诊断方法 | |
CN111818097B (zh) | 基于行为的流量监测方法及装置 | |
CN111581057B (zh) | 一种通用日志解析方法、终端设备及存储介质 | |
CN109582504A (zh) | 一种用于苹果设备的数据恢复方法和装置 | |
CN112783953A (zh) | 一种数据采集方法 | |
CN104391956B (zh) | 网站更新内容的检测方法及装置 | |
CN115794479A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
KR101735652B1 (ko) | 단말 장치 및 이에 의한 사이버 공격 애플리케이션의 탐지 방법 | |
KR101329976B1 (ko) | 리포트 생성 방법 및 시스템 | |
JP2018195197A (ja) | 評価プログラム、評価方法および情報処理装置 | |
CN107341086A (zh) | 服务器运行状态的监测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |