CN107016106A - 一种信息采集系统及Web应用 - Google Patents

一种信息采集系统及Web应用 Download PDF

Info

Publication number
CN107016106A
CN107016106A CN201710236760.6A CN201710236760A CN107016106A CN 107016106 A CN107016106 A CN 107016106A CN 201710236760 A CN201710236760 A CN 201710236760A CN 107016106 A CN107016106 A CN 107016106A
Authority
CN
China
Prior art keywords
data
module
journal file
write
information acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710236760.6A
Other languages
English (en)
Inventor
徐佳宏
谢慧梅
陈恋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ipanel TV Inc
Original Assignee
Shenzhen Ipanel TV Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ipanel TV Inc filed Critical Shenzhen Ipanel TV Inc
Priority to CN201710236760.6A priority Critical patent/CN107016106A/zh
Publication of CN107016106A publication Critical patent/CN107016106A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Abstract

本申请公开了一种信息采集系统及Web应用,其中,所述信息采集系统直接通过所述数据采集模块采集Web应用的目标数据,而不需要抓取服务器日志再对服务器日志进行分析,降低了目标数据采集过程消耗的计算资源;所述输入写入模块以统一的预设格式将所述目标数据写入日志文件中,从而降低了所述数据分析模块分析所述日志文件获得分析数据的难度。

Description

一种信息采集系统及Web应用
技术领域
本申请涉及计算机应用技术领域,更具体地说,涉及一种信息采集系统及Web应用。
背景技术
Web(World Wide Web,全球广域网),也称为万维网,是一种基于超文本和HTTP(HyperText Transfer Protocol,超文本传输协议)的分布式图形信息系统。Web应用是一种可以通过Web访问的应用程序。Web应用的一个最大好处是用户很容易访问应用程序。用户只需要有浏览器即可,不需要再安装其他软件,这一特性使得Web应用的使用非常广泛。
随着信息化的不断推进,如何采集用户在访问Web应用过程中产生的数据(例如被访问次数、关键词搜索频次等)成为各个Web应用公司关注的焦点。现有技术中对于Web应用在用户访问过程中产生的信息采集的方式通常为:抓取服务器生成的日志,并对抓取的日志进行分析以期得到想要的信息数据。但是随着服务器使用时间的增加,服务器生成的日志数量越来越多,对服务器日志的抓取和分析消耗的计算资源变得越来越庞大,并且由于各个服务器生成的日志格式的不一,导致日志的分析难度很大。
发明内容
为解决上述技术问题,本发明提供了一种信息采集系统及Web应用,以实现降低采集目标数据所消耗的计算资源和日志文件的分析难度的目的。
为实现上述技术目的,本发明实施例提供了如下技术方案:
一种信息采集系统,应用于Web应用,所述信息采集系统包括:数据采集模块、数据写入模块和数据分析模块;其中,
所述数据采集模块,用于采集目标数据并向所述数据写入模块传输;
所述数据写入模块,用于将所述目标数据以预设格式写入日志文件中;
所述数据分析模块,用于分析所述日志文件获得分析数据。
可选的,所述数据采集模块具体用于,以异步方式采集所述目标数据并向所述数据写入模块传输。
可选的,所述数据写入模块具体用于每隔预设时间生成一个日志文件,所述日志文件包括所述预设时间内的目标数据。
可选的,所述数据写入模块还用于以预设分类模式对生成的日志文件进行分类保存。
可选的,所述预设分类模式为按日志生成日期分类。
可选的,所述数据分析模块具体用于,在每个预设周期内分析所述日志文件获得分析数据。
可选的,所述数据分析模块还用于在每个预设周期内根据所述分析数据生成数据报表。
可选的,所述目标数据为收视率数据或点击率数据或关键词搜索频次数据。
一种Web应用,包括前端页面、后台处理模块和上述任一项所述的信息采集系统。
从上述技术方案可以看出,本发明实施例提供了一种信息采集系统及Web应用,其中,所述信息采集系统直接通过所述数据采集模块采集Web应用的目标数据,而不需要抓取服务器日志再对服务器日志进行分析,降低了目标数据采集过程消耗的计算资源;所述输入写入模块以统一的预设格式将所述目标数据写入日志文件中,从而降低了所述数据分析模块分析所述日志文件获得分析数据的难度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请的一个实施例提供的一种信息采集系统的结构示意图;
图2为本申请的一个实施例提供的一种Web应用的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供了一种信息采集系统,如图1所示,应用于Web应用,所述信息采集系统包括:数据采集模块100、数据写入模块200和数据分析模块300;其中,
所述数据采集模块100,用于采集目标数据并向所述数据写入模块200传输;
所述数据写入模块200,用于将所述目标数据以预设格式写入日志文件中;
所述数据分析模块300,用于分析所述日志文件获得分析数据。
需要说明的是,一般情况下,所述Web应用由前端页面和后台处理模块构成,在实际应用过程中,所述数据采集模块100一般内嵌于所述Web应用的前端页面中,所述数据写入模块200和数据分析模块300集成于所述后台处理模块中,所述数据采集模块100直接采集用户访问所述Web应用产生的数据中的目标数据,这些目标数据可以是收视率数据,也可以是点击率数据,还可以是关键词搜索频次数据,本申请对所述目标数据的具体种类并不做限定,具体视实际情况而定。
所述信息采集系统直接通过所述数据采集模块100采集Web应用的目标数据,而不需要抓取服务器日志再对服务器日志进行分析,降低了目标数据采集过程消耗的计算资源;所述输入写入模块以统一的预设格式将所述目标数据写入日志文件中,从而降低了所述数据分析模块300分析所述日志文件获得分析数据的难度。
在上述实施例的基础上,在本申请的一个实施例中,所述数据采集模块100具体用于,以异步方式采集所述目标数据并向所述数据写入模块200传输。
在本实施例中,以异步方式采集所述目标数据的目的是避免采集所述目标数据的过程拖慢Web应用的加载速度。
具体地,可以通过AJAX(Asynchronous Javascript And XML,异步JavaScript和XML)实现异步采集所述目标数据。AJAX是一种用于创建快速动态网页的技术。通过在后台进行的少量数据交换,AJAX可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
在上述实施例的基础上,在本申请的另一个实施例中,所述数据写入模块200具体用于每隔预设时间生成一个日志文件,所述日志文件包括所述预设时间内的目标数据。
在本实施例中,所述数据写入模块200将每个预设时间内的目标数据写入一个日志文件中,所述预设时间的取值可以是30min、60min、90min或120min。本申请对所述预设时间的具体取值并不做限定,具体视实际情况而定。
在上述实施例的基础上在,在本申请的又一个实施例中,所述数据写入模块200还用于以预设分类模式对生成的日志文件进行分类保存。
在本实施例中,以预设分类模式保存生成的日志文件的目的是进一步降低所述数据分析模块300对日志文件的分析难度。例如,在本申请的一个实施例中,所述预设分类模式为按日志生成日期分类,则所述数据分析模块300想要获得2017年3月份各个电视剧的收视率,就可以只对3月份的日志文件进行分析,避免了对大量日志文件进行盲目分析和处理的情况,降低了所述数据分析模块300的分析难度。
在上述实施例的基础上,在本申请的一个优选实施例中,所述数据分析模块300具体用于,在每个预设周期内分析所述日志文件获得分析数据。
需要说明的是,所述预设周期可以为每隔一天、每隔一周或每隔1小时等。本申请对所述预设周期的具体取值并不做限定,具体视实际情况而定。
在上述实施例的基础上,在本申请的另一个优选实施例中,所述数据分析模块300还用于在每个预设周期内根据所述分析数据生成数据报表。
在本实施例中,所述数据分析模块300生成的数据报表可以为分析人员提供分析数据。
综上所述,本申请实施例提供了一种信息采集系统,所述信息采集系统直接通过所述数据采集模块100采集Web应用的目标数据,而不需要抓取服务器日志再对服务器日志进行分析,降低了目标数据采集过程消耗的计算资源;所述输入写入模块以统一的预设格式将所述目标数据写入日志文件中,从而降低了所述数据分析模块300分析所述日志文件获得分析数据的难度。
相应的,本申请实施例还提供了一种Web应用,如图2所示,包括前端页面A10、后台处理模块A20和上述任一实施例所述的信息采集系统A30。
在实际应用过程中,所述信息采集系统A30的数据采集模块一般内嵌于所述Web应用的前端页面中,所述信息采集系统A30的数据写入模块和数据分析模块集成于所述后台处理模块中,所述数据采集模块直接采集用户访问所述Web应用产生的数据中的目标数据,这些目标数据可以是收视率数据,也可以是点击率数据,还可以是关键词搜索频次数据,本申请对所述目标数据的具体种类并不做限定,具体视实际情况而定。
综上所述,本申请实施例提供了一种信息采集系统及Web应用,其中,所述信息采集系统直接通过所述数据采集模块采集Web应用的目标数据,而不需要抓取服务器日志再对服务器日志进行分析,降低了目标数据采集过程消耗的计算资源;所述输入写入模块以统一的预设格式将所述目标数据写入日志文件中,从而降低了所述数据分析模块分析所述日志文件获得分析数据的难度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种信息采集系统,其特征在于,应用于Web应用,所述信息采集系统包括:数据采集模块、数据写入模块和数据分析模块;其中,
所述数据采集模块,用于采集目标数据并向所述数据写入模块传输;
所述数据写入模块,用于将所述目标数据以预设格式写入日志文件中;
所述数据分析模块,用于分析所述日志文件获得分析数据。
2.根据权利要求1所述的系统,其特征在于,所述数据采集模块具体用于,以异步方式采集所述目标数据并向所述数据写入模块传输。
3.根据权利要求1所述的系统,其特征在于,所述数据写入模块具体用于每隔预设时间生成一个日志文件,所述日志文件包括所述预设时间内的目标数据。
4.根据权利要求1所述的系统,其特征在于,所述数据写入模块还用于以预设分类模式对生成的日志文件进行分类保存。
5.根据权利要求4所述的系统,其特征在于,所述预设分类模式为按日志生成日期分类。
6.根据权利要求1所述的系统,其特征在于,所述数据分析模块具体用于,在每个预设周期内分析所述日志文件获得分析数据。
7.根据权利要求6所述的系统,其特征在于,所述数据分析模块还用于在每个预设周期内根据所述分析数据生成数据报表。
8.根据权利要求1所述的系统,其特征在于,所述目标数据为收视率数据或点击率数据或关键词搜索频次数据。
9.一种Web应用,其特征在于,包括前端页面、后台处理模块和权利要求1-8任一项所述的信息采集系统。
CN201710236760.6A 2017-04-12 2017-04-12 一种信息采集系统及Web应用 Pending CN107016106A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710236760.6A CN107016106A (zh) 2017-04-12 2017-04-12 一种信息采集系统及Web应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710236760.6A CN107016106A (zh) 2017-04-12 2017-04-12 一种信息采集系统及Web应用

Publications (1)

Publication Number Publication Date
CN107016106A true CN107016106A (zh) 2017-08-04

Family

ID=59446509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710236760.6A Pending CN107016106A (zh) 2017-04-12 2017-04-12 一种信息采集系统及Web应用

Country Status (1)

Country Link
CN (1) CN107016106A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109547855A (zh) * 2018-11-20 2019-03-29 四川长虹电器股份有限公司 Web前端模拟电视主场景监测电视海报点击数据的方法
CN114650236A (zh) * 2020-12-17 2022-06-21 中移(苏州)软件技术有限公司 一种日志处理方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620630A (zh) * 2009-06-29 2010-01-06 北京黑米天成科技有限公司 一种基于js脚本的web行为数据采集模型
CN104113605A (zh) * 2014-07-30 2014-10-22 浪潮软件股份有限公司 一种企业云应用开发的监控处理方法
CN104714946A (zh) * 2013-12-11 2015-06-17 田鹏 一种基于NoSQL的大规模Web日志分析系统
US20160210181A1 (en) * 2014-01-29 2016-07-21 Hitachi, Ltd. Analysis apparatus and analysis method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620630A (zh) * 2009-06-29 2010-01-06 北京黑米天成科技有限公司 一种基于js脚本的web行为数据采集模型
CN104714946A (zh) * 2013-12-11 2015-06-17 田鹏 一种基于NoSQL的大规模Web日志分析系统
US20160210181A1 (en) * 2014-01-29 2016-07-21 Hitachi, Ltd. Analysis apparatus and analysis method
CN104113605A (zh) * 2014-07-30 2014-10-22 浪潮软件股份有限公司 一种企业云应用开发的监控处理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109547855A (zh) * 2018-11-20 2019-03-29 四川长虹电器股份有限公司 Web前端模拟电视主场景监测电视海报点击数据的方法
CN109547855B (zh) * 2018-11-20 2021-05-25 四川长虹电器股份有限公司 Web前端模拟电视主场景监测电视海报点击数据的方法
CN114650236A (zh) * 2020-12-17 2022-06-21 中移(苏州)软件技术有限公司 一种日志处理方法、装置及存储介质

Similar Documents

Publication Publication Date Title
US9043348B2 (en) System and method for performing set operations with defined sketch accuracy distribution
US20150378685A1 (en) Mobilizing an existing web application
CN102902775B (zh) 互联网实时计算的方法和系统
CN104615526A (zh) 一种大数据平台的监控系统
JP5218544B2 (ja) 電子書籍の試読データ作成装置および作成方法
CN100483422C (zh) 用于农业复杂自适应搜索引擎系统的控制方法
KR102222287B1 (ko) 은닉 url에 포함된 정형 및 비정형 데이터의 수집을 위한 웹 크롤러 시스템
CN103235800A (zh) 一种搜索结果的预览方法及系统
CN103425661A (zh) 一种网站数据分析方法及分析系统
EP3915017A1 (en) Aggregation analysis and remediation of data invalidations
KR102022875B1 (ko) 빅데이터 탐색적 자료 분석 기반 시각화 시스템
CN107016106A (zh) 一种信息采集系统及Web应用
Wang et al. Variations of drought tendency, frequency, and characteristics and their responses to climate change under CMIP5 RCP scenarios in Huai River Basin, China
CN110020273A (zh) 用于生成热力图的方法、装置以及系统
Wang et al. The impact of climate change on the duration and division of flood season in the Fenhe River Basin, China
Jeong et al. Framework for analyzing android i/o stack behavior: from generating the workload to analyzing the trace
CN108121743A (zh) 一种通用网页模版的生成和使用方法、系统
CN107798101A (zh) 用户自由点选配置的网页数据采集方法及系统
CN107872352A (zh) 一种网管系统的性能测试方法、装置及系统
WO2018188352A1 (zh) 资源平衡性的确定方法、装置、设备以及存储介质
Xu et al. Research on Tibetan hot words, sensitive words tracking and public opinion classification
Mair et al. Web Technologies Task View.
CN107247804A (zh) 运维大数据分析方法、装置及系统
US9858250B2 (en) Optimized read/write access to a document object model
WO2018137104A1 (zh) 一种基于大数据挖掘的用户行为分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170804

RJ01 Rejection of invention patent application after publication