CN109299032A - 数据分析方法、电子设备及计算机存储介质 - Google Patents

数据分析方法、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN109299032A
CN109299032A CN201811250879.XA CN201811250879A CN109299032A CN 109299032 A CN109299032 A CN 109299032A CN 201811250879 A CN201811250879 A CN 201811250879A CN 109299032 A CN109299032 A CN 109299032A
Authority
CN
China
Prior art keywords
data
analysis
requirement definition
analyzed
data source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811250879.XA
Other languages
English (en)
Other versions
CN109299032B (zh
Inventor
周兴博
杨姗姗
杜吉翰
贺玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ireader Technology Co Ltd
Zhangyue Technology Co Ltd
Original Assignee
Zhangyue Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangyue Technology Co Ltd filed Critical Zhangyue Technology Co Ltd
Priority to CN201811250879.XA priority Critical patent/CN109299032B/zh
Publication of CN109299032A publication Critical patent/CN109299032A/zh
Application granted granted Critical
Publication of CN109299032B publication Critical patent/CN109299032B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/02Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators
    • G06F15/025Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators adapted to a specific application
    • G06F15/0291Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators adapted to a specific application for reading, e.g. e-books
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Stored Programmes (AREA)

Abstract

本发明实施例公开了一种数据分析方法、电子设备及计算机存储介质,用于开发人员对电子书阅读的用户原始日志进行数据分析的情况。其中方法包括:针对当前数据分析任务,获取用户选定的待分析数据源,以及对分析模型的需求定义,其中,所述分析模型为预先封装并用于对不同格式的数据源进行数据解析,所述需求定义用于指定从数据源中预提取的字段及数据类型;利用所述分析模型从待分析数据源中提取符合需求定义的数据对象;利用mapreduce对所述数据对象进行实例化处理,得到分析结果数据。本发明实施例解决了现有技术中针对原始日志分析的人工成本高的问题,通过对分析模型的封装,实现了开发人员与原始日志的隔离,从而节约了人力成本,提高数据分析效率。

Description

数据分析方法、电子设备及计算机存储介质
技术领域
本发明涉及计算机技术领域,具体涉及一种数据分析方法、电子设备及计算机存储介质。
背景技术
目前,随着手机等移动终端的普及以及电子书阅读器的发展,电子书越来越受阅读用户的青睐。基于电子阅读的便捷性,用户可以随时随地翻阅自己感兴趣的书籍,电子阅读用户的数量也呈指数地增长。而分析用户的使用习惯以及不同书籍的阅读情况等数据,有利于电子阅读供应商及时根据用户需求调整产品策略,从而更好地服务用户,增加用户粘性,提高用户体验。
但是在现有技术中,随着电子阅读相关产品版本的不断迭代,由电子书阅读而产生的原始日志千奇百怪,针对这些不同格式或形式的原始日志,无形中给分析师造成了很大的困扰,他们需要理解很多种不同的日志才能顺利完成数据分析任务。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据分析方法、电子设备及计算机存储介质。
根据本发明的一个方面,提供了一种数据分析方法,所述方法包括:针对当前数据分析任务,获取用户选定的待分析数据源,以及对分析模型的需求定义,其中,所述分析模型为预先封装并用于对不同格式的数据源进行数据解析,所述需求定义用于指定从数据源中预提取的字段及数据类型;利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象;利用mapreduce对所述数据对象进行实例化处理,得到分析结果数据。
根据本发明的另一方面,提供一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:针对当前数据分析任务,获取用户选定的待分析数据源,以及对分析模型的需求定义,其中,所述分析模型为预先封装并用于对不同格式的数据源进行数据解析,所述需求定义用于指定从数据源中预提取的字段及数据类型;利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象;利用mapreduce对所述数据对象进行实例化处理,得到分析结果数据。
根据本发明的又一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:针对当前数据分析任务,获取用户选定的待分析数据源,以及对分析模型的需求定义,其中,所述分析模型为预先封装并用于对不同格式的数据源进行数据解析,所述需求定义用于指定从数据源中预提取的字段及数据类型;利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象;利用mapreduce对所述数据对象进行实例化处理,得到分析结果数据。
根据本发明的数据分析方法、电子设备及计算机存储介质,通过对分析模型的封装,实现了开发人员与原始日志的隔离,使得开发人员在执行数据分析任务时,不需要直接面对不同格式或形式的原始日志,只需对分析模型进行需求定义,即可利用分析模型从原始日志中提取出想要分析的字段及其数据类型以用于后续的数据分析,从而节约了人力成本,提高了数据分析效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种数据分析方法的流程图;
图2示出了本发明实施例提供的另一种数据分析方法的流程图;
图3示出了本发明实施例提供的又一种数据分析方法的流程图;
图4示出了本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
针对电子阅读产品或客户端,大量的用户每天都产生无以计数的用户日志,开发人员通常利用mapreduce来执行对这些用户日志的数据分析任务。其中,mapreduce是面向大数据并行处理的计算模型、框架和平台。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
虽然mapreduce功能强大,但是也需要开发人员在很好地了解原始日志的前提下才能准确进行数据分析,而且需要自己完成原始日志的解析。而原始日志的形式多种多样,那么对于开发人员而言,并且尤其是缺乏经验的开发人员,其学习和了解日志的门槛很高,从而给数据分析工作带来阻碍。
本发明实施例的技术方案,基于mapreduce构建了一套数据分析框架,在该数据分析框架中,采用封装的思想,把原有的分析过程抽象成几个不同的结构化层次,对数据分析模型进行封装,以隔离原始日志;对mapreduce模型进行封装,统一标准和格式,降低后期的维护成本,同时增加对集群任务编排的管理功能,以提高运行效率;最后对数据的可视化进行封装,建立基于脚本注册信息的索引,以便于其他开发人员复用已经完成的数据分析脚本,节约了人力成本,提高了数据分析效率。
具体的,图1示出了本发明实施例提供的一种数据分析方法的流程图,用于开发人员对电子书阅读的用户原始日志进行数据分析的情况,例如,分析某本书在特定时间段卖了多少、被多少用户下载、产生了多少付费以及平均阅读时长是多少等。如图1所示,该方法包括以下步骤:
步骤S101、针对当前数据分析任务,获取用户选定的待分析数据源,以及对分析模型的需求定义,其中,所述分析模型为预先封装并用于对不同格式的数据源进行数据解析,所述需求定义用于指定从数据源中预提取的字段及数据类型。
面对大量的原始日志和多种多样的数据分析需求,开发人员每天都会提交很多数据分析任务,有些任务是例行的,有些任务是临时的。所述当前数据分析任务可以是其中的任意一次数据分析任务。
针对当前数据分析任务,开发人员需要在配置阶段选定待分析数据源,即针对哪一个或者哪几个原始日志进行数据分析。此外,还需要对分析模型进行需求定义。其中,所述分析模型为预先封装并用于对不同格式的数据源进行数据解析,所述需求定义用于指定从数据源中预提取的字段及数据类型。例如,通过需求定义,可以指定获取string类型的合法用户ID,或者获取字符串类型的精装书籍ID,或者获取浮点类型的付费金额等。也即,通过需求定义来定义开发人员针对当前数据分析任务想从待分析数据源中提取哪些字段及类型。
步骤S102、利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象。
所述分析模型根据所述需求定义来具体执行从待分析数据源中提取这些字段的操作。具体实现时,可以预先对分析模型进行编程与封装实现,例如预先定义好用于获取字段及类型的Field,这些Field都属于Log类的实例对象的属性及方法,在需求定义阶段通过对象调用即可。从而使得开发人员无需直接面对大量的原始日志,而是直接面对封装好的分析模型,因此可以节约大量的人力成本。
通常,电子书阅读会产生不同的日志源,例如包括用户行为日志和书籍基础信息日志等,不同的日志源其日志格式也不尽相同。分析模型的作用就是通过解析把不同格式的日志映射成字典,再把字典封装成数据对象,该数据对象包括键值对形式的数据。在映射过程中具体可以包括三个级别,对应不同层次的分析需求:
1)利用分析模型,从待分析数据源中按需求定义指定的关键词提取数据对象。
日志长度通常很长,而需要用到的数据有可能只是其中的一部分,第一个级别即从日志中提取出所需的关键词。
2)利用分析模型,按需求定义对待分析数据源中的数据进行转化,经转化提取出符合需求定义的数据对象。
日志中可能会存在不同的资源采用相同的标识的情形,例如resourceID可以用于表示用户某个行为针对的是一本书,也可以用于表示针对的是一个广告,因此根据不同的数据分析需求,需要分析模型从原始日志中通过解析分析出这些资源,将数据转化为符合需求定义的数据对象,并把原始的混乱的日志转化、映射为更加清晰的结构化数据。具体实现时,可以通过预先封装的手段实现这种转化与映射关系,以实现所述分析模型。
3)利用分析模型对待分析数据源进行全文解析,提取出符合需求定义的数据对象。
有的数据分析任务需要还原整个日志,即不作任何处理,直接对日志全文进行解析。
通过以上不同级别的日志解析,能够覆盖大部分的数据分析需求,通过需求定义和分析模型完成对原始日志的数据解析,提取出符合需求定义的数据对象。
步骤S103、利用mapreduce对所述数据对象进行实例化处理,得到分析结果数据。
利用mapreduce,开发人员通过map和reduce两个阶段的实现,对数据对象实现分布式计算和实例化处理,将数据对象的键值对映射成真实数据的键值对,并通过数学运算得到最终的分析结果数据。
本实施例的技术方案通过预先封装分析模型,在获取用户选定的待分析数据源和对该分析模型的需求定义后,利用所述分析模型从待分析数据源中提取符合需求定义的数据对象,最后利用mapreduce对数据对象进行实例化处理,得到分析结果数据,从而对开发人员隔离原始日志,不需要开发人员理解原始日志,也不需要直接面对原始日志进行处理,从而解决了现有技术中因原始日志的复杂性对开发人员造成的门槛高以及人工成本高的问题,实现了降低人工成本,提高数据分析效率的技术效果。
图2示出了本发明实施例提供的另一种数据分析方法的流程图,作为上述实施例技术方案的细化与扩展。如图2所示,该方法包括:
步骤S201、针对当前数据分析任务,获取用户选定的待分析数据源,以及对分析模型的需求定义,其中,所述分析模型为预先封装并用于对不同格式的数据源进行数据解析,所述需求定义用于指定从数据源中预提取的字段及数据类型。
步骤S202、利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象。
步骤S203、利用预先封装的执行模型对所述数据对象进行实例化处理,得到分析结果数据;其中,所述执行模型至少包括map函数、reduce函数和hook函数;所述map函数用于对所述数据对象进行数据关系映射,得到实例化数据;所述reduce函数用于对所述实例化数据进行归约处理;所述hook函数用于获取并记录所述map函数和reduce函数的执行时间信息。
所述执行模型即为将mapreduce原生的执行框架预先通过封装而构成的模型,封装过程中可以根据需要增加一些特性,例如通过所述hook函数解决数据分析任务的编排问题。
具体的,所述执行模型至少包括map函数、reduce函数和hook函数。其中,map函数和reduce函数为mapreduce原生的执行框架中所包含的内容,此处不做赘述。而hook函数为本发明实施例的数据分析框架中,在执行层面针对所述执行模型增加的特性和功能,即hook函数用于获取并记录所述map函数和reduce函数的执行时间信息。例如,在map之前、map与reduce之间以及reduce之后等几个关键节点增加hook,以获取各函数的执行时间信息。
众做周知,数据分析的任务是非常庞大的,每天会有很多位开发人员不时地提交各种各样的分析任务,如果这些分析任务的提交及相应的执行时间不均衡,就会给系统带来很大的压力,从而降低系统资源利用率。而本发明实施例的技术方案中,基于mapreduce提供一阵套数据分析框架,对执行层进行封装形成执行模型,并在关键节点增加hook,通过获取到的执行时间信息来分析系统资源的利用情况,为后续实现数据分析人物的编排提供依据。
因此,相应的,所述方法还包括:根据所述执行时间信息分析系统资源占用情况,并依据所述系统资源占用情况分配数据分析任务。
例如,开发人员在何时提交了一个数据分析任务,map函数和reduce函数在何时执行、何时结束,从而根据这些时间得到分析任务执行时间曲线,从曲线中即可分析出系统资源的占用是否均衡。若不均衡,则可以自动对新的数据分析任务进行时间上的编排,统一对任务进行管理,从而提高系统资源利用率。而开发人员也无需手动指定任务的执行时间,由框架自动完成任务的编排即可,进一步节约了人力成本。
此外,还需要说明的是,由于mapreduce原生的执行框架具有很好的灵活性,因此不同的开发人员编写的分析脚本通常是不一致的,这就导致后期对这些分析脚本的维护成本很高。而本发明实施例的技术方案对mapreduce进行了封装,对开发人员统一标准,这样,不仅对开发人员而言降低了其开发成本,同时也降低了后期的维护成本。
本实施例的技术方案通过对执行层进行封装,形成执行模型,并在模型中增加hook函数,以获取map函数和reduce函数的执行时间信息,从而依据执行时间信息分析系统资源占用情况,并据此实现数据分析任务的编排,从而提高系统资源利用率。此外,在mapreduce基础上通过封装,还降低了人力开发成本和后期的维护成本。
图3示出了本发明实施例提供的又一种数据分析方法的流程图,作为上述实施例技术方案的细化与扩展。如图3所示,该方法包括:
步骤S301、针对当前数据分析任务,获取用户选定的待分析数据源,以及对分析模型的需求定义,其中,所述分析模型为预先封装并用于对不同格式的数据源进行数据解析,所述需求定义用于指定从数据源中预提取的字段及数据类型。
步骤S302、利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象。
步骤S303、利用mapreduce对所述数据对象进行实例化处理,得到分析结果数据。
步骤S304、按照用户配置将所述分析结果数据进行可视化展示。
用户配置可以在提交数据分析任务之前或之后进行,用于对可视化展示的具体内容进行配置,例如展示的数据表格或图形样式等。
步骤S305、获取用户基于当前数据分析任务填写的注册信息,其中,所述注册信息用于描述数据分析任务相关的属性。
步骤S306、对不同用户填写的多个注册信息建立任务索引,其中,所述任务索引用于用户对历史数据分析任务进行检索,以便复用历史数据分析任务。
具体的,开发人员利用本发明实施例的数据分析框架完成数据分析任务的开发后,最终形成的分析脚本会以插件形式打包存储。开发人员还需要对当前数据分析任务填写注册信息,该注册信息用于描述数据分析人物相关的属性,例如提交人、分析对象、分析的任务点等。此外,还可以通过标签的形式为插件打上属性标签。数据分析框架对不同用户填写的多个注册信息建立任务索引,那么基于此,其他开发人员便可以对已存储的历史数据分析任务进行检索,查看是否已经有人之前做过相同或相似的分析工作。如果检索到相关插件,那么便可以复用该插件对应的历史数据分析任务,或者继承该插件通过更新以生成新的分析任务,而开发人员无需从头重新完成任务开发,从而节约了人力成本。
本实施例的技术方案通过在数据分析框架的可视化层实现分析结果数据的可视化展示,同时,对分析脚本以插件形式进行存储,并依据开发人员填写的分析任务注册信息,为不同开发人员提交的多个数据分析任务建立索引,以为开发人员实现历史数据分析任务的复用,从而进一步提高人力开发成本和数据分析效率。
图4示出了本发明实施例提供的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图4所示,该服务器可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器402,用于执行程序410,具体可以执行上述笔记生成方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。服务器包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行以下操作:
针对当前数据分析任务,获取用户选定的待分析数据源,以及对分析模型的需求定义,其中,所述分析模型为预先封装并用于对不同格式的数据源进行数据解析,所述需求定义用于指定从数据源中预提取的字段及数据类型;
利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象;
利用mapreduce对所述数据对象进行实例化处理,得到分析结果数据。
在一种可选的方式中,程序410具体可以进一步用于使得处理器402执行以下操作:
利用所述分析模型,从所述待分析数据源中按所述需求定义指定的关键词提取数据对象。
在一种可选的方式中,程序410具体可以进一步用于使得处理器402执行以下操作:
利用所述分析模型,按所述需求定义对所述待分析数据源中的数据进行转化,经转化提取出符合所述需求定义的数据对象。
在一种可选的方式中,程序410具体可以进一步用于使得处理器402执行以下操作:
利用所述分析模型对所述待分析数据源进行全文解析,提取出符合所述需求定义的数据对象。
在一种可选的方式中,所述数据对象包括键值对形式的数据。
在一种可选的方式中,程序410具体可以进一步用于使得处理器402执行以下操作:
利用预先封装的执行模型对所述数据对象进行实例化处理,其中,所述执行模型至少包括map函数、reduce函数和hook函数;
其中,所述map函数用于对所述数据对象进行数据关系映射,得到实例化数据;所述reduce函数用于对所述实例化数据进行归约处理;所述hook函数用于获取并记录所述map函数和reduce函数的执行时间信息。
在一种可选的方式中,程序410具体可以进一步用于使得处理器402执行以下操作:
根据所述执行时间信息分析系统资源占用情况,并依据所述系统资源占用情况分配数据分析任务。
在一种可选的方式中,程序410具体可以进一步用于使得处理器402执行以下操作:
按照用户配置将所述分析结果数据进行可视化展示。
在一种可选的方式中,程序410具体可以进一步用于使得处理器402执行以下操作:
获取用户基于当前数据分析任务填写的注册信息,其中,所述注册信息用于描述数据分析任务相关的属性;
对不同用户填写的多个注册信息建立任务索引,其中,所述任务索引用于用户对历史数据分析任务进行检索,以便复用历史数据分析任务。
在一种可选的方式中,所述数据分析任务的分析脚本以插件形式打包存储。
进一步的,本发明还公开了以下内容:
a1、一种数据分析方法,所述方法包括:
针对当前数据分析任务,获取用户选定的待分析数据源,以及对分析模型的需求定义,其中,所述分析模型为预先封装并用于对不同格式的数据源进行数据解析,所述需求定义用于指定从数据源中预提取的字段及数据类型;
利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象;
利用mapreduce对所述数据对象进行实例化处理,得到分析结果数据。
a2、根据a1所述的方法,其中,所述利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象,包括:
利用所述分析模型,从所述待分析数据源中按所述需求定义指定的关键词提取数据对象。
a3、根据a1所述的方法,其中,所述利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象,包括:
利用所述分析模型,按所述需求定义对所述待分析数据源中的数据进行转化,经转化提取出符合所述需求定义的数据对象。
a4、根据a1所述的方法,其中,所述利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象,包括:
利用所述分析模型对所述待分析数据源进行全文解析,提取出符合所述需求定义的数据对象。
a5、根据a1-a4中任一所述的方法,其中,所述数据对象包括键值对形式的数据。
a6、根据a1所述的方法,其中,所述利用mapreduce对所述数据对象进行实例化处理,包括:
利用预先封装的执行模型对所述数据对象进行实例化处理,其中,所述执行模型至少包括map函数、reduce函数和hook函数;
其中,所述map函数用于对所述数据对象进行数据关系映射,得到实例化数据;所述reduce函数用于对所述实例化数据进行归约处理;所述hook函数用于获取并记录所述map函数和reduce函数的执行时间信息。
a7、根据a6所述的方法,其中,所述方法还包括:
根据所述执行时间信息分析系统资源占用情况,并依据所述系统资源占用情况分配数据分析任务。
a8、根据a1所述的方法,其中,得到分析结果数据之后,所述方法还包括:
按照用户配置将所述分析结果数据进行可视化展示。
a9、根据a8所述的方法,其中,可视化展示之后,所述方法还包括:
获取用户基于当前数据分析任务填写的注册信息,其中,所述注册信息用于描述数据分析任务相关的属性;
对不同用户填写的多个注册信息建立任务索引,其中,所述任务索引用于用户对历史数据分析任务进行检索,以便复用历史数据分析任务。
a10、根据a9所述的方法,其中,所述数据分析任务的分析脚本以插件形式打包存储。
b11、一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
针对当前数据分析任务,获取用户选定的待分析数据源,以及对分析模型的需求定义,其中,所述分析模型为预先封装并用于对不同格式的数据源进行数据解析,所述需求定义用于指定从数据源中预提取的字段及数据类型;
利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象;
利用mapreduce对所述数据对象进行实例化处理,得到分析结果数据。
b12、根据b11所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:
利用所述分析模型,从所述待分析数据源中按所述需求定义指定的关键词提取数据对象。
b13、根据b11所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:
利用所述分析模型,按所述需求定义对所述待分析数据源中的数据进行转化,经转化提取出符合所述需求定义的数据对象。
b14、根据b11所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:
利用所述分析模型对所述待分析数据源进行全文解析,提取出符合所述需求定义的数据对象。
b15、根据b11-b14中任一所述的电子设备,其中,所述数据对象包括键值对形式的数据。
b16、根据b11所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:
利用预先封装的执行模型对所述数据对象进行实例化处理,其中,所述执行模型至少包括map函数、reduce函数和hook函数;
其中,所述map函数用于对所述数据对象进行数据关系映射,得到实例化数据;所述reduce函数用于对所述实例化数据进行归约处理;所述hook函数用于获取并记录所述map函数和reduce函数的执行时间信息。
b17、根据b16所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:
根据所述执行时间信息分析系统资源占用情况,并依据所述系统资源占用情况分配数据分析任务。
b18、根据b11所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:
按照用户配置将所述分析结果数据进行可视化展示。
b19、根据b18所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:
获取用户基于当前数据分析任务填写的注册信息,其中,所述注册信息用于描述数据分析任务相关的属性;
对不同用户填写的多个注册信息建立任务索引,其中,所述任务索引用于用户对历史数据分析任务进行检索,以便复用历史数据分析任务。
b20、根据b19所述的电子设备,其中,所述数据分析任务的分析脚本以插件形式打包存储。
c21、一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
针对当前数据分析任务,获取用户选定的待分析数据源,以及对分析模型的需求定义,其中,所述分析模型为预先封装并用于对不同格式的数据源进行数据解析,所述需求定义用于指定从数据源中预提取的字段及数据类型;
利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象;
利用mapreduce对所述数据对象进行实例化处理,得到分析结果数据。
c22、根据c21所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
利用所述分析模型,从所述待分析数据源中按所述需求定义指定的关键词提取数据对象。
c23、根据c21所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
利用所述分析模型,按所述需求定义对所述待分析数据源中的数据进行转化,经转化提取出符合所述需求定义的数据对象。
c24、根据c21所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
利用所述分析模型对所述待分析数据源进行全文解析,提取出符合所述需求定义的数据对象。
c25、根据c21-c24中任一所述的计算机存储介质,其中,所述数据对象包括键值对形式的数据。
c26、根据c21所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
利用预先封装的执行模型对所述数据对象进行实例化处理,其中,所述执行模型至少包括map函数、reduce函数和hook函数;
其中,所述map函数用于对所述数据对象进行数据关系映射,得到实例化数据;所述reduce函数用于对所述实例化数据进行归约处理;所述hook函数用于获取并记录所述map函数和reduce函数的执行时间信息。
c27、根据c26所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
根据所述执行时间信息分析系统资源占用情况,并依据所述系统资源占用情况分配数据分析任务。
c28、根据c21所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
按照用户配置将所述分析结果数据进行可视化展示。
c29、根据c28所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
获取用户基于当前数据分析任务填写的注册信息,其中,所述注册信息用于描述数据分析任务相关的属性;
对不同用户填写的多个注册信息建立任务索引,其中,所述任务索引用于用户对历史数据分析任务进行检索,以便复用历史数据分析任务。
c30、根据c29所述的计算机存储介质,其中,所述数据分析任务的分析脚本以插件形式打包存储。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种数据分析方法,所述方法包括:
针对当前数据分析任务,获取用户选定的待分析数据源,以及对分析模型的需求定义,其中,所述分析模型为预先封装并用于对不同格式的数据源进行数据解析,所述需求定义用于指定从数据源中预提取的字段及数据类型;
利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象;
利用mapreduce对所述数据对象进行实例化处理,得到分析结果数据。
2.根据权利要求1所述的方法,其中,所述利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象,包括:
利用所述分析模型,从所述待分析数据源中按所述需求定义指定的关键词提取数据对象。
3.根据权利要求1所述的方法,其中,所述利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象,包括:
利用所述分析模型,按所述需求定义对所述待分析数据源中的数据进行转化,经转化提取出符合所述需求定义的数据对象。
4.根据权利要求1所述的方法,其中,所述利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象,包括:
利用所述分析模型对所述待分析数据源进行全文解析,提取出符合所述需求定义的数据对象。
5.根据权利要求1-4中任一所述的方法,其中,所述数据对象包括键值对形式的数据。
6.根据权利要求1所述的方法,其中,所述利用mapreduce对所述数据对象进行实例化处理,包括:
利用预先封装的执行模型对所述数据对象进行实例化处理,其中,所述执行模型至少包括map函数、reduce函数和hook函数;
其中,所述map函数用于对所述数据对象进行数据关系映射,得到实例化数据;所述reduce函数用于对所述实例化数据进行归约处理;所述hook函数用于获取并记录所述map函数和reduce函数的执行时间信息。
7.根据权利要求6所述的方法,其中,所述方法还包括:
根据所述执行时间信息分析系统资源占用情况,并依据所述系统资源占用情况分配数据分析任务。
8.根据权利要求1所述的方法,其中,得到分析结果数据之后,所述方法还包括:
按照用户配置将所述分析结果数据进行可视化展示。
9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
针对当前数据分析任务,获取用户选定的待分析数据源,以及对分析模型的需求定义,其中,所述分析模型为预先封装并用于对不同格式的数据源进行数据解析,所述需求定义用于指定从数据源中预提取的字段及数据类型;
利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象;
利用mapreduce对所述数据对象进行实例化处理,得到分析结果数据。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
针对当前数据分析任务,获取用户选定的待分析数据源,以及对分析模型的需求定义,其中,所述分析模型为预先封装并用于对不同格式的数据源进行数据解析,所述需求定义用于指定从数据源中预提取的字段及数据类型;
利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象;
利用mapreduce对所述数据对象进行实例化处理,得到分析结果数据。
CN201811250879.XA 2018-10-25 2018-10-25 数据分析方法、电子设备及计算机存储介质 Active CN109299032B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811250879.XA CN109299032B (zh) 2018-10-25 2018-10-25 数据分析方法、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811250879.XA CN109299032B (zh) 2018-10-25 2018-10-25 数据分析方法、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN109299032A true CN109299032A (zh) 2019-02-01
CN109299032B CN109299032B (zh) 2019-10-01

Family

ID=65157878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811250879.XA Active CN109299032B (zh) 2018-10-25 2018-10-25 数据分析方法、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN109299032B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704494A (zh) * 2019-08-13 2020-01-17 珠海格力电器股份有限公司 一种数据分析方法、装置、终端及存储介质
CN111352991A (zh) * 2020-02-27 2020-06-30 华南师范大学 一种数字阅读行为数据可视化分析方法及系统
CN111857789A (zh) * 2019-04-29 2020-10-30 天津五八到家科技有限公司 数据处理系统
CN113130021A (zh) * 2019-12-31 2021-07-16 贵州医渡云技术有限公司 一种临床数据的分析方法、装置、可读介质及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201750A (zh) * 2006-12-13 2008-06-18 西安大唐电信有限公司 利用语法词法分析工具为编解码提供数据的方法
US9195674B1 (en) * 2014-09-24 2015-11-24 Logzilla Corporation Systems and methods for large-scale system log analysis, deduplication and management
CN105808778A (zh) * 2016-03-30 2016-07-27 中国银行股份有限公司 一种海量数据抽取、转换、加载方法及装置
CN106557470A (zh) * 2015-09-24 2017-04-05 腾讯科技(北京)有限公司 数据提取方法和装置
CN107145558A (zh) * 2017-05-02 2017-09-08 山东浪潮通软信息科技有限公司 一种基于数据集的自助式可视化数据分析方法
CN107967359A (zh) * 2017-12-21 2018-04-27 百度在线网络技术(北京)有限公司 数据可视分析方法、系统、终端和计算机可读存储介质
CN108038239A (zh) * 2017-12-27 2018-05-15 中科鼎富(北京)科技发展有限公司 一种异构数据源规范化处理方法、装置及服务器
CN108235069A (zh) * 2016-12-22 2018-06-29 北京国双科技有限公司 网络电视日志的处理方法及装置
CN108268529A (zh) * 2016-12-30 2018-07-10 亿阳信通股份有限公司 一种基于业务抽象和多引擎调度的数据汇总方法和系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201750A (zh) * 2006-12-13 2008-06-18 西安大唐电信有限公司 利用语法词法分析工具为编解码提供数据的方法
US9195674B1 (en) * 2014-09-24 2015-11-24 Logzilla Corporation Systems and methods for large-scale system log analysis, deduplication and management
CN106557470A (zh) * 2015-09-24 2017-04-05 腾讯科技(北京)有限公司 数据提取方法和装置
CN105808778A (zh) * 2016-03-30 2016-07-27 中国银行股份有限公司 一种海量数据抽取、转换、加载方法及装置
CN108235069A (zh) * 2016-12-22 2018-06-29 北京国双科技有限公司 网络电视日志的处理方法及装置
CN108268529A (zh) * 2016-12-30 2018-07-10 亿阳信通股份有限公司 一种基于业务抽象和多引擎调度的数据汇总方法和系统
CN107145558A (zh) * 2017-05-02 2017-09-08 山东浪潮通软信息科技有限公司 一种基于数据集的自助式可视化数据分析方法
CN107967359A (zh) * 2017-12-21 2018-04-27 百度在线网络技术(北京)有限公司 数据可视分析方法、系统、终端和计算机可读存储介质
CN108038239A (zh) * 2017-12-27 2018-05-15 中科鼎富(北京)科技发展有限公司 一种异构数据源规范化处理方法、装置及服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TOMWHITE: "《Hadoop权威指南 第3版》", 31 January 2015 *
张鑫: "《Hadoop源代码分析》", 31 August 2014 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111857789A (zh) * 2019-04-29 2020-10-30 天津五八到家科技有限公司 数据处理系统
CN110704494A (zh) * 2019-08-13 2020-01-17 珠海格力电器股份有限公司 一种数据分析方法、装置、终端及存储介质
CN113130021A (zh) * 2019-12-31 2021-07-16 贵州医渡云技术有限公司 一种临床数据的分析方法、装置、可读介质及电子设备
CN113130021B (zh) * 2019-12-31 2023-04-28 贵州医渡云技术有限公司 一种临床数据的分析方法、装置、可读介质及电子设备
CN111352991A (zh) * 2020-02-27 2020-06-30 华南师范大学 一种数字阅读行为数据可视化分析方法及系统

Also Published As

Publication number Publication date
CN109299032B (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
CN109299032B (zh) 数据分析方法、电子设备及计算机存储介质
CN110825362B (zh) 低代码应用软件开发系统及方法
CN106067080B (zh) 提供可配置工作流能力
CN109976761A (zh) 软件开发工具包的生成方法、装置及终端设备
Deelman et al. Workflows and e-Science: An overview of workflow system features and capabilities
US20180196643A1 (en) Generating web api specification from online documentation
CN110244977A (zh) 定制化软件生成方法、系统、电子设备及存储介质
CN107516090A (zh) 一体化人脸识别方法和系统
KR20150143473A (ko) 재계산 사용자 인터페이스 내의 신호 캡처 컨트롤
US11861469B2 (en) Code generation for Auto-AI
US20210383205A1 (en) Taxonomy Construction via Graph-Based Cross-domain Knowledge Transfer
CN112860260B (zh) 一种在高校场景下基于web的跨平台应用构建工具及方法
CN108171528A (zh) 一种归因方法及归因系统
AU2021286505B2 (en) Automating an adoption of cloud services
CN112182359A (zh) 推荐模型的特征管理方法及系统
CN110489118A (zh) 网页生成方法、装置、系统和计算机可读存储介质
CN108305053A (zh) 审批流程的实现方法、装置、电子设备及存储介质
CN113822458A (zh) 预测方法、训练方法、装置、电子设备和可读存储介质
US11275567B1 (en) Making communication interfaces pluggable by using mechanisms comprising of exchange/broker for communication interfaces
JP2021507358A (ja) ハイブリッド・クラウドの構成のためのオーケストレーション・エンジン・ブループリント・アスペクトのためのシステム、コンピュータ実行可能な方法、コンピュータ・プログラムおよび記録媒体
US8555240B2 (en) Describing formal end-user requirements in information processing systems using a faceted, tag-based model
Fonseca i Casas Transforming classic discrete event system specification models to specification and description language
CN115392443B (zh) 类脑计算机操作系统的脉冲神经网络应用表示方法及装置
CN111191180A (zh) 发票领域的微服务系统的构建方法、装置及存储介质
CN116450723A (zh) 数据提取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant