CN107153679A - 一种针对半结构化大数据的提取统计方法及系统 - Google Patents

一种针对半结构化大数据的提取统计方法及系统 Download PDF

Info

Publication number
CN107153679A
CN107153679A CN201710253204.XA CN201710253204A CN107153679A CN 107153679 A CN107153679 A CN 107153679A CN 201710253204 A CN201710253204 A CN 201710253204A CN 107153679 A CN107153679 A CN 107153679A
Authority
CN
China
Prior art keywords
action statement
parsing
modular converter
semi
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710253204.XA
Other languages
English (en)
Other versions
CN107153679B (zh
Inventor
方辉盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN201710253204.XA priority Critical patent/CN107153679B/zh
Publication of CN107153679A publication Critical patent/CN107153679A/zh
Application granted granted Critical
Publication of CN107153679B publication Critical patent/CN107153679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种针对半结构化大数据的提取统计方法及系统,属于大数据提取统计领域,解决了对半结构化大数据提取统计时过程比较繁琐和容易造成数据冗余的问题。本发明通过提供客户端让用户输入针对半结构化大数据进行提取和统计的操作语句,将操作语句同步到解析转换模块,解析转换模块对操作语句进行解析并将解析结果转换成配置规则;客户端调用应用引擎模块根据配置规则生成作业任务,将作业任务提交到底层框架;底层框架将作业任务拆分成多个子任务分配到集群上执行,并将执行后获取的结果数据返回给客户端展示给用户。用于提高对半结构化大数据的提取统计的可维护性和自动化可视化水平,减少数据冗余,简便可靠。

Description

一种针对半结构化大数据的提取统计方法及系统
技术领域
本发明涉及大数据提取统计领域,尤其涉及一种针对半结构化大数据的提取统计方法及系统。
背景技术
常用的大数据分析组件,比如HIVE(一种数据仓库工具),对模型的要求是需要统计的字段必须是单独列。但现实需求中,数据在业务方面也是存在特定要求的,需要是半结构化的数据模型模式。既要满足业务需要又要满足统计需求,在同一个模型中并存就存在很大的冲突。因此一般分析组件是把业务数据单独加载到特定的数据仓库中去处理。这样实际上就导致了数据冗余。在同一个模型(半结构化)的基础下,也可以开发独立的提取统计工具进行处理。但整个过程繁琐,需要经过配置(不同业务场景)、执行和查看等流程,不能像sql查询那样执行命令后自动化处理,同时在执行过程和运行结果的可视化方面也存在缺陷。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种针对半结构化大数据的提取统计方法及系统,目的在于针对半结构化的大数据操作提供一套完整工具,实现对半结构化大数据的提取统计命令操作和结果处理,可以使业务和分析场景使用统一模型,减少数据冗余,业务数据分析的运维和操作更简便可靠,提高可维护性和自动化可视化水平。
本发明解决上述技术问题的技术方案如下:
一种针对半结构化大数据的提取统计方法,包括以下步骤:
S1,客户端接收用户输入针对半结构化大数据进行提取和统计的操作语句,并将所述操作语句同步到解析转换模块进行处理;
S2,解析转换模块接收所述操作语句,对操作语句进行解析并将解析结果转换成配置规则;
S3,客户端调用应用引擎模块根据所述配置规则生成作业任务,将作业任务提交到底层框架进行处理;
S4,底层框架将作业任务拆分成多个子任务分配到集群上执行,并将执行后获取的结果数据返回给客户端进行展示。
本发明的有益效果是:借助客户端结合底层框架和集群,辅以处理流程,实现对半结构化大数据的提取统计命令操作和结果处理,从而提高可维护性和自动化可视化水平;针对半结构化的大数据操作提供一套完整方法,可以使业务和分析场景使用统一模型,减少数据冗余,业务数据分析的运维和操作更简便可靠。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步,所述S2还包括:所述解析转换模块对操作语句进行解析并将解析结果转换成配置规则后,向客户端发送操作语句转换完成的消息;
所述S3还包括:客户端接收所述S2中解析转换模块发送的操作语句转换完成的消息,在接收到所述转换完成的消息后调用应用引擎模块,根据所述配置规则生成作业任务。
采用上述进一步方案的有益效果是:通过消息模式使客户端简单方便的判断操作语句转换成配置规则是否已经完成,节约系统资源,使客户端能在准确的时机调用应用引擎模块。
进一步,所述方法还包括步骤S5,S5包括:根据用户的选择将本次获取的结果数据备份到集群中。
采用上述进一步方案的有益效果是:备份结果数据使历史统计结果可重用,避免重复获取,提高了运行效率。
进一步,所述S1还包括:客户端在将用户输入的操作语句同步到解析转换模块前,先判断操作语句是否执行过、执行后获取的结果数据是否进行过备份以及该结果数据是否为静态数据,若均为是,则直接使用上次执行操作语句后获取的结果数据的备份,若至少有一项为否,则将用户输入的操作语句同步到解析转换模块。
采用上述进一步方案的有益效果是:对于上次执行过的针对静态数据的操作语句,可以直接调用上次备份过的结果数据,避免重复获取,提高了获取和展示结果数据的速度。
进一步,所述S2还包括:解析转换模块在对操作语句进行解析并将解析结果转换成配置规则后,将该操作语句以及对应的配置规则进行备份,在下次接收到客户端同步过来的相同的操作语句时,不进行解析并直接使用备份中对应的配置规则。
采用上述进一步方案的有益效果是:对相同的操作语句,解析转换模块只进行一次解析,然后将解析后转换成的配置规则进行备份,下次接收到同样的操作语句只需要在备份中获取对应的配置规则,不要再次进行解析转换的过程,节约了占用的资源和运行时间,提高了整体效率。
一种针对半结构化大数据的提取统计系统,所述系统包括:
客户端模块,用于用于接收用户输入的针对半结构化大数据进行提取和统计的操作语句,并将所述操作语句同步到解析转换模块,在解析转换模块完成对操作语句的解析转换后调用应用引擎模块获取结果数据,在应用引擎模块获取结果数据完成后将获取的结果数据进行展示;
解析转换模块,用于接收所述操作语句,对操作语句进行解析并将解析结果转换成配置规则;
应用引擎模块,用于接收到客户端模块的调用后,根据解析转换模块产生的配置规则生成作业任务,将作业任务提交到底层框架模块进行处理并获取底层框架模块返回的结果数据,将获取到的结果数据返回给客户端模块;
底层框架模块,用于将应用引擎模块提交的作业任务拆分成多个子任务分配到集群上执行,并将执行获得的结果数据返回给应用引擎模块。
本发明的有益效果是:借助客户端模块、解析转换模块和应用引擎模块,结合底层框架和集群,辅以处理流程,实现对半结构化大数据的提取统计命令操作和结果处理,从而提高可维护性和自动化可视化水平;针对半结构化的大数据操作提供一套完整系统,可以使业务和分析场景使用统一模型,减少数据冗余,业务数据分析的运维和操作更简便可靠。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步,所述客户端模块还用于接收所述解析处理模块发送的操作语句转换完成的消息,在接收到所述转换完成的消息后调用所述应用引擎模块,所述应用引擎模块根据所述配置规则生成作业任务;
所述解析转换模块还用于在对操作语句进行解析并将解析结果转换成配置规则后,向客户端模块发送操作语句转换完成的消息。
采用上述进一步方案的有益效果是:通过消息模式使客户端模块简单方便的判断操作语句转换成配置规则是否已经完成,节约系统资源,使客户端模块能在准确的时机调用应用引擎模块。
进一步,所述客户端模块还用于根据用户的选择将本次获取的结果数据备份到集群中。
采用上述进一步方案的有益效果是:备份结果数据使历史统计结果可重用,避免重复获取,提高了系统的运行效率。
进一步,所述客户端模块在将用户输入的操作语句同步到解析转换模块前,先判断操作语句是否执行过、执行后获取的结果数据是否进行过备份以及该结果数据是否为静态数据,若均为是,则直接使用上次执行操作语句后获取的结果数据的备份,若至少有一项为否,则将用户输入的操作语句同步到解析转换模块。
采用上述进一步方案的有益效果是:对于上次执行过的针对静态数据的操作语句,可以直接调用上次备份过的结果数据,避免重复获取,提高了获取和展示结果数据的速度。
进一步,所述解析转换模块还用于所述解析转换模块还用于在对操作语句进行解析并将解析结果转换成配置规则后,将该操作语句以及对应的配置规则进行备份,在下次接收到客户端模块同步过来的相同的操作语句时,不进行解析并直接使用备份中对应的配置规则。
采用上述进一步方案的有益效果是:对相同的操作语句,解析转换模块只进行一次解析,然后将解析后转换成的配置规则进行备份,下次接收到同样的操作语句只需要在备份中获取对应的配置规则,不要再次进行解析转换的过程,节约了系统资源和运行时间,提高了系统效率。
附图说明
图1为本发明实施例1中一种针对半结构化大数据的提取统计方法的流程图;
图2为本发明实施例2中一种针对半结构化大数据的提取统计系统的框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1
如图1所示,一种针对半结构化大数据的提取统计方法,包括以下步骤:
S1,客户端接收用户输入针对半结构化大数据进行提取和统计的操作语句,并将所述操作语句同步到解析转换模块进行处理;
S2,解析转换模块接收所述操作语句,对操作语句进行解析并将解析结果转换成配置规则;
S3,客户端调用应用引擎模块根据所述配置规则生成作业任务,将作业任务提交到底层框架进行处理;
S4,底层框架将作业任务拆分成多个子任务分配到集群上执行,并将执行后获取的结果数据返回给客户端进行展示。
具体的,客户端负责用户交互,用户先登录客户端,客户端自动展示客户端的版本和支持的命令列表等信息。输入帮助命令,可以展示各类型语句(即操作语句,SQL执行语句)的用法。
整个方法基于HADOOP平台(HADOOP是一个由Apache基金会所开发的分布式系统基础架构),HADOOP平台做为源数据和结果数据的实际物理存储而存在,其中用来保存源数据和结果数据的是HDFS(即Hadoop分布式文件系统)和HBASE(一种基于HADOOP平台的非关系型数据库),HADOOP平台同时也提供分布式协调服务。应用引擎模块(包括查询引擎和统计引擎)负责根据解析转换后的配置规则生成作业,提交到YARN(Yet Another ResourceNegotiator,另一种资源协调者,即是一种资源管理和作业调度/监控的工具)上执行,产生结果数据。其中底层框架基于HADOOP平台中的MR2.0框架(MapReduce2.0,一种软件架构,用于大规模数据集的并行运算,字面含义为:映射与归纳),应用引擎模块是基于MR2.0框架的应用,应用引擎模块提交的作业任务是MapReduce作业,由底层框架中基于HADOOP平台的YARN进行管理,拆分成多个子任务在HADOOP集群中运行。
客户端获取的结果数据给用户时,如果结果数据量超过阀值,则只展示部分,并提供命令在解析转换模块查看。
本发明借助客户端结合底层框架和集群,辅以处理流程,实现对半结构化大数据的提取统计命令操作和结果处理,从而提高可维护性和自动化可视化水平;针对半结构化的大数据操作提供一套完整方法,可以使业务和分析场景使用统一模型,减少数据冗余,业务数据分析的运维和操作更简便可靠。
进一步,所述S2还包括:所述解析转换模块对操作语句进行解析并将解析结果转换成配置规则后,向客户端发送操作语句转换完成的消息;
所述S3还包括:客户端接收所述S2中解析转换模块发送的操作语句转换完成的消息,在接收到所述转换完成的消息后调用应用引擎模块,根据所述配置规则生成作业任务。
具体的,客户端在将用户输入的操作语句同步到解析转换模块后,等待并判断是否成功完成解析转换处理(即是否收到解析转换模块发送的操作语句转换完成的消息),成功完成解析转换处理后调用相应的应用引擎模块获取结果数据。
该改进中,通过消息模式使客户端简单方便的判断操作语句转换成配置规则是否已经完成,节约系统资源,使客户端能在准确的时机调用应用引擎模块。
进一步,还包括步骤S5,S5包括:根据用户的选择将本次获取的结果数据备份到集群中。
具体的,客户端在将获取的结果数据展示给用户时,提供界面供用户输入命令,让用户确认是否备份结果数据,并根据用户的选择完成本次操作。
该改进中,备份结果数据使历史统计结果可重用,避免重复获取,提高了运行效率。
进一步,所述S1还包括:客户端在将用户输入的操作语句同步到解析转换模块前,先判断操作语句是否执行过、执行后获取的结果数据是否进行过备份以及该结果数据是否为静态数据,若均为是,则直接使用上次执行操作语句后获取的结果数据的备份,若至少有一项为否,则将用户输入的操作语句同步到解析转换模块。
具体的,客户端在将用户输入的操作语句同步到解析转换模块前,判断发现操作语句以前执行过、用户对相应的结果数据进行过备份并且相应的结果数据是静态数据,则直接使用上次运行后备份的结果数据,避免重复。
该改进中,对于上次执行过的针对静态数据的操作语句,可以直接调用上次备份过的结果数据,避免重复获取,提高了获取和展示结果数据的速度。
进一步,所述S2还包括:解析转换模块在对操作语句进行解析并将解析结果转换成配置规则后,将该操作语句以及对应的配置规则进行备份,在下次接收到客户端同步过来的相同的操作语句时,不进行解析并直接使用备份中对应的配置规则。
该改进中,对相同的操作语句,解析转换模块只进行一次解析,然后将解析后转换成的配置规则进行备份,下次接收到同样的操作语句只需要在备份中获取对应的配置规则,不要再次进行解析转换的过程,节约了占用的资源和运行时间,提高了整体效率。
实施例2
如图2所示,一种针对半结构化大数据的提取统计系统,包括:
客户端模块,用于接收用户输入的针对半结构化大数据进行提取和统计的操作语句,并将所述操作语句同步到解析转换模块,在解析转换模块完成对操作语句的解析转换后调用应用引擎模块获取结果数据,在应用引擎模块获取结果数据完成后将获取的结果数据进行展示;
解析转换模块,用于接收所述操作语句,对操作语句进行解析并将解析结果转换成配置规则;
应用引擎模块,用于接收到客户端模块的调用后,根据解析转换模块产生的配置规则生成作业任务,将作业任务提交到底层框架模块进行处理并获取底层框架模块返回的结果数据,将获取到的结果数据返回给客户端模块;
底层框架模块,用于将应用引擎模块提交的作业任务拆分成多个子任务分配到集群上执行,并将执行获得的结果数据返回给应用引擎模块。
具体的,客户端模块负责用户交互,用户先登录客户端模块,客户端模块自动展示客户端的版本和支持的命令列表等信息。输入帮助命令,可以展示各类型语句(即操作语句,SQL执行语句)的用法。
整个系统运行在HADOOP平台上(HADOOP是一个由Apache基金会所开发的分布式系统基础架构),HADOOP平台做为源数据和结果数据的实际物理存储而存在,其中用来保存源数据和结果数据的是HDFS(即Hadoop分布式文件系统)和HBASE(一种基于HADOOP平台的非关系型数据库),HADOOP平台同时也提供分布式协调服务。应用引擎模块(包括查询引擎和统计引擎)负责根据解析转换后的配置规则生成作业,提交到YARN(Yet Another ResourceNegotiator,另一种资源协调者,即是一种资源管理和作业调度/监控的工具)上执行,产生结果数据。其中底层框架模块是基于HADOOP平台中的MR2.0框架(MapReduce2.0,一种软件架构,用于大规模数据集的并行运算,字面含义为:映射与归纳)的模块,应用引擎模块是基于MR2.0框架的应用,应用引擎模块提交的作业任务是MapReduce作业,由底层框架模块中基于HADOOP平台的YARN进行管理,拆分成多个子任务在HADOOP集群中运行。
客户端模块获取的结果数据给用户时,如果结果数据量超过阀值,则只展示部分,并提供命令在解析转换模块查看。
本发明借助客户端模块、解析转换模块和应用引擎模块,结合底层框架和集群,辅以处理流程,实现对半结构化大数据的提取统计命令操作和结果处理,从而提高可维护性和自动化可视化水平;针对半结构化的大数据操作提供一套完整系统,可以使业务和分析场景使用统一模型,减少数据冗余,业务数据分析的运维和操作更简便可靠。
进一步,所述客户端模块还用于接收所述解析处理模块发送的操作语句转换完成的消息,在接收到所述转换完成的消息后调用所述应用引擎模块,所述应用引擎模块根据所述配置规则生成作业任务;
所述解析转换模块还用于在对操作语句进行解析并将解析结果转换成配置规则后,向客户端模块发送操作语句转换完成的消息。
具体的,客户端模块在将用户输入的操作语句同步到解析转换模块后,等待并判断是否成功完成解析转换处理(即是否收到解析转换模块发送的操作语句转换完成的消息),成功完成解析转换处理后调用相应应用引擎获取结果数据。
该改进中,通过消息模式使客户端模块简单方便的判断操作语句转换成配置规则是否已经完成,节约系统资源,使客户端模块能在准确的时机调用应用引擎模块。
进一步,所述客户端模块还用于根据用户的选择将本次获取的结果数据备份到集群中。
具体的,客户端模块在将获取的结果数据展示给用户时,提供界面供用户输入命令,让用户确认是否备份结果数据,并根据用户的选择完成本次操作。
该改进中,备份结果数据使历史统计结果可重用,避免重复获取,提高了系统的运行效率。
进一步,所述客户端模块在将用户输入的操作语句同步到解析转换模块前,先判断操作语句是否执行过、执行后获取的结果数据是否进行过备份以及该结果数据是否为静态数据,若均为是,则直接使用上次执行操作语句后获取的结果数据的备份,若至少有一项为否,则将用户输入的操作语句同步到解析转换模块。
具体的,客户端模块在将用户输入的操作语句同步到解析转换模块前,判断发现操作语句以前执行过、用户对相应的结果数据进行过备份并且相应的结果数据是静态数据,则直接使用上次运行后备份的结果数据,避免重复。
该改进中,对于上次执行过的针对静态数据的操作语句,可以直接调用上次备份过的结果数据,避免重复获取,提高了获取和展示结果数据的速度。
进一步,所述解析转换模块还用于所述解析转换模块还用于在对操作语句进行解析并将解析结果转换成配置规则后,将该操作语句以及对应的配置规则进行备份,在下次接收到客户端模块同步过来的相同的操作语句时,不进行解析并直接使用备份中对应的配置规则。
该改进中,对相同的操作语句,解析转换模块只进行一次解析,然后将解析后转换成的配置规则进行备份,下次接收到同样的操作语句只需要在备份中获取对应的配置规则,不要再次进行解析转换的过程,节约了系统资源和运行时间,提高了系统效率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种针对半结构化大数据的提取统计方法,其特征在于,包括以下步骤:
S1,客户端接收用户输入针对半结构化大数据进行提取和统计的操作语句,并将所述操作语句同步到解析转换模块进行处理;
S2,解析转换模块接收所述操作语句,对操作语句进行解析并将解析结果转换成配置规则;
S3,客户端调用应用引擎模块根据所述配置规则生成作业任务,将作业任务提交到底层框架进行处理;
S4,底层框架将作业任务拆分成多个子任务分配到集群上执行,并将执行后获取的结果数据返回给客户端进行展示。
2.根据权利要求1所述针对半结构化大数据的提取统计方法,其特征在于,所述S2还包括:所述解析转换模块对操作语句进行解析并将解析结果转换成配置规则后,向客户端发送操作语句转换完成的消息;
所述S3还包括:客户端接收所述S2中解析转换模块发送的操作语句转换完成的消息,在接收到所述转换完成的消息后调用应用引擎模块,根据所述配置规则生成作业任务。
3.根据权利要求2所述针对半结构化大数据的提取统计方法,其特征在于,还包括步骤S5,S5包括:根据用户的选择将本次获取的结果数据备份到集群中。
4.根据权利要求3所述针对半结构化大数据的提取统计方法,其特征在于,所述S1还包括:客户端在将用户输入的操作语句同步到解析转换模块前,先判断操作语句是否执行过、执行后获取的结果数据是否进行过备份以及该结果数据是否为静态数据,若均为是,则直接使用上次执行操作语句后获取的结果数据的备份,若至少有一项为否,则将用户输入的操作语句同步到解析转换模块。
5.根据权利要求1至4任一项所述针对半结构化大数据的提取统计方法,其特征在于,所述S2还包括:解析转换模块在对操作语句进行解析并将解析结果转换成配置规则后,将该操作语句以及对应的配置规则进行备份,在下次接收到客户端同步过来的相同的操作语句时,不进行解析并直接使用备份中对应的配置规则。
6.一种针对半结构化大数据的提取统计系统,其特征在于,所述系统包括:
客户端模块,用于接收用户输入的针对半结构化大数据进行提取和统计的操作语句,并将所述操作语句同步到解析转换模块,在解析转换模块完成对操作语句的解析转换后调用应用引擎模块获取结果数据,在应用引擎模块获取结果数据完成后将获取的结果数据进行展示;
解析转换模块,用于接收所述操作语句,对操作语句进行解析并将解析结果转换成配置规则;
应用引擎模块,用于接收到客户端模块的调用后,根据解析转换模块产生的配置规则生成作业任务,将作业任务提交到底层框架模块进行处理并获取底层框架模块返回的结果数据,将获取到的结果数据返回给客户端模块;
底层框架模块,用于将应用引擎模块提交的作业任务拆分成多个子任务分配到集群上执行,并将执行获得的结果数据返回给应用引擎模块。
7.根据权利要求6所述针对半结构化大数据的提取统计系统,其特征在于,所述客户端模块还用于接收所述解析处理模块发送的操作语句转换完成的消息,在接收到所述转换完成的消息后调用所述应用引擎模块,所述应用引擎模块根据所述配置规则生成作业任务;
所述解析转换模块还用于在对操作语句进行解析并将解析结果转换成配置规则后,向客户端模块发送操作语句转换完成的消息。
8.根据权利要求7所述针对半结构化大数据的提取统计系统,其特征在于,所述客户端模块还用于根据用户的选择将本次获取的结果数据备份到集群中。
9.根据权利要求8所述针对半结构化大数据的提取统计系统,其特征在于,所述客户端模块在将用户输入的操作语句同步到解析转换模块前,先判断操作语句是否执行过、执行后获取的结果数据是否进行过备份以及该结果数据是否为静态数据,若均为是,则直接使用上次执行操作语句后获取的结果数据的备份,若至少有一项为否,则将用户输入的操作语句同步到解析转换模块。
10.根据权利要求6至9任一项所述针对半结构化大数据的提取统计系统,其特征在于,所述解析转换模块还用于所述解析转换模块还用于在对操作语句进行解析并将解析结果转换成配置规则后,将该操作语句以及对应的配置规则进行备份,在下次接收到客户端模块同步过来的相同的操作语句时,不进行解析并直接使用备份中对应的配置规则。
CN201710253204.XA 2017-04-18 2017-04-18 一种针对半结构化大数据的提取统计方法及系统 Active CN107153679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710253204.XA CN107153679B (zh) 2017-04-18 2017-04-18 一种针对半结构化大数据的提取统计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710253204.XA CN107153679B (zh) 2017-04-18 2017-04-18 一种针对半结构化大数据的提取统计方法及系统

Publications (2)

Publication Number Publication Date
CN107153679A true CN107153679A (zh) 2017-09-12
CN107153679B CN107153679B (zh) 2020-11-24

Family

ID=59794159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710253204.XA Active CN107153679B (zh) 2017-04-18 2017-04-18 一种针对半结构化大数据的提取统计方法及系统

Country Status (1)

Country Link
CN (1) CN107153679B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766214A (zh) * 2017-10-12 2018-03-06 南京熊猫电子股份有限公司 基于spark技术的移动终端数据流处理方法及系统
CN108549680A (zh) * 2018-03-30 2018-09-18 河北北方学院 一种针对半结构化大数据的空间数据分析方法
CN111880921A (zh) * 2020-07-31 2020-11-03 平安国际智慧城市科技股份有限公司 基于规则引擎的作业处理方法、装置和计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103677759A (zh) * 2013-11-08 2014-03-26 国家电网公司 一种用于信息系统性能提升的对象化并行计算方法及系统
US20140101178A1 (en) * 2012-10-08 2014-04-10 Bmc Software, Inc. Progressive analysis for big data
CN104063486A (zh) * 2014-07-03 2014-09-24 四川中亚联邦科技有限公司 一种大数据分布式存储方法和系统
CN105447156A (zh) * 2015-11-30 2016-03-30 北京航空航天大学 资源描述框架分布式引擎及增量式更新方法
CN105930523A (zh) * 2016-05-25 2016-09-07 中国科学院新疆理化技术研究所 大数据背景下基于动态可配置规则的数据清洗框架

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140101178A1 (en) * 2012-10-08 2014-04-10 Bmc Software, Inc. Progressive analysis for big data
CN103677759A (zh) * 2013-11-08 2014-03-26 国家电网公司 一种用于信息系统性能提升的对象化并行计算方法及系统
CN104063486A (zh) * 2014-07-03 2014-09-24 四川中亚联邦科技有限公司 一种大数据分布式存储方法和系统
CN105447156A (zh) * 2015-11-30 2016-03-30 北京航空航天大学 资源描述框架分布式引擎及增量式更新方法
CN105930523A (zh) * 2016-05-25 2016-09-07 中国科学院新疆理化技术研究所 大数据背景下基于动态可配置规则的数据清洗框架

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766214A (zh) * 2017-10-12 2018-03-06 南京熊猫电子股份有限公司 基于spark技术的移动终端数据流处理方法及系统
CN108549680A (zh) * 2018-03-30 2018-09-18 河北北方学院 一种针对半结构化大数据的空间数据分析方法
CN111880921A (zh) * 2020-07-31 2020-11-03 平安国际智慧城市科技股份有限公司 基于规则引擎的作业处理方法、装置和计算机设备

Also Published As

Publication number Publication date
CN107153679B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN111339071B (zh) 一种多源异构数据的处理方法及装置
US10402402B2 (en) Method, device, server and storage apparatus of reviewing SQL
CN104008007B (zh) 基于流式计算和批处理计算的互操作数据处理系统及方法
CN108052673A (zh) 一种物联网数据集成与融合中间件系统
CN104516989B (zh) 增量数据推送系统和方法
CN109656963B (zh) 元数据获取方法、装置、设备及计算机可读存储介质
TW200931285A (en) Method, system and apparatus for combining distributed computational data
CN107239675A (zh) 基于云平台的生物信息分析系统
CN107153679A (zh) 一种针对半结构化大数据的提取统计方法及系统
CN105677465B (zh) 应用于银行跑批处理的数据处理方法及装置
CN106777142A (zh) 基于移动互联网海量数据的服务层系统及其方法
CN105956481A (zh) 一种数据处理方法及其装置
CN107145532A (zh) 一种流数据的实时分析处理方法及系统
CN112802607B (zh) 一种医疗数据治理系统
CN104536963B (zh) 一种存储过程的调度方法和系统
CN108170535A (zh) 一种基于MapReduce模型的提升表连接效率的方法
CN106657099A (zh) 一种Spark数据分析服务发布系统
CN101645073A (zh) 一种将已有数据库文件导入嵌入式数据库的方法
CN107133327A (zh) 一种支持多数据类型的数据交换方法及系统
CN103677841B (zh) 基于元素级模板的ietm的代码生成方法及装置
CN113010948A (zh) 一种bim轻量化模型展示系统
CN106408490A (zh) 一种激活工单处理方法和激活工单处理装置
CN104239537A (zh) 一种大数据预处理文本数据生成处理流程实现方法
CN113761079A (zh) 数据访问方法、系统和存储介质
CN105653334B (zh) 一种基于saas模式的mis系统快速开发框架

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant