CN108280126A - 一种大数据分析处理方法 - Google Patents
一种大数据分析处理方法 Download PDFInfo
- Publication number
- CN108280126A CN108280126A CN201711326669.XA CN201711326669A CN108280126A CN 108280126 A CN108280126 A CN 108280126A CN 201711326669 A CN201711326669 A CN 201711326669A CN 108280126 A CN108280126 A CN 108280126A
- Authority
- CN
- China
- Prior art keywords
- data
- sentence
- regular expression
- modification operation
- modification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种大数据分析处理方法,包括如下步骤:获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表;根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解,生成数据项值,并将数据项值与所述数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对。本发明通过根据用户分析需要设定数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表,实现对待分析数据的不同需求的分解和提取,提高了数据分析的通用性。
Description
技术领域
本发明涉及一种处理方法,具体是一种大数据分析处理方法。
背景技术
近几年,由于数据在互联网领域的持续增长,各公司都面临海量数据的处理需求。部门内的数据分析主要为公司各部门运维服务,数据分析主要基于各部门的服务器产生的日志来进行分析,目的是基于这些日志对用户访问、数据流量在时间维度、产品线维度、域名维度等有明确的量化数据,从而为公司服务器运维管理、流量分配、预估等提供建议。在现有的数据分析系统中,针对用户不同的分析需求,需要采用专用的数据分析 方法,即针对用户不同的分析需求,都需要设计一套数据分析方法。因此,导致数据分析的 效率底下,成本高昂。
发明内容
本发明的目的在于提供一种大数据分析处理方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种大数据分析处理方法,包括如下步骤:获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表;根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解,生成数据项值,并将数据项值与所述数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对;根据设定统计规则,对所述中间数据对进行统计分析,接收源数据库发送的日志信息,所述日志信息用于表示所述源数据库中的数据修改操作;获取所述日志信息中所述数据修改操作的类型和参数,并将获取的所述数据修改操作的参数绑定到与所述数据修改操作的类型对应的语句模板中,生成数据修改操作语句;运行所述数据修改操作语句,完成对目标数据库中相同存储位置的数据的修改,得到数据分析结果。
作为本发明进一步的方案:在根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解之前,还包括:获取边界鉴定正则表达式,并对所述待分析数据应用所述边界鉴定正则表达式进行边界鉴定,提取出所述待分析数据中的数据段。
作为本发明进一步的方案:所述将获取的所述数据修改操作的参数绑定到与所述数据修改操作的类型对应的语句模板中,生成数据修改操作语句之前,还包括:生成所述语句类型。
作为本发明进一步的方案:在所述运行所述数据修改操作语句之前,还包括:将所述数据修改操作语句添加到语句组;所述运行所述数据修改操作语句,完成对目标数据库中相同存储位置的数据的修改具体包括:在所述语句组的语句类型为预设类型时,运行所述语句组,完成对目标数据库中相同存储位置的数据的修改。
作为本发明进一步的方案:对所述中间数据对进行统计分析,得到数据分析结果,包括:获取统计分析结果字段表中的结果字段,结果字段包括字段统计公式,所述统计分析结果字段表包括至少一个结果字段;根据字段统计公式,对所述中间数据对中的相应数据进行统计。
作为本发明再进一步的方案:所述结果字段还包括字段值;根据字段统计公式,对所述中间数据对中的相应数据进行统计,包括:将所述中间数据对和字段值代入字段统计公式,计算得到新的字段值;将新的字段值替换所述字段值,并保存至统计分析结果字段表中的对应结果字段中。
与现有技术相比,本发明的有益效果是:本发明通过根据用户分析需要设定数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表,实现对待分析数据的不同需求的分解和提取,提高了数据分析的通用性。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,一种大数据分析处理方法,包括如下步骤:获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表;根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解,生成数据项值,并将数据项值与所述数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对;根据设定统计规则,对所述中间数据对进行统计分析,接收源数据库发送的日志信息,所述日志信息用于表示所述源数据库中的数据修改操作;获取所述日志信息中所述数据修改操作的类型和参数,并将获取的所述数据修改操作的参数绑定到与所述数据修改操作的类型对应的语句模板中,生成数据修改操作语句;运行所述数据修改操作语句,完成对目标数据库中相同存储位置的数据的修改,得到数据分析结果。
在根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解之前,还包括:获取边界鉴定正则表达式,并对所述待分析数据应用所述边界鉴定正则表达式进行边界鉴定,提取出所述待分析数据中的数据段。
所述将获取的所述数据修改操作的参数绑定到与所述数据修改操作的类型对应的语句模板中,生成数据修改操作语句之前,还包括:生成所述语句类型。
在所述运行所述数据修改操作语句之前,还包括:将所述数据修改操作语句添加到语句组;所述运行所述数据修改操作语句,完成对目标数据库中相同存储位置的数据的修改具体包括:在所述语句组的语句类型为预设类型时,运行所述语句组,完成对目标数据库中相同存储位置的数据的修改。
对所述中间数据对进行统计分析,得到数据分析结果,包括:获取统计分析结果字段表中的结果字段,结果字段包括字段统计公式,所述统计分析结果字段表包括至少一个结果字段;根据字段统计公式,对所述中间数据对中的相应数据进行统计。
所述结果字段还包括字段值;根据字段统计公式,对所述中间数据对中的相应数据进行统计,包括:将所述中间数据对和字段值代入字段统计公式,计算得到新的字段值;将新的字段值替换所述字段值,并保存至统计分析结果字段表中的对应结果字段中。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (6)
1.一种大数据分析处理方法,其特征在于,包括如下步骤:获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表;根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解,生成数据项值,并将数据项值与所述数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对;根据设定统计规则,对所述中间数据对进行统计分析,接收源数据库发送的日志信息,所述日志信息用于表示所述源数据库中的数据修改操作;获取所述日志信息中所述数据修改操作的类型和参数,并将获取的所述数据修改操作的参数绑定到与所述数据修改操作的类型对应的语句模板中,生成数据修改操作语句;运行所述数据修改操作语句,完成对目标数据库中相同存储位置的数据的修改,得到数据分析结果。
2.根据权利要求1所述的大数据分析处理方法,其特征在于,在根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解之前,还包括:获取边界鉴定正则表达式,并对所述待分析数据应用所述边界鉴定正则表达式进行边界鉴定,提取出所述待分析数据中的数据段。
3.根据权利要求1所述的大数据分析处理方法,其特征在于,所述将获取的所述数据修改操作的参数绑定到与所述数据修改操作的类型对应的语句模板中,生成数据修改操作语句之前,还包括:生成所述语句类型。
4.根据权利要求1所述的大数据分析处理方法,其特征在于,在所述运行所述数据修改操作语句之前,还包括:将所述数据修改操作语句添加到语句组;所述运行所述数据修改操作语句,完成对目标数据库中相同存储位置的数据的修改具体包括:在所述语句组的语句类型为预设类型时,运行所述语句组,完成对目标数据库中相同存储位置的数据的修改。
5.根据权利要求1所述的大数据分析处理方法,其特征在于,对所述中间数据对进行统计分析,得到数据分析结果,包括:获取统计分析结果字段表中的结果字段,结果字段包括字段统计公式,所述统计分析结果字段表包括至少一个结果字段;根据字段统计公式,对所述中间数据对中的相应数据进行统计。
6.根据权利要求1所述的大数据分析处理方法,其特征在于,所述结果字段还包括字段值;根据字段统计公式,对所述中间数据对中的相应数据进行统计,包括:将所述中间数据对和字段值代入字段统计公式,计算得到新的字段值;将新的字段值替换所述字段值,并保存至统计分析结果字段表中的对应结果字段中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711326669.XA CN108280126A (zh) | 2017-12-13 | 2017-12-13 | 一种大数据分析处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711326669.XA CN108280126A (zh) | 2017-12-13 | 2017-12-13 | 一种大数据分析处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108280126A true CN108280126A (zh) | 2018-07-13 |
Family
ID=62801601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711326669.XA Pending CN108280126A (zh) | 2017-12-13 | 2017-12-13 | 一种大数据分析处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108280126A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035457A (zh) * | 2020-08-31 | 2020-12-04 | 辽宁振兴银行股份有限公司 | 一种基于内存数据的分析处理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102346775A (zh) * | 2011-09-26 | 2012-02-08 | 苏州博远容天信息科技有限公司 | 一种基于日志的异构多源数据库同步方法 |
CN105760492A (zh) * | 2016-02-18 | 2016-07-13 | 广东睿江云计算股份有限公司 | 数据分析方法及装置 |
CN107301251A (zh) * | 2017-08-08 | 2017-10-27 | 郑州仁峰软件开发有限公司 | 一种数据库同步的方法及系统 |
-
2017
- 2017-12-13 CN CN201711326669.XA patent/CN108280126A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102346775A (zh) * | 2011-09-26 | 2012-02-08 | 苏州博远容天信息科技有限公司 | 一种基于日志的异构多源数据库同步方法 |
CN105760492A (zh) * | 2016-02-18 | 2016-07-13 | 广东睿江云计算股份有限公司 | 数据分析方法及装置 |
CN107301251A (zh) * | 2017-08-08 | 2017-10-27 | 郑州仁峰软件开发有限公司 | 一种数据库同步的方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035457A (zh) * | 2020-08-31 | 2020-12-04 | 辽宁振兴银行股份有限公司 | 一种基于内存数据的分析处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | Constructing a Chinese patent database of listed firms in China: Descriptions, lessons, and insights | |
Ortega et al. | On the inequality of contributions to Wikipedia | |
CN104899314B (zh) | 一种数据仓库的血统分析方法和装置 | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
CN106980692A (zh) | 一种基于微博特定事件的影响力计算方法 | |
CN104573024B (zh) | 一种复杂网络体系下异构安全日志信息的自适应提取方法及系统 | |
CN105373472B (zh) | 一种基于数据库的统计准确性的测试方法及测试系统 | |
CN102722793A (zh) | 基于计算机网络平台系统的绩效考核数据处理方法 | |
CN103562948A (zh) | 确定和可视化社交媒体表达的情感 | |
CN107066512A (zh) | 一种基于Hadoop的用户偏好评估方法及系统 | |
Tan et al. | The Impact of the Subsidy Policy on Total Factor Productivity: An Empirical Analysis of China′ s Cotton Production | |
CN104156447A (zh) | 一种智能社交平台广告预警及处理方法 | |
CN104199945A (zh) | 数据存储方法和装置 | |
CN103812729A (zh) | 一种网络协议模糊测试方法和装置 | |
CN105069556A (zh) | 一种erp管理系统的用户行为分析方法及用户行为分析系统 | |
CN104881427A (zh) | 一种面向电网调控运行的数据血统分析方法 | |
CN107239539A (zh) | 一种基于关系型数据库的自定义建模方法 | |
CN111159429B (zh) | 基于知识图谱的数据分析方法及装置、设备、存储介质 | |
CN107301593A (zh) | 一种财务信息系统 | |
CN108280126A (zh) | 一种大数据分析处理方法 | |
CN108256080A (zh) | 一种利用python语法语义构建复杂sql语句的方法及系统 | |
US7844601B2 (en) | Quality of service feedback for technology-neutral data reporting | |
CN105760492B (zh) | 数据分析方法及装置 | |
Liu et al. | Green human resource management, employee work values, and enterprise environmental performance | |
CN105243490B (zh) | 一种基于git软件的统计系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180713 |