CN105589920A - 用于大数据预分析的方法和装置 - Google Patents
用于大数据预分析的方法和装置 Download PDFInfo
- Publication number
- CN105589920A CN105589920A CN201510630493.1A CN201510630493A CN105589920A CN 105589920 A CN105589920 A CN 105589920A CN 201510630493 A CN201510630493 A CN 201510630493A CN 105589920 A CN105589920 A CN 105589920A
- Authority
- CN
- China
- Prior art keywords
- data
- processing task
- data processing
- user
- preanalysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
Abstract
本发明提出了一种用于大数据预分析的方法和装置,所述方法包括:接收来自用户的数据查询及分析命令,其中,所述用户能够选择式地或者直接地输入所述数据查询及分析命令;解析所述数据查询及分析命令以确定其定义的数据处理任务,并随之基于预定规则优化并执行所述数据处理任务;基于存储优化算法存储所述数据处理任务执行过程中使用的数据;向用户输出所述数据处理任务的执行结果。本发明所公开的用于大数据预分析的方法和装置能够显著地提高大数据预分析结果的有效性和准确性。
Description
技术领域
本发明涉及数据分析方法和装置,更具体地,涉及用于大数据预分析的方法和装置。
背景技术
目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,在实际使用海量数据(即大数据)之前对其进行预分析变得越来越重要。
在现有的技术方案中,通常采用数据抽样方式对大数据进行预分析(例如分析目标数据的内容、分布、关联关系等等),即从目标大数据中随机地或基于预定规则抽取样本数据,并随之针对该样本数据执行分析操作。
然而,现有的技术方案存在如下问题:由于基于样本数据执行数据预分析,故预分析结果的准确性直接取决于所抽取的样本数据的质量和代表性,由此预分析结果的有效性和准确性难于控制并且是不稳定的。
因此,存在如下需求:提供能够显著地提高大数据预分析结果的有效性和准确性的用于大数据预分析的方法和装置。
发明内容
为了解决上述现有技术方案所存在的问题,本发明提出了能够显著地提高大数据预分析结果的有效性和准确性的用于大数据预分析的方法和装置。
本发明的目的是通过以下技术方案实现的:
一种大数据预分析装置,所述大数据预分析装置包括:
命令输入单元,所述命令输入单元接收来自用户的数据查询及分析命令,其中,所述用户能够选择式地或者直接地输入所述数据查询及分析命令;
任务执行及优化单元,所述任务执行及优化单元解析所述数据查询及分析命令以确定其定义的数据处理任务,并随之基于预定规则优化并执行所述数据处理任务;
数据存储单元,所述数据存储单元基于存储优化算法存储所述数据处理任务执行过程中使用的数据;
结果输出单元,所述结果输出单元向用户输出所述数据处理任务的执行结果。
在上面所公开的方案中,优选地,所述数据查询及分析命令是基于SQL语言的命令。
在上面所公开的方案中,优选地,所述优化所述数据处理任务包括:根据待执行任务的具体操作并基于预统计的结果优化各个操作执行的先后顺序以及数据加载的顺序,其中,所述预统计被周期性地或不定期的执行以识别数据取值分布以及数据表的数据量大小,并且所述优化限定针对表关联操作优先加载数据量小的数据表并且限定针对数据过滤操作优先针对取值分布较多的字段进行过滤。
在上面所公开的方案中,优选地,所述优化所述数据处理任务进一步包括:根据待执行任务操作的数据字段的数量选择不同存储方式的数据进行操作,即当待执行任务操作的数据字段的数量小于预定阈值时选择列式存储的数据,而当待执行任务操作的数据字段的数量不小于所述预定阈值时选择行列混合式存储的数据。
在上面所公开的方案中,优选地,所述数据存储单元自动地确定所述数据处理任务执行过程中不同操作使用列式存储的数据和行列混合式存储的数据时的处理效率,并根据所确定的处理效率针对特定的数据字段执行数据优化操作,其中所述数据优化操作包括:(1)对经常处理分析的数据字段进行压缩;(2)对关联的数据字段进行联合存储。
在上面所公开的方案中,优选地,所述结果输出单元能够通过显示器向用户呈现所述数据处理任务的执行结果,并且能够基于用户的指令提供所述数据处理任务的执行结果的下载服务。
本发明的目的也能够通过以下技术方案实现:
一种用于大数据预分析的方法,所述用于大数据预分析的方法包括下列步骤:
(A1)接收来自用户的数据查询及分析命令,其中,所述用户能够选择式地或者直接地输入所述数据查询及分析命令;
(A2)解析所述数据查询及分析命令以确定其定义的数据处理任务,并随之基于预定规则优化并执行所述数据处理任务;
(A3)基于存储优化算法存储所述数据处理任务执行过程中使用的数据;
(A4)向用户输出所述数据处理任务的执行结果
本发明所公开的用于大数据预分析的方法和装置具有以下优点:能够显著地提高大数据预分析结果的有效性和准确性,并且提高了数据处理操作的效率。
附图说明
结合附图,本发明的技术特征以及优点将会被本领域技术人员更好地理解,其中:
图1是根据本发明的实施例的大数据预分析装置的示意性结构图;
图2是根据本发明的实施例的用于大数据预分析的方法的流程图。
具体实施方式
图1是根据本发明的实施例的大数据预分析装置的示意性结构图。如图1所示,本发明所公开的大数据预分析装置包括命令输入单元1、任务执行及优化单元2、数据存储单元3以及结果输出单元4。其中,所述命令输入单元1接收来自用户的数据查询及分析命令,其中,所述用户能够选择式地(例如通过下拉框选择)或者直接地输入所述数据查询及分析命令。所述任务执行及优化单元2解析(例如语句的拼装和拆分)所述数据查询及分析命令以确定其定义的数据处理任务,并随之基于预定规则优化并执行所述数据处理任务。所述数据存储单元3基于存储优化算法存储所述数据处理任务执行过程中使用的数据。所述结果输出单元4向用户输出所述数据处理任务的执行结果。
优选地,在本发明所公开的大数据预分析装置中,所述数据查询及分析命令是基于SQL(结构化查询语言)的命令。
优选地,在本发明所公开的大数据预分析装置中,所述优化所述数据处理任务包括:根据待执行任务的具体操作并基于预统计的结果优化各个操作执行的先后顺序以及数据加载的顺序,其中,所述预统计被周期性地或不定期的执行以识别数据取值分布以及数据表的数据量大小,并且所述优化限定针对表关联操作优先加载数据量小的数据表并且限定针对数据过滤操作优先针对取值分布较多的字段进行过滤。
优选地,在本发明所公开的大数据预分析装置中,所述优化所述数据处理任务进一步包括:根据待执行任务操作的数据字段的数量选择不同存储方式的数据进行操作,即当待执行任务操作的数据字段的数量小于预定阈值(例如15个数据字段)时选择列式存储的数据,而当待执行任务操作的数据字段的数量不小于预定阈值(例如15个数据字段)时选择行列混合式存储的数据。
优选地,在本发明所公开的大数据预分析装置中,所述数据存储单元3自动地确定所述数据处理任务执行过程中不同操作使用列式存储的数据和行列混合式存储的数据时的处理效率,并根据所确定的处理效率针对特定的数据字段执行数据优化操作,其中所述数据优化操作包括:(1)对经常处理分析的数据字段进行压缩(例如,在金融领域中,对卡号字段的值进行数值转换并将其压缩成哈夫曼编码);(2)对关联的数据字段进行联合存储(例如,在金融领域中,卡品牌和卡属性经常同时出现,则将这两个数据字段进行组合后存储)。
优选地,在本发明所公开的大数据预分析装置中,所述结果输出单元4能够通过显示器向用户呈现所述数据处理任务的执行结果,并且能够基于用户的指令提供所述数据处理任务的执行结果的下载服务。
由上可见,本发明所公开的大数据预分析装置具有下列优点:能够显著地提高大数据预分析结果的有效性和准确性,并且提高了数据处理操作的效率。
图2是根据本发明的实施例的用于大数据预分析的方法的流程图。如图2所示,本发明所公开的用于大数据预分析的方法包括下列步骤:(A1)接收来自用户的数据查询及分析命令,其中,所述用户能够选择式地(例如通过下拉框选择)或者直接地输入所述数据查询及分析命令;(A2)解析(例如语句的拼装和拆分)所述数据查询及分析命令以确定其定义的数据处理任务,并随之基于预定规则优化并执行所述数据处理任务;(A3)基于存储优化算法存储所述数据处理任务执行过程中使用的数据;(A4)向用户输出所述数据处理任务的执行结果。
优选地,在本发明所公开的用于大数据预分析的方法中,所述数据查询及分析命令是基于SQL(结构化查询语言)的命令。
优选地,在本发明所公开的用于大数据预分析的方法中,所述优化所述数据处理任务包括:根据待执行任务的具体操作并基于预统计的结果优化各个操作执行的先后顺序以及数据加载的顺序,其中,所述预统计被周期性地或不定期的执行以识别数据取值分布以及数据表的数据量大小,并且所述优化限定针对表关联操作优先加载数据量小的数据表并且限定针对数据过滤操作优先针对取值分布较多的字段进行过滤。
优选地,在本发明所公开的用于大数据预分析的方法中,所述优化所述数据处理任务进一步包括:根据待执行任务操作的数据字段的数量选择不同存储方式的数据进行操作,即当待执行任务操作的数据字段的数量小于预定阈值(例如15个数据字段)时选择列式存储的数据,而当待执行任务操作的数据字段的数量不小于预定阈值(例如15个数据字段)时选择行列混合式存储的数据。
优选地,在本发明所公开的用于大数据预分析的方法中,所述步骤(A3)包括:自动地确定所述数据处理任务执行过程中不同操作使用列式存储的数据和行列混合式存储的数据时的处理效率,并根据所确定的处理效率针对特定的数据字段执行数据优化操作,其中所述数据优化操作包括:(1)对经常处理分析的数据字段进行压缩(例如,在金融领域中,对卡号字段的值进行数值转换并将其压缩成哈夫曼编码);(2)对关联的数据字段进行联合存储(例如,在金融领域中,卡品牌和卡属性经常同时出现,则将这两个数据字段进行组合后存储)。
优选地,在本发明所公开的用于大数据预分析的方法中,所述步骤(A4)进一步包括:通过显示器向用户呈现所述数据处理任务的执行结果,并且基于用户的指令提供所述数据处理任务的执行结果的下载服务。
由上可见,本发明所公开的用于大数据预分析的方法具有下列优点:能够显著地提高大数据预分析结果的有效性和准确性,并且提高了数据处理操作的效率。
尽管本发明是通过上述的优选实施方式进行描述的,但是其实现形式并不局限于上述的实施方式。应该认识到:在不脱离本发明主旨和范围的情况下,本领域技术人员可以对本发明做出不同的变化和修改。
Claims (7)
1.一种大数据预分析装置,所述大数据预分析装置包括:
命令输入单元,所述命令输入单元接收来自用户的数据查询及分析命令,其中,所述用户能够选择式地或者直接地输入所述数据查询及分析命令;
任务执行及优化单元,所述任务执行及优化单元解析所述数据查询及分析命令以确定其定义的数据处理任务,并随之基于预定规则优化并执行所述数据处理任务;
数据存储单元,所述数据存储单元基于存储优化算法存储所述数据处理任务执行过程中使用的数据;
结果输出单元,所述结果输出单元向用户输出所述数据处理任务的执行结果。
2.根据权利要求1所述的大数据预分析装置,其特征在于,所述数据查询及分析命令是基于SQL语言的命令。
3.根据权利要求2所述的大数据预分析装置,其特征在于,所述优化所述数据处理任务包括:根据待执行任务的具体操作并基于预统计的结果优化各个操作执行的先后顺序以及数据加载的顺序,其中,所述预统计被周期性地或不定期的执行以识别数据取值分布以及数据表的数据量大小,并且所述优化限定针对表关联操作优先加载数据量小的数据表并且限定针对数据过滤操作优先针对取值分布较多的字段进行过滤。
4.根据权利要求3所述的大数据预分析装置,其特征在于,所述优化所述数据处理任务进一步包括:根据待执行任务操作的数据字段的数量选择不同存储方式的数据进行操作,即当待执行任务操作的数据字段的数量小于预定阈值时选择列式存储的数据,而当待执行任务操作的数据字段的数量不小于所述预定阈值时选择行列混合式存储的数据。
5.根据权利要求4所述的大数据预分析装置,其特征在于,所述数据存储单元自动地确定所述数据处理任务执行过程中不同操作使用列式存储的数据和行列混合式存储的数据时的处理效率,并根据所确定的处理效率针对特定的数据字段执行数据优化操作,其中所述数据优化操作包括:(1)对经常处理分析的数据字段进行压缩;(2)对关联的数据字段进行联合存储。
6.根据权利要求5所述的大数据预分析装置,其特征在于,所述结果输出单元能够通过显示器向用户呈现所述数据处理任务的执行结果,并且能够基于用户的指令提供所述数据处理任务的执行结果的下载服务。
7.一种用于大数据预分析的方法,所述用于大数据预分析的方法包括下列步骤:
(A1)接收来自用户的数据查询及分析命令,其中,所述用户能够选择式地或者直接地输入所述数据查询及分析命令;
(A2)解析所述数据查询及分析命令以确定其定义的数据处理任务,并随之基于预定规则优化并执行所述数据处理任务;
(A3)基于存储优化算法存储所述数据处理任务执行过程中使用的数据;
(A4)向用户输出所述数据处理任务的执行结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510630493.1A CN105589920B (zh) | 2015-09-29 | 2015-09-29 | 用于大数据预分析的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510630493.1A CN105589920B (zh) | 2015-09-29 | 2015-09-29 | 用于大数据预分析的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105589920A true CN105589920A (zh) | 2016-05-18 |
CN105589920B CN105589920B (zh) | 2019-10-01 |
Family
ID=55929501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510630493.1A Active CN105589920B (zh) | 2015-09-29 | 2015-09-29 | 用于大数据预分析的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105589920B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383886A (zh) * | 2016-09-21 | 2017-02-08 | 深圳市博瑞得科技有限公司 | 一种基于大数据分布式编程框架的大数据预统系统及方法 |
CN111241122A (zh) * | 2020-01-07 | 2020-06-05 | 广州虎牙科技有限公司 | 任务监测方法、装置、电子设备和可读存储介质 |
CN111159188B (zh) * | 2019-12-28 | 2023-05-09 | 北京慧博科技有限公司 | 基于DataWorks实现准实时大数据量的处理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6665671B2 (en) * | 2001-04-04 | 2003-12-16 | Hewlett-Packard Development Company, L.P. | System and method for optimization of shared data |
CN102737033A (zh) * | 2011-03-31 | 2012-10-17 | 国际商业机器公司 | 数据处理设备及其数据处理方法 |
CN102819589A (zh) * | 2012-08-06 | 2012-12-12 | 北京久其软件股份有限公司 | 一种基于etl的数据优化方法及设备 |
US8577833B2 (en) * | 2012-01-04 | 2013-11-05 | International Business Machines Corporation | Automated data analysis and transformation |
CN104317928A (zh) * | 2014-10-31 | 2015-01-28 | 北京思特奇信息技术股份有限公司 | 一种基于分布式数据库的业务etl方法及系统 |
CN104424360A (zh) * | 2013-09-03 | 2015-03-18 | 国际商业机器公司 | 用于访问源数据库中的一组数据表格的方法和系统 |
-
2015
- 2015-09-29 CN CN201510630493.1A patent/CN105589920B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6665671B2 (en) * | 2001-04-04 | 2003-12-16 | Hewlett-Packard Development Company, L.P. | System and method for optimization of shared data |
CN102737033A (zh) * | 2011-03-31 | 2012-10-17 | 国际商业机器公司 | 数据处理设备及其数据处理方法 |
US8577833B2 (en) * | 2012-01-04 | 2013-11-05 | International Business Machines Corporation | Automated data analysis and transformation |
CN102819589A (zh) * | 2012-08-06 | 2012-12-12 | 北京久其软件股份有限公司 | 一种基于etl的数据优化方法及设备 |
CN104424360A (zh) * | 2013-09-03 | 2015-03-18 | 国际商业机器公司 | 用于访问源数据库中的一组数据表格的方法和系统 |
CN104317928A (zh) * | 2014-10-31 | 2015-01-28 | 北京思特奇信息技术股份有限公司 | 一种基于分布式数据库的业务etl方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383886A (zh) * | 2016-09-21 | 2017-02-08 | 深圳市博瑞得科技有限公司 | 一种基于大数据分布式编程框架的大数据预统系统及方法 |
CN111159188B (zh) * | 2019-12-28 | 2023-05-09 | 北京慧博科技有限公司 | 基于DataWorks实现准实时大数据量的处理方法 |
CN111241122A (zh) * | 2020-01-07 | 2020-06-05 | 广州虎牙科技有限公司 | 任务监测方法、装置、电子设备和可读存储介质 |
CN111241122B (zh) * | 2020-01-07 | 2024-01-19 | 广州虎牙科技有限公司 | 任务监测方法、装置、电子设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105589920B (zh) | 2019-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103425572B (zh) | 代码分析方法及代码分析系统 | |
CN109886859B (zh) | 数据处理方法、系统、电子设备和计算机可读存储介质 | |
CN103235759A (zh) | 测试用例生成方法和装置 | |
CN107612886A (zh) | 一种Spark平台Shuffle过程压缩算法决策方法 | |
CN105589920A (zh) | 用于大数据预分析的方法和装置 | |
CN104391748A (zh) | 一种mapreduce计算过程优化方法 | |
CN102063449A (zh) | 提高数据库中数据对象统计信息可靠性的方法及装置 | |
CN108369584B (zh) | 信息处理系统、描述符创建方法和描述符创建程序 | |
CN106844320B (zh) | 一种财务报表整合方法和设备 | |
CN110941553A (zh) | 一种代码检测方法、装置、设备及可读存储介质 | |
CN110765195A (zh) | 一种数据解析方法、装置、存储介质及电子设备 | |
CN104462420B (zh) | 数据库的查询任务的执行方法和装置 | |
CN102393830B (zh) | 数据处理时间获取方法和数据处理时间获取装置 | |
CN113806429A (zh) | 基于大数据流处理框架的画布式日志分析方法 | |
CN102591993A (zh) | 一种用于热表数据更新的异步处理方法及装置 | |
CN102393842A (zh) | 指令处理装置和指令处理方法 | |
CN103745287A (zh) | 软件项目进度管理方法及系统 | |
US20170344607A1 (en) | Apparatus and method for controlling skew in distributed etl job | |
CN110895761A (zh) | 一种售后服务申请信息的处理方法和装置 | |
CN105630997A (zh) | 一种数据并行处理方法、装置及设备 | |
CN103002053A (zh) | 云计算的利润最大化调度方法和系统 | |
US20210256014A1 (en) | System for data engineering and data science process management | |
CN106547883B (zh) | 一种用户定义函数udf运行情况的处理方法及系统 | |
CN114661571A (zh) | 模型评测方法、装置、电子设备和存储介质 | |
CN111159188B (zh) | 基于DataWorks实现准实时大数据量的处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |