CN105589920B - 用于大数据预分析的方法和装置 - Google Patents

用于大数据预分析的方法和装置 Download PDF

Info

Publication number
CN105589920B
CN105589920B CN201510630493.1A CN201510630493A CN105589920B CN 105589920 B CN105589920 B CN 105589920B CN 201510630493 A CN201510630493 A CN 201510630493A CN 105589920 B CN105589920 B CN 105589920B
Authority
CN
China
Prior art keywords
data
processing task
data processing
preanalysis
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510630493.1A
Other languages
English (en)
Other versions
CN105589920A (zh
Inventor
何东杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201510630493.1A priority Critical patent/CN105589920B/zh
Publication of CN105589920A publication Critical patent/CN105589920A/zh
Application granted granted Critical
Publication of CN105589920B publication Critical patent/CN105589920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation

Abstract

本发明提出了一种用于大数据预分析的方法和装置,所述方法包括:接收来自用户的数据查询及分析命令,其中,所述用户能够选择式地或者直接地输入所述数据查询及分析命令;解析所述数据查询及分析命令以确定其定义的数据处理任务,并随之基于预定规则优化并执行所述数据处理任务;基于存储优化算法存储所述数据处理任务执行过程中使用的数据;向用户输出所述数据处理任务的执行结果。本发明所公开的用于大数据预分析的方法和装置能够显著地提高大数据预分析结果的有效性和准确性。

Description

用于大数据预分析的方法和装置
技术领域
本发明涉及数据分析方法和装置,更具体地,涉及用于大数据预分析的方法和装置。
背景技术
目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,在实际使用海量数据(即大数据)之前对其进行预分析变得越来越重要。
在现有的技术方案中,通常采用数据抽样方式对大数据进行预分析(例如分析目标数据的内容、分布、关联关系等等),即从目标大数据中随机地或基于预定规则抽取样本数据,并随之针对该样本数据执行分析操作。
然而,现有的技术方案存在如下问题:由于基于样本数据执行数据预分析,故预分析结果的准确性直接取决于所抽取的样本数据的质量和代表性,由此预分析结果的有效性和准确性难于控制并且是不稳定的。
因此,存在如下需求:提供能够显著地提高大数据预分析结果的有效性和准确性的用于大数据预分析的方法和装置。
发明内容
为了解决上述现有技术方案所存在的问题,本发明提出了能够显著地提高大数据预分析结果的有效性和准确性的用于大数据预分析的方法和装置。
本发明的目的是通过以下技术方案实现的:
一种大数据预分析装置,所述大数据预分析装置包括:
命令输入单元,所述命令输入单元接收来自用户的数据查询及分析命令,其中,所述用户能够选择式地或者直接地输入所述数据查询及分析命令;
任务执行及优化单元,所述任务执行及优化单元解析所述数据查询及分析命令以确定其定义的数据处理任务,并随之基于预定规则优化并执行所述数据处理任务;
数据存储单元,所述数据存储单元基于存储优化算法存储所述数据处理任务执行过程中使用的数据;
结果输出单元,所述结果输出单元向用户输出所述数据处理任务的执行结果。
在上面所公开的方案中,优选地,所述数据查询及分析命令是基于SQL语言的命令。
在上面所公开的方案中,优选地,所述优化所述数据处理任务包括:根据待执行任务的具体操作并基于预统计的结果优化各个操作执行的先后顺序以及数据加载的顺序,其中,所述预统计被周期性地或不定期的执行以识别数据取值分布以及数据表的数据量大小,并且所述优化限定针对表关联操作优先加载数据量小的数据表并且限定针对数据过滤操作优先针对取值分布较多的字段进行过滤。
在上面所公开的方案中,优选地,所述优化所述数据处理任务进一步包括:根据待执行任务操作的数据字段的数量选择不同存储方式的数据进行操作,即当待执行任务操作的数据字段的数量小于预定阈值时选择列式存储的数据,而当待执行任务操作的数据字段的数量不小于所述预定阈值时选择行列混合式存储的数据。
在上面所公开的方案中,优选地,所述数据存储单元自动地确定所述数据处理任务执行过程中不同操作使用列式存储的数据和行列混合式存储的数据时的处理效率,并根据所确定的处理效率针对特定的数据字段执行数据优化操作,其中所述数据优化操作包括:(1)对经常处理分析的数据字段进行压缩;(2)对关联的数据字段进行联合存储。
在上面所公开的方案中,优选地,所述结果输出单元能够通过显示器向用户呈现所述数据处理任务的执行结果,并且能够基于用户的指令提供所述数据处理任务的执行结果的下载服务。
本发明的目的也能够通过以下技术方案实现:
一种用于大数据预分析的方法,所述用于大数据预分析的方法包括下列步骤:
(A1)接收来自用户的数据查询及分析命令,其中,所述用户能够选择式地或者直接地输入所述数据查询及分析命令;
(A2)解析所述数据查询及分析命令以确定其定义的数据处理任务,并随之基于预定规则优化并执行所述数据处理任务;
(A3)基于存储优化算法存储所述数据处理任务执行过程中使用的数据;
(A4)向用户输出所述数据处理任务的执行结果
本发明所公开的用于大数据预分析的方法和装置具有以下优点:能够显著地提高大数据预分析结果的有效性和准确性,并且提高了数据处理操作的效率。
附图说明
结合附图,本发明的技术特征以及优点将会被本领域技术人员更好地理解,其中:
图1是根据本发明的实施例的大数据预分析装置的示意性结构图;
图2是根据本发明的实施例的用于大数据预分析的方法的流程图。
具体实施方式
图1是根据本发明的实施例的大数据预分析装置的示意性结构图。如图1所示,本发明所公开的大数据预分析装置包括命令输入单元1、任务执行及优化单元2、数据存储单元3以及结果输出单元4。其中,所述命令输入单元1接收来自用户的数据查询及分析命令,其中,所述用户能够选择式地(例如通过下拉框选择)或者直接地输入所述数据查询及分析命令。所述任务执行及优化单元2解析(例如语句的拼装和拆分)所述数据查询及分析命令以确定其定义的数据处理任务,并随之基于预定规则优化并执行所述数据处理任务。所述数据存储单元3基于存储优化算法存储所述数据处理任务执行过程中使用的数据。所述结果输出单元4向用户输出所述数据处理任务的执行结果。
优选地,在本发明所公开的大数据预分析装置中,所述数据查询及分析命令是基于SQL(结构化查询语言)的命令。
优选地,在本发明所公开的大数据预分析装置中,所述优化所述数据处理任务包括:根据待执行任务的具体操作并基于预统计的结果优化各个操作执行的先后顺序以及数据加载的顺序,其中,所述预统计被周期性地或不定期的执行以识别数据取值分布以及数据表的数据量大小,并且所述优化限定针对表关联操作优先加载数据量小的数据表并且限定针对数据过滤操作优先针对取值分布较多的字段进行过滤。
优选地,在本发明所公开的大数据预分析装置中,所述优化所述数据处理任务进一步包括:根据待执行任务操作的数据字段的数量选择不同存储方式的数据进行操作,即当待执行任务操作的数据字段的数量小于预定阈值(例如15个数据字段)时选择列式存储的数据,而当待执行任务操作的数据字段的数量不小于预定阈值(例如15个数据字段)时选择行列混合式存储的数据。
优选地,在本发明所公开的大数据预分析装置中,所述数据存储单元3自动地确定所述数据处理任务执行过程中不同操作使用列式存储的数据和行列混合式存储的数据时的处理效率,并根据所确定的处理效率针对特定的数据字段执行数据优化操作,其中所述数据优化操作包括:(1)对经常处理分析的数据字段进行压缩(例如,在金融领域中,对卡号字段的值进行数值转换并将其压缩成哈夫曼编码);(2)对关联的数据字段进行联合存储(例如,在金融领域中,卡品牌和卡属性经常同时出现,则将这两个数据字段进行组合后存储)。
优选地,在本发明所公开的大数据预分析装置中,所述结果输出单元4能够通过显示器向用户呈现所述数据处理任务的执行结果,并且能够基于用户的指令提供所述数据处理任务的执行结果的下载服务。
由上可见,本发明所公开的大数据预分析装置具有下列优点:能够显著地提高大数据预分析结果的有效性和准确性,并且提高了数据处理操作的效率。
图2是根据本发明的实施例的用于大数据预分析的方法的流程图。如图2所示,本发明所公开的用于大数据预分析的方法包括下列步骤:(A1)接收来自用户的数据查询及分析命令,其中,所述用户能够选择式地(例如通过下拉框选择)或者直接地输入所述数据查询及分析命令;(A2)解析(例如语句的拼装和拆分)所述数据查询及分析命令以确定其定义的数据处理任务,并随之基于预定规则优化并执行所述数据处理任务;(A3)基于存储优化算法存储所述数据处理任务执行过程中使用的数据;(A4)向用户输出所述数据处理任务的执行结果。
优选地,在本发明所公开的用于大数据预分析的方法中,所述数据查询及分析命令是基于SQL(结构化查询语言)的命令。
优选地,在本发明所公开的用于大数据预分析的方法中,所述优化所述数据处理任务包括:根据待执行任务的具体操作并基于预统计的结果优化各个操作执行的先后顺序以及数据加载的顺序,其中,所述预统计被周期性地或不定期的执行以识别数据取值分布以及数据表的数据量大小,并且所述优化限定针对表关联操作优先加载数据量小的数据表并且限定针对数据过滤操作优先针对取值分布较多的字段进行过滤。
优选地,在本发明所公开的用于大数据预分析的方法中,所述优化所述数据处理任务进一步包括:根据待执行任务操作的数据字段的数量选择不同存储方式的数据进行操作,即当待执行任务操作的数据字段的数量小于预定阈值(例如15个数据字段)时选择列式存储的数据,而当待执行任务操作的数据字段的数量不小于预定阈值(例如15个数据字段)时选择行列混合式存储的数据。
优选地,在本发明所公开的用于大数据预分析的方法中,所述步骤(A3)包括:自动地确定所述数据处理任务执行过程中不同操作使用列式存储的数据和行列混合式存储的数据时的处理效率,并根据所确定的处理效率针对特定的数据字段执行数据优化操作,其中所述数据优化操作包括:(1)对经常处理分析的数据字段进行压缩(例如,在金融领域中,对卡号字段的值进行数值转换并将其压缩成哈夫曼编码);(2)对关联的数据字段进行联合存储(例如,在金融领域中,卡品牌和卡属性经常同时出现,则将这两个数据字段进行组合后存储)。
优选地,在本发明所公开的用于大数据预分析的方法中,所述步骤(A4)进一步包括:通过显示器向用户呈现所述数据处理任务的执行结果,并且基于用户的指令提供所述数据处理任务的执行结果的下载服务。
由上可见,本发明所公开的用于大数据预分析的方法具有下列优点:能够显著地提高大数据预分析结果的有效性和准确性,并且提高了数据处理操作的效率。
尽管本发明是通过上述的优选实施方式进行描述的,但是其实现形式并不局限于上述的实施方式。应该认识到:在不脱离本发明主旨和范围的情况下,本领域技术人员可以对本发明做出不同的变化和修改。

Claims (6)

1.一种大数据预分析装置,所述大数据预分析装置包括:
命令输入单元,所述命令输入单元接收来自用户的数据查询及分析命令,其中,所述用户能够选择式地或者直接地输入所述数据查询及分析命令;
任务执行及优化单元,所述任务执行及优化单元解析所述数据查询及分析命令以确定其定义的数据处理任务,并随之基于预定规则优化并执行所述数据处理任务;
数据存储单元,所述数据存储单元基于存储优化算法存储所述数据处理任务执行过程中使用的数据;
结果输出单元,所述结果输出单元向用户输出所述数据处理任务的执行结果,
其中,基于预定规则优化并执行所述数据处理任务的步骤包括:根据待执行任务的具体操作并基于预统计的结果进行优化,其中,所述预统计被周期性地或不定期的执行以识别数据取值分布以及数据表的数据量大小,并且所述优化限定针对表关联操作优先加载数据量小的数据表并且限定针对数据过滤操作优先针对取值分布较多的字段进行过滤。
2.根据权利要求1所述的大数据预分析装置,其特征在于,所述数据查询及分析命令是基于SQL语言的命令。
3.根据权利要求1所述的大数据预分析装置,其特征在于,基于预定规则优化并执行所述数据处理任务的步骤进一步包括:根据待执行任务操作的数据字段的数量选择不同存储方式的数据进行操作,即当待执行任务操作的数据字段的数量小于预定阈值时选择列式存储的数据,而当待执行任务操作的数据字段的数量不小于所述预定阈值时选择行列混合式存储的数据。
4.根据权利要求3所述的大数据预分析装置,其特征在于,所述数据存储单元自动地确定所述数据处理任务执行过程中不同操作使用列式存储的数据和行列混合式存储的数据时的处理效率,并根据所确定的处理效率针对特定的数据字段执行数据优化操作,其中所述数据优化操作包括:(1)对经常处理分析的数据字段进行压缩;(2)对关联的数据字段进行联合存储。
5.根据权利要求4所述的大数据预分析装置,其特征在于,所述结果输出单元能够通过显示器向用户呈现所述数据处理任务的执行结果,并且能够基于用户的指令提供所述数据处理任务的执行结果的下载服务。
6.一种用于大数据预分析的方法,所述用于大数据预分析的方法包括下列步骤:
(A1)接收来自用户的数据查询及分析命令,其中,所述用户能够选择式地或者直接地输入所述数据查询及分析命令;
(A2)解析所述数据查询及分析命令以确定其定义的数据处理任务,并随之基于预定规则优化并执行所述数据处理任务;
(A3)基于存储优化算法存储所述数据处理任务执行过程中使用的数据;
(A4)向用户输出所述数据处理任务的执行结果,
其中,基于预定规则优化并执行所述数据处理任务的步骤包括:根据待执行任务的具体操作并基于预统计的结果进行优化,其中,所述预统计被周期性地或不定期的执行以识别数据取值分布以及数据表的数据量大小,并且所述优化限定针对表关联操作优先加载数据量小的数据表并且限定针对数据过滤操作优先针对取值分布较多的字段进行过滤。
CN201510630493.1A 2015-09-29 2015-09-29 用于大数据预分析的方法和装置 Active CN105589920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510630493.1A CN105589920B (zh) 2015-09-29 2015-09-29 用于大数据预分析的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510630493.1A CN105589920B (zh) 2015-09-29 2015-09-29 用于大数据预分析的方法和装置

Publications (2)

Publication Number Publication Date
CN105589920A CN105589920A (zh) 2016-05-18
CN105589920B true CN105589920B (zh) 2019-10-01

Family

ID=55929501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510630493.1A Active CN105589920B (zh) 2015-09-29 2015-09-29 用于大数据预分析的方法和装置

Country Status (1)

Country Link
CN (1) CN105589920B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383886B (zh) * 2016-09-21 2019-08-30 深圳市博瑞得科技有限公司 一种基于大数据分布式编程框架的大数据预统系统及方法
CN111159188B (zh) * 2019-12-28 2023-05-09 北京慧博科技有限公司 基于DataWorks实现准实时大数据量的处理方法
CN111241122B (zh) * 2020-01-07 2024-01-19 广州虎牙科技有限公司 任务监测方法、装置、电子设备和可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737033A (zh) * 2011-03-31 2012-10-17 国际商业机器公司 数据处理设备及其数据处理方法
CN102819589A (zh) * 2012-08-06 2012-12-12 北京久其软件股份有限公司 一种基于etl的数据优化方法及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665671B2 (en) * 2001-04-04 2003-12-16 Hewlett-Packard Development Company, L.P. System and method for optimization of shared data
US8577833B2 (en) * 2012-01-04 2013-11-05 International Business Machines Corporation Automated data analysis and transformation
GB2517787A (en) * 2013-09-03 2015-03-04 Ibm Method and system for accessing a set of data tables in a source database
CN104317928A (zh) * 2014-10-31 2015-01-28 北京思特奇信息技术股份有限公司 一种基于分布式数据库的业务etl方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737033A (zh) * 2011-03-31 2012-10-17 国际商业机器公司 数据处理设备及其数据处理方法
CN102819589A (zh) * 2012-08-06 2012-12-12 北京久其软件股份有限公司 一种基于etl的数据优化方法及设备

Also Published As

Publication number Publication date
CN105589920A (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN105589920B (zh) 用于大数据预分析的方法和装置
EP3165984B1 (en) An event analysis apparatus, an event analysis method, and an event analysis program
CN111400186B (zh) 性能测试方法及系统
CN106033393B (zh) 一种应用程序测试方法及系统以及移动终端
CN108369584B (zh) 信息处理系统、描述符创建方法和描述符创建程序
CN105653647B (zh) Sql语句的信息采集方法及系统
CN105279017A (zh) 基于云测试平台的任务分配方法、装置及系统
CN106502720B (zh) 一种数据处理方法和装置
CN104391748A (zh) 一种mapreduce计算过程优化方法
CN107463441A (zh) 一种线程数量控制方法及设备
CN110941553A (zh) 一种代码检测方法、装置、设备及可读存储介质
CN102880471A (zh) 基于命令行的命令执行方法及命令行操作系统
CN112328254A (zh) 一种数据同步软件的性能优化方法与装置
CN112418735A (zh) 一种基于图计算的电网ai调度系统及方法
CN112182031A (zh) 数据查询方法及装置、存储介质、电子装置
CN102541284B (zh) 一种文字输入中通过目标量进行组合的方法及系统
CN104899216B (zh) 一种废弃话单处理方法及装置
CN111124372A (zh) 一种简化开发图表前后端设计方法及系统
WO2022253131A1 (zh) 数据解析方法、装置、计算机设备和存储介质
CN106970837B (zh) 一种信息处理方法及电子设备
CN113001538B (zh) 一种命令解析方法及系统
CN104484750B (zh) 生物信息项目的产品参数自动匹配方法及系统
CN102315888A (zh) 一种wcdma射频性能自动化测试方法
CN103970605A (zh) 一种基于低性能终端的数据分析方法及装置
CN102854875B (zh) 一种汽车空调控制器测试方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant