CN111143329A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN111143329A
CN111143329A CN201911379896.8A CN201911379896A CN111143329A CN 111143329 A CN111143329 A CN 111143329A CN 201911379896 A CN201911379896 A CN 201911379896A CN 111143329 A CN111143329 A CN 111143329A
Authority
CN
China
Prior art keywords
data
database
generated
structural
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911379896.8A
Other languages
English (en)
Other versions
CN111143329B (zh
Inventor
崔喆
李志明
宁华波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201911379896.8A priority Critical patent/CN111143329B/zh
Publication of CN111143329A publication Critical patent/CN111143329A/zh
Application granted granted Critical
Publication of CN111143329B publication Critical patent/CN111143329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法及装置,其中方法为:获取结构信息;所述结构信息指示了待生成数据库的各结构项;所述结构信息是根据用户从结构项信息库中选择结构项的操作指令生成的;所述结构项数据库中统一配置了生成数据库时可用的多个结构项;至少根据所述结构信息指示的所述各结构项,从原始数据集中提取数据,并将提取到的数据作为所述待生成数据库的数据记录,从而生成所述待生成数据库。

Description

一种数据处理方法及装置
技术领域
本发明涉及数据分析领域,尤其涉及一种数据处理方法及装置。
背景技术
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。用于数据分析的原始数据集在刚获取时,是无关联性杂乱无章的一堆数据,并不能直接用户数据分析。原始数据集需要转化成满足技术人员的具体业务需求的数据集,才能进行数据分析。
目前的方法中,当需要把原始数据时转化为符合业务需求的数据库时,均是根据具体的业务需求,临时搭建符合业务需求的数据库框架,并根据数据库框架的格式从原始数据导入数据,从而形成满足业务需求的数据集。显然,由于每次的数据库框架都是临时的,不同次数据库框架之间的格式标准等并不相同,如年龄字段在A数据库框架中定义的是整数型,在B数据库框架中定义的是字符型,这就会导致生成的满足业务需求的数据库的规范性差,不便于对多个数据集做联合数据分析。
发明内容
本申请提供一种数据处理方法及装置,解决了现有技术中生成的满足业务需求的数据库的规范性差的问题。
第一方面,本申请提供一种数据处理方法,包括:获取结构信息;所述结构信息指示了待生成数据库的各结构项;所述结构信息是根据用户从结构项信息库中选择结构项的操作指令生成的;所述结构项数据库中统一配置了生成数据库时可用的多个结构项;至少根据所述结构信息指示的所述各结构项,从原始数据集中提取数据,并将提取到的数据作为所述待生成数据库的数据记录,从而生成所述待生成数据库。
由于所述结构项数据库统一配置了生成数据库时可用的多个结构项,因此用户从结构项信息库选择结构项后,可以生成指示待生成数据库的各结构项的结构信息,获取了结构信息后,由于各结构项是统一配置的,因此至少根据所述结构信息指示的所述各结构项,从原始数据集中提取到的数据,所述待生成数据库的数据记录也是统一规范的,从而生成的所述待生成数据库是在结构信息库中统一定义的规范下的数据库。
一种可选实施方式中,所述至少根据所述结构信息指示的所述各结构项,从原始数据集中提取数据之前,还包括:获取数值限定条件;所述数值限定条件用于限定从所述原始数据集中提取数据的取值范围;所述至少根据所述结构信息指示的所述各结构项,从原始数据集中提取数据,包括:根据所述结构信息指示的所述各结构项,按照所述数值限定条件,提取所述结构项数据中满足所述数值限定条件的数据。
上述方法中,可以获取用于限定从所述原始数据集中提取数据的取值范围的数值限定条件,之后根据所述结构信息指示的所述各结构项,按照所述数值限定条件,提取所述结构项数据中满足所述数值限定条件的数据,从而提供一种按照数据的取值范围筛选数据的生成所述结构信息指示的所述各结构项的数据库。
一种可选实施方式中,所述根据所述结构信息指示的所述各结构项,按照所述数值限定条件,提取所述结构项数据中满足所述数值限定条件的数据,包括:根据所述结构信息指示的所述各结构项,按照所述数值限定条件,生成结构化查询语言SQL语句;将所述原始数据集作为执行对象,对所述原始数据集执行所述SQL语句,从而提取所述结构项数据中满足所述数值限定条件的数据。
上述方法中,可以通过根据所述结构信息指示的所述各结构项,按照所述数值限定条件,生成结构化查询语言SQL语句,再将所述原始数据集作为执行对象,对所述原始数据集执行所述SQL语句,从而提供了一种通过结构化查询从所述结构项数据提取数据的方法。
一种可选实施方式中,所述各结构项包括所述待生成数据库的各数据表、所述各数据表之间的数据表关联关系、所述各数据表中每个数据表的各字段以及所述各字段之间的字段关联关系,所述至少根据所述结构信息指示的所述各结构项,从原始数据集中提取数据,并将提取到的数据作为所述待生成数据库的数据记录,从而生成所述待生成数据库;包括:生成所述待生成数据库的各数据表,并为所述各数据表添加所述数据表关联关系;针对所述各数据表中每个数据表,按照所述数据表的各字段,从所述原始数据集中提取所述各字段对应的数据,并按所述各字段的字段关联关系将所述各字段对应的数据组合,作为所述待生成数据库中所述数据表的数据记录。
上述方式下,可通过将所述待生成数据库的各数据表、所述各数据表之间的数据表关联关系、所述各数据表中每个数据表的各字段以及所述各字段之间的字段关联关系配置成结构项,从而先生成所述待生成数据库的各数据表,并为所述各数据表添加所述数据表关联关系;并且针对所述各数据表中每个数据表,按照所述数据表的各字段,从所述原始数据集中提取所述各字段对应的数据,并按所述各字段的字段关联关系组成所述待生成数据库中所述数据表的数据记录,从而可以通过各结构项灵活生成满足结构项中定义的各数据表、数据表关联关系等配置的待生成数据库。
第二方面,本申请提供一种数据处理装置,包括:获取模块,用于获取结构信息;所述结构信息指示了待生成数据库的各结构项;所述结构信息是根据用户从结构项信息库中选择结构项的操作指令生成的;所述结构项数据库中统一配置了生成数据库时可用的多个结构项;处理模块,用于至少根据所述结构信息指示的所述各结构项,从原始数据集中提取数据,并将提取到的数据作为所述待生成数据库的数据记录,从而生成所述待生成数据库。
一种可选实施方式中,所述获取模块还用于:获取数值限定条件;所述数值限定条件用于限定从所述原始数据集中提取数据的取值范围;所述处理模块具体用于:根据所述结构信息指示的所述各结构项,按照所述数值限定条件,提取所述结构项数据中满足所述数值限定条件的数据。
一种可选实施方式中,所述处理模块具体用于:根据所述结构信息指示的所述各结构项,按照所述数值限定条件,生成结构化查询语言SQL语句;将所述原始数据集作为执行对象,对所述原始数据集执行所述SQL语句,从而提取所述结构项数据中满足所述数值限定条件的数据。
一种可选实施方式中,所述各结构项包括所述待生成数据库的各数据表、所述各数据表之间的数据表关联关系、所述各数据表中每个数据表的各字段以及所述各字段之间的字段关联关系,所述处理模块具体用于:生成所述待生成数据库的各数据表,并为所述各数据表添加所述数据表关联关系;针对所述各数据表中每个数据表,按照所述数据表的各字段,从所述原始数据集中提取所述各字段对应的数据,并按所述各字段的字段关联关系将所述各字段对应的数据组合,作为所述待生成数据库中所述数据表的数据记录。
上述第二方面及第二方面各个实施方式的有益效果,可以参考上述第一方面及第一方面各个实施方式的有益效果,这里不再赘述。
第三方面,本申请提供一种计算机设备,包括程序或指令,当所述程序或指令被执行时,用以执行上述第一方面及第一方面各个实施方式的方法。
第四方面,本申请提供一种存储介质,包括程序或指令,当所述程序或指令被执行时,用以执行上述第一方面及第一方面各个实施方式的方法。
附图说明
图1为本申请实施例提供的一种数据处理方法的步骤流程示意图;
图2为本申请实施例提供的一种数据处理装置的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图及具体的实施方式对上述技术方案进行详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互结合。
目前的数据分析方法中,当需要把原始数据时转化为符合业务需求的数据库时,均是根据具体的业务需求,临时搭建符合业务需求的数据库框架,并根据数据库框架的格式从原始数据导入数据,从而形成满足业务需求的数据集。显然,这种方式就会导致生成的满足业务需求的数据库的规范性差,不便于对多个数据集做联合数据分析。
为此,如图1所示,本申请提供一种数据处理方法。
步骤101:获取结构信息。
步骤102:至少根据所述结构信息指示的所述各结构项,从原始数据集中提取数据,并将提取到的数据作为所述待生成数据库的数据记录,从而生成所述待生成数据库。
步骤101~步骤102中的待生成数据库的类型有多种,举例来说,待生成数据库为cube。cube适用于多维分析。多维分析是业务分析的一项主要手段,因此如何快速地生成多维分析cube并对其进行有效的管理对cube来说至关重要。
所述结构信息指示了待生成数据库的各结构项;所述结构信息是根据用户从结构项信息库中选择结构项的操作指令生成的;所述结构项数据库中统一配置了生成数据库时可用的多个结构项。
步骤102的一种可选实施方式中,所述各结构项包括所述待生成数据库的各数据表、所述各数据表之间的数据表关联关系、所述各数据表中每个数据表的各字段以及所述各字段之间的字段关联关系,所述至少根据所述结构信息指示的所述各结构项,从原始数据集中提取数据,并将提取到的数据作为所述待生成数据库的数据记录,从而生成所述待生成数据库;具体来说,步骤102可以按以下方式执行:
生成所述待生成数据库的各数据表,并为所述各数据表添加所述数据表关联关系;针对所述各数据表中每个数据表,按照所述数据表的各字段,从所述原始数据集中提取所述各字段对应的数据,并按所述各字段的字段关联关系将所述各字段对应的数据组合,作为所述待生成数据库中所述数据表的数据记录。
以cube举例来说,所述各结构项为cube中定义的各数据表,cube元数据由三张数据表组成meta_cube,meta_fact,meta_dimension。meta_fact数据表通过fact_table_name关联到meta_cube数据表,通过dim_table_name关联到meta_dimension数据表。其中,meta_cube数据表包括sso(字段的数据类型为varchar(50))、cube_id等字段。meta_fact数据表包括sso(字段的数据类型为varchar)、fact_table_name等字段。再有,meta_dimension数据表包括dim_table_name(字段类型为varchar(100))等字段。
下面详细描述各结构项中各数据表的结构。
meta_cube数据表管理所有的cube主题,每条记录代表一个cube主题。举例来说,如表1所示,meta_cube数据表的字段有:
sso 访问本主题所需权限
cube_id 多维分析主题Id,一般为事实表的表名
cube_name 多维分析主题中文名称
…… ……
表1
meta_fact数据表管理cube的事实表的字段,每条记录代表事实表的一个字段。所有事实表的每一个字段均记录在meta_fact数据表中。
如表2所示,事实表的字段有:
Figure BDA0002341971890000061
Figure BDA0002341971890000071
表2
meta_dimension数据表管理cube的维度表的字段,一条记录代表维度表的一个字段。所有维度表的每一个字段均记录在该表中。如表3所示,meta_dimension数据表的字段主要有:
dim_table_name 维度表名称
dim_table_desc 维度表描述
field 字段
……. ……
表3
由于每种业务不尽相同,数据表的设计也不尽相同。因此可以根据具体业务对数据表的内容、数量等进行灵活设置,上述表1~表3仅作为示例。
上述方式下,可通过将所述待生成数据库的各数据表、所述各数据表之间的数据表关联关系、所述各数据表中每个数据表的各字段以及所述各字段之间的字段关联关系配置成结构项,从而先生成所述待生成数据库的各数据表,并为所述各数据表添加所述数据表关联关系;并且针对所述各数据表中每个数据表,按照所述数据表的各字段,从所述原始数据集中提取所述各字段对应的数据,并按所述各字段的字段关联关系组成所述待生成数据库中所述数据表的数据记录,从而可以通过各结构项灵活生成满足结构项中定义的各数据表、数据表关联关系等配置的待生成数据库。
需要说明的是,在步骤102之前的一种可选实施方式中,还可以获取数值限定条件。所述数值限定条件用于限定从所述原始数据集中提取数据的取值范围。在此基础上,步骤102的具体执行方式为:
根据所述结构信息指示的所述各结构项,按照所述数值限定条件,提取所述结构项数据中满足所述数值限定条件的数据。
举例来说,对于某个字段L,数值限定条件中指示了字段L的取值范围为集合一,那么只将字段L取值满足集合一的数据从所述结构项数据中提取出来。
上述方法中,可以获取用于限定从所述原始数据集中提取数据的取值范围的数值限定条件,之后根据所述结构信息指示的所述各结构项,按照所述数值限定条件,提取所述结构项数据中满足所述数值限定条件的数据,从而提供一种按照数据的取值范围筛选数据的生成所述结构信息指示的所述各结构项的数据库。
步骤102的一种可选实施方式中,所述根据所述结构信息指示的所述各结构项,按照所述数值限定条件,提取所述结构项数据中满足所述数值限定条件的数据,包括:根据所述结构信息指示的所述各结构项,按照所述数值限定条件,生成结构化查询语言SQL语句;将所述原始数据集作为执行对象,对所述原始数据集执行所述SQL语句,从而提取所述结构项数据中满足所述数值限定条件的数据。
需要说明的是,上述SQL语句可能不是一次性生成的,可以根据具体的结构项拼接生成SQL语句。举例来说,先根据所述结构信息指示的所述各结构项生成子SQL语句一,再根据数值限定条件生成子SQL语句二,那么将子SQL语句一和子SQL语句二拼接后,便是执行时需要的SQL语句。
上述方法中,可以通过根据所述结构信息指示的所述各结构项,按照所述数值限定条件,生成结构化查询语言SQL语句,再将所述原始数据集作为执行对象,对所述原始数据集执行所述SQL语句,从而提供了一种通过结构化查询从所述结构项数据提取数据的方法。
需要说明的是,由于所述结构项数据库统一配置了生成数据库时可用的多个结构项,因此用户从结构项信息库选择结构项后,可以生成指示待生成数据库的各结构项的结构信息,获取了结构信息后,由于各结构项是统一配置的,因此至少根据所述结构信息指示的所述各结构项,从原始数据集中提取到的数据,所述待生成数据库的数据记录也是统一规范的,从而生成的所述待生成数据库是在结构信息库中统一定义的规范下的数据库。另外,由于所述结构项数据库中统一配置了生成数据库时可用的多个结构项,因此待生成数据库在生成过程可以直接调用已统一配置的结构项,因此步骤101~步骤103的方法还能加快待生成数据库生成的效率,同时可以动态有效地管理待生成数据库。
本申请提供一种数据处理装置,包括:获取模块201,用于获取结构信息;所述结构信息指示了待生成数据库的各结构项;所述结构信息是根据用户从结构项信息库中选择结构项的操作指令生成的;所述结构项数据库中统一配置了生成数据库时可用的多个结构项;处理模块202,用于至少根据所述结构信息指示的所述各结构项,从原始数据集中提取数据,并将提取到的数据作为所述待生成数据库的数据记录,从而生成所述待生成数据库。
一种可选实施方式中,所述获取模块201还用于:获取数值限定条件;所述数值限定条件用于限定从所述原始数据集中提取数据的取值范围;所述处理模块202具体用于:根据所述结构信息指示的所述各结构项,按照所述数值限定条件,提取所述结构项数据中满足所述数值限定条件的数据。
一种可选实施方式中,所述处理模块202具体用于:根据所述结构信息指示的所述各结构项,按照所述数值限定条件,生成结构化查询语言SQL语句;将所述原始数据集作为执行对象,对所述原始数据集执行所述SQL语句,从而提取所述结构项数据中满足所述数值限定条件的数据。
一种可选实施方式中,所述各结构项包括所述待生成数据库的各数据表、所述各数据表之间的数据表关联关系、所述各数据表中每个数据表的各字段以及所述各字段之间的字段关联关系,所述处理模块202具体用于:生成所述待生成数据库的各数据表,并为所述各数据表添加所述数据表关联关系;针对所述各数据表中每个数据表,按照所述数据表的各字段,从所述原始数据集中提取所述各字段对应的数据,并按所述各字段的字段关联关系将所述各字段对应的数据组合,作为所述待生成数据库中所述数据表的数据记录。
本申请实施例提供一种计算机设备,包括程序或指令,当所述程序或指令被执行时,用以执行本申请实施例提供的一种数据处理方法及任一可选方法。
本申请实施例提供一种存储介质,包括程序或指令,当所述程序或指令被执行时,用以执行本申请实施例提供的一种数据处理方法及任一可选方法。
最后应说明的是:本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取结构信息;所述结构信息指示了待生成数据库的各结构项;所述结构信息是根据用户从结构项信息库中选择结构项的操作指令生成的;所述结构项数据库中统一配置了生成数据库时可用的多个结构项;
至少根据所述结构信息指示的所述各结构项,从原始数据集中提取数据,并将提取到的数据作为所述待生成数据库的数据记录,从而生成所述待生成数据库。
2.如权利要求1所述的方法,其特征在于,所述至少根据所述结构信息指示的所述各结构项,从原始数据集中提取数据之前,还包括:
获取数值限定条件;所述数值限定条件用于限定从所述原始数据集中提取数据的取值范围;
所述至少根据所述结构信息指示的所述各结构项,从原始数据集中提取数据,包括:
根据所述结构信息指示的所述各结构项,按照所述数值限定条件,提取所述结构项数据中满足所述数值限定条件的数据。
3.如权利要求2所述的方法,其特征在于,所述根据所述结构信息指示的所述各结构项,按照所述数值限定条件,提取所述结构项数据中满足所述数值限定条件的数据,包括:
根据所述结构信息指示的所述各结构项,按照所述数值限定条件,生成结构化查询语言SQL语句;
将所述原始数据集作为执行对象,对所述原始数据集执行所述SQL语句,从而提取所述结构项数据中满足所述数值限定条件的数据。
4.如权利要求1或2所述的方法,其特征在于,所述各结构项包括所述待生成数据库的各数据表、所述各数据表之间的数据表关联关系、所述各数据表中每个数据表的各字段以及所述各字段之间的字段关联关系,所述至少根据所述结构信息指示的所述各结构项,从原始数据集中提取数据,并将提取到的数据作为所述待生成数据库的数据记录,从而生成所述待生成数据库;包括:
生成所述待生成数据库的各数据表,并为所述各数据表添加所述数据表关联关系;
针对所述各数据表中每个数据表,按照所述数据表的各字段,从所述原始数据集中提取所述各字段对应的数据,并按所述各字段的字段关联关系将所述各字段对应的数据组合,作为所述待生成数据库中所述数据表的数据记录。
5.一种数据处理装置,其特征在于,包括:
获取模块,用于获取结构信息;所述结构信息指示了待生成数据库的各结构项;所述结构信息是根据用户从结构项信息库中选择结构项的操作指令生成的;所述结构项数据库中统一配置了生成数据库时可用的多个结构项;
处理模块,用于至少根据所述结构信息指示的所述各结构项,从原始数据集中提取数据,并将提取到的数据作为所述待生成数据库的数据记录,从而生成所述待生成数据库。
6.如权利要求5所述的装置,其特征在于,所述获取模块还用于:
获取数值限定条件;所述数值限定条件用于限定从所述原始数据集中提取数据的取值范围;
所述处理模块具体用于:
根据所述结构信息指示的所述各结构项,按照所述数值限定条件,提取所述结构项数据中满足所述数值限定条件的数据。
7.如权利要求6所述的装置,其特征在于,所述处理模块具体用于:
根据所述结构信息指示的所述各结构项,按照所述数值限定条件,生成结构化查询语言SQL语句;
将所述原始数据集作为执行对象,对所述原始数据集执行所述SQL语句,从而提取所述结构项数据中满足所述数值限定条件的数据。
8.如权利要求5或6所述的装置,其特征在于,所述各结构项包括所述待生成数据库的各数据表、所述各数据表之间的数据表关联关系、所述各数据表中每个数据表的各字段以及所述各字段之间的字段关联关系,所述处理模块具体用于:
生成所述待生成数据库的各数据表,并为所述各数据表添加所述数据表关联关系;
针对所述各数据表中每个数据表,按照所述数据表的各字段,从所述原始数据集中提取所述各字段对应的数据,并按所述各字段的字段关联关系将所述各字段对应的数据组合,作为所述待生成数据库中所述数据表的数据记录。
9.一种计算机设备,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至4中任意一项所述的方法被执行。
10.一种存储介质,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至4中任意一项所述的方法被执行。
CN201911379896.8A 2019-12-27 2019-12-27 一种数据处理方法及装置 Active CN111143329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911379896.8A CN111143329B (zh) 2019-12-27 2019-12-27 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911379896.8A CN111143329B (zh) 2019-12-27 2019-12-27 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN111143329A true CN111143329A (zh) 2020-05-12
CN111143329B CN111143329B (zh) 2024-02-13

Family

ID=70521164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911379896.8A Active CN111143329B (zh) 2019-12-27 2019-12-27 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN111143329B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860700A (zh) * 2021-02-22 2021-05-28 北京互金新融科技有限公司 数据表的生成方法及装置、存储介质及电子装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673287A (zh) * 2009-10-16 2010-03-17 金蝶软件(中国)有限公司 一种sql语句生成方法及系统
CN104750826A (zh) * 2015-03-31 2015-07-01 克拉玛依红有软件有限责任公司 一种结构化数据资源元数据自动甄别与动态注册方法
CN107704539A (zh) * 2017-09-22 2018-02-16 清华大学 大规模文本信息批量结构化的方法及装置
CN107729330A (zh) * 2016-08-10 2018-02-23 阿里巴巴集团控股有限公司 获取数据集的方法和装置
CN108052681A (zh) * 2018-01-12 2018-05-18 毛彬 一种关系型数据库间结构化数据的同步方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673287A (zh) * 2009-10-16 2010-03-17 金蝶软件(中国)有限公司 一种sql语句生成方法及系统
CN104750826A (zh) * 2015-03-31 2015-07-01 克拉玛依红有软件有限责任公司 一种结构化数据资源元数据自动甄别与动态注册方法
CN107729330A (zh) * 2016-08-10 2018-02-23 阿里巴巴集团控股有限公司 获取数据集的方法和装置
CN107704539A (zh) * 2017-09-22 2018-02-16 清华大学 大规模文本信息批量结构化的方法及装置
CN108052681A (zh) * 2018-01-12 2018-05-18 毛彬 一种关系型数据库间结构化数据的同步方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860700A (zh) * 2021-02-22 2021-05-28 北京互金新融科技有限公司 数据表的生成方法及装置、存储介质及电子装置
CN112860700B (zh) * 2021-02-22 2024-05-07 北京互金新融科技有限公司 数据表的生成方法及装置、存储介质及电子装置

Also Published As

Publication number Publication date
CN111143329B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN107861859B (zh) 一种基于微服务架构的日志管理方法及系统
CN110908997B (zh) 数据血缘构建方法、装置、服务器及可读存储介质
KR102468930B1 (ko) 관심대상 문서 필터링 시스템 및 그 방법
CN106547918B (zh) 一种统计数据的整合方法及系统
JP2010524060A (ja) 分散コンピューティングにおけるデータマージング
CN111339171B (zh) 数据查询的方法、装置及设备
CN107247811B (zh) 基于Oracle数据库的SQL语句性能优化方法及装置
CN108829884B (zh) 数据映射方法及装置
CN104536987B (zh) 一种查询数据的方法及装置
CN109753596B (zh) 用于大规模网络数据采集的信源管理与配置方法和系统
CN110704484A (zh) 一种对海量实时数据流进行处理的方法及系统
CN105095436A (zh) 数据源数据自动建模方法
CN107945092A (zh) 用于审计领域的大数据综合管理方法及系统
CN111046059B (zh) 基于分布式数据库集群的低效sql语句分析方法及系统
CN113326238A (zh) 一种数据处理方法、装置、设备及存储介质
CN114328981B (zh) 基于模式映射的知识图谱建立和数据获取方法、装置
CN111026709A (zh) 基于集群访问的数据处理方法及装置
CN111143329B (zh) 一种数据处理方法及装置
CN113779349A (zh) 数据检索系统、装置、电子设备和可读存储介质
KR102345410B1 (ko) 빅데이터 지능형 수집 방법 및 장치
CN110874366A (zh) 数据处理、查询方法和装置
CN112052253B (zh) 数据处理方法、电子设备及存储介质
CN115185973A (zh) 一种数据资源共享方法、平台、装置及存储介质
CN114253914A (zh) 一种分布式数据采集系统及方法
CN109063201B (zh) 一种基于混合存储方案的impala在线交互式查询方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant