CN108984631A

CN108984631A - 一种大数据的生成及调用方法和装置

Info

Publication number: CN108984631A
Application number: CN201810637942.9A
Authority: CN
Inventors: 刘勇; 蔡春娥
Original assignee: Shenzhen Dingfeng Cattle Technology Co Ltd
Current assignee: Shenzhen Dingfeng Cattle Technology Co Ltd
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2018-12-11

Abstract

本发明提供了一种大数据的生成及调用方法，包括如下步骤：获取数据；对所述数据进行加密以获得加密数据；将所述加密数据导入数据库中；响应用户输入的关键词以查看与关键词相关联的目标数据的请求；配置所述目标数据的地址和报文；配置相应的解密方法；根据所述关键词查出与所述关键词关联的目标数据的地址和报文；调用并解密所述目标数据；显示所述目标数据。本发明通过用户通过将数据接入数据库，再通过用户请求配置数据的地址和请求报文及进行加解密，不用再重复建设相关功能，简化了系统构建，也便于实现大数据的分析与处理。

Description

一种大数据的生成及调用方法和装置

技术领域

本发明涉及数据存储和处理领域，尤其涉及一种大数据的生成及调用方法和装置。

背景技术

一直以来，功能测试的时候都是使用有限的几笔数据进行功能验证，但是一直存在生产数据的问题，即使是有性能测试，也会由于数据的复杂性及系统的复杂性，忽视系统对多样数据的兼容性处理。

存在这类问题原因：1.业务数据的生成复杂；2.很难对批量数据进行请求以及结果的分析；3.非生产敏感数据未纳入在测试过程中使用

研究此项目的意义:随着系统越来越复杂，而且数据的类型复杂性增强。简单的使用几笔数据进行验证已经很难达到测试的目标。不可避免的造成问题遗漏到生产中。

现有的方案，一种是使用相应的性能测试工具函数生成有限的、生成规则预测的数据，这种生成的数据种类受到限制，缺乏真实性；另一种是使用其他工具把数据放入到文件中，然后在请求的过程中去使用，但是这种方案很难遍历到加密数据。

发明内容

本发明针对现有方式的缺点，提出一种大数据的生成及调用方法和装置，用以解决现有技术存在的上述问题。

根据本发明的第一个方面，提供了一种大数据的生成及调用方法，包括如下步骤：

获取数据；

对所述数据进行加密以获得加密数据；

将所述加密数据导入数据库中；

响应用户输入的关键词以查看与关键词相关联的目标数据的请求；

配置所述目标数据的地址和报文；

配置相应的解密方法；

根据所述关键词查出与所述关键词关联的目标数据的地址和报文；

调用并解密所述目标数据；

显示所述目标数据。

进一步的，所述获取数据，是指，使用etl和/或hive工具获取数据。

进一步的，所述数据库为本地数据库。

进一步的，根据所述关键词以查出与所述关键词关联的目标数据的地址和报文，是指，

根据所述关键词使用sql脚本查出与所述关键词关联的目标数据的地址和报文。

进一步的，所述配置所述目标数据的地址和报文，是指，

配置所述目标数据在json请求中的地址和相应的请求报文。

进一步的，还包括，若未配置相应的解密方法，则禁止对目标数据做任何操作。

进一步的，还包括，配置所述目标数据的地址和报文之前，指明所述目标数据的类型。

进一步的，还包括，

在显示所述目标数据之后，响应用户查看目标数据完成的指令后，返回并加密所述目标数据。

另一方面，本发明提供了一种大数据的生成及调用装置，包括：

获取模块，用于获取数据；

加密模块，用于对所述数据进行加密以获得加密数据；

存储模块，用于将所述加密数据导入数据库中；

响应模块，用于响应用户输入的关键词以查看与关键词相关联的目标数据的请求；

第一配置模块，用于配置所述目标数据的地址和报文；

第二配置模块，用于配置相应的解密方法；

搜索模块，用于根据所述关键词查出与所述关键词关联的目标数据的地址和报文；

处理模块，用于调用并解密所述目标数据；

显示模块，用于显示所述目标数据。

进一步的，还包括，所述第一配置模块配置所述目标数据的地址和报文之前，处理模块指明所述目标数据的类型。

与现有技术相比，本发明的有益效果是：

1、本发明通过用户通过将数据接入数据库，再通过用户请求配置数据的地址和请求报文及进行加解密，不仅覆盖数据全面，能够遍历到加密数据，实现了大数据的分析与处理；而且不用针对加密数据再构建相关的功能，简化了系统构建；

2、通过使用etl和/或hive工具获取数据可避免数据的加载和导出，从而保证效率，提高系统的可监控性；

3、通过使用sql脚本查出与关键词关联的目标数据的地址和报文，可减少数据过多时的执行时间，从而提高系统运转速度、减少死机。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例一中的一种大数据的生成及调用方法的流程图之一；

图2为本发明实施例一中的一种大数据的生成及调用方法的流程图之二；

图3为本发明实施例二中的一种大数据的生成及调用装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分例，实施而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

实施例一

如图1和图2所示，提供了本发明一个实施例的一种大数据的生成及调用方法，包括如下步骤：

S101获取数据；

具体的，使用etl和/或hive工具获取数据。

etl，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。etl一词较常用在数据仓库，但其对象并不限于数据仓库。etl是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。

etl的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。而影响质量问题的原因有很多，由系统集成和历史数据造成的原因主要包括：业务系统不同时期系统之间数据模型不一致；业务系统不同时期业务过程有变化；旧系统模块在运营、人事、财务、办公系统等相关信息的不一致；遗留系统和新业务、管理系统数据集成不完备带来的不一致性。

实现etl，首先要实现etl转换的过程。体现为以下几个方面：

1、空值处理：可捕获字段空值，进行加载或替换为其他含义数据，并可根据字段空值实现分流加载到不同目标库；

2、规范化数据格式：可实现字段格式约束定义，对于数据源中时间、数值、字符等数据，可自定义加载格式；

3、拆分数据：依据业务需求对字段可进行分解。例，主叫号861082585313-8148，可进行区域码和电话号码分解；

4、验证数据正确性：可利用Lookup及拆分功能进行数据验证。例如，主叫号861082585313-8148，进行区域码和电话号码分解后，可利用Lookup返回主叫网关或交换机记载的主叫地区，进行数据验证；

5、数据替换：对于因业务因素，可实现无效数据、缺失数据的替换；6、Lookup：查获丢失数据Lookup实现子查询，并返回用其他手段获取的缺失字段，保证字段完整性；

7、建立etl过程的主外键约束：对无依赖性的非法数据，可替换或导出到错误数据文件中，保证主键唯一记录的加载。

etl架构

在etl架构中，数据的流向是从源数据流到etl工具，etl工具是一个单独的数据处理引擎，一般会在单独的硬件服务器上，实现所有数据转化的工作，然后将数据加载到目标数据仓库中，如果要增加整个etl过程的效率，则只能增强etl工具服务器的配置，优化系统处理流程(一般可调的东西非常少)。

etl架构的优势：

1、etl可以分担数据库系统的负载(采用单独的硬件服务器)

2、etl相对于EL-T架构可以实现更为复杂的数据转化逻辑

3、etl采用单独的硬件服务器。.

4、etl与底层的数据库数据存储无关。

5、在etl架构中，etl只负责提供图形化的界面来设计业务规则，数据的整个加工过程都在目标和源的数据库之间流动，etl协调相关的数据库系统来执行相关的应用，数据加工过程既可以在源数据库端执行，也可以在目标数据仓库端执行(主要取决于系统的架构设计和数据属性)。当etl过程需要提高效率，则可以通过对相关数据库进行调优，或者改变执行加工的服务器就可以达到。一般数据库厂商会力推该种架构，像Oracle和Teradata都极力宣传etl架构。

etl架构的优势：

etl主要通过数据库引擎来实现系统的可扩展性(尤其是当数据加工过程在晚上时，可以充分利用数据库引擎的资源)

etl可以保持所有的数据始终在数据库当中，避免数据的加载和导出，从而保证效率，提高系统的可监控性。

etl可以根据数据的分布情况进行并行处理优化，并可以利用数据库的固有功能优化磁盘I/O。

etl的可扩展性取决于数据库引擎和其硬件服务器的可扩展性。

通过对相关数据库进行性能调优，etl过程获得3到4倍的效率提升一般不是特别困难。

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析

hive构建在基于静态批处理的Hadoop之上，Hadoop通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此，hive并不能够在大规模数据集上实现低延迟快速的查询，例如，hive在几百MB的数据集上执行查询一般有分钟级的时间延迟。因此，

hive并不适合那些需要低延迟的应用，例如，联机事务处理(OLTP)。hive查询操作过程严格遵守Hadoop MapReduce的作业执行模型，hive将用户的HiveQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上，Hadoop监控作业执行过程，然后返回作业执行结果给用户。Hive并非为联机事务处理而设计，hive并不提供实时的查询和基于行级的数据更新操作。hive的最佳使用场合是大数据集的批处理作业，例如，网络日志分析。

hive的设计特点如下。

●支持索引，加快数据查询。

●不同的存储类型，例如，纯文本文件、HBase中的文件。

●将元数据保存在关系数据库中，大大减少了在查询过程中执行语义检查的时间。

●可以直接使用存储在Hadoop文件系统中的数据。

●内置大量用户函数UDF来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF函数来完成内置函数无法实现的操作。

●类SQL的查询方式，将SQL查询转换为MapReduce的job在Hadoop集群上执行。

hive体系结构

主要分为以下几个部分：

1、用户接口

用户接口主要有三个：CLI，Client和WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个hive副本。Client是hive的客户端，用户连接至Hive Server。在启动Client模式的时候，需要指出HiveServer所在节点，并且在该节点启动Hive Server。WUI是通过浏览器访问hive。

2、元数据存储

hive将元数据存储在数据库中，如mysql、derby。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性(是否为外部表等)，表的数据所在目录等。

3、解释器、编译器、优化器、执行器

解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后由MapReduce调用执行。

4、Hadoop

hive的数据存储在HDFS中，大部分的查询由MapReduce完成(包含*的查询，比如select*from tbl不会生成MapReduce任务)。

5、数据存储

首先，hive没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组织hive中的表，只需要在创建表的时候告诉hive数据中的列分隔符和行分隔符，hive就可以解析数据。

其次，hive中所有的数据都存储在HDFS中，hive中包含以下数据模型：表(Table)，外部表(External Table)，分区(Partition)，桶(Bucket)。

hive中的Table和数据库中的Table在概念上是类似的，每一个Table在hive中都有一个相应的目录存储数据。例如，一个表pvs，它在HDFS中的路径为：/wh/pvs，其中，wh是在hive-site.xml中由${hive.metastore.warehouse.dir}指定的数据仓库的目录，所有的Table数据(不包括External Table)都保存在这个目录中。

Partition对应于数据库中的Partition列的密集索引，但是hive中Partition的组织方式和数据库中的很不相同。在hive中，表中的一个Partition对应于表下的一个目录，所有的Partition的数据都存储在对应的目录中。例如：pvs表中包含ds和city两个Partition，则对应于ds＝20090801,ctry＝US的HDFS子目录为：/wh/pvs/ds＝20090801/ctry＝US；对应于ds＝20090801,ctry＝CA的HDFS子目录为；/wh/pvs/ds＝20090801/ctry＝CA

Buckets对指定列计算hash，根据hash值切分数据，目的是为了并行，每一个Bucket对应一个文件。将user列分散至32个bucket，首先对user列的值计算hash，对应hash值为0的HDFS目录为：/wh/pvs/ds＝20090801/ctry＝US/part-00000；hash值为20的HDFS目录为：/wh/pvs/ds＝20090801/ctry＝US/part-00020

External Table指向已经在HDFS中存在的数据，可以创建Partition。它和Table在元数据的组织上是相同的，而实际数据的存储则有较大的差异。

Table的创建过程和数据加载过程(这两个过程可以在同一个语句中完成)，在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。

External Table只有一个过程，加载数据和创建表同时完成(CREATEEXTERNALTABLE……LOCATION)，实际数据是存储在LOCATION后面指定的HDFS路径中，并不会移动到数据仓库目录中。当删除一个External Table时，仅删除元数据，表中的数据不会真正被删除。

hive基本数据类型

hive支持多种不同长度的整型和浮点型数据，支持布尔型，也支持无长度限制的字符串类型。例如：TINYINT、SMALINT、BOOLEAN、FLOAT、DOUBLE、STRING等基本数据类型。这些基本数据类型和其他sql方言一样，都是保留字。

hive集合数据类型

hive中的列支持使用struct、map和array集合数据类型。大多数关系型数据库中不支持这些集合数据类型，因为它们会破坏标准格式。关系型数据库中为实现集合数据类型是由多个表之间建立合适的外键关联来实现。在大数据系统中，使用集合类型的数据的好处在于提高数据的吞吐量，减少寻址次数来提高查询速度。

使用集合数据类型创建表实例：

CREATE TABLE STUDENTINFO

(

NAME STRING,

FAVORITE ARRAY<STRING>,

COURSE MAP<STRING,FLOAT>,

ADDRESS STRUCT<CITY:STRING,STREET:STRING>

)

查询语法：SELECT S.NAME,S.FAVORITE[0],S.COURSE["ENGLISH"],S.ADDRESS.CITY FROM STUDENTINFO S；

hive分区表

创建分区表：create table employee(name string,age int,sex string)partitioned by(city string)row format delimited fields terminated by'\t'；

分区表装载数据：load data local inpath'/usr/local/lee/employee'intotable employee partition(city＝'hubei')。

S102对数据进行加密以获得加密数据；

S103将加密数据导入数据库中；

数据库为本地数据库。

S104响应用户输入的关键词以查看与关键词相关联的目标数据的请求；

具体的，根据关键词使用sql脚本查出与关键词关联的目标数据的地址和报文。

sql脚本在导数据时，可减少数据过多时的执行时间，从而提高系统运转速度减少宕机。

S105配置目标数据的地址和报文；

具体的，配置目标数据在json请求中的地址和相应的请求报文。

json(JavaScript Object Notation,JS对象简谱)是一种轻量级的数据交换格式。它基于ECMAScript(欧洲计算机协会制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得json成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。

在JS语言中，一切都是对象。因此，任何支持的类型都可以通过json来表示，例如字符串、数字、对象、数组等。但是对象和数组是比较特殊且常用的两种类型。

对象：对象在JS中是使用花括号包裹{}起来的内容，数据结构为{key1：value1,key2：value2,...}的键值对结构。在面向对象的语言中，key为对象的属性，value为对应的值。键名可以使用整数和字符串来表示。值的类型可以是任意类型。

数组：数组在JS中是方括号[]包裹起来的内容，数据结构为["java","javascript","vb",...]的索引结构。在JS中，数组是一种比较特殊的数据类型，它也可以像对象那样使用键值对，但还是索引使用得多。同样，值的类型可以是任意类型。

配置目标数据的地址和报文之前，还需指明所述目标数据的类型。

数据类型如下：

Character字符串：

数据类型	描述	存储
			char(n)	固定长度的字符串，最多8,000个字符	n
varchar(n)	可变长度的字符串，最多8,000个字符
			varchar(max)	可变长度的字符串，最多1,073,741,824个字符
text	可变长度的字符串，最多2GB字符数据

Unicode字符串：

Binary类型：

数据类型	描述	存储
			bit	允许0、1或NULL
binary(n)	固定长度的二进制数据，最多8,000字节
			varbinary(n)	可变长度的二进制数据，最多8,000字节
varbinary(max)	可变长度的二进制数据，最多2GB字节
			image	可变长度的二进制数据，最多2GB

Number类型：

Date类型：

其他数据类型：

S106配置相应的解密方法；

若未配置相应的解密方法，则禁止后续对目标数据做任何操作，但可以验证。

S107根据关键词查出与关键词关联的目标数据的地址和报文；

报文包含了将要发送的完整的数据信息，其长短很不一致。(可分为自由报文和数字报文)报文也是网络传输的单位,传输过程中会不断的封装成分组、包、帧来传输，封装的方式就是添加一些信息段，那些就是报文头以一定格式组织起来的数据。比如里面有报文类型,报文版本,报文长度,报文实体等等信息。完全与系统定义,或自定义的数据结构同义。

S108调用并解密目标数据；

S109显示目标数据。

在显示目标数据之后，响应用户查看目标数据完成的指令后，返回并加密目标数据。

实施例二

如图3所示，提供了本发明另一个实施例的一种大数据的生成及调用装置，包括：

获取模块A201，用于获取数据；

具体的，获取模块A201使用etl和/或hive工具获取数据。

加密模块A202，用于对数据进行加密以获得加密数据；

存储模块A203，用于将加密数据导入数据库中；

数据库为本地数据库。

响应模块A204，用于响应用户输入的关键词以查看与关键词相关联的数据的请求；

处理模块A208指明目标数据的类型。

第一配置模块A205，用于配置目标数据的地址和报文；

具体的，第一配置模块A205配置目标数据在json请求中的地址和相应的请求报文。

第二配置模块A206，用于配置相应的解密方法；

若第二配置模块A206未配置相应的解密方法，则禁止对目标数据做任何操作。

搜索模块A207，用于根据关键词查出与关键词关联的目标数据的地址和报文；

具体的，搜索模块A207根据关键词使用sql脚本查出与关键词关联的目标数据的地址和报文。

处理模块A208，用于调用并解密目标数据；

显示模块A209，用于显示目标数据。

在显示模块A209显示目标数据之后，响应模块A204响应用户查看目标数据完成的指令，处理模块A208返回目标数据，加密模块A202加密目标数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的模块、相关工作单元和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的2个实施例中，应该理解到，所揭露的方法、系统、装置、模块和/或单元，可以通过其它的方式实现。例如，以上所描述的方法实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种大数据的生成及调用方法，其特征在于，包括如下步骤：

获取数据；

对所述数据进行加密以获得加密数据；

将所述加密数据导入数据库中；

配置所述目标数据的地址和报文；

配置相应的解密方法；

调用并解密所述目标数据；

显示所述目标数据。

2.根据权利要求1所述的方法，其特征在于，所述获取数据，是指，使用etl和/或hive工具获取数据。

3.根据权利要求1所述的方法，其特征在于，所述数据库为本地数据库。

4.根据权利要求1所述的方法，其特征在于，所述配置所述目标数据的地址和报文，是指，

配置所述目标数据在json请求中的地址和相应的请求报文。

5.根据权利要求1所述的方法，其特征在于，根据所述关键词以查出与所述关键词关联的目标数据的地址和报文，是指，

6.根据权利要求1所述的方法，其特征在于，还包括，配置所述目标数据的地址和报文之前，指明所述目标数据的类型。

7.根据权利要求1所述的方法，其特征在于，还包括，若未配置相应的解密方法，则禁止对目标数据做任何操作。

8.根据权利要求1所述的方法，其特征在于，还包括，

9.一种大数据的生成及调用装置，其特征在于，包括：