CN112307103A - 大数据变现方法、装置及计算机可读介质 - Google Patents
大数据变现方法、装置及计算机可读介质 Download PDFInfo
- Publication number
- CN112307103A CN112307103A CN202011193082.8A CN202011193082A CN112307103A CN 112307103 A CN112307103 A CN 112307103A CN 202011193082 A CN202011193082 A CN 202011193082A CN 112307103 A CN112307103 A CN 112307103A
- Authority
- CN
- China
- Prior art keywords
- data
- analysis model
- data analysis
- etl
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000009877 rendering Methods 0.000 title claims abstract description 15
- 238000007405 data analysis Methods 0.000 claims abstract description 132
- 238000006243 chemical reaction Methods 0.000 claims description 31
- 230000009466 transformation Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000009795 derivation Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 13
- 230000008676 import Effects 0.000 description 11
- WBEJYOJJBDISQU-UHFFFAOYSA-N 1,2-Dibromo-3-chloropropane Chemical compound ClCC(Br)CBr WBEJYOJJBDISQU-UHFFFAOYSA-N 0.000 description 10
- 230000001360 synchronised effect Effects 0.000 description 10
- 239000002184 metal Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013523 data management Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 238000000844 transformation Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0621—Item configuration or customization
Abstract
本发明提供了大数据变现方法、装置及计算机可读介质。根据待变现的目标数据定义数据分析模型;利用所述数据分析模型识别出所述目标数据中的系统表和数据;通过所述数据分析模型,将所述系统表和数据导出为资源包;将所述资源包上传到售卖网站上,以使用户通过所述售卖网站浏览并购买所述资源包。本发明的方案能够快速实现大数据的变现。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及大数据变现方法、装置及计算机可读介质。
背景技术
快速响应经营管理要求一直是大数据分析领域的痛点。如今,很多企业通过数据分析技术产生了很多数据分析模型,数据分析模型能够使大数据的分析变得简单且高效。
目前,其他软件厂商虽提供了大数据分析产品的互联网访问,供用户在线体验产品功能和数据分析模型,但是还缺乏不同环境之间快速共享数据分析模型资源的方法和工具,导致大数据无法实现变现。
因此,需要一种方法来实现大数据的变现。
发明内容
本发明实施例提供了大数据变现方法、装置及计算机可读介质,能够实现大数据的变现。
第一方面,本发明实施例提供了大数据变现方法,包括:
根据待变现的目标数据定义数据分析模型;
利用所述数据分析模型识别出所述目标数据中的系统表和数据;
通过所述数据分析模型,将所述系统表和数据导出为资源包;
将所述资源包上传到售卖网站上,以使用户通过所述售卖网站浏览并购买所述资源包。
优选地,
所述根据待变现的目标数据定义数据分析模型,包括:
新建空白的数据分析模型;
新建所述数据分析模型的分组命名;
新建所述数据分析模型的分析模型和数据仓库技术ETL模型并分别命名;
将所述目标数据导入所述空白的数据分析模型,得到所述数据分析模型。
优选地,
所述利用所述数据分析模型识别出所述目标数据中的系统表和数据,包括:
通过所述ETL模型找到所述目标数据关联的ETL作业;
通过所述ETL作业找到关联的ETL转换;
通过所述ETL转换找到所述目标数据中的所述系统表和所述数据。
优选地,
所述将所述系统表和所述数据导出为资源包,包括:
选择所述数据分析模型;
为所述数据分析模型加密并定义版本号;
检测环境版本和所述数据分析的版本号是否通过;
将所述系统表和所述数据导入所述数据分析模型中,形成所述资源包;
选择导出路径,将所述资源包导出至所述路径。
第二方面,本发明实施例提供了大数据变现装置,包括:
定义单元、识别单元、导出单元和上传单元;
所述定义单元,用于根据待变现的目标数据定义数据分析模型;
所述识别单元,用于利用所述数据分析模型识别出所述目标数据中的系统表和数据;
所述导出单元,用于通过所述数据分析模型,将所述系统表和数据导出为资源包;
所述上传单元,用于将所述资源包上传到售卖网站上,以使用户通过所述售卖网站浏览并购买所述资源包。
优选地,
所述定义单元,用于执行:
新建空白的数据分析模型;
新建所述数据分析模型的分组命名;
新建所述数据分析模型的分析模型和数据仓库技术ETL模型并分别命名;
将所述目标数据导入所述空白的数据分析模型,得到所述数据分析模型。
优选地,
所述识别单元,用于执行:
所述利用所述数据分析模型识别出所述目标数据中的系统表和数据,包括:
通过所述ETL模型找到所述目标数据关联的ETL作业;
通过所述ETL作业找到关联的ETL转换;
通过所述ETL转换找到所述目标数据中的所述系统表和所述数据。
优选地,
所述导出单元,用于执行:
选择所述数据分析模型;
为所述数据分析模型加密并定义版本号;
检测环境版本和所述数据分析的版本号是否通过;
将所述系统表和所述数据导入所述数据分析模型中,形成所述资源包;
选择导出路径,将所述资源包导出至所述路径。
第三方面,本发明实施例提供了大数据变现装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行上述第一方面中任一提供的的大数据变现方法。
第四方面,本发明实施例提供了计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述第一方面中任一提供的的大数据变现方法。
本发明实施例提供了大数据变现方法、装置及计算机可读介质。由上述技术方案可知,根据待变现的目标数据定义数据分析模型;利用所述数据分析模型识别出所述目标数据中的系统表和数据;通过所述数据分析模型,将所述系统表和数据导出为资源包;将所述资源包上传到售卖网站上,以使用户通过所述售卖网站浏览并购买所述资源包。由此可见,本发明提供的方案基于网站方式共享通过大数据分析产品定义的数据分析模型资源,所有人均可下载资源,导入大数据后使用,将资源包上架进行售卖,从而实现企业大数据资产快速变现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的大数据变现方法的流程图;
图2是本发明一实施例提供的大数据变现装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如前所述,企业已经积累了很多数据了,也做了一些分析展现,但企业的管理思想时刻在变,要求也越来越高,快速响应经营管理要求一直是大数据分析领域的痛点。诸多行业企业已经有了优秀的数据分析实践成果,产生了很多优秀的数据分析模型,这些模型能否快速为其他企业提供借鉴甚至复用,使大数据分析变得简单、高效。鉴于此,本发明提供了从大数据分析产品快速导出数据分析模型资源再快速导入另一个环境部署的大数据分析产品的方法和工具。目前,其他软件厂商虽提供了大数据分析产品的互联网访问,供用户在线体验产品功能和数据分析模型,但是还缺乏不同环境之间快速共享数据分析模型资源的方法和工具,本发明较好的服务了该场景,提高大数据分析落地的效率和质量。
下面结合附图对本发明各个实施例提供的大数据变现方法、装置及计算机可读介质作详细说明。
如图1所示,本发明一实施例提供了大数据变现方法,该方法包括以下步骤根据待变现的目标数据定义数据分析模型;
步骤101:根据待变现的目标数据定义数据分析模型;
步骤102:利用所述数据分析模型识别出所述目标数据中的系统表和数据;
步骤103:通过所述数据分析模型,将所述系统表和数据导出为资源包;
步骤104:将所述资源包上传到售卖网站上,以使用户通过所述售卖网站浏览并购买所述资源包。
由上述技术方案可知,根据待变现的目标数据定义数据分析模型;利用所述数据分析模型识别出所述目标数据中的系统表和数据;通过所述数据分析模型,将所述系统表和数据导出为资源包;将所述资源包上传到售卖网站上,以使用户通过所述售卖网站浏览并购买所述资源包。由此可见,本发明提供的方案基于网站方式共享通过大数据分析产品定义的数据分析模型资源,所有人均可下载资源,导入大数据后使用,将资源包上架进行售卖,从而实现企业大数据资产快速变现。
在本发明一实施例中,所述根据待变现的目标数据定义数据分析模型,包括:
新建空白的数据分析模型;
新建所述数据分析模型的分组命名;
新建所述数据分析模型的分析模型和数据仓库技术ETL模型并分别命名;
将所述目标数据导入所述空白的数据分析模型,得到所述数据分析模型。
首先,通过大数据分析产品定义数据分析模型,在前台以可视化页面形式存在,在后台以系统表数据形式存在。数据分析模型的定义需要先完成数据加工,数据加工可以借助专业的数据管理工具,本发明利用数据管理平台(DMP)完成数据的抽取、加工、转换,再进行可视化配置,本发明利用浪潮大数据分析产品GS仪表盘完成可视化配置。通过DMP完成的数据加工存储在DMP相关系统表中,通过GS仪表盘完成的可视化资源存储在GS仪表盘相关系统表中,最终存在形式为产品系统表中的数据。本发明中涉及的数据管理平台(DMP)的表部分如下:
在本发明一实施例中,所述利用所述数据分析模型识别出所述目标数据中的系统表和数据,包括:
通过所述ETL模型找到所述目标数据关联的ETL作业;
通过所述ETL作业找到关联的ETL转换;
通过所述ETL转换找到所述目标数据中的所述系统表和所述数据。
数据模型资源包括中间表、视图、函数、存储过程、ETL转换、ETL作业、ETL调度,在数据管理平台中每一种资源均存储在对应的系统表中,资源之间又建立了关联关系,例如可以通过ETL调度找到关联的ETL作业,通过ETL作业找到关联的ETL转换,通过ETL转换找到对应的表、视图、函数或存储过程,从而实现了在只选择ETL作业的情况下,其关联的其他资源都能够准确的识别并关联到,简化了模型资源的人为识别工作量,提高了资源关联准确性。
具体的转换步骤及代码如下所述:
1:找出该转换在DSM_ETLPROCESS中的数据
查询sql如下:
SELECT*FROM DSM_ETLPROCESS WHERE ETLPROCESS_CAPTIO N='同步演示demo';
2:找出该转换在R_TRANSFORMATION中的数据
查询sql如下:
SELECT*FROM R_TRANSFORMATION WHERE NAME='c687317d-d0 c3-46a2-abba-7a353a9b4afb';
其中name的值为步骤1当中查询出的ETLPROCESS_ID值。
3:找出该转换在R_TRANS_ATTRIBUTE中的数据
查询sql如下:
SELECT*FROM R_TRANS_ATTRIBUTE WHERE ID_TRANSFORMA TION=200
其中ID_TRANSFORMATION的值为步骤2当中查询出的ID_TRANSFORMATION值。
4:找出该转换在R_TRANS_SLAVE中存储的数据
查询sql如下:
SELECT*FROM R_TRANS_SLAVE WHERE ID_TRANSFORMATION=200
其中ID_TRANSFORMATION为步骤2当中查询出的ID_TRANSFORMATION值,该表的查询结果一般为空,若为空,则不同步,若不为空,则该表的数据也需要同步。
5:找出该转换在R_TRANS_CLUSTER中存储的数据
查询sql如下:
SELECT*FROM R_TRANS_CLUSTER WHERE ID_TRANSFORMATI ON=200;
其中ID_TRANSFORMATION为步骤2当中查询出的ID_TRANSFORMATION值,该表的查询结果一般为空,若为空,则不同步,若不为空,则该表的数据也需要同步。
6:找出该转换在DSM_ETLSTEP中存储的数据
查询sql如下:
SELECT*FROM DSM_ETLSTEP WHERE ETLSTEP_ETLID='c687317d-d0c3-46a2-abba-7a353a9b4afb'
其中ETLSTEP_ETLID为步骤1当中查询出的ETLPROCESS_ID值。
7:找出该转换在R_STEP中存储的数据
查询sql如下:
SELECT*FROM R_STEP WHERE ID_TRANSFORMATION=200;
其中ID_TRANSFORMATION为步骤2当中查询出的ID_TRANSFORMATION值。
8:找出该转换在R_STEP_ATTRIBUTE中存储的数据
查询sql如下:
SELECT*FROM R_STEP_ATTRIBUTE WHERE ID_TRANSFORMATI ON=200
其中ID_TRANSFORMATION为步骤2当中查询出的ID_TRANSFORMATION值。
9:找出该转换在R_STEP_DATABASE中存储的数据
查询sql如下:
SELECT*FROM R_STEP_DATABASE WHERE ID_TRANSFORMATI ON=200;
其中ID_TRANSFORMATION为步骤2当中查询出的ID_TRANSFORMATION值。
10:找出该转换在R_TRANS_HOP中存储的数据
查询SQL如下:
SELECT*FROM R_TRANS_HOP WHERE ID_TRANSFORMATION=200;
其中ID_TRANSFORMATION为步骤2当中查询出的ID_TRANSFORMATION值。
11:找出该转换在R_TRANS_STEP_CONDITION中存储的数据
查询SQL如下:
SELECT*FROM R_TRANS_STEP_CONDITION WHERE ID_TRANSF ORMATION=200
其中ID_TRANSFORMATION为步骤2当中查询出的ID_TRANSFORMATION值,若查询结果为空,则该表不需要同步,并跳过下面的步骤1)、2)。若查询结果不为空,则还需要进行以下两表的数据同步:
1):找出该转换在R_CONDITION中存储的数据
查询SQL如下:
SELECT*FROM R_CONDITION WHERE ID_CONDITION IN(SELEC T ID_CONDITIONFROM R_TRANS_STEP_CONDITION WHERE ID_TRAN SFORMATION=200);
其中ID_TRANSFORMATION为步骤2当中查询出的ID_TRANSFORMATION值,若查询结果为空,则该表不需要同步。
2)找出该转换在R_VALUE中存储的数据
查询SQL如下:
SELECT*FROM R_VALUE WHERE ID_VALUE IN(SELECT ID_VA LUE_RIGHT FROM R_CONDITION WHERE ID_CONDITION IN(SELECT ID_CONDITION FROM R_TRANS_STEP_CONDITION WHERE ID_TRANSF ORMATION=200))
其中ID_TRANSFORMATION为步骤2当中查询出的ID_TRANSFORMATION值,若查询结果为空,则该表不需要同步。
12:找出该转换在DSM_ETLRELATION中存储的数据
查询sql如下:
SELECT*FROM DSM_ETLRELATION WHERE ETLID='c687317d-d0c 3-46a2-abba-7a353a9b4afb';
其中ETLID为步骤1当中查询出来的ETLPROCESS_ID值。
13:找出该转换在DSM_TREEMODEL中存储的数据
该过程包括两部分数据:
第1部分:
查询sql如下:
SELECT*FROM DSM_TREEMODEL WHERE OBJECTID='c687317d-d 0c3-46a2-abba-7a353a9b4afb';
其中OBJECTID为步骤一当中查询出的ETLPROCESS_ID值。
第2部分:
查询sql如下,根据数据库种类,该sql不同,其思想在于path的值是否存在于第一部分记录的值:
1)若为oracle数据库
select*from DSM_TREEMODEL where instr('数据加工厂/设计区/工厂分层/ODS/ODS1/ETL转换/同步演示demo',path)>0
其中instr函数中的字符串为第一部分查询出来的path值。
2)若为sqlserver数据库
select*from DSM_TREEMODEL where CHARINDEX(path,'数据加工厂/设计区/工厂分层/ODS/ODS1/ETL转换/同步演示demo')>0
可视化展现资源包括数据集、部件、页面资源,浪潮大数据分析产品GS仪表盘总每一种可视化资源均存储在对应的系统表中,资源之间又建立了关联关系,例如可以通过页面找到关联的部件,通过部件找到关联的数据集。
本发明中涉及的GS仪表盘可视化资源存储表部分示例如下:
--查找数据集
select*from BIDATAFROM where bidatafrom_CODE='MM_C33_QJSBXL'
--查找部件
select*from Baportlet WHERE PORTLETNAME='机器故障'
在本发明一实施例中,所述将所述系统表和所述数据导出为资源包,包括:
选择所述数据分析模型;
为所述数据分析模型加密并定义版本号;
检测环境版本和所述数据分析的版本号是否通过;
将所述系统表和所述数据导入所述数据分析模型中,形成所述资源包;
选择导出路径,将所述资源包导出至所述路径。
明确数据分析模型所需的资源并识别出定义数据分析模型的大数据分析产品中存储相关资源的系统表和数据后,通过程序将表数据导出为一个资源包。本发明包含导出资源的程序,并将程序封装为了非技术人员可操作的导入导出工具。该工具为非技术人员提供数据分析模型创建、数据分析模型导出、数据分析模型导入的功能。在数据分析模型的创建过程中完成数据分析模型的定义、相关资源的识别和关联,在数据分析模型的导出过程完成资源的打包。
以下为导出模型表、维表、函数、存储过程、视图等数据管理平台(DMP)资源的步骤部分示例:
步骤1前台选择导出模型表,维表、函数、存储过程、视图等资源
以导出模型管理中的两个模型表“ODS_税务期间”和“ODS_税务组织”为例,在“模型检测”弹出对话框中选择这两个表,前台的树形结构中可以获得DSM_TREEMODEL表中的uniqueID,将此uniqueID传给后台,调用/api/interface/checkETL后台方法。
步骤2QueryETLModelUtil类
使用QueryETLModelUtil类获得该模型涉及的模型表、维表、转换、作业、调度等资源。
1)根据模型的ID,在本地的myModel数据库的表中,获取模型所包含的作业。
2)递归使用queryNestedJobAndTrans方法,查询出某个作业中嵌套的作业,作业中嵌套的转换、以及转换和作业中嵌套的模型表、维表资源,d)中图一为queryNestedJobAndTrans方法调用的流程图。
3)根据模型表、维表的表名,查询出该表在树形结构DSM_TREEMODEL中的UniqueId值(注意:此处单独处理DMP2.2的“模型输入”和“表输入”组件,因为在DMP2.2中的“模型输入”组件和“表输入”组件可以直接选择主题或者主题域的数据源下的某个表,而在DMP2.3中把“表输入”这个组件删掉了)。
4)拿到要导出的转换、作业、模型表、维表等资源的UniqueId,把拿到的UniqueID当做Objectid字段去查询,调用queryDsmTreemodelByObjectid方法查询DSM_TREEMODEL表。现在模型表、维表等的uniqueId和objectId相同,但是转换和作业的uniqueId和objectId不同。(为什么不同呢,拿一个作业来说,设计区的这个作业发布了,树形结构会在运行区生成一个该作业的图标,所以树形结构上此作业有两个不同的UniqueID;而objectID是相同的,都是这个作业的ID,设计区和运行区的objectID是指向的是同一个作业)。我们要根据运行区选择的作业的UniqueId去查询出设计区该作业的UniqueId,所以只能这样去查询。
5)QueryETLModelUtil类中的queryEtlDatasByNewModelID方法的返回值是树形结构的UniqueID,此方法用来在“检测”按钮中勾选树形结构的;而queryEtlDatas方法的前半部分与queryEtlDatasByNewModelID方法类似,但是它是用来生成MyModel.db文件的。
步骤3CreateExportUtil类
1)exportETLProcess方法中导出涉及转换的信息以及有关转换的树形结构
2)exportProcessflow方法中导出涉及作业的信息以及作业的树形结构
注意:①如果在作业的组件中引用了其他的数据源信息,将此组件所引用的数据源连接导出去,如作业中的“检验数据库连接”组件,将此组件所引用的数据源连接导出去。
②找出该转换在R_DATABASE中使用的数据
③找出转换在R_DATABASE_ATTRIBUTE中使用的数据
④找出该转换在DSM_DBCP中使用的数据
⑤找出该作业在DSM_TREEMODEL中存储的数据以及数据源所需要的DSM_TREEMODEL的数据
3)exportEntableAndOthers方法中导出维表、模型表等以及其相关的树形结构
①根据前台选中的UniqueID值,找出维表、模型表及相关的树形结构
②找出该模型在DSM_ENTABLE中的数据
③找出该模型在DSM_ENTITYFIELD中的数据
④找出该模型在DATASOURCEENTITYTABLE中的数据
4)exportTaskScheduling方法中导出调度以及其相关的树形结构
5)将上面export方法查询出的四个Map合并成一个Map,将数据导出为sqllite数据库的db文件。
最后,将导出的数据分析模型资源包上传到网站上,在经过模型管理员审核后上架到模型市场,网站上所有的用户均可浏览模型,注册后可以下载模型。在数据分析模型的导入过程完成将资源导入到另一个环境的大数据分析产品。本发明通过导入导出工具实现了数据分析模型的快速创建、快速导出、快速导入,整个过程非常的快捷、高效。
DMP导入过程涉及到的问题:
1.导入数据源等数据
因为涉及Kettle的表有的并没有主键,只有ID值。为了解决没有主键的问题,所以从目标库中获取相关ID值的最大值加一,将原值和修改后的键值对传给有关的表并修改,再进行导入操作。
1.1向表DSM_DBCP中导入数据
1)在db文件中,查询出所有DSM_DBCP表的值。在要导入的目标库中,从DSM_DBCP表中获取DBCP_KETTLEDSID字段的最大值并加1。
2)对于每条DSM_DBCP的记录,如果这条记录的UUID已经存在了,目标库中的键值对不变,如果不存在,值变为最大值加1。
3)如果导入库存在名称为“默认数据源连接”的记录,则修改为“导入的默认数据源连接YYYYMMDD”的格式。
4)如果目标数据库中不存在默认数据源连接,并且源库中要导入的数据源连接为默认数据源连接,则源库中要导入的默认数据源连接设置为目标库的默认数据源连接;
如果目标库中存在默认数据源连接,则源库中的默认数据源连接设置为非默认数据源连接。对于DMP2.2来说默认数据源连接的UUID会改变;
而DMP2.3的默认数据源的UUID不变,都为“817eb4c0-017b-46ee-918b-7a823e2deea8”。
5)插入时,先判定DSM_DBCP表是否存在,如果不存在,则根据数据库的类型先创建表。先前导入过一次,再导一遍的情况下,如果是覆盖,则更新DSM_DBCP记录的值,跳过则不执行操作。
1.2向表R_DATABASE中导入数据
1)在向表R_DATABASE中导入数据之前,先对键值对按照key的值进行倒序排序。
2)将R_DATABASE表的ID_DATABASE字段和DSM_DBCP表的DBCP_KETTLEDSID字段关联。
3)目标库中如果不存在该数据源的UUID,根据键值对更新ID_database的值;如果目标库中存在该数据源的uuid,则ID_database的值不变。
1.3向表R_DATABASE_ATTRIBUTE中导入数据
1)目标库中如果不存在该数据源的UUID,根据键值对更新ID_database的值,插入新数据,如果目标库中存在该数据源的uuid,则跳过。
2.导入转换数据
根据覆盖、跳过,判断是否先删后插
1)如果是覆盖,则将目标库中的转换相关数据先删后插;如果是跳过,则只删除目标库树形结构中重复的转换名称。
2)其他请参照数据源的导入数据过程
1.4导入作业、调度数据
根据覆盖、跳过,判断是否先删后插
1)如果是覆盖,则将目标库中的作业(调度)相关数据先删后插;如果是跳过,则只删除目标库树形结构中重复的作业名称。
2)其他请参照数据源的导入数据过程
1.5向目标库中添加建表语句(包括存储过程、函数、视图)
创建表、存储过程、函数、视图
1)DSM_ENTABLE表中存储了要建立的表名等信息,DSM_ENTITYFIELD表中存储了每个表的字段名、精度、长度等信息。从DSM_ENTABLE表中获取到表名,DSM_ENTITYFIELD中获取字段名,再根据数据库的类型,将建表语句拼接出来。
2)DSM_ENTABLE表中Entable_type字段存储不同的表类型:0:代码表1:实体表2:模型3:维表4:数据字典5:视图6:存储过程7:函数
3)当类型为视图、存储过程、函数时,从entable表中获取tEntable_sql字段执行语句并执行
4)如果源库中的表等资源建立在默认数据源下,目标库中的表等资源也要保证建立在该库的默认数据源下。
如图2所示,本发明一实施例提供了大数据变现装置,包括:
定义单元201、识别单元202、导出单元203和上传单元204;
所述定义单元201,用于根据待变现的目标数据定义数据分析模型;
所述识别单元202,用于利用所述数据分析模型识别出所述目标数据中的系统表和数据;
所述导出单元203,用于通过所述数据分析模型,将所述系统表和数据导出为资源包;
所述上传单元204,用于将所述资源包上传到售卖网站上,以使用户通过所述售卖网站浏览并购买所述资源包。
在本发明一实施例中,所述定义单元201,用于执行:
新建空白的数据分析模型;
新建所述数据分析模型的分组命名;
新建所述数据分析模型的分析模型和数据仓库技术ETL模型并分别命名;
将所述目标数据导入所述空白的数据分析模型,得到所述数据分析模型。
在本发明一实施例中,所述识别单元202,用于执行:
所述利用所述数据分析模型识别出所述目标数据中的系统表和数据,包括:
通过所述ETL模型找到所述目标数据关联的ETL作业;
通过所述ETL作业找到关联的ETL转换;
通过所述ETL转换找到所述目标数据中的所述系统表和所述数据。
在本发明一实施例中,所述导出单元203,用于执行:
选择所述数据分析模型;
为所述数据分析模型加密并定义版本号;
检测环境版本和所述数据分析的版本号是否通过;
将所述系统表和所述数据导入所述数据分析模型中,形成所述资源包;
选择导出路径,将所述资源包导出至所述路径。
可以理解的是,本发明实施例示意的结构并不构成对大数据变现装置的具体限定。在本发明的另一些实施例中,大数据变现装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明还提供了一种计算机可读介质,存储用于使一计算机执行如本文所述的大数据变现方法的指令。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元可以通过机械方式或电气方式实现。例如,一个硬件单元可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基于上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
Claims (10)
1.大数据变现方法,其特征在于,包括:
根据待变现的目标数据定义数据分析模型;
利用所述数据分析模型识别出所述目标数据中的系统表和数据;
通过所述数据分析模型,将所述系统表和数据导出为资源包;
将所述资源包上传到售卖网站上,以使用户通过所述售卖网站浏览并购买所述资源包。
2.根据权利要求1所述的方法,其特征在于,
所述根据待变现的目标数据定义数据分析模型,包括:
新建空白的数据分析模型;
新建所述数据分析模型的分组命名;
新建所述数据分析模型的分析模型和数据仓库技术ETL模型并分别命名;
将所述目标数据导入所述空白的数据分析模型,得到所述数据分析模型。
3.根据权利要求2所述的方法,其特征在于,
所述利用所述数据分析模型识别出所述目标数据中的系统表和数据,包括:
通过所述ETL模型找到所述目标数据关联的ETL作业;
通过所述ETL作业找到关联的ETL转换;
通过所述ETL转换找到所述目标数据中的所述系统表和所述数据。
4.根据权利要求1-3中任一所述的方法,其特征在于,
所述将所述系统表和所述数据导出为资源包,包括:
选择所述数据分析模型;
为所述数据分析模型加密并定义版本号;
检测环境版本和所述数据分析的版本号是否通过;
将所述系统表和所述数据导入所述数据分析模型中,形成所述资源包;
选择导出路径,将所述资源包导出至所述路径。
5.大数据变现装置,其特征在于,包括:
定义单元、识别单元、导出单元和上传单元;
所述定义单元,用于根据待变现的目标数据定义数据分析模型;
所述识别单元,用于利用所述数据分析模型识别出所述目标数据中的系统表和数据;
所述导出单元,用于通过所述数据分析模型,将所述系统表和数据导出为资源包;
所述上传单元,用于将所述资源包上传到售卖网站上,以使用户通过所述售卖网站浏览并购买所述资源包。
6.根据权利要求5所述的装置,其特征在于,
所述定义单元,用于执行:
新建空白的数据分析模型;
新建所述数据分析模型的分组命名;
新建所述数据分析模型的分析模型和数据仓库技术ETL模型并分别命名;
将所述目标数据导入所述空白的数据分析模型,得到所述数据分析模型。
7.根据权利要求6所述的装置,其特征在于,
所述识别单元,用于执行:
所述利用所述数据分析模型识别出所述目标数据中的系统表和数据,包括:
通过所述ETL模型找到所述目标数据关联的ETL作业;
通过所述ETL作业找到关联的ETL转换;
通过所述ETL转换找到所述目标数据中的所述系统表和所述数据。
8.根据权利要求5-7中任一所述的装置,其特征在于,
所述导出单元,用于执行:
选择所述数据分析模型;
为所述数据分析模型加密并定义版本号;
检测环境版本和所述数据分析的版本号是否通过;
将所述系统表和所述数据导入所述数据分析模型中,形成所述资源包;
选择导出路径,将所述资源包导出至所述路径。
9.大数据变现装置,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至4中任一所述的大数据变现方法。
10.计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行权利要求1至4中任一所述的大数据变现方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011193082.8A CN112307103A (zh) | 2020-10-30 | 2020-10-30 | 大数据变现方法、装置及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011193082.8A CN112307103A (zh) | 2020-10-30 | 2020-10-30 | 大数据变现方法、装置及计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112307103A true CN112307103A (zh) | 2021-02-02 |
Family
ID=74333012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011193082.8A Pending CN112307103A (zh) | 2020-10-30 | 2020-10-30 | 大数据变现方法、装置及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307103A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923549A (zh) * | 2009-07-29 | 2010-12-22 | 北京航天理想科技有限公司 | 自定义可视化智能轨迹线索分析系统及建立方法 |
US20130117216A1 (en) * | 2011-11-09 | 2013-05-09 | International Business Machines Corporation | Star and snowflake schemas in extract, transform, load processes |
CN103795794A (zh) * | 2014-01-23 | 2014-05-14 | 浪潮集团山东通用软件有限公司 | 通过智能分析云进行商务智能分析模型共享的方法 |
CN106339509A (zh) * | 2016-10-26 | 2017-01-18 | 国网山东省电力公司临沂供电公司 | 一种基于大数据技术的电网运营数据共享系统 |
CN107357856A (zh) * | 2017-06-29 | 2017-11-17 | 广西电网有限责任公司 | 基于电网全景业务模型数据集成及数据服务的实现方法 |
CN108376176A (zh) * | 2018-03-14 | 2018-08-07 | 深圳日彤大数据有限公司 | 可拖拽式大数据可视化分析工具系统 |
CN108846076A (zh) * | 2018-06-08 | 2018-11-20 | 山大地纬软件股份有限公司 | 支持接口适配的海量多源异构数据etl方法及系统 |
CN110109987A (zh) * | 2018-04-03 | 2019-08-09 | 中建材信息技术股份有限公司 | 一种敏捷数据仓库架构及其构建方法和应用 |
CN110825805A (zh) * | 2019-11-12 | 2020-02-21 | 北京东软望海科技有限公司 | 一种数据的可视化方法及装置 |
CN111159191A (zh) * | 2019-12-30 | 2020-05-15 | 深圳博沃智慧科技有限公司 | 一种数据处理方法、装置和界面 |
-
2020
- 2020-10-30 CN CN202011193082.8A patent/CN112307103A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923549A (zh) * | 2009-07-29 | 2010-12-22 | 北京航天理想科技有限公司 | 自定义可视化智能轨迹线索分析系统及建立方法 |
US20130117216A1 (en) * | 2011-11-09 | 2013-05-09 | International Business Machines Corporation | Star and snowflake schemas in extract, transform, load processes |
CN103795794A (zh) * | 2014-01-23 | 2014-05-14 | 浪潮集团山东通用软件有限公司 | 通过智能分析云进行商务智能分析模型共享的方法 |
CN106339509A (zh) * | 2016-10-26 | 2017-01-18 | 国网山东省电力公司临沂供电公司 | 一种基于大数据技术的电网运营数据共享系统 |
CN107357856A (zh) * | 2017-06-29 | 2017-11-17 | 广西电网有限责任公司 | 基于电网全景业务模型数据集成及数据服务的实现方法 |
CN108376176A (zh) * | 2018-03-14 | 2018-08-07 | 深圳日彤大数据有限公司 | 可拖拽式大数据可视化分析工具系统 |
CN110109987A (zh) * | 2018-04-03 | 2019-08-09 | 中建材信息技术股份有限公司 | 一种敏捷数据仓库架构及其构建方法和应用 |
CN108846076A (zh) * | 2018-06-08 | 2018-11-20 | 山大地纬软件股份有限公司 | 支持接口适配的海量多源异构数据etl方法及系统 |
CN110825805A (zh) * | 2019-11-12 | 2020-02-21 | 北京东软望海科技有限公司 | 一种数据的可视化方法及装置 |
CN111159191A (zh) * | 2019-12-30 | 2020-05-15 | 深圳博沃智慧科技有限公司 | 一种数据处理方法、装置和界面 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7383320B1 (en) | Method and apparatus for automatically updating website content | |
US6055543A (en) | File wrapper containing cataloging information for content searching across multiple platforms | |
US6519588B1 (en) | System and method for representing related concepts | |
US7555707B1 (en) | Method and system for data binding in a block structured user interface scripting language | |
US8364683B2 (en) | Importing and reconciling resources from disjoint name spaces to a common namespace | |
KR101122841B1 (ko) | 중첩된 표로 스키마 없는 데이터 매핑을 위한 시스템과방법 | |
US7523141B2 (en) | Synchronization operations involving entity identifiers | |
JP5410514B2 (ja) | X500データモデルをリレーショナル・データベースにマッピングするための方法 | |
US8447786B2 (en) | Language extensions for creating, accessing, querying and updating RDF data | |
US8176097B2 (en) | Maintaining data coherency within related multi-perspective user interfaces via session-less queries | |
CN106547646B (zh) | 一种数据备份及恢复方法、数据备份及恢复装置 | |
US20070288425A1 (en) | Complex data assembly identifier thesaurus | |
US20080250052A1 (en) | Repopulating a database with document content | |
CN111198852A (zh) | 微服务架构下知识图谱驱动的元数据关系推理方法 | |
US8140593B2 (en) | Data viewer management | |
US11829814B2 (en) | Resolving data location for queries in a multi-system instance landscape | |
WO2000065486A2 (en) | A method of mapping semantic context to enable interoperability among disparate sources | |
US8271442B2 (en) | Formats for database template files shared between client and server environments | |
US20130103664A1 (en) | Searches for Similar Documents | |
Parmar et al. | MongoDB as an efficient graph database: An application of document oriented NOSQL database | |
CN108694172B (zh) | 信息输出方法和装置 | |
CN112307103A (zh) | 大数据变现方法、装置及计算机可读介质 | |
CN116048517A (zh) | 基于b/s架构应用系统的api接口生成方法、系统和装置 | |
US20170161359A1 (en) | Pattern-driven data generator | |
US20060026125A1 (en) | Accessing entity data from a UDDI registry |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210202 |
|
RJ01 | Rejection of invention patent application after publication |