CN112364003A

CN112364003A - 一种用于不同行业的大数据治理方法、装置、设备和介质

Info

Publication number: CN112364003A
Application number: CN202011239848.1A
Authority: CN
Inventors: 吴志雄; 甘俊奇; 翁安禄
Original assignee: Fujian Weidun Science And Technology Group Co ltd; Linewell Software Co Ltd
Current assignee: Fujian Weidun Science And Technology Group Co ltd; Linewell Software Co Ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-12

Abstract

本发明提供一种用于不同行业的大数据治理方法、装置、设备和介质，方法包括：对于接入的数据进行数据定义；对所述数据进行数据标准化，将字段转化成标准的字段名称‑数据元；建立主体与要素的基于数据项的关联关系；根据数据定义判断是否需要对所述数据进行提取；若需要，则针对数据组织内的资源库建立要素流转模型；并针对数据组织内的主题库，建立主体要素模型，提高平台在多地域多行业内的数据治理。

Description

一种用于不同行业的大数据治理方法、装置、设备和介质

技术领域

本发明涉及计算机技术领域，特别涉及一种用于不同行业的大数据治理方法、装置、设备和介质。

背景技术

随着信息化的发展，大数据概念的爆发，各行业都开始进行大数据治理，挖掘数据更深的价值，因此各种大数据治理平台应运而生。

数据治理的传统方法是接入一张新的表或一份新的文件，接入后都由数据分析人员对这张新的表进行分析处理，都需要由人去推动整个治理过程，因此数据治理平台普片存在几个问题：

1、初次治理是最有效的，后期效果越来越差。

初次治理往往都会花上很大力气，建立数据组织体系，挖掘数据价值，随着接入数据不断多样，很难在去主动对新数据进行研究挖掘。

2、不同行业，不同地域治理的对象都不一样，往往需要对数据进行反复处理，不同行业地域进行数据梳理就是一个庞大的工作量，而无法复用性制约平台的发展。

因此，如何对新数据进行自动解析，而非需要手动进行建模，如何提高工作的可复用性，是本发明的方向。

发明内容

本发明要解决的技术问题，在于提供一种用于不同行业的大数据治理方法、装置、设备和介质，提高平台在多地域多行业内的数据治理。

第一方面，本发明提供了一种用于不同行业的大数据治理方法，包括：

步骤1、对于接入的数据进行数据定义；

步骤2、对所述数据进行数据标准化，将字段转化成标准的字段名称-数据元；

步骤3、建立主体与要素的基于数据项的关联关系；

步骤4、根据数据定义判断是否需要对所述数据进行提取；若需要，则针对数据组织内的资源库建立要素流转模型；并针对数据组织内的主题库，建立主体要素模型。

进一步地，所述组织体系包括原始库、资源库、主题库以及业务库，数据经过清洗以及转换后汇聚进入原始库；对原始库中的数据进行要素提取至资源库；对原始库中的数据进行主体提取至主题库。

进一步地，所述步骤2进一步具体为：配置字段转化规则，采用sqoop将源数据接入到HIVE，在通过hiveSQL对数据进行规则化处理，将字段转化成标准的字段名称-数据元。

进一步地，所述要素流转模型是根据接入数据的数据定义，将要素提取出来，分别流转进要素重点行为库，要素分布库，要素关系库以及要素关联库；所述主体要素模型是将同一主体的要素重点行为库，要素分布库，要素关系库以及要素关联库进行合并。

第二方面，本发明提供了一种用于不同行业的大数据治理装置，包括：

定义模块，对于接入的数据进行数据定义；

标准化模块，对所述数据进行数据标准化，将字段转化成标准的字段名称-数据元；

关联模块，建立主体与要素的基于数据项的关联关系；

治理模块，根据数据定义判断是否需要对所述数据进行提取；若需要，则针对数据组织内的资源库建立要素流转模型；并针对数据组织内的主题库，建立主体要素模型。

进一步地，所述标准化模块进一步具体为：配置字段转化规则，采用sqoop将源数据接入到HIVE，在通过hiveSQL对数据进行规则化处理，将字段转化成标准的字段名称-数据元。

第三方面，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的方法。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本申请实施例提供的方法、装置、设备和介质，对要接入的数据，无论是以表的形式还是以文件的形式都必须进行数据定义，同时以本平台的数据标准进行数据接入，提取数据中的主体和要素。通过建立主体要素流转模型智能建设数据组织体系。本发明采用的技术是hadoop+hive+spark进行数据接入和流转，涉及的数据库为oracle,mysql,mpp等关系型数据库，hbase,es等非关系型数据库。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明方法的流程图；

图2为本发明方法的数据标准化流程图；

图3为本发明方法的主体与要素关联示意图；

图4为本发明方法的模型示意图；

图5位本发明方法的要素关联库示意图；

图6位本发明方法的要素关系库示意图；

图7位本发明方法的要素重点行为库示意图；

图8位本发明方法的要素分布库示意图；

图9为本发明实施例二中装置的结构示意图。

具体实施方式

本申请实施例通过提供一种用于不同行业的大数据治理方法、装置、设备和介质，提高平台在多地域多行业内的数据治理。

本申请实施例中的技术方案，总体思路如下：

如图1所示，本发明一种智能建设数据组织体系的方法，具体包括以下几个步骤：

步骤1、对要接入本系统的数据进行数据定义，数据定义包括业务定义，行业定义，来源定义，用途定义，通过定义判段是否需要对这份数据进行自动提取及模型设置的建设依据。

数据定义的值来源于治理对象的所有数据的特征：如公安数据的治理的业务定义有国内安全保卫，经济犯罪侦查，治安管理，刑事侦查，出入境管理，网络安全保卫等；行业定义有法院，检察院，统计，物价，工商，交通管理等；用途定义有业务表，字典表，关联表，日志表等。

步骤2、对要接入的数据进行数据标准的转化，将字段转化成标准的字段名称-数据元，如图2所示。本发明通过前端WEB配置字段转化规则，将转化规则送到数据处理模块进行规则转化。本发明采用sqoop将源数据接入到HIVE，在通过hiveSQL对数据进行规则化处理，生成新的表及数据结构。

步骤3、如图3所示，建立主体与要素的基于数据项(数据元，限定词+数据元)的关联关系(如主体人的要素为电话，身份证)；

步骤4、针对数据组织内的资源库建立要素流转模型，如图4上半部分所示，根据接入数据的业务定义(决定哪些数据可以提取出要素进入要素库)，将要素提取出来，分别流转进要素重点行为库，要素分布库，要素关系库，要素关联库(图5-图8)。本发明通过前端WEB先设计模型算法，将模型算法提交到数据处理模块，使用sparkstreaming流式算法对接入的数据按照模型算法规则进行实时提取要素。如图4所示，模型算法为：

1.后台判断这张表是不是轨迹类定义的表；

这个判断在接入这张表的时候，实施人员就通过系统功能进行了设置；

2.这张表被判断了是轨迹类表就可以进一步操作，判断这张表上的字段是否有代表要素的字段如：SFZH(身份证号，可以看图2那边我们对接入的数据都进行了字段转化成标准字段)，代表时间的字段，代表位置的字段。

3.如果有，后台就对这张表进行操作，将这张表的这几个字段提取出来，接入到要素轨迹库去；

4.要素轨迹更新后，我们继续去表里找是否这个要素是什么主体的要素，如果找到这个主体，我们就可以继续更新这个主体的轨迹主题；模型算法就是根据WEB端的图形代表的规则去后端进行运算处理。

步骤5、针对数据组织(数据组织请注意看图1)内的主题库，建立主体要素模型，如图4下半部分所示，根据要素的轨迹和要素关联库内同一主体下的不同要素，可以将同一主体的轨迹主题合并起来。

本发明采用hadoop+spark的大数据框架体系，在接入端适配oracle,mysql等主流关系型数据库，适配hbase,es等非关系型数据库，适配zip等文件型数据。

本发明将多源异构的数据整合在一起，并进行多样性的数据定义，根据产品的行业知识及数据分析人员专业知识规范其出处、作用、行为，并对数据治理针对的行业，分析主体，要素。不同行业间的主体和要素既有相同，也有个性化。

本发明建立的数据组织体系包含原始库，资源库，主题库，业务库；所述业务库指的是根据实际的应用需求去生成的表供应用系统迪欧用的数据库。数据在经过清洗，转换后汇聚进原始库，从原始库开始对数据进行提取要素进要素资源库，根据要素之间的碰撞，丰富主题库。例如：将人做为一个主体，人的要素是各类证件，或者电话号码。主题库就是关与这个人这个主体可能生成的各类主题，比如轨迹主题。我们在接入数据的时候可能接入电信类的数据，电话号码+位置+时间；也可能接入政务类数据，比如某某证件+位置+时间。这时候通过基础数据也就是这个人的电话号码和身份证都能代表这个人，那么这两个要素就有了关联。我们就生成了这个人，在某某时间在什么位置的一个轨迹主题表。

本发明的重点在于：根据各行业既定的数据标准，如公安的数据标准，教育的数据标准，企业的数据标准，先对接入的数据进行标准转化，再根据标准元素与要素主体之间的关系，将主体要素与实际数据关联上，将多源异构的数据变成平台认识的数据，以此为基础开始治理，建立模型，进行数据组织体系的建设。

实施例一

本实施例提供一种方法，如图1所示，包括；

步骤1、对于接入的数据进行数据定义；

步骤2、配置字段转化规则，采用sqoop将源数据接入到HIVE，在通过hiveSQL对数据进行规则化处理，将字段转化成标准的字段名称-数据元；

步骤3、建立主体与要素的基于数据项的关联关系；

步骤4、根据数据定义判断是否需要对所述数据进行提取；若需要，则针对数据组织内的资源库建立要素流转模型；并针对数据组织内的主题库，建立主体要素模型，所述组织体系包括原始库、资源库、主题库以及业务库，数据经过清洗以及转换后汇聚进入原始库；对原始库中的数据进行要素提取至资源库；对原始库中的数据进行主体提取至主题库。

所述要素流转模型是根据接入数据的数据定义，将要素提取出来，分别流转进要素重点行为库，要素分布库，要素关系库以及要素关联库；所述主体要素模型是将同一主体的要素重点行为库，要素分布库，要素关系库以及要素关联库进行合并。

基于同一发明构思，本申请还提供了与实施例一中的方法对应的装置，详见实施例二。

实施例二

在本实施例中提供了一种装置，如图9所示，包括：

定义模块，对于接入的数据进行数据定义；

标准化模块，配置字段转化规则，采用sqoop将源数据接入到HIVE，在通过hiveSQL对数据进行规则化处理，将字段转化成标准的字段名称-数据元；

关联模块，建立主体与要素的基于数据项的关联关系；

治理模块，根据数据定义判断是否需要对所述数据进行提取；若需要，则针对数据组织内的资源库建立要素流转模型；并针对数据组织内的主题库，建立主体要素模型，所述组织体系包括原始库、资源库、主题库以及业务库，数据经过清洗以及转换后汇聚进入原始库；对原始库中的数据进行要素提取至资源库；对原始库中的数据进行主体提取至主题库。

由于本发明实施例二所介绍的装置，为实施本发明实施例一的方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

基于同一发明构思，本申请提供了实施例一对应的电子设备实施例，详见实施例三。

实施例三

本实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，可以实现实施例一中任一实施方式。

由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备，故而基于本申请实施例一中所介绍的方法，本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式，所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备，都属于本申请所欲保护的范围。

基于同一发明构思，本申请提供了实施例一对应的存储介质，详见实施例四。

实施例四

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，可以实现实施例一中任一实施方式。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：本申请实施例提供的方法、装置、设备及介质，

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种用于不同行业的大数据治理方法，其特征在于：包括：

步骤1、对于接入的数据进行数据定义；

步骤3、建立主体与要素的基于数据项的关联关系；

2.根据权利要求1所述的一种用于不同行业的大数据治理方法，其特征在于：所述组织体系包括原始库、资源库、主题库以及业务库，数据经过清洗以及转换后汇聚进入原始库；对原始库中的数据进行要素提取至资源库；对原始库中的数据进行主体提取至主题库。

3.根据权利要求1所述的一种用于不同行业的大数据治理方法，其特征在于：所述步骤2进一步具体为：配置字段转化规则，采用sqoop将源数据接入到HIVE，在通过hiveSQL对数据进行规则化处理，将字段转化成标准的字段名称-数据元。

4.根据权利要求1所述的一种用于不同行业的大数据治理方法，其特征在于：所述要素流转模型是根据接入数据的数据定义，将要素提取出来，分别流转进要素重点行为库，要素分布库，要素关系库以及要素关联库；所述主体要素模型是将同一主体的要素重点行为库，要素分布库，要素关系库以及要素关联库进行合并。

5.一种用于不同行业的大数据治理装置，其特征在于：包括：

定义模块，对于接入的数据进行数据定义；

关联模块，建立主体与要素的基于数据项的关联关系；

6.根据权利要求5所述的一种用于不同行业的大数据治理装置，其特征在于：所述组织体系包括原始库、资源库、主题库以及业务库，数据经过清洗以及转换后汇聚进入原始库；对原始库中的数据进行要素提取至资源库；对原始库中的数据进行主体提取至主题库。

7.根据权利要求5所述的一种用于不同行业的大数据治理装置，其特征在于：所述标准化模块进一步具体为：配置字段转化规则，采用sqoop将源数据接入到HIVE，在通过hiveSQL对数据进行规则化处理，将字段转化成标准的字段名称-数据元。

8.根据权利要求5所述的一种用于不同行业的大数据治理装置，其特征在于：所述要素流转模型是根据接入数据的数据定义，将要素提取出来，分别流转进要素重点行为库，要素分布库，要素关系库以及要素关联库；所述主体要素模型是将同一主体的要素重点行为库，要素分布库，要素关系库以及要素关联库进行合并。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4任一项所述的方法。