CN112231315A

CN112231315A - 一种基于大数据的数据治理方法

Info

Publication number: CN112231315A
Application number: CN202011488067.6A
Authority: CN
Inventors: 白文娟; 裴芳
Original assignee: Wuhan Fansong Technology Co ltd
Current assignee: Wuhan Fansong Technology Co ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-01-15

Abstract

本发明提供了一种基于大数据的数据治理方法，包括现有数据评估、剖析、探查，形成文档，进行实时维护和存储，制定数据标准和计划和实施数据清洗，搭建数据资产目录，梳理接入数据；建立数据模型，优化数据分析，参考行业模型和基础数据标准，在大数据平台上搭建数据分类模型，然后在数据模型的基础上进行数据整合。本发明可以通过一种数据处理方法将企业数据进行数据预处理、数据存储与管理、计算处理、数据挖掘与分析、数据应用等步骤，能够协调各种预处理操作以保证快速高效处理大量数据，并应用到统一的企业大数据平台上，能够满足企业信息规划的合理性与统筹性的需求，进一步辅助企业高层决策者为业务规划提供有效的分析参考依据。

Description

一种基于大数据的数据治理方法

技术领域

本发明涉及一种基于大数据的数据治理方法，属于数据治理技术领域。

背景技术

根据行业信息化发展的现状，结合当今行业数据治理的要求，大型集团或政务管理部门现阶段数据管理方面存在以下不足：（1）数据多头管理，缺少专门对数据管理进行监督和控制的组织。信息系统的建设和管理职能分散在各部门，致使数据管理的职责分散，权责不明确。组织机构各部门关注数据的角度不一样，缺少一个组织从全局的视角对数据进行管理，导致无法建立统一的数据管理规程、标准等，相应的数据管理监督措施无法得到落实。组织机构的数据考核体系也尚未建立，无法保障数据管理标准和规程的有效执行。（2）多系统分散建设，没有规范统一的数据标准和数据模型。组织机构为应对迅速变化的市场和社会需求，逐步建立了各自的信息系统，各部门站在各自的立场生产、使用和管理数据，使得数据分散在不同的部门和信息系统中，缺乏统一的数据规划、可信的数据来源和数据标准，导致数据不规范、不一致、冗余、无法共享等问题出现，组织机构各部门对数据的理解难以应用一致的语言来描述，导致理解不一致。（3）缺少统一的主数据，组织机构核心系统间的人员等主要信息并不是存储在一个独立的系统中，或者不是通过统一的业务管理流程在系统间维护。缺乏对集团公司或政务单位主数据的管理，就无法保障主数据在整个业务范围内保持一致、完整和可控，导致业务数据正确性无法得到保障。（4）缺乏统一的集团型数据质量管理流程体系。当前现状中数据质量管理主要由各组织部门分头进行；跨局跨部门的数据质量沟通机制不完善；缺乏清晰的跨局跨部门的数据质量管控规范与标准，数据分析随机性强，存在业务需求不清的现象，影响数据质量；数据的自动采集尚未全面实现，处理过程存在人为干预问题，很多部门存在数据质量管理人员不足、知识与经验不够、监管方式不全面等问题；缺乏完善的数据质量管控流程和系统支撑能力。

发明内容

为了解决现有技术的不足，本发明提供了一种基于大数据的数据治理方法，能够实现海量数据采集、存储、分布式计算、突发事件应对，具备对各种格式、类型的数据进行加工、处理、识别、解析的能力，为将来经营者能够及时掌握全面的经营状况，迅速做出科学决策提供平台支持。

本发明为解决其技术问题所采用的技术方案是：提供了一种基于大数据的数据治理方法，包括以下步骤：

S1、对现有数据进行评估，梳理存在的问题；

S2、根据存在的问题对现有数据进行剖析和探查，形成贴合业务数据实际情况的文档；

S3、利用数据复核处理方法和数据防泄漏放篡改方法对文档中的数据进行实时维护；

S4、数据存储：将文档中的数据采取分级存储的方式存储，并对其中存储备份的数据定期测试以确保数据的完整性和可访问性；在对数据进行修改前，利用申请审批方式进行权限确认；

S5、搭建数据资产目录，梳理接入数据；

S6、制定数据标准和计划和实施数据清洗，数据资产目录通过数据标准进行分类聚集，数据质量通过数据标准进行设定，数据安全通过数据标准进行分级，过滤不符合要求的数据，处理后的数据分为主数据和元数据，主数据的信息流为：任意业务触发对主数据的改动时，将整合之后完整准确的主数据传送给所有相关的应用系统，主数据作为决策支持的数据元；

S7、建立数据模型，优化数据分析，参考行业模型和基础数据标准，在大数据平台上搭建数据分类模型，然后在数据模型的基础上进行数据整合。

步骤S1所述的现有数据包括设计、生产、采购、物流、销售、客户群体分类和产品区域销售量类型数据。

步骤S2通过以下过程形成文档：采用标签基于打标的人群分析模型对现有数据进行项集分类和规则建立，利用关联规则挖掘Apriori先验算法获得各个项集和规则在所有事物中出现的频率，确定规则用于给定数据集的频繁程度，并以此为依据构建完整标签体系和用户画像，根据标签体系和用户画像形成文档。

步骤S4中，文档中的数据的存储介质包括本地磁盘、磁带、远程磁盘阵列以及光盘库。

步骤S5中数据资产目录包括以下对数据的描述：数据标准和数据质量的描述；各类数据资产的业务描述，数据资产包括结构化数据、非结构化数据、数据接口、报表和模型；数据资产轮廓的描述，数据资产状态的描述，数据资产安全的描述，数据资产脱敏的描述以及数据资产声明周期的描述；

制定数据标准包括以下过程：现有数据来源于不同系统，并具有不同维度，为每个维度建立标准化的编码方式和数据格式，对于不同系统的不同维度的数据，通过创建维度的映射关系表的方式映射到标准化后的维度上；基于已经确定的业务数据，综合数据使用方的业务需求，按照业务类型和数据类型构建企业数据的数据标准；依据业务的逻辑关系进行关联整合，依据业务类型和空间位置对业务数据进行分类整合；

数据清洗采用从下到上的逐级处理方式，文档中的数据包括业务信息和业务信息对应的数据，先整理业务信息再整理业务对应的数据，对业务信息进行分类汇总融合处理，对数据进行合并同类项和确定责任方的方式处理；不同的业务类型分别实施数据清洗；

数据脱敏包括以下过程：制定脱敏规程，确定脱敏数据，定义脱敏规则，执行脱敏工作，以及验证脱敏成效。

步骤S5通过K-Means聚类算法对数据资产目录进行分类聚集。

步骤S6建立数据资产目录具体包括以下过程：将文档中的数据汇总成初始数据资产目录，通过对部门业务、数据和信息化情况的全面调查，掌握整体情况，理清类型和属性，明确资源数量和状态；将数据细化到文档表单和重要指标项，直到通过对初始数据资产目录持续细化处理形成完整的数据资源目录，最终覆盖所有指标项；

梳理接入数据具体包括以下过程：各部门共享交换的数据首先通过ETL技术从各部门内部的生产库采集到前置库，同时进行简单的数据清洗、转换，各个业务部门完成交换前置库与原有业务系统之间的桥接，通过ETL技术将业务系统需要共享交换的数据抽取到前置库。

本发明基于其技术方案所具有的有益效果在于：

本发明提供的一种基于大数据的数据治理方法可以通过一种数据处理方法将企业数据进行数据预处理、数据存储与管理、计算处理、数据挖掘与分析、数据应用等步骤，能够协调各种预处理操作以保证快速高效处理大量数据，并应用到统一的企业大数据平台上，能够满足企业信息规划的合理性与统筹性的需求，进一步辅助企业高层决策者为业务规划提供有效的分析参考依据。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于大数据的数据治理方法，包括以下步骤：

S1、对现有数据进行评估，梳理存在的问题。面对不同来源，不同类型的海量数据，进行分析整理，从杂乱无章的数据堆砌找出存在的问题，主要包含不完整的数据、错误的数据、重复的数据三大类。所述的现有数据包括设计、生产、采购、物流、销售、客户群体分类和产品区域销售量类型数据。

S2、根据存在的问题对现有数据进行剖析和探查，形成贴合业务数据实际情况的文档，具体通过以下过程形成文档：采用标签基于打标的人群分析模型对现有数据进行项集分类和规则建立，利用关联规则挖掘Apriori先验算法（关联分析先验算法）获得各个项集和规则在所有事物中出现的频率，确定规则用于给定数据集的频繁程度，并以此为依据构建完整标签体系和用户画像，根据标签体系和用户画像形成文档。

采用标签基于打标的人群分析模型，通过关联规则挖掘Apriori先验算法，关联规则的强度用它的支持度（support）和置信度（confidence）来度量，一个项集或者规则在所有事物中出现的频率，确定规则可以用于给定数据集的频繁程度。将过去一段时间内活跃的人群进行实时数据更新与分析，进行数据拉通，利用客流分析、客户来源分析，构建完整标签体系和用户画像并形成文档。算法解释如下：

其中

是关联规则的支持度，表示事务包含A和B的并集（即包含A和B中的每个项）的概率，即A和B同时出现的概率。

是关联规则的置信度，表示A和B同时出现的概率占A出现概率的比值。

例如，对于以下整理好的标签体系：

人物属性：性别、职业、年龄、学历、收入；

行为标签：浏览媒体、浏览内容；消费水平、消费频次、消费心态；

时空标签：城市、地点、上网时间、浏览渠道、浏览内容；

兴趣标签：归类整理各大类兴趣点，如：价格，质量，销量；

交易数据：实际订单、客单件、订单转化率、促销响应率等。

通过以上的标签体系，可以从关联规则支持度和置信度分析“人物属性”、“行为标签”、“兴趣标签”和“时空标签”等规则算出“交易数据”和其他一些我们想要的数据模型。

以利用人群分析模型进行处理为例，可得到如下文档：

通过标签体系，我们生产对应的标签库以及标签对应的文档（xml，json，图片等），以便于根据这些标签数据提取我们需要数据，根据这些数据建立业务模型。

S3、利用数据复核处理方法和数据防泄漏放篡改方法对文档中的数据进行实时维护；对于手工流程中产生的数据在相关制度中明确要求，并通过事中复核、事后检查等手段保证其准确性和完整性，并对不同种类的数据分别采取不同的措施防止数据泄漏或数据被篡改。

S4、数据存储：将文档中的数据采取分级存储的方式存储，并对其中存储备份的数据定期测试以确保数据的完整性和可访问性；在对数据进行修改前，利用申请审批方式进行权限确认；文档中的数据的存储介质包括本地磁盘、磁带、远程磁盘阵列以及光盘库。

S5、搭建数据资产目录，梳理接入数据；具体包括以下过程：将文档中的数据汇总成初始数据资产目录，通过对部门业务、数据和信息化情况的全面调查，掌握整体情况，理清类型和属性，明确资源数量和状态；将数据细化到文档表单和重要指标项，直到通过对初始数据资产目录持续细化处理形成完整的数据资源目录，最终覆盖所有指标项；

梳理接入数据具体包括以下过程：各部门共享交换的数据首先通过ETL（Extract-Transform-Load，数据仓库技术）技术从各部门内部的生产库采集到前置库，同时进行简单的数据清洗、转换，各个业务部门完成交换前置库与原有业务系统之间的桥接，通过ETL技术将业务系统需要共享交换的数据抽取到前置库。所述的ETL技术是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据，ETL是BI（商业智能）项目重要的一个环节。

S6、制定数据标准和计划和实施数据清洗，数据资产目录通过数据标准进行分类聚集，数据质量通过数据标准进行设定，数据安全通过数据标准进行分级，过滤不符合要求的数据。数据分为主数据和元数据，其中主数据分散存储在企业各系统内，是对企业至关重要的核心业务实体的数据，比如客户、供应商、员工等，企业通过制定准则、策略、流程、业务规则和度量指标来管理主数据的质量，元数据是关于数据的数据，如技术名称、业务名称、位置、重要性、与企业中其他数据项的关系等，元数据可以用来记录数据血缘关系，跟踪和记录数据血缘有利于数据源的追溯和查找数据存在的问题，主数据的信息流为：任意业务触发对主数据的改动时，将整合之后完整准确的主数据传送给所有相关的应用系统，主数据作为决策支持的数据元。

数据资产目录包括以下对数据的描述：数据标准和数据质量的描述；各类数据资产的业务描述，数据资产包括结构化数据、非结构化数据、数据接口、报表和模型；数据资产轮廓的描述，数据资产状态的描述，数据资产安全的描述，数据资产脱敏的描述以及数据资产声明周期的描述。

制定数据标准包括以下过程：现有数据来源于不同系统，并具有不同维度，为每个维度建立标准化的编码方式和数据格式，为数据标准化打下基础，将不同数据源标识同一事物的不同属性值进行统一。所述的维度是指人们观察、思考与表述某事物的“思维角度”，简称“维度”。例如，人们观察与思考“月亮”这个事物，可以从月亮的“内容、时间、空间”三个思维角度去描述；也可以从月亮的“载体、能量、信息”三个思维角度去描述。

对于不同系统的不同维度，可以通过创建维度的映射关系表，将其映射到标准化后的维度上。基于已经确定的业务数据，综合数据使用方的业务需求，按照业务类型和数据类型构建企业数据的数据标准。依据业务的逻辑关系进行关联整合，依据业务类型和空间位置对业务数据进行分类整合。

数据清洗是对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。数据清洗的任务是过滤不符合要求的数据，不符合要求的数据主要包含不完整的数据、错误的数据、重复的数据三大类。数据清洗从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致内容、重复数据等问题。数据清洗采用从下到上的逐级处理方式，文档中的数据包括业务信息和业务信息对应的数据，先整理业务信息再整理业务对应的数据，对业务信息进行分类汇总融合处理，对数据进行合并同类项和确定责任方的方式处理；不同的业务类型分别实施数据清洗。

数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。这样就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。数据脱敏是从原始环境向目标环境进行敏感数据交换的过程中，通过一定方法消除原始环境数据中的敏感信息，并保留目标环境业务所需的数据特征或内容的数据处理过程。数据脱敏包括以下过程：制定脱敏规程，确定脱敏数据，定义脱敏规则，执行脱敏工作，以及验证脱敏成效。

步骤S5通过K-Means聚类算法对数据资产目录进行分类聚集：

K-Means聚类算法的原理为：

如果用数据表达式表示，假设簇划分为

，则最终目标是最小化平方误差

：

其中

是簇

的均值向量，也称为质心，表达式为：

按照这个方法对数据集进行处理，所获得的聚类结果就可以满足簇内紧凑而同时也达到簇间远离的性质。由此可以得到聚类算法的具体步骤如下：

输入：聚类数k，以及所要处理的数据集；

输出：k个簇的划分情况。

步骤一、从数据集中随机选取k个数据对象作为k个簇的初始聚类中心点，且每个数据对象对应于一个簇；

步骤二、将剩余的数据对象根据其与各个簇中心点的距离，分别指派到离其距离最近的簇中；

步骤三、更新每个簇的聚类中心，即重新计算各个簇内所有对象的平均值；

步骤四、重新分配各个数据对象；

步骤五、直到准则函数收敛或者聚类中心不再变化，否则转到步骤三。

对数据集的聚类划分情况的有效性评价主要有4类评价标准，分别是外部聚类有效性、内部聚类有效性、相对聚类有效性以及模糊评价有效性。

利用聚类分析算法对数据集进行处理，所得到的聚类划分结果与数据集中的“真实”聚类划分结果进行比较，来对其有效性进行评估，从而得到数据资产目录。

S7、建立数据模型，优化数据分析，参考行业模型和基础数据标准，在大数据平台上搭建数据分类模型，然后在数据模型的基础上进行数据整合，可以减少后续数据整合难度，也可以避免数据方面的歧义，更好的保证数据一致性，使业务、技术、系统之间的沟通更有效。协调业务部门和研发部门，明确业务场景，明确需要什么样的数据，数据从哪里来，如何获得，频次，粒度，维度，依赖关系等。所述的粒度就是同一维度下，数据统计的粗细程度，计算机领域中粒度指系统内存扩展增量的最小值。数据模型（Data Model）是数据特征的抽象，它从抽象层次上描述了系统的静态特征、动态行为和约束条件，为数据库系统的信息表示与操作提供一个抽象的框架。数据模型所描述的内容有三部分，分别是数据结构、数据操作和数据约束。模型可更形象、直观地揭示事物的本质特征，使人们对事物有一个更加全面、深入的认识，从而可以帮助人们更好地解决问题。

设计模型算法：此阶段将业务分析过程映射为逻辑的数据模型，提出数据架构，选择最佳的算法模型。挖掘信息资源：将应用模型放置在海量信息资源中进行快速匹配，提取出有价值的信息。建设主题分析库：利用模型算法对海量信息资源挖掘分析出的结果，按照主题分类存储到各个库表中，形成主题分析库。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims

1.一种基于大数据的数据治理方法，其特征在于包括以下步骤：

S1、对现有数据进行评估，梳理存在的问题；

S5、搭建数据资产目录，梳理接入数据；

2.根据权利要求1所述的基于大数据的数据治理方法，其特征在于：步骤S1所述的现有数据包括设计、生产、采购、物流、销售、客户群体分类和产品区域销售量类型数据。

3.根据权利要求1所述的基于大数据的数据治理方法，其特征在于：步骤S2通过以下过程形成文档：采用标签基于打标的人群分析模型对现有数据进行项集分类和规则建立，利用关联规则挖掘Apriori先验算法获得各个项集和规则在所有事物中出现的频率，确定规则用于给定数据集的频繁程度，并以此为依据构建完整标签体系和用户画像，根据标签体系和用户画像形成文档。

4.根据权利要求1所述的基于大数据的数据治理方法，其特征在于：步骤S4中，文档中的数据的存储介质包括本地磁盘、磁带、远程磁盘阵列以及光盘库。

5.根据权利要求1所述的基于大数据的数据治理方法，其特征在于：步骤S5建立数据资产目录具体包括以下过程：将文档中的数据汇总成初始数据资产目录，通过对部门业务、数据和信息化情况的全面调查，掌握整体情况，理清类型和属性，明确资源数量和状态；将数据细化到文档表单和重要指标项，直到通过对初始数据资产目录持续细化处理形成完整的数据资源目录，最终覆盖所有指标项；

6.根据权利要求1所述的基于大数据的数据治理方法，其特征在于：步骤S6中数据资产目录包括以下对数据的描述：数据标准和数据质量的描述；各类数据资产的业务描述，数据资产包括结构化数据、非结构化数据、数据接口、报表和模型；数据资产轮廓的描述，数据资产状态的描述，数据资产安全的描述，数据资产脱敏的描述以及数据资产声明周期的描述；

7.根据权利要求1所述的基于大数据的数据治理方法，其特征在于：步骤S6通过K-Means聚类算法对数据资产目录进行分类聚集。