CN114022114B - 基于电信行业的数据治理系统和方法 - Google Patents
基于电信行业的数据治理系统和方法 Download PDFInfo
- Publication number
- CN114022114B CN114022114B CN202111294878.7A CN202111294878A CN114022114B CN 114022114 B CN114022114 B CN 114022114B CN 202111294878 A CN202111294878 A CN 202111294878A CN 114022114 B CN114022114 B CN 114022114B
- Authority
- CN
- China
- Prior art keywords
- data
- module
- inspection
- telecommunication service
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013523 data management Methods 0.000 title abstract description 21
- 238000007689 inspection Methods 0.000 claims abstract description 127
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000013475 authorization Methods 0.000 claims abstract description 28
- 238000000586 desensitisation Methods 0.000 claims abstract description 21
- 238000007726 management method Methods 0.000 claims abstract description 18
- 239000000523 sample Substances 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 238000012544 monitoring process Methods 0.000 claims description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 14
- 230000006872 improvement Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000013075 data extraction Methods 0.000 claims description 9
- 238000013499 data model Methods 0.000 claims description 7
- 238000010206 sensitivity analysis Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 4
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 210000001503 joint Anatomy 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000009960 carding Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/60—Business processes related to postal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Educational Administration (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Bioethics (AREA)
- Game Theory and Decision Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Development Economics (AREA)
Abstract
本发明提供基于电信行业的数据治理系统和方法,该系统包括:数据获取模块获取来自电信业务系统的电信业务数据;敏感分析模块进行敏感数据分析,并对敏感数据进行脱敏处理,得到脱敏处理后的电信业务数据;分类存储模块进行分级分类处理并进行分级分类存储管理;数据授权模块对应用者进行授权管理;数据探查模块供已授权的应用者对存储的电信业务数据进行探查;标准化模块根据应用标签建立数据标准;数据建模模块基于数据标准对探查数据进行数据建模;数据检查模块对建模后的元数据进行检查,得到数据检查结果;输出模块完成数据的统一输出。本发明有助于协助完成电力行业数据自动化管理;提高数据管理的安全性。
Description
技术领域
本发明涉及数据治理技术领域,特别是基于电信行业的数据治理系统和方法。
背景技术
目前,电信企业在进行业务数据的治理及管理的过程中,电信行业涉及的业务系统繁多,且各业务系统均产生海量的数据。现有技术中,电信企业在需要调取各业务系统产生的数据时候,需要分别访问各业务系统并从各业务系统中分别提取数据,该方式容易存在以下问题:
1)从各业务系统获取数据的过程中,通常会存在需要多头报送、数据不准确和梳理困难的问题,影响数据使用。
2)无法对各业务系统的数据进行统一的管理,影响电信企业对业务系统数据的合理利用;
3)缺乏对数据的管控,导致电信业务数据中包含的敏感数据泄露,不符合电信行业数据安全法规和个人信息保护法规的相关规定。
因此,提出一种基于电信行业的数据治理平台,来实现电信企业对业务系统产生的海量数据进行统一管理亟具需要。
发明内容
针对上述问题,本发明旨在提供基于电信行业的数据治理系统和方法。
本发明的目的采用以下技术方案来实现:
第一方面,提出基于电信行业的数据治理系统,包括:元数据定义模块、网络配置模块、数据抽取模块、元数据接入模块、敏感分析模块、分类存储模块、数据授权模块、数据探查模块、数据标签模块、标准化模块、数据建模模块、数据检查模块、输出模块和监控预警模块;其中,
元数据定义模块用于根据电信行业的数据特点定义元数据,建立统一的元数据采集规范和标准;
网络配置模块用于配置完成与电信业务系统的网络对接;
数据抽取模块用于从电信业务系统中抽取电信业务数据;
元数据接入模块用于接入电信业务数据的元数据;
敏感分析模块用于识别电信业务数据中的敏感数据,并对敏感数据进行脱敏处理,得到脱敏处理后的电信业务数据;
分类存储模块用于对电信业务数据进行分级分类处理,得到分级分类处理后的电信业务数据;并对分级分类处理后的电信业务数据进行分级分类存储管理;
数据授权模块用于对应用者进行授权管理,授予应用者对存储数据的探查权限;
数据探查模块用于供已授权的应用者对存储的电信业务数据进行探查,获取探查数据;
数据标签模块用于根据探查数据智能生成数据标签;
标准化模块用于建立数据标准;
数据建模模块用于基于数据标准对元数据进行数据建模,得到建模后的元数据;
数据检查模块用于对建模后的元数据进行落标检查、质量检查和安全检查,得到数据检查结果;
输出模块用于完成对通过数据检查的数据的统一输出;
监控预警模块用于对输出数据进行监控预警,输出监控预警结果。
一种实施方式中,还包括质量改进模块;
质量改进模块用于完成元数据的质量改进。
一种实施方式中,数据抽取模块中,从电信业务系统中抽取电信业务数据,具体包括:
从电信业务系统中确定数据源、数据范围和数据类型,并抽取确定范围内数据,通过预设的数据采集算法进行电信业务数据的采集;其中数据类型包括非结构化数据,结构化数据和半结构化数据。
一种实施方式中,敏感分析模块中具体包括:
采用敏感数据识别算法对采集的电信业务数据进行处理,判断是否符合敏感数据标准,识别敏感数据;
采用脱敏算法对识别的敏感数据进行脱敏或者加密处理,得到脱敏处理后的电信业务数据。
一种实施方式中,分类存储模块中,对电信业务数据进行分级分类处理,具体包括:
对数据的分级分类进行配置,基于得到的分级分类配置信息,通过数据分级分类算法对电信业务数据进行处理,得到电信业务数据的分级分类信息。
一种实施方式中,数据授权模块具体包括:
检查存储数据的授权信息;
对未授权的电信业务数据进行隔断处理。
一种实施方式中,数据检查模块具体包括:对建模后的元数据进行落标检查、质量检查和安全检查;
对建模后的元数据进行落标检查具体包括:
获取数据建模模型,通过标准检查算法对数据模型的数据进行标准执行检查,得到落标检查结果,其中落标检查结果包括通过落标检查的数据和模型,以及不通过落标检查的数据和模型;
对建模后的元数据进行质量检查具体包括:
对通过落标检查的数据和模型进行质量检查,检查数据的一致性、数据规范性、数据完整性、数据准确性、数据时效性及数据可访问性,得到质量检查结果;
对建模后的元数据进行安全检查具体包括:
对通过质量检查的数据进行脱敏检测,检测数据是否脱敏;并进一步对脱敏数据进行加密检测,检测数据是否加密;以及对加密的外发数据进行水印检测,检测数据是否已添加水印,得到安全检查结果。
一种实施方式中,监控预警模块具体包括:
对输出数据的提取操作进行监控,监控数据操作过程中的高危操作,并对监控到的高危操作进行预警通报。
第二方面,本发明提出基于电信行业的数据治理方法,包括:
S1根据电信行业的数据特点定义元数据,建立统一的元数据采集规范和标准;
S2配置完成与电信业务系统的网络对接;
S3从电信业务系统中抽取电信业务数据;
S4接入电信业务数据的元数据;
S5识别电信业务数据中的敏感数据,并对敏感数据进行脱敏处理,得到脱敏处理后的电信业务数据;
S6对电信业务数据进行分级分类处理,得到分级分类处理后的电信业务数据;并对分级分类处理后的电信业务数据进行分级分类存储管理;
S7对应用者进行授权管理,授予应用者对存储数据的探查权限;
S8供已授权的应用者对存储的电信业务数据进行探查,获取探查数据;
S9根据探查数据智能生成数据标签;
S10建立数据标准;
S11基于数据标准对元数据进行数据建模,得到建模后的元数据;
S12对建模后的元数据进行落标检查、质量检查和安全检查,得到数据检查结果;
S13完成对通过数据检查的数据的统一输出;
S14对输出数据进行监控预警,输出监控预警结果。
本发明的有益效果为:本发明提出基于电信行业的数据治理系统,能够协助企业完成对电信行业海量数据的全方位治理,通过定义元数据接入来自业务系统的海量元数据,并进行管理。数据治理系统首先采用脱敏及加解密算法对敏感数据进行脱敏或加密/解密的处理,对脱敏后或加密/解密的数据通过自有算法完成数据的分级分类存储。同时授予企业应用者探查授权,来探查并提取相关使用数据。提取后的数据通过智能算法,生成应用标签,数据治理系统将标签推送到数据模型进行数据建模,在数据模型生成统一标准,并基于此标准进行建模。数据治理系统对建模完成后的模型进行落标检查,检查其标准是否统一;之后检查数据质量,包含数据的一致性、数据的唯一性、数据完整性、数据规范性、数据可访问性及数据的实效性;以及对质量检查后的数据进行数据安全性检查,检查通过后统一输出,系统能智能跟踪数据的整个处理过程,提供监控预警,实时播报。并将问题告知相关管理者进行质量改进。本发明提出的数据治理系统,有助于协助企业完成电力行业数据的准确甄别、全面管理和快速应用,实现海量数据的自动化管理;同时支持多专户模式的权限隔离,提高数据管理的安全性。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明所示基于电信行业的数据治理平台的框架结构图;
图2为本发明所示基于电信行业的数据治理方法的流程示意图。
附图标记:
1-元数据定义模块,2-网络配置模块,3-数据抽取模块,4-元数据接入模,5-敏感分析模块,6-分类存储模块,7-数据授权模块,8-数据探查模块,9-数据标签模块,10-标准化模块,11-数据建模模块,12-数据检查模块,13-输出模块,14-监控预警模块。
具体实施方式
结合以下应用场景对本发明作进一步描述。
参见图1,其示出基于电信行业的数据治理平台,包括:元数据定义模块1、网络配置模块2、数据抽取模块3、元数据接入模块4、敏感分析模块5、分类存储模块6、数据授权模块7、数据探查模块8、数据标签模块9、标准化模块10、数据建模模块11、数据检查模块12、输出模块13和监控预警模块14;其中,
元数据定义模块1用于根据电信行业的数据特点定义元数据,建立统一的元数据采集规范和标准;
其中,建立规范统一的业务定义,便于梳理业务,提升业务及数据的准确性,解决多头报送、数据不准确,梳理困难,影响数据使用的问题,解决存量数据的业务定义;解决存量数据的业务定义普遍缺失,难以服务于企业经营分析及营销支撑。简化数据提取手续,提升业务及数据分析效率,提升数据报送速度。
其中,根据数据特点定义元数据,建立统一的元数据采集规范及标准,对元数据进行统一管理,提升采集效率。有助于解决现有技术中大多数电信企业未对整体的数据进行管理,采集的元数据无一套标准的管理方法的技术问题。
网络配置模块2用于配置完成与电信业务系统的网络对接;为之后从电信业务系统中抽取数据奠定基础。
数据抽取模块3用于从电信业务系统中抽取电信业务数据;
从电信业务系统中确定数据源、数据范围和数据类型,并抽取确定范围内数据,通过预设的数据采集算法进行电信业务数据的采集;其中数据类型包括非结构化数据,结构化数据和半结构化数据。
其中采用基于分片分区、优化缓存的采集算法,有助于提升数据采集的效率。
元数据接入模块4用于接入电信业务数据的元数据;
敏感分析模块5用于识别电信业务数据中的敏感数据,并对敏感数据进行脱敏处理,得到脱敏处理后的电信业务数据;
一种实施方式中,敏感分析模块5中具体包括:
采用敏感数据识别算法对采集的电信业务数据进行处理,判断是否符合敏感数据标准,识别敏感数据;
采用脱敏算法对识别的敏感数据进行脱敏或者加密处理,得到脱敏处理后的电信业务数据。
一种实施方式中,针对电力行业相关的敏感数据包括:身份证、邮箱、手机号、银行卡号、中文姓名、中文地址、日期、国际移动设备身份码、金额、组织机构代码、邮政编码、公司名称等。
分类存储模块6用于对电信业务数据进行分级分类处理,得到分级分类处理后的电信业务数据;并对分级分类处理后的电信业务数据进行分级分类存储管理;
一种实施方式中,分类存储模块6中,对电信业务数据进行分级分类处理,具体包括:
对数据的分级分类进行配置,基于得到的分级分类配置信息,通过数据分级分类算法对脱敏处理后的电信业务数据进行处理,得到电信业务数据的分级分类信息。
数据授权模块7用于对企业应用者进行授权管理,授予企业应用者对存储数据的探查权限;以使得授权企业应用者能够探查并提取相关的使用数据。
一种实施方式中,数据授权模块7还包括:
检查存储数据的授权信息;
对未授权的数据进行隔断处理。
数据探查模块8用于供已授权的企业应用者对存储的电信业务数据进行探查,获取探查数据;
其中在授权探查过程中,数据授权模块7向探查数据对应的用户发出授权应用请求,当接收到用户返回的授权信息后,对应的探查数据进行应用标签的标识作为该数据对对应企业应用者的授权信息。通过检查数据及信息权利进行界定,来解决对数据、数据权和信息、信息权的界定模糊,导致数据确权困难,发生侵权行为;符合相关法律法规,保证用户在知情及授权的情况下使用相关数据,提升数据安全性。
数据标签模块9用于根据探查数据智能生成数据标签,针对探查数据进行智能标识,有助于加快探查速度,提升探查效率;
其中数据标签包括业务数据标签和元数据标签;业务数据标签包括用于业务归类的标签;
一种场景中,数据标签模块9包括:获取探查数据;通过智能检索匹配算法生成数据标签;推送标签到电信业务系统及数据建模模块。
标准化模块10用于建立数据标准;
平台根据数据标签生成统一标准,并根据该标准进行建模。通过建立统一的数据标准,约定数据标准规则,形成符合的数据结构体系,规范数据的使用,消除数据跨系统的非一致性,提升数据使用粘度,解决报表体系没有统一,数据没有规则的问题;
一种场景中,其中数据标准并非一成不变,而是会随着业务的发展变化以及数据标准执行效果不断更新和完善,包括共享性、唯一性、稳定性、可扩展性、前瞻性和可行性。
在定义了数据标签后,业务数据得到归类,但还需要有一定的标准去对数据进行管理,来保持数据的唯一性,不能有二义性。
数据建模模块11用于基于数据标准对元数据进行数据建模,得到建模后的元数据;
其中基于数据标准对元数据进行数据建模,模型标准更统一,管控更规范,提升模型开发效率。
一种实施方式中,数据建模模块11具体包括:
获取数据标准,基于数据标准对元数据进行数据建模,在数据建模中匹配标准的应用,并提示不符合标准的应用。
数据检查模块12用于对建模后的元数据进行落标检查、质量检查和安全检查,得到数据检查结果;
一种实施方式中,数据检查模块12具体包括:对建模后的元数据进行落标检查、质量检查和安全检查;
对建模后的元数据进行落标检查具体包括:
获取数据建模模型,通过标准检查算法对数据模型的数据进行标准执行检查,得到落标检查结果,其中落标检查结果包括通过落标检查的数据和模型,以及不通过落标检查的数据和模型;对不符合数据标准的模型及数据进行通报处理。通过对建模后的元数据进行落标检查,能简化人工检查步骤,提升智能检查效率,便于及时修改;
对建模后的元数据进行质量检查具体包括:
对通过落标检查的数据和模型进行质量检查,检查数据的一致性、数据规范性、数据完整性、数据准确性、数据时效性及数据可访问性,得到质量检查结果;通过对建模后的元数据进行质量检查,有助于跟踪质量问题,及时进行整改;
对建模后的元数据进行安全检查具体包括:
对通过质量检查的数据进行脱敏检测,检测数据是否脱敏;并进一步对脱敏数据进行加密检测,检测数据是否加密;以及对加密的外发数据进行水印检测,检测数据是否已添加水印,得到安全检查结果。通过对建模后的元数据进行安全检查,有助于跟踪数据安全问题,精准问责,减少数据安全事故发生。降低数据安全事故发生频率。
在数据统一输出之前,对数据进行检查,检查数据脱敏情况、加密情况及数字水印是否添加,如果需要明文是否有相关的审批,通过在数据输出阶段对敏感数据检查的手段,解决数据交互时,由于缺乏对数据的管控,导致敏感数据泄露,违反数据安全法和个人信息保护法造成承担相应的法律责任问题,提升数据交互的安全性,防止敏感数据泄露。
一种实施方式中,数据检查模块12中,对通过落标检查的数据和模型进行质量检查,检查数据的一致性、数据规范性、数据完整性、数据准确性、数据时效性及数据可访问性,得到质量检查结果,具体包括:
基于灰度聚类模型对通过落标检查的数据进行质量检查:
根据质量检查的内容,构建聚类指标集合{Z1,Z2,…Z6},其中每个聚类指标分别对应数据检查中的一致性、规范性、完整性、准确性、时效性及可访问性指标中的一项;确定每个聚类指标的权重δm,其中m=1,2,3,4,5,6;
将通过落标检查的数据作为待质量检查数据输入至灰度聚类模型中;
基于灰度聚类模型获取待质量检查数据的聚类系数:
其中X表示待质量检查数据的聚类系数,表示待质量检查数据对于灰类j的归一化灰度聚类系数,n表示灰类的总数,其中δm表示第m个聚类指标的权重,fm,j(x)表示待质量检查数据对于第m个聚类指标的权化值,x表示待质量检查数据,ω1和ω2表示设定的权重因子,其中ω1+ω2=1,表示灰度模型训练过程中,训练集中各训练数据对应的灰类值的平均标准差;
其中,各聚类指标的权化值能够通过以下方式获得:
针对数据一致性,基于待质量检查数据判断是否存在项目与数据语义不对应的情况,若是,则对应的权化值f1,j(x)=0,否则权化值f1,j(x)=1;
针对数据规范性,基于待质量检查数据判断是否符合数据的规范性标准,若是,则对应的权化值f2,j(x)=1,否则权化值f2,j(x)=0;
针对数据完整性,基于待质量检查数据评估是否存在数据缺失的情况,根据数据缺失项目的比例占总数据项的比例来计算权化值f3,j(x),其中权化值f3,j(x)最大值为1,权化值f3,j(x)越大,表示数据越完整;
针对数据准确性,基于待质量检查数据判断数据是否符合设定的数据标准,若是,则对应的权化值f4,j(x)=1,否则权化值f4,j(x)=0;
针对数据时效性,基于待质量检查数据判断数据对应的时间是否为设定的时间段内,若否,权化值f5,j(x)=0;其中,如果待质量检查数据判断数据对应的时间在设定的时间段内,则根据待质量检查数据判断数据对应的时间计算权化值其中tm表示待质量检查数据对应的时间与设定的标准时间的时间间隔的月份数量,τy表示设定的年影响因子,其中τy∈[0.5,1),τm表示设定的月影响因子,τm∈[0.8,1);其中τm>τy;mod(a,b)表示a除以b的取余值运算,int(*)表示向下取整运算;
针对数据可访问性,基于待质量检查数据判断是否符合相关的法律法规,若是,则对应的权化值f6,j(x)=1,否则权化值f6,j(x)=0。
上述提出了一种针对通过落标检查的数据进行进一步的质量检查处理的技术方案,该方案中基于训练好的灰度聚类模型来对待质量检查数据进行处理,获取对应的聚类系数特征,并基于聚类系数特征完成数据的质量检查,得到相应的数据质量检查结果,能够有助于将多指标的质量检查量化为统一的特征进行评价,可观性强,准确度高,有效提高质量检查的准确性。
其中,在灰度聚类模型的训练过程中,基于相同的聚类指标,通过预设的训练集数据对灰度聚类模型进行训练,最终得到训练好的灰度聚类模型。其中训练集数据包含有通过落标检查的训练数据,以及对应灰类值,其中灰类值可以根据数据的质量评价量化所得。
输出模块13用于完成对通过数据检查的数据的统一输出;
输出模块13将数据统一输出至各对应的企业应用者,供企业应用者完成所需数据的调取。
监控预警模块14用于对输出数据进行监控预警,输出监控预警结果。
一种实施方式中,监控预警模块14具体包括:
对输出数据的提取操作进行监控,监控数据操作过程中的高危操作,并对监控到的高危操作进行预警通报。有助于对数据的输出进行智能预警,快速问责,提升数据安全管控,降低运营成本。
一种实施方式中,该平台还包括质量改进模块;
质量改进模块用于完成元数据的质量改进。
其中质量改进模块用于对上述各模块针对数据的采集和处理过程中涉及的参数等进行改进,例如针对数据建模、数据脱敏、数据分级分类等中涉及的算法和参数进行调整和处理,通过问题跟踪的方式,重复改进,提升数据质量,提升数据的准确性、唯一性、完整性,提高数据使用。解决流程与数据没有关联、无相关系统整合、不能及时有效的提供数据的问题。
基于图1实施例所示的基于电信行业的数据治理平台,本发明还示出基于电信行业的数据治理方法,参见图2,该方法包括:
S1根据电信行业的数据特点定义元数据,建立统一的元数据采集规范和标准;
S2配置完成与电信业务系统的网络对接;
S3从电信业务系统中抽取电信业务数据;
S4接入电信业务数据的元数据;
S5识别电信业务数据中的敏感数据,并对敏感数据进行脱敏处理,得到脱敏处理后的电信业务数据;
S6对电信业务数据进行分级分类处理,得到分级分类处理后的电信业务数据;并对分级分类处理后的电信业务数据进行分级分类存储管理;
S7对应用者进行授权管理,授予应用者对存储数据的探查权限;
S8供已授权的应用者对存储的电信业务数据进行探查,获取探查数据;
S9根据探查数据智能生成数据标签;
S10建立数据标准;
S11基于数据标准对元数据进行数据建模,得到建模后的元数据;
S12对建模后的元数据进行落标检查、质量检查和安全检查,得到数据检查结果;
S13完成对通过数据检查的数据的统一输出;
S14对输出数据进行监控预警,输出监控预警结果。
需要说明的是,本申请上述提出的基于电信行业的数据治理方法,还包括与上述基于电信行业的数据治理平台中各模块及对应实施例所提供的处理方法,本申请在此不再重复叙述。
上述实施方式,提出基于电信行业的数据治理平台和方法,能够协助企业完成对电信行业海量数据的全方位治理,通过定义元数据接入来自业务系统的海量元数据,并进行管理。数据治理平台首先采用脱敏及加解密算法对敏感数据进行脱敏或加密/解密的处理,对脱敏后或加密/解密的数据通过自有算法完成数据的分级分类存储。同时授予企业应用者探查授权,来探查并提取相关使用数据。提取后的数据通过智能算法,生成应用标签,数据治理平台将标签推送到数据模型进行数据建模,在数据模型生成统一标准,并基于此标准进行建模。数据治理平台对建模完成后的模型进行落标检查,检查其标准是否统一;之后检查数据质量,包含数据的一致性、数据的唯一性、数据完整性、数据规范性、数据可访问性及数据的实效性;以及对质量检查后的数据进行数据安全性检查,检查通过后统一输出,平台能智能跟踪数据的整个处理过程,提供监控预警,实时播报。并将问题告知相关管理者进行质量改进。本发明提出的数据治理平台,有助于协助企业完成电力行业数据的准确甄别、全面管理和快速应用,实现海量数据的自动化管理;同时支持多专户模式的权限隔离,提高数据管理的安全性。
需要说明的是,在本发明各个实施例中的各功能单元/模块可以集成在一个处理单元/模块中,也可以是各个单元/模块单独物理存在,也可以是两个或两个以上单元/模块集成在一个单元/模块中。上述集成的单元/模块既可以采用硬件的形式实现,也可以采用软件功能单元/模块的形式实现。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解应当理解,可以以硬件、软件、固件、中间件、代码或其任何恰当组合来实现这里描述的实施例。对于硬件实现,处理器可以在一个或多个下列单元中实现:专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计用于实现这里所描述功能的其他电子单元或其组合。对于软件实现,实施例的部分或全部流程可以通过计算机程序来指令相关的硬件来完成。实现时,可以将上述程序存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。计算机可读介质可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当分析,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (8)
1.基于电信行业的数据治理系统,其特征在于,包括:元数据定义模块、网络配置模块、数据抽取模块、元数据接入模块、敏感分析模块、分类存储模块、数据授权模块、数据探查模块、数据标签模块、标准化模块、数据建模模块、数据检查模块、输出模块和监控预警模块;其中,
元数据定义模块用于根据电信行业的数据特点定义元数据,建立统一的元数据采集规范和标准;
网络配置模块用于配置完成与电信业务系统的网络对接;
数据抽取模块用于从电信业务系统中抽取电信业务数据;
元数据接入模块用于接入电信业务数据的元数据;
敏感分析模块用于识别电信业务数据中的敏感数据,并对敏感数据进行脱敏处理,得到脱敏处理后的电信业务数据;
分类存储模块用于对电信业务数据进行分级分类处理,得到分级分类处理后的电信业务数据;并对分级分类处理后的电信业务数据进行分级分类存储管理;
数据授权模块用于对应用者进行授权管理,授予应用者对存储数据的探查权限;
数据探查模块用于供已授权的应用者对存储的电信业务数据进行探查,获取探查数据;
数据标签模块用于根据探查数据智能生成数据标签;
标准化模块用于建立数据标准;
数据建模模块用于基于数据标准对元数据进行数据建模,得到建模后的元数据;
数据检查模块用于对建模后的元数据进行落标检查、质量检查和安全检查,得到数据检查结果;
输出模块用于完成对通过数据检查的数据的统一输出;
监控预警模块用于对输出数据进行监控预警,输出监控预警结果;
其中,数据检查模块具体包括:对建模后的元数据进行落标检查、质量检查和安全检查;
对建模后的元数据进行落标检查具体包括:
获取数据建模模型,通过标准检查算法对数据模型的数据进行标准执行检查,得到落标检查结果,其中落标检查结果包括通过落标检查的数据和模型,以及不通过落标检查的数据和模型;
对建模后的元数据进行质量检查具体包括:
对通过落标检查的数据和模型进行质量检查,检查数据的一致性、数据规范性、数据完整性、数据准确性、数据时效性及数据可访问性,得到质量检查结果;
对建模后的元数据进行安全检查具体包括:
对通过质量检查的数据进行脱敏检测,检测数据是否脱敏;并进一步对脱敏数据进行加密检测,检测数据是否加密;以及对加密的外发数据进行水印检测,检测数据是否已添加水印,得到安全检查结果;
其中,数据检查模块中,对通过落标检查的数据和模型进行质量检查,检查数据的一致性、数据规范性、数据完整性、数据准确性、数据时效性及数据可访问性,得到质量检查结果,具体包括:
基于灰度聚类模型对通过落标检查的数据进行质量检查:
根据质量检查的内容,构建聚类指标集合{Z1,Z2,...Z6},其中每个聚类指标分别对应数据检查中的一致性、规范性、完整性、准确性、时效性及可访问性指标中的一项;确定每个聚类指标的权重δm,其中m=1,2,3,4,5,6;
将通过落标检查的数据作为待质量检查数据输入至灰度聚类模型中;
基于灰度聚类模型获取待质量检查数据的聚类系数:
其中X表示待质量检查数据的聚类系数,表示待质量检查数据对于灰类j的归一化灰度聚类系数,n表示灰类的总数,其中δm表示第m个聚类指标的权重,fm,j(x)表示待质量检查数据对于第m个聚类指标的权化值,x表示待质量检查数据,ω1和ω2表示设定的权重因子,其中ω1+ω2=1,表示灰度模型训练过程中,训练集中各训练数据对应的灰类值的平均标准差;
2.根据权利要求1所述的基于电信行业的数据治理系统,其特征在于,还包括质量改进模块;
质量改进模块用于完成元数据的质量改进。
3.根据权利要求1所述的基于电信行业的数据治理系统,其特征在于,数据抽取模块中,从电信业务系统中抽取电信业务数据,具体包括:
从电信业务系统中确定数据源、数据范围和数据类型,并抽取确定范围内数据,通过预设的数据采集算法进行电信业务数据的采集;其中数据类型包括非结构化数据,结构化数据和半结构化数据。
4.根据权利要求1所述的基于电信行业的数据治理系统,其特征在于,敏感分析模块中具体包括:
采用敏感数据识别算法对采集的电信业务数据进行处理,判断是否符合敏感数据标准,识别敏感数据;
采用脱敏算法对识别的敏感数据进行脱敏或者加密处理,得到脱敏处理后的电信业务数据。
5.根据权利要求1所述的基于电信行业的数据治理系统,其特征在于,分类存储模块中,对电信业务数据进行分级分类处理,具体包括:
对数据的分级分类进行配置,基于得到的分级分类配置信息,通过数据分级分类算法对电信业务数据进行处理,得到电信业务数据的分级分类信息。
6.根据权利要求1所述的基于电信行业的数据治理系统,其特征在于,数据授权模块具体包括:
检查存储数据的授权信息;
对未授权的电信业务数据进行隔断处理。
7.根据权利要求1所述的基于电信行业的数据治理系统,其特征在于,监控预警模块具体包括:
对输出数据的提取操作进行监控,监控数据操作过程中的高危操作,并对监控到的高危操作进行预警通报。
8.根据权利要求1-7中任一项所述电信行业的数据治理系统的数据治理方法,其特征在于,包括:
S1根据电信行业的数据特点定义元数据,建立统一的元数据采集规范和标准;
S2配置完成与电信业务系统的网络对接;
S3从电信业务系统中抽取电信业务数据;
S4接入电信业务数据的元数据;
S5识别电信业务数据中的敏感数据,并对敏感数据进行脱敏处理,得到脱敏处理后的电信业务数据;
S6对电信业务数据进行分级分类处理,得到分级分类处理后的电信业务数据;并对分级分类处理后的电信业务数据进行分级分类存储管理;
S7对应用者进行授权管理,授予应用者对存储数据的探查权限;
S8供已授权的应用者对存储的电信业务数据进行探查,获取探查数据;
S9根据探查数据智能生成数据标签;
S10建立数据标准;
S11基于数据标准对元数据进行数据建模,得到建模后的元数据;
S12对建模后的元数据进行落标检查、质量检查和安全检查,得到数据检查结果;
S13完成对通过数据检查的数据的统一输出;
S14对输出数据进行监控预警,输出监控预警结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111294878.7A CN114022114B (zh) | 2021-11-03 | 2021-11-03 | 基于电信行业的数据治理系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111294878.7A CN114022114B (zh) | 2021-11-03 | 2021-11-03 | 基于电信行业的数据治理系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114022114A CN114022114A (zh) | 2022-02-08 |
CN114022114B true CN114022114B (zh) | 2022-07-15 |
Family
ID=80060529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111294878.7A Active CN114022114B (zh) | 2021-11-03 | 2021-11-03 | 基于电信行业的数据治理系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022114B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541382B (zh) * | 2023-02-23 | 2023-11-14 | 邵阳学院 | 基于数据安全识别级别的数据治理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106324405A (zh) * | 2016-09-07 | 2017-01-11 | 南京工程学院 | 一种基于改进主成分分析的变压器故障诊断方法 |
CN112231315A (zh) * | 2020-12-16 | 2021-01-15 | 武汉凡松科技有限公司 | 一种基于大数据的数据治理方法 |
CN112699175A (zh) * | 2021-01-15 | 2021-04-23 | 广州汇智通信技术有限公司 | 一种数据治理系统及其方法 |
CN112749400A (zh) * | 2020-12-31 | 2021-05-04 | 韩浩 | 一种面向业务的数据安全治理系统及方法 |
-
2021
- 2021-11-03 CN CN202111294878.7A patent/CN114022114B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106324405A (zh) * | 2016-09-07 | 2017-01-11 | 南京工程学院 | 一种基于改进主成分分析的变压器故障诊断方法 |
CN112231315A (zh) * | 2020-12-16 | 2021-01-15 | 武汉凡松科技有限公司 | 一种基于大数据的数据治理方法 |
CN112749400A (zh) * | 2020-12-31 | 2021-05-04 | 韩浩 | 一种面向业务的数据安全治理系统及方法 |
CN112699175A (zh) * | 2021-01-15 | 2021-04-23 | 广州汇智通信技术有限公司 | 一种数据治理系统及其方法 |
Non-Patent Citations (1)
Title |
---|
"电信运营商数据湖技术实施策略";胡军军 等;《电信科学》;20190220;摘要、正文第4章 * |
Also Published As
Publication number | Publication date |
---|---|
CN114022114A (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7693767B2 (en) | Method for generating predictive models for a business problem via supervised learning | |
CN110851872B (zh) | 针对隐私数据泄漏的风险评估方法及装置 | |
CN106487775A (zh) | 一种基于云平台的业务数据的处理方法和装置 | |
CN112491779B (zh) | 一种异常行为检测方法及装置、电子设备 | |
CN108537243B (zh) | 一种违规告警方法及装置 | |
CN116861446A (zh) | 一种数据安全的评估方法及系统 | |
CN114022114B (zh) | 基于电信行业的数据治理系统和方法 | |
KR102304231B1 (ko) | 계층 구조를 이용한 컴플라이언스 관리 체계 지원 시스템 및 그 방법 | |
CN117592092A (zh) | 一种数据库内容的保密检查方法及系统 | |
CN115730320A (zh) | 一种安全级别确定方法、装置、设备及存储介质 | |
US11314892B2 (en) | Mitigating governance impact on machine learning | |
CN116881979A (zh) | 数据安全合规的检测方法、装置及设备 | |
KR20180075279A (ko) | 개인 정보 보호 제품 통합 분석 감사 시스템 | |
Mohamad et al. | Identifying security-related requirements in regulatory documents based on cross-project classification | |
CN113498592B (zh) | 用于数字财产认证和管理的方法和系统 | |
Baig et al. | Assessing current and emerging challenges in the field of digital forensics | |
Kubigenova et al. | Prospects for Information Security in Big Data Technology | |
CN117786121B (zh) | 一种基于人工智能的档案鉴定方法以及系统 | |
CN117592113B (zh) | 一种具备可视化权限的数据共享方法 | |
US20240193519A1 (en) | Systems and methods for system-wide granular access risk management | |
US20230252184A1 (en) | System and method for confidential data identification with quantitative risk analysis in networks | |
Rudowski et al. | Decision support system for information systems security audit (WABSI) as a component of IT infrastructure management | |
Taumoepeau | An Ethical Framework for Facial Recognition Use in New Zealand | |
CN113190805A (zh) | 一种代码资产管理系统 | |
Li et al. | Research on Risk Analysis and Compliance Solution of Intelligent and Connected Vehicle Data Security |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |