CN114329190A - 一种数据标准处理系统 - Google Patents

一种数据标准处理系统 Download PDF

Info

Publication number
CN114329190A
CN114329190A CN202111520184.0A CN202111520184A CN114329190A CN 114329190 A CN114329190 A CN 114329190A CN 202111520184 A CN202111520184 A CN 202111520184A CN 114329190 A CN114329190 A CN 114329190A
Authority
CN
China
Prior art keywords
standard
data
module
processing
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111520184.0A
Other languages
English (en)
Inventor
张琛
高翔
金鑫
林伟
吴小铭
周宏印
丁铁
江涛
王云哲
周思源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing LES Information Technology Co. Ltd
Original Assignee
Nanjing LES Information Technology Co. Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing LES Information Technology Co. Ltd filed Critical Nanjing LES Information Technology Co. Ltd
Priority to CN202111520184.0A priority Critical patent/CN114329190A/zh
Publication of CN114329190A publication Critical patent/CN114329190A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据标准处理系统,包括:标准采集模块、标准处理模块、标准治理模块、标准推送模块;所述标准采集模块,用于各类型标准数据的采集;所述标准处理模块,用于对采集到的各类型标准数据进行规范化处理;所述标准治理模块,用于规范化处理后的标准数据的元数据审核及标准订阅服务资源目录生成;所述标准推送模块,用于将通过规则校验的标准数据推送给订阅者。本发明实现了数据标准在项目中的快速获取入库,精准对标,使用场景拓展,为涉及数据标准的各现场项目提供有力支撑。

Description

一种数据标准处理系统
技术领域
本发明属于数据治理技术领域,具体涉及一种数据标准处理系统。
背景技术
随着标准化建设的持续性开展,各项目中数据标准的重要性得到了进一步体现。而数据标准在项目实施过程中出现了标准获取困难、标准数据更新不及时、标准梳理不完善、标准与业务结合不充分、使用场景狭隘等问题。
现有技术在标准的获取阶段,多采用人工采集的方式,耗时久且准确率低。而在标准的处理上,往往采用布隆过滤器等方法去重,对内存的资源消耗极大,且去重不完全。在服务方面,往往只提供一次数据,对标准的更新实时性差。
发明内容
针对于上述现有技术的不足,本发明的目的在于提供一种数据标准处理系统,以解决现有技术中数据标准采集效率低、处理慢、服务更新不及时等问题。本发明实现了数据标准在项目中的快速获取入库,精准对标,使用场景拓展,为涉及数据标准的各现场项目提供有力支撑。
为达到上述目的,本发明采用的技术方案如下:
本发明的一种数据标准处理系统,包括:标准采集模块、标准处理模块、标准治理模块、标准推送模块;其中,
所述标准采集模块,用于各类型标准数据的采集;
所述标准处理模块,用于对采集到的各类型标准数据进行规范化处理;
所述标准治理模块,用于规范化处理后的标准数据的元数据审核及标准订阅服务资源目录生成;
所述标准推送模块,用于将通过规则校验的标准数据推送给订阅者。
进一步地,所述标准数据的采集方式为:人工采集及互联网采集;
所述互联网采集具体为:部署在客户端的采集器通过HTTP请求向部署在服务端的注册器注册采集地址,注册成功后,注册器将包含采集网页、存储地址、采集周期的配置参数回传采集器;采集器按照配置参数,周期性采集相关网页,并将采集结果存储至服务端目的地址。
进一步地,所述规范化处理具体包括:标准提取与标准去重;
标准提取:对采集到的各类型标准数据进行图像识别,将图片类、报表类数据文件转换为TXT文件;在标准数据处理规则模板中,选择对应模板,对TXT文件进行统一处理,处理过程使用TextRank算法进行文本词素分析;
标准去重:使用现有Key-Value校验方法进行去重,引入外部Key-Value数据库RocksDB作为去重存储数据库,计算上使用Flink计算引擎;使用进行标准提取后的数据,以标准文件名、标准文件编码、字段名、字段中文名四个字段为去重依据,将去重字段进行词素分析,将分析结果作为Key,以标准发布时间作为Value,存储至RocksDB,按批次逐条比对数据;Key值不存在的数据则作为新数据;Key值已存在的数据则比较Value值大小,Value值小的视作过期数据,按Value值大的数据更新,经过去重后的数据,存储至MYSQL数据库对应的原始标准业务表中。
进一步地,所述文本词素分析具体为:按切分的词素从TXT文件各行中,提取与标准有关的内容,进而提取标准文件名、文件编号、业务域、标准详情的信息。
进一步地,所述标准治理模块根据业务域载入相应元数据规则;使用正则匹配、业务依赖的规则对数据进行核验,核验后的数据联查MYSQL数据库业务域字典集表,生成最终数据标准;依赖数据中的目录层级字段,按照1至5级分类标准,写入相应文件(包括PDF,Word,Excel,Html等多种格式),同时写入MYSQL数据库对应的标准业务表中。
进一步地,所述标准推送模块通过消息队列、接口调用、数据库对接的方式上传标准治理结果数据;根据增量字段、订阅周期、订阅地址、订阅方式生成对应服务并进行服务发布;发布后的服务根据订阅者的不同,记录对应数据推送/订阅检查点;根据订阅方式参数,以数据库对接或HTTP网络请求的方式,批量发送数据;确认订阅者数据接收完成后,更新检查点并完成数据存储;当检查点出现异常(因网络异常或服务器宕机等原因),回溯检查位置,重新推送数据,以确保数据精准推送一次。
本发明的有益效果:
1、本发明中的标准提取环节,使用图像识别技术,解决多元化来源文件的格式统一问题,减轻实施人员工作量,并引用了词素分析算法,解决标准识别不准确问题。
2、本发明中的标准去重环节,使用Flink计算引擎与RocksDB数据库,解决数据膨胀带来的内存不足以及布隆过滤器等技术去重不充分的问题;使用词素分析算法,解决语义重复匹配困难、去重效率低等问题。
3、本发明中以多种文件格式,按多级目录形式提供标准服务数据,方便实施人员快速检阅。
4、本发明中使用检查点机制确保数据精准推送一次,解决标准重复推送,标准遗漏等问题。
附图说明
图1是本发明数据标准处理系统的框架图;
图2是本发明数据标准处理系统在使用过程中的标准数据流向图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
如图1所示,本发明一种数据标准处理系统,包括标准采集、标准处理、标准治理、标准推送;
所述标准采集模块包括:互联网采集模块、人工采集模块;
互联网采集模块,使用互联网采集方式,采集与数据标准有关的图片与文档;
人工采集模块,使用人工采集方式,采集与数据标准有关的图片与文档;
所述标准处理模块包括:标准提取模块,标准去重模块;
标准提取模块,对采集到的各类型标准数据进行图像识别,将图片类、报表类数据文件转换为TXT文件;在标准数据处理规则模板中,选择对应模板,对TXT文件进行统一处理,处理过程使用TextRank算法进行文本词素分析;
标准去重模块,使用现有Key-Value校验方法进行去重,引入外部Key-Value数据库RocksDB作为去重存储数据库,使用进行标准提取后的数据,以标准文件名、标准文件编码、字段名、字段中文名四个字段为去重依据,将去重字段进行词素分析,将分析结果作为Key,以标准发布时间作为Value,存储至RocksDB,按批次逐条比对数据;Key值不存在的数据则作为新数据;Key值已存在的数据则比较Value值大小,Value值小的视作过期数据,按Value值较大的数据更新,经过去重后的数据,存储至MYSQL数据库对应的原始标准业务表中;
所述标准治理模块,用于规范化处理后的标准数据的元数据审核及标准订阅服务资源目录生成;
所述标准推送模块包括:标准订阅模块与推送管理模块;
标准订阅模块,用于提供标准订阅服务资源目录,供订阅者订阅;
推送管理模块,向订阅者推送所订阅的资源目录对应的标准数据。
以下通过数据标准流向的方式,如图2所示,对本发明系统实施方式进行说明:实例背景为部署在不同网络环境下,对互联网环境服务器采集的某类数据标准进行处理,并推送给使用方,根据使用方需求对使用方日志进行分析。
数据标准采集模块,在政务内网端部署所述数据标准采集模块的采集服务端,在互联网环境部署采集客户端,通过服务注册映射的方式联通互联网采集数据。获取数据标准图片数据(JPG格式),存储至服务器。
数据标准处理模块,根据文件存储格式,对JPG格式图像进行识别,将图片数据转换为为TXT文件数据。选择TXT文件对应的内置标准处理模板,使用TextRank算法对TXT文件进行处理,提取标准文件名、文件编号、业务域、标准详细信息,存储至数据库表中。
标准治理模块调取对应业务域的数据治理规则,对入库标准进行审核,包括字段审核、逻辑审核等,再联查对应字典集表,形成最终数据标准。
标准推送模块选择PDF格式,将数据标准治理结果按层级进行导出,推送至服务资源目录;接收到订阅者配置的订阅参数后,启将对应的标准数据进行推送。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。

Claims (6)

1.一种数据标准处理系统,其特征在于,包括:标准采集模块、标准处理模块、标准治理模块、标准推送模块;
所述标准采集模块,用于各类型标准数据的采集;
所述标准处理模块,用于对采集到的各类型标准数据进行规范化处理;
所述标准治理模块,用于规范化处理后的标准数据的元数据审核及标准订阅服务资源目录生成;
所述标准推送模块,用于将通过规则校验的标准数据推送给订阅者。
2.根据权利要求1所述的数据标准处理系统,其特征在于,所述标准数据的采集方式为:人工采集及互联网采集;
所述互联网采集具体为:部署在客户端的采集器通过HTTP请求向部署在服务端的注册器注册采集地址,注册成功后,注册器将包含采集网页、存储地址、采集周期的配置参数回传采集器;采集器按照配置参数,周期性采集相关网页,并将采集结果存储至服务端目的地址。
3.根据权利要求1所述的数据标准处理系统,其特征在于,所述规范化处理具体包括:标准提取与标准去重;
标准提取:对采集到的各类型标准数据进行图像识别,将图片类、报表类数据文件转换为TXT文件;在标准数据处理规则模板中,选择对应模板,对TXT文件进行统一处理,处理过程使用TextRank算法进行文本词素分析;
标准去重:使用现有Key-Value校验方法进行去重,引入外部Key-Value数据库RocksDB作为去重存储数据库,计算上使用Flink计算引擎;使用进行标准提取后的数据,以标准文件名、标准文件编码、字段名、字段中文名四个字段为去重依据,将去重字段进行词素分析,将分析结果作为Key,以标准发布时间作为Value,存储至RocksDB,按批次逐条比对数据;Key值不存在的数据则作为新数据;Key值已存在的数据则比较Value值大小,Value值小的视作过期数据,按Value值大的数据更新,经过去重后的数据,存储至MYSQL数据库对应的原始标准业务表中。
4.根据权利要求3所述的数据标准处理系统,其特征在于,所述文本词素分析具体为:按切分的词素从TXT文件各行中,提取与标准有关的内容,进而提取标准文件名、文件编号、业务域、标准详情的信息。
5.根据权利要求1所述的数据标准处理系统,其特征在于,所述标准治理模块根据业务域载入相应元数据规则;使用正则匹配、业务依赖的规则对数据进行核验,核验后的数据联查MYSQL数据库业务域字典集表,生成最终数据标准;依赖数据中的目录层级字段,按照1至5级分类标准,写入相应文件,同时写入MYSQL数据库对应的标准业务表中。
6.根据权利要求1所述的数据标准处理系统,其特征在于,所述标准推送模块通过消息队列、接口调用、数据库对接的方式上传标准治理结果数据;根据增量字段、订阅周期、订阅地址、订阅方式生成对应服务并进行服务发布;发布后的服务根据订阅者的不同,记录对应数据推送/订阅检查点;根据订阅方式参数,以数据库对接或HTTP网络请求的方式,批量发送数据;确认订阅者数据接收完成后,更新检查点并完成数据存储;当检查点出现异常,回溯检查位置,重新推送数据,以确保数据精准推送一次。
CN202111520184.0A 2021-12-13 2021-12-13 一种数据标准处理系统 Pending CN114329190A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111520184.0A CN114329190A (zh) 2021-12-13 2021-12-13 一种数据标准处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111520184.0A CN114329190A (zh) 2021-12-13 2021-12-13 一种数据标准处理系统

Publications (1)

Publication Number Publication Date
CN114329190A true CN114329190A (zh) 2022-04-12

Family

ID=81051139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111520184.0A Pending CN114329190A (zh) 2021-12-13 2021-12-13 一种数据标准处理系统

Country Status (1)

Country Link
CN (1) CN114329190A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116860741A (zh) * 2023-08-31 2023-10-10 成都智慧锦城大数据有限公司 基于消息队列的数据标准自动检验和同步系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116860741A (zh) * 2023-08-31 2023-10-10 成都智慧锦城大数据有限公司 基于消息队列的数据标准自动检验和同步系统及方法
CN116860741B (zh) * 2023-08-31 2023-11-10 成都智慧锦城大数据有限公司 基于消息队列的数据标准自动检验和同步系统及方法

Similar Documents

Publication Publication Date Title
CN109656999B (zh) 大数据量的数据同步方法、设备、存储介质及装置
AU2017286545A1 (en) Method and apparatus for processing logistics information
CN108228664B (zh) 非结构化数据处理方法及装置
CN112084249A (zh) 一种访问记录提取方法及装置
CN112181936A (zh) 一种数据库检测方法和装置
CN114329190A (zh) 一种数据标准处理系统
CN114625809A (zh) 一种基于Binlog日志的数据同步方法、装置以及存储介质和电子设备
CN110019169B (zh) 一种数据处理的方法及装置
CN112131292A (zh) 一种变更数据的结构化处理方法和装置
CN110096478B (zh) 文档索引生成方法及设备
CN116775488A (zh) 异常数据确定方法、装置、设备、介质及产品
CN111984797A (zh) 客户身份识别装置及方法
CN116204428A (zh) 一种测试用例生成方法和装置
CN115756486A (zh) 一种数据接口解析方法及装置
CN112241445B (zh) 一种标注方法及装置、电子设备、存储介质
CN112395292B (zh) 一种数据特征提取、匹配方法及装置
CN110740046B (zh) 分析服务契约的方法和装置
CN111061719B (zh) 数据收集方法、装置、设备和存储介质
CN114281761A (zh) 一种数据文件加载方法、装置、计算机设备及存储介质
CN114817162A (zh) 数据流向的分析方法、装置及服务器
CN113704203A (zh) 一种日志文件的处理方法及装置
CN111651531A (zh) 数据导入方法、装置、设备及计算机存储介质
TWM607472U (zh) 文字區段標籤系統
CN110765236A (zh) 一种非结构化海量数据的预处理方法及系统
CN111563123A (zh) 一种hive仓库元数据实时同步方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination