CN114329190A - 一种数据标准处理系统 - Google Patents
一种数据标准处理系统 Download PDFInfo
- Publication number
- CN114329190A CN114329190A CN202111520184.0A CN202111520184A CN114329190A CN 114329190 A CN114329190 A CN 114329190A CN 202111520184 A CN202111520184 A CN 202111520184A CN 114329190 A CN114329190 A CN 114329190A
- Authority
- CN
- China
- Prior art keywords
- standard
- data
- module
- processing
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 44
- 238000011272 standard treatment Methods 0.000 claims abstract description 7
- 238000012795 verification Methods 0.000 claims abstract description 6
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000000034 method Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 238000007726 management method Methods 0.000 claims description 6
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 238000003032 molecular docking Methods 0.000 claims description 4
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 2
- 238000013500 data storage Methods 0.000 claims description 2
- 238000007689 inspection Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000013523 data management Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据标准处理系统,包括:标准采集模块、标准处理模块、标准治理模块、标准推送模块;所述标准采集模块,用于各类型标准数据的采集;所述标准处理模块,用于对采集到的各类型标准数据进行规范化处理;所述标准治理模块,用于规范化处理后的标准数据的元数据审核及标准订阅服务资源目录生成;所述标准推送模块,用于将通过规则校验的标准数据推送给订阅者。本发明实现了数据标准在项目中的快速获取入库,精准对标,使用场景拓展,为涉及数据标准的各现场项目提供有力支撑。
Description
技术领域
本发明属于数据治理技术领域,具体涉及一种数据标准处理系统。
背景技术
随着标准化建设的持续性开展,各项目中数据标准的重要性得到了进一步体现。而数据标准在项目实施过程中出现了标准获取困难、标准数据更新不及时、标准梳理不完善、标准与业务结合不充分、使用场景狭隘等问题。
现有技术在标准的获取阶段,多采用人工采集的方式,耗时久且准确率低。而在标准的处理上,往往采用布隆过滤器等方法去重,对内存的资源消耗极大,且去重不完全。在服务方面,往往只提供一次数据,对标准的更新实时性差。
发明内容
针对于上述现有技术的不足,本发明的目的在于提供一种数据标准处理系统,以解决现有技术中数据标准采集效率低、处理慢、服务更新不及时等问题。本发明实现了数据标准在项目中的快速获取入库,精准对标,使用场景拓展,为涉及数据标准的各现场项目提供有力支撑。
为达到上述目的,本发明采用的技术方案如下:
本发明的一种数据标准处理系统,包括:标准采集模块、标准处理模块、标准治理模块、标准推送模块;其中,
所述标准采集模块,用于各类型标准数据的采集;
所述标准处理模块,用于对采集到的各类型标准数据进行规范化处理;
所述标准治理模块,用于规范化处理后的标准数据的元数据审核及标准订阅服务资源目录生成;
所述标准推送模块,用于将通过规则校验的标准数据推送给订阅者。
进一步地,所述标准数据的采集方式为:人工采集及互联网采集;
所述互联网采集具体为:部署在客户端的采集器通过HTTP请求向部署在服务端的注册器注册采集地址,注册成功后,注册器将包含采集网页、存储地址、采集周期的配置参数回传采集器;采集器按照配置参数,周期性采集相关网页,并将采集结果存储至服务端目的地址。
进一步地,所述规范化处理具体包括:标准提取与标准去重;
标准提取:对采集到的各类型标准数据进行图像识别,将图片类、报表类数据文件转换为TXT文件;在标准数据处理规则模板中,选择对应模板,对TXT文件进行统一处理,处理过程使用TextRank算法进行文本词素分析;
标准去重:使用现有Key-Value校验方法进行去重,引入外部Key-Value数据库RocksDB作为去重存储数据库,计算上使用Flink计算引擎;使用进行标准提取后的数据,以标准文件名、标准文件编码、字段名、字段中文名四个字段为去重依据,将去重字段进行词素分析,将分析结果作为Key,以标准发布时间作为Value,存储至RocksDB,按批次逐条比对数据;Key值不存在的数据则作为新数据;Key值已存在的数据则比较Value值大小,Value值小的视作过期数据,按Value值大的数据更新,经过去重后的数据,存储至MYSQL数据库对应的原始标准业务表中。
进一步地,所述文本词素分析具体为:按切分的词素从TXT文件各行中,提取与标准有关的内容,进而提取标准文件名、文件编号、业务域、标准详情的信息。
进一步地,所述标准治理模块根据业务域载入相应元数据规则;使用正则匹配、业务依赖的规则对数据进行核验,核验后的数据联查MYSQL数据库业务域字典集表,生成最终数据标准;依赖数据中的目录层级字段,按照1至5级分类标准,写入相应文件(包括PDF,Word,Excel,Html等多种格式),同时写入MYSQL数据库对应的标准业务表中。
进一步地,所述标准推送模块通过消息队列、接口调用、数据库对接的方式上传标准治理结果数据;根据增量字段、订阅周期、订阅地址、订阅方式生成对应服务并进行服务发布;发布后的服务根据订阅者的不同,记录对应数据推送/订阅检查点;根据订阅方式参数,以数据库对接或HTTP网络请求的方式,批量发送数据;确认订阅者数据接收完成后,更新检查点并完成数据存储;当检查点出现异常(因网络异常或服务器宕机等原因),回溯检查位置,重新推送数据,以确保数据精准推送一次。
本发明的有益效果:
1、本发明中的标准提取环节,使用图像识别技术,解决多元化来源文件的格式统一问题,减轻实施人员工作量,并引用了词素分析算法,解决标准识别不准确问题。
2、本发明中的标准去重环节,使用Flink计算引擎与RocksDB数据库,解决数据膨胀带来的内存不足以及布隆过滤器等技术去重不充分的问题;使用词素分析算法,解决语义重复匹配困难、去重效率低等问题。
3、本发明中以多种文件格式,按多级目录形式提供标准服务数据,方便实施人员快速检阅。
4、本发明中使用检查点机制确保数据精准推送一次,解决标准重复推送,标准遗漏等问题。
附图说明
图1是本发明数据标准处理系统的框架图;
图2是本发明数据标准处理系统在使用过程中的标准数据流向图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
如图1所示,本发明一种数据标准处理系统,包括标准采集、标准处理、标准治理、标准推送;
所述标准采集模块包括:互联网采集模块、人工采集模块;
互联网采集模块,使用互联网采集方式,采集与数据标准有关的图片与文档;
人工采集模块,使用人工采集方式,采集与数据标准有关的图片与文档;
所述标准处理模块包括:标准提取模块,标准去重模块;
标准提取模块,对采集到的各类型标准数据进行图像识别,将图片类、报表类数据文件转换为TXT文件;在标准数据处理规则模板中,选择对应模板,对TXT文件进行统一处理,处理过程使用TextRank算法进行文本词素分析;
标准去重模块,使用现有Key-Value校验方法进行去重,引入外部Key-Value数据库RocksDB作为去重存储数据库,使用进行标准提取后的数据,以标准文件名、标准文件编码、字段名、字段中文名四个字段为去重依据,将去重字段进行词素分析,将分析结果作为Key,以标准发布时间作为Value,存储至RocksDB,按批次逐条比对数据;Key值不存在的数据则作为新数据;Key值已存在的数据则比较Value值大小,Value值小的视作过期数据,按Value值较大的数据更新,经过去重后的数据,存储至MYSQL数据库对应的原始标准业务表中;
所述标准治理模块,用于规范化处理后的标准数据的元数据审核及标准订阅服务资源目录生成;
所述标准推送模块包括:标准订阅模块与推送管理模块;
标准订阅模块,用于提供标准订阅服务资源目录,供订阅者订阅;
推送管理模块,向订阅者推送所订阅的资源目录对应的标准数据。
以下通过数据标准流向的方式,如图2所示,对本发明系统实施方式进行说明:实例背景为部署在不同网络环境下,对互联网环境服务器采集的某类数据标准进行处理,并推送给使用方,根据使用方需求对使用方日志进行分析。
数据标准采集模块,在政务内网端部署所述数据标准采集模块的采集服务端,在互联网环境部署采集客户端,通过服务注册映射的方式联通互联网采集数据。获取数据标准图片数据(JPG格式),存储至服务器。
数据标准处理模块,根据文件存储格式,对JPG格式图像进行识别,将图片数据转换为为TXT文件数据。选择TXT文件对应的内置标准处理模板,使用TextRank算法对TXT文件进行处理,提取标准文件名、文件编号、业务域、标准详细信息,存储至数据库表中。
标准治理模块调取对应业务域的数据治理规则,对入库标准进行审核,包括字段审核、逻辑审核等,再联查对应字典集表,形成最终数据标准。
标准推送模块选择PDF格式,将数据标准治理结果按层级进行导出,推送至服务资源目录;接收到订阅者配置的订阅参数后,启将对应的标准数据进行推送。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。
Claims (6)
1.一种数据标准处理系统,其特征在于,包括:标准采集模块、标准处理模块、标准治理模块、标准推送模块;
所述标准采集模块,用于各类型标准数据的采集;
所述标准处理模块,用于对采集到的各类型标准数据进行规范化处理;
所述标准治理模块,用于规范化处理后的标准数据的元数据审核及标准订阅服务资源目录生成;
所述标准推送模块,用于将通过规则校验的标准数据推送给订阅者。
2.根据权利要求1所述的数据标准处理系统,其特征在于,所述标准数据的采集方式为:人工采集及互联网采集;
所述互联网采集具体为:部署在客户端的采集器通过HTTP请求向部署在服务端的注册器注册采集地址,注册成功后,注册器将包含采集网页、存储地址、采集周期的配置参数回传采集器;采集器按照配置参数,周期性采集相关网页,并将采集结果存储至服务端目的地址。
3.根据权利要求1所述的数据标准处理系统,其特征在于,所述规范化处理具体包括:标准提取与标准去重;
标准提取:对采集到的各类型标准数据进行图像识别,将图片类、报表类数据文件转换为TXT文件;在标准数据处理规则模板中,选择对应模板,对TXT文件进行统一处理,处理过程使用TextRank算法进行文本词素分析;
标准去重:使用现有Key-Value校验方法进行去重,引入外部Key-Value数据库RocksDB作为去重存储数据库,计算上使用Flink计算引擎;使用进行标准提取后的数据,以标准文件名、标准文件编码、字段名、字段中文名四个字段为去重依据,将去重字段进行词素分析,将分析结果作为Key,以标准发布时间作为Value,存储至RocksDB,按批次逐条比对数据;Key值不存在的数据则作为新数据;Key值已存在的数据则比较Value值大小,Value值小的视作过期数据,按Value值大的数据更新,经过去重后的数据,存储至MYSQL数据库对应的原始标准业务表中。
4.根据权利要求3所述的数据标准处理系统,其特征在于,所述文本词素分析具体为:按切分的词素从TXT文件各行中,提取与标准有关的内容,进而提取标准文件名、文件编号、业务域、标准详情的信息。
5.根据权利要求1所述的数据标准处理系统,其特征在于,所述标准治理模块根据业务域载入相应元数据规则;使用正则匹配、业务依赖的规则对数据进行核验,核验后的数据联查MYSQL数据库业务域字典集表,生成最终数据标准;依赖数据中的目录层级字段,按照1至5级分类标准,写入相应文件,同时写入MYSQL数据库对应的标准业务表中。
6.根据权利要求1所述的数据标准处理系统,其特征在于,所述标准推送模块通过消息队列、接口调用、数据库对接的方式上传标准治理结果数据;根据增量字段、订阅周期、订阅地址、订阅方式生成对应服务并进行服务发布;发布后的服务根据订阅者的不同,记录对应数据推送/订阅检查点;根据订阅方式参数,以数据库对接或HTTP网络请求的方式,批量发送数据;确认订阅者数据接收完成后,更新检查点并完成数据存储;当检查点出现异常,回溯检查位置,重新推送数据,以确保数据精准推送一次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111520184.0A CN114329190A (zh) | 2021-12-13 | 2021-12-13 | 一种数据标准处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111520184.0A CN114329190A (zh) | 2021-12-13 | 2021-12-13 | 一种数据标准处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114329190A true CN114329190A (zh) | 2022-04-12 |
Family
ID=81051139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111520184.0A Pending CN114329190A (zh) | 2021-12-13 | 2021-12-13 | 一种数据标准处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114329190A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860741A (zh) * | 2023-08-31 | 2023-10-10 | 成都智慧锦城大数据有限公司 | 基于消息队列的数据标准自动检验和同步系统及方法 |
CN117992443A (zh) * | 2024-04-07 | 2024-05-07 | 云启智慧科技有限公司 | 一种基于知识管理识别主数据的数据治理系统 |
-
2021
- 2021-12-13 CN CN202111520184.0A patent/CN114329190A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860741A (zh) * | 2023-08-31 | 2023-10-10 | 成都智慧锦城大数据有限公司 | 基于消息队列的数据标准自动检验和同步系统及方法 |
CN116860741B (zh) * | 2023-08-31 | 2023-11-10 | 成都智慧锦城大数据有限公司 | 基于消息队列的数据标准自动检验和同步系统及方法 |
CN117992443A (zh) * | 2024-04-07 | 2024-05-07 | 云启智慧科技有限公司 | 一种基于知识管理识别主数据的数据治理系统 |
CN117992443B (zh) * | 2024-04-07 | 2024-06-18 | 云启智慧科技有限公司 | 一种基于知识管理识别主数据的数据治理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109034993B (zh) | 对账方法、设备、系统及计算机可读存储介质 | |
CN109656999B (zh) | 大数据量的数据同步方法、设备、存储介质及装置 | |
CN114329190A (zh) | 一种数据标准处理系统 | |
CN110737689B (zh) | 数据标准符合性检测方法、装置、系统及存储介质 | |
AU2017286545A1 (en) | Method and apparatus for processing logistics information | |
CN108228664B (zh) | 非结构化数据处理方法及装置 | |
CN114625809A (zh) | 一种基于Binlog日志的数据同步方法、装置以及存储介质和电子设备 | |
CN116775488A (zh) | 异常数据确定方法、装置、设备、介质及产品 | |
CN110096478B (zh) | 文档索引生成方法及设备 | |
CN111984797A (zh) | 客户身份识别装置及方法 | |
CN116701355A (zh) | 数据视图处理方法、装置、计算机设备及可读存储介质 | |
CN116204428A (zh) | 一种测试用例生成方法和装置 | |
CN115756486A (zh) | 一种数据接口解析方法及装置 | |
CN112241445B (zh) | 一种标注方法及装置、电子设备、存储介质 | |
CN112395292B (zh) | 一种数据特征提取、匹配方法及装置 | |
CN111061719B (zh) | 数据收集方法、装置、设备和存储介质 | |
CN114443653A (zh) | 基于数据库数据字段枚举统一存取方法、系统、终端设备及存储介质 | |
CN114281761A (zh) | 一种数据文件加载方法、装置、计算机设备及存储介质 | |
CN114817162A (zh) | 数据流向的分析方法、装置及服务器 | |
CN113704203A (zh) | 一种日志文件的处理方法及装置 | |
CN111651531A (zh) | 数据导入方法、装置、设备及计算机存储介质 | |
CN113221886A (zh) | 一种基于图文识别后的文字学习校对系统 | |
CN110765236A (zh) | 一种非结构化海量数据的预处理方法及系统 | |
CN117112846B (zh) | 一种多信息源证照信息管理方法、系统及介质 | |
CN114970898A (zh) | 机车碎修信息处理方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |