CN114756622A - 一种基于数据湖的政务数据共享交换系统 - Google Patents
一种基于数据湖的政务数据共享交换系统 Download PDFInfo
- Publication number
- CN114756622A CN114756622A CN202210258856.3A CN202210258856A CN114756622A CN 114756622 A CN114756622 A CN 114756622A CN 202210258856 A CN202210258856 A CN 202210258856A CN 114756622 A CN114756622 A CN 114756622A
- Authority
- CN
- China
- Prior art keywords
- data
- desensitization
- government affair
- algorithm
- sensitive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000586 desensitisation Methods 0.000 claims abstract description 150
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 93
- 238000001514 detection method Methods 0.000 claims abstract description 41
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 10
- 239000002131 composite material Substances 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 description 10
- 239000012634 fragment Substances 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Medical Informatics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于数据湖的政务数据共享交换系统,包括:多个客户端设备和服务器;服务器中设有数据湖;客户端设备包括:数据接收模块,用于接收上传的政务数据并将政务数据存储至数据湖;数据脱敏模块,用于根据政务数据的结构类型对政务数据进行解析;为解析结果中包含的每条敏感数据利用对应的脱敏算法进行脱敏处理;对具有数据相关性的多条敏感数据的脱敏结果进行相关性检测,且当检测不通过时重新选择脱敏算法进行脱敏处理并执行相关性检测,直至检测通过;数据共享模块,用于通过服务器将经过数据脱敏模块处理后的政务数据在多个客户端设备之间进行共享。本发明可在不同种类的政务系统间实现大范围的政务数据共享与交换。
Description
技术领域
本发明属于数据共享技术领域,具体涉及一种基于数据湖的政务数据共享交换系统。
背景技术
政务系统是指上下级政府、不同地方政府、不同政府部门之间通过计算机网络实现信息共享和实时通信的系统;其可以包括以下多种类型:电子法规政策系统、电子公文系统、电子司法档案系统、电子财政管理系统、电子办公系统、电子培训系统以及业绩评价系统等等。
现有的很多政务系统是比较早的定制化的系统,存在诸多局限性。例如,这些系统大多采用数据库或写时定义的数据仓库来实现数据的统一存储,不能满足多源异构数据的存储,也不能用于存储未经处理的数据。此外,政务数据存在着很多敏感数据,现有的很多政务系统仅能对敏感数据采用遮蔽或截断的方式做简单的脱敏处理,造成数据的可读性差,且数据的安全性不能得到有效的保障。
综上所述的现有政务系统的诸多局限性可知,现有的政务系统难以在不同种类的政务系统间实现大范围的政务数据共享与交换。
发明内容
为了解决现有技术中所存在的上述问题,本发明提供了一种基于数据湖的政务数据共享交换系统。
本发明要解决的技术问题通过以下技术方案实现:
一种基于数据湖的政务数据共享交换系统,包括:多个客户端设备和服务器;
所述服务器中设有数据湖;
所述客户端设备,包括:数据接收模块、数据脱敏模块以及数据共享模块;
所述数据接收模块,用于接收用户上传的政务数据,并将所述政务数据存储至所述数据湖;
所述数据脱敏模块,用于:根据所述政务数据的结构类型对所述政务数据进行解析;为解析结果中包含的每条敏感数据利用对应的脱敏算法进行脱敏处理;对具有数据相关性的多条敏感数据的脱敏结果进行相关性检测,且当检测不通过时对所述多条敏感数据重新选择脱敏算法进行脱敏处理并执行所述相关性检测,直至检测通过;
所述数据共享模块,用于通过所述服务器将经过所述数据脱敏模块处理后的所述政务数据在多个所述客户端设备之间进行共享。
可选地,所述数据脱敏模块,为解析结果中的每条敏感数据利用对应的脱敏算法进行脱敏处理,包括:
针对所述解析结果中数据类型相同的每组敏感数据,对该组敏感数据进行数据采样,并利用对应的多种脱敏算法对采样的敏感数据进行预脱敏处理,得到多个预脱敏结果;
利用预设的评价算法对所述多个预脱敏结果进行评价,并根据评价结果从所述多种脱敏算法中选择一种最优脱敏算法;
为该组敏感数据中的每条敏感数据均利用所述最优脱敏算法进行脱敏处理。
可选地,所述数据脱敏模块,还用于:
在为解析结果中的每条敏感数据利用对应的脱敏算法进行脱敏处理之前,确定所述解析结果中具有数据相关性的每组敏感数据;根据每组敏感数据之间的关联关系,生成该组敏感数据对应的一组临时全局数据,以替代该组敏感数据参与后续的所述脱敏处理。
可选地,所述相关性检测是基于所述客户端设备中预设的规则库实现的;
所述规则库包括多条相关性检测规则;每条所述相关性检测规则均具有唯一的规则标识;任一条所述相关性检测规则的规则内容为:实现该条相关性检测规则所对应功能的程序脚本或所述程序脚本的存储路径。
可选地,所述客户端设备中设有算法库,所有的所述脱敏算法均存储于所述算法库中;其中,每个所述脱敏算法均具有唯一的算法标识,且每个所述脱敏算法均包含算法执行文件和算法源码。
可选地,所述客户端设备,根据所述政务数据的结构类型对所述政务数据进行解析,包括:
针对结构化的政务数据,从该政务数据的各个预定义字段中,提取属于敏感数据的目标字段;
针对半结构化的政务数据,根据其存储文件对数据进行存储时的结构层次,将该政务数据的层次打平,并以所述结构层次中的各个叶子节点为单位,将该政务数据转换为多个保留有层次信息的复合字段;从每个所述复合字段中,提取属于敏感数据的目标字段;
针对非结构化的政务数据,使用命名实体识别技术从中提取敏感数据。
可选地,所述客户端设备还包括:审批模块;
所述审批模块,用于提供与政务数据共享交换相关的审批通道。
可选地,所述客户端设备还包括:用户管理模块;
所述用户管理模块,用于配置用户权限和管理用户信息;
所述服务器中还设有SQL数据库;所述SQL数据库用于存储所有的所述客户端设备的用户信息和用户权限信息。
可选地,所述数据相关性,包括:
时间相关性、文字相关性、正相关性、负相关性以及间接相关性。
可选地,所述数据脱敏模块,还用于:
向用户输出所述解析结果中未被识别为敏感数据的目标政务数据;
响应于用户手动将所述目标政务数据指定为敏感数据、且为该目标政务数据指定脱敏算法,利用用户指定的该脱敏算法对所述目标政务数据进行脱敏处理。
本发明提供的基于数据湖的政务数据共享交换系统中,利用数据湖作为数据中心,可以对多源异构数据进行统一存储,从而可以对数据进行统一的管理。由于数据湖底层采用的是分布式的存储框架,故而通过增加存储节点即可对数据湖进行扩容,从而可应对海量数据的存储以及呈指数性增加的数据量。并且,客户端设备中的数据脱敏模块可以根据政务数据的结构类型对政务数据进行解析,并自动为解析出的敏感数据利用对应的脱敏算法进行脱敏处理,确保了数据的安全性;并且,数据脱敏模块还会对脱敏结果进行相关性检测;由此,在确保数据安全性的前提下还保留了数据的可读性。综合以上种种有利因素,使得本发明提供的基于数据湖的政务数据共享交换系统可以在不同种类的政务系统间实现大范围的政务数据共享与交换。
以下将结合附图及对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的一种基于数据湖的政务数据共享交换系统的结构示意图;
图2是图1所示系统中的数据脱敏模块的运行过程示意图;
图3是一个XML文件的内容截图;
图4是基于本发明实施例提供的政务数据共享交换系统实现政务数据交换共享的示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
为了在不同种类的政务系统间实现大范围的政务数据共享与交换,本发明实施例提供了一种基于数据湖的政务数据共享交换系统系统,如图1所示,该系统包括:多个客户端设备10和服务器20;该服务器20中设有数据湖;该客户端设备10,包括:数据接收模块101、数据脱敏模块102以及数据共享模块103。
其中,数据接收模块101,用于接收用户上传的政务数据,并将该政务数据存储至数据湖。
这里,用户指的是客户端设备10的用户,具体是有将政务数据对外进行共享的需求的用户。
可以理解的是,采用数据湖作为数据中心,可以对多源异构数据进行统一存储,可以对数据进行统一的管理,解决采用数据库或数据仓库存储数据时数据难以查找的问题和数据的安全性问题。并且,数据湖底层采用的是分布式的存储框架,故而可通过增加存储节点可对数据湖从容量和数据类型上实现快速扩容,从而应对海量数据的存储以及呈指数性增加的数据量;由此可见,本发明实施例采用数据湖来存储政务数据,能够为实现大范围的政务数据共享与交换提供便利。
该数据脱敏模块102,用于:根据政务数据的结构类型对政务数据进行解析;为解析结果中包含的每条敏感数据利用对应的脱敏算法进行脱敏处理;对具有数据相关性的多条敏感数据的脱敏结果进行相关性检测,且当检测不通过时对多条敏感数据重新选择脱敏算法进行脱敏处理并执行相关性检测,直至检测通过。该数据脱敏模块102所实现的功能可以简单地用图2表示。
具体而言,由于采用了数据湖来存储政务数据,故而该数据湖中存储的数据不可避免地就存在异构性,既会有结构化数据,又可能有半结构化与非结构化数据。
其中,结构化数据是高度组织和整齐格式化的数据,它可以包含一个或多个已知的预定义字段;结构化数据可以放入表格和电子表格中来存储,利用计算机可以轻松地对结构化数据进行查找和搜索。非结构化数据不符合任何预定义的模型,简单的说,非结构化数据就是字段可变的数据。半结构化数据具有一定的结构性,可以通过灵活的键值调整获取相应信息,且数据的格式不固定,如json,同一键值下存储的信息可能是数值型的,可能是文本型的,也可能是字典或者列表。
其中,针对结构化的政务数据,对其进行解析的方式,包括:
从该政务数据的各个预定义字段中,提取属于敏感数据的目标字段。
例如下方表1中所示的结构化数据,其中,姓名是敏感数据,则从该政务数据种提取姓名这一字段的数据作为敏感数据。
表1
ID | 姓名 | 年龄 | 性别 |
1 | 张三 | 30 | 男 |
2 | 李四 | 24 | 女 |
3 | 王五 | 33 | 男 |
针对半结构化的政务数据,对其进行解析的方式,包括:
根据其存储文件对数据进行存储时的结构层次,将该政务数据的层次打平,并以结构层次中的各个叶子节点为单位,将该政务数据转换为多个保留有层次信息的复合字段;从每个复合字段中,提取属于敏感数据的目标字段。
在实际应用中,半结构化的政务数据大多存储在类似于XML(Extensible MarkupLanguage,可扩展标记语言)或HTML(Hyper Text Markup Language)格式的文件中。例如,图3示出了一XML文件的内容截图,其中存储的数据如下表2所示:
表2
观察上表可知,CName以及CNo字段的数据会重复出现在数据表中,一旦数据量过大,很容易造成数据解析效率变低并且浪费存储资源。因此,可以将层级相对高的CName以及CNo进行编号,比如将CName=VipClient和CNo=1001这两个同一层级的数据编号为NN1,来保留层级信息;其中,NN取自于Name和No的首字母,1为编号。在进行数据解析时,将其他层级低的数据直接关联其中的编号即可。例如将“VipClient、1001、张三、男、北京”存储成“NN1、张三、男、北京”,按照此进行操作,即可将上表所示的非结构化数据变为结构化数据,这样通过NN1即可查找张三的数据。
可以理解的是,编号的内存占用率比真实的数据内存占用率小的多,这样省去了层级重复数据带来的内存开销并且提高了数据解析效率,而且还让数据的层级性得到了保留。
针对非结构化的政务数据,对其进行解析的方式,包括:使用命名实体识别技术从中提取敏感数据。
具体而言,采用Bert+BiLSTM+CRF模型,对非结构化的政务数据采用BIO的标记方法进行标记,从而从中提取敏感数据。其中,Bert+BiLSTM+CRF模型是一种现有的命名实体识别模型。BIO标注是指:将文本序列中的每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。X指代的含义可自定义,例如X可以指代名词短语。
政务数据解析完成后,为解析结果中包含的每条敏感数据利用对应的脱敏算法进行脱敏处理。具体的,识别每条敏感具体的数据的数据类型,根据其数据类型来选择对应的脱敏算法。例如,对于数据类型为日期的敏感数据,可以对日期进行时间的偏移和取整来实现脱敏;对于数据类型为金额的敏感数据,可以运用自定义算法将金额进行修改。
在实际应用中,为了满足不同类型数据的需求从而保证脱敏算法的可扩展性,可以将不同的脱敏算法均定义为统一的格式,例如可以包括五个部分:算法名称、算法说明、算法的输入参数、算法涉及的数据以及具体的算法内容。
在一种可选实现方式中,对于同一种数据类型来说,对应的脱敏算法可以包括多个。因此,数据脱敏模块102,为解析结果中的每条敏感数据利用对应的脱敏算法进行脱敏处理,可以包括:
针对解析结果中数据类型相同的每组敏感数据,对该组敏感数据进行数据采样,并利用对应的多种脱敏算法对采样的敏感数据进行预脱敏处理,得到多个预脱敏结果;
利用预设的评价算法对这多个预脱敏结果进行评价,并根据评价结果从这多种脱敏算法中选择一种最优脱敏算法;
为该组敏感数据中的每条敏感数据均利用该最优脱敏算法进行脱敏处理。
其中,评价算法往往与数据类型相关,可根据具体的数据类型自定义测试脚本来实现。例如,假设有一组敏感数据为具有时间先后关系的历史日期,对该组日期分别使用不同的脱敏算法进行脱敏处理后,每组日期都会对应多组不同的脱敏后日期;在对这多组不同的脱敏后日期进行评价时,首先,脱敏后的日期仍需保有时间上的先后关系,其次,由于是历史日期,故而脱敏后的日期不可出现未来的日期,利用这两种标准共同对每组脱敏后的日期进行评价。再比如,如果敏感数据是姓名,则对脱敏后的姓名进行评价时,一方面可以评价脱敏后的姓氏是否和原姓氏的字数一致,如果脱敏前是复姓,则脱敏后也可以是另一个复姓;其次,还可以评价脱敏后的姓氏和原姓氏的百家姓排名是否将近,例如脱敏前的姓氏为王,则脱敏后的姓氏若为“李”“张”“刘”“陈”几个户籍人口数量较大的姓氏中的一种,则评价结果可以是较优,若脱敏后的姓氏为偏僻的姓氏,则评价结果可以是较差。
优选地,客户端设备10中可以设有一算法库,所有的脱敏算法均存储于该算法库中;其中,每个脱敏算法均具有唯一的算法标识,且每个脱敏算法均包含算法执行文件和算法源码。其中,算法标识可以是算法名称、算法编号或者更为复杂的复合标识。例如,可以用算法适用的数据类型+算法名称+算法存储路径的形式来唯一标识算法。并且,该算法库中还可以设置支持多种语言的算法。可以理解的是,利用算法库来存储各个算法的方式,可以方便地对脱敏算法进行扩充。
对解析结果中的敏感数据进行脱敏处理完成后,该数据脱敏模块102继续对具有数据相关性的多条敏感数据的脱敏结果进行相关性检测。当检测通过时,完成数据脱敏,可以继续将数据进行共享。而当检测不通过时,对这多条敏感数据重新选择脱敏算法进行脱敏处理并执行相关性检测,直至检测通过。
可以理解的是,相关性检测的目的在于检测脱敏处理后的数据的相关性是否与脱敏前的相关性保持一致。例如,对于身份证和出生日期两种敏感数据来说,脱敏前与脱敏后两种数据中的出生日期应保持一致。
在本发明实施例中,基于规则库可以检测的数据相关性包括多种,例如时间相关性、文字相关性、正相关性、负相关性以及间接相关性等等。
在实际应用中,数据的相关性由上传数据的用户在数据中进行关联设定;由此,在对具有数据相关性的多条敏感数据进行脱敏处理后,便可以根据用户设定的关联关系来开展该相关性检测。
在一种可选实现方式中,数据脱敏模块102,还可以用于:
在为解析结果中的每条敏感数据利用对应的脱敏算法进行脱敏处理之前,确定解析结果中具有数据相关性的每组敏感数据;根据每组敏感数据之间的关联关系,生成该组敏感数据对应的一组临时全局数据,以替代该组敏感数据参与后续的脱敏处理。
本领域技术人员均知晓的是,很多脱敏算法都摆脱不了利用随机的思想来模糊原始的数据。但是,由于数据之间的相关性,有时可能导致在利用随机思想将两个数据进行脱敏处理后,丢失了数据之间原本具有的相关性。例如,身份证中的日期与出生日期是一一对应的,这两个敏感数据的脱敏结果应该是相同的。因此,本发明实施例可采用临时全局数值的概念,以便在独立地对具有相关性的每个敏感数据进行脱敏后,仍保留数据之间的相关性。
举例而言,假设有一组敏感的日期数据,包括:20220303、20220310、20220317、20220324以及20220331。可以看到,这组日期均是星期四,这便是它们之间的相关性。因此,可以采用随机思想将20220303变换为20220305,然后,基于该相关性,将20220310、20220317、20220324以及20220331依次变换为20220312、20220319、20220326以及20220402,从而参与后续的脱敏处理。
在一种可选实现方式中,客户端设备10中还可以设置一规则库,该规则库中包含有多条相关性检测规则;每条相关性检测规则均具有唯一的规则标识;任一条相关性检测规则的规则内容为:实现该条相关性检测规则所对应功能的程序脚本或此程序脚本的存储路径。其中,规则标识可以是规则名称、规则编号或者更为复杂的复合标识。例如可以用规则名称+规则适用的数据类型来唯一表示规则,当然并不局限于此。可以理解的是,利用规则库来存储各个检测规则的方式,可以方便地对检测规则进行扩充。
另外,在实际应用中,若没有新的脱敏算法可供重新选择时,可以向用户报错,提示建议更新算法库,或者用户检查自己上传的数据是否存在异常。若对相关性检测不通过的多条敏感数据重新选择脱敏算法进行脱敏处理、且处理后进行的相关性检测仍旧不通过时,可以向用户报错,提示建议更新算法库或和/规则库来解决问题,或者用户检查自己上传的数据是否存在异常等等,这都是合理的。
数据共享模块103,用于通过服务器20将经过数据脱敏模块102处理后的政务数据在多个客户端设备10之间进行共享。
具体而言,参见图3所示的数据共享交换流程,包括:
(1)目录登记:数据提供方的操作人员利用自己的客户端设备10将政务数据的数据目录登记到服务器20;
(2)审批登记:数据提供方的审核人员利用自己的客户端设备10对数据提供方的操作人员所登记的数据目录进行审批登记;
(3)目录发布:审批通过后,数据提供方的操作人员利用自己的客户端设备10将数据目录通过服务器20进行发布;
(4)关联数据源:数据提供方的操作人员利用自己的客户端设备10从数据湖中为数据目录关联具体的源数据,即为数据目录关联经数据脱敏模块102处理后的政务数据,并通过服务器20将该政务数据进行发布。
(5)检索资源:数据需求方通过自己的客户端设备10检索看到数据提供方发布的数据目录。
(6)申请资源:数据需求方想要使用数据提供方所发布数据目录里的政务数据,则利用自己的客户端设备10,通过服务器向数据提供方发起请求,申请使用该数据资源。
(7)授权审批,数据提供方的审核人员利用自己的客户端设备10对数据需求方的发起的请求进行审批;若审批不通过,结束共享流程;若审批通过,进入阶段(8)。
(8)资质鉴权:服务器20进一步对数据需求方的数据访问权限进行鉴权,若鉴权不通过,结束共享流程;若鉴权通过,进入阶段(9)。
(9)资源下载:数据需求方从数据湖中获取经脱敏处理后的政务数据,并将其存储至本地。
(10)资源使用:数据需求方的具体操作人员使用己方已下载的政务数据开展政务活动。
图3中所示的ETL是英文Extract-Transform-Load的缩写,是将数据从来源端经抽取、转换、加载至目的端的过程。具体到本发明实施例中属于数据接收模块101的功能范畴。
基于图3所示的实施例可见,在本发明实施例提供的基于数据湖的政务数据共享交换系统中,客户端设备10终还可以包括:审批模块;该审批模块,用于提供与政务数据共享交换相关的审批通道。例如是图3中的阶段(2)和阶段(7)所要用到的审批通道。
此外,客户端设备10还可以包括一用户管理模块;该用户管理模块,用于配置用户权限和管理用户信息;相应的,服务器20中还可以设有SQL(Structured Query Language,结构化查询语言)数据库;该SQL数据库用于存储所有的客户端设备10的用户信息和用户权限信息。
可以理解的是,对于不同类型的政务系统来说,用户权限和用户信息往往相差不大,可以定义为结构化数据,故而使用SQL数据库对其进行存储是比较合适的;并且,将政务数据与用户权限和用户这类业务分开进行存储和管理,可以将SQL数据库进行单独保护,不对外进行公开,从而避免异常情况下用户的信息被非法访问。
在一个实施例中,数据脱敏模块102,还可以用于:
向用户输出解析结果中未被识别为敏感数据的目标政务数据;
响应于用户手动将目标政务数据指定为敏感数据、且为该目标政务数据指定脱敏算法,利用用户指定的该脱敏算法对所述目标政务数据进行脱敏处理。
可以理解的是,由于数据湖中可存储的数据多种多样且有些数据的字段名称较为复杂,因此若数据脱敏模块102无法识别出所有的敏感数据时,允许用户以手动操作的方式对于未被识别出的敏感数据进行手动脱敏处理。
优选地,在展示未被识别为敏感数据的目标政务数据时,可以同时展示推荐的脱敏方式以便供用户进行选择;可以理解的是,这些脱敏方式背后均有对应的脱敏算法支持。
本发明实施例提供的基于数据湖的政务数据共享交换系统中,利用数据湖作为数据中心,可以对多源异构数据进行统一存储,从而可以对数据进行统一的管理。由于数据湖底层采用的是分布式的存储框架,故而通过增加存储节点即可对数据湖进行扩容,从而可应对海量数据的存储以及呈指数性增加的数据量。并且,客户端设备10中的数据脱敏模块102可以根据政务数据的结构类型对所述政务数据进行解析,并自动为解析出的敏感数据利用对应的脱敏算法进行脱敏处理,确保了数据的安全性;并且,数据脱敏模块102还会对脱敏结果进行相关性检测;由此,在确保数据安全性的前提下还保留了数据的可读性。综合以上种种因素,使得本发明实施例提供的基于数据湖的政务数据共享交换系统可以在不同种类的政务系统间实现大范围的政务数据共享与交换。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于数据湖的政务数据共享交换系统,其特征在于,包括:多个客户端设备和服务器;
所述服务器中设有数据湖;
所述客户端设备,包括:数据接收模块、数据脱敏模块以及数据共享模块;
所述数据接收模块,用于接收用户上传的政务数据,并将所述政务数据存储至所述数据湖;
所述数据脱敏模块,用于:根据所述政务数据的结构类型对所述政务数据进行解析;为解析结果中包含的每条敏感数据利用对应的脱敏算法进行脱敏处理;对具有数据相关性的多条敏感数据的脱敏结果进行相关性检测,且当检测不通过时对所述多条敏感数据重新选择脱敏算法进行脱敏处理并执行所述相关性检测,直至检测通过;
所述数据共享模块,用于通过所述服务器将经过所述数据脱敏模块处理后的所述政务数据在多个所述客户端设备之间进行共享。
2.根据权利要求1所的基于数据湖的政务数据共享交换系统,其特征在于,所述数据脱敏模块,为解析结果中的每条敏感数据利用对应的脱敏算法进行脱敏处理,包括:
针对所述解析结果中数据类型相同的每组敏感数据,对该组敏感数据进行数据采样,并利用对应的多种脱敏算法对采样的敏感数据进行预脱敏处理,得到多个预脱敏结果;
利用预设的评价算法对所述多个预脱敏结果进行评价,并根据评价结果从所述多种脱敏算法中选择一种最优脱敏算法;
为该组敏感数据中的每条敏感数据均利用所述最优脱敏算法进行脱敏处理。
3.根据权利要求1所的基于数据湖的政务数据共享交换系统,其特征在于,所述数据脱敏模块,还用于:
在为解析结果中的每条敏感数据利用对应的脱敏算法进行脱敏处理之前,确定所述解析结果中具有数据相关性的每组敏感数据;根据每组敏感数据之间的关联关系,生成该组敏感数据对应的一组临时全局数据,以替代该组敏感数据参与后续的所述脱敏处理。
4.根据权利要求1所的基于数据湖的政务数据共享交换系统,其特征在于,所述相关性检测是基于所述客户端设备中预设的规则库实现的;
所述规则库包括多条相关性检测规则;每条所述相关性检测规则均具有唯一的规则标识;任一条所述相关性检测规则的规则内容为:实现该条相关性检测规则所对应功能的程序脚本或所述程序脚本的存储路径。
5.根据权利要求1所的基于数据湖的政务数据共享交换系统,其特征在于,所述客户端设备中设有算法库,所有的所述脱敏算法均存储于所述算法库中;其中,每个所述脱敏算法均具有唯一的算法标识,且每个所述脱敏算法均包含算法执行文件和算法源码。
6.根据权利要求1所的基于数据湖的政务数据共享交换系统,其特征在于,所述客户端设备,根据所述政务数据的结构类型对所述政务数据进行解析,包括:
针对结构化的政务数据,从该政务数据的各个预定义字段中,提取属于敏感数据的目标字段;
针对半结构化的政务数据,根据其存储文件对数据进行存储时的结构层次,将该政务数据的层次打平,并以所述结构层次中的各个叶子节点为单位,将该政务数据转换为多个保留有层次信息的复合字段;从每个所述复合字段中,提取属于敏感数据的目标字段;
针对非结构化的政务数据,使用命名实体识别技术从中提取敏感数据。
7.根据权利要求1所的基于数据湖的政务数据共享交换系统,其特征在于,所述客户端设备还包括:审批模块;
所述审批模块,用于提供与政务数据共享交换相关的审批通道。
8.根据权利要求1所的基于数据湖的政务数据共享交换系统,其特征在于,所述客户端设备还包括:用户管理模块;
所述用户管理模块,用于配置用户权限和管理用户信息;
所述服务器中还设有SQL数据库;所述SQL数据库用于存储所有的所述客户端设备的用户信息和用户权限信息。
9.根据权利要求1所的基于数据湖的政务数据共享交换系统,其特征在于,所述数据相关性,包括:
时间相关性、文字相关性、正相关性、负相关性以及间接相关性。
10.根据权利要求1所的基于数据湖的政务数据共享交换系统,其特征在于,所述数据脱敏模块,还用于:
向用户输出所述解析结果中未被识别为敏感数据的目标政务数据;
响应于用户手动将所述目标政务数据指定为敏感数据、且为该目标政务数据指定脱敏算法,利用用户指定的该脱敏算法对所述目标政务数据进行脱敏处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210258856.3A CN114756622A (zh) | 2022-03-16 | 2022-03-16 | 一种基于数据湖的政务数据共享交换系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210258856.3A CN114756622A (zh) | 2022-03-16 | 2022-03-16 | 一种基于数据湖的政务数据共享交换系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114756622A true CN114756622A (zh) | 2022-07-15 |
Family
ID=82327588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210258856.3A Pending CN114756622A (zh) | 2022-03-16 | 2022-03-16 | 一种基于数据湖的政务数据共享交换系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114756622A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982097A (zh) * | 2022-12-20 | 2023-04-18 | 河北东软软件有限公司 | 一种基于政务数据的数据归档方法、装置及相关组件 |
-
2022
- 2022-03-16 CN CN202210258856.3A patent/CN114756622A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982097A (zh) * | 2022-12-20 | 2023-04-18 | 河北东软软件有限公司 | 一种基于政务数据的数据归档方法、装置及相关组件 |
CN115982097B (zh) * | 2022-12-20 | 2023-10-27 | 河北东软软件有限公司 | 一种基于政务数据的数据归档方法、装置及相关组件 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9165061B2 (en) | Identifying information related to a particular entity from electronic sources, using dimensional reduction and quantum clustering | |
CN107480549A (zh) | 一种面向数据共享的敏感信息脱敏方法及系统 | |
US20120041939A1 (en) | System and Method for Unification of User Identifiers in Web Harvesting | |
CN106682147A (zh) | 一种基于海量数据的查询方法及装置 | |
CN107423632A (zh) | 可定制的敏感数据脱敏方法和系统 | |
CN105765559A (zh) | 交互式案件管理系统 | |
US8732194B2 (en) | Systems and methods for generating issue libraries within a document corpus | |
CN107103032A (zh) | 一种分布式环境下避免全局排序的海量数据分页查询方法 | |
CN112765366A (zh) | 基于知识图谱的apt组织画像构建方法 | |
CN110929125A (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN112989412A (zh) | 一种基于sql语句解析的数据脱敏方法及装置 | |
US11941135B2 (en) | Automated sensitive data classification in computerized databases | |
CN114756622A (zh) | 一种基于数据湖的政务数据共享交换系统 | |
Zhao et al. | Mid-ontology learning from linked data | |
KR102257139B1 (ko) | 다크웹 정보 수집 방법 및 장치 | |
CN110502529B (zh) | 数据处理方法、装置、服务器及存储介质 | |
CN116860825A (zh) | 一种基于区块链的可验证检索方法及系统 | |
CN115185973A (zh) | 一种数据资源共享方法、平台、装置及存储介质 | |
CN112131215B (zh) | 自底向上的数据库信息获取方法及装置 | |
US11669555B2 (en) | System and method of creating index | |
CN109408704B (zh) | 基金数据关联方法、系统、计算机设备和存储介质 | |
Monaco | Methods for in-sourcing authority control with MarcEdit, SQL, and regular expressions | |
Tamilin et al. | Context-driven semantic enrichment of italian news archive | |
Hasan et al. | A Scalable Framework to Analyze Data from Heterogeneous Sources at Different Levels of Granularity | |
US11429583B2 (en) | System and method of creating database arrangement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |