CN115982097B - 一种基于政务数据的数据归档方法、装置及相关组件 - Google Patents

一种基于政务数据的数据归档方法、装置及相关组件 Download PDF

Info

Publication number
CN115982097B
CN115982097B CN202211640717.3A CN202211640717A CN115982097B CN 115982097 B CN115982097 B CN 115982097B CN 202211640717 A CN202211640717 A CN 202211640717A CN 115982097 B CN115982097 B CN 115982097B
Authority
CN
China
Prior art keywords
data
government
government affair
affair data
normal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211640717.3A
Other languages
English (en)
Other versions
CN115982097A (zh
Inventor
刘奎
袁大勇
陈垚
王芳
任伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Neusoft Software Co ltd
Original Assignee
Hebei Neusoft Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Neusoft Software Co ltd filed Critical Hebei Neusoft Software Co ltd
Priority to CN202211640717.3A priority Critical patent/CN115982097B/zh
Publication of CN115982097A publication Critical patent/CN115982097A/zh
Application granted granted Critical
Publication of CN115982097B publication Critical patent/CN115982097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于政务数据的数据归档方法、装置及相关组件,涉及政务数据处理领域。该方法包括对输入的原始政务数据进行数据清洗,得到正常政务数据和异常政务数据;将异常政务数据从原始政务数据中删除,并将删除后的异常政务数据存储于第一存储区域和将剩下的正常政务数据存储于第二存储区域;将第二存储区域分割成第一存储子区域和第二存储子区域,并对正常政务数据执行加密步骤,使具有保密性质的正常政务数据被转移至第二存储子区域;在加密步骤结束后,将剩下的正常政务数据进行脱敏并存储于第一存储子区域。该方法有利于平台在调用政务数据时,有选择的调取,而不是直接将所有的政务数据进行调出,有利于提高对政务数据的调出速率。

Description

一种基于政务数据的数据归档方法、装置及相关组件
技术领域
本发明涉及政务数据处理领域,尤其涉及一种基于政务数据的数据归档方法、装置及相关组件。
背景技术
目前大数据的本质是数据,政务大数据的本质是政务,因此,政务大数据的安全本质上就是政务数据的安全,其中,政务数据都会直接、或间接着来自于政务信息系统,例如数据/信息资源平台、门户网站或业务应用等,其中,政务数据中的信息通常通过数据、图标、文字等形式进行记录。
目前相关的政务数据归档平台对输入的政务数据通常会进行数据清洗、数据脱敏的步骤,以提高政务数据的质量,然后将政务数据按照日期或者政务类型直接存储至对应的数据库中。
对此,本申请发明人认为,由于直接将处理后的政务数据直接存储在相同的数据库中,使得在需要调出政务数据时,需要遍历数据库中所有的政务数据中的信息,造成政务数据调出速率降低的问题。
发明内容
本发明的目的是提供一种基于政务数据的数据归档方法、装置及相关组件,旨在解决现有的数据归档方法造成后期需要调出政务数据的速率较慢的问题。
为解决上述技术问题,本发明的目的是通过以下技术方案实现的:提供一种基于政务数据的数据归档方法,其包括:
基于预设的数据清洗规则,对输入的原始政务数据进行数据清洗,得到正常政务数据和异常政务数据;
将所述异常政务数据从所述原始政务数据中删除,并将删除后的异常政务数据存储于第一存储区域和将剩下的正常政务数据存储于第二存储区域,其中,所述异常政务数据与所述第一存储区域的对应位置建立隐射关系;
将所述第二存储区域分割成第一存储子区域和第二存储子区域,并对所述正常政务数据执行加密步骤,使具有保密性质的正常政务数据被转移至所述第二存储子区域;
在所述加密步骤结束后,基于预设的脱敏规则,将剩下的正常政务数据进行脱敏并存储于第一存储子区域。
进一步的,所述加密步骤包括:
筛选所述正常政务数据中的表格数据,并将所述表格数据转换为图像数据;
将所述图像数据转移至所述第二存储子区域,并在所述正常政务数据对应位置建立转移占位符,其中,所述转移占位符与所述图像数据建立隐射关系。
进一步的,所述加密步骤还包括:
筛选所述正常政务数据中所有表头,判断各所述表头是否满足文件保密规则,若当前所述表头满足所述文件保密规则,则将所述文件中的政务数据转换为图像数据,并将所述图像数据转移至所述第二存储子区域;
在所述正常政务数据对应位置建立加密占位符,其中,所述加密占位符与所述图像数据建立隐射关系;
基于预设的权限划分规则,对所有所述加密占位符进行权限设定。
进一步的,所述基于预设的脱敏规则,将剩下的正常政务数据进行脱敏并存储于第一存储子区域,包括:
基于预设的脱敏规则,判断所述正常政务数据是否需要进行脱敏;
若当前所述正常政务数据需要进行脱敏,则将当前正常政务数据作为待脱敏政务数据,并对所述待脱敏政务数据执行脱敏步骤,其中,所述脱敏步骤包括:
获取所述待脱敏政务数据的字符串类型,并根据所述待脱敏政务数据的字符串类型,筛选预设范围内的属于相同字符串类型的正常政务数据;
利用随机算法获取筛选后所述正常政务数据,得到目标政务数据;
基于所述字符串类型,对所述待脱敏政务数据和目标政务数据进行脱敏。
进一步的,所述利用随机算法获取筛选后所述正常政务数据,得到目标政务数据之前,包括:
基于预设的脱敏规则,判断筛选后的所述正常政务数据是否需要进行脱敏,若筛选后的所述正常政务数据需要进行脱敏,则将所有需要进行脱敏的所述正常政务数据进行排列,形成待分配政务数据集并存储至缓冲区,并进入下一步骤;
所述利用随机算法获取筛选后所述正常政务数据,得到目标政务数据,包括:
利用随机算法遍历所述待分配政务数据集,得到目标政务数据。
进一步的,所述基于所述字符串类型,对所述待脱敏政务数据和目标政务数据进行脱敏,包括:
当所述字符串类型为数字型或字母型,则利用随机算法从所述目标政务数据中随机获取数字字符,并将获取得到的各所述数字字符拼接并作为第一占位符,且将所述第一占位符与所述目标政务数据建立隐射关系;
利用随机算法从所述待脱敏政务数据中随机获取数字字符,并将获取得到的各所述数字字符拼接并作为第二占位符,且将所述第二占位符与所述待脱敏政务数据建立隐射关系;
利用随机算法将所述第一占位符随机拼接至所述待脱敏政务数据,并利用随机算法将所述第二占位符随机拼接至所述目标政务数据;
将所述目标政务数据和待脱敏政务数据进行标记,并从所述待分配政务数据集取出;
基于所述权限划分规则,对所述第一占位符和第二占位符进行权限设定。
进一步的,所述基于所述字符串类型,对所述待脱敏政务数据和目标政务数据进行脱敏,还包括:
当所述字符串类型为文字型,则利用随机算法从所述目标政务数据中随机获取文字字符,利用随机算法将获得的各文字字符打乱拼接并作为第三占位符,将所述第三占位符与所述目标政务数据建立隐射关系;
利用随机算法从所述待脱敏政务数据中随机获取文字字符,利用随机算法将获得的各文字字符打乱拼接并作为第四占位符,将所述第四占位符与所述待脱敏政务数据建立隐射关系;
利用随机算法将所述第三占位符和第四占位符打乱拼接,并将打乱拼接后的文字字符与所述待脱敏政务数据中的目标脱敏数据进行替换,且将打乱拼接后的文字字符与所述目标政务数据中的目标脱敏数据进行替换;
基于所述权限划分规则,对所述第三占位符和第四占位符进行权限设定。
另外,本发明要解决的技术问题是还在于提供一种基于政务数据的数据归档装置,其包括:
清洗单元,用于基于预设的数据清洗规则,对输入的原始政务数据进行数据清洗,得到正常政务数据和异常政务数据;
区分单元,用于将所述异常政务数据从所述原始政务数据中删除,并将删除后的异常政务数据存储于第一存储区域和将剩下的正常政务数据存储于第二存储区域,其中,所述异常政务数据与所述第一存储区域的对应位置建立隐射关系;
加密单元,用于将所述第二存储区域分割成第一存储子区域和第二存储子区域,并对所述正常政务数据执行加密步骤,使具有保密性质的正常政务数据被转移至所述第二存储子区域;
脱敏单元,用于在所述加密步骤结束后,基于预设的脱敏规则,将剩下的正常政务数据进行脱敏并存储于第一存储子区域。
另外,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于政务数据的数据归档方法。
另外,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于政务数据的数据归档方法。
本发明实施例公开了一种基于政务数据的数据归档方法、装置及相关组件,其中,方法包括:基于预设的数据清洗规则,对输入的原始政务数据进行数据清洗,得到正常政务数据和异常政务数据;将所述异常政务数据从所述原始政务数据中删除,并将删除后的异常政务数据存储于第一存储区域和将剩下的正常政务数据存储于第二存储区域,其中,所述异常政务数据与所述第一存储区域的对应位置建立隐射关系;将所述第二存储区域分割成第一存储子区域和第二存储子区域,并对所述正常政务数据执行加密步骤,使具有保密性质的正常政务数据被转移至所述第二存储子区域;在所述加密步骤结束后,基于预设的脱敏规则,将剩下的正常政务数据进行脱敏并存储于第一存储子区域。
该方法通过对正常政务数据和异常政务数据的分类存钱,以及对具有保密性质的正常政务数据和不具有保密性质的正常政务数据进行分开存储归档,有利于平台在调用政务数据时,有选择的调取,而不是直接将所有的政务数据进行调出,有利于提高对政务数据的调出速率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于政务数据的数据归档方法的流程示意图;
图2为本发明实施例提供的基于政务数据的数据归档装置的示意性框图;
图3为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的基于政务数据的数据归档方法的流程示意图;
如图1所示,该方法包括步骤S101~S104。
S101、基于预设的数据清洗规则,对输入的原始政务数据进行数据清洗,得到正常政务数据和异常政务数据;
S102、将所述异常政务数据从所述原始政务数据中删除,并将删除后的异常政务数据存储于第一存储区域和将剩下的正常政务数据存储于第二存储区域,其中,所述异常政务数据与所述第一存储区域的对应位置建立隐射关系;
S103、将所述第二存储区域分割成第一存储子区域和第二存储子区域,并对所述正常政务数据执行加密步骤,使具有保密性质的正常政务数据被转移至所述第二存储子区域;
S104、在所述加密步骤结束后,基于预设的脱敏规则,将剩下的正常政务数据进行脱敏并存储于第一存储子区域。
在本实施例中,在步骤S101之前,平台根据输入的原始政务数据来源进行识别,例如从资源局传递过来的政务数据分为资源类政务数据,从税收局传递过来的政务数据分为税收类政务数据,从财政局传递过来的政务数据分为财政类政务数据等等,对于不同来源的政务数据分别存储至不同的大类数据库中;在步骤S101中,使用的数据清洗规则包括但不局限于缺失值清洗规则、重复值清洗规则、异常值清洗规则和无用值清洗规则,需要说明的是,本申请采用的数据清洗规则均为现有的数据清洗规则,故不再具体阐述,通过对政务数据进行数据清洗,区分出正常政务数据和异常政务数据,以提高政务数据的质量,其中,本申请的异常政务数据是指通过异常值数据清洗规则进行清洗处理后得到的政务数据,这部分政务数据可能由于传感器故障、人工录入错误等情况引起,如果直接对这部分政务数据进行删除,对后期的数据调出分析可能会产生不良影响,所以本申请对这部分异常政务数据进行单独存储,且通过设置占位符的方式建立异常政务数据与正常政务数据之间的位置关系,即如果需要和/或期望,用户可以通过点击对应占位符,即可直接从第一存储区域调出对应的异常政务数据,并替换占位符的位置,从而有利于后期用户对政务数据的使用。
在步骤S103中,由于部分政务数据涉及到保密性质,所以需要对这部分政务数据进行加密处理,并将加密处理后的政务数据转移至第二存储子区域,使得平台基于用户的数据调取指令,而不会直接调取这部分加密处理后的政务数据。
在步骤S104中,对正常政务数据中未进行加密处理的政务数据进行脱敏处理,其中,由于部分需要加密的政务数据已经加密处理了,所以不需要进行脱敏处理,从而减少政务数据的归档中不必要的处理时间。
本申请通过对正常政务数据和异常政务数据的分类存钱,以及对具有保密性质的正常政务数据和不具有保密性质的正常政务数据进行分开存储归档,有利于平台在调用政务数据时,有选择的调取,而不是直接将所有的政务数据进行调出,有利于提高对政务数据的调出速率。
具体一实施例中,所述步骤S103中的加密步骤,包括以下步骤:
S10、筛选所述正常政务数据中的表格数据,并将所述表格数据转换为图像数据;
S11、将所述图像数据转移至所述第二存储子区域,并在所述正常政务数据对应位置建立转移占位符,其中,所述转移占位符与所述图像数据建立隐射关系。
在本实施例中,根据业务操作习惯可知,表格数据中的内容通常是包含大量的数据,且该数据通常是经过人工操作进行填写或处理的,也就是说,这部分政务数据的内容是较为重要的,如果这部分表格式的政务数据直接调出来,则容易出现被用户给篡改,或者被误删减的问题,从而造成这部分政务数据的缺失,所以本申请将表格数据转换为图像数据,例如将一个表格转换成一张图片,使得表格数据中的数据处于无法被修改的状态,同时,由于图像数据和表格数据本身占用的内存大于其他数据,所以本申请对转换的图像数据另外存储至第二存储子区域,使得平台外调这部分政务数据时,不会调出这部分表格数据,而在用户需要查看这部分表格数据时,通过转移占位符调出该表格数据即对应的图像数据,例如用户点击转移占位符,平台从第二存储子区域调出对应的图像数据。具体一实施例中,在步骤S104之后,包括以下步骤:
S12、判断所述表格数据是否具有需要敏感数据,若所述表格数据具有敏感数据,则执行步骤S13;
S13、基于预设的权限划分规则,对所有所述转移占位符进行权限设定。
在本实施例中,敏感数据包括但不局限于身份证号码、电话号码、银行账号等,如果表格数据中涉及到这部分敏感数据,则需要对转移占位符进行权限设定,换言之,用户点击转移占位符后,平台不会直接调出对应的图像数据,而是会要求查询权限,即要求输入权限数据,例如获取用户的指纹信息或调取密码等,在判断出输入的权限数据符合权限划分规则后,才将对应的图像数据调出,反之,则发出提示信号,例如“不具备调出权限”。
需要说明的是,本申请除了将表格数据转换的图像数据转移至第二存储子区域,还将正常政务数据中的原始图片数据转移至第二存储子区域,且也通过对应的转移占位符建立原始图片数据和正常政务数据之间的位置关系,通过这种方式,平台在外调政务数据的过程中,不会加载出所有的图片数据,而是根据用户实际需要,例如点击对应的转移占位符,才会从第二存储子区域中调出对应的图像数据,从而有效提高平台的数据调出速率。
具体一实施例中,所述步骤S103中的加密步骤,还包括以下步骤:
S20、筛选所述正常政务数据中所有表头,判断各所述表头是否满足文件保密规则,若当前所述表头满足所述文件保密规则,则执行步骤S21;
S21、将所述文件中的政务数据转换为图像数据,并将所述图像数据转移至所述第二存储子区域;
S22、在所述正常政务数据对应位置建立加密占位符,其中,所述加密占位符与所述图像数据建立隐射关系;
S23、基于预设的权限划分规则,对所有所述加密占位符进行权限设定。
在本实施例中,政务数据在进入平台前都会设置相应的表头,以表达这部分数据内容的性质,以方便后期查找到这部分内容,所以本申请通过对正常政务数据中所有数据的表头进行判断,如果表头的具体内容涉及到保密性质,则判定表头之后的内容为需要保密的政务数据,例如表头标注有“保密文件”;为避免需要保密的政务数据被修改,本申请将需要保密的政务数据进行格式转换,具体的,将政务数据转换为图像数据,需要说明的是,本申请的图像数据可以是一张拼接起来的图片,也可以由多个排列的图片形成,本申请不做过多阐述。
为了描述的方便和简洁,本实施例中步骤S22和上述步骤S11中的原理是一致的,本实施例中步骤S23和上述步骤S13中的原理是一致的,即,在后期平台通过加密占位符调用对应的图像数据时,需要先判断用户的权限,在用户权限满足后,才能显示对应的图像数据。
具体一实施例中,所述步骤S104,包括以下步骤:
S30、基于预设的脱敏规则,判断所述正常政务数据是否需要进行脱敏;若当前所述正常政务数据需要进行脱敏,则将当前正常政务数据作为待脱敏政务数据,执行步骤S31;
S31、对所述待脱敏政务数据执行脱敏步骤,其中,所述脱敏步骤包括:
S310、获取所述待脱敏政务数据的字符串类型,并根据所述待脱敏政务数据的字符串类型,筛选预设范围内的属于相同字符串类型的正常政务数据;
S311、利用随机算法获取筛选后所述正常政务数据,得到目标政务数据;
S312、基于所述字符串类型,对所述待脱敏政务数据和目标政务数据进行脱敏。
在本实施例中,由于剩下的正常政务数据,即这部分正常政务数据不涉及保密性质,但这部分政务数据具有敏感信息,即平台需要对这部分敏感信息进行隐私保护,所以本实施例判断当前政务数据是否具有脱敏信息,如果有,则对当前正常政务数据进行脱敏处理,具体的,先获取正常政务数据中的敏感数据的字符串类型,然后筛选和正常政务数据相同的字符串类型的所有正常政务数据,再利用随机算法获取所有正常政务数据,随机得到的一个正常政务数据作为目标政务数据,最后基于待脱敏政务数据的敏感数据的字符串类型,对待脱敏政务数据和目标政务数据进行脱敏。
通过本实施例的设置,使得脱敏规则依附于字符串类型,即,根据不同的字符串类型,对敏感数据执行相应的脱敏方式,从而减少现有脱敏规则的复杂性。
具体一实施例中,所述步骤S311之前,包括以下步骤:
S40、基于预设的脱敏规则,判断筛选后的所述正常政务数据是否需要进行脱敏,若筛选后的所述正常政务数据需要进行脱敏,则执行步骤S41;
S41、将所有需要进行脱敏的所述正常政务数据进行排列,形成待分配政务数据集并存储至缓冲区,并进入下一步骤S311。
在本实施例中,为了提供更多的选择,使得随机算法的运算结果具有更多的可能性,从而对敏感数据起到一个隐藏的作用,本实施例先将同一文件的所有需要脱敏的正常政务数据进行汇总排列,得到待分配政务数据集,并将待分配政务数据集存储至缓冲区,需要说明的是,在对该文件所有的正常政务数据进行脱敏后,将缓冲区内的待分配政务数据集进行删除。
具体一实施例中,所述步骤S311,包括以下步骤:
S50、利用随机算法遍历所述待分配政务数据集,得到目标政务数据。
在本实施例中,需要说明的是,本申请的随机算法采用的为现有技术,只要能够实现随机选取待分配政务数据集中的其中一个正常政务数据为目标政务政务数据即可,本申请不做具体限定和过多阐述。
具体一实施例中,所述步S000[xb21cn1] ,包括以下步骤:
S60、当所述字符串类型为数字型或字母型,则利用随机算法从所述目标政务数据中随机获取数字字符,并将获取得到的各所述数字字符拼接并作为第一占位符,且将所述第一占位符与所述目标政务数据建立隐射关系;
S61、利用随机算法从所述待脱敏政务数据中随机获取数字字符,并将获取得到的各所述数字字符拼接并作为第二占位符,且将所述第二占位符与所述待脱敏政务数据建立隐射关系;
S62、利用随机算法将所述第一占位符随机拼接至所述待脱敏政务数据,并利用随机算法将所述第二占位符随机拼接至所述目标政务数据;
S63、将所述目标政务数据和待脱敏政务数据进行标记,并从所述待分配政务数据集取出;
S64、基于所述权限划分规则,对所述第一占位符和第二占位符进行权限设定。
在本实施例中,基于保密性质,将表格数据转换成图像数据,以及将所有的图像数据存储于第二存储子区域内,且有敏感数据的表格数据对应的图像数据对应的转移占位符也被赋予权限设置,也就是说,这部分图像数据其实也是进行脱敏处理了,故只需要对剩下的正常政务数据进行脱敏处理,其中,敏感数据的字符串类型为数值型或字母型时,则利用随机算法随机获取目标政务数据中的数字字符,将获得的所有数字字符排列,形成第一占位符,同理,在待脱敏政务数据中的敏感数据中随机获取相应的数字字符,并将获得的所有数字字符排列,形成第二占位符,最后将第一占位符中的各数字字符随机插接至待脱敏政务数据中的敏感数据中,且将第二占位符中的各数字字符随机插接至目标政务数据中的敏感数据中,由于目标政务数据也是需要待脱敏政务数据,所以通过2个占位符之间的交叉使用,可以快速对所有的正常政务数据进行数据脱敏,且本申请的脱敏方式是在同一个文件进行数据交互的,也即是说,在恢复脱敏数据的过程中,只要满足查看权限,可以快速恢复敏感数据,减少了平台的操作复杂度。
需要补充的是,当需要脱敏的正常政务数据是奇数个时,利用随机算法从同一文件中的所有第一占位符,随机选择一个第一占位符作为插入最后一个正常政务数据中的敏感数据中。
为了便于理解,例如在输入的一个政务文件中,在第X1句话中存在敏感数据123456,将该句话作为待脱敏政务数据,然后利用随机算法得到的第二占位符例如为1346,然后目标政务数据为654321,则利用随机算法得到的第一占位符例如为6134,则将第一占位符和第二占位符进行随机拼接,则X1句话中的敏感数据从123456变成1263241534或6152341324或……,等,即,“123456”中的各数字字符被“6134”给插入,且,6134插入的顺序是随机的,不固定的,从而对敏感数据的脱敏结果提供了多种可能性,换言之,提高了敏感数据的安全性;同时,由于本申请通过数字字符插接的方式,使得原先长度的敏感数据发生改变,从而有利于用户一眼看出该数据是敏感数据,而不会被该数据误导,例如手机号码一般为11位,而通过本申请的脱敏方式,使得手机号码变成15位,则可以明显提醒用户该是敏感数据,所以用户点击该敏感数据,平台会自动要求获取查询权限。
具体一实施例中,所述步骤S000,包括以下步骤:
S70、当所述字符串类型为文字型,则利用随机算法从所述目标政务数据中随机获取文字字符,利用随机算法将获得的各文字字符打乱拼接并作为第三占位符,将所述第三占位符与所述目标政务数据建立隐射关系;
S71、利用随机算法从所述待脱敏政务数据中随机获取文字字符,利用随机算法将获得的各文字字符打乱拼接并作为第四占位符,将所述第四占位符与所述待脱敏政务数据建立隐射关系;
S72、利用随机算法将所述第三占位符和第四占位符打乱拼接,并将打乱拼接后的文字字符与所述待脱敏政务数据中的目标脱敏数据进行替换,且将打乱拼接后的文字字符与所述目标政务数据中的目标脱敏数据进行替换;
S73、基于所述权限划分规则,对所述第三占位符和第四占位符进行权限设定。
在本实施例中,当字符串类型为文字时,由于文字的改变会使得语句明显变的不通顺,所以本申请通过替换的方式,实现敏感数据的脱敏,为了便于理解,例如在输入的一个政务文件中,在第X1句话中存在敏感数据例如“医疗信息:患有精神异常疾病”,将该句话作为待脱敏政务数据,然后利用随机算法得到的第二占位符例如为“疗有精常病”,然后目标政务数据为“医疗信息:颔下关节紊乱”,则利用随机算法得到的第一占位符例如为“医颔下紊乱”,则将第一占位符和第二占位符进行随机替换,则X1句话中的敏感数据从“患有精神异常疾病”变成“医颔医信息紊:下患神乱异疾”或“医下信颔息:患神医异疾紊乱”,等,即,“疗有精常病”中的各文字字符被“医颔下紊乱”给插入,且,“医颔下紊乱”插入的顺序是随机的,不固定的,从而对敏感数据的脱敏结果提供了多种可能性,换言之,提高了敏感数据的安全性;同时,由于本申请通过文字字符替换的方式,使得原先敏感数据的语义发生改变,从而有利于用户一眼看出该数据是敏感数据,同时,由于文字的组合具有多种可能性,用户不可能直接得到正确的敏感数据结果,用户还是需要通过查询权限的方式,获取正确的敏感数据。
本发明实施例还提供一种基于政务数据的数据归档装置,该基于政务数据的数据归档装置用于执行前述基于政务数据的数据归档方法的任一实施例。具体地,请参阅图2,图2是本发明实施例提供的基于政务数据的数据归档装置的示意性框图。
如图2所示,基于政务数据的数据归档装置500,包括:
清洗单元501,用于基于预设的数据清洗规则,对输入的原始政务数据进行数据清洗,得到正常政务数据和异常政务数据;
区分单元502,用于将所述异常政务数据从所述原始政务数据中删除,并将删除后的异常政务数据存储于第一存储区域和将剩下的正常政务数据存储于第二存储区域,其中,所述异常政务数据与所述第一存储区域的对应位置建立隐射关系;
加密单元503,用于将所述第二存储区域分割成第一存储子区域和第二存储子区域,并对所述正常政务数据执行加密步骤,使具有保密性质的正常政务数据被转移至所述第二存储子区域;
脱敏单元504,用于在所述加密步骤结束后,基于预设的脱敏规则,将剩下的正常政务数据进行脱敏并存储于第一存储子区域。
该装置通过对正常政务数据和异常政务数据的分类存钱,以及对具有保密性质的正常政务数据和不具有保密性质的正常政务数据进行分开存储归档,有利于平台在调用政务数据时,有选择的调取,而不是直接将所有的政务数据进行调出,有利于提高对政务数据的调出速率。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上述基于政务数据的数据归档装置可以实现为计算机程序的形式,该计算机程序可以在如图3所示的计算机设备上运行。
请参阅图3,图3是本发明实施例提供的计算机设备的示意性框图。该计算机设备1100是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图3,该计算机设备1100包括通过系统总线1101连接的处理器1102、存储器和网络接口1105,其中,存储器可以包括非易失性存储介质1103和内存储器1104。
该非易失性存储介质1103可存储操作系统11031和计算机程序11032。该计算机程序11032被执行时,可使得处理器1102执行基于政务数据的数据归档方法。
该处理器1102用于提供计算和控制能力,支撑整个计算机设备1100的运行。
该内存储器1104为非易失性存储介质1103中的计算机程序11032的运行提供环境,该计算机程序11032被处理器1102执行时,可使得处理器1102执行基于政务数据的数据归档方法。
该网络接口1105用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图3中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备1100的限定,具体的计算机设备1100可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域技术人员可以理解,图3中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图3所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器1102可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器1102还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例的基于政务数据的数据归档方法。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于政务数据的数据归档方法,其特征在于,包括:
基于预设的数据清洗规则,对输入的原始政务数据进行数据清洗,得到正常政务数据和异常政务数据;
将所述异常政务数据从所述原始政务数据中删除,并将删除后的异常政务数据存储于第一存储区域和将剩下的正常政务数据存储于第二存储区域,其中,所述异常政务数据与所述第一存储区域的对应位置建立隐射关系;
将所述第二存储区域分割成第一存储子区域和第二存储子区域,并对所述正常政务数据执行加密步骤,使具有保密性质的正常政务数据被转移至所述第二存储子区域;
在所述加密步骤结束后,基于预设的脱敏规则,将剩下的正常政务数据进行脱敏并存储于第一存储子区域。
2.根据权利要求1所述的基于政务数据的数据归档方法,其特征在于,所述加密步骤包括:
筛选所述正常政务数据中的表格数据,并将所述表格数据转换为图像数据;
将所述图像数据转移至所述第二存储子区域,并在所述正常政务数据对应位置建立转移占位符,其中,所述转移占位符与所述图像数据建立隐射关系。
3.根据权利要求2所述的基于政务数据的数据归档方法,其特征在于,所述加密步骤还包括:
筛选所述正常政务数据中所有表头,判断各所述表头是否满足文件保密规则,若当前所述表头满足所述文件保密规则,则将所述文件中的政务数据转换为图像数据,并将所述图像数据转移至所述第二存储子区域;
在所述正常政务数据对应位置建立加密占位符,其中,所述加密占位符与所述图像数据建立隐射关系;
基于预设的权限划分规则,对所有所述加密占位符进行权限设定。
4.根据权利要求3所述的基于政务数据的数据归档方法,其特征在于,所述基于预设的脱敏规则,将剩下的正常政务数据进行脱敏并存储于第一存储子区域,包括:
基于预设的脱敏规则,判断所述正常政务数据是否需要进行脱敏;
若当前所述正常政务数据需要进行脱敏,则将当前正常政务数据作为待脱敏政务数据,并对所述待脱敏政务数据执行脱敏步骤,其中,所述脱敏步骤包括:
获取所述待脱敏政务数据的字符串类型,并根据所述待脱敏政务数据的字符串类型,筛选预设范围内的属于相同字符串类型的正常政务数据;
利用随机算法获取筛选后所述正常政务数据,得到目标政务数据;
基于所述字符串类型,对所述待脱敏政务数据和目标政务数据进行脱敏。
5.根据权利要求4所述的基于政务数据的数据归档方法,其特征在于,所述利用随机算法获取筛选后所述正常政务数据,得到目标政务数据之前,包括:
基于预设的脱敏规则,判断筛选后的所述正常政务数据是否需要进行脱敏,若筛选后的所述正常政务数据需要进行脱敏,则将所有需要进行脱敏的所述正常政务数据进行排列,形成待分配政务数据集并存储至缓冲区,并进入下一步骤;
所述利用随机算法获取筛选后所述正常政务数据,得到目标政务数据,包括:
利用随机算法遍历所述待分配政务数据集,得到目标政务数据。
6.根据权利要求5所述的基于政务数据的数据归档方法,其特征在于,所述基于所述字符串类型,对所述待脱敏政务数据和目标政务数据进行脱敏,包括:
当所述字符串类型为数字型或字母型,则利用随机算法从所述目标政务数据中随机获取数字字符,并将获取得到的各所述数字字符拼接并作为第一占位符,且将所述第一占位符与所述目标政务数据建立隐射关系;
利用随机算法从所述待脱敏政务数据中随机获取数字字符,并将获取得到的各所述数字字符拼接并作为第二占位符,且将所述第二占位符与所述待脱敏政务数据建立隐射关系;
利用随机算法将所述第一占位符随机拼接至所述待脱敏政务数据,并利用随机算法将所述第二占位符随机拼接至所述目标政务数据;
将所述目标政务数据和待脱敏政务数据进行标记,并从所述待分配政务数据集取出;
基于所述权限划分规则,对所述第一占位符和第二占位符进行权限设定。
7.根据权利要求6所述的基于政务数据的数据归档方法,其特征在于,所述基于所述字符串类型,对所述待脱敏政务数据和目标政务数据进行脱敏,还包括:
当所述字符串类型为文字型,则利用随机算法从所述目标政务数据中随机获取文字字符,利用随机算法将获得的各文字字符打乱拼接并作为第三占位符,将所述第三占位符与所述目标政务数据建立隐射关系;
利用随机算法从所述待脱敏政务数据中随机获取文字字符,利用随机算法将获得的各文字字符打乱拼接并作为第四占位符,将所述第四占位符与所述待脱敏政务数据建立隐射关系;
利用随机算法将所述第三占位符和第四占位符打乱拼接,并将打乱拼接后的文字字符与所述待脱敏政务数据中的目标脱敏数据进行替换,且将打乱拼接后的文字字符与所述目标政务数据中的目标脱敏数据进行替换;
基于所述权限划分规则,对所述第三占位符和第四占位符进行权限设定。
8.一种基于政务数据的数据归档装置,其特征在于,包括:
清洗单元,用于基于预设的数据清洗规则,对输入的原始政务数据进行数据清洗,得到正常政务数据和异常政务数据;
区分单元,用于将所述异常政务数据从所述原始政务数据中删除,并将删除后的异常政务数据存储于第一存储区域和将剩下的正常政务数据存储于第二存储区域,其中,所述异常政务数据与所述第一存储区域的对应位置建立隐射关系;
加密单元,用于将所述第二存储区域分割成第一存储子区域和第二存储子区域,并对所述正常政务数据执行加密步骤,使具有保密性质的正常政务数据被转移至所述第二存储子区域;
脱敏单元,用于在所述加密步骤结束后,基于预设的脱敏规则,将剩下的正常政务数据进行脱敏并存储于第一存储子区域。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于政务数据的数据归档方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于政务数据的数据归档方法。
CN202211640717.3A 2022-12-20 2022-12-20 一种基于政务数据的数据归档方法、装置及相关组件 Active CN115982097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211640717.3A CN115982097B (zh) 2022-12-20 2022-12-20 一种基于政务数据的数据归档方法、装置及相关组件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211640717.3A CN115982097B (zh) 2022-12-20 2022-12-20 一种基于政务数据的数据归档方法、装置及相关组件

Publications (2)

Publication Number Publication Date
CN115982097A CN115982097A (zh) 2023-04-18
CN115982097B true CN115982097B (zh) 2023-10-27

Family

ID=85967453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211640717.3A Active CN115982097B (zh) 2022-12-20 2022-12-20 一种基于政务数据的数据归档方法、装置及相关组件

Country Status (1)

Country Link
CN (1) CN115982097B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304725A (zh) * 2018-02-09 2018-07-20 山东汇贸电子口岸有限公司 一种对政务数据资源脱敏的方法及系统
CN112487458A (zh) * 2020-12-09 2021-03-12 浪潮云信息技术股份公司 使用政务开放敏感数据的实现方法及系统
CN113742763A (zh) * 2021-11-08 2021-12-03 中关村科技软件股份有限公司 一种基于政务敏感数据混淆加密方法及系统
CN114398685A (zh) * 2021-10-21 2022-04-26 海南火链科技有限公司 一种政务数据处理方法、装置、计算机设备及存储介质
CN114756622A (zh) * 2022-03-16 2022-07-15 西安电子科技大学 一种基于数据湖的政务数据共享交换系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7797341B2 (en) * 2007-04-30 2010-09-14 Hewlett-Packard Development Company, L.P. Desensitizing database information
US11227068B2 (en) * 2019-10-17 2022-01-18 Mentis Inc System and method for sensitive data retirement

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304725A (zh) * 2018-02-09 2018-07-20 山东汇贸电子口岸有限公司 一种对政务数据资源脱敏的方法及系统
CN112487458A (zh) * 2020-12-09 2021-03-12 浪潮云信息技术股份公司 使用政务开放敏感数据的实现方法及系统
CN114398685A (zh) * 2021-10-21 2022-04-26 海南火链科技有限公司 一种政务数据处理方法、装置、计算机设备及存储介质
CN113742763A (zh) * 2021-11-08 2021-12-03 中关村科技软件股份有限公司 一种基于政务敏感数据混淆加密方法及系统
CN114756622A (zh) * 2022-03-16 2022-07-15 西安电子科技大学 一种基于数据湖的政务数据共享交换系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"政务大数据安全体系设计";张家勇;《网络安全技术与应用》;第66-68页 *

Also Published As

Publication number Publication date
CN115982097A (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
US10127401B2 (en) Redacting restricted content in files
US8301653B2 (en) System and method for capturing and reporting online sessions
KR101625238B1 (ko) 웹-기반 데스크탑 생산성 응용 프로그램을 통한 멀티미디어 파일의 삽입
CN110166465B (zh) 访问请求的处理方法、装置、服务器及存储介质
US11741264B2 (en) Security systems and methods for social networking
US10778648B2 (en) Systems and methods for regional data storage and data anonymization
JP7471321B2 (ja) 機密データ管理
US20220269812A1 (en) Inline data loss prevention for a group-based communication system
US11934778B2 (en) Generating sentiment analysis of content
US11048668B2 (en) Sensitive data management
CN114598671A (zh) 会话消息处理方法、装置、存储介质以及电子设备
CN115982097B (zh) 一种基于政务数据的数据归档方法、装置及相关组件
AU2015210456B2 (en) Access right estimation apparatus and access right estimation program
CN114385951A (zh) 站点内容管理方法、装置、计算机设备及存储介质
US11893131B2 (en) Contextual data loss prevention for a group-based communication system
CN114417397A (zh) 行为画像的构建方法、装置、存储介质及计算机设备
WO2022071946A1 (en) Data transformations based on policies
CN107517177B (zh) 接口授权的方法和装置
CN117828672B (zh) 细粒度动态授权的访问控制与高并发处理方法及装置
EP4391446A1 (en) Privacy shield
Horsman Reviewing the devices of those subject to Sexual Harm Prevention Orders (SHPOs): iOS opportunities, limitations and strategies
KR102039527B1 (ko) 정보 관리 장치 및 방법
US11349916B2 (en) Learning client preferences to optimize event-based synchronization
US20240007443A1 (en) Data sharing system and data sharing method
WO2023216730A1 (zh) 社交网络的隐私保护方法、装置、电子设备、计算机可读存储介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant