CN114461608A - 数据处理方法、装置、存储介质以及电子设备 - Google Patents

数据处理方法、装置、存储介质以及电子设备 Download PDF

Info

Publication number
CN114461608A
CN114461608A CN202210068384.5A CN202210068384A CN114461608A CN 114461608 A CN114461608 A CN 114461608A CN 202210068384 A CN202210068384 A CN 202210068384A CN 114461608 A CN114461608 A CN 114461608A
Authority
CN
China
Prior art keywords
data
file system
distributed file
target
sandbox
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210068384.5A
Other languages
English (en)
Inventor
赵紫辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202210068384.5A priority Critical patent/CN114461608A/zh
Publication of CN114461608A publication Critical patent/CN114461608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法、装置、存储介质以及电子设备。该方法包括:读取多个数据库中,每一个数据库的数据;将读取的数据写入到分布式文件系统中;在接收到向多个数据库中任意一个数据库中写入数据的写入请求的情况下,将写入请求所请求写入的数据写入到分布式文件系统中;注册用于处理分布式文件系统中的数据的目标服务;在接收到对分布式文件系统中的数据的处理请求的情况下,调用目标服务处理分布式文件系统中的数据。本发明解决了各单位间的数据存在数据壁垒,无法互通访问的技术问题。

Description

数据处理方法、装置、存储介质以及电子设备
技术领域
本发明涉及计算机领域,具体而言,涉及一种数据处理方法、装置、存储介质以及电子设备。
背景技术
现有技术中,涉及到不同组织或者单位的数据,由于各个组织或者单位数据存储的数据库并不互通,如果要跨单位进行数据的读写,则需要将A单位的用于访问A单位数据库的账号分配给B单位的员工,从而B单位的员工才能够使用A单位的数据。
也就是说,现有技术中的方法,存在不同单位间存在数据壁垒,无法互通访问的问题。
发明内容
本发明实施例提供了一种数据处理方法、装置、存储介质以及电子设备,以至少解决各单位间的数据存在数据壁垒,无法互通访问的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:读取多个数据库中,每一个数据库的数据;将读取的数据写入到分布式文件系统中;在接收到向上述多个数据库中任意一个数据库中写入数据的写入请求的情况下,将上述写入请求所请求写入的数据写入到上述分布式文件系统中;注册用于处理上述分布式文件系统中的数据的目标服务;在接收到对上述分布式文件系统中的数据的处理请求的情况下,调用上述目标服务处理上述分布式文件系统中的数据。
根据本发明实施例的另一方面,提供了一种数据处理装置,包括:读取模块,用于读取多个数据库中,每一个数据库的数据;第一写入模块,用于将读取的数据写入到分布式文件系统中;第二写入模块,用于在接收到向上述多个数据库中任意一个数据库中写入数据的写入请求的情况下,将上述写入请求所请求写入的数据写入到上述分布式文件系统中;注册模块,用于注册用于处理上述分布式文件系统中的数据的目标服务;调用模块,用于在接收到对上述分布式文件系统中的数据的处理请求的情况下,调用上述目标服务处理上述分布式文件系统中的数据。
作为一种可选的示例,上述第二写入模块包括:解析单元,用于在接收到向上述多个数据库中任意一个数据库中写入数据的写入请求的情况下,通过解析器解析上述写入请求所请求写入的数据;传输单元,用于将解析得到的数据通过消息总线传输到流计算任务;计算单元,用于由上述流计算任务对解析得到的数据进行计算,写入到上述分布式文件系统中。
作为一种可选的示例,上述装置还包括:监控模块,用于在注册用于处理上述分布式文件系统中的数据的目标服务之后,监控包括上述目标服务在内的每一个服务的服务状态与生命周期;注销模块,用于在任意一个上述服务的上述生命周期结束的情况下,注销上述生命周期结束的上述服务;发送模块,用于在任意一个上述服务的上述服务状态异常的情况下,发送告警信息。
作为一种可选的示例,上述装置还包括:创建模块,用于在接收到申请使用沙箱的申请请求的情况下,在当前不存在可用沙箱的情况下,创建目标沙箱,其中,上述目标沙箱禁止对上述目标沙箱中的数据进行下载;推送模块,用于在产生上述申请请求的第一账号具备访问上述目标沙箱的账号权限的情况下,周期性的将上述第一账号所要访问的数据推送到上述目标沙箱中;控制模块,用于在上述第一账号登入上述目标沙箱的情况下,由上述第一账号访问上述目标沙箱中的数据。
作为一种可选的示例,上述装置还包括:第一检测模块,用于周期性的检测上述目标沙箱的状态;删除模块,用于在上述目标沙箱过期的情况下,删除上述目标沙箱中的数据;第一处理模块,用于禁止上述第一账号访问上述目标沙箱。
作为一种可选的示例,上述装置还包括:第二检测模块,用于在将读取的数据写入到分布式文件系统中或者在将上述写入请求所请求写入的数据写入到上述分布式文件系统中时,检测所要写入的数据的字段类型,根据上述字段类型,确定所要写入的数据的加密等级;处理模块,用于在将所要写入的数据写入到上述分布式文件系统中之后,在接收到对写入的第一数据的访问请求的情况下,在产生上述访问请求的第二账号的访问等级小于上述第一数据的加密等级的情况下,使用特殊字符至少部分替换上述第一数据的内容,将替换后的上述第一数据返回给上述第二账号,在上述第二账号的访问等级大于或等于上述第一数据的加密等级的情况下,将上述第一数据返回给上述第二账号。
作为一种可选的示例,上述装置还包括:确定模块,用于在接收到用于访问上述分布式文件系统中的数据的访问请求的情况下,确定上述分布式文件系统的当前访问量;第二处理模块,用于在上述当前访问量超出预设访问量的情况下,禁止产生上述访问请求的第三账号访问上述分布式文件系统中的数据。
作为一种可选的示例,上述装置还包括:获取模块,用于获取目标图像,其中,上述目标图像中包括文本数据;识别模块,用于识别上述目标图像中的上述文本数据,得到目标数据;存储模块,用于将上述目标数据存储到上述分布式文件系统中。
根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被处理器运行时执行上述数据处理方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的数据处理方法。
在本发明实施例中,采用了读取多个数据库中,每一个数据库的数据;将读取的数据写入到分布式文件系统中;在接收到向上述多个数据库中任意一个数据库中写入数据的写入请求的情况下,将上述写入请求所请求写入的数据写入到上述分布式文件系统中;注册用于处理上述分布式文件系统中的数据的目标服务;在接收到对上述分布式文件系统中的数据的处理请求的情况下,调用上述目标服务处理上述分布式文件系统中的数据的方法,由于在上述方法中,对于多个不互通的数据库,可以读取每一个数据库中的数据,写入到分布式文件系统中,而对于新的要写入到多个数据库中的任意一个数据库中的数据,将其写入到分布式文件系统中。不同的单位可以访问分布式文件系统的数据,从而实现了打通数据壁垒的目的,进而解决了各单位间的数据存在数据壁垒,无法互通访问的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的数据处理方法的流程图;
图2是根据本发明实施例的一种可选的数据处理方法的系统示意图;
图3是根据本发明实施例的一种可选的数据处理方法的沙箱申请示意图;
图4是根据本发明实施例的一种可选的数据处理装置的结构示意图;
图5是根据本发明实施例的一种可选的电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的第一方面,提供了一种数据处理方法,可选地,如图1所示,上述方法包括:
S102,读取多个数据库中,每一个数据库的数据;将读取的数据写入到分布式文件系统中;
S104,在接收到向多个数据库中任意一个数据库中写入数据的写入请求的情况下,将写入请求所请求写入的数据写入到分布式文件系统中;
S106,注册用于处理分布式文件系统中的数据的目标服务;
S108,在接收到对分布式文件系统中的数据的处理请求的情况下,调用目标服务处理分布式文件系统中的数据。
可选的,本实施例中,对于多个数据库,可以为不同单位或系统的数据库,多个数据库中的数据并不互通。单位A的用户访问数据库A,单位B的用户访问数据库B,单位A的用户并不能够访问单位B的数据库。
可选的,本实施例中,对于上述的多个数据库,可以读取每一个数据库中的数据,将数据库中的数据复制或者迁移到分布式文件系统中。分布式文件系统可以为内网数据库也可以为外网数据库,可以接收用户的访问请求并返回对应的数据。
可选的,本实施例中,对于多个数据库中已经存在的数据,将其复制或者迁移到分布式文件系统中,而对于实时的要写入到多个数据库中任意一个数据库中的数据,将其写入到分布式文件系统中。至此,分布式文件系统中包含了多个数据库中存在的以及要写入到多个数据库中的数据,可以通过分布式文件系统对外提供服务。
可选的,由于分布式文件系统中的数据涉及到多个来源,如多个单位、多个部分、多个系统的数据库,因此,可以对不同来源的数据添加不同的访问权限。例如,单位A的数据在导入到分布式文件系统之后,为单位A的员工分配访问分布式文件系统中,原属于单位A的数据的权限,而单位A的员工并不能够访问分布式文件系统中属于单位B的数据。通过权限的限制,可以保证数据被安全的访问。
可选的,本实施例中,在将数据复制或迁移到分布式文件系统中之后,可以在系统中注册用于访问分布式文件系统中的数据的目标服务。不同的目标服务可以具备不同的功能,采用不同的功能的目标服务来访问分布式文件系统中的数据,来实现用户不同的需求。
由于在上述方法中,对于多个不互通的数据库,可以读取每一个数据库中的数据,写入到分布式文件系统中,而对于新的要写入到多个数据库中的任意一个数据库中的数据,将其写入到分布式文件系统中。不同的单位可以访问分布式文件系统的数据,从而实现了打通数据壁垒的目的。
作为一种可选的示例,上述在接收到向多个数据库中任意一个数据库中写入数据的写入请求的情况下,将写入请求所请求写入的数据写入到分布式文件系统中包括:
在接收到向多个数据库中任意一个数据库中写入数据的写入请求的情况下,通过解析器解析写入请求所请求写入的数据;
将解析得到的数据通过消息总线传输到流计算任务;
由流计算任务对解析得到的数据进行计算,写入到分布式文件系统中。
可选的,本实施例中,对于实时写入到多个数据库的任意一个数据库中的数据,可以调用解析器,通过解析器解析所要写入的数据,然后将所要写入的数据通过消息总线传输到流计算服务上,由流计算服务进行计算,将计算结果写入到分布式文件系统。
作为一种可选的示例,在注册用于处理分布式文件系统中的数据的目标服务之后,上述方法还包括:
监控包括目标服务在内的每一个服务的服务状态与生命周期;
在任意一个服务的生命周期结束的情况下,注销生命周期结束的服务;
在任意一个服务的服务状态异常的情况下,发送告警信息。
可选的,本实施例中,对于注册的每一个服务,都对应有一个生命周期,生命周期用于监控服务的生存时间段。本实施例中,可以在服务注册时,为注册的服务提供一个生命周期。当生命周期结束时,注销对应的服务。本实施例中,还可以监控生命周期未结束的服务的服务状态,服务状态如果异常,则可以发送告警信息给管理员。
作为一种可选的示例,上述方法还包括:
在接收到申请使用沙箱的申请请求的情况下,在当前不存在可用沙箱的情况下,创建目标沙箱,其中,目标沙箱禁止对目标沙箱中的数据进行下载;
在产生申请请求的第一账号具备访问目标沙箱的账号权限的情况下,周期性的将第一账号所要访问的数据推送到目标沙箱中;
在第一账号登入目标沙箱的情况下,由第一账号访问目标沙箱中的数据。
可选的,本实施例中,如果用户要访问分布式文件系统中的数据,用户可以选择公网使用或者沙箱使用。沙箱可以对数据进行保护。例如,用户选择使用沙箱来访问数据,则可以查找当前存在的可用的沙箱,如果当前存在可用沙箱,则可以将沙箱分配给用户进行使用。将用户所要访问的数据批次转移到沙箱中,然后由用户访问沙箱来访问沙箱中的数据,实现安全访问。如果当前不存在可用沙箱,则创建沙箱,将沙箱分配给用户进行使用。
作为一种可选的示例,上述方法还包括:
周期性的检测目标沙箱的状态;
在目标沙箱过期的情况下,删除目标沙箱中的数据;
禁止第一账号访问目标沙箱。
可选的,本实施例中,可以设置沙箱的使用时限,不同的沙箱的使用时限可以根据用户的权限,账号等级等来设置。当沙箱的使用时限到期的情况下,禁止用户再访问沙箱,同时删除沙箱中的数据。该沙箱可以由其他用户进行申请使用。
作为一种可选的示例,上述方法还包括:
在将读取的数据写入到分布式文件系统中或者在将写入请求所请求写入的数据写入到分布式文件系统中时,检测所要写入的数据的字段类型,根据上述字段类型,确定所要写入的数据的加密等级;
在将所要写入的数据写入到上述分布式文件系统中之后,在接收到对写入的第一数据的访问请求的情况下,在产生上述访问请求的第二账号的访问等级小于上述第一数据的加密等级的情况下,使用特殊字符至少部分替换上述第一数据的内容,将替换后的上述第一数据返回给上述第二账号,在上述第二账号的访问等级大于或等于上述第一数据的加密等级的情况下,将上述第一数据返回给上述第二账号。
可选的,本实施例中,对于要写入到分布式文件系统中的数据,可以先进行敏感内容的去除,然后,将去除敏感数据后的数据写入到分布式文件系统中。对于敏感内容的去除,可以根据数据的字段类型来确定。根据数据的字段类型,确定数据的加密等级。例如,字段类型为11位数字,可能为手机号,加密等级可以设置为中级,例如字段类型为18位数字或17位数字+1位X,则数据可能为身份证号,加密等级可以为高。例如字段类型为2-4个汉字,则数据可以为姓名,加密等级可以为低。各个数据对应有不同的加密等级。当第二账号请求分布式文件系统中的数据时,查看第二账号的访问等级,例如为低级,则第二账号可以查看到加密等级为低级的数据。例如,第二账号想要查看张三的姓名、身份账号和手机号,则根据第二账号的访问等级和数据的加密等级,只显示张三的姓名,身份证号和手机号可以使用特殊字符替换,并不显示;或者,将身份证号和手机号中的部分数字用特殊字符替换,并不完整显示。例如,特殊字符可以为星号,扩折号,感叹号,问号等。如果第二账号的访问等级为中级,则可以显示张三的姓名和电话号码,张三的身份证号被特殊字符替换。
作为一种可选的示例,上述方法还包括:
在接收到用于访问分布式文件系统中的数据的访问请求的情况下,确定分布式文件系统的当前访问量;
在当前访问量超出预设访问量的情况下,禁止产生访问请求的第三账号访问分布式文件系统中的数据。
可选的,本实施例中,可以通过一个网关来对外提供访问服务。用户在访问分布式文件系统中的数据时,可以访问该网关。该网关可以对外提供限流、黑白名单限制、统一身份认证、重放攻击、灰度发布、请求转发、统一异常处理等功能。对于限流,可以在获取到对分布式文件系统的访问请求时,查询当前的分布式文件系统的访问量,如果达到或者超过了预设的访问量,则拒绝该访问请求访问分布式文件系统。对于黑白名单,白名单中的用户可以不用校验,黑名单中的用户可以拒绝访问等。在某用户访问分布式文件系统的次数达到阈值,且每次访问均正常的情况下,可以将该用户加入白名单中。
作为一种可选的示例,上述方法还包括:
获取目标图像,其中,上述目标图像中包括文本数据;
识别目标图像中的文本数据,得到目标数据;
将目标数据存储到分布式文件系统中。
可选的,本实施例还可以对纸质的文件进行拍照后,得到的图片进行扫描,扫描图片从而得到图片中的数据信息,生成电子版的文件。该方法可以在打通不同的单位、系统的数据壁垒时,提高数据的上传速度。
可选的,本实施例意在解决多方数据之间存在数据壁垒的问题。可以使用大数据共享桥接子系统打通数据壁垒,将所有数据汇总,统一对外提供数据服务,完善的权限管理系统能够提供数据安全保障。
本实施例采用了本技术解决方案通过lamdba架构,根据数据紧要程度做流批两种方案技术同步,对于数据紧要程度要求低的,如位于多个数据库中的数据,通过数据同步工具,周期性的进行数据同步,将数据同步到分布式文件系统中。对于实时要求性高的数据,可以通过流计算平台进行数据同步,可以通过关系数据库管理系统(RDBMS)二进制日志(binlog)解析器进行解析,然后通过消息总线传向下游流计算任务,下游流计算任务拿到对应数据后进行解析并执行入库操作,将数据写入分布式文件系统。同时为保证数据安全,对于敏感数据可以进行动态脱敏处理,如滤除身份证号码,滤除某些敏感关键词等。还提供了安全沙箱,防止数据外泄。
本实施例中可以通过应用容器引擎(docker)构建使用环境级别的安全沙箱,基于元数据管理系统在数据生成时进行关键字段动态脱敏,基于云流计算平台对接多种数据源,进行实时数据同步落仓,数据秒级延迟,还可以基于字符识别(Optical CharacterRecognition,OCR)完成图像识别,拍照上传数据功能,整合excel文件处理工具,解析excel表格,完成数据上传落库.针对地理空间、word、pdf文档等文件存储进分布式文件系统进行归档。对外提供网关,网关对外提供高性能、可追踪、黑白名单过滤、限流等一系列功能的应用程序接口服务(API),对于文件提供了CSV、JSON、XML、EXCEL等文件格式进行下载,定期推送的功能。
图2是本实施例的一种系统框架图。
针对系统对外访问侧,可以使用kong网关,kong网关实现了高性能,多插件的效果,由kong网关统一做限流、黑白名单验证、统一身份认证、重放攻击、灰度发布、请求转发、统一异常处理等。
针对服务侧,可以基于服务注册中心(Dynamic Naming and ConfigurationService,nacos)nacos注册服务,服务之间通过feign做相互调用,链路追踪使用分布式追踪系统skywalking。容器内服务状态监控使用监控报警系统prometheus+grafana来监控,整个容器的生命周期由编排管理工具kubermetes(k8s)进行管理。
针对数据安全侧,在服务调用和数据使用的时候,可以限定数据是暴露公网还是在安全沙箱内使用,如果是安全沙箱,可以由用户提前进行沙箱申请,审批通过后,共享交换平台会周期性将数据推送到安全沙箱内部.数据只能在沙箱内操作,不允许进行下载操作,保证了数据的安全性.同时大数据平台针对元数据进行了数据安全的管理.定义数据字段密集,在数据被使用时会动态脱敏。
图3是本实施例的安全沙箱时序图。用户可以向共享交换平台申请沙箱,共享交换平台为用户分配沙箱,然后返回容器IP地址、端口port、用户名user和密码password,用户使用时,周期性的将数据推送到沙箱中,由用户使用沙箱访问数据。
针对大数据支撑侧,可以通过传输工具sqoop周期性进行数据批量同步,统一调度任务执行hive sql作业流完成数仓分层建设.对于实时性要求高的库表,通过canal、kafka-connector等对应RDBMS binlog解析器进行解析,然后通过消息总线传向下游,下游流计算任务拿到对应数据后进行解析入库操作。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本申请实施例的另一方面,还提供了一种数据处理装置,如图4所示,包括:
读取模块402,用于读取多个数据库中,每一个数据库的数据;
第一写入模块404,用于将读取的数据写入到分布式文件系统中;
第二写入模块406,用于在接收到向多个数据库中任意一个数据库中写入数据的写入请求的情况下,将写入请求所请求写入的数据写入到分布式文件系统中;
注册模块408,用于注册用于处理分布式文件系统中的数据的目标服务;
调用模块410,用于在接收到对分布式文件系统中的数据的处理请求的情况下,调用目标服务处理分布式文件系统中的数据。
可选的,本实施例中,对于多个数据库,可以为不同单位或系统的数据库,多个数据库中的数据并不互通。单位A的用户访问数据库A,单位B的用户访问数据库B,单位A的用户并不能够访问单位B的数据库。
可选的,本实施例中,对于上述的多个数据库,可以读取每一个数据库中的数据,将数据库中的数据复制或者迁移到分布式文件系统中。分布式文件系统可以为内网数据库也可以为外网数据库,可以接收用户的访问请求并返回对应的数据。
可选的,本实施例中,对于多个数据库中已经存在的数据,将其复制或者迁移到分布式文件系统中,而对于实时的要写入到多个数据库中任意一个数据库中的数据,将其写入到分布式文件系统中。至此,分布式文件系统中包含了多个数据库中存在的以及要写入到多个数据库中的数据,可以通过分布式文件系统对外提供服务。
可选的,由于分布式文件系统中的数据涉及到多个来源,如多个单位、多个部分、多个系统的数据库,因此,可以对不同来源的数据添加不同的访问权限。例如,单位A的数据在导入到分布式文件系统之后,为单位A的员工分配访问分布式文件系统中,原属于单位A的数据的权限,而单位A的员工并不能够访问分布式文件系统中属于单位B的数据。通过权限的限制,可以保证数据被安全的访问。
可选的,本实施例中,在将数据复制或迁移到分布式文件系统中之后,可以在系统中注册用于访问分布式文件系统中的数据的目标服务。不同的目标服务可以具备不同的功能,采用不同的功能的目标服务来访问分布式文件系统中的数据,来实现用户不同的需求。
由于在上述方法中,对于多个不互通的数据库,可以读取每一个数据库中的数据,写入到分布式文件系统中,而对于新的要写入到多个数据库中的任意一个数据库中的数据,将其写入到分布式文件系统中。不同的单位可以访问分布式文件系统的数据,从而实现了打通数据壁垒的目的。
作为一种可选的示例,上述第二写入模块包括:
解析单元,用于在接收到向多个数据库中任意一个数据库中写入数据的写入请求的情况下,通过解析器解析写入请求所请求写入的数据;
传输单元,用于将解析得到的数据通过消息总线传输到流计算任务;
计算单元,用于由流计算任务对解析得到的数据进行计算,写入到分布式文件系统中。
可选的,本实施例中,对于实时写入到多个数据库的任意一个数据库中的数据,可以调用解析器,通过解析器解析所要写入的数据,然后将所要写入的数据通过消息总线传输到流计算服务上,由流计算服务进行计算,将计算结果写入到分布式文件系统。
作为一种可选的示例,上述装置还包括:
监控模块,用于在注册用于处理分布式文件系统中的数据的目标服务之后,监控包括目标服务在内的每一个服务的服务状态与生命周期;
注销模块,用于在任意一个服务的生命周期结束的情况下,注销生命周期结束的服务;
发送模块,用于在任意一个服务的服务状态异常的情况下,发送告警信息。
可选的,本实施例中,对于注册的每一个服务,都对应有一个生命周期,生命周期用于监控服务的生存时间段。本实施例中,可以在服务注册时,为注册的服务提供一个生命周期。当生命周期结束时,注销对应的服务。本实施例中,还可以监控生命周期未结束的服务的服务状态,服务状态如果异常,则可以发送告警信息给管理员。
作为一种可选的示例,上述装置还包括:
创建模块,用于在接收到申请使用沙箱的申请请求的情况下,在当前不存在可用沙箱的情况下,创建目标沙箱,其中,目标沙箱禁止对目标沙箱中的数据进行下载;
推送模块,用于在产生申请请求的第一账号具备访问目标沙箱的账号权限的情况下,周期性的将第一账号所要访问的数据推送到目标沙箱中;
控制模块,用于在第一账号登入目标沙箱的情况下,由第一账号访问目标沙箱中的数据。
可选的,本实施例中,如果用户要访问分布式文件系统中的数据,用户可以选择公网使用或者沙箱使用。沙箱可以对数据进行保护。例如,用户选择使用沙箱来访问数据,则可以查找当前存在的可用的沙箱,如果当前存在可用沙箱,则可以将沙箱分配给用户进行使用。将用户所要访问的数据批次转移到沙箱中,然后由用户访问沙箱来访问沙箱中的数据,实现安全访问。如果当前不存在可用沙箱,则创建沙箱,将沙箱分配给用户进行使用。
作为一种可选的示例,上述装置还包括:
第一检测模块,用于周期性的检测目标沙箱的状态;
删除模块,用于在目标沙箱过期的情况下,删除目标沙箱中的数据;
第一处理模块,用于禁止第一账号访问目标沙箱。
可选的,本实施例中,可以设置沙箱的使用时限,不同的沙箱的使用时限可以根据用户的权限,账号等级等来设置。当沙箱的使用时限到期的情况下,禁止用户再访问沙箱,同时删除沙箱中的数据。该沙箱可以由其他用户进行申请使用。
作为一种可选的示例,上述装置还包括:
第二检测模块,用于在将读取的数据写入到分布式文件系统中或者在将写入请求所请求写入的数据写入到分布式文件系统中时,检测所要写入的数据的字段类型,根据上述字段类型,确定所要写入的数据的加密等级;
处理模块,用于在将所要写入的数据写入到上述分布式文件系统中之后,在接收到对写入的第一数据的访问请求的情况下,在产生上述访问请求的第二账号的访问等级小于上述第一数据的加密等级的情况下,使用特殊字符至少部分替换上述第一数据的内容,将替换后的上述第一数据返回给上述第二账号,在上述第二账号的访问等级大于或等于上述第一数据的加密等级的情况下,将上述第一数据返回给上述第二账号。
可选的,本实施例中,对于要写入到分布式文件系统中的数据,可以先进行敏感内容的去除,然后,将去除敏感数据后的数据写入到分布式文件系统中。对于敏感内容的去除,可以根据数据的字段类型来确定。根据数据的字段类型,确定数据的加密等级。例如,字段类型为11位数字,可能为手机号,加密等级可以设置为中级,例如字段类型为18位数字或17位数字+1位X,则数据可能为身份证号,加密等级可以为高。例如字段类型为2-4个汉字,则数据可以为姓名,加密等级可以为低。各个数据对应有不同的加密等级。当第二账号请求分布式文件系统中的数据时,查看第二账号的访问等级,例如为低级,则第二账号可以查看到加密等级为低级的数据。例如,第二账号想要查看张三的姓名、身份账号和手机号,则根据第二账号的访问等级和数据的加密等级,只显示张三的姓名,身份证号和手机号可以使用特殊字符替换,并不显示;或者,将身份证号和手机号中的部分数字用特殊字符替换,并不完整显示。例如,特殊字符可以为星号,扩折号,感叹号,问号等。如果第二账号的访问等级为中级,则可以显示张三的姓名和电话号码,张三的身份证号被特殊字符替换。
作为一种可选的示例,上述装置还包括:
确定模块,用于在接收到用于访问分布式文件系统中的数据的访问请求的情况下,确定分布式文件系统的当前访问量;
第二处理模块,用于在当前访问量超出预设访问量的情况下,禁止产生访问请求的第三账号访问分布式文件系统中的数据。
可选的,本实施例中,可以通过一个网关来对外提供访问服务。用户在访问分布式文件系统中的数据时,可以访问该网关。该网关可以对外提供限流、黑白名单限制、统一身份认证、重放攻击、灰度发布、请求转发、统一异常处理等功能。对于限流,可以在获取到对分布式文件系统的访问请求时,查询当前的分布式文件系统的访问量,如果达到或者超过了预设的访问量,则拒绝该访问请求访问分布式文件系统。对于黑白名单,白名单中的用户可以不用校验,黑名单中的用户可以拒绝访问等。在某用户访问分布式文件系统的次数达到阈值,且每次访问均正常的情况下,可以将该用户加入白名单中。
作为一种可选的示例,上述装置还包括:
获取模块,用于获取目标图像,其中,上述目标图像中包括文本数据;
识别模块,用于识别目标图像中的文本数据,得到目标数据;
存储模块,用于将目标数据存储到分布式文件系统中。
可选的,本实施例还可以对纸质的文件进行拍照后,得到的图片进行扫描,扫描图片从而得到图片中的数据信息,生成电子版的文件。该方法可以在打通不同的单位、系统的数据壁垒时,提高数据的上传速度。
本实施例的其他示例请参见上述示例,在此不在赘述。
图5是根据本申请实施例的一种可选的电子设备的结构框图,如图5所示,包括处理器502、通信接口504、存储器506和通信总线508,其中,处理器502、通信接口504和存储器506通过通信总线508完成相互间的通信,其中,
存储器506,用于存储计算机程序;
处理器502,用于执行存储器506上所存放的计算机程序时,实现如下步骤:
读取多个数据库中,每一个数据库的数据;将读取的数据写入到分布式文件系统中;
在接收到向多个数据库中任意一个数据库中写入数据的写入请求的情况下,将写入请求所请求写入的数据写入到分布式文件系统中;
注册用于处理分布式文件系统中的数据的目标服务;
在接收到对分布式文件系统中的数据的处理请求的情况下,调用目标服务处理分布式文件系统中的数据。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,上述存储器506中可以但不限于包括上述请求的处理装置中的读取模块402、第一写入模块404、第二写入模块406、注册模块408以及调用模块410。此外,还可以包括但不限于上述请求的处理装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,实施上述请求的处理方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图5其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本发明的实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被处理器运行时执行上述数据处理方法中的步骤。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种数据处理方法,其特征在于,包括:
读取多个数据库中,每一个数据库的数据;
将读取的数据写入到分布式文件系统中;
在接收到向所述多个数据库中任意一个数据库中写入数据的写入请求的情况下,将所述写入请求所请求写入的数据写入到所述分布式文件系统中;
注册用于处理所述分布式文件系统中的数据的目标服务;
在接收到对所述分布式文件系统中的数据的处理请求的情况下,调用所述目标服务处理所述分布式文件系统中的数据。
2.根据权利要求1所述的方法,其特征在于,所述在接收到向所述多个数据库中任意一个数据库中写入数据的写入请求的情况下,将所述写入请求所请求写入的数据写入到所述分布式文件系统中包括:
在接收到向所述多个数据库中任意一个数据库中写入数据的写入请求的情况下,通过解析器解析所述写入请求所请求写入的数据;
将解析得到的数据通过消息总线传输到流计算任务;
由所述流计算任务对解析得到的数据进行计算,写入到所述分布式文件系统中。
3.根据权利要求1所述的方法,其特征在于,在注册用于处理所述分布式文件系统中的数据的目标服务之后,所述方法还包括:
监控包括所述目标服务在内的每一个服务的服务状态与生命周期;
在任意一个所述服务的所述生命周期结束的情况下,注销所述生命周期结束的所述服务;
在任意一个所述服务的所述服务状态异常的情况下,发送告警信息。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述方法还包括:
在接收到申请使用沙箱的申请请求的情况下,在当前不存在可用沙箱的情况下,创建目标沙箱,其中,所述目标沙箱禁止对所述目标沙箱中的数据进行下载;
在产生所述申请请求的第一账号具备访问所述目标沙箱的账号权限的情况下,周期性的将所述第一账号所要访问的数据推送到所述目标沙箱中;
在所述第一账号登入所述目标沙箱的情况下,由所述第一账号访问所述目标沙箱中的数据。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
周期性的检测所述目标沙箱的状态;
在所述目标沙箱过期的情况下,删除所述目标沙箱中的数据;
禁止所述第一账号访问所述目标沙箱。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在将读取的数据写入到分布式文件系统中或者在将所述写入请求所请求写入的数据写入到所述分布式文件系统中时,检测所要写入的数据的字段类型,根据所述字段类型,确定所要写入的数据的加密等级;
在将所要写入的数据写入到所述分布式文件系统中之后,在接收到对写入的第一数据的访问请求的情况下,在产生所述访问请求的第二账号的访问等级小于所述第一数据的加密等级的情况下,使用特殊字符至少部分替换所述第一数据的内容,将替换后的所述第一数据返回给所述第二账号,在所述第二账号的访问等级大于或等于所述第一数据的加密等级的情况下,将所述第一数据返回给所述第二账号。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在接收到用于访问所述分布式文件系统中的数据的访问请求的情况下,确定所述分布式文件系统的当前访问量;
在所述当前访问量超出预设访问量的情况下,禁止产生所述访问请求的第三账号访问所述分布式文件系统中的数据。
8.根据权利要求1至3、6-7任意一项所述的方法,其特征在于,所述方法还包括:
获取目标图像,其中,所述目标图像中包括文本数据;
识别所述目标图像中的所述文本数据,得到目标数据;
将所述目标数据存储到所述分布式文件系统中。
9.一种数据处理装置,其特征在于,包括:
读取模块,用于读取多个数据库中,每一个数据库的数据;
第一写入模块,用于将读取的数据写入到分布式文件系统中;
第二写入模块,用于在接收到向所述多个数据库中任意一个数据库中写入数据的写入请求的情况下,将所述写入请求所请求写入的数据写入到所述分布式文件系统中;
注册模块,用于注册用于处理所述分布式文件系统中的数据的目标服务;
调用模块,用于在接收到对所述分布式文件系统中的数据的处理请求的情况下,调用所述目标服务处理所述分布式文件系统中的数据。
10.一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行所述权利要求1至8任一项中所述的方法。
11.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。
CN202210068384.5A 2022-01-20 2022-01-20 数据处理方法、装置、存储介质以及电子设备 Pending CN114461608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210068384.5A CN114461608A (zh) 2022-01-20 2022-01-20 数据处理方法、装置、存储介质以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210068384.5A CN114461608A (zh) 2022-01-20 2022-01-20 数据处理方法、装置、存储介质以及电子设备

Publications (1)

Publication Number Publication Date
CN114461608A true CN114461608A (zh) 2022-05-10

Family

ID=81409721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210068384.5A Pending CN114461608A (zh) 2022-01-20 2022-01-20 数据处理方法、装置、存储介质以及电子设备

Country Status (1)

Country Link
CN (1) CN114461608A (zh)

Similar Documents

Publication Publication Date Title
CN113489713B (zh) 网络攻击的检测方法、装置、设备及存储介质
CN105956474B (zh) Android平台软件异常行为检测系统
CN110417778B (zh) 访问请求的处理方法和装置
CN112217835B (zh) 报文数据的处理方法、装置、服务器和终端设备
KR20190090037A (ko) 클라우드 기반 운영 체제 이벤트 및 데이터 액세스 감시를 위한 시스템 및 방법
US20200134220A1 (en) System and method for automatically securing sensitive data in public cloud using a serverless architecture
CN109474603B (zh) 数据抓包处理方法及终端设备
CN111131221B (zh) 接口校验的装置、方法及存储介质
CN110268406B (zh) 密码安全性
CN111274046A (zh) 服务调用的合法性检测方法、装置、计算机设备及计算机存储介质
CN111404937B (zh) 一种服务器漏洞的检测方法和装置
CA3088147C (en) Data isolation in distributed hash chains
CN111464513A (zh) 数据检测方法、装置、服务器及存储介质
CN108809913A (zh) 数据脱敏的方法、装置和设备
US20190005252A1 (en) Device for self-defense security based on system environment and user behavior analysis, and operating method therefor
CN114679292A (zh) 基于网络空间测绘的蜜罐识别方法、装置、设备及介质
CN113469866A (zh) 数据处理方法、装置和服务器
CN109145536A (zh) 一种网页防篡改方法及装置
Cha et al. A blockchain-enabled IoT auditing management system complying with ISO/IEC 15408-2
CN114461608A (zh) 数据处理方法、装置、存储介质以及电子设备
KR102541888B1 (ko) 이미지 기반 악성코드 탐지 방법 및 장치와 이를 이용하는 인공지능 기반 엔드포인트 위협탐지 및 대응 시스템
CN112511515B (zh) 一种用于数据上链的链数立方体
CN115119197A (zh) 基于大数据的无线网络风险分析方法、装置、设备及介质
CN114707134A (zh) 一种高性能密码卡安全管理方法、装置和系统
CN114237517A (zh) 一种文件分散存储方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination