CN110377651B - 批量数据的处理方法、装置、设备及存储介质 - Google Patents

批量数据的处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110377651B
CN110377651B CN201910553726.0A CN201910553726A CN110377651B CN 110377651 B CN110377651 B CN 110377651B CN 201910553726 A CN201910553726 A CN 201910553726A CN 110377651 B CN110377651 B CN 110377651B
Authority
CN
China
Prior art keywords
data
preset
format
warehouse
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910553726.0A
Other languages
English (en)
Other versions
CN110377651A (zh
Inventor
高梁梁
童希望
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910553726.0A priority Critical patent/CN110377651B/zh
Publication of CN110377651A publication Critical patent/CN110377651A/zh
Application granted granted Critical
Publication of CN110377651B publication Critical patent/CN110377651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据处理的批量数据的处理方法、装置、设备及存储介质,所述方法包括:在将待处理业务数据写入数据库时,获取所述待处理业务数据,其中,所述待处理业务数据为电子表格Excel格式的合规数据;调用预设区域中的预设转换工具,通过所述预设转换工具将所述Excel格式的合规数据进行转换,生成轻量级的预设格式的入库数据;在预设关系映射表中查找与所述预设格式对应的解析方式,通过所述解析方式对所述入库数据进行解析,得到解析后的入库数据;将解析后的入库数据分批写入所述数据库。本发明将传统的Excel文件格式的文件转换为轻量级格式的文件进行分批写入数据库,缓解大数据批量写入数据库时造成的处理压力。

Description

批量数据的处理方法、装置、设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种批量数据的处理方法、装置、设备及存储介质。
背景技术
目前,合规系统业务上经常有大量数据需要通过外部入库。按传统的Excel形式,由于格式复杂导致解析缓慢,使得服务器不堪重负,严重影响日常的业务使用,从而降低服务器的处理效率。
发明内容
本发明的主要目的在于提出一种批量数据的处理方法、装置、设备及存储介质,旨在提高服务器的处理效率。
为实现上述目的,本发明提供一种批量数据的处理方法,所述批量数据的处理方法包括以下步骤:
在将待处理业务数据写入数据库时,获取所述待处理业务数据,其中,所述待处理业务数据为电子表格Excel格式的合规数据;
调用预设区域中的预设转换工具,通过所述预设转换工具将所述Excel格式的合规数据进行转换,生成轻量级的预设格式的入库数据;
在预设关系映射表中查找与所述预设格式对应的解析方式,通过所述解析方式对所述入库数据进行解析,得到解析后的入库数据;
将解析后的入库数据进行分批次写入所述数据库。
优选地,所述在将待处理业务数据写入数据库时,获取所述待处理业务数据之前,所述方法还包括:
获取原始写入数据,根据预设规则对所述原始写入数据进行过滤,将过滤后的原始写入数据作为所述待处理业务数据。
优选地,所述获取原始写入数据,根据预设规则对所述原始写入数据进行过滤,将过滤后的原始写入数据作为所述待处理业务数据,包括:
获取原始写入数据,判断所述原始写入数据是否含有预设关键字;
在所述原始写入数据含有预设关键字时,提取所述原始写入数据中含有预设关键字的敏感数据,并将所述敏感数据进行删除;
将删除后的原始写入数据作为所述待处理业务数据。
优选地,所述调用预设区域中的预设转换工具,通过所述预设转换工具将所述Excel格式的合规数据进行转换,生成轻量级的预设格式的入库数据之前,所述方法还包括:
获取工具写入指令,提取所述工具写入指令中的转换工具以及存储地址信息;
根据所述存储地址信息将所述转换工具写入预设区域。
优选地,所述预设格式为逗号分隔值CSV格式;
所述调用预设区域中的预设转换工具,通过所述预设转换工具将所述Excel格式的合规数据进行转换,生成轻量级的预设格式的入库数据,包括:
调用预设区域中的预设转换工具,通过所述预设转换工具引入java归档数据包;
将Excel格式的合规数据的文件后缀转成CSV格式的后缀,并载入Excel格式的合规数据;
获取工作簿函数,根据所述工作簿函数提取所述合规数据中的工作簿数据;
获取页函数,根据所述页函数从所述工作簿数据中提取每页数据,并从所述每页数据中提取每个区块数据;
对所述每个区块数据写入分隔符,将写入后的转换数据进行输出,生成所述预设格式的入库数据。
优选地,所述在预设关系映射表中查找与所述预设格式对应的解析方式,通过所述解析方式对所述入库数据进行解析,得到解析后的入库数据之前,所述方法还包括:
获取历史文件格式信息与解析方式的对应关系,根据所述对应关系建立所述预设关系映射表。
优选地,所述在预设关系映射表中查找与所述预设格式对应的解析方式,通过所述解析方式对所述入库数据进行解析,得到解析后的入库数据,包括:
在预设关系映射表中查找与所述预设格式对应的解析方式;
根据所述解析方式提取所述入库数据中的前缀和后缀的空格字符、逗号和制表符以及逗号或记录分隔符相邻的数据信息;
将所述数据信息进行修剪,并将预设字段嵌入到双引号集合中,得到解析后的入库数据。
此外,为实现上述目的,本发明还提出一种批量数据的处理装置,所述批量数据的处理装置包括:
获取模块,用于在将待处理业务数据写入数据库时,获取所述待处理业务数据,其中,所述待处理业务数据为电子表格Excel格式的合规数据;
转换模块,用于调用预设区域中的预设转换工具,通过所述预设转换工具将所述Excel格式的合规数据进行转换,生成轻量级的预设格式的入库数据;
解析模块,用于在预设关系映射表中查找与所述预设格式对应的解析方式,通过所述解析方式对所述入库数据进行解析,得到解析后的入库数据;
写入模块,用于将解析后的入库数据进行分批次写入所述数据库。
此外,为实现上述目的,本发明还提出一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的批量数据的处理程序,所述批量数据的处理程序配置为实现如上所述的批量数据的处理方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有批量数据的处理程序,所述批量数据的处理程序被处理器执行时实现如上文所述的批量数据的处理方法的步骤。
本发明提出的批量数据的处理方法,通过在将待处理业务数据写入数据库时,获取所述待处理业务数据,其中,所述待处理业务数据为电子表格Excel格式的合规数据;调用预设区域中的预设转换工具,通过所述预设转换工具将所述Excel格式的合规数据进行转换,生成轻量级的预设格式的入库数据;在预设关系映射表中查找与所述预设格式对应的解析方式,通过所述解析方式对所述入库数据进行解析,得到解析后的入库数据;将解析后的入库数据分批写入所述数据库,从而将传统的Excel文件格式的文件转换为轻量级格式的文件进行分批写入数据库,缓解大数据批量写入数据库时造成的处理压力。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明批量数据的处理方法第一实施例的流程示意图;
图3为本发明批量数据的处理方法第二实施例的流程示意图;
图4为本发明批量数据的处理方法第三实施例的流程示意图;
图5为本发明批量数据的处理装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
如图1所示,该设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如按键,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及批量数据的处理程序。
在图1所示的设备中,网络接口1004主要用于连接外网,与其他网络设备进行数据通信;用户接口1003主要用于连接用户设备,与设备进行数据通信;本发明设备通过处理器1001调用存储器1005中存储的批量数据的处理程序,并执行本发明实施例提供的批量数据的处理的实施方法。
基于上述硬件结构,提出本发明批量数据的处理方法实施例。
参照图2,图2为本发明批量数据的处理方法第一实施例的流程示意图。
在第一实施例中,所述批量数据的处理方法包括以下步骤:
步骤S10,在将待处理业务数据写入数据库时,获取所述待处理业务数据,其中,所述待处理业务数据为电子表格Excel格式的合规数据。
需要说明的是,在一般情况下,系统在接收外部业务数据时,将接收的外部业务数据转换为Excel格式的文件写入数据库中,其中,所述待处理业务数据为接收的外部业务数据。
在具体实现中,由于系统的安全以及数据的合理性考虑,在接收到外部业务数据时需要对外部业务数据按照预设规则进行合理化处理,从而保证数据的安全性以及符合相关规定,从而得到电子表格Excel格式的合规数据,满足不同用户的需求。
步骤S20,调用预设区域中的预设转换工具,通过所述预设转换工具将所述Excel格式的合规数据进行转换,生成轻量级的预设格式的入库数据。
在本实施例中,通过预设转换工具进行转换方式可通过两种方式进行转换,一种转换方式是获取第三方转换小程序,通过所述转换小程序将待处理业务数据转换为预设格式的入库数据,例如通过文档转换工具,将原始的Excel文件格式的文件转换为逗号分隔值CSV格式的文件,通过CSV格式的文件实现对数据的轻量级处理,另一种方式为通过本实施例的执行主体终端设备上运行的批量数据的处理程序进行自动处理,将当前获得的Excel文件转换为CSV格式的文件,从而实现自动处理,通过CSV文件可将解析后的文件数据进行分批次从文件中读入缓存中,并且在数据写入完成内后系统会释放缓存,从而避免内存耗尽出现溢出的情况。
步骤S30,在预设关系映射表中查找与所述预设格式对应的解析方式,通过所述解析方式对所述入库数据进行解析,得到解析后的入库数据。
需要说明的是,由于在系统中数据写入时默认为生成Excel格式的文件,则在将数据写入数据库默认为对Excel格式的文件的解析方式,在本实施例中,由于在写入数据库时,将Excel文件转换为CSV格式的文件,则在进行数据解析时,也转换为解析CSV格式的文件的解析方式,从而实现将CSV格式的文件写入数据库中。
在具体实现中,获取当前文件格式的标签信息,根据所述标签信息在预设数据库中查找对应的解析方式,例如标签信息为将CSV格式的文件,对应CSV格式的文件的解析方式,通过所述标签信息在预设关系映射表中查找对应的解析方式,从而实现解析方式的查找。
步骤S40,将解析后的入库数据进行分批次写入所述数据库。
需要说明的是,由于CSV格式的文件是分批次从文件中读入缓存中,使用完后系统又很快释放缓存,避免了内存耗尽出现溢出的情况。CSV本身格式轻量,压缩比大,占用空间小,上传服务器时,对带宽压力小,从而便于上传解析。
在本实施例中,还可设有用户编辑接口,通过接收用户的编辑指令,可将当前的Excel格式的文件转换为符合用户需求的格式的文件,从而提高数据处理的灵活性,实现用户可操作的数据处理。
本实施例通过上述方案,通过在将待处理业务数据写入数据库时,获取所述待处理业务数据,其中,所述待处理业务数据为电子表格Excel格式的合规数据;调用预设区域中的预设转换工具,通过所述预设转换工具将所述Excel格式的合规数据进行转换,生成轻量级的预设格式的入库数据;在预设关系映射表中查找与所述预设格式对应的解析方式,通过所述解析方式对所述入库数据进行解析,得到解析后的入库数据;将解析后的入库数据分批写入所述数据库,从而将传统的Excel文件格式的文件转换为轻量级格式的文件进行分批写入数据库,缓解大数据批量写入数据库时造成的处理压力。
在一实施例中,如图3所示,基于第一实施例提出本发明批量数据的处理方法第二实施例,在本实施例中,所述步骤S10之前,所述方法还包括:
步骤S101,获取原始写入数据,根据预设规则对所述原始写入数据进行过滤,将过滤后的原始写入数据作为所述待处理业务数据。
需要说明的是,所述待处理数据为根据业务需要写入的大量业务数据,在获取待处理数据之前,需要对获取的原始数据进行过滤,即根据预设规则对原始写入数据进行过滤,判断原始写入数据是否属于合规数据,将过滤后的合规数据作为所述待处理数据。
可以理解的是,所述预设规则为判断接收到的原始数据是否含有敏感数据,将原始数据中含有敏感数据进行删除或者屏蔽,其中,敏感数据是指不当使用或未经授权被人接触或修改会不利于国家利益或联邦政府计划的实行或不利于个人依法享有的个人隐私权的所有信息。例如个人的身份证信息,电话等关乎个人隐私的敏感数据。
在一实施例中,所述步骤S101,包括:
步骤S102,获取原始写入数据,判断所述原始写入数据是否含有预设关键字。
需要说明的是,所述预设关键字可为身份证信息等敏感关键字,还可为与国家政策相关的敏感关键字,其中,所述预设关键字还可根据业务需求进行灵活配置,从而满足不同用户的需求。
步骤S103,在所述原始写入数据含有预设关键字时,提取所述原始写入数据中含有预设关键字的敏感数据,并将所述敏感数据进行删除。
在具体实现中,将原始数据与预设关键字进行比较,将原始数据中含有预设关键字的数据进行删除,例如身份证信息等,还可包含其他关键字信息,本实施例对此不作限制,在本实施例中,还可通过特定业务的需求对原始数据进行处理,不限于只针对合规系统中的业务。
步骤S104,将删除后的原始写入数据作为所述待处理业务数据。
在本实施例中,在对于待处理数据进行处理之前,需要对获取的原始数据进行脱敏处理,从而使待处理数据为合规数据,实现对数据的精细化处理。
本实施例提供的方案,根据预设规则对所述原始写入数据进行过滤,将过滤后的原始写入数据作为所述待处理业务数据,从而将接入的原始数据进行合法和合理性处理,从而使待处理数据为合规数据,实现对数据的精细化处理,提高系统数据处理的安全性。
在一实施例中,如图4所示,基于第一实施例或第二实施例提出本发明批量数据的处理方法第三实施例,在本实施例中,基于第一实施例进行说明,所述步骤S20之前,所述方法还包括:
获取工具写入指令,提取所述工具写入指令中的转换工具以及存储地址信息,根据所述存储地址信息将所述转换工具写入预设区域。
在具体实现中,可接收写入指令,根据所述写入指令将所述第三方小程序写入预设存储区域,例如文档转换工具,在需要调用时,从所述预设存储区域调用所述第三方转换小程序进行应用即可,在具体实现中,在数据写入数据库时,判断当前数据的数据格式,在当前数据的数据格式为非预设格式时,则调用所述预设存储区域中的第三方转换小程序将Excel文件格式的文件转换为CSV格式的文件,从而通过CSV格式的文件将数据写入所述数据库中,实现轻量级的数据写入,缓解大数据批量写入时数据库的处理压力。
为了实现轻量级的系统维护,在数据写入时为生成Excel格式的文件,但在数据写入数据库时,将Excel格式的文件转换为CSV格式的文件,而无需再数据写入时将写入的数据转为CSV格式的文件,由于系统在数据写入时固定为生成传统的Excel格式的文件,如果在入口将写入的格式转为CSV格式的文件,则需要将不同类型数据写入的文件的地址逐个进行更换,则需要耗用大量的时间和精力,不利于提高数据写入的效率。
在一实施例中,所述预设格式为逗号分隔值CSV格式。
所述步骤S20,包括:
调用预设区域中的预设转换工具,通过所述预设转换工具引入java归档数据包。
需要说明的是,所述java归档数据包可为JAR文件包,JAR文件包是一种软件包文件格式,通常用于聚合大量的Java类文件、相关的元数据和资源,例如文本以及图片等文件到一个文件,以便分发Java平台应用软件或库,JAR文件是一种归档文件,以ZIP格式构建,以.jar为文件扩展名。用户可以使用JDK自带的jar命令创建或提取JAR文件,通过引入java归档数据包从而获取所有资源库,提供转换时所需的文件。
将Excel格式的合规数据的文件后缀转成CSV格式的后缀,并载入Excel格式的合规数据。
在具体实现中,通过调用trans函数,将Excel格式的合规数据的文件后缀转成CSV格式的后缀,把通过调用StreamWriter函数载入Excel格式的合规数据。
获取工作簿函数,根据所述工作簿函数提取所述合规数据中的工作簿数据;获取页函数,根据所述页函数从所述工作簿数据中提取每页数据,并从所述每页数据中提取每个区块数据。
在本实施例中,通过对Workbook函数以及每页数据sheet进行定义,通过调用工作簿取得每页的数据,并通过对Cell函数的定义,从每页sheet中取得每个区块Cell中的区块数据。
对所述每个区块数据写入分隔符,将写入后的转换数据进行输出,生成所述预设格式的入库数据。
在一实施例中,所述步骤S30之前,所述方法还包括:
步骤S301,获取历史文件格式信息与解析方式的对应关系,根据所述对应关系建立所述预设关系映射表。
需要说明的是,所述历史文件格式信息包括Excel格式以及CSV格式,还可包括其他形式的文件格式,本实施例对此不作限制,通过设定的多个文件格式与相应的解析方式的对应关系,从而实现对不同文件格式的解析,达到兼容的目的。
在一实施例中,所述步骤S30,包括:
步骤S301,在预设关系映射表中查找与所述预设格式对应的解析方式。
可以理解的是,不同的文件格式解析方式也不同,在这种情况下,通过预存多种解析方式,以预设关系映射表的方式进行对应,通过获取文件格式查找对应的解析方式进行解析,从而实现对解析方式的有效管理。
步骤S302,根据所述解析方式提取所述入库数据中的前缀和后缀的空格字符、逗号和制表符以及逗号或记录分隔符相邻的数据信息。
步骤S303,将所述数据信息进行修剪,并将预设字段嵌入到双引号集合中,得到解析后的入库数据。
在具体实现中,在进行解析时,将入库数据中的前缀和后缀的空格字符,逗号和制表符,与逗号或记录分隔符相邻的内容进行修剪,以及为了保证前导和后缀空白字符的保留,通过将字段嵌入到双引号集合中来限定字段,从而实现对CSV格式文件的解析。
本实施例提供的方案,通过预设关系映射表对解析方式进行有效的管理,实现对CSV文件在入库时的正确解析,并通过入库数据中的预设字段进行分析处理,实现对CSV格式文件的解析,达到通过轻量级的CSV格式文件对入库数据进行处理,从而降低服务器的运行压力。
本发明进一步提供一种批量数据的处理装置。
参照图5,图5为本发明批量数据的处理装置第一实施例的功能模块示意图。
本发明批量数据的处理装置第一实施例中,该批量数据的处理装置包括:
获取模块10,用于在将待处理业务数据写入数据库时,获取所述待处理业务数据,其中,所述待处理业务数据为电子表格Excel格式的合规数据。
需要说明的是,在一般情况下,系统在接收外部业务数据时,将接收的外部业务数据转换为Excel格式的文件写入数据库中,其中,所述待处理业务数据为接收的外部业务数据。
在具体实现中,由于系统的安全以及数据的合理性考虑,在接收到外部业务数据时需要对外部业务数据按照预设规则进行合理化处理,从而保证数据的安全性以及符合相关规定,从而得到电子表格Excel格式的合规数据,满足不同用户的需求。
转换模块20,用于调用预设区域中的预设转换工具,通过所述预设转换工具将所述Excel格式的合规数据进行转换,生成轻量级的预设格式的入库数据。
在本实施例中,通过预设转换工具进行转换方式可通过两种方式进行转换,一种转换方式是获取第三方转换小程序,通过所述转换小程序将待处理业务数据转换为预设格式的入库数据,例如通过文档转换工具,将原始的Excel文件格式的文件转换为逗号分隔值CSV格式的文件,通过CSV格式的文件实现对数据的轻量级处理,另一种方式为通过本实施例的执行主体终端设备上运行的批量数据的处理程序进行自动处理,将当前获得的Excel文件转换为CSV格式的文件,从而实现自动处理,通过CSV文件可将解析后的文件数据进行分批次从文件中读入缓存中,并且在数据写入完成内后系统会释放缓存,从而避免内存耗尽出现溢出的情况。
解析模块30,用于在预设关系映射表中查找与所述预设格式对应的解析方式,通过所述解析方式对所述入库数据进行解析,得到解析后的入库数据。
需要说明的是,由于在系统中数据写入时默认为生成Excel格式的文件,则在将数据写入数据库默认为对Excel格式的文件的解析方式,在本实施例中,由于在写入数据库时,将Excel文件转换为CSV格式的文件,则在进行数据解析时,也转换为解析CSV格式的文件的解析方式,从而实现将CSV格式的文件写入数据库中。
在具体实现中,获取当前文件格式的标签信息,根据所述标签信息在预设数据库中查找对应的解析方式,例如标签信息为将CSV格式的文件,对应CSV格式的文件的解析方式,通过所述标签信息在预设关系映射表中查找对应的解析方式,从而实现解析方式的查找。
写入模块40,用于将解析后的入库数据进行分批次写入所述数据库。
需要说明的是,由于CSV格式的文件是分批次从文件中读入缓存中,使用完后系统又很快释放缓存,避免了内存耗尽出现溢出的情况。CSV本身格式轻量,压缩比大,占用空间小,上传服务器时,对带宽压力小,从而便于上传解析。
在本实施例中,还可设有用户编辑接口,通过接收用户的编辑指令,可将当前的Excel格式的文件转换为符合用户需求的格式的文件,从而提高数据处理的灵活性,实现用户可操作的数据处理。
本实施例通过上述方案,通过在将待处理业务数据写入数据库时,获取所述待处理业务数据,其中,所述待处理业务数据为电子表格Excel格式的合规数据;调用预设区域中的预设转换工具,通过所述预设转换工具将所述Excel格式的合规数据进行转换,生成轻量级的预设格式的入库数据;在预设关系映射表中查找与所述预设格式对应的解析方式,通过所述解析方式对所述入库数据进行解析,得到解析后的入库数据;将解析后的入库数据分批写入所述数据库,从而将传统的Excel文件格式的文件转换为轻量级格式的文件进行分批写入数据库,缓解大数据批量写入数据库时造成的处理压力。
此外,为实现上述目的,本发明还提出一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的批量数据的处理程序,所述批量数据的处理程序配置为实现如上文所述的批量数据的处理方法的步骤。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有批量数据的处理程序,所述批量数据的处理程序被处理器执行如上文所述的批量数据的处理方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台智能终端设备(可以是手机,计算机,终端设备,空调器,或者网络终端设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种批量数据的处理方法,其特征在于,所述批量数据的处理方法包括:
在将待处理业务数据写入数据库时,获取所述待处理业务数据,其中,所述待处理业务数据为电子表格Excel格式的合规数据;
调用预设区域中的预设转换工具,通过所述预设转换工具将所述Excel格式的合规数据进行转换,生成轻量级的预设格式的入库数据;
在预设关系映射表中查找与所述预设格式对应的解析方式,通过所述解析方式对所述入库数据进行解析,得到解析后的入库数据;
将解析后的入库数据进行分批次写入所述数据库;
所述在预设关系映射表中查找与所述预设格式对应的解析方式,包括:
获取当前文件格式的标签信息;
根据所述标签信息在预设关系映射表中查找对应的解析方式;
所述调用预设区域中的预设转换工具,通过所述预设转换工具将所述Excel格式的合规数据进行转换,生成轻量级的预设格式的入库数据之前,所述方法还包括:
获取工具写入指令,提取所述工具写入指令中的转换工具以及存储地址信息;
根据所述存储地址信息将所述转换工具写入预设区域。
2.如权利要求1所述的批量数据的处理方法,其特征在于,所述在将待处理业务数据写入数据库时,获取所述待处理业务数据之前,所述方法还包括:
获取原始写入数据,根据预设规则对所述原始写入数据进行过滤,将过滤后的原始写入数据作为所述待处理业务数据。
3.如权利要求2所述的批量数据的处理方法,其特征在于,所述获取原始写入数据,根据预设规则对所述原始写入数据进行过滤,将过滤后的原始写入数据作为所述待处理业务数据,包括:
获取原始写入数据,判断所述原始写入数据是否含有预设关键字;
在所述原始写入数据含有预设关键字时,提取所述原始写入数据中含有预设关键字的敏感数据,并将所述敏感数据进行删除;
将删除后的原始写入数据作为所述待处理业务数据。
4.如权利要求1至3中任一项所述的批量数据的处理方法,其特征在于,所述预设格式为逗号分隔值CSV格式;
所述调用预设区域中的预设转换工具,通过所述预设转换工具将所述Excel格式的合规数据进行转换,生成轻量级的预设格式的入库数据,包括:
调用预设区域中的预设转换工具,通过所述预设转换工具引入java归档数据包;
将Excel格式的合规数据的文件后缀转成CSV格式的后缀,并载入Excel格式的合规数据;
获取工作簿函数,根据所述工作簿函数提取所述合规数据中的工作簿数据;
获取页函数,根据所述页函数从所述工作簿数据中提取每页数据,并从所述每页数据中提取每个区块数据;
对所述每个区块数据写入分隔符,将写入后的转换数据进行输出,生成所述预设格式的入库数据。
5.如权利要求1至3中任一项所述的批量数据的处理方法,其特征在于,所述在预设关系映射表中查找与所述预设格式对应的解析方式,通过所述解析方式对所述入库数据进行解析,得到解析后的入库数据之前,所述方法还包括:
获取历史文件格式信息与解析方式的对应关系,根据所述对应关系建立所述预设关系映射表。
6.如权利要求1至3中任一项所述的批量数据的处理方法,其特征在于,所述在预设关系映射表中查找与所述预设格式对应的解析方式,通过所述解析方式对所述入库数据进行解析,得到解析后的入库数据,包括:
在预设关系映射表中查找与所述预设格式对应的解析方式;
根据所述解析方式提取所述入库数据中的前缀和后缀的空格字符、逗号和制表符以及逗号或记录分隔符相邻的数据信息;
将所述数据信息进行修剪,并将预设字段嵌入到双引号集合中,得到解析后的入库数据。
7.一种批量数据的处理装置,其特征在于,所述批量数据的处理装置包括:
获取模块,用于在将待处理业务数据写入数据库时,获取所述待处理业务数据,其中,所述待处理业务数据为电子表格Excel格式的合规数据;
转换模块,用于调用预设区域中的预设转换工具,通过所述预设转换工具将所述Excel格式的合规数据进行转换,生成轻量级的预设格式的入库数据;
解析模块,用于在预设关系映射表中查找与所述预设格式对应的解析方式,通过所述解析方式对所述入库数据进行解析,得到解析后的入库数据;
写入模块,用于将解析后的入库数据进行分批次写入所述数据库;
所述写入模块,还用于获取当前文件格式的标签信息;根据所述标签信息在预设关系映射表中查找对应的解析方式;
所述转换模块,还用于获取工具写入指令,提取所述工具写入指令中的转换工具以及存储地址信息;根据所述存储地址信息将所述转换工具写入预设区域。
8.一种设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的批量数据的处理程序,所述批量数据的处理程序配置为实现如权利要求1至6中任一项所述的批量数据的处理方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有批量数据的处理程序,所述批量数据的处理程序被处理器执行时实现如权利要求1至6中任一项所述的批量数据的处理方法的步骤。
CN201910553726.0A 2019-06-20 2019-06-20 批量数据的处理方法、装置、设备及存储介质 Active CN110377651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910553726.0A CN110377651B (zh) 2019-06-20 2019-06-20 批量数据的处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910553726.0A CN110377651B (zh) 2019-06-20 2019-06-20 批量数据的处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110377651A CN110377651A (zh) 2019-10-25
CN110377651B true CN110377651B (zh) 2024-02-02

Family

ID=68250677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910553726.0A Active CN110377651B (zh) 2019-06-20 2019-06-20 批量数据的处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110377651B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925772A (zh) * 2019-12-06 2021-06-08 北京沃东天骏信息技术有限公司 一种数据动态拆分方法和装置
CN111092895B (zh) * 2019-12-23 2022-09-23 和元达信息科技有限公司 一种互联网敏感数据安全防护系统及方法
CN111292040B (zh) * 2020-02-18 2023-07-11 上海东普信息科技有限公司 快件代签收信息接入方法、系统及存储介质
CN111522815A (zh) * 2020-04-15 2020-08-11 山东爱城市网信息技术有限公司 一种企业基本信息入库的方法
CN111737316A (zh) * 2020-06-19 2020-10-02 广联达科技股份有限公司 一种工程清单查询方法、装置、计算机设备和存储介质
CN112015764A (zh) * 2020-08-13 2020-12-01 仁励家网络科技(杭州)有限公司 业务系统的数据处理方法、装置、电子设备及存储介质
CN114357042A (zh) * 2021-12-20 2022-04-15 广西交控智维科技发展有限公司 Cad数据处理方法、装置、电子设备及计算机程序产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368593A (zh) * 2017-07-25 2017-11-21 万帮充电设备有限公司 数据导入方法、装置及服务器
WO2017219526A1 (zh) * 2016-06-23 2017-12-28 乐视控股(北京)有限公司 一种图形文件格式的使用方法及存储设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020194217A1 (en) * 2001-04-26 2002-12-19 International Business Machnies Corporation Metadata graphial user interface

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017219526A1 (zh) * 2016-06-23 2017-12-28 乐视控股(北京)有限公司 一种图形文件格式的使用方法及存储设备
CN107368593A (zh) * 2017-07-25 2017-11-21 万帮充电设备有限公司 数据导入方法、装置及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
由EXCEL文件到数据库标准文本文件(STF)的数据格式转换;黄方, 杨松林;铁路航测(第04期);全文 *

Also Published As

Publication number Publication date
CN110377651A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN110377651B (zh) 批量数据的处理方法、装置、设备及存储介质
CN107844634B (zh) 多元通用模型平台建模方法、电子设备及计算机可读存储介质
CN110348239B (zh) 脱敏规则配置方法以及数据脱敏方法、系统、计算机设备
CN110704521A (zh) 接口数据接入方法及系统
CN109829287A (zh) Api接口权限访问方法、设备、存储介质及装置
CN112162965B (zh) 一种日志数据处理的方法、装置、计算机设备及存储介质
CN110795756A (zh) 一种数据脱敏方法、装置、计算机设备及计算机可读存储介质
CN111008348A (zh) 反爬虫方法、终端、服务器及计算机可读存储介质
CN111881094B (zh) 日志中关键信息提取方法、装置、终端及存储介质
US20230259650A1 (en) System and method for data privacy policy generation and implementation
CN112182174A (zh) 业务问答知识查询方法、装置、计算机设备和存储介质
CN115794437A (zh) 微服务的调用方法、装置、计算机设备及存储介质
CN115544558A (zh) 敏感信息检测方法、装置、计算机设备及存储介质
CN113221036B (zh) 电子票据邮件的处理方法及装置
CN114676133A (zh) 索引创建方法、装置、设备及存储介质
CN114356968A (zh) 查询语句生成方法、装置、计算机设备及存储介质
CN113296752A (zh) 生成api文档的方法、系统、设备及存储介质
CN111046636B (zh) 筛选pdf文件信息的方法、装置、计算机设备及存储介质
CN110162712B (zh) 事件获取方法、装置、设备及存储介质
CN111831687A (zh) 数据查询的优化方法、装置、计算机设备和存储介质
CN109684156B (zh) 基于混合模式应用的监控方法、装置、终端及存储介质
CN111460152A (zh) 一种公告文本内容的提取方法、提取装置以及提取设备
CN113051231A (zh) 文件解析方法、装置、计算机设备和存储介质
CN115437930A (zh) 网页应用指纹信息的识别方法及相关设备
CN113220949B (zh) 一种隐私数据识别系统的构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant