CN110188069A

CN110188069A - 一种csv文件存储方法、装置及计算机设备

Info

Publication number: CN110188069A
Application number: CN201910425572.7A
Authority: CN
Inventors: 张建伟; 陈剑华
Original assignee: GUANGDONG MINNOV TECHNOLOGY Co Ltd
Current assignee: Zhongbei Communications Group Co ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-08-30
Anticipated expiration: 2039-05-21
Also published as: CN110188069B

Abstract

本说明书提供一种CSV文件存储方法及装置，所述方法包括：从CSV文件中读取待存储数据，并存储在临时数据表中；基于指定的时间间隔确定若干阈值分割点，其中，所述指定的时间间隔为数据库每次存储数据的最短时间间隔，所述阈值分割点由所述指定的时间间隔以及单次存储最大字符串个数的整数行数来确定的数据分割位置；利用所述阈值分割点将临时数据表分割成多个子临时数据表；将子临时数据表中的待存储数据存储到数据库中。从而保证存储过程中系统运行时每个存储过程都处在高效而快速的存储状态，大量缩短CSV文件的数据存储到数据库中的时间，避免出现因事务超时使存储事务停止并回滚到存储前的状态从而导致无法进行文件数据存储的情况。

Description

一种CSV文件存储方法、装置及计算机设备

技术领域

本说明书涉及文件存储技术领域，尤其涉及一种CSV文件存储方法、装置及计算机设备。

背景技术

在这个大数据时代，为了统计数据信息，需要将大量的数据文件存储到数据库中便于后期的管理和使用。然而，在现有技术中，将大数据量的CSV文件存储到数据库时，写入时间非常缓慢，严重情况时还出现事务超时的情况，当出现事务超时的情况时，存储事务将停止并回滚到存储前的状态，导致文件无法存储，严重影响系统的可用性，无法满足系统的存储使用需求。

发明内容

为克服相关技术中存在的问题，本说明书提供了一种CSV文件存储方法、装置及计算机设备。

根据本说明书实施例的第一方面，提供一种CSV文件存储方法，所述方法包括：

从CSV文件中读取待存储数据，并存储在临时数据表中；

基于指定的时间间隔确定若干阈值分割点，其中，所述指定的时间间隔为数据库每次存储数据的最短时间间隔，所述阈值分割点由所述指定的时间间隔以及单次存储最大字符串个数的整数行数来确定的数据分割位置；

利用所述阈值分割点将临时数据表分割成多个子临时数据表；

将子临时数据表中的待存储数据存储到数据库中。

根据本说明书实施例的第二方面，提供一种CSV文件存储装置，包括：

录入单元，用于将CSV文件中的待存储数据录入到临时数据表中；

分割点确定单元，用于基于指定的时间间隔确定若干阈值分割点，其中，所述指定的时间间隔为数据库每次存储数据的最短时间间隔，所述阈值分割点由所述指定的时间间隔以及单次存储最大数据字符串个数的整数行数来确定的数据分割位置；

分割单元，用于利用阈值分割点将临时数据表分割成多个子临时数据表；

存储单元，用于将子临时数据表中的待存储数据存储到数据库中。

根据本说明书实施例的第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现以上任一项所述方法。

本说明书的实施例提供的技术方案可以包括以下有益效果：

本说明书实施例中，将CSV文件的待存储数据录入到临时数据表中，并获取数据库每次存储数据的最短时间间隔，以此最短时间间隔以及单次存储最大字符串个数的整数行数而确定的数据分割位置，也就是阈值分割点，利用阈值分割点将临时数据表分割成多个子临时数据表，再将子临时数据表中的待存储数据存储到数据库中。从而保证存储过程中系统运行时每个存储过程都处在高效而快速的存储状态，大量缩短CSV文件的数据存储到数据库中的时间，避免出现因事务超时使存储事务停止并回滚到存储前的状态从而导致无法进行文件数据存储的情况。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本说明书根据一示例性实施例示出的一种CSV文件存储方法的流程图。

图2是本说明书根据一示例性实施例示出的另一种CSV文件存储方法的流程图。

图3是本说明书实施例CSV文件存储装置所在计算机设备的一种硬件结构图。

图4是本说明书根据一示例性实施例示出的一种CSV文件存储装置的框图。

图5是本说明书根据一示例性实施例示出的另一种CSV文件存储装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

CSV，也就是逗号分隔值(Comma-Separated Values)，因为分隔字符也可以不是逗号，有时也称为字符分隔值。CSV文件通常以纯文本形式存储表格数据，表格数据的内容有数字和文本等。纯文本形式存储意味着该CSV文件是一个字符序列，不含必须像二进制数字此种被解读的数据。另外CSV文件可以由任意数目的记录组成，记录之间以某种换行符分隔，每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。

大数据量的CSV文件包含多个数据行数，每一行数据的字符串个数不尽相同，应用系统为了将CSV文件中的所有数据存储到数据库中，在对CSV文件中的数据进行存储时，是根据数据行数顺序将每一个字符串按顺序进行存储的。每一次存储都是一个事务，应用系统默认给每个事务都设定一个操作时长，事务处理用时超过该时长时，则会提示“事务超时”，并将事务操作停止并回滚到操作前的状态，当无人进行后续操作时，该超时的事务将一直提示“事务超时”，无法自动进入下一步的操作，严重影响了工作进度和工作效率。因此，当CSV文件中的数据行数过大或行内字符串个数过多时，应用系统的存储算法无法负荷如此大数据量的操作，应用系统将多次提示“事务超时”，既浪费了等待时间，也完成不了存储工作。因此，本发明提供了一种CSV文件存储方法，通过分割CSV文件的数据，对分割后的数据依次存储到数据库，每一次存储都是一个存储事务，可以避免存储文件的数据时出现“事务超时”的情况，也提高了存储效率。

接下来对本说明书实施例进行详细说明。

如图1所示，图1是本说明书根据一示例性实施例示出的一种CSV文件存储方法的流程图，包括以下步骤：

步骤S101，从CSV文件中读取待存储数据，并存储在临时数据表中；

步骤S102，基于指定的时间间隔确定若干阈值分割点，其中，所述指定的时间间隔为数据库每次存储数据的最短时间间隔，所述阈值分割点由所述指定的时间间隔以及单次存储最大数据字符串个数的整数行数来确定的数据分割位置；

应用系统的存储算法在存储数据时是有性能差异的，在一定时间段内存储速率有极大值，该极大值的出现时间区间为数据库每次存储数据的最短时间间隔。在此最短时间间隔中，确定单次存储最大数据字符串个数的位置就能确定每次存储的数据分割位置，此处用单次存储最大数据字符串个数的整数行数是为了将数据分割位置定位在数据行数之间，以行数为单位能便于数据的分割处理，以此得出数据分割位置，也就是阈值分割点的所在位置。

步骤S103，利用所述阈值分割点将临时数据表分割成多个子临时数据表；

临时数据表中临时存储的数据经过阈值分割点分割之后，临时数据表也将分割成多个子临时数据表，每个子临时数据表存储被分割成整数行数的待存储数据，完成了数据分割的过程。

步骤S104，将子临时数据表中的待存储数据存储到数据库中。

另外，除了CSV文件，还有另一种与CSV文件类似的表格数据文件：XLSX文件，该文件是新的基于XML的压缩文件格式，其占用空间更小。在日常数据存储工作中，应用系统同样需要将XLSX文件中的数据存储到数据库中，然而XLSX文件的数据不能直接存储到临时数据表中，因此，作为一个实施例，可以将XLSX文件转化成CSV文件，此操作可以简化存储算法，加快存储效率。

由步骤S102可知，数据库每次存储数据的最短时间间隔是确定阈值分割点的条件之一，而该最短时间间隔是应用系统的存储算法运行过程中存储速率极大值所在的时间区间。在一个实施例中，可以利用SQL Server工具捕捉数据库每次存储数据的最短时间间隔。具体实现时，可以利用捕捉命令sp_server_diagnostics，捕捉存储算法的存储过程中以重复模式运行的最短时间间隔，从而得出每次进行存储动作的最高效时间区间。按此时间区间和单次存储最大数据字符串个数的整数行数确定的阈值分割点，可使分割出的子临时数据表中的待存储数据能在此时间区间内以最高效的存储速率进行存储，缩短存储事务的等待时间。

在另一个实施中，将CSV文件中的待存储数据存储到临时数据表时，所述待存储数据可以是以文件流的方式存储的。将数据存储到临时数据表的方式可以是多样的，本实施例中选用文件流的方式来进行数据传输，使得操作者可以对文件流进行所有操作，如读取数据，写入数据等。在流的概念中，只需要知道输入端和输出端的配置，并且不用关心文件数据是如何在输入端和输出端进行传输的，减少了系统算法的编程操作，从而加快了存储算法的运行速率。

为了更好地对每个子临时数据表的待存储数据的存储过程进行管理，引用任务的概念，将每个子临时数据表的待存储数据的存储过程视作一个任务，每个任务在执行过程中，后续任务排队等候不进行操作。在一个实施例中，将所述待存储数据存储到数据库中的步骤可以利用任务队列实现。具体过程可以是：创建任务队列；利用任务队列中的任务依次存储每个子临时数据表的待存储数据；每个任务可以执行一个子临时数据表的数据存储操作。在本实施例中，通过任务队列对每个子临时数据表的待存储数据的存储过程进行管理，可使存储过程按序进行，避免出现存储事务冲突的情况，间接提高了存储效率。

以下将以XLSX文件或CSV文件的数据写入数据库的存储过程为例作进一步的说明，在本实施例的存储算法系统中，默认的事务执行时间是10分钟，也就是600秒，当实际的事务执行时间超过该默认时间时将出现事务超时，存储事务将停止并回滚到执行存储事务前的状态，从而导致无法进行文件数据存储的情况。当出现事务超时的情况时，可以通过增加默认事务执行时间来避免出现事务超时的情况，也可以通过人工拆分XLSX文件或CSV文件的方式，按每5000行一个标准对所要存储的XLSX文件或CSV文件做拆分操作，但每次系统存储时都修改需要默认事务执行时间或人工拆分文件的做法不现实，而且存储等待时间过长，缩短存储等待时间才是重中之重。目前，XLSX文件和CSV文件的行数极限是1024000行，因此，本实施例针对行数是1000000行以下、列数为100列的XLSX文件或CSV文件做存储事务耗时统计，如下表：

表1 XLSX文件或CSV文件存储事务耗时统计表

XLSX文件或CSV文件行数	XLSX文件或CSV文件列数	耗时(秒)
			10000	100	480
50000	100	事务超时
			100000	100	事务超时
500000	100	事务超时
			1000000	100	事务超时

由表1可知，当XLSX文件或CSV文件的数据为10000行×100列时，本实施例的存储算法系统对此文件进行存储的存储事务耗时是480秒，接近默认事务执行时间600秒，当XLSX文件或CSV文件的数据行数大于10000行时将有很大概率出现事务超时状态，无法对数据行数大于10000行的XLSX文件或CSV文件进行数据存储。因此，在另一个实施例中，提供另一种CSV文件存储的方法，可针对大数据量的XLSX文件或CSV文件的数据进行分割和按序存储。

如图2所示，是根据一示例性实施例示出的另一种CSV文件存储的方法的流程图，包括如下步骤：

步骤S201，将XLSX文件转化成CSV文件，从CSV文件中读取待存储数据，将所述待存储数据以文件流方式存储到临时数据表；

步骤S202，基于指定的时间间隔确定若干阈值分割点，其中，所述指定的时间间隔为数据库每次存储数据的最短时间间隔，所述阈值分割点由所述指定的时间间隔以及单次存储最大数据字符串个数的整数行数来确定的数据分割位置；确定所述数据库每次存储数据的最短时间间隔的步骤包括：利用SQL Server工具捕捉所述指定的时间间隔；

步骤S203，利用所述阈值分割点将临时数据表分割成多个子临时数据表；

步骤S204，将子临时数据表中的待存储数据存储到数据库中；将所述待存储数据存储到数据库中的步骤包括：创建任务队列；利用任务队列中的任务依次存储每个子临时数据表的待存储数据；其中，每个任务执行一个子临时数据表的数据存储操作。

XLSX文件需要先转化成CSV文件才能进行后续的数据存储，CSV文件的数据可以直接存储到临时数据表中，通过文件流的方式来将CSV文件的数据存储到临时数据表中，可以不用定义数据的具体存储路径，只需定义数据的输入端和输出端即可，此时XLSX文件或CSV文件的数据都按行数和列数存储到临时数据表中。

应用系统的存储算法在存储数据时是有性能差异的，在一定时间段内存储速率有极大值，该极大值的出现时间区间为数据库每次存储数据的最短时间间隔。利用数据库SQLServer工具的捕捉命令sp_server_diagnostics，可以捕捉到存储算法的存储过程中以重复模式运行的最短时间间隔，从而得出每次进行存储动作的最高效时间区间。在本实施例中，通过SQL Server工具捕捉到存储算法的存储过程中以重复模式运行的最短时间间隔是5秒，在这5秒内根据动态获取的系统存储速率和实际的每一行(也就是100列)的字符串个数，得出单次存储最大数据字符串个数，该最大数据字符串个数是5秒内系统按最大存储速率能存储到的字符串个数极限，可以以此为数据分割位置，也就是阈值分割点。为了便于数据分割操作，更优的方式是以单次存储最大数据字符串个数的整数行数来确定阈值分割点。

按数据库每次存储数据的最短时间间隔和单次存储最大数据字符串个数的整数行数确定的阈值分割点，临时数据表中临时存储的数据经过阈值分割点分割之后，临时数据表也将分割成多个子临时数据表，每个子临时数据表存储被分割成整数行数的待存储数据，可使分割出的子临时数据表中的待存储数据能在此时间间隔内以最高效的存储速率进行存储，缩短存储等待时间。

最后，将每个子临时数据表中的待存储数据存储到数据库中。在本实施例中，为了更好地对每个子临时数据表的待存储数据的存储过程进行管理，引用任务队列的概念，将每个子临时数据表的待存储数据的存储过程视作一个任务，每个任务在执行过程中，后续任务排队等候不进行操作。至此，XLSX文件或CSV文件的数据可完整无损地存储到数据库中，并避免出现任务超时的情况。

经本实施例的方法步骤操作后，XLSX文件或CSV文件的存储事务耗时大幅度减少，如表2所示：

表2 CSV文件存储方法实现前后事务耗时对照表

由于每一个任务的存储，也就是每一个子临时数据表的存储都是一个事务，在本实施例中每个事务的耗时是5秒，不会超过默认事务执行实际600秒，经过本说明书方法的实现后的耗时是每个事务累加的实际耗时，使得大数据量的XLSX文件或CSV文件的数据内容写入数据库的需求得到最优满足。

与前述方法的实施例相对应，本说明书还提供了CSV文件存储装置及其所应用的设备的实施例。

本说明书文件处理装置的实施例可以应用在计算机设备上，例如服务器或终端设备。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在文件处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本说明书实施例文件处理装置所在计算机设备的一种硬件结构图，除了图3所示的处理器310、内存330、网络接口320、以及非易失性存储器340之外，实施例中CSV文件存储装置331所在的服务器或电子设备，通常根据该计算机设备的实际功能，还可以包括其他硬件，对此不再赘述。

如图4所示，图4是本说明书根据一示例性实施例示出的一种CSV文件存储装置的框图，所述装置包括：

录入单元41，用于将CSV文件中的待存储数据录入到临时数据表中；

分割点确定单元42，用于基于指定的时间间隔确定若干阈值分割点，其中，所述指定的时间间隔为数据库每次存储数据的最短时间间隔，所述阈值分割点由所述指定的时间间隔以及单次存储最大数据字符串个数的整数行数来确定的数据分割位置；

分割单元43，用于利用阈值分割点将临时数据表分割成多个子临时数据表；

存储单元44，用于将子临时数据表中的待存储数据存储到数据库中的。

在一个实施例中，所述装置还包括：

将XLSX文件转化成所述CSV文件的转化单元45(在图5中示出)。

在一个实施例中，所述分割点确定单元42还包括：

利用SQL Server工具捕捉数据库每次存储数据的最短时间间隔。

在一个实施例中，所述存储单元44还包括：

任务队列创建单元46(在图5中示出)，用于创建任务队列并利用任务队列中的任务依次存储每个子临时数据表的待存储数据；其中，每个任务执行一个子临时数据表的数据存储操作。

如图5所示，图5是本说明书根据一示例性实施例示出的另一种CSV文件存储装置的框图，该实施例在前述图4所示实施例的基础上，增加了将XLSX文件转化成所述CSV文件的转化单元45和用于创建任务队列并利用任务队列中的任务依次存储每个子临时数据表的待存储数据的任务队列创建单元46。

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种CSV文件存储方法，包括：

从CSV文件中读取待存储数据，并存储在临时数据表中；

将子临时数据表中的待存储数据存储到数据库中。

2.根据权利要求1所述的方法，其特征在于，所述CSV文件由XLSX文件转化而成。

3.根据权利要求1所述的方法，其特征在于，确定所述数据库每次存储数据的最短时间间隔的步骤包括：

利用SQL Server工具捕捉数据库每次存储数据的最短时间间隔。

4.根据权利要求1所述的方法，其特征在于，将CSV文件中的待存储数据存储到临时数据表的步骤包括：

将所述待存储数据以文件流方式存储到所述临时数据表。

5.根据权利要求1所述的方法，其特征在于，将子临时数据表中的所述待存储数据存储到数据库中的步骤包括：

创建任务队列；

利用任务队列中的任务依次存储每个子临时数据表的待存储数据；其中，每个任务执行一个子临时数据表的数据存储操作。

6.一种CSV文件存储装置，所述装置包括：

录入单元，用于将CSV文件中的待存储数据存储到临时数据表中；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

将XLSX文件转化成所述CSV文件的转化单元。

8.根据权利要求6所述的装置，其特征在于，所述分割点确定单元利用SQL Server工具捕捉数据库每次存储数据的最短时间间隔。

9.根据权利要求6所述的装置，其特征在于，所述存储单元还包括：

任务队列创建单元，用于创建任务队列并利用任务队列中的任务依次存储每个子临时数据表的待存储数据；其中，每个任务执行一个子临时数据表的数据存储操作。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现权利要求1～5任一项所述方法。