CN114328394A

CN114328394A - 一种校园数据采集方法、装置、存储介质及设备

Info

Publication number: CN114328394A
Application number: CN202111676283.8A
Authority: CN
Inventors: 郑波; 古发辉; 张宏仁; 黄碧峰; 彭丽
Original assignee: Guangdong Vocational and Technical College
Current assignee: Guangdong Vocational and Technical College
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12

Abstract

本发明提供了一种校园数据采集方法、装置、存储介质及设备；其中方法为：客户端根据待上传附件文件数据生成文件著录信息；服务器将文件著录信息写入到待写入序列中；构成预处理序列；服务器将预处理序列分割为多个子文件，存储到数据库中；客户端将待上传附件文件数据分割为多个子文件并生成索引表，对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表；客户端将索引表和索引表对应的各个子文件依次上传到数据库进行存储。该方法可缩减客户端与服务器之间的传输数据大小，减少传输资源占用，优化了传输效率，不会长时间的占用服务器存储空间和网络信道带宽，提高了数据采集的速度。

Description

一种校园数据采集方法、装置、存储介质及设备

技术领域

本发明涉及数据采集技术领域，更具体地说，涉及一种校园数据采集方法、装置、存储介质及设备。

背景技术

在进行校园的数据采集时，时常会依赖于各种办公系统的数据导入导出，虽然大部分内容是相近似的，但是有很多是源自于不同系统的异构数据。在人工完善完办公系统表单上的数据后，上传完各种附件然后才能结束流程。然而由于办公系统基础的附件系统千篇一律，第一种是限制附件文件为固定大小，第二种没有限制文件大小及格式的。第一种如果上传文件的时候文件大小格式不一样或者文件大小超过系统的限制则非常麻烦，需要对文件进行处理，对文件进行格式转换或者压缩文件减小文件体积后才能上传，非常复杂。而第二种则是给办公系统的存储和管理增加了负担，一旦有人恶意上传多个大体积文件，则会占用服务器存储空间和网络信道带宽，使得别人无法上传附件。

发明内容

为克服现有技术中的缺点与不足，本发明的目的在于提供一种校园数据采集方法、装置、存储介质及设备；该方法可缩减客户端与服务器之间的传输数据大小，减少传输资源占用，优化了传输效率，不会长时间的占用服务器存储空间和网络信道带宽，提高了数据采集的速度。

为了达到上述目的，本发明通过下述技术方案予以实现：一种校园数据采集方法，其特征在于：包括以下步骤：

步骤1，客户端根据待上传附件文件数据生成文件著录信息，客户端向服务器发送文件著录信息；文件著录信息包括附件文件数据的文件头、文件名、文件编号和文件数据大小；

步骤2，服务器将客户端所上传的文件著录信息写入到待写入序列中，以所上传的文件著录信息作为当前文件著录信息；待写入序列为各个客户端上传的文件著录信息构成的队列；

步骤3，将当前文件著录信息的文件头依次与待写入序列中其余文件著录信息的文件头进行判断，将待写入序列中除当前文件著录信息外的各个与当前文件著录信息中文件头相同的文件著录信息进行提取，构成预处理序列；

步骤4，服务器将预处理序列中每个文件著录信息所对应的附件文件数据分割为多个大小为小于或等于阈值N1的子文件，得到每个附件文件数据的索引表与索引表所对应的各个子文件；服务器将每个附件文件数据的索引表与索引表所对应的各个子文件存储到数据库中；附件文件数据的索引表为附件分割后所有的子文件的文件头、文件名、文件编号、文件数据大小构成的序列表；

步骤5，客户端将待上传附件文件数据分割为多个大小为小于或等于阈值N1的子文件并生成待上传附件文件数据的索引表与索引表所对应的各个子文件，并将客户端的各个子文件与数据库中的子文件依次比对，对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表；

步骤6，客户端将待上传附件文件数据的索引表和索引表对应的各个子文件依次上传到数据库进行存储。

优选地，所述步骤5中，将客户端的各个子文件与服务器的数据库中的子文件依次比对，对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表的方法为：

步骤5.1，令客户端的各个子文件形成的子文件集合为G＝{g_i}；i∈[1,M1]，M1为客户端子文件总数；g_i为G中的第i个子文件；设置变量j,j∈[1,M2]，M2为服务器的预处理序列中每个文件著录信息所对应的附件文件数据分割的子文件总数，设置i、j的初始值为1；

步骤5.2，计算g_i的哈希值为第一哈希值；计算数据库中第j个子文件的哈希值为第二哈希值；

步骤5.3，判断第一哈希值与第二哈希值是否匹配：

如果匹配，则执行步骤5.3.1：将待上传附件文件数据的索引表中g_i的文件头、文件名、文件编号、文件数据大小删除，并将数据库中第j个子文件的文件头、文件名、文件编号、文件数据和子文件在数据库中的位置写入待上传附件文件数据的索引表中；之后跳至步骤5.4；

如果不匹配，则执行步骤5.3.2：在数据库中搜索子文件的哈希值与第一哈希值的余弦相似度的值最大的哈希值，标记该哈希值对应的子文件为参比文件；或者是在数据库中搜索子文件的哈希值与第一哈希值之间的文件存取值最大的哈希值所对应的数据库中的子文件为参比文件；

判断N3与N2的大小，其中N2为子文件集合G中所有子文件中最小的子文件的大小，N3为参比文件的大小：若N3＞N2，则将参比文件分割为第一子文件和第二子文件，第一子文件的大小为N2，第二子文件的大小为N3-N2；否则将参比文件作为第一子文件，第二子文件的大小为0；

判断N4与N2的大小，其中N4为第i个子文件g_i的大小：如果N4＞N2，则将第i个子文件g_i分割为第三子文件和第四子文件，第三子文件的大小为N2，第四子文件的大小为N4-N2；否则将第i个子文件g_i作为第三子文件，第四子文件的大小为0；

计算第一子文件的哈希值H1、第二子文件的哈希值H2、第三子文件的哈希值H3和第四子文件的哈希值H4；

判断哈希值H1与H3的大小：若H1与H3相等，则将第i个子文件g_i从子文件集合G中删除，并将待上传附件文件数据的索引表中第i个子文件g_i的文件头、文件名、文件编号和文件数据大小删除，并在数据库中将参比文件删除，将第一子文件、第二子文件存储在数据库中，将第四子文件和数据库中第一子文件的文件头、文件名、文件编号、文件数据和子文件在数据库中的位置写入待上传附件文件数据的索引表中，将第四子文件加入到子文件集合G中；

否则判断哈希值H2与H4的大小：若H2与H4相等，则将第i个子文件g_i从子文件集合G中删除，并将待上传附件文件数据的索引表中第i个子文件g_i的文件头、文件名、文件编号和文件数据大小删除，并在数据库中将参比文件删除，将第一子文件、第二子文件存储在数据库中，将第三子文件和数据库中第二子文件的文件头、文件名、文件编号、文件数据和子文件在数据库中的位置写入待上传附件文件数据的索引表中，将第三子文件加入到子文件集合G中；

步骤5.4，如果j≤M2则令j的值增加1并转到步骤5.2，如果j＞M2则将j的值设置为1并转到步骤5.5；

步骤5.5，如果i≤M1则令i的值增加1并转到步骤5.2，如果i＞M1则得到待上传附件文件数据的索引表，并以子文件集合G作为待上传附件文件数据的各个子文件。

优选地，步骤5.3.2中，数据库中第x个子文件的哈希值与第一哈希值之间的文件存取值AC_x的计算方法为：

其中，y为累加变量，y∈[1,M1]；k_x,y为数据库中第x个子文件的哈希值与客户端第y个子文件的哈希值之间的余弦相似度；MaxK为数据库中各个子文件的哈希值与第一哈希值的余弦相似度的最大值,log为取对数函数；MeanK为数据库中各个子文件的哈希值与第一哈希值的余弦相似度的算术平均值。

优选地，在所述步骤6之后还包括步骤7：当客户端读取数据库中的附件文件数据时，服务器按照附件文件数据的索引表将数据库中的索引表所对应的各个文件依次进行文件合并从而得到附件文件数据。

优选地，所述步骤1中，附件文件数据包括文本文件、图片、压缩包、视频文件。

优选地，所述步骤1中，文件编号为待上传附件文件数据的哈希值。

优选地，所述步骤4和步骤5中，阈值N1的取值范围为[5,20]MB。

一种校园数据采集装置，其特征在于：包括客户端、服务器和数据库；

客户端用于根据待上传附件文件数据生成文件著录信息并进行发送；

服务器用于将客户端所上传的文件著录信息写入到待写入序列中，以所上传的文件著录信息作为当前文件著录信息；待写入序列为各个客户端上传的文件著录信息构成的队列；

服务器还用于将当前文件著录信息的文件头依次与待写入序列中其余文件著录信息的文件头进行判断，将待写入序列中除当前文件著录信息外的各个与当前文件著录信息中文件头相同的文件著录信息进行提取，构成预处理序列；

服务器还用于将预处理序列中每个文件著录信息所对应的附件文件数据分割为多个大小为小于或等于阈值N1的子文件，得到每个附件文件数据的索引表与索引表所对应的各个子文件；将每个附件文件数据的索引表与索引表所对应的各个子文件；

数据库用于存储每个附件文件数据的索引表与索引表所对应的各个子文件；

客户端还用于将待上传附件文件数据分割为多个大小为小于或等于阈值N1的子文件并生成待上传附件文件数据的索引表与索引表所对应的各个子文件，并将客户端的各个子文件与数据库中的子文件依次比对，对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表；用于将待上传附件文件数据的索引表和索引表对应的各个子文件依次上传；

数据库还用于接收和存储附件文件数据的索引表和索引表对应的各个子文件；

当客户端读取数据库中的附件文件数据时，服务器按照附件文件数据的索引表将数据库中的索引表所对应的各个文件依次进行文件合并从而得到附件文件数据。

一种存储介质，其特征在于：其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述校园数据采集方法。

一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于：所述处理器执行存储器存储的程序时，实现上述校园数据采集方法。

与现有技术相比，本发明具有如下优点与有益效果：

本发明将文件分块形成子文件，充分利用服务器和数据库中已存储的相似子文件来缩减客户端与服务器之间的传输数据大小，减少传输资源占用；无需对文件进行格式转换或者压缩文件减小文件体积后才能上传，优化了传输效率，不会长时间的占用服务器存储空间和网络信道带宽，提高了数据采集的速度。

附图说明

图1是本发明一种校园数据采集方法的流程示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细的描述。

实施例一

如图1所示，本实施例一种校园数据采集方法，包括以下步骤：

步骤1，客户端根据待上传附件文件数据生成文件著录信息，客户端向服务器发送文件著录信息；文件著录信息包括附件文件数据的文件头、文件名、文件编号和文件数据大小；附件文件数据包括文本文件、图片、压缩包、视频文件；文件编号为待上传附件文件数据的哈希值。

步骤2，服务器将客户端所上传的文件著录信息写入到待写入序列中，以所上传的文件著录信息作为当前文件著录信息；待写入序列为各个客户端上传的文件著录信息构成的队列。

步骤3，将当前文件著录信息的文件头依次与待写入序列中其余文件著录信息的文件头进行判断，将待写入序列中除当前文件著录信息外的各个与当前文件著录信息中文件头相同的文件著录信息进行提取，构成预处理序列。

步骤4，服务器将预处理序列中每个文件著录信息所对应的附件文件数据分割为多个大小为小于或等于阈值N1的子文件，阈值N1的取值范围优选为[5,20]MB，得到每个附件文件数据的索引表与索引表所对应的各个子文件；服务器将每个附件文件数据的索引表与索引表所对应的各个子文件存储到数据库中；附件文件数据的索引表为附件分割后所有的子文件的文件头、文件名、文件编号、文件数据大小构成的序列表。步骤4中索引表为预处理序列中每个文件对应的索引表，由于可能存在多个客户端同时上传附件文件数据，每个附件文件数据要对应一个索引表。

步骤5，客户端将待上传附件文件数据分割为多个大小为小于或等于阈值N1的子文件并生成待上传附件文件数据的索引表与索引表所对应的各个子文件，并将客户端的各个子文件与数据库中的子文件依次比对，对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表。

具体地说，步骤5中，将客户端的各个子文件与服务器的数据库中的子文件依次比对，对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表的方法为：

步骤5.3，判断第一哈希值与第二哈希值是否匹配：

数据库中第x个子文件的哈希值与第一哈希值之间的文件存取值AC_x的计算方法为，x是数据库中的子文件的序号：

其中，y为累加变量，y∈[1,M1]；k_x,y为数据库中第x个子文件的哈希值与客户端第y个子文件的哈希值之间的余弦相似度；MaxK为数据库中各个子文件的哈希值与第一哈希值的余弦相似度的最大值,log为取对数函数；MeanK为数据库中各个子文件的哈希值与第一哈希值的余弦相似度的算术平均值；

优选地，本发明中的哈希值指文件哈希值。

优选地，哈希值之间的余弦相似度的计算方法为：将哈希值转换为字符串，计算各字符串之间的余弦相似度，本发明中的计算哈希值也可以替换为计算汉明距离,将各个步骤中的余弦相似度替换为汉明距离。

步骤7，当客户端读取数据库中的附件文件数据时，服务器按照附件文件数据的索引表将数据库中的索引表所对应的各个文件依次进行文件合并从而得到附件文件数据。

为实现上述校园数据采集方法，本实施例提供一种校园数据采集装置，包括客户端、服务器和数据库；

实施例二

本实施例一种存储介质，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行实施例一所述的校园数据采集方法。

实施例三

本实施例一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现实施例一所述的校园数据采集方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种校园数据采集方法，其特征在于：包括以下步骤：

步骤6，客户端将待上传附件文件数据的索引表和索引表对应的各个子文件依次上传到数据库进行存储；

2.根据权利要求1所述的校园数据采集方法，其特征在于：所述步骤5中，将客户端的各个子文件与服务器的数据库中的子文件依次比对，对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表的方法为：

步骤5.3，判断第一哈希值与第二哈希值是否匹配：

3.根据权利要求2所述的校园数据采集方法，其特征在于：所述步骤5.3.2中，数据库中第x个子文件的哈希值与第一哈希值之间的文件存取值AC_x的计算方法为：

4.根据权利要求1所述的校园数据采集方法，其特征在于：在所述步骤6之后还包括步骤7：当客户端读取数据库中的附件文件数据时，服务器按照附件文件数据的索引表将数据库中的索引表所对应的各个文件依次进行文件合并从而得到附件文件数据。

5.根据权利要求1所述的校园数据采集方法，其特征在于：所述步骤1中，附件文件数据包括文本文件、图片、压缩包、视频文件。

6.根据权利要求1所述的校园数据采集方法，其特征在于：所述步骤1中，文件编号为待上传附件文件数据的哈希值。

7.根据权利要求1所述的校园数据采集方法，其特征在于：所述步骤4和步骤5中，阈值N1的取值范围为[5,20]MB。

8.一种校园数据采集装置，其特征在于：包括客户端、服务器和数据库；

数据库还用于接收和存储附件文件数据的索引表和索引表对应的各个子文件。

9.一种存储介质，其特征在于：其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行权利要求1-7中任一项所述的校园数据采集方法。

10.一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于：所述处理器执行存储器存储的程序时，实现权利要求1-7中任一项所述的校园数据采集方法。