CN114328394A - 一种校园数据采集方法、装置、存储介质及设备 - Google Patents

一种校园数据采集方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN114328394A
CN114328394A CN202111676283.8A CN202111676283A CN114328394A CN 114328394 A CN114328394 A CN 114328394A CN 202111676283 A CN202111676283 A CN 202111676283A CN 114328394 A CN114328394 A CN 114328394A
Authority
CN
China
Prior art keywords
file
subfile
index table
data
attachment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111676283.8A
Other languages
English (en)
Inventor
郑波
古发辉
张宏仁
黄碧峰
彭丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Vocational and Technical College
Original Assignee
Guangdong Vocational and Technical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Vocational and Technical College filed Critical Guangdong Vocational and Technical College
Priority to CN202111676283.8A priority Critical patent/CN114328394A/zh
Publication of CN114328394A publication Critical patent/CN114328394A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种校园数据采集方法、装置、存储介质及设备;其中方法为:客户端根据待上传附件文件数据生成文件著录信息;服务器将文件著录信息写入到待写入序列中;构成预处理序列;服务器将预处理序列分割为多个子文件,存储到数据库中;客户端将待上传附件文件数据分割为多个子文件并生成索引表,对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表;客户端将索引表和索引表对应的各个子文件依次上传到数据库进行存储。该方法可缩减客户端与服务器之间的传输数据大小,减少传输资源占用,优化了传输效率,不会长时间的占用服务器存储空间和网络信道带宽,提高了数据采集的速度。

Description

一种校园数据采集方法、装置、存储介质及设备
技术领域
本发明涉及数据采集技术领域,更具体地说,涉及一种校园数据采集方法、装置、存储介质及设备。
背景技术
在进行校园的数据采集时,时常会依赖于各种办公系统的数据导入导出,虽然大部分内容是相近似的,但是有很多是源自于不同系统的异构数据。在人工完善完办公系统表单上的数据后,上传完各种附件然后才能结束流程。然而由于办公系统基础的附件系统千篇一律,第一种是限制附件文件为固定大小,第二种没有限制文件大小及格式的。第一种如果上传文件的时候文件大小格式不一样或者文件大小超过系统的限制则非常麻烦,需要对文件进行处理,对文件进行格式转换或者压缩文件减小文件体积后才能上传,非常复杂。而第二种则是给办公系统的存储和管理增加了负担,一旦有人恶意上传多个大体积文件,则会占用服务器存储空间和网络信道带宽,使得别人无法上传附件。
发明内容
为克服现有技术中的缺点与不足,本发明的目的在于提供一种校园数据采集方法、装置、存储介质及设备;该方法可缩减客户端与服务器之间的传输数据大小,减少传输资源占用,优化了传输效率,不会长时间的占用服务器存储空间和网络信道带宽,提高了数据采集的速度。
为了达到上述目的,本发明通过下述技术方案予以实现:一种校园数据采集方法,其特征在于:包括以下步骤:
步骤1,客户端根据待上传附件文件数据生成文件著录信息,客户端向服务器发送文件著录信息;文件著录信息包括附件文件数据的文件头、文件名、文件编号和文件数据大小;
步骤2,服务器将客户端所上传的文件著录信息写入到待写入序列中,以所上传的文件著录信息作为当前文件著录信息;待写入序列为各个客户端上传的文件著录信息构成的队列;
步骤3,将当前文件著录信息的文件头依次与待写入序列中其余文件著录信息的文件头进行判断,将待写入序列中除当前文件著录信息外的各个与当前文件著录信息中文件头相同的文件著录信息进行提取,构成预处理序列;
步骤4,服务器将预处理序列中每个文件著录信息所对应的附件文件数据分割为多个大小为小于或等于阈值N1的子文件,得到每个附件文件数据的索引表与索引表所对应的各个子文件;服务器将每个附件文件数据的索引表与索引表所对应的各个子文件存储到数据库中;附件文件数据的索引表为附件分割后所有的子文件的文件头、文件名、文件编号、文件数据大小构成的序列表;
步骤5,客户端将待上传附件文件数据分割为多个大小为小于或等于阈值N1的子文件并生成待上传附件文件数据的索引表与索引表所对应的各个子文件,并将客户端的各个子文件与数据库中的子文件依次比对,对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表;
步骤6,客户端将待上传附件文件数据的索引表和索引表对应的各个子文件依次上传到数据库进行存储。
优选地,所述步骤5中,将客户端的各个子文件与服务器的数据库中的子文件依次比对,对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表的方法为:
步骤5.1,令客户端的各个子文件形成的子文件集合为G={gi};i∈[1,M1],M1为客户端子文件总数;gi为G中的第i个子文件;设置变量j,j∈[1,M2],M2为服务器的预处理序列中每个文件著录信息所对应的附件文件数据分割的子文件总数,设置i、j的初始值为1;
步骤5.2,计算gi的哈希值为第一哈希值;计算数据库中第j个子文件的哈希值为第二哈希值;
步骤5.3,判断第一哈希值与第二哈希值是否匹配:
如果匹配,则执行步骤5.3.1:将待上传附件文件数据的索引表中gi的文件头、文件名、文件编号、文件数据大小删除,并将数据库中第j个子文件的文件头、文件名、文件编号、文件数据和子文件在数据库中的位置写入待上传附件文件数据的索引表中;之后跳至步骤5.4;
如果不匹配,则执行步骤5.3.2:在数据库中搜索子文件的哈希值与第一哈希值的余弦相似度的值最大的哈希值,标记该哈希值对应的子文件为参比文件;或者是在数据库中搜索子文件的哈希值与第一哈希值之间的文件存取值最大的哈希值所对应的数据库中的子文件为参比文件;
判断N3与N2的大小,其中N2为子文件集合G中所有子文件中最小的子文件的大小,N3为参比文件的大小:若N3>N2,则将参比文件分割为第一子文件和第二子文件,第一子文件的大小为N2,第二子文件的大小为N3-N2;否则将参比文件作为第一子文件,第二子文件的大小为0;
判断N4与N2的大小,其中N4为第i个子文件gi的大小:如果N4>N2,则将第i个子文件gi分割为第三子文件和第四子文件,第三子文件的大小为N2,第四子文件的大小为N4-N2;否则将第i个子文件gi作为第三子文件,第四子文件的大小为0;
计算第一子文件的哈希值H1、第二子文件的哈希值H2、第三子文件的哈希值H3和第四子文件的哈希值H4;
判断哈希值H1与H3的大小:若H1与H3相等,则将第i个子文件gi从子文件集合G中删除,并将待上传附件文件数据的索引表中第i个子文件gi的文件头、文件名、文件编号和文件数据大小删除,并在数据库中将参比文件删除,将第一子文件、第二子文件存储在数据库中,将第四子文件和数据库中第一子文件的文件头、文件名、文件编号、文件数据和子文件在数据库中的位置写入待上传附件文件数据的索引表中,将第四子文件加入到子文件集合G中;
否则判断哈希值H2与H4的大小:若H2与H4相等,则将第i个子文件gi从子文件集合G中删除,并将待上传附件文件数据的索引表中第i个子文件gi的文件头、文件名、文件编号和文件数据大小删除,并在数据库中将参比文件删除,将第一子文件、第二子文件存储在数据库中,将第三子文件和数据库中第二子文件的文件头、文件名、文件编号、文件数据和子文件在数据库中的位置写入待上传附件文件数据的索引表中,将第三子文件加入到子文件集合G中;
步骤5.4,如果j≤M2则令j的值增加1并转到步骤5.2,如果j>M2则将j的值设置为1并转到步骤5.5;
步骤5.5,如果i≤M1则令i的值增加1并转到步骤5.2,如果i>M1则得到待上传附件文件数据的索引表,并以子文件集合G作为待上传附件文件数据的各个子文件。
优选地,步骤5.3.2中,数据库中第x个子文件的哈希值与第一哈希值之间的文件存取值ACx的计算方法为:
Figure BDA0003452060090000041
其中,y为累加变量,y∈[1,M1];kx,y为数据库中第x个子文件的哈希值与客户端第y个子文件的哈希值之间的余弦相似度;MaxK为数据库中各个子文件的哈希值与第一哈希值的余弦相似度的最大值,log为取对数函数;MeanK为数据库中各个子文件的哈希值与第一哈希值的余弦相似度的算术平均值。
优选地,在所述步骤6之后还包括步骤7:当客户端读取数据库中的附件文件数据时,服务器按照附件文件数据的索引表将数据库中的索引表所对应的各个文件依次进行文件合并从而得到附件文件数据。
优选地,所述步骤1中,附件文件数据包括文本文件、图片、压缩包、视频文件。
优选地,所述步骤1中,文件编号为待上传附件文件数据的哈希值。
优选地,所述步骤4和步骤5中,阈值N1的取值范围为[5,20]MB。
一种校园数据采集装置,其特征在于:包括客户端、服务器和数据库;
客户端用于根据待上传附件文件数据生成文件著录信息并进行发送;
服务器用于将客户端所上传的文件著录信息写入到待写入序列中,以所上传的文件著录信息作为当前文件著录信息;待写入序列为各个客户端上传的文件著录信息构成的队列;
服务器还用于将当前文件著录信息的文件头依次与待写入序列中其余文件著录信息的文件头进行判断,将待写入序列中除当前文件著录信息外的各个与当前文件著录信息中文件头相同的文件著录信息进行提取,构成预处理序列;
服务器还用于将预处理序列中每个文件著录信息所对应的附件文件数据分割为多个大小为小于或等于阈值N1的子文件,得到每个附件文件数据的索引表与索引表所对应的各个子文件;将每个附件文件数据的索引表与索引表所对应的各个子文件;
数据库用于存储每个附件文件数据的索引表与索引表所对应的各个子文件;
客户端还用于将待上传附件文件数据分割为多个大小为小于或等于阈值N1的子文件并生成待上传附件文件数据的索引表与索引表所对应的各个子文件,并将客户端的各个子文件与数据库中的子文件依次比对,对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表;用于将待上传附件文件数据的索引表和索引表对应的各个子文件依次上传;
数据库还用于接收和存储附件文件数据的索引表和索引表对应的各个子文件;
当客户端读取数据库中的附件文件数据时,服务器按照附件文件数据的索引表将数据库中的索引表所对应的各个文件依次进行文件合并从而得到附件文件数据。
一种存储介质,其特征在于:其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述校园数据采集方法。
一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于:所述处理器执行存储器存储的程序时,实现上述校园数据采集方法。
与现有技术相比,本发明具有如下优点与有益效果:
本发明将文件分块形成子文件,充分利用服务器和数据库中已存储的相似子文件来缩减客户端与服务器之间的传输数据大小,减少传输资源占用;无需对文件进行格式转换或者压缩文件减小文件体积后才能上传,优化了传输效率,不会长时间的占用服务器存储空间和网络信道带宽,提高了数据采集的速度。
附图说明
图1是本发明一种校园数据采集方法的流程示意图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细的描述。
实施例一
如图1所示,本实施例一种校园数据采集方法,包括以下步骤:
步骤1,客户端根据待上传附件文件数据生成文件著录信息,客户端向服务器发送文件著录信息;文件著录信息包括附件文件数据的文件头、文件名、文件编号和文件数据大小;附件文件数据包括文本文件、图片、压缩包、视频文件;文件编号为待上传附件文件数据的哈希值。
步骤2,服务器将客户端所上传的文件著录信息写入到待写入序列中,以所上传的文件著录信息作为当前文件著录信息;待写入序列为各个客户端上传的文件著录信息构成的队列。
步骤3,将当前文件著录信息的文件头依次与待写入序列中其余文件著录信息的文件头进行判断,将待写入序列中除当前文件著录信息外的各个与当前文件著录信息中文件头相同的文件著录信息进行提取,构成预处理序列。
步骤4,服务器将预处理序列中每个文件著录信息所对应的附件文件数据分割为多个大小为小于或等于阈值N1的子文件,阈值N1的取值范围优选为[5,20]MB,得到每个附件文件数据的索引表与索引表所对应的各个子文件;服务器将每个附件文件数据的索引表与索引表所对应的各个子文件存储到数据库中;附件文件数据的索引表为附件分割后所有的子文件的文件头、文件名、文件编号、文件数据大小构成的序列表。步骤4中索引表为预处理序列中每个文件对应的索引表,由于可能存在多个客户端同时上传附件文件数据,每个附件文件数据要对应一个索引表。
步骤5,客户端将待上传附件文件数据分割为多个大小为小于或等于阈值N1的子文件并生成待上传附件文件数据的索引表与索引表所对应的各个子文件,并将客户端的各个子文件与数据库中的子文件依次比对,对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表。
具体地说,步骤5中,将客户端的各个子文件与服务器的数据库中的子文件依次比对,对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表的方法为:
步骤5.1,令客户端的各个子文件形成的子文件集合为G={gi};i∈[1,M1],M1为客户端子文件总数;gi为G中的第i个子文件;设置变量j,j∈[1,M2],M2为服务器的预处理序列中每个文件著录信息所对应的附件文件数据分割的子文件总数,设置i、j的初始值为1;
步骤5.2,计算gi的哈希值为第一哈希值;计算数据库中第j个子文件的哈希值为第二哈希值;
步骤5.3,判断第一哈希值与第二哈希值是否匹配:
如果匹配,则执行步骤5.3.1:将待上传附件文件数据的索引表中gi的文件头、文件名、文件编号、文件数据大小删除,并将数据库中第j个子文件的文件头、文件名、文件编号、文件数据和子文件在数据库中的位置写入待上传附件文件数据的索引表中;之后跳至步骤5.4;
如果不匹配,则执行步骤5.3.2:在数据库中搜索子文件的哈希值与第一哈希值的余弦相似度的值最大的哈希值,标记该哈希值对应的子文件为参比文件;或者是在数据库中搜索子文件的哈希值与第一哈希值之间的文件存取值最大的哈希值所对应的数据库中的子文件为参比文件;
数据库中第x个子文件的哈希值与第一哈希值之间的文件存取值ACx的计算方法为,x是数据库中的子文件的序号:
Figure BDA0003452060090000081
其中,y为累加变量,y∈[1,M1];kx,y为数据库中第x个子文件的哈希值与客户端第y个子文件的哈希值之间的余弦相似度;MaxK为数据库中各个子文件的哈希值与第一哈希值的余弦相似度的最大值,log为取对数函数;MeanK为数据库中各个子文件的哈希值与第一哈希值的余弦相似度的算术平均值;
优选地,本发明中的哈希值指文件哈希值。
优选地,哈希值之间的余弦相似度的计算方法为:将哈希值转换为字符串,计算各字符串之间的余弦相似度,本发明中的计算哈希值也可以替换为计算汉明距离,将各个步骤中的余弦相似度替换为汉明距离。
判断N3与N2的大小,其中N2为子文件集合G中所有子文件中最小的子文件的大小,N3为参比文件的大小:若N3>N2,则将参比文件分割为第一子文件和第二子文件,第一子文件的大小为N2,第二子文件的大小为N3-N2;否则将参比文件作为第一子文件,第二子文件的大小为0;
判断N4与N2的大小,其中N4为第i个子文件gi的大小:如果N4>N2,则将第i个子文件gi分割为第三子文件和第四子文件,第三子文件的大小为N2,第四子文件的大小为N4-N2;否则将第i个子文件gi作为第三子文件,第四子文件的大小为0;
计算第一子文件的哈希值H1、第二子文件的哈希值H2、第三子文件的哈希值H3和第四子文件的哈希值H4;
判断哈希值H1与H3的大小:若H1与H3相等,则将第i个子文件gi从子文件集合G中删除,并将待上传附件文件数据的索引表中第i个子文件gi的文件头、文件名、文件编号和文件数据大小删除,并在数据库中将参比文件删除,将第一子文件、第二子文件存储在数据库中,将第四子文件和数据库中第一子文件的文件头、文件名、文件编号、文件数据和子文件在数据库中的位置写入待上传附件文件数据的索引表中,将第四子文件加入到子文件集合G中;
否则判断哈希值H2与H4的大小:若H2与H4相等,则将第i个子文件gi从子文件集合G中删除,并将待上传附件文件数据的索引表中第i个子文件gi的文件头、文件名、文件编号和文件数据大小删除,并在数据库中将参比文件删除,将第一子文件、第二子文件存储在数据库中,将第三子文件和数据库中第二子文件的文件头、文件名、文件编号、文件数据和子文件在数据库中的位置写入待上传附件文件数据的索引表中,将第三子文件加入到子文件集合G中;
步骤5.4,如果j≤M2则令j的值增加1并转到步骤5.2,如果j>M2则将j的值设置为1并转到步骤5.5;
步骤5.5,如果i≤M1则令i的值增加1并转到步骤5.2,如果i>M1则得到待上传附件文件数据的索引表,并以子文件集合G作为待上传附件文件数据的各个子文件。
步骤6,客户端将待上传附件文件数据的索引表和索引表对应的各个子文件依次上传到数据库进行存储。
步骤7,当客户端读取数据库中的附件文件数据时,服务器按照附件文件数据的索引表将数据库中的索引表所对应的各个文件依次进行文件合并从而得到附件文件数据。
本发明将文件分块形成子文件,充分利用服务器和数据库中已存储的相似子文件来缩减客户端与服务器之间的传输数据大小,减少传输资源占用;无需对文件进行格式转换或者压缩文件减小文件体积后才能上传,优化了传输效率,不会长时间的占用服务器存储空间和网络信道带宽,提高了数据采集的速度。
为实现上述校园数据采集方法,本实施例提供一种校园数据采集装置,包括客户端、服务器和数据库;
客户端用于根据待上传附件文件数据生成文件著录信息并进行发送;
服务器用于将客户端所上传的文件著录信息写入到待写入序列中,以所上传的文件著录信息作为当前文件著录信息;待写入序列为各个客户端上传的文件著录信息构成的队列;
服务器还用于将当前文件著录信息的文件头依次与待写入序列中其余文件著录信息的文件头进行判断,将待写入序列中除当前文件著录信息外的各个与当前文件著录信息中文件头相同的文件著录信息进行提取,构成预处理序列;
服务器还用于将预处理序列中每个文件著录信息所对应的附件文件数据分割为多个大小为小于或等于阈值N1的子文件,得到每个附件文件数据的索引表与索引表所对应的各个子文件;将每个附件文件数据的索引表与索引表所对应的各个子文件;
数据库用于存储每个附件文件数据的索引表与索引表所对应的各个子文件;
客户端还用于将待上传附件文件数据分割为多个大小为小于或等于阈值N1的子文件并生成待上传附件文件数据的索引表与索引表所对应的各个子文件,并将客户端的各个子文件与数据库中的子文件依次比对,对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表;用于将待上传附件文件数据的索引表和索引表对应的各个子文件依次上传;
数据库还用于接收和存储附件文件数据的索引表和索引表对应的各个子文件;
当客户端读取数据库中的附件文件数据时,服务器按照附件文件数据的索引表将数据库中的索引表所对应的各个文件依次进行文件合并从而得到附件文件数据。
实施例二
本实施例一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行实施例一所述的校园数据采集方法。
实施例三
本实施例一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例一所述的校园数据采集方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种校园数据采集方法,其特征在于:包括以下步骤:
步骤1,客户端根据待上传附件文件数据生成文件著录信息,客户端向服务器发送文件著录信息;文件著录信息包括附件文件数据的文件头、文件名、文件编号和文件数据大小;
步骤2,服务器将客户端所上传的文件著录信息写入到待写入序列中,以所上传的文件著录信息作为当前文件著录信息;待写入序列为各个客户端上传的文件著录信息构成的队列;
步骤3,将当前文件著录信息的文件头依次与待写入序列中其余文件著录信息的文件头进行判断,将待写入序列中除当前文件著录信息外的各个与当前文件著录信息中文件头相同的文件著录信息进行提取,构成预处理序列;
步骤4,服务器将预处理序列中每个文件著录信息所对应的附件文件数据分割为多个大小为小于或等于阈值N1的子文件,得到每个附件文件数据的索引表与索引表所对应的各个子文件;服务器将每个附件文件数据的索引表与索引表所对应的各个子文件存储到数据库中;附件文件数据的索引表为附件分割后所有的子文件的文件头、文件名、文件编号、文件数据大小构成的序列表;
步骤5,客户端将待上传附件文件数据分割为多个大小为小于或等于阈值N1的子文件并生成待上传附件文件数据的索引表与索引表所对应的各个子文件,并将客户端的各个子文件与数据库中的子文件依次比对,对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表;
步骤6,客户端将待上传附件文件数据的索引表和索引表对应的各个子文件依次上传到数据库进行存储;
步骤7,当客户端读取数据库中的附件文件数据时,服务器按照附件文件数据的索引表将数据库中的索引表所对应的各个文件依次进行文件合并从而得到附件文件数据。
2.根据权利要求1所述的校园数据采集方法,其特征在于:所述步骤5中,将客户端的各个子文件与服务器的数据库中的子文件依次比对,对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表的方法为:
步骤5.1,令客户端的各个子文件形成的子文件集合为G={gi};i∈[1,M1],M1为客户端子文件总数;gi为G中的第i个子文件;设置变量j,j∈[1,M2],M2为服务器的预处理序列中每个文件著录信息所对应的附件文件数据分割的子文件总数,设置i、j的初始值为1;
步骤5.2,计算gi的哈希值为第一哈希值;计算数据库中第j个子文件的哈希值为第二哈希值;
步骤5.3,判断第一哈希值与第二哈希值是否匹配:
如果匹配,则执行步骤5.3.1:将待上传附件文件数据的索引表中gi的文件头、文件名、文件编号、文件数据大小删除,并将数据库中第j个子文件的文件头、文件名、文件编号、文件数据和子文件在数据库中的位置写入待上传附件文件数据的索引表中;之后跳至步骤5.4;
如果不匹配,则执行步骤5.3.2:在数据库中搜索子文件的哈希值与第一哈希值的余弦相似度的值最大的哈希值,标记该哈希值对应的子文件为参比文件;或者是在数据库中搜索子文件的哈希值与第一哈希值之间的文件存取值最大的哈希值所对应的数据库中的子文件为参比文件;
判断N3与N2的大小,其中N2为子文件集合G中所有子文件中最小的子文件的大小,N3为参比文件的大小:若N3>N2,则将参比文件分割为第一子文件和第二子文件,第一子文件的大小为N2,第二子文件的大小为N3-N2;否则将参比文件作为第一子文件,第二子文件的大小为0;
判断N4与N2的大小,其中N4为第i个子文件gi的大小:如果N4>N2,则将第i个子文件gi分割为第三子文件和第四子文件,第三子文件的大小为N2,第四子文件的大小为N4-N2;否则将第i个子文件gi作为第三子文件,第四子文件的大小为0;
计算第一子文件的哈希值H1、第二子文件的哈希值H2、第三子文件的哈希值H3和第四子文件的哈希值H4;
判断哈希值H1与H3的大小:若H1与H3相等,则将第i个子文件gi从子文件集合G中删除,并将待上传附件文件数据的索引表中第i个子文件gi的文件头、文件名、文件编号和文件数据大小删除,并在数据库中将参比文件删除,将第一子文件、第二子文件存储在数据库中,将第四子文件和数据库中第一子文件的文件头、文件名、文件编号、文件数据和子文件在数据库中的位置写入待上传附件文件数据的索引表中,将第四子文件加入到子文件集合G中;
否则判断哈希值H2与H4的大小:若H2与H4相等,则将第i个子文件gi从子文件集合G中删除,并将待上传附件文件数据的索引表中第i个子文件gi的文件头、文件名、文件编号和文件数据大小删除,并在数据库中将参比文件删除,将第一子文件、第二子文件存储在数据库中,将第三子文件和数据库中第二子文件的文件头、文件名、文件编号、文件数据和子文件在数据库中的位置写入待上传附件文件数据的索引表中,将第三子文件加入到子文件集合G中;
步骤5.4,如果j≤M2则令j的值增加1并转到步骤5.2,如果j>M2则将j的值设置为1并转到步骤5.5;
步骤5.5,如果i≤M1则令i的值增加1并转到步骤5.2,如果i>M1则得到待上传附件文件数据的索引表,并以子文件集合G作为待上传附件文件数据的各个子文件。
3.根据权利要求2所述的校园数据采集方法,其特征在于:所述步骤5.3.2中,数据库中第x个子文件的哈希值与第一哈希值之间的文件存取值ACx的计算方法为:
Figure FDA0003452060080000041
其中,y为累加变量,y∈[1,M1];kx,y为数据库中第x个子文件的哈希值与客户端第y个子文件的哈希值之间的余弦相似度;MaxK为数据库中各个子文件的哈希值与第一哈希值的余弦相似度的最大值,log为取对数函数;MeanK为数据库中各个子文件的哈希值与第一哈希值的余弦相似度的算术平均值。
4.根据权利要求1所述的校园数据采集方法,其特征在于:在所述步骤6之后还包括步骤7:当客户端读取数据库中的附件文件数据时,服务器按照附件文件数据的索引表将数据库中的索引表所对应的各个文件依次进行文件合并从而得到附件文件数据。
5.根据权利要求1所述的校园数据采集方法,其特征在于:所述步骤1中,附件文件数据包括文本文件、图片、压缩包、视频文件。
6.根据权利要求1所述的校园数据采集方法,其特征在于:所述步骤1中,文件编号为待上传附件文件数据的哈希值。
7.根据权利要求1所述的校园数据采集方法,其特征在于:所述步骤4和步骤5中,阈值N1的取值范围为[5,20]MB。
8.一种校园数据采集装置,其特征在于:包括客户端、服务器和数据库;
客户端用于根据待上传附件文件数据生成文件著录信息并进行发送;
服务器用于将客户端所上传的文件著录信息写入到待写入序列中,以所上传的文件著录信息作为当前文件著录信息;待写入序列为各个客户端上传的文件著录信息构成的队列;
服务器还用于将当前文件著录信息的文件头依次与待写入序列中其余文件著录信息的文件头进行判断,将待写入序列中除当前文件著录信息外的各个与当前文件著录信息中文件头相同的文件著录信息进行提取,构成预处理序列;
服务器还用于将预处理序列中每个文件著录信息所对应的附件文件数据分割为多个大小为小于或等于阈值N1的子文件,得到每个附件文件数据的索引表与索引表所对应的各个子文件;将每个附件文件数据的索引表与索引表所对应的各个子文件;
数据库用于存储每个附件文件数据的索引表与索引表所对应的各个子文件;
客户端还用于将待上传附件文件数据分割为多个大小为小于或等于阈值N1的子文件并生成待上传附件文件数据的索引表与索引表所对应的各个子文件,并将客户端的各个子文件与数据库中的子文件依次比对,对客户端的各个子文件进行归并分割操作并生成待上传附件文件数据的索引表;用于将待上传附件文件数据的索引表和索引表对应的各个子文件依次上传;
数据库还用于接收和存储附件文件数据的索引表和索引表对应的各个子文件。
9.一种存储介质,其特征在于:其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行权利要求1-7中任一项所述的校园数据采集方法。
10.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于:所述处理器执行存储器存储的程序时,实现权利要求1-7中任一项所述的校园数据采集方法。
CN202111676283.8A 2021-12-31 2021-12-31 一种校园数据采集方法、装置、存储介质及设备 Pending CN114328394A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111676283.8A CN114328394A (zh) 2021-12-31 2021-12-31 一种校园数据采集方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111676283.8A CN114328394A (zh) 2021-12-31 2021-12-31 一种校园数据采集方法、装置、存储介质及设备

Publications (1)

Publication Number Publication Date
CN114328394A true CN114328394A (zh) 2022-04-12

Family

ID=81023050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111676283.8A Pending CN114328394A (zh) 2021-12-31 2021-12-31 一种校园数据采集方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN114328394A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115085900A (zh) * 2022-08-22 2022-09-20 四川汉唐云分布式存储技术有限公司 一种基于分布式存储的同态加密方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115085900A (zh) * 2022-08-22 2022-09-20 四川汉唐云分布式存储技术有限公司 一种基于分布式存储的同态加密方法
CN115085900B (zh) * 2022-08-22 2022-11-29 四川汉唐云分布式存储技术有限公司 一种基于分布式存储的同态加密方法

Similar Documents

Publication Publication Date Title
CN111382298B (zh) 基于图片内容的图像检索方法、装置与电子设备
CN113900810A (zh) 分布式图处理方法、系统及存储介质
CN109815234A (zh) 一种流式计算模型下的多重布谷鸟过滤器
US10210164B2 (en) Systems and methods for data archival
WO2021012162A1 (zh) 存储系统数据压缩的方法、装置、设备及可读存储介质
CN114328394A (zh) 一种校园数据采集方法、装置、存储介质及设备
CN114598597B (zh) 多源日志解析方法、装置、计算机设备及介质
CN114925286B (zh) 舆情数据处理方法及装置
CN117648495B (zh) 一种基于云原生向量数据的数据推送方法及系统
CN108764258B (zh) 一种用于群体图像插入的最优图像集选取方法
CN108614879A (zh) 小文件处理方法与装置
CN110222043B (zh) 云存储服务器的数据监控方法、装置及设备
CN113204525B (zh) 一种基于分布式存储系统的文档预览管理系统
CN116302307A (zh) 一种多虚拟机迁移方法、装置、设备及介质
CN106209605B (zh) 一种网络信息中附件的处理方法和设备
CN111026706B (zh) 电力系统数据的入库方法、装置、设备及介质
US9547663B2 (en) Data de-duplication
CN112966031A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN105530303A (zh) 一种网络缓存线性替换方法
CN111209428A (zh) 图像检索方法、装置、设备及计算机可读存储介质
US12026449B1 (en) Document storage system
CN109634521B (zh) 一种数据分块方法、装置及终端设备
CN112380851B (zh) 一种基于大数据的文字识别系统及方法
CN115455031B (zh) 一种Doris的数据查询方法、装置、存储介质及设备
CN117792403B (zh) 基于流式大数据技术的分布式农业数据存储管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination