CN114880295B - 适用于数字文件柜的异构文件存档方法 - Google Patents

适用于数字文件柜的异构文件存档方法 Download PDF

Info

Publication number
CN114880295B
CN114880295B CN202210790361.5A CN202210790361A CN114880295B CN 114880295 B CN114880295 B CN 114880295B CN 202210790361 A CN202210790361 A CN 202210790361A CN 114880295 B CN114880295 B CN 114880295B
Authority
CN
China
Prior art keywords
file
digital
files
dimension
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210790361.5A
Other languages
English (en)
Other versions
CN114880295A (zh
Inventor
胡若云
沈百强
裘炜浩
李骏
金家红
胡泳
常冲
沈志宏
郑欣
郭磊
邵佳丽
樊志华
周永佳
孙钢
王庆娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Zhejiang Electric Power Co Ltd
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Zhejiang Electric Power Co Ltd
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Zhejiang Electric Power Co Ltd, Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Zhejiang Electric Power Co Ltd
Priority to CN202210790361.5A priority Critical patent/CN114880295B/zh
Publication of CN114880295A publication Critical patent/CN114880295A/zh
Application granted granted Critical
Publication of CN114880295B publication Critical patent/CN114880295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种适用于数字文件柜的异构文件存档方法,包括:基于识别码上传与实体文件对应的多个异构的第一数字文件,将多个异构的第一数字文件分别存储至原始存储单元;对相同文件类型的第一数字文件进行文件对齐处理,使得相同文件类型的数字文件融合为一个第二数字文件;获取所有第一数字文件、第二数字文件的文件种类,基于预设的文件转换策略在文件种类中确定目标种类,将所有第一数字文件、第二数字文件转换为目标种类的文件类型的第三数字文件;对所有的第三数字文件融合得到异构融合文件,将异构融合文件存储至对齐存储单元。本发明可以将多种文件类型的文件转换为统一类型的文件,便于工作人员查看、管理。

Description

适用于数字文件柜的异构文件存档方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种适用于数字文件柜的异构文件存档方法。
背景技术
数字文件柜中一般至少存在实体文件和其相对应的数字化文件,但是此时数字化文件可能会具有多种形式,例如需要统计一个公司所有部门人员的人员信息,此时对应的实体文件可以是各个部门所统计人员的纸质文件,数字化文件可能是各个部门预先存储的数字化文件,例如word、excel、pdf文件等等,由于多种文件类型的存在,导致后续工作人员并不易于查看、管理。
发明内容
本发明实施例提供一种适用于数字文件柜的异构文件存档方法,可以将多种文件类型的文件转换为统一类型的文件,便于工作人员查看、管理。
本发明实施例的第一方面,提供一种适用于数字文件柜的异构文件存档方法,包括:
S1,在判断数字文件柜内存储实体文件时,生成与所述实体文件对应的识别码,在云服务器中建立与所述识别码对应的云存储空间,在所述云存储空间中建立原始存储单元和对齐存储单元;
S2,基于所述识别码上传与所述实体文件对应的多个异构的第一数字文件,将多个异构的第一数字文件分别存储至原始存储单元;
S3,若判断多个异构的第一数字文件之中存在相同文件类型的第一数字文件,则对相同文件类型的第一数字文件进行文件对齐处理,使得相同文件类型的数字文件融合为一个第二数字文件;
S4,获取所有第一数字文件、第二数字文件的文件种类,基于预设的文件转换策略在所述文件种类中确定目标种类,将所有第一数字文件、第二数字文件转换为目标种类的文件类型的第三数字文件;
S5,对所有的第三数字文件融合得到异构融合文件,将所述异构融合文件存储至对齐存储单元。
可选地,在第一方面的一种可能实现方式中,所述S1包括:
数字文件柜在接收到存档指令后向云服务器发送存档请求,云服务器基于所述存档请求生成相对应的识别码并发送至数字文件柜;
云服务器建立与所述识别码对应的云存储空间,所述云存储空间中建立原始存储单元和对齐存储单元;
生成与所述原始存储单元对应的原始文件调取链接,以及与对齐存储单元对应的对齐文件调取链接,将所述原始文件调取链接、对齐文件调取链接分别发送至管理终端。
可选地,在第一方面的一种可能实现方式中,所述S3包括:
若判断相同文件类型的第一数字文件为可编辑文件,则选择任意一个第一数字文件作为模板文件,将相同文件类型的其他第一数字文件作为待融合文件;
提取所述待融合文件中的主体信息,在所述模板文件中建立与所述主体信息相对应的融合信息栏目,每个主体对应至少一个融合信息栏目,所述融合信息栏目包括至少一个表格单元,每个表格单元对应一个第一维度;
依次提取待融合文件中每个主体所对应第二维度的指标信息,在所述融合信息栏目中确定与所述指标信息对应的表格单元,将所述指标信息填写至所述表格单元内得到第二数字文件。
可选地,在第一方面的一种可能实现方式中,所述依次提取待融合文件中每个主体所对应维度的指标信息,在所述融合信息栏目中确定与所述指标信息对应的表格单元,将所述指标信息填写至所述表格单元内,包括:
确定待融合文件中与主体信息对应的融合信息栏目,依次遍历待融合文件中所有主体的第二维度,及每个第二维度对应的指标信息;
若判断相同主体在融合信息栏目中的第一维度与待融合文件的第二维度相同,则将第二维度的指标信息填写至相应第一维度的表格单元内;
若判断相同主体在融合信息栏目中的第一维度与待融合文件的第二维度不同,则对所述融合信息栏目进行扩充处理得到扩充的表格单元,对扩充的表格单元附加与所述第二维度对应的第三维度;
将待融合文件中相应主体在第二维度的指标信息,填写至扩充的第三维度的表格单元内。
可选地,在第一方面的一种可能实现方式中,所述若判断相同主体在融合信息栏目中的第一维度与待融合文件的第二维度不同,则对所述融合信息栏目进行扩充处理得到扩充的表格单元,对扩充的表格单元附加与所述第二维度对应的第三维度,包括:
若判断扩充的表格单元为多个,则根据多个扩充的表格单元生成相对应的扩充信息栏目;
获取每个第三维度所对应的表格单元的单元数量、每个表格单元的字符数量,根据所述单元数量、字符数量生成每个第三维度的表格单元所对应的排序系数;
根据排序系数的降序排序结果得到所有第三维度的表格单元,在扩充信息栏目的排序位置。
可选地,在第一方面的一种可能实现方式中,所述获取每个第三维度所对应的表格单元的单元数量、每个表格单元的字符数量,根据所述单元数量、字符数量生成每个第三维度的表格单元所对应的排序系数,包括:
根据单元数量、每个表格单元的字符数量得到每个第三维度所有表格单元的平均字符数量;
根据每个第三维度所对应表格单元的平均字符数量、单元数量进行计算得到排序系数,通过以下公式计算排序系数,
Figure 100002_DEST_PATH_IMAGE001
其中,
Figure 55919DEST_PATH_IMAGE002
为第
Figure DEST_PATH_IMAGE003
个第三维度对应的排序系数,
Figure 14779DEST_PATH_IMAGE004
为字符权重值,
Figure DEST_PATH_IMAGE005
为第
Figure 856309DEST_PATH_IMAGE003
个第三维度第
Figure 604822DEST_PATH_IMAGE006
个表格单元的字符数量,
Figure 546233DEST_PATH_IMAGE006
为表格单元的数量值,
Figure 100002_DEST_PATH_IMAGE007
为第三维度的所有单元数量,
Figure 66207DEST_PATH_IMAGE008
为数量权重值,
Figure DEST_PATH_IMAGE009
为常数值。
可选地,在第一方面的一种可能实现方式中,所述S3包括:
若判断相同文件类型的第一数字文件为不可编辑文件,则选择任意一个第一数字文件作为基准文件,将相同文件类型的其他第一数字文件作为待融合文件;
在所述基准文件处建立多个空白页,将所述待融合文件填写至所述空白页处,得到第二数字文件。
可选地,在第一方面的一种可能实现方式中,所述S4包括:
获取每个第一数字文件或第二数字文件中文件种类对应的预设文件等级,其中excel文件、word文件、pdf文件的预设文件等级依次增大;
选取所得到的预设文件等级中最大的文件等级,所述文件转换策略为将最大的文件等级所对应的文件种类作为目标种类;
若所述目标种类文件为可编辑文件,其中excel文件和word文件为可编辑文件,则按照可编辑转换方式将第一数字文件或第二数字文件的文件种类转换为目标种类的第三数字文件;
若所述目标种类文件为不可编辑文件,其中pdf文件为不可编辑文件,则按照不可编辑转换方式将第一数字文件或第二数字文件的文件种类转换为目标种类的第三数字文件。
可选地,在第一方面的一种可能实现方式中,所述若所述目标种类文件为可编辑文件,其中excel文件和word文件为可编辑文件,则按照可编辑转换方式将第一数字文件或第二数字文件的文件种类转换为目标种类的第三数字文件,包括:
建立与所述目标种类文件对应的空白文件;
提取第一数字文件或第二数字文件内的所有字符信息,将所述字符信息填写至空白文件内,得到转换为目标种类的第三数字文件。
可选地,在第一方面的一种可能实现方式中,所述若所述目标种类文件为不可编辑文件,其中pdf文件为不可编辑文件,则按照不可编辑转换方式将第一数字文件或第二数字文件的文件种类转换为目标种类的第三数字文件,包括:
基于路径对应表,确定第一数字文件或第二数字文件的文件种类与目标种类的种类转换路径,所述种类转换路径用于调取相应的转换接口进行转换处理,所述路径对应表中具有每个文件种类与目标种类之间预设的种类转换路径;
对第一数字文件或第二数字文件按照所述种类转换路径进行转换,转换后,得到目标种类的第三数字文件。
可选地,在第一方面的一种可能实现方式中,所述S5包括:
将数据量值最大的第三数字文件作为融合底板文件,将其他数据量值的第三数字文件内的字符信息分别依次复制填写至融合底板文件内;
提取具有相同第三维度的所有指标信息以相同的显示形式显示。
可选地,在第一方面的一种可能实现方式中,所述S5包括:
将数据量值最大的第三数字文件作为融合底板文件,将其他数据量值的第三数字文件以页为单位分别添加至融合底板文件内。
有益效果:
1、本方案在数字文化柜存入实体文件时,会将对应的多个异构文件存入到云存储空间内,并通过识别码来实现实体文件和电子文件之间的连接,使得后续管理员可以对应调取文件;同时,由于多种文件类型的存在,导致后续工作人员不易于查看、管理,且存储起来比较混乱,本方案为了对多个异构的数字文件进行存储,首先会对多个异构的第一数字文件进行第一次融合处理,使得相同文件类型的数字文件融合为一个第二数字文件;然后进行目标种类的转换,首先确定目标种类,之后结合目标种类将所有第一数字文件、第二数字文件转换为目标种类的第三数字文件,最后进行第二次融合处理,实现所有异构文件的融合,最后将异构融合文件存储至对齐存储单元;
2、本方案在将相同文件类型的数字文件融合为一个第二数字文件的过程中,制定了相应的融合策略;针对可编辑文件,本方案会依据主体信息建立相关的融合信息栏目,然后结合第一维度和第二维度的信息进行相应融合;融合过程中,还会对数据进行自动汇总,使得融合后的文件更便于用户管理;针对不可编辑文件,本方案会选择任意一个第一数字文件作为基准文件,将待融合文件填写至所述空白页处,得到第二数字文件,进行快速融合;
3、本方案在进行第一数字文件、第二数字文件转换为目标种类的文件类型的第三数字文件的过程中,会确定第一数字文件或第二数字文件中文件种类对应的预设文件等级,结合路径对应表,确定第一数字文件或第二数字文件的文件种类与目标种类的种类转换路径,从而将第一数字文件、第二数字文件转换为最优文件,便于用户统一管理和查看。
附图说明
图1是本发明提供一种适用于数字文件柜的异构文件存档方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供一种适用于数字文件柜的异构文件存档方法的流程示意图,该适用于数字文件柜的异构文件存档方法包括步骤S1-S5,具体如下:
S1,在判断数字文件柜内存储实体文件时,生成与所述实体文件对应的识别码,在云服务器中建立与所述识别码对应的云存储空间,在所述云存储空间中建立原始存储单元和对齐存储单元。
本方案的数字文件柜可以存储实体文件,例如电子化的excel、word和pdf文件所对应的、被打印出来的纸质文件,该文件例如可以是各个部门所统计人员相关信息的文件。
在数字文件柜内存储实体文件时,本方案会生成与实体文件对应的识别码,本方案建立有与识别码对应的云存储空间,在对纸质文件进行存储时,还会将对应的电子文件存储在云存储空间内。
所述S1包括S11- S13:
S11,数字文件柜在接收到存档指令后向云服务器发送存档请求,云服务器基于所述存档请求生成相对应的识别码并发送至数字文件柜。
可以理解的是,用户在存储文件时,会产生存档指令,数字文件柜在接收到存档指令后向云服务器发送存档请求,云服务器响应存档请求生成相对应的识别码并发送至数字文件柜。
S12,云服务器建立与所述识别码对应的云存储空间,所述云存储空间中建立原始存储单元和对齐存储单元。
本方案在生成相对应的识别码后,会建立与识别码对应的云存储空间,云存储空间包括有原始存储单元和对齐存储单元。可以理解的是,原始存储单元用于存储未处理之前的文件,即用户初始上传的文件,对齐存储单元用于存储处理之后的文件。
S13,生成与所述原始存储单元对应的原始文件调取链接,以及与对齐存储单元对应的对齐文件调取链接,将所述原始文件调取链接、对齐文件调取链接分别发送至管理终端。
本方案为了让管理端可以调取对应的文件,会生成与原始存储单元对应的原始文件调取链接,以及与对齐存储单元对应的对齐文件调取链接,管理端可以基于对应的调取连接来调取文件。
S2,基于所述识别码上传与所述实体文件对应的多个异构的第一数字文件,将多个异构的第一数字文件分别存储至原始存储单元。
例如,需要统计部门A、部门B、部门C和部门D的人员信息,部门A上传了excel文件,部门B上传了word文件,部门C上传了pdf文件、部门D上传了pdf文件。用户可以扫描数字文件柜上的二维码上传与实体文件对应的多个异构的第一数字文件,将多个异构的第一数字文件分别存储至原始存储单元。
S3,若判断多个异构的第一数字文件之中存在相同文件类型的第一数字文件,则对相同文件类型的第一数字文件进行文件对齐处理,使得相同文件类型的数字文件融合为一个第二数字文件。
示例性的,部门A上传了excel文件,部门B上传了word文件,部门C上传了pdf文件、部门D上传了pdf文件,那么部门C和部门D之间的文件类型相同,本方案部门C和部门D的第一数字文件进行文件对齐处理,使得相同文件类型的数字文件融合为一个第二数字文件。
所述S3包括:
S31,若判断相同文件类型的第一数字文件为可编辑文件,则选择任意一个第一数字文件作为模板文件,将相同文件类型的其他第一数字文件作为待融合文件。
本方案以word文件、excel文件、pdf文件为例,其中word文件、excel文件为可编辑文件,pdf文件为不可编辑文件。
示例性的,部门A上传了excel文件A,部门B上传了excel文件B,此时,部门A和部门B的文件类型相同,且相同文件类型的第一数字文件为可编辑文件。
此时,本方案会选择任意一个(例如excel文件A)第一数字文件作为模板文件,将相同文件类型的其他第一数字文件(例如excel文件B)作为待融合文件。
S32,提取所述待融合文件中的主体信息,在所述模板文件中建立与所述主体信息相对应的融合信息栏目,每个主体对应至少一个融合信息栏目,所述融合信息栏目包括至少一个表格单元,每个表格单元对应一个第一维度。
本方案会提取excel文件B中的主体信息(例如姓名4、姓名5和姓名6),在excel文件A建立与主体信息(例如姓名4、姓名5和姓名6)相对应的融合信息栏目(例如姓名4、姓名5和姓名6所对应的性别、年龄和身高),将excel文件B中的信息融合到excel文件A中。
示例性的,excel文件A中第一维度所对应的栏目可以是性别和年龄,excel文件B中第二维度所对应的栏目可以是性别、年龄和身高,将excel文件A和excel文件B融合到一起时,需要把excel文件B中的性别、年龄和身高融合到excel文件A中,此时,对应的融合信息栏目就是性别、年龄和身高栏目,本方案会在excel文件A中建立与姓名4、姓名5和姓名6所对应的性别、年龄和身高的栏目。
在一些实施例中,S32(所述依次提取待融合文件中每个主体所对应维度的指标信息,在所述融合信息栏目中确定与所述指标信息对应的表格单元,将所述指标信息填写至所述表格单元内)包括S321- S324:
S321,确定待融合文件中与主体信息对应的融合信息栏目,依次遍历待融合文件中所有主体的第二维度,及每个第二维度对应的指标信息。
示例性的,确定待融合文件(excel文件B)中与主体信息(例如姓名4、姓名5和姓名6)对应的融合信息栏目(例如性别、年龄和身高),依次遍历待融合文件(excel文件B)中所有主体信息(例如姓名4、姓名5和姓名6)的第二维度(例如性别、年龄和身高),及每个第二维度对应的指标信息(姓名4所对应的例如是男、35岁、178cm)。
S322,若判断相同主体在融合信息栏目中的第一维度与待融合文件的第二维度相同,则将第二维度的指标信息填写至相应第一维度的表格单元内。
例如,excel文件A中有性别和年龄,excel文件B中有性别、年龄和身高,那么第一维度(性别、年龄)和第二维度(性别、年龄)是相同的,此时,直接将第二维度的指标信息填写至相应第一维度的表格单元内即可。
S323,若判断相同主体在融合信息栏目中的第一维度与待融合文件的第二维度不同,则对所述融合信息栏目进行扩充处理得到扩充的表格单元,对扩充的表格单元附加与所述第二维度对应的第三维度。
例如,excel文件A中有性别和年龄,excel文件B中有性别、年龄和身高,那么第一维度中没有身高,第二维度中有身高,此时第一维度和第二维度是不相同的,本方案会对融合信息栏目进行扩充处理得到扩充的表格单元,对扩充的表格单元附加与第二维度对应的第三维度(身高)。
在一些实施例中,S323(所述若判断相同主体在融合信息栏目中的第一维度与待融合文件的第二维度不同,则对所述融合信息栏目进行扩充处理得到扩充的表格单元,对扩充的表格单元附加与所述第二维度对应的第三维度)包括:
若判断扩充的表格单元为多个,则根据多个扩充的表格单元生成相对应的扩充信息栏目。可以理解的是,excel文件B中有性别、年龄、身高、体重和备注,那么需要扩充的扩充信息栏目为3个,分别是身高、体重和备注,本方案会根据多个扩充的表格单元生成相对应的扩充信息栏目(身高、体重和备注)。
获取每个第三维度所对应的表格单元的单元数量、每个表格单元的字符数量,根据所述单元数量、字符数量生成每个第三维度的表格单元所对应的排序系数。本方案考虑到扩充信息栏目较多时,需要对第三维度的表格单元进行排序,使得较为重要的信息排序在前,次重要的排序在后,例如,身高、体重和备注中,较为重要的信息可以是身高和体重,备注可以是次重要的。由于备注信息中,字数会比较多,例如是“部门部长,主要负责XX方面”,本方案会统计每个第三维度所对应的表格单元的单元数量、每个表格单元的字符数量,然后根据所述单元数量、字符数量生成每个第三维度的表格单元所对应的排序系数。
根据排序系数的降序排序结果得到所有第三维度的表格单元,在扩充信息栏目的排序位置。本方案在得到排序系数后,会按照排序系数进行降序排序,使得较为重要的排序在前,次要的排序在后,排序结果例如是身高-体重-备注。
其中,所述获取每个第三维度所对应的表格单元的单元数量、每个表格单元的字符数量,根据所述单元数量、字符数量生成每个第三维度的表格单元所对应的排序系数,包括:
根据单元数量、每个表格单元的字符数量得到每个第三维度所有表格单元的平均字符数量。可以理解的是,本方案会计算出每个第三维度所有表格单元的平均字符数量。
根据每个第三维度所对应表格单元的平均字符数量、单元数量进行计算得到排序系数,通过以下公式计算排序系数,
Figure 273329DEST_PATH_IMAGE001
其中,
Figure 825533DEST_PATH_IMAGE002
为第
Figure 965658DEST_PATH_IMAGE003
个第三维度对应的排序系数,
Figure 453272DEST_PATH_IMAGE004
为字符权重值,
Figure 459274DEST_PATH_IMAGE005
为第
Figure 314970DEST_PATH_IMAGE003
个第三维度第
Figure 558870DEST_PATH_IMAGE006
个表格单元的字符数量,
Figure 827171DEST_PATH_IMAGE006
为表格单元的数量值,
Figure 523732DEST_PATH_IMAGE007
为第三维度的所有单元数量,
Figure 902892DEST_PATH_IMAGE008
为数量权重值,
Figure 532456DEST_PATH_IMAGE009
为常数值。上述公式中,
Figure 706080DEST_PATH_IMAGE010
代表平均字符数量,可以理解的是,
Figure 296461DEST_PATH_IMAGE010
越大,对应的
Figure DEST_PATH_IMAGE011
就越小,对应的重要度就降低。其中,字符权重值
Figure 69857DEST_PATH_IMAGE004
和数量权重值
Figure 22770DEST_PATH_IMAGE008
可以是人为设置的。
S324,将待融合文件中相应主体在第二维度的指标信息,填写至扩充的第三维度的表格单元内。
本方案会将excel文件B相应主体的身高信息(例如178cm)填写至扩充的第三维度的表格单元内,实现excel文件B与excel文件A的融合。
S33,依次提取待融合文件中每个主体所对应第二维度的指标信息,在所述融合信息栏目中确定与所述指标信息对应的表格单元,将所述指标信息填写至所述表格单元内得到第二数字文件。
可以理解的是,步骤S32已经建立好了对应的表格单元,本方案依次提取待融合文件中每个主体所对应第二维度的指标信息,将写至表格单元内得到第二数字文件即可。
还可以理解的是,第二数字文件是指excel文件A和excel文件B融合后的数字文件。
需要说明的是,上述实施例只是以excel文件进行详细的举例说明,针对word文件原理类似。可以理解的是,在实际应用中,为了统计人员信息,word文件中也会以表格的形式进行统计,本方案在对word文件进行融合时,也是将word文件中的表格相互融合,与上述实施例的原理类似,不再赘述。
在另一些实施例中,所述S3包括:
若判断相同文件类型的第一数字文件为不可编辑文件,则选择任意一个第一数字文件作为基准文件,将相同文件类型的其他第一数字文件作为待融合文件。可以理解的是,第一数字文件的文件类型为pdf时,那么所对应的第一数字文件,此时,本方案可以以任意一个第一数字文件作为基准文件,将相同文件类型的其他第一数字文件作为待融合文件。
在所述基准文件处建立多个空白页,将所述待融合文件填写至所述空白页处,得到第二数字文件。本方案在进行融合时,会在基准文件处建立多个空白页,将待融合文件填写至空白页处,得到第二数字文件即可。
S4,获取所有第一数字文件、第二数字文件的文件种类,基于预设的文件转换策略在所述文件种类中确定目标种类,将所有第一数字文件、第二数字文件转换为目标种类的文件类型的第三数字文件。
本方案的第一数字文件例如是pdf文件,第二数字文件例如是经过步骤S1-S3融合后的excel文件,此时,本方案需要将第一数字文件、第二数字文件进行融合,以实现最终的文件融合。首先,本方案会基于预设的文件转换策略在文件种类中确定目标种类,将所有第一数字文件、第二数字文件转换为目标种类的文件类型的第三数字文件。
在一些实施例中,所述S4包括:
S41,获取每个第一数字文件或第二数字文件中文件种类对应的预设文件等级,其中excel文件、word文件、pdf文件的预设文件等级依次增大。
例如,excel文件的预设文件等级为1,word文件的预设文件等级为2, pdf文件的预设文件等级为3。
S42,选取所得到的预设文件等级中最大的文件等级,所述文件转换策略为将最大的文件等级所对应的文件种类作为目标种类。
例如,目标种类为word文件或者pdf文件。
S43,若所述目标种类文件为可编辑文件,其中excel文件和word文件为可编辑文件,则按照可编辑转换方式将第一数字文件或第二数字文件的文件种类转换为目标种类的第三数字文件。
可以理解的是,如果目标种类文件为可编辑文件,例如需要把文件转换为word文件,本方案会按照可编辑转换方式将第一数字文件或第二数字文件的文件种类转换为目标种类的第三数字文件。
在一些实施例中,所述若所述目标种类文件为可编辑文件,其中excel文件和word文件为可编辑文件,则按照可编辑转换方式将第一数字文件或第二数字文件的文件种类转换为目标种类的第三数字文件,包括:
建立与目标种类文件对应的空白文件。
提取第一数字文件或第二数字文件内的所有字符信息,将所述字符信息填写至空白文件内,得到转换为目标种类的第三数字文件。
可以理解的是,本方案会建立与目标种类文件对应的空白文件,由于本方案的目标种类是可编辑文件,因此,提取第一数字文件或第二数字文件内的所有字符信息,将所述字符信息填写至空白文件内,得到转换为目标种类的第三数字文件。
S44,若所述目标种类文件为不可编辑文件,其中pdf文件为不可编辑文件,则按照不可编辑转换方式将第一数字文件或第二数字文件的文件种类转换为目标种类的第三数字文件。
可以理解的是,如果目标种类文件为不可编辑文件,例如需要把文件转换为pdf文件,本方案会按照不可编辑转换方式将第一数字文件或第二数字文件的文件种类转换为目标种类的第三数字文件。
在一些实施例中,S44(所述若所述目标种类文件为不可编辑文件,其中pdf文件为不可编辑文件,则按照不可编辑转换方式将第一数字文件或第二数字文件的文件种类转换为目标种类的第三数字文件)包括S441-S442:
S441,基于路径对应表,确定第一数字文件或第二数字文件的文件种类与目标种类的种类转换路径,所述种类转换路径用于调取相应的转换接口进行转换处理,所述路径对应表中具有每个文件种类与目标种类之间预设的种类转换路径。
其中,路径对应表是提前预设好的文件转换路径,例如需要将excel文件转换为pdf文件,可以对应设置一个转换路径,将word文件转换为pdf文件,可以对应设置一个转换路径。
种类转换路径用于调取服务器中相应的转换接口进行转换处理,此处只是实现文件之间格式的互相转换,为现有技术,不再赘述。
S442,对第一数字文件或第二数字文件按照所述种类转换路径进行转换,转换后,得到目标种类的第三数字文件。
示例性的,目标种类为pdf形式,第一数字文件为word,第二数字文件为excel,本方案会利用路径对应表调用word转换为pdf的转换接口,将第一数字文件转换为pdf形式的第三数字文件,然后利用路径对应表调用excel转换为pdf的转换接口,将第二数字文件转换为pdf形式的第三数字文件。
S5,对所有的第三数字文件融合得到异构融合文件,将所述异构融合文件存储至对齐存储单元。
步骤S4得到了两个第三数字文件后,需要将两个第三数字文件进行融合,得到最终的异构融合文件,将最终的融合文件存储至对齐存储单元,后续管理人员可以从对齐存储单元调取对应的文件。
在一些实施例中,所述S5包括:
将数据量值最大的第三数字文件作为融合底板文件,将其他数据量值的第三数字文件内的字符信息分别依次复制填写至融合底板文件内;提取具有相同第三维度的所有指标信息以相同的显示形式显示。
本实施方式是针对目标种类文件为可编辑文件的融合方式,例如将两个excel表格融合到一起,本方案为了降低数据处理量,会先确定数据量值最大的第三数字文件作为融合底板文件,然后将另一个第三文件融合进来,融合过程中可以他数据量值的第三数字文件内的字符信息分别依次复制填写至融合底板文件内。
此外,本方案为了便于用户观看融合后的文件,本方案会提取具有相同第三维度的所有指标信息以相同的显示形式显示。
在另一些实施例中,所述S5包括:
将数据量值最大的第三数字文件作为融合底板文件,将其他数据量值的第三数字文件以页为单位分别添加至融合底板文件内。
本实施方式是针对目标种类文件为不可编辑文件的融合方式,例如将两个pdf融合到一起,本方案为了降低数据处理量,会先确定数据量值最大的第三数字文件作为融合底板文件,然后将另一个第三文件融合进来,融合过程中将其他数据量值的第三数字文件以页为单位分别添加至融合底板文件内即可。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (12)

1.适用于数字文件柜的异构文件存档方法,其特征在于,包括:
S1,在判断数字文件柜内存储实体文件时,生成与所述实体文件对应的识别码,在云服务器中建立与所述识别码对应的云存储空间,在所述云存储空间中建立原始存储单元和对齐存储单元;
S2,基于所述识别码上传与所述实体文件对应的多个异构的第一数字文件,将多个异构的第一数字文件分别存储至原始存储单元;
S3,若判断多个异构的第一数字文件之中存在相同文件类型的第一数字文件,则对相同文件类型的第一数字文件进行文件对齐处理,使得相同文件类型的数字文件融合为一个第二数字文件;
S4,获取所有第一数字文件、第二数字文件的文件种类,基于预设的文件转换策略在所述文件种类中确定目标种类,将所有第一数字文件、第二数字文件转换为目标种类的文件类型的第三数字文件;
S5,对所有的第三数字文件融合得到异构融合文件,将所述异构融合文件存储至对齐存储单元。
2.根据权利要求1所述的适用于数字文件柜的异构文件存档方法,其特征在于,
所述S1包括:
数字文件柜在接收到存档指令后向云服务器发送存档请求,云服务器基于所述存档请求生成相对应的识别码并发送至数字文件柜;
云服务器建立与所述识别码对应的云存储空间,所述云存储空间中建立原始存储单元和对齐存储单元;
生成与所述原始存储单元对应的原始文件调取链接,以及与对齐存储单元对应的对齐文件调取链接,将所述原始文件调取链接、对齐文件调取链接分别发送至管理终端。
3.根据权利要求1所述的适用于数字文件柜的异构文件存档方法,其特征在于,
所述S3包括:
若判断相同文件类型的第一数字文件为可编辑文件,则选择任意一个第一数字文件作为模板文件,将相同文件类型的其他第一数字文件作为待融合文件;
提取所述待融合文件中的主体信息,在所述模板文件中建立与所述主体信息相对应的融合信息栏目,每个主体对应至少一个融合信息栏目,所述融合信息栏目包括至少一个表格单元,每个表格单元对应一个第一维度和第二维度的并集;
依次提取待融合文件中每个主体所对应第二维度的指标信息,在所述融合信息栏目中确定与所述指标信息对应的表格单元,将所述指标信息填写至所述表格单元内得到第二数字文件。
4.根据权利要求3所述的适用于数字文件柜的异构文件存档方法,其特征在于,
所述依次提取待融合文件中每个主体所对应维度的指标信息,在所述融合信息栏目中确定与所述指标信息对应的表格单元,将所述指标信息填写至所述表格单元内,包括:
确定待融合文件中与主体信息对应的融合信息栏目,依次遍历待融合文件中所有主体的第二维度,及每个第二维度对应的指标信息;
若判断相同主体在融合信息栏目中的第一维度与待融合文件的第二维度相同,则将第二维度的指标信息填写至相应第一维度的表格单元内;
若判断相同主体在融合信息栏目中的第一维度与待融合文件的第二维度不同,则对所述融合信息栏目进行扩充处理得到扩充的表格单元,对扩充的表格单元附加与所述第二维度对应的第三维度;
将待融合文件中相应主体在第二维度的指标信息,填写至扩充的第三维度的表格单元内。
5.根据权利要求4所述的适用于数字文件柜的异构文件存档方法,其特征在于,
所述若判断相同主体在融合信息栏目中的第一维度与待融合文件的第二维度不同,则对所述融合信息栏目进行扩充处理得到扩充的表格单元,对扩充的表格单元附加与所述第二维度对应的第三维度,包括:
若判断扩充的表格单元为多个,则根据多个扩充的表格单元生成相对应的扩充信息栏目;
获取每个第三维度所对应的表格单元的单元数量、每个表格单元的字符数量,根据所述单元数量、字符数量生成每个第三维度的表格单元所对应的排序系数;
根据排序系数的降序排序结果得到所有第三维度的表格单元,在扩充信息栏目的排序位置。
6.根据权利要求5所述的适用于数字文件柜的异构文件存档方法,其特征在于,
所述获取每个第三维度所对应的表格单元的单元数量、每个表格单元的字符数量,根据所述单元数量、字符数量生成每个第三维度的表格单元所对应的排序系数,包括:
根据单元数量、每个表格单元的字符数量得到每个第三维度所有表格单元的平均字符数量;
根据每个第三维度所对应表格单元的平均字符数量、单元数量进行计算得到排序系数,通过以下公式计算排序系数,
Figure DEST_PATH_IMAGE001
其中,
Figure 231727DEST_PATH_IMAGE002
为第
Figure 339361DEST_PATH_IMAGE003
个第三维度对应的排序系数,
Figure 937832DEST_PATH_IMAGE004
为字符权重值,
Figure 63789DEST_PATH_IMAGE005
为第
Figure 948568DEST_PATH_IMAGE003
个第三维度第
Figure 294230DEST_PATH_IMAGE006
个表格单元的字符数量,
Figure DEST_PATH_IMAGE007
为表格单元的数量值,
Figure 132611DEST_PATH_IMAGE008
为第三维度的所有单元数量,
Figure 863806DEST_PATH_IMAGE009
为数量权重值,
Figure 935799DEST_PATH_IMAGE010
为常数值。
7.根据权利要求1所述的适用于数字文件柜的异构文件存档方法,其特征在于,
所述S3包括:
若判断相同文件类型的第一数字文件为不可编辑文件,则选择任意一个第一数字文件作为基准文件,将相同文件类型的其他第一数字文件作为待融合文件;
在所述基准文件处建立多个空白页,将所述待融合文件填写至所述空白页处,得到第二数字文件。
8.根据权利要求6或7中任意一项所述的适用于数字文件柜的异构文件存档方法,其特征在于,
所述S4包括:
获取每个第一数字文件或第二数字文件中文件种类对应的预设文件等级,其中excel文件、word文件、pdf文件的预设文件等级依次增大;
选取所得到的预设文件等级中最大的文件等级,所述文件转换策略为将最大的文件等级所对应的文件种类作为目标种类;
若所述目标种类文件为可编辑文件,其中excel文件和word文件为可编辑文件,则按照可编辑转换方式将第一数字文件或第二数字文件的文件种类转换为目标种类的第三数字文件;
若所述目标种类文件为不可编辑文件,其中pdf文件为不可编辑文件,则按照不可编辑转换方式将第一数字文件或第二数字文件的文件种类转换为目标种类的第三数字文件。
9.根据权利要求8所述的适用于数字文件柜的异构文件存档方法,其特征在于,
所述若所述目标种类文件为可编辑文件,其中excel文件和word文件为可编辑文件,则按照可编辑转换方式将第一数字文件或第二数字文件的文件种类转换为目标种类的第三数字文件,包括:
建立与所述目标种类文件对应的空白文件;
提取第一数字文件或第二数字文件内的所有字符信息,将所述字符信息填写至空白文件内,得到转换为目标种类的第三数字文件。
10.根据权利要求8所述的适用于数字文件柜的异构文件存档方法,其特征在于,
所述若所述目标种类文件为不可编辑文件,其中pdf文件为不可编辑文件,则按照不可编辑转换方式将第一数字文件或第二数字文件的文件种类转换为目标种类的第三数字文件,包括:
基于路径对应表,确定第一数字文件或第二数字文件的文件种类与目标种类的种类转换路径,所述种类转换路径用于调取相应的转换接口进行转换处理,所述路径对应表中具有每个文件种类与目标种类之间预设的种类转换路径;
对第一数字文件或第二数字文件按照所述种类转换路径进行转换,转换后,得到目标种类的第三数字文件。
11.根据权利要求9所述的适用于数字文件柜的异构文件存档方法,其特征在于,
所述S5包括:
将数据量值最大的第三数字文件作为融合底板文件,将其他数据量值的第三数字文件内的字符信息分别依次复制填写至融合底板文件内;
提取具有相同第三维度的所有指标信息以相同的显示形式显示。
12.根据权利要求10所述的适用于数字文件柜的异构文件存档方法,其特征在于,
所述S5包括:
将数据量值最大的第三数字文件作为融合底板文件,将其他数据量值的第三数字文件以页为单位分别添加至融合底板文件内。
CN202210790361.5A 2022-07-06 2022-07-06 适用于数字文件柜的异构文件存档方法 Active CN114880295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210790361.5A CN114880295B (zh) 2022-07-06 2022-07-06 适用于数字文件柜的异构文件存档方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210790361.5A CN114880295B (zh) 2022-07-06 2022-07-06 适用于数字文件柜的异构文件存档方法

Publications (2)

Publication Number Publication Date
CN114880295A CN114880295A (zh) 2022-08-09
CN114880295B true CN114880295B (zh) 2022-09-23

Family

ID=82683352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210790361.5A Active CN114880295B (zh) 2022-07-06 2022-07-06 适用于数字文件柜的异构文件存档方法

Country Status (1)

Country Link
CN (1) CN114880295B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115145991B (zh) * 2022-08-31 2022-11-15 南京三百云信息科技有限公司 适用于异构数据的数据处理方法及系统
CN115329915B (zh) * 2022-10-13 2023-01-03 江苏谷德运维信息技术有限公司 适用于智慧园区设备的数据处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN205106891U (zh) * 2015-11-16 2016-03-30 王兴玥 一种智能云存储书架
CN112596851A (zh) * 2020-12-02 2021-04-02 中国人民解放军63921部队 仿真平台的多源异构数据批量抽取方法和分析方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003292520A1 (en) * 2003-11-10 2005-05-26 Valerio Abate Apparatus and process for distributed autonomous managing of documents and electronic means
US20070299828A1 (en) * 2006-06-05 2007-12-27 Digital Mountain, Inc. Method and Apparatus for Processing Heterogeneous Data
US7979434B2 (en) * 2008-06-02 2011-07-12 LMR Inventions System and method for storing and retrieving digital content with physical file systems
CN112100634A (zh) * 2020-09-17 2020-12-18 广州皓品科技有限公司 一种数据信息安全保护方法
CN114218595A (zh) * 2021-12-21 2022-03-22 田明太 一种云计算平台中文件保护方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN205106891U (zh) * 2015-11-16 2016-03-30 王兴玥 一种智能云存储书架
CN112596851A (zh) * 2020-12-02 2021-04-02 中国人民解放军63921部队 仿真平台的多源异构数据批量抽取方法和分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
移动地理信息系统中的多源异构数据融合模型;李文闯等;《计算机应用》;20120901;第32卷(第09期);2672-2674,2678 *

Also Published As

Publication number Publication date
CN114880295A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN114880295B (zh) 适用于数字文件柜的异构文件存档方法
US20090313194A1 (en) Methods and apparatus for automated image classification
CN110990390B (zh) 数据协同处理方法、装置、计算机设备和存储介质
US20050015716A1 (en) Financial document change identifier
US20100287187A1 (en) Method for query based on layout information
CN113868235A (zh) 一种基于大数据的信息检索分析系统
CN113723270A (zh) 基于rpa及ai的文件处理方法及装置
CN111899821A (zh) 处理医疗机构数据的方法、构建数据库的方法和装置
CN112948391A (zh) 一种绩效考核方法、系统、终端及可读存储介质
CN114969449A (zh) 基于构建结构树的元数据管理方法及系统
CN115438638A (zh) 一种树形数据分页输出表格文档的方法与系统
CN116226172A (zh) 统计分析文件解析方法、装置及存储介质
US7089261B2 (en) Programmable use of data extracted from common presentation files
CN114023414A (zh) 一种体检报告多层次结构录入方法、系统以及存储介质
CN112950086A (zh) 民航企事业单位绩效考核指标体系的动态构建方法及系统
CN116451683B (zh) 一种文档合并方法、终端及计算机可读存储介质
CN112069230B (zh) 数据分析方法、装置、设备及存储介质
CN107203525B (zh) 数据库的处理方法和装置
CN114742026A (zh) 一种基于模板技术生成富文本形式的pdf方法
CN113128188A (zh) 一种银行工资表生成方法、装置和介质
CN112800246A (zh) 一种政策谱系构建方法、装置和电子设备
CN111858582A (zh) 复合信息的配置方法及装置
CN108549728B (zh) 一种页面展示方法及系统及大数据平台
CN117112499B (zh) 一种数据目录分级的方法、介质及设备
CN112270350B (zh) 组织机构的画像方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant