CN106611024B - 文件合并方法和装置 - Google Patents

文件合并方法和装置 Download PDF

Info

Publication number
CN106611024B
CN106611024B CN201510708767.4A CN201510708767A CN106611024B CN 106611024 B CN106611024 B CN 106611024B CN 201510708767 A CN201510708767 A CN 201510708767A CN 106611024 B CN106611024 B CN 106611024B
Authority
CN
China
Prior art keywords
source files
file
column
files
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510708767.4A
Other languages
English (en)
Other versions
CN106611024A (zh
Inventor
王江伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510708767.4A priority Critical patent/CN106611024B/zh
Publication of CN106611024A publication Critical patent/CN106611024A/zh
Application granted granted Critical
Publication of CN106611024B publication Critical patent/CN106611024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文件合并方法和装置。其中,该方法包括:读取记录有待合并的多个源文件的元数据的配置文件,其中,源文件为记录有报表数据的文件;根据元数据记录的源文件的路径信息,读取多个源文件;识别多个源文件中的报表数据的关键列,其中,关键列为多个源文件中不同源文件记录相同内容的数据列;以及利用关键列将多个源文件关联,并进行合并。本申请解决了现有技术中记录报表数据的文件合并处理效率低的技术问题。

Description

文件合并方法和装置
技术领域
本申请涉及数据处理领域,具体而言,涉及一种文件合并方法和装置。
背景技术
数据分析所需的记录报表数据的文件往往来自系统的不同部分或者不同的系统。这些文件记录了同一业务的不同指标,是相互关联的,工作人员需要将这些数据文件进行整合计算,生成最终的报表文件,供数据分析使用。
然而,现有文件合并的方式主要是通过人工识别不同渠道源文件的数据格式信息,对这些文件进行手动合并,这种处理方式效率比较低,无法满足大量文件的合并处理。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种文件合并方法和装置,以至少解决现有技术中记录报表数据的文件合并处理效率低的技术问题。
根据本申请实施例的一个方面,提供了一种文件合并方法,包括:读取记录有待合并的多个源文件的元数据的配置文件,其中,所述源文件为记录有报表数据的文件;根据所述元数据记录的源文件的路径信息,读取多个所述源文件;识别多个所述源文件中的报表数据的关键列,其中,所述关键列为多个所述源文件中不同源文件记录相同内容的数据列;以及利用所述关键列将多个所述源文件关联,并进行合并。
进一步地,从所述元数据记录的源文件的路径读取多个所述源文件包括:从所述元数据记录的源文件的路径加载多个所述源文件;将多个所述源文件中的报表数据的空白行过滤,得到过滤后的多个所述源文件。
进一步地,识别多个所述源文件中的报表数据的关键列包括:判断多个所述源文件的报表数据中是否存在标签列;在判断出存在所述标签列时,将所述标签列作为所述关键列。
进一步地,利用所述关键列将多个所述源文件关联,并进行合并包括:从所述元数据记录的标签文件的路径读取所述标签文件,其中,所述标签文件用于记录所述标签列里每项标签所对应的信息;利用所述标签文件将所述多个所述源文件关联,将关联后的多个所述源文件合并。
进一步地,在判断出不存在所述标签列时,所述方法还包括:将所述多个所述源文件中的报表数据的数据列进行匹配;确定出多个所述源文件中不同源文件记录相同内容的数据列,作为所述关键列。
根据本申请实施例的另一方面,还提供了一种文件合并装置,包括:第一读取单元,用于读取记录有待合并的多个源文件的元数据的配置文件,其中,所述源文件为记录有报表数据的文件;第二读取单元,用于根据所述元数据记录的源文件的路径信息,读取多个所述源文件;识别单元,用于识别多个所述源文件中的报表数据的关键列,其中,所述关键列为多个所述源文件中不同源文件记录相同内容的数据列;以及合并单元,用于利用所述关键列将多个所述源文件关联,并进行合并。
进一步地,所述第二读取单元包括:加载模块,用于从所述元数据记录的源文件的路径加载多个所述源文件;过滤模块,用于将多个所述源文件中的报表数据的空白行过滤,得到过滤后的多个所述源文件。
进一步地,所述识别单元包括:判断模块,用于判断多个所述源文件的报表数据中是否存在标签列;第一确定模块,用于在判断出存在所述标签列时,将所述标签列作为所述关键列。
进一步地,所述合并单元包括:读取模块,用于从所述元数据记录的标签文件的路径读取所述标签文件,其中,所述标签文件用于记录所述标签列里每项标签所对应的信息;合并模块,用于利用所述标签文件将所述多个所述源文件关联,将关联后的多个所述源文件合并。
进一步地,所述装置还包括:匹配单元,用于在判断出不存在所述标签列时,将所述多个所述源文件中的报表数据的数据列进行匹配;第二确定模块,用于确定出多个所述源文件中不同源文件记录相同内容的数据列,作为所述关键列。
根据本申请实施例,通过读取记录有待合并的多个源文件的元数据的配置文件,其中,源文件为记录有报表数据的文件,从元数据记录的源文件的路径读取多个源文件,识别多个源文件中的报表数据的关键列,利用关键列将多个源文件关联,并进行合并。基于源文件的元数据读取源文件,并从中识别出关键列,从而将记录有描述同一业务的不同指标数据的源文件合并成一个文件,相对于现有技术中手动合并文件的方式而言,文件合并的效率大大提高,解决了现有技术中记录报表数据的文件合并处理效率低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本发明实施例的文件合并方法的流程图;
图2是根据本发明实施例的文件合并装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种文件合并方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的文件合并方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,读取记录有待合并的多个源文件的元数据的配置文件,其中,源文件为记录有报表数据的文件。
步骤S104,根据所述元数据记录的源文件的路径信息,读取多个所述源文件。
其中,路径信息可以包含源文件的文件名、文件存储位置、文件记录时间等。
步骤S106,识别多个源文件中的报表数据的关键列,其中,关键列为多个源文件中不同源文件记录相同内容的数据列。
步骤S108,利用关键列将多个源文件关联,并进行合并。
源文件的元数据记录有该源文件的编码格式、存储路径等数据,如表1所示:
表1
元数据 说明
Encoding 源文件的编码格式
HasHeader 是否包含列标题
StartLine 起始行索引
Column 需要抽取的列
ColumnHeader 列标题
KeyColumn 主键列(匹配文件需要的列)
MatchMode 匹配模式
FolderPath 源文件所在目录
TagFilePath Tag文件的路径
将待合并的多个源文件的元数据记录的配置文件中,由于源文件的元数据为文件合并过程中所需的数据,在进行文件合并之前,先读取配置文件以读取配置文件中的元数据。
在读取配置文件之后,从元数据中记录的源文件的路径读取相应的源文件,可以将读取的源文件缓存到本地内存中。配置文件中配置有待合并的源文件所对应的元数据,从每一个源文件对应的元数据记录里的路劲中读取相应的源文件,从而可以读取到待合并的源文件。
在读取到源文件之后,识别多个源文件中的报表数据的关键列,关键列为多个源文件中不同源文件记录相同内容的数据列,例如,源文件A和源文件B中均记载了“城市”这一维度的指标数据,则将“城市”这一列作为关键列。
在识别出关键列之后,利用该关键列将多个源文件相关联,并合并成一个文件输出。
根据本申请实施例,通过读取记录有待合并的多个源文件的元数据的配置文件,其中,源文件为记录有报表数据的文件,从元数据记录的源文件的路径读取多个源文件,识别多个源文件中的报表数据的关键列,利用关键列将多个源文件关联,并进行合并。基于源文件的元数据读取源文件,并从中识别出关键列,从而将记录有描述同一业务的不同指标数据的源文件合并成一个文件,相对于现有技术中手动合并文件的方式而言,文件合并的效率大大提高,解决了现有技术中记录报表数据的文件合并处理效率低的技术问题。
本申请实施例中,源文件优选csv文件,或者是可以转换为csv文件的其他文件,例如Excel文件等。在进行源文件合并时,将源文件统一转化为csv文件,由于csv文件是以纯文本格式存储的表格数据,能够提高数据读取的效率,从而提高文件合并的效率。
优选地,源文件的元数据中主要记载了以下内容:文件的格式如编码格式;文件中的数据正文(所谓数据正文是指报表实际需要的数据。在源文件中往往会包含与生成报表无关的数据行):起始行;需要读取的数据列;标签(Tag)文件:某些源文件包含一个标识(ID)列,在Tag文件记录了该ID对应的具体信息,如表2和表3所示,其中,表2为源文件,表3为Tag文件:
表2
TagID 指标
1 100
2 90
表3
TagID 省份 城市
1 河北 石家庄
2 河南 郑州
关于本申请实施例中的源文件的关键列举例如下,其中,表4为源文件A,表5为源文件B:
表4
省份 城市 指标1
河北 石家庄 100
河南 郑州 90
表5
省份 城市 指标2
河北 石家庄 100
河南 郑州 90
这种情况,由于源文件A和B中都包含了匹配需要的关键列如“省份”和“城市”,那么根据这些关键列就可以将源文件A和B关联起来,并合并成一个文件。
优选地,从元数据记录的源文件的路径读取多个源文件包括:从元数据记录的源文件的路径加载多个源文件;将多个源文件中的报表数据的空白行过滤,得到过滤后的多个源文件。
在读取源文件之后,如果源文件中存在无用行即空白行,在将该空白行过滤,避免空白行影响文件的合并。
优选地,识别多个源文件中的报表数据的关键列包括:判断多个源文件的报表数据中是否存在标签列;在判断出存在标签列时,将标签列作为关键列。
本申请实施例中,当源文件中存在标签列时,当不同源文件的标签列上的相同标识表示的信息相同时,可以将给标签列作为上述关键列。例如在上述源文件A和源文件B中,将其中“省份”和“城市”以标签列替换时,且源文件A中的标签列的标识与源文件B中的标签列的标识相同时,其表示的信息也相同,则可以该标签列为关键列。
进一步地,利用关键列将多个源文件关联,将多个源文件合并包括:从元数据记录的标签文件的路径读取标签文件,其中,标签文件用于记录标签列里每项标签所对应的信息;利用标签文件将多个源文件关联,将关联后的多个源文件合并。
以上述中源文件A和B为例进行说明。假如,源文件A变为表6,源文件B变为表7:
表6
TagID 指标1
1 100
2 90
表7
TagID 指标2
1 100
2 90
此时,需要读取Tag文件,如表8所示:
表8
TagID 省份 城市
1 河北 石家庄
2 河南 郑州
这样,可以通过中间文件Tag文件将源文件A和B关联,并合并成一个文件,如表9所示:
表9
省份 城市 指标1 指标2
河北 石家庄 100 100
河南 郑州 90 90
本申请实施例中,如果上述源文件A不变(即表4),源文件B为表7时,也可以读取Tag文件表9,利用该Tag文件将源文件A和B合并成一个文件表9。
优选地,在判断出不存在标签列时,方法还包括:将多个源文件中的报表数据的数据列进行匹配;确定出多个源文件中不同源文件记录相同内容的数据列,作为关键列。
如果不存在标签列时,则将不同的源文件中记录的数据列进行匹配,在匹配到相同的数据列时,将该数据列作为关键列,用以进行源文件的关联与合并。
根据本申请实施例,通过利用元数据,可以自动化地合并不同来源的数据文件,为进一步整合报表提供经过合并的文件,提高了效率。
本发明实施例还提供了一种文件合并装置,该装置可以用于执行本发明实施例的文件合并方法,如图2所示,该装置包括:第一读取单元10、第二读取单元20、识别单元30和合并单元40。
第一读取单元10用于读取记录有待合并的多个源文件的元数据的配置文件,其中,源文件为记录有报表数据的文件;
第二读取单元20用于根据所述元数据记录的源文件的路径信息,读取多个所述源文件。
识别单元30用于识别多个源文件中的报表数据的关键列,其中,关键列为多个源文件中不同源文件记录相同内容的数据列;以及
合并单元40用于利用关键列将多个源文件关联,并进行合并。
源文件的元数据记录有该源文件的编码格式、存储路径等数据,如表1所示。
将待合并的多个源文件的元数据记录的配置文件中,由于源文件的元数据为文件合并过程中所需的数据,在进行文件合并之前,先读取配置文件以读取配置文件中的元数据。
在读取配置文件之后,从元数据中记录的源文件的路径读取相应的源文件,可以将读取的源文件缓存到本地内存中。配置文件中配置有待合并的源文件所对应的元数据,从每一个源文件对应的元数据记录里的路劲中读取相应的源文件,从而可以读取到待合并的源文件。
在读取到源文件之后,识别多个源文件中的报表数据的关键列,关键列为多个源文件中不同源文件记录相同内容的数据列,例如,源文件A和源文件B中均记载了“城市”这一维度的指标数据,则将“城市”这一列作为关键列。
在识别出关键列之后,利用该关键列将多个源文件相关联,并合并成一个文件输出。
根据本申请实施例,通过读取记录有待合并的多个源文件的元数据的配置文件,其中,源文件为记录有报表数据的文件,从元数据记录的源文件的路径读取多个源文件,识别多个源文件中的报表数据的关键列,利用关键列将多个源文件关联,并进行合并。基于源文件的元数据读取源文件,并从中识别出关键列,从而将记录有描述同一业务的不同指标数据的源文件合并成一个文件,相对于现有技术中手动合并文件的方式而言,文件合并的效率大大提高,解决了现有技术中记录报表数据的文件合并处理效率低的技术问题。
本申请实施例中,源文件优选csv文件,或者是可以转换为csv文件的其他文件,例如Excel文件等。在进行源文件合并时,将源文件统一转化为csv文件,由于csv文件是以纯文本格式存储的表格数据,能够提高数据读取的效率,从而提高文件合并的效率。
优选地,源文件的元数据中主要记载了以下内容:文件的格式如编码格式;文件中的数据正文(所谓数据正文是指报表实际需要的数据。在源文件中往往会包含与生成报表无关的数据行):起始行;需要读取的数据列;标签(Tag)文件:某些源文件包含一个标识(ID)列,在Tag文件记录了该ID对应的具体信息。
优选地,第二读取单元包括:加载模块,用于从元数据记录的源文件的路径加载多个源文件;过滤模块,用于将多个源文件中的报表数据的空白行过滤,得到过滤后的多个源文件。
在读取源文件之后,如果源文件中存在无用行即空白行,在将该空白行过滤,避免空白行影响文件的合并。
优选地,识别单元包括:判断模块,用于判断多个源文件的报表数据中是否存在标签列;第一确定模块,用于在判断出存在标签列时,将标签列作为关键列。
本申请实施例中,当源文件中存在标签列时,当不同源文件的标签列上的相同标识表示的信息相同时,可以将给标签列作为上述关键列。例如在上述源文件A和源文件B中,将其中“省份”和“城市”以标签列替换时,且源文件A中的标签列的标识与源文件B中的标签列的标识相同时,其表示的信息也相同,则可以该标签列为关键列。
优选地,合并单元包括:读取模块,用于从元数据记录的标签文件的路径读取标签文件,其中,标签文件用于记录标签列里每项标签所对应的信息;合并模块,用于利用标签文件将多个源文件关联,将关联后的多个源文件合并。
以上述中源文件A和B为例进行说明。假如,源文件A变为表6,源文件B变为表7,此时,需要读取Tag文件,这样,可以通过中间文件Tag文件将源文件A和B关联,并合并成一个文件,如表9所示。本申请实施例中,当如果上述源文件A不变(即表4),源文件B为表7时,也可以读取Tag文件表9,利用该Tag文件将源文件A和B合并成一个文件表9。
优选地,装置还包括:匹配单元,用于在判断出不存在标签列时,将多个源文件中的报表数据的数据列进行匹配;第二确定模块,用于确定出多个源文件中不同源文件记录相同内容的数据列,作为关键列。
如果不存在标签列时,则将不同的源文件中记录的数据列进行匹配,在匹配到相同的数据列时,将该数据列作为关键列,用以进行源文件的关联与合并。
根据本申请实施例,通过利用元数据,可以自动化地合并不同来源的数据文件,为进一步整合报表提供经过合并的文件,提高了效率。
所述文件合并装置包括处理器和存储器,上述第一读取单元10、第二读取单元20、识别单元30和合并单元40等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来对源文件进行合并。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:读取记录有待合并的多个源文件的元数据的配置文件,其中,源文件为记录有报表数据的文件;从元数据记录的源文件的路径读取多个源文件;识别多个源文件中的报表数据的关键列,其中,关键列为多个源文件中不同源文件记录相同内容的数据列;以及利用关键列将多个源文件关联,并进行合并。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (6)

1.一种文件合并方法,其特征在于,包括:
读取待合并的多个源文件的元数据的配置文件,其中,所述源文件为记录有报表数据的文件;
根据所述元数据记录的源文件的路径信息,读取多个所述源文件;
识别多个所述源文件中的报表数据的关键列,其中,所述关键列为多个所述源文件中不同源文件记录相同内容的数据列;以及
利用所述关键列将多个所述源文件关联,并进行合并;
其中,识别多个所述源文件中的报表数据的关键列包括:判断多个所述源文件的报表数据中是否存在标签列;在判断出存在所述标签列,且当所述不同源文件的所述标签列上的相同标识所表示的信息相同时,将所述标签列作为所述关键列;
其中,利用所述关键列将多个所述源文件关联,进行合并包括:从所述元数据记录的标签文件的路径读取所述标签文件,其中,所述标签文件用于记录所述标签列里每项标签所对应的信息;利用所述标签文件将所述多个所述源文件关联,将关联后的多个所述源文件合并,其中,将多个所述源文件统一转化为以纯文本格式存储的表格数据,以进行合并。
2.根据权利要求1所述的方法,其特征在于,根据所述元数据记录的源文件的路径信息,读取多个所述源文件包括:
根据所述元数据记录的源文件的路径信息,加载多个所述源文件;
将多个所述源文件中的报表数据的空白行过滤,得到过滤后的多个所述源文件。
3.根据权利要求1所述的方法,其特征在于,在判断出不存在所述标签列时,所述方法还包括:
将所述多个所述源文件中的报表数据的数据列进行匹配;
确定出多个所述源文件中不同源文件记录相同内容的数据列,作为所述关键列。
4.一种文件合并装置,其特征在于,包括:
第一读取单元,用于读取记录有待合并的多个源文件的元数据的配置文件,其中,所述源文件为记录有报表数据的文件;
第二读取单元,用于根据所述元数据记录的源文件的路径信息,读取多个所述源文件;
识别单元,用于识别多个所述源文件中的报表数据的关键列,其中,所述关键列为多个所述源文件中不同源文件记录相同内容的数据列;以及
合并单元,用于利用所述关键列将多个所述源文件关联,并进行合并;
其中,所述识别单元包括:判断模块,用于判断多个所述源文件的报表数据中是否存在标签列;第一确定模块,用于在判断出存在所述标签列,且当所述不同源文件的所述标签列上的相同标识所表示的信息相同时,将所述标签列作为所述关键列;
其中,所述合并单元包括:读取模块,用于从所述元数据记录的标签文件的路径读取所述标签文件,其中,所述标签文件用于记录所述标签列里每项标签所对应的信息;合并模块,用于利用所述标签文件将所述多个所述源文件关联,将关联后的多个所述源文件合并,其中,将多个所述源文件统一转化为以纯文本格式存储的表格数据,以进行合并。
5.根据权利要求4所述的装置,其特征在于,所述第二读取单元包括:
加载模块,用于根据所述元数据记录的源文件的路径信息,加载多个所述源文件;
过滤模块,用于将多个所述源文件中的报表数据的空白行过滤,得到过滤后的多个所述源文件。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:
匹配单元,用于在判断出不存在所述标签列时,将所述多个所述源文件中的报表数据的数据列进行匹配;
第二确定模块,用于确定出多个所述源文件中不同源文件记录相同内容的数据列,作为所述关键列。
CN201510708767.4A 2015-10-27 2015-10-27 文件合并方法和装置 Active CN106611024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510708767.4A CN106611024B (zh) 2015-10-27 2015-10-27 文件合并方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510708767.4A CN106611024B (zh) 2015-10-27 2015-10-27 文件合并方法和装置

Publications (2)

Publication Number Publication Date
CN106611024A CN106611024A (zh) 2017-05-03
CN106611024B true CN106611024B (zh) 2020-08-11

Family

ID=58614241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510708767.4A Active CN106611024B (zh) 2015-10-27 2015-10-27 文件合并方法和装置

Country Status (1)

Country Link
CN (1) CN106611024B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766314B (zh) * 2017-10-20 2021-07-09 网易(杭州)网络有限公司 电子表格的数据处理方法和装置
CN108345673A (zh) * 2018-02-09 2018-07-31 弘成科技发展有限公司 在线成人教育高等院校定制化报表导出方法
CN110598194B (zh) * 2019-08-09 2024-05-07 平安科技(深圳)有限公司 一种非满格表格内容提取方法、装置及终端设备
CN112783828B (zh) * 2019-11-11 2022-08-19 千寻位置网络有限公司 Igs文件处理方法及装置
CN111984598A (zh) * 2020-08-20 2020-11-24 重庆紫光华山智安科技有限公司 一种高性能元数据日志文件管理方法、系统、介质及终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1622094A (zh) * 2004-12-24 2005-06-01 北京中星微电子有限公司 一种合并文件的方法
CN101799807A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 一种异构数据表的合并方法及其系统
CN103744628A (zh) * 2014-01-27 2014-04-23 北京奇虎科技有限公司 SSTable文件存储方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508850A (zh) * 2011-09-29 2012-06-20 用友软件股份有限公司 表单数据处理装置和表单数据处理方法
CN103795644B (zh) * 2014-01-27 2017-04-05 福建星网锐捷网络有限公司 策略表表项配置方法、装置及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1622094A (zh) * 2004-12-24 2005-06-01 北京中星微电子有限公司 一种合并文件的方法
CN101799807A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 一种异构数据表的合并方法及其系统
CN103744628A (zh) * 2014-01-27 2014-04-23 北京奇虎科技有限公司 SSTable文件存储方法及装置

Also Published As

Publication number Publication date
CN106611024A (zh) 2017-05-03

Similar Documents

Publication Publication Date Title
CN106611024B (zh) 文件合并方法和装置
CN107688591B (zh) 一种精算处理方法和装置
CN107992492B (zh) 一种数据区块的存储方法、读取方法、其装置及区块链
CN106921614B (zh) 业务数据处理方法和装置
CN104731816A (zh) 一种处理异常业务数据的方法和装置
CN102782642A (zh) 用于将职业关系数据与商用数据内容聚合和关联的系统和方法
CN110879687B (zh) 一种基于磁盘存储的数据读取方法、装置及设备
CN107391532B (zh) 数据过滤的方法和装置
CN103714086A (zh) 用于生成非关系数据库的模式的方法和设备
CN106933919B (zh) 数据表的连接方法及装置
CN105183949A (zh) 一种铁路主数据的清洗方法及系统
CN114138869A (zh) 一种企业信用数据处理方法及装置
CN102870372B (zh) 处理计费数据的方法及设备
CN112307297A (zh) 一种基于优先级规则的用户标识统一方法及系统
CN107784022B (zh) 检测法律文书是否重复的方法及装置
CN106803202B (zh) 一种待测试交易记录的提取方法和装置
CN105868220B (zh) 数据处理方法和装置
CN110059081A (zh) 基于数据展示的数据输出方法、装置及计算机设备
CN104615948A (zh) 一种自动识别文件完整性与恢复的方法
CN107784478B (zh) 行政机构信息的处理方法和装置
CN110196793B (zh) 针对插件数据库的日志分析方法及设备
CN111400269B (zh) 一种ipfs文件处理方法、节点、介质和设备
CN106775854B (zh) 一种生成配置文件的方法和装置
CN110020348B (zh) 圈选事件的预警方法及装置
CN111611056A (zh) 数据处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant