CN103605747B - 文件表单的处理方法和装置 - Google Patents

文件表单的处理方法和装置 Download PDF

Info

Publication number
CN103605747B
CN103605747B CN201310590566.XA CN201310590566A CN103605747B CN 103605747 B CN103605747 B CN 103605747B CN 201310590566 A CN201310590566 A CN 201310590566A CN 103605747 B CN103605747 B CN 103605747B
Authority
CN
China
Prior art keywords
report
data
configuration
original
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310590566.XA
Other languages
English (en)
Other versions
CN103605747A (zh
Inventor
陈改静
黄勇坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201310590566.XA priority Critical patent/CN103605747B/zh
Publication of CN103605747A publication Critical patent/CN103605747A/zh
Application granted granted Critical
Publication of CN103605747B publication Critical patent/CN103605747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文件表单的处理方法和装置。其中,该方法包括:获取步骤:获取配置信息构成的配置表单和对应的原始表单;提取步骤:根据配置表单对原始表单中的数据列进行提取处理,获取原始表单中的指定数据列,配置表单包括多个配置列,每个配置列包括:数据提取规则;处理步骤:根据数据提取规则处理配置表单中对应的原始表单的指定数据列,得到原始表单的报表;循环步骤:循环执行上述获取步骤、提取步骤和处理步骤,获取系统中所有原始表单的报表。通过本发明,能够实现处理多种格式的报表数据,方便大数据量处理,减少了数据重复处理的工作量,并提高效率,减少失误。

Description

文件表单的处理方法和装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种文件表单的处理方法和装置。
背景技术
目前针对文本文件的数据处理过程中,存在大量的数据需要处理或者相同的操作需要反复进行,一般情况下,会采用手工方式进行处理。例如,Excel作为常用的办公软件,经常被用来进行各种数据处理、统计、计算分析等。目前用户使用Excel处理数据,整合报表数据,使用Excel函数进行数据计算和统计,当大量的数据需要处理或者相同的操作需要反复进行时,一般是手工处理,手工操作十分耗时且繁琐,而且还容易出错;也会有一些使用程序帮助处理数据,一般也是针对某些固定的格式生成固定的报表,需求发生变化后就不能用了。
根据上述背景和对已有解决方案的分析,可以看到现有技术有如下缺点:手工操作耗时、繁琐、容易出错;现有程序针对某些具体需求,局限性较大。
目前针对相关技术的对文本文件中的表单进行处理的过程中,业务繁琐复杂、耗时长且无法满足用户的多样化需求的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术的对文本文件中的表单进行处理的过程中,业务繁琐复杂、耗时长且无法满足用户的多样化需求的问题,目前尚未提出有效的解决方案,为此,本发明的主要目的在于提供一种文件表单的处理方法和装置,以解决上述问题。
为了实现上述目的,根据本发明的一个方面,提供了一种文件表单的处理方法,该方法包括:获取步骤:配置信息构成的配置表单和对应的原始表单;提取步骤:配置表单对原始表单中的数据列进行提取处理,获取原始表单中的指定数据列,配置表单包括多个配置列,每个配置列包括:数据提取规则;处理步骤:根据数据提取规则处理配置表单中对应的原始表单的指定数据列,得到原始表单的报表;循环步骤:循环执行上述获取步骤、提取步骤和处理步骤,获取系统中所有原始表单的报表。
为了实现上述目的,根据本发明的另一方面,提供了一种文件表单的处理装置,该装置包括:获取模块,用于获取配置信息构成的配置表单和对应的原始表单;提取模块,用于配置表单对原始表单中的数据列进行提取处理,获取原始表单中的指定数据列,配置表单包括多个配置列,每个配置列包括:数据提取规则;处理模块,用于根据数据提取规则处理配置表单中对应的原始表单的指定数据列,得到原始表单的报表;循环模块,用于循环执行上述获取模块、提取模块和处理模块,获取系统中所有原始表单的报表。
通过本发明,采用获取步骤:获取配置信息构成的配置表单和对应的原始表单;提取步骤:配置表单对原始表单中的数据列进行提取处理,获取原始表单中的指定数据列,配置表单包括多个配置列,每个配置列包括:数据提取规则;处理步骤:根据数据提取规则处理配置表单中对应的原始表单的指定数据列,得到原始表单的报表;循环步骤:循环执行上述获取步骤、提取步骤和处理步骤,获取系统中所有原始表单的报表。解决了相关技术的对文本文件中的表单进行处理的过程中,业务繁琐复杂、耗时长且无法满足用户的多样化需求的问题,进而实现可以处理多种格式的报表数据,方便大数据量处理,减少了数据重复处理的工作量,提高效率,减少失误的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的文件表单的处理方法的流程示意图;
图2是根据本发明实施例的文件表单的处理方法的详细流程示意图;
图3是根据本发明实施例的额外数据输入的执行界面示意图;
图4是根据本发明实施例的额外数据输入的配置界面示意图;
图5是根据本发明实施例的选取原始表单数据列的配置界面示意图;
图6是根据本发明图2所示实施例的最终报表的生成方法的流程示意图;以及
图7是根据本发明实施例的文件表单的处理装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
实施例一:
在其最基本的配置中,图1是根据本发明实施例的文件表单的处理方法的流程示意图;图2是根据本发明实施例的文件表单的处理方法的详细流程示意图。
如图1所示,该文件表单的处理方法包括如下步骤:
获取步骤S10:获取配置信息构成的配置表单和对应的原始表单。具体的,获取到的原始表单至少是一张。
提取步骤S30:根据配置表单对原始表单中的数据列进行提取处理,获取原始表单中的指定数据列,配置表单包括多个配置列,每个配置列包括:数据提取规则。
处理步骤S50:根据数据提取规则处理配置表单中对应的原始表单的指定数据列,得到原始表单的报表。
循环步骤S70:循环执行上述获取步骤10、提取步骤30和处理步骤50,获取系统中所有原始表单的报表。
由上述各个步骤可知,系统针对原始表单读取方式包括:需要从一张原始表单直接生成最终的报表,或者获取经过多张原始表单组合生成最终报表。上述步骤S10至步骤S70实现了解析原始报表,获取到预订的配置表单,根据配置表单每列数据的提取规则进行处理,得到报表。
本申请上述实施例所提供的方案中,通过配置信息来对原始表单中的数据进行处理,由于可以通过应用程序提供配置接口的方式来获取用户输入的配置信息,即用户可以提供配置信息来配置好表单中数据的处理方案,从而使得在生成原始表单的报表的过程中,不需要人工进行数据处理,提高了工作效率,而且针对重复的操作,由于配置信息相同,因此,数据重复的工作量大大降低,效率提高,失误减少。由此可知,本申请上述实施例解决了相关技术的对文本文件中的表单进行处理的过程中,业务繁琐复杂、耗时长且无法满足用户的多样化需求的问题,进而实现可以处理多种格式的报表数据,方便大数据量处理,减少了数据重复处理的工作量,提高效率,减少失误的效果。
具体的,本申请上述方法可以以插件的形式实现,插件提供了用户输入配置信息的操作窗口,由用户配置和执行方案,加载插件之后,用户首先根据需要配置好方案进行保存,然后提供相应的表单数据,在选择了配置方案后,执行对表单数据的处理,生成最终报表。通过对比本方案和以前解决方案,可以发现本发明有如下的优点:可以处理多种格式的报表数据,方便大数据量处理,减少了数据重复处理的工作量。
本申请所涉及到实施例中,可以获取每个原始表单的报表,在获取报表的过程中,可以进行报表之间的合并等操作,生成中间报表,中间报表在与生成的一个新报表进行合并等操作,最后生成一个最终报表。由此可知,一份方案即一份报表的生成方法。最终的报表可以由一张或者多张原始表单进行数据组合和提取生成,因此,对于生成报表的每一张原始表单都有一份数据提取的方法,每一张表单的提取方式称为配置表单,一份方案由若干份配置表单组成。每一分数据表单中有若干列数据,可以根据用户需求按照某种方法提取配置表单中的一列或者多列数据,因此对应于每列需要提取的数据列有一份相应的配置信息,称之为配置列,配置表单包含若干配置列。
优选地,如图2所示,本申请上述实施例中,在步骤S30根据数据提取规则处理指定数据列,得到原始表单的报表之前,方法还可以包括如下步骤:
步骤S301,判定是否需要额外输入数据,系统可以提供一个输入窗口,获取需要输入的新增数据,具体的,用户根据需求在输入窗口中输入或选择新增数据,并在保存用户输入的新增数据后,继续执行。该步骤中涉及到的新增数据为用户需要额外输入的数据,即原始表单中没有,需要额外添加的数据,新增数据的配置信息可以包含:名称,数据类型,静态数据或者动态添加(静态数据即取固定数值,生成报表时直接添加相应的数据列,动态数据即需要提供窗口供用户输入)。
具体的,针对一份方案列表gridsum报表方案,系统在加载处理方案之后,需要解析方案,首先,通过步骤S301来查看是否需要额外输入数据,如果需要则如图3所示,系统可以提供一个执行界面,提供相应窗口输入需要额外输入的数据,获取需要的新增数据后继续执行。比如,需要给报表数据添加一列当前的日期,则提供时间输入窗口,获取时间后再继续执行。具体的,额外输入的数据的参数类型和内容如图4所示,即需要确定上述增加数据(例如日期)数据的名称、映射类型、取值类型、静态数据和静态参数值等。
本申请上述实施例中,在生成报表后可以将生成的报表上传到数据库。由此,上述映射类型与数据库表中的数据相对应。
步骤S302,在获取报表之后,将新增数据添加到报表。具体的,该步骤实现将前面用户输入的新增数据添加到当前最新报表后(如果没有用户输入则不添加),生成最终报表。
本申请上述实施例中,提取步骤S30,根据数据提取规则处理指定数据列,得到原始表单的报表的步骤包括如下步骤:
首先,获取配置信息,配置信息包括:配置列的列名称、表单名称、表头、数据类型、数据提取方式。
然后,按照列名称和表单名称提取原始表单中的至少一个数据列。
最后,按照数据提取方式对对应的数据列进行操作,得到上述原始表单中的指定数据列,其中,数据提取方式包括:合并数据、替换数据、提取数据、分成多列数据、分组求和、分组统计、算术计算、保持不变等。
上述步骤根据配置信息从预订的原始表单中读取各个数据列的数据,并根据配置信息中每一列的数据提取方式所确定的规则来处理每列数据,生成报表。优选地,可以支持数据列的合并(combine)、替换数据(replace)、提取数据、分成多列(split)、数据编解码、分组求和(group sum)、分组统计(group count)、算术计算(加减乘除)、保持现状等处理规则。
具体的,本申请上述实施例中的配置表单(若干)是指,从一张原始表单中提取数据的方法,一张原始表单中可以包含多列数据,如图5所示,可以选取原始表单sheet1中需要的列,当从原始表单中提取若干列数据进行操作,于是需要对提取的每列数据配置相应的信息,因此一张配置表单中包含了多列配置列,每列数据的配置信息(配置列)可以包括如下参数:列名、表头、表单名称、数据类型,以及数据提取方式的配置:包含提取方式和其相应的参数,提取方式有合并(combine)、替换数据(replace)、提取数据、分成多列(split)、数据编解码、分组求和(group sum)、分组统计(group count)、算术计算(加减乘除)、保持现状等,另外,还包括其他信息:比如是否含有表头,通过表头还是列名定位数据,从第几行读取,到什么情况结束(遇到空行停止或者遇到空单元格停止等)。
由此可知,上述方案对原始表单进行处理的过程中,如果报表只由一张原始表单生成,此时,对原始表单进行上述步骤提供的配置处理,得到的配置表单就是一个基础表单,即只需要从一张报表中提取数据,如果报表由多张原始表单生成,则可以任选其中一个原始表单进行上述步骤提供的配置处理,得到的其中一个配置表单为基础表单,其他原始表单解析后的配置表单可以是映射表单,因此,从多张报表中提取数据则为多组基础表单和映射表单的组合。
优选地,本申请上述实施例中,在循环步骤S70,循环执行上述获取步骤、提取步骤和处理步骤,获取系统中所有原始表单的报表之后,还可以包括如下步骤:
步骤S701,设置任意一个原始表单所对应的配置表单为基础表单,并得到基础表单的报表,并判断是否存在映射表单,即在存在需要组合的映射表单的情况下,进入步骤S702,否则,在不存在映射表单的情况下,进入步骤S703。
步骤S702,解析映射表单,得到映射表单的报表,并将基础表单的报表和映射表单的报表进行合并,得到中间报表。
步骤S703,设置基础表单的报表为中间报表。该步骤实现了将基础表单处理结果作为新生成的报表。
优选地,在本申请上述实施例中,步骤S702,解析映射表单,得到映射表单的报表,将基础表单的报表和映射表单的报表进行合并,得到中间报表的步骤可以包括如下步骤:
步骤S7021,解析映射表单,得到映射表单的报表,并获取指定的映射列的信息。具体的,解析映射表单,找到预订的映射表单,根据每列数据的提取规则处理映射表单得到该映射表单的报表。
步骤S7022,按照映射列的信息将基础表单的报表和映射表单的报表进行合并,得到中间报表。具体的,该步骤实现根据指定的映射列,将基础表单报表和映射表单报表对接生成新的报表。
优选地,在执行步骤S703和步骤S7022,得到中间报表之后,还可以包括如下步骤:
判断步骤,判断是否存在没有获取报表的配置表单,如果存在没有获取报表的配置表单,解析没有获取报表的配置表单,得到该配置表单的新报表。
合并步骤,根据报表和中间报表的映射列来合并新报表和中间报表。
循环执行判断步骤和合并步骤,直至所有配置表单都获取到了对应的报表,得到最终报表。该步骤具体实现了,如果系统中还有配置表单没有整合至当前的报表中,则继续循环执行将配置表单合并入当前的中间报表的步骤,直到生成最终报表。(注意,上一循环生成的报表必须是下一循环的基础表单或者映射表单)。
具体的,上述方案可以实现遍历方案中的配置表单,如果只需要从一张报表中提取数据则只有一个基础表单,如果从多张报表中提取数据则为多组基础表单和映射表单的组合。具体实施过程中,如果有映射表单,则根据映射表单的配置,从预订的原始表单中读取列数据,并根据配置中每一列的数据提取规则处理数据,生成报表。并将基础表单生成的数据和映射表单生成的数据根据配置指定的映射列进行对接生成新的报表。
由上述方案可知,如果最后生成的最终报表由一张原始表单生成,此时,当前的一张原始表单的配置表单为基础配置表单,简称基础表单;如果最终报表由多张原始表单生成,则需要选择其中的一张原始表单为基础,得到对应的配置表单(即基础表单,可以随意选取其中的一张表单为基础表单,配置好以后基础表单不再变化),将其他表单中的数据依次和其组合,具体的,如图3所示,生成最终报表的方式为:先选取一张基础表单,然后再选取一张表单(即为映射表单),将两张表单先进行组合和提取生成一张报表,这张报表为中间报表,再以这张中间报表为基础,再选择一张原始表单与其进行组合提取生成一张中间报表,依次下去直到生成最终的报表。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例二:
在描述本申请的各实施例的进一步细节之前,将参考图7来描述可用于实现本申请的原理的一个合适的计算体系结构。在以下描述中,除非另外指明,否则将参考由一个或多个计算机执行的动作和操作的符号表示来描述本申请的各实施例。由此,可以理解,有时被称为计算机执行的这类动作和操作包括计算机的处理单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器系统中的位置上维护它,这以本领域的技术人员都理解的方式重配置或改变了计算机的操作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然而,尽管在上述上下文中描述本申请,但它并不意味着限制性的,如本领域的技术人员所理解的,后文所描述的动作和操作的各方面也可用硬件来实现。
转向附图,其中相同的参考标号指代相同的元素,本申请的原理被示为在一个合适的计算环境中实现。以下描述基于所述的本申请的实施例,并且不应认为是关于此处未明确描述的替换实施例而限制本申请。
图7是根据本发明实施例的文件表单的处理装置的结构示意图,示出了可用于这些设备的一个示例计算机体系装置结构的示意图。出于描述的目的,所绘的体系结构仅为合适环境的一个示例,并非对本申请的使用范围或功能提出任何局限。也不应将该计算系统解释为对图7所示的任一组件或其组合具有任何依赖或需求。
如图7所示,该文件表单的处理装置可以包括:一获取模块102、一提取模块104、一处理模块106和一循环模块108。
其中,获取模块102,用于获取配置信息构成的配置表单和对应的原始表单;提取模块104,用于配置表单对原始表单中的数据列进行提取处理,获取原始表单中的指定数据列,配置表单包括多个配置列,每个配置列包括:数据提取规则;处理模块106,用于根据数据提取规则处理原始表单的指定数据列,得到所述原始表单的报表;循环模块108,用于循环执行上述获取模块102、提取模块104和处理模块106,获取系统中所有原始表单的报表。
由上述各个模块可知,系统针对原始表单读取方式包括:需要从一张原始表单直接生成最终的报表,或者获取经过多张原始表单组合生成最终报表。上述各个模块实现了解析原始报表,获取到预订的配置表单,根据配置表单每列数据的提取规则进行处理,得到报表。
本申请上述实施例所提供的方案中,通过配置信息来对原始表单中的数据进行处理,由于可以通过应用程序提供配置接口的方式来获取用户输入的配置信息,即用户可以提供配置信息来配置好表单中数据的处理方案,从而使得在生成原始表单的报表的过程中,不需要人工进行数据处理,提高了工作效率,而且针对重复的操作,由于配置信息相同,因此,数据重复的工作量大大降低,效率提高,失误减少。由此可知,本申请上述实施例解决了相关技术的对文本文件中的表单进行处理的过程中,业务繁琐复杂、耗时长且无法满足用户的多样化需求的问题,进而实现可以处理多种格式的报表数据,方便大数据量处理,减少了数据重复处理的工作量,提高效率,减少失误的效果。
具体的,本申请上述装置可以以插件的形式实现,插件提供了用户输入配置信息的操作窗口,由用户配置和执行方案,加载插件之后,用户首先根据需要配置好方案进行保存,然后提供相应的表单数据,在选择了配置方案后,执行对表单数据的处理,生成最终报表。通过对比本方案和以前解决方案,可以发现本发明有如下的优点:可以处理多种格式的报表数据,方便大数据量处理,减少了数据重复处理的工作量。
本申请所涉及到实施例中,可以获取每个原始表单的报表,在获取报表的过程中,可以进行报表之间的合并等操作,生成中间报表,中间报表在与生成的一个新报表进行合并等操作,最后生成一个最终报表。由此可知,一份方案即一份报表的生成方法。最终的报表可以由一张或者多张原始表单进行数据组合和提取生成,因此,对于生成报表的每一张原始表单都有一份数据提取的方法,每一张表单的提取方式称为配置表单,一份方案由若干份配置表单组成。每一分数据表单中有若干列数据,可以根据用户需求按照某种方法提取配置表单中的一列或者多列数据,因此对应于每列需要提取的数据列有一份相应的配置信息,称之为配置列,配置表单包含若干配置列。
优选地,本申请上述实施例中,该装置还可以包括:输入模块,用于在判定是否需要额外输入数据,系统可以提供一个提供输入窗口,获取需要输入的新增数据,其中,在获取报表之后,将新增数据添加到报表。
具体的,用户根据需求在输入窗口中输入或选择新增数据,并在保存用户输入的新增数据后,继续执行。该步骤中涉及到的新增数据为用户需要额外输入的数据的配置,即原始表单中没有,需要额外添加的数据,新增数据的配置信息可以包含:名称,数据类型,静态数据或者动态添加(静态数据即取固定数值,生成报表时直接添加相应的数据列,动态数据即需要提供窗口供用户输入)。
优选地,本申请上述实施例中,装置还可以包括:设置模块,用于设置任意一个原始表单所对应的配置表单为基础表单,并得到基础表单的报表;第一判断模块,用于判断是否存在映射表单;第一子处理模块,用于在存在映射表单的情况下,解析映射表单,得到映射表单的报表,并将基础表单的报表和映射表单的报表进行合并,得到中间报表;在不存在映射表单的情况下,设置基础表单的报表为中间报表。
优选地,本申请上述实施例中,该第一子处理模块可以包括:读取模块,用于获取指定的映射列的信息;第二子处理模块,用于按照映射列的信息将基础表单的报表和映射表单的报表进行合并,得到中间报表。
优选地,本申请上述实施例中,该装置还可以包括:第二判断模块,用于判断是否存在没有获取报表的配置表单,如果存在没有获取报表的配置表单,解析没有获取报表的配置表单,得到该配置表单的新报表;合并模块,用于根据报表和中间报表的映射列来合并新报表和中间报表;子循环模块,用于循环执行判断模块和合并模块,直至所有配置表单都获取到了对应的报表,得到最终报表。
由上述方案可知,如果最后生成的最终报表由一张原始表单生成,此时,当前的一张原始表单的配置表单为基础配置表单,简称基础表单;如果最终报表由多张原始表单生成,则需要选择其中的一张原始表单为基础,得到对应的配置表单(即基础表单,可以在配置的时候随意选取其中的一张表单为基础表单,配置好后不再变化),将其他表单中的数据依次和其组合,具体的,如图3所示,生成最终报表的方式为:先选取一张基础表单,然后再选取一张表单(即为映射表单),将两张表单先进行组合和提取生成一张报表,这张报表为中间报表,再以这张中间报表为基础,再选择一张原始表单与其进行组合提取生成一张中间报表,依次下去直到生成最终的报表。
优选地,本申请上述实施例中,该提取模块可以包括:子获取模块,用于获取配置信息,配置信息包括:配置列的列名称、表单名称、数据类型、表头、数据提取方式;子提取模块,用于按照列名称和表单名称提取原始表单中的至少一个数据列;第三子处理模块,用于用于按照数据提取方式对对应的数据列进行操作,得到原始表单中的指定数据列,其中,数据提取方式包括:合并数据、替换数据、提取数据、分成多列数据、分组求和、分组统计、算术计算、保持不变等。
上述方案根据配置信息从预订的原始表单中读取各个数据列的数据,并根据配置信息中每一列的数据提取方式所确定的规则来处理每列数据,生成报表。优选地,可以支持数据列的合并(combine)、替换数据(replace)、提取数据、分成多列(split)、数据编解码、分组求和(group sum)、分组统计(group count)、算术计算(加减乘除)、保持现状等处理规则。
具体的,本申请上述实施例中的配置表单(若干)是指,从一张原始表单中提取数据的方法,一张原始表单中可以包含多列数据,如图5所示,可以选取原始表单sheet1中需要的列,当从原始表单中提取若干列数据进行操作,于是需要对提取的每列数据配置相应的信息,因此一张配置表单中包含了多列配置列,每列数据的配置信息(配置列)可以包括如下参数:列名、表头、表单名称、数据类型,以及数据提取方式的配置:包含提取方式和其相应的参数,提取方式有合并(combine)、替换数据(replace)、提取数据、分成多列(split)、数据编解码、分组求和(group sum)、分组统计(group count)、算术计算(加减乘除)、保持现状等,另外,还包括其他信息:比如是否含有表头,通过表头还是列名定位数据,从第几行读取,到什么情况结束(遇到空行停止或者遇到空单元格停止等)。
由此可知,上述方案对原始表单进行处理的过程中,如果报表只由一张原始表单生成,此时,对原始表单进行上述步骤提供的配置处理,得到的配置表单就是一个基础表单,即只需要从一张报表中提取数据,如果报表由多张原始表单生成,则可以任选其中一个原始表单进行上述步骤提供的配置处理,得到的其中一个配置表单为基础表单,其他原始表单解析后的配置表单可以是映射表单,因此,从多张报表中提取数据则为多组基础表单和映射表单的组合。
本申请的原理可以使用其它通用或专用计算或通信环境或配置来操作。适用于本申请的众所周知的计算系统、环境和配置的示例包括但不限于,个人计算机、服务器,多处理器系统、基于微处理的系统、小型机、大型计算机、以及包括任一上述系统或设备的分布式计算环境。
需要说明的是,本申请上述各个实施例所提供的方案的核心思想是通过应用程序提供配置接口,用户配置好数据处理方案后,使用时直接加载指定的方案执行程序,应用程序会根据方案处理数据。
由于本申请的方案可以应用在文本格式文件中,因此,在加载处理方案之后,可以根据方案,判断数据源类型,比如excel,txt等,然后加载数据,从而读取配置信息,配置信息包含首列数据类型(表头或者数据内容或者行数等),原始报表的表头、目标报表的表头,需要进行处理的数据列列名,以及相应数据处理方式和相应的参数(支持加减乘除以及替换提取合并等计算方式;参数数量不限;数据处理方式以固定格式存储以方便识别,比如提取类型:计算方式;计算方式中的数据可以取列名、具体数值、变量等以不同格式表示)。最后,根据配置文件,读取原始数据并进行处理,生成最终的报表数据。
由于上述方案可以处理多种格式、多种来源类型的报表数据,从而可以方便大数据量处理,减少了数据重复处理的工作量,提高效率。
从以上的描述中,可以看出,本发明实现了如下技术效果:为报表中的每一列数据都添加相应的配置信息,实现每列数据的灵活处理;为每张报表,包含中间报表(数据处理过程中生成的报表),都添加相应的配置信息,实现了多张报表数据的灵活处理;预先配置好处理方式后,实现Excel表单数据的自动处理;可以随时根据需求调整文件表单的处理方式;可以提供输入窗口,向现有报表自动添加数据。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种文件表单的处理方法,其特征在于,包括:
获取步骤:获取配置信息构成的配置表单和对应的原始表单,其中,所述配置信息为用户输入的配置信息;
提取步骤:根据所述配置表单对所述原始表单中的数据列进行提取处理,获取所述原始表单中的指定数据列,所述配置表单包括多个配置列,每个配置列包括:数据提取规则;
处理步骤:根据所述数据提取规则处理所述原始表单的指定数据列,得到所述原始表单的报表;
循环步骤:循环执行上述获取步骤、提取步骤和处理步骤,获取系统中所有原始表单的报表;
其中,在根据所述数据提取规则处理所述指定数据列,得到所述原始表单的报表之前,所述方法还包括:提供输入窗口,获取需要输入的新增数据;
其中,在获取所有原始表单的报表之后,将所述新增数据添加到最终报表,其中,所述最终报表为将所述所有原始表单的报表进行合并后所生成的报表。
2.根据权利要求1所述的方法,其特征在于,在循环执行上述获取步骤、提取步骤和处理步骤,获取系统中所有原始表单的报表之后,所述方法还包括:
设置任意一个原始表单所对应的配置表单为基础表单,并得到所述基础表单对应的原始表单的报表;
判断是否存在映射表单,其中,所述映射表单为除所述基础表单之外的配置表单;其中,
在存在所述映射表单的情况下,解析所述映射表单对应的原始表单,得到所述映射表单对应的原始表单的报表,并将所述基础表单对应的原始表单的报表和所述映射表单对应的原始表单的报表进行合并,得到中间报表;
在不存在所述映射表单的情况下,设置所述基础表单对应的原始表单的报表为所述中间报表。
3.根据权利要求2所述的方法,其特征在于,将所述基础表单对应的原始表单的报表和所述映射表单对应的原始表单的报表进行合并,得到中间报表的步骤包括:
获取指定的映射列的信息,其中,所述映射列为所述基础表单对应的原始表单的报表和所述映射表单对应的原始表单的报表中根据所述配置表单确定的列;
按照所述映射列的信息将所述基础表单对应的原始表单的报表和所述映射表单对应的原始表单的报表进行合并,得到所述中间报表;
其中,在得到所述中间报表之后,所述方法还包括:
判断步骤,判断是否存在未处理的配置表单,如果存在所述未处理的配置表单,解析所述未处理的配置表单对应的原始表单,得到该原始表单的新报表,其中,所述未处理用于表征未获取该配置表单对应的原始表单的报表;
合并步骤,根据所述新报表和所述中间报表的映射列来合并所述新报表和所述中间报表;
循环执行所述判断步骤和所述合并步骤,直至所有配置表单对应的原始表单的报表都进行过合并处理,得到所述最终报表。
4.根据权利要求1所述的方法,其特征在于,所述配置表单对所述原始表单中的数据列进行提取处理,获取所述原始表单中的指定数据列的步骤包括:
获取所述配置信息,所述配置信息包括:所述指定数据列的列名称、表单名称、表头、数据类型、数据提取方式;
按照所述列名称和所述表单名称提取所述原始表单中的至少一个数据列;
按照所述数据提取方式对对应的数据列进行操作,得到所述原始表单中的指定数据列,其中,所述数据提取方式包括:合并数据、替换数据、提取数据、分成多列数据、分组求和、分组统计、算术计算、保持不变。
5.一种文件表单的处理装置,其特征在于,包括:
获取模块,用于获取配置信息构成的配置表单和对应的原始表单,其中,所述配置信息为用户输入的配置信息;
提取模块,用于所述配置表单对所述原始表单中的数据列进行提取处理,获取所述原始表单中的指定数据列,所述配置表单包括多个配置列,每个配置列包括:数据提取规则;
处理模块,用于根据所述数据提取规则处理所述原始表单的指定数据列,得到所述原始表单的报表;
循环模块,用于循环执行上述获取模块、提取模块和处理模块,获取系统中所有原始表单的报表;
其中,所述装置还包括:输入模块,用于提供输入窗口,获取需要输入的新增数据,其中,在获取所有原始表单的报表之后,将所述新增数据添加到最终报表,其中,所述最终报表为将所述所有原始表单的报表进行合并后所生成的报表。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
设置模块,用于设置任意一个原始表单所对应的配置表单为基础表单,并得到所述基础表单对应的原始表单的报表;
第一判断模块,用于判断是否存在映射表单,其中,所述映射表单为除所述基础表单之外的配置表单;
第一子处理模块,用于在存在所述映射表单的情况下,解析所述映射表单对应的原始表单,得到所述映射表单对应的原始表单的报表,并将所述基础表单对应的原始表单的报表和所述映射表单对应的原始表单的报表进行合并,得到中间报表;在不存在所述映射表单的情况下,设置所述基础表单对应的原始表单的报表为所述中间报表。
7.根据权利要求6所述的装置,其特征在于,所述第一子处理模块包括:
读取模块,用于获取指定的映射列的信息,其中,所述映射列为所述基础表单对应的原始表单的报表和所述映射表单对应的原始表单的报表中根据所述配置表单确定的列;
第二子处理模块,用于按照所述映射列的信息将所述基础表单对应的原始表单的报表和所述映射表单对应的原始表单的报表进行合并,得到所述中间报表。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二判断模块,用于判断是否存在未处理的配置表单,如果存在所述未处理的配置表单,解析所述未处理的配置表单对应的原始表单,得到该原始表单的新报表,其中,所述未处理用于表征未获取该配置表单对应的原始表单的报表;
合并模块,用于根据所述新报表和所述中间报表的映射列来合并所述新报表和所述中间报表;
子循环模块,用于循环执行所述第二判断模块和所述合并模块,直至所有配置表单对应的原始表单的报表都进行过合并处理,得到所述最终报表。
9.根据权利要求6所述的装置,其特征在于,所述提取模块包括:
子获取模块,用于获取所述配置信息,所述配置信息包括:所述指定数据列的列名称、表单名称、表头、数据类型、数据提取方式;
子提取模块,用于按照所述列名称和所述表单名称提取所述原始表单中的至少一个数据列;
第三子处理模块,用于按照所述数据提取方式对对应的数据列进行操作,得到所述原始表单中的指定数据列,其中,所述数据提取方式包括:合并数据、替换数据、提取数据、分成多列数据、分组求和、分组统计、算术计算、保持不变。
CN201310590566.XA 2013-11-20 2013-11-20 文件表单的处理方法和装置 Active CN103605747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310590566.XA CN103605747B (zh) 2013-11-20 2013-11-20 文件表单的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310590566.XA CN103605747B (zh) 2013-11-20 2013-11-20 文件表单的处理方法和装置

Publications (2)

Publication Number Publication Date
CN103605747A CN103605747A (zh) 2014-02-26
CN103605747B true CN103605747B (zh) 2017-10-27

Family

ID=50123969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310590566.XA Active CN103605747B (zh) 2013-11-20 2013-11-20 文件表单的处理方法和装置

Country Status (1)

Country Link
CN (1) CN103605747B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778253B (zh) * 2015-04-20 2018-09-14 北京京东尚科信息技术有限公司 一种提供数据的方法和装置
CN106257443A (zh) * 2015-06-16 2016-12-28 华为软件技术有限公司 一种数据导入方法及装置
CN105096036B (zh) * 2015-07-16 2019-04-19 金蝶软件(中国)有限公司 一种单据的展示方法及系统
CN105069568A (zh) * 2015-08-03 2015-11-18 北京工商大学 一种可标识合并单元的编码管理方法及系统
CN106681970B (zh) * 2015-11-11 2020-05-12 北京国双科技有限公司 报表生成方法和装置
CN105447200A (zh) * 2015-12-30 2016-03-30 金蝶软件(中国)有限公司 一种数据处理方法及数据处理装置
CN106779994A (zh) * 2016-12-05 2017-05-31 深圳市中润四方信息技术有限公司 一种基于智能终端的涉税业务办理方法及其系统和设备
CN106777398A (zh) * 2017-03-02 2017-05-31 北京微影时代科技有限公司 一种csv文件的生成方法及装置
CN109597734A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 报表运行时长的监控方法及装置
CN108920207A (zh) * 2018-06-15 2018-11-30 江苏中威科技软件系统有限公司 一种提高文件表单加载性能的方法
CN109213821B (zh) * 2018-09-25 2022-03-15 中国银行股份有限公司 数据处理方法及系统
CN109542962B (zh) * 2018-10-26 2021-04-06 北京海数宝科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN109543169B (zh) * 2018-11-26 2023-06-13 成都四方伟业软件股份有限公司 报表处理方法及装置
CN110738037B (zh) * 2019-10-15 2021-02-05 深圳逻辑汇科技有限公司 用于自动生成电子表格的方法、装置、设备及存储介质
CN114911854A (zh) * 2022-05-09 2022-08-16 建信金融科技有限责任公司 一种数据处理方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100488167C (zh) * 2005-12-10 2009-05-13 华为技术有限公司 一种分组数据流分类的方法及设备
US20080120323A1 (en) * 2006-11-17 2008-05-22 Lehman Brothers Inc. System and method for generating customized reports
CN101609463B (zh) * 2009-08-04 2011-04-20 北京环太中科软件股份有限公司 建立文单之间数据转换关系的方法及文单之间数据迁移的方法
CN101697126B (zh) * 2009-10-28 2013-03-27 山东中创软件商用中间件股份有限公司 一种针对Excel文件的增量数据的ETL实现方法
CN101706936A (zh) * 2009-12-01 2010-05-12 中国建设银行股份有限公司 境内外总账合并处理方法和境内外总账合并处理系统
CN101876970A (zh) * 2009-12-22 2010-11-03 金蝶软件(中国)有限公司 一种合并报表方法和装置
CN102163188A (zh) * 2011-04-07 2011-08-24 北京数码大方科技有限公司 应用系统中excel报表的生成方法及装置

Also Published As

Publication number Publication date
CN103605747A (zh) 2014-02-26

Similar Documents

Publication Publication Date Title
CN103605747B (zh) 文件表单的处理方法和装置
CN109739894B (zh) 补充元数据描述的方法、装置、设备及存储介质
US10102039B2 (en) Converting a hybrid flow
JP5298117B2 (ja) 分散コンピューティングにおけるデータマージング
CN106557307B (zh) 业务数据的处理方法及处理系统
JP2006018693A (ja) 類似ソースコード抽出プログラム、類似ソースコード抽出装置および類似ソースコード抽出方法
CN108388515A (zh) 测试数据生成方法、装置、设备以及计算机可读存储介质
CN110019116B (zh) 数据追溯方法、装置、数据处理设备及计算机存储介质
CN107798030B (zh) 数据表的拆分方法和装置
CN104572035A (zh) 网页代码的动态生成方法和动态生成系统
CN110990274B (zh) 一种生成测试案例的数据处理方法、装置及系统
EP3279816A1 (en) Data analysis processing method, apparatus, computer device, and storage medium
CN108369584B (zh) 信息处理系统、描述符创建方法和描述符创建程序
CN108170602B (zh) 一种测试用例生成方法、装置、终端及计算机可读介质
CN109379398A (zh) 一种数据同步方法及装置
CN111158800B (zh) 基于映射关系构建任务dag的方法及装置
CN113806429A (zh) 基于大数据流处理框架的画布式日志分析方法
CN113901021A (zh) 用于多版本数据库的升级脚本生成方法、装置与电子设备
CN104714983B (zh) 分布式索引的生成方法及装置
CN104765787A (zh) 软件系统内要素文件关联关系分析方法及系统
CN111723063A (zh) 一种离线日志数据处理的方法和装置
CN114185958B (zh) 血缘关系生成方法、装置、计算机设备和存储介质
US11132235B2 (en) Data processing method, distributed data processing system and storage medium
CN105512237A (zh) 一种复杂结构的数据导入系统
CN113076365B (zh) 数据同步方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for processing file form

Effective date of registration: 20190531

Granted publication date: 20171027

Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd.

Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Registration number: 2019990000503

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20240604

Granted publication date: 20171027