CN111159234A - 一种对比报表的方法和装置 - Google Patents

一种对比报表的方法和装置 Download PDF

Info

Publication number
CN111159234A
CN111159234A CN201911317690.2A CN201911317690A CN111159234A CN 111159234 A CN111159234 A CN 111159234A CN 201911317690 A CN201911317690 A CN 201911317690A CN 111159234 A CN111159234 A CN 111159234A
Authority
CN
China
Prior art keywords
reports
report
cells
column
data contained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911317690.2A
Other languages
English (en)
Inventor
林晨
陈文极
林震宇
徐立宇
林智泓
陶峥
�田�浩
赵亮
王金哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN201911317690.2A priority Critical patent/CN111159234A/zh
Publication of CN111159234A publication Critical patent/CN111159234A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • G06F16/2456Join operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种对比报表方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:从包含报表的文件中提取待对比的至少两个报表;获取所述报表中单元格所在的行数和列数;对比至少两个报表中相同行数和列数所对应的所述单元格中包含的内容。该实施方式能够不依赖自然语言处理方法和人工对比操作,快速且较为准确地对多版本定期报告中的报表进行对比,提高了对比报表的效率,减少了对比报表的工作量。

Description

一种对比报表的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种对比报表的方法和装置。
背景技术
一般地,上市公司按规定需要提交股东的公司季度、半年度、年度财务报表。报表中包含公司的经营情况、资产负债等信息以体现公司的业绩变化。此类报表的格式是固定的,页数达到上百页。一个上市公司随着经济业务范围的扩张和业务规模不断扩大,需要出具多种语言版本的报表,会面临人力资源紧缺、核对报表工作量加大等难题。
现有方式对比多语言版本文件的报表有以下两种方式:
1、利用人工将不同语言版本文件中包含报表的章节切分出来,将相同的章节放在一起,并安排不同的工作人员进行核对。
2、运用自然语言处理技术,自动识别章节中的报表,将自然语言处理判定为相同词义的表格项进行核对。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1、利用人工核对的方式,准确率较高,但是此方法耗时耗力,且依赖核对人员的工作能力。
2、运用自然语言处理技术,此方法需要大量的语料库训练集合进行机器学习,同时也存在准确率偏低的问题。
发明内容
有鉴于此,本发明实施例提供一种对比报表的方法和装置,能够不依赖自然语言处理方法和人工对比操作,快速且较为准确地对多版本定期报告中的报表进行对比,提高了对比报表的效率,减少了对比报表的工作量。
为实现上述目的,根据本发明实施例的一个方面,提供了一种对比报表的方法,其特征在于,包括:从包含报表的文件中提取待对比的至少两个报表;获取所述报表中单元格所在的行数和列数;对比至少两个报表中相同行数和列数所对应的所述单元格中包含的内容。
可选地,对比报表的方法,其特征在于,
确定至少两个所述报表具有相同的所述行数、所述列数以及相同的格式;所述格式指示为所述报表中包含行标题,列标题和数据。
可选地,对比报表的方法,其特征在于,
所述预定义规则包括:当所述单元格中包含的所述数据指示为所述行标题或者所述列标题时,基于预定义的词汇对应表进行对比。
可选地,对比报表的方法,其特征在于,
所述预定义规则还包括:当所述单元格中包含的所述数据指示为数字时,在对比所述数字前处理所述数字的数字表达形式,并基于相同的所述数字表达形式进行对比。
可选地,对比报表的方法,其特征在于,
标记所述至少两个报表中所包含的数据不一致的所述单元格。
为实现上述目的,根据本发明实施例的第二方面,提供了一种对比报表的装置,其特征在于,包括:报表提取模块、行列获取模块和数据对比模块;其中,所述报表提取模块,用于从包含报表的文件中提取待对比的至少两个报表;所述行列获取模块,用于获取所述报表中单元格所在的行数和列数;所述数据对比模块,用于对比至少两个报表中相同行数和列数对应的单元格所包含的内容。
可选地,所述对比报表的装置,其特征在于,
确定至少两个所述报表具有相同的所述行数、所述列数以及相同的格式;所述格式指示所述报表包含行标题,列标题和数据。
可选地,所述对比报表的装置,其特征在于,
所述预定义规则包括:当所述单元格中包含的所述数据指示为所述行标题或者所述列标题时,基于预定义的词汇对应表进行对比。
可选地,所述对比报表的装置,其特征在于,
所述预定义规则还包括:当所述单元格中包含的所述数据指示为数字时,在对比所述数字前处理所述数字的数字表达形式,并基于相同的所述数字表达形式进行对比。
可选地,所述对比报表的装置,其特征在于,
标记所述至少两个报表中所包含的数据不一致的所述单元格。
为实现上述目的,根据本发明实施例的第三方面,提供了一种对比报表的电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述对比报表的方法中任一所述的方法。
为实现上述目的,根据本发明实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如上述视对比报表的方法中任一所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:从包含报表的文件中提取待对比的至少两个报表;获取所述报表中单元格所在的行数和列数;对比至少两个报表中相同行数和列数所对应的所述单元格中包含的内容。由此可以看出,本发明的本实施例能够不依赖自然语言处理方法和人工对比操作,快速且较为准确地对多版本定期报告中的报表进行对比,提高了对比报表的效率,减少了对比报表的工作量。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明一个实施例提供的一种对比报表的方法的流程示意图;
图2是本发明一个实施例提供的一种获取报表单元格信息的方法的流程示意图;
图3是本发明一个实施例提供的一种对比报表的方法的流程图;
图4是本发明一个实施例提供的简体中文报表的示意图;
图5是本发明一个实施例提供的繁体中文报表的示意图;
图6是本发明一个实施例提供的英文报表的示意图;
图7是本发明一个实施例提供的一种对比报表装置的结构示意图;
图8是本发明实施例可以应用于其中的示例性系统架构图;
图9是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,本发明实施例提供了一种对比报表的方法,该方法包括以下步骤:
步骤S101:从包含报表的文件中提取待对比的至少两个报表。
具体地,从包含报表的文件中提取待对比的至少两个报表,以某公司的年报为例,通常年报除了报表还包含文字描述,因此,在进行对比报表的数据之前,需要把报表从文件中提取出来;例如,从不同语言版本的同类文件中,提取出至少两个报表进行对比;
提取报表可以利用以下方法:
第一种方法:利用软件从包含报表的文件中提取报表,比如利用VBA、python、c#、java等软件编写程序实现从包含报表的文件中提取出报表;
第二种方法:利用人工结合软件的方式从包含报表的文件中提取报表;包括从不同语言版本的文件中提取相同格式的报表。
具体地,首先对于不同版本的文件进行人工查阅,并进行页数上的一致性比对,如果发现页数不一致,需要运用分页符、制表符等工具人工进行调整至相同页数,且保证报表在同一页中。例如,由于中文和英文描述的简洁性不同,某个章节在中文年报中是4页,在英文年报中是3页。此时需要在英文年报中插入相应的分页符,保证页数也为4页,且报表位置与中文一致;然后利用软件,例如VBA、python、c#等,将不同版本的文件中对应页数的报表提取并保存。例如,保存在excel的不同工作表中。本发明对所使用的软件以及保存报表的格式不做限定。
进一步地,确定至少两个所述报表具有相同的所述行数、所述列数以及相同的格式;所述格式包含所述报表包含行标题,列标题和数据。可以理解的是,为了对比,确定至少两个所述报表具有相同的所述行数、所述列数以及相同的格式;为了保证报表的数据完整性,需要确定报表包含行标题,列标题和数据。
本发明对所述至少两个待对比的报表所使用的语言不做限定。
步骤S102:获取所述报表中单元格所在的行数和列数以及所述单元格包含的数据。
具体地,获取所述报表中单元格所在的行数和列数以及所述单元格包含的数据,包括遍历报表中的每个单元格,记录所述单元格处于所在报表中的行数和列数,以及单元格中包含的内容;可以理解的是,当比较两个不同语言版本的报表时,需要对每一个版本的报表做相同的操作。
获取所述报表中单元格所在的行数和列数以及所述单元格包含的数据的可以利用如下方法:
第一种方法:确定整个报表总的行数和列数,以左上方的单元格作为原点,假设原点的行数和列数为(0,0),基于原点的行数和列数遍历整个报表,获取报表中单元格的所在的行数和列数以及所述单元格包含的数据并记录,获取数据的流程如图2所示,本方法可以通过软件编程实现,例如,利用python、c#、java等,本发明对编程语言不做限定。
第二种方法:首先利用人工的方式确定报表包含行标题,列标题和数据,预定义行标题和列标题的行数和列数信息,并人工调整报表格式;例如,如表1所示,表1中出现了报表嵌套的情况,对表1进行拆分处理,得到如表2和表3所示的所需格式的报表:
列1甲 列2乙 列3丙 列4丁
行1子 数字1 数字2 数字3 数字4
行2丑 数字5 数字6 数字7 数字8
列1戊 列2己 列3庚 列4辛
行3寅 数字9 数字10 数字11 数字12
表1
列1甲 列2乙 列3丙 列4丁
行1子 数字1 数字2 数字3 数字4
行2丑 数字5 数字6 数字7 数字8
表2
列1戊 列2己 列3庚 列4辛
行3寅 数字9 数字10 数字11 数字12
表3
基于上述格式的报表进行查找,当获取报表中的某个单元格中包含的数据是数字时,依据如下规则获得该单元格的行数和列数:从该数字所在的单元格,获取其往左一格的单元格所包含的数据。如果其往左一格的单元格所包含的数据仍然为数字,则继续查找左一格,直至找到单元格包含的数据为非数字的单元格;以该包含非数字的单元格的行数作为该单元格的为行数,同理地,获取该单元格的列数。本方法的本步骤可以通过软件编程实现,例如,利用python、c#、java等,本发明对所使用的的编程语言不做限定。
步骤S103:基于预定义规则,对比至少两个报表中相同行数和列数所对应的所述单元格中包含的所述数据。
具体地,根据步骤S102获取到的单元格的行数和列数,基于预定义规则,对比至少两个报表中所述单元格所包含的数据;
进一步地,所述预定义规则包括:当所述单元格中包含的所述数据指示为所述行标题或者所述列标题时,基于预定义的词汇对应表进行对比。
可以理解的是,报表中行标题和列标题的部分在不同语言的报告中用不用的语言所展示,则基于预定义的词汇对应表进行对比;例如:对于常见的会计词汇,预定义的词汇表可以包含英文、简体中文、繁体中文的对照表,例如英文词汇account与简体中文词汇账户相对应;进一步地,所述预定义的词汇对应表与所需对比的报表相关联,本发明对预定义的词汇表的内容和形式不做限定。
所述预定义规则还包括:当所述单元格中包含的所述数据指示为数字时,在对比所述数字前处理所述数字的数字表达形式,并基于相同的所述数字表达形式进行对比。
具体地,当所述单元格中包含的所述数据指示为数字时,相同的数值的数字可以在不同的报表中存在不同的数字格式,例如,10000.00、10,000、10000、104是相同数值的数字,因此认为是一致的,即,在对比所述数字前处理所述数字的数字表达形式,并基于相同的所述数字表达形式进行对比。可以理解的是,当判断所述单元格中所包含的数字在不同的报表中为相同的数字格式时,则不需要转换所述数字的数字表达形式。
进一步地,结合图4、图5、图6的报表的示例来说明上述流程:
如图4所示,该简体中文报表的示意图包含了行标题、列标题和数据,其中,行标题和列标题的文字为简体中文;
如图5所示,该繁体中文报表的示意图包含了行标题、列标题和数据,其中,行标题和列标题的文字示例为繁体中文;
如图6所示,该英文报表的示意图包含了行标题、列标题和数据,其中,行标题和列标题的示例为英文;
以图4中的简体中文和图6中英文报表比较为例,其中,对比行标题单元格和列标题单元格的数据,可以基于预定义的词汇对应表,例如:在预定义的词汇对应表中,简体中文行标题1和英文标题1存在一一对应的关系,当进行对比时,基于上述对应关系,可以认为图4中行数和列数为(1,0)的单元格的内容与图4中行数和列数为(1,0)的单元格的内容一致。与图5的繁体中文报表对比的描述一致,在此不再赘述;
当对比的内容为数值时,需要处理数字格式,在同一个下进行对比,例如,如图4单元格(4,3)所示的数据为:12888.00,如图5单元格(4,3)所示的数据为:1.29E+04,如图6单元格(4,3)所示的数据为:12888;经过数字格式的处理后对比可知,三个示例报表中的单元格(4,3)中数值相等,即所包含的数据是一致的;同理地,英文报表中的$1,725.52和简体中文报表中的¥12,349.00也是一致的。
即,从包含报表的文件中提取待对比的至少两个报表;获取所述报表中单元格所在的行数和列数以及所述单元格包含的数据;基于预定义规则,对比至少两个报表中相同行数和列数所对应的所述单元格中包含的所述数据。
进一步地,标记所述至少两个报表中所包含的数据不一致的所述单元格。具体地,在确定两个报表中所包含的内容不一致的所述单元格后,标记所述单元格包含的内容,例如,标记为红色字体,在整个报表对比结束之后,可以提取出所有红色的字体以供工作人员进一步分析;本发明对所述标记所述单元格包含的内容的形式不做限定。
如图2所示,本发明实施例提供了一种获取报表单元格信息的方法,该方法包括以下步骤:
步骤S201:确定报表的原点单元格行数和列数为(0,0),确定报表总的行数阈值和列数阈值。
具体地,对比至少两个报表中相同行数和列数所对应的所述单元格中包含的所述数据,包含获取至少两个报表中每一个单元格的行数、列数以及单元格所包含的数据,所述数据可以是报表的标题、数字、文本等。
进一步地,在获取每一个单元格的行数、列数以及单元格所包含的数据之前,确定报表的原点和报表总的行数和列数,即为报表的行数阈值和列数阈值,例如,报表的原点行数和列数以(0,0)表示。
步骤S202:以原点的行数和列数(0,0)开始,遍历单元格。
具体地,以原点的行数和列数(0,0)开始,遍历单元格,例如,获取(0,1)的单元格,即为报表的原点单元格相邻的单元格。
步骤S203:判断单元格所在行数是否大于行数阈值。
判断步骤S202获取的单元格的行数的值是否大于行数阈值,即判断获取的单元格是否是在本报表行数范围之内的。
如果大于行数阈值,执行步骤S206;
如果不大于行数阈值,执行步骤S204。
步骤S204:判断单元格所在行数是否大于列数阈值。
判断步骤S202获取的单元格的行数的值是否大于列数阈值,即判断获取的单元格是否是在本报表列数范围之内的。
如果大于列数阈值,执行步骤S206;
如果不大于列数阈值,执行步骤S205。
步骤S205:记录该单元格的行数和列数以及单元格包含的内容。
记录该单元格的行数和列数以及单元格包含的内容;例如,一个单元格的行数是10,列数是5,单元格的数据是1,000,则记录并存储本单元格的上述信息。
进一步地,执行步骤S202,遍历下一个单元格。
步骤S206:结束遍历。
利用步骤S201-步骤S206,分别获取至少两个报表的每一个单元格的信息,即,获取所述报表中单元格所在的行数和列数以及所述单元格包含的数据;进一步地,确定至少两个所述报表具有相同的所述行数、所述列数以及相同的格式;所述格式包含所述报表包含行标题,列标题和数据。
如图3所示,本发明实施例提供了一种对比报表的方法的示例流程,该方法包括以下步骤:
步骤S301:提取不同语言版本文件中的至少两个报表。
具体地,提取报表的方法与步骤S101的描述一致,在此不再赘述。
步骤S302:获取至少两个报表中一个相同行数和列数的单元格包含的数据。
具体地,如步骤S201-步骤S206描述,确定需要对比的报表具有相同的格式,然后获取需要对比的每一个报表的每一个单元格的行数、列数以及单元格包含的数据,即,基于预定义规则,对比至少两个报表中相同行数和相同列数所对应的所述单元格中包含的所述数据。
判断获取到的单元格中包含的数据是否是行标题或者列标题,如果是执行步骤S303;如果不是,判断单元格中包含的数据是否是数字,如果是,执行步骤S304;如果不是,执行步骤S305。
步骤S303:基于预定义的词汇对应表进行对比。
关于行标题和列标题不同语言的预定义的词汇对应表与步骤S103的描述一致,在此不再赘述。
在对比之后判断如果内容一致,对比下一个单元格,如果内容不一致,执行步骤S306。
步骤S304:如果数字格式不相同,处理为相同格式后对比。
具体地,同一数值的数字格式可以不同,例如,1000.00、1000、1,000、103数值相同,美元$10与等值的人民币例如¥70,也是数值相同。即,所述预定义规则还包括:当所述单元格中包含的所述数据指示为数字时,在对比所述数字前处理所述数字的数字表达形式,并基于相同的所述数字表达形式进行对比。
进一步地,当数字格式不相同时,需处理为相同格式后对比来判断是否是相同数值。如果数值一致,对比下一个单元格,如果不一致,执行步骤S306。
步骤S305:对比数据。
当单元格包含的数据既不是数字也不是行标题或者列标题时,则直接进行对比,如果内容相同,对比下一个单元格,如果不相同,执行步骤S306。
步骤S306:标记本单元格包含数据。
当对比的数据不相同时,标记本单元格包含数据,关于标记的方式描述与步骤S103一致,在此不再赘述。
如图7所示,本发明实施例提供了一种对比报表的的装置700,包括:报表提取模块701、行列获取模块702和数据对比模块703;其中,所述报表提取模块701,用于从包含报表的文件中提取待对比的至少两个报表;所述行列获取模块702,用于获取所述报表中单元格所在的行数和列数以及所述单元格包含的数据;所述数据对比模块703,用于基于预定义规则,对比至少两个报表中相同行数和列数所对应的所述单元格中包含的所述数据。
可选地,所述报表提取模块701,用于确定至少两个所述报表具有相同的所述行数、所述列数以及相同的格式;所述格式指示所述报表包含行标题,列标题和数据。
可选地,所述数据对比模块703,包括所述预定义规则包括:当所述单元格中包含的所述数据指示为所述行标题或者所述列标题时,基于预定义的词汇对应表进行对比。
可选地,所述数据对比模块703,包括所述预定义规则还包括:当所述单元格中包含的所述数据指示为数字时,在对比所述数字前处理所述数字的数字表达形式,并基于相同的所述数字表达形式进行对比。
可选地,所述数据对比模块703,用于标记所述至少两个报表中所包含的数据不一致的所述单元格。
本发明实施例还提供了一种对比报表的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例提供的方法。
本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例提供的方法。
图8示出了可以应用本发明实施例的对比报表的方法或对比报表的装置的示例性系统架构800。
如图8所示,系统架构800可以包括终端设备801、802、803,网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备801、802、803通过网络804与服务器805交互,以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用,例如网页浏览器应用、搜索类应用、即时通信工具和邮箱客户端等。
终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器805可以是提供各种服务的服务器,例如对用户利用终端设备801、802、803所浏览的企业报表网站提供支持的后台管理服务器。后台管理服务器可以对接收到的不同版本报表文件中的报表进行对比和分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的对比报表的方法一般由服务器805执行,相应地,对比报表的装置一般设置于服务器805中。
应该理解,图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图9,其示出了适于用来实现本发明实施例的终端设备的计算机系统900的结构示意图。图9示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块和/或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中,例如,可以描述为:一种处理器包括报表提取模块、行列获取模块和数据对比模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,数据对比模块还可以被描述为“获取报表中相同单元格包含的数据,进行对比的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:从包含报表的文件中提取至少两个报表;获取所述报表中单元所在的行数和列数以及所述单元格包含的数据;基于预定义规则,对比至少两个报表中相同行数和相同列数所对应的所述单元格中包含的所述数据。
根据本发明实施例的技术方案,能够不依赖自然语言处理方法和人工对比操作,快速且较为准确地对多版本定期报告中的报表进行对比,提高了对比报表的效率,减少了对比报表的工作量。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (12)

1.一种对比报表的方法,其特征在于,包括:
从包含报表的文件中提取待对比的至少两个报表;
获取所述报表中单元格所在的行数和列数以及所述单元格包含的数据;
基于预定义规则,对比至少两个报表中相同行数和相同列数所对应的所述单元格中包含的所述数据。
2.根据权利要求1所述的方法,其特征在于,
确定至少两个所述报表具有相同的所述行数、所述列数以及相同的格式;所述格式指示为所述报表中包含行标题,列标题和数据。
3.根据权利要求2所述的方法,其特征在于,
所述预定义规则包括:当所述单元格中包含的所述数据指示为所述行标题或者所述列标题时,基于预定义的词汇对应表进行对比。
4.根据权利要求3所述的方法,其特征在于,
所述预定义规则还包括:当所述单元格中包含的所述数据指示为数字时,在对比所述数字前处理所述数字的数字表达形式,并基于相同的所述数字表达形式进行对比。
5.根据权利要求1-4任一所述的方法,其特征在于,
标记所述至少两个报表中所包含的数据不一致的所述单元格。
6.一种对比报表的装置,其特征在于,包括:报表提取模块、行列获取模块和数据对比模块;其中,所述报表提取模块,用于从包含报表的文件中提取待对比的至少两个报表;
所述单元格获取模块,用于获取所述报表中单元格所在的行数和列数以及所述单元格包含的数据;
所述数据对比模块,用于基于预定义规则,对比至少两个报表中相同行数和列数所对应的所述单元格中包含的所述数据。
7.根据权利要求6所述的装置,其特征在于,确定至少两个所述报表具有相同的所述行数、所述列数以及相同的格式;所述格式指示所述报表包含行标题,列标题和数据。
8.根据权利要求7所述的装置,其特征在于,
所述预定义规则包括:当所述单元格中包含的所述数据指示为所述行标题或者所述列标题时,基于预定义的词汇对应表进行对比。
9.根据权利要求8所述的装置,其特征在于,
所述预定义规则还包括:当所述单元格中包含的所述数据指示为数字时,在对比所述数字前处理所述数字的数字表达形式,并基于相同的所述数字表达形式进行对比。
10.根据权利要求6-9任一所述的装置,其特征在于,
标记所述至少两个报表中所包含的数据不一致的所述单元格。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201911317690.2A 2019-12-19 2019-12-19 一种对比报表的方法和装置 Pending CN111159234A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911317690.2A CN111159234A (zh) 2019-12-19 2019-12-19 一种对比报表的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911317690.2A CN111159234A (zh) 2019-12-19 2019-12-19 一种对比报表的方法和装置

Publications (1)

Publication Number Publication Date
CN111159234A true CN111159234A (zh) 2020-05-15

Family

ID=70557370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911317690.2A Pending CN111159234A (zh) 2019-12-19 2019-12-19 一种对比报表的方法和装置

Country Status (1)

Country Link
CN (1) CN111159234A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679054A (zh) * 2017-06-12 2018-02-09 平安科技(深圳)有限公司 数据比对方法、装置及可读存储介质
CN109359108A (zh) * 2018-08-13 2019-02-19 东软集团股份有限公司 报表提取方法、装置、存储介质及电子设备
CN109508451A (zh) * 2018-10-23 2019-03-22 广东电网有限责任公司 一种表格数据对比处理方法及装置
CN109582940A (zh) * 2018-10-25 2019-04-05 平安科技(深圳)有限公司 报表数据测试方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679054A (zh) * 2017-06-12 2018-02-09 平安科技(深圳)有限公司 数据比对方法、装置及可读存储介质
CN109359108A (zh) * 2018-08-13 2019-02-19 东软集团股份有限公司 报表提取方法、装置、存储介质及电子设备
CN109508451A (zh) * 2018-10-23 2019-03-22 广东电网有限责任公司 一种表格数据对比处理方法及装置
CN109582940A (zh) * 2018-10-25 2019-04-05 平安科技(深圳)有限公司 报表数据测试方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US9495347B2 (en) Systems and methods for extracting table information from documents
US10437428B2 (en) Scatter copy supporting partial paste functionality
US11042529B2 (en) System of migration and validation
CN111104479A (zh) 一种数据标注的方法及装置
CN113377653B (zh) 生成测试用例的方法和装置
CN113836314A (zh) 知识图谱构建方法、装置、设备以及存储介质
CN111143505B (zh) 文档处理方法、装置、介质及电子设备
CN111651552A (zh) 结构化信息确定方法、装置和电子设备
CN113806522A (zh) 摘要生成方法、装置、设备以及存储介质
US11720541B2 (en) Document content extraction and regression testing
US8930808B2 (en) Processing rich text data for storing as legacy data records in a data storage system
CN110705271B (zh) 一种提供自然语言处理服务的系统及方法
CN112131292A (zh) 一种变更数据的结构化处理方法和装置
CN108073678A (zh) 应用于大数据分析中的文档解析处理方法、系统及装置
CN109670183B (zh) 一种文本重要性的计算方法、装置、设备和存储介质
CN114461665B (zh) 用于生成语句转换模型的方法、装置及计算机程序产品
CN115759029A (zh) 文档模板处理方法、装置、电子设备及存储介质
CN111159234A (zh) 一种对比报表的方法和装置
CN113961672A (zh) 信息标注方法、装置、电子设备和存储介质
CN109190034B (zh) 用于获取信息的方法及装置
CN113553826A (zh) 结合rpa和ai的信息录入方法、装置及电子设备
US11170164B2 (en) System and method for cell comparison between spreadsheets
CN113761415A (zh) 一种页面展示方法和装置
CN113722642B (zh) 网页页面的转换方法、装置、电子设备以及存储介质
CN115408985B (zh) 在线电子表格工作表名称显示方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220920

Address after: 25 Financial Street, Xicheng District, Beijing 100033

Applicant after: CHINA CONSTRUCTION BANK Corp.

Address before: 25 Financial Street, Xicheng District, Beijing 100033

Applicant before: CHINA CONSTRUCTION BANK Corp.

Applicant before: Jianxin Financial Science and Technology Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20200515

RJ01 Rejection of invention patent application after publication