CN113111635A

CN113111635A - 一种报表对比方法及装置

Info

Publication number: CN113111635A
Application number: CN202110416820.9A
Authority: CN
Inventors: 季宪瑞
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-07-13

Abstract

本发明提供了一种报表对比方法及装置，可以应用于金融领域，方法包括：对获取的报表进行去格式化处理并从去格式化后的报表中提取报表信息；将关键数据输入预先生成的与报表种类参数适配的预测模型中获得对比结果。本申请通过采集历史报表数据，然后对历史报表数据进行预处理后作为训练样本训练神经网络模型生成报表预测模型，用该预测模型对报表进行对比，替代了人工对比报表的方式，实现了有效降低人工开发测试成本，提升报表开发的准确性的技术效果。

Description

一种报表对比方法及装置

技术领域

本申请属于软件开发技术领域，具体地讲，涉及一种报表对比方法及装置。

背景技术

在报表开发测试环节，依赖于人工肉眼观察表样与需求是否一致，部分数据对比常依赖于简单的数据对比工具，最后在经由人工判断报表开发是否符合监管规范。但是，报表样式繁多，仅依赖于人工肉眼识别存在不准确性并且耗费人力，时间成本巨大。现有的数据报表对比工具只能进行简单的数据计算上的比较，但无法识别报表的样式并且准确性低，而且现有的数据报表对比工具依赖于开发者的开发经验，投入使用后，报表经过人工开发测试时仍存在一定的问题。

发明内容

本申请提供了一种报表对比方法及装置，以至少解决当前开发样式繁多的报表时需要依赖人工对比报表是否符合监管规范的问题。

根据本申请的一个方面，提供了一种报表对比方法，包括：

对获取的报表进行去格式化处理并从去格式化后的报表中提取报表信息；

将关键数据输入预先生成的与报表种类参数适配的预测模型中获得对比结果。

在一实施例中，预测模型的生成方法包括：

对获取的数据源报表进行数字化处理并生成训练样本集合；

通过训练样本集合训练预先建立的逻辑回归模型获得与报表种类参数适配的预测模型。

在一实施例中，对获取的数据源报表进行数字化处理并生成训练样本集合，包括：

去除数据源报表中的格式化；

对去格式化后的数据源报表进行扫描并确定报表中的有效区域；

对有效区域中的报表信息进行抽取并按照报表信息对报表进行种类划分；

根据划分种类的报表建立不同种类的训练样本集合。

在一实施例中，通过训练样本集合训练预先建立的逻辑回归模型获得与报表种类参数适配的预测模型，包括：

为训练样本集合中的一部分训练样本数据加注标签；

将有标签的训练样本数据输入逻辑回归模型中，并利用逻辑回归模型标记无标签的训练样本数据；

根据标记结果更新逻辑回归模型的参数生成与报表种类参数适配的预测模型。

根据本申请的另一个方面，还提供了一种报表对比装置，包括：

报表信息提取单元，用于对获取的报表进行去格式化处理并从去格式化后的报表中提取报表信息；

对比结果生成单元，用于将关键数据输入预先生成的与报表种类参数适配的预测模型中获得对比结果。

在一实施例中，本申请的报表对比装置中还包括一预测模型生成装置，预测模型的生成装置包括：

训练样本集合生成单元，用于对获取的数据源报表进行数字化处理并生成训练样本集合；

模型训练单元，用于通过训练样本集合训练预先建立的逻辑回归模型获得与报表种类参数适配的预测模型。

在一实施例中，训练样本集合生成单元包括：

去格式化模块，用于去除数据源报表中的格式化；

有效区域确定模块，用于对去格式化后的数据源报表进行扫描并确定报表中的有效区域；

种类划分模块，用于对有效区域中的报表信息进行抽取并按照报表信息对报表进行种类划分；

训练样本集合建立模块，用于根据划分种类的报表建立不同种类的训练样本集合。

在一实施例中，模型训练单元包括：

标签加注模块，用于为训练样本集合中的一部分训练样本数据加注标签；

训练模块，用于将有标签的训练样本数据输入逻辑回归模型中，并利用逻辑回归模型标记无标签的训练样本数据；

结果生成模块，用于根据标记结果更新逻辑回归模型的参数生成与报表种类参数适配的预测模型。

本申请通过采集历史报表数据，然后对历史报表数据进行预处理后作为训练样本训练神经网络模型生成报表预测模型，用该预测模型对报表进行对比，替代了人工对比报表的方式，实现了有效降低人工开发测试成本，提升报表开发的准确性的技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种报表对比方法流程图。

图2为本申请实施例中预测模型的生成方法流程图。

图3为本申请实施例中生成训练样本集合的方法流程图。

图4为本申请实施例中预测模型训练过程流程图。

图5为本申请提供的一种报表对比装置的结构框图。

图6为本申请实施例中预测模型生成装置的结构框图。

图7为本申请实施例中训练样本集合生成单元的结构框图。

图8为本申请实施例中模型训练单元的结构框图。

图9为本申请实施例中一种电子设备的具体实施方式。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在报表开发测试环节，依赖于人工肉眼观察表样与需求是否一致，部分数据对比常依赖于简单的数据对比工具，最后在经由人工判断报表开发是否符合监管规范。但是，报表样式繁多，仅依赖于人工肉眼识别存在不准确性并且耗费人力，时间成本巨大。现有的数据报表对比工具只能进行简单的数据计算上的比较，但无法识别报表的样式并且准确性低。

基于上述现有技术的问题，本申请提供了一种报表对比方法，如图1所示，包括：

S101：对获取的报表进行去格式化处理并从去格式化后的报表中提取报表信息。

S102：将关键数据输入预先生成的与报表种类参数适配的预测模型中获得对比结果。

在一具体实施例中，将根据需求设计的标准报表和开发出的报表进行预处理，将预处理后的标准报表和开发出的报表输入到预先建立的神经网络预测模型中，预测模型将两份报表中的每一特征值进行比较，并且将每一项特征值比较后都记录下日志信息，通过日志信息精准定位报表中对比结果不一致的要求项，通过比较，可以得出开发出的报表跟标准报表之间的相似度，最后，通过人为设定相似度阈值(比如98％)判断开发出的报表是否合格，若相似度高于阈值，则该报表合格，反之，则不合格，并且向用户展示未通过对比的要求项。

在一实施例中，如图2所示，预测模型的生成方法包括：

S201：对获取的数据源报表进行数字化处理并生成训练样本集合。

S202：通过训练样本集合训练预先建立的逻辑回归模型获得与报表种类参数适配的预测模型。

在一具体实施例中，资产估值核算系统经过多年的发展，系统中的存量报表种类超过500种，通过系统现有的批量报表生成功能，从存量报表中导出1200张种类不同的组合报表，其中200张为冗余报表根据需要进行后续处理。对所有报表进行记录确定数据来源，然后后对这些数据源报表进行数字化处理生成训练样本集合。在本实施例中，数字化处理是去除Excel报表中的格式化，仅保留关键的数据，然后将数字化处理后的训练集合输入逻辑回归模型中，采用半监督学习法通过有标记的数据样本标记无标记的数据样本，更新模型参数，不断迭代调优，利用三元组损失函数对神经网络预测模型进行优化处理，得到与报表种类参数适配的预测模型。

在一实施例中，对获取的数据源报表进行数字化处理并生成训练样本集合，如图3所示，包括：

S301：去除数据源报表中的格式化。

S302：对去格式化后的数据源报表进行扫描并确定报表中的有效区域。

S303：对有效区域中的报表信息进行抽取并按照报表信息对报表进行种类划分。

S304：根据划分种类的报表建立不同种类的训练样本集合。

在一具体实施例中，对数据源报表进行数字化处理，去除Excel报表中的格式化，仅保留关键数据，例如报表名称、日期、行高、列宽、字体等，抽取各种报表的特征值，具体方法如下：

1.对报表进行扫描，确定有效区域。以第一个单元格左上角为原点，建立直角坐标系，横向最后一个字符为为X轴最大值，纵向最后一个字符为Y轴最大值。

2.公共数据抽取：资产管理估值核算系统每种张报表，都有报表名称、日期、经办员、复核员，利用上述1中确定的区域，对关键词进行搜索匹配，即可得到每种不同报表公共数据所在位置坐标、单元格格式，按照报表名称进行分组，做好记录，标记为公共数据源a1。

3.私有数据：报表按种类划分后，例如估值表、利润表、私募类报表等常见财务报表，各有不同的特色，在1中我们进行了区域扫描，在去除2中的公共数据，再进行更进一步抽取数据，即可得到不同报表私有数据所在位置坐标、单元格格式，按照报表名称分组，标记为私有数据b1。

4.将步骤2和步骤3进行组合，即可得到按报表名称分组过的全部数据(a1，b1)，即离散化数据处理。我们将舍弃异常数据和特征重复数据，异常数据的判定标准为缺少上述四种公共数据中的一种，特征重复数据为上述私有数据相同。进行筛选后，若最后少于1000组数据，则从余报表进行补充，确保样本数据与质量，最后得到经过预处理的数据训练集{(a1，b1)，(a2，b2)，(a3，b3)，……}。

在一实施例中，通过训练样本集合训练预先建立的逻辑回归模型获得与报表种类参数适配的预测模型，如图4所示，包括：

S401：为训练样本集合中的一部分训练样本数据加注标签。

S402：将有标签的训练样本数据输入逻辑回归模型中，并利用逻辑回归模型标记无标签的训练样本数据。

S403：根据标记结果更新逻辑回归模型的参数生成与报表种类参数适配的预测模型。

在一具体实施例中，经预处理得到的训练样本集合，进行手动标签化处理，即从训练样本数据中抽取100组数据进行分类，分为报送报表、数据查询报表、估值表、运营报表、英文报表、其他，为了输入到Logistic回归模型中，采用Semi-supervised Learning半监督学习法结合大量的未标记的数据和少量有标签的数据，通过模型标记无标记样本，更新模型参数，不断迭代调优，利用三元组损失函数对模型进行优化处理，最后得到报表种类参数适配的预测模型。

基于同一发明构思，本申请实施例还提供了一种报表对比装置，可以用于实现上述实施例中所描述的方法，如下面实施例所述。由于该报表对比装置解决问题的原理与报表对比方法相似，因此报表对比装置的实施可以参见报表对比方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

如图5所示，一种报表对比装置，包括：

报表信息提取单元501，用于对获取的报表进行去格式化处理并从去格式化后的报表中提取报表信息；

对比结果生成单元502，用于将关键数据输入预先生成的与报表种类参数适配的预测模型中获得对比结果。

在一实施例中，如图6所示，本申请的报表对比装置中还包括一预测模型生成装置，预测模型的生成装置包括：

训练样本集合生成单元601，用于对获取的数据源报表进行数字化处理并生成训练样本集合；

模型训练单元602，用于通过训练样本集合训练预先建立的逻辑回归模型获得与报表种类参数适配的预测模型。

在一实施例中，如图7所示，训练样本集合生成单元601包括：

去格式化模块701，用于去除数据源报表中的格式化；

有效区域确定模块702，用于对去格式化后的数据源报表进行扫描并确定报表中的有效区域；

种类划分模块703，用于对有效区域中的报表信息进行抽取并按照报表信息对报表进行种类划分；

训练样本集合建立模块704，用于根据划分种类的报表建立不同种类的训练样本集合。

在一实施例中，如图8所示，模型训练单元602包括：

标签加注模块801，用于为训练样本集合中的一部分训练样本数据加注标签；

训练模块802，用于将有标签的训练样本数据输入逻辑回归模型中，并利用逻辑回归模型标记无标签的训练样本数据；

结果生成模块803，用于根据标记结果更新逻辑回归模型的参数生成与报表种类参数适配的预测模型。

本申请对业务给定样表进行抽取、解析并提取特征值，基于存量报表数据，通过机器学习的方式建立神经网络预测模型，采用三元组损失函数进行优化，与开发出的标样进行对比，计算出相似度指标，通过设置一定的阈值并根据阈值和相似度指标的大小关系比较报表是否合格。

本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种电子设备的具体实施方式，参见图9，所述电子设备具体包括如下内容：

处理器(processor)901、内存902、通信接口(Communications Interface)903、总线904和非易失性存储器905；

其中，所述处理器901、内存902、通信接口903通过所述总线904完成相互间的通信；

所述处理器901用于调用所述内存902和非易失性存储器905中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的方法中的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。以上所述仅为本说明书实施例的实施例而已，并不用于限制本说明书实施例。对于本领域技术人员来说，本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的权利要求范围之内。

Claims

1.一种报表对比方法，其特征在于，包括：

将所述关键数据输入预先生成的与报表种类参数适配的预测模型中获得对比结果。

2.根据权利要求1所述的报表对比方法，其特征在于，预测模型的生成方法包括：

对获取的数据源报表进行数字化处理并生成训练样本集合；

通过所述训练样本集合训练预先建立的逻辑回归模型获得与报表种类参数适配的预测模型。

3.根据权利要求2所述的报表对比方法，其特征在于，所述对获取的数据源报表进行数字化处理并生成训练样本集合，包括：

去除所述数据源报表中的格式化；

对去格式化后的所述数据源报表进行扫描并确定报表中的有效区域；

对有效区域中的报表信息进行抽取并按照所述报表信息对报表进行种类划分；

根据划分种类的报表建立不同种类的训练样本集合。

4.根据权利要求3所述的报表对比方法，其特征在于，所述通过所述训练样本集合训练预先建立的逻辑回归模型获得与报表种类参数适配的预测模型，包括：

为所述训练样本集合中的一部分训练样本数据加注标签；

将有标签的训练样本数据输入逻辑回归模型中，并利用所述逻辑回归模型标记无标签的训练样本数据；

5.一种报表对比装置，其特征在于，包括：

对比结果生成单元，用于将所述关键数据输入预先生成的与报表种类参数适配的预测模型中获得对比结果。

6.根据权利要求5所述的报表对比装置，其特征在于，还包括一预测模型生成装置，所述预测模型的生成装置包括：

模型训练单元，用于通过所述训练样本集合训练预先建立的逻辑回归模型获得与报表种类参数适配的预测模型。

7.根据权利要求6所述的报表对比装置，其特征在于，所述训练样本集合生成单元包括：

去格式化模块，用于去除所述数据源报表中的格式化；

有效区域确定模块，用于对去格式化后的所述数据源报表进行扫描并确定报表中的有效区域；

种类划分模块，用于对有效区域中的报表信息进行抽取并按照所述报表信息对报表进行种类划分；

8.根据权利要求7所述的报表对比装置，其特征在于，所述模型训练单元包括：

标签加注模块，用于为所述训练样本集合中的一部分训练样本数据加注标签；

训练模块，用于将有标签的训练样本数据输入逻辑回归模型中，并利用所述逻辑回归模型标记无标签的训练样本数据；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至4任一项所述的报表对比方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至4任一项所述的报表对比方法的步骤。