CN112445849B - 一种报表分析方法及装置 - Google Patents
一种报表分析方法及装置 Download PDFInfo
- Publication number
- CN112445849B CN112445849B CN202011356673.2A CN202011356673A CN112445849B CN 112445849 B CN112445849 B CN 112445849B CN 202011356673 A CN202011356673 A CN 202011356673A CN 112445849 B CN112445849 B CN 112445849B
- Authority
- CN
- China
- Prior art keywords
- report
- image
- determining
- outline
- contour
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种报表分析方法及装置,其中方法为:对第一报表和第二报表进行轮廓提取,确定所述第一报表的各第一图像轮廓和所述第二报表的各第二图像轮廓;根据所述各第一图像轮廓、所述各第二图像轮廓和宽度学习模型,确定所述第一报表中的表格和所述第二报表中的表格;确定所述第一报表的第一表格在所述第二报表中相匹配的第二表格;根据所述第一表格中的文字轮廓和所述第二表格中的文字轮廓,确定所述第一表格与所述第二表格之间的差异内容,并按照预设规则,对所述第一表格与所述第二表格之间的差异内容进行标注。上述方法应用于金融科技(Fintech)时,提供了一种高效且准确的报表分析方法。
Description
技术领域
本发明涉及金融科技(Fintech)领域中的数据处理领域,尤其涉及一种报表分析方法及装置。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出的更高的要求。金融机构的动态状况需要金融从业人员密切关注,一般采用报表的方式来反映金融机构的动态状况。举例来说,对于金融产品的运营,运营人员需要按时(如每天)查看金融产品的各种运营报表,同时要对比当前与过去的表格数据来观察金融产品的运营状况。
在报表分析过程中,目前的方法是报表中一部分表格的重要数据进行统计并转化为统计图,来方便突出重要数据的变化趋势,但很多表格的普通数据报表上并没有给出相应的统计图,但这些普通数据变化也要分析,如果人工对比,不仅容易出错且效率较低,很容易忽略普通数据的变化。因此,亟需一种高效且准确的报表分析方法。
发明内容
本发明提供一种报表分析方法及装置,解决了现有技术中报表分析时容易出错且效率较低的问题。
第一方面,本发明提供一种报表分析方法,包括:对第一报表和第二报表进行轮廓提取,确定所述第一报表的各第一图像轮廓和所述第二报表的各第二图像轮廓;所述第二报表与所述第一报表分别为在不同时期针对相同事务生成的报表;根据所述各第一图像轮廓、所述各第二图像轮廓和宽度学习模型,确定所述第一报表中的表格和所述第二报表中的表格;确定所述第一报表的第一表格在所述第二报表中相匹配的第二表格;所述第一表格为所述第一报表中的任一表格;所述宽度学习模型是基于表格轮廓图集和非表格轮廓图集根据宽度学习训练得到的;根据所述第一表格中的文字轮廓和所述第二表格中的文字轮廓,确定所述第一表格与所述第二表格之间的差异内容,并按照预设规则,对所述第一表格与所述第二表格之间的差异内容进行标注。
上述方法中,通过对第一报表和第二报表进行轮廓提取,结合已训练的宽度学习模型,只需要关注表格的轮廓特性,不会受到表格中填充文字等内容的影响,从而表格可以更明显地区别于其他内容,因此能够迅速、准确地定位出所述第一报表中的表格和所述第二报表中的表格,而且根据所述第一表格中的文字轮廓和所述第二表格中的文字轮廓,也能迅速比较出所述第一表格相对于所述第二表格的变化,并将其标注出来,即便报表中没有相应的统计图,也能在报表中体现差异,从而提供了一种高效且准确的报表分析方法。
可选的,所述根据所述各第一图像轮廓、所述各第二图像轮廓和宽度学习模型,确定所述第一报表中的表格和所述第二报表中的表格,包括:针对所述各第一图像轮廓和所述各第二图像轮廓中任一图像轮廓,对所述图像轮廓进行一维处理,并进行线性变换,获得第一矩阵;将所述第一矩阵进行非线性变换,获得第二矩阵;将所述第一矩阵和所述第二矩阵一同输入至所述宽度学习模型;若所述宽度学习模型的输出结果为预设标签,则确定所述图像轮廓对应的图像为表格。
上述方法中,通过对图像轮廓进行一维处理,并进行线性变换,获得第一矩阵,从而降低了图像轮廓的数据量,进一步地,通过所述第一矩阵进行非线性变换,获得第二矩阵,将所述第一矩阵在线性空间下所对应的各元素,映射为更高维度的非线性空间中所述第二矩阵的各元素,从而将图像轮廓的特性更加细化地呈现,将所述第一矩阵和所述第二矩阵一同输入至所述宽度学习模型后,图像轮廓的特性既能被所述宽度学习模型有效识别,且不至于消耗过大运算量,从而进一步提升了确定所述第一报表中的表格和所述第二报表中的表格的效率。
可选的,所述确定所述第一报表的第一表格在所述第二报表中相匹配的第二表格,包括:针对所述第二报表中任一表格,若所述表格的表头文字轮廓与所述第一表格的表头文字轮廓匹配,则确定所述表格为所述第二表格。
上述方法中,仅通过简单地文字轮廓匹配,能够迅速、准确地识别出第一表格在所述第二报表中相匹配的第二表格。
可选的,所述对第一报表和第二报表进行轮廓提取,确定所述第一报表的各第一图像轮廓和所述第二报表的各第二图像轮廓,包括:对所述第一报表的图像进行降维处理,获得第一降维图像;对所述第一降维图像进行边缘检测,获得所述第一图像轮廓;对所述第二报表的图像进行降维处理,获得第二降维图像;对所述第二降维图像进行边缘检测,获得所述第二图像轮廓。
上述方式下,通过降维处理后再边缘检测,获得所述第一图像轮廓和所述第二图像轮廓,从而可以大幅降低报表的图像的运算量,并通过边缘检测,较为准确高效地得到图像轮廓。
可选的,所述对所述第一报表的图像进行降维处理,获得第一降维图像;对所述第二报表的图像进行降维处理,获得第二降维图像,包括:对所述第一报表的图像进行灰度化,获得第一灰度图像;对所述第一灰度图像进行二值化,获得所述第一降维图像;对所述第二报表的图像进行灰度化,获得第二灰度图像;对所述第二灰度图像进行二值化,获得所述第二降维图像。
上述方式下,灰度化及二值化后的图像可以有效降低原图像中的信息量,过滤掉图像中大小、颜色等其他信息后,还可以较为准确地保存原图像中的轮廓,从而提供了一种高效准确地轮廓提取方式。
可选的,所述根据所述第一表格中的文字轮廓和所述第二表格中的文字轮廓,确定所述第一表格与所述第二表格之间的差异内容,并按照预设规则,对所述第一表格与所述第二表格之间的差异内容进行标注,包括:根据所述第一表格中各行名的文字轮廓和\或各列名的文字轮廓,以及所述第二表格中各行名的文字轮廓和\或各列名的文字轮廓,确定所述第一表格与所述第二表格之间存在差异的行名和\或列名;为所述第一表格中相对于所述第二表格增加的行名和\或列名添加第一预设标记;在所述第一表格中添加相对于所述第二表格减少的行名和\或列名,并添加第二预设标记。
上述方式下,根据所述第一表格、第二表格中各行名的文字轮廓和\或各列名的文字轮廓,可以迅速准确地检验出确定所述第一表格与所述第二表格之间存在差异的行名和\或列名,并且可以给增加或减少的行名和\或列名添加相应标记,从而可以及时反馈第一表格和第二表格的区别。
可选的,根据所述第一表格与所述第二表格中相同的行名和列名,确定所述第一表格中的第一单元格和所述第二表格中的第二单元格;所述第一单元格和所述第二单元格的行名和列名均相同;将所述第一单元格中的数据转换为第一黑白点阵图像,将所述第二单元格中的数据转换为第二黑白点阵图像;识别所述第一黑白点阵图像,获得第一指标数据;识别所述第二黑白点阵图像,获得第二指标数据;确定所述第一指标数据相对于所述第二指标数据的差值;若所述差值大于设定阈值,且所述第一指标数据和所述第二指标数据满足预设关系,则为所述第一指标数据添加第三预设标记;否则,为所述第一指标数据添加第四预设标记。
上述方式下,在确定行名和列名均相同的所述第一单元格和所述第二单元格时,将所述第一单元格中的数据转换为第一黑白点阵图像,将所述第二单元格中的数据转换为第二黑白点阵图像;识别所述第一黑白点阵图像,获得第一指标数据;识别所述第二黑白点阵图像,获得第二指标数据,在不同差值情况下添加不同的预设标记,从而可以根据第一指标数据与第二指标数据的差值,及时反馈指标数据的变化。
第二方面,本发明提供一种报表分析装置,包括:提取模块,用于对第一报表和第二报表进行轮廓提取,确定所述第一报表的各第一图像轮廓和所述第二报表的各第二图像轮廓;所述第二报表与所述第一报表分别为在不同时期针对相同事务生成的报表;确定模块,用于根据所述各第一图像轮廓、所述各第二图像轮廓和宽度学习模型,确定所述第一报表中的表格和所述第二报表中的表格;确定所述第一报表的第一表格在所述第二报表中相匹配的第二表格;所述第一表格为所述第一报表中的任一表格;所述宽度学习模型是基于表格轮廓图集和非表格轮廓图集根据宽度学习训练得到的;以及用于根据所述第一表格中的文字轮廓和所述第二表格中的文字轮廓,确定所述第一表格与所述第二表格之间的差异内容,并按照预设规则,对所述第一表格与所述第二表格之间的差异内容进行标注。
可选的,所述处理模块具体用于:针对所述各第一图像轮廓和所述各第二图像轮廓中任一图像轮廓,对所述图像轮廓进行一维处理,并进行线性变换,获得第一矩阵;将所述第一矩阵进行非线性变换,获得第二矩阵;将所述第一矩阵和所述第二矩阵一同输入至所述宽度学习模型;若所述宽度学习模型的输出结果为预设标签,则确定所述图像轮廓对应的图像为表格。
可选的,所述处理模块具体用于:针对所述第二报表中任一表格,若所述表格的表头文字轮廓与所述第一表格的表头文字轮廓匹配,则确定所述表格为所述第二表格。
可选的,所述提取模块具体用于:对所述第一报表的图像进行降维处理,获得第一降维图像;对所述第一降维图像进行边缘检测,获得所述第一图像轮廓;对所述第二报表的图像进行降维处理,获得第二降维图像;对所述第二降维图像进行边缘检测,获得所述第二图像轮廓。
可选的,所述处理模块具体用于:对所述第一报表的图像进行灰度化,获得第一灰度图像;对所述第一灰度图像进行二值化,获得所述第一降维图像;对所述第二报表的图像进行灰度化,获得第二灰度图像;对所述第二灰度图像进行二值化,获得所述第二降维图像。
可选的,所述处理模块具体用于:根据所述第一表格中各行名的文字轮廓和\或各列名的文字轮廓,以及所述第二表格中各行名的文字轮廓和\或各列名的文字轮廓,确定所述第一表格与所述第二表格之间存在差异的行名和\或列名;为所述第一表格中相对于所述第二表格增加的行名和\或列名添加第一预设标记;在所述第一表格中添加相对于所述第二表格减少的行名和\或列名,并添加第二预设标记。
可选的,所述处理模块还用于:根据所述第一表格与所述第二表格中相同的行名和列名,确定所述第一表格中的第一单元格和所述第二表格中的第二单元格;所述第一单元格和所述第二单元格的行名和列名均相同;将所述第一单元格中的数据转换为第一黑白点阵图像,将所述第二单元格中的数据转换为第二黑白点阵图像;识别所述第一黑白点阵图像,获得第一指标数据;识别所述第二黑白点阵图像,获得第二指标数据;确定所述第一指标数据相对于所述第二指标数据的差值;若所述差值大于设定阈值,且所述第一指标数据和所述第二指标数据满足预设关系,则为所述第一指标数据添加第三预设标记;否则,为所述第一指标数据添加第四预设标记。
上述第二方面及第二方面各个可选装置的有益效果,可以参考上述第一方面及第一方面各个可选方法的有益效果,这里不再赘述。
第三方面,本发明提供一种计算机设备,包括程序或指令,当所述程序或指令被执行时,用以执行上述第一方面及第一方面各个可选的方法。
第四方面,本发明提供一种存储介质,包括程序或指令,当所述程序或指令被执行时,用以执行上述第一方面及第一方面各个可选的方法。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种报表分析方法对应的流程示意图;
图2为本发明实施例提供的一种报表分析方法中的宽度学习算法结构示意图;
图3为本发明实施例提供的一种报表分析方法中的宽度学习系统示意图;
图4为本发明实施例提供的一种报表分析方法中对报表间差异内容标注的流程示意图;
图5为本发明实施例提供的一种报表分析方法对应的具体流程示意图;
图6为本发明实施例提供的一种报表分析装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在金融机构(银行机构、保险机构或证券机构)在进行业务(如银行的贷款业务、存款业务等)运转过程中,金融机构的动态状况需要金融从业人员密切关注,一般采用报表的方式来反映金融机构的动态状况,如金融产品的各种运营报表。然而,目前人工对比的方法,不仅容易出错且效率较低。这种情况不符合银行等金融机构的需求,无法保证金融机构各项业务的高效运转。为此,如图1所示,本申请提供一种报表分析方法。
步骤101:第一报表和第二报表进行轮廓提取,确定所述第一报表的各第一图像轮廓和所述第二报表的各第二图像轮廓。
所述第二报表与所述第一报表分别为在不同时期针对相同事务生成的报表。
步骤102:根据所述各第一图像轮廓、所述各第二图像轮廓和宽度学习模型,确定所述第一报表中的表格和所述第二报表中的表格;确定所述第一报表的第一表格在所述第二报表中相匹配的第二表格。
所述第一表格为所述第一报表中的任一表格;所述宽度学习模型是基于表格轮廓图集和非表格轮廓图集根据宽度学习训练得到的。
步骤103:根据所述第一表格中的文字轮廓和所述第二表格中的文字轮廓,确定所述第一表格与所述第二表格之间的差异内容,并按照预设规则,对所述第一表格与所述第二表格之间的差异内容进行标注。
步骤101~步骤103的方法中,具体时期可以为天、周、月等。举例来说,第一报表为T日对于应用系统的运营报表,第二报表为T-1日对于应用系统的运营报表,如第一报表为10月5日金融系统的运营报表,第二报表为10月4日金融系统的运营报表。通过步骤101~步骤103的方法,自动化对比T日与T-1日报表,而不会遗漏掉一些数据的对比,更准确地对报表进行分析。
步骤101~步骤103的方法中,并没有采用传统的深度学习,而是采用了宽度学习(Broad Learning,BL),宽度学习具有高效增量的作用,而且上述方法还采用了图像轮廓作为宽度学习的训练集。在一些场景下,判断一个图像是什么,可以只关注图像的轮廓。举例来说,对于苹果、青蛙和麋鹿,它们之间轮廓有明显差异,若要获得一个准确区分苹果和非苹果的宽度学习系统,那么在宽度学习过程中,可以只通过图像轮廓做宽度学习,并不关注颜色、大小等其他细节,但得到的宽度学习系统,也能较准确地和其他物体区分开来。而基于图像轮廓的宽度学习,却能大幅降低运算量,提升整体效率。
步骤101~步骤103的方法中也应用了宽度学习,表格和其他图像的区别也较大,那么在宽度学习系统中只需要把表格这些轮廓特性学习到即可,而学习表格内的文字、数据,不仅会增加运算量,还可能学习到任意受干扰的知识,而只学习图像轮廓,便不会受到其余内容的干扰,可以更明显的区分表格和非表格。上述方法适用于高效快速数据对比场景,上述方法通过宽度学习用于对表格轮廓进行定位,该方法相比深度学习而言,样本量少,训练时间少,准确率高,能快速训练出具有辨别表格能力的宽度学习模型。
对于宽度学习的训练过程,可以直接采用图片轮廓进行训练分类,宽度学习系统可更加精确获取到表格的特征,提高了分辨能力,宽度学习的训练过程可以如下:
步骤(a):创建包含各种不同属性的表格图像轮廓集合(其属性可以包括:格数,灰度化、不同长宽),以及非表格图像轮廓集合。其中,每个图像轮廓可以用二维矩阵表示,其中每个图像轮廓的元素个数为m1*m2=M。
步骤(b):将二维矩阵转换为一维矩阵(1*M),表格图像轮廓集合和非表格图像轮廓集合中的图像轮廓数量为N,那么表格图像轮廓集合和非表格图像轮廓集合中所有图像轮廓构成一个二维矩阵(N*M=X),图集变量X代表该二维矩阵。宽度学习系统结构图如图2所示。其中H为矩阵组,包括H1~HM个矩阵。
步骤(c):X为n维向量,X通过映射关系φ进行线性变换得到矩阵组Z(包括n个映射的特征(Mapped Feature),即图2中Z1~Zn),矩阵组Z通过m维的矩阵组(即宽度学习系统)Wm按照映射关系ξ进行非线性变换得到矩阵组H(包括m个增强节点(enhancement node),即图2中H1~Hn),矩阵组Z和矩阵组H构成了矩阵组A,宽度学习系统为W,根据伪逆公式A*W=Y,Y为元素0和1构成的预期矩阵(N*1),其中表格图像轮廓对应为1,非表格图像轮廓对应为0。
步骤(d):根据伪逆算法W=A-1Y,训练宽度学习系统使其处于稳定状态,得到了矩阵W的参数,则该宽度学习系统具有了识别表格图像轮廓的能力,宽度学习系统示意图如图3。
步骤101~步骤103方法中,通过对第一报表和第二报表进行轮廓提取,结合已训练的宽度学习模型,只需要关注表格的轮廓特性,不会受到表格中填充文字等内容的影响,从而表格可以更明显地区别于其他内容,因此能够迅速、准确地定位出所述第一报表中的表格和所述第二报表中的表格,而且根据所述第一表格中的文字轮廓和所述第二表格中的文字轮廓,也能迅速比较出所述第一表格相对于所述第二表格的变化,并将其标注出来,即便报表中没有相应的统计图,也能在报表中体现差异,从而提供了一种高效且准确的报表分析方法。
一种可选实施方式中,步骤101的具体执行步骤可以如下:
对所述第一报表的图像进行降维处理,获得第一降维图像;对所述第一降维图像进行边缘检测,获得所述第一图像轮廓;对所述第二报表的图像进行降维处理,获得第二降维图像;对所述第二降维图像进行边缘检测,获得所述第二图像轮廓。
需要说明的是,对上述降维处理得到的降维图像,可以采用Canny算子进行边缘检测,最终获取到图像的轮廓。其中所述第一报表和所述第二报表在进行二值化时,采用相同的阈值进行处理。在采用Canny算子进行边缘检测时,两个报表均采用相同的算子,确保对比的准确性。
上述实施方式是将需要进行对比的第一报表和第二报表进行图像预处理的过程,通过降维处理后再边缘检测,获得所述第一图像轮廓和所述第二图像轮廓,从而可以大幅降低报表的图像的运算量,并通过边缘检测,较为准确高效地得到图像轮廓。
上述实施方式中,具体来说,获得第一降维图像和第二降维图像的过程可以为:
对所述第一报表的图像进行灰度化,获得第一灰度图像;对所述第一灰度图像进行二值化,获得所述第一降维图像;对所述第二报表的图像进行灰度化,获得第二灰度图像;对所述第二灰度图像进行二值化,获得所述第二降维图像。
上述实施方式即将第一报表和第二报表分别进行图像灰度化、二值化、再进行图像的轮廓提取,其中就包含了表格图像的轮廓提取。
针对所述第一报表的图像和所述第二报表的图像中任一图像,图像灰度化时,可以采用加权平均值法,得到更加合理的灰度化图像,若图像中的某一点为(i,j),则灰度化后,该点的像素值计算公式如下:
Gray(i,j)=0.299*R(i,j)+0.578*G(i,j)+0.114*B(i,j);
Gray(i,j)表示(i,j)灰度化后的像素值,R(i,j)、G(i,j)和B(i,j)分别表示图像中红色分量、绿色分量和蓝色分量的像素值,上述常数值表示权重值,具体取值不做限定,在其实施中,可设定其他值。
在获得灰度图像后,可以对灰度图像二值化,具体二值化算法可以采用Otsu算法等。
上述方式下,灰度化及二值化后的图像可以有效降低原图像中的信息量,过滤掉图像中大小、颜色等其他信息后,还可以较为准确地保存原图像中的轮廓,从而提供了一种高效准确地轮廓提取方式。
一种可选实施方式中,步骤102中确定所述第一报表中的表格和所述第二报表中的表格的具体方式可以如下:
针对所述各第一图像轮廓和所述各第二图像轮廓中任一图像轮廓,对所述图像轮廓进行一维处理,并进行线性变换,获得第一矩阵;将所述第一矩阵进行非线性变换,获得第二矩阵;将所述第一矩阵和所述第二矩阵一同输入至所述宽度学习模型;若所述宽度学习模型的输出结果为预设标签,则确定所述图像轮廓对应的图像为表格。
针对所述各第一图像轮廓和所述各第二图像轮廓中任一图像轮廓,上述过程具体可以如下:
将图像轮廓进行一维处理得到X’,对X’进行线性变换得到第一矩阵Z’,再将Z’进行非线性变换得到第二矩阵H’。将A’=[Z’,H’]输入训练好的宽度学习系统W,当输出为Y’=A’*W>0.5时,则表明该轮廓为表格图像轮廓,从而定位出表格在第一报表或第二报表中的位置。
显然,在上述表格定位过程,为了避免报表中其他非表格因素(如:文字,颜色等)的干扰,直接对整张报表进行二值化后并提取出轮廓,再输入经过已训练为具有辨别表格轮廓能力的宽度学习模型,可快速提取出报表中的表格轮廓并进行定位,相比用包含表格的图片去分辨出表格并定位,上述方法剔除了干扰内容,提取轮廓能使表格特征更加明显,宽度学习模型能从众多轮廓辨别出表格轮廓,准确度更高,而且还降低了运算量。
上述方法中,通过对图像轮廓进行一维处理,并进行线性变换,获得第一矩阵,从而降低了图像轮廓的数据量,进一步地,通过所述第一矩阵进行非线性变换,获得第二矩阵,从而将图像轮廓的特性更加细化地呈现,将所述第一矩阵和所述第二矩阵一同输入至所述宽度学习模型后,图像轮廓的特性既能被所述宽度学习模型有效识别,且不至于消耗过大运算量,从而进一步提升了确定所述第一报表中的表格和所述第二报表中的表格的效率。
一种可选实施方式中,步骤102中确定所述第一报表的第一表格在所述第二报表中相匹配的第二表格的具体方式如下:
针对所述第二报表中任一表格,若所述表格的表头文字轮廓与所述第一表格的表头文字轮廓匹配,则确定所述表格为所述第二表格。
上述方法中,针对所述第一报表中每个表格的表头文字轮廓A(i,j),均可以与所述第一报表中的表头文字轮廓B(i,j)进行文字轮廓匹配,获取到所述第一报表和所述第二报表中每个具体表格的一匹配关系和每个表格在报表的具体位置。
一种匹配方式为:文字轮廓匹配按照公式A(i,j)-B(i,j)=O(零矩阵),则表明文字匹配对应上,即需要对比的所述第一报表和所述第二报表两个表对应上了,是在比较相同的表格。
上述方法中,仅通过简单地文字轮廓匹配,能够迅速、准确地识别出第一表格在所述第二报表中相匹配的第二表格。
一种可选实施方式中,步骤103的具体实现过程可以为:
根据所述第一表格中各行名的文字轮廓和\或各列名的文字轮廓,以及所述第二表格中各行名的文字轮廓和\或各列名的文字轮廓,确定所述第一表格与所述第二表格之间存在差异的行名和\或列名;为所述第一表格中相对于所述第二表格增加的行名和\或列名添加第一预设标记;在所述第一表格中添加相对于所述第二表格减少的行名和\或列名,并添加第二预设标记。
举例来说,获取第一报表中的表格首行或首列的文字轮廓,逐个与第二报表中的对应表格的文字轮廓对比,可以优先与相同位置(首行或首列)的文字轮廓对比。可仍然采用文字轮廓相减是否等于零矩阵的方法。
若所述第一表格中相对于所述第二表格增加的行名和\或列名增加了,将增加的行名和\或列名添加第一预设标记,如颜色标注,蓝色;若所述第一表格中相对于所述第二表格增加的行名和\或列名减少了,则在所述第一表格中添加相对于所述第二表格减少的行名和\或列名,并添加第二预设标记,如颜色标注,黄色。
上述方式下,根据所述第一表格、第二表格中各行名的文字轮廓和\或各列名的文字轮廓,可以迅速准确地检验出确定所述第一表格与所述第二表格之间存在差异的行名和\或列名,并且可以给增加或减少的行名和\或列名添加相应标记,从而可以及时反馈第一表格和第二表格的区别。
进一步地,基于上述实施方式,步骤103之后还可以执行如下步骤:
根据所述第一表格与所述第二表格中相同的行名和列名,确定所述第一表格中的第一单元格和所述第二表格中的第二单元格;所述第一单元格和所述第二单元格的行名和列名均相同;将所述第一单元格中的数据转换为第一黑白点阵图像,将所述第二单元格中的数据转换为第二黑白点阵图像;识别所述第一黑白点阵图像,获得第一指标数据;识别所述第二黑白点阵图像,获得第二指标数据;确定所述第一指标数据相对于所述第二指标数据的差值;若所述差值大于设定阈值,且所述第一指标数据和所述第二指标数据满足预设关系,则为所述第一指标数据添加第三预设标记;否则,为所述第一指标数据添加第四预设标记。
具体来说,对于所述第一表格与所述第二表格中相同的行名和列名的单元格,可以根据所述第一单元格所在表格的具体位置,获取匹配所述第一单元格的第二单元格在报表的具体区域,进行OCR识别,获得第一指标数据和第二指标数据。
进一步地,所述第一指标数据和所述第二指标数据满足预设关系,举例来说,可以为大小关系,如所述第一指标数据大于所述第二指标数据,所述第一指标数据为所述第二指标数据的二倍以上等,具体预设关系可以根据场景灵活设置。可以计算第一指标数据相比第二指标数据的波动大小(如差值、比例),当波动范围超过预设阈值(如第一指标数据的预设比例),便添加第三预设标记,反之添加第四预设标记。
还可以根据实际情况进一步设定标注条件,如设定第一指标数据大于第二指标数据时,标注第三预设标记,如红色,指示数据增长且波动较大;或者第一指标数据小于第二指标数据时,标注第四预设标记,如绿色,指示数据减少且波动较大。
上述方式下,在确定行名和列名均相同的所述第一单元格和所述第二单元格时,将所述第一单元格中的数据转换为第一黑白点阵图像,将所述第二单元格中的数据转换为第二黑白点阵图像;识别所述第一黑白点阵图像,获得第一指标数据;识别所述第二黑白点阵图像,获得第二指标数据,在不同差值情况下添加不同的预设标记,从而可以根据第一指标数据与第二指标数据的差值,及时反馈指标数据的变化。
更具体地,上述实施方式的具体过程可以如图4所示。
步骤401:根据所述第一表格和所述第二表格中各行名的文字轮廓和\或各列名的文字轮廓,对所述第一表格与所述第二表格进行差异对比。
步骤402:确定所述第一表格是否存在变动的行名和\或列名。
若是,执行步骤403;否则,执行步骤406。
步骤403:确定变动的行名和\或列名为增加的行名和\或列名。
若是,执行步骤404;否则,执行步骤405。
步骤404:为增加的行名和\或列名添加第一预设标记。
步骤405:添加相对于所述第二表格减少的行名和\或列名,并添加第二预设标记。
步骤406:将所述第一单元格中的数据转换为第一黑白点阵图像,将所述第二单元格中的数据转换为第二黑白点阵图像;识别所述第一黑白点阵图像,获得第一指标数据;识别所述第二黑白点阵图像,获得第二指标数据。
步骤407:确定所述第一指标数据相对于所述第二指标数据的差值是否大于设定阈值。
若是,执行步骤409;否则,执行步骤408。
步骤408:不做标记处理。
步骤409:确定所述第一指标数据和所述第二指标数据是否满足预设关系。
步骤410:为所述第一指标数据添加第三预设标记。
步骤411:为所述第一指标数据添加第四预设标记。
图4示出的方法中,通过自动标注的方式,自动展示出行名和\或列名的增加或减少,当第一报表中行名和\或列名遗漏时,可通过图4示出的方法直接可视化发现,减少运营风险,从而增加了报表分析的可靠性。通过可视化的自动标注,可从视觉上更快速地发现数据的变化差异,而不需要人工计算对比,从而增加了报表分析的高效性。
而且,图4示出的方法分别采用了文字轮廓匹配和OCR识别技术。其中在所述第一表格和所述第二表格匹配行名和\或列名对比方面,相较于直接采用OCR识别技术对比,采用提取表格方格内的文字轮廓直接匹配,速度更高,准确率也更高,并且成本低。
综上所述,本申请实施例提供的一种报表分析方法对应的具体流程图可以如图5所示。
步骤501:训练宽度学习模型,使训练后的宽度学习模型具有识别表格轮廓的能力,以用于表格的定位。
步骤502:获取第一报表和第二报表的图像轮廓。
举例来说,这里第一报表和第二报表均为项目产品运营报表,第一报表为T日的日报,第二报表为T-1或者T-n的历史报表,如第一报表为10月15日报表,第二报表为10月10日报表。
步骤503:将报表中提取的图像轮廓输入训练好的宽度学习模型,筛选出表格图像轮廓,并结合表格的表头文字轮廓进行匹配,从而定位出每张表格在报表中的具体位置。
步骤504:利用文字轮廓匹配技术对报表的行名和\或列名进行识别匹配,检测出第一报表中表格相比第二报表中表格增加或减少的行名和\或列名并进行标注提示。
步骤505:利用OCR识别技术对报表中行名和\或列名匹配后的指标数据进行差值计算,筛选出差值超过设定阈值且满足预设关系的指标数据,并进行标注。
进一步地,如图6所示,本发明提供一种报表分析装置,包括:提取模块601,用于对第一报表和第二报表进行轮廓提取,确定所述第一报表的各第一图像轮廓和所述第二报表的各第二图像轮廓;所述第二报表与所述第一报表分别为在不同时期针对相同事务生成的报表;确定模块,用于根据所述各第一图像轮廓、所述各第二图像轮廓和宽度学习模型,确定所述第一报表中的表格和所述第二报表中的表格;确定所述第一报表的第一表格在所述第二报表中相匹配的第二表格;所述第一表格为所述第一报表中的任一表格;所述宽度学习模型是基于表格轮廓图集和非表格轮廓图集根据宽度学习训练得到的;以及用于根据所述第一表格中的文字轮廓和所述第二表格中的文字轮廓,确定所述第一表格与所述第二表格之间的差异内容,并按照预设规则,对所述第一表格与所述第二表格之间的差异内容进行标注。
可选的,所述处理模块602具体用于:针对所述各第一图像轮廓和所述各第二图像轮廓中任一图像轮廓,对所述图像轮廓进行一维处理,并进行线性变换,获得第一矩阵;将所述第一矩阵进行非线性变换,获得第二矩阵;将所述第一矩阵和所述第二矩阵一同输入至所述宽度学习模型;若所述宽度学习模型的输出结果为预设标签,则确定所述图像轮廓对应的图像为表格。
可选的,所述处理模块602具体用于:针对所述第二报表中任一表格,若所述表格的表头文字轮廓与所述第一表格的表头文字轮廓匹配,则确定所述表格为所述第二表格。
可选的,所述提取模块601具体用于:对所述第一报表的图像进行降维处理,获得第一降维图像;对所述第一降维图像进行边缘检测,获得所述第一图像轮廓;对所述第二报表的图像进行降维处理,获得第二降维图像;对所述第二降维图像进行边缘检测,获得所述第二图像轮廓。
可选的,所述处理模块602具体用于:对所述第一报表的图像进行灰度化,获得第一灰度图像;对所述第一灰度图像进行二值化,获得所述第一降维图像;对所述第二报表的图像进行灰度化,获得第二灰度图像;对所述第二灰度图像进行二值化,获得所述第二降维图像。
可选的,所述处理模块602具体用于:根据所述第一表格中各行名的文字轮廓和\或各列名的文字轮廓,以及所述第二表格中各行名的文字轮廓和\或各列名的文字轮廓,确定所述第一表格与所述第二表格之间存在差异的行名和\或列名;为所述第一表格中相对于所述第二表格增加的行名和\或列名添加第一预设标记;在所述第一表格中添加相对于所述第二表格减少的行名和\或列名,并添加第二预设标记。
可选的,所述处理模块602还用于:根据所述第一表格与所述第二表格中相同的行名和列名,确定所述第一表格中的第一单元格和所述第二表格中的第二单元格;所述第一单元格和所述第二单元格的行名和列名均相同;将所述第一单元格中的数据转换为第一黑白点阵图像,将所述第二单元格中的数据转换为第二黑白点阵图像;识别所述第一黑白点阵图像,获得第一指标数据;识别所述第二黑白点阵图像,获得第二指标数据;确定所述第一指标数据相对于所述第二指标数据的差值;若所述差值大于设定阈值,且所述第一指标数据和所述第二指标数据满足预设关系,则为所述第一指标数据添加第三预设标记;否则,为所述第一指标数据添加第四预设标记。
基于同一发明构思,本发明实施例还提供了一种计算机设备,包括程序或指令,当所述程序或指令被执行时,如本发明实施例提供的报表分析方法及任一可选方法被执行。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,包括程序或指令,当所述程序或指令被执行时,如本发明实施例提供的报表分析方法及任一可选方法被执行。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,并且本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种报表分析方法,其特征在于,包括:
对第一报表和第二报表进行轮廓提取,确定所述第一报表的各第一图像轮廓和所述第二报表的各第二图像轮廓;所述第二报表与所述第一报表分别为在不同时期针对相同事务生成的报表;
根据所述各第一图像轮廓、所述各第二图像轮廓和宽度学习模型,确定所述第一报表中的表格和所述第二报表中的表格;确定所述第一报表的第一表格在所述第二报表中相匹配的第二表格;所述第一表格为所述第一报表中的任一表格;所述宽度学习模型是基于表格轮廓图集和非表格轮廓图集根据宽度学习训练得到的;
根据所述第一表格中的文字轮廓和所述第二表格中的文字轮廓,确定所述第一表格与所述第二表格之间的差异内容,并按照预设规则,对所述第一表格与所述第二表格之间的差异内容进行标注。
2.如权利要求1所述的方法,其特征在于,所述根据所述各第一图像轮廓、所述各第二图像轮廓和宽度学习模型,确定所述第一报表中的表格和所述第二报表中的表格,包括:
针对所述各第一图像轮廓和所述各第二图像轮廓中任一图像轮廓,对所述图像轮廓进行一维处理,并进行线性变换,获得第一矩阵;将所述第一矩阵进行非线性变换,获得第二矩阵;
将所述第一矩阵和所述第二矩阵一同输入至所述宽度学习模型;若所述宽度学习模型的输出结果为预设标签,则确定所述图像轮廓对应的图像为表格。
3.如权利要求1所述的方法,其特征在于,所述确定所述第一报表的第一表格在所述第二报表中相匹配的第二表格,包括:
针对所述第二报表中任一表格,若所述表格的表头文字轮廓与所述第一表格的表头文字轮廓匹配,则确定所述表格为所述第二表格。
4.如权利要求1所述的方法,其特征在于,所述对第一报表和第二报表进行轮廓提取,确定所述第一报表的各第一图像轮廓和所述第二报表的各第二图像轮廓,包括:
对所述第一报表的图像进行降维处理,获得第一降维图像;对所述第一降维图像进行边缘检测,获得所述第一图像轮廓;
对所述第二报表的图像进行降维处理,获得第二降维图像;对所述第二降维图像进行边缘检测,获得所述第二图像轮廓。
5.如权利要求4所述的方法,其特征在于,所述对所述第一报表的图像进行降维处理,获得第一降维图像;对所述第二报表的图像进行降维处理,获得第二降维图像,包括:
对所述第一报表的图像进行灰度化,获得第一灰度图像;对所述第一灰度图像进行二值化,获得所述第一降维图像;
对所述第二报表的图像进行灰度化,获得第二灰度图像;对所述第二灰度图像进行二值化,获得所述第二降维图像。
6.如权利要求1至5任一项所述的方法,其特征在于,所述根据所述第一表格中的文字轮廓和所述第二表格中的文字轮廓,确定所述第一表格与所述第二表格之间的差异内容,并按照预设规则,对所述第一表格与所述第二表格之间的差异内容进行标注,包括:
根据所述第一表格中各行名的文字轮廓和\或各列名的文字轮廓,以及所述第二表格中各行名的文字轮廓和\或各列名的文字轮廓,确定所述第一表格与所述第二表格之间存在差异的行名和\或列名;
为所述第一表格中相对于所述第二表格增加的行名和\或列名添加第一预设标记;在所述第一表格中添加相对于所述第二表格减少的行名和\或列名,并添加第二预设标记。
7.如权利要求6所述的方法,其特征在于,还包括:
根据所述第一表格与所述第二表格中相同的行名和列名,确定所述第一表格中的第一单元格和所述第二表格中的第二单元格;所述第一单元格和所述第二单元格的行名和列名均相同;
将所述第一单元格中的数据转换为第一黑白点阵图像,将所述第二单元格中的数据转换为第二黑白点阵图像;识别所述第一黑白点阵图像,获得第一指标数据;识别所述第二黑白点阵图像,获得第二指标数据;
确定所述第一指标数据相对于所述第二指标数据的差值;若所述差值大于设定阈值,且所述第一指标数据和所述第二指标数据满足预设关系,则为所述第一指标数据添加第三预设标记;否则,为所述第一指标数据添加第四预设标记。
8.一种报表分析装置,其特征在于,包括:
提取模块,用于对第一报表和第二报表进行轮廓提取,确定所述第一报表的各第一图像轮廓和所述第二报表的各第二图像轮廓;所述第二报表与所述第一报表分别为在不同时期针对相同事务生成的报表;
确定模块,用于根据所述各第一图像轮廓、所述各第二图像轮廓和宽度学习模型,确定所述第一报表中的表格和所述第二报表中的表格;确定所述第一报表的第一表格在所述第二报表中相匹配的第二表格;所述第一表格为所述第一报表中的任一表格;所述宽度学习模型是基于表格轮廓图集和非表格轮廓图集根据宽度学习训练得到的;以及用于
根据所述第一表格中的文字轮廓和所述第二表格中的文字轮廓,确定所述第一表格与所述第二表格之间的差异内容,并按照预设规则,对所述第一表格与所述第二表格之间的差异内容进行标注。
9.一种计算机设备,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至7中任意一项所述的方法被执行。
10.一种计算机可读存储介质,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至7中任意一项所述的方法被执行。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011356673.2A CN112445849B (zh) | 2020-11-27 | 2020-11-27 | 一种报表分析方法及装置 |
PCT/CN2021/128592 WO2022111247A1 (zh) | 2020-11-27 | 2021-11-04 | 一种报表分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011356673.2A CN112445849B (zh) | 2020-11-27 | 2020-11-27 | 一种报表分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112445849A CN112445849A (zh) | 2021-03-05 |
CN112445849B true CN112445849B (zh) | 2022-07-15 |
Family
ID=74737955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011356673.2A Active CN112445849B (zh) | 2020-11-27 | 2020-11-27 | 一种报表分析方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112445849B (zh) |
WO (1) | WO2022111247A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112445849B (zh) * | 2020-11-27 | 2022-07-15 | 深圳前海微众银行股份有限公司 | 一种报表分析方法及装置 |
CN117454859B (zh) * | 2023-12-19 | 2024-04-02 | 四川弘和数智集团有限公司 | 油气站数据自动录入方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9858476B1 (en) * | 2016-06-30 | 2018-01-02 | Konica Minolta Laboratory U.S.A., Inc. | Method for recognizing table, flowchart and text in document images |
US10242257B2 (en) * | 2017-05-18 | 2019-03-26 | Wipro Limited | Methods and devices for extracting text from documents |
CN109886059B (zh) * | 2019-01-25 | 2022-08-05 | 佛山市顺德区中山大学研究院 | 一种基于宽度学习的qr码图像检测方法 |
CN111881769A (zh) * | 2020-07-03 | 2020-11-03 | 苏州开心盒子软件有限公司 | 一种表格标注的方法和系统 |
CN112445849B (zh) * | 2020-11-27 | 2022-07-15 | 深圳前海微众银行股份有限公司 | 一种报表分析方法及装置 |
-
2020
- 2020-11-27 CN CN202011356673.2A patent/CN112445849B/zh active Active
-
2021
- 2021-11-04 WO PCT/CN2021/128592 patent/WO2022111247A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN112445849A (zh) | 2021-03-05 |
WO2022111247A1 (zh) | 2022-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492643B (zh) | 基于ocr的证件识别方法、装置、计算机设备及存储介质 | |
US20210374466A1 (en) | Water level monitoring method based on cluster partition and scale recognition | |
CN109784342B (zh) | 一种基于深度学习模型的ocr识别方法及终端 | |
CN101915769A (zh) | 一种印刷电路板中带电阻元件的自动光学检测方法 | |
CN112445849B (zh) | 一种报表分析方法及装置 | |
WO2021258634A1 (zh) | 一种图像审计识别方法、装置及存储介质 | |
CN113569863B (zh) | 一种单据稽查的方法、系统、电子设备及存储介质 | |
CN116434266B (zh) | 一种医疗检验单的数据信息自动提取分析方法 | |
US11704476B2 (en) | Text line normalization systems and methods | |
US20230222643A1 (en) | Semantic deep learning and rule optimization for surface corrosion detection and evaluation | |
CN113591866A (zh) | 基于db与crnn的特种作业证件检测方法及系统 | |
CN115393861B (zh) | 一种手写体文本精准分割方法 | |
CN114663904A (zh) | 一种pdf文档布局检测方法、装置、设备及介质 | |
CN111652117B (zh) | 一种对多文档图像分割的方法及介质 | |
Alaei et al. | Blind document image quality prediction based on modification of quality aware clustering method integrating a patch selection strategy | |
CN111738979A (zh) | 证件图像质量自动检查方法及系统 | |
CN112883926B (zh) | 表格类医疗影像的识别方法及装置 | |
CN114581928A (zh) | 一种表格识别方法及系统 | |
CN111914706A (zh) | 一种文字检测输出结果质量检测和控制的方法与装置 | |
US20230154217A1 (en) | Method for Recognizing Text, Apparatus and Terminal Device | |
CN114663899A (zh) | 金融票据的处理方法、装置、设备及介质 | |
CN116563869B (zh) | 页面图像文字处理方法、装置、终端设备和可读存储介质 | |
CN113255657B (zh) | 票据表面刮痕检测方法、装置、电子设备、机器可读介质 | |
CN113792780B (zh) | 基于深度学习和图像后处理的集装箱号识别方法 | |
CN117540715A (zh) | 一种基于深度学习和计算机视觉的表格识别方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |