CN111414889A - 基于文字识别的财务报表识别方法及装置 - Google Patents
基于文字识别的财务报表识别方法及装置 Download PDFInfo
- Publication number
- CN111414889A CN111414889A CN202010245364.1A CN202010245364A CN111414889A CN 111414889 A CN111414889 A CN 111414889A CN 202010245364 A CN202010245364 A CN 202010245364A CN 111414889 A CN111414889 A CN 111414889A
- Authority
- CN
- China
- Prior art keywords
- image data
- financial statement
- character recognition
- recognition
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种基于文字识别的财务报表识别方法及装置,基于文字识别的财务报表识别方法包括:接收所述财务报表的图像数据;对所述图像数据进行标准化处理以及预处理;利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别。本发明将财务报表录入与文字识别技术相结合,能有效减少人工录入的工作量,提升信息采集的准确度。
Description
技术领域
本发明涉及信息技术领域,具体涉及文字识别领域技术领域,特别是涉及一种基于文字识别的财务报表识别方法及装置。
背景技术
在传统信贷业务办理过程中,信息采集仍然主要依靠业务人员手工录入,特别是财务报表业务场景,每年需要手工录入数千张各行业公司财务报表,其表格数量多,金额数字量很大,效率低下并且容易出错。
随着人工智能的不断发展,基于模式识别和深度学习文字识别技术日渐成熟。文字识别技术也大量的被运用到数据自动录入的场景,在信贷财务报表录入场景下,这些通用机制目前存在一些缺陷,主要包括:一是财务报表格式应企业而异,对于非通用格式的图像,识别后的文字提取造成困难;二是财务报表图像数量较多,识别耗时较长;三是财务指标名称没有统一标准,无法自动映射到系统标准财务报表模板中,准确率较低。
发明内容
针对现有技术中的问题,本发明提供的基于文字识别的财务报表识别方法及装置,将财务报表录入与文字识别技术相结合,能有效减少人工录入的工作量,提升信息采集的准确度。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种基于文字识别的财务报表识别方法,包括:
接收所述财务报表的图像数据;
对所述图像数据进行标准化处理以及预处理;
利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别。
一实施例中,对所述图像数据进行标准化处理包括:
判断所述图像数据的dpi是否大于预设值、表格线是否完整以及倾斜角度是否小于预设角度。
一实施例中,对所述图像数据进行预处理包括:
对标准化后的图像数据一次进行二值化处理、倾斜矫正以及归一化;
对标准化之后的图像数据进行矩形卷积核处理。
一实施例中,所述利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别,包括:
利用lsd算法对所述图像数据进行直线检测,以获取所述图像数据中的单元格位置以及所述单元格中的内容;
对所述单元格中的内容进行碎片化处理;
将碎片化之后的内容输入至所述CNN神经网络模型中。
第二方面,本发明提供一种基于文字识别的财务报表录入装置,该装置包括:
图像数据接收单元,用于接收所述财务报表的图像数据;
图像数据处理单元,用于对所述图像数据进行标准化处理以及预处理;
文字识别单元,用于利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别。
一实施例中,所述图像数据处理单元包括:
预处理模块,用于判断所述图像数据的dpi是否大于预设值、表格线是否完整以及倾斜角度是否小于预设角度。
一实施例中,所述图像数据处理单元还包括:
第一标准化模块,用于对标准化后的图像数据一次进行二值化处理、倾斜矫正以及归一化;
第二标准化模块,用于对标准化之后的图像数据进行矩形卷积核处理。
一实施例中,所述文字识别单元包括:
内容获取模块,用于利用lsd算法对所述图像数据进行直线检测,以获取所述图像数据中的单元格位置以及所述单元格中的内容;
内容碎片化模块,用于对所述单元格中的内容进行碎片化处理;
内容测试模块,用于将碎片化之后的内容输入至所述CNN神经网络模型中。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现基于文字识别的财务报表识别方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现基于文字识别的财务报表识别方法的步骤。
从上述描述可知,本发明实施例提供的基于文字识别的财务报表识别方法及装置,将财务报表自动录入框架单独抽离出来形成独立部署的系统,不再与原应用系统耦合,避免出现资源争用的情况。具体地,将整个方法剥离为图像采集、电子图像数据管理、文字识别以及报表录入,实现按功能分离管理,装置之间通过并发、异步调用的方式提高系统响应速度。并对图像数据进行标准化,对于图像质量进行准入控制和预处理、自动匹配、纠错、手动调整,统一指标标准,从而提高匹配准确率。
综上,本发明将财务报表录入与文字识别技术相结合,能有效减少人工录入的工作量,提升信息采集的准确度。与传统的报表识别录入方式相比其优点如下:
1.高识别率:对图像质量进行准入,并且对表格线、倾斜角度等进行预处理,提高识别率。
2.高准确率:根据历史手动纠错结果,将财报指标名称和标准化名称进行自动匹配和纠错,提高准确率。
3.高效率:将系统拆分为电子影像、文字识别和报表录入三个独立的部分,通过异步方式发起识别任务,减少文字识别效率对系统响应的影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实施例中基于文字识别的财务报表识别方法中财务报表示意图一;
图2为本发明的实施例中基于文字识别的财务报表识别方法中财务报表示意图二;
图3为本发明的实施例中基于文字识别的财务报表识别方法中财务报表示意图三;
图4为本发明的实施例中基于文字识别的财务报表识别方法中财务报表示意图四;
图5为本发明的实施例中基于文字识别的财务报表识别方法流程意图;
图6为本发明的实施例中基于文字识别的财务报表识别方法步骤200的流程示意图一;
图7为本发明的实施例中基于文字识别的财务报表识别方法步骤200的流程示意图二;
图8为本发明的实施例中基于文字识别的财务报表识别方法步骤300的流程示意图;
图9为本发明的具体应用实例中基于文字识别的财务报表识别方法的流程示意图;
图10为本发明的具体应用实例中纠错前财务报表示意图;
图11为本发明的具体应用实例中纠错后财务报表示意图;
图12为本发明的具体应用实例中基于文字识别的财务报表录入装置的结构示意图;
图13为本发明的具体应用实例中图像数据处理单元的结构示意图一;
图14为本发明的具体应用实例中图像数据处理单元的结构示意图二;
图15为本发明的具体应用实例中文字识别单元的结构示意图;
图16为本发明的实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
鉴于现有技术中针对财务报表图像识别的问题,各公司提供的财务报表有多种形式,如下图1至图4所示,可以理解的是,财报报表由多个财务指标组成,一个财务指标是由指标名称和值组成。目前采集的影像有3个问题造成对文字识别产生干扰。
1.列不固定,导致无法定位到需要提取的指标名称和值列。
2.指标名称和展示顺序不固定,各个公司指标含义一样但名称有差别,如本年净利润和净利润、营业收入和营业额等。展示的顺序每个公司也尽不相同。
3.影像有印章、签名等内容,覆盖在财务指标字体上,干扰财务指标识别。
基于此,本发明的实施例提供一种基于文字识别的财务报表识别方法的具体实施方式,参见图5,该方法具体包括如下内容:
步骤100:接收所述财务报表的图像数据。
步骤100在实施时,具体为:接受报表图像数据,可以为图像导入、摄像等多种获取方式。在通过摄像导入时,可以通过边缘检测、自动对焦方式提高图像质量。
步骤200:对所述图像数据进行标准化处理以及预处理。
可以理解的是,数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。针对图像,图像标准化是将数据通过去均值实现中心化的处理,根据凸优化理论与数据概率分布相关知识,数据中心化符合数据分布规律,更容易取得训练之后的泛化效果。另外,步骤200中的图像预处理是指将每一个文字图像分检出来以进行识别,这一过程称为图像预处理。即在图像分析中,对输入图像进行特征抽取、分割和匹配前所进行的处理。图像预处理的主要目的是消除图像中无关的信息,恢复有用的真实信息,增强有关信息的可检测性和最大限度地简化数据,从而改进特征抽取、图像分割、匹配和识别的可靠性。
步骤300:利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别。
步骤300中的CNN神经网络模型包括输入层、卷积层、池化层以及全连接层,输入层,可以理解为输入若干个矩阵。接着是卷积层(Convolution Layer),这里卷积层的激活函数使用的是ReLU,即ReLU(x)=max(0,x)。在卷积层后面是池化层(Pooling layer)。需要注意的是,池化层没有激活函数。卷积层+池化层的组合可以在隐藏层出现很多次,实际上这个次数是根据模型的需要而来的。当然也可以灵活使用卷积层+卷积层,或者卷积层+卷积层+池化层的组合,这些在构建模型的时候没有限制。在若干卷积层+池化层后面是全连接层(Fully Connected Layer,简称FC),全连接层只是输出层使用了Softmax激活函数来做图像识别的分类。
从上述描述可知,本发明实施例提供的基于文字识别的财务报表识别方法,将财务报表自动录入框架单独抽离出来形成独立部署的系统,不再与原应用系统耦合,避免出现资源争用的情况。具体地,将整个方法剥离为图像采集、电子图像数据管理、文字识别以及报表录入,实现按功能分离管理,装置之间通过并发、异步调用的方式提高系统响应速度。并对图像数据进行标准化,对于图像质量进行准入控制和预处理、自动匹配、纠错、手动调整,统一指标标准,从而提高匹配准确率。
一实施例中,参见图6,步骤200具体包括:
步骤201:判断所述图像数据的dpi是否大于预设值、表格线是否完整以及倾斜角度是否小于预设角度。
具体地,判断是否满足文字识别的最低标准,例如dpi大于200、表格线完整、倾斜角度小于10度。若满足要求,对图像进行下一步操作;若不满足则进行错误提醒。
一实施例中,参见图7,步骤200还包括:
步骤202:对标准化后的图像数据一次进行二值化处理、倾斜矫正以及归一化。
步骤203:对标准化之后的图像数据进行矩形卷积核处理。
在步骤202以及步骤203中,通过二值化、倾斜矫正、归一化等处理,再使用形态学处理构造中图像腐蚀和图像膨胀所用的矩形卷积核进行处理,填充边缘线中断区域,以消除图像噪声。
一实施例中,参见图8,步骤300具体包括:
步骤301:用lsd算法对所述图像数据进行直线检测,以获取所述图像数据中的单元格位置以及所述单元格中的内容。
可以理解的是,步骤301中的LSD算法是一种线段(line segment)检测算法,能够在线性时间内得到亚像素级精度的检测结果,且无需调试参数就可以适用于任何数字图像上,并且能够自行控制误检数量。LSD算法的目的是检测图像中的局部直线边缘,边缘是灰度值(gray level)从黑到白(或从白到黑)变化明显的图像区域。具体地,首先计算图像中各个像素点的的level-line角度,从而产生level-line场(一种单位向量场,并且每个向量都同过基准点且相切于level-line)。然后,这个level-line场将在一定容忍角度τ内具有相同的level-line角度的像素划分成不同的像素连通域,这个连通域称之为线段支持域(line support regions)。每一个线段支持域都是直线分割的候选区域,并且有个相应的矩形与之一一对应。该矩形的主方向为线段支持域的惯性主轴方向,并且矩形的大小必须覆盖整个线段支持域,将矩形区域内像素点的level-line角度与矩形主方向角度的夹角在容忍角度τ内的像素点称之为内点(aligned point),如图4所示。统计矩形区域内像素点的数量n和内点的数量k的比值,它们之间的比值将作为判断矩形区域是否为检测的线段的标准,该判断标准是基于一种contrario方法和Helmholtz原则。
步骤302:对所述单元格中的内容进行碎片化处理。
具体地,将图像数据创建多个相互偏移的副本,以产生类似重影的效果。
步骤303:将碎片化之后的内容输入至所述CNN神经网络模型中。
具体地,针对每个碎片化图片通过已经训练好的CNN神经网络算法测试,获取识别结果,识别结果为表格坐标和识别文字,最后将识别结果存储到报表中,并录入至系统。
从上述描述可知,本发明实施例提供的基于文字识别的财务报表识别方法,将财务报表自动录入框架单独抽离出来形成独立部署的系统,不再与原应用系统耦合,避免出现资源争用的情况。具体地,将整个方法剥离为图像采集、电子图像数据管理、文字识别以及报表录入,实现按功能分离管理,装置之间通过并发、异步调用的方式提高系统响应速度。并对图像数据进行标准化,对于图像质量进行准入控制和预处理、自动匹配、纠错、手动调整,统一指标标准,从而提高匹配准确率。
综上,本发明将财务报表录入与文字识别技术相结合,能有效减少人工录入的工作量,提升信息采集的准确度。与传统的报表识别录入方式相比其优点如下:
1.高识别率:对图像质量进行准入,并且对表格线、倾斜角度等进行预处理,提高识别率。
2.高准确率:根据历史手动纠错结果,将财报指标名称和标准化名称进行自动匹配和纠错,提高准确率。
3.高效率:将系统拆分为电子影像、文字识别和报表录入三个独立的部分,通过异步方式发起识别任务,减少文字识别效率对系统响应的影响。
为进一步地说明本方案,本发明提供基于文字识别的财务报表识别方法的具体应用实例,该具体应用实例具体包括如下内容,参见图9。
S0:采集图像数据。
可通过多种方式采集图像数据,例如A公司提供的财务报表为表格形式,为了一线人员采集方便,通过手机拍摄纸质报表方式进行采集,并通过自动对焦、格式对齐校验提高采集质量。
S1:对图像数据进行标准化处理。
如图像分辨率是否达标,表格线是否清晰、对图像中的断线进行预处理以及对图像角度倾斜进行纠偏预处理,如果不符合则提示用户生成图像。
S2:对图像数据进行分类和业务挂接。
S3:对图像数据进行预处理。
具体地,通过二值化、倾斜矫正、归一化等算法,去除噪点、印章等无关内容,将图片转成易于识别的文字图片。
S4:对图片进行文字识别。
以特征提取的方式,先根据表格线提取各个表格位置,再在表格内根据神经网络算法进行文字识别,将图片识别为文字。识别后输出数据格式为坐标位置和文字组成的json数据。最后将识别结果存储到数据库中。
S5:算法相似度排序。
自动匹配财报类型、指标列、指标名称。具体包括财报类型匹配、表格列匹配、指标名称匹配。财报类型有资产负债表、利润表、现金流量表等,根据关键词自动确定财报类型;财务报表形式多样,需要自动匹配指标名称列,根据大于一定阈值的中文字符列确定为指标名称列,一定阈值的数字列,确定为指标值列;指标名称根据标准指标名称和识别后的指标名称使用编辑距离算法进行相似度匹配,相似度从高到低进行排序,便于后续手工调整。
S6:对纠错结果进行排序。
根据历史的人工纠错结果进行指标相似度排序的调整,对指标值进行数字的标准化处理,如去除逗号和多余的小数点。对于匹配度低于一定阈值的指标进行人工纠错和确认,包括数字识别、表格和财务报表匹配进行纠错。对于一个财务指标名称有对应多列数字情况,需要人工纠错,确认指标值列。对于匹配度低于一定阈值的指标,根据数据库中的识别数据提供人工纠错页面,并将人工纠错结果存入数据库供。数字识别纠错,对于模糊图片可能识别错误,需要手工纠错,在纠错时,根据数字的表格线坐标放大图片对应位置,便于人工纠错。如图10以及图11所示。最后将纠错后的报表数据写入到数据库。
从上述描述可知,本发明实施例提供的基于文字识别的财务报表识别方法,将财务报表自动录入框架单独抽离出来形成独立部署的系统,不再与原应用系统耦合,避免出现资源争用的情况。具体地,将整个方法剥离为图像采集、电子图像数据管理、文字识别以及报表录入,实现按功能分离管理,装置之间通过并发、异步调用的方式提高系统响应速度。并对图像数据进行标准化,对于图像质量进行准入控制和预处理、自动匹配、纠错、手动调整,统一指标标准,从而提高匹配准确率。
综上,本发明将财务报表录入与文字识别技术相结合,能有效减少人工录入的工作量,提升信息采集的准确度。与传统的报表识别录入方式相比其优点如下:
1.高识别率:对图像质量进行准入,并且对表格线、倾斜角度等进行预处理,提高识别率。
2.高准确率:根据历史手动纠错结果,将财报指标名称和标准化名称进行自动匹配和纠错,提高准确率。
3.高效率:将系统拆分为电子影像、文字识别和报表录入三个独立的部分,通过异步方式发起识别任务,减少文字识别效率对系统响应的影响。
基于同一发明构思,本申请实施例还提供了基于文字识别的财务报表录入装置,可以用于实现上述实施例所描述的方法,如下面的实施例。由于基于文字识别的财务报表录入装置解决问题的原理与基于文字识别的财务报表识别方法相似,因此基于文字识别的财务报表录入装置的实施可以参见基于文字识别的财务报表识别方法实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本发明的实施例提供一种能够实现基于文字识别的财务报表识别方法的基于文字识别的财务报表录入装置的具体实施方式,参见图12,基于文字识别的财务报表录入装置具体包括如下内容:
图像数据接收单元10,用于接收所述财务报表的图像数据;
图像数据处理单元20,用于对所述图像数据进行标准化处理以及预处理;
文字识别单元30,用于利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别。
一实施例中,参见图13,所述图像数据处理单元20包括:
预处理模块201,用于判断所述图像数据的dpi是否大于预设值、表格线是否完整以及倾斜角度是否小于预设角度。
一实施例中,参见图14,所述图像数据处理单元20还包括:
第一标准化模块202,用于对标准化后的图像数据一次进行二值化处理、倾斜矫正以及归一化;
第二标准化模块203,用于对标准化之后的图像数据进行矩形卷积核处理。
一实施例中,参见图15,所述文字识别单元30包括:
内容获取模块301,用于利用lsd算法对所述图像数据进行直线检测,以获取所述图像数据中的单元格位置以及所述单元格中的内容;
内容碎片化模块302,用于对所述单元格中的内容进行碎片化处理;
内容测试模块303,用于将碎片化之后的内容输入至所述CNN神经网络模型中。
从上述描述可知,本发明实施例提供的基于文字识别的财务报表识别装置,将财务报表自动录入框架单独抽离出来形成独立部署的系统,不再与原应用系统耦合,避免出现资源争用的情况。具体地,将整个方法剥离为图像采集、电子图像数据管理、文字识别以及报表录入,实现按功能分离管理,装置之间通过并发、异步调用的方式提高系统响应速度。并对图像数据进行标准化,对于图像质量进行准入控制和预处理、自动匹配、纠错、手动调整,统一指标标准,从而提高匹配准确率。
综上,本发明将财务报表录入与文字识别技术相结合,能有效减少人工录入的工作量,提升信息采集的准确度。与传统的报表识别录入方式相比其优点如下:
1.高识别率:对图像质量进行准入,并且对表格线、倾斜角度等进行预处理,提高识别率。
2.高准确率:根据历史手动纠错结果,将财报指标名称和标准化名称进行自动匹配和纠错,提高准确率。
3.高效率:将系统拆分为电子影像、文字识别和报表录入三个独立的部分,通过异步方式发起识别任务,减少文字识别效率对系统响应的影响。
本申请的实施例还提供能够实现上述实施例中的基于文字识别的财务报表识别方法中全部步骤的一种电子设备的具体实施方式,参见图16,电子设备具体包括如下内容:
处理器(processor)1201、存储器(memory)1202、通信接口(CommunicationsInterface)1203和总线1204;
其中,处理器1201、存储器1202、通信接口1203通过总线1204完成相互间的通信;通信接口1203用于实现服务器端设备、接口设备以及用户端设备等相关设备之间的信息传输。
处理器1201用于调用存储器1202中的计算机程序,处理器执行计算机程序时实现上述实施例中的基于文字识别的财务报表识别方法中的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:接收所述财务报表的图像数据。
步骤200:对所述图像数据进行标准化处理以及预处理。
步骤300:利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别。
从上述描述可知,本申请实施例中的电子设备,将财务报表自动录入框架单独抽离出来形成独立部署的系统,不再与原应用系统耦合,避免出现资源争用的情况。具体地,将整个方法剥离为图像采集、电子图像数据管理、文字识别以及报表录入,实现按功能分离管理,装置之间通过并发、异步调用的方式提高系统响应速度。并对图像数据进行标准化,对于图像质量进行准入控制和预处理、自动匹配、纠错、手动调整,统一指标标准,从而提高匹配准确率。
综上,本发明将财务报表录入与文字识别技术相结合,能有效减少人工录入的工作量,提升信息采集的准确度。与传统的报表识别录入方式相比其优点如下:
1.高识别率:对图像质量进行准入,并且对表格线、倾斜角度等进行预处理,提高识别率。
2.高准确率:根据历史手动纠错结果,将财报指标名称和标准化名称进行自动匹配和纠错,提高准确率。
3.高效率:将系统拆分为电子影像、文字识别和报表录入三个独立的部分,通过异步方式发起识别任务,减少文字识别效率对系统响应的影响。
本申请的实施例还提供能够实现上述实施例中的基于文字识别的财务报表识别方法中全部步骤的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的基于文字识别的财务报表识别方法的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:接收所述财务报表的图像数据。
步骤200:对所述图像数据进行标准化处理以及预处理。
步骤300:利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别。
从上述描述可知,本申请实施例中的计算机可读存储介质,将财务报表自动录入框架单独抽离出来形成独立部署的系统,不再与原应用系统耦合,避免出现资源争用的情况。具体地,将整个方法剥离为图像采集、电子图像数据管理、文字识别以及报表录入,实现按功能分离管理,装置之间通过并发、异步调用的方式提高系统响应速度。并对图像数据进行标准化,对于图像质量进行准入控制和预处理、自动匹配、纠错、手动调整,统一指标标准,从而提高匹配准确率。
综上,本发明将财务报表录入与文字识别技术相结合,能有效减少人工录入的工作量,提升信息采集的准确度。与传统的报表识别录入方式相比其优点如下:
1.高识别率:对图像质量进行准入,并且对表格线、倾斜角度等进行预处理,提高识别率。
2.高准确率:根据历史手动纠错结果,将财报指标名称和标准化名称进行自动匹配和纠错,提高准确率。
3.高效率:将系统拆分为电子影像、文字识别和报表录入三个独立的部分,通过异步方式发起识别任务,减少文字识别效率对系统响应的影响。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于文字识别的财务报表识别方法,其特征在于,包括:
接收所述财务报表的图像数据;
对所述图像数据进行标准化处理以及预处理;
利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别。
2.根据权利要求1所述的基于文字识别的财务报表识别方法,其特征在于,对所述图像数据进行标准化处理包括:
判断所述图像数据的dpi是否大于预设值、表格线是否完整以及倾斜角度是否小于预设角度。
3.根据权利要求2所述的基于文字识别的财务报表识别方法,其特征在于,对所述图像数据进行预处理包括:
对标准化后的图像数据一次进行二值化处理、倾斜矫正以及归一化;
对标准化之后的图像数据进行矩形卷积核处理。
4.根据权利要求1所述的基于文字识别的财务报表识别方法,其特征在于,所述利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别,包括:
利用lsd算法对所述图像数据进行直线检测,以获取所述图像数据中的单元格位置以及所述单元格中的内容;
对所述单元格中的内容进行碎片化处理;
将碎片化之后的内容输入至所述CNN神经网络模型中。
5.一种基于文字识别的财务报表识别装置,其特征在于,包括:
图像数据接收单元,用于接收所述财务报表的图像数据;
图像数据处理单元,用于对所述图像数据进行标准化处理以及预处理;
文字识别单元,用于利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别。
6.根据权利要求5所述的基于文字识别的财务报表识别装置,其特征在于,所述图像数据处理单元包括:
预处理模块,用于判断所述图像数据的dpi是否大于预设值、表格线是否完整以及倾斜角度是否小于预设角度。
7.根据权利要求5所述的基于文字识别的财务报表识别装置,其特征在于,所述图像数据处理单元还包括:
第一标准化模块,用于对标准化后的图像数据一次进行二值化处理、倾斜矫正以及归一化;
第二标准化模块,用于对标准化之后的图像数据进行矩形卷积核处理。
8.根据权利要求5所述的基于文字识别的财务报表识别装置,其特征在于,所述文字识别单元包括:
内容获取模块,用于利用lsd算法对所述图像数据进行直线检测,以获取所述图像数据中的单元格位置以及所述单元格中的内容;
内容碎片化模块,用于对所述单元格中的内容进行碎片化处理;
内容测试模块,用于将碎片化之后的内容输入至所述CNN神经网络模型中。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述基于文字识别的财务报表识别方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述基于文字识别的财务报表识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010245364.1A CN111414889B (zh) | 2020-03-31 | 2020-03-31 | 基于文字识别的财务报表识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010245364.1A CN111414889B (zh) | 2020-03-31 | 2020-03-31 | 基于文字识别的财务报表识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111414889A true CN111414889A (zh) | 2020-07-14 |
CN111414889B CN111414889B (zh) | 2023-09-26 |
Family
ID=71493341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010245364.1A Active CN111414889B (zh) | 2020-03-31 | 2020-03-31 | 基于文字识别的财务报表识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414889B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818937A (zh) * | 2021-03-02 | 2021-05-18 | 广联达科技股份有限公司 | Excel文件的识别方法、装置、电子设备及可读存储介质 |
CN113094446A (zh) * | 2021-03-22 | 2021-07-09 | 北京三行科技有限公司 | 一种面向财务报表图像的科目信息提取方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574486A (zh) * | 2015-11-25 | 2016-05-11 | 成都数联铭品科技有限公司 | 一种图像表格文字切分方法 |
US10262235B1 (en) * | 2018-02-26 | 2019-04-16 | Capital One Services, Llc | Dual stage neural network pipeline systems and methods |
CN110781885A (zh) * | 2019-10-24 | 2020-02-11 | 泰康保险集团股份有限公司 | 基于图像处理的文本检测方法、装置、介质及电子设备 |
CN110796031A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的表格识别方法、装置及电子设备 |
CN110807455A (zh) * | 2019-09-19 | 2020-02-18 | 平安科技(深圳)有限公司 | 基于深度学习的票据检测方法、装置、设备及存储介质 |
CN110929580A (zh) * | 2019-10-25 | 2020-03-27 | 北京译图智讯科技有限公司 | 一种基于ocr的财务报表信息快速提取方法及系统 |
-
2020
- 2020-03-31 CN CN202010245364.1A patent/CN111414889B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574486A (zh) * | 2015-11-25 | 2016-05-11 | 成都数联铭品科技有限公司 | 一种图像表格文字切分方法 |
US10262235B1 (en) * | 2018-02-26 | 2019-04-16 | Capital One Services, Llc | Dual stage neural network pipeline systems and methods |
CN110807455A (zh) * | 2019-09-19 | 2020-02-18 | 平安科技(深圳)有限公司 | 基于深度学习的票据检测方法、装置、设备及存储介质 |
CN110796031A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的表格识别方法、装置及电子设备 |
CN110781885A (zh) * | 2019-10-24 | 2020-02-11 | 泰康保险集团股份有限公司 | 基于图像处理的文本检测方法、装置、介质及电子设备 |
CN110929580A (zh) * | 2019-10-25 | 2020-03-27 | 北京译图智讯科技有限公司 | 一种基于ocr的财务报表信息快速提取方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818937A (zh) * | 2021-03-02 | 2021-05-18 | 广联达科技股份有限公司 | Excel文件的识别方法、装置、电子设备及可读存储介质 |
CN113094446A (zh) * | 2021-03-22 | 2021-07-09 | 北京三行科技有限公司 | 一种面向财务报表图像的科目信息提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111414889B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931664B (zh) | 混贴票据图像的处理方法、装置、计算机设备及存储介质 | |
CN110363252B (zh) | 趋向于端到端的场景文字检测与识别方法以及系统 | |
CN109543690B (zh) | 用于提取信息的方法和装置 | |
CN108805076B (zh) | 环境影响评估报告书表格文字的提取方法及系统 | |
US20190294921A1 (en) | Field identification in an image using artificial intelligence | |
CN110874618B (zh) | 基于小样本的ocr模板学习方法、装置、电子设备及介质 | |
US20070009155A1 (en) | Intelligent importation of information from foreign application user interface using artificial intelligence | |
WO2021042505A1 (zh) | 基于文字识别技术的笔记生成方法、装置和计算机设备 | |
CA3052248C (en) | Detecting orientation of textual documents on a live camera feed | |
CN112949455B (zh) | 一种增值税发票识别系统及方法 | |
CN113963147B (zh) | 一种基于语义分割的关键信息提取方法及系统 | |
CN113011144A (zh) | 表单信息的获取方法、装置和服务器 | |
Caldeira et al. | Industrial optical character recognition system in printing quality control of hot-rolled coils identification | |
CN114120349B (zh) | 基于深度学习的试卷识别方法及系统 | |
CN112307919A (zh) | 一种基于改进YOLOv3的单证图像中数字信息区域识别方法 | |
WO2022103564A1 (en) | Fraud detection via automated handwriting clustering | |
CN111414889B (zh) | 基于文字识别的财务报表识别方法及装置 | |
CN112232336A (zh) | 一种证件识别方法、装置、设备及存储介质 | |
CN115953744A (zh) | 一种基于深度学习的车辆识别追踪方法 | |
CN111652117A (zh) | 一种对多文档图像分割的方法及介质 | |
CN112508000B (zh) | 一种用于ocr图像识别模型训练数据生成的方法及设备 | |
CN112200789A (zh) | 一种图像识别的方法及装置、电子设备和存储介质 | |
CN115512340A (zh) | 基于图片的意图检测方法及装置 | |
Rani et al. | Object Detection in Natural Scene Images Using Thresholding Techniques | |
RU2792743C1 (ru) | Идентификация используемых в документах систем письма |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |