CN107133571A - 一种将纸质发票自动生成财务报表的系统及方法 - Google Patents
一种将纸质发票自动生成财务报表的系统及方法 Download PDFInfo
- Publication number
- CN107133571A CN107133571A CN201710230774.7A CN201710230774A CN107133571A CN 107133571 A CN107133571 A CN 107133571A CN 201710230774 A CN201710230774 A CN 201710230774A CN 107133571 A CN107133571 A CN 107133571A
- Authority
- CN
- China
- Prior art keywords
- identified
- information
- image
- letter
- financial statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Accounting & Taxation (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供的一种将纸质发票自动生成财务报表的系统及方法,包括:建立图像识别结果科目与财务报表科目之间的对应关系,生成图像识别结果科目‑财务报表科目对应表;获取纸质发票上的待识别图像信息;将获取到的待识别图像信息按照类别进行分离,所述类别包括:文字、数字、字母和图案;将分类后的待识别图像信息进行分类处理,得到所述待识别图像信息对应的文字、数字、字母和图案;根据图像识别结果科目‑财务报表科目对应表,将图像识别结果科目中的数据自动填充至财务报表科目的对应项;将财务报表科目的数据进行自动化处理,自动生成不同类型的财务报表;本发明流程简单,省时省力,工作效率较高,适用于报表生成领域。
Description
技术领域
本发明涉及一种财务报表生成方法,尤其涉及一种将纸质发票自动生成财务报表的系统及方法。
背景技术
财务报表是综合反映企业财务状况、经营成果和利润分配情况、现金流量及其变动情况的重要书面文件,是银行、租赁公司、农村信用合作社等金融机构判断企业综合财务状况、盈利能力、支付和偿债能力的主要依据,对于这些金融机构开展信贷、金融租赁、农信等业务有着十分重要的作用。
而目前,对于大多数行业,大多采用人工方式来制作财务报表,尤其经常需要人工录入纸质发票等财务原始凭证的相关财务记账信息,这就使得工作人员的工作流程复杂,不仅费时费力,而且人工录入还容易出错,导致工作效率降低。
发明内容
本发明克服现有技术存在的不足,所要解决的技术问题为:提供一种流程简单,省时省力,工作效率较高的将纸质发票自动生成财务报表的系统及方法。
为了解决上述技术问题,本发明采用的技术方案为:一种将纸质发票自动生成财务报表的系统,包括:建立单元:用于建立图像识别结果科目与财务报表科目之间的对应关系,生成图像识别结果科目-财务报表科目对应表;获取单元:用于获取纸质发票上的待识别图像信息;分类单元:用于将获取到的待识别图像信息按照类别进行分离,所述类别包括:文字、数字、字母和图案;识别单元:用于将分类后的待识别图像信息进行分类处理,得到所述待识别图像信息对应的文字、数字、字母和图案;匹配单元:用于根据图像识别结果科目-财务报表科目对应表,将图像识别结果科目中的数据自动填充至财务报表科目的对应项;生成单元:用于将财务报表科目的数据进行自动化处理,自动生成不同类型的财务报表。
优选地,所述识别单元包括:文字识别单元、数字识别单元、字母识别单元和图案识别单元;所述文字识别单元包括:第一存储模块:用于存储与待识别文字图像信息进行参照对比的标准文字信息,生成标准文字数据库;第一识别模块:用于采用图像像素分布概率方法,得到待识别文字图像信息对应的文字;所述数字识别单元包括:第二存储模块:用于存储与待识别数字图像信息进行参照对比的基准像素模型,生成标准数字数据库;第二识别模块:用于采用图像切割方法,得到待识别数字图像信息对应的数字;所述字母识别单元包括:第三存储模块:用于存储与待识别字母图像信息进行参照对比的基准像素模型,生成标准字母数据库;第三识别模块:用于采用图像切割方法,得到待识别字母图像信息对应的字母;所述图案识别单元包括:第四存储模块:用于存储与待识别图案图像信息进行参照对比的标准图案特征描绘信息,生成标准图案特征描绘数据库;第四识别模块:用于采用图案识别方法,得到待识别图案图像信息对应的图案。
优选地,所述识别单元还包括:字迹识别单元;所述字迹识别单元包括:第五存储模块:用于存储与待识别手写图像信息进行参照对比的标准图像书写笔画路径信息,生成标准图像书写笔画路径数据库;矫正模块:用于当获取到的待识别图像信息为手写图像信息时,将所述手写图像信息的偏斜度进行矫正;对比模块:用于将偏斜度矫正后的手写图像信息的书写笔画路径与标准图像书写笔画路径数据库中的书写笔画路径进行比较,找出待识别手写图像信息对应的书写笔画路径,将其对应的图像匹配出来。
优选地,所述第一识别模块包括:二值化模块:用于将待识别文字图像进行二值化,使得待识别文字图像上的像素点的灰度值为或;去噪模块:用于将二值化后的待识别文字图像进行去噪处理;处理模块:用于将去噪后的待识别文字图像分成若干区域,统计出各区域的像素数,分析区域像素分布概率;计算模块:用于计算区域像素分布概率和相似差,匹配出标准文字数据库中的文字信息。
优选地,所述第二识别模块包括:第一匹配模块:用于将待识别数字图像信息与标准数字数据库中的基准像素模型进行匹配;第一查找模块:用于查找标准数字数据库中与待识别数字图像信息匹配度最高的数字,该数字即为待识别数字图像信息对应的数字;所述第三识别模块包括:第二匹配模块:用于将待识别字母图像信息与标准字母数据库中的基准像素模型进行匹配;第二查找模块:用于查找标准字母数据库中与待识别字母图像信息匹配度最高的字母,该字母即为待识别字母图像信息对应的字母。
相应地,一种将纸质发票自动生成财务报表的方法,包括:S101、建立图像识别结果科目与财务报表科目之间的对应关系,生成图像识别结果科目-财务报表科目对应表;S102、获取纸质发票上的待识别图像信息;S103、将获取到的待识别图像信息按照类别进行分离,所述类别包括:文字、数字、字母和图案;S104、将分类后的待识别图像信息进行分类处理,得到所述待识别图像信息对应的文字、数字、字母和图案;S105、根据图像识别结果科目-财务报表科目对应表,将图像识别结果科目中的数据自动填充至财务报表科目的对应项;S106、将财务报表科目的数据进行自动化处理,自动生成不同类型的财务报表。
优选地,所述将分类后的待识别图像信息进行分类处理,得到所述待识别图像信息对应的文字、数字、字母和图案,具体包括:存储与待识别文字图像信息进行参照对比的标准文字信息,生成标准文字数据库;采用图像像素分布概率方法,得到待识别文字图像信息对应的文字;存储与待识别数字图像信息进行参照对比的基准像素模型,生成标准数字数据库;采用图像切割方法,得到待识别数字图像信息对应的数字;存储与待识别字母图像信息进行参照对比的基准像素模型,生成标准字母数据库;采用图像切割方法,得到待识别字母图像信息对应的字母;存储与待识别图案图像信息进行参照对比的标准图案特征描绘信息,生成标准图案特征描绘数据库;采用图案识别方法,得到待识别图案图像信息对应的图案。
优选地,所述将分类后的待识别图像信息进行分类处理,得到所述待识别图像信息对应的文字、数字、字母和图案,具体还包括:存储与待识别手写图像信息进行参照对比的标准图像书写笔画路径信息,生成标准图像书写笔画路径数据库;当获取到的待识别图像信息为手写图像信息时,将所述手写图像信息的偏斜度进行矫正;将偏斜度矫正后的手写图像信息的书写笔画路径与标准图像书写笔画路径数据库中的书写笔画路径进行比较,找出待识别手写图像信息对应的书写笔画路径,将其对应的图像匹配出来。
优选地,所述采用图像像素分布概率方法,得到待识别文字图像信息对应的文字,具体包括:将待识别文字图像进行二值化,使得待识别文字图像上的像素点的灰度值为0或255;将二值化后的待识别文字图像进行去噪处理;将去噪后的待识别文字图像分成若干区域,统计出各区域的像素数,分析区域像素分布概率;计算区域像素分布概率和相似差,匹配出标准文字数据库中的文字信息。
优选地,所述采用图像切割方法,得到待识别数字图像信息对应的数字,具体包括:将待识别数字图像信息与标准数字数据库中的基准像素模型进行匹配;查找标准数字数据库中与待识别数字图像信息匹配度最高的数字,该数字即为待识别数字图像信息对应的数字;所述采用图像切割方法,得到待识别字母图像信息对应的字母,具体包括:将待识别字母图像信息与标准字母数据库中的基准像素模型进行匹配;查找标准字母数据库中与待识别字母图像信息匹配度最高的字母,该字母即为待识别字母图像信息对应的字母。
本发明与现有技术相比具有以下有益效果:
1、本发明中,只需事预先将纸质发票扫描或拍摄成图片,而后通过本发明将图片上的文字、数字、字母和图案等图像信息进行识别且标准化,最后将得到的标准的图像信息自动录入财务报表的对应项中,最后自动生成不同类型的财务报表。上述制作财务报表的自动化过程无需人工参与即可自动生成财务报表,简化了工作人员的工作流程,省时省力,提高了工作效率。
2、本发明即可识别机打发票,也可识别手写发票,当为手写发票时,先将手写图像信息的偏斜度进行矫正,然后通过书写笔画路径比较,匹配出手写图像信息对应的标准图像,提高了图像识别的准确度。
附图说明
下面结合附图对本发明做进一步详细的说明。
图1为本发明实施例一提供的一种将纸质发票自动生成财务报表的系统的结构示意图;
图2为本发明实施例二提供的一种将纸质发票自动生成财务报表的系统的结构示意图;
图3为本发明实施例三提供的一种将纸质发票自动生成财务报表的系统的结构示意图;
图4为本发明实施例四提供的一种将纸质发票自动生成财务报表的系统的结构示意图;
图5为本发明实施例五提供的一种将纸质发票自动生成财务报表的系统的结构示意图;
图6为本发明实施例一提供的一种将纸质发票自动生成财务报表的方法的流程示意图;
图中:10为建立单元,20为获取单元,30为分类单元,40为识别单元,50为匹配单元,60为生成单元,401为文字识别单元,402为数字识别单元,403为字母识别单元,404为图案识别单元,405为字迹识别单元,4011为第一存储模块,4012为第一识别模块,4021为第二存储模块,4022为第二识别模块,4031为第三存储模块,4032为第三识别模块,4041为第四存储模块,4042为第四识别模块,4051为第五存储模块,4052为矫正模块,4053为对比模块,40121为二值化模块,40122为去噪模块,40123为处理模块,40124为计算模块,40221为第一匹配模块,40222为第一查找模块,40321为第二匹配模块,40322为第二查找模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一提供的一种将纸质发票自动生成财务报表的系统的结构示意图,如图1所示,一种将纸质发票自动生成财务报表的系统,可包括:
建立单元10:用于建立图像识别结果科目与财务报表科目之间的对应关系,生成图像识别结果科目-财务报表科目对应表。
获取单元20:用于获取纸质发票上的待识别图像信息。
分类单元30:用于将获取到的待识别图像信息按照类别进行分离,所述类别包括:文字、数字、字母和图案。
识别单元40:用于将分类后的待识别图像信息进行分类处理,得到所述待识别图像信息对应的文字、数字、字母和图案。
匹配单元50:用于根据图像识别结果科目-财务报表科目对应表,将图像识别结果科目中的数据自动填充至财务报表科目的对应项。
生成单元60:用于将财务报表科目的数据进行自动化处理,自动生成不同类型的财务报表。
本实施例中,所述获取单元20获取图像信息之前,先将纸质发票扫描或拍摄成图片(该图片可为摄像头所拍摄的图片,也可为终端图库里面摄取的图片),然后才采用图片传输协议将图片字节流传输给所述获取单元20,所述图片可以Base64进行编码。
通过本发明将图片上的文字、数字、字母和图案等图像信息进行识别且标准化,最后将得到的标准的图像信息自动录入财务报表的对应项中,最后自动生成不同类型的财务报表。上述制作财务报表的自动化过程无需人工参与即可自动生成财务报表,简化了工作人员的工作流程,省时省力,提高了工作效率。
图2为本发明实施例二提供的一种将纸质发票自动生成财务报表的系统的结构示意图,如图2所示,在实施例一的基础上,所述识别单元40可包括:文字识别单元401、数字识别单元402、字母识别单元403和图案识别单元404。
所述文字识别单元401可包括:
第一存储模块4011:用于存储与待识别文字图像信息进行参照对比的标准文字信息,生成标准文字数据库。
第一识别模块4012:用于采用图像像素分布概率方法,得到待识别文字图像信息对应的文字。
所述数字识别单元402可包括:
第二存储模块4021:用于存储与待识别数字图像信息进行参照对比的基准像素模型,生成标准数字数据库。
第二识别模块4022:用于采用图像切割方法,得到待识别数字图像信息对应的数字。
所述字母识别单元403可包括:
第三存储模块4031:用于存储与待识别字母图像信息进行参照对比的基准像素模型,生成标准字母数据库。
第三识别模块4032:用于采用图像切割方法,得到待识别字母图像信息对应的字母。
所述图案识别单元404可包括:
第四存储模块4041:用于存储与待识别图案图像信息进行参照对比的标准图案特征描绘信息,生成标准图案特征描绘数据库。
第四识别模块4042:用于采用图案识别方法,得到待识别图案图像信息对应的图案。
图3为本发明实施例三提供的一种将纸质发票自动生成财务报表的系统的结构示意图,如图3所示,在实施例二的基础上,所述识别单元40还可包括:字迹识别单元405;
所述字迹识别单元405可包括:
第五存储模块4051:用于存储与待识别手写图像信息进行参照对比的标准图像书写笔画路径信息,生成标准图像书写笔画路径数据库。
矫正模块4052:用于当获取到的待识别图像信息为手写图像信息时,将所述手写图像信息的偏斜度进行矫正。
对比模块4053:用于将偏斜度矫正后的手写图像信息的书写笔画路径与标准图像书写笔画路径数据库中的书写笔画路径进行比较,找出待识别手写图像信息对应的书写笔画路径,将其对应的图像匹配出来。
本实施例即可识别机打发票,也可识别手写发票,当为手写发票时,先将手写图像信息的偏斜度进行矫正,然后通过书写笔画路径比较,匹配出手写图像信息对应的标准图像,提高了图像识别的准确度。
图4为本发明实施例四提供的一种将纸质发票自动生成财务报表的系统的结构示意图,如图4所示,在实施例二的基础上,所述第一识别模块4012可包括:
二值化模块40121:用于将待识别文字图像进行二值化,使得待识别文字图像上的像素点的灰度值为0或255,即使得整个待识别文字图像呈现出明显的只有黑和白的视觉效果。
去噪模块40122:用于将二值化后的待识别文字图像进行去噪处理。
处理模块40123:用于将去噪后的待识别文字图像分成若干区域,统计出各区域的像素数,分析区域像素分布概率。
计算模块40124:用于计算区域像素分布概率和相似差,匹配出标准文字数据库中的文字信息。
本实施例中,所述相似差为接近文字像素值域的范围值,所述区域像素分布概率为各区域像素数与总像素数的比值,所述标准文字数据库中的文字可为正楷体。在分析区域像素分布概率时,需要建立一个概率表,该概率表的建立可基于贝叶斯定理。
图5为本发明实施例五提供的一种将纸质发票自动生成财务报表的系统的结构示意图,如图5所示,在实施例二的基础上:
所述第二识别模块4022可包括:
第一匹配模块40221:用于将待识别数字图像信息与标准数字数据库中的基准像素模型进行匹配。
第一查找模块40222:用于查找标准数字数据库中与待识别数字图像信息匹配度最高的数字,该数字即为待识别数字图像信息对应的数字。
所述第三识别模块4032可包括:
第二匹配模块40321:用于将待识别字母图像信息与标准字母数据库中的基准像素模型进行匹配。
第二查找模块40322:用于查找标准字母数据库中与待识别字母图像信息匹配度最高的字母,该字母即为待识别字母图像信息对应的字母。
本实施例中,将数字0~9的像素值域与对应的像素区域进行对比时,匹配规则是绝对值差值小于0.02。
图6为本发明实施例一提供的一种将纸质发票自动生成财务报表的方法的流程示意图,如图6所示,相应地,一种将纸质发票自动生成财务报表的方法,可包括:
S101、建立图像识别结果科目与财务报表科目之间的对应关系,生成图像识别结果科目-财务报表科目对应表。
S102、获取纸质发票上的待识别图像信息。
S103、将获取到的待识别图像信息按照类别进行分离,所述类别包括:文字、数字、字母和图案。
S104、将分类后的待识别图像信息进行分类处理,得到所述待识别图像信息对应的文字、数字、字母和图案。
S105、根据图像识别结果科目-财务报表科目对应表,将图像识别结果科目中的数据自动填充至财务报表科目的对应项。
S106、将财务报表科目的数据进行自动化处理,自动生成不同类型的财务报表。
具体地,所述将分类后的待识别图像信息进行分类处理,得到所述待识别图像信息对应的文字、数字、字母和图案,具体可包括:存储与待识别文字图像信息进行参照对比的标准文字信息,生成标准文字数据库;采用图像像素分布概率方法,得到待识别文字图像信息对应的文字;存储与待识别数字图像信息进行参照对比的基准像素模型,生成标准数字数据库;采用图像切割方法,得到待识别数字图像信息对应的数字;存储与待识别字母图像信息进行参照对比的基准像素模型,生成标准字母数据库;采用图像切割方法,得到待识别字母图像信息对应的字母;存储与待识别图案图像信息进行参照对比的标准图案特征描绘信息,生成标准图案特征描绘数据库;采用图案识别方法,得到待识别图案图像信息对应的图案。
具体地,所述将分类后的待识别图像信息进行分类处理,得到所述待识别图像信息对应的文字、数字、字母和图案,具体还可包括:存储与待识别手写图像信息进行参照对比的标准图像书写笔画路径信息,生成标准图像书写笔画路径数据库;当获取到的待识别图像信息为手写图像信息时,将所述手写图像信息的偏斜度进行矫正;将偏斜度矫正后的手写图像信息的书写笔画路径与标准图像书写笔画路径数据库中的书写笔画路径进行比较,找出待识别手写图像信息对应的书写笔画路径,将其对应的图像匹配出来。
具体地,所述采用图像像素分布概率方法,得到待识别文字图像信息对应的文字,具体可包括:将待识别文字图像进行二值化,使得待识别文字图像上的像素点的灰度值为0或255;将二值化后的待识别文字图像进行去噪处理;将去噪后的待识别文字图像分成若干区域,统计出各区域的像素数,分析区域像素分布概率;计算区域像素分布概率和相似差,匹配出标准文字数据库中的文字信息。
具体地,所述采用图像切割方法,得到待识别数字图像信息对应的数字,具体可包括:将待识别数字图像信息与标准数字数据库中的基准像素模型进行匹配;查找标准数字数据库中与待识别数字图像信息匹配度最高的数字,该数字即为待识别数字图像信息对应的数字;所述采用图像切割方法,得到待识别字母图像信息对应的字母,具体包括:将待识别字母图像信息与标准字母数据库中的基准像素模型进行匹配;查找标准字母数据库中与待识别字母图像信息匹配度最高的字母,该字母即为待识别字母图像信息对应的字母。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种将纸质发票自动生成财务报表的系统,其特征在于:包括:
建立单元(10):用于建立图像识别结果科目与财务报表科目之间的对应关系,生成图像识别结果科目-财务报表科目对应表;
获取单元(20):用于获取纸质发票上的待识别图像信息;
分类单元(30):用于将获取到的待识别图像信息按照类别进行分离,所述类别包括:文字、数字、字母和图案;
识别单元(40):用于将分类后的待识别图像信息进行分类处理,得到所述待识别图像信息对应的文字、数字、字母和图案;
匹配单元(50):用于根据图像识别结果科目-财务报表科目对应表,将图像识别结果科目中的数据自动填充至财务报表科目的对应项;
生成单元(60):用于将财务报表科目的数据进行自动化处理,自动生成不同类型的财务报表。
2.根据权利要求1所述的一种将纸质发票自动生成财务报表的系统,其特征在于:所述识别单元(40)包括:文字识别单元(401)、数字识别单元(402)、字母识别单元(403)和图案识别单元(404);
所述文字识别单元(401)包括:
第一存储模块(4011):用于存储与待识别文字图像信息进行参照对比的标准文字信息,生成标准文字数据库;
第一识别模块(4012):用于采用图像像素分布概率方法,得到待识别文字图像信息对应的文字;
所述数字识别单元(402)包括:
第二存储模块(4021):用于存储与待识别数字图像信息进行参照对比的基准像素模型,生成标准数字数据库;
第二识别模块(4022):用于采用图像切割方法,得到待识别数字图像信息对应的数字;
所述字母识别单元(403)包括:
第三存储模块(4031):用于存储与待识别字母图像信息进行参照对比的基准像素模型,生成标准字母数据库;
第三识别模块(4032):用于采用图像切割方法,得到待识别字母图像信息对应的字母;
所述图案识别单元(404)包括:
第四存储模块(4041):用于存储与待识别图案图像信息进行参照对比的标准图案特征描绘信息,生成标准图案特征描绘数据库;
第四识别模块(4042):用于采用图案识别方法,得到待识别图案图像信息对应的图案。
3.根据权利要求2所述的一种将纸质发票自动生成财务报表的系统,其特征在于:所述识别单元(40)还包括:字迹识别单元(405);
所述字迹识别单元(405)包括:
第五存储模块(4051):用于存储与待识别手写图像信息进行参照对比的标准图像书写笔画路径信息,生成标准图像书写笔画路径数据库;
矫正模块(4052):用于当获取到的待识别图像信息为手写图像信息时,将所述手写图像信息的偏斜度进行矫正;
对比模块(4053):用于将偏斜度矫正后的手写图像信息的书写笔画路径与标准图像书写笔画路径数据库中的书写笔画路径进行比较,找出待识别手写图像信息对应的书写笔画路径,将其对应的图像匹配出来。
4.根据权利要求2所述的一种将纸质发票自动生成财务报表的系统,其特征在于:所述第一识别模块(4012)包括:
二值化模块(40121):用于将待识别文字图像进行二值化,使得待识别文字图像上的像素点的灰度值为0或255;
去噪模块(40122):用于将二值化后的待识别文字图像进行去噪处理;
处理模块(40123):用于将去噪后的待识别文字图像分成若干区域,统计出各区域的像素数,分析区域像素分布概率;
计算模块(40124):用于计算区域像素分布概率和相似差,匹配出标准文字数据库中的文字信息。
5.根据权利要求2所述的一种将纸质发票自动生成财务报表的系统,其特征在于:
所述第二识别模块(4022)包括:
第一匹配模块(40221):用于将待识别数字图像信息与标准数字数据库中的基准像素模型进行匹配;
第一查找模块(40222):用于查找标准数字数据库中与待识别数字图像信息匹配度最高的数字,该数字即为待识别数字图像信息对应的数字;
所述第三识别模块(4032)包括:
第二匹配模块(40321):用于将待识别字母图像信息与标准字母数据库中的基准像素模型进行匹配;
第二查找模块(40322):用于查找标准字母数据库中与待识别字母图像信息匹配度最高的字母,该字母即为待识别字母图像信息对应的字母。
6.一种将纸质发票自动生成财务报表的方法,其特征在于:包括:
S101、建立图像识别结果科目与财务报表科目之间的对应关系,生成图像识别结果科目-财务报表科目对应表;
S102、获取纸质发票上的待识别图像信息;
S103、将获取到的待识别图像信息按照类别进行分离,所述类别包括:文字、数字、字母和图案;
S104、将分类后的待识别图像信息进行分类处理,得到所述待识别图像信息对应的文字、数字、字母和图案;
S105、根据图像识别结果科目-财务报表科目对应表,将图像识别结果科目中的数据自动填充至财务报表科目的对应项;
S106、将财务报表科目的数据进行自动化处理,自动生成不同类型的财务报表。
7.根据权利要求6所述的一种将纸质发票自动生成财务报表的方法,其特征在于:所述将分类后的待识别图像信息进行分类处理,得到所述待识别图像信息对应的文字、数字、字母和图案,具体包括:
存储与待识别文字图像信息进行参照对比的标准文字信息,生成标准文字数据库;
采用图像像素分布概率方法,得到待识别文字图像信息对应的文字;
存储与待识别数字图像信息进行参照对比的基准像素模型,生成标准数字数据库;
采用图像切割方法,得到待识别数字图像信息对应的数字;
存储与待识别字母图像信息进行参照对比的基准像素模型,生成标准字母数据库;
采用图像切割方法,得到待识别字母图像信息对应的字母;
存储与待识别图案图像信息进行参照对比的标准图案特征描绘信息,生成标准图案特征描绘数据库;
采用图案识别方法,得到待识别图案图像信息对应的图案。
8.根据权利要求7所述的一种将纸质发票自动生成财务报表的方法,其特征在于:所述将分类后的待识别图像信息进行分类处理,得到所述待识别图像信息对应的文字、数字、字母和图案,具体还包括:
存储与待识别手写图像信息进行参照对比的标准图像书写笔画路径信息,生成标准图像书写笔画路径数据库;
当获取到的待识别图像信息为手写图像信息时,将所述手写图像信息的偏斜度进行矫正;
将偏斜度矫正后的手写图像信息的书写笔画路径与标准图像书写笔画路径数据库中的书写笔画路径进行比较,找出待识别手写图像信息对应的书写笔画路径,将其对应的图像匹配出来。
9.根据权利要求7所述的一种将纸质发票自动生成财务报表的方法,其特征在于:所述采用图像像素分布概率方法,得到待识别文字图像信息对应的文字,具体包括:
将待识别文字图像进行二值化,使得待识别文字图像上的像素点的灰度值为0或255;
将二值化后的待识别文字图像进行去噪处理;
将去噪后的待识别文字图像分成若干区域,统计出各区域的像素数,分析区域像素分布概率;
计算区域像素分布概率和相似差,匹配出标准文字数据库中的文字信息。
10.根据权利要求7所述的一种将纸质发票自动生成财务报表的方法,其特征在于:
所述采用图像切割方法,得到待识别数字图像信息对应的数字,具体包括:
将待识别数字图像信息与标准数字数据库中的基准像素模型进行匹配;
查找标准数字数据库中与待识别数字图像信息匹配度最高的数字,该数字即为待识别数字图像信息对应的数字;
所述采用图像切割方法,得到待识别字母图像信息对应的字母,具体包括:
将待识别字母图像信息与标准字母数据库中的基准像素模型进行匹配;
查找标准字母数据库中与待识别字母图像信息匹配度最高的字母,该字母即为待识别字母图像信息对应的字母。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710230774.7A CN107133571A (zh) | 2017-04-11 | 2017-04-11 | 一种将纸质发票自动生成财务报表的系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710230774.7A CN107133571A (zh) | 2017-04-11 | 2017-04-11 | 一种将纸质发票自动生成财务报表的系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107133571A true CN107133571A (zh) | 2017-09-05 |
Family
ID=59716822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710230774.7A Pending CN107133571A (zh) | 2017-04-11 | 2017-04-11 | 一种将纸质发票自动生成财务报表的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107133571A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633239A (zh) * | 2017-10-18 | 2018-01-26 | 江苏鸿信系统集成有限公司 | 基于深度学习和ocr的票据分类及票据字段提取方法 |
CN108304843A (zh) * | 2017-12-25 | 2018-07-20 | 山东浪潮云服务信息科技有限公司 | 一种图像审批方法及审批装置 |
CN109033797A (zh) * | 2018-09-13 | 2018-12-18 | 广东电网有限责任公司 | 一种权限设置方法及装置 |
CN109783791A (zh) * | 2019-01-24 | 2019-05-21 | 陈德芹 | 一种审前审计报表生成方法及装置 |
CN110390090A (zh) * | 2019-07-31 | 2019-10-29 | 中国南方电网有限责任公司 | 财务系统票据信息录入方法、装置、存储介质及终端设备 |
CN110619252A (zh) * | 2018-06-19 | 2019-12-27 | 百度在线网络技术(北京)有限公司 | 识别图片中表单数据的方法、装置、设备及存储介质 |
CN111815108A (zh) * | 2020-05-30 | 2020-10-23 | 国网上海市电力公司 | 一种电网工程设计变更与现场签证审批单的评价方法 |
CN112036145A (zh) * | 2020-09-01 | 2020-12-04 | 平安国际融资租赁有限公司 | 财务报表的识别方法、装置、计算机设备与可读存储介质 |
TWI716761B (zh) * | 2018-11-08 | 2021-01-21 | 鯨動智能科技股份有限公司 | 智能會計帳務系統與會計憑證的辨識入帳方法 |
CN112287828A (zh) * | 2020-10-29 | 2021-01-29 | 平安普惠企业管理有限公司 | 一种基于机器学习的财务报表生成方法及装置 |
CN113095307A (zh) * | 2021-06-09 | 2021-07-09 | 国网浙江省电力有限公司 | 一种财务凭证信息自动识别方法 |
CN113158988A (zh) * | 2021-05-19 | 2021-07-23 | 上海云从企业发展有限公司 | 财务报表处理方法、装置以及计算机可读存储介质 |
CN113627351A (zh) * | 2021-08-12 | 2021-11-09 | 达而观信息科技(上海)有限公司 | 财报科目的匹配方法、装置、计算机设备及存储介质 |
CN114168033A (zh) * | 2021-11-15 | 2022-03-11 | 阿里巴巴(中国)有限公司 | 信息显示方法、信息处理方法及设备 |
CN115293871A (zh) * | 2022-10-08 | 2022-11-04 | 山东工程职业技术大学 | 一种多终端的财务数据管理方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737242A (zh) * | 2012-06-12 | 2012-10-17 | 丰豪盈彩(北京)科技有限公司 | 应用于移动终端的票据自动识别方法和系统 |
CN105023340A (zh) * | 2015-07-09 | 2015-11-04 | 胡昭 | 基于扫描仪的云智能发票识别查验系统及方法 |
CN105528604A (zh) * | 2016-01-31 | 2016-04-27 | 华南理工大学 | 一种基于ocr的票据自动识别与处理系统 |
-
2017
- 2017-04-11 CN CN201710230774.7A patent/CN107133571A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737242A (zh) * | 2012-06-12 | 2012-10-17 | 丰豪盈彩(北京)科技有限公司 | 应用于移动终端的票据自动识别方法和系统 |
CN105023340A (zh) * | 2015-07-09 | 2015-11-04 | 胡昭 | 基于扫描仪的云智能发票识别查验系统及方法 |
CN105528604A (zh) * | 2016-01-31 | 2016-04-27 | 华南理工大学 | 一种基于ocr的票据自动识别与处理系统 |
Non-Patent Citations (1)
Title |
---|
无: "如何将增值税发票信息导出excel表格", 《HTTP://JINGYAN.BAIDU.COM/ARTICLE/8275FC8665AC1646A13CF65A.HTML》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633239A (zh) * | 2017-10-18 | 2018-01-26 | 江苏鸿信系统集成有限公司 | 基于深度学习和ocr的票据分类及票据字段提取方法 |
CN108304843A (zh) * | 2017-12-25 | 2018-07-20 | 山东浪潮云服务信息科技有限公司 | 一种图像审批方法及审批装置 |
CN108304843B (zh) * | 2017-12-25 | 2022-02-22 | 山东浪潮云服务信息科技有限公司 | 一种图像审批方法及审批装置 |
CN110619252A (zh) * | 2018-06-19 | 2019-12-27 | 百度在线网络技术(北京)有限公司 | 识别图片中表单数据的方法、装置、设备及存储介质 |
CN110619252B (zh) * | 2018-06-19 | 2022-11-04 | 百度在线网络技术(北京)有限公司 | 识别图片中表单数据的方法、装置、设备及存储介质 |
CN109033797A (zh) * | 2018-09-13 | 2018-12-18 | 广东电网有限责任公司 | 一种权限设置方法及装置 |
TWI716761B (zh) * | 2018-11-08 | 2021-01-21 | 鯨動智能科技股份有限公司 | 智能會計帳務系統與會計憑證的辨識入帳方法 |
CN109783791A (zh) * | 2019-01-24 | 2019-05-21 | 陈德芹 | 一种审前审计报表生成方法及装置 |
CN110390090A (zh) * | 2019-07-31 | 2019-10-29 | 中国南方电网有限责任公司 | 财务系统票据信息录入方法、装置、存储介质及终端设备 |
CN111815108A (zh) * | 2020-05-30 | 2020-10-23 | 国网上海市电力公司 | 一种电网工程设计变更与现场签证审批单的评价方法 |
CN112036145A (zh) * | 2020-09-01 | 2020-12-04 | 平安国际融资租赁有限公司 | 财务报表的识别方法、装置、计算机设备与可读存储介质 |
CN112287828A (zh) * | 2020-10-29 | 2021-01-29 | 平安普惠企业管理有限公司 | 一种基于机器学习的财务报表生成方法及装置 |
CN113158988A (zh) * | 2021-05-19 | 2021-07-23 | 上海云从企业发展有限公司 | 财务报表处理方法、装置以及计算机可读存储介质 |
CN113158988B (zh) * | 2021-05-19 | 2024-04-05 | 上海云从企业发展有限公司 | 财务报表处理方法、装置以及计算机可读存储介质 |
CN113095307A (zh) * | 2021-06-09 | 2021-07-09 | 国网浙江省电力有限公司 | 一种财务凭证信息自动识别方法 |
CN113627351B (zh) * | 2021-08-12 | 2024-01-30 | 达观数据有限公司 | 财报科目的匹配方法、装置、计算机设备及存储介质 |
CN113627351A (zh) * | 2021-08-12 | 2021-11-09 | 达而观信息科技(上海)有限公司 | 财报科目的匹配方法、装置、计算机设备及存储介质 |
CN114168033A (zh) * | 2021-11-15 | 2022-03-11 | 阿里巴巴(中国)有限公司 | 信息显示方法、信息处理方法及设备 |
CN114168033B (zh) * | 2021-11-15 | 2023-09-26 | 阿里巴巴(中国)有限公司 | 信息显示方法、信息处理方法及设备 |
CN115293871A (zh) * | 2022-10-08 | 2022-11-04 | 山东工程职业技术大学 | 一种多终端的财务数据管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133571A (zh) | 一种将纸质发票自动生成财务报表的系统及方法 | |
US11676185B2 (en) | System and methods of an expense management system based upon business document analysis | |
US10943105B2 (en) | Document field detection and parsing | |
CN107622255B (zh) | 基于位置模板与语义模板的票据图像字段定位方法及系统 | |
CN109948510B (zh) | 一种文档图像实例分割方法及装置 | |
Marinai | Introduction to document analysis and recognition | |
CN109685052A (zh) | 文本图像处理方法、装置、电子设备及计算机可读介质 | |
US9262679B2 (en) | System and method for identification and separation of form and feature elements from handwritten and other user supplied elements | |
CN105930159A (zh) | 一种基于图像的界面代码生成的方法及系统 | |
CN104123550A (zh) | 基于云计算的文本扫描识别方法 | |
CN111353491B (zh) | 一种文字方向确定方法、装置、设备及存储介质 | |
CN112395996A (zh) | 财务票据ocr识别及影像处理方法、系统及可读存储介质 | |
US20220156756A1 (en) | Fraud detection via automated handwriting clustering | |
CN106778717A (zh) | 一种基于图像识别和k近邻的测评表识别方法 | |
CN103996055A (zh) | 基于影像档案电子资料识别系统中分类器的识别方法 | |
CN106650748A (zh) | 一种基于卷积神经网络的汉字识别方法 | |
CN107273783A (zh) | 人脸识别系统及其方法 | |
CN103559512B (zh) | 一种文字识别输出方法及系统 | |
CN111462388A (zh) | 一种票据检验方法、装置、终端设备及存储介质 | |
Sahoo et al. | Handwritten Bangla word recognition using negative refraction based shape transformation | |
Bulatov et al. | Towards a unified framework for identity documents analysis and recognition | |
CN117037198A (zh) | 一种银行对账单的识别方法 | |
CN113673528B (zh) | 文本处理方法、装置、电子设备和可读存储介质 | |
Guo et al. | Research on Feature Extraction for Character Recognition of NaXi Pictograph. | |
CN114581928A (zh) | 一种表格识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170905 |