CN115909350A - 一种银行回单解析识别方法 - Google Patents
一种银行回单解析识别方法 Download PDFInfo
- Publication number
- CN115909350A CN115909350A CN202211622077.3A CN202211622077A CN115909350A CN 115909350 A CN115909350 A CN 115909350A CN 202211622077 A CN202211622077 A CN 202211622077A CN 115909350 A CN115909350 A CN 115909350A
- Authority
- CN
- China
- Prior art keywords
- receipt
- bank
- bank receipt
- image
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Character Input (AREA)
Abstract
本发明公开了一种银行回单解析识别方法,具体涉及数字图像处理领域,包括以下步骤:步骤一:获取待识别银行回单的PDF文件;步骤二:检测出银行回单图像的表格区域;步骤三:对PDF文件区域的图像进行处理,得到多个被判定为银行回单的子图;步骤四:将PDF页面的文本提取后,按照银行回单的子图进行坐标范围判定,得到每个银行回单对应的非结构化文本;步骤五:将得到的非结构化文本使用NLP算法进行分词后,使用常规算法抽取对应结构化数据录入到系统中。本发明支持对各大银行不同版式回单进行识别,并返回回单图像和结构化的识别结果,能够满足对不同样式银行回单进行信息提取的需求。支持单页多回单的银行回单文件解析,更稳定的解析性能。
Description
技术领域
本发明涉及数字图像处理技术领域,具体为一种银行回单解析识别方法。
背景技术
银行回单是为企业客户提供其网银付款交易查询、下载、打印(补打)以及验证功能的有效凭证。回单的内容主要包括日期、编号、户名、账号、币种、金额、摘要以及开户行等详细信息,对于每一笔账务,均有相应的一张回单。银行回单作为企业编制记账凭证的原始依据,在记账过程中涉及大量回单信息的录入,需要耗费大量的人力、物力和财力。
随着ocr技术的迅速发展,印刷体文字识别技术已经相当成熟,并得到了广泛应用。目前,银行回单ocr技术可识别账户名、收付款账户和金额等信息;已被应用在erp智能记账、rpa财务机器人、财务影像系统等行业,通过ocr识别技术可快速将银行回单信息自动录入到系统中,大大节省了录入时间。
传统的银行回单ocr技术往往依赖于识别对象的特点,需要根据银行回单格式设计个性化的模板。但国内各大银行的电子回单格式并不相同,甚至是同一家银行也存在格式不统一的问题,这就需要定制大量的银行回单模板,导致识别过程过分依赖人工干预,识别效率较低。
发明内容
本发明的目的在于提供一种银行回单解析识别方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种银行回单解析识别方法,包括以下步骤:
步骤一:获取待识别银行回单的PDF文件;
步骤二:检测出银行回单图像的表格区域;
步骤三:对PDF文件区域的图像进行处理,得到多个被判定为银行回单的子图;
步骤四:将PDF页面的文本提取后,按照银行回单的子图进行坐标范围判定,得到每个银行回单对应的非结构化文本;
步骤五:将得到的非结构化文本使用NLP算法进行分词后,使用常规算法抽取对应结构化数据录入到系统中。
在一种优选的实施方式中,所述步骤三中对PDF文件区域的图像处理时采用模板匹配、视觉特征、模型抽取、坐标标记算法进行处理。
与现有技术相比,本发明所达到的有益效果是:
本发明支持对各大银行不同版式回单进行识别,并返回回单图像和结构化的识别结果,能够满足对不同样式银行回单进行信息提取的需求。支持单页多回单的银行回单文件解析,更稳定的解析性能,更精确的的解析结果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的流程图;
图2是本发明未处理时的银行回单;
图3是本发明解析识别后的数据信息图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种银行回单解析识别方法,包括以下步骤:
为了解决上述技术问题,本发明提供如下技术方案:一种银行回单解析识别方法,包括以下步骤:
步骤一:获取待识别银行回单的PDF文件;
步骤二:检测出银行回单图像的表格区域;
步骤三:对PDF文件区域的图像进行处理,得到多个被判定为银行回单的子图;
步骤四:将PDF页面的文本提取后,按照银行回单的子图进行坐标范围判定,得到每个银行回单对应的非结构化文本;
步骤五:将得到的非结构化文本使用NLP算法进行分词后,使用常规算法抽取对应结构化数据录入到系统中。
在一种优选的实施方式中,所述步骤三中对PDF文件区域的图像处理时采用模板匹配、视觉特征、模型抽取、坐标标记算法进行处理。
本发明支持对各大银行不同版式回单进行识别,并返回回单图像和结构化的识别结果,能够满足对不同样式银行回单进行信息提取的需求,支持单页多回单的银行回单文件解析,更稳定的解析性能,更精确的的解析结果。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种银行回单解析识别方法,其特征在于:包括以下步骤:
步骤一:获取待识别银行回单的PDF文件;
步骤二:检测出银行回单图像的表格区域;
步骤三:对PDF文件区域的图像进行处理,得到多个被判定为银行回单的子图;
步骤四:将PDF页面的文本提取后,按照银行回单的子图进行坐标范围判定,得到每个银行回单对应的非结构化文本;
步骤五:将得到的非结构化文本使用NLP算法进行分词后,使用常规算法抽取对应结构化数据录入到系统中。
2.根据权利要求1所述的一种银行回单解析识别方法,其特征在于:所述步骤三中对PDF文件区域的图像处理时采用模板匹配、视觉特征、模型抽取、坐标标记算法进行处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211622077.3A CN115909350A (zh) | 2022-12-16 | 2022-12-16 | 一种银行回单解析识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211622077.3A CN115909350A (zh) | 2022-12-16 | 2022-12-16 | 一种银行回单解析识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115909350A true CN115909350A (zh) | 2023-04-04 |
Family
ID=86481449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211622077.3A Pending CN115909350A (zh) | 2022-12-16 | 2022-12-16 | 一种银行回单解析识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115909350A (zh) |
-
2022
- 2022-12-16 CN CN202211622077.3A patent/CN115909350A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109887153B (zh) | 一种财税处理方法和处理系统 | |
CN110929580A (zh) | 一种基于ocr的财务报表信息快速提取方法及系统 | |
US20060219773A1 (en) | System and method for correcting data in financial documents | |
JPH07110841A (ja) | 証券処理方法および処理装置 | |
US20080298668A1 (en) | Method for fraud detection using multiple scan technologies | |
US20050207635A1 (en) | Method and apparatus for printing documents that include MICR characters | |
EP2671190B1 (en) | System for data extraction and processing | |
CN111428599A (zh) | 票据识别方法、装置和设备 | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
US20170109574A1 (en) | Systems and methods for capturing critical fields from a mobile image of a credit card bill | |
CN110516664A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN110599319B (zh) | 自动审计方法、装置、终端及存储介质 | |
CN109271951A (zh) | 一种提升记账审核效率的方法及系统 | |
CN111539414B (zh) | 一种ocr图像字符识别和字符校正的方法及系统 | |
CN107240185A (zh) | 一种冠字号识别方法、装置、设备及存储介质 | |
CN114202759A (zh) | 基于深度学习的多币种纸币冠字号识别方法和装置 | |
CN114511866A (zh) | 数据稽核方法、装置、系统、处理器及机器可读存储介质 | |
CN111598099B (zh) | 图像文本识别性能的测试方法、装置、测试设备及介质 | |
CN113191130A (zh) | 一种银行电子流水数据预处理方法 | |
CN111428725A (zh) | 数据结构化处理方法、装置和电子设备 | |
CN115909350A (zh) | 一种银行回单解析识别方法 | |
CN111104853A (zh) | 图像信息录入方法、装置、电子设备及存储介质 | |
CN114549177A (zh) | 保函审查方法、装置、系统与计算机可读存储介质 | |
CN109325045B (zh) | 一种开立银行的方法及装置 | |
CN112348022A (zh) | 一种基于深度学习的自由格式文档识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |