CN113935296A - 一种使用滑动模板技术进行纸质银行流水信息提取的方法 - Google Patents
一种使用滑动模板技术进行纸质银行流水信息提取的方法 Download PDFInfo
- Publication number
- CN113935296A CN113935296A CN202111113120.9A CN202111113120A CN113935296A CN 113935296 A CN113935296 A CN 113935296A CN 202111113120 A CN202111113120 A CN 202111113120A CN 113935296 A CN113935296 A CN 113935296A
- Authority
- CN
- China
- Prior art keywords
- bank
- template
- text
- flow
- pipelining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000005516 engineering process Methods 0.000 title claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000012015 optical character recognition Methods 0.000 claims abstract description 6
- 238000012544 monitoring process Methods 0.000 claims abstract description 5
- 238000004519 manufacturing process Methods 0.000 claims abstract description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003809 water extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种使用滑动模板技术进行纸质银行流水信息提取的方法,所述方法包括:对银行流水扫描件进行光学字符识别,获得每页的文本框位置及内容信息;制作模板,所述模板为多个规格的矩形框,所述银行流水扫描件上的记录银行流水记录的图像区域为所述矩形框框选;使得所述模板与所述银行流水扫面件的相对位置移动,同时监测所述矩形框与所述银行流水扫面件上的文本框是否重合,当所述文本框与所述矩形框重合时,将文本框对应的内容信息作为需要的银行流水记录。本发明使用模板自动滑动匹配技术,将整个文件中所有流水记录进行结构化提取并导出表格。
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种使用滑动模板技术进行纸质银行流水信息提取的方法。
背景技术
在金融行业中,银行流水作为一种重要的金融凭证单据,能客观反映个人或企业的现金流情况,成为信贷、投资、发债等经济活动中的重要凭证。除企业账户能拿到电子表格版流水外,个人流水等其他场景一般为纸质流水,无法直接拿到结构化好的信息进行处理和分析。另外由于银行众多、软硬件设备不同,导致流水格式多样,对于纸质银行流水信息提取大部分场景还停留在手工录入阶段。
随着软件技术的不断进步,使用软件系统进行纸质流水识别成为可能。基于光学字符识别技术,能够相对准确识别流水中的文字信息,但是将文字信息按照流水记录进行字段结构化仍有很大困难。
银行流水结构化处理工作仍大量依赖人工进行。例如IPO项目中,公司高管流水审核大部纸质流水都由人工一条条录入到表格,在此基础上进行业务审核。由于流水记录种类多及数量多,导致流水审核花费大量的人力精力,往往需要大量的从业人员进行枯燥的流水电子化录入工作。
由于流水记录文件多数量多,受疲劳、注意力、环境等多种因素影响,在流水审核录入过程中容易造成信息漏录错录等问题,继而带来后续的审核不准确、不全面等问题,给项目带来重大风险。
发明内容
针对现有技术中存在的问题,本发明提供一种使用滑动模板技术进行纸质银行流水信息提取的方法,本发明的部分实施例能够自动提取纸质银行流水的结构化记录,并导出表格,方便后续审核工作。
为实现上述目的,本发明采用以下技术方案:
一种使用滑动模板技术进行纸质银行流水信息提取的方法,所述方法包括:对银行流水扫描件进行光学字符识别,获得每页的文本框位置及内容信息;制作模板,所述模板为多个规格的矩形框,所述银行流水扫描件上的记录银行流水记录的图像区域为所述矩形框框选;使得所述模板与所述银行流水扫面件的相对位置移动,同时监测所述矩形框与所述银行流水扫面件上的文本框是否重合,当所述文本框与所述矩形框重合时,将文本框对应的内容信息作为需要的银行流水记录。
优选地,所述方法还包括:所述制作模板中,确认每种规格的所述矩形框的类型,将所述类型传递给后续与之重合的所述文本框的内容信息。
优选地,所述监测所述矩形框与所述银行流水扫面件上的文本框是否重合包括:所述模板相对所述银行流水扫面件自上而下移动,所述模板与每个所述文本框比较重合度,选择重合度最大的文本框的内容信息作为需要的银行流水记录。
优选地,所述方法还包括:将获得的所有银行流水记录和其对应的类型组成结构化的数据后输出成表格文件。
与现有技术相比,本发明的有益效果为:1、使用光学字符识别技术,识别纸质流水中文字位置及内容;2、使用模板标注技术,将流水记录的字段位置和类型进行记录;3、使用模板自动滑动匹配技术,将整个文件中所有流水记录进行结构化提取并导出表格。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为纸质银行流水文本框及文字内容识别流程示意图。
图2为流水记录模板标注流程示意图。
图3为每组段落对细节比较示意图。
图4为表格结果合并导出示意图。
图5为整体流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
本实施例公布一种流水提取方法,分为以下4个步骤:纸质流水文本框及文字识别、流水记录模板标注、模板自动滑动匹配、表格结果导出合并。
1纸质银行流水文本框及文字识别
纸质银行流水文本框及文字识别指的是从纸质流水的扫描件中拿到所有的文本框位置及文本框的内容。
光学字符识别(Optical Character Recognition,OCR)技术指的是从图像信息中定位文字位置及内容的一项技术。该技术比较成熟,已经大量商用。
在实际业务中,银行流水扫描件格式主要为图片格式及PDF格式。PDF格式需要按页拆分成多张图片才能获取每页流水的文字位置及内容。
2流水记录模板标注
通过前一步的处理,银行流水扫描件中的文本框位置及文字信息已经被识别出来。在正常情况下,银行流水每条记录具有重复性,因此只需要标注第一条流水记录就能够还原整个流水结构。
流水记录标注指的是在流水图像文件上,使用矩形框选择图像范围,并告知矩形框类型,来指出某一位置文本框的业务类型。
3模板自动滑动匹配流水记录
根据第一步得到的流水文本框位置和内容信息以及第二步得到的流水记录模板信息,按照每页从上到下的顺序进行模板滑动。当文本框区域和模板区域最大重合时,则认为匹配到一条记录,并按照模板中不同框类型给出文本框业务类型。
4表格结果合并导出
将上一步所有流水记录整理成表格,并按照指定格式导出。
尽管上述实施例已对本发明作出具体描述,但是对于本领域的普通技术人员来说,应该理解为可以在不脱离本发明的精神以及范围之内基于本发明公开的内容进行修改或改进,这些修改和改进都在本发明的精神以及范围之内。
Claims (4)
1.一种使用滑动模板技术进行纸质银行流水信息提取的方法,其特征在于,所述方法包括:
对银行流水扫描件进行光学字符识别,获得每页的文本框位置及内容信息;
制作模板,所述模板为多个规格的矩形框,所述银行流水扫描件上的记录银行流水记录的图像区域为所述矩形框框选;
使得所述模板与所述银行流水扫面件的相对位置移动,同时监测所述矩形框与所述银行流水扫面件上的文本框是否重合,当所述文本框与所述矩形框重合时,将文本框对应的内容信息作为需要的银行流水记录。
2.根据权利要求1所述的使用滑动模板技术进行纸质银行流水信息提取的方法,其特征在于,所述方法还包括:
所述制作模板中,确认每种规格的所述矩形框的类型,将所述类型传递给后续与之重合的所述文本框的内容信息。
3.根据权利要求1所述的使用滑动模板技术进行纸质银行流水信息提取的方法,其特征在于,所述监测所述矩形框与所述银行流水扫面件上的文本框是否重合包括:
所述模板相对所述银行流水扫面件自上而下移动,所述模板与每个所述文本框比较重合度,选择重合度最大的文本框的内容信息作为需要的银行流水记录。
4.根据权利要求2所述的使用滑动模板技术进行纸质银行流水信息提取的方法,其特征在于,所述方法还包括:
将获得的所有银行流水记录和其对应的类型组成结构化的数据后输出成表格文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111113120.9A CN113935296A (zh) | 2021-09-18 | 2021-09-18 | 一种使用滑动模板技术进行纸质银行流水信息提取的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111113120.9A CN113935296A (zh) | 2021-09-18 | 2021-09-18 | 一种使用滑动模板技术进行纸质银行流水信息提取的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113935296A true CN113935296A (zh) | 2022-01-14 |
Family
ID=79276547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111113120.9A Pending CN113935296A (zh) | 2021-09-18 | 2021-09-18 | 一种使用滑动模板技术进行纸质银行流水信息提取的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113935296A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114429117A (zh) * | 2022-01-27 | 2022-05-03 | 佛山众陶联供应链服务有限公司 | 一种银行流水自动导入方法、系统、终端设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844767A (zh) * | 2017-02-23 | 2017-06-13 | 中国科学院自动化研究所 | 格式文档关键信息块配准及提取的方法及装置 |
CN108334484A (zh) * | 2017-12-28 | 2018-07-27 | 北京科迅生物技术有限公司 | 数据录入的方法和装置 |
CN111931784A (zh) * | 2020-09-17 | 2020-11-13 | 深圳壹账通智能科技有限公司 | 票据识别方法、系统、计算机设备与计算机可读存储介质 |
CN112580499A (zh) * | 2020-12-17 | 2021-03-30 | 上海眼控科技股份有限公司 | 文本识别方法、装置、设备及存储介质 |
CN112633118A (zh) * | 2020-12-18 | 2021-04-09 | 上海眼控科技股份有限公司 | 一种文本信息提取方法、设备及存储介质 |
-
2021
- 2021-09-18 CN CN202111113120.9A patent/CN113935296A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844767A (zh) * | 2017-02-23 | 2017-06-13 | 中国科学院自动化研究所 | 格式文档关键信息块配准及提取的方法及装置 |
CN108334484A (zh) * | 2017-12-28 | 2018-07-27 | 北京科迅生物技术有限公司 | 数据录入的方法和装置 |
CN111931784A (zh) * | 2020-09-17 | 2020-11-13 | 深圳壹账通智能科技有限公司 | 票据识别方法、系统、计算机设备与计算机可读存储介质 |
CN112580499A (zh) * | 2020-12-17 | 2021-03-30 | 上海眼控科技股份有限公司 | 文本识别方法、装置、设备及存储介质 |
CN112633118A (zh) * | 2020-12-18 | 2021-04-09 | 上海眼控科技股份有限公司 | 一种文本信息提取方法、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114429117A (zh) * | 2022-01-27 | 2022-05-03 | 佛山众陶联供应链服务有限公司 | 一种银行流水自动导入方法、系统、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800761B (zh) | 基于深度学习模型创建纸质文档结构化数据的方法和终端 | |
CN107622255B (zh) | 基于位置模板与语义模板的票据图像字段定位方法及系统 | |
US8233751B2 (en) | Method and system for simplified recordkeeping including transcription and voting based verification | |
CN106485243B (zh) | 一种票据识别纠错方法及装置 | |
CN110929580A (zh) | 一种基于ocr的财务报表信息快速提取方法及系统 | |
US20070033118A1 (en) | Document Scanning and Data Derivation Architecture. | |
US20210366055A1 (en) | Systems and methods for generating accurate transaction data and manipulation | |
CN110705515A (zh) | 一种基于ocr文字识别的医院纸质档案归档方法及系统 | |
CN109543614A (zh) | 一种全文本差异比对方法及设备 | |
CN107145873A (zh) | 基于人脸识别和ocr的身份证图像识别审核方法及系统 | |
CN109271951A (zh) | 一种提升记账审核效率的方法及系统 | |
CN111444793A (zh) | 基于ocr的票据识别方法、设备、存储介质及装置 | |
CN111914729A (zh) | 凭证关联方法、装置、计算机设备及存储介质 | |
CN109684957A (zh) | 一种自动按照纸质表单展现系统数据的方法及系统 | |
CN110543475A (zh) | 一种基于机器学习的财务报表数据自动识别和分析方法 | |
CN113935296A (zh) | 一种使用滑动模板技术进行纸质银行流水信息提取的方法 | |
CN117332761B (zh) | 一种pdf文档智能识别标注系统 | |
CN115171143A (zh) | 一种电子发票全票面信息提取方法及系统 | |
TW202018616A (zh) | 智能會計帳務系統與會計憑證的辨識入帳方法 | |
CN116798061A (zh) | 一种票据审核识别方法、装置、终端和存储介质 | |
TWI772199B (zh) | 識別帳務憑證影像以自動獲取帳務關聯資訊之帳務管理系統 | |
TWM575887U (zh) | 智能會計帳務系統 | |
CN112348022B (zh) | 一种基于深度学习的自由格式文档识别方法 | |
CN113657373A (zh) | 一种文书自动编目方法 | |
Kumar et al. | Optical Character Recognition Technology using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |