CN112598503A - 一种基于征信识别的ocr识别系统及方法 - Google Patents
一种基于征信识别的ocr识别系统及方法 Download PDFInfo
- Publication number
- CN112598503A CN112598503A CN202011557083.6A CN202011557083A CN112598503A CN 112598503 A CN112598503 A CN 112598503A CN 202011557083 A CN202011557083 A CN 202011557083A CN 112598503 A CN112598503 A CN 112598503A
- Authority
- CN
- China
- Prior art keywords
- recognition
- ocr
- analysis
- credit investigation
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于征信识别的OCR识别系统及方法,所述客户征信报告扫描、OCR根据图自动分析识别、表格分析识别/文字分析识别、识别结果验证和汇总、导出Excer/Csv格式、数据转换协议控制区和风控系统,所述客户征信报告扫描后续操作程序为OCR根据图自动分析识别,且OCR根据图自动分析识别后续操作流程为表格分析识别/文字分析识别,并且表格分析识别/文字分析识别后面的操作工序为识别结果验证和汇总。该基于征信识别的OCR识别系统及方法通过设置OCR识别系统,通过征信识别的OCR识别系统使得获取个人征信报告的数据详细,采用OCR识别方式,将获得申请人所有详细的信用数据,从而工作人员可从申请人的所有资料中获取所需要的相关信息。
Description
技术领域
本发明涉及征信识别技术领域,具体为一种基于征信识别的OCR识别系统及方法。
背景技术
征信主要用于金融行业,在金融行业中,信用非常的重要,每到一个阶段,金融行业的专业人员会将所有纸质资料收集查看,因每个人的评价和建议不同,所以需要工作人员对这些资料进行分类,最后再将这也审核结构一一对应的通过人工输入系统,以便长期保存;
而以上的操作方法和操作流程依然存在着一定的缺陷,就比如:
1.对于传统的征信报告收集和处理方法过于复杂,需要指定人员定期查看和审定最后输入电脑储存,这样不仅浪费人力,还增加了成本,整个操作的过程中效率非常之低,从而导致了这些资料数据不能第一时间提供出来,进而给金融行业造成了巨大的损失;
2.对于传统的征信报告的信息收集,在内容和数据往往不够精准,导致了整个过程中经常出现遗漏重要信息和错误数据的问题,最终严重影响了真实信息和数据统筹,从而不利于金融行业的正常运转;
针对此种现象,本人设计了OCR(光学字符识别)技术,是通过图像处理技术手段,将图像(影像)上的文字、表格、图像转化为电子版的数据,通过计算机程序,快速实现数据信息的采集,使用OCR技术将极大提高数据采集的效率和准确度。
发明内容
本发明的目的是为改善现有搜救中存在的搜救流程,提出一种基于征信识别的OCR识别系统及方法,以解决现有传统的征信报告收集和处理方法过于复杂,需要指定人员定期查看和审定最后输入电脑储存,这样不仅浪费人力,还增加了成本,整个操作的过程中效率非常之低,从而导致了这些资料数据不能第一时间提供出来,进而给金融行业造成了巨大的损失,且传统的征信报告的信息收集,在内容和数据往往不够精准,导致了整个过程中经常出现遗漏重要信息和错误数据的问题,最终严重影响了真实信息和数据统筹,从而不利于金融行业的正常运转的问题。
为了实现上述目的,本发明采用了如下技术方案:一种基于征信识别的OCR识别系统,包括客户征信报告扫描、OCR根据图自动分析识别、表格分析识别/文字分析识别、识别结果验证和汇总、导出Excer/Csv格式、数据转换协议控制区和风控系统,所述客户征信报告扫描后续操作程序为OCR根据图自动分析识别,且OCR根据图自动分析识别后续操作流程为表格分析识别/文字分析识别,并且表格分析识别/文字分析识别后面的操作工序为识别结果验证和汇总,而且识别结果验证和汇总后续的操作流程为导出Excer/Csv格式,同时导出Excer/Csv格式后续操作工序为数据转换协议控制区,且数据转换协议控制区后面的操作流程为将以上的收集数据均导入风控系统内部;
优选的,所述征信识别的OCR识别方法以下步骤:
S1、客户征信报告扫描(图片存档):贷款客户面签处经专业工作人员将客户的征信报告扫描为图像资料,且扫描要求为300DPI(分辨率),并且将扫描好的客户征信报告图片准备进行存档;
S2、OCR根据图自动分析识别:专业工作人员将客户征信报告扫描的图像依次按顺序导入OCR自动识别软件内后,软件开始利用本身功能自动分析表格和文字;
S3、表格分析识别/文字分析识别:通过图片分析、表格分析、文字分析,识别出客户征信报告的表格部分、文字部分,其中表格分析,检测所有的表格线,并组织成单元格结构,为之后的还原提供数据支撑,而文字分析,对非表格部分,进行分析并识别,最终表格和文字形成相互对应排列的关系;
S4、识别结果校验和汇总:在表格中存在多种文字类型和数据格式,通过OCR识别后分析判断,进行OCR二次识别,以提高识别精度,确保客户征信报告精准无误;
S5、导出Excel/csv格式:对表格分析识别、文字分析识别的结果进行组织和导出,按照原始表格模式可进行原版书格式还原;
S6、数据转换协议控制区:对以上识别出的文字及图片针对相应的客户进行确认和协商,经客户批准后通过数据转换中心拟定合同协议,然后和客户进行面签。
优选的,所述在风控系统和OCR识别系统之间,通过Excel/csv方式进行数据交互,风控系统不需要改造即可使用OCR自动识别出来的数据。
与现有技术相比,本发明的有益效果是:该基于征信识别的OCR识别系统及方法:
(1)通过征信识别的OCR识别系统使得获取个人征信报告的速度快,识别一张征信报告是需要5秒,拟一份征信报告按6页计算时,识别一份客户征信报告仅用30秒的时间,风控系统可以导入Excel数据,然而在30秒内,风控系统能迅速获得客户征信报告的全部数据,相对人手工录入的情况下,全部靠打字录入一份报告的数据,最短也需要30分钟,那么通过以上OCR识别系统就能有效的避免了因速度慢导致影响了客户等待的耐心,从而提高了业务贷款的成交率;(2)通过征信识别的OCR识别系统使得获取个人征信报告的数据详细,采用OCR识别方式,将获得申请人所有详细的信用数据,从而工作人员可从申请人的所有资料中获取所需要的相关信息,进而工作人员可根据相关信息来对申请人的贷款申请进行审查和审定;(3)通过征信识别的OCR识别系统使得获取个人征信报告的数据精度高,根据相关数据表明,OCR技术识别率比人工录入的精度要高很多,计算机作业能够不受环境、作业疲劳的影响,同时还能保证高精度,不仅确保了整个工作的准确性,还利用OCR技术识别代替了人工录入计算机的工作,同时减少了整个工作流程中的使用成本;(4)通过征信识别的OCR识别系统使得获取个人征信报告的表格原版式还原,原始的OCR文字识别软件只能处理全幅文字内容的识别,同时只能针对一些简单的表格结构进行识别,且有些OCR软件还需要制作识别模板才能识别,不能满足征信报告如此复杂的表格的识别,在本方案中,不仅实现了表格自动检测自动识别的功能,还经过实际测试的应用操作,表格检测的准确率高达99%。因为表格线检测精度高,所以才可以实现表格原版式还原,还原出一个具有逻辑结构和征信报告一样的表格,从而OCR识别系统为金融行业必不可少的系统设备,进而通过OCR识别系统全权代替了人工操作。
附图说明
图1为本发明工作流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
包括a客户征信报告扫描图片存档、bOCR根据图自动分析识别、c表格分析识别/文字分析识别、d识别结果验证和汇总、e导出Excer/Csv格式、f数据转换协议控制区和g风控系统,客户征信报告扫描图片存档后续操作程序为bOCR根据图自动分析识别,且bOCR根据图自动分析识别后续操作流程为c表格分析识别/文字分析识别,并且c表格分析识别/文字分析识别后面的操作工序为d识别结果验证和汇总,而且d识别结果验证和汇总后续的操作流程为e导出Excer/Csv格式,同时e导出Excer/Csv格式后续操作工序为f数据转换协议控制区,且f数据转换协议控制区后面的操作流程为将以上的收集数据均导入g风控系统内部;
征信识别的OCR识别方法以下步骤:
S1、客户征信报告扫描(图片存档):贷款客户面签处经专业工作人员将客户的征信报告扫描为图像资料,且扫描要求为300DPI(分辨率),并且将扫描好的客户征信报告图片准备进行存档;
S2、OCR根据图自动分析识别:专业工作人员将客户征信报告扫描的图像依次按顺序导入OCR自动识别软件内后,软件开始利用本身功能自动分析表格和文字;
S3、表格分析识别/文字分析识别:通过图片分析、表格分析、文字分析,识别出客户征信报告的表格部分、文字部分,其中表格分析,检测所有的表格线,并组织成单元格结构,为之后的还原提供数据支撑,而文字分析,对非表格部分,进行分析并识别,最终表格和文字形成相互对应排列的关系;
S4、识别结果校验和汇总:在表格中存在多种文字类型和数据格式,通过OCR识别后分析判断,进行OCR二次识别,以提高识别精度,确保客户征信报告精准无误;
S5、导出Excel/csv格式:对表格分析识别、文字分析识别的结果进行组织和导出,按照原始表格模式可进行原版书格式还原;
S6、数据转换协议控制区:对以上识别出的文字及图片针对相应的客户进行确认和协商,经客户批准后通过数据转换中心拟定合同协议,然后和客户进行面签。
在风控系统和OCR识别系统之间,通过Excel/csv方式进行数据交互,风控系统不需要改造即可使用OCR自动识别出来的数据。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (3)
1.一种基于征信识别的OCR识别系统,包括(a)客户征信报告扫描(图片存档)、(b)OCR根据图自动分析识别、(c)表格分析识别/文字分析识别、(d)识别结果验证和汇总、(e)导出Excer/Csv格式、(f)数据转换协议控制区和(g)风控系统,所述(a)客户征信报告扫描(图片存档)后续操作程序为(b)OCR根据图自动分析识别,且(b)OCR根据图自动分析识别后续操作流程为(c)表格分析识别/文字分析识别,并且(c)表格分析识别/文字分析识别后面的操作工序为(d)识别结果验证和汇总,而且(d)识别结果验证和汇总后续的操作流程为(e)导出Excer/Csv格式,同时(e)导出Excer/Csv格式后续操作工序为(f)数据转换协议控制区,且(f)数据转换协议控制区后面的操作流程为将以上的收集数据均导入(g)风控系统内部。
2.根据权利要求1所述的一种基于征信识别的OCR识别方法,其特征在于:所述征信识别的OCR识别方法包括以下步骤:
S1、客户征信报告扫描(图片存档):贷款客户面签处经专业工作人员将客户的征信报告扫描为图像资料,且扫描要求为300DPI(分辨率),并且将扫描好的客户征信报告图片准备进行存档;
S2、OCR根据图自动分析识别:专业工作人员将客户征信报告扫描的图像依次按顺序导入OCR自动识别软件内后,软件开始利用本身功能自动分析表格和文字;
S3、表格分析识别/文字分析识别:通过图片分析、表格分析、文字分析,识别出客户征信报告的表格部分、文字部分,其中表格分析,检测所有的表格线,并组织成单元格结构,为之后的还原提供数据支撑,而文字分析,对非表格部分,进行分析并识别,最终表格和文字形成相互对应排列的关系;
S4、识别结果校验和汇总:在表格中存在多种文字类型和数据格式,通过OCR识别后分析判断,进行OCR二次识别,以提高识别精度,确保客户征信报告精准无误;
S5、导出Excel/csv格式:对表格分析识别、文字分析识别的结果进行组织和导出,按照原始表格模式可进行原版书格式还原;
S6、数据转换协议控制区:对以上识别出的文字及图片针对相应的客户进行确认和协商,经客户批准后通过数据转换中心拟定合同协议,然后和客户进行面签。
3.根据权利要求2所述的一种基于征信识别的OCR识别方法,其特征在于:所述在风控系统和OCR识别系统之间,通过Excel/csv方式进行数据交互,风控系统不需要改造即可使用OCR自动识别出来的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011557083.6A CN112598503A (zh) | 2020-12-25 | 2020-12-25 | 一种基于征信识别的ocr识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011557083.6A CN112598503A (zh) | 2020-12-25 | 2020-12-25 | 一种基于征信识别的ocr识别系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112598503A true CN112598503A (zh) | 2021-04-02 |
Family
ID=75201974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011557083.6A Pending CN112598503A (zh) | 2020-12-25 | 2020-12-25 | 一种基于征信识别的ocr识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112598503A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668571A (zh) * | 2020-12-08 | 2021-04-16 | 安徽经邦软件技术有限公司 | 一种基于人工智能ocr技术的财务报表识别系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106572100A (zh) * | 2016-10-25 | 2017-04-19 | 中国建设银行股份有限公司 | 一种业务数据转移的审核方法、装置及系统 |
CN107463921A (zh) * | 2017-08-21 | 2017-12-12 | 深圳微众税银信息服务有限公司 | 一种征信授权有效性验证方法及系统 |
CN107958204A (zh) * | 2017-10-27 | 2018-04-24 | 深圳市牛鼎丰科技有限公司 | 征信报告识别方法、装置、计算机设备及存储介质 |
CN109840519A (zh) * | 2019-01-25 | 2019-06-04 | 青岛盈智科技有限公司 | 一种自适应的智能单据识别录入装置及其使用方法 |
CN110929580A (zh) * | 2019-10-25 | 2020-03-27 | 北京译图智讯科技有限公司 | 一种基于ocr的财务报表信息快速提取方法及系统 |
-
2020
- 2020-12-25 CN CN202011557083.6A patent/CN112598503A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106572100A (zh) * | 2016-10-25 | 2017-04-19 | 中国建设银行股份有限公司 | 一种业务数据转移的审核方法、装置及系统 |
CN107463921A (zh) * | 2017-08-21 | 2017-12-12 | 深圳微众税银信息服务有限公司 | 一种征信授权有效性验证方法及系统 |
CN107958204A (zh) * | 2017-10-27 | 2018-04-24 | 深圳市牛鼎丰科技有限公司 | 征信报告识别方法、装置、计算机设备及存储介质 |
CN109840519A (zh) * | 2019-01-25 | 2019-06-04 | 青岛盈智科技有限公司 | 一种自适应的智能单据识别录入装置及其使用方法 |
CN110929580A (zh) * | 2019-10-25 | 2020-03-27 | 北京译图智讯科技有限公司 | 一种基于ocr的财务报表信息快速提取方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668571A (zh) * | 2020-12-08 | 2021-04-16 | 安徽经邦软件技术有限公司 | 一种基于人工智能ocr技术的财务报表识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109034727B (zh) | 自助电子政务处理方法 | |
CN110348441B (zh) | 增值税发票识别方法、装置、计算机设备及存储介质 | |
CN110515846B (zh) | 一种关于用户体验测试的数据自动化处理分析系统 | |
CN104376315B (zh) | 一种基于计算机图像处理和模式识别的检测方法及应用 | |
CN110929580A (zh) | 一种基于ocr的财务报表信息快速提取方法及系统 | |
CN113255614A (zh) | 一种基于视频分析的rpa流程自动生成方法与系统 | |
US20210366055A1 (en) | Systems and methods for generating accurate transaction data and manipulation | |
CN111444793A (zh) | 基于ocr的票据识别方法、设备、存储介质及装置 | |
CN112926299B (zh) | 一种文本比对方法、合同审阅方法、审核系统 | |
CN110222336A (zh) | 财务报告分析方法、装置、计算机设备和存储介质 | |
CN109684957A (zh) | 一种自动按照纸质表单展现系统数据的方法及系统 | |
CN117037198A (zh) | 一种银行对账单的识别方法 | |
CN112598503A (zh) | 一种基于征信识别的ocr识别系统及方法 | |
CN111414889B (zh) | 基于文字识别的财务报表识别方法及装置 | |
CN116992847A (zh) | 一种财报处理方法、装置、系统和介质 | |
CN207037679U (zh) | 一种快捷扫描发票信息的系统 | |
CN113935296A (zh) | 一种使用滑动模板技术进行纸质银行流水信息提取的方法 | |
CN105243584A (zh) | 一种数据处理的方法和系统 | |
CN113779946A (zh) | 一种尺寸报告数据采集并结构化呈现的方法及系统 | |
CN113657373A (zh) | 一种文书自动编目方法 | |
Zhao et al. | Barcode character defect detection method based on Tesseract-OCR | |
CN113780716A (zh) | 一种业务台账生成系统 | |
Lee | Robotics Process Automation (RPA) And The Import/Export Customs Declaration Process | |
CN111950875A (zh) | 一种合同智能评审方法 | |
Ning et al. | Design of an automated data entry system for hand-filled forms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |