CN116403096B - 一种基于ocr票据识别的智能财务工作方法及系统 - Google Patents
一种基于ocr票据识别的智能财务工作方法及系统 Download PDFInfo
- Publication number
- CN116403096B CN116403096B CN202310660173.5A CN202310660173A CN116403096B CN 116403096 B CN116403096 B CN 116403096B CN 202310660173 A CN202310660173 A CN 202310660173A CN 116403096 B CN116403096 B CN 116403096B
- Authority
- CN
- China
- Prior art keywords
- bill
- ocr
- recognition
- financial
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 159
- 238000012015 optical character recognition Methods 0.000 claims abstract description 151
- 230000008569 process Effects 0.000 claims abstract description 111
- 238000012545 processing Methods 0.000 claims abstract description 49
- 238000004891 communication Methods 0.000 claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 13
- 230000001360 synchronised effect Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000007726 management method Methods 0.000 description 31
- 238000004458 analytical method Methods 0.000 description 4
- 238000012550 audit Methods 0.000 description 4
- 238000013075 data extraction Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/96—Management of image or video recognition tasks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/95—Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/20—Combination of acquisition, preprocessing or recognition functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
Landscapes
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及图形数据读取技术领域,具体涉及一种基于OCR票据识别的智能财务工作方法及系统。该方法包括:遍历管理服务器支持的所有协议和通信接口信息,筛选并匹配出票据采集设备可用的通信接口信息;调整所有接入票据采集设备的优先级,并生成待识别票据设备列表;获取票据采集设备发送的票据识别请求,并根据待识别票据设备列表中票据采集设备的优先级配置OCR识别进程池;调用OCR识别票据识别请求中的财务票据图像,得到OCR文档识别结果,根据预设选择的票据模板,按照字节顺序排版,生成目标财务票据的识别结果。本发明结合OCR技术和财务处理流程,能够自动识别票据上的信息并将其与财务系统进行集成。
Description
技术领域
本发明涉及图形数据读取技术领域,具体涉及一种基于OCR票据识别的智能财务工作方法及系统。
背景技术
在财务领域,票据识别和处理是一项重要的任务。传统上,财务工作中的票据包括发票、收据、报销单等,需要手工录入财务系统。这种手工处理方式存在以下问题:
1.低效:手工录入和处理大量票据耗费时间和人力资源,限制了财务工作的效率和处理能力。
2.容易出错:由于人为因素,手工录入容易出现错误,如数据输入错误、遗漏或重复录入等。
3.高成本:手工处理需要大量人力资源,增加了企业的人力成本和财务管理的复杂性。
随着数字化时代的到来,财务工作面临着越来越多的挑战。为了解决传统的手工录入和处理方式效率低下、容易出错且耗费人力资源的问题,需要一种智能化的财务工作方法及系统,以提高效率、减少错误,并降低人力成本。
发明内容
为了解决传统的手工录入和处理方式效率低下、容易出错且耗费人力资源的问题,本发明构建了一种基于OCR(Optical Character Recognition)票据识别的智能财务工作方法及系统,该方法及系统结合OCR技术和财务处理流程,能够自动识别票据上的信息并将其与财务系统进行集成,实现快速、准确地完成财务数据录入、分类和分析。
本发明采用以下技术方案实现:
第一方面,本发明提供了一种基于OCR票据识别的智能财务工作方法,应用于接入同一管理服务器的不同IP地址的票据采集设备之间同步上传时的票据处理,包括以下步骤:
遍历所述管理服务器支持的所有协议和通信接口信息,筛选并匹配出所述票据采集设备可用的通信接口信息;
调整所有接入票据采集设备的优先级,并生成待识别票据设备列表;
获取票据采集设备发送的票据识别请求,并根据所述待识别票据设备列表中票据采集设备的优先级配置OCR识别进程池;
更新待识别票据设备列表,标记已配置的所述OCR识别进程池并更新票据识别请求处理进程;
调用OCR识别所述票据识别请求中的财务票据图像,得到OCR文档识别结果,根据预设选择的票据模板,按照字节顺序排版,生成目标财务票据的识别结果,存储并根据IP地址反馈至对应的票据采集设备。
作为本发明的进一步方案,筛选并匹配出所述票据采集设备可用的通信接口信息时,还包括:
读取所有接入管理服务器的不同IP地址的票据采集设备的配置信息;
根据票据采集设备的Internet协议栈匹配管理服务器的以太网接口;
基于以太网网络在支持的所有协议和专有协议筛选出与所述票据采集设备的以太网接口对应的可用通信接口信息。
作为本发明的进一步方案,已配置的OCR识别进程池在处理票据识别请求时所述管理服务器和票据采集设备之间产生OCR识别进程池释放信号,所述管理服务器根据所述OCR识别进程池释放信号,按照优先级将票据采集设备对应的票据识别请求加入释放的OCR识别进程中并更新可用OCR识别进程池。
作为本发明的进一步方案,已配置的OCR识别进程池需要标记并更新票据识别请求处理进程包括以下步骤:
基于定义的全局变量存储所有正在处理的票据识别请求和所属进程池的信息;
在收到待处理的票据识别请求时,检查全局变量中是否已有该请求的记录,若有,则将该请求的处理状态置为“等待”,并添加所在的OCR识别进程池信息;若没有,则创建新的处理记录并添加进全局变量;
在启动OCR识别进程池时,将该进程池的信息标记为“已配置”,并遍历全局变量中所有等待处理的请求,若某一请求的所属进程池与当前进程池相同,则将其分配给该进程池开始处理,同时,对于其他未被分配的请求,继续等待下一次OCR识别进程池。
作为本发明的进一步方案,所述调整所有接入票据采集设备的优先级,并生成待识别票据设备列表的方法,包括:
根据接入可用通信接口信息的时间顺序将筛选出的所有票据采集设备添加到初始设备列表中;
收集并统计所述初始设备列表中所有接入票据采集设备的参数信息,其中,所述参数信息包括设备IP地址、流量大小以及图片质量;
根据收集到的参数信息,按照票据采集设备的使用频率或财务权重因子将为每个票据采集设备分配一个优先级评分;
按照优先级评分从高到低排序,生成待识别票据设备列表,其中,优先级高的票据采集设备具有上传和处理票据的优先权。
作为本发明的进一步方案,同等优先级的票据采集设备根据历史上传数据量进行筛选,所述待识别票据设备列表中的历史上传数据量处于首位的票据采集设备在发送票据识别请求时优先级最高。
作为本发明的进一步方案,根据所述待识别票据设备列表中票据采集设备的优先级配置OCR识别进程池的方法包括以下步骤:
根据待识别票据设备列表中的优先级顺序,从高到低依次获取票据采集设备;
对于每个票据采集设备,检查其是否已经被分配了OCR识别进程池,若已分配则跳过本次操作,继续处理下一个设备;
如果该设备还没有被分配OCR识别进程池,则为该设备分配一个新的OCR识别进程池;
根据预设的OCR识别进程池参数,为新的进程池进行初始化,其中,进程池参数包含最大并发数和线程数;
将新的OCR进程池分配给当前设备,并更新设备状态为“已配置”,确保后续的票据在该设备上得到处理。
作为本发明的进一步方案,根据预设选择的票据模板,按照字节顺序排版,生成目标财务票据的识别结果,包括以下步骤:
获取目标财务票据的原始图像或扫描图像;
根据预设选择的票据模板,确定待识别的区域图片和内容信息,其中,所述内容信息包括票据种类、公司名字、日期以及金额;
将区域图片转换成二进制流(bytes)的形式,当有多个键值对时,按照字典序进行排序,调用OCR(Optical Character Recognition)引擎识别图像中的文本识别结果;
文本识别结果与票据模板中定义的信息进行匹配,并将信息提取并输出提取的信息,完成目标财务票据的识别。
作为本发明的进一步方案,OCR引擎支持UTF-8多字节编码,用于正确解析汉字和特殊字符。
第二方面,本发明还提供了一种基于OCR票据识别的智能财务工作系统,该智能财务工作系统包括:
设备接入管理模块,用于遍历管理服务器支持的所有协议和通信接口信息,筛选并匹配出票据采集设备可用的通信接口信息;
设备优先级生成模块,用于调整所有接入票据采集设备的优先级,并生成待识别票据设备列表;
识别进程管理模块,用于获取票据采集设备发送的票据识别请求,并根据所述待识别票据设备列表中票据采集设备的优先级配置OCR识别进程池;
识别进程更新模块,用于更新待识别票据设备列表,标记已配置的所述OCR识别进程池并更新票据识别请求处理进程;
OCR识别排版模块,用于调用OCR识别所述票据识别请求中的财务票据图像,得到OCR文档识别结果,根据预设选择的票据模板,按照字节顺序排版,生成目标财务票据的识别结果,存储并根据IP地址反馈至对应的票据采集设备。
本发明提供的技术方案,具有如下有益效果:
1、本发明提供的基于OCR票据识别的智能财务工作方法及系统,利用管理服务器控制不同IP地址的票据采集设备对同步上传时票据识别请求进行OCR识别进程池分配,便于实现整个智能财务工作系统的所有票据采集设备的统一管理,避免在与多票据采集设备交互时导致请求无法及时效果处理,自动化的OCR技术能够自动读取数字和文字,减少人为干预,大幅提高数据录入效率。
2、提高工作效率:利用OCR技术,可以将手动录入账单和票据的时间大大缩短,以此提高工作效率。通过实时图像识别和数据提取,可以快速准确地完成相关工作。
3.减少错误率:传统的手动录入方式难免存在误差和遗漏,而使用OCR技术可以大大减少错误率,提高精度和准确性,保证了财务报告和分析的准确性。
4.数据分类整理:通过OCR技术,可以自动对票据类型进行分类和整理,根据预设选择的票据模板,按照字节顺序排版。例如,将发票、收据、报销单等不同类型的票据分开,然后将它们自动归档到相应的票据模板以及文件夹中,为记录查找和审核提供便利。
5.便于追溯处理:保存了经过OCR自动化处理的票据信息,可以轻松查看、跟踪和审计处理过程。同时,也可以通过与财务软件集成,实现自动化记账和数据处理,省去了人工反复操作的时间和劳动力。
综上所述,基于OCR票据识别的智能财务工作方法及系统,可以大大提高企业财务管理的效率和精度,降低处理成本,提高数据管理和审计的自动化水平,为财务部门提供更高效、更准确、更安全的工作方式。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或相关技术中的技术方案,下面将对示例性实施例或相关技术描述中所需要使用的附图作一简单地介绍,附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明的一种基于OCR票据识别的智能财务工作方法的流程图。
图2为本发明的一种基于OCR票据识别的智能财务工作方法中筛选并匹配通信接口信息的流程图。
图3为本发明的一种基于OCR票据识别的智能财务工作方法中调整票据采集设备优先级的流程图。
图4为本发明的一种基于OCR票据识别的智能财务工作方法中生成待识别票据设备列表的流程图。
图5为本发明的一种基于OCR票据识别的智能财务工作方法中配置OCR识别进程池的流程图。
图6为本发明的一种基于OCR票据识别的智能财务工作方法中匹配票据模板进行排版的流程图。
图7为本发明的一个实施例中基于OCR票据识别的智能财务工作系统的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明示例性实施例中的附图,对本发明示例性实施例中的技术方案进行清楚、完整地描述,显然,所描述的示例性实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的一种基于OCR票据识别的智能财务工作方法及系统,该方法及系统结合OCR技术和财务处理流程,能够自动识别票据上的信息并将其与财务系统进行集成,实现快速、准确地完成财务数据录入、分类和分析。
下面结合具体实施例对本发明的技术方案作进一步的说明:
参阅图1所示,图1为本发明提供的一种基于OCR票据识别的智能财务工作方法的流程图。本发明的一个实施例提供了一种基于OCR票据识别的智能财务工作方法,应用于接入同一管理服务器的不同IP地址的票据采集设备之间同步上传时的票据处理,包括以下步骤:
S10:遍历所述管理服务器支持的所有协议和通信接口信息,筛选并匹配出所述票据采集设备可用的通信接口信息。
本实施例中,参见图2所示,筛选并匹配出所述票据采集设备可用的通信接口信息时,还包括:
S101、读取所有接入管理服务器的不同IP地址的票据采集设备的配置信息;
S102、根据票据采集设备的Internet协议栈匹配管理服务器的以太网接口;
S103、基于以太网网络在支持的所有协议和专有协议筛选出与所述票据采集设备的以太网接口对应的可用通信接口信息。
其中,采集设备接入管理服务器的方式取决于采集设备所支持的协议和通信接口,在本实施例中,采用以太网接口方式接入管理服务器,采集设备通过以太网网络与管理服务器通信,使用基于TCP/IP协议的标准Internet协议栈(例如DHCP、SNMP、SSH、FTP等)或者专有协议(例如MODBUS,OPC UA等)。
S20:调整所有接入票据采集设备的优先级,并生成待识别票据设备列表。
在本实施例中,参见图3所示,所述调整所有接入票据采集设备的优先级,并生成待识别票据设备列表,包括以下步骤:
S201、根据接入可用通信接口信息的时间顺序将筛选出的所有票据采集设备添加到初始设备列表中;
S202、按照所述票据采集设备的使用频率或财务权重因子将初始设备列表中所有的票据采集设备进行优先级排序,生成待识别票据设备列表,所述待识别票据设备列表中的首位票据采集设备在发送票据识别请求时优先级最高。
在本实施例中,参见图4所示,所述调整所有接入票据采集设备的优先级,并生成待识别票据设备列表的方法,还包括:
S210、根据接入可用通信接口信息的时间顺序将筛选出的所有票据采集设备添加到初始设备列表中;
S211、收集并统计所述初始设备列表中所有接入票据采集设备的参数信息,其中,所述参数信息包括设备IP地址、流量大小以及图片质量;
S212、根据收集到的参数信息,按照票据采集设备的使用频率或财务权重因子将为每个票据采集设备分配一个优先级评分;
S213、按照优先级评分从高到低排序,生成待识别票据设备列表,其中,优先级高的票据采集设备具有上传和处理票据的优先权。
其中,同等优先级的票据采集设备根据历史上传数据量进行筛选,所述待识别票据设备列表中的历史上传数据量处于首位的票据采集设备在发送票据识别请求时优先级最高。
本发明调整优先级的方法可以保证在票据上传时,每个设备都能够被合理利用。同时根据不同的特定标准,也可以让系统智能地选择最佳的设备来处理上传的票据,并将处理结果同步到管理服务器上,提高了票据识别的效率。
S30:获取票据采集设备发送的票据识别请求,并根据所述待识别票据设备列表中票据采集设备的优先级配置OCR识别进程池。
需要特别说明的是,已配置的OCR识别进程池在处理票据识别请求时所述管理服务器和票据采集设备之间产生OCR识别进程池释放信号,所述管理服务器根据所述OCR识别进程池释放信号,按照优先级将票据采集设备对应的票据识别请求加入释放的OCR识别进程中并更新可用OCR识别进程池。
在本实施例中,已配置的OCR识别进程池需要标记并更新票据识别请求处理进程包括以下步骤:
基于定义的全局变量存储所有正在处理的票据识别请求和所属进程池的信息;
在收到待处理的票据识别请求时,检查全局变量中是否已有该请求的记录,若有,则将该请求的处理状态置为“等待”,并添加所在的OCR识别进程池信息;若没有,则创建新的处理记录并添加进全局变量;
在启动OCR识别进程池时,将该进程池的信息标记为“已配置”,并遍历全局变量中所有等待处理的请求,若某一请求的所属进程池与当前进程池相同,则将其分配给该进程池开始处理,同时,对于其他未被分配的请求,继续等待下一次OCR识别进程池。
在本实施例中,参见图5所示,根据所述待识别票据设备列表中票据采集设备的优先级配置OCR识别进程池的方法包括以下步骤:
S301、根据待识别票据设备列表中的优先级顺序,从高到低依次获取票据采集设备;
S302、对于每个票据采集设备,检查其是否已经被分配了OCR识别进程池,若已分配则跳过本次操作,继续处理下一个设备;
S303、如果该设备还没有被分配OCR识别进程池,则为该设备分配一个新的OCR识别进程池;
S304、根据预设的OCR识别进程池参数,为新的进程池进行初始化,其中,进程池参数包含最大并发数和线程数;
S305、将新的OCR进程池分配给当前设备,并更新设备状态为“已配置”,确保后续的票据在该设备上得到处理。
本发明可以根据设备的优先级,合理地分配OCR识别资源,确保高优先级的设备优先获得资源调度。同时,在需要增加OCR识别资源时,也可以动态地增加OCR进程池,以适应财务业务量的变化,从而更好地保证系统稳定性和准确性。
S40:更新待识别票据设备列表,标记已配置的所述OCR识别进程池并更新票据识别请求处理进程。
更新待识别票据设备列表时,在每次处理完一个待识别票据后,判断该票据是否来自于某个已配置的OCR识别进程池所属的设备。如果是,则将该设备从待识别票据设备列表中删除。
对于发送过票据识别请求但未被匹配到OCR识别进程池的设备,将其添加进待识别票据设备列表中,并按照优先级重新排序,以便下一次处理最高优先级的待识别票据。
对于所谓的“恶意设备”,即连续多次发送无效票据或对系统造成负担的设备,应记录其IP地址并加入黑名单,在待识别票据设备列表更新时忽略这些设备。
S50:用OCR识别所述票据识别请求中的财务票据图像,得到OCR文档识别结果,根据预设选择的票据模板,按照字节顺序排版,生成目标财务票据的识别结果,存储并根据IP地址反馈至对应的票据采集设备。
需要注意的是,在调用OCR识别所述票据识别请求中的财务票据图像的过程中,应根据不同类型的财务票据采用相应专门的OCR模板进行处理,才能准确地提取每个区域的数字和信息。同时,也要针对不同语言、字符集、格式等进行适当的设置和调整。
在本实施例中,参见图6所示,根据预设选择的票据模板,按照字节顺序排版,生成目标财务票据的识别结果,包括以下步骤:
S501:获取目标财务票据的原始图像或扫描图像;
S502:根据预设选择的票据模板,确定待识别的区域图片和内容信息,其中,所述内容信息包括票据种类、公司名字、日期以及金额;
S503:将区域图片转换成二进制流(bytes)的形式,当有多个键值对时,按照字典序进行排序,调用OCR(Optical Character Recognition)引擎识别图像中的文本识别结果;
S504:文本识别结果与票据模板中定义的信息进行匹配,并将信息提取并输出提取的信息,完成目标财务票据的识别。
需要说明的是,以上便是按照字节顺序排版生成目标财务票据的识别结果的步骤,其中注意OCR引擎需要支持多字节编码,在本实施例中,OCR引擎支持UTF-8多字节编码,用于正确解析汉字和特殊字符。
本发明的一种基于OCR票据识别的智能财务工作方法,利用管理服务器控制不同IP地址的票据采集设备对同步上传时票据识别请求进行OCR识别进程池分配,便于实现整个智能财务工作系统的所有票据采集设备的统一管理,避免在与多票据采集设备交互时导致请求无法及时效果处理,自动化的OCR技术能够自动读取数字和文字,减少人为干预,大幅提高数据录入效率。
应该理解的是,上述虽然是按照某一顺序描述的,但是这些步骤并不是必然按照上述顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,本实施例的一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种基于OCR票据识别的智能财务工作系统,包括设备接入管理模块601、设备优先级生成模块602、识别进程管理模块603、识别进程更新模块604以及OCR识别排版模块605。其中:
所述设备接入管理模块601用于遍历管理服务器支持的所有协议和通信接口信息,筛选并匹配出票据采集设备可用的通信接口信息;所述设备优先级生成模块602用于调整所有接入票据采集设备的优先级,并生成待识别票据设备列表;所述识别进程管理模块603用于获取票据采集设备发送的票据识别请求,并根据所述待识别票据设备列表中票据采集设备的优先级配置OCR识别进程池;所述识别进程更新模块604用于更新待识别票据设备列表,标记已配置的所述OCR识别进程池并更新票据识别请求处理进程;所述OCR识别排版模块605用于调用OCR识别所述票据识别请求中的财务票据图像,得到OCR文档识别结果,根据预设选择的票据模板,按照字节顺序排版,生成目标财务票据的识别结果,存储并根据IP地址反馈至对应的票据采集设备。
其中,本发明的智能财务工作系统使用OCR票据识别技术,可以快速自动地识别票据信息,大大提高了工作效率,利用OCR技术,可以将手动录入账单和票据的时间大大缩短,以此提高工作效率。通过实时图像识别和数据提取,可以快速准确地完成相关工作;相对于传统的手动录入方式难免存在误差和遗漏,本发明使用OCR技术可以大大减少错误率,提高精度和准确性,保证了财务报告和分析的准确性。
本发明的智能财务工作系统通过OCR技术可以自动对票据类型进行分类和整理,根据预设选择的票据模板,按照字节顺序排版。例如,将发票、收据、报销单等不同类型的票据分开,然后将它们自动归档到相应的票据模板以及文件夹中,为记录查找和审核提供便利。保存了经过OCR自动化处理的票据信息,可以轻松查看、跟踪和审计处理过程,便于追溯处理;同时,也可以通过与财务软件集成,实现自动化记账和数据处理,省去了人工反复操作的时间和劳动力。
综上所述,基于OCR票据识别的智能财务工作方法及系统,可以大大提高企业财务管理的效率和精度,降低处理成本,提高数据管理和审计的自动化水平,为财务部门提供更高效、更准确、更安全的工作方式。
在本实施例中,基于OCR票据识别的智能财务工作系统在执行时采用如前述的一种基于OCR票据识别的智能财务工作方法的步骤,因此,本实施例中对基于OCR票据识别的智能财务工作系统的运行过程不再详细介绍。
在一个实施例中,本发明还提供了一种计算机设备,包括至少一个处理器,以及与至少一个处理器通信连接的存储器,所述存储器存储有可被至少一个处理器执行的指令,所述指令被至少一个处理器执行,以使至少一个处理器执行所述的基于OCR票据识别的智能财务工作方法,该处理器执行指令时实现上述基于OCR票据识别的智能财务工作方法的步骤。
在一个实施例中,本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行所述的基于OCR票据识别的智能财务工作方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机指令表征的计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。
非易失性存储器可包括只读存储器、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器或动态随机存取存储器等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于OCR票据识别的智能财务工作方法,其特征在于,应用于接入同一管理服务器的不同IP地址的票据采集设备之间同步上传时的票据处理,包括以下步骤:
遍历所述管理服务器支持的所有协议和通信接口信息,筛选并匹配出所述票据采集设备可用的通信接口信息;
调整所有接入票据采集设备的优先级,并生成待识别票据设备列表;
获取票据采集设备发送的票据识别请求,并根据所述待识别票据设备列表中票据采集设备的优先级配置OCR识别进程池;
更新待识别票据设备列表,标记已配置的所述OCR识别进程池并更新票据识别请求处理进程;
调用OCR识别所述票据识别请求中的财务票据图像,得到OCR文档识别结果,根据预设选择的票据模板,按照字节顺序排版,生成目标财务票据的识别结果,存储并根据IP地址反馈至对应的票据采集设备;
其中,已配置的OCR识别进程池需要标记并更新票据识别请求处理进程包括以下步骤:
基于定义的全局变量存储所有正在处理的票据识别请求和所属进程池的信息;
在收到待处理的票据识别请求时,检查全局变量中是否已有该请求的记录,若有,则将该请求的处理状态置为“等待”,并添加所在的OCR识别进程池信息;若没有,则创建新的处理记录并添加进全局变量;
在启动OCR识别进程池时,将该进程池的信息标记为“已配置”,并遍历全局变量中所有等待处理的请求,若某一请求的所属进程池与当前进程池相同,则将其分配给该进程池开始处理,同时,对于其他未被分配的请求,继续等待下一次OCR识别进程池;
其中,所述调整所有接入票据采集设备的优先级,并生成待识别票据设备列表的方法,包括:
根据接入可用通信接口信息的时间顺序将筛选出的所有票据采集设备添加到初始设备列表中;
收集并统计所述初始设备列表中所有接入票据采集设备的参数信息,其中,所述参数信息包括设备IP地址、流量大小以及图片质量;
根据收集到的参数信息,按照票据采集设备的使用频率或财务权重因子将为每个票据采集设备分配一个优先级评分;
按照优先级评分从高到低排序,生成待识别票据设备列表,其中,优先级高的票据采集设备具有上传和处理票据的优先权。
2.如权利要求1所述的基于OCR票据识别的智能财务工作方法,其特征在于,筛选并匹配出所述票据采集设备可用的通信接口信息时,还包括:
读取所有接入管理服务器的不同IP地址的票据采集设备的配置信息;
根据票据采集设备的Internet协议栈匹配管理服务器的以太网接口;
基于以太网网络在支持的所有协议和专有协议筛选出与所述票据采集设备的以太网接口对应的可用通信接口信息。
3.如权利要求2所述的基于OCR票据识别的智能财务工作方法,其特征在于,已配置的OCR识别进程池在处理票据识别请求时所述管理服务器和票据采集设备之间产生OCR识别进程池释放信号,所述管理服务器根据所述OCR识别进程池释放信号,按照优先级将票据采集设备对应的票据识别请求加入释放的OCR识别进程中并更新可用OCR识别进程池。
4.如权利要求3所述的基于OCR票据识别的智能财务工作方法,其特征在于,同等优先级的票据采集设备根据历史上传数据量进行筛选,所述待识别票据设备列表中的历史上传数据量处于首位的票据采集设备在发送票据识别请求时优先级最高。
5.如权利要求4所述的基于OCR票据识别的智能财务工作方法,其特征在于,根据所述待识别票据设备列表中票据采集设备的优先级配置OCR识别进程池的方法包括以下步骤:
根据待识别票据设备列表中的优先级顺序,从高到低依次获取票据采集设备;
对于每个票据采集设备,检查其是否已经被分配了OCR识别进程池,若已分配则跳过本次操作,继续处理下一个设备;
如果该设备还没有被分配OCR识别进程池,则为该设备分配一个新的OCR识别进程池;
根据预设的OCR识别进程池参数,为新的进程池进行初始化,其中,进程池参数包含最大并发数和线程数;
将新的OCR进程池分配给当前设备,并更新设备状态为“已配置”,确保后续的票据在该设备上得到处理。
6.如权利要求5所述的基于OCR票据识别的智能财务工作方法,其特征在于,根据预设选择的票据模板,按照字节顺序排版,生成目标财务票据的识别结果,包括以下步骤:
获取目标财务票据的原始图像或扫描图像;
根据预设选择的票据模板,确定待识别的区域图片和内容信息,其中,所述内容信息包括票据种类、公司名字、日期以及金额;
将区域图片转换成二进制流的形式,当有多个键值对时,按照字典序进行排序,调用OCR引擎识别图像中的文本识别结果;
文本识别结果与票据模板中定义的信息进行匹配,并将信息提取并输出提取的信息,完成目标财务票据的识别。
7.如权利要求6所述的基于OCR票据识别的智能财务工作方法,其特征在于,OCR引擎支持UTF-8多字节编码,用于正确解析汉字和特殊字符。
8.一种基于OCR票据识别的智能财务工作系统,其特征在于,用于执行权利要求1-7中任意一项所述基于OCR票据识别的智能财务工作方法;所述基于OCR票据识别的智能财务工作系统包括:
设备接入管理模块,用于遍历管理服务器支持的所有协议和通信接口信息,筛选并匹配出票据采集设备可用的通信接口信息;
设备优先级生成模块,用于调整所有接入票据采集设备的优先级,并生成待识别票据设备列表;
识别进程管理模块,用于获取票据采集设备发送的票据识别请求,并根据所述待识别票据设备列表中票据采集设备的优先级配置OCR识别进程池;
识别进程更新模块,用于更新待识别票据设备列表,标记已配置的所述OCR识别进程池并更新票据识别请求处理进程;
OCR识别排版模块,用于调用OCR识别所述票据识别请求中的财务票据图像,得到OCR文档识别结果,根据预设选择的票据模板,按照字节顺序排版,生成目标财务票据的识别结果,存储并根据IP地址反馈至对应的票据采集设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310660173.5A CN116403096B (zh) | 2023-06-06 | 2023-06-06 | 一种基于ocr票据识别的智能财务工作方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310660173.5A CN116403096B (zh) | 2023-06-06 | 2023-06-06 | 一种基于ocr票据识别的智能财务工作方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116403096A CN116403096A (zh) | 2023-07-07 |
CN116403096B true CN116403096B (zh) | 2023-10-24 |
Family
ID=87012622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310660173.5A Active CN116403096B (zh) | 2023-06-06 | 2023-06-06 | 一种基于ocr票据识别的智能财务工作方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116403096B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109064304A (zh) * | 2018-08-03 | 2018-12-21 | 四川长虹电器股份有限公司 | 财务报销票据自动处理系统及方法 |
CN110544161A (zh) * | 2019-08-09 | 2019-12-06 | 北京市天元网络技术股份有限公司 | 基于票据数据自动提取的财务费用稽核方法以及装置 |
CN111832423A (zh) * | 2020-06-19 | 2020-10-27 | 北京邮电大学 | 一种票据信息识别方法、装置及系统 |
CN112507973A (zh) * | 2020-12-29 | 2021-03-16 | 中国电子科技集团公司第二十八研究所 | 一种基于ocr技术的文本和图片识别系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10318942B2 (en) * | 2014-09-24 | 2019-06-11 | Jcm American Corporation | Electronic voucher ticket system |
US9959161B2 (en) * | 2015-10-02 | 2018-05-01 | International Business Machines Corporation | Automated ticketing analytics |
-
2023
- 2023-06-06 CN CN202310660173.5A patent/CN116403096B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109064304A (zh) * | 2018-08-03 | 2018-12-21 | 四川长虹电器股份有限公司 | 财务报销票据自动处理系统及方法 |
CN110544161A (zh) * | 2019-08-09 | 2019-12-06 | 北京市天元网络技术股份有限公司 | 基于票据数据自动提取的财务费用稽核方法以及装置 |
CN111832423A (zh) * | 2020-06-19 | 2020-10-27 | 北京邮电大学 | 一种票据信息识别方法、装置及系统 |
CN112507973A (zh) * | 2020-12-29 | 2021-03-16 | 中国电子科技集团公司第二十八研究所 | 一种基于ocr技术的文本和图片识别系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116403096A (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046879B (zh) | 证件图像分类方法、装置、计算机设备及可读存储介质 | |
JP7552686B2 (ja) | 機械学習を用いた自動原稿分類 | |
WO2020076399A1 (en) | Key value extraction from documents | |
CN111178836B (zh) | 电子单据的批量归档方法、装置、设备及存储介质 | |
EP3018592A1 (en) | A computer implemented system and method for managing a stack containing a plurality of documents | |
CN108446717A (zh) | 一种基于图像识别的机台状态采集方法及系统 | |
CN113723270A (zh) | 基于rpa及ai的文件处理方法及装置 | |
CN103020119A (zh) | 将纸版简历转化为电子版的转化方法、装置与系统 | |
WO2022048204A1 (zh) | 图像生成方法、装置、电子设备及计算机可读存储介质 | |
CN116403096B (zh) | 一种基于ocr票据识别的智能财务工作方法及系统 | |
CN111259882A (zh) | 票据识别的方法、装置及计算机设备 | |
WO2024012209A1 (zh) | 一种基于图像识别的业务处理方法及装置、存储介质 | |
CN104933096B (zh) | 数据库的异常键识别方法、装置与数据系统 | |
CN117807967A (zh) | 一种基于ocr智能填单的财务报账方法、装置及电子设备 | |
CN112508000A (zh) | 一种用于ocr图像识别模型训练数据生成的方法及设备 | |
CN112184402A (zh) | 会计凭证的生成方法、装置、存储介质及电子设备 | |
CN115495498B (zh) | 数据关联方法、系统、电子设备及存储介质 | |
CN114064590A (zh) | 档案管理方法、装置、存储介质及电子设备 | |
CN112307251B (zh) | 英语词汇知识点图谱自适应识别关联系统和方法 | |
CN113033169A (zh) | 业务数据处理方法和装置 | |
CN111782657A (zh) | 数据处理方法及装置 | |
CN110119743A (zh) | 一种图片识别方法、服务器及计算机可读存储介质 | |
CN112035076A (zh) | 基于json的打印解析方法、装置、设备和打印系统 | |
CN112380814B (zh) | 一种基于国产操作系统的信息稿件自动组合编刊方法 | |
CN115495483B (zh) | 数据批量处理方法、装置、设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |