CN117807967A - 一种基于ocr智能填单的财务报账方法、装置及电子设备 - Google Patents

一种基于ocr智能填单的财务报账方法、装置及电子设备 Download PDF

Info

Publication number
CN117807967A
CN117807967A CN202311849805.9A CN202311849805A CN117807967A CN 117807967 A CN117807967 A CN 117807967A CN 202311849805 A CN202311849805 A CN 202311849805A CN 117807967 A CN117807967 A CN 117807967A
Authority
CN
China
Prior art keywords
invoice
type
information
target
account information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311849805.9A
Other languages
English (en)
Inventor
杜新光
刘小立
武树艳
卫华
高丛丛
李明春
付钰禄
郭时雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Jiantou Smart Financial Services Co ltd
Original Assignee
Hebei Jiantou Smart Financial Services Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Jiantou Smart Financial Services Co ltd filed Critical Hebei Jiantou Smart Financial Services Co ltd
Priority to CN202311849805.9A priority Critical patent/CN117807967A/zh
Publication of CN117807967A publication Critical patent/CN117807967A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

本发明提供一种基于OCR智能填单的财务报账方法、装置及电子设备。该方法包括:采用光学字符识别OCR技术从目标发票的发票图像中提取出识别信息;在目标发票的发票类型为第一类型时,根据目标发票对应的模板从识别信息中提取报账信息;在目标发票的发票类型为第二类型时,根据自然语言处理NLP技术从识别信息中提取报账信息;根据报账信息,自动将其录入财务共享系统。本发明能够根据发票类型降低模板的存储量,从而降低模板库维护成本,并提升对第一类型发票的识别精确度,同时,结合NLP技术提升对第二类型发票的识别效率。

Description

一种基于OCR智能填单的财务报账方法、装置及电子设备
技术领域
本发明涉及数字处理技术领域,尤其涉及一种基于OCR智能填单的财务报账方法、装置及电子设备。
背景技术
在大型集团化企业中,财务共享服务中心已成为提升财务管理效率的重要手段。然而,在共享财务管理系统的实际应用中,依然存在着诸多挑战。传统的业务报账方式往往依赖于员工手工填写单据,这种方式不仅工作量大、易出错,还容易导致报账效率低下,无法满足现代企业高效运营的需求。同时,财务共享中心的审核会计也面临着人工核对审核效率低下、纸质报销发票审核成本高且易出错等问题。
为了应对这些挑战,针对前述挑战,共享财务管理系统中引入了一系列技术手段。其中,光学字符识别(Optical Character Recognition,OCR)技术在账单识别和自动填写方面显示出了巨大潜力。通过扫描或拍摄发票图像,OCR技术能将其中的文字信息转换为可编辑和检索的文本格式,从而大幅简化账单信息的录入和审核流程。这不仅极大地减轻了员工手动填写单据的工作负担,提升了报账效率,还降低了人工核对审核点的成本,并提高审核质量。
目前,对账单信息识别主要采用两种方法:其一,预先构建各类发票的电子化模板,OCR识别时将发票图像与这些模板进行匹配,找出最相似的模板,进而从中提取报账信息。其二,无需事先建立各类发票的电子化模板。首先在发票图像中检测出各文字区域,然后对检测出的文字区域进行OCR识别,识别出其中的文字信息。最后,基于自然语言处理(Natural Language Processing,NLP)技术从识别结果中提取出所需的报账信息,如交易日期、对方名称、金额等。
然而,两种方法均存在一定的局限性。模板匹配方法需预先构建各类发票的电子模板,这不仅需投入大量人力成本以维护模板库,而且无法涵盖所有对账单模板,从而降低识别准确率。基于文本检测与识别的方法则无需预先设定模板,但银行对账单格式复杂、内容丰富,包含众多表格、线条等元素,为OCR系统带来挑战,并对识别结果产生较大干扰,从而导致识别准确率降低。
本发明提供一种基于OCR智能填单的财务报账方法,该方法包括:采用OCR技术从目标发票的发票图像中提取出识别信息;在所述目标发票的发票类型为第一类型时,根据所述目标发票对应的模板从所述识别信息中提取报账信息;在所述目标发票的发票类型为第二类型时,根据NLP技术从所述识别信息中提取报账信息;根据所述报账信息,自动将其录入财务共享系统。本发明能够根据发票类型降低模板的存储量,从而降低模板库维护成本,并提升对第一类型发票的识别精确度,同时,结合NLP技术提升对第二类型发票的识别效率。
发明内容
本发明实施例提供了一种基于OCR智能填单的财务报账方法、装置及电子设备,以解决如何克服现有自动对账方案的局限性以提高账单识别的准确性和效率的问题。
第一方面,本发明实施例提供了一种基于OCR智能填单的财务报账方法,包括:
采用OCR技术从目标发票的发票图像中提取出识别信息;
在所述目标发票的发票类型为第一类型时,根据所述目标发票对应的模板从所述识别信息中提取报账信息;在所述目标发票的发票类型为第二类型时,根据NLP技术从所述识别信息中提取报账信息;
根据所述报账信息,自动将其录入财务共享系统。
在一种可能的实现方式中,所述第一类型为专用发票,或,专用发票中的部分指定发票类型;
所述第二类型为普通发票,或,普通发票及专用发票中指定发票类型之外的发票类型。
在一种可能的实现方式中,所述第一类型为专用发票中合同发票;所述合同发票对应的模板通过发票合同的字段图像样本训练得到;
相应的,所述根据所述目标发票对应的模板从所述识别信息中提取报账信息,包括:
根据所述目标发票对应的模板从标注位置对应的识别信息中提取报账信息。
在一种可能的实现方式中,在所述目标发票为合同发票时,所述报账信息包括:发票类型、含税金额、税额、不含税金额,税收分类码和开票方信息;其中,所述开票方信息包括:开票方名称、银行和账号。
在一种可能的实现方式中,在所述根据所述报账信息,自动将其录入财务共享系统之前,还包括:
根据所述目标发票的发票类型获取对应的审核规则;
在所述报账信息中存在不符合所述审核规则的误差信息时,根据所述误差信息生成审核提示信息。
在一种可能的实现方式中,在所述目标发票的发票类型为第一类型且为合同发票时,所述根据所述目标发票的发票类型获取对应的审核规则,包括:
在仅获取到所述目标发票的发票图像时,获取对应所有报账信息的第一审核规则;
在同时获取到所述目标发票的发票图像和合同图像时,获取对应所述报账信息中企业名称和纳税人识别号的第二审核规则。
在一种可能的实现方式中,在所述根据所述目标发票对应的模板从所述识别信息中提取报账信息或根据NLP技术从所述识别信息中提取报账信息之前,还包括:
获取扫描请求,并解析所述扫描请求获取所述目标发票的发票类型;或者,
根据所述识别信息和发票类型识别模型确定所述目标发票的发票类型。
第二方面,本发明实施例提供了一种基于OCR智能填单的财务报账装置,包括:
OCR识别模块,用于采用OCR技术从目标发票的发票图像中提取出识别信息;
提取模块,用于在所述目标发票的发票类型为第一类型时,根据所述目标发票对应的模板从所述识别信息中提取报账信息;在所述目标发票的发票类型为第二类型时,根据NLP技术从所述识别信息中提取报账信息;
录入模块,用于根据所述报账信息,自动将其录入财务共享系统。
第三方面,本发明实施例提供了一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。
本发明实施例提供一种基于OCR智能填单的财务报账方法、装置及电子设备,通过采用OCR技术从目标发票的发票图像中提取出识别信息,在目标发票的发票类型为第一类型时,根据目标发票对应的模板从识别信息中提取报账信息,可以根据具体的发票样式自动匹配相应的模板,从而降低模板的存储量。这不仅降低了模板库的维护成本,还提高了识别精确度。在目标发票的发票类型为第二类型时,根据NLP技术从识别信息中提取报账信息,即使在没有对应模板的情况下,也能通过NLP技术对发票内容进行分析和处理。NLP技术能够准确地识别和理解发票中的文字信息,从而提高了对第二类型发票的识别效率。然后,根据报账信息,自动将其录入财务共享系统,实现财务数据的实时更新和管理。本申请实施例,根据发票类型降低模板的存储量,从而降低模板库维护成本,综合应用OCR技术和NLP技术的处理方式,既保证了第一类型发票的高识别准确率,又提高了第二类型发票的识别效率,为财务管理带来了极大的便利。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的基于OCR智能填单的财务报账方法的实现流程图;
图2是本发明一实施例提供的基于OCR智能填单的财务报账装置的结构示意图;
图3是本发明一实施例提供的电子设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
个人报销或者对公付款时,所有单据内容均需要人工填写,单据填写完成后将付款的相关发票或者其他附件进行整理,在扫描仪上进行影像上传。业务不熟悉,填单容易出错,扫描环节不能在个人办公电脑上进行,也很大程度影响到经办人的报销效率。
智能填单系统建设将充分利用OCR影像识别技术,在提升影像校验速度的同时,实现单据自动填写。为了提高工作效率,进一步的整合发票真伪校验、风控提醒等功能,在提升经办人提单速度的同时提升经办人填单的准确性,使系统更加简单、易用、高效。
此外,通过智能填单系统,建立集团全量电子凭证池,实现财务共享系统的入账明细自动填报、合同信息自动反写、电子凭证自动归档等全流程智能化处理。构建业、财、票、证一体化关联关系,实现会计影像全流程标准化、电子化、自动化。本申请实施中重点针对财务共享系统的入账明细自动填报进行说明。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施例来进行说明。
图1是本发明实施例提供的基于OCR智能填单的财务报账方法的实现流程图,如图1所示,该方法包括如下步骤:
S101,采用OCR技术从目标发票的发票图像中提取出识别信息。
在本申请实施例中,基于OCR智能填单的财务报账方法的执行主体为共享财务系统或与共享财务系统通信连接的专用于OCR识别的控制系统,通过这种报账方式,提高财务管理效率,减少人工操作失误,进而降低成本。本申请实施例以执行主体为共享财务系统为例进行说明。
OCR技术在现代财务管理中的应用日益普及。首先,将财务报账所需的文档(如发票、凭证等)拍摄或扫描成图片格式。然后,通过OCR识别控制系统对这些图片进行处理,提取其中的关键信息。最后,将这些提取到的信息自动填充到财务报账系统中,完成整个报账过程,为财务部门提供便捷、高效的处理方式。
在这个过程中,共享财务系统起到了至关重要的作用。它不仅可以实时接收OCR识别控制系统传输的数据,还能对数据进行统一管理和分析。这样一来,企业可以更加便捷地监控财务状况,及时发现潜在问题,从而确保财务管理的规范性和准确性。
在具体实施过程中,目标发票为纸质发票或数电票。
其中,数电票即指数字电子票据,是一种以电子形式呈现的票据。它是传统纸质票据的电子化替代品,通过应用先进的信息技术手段,将票据的发行、传输、存储和结算等过程数字化,实现了票据的电子化管理和交易。数电票的出现为票据管理和交易带来了许多便利和优势,使得票据的流转更加高效、安全和便捷。数电票可以通过互联网等电子渠道进行即时传输,减少了时间和空间的限制,大大提高了票据的传输效率。
在目标发票为纸质发票时,可选的,发票图像通过扫描仪扫描上传或者通过手机或专用便携式扫描仪等移动终端上传,由手机自带的相机或专用便携式扫描仪扫描模块等获得。
在本申请实施对OCR技术应用过程中,包括通过图像划分和文字提取两个步骤。图像划分旨在对原始图像进行预处理,从而提取出包含有效信息的局部区域。图像中除了文字信息外还包括表格、线条等元素,而这些有效信息是图像中具有较高清晰度和完整性的文字部分,与其他非文字区域分离开来,为后续的文字提取奠定基础。步骤S101中提取出的识别信息则主要是图像划分结果,且为图像中文字部分。
S102,在目标发票的发票类型为第一类型时,根据目标发票对应的模板从识别信息中提取报账信息;在目标发票的发票类型为第二类型时,根据NLP技术从识别信息中提取报账信息。
其中,根据发票类型的相关信息量或重要性进行分类。将相关信息量较大或重要性较高的发票类型视为第一类型,为了提高第一类型发票的识别效率,预设相应的标准模板,通过模板匹配方式提取报账信息,从而提升录入速度。对于相关信息量较小的第二类型发票,无需进行模板匹配,而是直接运用NLP技术从识别信息中提取对账数据。
根据发票类型不同,采用相应处理策略以提高识别准确率和效率。对于第一类型发票,系统会根据对应模板从识别信息中提取报账信息根据具体发票样式自动匹配相应模板,降低模板存储量,从而降低模板库维护成本,提高识别精确度。此外,针对第一类型发票,还可进行精细化管理,进一步提高识别准确性。
对于第二类型发票,系统会采用NLP技术从识别信息中提取报账信息。即使没有对应模板,NLP技术也能对发票内容进行分析和处理。通过准确识别和理解发票文字信息,提高第二类型发票的识别效率。
其中,在目标发票类型为第一类型时,通过预先设定的模板,从识别信息中提取关键数据。这一过程主要依赖于信息化技术和数据挖掘技术。具体步骤包括:1.制定发票模板:根据发票格式和内容要求,设计相应的模板,以方便后续的数据提取。2.图像识别:将发票图像输入到识别系统中,通过OCR技术将图像中的文字信息转换为可编辑的文本格式。3.数据匹配:将识别后的文本信息与预设的模板进行匹配,提取出所需的报账信息。
在此之后,还包括核对与校验步骤,对提取到的报账信息进行核对,确保数据的准确无误。
当目标发票类型为第二类型时,采用NLP技术从识别信息中提取报账信息。这一过程涉及文本分析、语义理解、命名实体识别等技术。具体步骤包括:1.文本预处理:对发票图像进行文字识别后,进行去除噪声、分词等预处理操作,为后续的文本分析做好准备。2.语义理解:通过机器学习算法和深度学习技术,对文本进行语义分析,理解文本表达的含义。3.命名实体识别:从文本中识别出关键实体,如金额、发票号码等,为后续的对账提供依据。4.数据匹配与核对:将识别到的实体信息与预期数据进行匹配,从而提取出报账信息。
S103,根据报账信息,自动将其录入财务共享系统。
其中,步骤S103中财务共享系统能够自动识别和提取报账信息,这一过程通过运用先进的数据挖掘和人工智能技术,保证了信息的准确性和完整性。同步将提取到的报账信息自动录入财务共享系统,实现了财务数据的一致性和实时性。
在提取到报账信息后,系统会自动将其录入财务共享系统,这一过程无需人工干预,大大降低了错误率和时间成本,实现财务数据的实时更新和管理,确保了企业财务状况的实时监控和分析。
在本实施例中,通过采用OCR技术从目标发票的发票图像中提取出识别信息,在目标发票的发票类型为第一类型时,根据目标发票对应的模板从识别信息中提取报账信息,可以根据具体的发票样式自动匹配相应的模板,从而降低模板的存储量。这不仅降低了模板库的维护成本,还提高了识别精确度。在目标发票的发票类型为第二类型时,根据NLP技术从识别信息中提取报账信息,即使在没有对应模板的情况下,也能通过NLP技术对发票内容进行分析和处理。NLP技术能够准确地识别和理解发票中的文字信息,从而提高了对第二类型发票的识别效率。然后,根据报账信息,自动将其录入财务共享系统,实现财务数据的实时更新和管理。本申请实施例,根据发票类型降低模板的存储量,从而降低模板库维护成本,综合应用OCR技术和NLP技术的处理方式,既保证了第一类型发票的高识别准确率,又提高了第二类型发票的识别效率,为财务管理带来了极大的便利。
在一种可能的实现方式中,第一类型为专用发票,或,专用发票中的部分指定发票类型;
第二类型为普通发票,或,普通发票及专用发票中指定发票类型之外的发票类型。
在不同实施例中,第一类型与第二类型的划分方式存在差异,主要包括两种分类方法。第一种分类方式如下:专用发票被视为第一类型,而普通发票则为第二类型。第二种分类方式则将专用发票中的部分指定发票类型纳入第一类型,第二类型则包括普通发票以及专用发票中除指定发票类型之外的其它发票类型。
实际实施过程中,专用发票包括增值税专用发票和专业发票等。普通发票包括通行费发票、定额发票等。其中,通行费发票包括火车票、大巴票、机票行程单、出租车票等。
根据企业的规模、系统运算能力等因素,可以适当地调整第一类型与第二类型的划分。为了提高系统对于不同规模和不同系统运算能力的适应性,管理员可以对第一类型与第二类型进行配置。
在具体操作中,若企业规模较大,发票处理事务繁多,此时建议采用第一种分类方式,以避免NLP识别结果不准确导致的频繁报错,以及人工审核环节造成的录入工作量大、效率低下等问题。
另一方面,若系统运算能力较强,能满足NLP和OCR同时运算的效率需求,此时则宜采用第二种分类方式。
在本实施例中,两种分类方法各有优势,具体选择哪一种可以根据企业的实际情况和系统能力进行决策。合理地配置和管理第一类型和第二类型,将有助于企业更好地应对日益复杂的财务管理工作。无论是哪种分类方式,均能相较于单一OCR技术进行财务报账,均能提高发票管理的效率和准确性,降低错误率和人工工作量。
在一种可能的实现方式中,第一类型为专用发票中合同发票;合同发票对应的模板通过发票合同的字段图像样本训练得到;
相应的,根据目标发票对应的模板从识别信息中提取报账信息,包括:
根据目标发票对应的模板从标注位置对应的识别信息中提取报账信息。
其中,合同发票的对应模板是通过分析发票合同的字段图像样本训练得出的。根据目标发票的对应模板,对提取到的识别信息进行处理,从中提取出标注位置对应的报账信息。这一步是通过专门的算法实现的,能够提高报账信息的准确性和完整性。
在此之后,将处理后的报账信息与原始发票信息进行比对,从而完成对账操作。这一步的目的是确保发票的准确无误,以便于后续的财务处理和管理。
在具体实施例中,专用发票涵盖了诸如增值税专用发票和专业发票等多种类型。这些发票在企业的财务和税务管理中具有至关重要的作用。
在一种可能的实现方式中,在目标发票为合同发票时,报账信息包括:发票类型、含税金额、税额、不含税金额,税收分类码和开票方信息;其中,开票方信息包括:开票方名称、银行和账号。
相对而言,合同发票所涉及的信息种类更为繁杂,这主要源于其详细的交易记录和合同履约情况。因此,在企业的日常运营和财务管理过程中,合同发票的重要性不言而喻。为了确保信息的准确性和完整性,企业需要对这些发票进行严格的分类、登记、审核和管理,以作为后续财务分析、决策支持以及合规审查的重要依据。
在本实施例中,基于合同发票的专用发票处理方法,通过模板训练、识别信息提取和比对等步骤,实现了高效、准确的对账操作。这不仅提高了财务管理的效果,也为企业提供了可靠的财务数据支持。
在一种可能的实现方式中,在根据报账信息,自动将其录入财务共享系统之前,还包括:
根据目标发票的发票类型获取对应的审核规则;
在报账信息中存在不符合审核规则的误差信息时,根据误差信息生成审核提示信息。
其中,审核规则包括发票金额、发票日期、购买方与销售方信息等多个方面,确保后续的对账过程能够准确、高效地进行。
根据目标发票的类型,获取对应的审核规则旨在确保报账信息准确无误。不同的发票类型可能有不同的审核要求,例如,增值税专用发票的审核规则就与其他类型的发票有所不同。获取正确的审核规则,可以保证对账过程的顺利进行。
此后,在将审核规则应用到报账信息中时,如果发现存在不符合审核规则的误差信息,就需要根据这些误差信息生成审核提示信息。这些提示信息可以帮助财务人员快速定位问题,并及时进行调整,从而优化整个对账和录入流程的效率与准确性。例如,如果发现报账信息中的金额与实际发生的金额不符,系统可以自动生成一条审核提示信息,指出具体的问题所在。这样,财务人员就可以有针对性地进行核查,避免了对账过程中可能出现的错误。
在本实施例中,根据报账信息自动录入财务共享系统之前,通过获取对应的审核规则和生成审核提示信息,可以提高对账的准确性和效率,减轻财务人员的工作负担,并及时发现和防范潜在风险。
在一种可能的实现方式中,在目标发票的发票类型为第一类型且为合同发票时,根据目标发票的发票类型获取对应的审核规则,包括:
在仅获取到目标发票的发票图像时,获取对应所有报账信息的第一审核规则;
在同时获取到目标发票的发票图像和合同图像时,获取对应报账信息中企业名称和纳税人识别号的第二审核规则。
在合同发票扫描上传过程中,有不同上传方式。可选地,单独上传发票或同时上传发票和合同。
在上传合同时,财务共享系统会同步对合同内容进行OCR识别,提取企业名称、纳税人识别号以及银行收款信息等主要数据,并将这些信息发送并录入财务共享系统,为后续的合同管理和财务核算提供数据支持。系统可以根据需求设置提交标准,例如:只有当合同关键信息与填单关键信息一致时,才能提交合同发票。为实现这一目标,系统预置了根据多种合同图像训练得到的合同通用模板,以帮助提高合同识别的效率,确保合同信息的准确性。
当合同和发票一同上传时,系统获取对应报账信息中企业名称和纳税人识别号的第二审核规则,根据第二审核规则自动对企业名称和纳税人识别号进行核对。在同一供应商存在多份合同的情况下,系统会提示经办人有多少合同与发票开票方对应,以确保合同与发票的匹配性,避免因信息不一致导致的财务风险。
在本实施例中,两种审核规则各有侧重,但目标都是为了确保合同发票的准确性和合规性。在实际操作中,根据合同和发票上传的实际情况灵活运用这两种审核规则,确保发票的审核工作有序、高效地进行,提高审核效率和准确性,降低人工审核的工作量。
在不同实施例中,在步骤S102提取报账信息之前,确定目标发票的发票类型方式不同。
在一种可能的实现方式中,在根据目标发票对应的模板从识别信息中提取报账信息或根据NLP技术从识别信息中提取报账信息之前,还包括:获取扫描请求,并解析扫描请求获取目标发票的发票类型。
在一些可行的实施例中,共享财务系统设置新增发票导入选项或新增发票扫描选项。为了优化识别数据管理及提高识别效率,进一步设置专用发票与普通发票选项,或根据具体发票类型设置相应类型选项或分级菜单选项。当用户触发新增发票导入/扫描选项及发票类型相关选项后,系统将生成对应发票类型的扫描请求并调用发票图像上传界面。在步骤S102之前,解析扫描请求以获取目标发票的类型信息,从而提升信息提取效率。
在另一种可能的实现方式中,在根据目标发票对应的模板从识别信息中提取报账信息或根据NLP技术从识别信息中提取报账信息之前,还包括:根据识别信息和发票类型识别模型确定目标发票的发票类型。
在一些可行的实施过程中,共享财务系统预置发票类型识别模型。该模型以不同发票类型的图像为训练样本,训练出具体发票类型中标识信息在完整发票图像中的位置。在步骤S102之前,利用OCR技术对发票图像的初步提取结果和预置发票类型识别模型,对发票类型区域相关的图像划分结果进行识别和文字提取,以确定目标发票的类型。
在又一种可能的实现方式中,在根据目标发票对应的模板从识别信息中提取报账信息或根据NLP技术从识别信息中提取报账信息之前,还包括:
获取扫描请求,并解析扫描请求获取目标发票的发票类型;或者,
根据识别信息和发票类型识别模型确定目标发票的发票类型。
在一些可行的实施过程中,共享财务系统设置新增发票导入选项或新增发票扫描选项。为了优化识别数据管理及提高识别效率,进一步设置专用发票与普通发票选项,或根据具体发票类型设置相应类型选项或分级菜单选项。当用户触发新增发票导入/扫描选项及发票类型相关选项后,系统将生成对应发票类型的扫描请求并调用发票图像上传界面。在步骤S102之前,解析扫描请求以获取目标发票的类型信息,从而提升信息提取效率。
同时,共享财务系统预置发票类型识别模型。该模型以不同发票类型的图像为训练样本,训练出具体发票类型中标识信息在完整发票图像中的位置。在步骤S102之前,利用OCR技术对发票图像的初步提取结果和预置发票类型识别模型,对发票类型区域相关的图像划分结果进行识别和文字提取,以确定目标发票的类型。
对于人员在不清楚发票具体类型或者在进行发票集中处理批量时,用户可以自由选择触发相关选项或跳过触发相关选项执行发票OCR识别。
在本实施中,结合两种不同的方式实现发票类型的确认,可以满足不同需求,实现高效、准确的发票识别和信息提取。这不仅有助于提高财务管理的效率,还有助于降低错误率,确保企业运营的稳健性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
以下为本发明的装置实施例,对于其中未详尽描述的细节,可以参考上述对应的方法实施例。
图2示出了本发明实施例提供的基于OCR智能填单的财务报账装置的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
如图2所示,基于OCR智能填单的财务报账装置4包括:
OCR识别模块201,用于采用OCR技术从目标发票的发票图像中提取出识别信息;
提取模块202,用于在目标发票的发票类型为第一类型时,根据目标发票对应的模板从识别信息中提取报账信息;在目标发票的发票类型为第二类型时,根据NLP技术从识别信息中提取报账信息;
录入模块203,用于根据报账信息,自动将其录入财务共享系统。
在一种可能的实现方式中,所述第一类型为专用发票,或,专用发票中的部分指定发票类型;
所述第二类型为普通发票,或,普通发票及专用发票中指定发票类型之外的发票类型。
在一种可能的实现方式中,所述第一类型为专用发票中合同发票;所述合同发票对应的模板通过发票合同的字段图像样本训练得到;
相应的,提取模块202,具体用于根据所述目标发票对应的模板从标注位置对应的识别信息中提取报账信息。
在一种可能的实现方式中,在所述目标发票为合同发票时,所述报账信息包括:发票类型、含税金额、税额、不含税金额,税收分类码和开票方信息;其中,所述开票方信息包括:开票方名称、银行和账号。
在一种可能的实现方式中,还包括:审核模块,用于在所述根据所述报账信息,自动将其录入财务共享系统之前,根据所述目标发票的发票类型获取对应的审核规则;并在所述报账信息中存在不符合所述审核规则的误差信息时,根据所述误差信息生成审核提示信息。
在一种可能的实现方式中,在所述目标发票的发票类型为第一类型且为合同发票时,审核模块,具体用于在仅获取到所述目标发票的发票图像时,获取对应所有报账信息的第一审核规则;在同时获取到所述目标发票的发票图像和合同图像时,获取对应所述报账信息中企业名称和纳税人识别号的第二审核规则。
在一种可能的实现方式中,还包括:获取模块,用于在所述根据所述目标发票对应的模板从所述识别信息中提取报账信息或根据NLP技术从所述识别信息中提取报账信息之前,获取扫描请求,并解析所述扫描请求获取所述目标发票的发票类型;或者,
根据所述识别信息和发票类型识别模型确定所述目标发票的发票类型。
本发明实施例通过采用OCR技术从目标发票的发票图像中提取出识别信息,在目标发票的发票类型为第一类型时,根据目标发票对应的模板从识别信息中提取报账信息,可以根据具体的发票样式自动匹配相应的模板,从而降低模板的存储量。这不仅降低了模板库的维护成本,还提高了识别精确度。在目标发票的发票类型为第二类型时,根据NLP技术从识别信息中提取报账信息,即使在没有对应模板的情况下,也能通过NLP技术对发票内容进行分析和处理。NLP技术能够准确地识别和理解发票中的文字信息,从而提高了对第二类型发票的识别效率。然后,根据报账信息,自动将其录入财务共享系统,实现财务数据的实时更新和管理。本申请实施例,根据发票类型降低模板的存储量,从而降低模板库维护成本,综合应用OCR技术和NLP技术的处理方式,既保证了第一类型发票的高识别准确率,又提高了第二类型发票的识别效率,为财务管理带来了极大的便利。
图3是本发明实施例提供的终端的示意图。如图3所示,该实施例的终端3包括:处理器30、存储器31以及存储在所述存储器31中并可在所述处理器30上运行的计算机程序32。所述处理器30执行所述计算机程序32时实现上述各个基于OCR智能填单的财务报账方法实施例中的步骤,例如图1所示的各步骤。或者,所述处理器30执行所述计算机程序32时实现上述各装置实施例中各模块/单元的功能,例如图2所示各模块的功能。
示例性的,所述计算机程序32可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器30执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序32在所述终端3中的执行过程。例如,所述计算机程序32可以被分割成图2所示的各模块。
所述终端3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端3可包括,但不仅限于,处理器30、存储器31。本领域技术人员可以理解,图3仅仅是终端3的示例,并不构成对终端3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端还可以包括输入输出设备、网络接入设备、总线等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器31可以是所述终端3的内部存储单元,例如终端3的硬盘或内存。所述存储器31也可以是所述终端3的外部存储设备,例如所述终端3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器31还可以既包括所述终端3的内部存储单元也包括外部存储设备。所述存储器31用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个基于OCR智能填单的财务报账方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于OCR智能填单的财务报账方法,其特征在于,包括:
采用光学字符识别OCR技术从目标发票的发票图像中提取出识别信息;
在所述目标发票的发票类型为第一类型时,根据所述目标发票对应的模板从所述识别信息中提取报账信息;在所述目标发票的发票类型为第二类型时,根据自然语言处理NLP技术从所述识别信息中提取报账信息;
根据所述报账信息,自动将其录入财务共享系统。
2.根据权利要求1所述的方法,其特征在于,所述第一类型为专用发票,或,专用发票中的部分指定发票类型;
所述第二类型为普通发票,或,普通发票及专用发票中指定发票类型之外的发票类型。
3.根据权利要求2所述的方法,其特征在于,所述第一类型为专用发票中合同发票;所述合同发票对应的模板通过发票合同的字段图像样本训练得到;
相应的,所述根据所述目标发票对应的模板从所述识别信息中提取报账信息,包括:
根据所述目标发票对应的模板从标注位置对应的识别信息中提取报账信息。
4.根据权利要求3所述的方法,其特征在于,在所述目标发票为合同发票时,所述报账信息包括:发票类型、含税金额、税额、不含税金额,税收分类码和开票方信息;其中,所述开票方信息包括:开票方名称、银行和账号。
5.根据权利要求2、3或4所述的方法,其特征在于,在所述根据所述报账信息,自动将其录入财务共享系统之前,还包括:
根据所述目标发票的发票类型获取对应的审核规则;
在所述报账信息中存在不符合所述审核规则的误差信息时,根据所述误差信息生成审核提示信息。
6.根据权利要求5所述的方法,其特征在于,在所述目标发票的发票类型为第一类型且为合同发票时,所述根据所述目标发票的发票类型获取对应的审核规则,包括:
在仅获取到所述目标发票的发票图像时,获取对应所有报账信息的第一审核规则;
在同时获取到所述目标发票的发票图像和合同图像时,获取对应所述报账信息中企业名称和纳税人识别号的第二审核规则。
7.根据权利要求1所述的方法,其特征在于,在所述根据所述目标发票对应的模板从所述识别信息中提取报账信息或根据NLP技术从所述识别信息中提取报账信息之前,还包括:
获取扫描请求,并解析所述扫描请求获取所述目标发票的发票类型;或者,
根据所述识别信息和发票类型识别模型确定所述目标发票的发票类型。
8.一种基于OCR智能填单的财务报账装置,其特征在于,包括:
OCR识别模块,用于采用OCR技术从目标发票的发票图像中提取出识别信息;
提取模块,用于在所述目标发票的发票类型为第一类型时,根据所述目标发票对应的模板从所述识别信息中提取报账信息;在所述目标发票的发票类型为第二类型时,根据NLP技术从所述识别信息中提取报账信息;
录入模块,用于根据所述报账信息,自动将其录入财务共享系统。
9.一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上的权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上的权利要求1至7中任一项所述方法的步骤。
CN202311849805.9A 2023-12-29 2023-12-29 一种基于ocr智能填单的财务报账方法、装置及电子设备 Pending CN117807967A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311849805.9A CN117807967A (zh) 2023-12-29 2023-12-29 一种基于ocr智能填单的财务报账方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311849805.9A CN117807967A (zh) 2023-12-29 2023-12-29 一种基于ocr智能填单的财务报账方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN117807967A true CN117807967A (zh) 2024-04-02

Family

ID=90431398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311849805.9A Pending CN117807967A (zh) 2023-12-29 2023-12-29 一种基于ocr智能填单的财务报账方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN117807967A (zh)

Similar Documents

Publication Publication Date Title
US8233751B2 (en) Method and system for simplified recordkeeping including transcription and voting based verification
AU2013379776B2 (en) Presentation of image of source of tax data through tax preparation application
CN106504079A (zh) 一种综合式财务管理方法及其管理平台
CN110544161A (zh) 基于票据数据自动提取的财务费用稽核方法以及装置
US11710192B2 (en) Taxpayers switching tax preparers
CN110188336B (zh) 一种基于oa申请单生成报销单的方法和装置
CN114202755A (zh) 基于ocr和nlp技术的交易背景真实性审核方法和系统
US20140207631A1 (en) Systems and Method for Analyzing and Validating Invoices
US11544799B2 (en) Comprehensive tax return preparation system
CN111914729A (zh) 凭证关联方法、装置、计算机设备及存储介质
CN110781726A (zh) 基于ocr的图片数据识别方法、装置、及计算机设备
US20200193525A1 (en) System and method for automatic verification of expense note
US11314887B2 (en) Automated document access regulation system
CN110008772B (zh) 一种用于税务管理的发票快速识别与录入的方法和系统
CN111275436A (zh) 一种处理信息的方法及终端
CN117807967A (zh) 一种基于ocr智能填单的财务报账方法、装置及电子设备
US8543503B1 (en) Systems and methods for automated invoice entry
KR102562186B1 (ko) 건물임대관리 기반 공문발송 서비스 제공 시스템
CN113807901A (zh) 一种电子发票检测方法、终端设备及存储介质
CN114549177A (zh) 保函审查方法、装置、系统与计算机可读存储介质
CN113792570A (zh) 理赔数据处理方法、装置、电子设备及可读介质
WO2021073264A1 (zh) 票据信息采集方法、装置、计算机设备及可读存储介质
CN110443202A (zh) 论文字体工整度即时分析平台、方法及存储介质
US20230081511A1 (en) Systems and methods for improved payroll administration in a freelance workforce
CN115311651B (zh) 一种房地产凭证资料采集与整理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination