CN113344690A - 一种发票报销的处理方法及装置 - Google Patents

一种发票报销的处理方法及装置 Download PDF

Info

Publication number
CN113344690A
CN113344690A CN202110739629.8A CN202110739629A CN113344690A CN 113344690 A CN113344690 A CN 113344690A CN 202110739629 A CN202110739629 A CN 202110739629A CN 113344690 A CN113344690 A CN 113344690A
Authority
CN
China
Prior art keywords
invoice
area
identified
reimbursement
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110739629.8A
Other languages
English (en)
Inventor
宋瑞
梁杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110739629.8A priority Critical patent/CN113344690A/zh
Publication of CN113344690A publication Critical patent/CN113344690A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Technology Law (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种发票报销的处理方法及装置,可用于人工智能技术领域。所述方法包括:接收客户端发送的报销请求,报销请求包括发票图片和员工标识;对发票图片进行区域化处理,获得各个待识别区域;根据各个待识别区域和发票识别模型,获得每个待识别区域的识别结果;其中,发票识别模型是基于发票训练样本和对应的标记信息训练获得的;若判断获知各个待识别区域的识别结果通过识别结果校验,则根据员工标识获得员工登记信息;根据发票信息、员工登记信息以及报销单模版,生成发票报销单;其中,发票信息从各个待识别区域的识别结果获得。所述装置用于执行上述方法。本发明实施例提供的发票报销的处理方法及装置,提高了发票报销单的生成效率。

Description

一种发票报销的处理方法及装置
技术领域
本发明涉及人工智能技术领域,具体涉及一种发票报销的处理方法及装置。
背景技术
发票在购销商品、提供或接受服务以及从事其他经营活动中,所开具和收取的业务凭证。在现代工业、商业以及日常经济活动中,会频繁使用发票。
在企业报销发票场景中,首先由企业员工手工填写发票信息,再交由财务人员对填写的发票信息进行审核,从而完成报销的流程。由于在发票报销的过程中,需要手动填写信息,整个过程效率低,并且手工填写发票信息容易出错,出错后需要重新填写发票信息。
发明内容
针对现有技术中的问题,本发明实施例提供一种发票报销的处理方法及装置,能够至少部分地解决现有技术中存在的问题。
一方面,本发明提出一种发票报销的处理方法,包括:
接收客户端发送的报销请求,所述报销请求包括发票图片和员工标识;
对所述发票图片进行区域化处理,获得各个待识别区域;
根据各个待识别区域和发票识别模型,获得每个待识别区域的识别结果;其中,所述发票识别模型是基于发票训练样本和对应的标记信息训练获得的;
若判断获知各个待识别区域的识别结果通过识别结果校验,则根据所述员工标识获得员工登记信息;
根据发票信息、所述员工登记信息以及报销单模版,生成发票报销单;其中,所述发票信息从各个待识别区域的识别结果获得。
另一方面,本发明提供一种发票报销的处理装置,包括:
接收模块,用于接收客户端发送的报销请求,所述报销请求包括发票图片和员工标识;
区域化模块,用于对所述发票图片进行区域化处理,获得各个待识别区域;
识别模块,用于根据各个待识别区域和发票识别模型,获得每个待识别区域的识别结果;其中,所述发票识别模型是基于发票训练样本和对应的标记信息训练获得的;
校验模块,用于若判断获知各个待识别区域的识别结果通过识别结果校验,则根据所述员工标识获得员工登记信息;
生成模块,用于根据发票信息、所述员工登记信息以及报销单模版,生成发票报销单;其中,所述发票信息从各个待识别区域的识别结果获得。
再一方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述发票报销的处理方法的步骤。
又一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述发票报销的处理方法的步骤。
本发明实施例提供的发票报销的处理方法及装置,能够接收客户端发送的报销请求,对发票图片进行区域化处理,获得各个待识别区域,根据各个待识别区域和发票识别模型,获得每个待识别区域的识别结果,在判断获知各个待识别区域的识别结果通过识别结果校验之后,根据员工标识获得员工登记信息,根据发票信息、员工登记信息以及报销单模版,生成发票报销单,实现了发票报销单的自动填写,提高了发票报销单的生成效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明第一实施例提供的发票报销的处理方法的流程示意图。
图2是本发明第二实施例提供的发票的待识别区域的示意图。
图3是本发明第三实施例提供的发票报销的处理方法的流程示意图。
图4是本发明第四实施例提供的发票报销的处理方法的流程示意图。
图5是本发明第五实施例提供的发票报销的处理装置的结构示意图。
图6是本发明第六实施例提供的发票报销的处理装置的结构示意图。
图7是本发明第七实施例提供的发票报销的处理装置的结构示意图。
图8是本发明第八实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是本发明第一实施例提供的发票报销的处理方法的流程示意图,如图1所示,本发明实施例提供的发票报销的处理方法,包括:
S101、接收客户端发送的报销请求,所述报销请求包括发票图片和员工标识;
具体地,企业员工在需要进行发票报销时,可以通过客户端发送报销请求,服务器会接收所述报销请求,所述报销请求包括发票图片和员工标识。其中,所述发票图片可以是电子发票的图片,也可以是纸质发票的图片,本发明实施例不做限定。企业员工具有唯一对应的员工标识。所述客户端包括但不限于台式机、笔记本电脑、平板电脑、智能手机等。本发明实施例提供的发票报销的处理方法的执行主体包括但不限于服务器。
例如,可以通过扫描的方式获得纸质发票的图片。
S102、对所述发票图片进行区域化处理,获得各个待识别区域;
具体地,所述服务器在接收到发票图片之后,可以对所述发票图片进行区域化处理,获得各个待识别区域,每个待识别区域都有需要进行识别的信息。
例如,可以预先设置某类发票的各个待识别区域的区域位置,基于各个待识别区域的区域位置,获得各个待识别区域。上述区域位置,可以为长方形的区域,通过长方形区域的某个端点坐标、长方形区域的长度和宽度进行表示。上述端点坐标表示为(x,y),可以预先设置x占发票图片的长度L的百分比a和y为占发票图片的宽度W的百分比b,x=La,y=Wb。
例如,图2是本发明第二实施例提供的发票的待识别区域的示意图,如图2所示,发票的待识别区域以粗线条黑色长方形方框的形式标出,包括发票代码所在的区域,发票号码所在的区域,开票日期所在的区域,购买方名称所在的区域,购买方纳税人识别号所在的区域,货物或应税劳务、服务名称所在的区域,价税合计(大写)对应的区域,价税合计(小写)对应的区域,销售方名称所在的区域,销售方纳税人识别号所在的区域,发票专用章所在的区域。
S103、根据各个待识别区域和发票识别模型,获得每个待识别区域的识别结果;其中,所述发票识别模型是基于发票训练样本和对应的标记信息训练获得的;
具体地,所述服务器将各个待识别区域分别输入到发票识别模型中,经过所述发票识别模型的识别,可以获得每个待识别区域的识别结果。其中,所述发票识别模型是基于发票训练样本和对应的标记信息训练获得的。
例如,对于发票号码所在的区域,识别结果为具体的发票号码;对于购买方名称所在的区域,识别结果为购买方的具体名称;对于价税合计(大写)对应的区域,识别结果为金额的中文大写;对于发票专用章所在的区域,识别结果为发票专用章图片。
S104、若判断获知各个待识别区域的识别结果通过识别结果校验,则根据所述员工标识获得员工登记信息;
具体地,所述服务器在获得各个待识别区域的识别结果之后,会对每个待识别区域的识别结果进行识别结果校验,如果每个待识别区域的识别结果都通过了识别结果校验,那么所述服务器会根据所述员工标识获得员工登记信息,所述员工登记信息是后续填写发票报销单需要的信息。其中,所述员工登记信息可以包括员工所属部门、员工姓名、员工的人员编码、员工的工资账户、员工的工资账户的开户行等信息,根据实际需要进行设置,本发明实施例不做限定。
S105、根据发票信息、所述员工登记信息以及报销单模版,生成发票报销单;其中,所述发票信息从各个待识别区域的识别结果获得。
具体地,由于不是所有的待识别区域的识别结果都需要填写到发票报销单中,所述服务器可以从各个待识别区域的识别结果中获得填写发票报销单需要的信息作为发票信息,填写到报销单模版中,并将所述员工登记信息填写到报销单模版中,从而生成发票报销单,实现了发票报销单的自动填写。其中,所述报销单模版是预设的。
例如,表1为报销单模版,所述服务器会获取当前时间作为发票报销单的填写日期,将员工所属的部门填写到申请部门栏,将员工的姓名填写到姓名栏、将员工的人员编码填写到人员编码栏,将物或应税劳务、服务名称所在的区域的识别结果填写到事由栏,将价税合计(大写)对应的区域的识别结果填写到金额(大写)栏,将价税合计(大写)对应的区域的识别结果填写到金额(小写)栏,将员工姓名填写到收款人栏,将员工的工资账户填写到账号栏,将员工的工资账户的开户行填写到开户行栏,从物或应税劳务、服务名称所在的区域的识别结果中获取关键字填写到摘要栏,根据报销请求中包括的发票图片的数量,填写张数栏,将发票号码所在的区域的识别结果填写到发票号码栏,从而完成发票报销单的填写。
表1报销单模版报销单
Figure BDA0003140944380000051
本发明实施例提供的发票报销的处理方法,能够接收客户端发送的报销请求,对发票图片进行区域化处理,获得各个待识别区域,根据各个待识别区域和发票识别模型,获得每个待识别区域的识别结果,在判断获知各个待识别区域的识别结果通过识别结果校验之后,根据员工标识获得员工登记信息,根据发票信息、员工登记信息以及报销单模版,生成发票报销单,实现了发票报销单的自动填写,提高了发票报销单的生成效率。
图3是本发明第三实施例提供的发票报销的处理方法的流程示意图,如图3所示,在上述各实施例的基础上,进一步地,基于发票训练样本和对应的标记信息训练所述发票识别模型的过程包括:
S301、获取发票训练样本,所述发票训练样本包括预设数量张发票训练图片;
具体地,可以收集预设数量张相同类型的发票图片,作为发票训练样本。所述服务器可以获取所述发票训练样本,所述发票训练样本中的每张发票图片被称为发票训练图片。其中,相同类型的发票图片可以为普通发票或者增值税专用发票,根据实际需要进行选择,本发明实施例不做限定。
S302、对所述发票训练样本中的每张发票训练图片进行区域化处理,获得每张发票训练图片的待识别区域以及每个待识别区域对应的标记信息;
具体地,所述服务器对所述发票训练样本中的每张发票训练图片进行区域化处理,可以获得每张发票训练图片的待识别区域。对于每张发票训练图片的每个待识别区域,可以人工对每张发票训练图片的每个待识别区域进行识别,获得每张发票训练图片的每个待识别区域的标记信息,所述服务器可以获得每张发票训练图片的每个待识别区域的标记信息。其中,每张发票训练图片的待识别区域的具体获得过程与步骤S102中发票图片的各个待识别区域的具体获得过程类似,此处不进行赘述。
例如,对于发票代码所在的区域,对应的标记信息为发票代码的具体字符串;对于发票号码所在的区域,对应的标记信息为发票号码的具体数字;对于开票日期所在的区域,对应的标记信息为开票日期的具体时间;对于购买方名称所在的区域,对应的标记信息为企业名称或者报销人姓名;对于购买方纳税人识别号所在的区域,对应的标记信息为具体的纳税人识别号码;对于货物或应税劳务、服务名称所在的区域,对应的标记信息为包括取暖费、供暖费、采暖费、天然气、电费等关键字的语句;对于价税合计(大写)对应的区域,对应的标记信息为发票金额的人民币大写;对于价税合计(小写)对应的区域,对应的标记信息为发票金额的人民币小写;对于销售方名称所在的区域,对应的标记信息为公司名称;对于销售方纳税人识别号所在的区域,对应的标记信息为具体的纳税人识别号码;对于发票专用章所在的区域,对应的标记信息为公司的发票专用章图片。
S303、根据原始训练模型、各张发票训练图片的待识别区域以及每个待识别区域对应的标记信息,训练获得发票识别模型;其中,所述原始训练模型采用改进的SSD算法模型,所述改进的SSD算法模型的卷积层包括三个依次排列的卷积核,三个依次排列的卷积核的大小依次为1×1、3×3和1×1,所述三个依次排列的卷积核替换原有的一个3×3的卷积核。
具体地,基于各张发票训练图片的待识别区域以及每个待识别区域对应的标记信息对原始训练模型进行模型训练,可以训练获得发票识别模型。其中,所述原始训练模型采用改进的SSD(Single Shot Detection)算法模型,所述改进的SSD算法模型的卷积层包括三个依次排列的卷积核,三个依次排列的卷积核的大小依次为1×1、3×3和1×1。所述改进的SSD算法模型是用上述三个依次排列的卷积核是替换现有的SSD算法模型的卷积层的一个3×3的卷积核之后获得的。
SSD算法模型属于卷积神经网络的一种,通常采用VCG-16网络架构,包括13个卷积层和3个全连接层。卷积层通过卷积核提取输入数据的特征,卷积核中的每个元素都对应一个权重系数和一个偏差值。卷积层中每个神经元都连接着前一层中与它位置相近的区域的多个神经元,该区域的大小取决于卷积核的大小,这个区域被称为感受野。
卷积神经网络中,卷积计算所需的权重参数都集中在卷积层中,导致该部分计算非常耗时。卷积网络中,每一层卷积层中的卷积参数数量为:
P=C×Kh×Kw×C
其中,C为卷积层中卷积核的通道数量,Kh为卷积核的高,Kw为卷积核的宽。传统的SSD算法模型的卷积层中使用3×3的卷积核进行卷积计算,所需的参数数量为:
P=C×3×3×C=9C2
在本发明实施例中,改进的SSD算法模型中将原来卷积层的一个3×3的卷积核的替换为三个依次排列的卷积核,三个依次排列的卷积核的大小依次为1×1、3×3和1×1,用堆叠小尺寸卷积核的方法替代大尺寸卷积核。在实际使用中,设置第一个1×1的卷积核的通道数为C,设置3×3的卷积核的通道数为C/2,设置第二个1×1的卷积核的通道数为C/2,那么替换3×3的卷积核的三个卷积核进行卷积计算,所需的参数数量为:
Figure BDA0003140944380000071
假设输入图片的尺寸为28×28,使用尺寸为3×3的卷积核对其进行卷积,设步长为1,填充为0,则感受野的尺寸为:
Figure BDA0003140944380000081
对于同样的28×28的输入图片,使用替换3×3的卷积核的三个卷积核进行卷积,对于第一个1×1的卷积核,感受野的尺寸为:
Figure BDA0003140944380000082
对于下一个3×3的卷积核,感受野的尺寸为:
Figure BDA0003140944380000083
对于第二个1×1的卷积核,感受野的尺寸为:
Figure BDA0003140944380000084
本发明实施例提供的改进的SSD算法模型的三个依次排列的卷积核的感受野尺寸与替换的3×3的卷积核的感受野尺寸一致。将3×3的卷积核分解为三层卷积核,从而获得更多尺度的特征,将这些特征结合后,效果要优于单一卷积核提取的特征。
上述改进的SSD算法模型三个依次排列的卷积核由于加入了1×1的卷积核,增加网络的非线性表达能力,在保证感受野的大小不变的情况下,提高了特征提取的效果,并且起到隐式正则化的作用。大尺寸的卷积核会使计算量过大,不适用于模型深度较高的模型,计算性能会降低。利用多个小卷积核叠加可以减少参数数量,降低计算量,提高运算速度,并增加非线性效果。
表2模型训练比较结果
Figure BDA0003140944380000085
为了验证改进的SSD算法模型的效果,在相同的实验平台上(Suse12计算机,GPU为NVIDIA TESLA P40),利用Pascal VOC训练集对YOLO算法模型、SSD算法模型和改进的SSD算法模型分别进行训练,获得的各自对应的模型进行检测,记录的检测精度与速度如表2所示。YOLO算法模型的检测速度最快,可以达到每秒16.1帧,但其检测精度仅为58.2mAP,无法满足高精度的要求。SSD算法模型的检测精度可以达到79.1mAP,但其检测速度最慢,仅为5.5FPS,效率低,无法达到实时检测的需求。本发明提出的改进的SSD算法模型,检测精度达到78.8mAP,检测速度为每秒10.2帧,在提升了检测速度的同时仍能够准确的检测目标。
在上述各实施例的基础上,进一步地,所述改进的SSD算法模型的第四个卷积层包括所述三个依次排列的卷积核。
具体地,可以将现有的SSD算法模型的第四个卷积层的一个3×3的卷积核的替换为所述三个依次排列的卷积核,三个依次排列的卷积核的大小依次为1×1、3×3和1×1。其中,原有的3×3的卷积核的通道数为C,可以设置替换后的第一个1×1的卷积核的通道数为C,3×3的卷积核的通道数为C/2,第二个1×1的卷积核的通道数为C/2。
在上述各实施例的基础上,进一步地,在模型的训练过程中,获得置信度大于所述置信度阈值的先验框生成预测框;其中,每个先验框对应一个置信度。
具体地,对于改进的SSD算法模型的训练,每个先验框都对应一个置信度,该置信度也是对应的预测框的置信度。可基于置信度阈值对先验框进行筛选,对于不大于所述置信度阈值的先验框不进行解码,即不会用于生成预测框,以减少计算量以及后续非极大线性抑制算法(Non-Maximum Suppression,简称NMS)的迭代次数,提高模型的训练效率。其中,所述置信度阈值是预设的。
例如,在SSD算法中,一个尺寸为m×n的特征图共有mn个单元,每个单元中的先验框个数设为k。如果检测目标有Y个类别,那么生成预测框时,共需要(Y+4)kmn预测值。在训练过程中,预测值通过先验框和目标边界框得到,是边界框相对于先验框的转换值。其中先验框是预先计算好的,是不同尺度且固定大小的边框,它们与真实的边框分布很接近。在VGG16网络结构中,先验框在conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2的输出特征图上产生,这六层产生的特征图尺寸分别为38×38、19×19、10×10、5×5、3×3、1×1,六层中每层每个中心点产生的先验框数目分别为4、6、6、6、4、4,所以在六层中每层取一个特征图共产生8732个先验框。设先验框的位置信息为d=(dcx,dcy,dw,dh),其对应的目标边界框为b=(bcx,bcy,bw,bh),l=(lcx,lcy,lw,lh),为先验框的所对应边界框的位置预测值。需要进行先验框的边界框的编码(Encode)过程,后续预测时,需要反向先验框的边界框的编码过程,进行解码(Decode),从预测值得到目标边界框的信息。
通过设置置信度阈值对先验框进行筛选,对于不大于所述置信度阈值的先验框不进行解码,就减少了上述编码和解码的过程。在生成预测框的过程中,需要使用NMS,由于NMS会对不同置信度的先验框进行迭代比较,通过设置置信度阈值可以减少用于生成预测框的先验框的数量,从而减少迭代次数,提高了获得预测框的效率。
图4是本发明第四实施例提供的发票报销的处理方法的流程示意图,如图4所示,在上述各实施例的基础上,进一步地,所述若判断获知各个待识别区域的识别结果通过识别结果校验包括:
S401、判断每个待识别区域的识别结果是否满足对应的发票区域校验规则;其中,所述发票区域校验规则是预设的;
具体地,所述服务器会判断每个待识别区域的识别结果是否满足对应的发票区域校验规则,并记录每个待识别区域的判断结果,判断结果为满足或者不满足,满足表明待识别区域的识别结果满足对应的发票区域校验规则,不满足表明待识别区域的识别结果不满足对应的发票区域校验规则。其中,所述发票区域校验规则是预设的,根据实际需要进行设置,本发明实施例不做限定。
例如,对于发票代码所在的区域的识别结果,对应的发票区域校验规则可以为识别结果包括的发票代码的位数是否等于第一预设值,如果发票代码的位数等于第一预设值,那么发票代码所在的区域的判断结果为满足,如果发票代码的位数不等于第一预设值,那么发票代码所在的区域的判断结果为不满足。其中,第一预设值根据实际需要进行设置,本发明实施例不做限定。
对于发票号码所在的区域的识别结果,对应的发票区域校验规则可以为识别结果包括的发票号码的位数是否等于第二预设值,如果发票号码的位数等于第二预设值,那么发票号码所在的区域的判断结果为满足,如果发票号码的位数不等于第二预设值,那么发票号码所在的区域的判断结果为不满足。其中,第二预设值根据实际需要进行设置,本发明实施例不做限定。
对于开票日期所在的区域的识别结果,对应的发票区域校验规则可以为识别结果是否为包括今年或者去年,如果识别结果包括今年或者去年,那么开票日期所在的区域的判断结果为满足,如果识别结果不包括今年和去年,那么开票日期所在的区域的判断结果为不满足。
对于购买方名称所在的区域的识别结果,对应的发票区域校验规则可以为识别结果是否为报销企业的企业名称或者报销人姓名,如果识别结果为报销企业的企业名称或者报销人姓名,那么购买方名称所在的区域的判断结果为满足,如果识别结果不是报销企业的企业名称或者报销人姓名,那么购买方名称所在的区域的判断结果为不满足。
对于购买方纳税人识别号所在的区域的识别结果,对应的发票区域校验规则可以为识别结果是否报销企业的纳税人识别号,如果识别结果为销企业的纳税人识别号,那么购买方纳税人识别号所在的区域的判断结果为满足,如果识别结果不是销企业的纳税人识别号,那么购买方纳税人识别号所在的区域的判断结果为不满足。
对于货物或应税劳务、服务名称所在的区域的识别结果,对应的发票区域校验规则可以为识别结果是否包括预设关键字,如果识别结果包括预设关键字,那么货物或应税劳务、服务名称所在的区域的判断结果为满足,如果识别结果不包括预设关键字,那么货物或应税劳务、服务名称所在的区域的判断结果为不满足。其中,预设关键字可以为取暖费、供暖费、采暖费、天然气费、电费等,根据实际需要进行设置,本发明实施例不做限定。
对于价税合计(大写)对应的区域的识别结果,对应的发票区域校验规则可以为识别结果是否包括非中文大写字符,如果识别结果包括非中文大写字符,那么价税合计(大写)对应的区域的判断结果为不满足,如果识别结果不包括非中文大写字符,那么价税合计(大写)对应的区域的判断结果为满足。
对于价税合计(小写)对应的区域的识别结果,对应的发票区域校验规则可以为识别结果是否包括非阿拉伯数字,如果识别结果包括非阿拉伯数字,那么价税合计(小写)对应的区域的判断结果为不满足,如果识别结果不包括非阿拉伯数字,那么价税合计(小写)对应的区域的判断结果为满足。
对于销售方名称所在的区域的识别结果,对应的发票区域校验规则可以为识别结果包括的企业名称是否与黑名单中的企业名称匹配,如果识别结果包括的企业名称与黑名单中的企业名称匹配,那么销售方名称所在的区域的判断结果为不满足,如果识别结果包括的企业名称与黑名单中的企业名称不匹配,那么销售方名称所在的区域的判断结果为满足。
对于销售方纳税人识别号所在的区域的识别结果,对应的发票区域校验规则可以为识别结果包括的纳税人识别号的位数是否等于第三预设值,如果纳税人识别号的位数等于第三预设值,那么销售方纳税人识别号所在的区域的判断结果为满足,如果纳税人识别号的位数不等于第三预设值,那么销售方纳税人识别号所在的区域的判断结果为不满足。其中,第三预设值根据实际需要进行设置,本发明实施例不做限定。
对于发票专用章所在的区域的识别结果,对应的发票区域校验规则可以为识别结果包括的发票专用章图片是否完整,是否包括“发票专用章”字样,如果识别结果包括的发票专用章图片完整且包括“发票专用章”字样,那么发票专用章所在的区域的判断结果为满足,如果识别结果包括的发票专用章图片不完整或者不包括“发票专用章”字样,那么发票专用章所在的区域的判断结果不满足。
S402、若获知所有待识别区域的识别结果都满足对应的发票区域校验规则,则确定各个待识别区域的识别结果通过识别结果校验。
具体地,所述服务器在获得各个待识别区域的判断结果之后,如果每个待识别区域的判断结果都是满足,说明所有待识别区域的识别结果都满足对应的发票区域校验规则,那么确定各个待识别区域的识别结果通过识别结果校验。
在上述各实施例的基础上,进一步地,所述对所述发票图片进行区域化处理包括:
对所述发票图片进行预处理,以增强所述发票图片的清晰度。
具体地,为了提高发票图片清晰度,所述服务器可以对所述发票图片进行预处理。其中,所述预处理所采用的算法根据实际需要进行设置,本发明实施例不做限定。
例如,可以对发票图片进行修正补强;可以去除发票图片的折皱;可以通过二值化的方法,凸显发票图片中文字的轮廓。
在上述各实施例的基础上,进一步地,本发明实施例提供的发票报销的处理方法还包括:
将所述发票报销单返回给所述客户端。
具体地,所述服务器在生成发票报销单之后,可以将所述发票报销单发送给所述客户端,企业员工可以在所述客户端对发票报销单进行核对。在核对无误之后,可以将发票报销单提供给财务人员进行审核,在财务人员审核通过之后,可以打印发票报销单,找相关领导签字。
图5是本发明第五实施例提供的发票报销的处理装置的结构示意图,如图5所示,本发明实施例提供的发票报销的处理装置包括接收模块501、区域化模块502、识别模块503、校验模块504和生成模块505,其中:
接收模块501用于接收客户端发送的报销请求,所述报销请求包括发票图片和员工标识;区域化模块502用于对所述发票图片进行区域化处理,获得各个待识别区域;识别模块503用于根据各个待识别区域和发票识别模型,获得每个待识别区域的识别结果;其中,所述发票识别模型是基于发票训练样本和对应的标记信息训练获得的;校验模块504用于若判断获知各个待识别区域的识别结果通过识别结果校验,则根据所述员工标识获得员工登记信息;生成模块505用于根据发票信息、所述员工登记信息以及报销单模版,生成发票报销单;其中,所述发票信息从各个待识别区域的识别结果获得。
具体地,企业员工在需要进行发票报销时,可以通过客户端发送报销请求,接收模块501会接收所述报销请求,所述报销请求包括发票图片和员工标识。其中,所述发票图片可以是电子发票的图片,也可以是纸质发票的图片,本发明实施例不做限定。企业员工具有唯一对应的员工标识。所述客户端包括但不限于台式机、笔记本电脑、平板电脑、智能手机等。
在接收到发票图片之后,区域化模块502可以对所述发票图片进行区域化处理,获得各个待识别区域,每个待识别区域都有需要进行识别的信息。
识别模块503将各个待识别区域分别输入到发票识别模型中,经过所述发票识别模型的识别,可以获得每个待识别区域的识别结果。其中,所述发票识别模型是基于发票训练样本和对应的标记信息训练获得的。
在获得各个待识别区域的识别结果之后,校验模块504会对每个待识别区域的识别结果进行识别结果校验,如果每个待识别区域的识别结果都通过了识别结果校验,那么校验模块504会根据所述员工标识获得员工登记信息,所述员工登记信息是后续填写发票报销单需要的信息。其中,所述员工登记信息可以包括员工所属部门、员工姓名、员工的人员编码、员工的工资账户、员工的工资账户的开户行等信息,根据实际需要进行设置,本发明实施例不做限定。
由于不是所有的待识别区域的识别结果都需要填写到发票报销单中,生成模块505可以从各个待识别区域的识别结果中获得填写发票报销单需要的信息作为发票信息,填写到报销单模版中,并将所述员工登记信息填写到报销单模版中,从而生成发票报销单,实现了发票报销单的自动填写。其中,所述报销单模版是预设的。
本发明实施例提供的发票报销的处理装置,能够接收客户端发送的报销请求,对发票图片进行区域化处理,获得各个待识别区域,根据各个待识别区域和发票识别模型,获得每个待识别区域的识别结果,在判断获知各个待识别区域的识别结果通过识别结果校验之后,根据员工标识获得员工登记信息,根据发票信息、员工登记信息以及报销单模版,生成发票报销单,实现了发票报销单的自动填写,提高了发票报销单的生成效率。
图6是本发明第六实施例提供的发票报销的处理装置的结构示意图,如图6所示,在上述各实施例的基础上,进一步地,本发明实施例提供的发票报销的处理装置还包括获取模块506、处理模块507和训练模块508,其中:
获取模块506用于获取发票训练样本,所述发票训练样本包括预设数量张发票训练图片;处理模块507用于对所述发票训练样本中的每张发票训练图片进行区域化处理,获得每张发票训练图片的待识别区域以及每个待识别区域对应的标记信息;训练模块508用于根据原始训练模型、各张发票训练图片的待识别区域以及每个待识别区域对应的标记信息,训练获得发票识别模型;其中,所述原始训练模型采用改进的SSD算法模型,所述改进的SSD算法模型的卷积层包括三个依次排列的卷积核,三个依次排列的卷积核的大小依次为1×1、3×3和1×1,所述三个依次排列的卷积核替换原有的一个3×3的卷积核。
在上述各实施例的基础上,进一步地,所述改进的SSD算法模型的第四个卷积层包括所述三个依次排列的卷积核。
在上述各实施例的基础上,进一步地,在模型的训练过程中,获得置信度大于所述置信度阈值的先验框生成预测框;其中,每个先验框对应一个置信度。
图7是本发明第七实施例提供的发票报销的处理装置的结构示意图,如图7所示,校验模块504包括判断单元5041和确定单元5042,其中:
判断单元5041判断每个待识别区域的识别结果是否满足对应的发票区域校验规则;其中,所述发票区域校验规则是预设的;确定单元5042若获知所有待识别区域的识别结果都满足对应的发票区域校验规则,则确定各个待识别区域的识别结果通过识别结果校验。
在上述各实施例的基础上,进一步地,区域化模块502具体用于:
对所述发票图片进行预处理,以增强所述发票图片的清晰度。
在上述各实施例的基础上,进一步地,本发明实施例提供的发票报销的处理装置还包括发送模块,其中:
所述发送模块用于将所述发票报销单返回给所述客户端。
本发明实施例提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
需要说明的是,本发明实施例提供的发票报销的处理方法及装置可用于金融领域,也可用于除金融领域之外的任意技术领域,本发明实施例对发票报销的处理方法及装置的应用领域不做限定。
图8是本发明第八实施例提供的电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)801、通信接口(Communications Interface)802、存储器(memory)803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信。处理器801可以调用存储器803中的逻辑指令,以执行如下方法:接收客户端发送的报销请求,所述报销请求包括发票图片和员工标识;对所述发票图片进行区域化处理,获得各个待识别区域;根据各个待识别区域和发票识别模型,获得每个待识别区域的识别结果;其中,所述发票识别模型是基于发票训练样本和对应的标记信息训练获得的;若判断获知各个待识别区域的识别结果通过识别结果校验,则根据所述员工标识获得员工登记信息;根据发票信息、所述员工登记信息以及报销单模版,生成发票报销单;其中,所述发票信息从各个待识别区域的识别结果获得。
此外,上述的存储器803中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:接收客户端发送的报销请求,所述报销请求包括发票图片和员工标识;对所述发票图片进行区域化处理,获得各个待识别区域;根据各个待识别区域和发票识别模型,获得每个待识别区域的识别结果;其中,所述发票识别模型是基于发票训练样本和对应的标记信息训练获得的;若判断获知各个待识别区域的识别结果通过识别结果校验,则根据所述员工标识获得员工登记信息;根据发票信息、所述员工登记信息以及报销单模版,生成发票报销单;其中,所述发票信息从各个待识别区域的识别结果获得。
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:接收客户端发送的报销请求,所述报销请求包括发票图片和员工标识;对所述发票图片进行区域化处理,获得各个待识别区域;根据各个待识别区域和发票识别模型,获得每个待识别区域的识别结果;其中,所述发票识别模型是基于发票训练样本和对应的标记信息训练获得的;若判断获知各个待识别区域的识别结果通过识别结果校验,则根据所述员工标识获得员工登记信息;根据发票信息、所述员工登记信息以及报销单模版,生成发票报销单;其中,所述发票信息从各个待识别区域的识别结果获得。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (10)

1.一种发票报销的处理方法,其特征在于,包括:
接收客户端发送的报销请求,所述报销请求包括发票图片和员工标识;
对所述发票图片进行区域化处理,获得各个待识别区域;
根据各个待识别区域和发票识别模型,获得每个待识别区域的识别结果;其中,所述发票识别模型是基于发票训练样本和对应的标记信息训练获得的;
若判断获知各个待识别区域的识别结果通过识别结果校验,则根据所述员工标识获得员工登记信息;
根据发票信息、所述员工登记信息以及报销单模版,生成发票报销单;其中,所述发票信息从各个待识别区域的识别结果获得。
2.根据权利要求1所述的方法,其特征在于,基于发票训练样本和对应的标记信息训练所述发票识别模型的过程包括:
获取发票训练样本,所述发票训练样本包括预设数量张发票训练图片;
对所述发票训练样本中的每张发票训练图片进行区域化处理,获得每张发票训练图片的待识别区域以及每个待识别区域对应的标记信息;
根据原始训练模型、各张发票训练图片的待识别区域以及每个待识别区域对应的标记信息,训练获得发票识别模型;其中,所述原始训练模型采用改进的SSD算法模型,所述改进的SSD算法模型的卷积层包括三个依次排列的卷积核,三个依次排列的卷积核的大小依次为1×1、3×3和1×1,所述三个依次排列的卷积核替换原有的一个3×3的卷积核。
3.根据权利要求2所述的方法,其特征在于,所述改进的SSD算法模型的第四个卷积层包括所述三个依次排列的卷积核。
4.根据权利要求2所述的方法,其特征在于,在模型的训练过程中,获得置信度大于所述置信度阈值的先验框生成预测框;其中,每个先验框对应一个置信度。
5.根据权利要求1所述的方法,其特征在于,所述若判断获知各个待识别区域的识别结果通过识别结果校验包括:
判断每个待识别区域的识别结果是否满足对应的发票区域校验规则;其中,所述发票区域校验规则是预设的;
若获知所有待识别区域的识别结果都满足对应的发票区域校验规则,则确定各个待识别区域的识别结果通过识别结果校验。
6.根据权利要求1所述的方法,其特征在于,所述对所述发票图片进行区域化处理包括:
对所述发票图片进行预处理,以增强所述发票图片的清晰度。
7.根据权利要求1至6任一项所述的方法,其特征在于,还包括:
将所述发票报销单返回给所述客户端。
8.一种发票报销的处理装置,其特征在于,包括:
接收模块,用于接收客户端发送的报销请求,所述报销请求包括发票图片和员工标识;
区域化模块,用于对所述发票图片进行区域化处理,获得各个待识别区域;
识别模块,用于根据各个待识别区域和发票识别模型,获得每个待识别区域的识别结果;其中,所述发票识别模型是基于发票训练样本和对应的标记信息训练获得的;
校验模块,用于若判断获知各个待识别区域的识别结果通过识别结果校验,则根据所述员工标识获得员工登记信息;
生成模块,用于根据发票信息、所述员工登记信息以及报销单模版,生成发票报销单;其中,所述发票信息从各个待识别区域的识别结果获得。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202110739629.8A 2021-06-30 2021-06-30 一种发票报销的处理方法及装置 Pending CN113344690A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110739629.8A CN113344690A (zh) 2021-06-30 2021-06-30 一种发票报销的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110739629.8A CN113344690A (zh) 2021-06-30 2021-06-30 一种发票报销的处理方法及装置

Publications (1)

Publication Number Publication Date
CN113344690A true CN113344690A (zh) 2021-09-03

Family

ID=77482056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110739629.8A Pending CN113344690A (zh) 2021-06-30 2021-06-30 一种发票报销的处理方法及装置

Country Status (1)

Country Link
CN (1) CN113344690A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN110348441A (zh) * 2019-07-10 2019-10-18 深圳市华云中盛科技有限公司 增值税发票识别方法、装置、计算机设备及存储介质
CN111192019A (zh) * 2019-12-30 2020-05-22 武汉佰钧成技术有限责任公司 一种目标票据的报销处理方法及相关设备
CN111222412A (zh) * 2019-12-02 2020-06-02 河南科技学院 基于图像识别的增值税普通发票报销信息生成方法及装置
CN112597743A (zh) * 2020-12-15 2021-04-02 平安普惠企业管理有限公司 基于考勤数据的报销方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN110348441A (zh) * 2019-07-10 2019-10-18 深圳市华云中盛科技有限公司 增值税发票识别方法、装置、计算机设备及存储介质
CN111222412A (zh) * 2019-12-02 2020-06-02 河南科技学院 基于图像识别的增值税普通发票报销信息生成方法及装置
CN111192019A (zh) * 2019-12-30 2020-05-22 武汉佰钧成技术有限责任公司 一种目标票据的报销处理方法及相关设备
CN112597743A (zh) * 2020-12-15 2021-04-02 平安普惠企业管理有限公司 基于考勤数据的报销方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN110033000A (zh) 一种票据图像的文本检测与识别方法
CN111652232B (zh) 票据识别方法及装置、电子设备和计算机可读存储介质
CN109598517B (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN111260189B (zh) 一种风险控制方法、装置、计算机系统及可读存储介质
CN110516664A (zh) 票据识别方法、装置、电子设备及存储介质
US20220292861A1 (en) Docket Analysis Methods and Systems
CN112052845A (zh) 图像识别方法、装置、设备及存储介质
CN112861906A (zh) 一种图片异常检测的方法及装置
CN113011646A (zh) 一种数据处理方法、设备以及可读存储介质
CN112668640A (zh) 一种文本图像质量评估方法、装置、设备及介质
CN110348025A (zh) 一种基于字形的翻译方法、装置、存储介质及电子设备
CN113591866A (zh) 基于db与crnn的特种作业证件检测方法及系统
CN115906842A (zh) 一种政策信息识别方法
CN115357699A (zh) 文本抽取方法、装置、设备及存储介质
CN116071150A (zh) 数据处理方法、银行产品推广、风控系统、服务器及介质
CN113673528B (zh) 文本处理方法、装置、电子设备和可读存储介质
CN116469111B (zh) 一种文字生成模型训练方法及目标文字生成方法
CN113469005A (zh) 一种银行回单的识别方法、相关装置及存储介质
CN112966676A (zh) 一种基于零样本学习的文档关键信息抽取方法
CN112307749A (zh) 文本检错方法、装置、计算机设备和存储介质
WO2023078264A1 (zh) 一种名片信息抽取系统训练方法及装置、计算机可读存储介质
CN111104853A (zh) 图像信息录入方法、装置、电子设备及存储介质
CN113344690A (zh) 一种发票报销的处理方法及装置
CN115512340A (zh) 基于图片的意图检测方法及装置
Sun et al. Robust Chinese license plate generation via foreground text and background separation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination