一种票据处理自动生成凭证的方法及装置
技术领域
本发明属于智能做账技术领域,涉及一种票据处理自动生成凭证的方法及装置。
背景技术
目前,各个财务部门处理业务,都与种类繁多的海量发票息息相关。公司大多都有部署财务共享服务中心。首先从各分公司各地域收取各类海量发票进行分类整理;其次扫描采集图像,对原件及图像进行存档;然后将发票信息手工录入到ERP财务软件、FSSC财务共享服务中心等系统,用这些财务软件进行做账。一些发票量特别大的企业,需要10多至几十人的团队来进行发票的管理工作,首先是手工录入环节,不但成本开支巨大,而且效率低下,繁琐重复的大量录入工作也会导致财务工作人员的精神疲劳、注意力不集中,从而降低发票录入的准确率;然后是财务软件做账环节,目前的财务软件智能化程度低、操作不灵活。
发明内容
本发明提出一种票据处理自动生成凭证的方法及装置,解决了现有技术中财务做账系统智能化程度低、操作不灵活的问题。
本发明票据处理自动生成凭证的方法包括
S1:连接扫描仪,获得票据图片集;
S2:根据得到的票据图片集,识别得到票据内容;
S3:根据票据内容进行票据分类,票据分类具体为:主营业务收入、或办公费、或租赁费、或车辆使用费、或差旅费;
S4:获得凭证输出方式,包括生成单张票据的凭证、生成多张票据的凭证、生成某一票据分类的凭证和生成全部票据的凭证;
S5:根据凭证输出方式,得到预生成凭证的票据;
S6:根据票据内容得到目录类型,并根据目录类型、票据分类、纳税人类型、会计准则和减税税率准则获取对应的会计科目;如果步骤S4中凭证输出方式为生成多张票据的凭证、生成某一票据分类的凭证和生成全部票据的凭证,执行步骤S7;如果步骤S4中凭证输出方式为生成单张票据的凭证,执行步骤S8;
S7:获得票据合并方式,包括根据票据类型生成合并凭证或根据目录类型生成合并凭证,并根据票据合并方式对多张票据进行合并生成凭证;
S8:生成凭证预览,并进行核查和编辑;
S9:保存凭证;
S10:保存编辑凭证信息。
进一步,步骤S2具体为:
S101:票据种类识别,识别票据内容中的字段,并与关键字大数据库进行比对,提取票据的关键字,根据票据的关键字得到票据种类,票据种类包括增值税专用发票、或增值税普通发票、或火车票、或银行对账单;
S102:同一票据种类的票据内容识别,根据票据种类,分别识别票据内容,保存票据内容。
进一步,票据内容识别具体为:
S1021:通过深度学习领域中的图片标注工具对票据图片集中的所有票据图片进行票据区域的标注,同时对每个票据区域标注其待识别字段区域和该区域所记载的字符信息,在标注好的票据图片集中,随机选取80%的票据图片文件形成训练样本集,将剩余20%的票据图片文件作为测试样本集;
S1022:将深度学习网络VGG-Net16的前4层作为基础网络层,并结合金字塔网络形成票据区域检测模型的网络结构,将训练样本集中的票据图片作为票据区域检测模型的输入,将标注的票据区域数据信息作为票据区域检测模型的输出,进行迭代训练,直到票据区域检测模型在测试样本集上的输出准确率大于预先给定的阈值,得到训练好的票据区域检测模型;
S1023:将深度学习网络VGG-Net16的前4层作为基础网络层,并结合金字塔网络形成待识别区域检测模型的网络结构,将训练样本集中的票据区域标注图片作为待识别区域检测模型的输入,将标注的待识别字段区域数据信息作为待识别区域检测模型的输出,进行迭代训练,直到待识别区域检测模型在测试样本集上的输出准确率大于预先给定的阈值,得到训练好的待识别区域检测模型;
S1024:以faster-rcnn作为网络结构,对待识别字段区域图片中的单个字符区域进行检测,得到单个字符区域图像;
S1025:以VGG-Net16作为网络结构,将单个字符区域图像作为输入,将待识别区域所记载的字符信息作为输出,进行待识别区域记载信息识别模型的训练,直到待识别区域检测模型在测试样本集上的输出准确率大于预先给定的阈值,得到训练好的待识别区域记载信息识别模型;
S1026:依次加载训练好的票据区域检测模型文件、待识别区域检测模型文件、待识别区域记载信息识别模型文件,并启动票据区域分割的Web接口服务,以Base64编码的形式返回每张票据区域图片的信息。
进一步,步骤S3根据票据内容进行票据分类具体为:
S201:根据票据内容的关键字组合和票据分类模板中的关键字组合进行比对,对票据进行分类,票据分类具体包括主营业务收入、或办公费、或租赁费、或车辆使用费、或差旅费、或库存商品;
S202:对票据分类进行核查,编辑票据分类信息;
S203:保存票据分类信息;
S204:更新票据分类模板。
进一步,根据权利要求1所述的一种票据处理自动生成凭证的方法及装置,其特征在于,步骤S5还包括异常票据筛选,当票据为重复票据、或者票据的税率计算不符合国家标准或开票时间不正常时,标记为异常票据,在后续步骤中不再处理。
进一步,连接扫描仪,获得票据的图像信息,包括:
S1001:连接扫描仪,读取票据的图像信息;
S1002:对票据的图像信息进行处理,包括图片压缩、和/或图片增强、和/或去背景处理、和/或图片方向校正。
本发明还提出了一种票据处理自动生成凭证的装置,包括
第一获得单元,用于获得票据图片集;
识别单元,用于对票据内容进行识别;
分类单元,用于根据票据内容进行票据分类;
第二获得单元,用于获得凭证输出方式;
第三获得单元,用于根据凭证输出方式得到预生成凭证的票据;
第四获得单元,用于根据票据内容得到目录类型,并根据目录类型、票据分类、纳税人类型、会计准则和减税税率准则获取对应的会计科目;
第五获得单元,用于获得票据合并方式;
凭证生成单元,用于根据票据合并方式,生成凭证预览;
第一输入输出单元,用于输出凭证预览,并进行核查和编辑。
第一存储单元,用于保存凭证和编辑凭证信息。
进一步,识别单元包括
票据种类识别单元,用于识别票据种类;
票据内容识别单元,用于根据票据种类,分别识别票据内容并保存。
进一步,票据种类识别单元和必要信息识别单元均包括
第七获得单元,用于获得票据图片的训练样本集和测试样本集、获得每个票据区域中的待识别字段区域和该区域记载的字符信息;
第一迭代单元,用于获得票据区域检测模型;
第二迭代单元,用于获得待识别区域检测模型;
第八获得单元,用于获得单个字符区域图像;
第三迭代单元,用于获得待识别区域记载信息识别模型;
第九获得单元,用于根据票据区域检测模型、待识别区域检测模型和待识别区域记载信息识别模型得到票据内容中的必要信息。
进一步,分类单元包括
比较单元,用于将票据内容的关键字组合与票据分类模板中的关键字组合进行比对,对票据进行初步分类;
第二输入输出单元,用于输出票据分类信息并编辑票据分类信息;
第二存储单元,用于保存票据分类信息;
读写单元,用于更新票据分类模板。
进一步,还包括判断单元,用于判断票据是否为重复票据、票据的税率计算是否符合国家标准或开票时间是否正常,如果票据为重复票据、或者票据的税率计算不符合国家标准或开票时间不正常,则判断为异常票据。
进一步,第一获得单元包括
第十一获得单元,用于获得票据的图像信息;
图像处理单元,用于对获得的票据图像信息进行处理,使票据图像更清晰。
本发明的工作原理及有益效果为:
1、本发明通过连接扫描仪,自动获得票据图片集,并通过对票据内容的识别,对票据进行分类,自动生成票据凭证。用户可以根据需要,选择生成单张票据的凭证、生成多张票据的凭证、生成某一票据分类的凭证和生成全部票据的凭证,当用户选择生成单张票据的凭证时,只对用户选定的单张票据生成会计科目;当用户选择生成多张票据的凭证时,对用户选择的多张票据生成会计科目;当用户选择生成某一票据分类的凭证时,对用户选择的票据分类涉及的票据生成会计科目;当用户选择生成所有票据的凭证时,对所有票据生成会计科目。生成会计科目的方法是,根据票据内容得到目录类型,并根据目录类型、票据分类、纳税人类型、会计准则和减税税率准则获取对应的会计科目(纳税人类型、会计准则和减税税率准则为通用准则)。
当用户选择生成单张票据的凭证时,只对用户选定的单张票据生成凭证并输出;当用户选择生成多张票据的凭证时,对用户选择的多张票据、并根据用户选择的票据合并方式(根据票据类型生成合并凭证或根据目录类型生成合并凭证),生成多张票据的合并凭证;当用户选择生成某一票据分类的凭证时,对用户选择的票据分类、并根据用户选择的票据合并方式(根据票据类型生成合并凭证或根据目录类型生成合并凭证),生成某一分类票据的合并凭证;当用户选择生成所有票据的凭证时,根据用户选择的票据合并方式(根据票据类型生成合并凭证或根据目录类型生成合并凭证),生成所有票据的合并凭证。
本发明可以生成预览凭证供用户查阅,用户也可以根据公司的实际情况对凭证生成方法进行修改,生成最终的凭证信息。
本发明通过连接扫描仪,自动获得票据图片集,并通过对票据内容的识别和分析,最终根据用户需要生成相应的凭证,整个过程无需人工参与,降低了人工劳动强度,而且提高了票据信息采集的准确度;凭证生成方法灵活多样,便于对票据信息进行多方位的分析,进一步提高了做账系统的智能化。
2、本发明中在对票据内容进行识别时,首先识别出票据的关键字,并根据关键字得到票据种类,然后根据票据种类分别对票据内容进行识别,同一种类的票据采用同一模型进行标注,有利于简化操作、提高识别速度。
其中,关键字大数据库的形成方法为:收集常见的票据种类,找出票据内容中的关键字,将票据种类和票据内容的关键字一一对应,保存在关键字大数据库中。识别票据关键字的方法为:识别票据内容中的字段,将票据内容中的字段与关键字大数据库中的关键字进行比对,找到与关键字一致的字段,作为票据种类的关键字,如果没有找到与关键字一致的字段,则需要进行人工指定票据的种类,并根据人工指定信息更新关键字大数据库。
3、扫描仪或各种影像设备在拍摄票据图片时会将许多与票据无关的背景信息摄入其中,并且可能会将多张票据同时拍摄到一张图片中,本发明基于深度学习方法建立票据区域检测模型,识别票据图片集中对财务做账有用的票据区域,并在此基础上,通过建立待识别区域检测模型和待识别区域记载信息模型对票据内容进行识别,识别结果准确率高,进一步提高了本发明的使用效果。
4、本发明根据票据的关键字和票据分类模板对票据进行分类,同时用户可以根据公司的实际情况对票据分类信息进行修改,不仅保证了票据分类的准确性,而且提高了票据分类的通用性。
其中,票据分类模板的形成过程为:收集常见的票据种类,按照常规做法将票据内容中的一个或几个关键字的组合与各种票据分类一一对应,保存在票据分类模板中。关键字组合和票据分类分为公司级别(用户公司的分类方法)和全局级别(所有公司的分类方法),首先在公司级别找对应的关键字组合,对票据进行分类;如果在公司级别没有找到对应的关键字组合,就在全局级别中找,如果在多个公司的分类中找到对应的关键字组合,但是各个公司的分类方法不同,则按照多数公司的做法进行分类;如果在全局级别没有找到对应的关键字组合,则需要人工进行分类,并根据人工分类信息更新票据分类模板。
本发明实现了准确的票据分类,有利于保证后续票据凭证生成的准确性。
5、在对票据生成凭证之前,根据票据内容对票据进行筛选,去掉其中的重复票据、税率不合规定的票据和开票时间不正常的票据,进一步保证了凭证生成结果的准确性。
6、本发明在通过扫描仪得到票据图像信息之后,对内容模糊、拍摄变形和拍摄场景复杂的票据进行预处理,使票据信息易于识别,进而提高了票据内容识别的准确率。
7、本发明票据处理自动生成凭证的装置通过连接扫描仪,自动获得票据图片集,并通过对票据内容的识别和分析,最终根据用户需要生成相应的凭证,整个过程无需人工参与,降低了人工劳动强度,而且提高了票据信息采集的准确度;凭证生成方法灵活多样,便于对票据信息进行多方位的分析,进一步提高了做账系统的智能化。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明票据处理自动生成凭证的方法流程图;
图2为本发明票据处理自动生成凭证的装置结构示意图;
图中:21-第一获得单元,22-识别单元,23-分类单元,24-第二获得单元,25-第三获得单元,26-第四获得单元,27-第五获得单元,28-凭证生成单元,29-第一输入输出单元,210-第一存储单元。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,本发明提出了一种票据处理自动生成凭证的方法,包括
S1:连接扫描仪,获得票据图片集;
S2:根据得到的票据图片集,识别得到票据内容;
S3:根据票据内容进行票据分类,票据分类具体为:主营业务收入、或办公费、或租赁费、或车辆使用费、或差旅费;
S4:获得凭证输出方式,包括生成单张票据的凭证、生成多张票据的凭证、生成某一票据分类的凭证和生成全部票据的凭证;
S5:根据凭证输出方式,得到预生成凭证的票据;
S6:根据票据内容得到目录类型,并根据目录类型、票据分类、纳税人类型、会计准则和减税税率准则获取对应的会计科目;如果步骤S4中凭证输出方式为生成多张票据的凭证、生成某一票据分类的凭证和生成全部票据的凭证,执行步骤S7;如果步骤S4中凭证输出方式为生成单张票据的凭证,执行步骤S8;
S7:获得票据合并方式,包括根据票据类型生成合并凭证或根据目录类型生成合并凭证,并根据票据合并方式对多张票据进行合并生成凭证;
S8:生成凭证预览,并进行核查和编辑;
S9:保存凭证;
S10:保存编辑凭证信息。
本发明通过连接扫描仪,自动获得票据图片集,并通过对票据内容的识别,对票据进行分类,自动生成票据凭证。用户可以根据需要,选择生成单张票据的凭证、生成多张票据的凭证、生成某一票据分类的凭证和生成全部票据的凭证,当用户选择生成单张票据的凭证时,只对用户选定的单张票据生成会计科目;当用户选择生成多张票据的凭证时,对用户选择的多张票据生成会计科目;当用户选择生成某一票据分类的凭证时,对用户选择的票据分类涉及的票据生成会计科目;当用户选择生成所有票据的凭证时,对所有票据生成会计科目。生成会计科目的方法是,根据票据内容得到目录类型,并根据目录类型、票据分类、纳税人类型、会计准则和减税税率准则获取目录类型对应的会计科目(纳税人类型、会计准则和减税税率准则为通用准则)。
当用户选择生成单张票据的凭证时,只对用户选定的单张票据生成凭证并输出;当用户选择生成多张票据的凭证时,对用户选择的多张票据、并根据用户选择的票据合并方式(根据票据类型生成合并凭证或根据目录类型生成合并凭证),生成多张票据的合并凭证;当用户选择生成某一票据分类的凭证时,对用户选择的票据分类、并根据用户选择的票据合并方式(根据票据类型生成合并凭证或根据目录类型生成合并凭证),生成某一分类票据的合并凭证;当用户选择生成所有票据的凭证时,根据用户选择的票据合并方式(根据票据类型生成合并凭证或根据目录类型生成合并凭证),生成所有票据的合并凭证。
本发明可以生成预览凭证供用户查阅,用户也可以根据公司的实际情况对凭证生成方法进行修改,生成最终的凭证信息。
本发明通过连接扫描仪,自动获得票据图片集,并通过对票据内容的识别和分析,最终根据用户需要生成相应的凭证,整个过程无需人工参与,降低了人工劳动强度,而且提高了票据信息采集的准确度;凭证生成方法灵活多样,便于对票据信息进行多方位的分析,进一步提高了做账系统的智能化。
进一步,进一步,步骤S2具体为:
S101:票据种类识别,识别票据内容中的字段,并与关键字大数据库进行比对,提取票据的关键字,根据票据的关键字得到票据种类,票据种类包括增值税专用发票、或增值税普通发票、或火车票、或银行对账单;
S102:同一票据种类的票据内容识别,根据票据种类,分别识别票据内容,保存票据内容。
本发明中在对票据内容进行识别时,首先识别出票据的关键字,并根据关键字得到票据种类,然后根据票据种类分别对票据内容进行识别,同一种类的票据采用同一模型进行标注,有利于简化操作、提高识别速度。
其中,关键字大数据库的形成方法为:收集常见的票据种类,找出票据内容中的关键字,将票据种类和票据内容的关键字一一对应,保存在关键字大数据库中。识别票据关键字的方法为:识别票据内容中的字段,将票据内容中的字段与关键字大数据库中的关键字进行比对,找到与关键字一致的字段,作为票据种类的关键字,如果没有找到与关键字一致的字段,则需要进行人工指定票据的种类,并根据人工指定信息更新关键字大数据库。
进一步,票据内容识别具体为:
S1021:通过深度学习领域中的图片标注工具对票据图片集中的所有票据图片进行票据区域的标注,同时对每个票据区域标注其待识别字段区域和该区域所记载的字符信息,在标注好的票据图片集中,随机选取80%的票据图片文件形成训练样本集,将剩余20%的票据图片文件作为测试样本集;
S1022:将深度学习网络VGG-Net16的前4层作为基础网络层,并结合金字塔网络形成票据区域检测模型的网络结构,将训练样本集中的票据图片作为票据区域检测模型的输入,将标注的票据区域数据信息作为票据区域检测模型的输出,进行迭代训练,直到票据区域检测模型在测试样本集上的输出准确率大于预先给定的阈值,得到训练好的票据区域检测模型;
S1023:将深度学习网络VGG-Net16的前4层作为基础网络层,并结合金字塔网络形成待识别区域检测模型的网络结构,将训练样本集中的票据区域标注图片作为待识别区域检测模型的输入,将标注的待识别字段区域数据信息作为待识别区域检测模型的输出,进行迭代训练,直到待识别区域检测模型在测试样本集上的输出准确率大于预先给定的阈值,得到训练好的待识别区域检测模型;
S1024:以faster-rcnn作为网络结构,对待识别字段区域图片中的单个字符区域进行检测,得到单个字符区域图像;
S1025:以VGG-Net16作为网络结构,将单个字符区域图像作为输入,将待识别区域所记载的字符信息作为输出,进行待识别区域记载信息识别模型的训练,直到待识别区域检测模型在测试样本集上的输出准确率大于预先给定的阈值,得到训练好的待识别区域记载信息识别模型;
S1026:依次加载训练好的票据区域检测模型文件、待识别区域检测模型文件、待识别区域记载信息识别模型文件,并启动票据区域分割的Web接口服务,以Base64编码的形式返回每张票据区域图片的信息。
扫描仪或各种影像设备在拍摄票据图片时会将许多与票据无关的背景信息摄入其中,并且可能会将多张票据同时拍摄到一张图片中,本发明基于深度学习方法建立票据区域检测模型,识别票据图片集中对财务做账有用的票据区域,并在此基础上,通过建立待识别区域检测模型和待识别区域记载信息模型对票据内容进行识别,识别结果准确率高,进一步提高了本发明的使用效果。
进一步,步骤S3根据票据内容进行票据分类具体为:
S201:根据票据内容的关键字组合和票据分类模板中的关键字组合进行比对,对票据进行分类,票据分类具体包括主营业务收入、或办公费、或租赁费、或车辆使用费、或差旅费、或库存商品;
S202:对票据分类进行核查,编辑票据分类信息;
S203:保存票据分类信息;
S204:更新票据分类模板。
本发明根据票据的关键字和票据分类模板对票据进行分类,同时用户可以根据公司的实际情况对票据分类信息进行修改,不仅保证了票据分类的准确性,而且提高了票据分类的通用性。
其中,票据分类模板的形成过程为:收集常见的票据种类,按照常规做法将票据内容中的一个或几个关键字的组合与各种票据分类一一对应,保存在票据分类模板中。关键字组合和票据分类分为公司级别(用户公司的分类方法)和全局级别(所有公司的分类方法),首先在公司级别找对应的关键字组合,对票据进行分类;如果在公司级别没有找到对应的关键字组合,就在全局级别中找,如果在多个公司的分类中找到对应的关键字组合,但是各个公司的分类方法不同,则按照多数公司的做法进行分类;如果在全局级别没有找到对应的关键字组合,则需要人工进行分类,并根据人工分类信息更新票据分类模板。
本发明实现了准确的票据分类,有利于保证后续票据凭证生成的准确性。
进一步,根据权利要求1所述的一种票据处理自动生成凭证的方法及装置,其特征在于,步骤S5还包括异常票据筛选,当票据为重复票据、或者票据的税率计算不符合国家标准或开票时间不正常时,标记为异常票据,在后续步骤中不再处理。
在对票据生成凭证之前,根据票据内容对票据进行筛选,去掉其中的重复票据、税率不合规定的票据和开票时间不正常的票据,进一步保证了凭证生成结果的准确性。
进一步,连接扫描仪,获得票据的图像信息,包括:
S1001:连接扫描仪,读取票据的图像信息;
S1002:对票据的图像信息进行处理,包括图片压缩、和/或图片增强、和/或去背景处理、和/或图片方向校正。
本发明在通过扫描仪得到票据图像信息之后,对内容模糊、拍摄变形和拍摄场景复杂的票据进行预处理,使票据信息易于识别,进而提高了票据内容识别的准确率。
实施例二
如图2所示,基于与前述实施例中一种票据处理自动生成凭证的方法同样的发明构思,本发明还提出了一种票据处理自动生成凭证的装置,包括
第一获得单元,用于获得票据图片集;
识别单元,用于对票据内容进行识别;
分类单元,用于根据票据内容进行票据分类;
第二获得单元,用于获得凭证输出方式;
第三获得单元,用于根据凭证输出方式得到预生成凭证的票据;
第四获得单元,用于根据票据内容得到目录类型,并根据目录类型、票据分类、纳税人类型、会计准则和减税税率准则获取对应的会计科目;
第五获得单元,用于获得票据合并方式;
凭证生成单元,用于根据票据合并方式,生成凭证预览;
第一输入输出单元,用于输出凭证预览,并进行核查和编辑。
第一存储单元,用于保存凭证和编辑凭证信息。
进一步,识别单元包括
票据种类识别单元,用于识别票据种类;
票据内容识别单元,用于根据票据种类,分别识别票据内容并保存。
进一步,票据内容识别单元包括
第七获得单元,用于获得票据图片的训练样本集和测试样本集、获得每个票据区域中的待识别字段区域和该区域记载的字符信息;
第一迭代单元,用于获得票据区域检测模型;
第二迭代单元,用于获得待识别区域检测模型;
第八获得单元,用于获得单个字符区域图像;
第三迭代单元,用于获得待识别区域记载信息识别模型;
第九获得单元,用于根据票据区域检测模型、待识别区域检测模型和待识别区域记载信息识别模型得到票据内容中的必要信息。
进一步,分类单元包括
比较单元,用于将票据内容的关键字组合与票据分类模板中的关键字组合进行比对,对票据进行初步分类;
第二输入输出单元,用于输出票据分类信息并编辑票据分类信息;
第二存储单元,用于保存票据分类信息;
读写单元,用于更新票据分类模板。
进一步,还包括判断单元,用于判断票据是否为重复票据、票据的税率计算是否符合国家标准或开票时间是否正常,如果票据为重复票据、或者票据的税率计算不符合国家标准或开票时间不正常,则判断为异常票据。
进一步,第一获得单元包括
第十一获得单元,用于获得票据的图像信息;
图像处理单元,用于对获得的票据图像信息进行处理,使票据图像更清晰。
本发明票据处理自动生成凭证的装置通过连接扫描仪,自动获得票据图片集,并通过对票据内容的识别和分析,最终根据用户需要生成相应的凭证,整个过程无需人工参与,降低了人工劳动强度,而且提高了票据信息采集的准确度;凭证生成方法灵活多样,便于对票据信息进行多方位的分析,进一步提高了做账系统的智能化。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。