CN110414927B - 一种票据处理自动生成凭证的方法及装置 - Google Patents

一种票据处理自动生成凭证的方法及装置 Download PDF

Info

Publication number
CN110414927B
CN110414927B CN201910604155.9A CN201910604155A CN110414927B CN 110414927 B CN110414927 B CN 110414927B CN 201910604155 A CN201910604155 A CN 201910604155A CN 110414927 B CN110414927 B CN 110414927B
Authority
CN
China
Prior art keywords
bill
voucher
bills
obtaining
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910604155.9A
Other languages
English (en)
Other versions
CN110414927A (zh
Inventor
张汉宁
苏斌
廖野
李煜
王长辉
杨宏德
刘鹏飞
杨南华
程术林
任会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Taoding Information Technology Co ltd
Original Assignee
Xi'an Network Computing Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Network Computing Data Technology Co ltd filed Critical Xi'an Network Computing Data Technology Co ltd
Priority to CN201910604155.9A priority Critical patent/CN110414927B/zh
Publication of CN110414927A publication Critical patent/CN110414927A/zh
Application granted granted Critical
Publication of CN110414927B publication Critical patent/CN110414927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Technology Law (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于智能做账技术领域,提出了一种票据处理自动生成凭证的方法,包括连接扫描仪,获得票据图片集;根据得到的票据图片集,对票据内容进行识别;根据票据内容进行票据分类;获得凭证输出方式;根据凭证输出方式,得到预生成凭证的票据;根据票据内容得到目录类型,并根据目录类型、票据分类、纳税人类型、会计准则和减税税率准则获取目录类型对应的会计科目;获得票据合并方式,并根据票据合并方式对多张票据进行合并生成凭证;生成凭证预览,并进行核查和编辑;保存凭证;保存编辑凭证信息。本发明还提出了一种票据处理自动生成凭证的装置,通过上述技术方案,解决了现有技术中财务做账系统智能化程度低、操作不灵活的问题。

Description

一种票据处理自动生成凭证的方法及装置
技术领域
本发明属于智能做账技术领域,涉及一种票据处理自动生成凭证的方法及装置。
背景技术
目前,各个财务部门处理业务,都与种类繁多的海量发票息息相关。公司大多都有部署财务共享服务中心。首先从各分公司各地域收取各类海量发票进行分类整理;其次扫描采集图像,对原件及图像进行存档;然后将发票信息手工录入到ERP财务软件、FSSC财务共享服务中心等系统,用这些财务软件进行做账。一些发票量特别大的企业,需要10多至几十人的团队来进行发票的管理工作,首先是手工录入环节,不但成本开支巨大,而且效率低下,繁琐重复的大量录入工作也会导致财务工作人员的精神疲劳、注意力不集中,从而降低发票录入的准确率;然后是财务软件做账环节,目前的财务软件智能化程度低、操作不灵活。
发明内容
本发明提出一种票据处理自动生成凭证的方法及装置,解决了现有技术中财务做账系统智能化程度低、操作不灵活的问题。
本发明票据处理自动生成凭证的方法包括
S1:连接扫描仪,获得票据图片集;
S2:根据得到的票据图片集,识别得到票据内容;
S3:根据票据内容进行票据分类,票据分类具体为:主营业务收入、或办公费、或租赁费、或车辆使用费、或差旅费;
S4:获得凭证输出方式,包括生成单张票据的凭证、生成多张票据的凭证、生成某一票据分类的凭证和生成全部票据的凭证;
S5:根据凭证输出方式,得到预生成凭证的票据;
S6:根据票据内容得到目录类型,并根据目录类型、票据分类、纳税人类型、会计准则和减税税率准则获取对应的会计科目;如果步骤S4中凭证输出方式为生成多张票据的凭证、生成某一票据分类的凭证和生成全部票据的凭证,执行步骤S7;如果步骤S4中凭证输出方式为生成单张票据的凭证,执行步骤S8;
S7:获得票据合并方式,包括根据票据类型生成合并凭证或根据目录类型生成合并凭证,并根据票据合并方式对多张票据进行合并生成凭证;
S8:生成凭证预览,并进行核查和编辑;
S9:保存凭证;
S10:保存编辑凭证信息。
进一步,步骤S2具体为:
S101:票据种类识别,识别票据内容中的字段,并与关键字大数据库进行比对,提取票据的关键字,根据票据的关键字得到票据种类,票据种类包括增值税专用发票、或增值税普通发票、或火车票、或银行对账单;
S102:同一票据种类的票据内容识别,根据票据种类,分别识别票据内容,保存票据内容。
进一步,票据内容识别具体为:
S1021:通过深度学习领域中的图片标注工具对票据图片集中的所有票据图片进行票据区域的标注,同时对每个票据区域标注其待识别字段区域和该区域所记载的字符信息,在标注好的票据图片集中,随机选取80%的票据图片文件形成训练样本集,将剩余20%的票据图片文件作为测试样本集;
S1022:将深度学习网络VGG-Net16的前4层作为基础网络层,并结合金字塔网络形成票据区域检测模型的网络结构,将训练样本集中的票据图片作为票据区域检测模型的输入,将标注的票据区域数据信息作为票据区域检测模型的输出,进行迭代训练,直到票据区域检测模型在测试样本集上的输出准确率大于预先给定的阈值,得到训练好的票据区域检测模型;
S1023:将深度学习网络VGG-Net16的前4层作为基础网络层,并结合金字塔网络形成待识别区域检测模型的网络结构,将训练样本集中的票据区域标注图片作为待识别区域检测模型的输入,将标注的待识别字段区域数据信息作为待识别区域检测模型的输出,进行迭代训练,直到待识别区域检测模型在测试样本集上的输出准确率大于预先给定的阈值,得到训练好的待识别区域检测模型;
S1024:以faster-rcnn作为网络结构,对待识别字段区域图片中的单个字符区域进行检测,得到单个字符区域图像;
S1025:以VGG-Net16作为网络结构,将单个字符区域图像作为输入,将待识别区域所记载的字符信息作为输出,进行待识别区域记载信息识别模型的训练,直到待识别区域检测模型在测试样本集上的输出准确率大于预先给定的阈值,得到训练好的待识别区域记载信息识别模型;
S1026:依次加载训练好的票据区域检测模型文件、待识别区域检测模型文件、待识别区域记载信息识别模型文件,并启动票据区域分割的Web接口服务,以Base64编码的形式返回每张票据区域图片的信息。
进一步,步骤S3根据票据内容进行票据分类具体为:
S201:根据票据内容的关键字组合和票据分类模板中的关键字组合进行比对,对票据进行分类,票据分类具体包括主营业务收入、或办公费、或租赁费、或车辆使用费、或差旅费、或库存商品;
S202:对票据分类进行核查,编辑票据分类信息;
S203:保存票据分类信息;
S204:更新票据分类模板。
进一步,根据权利要求1所述的一种票据处理自动生成凭证的方法及装置,其特征在于,步骤S5还包括异常票据筛选,当票据为重复票据、或者票据的税率计算不符合国家标准或开票时间不正常时,标记为异常票据,在后续步骤中不再处理。
进一步,连接扫描仪,获得票据的图像信息,包括:
S1001:连接扫描仪,读取票据的图像信息;
S1002:对票据的图像信息进行处理,包括图片压缩、和/或图片增强、和/或去背景处理、和/或图片方向校正。
本发明还提出了一种票据处理自动生成凭证的装置,包括
第一获得单元,用于获得票据图片集;
识别单元,用于对票据内容进行识别;
分类单元,用于根据票据内容进行票据分类;
第二获得单元,用于获得凭证输出方式;
第三获得单元,用于根据凭证输出方式得到预生成凭证的票据;
第四获得单元,用于根据票据内容得到目录类型,并根据目录类型、票据分类、纳税人类型、会计准则和减税税率准则获取对应的会计科目;
第五获得单元,用于获得票据合并方式;
凭证生成单元,用于根据票据合并方式,生成凭证预览;
第一输入输出单元,用于输出凭证预览,并进行核查和编辑。
第一存储单元,用于保存凭证和编辑凭证信息。
进一步,识别单元包括
票据种类识别单元,用于识别票据种类;
票据内容识别单元,用于根据票据种类,分别识别票据内容并保存。
进一步,票据种类识别单元和必要信息识别单元均包括
第七获得单元,用于获得票据图片的训练样本集和测试样本集、获得每个票据区域中的待识别字段区域和该区域记载的字符信息;
第一迭代单元,用于获得票据区域检测模型;
第二迭代单元,用于获得待识别区域检测模型;
第八获得单元,用于获得单个字符区域图像;
第三迭代单元,用于获得待识别区域记载信息识别模型;
第九获得单元,用于根据票据区域检测模型、待识别区域检测模型和待识别区域记载信息识别模型得到票据内容中的必要信息。
进一步,分类单元包括
比较单元,用于将票据内容的关键字组合与票据分类模板中的关键字组合进行比对,对票据进行初步分类;
第二输入输出单元,用于输出票据分类信息并编辑票据分类信息;
第二存储单元,用于保存票据分类信息;
读写单元,用于更新票据分类模板。
进一步,还包括判断单元,用于判断票据是否为重复票据、票据的税率计算是否符合国家标准或开票时间是否正常,如果票据为重复票据、或者票据的税率计算不符合国家标准或开票时间不正常,则判断为异常票据。
进一步,第一获得单元包括
第十一获得单元,用于获得票据的图像信息;
图像处理单元,用于对获得的票据图像信息进行处理,使票据图像更清晰。
本发明的工作原理及有益效果为:
1、本发明通过连接扫描仪,自动获得票据图片集,并通过对票据内容的识别,对票据进行分类,自动生成票据凭证。用户可以根据需要,选择生成单张票据的凭证、生成多张票据的凭证、生成某一票据分类的凭证和生成全部票据的凭证,当用户选择生成单张票据的凭证时,只对用户选定的单张票据生成会计科目;当用户选择生成多张票据的凭证时,对用户选择的多张票据生成会计科目;当用户选择生成某一票据分类的凭证时,对用户选择的票据分类涉及的票据生成会计科目;当用户选择生成所有票据的凭证时,对所有票据生成会计科目。生成会计科目的方法是,根据票据内容得到目录类型,并根据目录类型、票据分类、纳税人类型、会计准则和减税税率准则获取对应的会计科目(纳税人类型、会计准则和减税税率准则为通用准则)。
当用户选择生成单张票据的凭证时,只对用户选定的单张票据生成凭证并输出;当用户选择生成多张票据的凭证时,对用户选择的多张票据、并根据用户选择的票据合并方式(根据票据类型生成合并凭证或根据目录类型生成合并凭证),生成多张票据的合并凭证;当用户选择生成某一票据分类的凭证时,对用户选择的票据分类、并根据用户选择的票据合并方式(根据票据类型生成合并凭证或根据目录类型生成合并凭证),生成某一分类票据的合并凭证;当用户选择生成所有票据的凭证时,根据用户选择的票据合并方式(根据票据类型生成合并凭证或根据目录类型生成合并凭证),生成所有票据的合并凭证。
本发明可以生成预览凭证供用户查阅,用户也可以根据公司的实际情况对凭证生成方法进行修改,生成最终的凭证信息。
本发明通过连接扫描仪,自动获得票据图片集,并通过对票据内容的识别和分析,最终根据用户需要生成相应的凭证,整个过程无需人工参与,降低了人工劳动强度,而且提高了票据信息采集的准确度;凭证生成方法灵活多样,便于对票据信息进行多方位的分析,进一步提高了做账系统的智能化。
2、本发明中在对票据内容进行识别时,首先识别出票据的关键字,并根据关键字得到票据种类,然后根据票据种类分别对票据内容进行识别,同一种类的票据采用同一模型进行标注,有利于简化操作、提高识别速度。
其中,关键字大数据库的形成方法为:收集常见的票据种类,找出票据内容中的关键字,将票据种类和票据内容的关键字一一对应,保存在关键字大数据库中。识别票据关键字的方法为:识别票据内容中的字段,将票据内容中的字段与关键字大数据库中的关键字进行比对,找到与关键字一致的字段,作为票据种类的关键字,如果没有找到与关键字一致的字段,则需要进行人工指定票据的种类,并根据人工指定信息更新关键字大数据库。
3、扫描仪或各种影像设备在拍摄票据图片时会将许多与票据无关的背景信息摄入其中,并且可能会将多张票据同时拍摄到一张图片中,本发明基于深度学习方法建立票据区域检测模型,识别票据图片集中对财务做账有用的票据区域,并在此基础上,通过建立待识别区域检测模型和待识别区域记载信息模型对票据内容进行识别,识别结果准确率高,进一步提高了本发明的使用效果。
4、本发明根据票据的关键字和票据分类模板对票据进行分类,同时用户可以根据公司的实际情况对票据分类信息进行修改,不仅保证了票据分类的准确性,而且提高了票据分类的通用性。
其中,票据分类模板的形成过程为:收集常见的票据种类,按照常规做法将票据内容中的一个或几个关键字的组合与各种票据分类一一对应,保存在票据分类模板中。关键字组合和票据分类分为公司级别(用户公司的分类方法)和全局级别(所有公司的分类方法),首先在公司级别找对应的关键字组合,对票据进行分类;如果在公司级别没有找到对应的关键字组合,就在全局级别中找,如果在多个公司的分类中找到对应的关键字组合,但是各个公司的分类方法不同,则按照多数公司的做法进行分类;如果在全局级别没有找到对应的关键字组合,则需要人工进行分类,并根据人工分类信息更新票据分类模板。
本发明实现了准确的票据分类,有利于保证后续票据凭证生成的准确性。
5、在对票据生成凭证之前,根据票据内容对票据进行筛选,去掉其中的重复票据、税率不合规定的票据和开票时间不正常的票据,进一步保证了凭证生成结果的准确性。
6、本发明在通过扫描仪得到票据图像信息之后,对内容模糊、拍摄变形和拍摄场景复杂的票据进行预处理,使票据信息易于识别,进而提高了票据内容识别的准确率。
7、本发明票据处理自动生成凭证的装置通过连接扫描仪,自动获得票据图片集,并通过对票据内容的识别和分析,最终根据用户需要生成相应的凭证,整个过程无需人工参与,降低了人工劳动强度,而且提高了票据信息采集的准确度;凭证生成方法灵活多样,便于对票据信息进行多方位的分析,进一步提高了做账系统的智能化。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明票据处理自动生成凭证的方法流程图;
图2为本发明票据处理自动生成凭证的装置结构示意图;
图中:21-第一获得单元,22-识别单元,23-分类单元,24-第二获得单元,25-第三获得单元,26-第四获得单元,27-第五获得单元,28-凭证生成单元,29-第一输入输出单元,210-第一存储单元。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,本发明提出了一种票据处理自动生成凭证的方法,包括
S1:连接扫描仪,获得票据图片集;
S2:根据得到的票据图片集,识别得到票据内容;
S3:根据票据内容进行票据分类,票据分类具体为:主营业务收入、或办公费、或租赁费、或车辆使用费、或差旅费;
S4:获得凭证输出方式,包括生成单张票据的凭证、生成多张票据的凭证、生成某一票据分类的凭证和生成全部票据的凭证;
S5:根据凭证输出方式,得到预生成凭证的票据;
S6:根据票据内容得到目录类型,并根据目录类型、票据分类、纳税人类型、会计准则和减税税率准则获取对应的会计科目;如果步骤S4中凭证输出方式为生成多张票据的凭证、生成某一票据分类的凭证和生成全部票据的凭证,执行步骤S7;如果步骤S4中凭证输出方式为生成单张票据的凭证,执行步骤S8;
S7:获得票据合并方式,包括根据票据类型生成合并凭证或根据目录类型生成合并凭证,并根据票据合并方式对多张票据进行合并生成凭证;
S8:生成凭证预览,并进行核查和编辑;
S9:保存凭证;
S10:保存编辑凭证信息。
本发明通过连接扫描仪,自动获得票据图片集,并通过对票据内容的识别,对票据进行分类,自动生成票据凭证。用户可以根据需要,选择生成单张票据的凭证、生成多张票据的凭证、生成某一票据分类的凭证和生成全部票据的凭证,当用户选择生成单张票据的凭证时,只对用户选定的单张票据生成会计科目;当用户选择生成多张票据的凭证时,对用户选择的多张票据生成会计科目;当用户选择生成某一票据分类的凭证时,对用户选择的票据分类涉及的票据生成会计科目;当用户选择生成所有票据的凭证时,对所有票据生成会计科目。生成会计科目的方法是,根据票据内容得到目录类型,并根据目录类型、票据分类、纳税人类型、会计准则和减税税率准则获取目录类型对应的会计科目(纳税人类型、会计准则和减税税率准则为通用准则)。
当用户选择生成单张票据的凭证时,只对用户选定的单张票据生成凭证并输出;当用户选择生成多张票据的凭证时,对用户选择的多张票据、并根据用户选择的票据合并方式(根据票据类型生成合并凭证或根据目录类型生成合并凭证),生成多张票据的合并凭证;当用户选择生成某一票据分类的凭证时,对用户选择的票据分类、并根据用户选择的票据合并方式(根据票据类型生成合并凭证或根据目录类型生成合并凭证),生成某一分类票据的合并凭证;当用户选择生成所有票据的凭证时,根据用户选择的票据合并方式(根据票据类型生成合并凭证或根据目录类型生成合并凭证),生成所有票据的合并凭证。
本发明可以生成预览凭证供用户查阅,用户也可以根据公司的实际情况对凭证生成方法进行修改,生成最终的凭证信息。
本发明通过连接扫描仪,自动获得票据图片集,并通过对票据内容的识别和分析,最终根据用户需要生成相应的凭证,整个过程无需人工参与,降低了人工劳动强度,而且提高了票据信息采集的准确度;凭证生成方法灵活多样,便于对票据信息进行多方位的分析,进一步提高了做账系统的智能化。
进一步,进一步,步骤S2具体为:
S101:票据种类识别,识别票据内容中的字段,并与关键字大数据库进行比对,提取票据的关键字,根据票据的关键字得到票据种类,票据种类包括增值税专用发票、或增值税普通发票、或火车票、或银行对账单;
S102:同一票据种类的票据内容识别,根据票据种类,分别识别票据内容,保存票据内容。
本发明中在对票据内容进行识别时,首先识别出票据的关键字,并根据关键字得到票据种类,然后根据票据种类分别对票据内容进行识别,同一种类的票据采用同一模型进行标注,有利于简化操作、提高识别速度。
其中,关键字大数据库的形成方法为:收集常见的票据种类,找出票据内容中的关键字,将票据种类和票据内容的关键字一一对应,保存在关键字大数据库中。识别票据关键字的方法为:识别票据内容中的字段,将票据内容中的字段与关键字大数据库中的关键字进行比对,找到与关键字一致的字段,作为票据种类的关键字,如果没有找到与关键字一致的字段,则需要进行人工指定票据的种类,并根据人工指定信息更新关键字大数据库。
进一步,票据内容识别具体为:
S1021:通过深度学习领域中的图片标注工具对票据图片集中的所有票据图片进行票据区域的标注,同时对每个票据区域标注其待识别字段区域和该区域所记载的字符信息,在标注好的票据图片集中,随机选取80%的票据图片文件形成训练样本集,将剩余20%的票据图片文件作为测试样本集;
S1022:将深度学习网络VGG-Net16的前4层作为基础网络层,并结合金字塔网络形成票据区域检测模型的网络结构,将训练样本集中的票据图片作为票据区域检测模型的输入,将标注的票据区域数据信息作为票据区域检测模型的输出,进行迭代训练,直到票据区域检测模型在测试样本集上的输出准确率大于预先给定的阈值,得到训练好的票据区域检测模型;
S1023:将深度学习网络VGG-Net16的前4层作为基础网络层,并结合金字塔网络形成待识别区域检测模型的网络结构,将训练样本集中的票据区域标注图片作为待识别区域检测模型的输入,将标注的待识别字段区域数据信息作为待识别区域检测模型的输出,进行迭代训练,直到待识别区域检测模型在测试样本集上的输出准确率大于预先给定的阈值,得到训练好的待识别区域检测模型;
S1024:以faster-rcnn作为网络结构,对待识别字段区域图片中的单个字符区域进行检测,得到单个字符区域图像;
S1025:以VGG-Net16作为网络结构,将单个字符区域图像作为输入,将待识别区域所记载的字符信息作为输出,进行待识别区域记载信息识别模型的训练,直到待识别区域检测模型在测试样本集上的输出准确率大于预先给定的阈值,得到训练好的待识别区域记载信息识别模型;
S1026:依次加载训练好的票据区域检测模型文件、待识别区域检测模型文件、待识别区域记载信息识别模型文件,并启动票据区域分割的Web接口服务,以Base64编码的形式返回每张票据区域图片的信息。
扫描仪或各种影像设备在拍摄票据图片时会将许多与票据无关的背景信息摄入其中,并且可能会将多张票据同时拍摄到一张图片中,本发明基于深度学习方法建立票据区域检测模型,识别票据图片集中对财务做账有用的票据区域,并在此基础上,通过建立待识别区域检测模型和待识别区域记载信息模型对票据内容进行识别,识别结果准确率高,进一步提高了本发明的使用效果。
进一步,步骤S3根据票据内容进行票据分类具体为:
S201:根据票据内容的关键字组合和票据分类模板中的关键字组合进行比对,对票据进行分类,票据分类具体包括主营业务收入、或办公费、或租赁费、或车辆使用费、或差旅费、或库存商品;
S202:对票据分类进行核查,编辑票据分类信息;
S203:保存票据分类信息;
S204:更新票据分类模板。
本发明根据票据的关键字和票据分类模板对票据进行分类,同时用户可以根据公司的实际情况对票据分类信息进行修改,不仅保证了票据分类的准确性,而且提高了票据分类的通用性。
其中,票据分类模板的形成过程为:收集常见的票据种类,按照常规做法将票据内容中的一个或几个关键字的组合与各种票据分类一一对应,保存在票据分类模板中。关键字组合和票据分类分为公司级别(用户公司的分类方法)和全局级别(所有公司的分类方法),首先在公司级别找对应的关键字组合,对票据进行分类;如果在公司级别没有找到对应的关键字组合,就在全局级别中找,如果在多个公司的分类中找到对应的关键字组合,但是各个公司的分类方法不同,则按照多数公司的做法进行分类;如果在全局级别没有找到对应的关键字组合,则需要人工进行分类,并根据人工分类信息更新票据分类模板。
本发明实现了准确的票据分类,有利于保证后续票据凭证生成的准确性。
进一步,根据权利要求1所述的一种票据处理自动生成凭证的方法及装置,其特征在于,步骤S5还包括异常票据筛选,当票据为重复票据、或者票据的税率计算不符合国家标准或开票时间不正常时,标记为异常票据,在后续步骤中不再处理。
在对票据生成凭证之前,根据票据内容对票据进行筛选,去掉其中的重复票据、税率不合规定的票据和开票时间不正常的票据,进一步保证了凭证生成结果的准确性。
进一步,连接扫描仪,获得票据的图像信息,包括:
S1001:连接扫描仪,读取票据的图像信息;
S1002:对票据的图像信息进行处理,包括图片压缩、和/或图片增强、和/或去背景处理、和/或图片方向校正。
本发明在通过扫描仪得到票据图像信息之后,对内容模糊、拍摄变形和拍摄场景复杂的票据进行预处理,使票据信息易于识别,进而提高了票据内容识别的准确率。
实施例二
如图2所示,基于与前述实施例中一种票据处理自动生成凭证的方法同样的发明构思,本发明还提出了一种票据处理自动生成凭证的装置,包括
第一获得单元,用于获得票据图片集;
识别单元,用于对票据内容进行识别;
分类单元,用于根据票据内容进行票据分类;
第二获得单元,用于获得凭证输出方式;
第三获得单元,用于根据凭证输出方式得到预生成凭证的票据;
第四获得单元,用于根据票据内容得到目录类型,并根据目录类型、票据分类、纳税人类型、会计准则和减税税率准则获取对应的会计科目;
第五获得单元,用于获得票据合并方式;
凭证生成单元,用于根据票据合并方式,生成凭证预览;
第一输入输出单元,用于输出凭证预览,并进行核查和编辑。
第一存储单元,用于保存凭证和编辑凭证信息。
进一步,识别单元包括
票据种类识别单元,用于识别票据种类;
票据内容识别单元,用于根据票据种类,分别识别票据内容并保存。
进一步,票据内容识别单元包括
第七获得单元,用于获得票据图片的训练样本集和测试样本集、获得每个票据区域中的待识别字段区域和该区域记载的字符信息;
第一迭代单元,用于获得票据区域检测模型;
第二迭代单元,用于获得待识别区域检测模型;
第八获得单元,用于获得单个字符区域图像;
第三迭代单元,用于获得待识别区域记载信息识别模型;
第九获得单元,用于根据票据区域检测模型、待识别区域检测模型和待识别区域记载信息识别模型得到票据内容中的必要信息。
进一步,分类单元包括
比较单元,用于将票据内容的关键字组合与票据分类模板中的关键字组合进行比对,对票据进行初步分类;
第二输入输出单元,用于输出票据分类信息并编辑票据分类信息;
第二存储单元,用于保存票据分类信息;
读写单元,用于更新票据分类模板。
进一步,还包括判断单元,用于判断票据是否为重复票据、票据的税率计算是否符合国家标准或开票时间是否正常,如果票据为重复票据、或者票据的税率计算不符合国家标准或开票时间不正常,则判断为异常票据。
进一步,第一获得单元包括
第十一获得单元,用于获得票据的图像信息;
图像处理单元,用于对获得的票据图像信息进行处理,使票据图像更清晰。
本发明票据处理自动生成凭证的装置通过连接扫描仪,自动获得票据图片集,并通过对票据内容的识别和分析,最终根据用户需要生成相应的凭证,整个过程无需人工参与,降低了人工劳动强度,而且提高了票据信息采集的准确度;凭证生成方法灵活多样,便于对票据信息进行多方位的分析,进一步提高了做账系统的智能化。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种票据处理自动生成凭证的方法,其特征在于,包括:
S1:连接扫描仪,获得票据图片集;
S2:根据得到的票据图片集,识别得到票据内容;
S3:根据票据内容进行票据分类,票据分类具体为:主营业务收入、办公费、租赁费、车辆使用费、差旅费、库存商品;
S4:获得凭证输出方式,包括生成单张票据的凭证、生成多张票据的凭证、生成某一票据分类的凭证和生成全部票据的凭证;
S5:根据凭证输出方式,得到预生成凭证的票据;
S6:根据票据内容得到目录类型,并根据目录类型、票据分类、纳税人类型、会计准则和减税税率准则获取对应的会计科目;如果步骤S4中凭证输出方式为生成多张票据的凭证、生成某一票据分类的凭证和生成全部票据的凭证,执行步骤S7;如果步骤S4中凭证输出方式为生成单张票据的凭证,执行步骤S8;
S7:获得票据合并方式,包括根据票据分类生成合并凭证或根据目录类型生成合并凭证,并根据票据合并方式对多张票据进行合并生成凭证;再执行步骤S9;
S8:生成凭证预览,并进行核查和编辑; 再执行步骤S9;
S9:保存凭证;
S10:保存编辑凭证信息;
其中,步骤S2具体为:
S101:票据种类识别:识别票据内容中的字段,并与关键字大数据库进行比对,提取票据的关键字,根据票据的关键字得到票据种类,票据种类包括增值税专用发票、增值税普通发票、火车票、银行对账单;
S102:同一票据种类的票据内容识别:根据票据种类,分别识别票据内容,保存票据内容;
所述票据内容识别具体为:
S1021:通过深度学习中的图片标注工具对票据图片集中的所有票据图片进行票据区域的标注,同时对每个票据区域标注其待识别字段区域和该区域所记载的字符信息,在标注好的票据图片集中,随机选取80%的票据图片形成训练样本集,将剩余20%的票据图片作为测试样本集;
S1022:将深度学习网络VGG-Net16的前4层作为基础网络层,并结合金字塔网络形成票据区域检测模型的网络结构,将训练样本集中的票据图片作为票据区域检测模型的输入,将标注的票据区域数据信息作为票据区域检测模型的输出,进行迭代训练,直到票据区域检测模型在测试样本集上的输出准确率大于预先给定的阈值,得到训练好的票据区域检测模型;
S1023:将深度学习网络VGG-Net16的前4层作为基础网络层,并结合金字塔网络形成待识别区域检测模型的网络结构,将训练样本集中的票据区域标注图片作为待识别区域检测模型的输入,将标注的待识别区域数据信息作为待识别区域检测模型的输出,进行迭代训练,直到待识别区域检测模型在测试样本集上的输出准确率大于预先给定的阈值,得到训练好的待识别区域检测模型;
S1024:以faster-rcnn作为网络结构,对待识别区域图片中的单个字符区域进行检测,得到单个字符区域图像;
S1025:以VGG-Net16作为网络结构,将单个字符区域图像作为输入,将待识别区域所记载的字符信息作为输出,进行待识别区域记载信息识别模型的训练,直到待识别区域记载信息识别模型在测试样本集上的输出准确率大于预先给定的阈值,得到训练好的待识别区域记载信息识别模型;
S1026:依次加载训练好的票据区域检测模型文件、待识别区域检测模型文件、待识别区域记载信息识别模型文件,并启动票据区域分割的Web接口服务,以Base64编码的形式返回每张票据区域图片的信息;
步骤S5还包括异常票据筛选,当票据为重复票据或者票据的税率计算不符合国家标准或开票时间不正常时,标记为异常票据,在后续步骤中不再处理。
2.根据权利要求1所述的一种票据处理自动生成凭证的方法,其特征在于,步骤S3根据票据内容进行票据分类具体为:
S201:根据票据内容的关键字组合和票据分类模板中的关键字组合进行比对,对票据进行分类;
S202:对票据分类进行核查,编辑票据分类信息;
S203:保存票据分类信息;
S204:更新票据分类模板。
3.根据权利要求1所述的一种票据处理自动生成凭证的方法,其特征在于,连接扫描仪,获得票据的图像信息,包括:
S1001:连接扫描仪,读取票据的图像信息;
S1002:对票据的图像信息进行处理,包括图片压缩、图片增强、去背景处理、图片方向校正。
4.一种票据处理自动生成凭证的装置,实现权利要求1所述的一种票据处理自动生成凭证的方法,其特征在于,包括:
第一获得单元,用于获得票据图片集;
识别单元,用于对票据内容进行识别;
分类单元,用于根据票据内容进行票据分类;
第二获得单元,用于获得凭证输出方式;
第三获得单元,用于根据凭证输出方式得到预生成凭证的票据;
第四获得单元,用于根据票据内容得到目录类型,并根据目录类型、票据分类、纳税人类型、会计准则和减税税率准则获取对应的会计科目;
第五获得单元,用于获得票据合并方式;
凭证生成单元,用于根据票据合并方式,生成凭证预览;
第一输入输出单元,用于输出凭证预览,并进行核查和编辑;
第一存储单元,用于保存凭证和编辑凭证信息;
其中,所述识别单元包括:
票据种类识别单元,用于识别票据种类;
票据内容识别单元,用于根据票据种类,分别识别票据内容并保存,包括:
第七获得单元,用于获得票据图片的训练样本集和测试样本集、获得每个票据区域中的待识别字段区域和该区域记载的字符信息;
第一迭代单元,用于获得票据区域检测模型;
第二迭代单元,用于获得待识别区域检测模型;
第八获得单元,用于获得单个字符区域图像;
第三迭代单元,用于获得待识别区域记载信息识别模型;
第九获得单元,用于根据票据区域检测模型、待识别区域检测模型和待识别区域记载信息识别模型得到票据区域图片的信息。
5.根据权利要求4所述的一种票据处理自动生成凭证的装置,其特征在于,分类单元包括:
比较单元,用于将票据内容的关键字组合与票据分类模板中的关键字组合进行比对,对票据进行初步分类;
第二输入输出单元,用于输出票据分类信息并编辑票据分类信息;
第二存储单元,用于保存票据分类信息;
读写单元,用于更新票据分类模板。
CN201910604155.9A 2019-07-05 2019-07-05 一种票据处理自动生成凭证的方法及装置 Active CN110414927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910604155.9A CN110414927B (zh) 2019-07-05 2019-07-05 一种票据处理自动生成凭证的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910604155.9A CN110414927B (zh) 2019-07-05 2019-07-05 一种票据处理自动生成凭证的方法及装置

Publications (2)

Publication Number Publication Date
CN110414927A CN110414927A (zh) 2019-11-05
CN110414927B true CN110414927B (zh) 2023-04-07

Family

ID=68360444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910604155.9A Active CN110414927B (zh) 2019-07-05 2019-07-05 一种票据处理自动生成凭证的方法及装置

Country Status (1)

Country Link
CN (1) CN110414927B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210329A (zh) * 2019-12-31 2020-05-29 航天信息软件技术有限公司 会计凭证的生成方法、装置、存储介质和电子设备
CN111429242B (zh) * 2020-03-18 2023-04-28 中国工商银行股份有限公司 转贴现票据组合推送方法及装置
CN111462388A (zh) * 2020-03-19 2020-07-28 广州市玄武无线科技股份有限公司 一种票据检验方法、装置、终端设备及存储介质
CN111126367A (zh) * 2020-04-01 2020-05-08 国网电子商务有限公司 一种图像分类方法及系统
CN111583158B (zh) * 2020-05-19 2022-09-23 国网吉林省电力有限公司 一种背景简化表达的票据电子影像压缩存储方法
CN111986015B (zh) * 2020-06-18 2024-04-30 励程 提取财务信息用于记账的方法和系统
CN113034256A (zh) * 2021-04-09 2021-06-25 杭州职业技术学院 一种财务票据的规整和分类系统
CN113052669A (zh) * 2021-04-16 2021-06-29 杭州职业技术学院 一种财务用便于核对的记账系统
CN114817615B (zh) * 2022-06-27 2022-10-21 广州盛祺信息科技股份有限公司 一种会计原始凭证快速扫描及云端管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454363B1 (en) * 2000-08-03 2008-11-18 Igt Method and apparatus for voucher sorting and reconciliation in soft count process
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN108765118A (zh) * 2018-05-18 2018-11-06 北京大账房网络科技股份有限公司 票据混扫生成凭证的方法及系统
CN108961021A (zh) * 2018-05-18 2018-12-07 北京大账房网络科技股份有限公司 利用智能移动设备拍照生成凭证的方法及系统
CN109636557A (zh) * 2018-12-11 2019-04-16 厦门商集网络科技有限责任公司 一种基于票据识别的智能分类记账方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454363B1 (en) * 2000-08-03 2008-11-18 Igt Method and apparatus for voucher sorting and reconciliation in soft count process
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN108765118A (zh) * 2018-05-18 2018-11-06 北京大账房网络科技股份有限公司 票据混扫生成凭证的方法及系统
CN108961021A (zh) * 2018-05-18 2018-12-07 北京大账房网络科技股份有限公司 利用智能移动设备拍照生成凭证的方法及系统
CN109636557A (zh) * 2018-12-11 2019-04-16 厦门商集网络科技有限责任公司 一种基于票据识别的智能分类记账方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于链接线的自然场景文字检测技术的研究;王家伟;《中国优秀硕士学位论文全文数据库信息科辑》;20190115(第01期);第17-27页 *

Also Published As

Publication number Publication date
CN110414927A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110414927B (zh) 一种票据处理自动生成凭证的方法及装置
CN107622255B (zh) 基于位置模板与语义模板的票据图像字段定位方法及系统
CN105678612A (zh) 移动端原始凭证电子化智能填单系统及方法
US11455784B2 (en) System and method for classifying images of an evidence
CN107657267B (zh) 产品潜在用户挖掘方法及装置
CN110929580A (zh) 一种基于ocr的财务报表信息快速提取方法及系统
CN111325205B (zh) 文档图像方向识别方法、装置及模型的训练方法、装置
CN113963147B (zh) 一种基于语义分割的关键信息提取方法及系统
CN114202755A (zh) 基于ocr和nlp技术的交易背景真实性审核方法和系统
CN108764302A (zh) 一种基于颜色特征和词袋特征的票据图像分类方法
CN115017272B (zh) 基于登记数据的智能核验方法及装置
CN111931780A (zh) 一种会计凭证智能管理方法及设备
CN115018513A (zh) 数据巡检方法、装置、设备及存储介质
CN111462388A (zh) 一种票据检验方法、装置、终端设备及存储介质
CN110197140A (zh) 基于文字识别的材料审核方法及设备
CN114511866A (zh) 数据稽核方法、装置、系统、处理器及机器可读存储介质
CN112508000B (zh) 一种用于ocr图像识别模型训练数据生成的方法及设备
CN111428725A (zh) 数据结构化处理方法、装置和电子设备
KR102392644B1 (ko) 유사도 기반의 문서 분류 장치 및 방법
US20220172301A1 (en) System and method for clustering an electronic document that includes transaction evidence
CN114663899A (zh) 金融票据的处理方法、装置、设备及介质
CN113239126A (zh) 一种基于bor方法的业务活动信息标准化方案
CN112634048A (zh) 一种反洗钱模型的训练方法及装置
CN111223230A (zh) 一种基于crnn算法的发票文件真伪识别方法
CN111986015A (zh) 提取财务信息用于记账的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240416

Address after: 710100 11a-1-5, Chang'an innovation and entrepreneurship center, Wenyuan Middle Road, Guodu street, Chang'an District, Xi'an City, Shaanxi Province

Patentee after: Shaanxi taoding Information Technology Co.,Ltd.

Country or region after: China

Address before: 710000 Room 102, block a, Chang'an cultural center, Wenyuan South Road, Guodu Street office, Chang'an District, Xi'an City, Shaanxi Province

Patentee before: Xi'an Network Computing Data Technology Co.,Ltd.

Country or region before: China